尤亦玲 廣東財經(jīng)大學
統(tǒng)計推斷是從樣本出發(fā)推斷相應(yīng)的總體, 可以分為參數(shù)法和非參數(shù)法。早期的統(tǒng)計推斷是以大樣本為基礎(chǔ)的。自1908年,英國統(tǒng)計學家威廉·戈塞特(Willam Gosset)發(fā)現(xiàn)了t分布后,就開啟了針對小樣本的研究。1920年,費希爾(Fisher)提出了“似然(likelihood)”的概念,為世人提供了一種更為高效的統(tǒng)計推斷思維方法。1979年,美國斯坦福大學統(tǒng)計學教授Efron,提出了一種新的增廣樣本系統(tǒng)的方法,為解決小樣本的評估問題提供了新的思路,這種方法就是Bootstrap方法,也叫自助法。
統(tǒng)計學中“Bootstrap”法是指從原樣本自身的數(shù)據(jù)中不斷重復抽樣,從而獲得新的樣本及統(tǒng)計量。它的優(yōu)勢在于根據(jù)給定的原始樣本復制觀測信息,因而不需要進行分布假設(shè)或增加新的樣本信息就可以可對總體的分布特性進行統(tǒng)計推斷,屬于一種非參數(shù)統(tǒng)計方法。
Bootstrap重抽樣的基本思想是:在原始數(shù)據(jù)的范圍內(nèi)作等可能的、有放回的再抽樣, 樣本容量仍為n,原始數(shù)據(jù)中每個樣本每次被抽到的概率均為1/n , 我們將這種抽樣方法所得的樣本稱為Bootstrap樣本。每次抽樣可得到參數(shù)的一個估計值,這樣重復若干次。
設(shè)隨機樣本是獨立同分布的,。假設(shè)為總體分布F的某個參數(shù),是觀測樣本的經(jīng)驗分布函數(shù),是的估計,則可以通過以下步驟來實現(xiàn)Bootstrap估計:
第一步,對Bootstrap重復的第b次(b=1,2,…,B),先有放回地從中抽樣得到再抽樣樣本,然后根據(jù)計算;
第二步,的Bootstrap估計為的經(jīng)驗分布函數(shù)。
估計量的標準差的自助法估計,是Bootstrap重復的樣本標準差:
其中。我們將估計量的偏差定義為
事實上,根據(jù)上式計算偏差有一個很明顯的難點在于,當?shù)姆植嘉粗?,或者形式很復雜時,期望的計算也就變得很困難甚至不可能,因此在這種情況下偏差就是未知的。但是當我們擁有樣本數(shù)據(jù)時,就是的一個估計,而期望可以通過Bootstrap方法進行估計,從而得到偏差的估計:
表示Bootstrap的經(jīng)驗分布。
可見,一個估計量的Bootstrap偏差估計,就是通過已有樣本的估計量來代替,并使用的Bootstrap重復來估計。對一個有限樣本,有的B個獨立同分布的估計量,則的均值是期望的無偏估計,因此偏差的Bootstrap估計為
其中。若偏差為正,則說明在平均水平上過高估計了,反之,則說明在平均水平上低估了。因此,可以對估計量進行偏差修正,得到
1.標準Bootstrap
假設(shè)是參數(shù)的估計量,它的標準差為。如果的分布服從或近似服從正態(tài)分布,那么,當顯著性水平為,并且是的一個無偏估計時,就有的(1-)標準正態(tài)Bootstrap置信區(qū)間為
2.百分位數(shù)Bootstrap
該方法的核心在于:統(tǒng)計量在(1-)水平下的置信區(qū)間的上下限,分別為估計量的Bootstrap經(jīng)驗分布的第和第()分位點。
事實上,可以對百分位數(shù)區(qū)間做進一步修正,得到更好的Bootstrap置信區(qū)間,使其具有更好的理論性質(zhì)和實際覆蓋率。其原理是對(1-)水平下的置信區(qū)間,使用兩個因子來調(diào)整和()分位數(shù),其一為對偏差(bias)的修正,另一個是對偏度(skewness)的修正。前者記為,后者記為a。我們將這種估計方法估計的結(jié)果稱為更優(yōu)的Bootstrap置信區(qū)間,簡稱為BCa。
在計算(1-)BCa置信區(qū)間時,首先計算Bootstrap重復經(jīng)驗分布函數(shù)的分位數(shù),即BCa區(qū)間的上下界,則上述中的偏差修正因子的估計為
而加速因子是從Jackknife重復中估計得到的。
3.基本Bootstrap
在的分布未知時,由于Bootstrap重復下的樣本分位數(shù)滿足
因此,(1-)置信區(qū)間為
4.t區(qū)間Bootstrap
在多數(shù)情況下,即使?jié)M足正態(tài)分布假設(shè),且是的一個無偏估計時,也未必服從正態(tài)分布,這是因為是我們認為估計出來的。同時,由于Bootstrap估計的分布是未知的,因此也不能認為Z服從t分布。在這種情況下,前人就通過再抽樣的方法得到了一個“t類型”的統(tǒng)計量的分布,以此來改進標準Bootstrap區(qū)間估計。
假設(shè)觀測樣本,則(1-)水平下的Bootstrap t置信區(qū)間為:
根據(jù)以往的設(shè)計經(jīng)驗來看,城市居民供水系統(tǒng)多會采取管道分流方式,從城市給水系統(tǒng)中分流至各大住宅小區(qū)當中,目的在于及時供給人們?nèi)粘o嬘盟?。針對于此,建筑施工單位在進行給排水設(shè)計過程中,需要在住宅小區(qū)的管道處安裝倒流防止閥裝置,這樣做的主要目的在于避免水流出現(xiàn)嚴重的倒流問題,造成供水壓力的明顯提升。
其中通過以下方法得到:
第一步,計算觀測到的;第二步,從X中有放回地抽樣得到第b個樣本,從中再抽樣計算得到,以及Bootstrap標準差估計,據(jù)此可以計算第b個重復下的“t”統(tǒng)計量;第三步,重復上述過程,將的分布作為推斷分布,找出樣本分位數(shù);第四步,根據(jù)Bootstrap重復可得標準差估計;第五步,計算置信區(qū)間。
從上述計算過程可以發(fā)現(xiàn),Bootstrap t區(qū)間法需要進行Bootstrap嵌套,嚴重影響了計算速度。
假設(shè)我們觀察到一組樣本,從中再抽樣,依照抽到1,2,3,4,5的概率分別為0.2,0.3,0.2,0.1,0.2 進行。因此,從中隨機選擇的一個樣本,其分布函數(shù)就是經(jīng)驗分布函數(shù)。 事實上,樣本可以看作是從Poisson(2)中隨機產(chǎn)生的,因此利用R軟件我們可以實現(xiàn)對的估計,并與Poisson(2)的分布相比較,結(jié)果如下:
圖3.1 Bootstrap重抽樣的估計
R軟件中bootstrap程序包里的law82數(shù)據(jù)集,記錄了美國82所法律學校入學考試的平均成績(LSAT)和GPA,估計二者之間的相關(guān)系數(shù),并求樣本相關(guān)系數(shù)的標準差和偏差的Bootstrap估計。
對于成對數(shù)據(jù)可以通過樣本相關(guān)系數(shù)估計相關(guān)系數(shù),計算結(jié)果顯示,樣本相關(guān)系數(shù)為0.80,使用bootstrap方法估計的標準差的結(jié)果。
此外,在重復2000次下的boot函數(shù)計算的標準差估計為0.05,該結(jié)果與之前的結(jié)果相差無幾。同時,boot函數(shù)還給出了該組數(shù)據(jù)的樣本相關(guān)系數(shù)bootstrap偏差估計,其結(jié)果為-0.000727641。
通過偏差的定義自行編程進行求解,得到的結(jié)果bias=-0.0009563065,與boot函數(shù)的運算結(jié)果非常接近。
繼續(xù)針對上述law82數(shù)據(jù)集討論相關(guān)系數(shù)統(tǒng)計量的95%置信區(qū)間,利用boot包里的函數(shù)boot.ci可以直接計算得到基本bootstrap區(qū)間、標準正態(tài)bootstrap區(qū)間、百分位數(shù)bootstrap區(qū)間和BCa區(qū)間。我們還可以根據(jù)Bootstrap t區(qū)間法的定義,利用自編函數(shù)來計算相關(guān)系數(shù)置信區(qū)間,結(jié)果如下表所示:
表3.1 law82相關(guān)系數(shù)統(tǒng)計量bootstrap置信區(qū)間估計結(jié)果
由上表結(jié)果可以看出,前兩種估計方法和后三種方法的結(jié)果有較大差異,而在后三種方法中,可以看到BCa置信區(qū)間的區(qū)間長度是最小的,可以認為它的估計是較為準確的。
考慮bootstrap包里的scor考試成績數(shù)據(jù),利用pairs函數(shù)繪制每對變量的散點圖,觀察相關(guān)性。
圖4.1 scor數(shù)據(jù)集各變量散點圖
根據(jù)上圖所示結(jié)果,我們可以猜測(mec,vec),(alg,ana),(alg,st a),(ana,sta)這四組變量間可能具有較強的相關(guān)性,利用R軟件計算其相關(guān)系數(shù)分別為0.55,0.71,0.66,0.61,利用Bootstrap估計樣本相關(guān)系數(shù)標準差。
表4.1 四組變量相關(guān)系數(shù)的Bootstrap標準差估計結(jié)果
在scor數(shù)據(jù)下,記協(xié)方差矩陣為,其特征根為 ,則
表示了主成分中第一主成分對方差的解釋比例?,F(xiàn)令為樣本協(xié)方差矩陣的特征根,可以利用boot函數(shù)直接得到的Bootstrap偏差和標準差估計,程序運行結(jié)果顯示的偏差為0.0022,標準差為0.0472。
利用Bootstrap重復樣本,對的95%置信區(qū)間,分別采用百分位數(shù)和修正的百分位數(shù)Bootstrap置信區(qū)間進行估計,并更改重復次數(shù)觀察結(jié)果,如下表所示:
表4.2 的95%置信區(qū)間估計結(jié)果
由上表可知,不同的模擬次數(shù)會對置信區(qū)間的結(jié)果造成一定的影響,但總體來說差別不大。
本文基于對Bootstrap統(tǒng)計推斷方法的理論介紹,利用實際案例實現(xiàn)了在總體分布未知情況下,對樣本統(tǒng)計量的標準差、偏差估計,以及置信區(qū)間估計。其核心思想在于重復抽樣,應(yīng)用的關(guān)鍵在于理解“子樣本之于樣本,等于樣本之于總體”,優(yōu)勢之處在于小樣本增強。總的來說,Bootstrap是一種應(yīng)用十分簡便的非參數(shù)統(tǒng)計推斷方法。