陳國民
(海軍潛艇學(xué)院,山東 青島 266071)
Bootstrap法是以原始數(shù)據(jù)為基礎(chǔ)的模擬抽樣統(tǒng)計推斷法,用于研究原始數(shù)據(jù)的某統(tǒng)計量的分布特征,廣泛應(yīng)用于可信區(qū)間估計、假設(shè)檢驗等問題。當(dāng)用Bootstrap法進行統(tǒng)計分析時,需要從原樣本(樣本含量記為n)中隨機有放回地抽取n*個觀測單位,構(gòu)成Bootstrap樣本。關(guān)于Bootstrap樣本含量n*的大小,一般認(rèn)為,可以小于,等于或者大于原樣本含量n[1]。但從有關(guān)Bootstrap法的文獻來看,往往把Bootstrap樣本含量n*設(shè)置為與原樣本含量n相等[2]-[4]。本文擬運用計算機模擬方法考察Bootstrap樣本含量n*對Bootstrap法總體中位數(shù)可信區(qū)間估計效果的影響,從而探討B(tài)ootstrap樣本含量n*的設(shè)置方法。
用VFP編寫程序進行統(tǒng)計模擬研究。
模擬步驟:
(1)模擬從標(biāo)準(zhǔn)正態(tài)分布總體X~N(0,1)中隨機抽取一個樣本,樣本含量為n。
(2)從該樣本中隨機有放回抽取一個Bootstrap樣本,Bootstrap樣本含量為n*。
(3)計算獲得的Bootstrap樣本的中位數(shù)。
(4)重復(fù)步驟(2)~(3)B次(B=1000)。
(5)對求得的B個中位數(shù)按升序排序,找到2.5%(第25位)和97.5%(第975位)百分位數(shù),即為由該樣本估計的總體中位數(shù)的95%可信區(qū)間。
(6)判斷求得的95%可信區(qū)間是否包含總體中位數(shù)0,如果包含0,則記正確1次;否則記錯誤1次。
(7)重復(fù)步驟(1)~(6)1000次,得到1000個可信區(qū)間。
(8)統(tǒng)計1000個Bootstrap可信區(qū)間包含總體中位數(shù)0的百分比,該百分比即為Bootstrap法總體中位數(shù)可信區(qū)間估計正確率的估計值。
參數(shù)設(shè)置:
模擬實驗一:原樣本含量n分別設(shè)置為5,10,50,100;Bootstrap樣本含量n*分別設(shè)置為2,5,10,20,30,40,50,100,200。
模擬實驗二:原樣本含量n分別設(shè)置為2~50,100;Bootstrap樣本含量n*分別設(shè)置為n,n-1,n-2,n-3,n-4。
判斷標(biāo)準(zhǔn):正確率越接近準(zhǔn)確度100(1-α)%越好。本文α=0.05,所以,1000次模擬所得的正確率越接近95%越好。
模擬實驗一結(jié)果見表1。從中可見:不論原樣本含量n大小,Bootstrap法的正確率隨著Bootstrap樣本含量n*的增加而降低;當(dāng)Bootstrap樣本含量n*很小時,Bootstrap法的正確率遠(yuǎn)遠(yuǎn)大于95%,甚至可達100%;當(dāng)Bootstrap樣本含量n*很大時,Bootstrap法的正確率遠(yuǎn)遠(yuǎn)小于95%,甚至為0;當(dāng)Bootstrap樣本含量n*等于原樣本含量n時,正確率接近或略小于95%。由此可以推斷,當(dāng)Bootstrap樣本含量n*稍微小于原樣本含量n時,正確率可能更接近理論準(zhǔn)確度。
為了尋找最佳的Bootstrap樣本含量n*,進行模擬實驗二。結(jié)果見表2。從中可見:(1)當(dāng)Bootstrap樣本含量n*=原樣本含量n時,若原樣本含量n較小,則正確率偏低,隨著原樣本含量n增加,正確率逐漸提高并接近95%,當(dāng)原樣本含量n達到30時,正確率基本接近95%;(2)當(dāng)Bootstrap樣本含量n*=原樣本含量n-1時,正確率仍然偏低,但當(dāng)原樣本含量n達到20時,正確率基本接近95%;(3)當(dāng)Bootstrap樣本含量n*=原樣本含量n-2時,當(dāng)原樣本含量n達到10時,正確率基本接近95%;(4)當(dāng)Bootstrap樣本含量n*=原樣本含量n-3時,正確率不再偏低,當(dāng)原樣本含量n達到5時,正確率基本接近95%;(5)當(dāng)Bootstrap樣本含量n*=原樣本含量n-4時,正確率明顯偏高,但當(dāng)原樣本含量n達到30時,正確率基本接近95%。
表1 Bootstrap樣本含量n*對總體中位數(shù)可信區(qū)間估計正確率(%)的影響
表2 Bootstrap樣本含量n*對總體中位數(shù)可信區(qū)間估計的正確率(%)的影響
為了定量考察Bootstrap樣本含量n*對總體中位數(shù)可信區(qū)間估計準(zhǔn)確度的影響,計算表2中各種設(shè)置時的誤差(誤差=正確率-95),不同設(shè)置時的誤差比較見表3。由表3可見,當(dāng)Bootstrap樣本含量n*=n-3時,誤差的標(biāo)準(zhǔn)差最小,說明誤差的變異最小,同時,此時誤差的均數(shù)也最?。≒<0.05)。因此,結(jié)合前面的分析,可認(rèn)為運用Bootstrap法進行總體中位數(shù)可信區(qū)間估計時,把Bootstrap樣本含量n*設(shè)置為n-3時效果最好。
表3 各種設(shè)置時的誤差比較
從有關(guān)Bootstrap法的文獻來看,Bootstrap法的效果與Bootstrap樣本含量n*無關(guān),Bootstrap樣本含量n*可以任意設(shè)置,既可以小于原樣本含量n,又可以等于原樣本含量n,還可以大于原樣本含量n。但在實際應(yīng)用中,往往把Bootstrap樣本含量n*設(shè)置為與原樣本含量n相等[1]-[3]。從本文的模擬結(jié)果來看,Bootstrap樣本含量n*的設(shè)置對Bootstrap法準(zhǔn)確度的影響很大,尤其是當(dāng)原樣本含量n較小時,Bootstrap樣本含量n*更不能任意設(shè)置,否則,估計出來的可信區(qū)間誤差很大。模擬結(jié)果表明,當(dāng)用Bootstrap法進行總體中位數(shù)可信區(qū)間估計時,如果把Bootstrap樣本含量n*設(shè)置得過?。ㄟh(yuǎn)遠(yuǎn)小于原樣本含量n),則得到的可信區(qū)間會很“寬”,從而導(dǎo)致可信區(qū)間的準(zhǔn)確度遠(yuǎn)遠(yuǎn)高于設(shè)置的100(1-α)%;反之,如果把Bootstrap樣本含量n*設(shè)置得過大(遠(yuǎn)遠(yuǎn)大于原樣本含量n),則得到的可信區(qū)間會很“窄”,從而導(dǎo)致可信區(qū)間的準(zhǔn)確度遠(yuǎn)遠(yuǎn)低于設(shè)置的100(1-α)%。
綜合分析模擬結(jié)果,可得出如下結(jié)論:①如果原樣本含量小于5,Bootstrap法的準(zhǔn)確度過低,不宜用Bootstrap法估計總體中位數(shù)可信區(qū)間。②如果原樣本含量不小于5,Bootstrap樣本含量n*設(shè)置為原樣本含量n-3最合適,可信區(qū)間的準(zhǔn)確度非常接近理論準(zhǔn)確度100(1-α)%。③如果原樣本含量較大(大于30),Bootstrap樣本含量n*可以設(shè)置為與原樣本含量n相等,但不宜設(shè)置為大于原樣本含量n。
需要說明的是,本研究只是對正態(tài)分布資料的總體中位數(shù)可信區(qū)間估計進行了模擬試驗,而且僅設(shè)置了α=0.05這樣一種情況,其結(jié)論未必適用于其它情況。對于偏態(tài)分布資料總體中位數(shù)可信區(qū)間估計,尚需進一步的研究。
[1]蔡雪亞,金丕煥,曹素華.用Bootstrap方法計算中位數(shù)的可信區(qū)間[J].中國衛(wèi)生統(tǒng)計,2002,19(3).
[2]陳峰,陸守曾,楊珉.Bootstrap估計及其應(yīng)用[J].中國衛(wèi)生統(tǒng)計,1997,14(5).
[3]劉勤,金丕煥.Bootstrap方法及其在醫(yī)學(xué)統(tǒng)計中的應(yīng)用[J].中華預(yù)防醫(yī)學(xué)雜志,1998,32(1).
[4]敖雁,王學(xué)楓,湯在祥,等.Bootstrap方法在平均數(shù)假設(shè)測驗中的應(yīng)用[J].中國衛(wèi)生統(tǒng)計,2006,(6).