不重復(fù)抽樣下總體比例的估計(jì)

2011-03-09 06:37管宇

統(tǒng)計(jì)與決策 2011年12期

管宇

（浙江農(nóng)林大學(xué) 統(tǒng)計(jì)系，浙江臨安 311300）

0 引言

其中，z為標(biāo)準(zhǔn)正態(tài)分布的分位點(diǎn)Φ(z)=1－α/2，1－α是置信概率或稱置信水平。由于超幾何分布是離散分布，而正態(tài)分布是連續(xù)分布，因此考慮對(duì)其進(jìn)行連續(xù)性修正[1,2]：

正態(tài)近似產(chǎn)生的誤差主要與P和n相關(guān)，P接近于0和1時(shí)誤差相當(dāng)大，文獻(xiàn)[1]列出了正態(tài)近似的最小np值與n值。

除正態(tài)近似外，Burstein[4]提出由二項(xiàng)分布近似超幾何分布而借用二項(xiàng)參數(shù)的置信區(qū)間略作修正近似成為p的置信區(qū)間，當(dāng)然此時(shí)二項(xiàng)參數(shù)的置信區(qū)間要盡可能準(zhǔn)確。本文研究比較區(qū)間CI1、CI2、CI3的統(tǒng)計(jì)性質(zhì)，以決定它們的取舍。

1 范圍概率

設(shè)總體比例P未知，經(jīng)不重復(fù)抽樣得樣本比例p，約定置信水平1－α。設(shè)[L(p),U(p)]為P的一置信區(qū)間，在常規(guī)意義下區(qū)間估計(jì)應(yīng)該滿足

但是，超幾何分布是有限離散隨機(jī)變量，除極個(gè)別點(diǎn)P值外，對(duì)于（0,1）區(qū)間中的幾乎所有P值來(lái)說(shuō)，等式（4）精確成立是不可能的。為此，我們稱P{L(p)≤P≤U(p)}為置信區(qū)間[L(p),U(p)]的范圍概率，簡(jiǎn)記CP{L(p),U(p)}或CP。如果要求對(duì)所有P∈(0,1)，都有CP≥1－α，這樣的區(qū)間稱為精確置信區(qū)間（Exact confidence level）；特別地，人們希望這些區(qū)間的長(zhǎng)度都是最短的，此時(shí)稱為短的精確置信區(qū)間[5]。不難想象精確置信區(qū)間是沒(méi)有簡(jiǎn)單的顯式表達(dá)形式的，必須借助計(jì)算機(jī)進(jìn)行編程運(yùn)算才能獲得。因此，統(tǒng)計(jì)家們作出了各種短的精確置信限表以方便人們需要時(shí)查閱。我國(guó)國(guó)家標(biāo)準(zhǔn)庫(kù)“數(shù)據(jù)的統(tǒng)計(jì)處理和解釋”中就有一些置信限表，如GB/T 10094-2009正態(tài)分布分位數(shù)與變異系數(shù)的置信限、GB/T4087-2009二項(xiàng)分布可靠度單側(cè)置信下限等。

另外，精確置信區(qū)間要求范圍概率不得低于置信水平，必然造成在某些時(shí)候估計(jì)過(guò)于保守。假若對(duì)于某P值，有兩個(gè)置信區(qū)間I1和I2（表達(dá)式復(fù)雜程度一樣），它們的范圍概率分別等于0.956和0.948，那么恐怕大多數(shù)人會(huì)選擇I2而不要I1，雖然前者的范圍概率低于要示的置信水平0.95，但其與0.95的絕對(duì)誤差明顯小于后者。因此，尋找與置信水平誤差較小而表達(dá)式簡(jiǎn)單的近似置信區(qū)間具有非?，F(xiàn)實(shí)的實(shí)用價(jià)值。

定理1置信區(qū)間CI1、CI2、CI3對(duì)應(yīng)的范圍概率分別為

吳喜之[6]指出置信區(qū)間CI1的下限可能會(huì)出現(xiàn)負(fù)值，其實(shí)我們只需要將負(fù)值下限修改為0，同樣地凡遇到大于1的上限修改為1。由于這不是問(wèn)題的關(guān)鍵，通常文獻(xiàn)中（如[5]）都不特別強(qiáng)調(diào)，只要在使用（本文區(qū)間CI1、CI2、CI3和它們的范圍概率）時(shí)略加注意就行。

置信區(qū)間CI1和CI2因?yàn)楸磉_(dá)式簡(jiǎn)單而廣泛地出現(xiàn)在統(tǒng)計(jì)手冊(cè)[7]和“抽樣技術(shù)”教材[1,2]，CI3則表達(dá)形式略顯復(fù)雜。表1和圖1列出了這三個(gè)區(qū)間的范圍概率的一些數(shù)據(jù)，其中表1中N=10000、M分別取遍1至9999所有整數(shù)，minCP表示P= M/N中范圍概率的最小值即最壞的范圍概率，n2-、n1-、n1+、n2+分別為范圍概率與置信水平的差落入?yún)^(qū)間 [kα/5,(k+1)α/5)(k =-2,-1,0,1)的比例。顯然n1+越大越好，其次是n1-+n1+越大越好。如水平1－α=0.90、0.95、0.99時(shí)，n1-和n1+分別代表落入?yún)^(qū)間[0.88,0.90)和[0.90,0.92)、[0.94,0.95)和[0.95,0.96)、[0.988,0.99)和[0.99,0.992)。

圖1顯示了H(10000,M,100)對(duì)應(yīng)的區(qū)間CI1、CI2、CI3的范圍概率曲線，M取遍1至5000的所有整數(shù)，P=M/N。因超幾何分布關(guān)于M對(duì)稱的，故只需顯示一半即可。CI1的范圍概率明顯偏小，特別是水平0.99時(shí)只有2%多點(diǎn)達(dá)到0.99。CI2在水平0.90和0.95時(shí)偏保守，但在水平0.99時(shí)則只有約1/ 3達(dá)到目的0.99，不同水平下范圍概率分布不平衡。而且CI1和CI2的最壞情形時(shí)范圍概率都只有0.1，當(dāng)M/N＜0.05時(shí)它們的范圍概率都明顯小于置信水平。區(qū)間CI3的范圍概率絕大部分都在置信水平附近，對(duì)于水平0.90、0.95、0.99相應(yīng)的n1-+n1+分別是達(dá)到88%、85%、73%；只有M/N＜0.02時(shí)范圍概率才有些大的波動(dòng)，但最壞時(shí)與置信水平差距最多約0.1。表1中的后六行列出H(10000,M,20)和H(10000,M,2000)相應(yīng)區(qū)間CI3范圍概率數(shù)據(jù)，顯然抽樣樣本容量n越大，范圍概率分布越集中于置信水平附近，區(qū)間CI3估計(jì)效果越好；樣本容量n越小，范圍概率分布越分散，估計(jì)效果略差些。但是，即使樣本容量n只有20（抽樣比f(wàn)=0.002），最壞情形與置信水平相差至多約0.11。

圖1 H(10000,M,100)的置信區(qū)間CI1、CI2、CI3(行：自下往上)對(duì)應(yīng)于置信水平0.90、0.95、0.99(列：從左往右)的范圍概率曲線

表1 區(qū)間CI1、CI2、CI3的最小范圍概率和落入置信水平附近區(qū)域的比率

2 結(jié)論

[1]Cochran W G.抽樣技術(shù)[M].張堯庭,吳輝譯.北京:中國(guó)統(tǒng)計(jì)出版社,1984.

[2]李金昌主編.應(yīng)用抽樣技術(shù)[M].北京:科學(xué)出版社,2007.

[3]雷欽禮.總體比例置信區(qū)間的確定[J].山西財(cái)經(jīng)學(xué)院學(xué)報(bào),1996,(2).

[4]Burstein H.Finite Population Correction for Binomial Confidence Limits[J].Journal of the American Statistical Association,1975,70 (349).

[5]Kabaila P,Byrne J.Comparion of Poisson Confidence Intervals [J].Communications in Statistics-Theory and Methods,2005,34.

[6]吳喜之.不同總體量和樣本量時(shí)如何計(jì)算比例的置信區(qū)間[J].統(tǒng)計(jì)與信息論壇,2005,20(3).

[7]茆詩(shī)松主編.統(tǒng)計(jì)手冊(cè)[M].北京:科學(xué)出版社,2003.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

不重復(fù)抽樣下總體比例的估計(jì)

0 引言

1 范圍概率

2 結(jié)論