管宇
(浙江農(nóng)林大學(xué) 統(tǒng)計(jì)系,浙江 臨安 311300)
其中,z為標(biāo)準(zhǔn)正態(tài)分布的分位點(diǎn)Φ(z)=1-α/2,1-α是置信概率或稱置信水平。由于超幾何分布是離散分布,而正態(tài)分布是連續(xù)分布,因此考慮對(duì)其進(jìn)行連續(xù)性修正[1,2]:
正態(tài)近似產(chǎn)生的誤差主要與P和n相關(guān),P接近于0和1時(shí)誤差相當(dāng)大,文獻(xiàn)[1]列出了正態(tài)近似的最小np值與n值。
除正態(tài)近似外,Burstein[4]提出由二項(xiàng)分布近似超幾何分布而借用二項(xiàng)參數(shù)的置信區(qū)間略作修正近似成為p的置信區(qū)間,當(dāng)然此時(shí)二項(xiàng)參數(shù)的置信區(qū)間要盡可能準(zhǔn)確。本文研究比較區(qū)間CI1、CI2、CI3的統(tǒng)計(jì)性質(zhì),以決定它們的取舍。
設(shè)總體比例P未知,經(jīng)不重復(fù)抽樣得樣本比例p,約定置信水平1-α。設(shè)[L(p),U(p)]為P的一置信區(qū)間,在常規(guī)意義下區(qū)間估計(jì)應(yīng)該滿足
但是,超幾何分布是有限離散隨機(jī)變量,除極個(gè)別點(diǎn)P值外,對(duì)于(0,1)區(qū)間中的幾乎所有P值來(lái)說(shuō),等式(4)精確成立是不可能的。為此,我們稱P{L(p)≤P≤U(p)}為置信區(qū)間[L(p),U(p)]的范圍概率,簡(jiǎn)記CP{L(p),U(p)}或CP。如果要求對(duì)所有P∈(0,1),都有CP≥1-α,這樣的區(qū)間稱為精確置信區(qū)間(Exact confidence level);特別地,人們希望這些區(qū)間的長(zhǎng)度都是最短的,此時(shí)稱為短的精確置信區(qū)間[5]。不難想象精確置信區(qū)間是沒(méi)有簡(jiǎn)單的顯式表達(dá)形式的,必須借助計(jì)算機(jī)進(jìn)行編程運(yùn)算才能獲得。因此,統(tǒng)計(jì)家們作出了各種短的精確置信限表以方便人們需要時(shí)查閱。我國(guó)國(guó)家標(biāo)準(zhǔn)庫(kù)“數(shù)據(jù)的統(tǒng)計(jì)處理和解釋”中就有一些置信限表,如GB/T 10094-2009正態(tài)分布分位數(shù)與變異系數(shù)的置信限、GB/T4087-2009二項(xiàng)分布可靠度單側(cè)置信下限等。
另外,精確置信區(qū)間要求范圍概率不得低于置信水平,必然造成在某些時(shí)候估計(jì)過(guò)于保守。假若對(duì)于某P值,有兩個(gè)置信區(qū)間I1和I2(表達(dá)式復(fù)雜程度一樣),它們的范圍概率分別等于0.956和0.948,那么恐怕大多數(shù)人會(huì)選擇I2而不要I1,雖然前者的范圍概率低于要示的置信水平0.95,但其與0.95的絕對(duì)誤差明顯小于后者。因此,尋找與置信水平誤差較小而表達(dá)式簡(jiǎn)單的近似置信區(qū)間具有非?,F(xiàn)實(shí)的實(shí)用價(jià)值。
定理1置信區(qū)間CI1、CI2、CI3對(duì)應(yīng)的范圍概率分別為
吳喜之[6]指出置信區(qū)間CI1的下限可能會(huì)出現(xiàn)負(fù)值,其實(shí)我們只需要將負(fù)值下限修改為0,同樣地凡遇到大于1的上限修改為1。由于這不是問(wèn)題的關(guān)鍵,通常文獻(xiàn)中(如[5])都不特別強(qiáng)調(diào),只要在使用(本文區(qū)間CI1、CI2、CI3和它們的范圍概率)時(shí)略加注意就行。
置信區(qū)間CI1和CI2因?yàn)楸磉_(dá)式簡(jiǎn)單而廣泛地出現(xiàn)在統(tǒng)計(jì)手冊(cè)[7]和“抽樣技術(shù)”教材[1,2],CI3則表達(dá)形式略顯復(fù)雜。表1和圖1列出了這三個(gè)區(qū)間的范圍概率的一些數(shù)據(jù),其中表1中N=10000、M分別取遍1至9999所有整數(shù),minCP表示P= M/N中范圍概率的最小值即最壞的范圍概率,n2-、n1-、n1+、n2+分別為范圍概率與置信水平的差落入?yún)^(qū)間 [kα/5,(k+1)α/5)(k =-2,-1,0,1)的比例。顯然n1+越大越好,其次是n1-+n1+越大越好。如水平1-α=0.90、0.95、0.99時(shí),n1-和n1+分別代表落入?yún)^(qū)間[0.88,0.90)和[0.90,0.92)、[0.94,0.95)和[0.95,0.96)、[0.988,0.99)和[0.99,0.992)。
圖1顯示了H(10000,M,100)對(duì)應(yīng)的區(qū)間CI1、CI2、CI3的范圍概率曲線,M取遍1至5000的所有整數(shù),P=M/N。因超幾何分布關(guān)于M對(duì)稱的,故只需顯示一半即可。CI1的范圍概率明顯偏小,特別是水平0.99時(shí)只有2%多點(diǎn)達(dá)到0.99。CI2在水平0.90和0.95時(shí)偏保守,但在水平0.99時(shí)則只有約1/ 3達(dá)到目的0.99,不同水平下范圍概率分布不平衡。而且CI1和CI2的最壞情形時(shí)范圍概率都只有0.1,當(dāng)M/N<0.05時(shí)它們的范圍概率都明顯小于置信水平。區(qū)間CI3的范圍概率絕大部分都在置信水平附近,對(duì)于水平0.90、0.95、0.99相應(yīng)的n1-+n1+分別是達(dá)到88%、85%、73%;只有M/N<0.02時(shí)范圍概率才有些大的波動(dòng),但最壞時(shí)與置信水平差距最多約0.1。表1中的后六行列出H(10000,M,20)和H(10000,M,2000)相應(yīng)區(qū)間CI3范圍概率數(shù)據(jù),顯然抽樣樣本容量n越大,范圍概率分布越集中于置信水平附近,區(qū)間CI3估計(jì)效果越好;樣本容量n越小,范圍概率分布越分散,估計(jì)效果略差些。但是,即使樣本容量n只有20(抽樣比f(wàn)=0.002),最壞情形與置信水平相差至多約0.11。
圖1 H(10000,M,100)的置信區(qū)間CI1、CI2、CI3(行:自下往上)對(duì)應(yīng)于置信水平0.90、0.95、0.99(列:從左往右)的范圍概率曲線
表1 區(qū)間CI1、CI2、CI3的最小范圍概率和落入置信水平附近區(qū)域的比率
[1]Cochran W G.抽樣技術(shù)[M].張堯庭,吳輝譯.北京:中國(guó)統(tǒng)計(jì)出版社,1984.
[2]李金昌主編.應(yīng)用抽樣技術(shù)[M].北京:科學(xué)出版社,2007.
[3]雷欽禮.總體比例置信區(qū)間的確定[J].山西財(cái)經(jīng)學(xué)院學(xué)報(bào),1996,(2).
[4]Burstein H.Finite Population Correction for Binomial Confidence Limits[J].Journal of the American Statistical Association,1975,70 (349).
[5]Kabaila P,Byrne J.Comparion of Poisson Confidence Intervals [J].Communications in Statistics-Theory and Methods,2005,34.
[6]吳喜之.不同總體量和樣本量時(shí)如何計(jì)算比例的置信區(qū)間[J].統(tǒng)計(jì)與信息論壇,2005,20(3).
[7]茆詩(shī)松主編.統(tǒng)計(jì)手冊(cè)[M].北京:科學(xué)出版社,2003.