張大林 劉福波
【摘 要】本文主要研究了區(qū)間估計的概念,并得出了區(qū)間估計的相關(guān)原理. 其目的是加深人們對區(qū)間估計原理的理解,特別是對以前一些誤區(qū),進行全部了解。同時深入的學(xué)習(xí)了解了區(qū)間估計、置信區(qū)間、置信水平、區(qū)間精確度、可靠度這些知識,并理解了它們之間的關(guān)系以及聯(lián)系。此外區(qū)間估計的實例應(yīng)用與生活有著密切的聯(lián)系,既讓所學(xué)知識學(xué)以致用, 又充分體現(xiàn)了數(shù)學(xué)與生活息息相關(guān)。
【關(guān)鍵詞】區(qū)間估計;置信區(qū)間;求解;實例應(yīng)用
中圖分類號: R446.11文獻標識碼: A文章編號: 2095-2457(2019)10-0012-004
DOI:10.19694/j.cnki.issn2095-2457.2019.10.004
The Principle of Interval Estimation and Its Application
ZHANG Da-lin LIU Fu-bo
(School of Mathematics and Statistics,Qiannan Normal University for Nationalities,Duyun Guizhou 558000, China)
【Abstract】The thesis mainly studies the concept of interval estimation and derives the correlation principle of interval estimation. Its purpose is to deepen people's understanding of the principle of interval estimation, especially the previous misunderstandings. At the same time, they learned in depth the knowledge of interval estimation,confidence interval, confidence level, interval accuracy and reliability, and understood the relationship between them. In addition, the examples of interval estimation apply a close connection with life, which not only allows students to learn what they have learned, but fully reflects mathematics. This is closely related to life.
【Key words】Interval estimation; Confidence interval; Solving; Application
0 引言
隨著科學(xué)技術(shù)的普及,數(shù)理統(tǒng)計知識的重要性逐漸被人意識到.在統(tǒng)計過程中參數(shù)的估計是一個不可或缺的部分,尤其是在上世紀60年代之后,計算機的發(fā)展更是推動這一領(lǐng)域的發(fā)展.在生活中,區(qū)間估計更是隨處可見.產(chǎn)品優(yōu)次品的檢驗、產(chǎn)品的使用壽命、銷售業(yè)績的評估、各類保險費用評估等。
1 區(qū)間估計概述
參數(shù)估計可以這樣理解,在一組數(shù)據(jù)中對一定的樣本量進行選擇,之后對所有數(shù)據(jù)的分布條件預(yù)估,數(shù)據(jù)的分布空間,實際上就是預(yù)估得到的相關(guān)數(shù)據(jù),所以我們也將這一過程稱為區(qū)間預(yù)估,目前來說,使用比較廣泛的預(yù)估方法有方差預(yù)估和均值預(yù)估兩種。還有一種預(yù)估方式是點預(yù)估,指的是通過一個確定的點對參數(shù)進行估計,但是這種預(yù)估方法不能將預(yù)估的精度和誤差反映出來,于是人們在此基礎(chǔ)上發(fā)展出了參數(shù)空間的概念,通過參數(shù)的空間,能夠?qū)c預(yù)估的結(jié)果進行有效的度量。
區(qū)間估計指的是從空間中抽一定的樣本量,然后對整組數(shù)據(jù)的分布情況進行預(yù)估,并將預(yù)估的結(jié)果作為整體分布的大致空間,并在進行預(yù)估時,其所需要的精度能夠達到相應(yīng)的要求。該估計能夠處于特定的概率水平并對估計值所對應(yīng)的取值范圍進行相應(yīng)的判斷,進而對樣本序列所對應(yīng)的聚集、離散的程度進行認知。然而由于異常值能夠使得所進行估計的區(qū)間出現(xiàn)誤差,而且該推斷是基于一定概率的基礎(chǔ)上所產(chǎn)生的,因而沒能考慮到小概率事件所帶來的一系列影響。
估算區(qū)間,第一步,對確定的置信區(qū)間1-α掌握,在總體參數(shù)θ的大小位于某特定區(qū)間范圍內(nèi)的時候,概率置信區(qū)間1-α的情況下,這一區(qū)間可以確定為最終要求的空間,將這一過程用數(shù)學(xué)公式進行表示為Pθ( L≤θ≤ U),其中 L, U是區(qū)間估計時需要進行統(tǒng)計的量,( L, U)即為置信區(qū)間。因為預(yù)估的空間來源于樣本,而樣本的選取帶有隨機性,所以預(yù)估的空間也是不確定的。在日常生活中,人們所說對于某件事情有多少把握,其實也是一種空間預(yù)估。
1934年,著名統(tǒng)計學(xué)家J.奈曼創(chuàng)建了一種區(qū)間估計理論,并對其進行了嚴格的規(guī)定。根據(jù)J.奈曼對于空間的理論,進行空間求解過程中,一般都需要進行一下三種操作:(1)為保證空間的準確性,需要大量使用樣本。(2)利用已知的抽樣分布情況。(3)在得到預(yù)估空間之后,要利用假設(shè)檢驗的方法對其驗證。[1]
2 區(qū)間估計及置信區(qū)間
2.1 區(qū)間估計的概念
假設(shè)在一組數(shù)中有一個總參數(shù)θ,存在一組樣本x1,L,xn,而我們需要根據(jù)既有的樣本進行空間預(yù)估,找到兩個參數(shù) L= U(x1,L,xn)和 U= U(x1,L,xn),同時量參數(shù)之間的關(guān)系為 L< U,經(jīng)過觀察,在知道了樣本的觀測值值以后,對總參數(shù)θ空間展開估算,這個區(qū)間的范圍通常在[ L, U]這個值域中,因為采取隨機的方式選擇樣本,預(yù)測的區(qū)間帶有明顯的不確定性這樣的特征.且[ L, U]區(qū)間將全部的參數(shù)全部涵蓋的可能性幾乎為0.所以人們對于區(qū)間[ L, U]的估計的要求是盡量使蓋住θ的概率Pθ( L≤θ≤ U)盡可能大,但是這一要求與區(qū)間分布的長度之間又有一定的矛盾,為了解決這一問題,我們一般會給定區(qū)間涵蓋參數(shù)的概率,這樣得到的區(qū)間更具有可比性,于是在此基礎(chǔ)上產(chǎn)生了置信區(qū)間.
2.2 置信區(qū)間的概念
當對樣本所在的空間進行構(gòu)建,所得到的空間即為置信區(qū)間。在統(tǒng)計學(xué)領(lǐng)域中,對樣本的某個部分的區(qū)間進行預(yù)估,所得到的空間即為置信區(qū)間(Confidence interval)。它展現(xiàn)出來的是數(shù)據(jù)落在這一范圍內(nèi)的概率,具有實際的預(yù)估意義.用另一種方式表達這個概率,即可信水平,很多時候也叫做置信水平。[2]
置信區(qū)間代表的意義就是:樣本容量固定為n,假如對總體進行N=1000次抽樣,就得到了1000個置信區(qū)間,這些區(qū)間有的包含θ的真實值,有的不包含.但假設(shè)當置信度1-α=95%時,這一千個區(qū)間就大約有1000×95%=950個包含了θ的真實值.例如,如果在一次投票選舉活動中得知某位選手的支持率為55%,并得知其置信水平0.95以上的置信區(qū)間是(50%,60%),那么在實際投票過程中,該位選手的支持率在百分之五十到六十之間的概率將會超過95%,由此可以得出該選手支持率過辦的概率超過 98%。與上述實例中的表示方法一致,人們在表示置信水平的時候一般都是使用百分數(shù)表示,所以上述中提到的0.95上的置信區(qū)間也可用百分數(shù)的形式來表示:95%置信區(qū)間.區(qū)間的兩端的值的另外叫法為置信極限。
2.3 置信區(qū)間定義
一組數(shù),如果存在總參數(shù)θ,樣本為一組x1,L,xn,這個組數(shù)據(jù)對應(yīng)的空間的參數(shù)則是E,如果α(0<α<1)已定, L= L(x1,L,xn)與 U= U(x1,L,xn)必定存在 L< U,在θ符合θ∈E的情況下,符合Pθ( L≤θ≤ U)≥1-α,θ的置信水平是1-α的情況下,置信區(qū)間對應(yīng)的范圍是[ L, U]。置信水平1-α可以表示為:當多次的對θ所對應(yīng)的置信區(qū)間[ L, U]進行不斷的使用時,使用過程中所產(chǎn)生的樣本觀測值是不一樣的,而且與之相對應(yīng)的區(qū)間也不相同,就每次產(chǎn)生的觀測值來說,θ所對應(yīng)的范圍有幾率處于[ L, U]中,也有幾率不處于該范圍的里面,但是按照平均水平來說,一般會有100(1-α)%包含θ。
參數(shù)θ雖然是一個未知量,但就數(shù)據(jù)本身而言,它是一個常數(shù),常數(shù)沒有隨機性,但區(qū)間[ L, U]具有隨機性。所以不等式Pθ( L≤θ≤ U)≥1-α也可以理解為:隨機區(qū)間[ L, U]通過1-α的概率對θ所對應(yīng)的真值進行包含,但是不可以理解為θ通過1-α的概率處于[ L, U]所對應(yīng)的隨機區(qū)間中.
舉個例子假設(shè)α=0.01,不斷的對參數(shù)進行1000次抽樣,這一抽樣的過程中,不包含θ真值的樣本約為10個。
例1如果N(μ,σ2)的樣本有10個,用x1,x2,…,x10表示這些樣本,在置信水平確定的條件下1-α,對其置信區(qū)間進行計算,得
對上面的式子進行計算需要計算樣本的平均和方差,也就是x,s。
解:若取α=0.50,則t0.95(9)=1.8331,上式化為
現(xiàn)假定μ=15,σ2=4,我們用隨機模擬的方式在N(15,4)中產(chǎn)生一個樣本,樣本的數(shù)量為去10,產(chǎn)生的樣本為:
通過該樣本能夠求出x=14.705,s=1.843,進而求出μ所對應(yīng)的一個區(qū)間是:
[14.705-0.5797×1.843,14.705+0.5797×1.843]=[13.637,15.773]。
這個區(qū)間中的μ所對應(yīng)的真值為-15.如今不斷的使用100次這一方法,能夠獲得相應(yīng)的樣本100個,進而獲得相應(yīng)的區(qū)間100個,把該100個區(qū)間在圖上繪制出來,通過圖2能夠發(fā)現(xiàn),擁有參數(shù)真值等于15的區(qū)間共91個,其余的幾個沒有參數(shù)真值,這可以被當做對置信水平1-α=0.90所做出的一個合理解釋。
假設(shè)α=0.50,那么t0.75(9)=0.7027,則μ的置信水平為0.50的置信區(qū)間為
該區(qū)間也包含了參數(shù)真值,類似地,我們也可以給出100個這樣的區(qū)間,見圖3。由圖可知,在這100個區(qū)間中,包含真值15的有50個,其他不包括真值.這是置信水平1-α=0.50的一個合理解釋。
通過定義能夠發(fā)現(xiàn),想要有效的對參數(shù)θ進行相應(yīng)的區(qū)間估計,需要把依靠樣本的兩個界限找出來:
當將這一樣本找出來時,將θ的值從[ L, U]中估算出來。
針對[ L, U]這一區(qū)間,我們所作出的要求為該區(qū)間能夠包含θ,也就是說Pθ( L≤θ≤ U)需要比較大的值,即滿足空間的可靠性,同時要求區(qū)間的長度 U- L越短越好。以保證空間的精確度,但是這兩者本質(zhì)上存在著矛盾,我們的做法是在保證可靠度在一定范圍內(nèi)時提高精確度.
3 如何計算區(qū)間估計
3.1 區(qū)間估計的計算方法
(1)確定要估計的參數(shù)θ(一般為μ,σ2)
(2)根據(jù)樣本和總體的條件,能夠獲得所對應(yīng)的置信區(qū)間的公式:
[ L(x1,L,xn), U(x1,L,xn)]
(3)樣本值和的置信度所進行計算的的相應(yīng)范圍為:
[ L(x1,L,xn), U(x1,L,xn)]
3.2 求解置信區(qū)間的一般步驟
(1)尋求一個樣本x1,x2,L,xn的函數(shù):
Z=Z(x1,x2,L,xn;θ)
(2)Z是一個數(shù)字的集合,其分布情況與參數(shù)無關(guān),所以如果給定一個置信度1-α, 會存在兩個常數(shù)a和b,滿足以下公式:
P{a≤z(x1,x2,L,xn;θ)≤b}=1-α
(3)根據(jù)上述公式的條件a≤z(x1,x2,L,xn;θ)≤b,將公式進行簡化,可得到 L≤θ≤ U,式中的 L= L(x1,L,xn), U= U(x1,L,xn)都是根據(jù)對樣本進行統(tǒng)計之后得到的數(shù)據(jù)。.
上面的計算屬于等價變性,同時有Pθ{ L≤θ≤ U}=1-α,可以說[ L, U]屬于θ的置信水平是1-α的置信區(qū)間。
例2已知一種材料在抗壓能力上滿足正態(tài)分布, 現(xiàn)在這批材料中隨機選取10各樣本,測得的耐壓值為:
482 493 457 471 510 446 435 418 394 469
(1)結(jié)合相關(guān)數(shù)據(jù),計算抗壓水平μ的置信度是的置信區(qū)間;
(2)要是σ=30確定,計算平均抗壓水平μ的置信度是的置信區(qū)間;
解(1)因為σ未知,所以在置信區(qū)間的計算時要使用t:
x= ×(482+493+457+471+510+446+435+418+394+469)=457.5,s=35.2176
μ的置信水平為的置信區(qū)間為:
[x- t (n-1), + t (n-1)],
通過表求出t1-0.025(9)=2.2622,因此μ所對應(yīng)的置信水平為的置信區(qū)間是:
[457.5-2.2622×35.2176/ ,457.5+2.2622×35.2176/ ]
=[432.306,482.6936].
(2)當σ=30時,通過Z統(tǒng)計量對置信區(qū)間進行相應(yīng)的計算,因此μ所對應(yīng)的置信水平為的置信區(qū)間是:
[x- μα/2,x+ μα/2],
通過查閱表能夠發(fā)現(xiàn):μ1-0.025(9)=1.96,因此μ所對應(yīng)的置信水平為95%的置信區(qū)間是:
[457.5-1.96×30/ ,457.5+1.96×30/ ]
=[438.9058,476.0942]
4 正態(tài)總體均值的區(qū)間估計
4.1 單個總體N(μ,σ2)的情況
置信水平1-α被相應(yīng)的確認,N(μ,σ2)所對應(yīng)的樣本為x1,x2,L,xn,x,s2,分別表示為樣本均值和方差。
4.2 均值μ的置信區(qū)間
4.2.1 σ2為已知
μ所對應(yīng)的置信水平是1-α的置信區(qū)間是{x- zα/2,x+ zα/2},該區(qū)間所對應(yīng)的長度是2× zα/2。
相應(yīng)的推導(dǎo)為:由于x作為μ的沒偏差的估計,而且Z= ~N(0,1), ~N(0,1)對所有不知道的參數(shù)都不依靠,通過標準正態(tài)分布所對應(yīng)的情況,將α分位點表示為:
P= ≤z =1-α,
也可以說為P={x- zα/2≤μ≤x+ zα/2}=1-α,μ所對應(yīng)的置信水平是1-α的置信區(qū)間為
- z ≤μ≤ + z ,
這樣的置信區(qū)間常寫成
± z 。
例3包糖機某日開工包了12包糖,稱得重量(單位:克)分別為506,500,495,488,504,486,505,513,
521,520,512,485.假設(shè)重量服從正態(tài)分布,且標準差為σ=10,試求糖包的平均重量μ的1-α置信區(qū)間(分別取α=0.10和α=0.05)。[3]
解σ=10,n=12計算得x=502.92
(1)當α=0.10時,1- =0.95,查表得zα/2=z0.05=1.645,
- z =502.96- ×1.645=498.17,
- z =502.96+ ×1.645=507.67,
即μ的置信度為的置信區(qū)間為[498.17,507.67]。
(2)當α=0.05,1- =0.975,查表得z =z0.025=1.96,同理可得μ置信度為95%的置信區(qū)間為[497.26,508.58]。
4.2.2 σ2為未知
μ的一個置信度為1-α的置信區(qū)間為 ± t (n-1)。由于區(qū)間 ± z 中含有未知參數(shù)σ,不能直接使用此區(qū)間.但因為s2是σ2的無偏估計,可用s= 替換σ,根據(jù)定理推論知 ~t(n-1),P-t (n-1)≤ ≤t (n-1)=1-α,即P - t (n-1)≤μ≤ + t (n-1)=1-α,確定μ的置信水平是1-α的置信區(qū)間: ± t (n-1)。
例4有很多重量未知的糖果,按照隨機的方式,自這些糖果挑選16袋稱重, 稱重如下(單位克):
506 ?508 ?499 ?503 ?504 ?510 ?497 ?512
514 ?505 ?493 ?496 ?506 ?502 ?509 ?496
當糖果所對應(yīng)的重量處于正態(tài)分布的情況時,計算出均值μ所對應(yīng)的置信水平為95%的置信區(qū)間。[4]
解α=0.05,n-1=15,查t(n-1)分布表已知:t0.025(15)=2.1315,計算得 =503.75,μ所對應(yīng)的置信水平為95%的置信區(qū)間是[503.75± ×2.1315]即[500.4,507.1].這一情況表示糖果重量所對應(yīng)的均值95%會是500.4~507.1其中一個,當該范圍中任一值都屬于μ的近視值時,其誤差不大于 ×2.1315×2=6.61(克),這個誤差的可信度為95%.
5 區(qū)間估計的實例應(yīng)用
5.1 產(chǎn)品優(yōu)次檢測
例5包糖機某日開工包了12包糖,稱得重量(單位:克)分別為506,500,495,488,504,486,505,513,
521,520,512,485.假設(shè)糖包的重量是符合正態(tài)分布的N(μ,σ2),計算出μ所對應(yīng)的95%置信區(qū)間。[5]
解此時σ未知,n=12,α=0.05,x=502.92,s=12.35查t(n-1)分布表可知:t0.025(11)=2.201,于是 t (n-1),得μ的置信度為95%的置信區(qū)間[495.07,510.77]。
5.2 保險評估
例6保險公司隨機的在所有的投保人中選出36個,并對這36個進行相應(yīng)的年齡統(tǒng)計,如下表所示,對投保人的年齡所對應(yīng)的的置信區(qū)間進行創(chuàng)建。
表1 36個投保人年齡的數(shù)據(jù)
解已知n=36,1-α=90%,zα/2=z0.05=1.645.根據(jù)樣本計算得:x=39.5,s=7.77,均值μ在達不到置信度1-α?xí)r所對應(yīng)的的置信區(qū)間為:
x±zα/2 =39.5±1.645× =39.5±2.13=(37.37,41.63)
投保人所對應(yīng)的年齡的置信區(qū)間是37.37:41.63歲.
5.3 產(chǎn)品使用壽命
例7燈泡使用壽命方面滿足正態(tài)分布,第一步測試燈泡的平均壽命位于置信區(qū)間按照隨機的方式,對16只燈泡展開測試,具體測量情況顯示如下。
表2 16只燈泡使用壽命的數(shù)據(jù)
解已知X~N(μ,σ2),n=16,1-α=95%,tα/2(n-1)=t0.025(15)=2.131,根據(jù)樣本數(shù)據(jù)計算得:x=1490;s=24.77,總體均值μ沒有達到1-α置信水平,所對應(yīng)的置信區(qū)間為: ±t ?=1490±13.2=(1476.8,1503.2).這一類型的燈泡所能使用的平均壽命對應(yīng)的置信區(qū)間是1476.8~1503.2小時。
6 結(jié)束語
通過本次設(shè)計,深入的學(xué)習(xí)了解了區(qū)間估計、置信區(qū)間、置信水平、區(qū)間精確度、可靠度,并理解了它們之間的關(guān)系以及聯(lián)系,更加熟練的掌握并運用區(qū)間估計方面的知識。
【參考文獻】
[1]茆詩松,程依明,濮曉龍.概率論與數(shù)理統(tǒng)計教程(第二版)[M].北京:高等教育出版社,2011.2(2015.12重?。?
[2]馮忠蕙.置信區(qū)間估計與應(yīng)用(六)[J].中國兒童保健雜志,1999年6月第7卷第2期.
[3]李鵬祥.樣本容量對總體均值區(qū)間估計精度的影響[J].黃岡師范院學(xué)報,2009,12.
[4]呂黎明.關(guān)于非正態(tài)總體的區(qū)間估計[J].長春師范學(xué)院學(xué)報(自然科學(xué)版),2005,6,第24卷第2期.
[5]朱丹丹,朱紅兵,何麗娟.參數(shù)區(qū)間估計方法在體育調(diào)查中的應(yīng)用[J].科技創(chuàng)新導(dǎo)刊,2017,第34期.
[6]樊明智,王芬.區(qū)間估計與假設(shè)檢驗[J].河南許昌學(xué)院 數(shù)學(xué)系,2006.
[7]何春.關(guān)于污染數(shù)據(jù)的區(qū)間估計[J].廣東工業(yè)大學(xué)學(xué)報,2001年9月,第18卷第3期.