穆廣杰
(鄭州航空工業(yè)管理學(xué)院,鄭州 450015)
T檢驗,亦稱student t檢驗(Student's t test),主要用于樣本容量較小(例如n<30),總體方差δ2未知的正態(tài)分布數(shù)據(jù)。用來判斷樣本與樣本,樣本與總體的差異是由抽樣誤差引起還是本質(zhì)差別造成的統(tǒng)計推斷方法。亦稱“顯著性檢驗(Test of statistical significance)”,其基本原理是先對總體的特征做出某種假設(shè),然后通過抽樣樣本的統(tǒng)計推斷,做出對此假設(shè)應(yīng)該被拒絕還是接受的推斷。其基本思想是小概率反證法。小概率是指小概率事件(P<0.01或P<0.05)在一次試驗中基本上不會發(fā)生。反證法是先提出檢驗假設(shè)H0,再用適當(dāng)?shù)慕y(tǒng)計方法確定假設(shè)成立的可能性大小,如可能性小,則認(rèn)為假設(shè)不成立,若可能性大,則還不能認(rèn)為假設(shè)不成立,在實際工作中T檢驗使用范圍較廣。但也存在著局限性,即T檢驗的失效。充分研究其產(chǎn)生失效性的理論基礎(chǔ)避免使用時錯誤,并對T檢驗的失效可能造成的后果有所控制,可以使其發(fā)揮更大的作用
假設(shè)檢驗根據(jù)問題的要求,設(shè)是A關(guān)于總體分布的一項命題,所有使命題A成立的總體分布構(gòu)成一個集合HA,稱為原假設(shè)H0,使命題A不成立的所有總體分布構(gòu)成另一個集合HB,稱為備擇假設(shè)H1。對一個假設(shè)H0進行檢驗,就是制定一個規(guī)則,使得有了樣本以后,根據(jù)這規(guī)則可以決定是接受(即承認(rèn)命題A正確),還是拒絕它(即否認(rèn)命題A正確)。這樣,所有可能的樣本所組成的樣本空間被劃分為兩部分HA和HB(HA的補集),HA?HB=φ,當(dāng)樣本x∈HA時,接受假設(shè)H0,拒絕H1;當(dāng)x∈HB時,拒絕H0,接受H1。用檢驗進行分析判斷,以接受一個,拒絕另一個。命題的對立性及“僅選其一”的規(guī)定,從邏輯上來說,應(yīng)當(dāng)不會出現(xiàn)兩者都接受或都拒絕這樣的兩可結(jié)論。但是實際中存在這樣的情況:兩個對立命題HA和HB,以同一樣本數(shù)據(jù)進行檢驗,當(dāng)以HA為H0時,接受H0,即接受HA;當(dāng)以HB為H0時,結(jié)果同樣是接受H0,即接受HB。出現(xiàn)了某樣本既屬于集合HA,同時屬于HB的悖論。
例1:某種元件的壽命X(以小時計)服從正態(tài)分布N(μ,σ2),μ,σ2未知?,F(xiàn)測得16只元件壽命如下:159,280,101,212,224,379,179,264,222,362,168,250,149,260,485,170,問是否有理由認(rèn)為元件的平均壽命大于225(小時)?
HA:原假設(shè)H0:μ≤225H1:μ>225,則H0的拒絕域為,現(xiàn) 有 n=16,α =0.05,查 表 得t0.05(15)=1.7531,計 算 得xˉ=241.5 ,s=98.73 ,故 有t=0.6685<1.7531,t值沒有落在拒絕域中,即認(rèn)為元件平均壽命都不大于225小時。
HB:建立假設(shè)H0:μ≥225H1:μ<225,則H0的拒絕域為
故有t=0.6685>-1.7531,t值沒有落在拒絕域中,即認(rèn)為元件平均壽命都不小于225小時。綜合HA、HB的結(jié)論,二者唯一的交集是μ=225。但是這是一個在實際中幾乎不可能的結(jié)果,可以認(rèn)為兩個結(jié)論是相反的。對立命題都能通過檢驗而被接受時,T檢驗似乎失去了判斷真?zhèn)蔚哪芰?,這時T檢驗失效了。
假設(shè)檢驗的理論基礎(chǔ),是小概率事件的實際不可能性原理,即概率很小的隨機事件在個別的實驗中是不可能發(fā)生的。在假設(shè)檢驗的操作中,我們選取事件“當(dāng)H0為真時拒絕H0”,并計算其發(fā)生概率(p值)。這是一個小概率事件。通過選擇顯著性水平α,設(shè)定“小概率”的標(biāo)準(zhǔn)。當(dāng)p<α?xí)r,小概率事件在一次抽樣中發(fā)生,違背了實際不可能性,認(rèn)為應(yīng)當(dāng)拒絕H0從而接受H1。反之,則不違背小概率事件原理,不能拒絕H0。
不難看出,p值度量的是H0為真時,某個極不容易發(fā)生的事件的發(fā)生概率,換言之,p值度量的是不利于原假設(shè)的證據(jù)強度。p值越小,越反對H0,p值足夠小時(p<α),即可推翻原假設(shè)。根據(jù)小概率事件的原理,我們根據(jù)p值拒絕h0是有相當(dāng)大把握的。也就是說對于簡單原假設(shè),只要參數(shù)假設(shè)值不完全等于真值,那么通過增大樣本容量,總是可以拒絕包含“相等”意義的原假設(shè)。
但是如果p值還沒有小到可以拒絕H0的水平,則沒有理由反對H0。但是否就是有充分理由接受H0呢?答案是否定的。H0是我們正在求證的總體效應(yīng),T檢驗則不能提供這個總體效應(yīng)到底有多大或多重要的信息。因此我們只能說,不能拒絕H0。如例1,不拒絕H0:μ≤225和不拒絕H1:μ>225,是不矛盾的。不拒絕并不意味著接受。實際上在假設(shè)H0實際上為真時,我們可能犯拒絕H0的錯誤,這被稱為“棄真”錯誤,也叫第一類錯誤(α值)。又當(dāng)H0實際上不真時,我們也有可能接受H0,這類錯誤被稱為第二類錯誤(β值),又叫“取偽”錯誤。兩類錯誤產(chǎn)生的根本原因是抽樣。樣本只是總體的一部分,因此可能的樣本不止一個,而抽到的樣本具有很大的偶然性。用局部數(shù)據(jù)作為總體數(shù)據(jù)的估計不可能完全正確,基于此估計而作的檢驗產(chǎn)生錯誤的可能也就不可避免。
T檢驗的一個重大不足就是不能度量第二類錯誤(β值)的大小,但是希望它越小越好。但是在樣本容量固定的情況下,若減少犯第一類錯誤的概率,則犯第二類錯誤的概率往往增大。要使兩類錯誤的概率都減小,則必須增大樣本容量。那么什么情況下H0能被接受呢?由于接受域的中心是參數(shù)真值,故只有當(dāng)假設(shè)值θ0完全等于真值θ,才能使無論樣本量多大,H0可以總能被接受。而這是不現(xiàn)實的。
實際中使用T檢驗去研究一個總體參數(shù)θ,都存在一個任意小的正數(shù)ε,使得當(dāng) ||θ-θ0<ε時,可視為θ=θ0,(θ-ε,θ+ε)稱為θ的無差別區(qū)域。不斷增大的樣本會將θ與θ0之間的微小差別顯現(xiàn)出來(通過不斷減小的p值),并以p值為據(jù),否定θ=θ0的原假設(shè)。檢驗本身并沒有錯,因為θ的確不是恰好就是θ0,但是如此“敏感”地找出應(yīng)用中可忽略的差別,就沒有使用上的重要性了。無差別區(qū)域的存在,要求樣本容量必須具有上限。而控制第二類錯誤(β值)則要求樣本容量具有下限。二者對樣本容量的反向要求可能導(dǎo)致檢驗故障,因此必須在二者之間找到平衡,以達到檢驗的目標(biāo)。
假設(shè)檢驗的兩個結(jié)論在邏輯上可以共存,但是在實際中,得到一個如此模糊的判斷是沒有意義的。我們需要的是“接受H0”或“接受H1”這樣明確的論斷,來指導(dǎo)行動。也就是說,只能在HA或HB中選擇其一執(zhí)行假設(shè)檢驗。這表明,兩個相反的假設(shè)檢驗中,應(yīng)當(dāng)有一種形式更符合現(xiàn)實的狀況,而能被直接采用。這就涉及到原假設(shè)的選擇原則。
仍以例1分析,如果做檢驗的是該電子元件的買方,根據(jù)自己的使用經(jīng)驗或廠家信譽,認(rèn)為元件的平均壽命不超過225小時,只有非常有利于生產(chǎn)方的觀察結(jié)果,才能改變對元件壽命的消極看法,于是就會提出H0:μ≤225作為原假設(shè)。同樣,如果買方相信元件平均壽命不小于225小時,沒有非常充分的理由,不應(yīng)改變對廠方的信任,就會以H0:μ≥225為原假設(shè)??瓷先ピ僭O(shè)的選擇完全取決于檢驗者的個人意志,不夠嚴(yán)謹(jǐn),但是,這種意志包含符合檢驗者地位的背景信息,根據(jù)這種個人意志選擇原假設(shè)而得出的結(jié)論,確定是有實用價值的。
據(jù)此探討原假設(shè)的選擇原則。假設(shè)檢驗的原理決定了H0一旦確定,接下來就是通過抽樣顯示的信息,來計算其作為原假設(shè)的反證據(jù)的強度。因此,原假設(shè)無疑處于被懷疑的地位。同時,由于小概率事件的實際不可能性,一次抽樣拒絕H0的可能性(α)大大小于接受的可能性(1-α),因此,原假設(shè)又是處于被保護地位的。通常我們采用的假設(shè)檢驗是顯著性檢驗,它是通過對α的設(shè)定控制第一類錯誤(棄真錯誤),而不考慮第二類錯誤的概率,但我們希望“取偽”的概率越低越好,這一點也要加以考慮。因此,根據(jù)原假設(shè)上述三個性質(zhì),可以得出建立原假設(shè)的三個基本原則:
①將研究者想收集證據(jù)予以反對的命題作為原假設(shè)。
②對于某些存在有改進、更新的問題的檢驗內(nèi)容,出于謹(jǐn)慎考慮,應(yīng)將已存在的狀態(tài)作為原假設(shè)H0,而將新改進反映在備選假設(shè)H1中。
③所有假設(shè)檢驗都可能犯兩類錯誤,但有些假設(shè)檢驗犯兩類錯誤所導(dǎo)致的后果的嚴(yán)重程度差別很大,則根據(jù)原假設(shè)的保護原則,將可能造成嚴(yán)重后果的錯誤設(shè)置為第一類錯誤,使之處于檢驗者控制下,而將其對應(yīng)命題作為原假設(shè)H0。如:新藥的毒副作用檢驗中有兩種可能錯誤:a新藥有毒,而誤認(rèn)為無毒;b新藥無毒,而誤認(rèn)為有毒。顯然錯誤a比b后果嚴(yán)重,因其可能危害用藥者生命健康。因此將a設(shè)為第一類錯誤。則建立假設(shè):H0:新藥有毒,H1:新藥無毒,則H0為真時拒絕H0的“棄真”錯誤,此處為“新藥有毒而認(rèn)為其無毒”錯誤,通過顯著性水平α的選擇,使其發(fā)生概率小到可接受的范圍內(nèi)。
大樣本有可能帶來檢驗的失真(實際意義而非理論意義上的),那么恰當(dāng)確定樣本容量就可以成為避免失效的手段。
(1)抽樣過程中樣本容量的控制
假設(shè)檢驗的操作過程大致可分為兩階段:第一階段是分析研究,建立原假設(shè)和備擇假設(shè)。這個階段可能要使抽樣調(diào)查,即通過抽取樣本處理之后,獲取對總體參數(shù)的估計等資料。理論上這不屬于假設(shè)檢驗,但是假設(shè)檢驗的前提。因為要判斷“θ=θ0”的命題,確定θ0不能是無根無據(jù)的。如果沒有可資利用的材料(例如經(jīng)驗值和對參數(shù)的說明),就需要先抽樣估計進行確定。為保證估計的精度,抽樣估計中樣本量的確定有一整套技術(shù)手段。雖然仍不免誤差,但是可信度較高,可以視為真值。假設(shè)檢驗通常是在調(diào)查之后再抽取其他部分,就是驗證其是否與調(diào)查結(jié)論一致。調(diào)查是前探型的,檢驗是回溯型的。一般地,檢驗的樣本量小于調(diào)查的樣本量,此時不會出現(xiàn)檢驗失效。故得出T檢驗樣本容量上限確定的一個方法:在抽樣調(diào)查確定的n1和功效干預(yù)確定的n2中,若n1≤n2,則取n1為樣本容量,即樣本上限不超過抽樣調(diào)查的樣本量。
(2)功效干預(yù)
對于不需通過抽樣調(diào)查的T檢驗,如果所得的樣本容量不超過30,可以直接采用。其微小的干擾效應(yīng)也不容易表現(xiàn)出來。
如果樣本容量超過30,可以采用功效控制法來確定樣本量。n>30,T分布趨近于標(biāo)準(zhǔn)正態(tài)分布,故可記Ft≈Φ(x)。
對于均值的檢驗,可建立H0:μ=μ0,H1:μ≠μ0,顯著性水平為α,為避免T檢驗的失效,希望對于μ∈(μ0-ε,μ0+ε),拒絕H0的概率(α′)也較小,顯然α′>α,令α′=kα(k≥1),而接受H0的概率為β(μ)≥1-α′。
已知
因Ft≈Φ(x),而相應(yīng)分位點亦逼近,故記t′≈μ′
故β(μ)=1-α+Φ(-μ′)-Φ(-μ′-Ω)-Φ(μ′)+Φ(μ′-Ω)=1-α+1- Φ(μ′)-1+ Φ(μ′+ Ω)-[Φ(μ′)- Φ(μ′- Ω)]利用拉格郎日中值定理,得β(μ)=1-α+Ω[Φ′(ζ2)-Φ′(ζ1)]=1-α+ Ω(ζ2-ζ1)Φ″(ζ3)]
其中,ζ1∈(μ′,μ′+Ω),ζ2∈(μ′- Ω,μ′),ζ3∈(ζ1,ζ2)
Φ″(x)=,當(dāng)x=1時,有最大值,又ζ2-ζ1< 2Ω ,
所以:β(μ)≥1-α-又μ∈(μ0-ε,μ0+ε),因此:,對于α′=Kα(k≥1),使β(μ)≥1-α′=1-α-(k-1)α成立則要求1)α,即此時,檢驗失效的情況應(yīng)當(dāng)不會出現(xiàn)。
(3)樣本容量的最終確定
①μ=μ0時:1-β(μ)≤α;②μ∈(μ0-ε,μ0+ε)時:1-β(μ)≤α′;③ ||μ-μ0≥δ時β(μ)≤β??梢院玫貙崿F(xiàn)控制兩類錯誤及避免檢驗失效的目標(biāo)。
通過以上分析,可以發(fā)現(xiàn)利用控制樣本容量可以控制t檢驗的失效。在進行T檢驗時:首先,利用公式-1)α確定樣本容量的上限,使β(μ)降低;其次,根據(jù)研究對象的特點確定正確的樣本容量,原則是盡可能的接近其上限值;第三:若要提高H0接受概率,即降低其被拒絕的概率,可以降低K值。第四,在T檢驗的實驗中,結(jié)合方差分析、相關(guān)分析等方法,作為T檢驗結(jié)論的監(jiān)控和修正,通過參照對比,發(fā)現(xiàn)不同種方法結(jié)論的差異,避免由于單獨使用T檢驗而有可能產(chǎn)生的失誤。
[1] 盛驟,謝式千,潘承毅.概率論與數(shù)理統(tǒng)計[M].北京:高等教育出版社,2001,(3).
[2] 戴維·S·穆爾,統(tǒng)計學(xué)的世界[M].北京:中信出版社,2003,(1).
[3] 張時民,配對t檢驗和相關(guān)分析中的誤區(qū)[J].江西醫(yī)學(xué)檢驗,2001,19(5).
[4] 韓志霞,張玲,P值檢驗和假設(shè)檢驗[J].邊疆經(jīng)濟與文化,2006,(4).
[5] 馮士雍,倪加勛,鄒國華,抽樣調(diào)查理論與方法[M].北京:中國統(tǒng)計出版社,1998,(1).
[6] 沈恒范,概率論與數(shù)理統(tǒng)計教程(第四版),北京:高等教育出版社,2003,(4).