胡良平
(1.軍事科學(xué)院研究生院,北京 100850;2.世界中醫(yī)藥學(xué)會聯(lián)合會臨床科研統(tǒng)計(jì)學(xué)專業(yè)委員會,北京 100029*通信作者:胡良平,E-mail:lphu927@163.com)
在對多種統(tǒng)計(jì)量進(jìn)行比較時(shí)需要用到Z檢驗(yàn),本文將著重介紹“與Z檢驗(yàn)有關(guān)的基本概念”“正態(tài)分布與其他概率分布之間的關(guān)系”和“正態(tài)分布可用于某些其他概率分布的近似計(jì)算”這三部分內(nèi)容。
以正態(tài)分布為理論依據(jù)的假設(shè)檢驗(yàn)叫做Z檢驗(yàn)。Z只是一個(gè)符號或名稱,它本身并無特殊含義,關(guān)鍵是它所表達(dá)的內(nèi)容。例如,當(dāng)人們收集了來自單組設(shè)計(jì)一元定量資料(設(shè)結(jié)果變量名為“x”)的n個(gè)取值時(shí),將其代入下面的式(1)進(jìn)行計(jì)算,再依據(jù)正態(tài)分布的理論和方法,就可以推斷這個(gè)樣本所代表的總體均值與已知均值“μ0”之間的差別是否具有統(tǒng)計(jì)學(xué)意義。
在式(1)中,假定“標(biāo)準(zhǔn)差σ”是一個(gè)已知的常數(shù)。由此式所定義的“Z”被稱為“Z檢驗(yàn)統(tǒng)計(jì)量”,即它是一個(gè)可用于實(shí)現(xiàn)對某種“檢驗(yàn)假設(shè)”進(jìn)行檢驗(yàn)的計(jì)算公式。統(tǒng)計(jì)學(xué)家已經(jīng)證明,式(1)中定義的“Z檢驗(yàn)統(tǒng)計(jì)量”是一個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量,故可以基于樣本數(shù)據(jù)代入式(1)計(jì)算出來的結(jié)果,并依據(jù)標(biāo)準(zhǔn)正態(tài)分布的理論作出統(tǒng)計(jì)推斷。在統(tǒng)計(jì)學(xué)中,類似式(1)的公式還有多個(gè)(注意:應(yīng)用場合和公式的具體表現(xiàn)形式不盡相同),因篇幅所限,此處從略。
1.2.1 正態(tài)分布的歷史
早在1733年,A.de Moivre首先提出這種分布的方程,至19世紀(jì)初期,德國數(shù)學(xué)家C.F.Gauss與法國數(shù)學(xué)家P.S.de Laplace分別對其加以發(fā)展,但他們過分強(qiáng)調(diào)一切自然現(xiàn)象均服從正態(tài)分布。約在1924年后,經(jīng)英國數(shù)學(xué)家K.Pearson論證,正態(tài)分布只是自然界中隨機(jī)變量的一種分布形式[1-3]。因此,把“正態(tài)”作為分布的一種名稱而不作為“正常狀態(tài)”來理解,更為合適。
1.2.2 正態(tài)分布的作用
縱觀經(jīng)典統(tǒng)計(jì)學(xué)的全部內(nèi)容,正態(tài)分布在統(tǒng)計(jì)學(xué)理論中確實(shí)占有十分重要的地位,因?yàn)樗哂性S多良好的性質(zhì),是許多分布(如二項(xiàng)分布、Poisson分布、t分布、χ2分布、F分布等)在特定條件下的近似分布;另一方面,有一些重要分布(如χ2分布、t分布、F分布及其非中心分布)是由正態(tài)分布派生而來。一般情況下,若影響某一數(shù)量指標(biāo)的隨機(jī)因素很多,而每個(gè)因素所起的作用不太大,則這個(gè)指標(biāo)的取值近似服從正態(tài)分布。
1.2.3 一般正態(tài)分布的定義
若連續(xù)型隨機(jī)變量x的概率密度函數(shù)由下面的式(2)給出:
則稱x服從一般正態(tài)分布,并記作x~N(μ,σ2),其分布函數(shù)(也稱為累積概率分布函數(shù))見式(3):
1.2.4 標(biāo)準(zhǔn)正態(tài)分布的定義
由上文中的一般正態(tài)分布可知,每個(gè)實(shí)際問題對應(yīng)著一個(gè)特定的“概率密度函數(shù)(由具體的均值μ和方差σ2)”所決定。在解決實(shí)際問題時(shí),每次都可能要涉及式(2)或式(3)的復(fù)雜計(jì)算。為了簡化計(jì)算,可通過式(4)將一般正態(tài)分布轉(zhuǎn)變成標(biāo)準(zhǔn)正態(tài)分布:
由式(4)可以解出變量x,見下面的式(5):
將式(5)中等號右邊的內(nèi)容代入式(2)和式(3)等號右邊,就得到式(6)和式(7):
在式(6)和式(7)中,“Z”被稱為服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量,簡記為Z~N(0,1),其含義是:服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量Z的均值為“0”、方差為“1”;式(6)和式(7)分別被稱為“標(biāo)準(zhǔn)正態(tài)分布的概率密度函數(shù)”和“標(biāo)準(zhǔn)正態(tài)分布的累計(jì)分布函數(shù)”。
1.2.5 正態(tài)分布曲線下的面積與橫坐標(biāo)之間的關(guān)系
若x~N(μ,σ2),則有式(4)成立,且有下面的諸關(guān)系式成立:
上面的三個(gè)式子表明:標(biāo)準(zhǔn)正態(tài)分布隨機(jī)變量Z分別在區(qū)間[-1,1]、[-1.960,1.960]和[-2.576,2.576]內(nèi)取值的概率分別為0.683、0.950和0.990。即只要人們知道某個(gè)實(shí)際問題中“Z”的取值,就可以近似知道Z在某個(gè)特定區(qū)間上取值的近似概率。例如,在某個(gè)實(shí)際問題中,已知Z~N(0,1)且Z=2.003,若再做類似的重復(fù)試驗(yàn),出現(xiàn)“Z>2.0”或“Z<-2.8”的結(jié)果也是有可能的,據(jù)此,提出下面兩個(gè)問題:
問題1:“Z>2.0”的概率是多少?
問題2:“Z<-2.8”的概率是多少?
【回答】對問題1而言,依據(jù)式(9)可知:P(Z>1.960)<5%/2=2.5%,故P(Z>2.0)<2.5%;對第 2個(gè)問題而言,依據(jù)式(10)可知:P(Z<-2.576)<1%/2=0.5%,故P(Z<-2.8)<0.5%。
欲求出“P(Z>2.0)”或“P(Z<-2.8)”的精確數(shù)值,必須利用式(6)和式(7)進(jìn)行計(jì)算,因篇幅所限,此處從略。
Z檢驗(yàn)的前提條件不便一概而論,取決于針對不同實(shí)際問題所構(gòu)造的“Z檢驗(yàn)統(tǒng)計(jì)量”。就前面式(1)而言,一般要求結(jié)果變量x是定量的且近似服從正態(tài)分布,樣本含量n不應(yīng)過小,至少需為30。其他的“Z檢驗(yàn)統(tǒng)計(jì)量”,其前提條件要視具體情況而定,此處從略。
1.4.1 均值比較
服從正態(tài)分布計(jì)量資料且總體方差已知時(shí)兩算術(shù)均值比較、服從Poisson分布計(jì)數(shù)資料兩均值比較、服從偏態(tài)分布計(jì)量資料兩平均秩比較的近似檢驗(yàn)和定量資料Meta分析中的效應(yīng)指標(biāo)(標(biāo)準(zhǔn)化均值差)的比較,均可以運(yùn)用Z檢驗(yàn)。
1.4.2 率比較
兩個(gè)一般率比較常用χ2檢驗(yàn),但在一定條件下,也可以運(yùn)用Z檢驗(yàn);在對兩個(gè)率進(jìn)行非劣效性檢驗(yàn)、等效性檢驗(yàn)和優(yōu)效性檢驗(yàn)時(shí),需要采用Z檢驗(yàn)。
1.4.3 同類的一般統(tǒng)計(jì)量比較
例如:兩個(gè)偏度系數(shù)的比較、兩個(gè)峰度系數(shù)的比較、兩個(gè)Kappa(一致性)系數(shù)的比較和定性資料Meta分析中的效應(yīng)指標(biāo)(如相對危險(xiǎn)度)的比較。需注意,這里所說的“兩個(gè)”通常指:一個(gè)是一般統(tǒng)計(jì)量來自未知總體,其取值是基于樣本數(shù)據(jù)計(jì)算而得,而另一個(gè)則屬于一個(gè)已知總體中相應(yīng)的數(shù)值,即參數(shù)(如假定已知總體的偏度系數(shù)為0、假定已知總體的Kappa系數(shù)為0)。
設(shè)Z是一個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量,則標(biāo)準(zhǔn)正態(tài)分布曲線下橫坐標(biāo)上的任何一個(gè)刻度值都叫做一個(gè)“Z分位數(shù)”。例如,Z0.005=-2.576、Z0.025=-1.960、Z0.5=0;或Z0.975=1.960、Z0.995=2.576。Z的下角標(biāo)代表標(biāo)準(zhǔn)正態(tài)分布曲線下左側(cè)尾端的面積(本質(zhì)上為“概率”)。在統(tǒng)計(jì)學(xué)上,常利用分位數(shù)“Z0.975=Z1-0.05/2=1.960”來構(gòu)建服從正態(tài)分布的定量資料總體均值雙側(cè)95%置信區(qū)間,見下式:
常利用分位數(shù)“Z0.995=Z1-0.01/2=2.576”來構(gòu)建服從正態(tài)分布的定量資料總體均值雙側(cè)99%置信區(qū)間,見下式:
設(shè)t分布的概率密度函數(shù)為t(x,n),則它的表達(dá)式如下[4-5]:
基于高等數(shù)學(xué)知識,可得下式:
式(12)的含義是:在“n→ ∞”的條件下,t分布的概率密度函數(shù)的極限形式是標(biāo)準(zhǔn)正態(tài)分布概率密度函數(shù),基于此式,數(shù)學(xué)上就稱為“正態(tài)分布是t分布的極限分布”。
基于高等數(shù)學(xué)知識和中心極限定理知識等,可推導(dǎo)出如下結(jié)果:正態(tài)分布是χ2分布、F分布、二項(xiàng)分布、Poisson分布的極限分布,為節(jié)省篇幅,公式從略。
由前述可知,正態(tài)分布是t分布、χ2分布、F分布、二項(xiàng)分布和Poisson分布的極限分布。故當(dāng)涉及前述5種分布的概率密度函數(shù)(對連續(xù)型隨機(jī)變量而言)或概率函數(shù)(對離散型隨機(jī)變量而言)或分布函數(shù)的計(jì)算時(shí),若直接計(jì)算的工作量很大,可考慮利用正態(tài)分布進(jìn)行近似計(jì)算。因篇幅所限,具體計(jì)算方法從略。
正態(tài)分布不僅是Z檢驗(yàn)的理論依據(jù),也是t檢驗(yàn)和方差分析的前提條件之一,還是線性統(tǒng)計(jì)模型的建模依據(jù)(例如,要求模型的隨機(jī)誤差服從正態(tài)分布,通常是直接轉(zhuǎn)變?yōu)榭疾於恳蜃兞渴欠穹恼龖B(tài)分布,若不符合正態(tài)性要求,可采取Box-Cox變換)[6],甚至可以說,正態(tài)分布是經(jīng)典統(tǒng)計(jì)學(xué)的根基(例如,進(jìn)行很多參數(shù)假設(shè)檢驗(yàn)和區(qū)間估計(jì)時(shí)都要求各組定量資料滿足正態(tài)性、進(jìn)行Pearson相關(guān)分析時(shí)要求兩個(gè)定量變量滿足雙變量正態(tài)分布等,且許多其他概率分布的極限分布都是正態(tài)分布)。由此可知,無論是學(xué)習(xí)還是運(yùn)用統(tǒng)計(jì)學(xué),正態(tài)分布都是不可忽視的重要知識點(diǎn)或統(tǒng)計(jì)基礎(chǔ)。
本文介紹了“與Z檢驗(yàn)有關(guān)的基本概念”“正態(tài)分布與其他概率分布之間的關(guān)系”和“正態(tài)分布可用于某些其他概率分布的近似計(jì)算”三部分內(nèi)容。第一部分詳細(xì)地介紹了“Z檢驗(yàn)的適用場合”,為研究者合理選用Z檢驗(yàn)奠定必要的基礎(chǔ)。