如何正確運(yùn)用Z檢驗(yàn)
——Z檢驗(yàn)的基本概念與前提條件

2020-11-26 09:57胡良平

四川精神衛(wèi)生 2020年5期

胡良平

（1.軍事科學(xué)院研究生院，北京 100850；2.世界中醫(yī)藥學(xué)會聯(lián)合會臨床科研統(tǒng)計(jì)學(xué)專業(yè)委員會，北京 100029*通信作者：胡良平，E-mail：lphu927@163.com）

在對多種統(tǒng)計(jì)量進(jìn)行比較時(shí)需要用到Z檢驗(yàn)，本文將著重介紹“與Z檢驗(yàn)有關(guān)的基本概念”“正態(tài)分布與其他概率分布之間的關(guān)系”和“正態(tài)分布可用于某些其他概率分布的近似計(jì)算”這三部分內(nèi)容。

1 與Z檢驗(yàn)有關(guān)的基本概念

1.1 何為Z檢驗(yàn)

以正態(tài)分布為理論依據(jù)的假設(shè)檢驗(yàn)叫做Z檢驗(yàn)。Z只是一個(gè)符號或名稱，它本身并無特殊含義，關(guān)鍵是它所表達(dá)的內(nèi)容。例如，當(dāng)人們收集了來自單組設(shè)計(jì)一元定量資料（設(shè)結(jié)果變量名為“x”）的n個(gè)取值時(shí)，將其代入下面的式（1）進(jìn)行計(jì)算，再依據(jù)正態(tài)分布的理論和方法，就可以推斷這個(gè)樣本所代表的總體均值與已知均值“μ0”之間的差別是否具有統(tǒng)計(jì)學(xué)意義。

在式（1）中，假定“標(biāo)準(zhǔn)差σ”是一個(gè)已知的常數(shù)。由此式所定義的“Z”被稱為“Z檢驗(yàn)統(tǒng)計(jì)量”，即它是一個(gè)可用于實(shí)現(xiàn)對某種“檢驗(yàn)假設(shè)”進(jìn)行檢驗(yàn)的計(jì)算公式。統(tǒng)計(jì)學(xué)家已經(jīng)證明，式（1）中定義的“Z檢驗(yàn)統(tǒng)計(jì)量”是一個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量，故可以基于樣本數(shù)據(jù)代入式（1）計(jì)算出來的結(jié)果，并依據(jù)標(biāo)準(zhǔn)正態(tài)分布的理論作出統(tǒng)計(jì)推斷。在統(tǒng)計(jì)學(xué)中，類似式（1）的公式還有多個(gè)（注意：應(yīng)用場合和公式的具體表現(xiàn)形式不盡相同），因篇幅所限，此處從略。

1.2 何為正態(tài)分布

1.2.1 正態(tài)分布的歷史

早在1733年，A.de Moivre首先提出這種分布的方程，至19世紀(jì)初期，德國數(shù)學(xué)家C.F.Gauss與法國數(shù)學(xué)家P.S.de Laplace分別對其加以發(fā)展，但他們過分強(qiáng)調(diào)一切自然現(xiàn)象均服從正態(tài)分布。約在1924年后，經(jīng)英國數(shù)學(xué)家K.Pearson論證，正態(tài)分布只是自然界中隨機(jī)變量的一種分布形式［1-3］。因此，把“正態(tài)”作為分布的一種名稱而不作為“正常狀態(tài)”來理解，更為合適。

1.2.2 正態(tài)分布的作用

縱觀經(jīng)典統(tǒng)計(jì)學(xué)的全部內(nèi)容，正態(tài)分布在統(tǒng)計(jì)學(xué)理論中確實(shí)占有十分重要的地位，因?yàn)樗哂性S多良好的性質(zhì)，是許多分布（如二項(xiàng)分布、Poisson分布、t分布、χ2分布、F分布等）在特定條件下的近似分布；另一方面，有一些重要分布（如χ2分布、t分布、F分布及其非中心分布）是由正態(tài)分布派生而來。一般情況下，若影響某一數(shù)量指標(biāo)的隨機(jī)因素很多，而每個(gè)因素所起的作用不太大，則這個(gè)指標(biāo)的取值近似服從正態(tài)分布。

1.2.3 一般正態(tài)分布的定義

若連續(xù)型隨機(jī)變量x的概率密度函數(shù)由下面的式（2）給出：

則稱x服從一般正態(tài)分布，并記作x～N（μ，σ2），其分布函數(shù)（也稱為累積概率分布函數(shù)）見式（3）：

1.2.4 標(biāo)準(zhǔn)正態(tài)分布的定義

由上文中的一般正態(tài)分布可知，每個(gè)實(shí)際問題對應(yīng)著一個(gè)特定的“概率密度函數(shù)（由具體的均值μ和方差σ2）”所決定。在解決實(shí)際問題時(shí)，每次都可能要涉及式（2）或式（3）的復(fù)雜計(jì)算。為了簡化計(jì)算，可通過式（4）將一般正態(tài)分布轉(zhuǎn)變成標(biāo)準(zhǔn)正態(tài)分布：

由式（4）可以解出變量x，見下面的式（5）：

將式（5）中等號右邊的內(nèi)容代入式（2）和式（3）等號右邊，就得到式（6）和式（7）：

在式（6）和式（7）中，“Z”被稱為服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量，簡記為Z～N(0，1)，其含義是：服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量Z的均值為“0”、方差為“1”；式（6）和式（7）分別被稱為“標(biāo)準(zhǔn)正態(tài)分布的概率密度函數(shù)”和“標(biāo)準(zhǔn)正態(tài)分布的累計(jì)分布函數(shù)”。

1.2.5 正態(tài)分布曲線下的面積與橫坐標(biāo)之間的關(guān)系

若x～N（μ，σ2），則有式（4）成立，且有下面的諸關(guān)系式成立：

上面的三個(gè)式子表明：標(biāo)準(zhǔn)正態(tài)分布隨機(jī)變量Z分別在區(qū)間［-1，1］、［-1.960，1.960］和［-2.576，2.576］內(nèi)取值的概率分別為0.683、0.950和0.990。即只要人們知道某個(gè)實(shí)際問題中“Z”的取值，就可以近似知道Z在某個(gè)特定區(qū)間上取值的近似概率。例如，在某個(gè)實(shí)際問題中，已知Z～N(0，1)且Z=2.003，若再做類似的重復(fù)試驗(yàn)，出現(xiàn)“Z＞2.0”或“Z＜-2.8”的結(jié)果也是有可能的，據(jù)此，提出下面兩個(gè)問題：

問題1：“Z＞2.0”的概率是多少？

問題2：“Z＜-2.8”的概率是多少？

【回答】對問題1而言，依據(jù)式（9）可知：P（Z＞1.960）＜5%/2=2.5%，故P（Z＞2.0）＜2.5%；對第 2個(gè)問題而言，依據(jù)式（10）可知：P（Z＜-2.576）＜1%/2=0.5%，故P（Z＜-2.8）＜0.5%。

欲求出“P（Z＞2.0）”或“P（Z＜-2.8）”的精確數(shù)值，必須利用式（6）和式（7）進(jìn)行計(jì)算，因篇幅所限，此處從略。

1.3 Z檢驗(yàn)的前提條件

Z檢驗(yàn)的前提條件不便一概而論，取決于針對不同實(shí)際問題所構(gòu)造的“Z檢驗(yàn)統(tǒng)計(jì)量”。就前面式（1）而言，一般要求結(jié)果變量x是定量的且近似服從正態(tài)分布，樣本含量n不應(yīng)過小，至少需為30。其他的“Z檢驗(yàn)統(tǒng)計(jì)量”，其前提條件要視具體情況而定，此處從略。

1.4 Z檢驗(yàn)的適用場合

1.4.1 均值比較

服從正態(tài)分布計(jì)量資料且總體方差已知時(shí)兩算術(shù)均值比較、服從Poisson分布計(jì)數(shù)資料兩均值比較、服從偏態(tài)分布計(jì)量資料兩平均秩比較的近似檢驗(yàn)和定量資料Meta分析中的效應(yīng)指標(biāo)（標(biāo)準(zhǔn)化均值差）的比較，均可以運(yùn)用Z檢驗(yàn)。

1.4.2 率比較

兩個(gè)一般率比較常用χ2檢驗(yàn)，但在一定條件下，也可以運(yùn)用Z檢驗(yàn)；在對兩個(gè)率進(jìn)行非劣效性檢驗(yàn)、等效性檢驗(yàn)和優(yōu)效性檢驗(yàn)時(shí)，需要采用Z檢驗(yàn)。

1.4.3 同類的一般統(tǒng)計(jì)量比較

例如：兩個(gè)偏度系數(shù)的比較、兩個(gè)峰度系數(shù)的比較、兩個(gè)Kappa（一致性）系數(shù)的比較和定性資料Meta分析中的效應(yīng)指標(biāo)（如相對危險(xiǎn)度）的比較。需注意，這里所說的“兩個(gè)”通常指：一個(gè)是一般統(tǒng)計(jì)量來自未知總體，其取值是基于樣本數(shù)據(jù)計(jì)算而得，而另一個(gè)則屬于一個(gè)已知總體中相應(yīng)的數(shù)值，即參數(shù)（如假定已知總體的偏度系數(shù)為0、假定已知總體的Kappa系數(shù)為0）。

1.5 Z分位數(shù)的適用場合

設(shè)Z是一個(gè)服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量，則標(biāo)準(zhǔn)正態(tài)分布曲線下橫坐標(biāo)上的任何一個(gè)刻度值都叫做一個(gè)“Z分位數(shù)”。例如，Z0.005=-2.576、Z0.025=-1.960、Z0.5=0；或Z0.975=1.960、Z0.995=2.576。Z的下角標(biāo)代表標(biāo)準(zhǔn)正態(tài)分布曲線下左側(cè)尾端的面積（本質(zhì)上為“概率”）。在統(tǒng)計(jì)學(xué)上，常利用分位數(shù)“Z0.975=Z1-0.05/2=1.960”來構(gòu)建服從正態(tài)分布的定量資料總體均值雙側(cè)95%置信區(qū)間，見下式：

常利用分位數(shù)“Z0.995=Z1-0.01/2=2.576”來構(gòu)建服從正態(tài)分布的定量資料總體均值雙側(cè)99%置信區(qū)間，見下式：

2 正態(tài)分布與其他概率分布之間的關(guān)系

2.1 正態(tài)分布是t分布的極限分布

設(shè)t分布的概率密度函數(shù)為t(x，n)，則它的表達(dá)式如下［4-5］：

基于高等數(shù)學(xué)知識，可得下式：

式（12）的含義是：在“n→ ∞”的條件下，t分布的概率密度函數(shù)的極限形式是標(biāo)準(zhǔn)正態(tài)分布概率密度函數(shù)，基于此式，數(shù)學(xué)上就稱為“正態(tài)分布是t分布的極限分布”。

2.2 正態(tài)分布是其他幾種分布的極限分布

基于高等數(shù)學(xué)知識和中心極限定理知識等，可推導(dǎo)出如下結(jié)果：正態(tài)分布是χ2分布、F分布、二項(xiàng)分布、Poisson分布的極限分布，為節(jié)省篇幅，公式從略。

3 正態(tài)分布可用于某些其他概率分布的近似計(jì)算

由前述可知，正態(tài)分布是t分布、χ2分布、F分布、二項(xiàng)分布和Poisson分布的極限分布。故當(dāng)涉及前述5種分布的概率密度函數(shù)（對連續(xù)型隨機(jī)變量而言）或概率函數(shù)（對離散型隨機(jī)變量而言）或分布函數(shù)的計(jì)算時(shí)，若直接計(jì)算的工作量很大，可考慮利用正態(tài)分布進(jìn)行近似計(jì)算。因篇幅所限，具體計(jì)算方法從略。

4 討論與小結(jié)

4.1 討論

正態(tài)分布不僅是Z檢驗(yàn)的理論依據(jù)，也是t檢驗(yàn)和方差分析的前提條件之一，還是線性統(tǒng)計(jì)模型的建模依據(jù)（例如，要求模型的隨機(jī)誤差服從正態(tài)分布，通常是直接轉(zhuǎn)變?yōu)榭疾於恳蜃兞渴欠穹恼龖B(tài)分布，若不符合正態(tài)性要求，可采取Box-Cox變換）［6］，甚至可以說，正態(tài)分布是經(jīng)典統(tǒng)計(jì)學(xué)的根基（例如，進(jìn)行很多參數(shù)假設(shè)檢驗(yàn)和區(qū)間估計(jì)時(shí)都要求各組定量資料滿足正態(tài)性、進(jìn)行Pearson相關(guān)分析時(shí)要求兩個(gè)定量變量滿足雙變量正態(tài)分布等，且許多其他概率分布的極限分布都是正態(tài)分布）。由此可知，無論是學(xué)習(xí)還是運(yùn)用統(tǒng)計(jì)學(xué)，正態(tài)分布都是不可忽視的重要知識點(diǎn)或統(tǒng)計(jì)基礎(chǔ)。

4.2 小結(jié)

本文介紹了“與Z檢驗(yàn)有關(guān)的基本概念”“正態(tài)分布與其他概率分布之間的關(guān)系”和“正態(tài)分布可用于某些其他概率分布的近似計(jì)算”三部分內(nèi)容。第一部分詳細(xì)地介紹了“Z檢驗(yàn)的適用場合”，為研究者合理選用Z檢驗(yàn)奠定必要的基礎(chǔ)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

如何正確運(yùn)用Z檢驗(yàn)——Z檢驗(yàn)的基本概念與前提條件