章剛勇,阮陸寧
(南昌大學(xué)經(jīng)濟與管理學(xué)院,南昌330031)
基于Monte Carlo隨機模擬的幾種正態(tài)性檢驗方法的比較
章剛勇,阮陸寧
(南昌大學(xué)經(jīng)濟與管理學(xué)院,南昌330031)
文章概述了幾種主要的正態(tài)性檢驗方法,指出了它們的聯(lián)系和區(qū)別。在Monte Carlo隨機模擬的基礎(chǔ)上,計算了Shapiro-W ilk檢驗、Kolmogrov-Sm irnov檢驗、Gramer-von M ises檢驗和Anderson-Darling檢驗等四種檢驗方法在顯著性水平為0.01,0.05和0.1,樣本容量為10,20,30和100的條件下的檢驗功效。并在比較和分析各檢驗方法功效的基礎(chǔ)上,給出了相關(guān)結(jié)論和建議。
正態(tài)性檢驗;功效;隨機模擬
正態(tài)意味“正常性態(tài)”,指若在觀察或?qū)嶒炛胁怀霈F(xiàn)重大失誤,則結(jié)果應(yīng)遵從正態(tài)分布。這個看法既有大量的經(jīng)驗事實支撐,也有理論依據(jù)(中心極限定理)?;谡龖B(tài)總體的一系列重要檢驗統(tǒng)計量有形式完美簡潔且在計算上可行的特點。但在小樣本情況下,總體服從正態(tài)分布的假定不成立時,相應(yīng)的參數(shù)檢驗是失效的,統(tǒng)計推斷是不可信的。對于假定是否合理,需要使用已有的觀測數(shù)據(jù)進行正態(tài)性檢驗。判斷一列數(shù)據(jù)的分布是否具有正態(tài)性規(guī)律,有許多種方法。其一:使用圖示法從直觀上判斷,如頻率分布直方圖,QQ圖(四分位數(shù)圖)和PP圖(百分位數(shù)圖)等;其二:規(guī)范檢驗法,主要包括:卡方擬合優(yōu)度檢驗,柯爾莫哥洛夫檢驗,W檢驗,D檢驗,偏度檢驗和峰度檢驗等等。各正態(tài)性檢驗方法有無異同,主流的檢驗方法有哪些,檢驗效果如何,在實踐中應(yīng)選擇何種檢驗方法,應(yīng)注意哪些問題?本文試圖去回答這些問題。
正態(tài)性檢驗方法的原假設(shè)一般為H0:數(shù)據(jù)服從正態(tài)分布;相應(yīng)的備擇假設(shè)為H1:數(shù)據(jù)不服從正態(tài)分布。在這種意義下,這類檢驗有時也稱非正態(tài)性檢驗(non-normality test)。規(guī)范性檢驗方法主要有:
W檢驗是Shapiro和Wilk在1965年提出來的。W檢驗的基本思想是在數(shù)據(jù)服從正態(tài)分布的原假設(shè)下,通過數(shù)據(jù)的順序統(tǒng)計量對經(jīng)標準化后的順序統(tǒng)計量的期望值線性回歸,得出擬合優(yōu)度。擬合優(yōu)度越大,表示兩變量的相關(guān)程度越高,數(shù)據(jù)越近似服從正態(tài)分布。W統(tǒng)計量的值夾在0和1之間。W檢驗一般步驟為:
(1)把n個樣本觀測值按由小到大的順序排列:x(1)≤x(2)≤…≤x(i)≤…≤x(n);
(2)W檢驗的統(tǒng)計量為:
(3)根據(jù)給定的顯著性水平α和樣本容量n,查統(tǒng)計量W的p分位數(shù)表,確定α分位數(shù)Wα的值。其分位數(shù)表通過計算機模擬產(chǎn)生;
(4)計算統(tǒng)計量W的值,若W 上述的W檢驗是一種有效的正態(tài)性檢驗方法,但由于隨著樣本容量的擴大,分位數(shù)Wα的確定意味著龐大的隨機模擬工作量,并且由于W的高于一階的矩是未知的,有些分布擬合技術(shù)不能采用,一般適用于樣本容量為3至50的樣本。針對于此,D Agostino(1971)提出了D檢驗,與W檢驗類似,其基本思想也是在總體服從正態(tài)分布的原假設(shè)下,通過構(gòu)造一個統(tǒng)計量評價樣本的順序統(tǒng)計量與其期望值之間的線性關(guān)系來判斷樣本數(shù)據(jù)是否取自于一正態(tài)總體。它所適用的樣本容量n的范圍為:50≤n≤1000,這種檢驗不需要附系數(shù)表,其檢驗統(tǒng)計量的分布漸近正態(tài),但收斂速度較慢,當樣本容量不太大時用正態(tài)分布去近似,誤差太大。 對于一般的n,W的分布的密度函數(shù)形式目前還未確定。當對于樣本容量為3時,W的分布是確定的,可用于計算顯著性水平;當樣本容量大于3時,可通過計算機模擬的結(jié)果來計算顯著性水平。隨著計算機技術(shù)的發(fā)展,隨機模擬工作也變得簡單和輕松,Royston(1992)通過隨機模擬的結(jié)果構(gòu)造了一個近似正態(tài)變換Zn,擴展了W檢驗: 在這γ,μ,σ是樣本容量n的函數(shù),通過隨機模擬取得。Zn值越大,意味著數(shù)據(jù)偏離正態(tài)分布的程度越大。這樣,W檢驗適用范圍擴展到樣本容量為4至2000的樣本的正態(tài)性檢驗。這樣,D檢驗方法漸漸被統(tǒng)計軟件的有關(guān)正態(tài)性檢驗的模塊所摒棄[1]。 若總體的分布函數(shù)F(x)未知,但有樣本觀測值(x1,x2,…,xn),把它按由小到大的順序排列成x(1)≤x(2)≤…x(n),得到經(jīng)驗分布函數(shù): 根據(jù)格里汶科定理,當n很大時,F(xiàn)n(x)是F(x)的良好近似。經(jīng)驗分布函數(shù)檢驗法原理是:先假設(shè)總體服從某一特定的分布,再根據(jù)樣本數(shù)據(jù)得出其經(jīng)驗分布函數(shù),通過計算經(jīng)驗分布函數(shù)與總體分布函數(shù)的偏差的某種形式來確定原假設(shè)是否成立。Kolmogrov和Smirnov為這類檢驗方法做了開創(chuàng)性的工作[2]。這類檢驗方法是通過度量經(jīng)驗分布函數(shù)與原假設(shè)成立時的總體分布函數(shù)之間的偏離來構(gòu)建檢驗統(tǒng)計量,因此只適用于總體分布完全已知的情況,當總體理論分布包含未知參數(shù)時,人們往往用樣本的信息也對參數(shù)進行估計。檢驗方法不但可以檢驗樣本數(shù)據(jù)是否服從正態(tài)分布,也能檢驗數(shù)據(jù)是否服從其它分布。對于正態(tài)分布,假設(shè)總體服從具有參數(shù)μ和σ2的正態(tài)分布,其中μ和σ2可以由樣本均值和樣本方差代替。 (1)K-S檢驗(Kolmogrov-Smirnov檢驗) Kolmogrov在1933年提出了統(tǒng)計量Dn,并給出了統(tǒng)計量的極限分布。其具體形式為: Smirnov(1948)給出了用于估計經(jīng)驗分布擬合度表,張里千(1956)給出了Dn的有限分布形式。 (2)Gramer Von-Mises檢驗 Gramer Von-Mises(1928)定義了檢驗統(tǒng)計量W2,以此度量經(jīng)驗分布函數(shù)與總體分布函數(shù)的偏離程度: (3)Anderson-Darling檢驗 Anderson-Darling(1954)提出了檢驗統(tǒng)計量A2,以此來度量經(jīng)驗分布函數(shù)與總體分布函數(shù)的偏離程度: 當具有總體在偏度方向或峰度方向具有偏離正態(tài)的先驗信息時,使用偏度檢驗或峰度檢驗是適宜的。該類檢驗的使用條件是已知總體在偏度或峰度的方向上具有偏離正態(tài)的特點,且偏離方向是明確的。如果在實際應(yīng)用中,有關(guān)的先驗信息是未知的,需要用使用其它的檢驗方法(梁小筠,1997)。實踐中,數(shù)據(jù)來自于何種總體,往往是不可知的,故在正態(tài)性檢驗中難于使用偏度檢驗和峰度檢驗方法。 目前,主流的規(guī)范性正態(tài)檢驗方法主要是幾種無方向正態(tài)性檢驗方法,主要包括Shapiro-Wilk檢驗、Kolmogrov-Smirnov檢驗、Gramer-von Mises檢驗和Anderson-Darling檢驗。后三種是經(jīng)驗分布函數(shù)檢驗法。哪種方法更好,需要比較它們的功效。以下將在Monte Carlo隨機模擬基礎(chǔ)上計算這四種檢驗方法的功效。 Monte Carlo方法是使用隨機抽樣技術(shù)和計算機模擬技術(shù)去近似地解決數(shù)學(xué)或物理中的問題的一種方法,特別地當大批的值都具有計算出的概率,作為問題的解時[3]。在統(tǒng)計定理的前提假設(shè)不成立,或當有關(guān)理論較弱或不存在的情況下,Monte Carlo方法經(jīng)常被用于評價違背假設(shè)的后果和確定統(tǒng)計量的抽樣分布。 在原假設(shè)為總體服從正態(tài)分布下,備擇假設(shè)為總體服從非正態(tài)分布。非正態(tài)分布有許多,本文挑選了8種分布作為非正態(tài)分布的代表,分別為Beta分布、二項分布(bin(k,0.5))、卡方分布、泊松分布、t分布、對數(shù)正態(tài)分布、Tukey分布和Weibull分布。通過改變有關(guān)參數(shù)的值,共有32種備擇分布[4]。參數(shù)是用于控制備擇分布的偏度與峰度,用于考查檢驗方法對偏度和峰度的敏感性程度。其中Weibull分布的密度函數(shù)為: 表1 α=0.01時,四種正態(tài)性檢驗方法的檢驗功效(%) a>0,為形狀參數(shù);b>0,為位置參數(shù)。在這固定b=1。 表2 α=0.05時,四種正態(tài)性檢驗方法的檢驗功效(%) 表3 α=0.1時,四種正態(tài)性檢驗方法的檢驗功效(%) 表4 各檢驗功效的描述性統(tǒng)計 表5 α=0.01,n=10時,四種正態(tài)性檢驗方法功效的均值檢驗(H0:均值相等) 由于抽樣的隨機性,我們可能作出正確的決策,也可能犯兩類錯誤:當原假設(shè)為真時,可能作拒絕的決策,稱為第I類錯誤(拒真);當原假設(shè)為錯誤時,可能作接納的決策,稱為第II類錯誤(納假)。當樣本容量確定時,犯兩類錯誤的概率不能同時被控制。一種較好的檢驗方法,應(yīng)該在控制犯第一類錯誤的概率,即顯著性水平α下,使得犯第二類錯誤的概率β較小,即使得檢驗的功效1-β較大(拒假的概率較大)。顯著性水平α一般取值為0.01,0.05和0.1,選擇α時,要考慮在實際問題中,當原假設(shè)為正確時,卻拒絕了,所要付出的代價。 前文所述的四種檢驗方法有無差異,效果如何,哪種方法比較好,在實際應(yīng)用中應(yīng)選擇何種檢驗方法,需要比較它們的檢驗功效。我們采用Monte Carlo實驗進行隨機模擬,計算出各檢驗方法的功效。主要步驟如下: (1)產(chǎn)生服從前面所述的32種備擇分布的隨機數(shù),并確定樣本容量n,在這n分別取10、20、30和100。這樣共產(chǎn)生四批隨機數(shù)32×10、32×20、32×30和32×100; (2)上一步驟一共產(chǎn)生128個服從某一特定的備擇分布的隨機數(shù)系列,對每一個系列實施四種正態(tài)性檢驗方法,并記錄各自的p值; (3)設(shè)定樣本的個數(shù)為2000,即重復(fù)第(1)步和第(2)步2000次,并收集各自的p值。在樣本容量確定下,對每一個隨機變量系列實施一種檢驗方法,產(chǎn)生了2000個p值; (4)把得到的p值與選定的顯著性水平進行比較,分別計算出在顯著性水平α=0.01、α=0.05和α=0.1下,2000個樣本中,拒絕正態(tài)分態(tài)原假設(shè)的樣本數(shù),并以此樣本數(shù)在總樣本數(shù)2000中所占的比例,近似地表示各種檢驗方法在既定的樣本容量,既定的備擇分布和既定的顯著性水平下的檢驗的功效。 經(jīng)模擬計算的結(jié)果如表1、表2和表3所示。表中的數(shù)值表示檢驗的功效(%),數(shù)值是在統(tǒng)計軟件SAS環(huán)境下通過編程計算產(chǎn)生,計算過程和結(jié)果可以重復(fù)驗證。其中:檢驗方法W、KS、W2和A2分別表示Shapiro-Wilk檢驗、Kolmogrov-Smirnov檢驗、Gramer-von Mises檢驗和Anderson-Darling檢驗;表內(nèi)的第1列為備擇分布的形式,beta表示β-分布,bin表示二項分布,chisq表示卡方分布,P表示泊松分布,t表示t分布,LN表示對數(shù)正態(tài)分布,Tukey表示Tukey分布,Weibull表示W(wǎng)eibull分布,各分布后緊隨的括號里的數(shù)表示各自的參數(shù)。 通過比較隨機模擬的結(jié)果,可以看出四種正態(tài)性檢驗的功效隨樣本容量的增加而增大,并隨顯著性水平α的增大而增大。四種檢驗方法在小樣本(n=10,n=20)條件下,其檢驗的功效一般較低。 注意到,當備擇分布為beta(3,2)、binomial(20,0.5)、chisq(10)、Possion(10)、t(20)、Tukey(0.7)、Tukey(1.5)和Weibull(2)等分布時,各檢驗的功效都較小。即使在大樣本(n=30,n=100)條件下,各檢驗的功效也不大。這些分布的特點是偏度為0或接近于0,峰度接近于3,在大樣本的條件下一般有近似服從正態(tài)分布的性質(zhì)。此時若各檢驗方法沒有拒絕正態(tài)性原假設(shè)是正常的。同時,還注意到當備擇分布為binomial(4,0.5)、chisq(1)、chisq(2)、Possion(1)、Tukey(10)、Tukey(20)和Weibull(0.5)時,即使在小樣本(n=10)的條件下,各檢驗方法的功效都很大。這些分布的特點是峰度異于3,或偏度異于0。各檢驗方法對備擇分布形式、并且對分布的非對稱和厚尾的特點都較敏感。 若把備擇分布當一整體,從直觀上難于判斷各類檢驗方法功效的差異。表4給出了在既定的顯著性水平下和樣本容量下,各檢驗的功效的描述性統(tǒng)計。比較而言,小樣本時,Kolmogrov-Smirnov檢驗的功效均值比其他三種檢驗的要小,但其功效的標準差要小,相對較穩(wěn)定;而在大樣本時,Kolmogrov-Smirnov檢驗的功效的均值比其它三種檢驗要小,標準差卻要大。Shapiro-Wilk檢驗、Gramer-von Mises檢驗和Anderson-Darling檢驗功效的均值和標準差,無論在大樣本和小樣本的條件下,差別都甚小。 我們采用方差分析、Wilconxon得分、中位數(shù)得分、Van der Waerden得分和Savage得分等方法[5]對四種正態(tài)性檢驗方法的功效進行檢驗,用以判斷這些檢驗方法的功效有無顯著性差異。根據(jù)表1、表2和表3的數(shù)據(jù),在給定的顯著性水平(3種)、給定的樣本容量(4種)下,共有12種組合,需要進行12次檢驗。表5給出α=0.01,n=10時四種檢驗方法功效的均值比較,檢驗的原假設(shè)為四種正態(tài)性檢驗方法的功效的均值相等,各檢驗的P值顯示沒有理由拒絕原假設(shè),即認為四種正態(tài)性檢驗方法的功效的均值無顯著性差異。在其它α和n的組合下,其相應(yīng)檢驗的p值都在0.9左右(檢驗結(jié)果略)。 本文概述了幾種常用的正態(tài)性檢驗方法,并在Monte Carlo模擬的基礎(chǔ)上,分別計算和比較了Shapiro-Wilk檢驗、Kolmogrov-Smirnov檢驗、Gramer-von Mises檢驗和Anderson-Darling檢驗等四種正態(tài)性檢驗的功效。主要結(jié)論和建議有: (1)在正態(tài)性判斷的幾種無方向性規(guī)范檢驗方法中,Shapiro-Wilk檢驗與D Agostino檢驗的思想類似,Shapiro-Wilk檢驗原只適用于檢驗樣本容量為3至50的樣本,但隨著Royston(1992)的研究,其適用范圍擴展到樣本容量為4至2000的樣本的正態(tài)性檢驗,D Agostino檢驗漸漸被統(tǒng)計軟件相關(guān)模塊所摒棄;經(jīng)驗分布函數(shù)檢驗法是通過度量根據(jù)樣本數(shù)據(jù)得到的經(jīng)驗分布函數(shù)與原假設(shè)成立條件下的總體分布函數(shù)之間的偏離來構(gòu)建檢驗統(tǒng)計量的,其中以Kolmogrov-Smirnov檢驗為主; (2)四種檢驗方法的功效隨樣本容量的增大而增大,隨顯著性水平的提高而增大;但在既定的樣本和顯著性水平下無顯著性差異。在應(yīng)用中,在已考慮了犯第I類錯誤所付出的現(xiàn)實代價的前提下,可以把顯著性水平定為0.1;當實際可獲得的數(shù)據(jù)較少時,使用正態(tài)性檢驗要小心; (3)四種檢驗方法對備擇分布形式,備擇分布的非對稱性和厚尾的特點都較敏感。相對來說,小樣本時,Kolmogrov-Smirnov檢驗的功效均值比其他三種檢驗的要小,其功效的標準差比其他檢驗方法小,相對較穩(wěn)定;在大樣本時,Kolmogrov-Smirnov檢驗的功效的均值比其它三種檢驗要小,標準差卻大。 (4)無論在何種顯著性水平下,在大樣本或小樣本的條件下,四種檢驗方法檢驗功效的均值無顯著性不同。這并不是一個好的結(jié)論,這樣的結(jié)論不能給在實踐中應(yīng)采用何種檢驗方法提供一個明確的指導(dǎo)。在實際應(yīng)用中,較好的辦法是同時使用四種檢驗方法對樣本進行正態(tài)性檢驗,若有一種檢驗方法p值較小,并在選定的顯著性水平下拒絕了原假設(shè),可以認為所檢驗的數(shù)據(jù)不服從正態(tài)分布。 [1]梁小筠.正態(tài)性檢驗[M].北京:中國統(tǒng)計出版社,1997. [2]張里千.論柯爾莫哥洛夫統(tǒng)計量的真確分布及其漸近展開[J].數(shù)學(xué)學(xué)報,1956,(3). [3]陳希孺.數(shù)理統(tǒng)計引論[M].北京:科學(xué)出版社,1981. [4]孫山澤.非參數(shù)統(tǒng)計講義[M].北京:北京大學(xué)出版社,2000. [5]Royston,P.Approximating the Shapiro-Wilk W-Test for Nonnormality[J].Statistics and Computing,1992,(2). [6]Smirnov,N.Table for Estimating the Goodness of Fit of Empirical Distributions[J].Annals of Math.Stat.,1948,19. [7]D Agostino.An Ominous Test of Normality for Moderate and Large Size Samples[J].Biometrica,1971,58. (責任編輯/亦民) C812 A 1002-6487(2011)07-0017-041.2 經(jīng)驗分布函數(shù)檢驗法
1.3 偏度檢驗與峰度檢驗
2 Monte Carlo實驗設(shè)計及模擬結(jié)果
2.1 備擇分布
2.2 樣本容量、兩類錯誤和檢驗的功效
2.3 實驗步驟及經(jīng)模擬計算的結(jié)果
3 引檢驗功效的比較
4 結(jié)論與建議