陳 軍
(新疆師范大學(xué) 商學(xué)院,新疆 烏魯木齊 830017)
多數(shù)統(tǒng)計(jì)檢驗(yàn)都要求數(shù)據(jù)滿足正態(tài)分布,特別是針對(duì)小樣本。如果誤差項(xiàng)不服從正態(tài)性假定,雖然可以利用最小二乘法進(jìn)行參數(shù)估計(jì),但卻無法進(jìn)行檢驗(yàn)和預(yù)測(cè)。如果解釋變量不能很好地匹配因變量的峰度和偏度,將會(huì)導(dǎo)致樣本性質(zhì)中的統(tǒng)計(jì)推斷結(jié)果發(fā)生偏差。實(shí)際情形中,出于樣本可獲得性的考慮,通常采用對(duì)數(shù)據(jù)進(jìn)行變換的方法,將其數(shù)據(jù)轉(zhuǎn)換成正態(tài)分布,但應(yīng)該注意到,在數(shù)據(jù)轉(zhuǎn)換的同時(shí)已將數(shù)據(jù)蘊(yùn)含的原始信息發(fā)生了改變。由此得到的回歸結(jié)果,其參數(shù)的意義解釋也已和變換前有所改變。
數(shù)據(jù)正態(tài)性檢驗(yàn)的方法主要有兩類:使用圖形進(jìn)行大致的判斷以及使用統(tǒng)計(jì)檢驗(yàn)。圖形檢驗(yàn)中常用的是直方圖和正態(tài)分位數(shù)圖。如果得到的數(shù)據(jù)直方圖和鐘形相差很大,則拒絕正態(tài)性分布,這是一種非常直觀的方法,實(shí)用性強(qiáng)。使用統(tǒng)計(jì)檢驗(yàn)多基于卡方統(tǒng)計(jì)量,實(shí)質(zhì)是根據(jù)下表1 中標(biāo)注的區(qū)間找到落在該區(qū)間內(nèi)的實(shí)際觀測(cè)值個(gè)數(shù)和期望觀測(cè)值個(gè)數(shù),然后進(jìn)行卡方檢驗(yàn)。
表1 卡方檢驗(yàn)區(qū)間劃分
數(shù)據(jù)正態(tài)性的其他統(tǒng)計(jì)檢驗(yàn),包括偏度-峰度檢驗(yàn)、D′Agostino 檢驗(yàn)、Shapiro-Wilk w 檢驗(yàn)和Shapiro-Francia w′檢驗(yàn)。應(yīng)該注意,隨著樣本量的增大,所有的統(tǒng)計(jì)檢驗(yàn)趨于拒絕原假設(shè),而圖形、偏度及峰度的數(shù)值分析可能更有利于研判數(shù)據(jù)正態(tài)性狀況。
Excel 對(duì)于數(shù)據(jù)正態(tài)性的檢驗(yàn)方法相對(duì)單一,一般采用繪制正態(tài)概率圖。如果標(biāo)準(zhǔn)正態(tài)概率圖中的點(diǎn)基本圍繞在一條直線周圍,那么可以說該組數(shù)據(jù)基本服從正態(tài)分布。下面結(jié)合具體的例題進(jìn)行。
例:某車間加工一批零件尺寸如下表2,請(qǐng)問零件尺寸是否呈正態(tài)分布。
表2 車間加工的零件尺寸數(shù)據(jù) 單位:毫米
25.45 25.38 25.39 25.42 25.44 25.48 25.46 25.43 25.4 25.39 25.41 25.36 25.4 25.37 25.37 25.44 25.34 25.42 25.5 25.37 25.27 25.43 25.54 25.39 25.44 25.41 25.53 25.37 25.36 25.42 25.39 25.46 25.4 25.36 25.41 25.32 25.37 25.41 25.49 25.35 25.36 25.46 25.29 25.4 25.41 25.37 25.47 25.39
【實(shí)驗(yàn)操作步驟】
Step1:將表格數(shù)據(jù)按照升序排序成一列。
Step2:計(jì)算(j-0.5)/100。
Step3:根據(jù)(j-0.5)/100=P(Z),求出正態(tài)分位數(shù)。單擊D2 單元格,選擇“公式-〉插入函數(shù)”。在“插入函數(shù)”對(duì)話框,“選擇類別”選取“統(tǒng)計(jì)”,“選擇函數(shù)”選擇“NORM.S.INV”,點(diǎn)擊“確定”。結(jié)果見下圖1。
圖1 正態(tài)分位數(shù)及標(biāo)準(zhǔn)正態(tài)分位數(shù)計(jì)算結(jié)果
Step4:,選擇“數(shù)據(jù)-〉數(shù)據(jù)分析”,在“分析工具”中選擇“回歸”,單擊“確定”。以Zi 為縱軸,X(j)為橫軸,繪制標(biāo)準(zhǔn)正態(tài)概率圖。然后單擊“確定”,得到標(biāo)準(zhǔn)正態(tài)概率圖,如圖2 所示。其中,X(j)轉(zhuǎn)化為其對(duì)應(yīng)的百分比排位??梢钥闯?,由(X(j),Zi)形成的點(diǎn)基本圍繞在一條直線周圍,可以說該組數(shù)據(jù)基本上服從正態(tài)分布。
圖2 標(biāo)準(zhǔn)正態(tài)概率圖
SPSS 軟件對(duì)于數(shù)據(jù)正態(tài)性的檢驗(yàn)是建立在數(shù)據(jù)分布直方圖的基礎(chǔ)上,可采用多種檢驗(yàn)方法。為比較方便,案例數(shù)據(jù)同上例。
【實(shí)驗(yàn)操作步驟】
在SPSS 里執(zhí)行“分析-〉描述統(tǒng)計(jì)-〉頻數(shù)”(菜單見下圖,英文版的可以找到相應(yīng)位置),然后彈出一個(gè)對(duì)話框,變量選擇左邊的“零件尺寸”,再點(diǎn)下面的“圖表”按鈕,彈出圖中右邊的對(duì)話框,選擇“直方圖”,并選中“包括正態(tài)曲線”。點(diǎn)擊“繼續(xù)”、“確定”按鈕。數(shù)據(jù)分布直方圖如下圖3。
圖3 輸出的正態(tài)分布圖(直方圖)
圖中橫坐標(biāo)為期零件尺寸,縱坐標(biāo)為分?jǐn)?shù)出現(xiàn)的頻數(shù)。從圖中可以看出根據(jù)直方圖繪出的曲線是很像正態(tài)分布曲線。如何證明這些數(shù)據(jù)符合正態(tài)分布呢,光看曲線還不夠,還需要進(jìn)一步檢驗(yàn)。
(1)檢驗(yàn)方法一:看偏度系數(shù)和峰度系數(shù)
Step1:在“頻率”對(duì)話框,點(diǎn)擊“統(tǒng)計(jì)量”按鈕,選取如下復(fù)選框。點(diǎn)擊“繼續(xù)”、“確定”按鈕。選項(xiàng)界面見下圖4。
圖4 頻率:統(tǒng)計(jì)量對(duì)話框及輸出統(tǒng)計(jì)量結(jié)果
Step2:從“統(tǒng)計(jì)量”結(jié)果中,看到“偏度”為0.113,“峰度”為0.505,均小于1,可認(rèn)為近似于正態(tài)分布。
(2)檢驗(yàn)方法二:?jiǎn)蝹€(gè)樣本K-S 檢驗(yàn)
操作步驟:在SPSS 里執(zhí)行“分析-〉非參數(shù)檢驗(yàn)-〉單個(gè)樣本K-S 檢驗(yàn)”,彈出對(duì)話框,檢驗(yàn)變量選擇“零件尺寸”,檢驗(yàn)分布選擇“常規(guī)(正態(tài)分布)”,然后點(diǎn)“確定”。結(jié)果如下圖5。
圖5 單樣本K-S 檢驗(yàn)對(duì)話框及輸出結(jié)果
從結(jié)果可以看出,K-S 檢驗(yàn)中,Z 值為0.735,P 值(sig 2-tailed)=0.652〉0.05,因此數(shù)據(jù)呈近似正態(tài)分布。
(3)檢驗(yàn)方法三:Q-Q 圖檢驗(yàn)
操作步驟:在SPSS 里執(zhí)行“分析-〉描述統(tǒng)計(jì)-〉Q-Q 圖”,彈出對(duì)話框,變量選擇“零件尺寸”,檢驗(yàn)分布選擇“正態(tài)”,其他選擇默認(rèn),然后點(diǎn)“確定”,最后可以得到Q-Q 圖檢驗(yàn)結(jié)果,結(jié)果很多,我們只需要看最后一個(gè)圖,見下圖6。
圖6 Q-Q 圖檢驗(yàn)結(jié)果(零件尺寸的正態(tài)Q-Q 圖)
QQ Plot 中,各點(diǎn)近似圍繞著直線,說明數(shù)據(jù)呈近似正態(tài)分布。
Stata 軟件對(duì)于數(shù)據(jù)正態(tài)性的檢驗(yàn)方法主要有分位正態(tài)圖、正態(tài)性統(tǒng)計(jì)檢驗(yàn)。為比較方便,案例數(shù)據(jù)同上例。
(1)檢驗(yàn)方法一:分位正態(tài)圖
分位正態(tài)圖的繪制命令格式如下:Qnorm varname[if][in][,options]
該命令的大部分選項(xiàng)都是繪圖命令所共有,獨(dú)有選項(xiàng)是grid,加入grid 項(xiàng)可以在圖中依次標(biāo) 注 0.05、0.10、0.25、0.50、0.75、0.90、0.95百分位的坐標(biāo)刻度。分位正態(tài)圖將觀測(cè)變量分布的分位數(shù)與一個(gè)具有相同平均數(shù)和標(biāo)準(zhǔn)差的理論正態(tài)分布的分位數(shù)進(jìn)行比較,通過比較偏離程度進(jìn)行直觀研判正態(tài)性狀況。
Step1:打開數(shù)據(jù)文件。
Step2:在“command”區(qū)域輸入如下命令:.qnorm size,grid
回車,執(zhí)行結(jié)果如下:
圖7 size 的分位正態(tài)圖
與完全正態(tài)分布相比(圖中對(duì)角線),數(shù)據(jù)分布近似呈現(xiàn)正態(tài)性。
(2)檢驗(yàn)方法二:正態(tài)性統(tǒng)計(jì)檢驗(yàn)
【實(shí)驗(yàn)操作步驟】
Step1:打開數(shù)據(jù)文件。
Step2:在“command”區(qū)域輸入如下命令:sktest size
回車,執(zhí)行結(jié)果如下:
結(jié)果顯示峰度、偏度檢驗(yàn)以及峰度-偏度合并檢驗(yàn)都表明呈現(xiàn)正態(tài)性(P 大于0.05)。
Step3:在“command”區(qū)域輸入如下命令:lnskew0 size2=size回車,執(zhí)行結(jié)果如下:
Step4:在“command”區(qū)域輸入如下命令:.swilk size
回車,執(zhí)行結(jié)果如下:
Step5:在“command”區(qū)域輸入如下命令:swilk size2,lnnormal
回車,執(zhí)行結(jié)果如下:
結(jié)果顯示,同sktest 檢驗(yàn)結(jié)果一樣,表明數(shù)據(jù)分布呈現(xiàn)正態(tài)性。需要說明的是,lnskew0 命令是為變量size 找一個(gè)k 使得ln(size-k)的偏度為0,并定義這個(gè)新的變量為size2;當(dāng)對(duì)完成這一變換的變量進(jìn)行swilk 檢驗(yàn)時(shí),需要加入lnnormal 選項(xiàng)。
Step6:在“command”區(qū)域輸入如下命令:.sfrancia size
回車,執(zhí)行結(jié)果如下:
結(jié)果顯示,同sktest 及swilk 檢驗(yàn)結(jié)果一樣,表明數(shù)據(jù)分布呈現(xiàn)正態(tài)性。
通過上文分析,可以看到Excel、SPSS、Stata 幾種軟件都能處理數(shù)據(jù)正態(tài)性檢驗(yàn),但在具體的應(yīng)用操作上存在一定差異:Excel 相對(duì)簡(jiǎn)單;SPSS 軟件在分布直方圖基礎(chǔ)上檢驗(yàn)方法較多;Stata 軟件的檢驗(yàn)方法則更為靈活。在實(shí)際應(yīng)用中,要結(jié)合數(shù)據(jù)分析對(duì)于總體正態(tài)性的要求,像方差分析就要求數(shù)據(jù)分布滿足正態(tài)性的條件,而回歸分析(特別是大樣本)則對(duì)于正態(tài)性檢驗(yàn)的要求就沒有那么重要。