劉利紅
(紹興文理學(xué)院 計劃財務(wù)處,浙江 紹興312000)
在進行統(tǒng)計學(xué)檢驗時,經(jīng)常使用P值對是否拒絕零假設(shè)進行判斷.最近國際權(quán)威學(xué)術(shù)雜志《Political Analysis》公開表示不再接收在文章中使用P值的論文[1].這個事件看似對傳統(tǒng)統(tǒng)計學(xué)的公然挑戰(zhàn),但實際上也是對誤用統(tǒng)計學(xué)敲響了警鐘.針對這個問題筆者嘗試給予理論上的探討,并以一個財務(wù)數(shù)據(jù)的檢驗問題給予展示.
本文首先針對統(tǒng)計學(xué)檢驗給予P值一個明確的定義.P值是某一統(tǒng)計摘要的絕對值在零假設(shè)分布下大于其實現(xiàn)值的絕對值的概率.
自從Pearson(1900)[2]作為統(tǒng)計檢驗的一種輔助指標導(dǎo)入P值以來,無論在自然科學(xué)還是社會科學(xué)幾乎所有領(lǐng)域P值都有著廣泛的應(yīng)用.很多情況下研究者只看P值的大小就做出了實證分析的最終結(jié)論.在統(tǒng)計分析中P值的強勢幾乎可以說是獨一無二.
雖然P值在統(tǒng)計學(xué)應(yīng)用中有著上述的重要地位,但歷史上一直存在著關(guān)于P值誤用的議論.這個問題其實在《Political Analysis》的論文之前《American Psychological Association》已經(jīng)在Wasserstein and Lazar (2016)[3]中對P值的作用和使用上的問題提出了以下幾點聲明.
(1)P值能夠表現(xiàn)數(shù)據(jù)和模型之間的不一致.
(2)P值并不能表示零假設(shè)下模型為真實模型的概率,也不能表示偶然生成現(xiàn)有數(shù)據(jù)的概率.
(3) 在進行科學(xué)研究,商務(wù)決策或者政策制定時,不應(yīng)該僅僅根據(jù)P值是否超出一定的顯著水平做出決定.
(4) 完善的統(tǒng)計推測應(yīng)該展示全面和透明的結(jié)果.
(5)P值的大小和統(tǒng)計意義上的顯著性并不能證明某種效果的強度或者某一結(jié)果的重要性.
(6) 判斷模型是否恰當或者零假設(shè)是否正確,P值自身并不是很好的指標.
P值的問題只是存在于統(tǒng)計檢驗問題的冰山一角.Rao(2004)[4]提出了統(tǒng)計學(xué)特別是統(tǒng)計檢驗的弱點.Rao指出,在比較兩個不同的政策或者措施的處理效應(yīng)時,分析者往往過度地重視了兩個處理效應(yīng)一致這樣的零假設(shè),而這種零假設(shè)實際上根本不可能是真實的.與其做這樣的零假設(shè)檢驗,不如把重點放在估計處理效應(yīng)的差異上.
為了能夠具體地理解P值誤用的危害,下面的章節(jié)將繼續(xù)從理論和實驗的角度,對P值使用的問題進行詳盡的探討.
P值最常見的應(yīng)用是在t檢驗中的應(yīng)用.以兩個不同母體均值差檢驗為例,首先計算均值差的t值,然后根據(jù)統(tǒng)計學(xué)理論推導(dǎo)出t值的分布.兩個母體的方差一致的情況下,t值通常服從自由度為樣本量減2的t分布.然后推導(dǎo)出t值所對應(yīng)的P值.雙側(cè)檢驗時,如果P值<顯著水平則拒絕母體的均值間沒有差別的零假設(shè).單側(cè)檢驗時如果零假設(shè)是均值差≥0,當t值<零,自然是接受零假設(shè),當t值>零則利用P值進行判斷.如果P值/2<顯著水平則拒絕母體的均值差≥零的零假設(shè).零假設(shè)≤零時以此類推.P值在絕大多數(shù)的統(tǒng)計檢驗中都可以應(yīng)用,使用方法和t檢驗時類似.
利用P值進行檢驗從數(shù)理統(tǒng)計的理論角度講不存在任何問題.當樣本不斷增大最終一定能夠得到正確的結(jié)論.但是從實踐角度考慮這種正確結(jié)論是否能被正確領(lǐng)會,是否存在誤解是需要探討的.
假設(shè)有兩個隨機變量X和Y,均值分別為μ1和μ2,方差相同為σ2.假設(shè)μ1和μ2之間只有微妙的差別,也就是說與σ相比μ1-μ2很小.這時我們的樣本如果不是很大,通常很難拒絕零假設(shè),也就是說這種情況下檢驗的功效很低.但根據(jù)中心極限定理和大數(shù)法則,只要我們不斷增加樣本總歸會拒絕零假設(shè).這在數(shù)理理論上是無可厚非的,但如果在實踐上通過不斷增加樣本最終達到了拒絕零假設(shè)的目的,進而因為根據(jù)檢驗結(jié)果X和Y存在統(tǒng)計學(xué)意義上顯著的差別,而下結(jié)論認為在實踐的意義上X和Y存在有意義的差別,有時是會導(dǎo)致判斷的嚴重錯誤.
極端地講,完全等均值的兩個母體在現(xiàn)實中是很難存在的.例如,假設(shè)A、B兩組各種屬性完全匹配的患者,對A組進行某種藥物治療而對B組僅僅使用安慰劑.假設(shè)該藥物并沒有足夠的治療效果,但雖然微乎其微還是有一點點的效果,兩個群體的治療后平均壽命幾乎相同但也有微乎其微的差別.這時如果不斷增大樣本,最終還是可以拒絕零假設(shè)也就是拒絕藥物無效的假設(shè).這在統(tǒng)計學(xué)意義上講檢驗方法沒有任何錯誤,可是如果我們錯誤的以統(tǒng)計學(xué)的顯著性代替藥物的有效性,將造成判斷錯誤.原因在于,微乎其微的差別在統(tǒng)計學(xué)上雖然通過增加樣本可以檢驗出來,可是這樣的微乎其微的差別實在太小,在實際的醫(yī)療實踐中沒有任何意義.不能僅僅依據(jù)統(tǒng)計檢驗的顯著性對實際問題作出結(jié)論.只有結(jié)合實際才能正確判斷.
為了更清楚地展示P值的誤用可能性,做一個財務(wù)數(shù)據(jù)的模擬.實驗內(nèi)容是對某大學(xué)兩個不同學(xué)院的財務(wù)管理進行比較.比較A、B兩個學(xué)院的科研人員個人研究經(jīng)費中差旅費比例.設(shè)定A、B兩個學(xué)院的個人研究經(jīng)費中差旅費比例分別服從相互獨立的truncated standard normal distribution.A的上限和下限是0.1和0.9,B的上限和下限為0.11和0.91,均值分別為0.5和0.51.樣本量設(shè)置8種:100、200、500、1 000、2 000、5 000、10 000、100 000.生成數(shù)據(jù),針對每一種樣本量重復(fù)模擬1000次.假設(shè)已知方差相同的信息,對兩個學(xué)院的差旅費比例均值是否存在差異利用P值進行t檢驗.
模擬實驗的具體程序代碼如下:
模擬用Matlab程序代碼rng(0);
p=zeros(8,100);
pd=makedist('Normal','mu',0.1,'sigma',0.9);
pdt=truncate(pd,0,1);
forj=1:1000
num=[100 200 500 1000 2000 5000 10000 100000];
for i= 1:8
n=num(i);
x=random(pdt,n,2);
varx=2*var([x(:,1);x(:,2)]);
t=n^0.5*mean(x(:,1)-x(:,2)+0.01)/(varx^0.5);
p(i,j)=1-tcdf(abs(t),2*n-2);
end
end
(sum(p'<0.025)/1000)
模擬的結(jié)果見表1.從表1的結(jié)果可以看到,隨著樣本量的增大零假設(shè)被拒絕的比例越來越高.當樣本量在500以下時,只有10%以下零假設(shè)被拒絕.當樣本量達到5 000時拒絕比例接近一半,當樣本量增加到10 000時70%以上被拒絕,最終當樣本量為10萬時1 000次的模擬100%拒絕零假設(shè).
模擬的結(jié)果說明雖然兩個學(xué)院的個人差旅費比例均值相差只有1%,而這個1%只有總體分布的標準差的1/30左右.這樣小的差異在財務(wù)管理上沒有任何實際意義.但如果我們不斷增加樣本,就會和模擬的結(jié)果一樣拒絕兩個學(xué)院之間沒有差異的零假設(shè).這時如果錯誤地忽略了樣本均值差異的大小而僅僅依賴P值,判斷兩個學(xué)院有顯著的差異,將會誤導(dǎo)財務(wù)管理,造成工作失誤.
表1 模擬實驗結(jié)果
樣本量10020050010002000500010000100000拒絕零假設(shè)比例0.0620.0550.0890.1290.2140.4380.7041.000
本文對P值的應(yīng)用誤區(qū)進行了理論探討,并且通過模擬實驗展示了在應(yīng)用統(tǒng)計檢驗時誤用P值的可能性和后果.在實際應(yīng)用中,不能僅僅依賴P值對實際問題進行判斷,必須結(jié)合各個領(lǐng)域的實際情況,參考其他指標和該領(lǐng)域的理論知識和實踐經(jīng)驗.學(xué)習(xí)和使用統(tǒng)計學(xué)應(yīng)從數(shù)理角度正確理解統(tǒng)計學(xué)理論知識.同時掌握如何在實踐中正確使用統(tǒng)計學(xué)分析實際問題.
參考文獻:
[1]GILL J. Comments from the new editor[J]. Political Analysis, 2018, 26(1):1-2.
[2]Karl P X. On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling[J]. Philosophical Magazine Series 5, 1900,50(302): 157-175.
[3]Ronald L W, Nicole A L. The asa's statement on p -values: context, process, and purpose[J]. Am Stat, 2016, 70(2): 129-133.
[4]Rao C. Statistics: reflections on the past and visions for the future[J]. Communstat Theory Methods, 2001, 30(11): 2235-2257.