山西醫(yī)科大學衛(wèi)生統(tǒng)計教研室(030001) 余紅梅
1.P值的定義
·學術討論·
解析美國統(tǒng)計學會關于統(tǒng)計學檢驗和P值的聲明
山西醫(yī)科大學衛(wèi)生統(tǒng)計教研室(030001) 余紅梅△
2014年2月,一位美國數(shù)學和統(tǒng)計學教授在世界上最大的統(tǒng)計專業(yè)學會——美國統(tǒng)計學會(American Statistical Association,ASA)論壇上拋出關于P值的議題:“為什么大學和研究生院在教P=0.05,答案是因為科學界和雜志社編輯在使用;為什么人們一直在使用P=0.05,答案是因為大學和研究生院在教”。為了澄清對統(tǒng)計學檢驗和P值的誤解和誤用,ASA理事會決定組成工作組起草一份聲明,聲明的對象是研究者、實際工作者和雜志社編輯等非統(tǒng)計專業(yè)人員。2015年10月專家工作組討論兩天后初步達成共識,隨后的三個月,經過專家、ASA理事會以及目標受眾的審議,2016年1月29日ASA執(zhí)行委員會通過了該聲明,隨后在The American Statistician在線發(fā)布[1],在業(yè)界引起很大反響。國內知名統(tǒng)計學家中山大學方積乾教授親自筆譯了該聲明及其背景[2-3]。本文通過回顧P值相關理論,進一步解讀ASA聲明的內容,旨在使非統(tǒng)計專業(yè)人員避免對P值的誤解和誤用。
1.P值的定義
ASA聲明中對P值的解釋:“Informally,a p-value is the probability under a specified statistical model that a statistical summary of the data(for example,the sample mean difference between two compared groups) would be equal to or more extreme than its observed value[1].”國內醫(yī)學統(tǒng)計學教科書中的描述:“P的含義是指從H0規(guī)定的總體中隨機抽樣,抽得等于及大于或(和)等于及小于現(xiàn)有樣本獲得的檢驗統(tǒng)計量(如t、u)值的概率”[4]。
2.Fisher的P值理論:significance test
P值理論歸功于現(xiàn)代統(tǒng)計學之父、英國統(tǒng)計學家Ronald A.Fisher,F(xiàn)isher基于1908年Student的t分布理論,于1925年首次給出不同情形下P值的計算方法[5]。P值提供的是度量實際數(shù)據與無效假設(null hypothesis)不相容的證據,P值越小,越有理由拒絕無效假設。Fisher認為這是建立科學事實的唯一實驗依據[5],并提出使用后來飽受詬病的“significant”一詞來標記該結論,P值理論由此得名significance test。實際上Fisher當時使用該詞的初衷來自于該詞的本意“something worthy of notice”,提示研究者應盡可能重復實驗,如果重復實驗仍然得到較小的P值,則可以推論觀察到的效應不大可能單純由于偶然造成。所以“significant”本意是值得研究者關注或進行重復實驗,一次實驗本身并不能證明。另外Fisher當時還建議閾值除了0.05外,也可以使用其他比如0.02或0.01[6],同時也強調下結論時應結合P值和研究的背景信息[7-8]。
3.Neyman-Pearson的假設檢驗理論:hypothesis test
假設檢驗(hypothesis test)理論歸功于波蘭數(shù)學家Jerzy Neyman和英國統(tǒng)計學家Egon Pearson(Karl Pearson之子)。1933年,在Fisher提出P值理論8年后,Neyman和Pearson提出假設檢驗理論,他們認為考慮一個無效假設的前提是先構想至少一個合理的備擇假設(alternative hypothesis)[9]。
Neyman-Pearson理論巧妙避開了Bayes定理,文獻中提到“基于概率論的檢驗本身都不能提供關于假設真?zhèn)蔚娜魏斡袃r值的證據,但是我們可以從另一個角度看檢驗的目的。不用期望知道每個假設的真?zhèn)危覀兓蛟S可以尋求并遵循一些規(guī)則來規(guī)范我們的行為,以確保從經驗的結果看,我們不會經常犯錯(Without hoping to know whether each separate hypothesis is true or false,we may search for rules to govern our behavior with regard to them,in following which we insure that,in the long run of experience,we shall not be too often wrong.)”[10]。與Fisher理論不同,Neyman-Pearson理論中包含Ⅰ型錯誤和Ⅱ型錯誤(或檢驗效能),兩型錯誤的概念及可能原因見表1。盡管他們當時沒有設定5%水平為Ⅰ型錯誤的標準閾值,科學界普遍認同該閾值。對Ⅱ型錯誤β,通常取0.1或0.2,對應檢驗效能(即1-β)分別為90%和80%。
Fisher的P值理論和Neyman-Pearson假設檢驗理論的區(qū)別見表2和圖1[10-11]。按照Fisher的P值理論,P值為0.052和0.047在做出推斷結論時的權重幾乎相等,而按照Neyman-Pearson的假設檢驗理論,則結論完全相反,這也正成為Fisher反對Neyman-Pearson假設檢驗理論的主要原因。
表1 Neyman-Pearson理論的兩型錯誤及可能原因
表2 Fisher的P值理論和Neyman-Pearson假設檢驗理論的區(qū)別
圖1A:基于Fisher的P值理論,實驗1不拒絕H0,實驗2和3拒絕H0的證據相當。圖1B:基于Neyman-Pearson假設檢驗理論,按照α=0.05,β=0.10,實驗1和2不拒絕H0,實驗3拒絕H0。
圖1 Fisher的P值理論和Neyman-Pearson 假設檢驗理論的區(qū)別(來自文獻[10])
4.現(xiàn)行的假設檢驗理論
現(xiàn)行的假設檢驗是Fisher的P值理論和Neyman-Pearson假設檢驗理論的結合,稱為null hypothesis significance testing(NHST)。事先指定Ⅰ型錯誤率(通常是5%)和檢驗效能(通常至少80%),然后計算P值,如果P值小于事先指定的Ⅰ型錯誤率,則拒絕無效假設。統(tǒng)計學教科書從20世紀50年代開始融合兩種理論,60年代開始被科學界和研究者廣泛接受。其推論依據是:若A成立,則B不大可能出現(xiàn);若出現(xiàn)B,則不支持A。其特點是既有邏輯推理又有概率解釋,而且只能證偽。
根據假設檢驗理論,推斷結論不是二分類式的對錯。拒絕無效假設,不意味著實驗結果可以證明任何備擇假設的真實性;反之,不拒絕無效假設,也不意味著實驗結果可以確認觀察到的樣本差別單純由于偶然引起。因此,假設檢驗可能出現(xiàn)有統(tǒng)計學意義但只有微弱甚至沒有實際意義,或者有很重要的實際意義但沒有統(tǒng)計學意義。特別地,當P>0.05時,結論宜表述為“兩治療組間差別的方向沒有定論(P=0.07)”或“兩變量間相關的方向沒有定論(P=0.06)”,而不是“兩治療組間沒有差別(P=0.07)”或“兩變量間沒有相關關系(P=0.06)”。這種表述避免了接受無效假設的結論,而且提示需要更多的數(shù)據以得到確定性的結論[12]。因此諸多統(tǒng)計學家建議假設檢驗結論中“significant”或“nonsignificant”前務必使用“statistically”。
備擇假設成立前提下,P值是總體效應值和樣本含量的函數(shù),二者之一越大,則相應的P值越小。以相關系數(shù)為例,如果樣本含量小(n=10),一個比較大的r值(r=0.60)會導致無統(tǒng)計學意義的結果;反之,一個很小的值(r=0.088),只要樣本含量足夠大(n=500),也會導致有統(tǒng)計學意義的結果,見表3[13]。模擬研究表明,給定檢驗效能(或樣本含量和效應值)情況下,重復實驗雙側檢驗P值的分布呈極度偏態(tài)(除非效應值等于0),且P值的變異度很大;若效應值未知,假定一次實驗得到的雙側檢驗P值為0.05,則重復實驗雙側檢驗P值第10和第90百分位數(shù)分別為0.00008和0.44,P區(qū)間范圍很寬;只有在一次實驗得到的P值非常小的情況下,重復實驗P區(qū)間范圍才較窄[14]。應該正是P值的上述自身缺陷導致了近90年的實踐中對P值越來越多的爭議,如蚊子(比喻煩人又不可能趕走)或皇帝的新衣(比喻存在明顯的問題但被所有人忽視)[15-16];甚至有文獻明確反對研究者、雜志社和讀者使用假設檢驗[17-18]。目前統(tǒng)計軟件的普遍可及性也在某種程度上導致了研究者對P值的誤解和誤用[19]。期刊《Research in the Schools》曾組稿專門出版一期特刊(Special Issue),討論關于統(tǒng)計學假設檢驗的問題[20]。
表3 給定樣本含量拒絕無效假設的相關系數(shù)r界值(α=0.05)
1.“P-values can indicate how incompatible the data are with a specified statistical model”.
原則1強調P值表明數(shù)據與既定統(tǒng)計模型不相容的程度,P值越小,數(shù)據與既定統(tǒng)計模型對應的無效假設不相容的程度越大,前提是滿足計算P值的假定條件。原則1實質上強調Fisher的significance test理論中關于P值的意義。
2.“P-values do not measure the probability that the studied hypothesis is true,or the probability that the data were produced by random chance alone”.
原則2強調P值不表示無效假設成立的概率,也不表示樣本數(shù)據單純由于偶然產生的概率。注意,我們得到的是無效假設H0成立條件下,獲得現(xiàn)有樣本或更極端樣本的概率,而不是獲得現(xiàn)有樣本條件下無效假設H0成立的概率。從這個角度看,假設檢驗是演繹而不是歸納[8,21]。兩個概率的關系由Bayes定理解釋:Posterior odds(H0,after obtaining the data)=Prior odds(H0,before obtaining the data)*Prob(Data,under H0)/Prob(Data,under H1)。Trafimow和Rice蒙特卡洛模擬研究結果表明,按照傳統(tǒng)的0.05檢驗水準,二者的相關性僅為0.289;如果檢驗水準更嚴格如0.01或0.001,則相關性更低,因此由前者的大小直接推斷后者絕非安全[22]。
3.“Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold”.
原則3強調科學結論或決策不應僅依靠P值是否超過給定閾值即檢驗水準,還要結合研究設計、數(shù)據質量、研究現(xiàn)象的外部證據以及數(shù)據分析的前提條件等。正是廣泛使用將P小于0.05即“有統(tǒng)計學意義”作為科學發(fā)現(xiàn)的依據,才導致對該科學推論過程的曲解。
4.“Proper inference requires full reporting and transparency”.
原則4強調研究者應當報告研究的所有假設、數(shù)據收集、統(tǒng)計學分析及其P值,而不應選擇性地報告P值和相應的統(tǒng)計分析,要嚴格避免所謂“cherry-picking”或者“p-hacking”行為。有研究表明,有統(tǒng)計學意義的結果可能更容易被引用[23],這一不科學行為也可能導致“p-hacking”行為的惡性循環(huán)。
5.“A p-value,or statistical significance,does not measure the size of an effect or the importance of a result”.
原則5強調P值不等價于效應的大小或研究結果的重要性,P值越小并不表示效應越大或結果越重要,反之,P值越大也不表示效應越小或結果越不重要。只要樣本含量足夠大或測量精度足夠高,任何小的效應都能產生小的P值,反之,大的效應由于樣本含量小或測量精度低會導致大的P值;另外,相同的估計效應由于不同的估計精度會導致不同的P值。
6.“By itself,a p-value does not provide a good measure of evidence regarding a model or hypothesis”.
原則6強調沒有研究背景或其他證據的P值只能提供有限的信息。例如,接近0.05的P值只能提供關于無效假設的微弱證據,而一個相對大的P值也不構成支持無效假設的證據,因此,數(shù)據分析不應以計算出P值而告終,研究者還可以提供其他證據,包括置信區(qū)間、預測區(qū)間、Bayes方法、似然比或Bayes因子、決策理論模型等。
ASA聲明指出:作為規(guī)范的科學實踐的一個必要部分,規(guī)范的統(tǒng)計實踐強調研究設計的原則和實施、研究假設的理解、研究結果的解釋及表達等。聲明的執(zhí)筆人、ASA理事會執(zhí)行主席Wasserstein教授也強調從未指望單一的一個方法比如P值可以取代科學推斷,ASA聲明或許會引導科學研究到一個所謂“后P<0.05時代”[1]。
就像大家熟知的平均數(shù)的誤用一樣,假設檢驗本身沒有錯,可能犯錯誤的是使用者,因此一直以來假設檢驗遭受的是不公正的批評[12]。報告確切的P值可以讓讀者或研究者判斷結果提示的意義,而不是僅僅依據檢驗水準做出拒絕或不拒絕假設的非此即彼的推斷。另外,建議研究者綜合使用假設檢驗、效應值、置信區(qū)間、Bayes統(tǒng)計、meta分析等,從不同角度闡釋研究現(xiàn)象,而不是將假設檢驗作為統(tǒng)計推斷唯一依據。
[1]Wasserstein RL,Lazar NA.The ASA′s statement on p-values:context,process,and purpose.The American Statistician,2016,DOI:10.1080/00031305.2016.1154108.
[2]方積乾(譯).ASA關于p-值的聲明:背景、過程和目的.中國衛(wèi)生統(tǒng)計,2016,33(3):548-549.
[3]方積乾(譯).ASA關于統(tǒng)計意義和p-值的聲明.中國衛(wèi)生統(tǒng)計,2016,33(3):549-552.
[4]孫振球主編.醫(yī)學統(tǒng)計學.第3版.北京:人民衛(wèi)生出版社,2010.
[5]Fisher RA.Statistical methods for research workers.Edinburgh,UK:Oliver and Boyd,1925.
[6]Fisher RA.The arrangement of field experiments.J Ministry of Agriculture Great Britain,1926,33:503-513.
[7]Fisher RA.Statistical methods and scientific inference.3rd ed.New York:Macmillan,1973.
[8]Goodman SN.Toward evidence-based medical statistics.1:the P value fallacy.Ann Intern Med,1999,130:995-1004.
[9]Neyman J,Pearson E.On the problem of the most efficient tests of statistical hypotheses.Philosophical Transactions of the Royal Society of London.Series A,1933,231:289-337.
[10]Biau DJ,Jolles BM,Porcher R.P value and the theory of hypothesis testing.Clin Orthop Relat Res,2010,468:885-892.
[11]Lew MJ.Bad statistical practice in pharmacology(and other basic biomedical disciplines):you probably don’t know P.British Journal of Pharmacology,2012,166:1559-1567.
[12]Wainer H,Robinson DH.Shaping up the practice of null hypothesis significance testing.Educational Researcher,1990:22-30.
[13]Larry GD.Statistical Significance Testing:A historical overview of misuse and misinterpretation with implications for the editorial policies of educational journals.Research in the Schools,1998,5(2):23-32.
[14]Cumming G.Replication and p intervals:P values predict the future only vaguely,but confidence intervals do much better.Perspectives on Psychological Science,2008,3:286-300.
[15]Nuzzo R.Statistical errors:P values,the ‘gold standard’ of statistical validity,are not as reliable as many scientists assume.Nature,2014,506:150-152.
[16]Lambdin C.Significance tests as sorcery:Science is empirical-significance tests are not.Theory Psychol,2012,22:67-90.
[17]Armstrong JS.Significance tests harm progress in forecasting.International Journal of Forecasting,2007,23(2):321-327.
[18]Azar B.APA task force urges a harder look at data.APA Monitor,1997,28(3):26.
[19]Goodman SN.A dirty dozen:Twelve P-value misconceptions.Semin Hematol,2008,45:135-140.
[20]Special Issue:Statistical significance testing.Research in the Schools,1998,5(2):5-65.
[21]Krueger J.Null hypothesis significance testing:On the survival of a flawed method.American Psychologist,2001,56:16-26.
[22]Trafimow D,Rice S.A test of the null hypothesis significance testing procedure correlation argument.The Journal of General Psychology,2009,136:261-269.
[23]Nieminena P,Ruckera G,Miettunen J.Statistically significant papers in psychiatry were cited more often than others.Journal of Clinical Epidemiology,2007,60:939-946.
(責任編輯:郭海強)
△通信作者:余紅梅,E-mail:yu@sxmu.edu.cn