陸運清
(河北師范大學 教育學院,石家莊 050024)
兩個相關(guān)二分變量的差異顯著性檢驗在實際研究中經(jīng)常涉及,最典型的是前后測實驗設(shè)計研究。例如,在醫(yī)學研究中,考查患者服用某種藥物或接受某種處理前后是否出現(xiàn)某種癥狀,以研究該種藥物或該種處理對此癥狀的治療效果;在營銷研究中,調(diào)查消費者在看到某產(chǎn)品廣告前后購買該產(chǎn)品的情況,以確定該產(chǎn)品廣告的效果;在教育研究中,測查學生在接受某教育過程前后某項素質(zhì)的達標情況,以了解該教育過程的成效;等等。在前后測實驗設(shè)計中(見表1),a、d分別表示處理前后的測試結(jié)果均為“是”和均為“否”的被試數(shù),二者所代表的被試,處理前后測試結(jié)果相同。b、c分別表示處理前后測試結(jié)果由“是”變?yōu)椤胺瘛焙陀伞胺瘛弊優(yōu)椤笆恰钡牟糠郑咚淼谋辉?,處理前后測試結(jié)果均發(fā)生變化。
對相關(guān)二分變量進行統(tǒng)計檢驗的常用方法是McNemar檢驗,它是由美國統(tǒng)計學家Quinn McNemar于1947年提出的[1]。McNemar檢驗的基本公式為
其應用條件為b+c≥10。該卡方分布的自由度為1。
計數(shù)數(shù)據(jù)資料的檢驗看似簡單,但在實際應用中經(jīng)常出現(xiàn)誤用問題[2][3]。McNemar檢驗的問題有所不同,是理論上有些不盡如人意。從McNemar檢驗公式可以看出,只有表示前后測結(jié)果不一致的兩部分b和c包括在公式中,而處理前后測試結(jié)果不發(fā)生變化的部分a和d并未包括在其中。Cochran WG于1950年論及前后測結(jié)果一致的部分在差異檢驗中不起作用,并提出這一點不符合直觀感覺[4]。對于給定的b和c,直覺應該是前后測試結(jié)果差異在a和d為零時要比a和d很大時顯著。這一點通過實例更容易理解。例如,將未通過某次標準化考試的學生隨機分配到兩輔導班培訓,培訓一段兒時間后這些學生又參加了第二次的標準化考試,如果要考查甲、乙兩個輔導班的效果,隨機抽取學生了解考試情況,結(jié)果抽取的參加甲輔導班的10名學生全部通過考試(a1=0,b1=0,c1=10,d1=0),抽取的參加乙輔導班的30名學生中10名通過了考試(a2=0,b2=0,c2=10,d2=20)。通過McNemar檢驗考查兩個輔導班輔導的效果,二者的檢驗結(jié)果均為χ2=(b-c)2/(b+c)=10,p=0.0015。而具體分析,甲輔導班的效果應該好于乙班??梢?,McNemar檢驗中只存在兩次測試不一致的部分具有一定的不合理性。表1相關(guān)四格表“前-后測實驗設(shè)計”示意表
因此,研究者得出了McNemar檢驗公式。實際上,這個推導過程對a和d的極大似然估計并沒有意義,這種估計方法a和d永遠不起作用。退一步講,即使承認該推導過程,得出的檢驗公式也只是計算卡方的公式形式上與McNemar檢驗公式相同,而實際上并不能像文中論及的一樣:該過程得出McNemar檢驗。因為McNemar檢驗的卡方分布的自由度為1,而此推導過程的分類項數(shù)為4(與McNemar的推導過程相比,差別僅是多出了關(guān)于a和d的兩項),因此,該卡方分布的自由度為3。這樣,這個推導過程并不能得出McNemar檢驗,更不可能正確解釋McNemar檢驗中不包含a和d的問題。
統(tǒng)計學家還就比之比、對數(shù)比、風險比等其它一些方法作過相關(guān)四格表差異顯著性檢驗的研究,但這些方法均為得出更合理的結(jié)果[7]。
通過重新組合分組的方法,研究者簡單巧妙地解決了在樣本整體基礎(chǔ)上考慮兩個變化項一致的問題[8]。將樣本n考慮成b和a+c+d或者c和a+b+d兩個分項,則對應兩項的理論次數(shù)分別為(b+c)/2和n-(b+c)/2,這個過程既考慮到整個樣本,又使得b和c對應的理論次數(shù)相等。在此基礎(chǔ)上用Pearson卡方和二項分布近似的正態(tài)分布均可以推導出相關(guān)四格表數(shù)據(jù)的檢驗公式[8]
在b+c≥10時,公式(2)和(3)的計算結(jié)果符合自由度為1的卡方分布。這個結(jié)果對McNemar檢驗進行了合理修正。
用修正公式(2)和(3)對本文開始部分的甲、乙輔導班的效果進行檢驗,則甲輔導班的效果檢驗結(jié)果χ2=10,p=0.0015;乙輔導班的檢驗結(jié)果χ2=5.36,p=0.0206。甲輔導班的效果更顯著。
修正后的McNemar檢驗不但依賴于前后測驗結(jié)果發(fā)生變化的被試數(shù)目b和c,還與總樣本容量n或前后測驗結(jié)果不變的被試的數(shù)目a和d有關(guān)。在b和c一定的情況下,修正后的卡方值隨著a和d的增大而減小,當a+d=0時,與修正前的值相等。這個結(jié)果更具有合理性。
由于McNemar檢驗僅考慮兩次測試有變化的部分b和c,因此檢驗結(jié)果擴大了具有統(tǒng)計學意義的可能性。在此抽取幾個采用了McNemar檢驗的研究文獻,將其研究數(shù)據(jù)用McNemar檢驗的修正公式重新進行檢驗,兩種檢驗的有關(guān)結(jié)果如表2。
從表2中的數(shù)據(jù)可以看出,修正公式檢驗結(jié)果相對于McNemar檢驗結(jié)果的顯著性在不同程度上降低了。其中數(shù)據(jù)⑵⑶⑺⑻⒀⒂⒃McNemar檢驗結(jié)果為p<0.05,修正公式的檢驗結(jié)果為p>0.05;數(shù)據(jù)⑷⑸⑹⑽⑾⑿的McNemar檢驗結(jié)果為P<0.01,修正公式的檢驗結(jié)果為p<0.05;數(shù)據(jù)⑴、⑼、⒁的McNemar檢驗結(jié)果分別為p<0.01,p<0.001,p<0.001,修正公式的檢驗結(jié)果分別為p>0.05,p<0.01,p<0.05。由于McNemar檢驗只考慮兩次測試結(jié)果的不一致部分b和c,將兩次測試結(jié)果的差異放大,因此,造成I型錯誤的顯示值比真實值小,有時使差異本不顯著的數(shù)據(jù)檢驗結(jié)果顯示為顯著。修正后的檢驗結(jié)果修正了這個誤差。例如,文獻[6]中甲、乙兩種方法檢驗細菌的結(jié)果差異未達到顯著水平,但McNemar檢驗結(jié)果差異非常顯著。文獻[9]中的McNemar檢驗結(jié)果顯示,腰圍指數(shù)和腹部肥胖診斷代謝綜合征的結(jié)果差異顯著,修正檢驗得出兩種診斷結(jié)果的差異不顯著。文獻[10]中的McNemar檢驗結(jié)果顯示,新生兒血清HBV-DNA陽性組PBMC中HBV-DNA檢出率明顯高于血清HBV-DNA陰性組,而修正檢驗結(jié)果顯示,陽性組與陰性組的檢出率差異不顯著。文獻[13]中,在對自閉癥譜系障礙分析中,被試回答有關(guān)自閉癥測試的兩種問題通過率的McNemar檢驗結(jié)果為差異顯著,而修正后的檢驗結(jié)果未達到顯著程度;對TD(typically developing)組的分析中,兩種問題測試通過率的差異檢驗結(jié)果也如此。文獻[15]中通過基本護理篩查(ADS-PC)和簡明精神量表(MMSE)對不同組別老年癡呆病人組和非癡呆病人組測試結(jié)果進行檢驗,原文表3中第5組的白人及表4中第6組的受教育年限大于12年的被試的測試結(jié)果而言,McNemar檢驗結(jié)果顯著,而修正結(jié)果顯示二者差異不顯著。文獻[16]對選修家庭暴力問題課程的同學在上課前后調(diào)查其是否遭到過家庭暴力,結(jié)果顯示,上課后回答曾經(jīng)遭受家庭暴力的學生增多,McNemar檢驗差異顯著,但修正檢驗的結(jié)果差異不顯著。修正后的檢驗糾正了因僅考慮變化部分而放大了差異性的問題。
表2 幾個研究文獻中數(shù)據(jù)的兩種檢驗結(jié)果
相關(guān)二分變量的統(tǒng)計處理除在前后測設(shè)計中廣泛應用外,對配對研究設(shè)計中的數(shù)據(jù)分析也適合。如雙胞胎對兩種性質(zhì)活動的選擇是否有相同偏好;夫妻對某項社會決策的贊成和反對意見是否一致;父子對兩種養(yǎng)老方式的贊成傾向是否相同;等。可見,相關(guān)二分變量在很多領(lǐng)域的實際研究中應用相當普遍。因此,選用合適的統(tǒng)計方法對相關(guān)二分變量進行分析以得出更科學的研究結(jié)果,為生活、工作實際提供更為有效的指導是非常必要的。
[1]McNemar Q.Note on the Sampling Error of the Difference between Correlated Proportions or Percentages[J].Psychometrika,1947,(12).
[2]陸運清.用Pearson’s卡方統(tǒng)計量進行統(tǒng)計檢驗時需要注意的幾個問題[J].統(tǒng)計與決策,2009,(15).
[3]陸運清.心理與教育研究中列聯(lián)表統(tǒng)計檢驗的幾種常見錯誤辨析[J].統(tǒng)計與決策,2010,(15).
[4]Cochran WG.The Comparison of Percentages in Matched Samples[J].Biometrika,1950,(37).
[5]羅明奎.配對資料McNemar檢驗法的適用范圍[J].中國衛(wèi)生統(tǒng)計,1999,16(3).
[6]趙瑩.配對四格表的一致性檢驗[J].數(shù)理醫(yī)藥學,2010,23(4).
[7]Agresti A,Min Y.Effects and Non-Effects of Paired Identical Observations in Comparing Proportions with Binary Matched-pairs Data[J].Statistics in Medicine,2004,(23).
[8]Yunqing Lu.A Revised Version of McNemar’s Test for Paired Binary Data[J].Communication in Statistics-Theory and Methods,2010,39(19).