胡純嚴(yán) ,胡良平 ,2*
(1.軍事科學(xué)院研究生院,北京 100850;2.世界中醫(yī)藥學(xué)會(huì)聯(lián)合會(huì)臨床科研統(tǒng)計(jì)學(xué)專業(yè)委員會(huì),北京 100029*通信作者:胡良平,E-mail:lphu927@163.com)
在診斷醫(yī)學(xué)研究中,研究者常需要使用兩種方法(或兩位評(píng)價(jià)者)測(cè)定同一批樣品并按配對(duì)的方式把“二值”結(jié)果呈現(xiàn)出來,表達(dá)此種資料的表格叫做“配對(duì)設(shè)計(jì)四格表資料或配對(duì)設(shè)計(jì)2×2表資料”[1]。所謂“二值”結(jié)果,即檢測(cè)結(jié)果只有兩種,通常分為陽性(用“+”表示)與陰性(用“-”表示)。本文介紹對(duì)配對(duì)設(shè)計(jì)四格表資料進(jìn)行差異性分析的基本原理和基于SAS與R軟件實(shí)現(xiàn)統(tǒng)計(jì)計(jì)算的方法。
【例1】設(shè)有一種能準(zhǔn)確診斷血友病的方法(稱為金標(biāo)準(zhǔn)),用它對(duì)34名血友病隱性攜帶的女性患者和34名健康婦女檢測(cè)的結(jié)果作為標(biāo)準(zhǔn)對(duì)照,對(duì)每位受試者再用欲比較優(yōu)劣的試驗(yàn)方法檢測(cè)。兩種方法對(duì)每位受試者的樣品檢測(cè)的結(jié)果按配對(duì)的形式整理成表1的形式[2]。問:表1資料是否值得分析?
表1 兩種檢測(cè)方法對(duì)同一組受試者檢測(cè)的結(jié)果
【解答】對(duì)于表1資料而言,有“金標(biāo)準(zhǔn)”檢測(cè)方法作為標(biāo)準(zhǔn)對(duì)照,可以明確地判定試驗(yàn)檢測(cè)方法的優(yōu)劣。這種四格表資料稱為特設(shè)“金標(biāo)準(zhǔn)”的配對(duì)設(shè)計(jì)四格表資料,可以對(duì)其進(jìn)行統(tǒng)計(jì)分析。
【統(tǒng)計(jì)分析方法的選擇】對(duì)于特設(shè)金標(biāo)準(zhǔn)的配對(duì)設(shè)計(jì)四格表資料,有兩種統(tǒng)計(jì)分析方法:其一,檢驗(yàn)兩種檢測(cè)方法檢測(cè)結(jié)果不一致部分的差別是否具有統(tǒng)計(jì)學(xué)意義(簡(jiǎn)稱“差異性檢驗(yàn)”),可用McNemar'sχ2檢驗(yàn)來實(shí)現(xiàn);其二,檢驗(yàn)兩種檢測(cè)方法檢測(cè)結(jié)果一致部分的數(shù)量是否具有統(tǒng)計(jì)學(xué)意義(簡(jiǎn)稱“一致性檢驗(yàn)”),可用Kappa檢驗(yàn)(或稱一致性檢驗(yàn))法,具體實(shí)現(xiàn)見文獻(xiàn)[3]。
【例2】設(shè)有兩種探針,分別叫做“生物探針”和“P探針”。用它們同時(shí)檢測(cè)每份樣品中是否具有某種物質(zhì),某研究者將86份樣品的檢測(cè)結(jié)果以表2的形式呈現(xiàn)出來。事實(shí)表明,任何一種探針的檢測(cè)結(jié)果正確與否,是未知的。問:表2資料是否值得分析?
表2 兩種探針同時(shí)檢測(cè)的結(jié)果
【解答】在表2資料中,兩種檢測(cè)方法不知何者為優(yōu),用任何一種方法檢測(cè)都可能出現(xiàn)假陽性或假陰性結(jié)果,比較它們檢測(cè)結(jié)果不一致的兩個(gè)頻數(shù)(或率)之間的差別是否具有統(tǒng)計(jì)學(xué)意義,無論統(tǒng)計(jì)分析結(jié)果是什么,都不能說明任何問題。也就是說,對(duì)于缺乏“金標(biāo)準(zhǔn)”的配對(duì)設(shè)計(jì)四格表資料,不值得做統(tǒng)計(jì)分析。
【例3】假定有甲、乙兩種培養(yǎng)基,同時(shí)用這兩種培養(yǎng)基對(duì)同一批痰液標(biāo)本進(jìn)行培養(yǎng),培養(yǎng)的結(jié)果以表3的形式呈現(xiàn)出來。問:表3資料是否值得分析?
表3 兩種培養(yǎng)基對(duì)同一批痰液標(biāo)本同時(shí)培養(yǎng)的結(jié)果
【解答】相同的痰液標(biāo)本中,若甲培養(yǎng)基能培養(yǎng)出陽性結(jié)果,而乙培養(yǎng)基卻培養(yǎng)出陰性結(jié)果,則表明甲培養(yǎng)基優(yōu)于乙培養(yǎng)基,這種陽性結(jié)果就是“真陽性”,而不會(huì)出現(xiàn)假陽性。此時(shí),比較兩種培養(yǎng)基培養(yǎng)的結(jié)果不一致的樣品數(shù)之間的差別是否具有統(tǒng)計(jì)學(xué)意義,是有價(jià)值的。這種四格表資料稱為隱含“金標(biāo)準(zhǔn)”的配對(duì)設(shè)計(jì)四格表資料,值得做統(tǒng)計(jì)分析。
【統(tǒng)計(jì)分析方法的選擇】有兩種可供選用的統(tǒng)計(jì)分析方法,即“差異性檢驗(yàn)”和“一致性檢驗(yàn)”,詳見前面“例1”的“統(tǒng)計(jì)分析方法的選擇”部分,此處不再贅述。
2.1.1 配對(duì)設(shè)計(jì)四格表資料的一般表達(dá)形式
配對(duì)設(shè)計(jì)四格表資料的一般表達(dá)形式見表4。
表4 配對(duì)設(shè)計(jì)四格表資料的表達(dá)形式
2.1.2 配對(duì)設(shè)計(jì)四格表資料差異性檢驗(yàn)
2.1.2.1 建立檢驗(yàn)假設(shè)
【說明】Tb、Tc分別代表“b”與“c”的理論頻數(shù)。
2.1.2.2 構(gòu)建差異性檢驗(yàn)的檢驗(yàn)統(tǒng)計(jì)量
配對(duì)設(shè)計(jì)四格表資料差異性檢驗(yàn)的檢驗(yàn)統(tǒng)計(jì)量為McNemar'sχ2檢驗(yàn)統(tǒng)計(jì)量[4],公式如下:
若b+c≥40時(shí)可應(yīng)用未校正的公式:
若b+c<40時(shí)應(yīng)用連續(xù)性校正公式:
以上兩式定義的χ2檢驗(yàn)統(tǒng)計(jì)量均服從自由度為1的χ2分布χ21。
【說明】McNemar'sχ2精確檢驗(yàn)方法見文獻(xiàn)[5-6];McNemar'sχ2非參數(shù)檢驗(yàn)方法見文獻(xiàn)[7],因篇幅所限,此處從略。
2.2.1 基于SAS實(shí)現(xiàn)差異性檢驗(yàn)
【例4】沿用例1中的“問題與數(shù)據(jù)”,試基于SAS進(jìn)行差異性檢驗(yàn)。設(shè)所需要的SAS程序如下[6,9]:
【程序說明】McNemar'sχ2檢驗(yàn)需要通過“tables語句”中的選項(xiàng)“agree”來指定;“exact語句”中的選項(xiàng)“mcnem”是為了求McNemar'sχ2檢驗(yàn)的精確概率。
【SAS主要輸出結(jié)果及解釋】
McNemar'sχ2=0.1429,近似的概率值P=0.7055;精確的概率值P=1.00>0.05,應(yīng)接受H0:Tb=Tc,即兩種檢測(cè)方法檢測(cè)結(jié)果不一致的頻數(shù)之間的差別無統(tǒng)計(jì)學(xué)意義。
【結(jié)論】就本例而言,試驗(yàn)法的假陽性例數(shù)(或率)與假陰性例數(shù)(或率)接近相等。
2.2.2 基于R實(shí)現(xiàn)差異性檢驗(yàn)
設(shè)所需要的R程序如下[8-9]:
【程序說明】“>”代表R軟件運(yùn)行環(huán)境中的“提示符”,上面的R程序中共有3個(gè)提示符,說明共有3個(gè)R語句;第一句的目的是創(chuàng)建一個(gè)名為Performance的矩陣,通過“<-”實(shí)現(xiàn)賦值(說明:“<-”的作用類似于“=”);第二句要求系統(tǒng)給出所創(chuàng)建的矩陣;第三句調(diào)用實(shí)現(xiàn)McNemar'sχ2檢驗(yàn)的函數(shù)mcnemar.test()。圓括號(hào)內(nèi)的參數(shù)Performance就是以矩陣形式呈現(xiàn)的配對(duì)設(shè)計(jì)四格表資料(包括橫標(biāo)目與縱標(biāo)目以及表內(nèi)部的4個(gè)頻數(shù))。
第一部分結(jié)果顯示出已經(jīng)成功創(chuàng)建的矩陣,實(shí)際上就是本例中的配對(duì)設(shè)計(jì)四格表資料。
第二部分結(jié)果:χ2=0,df=1,P=1。
【注意】用R計(jì)算所得的結(jié)果“χ2=0”與用SAS計(jì)算所得的結(jié)果“χ2=0.1429”不同,因?yàn)镽軟件中是采用校正公式(2)計(jì)算的;而SAS軟件中是采用未校正公式(1)計(jì)算的。
【結(jié)論】就本例而言,試驗(yàn)法的假陽性例數(shù)(或率)與假陰性例數(shù)(或率)接近相等。
配對(duì)設(shè)計(jì)四格表資料差異性檢驗(yàn)也被稱為“對(duì)稱性檢驗(yàn)”,當(dāng)檢驗(yàn)結(jié)果為P>0.05時(shí),表明表中的“b(嚴(yán)格地說,應(yīng)是Tb)(假陽性頻數(shù))”與“c(嚴(yán)格地說,應(yīng)是Tc)(假陰性頻數(shù))”之間的差別無統(tǒng)計(jì)學(xué)意義,也可理解成這兩個(gè)位置上的頻數(shù)關(guān)于“主對(duì)角線(從左上角到右下角的連線)”對(duì)稱。此時(shí),很容易誤解成“試驗(yàn)法與金標(biāo)準(zhǔn)法檢測(cè)結(jié)果之間無差別,可用試驗(yàn)法取代金標(biāo)準(zhǔn)法”。也就是說,對(duì)配對(duì)設(shè)計(jì)四格表資料進(jìn)行McNemar'sχ2檢驗(yàn),只能回答試驗(yàn)法自身的“假陽性頻數(shù)(或率)”與“假陰性頻數(shù)(或率)”之間的差別是否具有統(tǒng)計(jì)學(xué)意義,若“P>0.05”,表明試驗(yàn)法檢測(cè)出現(xiàn)“假陽性結(jié)果”與出現(xiàn)“假陰性結(jié)果”機(jī)會(huì)均等;若“P<0.05”,表明試驗(yàn)法檢測(cè)出現(xiàn)“假陽性結(jié)果”與出現(xiàn)“假陰性結(jié)果”機(jī)會(huì)不均等。此時(shí),若“b>c”,則表明試驗(yàn)法出現(xiàn)“假陽性結(jié)果”的概率明顯大于其出現(xiàn)“假陰性結(jié)果”的概率,反之亦然。
若問“試驗(yàn)法可否取代金標(biāo)準(zhǔn)法”,則需要采用“kappa檢驗(yàn)或稱一致性檢驗(yàn)”,當(dāng)檢驗(yàn)結(jié)果為“P<0.05”,并且,“樣本一致率”大于“專業(yè)上要求的一致率”時(shí),才可以認(rèn)為:“試驗(yàn)法可以取代金標(biāo)準(zhǔn)法”[3]。
本文展示了配對(duì)設(shè)計(jì)四格表資料的3種情形,其中,特設(shè)“金標(biāo)準(zhǔn)”的配對(duì)設(shè)計(jì)四格表資料不僅是值得進(jìn)行統(tǒng)計(jì)分析的,也是最有實(shí)用價(jià)值的;基于SAS與R軟件實(shí)現(xiàn)了配對(duì)設(shè)計(jì)四格表資料McNemar'sχ2檢驗(yàn);針對(duì)此種“差異性檢驗(yàn)”的結(jié)果,如何進(jìn)行正確地解讀,如何陳述專業(yè)結(jié)論,都做了深入地闡釋。