公為潔 溫興煊 何賢英 張晉昕
中山大學(xué)公共衛(wèi)生學(xué)院醫(yī)學(xué)統(tǒng)計(jì)與流行病學(xué)系(510080)
一階一致性系數(shù)AC1對二分類結(jié)局一致性的測評(píng)*
公為潔 溫興煊 何賢英 張晉昕△
中山大學(xué)公共衛(wèi)生學(xué)院醫(yī)學(xué)統(tǒng)計(jì)與流行病學(xué)系(510080)
目的 探討一階一致性系數(shù)和Kappa系數(shù)用于測評(píng)二分類結(jié)局一致性的應(yīng)用效果。方法 從Kappa系數(shù)的兩個(gè)悖論出發(fā),揭示其應(yīng)用局限,對比考察一階一致性系數(shù)AC1對同樣問題處理結(jié)果的合理性。結(jié)果Kappa系數(shù)受研究對象陽性率變化及結(jié)果邊際概率的影響,不能廣泛適用,而一階一致性系數(shù)適用性較好。結(jié)論 一階一致性系數(shù)能夠克服Kappa系數(shù)的局限性,是評(píng)價(jià)二分類結(jié)局一致性的可靠指標(biāo)。
一致性評(píng)價(jià) 診斷試驗(yàn)Kappa系數(shù) 一階一致性系數(shù)
在醫(yī)學(xué)試驗(yàn)研究中,經(jīng)常需要評(píng)價(jià)兩種不同方法得到的分類結(jié)局的一致性,如兩種診斷方法或兩位醫(yī)師對同一組病人的診斷、同一病理學(xué)家對一組病理切片的前后兩次評(píng)價(jià)等。其結(jié)局可分為無序和有序兩種情況。Kappa系數(shù)被普遍用于評(píng)價(jià)無序分類結(jié)局一致性。然而,其實(shí)際應(yīng)用受到樣本陽性率及結(jié)局分布是否平衡和對稱的影響,應(yīng)用中有諸多局限。本文將通過實(shí)例數(shù)據(jù)的分析,討論Kappa系數(shù)的局限,并對比考察一階一致性系數(shù)(the first-order agreement coefficient,AC1)的應(yīng)用效果。
Kappa系數(shù)是由Cohen于1960年提出的一種校正機(jī)遇因素影響后衡量檢測方法一致性的指標(biāo)[1]。本文中所指的Kappa系數(shù)均為Cohen提出的Kappa系數(shù)(Cohen’s Kappa)。以表1中A、B兩個(gè)評(píng)價(jià)者將N個(gè)對象評(píng)定為“+”、“-”兩種結(jié)果的配對四格表為例,Kappa值的具體計(jì)算方法為:
(1)
其中,P0=(a+d)/N,表示對實(shí)際觀察到兩種方法診斷結(jié)果一致程度的概率估計(jì),Pe=(R1C1+R2C2)/N2,表示由于偶然因素使診斷結(jié)果一致的概率估計(jì)。Kappa值介于-1和+1之間,是目前醫(yī)學(xué)研究中評(píng)價(jià)一致性系數(shù)的最常用指標(biāo)。然而,Kappa系數(shù)在實(shí)際應(yīng)用中存在許多局限性。
Feinstein和Cicchetti[2]于1990年首先揭示了Kappa系數(shù)的兩個(gè)悖論。悖論一:即使觀察一致率Po較高,若陽性一致率a/N和陰性一致率d/N相差較大,則在Kappa值的計(jì)算上就會(huì)相互抵消,使算得的Kappa值偏低,而最終導(dǎo)致真實(shí)的一致程度被低估。以如下實(shí)例加以說明,兩位病理學(xué)家評(píng)價(jià)相同的100張病理切片,都認(rèn)為有99張陽性和1張陰性,其中有98張陽性結(jié)果判斷一致,其余2張判斷不同,即有98.0%的診斷結(jié)果是相同的。然而,此時(shí)Kappa系數(shù)僅為-0.010,未體現(xiàn)實(shí)際情況。悖論二:邊緣合計(jì)值不對稱不平衡的Kappa值比對稱不平衡的更高。以表1數(shù)據(jù)為例,不平衡指a和d不相等,不對稱指b和c不相等。即當(dāng)a和d不相等時(shí),若b與c的合計(jì)值固定(兩種方法判斷不一致的例數(shù)總數(shù)不變)時(shí),b和c相差越大,Kappa值越大[3]。例如,表2和表3中數(shù)據(jù)分別表示甲、乙兩種儀器與傳統(tǒng)儀器對100件產(chǎn)品合格率的測量結(jié)果,其中,產(chǎn)品合格為“+”,不合格為“-”[4]。不難看出兩種儀器與傳統(tǒng)儀器診斷一致的個(gè)數(shù)是相同的,即其與傳統(tǒng)儀器的一致性程度相近,但可得到Kappa值在表2中為0.167,低于在表3中的0.238。
假設(shè)在某研究中,A、B兩評(píng)價(jià)者將一組樣本評(píng)定為“+”和“-”兩個(gè)結(jié)局事件。此時(shí)會(huì)出現(xiàn)兩種情況,當(dāng)其不確定某個(gè)體屬于哪個(gè)結(jié)局事件時(shí)即作出隨機(jī)性判斷,當(dāng)其確定時(shí)即作出確定性判斷。假設(shè)評(píng)價(jià)者A有θA的概率會(huì)作出隨機(jī)性判斷,且正確率為50%,而其余的都是確定性判斷,正確率為100%。如果該研究的隨機(jī)性判斷部分是可知的,則兩評(píng)價(jià)者將N個(gè)受試對象評(píng)定為“+”和“-”的兩分類結(jié)局,評(píng)價(jià)結(jié)果記錄表可由表1的四格表整理為區(qū)分隨機(jī)性判斷和確定性判斷的表4。
設(shè)(i,j)∈(+,-),(X,Y)∈(R,C),則NijXY表示評(píng)價(jià)者A以X判斷(隨機(jī)性或確定性判斷)得到i結(jié)局(“+”或“-”)且評(píng)價(jià)者B以Y判斷(隨機(jī)性或確定性判斷)得到j(luò)結(jié)局(“+”或“-”)的個(gè)體數(shù)目。以表4中的N-+RC為例,表示被評(píng)價(jià)者A隨機(jī)地判斷為陰性且被評(píng)價(jià)者B確定地判斷為陽性的個(gè)體數(shù)目。
根據(jù)表4,觀察一致性概率為:
(2)
期望一致性概率為:
(3)
其中,事件G表示A與B判定結(jié)果一致,R表示任一評(píng)價(jià)者(A、B或A與B)作出隨機(jī)性評(píng)價(jià)。P(G/R)表示A與B評(píng)定結(jié)果一致且任一評(píng)價(jià)者作出隨機(jī)性評(píng)價(jià)的概率,P(R)表示任一評(píng)價(jià)者作出隨機(jī)性評(píng)價(jià)的概率。A與B的評(píng)定結(jié)果共有“+/+”、“+/-”、“-/+”和“-/-”四種情況,因此出現(xiàn)評(píng)價(jià)結(jié)果一致(“+/+”和“-/-”兩種情況)的概率為P(G/R)=2/4=0.5。
定義隨機(jī)變量X+為二分類變量,當(dāng)有一個(gè)評(píng)價(jià)者將個(gè)體評(píng)定為“+”時(shí)即為1,否則為0,則可用隨機(jī)概率的標(biāo)準(zhǔn)方法來估計(jì)P(R),設(shè)π+為任一評(píng)價(jià)者將任一個(gè)體評(píng)定為結(jié)局“+”的概率,則:
(4)
其中,V(X+)是隨機(jī)變量X+的方差,Vmax是X+可能取得的最大值。此時(shí)有
(5)
用樣本數(shù)據(jù)估計(jì)π+可得:
(6)
綜上可估計(jì)出AC1的計(jì)算公式:
(7)
此外,AC1的方差、假設(shè)檢驗(yàn)和在多個(gè)評(píng)估者多分類結(jié)局中的計(jì)算方法,可參考Gwet的相關(guān)文獻(xiàn)[6]。目前,在Windows操作系統(tǒng)的MS Excel 2007和2010環(huán)境下,已有名為AgreeStat 2011.1的工作表可通過輸入整理好的列聯(lián)表輸出及其標(biāo)準(zhǔn)誤和95%CI[7],該工具還可計(jì)算Kappa等多個(gè)一致性系數(shù);利用SAS宏程序AC1AC2.mac也可以較為方便地得到及其方差和假設(shè)檢驗(yàn)結(jié)果[8];利用SAS宏程序INTER RATER.mac可以同時(shí)計(jì)算Kappa和AC1[9]。
當(dāng)結(jié)局指標(biāo)為有序多分類變量時(shí),Gwet提出了一種二階一致性系數(shù)(the second-order agreement coefficient,AC2)可替代加權(quán)Kappa系數(shù)[5],其原理是考慮結(jié)局分類的序次關(guān)系,根據(jù)有序的分類變量定義權(quán)重,其應(yīng)用也需進(jìn)一步探討和推廣。
現(xiàn)從Kappa系數(shù)最常見的兩個(gè)悖論角度出發(fā),探討AC1是否具有比Kappa系數(shù)更廣泛的適用性。在悖論一的例子中,如上文所述,計(jì)算可得Kappa值為-0.010,與實(shí)際一致情況不符,而計(jì)算可得AC1值為0.980,與實(shí)際一致情況相吻合。如果此時(shí)按照Kappa來評(píng)價(jià)一致性,顯然會(huì)得到兩個(gè)病理學(xué)家診斷完全不一致的錯(cuò)誤結(jié)論。在悖論二的例子中,Kappa的數(shù)值受b和c差值的影響有所波動(dòng),結(jié)論為甲、乙兩種儀器與傳統(tǒng)儀器的診斷一致性有所不同。而AC1在表2和表3中均可計(jì)算得0.231,結(jié)論為兩種儀器與傳統(tǒng)儀器的診斷一致性相同,與實(shí)際一致情況吻合。可以看出,AC1系數(shù)不存在Kappa的兩個(gè)悖論,其數(shù)值穩(wěn)定,受實(shí)驗(yàn)對象在結(jié)果中分布的影響較小。
此外,有研究利用多個(gè)評(píng)價(jià)者判斷人格障礙的多個(gè)指標(biāo)的一致性,對Kappa和AC1進(jìn)行了比較,得到AC1的標(biāo)準(zhǔn)差均小于Kappa,提示AC1是評(píng)價(jià)診斷試驗(yàn)結(jié)局一致性的更為穩(wěn)定的指標(biāo)[10]。
隨著醫(yī)療診斷技術(shù)的進(jìn)步,新的診斷手段層出不窮。目前,分類結(jié)局的一致性評(píng)價(jià)方法有Kappa系數(shù)、Scott提出的π系數(shù)[11]、Holley提出的G指數(shù)[12]等指標(biāo),都存在一些局限性。其中以Kappa應(yīng)用最為廣泛。而Kappa受到研究對象陽性率及結(jié)局分布邊緣合計(jì)的影響,其應(yīng)用具有多個(gè)悖論,采用廣義估計(jì)方程等多種校正方法并不能完全解決這些悖論,且會(huì)增加實(shí)際分析的難度。此外,還有學(xué)者總結(jié)了多達(dá)14種Kappa應(yīng)用悖論,指出只有在少數(shù)特定情況下才能使用Kappa系數(shù)[13]。更有學(xué)者提出因其取值具有誤導(dǎo)性,應(yīng)謹(jǐn)慎使用乃至停止使用[14]。
AC1適用于評(píng)價(jià)兩種或多種診斷方法的二分類或無序多分類結(jié)局的一致性評(píng)價(jià),其應(yīng)用受結(jié)局分布情況影響較小,是較為穩(wěn)定的評(píng)價(jià)指標(biāo),與Kappa的區(qū)別在于Pe的計(jì)算不同。統(tǒng)計(jì)學(xué)家也很關(guān)注AC1與其他一致性評(píng)價(jià)指標(biāo)的適用性對比[10],在實(shí)際資料分析方面有待推廣。Gwet在文章中指出,當(dāng)結(jié)果陽性率較高時(shí),根據(jù)不同樣本含量估計(jì)的AC1相較于Kappa系數(shù)、Scott的π系數(shù)和Holley的G指數(shù),其相對偏倚和方差估計(jì)值都更小,提示對于不同的樣本含量AC1仍具有穩(wěn)定性[6]。順帶指出,AC1要求提供機(jī)遇一致性的估算,所以在醫(yī)學(xué)研究領(lǐng)域的推廣尚需統(tǒng)計(jì)學(xué)、流行病學(xué)專家的引導(dǎo)與協(xié)助。
何種情況下應(yīng)采用Kappa系數(shù)或AC1,以及AC1在實(shí)際應(yīng)用中是否存在其他局限性,目前尚不可知。這些問題需須用Monte Carlo法等統(tǒng)計(jì)學(xué)方法進(jìn)行數(shù)據(jù)的模擬驗(yàn)證,我們正在開展相關(guān)研究,結(jié)果將另文給出。
[1]Cohen J.A coefficient of agreement for nominal scales.Educational and Psychological Measurement,1960,20(1):37-46.
[2]Cicchetti DV,Feinstein AR.High agreement but low kappa II.Resolving the paradoxes.J Clin Epidemiol,1990,43:551-558.
[3]田苗,王鵬新,嚴(yán)泰來,等.Kappa系數(shù)的修正在干旱預(yù)測精度及一致性評(píng)價(jià)中的應(yīng)用.農(nóng)業(yè)工程學(xué)報(bào),2012,28(24):1-7.
[4]王軍.Kappa系數(shù)在一致性評(píng)價(jià)中的應(yīng)用研究.四川:四川大學(xué),2006.
[5]Gwet KL.Handbook of inter-rater reliability.Gaithersburg,MD:STATAXIS Publishing Company,2001.
[6]Gwet KL.Computing inter-rater reliability and its variance in the presence of high agreement.British Journal of Mathematical and Statistical Psychology,2008,61(1):29-48.
[7]Gwet K.Calculating Intraclass Correlation with AgreeStat 2011.1.Available from URL:http://agreestat.com/agreestat.
[8]Blood E,Spratt KF.Disagreement on agreement:Two alternative agreement coefficients.SAS Global Forum,2007:16-19.
[9]Gwet K.Computing inter-rater reliability with the SAS system.Stat Methods Inter-rater Reliability Assess,2002,3:1-16.
[10]Wongpakaran N,Wongpakaran T,Wedding D,et al.A comparison of Cohen’s Kappa and Gwet’s AC1 when calculating inter-rater reliability coefficients:a study conducted with personality disorder samples.Bmc Medical Research Methods ology,2013,13(1):61-68.
[11]Scott WA.Reliability of content analysis:The case of nominal scale coding.Public Opinion Quarterly,1955,19:321-325.
[12]Holley JW,Guilford JP.A note on the G index of agreement.Educational and Psychological Measurement,1964,24(4):749-753.
[13]Zhao X.When to use Cohen’s k,if ever?The annual meeting of the International Communication Association.Boston,MA,US,2010.
[14]Robert GP,Millones M.Death to Kappa:birth of quantity disagreement and allocation disagreement for accuracy assessment.International Journal of Remote Sensing,2011,32(15):4407-4429.
(責(zé)任編輯:鄧 妍)
Consistency Evaluation of Binary Outcomes by the First-order Agreement Coefficient
Gong Weijie,Wen Xingxuan,He Xianying,et al.
(School of Public Health,Sun Yat-sen University(510080),Guangzhou)
Objective To explore the application effect of first-order agreement coefficient andKappacoefficient when evaluating the consistency of binary outcomes.Methods The limitation ofKappawas uncovered based on its common paradoxes,and the reasonability of first-order agreement coefficient for evaluating the same questions was inspected contrastively.Results Effected by the variation of the positive rate and marginal probability of study objects,Kappashould not be widely used for consistency assessment,while the first-order agreement coefficient is more applicable.Conclusion The first-order agreement coefficient is a reliable index to evaluate the consistency of binary outcomes without the limitation ofKappa.
Consistency assessment;Diagnostic test;Kappa coefficient;First-order agreement coefficient
中山大學(xué)本科教學(xué)改革研究課題(中大教務(wù)2012-173-39)
△通信作者:張晉昕,E-mail:zhjinx@mail.sysu.edu.cn