鄭黎強(qiáng) 張 蕊
·綜述·
疾病發(fā)病風(fēng)險(xiǎn)預(yù)測(cè)模型擬合度評(píng)價(jià)方法的研究進(jìn)展*
鄭黎強(qiáng)1△張 蕊2
疾病風(fēng)險(xiǎn)預(yù)測(cè)模型可以使多危險(xiǎn)因素和未來(lái)疾病的發(fā)生確定為一種定量關(guān)系,通過(guò)多危險(xiǎn)因素的水平來(lái)預(yù)測(cè)某一個(gè)體未來(lái)某疾病的發(fā)病概率。在過(guò)去的30年中,預(yù)測(cè)模型在公共衛(wèi)生領(lǐng)域和臨床醫(yī)學(xué)領(lǐng)域不斷發(fā)展,除了最初的心血管病外,癌癥、高血壓、糖尿病等其他疾病研究領(lǐng)域也都開(kāi)始了對(duì)預(yù)測(cè)模型的探索[1-4]。疾病風(fēng)險(xiǎn)預(yù)測(cè)模型得到越來(lái)越多的關(guān)注,如何對(duì)疾病發(fā)病風(fēng)險(xiǎn)預(yù)測(cè)模型的擬合度進(jìn)行合理的評(píng)價(jià),已經(jīng)成為當(dāng)前統(tǒng)計(jì)研究中的難點(diǎn)和熱點(diǎn)問(wèn)題。本文將就疾病風(fēng)險(xiǎn)預(yù)測(cè)模型的擬合度評(píng)價(jià),以及近年來(lái)應(yīng)用越來(lái)越多的最新幾種模型評(píng)價(jià)統(tǒng)計(jì)學(xué)方法進(jìn)行綜述,希望能給出一個(gè)既全面又具體的闡述。
模型擬合度是指模型預(yù)測(cè)結(jié)果與實(shí)際觀察發(fā)生情況之間的符合程度,兩者越一致,模型建立的越“成功”,效用也越大。一般來(lái)說(shuō),評(píng)價(jià)一個(gè)模型的優(yōu)劣主要有兩個(gè)方面:標(biāo)定能力(calibration)和區(qū)分能力(discrimination)。標(biāo)定能力是指人群的平均預(yù)測(cè)概率與實(shí)際觀察到的發(fā)病概率的一致程度,通常做法是根據(jù)預(yù)測(cè)概率將研究對(duì)象分為若干個(gè)亞組(一般為10組),計(jì)算每組的平均預(yù)測(cè)發(fā)病概率和實(shí)際發(fā)病率,并采用Hosmer-Lemeshow 卡方檢驗(yàn)(HL χ2)檢驗(yàn)兩者的符合程度,有統(tǒng)計(jì)學(xué)意義說(shuō)明預(yù)測(cè)概率和實(shí)際發(fā)病率之間有顯著性差異,標(biāo)定能力較差。區(qū)分能力是指正確地把病人和非病人區(qū)分開(kāi)的能力,如果實(shí)際發(fā)生事件者的預(yù)測(cè)發(fā)病概率均高于未發(fā)生事件者,此時(shí)模型的區(qū)分能力為最佳,通常反映區(qū)分能力的方法是采用受試者工作曲線下面積(the area under the receiver-operating characteristic curve,AUC)或叫C統(tǒng)計(jì)量(C-statistic)進(jìn)行計(jì)算和檢驗(yàn),C統(tǒng)計(jì)量越大說(shuō)明模型的區(qū)分能力越強(qiáng)。需要注意的是,區(qū)分能力最佳時(shí)其預(yù)測(cè)概率并不一定與實(shí)際發(fā)病率一致,也就是說(shuō)標(biāo)定能力并不一定好。如圖1所示。
標(biāo)定能力和區(qū)分能力反映了預(yù)測(cè)模型擬合度的兩個(gè)不同方面,通常情況下只能在兩者之間達(dá)到一種“平衡”而難以使兩者都達(dá)到最佳。有研究顯示,只有當(dāng)發(fā)病概率分布的越分散,兩者才有可能同時(shí)達(dá)到最佳,概率密度函數(shù)都集中在0或1,即呈現(xiàn)“U”字型時(shí),標(biāo)定能力最佳,同時(shí)C統(tǒng)計(jì)量達(dá)到1,而實(shí)際情況中某疾病的發(fā)病概率通常很難呈現(xiàn)這樣的分布。
此外,還有一些檢驗(yàn)方法是對(duì)預(yù)測(cè)模型整體擬合度進(jìn)行評(píng)價(jià),如以似然統(tǒng)計(jì)量為基礎(chǔ)的決定系數(shù)(R2)和貝葉斯信息準(zhǔn)則(Bayes information criterion,BIC)等。
對(duì)于預(yù)測(cè)模型的評(píng)價(jià)包括對(duì)單個(gè)的新建模型利用驗(yàn)證隊(duì)列進(jìn)行驗(yàn)證和評(píng)價(jià)、對(duì)新標(biāo)志物是否能提高原有模型的預(yù)測(cè)能力進(jìn)行評(píng)價(jià)、對(duì)兩個(gè)針對(duì)相同結(jié)局事件的預(yù)測(cè)模型進(jìn)行比較性評(píng)價(jià)三種情況。
1.利用驗(yàn)證隊(duì)列對(duì)擬合的預(yù)測(cè)模型進(jìn)行驗(yàn)證與評(píng)價(jià)
當(dāng)一個(gè)預(yù)測(cè)模型通過(guò)來(lái)源隊(duì)列建立起來(lái)之后需要對(duì)其進(jìn)行擬合度的驗(yàn)證,即分別評(píng)價(jià)該模型的標(biāo)定能力和區(qū)分能力。
首先利用C統(tǒng)計(jì)量對(duì)預(yù)測(cè)模型的區(qū)分能力進(jìn)行評(píng)價(jià)。AUC最早應(yīng)用于篩檢試驗(yàn)和診斷試驗(yàn)領(lǐng)域。由于它同時(shí)考慮了靈敏度和特異度這兩個(gè)指標(biāo),所以能全面地評(píng)價(jià)試驗(yàn)的真實(shí)性。之后,AUC漸漸被應(yīng)用到了評(píng)價(jià)預(yù)測(cè)模型擬合度等領(lǐng)域,并命名為“C統(tǒng)計(jì)量”[5]。C統(tǒng)計(jì)量的實(shí)質(zhì)是發(fā)生事件者的預(yù)測(cè)發(fā)病概率高于未發(fā)生事件者的可能性大小,故能夠反映模型區(qū)分病人和非病人的能力。C統(tǒng)計(jì)量的范圍在0.5~1,1表示可以將病人和非病人完全區(qū)分開(kāi),0.5表示病人和非病人的區(qū)分只靠偶然概率。通常0.7~0.8被認(rèn)為模型可以接受,0.8~0.9被認(rèn)為很好。
其次利用HL χ2來(lái)評(píng)價(jià)預(yù)測(cè)模型的標(biāo)定能力。與區(qū)分能力不同,標(biāo)定能力評(píng)價(jià)的是預(yù)測(cè)模型正確預(yù)測(cè)人群絕對(duì)危險(xiǎn)概率的能力。通常做法是根據(jù)預(yù)測(cè)概率的分位數(shù)(如十分位數(shù))將人群分為若干組,比較每組人群的平均預(yù)測(cè)概率與實(shí)際事件發(fā)生率之間的差異,采用HL χ2檢驗(yàn)[6]。P<0.05代表模型的標(biāo)定能力較差。
2.對(duì)新標(biāo)志物的評(píng)價(jià)或兩個(gè)模型的比較
隨著疾病風(fēng)險(xiǎn)預(yù)測(cè)模型的發(fā)展,一些新的危險(xiǎn)因素或標(biāo)志物被不斷提出,研究人員試圖將這些新指標(biāo)納入傳統(tǒng)預(yù)測(cè)模型中以期進(jìn)一步提高模型的預(yù)測(cè)能力。而如何來(lái)評(píng)價(jià)新指標(biāo)的預(yù)測(cè)能力?納入的新指標(biāo)能否提高模型的預(yù)測(cè)能力?這就需要對(duì)原有模型和加入新標(biāo)志物后的新模型進(jìn)行比較。而針對(duì)相同結(jié)局事件的兩模型比較也與之類似,采用的統(tǒng)計(jì)學(xué)方法相同,因此對(duì)這兩種情況一并敘述。
過(guò)去很長(zhǎng)一段時(shí)間評(píng)價(jià)新標(biāo)志物是否能提高原有模型的預(yù)測(cè)能力主要依靠擬合優(yōu)度檢驗(yàn)(-2log likelihood)及C統(tǒng)計(jì)量的方法來(lái)進(jìn)行評(píng)價(jià)。擬合優(yōu)度檢驗(yàn)通常的做法是先利用傳統(tǒng)危險(xiǎn)因素?cái)M合模型1得到擬合優(yōu)度1,然后把新標(biāo)志物加入到模型1中去,得到模型2的擬合優(yōu)度2,根據(jù)兩擬合優(yōu)度的差值查χ2分布表(自由度為1),若差異有統(tǒng)計(jì)學(xué)意義則說(shuō)明新標(biāo)志物能夠提高模型的預(yù)測(cè)能力。然而,Pencina則認(rèn)為模型擬合優(yōu)度檢驗(yàn)的要求過(guò)于寬松,在樣本量很大的研究中,就算新變量與結(jié)局變量的關(guān)聯(lián)性很弱,都能夠達(dá)到統(tǒng)計(jì)學(xué)意義。
由此可見(jiàn)依靠傳統(tǒng)的統(tǒng)計(jì)學(xué)方法不能有效地評(píng)價(jià)新標(biāo)志物的預(yù)測(cè)能力,故近5年來(lái),一些新的統(tǒng)計(jì)學(xué)應(yīng)運(yùn)而生,包括凈重分組提高指數(shù)(netreclassificationimprovement,NRI)、整合區(qū)分提高指數(shù)(integrateddiscriminationimprovement,IDI)和重分組標(biāo)定統(tǒng)計(jì)量(reclassificationcalibrationstatistic,RCS)[10-11]。這些方法的中心思想是新模型對(duì)研究對(duì)象進(jìn)行了“重分組”(reclassification),從而引起個(gè)體在危險(xiǎn)分層中的“變動(dòng)”,如果這一“變動(dòng)”是正確的或更符合實(shí)際情況的,那么相對(duì)于舊模型而言,新模型則有更優(yōu)的預(yù)測(cè)能力。此外,隨著這些新的統(tǒng)計(jì)學(xué)方法越來(lái)越受到人們重視程度,應(yīng)用領(lǐng)域越來(lái)越廣,適用于生存分析或刪失數(shù)據(jù)的方法也不斷完善[12]。
(1)NRI
新模型較之于舊模型(或在模型中引入一個(gè)新標(biāo)志物)區(qū)分能力有所提高表現(xiàn)在兩方面:發(fā)生事件者在新模型中的發(fā)病預(yù)測(cè)概率有所提高(即從較低風(fēng)險(xiǎn)組劃分到較高風(fēng)險(xiǎn)組),而未發(fā)生事件者的預(yù)測(cè)概率有所下降(即從較高風(fēng)險(xiǎn)組劃分到較低風(fēng)險(xiǎn)組)。如果這兩組人群的預(yù)測(cè)概率變動(dòng)方向與上述相反,則會(huì)降低模型的區(qū)分能力[10]。因此,NRI需要分別在發(fā)生事件者和未發(fā)生事件者中計(jì)算預(yù)測(cè)模型發(fā)生改變的人數(shù)比例。
(2)IDI
葉斯梯度(Yatesslopes),也叫區(qū)分梯度(discriminationslopes),是指病人的平均預(yù)測(cè)概率與非病人的平均預(yù)測(cè)概率之差,差距越大,則說(shuō)明模型區(qū)分病人和非病人的能力越強(qiáng)[13]。IDI相當(dāng)于兩個(gè)模型的葉斯梯度之差,可以反映新模型較舊模型區(qū)分能力的提高程度[10]。
IDI不需要進(jìn)行危險(xiǎn)分層,而是直接計(jì)算發(fā)生事件者和未發(fā)生事件者的平均預(yù)測(cè)概率,這一點(diǎn)與NRI有所不同。
(3)RCS
和NRI一樣,RCS的計(jì)算首先也要根據(jù)兩個(gè)模型將研究對(duì)象分配到“重分組表”的每個(gè)格子中(無(wú)需區(qū)分發(fā)生事件者和未發(fā)生事件者)。表中的每個(gè)格子都對(duì)應(yīng)有一個(gè)實(shí)際發(fā)病率和分別由兩個(gè)模型預(yù)測(cè)得出的平均發(fā)病預(yù)測(cè)概率[11,14]。生存分析存在刪失數(shù)據(jù)的問(wèn)題,可以通過(guò)K-M生存曲線來(lái)計(jì)算實(shí)際發(fā)病率。
以上介紹了幾種近幾年來(lái)最新的評(píng)價(jià)預(yù)測(cè)模型擬合度的方法,它們的優(yōu)勢(shì)在于可以直接反映模型區(qū)分能力或預(yù)測(cè)能力,并且可以進(jìn)行模型之間的比較,或是新標(biāo)志物的評(píng)價(jià),故越來(lái)越受到研究者重視。關(guān)于這些方法的應(yīng)用,有幾點(diǎn)需要注意:(1)評(píng)價(jià)預(yù)測(cè)模型的區(qū)分能力時(shí),首先需要有一個(gè)較好的標(biāo)定能力。如果標(biāo)定能力差,那么所謂的區(qū)分能力評(píng)價(jià)起來(lái)也沒(méi)有任何意義,所以這兩方面的評(píng)價(jià)都不能少[15]。(2)與結(jié)局事件有統(tǒng)計(jì)學(xué)關(guān)聯(lián)的變量并不一定會(huì)提高模型的擬合度。如9q21基因多態(tài)性被證實(shí)與心血管病有相關(guān)性,但是卻沒(méi)有提高模型的區(qū)分能力和標(biāo)定能力[16]。(3)危險(xiǎn)分層界值的選取會(huì)影響NRI和RCS最終的評(píng)價(jià)結(jié)果。比如將發(fā)病風(fēng)險(xiǎn)從四組變?yōu)槿M時(shí),NRI會(huì)減小,RCS的卡方值也會(huì)減小。因此,危險(xiǎn)分層標(biāo)準(zhǔn)的選擇就顯得尤為重要,需要結(jié)合臨床實(shí)踐,具有臨床意義。通常選取公認(rèn)的一些分層標(biāo)準(zhǔn),如ATPⅢ中的標(biāo)準(zhǔn)[17]。對(duì)于那些目前尚無(wú)公認(rèn)的危險(xiǎn)分層標(biāo)準(zhǔn)的疾病,應(yīng)用這些方法來(lái)評(píng)價(jià)和比較模型需要慎重[11]。(4)研究發(fā)現(xiàn),那些發(fā)生“重分組”的個(gè)體主要是“中危人群”,這部分患者由于很可能被分到高危組或者低危組,而導(dǎo)致接受完全不同的診療措施,所以受到更多的關(guān)注。一些研究就只關(guān)注于這部分人群。
近年來(lái),NRI、IDI等新方法的應(yīng)用呈現(xiàn)快速增長(zhǎng)的趨勢(shì),除了心血管病研究外,其他研究領(lǐng)域正開(kāi)始日益普及。然而一些研究者并未深刻了解到模型評(píng)價(jià)的意義所在,也未明白這些評(píng)價(jià)方法應(yīng)該注意的問(wèn)題和前提條件,導(dǎo)致部分相關(guān)文獻(xiàn)出現(xiàn)質(zhì)量較差的情況。Tzoulaki在2011年總結(jié)了自這些新方法提出之后(2006年)的幾年間醫(yī)學(xué)文獻(xiàn)中NRI、IDI和RCS的使用現(xiàn)狀,發(fā)現(xiàn)在匯總的51篇文獻(xiàn)中,只有53%的研究評(píng)價(jià)了模型的標(biāo)定能力,而僅有31%的文獻(xiàn)明確地寫(xiě)出了所用的危險(xiǎn)分層界值,27%的研究選取的界值是有臨床意義的[18]。作者指出,雖然這些新的方法在評(píng)價(jià)和比較預(yù)測(cè)模型方面有其獨(dú)特的優(yōu)勢(shì),但是目前出現(xiàn)了“誤用”和“濫用”的傾向,因此建議規(guī)范其使用,并對(duì)文獻(xiàn)當(dāng)中的相關(guān)表述作出一些規(guī)范化的指導(dǎo)。因此,在這篇文獻(xiàn)發(fā)表后不久,Pete撰寫(xiě)了一篇短訊以明確涉及到這些方法時(shí),文獻(xiàn)應(yīng)該如何正確的表述結(jié)果,以此提供更多的信息和避免一些錯(cuò)誤[15]。值得注意的是,這些方法由于尚很“年輕”未能普及,仍處于不斷完善和發(fā)展中,如NRI的置信區(qū)間問(wèn)題,以及對(duì)于刪失數(shù)據(jù)的處理仍未有明確解決方法,還需進(jìn)一步探討。
[1]ParikhNI,PencinaMJ,WangTJ,etal.Ariskscoreforpredictingnear-termincidenceofhypertension:theFraminghamHeartStudy.AnnInternMed,2008,148(2):102-110.
[2]GailMH,BrintonLA,ByarDP,etal.Projectingindividualizedprobabilitiesofdevelopingbreastcancerforwhitefemaleswhoarebeingexaminedannually.JNatlCancerInst,1989,81(24):1879-1886.
[3]MeigsJB,ShraderP,SullivanLM,etal.Genotypescoreinadditiontocommonriskfactorsforpredictionoftype2diabetes.NEnglJMed,2008,359(21):2208-2219.
[4]SchnabelRB,SullivanLM,LevyD,etal.Developmentofariskscoreforatrialfibrillation(FraminghamHeartStudy):acommunity-basedcohortstudy.Lancet,2009,373(9665):739-745.
[5]HanleyJA,McneilBJ.Themeaninganduseoftheareaunderareceiveroperatingcharacteristic(ROC)curve.Radiology,1982,143(1):29-36.
[6]HosmerDW,HosmerT,LeCessieS,etal.Acomparisonofgoodness-of-fittestsforthelogisticregressionmodel.StatMed,1997,16(9):965-980.
[7]HanleyJA,McneilBJ.Amethodofcomparingtheareasunderreceiveroperatingcharacteristiccurvesderivedfromthesamecases.Radiology,1983,148(3):839-843.
[8]PepeMS,JanesH,LongtonG,etal.Limitationsoftheoddsratioingaugingtheperformanceofadiagnostic,prognostic,orscreeningmarker.AmJEpidemiol,2004,159(9):882-890.
[9]CookNR.Useandmisuseofthereceiveroperatingcharacteristiccurveinriskprediction.Circulation,2007,115(7):928-935.
[10]PencinaMJ,D'AgostinoRS,D'AgostinoRJ,etal.Evaluatingtheaddedpredictiveabilityofanewmarker:fromareaundertheROCcurvetoreclassificationandbeyond.StatMed,2008,27(2):157-172,207-212.
[11]CookNR,RidkerPM.Advancesinmeasuringtheeffectofindividualpredictorsofcardiovascularrisk:theroleofreclassificationmeasures.AnnInternMed,2009,150(11):795-802.
[12]PencinaMJ,D'AgostinoRS,SteyerbergEW.Extensionsofnetreclassificationimprovementcalculationstomeasureusefulnessofnewbiomarkers.StatMed,2011,30(1):11-21.
[13]YatesJF.Externalcorrespondence:decompositionofthemeanprobabilityscore.OrganizationalBehaviorandHumanPerformance,1982,30:132-156.
[14]PepeMS.Problemswithriskreclassificationmethodsforevaluatingpredictionmodels.AmJEpidemiol,2011,173(11):1327-1335.
[15]PepeMS,JanesH.Commentary:Reportingstandardsareneededforevaluationsofriskreclassification.IntJEpidemiol,2011,40(4):1106-1108.
[16]PaynterNP,ChasmanDI,BuringJE,etal.Cardiovasculardiseaseriskpredictionwithandwithoutknowledgeofgeneticvariationatchromosome9p21.3.AnnInternMed,2009,150(2):65-72.
[17]ExecutiveSummaryofTheThirdReportofTheNationalCholesterolEducationProgram(NCEP)ExpertPanelonDetection,Evaluation,AndTreatmentofHighBloodCholesterolInAdults(AdultTreatmentPanelIII).JAMA,2001,285(19):2486-2497.
[18]TzoulakiI,LiberopoulosG,IoannidisJP.Useofreclassificationforassessmentofimprovedprediction:anempiricalevaluation.IntJEpidemiol,2011,40(4):1094-1105.
(責(zé)任編輯:郭海強(qiáng))
*國(guó)家自然基金項(xiàng)目(項(xiàng)目編碼:81302495),遼寧省科技廳社會(huì)發(fā)展攻關(guān)計(jì)劃項(xiàng)目(項(xiàng)目編碼:2013225089)資助
1.中國(guó)醫(yī)科大學(xué)附屬盛京醫(yī)院臨床流行病學(xué)教研室,圖書(shū)館(110004)
2.遼寧省疾病預(yù)防控制中心慢病所
△通信作者:鄭黎強(qiáng),E-mail:zhenglq@sj-hospital.org
中國(guó)衛(wèi)生統(tǒng)計(jì)2015年3期