夏一帆 陳陽(yáng)育 施煥中 李 瑩 梁寶生
【提 要】 目的 基于統(tǒng)計(jì)學(xué)習(xí)方法探討癌胚抗原(carcinoembryonic antigen,CEA)、糖鏈抗原(carbohydrate antigen,CA)125、CA15-3和CA19-9四種腫瘤標(biāo)志物的不同聯(lián)合對(duì)鑒別良惡性胸腔積液的診斷價(jià)值。方法 收集北京和武漢兩家醫(yī)院共319例患者的胸腔積液標(biāo)本及配對(duì)血清標(biāo)本,應(yīng)用化學(xué)發(fā)光法檢測(cè)CEA、CA125、CA15-3及CA19-9在血清及胸腔積液中的濃度,采集患者的性別、年齡等協(xié)變量信息,分別應(yīng)用logistic回歸、隨機(jī)森林和支持向量機(jī)三種方法建立聯(lián)合診斷模型,通過(guò)受試者工作特征(receiver operating characteristics,ROC)曲線分析比較其診斷價(jià)值。結(jié)果 使用支持向量機(jī)方法,獲得胸腔積液中CEA+CA19-9的聯(lián)合診斷對(duì)應(yīng)的ROC曲線下面積(areas under the curve,AUC)值最大(0.92,P<0.001),靈敏度最高(0.82),特異度為0.96,AUC值比單一腫瘤標(biāo)志物診斷最優(yōu)值提高了1.6%,靈敏度提高了3.8%;使用logistic回歸方法,獲得胸腔積液中CEA+CA15-3+CA19-9聯(lián)合診斷對(duì)應(yīng)的AUC值達(dá)到0.91(P<0.001),比單一腫瘤標(biāo)志物最優(yōu)模型AUC值提高了5.7%,靈敏度提高13.2%,特異度提高4.3%;3.使用隨機(jī)森林方法,最優(yōu)靈敏度達(dá)到0.82,最高AUC值為0.89(P<0.001),比單一腫瘤標(biāo)志物最優(yōu)模型AUC值提高了5.1%,靈敏度提高6.5%,特異度提高3.3%。結(jié)論 相比單一腫瘤標(biāo)志物診斷,聯(lián)合多腫瘤標(biāo)志物的診斷能夠提高診斷精度,但是提高幅度不大?;谥С窒蛄繖C(jī)方法,使用胸腔積液中單一腫瘤標(biāo)志物CEA即可達(dá)到較好的良、惡性胸腔積液診斷效果。綜合考慮患者就醫(yī)的經(jīng)濟(jì)負(fù)擔(dān)和就醫(yī)體驗(yàn)等因素,本研究不推薦使用多腫瘤標(biāo)志物的聯(lián)合診斷。
腫瘤標(biāo)志物常用于判斷惡性疾病可能性,CEA、CA125、CA15-3及CA19-9均為臨床常見(jiàn)的腫瘤標(biāo)志物[4-9]。研究證實(shí)這些腫瘤標(biāo)志物對(duì)于鑒別胸腔積液的良、惡性有提示作用,單一的腫瘤標(biāo)志物靈敏度和特異度有限,可能存在漏診、誤診等[1-2]。已有文獻(xiàn)發(fā)現(xiàn)聯(lián)合使用兩種或多種腫瘤標(biāo)志物可能會(huì)提高診斷價(jià)值,但臨床上尚無(wú)定論[3],且并非所有腫瘤標(biāo)志物的實(shí)驗(yàn)室檢測(cè)都有助于提高聯(lián)合診斷的效果。因而,研究如何在提高多種標(biāo)志物聯(lián)合診斷效果的同時(shí),盡可能選取數(shù)量少的標(biāo)志物類(lèi)型組合做診斷,具有十分重要的臨床意義。本研究通過(guò)檢測(cè)血清和胸腔積液中的四種腫瘤標(biāo)志物CEA、CA125、CA15-3及CA19-9的濃度,應(yīng)用logistic回歸、隨機(jī)森林和支持向量機(jī)三種統(tǒng)計(jì)學(xué)習(xí)方法,探討不同的聯(lián)合診斷方法在鑒別良、惡性胸腔積液方面的診斷效果。
1.數(shù)據(jù)來(lái)源
選取2015年1月至2017年6月收入首都醫(yī)科大學(xué)附屬北京朝陽(yáng)醫(yī)院呼吸與危重癥醫(yī)學(xué)科的所有伴有胸腔積液的成人患者174例,以及武漢某醫(yī)院的胸腔積液患者145例,共計(jì)319例。根據(jù)Light標(biāo)準(zhǔn)區(qū)分滲出性胸腔積液或漏出性胸腔積液。根據(jù)病因進(jìn)行分類(lèi),其中惡性胸腔積液患者111例(年齡21~86歲),男性59例,女性52例;良性胸腔積液患者208例(年齡16~88歲),男性148例,女性60例。
2.分析方法
采用R軟件完成分析及繪圖,計(jì)量資料以均值±標(biāo)準(zhǔn)差表示。選擇logistic回歸、隨機(jī)森林和支持向量機(jī)三種統(tǒng)計(jì)學(xué)習(xí)分類(lèi)方法[5-6]建立診斷模型。除將CEA、CA125、CA15-3及CA19-9濃度納入診斷模型,同時(shí)考慮患者的性別、年齡和就診城市信息。為避免統(tǒng)計(jì)學(xué)習(xí)方法參數(shù)訓(xùn)練出現(xiàn)過(guò)擬合的情形,將數(shù)據(jù)隨機(jī)五等分,四份作訓(xùn)練集,一份作測(cè)試集。構(gòu)建logistic回歸模型時(shí),針對(duì)胸腔積液和血清兩組數(shù)據(jù),采用Lasso方法進(jìn)行變量篩選[11],通過(guò)交叉驗(yàn)證的方法,確定最優(yōu)的懲罰因子和模型;在構(gòu)建隨機(jī)森林模型時(shí),通過(guò)調(diào)整算法中的特征變量選擇個(gè)數(shù)和樹(shù)的個(gè)數(shù)實(shí)現(xiàn)模型調(diào)優(yōu),選取100棵樹(shù)來(lái)構(gòu)建診斷模型。根據(jù)Gini系數(shù)值的下降幅度進(jìn)行變量的重要性計(jì)算,選取四種標(biāo)志物和年齡變量作為重要變量。在構(gòu)建支持向量機(jī)模型時(shí),選擇線性核函數(shù)作為支持向量機(jī)的核函數(shù),通過(guò)交叉驗(yàn)證選取支持向量機(jī)最優(yōu)的懲罰因子。對(duì)每種方法,獲得預(yù)測(cè)數(shù)據(jù)集上的ROC曲線和AUC值,計(jì)算最優(yōu)的cut-off值[12],及對(duì)應(yīng)診斷靈敏度和特異度。用以比較三種統(tǒng)計(jì)學(xué)習(xí)方法對(duì)應(yīng)不同標(biāo)志物聯(lián)合診斷模型的診斷效能,并與單一標(biāo)志物診斷結(jié)果對(duì)比。P<0.05被認(rèn)為具有統(tǒng)計(jì)學(xué)意義。
1.使用logistic回歸模型、隨機(jī)森林和支持向量機(jī)診斷模型分別在胸腔積液和血清組進(jìn)行聯(lián)合診斷的結(jié)果見(jiàn)表1,診斷結(jié)果對(duì)應(yīng)的ROC曲線見(jiàn)圖1。
圖1 在胸腔積液和血清中l(wèi)ogistic回歸(第1列)、隨機(jī)森林(第2列)和支持向量機(jī)的不同診斷模型下的ROC曲線
表1 使用logistic回歸、隨機(jī)森林和支持向量機(jī)方法在胸腔積液和血清中腫瘤標(biāo)志物的不同聯(lián)合診斷效果
logistic回歸中各模型聯(lián)合診斷AUC值均大于0.81(P<0.001)。胸腔積液中CEA+CA15-3+CA19-9的聯(lián)合診斷模型(M5)在ROC曲線中AUC最大為0.91,cut-off值為0.38,靈敏度為0.77,特異度為0.96。
隨機(jī)森林各聯(lián)合診斷模型AUC值均大于0.70(P<0.001)。胸腔積液中使用重要變量模型(M12)的聯(lián)合診斷AUC值最高為0.89。支持向量機(jī)診斷方法在胸腔積液中使用CEA+CA19-9模型(M1)的聯(lián)合診斷ROC曲線對(duì)應(yīng)AUC值最高為0.92,cut-off為0.24,靈敏度為0.82,特異度為0.96。
2.利用三種統(tǒng)計(jì)學(xué)習(xí)分類(lèi)方法對(duì)不同腫瘤標(biāo)志物濃度的單一診斷模型診斷結(jié)果見(jiàn)表2。其中,胸腔積液中,基于單一腫瘤標(biāo)志物CEA的支持向量機(jī)最優(yōu)診斷模型AUC值最高為0.90,cut-off為0.26,靈敏度為0.79,特異度為0.93?;趩我荒[瘤標(biāo)志物CA15-3的logistic回歸最優(yōu)診斷模型AUC值為0.85,cut-off為0.36,靈敏度和特異度分別為0.68和0.92。隨機(jī)森林方法對(duì)應(yīng)的單一腫瘤標(biāo)志物CEA的診斷模型最優(yōu)(AUC=0.84)。
表2 胸腔積液和血清組使用單一指標(biāo)的診斷結(jié)果
3.不同聯(lián)合診斷模型效果比較的假設(shè)檢驗(yàn)結(jié)果見(jiàn)表3。檢驗(yàn)結(jié)果顯示,胸腔積液組中基于logistic回歸和隨機(jī)森林方法的聯(lián)合診斷最優(yōu)模型與單一腫瘤標(biāo)志物診斷模型的AUC值差異比較的假設(shè)檢驗(yàn)P值均顯著(P<0.007)?;谥С窒蛄繖C(jī)的聯(lián)合診斷模型最優(yōu)模型與單一腫瘤標(biāo)志物最優(yōu)診斷模型的AUC值差異比較的假設(shè)檢驗(yàn)均不顯著。另外,胸腔積液組中三種分類(lèi)方法對(duì)應(yīng)聯(lián)合診斷的最優(yōu)模型AUC值與次優(yōu)模型的AUC值差異比較均不顯著(P>0.155)。
表3 胸腔積液組中不同方法對(duì)應(yīng)聯(lián)合診斷模型AUC差異的比較
本文通過(guò)前瞻性試驗(yàn)研究,使用logistic回歸、隨機(jī)森林和支持向量機(jī)三種分類(lèi)方法,建立以CEA、CA125、CA15-3和CA19-9四種腫瘤標(biāo)志物濃度為基礎(chǔ)的不同聯(lián)合診斷模型,通過(guò)統(tǒng)計(jì)學(xué)習(xí)方法進(jìn)一步提升了聯(lián)合診斷的準(zhǔn)確率,對(duì)于判別良、惡性胸腔積液有著十分重要的價(jià)值。
通過(guò)對(duì)比多腫瘤標(biāo)志物與單一腫瘤標(biāo)志物的診斷模型的AUC可知,基于支持向量機(jī)方法的多腫瘤標(biāo)志物聯(lián)合診斷模型比單一腫瘤標(biāo)志物的診斷最優(yōu)模型的AUC值提高了1.55%;基于隨機(jī)森林的多腫瘤標(biāo)志物聯(lián)合診斷模型比單一腫瘤標(biāo)志物最優(yōu)模型的AUC值提高了5.1%;使用logistic回歸方法的多腫瘤標(biāo)志物聯(lián)合診斷模型比單一腫瘤標(biāo)志物的最優(yōu)診斷模型AUC值提高5.76%。由此可知,多腫瘤標(biāo)志物的聯(lián)合診斷模型對(duì)于提高診斷的AUC有一定的幫助,這與當(dāng)前研究的結(jié)論一致[7-10],但本研究的樣本量更大,且診斷模型方法更先進(jìn)。本研究尚存在一些不足:本研究測(cè)定了臨床常見(jiàn)的四種腫瘤標(biāo)志物,但其他與肺癌相關(guān)的腫瘤標(biāo)志物如CYFRA21-1、NSE、ADA等亦有診斷價(jià)值[8-9],有待進(jìn)一步研究;使用統(tǒng)計(jì)學(xué)習(xí)方法時(shí),由于隨機(jī)森林和支持向量機(jī)方法自身的特點(diǎn),雖然診斷的精度較好但是可解釋性不夠理想。
盡管多腫瘤標(biāo)志物的聯(lián)合診斷能提高診斷精度,但是相比單一標(biāo)記物診斷提高幅度有限(<6%)。在胸腔積液中,支持向量機(jī)方法使用單一標(biāo)志物CEA診斷即可達(dá)到較高的診斷精度(AUC=0.9)。而支持向量機(jī)最佳聯(lián)合診斷(AUC=0.92)和logistic回歸模型最佳聯(lián)合診斷(AUC=0.91)法的優(yōu)勢(shì)不大,但卻需要檢測(cè)三種腫瘤標(biāo)志物濃度,這既增加了醫(yī)院的醫(yī)療資源消耗,又增加了患者的經(jīng)濟(jì)負(fù)擔(dān)及疼痛不適感。綜合考慮患者就醫(yī)的經(jīng)濟(jì)負(fù)擔(dān)和就醫(yī)體驗(yàn)等因素,在臨床實(shí)踐中,從效費(fèi)比角度講本研究不推薦應(yīng)用多腫瘤標(biāo)志物聯(lián)合診斷法鑒別良惡性胸腔積液。
中國(guó)衛(wèi)生統(tǒng)計(jì)2021年6期