陳小紅 楊渝偉 徐 鵬 陽 伍
電子科技大學(xué)醫(yī)學(xué)院附屬綿陽醫(yī)院檢驗科,四川綿陽 621000
肺癌是嚴(yán)重威脅人類健康的惡性腫瘤,其發(fā)病率和死亡率居腫瘤疾病首位[1]。其中,約85%為非小細(xì)胞肺癌(non-small cell lung cancer,NSCLC),5年生存率僅18%且晚期或轉(zhuǎn)移性NSCLC 的存活率僅有4%,故早期診斷及治療至關(guān)重要[2]。糖類抗原125(carbohy drate antigen 125,CA125)和神經(jīng)元特異性烯醇化酶(neuro specific enolase,NSE) 通常被認(rèn)為是較為特異的肺癌輔助診斷標(biāo)志物,同時臨床發(fā)現(xiàn)癌胚抗原(carcino-embryonic antigen,CEA)、甲胎蛋白(alpha fetoprotein,AFP)和糖類抗原199(carbohydrate antigen 199,CA199)也常在肺癌患者中增高,但單項診斷或傳統(tǒng)串聯(lián)/并聯(lián)診斷模式,預(yù)測分析效能均欠佳[3-4]。近年來,多種模式識別技術(shù)如人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN),決策樹,經(jīng)典判別分析(classical discriminant analysis,CDA)等模型也被用于肺癌的鑒別診斷,為腫瘤診斷提供了新的模式[5-7]。本研究基于血清5 項腫瘤標(biāo)志物,構(gòu)建多層感知器-ANN(multiplayer-ANN,MPL-ANN)、徑向基函數(shù)-ANN(radial basis function-ANN,RBF-ANN)決策樹、logistic回歸分析和CDA 五種模式,初步探討不同模式對NSCLC 的診斷和預(yù)測價值。
回顧性選取2015年1月11日至2019年10月28日電子科技大學(xué)醫(yī)學(xué)院附屬綿陽醫(yī)院413 例NSCLC 患者作為肺癌組,其中男279 例,女134 例;平均年齡(66.3±11.6)歲;鱗癌219 例,腺癌186 例,大細(xì)胞癌8 例。隨機選取同期723 例肺部良性疾病患者為良性組,其中男468 例,女255 例;平均年齡(67.7±12.2)歲;肺結(jié)核92 例,肺膿腫69 例,肺炎100 例,間質(zhì)性肺病82 例,慢性阻塞性肺病169 例,支氣管炎211 例。納入標(biāo)準(zhǔn):①年齡>18 歲;②原位癌或原發(fā)肺部疾??;③未接受任何方式的治療;④肺癌診斷符合NCCN 之診療標(biāo)準(zhǔn)[8],良性疾病診斷符合各類肺病的相關(guān)標(biāo)準(zhǔn)[9];⑤肺癌和良性疾病患者均經(jīng)影像學(xué)或病理學(xué)確診。排除標(biāo)準(zhǔn):①臨床資料不完整的患者;②腫瘤發(fā)生轉(zhuǎn)移或復(fù)發(fā)的患者; ③接受放療或化療的患者;④合并嚴(yán)重肝、腎或心功能不全的患者。另選取282 例健康體檢者為對照組,其中男167 例,女115例;平均年齡(66.3±12.2)歲,對照組血常規(guī)檢查,肝腎功能和腫瘤標(biāo)志物檢驗均未見異常。三組的一般資料比較,差異無統(tǒng)計學(xué)意義(P>0.05)。本次試驗為回顧性研究,依據(jù)《體外診斷試劑臨床研究指導(dǎo)原則》規(guī)定[10],未提交倫理審查。
空腹靜脈采血3~5 ml,以3000 r/min 半徑13.5 cm,離心10 min,分離血清檢測。5 項腫瘤標(biāo)志物均采用化學(xué)發(fā)光法,其中CEA、AFP、CA125 和CA199(Abbott,美國)在雅培i2000 化學(xué)發(fā)光儀上檢測;NSE(Sorin,意大利)在Liaison 化學(xué)發(fā)光儀上檢測。所有檢測均在室內(nèi)質(zhì)控在控的情況下進行。說明書項目參考范圍為:CEA<5.0 ng/ml,AFP<7.29 U/ml,CA125 為<35.0 U/ml,CA199<37.0 U/ml,NSE<13.0 μg/L。
采用SPSS 19.0 統(tǒng)計學(xué)軟件進行數(shù)據(jù)分析,并建立MPL-ANN、RBF-ANN、決 策 樹、logistic 回 歸 和CDA 模型。對于符合正態(tài)分布的計量資料,用均數(shù)±標(biāo)準(zhǔn)差(±s)表示,多組間比較采用單因素方差分析。對于不符合正態(tài)分布的資料,用中位數(shù)(下四分位數(shù),上四分位數(shù))[M(P25,P75)]進行描述,多組間差異分析采用Kruskal-Wallis 檢驗,多重比較采用Kruskal-Wallis 檢驗事后平均秩檢驗,以校正P 值(Adj.P)作為顯著性水平判斷依據(jù)。訓(xùn)練集和測試集間率的比較,采用χ2檢驗。各指標(biāo)及模型的診斷效能采用ROC 曲線分析,以AUC 及最大約登指數(shù)下的靈敏度和特異度綜合判斷,以P<0.05 為差異有統(tǒng)計學(xué)意義。
5 項腫瘤標(biāo)志物中,CEA 對肺癌的診斷效能最高,其AUC 為0.76,95%CI 為0.74~0.78,靈敏度為64.9%,特異度為89.7%(表1)。
表1 血清CEA、AFP、CA125、CA199 和NSE 的ROC 曲線比較
隨機抽取70%樣本建立診斷模型(訓(xùn)練集),30%樣本進行預(yù)測分析(測試集)。MPL-ANN 模型的最佳層數(shù)為3 層,RBP-ANN 模型的最佳隱含層數(shù)為10層,二者的訓(xùn)練集和測試集中,其錯誤預(yù)測率及對肺癌和非肺癌患者的診斷正確率比較,差異均無統(tǒng)計學(xué)意義(P>0.05)(表2)。進一步經(jīng)ROC 分析(圖1),MPL-ANN 模型的AUC、靈敏度和特異度分別為0.91(95%CI:0.89~0.93),75.3%和91.1%;RBF-ANN 模型的AUC、靈敏度和特異度分別為0.86(95%CI:0.82~0.88),75.0%和87.3%。
圖1 基于血清5 種腫瘤標(biāo)志物的MPL-ANN 和RBF-ANN 模型的ROC 曲線分析
表2 MPL-ANN 和RBF-ANN 模型中訓(xùn)練集和測試集的差異分析
同樣隨機選取70%樣本為訓(xùn)練集,30%樣本為測試集,預(yù)測模型如圖2。在訓(xùn)練集和測試集中,該模型對肺癌組的診斷正確率分別為64.8%和63.4%(χ2=0.075,P=0.784),對非肺癌組的預(yù)測正確率分別為91.7%和92.8%(χ2=0.356,P=0.551)。進一步經(jīng)ROC分析,該模型的AUC、靈敏度和特異度分別為0.82(95%CI:0.80~0.85)、54.5%和91.8%。
圖2 基于血清CEA、AFP、CA125、CA199 和NSE 的決策樹-預(yù)測模型
logistic 回歸模型為X=0.210×lnCEA+0.073×lnAFP+0.007×lnCA125+0.018×lnCA199+0.06×lnNSE-3.62。其對肺癌組和非肺癌組的預(yù)測總正確率分別為96.4%(969/1005)、65.1%(269/413)。進一步經(jīng)ROC 分析,logistic 回歸模型的AUC、靈敏度和特異度分別為0.90(95%CI=0.88~0.92)、74.6%和90.0%。
聯(lián)合五項標(biāo)志物建立CDA 模型方程為:Y肺癌=0.068×CEA+0.028×AFP+0.008×CA125+0.006×CA199+0.125×NSE-3.130。其對肺癌組和非肺癌組的預(yù)測總正確率分別為97.1%(976/1005)、58.1%(240/413)。進一步經(jīng)ROC 分析,CDA 模型的AUC、靈敏度和特異度分別為0.89(95%CI:0.88~0.81)、74.8%和88.9%。
5 種模型AUC 由高到低依次為MPL-ANN 模型(0.91)>logistic 回歸分析(0.90)>CDA 模型(0.89)>RBFANN 模型(0.86)>決策樹模型(0.82)。MPL-ANN 模型鑒別診斷肺癌的靈敏度為75.3%,特異度為91.1%,該模型對肺癌組和非肺癌組的鑒別診斷正確率分別為67.8%和95.8%(表3)。
表3 基于血清CEA、AFP、CA125、CA199 和NSE 的5 種模型比較
腫瘤標(biāo)志物是早期輔助診斷肺癌的有效手段,具有簡單、快速、微創(chuàng)等優(yōu)點。CEA 最常用于NSCLC 的篩查,以及預(yù)測NSCLC 患者生存狀況[11]。CA125、CA199與NSCLC 的治療效果和預(yù)后密切相關(guān)[12]。AFP 有助于肺癌的病理分型[13]。此外,NSE 水平增高也預(yù)示NSCLC 的轉(zhuǎn)移或預(yù)后不良[14]。本研究中,肺癌組患者血清CEA、NSE 和CA125 水平均顯著高于良性組和對照組,有助于肺癌的鑒別診斷。五項標(biāo)志物的診斷效能均較低(AUC<0.90),故需聯(lián)合檢測以提高診斷效能。
與傳統(tǒng)的串聯(lián)或并聯(lián)模型相比,MPL-ANN、RBF-ANN、決策樹和CDA 模型是常用的、帶有監(jiān)督功能的、能夠進行多維數(shù)據(jù)分析的模式識別技術(shù),可避免單一指標(biāo)對臨床的誤導(dǎo),結(jié)論更科學(xué)、合理[15],從而解決精準(zhǔn)醫(yī)學(xué)在肺癌診斷中遇到的問題[16]。相對于
單層感知器,MPL-ANN 和RBF-ANN 能更好地處理非線性分類問題,在肺癌的鑒別診斷中具有一定的應(yīng)用潛力。Hanai 等[17]采用年齡、性別、是否吸煙指數(shù)、腫瘤大小等指標(biāo)構(gòu)建MPL-ANN 模型,該模型能實現(xiàn)83%的NSCLC 患者生存期的精準(zhǔn)預(yù)測。目前有關(guān)MPL-ANN 和RBF-ANN 模型的報道顯示,能對80.7%和82.3%的肺癌患者準(zhǔn)確診斷和預(yù)測分析[18],對肺癌、肺良性疾病和胃腸腫瘤具有較好地鑒別能力[19]。本研究中MPL-ANN 對肺癌和非肺癌的診斷準(zhǔn)確率分別為67.8%和95.8%,總體結(jié)果與以上報道相似。決策樹分析、logistic 回歸分析和CDA 也常用于多維數(shù)據(jù)處理和預(yù)測分析。盡管文獻報道[20],以血清Cyfra21-1、CEA、CA125 及鱗狀細(xì)胞癌抗原建立的決策樹模型,可實現(xiàn)對90.8%~100% NSCLC 患者的鑒別診斷。但是,本研究通過CEA、AFP、CA125、CA199 和NSE 建立的決策樹模型,診斷NSCLC 的效果次于MPL-ANN、logistic回歸分析、CDA 和RBFANN 模型,可能與本研究納入的腫瘤標(biāo)志物的類型和數(shù)量有關(guān)。
本研究基于肺癌常見標(biāo)志物(CEA、AFP、CA125、CA199 和NSE)構(gòu)建了五種數(shù)據(jù)挖掘模型,其中MPLANN 模型在肺癌的診斷和預(yù)測中顯示了更優(yōu)的效果。然而,本研究檢測的血清腫瘤標(biāo)志物的種類有限,對NSCLC 診斷的正確率最高僅有75.3%,還需后續(xù)增加更多指標(biāo)、增大樣本量進行模型優(yōu)化和驗證。另外,本研究中研究對象主要為NSCLC 患者,其結(jié)論是否適用于其它腫瘤,尚需進一步進行對比研究,以使結(jié)論更加科學(xué)、合理。
綜上所述,聯(lián)合多個腫瘤標(biāo)志物的數(shù)據(jù)挖掘模型,有利于提高臨床對NSCLC 的診斷能力。相比而言,非線性MPL-ANN 模型,可能更加適用于NSCLC患者腫瘤標(biāo)志物的數(shù)據(jù)挖掘。