曹曉強(qiáng),高顥瑾,楊大干(1.海南醫(yī)學(xué)院第二附屬醫(yī)院檢驗(yàn)科,???57011;2.廈門(mén)大學(xué)公共衛(wèi)生學(xué)院,福建廈門(mén) 61104;.浙江大學(xué)醫(yī)學(xué)院附屬第一醫(yī)院檢驗(yàn)科,杭州 1000)
原發(fā)性肝癌是最常見(jiàn)的惡性腫瘤之一,外科手術(shù)切除是肝癌最主要的根治手段[1-3]。肝癌晚期患者的存活期一般僅3~6個(gè)月,早期診斷肝癌是延長(zhǎng)患者生存時(shí)間的最有效手段。目前,肝癌風(fēng)險(xiǎn)預(yù)測(cè)模型有:REACH-B評(píng)分模型[4]適用于無(wú)肝硬化的慢性乙肝患者,該評(píng)分表的檢驗(yàn)指標(biāo)包含性別(Sex)、年齡(Age)、丙氨酸氨基轉(zhuǎn)移酶(ALT)、乙型肝炎病毒e抗原和乙型肝炎病毒DNA。Johnson等[5]用于原發(fā)性肝癌輔助診斷的(GALAD)模型,包含Sex、Age和甲胎蛋白(AFP)、甲胎蛋白異質(zhì)體比率、異常凝血酶原,診斷早期肝癌的敏感性和特異性分別為85.6%和93.3%,有助于AFP陰性肝癌的早期診斷。2019年,基于乙型肝炎病毒感染和中國(guó)人群大樣本數(shù)據(jù)的優(yōu)化的類(lèi)GALAD模型[6],適用于中國(guó)人群原發(fā)性肝癌的早期診斷。aMAP評(píng)分基于Age、Sex、清蛋白(Alb)、總膽紅素(T-Bil)和血小板(PLT),針對(duì)慢性肝病患者可跨病因、跨種族的預(yù)測(cè)肝癌風(fēng)險(xiǎn)[7]。ASAP肝癌風(fēng)險(xiǎn)評(píng)估模型包括Sex、Age、AFP和異常凝血酶原,敏感性為73.8%、特異性為90.0%[8]。但是,甲胎蛋白異質(zhì)體比率、異常凝血酶原等并非常規(guī)檢驗(yàn)項(xiàng)目,在懷疑肝癌時(shí)才會(huì)檢測(cè)。本研究用常規(guī)檢驗(yàn)數(shù)據(jù)作為模型篩選指標(biāo),利用SQL進(jìn)行數(shù)據(jù)收集,采用DxAI智慧科研平臺(tái),通過(guò)機(jī)器學(xué)習(xí)建立原發(fā)性肝癌的風(fēng)險(xiǎn)預(yù)測(cè)模型,探索原發(fā)性肝癌風(fēng)險(xiǎn)預(yù)測(cè)的性能。
1.1病歷數(shù)據(jù)收集和處理 回顧性收集2020年1月至2022年10月浙江大學(xué)醫(yī)學(xué)院附屬第一醫(yī)院(簡(jiǎn)稱(chēng)醫(yī)院A)和2021年11月至2022年10月海南醫(yī)學(xué)院第二附屬醫(yī)院(簡(jiǎn)稱(chēng)醫(yī)院B)收治的原發(fā)性肝癌患者、疾病對(duì)照者和健康體檢者的臨床、病理和隨訪資料。采用PL/SQL Developer用SQL語(yǔ)句設(shè)定條件將有關(guān)病歷資料導(dǎo)成XLSX格式,包括血常規(guī)22項(xiàng)、生化32項(xiàng)、出凝血5項(xiàng)、腫瘤標(biāo)志物12項(xiàng)、乙肝6項(xiàng)常規(guī)檢驗(yàn)指標(biāo)。將檢驗(yàn)項(xiàng)目名稱(chēng)統(tǒng)一,如有多次結(jié)果選擇其首次診斷后的檢驗(yàn)結(jié)果,所有項(xiàng)目的檢測(cè)時(shí)間相差不超過(guò)2周。缺失值分組別進(jìn)行處理,其中正態(tài)分布用均數(shù)替換,非正態(tài)分布用中位數(shù)替換,非數(shù)值型數(shù)據(jù)用眾數(shù)替換。
納入標(biāo)準(zhǔn):臨床、病理和隨訪資料基本完整。原發(fā)性肝癌組:(1)根據(jù)《原發(fā)性肝癌診療指南(2022年版)》[9]初次確診為原發(fā)性肝癌;(2)未合并其他惡性腫瘤。肝硬化對(duì)照組:(1)確診為肝硬化;(2)未發(fā)展為肝癌。肝炎對(duì)照組:(1)確診為肝炎;(2)未發(fā)展為肝硬化。健康人對(duì)照組:(1)健康體檢人群;(2)診斷結(jié)果無(wú)肝病;(3)乙型肝炎病毒表面抗原和乙型肝炎病毒e抗原陰性。
排除標(biāo)準(zhǔn):(1)同時(shí)患有其他影響篩選指標(biāo)的疾病、妊娠等;(2)服用會(huì)影響篩選指標(biāo)的藥物等;(3)檢測(cè)數(shù)據(jù)30%以上缺失。原發(fā)性肝癌組:接受過(guò)其他抗腫瘤治療,如介入、消融或放化療等;對(duì)照組排除標(biāo)準(zhǔn):AFP≥200 μg/L的患者。
醫(yī)院A最終納入1 180例,其中原發(fā)性肝癌298例,肝硬化280例,肝炎244例,健康體檢者358例。醫(yī)院B有493例用于外部驗(yàn)證,其中原發(fā)性肝癌178例,肝硬化122例,肝炎共34例,體檢人群159例。納入研究的所有病歷經(jīng)過(guò)雙人核對(duì)確認(rèn)。本研究通過(guò)浙江大學(xué)醫(yī)學(xué)院附屬第一醫(yī)院臨床研究倫理委員會(huì)批準(zhǔn)(批準(zhǔn)文號(hào):浙大一院倫審2023研第0035號(hào)]。
1.2實(shí)驗(yàn)方法
1.2.1特征變量的篩選 初步收集變量包括Age、Sex、檢驗(yàn)指標(biāo)等約100余項(xiàng)。首先,根據(jù)數(shù)據(jù)分布和類(lèi)型,采用不同的顯著性分析方法,將患者診斷作為因變量,特征變量作為自變量,選擇差異有統(tǒng)計(jì)學(xué)意義的特征變量。其次,應(yīng)用機(jī)器學(xué)習(xí)測(cè)試數(shù)據(jù),通過(guò)多次嘗試發(fā)現(xiàn)XGBoost模型的整體性能最好,選用該算法并基于方差分析(ANOVA F-value)進(jìn)行特征變量進(jìn)一步篩選。最后,通過(guò)測(cè)試機(jī)器學(xué)習(xí)的結(jié)果不斷地優(yōu)化和性能比較,篩選出建立模型的特征變量組合。
1.2.2機(jī)器學(xué)習(xí)模型構(gòu)建和評(píng)價(jià) 機(jī)器學(xué)習(xí)是指從有限的觀測(cè)數(shù)據(jù)中學(xué)習(xí)出具有一般性的規(guī)律,并利用這些規(guī)律對(duì)未知數(shù)據(jù)進(jìn)行預(yù)測(cè)的方法[10-11]。采用Z-score法,對(duì)入選特征進(jìn)行歸一化處理。通過(guò)5折交叉驗(yàn)證的方法建立模型。機(jī)器學(xué)習(xí)算法采用決策樹(shù)(Decision Tree)、邏輯回歸(Logistic Regression)、極限梯度提升(XGBoost)、隨機(jī)樹(shù)林(Random Forest)和梯度提升(Gradient Boosting)?;谟?xùn)練集數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)分析的特征選擇與模型優(yōu)化,在驗(yàn)證集數(shù)據(jù)處理中選擇ROC曲線下面積(AUCROC)、陰性預(yù)測(cè)率[NPV=TN/(TN+FN)×100%]、陽(yáng)性預(yù)測(cè)率[PPV=TP/(TP+FP)×100%]、準(zhǔn)確度、敏感性、特異性作為模型評(píng)價(jià)指標(biāo)。
aMAP評(píng)分為:({0.06×Age+0.89×Sex(男性:1,女性:0)+0.48×[(lgT-Bil×0.66)+(Alb×-0.085)]-0.01×PLT}+7.4)/14.77×100,其中Age以年為單位,項(xiàng)目的單位分別為T(mén)-Bil(μmol/L)、Alb(g/L)和PLT(103/mm3)[7]。
2.1研究人群的人口學(xué)特征 研究人群的人口學(xué)特征見(jiàn)表1,醫(yī)院A和B部分組的年齡和所有組的性別存在統(tǒng)計(jì)學(xué)差異(P<0.05),可用于驗(yàn)證風(fēng)險(xiǎn)預(yù)測(cè)模型在不同地區(qū)和來(lái)源的人群中的穩(wěn)定性。
2.2特征變量篩選過(guò)程 特征變量除Age、Sex外,剔除缺失值<30%的檢驗(yàn)指標(biāo)后,剩余82個(gè)檢驗(yàn)指標(biāo)。經(jīng)秩和檢驗(yàn)有統(tǒng)計(jì)學(xué)差異(P<0.05)的有36個(gè)特征變量。經(jīng)t檢驗(yàn)有統(tǒng)計(jì)學(xué)差異(P<0.05)的10個(gè)特征變量。經(jīng)卡方檢驗(yàn)有統(tǒng)計(jì)學(xué)差異(P<0.05)的8個(gè)特征變量。
將54個(gè)特征變量作為自變量,患者診斷作為因變量,XGBoost模型的驗(yàn)證集AUCROC為0.96,性能明顯優(yōu)于其他模型。選用XGBoost模型進(jìn)一步篩選特征變量,納入AFP(缺失率7.21%)、C-反應(yīng)蛋白(CRP)(缺失率17.38%)、糖類(lèi)抗原125(缺失率8.73%)、糖類(lèi)抗原199(缺失率7.38%)、半胱氨酸蛋白酶抑制劑C(CysC)(缺失率7.97%)、膽堿酯酶、ALT、血糖、γ-谷氨?;D(zhuǎn)移酶、凝血酶原時(shí)間、腺苷酸脫氨酶、乙型肝炎病毒表面抗原、堿性磷酸酶、纖維蛋白原(Fib)、癌胚抗原(缺失率7.38%)、血小板壓積、Alb、尿酸、T-Bil、Sex、Age共21項(xiàng)特征變量,稱(chēng)為X21。
對(duì)X21進(jìn)行多次刪減與組合,不斷地調(diào)整模型的指標(biāo)種類(lèi)和數(shù)量,得到2種6個(gè)參數(shù)的特征組合且AUCROC不低于0.95。X6共有的特征參數(shù)包括Sex、Age、AFP、CRP、CysC。X6a的特征參數(shù)還有Fib,X6b的特征參數(shù)還有Alb。調(diào)整過(guò)程中特征變量種類(lèi)、數(shù)量與權(quán)重的變化如圖1所示,AFP是風(fēng)險(xiǎn)預(yù)測(cè)模型中最重要的特征參數(shù)。
圖1 特征變量的權(quán)重變化圖
2.3原發(fā)性肝癌風(fēng)險(xiǎn)預(yù)測(cè)模型建立和評(píng)價(jià) 將X6a和X6b分別作為模型建立的自變量,患者診斷作為因變量,應(yīng)用機(jī)器學(xué)習(xí)建立模型,使用的算法為Decison Tree、Logistic Regression、XGBoost、Random Forest及Gradient Boosting,X6a建立的模型依次稱(chēng)為Model1-5,X6b建立的模型依次稱(chēng)為Model6-10,見(jiàn)表2,其中Model3是X6a為參數(shù)所建立的最優(yōu)模型,Model8是X6b為參數(shù)所建立的最優(yōu)模型。656例數(shù)據(jù)進(jìn)行了aMAP評(píng)分,>50分為中高風(fēng)險(xiǎn),<50分為低風(fēng)險(xiǎn)。肝癌人群298例,被評(píng)為中高風(fēng)險(xiǎn)250例,低風(fēng)險(xiǎn)48例。健康體檢人群358例,被評(píng)為中高風(fēng)險(xiǎn)121例,低風(fēng)險(xiǎn)237例。aMAP評(píng)分的結(jié)果準(zhǔn)確率為74.24%,錯(cuò)誤率為25.76%。
2.4原發(fā)性肝癌組與肝硬化組、肝炎組、體檢組的模型性能和評(píng)價(jià) 用原發(fā)性肝癌組和肝硬化組、原發(fā)性肝癌組和肝炎組、原發(fā)性肝癌組和健康體檢組的數(shù)據(jù)獨(dú)立作為數(shù)據(jù)集,選用XGBoost算法,分別將X6a、X6b作為自變量,患者診斷作為因變量,進(jìn)行機(jī)器學(xué)習(xí),建立模型ModelA和ModelB、ModelC和ModelD、ModelE和ModelF,其性能指標(biāo)見(jiàn)表3。
表3 原發(fā)性肝癌組與對(duì)照組ModelA-F驗(yàn)證集的性能指標(biāo)
2.5Model3、Model8外部驗(yàn)證結(jié)果 Model3在醫(yī)院B的外部驗(yàn)證性能指標(biāo):AUCROC(95%CI)0.829(0.787~0.870),NPV 0.828,PPV 0.726,準(zhǔn)確度0.793,敏感性0.685,特異性0.854。Model8在醫(yī)院B外部驗(yàn)證性能指標(biāo):AUCROC(95%CI)0.816(0.774~0.859),NPV 0.802,PPV 0.771,準(zhǔn)確度0.793,敏感性0.607,特異性0.898。Model3外部驗(yàn)證的評(píng)分圖和ROC曲線見(jiàn)圖2,Model8外部驗(yàn)證的評(píng)分圖和ROC曲線與Model3相似。
注:圖A中藍(lán)色代表非原發(fā)性肝癌病例,紅色代表原發(fā)性肝癌病例。左側(cè)的紅色為判斷錯(cuò)誤的陽(yáng)性樣本,可能是因?yàn)椴糠衷l(fā)性肝癌患者未出現(xiàn)明顯的血清學(xué)特征;右側(cè)藍(lán)色為判斷錯(cuò)誤的陰性樣本,原因可能為部分患者已處于原發(fā)性肝癌早期而臨床尚未確診。圖2 Model3外部驗(yàn)證的評(píng)分圖(A)和ROC曲線(B)
機(jī)器學(xué)習(xí)是人工智能的一個(gè)重要分支,高質(zhì)量數(shù)據(jù)和機(jī)器學(xué)習(xí)算法是人工智能的核心。風(fēng)險(xiǎn)預(yù)測(cè)模型的建立需提供經(jīng)數(shù)據(jù)標(biāo)注、高質(zhì)量、完整的資料。傳統(tǒng)的數(shù)據(jù)收集方法,需要在電子病歷、檢驗(yàn)系統(tǒng)中根據(jù)患者ID等逐個(gè)手工收集數(shù)據(jù),過(guò)程繁瑣、效率低且耗時(shí)長(zhǎng)??山柚ぞ哂肧QL在數(shù)據(jù)庫(kù)中批量篩選患者的診斷信息來(lái)收集所需要的數(shù)據(jù),再進(jìn)行數(shù)據(jù)確認(rèn)、標(biāo)化和預(yù)處理,能提高數(shù)據(jù)收集的效率。
風(fēng)險(xiǎn)預(yù)測(cè)模型的預(yù)測(cè)效能與特征參數(shù)的選擇和組合密切相關(guān)?;跈z驗(yàn)現(xiàn)有的數(shù)據(jù)資料,應(yīng)用統(tǒng)計(jì)學(xué)方法,通過(guò)顯著性、單/多因素、算法權(quán)重等分析確定特征參數(shù),避免了主觀影響,參數(shù)的組合也存在更多的可能性,能更好地挖掘出檢驗(yàn)項(xiàng)目的未知價(jià)值。不同的模型可能包含不同的指標(biāo)組合,如aMAP評(píng)分包括T-Bil、Alb和PLT等指標(biāo)[7],REACH-B評(píng)分包括ALT、乙型肝炎病毒表面抗原等指標(biāo)[4],ASAP模型包括AFP和異常凝血酶原等[8]。從圖1可見(jiàn),X21、X16模型時(shí),幾乎包括與肝癌有關(guān)的檢測(cè)指標(biāo),如乙型肝炎病毒表面抗原、ALT、T-Bil等,但進(jìn)步一優(yōu)化為X11、X6a、X6b模型時(shí),檢測(cè)指標(biāo)減少,只剩下權(quán)重最高為AFP,還有CRP、Fib、Alb、CysC等指標(biāo)。AFP主要作為原發(fā)性肝癌的血清標(biāo)志物,用于原發(fā)性肝癌的診斷及療效監(jiān)測(cè)[9]。CRP在原發(fā)性肝癌患者中的水平顯著高于其他良性肝病[5]。Fib在原發(fā)性肝細(xì)胞癌患者中的水平高于肝硬化組,表明肝硬化患者Fib升高時(shí),應(yīng)加強(qiáng)隨訪[12]。Alb具有檢測(cè)肝癌的潛在能力,肝癌患者的Alb降低,可能是因?yàn)槟[瘤壞死產(chǎn)生的毒性物質(zhì)引起機(jī)體代謝紊亂[13]。CysC也是模型中的一個(gè)重要參數(shù),雖有文獻(xiàn)報(bào)道與惡性腫瘤細(xì)胞增殖分化的相關(guān)[14],但是將其用于原發(fā)性肝癌相關(guān)診斷的研究較少,有待于進(jìn)一步研究。
模型建立時(shí)選用的特征參數(shù)的數(shù)量越少,盡可能選用常規(guī)檢驗(yàn)指標(biāo),可提高模型的臨床適用范圍。模型建立過(guò)程中,嘗試了多種參數(shù)的組合方法,不同的參數(shù)所建立的模型有不同的效果。根據(jù)X11建立的XGBoost模型的驗(yàn)證集AUCROC為0.962,相比Model3和Model8多了5個(gè)檢驗(yàn)指標(biāo),但AUCROC的提高只有0.01。在保證模型性能的同時(shí)減少參數(shù)數(shù)量的原則,X11建立的模型并不好。將特征參數(shù)AFP、CRP、CysC、Age和Sex建立的XGBoost模型的驗(yàn)證集AUCROC為0.946,相比Model3和Model8而言?xún)H減少了1個(gè)指標(biāo)Fib/Alb,但預(yù)測(cè)模型的性能有所下降。Model3和Model8所涉及的參數(shù)僅為醫(yī)院A和B常見(jiàn)的檢驗(yàn)項(xiàng)目并具有較好的預(yù)測(cè)性能。因此,模型參數(shù)的選擇方法諸多,不同的研究在參數(shù)選擇時(shí)有不同的依據(jù),也可能有更好的常規(guī)參數(shù)組合未被發(fā)現(xiàn)。
不同機(jī)器學(xué)習(xí)算法建立的模型的診斷效能不同。對(duì)比內(nèi)部驗(yàn)證的性能指標(biāo),結(jié)果顯示XGBoost算法的AUCROC、準(zhǔn)確度等均高于其他模型,在模型構(gòu)建過(guò)程中表現(xiàn)出與數(shù)據(jù)特征優(yōu)良的適配性,是最佳的風(fēng)險(xiǎn)預(yù)測(cè)算法。Model3和Model8的驗(yàn)證集AUCROC均達(dá)到0.95以上,外部驗(yàn)證AUCROC均達(dá)到0.80以上,表明對(duì)原發(fā)性肝癌的預(yù)測(cè)能力和區(qū)分度較高。本文為多中心研究,模型的建立和內(nèi)部驗(yàn)證數(shù)據(jù)與外部驗(yàn)證數(shù)據(jù)的來(lái)源不同,可以體現(xiàn)出模型在不同地區(qū)、不同人群中應(yīng)用的穩(wěn)定性,符合臨床真實(shí)情況。
近年來(lái),已有研究建立了原發(fā)性肝癌的風(fēng)險(xiǎn)預(yù)測(cè)模型,包括GALAD模型(AUCROC=0.917,準(zhǔn)確度=0.847)[5]、C-GALAD(AUCROC=0.89,準(zhǔn)確度=0.819)[6]、ASAP(AUCROC=0.915,準(zhǔn)確度=0.858)[8]等。aMAP=60時(shí),特異性為56.6%~95.8%,PPV為6.6%~15.7%[7]。表2結(jié)果可見(jiàn),Model3和Model8的性能指標(biāo)優(yōu)于大多數(shù)已有模型[5-8],雖然已有模型仍有部分性能指標(biāo)(如敏感性)優(yōu)于Model3和Model8,這與應(yīng)用甲胎蛋白異質(zhì)體L3、異常凝血酶原、循環(huán)腫瘤DNA等特殊的檢驗(yàn)項(xiàng)目有關(guān),而體檢和常規(guī)篩查中一般不包括這些項(xiàng)目,不利于模型的普及和應(yīng)用。另外,表3結(jié)果顯示,建立的原發(fā)性肝癌組與肝硬化組、肝炎組、健康體檢組的預(yù)測(cè)模型ModelA-F,AUCROC均大于0.93,且具有較高的敏感性和特異性,其中原發(fā)性肝癌組與健康體檢組的數(shù)據(jù)建模效果最好,與肝炎組其次,與肝硬化組最差。Model3和Model8選用的檢驗(yàn)指標(biāo)為AFP、CRP、CysC和Fib或Alb,是臨床常用的檢驗(yàn)項(xiàng)目,可以保證模型的普及率,充分挖掘常規(guī)檢驗(yàn)結(jié)果的價(jià)值,提高原發(fā)性肝癌的早期診斷率。臨床診療中,如果某患者做了模型中的檢驗(yàn)項(xiàng)目,必要時(shí)可在信息系統(tǒng)中提醒患原發(fā)性肝癌的風(fēng)險(xiǎn)概率,來(lái)輔助醫(yī)生的臨床決策。
本文存在以下局限性:回顧性研究,存在一定的選擇偏倚和研究設(shè)計(jì)缺陷,且患者數(shù)據(jù)量較少。雖使用獨(dú)立驗(yàn)證集進(jìn)行外部驗(yàn)證,但驗(yàn)證數(shù)據(jù)僅1家,還要進(jìn)行更多外部驗(yàn)證。不同醫(yī)院的儀器、試劑存在差異,需要進(jìn)一步標(biāo)準(zhǔn)化和同質(zhì)化。
總之,本文運(yùn)用深睿醫(yī)療智慧科研平臺(tái),基于臨床常規(guī)檢驗(yàn)項(xiàng)目,選擇五種算法進(jìn)行機(jī)器學(xué)習(xí),建立了原發(fā)性肝癌的風(fēng)險(xiǎn)預(yù)測(cè)模型,Model3適用于住院患者,Model8適用于門(mén)診患者和體檢人群。