李 季,韓可興,沈佳培,孫偉杰,高 龍,郜玉峰
李季,韓可興,沈佳培,孫偉杰,高龍,郜玉峰,安徽醫(yī)科大學(xué)第一附屬醫(yī)院感染病科 安徽省合肥市 230032
乙型肝炎病毒(hepatitis B virus,HBV)感染對(duì)世界公共衛(wèi)生帶來巨大的挑戰(zhàn),相關(guān)研究表明全球估計(jì)有2.4億人最終轉(zhuǎn)變?yōu)槁砸倚透窝撞《靖腥?chronic hepatitis B virus infection,CHBV)[1].我國(guó)作為HBV感染大國(guó),CHBV是引起肝硬化的主要原因[2].同時(shí),由于CHBV進(jìn)展到肝硬化的患者常在失代償期后才會(huì)出現(xiàn)一系列臨床癥狀,例如門靜脈高壓以及由此導(dǎo)致的急危重癥,這導(dǎo)致肝硬化代償期常因無明顯的臨床癥狀而被患者所忽略[3].然而,失代償期肝硬化會(huì)進(jìn)一步增加患者的死亡率和肝細(xì)胞癌(hepatocellular carcinoma,HCC)的發(fā)生率[4].正因如此,如何更早的識(shí)別CHBV合并肝硬化具有重要的臨床意義.
肝活檢是診斷肝硬化的金標(biāo)準(zhǔn),但由于有創(chuàng)性且費(fèi)用昂貴難以被需要反復(fù)進(jìn)行肝臟狀態(tài)評(píng)估的患者所接受[5,6].此外,由于活檢樣本通常很小,這導(dǎo)致肝活檢的準(zhǔn)確性依然是值得懷疑的[7,8].并且由于觀察者之間存在解釋誤差,病理學(xué)家之間的診斷意見可能不同[9].肝臟超聲瞬時(shí)彈性成像(liver ultrasound transient elastography,LUTE)是近年來被大家所接受的能夠準(zhǔn)確評(píng)估肝臟硬度的有效工具[10].然而,不僅LUTE設(shè)備的價(jià)格,檢查中需要配備的探頭和后期的維護(hù)費(fèi)用都是昂貴的[11],這導(dǎo)致基層醫(yī)療機(jī)構(gòu)可能無法滿足患者接受LUTE檢查的需求.所以,基于實(shí)驗(yàn)室血清學(xué)檢查指標(biāo)而建立的針對(duì)肝硬化及肝纖維化的無創(chuàng)評(píng)分成為研究的熱點(diǎn).例如如谷草轉(zhuǎn)氨酶與血小板比率指數(shù)(aspartate aminotransferase/platelet ratio index,APRI)、纖維蛋白-4(fibrosis-4 index,FIB-4)、BARD評(píng)分等已經(jīng)被用于臨床工作.其中APRI和FIB-4主要應(yīng)用于慢性丙型肝炎患者晚期肝纖維化的診斷,但容易受年齡和體重因素的干擾[12,13].而BARD評(píng)分雖然簡(jiǎn)便易行,但準(zhǔn)確性很低并且仍需有效的驗(yàn)證隊(duì)列對(duì)其準(zhǔn)確性進(jìn)行驗(yàn)證[14].因此,上述評(píng)分可能主要應(yīng)用于嚴(yán)重肝纖維化的診斷,但對(duì)于代償期肝硬化的預(yù)測(cè)價(jià)值仍需進(jìn)一步明確[12,13].總之,目前仍需要尋求有效的針對(duì)肝硬化的無創(chuàng)評(píng)分[15],雖然部分影像學(xué)診斷可以有效的判別肝硬化,但在大規(guī)模篩查研究中基于血清標(biāo)志物的無創(chuàng)評(píng)分仍是必不可少的[16].
極限梯度提升機(jī)(eXtreme gradient boosting,XGBoost)機(jī)器學(xué)習(xí)模型是一種集成的學(xué)習(xí)算法,與傳統(tǒng)機(jī)器學(xué)習(xí)模型不同的是,XGBoost機(jī)器學(xué)習(xí)模型是取所有模型的和為輸出,其能在模型運(yùn)算過程中尋找最優(yōu)樹結(jié)構(gòu)從而發(fā)揮更好的擬合作用并且具備更好的模型穩(wěn)定性,對(duì)于存在缺失特征值的樣本,XGBoost算法還可以自動(dòng)學(xué)習(xí)其分裂方向從而獲得最佳的預(yù)測(cè)效果[5].XGBoost機(jī)器學(xué)習(xí)模型作為一種人工智能算法在醫(yī)學(xué)領(lǐng)域中逐漸成熟,在各種疾病的診斷、治療和管理中發(fā)揮巨大的作用[6-8].
綜上,本研究擬基于臨床獲取的患者一般特征學(xué)信息和實(shí)驗(yàn)室指標(biāo)構(gòu)建XGBoost機(jī)器學(xué)習(xí)模型用以預(yù)測(cè)CHBV合并肝硬化的發(fā)生,為臨床對(duì)于肝硬化的管理提供參考依據(jù).
1.1 材料 選取2010-01/2018-10初次就診于安徽醫(yī)科大學(xué)第一和第二附屬醫(yī)院感染科的CHBV患者為研究對(duì)象,所有患者均未接受治療.依據(jù)中華醫(yī)學(xué)會(huì)感染病學(xué)分會(huì)制定的《慢性乙型肝炎防治指南(2019版)》[17]診斷CHB;依據(jù)中華醫(yī)學(xué)會(huì)肝病學(xué)會(huì)制定的《肝硬化診治指南》診斷肝硬化[18].對(duì)以下患者進(jìn)行排除[19]: (1)合并其他病毒性肝炎;(2)合并酒精性肝病、自身免疫性肝病、藥物毒物肝病、遺傳代謝性肝病、寄生蟲肝病、膽汁淤積性肝病、循環(huán)障礙導(dǎo)致肝病及肝臟腫瘤患者;(3)合并其他可能引起肝臟硬度發(fā)生改變的肝外疾病,如結(jié)締組織病、慢性阻塞性肺疾病、肺間質(zhì)纖維化、糖尿病、血液病等.本研究經(jīng)醫(yī)院醫(yī)學(xué)倫理委員會(huì)批準(zhǔn),所有研究對(duì)象均簽署了書面的知情同意書.
1.2 方法 收集所有研究對(duì)象就診時(shí)的年齡、性別信息.留取24 h內(nèi)血液樣本送檢,包括血常規(guī)、生化常規(guī)、HBV DNA定量檢測(cè)等.具體指標(biāo)包括白細(xì)胞計(jì)數(shù)(white blood cell,WBC)、血小板計(jì)數(shù)(platelet counts,PLT)、甲胎蛋白(alpha fetoprotein,AFP)、白蛋白(albumin,ALB)、球蛋白(globulin,GLB)、谷氨酸氨基轉(zhuǎn)移酶(alanine aminotransferase,ALT)、谷草轉(zhuǎn)氨酶(aspartate aminotransferase,AST)、谷氨酰轉(zhuǎn)肽酶(glutamyl transpeptidase,GGT)、HBV DNA定量.
統(tǒng)計(jì)學(xué)處理所有數(shù)據(jù)的處理均通過R(http://www.R-project.org)和EmpowerStats(http://www.empowerstats.com)軟件實(shí)現(xiàn).符合正態(tài)分布的連續(xù)性變量采用均數(shù)±標(biāo)準(zhǔn)差(mean±SD)的形式表示,否則采用中位數(shù)及四分位數(shù)表示,分類變量采用百分比表示.加權(quán)線性回歸(用于連續(xù)性變量)和加權(quán)χ2(用于分類變量)用于評(píng)估組間差異.在建立XGBoost機(jī)器學(xué)習(xí)模型前,首先基于正則化原理消除了預(yù)測(cè)變量之間的共線性以防止過度擬合.隨后,設(shè)置了相應(yīng)的迭代次數(shù)(n-rounds)以提高模型的預(yù)測(cè)效能.最終模型的主要設(shè)置參數(shù)如下: booster=gbtree,objective=binary:logistic,learning rate (eta)=0.3,gamma=5,max depth=6,min_child_weight=1,subsample=1,colsample_bytree=1,n-rounds=100.通過獲取每個(gè)預(yù)測(cè)變量的Gain值繪制出所有預(yù)測(cè)變量的相對(duì)重要度的排序圖.計(jì)算公式為: 相對(duì)重要度=[(1/第一位變量Gain值)×其他變量Gain值].我們計(jì)算了系統(tǒng)的評(píng)價(jià)指標(biāo)以對(duì)我們建立的模型進(jìn)行評(píng)估.準(zhǔn)確度和AUC主要用于評(píng)估模型的預(yù)測(cè)能力,Logloss表示預(yù)測(cè)概率與實(shí)際概率之間的擬合程度,其值越小表示擬合概率越高.而召回率和F1評(píng)分主要評(píng)估數(shù)據(jù)不均衡時(shí)該模型的綜合評(píng)估能力[20].Kappa值主要用于評(píng)估所建立的模型是否具有較好的可重復(fù)性,依據(jù)既往研究我們認(rèn)為當(dāng)Kappa值≥0.40時(shí)提示所建立的模型具有良好的可重復(fù)性[5].繪制DCA曲線以評(píng)估臨床適用性,產(chǎn)生CA曲線以評(píng)估模型的校準(zhǔn)度.aP<0.05說明具有統(tǒng)計(jì)學(xué)差異.
2.1 訓(xùn)練集與驗(yàn)證集研究對(duì)象臨床特征 最終本研究共納入研究對(duì)象1087例,按照3:1的比例隨機(jī)原則拆分為訓(xùn)練集(817例)和驗(yàn)證集(270例).其中訓(xùn)練集研究對(duì)象發(fā)生肝硬化103例,驗(yàn)證集32例.訓(xùn)練集和驗(yàn)證集之間所有的臨床資料具有均衡性(表1).在訓(xùn)練集中除HBV DNA、GLB、ALT之外,兩組間其余指標(biāo)均存在明顯的統(tǒng)計(jì)學(xué)差異(P<0.05)(表2).
表1 訓(xùn)練集與驗(yàn)證集臨床特征資料
表2 訓(xùn)練集患者臨床特征資料
2.2 肝硬化XGBoos機(jī)器學(xué)習(xí)模型的建立 所有預(yù)測(cè)變量均進(jìn)入模型,依據(jù)圖1結(jié)果可知血小板的相對(duì)重要度最高.通過混淆矩陣圖展示了訓(xùn)練隊(duì)列中真陽性、真陰性、假陽性和假陰性參與者的具體細(xì)節(jié)(圖2A).訓(xùn)練集陽性預(yù)測(cè)值(0.90)和陰性預(yù)測(cè)值(0.95)提示所建立的模型對(duì)肝硬化和非肝硬化的研究對(duì)象都具有較高的預(yù)測(cè)率,模型準(zhǔn)確度為0.95.運(yùn)用ROC曲線下面積評(píng)估所建立模型對(duì)于CHB合并肝硬化患者的預(yù)測(cè)效能,AUC為0.95,提示所建立模型具有較高的預(yù)測(cè)效能(表3,圖3).訓(xùn)練集建立的模型Logloss值為0.15,提示肝硬化的預(yù)測(cè)概率與實(shí)際概率之間擬合度良好.同時(shí),召回率(0.73)和F1評(píng)分(0.81)提示所建立模型對(duì)不均衡數(shù)據(jù)同樣具有較好的預(yù)測(cè)效能.Kappa值為0.78,提示目前所建立的模型具有較好的可重復(fù)性.利用訓(xùn)練集所建立的XGBoost機(jī)器學(xué)習(xí)模型評(píng)估指標(biāo)見表2.校準(zhǔn)曲線提示預(yù)測(cè)值與實(shí)際值之間具有良好的一致性(圖4A).DCA曲線的含義是經(jīng)預(yù)測(cè)模型評(píng)估后進(jìn)行干預(yù)的患者是否能夠比那些未經(jīng)評(píng)估直接進(jìn)行干預(yù)或者不進(jìn)行干預(yù)的患者有更好的獲益度.依據(jù)圖5可知經(jīng)預(yù)測(cè)模型評(píng)估后能夠使患者獲得更好的獲益度.
表3 訓(xùn)練集和驗(yàn)證集模型評(píng)價(jià)指標(biāo)
圖1 預(yù)測(cè)變量相對(duì)重要度排序圖.PLT: 血小板計(jì)數(shù);AFP: 甲胎蛋白;ALB: 白蛋白;GGT: 谷氨酰轉(zhuǎn)肽酶;AST: 谷草轉(zhuǎn)氨酶;WBC: 白細(xì)胞計(jì)數(shù);GLB: 球蛋白;HBV DNA: 乙型病毒性肝炎脫氧核糖核酸;ALT: 谷氨酸氨基轉(zhuǎn)移酶.
圖2 XGBoost機(jī)器學(xué)習(xí)模型預(yù)測(cè)CHB合并肝硬化混淆矩陣圖.A: 訓(xùn)練集;B: 驗(yàn)證集.TP: 真陽性;FP: 假陽性;TN: 真陰性;FN: 假陰性.XGBoost: 極限梯度提升機(jī);CHB: 慢性乙型肝炎.
圖3 XGBoost機(jī)器學(xué)習(xí)模型預(yù)測(cè)CHBV合并肝硬化ROC曲線圖.ROC曲線: 受試者工作特征曲線;AUC: 受試者工作特征曲線下面積;XGBoost: 極限梯度提升機(jī);CHBV: 慢性乙型肝炎病毒感染.
圖4 XGBoost機(jī)器學(xué)習(xí)模型預(yù)測(cè)CHBV合并肝硬化校準(zhǔn)曲線圖.A: 訓(xùn)練集;B: 驗(yàn)證集.XGBoost: 極限梯度提升機(jī);CHBV: 慢性乙型肝炎病毒感染.
圖5 XGBoost機(jī)器學(xué)習(xí)模型預(yù)測(cè)CHB合并肝硬化決策曲線圖.XGBoost: 極限梯度提升機(jī);CHB: 慢性乙型肝炎.
2.3 肝硬化XGBoos機(jī)器學(xué)習(xí)模型的內(nèi)部驗(yàn)證 我們利用驗(yàn)證集對(duì)上述建立的模型進(jìn)行了驗(yàn)證,驗(yàn)證集中模型評(píng)估指標(biāo)見表3.混淆矩陣圖提示XGBoost模型篩選出的真陽性(肝硬化)病例數(shù)為25,真陰性(非肝硬化)的病例為213例(圖2B).驗(yàn)證集陽性預(yù)測(cè)值(0.79)和陰性預(yù)測(cè)值(0.89)提示所建立的模型在驗(yàn)證集中對(duì)肝硬化和非肝硬化的研究對(duì)象同樣具有較高的預(yù)測(cè)率.驗(yàn)證集中XGBoost模型準(zhǔn)確度為0.88,AUC為0.86,提示模型具有較高的預(yù)測(cè)效能(圖3).召回率(0.51)和F1評(píng)分(0.96)提示所建立模型在驗(yàn)證集中對(duì)不均衡數(shù)據(jù)同樣具有較好的預(yù)測(cè)效能.Kappa值為0.74,提示目前所建立的模型在驗(yàn)證集中同樣具有較好的可重復(fù)性(表3).校準(zhǔn)曲線提示驗(yàn)證集中預(yù)測(cè)值與實(shí)際值之間具有良好的一致性(圖4).DCA曲線提示驗(yàn)證集中經(jīng)XGBoost模型評(píng)估后接受干預(yù)的患者較未經(jīng)評(píng)估直接進(jìn)行干預(yù)或者不進(jìn)行干預(yù)的患者有更好的獲益度(圖5).
2.4 多個(gè)模型的比較 為了更好地展示本研究中肝硬化XGBoos機(jī)器學(xué)習(xí)模型的優(yōu)勢(shì),我們將其與經(jīng)典的用以評(píng)估肝硬化的APRI評(píng)分和FIB-4評(píng)分進(jìn)行了比較.依據(jù)結(jié)果可知,在訓(xùn)練集中APRI評(píng)分與FIB-4評(píng)分的AUC分別為0.772和0.809,驗(yàn)證集中分別為0.747和0.785(圖6).兩個(gè)經(jīng)典評(píng)分對(duì)于肝硬化的區(qū)分度都小于XGBoost機(jī)器學(xué)習(xí)模型.此外,APRI評(píng)分和FIB-4評(píng)分的校準(zhǔn)曲線提示訓(xùn)練集和驗(yàn)證集中的預(yù)測(cè)值與實(shí)際值之間的一致性較差(圖7).兩個(gè)經(jīng)典評(píng)分的DCA曲線提示經(jīng)APRI評(píng)分和FIB-4評(píng)分評(píng)估后接受干預(yù)的患者雖然能夠提高患者的獲益度,但明顯低于XGBoost機(jī)器學(xué)習(xí)模型(圖8).
圖6 APRI評(píng)分和FIB-4評(píng)分預(yù)測(cè)CHBV合并肝硬化ROC曲線圖.A: APRI評(píng)分(訓(xùn)練集);B: APRI評(píng)分(驗(yàn)證集);C: FIB-4評(píng)分(訓(xùn)練集);D: FIB-4評(píng)分(驗(yàn)證集).AUC: 受試者工作特征曲線下面積;CHBV: 慢性乙型肝炎病毒感染;ROC曲線: 受試者工作特征曲線.
圖7 APRI評(píng)分和FIB-4評(píng)分預(yù)測(cè)CHBV合并肝硬化校準(zhǔn)曲線圖.A: APRI評(píng)分(訓(xùn)練集);B: APRI評(píng)分(驗(yàn)證集);C: FIB-4評(píng)分(訓(xùn)練集);D: FIB-4評(píng)分(驗(yàn)證集).CHBV: 慢性乙型肝炎病毒感染;APRI: 谷草轉(zhuǎn)氨酶與血小板比率指數(shù);FIB-4: 纖維蛋白-4.
我國(guó)是慢性HBV感染大國(guó),不幸的是,盡管核苷(酸)類似物或干擾素可以有效地抑制HBV復(fù)制,但這些都不是治愈性的治療方法[21].這些藥物不直接靶向共價(jià)閉環(huán)DNA,這是負(fù)責(zé)肝內(nèi)病毒持續(xù)存在的關(guān)鍵分子[22].持續(xù)活化的乙型肝炎病毒通過介導(dǎo)免疫應(yīng)答導(dǎo)致肝臟細(xì)胞的壞死和炎癥,長(zhǎng)期的肝細(xì)胞壞死和纖維組織增生導(dǎo)致許多患者最終發(fā)展成為肝硬化甚至肝纖維化[23].盡管肝活檢能夠準(zhǔn)確肝硬化,但很多因素限制了這種檢測(cè)手段被更多的患者所接受,尤其是沒有任何臨床癥狀的早期肝硬化群體.為了克服肝活檢的局限性,目前對(duì)于非侵入性技術(shù)來評(píng)估肝臟僵硬度逐漸成為了熱點(diǎn)[24].本研究利用臨床便于獲取的資料構(gòu)建了能夠有效預(yù)測(cè)CHB合并肝硬化的XGBoost機(jī)器學(xué)習(xí)預(yù)測(cè)模型并進(jìn)行了內(nèi)部驗(yàn)證.
通過相對(duì)重要度排序圖可知排在前5位的預(yù)測(cè)因子分別是血小板、AFP、ALB、GGT和年齡.血小板是骨髓中來源于巨核細(xì)胞的無核細(xì)胞碎片,在止血中起關(guān)鍵作用[25].血小板減少是肝硬化患者常見的并發(fā)癥,其發(fā)病機(jī)制不是單一的[26,27].既往研究已經(jīng)報(bào)道了血小板在脾臟中被破壞增加是由于門靜脈高壓引起的脾臟增大的結(jié)果[28],最近的研究表明[29],肝臟中TPO生成減少和骨髓中血小板生成受損是額外的因素.除此之外,PLT相關(guān)的免疫球蛋白升高導(dǎo)致PLT刺激因子減少也是主要的原因[30].因此,以PLT為預(yù)測(cè)因子能夠建立對(duì)肝硬化的預(yù)測(cè)模型得到了研究者們的一致認(rèn)可[19,31].甲胎蛋白于1964年首次在肝細(xì)胞癌(hepatocellular carcinoma,HCC)患者的血清中發(fā)現(xiàn),此后一直是HCC的主要診斷生物標(biāo)志物[32].除此之外,非HCC疾病也可以出現(xiàn)AFP的升高,例如肝硬化、肝炎、膽管癌、睪丸生殖細(xì)胞瘤和轉(zhuǎn)移性結(jié)腸癌[33],在肝臟良性疾病中,相關(guān)研究表明肝硬化的AFP含量較肝炎升高明顯[34],這也與本研究的結(jié)果相似.白蛋白是血清(3.5 g/dL-5.0 g/dL,約占所有血清蛋白的一半)和細(xì)胞外液中最豐富的蛋白質(zhì)[35],主要由肝臟細(xì)胞產(chǎn)生,其不僅反應(yīng)機(jī)體的基礎(chǔ)營(yíng)養(yǎng)水平,而且可以反應(yīng)肝臟細(xì)胞結(jié)晶片段受體(FcRn)的表達(dá)能力,肝硬化患者由于FcRn表達(dá)的減低而白蛋白生成減少[36].γ-GGT位于肝細(xì)胞的毛細(xì)血管表面和膽管上皮細(xì)胞的膜側(cè),是一種膜結(jié)合酶[37],其不僅反應(yīng)膽汁分泌阻塞和膽管損傷的程度,也是是反應(yīng)肝細(xì)胞損傷的重要標(biāo)記物[38],并且既往研究證明GGT與單純的ALT及AST相比對(duì)肝硬化可能具有更好的預(yù)測(cè)價(jià)值[39],這與本研究的結(jié)果相同.隨著公共衛(wèi)生工作的努力,目前HBV的主要傳播途徑是母嬰傳播,這也導(dǎo)致CHB的年齡分布與其他非傳染性慢性疾病不同.既往研究表明CHB患病率與年齡成負(fù)向相關(guān)關(guān)系[40],因此年齡越高的CHB患者往往有更長(zhǎng)的CHB病程讓人容易理解,這使得年齡成為CHB合并肝硬化的高危因素,本研究結(jié)果與既往研究類似[41].
本研究依然存在一定的局限性.首先,所有納入的研究對(duì)象均未接受任何病毒治療,經(jīng)治療后的患者能否適用于本研究的結(jié)論仍需經(jīng)標(biāo)準(zhǔn)治療方案條件下的隊(duì)列研究證明.第二,由于發(fā)生肝硬化的陽性病例數(shù)不足所有病例數(shù)的20%,目前建立的模型整體敏感性一般,目前的結(jié)論仍需更多樣本的支持.最后,本研究中對(duì)模型進(jìn)行了內(nèi)部驗(yàn)證,但未能得到外部隊(duì)列的驗(yàn)證,這也導(dǎo)致目前的研究結(jié)果在外推時(shí)受到一定的局限性.然而,目前模型所利用的預(yù)測(cè)變量在既往研究中均以得到了證明,本研究的結(jié)果依然能夠證明XGBoost機(jī)器學(xué)習(xí)模型在CHB合并肝硬化預(yù)測(cè)中的價(jià)值.
文章亮點(diǎn)
實(shí)驗(yàn)背景
慢性乙型肝炎病毒感染(chronic hepatitis B virus infection,CHBV)進(jìn)展至肝硬化是一個(gè)緩慢的過程,在肝硬化失代償期發(fā)生之前常因無明顯的臨床癥狀而被患者忽略.肝硬化失代償期時(shí)不良事件的結(jié)局發(fā)生率升高明顯,這使得肝硬化的無創(chuàng)評(píng)估成為研究熱點(diǎn).然而,目前有關(guān)肝硬化早期診斷的機(jī)器學(xué)習(xí)模型仍是缺乏的.
實(shí)驗(yàn)動(dòng)機(jī)
本研究重點(diǎn)探究CHBV患者的年齡、性別以及常規(guī)血清學(xué)指標(biāo)所建立的極限梯度提升機(jī)(eXtreme gradient boosting,XGBoost)機(jī)器學(xué)習(xí)模型預(yù)測(cè)肝硬化的有效性.旨在為CHBV患者提供安全、無創(chuàng)、簡(jiǎn)便、實(shí)用的診斷方法.
實(shí)驗(yàn)?zāi)繕?biāo)
基于CHBV患者的年齡、性別以及常規(guī)血清學(xué)指標(biāo)等信息建立預(yù)測(cè)CHB進(jìn)展為肝硬化的機(jī)器學(xué)習(xí)模型,為肝硬化的管理提供參考.
實(shí)驗(yàn)方法
選取2010-2018年首次就診于安徽醫(yī)科大學(xué)第一附屬醫(yī)院和第二附屬醫(yī)院并行肝活檢的CHBV患者.按照隨機(jī)原則以3:1的比例將所有患者分為訓(xùn)練集和驗(yàn)證集.利用訓(xùn)練集患者一般資料及常規(guī)血清學(xué)指標(biāo)構(gòu)建XGBoos機(jī)器學(xué)習(xí)模型,并利用驗(yàn)證集進(jìn)行內(nèi)部驗(yàn)證.同時(shí),計(jì)算谷草轉(zhuǎn)氨酶與血小板比率指數(shù)(aspartate aminotransferase/platelet ratio index,APRI)、纖維蛋白-4(fibrosis-4 index,FIB-4)評(píng)分并與研究中構(gòu)建的模型進(jìn)行比較.受試者工作特征曲線下面積(area under curve,AUC)以評(píng)估模型區(qū)分度,校準(zhǔn)曲線(calibration curve,CA)及決策曲線(decision curve analysis,DCA)以評(píng)估模型校準(zhǔn)度及獲益度.
實(shí)驗(yàn)結(jié)果
最終納入研究的CHBV病例1087例,其中訓(xùn)練集817例,驗(yàn)證集270例.訓(xùn)練集中有103例患者發(fā)生肝硬化,肝硬化患者APRI和FIB-4評(píng)分明顯高于非肝硬化患者(P<0.05).在訓(xùn)練集中,所有預(yù)測(cè)因子中血小板的相對(duì)重要度最高.利用訓(xùn)練集構(gòu)建的XGBoost機(jī)器學(xué)習(xí)提示后的結(jié)果提示AUC為0.95,驗(yàn)證集的AUC為0.86,兩者Kappa值分別為0.78和0.74.CA曲線提示模型預(yù)測(cè)情況與真實(shí)情況擬合情況吻合度較高.訓(xùn)練集和驗(yàn)證集的DCA曲線提示所建立模型能夠使患者獲得較高的獲益度.研究中構(gòu)建的XGBoost機(jī)器學(xué)習(xí)模型對(duì)于肝硬化的預(yù)測(cè)效能優(yōu)于APRI評(píng)分和FIB-4評(píng)分.
實(shí)驗(yàn)結(jié)論
以CHBV患者的年齡、性別以及常規(guī)血清學(xué)指標(biāo)為預(yù)測(cè)變量構(gòu)建的XGBoost機(jī)器學(xué)習(xí)模型具有較好的預(yù)測(cè)效能,有助于肝硬化早期發(fā)現(xiàn),使患者獲益.
展望前景
本研究證實(shí)了利用常規(guī)資料構(gòu)建XGBoost模型在預(yù)測(cè)CHBV進(jìn)展為肝硬化時(shí)的可行性.基于XGBoost的優(yōu)勢(shì),隨著更多有效的預(yù)測(cè)變量被納入模型,預(yù)測(cè)效能將會(huì)進(jìn)一步提升.未來的研究重點(diǎn)在于提高臨床資料的完整性和多樣性,保持對(duì)有關(guān)CHBV的新型血清標(biāo)志物的關(guān)注并及時(shí)納入模型進(jìn)行驗(yàn)證.