国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)算法開發(fā)和驗證的肝細胞癌預(yù)后預(yù)測模型:一項大樣本隊列和外部驗證研究

2021-07-20 06:26:58韋英婷覃家盟樊金蓮梁敏周海華翚東李婷
中國癌癥防治雜志 2021年3期
關(guān)鍵詞:隊列深度預(yù)測

韋英婷 覃家盟 樊金蓮 梁敏 周海華 翚東 李婷

肝細胞癌(hepatocellular carcinoma,HCC)是常見的消化道惡性腫瘤,肝切除術(shù)是主要的治療方法之一,但 5 年復(fù)發(fā)率高達 70%[1?2],5 年總生存率僅為37%[3]。準確評估HCC患者的生存情況對選擇治療策略有重要意義。但是肝癌異質(zhì)性大,患者的預(yù)期壽命仍難以準確評估。臨床預(yù)測模型的開發(fā)有助于提高臨床醫(yī)師評估患者預(yù)后的能力[4?5]。目前基于HCC預(yù)后影響因素已經(jīng)開發(fā)了一系列預(yù)測模型,但外推性、準確度仍不足[6?8]。近年來,隨著龐大數(shù)據(jù)庫出現(xiàn)和計算能力增強,一些新穎的預(yù)測分析方法不斷涌現(xiàn)[9]。其中深度學(xué)習(xí)是人工智能的一個子學(xué)科,有助于研究人員分析大量數(shù)據(jù),通過預(yù)測解決問題[10]。在過去的十余年中,深度學(xué)習(xí)在醫(yī)療保健中的使用越來越多[11?12]。在臨床研究中,深度學(xué)習(xí)主要用于提供更準確的預(yù)測結(jié)果以評估腫瘤患者的預(yù)后[13?14]。隨著患者病理學(xué)和遺傳信息的可用性增加,深度學(xué)習(xí)可能成為預(yù)測生存的新工具[15?16]。本研究收集美國國立癌癥研究所的監(jiān)測、流行病學(xué)和最終結(jié)果(Surveillance,Epidemiology and Results,SEER)數(shù)據(jù)庫中的數(shù)據(jù),采用深度學(xué)習(xí)算法DeepSurv開發(fā)了一種可預(yù)測HCC患者1、3、5年生存率的模型,并選擇本院HCC患者驗證模型的可推廣性,以期通過個性化預(yù)測模型更好地幫助臨床醫(yī)師做出治療決策或臨床試驗設(shè)計。

1 資料與方法

1.1 研究設(shè)計與對象

本研究為回顧性隊列研究。選擇2011年1月—2015年12月SEER數(shù)據(jù)庫中經(jīng)病理確診的HCC患者為訓(xùn)練隊列用于構(gòu)建模型,隨訪截至2019年12月;選擇同期于本院經(jīng)病理確診的HCC患者為外部驗證隊列用于評估模型,隨訪截至2019年6月。遵循TRIPOD報告指南[17]開發(fā)和驗證模型。納入標準:⑴病理明確診斷為HCC;⑵年齡≥18歲;⑶HCC為第一原發(fā)性癌。排除標準:⑴尸檢獲取或只有死亡報告上的病例;⑵非HCC相關(guān)性死亡者;⑶合并其他腫瘤者;⑷隨訪信息不完整者。本研究經(jīng)本院理論委員會審核批準。由于本研究為回顧性研究且數(shù)據(jù)匿名分析,因此不需要患者知情同意。

1.2 數(shù)據(jù)提取及定義

訓(xùn)練隊列數(shù)據(jù)采用SEER*stat 8.3.5軟件(http://www.seer.cancer.gov/seerstat)在SEER數(shù)據(jù)庫中提取。該數(shù)據(jù)庫于1973年建立,記錄了美國部分州縣40余年來腫瘤患者的相關(guān)信息,是目前美國最具代表性的大型腫瘤登記注冊數(shù)據(jù)庫之一[18]。外部驗證隊列數(shù)據(jù)從本院電子病歷系統(tǒng)中提取。收集患者的性別、年齡、種族、組織學(xué)分級、TNM分期、腫瘤大小、轉(zhuǎn)移情況、手術(shù)情況、生存時間、生存狀態(tài)等資料。組織學(xué)分級以ICD?O?3為標準分為Ⅰ級、Ⅱ級、Ⅲ級、Ⅳ級;TNM分期以AJCC第7版為標準。

1.3 預(yù)測結(jié)局

本研究將HCC患者的相關(guān)性死亡作為研究終點,主要預(yù)測結(jié)局為1、3、5年總生存率??偵嫫冢╫verall survival,OS)定義為患者確診到死亡或隨訪截止的時間。

1.4 DeepSurv算法

DeepSurv算法是將深度學(xué)習(xí)技術(shù)應(yīng)用于非線性Cox回歸的風(fēng)險網(wǎng)絡(luò),其網(wǎng)絡(luò)是一種深度前饋神經(jīng)網(wǎng)絡(luò),通過網(wǎng)絡(luò)學(xué)習(xí)權(quán)重,預(yù)測患者協(xié)變量對其危險率的影響[19]。其中構(gòu)建DeepSurv模型網(wǎng)絡(luò)參數(shù)設(shè)置是關(guān)鍵。首先,需要設(shè)置網(wǎng)絡(luò)層數(shù)和各層節(jié)點數(shù),其中輸入層節(jié)點數(shù)為預(yù)后影響因素的個數(shù),不需要用戶輸入;輸出層只有一個節(jié)點,即對數(shù)風(fēng)險函數(shù)。其次,需要調(diào)節(jié)相關(guān)參數(shù),關(guān)鍵參數(shù)有學(xué)習(xí)率、學(xué)習(xí)率衰減、激活函數(shù)選擇、正則化及優(yōu)化方法等。

1.5 RFS算法

RFS算法是一種用于右刪失生存數(shù)據(jù)進行分析的隨機森林方法,引入了生存森林的事件保留原則,可用于定義總體死亡率,是一種簡單的可解釋的死亡率度量,可以用作預(yù)測結(jié)果[20]。構(gòu)建RFS的一般流程:⑴模型通過“自助法”(Bootstrap)將原始數(shù)據(jù)以有放回的形式隨機抽取樣本,建立樣本子集,并將每個樣本中37%的數(shù)據(jù)作為袋外數(shù)據(jù)排除在外。⑵每個樣本隨機選擇特征構(gòu)建其對應(yīng)的生存樹。⑶利用Nelson?Aalen法估計隨機生存森林模型的總累積風(fēng)險。在R語言環(huán)境下隨機森林的建模過程主要包含兩個重要參數(shù):ntree(樹的數(shù)目)和mtry(隨機選擇特征的數(shù)目)。

1.6 統(tǒng)計學(xué)方法

計量資料以均數(shù)±標準差(x±s)表示;分類數(shù)據(jù)以n(%)表示,組間比較采用χ2檢驗;采用Kaplan?Meier法計算生存率,組間比較采用log?rank檢驗。在訓(xùn)練隊列中采用Cox比例風(fēng)險回歸分析影響OS的因素,計算風(fēng)險比(HR)及其對應(yīng)的95%可信區(qū)間(CI),采用Schoenfeld殘差法檢驗等比例假設(shè)。由于本研究的預(yù)測變量較少,因此采用影響OS的獨立因素構(gòu)建DeepSurv和RFS模型。為防止過度擬合,選擇合適的模型參數(shù),模型訓(xùn)練均采用5折交叉驗證。分別在訓(xùn)練隊列和外部驗證隊列中對DeepSurv、RFS和Cox模型進行評價。采用C?index和校準曲線評價模型的區(qū)分度和校準度,計算方法采用Bootstrap法,重抽樣次數(shù)為1 000次。同時采用時間依賴的C?index評估模型區(qū)分度的持續(xù)性。為評估模型的危險分層能力,首先采用X?tile軟件計算風(fēng)險概率的最佳臨界值;其次根據(jù)最佳臨界值將患者分為低風(fēng)險組、中風(fēng)險組和高風(fēng)險組;最后采用log?rank檢驗比較各組生存曲線的差異。采用R 3.4.3 軟件(https://www.r?project.org/)中的survival程序包構(gòu)建Cox比例風(fēng)險回歸模型,采用randomForestSRC程序包構(gòu)建RFS模型;采用Python 3.0中的TFDeepSurv深度生存分析包構(gòu)建DeepSurv(https://github.com/jaredleekatzman/DeepSurv)模型;其余數(shù)據(jù)均采用R 3.4.3軟件分析。本研究以雙側(cè)P<0.05為差異有統(tǒng)計學(xué)意義。

2 結(jié)果

2.1 一般資料及生存情況

在SEER數(shù)據(jù)庫中篩選了78 456例HCC患者,最終納入符合標準9 730例構(gòu)成訓(xùn)練隊列;在本院電子病歷系統(tǒng)中共篩選了731例患者,最終納入符合標準405例構(gòu)成外部驗證隊列。在訓(xùn)練隊列中,中位隨訪44個月時死亡5 836例(60.0%),中位OS為24.0個月(95%CI:23.0~25.0個月),1、3、5年生存率分別為64.2%、40.5%、30.7%,見圖1A;在外部驗證隊列中,中位隨訪41個月時死亡236例(61.5%),中位OS為21.0個月(95%CI:17~28.0個月),1、3、5年生存率分別為61.4%、38.6%、27.1%,見圖1B。兩個隊列中,診斷時的平均年齡分別為(65.0±10.9)歲和(65.1±11.3)歲,均以男性為主(訓(xùn)練隊列男性占75.8%,外部驗證隊列男性占76.3%),其余資料比較見表1。

圖1 HCC患者的Kaplan?Meier生存曲線Fig.1 Kaplan?Meier curves of HCC patients

表1 訓(xùn)練隊列和外部驗證隊列中HCC患者的基線資料Tab.1 Characteristics of HCC patients in the training cohort and external validation cohort

2.2 訓(xùn)練隊列中影響OS的獨立因素

在訓(xùn)練隊列中采用Cox比例風(fēng)險回歸模型分析影響HCC患者OS的因素。單因素Cox回歸分析顯示,性別、種族、年齡、組織學(xué)分級、T分期、N分期、M分期、腫瘤大小、轉(zhuǎn)移、手術(shù)與OS有關(guān)(均P<0.05)。多因素Cox回歸分析顯示,年齡、組織學(xué)分級、T分期、N分期、M分期、腫瘤大小、轉(zhuǎn)移、手術(shù)是影響OS的獨立因素(均P<0.05),見表2。

表2 影響HCC患者OS的Cox回歸分析*Tab.2 Cox regression analysis for OS in HCC patients*

2.3 預(yù)測模型的開發(fā)

選擇影響OS的獨立因素年齡、組織學(xué)分級、T分期、N分期、M分期、腫瘤大小、轉(zhuǎn)移、手術(shù),基于5折交叉驗證構(gòu)建DeepSurv、RFS和Cox模型。DeepSurv模型最優(yōu)網(wǎng)絡(luò)設(shè)置:輸入層有9個節(jié)點,隱藏層有兩層(第一隱藏層有7個節(jié)點,第二隱藏層有4個節(jié)點),輸出層有1個節(jié)點;學(xué)習(xí)率為0.05,學(xué)習(xí)率衰減為1.0,激活函數(shù)為rule,正則化方法為sgd。RFS模型最優(yōu)參數(shù)設(shè)置:ntree為500,mtry為4,其余參數(shù)均為默認設(shè)置或自動學(xué)習(xí)。Cox模型方程:風(fēng)險概率=年齡≥60歲×0.129+組織學(xué)分級Ⅱ×0.151+組織學(xué)分級Ⅲ×0.532+組織學(xué)分級Ⅳ×0.552+T2期×0.167+T3期×0.458+T4期×0.542+Tx期×0.354+N1期×0.273+Nx期×0.124+M1期×0.312-手術(shù)×1.267+腫瘤大小3~5 cm×0.237+腫瘤大?。? cm×0.536+轉(zhuǎn)移×0.281。TNM分期方程:風(fēng)險概率=T2期×0.051+T3期×0.970+T4期×0.881+Tx期×0.834+N1期×0.545+Nx期×0.384+M1期×0.922。

2.4 預(yù)測模型的評估與比較

在訓(xùn)練隊列和外部驗證隊列中,深度學(xué)習(xí)算法DeepSurv的C?index均高于RFS、Cox回歸以及TNM分期(均P<0.05),RFS、Cox回歸的C?index高于TNM分期(均P<0.05),見表3。比較每種模型預(yù)測性能的持續(xù)性趨勢,發(fā)現(xiàn)無論在訓(xùn)練隊列還是外部驗證隊列,DeepSurv在整個計算期間(第1~60個月),C?index均高于RFS、Cox回歸以及TNM分期,見圖2。一致性曲線亦發(fā)現(xiàn),無論在訓(xùn)練隊列還是外部驗證隊列中,DeepSurv的1、3、5年的校準曲線亦顯示出良好的校準度,見圖3。

表3 預(yù)測模型的區(qū)分度評價Tab.3 Discrimination evaluation of predictive model

圖2 時間依賴的ROC曲線評估模型區(qū)分度的持續(xù)性Fig.2 Time?dependent ROC curves evaluated the persistence of model discrimination

圖3 校準曲線評估預(yù)測1、3、5年總生存率的校準度Fig.3 Calibration curves estimated the calibration for predicting the survival rate at 1,3,and 5 years

2.5 DeepSurv模型的危險分層能力

在訓(xùn)練隊列中,以DeepSurv模型預(yù)測患者的風(fēng)險概率,X?tile軟件計算風(fēng)險概率的最佳臨界值,根據(jù)最佳臨界值0.87、2.93將患者分為低風(fēng)險組(<0.87)、中風(fēng)險組(0.87~2.93)和高風(fēng)險組(>2.93),任意兩組之間的生存曲線差異均有統(tǒng)計學(xué)意義(均P<0.001),見圖4A;在外部驗證隊列中亦獲得相同的結(jié)果,見圖4B。表明DeepSurv預(yù)測模型具有良好的危險分層能力。

圖4 Kaplan?Meier曲線評估DeepSurv模型的危險分層能力Fig.4 Kaplan?Meier curves evaluated the risk stratification ability of DeepSurv model

3 討論

本研究基于大樣本數(shù)據(jù)庫SEER和深度學(xué)習(xí)算法DeepSurv構(gòu)建了可預(yù)測HCC患者1、3、5年總生存率的模型,并將該模型與機器學(xué)習(xí)算法RFS、Cox回歸和TNM分期構(gòu)建的模型進行比較,發(fā)現(xiàn)DeepSurv模型的預(yù)測性能優(yōu)于RFS、Cox回歸和TNM分期。本研究同時證明了深度學(xué)習(xí)可提供一種新穎的解決方案,通過個性化預(yù)測模型能更好地幫助臨床醫(yī)師做出治療決策或進行臨床試驗設(shè)計。

鑒于簡單性和相對準確性,TNM分期已成為臨床實踐中預(yù)測HCC患者預(yù)后的常用指標之一,但不能精確評估預(yù)后。目前主要通過結(jié)合臨床和病理變量改善TNM分期的預(yù)測能力。本研究中Cox比例風(fēng)險模型將性別、年齡、組織學(xué)分級、腫瘤大小、轉(zhuǎn)移、手術(shù)等與TNM分期相結(jié)合,發(fā)現(xiàn)其C?index無論在訓(xùn)練隊列還是外部驗證隊列中均高于TNM分期。Cox比例風(fēng)險模型是一個半?yún)?shù)模型,可用于計算觀察到的協(xié)變量對事件發(fā)生風(fēng)險的影響[21]。醫(yī)學(xué)研究人員常使用該模型評估預(yù)后協(xié)變量在死亡或癌癥復(fù)發(fā)等事件中的重要性,并隨后告知患者其治療選擇[22]。Cox比例風(fēng)險模型假設(shè)患者的死亡風(fēng)險是其協(xié)變量的線性組合,該假設(shè)稱為“等比例假設(shè)”。然而在真實世界的數(shù)據(jù)集中,等比例假設(shè)往往不能滿足[23]。因此,需要更豐富的生存模型,以更好地將生存數(shù)據(jù)與非線性風(fēng)險函數(shù)擬合。

在擁有大量患者健康數(shù)據(jù)的電子時代,可以將深度學(xué)習(xí)或?qū)C器學(xué)習(xí)整合到電子健康記錄中,從而為臨床醫(yī)師提供有價值的預(yù)后信息[24?25]。本研究分別采用深度學(xué)習(xí)算法DeepSurv和機器學(xué)習(xí)算法RFS構(gòu)建預(yù)測HCC患者1、3、5年總生存率的模型,在訓(xùn)練隊列和外部驗證隊列中,DeepSurv和RFS的C?index均大于Cox回歸和TNN分期,且DeepSurv的C?index最大,表明DeepSurv具有最高的模型區(qū)分度,校準曲線亦表明DeepSurv有較好的校準度,危險分層系統(tǒng)也發(fā)現(xiàn)DeepSurv模型可將HCC患者區(qū)分為低、中、高風(fēng)險3組。DeepSurv算法是將深度學(xué)習(xí)技術(shù)應(yīng)用于非線性Cox回歸的風(fēng)險網(wǎng)絡(luò),其網(wǎng)絡(luò)是一種深度前饋神經(jīng)網(wǎng)絡(luò),通過網(wǎng)絡(luò)學(xué)習(xí)權(quán)重,預(yù)測患者協(xié)變量對其危險率的影響[19]。醫(yī)學(xué)數(shù)據(jù)具有高可變性,非線性相互作用和異構(gòu)分布[26]。在這種情況下,深度學(xué)習(xí)技術(shù)可能是一種更合適的預(yù)測方法,因為其已被證明可處理具有復(fù)雜、非線性、異構(gòu)分布的大數(shù)據(jù)集[26?27]。此外,深度學(xué)習(xí)的獨特之處在于可以應(yīng)用布爾邏輯、絕對條件、條件概率和其他非常規(guī)策略對數(shù)據(jù)建模。但深度學(xué)習(xí)也存在一定缺陷:一是錯誤或分類不當?shù)臄?shù)據(jù)將影響模型的質(zhì)量[15];二是分析缺乏透明度。雖然深度學(xué)習(xí)涉及多個分析層,可能做出有意義的預(yù)測[9],但這些分層通常無法被有意義地解釋[28]。如本研究中的Cox回歸和TNM分期結(jié)果可用具體的數(shù)學(xué)公式呈現(xiàn),但DeepSurv和RFS算法難以做到。

本研究采用深度學(xué)習(xí)算法構(gòu)建預(yù)測模型,并進行了外部驗證,證明所構(gòu)建的模型具有一定外推性;樣本量大,有足夠的隨訪時間;模型的構(gòu)建采用了5折交叉驗證,避免了過度擬合或欠擬合,以上保證了本研究結(jié)果的可靠性。但本研究也存在以下局限性:⑴本研究為回顧性研究,無法避免回顧性偏倚及隨訪依從性等造成的偏倚。⑵訓(xùn)練隊列和外部研究隊列來自不同國家,雖然DeepSurv模型在內(nèi)部驗證和外部驗證下均表現(xiàn)良好,但不同種族人群可能會限制模型的適用性,即使本研究多因素Cox回歸表明種族并不是影響HCC預(yù)后的危險因素,但仍需進一步研究。⑶本研究雖然構(gòu)建了預(yù)測模型,但未對其進行部署。臨床環(huán)境中使用深度學(xué)習(xí)算法的方式有很多種,可以在網(wǎng)站上發(fā)布機器學(xué)習(xí)模型的界面,如Azure Machine Learning Studio支持此功能,臨床醫(yī)師可以將患者數(shù)據(jù)輸入基于Web的表單中以預(yù)測HCC患者1、3、5年總生存率。此外可將訓(xùn)練好的深度學(xué)習(xí)模型直接集成到電子病歷系統(tǒng)中,這是最有效但也是最難實現(xiàn)的方法[29]。

綜上所述,本研究采用深度學(xué)習(xí)算法DeepSurv構(gòu)建可預(yù)測HCC患者生存的模型,該模型的預(yù)測變量為年齡、組織學(xué)分級、TNM分期、腫瘤大小、轉(zhuǎn)移、手術(shù),較TNM分期預(yù)測模型可以更好地預(yù)測HCC患者的生存期。在大數(shù)據(jù)時代,深度學(xué)習(xí)和人工智能通過提高對患者風(fēng)險估計的量化能力而在評估預(yù)后方面起重要作用,為開發(fā)更準確預(yù)測預(yù)后方法提供了新的方向。

猜你喜歡
隊列深度預(yù)測
無可預(yù)測
黃河之聲(2022年10期)2022-09-27 13:59:46
選修2-2期中考試預(yù)測卷(A卷)
選修2-2期中考試預(yù)測卷(B卷)
深度理解一元一次方程
隊列里的小秘密
基于多隊列切換的SDN擁塞控制*
軟件(2020年3期)2020-04-20 00:58:44
深度觀察
深度觀察
在隊列里
深度觀察
古田县| 阿荣旗| 巫山县| 周至县| 阿克苏市| 蚌埠市| 汪清县| 呈贡县| 珲春市| 广汉市| 容城县| 阳东县| 维西| 济宁市| 崇信县| 岳西县| 上栗县| 武胜县| 彭州市| 洪江市| 嘉禾县| 开江县| 邵武市| 栾城县| 巴彦淖尔市| 龙州县| 清新县| 新密市| 乌拉特前旗| 常熟市| 景泰县| 商丘市| 尼勒克县| 咸宁市| 乌拉特后旗| 赤城县| 来宾市| 英超| 土默特左旗| 瑞昌市| 宾阳县|