国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機(jī)器學(xué)習(xí)的膀胱癌患者生存預(yù)測模型研究

2024-11-05 00:00:00方昱衡李澤偉許迎盈李功利李科
現(xiàn)代信息科技 2024年16期

摘 要:該研究旨在構(gòu)建基于機(jī)器學(xué)習(xí)的生存預(yù)測模型,預(yù)測膀胱癌(BC)1、3和5年生存率,幫助醫(yī)生準(zhǔn)確識別預(yù)后較差的患者,并輔助臨床預(yù)后方案制定。從監(jiān)測、流行病學(xué)和最終結(jié)果(SEER)數(shù)據(jù)庫中獲取患者數(shù)據(jù),基于邏輯回歸(LR)、隨機(jī)森林(RF)和梯度提升決策樹(GBDT)和Cox比例風(fēng)險模型(Cox proportional hazards)構(gòu)建生存預(yù)測模型,通過在訓(xùn)練集和驗證集中使用受試者工作特征曲線和校準(zhǔn)度曲線評估模型性能。實驗結(jié)果表明,GBDT在BC患者1、3和5年生存率預(yù)測方面具有較高的區(qū)分度和校準(zhǔn)度。

關(guān)鍵詞:膀胱癌;生存預(yù)測;機(jī)器學(xué)習(xí);COX回歸

中圖分類號:TP181;TP391.41 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2024)16-0083-05

Research on Survival Prediction Model of Bladder Cancer Patients Based on Machine Learning

Abstract: This research focuses on constructing a survival prediction model based on Machine Learning to predict the 1-year, 3-year, and 5-year survival rates for patients with Bladder Cancer, aid clinicians in accurately identifying patients with poor prognosis and assist in formulating clinical prognosis plans. Patient data is obtained from the Surveillance, Epidemiology, and End Results (SEER) database. The survival prediction model is constructed based on Logistic Regression (LR), Random Forest (RF), Gradient Boosting Decision Tree (GBDT), and the Cox proportional hazards model. The performance of the model is evaluated using the receiver operating characteristic curve and calibration curve on the training and validation sets. The experimental results demonstrate that GBDT exhibits high discrimination and good calibration in predicting the 1-year, 3-year, and 5-year survival rates for BC patients.

Keywords: bladder cancer; survival prediction; Machine Learning; COX regression

0 引 言

在全球范圍內(nèi),膀胱癌是第十大常見癌癥和第13大癌癥相關(guān)死亡原因[1],每年有近54.9萬例新發(fā)病例和20萬例死亡。盡管有多種治療方式,BC患者的生存率仍然很低。因此,建立準(zhǔn)確的BC患者總生存期的預(yù)后模型非常重要[2]。

BC患者生存預(yù)測的傳統(tǒng)方法基于臨床指標(biāo)和社會人口學(xué)因子,使用Cox比例風(fēng)險回歸分析方法構(gòu)建列線圖[2-4]。基于樹的機(jī)器學(xué)習(xí)預(yù)測方法,如決策樹和隨機(jī)森林,具有易用性、可解釋性和防止過擬合的特性[5],可用于醫(yī)學(xué)預(yù)測模型開發(fā)。

因此,本研究旨在構(gòu)建基于機(jī)器學(xué)習(xí)的生存預(yù)測模型,預(yù)測膀胱癌1、3和5年生存率,分析最優(yōu)臨床預(yù)測模型方法,幫助醫(yī)生準(zhǔn)確識別預(yù)后較差的患者。

1 數(shù)據(jù)與特征

1.1 數(shù)據(jù)預(yù)處理

我們回顧性地從監(jiān)測、流行病學(xué)和最終結(jié)果(Surveillance,Epidemiology, and End Results, SEER)數(shù)據(jù)庫中獲取數(shù)據(jù),收集了2004年至2015年間診斷的200 216例原發(fā)性BC患者,使用了SEER*Stat(版本8.4.1)提取數(shù)據(jù)、選擇案例和定義變量。

分析變量的編碼方案如下,年齡分為<60歲、60~69歲、70~79歲、80+歲;種族分為黑人、白人及其他人種;腫瘤分級分為G1、G2、G3、G4;T分期為T1/Ta/Tis、T2、T3、T4;婚姻狀況分為已婚、未婚和SDW(分居、離異、寡婦)。性別、組織學(xué)(根據(jù)ICD-0-3形態(tài)學(xué)編碼,分為膀胱移行細(xì)胞乳頭狀瘤/癌或膀胱非移行性),N分期(N0,N1/N2/N3),M分期,放療和化療被編碼為二元變量。

在本研究中,數(shù)據(jù)被隨機(jī)分成兩組,其中70%的數(shù)據(jù)集用于開發(fā)預(yù)測模型(訓(xùn)練集),30%用于評估模型性能(驗證集)。訓(xùn)練集的目的是擬合模型,而驗證集用于評估最終模型的性能。

1.2 特征篩選

利用訓(xùn)練集進(jìn)行單因素和多因素Cox回歸分析,如表1所示。P0.05被認(rèn)為具有統(tǒng)計學(xué)差異。結(jié)果顯示,年齡、種族、性別、婚姻狀況、組織學(xué)、基于AJCC第7版的TNM分期、放療和化療10個變量被納入作為模型特征。

2 原理與方法

臨床預(yù)測問題具有復(fù)雜性、不確定性、動態(tài)性、高風(fēng)險性和倫理隱私性等特點,在處理這類問題時,需要采用科學(xué)的方法,結(jié)合醫(yī)生的臨床經(jīng)驗和專業(yè)知識,以提高預(yù)測的準(zhǔn)確性和可靠性。邏輯回歸(Logistic Regression, LR)和Cox比例風(fēng)險模型是臨床預(yù)測領(lǐng)域的經(jīng)典方法,邏輯回歸以其簡單高效和可解釋性強的特點,在二分類問題中表現(xiàn)出色;而Cox比例風(fēng)險模型則以其處理時間相關(guān)事件和評估多種因素對生存時間影響的獨特能力,成為生存分析的重要工具。隨機(jī)森林(Random Forest, RF)具有缺失值容忍度高,降低過擬合風(fēng)險,可提供特征重要性評分,且運行快、可解釋性強的特點,而梯度增強決策樹(Gradient Boosting Decision Tree, GBDT)方法學(xué)習(xí)具有非線性關(guān)系,對異常值魯棒,性能高,通過優(yōu)化殘差精細(xì)擬合數(shù)據(jù)。

因此,本研究分別采用了邏輯回歸、隨機(jī)森林和梯度提升決策樹和Cox比例風(fēng)險模型四種機(jī)器學(xué)習(xí)方法構(gòu)建BC患者的生存預(yù)測模型,四種算法的原理如下:

2.1 COX回歸模型

COX回歸模型以生存結(jié)局和生存時間為因變量,可同時分析眾多因素對生存期的影響,能分析帶有截尾生存時間的資料,且不要求估計資料的生存分布類型[6]。

其基本形式為:

式子中β1,β2,…,βm為自變量的偏回歸系數(shù)。

對上式做對數(shù)變換可得:

因此,Cox回歸模型與一般的回歸分析不同,協(xié)變量對生存時間的影響是通過風(fēng)險函數(shù)和基準(zhǔn)風(fēng)險函數(shù)的比值反映的,其中的風(fēng)險函數(shù)和基準(zhǔn)風(fēng)險函數(shù)是未知的。在完成參數(shù)估計的情況下,可對基準(zhǔn)風(fēng)險函數(shù)和風(fēng)險函數(shù)做出估計,并可計算每一個時刻的生存率。

2.2 邏輯回歸模型

邏輯回歸模型是用于二分類的機(jī)器學(xué)習(xí)算法,通過邏輯函數(shù)將線性回歸輸出映射為(0,1)間的概率。它基于最大似然估計求解參數(shù),用梯度下降法優(yōu)化對數(shù)似然損失函數(shù)。該算法因其簡單高效且可輸出概率值在實際應(yīng)用中廣泛使用[7]。

LR分布是一種連續(xù)型的概率分布,其分布函數(shù)和密度函數(shù)分別為:

2.3 隨機(jī)森林

隨機(jī)森林是基于決策樹的集成學(xué)習(xí)算法,通過自助采樣生成多個子數(shù)據(jù)集,并對每個子數(shù)據(jù)集構(gòu)建決策樹。在構(gòu)建過程中,它隨機(jī)選擇特征進(jìn)行分裂,增加模型多樣性。多棵決策樹集成后,通過投票或平均得出最終預(yù)測結(jié)果,提高了模型的泛化能力和魯棒性。隨機(jī)森林能處理高維、非線性數(shù)據(jù),對缺失值和異常值具有魯棒性,在分類、回歸等任務(wù)中廣泛應(yīng)用[8]。

2.4 梯度提升決策樹

梯度提升決策樹是一種基于決策樹的集成學(xué)習(xí)算法,旨在通過逐步優(yōu)化殘差來提升模型性能。GBDT的核心思想是利用梯度下降的方向來擬合當(dāng)前模型的殘差,即預(yù)測值與真實值之間的差異。在每一步迭代中,GBDT訓(xùn)練一個新的決策樹來擬合前一步的殘差,然后將這個新的決策樹加入模型中。通過多次迭代,GBDT逐步減小模型的殘差,從而提高預(yù)測精度。由于GBDT能夠自動處理特征間的復(fù)雜關(guān)系,并且對于異常值和噪聲具有一定的魯棒性,因此在實際應(yīng)用中取得了良好的效果。同時,GBDT還支持特征重要性評估,有助于特征選擇和模型解釋[9]。

3 實驗結(jié)果與分析

3.1 機(jī)器學(xué)習(xí)模型建模過程

本研究使用網(wǎng)格搜索機(jī)器學(xué)習(xí)模型的最優(yōu)超參數(shù),通過5 折交叉驗證來最大化準(zhǔn)確性。GBDT和RF模型的最佳超參數(shù)如表2所示。

本研究對GDBT和RF機(jī)器學(xué)習(xí)模型進(jìn)行訓(xùn)練時使用Sklearn庫中train_test_split函數(shù)把數(shù)據(jù)集分成兩個部分。其中,測試數(shù)據(jù)集占比為30%,數(shù)據(jù)集拆分之后,對數(shù)據(jù)集進(jìn)行擬合操作,并且對數(shù)據(jù)集吻合度進(jìn)行評估,最后采用十折交叉驗證方法評估模型的性能。

3.2 模型評估結(jié)果分析

本研究選擇Cox回歸方法、logistic回歸方法、隨機(jī)森林(RF)和梯度增強決策樹(GBDT)預(yù)測模型進(jìn)行對比分析,以期找到BC患者生存預(yù)測上的最佳機(jī)器學(xué)習(xí)模型。

四種機(jī)器學(xué)習(xí)算法先在訓(xùn)練集和測試集上進(jìn)行運行,并獲取各算法的準(zhǔn)確率(Accuracy)、精確度(Precision)、召回率(Recall)、F1得分(F1_score)等指標(biāo)進(jìn)行對比評價,指標(biāo)取值范圍[0,1]。精確度(Precision)是指預(yù)測為正且實際為正的樣本占所有預(yù)測為正的樣本的比例,召回率(Recall)是指預(yù)測為正且實際為正的樣本占所有實際為正的樣本的比例,F(xiàn)1得分是精確度和召回率的調(diào)和平均數(shù),用于綜合評價模型的性能,特別是在兩者之間需要取得平衡時。分析結(jié)果如表3所示。

從表中可以看出GBDT再各類指標(biāo)上表現(xiàn)最佳,如其在5年生存率預(yù)測上的準(zhǔn)確率為 0.733,精確度為0.722。

從表中可以看出GBDT再各類指標(biāo)上表現(xiàn)最佳,如其在5年生存率預(yù)測上的準(zhǔn)確率為 0.733,精確度為0.722。

另外,我們還使用臨床預(yù)測模型中廣泛使用的曲線下面積(Area Under Curve, AUC)、Brier評分和校準(zhǔn)度曲線三個評價指標(biāo)對模型的區(qū)分度和校準(zhǔn)度進(jìn)行評價。

AUC是ROC曲線下的面積,用于衡量二分類模型的性能。它表示模型正確區(qū)分正負(fù)樣本的能力,值越接近1說明模型性能越好。在訓(xùn)練集中,對于1年生存預(yù)測,Cox、LR、RF和GBDT的AUC值分別為0.812、0.818、0.833和0.833,在3年和5年生存隊列中,GBDT的AUC值最高。在驗證集中也得到了相同的結(jié)果,證明GBDT算法的穩(wěn)定性。圖2為每個模型的AUC值。

Brier評分是一種評估分類模型性能的指標(biāo),通過計算模型預(yù)測概率與實際標(biāo)簽之間的平均平方誤差來衡量預(yù)測準(zhǔn)確性,值越小表示模型預(yù)測越準(zhǔn)確。而校準(zhǔn)度(Calibration)評估模型預(yù)測概率的準(zhǔn)確性,即模型給出的預(yù)測概率與實際結(jié)果的一致性。良好的校準(zhǔn)度意味著模型預(yù)測的概率可信賴,有助于決策者根據(jù)預(yù)測結(jié)果制定合理策略。

如圖3所示,在四種機(jī)器學(xué)習(xí)模型的三項性能指標(biāo)對比中,GBDT模型仍然表現(xiàn)良好。

4 結(jié) 論

本論文研究創(chuàng)新性地研究基于機(jī)器學(xué)習(xí)的膀胱癌生存預(yù)測模型構(gòu)建,使用大數(shù)據(jù)隊列分析最優(yōu)預(yù)測算法模型,構(gòu)建的臨床預(yù)測模型可幫助臨床醫(yī)生更好地評估患者病情,從而輔助完成膀胱癌患者個性化預(yù)后方案,以改善腫瘤預(yù)后效果。實驗結(jié)果顯示,GBDT在預(yù)測BC患者生存率上的各類指標(biāo)均優(yōu)于其他模型。

本研究也存在一些局限性,包括SEER數(shù)據(jù)庫中缺乏如遺傳信息、治療時機(jī)等生存分析相關(guān)因素,以及缺乏獨立的外部驗證數(shù)據(jù),可能會影響模型的臨床直接應(yīng)用效果。未來的研究方向包括通過增加預(yù)測因素的數(shù)量來開發(fā)更全面的模型,具有更好的預(yù)測性能,在外部數(shù)據(jù)集上驗證模型。

參考文獻(xiàn):

[1] BRAY F,F(xiàn)ERLAY J,SOERJOMATARAM I,et al. Global Cancer Statistics 2018: GLOBOCAN Estimates of Incidence and Mortality Worldwide for 36 Cancers in 185 Countries [J].CA: Cancer J Clin,2018,68(6):394–424.

[2] YANG Z,BAI Y,LIU M,et al. Development and Validation of a Prognostic Nomogram for Predicting Cancer-Specific Survival After Radical Cystectomy in Patients With Bladder Cancer: a Population-Based Study [J].Cancer Med,2020,9(24):9303-9314.

[3] ZHANG Y,HONG Y K,ZHUANG D W,et al. Bladder Cancer Survival Nomogram: Development and Validation of a Prediction Tool, Using the SEER and TCGA Databases [J].Medicine(Baltimore),2019,98(44):e17725[2024-01-26].http://dx.doi.org/10.1097/MD.0000000000017725.

[4] WEN P,WEN J,HUANG X,et al. Development and Validation of Nomograms Predicting the 5- and 8-Year Overall and Cancer-Specific Survival of Bladder Cancer Patients based on Seer Program [J].J Clin Med,2023,12(4):1314.

[5]孫明喆,畢瑤家,孫馳.改進(jìn)隨機(jī)森林算法綜述[J].現(xiàn)代信息科技,2019,3(20):28-30.

[6] 王偉英,桑文文,焉雙梅,等.急性缺血性腦卒中患者1年復(fù)發(fā)危險因素Cox回歸分析 [J].中華老年心腦血管病雜志,2016,18(1):46-50.

[7] 朱燕波,王琦,吳承玉,等.18805例中國成年人中醫(yī)體質(zhì)類型與超重和肥胖關(guān)系的Logistic回歸分析 [J].中西醫(yī)結(jié)合學(xué)報,2010,8(11):1023-1028.

[8] 方匡南,吳見彬,朱建平,等.隨機(jī)森林方法研究綜述 [J].統(tǒng)計與信息論壇,2011,26(3):32-38.

[9] 連克強.基于Boosting的集成樹算法研究與分析 [D].北京:中國地質(zhì)大學(xué)(北京),2018.

台中市| 兰州市| 沾化县| 思茅市| 呈贡县| 哈尔滨市| 长阳| 巩义市| 吐鲁番市| 永顺县| 萨嘎县| 晋中市| 蒙城县| 仪陇县| 内江市| 堆龙德庆县| 青阳县| 富阳市| 运城市| 怀柔区| 镇赉县| 陵川县| 木里| 鲁甸县| 南雄市| 天门市| 隆化县| 阆中市| 土默特右旗| 腾冲县| 营口市| 揭西县| 子洲县| 江阴市| 永顺县| 临夏县| 瑞安市| 安乡县| 武夷山市| 淅川县| 永修县|