陳思玎,姜英玉,王春娟,楊昕,李子孝,姜勇,3,王擁軍,4,5,谷鴻秋,
目的 開發(fā)基于機(jī)器學(xué)習(xí)算法的缺血性卒中患者院內(nèi)復(fù)發(fā)風(fēng)險(xiǎn)的預(yù)測(cè)模型,并進(jìn)行外部驗(yàn)證,為相關(guān)研究提供借鑒。
方法 開發(fā)隊(duì)列為中國(guó)卒中聯(lián)盟(China Stroke Center Alliance,CSCA)研究隊(duì)列,將此隊(duì)列中的缺血性卒中患者按照8∶2隨機(jī)劃分為訓(xùn)練集和內(nèi)部驗(yàn)證集。驗(yàn)證隊(duì)列為第3次中國(guó)國(guó)家卒中登記(the third China national stroke registry,CNSR-Ⅲ)研究隊(duì)列?;谥改稀⑽墨I(xiàn)回顧,確定備選預(yù)測(cè)因子,然后采用拉索(least absolute shrinkage and selection operator,LASSO)回歸進(jìn)行篩選。基于logistic回歸模型以及機(jī)器學(xué)習(xí)算法[隨機(jī)森林模型、極端梯度提升(extreme gradient boosting,XGBoost)、輕量級(jí)梯度提升機(jī)器學(xué)習(xí)(light gradient boosting machine,LightGBM)模型]開發(fā)缺血性卒中患者院內(nèi)復(fù)發(fā)風(fēng)險(xiǎn)預(yù)測(cè)模型。評(píng)價(jià)模型區(qū)分度(C統(tǒng)計(jì)量)和校準(zhǔn)度(Brier得分)兩方面的指標(biāo)。
結(jié)果 CSCA研究隊(duì)列共納入1 587 779例缺血性卒中患者,其中院內(nèi)復(fù)發(fā)99 085例(6.2%)。CNSR-Ⅲ研究隊(duì)列共納入14 146例缺血性卒中患者,其中院內(nèi)復(fù)發(fā)623例(4.4%)。LASSO回歸選擇出年齡、性別、卒中病史、高血壓、糖尿病、脂質(zhì)代謝紊亂、心房顫動(dòng)、心力衰竭、冠心病、周圍血管病、LDL-C、空腹血糖、血清肌 以及院內(nèi)抗栓治療作為缺血性卒中院內(nèi)復(fù)發(fā)的預(yù)測(cè)因子。內(nèi)部驗(yàn)證中,各模型的區(qū)分度均在0.75左右,XGBoost模型的區(qū)分度(AUC 0.765,95%CI 0.759~0.770)略高于其他模型,各模型的Brier分?jǐn)?shù)均在0.05左右。外部驗(yàn)證中,所有模型的預(yù)測(cè)效能均較低(AUC<0.60),各模型的Brier分?jǐn)?shù)均<0.08。
結(jié)論 在預(yù)測(cè)因子數(shù)量和維度有限的情況下,logistic回歸模型和機(jī)器學(xué)習(xí)算法預(yù)測(cè)缺血性卒中院內(nèi)復(fù)發(fā)風(fēng)險(xiǎn)的效能均較低。未來(lái)需從預(yù)測(cè)因子和算法模型上做更多探索。
卒中是一種患病率、復(fù)發(fā)率、死亡率以及致殘風(fēng)險(xiǎn)均較高的疾病。其中,缺血性卒中是最主要的類型,占卒中的80%以上[1-2]。缺血性卒中的預(yù)后相對(duì)不穩(wěn)定,存在較高的復(fù)發(fā)風(fēng)險(xiǎn),特別是在疾病早期[3-4]。利用復(fù)發(fā)風(fēng)險(xiǎn)預(yù)測(cè)模型,準(zhǔn)確評(píng)估缺血性卒中患者早期復(fù)發(fā)的風(fēng)險(xiǎn),實(shí)現(xiàn)患者的精準(zhǔn)風(fēng)險(xiǎn)分層與精細(xì)管理,以進(jìn)一步降低早期復(fù)發(fā)風(fēng)險(xiǎn),對(duì)缺血性卒中的二級(jí)預(yù)防具有重要意義。本研究依托中國(guó)卒中聯(lián)盟(China Stroke Center Alliance,CSCA)[1]和第3次中國(guó)國(guó)家卒中登記(the third china national stroke registry,CNSR-Ⅲ)研究隊(duì)列[5],基于機(jī)器學(xué)習(xí)算法開發(fā)并驗(yàn)證缺血性卒中院內(nèi)復(fù)發(fā)風(fēng)險(xiǎn)的預(yù)測(cè)模型,以期為后續(xù)更新、研發(fā)缺血性卒中二級(jí)預(yù)防精準(zhǔn)工具提供借鑒。
1.1 研究隊(duì)列及對(duì)象 開發(fā)隊(duì)列為CSCA研究隊(duì)列。CSCA是由中國(guó)卒中學(xué)會(huì)發(fā)起,國(guó)家衛(wèi)生健康委員會(huì)神經(jīng)系統(tǒng)疾病醫(yī)療質(zhì)量控制中心指導(dǎo)的全國(guó)性、多中心、多方面干預(yù)、持續(xù)性的卒中醫(yī)療質(zhì)量規(guī)范和改進(jìn)項(xiàng)目[1,6]。本研究納入分析的是CSCA項(xiàng)目2015年8月-2022年12月的數(shù)據(jù)。驗(yàn)證隊(duì)列為CNSR-Ⅲ研究隊(duì)列。CNSR-Ⅲ為全國(guó)范圍內(nèi)的前瞻性、多中心急性卒中登記研究,其數(shù)據(jù)庫(kù)連續(xù)記錄了2015年8月-2018年3月全國(guó)201家醫(yī)院連續(xù)納入的缺血性卒中或TIA患者資料[5]。本研究入組標(biāo)準(zhǔn):①發(fā)病年齡≥18歲;②臨床確診為缺血性卒中;③發(fā)病7 d內(nèi)就診并住院治療。排除院內(nèi)復(fù)發(fā)結(jié)局缺失的患者。
1.2 預(yù)測(cè)因子與結(jié)局 參考國(guó)際缺血性卒中早期管理指南[7]、文獻(xiàn)報(bào)道的相關(guān)預(yù)測(cè)模型[8],結(jié)合本研究的數(shù)據(jù)特點(diǎn),確定備選預(yù)測(cè)因子,包括患者的人口學(xué)特征、卒中病史、伴隨疾病、實(shí)驗(yàn)室檢查指標(biāo)、抗栓治療5個(gè)方面共計(jì)19個(gè)變量。人口學(xué)特征包括性別、年齡;伴隨疾病包括高血壓、糖尿病、脂質(zhì)代謝紊亂、心房顫動(dòng)、心力衰竭、冠心病及周圍血管??;實(shí)驗(yàn)室檢查包括LDL-C、空腹血糖、糖化血紅蛋白、INR值、Hcy、血清肌酐、血清尿素氮以及尿酸水平。本研究的結(jié)局變量是院內(nèi)缺血性卒中復(fù)發(fā)事件。
1.3 缺失數(shù)據(jù)預(yù)處理 因本研究預(yù)測(cè)因子的數(shù)據(jù)缺失率均在10%以內(nèi),因此有缺失數(shù)據(jù)的連續(xù)變量均用中位數(shù)填補(bǔ),分類變量用眾數(shù)填補(bǔ)。
1.4 模型開發(fā)
1.4.1 特征選擇 特征選擇是在建立模型之前降低數(shù)據(jù)維度、減少輸入預(yù)測(cè)因子數(shù)量并找到最重要的預(yù)測(cè)因子的過(guò)程。該步驟可以提高模型的可解釋性和提高運(yùn)算效率。本研究在訓(xùn)練集中利用拉索(least absolute shrinkage and selection operator,LASSO)回歸進(jìn)行特征選擇,利用十折交叉驗(yàn)證方法選擇Lambda的最優(yōu)值[9]。
1.4.2 模型訓(xùn)練與驗(yàn)證 本研究將開發(fā)隊(duì)列中符合入組標(biāo)準(zhǔn)的患者按照8∶2劃分為訓(xùn)練集和內(nèi)部驗(yàn)證集,利用logistic模型[10]、隨機(jī)森林模型[11]、極端梯度提升(extreme gradient boosting,XGBoost)模型[12]、輕量級(jí)梯度提升機(jī)器學(xué)習(xí)(light gradient boosting machine,LightGBM)模型[13]在訓(xùn)練集中進(jìn)行模型開發(fā)。將訓(xùn)練好的模型在內(nèi)部驗(yàn)證集中進(jìn)行驗(yàn)證和評(píng)估,并在獨(dú)立的外部驗(yàn)證集(CNSR-Ⅲ)中進(jìn)行外部驗(yàn)證。
隨機(jī)森林模型:是一種集成學(xué)習(xí)模型,隨機(jī)森林針對(duì)每一個(gè)決策樹通過(guò)遞歸分裂數(shù)據(jù),使得每個(gè)葉節(jié)點(diǎn)包含盡可能純凈的樣本,從而形成一個(gè)深度較深的決策樹。隨機(jī)森林中的每個(gè)決策樹都對(duì)新樣本進(jìn)行預(yù)測(cè),最后通過(guò)投票(對(duì)于分類問(wèn)題)或平均(對(duì)于回歸問(wèn)題)來(lái)確定最終的模型輸出[11]。
XGBoost模型:屬于集成學(xué)習(xí)的一種梯度提升算法。由梯度提升決策樹模型發(fā)展而來(lái),它不僅以提升的方式組合多個(gè)決策樹,還可以進(jìn)行二次泰勒展開。XGBoost引入了正則化項(xiàng),包括L1和L2正則化,以控制模型的復(fù)雜性,防止過(guò)擬合[12]。
L i ghtGBM模型:是一種梯度提升框架,用于高效處理大規(guī)模數(shù)據(jù)和高維特征。LightGBM模型使用了基于直方圖的學(xué)習(xí)方法,通過(guò)對(duì)連續(xù)特征進(jìn)行離散化,減少了訓(xùn)練過(guò)程中的計(jì)算復(fù)雜度,提高了訓(xùn)練速度。此外,該模型采用按層生長(zhǎng)的策略,在訓(xùn)練過(guò)程中可更加高效地選擇最佳分裂點(diǎn)[13]。
1.5 統(tǒng)計(jì)學(xué)方法 連續(xù)變量用M(P25~P75)表示,分類變量以頻數(shù)和率表示。比較不同模型對(duì)院內(nèi)缺血性卒中復(fù)發(fā)的預(yù)測(cè)性能時(shí),主要從區(qū)分度和校準(zhǔn)度兩個(gè)方面進(jìn)行評(píng)價(jià)。采用ROC的AUC,即C統(tǒng)計(jì)量來(lái)評(píng)估區(qū)分度;采用Brier得分(0~1分)以及校準(zhǔn)曲線圖評(píng)估校準(zhǔn)度。Brier得分越趨近0,模型的校準(zhǔn)度越好[14]。最優(yōu)模型的預(yù)測(cè)因子的重要性通過(guò)Shapley加法解釋(shapley additive explanation,SHAP)值體現(xiàn),通過(guò)SHAP圖可視化預(yù)測(cè)因子的影響。
本研究利用Python 3.9.7軟件train_test_split函數(shù),按照8∶2的比例在開發(fā)隊(duì)列中隨機(jī)劃分為訓(xùn)練集和內(nèi)部驗(yàn)證集;利用GridSearch CV在訓(xùn)練集中進(jìn)行十折交叉驗(yàn)證調(diào)參。所有統(tǒng)計(jì)和分析在SAS 9.4和Python 3.9.7中完成。
2.1 一般資料 研究共納入CSCA數(shù)據(jù)庫(kù)1 601 207例缺血性卒中患者,排除院內(nèi)復(fù)發(fā)結(jié)局缺失的患者13 428例,最終納入1 587 779例缺血性卒中患者作為開發(fā)隊(duì)列人群,其中院內(nèi)復(fù)發(fā)99 085例(6.2%)。開發(fā)隊(duì)列中位年齡67.0(58.0~75.0)歲,女性593 898例(37.4%),有卒中病史的523 364例(33.0%),伴隨高血壓1 188 036例(74.8%),伴隨糖尿病439 563例(27.7%),伴隨脂質(zhì)代謝紊亂406 542例(25.6%)。外部驗(yàn)證隊(duì)列共納入CNSR-Ⅲ的15 166例患者,剔除1020例TIA患者,最終納入14 146例缺血性卒中患者作為本研究的外部驗(yàn)證隊(duì)列人群,其中院內(nèi)復(fù)發(fā)623例(4.4%)。外部驗(yàn)證隊(duì)列中位年齡63.0(54.0~70.0)歲,女性4426例(31.3%),有卒中病史的3369例(23.8%),伴隨高血壓10 932例(77.3%),伴隨糖尿病4793例(33.9%),伴隨脂質(zhì)代謝紊亂6252例(44.2%)。開發(fā)隊(duì)列中女性比例高于外部驗(yàn)證隊(duì)列(37.4%vs.31.3%),卒中病史比例高于外部驗(yàn)證隊(duì)列(33.0%vs.23.8%),院內(nèi)抗栓治療的比例低于外部驗(yàn)證隊(duì)列(90.8%vs.97.8%)(表1)。
表1 開發(fā)隊(duì)列與驗(yàn)證隊(duì)列中缺血性卒中患者的基線特征Table 1 Baseline characteristics of ischemic stroke patients in the development and validation cohorts
2.2 特征選擇結(jié)果及調(diào)參 在開發(fā)隊(duì)列中按照80%的比例隨機(jī)劃分出訓(xùn)練集,特征選擇利用十折交叉驗(yàn)證確定LASSO的Lambda等于0.001,在訓(xùn)練集中利用LASSO的方法選擇了14個(gè)變量作為預(yù)測(cè)院內(nèi)缺血性卒中復(fù)發(fā)的預(yù)測(cè)因子,分別是年齡、性別、卒中病史、高血壓、糖尿病、脂質(zhì)代謝紊亂、心房顫動(dòng)、心力衰竭、冠心病、周圍血管病、LDL-C、空腹血糖、血清肌酐和院內(nèi)抗栓治療。
2.3 模型建模與驗(yàn)證 在開發(fā)隊(duì)列中的訓(xùn)練集中進(jìn)行l(wèi)ogistic、隨機(jī)森林、XGBoost以及LightGBM模型建模,而后在測(cè)試集中進(jìn)行內(nèi)部驗(yàn)證。
在內(nèi)部驗(yàn)證中,各模型的區(qū)分度差異較小,其中XGBoost模型的區(qū)分度略高(AUC0.765,95%CI0.759~0.770),其次是隨機(jī)森林模型(AUC0.764,95%CI0.758~0.769)、LightGBM模型(AUC0.764,95%CI0.757~0.769)以及l(fā)ogistic模型(AUC0.749,95%CI0.741~0.758)(表2,圖1)。
表2 機(jī)器學(xué)習(xí)算法和logistic模型預(yù)測(cè)缺血性卒中患者院內(nèi)復(fù)發(fā)(內(nèi)部驗(yàn)證和外部驗(yàn)證)Table 2 Machine learning algorithms and logistic model predictions of in-hospital recurrence in ischemic stroke patients (internal and external validation)
圖1 機(jī)器學(xué)習(xí)算法和logistic模型在開發(fā)隊(duì)列訓(xùn)練集和內(nèi)部驗(yàn)證集中的ROC曲線Figure 1 ROC curves of machine learning algorithms and logistic model on the training and internal validation sets of the development cohort
在外部驗(yàn)證中,各模型的區(qū)分度均下降,其中隨機(jī)森林模型的區(qū)分度略高(AUC0.565,95%CI0.529~0.598),其次是LightGBM模型(AUC0.551,95%CI0.484~0.617)、XGBoost模型(AUC0.546,95%CI0.477~0.607)以及l(fā)ogistic模型(AUC0.543,95%CI0.493~0.584)(表2)。
校準(zhǔn)度方面,開發(fā)隊(duì)列和驗(yàn)證隊(duì)列的Brier分?jǐn)?shù)都較好(0.05左右)。校準(zhǔn)情況見(jiàn)圖2和表2。在內(nèi)部驗(yàn)證的XGBoost模型中,卒中病史、院內(nèi)抗栓治療、心房顫動(dòng)是前3位強(qiáng)預(yù)測(cè)因子(圖3)。
圖2 機(jī)器學(xué)習(xí)算法和logistic模型在開發(fā)隊(duì)列中的校準(zhǔn)曲線圖Figure 2 Calibration curves of machine learning algorithms and logistic model on the development cohort
圖3 XGBoost模型預(yù)測(cè)因子Shapley加法解釋圖Figure 3 Shapley additive explanations for predictive factors in the XGBoost model
基于logistic回歸開發(fā)模型為:
其中Z是線性組合:Z=-1.390-0.184×性別+0.003×周圍血管病-0.018×年齡-0.041×LDL-C-0.018×空腹血糖-0.002×血清肌酐+1.772×卒中病史-0.01×冠心病+0.117×高血壓+0.256×糖尿病+0.157×脂質(zhì)代謝紊亂+0.633×心房顫動(dòng)+0.271×心力衰竭-0.781×院內(nèi)抗栓治療。
本研究基于百萬(wàn)卒中隊(duì)列數(shù)據(jù),利用logistic回歸及機(jī)器學(xué)習(xí)算法構(gòu)建了缺血性卒中患者院內(nèi)復(fù)發(fā)風(fēng)險(xiǎn)的預(yù)測(cè)模型,并利用高質(zhì)量的獨(dú)立外部數(shù)據(jù)進(jìn)行了外部驗(yàn)證。在特征選擇方面采用知識(shí)驅(qū)動(dòng)和數(shù)據(jù)驅(qū)動(dòng)結(jié)合的方式進(jìn)行候選因子選擇,最終確定了14個(gè)預(yù)測(cè)因子,其中卒中病史、院內(nèi)抗栓治療、心房顫動(dòng)是最優(yōu)模型的前3位強(qiáng)預(yù)測(cè)因子。研究結(jié)果顯示,在開發(fā)隊(duì)列中,logistic模型和機(jī)器學(xué)習(xí)模型都有較好的預(yù)測(cè)性能(AUC>0.75),其中,在內(nèi)部驗(yàn)證集中各算法差異很小,XGBoost模型表現(xiàn)略好于其他算法。但在外部驗(yàn)證中,logistic模型和各機(jī)器學(xué)習(xí)模型的預(yù)測(cè)性能均欠佳(AUC<0.6)。
本研究的開發(fā)隊(duì)列CSCA和驗(yàn)證隊(duì)列CNSR-Ⅲ數(shù)據(jù)本身存在一定的異質(zhì)性。例如:開發(fā)隊(duì)列的整體患者年齡、女性比例高于外部驗(yàn)證隊(duì)列;外部驗(yàn)證隊(duì)列的高血壓、糖尿病、脂質(zhì)代謝紊亂、心房顫動(dòng)和心力衰竭患者比例高于開發(fā)隊(duì)列。此外,CSCA和CNSR-Ⅲ納入的均是發(fā)病7 d內(nèi)的缺血性卒中患者,而卒中復(fù)發(fā)風(fēng)險(xiǎn)在第一周最高,且兩個(gè)隊(duì)列中患者的住院時(shí)長(zhǎng)也有差異(中位數(shù)10 dvs.13 d);CNSR-Ⅲ中輕癥患者的比例要高于CSCA,其本身的復(fù)發(fā)比例(4.4%)也低于開發(fā)隊(duì)列(6.2%)。上述異質(zhì)性因素均有可能影響卒中院內(nèi)復(fù)發(fā)風(fēng)險(xiǎn)的預(yù)測(cè)效果,導(dǎo)致由開發(fā)隊(duì)列訓(xùn)練并驗(yàn)證的模型在CNSR-Ⅲ外推時(shí)出現(xiàn)預(yù)測(cè)性能下降的情況。此外,本研究為了避免過(guò)擬合沒(méi)有納入重采樣、調(diào)整權(quán)重等處理類別不平衡的技術(shù),所以預(yù)測(cè)會(huì)存在偏向性問(wèn)題[15],并沒(méi)有將機(jī)器學(xué)習(xí)參數(shù)靈活的優(yōu)勢(shì)發(fā)揮出來(lái),所以對(duì)比logistic模型性能提升有限。
XGBoost是陳天奇[12]等于2016年開發(fā)的機(jī)器學(xué)習(xí)算法,是兼具線性規(guī)模求解器和樹學(xué)習(xí)的算法,近幾年在疾病預(yù)測(cè)領(lǐng)域中應(yīng)用廣泛,如癌癥患者化療后死亡預(yù)測(cè)[16]、卒中后肺炎預(yù)測(cè)[17]、缺血性卒中患者不良預(yù)后預(yù)測(cè)[18-19]等。在本研究中,XGBoost在開發(fā)隊(duì)列的內(nèi)部驗(yàn)證集中表現(xiàn)略好,這可能與其對(duì)代價(jià)函數(shù)做了二階泰勒展開,引入了一階導(dǎo)數(shù)和二階導(dǎo)數(shù),同時(shí)代價(jià)函數(shù)引入正則化項(xiàng),控制了模型的復(fù)雜度,有助于一定的模型穩(wěn)定性有關(guān)。雖然與XGBoost一樣,隨機(jī)森林模型以及LightGBM模型的AUC均高于logistic模型但是改善并不多,這可能是由于機(jī)器學(xué)習(xí)的優(yōu)勢(shì)在于計(jì)算快、適合高維度數(shù)據(jù)以及處理非共線性等問(wèn)題,本研究采用知識(shí)驅(qū)動(dòng)的方式選擇了19個(gè)變量,在進(jìn)行了LASSO回歸的降維后僅僅納入了14個(gè)變量用來(lái)構(gòu)建模型,為了避免開發(fā)隊(duì)列中模型過(guò)擬合,建模也并未采用重采樣等靈活調(diào)整的手段,所以并沒(méi)有發(fā)揮出機(jī)器學(xué)習(xí)的優(yōu)勢(shì)。
與開發(fā)隊(duì)列不同,外部驗(yàn)證中隨機(jī)森林模型的AUC最高。隨機(jī)森林模型相較于XGBoost模型不需要過(guò)多的超參數(shù)調(diào)整,由于隨機(jī)特征選擇和多個(gè)樹的平均效果,隨機(jī)森林模型相較于XGBoost模型天生具有一定的抗擬合能力,所以具有更好的魯棒性。本研究的初衷是利用更少的臨床變量來(lái)實(shí)現(xiàn)更好的預(yù)測(cè)效果,以方便外部驗(yàn)證和集成到臨床決策支持系統(tǒng)中,為實(shí)際臨床使用提供幫助。但預(yù)測(cè)模型的外推性一直是領(lǐng)域內(nèi)存在的客觀問(wèn)題,由于開發(fā)數(shù)據(jù)和驗(yàn)證數(shù)據(jù)的分布不一致,模型泛化能力較差是客觀存在的,如何提高預(yù)測(cè)模型在外部驗(yàn)證中的表現(xiàn)是開發(fā)預(yù)測(cè)模型時(shí)需要仔細(xì)考慮的內(nèi)容,除了數(shù)據(jù)本身的一致性問(wèn)題,還應(yīng)注意避免過(guò)擬合的發(fā)生。使用帶有正則化參數(shù)的模型,避免參數(shù)在訓(xùn)練集中過(guò)擬合,可以減少在開發(fā)隊(duì)列中的過(guò)擬合現(xiàn)象。
既往文獻(xiàn)中Vida Abedi等[20]利用機(jī)器學(xué)習(xí)算法建立預(yù)測(cè)卒中復(fù)發(fā)風(fēng)險(xiǎn)的長(zhǎng)期預(yù)測(cè)模型,其研究結(jié)果顯示1年預(yù)測(cè)AUC最高(0.79),5年預(yù)測(cè)AUC最低(0.69),與本研究開發(fā)隊(duì)列的預(yù)測(cè)結(jié)果相似。此外,有研究者基于影像組學(xué)和生物標(biāo)志物資料構(gòu)建的COX回歸預(yù)測(cè)模型來(lái)預(yù)測(cè)2年內(nèi)缺血性卒中復(fù)發(fā)風(fēng)險(xiǎn)的AUC為0.8296[21],基于影響組學(xué)數(shù)據(jù)預(yù)測(cè)14 d TIA復(fù)發(fā)風(fēng)險(xiǎn)預(yù)測(cè)模型的AUC達(dá)到0.850(內(nèi)部驗(yàn)證集)[22],其研究結(jié)果的C統(tǒng)計(jì)量高于本研究建立的預(yù)測(cè)模型,提示未來(lái)可進(jìn)一步加入影像組學(xué)的變量來(lái)豐富數(shù)據(jù)維度,實(shí)現(xiàn)更精準(zhǔn)的預(yù)測(cè)。不過(guò),增加這些預(yù)測(cè)因子,在獨(dú)立的外部隊(duì)列中預(yù)測(cè)性能如何,應(yīng)用性如何,還有待更進(jìn)一步的研究。
開發(fā)臨床預(yù)測(cè)模型,最終目的是服務(wù)于臨床實(shí)踐和應(yīng)用。納入更多數(shù)量和維度的預(yù)測(cè)因子,如各組學(xué)數(shù)據(jù)(基因組學(xué)、影像組學(xué)、蛋白組學(xué)、代謝組學(xué)等),采用更復(fù)雜的算法(如各種機(jī)器學(xué)習(xí)算法),能在一定程度上提升預(yù)測(cè)效果,但是如何平衡預(yù)測(cè)模型的開發(fā)、應(yīng)用的成本和預(yù)測(cè)的效果及實(shí)際可應(yīng)用性,是一個(gè)難題。隨著數(shù)據(jù)收集、存儲(chǔ)、分析技術(shù)的進(jìn)步,成本的降低,未來(lái)從預(yù)測(cè)因子和算法模型上可以做更多探索,或許可以開發(fā)出成本可控、效應(yīng)可接受、實(shí)際可應(yīng)用的預(yù)測(cè)模型。
利益沖突本文所有作者均聲明不存在利益沖突。