齊 霜,徐浩然,胡 婕,毛 智,胡 新,周飛虎
1 解放軍醫(yī)學(xué)院,北京 100853;2 解放軍總醫(yī)院第一醫(yī)學(xué)中心 重癥醫(yī)學(xué)科,北京 100853
膿毒癥是由宿主對感染反應(yīng)失調(diào)引起的危及生命的器官功能障礙,是重癥監(jiān)護(hù)病房(intensive care unit,ICU)患者死亡的主要原因之一,死亡率高,短期死亡率為15%~30%,而膿毒癥休克患者可高達(dá)50%[1-4]。準(zhǔn)確的膿毒癥患者死亡預(yù)測有助于臨床醫(yī)師判斷患者疾病狀態(tài),提高治療效率,改善不良結(jié)局,延長患者生存時間。目前有多種臨床評分幫助臨床醫(yī)師判斷膿毒癥患者病情嚴(yán)重程度,預(yù)測不良事件的發(fā)生,如序貫性器官衰竭評分(sequential organ failure assessment,SOFA)、急性生理學(xué)與慢性健康狀況評分系統(tǒng)Ⅱ(acute physiology and chronic health evaluation scoring system Ⅱ,APACHEⅡ)、簡化急性生理學(xué)評分Ⅱ(simplified acute physiology score Ⅱ,SAPSⅡ)等。但這些評分的設(shè)定是針對整體危重癥患者,并不是某種特定疾病。Knaus等[5]表示,使用患者入院初始未曾接受干預(yù)治療的參數(shù)值計算得出的APACHE評分,對患者預(yù)后判斷更加可靠。然而,膿毒癥患者病情危重,要求早期采取積極有效的治療方式以改善結(jié)局,經(jīng)替代治療后改善的生命體征或?qū)嶒?yàn)室檢查結(jié)果,可能無法正確體現(xiàn)患者的實(shí)際病情。近年來,機(jī)器學(xué)習(xí)逐漸應(yīng)用于醫(yī)學(xué)研究中,其可根據(jù)不同臨床需求及數(shù)據(jù)特征建立預(yù)測模型,與臨床常用評分相比,能更好地預(yù)測不良結(jié)局的發(fā)生[6-10]。本研究基于Sepsis-3的定義篩選出重癥監(jiān)護(hù)醫(yī)療信息市場(Medical Information Mart for Intensive Care,MIMIC)Ⅲ數(shù)據(jù)庫中符合診斷的膿毒癥患者,納入與膿毒癥患者相關(guān)的生命體征、實(shí)驗(yàn)室檢查、干預(yù)治療等數(shù)據(jù),建立符合膿毒癥患者特點(diǎn)的ICU死亡風(fēng)險預(yù)測模型。
1數(shù)據(jù)來源 從MIMICⅢ數(shù)據(jù)庫中篩選患者及其信息。其包含了2001?2012年貝斯以色列女執(zhí)事醫(yī)療中心(Beth Israel Deaconess Medical Center)收治的38512名成年患者(年齡≥18歲)診療信息,包括人口統(tǒng)計學(xué)信息、生命體征、實(shí)驗(yàn)室檢查、治療、診斷等數(shù)據(jù),數(shù)據(jù)信息經(jīng)過多次研究驗(yàn)證,具有較高的質(zhì)量。所有遵守數(shù)據(jù)庫使用要求者均可使用該數(shù)據(jù)庫(https://mimic.physionet.org)[11]。MIMICⅢ數(shù)據(jù)庫包含兩部分?jǐn)?shù)據(jù),分別來自于CareVue系統(tǒng)與MetaVision系統(tǒng);CareVue系統(tǒng)中關(guān)于患者的液體入量及部分操作記錄不如MetaVision系統(tǒng)詳細(xì)全面[12-13]。在本研究中,使用了部分液體及操作治療信息,故只使用MetaVision系統(tǒng)中的數(shù)據(jù)。病例篩選流程見示意圖1。
圖1 病例篩選流程示意圖Fig.1 Flowchart of case screening process
2膿毒癥病例篩選標(biāo)準(zhǔn) 本研究采用2016年Sepsis-3標(biāo)準(zhǔn)篩選膿毒癥患者,即膿毒癥為懷疑感染及順序器官衰竭評分(sequential organ failure assessment,SOFA)增加≥2分[4,12,14]。該標(biāo)準(zhǔn)適用于基于數(shù)據(jù)庫的回顧性研究[15]。納入標(biāo)準(zhǔn):膿毒癥患者,符合Sepsis-3標(biāo)準(zhǔn)。排除標(biāo)準(zhǔn):1)年齡≤18歲;2) ICU住院時長<24 h;3)無出入量記錄及數(shù)據(jù)記錄不全;4)二次(或多次)入院;5)心外科監(jiān)護(hù)病房,采納同類研究的排除標(biāo)準(zhǔn)[12]。
3數(shù)據(jù)收集 參考臨床經(jīng)驗(yàn)、已發(fā)表文獻(xiàn)及MIMICⅢ數(shù)據(jù)庫數(shù)據(jù)記錄情況,我們收集了以下7類數(shù)據(jù)。1)患者人口統(tǒng)計學(xué)信息:性別、年齡、種族、入院方式、第一次進(jìn)入ICU類型等;2)進(jìn)入ICU后24 h內(nèi)的生命體征:心率、平均動脈壓、呼吸頻率、氧和指數(shù)等(最大值、最小值、平均值);3)進(jìn)入ICU后24 h內(nèi)的實(shí)驗(yàn)室檢查結(jié)果:如肌酐、尿素氮、血紅蛋白、INR等(最大值、最小值、平均值);4)進(jìn)入ICU后24 h內(nèi)的治療情況:如經(jīng)靜脈補(bǔ)液量、尿量、是否進(jìn)行機(jī)械通氣治療、腎替代治療、利尿藥物的使用等;因部分患者在入ICU24 h內(nèi)使用一種以上的血管活性藥物,我們使用血管活性藥物評分(vasoactiveinotropic score,VIS)體現(xiàn)血管活性藥物使用情況;5)基礎(chǔ)疾?。喝绯溲孕牧λソ?、慢性腎病、慢性阻塞性肺疾病等;6)結(jié)局:ICU住院死亡率;7)進(jìn)入ICU后24 h內(nèi)的各種評分:如SOFA、SAPSⅡ等。
4數(shù)據(jù)處 對所有變量進(jìn)行篩選,缺失值超過40%的變量被排除在外。缺失值插補(bǔ):FiO2的缺失值均使用21%進(jìn)行插補(bǔ),其余缺失值均使用中位數(shù)進(jìn)行插補(bǔ),其中,身高及體質(zhì)量缺失值分別按性別不同使用中位數(shù)進(jìn)行插補(bǔ)。
5模型開發(fā) 我們使用了極度梯度提升(extreme gradient boosting,XGBoost)模型(1.0.0)。XGBoost是當(dāng)前主流的機(jī)器學(xué)習(xí)模型,是基于樹模型的提升算法,廣泛應(yīng)用于疾病發(fā)生的預(yù)測及患者不良結(jié)局預(yù)測等臨床研究中,在多項(xiàng)研究中均證實(shí)XGBoost算法較其他機(jī)器學(xué)習(xí)模型的預(yù)測能力更強(qiáng)[16-17]。我們隨機(jī)抽選數(shù)據(jù)集中70%的病例作為訓(xùn)練集,另30%病例作為驗(yàn)證集。
6統(tǒng)計學(xué)分析 應(yīng)用PostgreSQL數(shù)據(jù)庫系統(tǒng)提取數(shù)據(jù)。統(tǒng)計分析采用SPSS22.0,數(shù)據(jù)清洗、模型構(gòu)建與性能評估則采用 Python(3.6.5)進(jìn)行。所有連續(xù)變量以中位數(shù)(四分位數(shù))表示,計數(shù)資料以例數(shù)(百分比)表示;連續(xù)變量單因素分析采用Mann WhitneyU檢驗(yàn),分類變量單因素分析使用Pearson χ2檢驗(yàn)或Fisher精確檢驗(yàn)。P<0.05為差異有統(tǒng)計學(xué)意義。選擇受試者工作特征(receiver operating characteristic,ROC)曲線作為模型的評價指標(biāo)。使用預(yù)測模型校準(zhǔn)曲線判斷模型的臨床使用價值。
1基線特征 在MIMICⅢ數(shù)據(jù)庫中共篩選出4939例患者進(jìn)入隊(duì)列研究,其中ICU住院期間內(nèi)死亡551例,存活4388例(圖1)。在研究隊(duì)列中,相比存活組,死亡組年齡更高(72.90歲vs65.90歲,P<0.001),SOFA 評分(7分vs4分,P<0.001)及SAPSⅡ評分(53分vs37分,P<0.001)更高;死亡組患者合并癥比例更高,如充血性心力衰竭(28.68%vs24.20%,P=0.022)、慢性阻塞性肺疾病(17.79%vs13.13%,P=0.003)、腦卒中(15.61%vs9.41%,P<0.001)、惡性腫瘤(27.04%vs22.38%,P=0.014)、肝病(13.61%vs10.80%,P=0.048);同時,死亡組入ICU后24 h內(nèi)經(jīng)靜脈輸注液體量更多(3828mLvs2 823mL,P<0.001),排出尿量更少(987 mLvs1 630 mL,P<0.001),接受更多的治療措施,如機(jī)械通氣治療(74.95%vs46.54%,P<0.001)、連續(xù)腎替代治療(8.17%vs3.49%,P<0.001),靜脈輸注氫化可的松(9.62%vs2.83%,P<0.001);死亡組在入ICU后24 h內(nèi)輸注白蛋白(12.70%vs6.02%,P<0.001)及血制品(28.31%vs21.44%,P<0.001)比例更高。見表1。
表1 ICU存活組及死亡組膿毒癥患者基線特征比較Tab. 1 Comparison of baseline characteristics between the two groups in ICU
2XGBoost模型 膿毒癥患者ICU死亡風(fēng)險的XGBoost預(yù)測模型的主要超參數(shù)設(shè)置如下:max_depth=10,樹的棵數(shù)n_estimators=1000,學(xué)習(xí)率learning_rate=0.1,正則化系數(shù)alpha=0、lambda=0。對特征的重要程度進(jìn)行了排序(圖2),排名前10位的分別是入ICU后24 h內(nèi)血乳酸平均值、VIS、是否患有惡性腫瘤、天冬氨酸氨基轉(zhuǎn)移酶(aspartate aminotransferase,AST)、陰離子間隙(anion gap,AG)、是否接受機(jī)械通氣治療、國際標(biāo)準(zhǔn)化比值(international normalized ratio,INR)、格拉斯哥昏迷指數(shù)(Glasgow coma scale,GCS)、重癥監(jiān)護(hù)病房類型、入ICU后24 h內(nèi)血乳酸最大值。
圖2 XGBoost模型中重要特征排名(前20名)Fig.2 Ranking of important features in the model (Top 20)
3模型預(yù)測性能評價 XGBoost模型預(yù)測膿毒癥患者ICU住院死亡風(fēng)險率的ROC曲線下面積(area under the curve,AUC)為0.848,敏感度0.841,特異性0.711,準(zhǔn)確性0.726,F(xiàn)10.621(圖3);模型性能較SAPSⅡ、SOFA、全身炎癥反應(yīng)綜合征(systemic inflammatory response syndrome,SIRS)評分、快速序貫器官功能衰竭評分(quick sequential organ failure assessment,qSOFA)等明顯提升(圖4)。模型的校準(zhǔn)曲線顯示,XGBoost模型的擬合優(yōu)度高于其他各項(xiàng)評分。當(dāng)實(shí)際死亡率<30%或?yàn)?5%~80%時,XGBoost模型會高估膿毒癥患者死亡風(fēng)險;其他情況下,該模型會低估膿毒癥患者死亡風(fēng)險(圖5)。
圖3 XGBoost模型預(yù)測測試集患者死亡風(fēng)險的混淆矩陣Fig.3 Confusion matrix of the model in predicting the risk of death in the test set
圖4 XGBoost模型與各臨床評分的ROC曲線Fig.4 ROC curves of XGBoost model and SAPSⅡ,SOFA,SIRS,qSOFA scores (AUC:area under the curve)
圖5 用于評估XGBoost模型及各評分?jǐn)M合優(yōu)度的校準(zhǔn)曲線Fig.5 Calibration curves for assessing the goodness of fit for each score and XGBoost model
本研究建立了針對膿毒癥患者的XGBoost模型預(yù)測ICU住院死亡風(fēng)險,該模型AUC 0.848,敏感度0.841,特異性0.711,準(zhǔn)確性0.726,較臨床常用評分具有更好的性能。同時,研究進(jìn)一步驗(yàn)證了血管活性藥物的使用及血乳酸水平是預(yù)測膿毒癥患者死亡的顯著特征。
膿毒癥常繼發(fā)于嚴(yán)重創(chuàng)傷、感染、大手術(shù)等,其發(fā)病機(jī)制及臨床表現(xiàn)較復(fù)雜,發(fā)病率及死亡率較高?,F(xiàn)有的臨床評分,如APACHEⅡ、SAPSⅡ、SOFA、qSOFA、SIRS等廣泛應(yīng)用于危重癥患者病情的危險程度評估及不良預(yù)后預(yù)測。但這些評分未能針對膿毒癥患者的特點(diǎn),對于膿毒癥患者死亡率的預(yù)測效果較差(ROC曲線下面積數(shù)值較低)[18-19]。研究表明,在原有危重病評分的基礎(chǔ)上聯(lián)合疾病診斷、治療相關(guān)指標(biāo)或聯(lián)合其他評分可提高對膿毒癥患者不良結(jié)局的預(yù)測效果[20-21]。模型的臨床價值在于其高敏感度和高準(zhǔn)確性,可用于識別不良結(jié)局風(fēng)險較高的患者。近年來,機(jī)器學(xué)習(xí)被不斷應(yīng)用于臨床醫(yī)學(xué)中的疾病發(fā)生及不良結(jié)局的預(yù)測,如膿毒癥患者心臟驟停的預(yù)測[22]、膿毒癥的預(yù)測[23-24]、老年多器官功能不全患者早期死亡風(fēng)險預(yù)測[25]、重癥監(jiān)護(hù)患者再入院結(jié)局預(yù)測等[26]。機(jī)器學(xué)習(xí)模型的預(yù)測效果明顯優(yōu)于危重病患者常用評分。
本研究開發(fā)的XGBoost模型發(fā)現(xiàn),血乳酸水平及VIS位于模型重要特征排名的第1及第2位。Sepsis-3已表明,使用血管活性藥物及血乳酸水平>2mmol/L提示膿毒癥休克的發(fā)生[4]。乳酸是膿毒癥休克患者死亡的獨(dú)立預(yù)測因子,患者死亡率可隨乳酸水平的增高而增高[27-29]。乳酸不僅預(yù)示高死亡風(fēng)險,也可用于指導(dǎo)膿毒癥治療[30-31]。然而現(xiàn)有的評分中,幾乎均未納入該項(xiàng)指標(biāo)。膿毒癥的臨床治療中,常使用血管活性藥物維持循環(huán)功能的穩(wěn)定。在此次研究中我們采用了VIS。VIS最初被作為嬰兒體外循環(huán)術(shù)后發(fā)病率和死亡率的預(yù)測因子[32]。近年來也被用于成人患者及膿毒癥患者[33]。我們引入VIS以期能夠更加客觀地評價血管活性藥物對于膿毒癥患者預(yù)后的影響。同時,我們發(fā)現(xiàn)排名前10位的重要特征涉及凝血系統(tǒng)、呼吸系統(tǒng)、代謝系統(tǒng)、神經(jīng)系統(tǒng)、肝等方面。這與膿毒癥的定義是一致的。
本研究存在一定的局限性。首先,本研究是基于MIMICⅢ數(shù)據(jù)庫進(jìn)行的單中心研究,未進(jìn)行外部數(shù)據(jù)庫的驗(yàn)證,模型的性能需要前瞻性的研究進(jìn)一步驗(yàn)證。其次,XGBoost模型可解釋性不佳,雖然進(jìn)行了特征重要性排序,但是無法評價這些特征與膿毒癥患者ICU住院死亡率的因果關(guān)系。最后,因?yàn)镸IMICⅢ數(shù)據(jù)庫中可用數(shù)據(jù)類型的限制,一些與感染或膿毒癥相關(guān)的指標(biāo)(如降鈣素原、白細(xì)胞介素-6等)無法納入模型中。之后,我們將進(jìn)一步將現(xiàn)有模型與本地數(shù)據(jù)庫相結(jié)合,驗(yàn)證模型性能;調(diào)整參數(shù),提高模型性能,并使模型更好地適應(yīng)本地數(shù)據(jù)庫。同時,延長研究時間窗,建立膿毒癥患者死亡風(fēng)險預(yù)測模型。
綜上所述,我們使用患者的臨床數(shù)據(jù)建立了XGBoost模型用于預(yù)測膿毒癥患者的ICU住院死亡率,該模型的預(yù)測性能優(yōu)于傳統(tǒng)的SOFA、SAPSⅡ、SIRS、qSOFA等評分。未來,經(jīng)過本地數(shù)據(jù)庫的驗(yàn)證及不斷的參數(shù)調(diào)整后,該模型可以更好地輔助臨床醫(yī)生進(jìn)行臨床決策,調(diào)整治療方案,更好地分配醫(yī)療物資,減少不良結(jié)局的發(fā)生??紤]到MIMIC數(shù)據(jù)庫中亞裔人群所占比例較低,我們將在后期的工作中納入本地患者數(shù)據(jù),調(diào)整模型使其更符合亞裔人群的特點(diǎn)。