Research on risk prediction model for unplanned return to ICU based on machine learning algorithm
LI Mengke1, SUN Yan1*, LIU Hongqi2, QU Jingchen1, HOU Ruiqin1
1.Shanxi Medical University, Shanxi 030606 China;2.Second Hospital of Shanxi Medical University
*Corresponding Author" SUN Yan, E?mail: sunyan.sx@163.com
Abstract" Objective:To construct a risk prediction model for unplanned return to intensive care unit(ICU) based on machine learning algorithm.Methods:A total of 3 250 ICU patients from a tertiary grade A hospital in Shanxi province from October 12,2019 to May 21,2023 were selected as the research subjects.A risk prediction model for return to ICU was constructed based on multiple machine learning" algorithms,and the performance of the models was compared.Analyze the importance ranking of each variable based on the best performing model.Results:The light gradient boosting machine had the best comprehensive performance,with area under the receiver operating characteristic curve(AUROC) of 0.996 8,followed by random forest(AUROC=0.996 4),gradient boosting decision tree(AUROC=0.992 4),adaptive boosting(AUROC=0.953 0),and Logistic regression(AUROC=0.814 5).The top 15 variables in the importance ranking based on light gradient boosting machine were K+,blood loss,score of Glasgow Coma Scale,score of Acute Physiology and Chronic Health Evaluation Ⅱ,Na+,CRP,alcohol consumption history,minimum body temperature,ICU stay time,blood creatinine,minimum heart rate,neutrophil count,minimum diastolic blood pressure,bicarbonate,and maximum systolic blood pressure.Conclusion:The risk prediction models for unplanned return to ICU based on machine learning algorithm performs well.Researchers can use this type of algorithm to establish the risk prediction model to identify high?risk patients, provide targeted intervention measures,and improve the quality of healthcare.
Keywords" " intensive care unit,ICU; unplanned; machine learning; risk prediction; model construction; influence factor
摘要" 目的:利用機(jī)器學(xué)習(xí)算法構(gòu)建非計(jì)劃重返重癥監(jiān)護(hù)室(ICU)風(fēng)險(xiǎn)預(yù)測(cè)模型。方法:選取山西省某三級(jí)甲等醫(yī)院2019年10月12日—2023年5月21日收治的3 250例ICU病人為研究對(duì)象,基于多種機(jī)器學(xué)習(xí)算法構(gòu)建非計(jì)劃重返ICU的風(fēng)險(xiǎn)預(yù)測(cè)模型,并對(duì)模型性能進(jìn)行比較。基于性能最佳的模型分析各變量的重要性排名。結(jié)果:輕量梯度提升機(jī)綜合效能最佳,其受試者工作特征曲線(xiàn)下面積(AUROC)=0.996 8,隨后依次為隨機(jī)森林(AUROC=0.996 4)、梯度提升決策樹(shù)(AUROC=0.992 4)、自適應(yīng)算法(AUROC=0.953 0)、Logistic回歸(AUROC=0.814 5)。基于輕量梯度提升機(jī)模型的變量重要性排序前15位分別為鉀離子、失血量、格拉斯哥昏迷評(píng)分法評(píng)分、急性生理學(xué)和慢性健康狀況評(píng)分系統(tǒng)Ⅱ評(píng)分、鈉離子、C?反應(yīng)蛋白、飲酒史、體溫最小值、ICU入住時(shí)長(zhǎng)、血肌酐、心率最小值、中性粒細(xì)胞計(jì)數(shù)、舒張壓最小值、碳酸氫鹽和收縮壓最大值。結(jié)論:基于機(jī)器學(xué)習(xí)算法構(gòu)建的非計(jì)劃重返ICU風(fēng)險(xiǎn)預(yù)測(cè)模型表現(xiàn)良好,研究者可以借助此類(lèi)算法建立風(fēng)險(xiǎn)預(yù)測(cè)模型識(shí)別高風(fēng)險(xiǎn)病人,給予其針對(duì)性的干預(yù)措施,提高醫(yī)療保健質(zhì)量。
關(guān)鍵詞" 重癥監(jiān)護(hù)室(ICU);非計(jì)劃;機(jī)器學(xué)習(xí);風(fēng)險(xiǎn)預(yù)測(cè);模型構(gòu)建;影響因素
doi:10.12102/j.issn.1009-6493.2024.22.004
重癥監(jiān)護(hù)室(intensive care unit,ICU)是隨著醫(yī)療、護(hù)理、康復(fù)等專(zhuān)業(yè)的共同發(fā)展、新型醫(yī)療設(shè)備的誕生和醫(yī)院管理體制的改進(jìn)而出現(xiàn)的一種集現(xiàn)代化醫(yī)療、護(hù)理、康復(fù)技術(shù)為一體的醫(yī)療組織管理形式[1]。重癥監(jiān)護(hù)可以給予病人人力、物力、技術(shù)方面的最佳保障,是守護(hù)其生命的最后一道防線(xiàn)[2]。非計(jì)劃重返ICU的病人是指在同一次住院期間由于各種原因出現(xiàn)并發(fā)癥或病情惡化,需要再次入住ICU接受進(jìn)一步醫(yī)療干預(yù)的病人[3]。已有研究表明,病人的非計(jì)劃重返ICU發(fā)生率存在較大差異,為0.89%~19.80%[4?5]。非計(jì)劃重返ICU發(fā)生率是國(guó)際醫(yī)療質(zhì)量指標(biāo)體系(international quality indicators project,IQIP)評(píng)價(jià)綜合性醫(yī)院醫(yī)療質(zhì)量的指標(biāo)之一,我國(guó)也將ICU病人72 h內(nèi)非計(jì)劃重返ICU發(fā)生率作為評(píng)價(jià)ICU醫(yī)療護(hù)理質(zhì)量的指標(biāo)之一[6]。病人發(fā)生非計(jì)劃重返ICU不僅會(huì)增加其自身的身體、心理和經(jīng)濟(jì)壓力,還會(huì)增加醫(yī)護(hù)人員的工作負(fù)擔(dān),甚至造成醫(yī)療資源的浪費(fèi)[7]。因此,準(zhǔn)確預(yù)測(cè)病人非計(jì)劃重返ICU的風(fēng)險(xiǎn),常態(tài)化監(jiān)測(cè)非計(jì)劃重返ICU發(fā)生率并及早采取預(yù)防措施,對(duì)改善病人護(hù)理質(zhì)量、優(yōu)化醫(yī)療資源管理具有重要意義[8]。目前,大部分研究的非計(jì)劃重返ICU風(fēng)險(xiǎn)預(yù)測(cè)模型是基于Logistic邏輯回歸、ICU常用評(píng)分量表以及病情嚴(yán)重度評(píng)分建立,但其區(qū)分度一般,預(yù)測(cè)能力有限,性能有待提高[9?12]。隨著機(jī)器學(xué)習(xí)技術(shù)的快速發(fā)展,越來(lái)越多的研究開(kāi)始將其應(yīng)用于非計(jì)劃再入ICU風(fēng)險(xiǎn)預(yù)測(cè),并取得了良好成果。Desautels等[13]利用自適應(yīng)算法(adaptive boosting,AdaBoost),基于英國(guó)Addenbrooke醫(yī)院的ICU病人資料構(gòu)建非計(jì)劃重返ICU風(fēng)險(xiǎn)預(yù)測(cè)模型,得到該模型的受試者工作特征曲線(xiàn)下面積(area under the receiver operating characteristic curve,AUROC)為0.709 5,此外,轉(zhuǎn)運(yùn)的穩(wěn)定與負(fù)擔(dān)指數(shù)評(píng)分(Stability and Workload Index for Transfer Score,SWIFT),即病人病情嚴(yán)重度評(píng)分的AUROC為0.608 2,兩者比較結(jié)果顯示,AdaBoost的預(yù)測(cè)性能較優(yōu)。林瑜等[14]基于美國(guó)重癥醫(yī)學(xué)數(shù)據(jù)庫(kù)(Medical Information Mart for Intensive Care,MIMIC)?Ⅲ的病人數(shù)據(jù)構(gòu)建非計(jì)劃重返ICU風(fēng)險(xiǎn)預(yù)測(cè)模型發(fā)現(xiàn),梯度提升決策樹(shù)(gradient boosting decision tree,GBDT)的AUROC為0.858,其預(yù)測(cè)效果優(yōu)于Logistic邏輯回歸(AUROC為0.810)。本研究針對(duì)山西省某三級(jí)甲等醫(yī)院病人的非計(jì)劃重返ICU現(xiàn)狀進(jìn)行調(diào)查,應(yīng)用多種機(jī)器學(xué)習(xí)方法,建立病人非計(jì)劃重返ICU的風(fēng)險(xiǎn)預(yù)測(cè)模型,旨在識(shí)別高危人群并進(jìn)行監(jiān)測(cè),為醫(yī)療決策提供強(qiáng)力支持,幫助管理部門(mén)和臨床科室制定較為完善的醫(yī)療護(hù)理管理規(guī)范,評(píng)價(jià)與改善對(duì)醫(yī)院的醫(yī)療服務(wù)質(zhì)量,降低醫(yī)院非計(jì)劃重返ICU發(fā)生率,減少醫(yī)療成本[6]。
1" 對(duì)象與方法
1.1 研究對(duì)象
選取山西省某三級(jí)甲等醫(yī)院2019年10月12日—2023年5月21日收治的3 250例病人為研究對(duì)象。納入標(biāo)準(zhǔn):1)年齡16~90歲;2)入住ICU。排除標(biāo)準(zhǔn):1)離院方式為轉(zhuǎn)院;2)在初次住院期間因死亡、器官捐獻(xiàn)、放棄治療離開(kāi)ICU;3)原始數(shù)據(jù)缺失率gt;30%。3 250例病人中僅1次進(jìn)入ICU的病人有3 203例,多次進(jìn)入ICU的有47例。
1.2 資料收集方法
通過(guò)醫(yī)院信息管理系統(tǒng)(HIS)和科研平臺(tái)收集病人的個(gè)人數(shù)據(jù)和臨床數(shù)據(jù)進(jìn)行數(shù)據(jù)分析與模型構(gòu)建,為了確保預(yù)測(cè)效果,在收集病人資料時(shí)盡可能納入了較多的臨床因素作為模型預(yù)測(cè)變量,對(duì)于在同一次住院期間多次入住ICU的病人,僅納入其第1次入住ICU的記錄。實(shí)驗(yàn)數(shù)據(jù)均已完成脫敏處理。1)一般資料:包括年齡、性別、醫(yī)保類(lèi)型、婚姻狀況、ICU入住時(shí)長(zhǎng)。2)生命體征:選擇病人出ICU前24 h內(nèi)生命體征的最大值、最小值以及平均值,包括呼吸頻率、心率、脈搏、舒張壓、收縮壓、體溫、血糖。3)既往史:高血壓史、糖尿病史、冠心病史、慢性阻塞性肺疾?。–OPD)史、肝硬化史、輸血史、過(guò)敏史、吸煙史、飲酒史。4)手術(shù)情況:手術(shù)等級(jí)、美國(guó)麻醉醫(yī)師協(xié)會(huì)(ASA)分級(jí)、手術(shù)時(shí)長(zhǎng)、失血量、病人是否使用機(jī)械通氣、機(jī)械通氣時(shí)長(zhǎng)、病人是否氣管切開(kāi)。5)病人入科診斷:心力衰竭、心律失常、瓣膜疾病、肺循環(huán)疾病、周?chē)懿?、高血壓、癱瘓、其他神經(jīng)疾病、慢性肺病、無(wú)合并癥的糖尿病、有合并癥的糖尿病、甲狀腺功能減退、腎衰竭、肝病、潰瘍、淋巴瘤、轉(zhuǎn)移癌、未轉(zhuǎn)移腫瘤、類(lèi)風(fēng)濕性關(guān)節(jié)炎、凝血病、電解質(zhì)紊亂、失血性貧血、抑郁癥、精神病。6)實(shí)驗(yàn)室指標(biāo):收集病人首次轉(zhuǎn)出ICU前最后1次檢驗(yàn)結(jié)果,包括降鈣素原(PCT)、腫瘤壞死因子α(TNF?α)、糖化血清蛋白(GSP)、血清白蛋白(ALB)、血清總蛋白(TP)、血紅蛋白(Hb)、血肌酐(Cr)、白細(xì)胞計(jì)數(shù)(WBC)、中性粒細(xì)胞計(jì)數(shù)(Neut)、血小板計(jì)數(shù)(PLT)、C?反應(yīng)蛋白(CRP)、凝血酶原時(shí)間(PT)、嗜酸性粒細(xì)胞計(jì)數(shù)(Eos)、動(dòng)脈血氧分壓(PaO2)、二氧化碳分壓(PaCO2)、陰離子間隙(AG)、碳酸氫鹽、氯離子(Cl-)、紅細(xì)胞比容(Hct)、鉀離子(K+)、鈉離子(Na+)、尿素氮(BUN)、動(dòng)脈血氧飽和度(SaO2)、氧合指數(shù)(OI)、尿量、總膽紅素(TBIL)、間接膽紅素(IBIL)、直接膽紅素(DBIL)。7)其他:急性生理學(xué)和慢性健康狀況評(píng)分系統(tǒng)Ⅱ(Acute Physiology and Chronic Health Evaluation,APACHE Ⅱ)評(píng)分、格拉斯哥昏迷評(píng)分法(Glasgow Coma Scale,GCS)評(píng)分、序貫器官衰竭評(píng)估評(píng)分(Sequential Organ Failure Assessment Score,SOFA)。
1.3 數(shù)據(jù)預(yù)處理方法
對(duì)采集到的樣本數(shù)據(jù)指標(biāo)缺失情況進(jìn)行統(tǒng)計(jì)分析,結(jié)果顯示,TNF?α、GSP、PaO2、PaCO2、SaO2、OI、BUN、AG和SOFA評(píng)分?jǐn)?shù)據(jù)缺失率gt;80%;ASA分級(jí)、脈搏、CRP、GCS評(píng)分?jǐn)?shù)據(jù)缺失率為gt;50%~80%;PCT、TP、碳酸氫鹽、膽紅素、APACHE Ⅱ評(píng)分?jǐn)?shù)據(jù)缺失率為gt;30%~50%。但考慮到上述指標(biāo)對(duì)模型建立的重要性,直接刪除所有存在數(shù)據(jù)缺失的指標(biāo)可能導(dǎo)致樣本代表性變差。因此,本研究選擇僅直接刪除數(shù)據(jù)缺失率gt;80%的指標(biāo)。 對(duì)于非隨機(jī)缺失情況,考慮到采用均值或中位數(shù)的方法簡(jiǎn)單對(duì)其進(jìn)行填充可能破壞樣本數(shù)據(jù)的隨機(jī)性并削弱信息量,因此,采用線(xiàn)性插值方式對(duì)數(shù)據(jù)進(jìn)行填充,進(jìn)而保證模型結(jié)果更加準(zhǔn)確、可靠。
本研究中非計(jì)劃重返ICU病人相對(duì)較少,未發(fā)生非計(jì)劃重返ICU的病人較多,數(shù)據(jù)存在不平衡,已有研究中,常采用欠采樣(ENN)和過(guò)采樣(SMOTE)進(jìn)行處理[15],其中,欠采樣是通過(guò)減少多數(shù)類(lèi)樣本數(shù)量的方法平衡數(shù)據(jù)集,以使少數(shù)類(lèi)樣本與多數(shù)類(lèi)樣本的比例更為接近,但刪除多數(shù)類(lèi)樣本量可能削弱模型的學(xué)習(xí)能力,使用欠采樣處理數(shù)據(jù)不平衡問(wèn)題可能導(dǎo)致信息丟失[16];過(guò)采樣是通過(guò)復(fù)制或合成的方法增加少數(shù)類(lèi)樣本數(shù)量,以平衡多數(shù)類(lèi)樣本與少數(shù)類(lèi)樣本比例,但復(fù)制或合成的樣本可能引入冗余信息,導(dǎo)致模型產(chǎn)生過(guò)擬合問(wèn)題[17]。為了應(yīng)對(duì)欠采樣和過(guò)采樣方法在模型預(yù)測(cè)中的局限性,本研究采用過(guò)采樣與欠采樣結(jié)合的方法(SMOTEENN)處理數(shù)據(jù)不平衡的情況,該方法通過(guò)合成少數(shù)類(lèi)樣本和減少多數(shù)類(lèi)樣本的方式平衡數(shù)據(jù)集,結(jié)合了過(guò)采樣和欠采樣的優(yōu)勢(shì),另外,SMOTEENN還能夠處理樣本間的噪聲和邊界樣本,從而進(jìn)一步增強(qiáng)模型的魯棒性和泛化能力[18]。
1.4 風(fēng)險(xiǎn)預(yù)測(cè)模型的選擇
1.4.1 Logistic回歸
Logistic回歸是一種常用的分類(lèi)機(jī)器學(xué)習(xí)算法[19],其原理是假設(shè)輸入變量與輸出變量間存在線(xiàn)性關(guān)系,并利用邏輯函數(shù)將線(xiàn)性輸出轉(zhuǎn)化為0~1的概率值,該模型因其簡(jiǎn)單、有效的特點(diǎn)和良好的可解釋性,常用于二分類(lèi)問(wèn)題研究。
1.4.2 隨機(jī)森林(random forest,RF)
隨機(jī)森林是一種在分類(lèi)和回歸任務(wù)中被廣泛應(yīng)用的集成學(xué)習(xí)模型[20],通過(guò)裝袋法(bagging)并行式地建立多個(gè)決策樹(shù)作為基礎(chǔ)分類(lèi)器。在訓(xùn)練過(guò)程中,采用隨機(jī)抽樣和變量選擇的策略,生成多個(gè)不同的訓(xùn)練子集,并為每個(gè)子集構(gòu)建1個(gè)決策樹(shù),每個(gè)決策樹(shù)使用特征變量進(jìn)行節(jié)點(diǎn)劃分;在節(jié)點(diǎn)進(jìn)行劃分時(shí),隨機(jī)森林模型從總變量集中隨機(jī)選擇1個(gè)變量子集,并在該子集中采用分類(lèi)與回歸樹(shù)(classification and regression tree,CART)算法,選擇信息增益最大或基尼系數(shù)最小時(shí)的變量作為最佳變量進(jìn)行劃分;最后,通過(guò)集成多個(gè)決策樹(shù)的預(yù)測(cè)結(jié)果做出最終預(yù)測(cè)。
1.4.3 梯度提升決策樹(shù)
梯度提升決策樹(shù)是一種經(jīng)典的決策樹(shù)模型算法[21],屬于集成學(xué)習(xí)中的Boosting方法,以CART作為基礎(chǔ)分類(lèi)器,并將一系列CART模型串聯(lián)起來(lái)形成集成學(xué)習(xí)模型。該模型最早由Friedman于1999年提出,并于2001年得以進(jìn)一步改進(jìn)和推廣,與普通的提升樹(shù)算法相比,梯度提升決策樹(shù)在計(jì)算殘差時(shí)采用了損失函數(shù)的梯度方向,其主要思想是通過(guò)迭代訓(xùn)練多棵回歸樹(shù),并將他們相加得到最終的模型。每棵樹(shù)都在之前所有樹(shù)的預(yù)測(cè)結(jié)果的殘差基礎(chǔ)上擬合當(dāng)前殘差,進(jìn)而逐步減小殘差值,經(jīng)過(guò)不斷迭代,得到最終的預(yù)測(cè)結(jié)果。
1.4.4 輕量梯度提升機(jī)(light gradient boosting machine,Light GBM)
輕量梯度提升機(jī)是一種基于梯度提升決策樹(shù)的機(jī)器學(xué)習(xí)算法[22],旨在高效構(gòu)建和訓(xùn)練模型,適用于大規(guī)模和高維數(shù)據(jù)集。其主要思路是通過(guò)梯度提升的方式逐步優(yōu)化決策樹(shù)的結(jié)構(gòu),從而提高整體模型的性能。該模型算法采用了一系列創(chuàng)新技術(shù)以增強(qiáng)訓(xùn)練效率和模型準(zhǔn)確性,其中的關(guān)鍵技術(shù)是基于直方圖的決策樹(shù)分割算法。此外,輕量梯度提升機(jī)還利用并行化算法結(jié)合水平并行和垂直生長(zhǎng)的方法,在模型訓(xùn)練過(guò)程中提高計(jì)算效率。
1.4.5 自適應(yīng)算法
自適應(yīng)算法是一種集成學(xué)習(xí)方法[23],由Freund等于1995年提出,用于提高弱分類(lèi)器的性能,其基本思想是通過(guò)關(guān)注分類(lèi)錯(cuò)誤的樣本,并逐步調(diào)整錯(cuò)誤樣本的權(quán)重以提高分類(lèi)準(zhǔn)確性,在每輪迭代中,自適應(yīng)算法會(huì)根據(jù)上一輪的分類(lèi)結(jié)果調(diào)整樣本權(quán)重,對(duì)分類(lèi)錯(cuò)誤的樣本賦予更高權(quán)重,以便在下一輪中更加關(guān)注這些錯(cuò)誤樣本。
1.5 統(tǒng)計(jì)學(xué)方法
使用Excel軟件對(duì)數(shù)據(jù)進(jìn)行初步的清洗和篩選,對(duì)病人一般資料進(jìn)行描述,定性資料以頻數(shù)及百分比(%)表示;符合正態(tài)分布的定量資料以均數(shù)±標(biāo)準(zhǔn)差(x±s)表示,組間比較采用t檢驗(yàn);不符合正態(tài)分布的定量資料以中位數(shù)(四分位數(shù))[M(P25,P75)]表示,組間比較采用秩和檢驗(yàn)。采用Python 3.8對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,利用輕量梯度提升機(jī)、自適應(yīng)算法、梯度提升決策樹(shù)、隨機(jī)森林和Logistic回歸構(gòu)建風(fēng)險(xiǎn)預(yù)測(cè)模型,為確保模型具有較好的泛化能力和預(yù)測(cè)性能,將數(shù)據(jù)集中的全部數(shù)據(jù)進(jìn)行隨機(jī)抽樣,將其中的80%劃分為訓(xùn)練集,用于構(gòu)建病人非計(jì)劃重返ICU的風(fēng)險(xiǎn)預(yù)測(cè)模型;剩余20%劃分為測(cè)試集,用于進(jìn)行內(nèi)部驗(yàn)證。使用五折交叉驗(yàn)證法訓(xùn)練和驗(yàn)證模型的判別能力。Brier評(píng)分、平均絕對(duì)誤差(mean absolute error,MAE)和Hosmer?Lemeshow統(tǒng)計(jì)校準(zhǔn)量能以穩(wěn)健的方式進(jìn)一步闡明模型的整體性能,但Hosmer?Lemeshow統(tǒng)計(jì)更多用于評(píng)估二元Logistic回歸模型的擬合優(yōu)度,因此,本研究基于陽(yáng)性預(yù)測(cè)值、陰性預(yù)測(cè)值、假陽(yáng)性率、假陰性率、F1分?jǐn)?shù)、Brier評(píng)分、AUROC和MAE對(duì)模型性能進(jìn)行評(píng)估[24],其中,陽(yáng)性預(yù)測(cè)值、陰性預(yù)測(cè)值、假陽(yáng)性率、假陰性率用于評(píng)估二分類(lèi)模型在預(yù)測(cè)疾病時(shí)的準(zhǔn)確性和誤判率,是臨床建模的常用評(píng)估指標(biāo);F1分?jǐn)?shù)可綜合考慮模型的精確率和召回率,尤其是評(píng)估基于不平衡數(shù)據(jù)構(gòu)建的模型時(shí)有更強(qiáng)的穩(wěn)健性;MAE衡量回歸模型預(yù)測(cè)結(jié)果與實(shí)際觀(guān)測(cè)值間差異的平均大小;Brier評(píng)分用于衡量模型對(duì)整體概率預(yù)測(cè)的準(zhǔn)確性;AUROC評(píng)估二分類(lèi)模型性能,可評(píng)估模型的對(duì)比度、排序能力和魯棒性[25]。
2" 結(jié)果
2.1 病人一般資料
3 250例ICU病人中,47例病人在轉(zhuǎn)出ICU后的72 h內(nèi)重返ICU,病人非計(jì)劃重返ICU發(fā)生率為1.45%。對(duì)病人一般資料中無(wú)缺失值的項(xiàng)目進(jìn)行描述性分析,見(jiàn)表1。
2.2 模型性能評(píng)估
對(duì)5種模型預(yù)測(cè)病人非計(jì)劃重返ICU的性能進(jìn)行評(píng)估,結(jié)果見(jiàn)表2。輕量梯度提升機(jī)呈現(xiàn)出了最佳的泛化能力和區(qū)分度(AUROC=0.996 8),隨機(jī)森林(AUROC=0.996 4)次之,之后依次為梯度提升決策樹(shù)(AUROC=0.992 4)、自適應(yīng)算法(AUROC=0.953 0)、Logistic回歸(AUROC=0.814 5)。整體來(lái)看,輕量梯度提升機(jī)表現(xiàn)最優(yōu),其次為隨機(jī)森林,其稍好于梯度提升決策樹(shù),自適應(yīng)算法較差,Logistic回歸的預(yù)測(cè)效果更差。
2.3 基于輕量梯度提升機(jī)模型的變量重要性排序
5種風(fēng)險(xiǎn)預(yù)測(cè)模型中,預(yù)測(cè)性能最佳的是輕量梯度提升機(jī)模型,該模型對(duì)預(yù)測(cè)變量的重要性排序見(jiàn)圖1,排名靠前的15個(gè)影響指標(biāo)依次為:鉀離子、失血量、GCS評(píng)分、APACHEⅡ評(píng)分、鈉離子、CRP、飲酒史、體溫最小值、ICU入住時(shí)長(zhǎng)、血肌酐、心率最小值、中性粒細(xì)胞計(jì)數(shù)、舒張壓最小值、碳酸氫鹽和收縮壓最大值。可見(jiàn),病人非計(jì)劃重返ICU的影響因素多樣,涵蓋了一般資料、生命體征、既往史、手術(shù)情況和實(shí)驗(yàn)室指標(biāo)等方面。
2.4 重返ICU組與未重返ICU組病人基于輕量梯度提升機(jī)的重要性排序前15位變量情況比較(見(jiàn)表3)
3" 討論
3.1 機(jī)器學(xué)習(xí)模型效能
本研究利用機(jī)器學(xué)習(xí)算法建立了病人非計(jì)劃重返ICU的風(fēng)險(xiǎn)預(yù)測(cè)模型,結(jié)果表明,與其他4種機(jī)器學(xué)習(xí)模型相比,輕量梯度提升機(jī)不僅在預(yù)測(cè)陽(yáng)性和陰性樣本方面具有較高的準(zhǔn)確性,在假陽(yáng)性率和假陰性率方面也表現(xiàn)較好,在臨床風(fēng)險(xiǎn)預(yù)測(cè)模型的建立中展現(xiàn)出最佳的綜合性能。此外,其Brier評(píng)分也較低,表明該算法在概率預(yù)測(cè)方面具有較高的準(zhǔn)確性和可靠性。5種模型中,Logistic回歸的預(yù)測(cè)效果最差,與以往研究結(jié)果[26]相似。表明Logistic回歸在構(gòu)建臨床風(fēng)險(xiǎn)預(yù)測(cè)模型中可能無(wú)法很好地捕捉到數(shù)據(jù)中的復(fù)雜關(guān)系,導(dǎo)致其性能相對(duì)較低。但應(yīng)注意,在實(shí)際情況中,各模型可能因選取對(duì)象、變量選擇、參數(shù)調(diào)整等因素而存在不同表現(xiàn)。提示在實(shí)際應(yīng)用中,應(yīng)根據(jù)實(shí)驗(yàn)的具體需求和研究所需數(shù)據(jù)特點(diǎn)選擇適合的算法建立風(fēng)險(xiǎn)預(yù)測(cè)模型,應(yīng)進(jìn)行充分的數(shù)據(jù)探索和模型評(píng)估,以確保所選算法在特定問(wèn)題上的性能和可解釋性達(dá)到要求。
3.2 非計(jì)劃重返ICU的重要影響因素
與傳統(tǒng)的機(jī)器學(xué)習(xí)模型相比,輕量梯度提升機(jī)在訓(xùn)練過(guò)程中可以計(jì)算每個(gè)變量的重要性得分,可以顯示每個(gè)變量對(duì)模型的貢獻(xiàn)程度,具有很好的可解釋性。本研究基于輕量梯度提升機(jī)進(jìn)行變量重要性分析,結(jié)果顯示,鉀離子、失血量、GCS評(píng)分、APACHEⅡ評(píng)分、鈉離子、CRP、飲酒史、體溫最小值、ICU入住時(shí)長(zhǎng)、血肌酐、心率最小值、中性粒細(xì)胞計(jì)數(shù)、舒張壓最小值、碳酸氫鹽和收縮壓最大值是病人非計(jì)劃重返ICU的重要影響因素。鉀離子和鈉離子是人體內(nèi)重要的電解質(zhì)離子,其濃度異??赡軐?dǎo)致較嚴(yán)重的電解質(zhì)紊亂;術(shù)中嚴(yán)重失血會(huì)造成病人血容量不足,進(jìn)而引發(fā)多種并發(fā)癥,導(dǎo)致病人需要再次進(jìn)入ICU接受監(jiān)測(cè)和治療;GCS評(píng)分和APACHEⅡ評(píng)分均為評(píng)估ICU病人病情嚴(yán)重程度和預(yù)后的常用指標(biāo);CRP為急性炎癥指標(biāo),血肌酐為衡量腎臟功能的常用指標(biāo),中性粒細(xì)胞為免疫系統(tǒng)中的一種白細(xì)胞,碳酸氫鹽是重要的血液酸堿平衡指標(biāo)之一,這些實(shí)驗(yàn)室指標(biāo)為評(píng)估病人是否發(fā)生非計(jì)劃再入ICU提供了線(xiàn)索;此外,病人的體溫、舒張壓、收縮壓、心率等相關(guān)生命體征以及飲酒史也是評(píng)估病人是否發(fā)生非計(jì)劃再入ICU的參考因素??梢?jiàn),病人實(shí)驗(yàn)室指標(biāo)和生命體征相關(guān)指標(biāo)在預(yù)測(cè)病人非計(jì)劃再入ICU中扮演著重要角色。本研究中,變量重要性評(píng)分排名靠前的變量大部分在重返ICU組和未重返ICU組差異不明顯,提示單一變量影響可能不明顯,需與其他變量組合以增強(qiáng)預(yù)測(cè)能力。此外,體溫最小值、心率最小值、舒張壓最小值和收縮壓最大值對(duì)風(fēng)險(xiǎn)預(yù)測(cè)模型有較大貢獻(xiàn),或許可為未來(lái)的相關(guān)研究提供參考。
3.3 非計(jì)劃重返ICU的預(yù)防建議
1)要關(guān)注手術(shù)病人術(shù)中失血量,確保及時(shí)補(bǔ)充液體和紅細(xì)胞等以維持循環(huán)功能,避免因失血過(guò)多引起并發(fā)癥。2)ICU入住時(shí)長(zhǎng)較短的病人更易發(fā)生非計(jì)劃重返ICU,可能與病人在未達(dá)到轉(zhuǎn)出指標(biāo)時(shí)過(guò)早轉(zhuǎn)出ICU,在普通病房較難得到全面照顧有關(guān),故對(duì)于病人轉(zhuǎn)出ICU的指標(biāo)要嚴(yán)格把控。3)對(duì)于長(zhǎng)期飲酒或酗酒的病人,應(yīng)要求戒酒戒煙,以降低非計(jì)劃重返ICU風(fēng)險(xiǎn)。4)在ICU治療過(guò)程中,需密切關(guān)注病人的意識(shí)狀態(tài)、生命體征和實(shí)驗(yàn)室檢查指標(biāo),隨時(shí)調(diào)整治療方案和藥物使用劑量。5)要加強(qiáng)手衛(wèi)生,合理使用抗生素,及時(shí)處理傷口,降低感染和炎癥的發(fā)生風(fēng)險(xiǎn)。6)ICU病人病情復(fù)雜,影響非計(jì)劃重返ICU的因素較多,單獨(dú)使用1項(xiàng)指標(biāo)無(wú)法準(zhǔn)確預(yù)測(cè)結(jié)果,可嘗試通過(guò)計(jì)算變量間的相關(guān)系數(shù)或者使用機(jī)器學(xué)習(xí)算法對(duì)變量間的復(fù)雜相互作用關(guān)系進(jìn)行探究,以此獲得更高的準(zhǔn)確率,為醫(yī)護(hù)人員提供更全面、精確的信息,從而幫助其做出更科學(xué)的治療和護(hù)理決策。
3.4 研究的局限性
1)可能導(dǎo)致病人非計(jì)劃重返ICU的風(fēng)險(xiǎn)因素較多,但臨床可獲得的數(shù)據(jù)有限,且存在一定程度的數(shù)據(jù)缺失,本研究經(jīng)過(guò)對(duì)缺失值的處理,最終納入了部分指標(biāo)進(jìn)行預(yù)測(cè)研究,仍有因素未得到充分利用,尚不完善。2)數(shù)據(jù)來(lái)源于不同的臨床數(shù)據(jù)庫(kù),其涵蓋的病人信息可能存在差異,導(dǎo)致研究中納入的樣本量相對(duì)較少,從而影響風(fēng)險(xiǎn)預(yù)測(cè)模型的可靠性和泛化能力。
4" 小結(jié)
本研究比較了5種風(fēng)險(xiǎn)預(yù)測(cè)模型預(yù)測(cè)非計(jì)劃重返ICU的性能,模型表現(xiàn)良好,研究者可以借助此類(lèi)算法建立的風(fēng)險(xiǎn)預(yù)測(cè)模型識(shí)別高風(fēng)險(xiǎn)病人,給予其針對(duì)性的干預(yù)措施,提高醫(yī)療保健質(zhì)量。
參考文獻(xiàn):
[1]" 中華醫(yī)學(xué)會(huì)重癥醫(yī)學(xué)分會(huì).《中國(guó)重癥加強(qiáng)治療病房(ICU)建設(shè)與管理指南》(2006)[J].中國(guó)危重病急救醫(yī)學(xué),2006(7):387-388.
Intensive Care Medicine Branch of the Chinese Medical Association.Guideline of intensive care unit design and management of China(2006)[J].Chinese Critical Care Medicine,2006(7):387-388.
[2]" 何嵐,鄭美雁.誰(shuí)是患者利益的最佳守護(hù)者——醫(yī)療服務(wù)決策權(quán)的配置與優(yōu)化探析[J].醫(yī)學(xué)與哲學(xué),2019,40(18):7-10;17.
HE L,ZHENG M Y.Who is the best guardian of the interests of patients:analysis on the allocation and optimization of the right of medical decision-making[J].Medicine amp; Philosophy,2019,40(18):7-10;17.
[3]" 謝汶倚,張小維,萬(wàn)小亮,等.呼吸重癥患者非計(jì)劃重返ICU的發(fā)生現(xiàn)狀及危險(xiǎn)因素分析[J].西南國(guó)防醫(yī)藥,2021,31(5):381-386.
XIE W Y,ZHANG X W,WAN X L,et al.Analysis on incidence and risk factors for unplanned ICU readmission in critical patients with severe respiratory diseases[J].Medical Journal of National Defending Forces in Southwest China,2021,31(5):381-386.
[4]" 彭思意,魏濤,李旭英,等.重返ICU風(fēng)險(xiǎn)預(yù)測(cè)模型的研究進(jìn)展[J].中國(guó)護(hù)理管理,2021,21(11):1730-1735.
PENG S Y,WEI T,LI X Y,et al.Predictive models of intensive care unit readmissions:a literature review[J].Chinese Nursing Management,2021,21(11):1730-1735.
[5]" 米元元,黃海燕,陳卉,等.重癥患者非計(jì)劃重返ICU安全管理方案的建立及效果評(píng)價(jià)[J].護(hù)理學(xué)報(bào),2022,29(6):15-19.
MI Y Y,HUANG H Y,CHEN H,et al.Construction and evaluation of safety management project for unplanned ICU readmission[J].Journal of Nursing(China),2022,29(6):15-19.
[6]" 衛(wèi)生部辦公廳.三級(jí)綜合醫(yī)院醫(yī)療質(zhì)量管理與控制指標(biāo)(2011版)[EB/OL].(2011-01-24)[2024-01-05].https://www.gov.cn/gzdt/2011-01/27/content_1793358.htm.
General Office of the Ministry of Health. Medical quality management and control indicators for third level comprehensive hospitals (2011 edition) [EB/OL].(2011-01-24)[2024-01-05].https://www.gov.cn/gzdt/2011-01/27/content_1793358.htm.
[7]" COOPER L M,LINDE-ZWIRBLE W T.Medicare intensive care unit use:analysis of incidence,cost,and payment[J].Crit Care Med,2004,32(11):2247-2253.
[8]" AL-JAGHBEER M J,TEKWANI S S,GUNN S R,et al.Incidence and etiology of potentially preventable ICU readmissions[J].Crit Care Med,2016,44(9):1704-1709.
[9]" JU J B,ZHANG P X,WANG Y L,et al.A clinical nomogram predicting unplanned intensive care unit admission after hip fracture surgery[J].Surgery,2021,170(1):291-297.
[10]" FIALHO A S,CISMONDI F,VIEIRA S M,et al.Data mining using clinical physiology at discharge to predict ICU readmissions[J].Expert Systems with Applications,2012,39(18):13158-13165.
[11]" HARIBHAKTI N,AGARWAL P,VIDA J,et al.A simple scoring tool to predict medical intensive care unit readmissions based on both patient and process factors[J].J Gen Intern Med,2021,36(4):901-907.
[12]" OH T K,SONG I A,JEON Y T.Impact of Glasgow Coma Scale scores on unplanned intensive care unit readmissions among surgical patients[J].Ann Transl Med,2019,7(20):520.
[13]" DESAUTELS T,DAS R,CALVERT J,et al.Prediction of early unplanned intensive care unit readmission in a UK tertiary care hospital:a cross-sectional machine learning approach[J].BMJ Open,2017,7(9):e017199.
[14]" 林瑜,吳靜依,藺軻,等.基于集成學(xué)習(xí)模型預(yù)測(cè)重癥患者再入重癥監(jiān)護(hù)病房的風(fēng)險(xiǎn)[J].北京大學(xué)學(xué)報(bào)(醫(yī)學(xué)版),2021,53(3):566-572.
LIN Y,WU J Y,LIN K,et al.Prediction of intensive care unit readmission for critically ill patients based on ensemble learning[J].Journal of Peking University(Health Sciences),2021,53(3): 566-572.
[15]" 李艷霞,柴毅,胡友強(qiáng),等.不平衡數(shù)據(jù)分類(lèi)方法綜述[J].控制與決策,2019,34(4):673-688.
LI Y X,CHAI Y,HU Y Q,et al.Review of imbalanced data classification methods[J].Control and Decision,2019,34(4):673-688.
[16]" CHAWLA N,JAPKOWICZ N,KOTCZ A.Editorial:special issue on learning from imbalanced data sets[J].Sigkdd Explor,2004,6:1-6.
[17]" CHAWLA N V,BOWYER K W,HALL L O,et al.SMOTE:synthetic minority over-sampling technique[J].AI Access Foundation,2002,16:321-357.
[18]" 嚴(yán)遠(yuǎn)亭,戴濤,張以文,等.鄰域感知的不平衡數(shù)據(jù)集過(guò)采樣方法[J].小型微型計(jì)算機(jī)系統(tǒng),2021,42(7):1360-1370.
YAN Y T,DAI T,ZHANG Y W,et al.Neighborhood-aware imbalanced oversampling[J].Journal of Chinese Computer Systems,2021,42(7):1360-1370.
[19]" NICK T G,CAMPBELL K M.Logistic regression[J].Methods Mol Biol,2007,404:273-301.
[20]" BREIMAN L.Random forests[J].Machine Learning,2001,45(1):5-32.
[21]" FRIEDMAN J H.Greedy function approximation:a gradient boosting machine[J].The Annals of Statistics,2001,29(5):1189-1232.
[22]" MENG Q.Light GBM:a highly efficient gradient boosting decision tree:neural information processing systems[M].New York:Curran Associates Inc,2017:1.
[23]" 王海川,張立明.一種新的Adaboost快速訓(xùn)練算法[J].復(fù)旦學(xué)報(bào)(自然科學(xué)版),2004,43(1):27-33.
WANG H C,ZHANG L M.A novel fast training algorithm for Adaboost[J].Journal of Fudan University(Natural Science),2004,43(1):27-33.
[24]" LEISMAN D E,HARHAY M O,LEDERER D J,et al.Development and reporting of prediction models:guidance for authors from editors of respiratory,sleep,and critical care journals[J].Crit Care Med,2020,48(5):623-633.
[25]" STREINER D L,CAIRNEY J.What's under the ROC?An introduction to receiver operating characteristics curves[J].Can J Psychiatry,2007,52(2):121-128.
[26]" PAKBIN A,RAFI P,HURLEY N,et al.Prediction of ICU readmissions using data at patient discharge[J].Annu Int Conf IEEE Eng Med Biol Soc,2018,2018:4932-4935.
(收稿日期:2024-01-06;修回日期:2024-10-28)
(本文編輯 陳瓊)