国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于隨機(jī)森林預(yù)測(cè)國(guó)內(nèi)外ICU患者的死亡風(fēng)險(xiǎn)比較研究

2020-03-28 17:32:54許芳芳胡江陳維仁周敏
關(guān)鍵詞:樣本數(shù)據(jù)庫(kù)醫(yī)療

許芳芳,胡江,陳維仁,周敏

(1.杭州脈興醫(yī)療科技有限公司,浙江 杭州;2.浙江大學(xué)醫(yī)學(xué)院附屬第一醫(yī)院信息中心,浙江 杭州)

1 背景介紹

重癥患者或重大手術(shù)后的患者在重癥監(jiān)護(hù)室(ICU)內(nèi)通過(guò)多種生命支持系統(tǒng)以維持生理功能[1]?;颊咴贗CU內(nèi)會(huì)被頻繁持續(xù)的記錄生命體征和實(shí)驗(yàn)室測(cè)量等多種數(shù)據(jù)。由于高頻次的數(shù)據(jù)采集,數(shù)十年來(lái)ICU內(nèi)已經(jīng)形成了一個(gè)巨大的臨床醫(yī)療數(shù)據(jù)信息庫(kù),這儼然是一種重要的、可被利用的醫(yī)療資源。

近年來(lái),人工智能在醫(yī)學(xué)領(lǐng)域的發(fā)展非??欤貏e是在精準(zhǔn)醫(yī)學(xué)方面,隨著人工智能在理論研究和實(shí)際應(yīng)用方面取得重大進(jìn)展,大數(shù)據(jù)人工智能將在精準(zhǔn)醫(yī)學(xué)領(lǐng)域發(fā)揮核心作用。

其實(shí),現(xiàn)今已經(jīng)有許多標(biāo)準(zhǔn)化數(shù)據(jù)庫(kù)被開(kāi)發(fā)出來(lái)供公眾訪問(wèn)和使用。例如重癥監(jiān)護(hù)醫(yī)療信息中心(Medical Information Mart for Intensive Care-Ⅲ,MIMIC-Ⅲ),由麻省理工學(xué)院計(jì)算生理學(xué)研究所,Beth Israel Deaconess醫(yī)學(xué)中心(BIDMC)和飛利浦醫(yī)學(xué)建立。MIMIC-Ⅲ數(shù)據(jù)庫(kù)包含了與2001年至2012年期間入住重癥監(jiān)護(hù)病房的成年(16歲或以上)患者的53,423例住院記錄相關(guān)的數(shù)據(jù)[2]。此外,它還包含2001年至2008年間收治的7870名新生兒的數(shù)據(jù)[2]。具體而言,MIMIC-Ⅲ數(shù)據(jù)庫(kù)包括來(lái)自38,597名成人和7,870名新生兒的人口統(tǒng)計(jì)信息、實(shí)驗(yàn)室測(cè)試數(shù)據(jù)和生命體征數(shù)據(jù)庫(kù)以及他們的臨床診斷和治療數(shù)據(jù)等。

在國(guó)內(nèi),浙江大學(xué)第一附屬醫(yī)院(First Affiliated Hospital of Zhejiang University,F(xiàn)AHZU)從本世紀(jì)初開(kāi)始,在總結(jié)與分析了眾多醫(yī)院信息化建設(shè)的基礎(chǔ)上,提煉出醫(yī)院的管理理論,開(kāi)發(fā)了全新的以患者醫(yī)療信息為中心,加強(qiáng)醫(yī)院管理為核心的新一代的HIS系統(tǒng),從而優(yōu)化了醫(yī)院的信息存儲(chǔ)與業(yè)務(wù)流程[3]。在醫(yī)院的發(fā)展過(guò)程中,持續(xù)開(kāi)發(fā)了基于HIS的信息系統(tǒng)來(lái)存儲(chǔ)電子病歷,護(hù)理信息以及醫(yī)囑信息。到目前為止,已經(jīng)建立了六個(gè)診斷和治療平臺(tái),包括分診平臺(tái),藥代動(dòng)力學(xué)平臺(tái)和遠(yuǎn)程醫(yī)療[4]。在FAHZU全面建設(shè)醫(yī)療信息化的基礎(chǔ)上我們類比MIMIC-Ⅲ 建立了FAHZU的ICU??茢?shù)據(jù)庫(kù),稱之為FAHZU-ICU。2017年11月29日,F(xiàn)AHZU正式通過(guò)了HIMSS EMRAM(住院)六級(jí)現(xiàn)場(chǎng)評(píng)估。

機(jī)器學(xué)習(xí)已廣泛應(yīng)用于臨床研究。Weng等人基于常規(guī)臨床數(shù)據(jù),使用多種機(jī)器學(xué)習(xí)技術(shù),如隨機(jī)森林、邏輯回歸、梯度增強(qiáng)機(jī)器以及神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)心血管風(fēng)險(xiǎn)[5]。Celi等人應(yīng)用機(jī)器學(xué)習(xí)方法來(lái)預(yù)測(cè)ICU中的液體需求[6]。此外,Wen等人使用隨機(jī)森林建立造影劑誘發(fā)腎病的術(shù)前預(yù)測(cè)模型[7]。也有Bera、Vairavan等學(xué)者使用邏輯回歸評(píng)估MIMIC-Ⅲ數(shù)據(jù)庫(kù)中ICU患者的死亡風(fēng)險(xiǎn)[8-9]。

本文旨在從MIMIC-Ⅲ和FAHZU-ICU數(shù)據(jù)庫(kù)出發(fā),預(yù)測(cè)ICU患者的死亡風(fēng)險(xiǎn),比較它們的模型預(yù)測(cè)效果并評(píng)估特征的重要性。

2 資料與方法

2.1 ICU 數(shù)據(jù)庫(kù)

基于MIMIC-Ⅲ v1.4和FAHZU-ICU數(shù)據(jù)庫(kù)數(shù)據(jù)建立預(yù)測(cè)模型。MIMIC-Ⅲ 數(shù)據(jù)庫(kù)共包含61,532個(gè)具有出院狀態(tài)標(biāo)記的樣本,其中存活54323例,死亡6,609例。FAHZU-ICU數(shù)據(jù)庫(kù)中的原始數(shù)據(jù)包含5670個(gè)具有出院狀態(tài)標(biāo)記的樣本,包括101個(gè)死亡樣本和5569個(gè)存活樣本。

2.2 特征選取

根據(jù)臨床醫(yī)生權(quán)威性梳理和實(shí)際可用性原則來(lái)選擇兩個(gè)數(shù)據(jù)集中的候選變量。其中包括人口統(tǒng)計(jì)學(xué)變量、生命體征變量、實(shí)驗(yàn)室生理檢查變量、各類評(píng)分信息變量等。如果患者在一天內(nèi)多次進(jìn)行測(cè)量,則使用平均值、最大值和最小值來(lái)產(chǎn)生衍生特征。在刪除了數(shù)據(jù)缺失嚴(yán)重的變量后,MIMIC-Ⅲ 數(shù)據(jù)集中的166個(gè)特征和FAHZU-ICU數(shù)據(jù)集中的106個(gè)特征用于預(yù)測(cè)。

2.3 模型建立和驗(yàn)證

由于兩個(gè)數(shù)據(jù)集中幸存者數(shù)量和患者死亡人數(shù)之間存在嚴(yán)重的不均衡問(wèn)題,根據(jù)模型效果進(jìn)行優(yōu)化調(diào)整,最終使用每個(gè)數(shù)據(jù)集中的所有死亡樣本,并隨機(jī)選擇兩倍于死亡樣本的生存樣本,采用基于隨機(jī)森林(Random Forest)的分類預(yù)測(cè)算法來(lái)建立預(yù)測(cè)模型,并使用5折交叉驗(yàn)證下的受試者工作特征曲線(ROC)內(nèi)的區(qū)域面積(AUC)、特異性(Specificity)、靈敏度(Sensitivity)對(duì)模型性能進(jìn)行評(píng)估。

3 結(jié)果

模型預(yù)測(cè)效果如表1所示。在MIMIC-Ⅲ 數(shù)據(jù)集中,5折交叉驗(yàn)證下的平均靈敏度和特異性分別為0.76和0.88,AUC和準(zhǔn)確度分別為0.82和0.83。在FAHZU-ICU數(shù)據(jù)集中,5折交叉驗(yàn)證下的平均靈敏度和特異性分別為0.631579和0.838027,AUC和準(zhǔn)確度分別為0.73和0.79。顯然,使用MIMIC-Ⅲ 數(shù)據(jù)集的預(yù)測(cè)性能比使用FAHZU-ICU數(shù)據(jù)的預(yù)測(cè)性能要好得多。

表1 使用MIMIC-Ⅲ和FAHZU-ICU數(shù)據(jù)集預(yù)測(cè)ICU死亡率的表現(xiàn)

接下來(lái),我們研究了各種特征如何影響兩個(gè)數(shù)據(jù)集中的死亡率預(yù)測(cè)結(jié)果。表2顯示了兩個(gè)數(shù)據(jù)集中各自對(duì)模型預(yù)測(cè)效果最重要的15個(gè)特征。在FAHZU-ICU數(shù)據(jù)集中,排名靠前的特征是相關(guān)酶,例如羥基丁酸脫氫酶和乳酸脫氫酶。兩種酶都與心肌損傷有關(guān),屬于兩類心肌酶。當(dāng)心肌細(xì)胞發(fā)炎和壞死時(shí),心肌細(xì)胞中含有的酶可以進(jìn)入血液,血液中這些酶的活性(含量)會(huì)增加。血液中酶的含量將反映患者心臟和腎臟的狀態(tài)。排名靠前的重要特征還包括蛋白質(zhì),鈉,心率和其他生理指標(biāo),這都是反應(yīng)患者生存狀態(tài)的重要標(biāo)志。

在MIMIC-Ⅲ 數(shù)據(jù)集中,重要性排名最靠前的為評(píng)分特征,但在FAHZU-ICU數(shù)據(jù)集中沒(méi)有此類評(píng)分指標(biāo)。而FAHZU-ICU模型中排名靠前的酶在MIMIC-Ⅲ 數(shù)據(jù)集中特嚴(yán)重缺失,因此并未參與MIMIC-Ⅲ 數(shù)據(jù)集的模型進(jìn)行預(yù)測(cè)。

表2 MIMIC-Ⅲ和FAHZU-ICU數(shù)據(jù)集中最重要的15個(gè)特征

*評(píng)分特征:簡(jiǎn)化的急性生理學(xué)評(píng)分II (Simplified Acute Physiology Score II,SAPSII);急 性 生 理 學(xué) 評(píng) 分III (Acute Physiology Score III,APSIII);牛津急性疾病嚴(yán)重程度評(píng)分(Oxford Acute Severity of Illness Score,OASIS);簡(jiǎn)化的急性生理學(xué)評(píng)分(Simplified Acute Physiology Score ,SAPS);Logistic器 官 功 能 障礙 評(píng) 分(Logistic Organ Dysfunction Score,LODS);改 良Logistic臟器功能障礙系統(tǒng)(Modified Logistic organ dysfunction system ,MOLDS);格拉斯哥昏迷評(píng)分(Glasgow coma scale,GCS);序貫器官衰竭估計(jì)(Sequential Organ Failure Assessment,SOFA)

表2的最后一列給出了去掉評(píng)分特征(SAPSII,APSIII,OASIS,SAPS,LODS,MOLDS,GCS,SOFA)后MIMIC-Ⅲ 數(shù)據(jù)集中的前15個(gè)實(shí)驗(yàn)室檢測(cè)指標(biāo)。這些非評(píng)分特征中的某些特征也出現(xiàn)在FAHZU-ICU數(shù)據(jù)集中的前15個(gè)特征。比如凝血酶原時(shí)間(PT),國(guó)際標(biāo)準(zhǔn)化比率(inr),心率和碳酸氫鹽,表明兩個(gè)不同ICU數(shù)據(jù)集在模型表現(xiàn)上存在一些共同點(diǎn)。

4 討論

在本文中,基于FAHZU-ICU數(shù)據(jù)集和已發(fā)布的MIMIC-Ⅲ數(shù)據(jù)集,采用隨機(jī)森林的分類算法來(lái)預(yù)測(cè)兩個(gè)ICU數(shù)據(jù)集中患者的死亡風(fēng)險(xiǎn)。在MIMIC-Ⅲ 數(shù)據(jù)集中,我們獲得了AUC 0.815,準(zhǔn)確度0.825,敏感度0.761和特異性0.876的模型效果。FAHZU-ICU數(shù)據(jù)集性能相較較差,AUC為0.732,準(zhǔn)確度為0.79,靈敏度為0.631,不過(guò)0.838的特異性優(yōu)于MIMIC-Ⅲ 數(shù)據(jù)集。

這項(xiàng)研究的一大挑戰(zhàn)是生存和死亡樣本數(shù)量嚴(yán)重不均衡。這種不均衡使得隨機(jī)森林模型在決策過(guò)程中偏向生存群。為了解決這個(gè)問(wèn)題,我們對(duì)生存樣本采用了欠采樣方法,以確保生存樣本和死亡樣本的合理比例。

盡管FAHZU-ICU數(shù)據(jù)庫(kù)較小且功能較少,但它包括患者住院期間一些獨(dú)有的生理監(jiān)測(cè)數(shù)據(jù),例如羥基丁酸脫氫酶和乳酸脫氫酶等酶類數(shù)據(jù),與MIMIC-Ⅲ數(shù)據(jù)庫(kù)相比患者基本檢測(cè)信息更全面一些。但是SAPSII,APSIII,OASIS,SAPS,LODS,MOLDS和SOFA等在MIMIC-Ⅲ數(shù)據(jù)集的死亡風(fēng)險(xiǎn)預(yù)測(cè)模型中表現(xiàn)良好的評(píng)分指標(biāo)尚未包含在FAHZU-ICU數(shù)據(jù)庫(kù)中。

FAHZU是中國(guó)領(lǐng)先的信息數(shù)字化醫(yī)院,每年大約有一千例ICU診療記錄,到目前為止已經(jīng)收集了大量數(shù)據(jù)。但目前的醫(yī)院信息系統(tǒng)功能主要是滿足醫(yī)院管理和存貯需求。而且醫(yī)院的各類型數(shù)據(jù)分布在多個(gè)系統(tǒng)中,采集頻次也不一致,數(shù)據(jù)多源異構(gòu)的缺陷明顯,導(dǎo)致海量的臨床數(shù)據(jù)沒(méi)有得到充分發(fā)掘和有效利用。總而言之,中國(guó)的醫(yī)療數(shù)據(jù)庫(kù)采集和存儲(chǔ)系統(tǒng)還不夠成熟,有待完善,在這方面,已經(jīng)比較成熟的MIMIC-Ⅲ 數(shù)據(jù)庫(kù)或許能為國(guó)內(nèi)醫(yī)院建立標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)時(shí),在內(nèi)容和結(jié)構(gòu)上提供一些參考。

此外,目前中國(guó)的醫(yī)療數(shù)據(jù)整體呈現(xiàn)分散存儲(chǔ)和低開(kāi)放性的特點(diǎn)。每家醫(yī)院都是一座“信息孤島”,醫(yī)療數(shù)據(jù)很難真正實(shí)現(xiàn)臨床應(yīng)用和科研轉(zhuǎn)化。這就要求醫(yī)療機(jī)構(gòu)必須加強(qiáng)自身的EMR建設(shè),進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化的宏觀管理,規(guī)范信息存儲(chǔ),整理數(shù)據(jù)的內(nèi)部環(huán)節(jié)。加強(qiáng)醫(yī)院信息化建設(shè),建立專業(yè)化數(shù)據(jù)庫(kù),是醫(yī)療人工智能快速的重要基礎(chǔ)。在未來(lái),我們也將納入不同地域醫(yī)療機(jī)構(gòu)的數(shù)據(jù),打破“信息孤島”,開(kāi)展死亡風(fēng)險(xiǎn)預(yù)測(cè)的多中心研究,進(jìn)一步提高預(yù)測(cè)模型的魯棒性,增加臨床可用性。

猜你喜歡
樣本數(shù)據(jù)庫(kù)醫(yī)療
用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
推動(dòng)醫(yī)改的“直銷樣本”
數(shù)據(jù)庫(kù)
隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
京張醫(yī)療聯(lián)合的成功之路
我們?cè)鯓永斫忉t(yī)療創(chuàng)新
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)
村企共贏的樣本
數(shù)據(jù)庫(kù)
镇江市| 靖江市| 太保市| 松桃| 长汀县| 淳安县| 简阳市| 鸡西市| 辽源市| 通许县| 武城县| 靖州| 临夏市| 仙游县| 舞阳县| 烟台市| 读书| 武宁县| 荥阳市| 浦北县| 册亨县| 开平市| 新蔡县| 房山区| 四川省| 凤台县| 乡宁县| 子洲县| 珠海市| 台北县| 翁源县| 水富县| 含山县| 万源市| 沧源| 乐平市| 墨竹工卡县| 富阳市| 秀山| 恩平市| 仙桃市|