国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

三種機器學(xué)習(xí)算法預(yù)測心力衰竭死亡的價值研究

2024-06-15 13:28:07陳曉彤岑梓熹譚靜儀欒雅彭師師嚴(yán)波何震
醫(yī)學(xué)信息 2024年11期
關(guān)鍵詞:決策樹分類器準(zhǔn)確率

陳曉彤 岑梓熹 譚靜儀 欒雅 彭師師 嚴(yán)波 何震

摘要:目的? 用機器學(xué)習(xí)三種不同算法建立心力衰竭分類預(yù)測模型,比較模型的準(zhǔn)確率,并分析心力衰竭死亡事件重要性特征,對人群盡早發(fā)現(xiàn)和實施介入措施提供援助,努力提高人們的健康水平和生活質(zhì)量。方法? 使用Kaggle平臺發(fā)布的心力衰竭數(shù)據(jù)集,通過缺失值填充法、數(shù)據(jù)標(biāo)準(zhǔn)化處理、SMOTE方法進行數(shù)據(jù)預(yù)處理?;陔S機森林、C4.5、AdaBoost算法建立心力衰竭預(yù)測模型。使用性能評估指標(biāo)混淆矩陣、ROC曲線、均方根誤差以及均值絕對誤差評估評價模型性能。結(jié)果? PermutationImportance給出的變量重要性排序中,血清肌酐水平、年齡、血清鈉離水平排序靠前。三種模型中,隨機森林模型準(zhǔn)確率為85%,精確率為81%,召回率為68%;C4.5模型準(zhǔn)確率為83%,精確率為80%,召回率為63%;AdaBoost模型準(zhǔn)確率為80%,精確率為71%,召回率為63%。結(jié)論? 基于所用數(shù)據(jù)集,隨機森林模型優(yōu)于C4.5模型與AdaBoost模型,心力衰竭死亡風(fēng)險預(yù)測模型能為心力衰竭早期預(yù)防控制及診斷提供參考依據(jù)。

關(guān)鍵詞:心力衰竭;死亡;預(yù)測模型;C4.5;隨機森林;AdaBoost

中圖分類號:R541.6? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標(biāo)識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?DOI:10.3969/j.issn.1006-1959.2024.11.002

文章編號:1006-1959(2024)11-0011-05

Value of Three Machine Learning Algorithms in Predicting Death from Heart Failure

Abstract:Objective? To establish a classification and prediction model of heart failure by using three different algorithms of machine learning, compare the accuracy of the model, and analyze the importance characteristics of heart failure death events, so as to provide assistance for the early detection and implementation of intervention measures, and strive to improve people's health level and quality of life.Methods? Using the heart failure data set published by Kaggle platform, the data preprocessing was carried out by missing value filling method, data standardization processing and SMOTE method. A heart failure prediction model was established based on random forest, C4.5 and AdaBoost algorithms. The performance evaluation index confusion matrix, ROC curve, root mean square error and mean absolute error were used to evaluate the performance of the model.Results? In the order of importance of variables given by PermutationImportance, serum creatinine level, age and serum sodium level were ranked first. Among the three models, the accuracy of the random forest model was 85%, the accuracy was 81%, and the recall rate was 68%; the accuracy rate of the C4.5 model was 83%, the accuracy rate was 80%, and the recall rate was 63%. The accuracy rate of AdaBoost model was 80%, the accuracy rate was 71%, and the recall rate was 63%.Conclusion? Based on the data set used, the random forest model is superior to the C4.5 model and the AdaBoost model. The heart failure death risk prediction model can provide a reference for early prevention, control and diagnosis of heart failure.

Key words:Heart failure;Death;Prediction model;C4.5;Random forest;AdaBoost

心力衰竭(heart failure)是因為心臟的舒張和(或)收縮性的失調(diào)而引起的[1]。通常由于多種原因會導(dǎo)致心肌的收縮功能下降,導(dǎo)致心臟的血流量降低,無法達(dá)到人體所需,進而出現(xiàn)一系列的臨床表現(xiàn)[2]。心衰是一種嚴(yán)重危害人類健康的疾病,因此,基于患者的病情,及早評估患者的預(yù)后,可以有效地采取針對性的干預(yù),提高患者的治療效果。作為一門多學(xué)科交叉的專業(yè),數(shù)據(jù)挖掘是一門多學(xué)科交叉的專業(yè),它主要是在研究計算機如何對或?qū)崿F(xiàn)人們的學(xué)習(xí)行為進行仿真,從而獲得新的知識或技術(shù)[3]。在醫(yī)學(xué)領(lǐng)域,將機器學(xué)習(xí)算法應(yīng)用于疾病診斷的研究十分廣泛[4]。裴天天[5]基于集成學(xué)習(xí)算法開發(fā)了心血管健康管理系統(tǒng),將邏輯回歸算法、K最近鄰算法作為弱分類器,根據(jù)模型投票構(gòu)造投票分類器模型,預(yù)測心臟病準(zhǔn)確率達(dá)到85.5%。Abebe TB等[6]通過收集患者射血分?jǐn)?shù)、血清肌酐、年齡等13個特征,利用Cox回歸模型研究心衰患者的生存分析,得到模型AUC下面及為0.81。Zhang H等[7]基于集成學(xué)習(xí)的Bagging算法開發(fā)了遠(yuǎn)程醫(yī)療系統(tǒng),用神經(jīng)網(wǎng)絡(luò)、支持向量機和樸素貝葉斯構(gòu)建集成框架,其模型預(yù)測慢性心臟病可達(dá)94%。在借鑒上述研究的基礎(chǔ)上,本研究提出一種基于機器學(xué)習(xí)算法在在預(yù)測心力衰竭死亡上的研究,旨在借助機器學(xué)習(xí)強大的學(xué)習(xí)能力以及良好的學(xué)習(xí)性能,將其應(yīng)用于心力衰竭患者是否死亡問題研究中。

1資料與方法

1.1數(shù)據(jù)來源? 本研究所使用的心力衰竭數(shù)據(jù)集在Kaggle平臺發(fā)布,是2015年巴基斯坦費薩拉巴德心臟病研究所和費薩拉巴德聯(lián)合醫(yī)院所收集的數(shù)據(jù)[8]。據(jù)集包含299例心力衰竭患者的醫(yī)療記錄,其中女105例,男194例,所有患者年齡均在40歲以上且均存在左心室收縮功能不全,且有既往心力衰竭史。其中以“DEATH_EVENT 死亡事件”作為目標(biāo)特征。具體特征見表1。

1.2數(shù)據(jù)預(yù)處理? 缺失值處理:檢查并刪除全為空的行,檢查每一行缺失值情況。由于數(shù)據(jù)樣本較少,對于缺失值采用均數(shù)填補的方法處理缺失值。使用熱力圖查看特征與特征之間的相關(guān)性,熱力圖中顏色越深或越淺代表特征之間相關(guān)性越高,心力衰竭數(shù)據(jù)集特征熱力圖見圖1,可看得到特征之間相關(guān)性并不高。

排列特征重要性:使用Permutation Importance對特征重要性進行排列,排列結(jié)果見圖2。其中排在前3位特征分別代表血清肌酐水平、射血分?jǐn)?shù)、年齡、血清鈉水平。因此在臨床治療中,醫(yī)生與患者應(yīng)著重關(guān)注這些指標(biāo),將它們控制在正常范圍內(nèi)以降低死亡的概率;而患病風(fēng)險一般是隨年齡增長而增加,因此年長者也應(yīng)格外關(guān)注自己的這些指標(biāo)。對于醫(yī)生在后續(xù)的臨床診斷中也可以參考這些指標(biāo)的數(shù)值作為診療判斷依據(jù)。

數(shù)據(jù)標(biāo)準(zhǔn)化處理:本研究所用到的數(shù)據(jù)集中,通過描述命令可得到數(shù)據(jù)最小取值為0,最大取值為850 000,是否貧血、是否患有糖尿病、是否患有高血壓、性別、是否吸煙與是否死亡為二分類變量,其他特征屬性均為計量資料。計量資料如血液中肌酐磷酸激酶的水平、血液中的血小板數(shù)量等取值極差較大,如不加以處理則會對最終預(yù)測結(jié)果造成干擾,因此使用數(shù)據(jù)標(biāo)準(zhǔn)化處理將數(shù)據(jù)特征取值轉(zhuǎn)換為同一規(guī)格。

數(shù)據(jù)不平衡處理:目標(biāo)特征“DEATH_EVENT死亡事件”存在類別失衡的問題,死亡事件情況分布見圖3,未發(fā)生死亡事件患者為203例,發(fā)生死亡事件患者為96例,數(shù)據(jù)存在一定不平衡問題。在未發(fā)生死亡事件樣本占大多數(shù)的情況下,分類器將所有樣本預(yù)測為未發(fā)生死亡,也可以得到很高的準(zhǔn)確率,但這樣得到的準(zhǔn)確率高的預(yù)測并沒有實際意義。因此采用人工數(shù)據(jù)合成法(Synthetic Minority Over-sampling Technique, SMOTE)來平衡原始數(shù)據(jù)。

2數(shù)據(jù)分析

2.1算法介紹? 決策樹(Decision Tree):決策樹作為機器學(xué)習(xí)算法模型之一,是一種分類與回歸的方法。它是由樹模型構(gòu)成,其基本的思想就是“分而治之”[9]。即每個非葉結(jié)點上都會有一個特征變量“把關(guān)”,按照一定的規(guī)則劃分不同的子集,一直到不能夠劃分為止。以下圖為例,分類以A是否大于80為開始,要是大于80,則被分去左邊,為B;若A小于80,則被分去右邊,又進行劃分A是否大于50,若大于,則被劃分為B,若小于50,則被劃分為C。決策樹的建立流程一般包括特征選擇、決策樹的生成和決策樹的剪枝。其中特征選取主要有信息增益和基尼系數(shù)兩種方法[10]。

C4.5算法:由Quinlan自己擴充ID3算法提出的,是ID3算法的改進,它在ID3的基礎(chǔ)上增加了對連續(xù)屬性、屬性空缺情況的處理,對樹剪枝也有了較成熟的方法[11]。該算法的有點有:使用信息增益率作為屬性選擇的標(biāo)準(zhǔn);可以處理連續(xù)性數(shù)值,增加了可處理數(shù)據(jù)的范圍;能夠處理不完整的數(shù)據(jù),增加數(shù)據(jù)的自適應(yīng)性;在建樹過程中以及建樹完成后進行剪枝操作,從而避免決策樹的不平衡[12]。

隨機森林(Random Forests)算法:由Breimen于2001年提出的,它在Bagging的基礎(chǔ)上加上特征隨機選取這個特點[13]。與集成算法的思想相同,由若干個基分類器組成,其中基分類器為決策樹。傳統(tǒng)的決策樹是在當(dāng)前結(jié)點的特征集合中根據(jù)一定的特征選擇方法選取最優(yōu)的特征進行分支;而隨機森林則是對于單科決策樹的每個結(jié)點首先從全部特征(共b個)中隨機選取a個特征(a

集成學(xué)習(xí)(Ensemble Learning):集成學(xué)習(xí)是一個通過多個基分類器組合在一起,通過各種組合策略形成的一個強學(xué)習(xí)器的過程[15]。正所謂海納百川,相比于傳統(tǒng)的機器學(xué)習(xí)模型,其在訓(xùn)練數(shù)據(jù)集上的準(zhǔn)確度一般都高于單個學(xué)習(xí)器。其基分類器即可以是決策樹模型,也可以是樸素貝葉斯模型等等。

Boosting:一種將弱學(xué)習(xí)器的錯誤樣本通過不斷的訓(xùn)練成為強學(xué)習(xí)器的一種集成方法[16]。對于Boosting算法要解決兩個問題:第一是對于每輪分布,要如何選擇進行學(xué)習(xí)訓(xùn)練;第二是如何利用錯誤的規(guī)則進行學(xué)習(xí)。

自適應(yīng)增強算法(AdaBoost):作為Boosting的代表算法,F(xiàn)reund在Boosting理論的研究基礎(chǔ)上,發(fā)現(xiàn)了一種不需要提前預(yù)知任何關(guān)于弱學(xué)習(xí)算法性能的知識的新算法[17]。并且舉例了一位賭徒因為持續(xù)的賽馬損失,后來決定讓朋友代表他下注。他會根據(jù)朋友的表現(xiàn),要是心理上覺得哪位朋友這次會贏得多,他就會把賭注投入多一點在那位朋友身上。最后他也因為這樣的分配贏回了他的獎金。因此Freund覺得這樣的動態(tài)分配問題也適用于Boosting算法中。這也是著名的AdaBoost算法最早的提出[18]。

AdaBoost算法迭代主要有3個步驟:第一步,初始化樣本的權(quán)重。假設(shè)樣本集一開始有N個樣本,那么每一個樣本一開始將會被賦予相同的權(quán)重1/N。第二步,訓(xùn)練單個弱學(xué)習(xí)器。要是樣本訓(xùn)練正確,那么它的權(quán)重將降低。要是樣本訓(xùn)練錯誤,這將會對其提高權(quán)值。更新之后的權(quán)值會用于下一個弱分類器當(dāng)中。第三步,訓(xùn)練每個弱分類器形成一個強分類器。加大學(xué)習(xí)誤差率et小的弱分類器的權(quán)重,使得et大的弱分類器權(quán)重下降。最后得出一個et較小的強分類器。AdaBoost不需要運用特征進行篩選,只需要若干個分類器加權(quán)組合即可,不需要提前知道弱分類器的錯誤率,也能得到較好的精確度。

2.2模型構(gòu)建? AdaBoost:因為心力衰竭數(shù)據(jù)集的因變量是否發(fā)生死亡為二分類變量,故本次運用決策樹作為機器學(xué)習(xí)構(gòu)造AdaBoost模型,選擇AdaBoost分類器,通過調(diào)整參數(shù)機器學(xué)習(xí)的最大迭代次數(shù)以及每個弱機器學(xué)習(xí)的權(quán)重縮減系數(shù)以構(gòu)造模型。若最大迭代次數(shù)過小,模型容易欠擬合,若最大迭代次數(shù)過大,模型則容易過擬合。較小的弱學(xué)習(xí)器權(quán)重縮減系數(shù)意味著需要更多的機器學(xué)習(xí)迭代次數(shù)。C4.5:構(gòu)建C4.5算法模型前,先通過導(dǎo)入math庫,計算信息熵、條件條件熵、信息增益以及信息增益率,比較各個特征信息增益率的大小得到最優(yōu)特征以劃分?jǐn)?shù)據(jù)集,從而創(chuàng)建出C4.5決策樹,以字典的模式呈現(xiàn)。再使用Sklearn庫中的分類決策樹模型進行擬合,調(diào)整參數(shù),得出最大深度、內(nèi)部節(jié)點再次劃分時需要的最小樣本數(shù)、葉子節(jié)點最少樣本數(shù)的最優(yōu)參數(shù),從而得到預(yù)測結(jié)果。隨機森林:因為心力衰竭數(shù)據(jù)集的因變量是否發(fā)生死亡為二分類變量,故運用基于決策樹的隨機森林分類器進行構(gòu)建模型。首先將訓(xùn)練集放入沒有調(diào)整參數(shù)的模型,再利用交叉驗證(Cross-validation)和網(wǎng)格搜索(GridSearchCV)對隨機森林模型進行參數(shù)的調(diào)整。隨后尋找隨機森林算法其他參數(shù)的最優(yōu)值,放入模型中。

3結(jié)果

3.1模型評估標(biāo)準(zhǔn)? 該醫(yī)學(xué)問題事實上是分類問題,對于分類模型,混淆矩陣、ROC曲線下的面積是最常用的評價分類模型的指標(biāo),混淆矩陣通過建立真實類別和預(yù)測類別之間的關(guān)系來評估分類模型的準(zhǔn)確性?;煜仃囍邪?個基本元素:真正例(True Positives)、假正例(False Positives)、假負(fù)例(False Negatives)和真負(fù)例(True Negatives)。通過統(tǒng)計這4個元素的數(shù)量,可以計算出分類模型的準(zhǔn)確率、精確率和召回率等指標(biāo)。

ROC曲線下面積(area under the ROC curve, AUC)是評價分類模型的重要指標(biāo)。曲線越靠近左上方,曲線下的面積就越大,表明該算法的預(yù)測效果越好。其取值范圍為0到1,AUC值越接近1,則表示分類模型預(yù)測準(zhǔn)確性越高?;诒疚姆诸惸P偷闹饕康氖钦_預(yù)測出心力衰竭患者是否發(fā)生死亡。因此通過對比混淆矩陣、ROC曲線下的面積評估3個模型的性能。

3.2模型測試結(jié)果? 本實驗使用python3.9.0進行數(shù)據(jù)預(yù)處理及數(shù)據(jù)建模。使用循環(huán)遍歷的方法確定AdaBoost的最大深度是2,隨機森林的決策樹個數(shù)為102?;谟?xùn)練集訓(xùn)練后3個集成模型在測試集的性能表現(xiàn)見表2,ROC曲線見圖4??梢钥闯觯捎秒S機森林算法優(yōu)于AdaBoost算法與決策樹C4.5算法,使得模型的分類準(zhǔn)確率和ROC曲線下面積均得到了提升,泛化性較為優(yōu)越。

4討論

本文使用Kaggle中的心力衰竭患者數(shù)據(jù)集展開研究,提出一種基于AdaBoost、決策樹、隨機森林的模型用于預(yù)測心力衰竭患者是否發(fā)生死亡。實驗結(jié)果表明,相對于AdaBoost模型與決策樹模型,隨機森林模型對數(shù)據(jù)集的泛化能力更強,預(yù)測準(zhǔn)確率更高。此外,對模型的特征進行了重要性評估,找出了對模型貢獻程度較高的一些指標(biāo),對醫(yī)生的臨床診斷具有一定的參考價值。

心血管疾病不僅已經(jīng)成為中國疾病死亡的主要原因,而且也成為全世界死亡的主要原因[19]。機器學(xué)習(xí)是人工智能的重要研究方向之一,它致力于通過利用計算手段,通過不斷訓(xùn)練樣本來改變自身的性能,提高預(yù)測的準(zhǔn)確率[20]。利用機器學(xué)習(xí)的算法作為計算機輔助診斷的工具,通過構(gòu)建模型判斷影響心力衰竭的重要特征和預(yù)測心衰患者的死亡率,對于醫(yī)生診斷及對后續(xù)治療心力衰竭患者來說具有重要作用。

參考文獻:

[1]國家心血管病醫(yī)療質(zhì)量控制中心專家委員會心力衰竭專家工作組.2020中國心力衰竭醫(yī)療質(zhì)量控制報告[J].中國循環(huán)雜志,2021,36(3):221-238.

[2]《中國心血管健康與疾病報告》編寫組.《中國心血管健康與疾病報告2020》要點解讀[J].中國心血管雜志,2021,26(3):209-218.

[3]王麗麗.大數(shù)據(jù)背景下數(shù)據(jù)挖掘技術(shù)的應(yīng)用[J].計算機與網(wǎng)絡(luò),2021,47(20):45-47.

[4]蔡莉莉,侯珂珂.基于K近鄰-隨機森林集成算法的肝病預(yù)測研究[J].電腦知識與技術(shù),2020,16(13):204-205,207.

[5]裴天天.基于集成學(xué)習(xí)算法的心腦血管健康管理系統(tǒng)的設(shè)計與實現(xiàn)[D].北京:北京郵電大學(xué),2021.

[6]Abebe TB,Gebreyohannes EA,Bhagavathula AS,et al.Anemia in severe heart failure patients:does it predict prognosis?[J].BMC Cardiovasc Disord,2017,17(1):248.

[7]Zhang H,Wang R,Zhou H,et al.A Study on the Association between Korotkoff Sound Signaling and Chronic Heart Failure (CHF) Based on Computer-Assisted Diagnoses[J].J Healthc Eng,2022,2022:3226655.

[8]沈夢碧,程祉元,肖易飛,等.Python數(shù)據(jù)分析在公共衛(wèi)生領(lǐng)域的應(yīng)用及前景[J].衛(wèi)生職業(yè)教育,2022,40(14):143-145.

[9]汪靖翔.決策樹算法的原理研究和實際應(yīng)用[J].電腦編程技巧與維護,2022,446(8):54-56,72.

[10]劉芯溧.基于大數(shù)據(jù)分析的智能客服系統(tǒng)研究[J].自動化與儀器儀表,2021,257(3):139-142.

[11]余建軍,張瓊之.基于粗糙集的決策樹ID3算法[J].計算機系統(tǒng)應(yīng)用,2020,29(4):156-162.

[12]馬紅麗,徐長英,楊新鳴.決策樹模型在中醫(yī)藥領(lǐng)域的應(yīng)用現(xiàn)狀[J].世界中醫(yī)藥,2021,16(17):2648-2651,2656.

[13]秦璇.隨機森林算法的改進及應(yīng)用[D].蘭州:蘭州交通大學(xué),2020.

[14]曹桃云.基于隨機森林的變量重要性研究[J].統(tǒng)計與決策,2022,38(4):60-63.

[15]彭巖,馬鈴,張文靜,等.基于集成學(xué)習(xí)的風(fēng)險預(yù)測模型研究與應(yīng)用[J].計算機工程與設(shè)計,2022,43(4):956-961.

[16]王禹,陳德運,唐遠(yuǎn)新.基于Cart決策樹與boosting方法的股票預(yù)測[J].哈爾濱理工大學(xué)學(xué)報,2019,24(6):98-103.

[17]傅紅普,鄒北驥.AdaBoost分類器的一種快速訓(xùn)練方法[J].云南大學(xué)學(xué)報(自然科學(xué)版),2020,42(1):50-57.

[18]張夢嬌,葉慶衛(wèi),陸志華.基于模糊弱分類器的AdaBoost算法[J].數(shù)據(jù)通信,2021,204(5):35-41.

[19]北京高血壓防治協(xié)會,北京糖尿病防治協(xié)會,北京慢性病防治與健康教育研究會,等.基層心血管病綜合管理實踐指南2020[J].中國醫(yī)學(xué)前沿雜志(電子版),2020,12(8):1-73.

[20]高新成,邵國銘,張海洋,等.改進二進制麻雀搜索的特征選擇及文本聚類[J].重慶理工大學(xué)學(xué)報:自然科學(xué),2023,37(8):166-176.

猜你喜歡
決策樹分類器準(zhǔn)確率
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
BP-GA光照分類器在車道線識別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
基于決策樹的出租車乘客出行目的識別
盐亭县| 东源县| 平罗县| 太保市| 陆河县| 达拉特旗| 疏勒县| 临武县| 天气| 安丘市| 镇康县| 遵化市| 调兵山市| 莱芜市| 改则县| 乌什县| 兴和县| 达拉特旗| 仪征市| 霍州市| 四子王旗| 中卫市| 新津县| 崇仁县| 通河县| 山东| 清丰县| 福建省| 临洮县| 余姚市| 桐柏县| 涞水县| 庐江县| 松潘县| 扎兰屯市| 株洲市| 深水埗区| 南陵县| 黄山市| 定南县| 枣强县|