基于人工智能的心臟疾病診斷

2020-02-06 03:52賀文韜

現(xiàn)代商貿(mào)工業(yè) 2020年2期

賀文韜

摘要：隨著科學(xué)技術(shù)的發(fā)展，人工智能已經(jīng)應(yīng)用到醫(yī)學(xué)的各個領(lǐng)域。根據(jù)美國某區(qū)域的心臟病病人情況，收集使用年齡，膽固醇水平、血壓、空腹血糖等10項指標數(shù)據(jù)，基于決策樹方法和隨機森林模型，對其是否患心臟疾病進行檢測，發(fā)現(xiàn)隨機森林方法在正確率，召回率，F(xiàn)1值等方面都優(yōu)于支持向量機方法。因此，隨機森林方法在心臟病診斷方面具有很好的應(yīng)用。最后，針對心臟病患者模型的因子對心臟病的預(yù)防提出建議。

關(guān)鍵詞：心臟疾病;多生理參數(shù);隨機森林;決策樹

中圖分類號：TB 文獻標識碼：Adoi：10.19311/j.cnki.1672-3198.2020.02.093

1 背景介紹

在谷歌開發(fā)者大會上，首席執(zhí)行官桑達爾·皮查伊闡述了其最新的人工智能研究有朝一日將如何幫助醫(yī)生發(fā)現(xiàn)心臟病。目前世界范圍內(nèi)心臟疾病人的人數(shù)逐漸增多。據(jù)世界衛(wèi)生組織統(tǒng)計，在2012年，全球心血管疾病患者為1750萬人，占所有非傳染疾病患者人數(shù)的46.2%，因此心血管疾病的預(yù)防與治療確實刻不容緩。中國心臟疾病的情況也十分嚴重，國家心血管病中心發(fā)布的《中國心血管病報告2012》數(shù)據(jù)顯示，中國心血管病現(xiàn)患人數(shù)已高達2.9億，即在成年人中患病人數(shù)約占百分之二十，每年約350萬人死于心血管病，也就約為每10秒就有1人死于心血管病。而人工智能技術(shù)可以有效解決部分心血管疾病問題。人工智能方法根據(jù)情況設(shè)置相關(guān)參數(shù)，讓電腦學(xué)習(xí)各種醫(yī)學(xué)指標和信息，來預(yù)測患者的心臟病發(fā)病可能性。那么，人工智能方法相當于經(jīng)驗的醫(yī)生，結(jié)合患者的檢驗報告和其他信息，可能可以正確預(yù)測出病人的患病情況。本論文針對人工智能在心臟病的應(yīng)用等方面做出研究。

人工智能結(jié)合醫(yī)療的相關(guān)研究最近處于爆發(fā)式增長階段。曹敦煜等人通過討論人工智能的價值，前景等闡述了人工智能在心臟病治療的應(yīng)用。于觀貞等專家通過對醫(yī)療活動中較為成功的 AI 研究，系統(tǒng)性的評述闡述了人工智能在臨床醫(yī)學(xué)中的應(yīng)用與思考國內(nèi)外多數(shù)研究。董慧康等人圍繞著疾病診斷領(lǐng)域中的心臟病診斷展開研究，通過借助對患者多生理參數(shù)的監(jiān)測，結(jié)合先進的數(shù)據(jù)分析和人工智能方法，采用人群搜索-支持向量機放過發(fā)，構(gòu)建預(yù)測心臟病多輔助診斷模型，結(jié)果顯示該方法精度較高，提高了心臟疾病診斷的準確性。顏紅梅等人系統(tǒng)是運用人工智能和專家系統(tǒng)的設(shè)計原理與方法，模擬醫(yī)學(xué)專家診斷、治療疾病的思維過程，開發(fā)相關(guān)程序，幫助醫(yī)生解決復(fù)雜的醫(yī)學(xué)問題，作為醫(yī)生推斷疾病的重要依據(jù)。

給我們提供了很多啟示，但也有不足之處：第一，人工智能在心血管疾病的相關(guān)研究較少;第二，多數(shù)文獻結(jié)果顯示預(yù)測的精度不夠高。結(jié)合許多醫(yī)療和研究機構(gòu)的經(jīng)驗，本論文使用年齡，膽固醇水平、血壓、空腹血糖等10項指標來預(yù)測患者的心臟病情況，針對人工智能在心臟病的應(yīng)用等方面對現(xiàn)有問題進行研究并且對已有的成果提出部分不足之處。

2 數(shù)據(jù)獲取

本文的數(shù)據(jù)來源UCI開源數(shù)據(jù)集，具體參考網(wǎng)址http：//archive.ics.uci.edu/ml/datasets/Heart+Disease，針對美國某區(qū)域的心臟病檢查患者的體測數(shù)據(jù)，總共樣本個數(shù)為303，包括患有心臟和不患心臟病的樣本。對數(shù)據(jù)進行分析，結(jié)果如表1所示。對表格進行分析，發(fā)現(xiàn)樣本中年齡最小29歲，最大77歲，平均值54.37，以老年人居多，性別上以男性居多，膽固醇在二百到三百之間發(fā)病率高，心率異常易導(dǎo)致發(fā)病，最大心率在150到175間發(fā)病率高;最大心跳在150到175間發(fā)病率高;血壓在120到140時發(fā)病率高，指標為10個，解釋如表1，統(tǒng)計結(jié)果如表2和圖1。

3 模型介紹

3.1 決策樹模型

決策樹是人工智能中用來分類的常用方法，包括了幾個重要的關(guān)鍵詞：根節(jié)點、父節(jié)點、子節(jié)點和葉子節(jié)點等。決策樹在多分類和二分類問題中有很好的應(yīng)用，可以用多種標準來評價和優(yōu)選方案，給出最優(yōu)結(jié)果。該方法的特點是：一方面，由于要解決的問題的目標和標準的不同，比較方案的好壞比較難，因此找不到問題解決的最佳方案;另一方面，解決問題的決策過程中是隨機的，根據(jù)問題的滿意度作為標準。

決策樹常常采用貪婪思想的方法對各個因子進行分裂，也就是說，可以尋找找到最優(yōu)分裂結(jié)果，進行決策樹的分裂。評價最優(yōu)的分裂結(jié)果可能有多種方法，最理想的情況是能找到一個屬性剛好能夠?qū)⒉煌悇e分開，但是實際情況下，只通過一次分裂很難一步到位，但是我們希望每一次分裂之后剩下的節(jié)點的數(shù)據(jù)盡可能清晰，決策樹使用信息增益或者基尼值作為選擇屬性的依據(jù)。

信息可以表示屬性的分裂前和分裂后的數(shù)據(jù)復(fù)雜度和分裂節(jié)點數(shù)據(jù)復(fù)雜度，他們之差作為信息增益的變化情況，信息增益的計算公式如下：

其中，式中Gain表示節(jié)點的復(fù)雜度，信息數(shù)值越大，說明復(fù)雜度越高。信息增益分裂后的復(fù)雜度減小越多，分類效果越明顯。

基尼值也可以表示屬性信息變化的基本情況，基尼值計算公式如下：

式子中年P(guān)i表示第i個類的數(shù)量占比。如果只有兩類的情況下，當兩類數(shù)量相等時，基尼值等于0.5 ，當節(jié)點數(shù)據(jù)只有一類時，基尼值數(shù)值等于0 。這表明，基尼值越大，數(shù)據(jù)越不純，越需要分類。決策樹構(gòu)建的基本方法分為三個步驟：

第一步，根據(jù)決策樹的輸出結(jié)果，將決策樹分為兩類，分別是分類樹和決策樹。分類樹輸出的結(jié)果為具體的類別，而回歸樹輸出的結(jié)果是確定的數(shù)值。在本課題中，因為要將病人分為患病和不患病兩類，所以構(gòu)建的是分類樹。

第二步，決策樹的構(gòu)建算法主要有ID3、C4.5、CART三種，其中ID3和C4.5是分類樹，其中ID3是決策樹最基本的構(gòu)建算法，而C4.5是在ID3的基礎(chǔ)上進行優(yōu)化的算法。因此，本文選擇C4.5作為基本算法。

第三，對決策樹的優(yōu)化。復(fù)雜的決策樹可能出現(xiàn)過擬合等情況，可能會出現(xiàn)預(yù)測結(jié)果不準確的情況，因此要對決策樹進行優(yōu)化，優(yōu)化的方法主要有兩種：一是剪枝;二是組合樹。

3.2 隨機森林

決策樹具有泛化能力弱的缺點，有時候預(yù)測結(jié)果并不精確，即使有剪枝等方法。一棵樹做決策顯然比不上多棵樹同時做決策，這種方法就是隨機森林模型。對于同一批數(shù)據(jù)，用相同的算法只能產(chǎn)生一棵樹，但是Bagging策略可以產(chǎn)生不同的數(shù)據(jù)集，包含的數(shù)據(jù)是隨機的。Bagging策略全程叫作bootstrap aggregation，假設(shè)樣本集中含有N個數(shù)據(jù)點，通過重采樣的方法選出N個樣本。在抽樣的過程中，采用的是有放回的采樣的方法，所以總體的樣本數(shù)據(jù)的個數(shù)一直是N個。在所有樣本上，對這n個樣本建立隨機樹分類器，重復(fù)上述采樣和構(gòu)建決策樹方法m次，那么就獲得了m個分類器。最后根據(jù)這m個分類器的投票結(jié)果，少數(shù)服從多數(shù)的原則，最終能決定數(shù)據(jù)的分類情況。隨機森林的一般步驟是：

第一步，對樣本進行隨機抽樣，隨機選取n個樣本。

第二步，特征的隨機：從所有屬性中隨機選取f個屬性，選擇最佳分割屬性作為節(jié)點建立決策樹。

第三步，重復(fù)以上m次，即建立了m棵決策樹分類器。

第四步，這m個形成隨機森林，通過每棵樹的結(jié)果分析，投票表決決定數(shù)據(jù)分類情況。

4 結(jié)果分析

我們采用7∶3的訓(xùn)練集和測試集分配樣本數(shù)據(jù)，根據(jù)模型介紹，調(diào)試支持決策樹和隨機森林模型。正確率和召回率是評價模型好壞的重要指標，一般定義如下：正確率為提取出的正確信息條數(shù)除以提取出的信息條數(shù) 召回率為提取出的正確信息條數(shù)除以樣本中的信息條數(shù)。

模型的正確率越高越好，召回率也越高越好，但事實上這兩者在某些情況下是矛盾的。F1值是加權(quán)調(diào)和平均。當這個結(jié)果較高時，說明方法實驗有效。在本文中兩個模型計算得到的正確率，召回率和F1值，計算時間如表3。

比較分析發(fā)現(xiàn)隨機森林方法在正確率，召回率，F(xiàn)1值等方面都優(yōu)于支持向量機方法。因此，可以采用隨機森林方法輔助心臟病醫(yī)療診斷。

5 結(jié)論

人工智能在醫(yī)療領(lǐng)域有很大的發(fā)展，本文運用決策樹和隨機森林等模型，分析了人工智能在心臟病診斷上的優(yōu)點和不足之處，并給出精確度和準確率。根據(jù)我們分析的結(jié)果，在心臟病患者做出如下建議：一方面，人民自身不吸煙，維持體重指數(shù)正常，有時間多體育鍛煉達標及飲食健康，減少血糖指數(shù)等指標減少罹患心血管疾病的危險因素。另一方面，政府可以普及心血管疾病預(yù)防知識。尤其對于心血管疾病的治療，中國雖然擁有先進的技術(shù)，但是預(yù)防宣傳并不到位，這導(dǎo)致國人對心血管疾病的知識嚴重不足。進一步，提出相關(guān)政策，如鼓勵戒煙、推廣健康飲食和提倡運動等?？梢孕Х率澜缧l(wèi)生組織，擬定低成本的干預(yù)措施來幫助發(fā)展中國家預(yù)防和控制心血管疾病，如降低暴露在污染的環(huán)境中也能促進心血管的健康功能。此外，希望相關(guān)醫(yī)院進一步發(fā)展醫(yī)療技術(shù)，加強對心臟病和其他慢性病患者的醫(yī)療管理，甚至對歸家的患者配備了專門設(shè)計的數(shù)據(jù)采集和患者參與系統(tǒng)，實現(xiàn)最佳疾病管理支持。

參考文獻

[1]于觀貞，劉西洋，張彥春，等.人工智能在臨床醫(yī)學(xué)中的應(yīng)用與思考[J].第二軍醫(yī)大學(xué)學(xué)報，2018，39（4）：358-365.

[2]基于人群搜索-支持向量機的心臟病多生理參數(shù)診斷方法研究[D].天津：河北工業(yè)大學(xué)，2015.

[3]醫(yī)學(xué)知識工程生產(chǎn)線與基于人工神經(jīng)網(wǎng)絡(luò)和遺傳算法的醫(yī)學(xué)決策支持系統(tǒng)的研究[D].重慶：重慶大學(xué)，2003.

[4]高奇琦，呂俊延.智能醫(yī)療：人工智能時代對公共衛(wèi)生的機遇與挑戰(zhàn)[J].電子政務(wù)，2017，（11）：11-19.

[5]方煒煒，楊炳儒，楊君，等.基于隱私保護的決策樹模型[J].模式識別與人工智能，2010，23（6）：766-771.

[6]劉永春.基于隨機森林的乳腺腫瘤診斷研究[J].電視技術(shù)，2014，38（15）：253-255.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于人工智能的心臟疾病診斷