賀文韜
摘 要:隨著科學(xué)技術(shù)的發(fā)展,人工智能已經(jīng)應(yīng)用到醫(yī)學(xué)的各個領(lǐng)域 。根據(jù)美國某區(qū)域的心臟病病人情況,收集使用年齡,膽固醇水平、血壓、空腹血糖等10項指標數(shù)據(jù),基于決策樹方法和隨機森林模型,對其是否患心臟疾病進行檢測,發(fā)現(xiàn)隨機森林方法在正確率,召回率,F(xiàn)1值等方面都優(yōu)于支持向量機方法。因此,隨機森林方法在心臟病診斷方面具有很好的應(yīng)用。最后,針對心臟病患者模型的因子對心臟病的預(yù)防提出建議。
關(guān)鍵詞:心臟疾病;多生理參數(shù);隨機森林;決策樹
中圖分類號:TB 文獻標識碼:Adoi:10.19311/j.cnki.1672-3198.2020.02.093
1 背景介紹
在谷歌開發(fā)者大會上,首席執(zhí)行官桑達爾·皮查伊闡述了其最新的人工智能研究有朝一日將如何幫助醫(yī)生發(fā)現(xiàn)心臟病。目前世界范圍內(nèi)心臟疾病人的人數(shù)逐漸增多。據(jù)世界衛(wèi)生組織統(tǒng)計,在2012年,全球心血管疾病患者為1750萬人,占所有非傳染疾病患者人數(shù)的46.2%,因此心血管疾病的預(yù)防與治療確實刻不容緩。中國心臟疾病的情況也十分嚴重,國家心血管病中心發(fā)布的《中國心血管病報告2012》數(shù)據(jù)顯示,中國心血管病現(xiàn)患人數(shù)已高達2.9億,即在成年人中患病人數(shù)約占百分之二十,每年約350萬人死于心血管病,也就約為每10秒就有1人死于心血管病。而人工智能技術(shù)可以有效解決部分心血管疾病問題。人工智能方法根據(jù)情況設(shè)置相關(guān)參數(shù),讓電腦學(xué)習(xí)各種醫(yī)學(xué)指標和信息,來預(yù)測患者的心臟病發(fā)病可能性。那么,人工智能方法相當于經(jīng)驗的醫(yī)生,結(jié)合患者的檢驗報告和其他信息,可能可以正確預(yù)測出病人的患病情況。本論文針對人工智能在心臟病的應(yīng)用等方面做出研究。
人工智能結(jié)合醫(yī)療的相關(guān)研究最近處于爆發(fā)式增長階段。曹敦煜等人通過討論人工智能的價值,前景等闡述了人工智能在心臟病治療的應(yīng)用。于觀貞等專家通過對醫(yī)療活動中較為成功的 AI 研究,系統(tǒng)性的評述闡述了人工智能在臨床醫(yī)學(xué)中的應(yīng)用與思考國內(nèi)外多數(shù)研究。董慧康等人圍繞著疾病診斷領(lǐng)域中的心臟病診斷展開研究,通過借助對患者多生理參數(shù)的監(jiān)測,結(jié)合先進的數(shù)據(jù)分析和人工智能方法,采用人群搜索-支持向量機放過發(fā),構(gòu)建預(yù)測心臟病多輔助診斷模型,結(jié)果顯示該方法精度較高,提高了心臟疾病診斷的準確性。顏紅梅等人系統(tǒng)是運用人工智能和專家系統(tǒng)的設(shè)計原理與方法,模擬醫(yī)學(xué)專家診斷、治療疾病的思維過程,開發(fā)相關(guān)程序,幫助醫(yī)生解決復(fù)雜的醫(yī)學(xué)問題,作為醫(yī)生推斷疾病的重要依據(jù)。
給我們提供了很多啟示,但也有不足之處:第一,人工智能在心血管疾病的相關(guān)研究較少;第二,多數(shù)文獻結(jié)果顯示預(yù)測的精度不夠高。結(jié)合許多醫(yī)療和研究機構(gòu)的經(jīng)驗,本論文使用年齡,膽固醇水平、血壓、空腹血糖等10項指標來預(yù)測患者的心臟病情況,針對人工智能在心臟病的應(yīng)用等方面對現(xiàn)有問題進行研究并且對已有的成果提出部分不足之處。
2 數(shù)據(jù)獲取
本文的數(shù)據(jù)來源UCI開源數(shù)據(jù)集,具體參考網(wǎng)址http://archive.ics.uci.edu/ml/datasets/Heart+Disease,針對美國某區(qū)域的心臟病檢查患者的體測數(shù)據(jù),總共樣本個數(shù)為303,包括患有心臟和不患心臟病的樣本。對數(shù)據(jù)進行分析,結(jié)果如表1所示。對表格進行分析,發(fā)現(xiàn)樣本中年齡最小29歲,最大77歲,平均值54.37,以老年人居多,性別上以男性居多,膽固醇在二百到三百之間發(fā)病率高,心率異常易導(dǎo)致發(fā)病,最大心率在150到175間發(fā)病率高;最大心跳在150到175間發(fā)病率高;血壓在120到140時發(fā)病率高,指標為10個,解釋如表1,統(tǒng)計結(jié)果如表2和圖1。
3 模型介紹
3.1 決策樹模型
決策樹是人工智能中用來分類的常用方法,包括了幾個重要的關(guān)鍵詞:根節(jié)點、父節(jié)點、子節(jié)點和葉子節(jié)點等。決策樹在多分類和二分類問題中有很好的應(yīng)用,可以用多種標準來評價和優(yōu)選方案,給出最優(yōu)結(jié)果。該方法的特點是: 一方面,由于要解決的問題的目標和標準的不同,比較方案的好壞比較難,因此找不到問題解決的最佳方案;另一方面,解決問題的決策過程中是隨機的,根據(jù)問題的滿意度作為標準。
決策樹常常采用貪婪思想的方法對各個因子進行分裂,也就是說,可以尋找找到最優(yōu)分裂結(jié)果,進行決策樹的分裂。評價最優(yōu)的分裂結(jié)果可能有多種方法,最理想的情況是能找到一個屬性剛好能夠?qū)⒉煌悇e分開,但是實際情況下,只通過一次分裂很難一步到位,但是我們希望每一次分裂之后剩下的節(jié)點的數(shù)據(jù)盡可能清晰,決策樹使用信息增益或者基尼值作為選擇屬性的依據(jù)。
信息可以表示屬性的分裂前和分裂后的數(shù)據(jù)復(fù)雜度和分裂節(jié)點數(shù)據(jù)復(fù)雜度,他們之差作為信息增益的變化情況,信息增益的計算公式如下:
其中,式中Gain表示節(jié)點的復(fù)雜度,信息數(shù)值越大,說明復(fù)雜度越高。信息增益分裂后的復(fù)雜度減小越多,分類效果越明顯。
基尼值也可以表示屬性信息變化的基本情況,基尼值計算公式如下:
式子中年P(guān)i表示第i個類的數(shù)量占比。如果只有兩類的情況下,當兩類數(shù)量相等時,基尼值等于0.5 ,當節(jié)點數(shù)據(jù)只有一類時,基尼值數(shù)值等于0 。這表明,基尼值越大,數(shù)據(jù)越不純,越需要分類。決策樹構(gòu)建的基本方法分為三個步驟:
第一步,根據(jù)決策樹的輸出結(jié)果,將決策樹分為兩類,分別是分類樹和決策樹。分類樹輸出的結(jié)果為具體的類別,而回歸樹輸出的結(jié)果是確定的數(shù)值。在本課題中,因為要將病人分為患病和不患病兩類,所以構(gòu)建的是分類樹。
第二步,決策樹的構(gòu)建算法主要有ID3、C4.5、CART三種,其中ID3和C4.5是分類樹,其中ID3是決策樹最基本的構(gòu)建算法,而C4.5是在ID3的基礎(chǔ)上進行優(yōu)化的算法。因此,本文選擇C4.5作為基本算法。
第三,對決策樹的優(yōu)化。復(fù)雜的決策樹可能出現(xiàn)過擬合等情況,可能會出現(xiàn)預(yù)測結(jié)果不準確的情況,因此要對決策樹進行優(yōu)化,優(yōu)化的方法主要有兩種:一是剪枝;二是組合樹。
3.2 隨機森林
決策樹具有泛化能力弱的缺點,有時候預(yù)測結(jié)果并不精確,即使有剪枝等方法。一棵樹做決策顯然比不上多棵樹同時做決策,這種方法就是隨機森林模型。對于同一批數(shù)據(jù),用相同的算法只能產(chǎn)生一棵樹,但是Bagging策略可以產(chǎn)生不同的數(shù)據(jù)集,包含的數(shù)據(jù)是隨機的。Bagging策略全程叫作bootstrap aggregation,假設(shè)樣本集中含有N個數(shù)據(jù)點,通過重采樣的方法選出N個樣本。在抽樣的過程中,采用的是有放回的采樣的方法,所以總體的樣本數(shù)據(jù)的個數(shù)一直是N個。在所有樣本上,對這n個樣本建立隨機樹分類器,重復(fù)上述采樣和構(gòu)建決策樹方法m次,那么就獲得了m個分類器。最后根據(jù)這m個分類器的投票結(jié)果,少數(shù)服從多數(shù)的原則,最終能決定數(shù)據(jù)的分類情況。隨機森林的一般步驟是:
第一步,對樣本進行隨機抽樣,隨機選取n個樣本。
第二步,特征的隨機:從所有屬性中隨機選取f個屬性,選擇最佳分割屬性作為節(jié)點建立決策樹。
第三步,重復(fù)以上m次,即建立了m棵決策樹分類器。
第四步,這m個形成隨機森林,通過每棵樹的結(jié)果分析,投票表決決定數(shù)據(jù)分類情況。
4 結(jié)果分析
我們采用7∶3的訓(xùn)練集和測試集分配樣本數(shù)據(jù),根據(jù)模型介紹,調(diào)試支持決策樹和隨機森林模型。正確率和召回率是評價模型好壞的重要指標,一般定義如下:正確率為提取出的正確信息條數(shù)除以提取出的信息條數(shù) 召回率為提取出的正確信息條數(shù)除以樣本中的信息條數(shù)。
模型的正確率越高越好,召回率也越高越好,但事實上這兩者在某些情況下是矛盾的。F1值是加權(quán)調(diào)和平均。當這個結(jié)果較高時,說明方法實驗有效。在本文中兩個模型計算得到的正確率,召回率和F1值,計算時間如表3。
比較分析發(fā)現(xiàn)隨機森林方法在正確率,召回率,F(xiàn)1值等方面都優(yōu)于支持向量機方法。因此,可以采用隨機森林方法輔助心臟病醫(yī)療診斷。
5 結(jié)論
人工智能在醫(yī)療領(lǐng)域有很大的發(fā)展,本文運用決策樹和隨機森林等模型,分析了人工智能在心臟病診斷上的優(yōu)點和不足之處,并給出精確度和準確率。根據(jù)我們分析的結(jié)果,在心臟病患者做出如下建議:一方面,人民自身不吸煙,維持體重指數(shù)正常,有時間多體育鍛煉達標及飲食健康,減少血糖指數(shù)等指標減少罹患心血管疾病的危險因素。另一方面,政府可以普及心血管疾病預(yù)防知識。尤其對于心血管疾病的治療,中國雖然擁有先進的技術(shù),但是預(yù)防宣傳并不到位,這導(dǎo)致國人對心血管疾病的知識嚴重不足。進一步,提出相關(guān)政策,如鼓勵戒煙、推廣健康飲食和提倡運動等??梢孕Х率澜缧l(wèi)生組織,擬定低成本的干預(yù)措施來幫助發(fā)展中國家預(yù)防和控制心血管疾病,如降低暴露在污染的環(huán)境中也能促進心血管的健康功能。此外,希望相關(guān)醫(yī)院進一步發(fā)展醫(yī)療技術(shù),加強對心臟病和其他慢性病患者的醫(yī)療管理,甚至對歸家的患者配備了專門設(shè)計的數(shù)據(jù)采集和患者參與系統(tǒng),實現(xiàn)最佳疾病管理支持。
參考文獻
[1]于觀貞,劉西洋,張彥春,等.人工智能在臨床醫(yī)學(xué)中的應(yīng)用與思考[J].第二軍醫(yī)大學(xué)學(xué)報,2018,39(4):358-365.
[2]基于人群搜索-支持向量機的心臟病多生理參數(shù)診斷方法研究[D].天津:河北工業(yè)大學(xué),2015.
[3]醫(yī)學(xué)知識工程生產(chǎn)線與基于人工神經(jīng)網(wǎng)絡(luò)和遺傳算法的醫(yī)學(xué)決策支持系統(tǒng)的研究[D].重慶:重慶大學(xué),2003.
[4]高奇琦,呂俊延.智能醫(yī)療:人工智能時代對公共衛(wèi)生的機遇與挑戰(zhàn)[J].電子政務(wù),2017,(11):11-19.
[5]方煒煒,楊炳儒,楊君,等.基于隱私保護的決策樹模型[J].模式識別與人工智能,2010,23(6):766-771.
[6]劉永春.基于隨機森林的乳腺腫瘤診斷研究[J].電視技術(shù),2014,38(15):253-255.