国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機(jī)器學(xué)習(xí)的心臟病例分類預(yù)測研究

2021-10-18 00:31孫鐵錚于澤灝
電腦知識(shí)與技術(shù) 2021年26期
關(guān)鍵詞:機(jī)器學(xué)習(xí)

孫鐵錚 于澤灝

摘要:本文選取國外醫(yī)療研究中心心臟病患者數(shù)據(jù)集為研究對(duì)象,在對(duì)數(shù)據(jù)進(jìn)行虛擬變量變換操作的基礎(chǔ)上,探究相關(guān)致病因素與目標(biāo)患者之間的聯(lián)系,通過引入Logistic回歸、KNN、SVM、樸素貝葉斯、決策樹、隨機(jī)森林六類機(jī)器學(xué)習(xí)算法對(duì)病例類別進(jìn)行分類預(yù)測,以準(zhǔn)確率與混淆矩陣作為輸出結(jié)果的評(píng)判標(biāo)準(zhǔn),對(duì)其分類識(shí)別預(yù)測的能力做出對(duì)比分析。

關(guān)鍵詞:機(jī)器學(xué)習(xí);多算法對(duì)比;心臟病預(yù)測

中圖分類號(hào):TP3? ? ?文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2021)26-0096-02

開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

1 研究背景

心臟病為臨床上不具有傳染性的慢性疾病,致死率較高,傳統(tǒng)的醫(yī)療決策方法難以準(zhǔn)確分析和診斷此類疾病。隨著大量臨床檢查、治療報(bào)告和電子病歷數(shù)據(jù)的產(chǎn)生,為信息技術(shù)介入醫(yī)療診斷和輔助醫(yī)療病理決策提供了數(shù)據(jù)依據(jù)。通過對(duì)大量的醫(yī)學(xué)數(shù)據(jù)進(jìn)行有效的提取與加工,機(jī)器學(xué)習(xí)算法可以為疾病做出正確的診斷、預(yù)測疾病的概率或患者病例,結(jié)合相關(guān)領(lǐng)域的專家知識(shí)和平衡潛在的數(shù)據(jù)處理分析,以求達(dá)到更好的疾病診斷結(jié)果,提高疾病預(yù)防、診斷和研究現(xiàn)狀。

2 研究現(xiàn)狀

以計(jì)算機(jī)學(xué)科為研究背景的諸多學(xué)者提出了多種理論與技術(shù)手段用以提高心臟病預(yù)測的檢測水平。Subbalakshmi等人[1]以樸素貝葉斯分類器為核函數(shù),開發(fā)了一種支持決策的心臟病預(yù)測系統(tǒng)(DSHDPS),從歷史數(shù)據(jù)中提取隱藏知識(shí),通過使用年齡、性別、血壓等醫(yī)療體征指標(biāo)來預(yù)測患者患病的可能性。Amin等人[2]對(duì)關(guān)鍵特征進(jìn)行提取并通過遺傳神經(jīng)網(wǎng)絡(luò)進(jìn)行回歸分析。周孟然等[3]利用自適應(yīng)人工蜂群算法對(duì)ELM算法隱含層的權(quán)值與偏置值進(jìn)行優(yōu)化,通過對(duì)最優(yōu)特征子集的訓(xùn)練提升了ELM算法在心臟病輔助診斷中的表現(xiàn)。劉宇,喬木[4]將聚類與XGBOOST算法相結(jié)合,通過K-means算法對(duì)數(shù)據(jù)進(jìn)行特征區(qū)分并利用XGBOOST算法對(duì)心臟病進(jìn)行預(yù)測分析。葉蘇婷等[5]利用決策樹算法構(gòu)建了心臟病數(shù)據(jù)集預(yù)警模型并編寫了用戶程序界面。

3 數(shù)據(jù)及可視化

本研究數(shù)據(jù)來源于克利夫蘭數(shù)據(jù)庫(Cleveland Clinic UCI)所構(gòu)建的開源心臟病例數(shù)據(jù)集。樣本數(shù)據(jù)共303條,包含13類影響因素指標(biāo)與患病標(biāo)簽量,其中年齡、血壓值、膽固醇含量、最快心率四項(xiàng)因素為連續(xù)型數(shù)值,其余為離散型數(shù)值變量。通過對(duì)不同數(shù)據(jù)類型的關(guān)系映射以及數(shù)據(jù)虛擬化操作,將其統(tǒng)一為相同量級(jí)的數(shù)據(jù)結(jié)構(gòu)為機(jī)器學(xué)習(xí)算法的訓(xùn)練做準(zhǔn)備。數(shù)據(jù)變量列表如表1所示。

圖1以年齡、靜息血壓、最大心率、膽固醇量、患病標(biāo)簽構(gòu)建相關(guān)性矩陣圖,患病樣本年齡呈現(xiàn)正態(tài)分布狀態(tài),健康樣本年齡呈負(fù)偏態(tài)分布狀態(tài)。靜息血壓呈現(xiàn)正偏態(tài)分布趨勢,其中患病樣本靜息血壓尖峰狀態(tài)更加明顯。30-40歲年齡段中患病人數(shù)的分布情況多集中于峰值,其對(duì)應(yīng)的血壓值均高于120mm,其眾數(shù)與50-60歲年齡段基本持平,表明對(duì)于30-40歲人群來說較高的靜息血壓值可作為重要的患病評(píng)判依據(jù)。健康樣本最大心率值呈正態(tài)分布,患病樣本則呈現(xiàn)負(fù)偏態(tài)分布。其表明以53歲為分界點(diǎn),樣本年齡區(qū)間處于30-53歲的個(gè)體其最大心率值越高,患病趨勢越明顯,大部分的非患病個(gè)體其最大心率值均保持在160以下。而樣本年齡區(qū)間處于53-70歲的個(gè)體其最大心率值越低,患病趨勢越明顯,大部分非患病個(gè)體的最大心率要高于患病個(gè)體。由此可推斷以患病率為前提年齡與最高心率值呈反比關(guān)系。膽固醇值患病與非患病樣本均呈現(xiàn)正偏態(tài)分布且患病樣本尖峰程度仍明顯高于健康樣本?;疾≌吣懝檀紨?shù)值隨年齡變化不明顯,但整體患病群體表現(xiàn)為膽固醇值偏低。靜息血壓值越低且最大心率值越高患病概率越大,靜息血壓值越低且膽固醇值越低患病風(fēng)險(xiǎn)越大。當(dāng)最大心率值越大且膽固醇含量較低時(shí)患病概率也會(huì)大大增加。

4 實(shí)驗(yàn)過程與結(jié)果分析

本文選取邏輯回歸、K近鄰、支持向量機(jī)、樸素貝葉斯、決策樹、隨機(jī)森林,六種機(jī)器學(xué)習(xí)經(jīng)典算法對(duì)目標(biāo)患者標(biāo)簽進(jìn)行分類預(yù)測,通過虛擬化操作統(tǒng)一數(shù)據(jù)量綱,以數(shù)據(jù)集80%的數(shù)據(jù)量作為各算法的訓(xùn)練集,其余20%作為模型驗(yàn)證集。選取分類預(yù)測準(zhǔn)確度作為模型輸出表現(xiàn)的評(píng)價(jià)指標(biāo),并根據(jù)各算法驗(yàn)證集表現(xiàn)情況建立混淆矩陣,對(duì)模型的實(shí)際分類預(yù)測能力進(jìn)行評(píng)判,實(shí)驗(yàn)流程如圖2所示。

其中邏輯回歸算法迭代訓(xùn)練次數(shù)設(shè)為1000次,當(dāng)訓(xùn)練迭代進(jìn)行到約500次時(shí)其損失函數(shù)可達(dá)到最小值,整體趨于收斂。對(duì)于K近鄰算法來說,當(dāng)近鄰群數(shù)取為7時(shí)所對(duì)應(yīng)的分類準(zhǔn)確度最高,證明此時(shí)的分類預(yù)測效果最好。

以分類準(zhǔn)確度作為評(píng)判依據(jù),在該數(shù)據(jù)集上K近鄰算法相較于其他算法具有最高的適用性與最佳表現(xiàn),其分類準(zhǔn)確度達(dá)到90.16%,邏輯回歸、樸素貝葉斯以及隨機(jī)森林算法也具有較高的分類預(yù)測能力,其準(zhǔn)確度分別可達(dá)到:85.25%、85.97%、85.25%。決策樹算法在所有模型中表現(xiàn)最差,其分類準(zhǔn)確度僅為75.41%。對(duì)比結(jié)果如表2所示。

對(duì)于分類算法評(píng)估指標(biāo)除準(zhǔn)確度外還有召回率,精確度等。而這些指標(biāo)均基于混淆矩陣進(jìn)行構(gòu)建。矩陣每一列代表一個(gè)類的預(yù)測情況,每一行表示一個(gè)類的實(shí)際樣本情況。其中正例樣本數(shù)量記為P,負(fù)例樣本數(shù)量記為N,被正確預(yù)測的正例數(shù)量記為TP,負(fù)例樣本被預(yù)測呈正例樣本數(shù)量記為FP,正例樣本被預(yù)測成負(fù)例樣本數(shù)量記為FN,正確預(yù)測到的負(fù)例樣本數(shù)量記為TN。分類準(zhǔn)確度,即正負(fù)樣本分別被正確分類的概率,其計(jì)算公式為:

[Accuracy=TP+TNP+N]? ? ? ? ? ? ? ? ? ? ? (1)

召回率,即正樣本被識(shí)別出的概率,計(jì)算公式為:

[Recall=TPP]? ? ? ? ? ? ? ? ? ? ? ? ? ? (2)

猜你喜歡
機(jī)器學(xué)習(xí)
基于詞典與機(jī)器學(xué)習(xí)的中文微博情感分析
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
前綴字母為特征在維吾爾語文本情感分類中的研究
下一代廣播電視網(wǎng)中“人工智能”的應(yīng)用
基于支持向量機(jī)的金融數(shù)據(jù)分析研究
基于Spark的大數(shù)據(jù)計(jì)算模型
基于樸素貝葉斯算法的垃圾短信智能識(shí)別系統(tǒng)
基于圖的半監(jiān)督學(xué)習(xí)方法綜述
機(jī)器學(xué)習(xí)理論在高中自主學(xué)習(xí)中的應(yīng)用
極限學(xué)習(xí)機(jī)在圖像分割中的應(yīng)用
营山县| 龙州县| 合水县| 阿瓦提县| 高台县| 白沙| 远安县| 叶城县| 肥东县| 新田县| 宜兰市| 林西县| 陈巴尔虎旗| 叶城县| 阿拉善右旗| 英山县| 南丰县| 宿州市| 安庆市| 禹城市| 婺源县| 定州市| 新津县| 襄城县| 东宁县| 宽甸| 许昌市| 时尚| 汉川市| 和田县| 广饶县| 黎平县| 阜新| 城步| 定襄县| 喀喇沁旗| 博白县| 家居| 英吉沙县| 富民县| 义马市|