基于Spark和隨機森林優(yōu)化的糖尿病預測

2021-11-05 07:48:06遼寧工業(yè)大學電子與信息工程學院楊雨含安國家

電子世界 2021年17期

遼寧工業(yè)大學電子與信息工程學院楊雨含安國家

在非平衡數(shù)據(jù)的問題上，我們實驗發(fā)現(xiàn)隨機森林無法很好的解決這一問題。本文采用了SMOTE算法，能夠有效的減少和降低數(shù)據(jù)集的非平衡性。在面對醫(yī)療數(shù)據(jù)高度特征冗余的特點上，該方案使用了基于隨機森林和序聯(lián)合搜索的Wrapper式特征選擇算法。在構(gòu)造隨機樹時，該方案使用了Spark實現(xiàn)隨機樹的并行構(gòu)建，提高了運行速率。通過對隨機森林優(yōu)化后的模型與隨機森林、K最近鄰、神經(jīng)網(wǎng)絡和向量機等模型進行對比，實驗結(jié)果表明，隨機森林優(yōu)化算法的精度達到81.13%，優(yōu)于其他的4種分類模型。

隨機森林是一種先進的機器學習模型，近些年得到快速發(fā)展，并廣泛應用在醫(yī)療、經(jīng)濟學、生態(tài)學等領(lǐng)域。但是在實際上，隨機森林算法存在數(shù)據(jù)分類不足等問題。有許多的學者在隨機森林算法上做了深入的研究，如俞孫澤在對隨機森林算法優(yōu)化改進的分析一文中提出了使用粗糙集的方法對隨機森林特征選擇上進行優(yōu)化。Vakharia等先用ReliefF算法計算特征的權(quán)重，刪除低于權(quán)值的特征后再進行隨機森林訓練，有效地提高了診斷的準確率。龐泰吾等人用連續(xù)特征離散化的方法來改進隨機森林的性能。

為了更好的對糖尿病數(shù)據(jù)集進行預測分析，本文提出了性能更加突出的隨機森林優(yōu)化算法并結(jié)合Spark并行計算，可以在提高預測準確率的基礎(chǔ)上大大提升算法的效率。

1 隨機森林算法

1.1 決策樹

決策樹被廣泛認為可能是基于機器深度學習的一個分類器。決策樹的特征學習一般過程包括：決策數(shù)特征選擇、決策樹的生成和決策樹的修剪枝。特征選擇主要含義是泛指從現(xiàn)有訓練信息數(shù)據(jù)中進行篩選分析出來的具有訓練相應的信息分類分析功能的信息特點，它的基本特征選擇分析方法主要分為三種，ID3的信息增益、C4.5的信息增益比、CART的基尼系數(shù)。

1.2 隨機森林模型

（1）隨機選擇樣本：方法假設(shè)一個原始數(shù)據(jù)集中有N個樣本，從原始數(shù)據(jù)集中選取N個樣本，將一個個原始樣本隨機地依次放回，即bootstrap取樣，這些元素是有可能被重復抽到的。

（2）建立決策樹：輸入特征數(shù)目m，用來確定一棵決策樹上一個節(jié)點的決策結(jié)果。

（3）隨機選擇特征：對于每一個節(jié)點，隨機選擇m個特征，M表示特征數(shù)目(m<

（4）隨機森林投票：每棵決策樹對測試集中的每個數(shù)據(jù)進行分類，統(tǒng)計k個分類結(jié)果，得票最多的類別是樣本的最后一個類別。

2 數(shù)據(jù)來源和數(shù)據(jù)處理

2.1 數(shù)據(jù)來源

本文數(shù)據(jù)集初稿來自美國國家級糖尿病與消化與腎臟疾病研究所。這里的所有患者均為皮馬印第安人血統(tǒng)至少21歲的女性。共769個樣本，其中268例被確診為糖尿病陽性病例，500例為糖尿病檢查為陰性。該臨床測試結(jié)果中的特征變量為懷孕次數(shù)，口服葡萄糖耐量測試中2h的血漿葡萄糖濃度，舒張壓，三頭肌皮膚褶皺厚度，2h血清胰島素，體重指數(shù)，糖尿病譜系功能，年齡，同時還提取一個類別變數(shù)是否會患有糖尿?。∣utcome，0代表不是，1代表是），如表1所示。

表1 皮馬印第安人糖尿病診斷信息

2.2 數(shù)據(jù)處理

（1）數(shù)據(jù)錯誤值缺失值處理

對于異常值的處理，我們采用的方法是剔除異常點。而對于缺失值的處理，我們使用的是Python中的缺失值的替換的原則，用平均值來替代缺失的值。這樣我們就能夠得到一組新的數(shù)據(jù)包含764個樣本點，其中標簽為-1的樣本點數(shù)為264個，標簽值為+1的樣本點數(shù)為500個。

（2）SMOTE處理非平衡數(shù)據(jù)

SMOTE采用了過采樣技術(shù).它采取了一種基于隨機過采樣的技術(shù)改進解決方案，因為隨機過采樣，采用了簡單的隨機樣本復制策略，只需要增加少量樣本。這樣就會產(chǎn)生過擬合，SMOTE算法的基礎(chǔ)設(shè)計思想就是對少量樣本進行分析，然后再將少量的樣本通過人工合成新的樣本添加到相應的數(shù)據(jù)集中。

（3）數(shù)據(jù)標準化

數(shù)據(jù)標準化主要是指對數(shù)據(jù)進行伸縮，使其處于一個小的指定區(qū)間內(nèi)。它常被廣泛應用于對某些指標進行處理后所做出的比較和評價，去除對數(shù)據(jù)的單位限制，將這些數(shù)據(jù)以一個無量綱的純值的方式轉(zhuǎn)化為純值，便于對不同單位或一個數(shù)量級的指標之間進行相應的比較和加權(quán)。

（4）Spark并行計算

Spark的核心為RDD。可以說我們認為它本身就是一組簡單的只讀的分區(qū)記錄，其中一個RDD包含了多個集群，每個分區(qū)都會存儲一部分的數(shù)據(jù)并保存到整個集群的不同節(jié)點上，不同節(jié)點間進行各自的運算邏輯。整個Spark都圍繞RDD進行展開。RDD創(chuàng)建方式的有兩種，第一種是由外部數(shù)據(jù)存儲文件系統(tǒng)的數(shù)據(jù)集創(chuàng)建的。第二種是計算程序中生成的數(shù)據(jù)集。

3 實現(xiàn)與結(jié)果

3.1 Wrapper特征選擇(RFE)

該算法主要應用于特征選擇。遞歸特征消除法是利用機器學習模型對其進行多輪訓練。每一輪訓練完成后，剔除權(quán)重系數(shù)對應的幾個特征，基于新的特征集再次進行下一輪訓練。也就是說，通過遞歸的方式選出使得某評價指標達到最高的一組特征子集，因此Wrapper特征選擇法的準確率最高，同時時間復雜度也很高。

3.2 隨機森林算法并行化設(shè)計

隨機森林算法因其多棵決策樹共同投票決定結(jié)果的行為，能夠很好地保證結(jié)果準確率，但正是由于這個特性導致整個算法在大數(shù)據(jù)集上耗時過長的問題比較嚴重。改進后的隨機森林算法采用了遞歸式思想，也就是每棵決策樹的生成都要經(jīng)過多次創(chuàng)建，這也使得算法模型的時間復雜度大大增加?，F(xiàn)在Spark已經(jīng)成為分布式領(lǐng)域中最為流行的算法框架。利用Spark MLLib實現(xiàn)隨機森林模型構(gòu)建和并行化，可以大大提高運行效率。

3.3 實驗結(jié)果分析

為了比較不同分類模型的準確率，分別采用了隨機森林、K最近鄰、向量機、神經(jīng)網(wǎng)絡和本文的隨機森林優(yōu)化模型進行比較，如圖1所示。

圖1 ROC曲線圖

通過ROC曲線圖和計算的AUC值，我們可以得到隨機森林優(yōu)化算法所建立的模型比其他分類算法建立的模型分類性能最優(yōu)。

總結(jié)：針對醫(yī)學大量數(shù)據(jù)的高維特征空間、高特征冗余、高相關(guān)性、樣本類別不平衡等特點，提出了一種有效的自適應改進隨機森林算法。通過本文提出的隨機森林優(yōu)化算法，可以對糖尿病進行有效的預測。通過Spark和隨機森林優(yōu)化的方法研究了隨機森林算法如何更好的對糖尿病數(shù)據(jù)集進行預測。并對隨機森林優(yōu)化后的模型與隨機森林、K最近鄰、神經(jīng)網(wǎng)絡和向量機等模型進行對比，結(jié)果表明隨機森林優(yōu)化算法的精度達到81.13%，高于K最近鄰、隨機森林、向量機、神經(jīng)網(wǎng)絡的80.11%、79.84%、77.89%、77.53%的精確度。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡