劉文博, 梁盛楠, 秦喜文, 董小剛*, 王純杰
(1.黔南民族師范學(xué)院 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院, 貴州 都勻 558000;2.長(zhǎng)春工業(yè)大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院, 吉林 長(zhǎng)春 130012)
糖尿病是一組以高血糖為特征的代謝性疾病,高血糖是由于胰島素分泌、胰島素作用缺陷或兩者兼而有之所致[1],其中,Ⅱ型糖尿病是最為常見(jiàn)的類(lèi)型,約占糖尿病患者總數(shù)的90%,該類(lèi)糖尿病是由于胰島素抵抗致使進(jìn)行性胰島素分泌缺陷[2]。糖尿病的發(fā)病率和患病率正在呈現(xiàn)出逐年上升且低齡化的趨勢(shì),已成為我國(guó)乃至世界的重大公共健康安全問(wèn)題[3]。由于多數(shù)患者意識(shí)不到糖尿病患病前期出現(xiàn)的癥狀,以致最終發(fā)展為糖尿病。若在發(fā)病前的潛伏期及早地對(duì)糖尿病風(fēng)險(xiǎn)進(jìn)行有效干預(yù),每年大約有6%~10%的患者不會(huì)發(fā)展為糖尿病[4]。故對(duì)糖尿病進(jìn)行有效預(yù)防和檢測(cè)是一項(xiàng)至關(guān)重要的工作,進(jìn)行干預(yù)的實(shí)質(zhì)就是要盡早地發(fā)現(xiàn)糖尿病風(fēng)險(xiǎn)。
傳統(tǒng)的診斷依據(jù)主要是通過(guò)檢測(cè)餐后血糖和糖化血紅蛋白,進(jìn)而對(duì)糖尿病進(jìn)行評(píng)估,盡管十分精確但成本較高[5];另一方面將醫(yī)生積累多年的個(gè)人經(jīng)驗(yàn)作為重要參考,隨著診斷數(shù)量的增加和疲勞感上升,時(shí)常會(huì)出現(xiàn)誤診或漏診現(xiàn)象。為了有效解決傳統(tǒng)診療方式的弊端,減少治療成本,提高糖尿病預(yù)測(cè)的精度,近年來(lái),基于機(jī)器學(xué)習(xí)算法的各種分類(lèi)器系統(tǒng)在糖尿病、乳腺癌等醫(yī)學(xué)診斷中的應(yīng)用逐漸增多。
Smith等[6]使用Logistic回歸和ADAP方法對(duì)皮瑪族印第安女性糖尿病數(shù)據(jù)集(Pima Indians Women Diabetes)進(jìn)行分類(lèi)預(yù)測(cè),得到相應(yīng)的精度分別為79.17%和76%;Stern等[7]通過(guò)預(yù)測(cè)7.5 a的Ⅱ型糖尿病發(fā)病率,驗(yàn)證了與單純依賴(lài)2 h口服糖耐量試驗(yàn)結(jié)果相比,使用多元Logistic回歸模型可更好地識(shí)別糖尿病高危人群;Raymer等[8]利用Na?ve Bayes 和Nonlinear Bayes分類(lèi)器對(duì)皮瑪族印第安女性糖尿病數(shù)據(jù)集進(jìn)行分類(lèi)研究,在測(cè)試集上的分類(lèi)精度分別為64.6%和70.4%;Eggermont等[9]利用C4.5和Bagged C4.5算法對(duì)皮瑪族印第安女性糖尿病數(shù)據(jù)集進(jìn)行分類(lèi)預(yù)測(cè),獲得的分類(lèi)精度分別為71.6%和75.6%。
以往研究結(jié)果表明,與其它類(lèi)型的糖尿病數(shù)據(jù)集相比較,皮瑪族印第安女性糖尿病數(shù)據(jù)是一類(lèi)比較難分的數(shù)據(jù)集,體現(xiàn)在多數(shù)分類(lèi)算法對(duì)其分類(lèi)時(shí)得到的分類(lèi)精度不高,最差時(shí)僅有60%左右。應(yīng)從更好的檢測(cè)特征間交互作用的角度,來(lái)提高Pima數(shù)據(jù)集的分類(lèi)精度。當(dāng)下很多機(jī)器學(xué)習(xí)方法盡管可以檢測(cè)特征間的交互作用,但并沒(méi)有考慮到不影響預(yù)測(cè)精度的前提下去檢測(cè)“高階交互作用”,諸如CART[10],Node Harvest[11],F(xiàn)orest Garrote[12],Rulefit3[13]和Bayesian epistasis mapping[14]。
為了克服上述算法的缺點(diǎn),在隨機(jī)森林(RF)、隨機(jī)交叉樹(shù)(RITs)的基礎(chǔ)上,通過(guò)廣泛的生物模擬,Basu等[15]開(kāi)發(fā)了迭代隨機(jī)森林算法(Iterative Random Forests, IRF),IRF訓(xùn)練一個(gè)特征加權(quán)的決策樹(shù)集合來(lái)檢測(cè)穩(wěn)定、高階的交互作用,其計(jì)算代價(jià)與RF相同。鑒于此,文中提出一種可識(shí)別高階交互作用的迭代隨機(jī)森林算法,應(yīng)用于Pima糖尿病數(shù)據(jù)集的分類(lèi)預(yù)測(cè)研究。
隨機(jī)森林(Random Forest)是由Breiman[16]提出的,其基本原理為:對(duì)原始數(shù)據(jù)集做多次有放回抽樣(Bootstrap),每次抽取的樣本容量與原始數(shù)據(jù)相同,由于是“有放回”,所以總會(huì)有一些數(shù)據(jù)被重復(fù)抽取,而另外一些根本就沒(méi)被抽取到,由公式(1-1/N)N≈1/e可知,沒(méi)抽到樣本約占原始數(shù)據(jù)集的37%,如此就會(huì)得到許多不同的數(shù)據(jù)集;然后對(duì)每個(gè)數(shù)據(jù)集建立一個(gè)決策樹(shù)(Decision Tree),對(duì)于隨機(jī)森林中每棵樹(shù)的每個(gè)節(jié)點(diǎn),變量的拆分不是由所有變量競(jìng)爭(zhēng),而是由“隨機(jī)挑選”的少數(shù)變量競(jìng)爭(zhēng),且每棵樹(shù)都長(zhǎng)到底,這樣可以避免由于強(qiáng)勢(shì)變量的主宰而忽略數(shù)據(jù)關(guān)系中的細(xì)節(jié),極大地提高了模型對(duì)數(shù)據(jù)的代表性;最后,對(duì)于一個(gè)新的觀測(cè)值,通過(guò)n棵樹(shù)得到n個(gè)預(yù)測(cè)結(jié)果,對(duì)于回歸問(wèn)題取這n個(gè)預(yù)測(cè)值的平均作為最終預(yù)測(cè)結(jié)果,而對(duì)于分類(lèi)問(wèn)題,采取“少數(shù)服從多數(shù)原則”,即n個(gè)預(yù)測(cè)中出現(xiàn)最多的類(lèi)作為最終預(yù)測(cè)類(lèi)。
迭代隨機(jī)森林的基本思想是在隨機(jī)森林的基礎(chǔ)上通過(guò)對(duì)選定的特征進(jìn)行“迭代重新賦權(quán)”(Iterative Re-weighting)得到一個(gè)帶有特征權(quán)重的隨機(jī)森林[17],然后利用泛化的隨機(jī)交叉樹(shù)[18]作用于帶有特征權(quán)重的隨機(jī)森林上,進(jìn)而識(shí)別出特征的高階交互作用,同時(shí)能夠保證迭代隨機(jī)森林也有很好的預(yù)測(cè)能力,至少與隨機(jī)森林不相上下。
迭代隨機(jī)森林的具體工作流程主要為以下三步[19]:
2)泛化的隨機(jī)交叉樹(shù)作用于RF(ωK),其中RF(ωK)為第K次迭代產(chǎn)生的具有特征權(quán)重的隨機(jī)森林,本步驟產(chǎn)生了一組交叉作用集S。
3)Bagged穩(wěn)定得分,我們使用“外層”(Out Layer)自助法用以評(píng)價(jià)重現(xiàn)交叉作用的穩(wěn)定性,生成自助抽樣的數(shù)據(jù)集D(b),b=1,2,…,B,在每一數(shù)據(jù)集D(b)上擬合隨機(jī)森林RF(ωK),并且在每一個(gè)自助抽樣集上使用泛化隨機(jī)交叉樹(shù)來(lái)識(shí)別交互作用集S(b),給出交叉作用集S的穩(wěn)定分?jǐn)?shù)公式
(1)
為了比較不同分類(lèi)模型的優(yōu)劣,需要給出評(píng)價(jià)模型性能的度量指標(biāo),以最常見(jiàn)的二分類(lèi)問(wèn)題為例給出相應(yīng)的模型評(píng)價(jià)指標(biāo)。在二分類(lèi)問(wèn)題中,可將樣本根據(jù)真實(shí)類(lèi)和分類(lèi)模型給出的預(yù)測(cè)類(lèi)的組合,劃分為真正例(True Positive, TP)、假正例(False Positive, FP)、真反例(True Negative, TN)、假反例(False Negative, FN)四種情況[21],令TP、FP、TN、FN分別表示對(duì)應(yīng)的樣本數(shù),易見(jiàn)TP+FP+TN+FN=n,其中n為樣本容量,分類(lèi)結(jié)果的混淆矩陣(Confusion Matrix)見(jiàn)表1。
表1 二分類(lèi)問(wèn)題預(yù)測(cè)結(jié)果的混淆矩陣
分類(lèi)精度(Accuracy)、查準(zhǔn)率(Precision)和查全率(Recall)分別定義為:
(2)
(3)
(4)
盡管分類(lèi)精度可以從總體上較好地刻畫(huà)分類(lèi)模型的分類(lèi)性能,但有時(shí)并不能滿(mǎn)足所有的任務(wù)需求。以醫(yī)學(xué)診斷為例,分類(lèi)精度表明有多少比例的就診人數(shù)被正確歸類(lèi)(患病、無(wú)病),但是往往我們更關(guān)心“被診斷為患病的人群中有多少比例的人確實(shí)患病”或“在所有患病人群中有多少比例的人被診斷為患病”,顯然精度就無(wú)法進(jìn)行衡量了,這就需要借助于式(3)和式(4)的P和R來(lái)進(jìn)行度量。需要指出的是P和R是一對(duì)相互矛盾的度量,即其中一個(gè)量增大,另外一個(gè)量往往減少。
有時(shí)需要綜合P和R去度量一個(gè)分類(lèi)器的好壞,而不是僅就P和R某單一指標(biāo)去評(píng)價(jià)分類(lèi)模型,更為常用的是F1度量
(5)
等價(jià)的可表示為
(6)
式中:F1——基于P和R的調(diào)和平均。
文中研究數(shù)據(jù)來(lái)自于美國(guó)國(guó)家糖尿病消化病腎病研究所,該數(shù)據(jù)集提供了亞利桑那州中南部皮瑪族印第安后裔成年女性(年齡在21歲以上)的糖尿病診斷信息,共786個(gè)觀測(cè)樣本,其中268例被診斷為糖尿病陽(yáng)性,500例為糖尿病陰性。提取的多項(xiàng)相關(guān)糖尿病危險(xiǎn)因素分別為懷孕次數(shù)(npreg)、血糖濃度(glu)、舒張壓(bp)、三頭肌皮褶厚度(skin)、血清胰島素(insulin)、身體質(zhì)量指數(shù)(bmi)、糖尿病家族影響因素(ped)、年齡(age),同時(shí)還提取了一個(gè)類(lèi)別標(biāo)簽,未來(lái)5年是否會(huì)患有糖尿病(type,1代表是,0代表否)。按照世界衛(wèi)生組織的標(biāo)準(zhǔn)進(jìn)行診斷,數(shù)據(jù)集中包含的患者為Ⅱ型糖尿病,即“非胰島素依賴(lài)型”糖尿病。
為了解數(shù)據(jù)集取值基本情況,給出數(shù)據(jù)集中的部分樣本觀測(cè)值,見(jiàn)表2。
表2 皮瑪族成年女性糖尿病診斷信息
為了進(jìn)一步了解屬性特征對(duì)患病類(lèi)別的影響以及數(shù)據(jù)的分布狀況,對(duì)數(shù)據(jù)集進(jìn)行基本的探索性分析,給出數(shù)據(jù)集所有屬性特征對(duì)類(lèi)別標(biāo)簽的箱線(xiàn)圖,如圖1所示。
圖1 皮瑪族印第安成年女性糖尿病數(shù)據(jù)集在類(lèi)別標(biāo)簽下屬性特征取值的分布狀況
由于各個(gè)屬性特征單位不盡相同,需要對(duì)數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化處理,即轉(zhuǎn)換均值為0、標(biāo)準(zhǔn)差為1的形式,進(jìn)而生成更有意義的統(tǒng)計(jì)圖形。圖1給出了每個(gè)類(lèi)別下各個(gè)屬性特征的取值分布狀況,例如患有糖尿病的人群身體質(zhì)量指數(shù)(bmi)、年齡(age)、血糖濃度(glu)明顯要高于非患病人群。由于血清胰島素是人體內(nèi)降低血糖的主要激素,糖尿病患者體內(nèi)血清胰島素含量應(yīng)低于正常人群,從圖1中可以看出,在所有特征中只有血清胰島素(insulin)這一項(xiàng)因素在糖尿病人群中要低于非患病人群,符合實(shí)際情形。
接下來(lái),基于迭代隨機(jī)森林對(duì)影響糖尿病發(fā)展程度的屬性變量做重要性分析,探索出哪些特征對(duì)算法的分類(lèi)精度會(huì)產(chǎn)生主要影響,得到相應(yīng)的變量重要性排序結(jié)果如圖2所示。
圖2(a)是利用“袋外數(shù)據(jù)”(Out of Bag)作為訓(xùn)練集所做的交叉驗(yàn)證得到的度量,表示刪除某個(gè)自變量后平均減少的精度,減少的越多說(shuō)明變量越重要,按照平均減少的精度進(jìn)行變量重要性從大到小排序可得glu、bmi、age、npreg、insulin、ped、skin、bp;圖2(b)為綜合了每個(gè)自變量在各個(gè)節(jié)點(diǎn)的表現(xiàn)而產(chǎn)生的重要性度量(使得數(shù)據(jù)變“純”,即分支節(jié)點(diǎn)所包含的樣本盡可能屬于同一類(lèi)),表示刪除某個(gè)變量后平均減少的基尼指數(shù)[22],減少的越多說(shuō)明變量越重要,按照基尼指數(shù)的減少程度對(duì)變量的重要性從大到小進(jìn)行排序可得glu、bmi、age、ped、bp、npreg、insulin、skin。從排序結(jié)果可以看出,無(wú)論按照哪種衡量標(biāo)準(zhǔn)對(duì)變量的重要程度排序,對(duì)是否患有糖尿病影響最深的三個(gè)變量都是血糖濃度、身體質(zhì)量指數(shù)和年齡,說(shuō)明血糖濃度過(guò)高、肥胖、年齡偏大的人群更易患有糖尿病。所以在糖尿病的預(yù)防工作中,應(yīng)對(duì)血糖濃度和身體質(zhì)量指數(shù)這兩項(xiàng)指標(biāo)應(yīng)加以控制。
(a) 數(shù)據(jù)集平均精度減少率 (b) 數(shù)據(jù)集平均基尼指數(shù)減少率
圖2 基于迭代隨機(jī)森林的皮瑪族糖尿病數(shù)據(jù)集8項(xiàng)屬性特征重要性分析
為了進(jìn)一步提高糖尿病數(shù)據(jù)集的分類(lèi)精度,即能夠?qū)μ悄虿』颊吲c非患者進(jìn)行正確識(shí)別,提出一種“可識(shí)別高階交互作用的迭代隨機(jī)森林算法”,針對(duì)皮瑪族成年女性是否患有糖尿病進(jìn)行判別分類(lèi)研究。文中所建立的分類(lèi)預(yù)測(cè)模型是在Windows7,64位操作系統(tǒng)下實(shí)現(xiàn)的,采用的開(kāi)發(fā)平臺(tái)是R*64 3.5.0,硬件為i3-2310M CPU 2.10 GHz,4 G內(nèi)存。
首先,通過(guò)Bootstrap隨機(jī)抽樣把數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集。在利用迭代隨機(jī)森林進(jìn)行分類(lèi)時(shí),需要設(shè)置迭代次數(shù),為了比較不同次數(shù)是否會(huì)產(chǎn)生不同的分類(lèi)效果,設(shè)置迭代次數(shù)為8次,基于測(cè)試集各個(gè)迭代次數(shù)下得到的A、P、R和F1度量見(jiàn)表3。
從表3可以看出,當(dāng)訓(xùn)練集與測(cè)試集樣本比例為7∶3時(shí),進(jìn)行到4次迭代隨機(jī)森林分類(lèi)時(shí),模型A達(dá)到最大為78.21%,意味著在100個(gè)樣本中大約有78個(gè)樣本被正確歸類(lèi);在3次迭代時(shí)P達(dá)到最大為70.27%,意味著在100個(gè)被預(yù)測(cè)為患病人群中大約有70人確實(shí)患??;在8次迭代時(shí)R達(dá)到最大為63.22%,表明100個(gè)患病人群中,約有63人能夠被正確識(shí)別為患病;在第4次迭代時(shí),綜合考慮了P與R性能的F1度量達(dá)到最大為65.85%,綜合考慮各個(gè)評(píng)價(jià)指標(biāo),可以認(rèn)為在迭代隨機(jī)森林進(jìn)行到第4次迭代時(shí),得到的分類(lèi)模型最優(yōu)。通過(guò)表3得到的實(shí)驗(yàn)結(jié)果可知,為了得到更好的A、P、R,不必一味增大迭代的次數(shù),對(duì)于次數(shù)的設(shè)置一般3~6次即可。
表3 迭代隨機(jī)森林不同迭代次數(shù)下A、P、R和F1度量 %
注:訓(xùn)練集與測(cè)試集樣本比為7∶3。
迭代隨機(jī)森林最明顯的優(yōu)勢(shì)就是可以靈活地調(diào)整迭代次數(shù),最優(yōu)的A、P、R可能分別對(duì)應(yīng)不同的迭代次數(shù)。例如表3中顯示,最好的A在第4次時(shí)出現(xiàn),而最好的R卻在第8次時(shí)出現(xiàn)。因此迭代隨機(jī)森林為我們提供了更多的選擇余地,如果我們更關(guān)心A,可以選第4次迭代時(shí)的隨機(jī)森林模型;如果更傾向于R,可以選定第8次迭代產(chǎn)生的隨機(jī)森林模型。需要強(qiáng)調(diào)的是,在實(shí)際中相比于A,可能更關(guān)心R,即在患病人群中可以被正確識(shí)別為患病的比率,如果可以獲得更高的R,那么在患病人群中就會(huì)有更多的糖尿病患者被正確診斷,進(jìn)而得到及時(shí)治療。
為了對(duì)比不同分類(lèi)模型的精度,分別采用隨機(jī)森林(Random Forest, RF)、K最近鄰(K-Nearest Neighbor, KNN)、基于不同核函數(shù)的支持向量機(jī)(Support Vector Machine, SVM)、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)、Logistic回歸(Logistic Regression, LR)和梯度提升機(jī)方法(Gradient Boosting Machine, GBM)、決策樹(shù)(Decision Tree, DT)與迭代隨機(jī)森林(Iterative Random Forests, IRF)進(jìn)行比較,基于測(cè)試集得到的A、P、R、F1度量和運(yùn)行時(shí)間見(jiàn)表4和表5。
表4 不同分類(lèi)模型A、P、R、F1度量和運(yùn)行時(shí)間對(duì)比 %
注:訓(xùn)練集與測(cè)試集樣本比為7∶3。
表5 不同分類(lèi)A、P、R、F1度量和運(yùn)行時(shí)間對(duì)比 %
注:訓(xùn)練集與測(cè)試集樣本比為8∶2。
由表4和表5可以看出,對(duì)皮瑪族成年女性是否患有糖尿病進(jìn)行判別分類(lèi)時(shí),在8種分類(lèi)模型中,迭代隨機(jī)森林的A是最高的。當(dāng)訓(xùn)練集與測(cè)試集樣本比為7∶3時(shí),A為78.21%、R為66.04%和F1度量的68.63%均為所有方法中最高的,而P在所有方法中排名第二,僅稍低于基于多項(xiàng)式核函數(shù)的支持向量機(jī)。當(dāng)訓(xùn)練集與測(cè)試集樣本比為8∶2時(shí),迭代隨機(jī)森林的A、P、R、F1度量均為所有分類(lèi)方法中最高的,可見(jiàn)其分類(lèi)優(yōu)勢(shì)明顯優(yōu)于其它分類(lèi)模型。
從算法運(yùn)行時(shí)間效率的角度進(jìn)行比對(duì),可以看出,基于8次迭代隨機(jī)森林基于30%和20%的測(cè)試集用時(shí)分別為3.68 s和3.34 s,只少于支持向量機(jī),但是應(yīng)考慮到迭代隨機(jī)森林要生成多個(gè)帶有權(quán)重的森林,在算法默認(rèn)的情形下,每個(gè)森林包含500顆決策樹(shù),同時(shí)該算法能保證提高分類(lèi)預(yù)測(cè)的精度,可以認(rèn)為迭代隨機(jī)森林算法運(yùn)行已經(jīng)十分高效。
接下來(lái)繪制各個(gè)分類(lèi)器下的ROC(Receiver Operating Characteristic)曲線(xiàn)[23],并計(jì)算ROC曲線(xiàn)下的面積值A(chǔ)UC[24](Area Under ROC Curve),進(jìn)而更為直觀地比較各個(gè)分類(lèi)模型孰優(yōu)孰劣,對(duì)應(yīng)于文中的8個(gè)分類(lèi)器的ROC曲線(xiàn)和AUC值如圖3所示。
圖3 基于30%的測(cè)試集迭代隨機(jī)森林、隨機(jī)森林、K最近鄰、支持向量機(jī)、Logistic 回歸、梯度提升機(jī)、決策樹(shù)和人工神經(jīng)網(wǎng)絡(luò)分類(lèi)模型的ROC曲線(xiàn)以及相應(yīng)的AUC值
圖3給出了各個(gè)分類(lèi)算法的ROC曲線(xiàn)和AUC值,如果一個(gè)分類(lèi)器的ROC曲線(xiàn)被另外一個(gè)分類(lèi)器的ROC曲線(xiàn)完全包住,則可認(rèn)為后者的性能要優(yōu)于前者,按照這個(gè)原則可以看出,迭代隨機(jī)森林、隨機(jī)森林和K最近鄰三個(gè)分類(lèi)模型的ROC曲線(xiàn)顯然包住了其它分類(lèi)器的ROC曲線(xiàn),說(shuō)明這三個(gè)分類(lèi)器的分類(lèi)效果要優(yōu)于其它分類(lèi)模型。由于迭代隨機(jī)森林、隨機(jī)森林和K最近鄰的ROC曲線(xiàn)之間存在交叉,此時(shí)就要借助于AUC的值,即計(jì)算ROC曲線(xiàn)下方的面積比較分類(lèi)器之間的性能,圖3的最右側(cè)給出了各個(gè)分類(lèi)模型對(duì)應(yīng)的AUC值,迭代隨機(jī)森林的AUC值為0.742 7,高于K最近鄰的0.740 7和隨機(jī)森林的0.736 8。
通過(guò)實(shí)驗(yàn)對(duì)比,無(wú)論是基于A、P、R、F1度量,還是借助于ROC曲線(xiàn)和AUC值,可以得出迭代隨機(jī)森林對(duì)于皮瑪族印第安女性糖尿病數(shù)據(jù)集的分類(lèi)性能,是眾多的分類(lèi)算法中最優(yōu)的。正是由于“迭代隨機(jī)森林算法”可以較好檢驗(yàn)出特征間的高階交互作用,因此,在提高數(shù)據(jù)集的預(yù)測(cè)精度上表現(xiàn)的更為出色。
提出一種可檢測(cè)變量特征間交互作用的迭代隨機(jī)森林算法,應(yīng)用于皮瑪族成年女性Ⅱ型糖尿病數(shù)據(jù)集分類(lèi)研究。借助于迭代隨機(jī)森林算法,基于精度與基尼系數(shù)的平均減少量給出了影響糖尿病病情屬性特征的重要性排序,發(fā)現(xiàn)血糖濃度、身體質(zhì)量指數(shù)和年齡是影響糖尿病病情的三項(xiàng)最重要指標(biāo)。
為了橫向比較迭代隨機(jī)森林與目前主流的機(jī)器學(xué)習(xí)方法的分類(lèi)效果,分別選取隨機(jī)森林、K最近鄰、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、Logistic回歸、梯度提升機(jī)和決策樹(shù)方法對(duì)皮瑪族糖尿病數(shù)據(jù)集進(jìn)行分類(lèi)。實(shí)驗(yàn)分析表明,基于30%和20%的測(cè)試集迭代隨機(jī)森林的精度分別達(dá)到78.21%和80.37%,優(yōu)于其它的7種分類(lèi)模型;同時(shí)又借助于ROC曲線(xiàn)和AUC值,在基于30%的測(cè)試集上,迭代隨機(jī)森林的ROC曲線(xiàn)也在其它分類(lèi)模型ROC曲線(xiàn)的上方且AUC值也是所有分類(lèi)方法中最高的。
通過(guò)迭代隨機(jī)森林算法可以對(duì)糖尿病進(jìn)行有效地監(jiān)測(cè)與識(shí)別,并挖掘出患病因素,及時(shí)地對(duì)糖尿病作出提早預(yù)防和風(fēng)險(xiǎn)控制,進(jìn)而降低醫(yī)療成本,減少誤診率。