国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

集成學習算法在疾病預測中的應用研究

2020-07-18 11:28丁偉民
科學大眾 2020年5期
關鍵詞:堆棧隨機森林

摘 要:文章分析了3種集成學習框架,在3個疾病數(shù)據(jù)集上對3種典型的集成學習算法進行比較,結果表明:基于Stacking的集成算法在疾病預測方面表現(xiàn)良好。

關鍵詞:集成學習;隨機森林;堆棧

近年來,眾多學者將集成學習應用到醫(yī)療診斷中,以提高疾病預測的準確率,如苗豐順等[1]提出了一種新型的Boosting算法,預測糖尿病患者。王榮政等[2]應用集成學習,識別血糖異常個體。本文應用3種不同的集成學習算法,對3種疾病機型進行分類預測,以比較3種算法在疾病預測方面的性能。

1 ? ?3種集成學習框架

集成學習的主要方法有提升(Boosting)、裝袋(Bagging)和堆棧(Stacking)。Boosting是一類能夠將弱學習器轉化為強學習器的算法,它在訓練當前學習器之前通過給予被先前學習器錯誤標記的樣本更高的權值,讓當前學習器在先前學習器的錯誤樣本上有更好的表現(xiàn)。Bagging隨機抽?。ㄓ蟹呕兀?shù)據(jù)集里的樣本M次,訓練得到M個學習器,然后用投票的方法集成。Stacking通常是一個兩層結構,選擇訓練多個不同類型的基礎分類器來生成元級數(shù)據(jù),然后應用元級數(shù)據(jù)訓練形成元分類器。近年來,學者發(fā)現(xiàn)Stacking在集成學習方面表現(xiàn)了良好的性能。

2 ? ?數(shù)據(jù)集合評價準則

實驗在3個公共數(shù)據(jù)集上進行,包括:肝臟疾病數(shù)據(jù)集(Hepatitis)、皮膚疾病數(shù)據(jù)集(Dermatology)和乳腺癌數(shù)據(jù)集(Breast-w),如表1所示。

實驗采用查全率、查準率和F1值3種方法衡量集成算法的性能。查準率表示為判定為陽性的實例中實際陽性實例的比例,查全率表示分類器正確預測的陽性實例的比率,F(xiàn)1值表示查全率和查準率的調和均值。

3 ? ?實驗與分析

實驗基于WEKA平臺進行,選擇集成算法AdaBoostM1和Bagging,并構建Stacking-RF(Randomforest作為元分類器,NaiveBasye,SimpleLogistic和J48作為個體分類器)。

數(shù)據(jù)集Hepatitis,AdaBoostM1,Bagging和Stacking-RF的查準率分別為0.831,0.781和0.842。數(shù)據(jù)集Dermatology,AdaBoostM1,Bagging和Stacking-RF的查準率分別為0.276,0.926和0.978。數(shù)據(jù)集Breast-w,AdaBoostM1,Bagging和Stacking-RF的查準率分別為0.953,0.956和0.961。數(shù)據(jù)集Hepatitis,AdaBoostM1,Bagging和Stacking-RF的查全率分別為0.839,0.806和0.852。數(shù)據(jù)集Dermatology,AdaBoostM1,Bagging和Stacking-RF的查全率分別為0.503,0.923和0.978。數(shù)據(jù)集Breast-w,AdaBoostM1,Bagging和Stacking-RF的查全率分別為0.953,0.956和0.961。數(shù)據(jù)集Hepatitis,AdaBoostM1,Bagging和Stacking-RF的F1值分別為0.833,0.785和0.845。數(shù)據(jù)集Dermatology,AdaBoostM1,Bagging和Stacking-RF的F1值分別為0.350,0.923和0.978。數(shù)據(jù)集Breast-w,AdaBoostM1,Bagging和Stacking-RF的F1值分別為0.953,0.956和0.961。

數(shù)據(jù)集Hepatitis,Stacking-RF在查全率上優(yōu)于AdaBoostM1 1.5%,優(yōu)于Bagging 5.7%。在查準率上,優(yōu)于AdaBoostM1 1.3%,優(yōu)于Bagging 7.8%。在F1值上優(yōu)于AdaBoostM1 1.4%,優(yōu)于Bagging 7.6%。同樣,在Dermatology和Breast-w兩個數(shù)據(jù)集上,Stacking-RF均優(yōu)于另外兩種集成算法。因此,從實驗效果上,可以看出Stacking集成算法在疾病預測方面展示了良好的性能。

4 ? ?結語

首先,本文分析分析了3種集成學習框架;其次,在3個疾病數(shù)據(jù)集上對3種典型的集成學習算法進行了比較,結果表明,基于Stacking的集成算法在疾病預測方面表現(xiàn)良好。

[參考文獻]

[1]苗豐順,李巖,高岑,等.基于CatBoost算法的糖尿病預測方法[J].計算機系統(tǒng)應用,2019(9):215-218.

[2]王榮政,廖賢藝,陳湘萍,等.基于集成學習融合模型的血糖預測[J].醫(yī)學信息學雜志,2019(1):63-66,88.

作者簡介:丁偉民(1979— ),男,漢族,山東濰坊人,講師,碩士;研究方向:計算機應用技術。

猜你喜歡
堆棧隨機森林
基于SpringBoot結果集序列化過濾插件的研究與實現(xiàn)
Stacking算法在醫(yī)療健康數(shù)據(jù)中的應用研究
基于生成語法的句子理解機制
Windows棧緩沖區(qū)溢出攻擊原理及其防范
緩沖區(qū)溢出安全編程教與學
隨機森林在棉蚜蟲害等級預測中的應用
基于二次隨機森林的不平衡數(shù)據(jù)分類算法
拱壩變形監(jiān)測預報的隨機森林模型及應用
基于隨機森林算法的飛機發(fā)動機故障診斷方法的研究
基于隨機森林算法的B2B客戶分級系統(tǒng)的設計
禹城市| 治多县| 兴城市| 玛多县| 本溪| 旬邑县| 高青县| 阿拉善左旗| 思南县| 会宁县| 宝应县| 富顺县| 自贡市| 富源县| 宁远县| 咸丰县| 黎川县| 济阳县| 阜阳市| 沧州市| 武山县| 崇州市| 灵川县| 缙云县| 杭锦旗| 罗平县| 绥中县| 定日县| 鹤岗市| 阳江市| 永清县| 十堰市| 红河县| 东城区| 泗洪县| 龙江县| 黄山市| 睢宁县| 麻栗坡县| 黄石市| 万安县|