摘 要:文章分析了3種集成學習框架,在3個疾病數(shù)據(jù)集上對3種典型的集成學習算法進行比較,結果表明:基于Stacking的集成算法在疾病預測方面表現(xiàn)良好。
關鍵詞:集成學習;隨機森林;堆棧
近年來,眾多學者將集成學習應用到醫(yī)療診斷中,以提高疾病預測的準確率,如苗豐順等[1]提出了一種新型的Boosting算法,預測糖尿病患者。王榮政等[2]應用集成學習,識別血糖異常個體。本文應用3種不同的集成學習算法,對3種疾病機型進行分類預測,以比較3種算法在疾病預測方面的性能。
1 ? ?3種集成學習框架
集成學習的主要方法有提升(Boosting)、裝袋(Bagging)和堆棧(Stacking)。Boosting是一類能夠將弱學習器轉化為強學習器的算法,它在訓練當前學習器之前通過給予被先前學習器錯誤標記的樣本更高的權值,讓當前學習器在先前學習器的錯誤樣本上有更好的表現(xiàn)。Bagging隨機抽?。ㄓ蟹呕兀?shù)據(jù)集里的樣本M次,訓練得到M個學習器,然后用投票的方法集成。Stacking通常是一個兩層結構,選擇訓練多個不同類型的基礎分類器來生成元級數(shù)據(jù),然后應用元級數(shù)據(jù)訓練形成元分類器。近年來,學者發(fā)現(xiàn)Stacking在集成學習方面表現(xiàn)了良好的性能。
2 ? ?數(shù)據(jù)集合評價準則
實驗在3個公共數(shù)據(jù)集上進行,包括:肝臟疾病數(shù)據(jù)集(Hepatitis)、皮膚疾病數(shù)據(jù)集(Dermatology)和乳腺癌數(shù)據(jù)集(Breast-w),如表1所示。
實驗采用查全率、查準率和F1值3種方法衡量集成算法的性能。查準率表示為判定為陽性的實例中實際陽性實例的比例,查全率表示分類器正確預測的陽性實例的比率,F(xiàn)1值表示查全率和查準率的調和均值。
3 ? ?實驗與分析
實驗基于WEKA平臺進行,選擇集成算法AdaBoostM1和Bagging,并構建Stacking-RF(Randomforest作為元分類器,NaiveBasye,SimpleLogistic和J48作為個體分類器)。
數(shù)據(jù)集Hepatitis,AdaBoostM1,Bagging和Stacking-RF的查準率分別為0.831,0.781和0.842。數(shù)據(jù)集Dermatology,AdaBoostM1,Bagging和Stacking-RF的查準率分別為0.276,0.926和0.978。數(shù)據(jù)集Breast-w,AdaBoostM1,Bagging和Stacking-RF的查準率分別為0.953,0.956和0.961。數(shù)據(jù)集Hepatitis,AdaBoostM1,Bagging和Stacking-RF的查全率分別為0.839,0.806和0.852。數(shù)據(jù)集Dermatology,AdaBoostM1,Bagging和Stacking-RF的查全率分別為0.503,0.923和0.978。數(shù)據(jù)集Breast-w,AdaBoostM1,Bagging和Stacking-RF的查全率分別為0.953,0.956和0.961。數(shù)據(jù)集Hepatitis,AdaBoostM1,Bagging和Stacking-RF的F1值分別為0.833,0.785和0.845。數(shù)據(jù)集Dermatology,AdaBoostM1,Bagging和Stacking-RF的F1值分別為0.350,0.923和0.978。數(shù)據(jù)集Breast-w,AdaBoostM1,Bagging和Stacking-RF的F1值分別為0.953,0.956和0.961。
數(shù)據(jù)集Hepatitis,Stacking-RF在查全率上優(yōu)于AdaBoostM1 1.5%,優(yōu)于Bagging 5.7%。在查準率上,優(yōu)于AdaBoostM1 1.3%,優(yōu)于Bagging 7.8%。在F1值上優(yōu)于AdaBoostM1 1.4%,優(yōu)于Bagging 7.6%。同樣,在Dermatology和Breast-w兩個數(shù)據(jù)集上,Stacking-RF均優(yōu)于另外兩種集成算法。因此,從實驗效果上,可以看出Stacking集成算法在疾病預測方面展示了良好的性能。
4 ? ?結語
首先,本文分析分析了3種集成學習框架;其次,在3個疾病數(shù)據(jù)集上對3種典型的集成學習算法進行了比較,結果表明,基于Stacking的集成算法在疾病預測方面表現(xiàn)良好。
[參考文獻]
[1]苗豐順,李巖,高岑,等.基于CatBoost算法的糖尿病預測方法[J].計算機系統(tǒng)應用,2019(9):215-218.
[2]王榮政,廖賢藝,陳湘萍,等.基于集成學習融合模型的血糖預測[J].醫(yī)學信息學雜志,2019(1):63-66,88.
作者簡介:丁偉民(1979— ),男,漢族,山東濰坊人,講師,碩士;研究方向:計算機應用技術。