*王 博,莊暨軍,熊 軍,羅小臣
(1. 井岡山大學電子與信息工程學院,江西,吉安 343009;2. 井岡山大學學報編輯部,江西,吉安 343009;3. 井岡山大學計財處,江西,吉安 343009;4. 井岡山大學圖書館,江西,吉安 343009)
隨機森林算法(RF)算法是集成學習(Ensemble Learning)算法中的典型代表之一。算法基于統(tǒng)計學習理論,采用自助重采樣技術(Bootstrap Sampling)
從訓練樣本中抽取多個樣本集,利用抽取的樣本集分別構建決策樹模型,然后將若干個決策樹聚集在一起,通過多數(shù)投票或取平均得到最終結(jié)果。決策樹算法與集成學習思想是構建RF 算法的基石。
隨機森林算法具有能容忍高數(shù)據(jù)噪音,同時也具有高預測精度,而被眾多學者廣泛運用到社會中各個領域。比如文獻[1]中,Chai.Z 將隨機森林算法運用到工業(yè)故障分類,提高了故障檢測精度;文獻[2]中,Cheng.Li 在交通運輸領域中運用隨機森林算法,極大提升了運輸效率和承載率;ZAFARI.A 在文獻[3]中的評估管理領域運用隨機森林算法,得到了更加準確的評估預測結(jié)果。但即便如此,隨機森林算法仍然存在自身的缺陷:在對高維度特征進行篩選和選取的有效率比較低、對動態(tài)數(shù)據(jù)聚類的泛化誤差估值較大。針對這些缺陷,國內(nèi)外學者對隨機森林算法做了許多改進優(yōu)化的研究。在文獻[4]中,王德軍等將基于時間序列數(shù)據(jù)對隨機森林分類算法優(yōu)化,結(jié)果提高了10%的分類精度;文獻[5]中,劉曙光等提出的多時相遙感數(shù)據(jù)結(jié)合隨機森林特征變量優(yōu)化方法,將總體分類精度提高了近9%;王磊等在文獻[6]中采用聚類欠采樣加權隨機森林算法,提高了預測精度。以上的算法優(yōu)化對提高隨機森林算法的預測精度和分類精度都取得了很大進展,但是在對高維數(shù)據(jù)劃分特征度量時如何提高聚類性能,目前研究比較欠缺。
特征選擇是從原始特征集中抽取部分特征,使其能達到降低特征維度提高算法性能的效果。算法在構建決策樹時,會隨機的抽取部分特征,利用特征評估方法選出其中分類效果最好,即最重要的特征作為分裂特征,這為隨機森林進行特征選擇奠定了理論基礎。但由于隨機森林算法在構建過程中引入了特征隨機選擇策略,所以單純的根據(jù)特征在決策樹節(jié)點被選為分裂特征的次數(shù)來判斷特征是否重要的方法是不可取的。Breiman 在對隨機森林進行系統(tǒng)的分析后,提出使用袋外數(shù)據(jù)內(nèi)部估計方法監(jiān)測隨機森林的誤差,并將其作為隨機森林度量特征重要性的依據(jù)。
現(xiàn)嘗試用一種高維聚類優(yōu)化算法,針對高維特征數(shù)據(jù)集,采用K 均值聚類和模糊C 均值聚類相結(jié)合的方法,對數(shù)據(jù)集的高維特征聚類,傳統(tǒng)隨機森林算法進行優(yōu)化,通過計算DBI、根據(jù)相關性閾值排序,篩選出高維特征簇群,以達到提高高維特征數(shù)據(jù)集聚類效果的目的。實驗結(jié)果證明,該方法是切實有效的。
傳統(tǒng)隨機森林算法中,對高維數(shù)據(jù)特征度量時運用的方法主要是隨機置換法。即在首先對高維數(shù)據(jù)的所有相關特征進行隨機置換,置換后再進行迭代測試,根據(jù)測試結(jié)果的誤差變化越大,則代表該特征的相關程度越高。
從以上步驟可以看出,隨著訓練數(shù)據(jù)集的不斷增加,高維數(shù)據(jù)特征需要的訓練時間、空間性能呈指數(shù)級增加,最終將造成訓練速度緩慢、訓練效果降低的后果。本文將采取高維聚類的方法,對傳統(tǒng)算法加以優(yōu)化,以提高傳統(tǒng)隨機森林算法在高維數(shù)據(jù)訓練方面的性能。
本文采用KM 聚類(K 均值聚類)、FCM 聚類(模糊C-均值)兩種聚類方法相結(jié)合,根據(jù)樣本相似度劃分族群,對高維數(shù)據(jù)集特征進行聚類。根據(jù)這兩種聚類算法得到的DBI(聚類有效性)值,取DBI 最小值為最佳類數(shù)。
2.1.1 KM 聚類
根據(jù)文獻[9]的研究,當DBI 的值與聚類效果成正比,所以,當DBI 值最小時,表示此時的聚類類數(shù)為最佳值。
2.2.1 HDFC-RF 特征評估算法
2.2.2 HDFC-RF 算法流程圖
根據(jù)上述的介紹,將HDFC-RF 算法流程歸納如下:
圖1 HDFC-RF 算法流程圖Fig.1 HDFC-RF algorithm flow chart
將文獻[10]和文獻[11]中的高維數(shù)據(jù)集Colon Tumor 作為輸入數(shù)據(jù)集。Colon Tumor 屬于生物數(shù)據(jù)集,在同等樣本規(guī)模下,具有更高維的數(shù)據(jù)特征,符合本文HDFC-RF 算法對高維數(shù)據(jù)特征聚類的訓練數(shù)據(jù)集要求。
表1 實驗數(shù)據(jù)集Table 1 Experimental data set
將本文的HDFC-RF 算法與傳統(tǒng)的RF 算法、文獻[6]中的FSRF 算法進行比較,為了得到更穩(wěn)定的結(jié)果,將三種算法運行30 次的均值作為最終結(jié)果。實驗結(jié)果對比如圖2、圖3 所示:
圖2 HDFC-RF、FSRF、RF 聚類效果對比Fig.2 Training effect comparison of HDFC-RF&FSRF&RF
圖.3 HDFC-RF、FSRF、RF 訓練時間對比Fig.3 Training Time comparison of HDFC-RF&FSRF&RF
根據(jù)以上兩圖可以得到如下結(jié)論:
1)圖2 表明,在數(shù)據(jù)集訓練中,HDFC-RF 算法在重要特征集的前10 個特征就達到了最佳的分類效果,而傳統(tǒng)的RF 算法和FSRF 算法則分別需要近40 和60 個特征??梢娡葮颖緮?shù)的情況下,HDFC-RF 能達到更好的聚類效果。
2)圖3 表明,在數(shù)據(jù)集訓練的時間上,HDFC-RF 訓練時間為8 s,而FSRF 和RF 算法分別為15 s 和40 s,顯然HDFC-RF 訓練所需的時間比FSRF、RF 都要明顯縮短,速度得到了提高,說明HDFC-RF 算法具有更加高效的訓練效率。
針對傳統(tǒng)的隨機森林算法在對高維特征數(shù)據(jù)集計算速度慢、聚類效果不佳的缺陷,提出了一種基于高維特征聚類的隨機森林算法(HDFC-RF),即在提取高維特征數(shù)據(jù)集聚類時,采用K 均值聚類和模糊C-均值結(jié)合的算法,通過計算DBI 指標和對高維特征簇排序后,與相關性閾值δ比較,得到最終的高維特征序列。實驗結(jié)果表明,經(jīng)過本文HDFC-RF 優(yōu)化后的隨機森林算法,具有更好的聚類效果、訓練速度也更快,具備良好的可行性。