崔東文 郭 榮
(1.云南省文山州水務(wù)局,云南 文山 663000;2.云南省文山州文山市水務(wù)局,云南 文山 663000)
隨機(jī)森林(random forest,RF)是由Leo Breiman提出的一種集成機(jī)器學(xué)習(xí)方法,可應(yīng)用于分類問題、回歸問題以及特征選擇問題,其主要利用Bootsrap重抽樣方法從原始樣本中抽取多個樣本,對每個Bootsrap樣本進(jìn)行決策樹建模,然后組合多棵決策樹通過投票方式得出最終評價結(jié)果[1].由于RF是基于決策樹分類器的融合算法,可以看成由很多弱分類器(決策樹)集成的強(qiáng)分類器,可有效避免“過擬合”和“欠擬合”現(xiàn)象的發(fā)生,對解決多變量預(yù)測具有很好的效果,被譽(yù)為當(dāng)前最好的機(jī)器學(xué)習(xí)算法之一[2-3],已在各領(lǐng)域及水利行業(yè)[2-7]中得到應(yīng)用.在實(shí)際應(yīng)用中,對于不同的預(yù)測對象,RF決策樹數(shù)量ntree和分裂屬性個數(shù)mtry是不同的,二者成為決定RF預(yù)測或分類性能的關(guān)鍵性因素.目前普遍采用試湊的方法[3,8]或網(wǎng)絡(luò)搜索的方法[1,9]確定決策樹數(shù)量、分裂屬性個數(shù),但取值效果往往不理想.群體智能算法(SIA)由于具有靈活性、穩(wěn)健性等特點(diǎn)以及分布性、簡單性、可擴(kuò)充性等優(yōu)點(diǎn)已在RF決策樹數(shù)量、分裂屬性個數(shù)的優(yōu)化中得到應(yīng)用,如趙東等人[10]利用果蠅優(yōu)化算法(FOA)對RF關(guān)鍵參數(shù)進(jìn)行優(yōu)化,通過構(gòu)建FOA-RF模型對蟲害數(shù)據(jù)進(jìn)行預(yù)測,結(jié)果表明該模型具有較好的預(yù)測精度.王杰等人[11]提出一種基于粒子群優(yōu)化(PSO)算法的加權(quán)隨機(jī)森林分類模型,通過6組實(shí)驗(yàn)數(shù)據(jù)驗(yàn)證了該模型具有良好的分類效果.周博翔等人[12]提出一種蜜蜂交配優(yōu)化隨機(jī)森林算法(HBMORF)用于人體姿態(tài)識別,并通過實(shí)驗(yàn)證明了該模型的識別性能和穩(wěn)定性能.
為進(jìn)一步拓展群智能算法優(yōu)化RF兩個關(guān)鍵參數(shù)的應(yīng)用范疇,本文提出一種基于隨機(jī)漂移粒子群(random drift particle swarm optimization,RDPSO)算法優(yōu)化的RF預(yù)測方法,利用RDPSO算法優(yōu)化RF決策樹數(shù)量和分裂屬性個數(shù)兩個關(guān)鍵參數(shù),構(gòu)建RDPSO-RF預(yù)測模型,并構(gòu)建基于RDPSO算法優(yōu)化的支持向量機(jī)(SVM)、BP神經(jīng)網(wǎng)絡(luò)預(yù)測模型作對比,以云南省某水文站枯水期1~3月月徑流預(yù)測為例進(jìn)行實(shí)例研究,旨在驗(yàn)證RDPSO-RF模型用于水文預(yù)測預(yù)報的可行性和有效性.
隨機(jī)漂移粒子群(RDPSO)算法是孫俊等人受PSO算法的軌跡分析和金屬導(dǎo)體中自由電子定向漂移運(yùn)動、隨機(jī)無規(guī)則熱運(yùn)動啟發(fā)而提出來的一種具有較強(qiáng)全局搜索的群體智能算法.RDPSO算法中自由電子的定向漂移運(yùn)動類似于粒子的局部搜索,隨機(jī)無規(guī)則熱運(yùn)動類似于粒子的全局搜索[13].參考文獻(xiàn)[13-15],RDPSO算法數(shù)學(xué)描述如下:
設(shè)RDPSO算法搜索過程中第t+1代的第i個粒子在第j維的定向漂移運(yùn)動速度表示,隨機(jī)熱運(yùn)動速度表示則第t+1代粒子運(yùn)動速度的更新公式表示為:
基于PSO算法粒子趨向局部位置原理,定義定向漂移運(yùn)動速度
式中,c1、c2表示常數(shù),本文均設(shè)置為表示在(0,1)區(qū)間內(nèi)均勻分布的隨機(jī)數(shù);表示第i個粒子當(dāng)前最佳位置表示所有粒子個體當(dāng)前最優(yōu)位置.
式(2)可表示如下:
基于無規(guī)則隨機(jī)運(yùn)動Maxwell速率分布率,定義無規(guī)則隨機(jī)熱運(yùn)動速度如式(6):
綜上,RDPSO算法中粒子速度和位置更新公式表示為:
隨機(jī)森林(RF)算法是由Leo Breiman[16]提出的基于決策樹分類器的融合算法,該算法通過隨機(jī)的方法建立一個由許多決策樹組成的森林,每棵決策樹之間沒有關(guān)聯(lián);每棵決策樹均采用bootstrap方法進(jìn)行采樣,隨機(jī)產(chǎn)生k個訓(xùn)練集,利用每個訓(xùn)練集生成對應(yīng)的決策樹;再從所有M個決策屬性中隨機(jī)抽取m個屬性進(jìn)行預(yù)測;在訓(xùn)練過程中,一般m的取值維持不變;訓(xùn)練結(jié)束后,當(dāng)測試樣本輸入時,每棵決策樹均對測試樣本進(jìn)行預(yù)測,并將所有決策樹中出現(xiàn)最多的投票結(jié)果作為最終預(yù)測結(jié)果,具體算法步驟見文獻(xiàn)[4,11,17].
假設(shè)對于一個測試樣本x,第l棵決策樹的輸出為ftree,l(x)=i,i=1,2,…,c,即為其對應(yīng)的輸出值,l=1,2,…,L,L為RF中的決策樹棵數(shù),則RF的輸出可表示為:
式中,I(·)表示滿足括號中表達(dá)式的樣本個數(shù).
研究表明,決策樹數(shù)量ntree和分裂屬性個數(shù)mtry的合理選取是提高RF預(yù)測精度的關(guān)鍵,ntree設(shè)置過小易使RF訓(xùn)練不充分而導(dǎo)致模型“欠擬合”,設(shè)置太大又易使RF過度訓(xùn)而導(dǎo)致“過擬合”;同樣,mtry設(shè)置太小易使RF過度訓(xùn)練而導(dǎo)致“過擬合”,設(shè)置太大會使得RF訓(xùn)練不充分而導(dǎo)致模型“欠擬合”.“過擬合”、“過擬合”均會降低RF模型的預(yù)測或分類性能[18].本文基于Matlab軟件環(huán)境和隨機(jī)森林工具箱,利用RDPSO算法尋優(yōu)RF關(guān)鍵參數(shù)決策樹數(shù)量(ntree)和分裂屬性個數(shù)(mtry).
RDPSO-RF模型預(yù)測實(shí)現(xiàn)步驟可歸納如下(RDPSO-SVM、RDPSO-BP模型預(yù)測步驟可參考實(shí)現(xiàn)):
Step1:合理劃分訓(xùn)練樣本和預(yù)測樣本.設(shè)定決策樹數(shù)量ntree和分裂屬性個數(shù)mtry搜尋范圍.
Step2:確定RDPSO-RF模型適應(yīng)度函數(shù).本文選用訓(xùn)練樣本平均相對誤差絕對值之和作為適應(yīng)度函數(shù),描述如式(13):
式中,yi為第i個樣本實(shí)測值為第i個樣本模擬值.
Step3:設(shè)置RDPSO算法群體大小N,最大迭代次數(shù)T,最大、最小熱敏系數(shù)α,常數(shù)c1和c2.設(shè)置當(dāng)前迭代次數(shù)t=0,初始化粒子位置和速度.
Step4:計(jì)算漂移系數(shù)β,依據(jù)式(8)群體平均最優(yōu)位置.
Step5:基于式(13)計(jì)算目標(biāo)適應(yīng)度值,更新全局最優(yōu)位置G和粒子局部最優(yōu)位置P.
Step6:根據(jù)式(11)、式(12)更新粒子的速度和位置.
Step7:判斷RDPSO算法是否滿足終止條件,若滿足則轉(zhuǎn)至Step8,否則令t=t+1,執(zhí)行Step4~Step7.
Step8:輸出RDPSO算法全局最優(yōu)個體空間位置和適應(yīng)度值,即待優(yōu)化問題最優(yōu)解.
Step9:利用RDPSO算法優(yōu)化獲得的決策樹數(shù)量ntree和分裂屬性個數(shù)mtry代入RDPSO-RF模型對預(yù)測樣本進(jìn)行預(yù)測.
1)數(shù)據(jù)來源及分析.實(shí)例數(shù)據(jù)來源于云南省某水文站,共有54年的實(shí)測水文資料.經(jīng)分析,該水文站上年度月徑流與次年度1~3月月徑流存在較好的相關(guān)關(guān)系[19],見表1.
表1 上年度1~12月月均流量與次年1~3月月相關(guān)系數(shù)
本文分別選取上年度4月、8月~12月,上年度4月、8月~12月及次年1月、上年度4月、8月~12月及次年1~2月月均徑流量作為影響因子預(yù)測次年枯水期1月、2月、3月均徑流量,輸入維度分別為6維、7維和8維.
2)參數(shù)設(shè)置.RDPSO算法最大迭代次數(shù)T=200,最大、最小熱敏系數(shù)α分別設(shè)置為0.9、0.3,常數(shù)c1、c2均設(shè)置為2.RF、SVM、BP待優(yōu)化參數(shù)搜索空間設(shè)置為:RF決策樹數(shù)量ntree∈[1,500],分裂屬性個數(shù)mtry∈[1,20];SVM懲罰因子C∈[2-10,210]、核函數(shù)參數(shù)g∈[2-10,210]、不敏感系數(shù)ε∈[2-10,210]、交叉驗(yàn)證參數(shù)V=5;BP神經(jīng)網(wǎng)絡(luò)權(quán)、閾值搜索空間[-1,1],隱含層數(shù)為輸入維度的2倍減1,隱含層和輸出層傳遞函數(shù)均分別采用logsig和purelin,訓(xùn)練函數(shù)均采用traingdx,最大訓(xùn)練輪回200次,期望誤差0.001.
3)模型構(gòu)建及預(yù)測.基于上述分析,分別構(gòu)建6輸入1輸出、7輸入1輸出和8輸入1輸出的次年枯水期1~3月月徑流預(yù)測模型(對SVM、BP輸入數(shù)據(jù)需進(jìn)行歸一化處理,RF輸入數(shù)據(jù)無需處理).選取平均相對誤差絕對值MRE和最大相對誤差絕對值Max RE作為評價指標(biāo),利用RDPSO-RF、RDPSOSVM、RDPSO-BP模型對實(shí)例枯水期1~3月月徑流進(jìn)行預(yù)測,見表2,并繪制1~3月的擬合-預(yù)測相對誤差效果圖,如圖1~3所示.
表2 實(shí)例枯水期1~3月月徑流預(yù)測結(jié)果及其比較表
圖1 枯水期1月月徑流擬合-預(yù)測相對誤差效果圖
圖2 枯水期2月月徑流擬合-預(yù)測相對誤差效果圖
圖3 枯水期3月月徑流擬合-預(yù)測相對誤差效果圖
依據(jù)表1~2及圖1~3可以得出以下結(jié)論:
1)RDPSO-RF模型對實(shí)例1~3月月徑流訓(xùn)練、預(yù)測的平均相對誤差絕對值分別為4.28%、3.88%、5.67%和3.74%、4.57%、4.88%,無論訓(xùn)練樣本還是預(yù)測樣本,其精度均優(yōu)于RDPSO-SVM模型(訓(xùn)練、預(yù)測的平均相對誤差絕對值分別為7.52%、5.49%、9.03% 和4.04%、4.93%、5.37%)和 RDPSO-BP模型(訓(xùn)練、預(yù)測的平均相對誤差絕對值分別為5.52%、5.67%、11.26% 和 6.06%、6.38%、7.12%),表現(xiàn)出較好的預(yù)測精度和泛化能力;同時驗(yàn)證了本文提出的RDPSO-RF模型用于水文預(yù)測預(yù)報是可行和有效的,可為相關(guān)預(yù)測研究提供參考和借鑒.
2)由于RDPSO-RF模型融合了RDPSO算法良好的全局搜索能力和RF強(qiáng)分類集成器二者的優(yōu)點(diǎn),使得RDPSO-RF模型對于實(shí)例1~3月月徑流的擬合、預(yù)測效果最好,有效避免預(yù)測過程中“過擬合”和“欠擬合”現(xiàn)象的發(fā)生;對于RDPSO-SVM模型,除2月份外,其預(yù)測樣本精度遠(yuǎn)優(yōu)于訓(xùn)練樣本精度,表現(xiàn)出“欠擬合”特征;RDPSO-BP模型對于實(shí)例3月的預(yù)測同樣表現(xiàn)出“欠擬合”特征.
3)3種模型比較而言,RDPSO-RF模型擬合-預(yù)測精度最高;RDPSO-SVM模型與RDPSO-BP模型各有優(yōu)劣,但RDPSO-SVM模型擬合-預(yù)測精度略優(yōu)于RDPSO-BP模型.
依據(jù)隨機(jī)漂移粒子群(RDPSO)算法良好的全局搜索能力和隨機(jī)森林(RF)強(qiáng)分類集成器二者的優(yōu)點(diǎn),本文提出RDPSO-RF水文預(yù)測模型,利用RDPSO算法對RF關(guān)鍵參數(shù)進(jìn)行優(yōu)化,并對云南省某水文站1~3月月徑流進(jìn)行擬合及預(yù)測.結(jié)果表明,RDPSO-RF模型對實(shí)例1~3月月徑流的擬合-預(yù)測精度均優(yōu)于RDPSO-SVM、RDPSO-BP模型,具有較高的預(yù)測精度和泛化能力,將RDPSO-RF模型用于水文預(yù)測預(yù)報是可行和有效的,可為相關(guān)預(yù)測研究提供參考和借鑒.