丁海蛟,車文剛 (昆明理工大學(xué)信息工程與自動化學(xué)院,云南昆明650500)
目前在全世界范圍內(nèi),洪水是最具毀滅性的自然災(zāi)害之一,嚴(yán)重影響了正常的農(nóng)業(yè)生產(chǎn)。為了保障正常的農(nóng)業(yè)生產(chǎn),防洪是非常必要的。所謂防洪,就是指根據(jù)具體的災(zāi)情特點(diǎn)以及水文事件演進(jìn)的變化規(guī)律,研究并且采用相關(guān)的方法和對策,通過預(yù)防來減輕洪水災(zāi)害所造成的損失。防洪的主要措施有工程措施和非工程措施。工程措施造價高,而且實(shí)施的周期長,所以洪水預(yù)報(bào)作為一項(xiàng)重要的防洪非工程措施,它在預(yù)防洪水和防洪預(yù)案的制定中有著非常重要的作用。作為洪水預(yù)報(bào)研究對象之一的河道洪水預(yù)報(bào)可以分為水位預(yù)報(bào)和流量預(yù)報(bào)2種。筆者以河道的水位預(yù)報(bào)為研究對象,提出了基于最小二乘支持向量機(jī)(LS-SVM)的洪水預(yù)報(bào)方法。
1 洪水預(yù)報(bào)研究概況
目前有很多洪水預(yù)報(bào)的方法,例如,法國、英國和丹麥的科學(xué)家們共同合作研制了十分具有代表性的分布式水文物理模型,也就是SHE模型[1];雷曉云等研究了BP神經(jīng)網(wǎng)絡(luò)在河道流量預(yù)報(bào)中的應(yīng)用[2];許劍華將最小二乘濾波算法構(gòu)造時變參數(shù)的動態(tài)處理模式用在匯流預(yù)報(bào)模型中的回歸型差分方程模型中,并將這種方法在石橋站中進(jìn)行試用,達(dá)到了預(yù)期的提高模型預(yù)報(bào)精度目的[3]。近年來神經(jīng)網(wǎng)絡(luò)在預(yù)測領(lǐng)域被普遍的應(yīng)用,但人工神經(jīng)網(wǎng)絡(luò)的局部極小點(diǎn)、類型和結(jié)構(gòu)的選擇都十分的依賴于經(jīng)驗(yàn),這就在很大程度上限制了其更加廣泛的應(yīng)用。
與人工神經(jīng)網(wǎng)絡(luò)基于經(jīng)驗(yàn)風(fēng)險最小化原則不同,基于統(tǒng)計(jì)學(xué)習(xí)理論的支持向量機(jī)方法根據(jù)結(jié)構(gòu)風(fēng)險最小化原則,在最大程度上提高了其泛化能力,其算法的局部最優(yōu)解就是全局最優(yōu)解[4]。最小二乘支持向量機(jī)(LS-SVM)是支持向量機(jī)的改進(jìn)形式,采用平方項(xiàng)作為優(yōu)化指標(biāo),并且用等式約束代替標(biāo)準(zhǔn)支持向量機(jī)的不等式約束,也就是將二次規(guī)劃問題(QP)轉(zhuǎn)化為線性方程組的求解問題,降低了計(jì)算的復(fù)雜性、提高了求解的速度。該研究應(yīng)用LS-SVM建立了單輸入單輸出(水位—水位)和雙輸入單輸出(水位和流量—水位)2種河道水位預(yù)測模型,并且對這2種模型進(jìn)行了對比。
2 LS-SVM算法 樣本數(shù)據(jù)的個數(shù)決定了標(biāo)準(zhǔn)支持向量機(jī)算法的復(fù)雜程度,因此樣本數(shù)據(jù)越大,相應(yīng)的二次規(guī)劃問題(QP)將變得更加的復(fù)雜,計(jì)算的速度會更慢[5]。而最小二乘支持向量機(jī),采用了不同的優(yōu)化目標(biāo)函數(shù),并且用等式約束代替了原來的不等式約束,這不僅降低了計(jì)算的復(fù)雜性,還提高了求解的速度。
設(shè)訓(xùn)練樣本集為:{xi,yi}ni=1,其中,xi∈Rd,yi∈{+1,-1},ф為核函數(shù)的匿名映射,則LS-SVM可以表示成如下的約束優(yōu)化問題:
用Lagrange法求解上述優(yōu)化問題,則可以轉(zhuǎn)化為求解如下的線性方程組:
式中,H=[φ(x1)Ty1…φ(xn)Tyn],Y=[y1,…,yn],→1=[1,…,1],e=[e1,…,en],α =[α1,…,αn],消去 ω、e,得到下式:
式(3)中,Ω =HHT。設(shè) K(xk,xl)= φ(xk)Tφ(xl),滿足Mercer條件,就是核函數(shù),則:
所求的LS-SVM的輸出是:
核函數(shù)的類型較多,比較常用的有4種[6],該研究選取最常用的核函數(shù),即RBF核函數(shù):K(xi,x)=exp{-|x-xi|2/2σ2}。其中,正則化參數(shù)γ和核寬度σ是LS-SVM必須要進(jìn)行調(diào)整的2個參數(shù),因?yàn)檎齽t化參數(shù)γ和核寬度σ是作為一個整體使用,所以γ和σ的取值將直接決定了LS-SVM的訓(xùn)練和泛化的能力。
3 LS-SVM預(yù)測實(shí)驗(yàn)
該研究建立了2個預(yù)測模型——單輸入單輸出(水位—水位)預(yù)測模型和雙輸入單輸出(水位和流量—水位)預(yù)測模型,如圖1所示。
為了驗(yàn)證LS-SVM預(yù)測方法的可行性以及有效性,以四川省自貢市某水文站2008年7月~2014年7月(即分別取每年7月份汛期)每天平均的水位數(shù)據(jù)和流量數(shù)據(jù)作為LS-SVM模型的樣本數(shù)據(jù)。其中2008年7月~2013年7月的數(shù)據(jù)作為模型學(xué)習(xí)和訓(xùn)練的數(shù)據(jù),2014年7月的數(shù)據(jù)作為驗(yàn)證數(shù)據(jù)。
3.1 樣本數(shù)據(jù)預(yù)處理 將樣本數(shù)據(jù)集的所有數(shù)據(jù)進(jìn)行歸一化處理,這樣做的目的是:①避免一些特征值的范圍過小,而另一些特征值的范圍過大;②避免在進(jìn)行訓(xùn)練的時候,為了計(jì)算核函數(shù)而計(jì)算內(nèi)積的時候而引起數(shù)值計(jì)算困難,可能會影響建模的效果和計(jì)算的速度。因此就要將樣本數(shù)據(jù)重新縮放到一個適當(dāng)?shù)姆秶鷥?nèi),該研究將樣本數(shù)據(jù)縮放到[0,1]的范圍內(nèi)。歸一化公式如下:
在訓(xùn)練結(jié)束時,再對數(shù)據(jù)進(jìn)行反歸一化,這樣做的目的是:可以直觀地看到預(yù)測數(shù)據(jù)的實(shí)際值而并非在[0,1]這個范圍內(nèi)的數(shù)值。
3.2 預(yù)測結(jié)果的評定標(biāo)準(zhǔn) 為了驗(yàn)證預(yù)測模型的可行性和有效性,在這里先給出預(yù)測結(jié)果的評定標(biāo)準(zhǔn)。該研究所采用的精度評定標(biāo)準(zhǔn)來自于中華人民共和國水利部《水文情報(bào)預(yù)報(bào)規(guī)范》(SL250-2000)[7]。這里給出一些比較重要的參數(shù)取值范圍:
(1)結(jié)合現(xiàn)場的實(shí)際情況和《水文情報(bào)預(yù)報(bào)規(guī)范》的有關(guān)規(guī)定,設(shè)置水位許可誤差為0.2 m。
(2)合格率。計(jì)算公式為:
式中,n是合格預(yù)報(bào)次數(shù);m是預(yù)報(bào)總次數(shù)。其中:QR≥85.0%時,為甲級精度;70.0%≤QR <85.0%時,為乙級精度;60.0%≤QR <70.0%時,為丙級精度。
(3)確定性系數(shù)
式中,y0(i)為實(shí)測值;yc(i)為預(yù)報(bào)值;y0為實(shí)測值均值;n為資料序列長度。其中:DC≥0.90時,為甲級精度;0.70≤DC<0.90 時,為乙級精度;0.50≤DC <0.70 時,為丙級精度。
(4)絕對誤差
相對誤差
式中,y0(i)為實(shí)測值;yc(i)為預(yù)報(bào)值。
(5)作業(yè)預(yù)報(bào)精度GI為預(yù)報(bào)誤差和許可誤差之比。GI≤25.0%,為優(yōu)秀;25.0% < GI≤50.0%,為良好;50.0% < GI≤100.0%,為合格;GI>100.0%,為不合格。
(6)經(jīng)過精度評定,洪水預(yù)報(bào)方案的精度達(dá)到甲、乙2個等級者,可以用于發(fā)布正式的預(yù)報(bào);方案精度達(dá)到丙級者,可以用于參考性預(yù)報(bào);丙級以下者,只能用于參考性估報(bào)。
3.3 單輸入單輸出水位預(yù)測模型(水位—水位) 首先選取核函數(shù)。對于最小二乘支持向量機(jī)核函數(shù)的選擇問題,目前在國際上還沒有形成一個統(tǒng)一的選擇模式,一般憑借經(jīng)驗(yàn)來進(jìn)行選擇,而且一般優(yōu)先考慮徑向基函數(shù)(RBF核函數(shù)),所以該研究中也選擇RBF核函數(shù)。其次,確定γ和σ22個參數(shù)。根據(jù)參考文獻(xiàn)[8],采用網(wǎng)格搜索法尋找最優(yōu)參數(shù),最終確定 γ=295.6,σ2=301.2。利用2008年7月 ~2013年7月的數(shù)據(jù)對模型進(jìn)行訓(xùn)練后,對2014年7月測試集的數(shù)據(jù)進(jìn)行預(yù)測,預(yù)測結(jié)果見圖2。
對模型的輸出進(jìn)行分析,結(jié)果見表1。
為了驗(yàn)證輸入的水位影響因子的多少對水位預(yù)測結(jié)果產(chǎn)生的影響,接下來增加一個影響因子——流量,即把模型變?yōu)殡p輸入單輸出(水位和流量—水位)。
3.4 雙輸入單輸出水位預(yù)測模型(水位和流量—水位) 首先進(jìn)行核函數(shù)的選取,該研究選擇RBF核函數(shù);然后確定γ和σ22個參數(shù)。根據(jù)參考文獻(xiàn)[8],采用網(wǎng)格搜索法尋找最優(yōu)參數(shù),最終確定 γ=256.7,σ2=300.0。利用2008年7月~2013年7月的數(shù)據(jù)對模型進(jìn)行訓(xùn)練后,對2014年7月測試集的數(shù)據(jù)進(jìn)行預(yù)測,結(jié)果見圖3。
表1 單輸入單輸出水位分析
對模型的輸出進(jìn)行分析,結(jié)果見表2。
表2 雙輸入單輸出模型水位分析
3.5 結(jié)果分析 根據(jù)表1、2數(shù)據(jù),計(jì)算得到2種模型的預(yù)測精度:單輸入水位預(yù)測模型的合格率QR=80.6%,確定系數(shù) DC=0.996 4,GI=94.80%;雙輸入水位預(yù)測模型的合格率 QR=87.10%,確定系數(shù) DC=0.998 5,GI=91.45%。計(jì)算表1、2中2種模型的絕對誤差與相對誤差的平均值,得出如表3所示的2種模型精度對比。
表3 2種模型精度對比
根據(jù)表3結(jié)果,依據(jù)《水文情報(bào)預(yù)報(bào)規(guī)范》(SL250-2000)[7]的相關(guān)規(guī)定可知:通過LS-SVM得到的2種預(yù)測模型預(yù)測的效果都比較好,均可以用于發(fā)布正式的洪水預(yù)報(bào)。進(jìn)一步比較得知:基于LS-SVM構(gòu)建的雙輸入單輸出(水位和流量—水位)預(yù)測模型要比單輸入單輸出(水位—水位)預(yù)測模型的預(yù)測精度高。也就是說,輸入的水位影響因子越多,得到的水位預(yù)測模型就會越精確。由于該研究只得到了水位和流量的數(shù)據(jù),所以只考慮了水位和流量這2種影響因子,若日后得到其他的水位影響因子的數(shù)據(jù),比如河道的斷面、降雨量、泥沙量等,就可以得到更加精確的預(yù)測模型。
4 結(jié)論
該研究應(yīng)用最小二乘支持向量機(jī)(LS-SVM)建立了河道水位預(yù)測模型,通過實(shí)例分析表明:基于LS-SVM建立的河道水位預(yù)測模型是合理可行的,模型的精度等級都達(dá)到了乙級以上,可以用于發(fā)布正式的洪水預(yù)報(bào),這就為農(nóng)業(yè)生產(chǎn)中防洪方案的制定提供了非常有效的支持。由于最小二乘支持向量機(jī)需要確定的模型參數(shù)僅有γ和σ22個,收斂速度快,預(yù)測精度高,因此,LS-SVM的應(yīng)用前景十分廣闊。
[1]ABBOTT M B,BATHURST J C,CUNGE J A,et al.An introduction to the European hydrological system-systeme hydrologique Europeen,“SHE”,2:Structure of a physically-based,distributed modelling system[J].Journal of Hydrology,1986,87(1):61 -77.
[2]雷曉云,張麗霞,梁新平.基于MATLAB工具箱的BP神經(jīng)網(wǎng)絡(luò)年徑流量預(yù)測模型研究——以塔城地區(qū)烏拉斯臺河為例[J].水文,2008,28(1):43 -46.
[3]許劍華.一般線性匯流模型實(shí)時預(yù)報(bào)方法的初步探討[J].水利學(xué)報(bào),1986(9):72-73.
[4]孫德山,吳今培,侯振挺,等.加權(quán)支持向量回歸算法[J].計(jì)算機(jī)科學(xué),2003,30(11):38 -39.
[5]段華.支持向量機(jī)的增量學(xué)習(xí)算法研究[D].上海:上海交通大學(xué),2008.
[6]李方方,趙英凱,顏昕.基于Matlab的最小二乘支持向量機(jī)的工具箱及其應(yīng)用[J].計(jì)算機(jī)應(yīng)用,2006,26(S2):358 -360.
[7]中華人民共和國水利部.SL250-2000水文情報(bào)預(yù)報(bào)規(guī)范[S].北京:中國水利水電出版社,2000.
[8]宋小杉,蔣曉瑜,羅建華,等.基于類間距的徑向基函數(shù)-支持向量機(jī)核參數(shù)評價方法分析[J].兵工學(xué)報(bào),2012,33(2):203-208.