回歸支持向量機集成模型在年徑流預測中的應(yīng)用
代興蘭
(云南省水文水資源局 曲靖分局,云南 曲靖655000)
摘要:為進一步提高徑流預測精度和泛化能力,根據(jù)回歸支持向量機(SVR)特性及基本原理,提出考慮不同影響因子(輸入向量)的SVR集成預測模型,以云南省南盤江西橋站1961—2007年徑流預測為例進行實例研究。首先,利用相關(guān)分析法選取年徑流預測的若干影響因子,依次構(gòu)建不同影響因子的SVR單一模型對研究實例進行預測,并構(gòu)建對應(yīng)的RBF模型作為對比預測模型;然后,采用加權(quán)平均和簡單平均2種方法對具有較好預測精度和互補性的單一模型的預測結(jié)果進行綜合集成。結(jié)果表明:基于SVR的加權(quán)平均和簡單平均2種集成模型徑流預測的平均相對誤差絕對值分別為1.27%和1.54%,最大相對誤差絕對值分別為2.99%和2.74%,其精度和泛化能力均大幅優(yōu)于各單一模型以及基于RBF的加權(quán)平均和簡單平均集成模型,表明加權(quán)平均SVR和簡單平均SVR集成模型具有較高的預測精度和泛化能力。相對而言,加權(quán)平均集成模型賦予了預測效果好的模型更大的權(quán)重,預測精度和泛化能力均優(yōu)于簡單平均集成模型。預測模型和方法可為相關(guān)預測研究提供參考和借鑒。
關(guān)鍵詞:徑流預測;集成模型;回歸支持向量機;加權(quán)平均;簡單平均
中圖分類號:P333文獻標志碼:A
1研究背景
提高徑流預測精度對于水文預測預報具有重要意義。目前,徑流預測方法主要有時間序列、回歸分析、模糊模式、小波分析、集對分析等,均在徑流預測預報中取得了一定的成效。但由于河川徑流受多種因素的影響和制約,其預測常表現(xiàn)出復雜、隨機、多維等特性,探尋能夠有效提高徑流預測精度的模型和方法一直是水文預測預報工作中的熱點和難點。人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN) 是一種模仿動物神經(jīng)網(wǎng)絡(luò)行為特征,進行分布式并行信息處理的數(shù)學模型。ANN依靠系統(tǒng)的復雜程度,通過調(diào)整內(nèi)部大量節(jié)點之間相互連接的關(guān)系,從而達到處理信息的目的,在處理復雜、高維、非線性系統(tǒng)和不確定性問題方面有著廣泛的應(yīng)用[1]。然而,由于傳統(tǒng)ANN算法是基于漸近理論,即當樣本容量趨向于無窮大時的解決方案,在實際應(yīng)用中存在著當樣本容量有限時可能出現(xiàn)較差的推廣能力、結(jié)構(gòu)及參數(shù)選擇困難、及收斂速度慢和易陷入局部極值等問題[2-3]。支持向量機(Support Vector Machine,SVM)是20世紀90年代中后期發(fā)展起來的基于統(tǒng)計學習理論構(gòu)建的典型神經(jīng)網(wǎng)絡(luò),它由Vapnik首先提出,是一種通用的前饋神經(jīng)網(wǎng)絡(luò),用于解決模式識別和非線性映射問題。SVM具有嚴謹?shù)臄?shù)學基礎(chǔ),通過統(tǒng)計學習中的VC維(Vapnik-Chervonenkis Dimension)理論和尋求結(jié)構(gòu)風險最小化原理來提高泛化能力,已成為繼ANN之后機器學習領(lǐng)域新的研究熱點,尤其在解決小樣本容量時,很大程度上解決了傳統(tǒng)BP在模型選擇、過學習、高維和局部極值等問題,在模型識別及回歸預測中有著廣泛的應(yīng)用[4-10]。神經(jīng)網(wǎng)絡(luò)集成(Neural Network Ensemble,NNE)是Hansen和Salamon于1990年提出的集成方法,其利用有限個神經(jīng)網(wǎng)絡(luò)對同一問題進行學習,將個體神經(jīng)網(wǎng)絡(luò)的輸出以某種綜合方法進行集成,集成輸出的結(jié)果由各個體神經(jīng)網(wǎng)絡(luò)的輸出共同決定[1,11]。實踐表明,不同的預測方法往往有著不同的預測結(jié)果,不同的預測方法挖掘不同的有用信息,不同模型的預測結(jié)果通常具有互補性,其預測精度也各有差異,而沒有一種適用于所有預測的通用方法。任何一種預測方法都有其適用性和局限性,應(yīng)依據(jù)實際問題選擇適當?shù)哪P团c方法。
在實際應(yīng)用中,決定預測模型精度的關(guān)鍵因素是問題本身的復雜程度,針對不同問題選擇恰當?shù)念A測方法是決定預測效果優(yōu)劣的關(guān)鍵。本文基于回歸支持向量機(Support Vector Regression,SVR)原理及NNE基本思想,依次構(gòu)建若干以不同影響因子作為輸入向量的SVR單一模型分別對云南省南盤江西橋站年徑流進行預測,采用加權(quán)平均和簡單平均2種方法對具有較好預測精度和互補性的幾種SVR單一模型的預測結(jié)果進行綜合集成,為提高相關(guān)水文預測預報的精度提供模型及方法上的參考。
2SVR集成預測模型
SVM最初是為研究線性問題提出的,其用于模式識別的基本思想是通過非線性變換將輸入空間變換到一個高維空間,在此新空間中通過求解凸二次規(guī)劃問題,尋求最優(yōu)線性分類超平面;而用于回歸預測時,其基本思想不再是尋找最優(yōu)分類面將樣本分開,而是尋找一個最優(yōu)超平面,使得所有訓練樣本離該最優(yōu)超平面距離最短,這個超平面可看作擬合好的曲線,將SVM用于逼近函數(shù)的方法稱為SVR。SVR實現(xiàn)回歸預測步驟歸納如下[7-10,12]。
(1)
式中Φ(x)為非線性映射函數(shù)。
步驟2,定義ε線性不敏感損失函數(shù)為
(2)
式中:f(x)為回歸函數(shù)返回的預測值;y為對應(yīng)的真實值。
(3)
式中:C為懲罰因子,C越大表示對訓練誤差大于ε的樣本懲罰越大;ε規(guī)定了回歸函數(shù)的誤差要求,ε越小表示回歸函數(shù)的誤差越小。求解式(3)時,同時引入Lagrange函數(shù),并轉(zhuǎn)換成對偶形式,即
(4)
式中K(xi,xj)=Φ(xi)Φ(xj)為核函數(shù)。
(5)
(6)
式中Nnsv為支持向量機個數(shù)。
步驟5,將w*和b*代入式(1)得到回歸函數(shù)為
(7)
2.2.1加權(quán)平均集成
加權(quán)平均集成是按照各單一模型預測效果的優(yōu)劣給出不同的權(quán)重,然后求加權(quán)平均值,以加權(quán)平均值作為集成模型的預測值。計算公式為
(8)
(9)
式中ei為第i個模型預測相對誤差的絕對值。
2.2.2簡單平均集成
簡單平均集成是按照各單一模型的預測值求簡單平均作為最終集成模型的預測值,計算公式為
(10)
基于上述SVR基本原理和集成預測方法,SVR集成模型實現(xiàn)徑流預測步驟可歸納如下:
(1) 利用SPSS軟件選取與年徑流顯著相關(guān)的若干月均流量作為影響因子,確定各SVR與RBF模型的訓練樣本和檢驗樣本,并對樣本進行歸一化處理。
(2) 基于Matlab軟件環(huán)境和libsvm工具箱,依次構(gòu)建不同影響因子(輸入向量)的SVR單一模型及對應(yīng)的RBF模型,利用訓練樣本對各模型進行訓練及調(diào)試,率定各模型的相關(guān)參數(shù),并利用檢驗樣本對各模型進行預測精度及泛化能力檢驗。
(3) 對各SVR單一模型及對應(yīng)RBF模型的預測精度及泛化能力進行分析評價,并選取若干最優(yōu)模型的預測結(jié)果,采用加權(quán)平均和簡單平均2種方法對預測結(jié)果進行綜合集成。
(4) 對SVR集成模型預測結(jié)果進行分析。若SVR集成模型預測值達不到期望精度和泛化能力要求,則反向?qū)Ω鱏VR單一模型進行調(diào)試和預測檢驗,直至SVR集成模型預測結(jié)果滿足期望的精度要求。
(5) 對SVR集成模型最終預測結(jié)果進行評價分析,并與單一模型及對應(yīng)的RBF集成模型的預測結(jié)果進行比較,并得出結(jié)論。
3實例應(yīng)用
以云南省南盤江西橋站1961—2007年47 a的實測資料為例進行分析。利用SPSS軟件分析年徑流與1—11月份月均流量的相關(guān)性,分析結(jié)果見表1。
從表1可以看出,年徑流與6—11月份月均流量呈顯著正相關(guān),與1—5月份月均流量無顯著相關(guān)。本文選取與年徑流在0.01水平(雙側(cè))上顯著相關(guān)的6—11月份月均流量作為年徑流預測的影響因子,并以1961—2000年的實測資料作為訓練樣本,2001—2007年作為檢驗樣本。
表1 年徑流與1—11月份月均流量相關(guān)系數(shù) Table 1 Coefficients of correlation between annual runoff and monthly runoff from January to November
注:“**”表示在0.01水平(雙側(cè))上顯著相關(guān)。
3.2.1數(shù)據(jù)歸一化處理
利用式(11)對各徑流序列進行歸一化處理。
(11)
3.2.2網(wǎng)絡(luò)訓練及模型設(shè)計
本文基于Matlab環(huán)境和libsvm工具箱,創(chuàng)建不同輸入向量的SVR與RBF模型對南盤江西橋站47 a的實測資料進行訓練和檢驗,各SVR與RBF模型參數(shù)的設(shè)置方法如下。
SVR模型:SVR在選定核函數(shù)條件下,模型中的懲罰因子C和核函數(shù)參數(shù)g的選取對模型的預測精度有著關(guān)鍵性影響。參考文獻[9-10,12],選擇徑向基核函數(shù)均為SVR的核函數(shù),設(shè)置懲罰因子C和核函數(shù)參數(shù)g的搜索空間均設(shè)置為2-2~26,K取值2~5,g和C的步進大小均取0.1,不敏感系數(shù)ε均為0.001(其他參數(shù)采用默認值),利用交叉驗證法(Cross Validation,CV)確定模型中的懲罰因子C和核函數(shù)參數(shù)g。
RBF模型:在設(shè)定期望誤差均為0.001條件下,編寫循環(huán)訓練算法程序確定RBF模型具有最佳預測效果時的徑向基函數(shù)擴展速度spread。
本文從6—11月份月均流量中選取不同組合類型的月均流量為SVR與RBF模型的輸入向量,年徑流為輸出,構(gòu)建不同輸入向量的SVR與RBF徑流預測模型??紤]維數(shù)過低,SVR與RBF模型不能充分挖掘數(shù)據(jù)間的有用信息,因此確定SVR與RBF單一模型的輸入向量維數(shù)為4~7維,并經(jīng)反復調(diào)試,在下述參數(shù)設(shè)置情況下,SVR與RBF單一模型具有較好預測效果(除此之外的其他參數(shù)采用系統(tǒng)默認值)。各SVR與RBF單一模型的最佳參數(shù)設(shè)置見表2。
表2 各SVR與RBF單一模型最佳相關(guān)參數(shù) Table 2 Optimum parameters of the single-models based on SVR and RBF respectively
按照上述集成預測方法和步驟,利用上述5種SVR與RBF單一模型預測樣本的平均相對誤差絕對值確定各自權(quán)重,結(jié)果見表3。
表3 加權(quán)平均集成模型中各SVR與 RBF單一模型權(quán)重表 Table 3 Weights of single-models in the weighted average model based on SVR and RBF respectively
利用上述訓練好的5種SVR模型及對應(yīng)的RBF模型分別對云南省南盤江西橋站2001—2007年年徑流進行預測,結(jié)果見表4;并利用加權(quán)平均、簡單平均集成方法對SVR與RBF單一模型的預測結(jié)果進行綜合集成,結(jié)果見表5。
表4 西橋站2001—2007年各單一模型徑流預測結(jié)果及比較 Table 4 Comparison of the runoff prediction results of each single model for west bridge station from 2001 to 2007
表5 西橋站2001—2007年SVR與RBF集成模型徑流預測結(jié)果及比較 Table 5 Comparison of the runoff prediction results between SVR and RBF ensemble models for west bridge station from 2001 to 2007
分析上述諸表可以得出以下結(jié)論:
(1) 從表4可以看出,各SVR單一模型的平均相對誤差絕對值、最大相對誤差絕對值均優(yōu)于相對應(yīng)的各RBF單一模型,表明SVR模型具有較好的預測精度和泛化能力,尤其在小樣本情況下,SVR模型的預測精度和泛化能力是RBF所不可比擬的。從SVR單一模型的預測結(jié)果來看,其預測的平均相對誤差絕對值在2.71%~7.49%之間,這一定程度上均能滿足徑流預測的實際應(yīng)用需求。
(2) 從表4各單一模型的預測結(jié)果來看,凡輸入向量(影響因子)中有第11月月均流量的單一模型的預測效果(除RBF2模型)均要優(yōu)于其他單一模型,表明11月份月均流量對于各SVR與RBF單一模型的預測效果有著重要影響。
(3) 從表5可以看出,加權(quán)平均SVR集成模型與簡單平均SVR集成模型的平均相對誤差絕對值分別為1.27%和1.54%,最大相對誤差絕對值分別為2.99%和2.74%,精度和泛化能力均大幅優(yōu)于各單一模型以及加權(quán)平均RBF集成模型與簡單平均RBF集成模型,表明集成模型和集成方法用于徑流預測是合理可行的。集成模型融合了各單一模型預測結(jié)果的互補性,有效提高了徑流預測的精度和泛化能力。相對而言,加權(quán)平均集成模型賦予了預測效果好的模型更大的權(quán)重,預測精度和泛化能力要優(yōu)于簡單平均集成模型。
4結(jié)語
NNE早在1990年就由Hansen和Salamon提出,但由于目前仍沒有較成熟的理論和方法來選定差異較大的個體網(wǎng)絡(luò)以及評價多個網(wǎng)絡(luò)之間的差異度(互補性),這在很大程度上制約了NNE在實際中的應(yīng)用。本文基于SVR原理和NNE的基本思想,利用不同輸入向量(不同維數(shù))的方法構(gòu)建5種SVR單一模型,采用加權(quán)平均和簡單平均2種集成方法構(gòu)建SVR集成模型對云南省南盤江西橋站后7 a年徑流預測進行實例驗證。驗證結(jié)果表明,SVR集成模型具有較高的預測精度和泛化能力,是提高徑流預測精度的有效方法。
參考文獻:
[1]田景文,高美娟.人工神經(jīng)網(wǎng)絡(luò)算法研究及應(yīng)用[M].北京:北京理工大學出版社,2006. (TIAN Jing-wen, GAO Mei-juan. Artificial Neural Network Algorithm: Research and Application [M]. Beijing: Beijing Institute of Technology Press, 2006.(in Chinese))
[2]田雨波.混合神經(jīng)網(wǎng)絡(luò)技術(shù)[M].北京:科學出版社,2009. (TIAN Yu-bo. Hybrid Neural Network Technology [M]. Beijing: Science Press, 2009.(in Chinese))
[3]王雷.支持向量機在汽輪機狀態(tài)監(jiān)測中的應(yīng)用[M].北京:北京師范大學出版社,2012. (WANG Lei. Application of Support Vector Machine to the Monitoring of Steam Turbine[M]. Beijing: Beijing Normal University Press, 2012. (in Chinese))
[4]張楠,夏自強,江紅.基于多因子量化指標的支持向量機徑流預測[J].水利學報,2010,41(11):1318-1323. (ZHANG Nan, XIA Zi-qiang, JIANG Hong. Prediction of Runoff Based on the Multiple Quantity Index of SVM[J]. Journal of Hydraulic Engineering, 2010, 41(11): 1318-1323. (in Chinese))
[5]肖浩波,谷艷昌.混凝土壩安全監(jiān)控最小二乘支持向量機模型[J].長江科學院院報,2013,30(5):34-37. (XIAO Hao-bo, GU Yan-chang. Monitoring Model for Concrete Dam Safety Using Least Square Support Vector Machine[J]. Journal of Yangtze River Scientific Research Institute, 2013, 30(5): 34-37. (in Chinese))
[6]李代華,崔東文. 相空間重構(gòu)支持向量機在徑流模擬中的應(yīng)用研究[J].長江科學院院報,2013,30(10):21-26. (LI Dai-hua, CUI Dong-wen. Phase Space Reconstruction of Support Vector Machine in Runoff Simulation[J]. Journal of Yangtze River Scientific Research Institute, 2013,30 (10): 21-26. (in Chinese))
[7]李波,劉明軍,馬奕仁,等.基于平均曲率模態(tài)和最小二乘支持向量機的混凝土拱壩損傷識別方法研究[J].長江科學院院報,2013,30(11):113-118. (LI Bo, LIU Ming-jun, MA Yi-ren,etal. Damage Identification of Concrete Arch Dam Using Mean Curvature Mode and Least Squares Support Vector Machine [J]. Journal of Yangtze River Scientific Research Institute, 2013,30 (11): 113-118. (in Chinese))
[8]徐飛,徐衛(wèi)亞,劉大文,等.洞室圍巖變形預測的ACA-LSSVM模型及工程應(yīng)用研究[J].長江科學院院報,2009,26(2):32-35. (XU Fei, XU Wei-ya, LIU Da-wen,etal. ACA-LSSVM for Deformation Forecasting of Cavern Surrounding Rock and Its Application[J]. Journal of Yangtze River Scientific Research Institute, 2009,26 (2): 32-35. (in Chinese))
[9]崔東文. 支持向量機在湖庫營養(yǎng)狀態(tài)識別中的應(yīng)用研究[J].水資源保護,2013,29(4):26-30. (CUI Dong-wen. Application of Support Vector Machine to Lake and Reservoir Trophic Status Recognition[J]. Water Resource Protection, 2013,29 (4): 26-30. (in Chinese))
[10]崔東文.支持向量機在水資源類綜合評價中的應(yīng)用研究——以全國31個省級行政區(qū)水資源合理性配置為例[J].水資源保護,2013,29(5):20-27. (CUI Dong-wen. Support Vector Machine for Comprehensive Evaluation of Water Resources: Application to Reasonable Allocation of Water Resources in 31 Provincial-level Administrative Regions in China[J]. Water Resource Protection, 2013,29 (5): 20-27. (in Chinese))
[11]SOLLICH P, KROGH A. Learning with Ensemble: How Over-fitting Can be Useful[M]. Cambridge: MIT Press, 1996: 190-193.
[12]史峰,王輝,郁磊,等. MATLAB智能算法30個案例分析[M].北京:北京航空航天大學出版社,2011. (SHI Feng, WANG Hui, YU Lei,etal. MATLAB Intelligent Algorithm: 30 Case Analysis [M]. Beijing: Beihang University Press, 2011. (in Chinese))
(編輯:趙衛(wèi)兵)
Application of SVR Ensemble Model to Annual Runoff Forecasting
DAI Xing-lan
(Qujing Branch of Yunnan Hydrological and Water Resource Bureau, Qujing655000, China)
Abstract:An ensemble model involving different impact factors (input vectors) based on support vector regression (SVR) is put forward to improve runoff prediction accuracy and generalization ability. The runoff at Nanpanjiang west bridge station in Yunnan from 1961 to 2007 is taken as a case study. First, a number of impact factors for annual runoff forecast are selected to build different models for the study of a single instance of SVR, and the corresponding RBF models are built as a comparison. In subsequence, the results of single models (which are accurate and complementary) are integrated by using weighted average and simple average respectively. Results showed that: the average relative absolute error of weighted average and simple average ensemble model based on SVR was respectively 1.27% and 1.54%, and the maximum relative absolute error is 2.99% and 2.74%. The accuracy and generalization capabilities are significantly superior to the single models as well as the weighted average and simple average ensemble model based on RBF models. The weighted average ensemble model based on SVR has better accuracy and generalization capability than simple average because it gives more weight to the models with good prediction result.
Key words:runoff forecasting; ensemble model; SVR; weighted average; simple average