郭田麗,宋松柏,張 特,王慧敏
(1.西北農林科技大學 水利與建筑工程學院,陜西 楊凌 712100;2.西北農林科技大學 旱區(qū)農業(yè)水土工程教育部重點實驗室,陜西 楊凌 712100)
徑流預測可為各類涉水工程的規(guī)劃設計、運行管理以及水資源管理提供依據。由于全球氣候變化和高強度人類活動的雙重作用與影響,徑流序列表現出復雜的非線性和非平穩(wěn)性,加大了徑流預報工作難度[1]。
現有徑流預測模型可分為過程驅動和數據驅動兩大類。相比于過程驅動模型,數據驅動模型可操作性強,無需考慮徑流發(fā)生的物理機制,僅需對時間序列進行數學分析,建立輸入變量和輸出變量之間的函數關系。近年來,機器學習因其強大的學習能力,在水文領域得到了長足的發(fā)展,并廣泛應用于徑流預測工作中[2-3]。其中,支持向量機(Support vector machine,SVM)模型具備結構簡單、容錯性強、能克服維數災以及過擬合問題等優(yōu)點,在大量徑流預測研究中得到成功應用[4-6]。但由于徑流序列呈現出高度復雜的非平穩(wěn)性、非線性和不確定性,單一預測模型的預測能力受限。耦合奇異譜分析、集合經驗模態(tài)分解、小波分解和變分模態(tài)分解(Variational modal decomposition,VMD)等數據分解方法與機器學習模型來建立分解集成模型可有效改進單一機器學習模型的預測精度[7-9]。其中,VMD方法能夠控制中心頻率混疊現象和噪聲水平,更易于提高分解集成模型的預測性能[10-12]。
建立分解集成模型來提高徑流預測精度已成為當前研究熱點之一[13-15]。但是,這類模型首先將整個徑流序列分解成若干個子序列,再將這些子序列劃分為訓練期和驗證期,這種先分解后劃分法會導致研究者在訓練模型之前,提前使用了驗證期數據,難以滿足實際預報需求[16]。對于單變量分解集成模型,模型是將當期預測徑流和前期徑流作為預測模型的下一步預報因子,顯然在驗證模型的預測性能時,當預測徑流需要依靠預測模型預測。若將上述先分解后劃分法用于構建單變量分解集成模型,會導致驗證期內的預報因子數據被視為已知數據處理。Du等[17]和Fang等[18]對比分析了多種分解集成水文預測模型的結果,發(fā)現將驗證期內預報因子數據當作已知數據去構建分解集成模型會得到“虛假”的高精度預測結果。分解集成模型的正確構建過程需先將實測序列劃分為訓練期和驗證期,再將訓練期數據進行分解建模,但其預測精度相對降低[19]。為此,Fang等[18]提出一種逐步分解采樣技術來構建正確的分解集成模型,以期提高正確分解集成模型的預測精度。該逐步分解采樣技術可作為分解集成模型的替代采樣技術,但使用該技術構建的分解集成模型的預測精度依舊較低。因此,如何正確構建能應用于現實徑流預報工作中的較高精度分解集成徑流預測模型尚需深入研究。
上述研究均旨在提高和改進模型的點預測性能,但點預測結果僅為一個確定數值,難以描述由于徑流序列隨機性和波動性而導致的預測不確定性。把握未來徑流數據的波動范圍和預測的不確定性,有助于研究者做出更加科學合理的分析、評估和決策。區(qū)間預測可通過參數或非參數密度估計方法估計點預測誤差的分布特性,進而構建一定置信水平下的預測區(qū)間,可在一定程度上體現預測的不確定性。與參數估計模型相比,非參數核密度估計(Kernel density estimation,KDE)方法不需提前假設誤差樣本服從的分布函數,避免因誤差分布選取錯誤導致出現較大預測誤差問題[20]。KDE方法已廣泛應用于區(qū)間預測研究中,例如,Li等[21]提出了基于分數階灰色模型與KDE方法的混合模型,并將該模型用于農業(yè)用水量預測,Guo等[22]構建了基于自激勵自回歸模型與KDE方法的地下水埋深區(qū)間預測模型,王曉東等[23]將分位數回歸、長短記憶神經網絡與KDE方法進行結合,構建了風電功率概率預測模型。這些研究結果均表明,KDE方法可通過結合適宜的點預測模型產生較高精度的區(qū)間預測結果。
本文提出一種可同時進行點預測和區(qū)間預測的VMD-SVM-KDE逐步分解集成模型,并提出兩階段粒子群優(yōu)化(TSCPSO)算法來優(yōu)化模型參數。該模型可解決現有分解集成預測模型錯誤使用驗證期內預報因子數據的問題,并能提高分解集成模型的預測精度。VMD-SVM-KDE-TSCPSO模型可有效解決傳統(tǒng)分解集成模型被錯誤開發(fā)和預測精度較低的問題,拓展該類模型在實際預報業(yè)務中的可應用性。
2.1 變分模態(tài)分解方法VMD分解方法是一種新型自適應、完全非遞歸的數據分解方法[24]。該方法通過搜索約束變分問題的最優(yōu)解,將原始信號x分解為一系列固有模態(tài)函數(Intrinsic mode functions,IMFs)。
(1)
式中:K為IMFs的個數;{μk(t)}={μ1,μ2,…,μK}為第k個模態(tài)分量;μk(t)為第k個模態(tài)分量在第t時刻的值;{ωk}={ω1,ω2,…,ωK}為第k個模態(tài)分量對應的中心頻率;t為時間;?t為函數對時間t的一階偏導數;δ(t)為單位脈沖函數;j為虛數單位;?為卷積運算。
利用增廣拉格朗日函數得到式(1)變分問題的最優(yōu)解,如式(2)所示。
(2)
式中:α為二次懲罰因子;λ為拉格朗日乘子。λ(t)為λ在第t時刻的值;x(t)為x在第t時刻的值。利用交替方向乘子迭代算法求解式(2)的鞍點。
y=wφ(x)+b
(3)
式中:w為權重向量;φ(x)為映射函數;b為偏置向量。
根據結構風險最小化原理,式(3)的求解可轉化為求解以下最小化問題:
(4)
式中:C為懲罰因子;e=[e1,e2,…,en]T為誤差變量。
引入拉格朗日函數和對偶理論,并用核函數代替式(3)的映射函數,可得到:
(5)
核函數的選取對SVM的計算精度至關重要。常用的核函數有線性核函數、多項式核函數、徑向基(Radial Basis Function,RBF)核函數和Sigmoid函數。RBF核函數對于大小樣本都具有較高的計算精度,學習能力強,參數也相對較少。因此,本文選用RBF核函數,如式(6)所示。
(6)
式中γ為RBF核函數參數。
因此,對于SVM模型,主要的待求參數有懲罰因子C和核函數參數γ。
(7)
式中:N為樣本長度;h為帶寬;K2(·)為核函數。
核函數和帶寬的選擇對KDE計算影響較大。本文選用高斯核函數,公式為:
(8)
對應的帶寬公式為:
(9)
式中S為樣本的標準差。
本文提出的VMD-SVM-KDE-TSCPSO模型的總體框架如圖1所示?;赥SCPSO優(yōu)化算法的VMD-SVM-KDE逐步分解集成(VMD-SVM-KDE-TSCPSO)模型的構建步驟包括以下兩步。第一步,根據VMD-SVM模型獲取點預測結果。具體步驟為:將徑流序列劃分為率定期、測試期和驗證期,使用VMD方法逐步分解率定期和測試期的徑流序列獲得子序列,根據這些子序列確定SVM模型的輸入輸出序列,并用TSCPSO優(yōu)化算法綜合求解VMD-SVM模型的未知參數,最后,根據VMD-SVM模型計算點預測值。第二步,根據點預測誤差,采用KDE方法計算區(qū)間預測結果。VMD-SVM-KDE-TSCPSO模型的具體構建步驟如下。
圖1 VMD-SVM-KDE-TSCPSO模型框架
3.1 數據劃分首先,將徑流序列x(t)(t=1,2,…,N)劃分為訓練期xT(t)(t=1,2,…,T)和驗證期xv(t)(t=T+1,T+2,…,N),其中N為整個徑流序列長度x(t)的長度,T為訓練期序列xT(t)的長度。為防止模型過擬合,進一步將訓練期xT(t)劃分為率定期xc(t)(t=1,2,…,c)和測試期xt(t)(t=c+1,c+2,…,T),其中c為率定期序列xc(t)的長度。率定期、測試期和驗證期徑流序列長度依次占整個數據的比例為60%、20%和20%。
(10)
式中:xnorm為樣本的歸一化結果;xmin和xmax分別為樣本的最小值和最大值。
(11)
求出未知參數(L,K,C,γ)后,保存訓練好的分解集成模型等待預測。
3.3 模型預測令k=T,重復3.2小節(jié)中的分解步驟,直至k=N-1。不同于訓練期的是,只需將預測因子輸入訓練好的混合模型中,然后獲得驗證期的所有預測值,也就是點預測值。
區(qū)間預測的構建步驟為:首先計算訓練期的誤差,然后根據KDE方法計算誤差的概率密度函數,并積分得到相應的累積密度函數,據此獲取一定置信水平a的分位數值F1-(1-a)/2(t)和F(1-a)/2(t),最后根據式(12)可得預測區(qū)間[xlow(t),xup(t)]。
(12)
式中:xlow(t)和xup(t)分別為t時刻預測區(qū)間的下限和上限;F1-(1-a)/2(t)和F(1-a)/2(t)為累積密度函數的分位數;給定的置信水平a也稱為名義置信水平。
3.4 模型評價為了驗證VMD-SVM-KDE模型的預測優(yōu)勢,將VMD-SVM-KDE與SVM-KDE模型進行比較。同樣,為了驗證TSCPSO優(yōu)化算法的優(yōu)勢,將TSCPSO算法與傳統(tǒng)的一階段PSO優(yōu)化算法進行比較,傳統(tǒng)PSO算法沒有將訓練期進一步劃分為率定期和測試期。具體地,首先將PSO優(yōu)化的SVM(SVM-PSO)模型、TSCPSO優(yōu)化的SVM(SVM-TSCPSO)模型、PSO優(yōu)化的VMD-SVM(VMD-SVM-PSO)模型以及TSCPSO優(yōu)化的VMD-SVM(VMD-SVM-TSCPSO)模型進行對比,分析評價模型的點預測性能。然后將PSO優(yōu)化的SVM-KDE(SVM-KDE-PSO)模型、TSCPSO優(yōu)化的SVM-KDE(SVM-KDE-TSCPSO)模型、PSO優(yōu)化的VMD-SVM-KDE(VMD-SVM-KDE-PSO)模型以及TSCPSO優(yōu)化的VMD-SVM-KDE(VMD-SVM-KDE-TSCPSO)模型進行對比,分析評價模型的區(qū)間預測性能。
模型的點預測性能均由平均相對誤差(MAE)、最大均方根誤差(RMSE)、確定系數(R2)和納什效率系數(NSE)4個誤差指標進行評估。MAE和RMSE越小且R2和NSE越大,表示模型的點預測性能越好。區(qū)間預測性能由預測區(qū)間覆蓋率(PICP)、預測區(qū)間平均寬度(PINAW)和區(qū)間平均偏差(INAD)3個誤差指標進行評估[25]。PICP小于預測區(qū)間名義置信水平時,說明區(qū)間預測結果不可信。在PICP達到預測區(qū)間名義置信水平的前提下,PICP越大且PINAW越小代表區(qū)間預測性能越好。當不同模型的PICP和PINAW值相差不大時,可用INAD進行比較擇優(yōu)。INAD越小代表模型性能越好。
4.1 數據分析為驗證文中模型的適用性,選取黃河流域民和、蘭州、白馬寺和黑石關4個水文站的月徑流數據進行預報模型研究。各水文站月徑流數據資料均來源于水利部黃河水利委員會,其統(tǒng)計特征如表1所示。由表1可知,蘭州站的月徑流量均值依次小于民和站、黑石關站和白馬寺站,離差系數依次大于民和站、黑石關站和白馬寺站。各水文站月徑流數據的偏度系數均為正數,民和、蘭州和白馬寺3站月徑流數據的峰度系數均小于3,表明曲線峰值比正態(tài)分布低,而黑石關站的峰度系數大于3,表明曲線峰值比正態(tài)分布高。按照整個徑流序列長度的60%、20%和20%及時間先后順序依次劃分率定期、測試期和驗證期。因此,民和、蘭州和黑石關3站的率定期長度為30 a,白馬寺站率定期長度為31 a,測試期和驗證期長度均為10 a。
表1 月徑流數據的統(tǒng)計特征
4.2 模型的點預測結果將SVM-PSO、SVM-TSCPSO、VMD-SVM-PSO和VMD-SVM-TSCPSO這4種模型分別記為模型1、模型2、模型3和模型4,表2為以上模型的參數識別結果。由表2可知,各站SVM模型參數C和γ以及模型的輸入參數L隨著模型種類變化。對于模型的輸入參數L,模型1在各站中的識別結果均為10,模型2在民和、蘭州和黑石關站的識別結果分別為80、69和94,模型3在蘭州站的識別結果為18,模型4在黑石關站的識別結果為50。除此之外,其余結果都大于100。對于VMD分解個數的識別結果,除了模型4在蘭州站為5之外,其他均為4。
表2 模型參數結果
表3列出了各模型在訓練期和驗證期點預測性能的評價結果。在整個訓練期,民和站各模型擬合精度由高至低依次為:模型1、模型3、模型4、模型2;蘭州站各模型擬合精度由高至低依次為:模型1、模型2、模型4、模型3;白馬寺站各模型擬合精度由高至低依次為:模型1、模型4、模型3、模型2;黑石關站各模型擬合精度由高至低依次為:模型1、模型3、模型2、模型4。由此可見,研究區(qū)各站均是模型1的擬合性能最優(yōu),且模型1的R2和NSE值均接近于1,MAE和RMSE值也非常小,而其余三種模型的擬合性能在研究區(qū)水文站點表現各不相同。進一步比較兩種單一模型的擬合性能發(fā)現,對于各站徑流序列均是模型1的擬合性能優(yōu)于模型2。對比混合模型的擬合性能發(fā)現,對于民和和黑石關站,模型3優(yōu)于模型4,而在蘭州和白馬寺兩站,模型4的擬合性能則優(yōu)于模型3。
表3 各模型在訓練期和驗證期的點預測評價結果
表4為TSCPSO優(yōu)化模型在率定期和測試期的模型精度評價結果。在率定期,模型2在民和、蘭州和黑石關三站均優(yōu)于模型4,而白馬寺站則相反。模型2在民和、蘭州和黑石關站的R2和NSE值均接近1,且MAE和RMSE值較低。在測試期,模型4在各站的性能均優(yōu)于模型2。而在訓練期,模型4在民和和白馬寺兩站均優(yōu)于模型2,而在蘭州和黑石關站則相反,表明TSCPSO優(yōu)化模型(模型2和模型4)在率定期、測試期和訓練期對于各站的性能表現存在差異。
表4 TSCPSO優(yōu)化模型(模型2和模型4)在率定期和測試期的評定結果
為更好分析各模型在驗證期的預測性能,圖2展示了實測值和預測值的散點圖,圖中黑色線條和紅色線條分別代表1∶1線和線性擬合線。對比模型1和模型2在驗證期各站預測結果可知,模型2的散點分布較1∶1線更緊湊,線性擬合線偏離1∶1線也更近,MAE和RMSE值更小,R2和NSE值更大,且模型2將模型1的MAE值由17.838~38.964降低至13.970~26.260,RMSE值由22.058~49.437降低至20.295~38.317,R2和NSE值由0.145~0.480提升至0.309~0.630,表明TSCPSO優(yōu)化的SVM模型性能優(yōu)于普通PSO優(yōu)化的SVM模型。對比模型3和模型4的預測結果可知,模型4將模型3的MAE值由6.938~14.098降低至5.545~14.055,RMSE值由8.694~18.720降低至7.845~18.656,R2和NSE值由0.872~0.912提升至0.876~0.921,表明TSCPSO優(yōu)化的VMD-SVM模型性能優(yōu)于普通PSO優(yōu)化的VMD-SVM模型。以上結果表明相較于普通PSO算法,TSCPSO算法可以提高單一模型和分解集成模型的點預測精度。與兩種單一模型(模型1和模型2)相比,混合模型(模型3和模型4)在各站均表現出更高的NSE和R2值及更低的MAE和RMSE值,且混合模型將各站單一模型的MAE值由13.970~38.964降低至5.545~14.098,RMSE值由20.295~49.437降低至7.845~18.720,R2和NSE值由0.145~0.630提升至0.872~0.921。
圖2 各站徑流序列的預測結果散點圖
從圖2可以進一步看出,兩種單一模型的散點分布分散,散點擬合線偏離1∶1線較遠,表明模型的整體預測能力較差,尤其是對極值的預測能力。而兩種混合模型的散點分布集中,擬合線距離1∶1線較近,整體預測與極值的預測結果均表現較好,表明混合模型較單一模型的預測性能有較大提升。整體來看,各模型預測性能由高至低依次為:模型4、模型3、模型2、模型1;其中,模型4在各站的預測精度最高,R2和NSE值均為0.9。
分析模型在訓練期和驗證期性能可知:模型1對訓練期徑流數據擬合度較高,誤差較小,但該模型在驗證期的預測精度較低,表明模型存在過擬合問題。模型2在訓練期的擬合性能較差,但驗證期的預測精度卻優(yōu)于模型1,而模型3和模型4的預測精度也表現出類似的規(guī)律,表明相比PSO算法,TSCPSO算法可以改善模型過擬合問題,進而提高模型的預測性能。
4.3 模型的區(qū)間預測結果表5列出了各模型在90%置信水平下的區(qū)間預測評價結果。圖3進一步給出了模型的點預測和區(qū)間預測結果,圖中藍色散點代表實測徑流值,黑色線條代表預測值,灰色區(qū)間為預測區(qū)間。
表5 各模型的區(qū)間預測性能評價結果
圖3 各站徑流序列的預測結果圖
對于單一模型,SVM-KDE-TSCPSO模型的PICP值遠大于SVM-KDE-PSO模型,而PICP均小于名義置信水平,表明單一模型的區(qū)間預測結果不可信。對于混合模型,僅VMD-SVM-KDE-PSO模型在白馬寺站的PICP值小于名義置信水平,其區(qū)間預測結果不可信,而其余PICP值均達到名義置信水平,且混合模型的PICP值均大于單一模型,說明混合模型提高了單一模型的區(qū)間預測覆蓋率,且混合模型將單一模型的INAD值由0.046~95.844降低至0.005~0.034。對比混合模型的PICP和PINAW值可知,VMD-SVM-KDE-TSCPSO模型的PICP和PINAW值均大于VMD-SVM-KDE-PSO模型,表明VMD-SVM-KDE-TSCPSO模型的覆蓋率略高于VMD-SVM-KDE-PSO模型,但區(qū)間寬度卻略寬于VMD-SVM-KDE-PSO模型。由此可見,兩種模型的區(qū)間預測性能相近。進一步比較混合模型的INAD值可知,VMD-SVM-KDE-TSCPSO模型在各站的INAD值均為最小,范圍為0.005~0.014,說明VMD-SVM-KDE-TSCPSO模型的區(qū)間預測結果最優(yōu)。
以上分析結果也表明:相較于傳統(tǒng)的一階段PSO算法,TSCPSO優(yōu)化算法有效提高了單一模型和分解集成模型的區(qū)間預測精度,并將普通PSO算法優(yōu)化模型的INAD值由0.007~95.844降至0.005~0.195,其中將單一模型的INAD值由48.813~95.844降低至0.046~0.195,將分解集成模型的INAD值由0.007~0.034降低至0.005~0.014。
4.4 討論Du等[17]和Fang等[18]的研究表明:將驗證期內預報因子數據當作已知數據,構建分解集成模型會導致“虛假”的高精度預測結果,使該類模型難以滿足實際預報工作。而本文提出的VMD-SVM-KDE-TSCPSO模型先將徑流序列分解為率定期、測試期和驗證期,然后逐步分解徑流序列得到子序列,最后根據率定期和測試期的子序列數據,應用TSCPSO優(yōu)化算法訓練模型的4個未知參數。由此可見,該模型在訓練模型時并未使用驗證期數據,這說明該模型可解決傳統(tǒng)分解集成預測模型存在的錯誤使用未來預測因子數據的問題。并且,本文構建的VMD-SVM-KDE-TSCPSO模型在正確開發(fā)的基礎上,在各站的R2和NSE值均達到約0.9,且預測區(qū)間覆蓋率高,寬度窄,說明該模型具有較高的點預測和區(qū)間預測精度。因此,可將VMD-SVM-KDE-TSCPSO模型應用到實際預報工作中。
為提高徑流預測精度并量化預測結果的不確定性,本文提出一種新型VMD-SVM-KDE逐步分解集成模型和新型TSCPSO優(yōu)化算法進行徑流的點預測和區(qū)間預測。選用黃河流域4個水文站的月徑流數據對模型性能進行評估。通過對比SVM-PSO、VMD-SVM-PSO、SVM-TSCPSO和VMD-SVM-TSCPSO模型的點預測結果,以及SVM-KDE-PSO、VMD-SVM-KDE-PSO、SVM-KDE-TSCPSO和VMD-SVM-KDE-TSCPSO模型的區(qū)間預測結果,研究結果表明:(1)VMD-SVM-KDE模型將單一SVM-KDE模型的R2和NSE值由0.145~0.630提升至0.872~0.921,INAD值由0.046~95.844降低至0.005~0.034,說明VMD-SVM-KDE模型可以顯著改進單一SVM-KDE模型的點預測和區(qū)間預測性能;(2)相較于傳統(tǒng)的一階段PSO算法,TSCPSO優(yōu)化算法將單一模型的R2和NSE值由0.145~0.480提升至0.309~0.630,INAD值由48.813~95.844降低至0.046~0.195,將分解集成模型的R2和NSE值由0.872~0.912提升至0.876~0.921,INAD值由0.007~0.034降低至0.005~0.014,說明TSCPSO優(yōu)化算法可以克服SVM的過擬合問題,并能提高單一模型和分解集成模型的預測精度;(3)VMD-SVM-KDE-TSCPSO有效解決了傳統(tǒng)分解集成預測模型存在的錯誤使用驗證期內預報因子數據的問題,并在各站的R2和NSE值均約為0.9,INAD值的范圍為0.005~0.014,具有更高的點預測和區(qū)間預測精度,可為分解集成水文預測模型的正確建立提供參考,也可為非平穩(wěn)非線性水文序列的實際預報工作提供依據。