莫崇勛, 鄧云, 阮俞理, 雷興碧, 麻榮永, 孫桂凱
(1.廣西大學(xué) 土木建筑工程學(xué)院, 廣西 南寧 530004;2.工程防災(zāi)與結(jié)構(gòu)安全教育部重點實驗室, 廣西 南寧 530004;3.廣西防災(zāi)減災(zāi)與工程安全重點實驗室, 廣西 南寧 530004)
徑流受多種因素如降雨、氣溫及人類活動的擾動,從而顯露出非線性、非平穩(wěn)性和不確定性等特征。深入挖掘徑流數(shù)據(jù)序列中的存在趨勢、周期和噪音規(guī)律,有利于捕捉徑流特征,提高徑流的預(yù)測精度。大量學(xué)者在信號預(yù)處理和模型的組合預(yù)測方面開展了許多研究。孫望良等[1]提出了一種基于長短時記憶神經(jīng)網(wǎng)絡(luò)DFA-VMD-LSTM的組合日徑流預(yù)測模型,應(yīng)用于三峽水庫徑流預(yù)測中,預(yù)測精度得到顯著提升。張森等[2]將長短時神經(jīng)網(wǎng)絡(luò)(LSTM)和多種群遺傳算法(MPGA)相耦合,并應(yīng)用于石礱站,結(jié)果顯示合格率為85%,達到預(yù)報甲等標準。呂晗芳[3]等針對月徑流序列包含多種復(fù)雜頻率信息的特性,提出了VMD-LSSVM模型,結(jié)果表明組合模型較單一模型預(yù)測效果好,其中以VMD-LSSVM模型的精度最高。梁浩等[4]分別基于EMD、EEMD和小波分解構(gòu)建了多種混合模型,發(fā)現(xiàn)單一模型的預(yù)測精度均低于混合預(yù)測模型。桑宇婷等[5]采用CEEMD法及BP神經(jīng)網(wǎng)絡(luò),建立了汾河上游月經(jīng)流量預(yù)測的CEEMD-BP模型,并與單一BP模型進行對比,研究發(fā)現(xiàn)驗證期CEEMD-BP模型徑流預(yù)測的平均絕對誤差、均方根誤差與單一BP模型相比分別減少53%~62%、48%~65%。上述預(yù)測模型大多研究的是單一預(yù)處理耦合單一模型的方式,鮮少涉及到各種預(yù)處理方法的對比應(yīng)用,為了進一步探究預(yù)處理方法結(jié)合各徑流耦合模型的預(yù)測效果,本文以西南區(qū)澄碧河流域為例,建立EMD-BP、EEMD-BP和EWT-BP等9種徑流預(yù)測耦合模型,對澄碧河流域徑流進行預(yù)測及對比分析,以優(yōu)選出較好的預(yù)測耦合模型。
經(jīng)驗?zāi)B(tài)分解方法由Huang等[6]于1998年創(chuàng)建,其使用信號內(nèi)部的特征尺度變化解析頻率和能量,使得非平穩(wěn)、非線性的信號被分解為有限個具有一定周期和平穩(wěn)性的本征模態(tài)函數(shù)(IMF)與一個殘余Res分量。提取的IMF分量需要滿足2個條件:①在全部數(shù)據(jù)段內(nèi),極大值和極小值點的總數(shù)量和過零點的數(shù)量必須相等或相差最多不超過一個;②任意時刻內(nèi),局部極大值點連接生成的上包絡(luò)線和局部極小值點連接生成的下包絡(luò)線總體均值為0,即上、下包絡(luò)線對于時間軸呈現(xiàn)局部對稱分布[7]。主要計算步驟見文獻[8]。
Wu等[9]于 2009 年提出集合經(jīng)驗?zāi)B(tài)分解法(EEMD),是在 EMD 的基礎(chǔ)上發(fā)展而來,通過在使用 EMD 進行分解的過程中添加多次高斯白噪聲序列,達到使隨機集成產(chǎn)生的白噪聲序列相互抵消的目的,從而減少模態(tài)混疊的概率。該方法的具體計算步驟詳見文獻[10]。
經(jīng)驗小波變換[11](EWT)綜合了 EMD 的自適應(yīng)優(yōu)勢,通過在 Fourier 頻譜上進行適當分割,并于各個頻帶上建立一組適宜的正交小波濾波器組,將信號分解成多個具有緊湊支撐特性的頻率特征信息相異的分量[12]。主要計算步驟詳見文獻[13]。
Elman神經(jīng)網(wǎng)絡(luò)是一類具有極強計算能力的局部回歸網(wǎng)絡(luò),連接局部記憶單元與局部反饋[14]。Elman神經(jīng)網(wǎng)絡(luò)由4層網(wǎng)絡(luò)結(jié)構(gòu)組成,分別為輸入、隱含、輸出和承接層,相比于一般靜態(tài)神經(jīng)網(wǎng)絡(luò),具有逼近速度快、動態(tài)特性好等特點[15]。
SVM模型的基礎(chǔ)是統(tǒng)計學(xué)習理論下的VC維度與結(jié)構(gòu)風險最小化理論,其本質(zhì)是通過一個非線性映射使得樣本的特征向量完成從低維空間至高維空間的映射,以找到將樣本分隔開的最大間隔超平面[16]。SVM以結(jié)構(gòu)風險最小化原理作為基礎(chǔ),建立在統(tǒng)計學(xué)習理論的基礎(chǔ)上,是一種基于數(shù)據(jù)的挖掘方法,能夠很好地處理回歸問題(時間序列分析)和模式識別(分類分析),可以推廣到預(yù)測和綜合評價等學(xué)科,在線性可分數(shù)據(jù)方面,可以實現(xiàn)對它的最優(yōu)分類。SVM模型詳細步驟見文獻[17]。
BP神經(jīng)網(wǎng)絡(luò)是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一,在1986年由Rumelhart和McCelland提出,它的學(xué)習規(guī)則是使用梯度下降法,通過反向傳播來不斷調(diào)整網(wǎng)絡(luò)的權(quán)值和閾值,使網(wǎng)絡(luò)的誤差平方和最小,BP網(wǎng)絡(luò)有3層或3層以上的結(jié)構(gòu),它們是輸入、單層或多層隱藏、輸出層組合而成,BP神經(jīng)網(wǎng)絡(luò)模型詳細步驟見文獻[14]。
結(jié)合上述3種預(yù)處理方法和3種單一模型方法,本文通過澄碧河流域壩首站優(yōu)選BP、SVM和Elman模型,對比分析上述結(jié)果篩選出最優(yōu)單一模型,在此基礎(chǔ)上,結(jié)合EMD、EEMD和EWT 3種預(yù)處理方法構(gòu)建9種耦合模型,對比分析耦合模型的預(yù)測結(jié)果,最后優(yōu)選出適合該流域的最優(yōu)耦合模型。技術(shù)路線如圖1所示。
圖1 技術(shù)路線圖
為評價預(yù)測模型的預(yù)測性能,參考國內(nèi)外較為普遍適用的模型評價標準,論文選取納什效率系數(shù)(NSE)、均方根誤差(RMSE)和平均相對誤差絕對值(MAPE)共3種評價指標構(gòu)建評價指標體系用于評價。
(1)
(2)
(3)
澄碧河流域位于百色市凌云縣北部的青龍山,平均海拔為650 m,屬西江水系,該流域總面積為2 087 km2,巖溶區(qū)面積占總面積為53.7%,干流河長為151 km。該巖溶區(qū)是中國南方典型的巖溶區(qū)之一,具有高峰叢狀洼地和峰叢洼地的特征,屬喀斯特地貌,地處亞熱帶季風氣候區(qū)。水庫壩址以上集雨面積為2 000 km2,年平均降水量為1 560 mm,具有很好的調(diào)節(jié)性能。其中壩首、平塘、浩坤和下甲為水文站,下塘、百練、林河、凌云、朝里、弄塘、介福和東和為雨量站。澄碧河流域站點分布圖如圖2所示。
圖2 澄碧河流域示意圖
因歷史原因,結(jié)合所擁有的觀測資料,論文采用的數(shù)據(jù)為:壩首水文站站1979-01-01—12-01的逐月徑流深資料。其中,以月徑流深同時作為輸入項和輸出項。模型構(gòu)建中,不同維數(shù)月份的輸入會影響最后輸出結(jié)果,即選取最優(yōu)滯后時。輸入數(shù)據(jù)個數(shù)較少時,訓(xùn)練次數(shù)較少,預(yù)測效果欠佳,輸入數(shù)據(jù)太多時,易出現(xiàn)過擬合現(xiàn)象,對預(yù)測效果存在影響。本文通過參考以往文獻的輸入滯后時間,以及不斷的進行各情景下的滯后時間的嘗試,比對效果,最后選取11類優(yōu)選集。各情景輸入模型后,得到各情景下的結(jié)果,對比選優(yōu),得到最后結(jié)果。其中11類輸入的滯后時間見表1。
表1 輸入數(shù)據(jù)的滯后時間情景類別
2.2.1 單一模型預(yù)測結(jié)果
利用澄碧河流域1979-2019年共41 a的492個月徑流深序列建立Elman預(yù)測模型、SVM預(yù)測模型和BP預(yù)測模型進行對比,結(jié)果分別如圖3和表2所示。由圖3可知,Elman模型、SVM模型和BP模型的預(yù)測值均跟實測值的誤差相對較大,擬合效果不甚理想。為了進一步對比3種單一模型的預(yù)測效果,采用NSE、RMSE、MAPE進行評價,結(jié)果見表2。由表2可知,從NSE指標來看,Elman、SVM和BP模型的NSE值較小,預(yù)報等級均未達到丙級,預(yù)測效果不甚理想,3種模型中,BP的NSE值最高,為0.49,較Elman的NSE值大0.06,較SVM的NSE值大0.04。這與BP神經(jīng)網(wǎng)絡(luò)的非線性映射能力、泛化能力和容錯能力有關(guān)。
圖3 單一模型預(yù)測結(jié)果圖
表2 各單一模型在驗證集上的預(yù)測結(jié)果
采用EMD方法將原始序列進行分解,重構(gòu)后進行建模,數(shù)據(jù)總計492個月,訓(xùn)練集和驗證集比例劃分為8∶2,也即訓(xùn)練集為前394月,驗證集為后98個月。通過窮舉對比,3種單一模型的最優(yōu)輸入滯后時間均為11個月。壩首水文站月徑流資料的EMD處理結(jié)果如圖4所示。原序列分解共得到6個IMF分量與一個趨勢項RES,它不僅包含了原始序列的全部信息,而且突出了原始序列的不同特征,使對原始序列影響較小的原始序列特征同樣出現(xiàn),反映了原始序列的多尺度性。由圖4可知,各IMF分量的頻率由高到低依次遞減,每種模態(tài)都體現(xiàn)了原始序列的特征,使模型能夠更準確地學(xué)習徑流序列的周期性和規(guī)律性特征。
(a)IMF1分解結(jié)果
由圖5可知,使用 EEMD 法分解壩首水文站月徑流序列后,可以得到 7個波動周期相異的本征模態(tài)函數(shù) IMF 分量和 1個RES 趨勢項分量,同樣能夠反映出壩首水文站月徑流變化的多時間尺度特征;在分解出的所有子序列中,同 EMD 法作出的分解結(jié)果相同,依舊是本征模態(tài)函數(shù) IMF1 分量和IMF2分量的振動幅度最大,頻率最高,波長最短,而從 IMF3分量到 IMF7分量振動呈現(xiàn)逐漸變小的趨勢,頻率呈現(xiàn)逐漸降低的趨勢,波長呈現(xiàn)逐漸變大的趨勢,分解出的 RES趨勢項分量顯示出月徑流序列整體呈現(xiàn)出明顯的上升趨勢。
(a)IMF1分解結(jié)果
由圖6可知,使用 EWT 法分解壩首水文站月徑流序列,可以得到 4 個具有一定規(guī)律的經(jīng)驗?zāi)B(tài)分量,IMF1 至 IMF4 具有不同的周期性和振動幅度并分別對應(yīng)著原始振動信號的不同特征。該方法與 EMD 法和 EEMD 法分解出的 IMF 分量進行比較可以發(fā)現(xiàn),其分解出的 IMF 分量更少,僅有4個IMF 分量,并且沒有 RES趨勢項分量。EMD 法和 EEMD 法得到的 IMF 分量雖多,但除前幾個分量,其余均為難以觀測變化且不具備明顯振動特征的分量,一般將其視為虛假模態(tài)。
(a)IMF1分解結(jié)果
經(jīng)過上述3種不同的預(yù)處理方法后,求得各個方法的不同分量,再用各模型針對各分量進行預(yù)測,最后進行加和,得到最后預(yù)測結(jié)果。
在已知BP神經(jīng)網(wǎng)絡(luò)的預(yù)測效果較好情況下,進一步利用澄碧河流域1979—2019年共41 a的492個月徑流深序列建立EMD-BP模型、EEMD-BP模型和EWT-BP模型進行對比。具體結(jié)果如圖7和表3所示。①由圖7(a)和表3可知,對比NSE和RMSE指標在不同模型中的模擬效果,精度上,EMD-BP模型大于BP模型,納什效率系數(shù)提高65.12%,均方根誤差降低29.36%,預(yù)測結(jié)果更加接近實測值,利用EMD-BP模型,對非平穩(wěn)徑流序列進行分解-預(yù)測-重構(gòu),進而轉(zhuǎn)化為平穩(wěn)序列,減少了非平穩(wěn)性對徑流預(yù)測誤差的影響。②由圖7(b)和表3可知,精度上,EEMD-BP大于BP模型,納什效率系數(shù)提高62.79%,均方根誤差降低27.84%,月徑流預(yù)測結(jié)果更加接近實測值,較EMD處理數(shù)據(jù)的效果沒有很大明顯變化。③由圖7(c)和表3可知,精度上,EWT-BP大于BP模型,納什效率系數(shù)提高了0.48,均方根誤差降低61.02%,月徑流預(yù)測結(jié)果在3種耦合模型中最接近實測值。由圖7(d)和表3可知,精度上,EWT-BP模型的納什效率系數(shù)最大,NSE值為0.91,較EMD-BP模型,NSE值提高了28.17%,RMSE值降低了15.83,較EEMD-BP模型,NSE值提高了30%,RMSE值降低了16.59,表明EWT-BP模型的預(yù)測精度較好。
(a)EMD-BP預(yù)測結(jié)果
表3 各耦合模型在驗證集上的預(yù)測結(jié)果
① 本文采用BP、SVM和Elman這3種單一模型對澄碧河流域壩首站月徑流深進行預(yù)測,結(jié)果表明,BP模型的預(yù)測效果較好,SVM次之,Elman在3種模型中相對較差,表明BP神經(jīng)網(wǎng)絡(luò)能夠較好地適應(yīng)于該流域中非線性的徑流關(guān)系。
② 在3種預(yù)處理方法中,EWT的分解效果較好,優(yōu)劣先后順序為EWT、EEMD、EMD。
③ 在構(gòu)建的9種耦合模型中,EWT-BP耦合模型的表現(xiàn)效果最好,NSE指標為0.91,預(yù)測精度達到甲級,好于EMD-BP和EEMD-BP耦合模型。
④ 在對澄碧河流域的徑流預(yù)測研究中,耦合模型的預(yù)測效果較單一模型整體上都要好,提高了徑流預(yù)測精度。接下來工作還可以在以下2個方向進行更深入研究:該研究只針對月徑流進行了模擬,尚未涉及到年徑流、日徑流不同時間尺度的研究,可以進一步進行這方面的研究;不同預(yù)處理方法的不同頻率分量可采用不同的預(yù)測方法進行預(yù)測,篩選出適用于各頻率不同分量的最佳預(yù)測模型,求和可進一步提高預(yù)測精度。