關(guān)鍵詞:LSTM;離散小波;水文預(yù)測(cè);時(shí)頻分析;黃河流域
中圖分類號(hào): TV11;TP181 文獻(xiàn)標(biāo)志碼:A doi:10.3969/j.issn.1000-1379.2024.06.020
引用格式:喬長建,劉震,邰建豪.基于LSTM 的水文站流量短期預(yù)測(cè)建模差異性研究[J].人民黃河,2024,46(6):119-125.
水文預(yù)測(cè)對(duì)水資源規(guī)劃管理具有重要作用,尤其是流量短期預(yù)測(cè)對(duì)防災(zāi)減災(zāi)具有重大意義[1-3] 。然而,影響流量的參數(shù)在時(shí)間尺度和空間尺度上存在復(fù)雜的非線性特性,使流量短期預(yù)測(cè)存在較大困難[4] 。
當(dāng)前對(duì)水文模擬預(yù)測(cè)的方法主要包括過程驅(qū)動(dòng)法和數(shù)據(jù)驅(qū)動(dòng)法[5] 。過程驅(qū)動(dòng)法是以概化經(jīng)驗(yàn)?zāi)P突蚓哂形锢頇C(jī)制的水文模型為主,模型率定對(duì)各種水文數(shù)據(jù)的依賴性較強(qiáng)[6-8] ,需要考慮不同時(shí)空尺度的水文參數(shù)不確定性。數(shù)據(jù)驅(qū)動(dòng)法主要以歷史水文數(shù)據(jù)為基礎(chǔ),擬合出一個(gè)預(yù)測(cè)模型,無須考慮水文過程的物理機(jī)制。隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,數(shù)據(jù)驅(qū)動(dòng)模型更加廣泛地運(yùn)用于徑流研究中,如一些學(xué)者假設(shè)自變量與因變量間為線性關(guān)系,利用傳統(tǒng)時(shí)序建模方法(ARI?MA)[9] 、自回歸模型(AR)[10] 以及自回歸滑動(dòng)平均模型(ARMA)[11] 進(jìn)行建模;還有一些學(xué)者利用徑流序列的非線性特征進(jìn)行建模, 如人工神經(jīng)網(wǎng)絡(luò)模型(ANN)、支持向量機(jī)(SVM)等[12] 。
當(dāng)前,深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中的熱點(diǎn)[1] 。深度神經(jīng)網(wǎng)絡(luò)最顯著的特征是多元神經(jīng)網(wǎng)絡(luò)架構(gòu)中的層,它提供了比非深度神經(jīng)網(wǎng)絡(luò)更復(fù)雜的函數(shù)。針對(duì)序列數(shù)據(jù)的學(xué)習(xí)訓(xùn)練,研究人員開始關(guān)注循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)及其變體,并發(fā)現(xiàn)其具有較好的徑流時(shí)間序列預(yù)測(cè)性能。例如:Wang等[13] 使用RNN 進(jìn)行氣象統(tǒng)計(jì)降尺度和氣象評(píng)估,證明其相對(duì)于傳統(tǒng)的ANN 模型有更高的擬合精度;蔡文靜等[14] 構(gòu)建了基于經(jīng)驗(yàn)?zāi)B(tài)分解( EMD)、變分模態(tài)分解(VMD)、離散小波變換(DWT)的LSTM 子序列組合預(yù)測(cè)模型,其預(yù)測(cè)精度比單一序列預(yù)測(cè)模型的高。然而,圍繞機(jī)器學(xué)習(xí)的水文站流量預(yù)測(cè)研究主要集中在模型構(gòu)建和參數(shù)選擇上,不同流域的氣候、海拔、地下水、降雨等因素各異,水文站流量的影響因子也不同,缺乏參數(shù)選擇對(duì)不同流域的神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型預(yù)測(cè)結(jié)果影響的研究,導(dǎo)致基于機(jī)器學(xué)習(xí)的水文預(yù)測(cè)模型的適應(yīng)性和推廣運(yùn)用程度較低。因此,本文選用LSTM 模型,針對(duì)不同特征流域的水文站,研究預(yù)測(cè)模型在不同參數(shù)輸入時(shí)的預(yù)測(cè)精度,進(jìn)而分析不同流域的建模差異性,以期提高水文預(yù)測(cè)模型的適應(yīng)性。
1研究區(qū)概況
黃河發(fā)源于青藏高原巴顏喀拉山北麓約古宗列盆地,干流全長5464km,流域總面積79.5 萬km2(含內(nèi)流區(qū)面積4.2 萬km2)。為驗(yàn)證預(yù)測(cè)模型的可用性和精度,選取黃河流域3 個(gè)子流域(唐乃亥上游流域、汾河流域、花園口下游流域)作為研究對(duì)象(見圖1)。
唐乃亥上游流域?qū)儆邳S河源區(qū),位于青藏高原東北部,其水資源與生態(tài)環(huán)境關(guān)乎整個(gè)黃河流域的水安全和區(qū)域發(fā)展。流域內(nèi)大型水利設(shè)施較少,水文站測(cè)得的流量數(shù)據(jù)主要與氣候(雪山融化和降雨)有關(guān),因此對(duì)該流域建模時(shí)可以忽略非氣候因素影響,圍繞水文站流量、氣溫和降水因子建立預(yù)測(cè)模型。汾河流域發(fā)源于山西省寧武縣管涔山,縱貫山西省中部,流經(jīng)太原和臨汾兩大盆地,于萬榮縣匯入黃河,流域面積3.9471 萬km2,河長693.8 km,年降水量變化大,沿岸地區(qū)每年從汾河取水24.3 億m3,取水量占全省水資源利用總量的46%,下游河津水文站監(jiān)測(cè)汾河流域入黃河的流量?;▓@口下游流域(花園口至利津)河段長期淤積,形成舉世聞名的地上“懸河”,黃河約束在大堤內(nèi),成為海河流域與淮河流域的分水嶺。除大汶河由東平湖匯入外,該河段無較大支流匯入。流域狹長,面積僅2.3 萬km2,占黃河全流域面積的3%,因此可以忽略流域降雨產(chǎn)流因素,考慮上游流量建立流量預(yù)測(cè)模型。
2數(shù)據(jù)來源與研究方法
2.1數(shù)據(jù)來源
流量數(shù)據(jù)(各水文站2006年5月1日至2020 年11月25日流量)源自黃河水利委員會(huì)黃河水情網(wǎng)站。唐乃亥上游流域使用唐乃亥水文站監(jiān)測(cè)數(shù)據(jù),汾河流域使用河津水文站監(jiān)測(cè)數(shù)據(jù),花園口下游流域使用花園口、夾河灘、高村、孫口、艾山、濼口、利津7 個(gè)水文站監(jiān)測(cè)數(shù)據(jù)。
降水量、氣溫?cái)?shù)據(jù)源自NOAA Climate PredictionCenter發(fā)布的2006—2020年全球降水量、氣溫?cái)?shù)據(jù)集,基于經(jīng)緯度提取流域內(nèi)各氣象站的數(shù)據(jù),最終得到唐乃亥上游流域14個(gè)氣象站的降水量、氣溫?cái)?shù)據(jù),汾河流域35 個(gè)氣象站的降水量、氣溫?cái)?shù)據(jù),花園口下游流域14 個(gè)氣象站的降水量、氣溫?cái)?shù)據(jù)。
2.2研究方法
3結(jié)果與分析
3.1各水文站流量時(shí)頻分析
2006年5 月1 日—2020年11 月25日唐乃亥、河津、利津水文站流量、氣溫、降水量數(shù)據(jù)統(tǒng)計(jì)結(jié)果見表1。唐乃亥、利津水文站為黃河干流水文站,日均流量較大;河津水文站為汾河支流水文站,日均流量較小。
對(duì)唐乃亥、河津、利津水文站日均流量的時(shí)序數(shù)據(jù)進(jìn)行離散小波變換,分解為1 個(gè)逼近信號(hào)(A5)和5 個(gè)細(xì)節(jié)信號(hào)(D1、D2、D3、D4、D5),見圖3(上方第一行圖為原始日均流量—時(shí)間關(guān)系圖,第二行至第七行圖均為信號(hào)幅值—時(shí)間關(guān)系圖)。逼近信號(hào)保留原始流量的周期性特征,細(xì)節(jié)信號(hào)顯示出細(xì)節(jié)變化和噪聲等信息。如果一個(gè)信號(hào)分解出來的逼近信號(hào)周期性特征明顯,細(xì)節(jié)信號(hào)幅度越小,則信號(hào)的預(yù)測(cè)性越高。
分析圖3 可知,A5信號(hào)周期性特征的顯著性由高到低為唐乃亥>利津>河津,D1~D5 信號(hào)幅度由小到大為河津<唐乃亥<利津。D1~D5信號(hào)波動(dòng)主要出現(xiàn)在原始流量序列波峰,波峰(汛期)預(yù)測(cè)受氣溫、降雨等因素影響較大。結(jié)合水文站地理環(huán)境、流域特點(diǎn)、日均流量時(shí)頻分析,初步推測(cè):1)唐乃亥水文站在黃河上游,人類活動(dòng)較少,主要受冰山融雪影響,因此流量變化更能表現(xiàn)出季節(jié)性(周期性)特征,預(yù)測(cè)模型僅依據(jù)歷史流量序列即可有較高的預(yù)測(cè)精度,若結(jié)合氣溫、降水量,則預(yù)測(cè)精度會(huì)更高。2)利津水文站在黃河下游,花園口至利津段流域狹長,受降水影響有限,受上游流量的影響較大,預(yù)測(cè)模型僅依據(jù)歷史流量序列的預(yù)測(cè)性較低,若結(jié)合上游流量,則預(yù)測(cè)精度會(huì)更高。3)汾河流域產(chǎn)流主要受地下水、降水的影響,河道流量小且受人類活動(dòng)(灌溉、引水等)影響較大,因此其表現(xiàn)出弱周期性、較強(qiáng)隨機(jī)性,預(yù)測(cè)模型僅依據(jù)歷史流量序列時(shí)的預(yù)測(cè)性較低,結(jié)合降水、人類活動(dòng)因素時(shí)應(yīng)有較高預(yù)測(cè)精度。
3.2影響因子相關(guān)性分析
唐乃亥水文站處于黃河上游,流量的影響因子單一,因此選擇流域日均降水量、日均氣溫作為預(yù)測(cè)模型備選因子;河津水文站作為汾河流域出口,流量受流域產(chǎn)流影響較大,同樣選擇流域日均降水量、日均氣溫作為預(yù)測(cè)模型備選因子;利津水文站受上游流量影響較大,因此選擇上游水文站流量以及流域日均降水量、日均氣溫作為預(yù)測(cè)模型備選因子。利用Spearman 模型計(jì)算各水文站預(yù)測(cè)模型備選因子與流量的相關(guān)系數(shù),唐乃亥水文站降水量、氣溫與流量的相關(guān)系數(shù)分別為0.52、0.69,河津水文站降水量、氣溫與流量的相關(guān)系數(shù)分別為0.60、0.03,利津降水量、利津氣溫、花園口流量、夾河灘流量、高村流量、孫口流量、艾山流量、濼口流量與利津流量的相關(guān)系數(shù)分別為0.17、0.41、0.68、0.70、0.74、0.79、0.84、0.92。最終,選用相關(guān)系數(shù)大于0.40 的備選因子作為預(yù)測(cè)模型的輸入因子進(jìn)行訓(xùn)練和預(yù)測(cè)。
3.3基于LSTM 的流量預(yù)測(cè)分析
3.3.1LSTM 模型建模
模型使用兩層LSTM 和一層全連接神經(jīng)網(wǎng)絡(luò),第一層LSTM 有100 個(gè)神經(jīng)元,第二層LSTM 有50 個(gè)神經(jīng)元。為避免過擬合,dropout 設(shè)置為0.2,訓(xùn)練epochs為100,批大小為16,最終輸出水文站未來5 d 的日均流量。預(yù)測(cè)模型神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)見表2,表中參數(shù)個(gè)數(shù)為神經(jīng)網(wǎng)絡(luò)層中權(quán)重矩陣和偏置向量的總和,輸出維度為神經(jīng)網(wǎng)絡(luò)層提取特征的結(jié)構(gòu)。
模型基于15 d 歷史數(shù)據(jù)預(yù)測(cè)未來5 d 的流量。根據(jù)3.2 節(jié)影響因子相關(guān)性分析,對(duì)于唐乃亥上游流域,設(shè)置兩種LSTM 輸入方案,方案一是輸入唐乃亥水文站15 d 歷史流量,方案二是輸入唐乃亥水文站15 d 歷史流量、流域日均氣溫、流域日均降水量;對(duì)于汾河流域,設(shè)置兩種LSTM 輸入方案,方案一是輸入河津水文站15 d 歷史流量,方案二是輸入河津水文站15 d 歷史流量、流域日均降水量;對(duì)于花園口下游流域,設(shè)置四種LSTM 輸入方案,方案一是輸入利津水文站15 d 歷史流量,方案二是輸入花園口、濼口、艾山、孫口、高村和利津共6 個(gè)水文站15 d 歷史流量、日均氣溫,方案三是輸入利津、濼口水文站15 d 歷史流量,方案四是輸入利津、花園口水文站15 d 歷史流量。LSTM 輸出為唐乃亥、河津、利津水文站未來5 d 的流量。
3.3.2預(yù)測(cè)結(jié)果分析
唐乃亥、河津、利津水文站未來5 d 流量預(yù)測(cè)結(jié)果分別見圖4、圖5 和圖6,預(yù)測(cè)精度見表3。對(duì)比不同方案的預(yù)測(cè)結(jié)果,方案一(均是單因子輸入)的預(yù)測(cè)值曲線在實(shí)測(cè)值曲線偏右,而其他多因子輸入方案的預(yù)測(cè)結(jié)果沒有出現(xiàn)波峰后移現(xiàn)象,說明輸入多因子可以提高模型綜合預(yù)測(cè)能力。方案一預(yù)測(cè)第5 d 的流量值總體明顯低于實(shí)測(cè)值,尤其是波峰位置,說明預(yù)測(cè)時(shí)間越長,預(yù)測(cè)精度越低;而其他多因子輸入方案預(yù)測(cè)第5 d的流量值比方案一的值高,精度明顯提升,說明引入外在影響因子能完善預(yù)測(cè)模型。
對(duì)比不同水文站的模型預(yù)測(cè)結(jié)果,唐乃亥水文站方案一第5 d 預(yù)測(cè)結(jié)果的NSE 達(dá)0.90,說明該水文站上游地區(qū)水文過程時(shí)序性較穩(wěn)定,模型僅依據(jù)歷史流量序列就具有較高的預(yù)測(cè)性能,方案二進(jìn)一步提高了預(yù)測(cè)精度。河津水文站方案一前2 d 預(yù)測(cè)結(jié)果的精度較高,第5 d 雖能預(yù)測(cè)出流量走勢(shì),但對(duì)流量波動(dòng)性擬合不足,這與汾河流量小、易受隨機(jī)因素影響相關(guān),波峰位置預(yù)測(cè)值普遍低于實(shí)測(cè)值;方案二對(duì)波峰位置的流量預(yù)測(cè)精度明顯提升,但對(duì)波動(dòng)小的流量擬合仍然不足,且第3 ~ 5d 訓(xùn)練期預(yù)測(cè)結(jié)果的NSE 分別為0.82、0.79、0.73,對(duì)照驗(yàn)證期預(yù)測(cè)結(jié)果的NSE 分別為0.63、0.52、0.39,說明模型出現(xiàn)過擬合現(xiàn)象,對(duì)模型輸入因子的考慮還不夠全面。利津水文站方案一第1 d的預(yù)測(cè)精度較高,第5 d 偏離較大;方案二考慮上游水文站的流量后,預(yù)測(cè)精度明顯提升,第5 d 預(yù)測(cè)結(jié)果的NSE 達(dá)到0.85;方案四第5 d 預(yù)測(cè)精度比方案三的高,說明上游水文站與利津站的距離影響預(yù)測(cè)精度,如花園口水文站距離利津水文站約570 km,若流速以2 m/ s計(jì)算,花園口的水將在3 d 左右流到利津,根據(jù)花園口水文站流量可預(yù)測(cè)利津水文站未來3 d 的流量,即距利津水文站越遠(yuǎn),未來能預(yù)測(cè)更長時(shí)間的流量。
4結(jié)論
本文基于黃河不同子流域特點(diǎn)選擇3 個(gè)水文站進(jìn)行流量預(yù)測(cè)對(duì)比,用離散小波變換對(duì)波形差異進(jìn)行時(shí)頻分析,基于LSTM 進(jìn)行短期流量預(yù)測(cè)建模。通過對(duì)比分析,得出以下結(jié)論:
1)僅利用自身流量因子訓(xùn)練得出的水文站預(yù)測(cè)模型易出現(xiàn)平移預(yù)測(cè),即預(yù)測(cè)值曲線在實(shí)測(cè)值曲線偏右,且流量穩(wěn)定時(shí)期預(yù)測(cè)精度高、波峰時(shí)期預(yù)測(cè)精度低。
2)唐乃亥水文站的上游流域受人類活動(dòng)影響小,其流量的時(shí)序數(shù)據(jù)周期性好,波形穩(wěn)定,預(yù)測(cè)模型可以基于自身歷史流量序列進(jìn)行建模,具有較高的預(yù)測(cè)精度。
3)受上游影響較大的干流水文站,模型僅依據(jù)水文站歷史流量的預(yù)測(cè)性較低,輸入上游多因子進(jìn)行建模后,模型精度有所提高。采用距預(yù)測(cè)水文站較遠(yuǎn)的上游水文站流量數(shù)據(jù)進(jìn)行建模時(shí),可預(yù)測(cè)更長時(shí)間的流量。