李蘭茹,孟 涵,姚 成
(1.廣東省水文局廣州水文分局,廣東 廣州 510150;2.河海大學水文水資源學院,江蘇 南京 210098)
我國幅員遼闊,季風氣候顯著,是世界上洪澇災害多發(fā)頻發(fā)的國家之一[1]。目前,受下墊面變化、人類活動和水文循環(huán)不穩(wěn)定性影響,流域實測流量過程的復雜性、非線性與隨機性等特征加劇,導致難以精準實現洪水過程的建模和預測[2]。因此,流域洪水模擬精度的提升對于水資源管理和災害防治具有意義。
洪水模擬方法主要包括水文模型驅動法和數據驅動法模型兩種類型[3]。水文模型驅動法以水文學概念為基礎,通常需要氣象數據(例如降雨、溫度、濕度等)作為輸入,通過建立水文物理模型來解釋徑流變化,進而推導出流域的水文過程,如趙人俊提出的新安江模型[4]。此類模型雖然可解釋性強,但是對輸入數據質量要求高,具有一定的局限性。而數據驅動法是通過分析輸入輸出數據間的最優(yōu)數學關系發(fā)現數據背后的規(guī)律來模擬洪水過程的模型,包括時間序列模型、回歸分析模型和機器學習模型[5]。其中時間序列模型是一種常用的預測未來時間序列數據的方法,但在處理數據較為復雜或者有高度噪聲的情況下可能表現不佳。而機器學習模型在非線性數據、過程和系統(tǒng)的模擬中效果較好且計算效率高,被廣泛應用于洪水模擬。深度學習作為機器學習的重要分支,通過利用多層神經網絡從大量數據中學習樣本數據的本質規(guī)律和層次結構。其能夠深層挖掘出數據之間的隱含關系,具有高效的特征表達能力[6]。深度學習中常見的網絡類型中長短期記憶網絡對時間序列數據的模擬精度高[7],且對流域降雨徑流關系的描述能力強[8],在洪水模擬領域應用廣泛。
考慮到實測流量過程的高頻隨機性同時又具有長期變化趨勢的特點,本文提出一種基于奇異譜分析與長短期記憶神經網絡的(SSA-LSTM)組合模型的短期流量過程的預測方法,以期能夠提高預測精度。
時間序列分量提取的常用方法包括小波變換和奇異譜分析等。其中,小波變換對非線性的影響很大程度上取決于基函數和小波階數的選擇。而奇異譜分析在去除噪聲方面優(yōu)于經驗模態(tài)分解和小波變換[9]。因此,對于實測流量過程波動大的特征,選擇奇異譜分析對實測流量過程進行降噪重構,具體流程如下:
(1)嵌入:將原始時間序列映射成K個長度為L的向量,并構建軌跡矩陣X:
(1)
式中,K=N-L+1,L(1 2)奇異值分解:通過奇異值分解(SVD)對軌跡矩陣計算,軌跡矩陣X可以被表示為: X=X1+X2+…+XL (2) 3)分組:將X分為n個不相交的子集I1,I2,…,In,表示不同的趨勢成分。令I={i1,i2,…,im},則第I組矩陣可表示為: XI=Xi1+Xi2+…+Xim (3) 則表示為: X=XI1+XI2+…+XIn (4) 4)重構:將軌跡矩陣X用對角平均法轉換為所對應的長度為T的序列RCIi=(rc1,rc2,…,rcT),RCIi中第k個元素為矩陣XI中滿足i+j=k+1的所有元素的均值。 長短期記憶網絡(LSTM)是一種遞歸神經網絡(RNN),用于處理序列數據的預測和分類[10]。相對于普通的RNN,LSTM支持更長的時間序列,并且可以在多個時間步驟中保留和管理長期記憶。LSTM引入遺忘門、輸入門和輸出門三個門來解決RNN存在的梯度不合理問題。遺忘門決定了哪些狀態(tài)需要保存或遺忘,輸入門的作用是決定當前的輸入應該如何更新長期狀態(tài),輸出門決定了哪些信息應該進行輸出,其結構如圖1所示。 圖1 LSTM結構圖 隨機森林是由Leo Breiman和Adele Cutler于2001年提出的一種集成學習算法[11],它的主要思想是通過構建多個決策樹,并將它們組合起來來提高模型的準確性和穩(wěn)定性,其結構如圖2所示。每個決策樹基于訓練集的不同子集和特征的不同子集進行訓練,這樣可以避免過擬合并提高模型的泛化能力。 圖2 隨機森林模型示意圖 在隨機森林中,每個決策樹都是基于不同的樣本集和特征集進行構建的。這樣可以保證每個決策樹都有不同的偏差和方差,提高了模型的準確性和穩(wěn)定性。 支持向量機是一種二分類模型[12],用于機器學習中的分類和回歸任務。它們基于尋找最佳線性邊界的思想,將不同類別的樣本分開。SVM的基本思想是將樣本映射到高維空間,使得樣本更容易被線性分開。當輸入數據被轉換到一個高維空間后,可以找到一個線性邊界。然后將轉換后的數據映射回原始空間,在原始空間中給出非線性邊界。與其他機器學習算法相比,支持向量機具有的主要優(yōu)勢之一是能夠處理高維數據以及輸入和輸出之間復雜的非線性關系。 本研究選取增江流域下游麒麟咀水文站的2000年至2020年20場次洪數據為研究對象,該歷史數據采樣周期為1小時。利用前15場次洪數據訓練模型,后5場次洪數據對訓練的模型進行驗證。訓練數據包含大、中、小洪水樣本,以及一個洪峰和多個洪峰的洪水過程。訓練數據的多樣性有利于提高模型的泛化能力。 本文提出一種基于奇異譜分析與長短期記憶神經網絡(SSA-LSTM)的組合模型的短期流量過程預測方法。該方法首先通過相空間重構模型確定窗口長度[13],依據選取的窗口長度通過奇異譜分析將實測流量過程分解為趨勢成分、振蕩成分,然后利用長短期記憶神經網絡對降噪之后的重組序列進行洪水預測,得到最終的預測值,其基本實現方式如下: (1)選擇增江流域下游麒麟咀水文站的20場次洪數據為研究對象對模型進行訓練和驗證。通過相空間重構模型確定奇異譜分析所需要的窗口長度,利用SSA方法對實測流量過程進行分解,得到包含趨勢成分、振蕩成分和噪聲成分的6個分量。 (2)對各個分量進行周期分量重建,通過加法合成法將趨勢成分和振蕩成分選擇性進行合成,最大程度地保留序列信息。利用LSTM模型對重構后的序列進行擬合。 (3)將SSA-LSTM模型與LSTM模型進行不同時間步長(6h、12h、18h、24h)下的單步預測性能比較。優(yōu)選時間步長后,進行不同預見期(1h,3h,6h,9h)的模擬,并將結果與SSA-RF、SSA-SVM模型進行比較。 了對預測結果更加直觀的分析,本文選取納什效率系數、均方根誤差、平均絕對誤差作為衡量預測性能的標準,3種標準表示形式如下: (5) (6) (7) 由圖3可以看出,實測流量過程呈現高頻波動性與隨機性,且無明顯規(guī)律。通過對實測流量過程進行樣本熵測試,得到的SampEn為0.6196。這表明實測流量過程存在一定的復雜性,使用常規(guī)的預測模型可能會受到多種因素的干擾。 圖3 增江流域2000—2020年洪水過程序列圖 奇異譜分析是一種基于信號的奇異性分解方法,可以將時間序列分解為若干條成分曲線。這些成分曲線包含了時間序列不同的頻率、振幅和相位信息,能夠反映出時間序列的特征。而保證奇異譜分析精度的重要因素是窗口長度M,文獻[13]中表明奇異譜分析中窗口長度選取與相空間重構存在相似之處,因此,窗口長度可以通過相空間重構模型進行選取。 通過相重構模型獲得的窗口長度為6,對實測流量過程進行分解,序列分解后各個分量的波動情況如圖4所示。 圖4 實測流量序列經過SSA分解得到的6個分量 分量1代表了原始序列的趨勢成分,反映出實測流量過程的長期變化趨勢,該分量包含了原始序列的絕大部分信息。分量2的波動程度較其他分量來說更劇烈,該分量描述了時間序列的短期漲落信息,具有一定的周期性和重復性。隨著分量貢獻程度的減少,分量波動幅度減小,分量4、5和6對序列的貢獻度極低,可視為幾乎不包含任何有用信息,對原始序列不造成影響,故將其視為噪聲去除[14]。選擇分量1、2和3進行重構,去除噪聲后的重組序列與原始序列相比,在保留了原始序列的長期變化趨勢的同時更加平滑,說明奇異譜分析可以在保留流量序列主要特征的同時極大程度地減少數據中的噪聲,從而避免模型被無用信息干擾。 為了將實測流量過程重構為一個標準的機器學習數據集,通常采用滑動窗口法對數據進行預處理,窗口的大小是一個可變參數,通常被稱為時間步長[15]。因此,將SSA-LSTM模型與LSTM模型進行不同時間步長(6h、12h、18h、24h)下的單步預測性能比較。為了保證模型在處理同樣的數據時具有相同的基礎配置,對LSTM、SSA-LSTM兩種模型中的LSTM結構設置相同的參數。這樣的話,模型的表現差異可以更好地反映出它們在結構和算法等方面的差異,并且可以減少由于不同參數配置而導致的誤差來源。模擬的表現見表1。 表1 SSA-LSTM與LSTM在不同時間步長下的性能比較 表1為SSA-LSTM與LSTM在不同時間步長下驗證集的洪水模擬精度,SSA-LSTM的評價指標表現均優(yōu)于LSTM模型,表明SSA-LSTM模型驗證期精度較好。而SSA-LSTM模型在洪水模擬中具有更好的效果,可能是因為經過奇異譜分析后的實測流量過程去除了噪聲分量,使得數據更加平滑易于建模分析。當時間步長從6h逐漸增加至24h時,LSTM模型的模擬效果呈現波動狀態(tài),時間步長為18h時,LSTM模型表現最優(yōu)。這表明LSTM模型具備保存時間序列長期特征的能力,但是其模擬效果受到時間步長的影響,時間過長會導致模型接受的信息過載,從而使得LSTM模型被噪聲信息影響。因此選擇合適的時間步長進行模型的構建至關重要。 各個時間步長下兩種模型在驗證集上的預測曲線如圖5所示。從圖中可以明顯看出在時間步長為18h時,SSA-LSTM模型與LSTM模型相比優(yōu)化效果最好。而其他時間步長下,SSA-LSTM模型的優(yōu)化效果雖然較為一般,但總體表現都優(yōu)于LSTM模型。這可以解釋為SSA-LSTM模型將實測流量過程分解為了趨勢成分、振蕩成分和噪聲成分,通過選擇性的重構去除了噪聲成分,并提取出了實測流量過程中更多的特征 圖5 不同時間步長下的SSA-LSTM與LSTM模型在驗證集上的預測曲線 因此,選擇時間步長為18h的SSA-LSTM模型進行不同預見期(1h,3h,6h,9h)的對比,并將結果與SSA-RF、SSA-SVM模型進行比較,模擬的表現見表2。由表可得,在3種模型中,本文所提模型都表現出最高預測精度。以預見期3h為例,SSA-LSTM模型的NSE最高,且RMSE與SSA-RF模型和SSA-SVM模型相比分別降低了35%和50%。這可能是經過奇異譜分析分解重構后的序列對LSTM模型更加適用。 表2 SSA-LSTM與其他模型在不同預見期下的性能比較T 各個預見期下模型在驗證集上的預測曲線如圖6所示。由圖可知,本文所提出的SSA-LSTM模型在不同預見期的評價指標均表現最優(yōu)。當預見期為1h時,由于預測的時候輸入是最近的數據,故預測結果與實測流量過程最為接近。隨著預見期的增加,模型的模擬效果也逐漸下降。由各模型對比可知,本文所提SSA-LSTM模型在所有模擬中預測精度最高,且都優(yōu)于本文涉及的其他模型,具有一定的適用價值。 圖6 不同預見期下的SSA-LSTM與其他模型在驗證集上的預測曲線 由于實測流量過程存在一定的復雜性,使用常規(guī)的模擬模型可能會受到多種因素的干擾,提出了一種基于奇異譜分析的組合預測模型。通過奇異譜分析對實測流量過程進行分解和重構,提取實測流量過程中的趨勢成分和振蕩成分,分離出噪聲成分,從而獲得更加穩(wěn)定、平滑和易于建模的數據,并且利用LSTM模型對重構序列進行洪水模擬。在不同時間步長下,SSA-LSTM模型的可靠性和預測準確度均優(yōu)于LSTM模型,克服了單一模型預測誤差波動大、預測精度不穩(wěn)定等問題,經過SSA處理后模型模擬精度有較大提升。未來可進一步考慮影響實測流量過程的外部影響因素,從而修正預測結果,進一步提高預測精度。1.2 長短期記憶網絡
1.3 隨機森林模型
1.4 支持向量回歸
2 實驗說明
2.1 數據說明
2.2 預測流程及模型建立
2.3 評價指標
3 實驗結果與分析
3.1 基于SSA的流量數據分解和重構
3.2 不同時間步長下的模型性能評估
4 結論