董慶豪 孫龍飛 王遠(yuǎn)見 趙萬杰
關(guān)鍵詞:泥沙粒徑;變量篩選;機(jī)器學(xué)習(xí);智能預(yù)測;黃河下游河道
0引言
懸沙和床沙顆粒級配是影響泥沙運(yùn)動的重要因素,黃河下游河道的淤積,不僅取決于來白中游泥沙的數(shù)量,而且受來沙顆粒級配的影響。探究黃河下游河道懸沙和床沙顆粒級配變化,有助于分析泥沙整體淤積情況,同時能夠反饋指導(dǎo)優(yōu)化水庫運(yùn)用方式,為水庫的調(diào)度提供重要依據(jù)。
目前,針對黃河下游河道懸沙和床沙顆粒級配的研究,主要集中于小浪底水庫運(yùn)行前后懸沙和床沙粒徑的時空變化特征和規(guī)律。其中:孫維婷等通過各水文站多年泥沙數(shù)據(jù).分析了黃河懸移質(zhì)泥沙粒徑的時空變化特征,得到各水文站懸移質(zhì)年平均中數(shù)粒徑變化趨勢不一致的結(jié)論:Hou等分析了黃河下游典型斷面2004-2015年河道床沙和懸沙年平均中數(shù)粒徑沿河道方向的變化趨勢:陳建國等統(tǒng)計1999年和2009年黃河下游各河段床沙中數(shù)粒徑的平均值,得出10a來黃河下游河床表面泥沙粒徑普遍增大1倍以上的結(jié)論;付春蘭等分析小浪底水庫運(yùn)用前后黃河下游水沙條件的變化,結(jié)果表明自2002年調(diào)水調(diào)沙后,河床質(zhì)中數(shù)粒徑逐漸粗化:薛博文等研究了不同時期黃河下游泥沙粒徑變化情況,分析了其對小浪底水庫調(diào)水調(diào)沙的響應(yīng)規(guī)律。上述研究雖然很好地分析了懸沙和床沙粒徑的時空變化規(guī)律,但由于影響泥沙粒徑變化的因素較多,因此根據(jù)時空變化規(guī)律仍難以準(zhǔn)確預(yù)測懸沙和床沙粒徑。此外,在泥沙粒徑變化預(yù)測方面,現(xiàn)有研究多采用理論公式進(jìn)行床沙粒徑的分析,這些理論方法計算過程復(fù)雜或有特殊適用條件,具有一定局限性。
機(jī)器學(xué)習(xí)作為人工智能中的一項重要技術(shù),可從大量數(shù)據(jù)中挖掘變量間存在的復(fù)雜映射關(guān)系,已廣泛應(yīng)用于各個科學(xué)領(lǐng)域,且取得了良好的應(yīng)用效果。其中,在水利預(yù)測方面,Aires等使用機(jī)器學(xué)習(xí)算法預(yù)測多西河流域泥沙濃度,采用變量選擇算法對變量進(jìn)行篩選,取得良好的預(yù)測效果:鮑振鑫等耦合VIC模型和8種機(jī)器學(xué)習(xí)算法構(gòu)建了輸沙量模擬模型,能夠較好地模擬月輸沙量過程;Han等提出一種結(jié)合輸入層和隱藏層兩種注意力機(jī)制的LSTM模型AT-LSTM,用于宜昌站和屏山站的長期徑流預(yù)測;Yang等提出了基于小樣本學(xué)習(xí)的LSTM-原型網(wǎng)絡(luò)融合模型預(yù)測長期徑流,并在兩個數(shù)據(jù)稀缺地區(qū)驗證了模型的有效性。目前,機(jī)器學(xué)習(xí)算法在預(yù)測泥沙濃度、輸沙量、徑流量等方面應(yīng)用較多,但尚缺乏針對懸沙和床沙粒徑預(yù)測的相關(guān)研究。
筆者利用黃河下游河道花園口等6個斷面的水沙系列數(shù)據(jù),進(jìn)行懸沙和床沙粒徑主要影響因子的篩選,并基于機(jī)器學(xué)習(xí)算法構(gòu)建黃河下游不同斷面的懸沙和床沙粒徑的預(yù)測模型,以期為實現(xiàn)泥沙粒徑的準(zhǔn)確預(yù)測提供新的思路。
1研究區(qū)域及數(shù)據(jù)來源
黃河下游以桃花峪為起點至人???,河長786km,流域面積占黃河流域總面積的3%.河道坡降小,水流平緩,泥沙淤積嚴(yán)重,河床升高形成地上“懸河”。本文選取下游花園口、夾河灘、高村、孫口、濼口、利津6個斷面(水文站),開展不同斷面泥沙粒徑預(yù)測研究。收集整理2006-2020年黃河小浪底水庫月均出庫流量、出庫含沙量數(shù)據(jù),下游花園口等6個水文站月均流量、含沙量、流速、河寬、水深、比降、水位以及懸沙和床沙中數(shù)粒徑、平均粒徑等數(shù)據(jù),數(shù)據(jù)均來源于黃河水利委員會編制的《黃河流域水文資料》。
2研究方法
首先選取泥沙粒徑主要影響因子,并通過變量篩選算法確定機(jī)器學(xué)習(xí)模型輸入的變量組合:然后基于不同機(jī)器學(xué)習(xí)算法建立預(yù)測模型:最后對模型預(yù)測結(jié)果進(jìn)行分析評估。
2.1主要變量篩選
黃河下游河道懸沙和床沙粒徑變化主要受來水來沙條件(流量、流速、含沙量)、河道邊界條件(河寬、水深、比降)等多種因素的影響。為有效提取機(jī)器學(xué)習(xí)模型最佳輸入變量組合,采用遞歸特征消除算法結(jié)合隨機(jī)森林(RFE-RF)算法進(jìn)行變量篩選,消除冗余變量,確定變量組合。RFE-RF算法把需要的特征集合初始化為數(shù)據(jù)集,采用R軟件Caret包中的varlmp函數(shù)計算影響因子的重要性分值并進(jìn)行排序,每次剔除一個重要性分值最低的特征,直到所有特征都被剔除,并通過模型對不同個數(shù)特征的子集進(jìn)行評估,輸出最佳特征子集。RFE-RF算法流程如圖1所示。
2.2算法原理
本文采用K最鄰近(KNN)、隨機(jī)森林(RF)、支持向量回歸(SVR)3種機(jī)器學(xué)習(xí)算法建立預(yù)測模型,各算法的原理如下。
1)KNN算法的核心思想是數(shù)據(jù)庫模式匹配,即從歷史數(shù)據(jù)庫中提取數(shù)據(jù)特征,根據(jù)合理的狀態(tài)向量找到與當(dāng)前實時觀測數(shù)據(jù)相匹配的k個近鄰數(shù)據(jù),將其作為輸入變量以預(yù)測后續(xù)狀態(tài)數(shù)據(jù)值。
2)RF算法是一種通過集成學(xué)習(xí)思想將多棵樹集成的算法,其基本單元是決策樹,并利用多棵決策樹對樣本進(jìn)行訓(xùn)練及預(yù)測。
3)SVR算法是運(yùn)用支持向量機(jī)(SVM)解決回歸問題的算法。與傳統(tǒng)的回歸算法不同,SVR不僅考慮了數(shù)據(jù)的擬合程度,而且考慮了模型的泛化能力,能夠有效地處理高維數(shù)據(jù)和非線性數(shù)據(jù)。SVR算法的基本思想是將數(shù)據(jù)映射到高維空間中,通過尋找最優(yōu)的超平面來實現(xiàn)回歸。
2.3模型構(gòu)建
綜合考慮水沙、河道邊界等條件,懸沙和床沙粒徑的主要影響因子包括小浪底水庫出庫流量、出庫含沙量,以及下游6個水文站的流量、含沙量、平均流速、最大流速、河寬、平均水深、最大水深、河床比降、水面比降和水位等共12個變量。
各斷面不同粒徑預(yù)測模型建立的主要步驟如下:1)選擇2006-2019年月均數(shù)據(jù)集進(jìn)行變量篩選,使用篩選后的影響因子作為模型輸入變量,其中懸沙粒徑影響因子選取當(dāng)月月均數(shù)據(jù):床沙粒徑影響因子篩選考慮滯后性,通過相關(guān)性分析,確定其滯后時間,并采用滑動平均法計算各影響因子的月均數(shù)據(jù)。2)將2006-2019年月均數(shù)據(jù)集按照4:1的比例劃分成訓(xùn)練集和測試集。3)將訓(xùn)練集代人3種不同機(jī)器學(xué)習(xí)算法分別進(jìn)行訓(xùn)練并建立預(yù)測模型。4)將測試集代入模型中,通過決定系數(shù)R2、均方根誤差RMSE、平均絕對誤差MAE指標(biāo)評估不同算法模型的預(yù)測效果,并選出各斷面預(yù)測效果最好的模型。5)將2020年數(shù)據(jù)集分別代入選出的各斷面最優(yōu)模型,通過R2值和顯著性檢驗進(jìn)一步驗證所建模型的性能。
3實例結(jié)果分析
3.1泥沙粒徑關(guān)鍵影響因子提取
采用變量篩選方法,得到各斷面懸沙和床沙粒徑重要性分值排序前5的影響因子,以花園口、夾河灘斷面為例,其結(jié)果分別如圖2和圖3所示(D5o表示中數(shù)粒徑,D表示平均粒徑)。
各斷面經(jīng)篩選后變量的數(shù)量為6~9個,有效減少了初始變量的數(shù)量,有利于提取主要影響因子。由圖2和圖3可見,對于黃河下游懸沙粒徑預(yù)測,大部分?jǐn)嗝娴膩砩硹l件因素重要性分值較高,對粒徑變化的影響較大,且不同斷面及同一斷面不同粒徑所選取的影響因子之間存在差異;而對于黃河下游床沙粒徑預(yù)測,同一斷面不同粒徑重要性分值排序前5的影響因子基本相同,但不同斷面之間影響因子重要性分值差異較為顯著。
3.2預(yù)測結(jié)果分析
3.2.1懸沙粒徑預(yù)測結(jié)果
根據(jù)各斷面不同粒徑影響因子的篩選結(jié)果,采用篩選后的變量作為模型的輸入變量構(gòu)建預(yù)測模型,最終所得不同機(jī)器學(xué)習(xí)算法模型在測試集上的評估指標(biāo),見表1。
由表1可知,對于下游河道懸沙粒徑,機(jī)器學(xué)習(xí)模型在各斷面測試集預(yù)測方面的整體適用性較好,預(yù)測值誤差較小。不同機(jī)器學(xué)習(xí)算法預(yù)測結(jié)果的誤差存在差異,其中KNN模型的RMSE均在0.0095mm以下、MAE均在0.0079mm以下,RF模型的RMSE均在0.0085mm以下、MAE均在0.0068mm以下,SVR模型的RMSE均在0.0115mm以下、MAE均在0.0086mm以下。相比之下,RF算法建立的模型在懸沙粒徑預(yù)測方面對于各斷面預(yù)測結(jié)果的誤差均較小,各斷面優(yōu)選模型均為RF算法建立的模型。
此外,統(tǒng)計由表1選出的各斷面在測試集上綜合效果最好的模型,得到預(yù)測值與實測值之間的相關(guān)性,以花園口、夾河灘、利津斷面為例,其懸沙粒徑預(yù)測值與實測值之間相關(guān)性如圖4~圖6所示。
由圖4~圖6及其余斷面統(tǒng)計結(jié)果可知,各斷面預(yù)測值與實測值R2均在0.64~0.89之間,相關(guān)性良好,模型擬合程度較高。
為進(jìn)一步驗證所建立模型的效果,選取各斷面優(yōu)選模型分別對2020年懸沙月均粒徑進(jìn)行預(yù)測,各斷面2020年懸沙粒徑實測值與預(yù)測值綜合相關(guān)性如圖7所示。由圖7可見,所得實測值與預(yù)測值之間R2達(dá)0.6097,進(jìn)一步表明模型對于懸沙粒徑具有良好的預(yù)測準(zhǔn)確性。
3.2.2床沙粒徑預(yù)測結(jié)果
與懸沙粒徑類似,對于床沙不同機(jī)器學(xué)習(xí)算法模型在測試集上的評估指標(biāo)見表2。
由表2可知,對于下游河道床沙粒徑,機(jī)器學(xué)習(xí)模型在不同斷面測試集上的預(yù)測誤差存在較大差異,考慮其與床沙粒徑空間分布不均有關(guān),但整體上各斷面優(yōu)選模型的RMSE最高為0.0448mm、最低為0.0109mm,MAE最高為0.0308mm、最低為0.0086mm,3種機(jī)器學(xué)習(xí)算法在不同斷面床沙預(yù)測中具有較好的適用性。
統(tǒng)計由表2選出的各斷面在測試集上綜合效果最好的模型,得到預(yù)測值與實測值之間的相關(guān)性,花園口、夾河灘、濼口斷面床沙粒徑預(yù)測值與實測值之間相關(guān)性如圖8~圖10所示。
由圖8~圖10及其余斷面統(tǒng)計結(jié)果可知,各斷面預(yù)測值與實測值R2均在0.37~0.72之間,不同斷面之間存在顯著差異?;▓@口斷面中數(shù)粒徑,夾河灘斷面、孫口斷面粒徑R2在0.5以下,其余斷面粒徑R2在0.5以上,而濼口斷面粒徑R2達(dá)0.7,表明模型預(yù)測值與實測值的相關(guān)性及擬合效果整體上較好。
進(jìn)一步驗證所建立模型的效果,由各斷面的優(yōu)選模型分別對2020年床沙月均粒徑進(jìn)行預(yù)測,各斷面2020年床沙粒徑實測值與預(yù)測值綜合相關(guān)性如圖11所示。
由圖11可見,預(yù)測值與實測值之間R2達(dá)0.4456,預(yù)測結(jié)果偏小,其原因可能是床沙組成的調(diào)整是一個緩慢過程,是下泄水沙過程與床面邊界之間長期相互作用的結(jié)果,影響因素和涉及信息遠(yuǎn)較懸沙的復(fù)雜。盡管從結(jié)果上看床沙粒徑預(yù)測精度較懸沙的差,但整體上預(yù)測值與實測值仍較為接近,結(jié)果可以接受。
4結(jié)論
為系統(tǒng)掌握黃河下游河道懸沙和床沙粒徑的分布規(guī)律,克服泥沙粒徑預(yù)測理論方法復(fù)雜或有特殊適用條件的局限性問題,本文綜合考慮不同影響因素,采用變量篩選算法進(jìn)行變量篩選,并基于機(jī)器學(xué)習(xí)算法進(jìn)行泥沙粒徑預(yù)測。實例分析結(jié)果表明,變量篩選算法能夠減少冗余及不相關(guān)變量,構(gòu)建最優(yōu)特征子集。優(yōu)選模型對懸沙粒徑預(yù)測效果良好,在測試集上各斷面預(yù)測值與實測值R2在0.64~0.89之間:床沙粒徑預(yù)測精度較懸沙相對偏低,在測試集上各斷面預(yù)測值與實測值R2在0.37~0.72之間。進(jìn)一步驗證優(yōu)選模型效果,在對2020年月均泥沙粒徑進(jìn)行預(yù)測時,懸沙粒徑R2可達(dá)0.6097,模型擬合相對較好;床沙粒徑R2為0.4456,總體上結(jié)果可以接受。
整體而言,應(yīng)用機(jī)器學(xué)習(xí)算法構(gòu)建預(yù)測模型能夠較好實現(xiàn)黃河下游河道泥沙粒徑的準(zhǔn)確預(yù)測,可以為黃河調(diào)水調(diào)沙提供參考。