陳柯兵,李圣偉,何奇鍇,孫思瑞
(1.長江水利委員會水文局,湖北 武漢 430010;2.油氣地球化學(xué)與環(huán)境湖北省重點實驗室(長江大學(xué)資源與環(huán)境學(xué)院),湖北 武漢 430100;3.長江水利委員會水文局長江中游水文水資源勘測局,湖北 武漢 430010)
三峽水利樞紐工程以防洪任務(wù)為首,兼具有發(fā)電、航運等多項綜合效益,其地理位置特殊、防洪庫容巨大,可直接控制下游荊江、城陵磯等處洪水,在目前長江流域的防洪調(diào)度體系中,處于最重要的核心地位。
城陵磯(蓮花塘)水位為三峽水庫調(diào)度決策的重要指標(biāo),三峽(正常運行期)-葛洲壩水利樞紐梯級調(diào)度規(guī)程中明確指出,三峽水利樞紐汛期運行水位、蓄水方式、防洪調(diào)度等均與其數(shù)值直接相關(guān)。
國內(nèi)學(xué)者已開展了眾多三峽水庫對城陵磯水位影響的研究,如黃群等[1]利用BP神經(jīng)網(wǎng)絡(luò)對洞庭湖出口城陵磯站的水位過程進(jìn)行模擬,量化了三峽水庫蓄水對水位的影響。王蒙蒙等[2]建立了基于支持向量機的回歸模型,定量描述了三峽逐日出庫流量與洞庭湖代表水文站之間的關(guān)系。桂梓玲等[3]利用簡化運行策略分析了長江上游已建21座水庫群蓄水對鹿角水位和城陵磯流量的影響。但如何分析城陵磯水位對三峽水庫的調(diào)度決策產(chǎn)生的影響,尚待進(jìn)一步探討。
水庫調(diào)度決策者通常將各種水文信息,如水庫當(dāng)前水位、預(yù)報入庫流量等,與水庫調(diào)度規(guī)則、發(fā)電需求等結(jié)合起來,以確定水庫的出庫。近年來,通過數(shù)據(jù)挖掘方式,獲取調(diào)度決策者的知識與智慧,并應(yīng)用于水庫調(diào)度,以提高水庫運行效益,逐漸流行。尹正杰等[4]考慮入庫流量、水庫庫容與時段信息,采用人工神經(jīng)網(wǎng)絡(luò)中徑向基函數(shù)制定了水庫供水調(diào)度規(guī)則。Hejazi等[5]把水庫運行中的水文信息分為三種,即過去、當(dāng)前和未來信息,采用信息理論方法對美國數(shù)十個水庫的歷史運行數(shù)據(jù)進(jìn)行挖掘,從入庫、水庫庫容等信息中,找出影響出庫流量的重要信息。Yang等[6]使用CART樹算法和隨機森林算法來模擬美國加利福尼亞州水庫的出庫流量,并得出水庫庫容、季節(jié)和下游水位是水庫運營中最為重要的信息。
以上研究針對水庫調(diào)度決策中主要的水文信息而展開,揭示了相關(guān)水文信息和出庫決策之間的關(guān)系,本文將此思想應(yīng)用于三峽水庫逐日運行數(shù)據(jù)。研究擬通過出庫決策模擬模型分析水庫歷史運行數(shù)據(jù),區(qū)分汛期與非汛期,從多角度對三峽水庫調(diào)度所采用的水文信息進(jìn)行排名并判斷其價值,重點分析下游防洪控制點城陵磯水位對三峽水庫調(diào)度決策的影響。
為了建立三峽水庫出庫決策模擬模型,將三峽水庫的歷史運行數(shù)據(jù)劃分為模型輸入(決策變量)和輸出(目標(biāo)變量),考慮的模型輸入和輸出信息(變量)具體情況如下:
1)當(dāng)前的信息。當(dāng)前信息包含三個水文變量,即目前的月份(M),體現(xiàn)不同的時段對水庫運行的影響;水庫當(dāng)前的水位(RWL)和下游防洪控制點城陵磯水位(DWL),是被廣泛應(yīng)用于三峽水庫出庫決策制定的指標(biāo)。
2)未來的信息。未來信息包含三峽水庫運行中真實記錄的,預(yù)報1、2 d和3 d的入庫流量,即It+1、It+2、It+3。這些數(shù)據(jù)在調(diào)度實踐中每天都會更新,由長江電力的數(shù)據(jù)庫提取得到。
3)模型的輸出為下個時段的日平均出庫流量。表1列出了模型輸入和輸出變量的介紹。
由于三峽水庫在汛期與非汛期有不同的運用目的,因此將歷史運行數(shù)據(jù)分為兩個部分,以進(jìn)一步分析汛期(6月1日至9月30日)和非汛期之間水庫運行的變化,使用全年數(shù)據(jù)的情況也保留作為比較基準(zhǔn)。
故共有三種方案,使用全年、汛期、非汛期數(shù)據(jù)分別分析和構(gòu)建出庫決策模擬模型。三峽水庫2008年開始啟動175 m試驗性蓄水,收集的三峽歷史運行數(shù)據(jù)涵蓋了2008-06-01日到2017-05-31日共9年的資料。使用2008-06-01日到2015-05-31日的數(shù)據(jù)進(jìn)行決策模擬模型的訓(xùn)練和交叉驗證,其余數(shù)據(jù)用于模型檢驗。
研究利用隨機森林(Random Forest,RF)算法在輸入和輸出變量之間建立回歸模型。作為非黑箱和非參數(shù)的數(shù)據(jù)挖掘技術(shù),RF由多個決策樹的集合組成。決策樹的樹狀結(jié)構(gòu)包括決策節(jié)點、枝、葉,最終形成一系列的決策規(guī)則,用于數(shù)據(jù)挖掘中的分類或回歸問題。回歸隨機森林中的決策樹獲取每個類別(葉)中目標(biāo)變量的平均值,并儲存相應(yīng)的規(guī)則。為了進(jìn)行回歸,常用的決策節(jié)點選取標(biāo)準(zhǔn)為下式中的最小化相對誤差之和[7]。
(1)
式中:yl和yr是決策節(jié)點的左右分支,兩分支擁有的變量數(shù)量分別為L和R;yL和yR是左右分支輸出變量的平均值;d為決策節(jié)點的劃分規(guī)則。
使用隨機森林算法進(jìn)行回歸時,要調(diào)整的主要超參數(shù)為森林中決策樹的數(shù)量(N)和決策樹的最大深度(depth)。構(gòu)建隨機森林的過程,如圖1所示,訓(xùn)練數(shù)據(jù)使用上文提及的2008-06-01日到2015-05-31日6個輸入變量與輸出變量(未來1 d出庫)。為了評估隨機森林的回歸效果,以確定超參數(shù),采用解釋回歸模型的方差得分,如下式,最終建立得到輸入、輸出變量間超參數(shù)最優(yōu)的隨機森林回歸模型。
圖1 隨機森林算法示意圖
(2)
式中:ytar是真實的目標(biāo)值;yout是隨機森林的輸出值;Var表示方差的計算。該指標(biāo)的取值范圍為0至1,越接近于1說明模型的效果越好。
隨機森林算法在構(gòu)建模型的過程中,能提供量化的輸入變量間相對重要性,將幫助建模者對輸入變量進(jìn)行評估。
為了比較出庫決策模擬模型的性能,選擇納什效率系數(shù)(NSE)、水量相對誤差(RE)作為統(tǒng)計指標(biāo)[6],NSE計算公式如下所示:
(3)
水量相對誤差表示某時段出庫總水量的模擬誤差占實際出庫總水量的百分比,其值越接近0表明模型模擬效果越好。
經(jīng)試算分別從3至10中選擇森林中決策樹的數(shù)量(N),3至6中選擇決策樹的最大深度(depth)這兩個參數(shù)。采用機器學(xué)習(xí)中常用的網(wǎng)格搜索方法進(jìn)行調(diào)試、優(yōu)選,該方法考慮了所有候選的32種參數(shù)組合。
將2008年至2015年的訓(xùn)練數(shù)據(jù)集,逐日地隨機打亂,利用打亂的數(shù)據(jù)以及提及的三種輸入方案,計算每種參數(shù)組合下的解釋回歸模型的方差得分。即每種輸入方案都需要計算32次,在計算過程中,記錄隨機森林算法中的變量重要性得分。圖2繪制了三種輸入方案各自經(jīng)過32次計算后,得到變量重要性得分的平均值。比較這三種情景,無論是全年、汛期還是非汛期,信息的重要性排名均為未來預(yù)報、下游水位、水庫水位、月份。
圖2 隨機森林模型輸出的變量重要性得分
此外,在圖2中可明顯看出,汛期未來預(yù)報流量重要性較高,尤其是預(yù)報未來一天入庫。非汛期預(yù)報流量的重要性相對降低,而下游水位重要性進(jìn)一步提升,說明了預(yù)報流量在汛期的重要性更強,城陵磯水位在非汛期也是對于調(diào)度決策的重要指標(biāo)。
雖然直覺上城陵磯水位在汛期應(yīng)該發(fā)揮更大的作用,可能原因為:①汛期預(yù)報流量的重要性更強,從而相對降低了城陵磯水位的重要性。②非汛期城陵磯水位也是水資源、水生態(tài)調(diào)度的重要目標(biāo),目前的調(diào)度規(guī)程中明確規(guī)定了枯水期的最小下泄流量,從而間接同城陵磯水位相關(guān)。
將32種候選參數(shù)組合進(jìn)行對比分析后,利用最大深度、決策樹的數(shù)量參數(shù)為4和7的隨機森林模型作為三峽水庫出庫決策模擬模型。并在檢驗期的數(shù)據(jù)集(2015~2017年)上測試了模型性能。由于檢驗期數(shù)據(jù)從未在模型的訓(xùn)練和交叉驗證中使用過,因此可將其視為獨立的測試時期,以評估三種輸入方案下模型的性能。對于全年模型,測試期為2015-06-01日至2017-05-31日的全時段。對于其他兩模型,僅使用相應(yīng)的汛期或非汛期的數(shù)據(jù)。模型在檢驗期性能的統(tǒng)計匯總在表2中,全年模型的模擬效果與觀測值對比,見圖3所示。
表2 決策模擬模型在檢驗期的性能
圖3 觀測和全年模型模擬出庫流量的對比情況
根據(jù)文獻(xiàn)[8],如果NSE大于0.50,則可以將模型性能判斷為滿意。由于表2中的NSE值在0.572到0.832之間,因此模型的統(tǒng)計性能對于所有三種情況都是令人滿意的。比較這三種情況后,有兩個發(fā)現(xiàn):
1)將數(shù)據(jù)人為地劃分成汛期、非汛期兩部分不會明顯改善模型的性能。與全年模型相比,汛期和非汛期模型在三個不同的待比較時段內(nèi)均未明顯改善NSE、RE指標(biāo)。
2)模型在汛期的效果要好于非汛期,全年模型的NSE、RE指標(biāo),在汛期的值為0.696、0.89%均好于其在非汛期的0.587、-11.01%??赡艿脑蚴侨龒{水庫汛期以防洪調(diào)度為主,調(diào)度決策受到預(yù)報入庫流量、城陵磯水位的影響更加直接。而非汛期,三峽水庫的作用以興利為主,其出庫決策受到電網(wǎng)需求等影響,更加復(fù)雜,模擬的準(zhǔn)確性將會下降。
本研究可從多角度探索其應(yīng)用。從水庫下游用水者的角度來看,上游水庫的出庫流量高度依賴于水庫調(diào)度者的決策,與自然條件下的流量過程差異明顯。為了建立適當(dāng)?shù)乃Y源管理計劃,下游用水者需要了解上游水庫的運行模式,可以建立模型來估算上游水庫可能的出庫流量。
從水庫決策者的角度來看,建立的出庫決策模擬模型已經(jīng)包含了歷史上的專家經(jīng)驗,在應(yīng)用中可以依據(jù)模型計算出可供參考的出庫流量,經(jīng)過決策者人工校正后實際使用。除模型之外,評估出的水文信息重要性也有一定實用價值。對于三峽水庫的調(diào)度管理而言,無論在汛期還是非汛期,城陵磯水位均為調(diào)度決策的重要指標(biāo),需加以考慮。
從研究人員的角度來看,許多針對三峽水庫的優(yōu)化調(diào)度研究是基于調(diào)度規(guī)則開展的,這些調(diào)度規(guī)則會包含不同的水文信息作為規(guī)則中的變量。哪些變量應(yīng)該優(yōu)先選擇,論文研究成果可提供一定的參考。第一,三峽水庫在汛期和非汛期的運行方式是不同的,調(diào)度規(guī)則應(yīng)有差異。第二,汛期與非汛期的調(diào)度規(guī)則中都應(yīng)包含預(yù)報入庫流量、城陵磯水位,尤其在汛期,預(yù)報流量對于水庫調(diào)度規(guī)則的制訂至關(guān)重要。
本文基于隨機森林算法,利用月份、水庫水位、城陵磯水位、預(yù)報入庫流量等信息,模擬了三峽水庫的出庫決策,構(gòu)建了全年、汛期、非汛期三種時段下的模擬模型。
從三種模型的模擬結(jié)果,與隨機森林算法中得到的輸入變量的重要性排名兩個角度,評估了水文信息對水庫出庫決策的影響,主要結(jié)論如下:
1)對模擬的三峽出庫流量與實際出庫流量間的統(tǒng)計指標(biāo)分析表明,隨機森林算法可以合理地模擬出三峽水庫的出庫決策。
2)無論是全年、汛期還是非汛期,三峽水庫調(diào)度決策中,重要信息依次為未來預(yù)報流量、城陵磯水位、水庫水位、月份。在汛期的出庫決策制定中,未來預(yù)報流量尤為重要。
3)無論在汛期還是非汛期,城陵磯水位均為三峽水庫調(diào)度決策的重要指標(biāo),需在三峽水庫的調(diào)度管理和優(yōu)化研究中重點考慮。