雷 莉,王 超
(1.甘肅省石羊河流域水資源局,甘肅 武威 733000;2.中國(guó)水利水電科學(xué)研究院,北京 100038)
石羊河是甘肅省河西走廊水系第三大河,分布在我國(guó)西北干旱半干旱地區(qū),常年降水量較少,蒸發(fā)量大。近年來,伴隨著工農(nóng)業(yè)生產(chǎn)的迅速發(fā)展,如何完成水資源的優(yōu)化配置和水量調(diào)度,以滿足各用水單位或部門的需求,是首要解決的問題。而具有高精度的中長(zhǎng)期徑流預(yù)報(bào)可為流域水資源的精細(xì)化分配和合理開發(fā)利用提供可靠的依據(jù)。因此,開展中長(zhǎng)期水文預(yù)報(bào)在石羊河流域應(yīng)用的研究,對(duì)于解決石羊河流域需水量增加和水資源供需矛盾加劇等問題具有重大而深遠(yuǎn)的現(xiàn)實(shí)意義。
傳統(tǒng)的中長(zhǎng)期徑流預(yù)測(cè)方法包括時(shí)間序列法[1],多元線性回歸法[2],逐步回歸法[3]等。然而傳統(tǒng)的方法往往很難達(dá)到理想的預(yù)報(bào)效果,隨著信息技術(shù)和數(shù)學(xué)理論的不斷發(fā)展進(jìn)步,出現(xiàn)了新的中長(zhǎng)期預(yù)報(bào)方法,例如人工神經(jīng)網(wǎng)絡(luò)法[4],灰色系統(tǒng)方法[5],小波分析法[6],混沌理論方法[7],支持向量機(jī)方法[8],最優(yōu)組合預(yù)測(cè)方法[9]等。其中,人工神經(jīng)網(wǎng)絡(luò)法以其較強(qiáng)學(xué)習(xí)能力和高效的運(yùn)算機(jī)制等,被廣泛應(yīng)用于中長(zhǎng)期徑流預(yù)報(bào)并具有較高的預(yù)報(bào)精度。紀(jì)昌明、俞洪杰[10]等采用基于互信息的預(yù)報(bào)因子集優(yōu)選方法,并耦合BP人工神經(jīng)網(wǎng)絡(luò)對(duì)雅礱江流域滬寧水文站進(jìn)行預(yù)測(cè),與現(xiàn)有方法相比,模型預(yù)測(cè)的準(zhǔn)確性得到了很大提高。屈亞玲和周建中[11]提出了一種改進(jìn)的Elman神經(jīng)網(wǎng)絡(luò)模型,并將其應(yīng)用于中長(zhǎng)期徑流預(yù)報(bào)。與未改進(jìn)的Elman神經(jīng)網(wǎng)絡(luò)模型相比,預(yù)報(bào)精度得到顯著提高;支持向量機(jī)由于其強(qiáng)大的魯棒性和泛化能力而被廣泛應(yīng)用于中長(zhǎng)期徑流預(yù)測(cè)。在贛江流域[12]的實(shí)例研究表明,運(yùn)用主成分分析法篩選預(yù)報(bào)因子,能夠緩解預(yù)報(bào)因子間信息重疊導(dǎo)致“過擬合”問題,可以使人工神經(jīng)網(wǎng)絡(luò)模型在率定期和檢驗(yàn)期的預(yù)測(cè)精度得到顯著。
大量研究發(fā)現(xiàn),由于每個(gè)地區(qū)的水文,氣象和人類活動(dòng)不同,下游模型不適用于所有流域。因此,通過綜合分析流域特征,氣候條件和模型適用條件等因素,選擇預(yù)測(cè)模型可為流域提供高精度的預(yù)測(cè)結(jié)果。因此,本文引入130項(xiàng)大氣環(huán)流指數(shù),并基于主成分分析篩選預(yù)測(cè)因子法構(gòu)建BP,Elman和PSO-SVR的中長(zhǎng)期徑流預(yù)報(bào)模型被用作石羊河流域的中長(zhǎng)期徑流預(yù)報(bào)模型。通過對(duì)不同模型預(yù)測(cè)結(jié)果的比較分析,選擇適合石羊河流域的中長(zhǎng)期徑流預(yù)報(bào)模型,為石羊河流域中長(zhǎng)期徑流預(yù)報(bào)提供技術(shù)支持。
主成分分析[13](PCA)是一種多變量統(tǒng)計(jì)方法,其中用于導(dǎo)出的少量主成分包含原始變量中的大部分信息。并且每個(gè)主成分的信息彼此不相關(guān)。從而達(dá)到簡(jiǎn)化數(shù)據(jù)和降維的目的。
設(shè)初始變量的指標(biāo)和新的綜合指標(biāo)分別為x1,x2,…,xp,z1,z2,…,zp(m≤p)則主成分分析原理表示為(1):
(1)
式中:z1,z2,…,zp為x1,x2,…,xp所對(duì)應(yīng)的m個(gè)主成分;系數(shù)l矩陣L為荷載矩陣。其中,zi與zj(i≠j)相互無關(guān);z1為x1,x2,…,xp的線性組合,同時(shí),方差在所有線性組合中最大,z2是與z1不相關(guān)的x1,x2,…,xp的線性組合且方差在所有線性組合中最大,依次類推。
BP人工神經(jīng)網(wǎng)絡(luò)[14](反向傳播神經(jīng)網(wǎng)絡(luò))(Back Propagation Neural Network)是1986年由Rumelhart和McCelland為首的科學(xué)家小組提出,它是一個(gè)多層的前饋型神經(jīng)網(wǎng)絡(luò)模型。BP神經(jīng)網(wǎng)絡(luò)可以根據(jù)預(yù)測(cè)誤差連續(xù)調(diào)整網(wǎng)絡(luò)各層的權(quán)重,從而達(dá)到預(yù)測(cè)輸出無限接近預(yù)期輸出的效果。具有三層結(jié)構(gòu)的BP人工神經(jīng)網(wǎng)絡(luò)由于具有很強(qiáng)的映射能力,所以被廣泛應(yīng)用于各大水文預(yù)報(bào)領(lǐng)域中。其模型拓?fù)浣Y(jié)構(gòu)包括輸入層(input layer)、隱層(hide layer)和輸出層(output layer),如圖1所示。
圖1 BP人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)概化圖
當(dāng)BP神經(jīng)網(wǎng)絡(luò)模型運(yùn)行時(shí),隱含的節(jié)點(diǎn)(n)的數(shù)量在模型的準(zhǔn)確性中起決定性的作用,其確定方式如下:
(2)
n=log2m
(3)
(4)
式中:n為隱含層節(jié)點(diǎn)數(shù);m為輸入層節(jié)點(diǎn)數(shù);l為輸出層節(jié)點(diǎn)數(shù);α為[1,10]的整數(shù)。
在這三種方法中確定隱含層節(jié)點(diǎn)數(shù)的最大值和最小值,然后從最小值進(jìn)行試算,直到最大值,n被選擇為輸出和預(yù)期結(jié)果之間具有最小誤差的隱含層節(jié)點(diǎn)的數(shù)量。
Elman神經(jīng)網(wǎng)絡(luò)是J.L.Elman于1990年提出來的,Elman神經(jīng)網(wǎng)絡(luò)是一種典型的局部回歸網(wǎng)絡(luò)(global feed forward local recurrent)。即一個(gè)將局部記憶單元和局部反饋連接組合在一起的前項(xiàng)神經(jīng)網(wǎng)絡(luò)。
Elman網(wǎng)絡(luò)的前饋連接結(jié)構(gòu)類似于BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),包括輸入層,隱含層和輸出層,可以學(xué)習(xí)和修正其連接權(quán);反饋連接具有固定的連接權(quán)重,其“結(jié)構(gòu)”單元可以記住前一時(shí)刻的輸出值。在Elman神經(jīng)網(wǎng)絡(luò)中,除了與BP神經(jīng)網(wǎng)絡(luò)相同的隱含層外,還存在連接到隱含層的節(jié)點(diǎn)和接收器反饋信號(hào)的關(guān)聯(lián)層(或聯(lián)系單元層)。類似于狀態(tài)反饋,關(guān)聯(lián)層的主要功能是使用局部記憶單元同時(shí)連接前一時(shí)刻的輸入和當(dāng)前時(shí)刻的輸入作為隱含層的輸入。隱藏層的傳遞函數(shù)仍使用某種非線性函數(shù),一般是Sigmoid函數(shù);輸出層和關(guān)聯(lián)層都是線性函數(shù)。相應(yīng)網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2所示。
圖2 Elman神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
Elman神經(jīng)網(wǎng)絡(luò)模型增加了結(jié)構(gòu)層到輸出層的連接權(quán)系數(shù),以達(dá)到提高網(wǎng)絡(luò)性能的目的。Elman神經(jīng)網(wǎng)絡(luò)模型主要將連接權(quán)重矩陣從輸入層傳遞給隱含層,結(jié)構(gòu)單元傳遞給隱含層和隱含層傳遞給輸出層,通過輸出單元和隱層單元所組成的非線性向量函數(shù)確定隱層的節(jié)點(diǎn)數(shù)。
支持向量機(jī)(SVM)作為一種新興的機(jī)器學(xué)習(xí)方法最早由Vapnik[15]和其他人在20世紀(jì)90年代中期提出的。支持向量機(jī)以統(tǒng)計(jì)學(xué)習(xí)的VC維理論為理論基礎(chǔ),以結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理為目標(biāo)。支持向量機(jī)主要用于解決分類和回歸預(yù)測(cè)問題。與其他回歸算法相比,回歸支持向量機(jī)(SVR)非常適用于小樣本和非線性問題的回歸預(yù)測(cè)。SVR的基本思想是利用核函數(shù)將低維非線性問題轉(zhuǎn)化為高維線性問題,并利用線性方法求解高維特征空間中的非線性問題。通過多次試驗(yàn),SVR在解決回歸預(yù)測(cè)問題方面具有較高的可信度和良好的泛化能力。
在實(shí)際應(yīng)用中,懲罰系數(shù)C,核參數(shù)σ和不敏感損失系數(shù)ε的選擇對(duì)模型的性能有很大影響。并且三個(gè)參數(shù)的賦值存在諸如計(jì)算量大和難以獲得最佳值的問題。目前很多文章中采用網(wǎng)格搜索法確定這三個(gè)參數(shù)值,網(wǎng)格搜索方法是通過組合網(wǎng)格搜索和交叉驗(yàn)證來確定參數(shù)值。該方法計(jì)算量大,易于陷入局部最優(yōu)解,導(dǎo)致預(yù)測(cè)精度低。因此,粒子群優(yōu)化算法(PSO)取代了網(wǎng)格搜索法來選擇參數(shù),因?yàn)镻SO算法具有易于實(shí)現(xiàn),收斂速度快,全局搜索能力強(qiáng)等優(yōu)點(diǎn)。因此,粒子群優(yōu)化算法在SVR模型的參數(shù)優(yōu)化中具有一定的優(yōu)勢(shì)。
石羊河流域總面積4.16 萬km2,產(chǎn)流面積1.1 萬km2,多年平均徑流量15.6 億m3(流域降雨和徑流主要集中在5月至9月。分別占全年的76%和64%以上);由于石羊河流域處于我國(guó)干旱和半干旱地區(qū),故流域主要以大氣降雨(雨季)和高山冰雪融化為主。同時(shí),近年來石羊河流域出現(xiàn)枯水期頻發(fā)的缺水、供需矛盾加劇等問題,而水庫(kù)的合理優(yōu)化調(diào)度正是解決流域缺水、供需失衡等問題的關(guān)鍵所在,中長(zhǎng)期徑流預(yù)報(bào)可為水資源的優(yōu)化配置提供可靠的技術(shù)支持。因此,本文以西營(yíng)水庫(kù)作為研究對(duì)象,研究西營(yíng)水庫(kù)入庫(kù)徑流的中長(zhǎng)期預(yù)報(bào)模型。
選取1970年至2016年西營(yíng)水庫(kù)年徑流量序列進(jìn)行統(tǒng)計(jì)分析。徑流的年際變化由徑流極值比Km和變化系數(shù)Cv描述。Km和Cv越大,徑流的年際變化越大;反之,徑流年際變化越小。西營(yíng)水庫(kù)年徑流變異系數(shù)計(jì)算為0.17,徑流年際極值比為2.05。Cv和Km值均較小,表明年徑流的年際變化較小,不同年份的徑流分配相對(duì)穩(wěn)定,總體確實(shí)略顯平緩。徑流的變化過程見圖3。
圖3 西營(yíng)水庫(kù)1970-2016年徑流變化過程
選擇石羊河流域西營(yíng)水庫(kù)1970年至2016年整編的月入庫(kù)徑流數(shù)據(jù)作為本次預(yù)報(bào)的數(shù)據(jù)來源。本次研究的徑流數(shù)據(jù)自1970年至2016年,共47年,時(shí)間系列相對(duì)較長(zhǎng),符合中長(zhǎng)期徑流預(yù)報(bào)對(duì)數(shù)據(jù)的要求。
首先,選擇中國(guó)氣象局國(guó)家氣候中心氣候監(jiān)測(cè)辦公室(http:∥cmdp.ncc-cma.net/Monitoring/cn_index_130.php)提供的130項(xiàng)氣候系統(tǒng)指數(shù)(即88個(gè)大氣環(huán)流指數(shù),26個(gè)海溫指數(shù)和16個(gè)其他指數(shù))作為候選因子。采用相關(guān)系數(shù)法用于計(jì)算每個(gè)候選因子與年平均徑流序列之間的相關(guān)系數(shù),并選擇給定可信度α=0.05的顯著性檢驗(yàn)因子。因子初步選取結(jié)果如表1所示。
表1 西營(yíng)水庫(kù)預(yù)報(bào)因子初步優(yōu)化結(jié)果
其次,在相關(guān)系數(shù)法初步選擇因子的基礎(chǔ)上,通過主成分分析法,采用PCA原則選擇滿足85%貢獻(xiàn)率預(yù)測(cè)因子組合,主成分分析碎石圖和得分系數(shù)矩陣如圖4、表2所示。將得分系數(shù)引入等式(1)產(chǎn)生新的預(yù)測(cè)因子z1,z2,…,z5作為模型的輸入因子。
圖4 主成分分析碎石圖
最后,將主成分分析選取的預(yù)測(cè)因子分別作為BP,Elman和PSO-SVR模型的輸入條件,應(yīng)用于西營(yíng)水庫(kù)年徑流的預(yù)測(cè)。該模型從1970年到2004年被設(shè)置為樣本的率定樣本,并且該模型在2005年至2016年進(jìn)行檢驗(yàn)。通過率QR用作預(yù)測(cè)準(zhǔn)確度的評(píng)估指標(biāo),《水文情報(bào)預(yù)報(bào)規(guī)范》中通過率的定義式為等式(2)。
(5)
在該公式中,M是預(yù)測(cè)值通過的次數(shù)(預(yù)測(cè)值與實(shí)測(cè)值之間的相對(duì)誤差在±20%之間),N為檢驗(yàn)期樣本總數(shù)。
經(jīng)過整理計(jì)算,3種不同模型的預(yù)報(bào)效果如圖5~圖7所示,不同模型的參數(shù)結(jié)構(gòu)和預(yù)報(bào)精度評(píng)價(jià)結(jié)果如表3和表4所示。
從表4的統(tǒng)計(jì)數(shù)據(jù)可以看出,徑流預(yù)報(bào)中三種模型在率定期的平均相對(duì)誤差均小于10%。綜合圖5~圖7可知,預(yù)報(bào)結(jié)果擬合良好;檢驗(yàn)期的徑流預(yù)報(bào)平均相對(duì)誤差均有所增大,其中BP人工神經(jīng)網(wǎng)絡(luò)模型的誤差增加率最大,說明相比于Elman、PSO-SVR模型,BP人工神經(jīng)網(wǎng)絡(luò)預(yù)報(bào)模型穩(wěn)定性更差些;三種預(yù)測(cè)模型總體平均相對(duì)誤差在20%以內(nèi),表明本研究選用BP、Elman、PSO-SVR三種預(yù)報(bào)模型對(duì)西營(yíng)水庫(kù)進(jìn)行預(yù)報(bào)具有一定的合理性。
三種模型在率定期的預(yù)測(cè)結(jié)果合格率均在90%以上,效果良好。尤其BP神經(jīng)網(wǎng)絡(luò)模型的合格率更是達(dá)到了100%。然而,BP模型在檢驗(yàn)期的合格率僅為75%,表明基于主成分分析篩選預(yù)測(cè)因子的BP神經(jīng)網(wǎng)絡(luò)模型具有過擬合現(xiàn)象,模型可靠性較低;Elman和PSO-SVR模型在檢驗(yàn)期的預(yù)報(bào)合格率均大于80%,分別為83.33%和91.67%。根據(jù)《水文情報(bào)預(yù)報(bào)規(guī)范》,Elman和PSO-SVR模型的合格率均達(dá)到80%,滿足預(yù)報(bào)規(guī)范要求,可用于工作預(yù)測(cè)。
表3 BP、Elman、PSO-SVR模型參數(shù)結(jié)構(gòu)
表4 BP、Elman、PSO-SVR年徑流預(yù)報(bào)精度評(píng)價(jià)結(jié)果 %
綜合表4和圖5~圖7的預(yù)報(bào)效果,相比于BP神經(jīng)網(wǎng)絡(luò)模型而言,Elman網(wǎng)絡(luò)模型的預(yù)報(bào)精度更高,這表明Elman模型在結(jié)構(gòu)上與關(guān)聯(lián)層連接,增強(qiáng)了模型處理動(dòng)態(tài)信息的能力。而PSO-SVR模型的預(yù)報(bào)精度和穩(wěn)定性整體比BP、Elman模型更好些,表明加入PSO算法對(duì)參數(shù)自動(dòng)尋優(yōu)后,SVR模型克服了計(jì)算復(fù)雜度大,易陷入局部最優(yōu)等問題,使得模型的更加通用,預(yù)報(bào)效果更佳。
圖5 西營(yíng)水庫(kù)年徑流預(yù)報(bào)(BP模型)
圖6 西營(yíng)水庫(kù)年徑流預(yù)報(bào)(Elman模型)
圖7 西營(yíng)水庫(kù)年徑流預(yù)報(bào)(PSO-SVR模型)
綜上所述,為石羊河流域的中長(zhǎng)期徑流預(yù)報(bào)工作提供可靠的技術(shù)支撐,本文采用可分析多變量間的相關(guān)性,去除變量間重疊信息,導(dǎo)出少數(shù)主分量,并使其保持原始變量的全部信息以達(dá)到簡(jiǎn)化數(shù)據(jù)和降維作用的主成分分析方法作為預(yù)報(bào)因子篩選的方法?;谥鞒煞址治龇椒ǖ念A(yù)報(bào)因子篩選方法,中長(zhǎng)期徑流預(yù)測(cè)模型對(duì)BP神經(jīng)網(wǎng)絡(luò)模型,Elman神經(jīng)網(wǎng)絡(luò)模型和PSO-SVR模型的預(yù)測(cè)結(jié)果進(jìn)行比較和分析。結(jié)果表明,基于主成分分析方法篩選預(yù)報(bào)因子的Elman神經(jīng)網(wǎng)絡(luò)模型和PSO-SVR中長(zhǎng)期徑流預(yù)報(bào)模型的預(yù)報(bào)精度較高,它滿足了石羊河流域中長(zhǎng)期徑流預(yù)報(bào)的需要。因此,在石羊河流域,基于主成分分析篩選預(yù)測(cè)因子的Elman神經(jīng)網(wǎng)絡(luò)模型和PSO-SVR模型可以作為中長(zhǎng)期徑流預(yù)測(cè)的首選模型。甚至在西北內(nèi)陸河流域的中長(zhǎng)期徑流預(yù)報(bào)作業(yè)中,該預(yù)報(bào)模型也可進(jìn)行推廣使用。