郭財(cái)秀,楊開(kāi)斌,李顯鴻,崔松云,胡俊波
(1.云南省水文水資源局昆明分局,云南 昆明 650106;2.中國(guó)電建集團(tuán)昆明勘測(cè)設(shè)計(jì)研究院有限公司,云南 昆明 650051)
干旱對(duì)農(nóng)業(yè)生產(chǎn)、城市供水、生態(tài)環(huán)保產(chǎn)生巨大危害,影響范圍廣、涉及時(shí)間長(zhǎng)。隨著全球氣候變化,干旱災(zāi)害的頻次日趨增加、程度日趨加深,對(duì)干旱進(jìn)行有效預(yù)測(cè)是干旱減災(zāi)管理的重要手段[1-2]。
基于干旱指數(shù)在時(shí)間序列上的自相關(guān)性,部分學(xué)者開(kāi)展了干旱指數(shù)預(yù)測(cè)研究。彭世彰[3]等采用加權(quán)馬爾可夫鏈模型對(duì)南京市干旱指數(shù)等級(jí)預(yù)測(cè)研究,預(yù)測(cè)精度較為滿意。白致威[4]等采用ARIMA模型對(duì)云南省5個(gè)區(qū)域的SPEI指數(shù)進(jìn)行了預(yù)測(cè),總體合格率較為滿意。Moreira E E[5]等基于SPI指數(shù)采用三維列聯(lián)表對(duì)數(shù)線性模型預(yù)測(cè)了葡萄牙阿倫特約和阿爾加維地區(qū)干旱等級(jí),論證了方法的可用性。
此外,基于干旱指數(shù)的影響因素分析,近年來(lái)不少學(xué)者采用多元回歸、機(jī)器學(xué)習(xí)方法開(kāi)展干旱預(yù)測(cè)研究。林果果[6]基于粒子群算法改進(jìn)極限學(xué)習(xí)機(jī)模型(PSO-ELM)構(gòu)建了重慶干旱預(yù)測(cè)模型,精度較高。楊輝[7]、梅傳貴[8]、董亮[9]等基于標(biāo)準(zhǔn)化降水指數(shù)SPI以及前人通過(guò)西南致旱機(jī)理分析,挑選了大氣環(huán)流資料,對(duì)大氣環(huán)流因子作不同線型的非線性處理,基于多元線性回歸建立了西南地區(qū)秋季干旱預(yù)測(cè)模型,論證了模型具有較為穩(wěn)定的預(yù)測(cè)特性。劉振男[10]等通過(guò)研究挑選了多種海溫指數(shù)作為預(yù)報(bào)因子,采用耦合遺傳算法和極限學(xué)習(xí)機(jī)預(yù)測(cè)云貴高原SPEI指數(shù),論證預(yù)測(cè)精度高于自適應(yīng)神經(jīng)模糊推理系統(tǒng)。M Jamei[11]等將水文氣象、衛(wèi)星反演得到的11項(xiàng)數(shù)據(jù)作為輸入,采用浮雕算法挑選因子-人工神經(jīng)網(wǎng)絡(luò)建模-鯨魚算法優(yōu)化的研究方式預(yù)測(cè)了恒河流域綜合陸地蒸散指數(shù),對(duì)比分析表明預(yù)測(cè)精度較Elbeltagi等研究有顯著提高。殷浩[12]等基于隨機(jī)森林、ANN等機(jī)器學(xué)習(xí)方法結(jié)合ECMWFSEAS5輸出大氣變量構(gòu)建了動(dòng)力統(tǒng)計(jì)模型對(duì)華北、華東、華南地區(qū)進(jìn)行季度干旱預(yù)測(cè),預(yù)見(jiàn)期和精度上均有改善。
從目前的研究與實(shí)踐進(jìn)展來(lái)看,基于氣候因子的干旱預(yù)測(cè)方法預(yù)測(cè)精度要高于基于干旱指數(shù)自相關(guān)關(guān)系分析的時(shí)間序列方法,而基于數(shù)值氣候模式的干旱預(yù)測(cè)有較好的發(fā)展情景,目前仍處于研究階段?;跉夂蛞蜃拥母珊殿A(yù)測(cè)方法,以往研究多基于機(jī)理研究進(jìn)行氣候因子挑選,方法具有較強(qiáng)的物理成因意義,但同時(shí)也具有較高的研究及學(xué)習(xí)成本,不利于干旱預(yù)測(cè)方法的推廣實(shí)踐應(yīng)用。因此,本研究擬通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方法自動(dòng)挑選氣候因子作為預(yù)報(bào)因子,結(jié)合建模方法研究,嘗試在降低研究、學(xué)習(xí)成本的基礎(chǔ)上盡可能提高干旱預(yù)測(cè)精度。
昆明市位于中國(guó)西南云貴高原中部,是中國(guó)面向東南亞、南亞開(kāi)放的門戶城市,屬亞熱帶高原季風(fēng)氣候,年平均氣溫15℃,年均日照2200h左右。20世紀(jì)以來(lái),昆明市分別于1906年、1943年、1960年、1982年、1987—1988年、1992—1993年、2003年、2009—2013年、2019年遭受了嚴(yán)重旱災(zāi),且總體呈現(xiàn)干旱災(zāi)害頻次增加、影響程度加深加重的趨勢(shì)。
研究數(shù)據(jù)資料包括昆明氣象站1953—2021年逐月降水、氣溫資料以及包含大氣環(huán)流、海溫、其他因子的130項(xiàng)氣候因子1952—2021年指數(shù)資料,數(shù)據(jù)來(lái)源國(guó)家氣候中心網(wǎng)站(http://cmdp.ncc-cma.net/download/Monitoring/Index)。
干旱指數(shù)可以反映干旱強(qiáng)度及持續(xù)時(shí)間,是干旱監(jiān)測(cè)預(yù)警工作的基礎(chǔ)。為給出昆明市干旱的強(qiáng)度等級(jí),本研究采用標(biāo)準(zhǔn)化降水蒸散指數(shù)SPEI[13]進(jìn)行昆明市年度干旱等級(jí)劃分。
SPEI指數(shù)計(jì)算公式為:
(1)
當(dāng)P≤0.5時(shí),W=[-2ln(P)]0.5;若P>0.5,則替換為1-P計(jì)算,SPEI結(jié)果取反。
式中,W—概率變量;P—超過(guò)某一確定的降水蒸散差值的概率,P=1-F(x);C0、C1、C2、d1、d2、d3—常系數(shù),C0=2.515517,C1=0.802853,C2=0.010328;d1=1.432788,d2=0.189269,d3=0.001308。
概率分布函數(shù)F(x)基于下式計(jì)算:
(2)
其中:
(3)
(4)
(5)
式中,?!ゑR函數(shù);w—L-矩參數(shù);α—尺度參數(shù);β—形狀參數(shù);γ—位置參數(shù)。
Di序列的概率加權(quán)矩wl(l=0,1,2…)計(jì)算公式為:
(6)
式中,xi—Di(降雨量減去蒸發(fā)量)從小到大排序的系列。
為進(jìn)一步劃分干旱等級(jí),本研究基于昆明市長(zhǎng)系列SPEI指數(shù)的均值、標(biāo)準(zhǔn)差統(tǒng)計(jì)值,沿用以往研究多采用的干旱分級(jí)方法[3],方法見(jiàn)表1。
表1 干旱等級(jí)劃分方法
隨機(jī)森林是最早由美國(guó)學(xué)者Leo Breiman和Adele Cutler發(fā)展推論出的一種基于組合樹(shù)型分類器的機(jī)器學(xué)習(xí)算法[14],通過(guò)訓(xùn)練多個(gè)樹(shù)(決策樹(shù)預(yù)測(cè)模型),每個(gè)樹(shù)基于隨機(jī)機(jī)制盡可能擬合,最終成果綜合多個(gè)樹(shù)的預(yù)測(cè)結(jié)果,實(shí)現(xiàn)目標(biāo)分類及數(shù)值回歸,并具有成果精度高且穩(wěn)定,較少受缺失值及不重要特征影響,可以生成預(yù)報(bào)因子重要性排序等優(yōu)良特性[15-16]。隨機(jī)森林算法原理詳見(jiàn)Leo Breiman的《Random Forests》一文。
考慮到氣候因子數(shù)據(jù)的發(fā)布有一定滯后性,但滯后時(shí)間不超過(guò)1個(gè)月,因此預(yù)測(cè)下一年干旱指數(shù)/干旱類別所采用的氣候因子為去年12月至當(dāng)年11月的月值數(shù)據(jù)。由于隨機(jī)森林能反映因子與預(yù)報(bào)對(duì)象間的復(fù)雜非線性映射關(guān)系,本研究采用能在一定程度上反映非線性關(guān)系的Spearman相關(guān)系數(shù),挑選與預(yù)報(bào)對(duì)象間相關(guān)系數(shù)的絕對(duì)值超過(guò)相應(yīng)閾值的因子,并計(jì)算因子間相關(guān)系數(shù),剔除因子間相關(guān)系數(shù)絕對(duì)值超過(guò)一定閾值而與預(yù)報(bào)對(duì)象相關(guān)系數(shù)絕對(duì)值較低的因子。
本文昆明市干旱等級(jí)預(yù)報(bào)按直接分類和回歸歸類分為兩種預(yù)報(bào)方法。
2.3.1直接分類
(1)預(yù)報(bào)因子選擇
昆明市年度干旱等級(jí)系列為1953—2022年共計(jì)69年,以2012—2022年為檢驗(yàn)期。為模擬利用實(shí)際預(yù)測(cè)時(shí)可獲得的信息,訓(xùn)練期為1953年至所預(yù)測(cè)年份的前一年,其時(shí)期隨預(yù)測(cè)年份的不同而變化,大數(shù)在60年左右。通過(guò)查表,在置信度0.05條件下,樣本數(shù)60的相關(guān)關(guān)系顯著性閾值約為0.25,因此以預(yù)報(bào)因子與昆明市干旱指數(shù)間Spearman相關(guān)系數(shù)絕對(duì)值不低于0.25為條件進(jìn)行因子初選。再設(shè)定因子間相關(guān)系數(shù)絕對(duì)值閾值為0.85,保障挑選的因子兩兩間相關(guān)系數(shù)絕對(duì)值不超過(guò)0.85,進(jìn)一步篩選預(yù)報(bào)因子。最終采用隨機(jī)森林算法內(nèi)部的因子重要性識(shí)別方法,根據(jù)預(yù)報(bào)因子的重要性權(quán)重排序,取累積重要性權(quán)重不低于0.85的前n個(gè)因子作為預(yù)報(bào)因子。
(2)預(yù)報(bào)模型構(gòu)建
采用隨機(jī)森林分類算法進(jìn)行昆明市干旱等級(jí)分類預(yù)測(cè)研究。以訓(xùn)練期的年度干旱等級(jí)為目標(biāo)變量,以最終篩選的預(yù)報(bào)因子系列為解釋變量,通過(guò)樣本訓(xùn)練構(gòu)建預(yù)報(bào)模型,并對(duì)檢驗(yàn)期的干旱等級(jí)結(jié)果進(jìn)行精度檢驗(yàn)。其中,隨機(jī)森林分類算法參數(shù)采用網(wǎng)格搜索進(jìn)行率定,相關(guān)參數(shù)集合見(jiàn)表2。
表2 網(wǎng)格搜索率定參數(shù)集合表
2.3.2回歸歸類
(1)預(yù)報(bào)因子選擇
考慮到昆明市連續(xù)干旱事件時(shí)有發(fā)生,即年干旱指數(shù)系列具有一定的年代際變化特征,該特征會(huì)對(duì)回歸建模造成一定的不利影響[17]。因此,本研究對(duì)預(yù)報(bào)對(duì)象系列、預(yù)報(bào)因子系列進(jìn)行增量計(jì)算處理(當(dāng)年增量為當(dāng)年數(shù)值減去去年數(shù)值),即將原始預(yù)報(bào)對(duì)象系列、預(yù)報(bào)因子系列替換為預(yù)報(bào)對(duì)象增量系列、預(yù)報(bào)因子增量系列。在此基礎(chǔ)上,采用與直接分類一致的方法進(jìn)行預(yù)報(bào)因子選擇(本研究昆明市干旱等級(jí)系列最早年份為1953年,由于進(jìn)行了增量計(jì)算處理,訓(xùn)練期起始年份為1954年)。
(2)預(yù)報(bào)模型構(gòu)建
采用隨機(jī)森林回歸算法進(jìn)行昆明市干旱等級(jí)回歸歸類預(yù)測(cè)研究。以訓(xùn)練期的年度干旱指數(shù)增量為目標(biāo)變量,以最終篩選的預(yù)報(bào)因子增量為解釋變量,通過(guò)樣本訓(xùn)練構(gòu)建預(yù)報(bào)模型,預(yù)測(cè)的下一年年度干旱指數(shù)增量再疊加當(dāng)年的年度干旱指數(shù),得到下一年年度干旱指數(shù),結(jié)合表2進(jìn)行歸類,從而預(yù)測(cè)干旱等級(jí)。同樣也對(duì)檢驗(yàn)期的干旱等級(jí)預(yù)測(cè)結(jié)果進(jìn)行精度檢驗(yàn),網(wǎng)格搜索率定參數(shù)集合同表2。
此外,本研究還構(gòu)建了加權(quán)馬爾可夫模型進(jìn)行對(duì)比研究。
本研究基于昆明氣象站1953—2022年逐月降水、氣溫資料,計(jì)算了12月尺度的SPEI指數(shù),進(jìn)一步統(tǒng)計(jì)出1953—2022年逐年SPEI指數(shù),其中2001—2022年數(shù)值見(jiàn)表3。從表3可以看出,SPEI指數(shù)反映了2009—2013年連續(xù)干旱事件,可以較好表征干旱狀態(tài)。
表3 昆明市SPEI指數(shù)(2001—2022年)
依據(jù)昆明市1953—2022年逐年SPEI指數(shù)及前述干旱等級(jí)劃分方法,劃分干旱等級(jí),見(jiàn)表4。
表4 昆明市干旱等級(jí)劃分方法
基于隨機(jī)森林的直接分類模型(以下簡(jiǎn)稱“RF直接分類模型”)、基于隨機(jī)森林的回歸歸類模型(以下簡(jiǎn)稱“RF回歸歸類模型”)及加權(quán)馬爾可夫模型逐年預(yù)測(cè)的2012—2022年昆明市干旱等級(jí)見(jiàn)表5。
表5 三種方法預(yù)測(cè)的昆明市干旱等級(jí)成果
從表5可以看出,RF直接分類模型和加權(quán)馬爾可夫模型更傾向把干旱等級(jí)預(yù)測(cè)為6,而RF回歸歸類模型預(yù)測(cè)成果與實(shí)際干旱等級(jí)在趨勢(shì)上較為一致。11年預(yù)測(cè)中,RF直接分類模型在2012年、2013年、2019年預(yù)測(cè)準(zhǔn)確,在2020年、2021年預(yù)測(cè)與實(shí)際接近,其余6年預(yù)測(cè)與實(shí)際相差較大,總體預(yù)測(cè)效果不佳;加權(quán)馬爾可夫模型在2012年、2013年、2019年、2020年預(yù)測(cè)準(zhǔn)確,在2022年預(yù)測(cè)成果與實(shí)際有一定偏差,其余6年預(yù)測(cè)與實(shí)際相差較大,總體來(lái)看預(yù)測(cè)效果最差;RF回歸歸類模型在2012年、2013年、2019年、2017年預(yù)測(cè)準(zhǔn)確,在2015年、2016年、2020年預(yù)測(cè)與實(shí)際接近(相差1個(gè)等級(jí)),在其余4年預(yù)測(cè)成果與實(shí)際有一定偏差(相差2個(gè)等級(jí)),總體來(lái)看有一定預(yù)測(cè)精度,3種方法中表現(xiàn)最優(yōu)。
除干旱等級(jí)預(yù)測(cè)成果外,RF回歸歸類模型還可輸出選擇因子個(gè)數(shù)、模型最優(yōu)參數(shù)等中間成果,件表6。繪制RF回歸歸類模型預(yù)測(cè)的SPEI干旱指數(shù)與實(shí)際的擬合圖,如圖1所示,可以看出,預(yù)測(cè)的干旱指數(shù)值變化過(guò)程與實(shí)際較為相符,這也保障了RF回歸歸類模型干旱等級(jí)預(yù)測(cè)精度相對(duì)較高。
圖1 RF回歸歸類模型預(yù)測(cè)與實(shí)際SPEI干旱指數(shù)擬合
表6 RF回歸歸類模型干旱預(yù)測(cè)成果
依據(jù)歷史SPEI指數(shù)及氣候因子數(shù)據(jù),采用RF回歸歸類模型預(yù)測(cè)昆明市2023年SPEI指數(shù)為0.0251,干旱等級(jí)為3,為輕度濕潤(rùn)水平。
干旱預(yù)測(cè)是水資源管理領(lǐng)域的重點(diǎn)及難點(diǎn)問(wèn)題,本研究針對(duì)干旱災(zāi)害情勢(shì)嚴(yán)峻的昆明市開(kāi)展基于數(shù)據(jù)驅(qū)動(dòng)的干旱等級(jí)預(yù)測(cè)方法嘗試性研究。研究構(gòu)建的RF回歸歸類模型,可以利用到前期氣候因子信息,較好構(gòu)建前期氣候因子與干旱等級(jí)之間的復(fù)雜非線性關(guān)系,相比基于時(shí)間序列方法的加權(quán)馬爾可夫模型,干旱等級(jí)預(yù)測(cè)精度更高。而由于氣候因子與干旱等級(jí)之間的關(guān)系較為復(fù)雜,直接分類一定程度上損失了信息量,也更難把握氣候因子數(shù)值與干旱等級(jí)類別之間的關(guān)系,反映的結(jié)果為預(yù)測(cè)精度不如回歸歸類模型。本研究可為干旱預(yù)測(cè)研究提供一定的方法參考。