季鵬 袁星
摘要 ?基于機(jī)器學(xué)習(xí)方法和多源數(shù)據(jù)構(gòu)建高精度蒸散發(fā)(Evapotranspiration,ET)產(chǎn)品對(duì)研究氣候變化背景下干旱、半干旱地區(qū)陸地水循環(huán)變化具有重要意義。本文利用西北地區(qū)12個(gè)草地通量站點(diǎn)與衛(wèi)星遙感產(chǎn)品,基于隨機(jī)森林、極端梯度提升、支持向量回歸和人工神經(jīng)網(wǎng)絡(luò)4種機(jī)器學(xué)習(xí)方法構(gòu)建ET估算模型,制作5 km分辨率ET產(chǎn)品,并分析ET的長(zhǎng)期變化趨勢(shì)。交叉驗(yàn)證結(jié)果表明,4種模型的均方根誤差都低于0 57 ?mm·d ??-1 , R ?2高達(dá)0 73~0 88。SHAP(SHapley Additive exPlanation)可解釋性分析表明,4種模型均將凈輻射、植被和土壤濕度作為ET估算的重要因子,也能刻畫出土壤偏干時(shí)土壤水分對(duì)ET的限制作用,有較好的物理解釋性。多模型集合的ET結(jié)果相比單一機(jī)器學(xué)習(xí)模型以及現(xiàn)有遙感產(chǎn)品誤差分別降低7%~20%和45%~70%。趨勢(shì)分析結(jié)果顯示,西北地區(qū)非裸地下墊面在2001—2018年間整體呈現(xiàn)ET增加趨勢(shì),平均速率為19 mm/(10 a)。在河套平原和內(nèi)蒙古中部和東北部地區(qū),ET的增長(zhǎng)速率超過(guò)降水,這可能會(huì)進(jìn)一步加劇這些地區(qū)的干旱化。
關(guān)鍵詞 ?西北地區(qū); 蒸散發(fā); 機(jī)器學(xué)習(xí); 可解釋性; 趨勢(shì)分析
陸面蒸散發(fā)包含地表蒸發(fā)和植被蒸騰,其中植被蒸騰占比近50%~80%(Coenders-Gerrits et al.,2014;Good et al.,2015)。陸面蒸散發(fā)是地面和大氣間水分、能量交換的主要載體(Wang and Dickinson,2012;李放和沈彥俊,2014;陳鏡明等,2020),也是陸氣相互作用的重要環(huán)節(jié)(Koster et al.,2004;Seneviratne et al.,2010)。據(jù)統(tǒng)計(jì),近2/3的全球陸地降水將以蒸散發(fā)的形式回到大氣中,并在此過(guò)程中消耗陸地吸收的近一半太陽(yáng)輻射能量(Chahine,1992;Oki and Kanae,2006)。受氣候變化和植被變化影響,全球陸面蒸散發(fā)呈現(xiàn)增加趨勢(shì)(張霞等,2017;Zhang et al.,2019)。在生態(tài)脆弱、水資源匱乏的干旱、半干旱地區(qū),增強(qiáng)的陸面蒸散發(fā)與干旱化過(guò)程密切相關(guān)(馬柱國(guó),2005;Huang et al.,2016,2017)。準(zhǔn)確估計(jì)干旱、半干旱區(qū)的陸面蒸散發(fā)對(duì)于研究全球增暖影響下該地區(qū)水資源變化、水文與農(nóng)業(yè)干旱風(fēng)險(xiǎn)以及生態(tài)安全風(fēng)險(xiǎn)具有重要意義(黃建平等,2013;Huang et al.,2016;楊揚(yáng)等,2020)。
相比傳統(tǒng)參數(shù)化方案,機(jī)器學(xué)習(xí)模型能夠在無(wú)先驗(yàn)條件下自主完成數(shù)據(jù)之間隱藏關(guān)系的建立,對(duì)于具有強(qiáng)非線性關(guān)系的復(fù)雜系統(tǒng)有更高模擬精度(Reichstein et al.,2019;賀圣平等,2021)。隨著機(jī)器學(xué)習(xí)方法的迅猛發(fā)展以及站點(diǎn)觀測(cè)數(shù)據(jù)的不斷豐富,近年來(lái)機(jī)器學(xué)習(xí)方法開始被運(yùn)用到陸面蒸散發(fā)的建模中,并得到比傳統(tǒng)模型更好的效果(Tramontana et al.,2016;Granata,2019;Jung et al.,2019;Hu et al.,2021)。Jung et al.(2019)基于全球FLUXNET通量站點(diǎn)觀測(cè),結(jié)合隨機(jī)森林、人工神經(jīng)網(wǎng)絡(luò)、支持向量回歸等機(jī)器學(xué)習(xí)模型,訓(xùn)練并生成了FLUXCOM潛熱(蒸散發(fā))集合產(chǎn)品。Hu et al.(2021)對(duì)比了機(jī)器學(xué)習(xí)方法和地表能量平衡(Surface Energy Balance System,SEBS)物理模型發(fā)現(xiàn),機(jī)器學(xué)習(xí)模型的蒸散發(fā)模擬誤差僅為物理模型的1/4。針對(duì)干旱、半干旱地區(qū)的機(jī)器學(xué)習(xí)蒸散發(fā)模型也有了部分工作。例如,F(xiàn)ang et al.(2020)利用支持向量回歸方法構(gòu)建華北平原旱地作物的蒸散發(fā)估算模型。Zhang et al.(2021)基于隨機(jī)森林構(gòu)建了我國(guó)西北干旱、半干旱區(qū)草地下墊面的蒸散發(fā)估算模型,均得到良好的模擬效果。然而,不同機(jī)器學(xué)習(xí)模型對(duì)干旱、半干旱區(qū)蒸散發(fā)的模擬精度以及泛化能力是否存在顯著區(qū)別仍未得到系統(tǒng)性對(duì)比研究。
此外,機(jī)器學(xué)習(xí)結(jié)果的可解釋性也備受關(guān)注(Granata,2019;Reichstein et al.,2019;Hu et al.,2021)。例如,Zhang et al.(2021)結(jié)合排列重要性(Permutaion Importance;PI)方法指出氣溫、降水、輻射、植被以及土壤溫濕度是模型中的重要預(yù)測(cè)因子(predictor variables)。Granata(2019)將不同預(yù)測(cè)因子移除機(jī)器學(xué)習(xí)模型(該方法也稱為Drop Column Importance;DCI),發(fā)現(xiàn)有無(wú)輻射、顯熱通量等預(yù)測(cè)因子直接影響了機(jī)器學(xué)習(xí)模型的精度,而風(fēng)速因子的加入與否對(duì)結(jié)果影響不大。然而,PI和DCI僅給出不同因子在整體特征上的重要性,無(wú)法直觀表明各因子對(duì)預(yù)測(cè)個(gè)體的貢獻(xiàn)(例如,無(wú)法說(shuō)明凈輻射或者土壤濕度對(duì)蒸散發(fā)模擬值是正或者負(fù)貢獻(xiàn))。相比而言,SHapley Additive exPlanation(SHAP)可解釋性方法能給出個(gè)體特征,并考慮了預(yù)測(cè)因子之間的協(xié)同影響(Lundberg and Lee,2017)。Hu et al.(2021)利用SHAP方法探究了三種機(jī)器學(xué)習(xí)方法的可解釋性,發(fā)現(xiàn)不同模型對(duì)葉面積指數(shù)(Leaf Area Index,LAI)的敏感度和響應(yīng)方式均不同,深度學(xué)習(xí)網(wǎng)絡(luò)和隨機(jī)森林模型中蒸散發(fā)與LAI呈現(xiàn)正相關(guān),而符號(hào)回歸方法則呈現(xiàn)微弱的負(fù)相關(guān)。然而,不同機(jī)器學(xué)習(xí)模型在估算干旱、半干旱區(qū)蒸散發(fā)時(shí)是否有一致的物理解釋性,各模型能否合理描述干旱、半干旱區(qū)水分對(duì)蒸散發(fā)的限制作用需要進(jìn)一步探討。
綜上所述,不同機(jī)器學(xué)習(xí)方法在估算干旱、半干旱區(qū)蒸散發(fā)中的適用性、泛化能力以及可解釋性需要進(jìn)一步分析。針對(duì)此,本文利用我國(guó)西北地區(qū)12個(gè)通量站點(diǎn)的長(zhǎng)時(shí)段觀測(cè)數(shù)據(jù),基于隨機(jī)森林(Random Forest,RF)、極端梯度提升(eXtreme Gradient Boosting,XGB)、支持向量回歸(Support Vector Regression,SVR)和人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)構(gòu)建了4組蒸散發(fā)估算模型;采用隨機(jī)交叉驗(yàn)證(Random Cross-Validation,RCV)和空間交叉驗(yàn)證(Spatial Cross-Validation,SCV)對(duì)模型的魯棒性和泛化能力進(jìn)行檢驗(yàn);結(jié)合SHAP可解釋性方法探討不同機(jī)器學(xué)習(xí)模型的物理可解釋性,重點(diǎn)關(guān)注不同模型對(duì)預(yù)測(cè)因子與蒸散發(fā)之間物理關(guān)系的描述;進(jìn)一步基于構(gòu)建的蒸散發(fā)模型和多源觀測(cè)數(shù)據(jù)生成西北地區(qū)5 km分辨率格點(diǎn)蒸散發(fā)產(chǎn)品,分析蒸散發(fā)的長(zhǎng)期變化趨勢(shì)和空間分異性。
1 資料和方法
1 1 研究區(qū)域與觀測(cè)數(shù)據(jù)
本文蒸散發(fā)指冠層向上的總蒸散發(fā)(ET),其計(jì)算公式如下:
ET= E ?s+ T ?c。
其中: T ?c表示冠層蒸騰; E ?s表示土壤蒸發(fā)。
根據(jù)聯(lián)合國(guó)環(huán)境規(guī)劃署定義,干燥指數(shù)(AI,Aridity Index)在0 05~0 5的區(qū)域?yàn)楦珊?、半干旱區(qū)。具體的,AI<0 03表示極端干旱,0 03≤AI<0 2表示干旱區(qū),0 2≤AI<0 5表示半干旱區(qū)。本文主要關(guān)注我國(guó)西北(包括內(nèi)蒙古)干旱、半干旱地區(qū)(圖1a)。選取由國(guó)家青藏高原科學(xué)數(shù)據(jù)中心、FLUXNET2015(Pastorello et al.,2020)以及中國(guó)陸地生態(tài)系統(tǒng)通量觀測(cè)研究網(wǎng)絡(luò)(ChinaFLUX;Yu et al.,2006)提供的12個(gè)通量站點(diǎn)觀測(cè)(圖1b),具體站點(diǎn)信息和觀測(cè)時(shí)長(zhǎng)見表1。原始數(shù)據(jù)頻次為半小時(shí)、小時(shí)或者日,均處理到日尺度。
參考前人的相關(guān)工作(Tramontana et al.,2016;Jung et al.,2019),本文選取MODIS(Moderate-resolution Imaging Spectroradiometer)衛(wèi)星遙感產(chǎn)品作為部分預(yù)測(cè)因子,包括增強(qiáng)植被指數(shù)(Enhanced Vegetation Index,EVI)、歸一化植被指數(shù)(Normalized Difference Vegetation Index,NDVI)、植被有效光合輻射吸收比例(Fraction Absorbed Photosynthetically Active Radiation,F(xiàn)APAR)、植被葉面積指數(shù)(LAI)、白天(Land Surface Temperature at Daytime,LST_D)和夜間(Land Surface Temperature at Nighttime,LST_N)地表溫度、以及MCD43A4地表反射率資料。MODIS數(shù)據(jù)原始空間分辨率為200 m~1 km,時(shí)間分辨率為1~16 d。利用站點(diǎn)周圍3 km×3 km區(qū)域的網(wǎng)格平均值來(lái)減少地理定位誤差(Xiao et al.,2008),并采用保形分段三次樣條插值方法將MODIS觀測(cè)序列插值至日尺度。 MCD43A4地表反射率資料用于計(jì)算歸一化水體指數(shù)(Gao,1996)和地表水分指數(shù)(Xiao et al.,2002)。
格點(diǎn)蒸散發(fā)產(chǎn)品的計(jì)算主要基于遙感和氣象再分析格點(diǎn)產(chǎn)品(表2),包括0 1°分辨率的中國(guó)氣象驅(qū)動(dòng)數(shù)據(jù)(China Meteorological Forcing Dataset,CMFD)(He et al.,2020)、中國(guó)地區(qū)1 km分辨率土壤濕度產(chǎn)品(China Soil Moisture dataset,CSM)(Li et al.,2022)、全球陸表特征參量(Global Land Surface Satellite,GLASS)0 05°G數(shù)據(jù)產(chǎn)品(Liang et al.,2021)、以及0 05°MODIS格點(diǎn)產(chǎn)品。此外,包括FLUXCOM提供的0 008 3°分辨率FLUXCOM-RS和0 5°分辨率FLUXCOM-RS+METEO(Jung et al.,2019)、GLEAM提供的0 25°分辨率GLEAMv3 6b和GLEAMv3 6a、以及GLASS提供的0 05°分辨率GLASS-ETv4 2(Liang et al.,2021)蒸散發(fā)產(chǎn)品被用來(lái)與本研究的產(chǎn)品進(jìn)行相互印證。其中,F(xiàn)LUXCOM-RS和GLEAMv3 6b僅依賴于遙感數(shù)據(jù),而FLUXCOM-RS+METEO和GLEAMv3 6a用到了氣象再分析數(shù)據(jù)。
1 2 機(jī)器學(xué)習(xí)模型構(gòu)建與驗(yàn)證方法
根據(jù)Tramontana et al.(2016)、Jung et al.(2019)以及Zhang et al.(2021)的工作,本文采用凈輻射、日平均氣溫、日平均濕度等19個(gè)環(huán)境要素作為機(jī)器學(xué)習(xí)模型的預(yù)測(cè)因子(詳見表2)。去除缺測(cè)數(shù)據(jù)后,共有12 600多組有效觀測(cè)。隨機(jī)交叉驗(yàn)證(Random Cross Validation,RCV)是指從每個(gè)站點(diǎn)中隨機(jī)挑選90%的數(shù)據(jù)用于模型訓(xùn)練,10%的數(shù)據(jù)用于模型測(cè)試。本研究進(jìn)行了10次RCV,每次選擇數(shù)據(jù)均為隨機(jī)抽取,利用10次評(píng)估參數(shù)的平均值和標(biāo)準(zhǔn)差判斷模型魯棒性。空間交叉驗(yàn)證(Spatial Cross Validation,SCV)是指每次排除部分站點(diǎn),利用其他站點(diǎn)數(shù)據(jù)訓(xùn)練的模型對(duì)該站點(diǎn)進(jìn)行測(cè)試,從而體現(xiàn)機(jī)器學(xué)習(xí)的泛化能力(Zhang et al.,2021)。本研究共進(jìn)行了12次SCV,每次排除一個(gè)站點(diǎn)。
采用Python中的網(wǎng)格搜索和交叉驗(yàn)證函數(shù)包(GridSearchCV)率定RF、XGB和SVR模型中的部分超參數(shù)(表3)。ANN模型共4層,每層神經(jīng)元的個(gè)數(shù)分別是200、100、50和1。此外,通過(guò)在第1和第2層之間建立神經(jīng)元丟棄層(丟棄概率為20%)以及在第二層增加正則化(正則化權(quán)重為0 01)的方式,防止ANN模型出現(xiàn)過(guò)擬合。該ANN模型的收斂速度較快,在40~50次迭代時(shí)已基本收斂,因此模型最終的迭代次數(shù)設(shè)置為100。
采用Kling-Gupta系數(shù)(KGE;Gupta et al.,2009)、解釋方差( R ?2)、均方根誤差(RMSE)和偏差(BIAS)來(lái)驗(yàn)證模擬精度,其計(jì)算公式如下:
R 2=1- ∑ n i=1 (y ??s ,i -y ??o ,i ) 2 ∑ n i=1 (y ??o ,i - y ??o ,i ??) 2 ,
RMSE = ?1 n ∑ n i=1 (y ??s ,i -y ??o ,i ) 2 ,
BIAS = y ?s ??- y ?o ??,
KGE =1- ( CC -1) 2+ ??y ?s ????y ?o ???-1 ?2+ ??σ ?s ?σ ?o -1 ?2 。
其中: y ??o ,i 和y ??s ,i 分別表示觀測(cè)和模擬中第i天的蒸散發(fā);n表示總樣本數(shù);上橫線表示時(shí)間平均; CC 表示相關(guān)系數(shù); σ ?o和 σ ?s分別表示觀測(cè)和模擬結(jié)果的標(biāo)準(zhǔn)差;KGE是對(duì)相關(guān)、均值和變率的綜合性衡量指標(biāo),KGE的范圍是負(fù)無(wú)窮到1,越接近1表明模擬效果越好。
1 3 SHAP可解釋性方法
SHAP方法是利用博弈論解釋機(jī)器學(xué)習(xí)模型的方法(Lundberg and Lee,2017),其可以量化某個(gè)輸入要素對(duì)模型預(yù)測(cè)效果的具體貢獻(xiàn)。SHAP利用加法性歸因方法量化某一預(yù)測(cè)因子對(duì)結(jié)果的可解釋性:
f(x)=g(x′)=? ? 0+∑ M i=1? ? ?ix′。
其中: f(x)為原始模型;g(x′)為擁有簡(jiǎn)單輸入( x′;x′ ∈{0,1} M)的解釋性模型,而x與x′則通過(guò)映射方程x=h x(x′)相聯(lián)系;M表示輸入要素(或預(yù)測(cè)因子)的數(shù)目;? ? i表示第i個(gè)要素的特征歸因函數(shù)。解釋性模型g(x′)擁有唯一解:
i(f,x)= ∑ z′ x′ ?|z′|?。∕-|z′|-1)! M! [f x(z′)- f x(z′\i)]。
其中: |z′|表示z′中非零值的數(shù)目;f(x′)=f(h x(z′))=E[f(z)|z s];s表示z′中非零 值索引的集合。
2 主要結(jié)果
2 1 不同模型的模擬性能和泛化能力
表4給出不同機(jī)器學(xué)習(xí)模型完成10次RCV和12次SCV后的評(píng)估參數(shù),而圖2給出了RCV和SCV試驗(yàn)在測(cè)試集上的驗(yàn)證效果。當(dāng)所有站點(diǎn)均有部分?jǐn)?shù)據(jù)參與訓(xùn)練時(shí)(對(duì)應(yīng)RCV試驗(yàn)),XGB模型的精度最高,KGE和 R ?2高達(dá)0 92和0 88,均方根誤差最低(0 45 mm·d ?-1 ),基本無(wú)偏差。RF模型效果略低于XGB模型,KGE和 R ?2為0 88和0 87,均方根誤差為0 49 mm·d ?-1 。雖然XGB和RF模型均是依賴于決策樹的集成學(xué)習(xí)方法,但是RF模型中每顆決策樹之間相互獨(dú)立,而XGB會(huì)基于當(dāng)前決策樹中的錯(cuò)誤來(lái)優(yōu)化產(chǎn)生新決策樹,這可能導(dǎo)致XGB相比RF模型擁有更好的效果。SVR和ANN模型的模擬精度相當(dāng),兩者的KGE和 R ?2均在0 85和0 81左右,ANN模型的誤差稍大于SVR。相比圖2a、2b,圖2c、2d中的散點(diǎn)分布更寬,表明SVR和ANN模型易出現(xiàn)高估或者低估蒸散發(fā)的情況。表4也說(shuō)明,ANN和SVR模型的偏差大于RF和XGB模型??赡艿脑蚴?,XGB和RF模型中的集成學(xué)習(xí)理念使得不同決策樹之間的偏差可能存在相互抵消,最終減小集成結(jié)果的偏差。另外,對(duì)于所有模型而言,除偏差外的其他參數(shù)都擁有遠(yuǎn)小于均值的均方根誤差,表明模型對(duì)于訓(xùn)練和測(cè)試數(shù)據(jù)的選取不敏感、模型魯棒性強(qiáng)。
Zhang et al.(2021)指出,RF模型在SCV中的模擬精度相比在RCV中會(huì)降低。本研究發(fā)現(xiàn),除RF外,XGB、SVR和ANN模型均存在類似的情況。不難理解,當(dāng)某一站點(diǎn)的觀測(cè)不參與訓(xùn)練時(shí),該站點(diǎn)蒸散發(fā)與預(yù)測(cè)因子間的特征關(guān)系無(wú)法被模型直接學(xué)習(xí),從而導(dǎo)致誤差增加,KGE和 R ?2下降的情況。此外,需要注意的是,從RCV到SCV,SVR和ANN模型各項(xiàng)評(píng)估參數(shù)的退化程度(例如,KGE和 R ?2降低、RMSE增加)要小于RF和XGB,這說(shuō)明SVR和ANN模型擁有更強(qiáng)的泛化能力。然而,雖然各模型的評(píng)估指標(biāo)有所下降,但各項(xiàng)指標(biāo)的下降幅度在可接受范圍內(nèi),且均方根誤差和 R ?2仍然優(yōu)于基于物理模型的再分析資料以及遙感反演產(chǎn)品(Zhang et al.,2019;Niu et al.,2020)。總體而言,4種機(jī)器學(xué)習(xí)模型在SCV中的表現(xiàn)相當(dāng)。
圖3進(jìn)一步給出了不同站點(diǎn)觀測(cè)和模型估算的蒸散發(fā)季節(jié)分布,其中模型估算結(jié)果均來(lái)自SCV試驗(yàn)(即站點(diǎn)數(shù)據(jù)均未參與模型訓(xùn)練),月尺度結(jié)果由日尺度平均得到??傮w而言,各模型均能很好模擬出蒸散發(fā)的季節(jié)循環(huán),平均RMSE為0 27~0 31 mm·d ?-1 。然而,沒(méi)有一種模型能夠在每個(gè)站點(diǎn)都擁有最好的模擬效果。例如,XGB模型很好模擬出DL站點(diǎn)的蒸散發(fā)且誤差僅為0 1 mm·d ?-1 ,但卻未能模擬出HB站點(diǎn)蒸散發(fā)在7月的峰值且誤差相比其他模型高了近80%。ANN模型在HB_W和SIZW站點(diǎn)有最低的模擬誤差,但是在HB站點(diǎn)卻存在顯著負(fù)偏差。將4種模型估算結(jié)果進(jìn)行簡(jiǎn)單算數(shù)平均得到的集合平均結(jié)果相比單一模型在均方根誤差方面降低了7%~20%。因此,采用多機(jī)器學(xué)習(xí)模型的集合平均估算干旱、半干旱地區(qū)蒸散發(fā)相比僅采用單一模型更有優(yōu)勢(shì)。
2 2 不同模型的可解釋性分析
圖4給出了4種機(jī)器學(xué)習(xí)模型的SHAP可解釋性匯總,其中橫軸為SHAP值,縱軸的預(yù)測(cè)因子按照解釋性大小從上到下依次排列,每個(gè)點(diǎn)的顏色代表預(yù)測(cè)因子的數(shù)值大小。例如,圖4a表明凈輻射是RF模型估算蒸散發(fā)時(shí)給予權(quán)重最大的因子,且凈輻射的高值(紅色)對(duì)應(yīng)正的SHAP值,凈輻射低值(藍(lán)色)對(duì)應(yīng)負(fù)的SHAP值,即RF模型中凈輻射增加有利于蒸散發(fā)增加??傮w而言,4種機(jī)器學(xué)習(xí)模型一致地將凈輻射作為最重要的因子,且都顯示凈輻射與蒸散發(fā)的正相關(guān)關(guān)系。Hu et al.(2021)針對(duì)FLUXNET2015的部分站點(diǎn)(包括森林、草地、作物等),對(duì)比了RF、符號(hào)回歸模型和深度學(xué)習(xí)模型的可解釋性,也得到了類似的結(jié)論。此外,與植被冠層結(jié)構(gòu)密切相關(guān)的EVI指數(shù)、對(duì)葉綠素敏感的NDVI指數(shù)以及表征土壤干濕情況的土壤濕度(SWC)在4種模型中都擁有較高權(quán)重,且均與蒸散發(fā)呈正相關(guān)關(guān)系,這表明4種機(jī)器學(xué)習(xí)模型均能夠正確捕捉到干旱、半干旱地區(qū)能量、水分和植被對(duì)蒸散發(fā)的影響。然而,不同模型對(duì)于植被和土壤濕度因子的重要性排列依舊存在區(qū)別。例如,土壤濕度在RF、XGB和ANN模型中的重要性僅次于植被指數(shù)或者土壤溫度,而在SVR模型中則排在氣溫、LAI、NDVI、EVI以及短波輻射之后。4種模型對(duì)于其他預(yù)測(cè)因子重要性分配的差別更大。例如,2 m氣溫在RF、XGB和ANN模型中的重要性遠(yuǎn)小于在SVR模型中。
圖5進(jìn)一步給出凈輻射的SHAP值和凈輻射大小以及土壤濕度之間的關(guān)系,選取觀測(cè)時(shí)長(zhǎng)最大的AROU和NMG站分別代表高寒草甸和溫性草原。對(duì)于AROU站點(diǎn),當(dāng)土壤偏干時(shí)(SWC<0 15 m 3·m ?-3 , 圖5中藍(lán)色點(diǎn)),凈輻射的影響(|SHARP|)較弱,且凈輻射從0增加到100 W·m ?-2 時(shí)SHAP值的變化很平緩。這說(shuō)明低土壤濕度限制了凈輻射對(duì)蒸散發(fā)的影響(Seneviratne et al.,2010)。當(dāng)土壤相對(duì)濕潤(rùn)時(shí)(SWC>0 25 m 3·m ?-3 ,圖5中紅色點(diǎn)),凈輻射的影響相比土壤干燥時(shí)增強(qiáng),且SHAP值隨著凈輻射增加的速率遠(yuǎn)大于土壤干燥時(shí)期。XGB、SVR和ANN與RF類似,但SVR和ANN中低土壤濕度對(duì)凈輻射貢獻(xiàn)的限制強(qiáng)度不及RF和XGB。在NMG站,土壤濕度對(duì)凈輻射SHAP值的影響結(jié)果與AROU站類似。即,當(dāng)土壤濕度偏低時(shí)(SWC<0 10 m 3·m ?-3 ),凈輻射的SHAP值偏小且基本不隨凈輻射增加而增加。其他站點(diǎn)的結(jié)果類似(圖略)。上述SHAP可解釋性分析表明,4種機(jī)器學(xué)習(xí)模型能夠合理描述土壤偏干時(shí)土壤水分對(duì)蒸散發(fā)的限制作用。
2 3 ?5 km分辨率格點(diǎn)蒸散發(fā)數(shù)據(jù)構(gòu)建及蒸散發(fā)趨勢(shì)
利用上述4種機(jī)器學(xué)習(xí)方法,結(jié)合MODIS格點(diǎn)產(chǎn)品、CMFD格點(diǎn)氣象資料以及GLASS凈輻射等產(chǎn)品(表2),構(gòu)建了西北地區(qū)5 km分辨率2001—2018年的多模型集合蒸散發(fā)產(chǎn)品(簡(jiǎn)稱ML-ENS)。由于本研究所用通量觀測(cè)站點(diǎn)主要是草地下墊面,訓(xùn)練的機(jī)器學(xué)習(xí)模型對(duì)于裸地和沙漠下墊面是否有較好的泛化能力仍需進(jìn)一步探討,故對(duì)裸地和沙漠格點(diǎn)進(jìn)行了掩碼,這在FLUXCOM等蒸散發(fā)產(chǎn)品的制作中也有應(yīng)用(Jung et al.,2019;Niu et al.,2020)。圖6對(duì)比了ML-ENS和其他高分辨率產(chǎn)品對(duì)不同站點(diǎn)ET季節(jié)循環(huán)的模擬效果。相比其他產(chǎn)品(除FLUXCOM-RS外),ML-ENS沒(méi)有顯著低估高寒草甸下墊面的蒸散發(fā)。與本研究類似,F(xiàn)LUXCOM-RS也是基于遙感和機(jī)器學(xué)習(xí)模型的蒸散發(fā)產(chǎn)品,觀測(cè)信息的融入可能是它優(yōu)于GLEAMv3 6和GLASS-ETv4 2產(chǎn)品的原因。相比FLUXCOM-RS,ML-ENS在溫性草地(NMG,SIZW和YAK)以及HB_W、DL_D和HB等高寒草甸站點(diǎn)依舊有顯著優(yōu)勢(shì)。綜合而言,ML-ENS中蒸散發(fā)季節(jié)循環(huán)與觀測(cè)間的均方根誤差為0 19 mm·d ?-1 ,而其他產(chǎn)品則為0 35~0 63 mm·d ?-1 ,ML-ENS誤差相比其他產(chǎn)品下降了45%~70%。
圖7進(jìn)一步給出2001—2018年西北地區(qū)非裸地下墊面的降水、蒸散發(fā)以及降水減蒸散發(fā)的趨勢(shì)分布??傮w而言,除了新疆和青海西南部地區(qū)外,其他地區(qū)都呈現(xiàn)降水增加特征,特別是內(nèi)蒙古東北部、 ?河套平原和青海東部地區(qū)。與降水不同的是,蒸散發(fā)整體呈現(xiàn)增加的趨勢(shì),平均速率為19 mm/(10 a)。 在降水顯著增加的河套地區(qū)和內(nèi)蒙古東北部,蒸散發(fā)的趨勢(shì)可達(dá)60 mm/(10 a)。GLASS-ETv4 2以及GLEAM蒸散發(fā)產(chǎn)品也呈現(xiàn)與ML-ENS產(chǎn)品類似的蒸散發(fā)變化特征(圖略),區(qū)域平均蒸散發(fā)趨勢(shì)分別為22 mm/(10 a)和36 mm/(10 a)。需要注意的是,新疆地區(qū)蒸散發(fā)增加的區(qū)域與灌區(qū)高度吻合(Xiang et al.,2020)。進(jìn)一步對(duì)土壤濕度、凈輻射和植被指數(shù)分析發(fā)現(xiàn),這些灌區(qū)的EVI、NDVI以及凈輻射均呈現(xiàn)增加趨勢(shì)(圖略),加上較高的土壤濕度(灌溉導(dǎo)致),導(dǎo)致ET整體呈現(xiàn)增加趨勢(shì)。圖7c表明,強(qiáng)烈的蒸散發(fā)增加會(huì)超過(guò)降水的增加,從而使得河套地區(qū)、內(nèi)蒙古中部和北部部分地區(qū)PTOT-ET呈現(xiàn)下降趨勢(shì),從而加劇這些地區(qū)從半干旱地區(qū)向干旱區(qū)轉(zhuǎn)換(Huang et al.,2016)。此外,新疆大部分非裸地下墊面的PTOT-ET均呈現(xiàn)下降趨勢(shì),這主要是由降水下降(在天山地區(qū),包括伊犁河谷等,圖7a)、和蒸散發(fā)增加(在新疆北部,圖7b)共同造成,表明該地區(qū)的干旱化風(fēng)險(xiǎn)要大于其他地區(qū)。
3 結(jié)論
利用機(jī)器學(xué)習(xí)模型估算陸面蒸散發(fā)是近年來(lái)的熱點(diǎn)問(wèn)題,然而不同機(jī)器學(xué)習(xí)方法對(duì)干旱、半干旱區(qū)的蒸散發(fā)模擬能力如何、泛化能力是否存在顯著差別以及模型可解釋性等問(wèn)題均有待深入研究?;诖?,本文以我國(guó)西北地區(qū)為例,通過(guò)12個(gè)通量站點(diǎn)的多年觀測(cè)數(shù)據(jù)訓(xùn)練4種機(jī)器學(xué)習(xí)模型,采用隨機(jī)交叉驗(yàn)證、空間交叉驗(yàn)證和SHAP可解性方法檢驗(yàn)?zāi)P湍M效果與可解釋性;利用具有較好物理可解釋性的機(jī)器學(xué)習(xí)模型,結(jié)合遙感與格點(diǎn)氣象再分析資料生成一套5 km分辨率、2001—2018年蒸散發(fā)產(chǎn)品,對(duì)蒸散發(fā)的長(zhǎng)期趨勢(shì)進(jìn)行了分析,得到如下主要結(jié)論:
1)RF、XGB、SVR和ANN模型均能很好估算西北地區(qū)草地下墊面的日尺度蒸散發(fā),且均具有較好的魯棒性和泛化能力?;诩蓪W(xué)習(xí)理念的RF和XGB模型在隨機(jī)交叉驗(yàn)證中偏差接近0,從而擁有比SVR和ANN模型更小的均方根誤差。然而,當(dāng)站點(diǎn)數(shù)據(jù)未參與訓(xùn)練時(shí),4種模型的效果相當(dāng), KGE在0 76~0 79,均方根誤差低于0 57 mm·d ?-1 。 沒(méi)有一種模型在所有站點(diǎn)都擁有最好的模擬效果。相比單一模型,4種模型的集合平均使得蒸散發(fā)的季節(jié)循環(huán)估算誤差降低7%~20%。
2)雖然在具體權(quán)重大小上存在差異,4種機(jī)器學(xué)習(xí)方法均將凈輻射作為估算蒸散發(fā)的首要因子,同時(shí)也都給予植被參數(shù)(EVI或NDVI)以及土壤濕度較大的權(quán)重,均能合理捕捉干旱、半干旱地區(qū)能量、水分和植被對(duì)蒸散發(fā)的影響。另外,4種機(jī)器學(xué)習(xí)模型能夠合理描述土壤偏干時(shí)土壤水分對(duì)蒸散發(fā)的限制作用。
3)基于4種機(jī)器學(xué)習(xí)模型集合平均的格點(diǎn)蒸散發(fā)產(chǎn)品(ML-ENS)相比FLUXCOM、GLEAM和GLASS蒸散發(fā)產(chǎn)品誤差降低45%~70%?;贛L-ENS產(chǎn)品的趨勢(shì)分析表明,西北地區(qū)(裸地和沙漠除外)在2001—2018年呈現(xiàn)出蒸散發(fā)增加的趨勢(shì),且河套、內(nèi)蒙古中部和東北部地區(qū)蒸散發(fā)的增加將抵消降水增加的增濕效應(yīng),從而進(jìn)一步增加干旱化風(fēng)險(xiǎn)。
參考文獻(xiàn)(References)
Chah ine M T,1992.The hydrological cycle and its influence on climate[J].Nature,359(6394):373-380.doi:10 1038/359373a0.
陳鏡明,柳競(jìng)先,羅翔中,2020.基于碳水通量耦合原理改進(jìn)Penman-Monteith蒸散發(fā)模型[J].大氣科學(xué)學(xué)報(bào),43(1):59-75. Chen J M,Liu J X,Luo X Z,2020.Improving the Penman-Monteith evapotranspiration model based on the coupling principle of carbon and water fluxes[J].Trans Atmos Sci,43(1):59-75.(in chinese).
Coenders-Gerrits A J,van der Ent R J,Bogaard T A,et al.,2014.Uncertainties in transpiration estimates[J].Nature,506(7487):1-2.doi:10 1038/nature12925.
Fang B J,Lei H M,Zhang Y C,et al.,2020.Spatio-temporal patterns of evapotranspiration based on upscaling eddy covariance measurements in the dryland of the North China Plain[J].Agric For Meteorol,281:107844.doi:10 1016/j.agrformet.2019 107844.
Gao B C,1996.NDWI—a normalized difference water index for remote sensing of vegetation liquid water from space[J].Remote Sens Environ,58(3):257-266.doi:10 1016/S0034-4257(96)00067-3.
Good S P,Noone D,Bowen G,2015.Hydrologic connectivity constrains partitioning of global terrestrial water fluxes[J].Science,349(6244):175-177.doi:10 1126/science.aaa5931.
Granata F,2019.Evapotranspiration evaluation models based on machine learning algorithms—a comparative study[J].Agric Water Manag,217:303-315.doi:10 1016/j.agwat.2019 03 015.
Gupta H V,Kling H,Yilmaz K K,et al.,2009.Decomposition of the mean squared error and NSE performance criteria:implications for improving hydrological modelling[J].J Hydrol,377(1/2):80-91.doi:10 1016/j.jhydrol.2009 08 003.
He J,Yang K,Tang W J,et al.,2020.The first high-resolution meteorological forcing dataset for land process studies over China[J].Sci Data,7(1):25.doi:10 1038/s41597-020-0369-y.
賀圣平,王會(huì)軍,李華,等,2021.機(jī)器學(xué)習(xí)的原理及其在氣候預(yù)測(cè)中的潛在應(yīng)用[J].大氣科學(xué)學(xué)報(bào),44(1):26-38. He S P,Wang H J,Li H,et al.,2021.Machine learning and its potential application to climate prediction[J].Trans Atmos Sci,44(1):26-38.(in chinese).
Hu X L,Shi L S,Lin G,et al.,2021.Comparison of physical-based,data-driven and hybrid modeling approaches for evapotranspiration estimation[J].J Hydrol,601:126592.doi:10 1016/j.jhydrol.2021 126592.
黃建平,季明霞,劉玉芝,等,2013.干旱半干旱區(qū)氣候變化研究綜述[J].氣候變化研究進(jìn)展,9(1):9-14. Huang J P,Ji M X,Liu Y Z,et al.,2013.An overview of arid and semi-arid climate change[J].Progressus Inquisitiones DE Mutat Clim,9(1):9-14.doi:10 3969/j.issn.1673-1719 2013 01 002.(in Chinese).
Huang J P,Yu H P,Guan X D,et al.,2016.Accelerated dryland expansion under climate change[J].Nat Clim Chang,6(2):166-171.doi:10 1038/nclimate2837.
Huang J P,Yu H P,Dai A G,et al.,2017.Drylands face potential threat under 2 ℃ global warming target[J].Nat Clim Chang,7(6):417-422.doi:10 1038/nclimate3275.
Jung M,Koirala S,Weber U,et al.,2019.The FLUXCOM ensemble of global land-atmosphere energy fluxes[J].Sci Data,6(1):74.doi:10 1038/s41597-019-0076-8.
Koster R D,Dirmeyer P A,Guo Z C,et al.,2004.Regions of strong coupling between soil moisture and precipitation[J].Science,305(5687):1138-1140.doi:10 1126/science.1100217.
李放,沈彥俊,2014.地表遙感蒸散發(fā)模型研究進(jìn)展[J].資源科學(xué),36(7):1478-1488. Li F,Shen Y J,2014.Progress in remote sensing-based models for surface heat and water fluxes[J].Resour Sci,36(7):1478-1488.(in Chinese).
Li Q L,Shi G S,Shangguan W,et al.,2022.A 1 km daily soil moisture dataset over China using in situ measurement and machine learning[J].Earth Syst Sci Data,14(12):5267-5286.doi:10 5194/essd-14-5267-2022.
Liang S L,Cheng J,Jia K,et al.,2021.The global land surface satellite (GLASS) product suite[J].Bull Am Meteor Soc,102(2):E323-E337.doi:10 1175/bams-d-18-0341 1.
Lundberg S M,Lee S I,2017.A unified approach to interpreting model predictions[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems.Long Beach,California,USA.New York:ACML:4768-4777.doi:10 5555/3295222 3295230.
馬柱國(guó),2005.我國(guó)北方干濕演變規(guī)律及其與區(qū)域增暖的可能聯(lián)系[J].地球物理學(xué)報(bào),48(5):1011-1018. Ma Z G,2005.Dry/wet variation and its relationship with regional warming in arid-regions of Northern China[J].Chin J Geophys,48(5):1011-1018.doi:10 3321/j.issn:0001-5733 2005 05 006.(in Chinese).
Niu Z E,He H L,Zhu G F,et al.,2020.A spatial-temporal continuous dataset of the transpiration to evapotranspiration ratio in China from 1981—2015[J].Sci Data,7(1):369.doi:10 1038/s41597-020-00693-x.
Oki T,Kanae S,2006.Global hydrological cycles and world water resources[J].Science,313(5790):1068-1072.doi:10 1126/science.1128845.
Pastorello G,Trotta C,Canfora E,et al.,2020.The FLUXNET2015 dataset and the ONEFlux processing pipeline for eddy covariance data[J].Sci Data,7(1):225.doi:10 1038/s41597-020-0534-3.
Reichstein M,Camps-Valls G,Stevens B,et al.,2019.Deep learning and process understanding for data-driven Earth system science[J].Nature,566(7743):195-204.doi:10 1038/s41586-019-0912-1.
Seneviratne S I,Corti T,Davin E L,et al.,2010.Investigating soil moisture-climate interactions in a changing climate:a review[J].Earth Sci Rev,99(3/4):125-161.doi:10 1016/j.earscirev.2010 02 004.
Tramontana G,Jung M,Schwalm C R,et al.,2016.Predicting carbon dioxide and energy fluxes across global FLUXNET sites with regression algorithms[J].Biogeosciences,13(14):4291-4313.doi:10 5194/bg-13-4291-2016.
Wang K C,Dickinson R E,2012.A review of global terrestrial evapotranspiration:observation,modeling,climatology,and climatic variability[J].Rev Geophys,50(2).doi:10 1029/2011rg000373.
Xiang K L,Yuan W P,Wang L W,et al.,2020.An LSWI-based method for mapping irrigated areas in China using moderate-resolution satellite data[J].Remote Sens,12(24):4181.doi:10 3390/rs12244181.
Xiao J F,Zhuang Q L,Baldocchi D D,et al.,2008.Estimation of net ecosystem carbon exchange for the conterminous United States by combining MODIS and AmeriFlux data[J].Agric For Meteor,148(11):1827-1847.doi:10 1016/j.agrformet.2008 06 015.
Xiao X M,Boles S,Liu J Y,et al.,2002.Characterization of forest types in northeastern China,using multi-temporal SPOT-4 VEGETATION sensor data[J].Remote Sens Environ,82(2/3):335-348.doi:10 1016/S0034-4257(02)00051-2.
楊揚(yáng),孫旭映,張良,等,2020.利用“模擬-校正”法估算黃土高原半干旱區(qū)陸面蒸散發(fā)[J].水土保持研究,27(2):178-184. Yang Y,Sun X Y,Zhang L,et al.,2020.Estimation of terrestrial evapotranspiration of grassland in semi-arid region of the loess plateau by simulation-correction method[J].Res Soil Water Conserv,27(2):178-184.doi:10 13869/j.cnki.rswc.2020 02 026.(in Chinese).
Yu G R,Wen X F,Sun X M,et al.,2006.Overview of ChinaFLUX and evaluation of its eddy covariance measurement[J].Agric For Meteorol,137(3/4):125-137.doi:10 1016/j.agrformet.2006 02 011.
Zhang C,Luo G,Hellwich O,et al.,2021.A framework for estimating actual evapotranspiration at weather stations without flux observations by combining data from MODIS and flux towers through a machine learning approach[J].J Hydro,603:127047.
張霞,李明星,馬柱國(guó),2018.近30年全球干旱半干旱區(qū)的蒸散變化特征[J].大氣科學(xué),42(2):251-267. Zhang X,Li M X,Ma Z G,2018.Evapotranspiration variability over global arid and semi-arid regions from 1982 to 2011[J].Chin J Atmos Sci,42(2):251-267.doi:10 3878/j.issn.1006-9895 1709 16288.(in Chinese).
Zhang Y Q,Kong D D,Gan R,et al.,2019.Coupled estimation of 500 m and 8-day resolution global evapotranspiration and gross primary production in 2002-2017[J].Remote Sens Environ,222:165-182.doi:10 1016/j.rse.2018 12 031.
Modeling the evapotranspiration and its long-term trend over Northwest China using different machine learning models
JI Peng,YUAN Xing
Key Laboratory of Hydrometeorological Disaster Mechanism and Warning of Ministry of Water Resources/Collaborative Innovation Center on Forecast and Evaluation of Meteorological Disasters/School of Hydrology and Water Resources,Nanjing University of Information Science & Technology,Nanjing 210044,China
Using machine learning models (MLMs) to develop high-accuracy evapotranspiration (ET) products is important for investigating the terrestrial hydrological changes in arid and semi-arid regions in the context global warming.Based on the 12 flux stations in Northwest China and multi-source observation datasets,we present a 5-km gridded ET product based on 4 MLMs including the random forest,the extreme gradient boosting,the support vector regression,and the artificial neural network,and analyze the long-term ET trend over Northwest China.The cross-validation results show that all the four models can simulate the daily ET reasonably well,with the root-mean-square error (RMSE) smaller than 0 57 mm·d ?-1 and the ?R ?2 up to 0 73~0 88.Moreover,the Sharply additive explanations (SHAP) method reveals that all the models treat the net radiation,vegetation indexes and soil moisture as the most important predictors and capture the limitation effect of soil water on ET reasonably well,indicating a good physical interpretability of the 4 MLMs.No model always has superiority,and the ensemble mean of the 4 models shows a 7%—20% and 45%—70% smaller RMSE than the individual member and other ET products.The ensemble ET shows an increasing trend over the Northwest China during 2001—2018,with a mean increase of 19 mm/(10 a).In addition,the rate of growth of ET is greater than the rate of increase of precipitation in the Hetao region and the middle and northeastern parts of Inner Mongolia,suggesting an intensified drying trend in these regions.
Northwest China;evapotranspiration;machine learning models;generalization ability;trend analysis
doi:10 13878/j.cnki.dqkxxb.20221201014
(責(zé)任編輯:劉菲)