賈燕 金雙根 嚴(yán)清赟 郭獻(xiàn)濤
地表土壤水分是地表與大氣相互作用的重要因子,是作物生長(zhǎng)、發(fā)育的基本條件.它不僅對(duì)陸地表面蒸散、水的運(yùn)移、碳循環(huán)有很強(qiáng)的調(diào)控作用,而且也是氣候、水文、生態(tài)、農(nóng)業(yè)等領(lǐng)域衡量土壤干旱程度的重要指標(biāo)[1-3],因此,及時(shí)準(zhǔn)確地獲取地表土壤水分信息具有重要的意義.但是,由于監(jiān)測(cè)設(shè)備的高成本以及點(diǎn)觀測(cè)的局限性(小范圍觀測(cè)),傳統(tǒng)的現(xiàn)場(chǎng)觀測(cè)無(wú)法滿足持續(xù)監(jiān)測(cè)大面積土壤水分含量的需求[4].微波遙感技術(shù)的興起和發(fā)展使得傳統(tǒng)的點(diǎn)測(cè)量轉(zhuǎn)移到面測(cè)量,為獲得區(qū)域和全球尺度的高分辨率的土壤水分信息提供了可能.
目前,許多被動(dòng)微波衛(wèi)星或傳感器已被用于觀測(cè)地表土壤濕度(<5 cm),如美國(guó)宇航局的AMSR-E(先進(jìn)微波掃描輻射計(jì)-地球觀測(cè)系統(tǒng))[5]、歐洲航天局的SMAP(土壤濕度被動(dòng)和主動(dòng))[6]和SMOS(土壤濕度和海洋鹽度)[7].盡管使用微波傳感器可以獲得高精度的土壤水分產(chǎn)品,例如,SMAP 36 km土壤水分產(chǎn)品的誤差約為0.04 m3/m3[8],但其2~3 d的較長(zhǎng)重訪周期限制了其更高的時(shí)間分辨率(1 d)應(yīng)用.
GNSS-Reflectometry (GNSS-R)反射信號(hào)遙感是一種介于主動(dòng)和被動(dòng)遙感之間的新型遙感探測(cè)方法,可以看作是一個(gè)非合作人工輻射源、收發(fā)分置、多發(fā)單收的多基地L波段雷達(dá)系統(tǒng),從而兼具主動(dòng)和被動(dòng)遙感兩者的優(yōu)點(diǎn)[9-10]:1)它利用全球衛(wèi)星導(dǎo)航系統(tǒng)反射信號(hào)進(jìn)行測(cè)量,不需要額外的發(fā)射機(jī),這使得開(kāi)發(fā)輕便、緊湊和低成本的接收機(jī)系統(tǒng)得以實(shí)現(xiàn);2)系統(tǒng)配置靈活,可自行設(shè)計(jì)接收多種高度、多角度和多極化的目標(biāo)物反射信號(hào),為多種接收方式、算法研究提供了可能.隨著GNSS-R反演土壤水分研究的不斷深入,具有長(zhǎng)時(shí)間序列觀測(cè)數(shù)據(jù)的新星座觀測(cè)計(jì)劃成為GNSS-R土壤水分反演的新途徑.最新的CYGNSS星座系統(tǒng),含有8顆微小衛(wèi)星,可同時(shí)接收來(lái)自GPS衛(wèi)星的直射信號(hào)和地面反射信號(hào)[9],大大增加了地球可觀測(cè)面積.它的重訪周期僅為4 h,空間分辨率最高可達(dá)到0.5 km[11].CYGNSS星座系統(tǒng)提供的高精度優(yōu)良數(shù)據(jù),為實(shí)現(xiàn)全球高時(shí)空分辨率的土壤水分長(zhǎng)期動(dòng)態(tài)監(jiān)測(cè)提供了有力的支撐[12-24].
Eroglu等[17]提出了一種基于人工神經(jīng)網(wǎng)絡(luò)(ANN)的日土壤水分反演方法,其設(shè)計(jì)的ANN輸入部分包括CYGNSS數(shù)據(jù)和其他輔助數(shù)據(jù):歸一化差異植被指數(shù)(NDVI)、植被含水量(VWC)、地形高程、地形坡度和表面粗糙度.反演結(jié)果的ubRMSE(無(wú)偏均方根誤差)為0.054 4 cm3/cm3,R為0.90,取得了較好的研究成果.雖然ANN能夠很好地反演土壤水分,但該方法十分依賴訓(xùn)練數(shù)據(jù)集.倘若訓(xùn)練數(shù)據(jù)集不能代表所有實(shí)測(cè)數(shù)據(jù),就會(huì)出現(xiàn)反演值溢出的情況.Yang等[19]采用了類似的算法評(píng)估了星載GNSS-R星座系統(tǒng)(TDS和CYGNSS)SM預(yù)測(cè)性能.R為0.79,ubRMSE為0.062 cm3/cm3,并采用了6個(gè)輔助參數(shù).值得注意的是,目前基于人工智能的CYGNSS數(shù)據(jù)反演土壤水分研究[17-19],大多使用SMAP作為參考和驗(yàn)證數(shù)據(jù),且依賴于大量的輔助輸入?yún)?shù),例如海拔高度、地形坡度等.
因此,本文提出一種基于預(yù)分類的人工智能算法,利用CYGNSS數(shù)據(jù)進(jìn)行SM預(yù)測(cè)和估計(jì).采用上述方案,其普適性和實(shí)用性較強(qiáng)且需要的輔助變量較少,學(xué)習(xí)模型的復(fù)雜度低,訓(xùn)練效率高且訓(xùn)練過(guò)程簡(jiǎn)易,同時(shí)預(yù)測(cè)結(jié)果的精度高.為CYGNSS SM估計(jì)提供了新的思路和手段.
本章主要描述CYGNSS數(shù)據(jù)獲取與預(yù)處理過(guò)程,并介紹了SMAP數(shù)據(jù)以及實(shí)地土壤水分參考數(shù)據(jù)及來(lái)源.
本文擬采用的土壤水分?jǐn)?shù)據(jù)產(chǎn)品主要包括星載CYGNSS以及實(shí)測(cè)土壤水分?jǐn)?shù)據(jù).其中,星載CYGNSS有8顆微衛(wèi)星,每顆衛(wèi)星每秒可以同時(shí)提供4個(gè)地面反射測(cè)量值(免費(fèi)獲取:https:∥podaac.jpl.nasa.gov)[11],因此每秒可以同時(shí)獲取總共32個(gè)觀測(cè)數(shù)據(jù).CYGNSS原始數(shù)據(jù)包括每個(gè)鏡面反射點(diǎn)(SP)處的雙地基雷達(dá)橫截面值(BRCS)和信噪比(SNR),以及相關(guān)的幾何測(cè)量和導(dǎo)航定位信息,例如入射角、SP坐標(biāo)、從SP到發(fā)射端和接收端的距離等.本文中使用2018年整年的CYGNSS數(shù)據(jù)用于建模和預(yù)測(cè),并把每日CYGNSS數(shù)據(jù)樣本進(jìn)行重投影、重采樣到EASE-Grid(該網(wǎng)格為等積圓柱投影)網(wǎng)格上,便于后續(xù)的計(jì)算與比較驗(yàn)證.
本文擬采用中國(guó)區(qū)域范圍內(nèi)的CYGNSS數(shù)據(jù)中SP處SNR超過(guò)0 dB的數(shù)據(jù)進(jìn)行土壤水分反演,以確保數(shù)據(jù)的可靠性.同時(shí),保留BRCS峰值在時(shí)延軸第4與第15位的數(shù)據(jù),天線增益大于零的數(shù)據(jù)以及仰角大于30°的數(shù)據(jù),相關(guān)類似操作也在文獻(xiàn)[17-20]中采用.另外,由于CYGNSS未直接提供GNSS-R雙基雷達(dá)反演中所需的地表反射率,因此需要通過(guò)CYGNSS已提供的相關(guān)數(shù)據(jù)來(lái)推算地表反射率,將在下一節(jié)進(jìn)行詳細(xì)介紹.
SMAP提供日土壤水分產(chǎn)品,且平均每隔3 d左右,其數(shù)據(jù)可覆蓋到全球±45°緯度內(nèi)的陸地區(qū)域.本文擬采用SMAP L3級(jí)產(chǎn)品,EASE-Grid版本6提供的日土壤水分產(chǎn)品,該數(shù)據(jù)的空間分辨率為36 km×36 km(免費(fèi)獲取:https:∥nsidc.org/data/SPL3SMP/).SMAP的數(shù)據(jù)包含土壤水分估計(jì)值、質(zhì)量標(biāo)記(用于過(guò)濾SMAP數(shù)據(jù))、粗糙度和植被不透明度(vod,或τ) 以及相關(guān)的軌道坐標(biāo)值[25].本文主要使用SMAP中的粗糙度和植被不透明度τ作為輔助變量參與建模,并使用質(zhì)量標(biāo)記“反演成功”作為數(shù)據(jù)篩選的條件.因?yàn)閱稳盏腟MAP數(shù)據(jù)覆蓋率較低,我們將SMAP數(shù)據(jù)都進(jìn)行了3 d平均的操作便于其參與后續(xù)的土壤水分建模運(yùn)算,并將SMAP的粗糙度和τ數(shù)據(jù)映射到CYGNSS數(shù)據(jù)使用的EASE-Grid網(wǎng)格上.
將上述數(shù)據(jù)作為輸入變量,建立土壤水分預(yù)測(cè)模型.輸出的土壤水分參考數(shù)據(jù)將采用中國(guó)土壤水分自動(dòng)觀測(cè)站收集的實(shí)地地表SM數(shù)據(jù).該觀測(cè)網(wǎng)由多個(gè)站點(diǎn)組成,本文采用的站點(diǎn)分布及其覆蓋的區(qū)域如圖1所示.每個(gè)站點(diǎn)提供每小時(shí)土壤表面以下0至100 cm深度的SM測(cè)量,間隔10 cm.根據(jù)不同的土壤含水量和土壤類型,GNSS-R信號(hào)在土壤中的穿透深度可以從幾厘米到大約20厘米不等[15].因此采用地表上層10 cm 的實(shí)地觀測(cè)SM數(shù)據(jù),視為與GNSS-R技術(shù)反演土壤水分匹配的最佳值.在本研究中,每天逐小時(shí)的地表土壤水分?jǐn)?shù)據(jù)被用來(lái)作為參考真實(shí)土壤水分?jǐn)?shù)據(jù).此外,還提供了采樣地點(diǎn)的地理位置信息(包括緯度、經(jīng)度).
圖1 本研究中國(guó)土壤水分自動(dòng)觀測(cè)站的分布Fig.1 Distributions of automatic soil moisture observation stations in China used for this study
本章詳細(xì)敘述了從CYGNSS數(shù)據(jù)計(jì)算反射率以及土壤水分的建模和預(yù)測(cè)過(guò)程,包括地表反射率的計(jì)算、幾種用于土壤水分反演的經(jīng)典人工智能算法,以及預(yù)分類人工智能算法的模型構(gòu)建和反演SM的過(guò)程.
擬利用處理好的CYGNSS數(shù)據(jù),在顧及地表粗糙度和植被的情況下,進(jìn)行土壤水分反演.對(duì)于有植被覆蓋的區(qū)域,地表的反射率[12-25]可表示為以下的形式:
Γ(θ)=R(θ)2γ2exp(-4k2s2cos(?)),
(1)
其中,入射角為?,R為菲涅耳反射系數(shù),透射率γ包含了植被對(duì)信號(hào)傳播的衰減程度,指數(shù)項(xiàng)表示地表粗糙度效應(yīng),其中k為信號(hào)波數(shù),s為地表均方根高度.
反射率Γ和土壤水分呈線性正相關(guān)的關(guān)系,因此??杀灰暈榕c土壤水分相關(guān)性最大的特征變量.另外,由于透射率γ是植被不透明度τ的函數(shù),其形式為γ=exp(-τsec ?),所以擬將SM視作Γ、τ和地表粗糙度3個(gè)變量的函數(shù).本文擬采用SMAP數(shù)據(jù)中的植被不透明度τ和地表粗糙度作為輔助數(shù)據(jù),地表反射率可由CYGNSS數(shù)據(jù)獲取.
根據(jù)光滑地表相干反射分量的理論假設(shè),并考慮CYGNSS提供的BRCS值,地表的反射率可由下列公式[17]求得:
(2)
其中Rt和Rr分別表示發(fā)射機(jī)和接收機(jī)到SP的距離,這些相關(guān)參數(shù)由CYGNSS數(shù)據(jù)提供.值得注意的是,反射率的求解可采用多種途徑,由于采用BRCS 獲得的Γbrcs在土壤水分反演中已被證實(shí)取得的效果最佳[17],故本文采用式(2)的方法求解反射率,結(jié)果如圖2所示.
圖2 用于實(shí)地土壤水分反演的CYGNSS (2018-01-01) 反射率分布Fig.2 An example of CYGNSS reflectivity samples for SM estimation in China on Jan.1st,2018
機(jī)器學(xué)習(xí)(ML)是一種主流的實(shí)現(xiàn)人工智能的方法,而機(jī)器學(xué)習(xí)最基本的做法,是使用算法來(lái)解析數(shù)據(jù)、從中學(xué)習(xí),然后對(duì)真實(shí)世界中的事件做出決策和預(yù)測(cè).與傳統(tǒng)的為解決特定任務(wù)、硬編碼的軟件程序不同,機(jī)器學(xué)習(xí)用大量的數(shù)據(jù)來(lái)“訓(xùn)練”,通過(guò)各種算法從數(shù)據(jù)中學(xué)習(xí)如何完成任務(wù).機(jī)器學(xué)習(xí)歷經(jīng)70年的曲折發(fā)展,在很多方面收獲了突破性進(jìn)展,經(jīng)典的機(jī)器學(xué)習(xí)的研究方向主要包括決策樹(shù)、隨機(jī)森林、人工神經(jīng)網(wǎng)絡(luò)、SVM等,且已經(jīng)被運(yùn)用到了土壤水分的反演研究中.
隨機(jī)森林[26]利用bootsrap重抽樣方法從數(shù)據(jù)集中抽取多個(gè)樣本,對(duì)每個(gè)樣本分配一個(gè)決策樹(shù)進(jìn)行決策,即建立多棵決策樹(shù),形成一個(gè)決策樹(shù)“森林”,然后將多棵決策樹(shù)進(jìn)行組合,最后通過(guò)投票方法得到最終預(yù)測(cè)結(jié)果.該方法能夠有效地提高對(duì)新樣本的分類準(zhǔn)確率,降低模型的過(guò)擬合能力.
人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network)模型,簡(jiǎn)稱ANN,是1980年代以來(lái)人工智能領(lǐng)域興起的研究熱點(diǎn)之一[17].從生物學(xué)的角度來(lái)說(shuō),它是模擬人腦對(duì)信息處理的過(guò)程,是對(duì)人腦神經(jīng)系統(tǒng)的數(shù)學(xué)模型抽象.神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)一種數(shù)學(xué)運(yùn)算,由大量的神經(jīng)元相互連接而成,每個(gè)神經(jīng)元可以看作是一種運(yùn)算輸出函數(shù),該模型可以用于擬合復(fù)雜的數(shù)學(xué)函數(shù).人工神經(jīng)網(wǎng)絡(luò)模型分為多層前向神經(jīng)網(wǎng)絡(luò)、自組織神經(jīng)網(wǎng)絡(luò)、Hopfield神經(jīng)網(wǎng)絡(luò)等.
XGBoost算法,全稱Extreme Gradient Boosting,出現(xiàn)于Chen等[27]2016年發(fā)表的論文中,在Kaggle等比賽中該算法取得佳績(jī).XGBoost以決策樹(shù)模型為基礎(chǔ),是對(duì)梯度提升樹(shù)的改進(jìn)算法.該算法是一種適合處理稀疏數(shù)據(jù)的樹(shù)學(xué)習(xí)算法,支持并行運(yùn)算和分布式運(yùn)算,通過(guò)對(duì)損失函數(shù)進(jìn)行二階泰勒展開(kāi)來(lái)達(dá)到二次優(yōu)化的目的,因此該算法學(xué)習(xí)效果好、分類精度高、處理速度快,并具有強(qiáng)大的可伸縮性,被人們廣泛應(yīng)用于包括股票選擇策略、電力系統(tǒng)預(yù)測(cè)等諸多領(lǐng)域.
GNSS-R中接收的地表反射信號(hào)主要成分為地表的相干反射分量.隨著地表粗糙度和植被的增加,非相干散射分量增加,同時(shí)相干分量降低.通過(guò)對(duì)反射率、粗糙度和植被這3個(gè)主要參數(shù)的擬合計(jì)算,可以獲得SM估計(jì)值[16].因此在本文的SM預(yù)測(cè)模型中,CYGNSS反射率作為主要變量,SMAP粗糙度系數(shù)和植被不透明度作為輔助變量.
圖3 基于預(yù)分類ML算法的土壤水分預(yù)測(cè)模型結(jié)構(gòu)示意Fig.3 An example diagram of SM prediction model based on pre-classification ML algorithm
之前的研究[17-19]試圖添加各種各樣的輔助數(shù)據(jù),以提高SM估計(jì)的準(zhǔn)確性.可以發(fā)現(xiàn),添加的大部分輔助數(shù)據(jù)都與地形有關(guān),如地形坡度和土壤質(zhì)地[17-19].這些輔助數(shù)據(jù)已表明其有能力提高預(yù)測(cè)的準(zhǔn)確性,但輔助數(shù)據(jù)量較大且種類較多,尤其是在全球尺度下,獲取穩(wěn)定的多種輔助源變得較為困難.因此,本文提出了一種新的預(yù)分類策略,該策略基于傳統(tǒng)的ML回歸方法,采用分類建模的思想,來(lái)最小化不同土地類型數(shù)據(jù)對(duì)學(xué)習(xí)模型的影響,以簡(jiǎn)單實(shí)用的方式提高SM估計(jì)精度.圖3展示了通過(guò)使用ML回歸和預(yù)分類策略方法對(duì)CYGNSS反演SM進(jìn)行建模學(xué)習(xí)和回歸預(yù)測(cè)的流程.
本文使用2018年的CYGNSS、SMAP和相應(yīng)的實(shí)地參考土壤水分?jǐn)?shù)據(jù)建立學(xué)習(xí)模型,模型的輸入?yún)?shù)包括CYGNSS反射率,并將其視為模型的主要輸入?yún)?shù)(圖3).SMAP 的粗糙度系數(shù)(rou)和植被不透明度值(vod)用作模型的輔助參數(shù),實(shí)地SM數(shù)據(jù)被用作訓(xùn)練和驗(yàn)證所提出的ML方法的真實(shí)參考數(shù)據(jù).根據(jù)SMAP提供的國(guó)際地圈-生物圈計(jì)劃(IGBP)土地類型標(biāo)識(shí)數(shù)據(jù),對(duì)不同土地類型的樣本進(jìn)行分類重組,然后分別使用同類樣本建立若干子模型(例如,土地類型1、2等)進(jìn)行SM建模以及預(yù)測(cè).
將提出的預(yù)分類ML算法結(jié)果與傳統(tǒng)ML回歸進(jìn)行比較,并采用10倍交叉驗(yàn)證(CV)訓(xùn)練和驗(yàn)證所提出的預(yù)分類模型回歸預(yù)測(cè)的可行性,根據(jù)均方根誤差指標(biāo)(RMSE)結(jié)果選擇最佳算法.10倍交叉驗(yàn)證是常用且流行的方法,與其他方法相比,它通常會(huì)產(chǎn)生較少的偏差.因?yàn)樗_保了來(lái)自原始數(shù)據(jù)集的每個(gè)數(shù)據(jù)都有機(jī)會(huì)出現(xiàn)在訓(xùn)練和測(cè)試集中.將整個(gè)數(shù)據(jù)集隨機(jī)分成10個(gè)部分(取決于數(shù)據(jù)大小),然后用9份作為訓(xùn)練集對(duì)模型進(jìn)行擬合,并使用剩余的集合對(duì)模型進(jìn)行驗(yàn)證.記下RMSE作為性能指標(biāo).重復(fù)此過(guò)程,直到第10份用作測(cè)試集.將每次迭代中記錄的RMSE的平均值作為最終評(píng)估性能指標(biāo).
本章對(duì)提出的預(yù)分類機(jī)器學(xué)習(xí)反演算法進(jìn)行了建模以及驗(yàn)證.本文選取了2018年的CYGNSS數(shù)據(jù)及其對(duì)應(yīng)的實(shí)地真實(shí)數(shù)據(jù).基于第2章描述的土壤水分預(yù)測(cè)模型結(jié)構(gòu),對(duì)基于預(yù)分類的各種人工智能算法結(jié)果進(jìn)行分析及驗(yàn)證.
本文采用了不同的傳統(tǒng)ML(RF、SVM、XGBoost)和高級(jí)神經(jīng)網(wǎng)絡(luò)(ANN)算法進(jìn)行土壤水分預(yù)測(cè)的計(jì)算,以及展示了各個(gè)算法在增加了預(yù)分類策略后的效果比較(表1).本文中人工智能算法的選擇基于兩個(gè)原因:其一是此算法已經(jīng)被證實(shí)可用于土壤水分反演并取得了較好的預(yù)測(cè)效果,其二是此算法較為經(jīng)典,運(yùn)用廣泛且執(zhí)行效率較高.根據(jù)SMAP提供的IGBP土地分類,CYGNSS數(shù)據(jù)在中國(guó)區(qū)域共包含7個(gè)類別.通過(guò)使用2018年的數(shù)據(jù)分類建立預(yù)測(cè)模型,展示了所提出的預(yù)分類ML回歸在CYGNSS土壤水分預(yù)測(cè)中的性能.
表1 CYGNSS SM估計(jì)的性能統(tǒng)計(jì)
與傳統(tǒng)的回歸模型比較,SM預(yù)測(cè)效果較好,提出的預(yù)分類(子模型建模)策略方法在所有算法(傳統(tǒng)ML和DL)以及所有土地類型中均取得了良好的效果,使用預(yù)分類策略時(shí)RMSE有了明顯下降.此外,通過(guò)比較不同的ML算法,RF的性能優(yōu)于ANN,這與文獻(xiàn)[18,20]一致.此外,XGBoost的性能最好,RMSE最小為0.062 cm3/cm3.在后續(xù)的分析中,采用預(yù)分類策略的XGBoost作為最優(yōu)預(yù)測(cè)模型,展示CYGNSS SM估計(jì)在土壤水分預(yù)測(cè)和時(shí)空分布方面的表現(xiàn).
圖4 CYGNSS SM反演結(jié)果在訓(xùn)練集(a)和測(cè)試集(b)的密度Fig.4 Density plots of CYGNSS SM retrievals using training (a) and test (b) data
在圖4中,給出了反演SM數(shù)據(jù)測(cè)試集密度的示例來(lái)進(jìn)一步展示CYGNSS 模型預(yù)測(cè)的SM和實(shí)地參考SM數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系.密度圖顯示了使用XGBoost預(yù)分類策略進(jìn)行SM估計(jì)的結(jié)果,其與實(shí)地 SM值有相當(dāng)好的一致性,總體相關(guān)性(R)為0.8.尤其是當(dāng)數(shù)據(jù)最密集時(shí),點(diǎn)的分布沿1∶1線居中.但是,如果數(shù)據(jù)密度較低,則稍稍顯示偏離直線的趨勢(shì).斜率呈下降趨勢(shì),小于1,這意味著CYGNSS預(yù)測(cè)模型在某種程度上低估了SM值.這一現(xiàn)象在之前的研究[16]中也有報(bào)道,原因可能是較高土壤水分的地表通常植被生長(zhǎng)較為茂密,植被含水量也較高,導(dǎo)致多種非相干分量增加、相干分量減少,此時(shí)反射率的變化不足以完整和正確地表達(dá)地表濕度的變化,而且土壤濕度和信號(hào)相干分量具有正相關(guān)的關(guān)系,導(dǎo)致學(xué)習(xí)模型不能正確提取高土壤濕度地表的特征,因此模型預(yù)測(cè)的SM較低.此現(xiàn)象會(huì)在未來(lái)的工作中進(jìn)行進(jìn)一步驗(yàn)證和分析.
本節(jié)采用性能最優(yōu)的預(yù)分類XGBoost算法進(jìn)行土壤水分預(yù)測(cè)的分析,并展示了其在全國(guó)范圍內(nèi)的實(shí)地測(cè)量參考數(shù)據(jù)站點(diǎn)中預(yù)測(cè)土壤水分的分布及其性能.其中表2展示了CYGNSS SM預(yù)測(cè)土壤水分和實(shí)地土壤水分觀測(cè)站SM土壤水分值的性能指標(biāo)值,把全國(guó)土壤水分站按照地表特征以及地域行政區(qū)域劃分為5個(gè)土壤水分網(wǎng)絡(luò).針對(duì)5個(gè)SM網(wǎng)絡(luò)中的真實(shí)地表土壤水分,分別展示其總體和區(qū)域的RMSE和無(wú)偏RMSE(ubRMSE)等性能指標(biāo),有助于與其他研究進(jìn)行對(duì)比和比較[17-19].
表2 基于預(yù)分類的XGBoost算法相對(duì)于現(xiàn)場(chǎng)真實(shí) 測(cè)量SM的總體性能
在表2中,基于預(yù)分類的XGBoost CYGNSS模型反演土壤水分預(yù)測(cè)結(jié)果相對(duì)于真實(shí)參考土壤水分達(dá)到了較高的精確度,總體平均為ubRMSE(0.050 cm3/cm3)和RMSE(0.059 cm3/cm3).此外,不同的區(qū)域主要的土地類型不同,因此預(yù)測(cè)的土壤水分結(jié)果有些許差異.特別是,貴州地區(qū)相對(duì)于其他區(qū)域,其土壤水分預(yù)測(cè)誤差較大,RMSE為0.066 cm3/cm3,ubRMSE為0.057 cm3/cm3.原因可能由于此地區(qū)所含有的主要地表覆蓋是樹(shù)木和森林,且有大量高低起伏的山體.因此,密集的植被和高地特征顯著影響反射信號(hào)中相干分量的接收,這一現(xiàn)象在上一節(jié)中也進(jìn)行了詳細(xì)的闡述.
圖5展示了所有采用的現(xiàn)場(chǎng)觀測(cè)站點(diǎn)及其各自土壤水分預(yù)測(cè)精度的分布.這里我們分別計(jì)算了每日平均CYGNSS土壤水分估計(jì)和真實(shí)參考數(shù)據(jù)之間的精度指標(biāo)RMSE.如上所述,RMSE值的波動(dòng)受到土壤質(zhì)地和周?chē)h(huán)境的影響.一般來(lái)說(shuō),基于CYGNSS預(yù)測(cè)的SM與現(xiàn)場(chǎng)觀測(cè)的真實(shí)土壤水分在絕大多數(shù)的站點(diǎn)都表現(xiàn)出了較高的精確度,進(jìn)一步表明預(yù)分類人工智能CYGNSS方法得到的SM精確度較高,可用于估計(jì)預(yù)期的SM值.
圖5 CYGNSS SM各站點(diǎn)土壤水分反演結(jié)果分布Fig.5 Accuracy distribution of soil moisture retrieved from CYGNSS
本文提出了一種基于預(yù)分類的人工智能CYGNSS數(shù)據(jù)反演土壤水分的方法,以求用較少的輔助變量達(dá)到較好的土壤水分預(yù)測(cè)效果.新的預(yù)分類策略具有高集成度的特點(diǎn),根據(jù)不同的土地類型對(duì)數(shù)據(jù)進(jìn)行預(yù)分類,然后分別對(duì)每個(gè)類別的數(shù)據(jù)進(jìn)行建模學(xué)習(xí),構(gòu)建土壤水分預(yù)測(cè)子模型.對(duì)具有相似特點(diǎn)的同類型土壤質(zhì)地的數(shù)據(jù)集中建模,這一操作有助于最小化不同土地類型給土壤水分預(yù)測(cè)帶來(lái)的影響,能夠幫助機(jī)器學(xué)習(xí)模型更準(zhǔn)確地發(fā)現(xiàn)和提取數(shù)據(jù)特征,進(jìn)而建立更精確的學(xué)習(xí)模型,從而提高土壤水分預(yù)測(cè)值.輸入變量為CYGNSS反射率、SMAP植被不透明度和粗糙度,輸出變量為實(shí)地參考土壤水分值.采用預(yù)分類策略的土壤水分反演結(jié)果與傳統(tǒng)的ML回歸方法進(jìn)行了比較,反演結(jié)果均展現(xiàn)了高準(zhǔn)確度.預(yù)分類策略顯示了更強(qiáng)的預(yù)測(cè)能力,多種典型ML方法在采用預(yù)分類策略時(shí)其RMSE明顯下降.其中,預(yù)分類的XGBoost算法預(yù)測(cè)效果最佳,RMSE為0.062 cm3/cm3,相關(guān)系數(shù)R=0.8.此外,分類結(jié)果顯示不同的地表種類對(duì)土壤水分預(yù)測(cè)精度有影響.值得注意的是,我們發(fā)現(xiàn)CYGNSS預(yù)測(cè)模型在某種程度上低估了SM值.推測(cè)原因可能是由于高土壤水分地區(qū)通常植被較為茂密,植被含水量也較高,非相干分量增加,導(dǎo)致接收的反射信號(hào)相干分量不能夠準(zhǔn)確表達(dá)真實(shí)地表土壤濕度的情況,進(jìn)而致使模型預(yù)測(cè)的SM較低.此現(xiàn)象會(huì)在未來(lái)的工作中進(jìn)行進(jìn)一步驗(yàn)證和分析.此外,本文采用了實(shí)地真實(shí)土壤水分參與建模,其數(shù)據(jù)量較少,今后可采用更大尺度的數(shù)據(jù)進(jìn)行建模,預(yù)計(jì)能更有利于預(yù)分類人工智能算法發(fā)揮作用.本文采用預(yù)分類的人工智能算法反演土壤SM方案,普適性和實(shí)用性較強(qiáng)且應(yīng)用的輔助變量少,學(xué)習(xí)模型的復(fù)雜度低,訓(xùn)練效率高且訓(xùn)練過(guò)程簡(jiǎn)易,同時(shí)預(yù)測(cè)結(jié)果的精度高,其通用性較強(qiáng)也可用于其他的回歸預(yù)測(cè)應(yīng)用研究中.