張亦然,劉廷璽,2*,童新,2,段利民,2,吳宇辰
(1.內(nèi)蒙古農(nóng)業(yè)大學(xué)水利與土木建筑工程學(xué)院,內(nèi)蒙古呼和浩特010018;2.內(nèi)蒙古自治區(qū)水資源保護(hù)與利用重點(diǎn)實(shí)驗(yàn)室,內(nèi)蒙古 呼和浩特010018)
草甸地上生物量能很好地反映草地生長狀況,是牧草產(chǎn)量預(yù)測的重要指標(biāo),高時(shí)效、高精度模擬估算草甸地上生物量,可為合理利用草地資源、平衡牧區(qū)草畜供求關(guān)系、促進(jìn)天然草地畜牧業(yè)發(fā)展提供定量的科學(xué)依據(jù)[1-3]。相較費(fèi)時(shí)費(fèi)力且存在破壞性的傳統(tǒng)地上生物量測量法,遙感技術(shù)則被認(rèn)為是實(shí)效、客觀、準(zhǔn)確地模擬估算草甸地上生物量的一個(gè)重要工具[4]?;谶b感技術(shù)快速模擬估算草甸地上生物量,并建立技術(shù)方法和理論,可進(jìn)一步促進(jìn)草地生態(tài)系統(tǒng)健康評價(jià)和草地資源可持續(xù)利用與管理。
多光譜遙感數(shù)據(jù)在研究草甸地上生物量存在的主要局限性在于其范化的光譜分辨率,這使得植被冠層的詳細(xì)反射特征被掩蓋[5],且針對一定區(qū)域的精準(zhǔn)計(jì)算,效果較差。而高光譜遙感具有連續(xù)波段數(shù)量多、光譜分辨率高等特點(diǎn),可在冠層尺度上提供有關(guān)植被生物理化更詳細(xì)的信息,能可靠地量化草甸地上生物量[6]。且近年來,隨著高光譜遙感技術(shù)的發(fā)展,在土壤養(yǎng)分鹽分監(jiān)測[7]、作物生理生長參數(shù)反演[8]、放牧場利用強(qiáng)度評估[9]等研究中也得到較大的應(yīng)用。故對于一定區(qū)域的冠層尺度上精細(xì)刻畫牧草生物量,運(yùn)用高光譜遙感技術(shù)是極其必要的。
基于高光譜遙感技術(shù)觀測的草甸地上生物量已日益成熟。在方法上大多運(yùn)用多元統(tǒng)計(jì)方法構(gòu)建模擬估算模型[10],并為了進(jìn)一步提高預(yù)測能力及模型的精度,可對植被指數(shù)進(jìn)行優(yōu)化[11]、結(jié)合光譜變換[12]等形式改進(jìn),或利用諸如偏最小二乘法、隨機(jī)森林等機(jī)器學(xué)習(xí)算法對草甸地上生物量進(jìn)行反演估算[13],其效果顯著。近年來,作為一種新興的深度機(jī)器學(xué)習(xí)優(yōu)化算法,極限梯度提升(extreme gradient boosting,XGBoost)算法[14]能適應(yīng)復(fù)雜的非線性關(guān)系,模型具有更佳的并行處理能力,對于如牧草收獲的一定范圍區(qū)域、實(shí)地獲取的野外小樣本數(shù)據(jù)量,可以有效解決在機(jī)器學(xué)習(xí)回歸模型中可能出現(xiàn)的過擬合問題,因此,可作為構(gòu)建一定區(qū)域內(nèi)草甸地上生物量模擬估算模型的有效方法,且多方法協(xié)同應(yīng)用于草甸牧草生物量的研究還較少,這對于高光譜遙感技術(shù)在農(nóng)牧業(yè)中的發(fā)展具有促進(jìn)作用。
綜上考慮,本研究在冠層尺度上,對收獲期前的牧草進(jìn)行高光譜測定與生物量獲取,采用XGBoost算法與光譜變換、優(yōu)化植被指數(shù)法協(xié)同建立草甸地上生物量模擬估算模型。驗(yàn)證XGBoost算法在草甸地上生物量模型構(gòu)建中的可適用性,擴(kuò)展高光譜遙感技術(shù)對區(qū)域性的牧草量化。以期為天然牧草的生物量評估提供科學(xué)參考,同時(shí)提升高光譜遙感在精準(zhǔn)農(nóng)牧業(yè)發(fā)展中的應(yīng)用價(jià)值。
研究區(qū)位于科爾沁沙地東南邊緣,地理坐標(biāo)為122°33′00″-122°41′00″E,43°18′48″-43°21′24″N,面積為55 km2,區(qū)內(nèi)地勢走向?yàn)槲鞲邧|低,南北高,中間低,海拔為184~235 m,地貌類型豐富,主要為沙丘-草甸相間地區(qū),中部為小型湖泊(圖1)。該區(qū)屬半干旱大陸性季風(fēng)氣候,多年平均空氣溫度6.6℃,多年平均降水量389 mm,多年平均蒸發(fā)量(Ф20 cm口徑蒸發(fā)皿)1412 mm。區(qū)內(nèi)農(nóng)牧民以畜牧業(yè)和種植業(yè)為主要生產(chǎn)方式,研究區(qū)南北部沙丘上的灌木草場和湖泊周圍的草甸為牲畜的重要牧草來源。
圖1 研究區(qū)所在位置和試驗(yàn)點(diǎn)布設(shè)Fig.1 Location of the study area and the test sites
采樣點(diǎn)位于區(qū)內(nèi)湖泊北側(cè)草甸草場上的C3和C4站點(diǎn)(圖1),主要植被類型為蘆葦(Phragmites australis)、羊草(Leymus chinensis)、鵝絨委陵菜(Potentilla anserina)和蒲公英(Taraxacum mongolicum)等。鑒于C3站點(diǎn)以南為草甸,以北為農(nóng)田,故以C3站點(diǎn)為起點(diǎn),向南每隔10 m設(shè)定一個(gè)采樣點(diǎn),自南100 m處分別向東、西每隔10 m設(shè)定一個(gè)采樣點(diǎn),共布設(shè)30個(gè)采樣點(diǎn);鑒于C4站點(diǎn)周圍均為草甸,故以C4站點(diǎn)為中心,分別沿東、西、南、北4個(gè)方向,每隔20 m設(shè)定一個(gè)采樣點(diǎn),與站內(nèi)一個(gè)采樣點(diǎn),累計(jì)布設(shè)30個(gè)采樣點(diǎn)。每個(gè)采樣點(diǎn)均用高精度GPS進(jìn)行記錄。
1.2.1 高光譜遙感數(shù)據(jù)采集與處理 使用美國ASD(Analytical Spectral Devices,Inc)便攜式光譜儀Field Spec 4采集天然草甸冠層高光譜反射率數(shù)據(jù),儀器波段范圍350~2500 nm,光譜采樣間隔在波段350~1000 nm時(shí)1.4 nm,在波段1001~2500 nm時(shí)2.0 nm,光譜分辨率分別為3和8 nm。于2019年7月31日對C3、C4兩個(gè)試驗(yàn)點(diǎn)布設(shè)的60個(gè)采樣點(diǎn)進(jìn)行高光譜反射率數(shù)據(jù)的采集,當(dāng)天晴朗、無云、微風(fēng),C4、C3試驗(yàn)點(diǎn)采集時(shí)間分別為10:40-11:50、12:10-13:40。儀器視場角為25°,傳感器探頭垂直向下,距冠層頂高度70~80 cm,設(shè)置平均采集數(shù)為10,對每個(gè)采樣點(diǎn)進(jìn)行2次重復(fù)測量,即每一個(gè)采樣點(diǎn)獲取20個(gè)數(shù)據(jù),測量時(shí)每隔15 min進(jìn)行1次白板優(yōu)化。
利用ASD高光譜數(shù)據(jù)處理軟件ViewSpec Pro對原始光譜數(shù)據(jù)進(jìn)行處理,由于每個(gè)采樣點(diǎn)有20條光譜曲線,首先需進(jìn)行光譜異常篩選,剔除差異較大、錯(cuò)誤的光譜曲線,然后對余下各光譜波段取均值得到最終光譜曲線,最后進(jìn)行平滑去噪、一階與二階光譜微分變化處理。由于草甸地上生物量在可見光至近紅外波段內(nèi)與光譜反射率關(guān)系密切[15-16],且此光譜波段范圍的信噪比低,故本研究選取400~900 nm波段范圍的光譜數(shù)據(jù)進(jìn)行研究。
1.2.2 地上生物量數(shù)據(jù)采集與處理 針對兩站點(diǎn)布設(shè)的60個(gè)采樣點(diǎn),運(yùn)用地物光譜儀測定牧草冠層光譜反射率,根據(jù)儀器視場角的投影范圍確定齊地刈割牧草的樣方大小,范圍為0.3~0.5 m2,現(xiàn)場稱其鮮重,并帶回實(shí)驗(yàn)室,在105℃殺青30 min,65℃烘干至恒重后稱重,計(jì)算地上生物量(aboveground biomass,AGB,g·m-2)[17]。
運(yùn)用Sklearn庫中的互信息回歸(feature_selection.mutual_info_regression)法分析光譜反射率和光譜指數(shù)與生物量之間的線性、非線性關(guān)系。互信息度取值范圍為[0,1],等于0時(shí),表示兩個(gè)變量之間相互獨(dú)立,等于1時(shí)則表示兩個(gè)變量完全相關(guān)[18]。
先將不同階數(shù)高光譜反射率與草甸地上生物量進(jìn)行相關(guān)性分析,尋找與地上生物量有相關(guān)性的波段。然后將各階全波段光譜反射率代入到常用的7個(gè)植被指數(shù)公式中(表1),挑選出最優(yōu)波段組合用以構(gòu)成不同階全波段高光譜植被指數(shù),最后將不同階植被指數(shù)組合構(gòu)成3個(gè)輸入變量數(shù)據(jù)集,利用多元統(tǒng)計(jì)與機(jī)器學(xué)習(xí)方法對地上生物量進(jìn)行模擬,建立高光譜植被指數(shù)與草甸地上生物量反演估算模型。
表1 植被指數(shù)及相關(guān)計(jì)算公式Table 1 Vegetation indexes and related formula
在python 3.7的編程環(huán)境下,通過Sklearn與XGBoost程序庫構(gòu)建了多元線性回歸(multiple linear regression,MLR)、隨機(jī)森林(random forest,RF)和極限梯度提升(XGBoost)3種地上生物量反演估算模型。所建各模型的輸入變量共構(gòu)建3個(gè)數(shù)據(jù)集,數(shù)據(jù)集1、2、3分別由基于原始(零階微分)、一階微分、二階微分光譜反射率計(jì)算的7個(gè)最優(yōu)高光譜植被指數(shù)組成。
1.4.1 多元線性回歸模型 多元線性回歸(MLR)是遙感反演最基礎(chǔ)的方法之一。由多元線性回歸方法構(gòu)建的地上生物量反演模型稱作MLRM模型。算法原理如下:
式中:yipred為地上生物量估算值;{β1,…,βi}為回歸系數(shù);{x1,…,xi}為輸入變量集,即不同類型光譜植被指數(shù)集。
1.4.2 隨機(jī)森林模型 隨機(jī)森林(RF)是對大量分類數(shù)匯總的集成算法。由隨機(jī)森林方法構(gòu)建的地上生物量反演模型稱作RFM模型。對于不平衡數(shù)據(jù)集來說,隨機(jī)森林法可以平衡誤差[26]。算法原理如下:樹的集合為{ht,t=1,2,…,Ntree},對待測樣本輸入變量集xi,回歸樹ht輸出ht(xi)
1.4.3 極限梯度提升模型 極限梯度提升(XGBoost)是在傳統(tǒng)的Boosting基礎(chǔ)上,利用中央處理器(central processing unit,CPU)的多線程,引入正規(guī)化項(xiàng),進(jìn)一步控制了模型的復(fù)雜度[14]。由XGBoost算法構(gòu)建的地上生物量反演模型稱作XGBM模型。XGBoost的集成模型通過K(樹的數(shù)目)個(gè)基模型組成一個(gè)加法運(yùn)算式來預(yù)測最終結(jié)果:
式中:zt表示第t棵樹的目標(biāo)函數(shù),表示前t-1棵樹的輸出值之和,ft(xi)表示第t棵樹的輸出結(jié)果,l是一個(gè)用來衡量預(yù)測值yipred和真實(shí)值yi之間差異的可微凸目標(biāo)函數(shù),γ(fk)是表示模型復(fù)雜度的懲罰項(xiàng),ε是表示葉子數(shù)據(jù)的正則化參數(shù),?是表示葉子權(quán)重的正則化參數(shù),ω是表示葉子節(jié)點(diǎn)的取值。將損失函數(shù)在處利用泰勒公式展開:
其中,
將正項(xiàng)代入式(5)得
對XGBoost來說,葉子權(quán)重就是所在葉子節(jié)點(diǎn)上的樣本在這棵樹上的回歸值,一般用ω表示。定義Ij={i|q(xi)=j}為第j個(gè)葉子節(jié)點(diǎn)上的樣本集合,,其中,ωj表示葉子節(jié)點(diǎn)j的權(quán)重。將每個(gè)葉子的一階梯度統(tǒng)計(jì)量和二階梯度統(tǒng)計(jì)量求和,即。則式(6)可改寫為:
由式(7)可以得出葉子節(jié)點(diǎn)權(quán)重的計(jì)算公式為:
將式(8)帶入式(7),得:
為提升模型的模擬反演精度,在構(gòu)建XGBM模型前,需對參數(shù)進(jìn)行合理調(diào)整,具體的調(diào)參過程如下。
1.5.1 弱評估器的數(shù)量 XGBoost算法中的弱評估器數(shù)量(t)是影響最終模型精度的首要參數(shù),如果弱評估器數(shù)量過多,會導(dǎo)致模型過擬合且運(yùn)算速度下降。由學(xué)習(xí)曲線(圖2)可知,數(shù)據(jù)集1弱評估器數(shù)量為0~30,平均絕對誤差(mean absolute error,MAE)值急劇下降,在37處MAE為最低值,之后逐漸趨于平穩(wěn),故數(shù)據(jù)集1取最佳弱評估器的數(shù)量為37個(gè)。按照相同原則,數(shù)據(jù)集2、3下的弱評估器數(shù)量最終分別取55和42個(gè)。
1.5.2 其他參數(shù)的調(diào)節(jié) 通過學(xué)習(xí)曲線及網(wǎng)格搜索優(yōu)化出步長(learning_rate)、樹的最大深度(max_depth)、最小葉子權(quán)重(min_child_weight)、最小損失函數(shù)下降值(gamma)等每組訓(xùn)練集的關(guān)鍵參數(shù),參數(shù)優(yōu)化結(jié)果如下:當(dāng)輸入變量為數(shù)據(jù)集1時(shí),步長為0.41,樹的最大深度為2,最小葉子權(quán)重為2,最小損失函數(shù)下降值為0.02;為數(shù)據(jù)集2時(shí)步長為0.10,樹的最大深度為2,最小葉子權(quán)重為4,最小損失函數(shù)下降值為0.03;為數(shù)據(jù)集3時(shí)步長為0.11,樹的最大深度為1,最小葉子權(quán)重為1,最小損失函數(shù)下降值為0.07。
圖2 學(xué)習(xí)曲線Fig.2 Learning curves
模型精度評價(jià)采用均方根誤差(root mean square error,RMSE)、平均絕對誤差(MAE)、Nash效率系數(shù)(Nash-Sutcliffe efficiency coefficient,NSE)[27]和 一 致性指數(shù)(index of agreement,d)[28]4個(gè)指標(biāo)來評價(jià)。計(jì)算公式分別為:
式中:yi為地上生物量的實(shí)測值;為地上生物量實(shí)測值的平均值;yipred為地上生物量的估算值;i為采樣點(diǎn)號,m為樣本數(shù)量。Nash效率系數(shù)可反映模型預(yù)測值與實(shí)測值之間的接近程度,取值為-∞~1,一致性指數(shù)是對基于相關(guān)性的精度評價(jià)系數(shù)的一種改進(jìn),取值為0~1。當(dāng)RMSE、MAE值越小,NSE、d越接近1時(shí),表示模型的精度越高。
采用互信息回歸法分別對試驗(yàn)區(qū)草甸地上生物量與原始、一階與二階微分冠層光譜反射率進(jìn)行相關(guān)性分析,其中,互信息度用以表示相關(guān)性,互信息度越大,則相關(guān)性越強(qiáng)(圖3)。
圖3 草甸地上生物量與各類高光譜反射率的相關(guān)性Fig.3 Correlation analysis of the hyperspectral reflectance and AGB using the mutual information method
原始、一階微分、二階微分光譜反射率與草甸地上生物量具有相關(guān)的波段數(shù)分別為284、221和265個(gè)(圖3),均占總波段數(shù)的近3/5,表明同原始光譜反射率一樣,一、二階微分光譜反射率都與草甸地上生物量有一定的相關(guān)性。原始、一階微分、二階微分光譜與地上生物量的互信息度最大值依次變大,分別為0.2382、0.2451和0.2615)(圖3)。盡管二階微分光譜反射率與草甸地上生物量相關(guān)性波動(dòng)較其余兩者都大,但整體來看3者的互信息度均不高,因此有必要對原始以及微分變換后的光譜反射率數(shù)據(jù)進(jìn)行波段選擇,構(gòu)建高光譜植被指數(shù)對地上生物量的模擬估算模型。
在選取的400~900 nm光譜波段范圍內(nèi),將每一波段原始、一階以及二階微分反射率光譜值分別以歸一化植被指數(shù)(NDVI)、比值植被指數(shù)(RVI)、土壤調(diào)節(jié)植被指數(shù)(SAVI)、優(yōu)化土壤調(diào)節(jié)植被指數(shù)(OSAVI)、增強(qiáng)型植被指數(shù)2(EVI2)、重歸一化植被指數(shù)(RDVI)、修改型土壤調(diào)節(jié)植被指數(shù)(MSAVI)7個(gè)植被指數(shù)的形式進(jìn)行組合(表2),采用互信息回歸法計(jì)算互信息度,圖4~6給出了基于原始、一階和二階微分光譜植被指數(shù)與草甸地上生物量的相關(guān)性矩陣。綜合來看,無論是原始光譜反射率還是一、二階微分光譜反射率,基于歸一化植被指數(shù)(NDVI)與比值植被指數(shù)(RVI)計(jì)算所得的相關(guān)性矩陣圖形式上十分相似。而基于其余5種植被指數(shù)計(jì)算得到的相關(guān)性矩陣圖形式也大體一致?;谠脊庾V反射率的植被指數(shù)與草甸地上生物量相關(guān)性矩陣圖中,較高的互信息度呈面狀分布、區(qū)域上較完整連續(xù),而一、二階微分光譜反射率植被指數(shù)與地上生物量相關(guān)性矩陣圖中,較高的互信息度卻呈破碎的斑塊狀,同時(shí)破碎程度隨著階數(shù)的增加而增加。原始光譜反射率的植被指數(shù)中,NDVI、RVI、SAVI及OSAVI與草甸地上生物量的互信息度最大值達(dá)到0.4以上,其余植被指數(shù)互信息度最大值也超過0.32(圖4)。一階微分光譜反射率植被指數(shù)與地上生物量的互信息度均達(dá)到0.5以上(圖5)。二階微分光譜反射率植被指數(shù)與地上生物量的互信息度較一階微分植被指數(shù)有所下降,但相關(guān)系數(shù)最大值也均在0.32以上(圖6)。最優(yōu)光譜植被指數(shù)及其對應(yīng)的波段組合見表2。
表2 最優(yōu)植被指數(shù)及其波段組合Table 2 Optimal vegetation indexes against AGB and the corresponding band combinations
基于原始光譜反射率構(gòu)建的不同最優(yōu)植被指數(shù)除EVI2(波段組合為769 nm近紅外、746 nm紅邊)外,其余植被指數(shù)均為紅邊與近紅外波段的組合形式(表2)?;谝浑A微分光譜反射率構(gòu)建的最優(yōu)SAVI、OSAVI、EVI2和MSAVI波段組合完全相同,均為527 nm綠光波段、751 nm近紅外波段的形式。基于二階微分光譜反射率構(gòu)建的不同最優(yōu)植被指數(shù)均為綠光或者藍(lán)光與紅邊波段的組合形式,其中,530 nm綠光波段與740 nm紅邊波段組合最多。就與草甸地上生物量的相關(guān)性互信息度而言,基于一階微分光譜反射率計(jì)算的各最優(yōu)植被指數(shù)最高,原始與二階微分光譜反射率次之,且均高于基于單一波段的互信息度,說明構(gòu)建全波段范圍最優(yōu)植被指數(shù)能夠有效提升高光譜反射率數(shù)據(jù)與地上生物量的相關(guān)性,通過光譜微分變換處理后構(gòu)建的最優(yōu)植被指數(shù)在很大程度上優(yōu)于原始光譜反射率構(gòu)建的植被指數(shù)。
圖4 基于原始高光譜反射率的植被指數(shù)與草甸地上生物量的相關(guān)性矩陣Fig.4 Correlation matrix plots of the original all available wavebands vegetation indexes and aboveground biomass(AGB)using the mutual information method
圖6 基于二階微分高光譜反射率光譜的植被指數(shù)與草甸地上生物量相關(guān)性矩陣Fig.6 Correlation matrix plots of the second-order differential all available wavebands vegetation indexes and AGB using the mutual information method
基于構(gòu)建的3組輸入變量數(shù)據(jù)集,采用MLR、RF以及XGBoost算法進(jìn)行草甸地上生物量模擬估算模型的構(gòu)建,基于每個(gè)數(shù)據(jù)集的3類模型估算及評價(jià)結(jié)果示于圖7。
針對同一個(gè)算法所構(gòu)建的模型而言,MLRM模型綜合表現(xiàn)最好的輸入變量為數(shù)據(jù)集3(圖7),但其NSE(0.40)低于數(shù)據(jù)集2(0.67),圖中表現(xiàn)的一致性程度較差。而RFM模型和XGBM模型下的最佳輸入變量均為數(shù)據(jù)集1,其次分別為數(shù)據(jù)集2、數(shù)據(jù)集3,即輸入變量為原始光譜植被指數(shù)時(shí),兩個(gè)機(jī)器學(xué)習(xí)算法所構(gòu)建的模型精度最佳,同時(shí)也說明微分處理后的光譜植被指數(shù)在機(jī)器學(xué)習(xí)模型中反而會降低模型的精度。
針對同一輸入變量數(shù)據(jù)集,MLR模型估算值與實(shí)測值較其他兩個(gè)模型在1∶1線旁分布離散,且在數(shù)據(jù)集1下這種差異性最為明顯,說明MLR模型整體的精度最低、模擬效果最差,這可能是由于光譜反射率與生物量之間并不存在純粹的線性關(guān)系;也反映出MLR方法并不能解決輸入變量的多重共線性問題。而XGBM模型與RFM模型實(shí)測值與預(yù)測值的分布在圖中表現(xiàn)較相似,但XGBM模型的RMSE、MAE值均最?。?40.26 g·m-2、97.20 g·m-2),NSE、d值均最接近于1(0.81、0.94),因此,XGBM模型模擬估算草地地上生物量較穩(wěn)定,且精度較高。由此可見,當(dāng)輸入變量為數(shù)據(jù)集1時(shí),基于XGBoost算法構(gòu)建的草甸地上生物量模擬估算模型精度最佳。
地面遙感可近距離采集植被冠層的光譜信息,且可以捕捉到真實(shí)的草甸植被光譜特征[29],通過對冠層原始光譜反射率進(jìn)行一階、二階微分處理,對比分析發(fā)現(xiàn),與已有研究相同,微分變換可突出顯示光譜信息之間的差異,消除背景噪聲[30],使得與地上生物量的相關(guān)性得到很大程度地提升。但基于二階微分變換后的光譜與地上生物量的相關(guān)性波動(dòng)較大,可能受群落植被組成及其周圍環(huán)境的影響所致。
圖7 不同模型估算及評價(jià)Fig.7 Results of each model with related accuracy parametersRMSE、MAE、NSE、d分別代表均方根誤差、平均絕對誤差、Nash效率系數(shù)、一致性指數(shù)。RMSE,MAE,NSE and d respectively represent root mean square error,mean absolute error,Nash-Sutcliffe efficiency coefficient and index of consistency.
植被指數(shù)法作為高光譜遙感技術(shù)提取植被生物理化信息的一個(gè)重要工具,常選擇不同光譜波段進(jìn)行組合運(yùn)算,使得植被信息的提取得到進(jìn)一步強(qiáng)化[31-32]。與上述結(jié)論相同,本研究優(yōu)化后的植被指數(shù)與地上生物量的相關(guān)性顯著提高,且冠層光譜與生物量之間具有更高的穩(wěn)定性。原因在于高光譜連續(xù)波段的不同組合可以提供必要和潛在的植被特征信息,進(jìn)而量化植被的生物理化參數(shù)[33]。但在之后的機(jī)器學(xué)習(xí)模型建立中原始光譜植被指數(shù)反而表現(xiàn)最佳,首先歸因于紅邊位置對葉綠素含量和結(jié)構(gòu)變化的敏感性較強(qiáng)[34],且有研究表明,紅邊區(qū)域包含的光譜信息能表征87 %的地上生物量等信息[35],其次,可能由于機(jī)器學(xué)習(xí)算法能較好地捕捉到變量間的非線性關(guān)系及模型在調(diào)整參數(shù)上存在的一定誤差所致。
機(jī)器學(xué)習(xí)算法用于遙感建模已炙手可熱[36],選擇合適的算法有利于遙感估算精度的提高。在植被生物理化參數(shù)模型構(gòu)建中,利用機(jī)器學(xué)習(xí)構(gòu)建的模型顯著優(yōu)于基于傳統(tǒng)線性回歸方法所構(gòu)建的模型[37]。本研究結(jié)果與其一致,說明,一方面線性回歸方法不能有效明晰輸入變量與生物量之間的正確關(guān)系;另一方面由于線性回歸方法不能進(jìn)行深度的數(shù)據(jù)挖掘?qū)W習(xí)。而機(jī)器學(xué)習(xí)算法具有更高的準(zhǔn)確性與魯棒性。本研究中XGBoost算法在地上生物量模型的構(gòu)建中表現(xiàn)更出色,可進(jìn)一步優(yōu)化模型中變量的局限性,使模型整體更趨于穩(wěn)定,對于利用衛(wèi)星遙感監(jiān)測草地生物量具有重要的指導(dǎo)意義。但在普適性方面,由于本研究樣本數(shù)量較少,可能會造成研究區(qū)其他草甸草地的異值沒有涵蓋,且對于時(shí)間尺度來說,要考慮到不同豐水年、枯水年的生物量值,這在后續(xù)研究中需進(jìn)一步驗(yàn)證,可為XGBM模型在草甸地上生物量反演中提供更全面的信息,實(shí)現(xiàn)區(qū)域尺度的多源數(shù)據(jù)協(xié)同發(fā)展,更好地為農(nóng)牧業(yè)監(jiān)測、生態(tài)系統(tǒng)管理提供技術(shù)支持。
本研究分析了多方法協(xié)同應(yīng)用的高光譜數(shù)據(jù)與草甸地上生物量的相關(guān)性,探討了運(yùn)用XGBoost算法在草甸地上生物量模擬估算中的適用能力,并與RF、MLR法構(gòu)建的草甸地上生物量模擬估算模型進(jìn)行對比分析。得出以下結(jié)論:
1)對植被冠層原始光譜反射率進(jìn)行一階、二階微分及光譜植被指數(shù)變化可以提高冠層光譜與地上生物量的相關(guān)性。2)在MLRM模型中,最佳輸入變量為基于二階微分反射率的光譜植被指數(shù);在RFM模型與XGBM模型中,最佳輸入變量為基于原始反射率的光譜植被指數(shù)。3)整體而言,基于XGBoost算法構(gòu)建的模型精度最高(RMSE為140.26 g·m-2,MAE為97.20 g·m-2,NSE為0.81,d為0.94),在估算草甸地上生物量方面表現(xiàn)出良好的準(zhǔn)確性,且優(yōu)化了模型的復(fù)雜度,提高了效率,為區(qū)域性草甸地生物量反演提供了新的方法。