胡建錦,熊 偉,方陸明,吳達勝
(1. 浙江農林大學 a. 數學與計算機科學學院;b. 浙江省林業(yè)智能監(jiān)測與信息技術研究重點實驗室;c. 林業(yè)感知技術與智能裝備國家林業(yè)和草原局重點實驗室,浙江 杭州 311300;2. 龍泉市林業(yè)局,浙江 龍泉 610100)
森林蓄積量作為林業(yè)科學研究和森林環(huán)境評價的重要指標,在點評森林資源總量與品質以及對森林運營管理和環(huán)境保護中都起到關鍵作用[1-2]。應對當前氣候變化,我國提出到2030年前二氧化碳排放量達到高峰,爭取2060年前達到碳中和,其中,森林蓄積量將比2005年增加60 億m3,蓄積量的增加也提高了森林碳匯能力。所以,精準地估測森林蓄積量是實現我國“雙碳”目標的一個重要理論依據。目前森林蓄積量評估大多數是由人工測量得到,估測成本比較大。Landsat-8 是由NASA 發(fā)射于2013年具有高分辨率的新型遙感衛(wèi)星,帶有兩個傳感器(陸地成像儀傳感器和熱紅外傳感器),是目前應用比較普遍的遙感衛(wèi)星之一。當前,隨著衛(wèi)星遙感技術的不斷發(fā)展,結合地面測量的數據用機器學習模型估測森林蓄積量,是未來森林蓄積量的主流估測方法之一。衛(wèi)星遙感技術估測森林蓄積量的研究常有兩個方面的應用:一是用不同的衛(wèi)星圖像源來做森林蓄積量的估測[3-4];二是使用不同的估測模型,比較成熟的有線性模型算法和非線性模型算法(如人工神經網絡[5-6]、隨機森林[7-8]、KNN[9]、梯度提升[10]等)。Catboost 算法[11-13]是2017年國際上提出的一個新的開源的機器學習庫[14-15],在魯棒性方面表現優(yōu)越,它主要減少了對很多超參數調優(yōu)的需求,并降低了過度擬合的機會,這也使得模型變得更加具有通用性。該算法常應用在工業(yè)界,在林業(yè)科學領域中的研究還較少。
本研究基于距離相關系數的特征提取方法,采用多源數據,包括Landsat-8 遙感衛(wèi)星影像數據、森林資源二類調查數據以及數字高程模型(DEM)3 種數據結合,運用Catboost 模型對龍泉市[16-18]區(qū)域進行森林蓄積量的估測,在森林蓄積量中給出一種新的估測模型,能為我國實現“雙碳”目標提供一定的理論依據。
龍泉市(27°42'~28°20'N,118°42'~119°25'E)是我國著名的青瓷之都、寶劍之邦、靈芝第一鄉(xiāng),也是世界香菇栽培發(fā)源地,轄4 個街道8 個鎮(zhèn)7 個鄉(xiāng),人口29 萬(2017年統(tǒng)計),東西寬約70.25 km,南北長約70.80 km,總面積3 059 km2左右,浙江第二大縣級市,還是國家歷史文化名城。森林的覆蓋率達到84.3%,覆蓋面積將近25.72 hm2,森林蓄積量也高達1 912 萬m3,生態(tài)環(huán)境質量上乘。
本研究采用龍泉市多源數據,包括2017年11月份的Landsat-8 對地觀測衛(wèi)星影像數據以及2017年森林資源二類調查數據,還有2009年的數字高程模型(DEM)數據。
本研究把單位蓄積量作為估測指標,森林資源小班作為研究單元,運用前人的研究方法[19-21],把Landsat-8 衛(wèi)星遙感影像數據進行6 個步驟的預處理(輻射定標、大氣校正、正射校正、幾何校正、圖像融合、鑲嵌剪裁),處理結果如圖1 所示。
圖1 龍泉市Landsat-8 遙感影像預處理結果Fig. 1 Remote sensing in Longquan city
首先從Landsat-8 遙感影像中提取共11 個自變量因子,包含6 個波段數據(B2、B3、B4、B5、B6、B7),以及通過波段計算獲得5 個指數數據(歸一化植被指數、增強型植被指數、差值植被指數、紅色指數、比值植被指數)(表1)。由于第1 波段屬于海岸觀測波段,在本研究中并不適用且影響作用很小;第8 波段是全色波段紋理數據,不予考慮;第9 波段屬于卷云波段,而研究區(qū)所使用的一景Landsat-8 影像云量為0,對本研究影響非常小,促使該波段灰度值趨于0。所以將B1、B8、B9 剔除出自變量因子選擇的范圍。然后從二調數據中獲取4 個自變量因子,包括腐殖質厚度、土層厚度、年齡和郁閉度(FU_ZHI_HD、TU_CENG_HD、NL、YU_BI_DU); 最后從DEM 數據中提取3 個自變量因子,分別是坡度、坡向和海拔(PO_DU、PO_XIANG、HAI_BA)。
表1 植被指數計算公式Table 1 Formulas of the vegetation index
將收集的18 個自變量因子作為候選數據,加入森林小班樣本記錄中,選取在數據中占比最多的杉木、針葉混交林、馬尾松3 個優(yōu)勢樹種作為估測樣本。過濾掉蓄積量為0、RVI 指數大于30、EVI 小于0 的小班點以及其他缺少需要信息數據的小班點等,最終剩余23 499 個小班數據,參與之后的估測算法試驗。之后隨機按照9∶1 的比例對訓練集和測試集進行劃分,21 349 個小班數據作為訓練樣本,剩余的2 150 個小班數據作為測試樣本進行模型的估測。
假如將全部的候選自變量都用來練習模型,則會造成信息冗余,而且促使模型的可解釋性減少,因而要對所獲取的建模因子進行合理挑選。
當前普遍作為數據特征提取的方法為Pearson相關系數法。但它有一個明顯缺陷是作為特征排序機制時,只對線性關系敏感。如果關系是非線性的,即便兩個變量具有一一對應的關系,Pearson 相關性也可能會接近0。所以,本次研究使用距離相關系數(DC)特征選擇方法來提取出優(yōu)勢的特征因子。它不管對變量間線性還是非線性都非常適合,也不受其他參數或者模型的限制。距離相關系數的公式如式(1)所示:
同理計算dcov(u,u)和dcov(v,v)。
KNN 算法是非常成熟的非線性算法之一。該算法通過數據對特征向量空間進行劃分,計算出新數據與數據集中心點的距離,該距離是指歐式距離或者曼哈頓距離,根據距離遞增次序進行排序,返回K個點的加權值作為預測值。
Bagging 是集成算法中的一個分支,該算法對于回歸分析問題,通常使用簡單平均法,再對結果進行算術平均得到最終的模型輸出。主要思路是:給定大小為M的訓練集S,算法從S中自助抽樣取出m個大小為M的子集Si作為新的訓練集。這m個訓練集分布訓練出結果,最后取所有結果的平均值或多數投票等策略算出結果。目前,Bagging 算法在機器學習領域已經獲得較好的應用表現。
LGBM 集成算法是GBDT 算法實現框架之一。優(yōu)點是高效率的并行訓練,而且訓練速度快、內存消耗少、準確率高、支持分布式等。LGBM 在傳統(tǒng)的GBDT 算法上進行如下改進:第一,計算是基于Histogram 的決策樹;第二,使用單邊梯度采樣(GOSS),這樣降低許多只存在于小梯度上彌散的樣本數據,減少時空上的浪費;第三,帶深度限制的leaf-wise 的葉子生長策略;第四,直接支持類別特性;第五,支持高效并行和cache 命中率優(yōu)化等。
Catboost 是GBDT 算法中一種新型的機器學習模型,以對稱樹為弱學習器,使用GBDT 進行分類。對比之前的GBDT 相關算法,如Gboost 和Adaboost 等,Catboost 算法在準確性和泛化能力方面都有顯著提升,特別是在處理大量數據和特征的時候。假設把每次迭代的目標函數定義為:
1)把訓練集中每個樣本Ni,去掉Ni的訓練集獨自訓練一個模型Mi;
2)用模型Mi計算樣本Ni上的梯度估計;
3)提取新模型重新對樣本Ni估測,從而得出基學習器;
4)對基學習器加權反復計算,從而獲得強學習器。反復進行迭代,目的是減小目標函數hk關于訓練數據的損失,即減小模型在訓練集的預誤差,從而對抗訓練集中的噪聲點,進而解決預測偏移的問題。
本研究運用10 折交叉驗證法(10-fold Cross Validation)來評估精度。采用決定系數、平均百分比誤差、估測精度、均方誤差、平均絕對誤差(R2、MAPE、P、MSE、MAE)5 個指標來評價模型。
本試驗依靠蓄積量和各個特征之間的距離相關系數(DC)關系將所有特征因子進行排序,從首個特征因子開始逐步加入KNN 模型中估測,選取該模型的決定系數(R2)最大時候的特征因子組合。最終結果由8 個特征因子組合,結果見表2。
表2 變量選擇結果Table 2 Variable selection results
2.2.1 4 種方法結果分析
基于距離相關系數篩選的特征因子組合數據作為模型的輸入,并且數據都經過歸一化處理,單位蓄積量作為模型的輸出。在估測評估中,采用KNN 方法、Bagging 方法、LGBM 方法與Catboost 方法進行對比,建模結果見表3 和圖2,估測結果見表4 和圖3。
表3 4 種方法的蓄積量建模評價指標Table 3 Stock volume modeling evaluation index of the four methods
表4 4 種方法的蓄積量估測評價指標Table 4 Stock volume estimating evaluation index of the four methods
圖2 4 種方法的蓄積量建模結果Fig. 2 Volumetric modeling results of the four methods
圖3 4 種方法的蓄積量估測結果Fig. 3 Predicted volume results of the four methods
圖2d 和圖3d 是Catboost 蓄積量建模和估測得到的結果模型。由表3 ~4 可知,Catboost 蓄積量建模模型的精度P與估測模型的精度P在這次研究中最佳,分別是81.43%和76.74%。Bagging 方法以及LGBM 方法的建模精度P和估測精度P也非常好,分別達到了71.83%和70.24%與72.63%和70.11%,并且建模精度與估測精度都比傳統(tǒng)的KNN 方法表現得更好。與KNN 方法、Bagging 方法、LGBM 3 種模型對比,基于Catboost 方法的森林蓄積量估測在建模和估測結果中的決定系數R2都高于其他3 種模型,分別達到了0.70 和0.69。其中2 種非線性集成算法Bagging 方法的精度P是70.24%,LBGM 算法的精度P是70.11%,最低的是常用模型KNN 方法的精度P(62.02%),說明非線性集成算法在森林蓄積量估測中效果表現更好,特別是Catboost 模型算法在森林蓄積量估測中表現最佳。在模型估測中,4 種方法中3 種集成算法的精度P值都高于70%,對龍泉市的森林蓄積量的估測有較大的實際參考意義。
與前人研究對比,Catboost 方法建模最高精度達到81.43%,估測最高精度達到76.74%,比文獻[22]基于SVM 方法的高山松林蓄積量遙感估測研究的估測精度為76.6%和文獻[23]基于Landsat-8 遙感影像的森林蓄積量估測的精度74.42%都要高;其中最重要的性能指標的決定系數R2,Catboost建模模型達到0.70,比文獻[24]基于Landsat-8 遙感影像的旺業(yè)甸林場蓄積量估測模型研究中的隨機森林模型的決定系數R2(0.66)更高。
2.2.2 Catboost 方法進行蓄積量建模與估測結果分析
本研究的樣本共23 499 個小班數據,按3 種優(yōu)勢樹種杉木、針葉混交林和馬尾松來劃分,獲得13 608 個杉木數據、7 567 個針葉混交林數據、2 324 個馬尾松數據。之后3 種優(yōu)勢樹種分別隨機按照9∶1 的比例進行劃分訓練集和測試集,選取之前表現最好的Catboost 算法模型進行估測,再與未劃分樹種情況下的最好估測結果進行對比。Catboost 方法建模結果見表5 和圖4,估測結果見表6 和圖5。
表5 3 個樹種基于 Catboost 的蓄積量建模性能指標Table 5 The forest stock estimation performance index of Catboost-based modelling of the three tree species
表6 3 種樹種基于Catboost 的蓄積量估測性能指標Table 6 The forest stock estimation performance index of Catboost-based modelling of the three tree species
圖4 劃分杉木、針葉混交林、馬尾松情況下的基于Catboost 的蓄積量建模結果Fig. 4 Catboost-based modelling results of estimating forest stock by distinguishing Chinese fir and coniferous mixed forest and Masson pine
圖5 劃分杉木、針葉混交林、馬尾松情況下的基于Catboost 的蓄積量估測結果Fig. 5 Catboost-based estimation results of forest stock by distinguishing Chinese fir and coniferous mixed forest and Masson pine
由于3 種優(yōu)勢樹種樣本量不同,模型的建模精度和估測精度按數量權重相加得出。其中3 種樹種集合的建模精確度為81.43%(表3),估測精度為76.74%(表4)。而分樹種各自估測按數量權重相加后建模精度為81.85%,估測精確度為77.75%。區(qū)分3 個優(yōu)勢樹種情況下,按數量權重相加后建模精確度提升不明顯,但是估測精確度提高了1.01%。其中建模精確度表現最好的是馬尾松,達到了90.11%,但是估測精確度表現最好的是針葉混交林,達到了82.56%。杉木和馬尾松的估測效果稍微差些,這可能是在總樣本中3 個優(yōu)勢樹種選擇的樣本分布不一致所導致的。
本研究基于龍泉市2017年森林二調小班數據和landsat-8 遙感影像、數字高程模型(DEM)數據,使用距離相關系數方法進行特征提取,并且結合K 最鄰近(KNN)方法、裝袋(Bagging)方法、決策樹梯度提升(LGBM)方法和梯度增強集成分類器(Catboost)方法估測森林蓄積量模型。結果表明,基于距離相關系數的特征提取方法結合Catboost 模型估測森林蓄積量是可行的,并且建模和估測的精確度較KNN 方法、Bagging 方法和LGBM 方法提高顯著,進一步表明非線性集成算法和衛(wèi)星遙感影像結合是對森林蓄積量估測的有效方法之一。其中未區(qū)分樹種情況下建模精度為81.43%,估測精度為76.74%。而在不同樹種按數量權重相加計算情況下,建模精度差別不大,估測精度提高了1.01%,其中針葉混交林表現最好,估測精度達到了82.56%。
運用Catboost 算法作為區(qū)域的森林蓄積量估測模型,采用森林資源二類調查數據和Landsat-8遙感影像數據以及數字高程模型,結合距離相關系數方法進行特征提取,可以表現出更好的估測效果,也能更進一步說明非線性的集成算法結合高分遙感影像數據在森林蓄積量估測方面比傳統(tǒng)的線性算法有更好的效果。Catboost 模型在實踐估測中容易使用,也能在短時間內給森林蓄積量預測提供一種高準確率的可能性,但是每種算法都有優(yōu)點與不足,本試驗只是選取了4種算法作對比,并且本次研究數據只局限在單一的縣區(qū),之后可以嘗試加入更多的特征因子來作篩選(比如紋理因子等)。后續(xù)將基于距離相關系數的特征選擇的Catboost 模型算法進行不同地區(qū)的森林蓄積量估測,以此來研究驗證此方法的普適性,以便更好地指導林業(yè)生產實踐。