龔慧軍 陳菊 熊偉華 王昊
(留壩縣天然林保護(hù)工程管理中心,陜西·留壩縣,724100) (留壩縣桑元林場) (留壩縣林業(yè)站) (留壩縣天然林保護(hù)工程管理中心)
森林是陸地最重要的生態(tài)系統(tǒng),也是地球中最大的有機(jī)碳庫[1-2]。在中國西北地區(qū),森林對生態(tài)環(huán)境的建設(shè)具有重要作用[3-4]。森林蓄積量是森林經(jīng)營的重要內(nèi)容,森林的結(jié)構(gòu)參數(shù)是準(zhǔn)確的估測森林蓄積量的基礎(chǔ),對于森林的經(jīng)營管理有著重要的意義。
目前,森林蓄積量的獲取主要是通過人工實(shí)地測量獲取,人工實(shí)地測量不僅費(fèi)時(shí)費(fèi)力,而且效率低下。隨著遙感技術(shù)的發(fā)展,可獲取的遙感數(shù)據(jù)越來越豐富,利用遙感圖像獲取大范圍、長時(shí)間的森林空間信息可以有效的提高森林資源調(diào)查的效率[5]。因此,將遙感數(shù)據(jù)與地面實(shí)測數(shù)據(jù)進(jìn)行建模,從而推演出大尺度的森林蓄積量分布是未來森林蓄積量獲取的主要手段。由于Landsat數(shù)據(jù)可以免費(fèi)獲取并且有著最豐富的數(shù)據(jù)積累,被廣泛的用于森林蓄積量和生物量等重要的森林結(jié)構(gòu)參數(shù)的估計(jì)。Zhao et al.[6]利用Landsat數(shù)據(jù)成功實(shí)現(xiàn)了生物量的量化和飽和值的估測;Aliny et al.[7]利用Landsat8 OLI估計(jì)了巴西桉樹的森林蓄積量。在森林蓄積量的遙感估算研究中,模型的構(gòu)建是影響估計(jì)精度的重要因素[8-9]。機(jī)器學(xué)習(xí)模型在定量遙感的研究中已經(jīng)較為成熟,使用機(jī)器學(xué)習(xí)算法估計(jì)森林蓄積量的結(jié)果要明顯優(yōu)于傳統(tǒng)的參數(shù)模型,因此,機(jī)器學(xué)習(xí)模型被認(rèn)為是取代傳統(tǒng)的參數(shù)模型的有效手段[10-11]。K-最近鄰法(KNN)和隨機(jī)森林(RF)是兩種典型的機(jī)器學(xué)習(xí)算法,并且已廣泛應(yīng)用于森林蓄積量的估測研究。隨機(jī)森林可以通過構(gòu)建大量的回歸樹和分類樹預(yù)測連續(xù)的未知變量,同時(shí)根據(jù)變量對誤差的貢獻(xiàn)程度輸出所有參與建模變量的重要性[12];K-最近鄰法是根據(jù)訓(xùn)練樣本和預(yù)測樣本的變量計(jì)算樣本間的距離,通過加權(quán)平均K個(gè)距離最小樣本的觀測值確定預(yù)測值[13]。KNN的最重要的兩個(gè)參數(shù)是K值的選擇和距離的度量[14],歐式距離被用來衡量樣本間的相似性,由于每個(gè)變量對距離度量的貢獻(xiàn)相同,而距離度量方式忽略了變量與森林蓄積量的相關(guān)性。宋亞斌等[15]研究表明,利用光譜變量與森林蓄積量的相關(guān)性優(yōu)化歐氏距離可以有效的提升KNN模型的估計(jì)性能。由于最終的預(yù)測值是由K個(gè)距離最近的樣本的觀測值加權(quán)平均獲得,選擇不同的K值則對KNN模型的性能產(chǎn)生較大的影響。理論上不同的樣本可能對應(yīng)不同的K值,然而多數(shù)的相關(guān)研究都是選擇一個(gè)適合所有樣本的最佳K值,不能充分的發(fā)揮KNN算法的性能。因此,本研究以陜西省留壩縣為研究區(qū),以lansdat8 OLI為數(shù)據(jù)源,開發(fā)了一種基于隨機(jī)森林的局部樣本最優(yōu)K值KNN改進(jìn)算法(LSO-KNN),同時(shí)與RF、傳統(tǒng)的KNN算法、距離加權(quán)KNN算法和多元線性回歸模型進(jìn)行對比,驗(yàn)證改進(jìn)算法的可行性。
留壩縣位于陜西省漢中市,地理坐標(biāo)介于東經(jīng)106°38′5″~107°18′14″,北緯33°17′42″~33°53′29″(見圖1)。留壩縣具有豐富的森林資源,樹種以紅樺(Betulaalbo-sinensisBurk.)、山楊(Populusdavidiana)、冷杉(Abiesfabri(Mast.) Craib)和櫟類為主。土地總面積1 970 km2,林地面積1 816.74 km2,林木覆蓋率92.97%。該地氣候?yàn)榕瘻貛駶櫦撅L(fēng)氣候,系長江流域漢江支流。年平均日照時(shí)間1 804.4 h,年降水量為886.3 mm平均氣溫11.5 ℃,無霜期為214 d[16]。
圖1 研究區(qū)位置
本研究中所使用的landsat8數(shù)據(jù)下載自地理空間數(shù)據(jù)云(http://www.gscloud.cn),空間分辨率為30 m,包括藍(lán)、綠、紅等3個(gè)可見光波段,一個(gè)近紅外波段和兩個(gè)短波紅外波段。采用ENVI5.3軟件進(jìn)行影像的預(yù)處理,包括大氣校正、幾何校正和地形校正。
研究中所使用的地面數(shù)據(jù)來自2018年陜西省森林資源調(diào)查數(shù)據(jù)庫中的樣點(diǎn)調(diào)查數(shù)據(jù),樣點(diǎn)調(diào)查因子包括樹種、胸徑、樹高和蓄積量等森林結(jié)構(gòu)參數(shù)。利用二元材積方程計(jì)算每棵樹的材積,樣點(diǎn)的蓄積量由所有樹種的材積求和,最后轉(zhuǎn)化為公頃蓄積。地面數(shù)據(jù)包括228個(gè)樣本,樣地森林蓄積量最大值為283.00 m3/hm2、最小值為21.45 m3/hm2、平均值為81.50 m3/hm2、標(biāo)準(zhǔn)差為45.15 m3/hm2、變異系數(shù)為0.55。
植被指數(shù)已經(jīng)被用于森林參數(shù)的遙感定量研究[17],并且地形對于森林參數(shù)也具有一定的影響值[17-18]。本實(shí)驗(yàn)共提取54個(gè)遙感變量,包括單波段變量、植被指數(shù)和地形因子。
表1 遙感變量
變量的選擇對于森林蓄積量的建模起到?jīng)Q定性的作用,把全部遙感變量全部用于建模,會造成模型的可解釋性降低,并且會把與蓄積量不相關(guān)的信息帶入模型,導(dǎo)致模型具有較大的不穩(wěn)定性[17-19]。目前,皮爾遜(Pearson)相關(guān)系數(shù)和主成分分析是一種較為流行的特征選擇方式,但皮爾遜相關(guān)系數(shù)僅反映自變量與因變量間的線性關(guān)系,不能解釋自變量與因變量間的非線性關(guān)系[19-20]。因此,本研究采用隨機(jī)森林重要性(RFI)對所有變量進(jìn)行排序,結(jié)合變異系數(shù)膨脹因素(VIF)對變量進(jìn)行篩選,選擇出對蓄積量影響較高的變量,同時(shí)剔除變量間的共線性。
2.4.1 KNN模型的構(gòu)建
KNN算法最初由Cover和Hart于1968年提出[13],是一種較為簡單的機(jī)器學(xué)習(xí)算法。由于該算法不需要數(shù)據(jù)遵循正態(tài)分布,在使用KNN模型進(jìn)行未知量的預(yù)測時(shí)具有很好的靈活性,并且已經(jīng)被廣泛的應(yīng)用各類森林參數(shù)的制圖中。它使用“特征相似性”原理從訓(xùn)練樣本中選擇與檢驗(yàn)樣本距離最小的K個(gè)樣本,然后將K個(gè)樣本的觀測值以加權(quán)平均的方式賦值給檢驗(yàn)樣本。利用不同的K值重復(fù)上述過程對檢驗(yàn)樣本的森林蓄積量進(jìn)行預(yù)測,均方根誤差最小時(shí),KNN模型所對應(yīng)的K值被確定為最佳。
2.4.2 局部樣本最優(yōu)K值優(yōu)化KNN模型
K值的選擇對于KNN模型來說是最重要的一個(gè)環(huán)節(jié),當(dāng)前的KNN模型都是根據(jù)總體的最佳預(yù)測結(jié)果來確定一個(gè)整體的最佳K值,然而森林蓄積量的分布在空間上具有不穩(wěn)定性,導(dǎo)致樣本的總體最佳K值不適用于全區(qū)域的森林蓄積量反演[21-25]。為了優(yōu)化K值的選擇,在距離加權(quán)KNN模型的基礎(chǔ)上,開發(fā)了一種基于隨機(jī)森林的局部樣本最優(yōu)K值KNN算法(LSO-KNN)。首先,使用留一交叉的方法利用距離加權(quán)KNN模型對每一個(gè)樣本進(jìn)行預(yù)測,記錄每個(gè)樣本預(yù)測的最低均方根誤差時(shí)所對應(yīng)的K值;其次,將所有訓(xùn)練樣本的最低均方根誤差時(shí)所對應(yīng)的K值作為因變量,Landsat8 OLI的光譜特征作為自變量,使用隨機(jī)森林算法對每個(gè)樣本的最低均方根誤差時(shí)所對應(yīng)的K值進(jìn)行預(yù)測,得到每個(gè)樣本的近似最佳K值,同時(shí)對整個(gè)研究區(qū)每一個(gè)像元的近似最佳K值進(jìn)行預(yù)測,得到近似最佳K值的空間分布;最后將近似最佳K值和光譜變量集輸入KNN模型實(shí)現(xiàn)最終的森林蓄積量預(yù)測,并繪制研究區(qū)森林蓄積量的空間分布。
本研究中隨機(jī)抽取2/3樣本作為訓(xùn)練樣本,用于訓(xùn)練模型的最佳參數(shù),剩余1/3樣本作為檢驗(yàn)樣本用于對模型進(jìn)行精度驗(yàn)證及泛化性檢驗(yàn)。采用均方根誤差(RMSE),相對均方根誤差(RRMSE)和決定系數(shù)(R2)作為模型的檢驗(yàn)指標(biāo),具體公式如下:
本實(shí)驗(yàn)中根據(jù)隨機(jī)森林重要性對63個(gè)特征變量進(jìn)行排序并剔除變量自相關(guān)后,最終的變量選擇紅色波段(B4)、比值植被指數(shù)(IRV)、差值植被指數(shù)(IDV)、歸一化植被指數(shù)(INDV)、增強(qiáng)植被指數(shù)(IEV),各變量的重要值分別為0.21、0.16、0.14、0.18、0.09,其中,紅色波段的重要性最高(RFI=0.21),增強(qiáng)植被指數(shù)的重要性最低(RFI=0.09),說明Landsat的紅光波段對于森林蓄積量的變化較為敏感。
由表2可知,4種機(jī)器學(xué)習(xí)模型均取得了較好的擬合結(jié)果,其決定系數(shù)(R2)均大于0.50。其中LSO-KNN模型的決定系數(shù)最高(0.72)。相比于傳統(tǒng)的多元線性回歸模型,4種機(jī)器學(xué)習(xí)算法均表現(xiàn)出了更高的預(yù)測精度。其中KNN和RF得到了近似的估測結(jié)果,均方根誤差分別為53.03和52.22 m3·hm-2;LSO-KNN模型得到了最佳的估計(jì)結(jié)果(RMSE=39.58 m3·hm-2,RRMSE=28.68%)。相比于其他3種機(jī)器學(xué)習(xí)算法,LSO-KNN算法的均方根誤差分別降低了27.24%、24.23%和18.14%。
由圖2可知,5種模型的殘差圖看起來具有相似的趨勢,即低估了高蓄積量的樣本和高估了低蓄積量的樣本,這是光學(xué)數(shù)據(jù)在估計(jì)森林蓄積量中的局限行,也就是數(shù)據(jù)飽和問題。但是它們的取值范圍差異較大。從圖2-e2中可以看出,對于蓄積量較小的樣本,LSO-KNN可以得到更準(zhǔn)確的預(yù)測值,改善了低蓄積量樣本的高估現(xiàn)象,原因是LSO-KNN算法對于低蓄積量的樣本選擇了更適合的K值,從而有效的提高了樣本的估計(jì)精度。
表2 5種模型估測森林蓄積量的精度
a為多元線性回歸(MLR),b為K最近鄰(KNN),c為隨機(jī)森林(RF),d為距離加權(quán)K-最近鄰(DW-KNN),e為局部樣本最優(yōu)K值KNN(LSO-KNN)。圖2 5種模型估測結(jié)果的散點(diǎn)圖及殘差
由圖3可知,使用Landsat8 OLI作為數(shù)據(jù)源,利用LSO-KNN模型對留壩縣森林蓄積量進(jìn)行反演的結(jié)果,留壩縣東部和西部森林蓄積量較高,超過總量的70%以上,中部、南部森林蓄積量分布較低,此結(jié)果與實(shí)際調(diào)查基本一致。
本研究以陜西省留壩縣為研究區(qū),以Landsat8 OLI為遙感數(shù)據(jù)源,分別構(gòu)建了MLR、KNN、RF、DW-KNN和LSO-KNN 5種模型對森林蓄積量進(jìn)行反演。4種機(jī)器學(xué)習(xí)算法的蓄積量估測結(jié)果均要優(yōu)于多元線性回歸模型,表明機(jī)器學(xué)習(xí)模型比于MLR模型具有更好的蓄積量估測潛力;LSO-KNN模型取得了本研究中的最佳估測結(jié)果(RMSE=39.58 m3/hm2),說明通過優(yōu)化K值的選擇方式構(gòu)建的LSO-KNN模型更適合森林蓄積量的估測。
圖3 留壩縣森林蓄積量分布