吳炳倫,石軍南,胡 覺,梅 浩
(1.中南林業(yè)科技大學,湖南 長沙 410004;2.國家林業(yè)和草原局中南林業(yè)調(diào)查規(guī)劃設計院,湖南 長沙 410004)
在森林生態(tài)系統(tǒng)中,森林生物量是評價森林生態(tài)系統(tǒng)碳循環(huán)的重要載體和指標參數(shù)[1]。隨著人類活動所引起的溫室效應及其造成的全球氣候變化對森林的負面影響正越來越引起全世界的關注。近年來,相關學者圍繞不同林分、區(qū)域和國家尺度森林碳密度及變化開展了大量研究[2-5]。目前,森林碳密度的估算,常通過直接或者間接測定的森林植被生物量乘以含碳系數(shù)獲得,但由于研究方法和數(shù)據(jù)源的不同,導致估算結(jié)果有很大的差異,概括起來主要有樣地清查法[6]、經(jīng)驗模型法[7]、機理模型法[8]、半經(jīng)驗半機理模型法[9]和非參數(shù)估計等方法。隨著信息技術的發(fā)展,非參數(shù)估計的神經(jīng)網(wǎng)絡以模擬人腦神經(jīng)元進行抽象而成為主流。全局逼近網(wǎng)絡有BP 神經(jīng)網(wǎng)絡[10-11],局部逼近網(wǎng)絡有RBF、CMAC 小腦網(wǎng)絡等。RBF 在網(wǎng)絡結(jié)構(gòu)的適用性、訓練算法和網(wǎng)絡資源的利用方面,其逼近精度、學習效率和分類能力上表現(xiàn)均比BP 神經(jīng)網(wǎng)絡優(yōu)越[12]。RF 隨機森林[13]也是一種基于機器學習的方法,具有隨機性,對異常值和噪聲具有良好的容忍度,且訓練速度快,容易并行化計算。
本研究以新邵縣為研究區(qū),通過建立非線性回歸、RF 隨機森林和RBF 徑向基神經(jīng)網(wǎng)絡進行森林碳密度反演。探究不同模型之間的精度,尋找最佳模型,進而為新邵縣綠色發(fā)展提供參考。
新邵縣位于湖南省邵陽市北部(27°14′37″~27°38′8″N,111°8′17″~111°49′57″E),介 于 邵 陽盆地和新漣盆地之間。全縣總面積1 762.24 km2。屬中亞熱帶大陸性季風濕潤氣候,常年盛行東北風,年平均氣溫為17 ℃,年平均總降水量1 365.2 mm。境內(nèi)資江、湘江兩條水系縱貫切割,地貌類型多樣,呈北高南低,南向敞開,逐漸遞降形態(tài)。
新邵縣現(xiàn)有主要針葉樹種為杉木、樟木、馬尾松、黃山松、華山松、油松等,闊葉樹種主要有檫木、銀杏、油茶、楓香、櫟類、楝樹等,境內(nèi)喬木樹種面積為762.63 km2,占全縣總面積的55.86%。主要經(jīng)濟樹種為杉木、油茶、柑桔、板栗等。
2.1.1 固定樣地數(shù)據(jù)
采用2014年湖南省森林資源一類調(diào)查數(shù)據(jù)。該數(shù)據(jù)以湖南省為單位,按照系統(tǒng)抽樣的方法以4 km×8 km 的間距布設,每塊樣地呈正方形設置,面積為0.067 hm2。新邵縣共布設57 塊固定樣地,采用一類固定樣地調(diào)查的標準調(diào)查因子共64 項。森林碳密度的估算,分樹種采用生物量回歸方程估算的方法結(jié)合實測數(shù)據(jù),再乘以相應樹種含碳系數(shù),從而得到固定樣地碳密度數(shù)據(jù)。生物量回歸方程(表1)采用李海奎[14]于2010年建立的生物量回歸模型,分樹種計算其地上生物量和地下生物量,對于不明確的樹種,其生物量按照相近樹種求算而得。
表1 不同樹種生物量回歸方程?Table 1 Biomass regression equation and carbon content rate of different tree species
2.1.2 遙感數(shù)據(jù)
采用Landsat 8 遙感影像,空間分辨率為30 m× 30 m,接收時間為2014年9月27日,軌道號124/41,數(shù)據(jù)質(zhì)量較好,清晰且無云覆蓋。數(shù)據(jù)預處理包括輻射定標、大氣校正和地形校正,校正誤差控制在半個像元之內(nèi)(圖1)。之后對預處理影像的7 個波段進行單波段、倒數(shù)運算、比值運算(2 波段、3 波段、4 波段組合間的比值運算),提取植被指數(shù)(NDVI、SAVI、ARVI、EVI)、紋理及地形因子共生成96 個遙感變量。
非線性回歸是回歸函數(shù)關于未知回歸系數(shù)的非線性結(jié)構(gòu)的回歸。為探討Landsat 8 遙感因子與森林碳密度之間的關系,首先,通過SPSS 20.0 分析反演因子與實測森林碳密度的相關系數(shù),采用逐步回歸分析和方差擴大因子法對自變量(紋理因子、光譜因子及衍生因子)進行篩選,尋找影響森林碳密度空間分布的主導因子,消除變量間的共線性問題。然后采用SPSS 20.0 提供的11 種擬合方法開展基于單變量的非線性回歸分析,保留最優(yōu)擬合模型。最后,在單變量最佳曲線模型擬合的基礎上,以篩選后的變量為參考,逐步引入新的變量建立基于多變量的回歸模型。
隨機森林模型是一種基于分類樹(Classification tree)的統(tǒng)計算法。具有較高的精度,高度靈活,對異常值和噪聲具有很好的容忍度,不需考慮普通回歸中面臨的多重共線性,且不易出現(xiàn)過擬合。隨機森林采用Bootstrap 重新抽樣的方法構(gòu)建分類樹,因變量選擇的隨機性,每次構(gòu)建的決策樹可能不同,最后通過投票的方式選重復率最高的樹作為最優(yōu)模型。
圖1 新邵縣位置及樣地分布遙感影像Fig.1 Location of Xinshao county and remote sensing image of plot distribution
徑向基神經(jīng)網(wǎng)絡(Radical basis function)是一種性能優(yōu)良的前饋型神經(jīng)網(wǎng)絡。以高斯函數(shù)為激活函數(shù),具有任意精度的全局逼近能力;網(wǎng)絡輸出對隱單元的線性關系,從而避免了陷入局部極小的可能;采用局部逼近網(wǎng)絡,相比“牽一發(fā)動全身”的全局逼近網(wǎng)絡,擁有更快的學習和收斂速率。由輸入層、隱含層和輸出層搭建,輸入層到隱含層由輸入樣本與隱藏節(jié)點之間的距離連接,隱含層用RBF作為隱單元的“基”構(gòu)成隱含層空間,采用核函數(shù)的思想,通過調(diào)節(jié)隱含層到輸出層之間的線性加權和來達到最優(yōu)。
模型精度是衡量預測方法是否適用于預測對象的一個重要指標。為了檢驗模型可靠程度的高低,對所建立的非線性回歸模型、RF 隨機森林模型和RBF 徑向基神經(jīng)網(wǎng)絡模型通過決定系數(shù)(R2)和均方根誤差(RMSE)進行評價。
式中,n為檢驗樣本容量,yi為第i個檢驗樣本值,為 對應第i個樣點估計值,為 檢驗樣本值的平均值,決定系數(shù)(R2)指回歸方程估測值與實測值之間的趨勢線擬合程度,其變化范圍為0~1,其中R2越接近于1,表明模型估測能力越強,效果越顯著;RMSE 為總均方根誤差,表示實測值與估計值之間的離散程度,其值越小,模型精度越高。
通過對研究區(qū)57 塊固定樣地進行測算,得到新邵縣固定樣地碳密度統(tǒng)計結(jié)果(表2)。由表2可知,新邵縣固定樣地碳密度浮動范圍介于0~26.59 t/hm2,標準差和變異系數(shù)分別為6.16、1.1,變異程度較大,表明數(shù)據(jù)波動較大。
表2 新邵縣固定樣地碳密度統(tǒng)計結(jié)果Table 2 Statistical results of carbon density in the sample plots of Xinshao county
為了獲得影響森林碳密度估測的主要因子,采用SPSS 20.0 對提取的96 個變量采用逐步回歸分析和方差因子擴大法進行篩選,計算其Pearson相關性(表3)。分析表可知,在顯著水平0.01時,與森林碳密度達到顯著相關的有Band3、Band2、Band1mean、NDVI 等25 個因子;當顯著水平在0.05 時,H、Band4homogeneity、Band47、Band46共4 個因子與森林碳密度顯著相關。其中Band3、Band4、Band14、Band4mean等17 個因子相關系數(shù)在0.500 以上,特別是Band3 的相關性達0.550。
表3 碳儲量與自變量的相關性?Table 3 Correlation coefficients between carbon storage and independent variables
將顯著性相關最強的28 個因子的像元值和57組樣地碳密度數(shù)據(jù)導入SPSS 20.0 中,建立單變量最優(yōu)曲線擬合模型,然后在單變量最佳曲線模型擬合的基礎上,逐步引入多變量建立最優(yōu)非線性模型:
最后,將57 組數(shù)據(jù)代入公式(3)中計算預測值,并對預測值結(jié)果與實測值進行分析,得到均方根誤差為3.87 t·hm-2,其擬合結(jié)果與預測結(jié)果如圖2、圖3所示。結(jié)果表明,模型預測結(jié)果和實測值之間具有良好的線性擬合關系,決定系數(shù)R2為0.62,且殘差點分布較為均勻,表明擬合模擬效果良好。
圖2 非線性回歸模型擬合結(jié)果Fig.2 Simulated results of nonlinear regression model
圖3 非線性回歸模型預測結(jié)果 Fig.3 Predicted results of nonlinear regression model
調(diào)用Matlab 函數(shù)包,分別設置ntree 為500、1 000、1 500、2 000,將57 組樣本數(shù)據(jù)全部作為輸入,采用留一交叉驗證的方法訓練,每個學習集都是通過除了一個樣本以外的其它所有樣本創(chuàng)建的,測試集是被留下的樣本,直到所有樣本數(shù)據(jù)都被測試一遍則停止訓練,輸出最優(yōu)模型。經(jīng)過不斷測試,選取ntree 為2 000,mtry 為25,得到最佳逼近效果。模型決定系為0.91,均方根誤差為2.50 t·hm-2,其擬合結(jié)果與預測結(jié)果如圖4、圖5。由圖可知,樣地實測值與預測值之間具有有較好的擬合關系,殘差分布在[-8,8]之間。
圖4 隨機森林模型擬合結(jié)果 Fig.4 Simulated results of random forest model
圖5 隨機森林模型預測結(jié)果 Fig.5 Predicted results of random forest model
在Matlab 中調(diào)用newrb 函數(shù),相關參數(shù)分別設置為:goal=0.01;spread= 0.1、0.2、0.3、0.4;mn=200;df=1,通過不斷調(diào)整函數(shù)參數(shù)、采用留一交叉驗證的方法觀察訓練結(jié)果的步長來調(diào)整其收斂速度,最終選擇spread=0.1,步長為42 為最優(yōu)模型,擬合結(jié)果和預測結(jié)果如圖6、圖7。觀察可知,樣地實測值和預測值之間具有很好的線性擬合關系,R2為0.96,均方根誤差為1.33 t·hm-2,殘差分布表現(xiàn)為均勻分布在[-4,4]之間,說明模型具有良好的泛化能力。
圖6 RBF 神經(jīng)網(wǎng)絡模型擬合結(jié)果 Fig.6 Simulated results of RBF model
圖7 RBF 神經(jīng)網(wǎng)絡模型預測結(jié)果 Fig.7 Predicted results of RBF model
精度評價是評價模型估測能力高低的指示性指標。鑒于此,以R2、RMSE 為評價指標,對建立的3 個模型進行精度評價。由表4可知,RBF神經(jīng)網(wǎng)絡的決定系數(shù)最大,均方根誤差最小,很好的擬合了樣地實測碳密度;RF 隨機森林次之,擁有不錯擬合精度和均方根誤差;非線性回歸模型精度最低。
在建立的模型過程中,非線性回歸模型通過逐步回歸分析和方差因子擴大因子法選取Band34、Band3、ARVI 和Band47 共4 個因子參與建模。在RF 隨機森林和RBF 神經(jīng)網(wǎng)絡建立的過程中,選取在0.01 水平以上顯著相關的共28 個因子參與建模。然后通過ENVI 5.0 及Matlab 輸入輸出碳密度估計值。最后,利用ArcGIS軟件生成森林碳密度反演圖,圖8(I)、圖8(II)、圖8(III)分別是非線性回歸、RF隨機森林模型、RBF 神經(jīng)網(wǎng)絡的碳密度反演結(jié)果。
表4 不同模型之間的比較Table 4 Comparison of accuracy by different models
隨著遙感技術的普及,遙感反演制圖已普泛應用于林業(yè)領域?;趪疑仲Y源連續(xù)清查(湖南省第七次復查)的數(shù)據(jù),建立非線性回歸模型、RF 隨機森林模型、RBF 徑向基神經(jīng)網(wǎng)絡模型進行森林碳密度估計。然后對3 種模型進行比較分析,結(jié)果表明:
1)利用Landsat 8 數(shù)據(jù)進行森林碳密度遙感反演所提取的紋理、光譜及衍生因子中,Band3、Band4、Band14、Band4mean、Band1234、Band3mean、Band2 與森林碳密度具有顯著相關性,其Pearson 相關系數(shù)達到0.5 以上。
2)RBF 神經(jīng)網(wǎng)絡的決定系數(shù)為0.96,均方根誤差為1.33 t·hm-2,很好的擬合了樣地實測碳密度RF 隨機森林優(yōu)于非線性回歸模型,擬合精度、均方根誤差分別為0.91、2.50 t·hm-2;非線性回歸模型精度最低,決定系數(shù)和均方根誤差分別為:0.62、3.87 t·hm-2。
圖8 新邵縣森林碳密度反演結(jié)果圖像Fig.8 Inversion results of forest carbon density in Xinshao county
3)RBF 徑向基神經(jīng)網(wǎng)絡的精度最高,能很好的擬合樣地實測數(shù)據(jù)的分布,這也驗證了局部逼近網(wǎng)絡雖無法揭示內(nèi)部規(guī)律,但具有良好泛化能力與學習收斂速度。RF 隨機森林表現(xiàn)良好,由其強隨機性,模型得到較好的預測結(jié)果。受到樣本數(shù)量的限制,但為大樣本森林碳密度遙感反演提供了方向。
綜上,研究區(qū)森林碳密度分布為南高北低,這與其實際地形地貌、森林分布一致。除了少數(shù)地區(qū)受到固定樣本分布的影響出現(xiàn)異常點之外,普遍表現(xiàn)為與森林分布密切相關;另一方面,樣地數(shù)據(jù)普遍偏小??赡茉谟嬎闾济芏葦?shù)據(jù)過程中,沒有考慮灌木、草本層的森林碳儲量多少,在之后樣本的采集與研究方面將會繼續(xù)深入,考慮灌木、草本層植被的影響提取大樣本數(shù)據(jù),采用混合像元分解的方法,為大尺度城市森林碳匯提供有力依據(jù)。