趙文純 張再鑫 劉檢明 賴永超
摘 要: 以湖北省赤壁市國有林場40塊杉木人工林實測數(shù)據(jù)為例,運用隨機森林方法,以胸徑、優(yōu)勢樹高、優(yōu)勢胸徑為自變量,建立樹高預(yù)測模型。首先根據(jù)隨機森林的置換精度重要性篩選出建模的自變量,并確定決策樹的數(shù)量和競爭節(jié)點變量數(shù),得到?jīng)Q定系數(shù)R2為0.945 0,均方誤差MSE為2.696 6的隨機森林樹高預(yù)測模型。利用檢驗數(shù)據(jù)對隨機森林樹高預(yù)測模型和傳統(tǒng)樹高預(yù)測模型分別進行精度檢驗。結(jié)果表明:隨機森林模型的擬合效果與預(yù)測效果都優(yōu)于該傳統(tǒng)樹高模型,隨機森林模型可以作為有效的樹高預(yù)測技術(shù)。
關(guān)鍵詞: 杉木;標準樹高曲線;隨機森林
中圖分類號:S757;S791.27?? 文獻標識碼:A?? 文章編號:1004-3020(2021)05-0020-04
Generalized Height-diameter Model for Cunninghamia lanceolata Based on Random Forest
Zhao Wenchun Zhang Zaixing Liu Jianming Lai Yongchao
(Hubei Provincial Forestry Investigation and Planning Institute Wuhan 430079)
Abstract:
Taking the measured data of 40 Cunninghamia lanceolata plantation plots in the national forest farm of Chibi City,Hubei Province as an example,a tree height prediction model was established by using the random forest method and taking the DBH,dominant tree height and dominant DBH as independent variables.First,the independent variable for modeling was selected,then,number of trees and number of predictors sampled for spliting at each node were determined,then,an optimum random forest model was developed,with a determinate coefficient of 0.945 0 and error of mean square of 2.696 6.And then,it was compared with one traditional generalized height-diameter equation,the validation datasets were used to test the models,respectively.The fitting effect and prediction effect of random forest are better than the traditional equation,and random forest model can be used as effective tree height prediction technology.
Key words: Cunninghamia lanceolata;generalized height-diameter model;random forest
樹高和胸徑是兩個重要的林分調(diào)查因子,常用于預(yù)測林分生產(chǎn)力和樹木材積。一般而言,林木胸徑的測量簡單、方便、結(jié)果準確,而在林分中樹高的測量較為費時費力,比較復雜。因此在林分調(diào)查中,一般通過先測量部分林木的胸徑和樹高,建立樹高胸徑的回歸方程,然后預(yù)測缺失的樹高。
樹高和胸徑的關(guān)系會受到立地條件、林分條件、營林措施的影響[1-2],不同樣地間的樹高和胸徑關(guān)系通常存在著較大的差異。而僅以胸徑為自變量的簡單模型不能描述不同林分狀況下樹高和胸徑關(guān)系的差異。僅以胸徑為自變量的普通樹高曲線需為每個林分建立不同的模型,因此,其應(yīng)用范圍非常有限。而加入了林分因子的標準樹高曲線可適用于更廣的區(qū)域[3-5]。傳統(tǒng)樹高曲線建模,多運用與樹高生長相關(guān)的各因子,建立線性或非線性曲線方程。目前標準樹高曲線建模體系主要包括傳統(tǒng)模型、神經(jīng)網(wǎng)絡(luò)和混合模型3種方法[6]。
隨機森林是一種機器學習方法,可以應(yīng)用于分類和回歸,其因高效和準確的特點,越來越多地應(yīng)用到各行各業(yè)中[7,8]。近年來,隨機森林逐步被應(yīng)用到林業(yè)中來,張雷等將隨機森林算法應(yīng)用于云南松的分布模擬[9],梁慧玲等將隨機森林算法應(yīng)用于林火預(yù)測[10],王云飛等將隨機森林算法應(yīng)用于地上生物量的遙感反演[11],張曉羽等將其應(yīng)用于遙感影像分類[12]。國內(nèi)將隨機森林算法應(yīng)用于標準樹高曲線的研究還報道較少。采用隨機森林方法建立了杉木的標準樹高曲線模型,探討了隨機森林方法在樹高估測上的可行性,在樹高預(yù)測方法上進行了探索。
1 研究區(qū)概況
研究區(qū)位于湖北省咸寧市下屬的縣級市赤壁,赤壁市地處湖北省東南部,長江中游的南岸,為幕阜低山丘陵與江漢平原的接觸地帶,地勢由南向北逐漸傾斜,南部為海拔500 m左右的低山群,中部為丘陵地帶,北部長江沿岸地區(qū)為海拔50 m左右的沖積平原。土壤以紅壤土為主,少量分布有潮土。屬亞熱帶季風氣候,溫暖濕潤,雨量充沛,四季分明,日照充足,年平均氣溫16.9°C,年平均無霜期247~261 d,降雨量1 251~1 608 mm。
2 研究方法
2.1 數(shù)據(jù)獲取
選取分布于赤壁市國有林場的40塊杉木純林樣地(3 765株),樣地大小為20 m×20 m或20 m×30 m,實測樣地內(nèi)杉木的胸徑與樹高。杉木起測胸徑為2 cm。通過參考國內(nèi)外標準樹高曲線與常用方程[13],選取胸徑(D)、優(yōu)勢胸徑(Dt)、優(yōu)勢樹高(Ht)、樣地平均胸徑(Dg)、樣地單位胸高斷面積(BA)、林分密度(SPH)等因子作為備選自變量。其中優(yōu)勢胸徑和優(yōu)勢樹高的值,分別為樣地中最大胸徑和最大樹高5株樹的平均值[3]。本研究以32塊樣地的2 777株樹作為建模數(shù)據(jù),以8塊樣地的988株樹作為檢驗數(shù)據(jù)(表1)。
2.2 隨機森林方法
隨機森林是由Leo Breiman和Cutler Adele在2001年開發(fā)完成的一種數(shù)據(jù)挖掘方法,它是一種現(xiàn)代分類和回歸技術(shù)[9],隨機森林利用bootstrap重抽樣方法從原始樣本中抽取多個樣本,然后對每個bootstrap樣本進行決策樹建模,組合多棵決策樹的預(yù)測,最后通過投票得出最終預(yù)測結(jié)果。大量研究證明隨機森林具有很高的預(yù)測準確率,并且隨機森林還能夠處理自變量有高階交互作用及自變量相關(guān)的問題。
2.3 模型構(gòu)建
本研究中隨機森林樹高模型的構(gòu)建是通過R軟件中的random Forest包來實現(xiàn)的。首先,通過importance參數(shù)提供的各自變量影響力分析結(jié)果,選出合適的自變量。然后,調(diào)試ntree和mtry這兩個關(guān)鍵參數(shù)。ntree是決策樹的數(shù)量;mtry是節(jié)點競爭變量數(shù)目[11]。最后,通過選出的自變量和確定的ntree與mtry值構(gòu)建出隨機森林樹高模型。
模型評價:采用決定系數(shù)(R2)和均方誤差(MSE)作為模型評價指標。
R2=1-∑ni=1yi-y︿i2/∑ni=1yi-y-2
MSE=1n∑ni=1yi-y︿i2
式中:n為樣本數(shù),yi、y-、y︿i分別為實測值、實測值平均值和模型預(yù)測值。
3 結(jié)果與分析
3.1 自變量的確定
變量重要性,特別是隨機森林所有的置換精度重要性度量是非常有用的工具。其原理為,隨機撤掉某變量,這時如果預(yù)測精度大大降低,則說明該變量特別重要。除了關(guān)于精度降低的重要性之外,還有關(guān)于變量拆分節(jié)點不純度的總降低的重要性,對于回歸是按照節(jié)點平均MSE降低來度量的。
該表就是這兩種重要性,第一列是關(guān)于置換精度的,第二列是關(guān)于節(jié)點純度的,都是值越大,對結(jié)果的影響越大,重要性越高。因此,自變量重要性大小順序為D>Ht>Dt>Dg>BA>SPH。
圖1是利用十折交叉驗證得到的變量個數(shù)(橫坐標)與誤差(MSE)(縱坐標)的關(guān)系,圖中變量數(shù)目變化的次序是按照變量重要性確定的,從圖1可以看出,當變量數(shù)目達到3以后,誤差基本不再下降。因此結(jié)合自變量大小順序和誤差隨變量個數(shù),將重要性最大的前三個自變量D(胸徑)、Ht(優(yōu)勢樹高)、Dt(優(yōu)勢胸徑)作為模型輸入的自變量。
3.2 決策樹數(shù)目和節(jié)點最優(yōu)競爭變量數(shù)目的確定
隨機森林隨著決策樹的數(shù)目(ntree)增加,誤差會降低,而隨著變量的增加,誤差也會降低。從圖2中可以看出,當決策樹數(shù)目達到1 000時,誤差基本就不再下降,因此將決策樹數(shù)目值定為1 000。
R中random Forest關(guān)于節(jié)點競爭變量數(shù)目(mtry)選項的默認值為自變量數(shù)目的1/3,但這并不一定對所有數(shù)據(jù)都合適。表3是OOB誤差隨的變化情況,可以看出,對于本數(shù)據(jù),當節(jié)點的競爭變量數(shù)目為2時,誤差是最小的,因此節(jié)點最優(yōu)競爭變量數(shù)目為2。
3.3 最優(yōu)模型
由于隨機森林的方法是取多個決策樹所產(chǎn)生的結(jié)果的平均值作為最終預(yù)測值,因此,不會產(chǎn)生一個具體的方程形式。本研究中最優(yōu)隨機森林模型為以胸徑(D)、優(yōu)勢胸徑(Dt)、優(yōu)勢樹高(Ht)為自變量,ntree設(shè)為1 000,mtry設(shè)為2建立的模型,該模型的決定系數(shù)R2=0.945 0,均方誤差MSE=2.696 6。
3.4 模型的檢驗和比較
根據(jù)隨機森林樹高模型所選用的三個自變量:胸徑(D)、優(yōu)勢樹高(Ht)、優(yōu)勢胸徑(Dt),在研究中選取了一個使用相同自變量的傳統(tǒng)標準樹高曲線模型M[1],使用相同的建模數(shù)據(jù)預(yù)估該模型的各參數(shù)值,并使用同一檢驗數(shù)據(jù)分別代入這兩個模型進行樹高預(yù)測,最后對它們的預(yù)測結(jié)果進行分析。
H=Htea0da1+a2Htea0Dta1+a2Ht (M)
從表4中可以看出,在模型的擬合效果部分,隨機森林模型的決定系數(shù)R2大于傳統(tǒng)模型,隨機森林模型的均方誤差MSE小于傳統(tǒng)模型,說明隨機森林模型的擬合效果優(yōu)于傳統(tǒng)模型。在模型的預(yù)測效果部分,隨機森林模型的決定系數(shù)R2同樣大于傳統(tǒng)模型的,隨機森林模型的均方誤差MSE小于該傳統(tǒng)模型,說明隨機森林模型的模擬效果也優(yōu)于該傳統(tǒng)模型。
運用兩種模型對檢驗數(shù)據(jù)的樹高值進行預(yù)測,兩種模型的殘差分布如圖3所示。可以看出隨機森林模型的殘差分布均勻,沒有出現(xiàn)發(fā)散的情況,說明模型的預(yù)測效果較好。
4 結(jié)論
本研究基于32塊樣地實測數(shù)據(jù)作為訓練數(shù)據(jù),根據(jù)隨機森林自帶的自變量重要性和誤差隨自變量個數(shù)變化的情況,選出合適的自變量。經(jīng)過對隨機森林模型參數(shù)的優(yōu)化,最終以胸徑、優(yōu)勢樹高、優(yōu)勢胸徑作為自變量,以樹高作為因變量,構(gòu)建了基于隨機森林方法的杉木標準樹高曲線模型,并結(jié)合使用相同自變量的一個傳統(tǒng)樹高模型,將剩下8塊樣地實測數(shù)據(jù)作為檢驗數(shù)據(jù),分別對兩個模型進行檢驗,對比分析兩者的擬合效果和預(yù)測效果,發(fā)現(xiàn)隨機森林模型的擬合效果和預(yù)測效果都優(yōu)于使用相同自變量的傳統(tǒng)樹高模型。
胸徑和樹高一直存在密切的關(guān)系,優(yōu)勢胸徑和優(yōu)勢樹高在一定程度上反映了林地的立地質(zhì)量,因此,本研究中將胸徑、優(yōu)勢樹高、優(yōu)勢胸徑選為自變量,是具有生物學意義的。本研究建模數(shù)據(jù)中起測胸徑為2 cm,包含了杉木幼樹,說明隨機森林模型也可以較好的預(yù)測幼樹的樹高。隨機森林樹高模型在預(yù)測樹高時,需要測量的數(shù)據(jù)為胸徑、優(yōu)勢胸徑、優(yōu)勢樹高,這些數(shù)據(jù)是易于測量的,建立的隨機森林樹高預(yù)測模型可在本研究區(qū)內(nèi)應(yīng)用。本研究使用隨機森林建立樹高預(yù)測模型的方法可以應(yīng)用于其他地區(qū)樹高預(yù)測模型的構(gòu)建上。因此,隨機森林樹高模型可以作為一個實用、有效預(yù)測樹高的新方法。
參 考 文 獻
[1]Krumland B E,Wensel L C. A generalized height-diameter equation for coastal California species[J]. Western Journal of Applied Forestry,1988,3(4):113-115.
[2]臧顥,雷相東,張會儒,等.紅松樹高-胸徑的非線性混合效應(yīng)模型研究[J].北京林業(yè)大學學報,2016(6):8-16.
[3]丁貴杰.貴州杉木人工林標準樹高曲線模型[J].貴州農(nóng)學院學報,1996(4):16-21.
[4]王明亮,唐守正.標準樹高曲線的研制[J].林業(yè)科學研究,1997(3):36-41.
[5]董云飛,孫玉軍,王軼夫,等.基于BP神經(jīng)網(wǎng)絡(luò)的杉木標準樹高曲線[J].東北林業(yè)大學學報,2014(7):154-156,165.
[6]董云飛,孫玉軍,許昊.3種標準樹高曲線建立方法的比較[J].西北農(nóng)林科技大學學報(自然科學版),2015(11):82-90.
[7]方匡南,吳見彬,朱建平,等.隨機森林方法研究綜述[J].統(tǒng)計與信息論壇,2011(3):32-38.
[8]李欣海.隨機森林模型在分類與回歸分析中的應(yīng)用[J].應(yīng)用昆蟲學報,2013(4):1190-1197.
[9]張雷,王琳琳,張旭東,等.隨機森林算法基本思想及其在生態(tài)學中的應(yīng)用——以云南松分布模擬為例[J].生態(tài)學報,2014(3):650-659.
[10]梁慧玲,林玉蕊,楊光,等.基于氣象因子的隨機森林算法在塔河地區(qū)林火預(yù)測中的應(yīng)用[J].林業(yè)科學,2016(1):89-98.
[11]王云飛,龐勇,舒清態(tài).基于隨機森林算法的橡膠林地上生物量遙感反演研究——以景洪市為例[J].西南林業(yè)大學學報,2013(6):38-45,111.
[12]張曉羽,李鳳日,甄貞,等.基于隨機森林模型的陸地衛(wèi)星-8遙感影像森林植被分類[J].東北林業(yè)大學學報,2016(6):53-57,74.
[13]魏曉慧,孫玉軍,馬煒.基于Richards方程的杉木樹高生長模型[J].浙江農(nóng)林大學學報,2012(5):661-666.
(責任編輯:鄭京津)