国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多距離度量kNN模型的森林蓄積量反演

2023-03-15 00:31:18吳勝義王義貴李偉坡
關(guān)鍵詞:蓄積量度量反演

吳勝義,王義貴,王 飛,李偉坡

(1.國(guó)家林業(yè)和草原局 西北調(diào)查規(guī)劃設(shè)計(jì)院,陜西 西安 710048;2.旱區(qū)生態(tài)水文與災(zāi)害防治國(guó)家林業(yè)局重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710048;3.中南林業(yè)科技大學(xué),湖南 長(zhǎng)沙 410004)

森林蓄積量是森林資源經(jīng)營(yíng)管理和森林生長(zhǎng)質(zhì)量評(píng)價(jià)的重要指標(biāo)。森林蓄積量可以直接反映森林生態(tài)系統(tǒng)的健康狀況,是森林固碳能力的重要體現(xiàn)[1-2],對(duì)區(qū)域森林蓄積量進(jìn)行估測(cè)對(duì)快速掌握森林生態(tài)系統(tǒng)質(zhì)量具有重要意義[3]。

遙感技術(shù)的應(yīng)用極大地提高了森林蓄積量的調(diào)查效率,利用遙感數(shù)據(jù)源結(jié)合實(shí)測(cè)樣地調(diào)查數(shù)據(jù)進(jìn)行森林蓄積量反演已經(jīng)成為國(guó)內(nèi)外研究的熱點(diǎn)[4-5]。然而,反演模型的選擇一直是影響森林蓄積量反演精度的重要因素。目前,常用的森林蓄積量反演模型主要以參數(shù)模型和非參數(shù)模型為主[6]。參數(shù)模型易于實(shí)現(xiàn),可以直觀地表現(xiàn)遙感變量與森林蓄積量之間的定量關(guān)系。以多元線性回歸為代表的參數(shù)模型在森林參數(shù)估測(cè)上已經(jīng)得到了廣泛應(yīng)用。此外,非參數(shù)模型,例如kNN和隨機(jī)森林等機(jī)器學(xué)習(xí)算法由于不需要數(shù)據(jù)有固定的分布趨勢(shì),且在小樣本上也具有較好的估測(cè)效果,已經(jīng)被證明具有較高的應(yīng)用潛力[7-8]。其中,kNN模型由于易于實(shí)現(xiàn)且效果較好,已經(jīng)被證明可以成功地用于森林蓄積量反演。鄭剛等[9]發(fā)現(xiàn)在進(jìn)行參數(shù)優(yōu)選后,利用kNN模型進(jìn)行亞熱帶地區(qū)森林蓄積量的遙感估測(cè)精度要明顯優(yōu)于傳統(tǒng)方法。宋亞斌等[10]以湖南省湘潭縣為研究區(qū),利用kNN模型成功地進(jìn)行了森林蓄積量反演。蔣馥根等[11]利用方差速率變化結(jié)合kNN模型對(duì)旺業(yè)甸林場(chǎng)森林蓄積量進(jìn)行反演,結(jié)果表明kNN模型應(yīng)用于森林蓄積量反演具有較大的潛力。然而,目前對(duì)于kNN估測(cè)中的距離度量討論較少,本研究將利用多種距離度量建立kNN模型進(jìn)行森林蓄積量反演,以探索距離度量對(duì)于kNN在森林蓄積量反演上的效應(yīng)。

本研究以Sentinel-2 多光譜影像為數(shù)據(jù)源,結(jié)合韓城市森林資源調(diào)查實(shí)測(cè)數(shù)據(jù),建立多元線性回歸模型、支持向量機(jī)模型、隨機(jī)森林模型和基于多種距離度量的kNN模型對(duì)研究區(qū)森林蓄積量進(jìn)行遙感估測(cè)。最終選擇估測(cè)精度最高的模型進(jìn)行韓城市森林蓄積量反演和空間分布制圖,以期為森林蓄積量遙感反演提供參考。

1 材料與方法

1.1 研究區(qū)概況

韓城市位于陜西省東部,位置為110°07′09″~110°37′24″ E,35°18′50″~35°52′08″N。北 依 宜川,西鄰黃龍,南接合陽(yáng),東隔黃河,總面積約1 621 km2。地勢(shì)西北高,東南低,中部淺山區(qū)多為黃土丘陵,境內(nèi)山原川灘等地貌類型兼有,深山和淺山丘陵占總面積的69%。韓城市處于暖溫帶半干旱區(qū)域,屬大陸性季風(fēng)氣候,四季分明,氣候溫和,光照充足,降水量較多。年平均氣溫13.5℃,年均降水量559.7 mm,無(wú)霜期209 d,年日照2 436 h。春夏季易發(fā)生干旱,夏季陣雨多、強(qiáng)度大,水土流失嚴(yán)重。目前全市森林覆蓋率為45.3%,主要樹種為落葉松Larix gmelini和刺槐Robinia pseudoacacia等。研究區(qū)位置及樣地分布如圖1所示。

1.2 遙感影像預(yù)處理及森林蓄積量數(shù)據(jù)獲取

研究使用的遙感數(shù)據(jù)源為Sentinel-2 MSI數(shù)據(jù),獲取時(shí)間為2018年10月12日,云量小于5%,于歐洲航天局(European Space Agency,ESA)官方網(wǎng)站獲取數(shù)據(jù)(https://scihub.copernicus.eu/)。遙感影像預(yù)處理能校正遙感成像過(guò)程中由于大氣環(huán)境、地形起伏和傳感器自身影響等產(chǎn)生的誤差,以獲取更準(zhǔn)確的影像信息[12]。本研究利用Sen2cor軟件對(duì)獲取的Sentinel-2數(shù)據(jù)進(jìn)行輻射定標(biāo)、大氣校正等預(yù)處理,將所有的像元值轉(zhuǎn)換為地表反射率。最終,選擇空間分辨率為10 m和20 m的單波段共計(jì)10個(gè)波段用于后續(xù)的森林蓄積量反演。

根據(jù)韓城市2018年更新的森林資源二類調(diào)查數(shù)據(jù),在喬木林地范圍內(nèi)采用隨機(jī)抽樣設(shè)置100個(gè)大小為30 m×30 m的樣地進(jìn)行森林蓄積量統(tǒng)計(jì),樣地分布如圖1所示。最終將小班蓄積量轉(zhuǎn)換為單位公頃蓄積量(m3/hm2),對(duì)所有樣地蓄積量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,結(jié)果如表1所示。

表1 樣地蓄積量統(tǒng)計(jì)結(jié)果Table 1 Statistical results of the stock volume in sample plots

圖1 研究區(qū)位置圖及樣地分布Fig.1 Location and plot distribution of the study area

1.3 遙感特征變量提取及篩選

研究共選取了Sentinel-2 中包括10 m和20 m空間分辨率的10個(gè)單波段作為光譜變量提取的信息源。提取單波段反射率、波段比值和常用的植被指數(shù)作為光譜變量。植被指數(shù)已經(jīng)被證明可以有效地用于森林參數(shù)估測(cè),研究提取了歸一化植被指數(shù)(Normalized different vegetation index,NDVI)[14]、大氣抗阻植被指數(shù)(Atmospherically resistant vegetation index,ARVI)、增強(qiáng)型植被指數(shù)(Enhanced vegetation index,EVI)和紅綠植被指數(shù)(Red green vegetation index,RGVI)等常見的植被指數(shù)[12]。此外,紅邊歸一化植被指數(shù)[15](Red-edge normalized difference vegetation index,RENDVI)和紅邊葉綠素指數(shù)[16](Red-edge chlorophyll index,RECI)[12]也被提取用于比較紅邊波段的有效性。紋理特征已經(jīng)被證明可以有效地用于森林蓄積量反演,研究利用灰度共生矩陣提取所有波段的紋理特征信息[13]。研究提取的所有特征變量的計(jì)算公式如表2所示。

表2 遙感特征變量提取Table 2 Variable extraction of remote sensing features

利用統(tǒng)計(jì)軟件R語(yǔ)言計(jì)算所有特征變量與森林蓄積量之間的Pearson相關(guān)系數(shù)(Pearson correlation coefficient)矩陣。選擇與森林蓄積量顯著相關(guān)的特征變量進(jìn)行線性逐步回歸篩選。為了提高變量篩選的可靠性,方差膨脹因子(Variance inflation factor,VIF)被用于減少變量之間的共線性[8],VIF閾值設(shè)為10。此外,重要性評(píng)價(jià)也將作為對(duì)比進(jìn)行變量篩選。重要性評(píng)價(jià)是基于隨機(jī)森林算法實(shí)現(xiàn)的,能夠提供所有特征變量的重要性排序,這對(duì)從眾多特征變量中選取適合反演的特征變量尤其有用[17]。由于森林生態(tài)系統(tǒng)的復(fù)雜性,非線性特征變量篩選方法具有極大的潛力[18]。

利用線性逐步回歸和重要性評(píng)價(jià)對(duì)所有的特征變量進(jìn)行篩選,結(jié)果用于建立森林蓄積量反演模型進(jìn)行精度比較。

1.4 森林蓄積量反演模型

1.4.1 多元線性回歸

多元線性回歸(Multiple linear regression,MLR)能定量地描述多個(gè)遙感變量與森林蓄積量的關(guān)系,作為參數(shù)模型的代表,由于方程形式簡(jiǎn)潔,易于實(shí)現(xiàn),已被廣泛用于森林參數(shù)估測(cè)[6]。多元線性回歸模型一般形式為:

式(1)中:Yi為響應(yīng)變量,X1,X2,…,Xi為解釋變量,β1,β2,…,βi為回歸參數(shù),β0為常數(shù)項(xiàng),μ為殘差項(xiàng)。

1.4.2 非參數(shù)模型

支持向量機(jī)(Support vector machine,SVM)是一種基于監(jiān)督學(xué)習(xí)對(duì)數(shù)據(jù)進(jìn)行二元分類的分類器,可以通過(guò)構(gòu)建核函數(shù)進(jìn)行非線性估測(cè)。常見的核函數(shù)包括線性核函數(shù)、多項(xiàng)式核函數(shù)和高斯核函數(shù)。SVM計(jì)算的復(fù)雜性取決于支持向量的數(shù)目,而不是樣本空間的維數(shù),這可以有效地避免維數(shù)災(zāi)難。

隨機(jī)森林(Random forest,RF)是基于集成學(xué)習(xí)思想,通過(guò)快速構(gòu)造大量的決策樹來(lái)進(jìn)行建模預(yù)測(cè)。RF學(xué)習(xí)過(guò)程快速,泛化能力強(qiáng),對(duì)于大部分?jǐn)?shù)據(jù)集可以平衡誤差。此外,隨機(jī)森林可以評(píng)估變量對(duì)于模型構(gòu)建的相對(duì)重要性,這可以更好地理解模型的邏輯以及進(jìn)行高效的特征變量選擇[8]。

k最 近 鄰(k-nearest neighbor,kNN)指 與預(yù)測(cè)樣本最近的k個(gè)樣本。kNN是將鄰居樣本屬性的平均值賦給預(yù)測(cè)樣本以得到預(yù)測(cè)結(jié)果。利用kNN模型進(jìn)行預(yù)測(cè)時(shí),首先得到預(yù)測(cè)樣本與其他所有已知樣本之間的距離排序,確定與預(yù)測(cè)樣本距離最近的k個(gè)已知樣本的屬性,最終根據(jù)既定的決策規(guī)則進(jìn)行預(yù)測(cè)[7]。k值大小和距離度量是影響kNN模型估測(cè)效果的主要因素。k值過(guò)小將產(chǎn)生噪聲對(duì)結(jié)果產(chǎn)生影響,過(guò)大時(shí)模型的近似誤差會(huì)增大[9]。此外,距離度量直接決定用于預(yù)測(cè)的樣本,常用的距離度量有歐幾里得度量(也稱歐氏距離)(Euclidean metric)、曼哈頓距離(Manhattan distance)和馬氏距離[19](Mahalanobis distance),距離度量計(jì)算公式如式(2)~(4)所示。本研究為了探索不同的距離度量對(duì)kNN模型的估測(cè)影響,將同時(shí)基于3種距離構(gòu)建kNN模型用于森林蓄積量估測(cè)。最終,與多元線性回歸、支持向量機(jī)模型和隨機(jī)森林模型進(jìn)行對(duì)比分析,以確定研究區(qū)森林蓄積量最優(yōu)估測(cè)模型。

式中:D1、D2和D3分別表示歐氏距離、曼哈頓距離和馬氏距離,x1、x2、y1和y1分別為2個(gè)樣本的光譜值。式(4)中:X為向量樣本,T表示矩陣轉(zhuǎn)置,均值記為向量μ。

1.5 精度評(píng)價(jià)指標(biāo)

采用留一交叉驗(yàn)證(Leave-one-out cross validation)對(duì)模型估測(cè)效果進(jìn)行精度驗(yàn)證,以保證盡可能多的樣本進(jìn)入模型,提高模型的穩(wěn)定性和可靠性[8]。研究選擇決定系數(shù)R2[19](Coefficient of determination)、均方根誤差[20](Root mean square error,RMSE)、相對(duì)均方根誤差(Relative root mean square error,RRMSE)和平均絕對(duì)誤差(Mean absolute error,MAE)作為精度評(píng)價(jià)指標(biāo)。所有指標(biāo)計(jì)算公式如式(5)~(8)所示:

式中:yi表示森林蓄積量實(shí)測(cè)值,表示森林蓄積量模型預(yù)測(cè)值,表示實(shí)測(cè)森林蓄積量均值,n表示樣本數(shù)量。

2 結(jié)果與分析

2.1 特征變量篩選結(jié)果

經(jīng)過(guò)相關(guān)系數(shù)矩陣計(jì)算,與森林蓄積量顯著相關(guān)的特征變量共有57個(gè)(P<0.05)。利用線性逐步回歸結(jié)合方差膨脹因子最終得到的特征變量組合為RECI、SR34和SR53,多元線性回歸的模型統(tǒng)計(jì)量如表3所示。

表3 多元線性回歸模型統(tǒng)計(jì)量Table 3 Multiple linear regression model statistics

重要性評(píng)價(jià)能對(duì)所有特征變量在模型估測(cè)上的貢獻(xiàn)進(jìn)行度量,從而得到更重要的變量進(jìn)行建模。本研究利用R語(yǔ)言randomForest包對(duì)所有變量進(jìn)行重要性計(jì)算并排序,部分變量重要性排序如圖2所示,重要性最高的變量為RENDVI。此外,SR65、NDVI、B3和SR56也獲得了較高的重要性。最終將利用這5個(gè)變量建立支持向量機(jī)、隨機(jī)森林和kNN等非參數(shù)模型進(jìn)行森林蓄積量估測(cè)。

圖2 部分變量重要性排序Fig.2 Importance ranking of partial variables

2.2 森林蓄積量估測(cè)結(jié)果

利用多元線性回歸、支持向量機(jī)模型、隨機(jī)森林模型和基于多種距離度量構(gòu)建的kNN模型對(duì)研究區(qū)森林蓄積量進(jìn)行估測(cè),模型結(jié)果如表4所示。非參數(shù)模型相比多元線性回歸模型估測(cè)精度有顯著提高,支持向量機(jī)模型和隨機(jī)森林模型估測(cè)結(jié)果相似,基于歐式距離、曼哈頓距離和馬氏距離構(gòu)建的kNN模型的RMSE相比多元線性回歸分別降低了24.1%、28.2%和29.9%。在3種距離度量中,基于馬氏距離構(gòu)建的kNN模型估測(cè)精度最好,R2為0.66,RMSE為10.02 m3/hm2。

表4 森林蓄積量估測(cè)模型精度比較Table 4 Precision comparison of forest stock volume estimation models

圖3為利用多元線性回歸、支持向量機(jī)、隨機(jī)森林和基于多種距離度量構(gòu)建的kNN模型得到的預(yù)測(cè)值和實(shí)測(cè)蓄積量值之間的擬合圖。多元線性回歸模型存在大量的高估和低估值,預(yù)測(cè)值隨機(jī)性低,估測(cè)效果較差;基于歐式距離、曼哈頓距離和馬氏距離構(gòu)建的kNN模型擬合效果相似,但是高估和低估現(xiàn)象相對(duì)于多元線性回歸模型有顯著改善。其中,基于馬氏距離的kNN模型擬合效果最好,模型預(yù)測(cè)值基本呈隨機(jī)分布。

圖3 森林蓄積量模型擬合Fig.3 Fitting diagram of forest stock volume models

2.3 最優(yōu)模型森林蓄積量反演

以Sentinel-2多光譜遙感影像為數(shù)據(jù)源,結(jié)合韓城市森林蓄積量實(shí)測(cè)數(shù)據(jù),并利用基于馬氏距離的kNN模型對(duì)研究區(qū)進(jìn)行森林蓄積量反演,反演結(jié)果如圖4所示。研究區(qū)西北部地區(qū)的森林生長(zhǎng)情況較好,森林覆蓋率較高,蓄積量也分布較大。西南部地區(qū)蓄積量值次之。東部和南部地區(qū)主要是水域和建筑用地,森林分布較少,幾乎無(wú)森林蓄積量分布。基于馬氏距離的kNN模型森林蓄積量反演結(jié)果與研究區(qū)實(shí)際情況基本一致,反演效果較好,能滿足反演需求。

圖4 研究區(qū)森林蓄積量反演Fig.4 Forest stock volume inversion of the study area

3 結(jié)論與討論

3.1 結(jié) 論

以韓城市實(shí)測(cè)森林蓄積量數(shù)據(jù)為基礎(chǔ),結(jié)合Sentinel-2多光譜影像,利用多元線性回歸、支持向量機(jī)模型、隨機(jī)森林模型和基于歐式距離、曼哈頓距離和馬氏距離構(gòu)建的kNN模型對(duì)研究區(qū)進(jìn)行森林蓄積量反演,結(jié)論如下:1)利用kNN模型進(jìn)行森林蓄積量估測(cè)的精度顯著優(yōu)于多元線性回歸模型?;跉W式距離、曼哈頓距離和馬氏距離構(gòu)建的kNN模型的均方根誤差相比多元線性回歸分別降低了24.1%、28.2%和29.9%;2)在支持向量機(jī)模型、隨機(jī)森林模型和基于3種距離度量的kNN模型中,基于馬氏距離構(gòu)建的kNN模型估測(cè)精度最高。決定系數(shù)R2為0.66,均方根誤差RMSE為10.02 m3/hm2,相對(duì)均方根誤差RRMSE為18.31%,平均絕對(duì)誤差MAE為8.03 m3/hm2;3)基于馬氏距離的kNN模型的森林蓄積量反演結(jié)果與研究區(qū)實(shí)際情況基本一致,反演效果較好,能滿足反演需求。

3.2 討 論

研究使用的Sentinel-2遙感數(shù)據(jù)源是2015年6月發(fā)射的多光譜衛(wèi)星,空間分辨率包括10、20和60 m,能滿足多種反演需求[21]。Sentinel-2包含3個(gè)對(duì)植被冠層較敏感的紅邊波段,能有效地進(jìn)行森林參數(shù)反演[12]。紅邊波段已經(jīng)被證明對(duì)森林參數(shù)估測(cè)有效,通過(guò)紅邊波段構(gòu)建的紅邊植被指數(shù)與森林蓄積量、生物量等參數(shù)具有較強(qiáng)的相關(guān)性[22],研究區(qū)提取的歸一化紅邊植被指數(shù)RENDVI取得了最高的重要性。此外,通過(guò)線性逐步回歸篩選的變量中也包括葉綠素紅邊指數(shù)RECI,證明了紅邊波段對(duì)森林蓄積量估測(cè)具有較高的敏感性。

線性逐步回歸是常用的特征變量篩選方法,一般需要特征變量與森林蓄積量之間具有較高的相關(guān)關(guān)系,然而對(duì)于實(shí)際復(fù)雜的森林狀況可能難以滿足估測(cè)要求。重要性評(píng)價(jià)可以量化所有變量對(duì)于模型的貢獻(xiàn)程度,從而通過(guò)重要性排序得到合適的特征變量組合,重要性評(píng)價(jià)結(jié)合非參數(shù)模型進(jìn)行森林蓄積量反演具有極大的潛力[21]。距離度量方式能顯著影響kNN模型的估測(cè)效果,蔣馥根等[11]利用距離倒數(shù)加權(quán)構(gòu)建方差優(yōu)化kNN模型,顯著提高了森林蓄積量的估測(cè)精度。謝福明等[23]基于遺傳算法結(jié)合不同的距離度量對(duì)優(yōu)化的kNN模型進(jìn)行優(yōu)化,實(shí)現(xiàn)了高山松地上生物量高精度估測(cè)。本研究基于歐式距離、曼哈頓距離和馬氏距離分別構(gòu)建的kNN模型估測(cè)效果具有一定的差異,其中基于馬氏距離構(gòu)建的kNN模型精度最高,相比其他2種度量方式RMSE分別降低了7.6%和2.3%。然而,由于海拔、溫度等環(huán)境因素影響,實(shí)際的森林蓄積量分布具有空間異質(zhì)性,全局的k值在局部的森林蓄積量分布估測(cè)中可能存在局限性。Sun等[24]利用方差速率確定局部樣本量構(gòu)建kNN模型,實(shí)現(xiàn)了更合理的植被覆蓋度制圖。下一步將利用最優(yōu)的距離度量結(jié)合局部樣本量?jī)?yōu)化,確定適用于局部樣本的k值對(duì)kNN進(jìn)行優(yōu)化,以實(shí)現(xiàn)更高精度的森林蓄積量估測(cè)和更合理的空間分布制圖。

猜你喜歡
蓄積量度量反演
有趣的度量
反演對(duì)稱變換在解決平面幾何問(wèn)題中的應(yīng)用
模糊度量空間的強(qiáng)嵌入
迷向表示分為6個(gè)不可約直和的旗流形上不變愛因斯坦度量
一元立木材積表計(jì)算蓄積量誤差的探討
基于低頻軟約束的疊前AVA稀疏層反演
基于自適應(yīng)遺傳算法的CSAMT一維反演
林分蓄積量估算方法研究
2015年湖南省活立木蓄積量、森林覆蓋率排名前10位的縣市區(qū)
地質(zhì)異常的奇異性度量與隱伏源致礦異常識(shí)別
连江县| 汾西县| 昌黎县| 积石山| 百色市| 云霄县| 承德市| 华池县| 策勒县| 蒙城县| 越西县| 武陟县| 盐边县| 青铜峡市| 望江县| 神农架林区| 南投市| 凉山| 陈巴尔虎旗| 济阳县| 睢宁县| 桦南县| 烟台市| 太谷县| 沭阳县| 河间市| 荔波县| 射阳县| 巴中市| 沾化县| 中超| 宜丰县| 介休市| 昌宁县| 宁海县| 遵义县| 焉耆| 常州市| 丰顺县| 阳山县| 寻乌县|