国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

全極化合成孔徑雷達高維小樣本數(shù)據(jù)在森林地上生物量估算中的應用

2022-09-08 07:50吳國明范文義司國玉于穎魏萌劉志會毛毓
東北林業(yè)大學學報 2022年8期
關鍵詞:方根極化決策樹

吳國明 范文義 司國玉 于穎 魏萌 劉志會 毛毓

(東北林業(yè)大學,哈爾濱,150040) (河北省塞罕壩機械林場) (東北林業(yè)大學)

森林地上生物量是研究碳循環(huán)的重要指標[1],常用傳統(tǒng)的實地調(diào)查法或依據(jù)遙感的方法進行估算[2]。實地調(diào)查法多由異速生長方程計算獲得,遙感的方法對于區(qū)域的森林地上生物量估算至關重要[3]。

遙感的方法主要的數(shù)據(jù)源,通常為機載或星載的光學傳感器、激光雷達、合成孔徑雷達(SAR)等。光學遙感不具備穿透性,只能收集到冠層表面信息,無法表征波段樹干信息。雨云的存在,也會影響光學遙感的應用[2]。然而,這些限制可以通過使用合成孔徑雷達克服,它可以穿透樹冠并與樹枝、樹干相互作用[4]。合成孔徑雷達常用波段由短到長分別為X(波長37.5~25.0 mm)、C(波長75.0~37.5 mm)、L(波長300.0~150.0 mm)、P(波長1 300.0~300.0 mm)波段。長波長的合成孔徑雷達衛(wèi)星,通過穿透冠層覆蓋層使信號直接作用于樹干,從而使森林地上生物量可以進行更直接的測量[5]。多項研究表明,較長波長的L波段合成孔徑雷達數(shù)據(jù),在森林地上生物量估算中是有效的[1,6-7]。通常通過建立森林地上生物量和合成孔徑雷達參數(shù)之間的經(jīng)驗關系的回歸模型估計,包括后向散射強度或極化分解[4,7-9]。

高維小樣本,是指數(shù)據(jù)集合中樣本的特征維數(shù)遠高于樣本的個數(shù)[10]。隨著極化合成孔徑雷達圖像處理技術的發(fā)展,越來越多的適用于森林的非相干極化分解方式被提出,如弗里曼(Freeman)分解[11]、山口(Yamaguchi)分解[12]、非負特征值(NNED)分解[13]等。雖然其中的分解方式在理論上存在一定的優(yōu)化遞進關系,但遙感數(shù)據(jù)源以及觀測區(qū)域條件的不確定性,使得各分解方式之間不能完全替代,而引入更多的分解結果又會引起特征維度的增加,高特征空間規(guī)模的樣本稀疏性使得絕大多數(shù)涉及統(tǒng)計學意義的建模方法都無法獲得正確而有效的結果,產(chǎn)生“維數(shù)災難”問題。此外,利用極化分解和后向散射系數(shù)構建特征集做森林地上生物量回歸預測,還存在著特征變量具有高共線性的問題。雖然不同的極化分解方式是對圖像以不同的方式進行解譯,但分解的散射機制大體相同,三分量分解將散射機制描述為體散射、奇次散射、偶次散射[11-13],二分量分解將散射機制描述為冠層體散射、地面散射[14]。這導致了提取散射分量在統(tǒng)計學上有很大的相關性。

在回歸模型中,影響模型效果的重要因素是樣本量[15]。森林地上生物量的樣本獲取多依賴于傳統(tǒng)的實地調(diào)查法[2],而獲取大樣本林業(yè)數(shù)據(jù)又會極大提高外業(yè)成本,所以林業(yè)數(shù)據(jù)的高維小樣本是常見問題。對于大樣本情況時估算森林地上生物量的研究成果較多[2,7-8,16];但如何利用以高共線性的極化合成孔徑雷達數(shù)據(jù)為特征集的高維小樣本數(shù)據(jù),進行維數(shù)約簡和參數(shù)回歸,以提高森林地上生物量的估算精度,這方面的研究較少。

為此,本研究以河北省承德市塞罕壩機械林場為試驗區(qū)域,設置37塊實測樣地;以隨機森林模型、自適應遺傳算法為基礎,構建隨機森林模型與自適應遺傳算法的混合算法(RF-LOOCV-AGA),對高維小樣本合成孔徑雷達數(shù)據(jù)特征集同時進行特征選擇和回歸估計;利用試驗地大地2號(ALOS-2)全極化數(shù)據(jù)提取121個高共線性特征,結合實測樣地數(shù)據(jù),構建高共線性高維小樣本數(shù)據(jù)集,并應用隨機森林模型與自適應遺傳算法的混合算法、隨機森林算法、逐步回歸法,分析全極化合成孔徑雷達數(shù)據(jù)估算森林地上生物量時,因樣地較少、影響因素維數(shù)多存在的高共線性;探索在算法層面各極化分解參數(shù)之間存在的高共線性及小樣本林業(yè)數(shù)據(jù)回歸估計泛化能力;將3種算法進行對比分析,旨在為應用高共線性高維小樣本林業(yè)數(shù)據(jù)估算森林地上生物量提供參考。

1 研究區(qū)域概況

本研究試驗區(qū)域為塞罕壩機械林場,位于內(nèi)蒙古高原的東南緣,地處內(nèi)蒙古高原與冀北山地的交界處(42°22′~42°31′N,116°53′~117°31′E)。地形地貌組合為高原-波狀丘陵-漫灘-接壩山地;林區(qū)屬寒溫帶大陸性季風氣候,氣候由半濕潤向半干旱氣候過渡,年降水量490 mm、蒸發(fā)量1 230 mm,海拔1 010.0~1 939.9 m[17]。樣地主要樹種為白樺(Betulaplatyphylla)、椴樹(Tiliatuan)、碩樺(Betulacostata)、華北落葉松(Larixprincipis-rupprechtii)、山楊(Populusdavidiana)、色木槭(Acermono)、油松(Pinustabuliformis)、云杉(Piceaasperata)、柞樹(Quercusmongolica)、樟子松(Pinussylvestrisvar.mongolica)共計10個樹種。

2 研究方法

2.1 數(shù)據(jù)來源

星載數(shù)據(jù):本研究以一景覆蓋塞罕壩機械林場的大地2號(ALOS-2)星載全極化合成孔徑雷達數(shù)據(jù)作為遙感數(shù)據(jù)源,使用SNAP8.0軟件對大地2號數(shù)據(jù)進行輻射定標、生成T3矩陣、精致李濾波(Refine-Lee濾波,9×9大窗口、3×3小窗口)、多視(4×9)和地理編碼處理后,導入PolSARpro_v6.0.2中進行極化分解,提取相應功率值與后向散射系數(shù);星載全極化合成孔徑雷達參數(shù):數(shù)據(jù)級別為HBQR1.1;成像日期為2020年8月8日15時20分;極化通道為全極化(水平同向極化(HH)、水平-垂直異向交叉極化(HV)、垂直-水平異向交叉極化(VH)、垂直同向極化(VV));距離分辨率為2.86 m;方位分辨率為2.78 m;緯度范圍為41.904 1°~41.612 1°N;經(jīng)度范圍為116.952 6°~117.730 0°E。

樣地數(shù)據(jù):在星載數(shù)據(jù)覆蓋的試驗區(qū)內(nèi)等間隔設置樣地(見圖1),使用實時動態(tài)測量儀對樣地中心點進行定位,并對樣地內(nèi)數(shù)目進行每木檢尺,獲取其胸徑、樹高;單木生物量由異速生長方程計算獲得。

圖1 樣地位置示意圖(背景為垂直-水平異向交叉極化(VH)后向散射系數(shù)圖)

輔助數(shù)據(jù):全球數(shù)字高程數(shù)據(jù)用于提取地形因子及星載大地2號數(shù)據(jù)的地理編碼(見圖2)。本研究采用ASTER GDEM V2 30m全球數(shù)字高程數(shù)據(jù),數(shù)據(jù)來源于中國科學院計算機網(wǎng)絡信息中心地理空間數(shù)據(jù)云平臺。

圖2 研究區(qū)域地形信息

2.2 高維高共線性影響因素提取

本研究采用后向散射系數(shù)與極化分解作為基礎影響因素。已有研究表明,與單通道后向散射系數(shù)相比,經(jīng)過各類變換構造的指數(shù),比單一影響因素對植物生物量的敏感性更高[18],如,與生物量的相關性,σVH、σVV比σVH/σVV更好[19]。所以本研究在使用4種后向散射系數(shù)(σVH、σVV、σHH、σHV)以及弗里曼(Freeman)二分量分解[11]、安-楊(AnYang)三分量分解、非負特征值(NNED)三分量分解、弗里曼(Freeman)三分量分解[14]、范西爾(Van Zyl)三分量分解[13]、山口(Yamaguchi)三分量分解[12]、直推式支持向量機(TSVM)分解、“散射熵(H)-各向異性度(A)-平均散射角(α)”協(xié)同分解(H-A-α分解)、依據(jù)特征值的“散射熵(H)-各向異性度(A)-平均散射角(α)”協(xié)同分解、依據(jù)特征向量的“散射熵(H)-各向異性度(A)-平均散射角(α)”協(xié)同分解的各個散射分量作為影響因素之外,另經(jīng)過各類變換構造后向散射系數(shù)指數(shù)(Iσ=σVH/σVV)、三分量極化分解指數(shù)(I3,V=V/(D+O)、I3,D=D/(V+O)、I3,O=O/(D+V),V為體散射分量、D為二次散射分量、O為表面散射分量)、二分量極化分解指數(shù)(I2,V=V/G、I2,G=G/V,G為地面散射分量)作為影響因素。

2.3 逐步回歸法

參數(shù)約簡是解決高共線性高維度小樣本的重要方法,參數(shù)約簡可分為特征抽取和特征選擇兩個方面[20]。特征抽取,是指在原始數(shù)據(jù)集中通過構造變換的方式,構建新的低維空間,其代表性的方法是主成分分析法。特征選擇,是在原始特征空間中,根據(jù)某種檢驗結果,挑選一部分最優(yōu)特征子集達到降維的目的。與特征抽取相比,特征選擇不改變原始數(shù)據(jù)集的影響因素含義,僅僅通過篩選的方式剔除不相關或多余影響因素,使模型描述更加準確[21]。應用多元逐步回歸方法構建模型,是將影響因素逐個引入模型中,對每個引入的影響因素進行顯著性檢驗,保留顯著影響因素;當引入的新影響因素使得原影響因素變得不再顯著時剔除原影響因素,逐步回歸獲得最優(yōu)模型;逐步回歸作為一種同時進行參數(shù)約簡與回歸的方法得到了廣泛的應用[22]。本研究將隨機森林模型與自適應遺傳算法的混合算法(RF-LOOCV-AGA),與被廣泛應用于參數(shù)約簡和參數(shù)擬合的逐步回歸法進行對比。

2.4 隨機森林算法

隨機森林算法是集成多個弱學習器的集成算法,其基本單元是決策樹,若干個決策樹組成了隨機森林算法。隨機森林算法,主要利用自助重抽樣方法從原始樣本中抽取約66%的樣本,對每個決策樹進行訓練;取所有決策樹預測值的平均值作為最終的回歸結果[23]。隨機森林算法,不僅適用于回歸和分類計算,也可進行特征排序與特征篩選。在隨機森林中,利用每一顆決策樹,使用自助重抽樣沒有抽到的約33%的數(shù)據(jù)計算它的誤差,稱為袋外誤差(記為EOB,1);然后,隨機地對袋外數(shù)據(jù)所有樣本的特征加入噪聲干擾,并再次計算它的袋外誤差(記為EOB,2);設隨機森林中有n棵樹,則特征X的重要性為∑[(EOB,2-EOB,1)/n]。用這個表達式作為相應特征的重要性的度量值,是因為若給某個特征隨機加入噪聲后,袋外的準確率大幅度降低,則說明這個特征對于樣本的分類結果影響很大,重要程度比較高,由此可以獲取特征的重要性排序,按照此排序去除重要性較小的影響因素即可完成特征選擇。

2.5 隨機森林模型與自適應遺傳算法的混合算法構建

隨機森林模型與自適應遺傳算法的混合算法(RF-LOOCV-AGA)的基礎框架,依據(jù)自適應遺傳算法;遺傳算法是一種隨機搜索算法,可模擬自然生物的自然選擇和進化。與傳統(tǒng)的搜索算法(例如二分法、斐波那契、牛頓法)相比,遺傳算法具有很高的魯棒性,并且能夠解決高度復雜的非線性問題[24]。該算法模仿生物學中簡單染色體的雙螺旋編碼,以二進制數(shù)據(jù)結構對自變量集進行編碼,并對該結構進行重組運算以保留關鍵信息[25]。通過算法本身不斷地進行交叉變異,最后接近最佳的解決方案。

遺傳算法本質(zhì)上屬于求解極大值或極小值的優(yōu)化算法;所以進行初始特征選擇后,依然要有一個明確的數(shù)值作為優(yōu)化目標,并將其定義為適應度。對于估算森林地上生物量的模型,最重要的指標是模型的均方根誤差、決定系數(shù),均方根誤差越小則模型的相對偏差越小,決定系數(shù)越大則模型的計算精度越高。由于高維小樣本數(shù)據(jù)特征數(shù)(121個)遠大于樣本數(shù)(37個),所以即使在種群中篩選掉一部分特征影響因素,篩選后的影響因素數(shù)目仍然有很大概率會大于樣本數(shù)。統(tǒng)計學公認的原理是:即便在模型中加入與評價指標無關的影響因素,決定系數(shù)依然會增加而不是減?。划斕卣鲾?shù)大于樣本數(shù)時會導致決定系數(shù)無限接近于1,所以利用決定系數(shù)控制遺傳算法達到最優(yōu)解是錯誤的選擇。小樣本數(shù)據(jù)面臨的最大問題,是在進行回歸估計時,由于樣本在特征空間的稀疏性導致擬合模型將噪聲變化納入模型中,導致泛化能力變差;所以,本研究直接選擇利用表述小樣本泛化能力的交叉留一法均方根誤差作為迭代的控制依據(jù),均方根誤差越小,模型效果越好,適應度越大。

控制均方根誤差最小作為依據(jù),需要一個模型對每一套特征子集的交叉留一法均方根誤差進行擬合。該模型需要滿足以下條件:①能對全部特征進行建模;②建模后無需對輸入影響因素進行共線性檢驗、顯著性檢驗;③模型具有很強的魯棒性;④由于每次迭代需要隨機進行2次交叉和2次變異,共計算4N次模型的交叉留一法均方根誤差數(shù)值,所以需要模型本身具有很好的運行效率。條件①、②排除了需要進行各種檢驗的線性模型;條件④排除需要設置大量超參數(shù)的神經(jīng)網(wǎng)絡模型,如負反饋神經(jīng)網(wǎng)絡模型(BP),超參數(shù)是指機器學習在開始學習過程之前設置的參數(shù),對于負反饋神經(jīng)網(wǎng)絡需要設置隱含層層數(shù)、單層神經(jīng)元個數(shù)、學習率、動量因子等。隨機森林則滿足以上全部條件,隨機森林的基本單元是決策樹,本質(zhì)是通過集成學習的思想將多棵回歸決策樹集成的一種算法。它具有以下兩種優(yōu)點:①能夠處理具有高維特征的輸入樣本,而且不需要降維。②所需調(diào)節(jié)的超參數(shù)只限于決策樹數(shù)量,與負反饋神經(jīng)網(wǎng)絡算法、支持向量機算法相比,需調(diào)節(jié)的超參數(shù)較少。所以,本研究選用隨機森林回歸模型交叉留一法均方根誤差最小,作為遺傳算法迭代的目標值。

對于小樣本數(shù)據(jù)集采用交叉留一法驗證其泛化能力并無爭議;但隨機森林算法自助抽樣存在的隨機變動性,導致即使在同一超參數(shù)和樣本下每次交叉留一法結果均不相同,此問題在文獻中并無相關研究。為了驗證隨機森林交叉留一法計算均方根誤差的可行性,本研究在數(shù)據(jù)集中隨機提取13個影響因素,并將決策樹數(shù)目定為75,進行97 349次隨機森林交叉留一法計算泛化均方根誤差數(shù)值(見圖3),計算結果整體概率呈現(xiàn)正態(tài)分布,其均值為19.643 6 t/hm2、方差為0.109 0、標準差為0.33 t/hm2;雖然每次訓練泛化精度會有數(shù)值變動,但數(shù)值變動范圍較小,取均值描述其交叉留一法泛化精度具有統(tǒng)計學意義。

圖3 97 349次計算隨機森林模型交叉留一法均方根誤差值概率分布及直方圖

隨機森林模型也需要超參數(shù)進行控制,與其他機器學習模型復雜的超參數(shù)相比,隨機森林僅需要控制回歸決策樹的數(shù)目即可達到調(diào)節(jié)模型的目的。已有文獻研究中,機器學習算法的超參數(shù)(如,負反饋神經(jīng)網(wǎng)絡模型的網(wǎng)絡層數(shù)、神經(jīng)元個數(shù)等)的確定,多數(shù)是通過依據(jù)反復試驗的各種搜索方法(如,隨機搜索、網(wǎng)格搜索)手動進行的[26]。手動對超參數(shù)進行調(diào)節(jié),無法保證能發(fā)揮算法本身的最大潛力;而過于復雜的超參數(shù)會產(chǎn)生模型算法過于復雜,導致泛化能力變差,且運行時間過長;所以,機器學習算法超參數(shù)的調(diào)節(jié),是一種優(yōu)化。在利用遺傳算法進行特征選擇的同時,進行超參數(shù)的控制。

本研究先期測試中,輸入整體特征集,分別對1~200個決策樹時的隨機森林模型進行擬合(見圖4)。由圖4可見:在決策樹數(shù)量達到176時,隨機森林擬合均方根誤差曲線逐漸收斂于10.899 6 t/hm2;所以,本研究將決策樹的范圍設定為1~255的范圍,此范圍換算為二進制需要8位即E=8。在此基礎上,增加決策樹的數(shù)量對模型提升較小,且會明顯增加模型運行時間。此時遺傳算法求解的優(yōu)化即為:在哪種特征子集及決策樹數(shù)目時,能夠得到泛化能力最好的估算森林地上生物量的隨機森林模型。

圖4 隨機森林模型擬合均方根誤差與決策樹數(shù)目關系曲線

將所有特征子集和決策樹數(shù)量的組合,代入隨機森林模型,計算交叉留一法均方根誤差。由于隨機森林本身存在波動性,所以取10次隨機森林交叉留一法均方根誤差的平均值作為當前組合的適應度;用隨機森林交叉留一法所得均方根誤差,計算動態(tài)自適應變異概率及交叉概率。目的是在當前個體較為優(yōu)良時,采用較低交叉及變異概率保證最優(yōu)個體保持穩(wěn)定;在個體較差時,提高交叉及變異概率,以獲取更優(yōu)個體。

變異概率(PV,b):Fd

交叉概率(PV,j):Fd

Fmax為最大適應度(即種群所有個體交叉留一法均方根誤差最低值)、Favg為當前種群平均適應度(即種群所有個體交叉留一法均方根誤差平均值)。當?shù)罠max-Favg時,認為種群內(nèi)所有個體交叉留一法均方根誤差值趨于穩(wěn)定,所選特征組合和決策樹數(shù)目近似相同。此時,輸出最優(yōu)特征組合、決策樹數(shù)目以及對應的隨機森林交叉留一法均方根誤差,迭代過程見圖5。

RF為隨機森林算法;AGA為自適應遺傳算法;RF-AGA為隨機森林與自適應遺傳算法混合算法。圖5 隨機森林模型與自適應遺傳算法的混合算法流程圖

3 結果與分析

3.1 森林地上生物量估算中各影響因素的相關性

對提取的121個影響因素進行相關性分析,各影響因素之間相關性很高,且具有多重共線性。提取其中各極化方式體散射(見表1)、表面散射(見表2)、二次散射(見表3),各散射機制之間相關系數(shù)最高可達0.9以上。

表1 各極化分解方法體散射分量間的相關系數(shù)

表2 各極化分解方法表面散射分量間的相關系數(shù)

表3 各極化分解方法二次散射分量間的相關系數(shù)

3.2 對森林地上生物量估算的3種算法精度比較

利用全部121個影響因素、37個樣本,分別輸入隨機森林模型與自適應遺傳算法的混合算法、逐步回歸法、隨機森林回歸算法,進行模型泛化精度對比。

逐步回歸法:對逐步回歸模型擬合與交叉留一法進行檢驗,模型通過顯著性檢驗和多重共線性檢驗,擬合模型散點圖與交叉留一法驗證散點圖見圖6。

圖6 逐步回歸模型擬合、交叉留一法檢驗結果

最終線性模型為:

BAG=252.139-1 823.265[DF3/(VF3+OF3)]-164.091An+

0.454ψ1+1.594(GF2/VF2)+0.525α3-0.837τ-

0.434α2。

式中:BAG為森林地上生物量;DF3為弗里曼三分量分解二次散射分量;VF3為弗里曼三分量分解體散射分量;OF3為弗里曼三分量分解表面散射分量;An為依據(jù)特征值的“散射熵(H)-各向異性度(A)-平均散射角(α)”協(xié)同分解的各向異性值;ψ1為直推式支持向量機(TSVM)分解的相位參數(shù);GF2為弗里曼二分量分解地面散射;VF2為弗里曼二分量分解體散射;α3為直推式支持向量機分解的第三散射角參數(shù);τ為直推式支持向量機分解的目標最大特征狀態(tài)橢圓率角;α2為直推式支持向量機分解的第二散射角參數(shù)。

隨機森林回歸算法:分別取決策樹數(shù)量為50、100、150、200帶入隨機森林算法,擬合與泛化精度(見表4)。

表4 隨機森林算法擬合與交叉留一法檢驗結果

隨機森林模型與自適應遺傳算法的混合算法(RF-LOOCV-AGA):經(jīng)過700次迭代后遺傳算法整體種群趨于穩(wěn)定(見圖7),平均種群適應度(Favg)-最大種群適應度(Fmax)=0.250 4 t/hm2。

圖7 最大種群適應度及平均種群適應度隨遺傳次數(shù)的變化曲線

篩選出含有19個影響因素的特征子集:水平同向極化后向散射系數(shù)(σHH)、水平-垂直異向交叉極化后向散射系數(shù)(σHV)、垂直-水平異向交叉極化后向散射系數(shù)(σVH)、山口(Yamaguchi)三分量分解的體散射分量、安-楊(AnYang)三分量分解的二次散射分量、非負特征值(NNED)分解的體散射分量、“散射熵(H)-各向異性度(A)-平均散射角(α)”協(xié)同分解(H-A-α分解)的散射熵和各項異性度協(xié)同分量、依據(jù)特征向量的“散射熵(H)-各向異性度(A)-平均散射角(α)”協(xié)同分解的酉矩陣第二行二列相位因子(γ2)、依據(jù)特征向量的“散射熵(H)-各向異性度(A)-平均散射角(α)”協(xié)同分解的酉矩陣第三行三列相位因子(γ3)、弗里曼三分量分解二次散射分量(DF3)/[體散射分量(VF3)+表面散射分量(OF3)]、弗里曼三分量分解體散射分量(VF3)/[二次散射分量(DF3)+表面散射分量(OF3)]、弗里曼(Freeman)三分量分解表面散射分量(OF3)/[體散射分量(VF3)+二次散射分量(DF3)]、范西爾(VanZyl)三分量分解體散射分量/[二次散射分量+表面散射分量]、山口(Yamaguchi)三分量分解體散射分量/[二次散射分量+表面散射分量]、非負特征值分解(NNED)三分量分解體散射分量/[二次散射分量+表面散射分量]、非負特征值分解(NNED)表面散射分量/[體散射分量+二次散射分量]、依據(jù)特征值的“散射熵(H)-各向異性度(A)-平均散射角(α)”協(xié)同分解的單次反射特征值相對差異度、依據(jù)特征值的“散射熵(H)-各向異性度(A)-平均散射角(α)”協(xié)同分解的香農(nóng)熵分量、T3矩陣的二行三列元素的實部以及T3矩陣的三行三列元素,決策樹數(shù)量為255,計算出擬合精度與預測精度(見表5)。

表5 RF-LOOCV-AGA算法擬合與交叉留一法檢驗結果

由圖8可見:利用隨機森林對121個具有多重共線性的影響因素集進行重要性排序,分別取決策樹數(shù)量為50、100、150、200;結果表明,在不同決策樹數(shù)量時,重要性排序結果具有較大差異。如,第4影響因素(垂直同向極化(σVV)),當決策樹數(shù)量為50、200時具有重要性,而決策樹數(shù)量為100、150時重要性為0。同一影響因素在不同決策樹數(shù)量時排序結果差異較大,隨機森林特征選擇算法在高維高共線性小樣本數(shù)據(jù)中失效。

圖8 決策樹數(shù)量為50、100、150、200時各影響因素的重要性

4 討論

利用隨機森林算法袋外數(shù)據(jù)計算誤差,對特征進行排序篩選,是常用的算法之一。在一定精度要求下進行特征的排序篩選,依靠兩個方面,一是增大樣本單元數(shù),一是降低特征之間的共線性。但對于高維高共線性小樣本數(shù)據(jù),樣本單元數(shù)有限,因此只能靠降低特征的共線性減小模型欠擬合或過擬合。高共線性不但使隨機森林回歸可能遇到的過擬合導致泛化能力差,也會導致特征選擇排序的不準確性。在取極端共線性即兩個影響因素完全相同時,即影響因素A等于影響因素B;隨機森林的自抽樣會隨機保留其中一個影響因素作為重要影響因素,另一個影響因素重要性幾乎為0。這是由于隨機森林本身由有限決策樹構成,決策樹的構建屬于局部貪婪算法導致的。決策樹取影響因素A后性能提升顯著,但再加入B時,由于A=B,所以決策樹性能不會有任何變化;自抽樣可能隨機抽取A、B中任意一個,導致了隨機森林隨機保留其中一個影響因素作為極其重要影響因素,而另一個影響因素重要性幾乎為0;而依據(jù)自適應遺傳算法框架進行特征篩選,可以避免此問題。

本研究構建的隨機森林模型與自適應遺傳算法的混合算法(RF-LOOCV-AGA),作用、目的與逐步回歸法最為類似。逐步回歸法,利用傳統(tǒng)的統(tǒng)計檢驗方法逐個將影響因素代入線性模型,進行顯著性檢驗與多重共線性檢驗,將保留的影響因素集進行線性回歸建模。隨機森林模型與自適應遺傳算法的混合算法從泛化能力考慮,求解當前數(shù)據(jù)集的最優(yōu)泛化能力。高共線性影響模型精度的主要原因是:①高共線性影響因素的存在,導致模型過擬合泛化能力變差;②利用隨機森林進行高共線性特征篩選時,可能導致影響因素重要性排序不唯一。隨機森林模型與自適應遺傳算法的混合算法,將自適應遺傳算法的最優(yōu)化能力、隨機森林回歸算法對高維小樣本數(shù)據(jù)的強魯棒性以及交叉留一法對模型泛化能力的強檢驗性充分結合。將高維高共線性小樣本數(shù)據(jù)集特征篩選及參數(shù)回歸,轉(zhuǎn)換為:在何種影響因素子集及隨機森林決策樹數(shù)量時,能得到泛化能力最強的隨機森林模型。

Campbell et al.[27]利用提出一種改進的隨機森林算法對131個影響因素65個樣本的數(shù)據(jù)集進行影響因素選擇;該算法使用一個三階段過程,該過程迭代地使用隨機森林移除與結果幾乎沒有關系的影響因素、準確預測不需要的影響因素、最后的冗余影響因素,最后利用簡約的預測影響因素集用于創(chuàng)建隨機森林模型,預測森林地上生物量。與文獻[27]的影響因素選擇方法相比,本研究算法更具優(yōu)勢;因為本研究的研究對象是條件更為苛刻的具有高共線性高維度的小樣本數(shù)據(jù)集,對于其他條件更為寬松的數(shù)據(jù)集同樣適用。

5 結論

提取大地2號全極化影像的后向散射系數(shù)與極化分解參數(shù)構建指數(shù),以相關系數(shù)矩陣為基礎,證明各極化分解影響因素之間有較高的多重共線性。

計算97 349次同一數(shù)據(jù)集隨機森林交叉留一法均方根誤差數(shù)值,結果表明整體概率呈現(xiàn)正態(tài)分布,均值為19.643 6 t/hm2、方差為0.109 0、標準差為0.33 t/hm2,證明交叉留一法可以用于隨機森林模型;取若干次隨機森林交叉留一法驗證均方根誤差的均值,可以表述隨機森林模型的泛化能力。

分析在高共線性時決策樹數(shù)量為50、100、150、200時隨機森林特征排序,不同決策樹數(shù)量時排序結果差異巨大,證明在高維高共線性小樣本時隨機森林特征排序法失效。

構建了隨機森林模型與自適應遺傳算法的混合算法(RF-LOOCV-AGA),適用于高維高共線性小樣本林業(yè)數(shù)據(jù)的參數(shù)篩選和回歸估計;并利用覆蓋中國河北省承德市塞罕壩機械林場的大地2號全極化數(shù)據(jù)與37塊地面實測樣地,構建高維高共線性小樣本數(shù)據(jù)集對隨機森林模型與自適應遺傳算法的混合算法進行應用測試,結果表明:與逐步回歸法、隨機森林算法相比,隨機森林模型與自適應遺傳算法的混合算法更適用于高維高共線性小樣本數(shù)據(jù)回歸估計與特征篩選。

此算法是首次提出并應用于高維高共線性小樣本林業(yè)數(shù)據(jù)處理,在中國北方寒溫帶半干旱半濕潤寒溫性大陸季風氣候的林區(qū)及大地2號全極化星載合成孔徑雷達時取得了極好的效果,在其他傳感器及林區(qū)的效果有待進一步驗證。

猜你喜歡
方根極化決策樹
活躍在高考中的一個恒等式
極化雷達導引頭干擾技術研究
基于干擾重構和盲源分離的混合極化抗SMSP干擾
簡述一種基于C4.5的隨機決策樹集成分類算法設計
我們愛把馬鮫魚叫鰆鯃
極低場核磁共振成像系統(tǒng)中預極化線圈的設計
極低場核磁共振成像系統(tǒng)中預極化線圈的設計
決策樹學習的剪枝方法
數(shù)學魔術——神奇的速算
數(shù)學魔術
泉州市| 南开区| 深水埗区| 盱眙县| 隆子县| 婺源县| 会泽县| 长春市| 兴山县| 苍梧县| 合阳县| 双城市| 微山县| 应城市| 珠海市| 庄浪县| 伽师县| 云林县| 盐源县| 监利县| 罗田县| 平顶山市| 阜新市| 斗六市| 平和县| 平遥县| 库车县| 乐平市| 缙云县| 曲阳县| 吉安县| 百色市| 黄大仙区| 安溪县| 竹溪县| 德保县| 化德县| 图们市| 枣阳市| 阳城县| 西畴县|