楊陽,葉江霞,王艷霞,蔡志勇,周汝良
(1.西南林業(yè)大學 地理與生態(tài)旅游學院,云南 昆明 650224;2.西南林業(yè)大學 林學院,云南 昆明 650224;3.中航通飛研究院有限公司/中國特種飛行器研究所,廣東 珠海 519000)
土壤多樣性與生物多樣性聯(lián)系緊密[1]。無機環(huán)境所代表的生境多樣性是形成生物群落多樣性的基本條件[2],土壤多樣性的精確研究取決于土壤類型與屬性的數(shù)字化精確調查,土壤類型是土壤數(shù)字化調查的重要內容,前人研究表明,土壤類型是影響土壤生態(tài)系統(tǒng)和土壤生物活動的主要因素[2]。明確土壤類型的精確分布,是土壤生態(tài)系統(tǒng)多樣性研究的前提和基礎[1],也是生態(tài)修復工作的前提[3]。數(shù)字土壤地圖將為生態(tài)保護、精準農(nóng)業(yè)的研究和應用等提供新的科技手段。當前,我國的土壤類型圖仍然是以第二次土壤普查數(shù)據(jù)為主,土壤類型圖為手工繪制,誤差相對較大[4-6]。隨著大數(shù)據(jù)時代的來臨,各種生態(tài)環(huán)境因子的數(shù)字化工作都需要更精確的數(shù)字化土壤類型圖。數(shù)字土壤制圖作為土壤制圖的新方法,具有省時省力、精度較高的優(yōu)點[4-5,7]。決策樹與隨機森林模型是數(shù)字土壤制圖中的常用方法,可以很好的捕捉土壤與環(huán)境的非線性關系,如:張振華等[8]利用包括決策樹與隨機森林在內的3種機器學習方法,對新疆渭干河三角洲土壤pH等3種屬性進行建模;周紫燕等[9]利用隨機森林模型對小流域土壤圖進行了更新;陳芳[10]利用隨機森林模型建立了湖北省棗陽市的土壤類型圖,并認為土壤類型圖與實際結果中等吻合(Kappa=0.59)。當前,樹形模型在數(shù)字土壤領域應用依舊較少,且局限于土壤元素或有機質建模中[9],尤其少見于土壤類型制圖。僅有的土壤類型制圖研究中,多是以行政區(qū)域為邊界的小尺度嘗試,缺乏以自然地理區(qū)域為研究對象的較大尺度研究,樹形模型在大尺度區(qū)域應用的效果還有待深入研究。
紅壤是我國亞熱帶和熱帶地區(qū)土壤受到中度富鐵鋁化作用的產(chǎn)物[11],是滇中高原的基帶土壤,廣泛分布于曲靖、昆明的大部分地區(qū),文山、紅河、玉溪的北部等地區(qū)。紅壤土體深厚、質地黏重、膠而不板,鹽基不飽和,土壤pH<7,養(yǎng)分含量低[12]。紅壤的主要植被類型是亞熱帶常綠闊葉林,以云南松(Pinusyunnanensis)為主要次生植被。前人研究[13-15]通過典型剖面研究了紅壤的理化性質、發(fā)生過程和農(nóng)業(yè)活動狀況。張蕓萍等[13]使用決策樹和多元回歸計算了土壤pH與主要養(yǎng)分之間的關系;趙文軍等[14]對撫仙湖流域四種土壤的理化性質進行了研究,認為紅壤最適合煙草種植;羅亞芬等[15]測量了陸良縣典型山原紅壤的剖面養(yǎng)分狀況。當前的研究主要通過挖掘剖面對滇中紅壤的理化性質進行研究,對紅壤空間分布的研究相對缺乏。明確紅壤的空間分布,對于掌握云南省土壤多樣性和土壤生物多樣性具有重要的價值。云南省自然地理條件復雜多樣,依據(jù)元江河谷將云南省分為滇東高原區(qū)和滇西橫斷山縱谷區(qū)[16],土壤類型和環(huán)境變量之間的關系受到多種環(huán)境因素的共同影響,這些環(huán)境因素相互耦合,表現(xiàn)出復雜的非線性關系[17]。滇東高原是云南紅壤分布最集中的地區(qū),利用樹形模型模擬滇東高原紅壤分布,對于推廣樹形模型在大尺度地形復雜區(qū)的應用價值具有重要意義,也是將數(shù)字化方法引入土壤多樣性研究的一次嘗試。
云南是典型的亞熱帶氣候區(qū),干濕季分明。植被分布以云南松和常綠闊葉林為主[18-21]。紅壤是云南省的代表性土壤,主要分布于24°N~27°N之間的滇中高原及海拔2 500 m以下的中低山和丘陵地區(qū)[22]。云南16個州(市)中,紅壤分布區(qū)包括昆明、曲靖、玉溪、楚雄、大理、保山及麗江南部地區(qū)。其中,滇中和滇南是云南省紅壤分布最集中的地區(qū)。本研究以哀牢山—元江河谷為界,將昆明、文山、曲靖全境,玉溪、紅河位于元江河谷以東的區(qū)域作為研究區(qū)域,依據(jù)1∶250萬云南省地圖劃分了研究區(qū),見圖1,
圖1 研究區(qū)的位置
(1)土壤樣本數(shù)據(jù)采集 本研究以云南省1995年土壤分布圖為基礎選取訓練樣本,并利用第二次土壤普查[23]和《云南土種志》[24]中所核定的31個土壤剖面信息作為檢驗數(shù)據(jù),訓練與檢測樣點見圖2。
圖2 研究區(qū)DEM及其樣點分布
采樣原則為:①以1995年云南土壤類型分布圖為采樣基礎,采樣樣點遍歷研究區(qū),采樣類型為紅壤樣本與非紅壤樣本;②為保證紅壤樣本采樣的典型性,盡量在紅壤區(qū)中心采樣,紅壤區(qū)與非紅壤區(qū)交界處1個柵格范圍內不作為采樣區(qū)域;③對于地形復雜區(qū),盡可能多設立采樣點。采樣點標簽為紅壤和非紅壤,利用采樣點數(shù)據(jù)作為機器學習算法的訓練和檢驗數(shù)據(jù)。最終得到訓練樣本1 145個,其中紅壤樣本916個,非紅壤樣本229個。
(2)環(huán)境因子數(shù)據(jù)獲取 Mcbratney等[25]提出的clorpt方程建議使用土壤發(fā)生學理論中的地形、植被因子進行建模預測;朱阿興等[5]提出較大空間范圍內氣候因子如年均溫度、年均降水等因子可作為氣候因子的衡量變量、數(shù)字高程模型(digital elevation model, DEM)及其衍生因子可以作為地形因子的主要變量、生物因子主要通過植被影響土壤發(fā)育,歸一化植被指數(shù)(normalized difference vegetation Index,NDVI)是最常采用的因子。通過綜合過往文獻的變量選擇和不同成土因子最有代表性的變量,最終選擇了以下變量,歸一化后參與建模。
地形數(shù)據(jù) 全國數(shù)字地形模型SRTM DEM 90 m分辨率數(shù)據(jù)(m)(來源于地理空間數(shù)據(jù)云http://www.gscloud.cn/),通過ArcGIS利用DEM計算出的全國坡向、坡度(°)、曲率數(shù)據(jù)、全國地貌隆起切割數(shù)據(jù)(計算方法來源自專利:CN111127646A)。
氣候數(shù)據(jù) 中國235°西南風場數(shù)據(jù)來源于文獻[26],全國多年平均降水量(mm)和平均溫度(℃)數(shù)據(jù)來源于https://www.worldclim.org/。
植被數(shù)據(jù) 全國NDVI數(shù)據(jù)來源于http://www.gscloud.cn/。
1.3.1 決策樹模型
決策樹模型(decision tree classifier)是一種樹形的分類與回歸模型,由一個根節(jié)點、一系列中間節(jié)點和一系列葉子節(jié)點構成。決策樹通過對指定任務的多級遞歸分割方法,使用信息熵(information entropy)或者基尼系數(shù)(gini)作為分類依據(jù),將一組訓練數(shù)據(jù)劃分為同質的數(shù)據(jù)集。決策樹建模簡單易懂且可以展示決策過程,具有良好的模型可視化能力,常被用于分類問題中。本研究通過調用sklearn庫中的Decision Tree Classifier函數(shù)在Python中實現(xiàn)了決策樹的建模,調用格式為Sklearn.DecisionTreeClassifier(criterion,random_state,max_depth,min_samples_split,min_samples_leaf)。
其中:criterion是分類標準;random_state是控制隨機性的參數(shù);max_depth是樹的最大深度,是決策樹泛化能力的關鍵參數(shù);min_samples_split和min_samples_leaf分別決定了樹分叉的最小個數(shù)和葉子節(jié)點的最小分類個數(shù)。
使用網(wǎng)格搜索(grid search)確定參數(shù)最優(yōu)值。網(wǎng)格搜索的原理是使用窮舉法將可能的取值進行排列組合,并使用交叉驗證對各組合的效果進行評估,選擇最優(yōu)解。利用sklearn中的train_test_split函數(shù)劃分訓練集和測試集,通過分類得分(score)對結果進行精度評價。應用柵格空間轉換數(shù)據(jù)庫(geospatial data abstraction library,GDAL)進行模型可視化。在ArcGIS 10.7中制圖輸出。
1.3.2 隨機森林模型
隨機森林模型(random forest classifier,RF)是一種由多顆決策樹組成的集成算法,2001年由美國統(tǒng)計學家Breiman提出。該模型通過對多顆決策樹構成的“森林”取平均值或少數(shù)服從多數(shù)的原則,達到最終效果大于單顆訓練優(yōu)異的決策樹的目的[17]。隨機森林采用了重復隨機抽樣(bootstrap)的建模方法,即對數(shù)據(jù)進行有放回的抽樣作為決策樹的訓練集。本研究在python中使用Sklearn.RandomForestClassifier進行了隨機森林建模,調用格式為,Sklearn.Random ForestClassifier(n_estimators,random_state,max_depth,min_samples_split,min_samples_leaf)。
其中:n_estimators是決策樹的關鍵參數(shù),決定了隨機森林中樹的數(shù)量,樹的數(shù)量直接決定了模型擬合能力的強弱。使用學習曲線確定最佳的n_estimators取值。學習范圍設定為1~200。其他參數(shù)設定方法都與決策樹相同。使用GDAL庫進行模型可視化,在ArcGis 10.7中制圖輸出。
1.3.3 精度評價
收集第二次土壤普查和《云南土種志》收錄的研究區(qū)內31個紅壤剖面作為檢驗樣地,使用分類得分來衡量測試集分類精度;使用混淆矩陣來驗證空間制圖分類的準確性,使用總精度代表混淆矩陣的結果,總精度計算公式如下。
式中:Pii為混淆矩陣中第i行第i列的像元數(shù),表示分類正確的個數(shù);N表示總樣本個數(shù);K表示總分類正確的總個數(shù)。
2.1.1 決策樹參數(shù)最優(yōu)取值
使用0.8∶0.2的比例劃分訓練集和測試集,將Random_state參數(shù)待調值設定為1~200。根據(jù)過往研究[27],最大深度超過20后會出現(xiàn)嚴重的過擬合現(xiàn)象,max_depth設定為1~20。min_samples_leaf和min_samples_split均設定為1~10(樣本量的0.1%),使用網(wǎng)格搜索對決策樹參數(shù)進行調優(yōu)。得到?jīng)Q策樹random_state最優(yōu)解為163,max_depth最優(yōu)解為5,min_samples_leaf和min_samples_split最優(yōu)解均為3,criterion最優(yōu)參數(shù)為gini,決策樹訓練集精度為0.812 3,驗證集精度為0.82。
2.1.2 隨機森林參數(shù)最優(yōu)取值
隨機森林模型的精度很大程度上取決于構成森林的決策樹數(shù)量。隨機森林需要調試的參數(shù)包括森林中樹的棵數(shù)n_estimators,樹的最大深度max_depth,最小樣本數(shù)min_samples_leaf和最小分裂個數(shù)min_samples_split,隨機模式random_state。除了樹的棵數(shù)之外,其他參數(shù)與決策樹相同。根據(jù)過往文獻[10,17,24,28],樹的棵數(shù)對于隨機森林精度的影響最高,因此,將n_estimators先設為默認值100,在其他參數(shù)得到最優(yōu)解后通過學習曲線對給定范圍內的值求最優(yōu)解。隨機森林使用bootstrap進行有放回的重復抽樣,不需要劃分訓練集和測試集,一個抽樣樣本大約包含了63%的原始訓練數(shù)據(jù),而剩余數(shù)據(jù)則作為測試集使用。除n_estimators外,其余參數(shù)設定均與決策樹相同,利用網(wǎng)格搜索進行窮舉得到參數(shù)最優(yōu)解:random_state最優(yōu)解為14,max_depth最優(yōu)解為3,min_samples_leaf和min_samples_split最優(yōu)解均為3。在確定了其他參數(shù)的最優(yōu)組合后,使用學習曲線對n_estimators參數(shù)進行調試,預設范圍為1~200(默認值±100%),學習曲線見圖3。可見,隨著決策樹棵數(shù)的提高,隨機森林的精度在0.798~0.803之間波動,n_estimators最優(yōu)解為9,測試集精度為0.803 18。不同方法在訓練集和測試集的精度見表1,在給定最優(yōu)參數(shù)條件下,決策樹在訓練集和測試集上的精度略高于隨機森林(+1.34%,+1.97%),但二者沒有顯著差異。
圖3 隨機森林參數(shù)調優(yōu)結果
為判定決策樹和隨機森林在不同隨機場景下在測試集上的精度差異,使用交叉驗證對兩種方法進行50次交叉驗證,結果見圖4。可以看出,絕大多數(shù)情況下,兩者變化的趨勢較為相似,隨機森林的精度略高于決策樹。僅在少數(shù)情況下,決策樹精度高于隨機森林??傮w而言,決策樹和隨機森林在測試集上的精度差異不顯著。
圖4 決策樹與隨機森林交叉驗證結果
采用隨機森林方法對影響模型精度的10種因子進行變量重要性排序,得到圖5結果。隨機森林預測變量重要性的方法為平均降低精度,即將一個變量替換為隨機數(shù)后模型精度降低的程度,降低程度越大表示該變量越重要。由圖5可知,影響隨機森林結果的參數(shù)重要性前5的變量為DEM(0.328 0),Tem.(0.281 9),t_cut(0.216 4),habt(0.062 9)和slope(0.055 7),其余變量對紅壤分布的影響相對較低。其中,DEM可以識別分布區(qū)海拔高度,云南省是山地主導的省份,海拔的變化直接影響了土壤種類的分布;Tem.是分布區(qū)溫度,熱量條件是影響土壤種類分布的重要因素;t_cut、habt是地形切割和地形起伏度的指標,slope是坡度指標,這3個指標可以衡量地形的起伏變化程度。在重要性前5的指標中,4個是DEM及衍生指標,這比較適合云南省山地主導的自然地理格局,與任必武等[29]的研究結論相似。可以認為,RF對變量重要性的排序比較合理。
圖5 RF環(huán)境變量重要性排序
表1 不同機器學習方法精度對比
2.3.1 決策樹的空間制圖與精度檢驗
決策樹空間制圖結果見圖6。整個研究區(qū)除北部轎子雪山部分地區(qū)(圖6黑框部分)之外,大部分都被劃分為紅壤區(qū)。紅壤區(qū)連續(xù)分布且不隨地形地貌的變化而變化。決策樹空間制圖顯示出與測試集精度極不匹配的空間分布。滇東地區(qū)除紅壤(面積占比55.26%)外,還包括石灰土(8.85%)、紫色土(8.33%)、棕壤(6.93%)等地帶性土壤分布,除此以外,還有水稻土、新積土等面積占比小于5%的土壤。決策樹模型不能準確的判斷紅壤與其他土壤的區(qū)別,很容易將其他類型的土壤全部劃分為紅壤。與郭鵬濤等[17]在小尺度橡膠園的結果(r=0.69)相比,決策樹模型在大尺度的制圖工作中缺乏土壤空間細節(jié)和空間變化,表明了決策樹算法沒有捕捉到整體數(shù)據(jù)中標簽與樣本的準確關系。因此可以認為,決策樹算法在大尺度的數(shù)字土壤類型制圖中是過擬合的,不適合在大范圍、大尺度的數(shù)字土壤制圖中使用。
圖6 決策樹模型的紅壤空間分布
2.3.2 隨機森林的空間制圖與精度檢驗
隨機森林模型的空間制圖(圖7)精度為67.74%(21/31),比1995年版云南土壤圖58.06%(18/31)的精度提高了9.68%,與陳芳[10]以棗陽市為研究區(qū)的中尺度土壤制圖精度相似。與測試集相比,空間制圖精度減少了近13%,這與小尺度復雜的微環(huán)境導致的模型辨別能力下降和變量的尺度變化影響有關。由圖6可知,隨機森林模型展現(xiàn)出了與地形地貌較為吻合的紅壤分布區(qū)。由此可見,雖然隨機森林在訓練集和驗證集上的精度略低于決策樹,但是由于集成算法的優(yōu)勢,隨機森林具有較強的泛化能力,對空間數(shù)據(jù)的處理不易出現(xiàn)過度擬合,更適合大范圍的數(shù)字土壤制圖。
圖7 隨機森林模型的紅壤空間分布
總體分布上,以南盤江河谷和文山盤龍江河谷為界,將整個區(qū)域分為3個部分,南盤江河谷以北為滇中高原,南盤江河谷以南,盤龍江以西為元江河谷區(qū),以東為滇東南喀斯特地貌區(qū)。滇中高原山系多呈南北走向,由西到東包括了三臺山、拱王山、梁王山、轎子雪山南部和烏蒙山系。在上述山系,紅壤基本沿山系呈南北走向(圖8),尤其是滇中昆明一帶,紅壤呈現(xiàn)非常清晰的南北帶狀分布趨勢,紅壤在本區(qū)域分布于山谷區(qū)和山南坡尤其是山西南坡,山北坡根據(jù)海拔的高低分布棕壤、黃棕壤、暗棕壤等半淋溶土;山體不同坡向土壤類型的不同與山體不同坡向水熱條件有關[30-32];元江河谷區(qū)紅壤同樣受到地形走勢的影響,基本沿西北—東南山系走向分布(圖9),相比于滇中高原區(qū),元江河谷區(qū)位于熱帶與亞熱帶氣候過渡區(qū),水熱條件好于滇中高原區(qū),如個舊(年均溫18.1 ℃,年降水1 101 mm[11])比昆明(年均溫14.25 ℃,年均降水924 mm[33-35])年均溫高近4 ℃,年均降水量高近200 mm。在河谷地區(qū)分布赤紅壤、紫色土等亞熱帶土壤,隨著海拔的升高,分布有黃壤、黃棕壤等土類;文山盤龍江以東為滇東南喀斯特地貌區(qū),海拔范圍為618~3 000 m,喀斯特地貌強烈發(fā)育導致了地表隆起切割強烈,缺乏高大山系。滇東南喀斯特地形區(qū)位于熱帶地區(qū),水熱條件優(yōu)越,紅壤與磚紅壤、赤紅壤,石灰土、黑色石灰土等土壤混雜分布,缺乏明顯的地帶性規(guī)律(圖10)。
圖8 滇中高原紅壤分布區(qū)
圖9 元江河谷紅壤分布區(qū)
圖10 滇東南喀斯特區(qū)紅壤分布區(qū)
地形地貌對紅壤分布的影響主要體現(xiàn)在影響成土的水熱條件上。研究區(qū)地形起伏較大,山南坡為陽坡和迎風坡,王艷霞等[36]通過計算滇中地區(qū)陰陽坡氣溫直減率認為陽坡(0.52 ℃)氣溫直減率小于陰坡(0.55 ℃)和平均值(0.53 ℃),表明陽坡在同等光照條件下可以獲得更多熱量;徐八林等[37]記錄了2018年文山麻栗坡縣9月2日降水數(shù)據(jù),山南側的猛硐鄉(xiāng)站4 h降水量為196.0 mm,而山北側的楊萬站同時段降水僅為45.3 mm,相差達100 mm以上。可見,地形地貌影響土壤分布的主要機制是通過水熱條件的再分配間接地影響成土過程和土壤發(fā)生學特性[12]。對于紅壤,水熱條件的改變直接影響淋溶作用的強度,進而影響紅壤的分布區(qū)域。
在大數(shù)據(jù)時代,手工繪制的土壤類型圖無論在精度和成本上都難以滿足數(shù)字農(nóng)業(yè)和精細化林業(yè)管理的需要。利用空間大數(shù)據(jù),通過機器學習方法進行數(shù)字土壤圖更新,對于提高土壤類型分布圖的精度和制圖效率具有重要的意義。本研究以滇東地區(qū)紅壤為研究對象,通過機器學習對滇東地區(qū)紅壤進行了空間分布模擬,對比1995年版土壤類型圖,本文有以下新的突破:通過機器學習方法,將滇東紅壤分布圖精度提高了9.68%,新的紅壤分布圖展現(xiàn)了更符合滇東地區(qū)自然地理條件的空間分布,更能表現(xiàn)出山地對土壤形成的間接主導作用;將機器學習方法引入云南數(shù)字土壤制圖工作中,得出了以隨機森林為代表的集成算法更適用于大尺度數(shù)字土壤制圖的結論。
(1)決策樹與隨機森林模型泛化能力的對比 決策樹模型在訓練集和測試集上的精度分別高于隨機森林1.34%和1.97%,但在最終的空間模擬中缺乏可信性。這表明相比于隨機森林,決策樹存在較嚴重的過擬合現(xiàn)象。可能的原因是:①關鍵參數(shù)max_depth數(shù)值的差異導致了模型復雜度的不同。決策樹的最大深度為5,隨機森林為3,這使得決策樹的模型更為復雜,也更能捕捉到訓練集中標簽與數(shù)據(jù)的特定模式,而不能準確地捕捉到整體數(shù)據(jù)與標簽之間的關系。②決策樹使用與標簽強相關的指標—如海拔和溫度—進行預測,而放棄相對弱相關的指標。而隨機森林使用隨機選擇方法選擇變量,高相關度和低相關度的變量都會被選擇,從而促進了樹的多樣性。隨機森林生成的決策樹是去相關性的,這使得隨機森林對過擬合具有更好的魯棒性。③模型過擬合還跟訓練集規(guī)模有關系,由于訓練集劃分的關系,決策樹(80%)比隨機森林(63%)訓練集規(guī)模大17%,這也導致了決策樹更能挖掘訓練集中標簽與樣本的關系。綜上所述,更復雜的模型和強相關變量為主的構建方法使決策樹有更好的統(tǒng)計精度,而隨機森林相對簡單的模型和去相關化的構建方法犧牲了相對較小的統(tǒng)計預測精度換得了更好的魯棒性。對于大尺度的土壤制圖來說,在相似的統(tǒng)計精度水平下,擁有更好泛化能力的隨機森林模型是比決策樹更優(yōu)的選擇。
(2)影響紅壤分布的主要環(huán)境變量 決策樹模型和隨機森林模型都表明海拔是主導紅壤分布的關鍵因子(0.328),這與Zeraatpisheh等[38]、楊煜岑等[39]、任麗等[40]、張厚喜等[41]研究結論類似。其他影響紅壤分布的因子包括地表切割、地表隆起、溫度。海拔是對紅壤分布影響最大的地理因子,這是因為云南垂直氣候差異明顯,不同的海拔高度有完全不同的水熱環(huán)境,海拔與地表隆起和地表切割度相互耦合,造就了滇東地區(qū)多樣的水熱因子組合。水熱是土壤發(fā)育的主導因子,溫度是影響紅壤分布的第二大因子(0.281 9),溫度影響土壤形成過程中物質的積累、分解和轉化過程,進而影響土壤類型與土壤性質[12]。這與任必武等[29]在福建亞熱帶復雜地貌區(qū)的結論類似。滇東地區(qū)海拔和地表切割隆起強烈,地形地貌的巨大差異使得溫度變化差異巨大。Van’t Hoff溫度定律表明,溫度每上升10 ℃,化學風化的速率增加一倍;根據(jù)Ramann風化因數(shù)定律,化學風化作用的強弱受到土壤絕對溫度和一年中可以發(fā)生風化的時間兩個因素的控制[11],溫度差異直接導致了風化強度和風化時間的差異,進而影響了風化和淋溶作用發(fā)生的程度,導致了土壤類型的差異。
一般情況下,降水也應當是影響土壤類型分布的重要因素,但在本研究中,降水的影響卻比較微弱,這可能是由于滇東地區(qū)降水差異相對較小且訓練樣點集中于滇中高原造成的。后期的工作將會增加對滇南區(qū)域的訓練。用于空間精度檢驗的現(xiàn)有剖面數(shù)據(jù)過少且分布不均勻是本研究另一個不足之處,現(xiàn)有檢驗剖面集中于滇中高原地區(qū),對于北側、南側的地形復雜區(qū)剖面數(shù)量不足,增加檢驗剖面數(shù)量也是未來需要進行的工作。
本研究以第二次土壤普查數(shù)據(jù)和《云南土種志》數(shù)據(jù)為基礎,利用決策樹和隨機森林模型,預測了滇東地區(qū)紅壤的空間分布格局,并利用現(xiàn)有的31個剖面進行了檢驗,得到了如下結論:
(1)隨機森林比決策樹更適合進行大尺度的紅壤制圖,利用隨機森林模型得到的紅壤分布圖精度為67.74%,比現(xiàn)行的土壤類型圖精度提高9.68%,展示了更精細的紅壤空間分布格局。海拔是影響紅壤分布最重要的因素,溫度、地形切割度、地形隆起度是影響紅壤分布的次要因素。
(2)隨機森林模型雖然能較好地捕獲土壤類型與環(huán)境變量之間的非線性關系,但隨機森林在驗證集上和利用剖面獲得的精度仍有近13%的差異,可能原因是訓練樣點仍然不足或者影響土壤類型的變量未被列入到模型中。在未來的研究中,如何彌補精度的差異以及如何引入更多相關變量是值得進一步研究的問題。