張振華,丁建麗,王敬哲,葛翔宇,王瑾杰,田美玲,趙啟東
集成土壤-環(huán)境關系與機器學習的干旱區(qū)土壤屬性數(shù)字制圖
張振華,丁建麗,王敬哲,葛翔宇,王瑾杰,田美玲,趙啟東
(新疆大學資源與環(huán)境科學學院/新疆大學綠洲生態(tài)教育部重點實驗室/新疆大學智慧城市與環(huán)境建模自治區(qū)普通高校重點實驗室,烏魯木齊 830046)
【目的】土壤屬性的空間分布是影響農(nóng)業(yè)生產(chǎn)力、土地管理和生態(tài)安全的重要因素。通過土壤環(huán)境耦合關系,在機器學習算法框架下,定量預測出干旱區(qū)土壤酸堿度(pH)、土壤鹽分含量(Soil Salt Content,SSC)與土壤有機質(zhì)(Soil Organic Matter, SOM)3種土壤屬性的空間分布,為干旱區(qū)農(nóng)業(yè)生產(chǎn)和生態(tài)安全提供科學依據(jù)?!痉椒ā吭谖几珊印獛燔嚭泳G洲干旱區(qū)于2017年7月設計采集典型表層(0—20 cm)土壤樣品82個,依據(jù)土壤-環(huán)境之間的關系,集成DEM數(shù)據(jù)和Landsat 8數(shù)據(jù)提取出32種環(huán)境協(xié)變量,利用柵格重采樣將提取出的32種變量重采樣為90 m空間分辨率并轉(zhuǎn)換為Grid格式參與建模。借助梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)模型依次對3類土壤屬性的32種環(huán)境協(xié)變量進行重要性排序,并通過均方根誤差(Root Mean SquareError,RMSE)界定出協(xié)變量重要性閾值點,從而篩選出參與3類土壤屬性制圖的環(huán)境協(xié)變量。進而運用隨機森林(Random Forest, RF)、Bagging和Cubist 3種非線性模型建模,并引入多元線性回歸模型(Multiple Linear Regression,MLR)進行對比分析,選出最優(yōu)模型并繪制出90 m分辨率新疆渭干河-庫車河綠洲干旱區(qū)pH、SSC與SOM 3種土壤屬性圖。【結(jié)果】梯度提升決策樹能有效篩選出重要協(xié)變量,高程(Elevation)、剖面曲率(Profile Curvature)、差值植被指數(shù)(Difference Vegetation Index)、擴展增強型植被指數(shù)(Extended Normalized Difference Vegetation Index)、調(diào)整土壤亮度植被指數(shù)(Modified Soil Adjusted Vegetation Index)、鹽分指數(shù)S1(Salinity Index S1)以及鹽分指數(shù)S6 (Salinity Index S6) 7類環(huán)境變量均參與3類土壤屬性建模,其中SSC遴選出參與建模協(xié)變量15種,pH和SOM則均為17種,且遙感指標在預測土壤屬性圖中起到強大的作用。機器學習3種算法的結(jié)果均優(yōu)于MLR。通過3種非線性模型對比發(fā)現(xiàn),隨機森林在3種土壤屬性中均表現(xiàn)最佳。在隨機森林預測的3種土壤屬性中,土壤pH驗證集效果2=0.6779,=0.2182,=0.6084;在SSC預測中,驗證集2=0.7945,=3.1803,ρ=0.8377;在SOM預測中,驗證集2=0.7472,=3.5456,=0.7009?!窘Y(jié)論】GBDT所篩選出的重要性因子借助機器學習算法可以用于干旱區(qū)土壤屬性制圖,且隨機森林模型均對3類土壤屬性表現(xiàn)出最佳預測能力。依據(jù)所繪制的土壤屬性圖并結(jié)合土壤分類圖厘清了3種制圖屬性的空間分布。
土壤屬性; 環(huán)境協(xié)變量; 數(shù)字土壤制圖; 機器學習;梯度提升決策樹模型;隨機森林模型;Bagging模型;Cubist模型
【研究意義】土壤圈作為水圈、大氣圈、生物圈、巖石圈的交界面,是承接物質(zhì)能量交換循環(huán)的中間環(huán)節(jié)[1]。同時,作為各項農(nóng)業(yè)生產(chǎn)活動的基礎,土壤屬性的空間異質(zhì)性變化又直接作用于農(nóng)業(yè)活動領域。由于干旱、半干旱區(qū)生態(tài)環(huán)境極其脆弱,土壤沙化、鹽堿化現(xiàn)象嚴重。傳統(tǒng)土壤普查和地圖屬性編制方法大都通過大面積實地采樣,編制多邊形圖斑并依據(jù)一定專家知識的方式成圖[2],但這種方式往往需要耗費大量的人力物力財力,且由于最小多邊形圖斑的限制,制圖精度不高、存在一定的不確定性,并不能完全作為指導精細農(nóng)業(yè)生產(chǎn)的圖鑒。為此,依據(jù)一定的手段刻畫干旱區(qū)土壤屬性顯得至關重要。【前人研究進展】相較于傳統(tǒng)手段,遙感技術的大尺度、高精度為土壤屬性制圖提供了新的思路。目前,國內(nèi)外已經(jīng)有許多學者提出了各類數(shù)字土壤制圖的方法。王幼奇等[3]通過地統(tǒng)計學方法分析了寧夏砂田小尺度土壤肥力空間變化特征。傳統(tǒng)模型簡單有效的尋找出土壤與環(huán)境之間的線性關系,是最基礎、最廣泛的土壤制圖方式[4],但是對于更深層次的非線性關系挖掘卻顯得無力;ZHU[5]等通過運用SoLIM模型推導出美國蒙大拿州和澳大利亞新南威爾士州兩地的土壤屬性。這種方法通過典型樣點的獲取并對參評因子建立隸屬度函數(shù),綜合評價某點土壤的隸屬度值來推理制圖,適用于大范圍、少樣本的屬性制圖。王飛等[6]通過遙感、母質(zhì)和地形因子比較不同機器學習算法優(yōu)選出預測土壤鹽分的最佳模型。ZHANG等[7]利用地形和離子因子運用隨機森林預測了中國東部地區(qū)土壤有機碳分布。BODAGHABADI等[8]依據(jù)地形因子耦合人工神經(jīng)網(wǎng)絡推演出伊朗中部的土壤屬性。MAHMOUDABADI等[9]借助遙感和地形因子協(xié)同人工神經(jīng)網(wǎng)絡模型預測了伊朗東北部的土壤屬性?!颈狙芯壳腥朦c】綜上所述,較多制圖策略基于少量變量和單一算法來獲取單一的土壤屬性圖,但是由于土壤有機質(zhì)、土壤全鹽含量與土壤酸堿度都是影響干旱區(qū)土壤肥力以及生態(tài)安全的重要土壤屬性,這一特定策略難以對比分析出最佳土壤屬性圖。在干旱區(qū)利用多種變量和不同算法獲取多種土壤屬性圖的方式鮮見報道,且對精準農(nóng)業(yè)、生態(tài)安全和土壤治理等具有一定意義?!緮M解決的關鍵問題】本文以新疆渭干河-庫車河三角洲綠洲為研究對象,基于3種影響干旱區(qū)生態(tài)農(nóng)業(yè)的土壤性質(zhì)(pH、SSC與SOM),通過梯度提升決策樹(GBDT)模型遴選出最優(yōu)土壤屬性建模因子,利用Cubist模型、Bagging和隨機森林3種機器學習方法,對干旱區(qū)土壤基本屬性數(shù)字化制圖進行刻畫,優(yōu)選出渭干河-庫車河綠洲干旱區(qū)最佳土壤屬性制圖組合方案,以期為干旱區(qū)綠洲農(nóng)業(yè)生產(chǎn)和生態(tài)安全提供數(shù)據(jù)支持與科學參考。
研究區(qū)位于新疆維吾爾自治區(qū)塔里木盆地中北部的渭干河-庫車河綠洲(以下簡稱渭-庫綠洲),根據(jù)實際采樣點標定研究區(qū)邊界位于82°11′—83°51′ E與40°56′—41°58′ N之間,研究區(qū)域面積約894 865 hm2(圖1)。研究區(qū)毗連天山南麓,海拔高度956—1 013 m。由于深居內(nèi)陸、遠離海洋致使渭-庫綠洲形成典型暖溫帶大陸性干旱氣候,多年平均降水量、蒸發(fā)量分別約為70、1 100 mm,蒸降比較大(約16﹕1)。研究區(qū)土地利用類型以林地、耕地、草地和荒漠為主,且多以鹽生植被為主。
圖1 研究區(qū)概況和采樣點分布圖
本研究于2017年7月在渭-庫綠洲區(qū)域根據(jù)地形特征,按照5點梅花狀采樣方法均勻采集82個典型土樣單元。在采樣前首先利用GPS記錄采樣單元的經(jīng)緯度坐標,每個土樣點位單元采集0—20 cm土層深度250 g土壤樣品共計5次,將土樣均勻混合后提取出250 g即為每個典型土樣單元。取樣結(jié)束后,將82個采樣單元點裝袋帶回實驗室自然風干后剔除雜質(zhì),過2 mm孔徑篩均分3份備用。按土水比1﹕5的比例提取浸提液,用pH 7310臺式酸度計和Cond 7310土壤測試儀分別測定pH值和土壤含鹽量;采用重鉻酸鉀容量-稀釋熱法測定土壤有機質(zhì)含量[10]。
1.3.1 環(huán)境協(xié)變量因子選取原則 采用土壤發(fā)生學理論為基礎的數(shù)字土壤制圖,主要依照土壤形成的五大要素(母質(zhì)、地形、生物、氣候和時間)輔以較易獲取的數(shù)字土壤信息(遙感信息)來探尋土壤與環(huán)境之間的關系,通過不斷豐富的土壤環(huán)境關系庫,從而達到數(shù)字制圖的目的。地形因子在地表物質(zhì)能量循環(huán)過程中起著重要作用,進而影響到土壤發(fā)生與演變,是土壤制圖中廣泛應用且不可或缺的因子之一[11-12]。
遙感信息具有廣覆蓋易獲取的特點,其特征波段及不同組合指數(shù)可以反映土壤屬性形成的綜合環(huán)境(地表狀況以及植被景觀特征等),為數(shù)字制圖提供了豐富的生物景觀信息[13]。遙感手段在多數(shù)情況下因植被覆蓋無法深入裸露地表,但是由于地表和植被關系密切,而遙感技術恰巧可以通過植被指數(shù)、鹽分指數(shù)等來間接反映地表狀況[9]。
氣候因子(降水量、蒸發(fā)量、氣溫等)影響成土過程中的水熱條件[14]。但是由于本研究區(qū)域較小,氣候要素相對均一,此外,由于缺乏地面氣象觀測站點,簡單插值結(jié)果會增加數(shù)字制圖更多的不確定性。因此,本研究僅采用遙感定量反演的地表溫度作為衍生氣候因子。另外,母質(zhì)和時間信息由于目前還沒有較好的統(tǒng)一定量化方法,因此本研究暫不考慮母質(zhì)和時間類因子。
1.3.2 地形因子的獲取與預處理 地形是干旱、半干旱區(qū)域土壤形成發(fā)展的主要因素,影響地表物質(zhì)能量及再分配,不同地形部位的成土過程可能截然不同,由于研究區(qū)地勢西北高而東南低,因此發(fā)育的土壤屬性可能會有所不同[15]?;诖耍赟huttle Radar Topographic Mission(SRTM)上獲取了空間分辨率為90 m的DEM數(shù)據(jù)。利用ArcGIS 10.0 軟件在DEM數(shù)據(jù)中提取了高程、坡度、坡向、總曲率、剖面曲率、平面曲率、地形濕度指數(shù)7種地形因子(表1)。
1.3.3 遙感因子的獲取與預處理 搭載Landsat 8衛(wèi)星的OLI傳感器,空間分辨率30 m。本文選取了一景2017年7月4日的Landsat 8 OLI影像數(shù)據(jù)(云量<10%,軌道號為145/31)。為與DEM數(shù)據(jù)相匹配且獲取真實的地表反照率,將影像在ENVI 5.1軟件中進行了預處理(輻射定標、FLAASH大氣校正、最鄰近內(nèi)插法重采樣為90 m×90 m分辨率),提取出單波段、植被指數(shù)及鹽分指數(shù)等24種協(xié)變量因子,并采用單窗算法[16]反演出地表溫度(表1)。所有環(huán)境協(xié)變量因子均用ArcGIS 10.0軟件統(tǒng)一空間范圍、分辨率及投影坐標系后提取出相應采樣點對應值并導出為Grid格式參與后續(xù)建模運算。
在提取的32種協(xié)變量因子中,由于不同土壤屬性制圖用到的環(huán)境因子不盡相同,且環(huán)境因子對土壤屬性的貢獻度也頗具差異。梯度提升決策樹(Gradient Boosting Decision Tree,GBDT),是一種泛化能力較強的迭代決策樹算法,它具有很強的自適應性,可以靈活處理各類數(shù)據(jù),且調(diào)參較少,齊備固有的特征選擇能力,劃定變量重要性百分比效果較好[17]。基于上述優(yōu)點,因此選用GBDT來篩選變量。本文在R-3.5.3中運用GBDT初步遴選出3種土壤屬性中每種協(xié)變量的重要性百分比。
本文擬采取隨機森林、Cubist模型以及Bagging 3種模型方法對比分析渭—庫綠洲干旱區(qū)制圖效果最好的模型。
隨機森林(Random Forest,RF)是一種包含多棵決策樹,輸出類別由個別樹輸出的類別眾數(shù)而決定的分類回歸模型。隨機森林中包含眾多有較高預測精度且弱相關甚至不相關的決策樹,并形成組合預測模型[18]。集成后的眾多預測模型將共同參與對新觀測輸出變量取值的預測,從而獲取更高的精度。在R語言中隨機森林通過randomForest包來實現(xiàn),并優(yōu)化mtry和ntree兩參數(shù)分別為5和1 000[19]。
Cubist是一種基于回歸樹且優(yōu)于回歸樹的算法,其通過分類響應的方法對用于建模的環(huán)境變量進行遞歸劃分并生成樹狀模型。Cubist模型在預測中是基于線性回歸而非離散值。通過內(nèi)嵌的條件規(guī)則集將預測變量特性相似的環(huán)境變量劃分成不同子集[13]。
Bagging是一種通過對訓練樣本重新采樣的方法得到不同的訓練樣本集,在這些新的訓練樣本集上分別訓練學習器,最終合并每一個學習器的結(jié)果,作為最終的學習結(jié)果[20]。在R語言中Bagging模型通過ipred包來實現(xiàn),其控制參數(shù)與隨機森林控制參數(shù)相同,為模型對比的公平性,參數(shù)與隨機森林保持一致。
以上建模過程均在R-3.5.3編程軟件中實現(xiàn)。
為評估上述3種預測模型的性能,選取了3種模型驗證標準。分別為均方根誤差(Root Mean Squared Error,)、決定系數(shù)(Determination Coefficients,2)及一致性相關系數(shù)(Concordance Correlation Coefficient,ρ)[21]。
通過R-3.5.3中sample函數(shù)隨機劃分出70%(n=57)的建模集和30%(n=25)的驗證集并用set.seed函數(shù)固定選中的數(shù)據(jù)集。渭-庫綠洲3種土壤屬性描述性統(tǒng)計分析結(jié)果如圖2所示。土壤酸堿度(pH)全集其均值為8.0423,變異系數(shù)為0.0404,屬于弱變異,其建模集與驗證集變異系數(shù)在全集0.1%左右浮動。土壤有機質(zhì)含量(SOM)范圍在1.2863—29.9705 g·kg-1,變異系數(shù)全集為0.4802,屬于中等變異。建模集和驗證集變異系數(shù)在全集2%上下波動。土壤鹽分含量(SSC)變異系數(shù)為3種土壤屬性中最高。其中全集變異系數(shù)達到1.2646,屬于強變異。建模集和驗證集分別為1.2894和1.2075。干旱區(qū)鹽分變異系數(shù)相對較高表明表層土受鹽分影響較大[22]。3種土壤屬性全集、建模集、驗證集在統(tǒng)計特征中保持相似的統(tǒng)計形態(tài),表明樣本劃分合理。
SD為方差,CV為變異系數(shù) SD corresponding to variance, CV corresponding to the coefficient of variation
表1 數(shù)字土壤制圖環(huán)境協(xié)變量
β:坡度,采用最大下坡坡度代替;α:單位等高線上上游匯水面積;B:藍波段;G:綠波段;R:紅波段;NIR:近紅外;SWIR1:短波紅外(1570—1650 nm); SWIR2:短波紅外(2100—2290 nm)
β: Corresponding to the slope and is replaced by the maximum downhill gradient; α: Corresponding to the upstream catchment area on the unit contour; B: Corresponding to the Blue band; G corresponding to the Green band; R: Corresponding to the Near Infrared band; SWIR1: Corresponding to the Shortwave Infrared 1 (1570-1650 nm); SWIR2: Corresponding to the Shortwave Infrared 2 (2100-2290 nm)
圖3 變量重要性玫瑰圖中給出了3種土壤屬性32種環(huán)境協(xié)變量的重要程度。但是,由于環(huán)境協(xié)變量并不總是參與建模的重要因子,因此,依據(jù)Occam's Razor原理[29],根據(jù)圖3界定出的變量重要性以0.3為協(xié)變量重要性變化閾值再次帶入GBDT模型,對變量依次循環(huán)訓練,直至GBDT模型無法再細分,同時計算出每次訓練的均方根誤差,最后劃定出用于后續(xù)建模環(huán)境因子的閾值(圖4)。
結(jié)合圖3和圖4可以看出,在土壤屬性pH中,隨著變量重要性的增加在1.8—2.1范圍時降至最低。此后隨著變量重要性的增加,呈波動上升趨勢,在重要性為8時達到最大。由此可確定pH的變量重要性閾值為1.8。因此,如表2所示,可確定、以及等是影響pH的主要環(huán)境協(xié)變量,其中的重要性最大(13.686%)。在土壤屬性SSC中,隨著變量重要性的增大而漸趨減小,在1.2—1.5范圍時跌至低谷,此后在3.6—3.9范圍時達到最大,由此判定SSC協(xié)變量閾值范圍大于1.5為主要環(huán)境協(xié)變量。經(jīng)此,SSC主要環(huán)境協(xié)變量見表2,其中和的重要性均達15%以上。而對于SOM,隨著變量重要性范圍的增加,在1.8—2.1之間處于最小位置,而在4.5—4.8范圍時明顯達到最大值4.24。依據(jù)所劃定的閾值,則可以很明顯地看出的重要性最強(14.355%),其與、以及等共同構成SOM的主要環(huán)境協(xié)變量。至此,參與3種土壤屬性制圖建模所遴選出的環(huán)境因子中,共劃分出環(huán)境因子SSC為15種,而pH與SOM則均為17種(表2)。
為與傳統(tǒng)線性模型作對比,本文引入多元線性回歸模型(MLR)。根據(jù)驗證標準,3種模型均比MLR預測精度高。總體而言,RF在3種土壤屬性預測中效果拔群(表3)。在土壤pH預測中,驗證集效果RF亦為最佳(2=0.6779,=0.2182,ρ=0.6084)。pH預測制圖效果總體上來看依次是RF>Bagging>Cubist>MLR。在SSC預測中,無論是建模集還是驗證集RF均最為突出(建模集2=0.9067,= 2.6680,ρ=0.9219;驗證集2=0.7945,=3.1803,ρ=0.8377),Cubist次之(2=0.8820,=2.9190,ρ=0.9237),但是在驗證集中Cubist的RMSE達到7.5771,一致性ρ降至0.6194。這很有可能是因為信息量過大,信息的復雜性可能會導致局部最優(yōu),繼而主導優(yōu)化過程,從而產(chǎn)生局部最優(yōu)的情況[19]。MLR效果在SSC預測中最差。而在SOM預測中,驗證集RF(2=0.7472,=3.5456,ρ=0.7009)效果較好。圖5為土地利用圖,圖6、7、8分別為pH、SSC和SOM 3種土壤屬性最佳制圖。
圖3 環(huán)境協(xié)變量重要性
圖4 數(shù)字土壤制圖環(huán)境協(xié)變量閾值劃分
圖5 土地利用分類圖
圖6 土壤pH空間分布預測圖
圖7 土壤鹽分含量空間分布預測圖
圖8 土壤有機質(zhì)含量空間分布預測圖
渭-庫綠洲耕地主要分布于中西部地區(qū),范圍較大,林地南部分布較多,荒漠與交錯帶則圍繞耕地和林地周邊分布(圖5[30])。在土壤pH預測制圖中,從總體上看,渭-庫綠洲土壤整體上呈堿性,預測值在7.68—8.43之間。土壤pH值空間分布呈西北略高而東南偏低。主要歸因于西北地區(qū)以耕地為主,耕作制度、長期施肥等引起土壤肥力和酸堿度的變化。同時,由于研究區(qū)干旱少雨,釋放的鹽基不易淋失而富集于土壤中,受北部天山的影響,經(jīng)流天山的河流順地勢將天山土質(zhì)碎屑等帶入綠洲北部地區(qū),在灌溉、流水作用影響下,水解時形成比其他地方高的堿性土,因此在綠洲北部沿河流扇狀面積區(qū)域pH普遍較高(8.14—8.43)。
表2 參與建模環(huán)境協(xié)變量
表3 土壤屬性建模集與驗證集性能比較
在土壤SSC預測中(圖7),參照《新疆土壤》[31]標準確定土壤鹽堿化分級(非鹽漬化<3 g·kg-1;3 g·kg-1<輕度鹽漬化<6 g·kg-1;6 g·kg-1<中度鹽漬化<10 g·kg-1;10 g·kg-1<重度鹽漬化<20 g·kg-1;極重度鹽漬化>20 g·kg-1)。SSC分布圖表明,綠洲區(qū)域內(nèi)部土壤SSC北部低而南部較高,且高值沿渭干河庫車河流域下游呈富集狀態(tài),呈現(xiàn)出明顯的地勢效應,這與王飛等[32]研究結(jié)果一致。從土地利用方式來看,耕地SSC值最低,林地次之,研究區(qū)東北部的荒漠綠洲交錯帶和綠洲外圍的荒漠地區(qū)SSC最為嚴重,這主要是由于研究區(qū)處在干旱、半干旱區(qū),由于氣候干旱,降水稀少,蒸降比過大而致使地下水和地面水及母質(zhì)中所含的可溶性鹽類在水分攜帶下通過土壤毛管,在地表和上層土體中不斷累積形成鹽結(jié)皮[33],因此這部分地區(qū)受鹽漬化影響最為明顯。
在土壤SOM預測制圖中(圖8),土壤SOM與土地利用方式之間存有明顯關系。從總體上看,渭-庫綠洲土壤有機質(zhì)西高東低,綠洲邊緣與林地SOM達到最大(>17 g·kg-1),荒漠地區(qū)有機質(zhì)含量最低,林地、草地這兩種土地利用方式因鮮少的人工干預,其地表植被較豐富,凋落物、腐殖質(zhì)及植物根系分級等加速了有機質(zhì)循環(huán)速率,致使SOM處于較高水平[30]。BRUBAKER等[34]指出植被覆蓋度越高,SOM含量也越大,這與本文的研究結(jié)果一致。從自然角度看,耕地表層植被類型較少,土壤中有機殘體含量較少;從人為角度看,耕地有SOM的高低很大程度取決于人為投入管理水平,耕地土壤結(jié)構受耕作破壞嚴重,導致植被凋落物留歸土壤甚少,增速了有機質(zhì)分解速率。因此耕地表層SOM含量較低。結(jié)合SSC鹽分制圖,我們發(fā)現(xiàn)SSC值最大的地區(qū)恰好是SOM值最低的地區(qū)。這是由于鹽漬地植被覆蓋極少,土壤肥力和活力不高,鮮少有機質(zhì)留存于土壤中,因此荒漠交錯帶鹽漬地土壤有機質(zhì)最低,這也從側(cè)面印證了SSC制圖的準確性。
此外,結(jié)合圖3和表2可以發(fā)現(xiàn),DEM提取協(xié)變量中的高程和剖面曲率以及Landsat 8 OLI衍生出的、、、以及這7個協(xié)變量均為3種土壤屬性中重要的環(huán)境參量。這也從側(cè)面反映出同一地區(qū)不同土壤屬性之間的成土因素有一定內(nèi)在聯(lián)系和共性。高程對三者都有重要貢獻,且在共同的土壤屬性中植被指數(shù)和鹽分指數(shù)占了很大一部分。尤其是SSC和SOM中、等指數(shù)都占據(jù)較大比重。這主要是由于研究區(qū)西北部有植被覆蓋,MAHMOUDABADI[9]和FALAHATKAR等[35]研究表明,由于土壤性質(zhì)與植被覆蓋狀況之間的關系密切,植被指數(shù)恰好可以反映這種變化。特別是在鹽漬化程度高的干旱區(qū)域,耦合植被與土壤信息是監(jiān)測土壤鹽漬化不可或缺環(huán)境參量[13]。盡管植被指數(shù)和鹽分指數(shù)對用來評測土壤屬性十分有效,但并沒有特定指數(shù)可以用在任何不同質(zhì)區(qū)獲得精準結(jié)果,指數(shù)隨著自然條件、土壤類型及植被蓋度的變化而變化。究其原因,主要由于植被指數(shù)作為一種定性表達,在信息量表達中存有先天缺陷,應更多考慮能夠深入反映土壤屬性變化的植被覆蓋、物候、長勢等深層次植被信息[33]。也基于此本文選用了大量植被指數(shù)來探究其與土壤屬性之間的隱含關系。綜合來看,植被指數(shù)可以間接反映植被覆蓋的地區(qū),運用遙感指標的數(shù)字土壤制圖在植被覆蓋區(qū)具有可行性。
定量遙感的困難在于,應用參量不完全是控制遙感信息的主導因子,僅為遙感信息提供弱信號[36]。3種土壤屬性制圖中遙感指標確實起到了舉足輕重的作用,在土壤屬性制圖中,充分挖掘土壤與環(huán)境之間的耦合關系,尋求盡可能多的環(huán)境協(xié)變量,通過篩選最優(yōu)因子是保證制圖精度的先決條件。4種方法預測3種土壤屬性中,SSC的總體精度最高,相比SSC和SOM,pH精度相對較低,根據(jù)CHEN等[37]研究表明pH受年平均降水和年平均氣溫的影響較大;ZHANG等[7]研究表明pH受到礦物質(zhì)含量的影響很大。因此土壤pH預測情況總體上不如SSC和SOM。此外,彭杰等[38]研究發(fā)現(xiàn)不同地區(qū)空間異質(zhì)性較大,光譜特征不同,因而加入光譜特征可能會提高預測精度。因此,本文雖較為充分的利用了遙感數(shù)據(jù)和DEM數(shù)據(jù)尋求了主要土壤屬性制圖的協(xié)變量,但是對于母質(zhì)、離子含量[39]、植被物候等較難獲取的其他次要因子以及隱含因子的挖掘還有待更深入的研究。MOSLEH等[40]指出田間觀測采樣點的數(shù)量和研究的區(qū)域尺度是指導土壤制圖精度更精細的必要條件。在今后的研究中應該擴大采集樣點數(shù)目并制作更為精細的土壤屬性圖,從而對精準農(nóng)業(yè)和生態(tài)安全提供更精細的參照。
通過3種數(shù)字土壤制圖方法,繪制出了新疆渭-庫綠洲干旱區(qū)pH、SSC和SOM 3種土壤屬性的空間分布圖。通過GBDT模型遴選出的指標能夠解釋3種土壤屬性的空間變化,且遙感指標顯示出強大優(yōu)勢。相較于MLR、Cubist和Bagging模型,RF在預測3種土壤屬性中均顯示出了最佳制圖精度。通過結(jié)合高程數(shù)據(jù)和土地利用分類圖,厘清了3種土壤屬性空間變化的機理。
[1] MA Y X, MINASNY B, WU C F. Mapping key soil properties to support agricultural production in Eastern China., 2017, 10: 144-153.
[2] 楊琳, Sherif F, Sheldon H, 朱阿興, 秦承志, 徐志剛. 基于土壤-環(huán)境關系的更新傳統(tǒng)土壤圖研究. 土壤學報, 2010, 47(6): 1039-1049.
YANG L, SHERIF F, SHELDON H, ZHU A X, QIN C Z, XU Z G. Updating conventional soil maps using knowledge on soil- environment relationships extracted from the maps., 2010, 47(6): 1039-1049. (in Chinese)
[3] 王幼奇, 白一茹, 趙云鵬. 寧夏砂田小尺度土壤性質(zhì)空間變異特征與肥力評價. 中國農(nóng)業(yè)科學, 2016, 49(23): 4566-4575. DOI: 10.3864/j.issn.0578-1752.2016.23.009.
WANG Y Q, BAI Y R, ZHAO Y P. Assessment of soil fertility and its spatial variability based on small scale in the gravel mulched field of NingXia., 2016, 49(23): 4566-4575. DOI: 10.3864/j.issn.0578-1752.2016.23.009. (in Chinese)
[4] LAGACHERIE P, MCBRATNEY A B. Spatial soil information systems and spatial soil inference systems: perspectives for digital soil mapping., 2006, 31: 3-22.
[5] ZHU A X, BAND L, VERTESSY R, DUTTON B. Derivation of soil properties using a soil land inference model (SoLIM)., 1997, 61(2): 523-533.
[6] 王飛, 楊勝天, 丁建麗, 魏陽, 葛翔宇, 梁靜. 環(huán)境敏感變量優(yōu)選及機器學習算法預測綠洲土壤鹽分. 農(nóng)業(yè)工程學報, 2018, 34(22): 102-110. DOI: 10.11975/j.issn.1002-6819.2018.22.013.
WANG F, YANG S T, DING J L, WEI Y, GE X Y, LIANG J. Environmental sensitive variable optimization and machine learning algorithm using in soil salt prediction at oasis., 2018, 34(22): 102-110. DOI: 10.11975/j.issn.1002-6819.2018.22.013. (in Chinese)
[7] ZHANG H, WU P B, YIN A J, YANG X H, ZHANG M, GAO C. Prediction of soil organic carbon in an intensively managed reclamation zone of Eastern China: A comparison of Multiple Linear Regressions and the Random Forest model., 2017, 592: 704-713.
[8] BODAGHABADI B M, MARTíNEZ-CASASNOVAS J, SALEHI M H, MOHAMMADI J, BORUJENI E I, TOOMANIAN N, GANDOMKAR A. Digital soil mapping using Artificial Neural Networks and terrain-related attributes., 2015, 25(4): 580-591.
[9] MAHMOUDABADI E, KARIMI A, HAGHNIA G H, SEPEHR A. Digital soil mapping using remote sensing indices, terrain attributes, and vegetation features in the rangelands of northeastern Iran., 2017, 189(10): 500.
[10] 魯如坤. 土壤農(nóng)業(yè)化學分析方法. 北京: 中國農(nóng)業(yè)科技出版社, 2000.
LU R K.. Beijing: China Agricultural Science and Technology Press, 2000. (in Chinese)
[11] ZHOU Y, HARTEMINK A E, SHI Z, LIANG Z Z, LU Y L. Land use and climate change effects on soil organic carbon in North and Northeast China., 2019, 647: 1230-1238.
[12] ABDEL-KADER F H. Digital soil mapping at pilot sites in the northwest coast of Egypt: A Multinomial Logistic Regression approach., 2011, 14(1): 29-40.
[13] PENG J, BISWAS A, JIANG Q S, ZHAO R Y, HU J, HU B F, SHI Z. Estimating soil salinity from remote sensing and terrain data in southern Xinjiang Province, China., 2019, 337: 1309-1319.
[14] 朱阿興. 精細數(shù)字土壤普查模型與方法. 北京: 科學出版社, 2008: 21-57.
ZHU A X.Beijing: Science Press, 2008: 21-57. (in Chinese)
[15] MEHNATKESH A, AYOUBI S, JALALIAN A, SAHRAWAT K L. Relationships between soil depth and terrain attributes in a semi arid hilly region in western Iran., 2013, 10(1): 163-172.
[16] QIN Z H, KARNIELI A, BERLINER P. A mono-window algorithm for retrieving land surface temperature from Landsat TM data and its application to the Israel-Egypt border region., 2001, 22(18): 3719-3746.
[17] LIU L F, JI M, BUCHROITHNER M. Combining partial least squares and the gradient-boosting method for soil property retrieval using visible Near-Infrared shortwave infrared spectra., 2017, 9(12): 1299.
[18] GE X Y, WANG J Z, DING J L, CAO X Y, ZHANG Z P, LIU J, LI X H. Combining UAV-based hyperspectral imagery and machine learning algorithms for soil moisture content monitoring., 2019, 7: e6926.
[19] DING J L, YANG A X, WANG J Z, SAGAN V, YU D L. Machine-learning-based quantitative estimation of soil organic carbon content by VIS/NIR spectroscopy., 2018, 6: e5714.
[20] CORETEAM R. R:A language and environment for statistical computing., 2015, 14: 12-21.
[21] LAWRENCE I, LIN K. A concordance correlation coefficient to evaluate reproducibility., 1989, 45(1): 255-268.
[22] WANG J Z, DING J L, ABULIMITI A, CAI L H. Quantitative estimation of soil salinity by means of different modeling methods and visible-near infrared (VIS–NIR) spectroscopy, Ebinur Lake Wetland, Northwest China., 2018, 6: e4703.
[23] ZERAATPISHEH M, AYOUBI S, JAFARI A, TAJIK S, FINKE P. Digital mapping of soil properties using multiple machine learning in a semi-arid region, central Iran., 2019, 338: 445-452.
[24] LOBELL D, LESCH S, CORWIN D, ULMER M, ANDERSON K, POTTS D, DOOLITTLE J, MATOS M, BALTES M. Regional-scale assessment of soil salinity in the Red River Valley using multi-year MODIS EVI and NDVI., 2010, 39(1): 35-41.
[25] 陳紅艷, 趙庚星, 陳敬春, 王瑞燕, 高明秀. 基于改進植被指數(shù)的黃河口區(qū)鹽漬土鹽分遙感反演. 農(nóng)業(yè)工程學報, 2015, 31(5): 107-114. DOI:10.3969/j.issn.1002-6819.2015.05.016.
CHEN H Y, ZHAO G X, CHEN J C, WANG R Y, GAO M X. Remote sensing inversion of saline soil salinity based on modified vegetation index in estuary area of Yellow River., 2015, 31(5): 107-114. DOI: 10.3969/j.issn.1002-6819.2015.05.016. (in Chinese)
[26] TRIKI FOURATI H, BOUAZIZ M, BENZINA M, BOUAZIZ S. Modeling of soil salinity within a semi-arid region using spectral analysis., 2015, 8(12): 11175-11182.
[27] ALLBED A, KUMAR L, ALDAKHEEL Y Y. Assessing soil salinity using soil salinity and vegetation indices derived from IKONOS high-spatial resolution imageries: Applications in a date palm dominated region., 2014, 230: 1-8.
[28] MENG L, ZHOU S W, ZHANG H, BI X L. Estimating soil salinity in different landscapes of the Yellow River Delta through Landsat OLI/TIRS and ETM+ Data., 2016, 20(4): 271-279.
[29] GERSHMAN S J, NIV Y. Perceptual estimation obeys Occam's razor., 2013, 4: 623.
[30] 古麗波斯坦·巴圖. 渭—庫綠洲不同土地利用方式下土壤理化性質(zhì)分析[D]. 烏魯木齊: 新疆大學, 2018.
GULIBOSITAN-BATU. Analysis of soil physical and chemical properties under different land use/land cover in Weigan and Kuqa rivers delta oasis[D]. Urumqi: Xinjiang University, 2018. (in Chinese)
[31] 谷海斌. 灌區(qū)尺度土壤特性空間變異性研究[D]. 烏魯木齊: 新疆農(nóng)業(yè)大學, 2011.
GU H B. Research on spatial variation of properties in irrigation area scale[D]. Urumqi: Xinjiang Agricultural University, 2011. (in Chinese)
[32] 王飛, 楊勝天, 魏陽, 楊曉東, 丁建麗. 基于RF和SGT算法的子區(qū)優(yōu)先建模對綠洲尺度土壤鹽度預測精度的影響. 中國農(nóng)業(yè)科學, 2018, 51(24): 4659-4676. DOI: 10. 3864/j. issn.0578-1752.2018.24. 007.
WANG F, YANG S T, WEI Y, YANG X D, DING J L. Influence of sub-region priority modeling constructed by random forest and stochastic gradient treeboost on the accuracy of soil salinity prediction in oasis scale., 2018, 51(24): 4659-4676. DOI: 10.3864/j.issn.0578-1752.2018.24.007. (in Chinese)
[33] DING J L, YU D L. Monitoring and evaluating spatial variability of soil salinity in dry and wet seasons in the Werigan–Kuqa Oasis, China, using remote sensing and electromagnetic induction instruments., 2014, 235: 316-322.
[34] BRUBAKER S, JONES A, LEWIS D, FRANK K. Soil properties associated with landscape position., 1993, 57(1): 235-239.
[35] FALAHATKAR S, HOSSEINI S M, AYOUBI S, SALMANMAHINY A. Predicting soil organic carbon density using auxiliary environmental variables in Northern Iran., 2016, 62(3): 375-393.
[36] 葛翔宇, 丁建麗, 王敬哲, 王飛, 蔡亮紅, 孫慧蘭. 基于競爭適應重加權采樣算法耦合機器學習的土壤含水量估算. 光學學報, 2018, 38(10): 393-400. DOI: 10.3788/AOS201838.1030001.
GE X Y, DING J L, WANG J Z, WANG F, CAI L H, SUN H L. Estimation of soil moisture based on CARS algorithm coupled with machine learning., 2018, 38(10): 393-400. DOI: 10.3788/AOS201838.1030001. (in Chinese)
[37] CHEN S C, LIANG Z Z, WEBSTER R, ZHANG G L, ZHOU Y, TENG H F, HU B F, ARROUAYS D, SHI Z. A high-resolution map of soil pH in China made by hybrid modelling of sparse soil data and environmental covariates and its implications for pollution., 2019, 655: 273-283.
[38] 彭杰, 劉煥軍, 史舟, 向紅英, 遲春明. 鹽漬化土壤光譜特征的區(qū)域異質(zhì)性及鹽分反演. 農(nóng)業(yè)工程學報, 2014, 30(17): 167-174. DOI: 10.3969/j.issn.1002-6819.2014.17.022.
PENG J, LIU H J, SHI Z, XIANG H Y, CHI C M. Regional heterogeneity of hyperspectral characteristics of salt-affected soil and salinity inversion., 2014, 30(17): 167-174. DOI: 10.3969/j.issn.1002-6819. 2014.17.022. (in Chinese)
[39] WANG H F, CHEN Y W, ZHANG Z T, CHEN H R, LI X W, WANG M X, CHAI H Y. Quantitatively estimating main soil water-soluble salt ions content based on visible-near infrared wavelength selected using GC, SR and VIP., 2019, 7: e6310.
[40] MOSLEH Z, SALEHI M H, JAFARI A, BORUJENI I E, MEHNATKESH A. The effectiveness of digital soil mapping to predict soil properties over low-relief areas., 2016, 188(3): 195.
Digital Soil Properties Mapping by Ensembling Soil-Environment Relationship and Machine Learning in Arid Regions
ZHANG ZhenHua, DING JianLi, WANG JingZhe, GE XiangYu, WANG JinJie, TIAN MeiLing, ZHAO QiDong
(College of Research and Environmental Science, Xinjiang University/ Ministry of Education Key Laboratory of Qasis Ecology, Xinjiang University/ Key Laboratory of Smart City and Environment Modelling of Higher Education Institute, Xinjiang University, Urumqi 830046)
【Objective】The spatial distribution of soil properties is an important factor affecting agricultural productivity, land management and ecological security. Utilizing the coupling relationship between soil and environment within framework of machine learning algorithm, the spatial distribution of soil pH, soil salt content (SSC) and soil organic matter (SOM) was quantitatively predicted to provide a scientific basis on ecological security and agricultural production in the arid region. 【Method】A total of 82 topsoil (0-20 cm) samples were collected from the Ugan-Kuqa River basin oasis in Xinjiang Uyghur Autonomous Region in July 2017. Furthermore, Digital elevation model (DEM) data and Landsat 8 data were used to extract 32 environmental covariates according to the soil-environment relationship. The 32 extracted variables were resampled to 90 m spatial resolution via raster resampling and were converted to grid format for participate in modeling. According to the importance of environmental covariates, they were ranked respectively using Gradient Boosting Decision Tree (GBDT) algorithm on the three soil attributes. We considered three strategies to estimate soil properties, including random forest, bagging and Cubist algorithm. Compared with non-linear models, we introduced classic linear model (MLR) to conduct optimization. On this foundation, we mapped the soil properties (pH, SSC and SOM) with a resolution of 90 m in the Ugan-Kuqa River basin oasis, respectively.【Result】The results showed that GBDT could screen out important covariates effectively. Elevation and Profile Curvature, Difference Vegetation Index, Extended Normalized Difference Vegetation Index, Modified Soil Adjusted Vegetation Index and Salinity Index S1 and Salinity Index S6 were important factors and involved in modeling of three kinds of soil properties, among which SSC selects 15 covariates to participate in modeling, pH and SOM were both 17. Remote sensing index played a significant role in predicting soil property maps. Non-linear models showed more accuracy than MLR as linear model. Random forest performed best in all three soil properties. Among the three soil properties predicted by random forest, the validation dataset of soil pH, SSC and SOM were2=0.6779,=0.2182,ρ=0.6084,2=0.7945,=3.1803,ρ=0.8377 and2=0.7472,=3.5456,ρ=0.7009, respectively. 【Conclusion】 The importance factors selected by GBDT and machine learning algorithm could be used to mapping soil properties in arid areas. The random forest strategy showed the best predictive ability for soil properties. The spatial distribution of mapping three properties could be determined by combining with soil classification map.
soil property; environment covariates; digital soil mapping; machine learning; Gradient Boosting Decision Tree, GBDT; random Forest, RF; bagging model; Cubist model
2019-05-06;
2019-09-18
國家重點研發(fā)計劃(2016YFC0402409-03)、國家自然科學基金(41961059,41771470)、新疆維吾爾自治區(qū)自然科學基金青年基金(2018D01C067)
張振華,E-mail:15099577874@163.com。通信作者丁建麗,E-mail:watarid@xju.edu.cn
(責任編輯 李云霞)