面向亞熱帶丘陵區(qū)小流域土壤有機(jī)碳空間預(yù)測的四種模型構(gòu)建及性能比較

2023-08-12 06:04王志遠(yuǎn)湯哲周萍賴佳鑫戴玉婷周林王玉婷陳港明姜雨辰郭曉彬吳金水

農(nóng)業(yè)現(xiàn)代化研究 2023年3期

王志遠(yuǎn)，湯哲，周萍，賴佳鑫，戴玉婷，周林，王玉婷，陳港明，姜雨辰，郭曉彬，吳金水

（1. 中南大學(xué)計算機(jī)學(xué)院，湖南長沙 410083；2. 中國科學(xué)院亞熱帶農(nóng)業(yè)生態(tài)研究所，亞熱帶農(nóng)業(yè)生態(tài)過程重點(diǎn)實(shí)驗(yàn)室，長沙農(nóng)業(yè)環(huán)境觀測研究站，湖南長沙 410125；3. 北京郵電大學(xué)計算機(jī)學(xué)院，北京 100876）

土壤有機(jī)碳（SOC）含量是衡量生態(tài)系統(tǒng)生產(chǎn)力和生態(tài)服務(wù)功能的關(guān)鍵指標(biāo)，在提升土壤肥力與農(nóng)業(yè)可持續(xù)利用以及減緩全球氣候變化方面至關(guān)重要。土壤有機(jī)碳的精準(zhǔn)預(yù)測有助于精確評估區(qū)域乃至國家尺度土壤碳庫儲量，從而助力區(qū)域碳中和目標(biāo)的實(shí)現(xiàn)，具有突出的科學(xué)意義[1]。

計算機(jī)模擬是預(yù)測土壤有機(jī)碳含量變化與分布的關(guān)鍵手段，國際上建立了諸多土壤有機(jī)碳過程模擬模型（Roth-C、CENTURY、DNDC等）。由于SOC含量與諸多環(huán)境因素密切相關(guān)，對土壤條件、空間分辨率、氣候、水文、植被、地形地貌等環(huán)境條件的變化十分敏感[2]，而現(xiàn)有的過程模型模擬主要涉及到碳輸入量、部分氣候和土壤屬性（如粘粒含量）等參數(shù)，對其他環(huán)境變量的關(guān)注較小，導(dǎo)致不同區(qū)域和生態(tài)系統(tǒng)的過程模擬存在較大的不確定性，區(qū)域應(yīng)用存在局限性[3]。

機(jī)器學(xué)習(xí)在處理數(shù)據(jù)方面具有固有的優(yōu)勢，在SOC預(yù)測中具有很強(qiáng)的泛化性,也比傳統(tǒng)的數(shù)字化測繪方法更加敏感，可以較好地模擬SOC和環(huán)境協(xié)變量之間復(fù)雜的、非線性的關(guān)系，提升區(qū)域SOC含量預(yù)測的準(zhǔn)確性[4-6]。并且在樣本數(shù)并不豐富的情況下，機(jī)器學(xué)習(xí)模型仍然表現(xiàn)出很強(qiáng)的適用性[7]。比如Emadi等[6]使用不同機(jī)器學(xué)習(xí)模型對伊朗東北部SOC含量預(yù)測的研究表明，機(jī)器學(xué)習(xí)模型在SOC預(yù)測中具有很強(qiáng)的適用性。Khaledian和Miller[8]總結(jié)了近幾年來關(guān)于SOC的機(jī)器學(xué)習(xí)方面的研究認(rèn)為，人工神經(jīng)網(wǎng)絡(luò)（ANN）在預(yù)測SOC含量方面具有強(qiáng)有力的表現(xiàn)，但是隨機(jī)森林（RF）比ANN更快，其結(jié)果也趨于更好的魯棒性，并且RF和立體派模型（Cubist）克服了ANN對小數(shù)據(jù)集敏感和完全是黑箱模型的弱點(diǎn)。由此可見，基于機(jī)器學(xué)習(xí)模型提高SOC空間模擬精度的研究已具備一定基礎(chǔ)，但是在小流域尺度上如何對復(fù)雜地形地貌條件下的SOC含量開展精確預(yù)測仍然存在較大挑戰(zhàn)。

亞熱帶丘陵區(qū)地形變化復(fù)雜，相關(guān)地形地貌和土壤環(huán)境的空間異質(zhì)性很大，目前已有基于傳統(tǒng)機(jī)器學(xué)習(xí)模型（如RF、支持向量機(jī)回歸SVR）預(yù)測復(fù)雜地形地貌區(qū)SOC含量的少量研究，且不同機(jī)器學(xué)習(xí)模型的表現(xiàn)具有明顯的差異性[9-10]。而關(guān)于極端梯度提升算法（XGBoost）和輕量級梯度提升機(jī)（LightGBM）對亞熱帶丘陵地貌區(qū)SOC的預(yù)測性能尚未有過嘗試。由于XGBoost考慮了訓(xùn)練數(shù)據(jù)為稀疏值的情況，可以為缺失值或者指定的值指定分支的默認(rèn)方向，從而大大提升算法的效率。LightGBM模型則采用了直方圖算法將遍歷樣本轉(zhuǎn)變?yōu)楸闅v直方圖，極大的降低了時間復(fù)雜度，同時也降低了內(nèi)存消耗。因此很有必要對XGBoost和LightGBM模型預(yù)測復(fù)雜地形地貌區(qū)SOC含量的性能進(jìn)行評價?；诖耍狙芯恳詠啛釒鹆陞^(qū)一個具有復(fù)雜地形地貌特征的小流域?yàn)閷ο?，結(jié)合地形、氣候、植被等環(huán)境變量的輸入，以傳統(tǒng)的非集成機(jī)器學(xué)習(xí)模型SVR與傳統(tǒng)的RF模型作為對比，分析XGBoost和LightGBM模型對土壤表層（0～20 cm）SOC含量預(yù)測的可能性，評估不同機(jī)器學(xué)習(xí)模型在亞熱帶丘陵小流域SOC預(yù)測中的性能差異，以期為復(fù)雜地形地貌區(qū)SOC含量的精確預(yù)測提供理論基礎(chǔ)。

1 材料與方法

1.1 研究區(qū)域概況

研究區(qū)位于湖南省長沙縣金井鎮(zhèn)（112°56′～113°30′E、27°55′～28°40′N），面積約134.40 km2，其中耕地面積為23.13 km2。地貌類型以丘陵為主，海拔介于56～440 m。研究區(qū)域?qū)賮啛釒Ъ撅L(fēng)氣候；多年平均氣溫17.2 ℃；年平均降水量1360 mm。金井鎮(zhèn)境內(nèi)河道屬湘江水系，有金井河流經(jīng)境內(nèi)。土壤類型主要為花崗巖和板頁巖風(fēng)化物發(fā)育的紅壤和水稻土。土地利用類型以水田和林地為主，林地主要以馬尾松、杉木等人工林和灌木、草叢群落為主，常綠闊葉林的覆蓋率相對較低。

1.2 土壤樣品采集與分析

于2009年8月根據(jù)流域內(nèi)地形分布情況，按各高程段樣點(diǎn)大致均勻、隨機(jī)取樣的原則布置采樣點(diǎn)（圖1）。每個樣點(diǎn)以GPS定位點(diǎn)為中心，5 m為半徑的樣方取樣，采用土鉆隨機(jī)采集5～8個表層土樣（0～20 cm），混勻作為一個土樣，共采集601個土壤樣品。所有土樣置于室內(nèi)通風(fēng)處自然風(fēng)干，并剔除石子、植物根系等。風(fēng)干土樣過0.25 mm篩后供SOC含量的測定。具體的土壤采樣與分析方法詳見劉歡瑤等[11]的研究。

圖1 研究區(qū)域與采樣點(diǎn)分布Fig. 1 Study area and distribution of sampling points

1.3 環(huán)境變量的選擇與提取

本研究選取地形、氣候和植被三類環(huán)境變量作為模型輸入?yún)?shù)。地形變量包括海拔、坡度、地形濕度指數(shù)等。由于氣溫隨海拔和坡度坡向的改變呈現(xiàn)較大的差異，而降雨量在流域內(nèi)差異不大，因此本研究將氣溫作為氣候變量納入環(huán)境變量指標(biāo)。植被變量包括歸一化植被指數(shù)，相對植被指數(shù)等。所有環(huán)境變量的提取來源于從中國科學(xué)院地理科學(xué)與資源研究所（https://www.resdc.cn/Default.aspx）下載的數(shù)據(jù)和從美國地質(zhì)調(diào)查局（https://earthexplorer.usgs.gov）下載的landsat 5衛(wèi)星圖像數(shù)據(jù)。除氣溫的精度是100 m外，其他環(huán)境變量的精度都是30 m。使用ArcGis 10.8對氣溫變量進(jìn)行重采樣至30 m。除了相對植被指數(shù)（RVI）外，所有下載的環(huán)境變量數(shù)據(jù)經(jīng)ArcGis 10.8處理后，采用近鄰抽樣法提取到樣點(diǎn)所在位置的變量。Hengl等[12]的研究描述了所有環(huán)境變量的提取方法。具體環(huán)境變量的使用情況與介紹見表1。

表1 樣本變量特征表述Table 1 Description of sample variable characteristics

RVI最早由Jordan[13]提出，其計算方法為：

式中：NIR為紅外波段值，RED為紅色波段值。

1.4 機(jī)器學(xué)習(xí)模型

本研究采用XGBoost和lightGBM兩種機(jī)器學(xué)習(xí)模型進(jìn)行SOC預(yù)測，并與傳統(tǒng)的RF模型和SVR非集成學(xué)習(xí)模型進(jìn)行對比。所有模型均基于python3.7實(shí)現(xiàn)，其中RF和SVR模型來自于sklearn包，XGBoost模型來自于xgboost包，LightGBM模型自于lightgbm包。

RF是基于決策樹的機(jī)器學(xué)習(xí)算法[14]，常用于回歸分析問題。該模型是由多個決策樹組成的集成學(xué)習(xí)模型，通過對每個決策樹的預(yù)測結(jié)果進(jìn)行平均或加權(quán)平均來得出最終的預(yù)測結(jié)果。隨機(jī)森林回歸在構(gòu)建每個決策樹時，會隨機(jī)選擇一部分訓(xùn)練樣本和一部分特征進(jìn)行訓(xùn)練，以此來避免決策樹的過擬合問題，提高模型的泛化能力。

SVR是一種基于統(tǒng)計學(xué)習(xí)理論的回歸分析方法，通過尋找最優(yōu)超平面，將數(shù)據(jù)映射到高維空間中進(jìn)行非線性回歸預(yù)測。SVR的核心思想是通過尋找最優(yōu)超平面來最小化預(yù)測誤差。在SVR中，最優(yōu)超平面是指能夠?qū)㈩A(yù)測值與真實(shí)值之間的誤差最小化的超平面[15]。

XGBoost是一種基于決策樹的梯度提升（GBDT）算法[16-17]，GBDT在訓(xùn)練新的基學(xué)習(xí)器時只使用了損失函數(shù)的一階導(dǎo)數(shù)，而XGBoost則對損失函數(shù)進(jìn)行二階泰勒展開，同時使用損失函數(shù)的一階導(dǎo)數(shù)和二階導(dǎo)數(shù)，此外，XGBoost還在損失函數(shù)中加入了正則項(xiàng)來控制模型的復(fù)雜度，有利于防止過擬合。XGboost可以自動處理缺失值、自動調(diào)整每個弱學(xué)習(xí)器的參數(shù)、自動調(diào)整每個弱學(xué)習(xí)器的深度，以便模型更好地擬合數(shù)據(jù)。

LightGBM是一種基于決策樹的高效算法，是一種梯度提升機(jī)（GBM）的改進(jìn)版本，用于提高機(jī)器學(xué)習(xí)算法的準(zhǔn)確性和效率[18]。LightGBM的工作原理如下：使用基于樹的算法來構(gòu)建模型，并使用梯度提升算法來優(yōu)化模型的準(zhǔn)確性。LightGBM支持并行訓(xùn)練，可以更快地構(gòu)建模型；支持自動調(diào)整參數(shù)，可以自動調(diào)整模型的參數(shù)，以獲得更好的性能；支持多種數(shù)據(jù)類型，可以處理稀疏數(shù)據(jù)以及類別特征。

1.5 數(shù)據(jù)集切分

在進(jìn)行實(shí)驗(yàn)之前，對601個樣本進(jìn)行了處理，剔除掉無效樣本和異常值，最后剩下401個樣本點(diǎn)作為輸入。為了評估不同模型對SOC預(yù)測的適用性，基于sklearn軟件包將數(shù)據(jù)集隨機(jī)分為訓(xùn)練集（80%）和測試集（20%）。每個模型都用訓(xùn)練數(shù)據(jù)進(jìn)行擬合，用實(shí)驗(yàn)數(shù)據(jù)進(jìn)行驗(yàn)證。每個模型的訓(xùn)練數(shù)據(jù)集都采用10倍的交叉驗(yàn)證。

1.6 模型參數(shù)調(diào)整與模型評估

模型的超參數(shù)優(yōu)化采用RandomSearch[19]，在超參數(shù)的組合空間中進(jìn)行隨機(jī)采樣和搜索，其搜索能力取決于設(shè)定的采樣次數(shù)（n_iter參數(shù)）。RandomSearch的搜索過程如下：對于搜索范圍為分布的超參數(shù)，按照給定的分布隨機(jī)采樣；對于搜索范圍為列表的超參數(shù)，在給定的列表中以中等概率采樣；如果給定的搜索范圍為全部列表，則不放回采樣n_iter次數(shù)。

模型評估采用決定系數(shù)（R2）、平均絕對誤差（MAE）、均方根誤差（RMSE）和林氏一致性相關(guān)系數(shù)（Lin’s Concordance Correlation Coefficient，LCCC）四個指標(biāo)來確定模型的模擬性能。R2反應(yīng)了因變量的波動有多少百分比能被自變量的波動所描述，R2接近1表示模型完美，即100%的變異被模型解釋，大于0.75時表示良好預(yù)測，0.50～0.75之間表示可接受的預(yù)測，小于0.50表示不可接受的預(yù)測[20]。MAE可以避免正負(fù)誤差相加出現(xiàn)相互抵消的問題，因而可以準(zhǔn)確反映預(yù)測誤差的大小。MAE值越接近0，說明模型的預(yù)測能力越好。RMSE可以評價數(shù)據(jù)的變化程度，RMSE值越接近0，說明模型的預(yù)測能力越好。LCCC結(jié)合了精度和偏差兩個度量。LCCC的取值在(-1, +1)之間，+1表示完全一致，大于0.9表示接近完全一致，0.8～0.9之間表示實(shí)質(zhì)性一致，0.65～0.8之間表示中等一致，小于0.65表示差一致[21]。四個指標(biāo)的計算方法為：

式中：n表示樣本量，ai為第i個樣本的SOC含量預(yù)測值，bi是第i個樣本的SOC含量實(shí)測值，k是所有n個樣本預(yù)測值的平均值，h是所有n個樣本實(shí)測值的平均值，θa和θb分別是n個樣本預(yù)測值和實(shí)測值的變異系數(shù)，r是實(shí)測值和預(yù)測值之間的皮爾遜相關(guān)系數(shù)。

2 結(jié)果與分析

2.1 土壤有機(jī)碳數(shù)據(jù)集統(tǒng)計特征

根據(jù)實(shí)測的SOC數(shù)據(jù)分析顯示，SOC含量變化范圍介于1.47～39.37 g/kg，平均值為12.27 g/kg，標(biāo)準(zhǔn)差為6.62 g/kg。偏度為0.99，峰度為1.57(表2)，整體分布近似于正態(tài)分布，適合訓(xùn)練機(jī)器學(xué)習(xí)模型。SOC的變異系數(shù)為54%，屬于中等變異性類。由于研究區(qū)域地形多變，區(qū)域植被呈現(xiàn)一定的垂直分布特點(diǎn)，此外土地利用方式也存在差異，導(dǎo)致樣本點(diǎn)的SOC變異系數(shù)偏高。

表2 土壤有機(jī)碳實(shí)測數(shù)據(jù)樣本集統(tǒng)計特征Table 2 Statistical characteristics of the sample set of SOC measurement data

2.2 模型的評價與比較分析

對SVR、RF、XGBoost和LightGBM四種機(jī)器學(xué)習(xí)算法預(yù)測亞熱帶丘陵區(qū)小流域SOC的性能進(jìn)行統(tǒng)計分析，根據(jù)R2、MAE、RMSE和LCCC四個指標(biāo)的比較，結(jié)果顯示，RF模型的預(yù)測誤差相對最低，其MAE值和RMSE值分別為3.323和4.464，且R2值為最高（0.540），LCCC值（0.672）僅次于XGBoost（表3），具有相對最優(yōu)的模型預(yù)測效果，其原因?yàn)镽F采用自助采樣法和隨機(jī)特征選擇的方式生成多棵決策樹，以此來降低方差，防止過擬合，提高泛化能力。XGBoost是一種基于樹的集成學(xué)習(xí)算法，通過優(yōu)化的損失函數(shù)和正則化技術(shù)來提高模型的泛化能力。在本研究中，XGBoost模型亦能較好地模擬SOC分布，其預(yù)測誤差MAE值（3.416）和RMSE值（4.523）略高于RF模型，R2值略低（0.528），但是LCCC值（0.676）卻為最高。排在第三位的LightGBM模型的預(yù)測誤差值略高于XGBoost，模擬精度略低。而SVR模型具有相對最高的預(yù)測誤差，MAE值和RMSE值分別達(dá)到3.698和4.982，且R2值（0.427）和LCCC值（0.537）為最低，低于模型預(yù)測精度的最低可接受值（0.50），模型表現(xiàn)最差，究其原因?yàn)镾VR算法對數(shù)據(jù)的線性可分性要求比較高，如果數(shù)據(jù)集中存在復(fù)雜的非線性關(guān)系，SVR算法的擬合度可能會降低。

表3 四種機(jī)器學(xué)習(xí)模型的精度對比Table 3 Comparison of prediction accuracy of four machine learning models

2.3 環(huán)境變量的相對重要性分析

圖2給出了RF、XGBoost和LightGBM三種模型的環(huán)境變量特征重要性分布（SVR未給出，所使用的sklearn包不提供SVR顯示特征重要性的功能）。由于RF、XGBoost和LightGBM采用不同的方法評估環(huán)境變量重要性，可能會導(dǎo)致不同環(huán)境變量的重要性呈現(xiàn)一定的差異。RF算法采用隨機(jī)特征選擇的方式生成多棵決策樹，每棵決策樹只使用部分特征進(jìn)行劃分，通過計算每個環(huán)境變量在所有決策樹中出現(xiàn)的次數(shù)來評估其重要性。在RF模型中，各環(huán)境變量的重要性從高到低分別為海拔（30.49%）、氣溫（21.93%）、坡度（13.97%），植被指數(shù)（12.64%）、landsat 5第四波段（10.01%）、相對植被指數(shù)（6.89%）和地形濕度指數(shù)（4.07%）。XGBoost則是通過計算每個環(huán)境變量在每棵樹中的分裂貢獻(xiàn)度來評估特征的重要性。分裂貢獻(xiàn)度是指每個環(huán)境變量在樹的每個分裂點(diǎn)上的增益值之和。在本研究中，XGBoost模型環(huán)境變量重要性分布與RF相同，各變量重要性占比從高到低分別為海拔（32.84%）、氣溫（22.11%）、坡度（18.99%）、植被指數(shù)（11.00%）、landsat 5第四波段（8.83%）、相對植被指數(shù)（3.51%）和地形濕度指數(shù)（2.71%）。LightGBM的環(huán)境變量重要性計算則是通過計算每個環(huán)境變量在每個葉子節(jié)點(diǎn)上的樣本數(shù)來評估特征的重要性。因此LightGBM的環(huán)境變量特征重要性分布與RF和XGBoost存在較大差異，從高到低分別為海拔（20.61%）、地形濕度指數(shù)（16.36%）、植被指數(shù)（14.89%）、坡度（13.83%）、landsat 5第四波段（12.50%）、溫度（11.30%）和相對植被指數(shù)（10.51%）。上述結(jié)果顯示，所選幾類環(huán)境變量中以海拔對三種模型的預(yù)測最為重要，說明在亞熱帶丘陵地區(qū)海拔對模型預(yù)測SOC含量的高低起顯著作用。

圖2 環(huán)境變量在三種模型預(yù)測SOC中的相對重要性Fig. 2 Relative importance of environmental variables for SOC prediction by three models

通過對上述7種環(huán)境變量按表1歸類為地形變量、氣候變量和植被變量三類。在RF模型中，上述三類變量的重要性占比分別為48.53%、21.93%和29.60%。在XGBoost模型中，各變量的重要性占比分別為54.54%、22.11%和23.34%。而在LightGBM中，地形、氣候和植被變量的重要性占比分別為50.8%、11.3%和37.99%。三種模型地形變量類別的重要性均以地形排在第一位。此外，RF和XGBoost在變量類別的重要性分布上表現(xiàn)一致。而LightGBM呈現(xiàn)出一定的差異性，其植被變量的重要性明顯偏高，比RF高出8.39個百分點(diǎn)，比XGBoost高出14.65個百分點(diǎn)，而氣候變量的重要性分別比RF低10.63個百分點(diǎn)，比XGBoost低10.81個百分點(diǎn)。

2.4 土壤有機(jī)碳空間分布的預(yù)測模擬

通過RF、SVR、XGBoost和LightGBM四種機(jī)器學(xué)習(xí)方法預(yù)測的SOC含量范圍分別為5.35～21.72 g/kg、5.31～19.18 g/kg、3.57～20.42 g/kg和6.08～22.09 g/kg（圖3）。盡管不同模型的總體分布特征相似，但SOC含量的高低卻有較為明顯的差異。其中LightGBM模型預(yù)測的SOC含量最低值和最高值均高于其他模型，而XGBoost模型預(yù)測的SOC含量最低值在所有模型中為最低。

圖3 四種機(jī)器學(xué)習(xí)模型的SOC的空間預(yù)測結(jié)果Fig. 3 Spatial prediction of SOC by four machine learning models

將四種模型預(yù)測的SOC含量通過ArcGIS 10.8制圖后顯示，SOC空間分布呈現(xiàn)出相同的規(guī)律，即北部大部分區(qū)域、西南方邊緣區(qū)域和東南方的邊緣區(qū)域SOC含量高，中部SOC含量普遍偏低。SVR模型預(yù)測的東南部和西南部的SOC含量值明顯高于其他模型的預(yù)測值。SOC含量高低的空間分布與海拔的高低分布具有一致性（圖1、圖3），再次證明了海拔對于SOC含量的預(yù)測起顯著作用，即在地貌復(fù)雜多變且耕地較少的區(qū)域，地形及其相關(guān)環(huán)境變量對SOC的空間分布具有重要影響。

3 討論

本研究中幾種模型模擬SOC含量的預(yù)測精度存在一定的差異（表3）。RF、LightGBM和XGBoost均表現(xiàn)出較好的適用性，以RF模型的性能相對最好，其預(yù)測SOC含量的R2（0.540）亦略高于LightGBM和XGBoost模型，而SVR模型并不適用于亞熱帶丘陵區(qū)復(fù)雜地形的SOC含量預(yù)測。就四種模型對比而言，RF可以作為亞熱帶丘陵區(qū)景觀單元SOC含量預(yù)測的最佳適用模型。但是，F(xiàn)athololoumi等[22]應(yīng)用RF和Cubist模型對伊朗北部復(fù)雜地形山區(qū)SOC 等土壤屬性的預(yù)測表明，不同預(yù)測模型的預(yù)測精度存在差異，相比于RF模型，Cubist模型非平坦區(qū)域擁有更高的模擬精度，表現(xiàn)出較好的適用性。Emadi等[6]對伊朗北部山地SOC的模擬結(jié)果表明，深度神經(jīng)網(wǎng)絡(luò)模型相較于其他模型（SVR、人工神經(jīng)網(wǎng)絡(luò)、RF和XGBoost）更具有優(yōu)勢。這與本文的研究結(jié)果存在差異。原因可能是不同區(qū)域土壤性質(zhì)與其他主導(dǎo)SOC空間分布的環(huán)境因素相差太大，故數(shù)據(jù)集的特征會產(chǎn)生較大偏差。由此可見，不同區(qū)域SOC模擬的最適模型也存在差異，在開展SOC模擬預(yù)測時，應(yīng)根據(jù)特定的區(qū)域環(huán)境特點(diǎn)篩選合適的模擬模型以提升SOC空間模擬的精度。未來可以嘗試更多模型或進(jìn)行模型融合，以探究適合更為廣泛區(qū)域尺度的SOC模擬模型。

就同一模型的模擬精度而言，本研究中RF模型預(yù)測SOC含量的R2值高于Zeraatpisheh等[23]在伊朗南部半干旱地區(qū)達(dá)拉布平原農(nóng)業(yè)用地使用237個樣本結(jié)合RF算法進(jìn)行SOC含量預(yù)測的R2值（0.29），也略高于Yang等[24]使用49個樣本點(diǎn)作為訓(xùn)練集對中國安徽省某地區(qū)農(nóng)田SOC含量進(jìn)行RF預(yù)測的R2值(0.51)。其原因可能跟本研究的土壤采樣密度較高，模型預(yù)測的樣本量較多有關(guān)。較高的樣本量條件下模型能得到更加充分的訓(xùn)練，因此具有相對較高的模擬精度。盡管本研究所用SOC的樣本數(shù)較已有研究稍多，但在數(shù)量上仍然不足。如Malone等[25]所述，機(jī)器學(xué)習(xí)模型預(yù)測SOC含量的一個主要誤差來源是樣本數(shù)據(jù)的稀少，因此可將樣本數(shù)不足歸為本研究機(jī)器學(xué)習(xí)模型預(yù)測SOC含量的高不確定性的主要原因。此外，此前的研究已經(jīng)證明高精度的環(huán)境變量數(shù)據(jù)對于土壤屬性預(yù)測的有效性[26]，但從已有的小流域尺度的研究來看，高精度的環(huán)境變量數(shù)據(jù)的應(yīng)用缺乏關(guān)注。本研究也缺乏更高精度的環(huán)境變量數(shù)據(jù)，這也是模型精度不高的另一個原因。后續(xù)可以考慮擴(kuò)大樣本數(shù)量與范圍，提高環(huán)境變量的分辨率（目前使用的一般是30 m ×30 m或100 m × 100 m的分辨率），探尋更好的樣本降噪方法，使機(jī)器學(xué)習(xí)模型具有更充分的訓(xùn)練空間，可能會進(jìn)一步提升機(jī)器學(xué)習(xí)模型對于復(fù)雜地形區(qū)土壤有機(jī)碳的預(yù)測精度。

此外，所選幾種模型環(huán)境變量的相對重要性也存在差異。XGBoost模型中環(huán)境變量的相對重要性分布與RF相似。但是LightGBM與RF和XGBoost模型在環(huán)境變量的特征重要性排序上差異較大，表現(xiàn)為植被變量高于上述二者10%左右且氣候變量低10%左右。盡管如此，三種模型均以地形（主要為海拔）作為解釋模型擬合度的最重要的環(huán)境變量。這可能跟亞熱帶丘陵區(qū)地形地貌復(fù)雜有關(guān)，地形相較于其他環(huán)境變量具有更高的空間異質(zhì)性。因此，幾種機(jī)器學(xué)習(xí)模型預(yù)測的SOC含量的空間分布格局相似（圖3），均以高海拔的北部、東南部和西南部地區(qū)的SOC含量較高，該區(qū)域植被覆蓋密集，土壤相對肥沃，植被的固土能力強(qiáng)，不易發(fā)生養(yǎng)分流失，另外林木茂密為動物們提供了很好的棲息所，生物多樣性高，枯枝落葉和動物糞便尸體等均貢獻(xiàn)于土地肥力。張厚喜等[27]和鐘兆全[28]分別運(yùn)用不同模型預(yù)測福建省SOC含量,發(fā)現(xiàn)高程是影響SOC含量的重要因子,且SOC含量隨海拔的升高而增加。即在地貌復(fù)雜多變且耕地較少的區(qū)域，地形及其相關(guān)環(huán)境變量往往對SOC的空間分布有關(guān)鍵性的影響。而在小流域尺度內(nèi)，沒有了降雨這一氣候因素的作用，地形地貌對于SOC的空間分布的影響更為突出。Zeraatpisheh等[29]對沙漠地區(qū)SOC的模擬研究顯示，海拔和地形濕度指數(shù)均是預(yù)測沙漠地區(qū)SOC含量的重要參數(shù)，而本研究結(jié)果顯示地形濕度指數(shù)對亞熱帶丘陵區(qū)SOC的模型預(yù)測貢獻(xiàn)不大。John等[7]的研究顯示，在濱海平原區(qū)，地形對于機(jī)器學(xué)習(xí)模型的SOC預(yù)測貢獻(xiàn)不大，而土壤理化性質(zhì)是最重要的環(huán)境變量，因?yàn)樵谄皆瓍^(qū)海拔幾乎沒有差異，海拔對于模型學(xué)習(xí)的過程貢獻(xiàn)不高。因此，可以針對不同研究區(qū)域的主導(dǎo)環(huán)境變量特點(diǎn)選取模型的重要環(huán)境參數(shù)。

本研究所選的亞熱帶丘陵區(qū)典型小流域，不僅具有復(fù)雜的地形地貌特點(diǎn)，也受到強(qiáng)烈的人類活動影響。但是在環(huán)境變量的選取方面僅選擇了容易獲取的地形變量、氣候變量、植被變量參與模型構(gòu)建并預(yù)測SOC含量，并未加入人類活動對SOC含量的影響。有研究表明農(nóng)業(yè)活動（如輪作、灌溉、施肥等）對SOC尤其是土壤表層SOC含量產(chǎn)生重要影響，從而可能影響氣候等自然環(huán)境變量與SOC的關(guān)系[30-31]。除此之外，有研究報道土地利用、土壤母質(zhì)、土壤養(yǎng)分指標(biāo)等也與SOC關(guān)系密切[32-33]。因此，未來應(yīng)尋找更多與SOC相關(guān)性強(qiáng)的輔助變量以及能代表人類活動的替代因子作為模型輸入?yún)?shù)，從而提升模型的泛化性能和魯棒性。后續(xù)研究可以擴(kuò)展環(huán)境預(yù)測因子（如土壤理化性質(zhì)和人類活動），并涵蓋更為廣泛區(qū)域的土壤類型，提高機(jī)器學(xué)習(xí)模型的預(yù)測精度與廣泛適應(yīng)性，實(shí)現(xiàn)更高精度和更大區(qū)域尺度的SOC含量的預(yù)測。

4 結(jié)論

在具有復(fù)雜地形的亞熱帶丘陵地區(qū)，RF、LightGBM和XGBoost模型均能較為有效地預(yù)測SOC含量，以隨機(jī)森林的模擬性能相對較優(yōu)，可以應(yīng)用于亞熱帶丘陵區(qū)的SOC空間分布預(yù)測研究。而SVR模型的模擬精度最低，不適用于亞熱帶丘陵區(qū)SOC的空間預(yù)測研究。在環(huán)境變量重要性上，幾種模型均以地形（主要為海拔）作為SOC空間分布預(yù)測的最重要的影響因子，其余環(huán)境變量的重要性在不同模型之間存在較大差異。幾種模型預(yù)測的SOC含量結(jié)果具有相似的空間分布格局和顯著的空間異質(zhì)性，總體表現(xiàn)為北部、西南方邊緣區(qū)域和東南方邊緣區(qū)域的高海拔區(qū)SOC含量高于中部低海拔區(qū)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡