尹群 郭紀敏 張世文 沈強
摘要:為了快速準確地獲取土壤有機質的空間分布情況,以北京市密云區(qū)為研究區(qū),利用330個采樣點進行建模、83個采樣點進行驗證,選擇偏最小二乘回歸(PLS)、RBF神經(jīng)網(wǎng)絡(RBFNN)、隨機森林(RF)模型作為預測方法,與不同組合的輔助變量相結合,模擬密云區(qū)耕地表層土壤有機質空間分布,并比較不同預測方法、不同輔助變量組合的預測精度。研究結果表明,密云區(qū)耕地表層土壤有機質含量在5.42~40.44 g/kg之間,變異系數(shù)為30.03%,屬于中等程度變異;從不同預測方法來看,隨機森林建模預測精度比偏最小二乘以及RBF預測精度要高,而從不同的輔助變量組合來看,有效土層厚度和高程作為輔助變量組合的預測精度最高。研究顯示選擇合適的輔助變量和預測方法,可以提高縣域尺度下土壤有機質空間分布的快速獲取。
關鍵詞:土壤有機質;偏最小二乘回歸;RBF神經(jīng)網(wǎng)絡;隨機森林;空間預測
中圖分類號: S158.2;X825 ?文獻標志碼: A ?文章編號:1002-1302(2020)24-0267-07
土壤有機質(SOM)是影響土壤養(yǎng)分和土壤理化性質的重要因素[1-2],也是表征土壤肥力的重要指標。由于土壤有機質受到成土因素和生態(tài)過程的影響,土壤有機質含量在空間上呈現(xiàn)非均勻分布[3-4]。目前基于實地采樣獲取的土壤有機質含量信息,很難滿足精準農業(yè)發(fā)展的實際需求[5-6],并且獲取過程會耗費大量的人力、物力和財力,效率較低。一定尺度下土壤有機質含量的預測,對準確掌握土壤肥力狀況、科學管理土壤養(yǎng)分和區(qū)域環(huán)境保護至關重要[7]。
目前,對于SOM預測的方法有很多,普通克里金(OK)法是應用最廣泛也是最普遍的方法[8],但在很多情況下OK法容易造成平滑效應[9],而單一要素的插值會帶來較大的誤差。為了解決這一問題,近年來國內外眾多學者將人工神經(jīng)網(wǎng)絡、偏最小二乘回歸(PLS)以及隨機森林(RF)引入土壤有機質空間預測中,江葉楓等應用集成BP神經(jīng)網(wǎng)絡模型對江西省上饒市萬年縣土壤有機質空間進行預測[10]。齊雁冰等應用隨機森林對陜西省土壤有機質進行空間預測[11]。而有些學者應用偏最小二乘回歸在光譜以及土壤理化性質等領域進行預測,取得了不錯的效果[12-13]。但這幾種模擬預測方法的精度對比,還很少有人研究。
本研究以北京市密云區(qū)耕地表層土壤有機質作為研究對象,基于2018年密云區(qū)耕地質量調查數(shù)據(jù),選擇不同組合的輔助變量,運用RBF神經(jīng)網(wǎng)絡(RBFNN)、偏最小二乘回歸和隨機森林作為模擬預測方法,模擬密云區(qū)耕地表層土壤有機質含量分布情況,并對這幾種預測模型的模擬精度進行對比,并對預測的不確定性進行研究。
1 材料與方法
1.1 研究方法
1.1.1 偏最小二乘法 PLS是一種用于多元統(tǒng)計數(shù)據(jù)分析的新型算法,具有消除變量相關性以及提取變量信息的特點[14-15],結合典型相關分析、主成分分析及多元線性回歸分析在數(shù)據(jù)分析處理方面的優(yōu)勢,可實現(xiàn)多因變量對多自變量建模[16],實際應用中可以較好地解決以往使用普通多元回歸無法解決的問題。
1.1.2 RBF神經(jīng)網(wǎng)絡 RBF神經(jīng)網(wǎng)絡具有全網(wǎng)絡逼近能力,其性能極其優(yōu)良[17]。它能結合網(wǎng)絡和模糊邏輯,從而可以提高算法的泛化能力[18],RBF神經(jīng)網(wǎng)絡具有能并行計算、能分布式存儲、容錯能力強、快速學習的特點[19],本研究使用RBF神經(jīng)網(wǎng)絡可以快速對數(shù)據(jù)進行整合、建模和預測。
1.1.3 隨機森林 隨機森林模型是一種基于分類樹的機器學習算法[20],該模型是在隨機抽樣的基礎上,加入隨機特征選取形成的一種數(shù)據(jù)挖掘方法[21],從原始樣本中抽取多個樣本,對每個樣本進行決策樹建模,通過投票得出最終預測結果[22]。RF模型可以用來做聚類、判別、回歸和生存分析,適于分析復雜的、存在大量未知特征的數(shù)據(jù)集[23-25]。本研究使用RF模型以輔助變量為自變量,有機質含量為因變量進行建模和預測。
1.2 研究區(qū)概況
研究區(qū)位于北京市東北部的密云區(qū),屬燕山山地與華北平原交接地,面積2 229.45 km2,屬溫帶大陸性季風氣候,年均氣溫為10.8 ℃。研究區(qū)內水資源比較豐富,地貌類型以山地為主,研究區(qū)地勢北部為山地,海拔較高,南部為平原或者丘陵,素有“八山一水一田”之稱。土壤類型主要有潮土和褐土,主要種植的作物為玉米、核桃等。研究區(qū)及采樣點位置詳見圖1。
1.3 數(shù)據(jù)來源及處理
于2018年5月進行土壤樣品采集,采用多點混合的方法采集0~20 cm耕地表層土壤樣品413個,從413個樣點中隨機抽取20%(83個)作為驗證集,余下的80%(330個)作為建模子集。用全球定位系統(tǒng)(GPS)記錄采樣點的海拔和坐標,每個樣點采集樣品1 kg左右,土壤樣品經(jīng)自然風干后,在實驗室磨碎過篩,采用重鉻酸鉀油浴加熱法進行有機質含量的測定[26]。
1.4 輔助變量的獲取
由于土壤有機質的空間分布受到多種因素的影響,參考國內外研究成果,選取高程(DEM)、田面坡度、植被歸一化指數(shù)(NDVI)[27]、有效土層厚度(EST)、耕層厚度、體積含水量和質量含水量作為土壤有機質空間分布模擬的輔助因子。其中植被歸一化指數(shù)(NDVI)由Landsat8 OLI 衛(wèi)星數(shù)字影像(拍攝于2018-01-18,空間分辨率為30 m)的第4波段和第5波段在ArcGIS 10.1中進行柵格計算獲取[28];高程使用GPS記錄;田面坡度用水準儀測試得到;有效土層厚度數(shù)據(jù)主要來自現(xiàn)場實地調查并結合密云區(qū)土壤圖、歷史單元評價數(shù)據(jù);通過現(xiàn)場實地調查并結合土壤容重以及土壤緊實度獲取耕層厚度的數(shù)據(jù);質量含水量和體積含水量通過實驗室測定獲得,獲取方法較簡單。
1.5 插值精度分析
為驗證不同預測模型和不同輔助變量組合對土壤有機質空間分布預測精度的影響,研究將413個樣點隨機抽取20%(83個)作為驗證集,余下的80%(330個)作為建模子集。采用均方根誤差(RMSE)、平均絕對誤差(MAE)、平均相對誤差(MRE)和一致性指數(shù)(d)對建模集預測值和驗證集預測值與實際樣點值進行對比分析得出預測精度結果,公式如下:
式中:Zi為樣點的預測值;Zi為樣點的實際觀測值;Z~i為實際觀測值的平均值;n為樣點數(shù)。RMSE、MAE、MRE值越小,d值越接近1,模擬預測的精度就越高。
1.6 預測不確定性模擬評價
對預測不確定性評價還沒有具體的量化標準,國內外學者大都用標準差或者方差分布圖代表不確定進行評價,Bourennane等指出,在保持模擬準確性的同時,標準差越小,那么模擬的準確性就越準確[29]。
2 結果與分析
2.1 輔助變量與土壤有機質相關性分析
從圖2可以看出,土壤有機質與田面坡度、有效土層厚度、高程、NDVI、質量含水量以及體積含水量呈顯著的相關關系。土壤有機質與田面坡度和高程相關系數(shù)分別為0.12和0.57,存在極顯著相關關系,表明田面坡度大地勢高的區(qū)域有利于土壤有機質的積累;土壤有機質與有效土層厚度、NDVI、質量含水量與體積含水量相關系數(shù)分別為-0.31、-0.20、-0.16和-0.20,存在極顯著負相關關系,表明在有效土層厚度高、NDVI大、質量含水量和體積含水量大的區(qū)域,土壤有機質含量較低。選擇與土壤有機質相關性較高的有效土層厚度、高程以及NDVI為輔助變量進行建模和預測。
2.2 SOM描述性統(tǒng)計特征
研究區(qū)413個土壤采樣數(shù)據(jù)的統(tǒng)計結果見圖3、表1,耕地土壤有機質含量的平均值為15.12 g/kg,值域范圍為5.42~40.44 g/kg,標準差為4.54 g/kg。K-S檢驗的P值大于0.05,說明土壤有機質含量服從正態(tài)分布。密云區(qū)土壤有機質的變異系數(shù)在10%~100%之間,為中等程度的變異性。從統(tǒng)計的數(shù)據(jù)來看,建模子集與驗證子集大體上保留了全部樣點的結構特征。
2.3 半變異函數(shù)分析
用GS+對土壤有機質進行半變異函數(shù)擬合,半變異函數(shù)是描述土壤有機質空間變異性最有效的方法[30]。從表2可以看出,高斯模型是針對有機質的最優(yōu)理論模型,模型的擬合系數(shù)達到0.88,模型擬合度較高。從模型參數(shù)來看?土壤有機質的塊金效應為0.25,變程為41 940.00 m,表明有機質有較強的空間相關性,空間自相關的范圍較大。
2.4 預測精度評價
2.4.1 相同輔助變量組合下有機質預測模型精度對比 輔助變量為EST與DEM時,從表3各評價指標來看,建模集預測結果中RF的預測精度最高,其次是RBFNN,PLS預測精度最低;在驗證集預測結果中,RBFNN相對于RF和PLS預測精度較好,但各項評價指標相差不大,各預測模型預測精度相差不大。
輔助變量為DEM與NDVI時,根據(jù)建模集各評價指數(shù)來看,RF的預測精度最高,且RF的RMSE、MAE、MRE相對于RBFNN和PLS降低幅度較大,RF的一致性指數(shù)(d)相對于其他預測模型提高幅度約為0.2,而RBFNN和PLS預測精度相似,精度相對較差。輔助變量為EST與NDVI時,根據(jù)各項評價指標所示,建模集中RF預測精度最高,RBFNN和PLS預測精度相似;驗證集和建模集類似,RF的預測精度最高,但與RBFNN和PLS的預測精度相差不大,故在輔助變量為EST和NDVI時,3種預測模型的預測精度相似,但RF預測精度相對高一點。
2.4.2 預測模型相同時不同輔助變量組合土壤有機質含量預測精度對比 預測模型為RBFNN時,根據(jù)表3各評價指標所示,輔助變量組合為EST和DEM預測精度相對較高,其次為輔助變量組合為NDVI和DEM,且其預測精度與輔助變量為EST與DEM預測精度相差不大,而預測精度最差的為輔助變量組合為NDVI與DEM,其預測精度相對其他2種輔助變量組合相差較大。
預測模型為PLS時,根據(jù)評價指標可以看出,輔助變量組合為EST和DEM的預測精度最高,這與RBFNN的預測結果類似;其次為輔助變量組合為NDVI與DEM,其預測精度與EST和DEM作為輔助變量組合相差不大,而輔助變量組合為EST與NDVI組合的預測精度最差。
RF作為預測模型的情況下,根據(jù)評價指標可以看出,輔助變量為NDVI與DEM組合的預測精度相對其他輔助變量組合相對較好;而輔助變量組合為EST與DEM組合的預測精度也相對較高。
2.5 不確定性分析
根據(jù)標準差分布圖對不同輔助變量組合的預測模型進行不確定性分析,不同輔助變量組合下3種預測模型標準差分布見圖4。3種預測模型得到的標準差都在0.002~4.07 g/kg 之間。除了以輔助變量組合EST與NDVI的RBFNN神經(jīng)網(wǎng)絡預測模型的標準差分布不同外,其他預測標準差分布圖總體布局上是一致的,全研究區(qū)西南方標準差相對較小,而東北部相對較大。而從整體來看,隨機森林(RF)的預測值標準差普遍小于RBFNN神經(jīng)網(wǎng)絡和偏最小二乘回歸(PLS)。從這個結果可以看出,在模擬空間不確定方面,隨機森林模型更準確。
從標準差分布可以看出,標準差的分布規(guī)律與高程的分布規(guī)律是大致相似的,這就出現(xiàn)了一個新的問題,這種規(guī)律是否是預測模型導致的。圖5為根據(jù)普通克里金法得到的標準差分布,可以看出也有相同的趨勢,說明高程越大其預測模型預測標準差越高。
3 結論與討論
研究發(fā)現(xiàn),密云區(qū)土壤有機質含量在5.42~40.44 g/kg之間,平均值為15.12 g/kg。相關性分析結果顯示,土壤有機質與高程、歸一化植被指數(shù)和有效土層厚度均呈顯著相關關系,且高程與土壤有機質的相關性最大,相關系數(shù)達到0.55以上。
研究基于不同輔助變量組合的RBFNN、PLS以及RF建模預測3種方法,對北京市密云區(qū)土壤有機質空間分布進行模擬,對413個建模集與驗證預測結果的誤差分析表明,在輔助變量為DEM與NDVI組合預測模型為隨機森林時的RMSE、MAE以及MRE都相對較小,d值相對較大,其預測誤差相對較小,預測精度最高;而從預測不確定性分析來看,隨機森林預測模型的空間不確定性更精確。在相同的預測模型下,輔助變量與土壤有機質相關性越大,其預測精度就越高,能為土壤有機質預測工作提供經(jīng)驗,選擇與土壤有機質相關性較強的輔助變量,可以提高預測精度。
利用輔助變量結合不同的預測模型可以提高對縣域尺度下土壤有機質的預測效率,高程、NDVI和有效土層厚度等輔助變量是土壤有機質分布預測研究中必須考慮的要素。由于土壤成土因素復雜,使得有機質在一定范圍內存在空間自相關性[31]。相關研究結果表明,僅基于地理坐標而不考慮地形等輔助變量的預測模型預測效果不太好,誤差較大[32]。不同的預測模型結合不同的輔助變量進行預測,其預測的精度也是不同的,選擇合適的預測方法可以減少工作量。
結合與土壤有機質有一定相關性的輔助變量后,3種預測方法均能不同程度地預測土壤有機質的空間分布。相關研究結果表明,在預測過程中使用輔助變量需要考慮輔助變量與目標變量的相關性[33]。輔助變量與土壤有機質相關性越強,其預測精度就越高,與土壤有機質相關性由弱到強分別為高程、有效土層厚度和NDVI,不同相關性強弱的輔助變量進行組合,相關性越大的組合,其預測精度越高,3種預測模型都有相同的情況,表明這3種預測模型預測精度受目標變量與輔助變量間相關性強弱的影響。故選擇相關性越高的輔助變量,其預測的精度就越高。
3種預測模型在相同輔助變量下,隨機森林模型預測精度最高,隨機森林對數(shù)據(jù)量大的樣本處理結果較精確,而偏最小二乘回歸模型預測是線性關系,具有一定的局限性[34-35]。對于縣域尺度下空間土壤有機質的預測需要大量的數(shù)據(jù)進行建模,而隨機森林建模方法這一特點適應于大尺度的預測。
對不同輔助變量組合下不同建模預測模型使用標準差分布圖進行不確定性分析可以發(fā)現(xiàn),隨著高程增加,其標準差越大,設立空白對照組進行驗證也得到相同的結論,說明對于海拔較高的區(qū)域,其土壤有機質的預測結果具有較高的不確定性。
通過結合不同輔助變量組合的預測模型對土壤有機質進行預測,可以選擇最優(yōu)的輔助變量提高土壤有機質的空間預測精度,也可從預測的不確定性入手,來選擇合適的預測模型。這對于土壤肥力和農業(yè)可持續(xù)發(fā)展都具有十分重要的意義,可為縣域尺度下土壤有機質的空間預測模型選取和精度優(yōu)化提供參考。
參考文獻:
[1]Frogbrook Z L,Oliver M A. Comparing the spatial predictions of soil organic matter determined by two laboratory methods[J]. Soil Use and Management,2001,17(4):235-244.
[2]任 麗,楊聯(lián)安,王 輝,等. 基于隨機森林的蘋果區(qū)土壤有機質空間預測[J]. 干旱區(qū)資源與環(huán)境,2018,32(8):141-146.
[3]Dai W H,Huang Y. Relation of soil organic matter concentration to climate and altitude in zonal soils of China[J]. Catena,2006,65(1):87-94.
[4]江葉楓,郭 熙,葉英聰,等. 基于輔助變量和神經(jīng)網(wǎng)絡模型的土壤有機質空間分布模擬[J]. 長江流域資源與環(huán)境,2017,26(8):1108-1150.
[5]McBratney A B,Odeh I A,Bishop T A,et al. An overview of pedometric techniques for use in soil survey[J]. Geoderma,2000,97(3):293-327.
[6]Sumfleth K,Duttmann R. Prediction of soil property distribution in paddy soil landscapes using terrain data and satellite information as indicators[J]. Ecological Indicators,2008,8(5):485-501.
[7]沈 強,張世文,夏沙沙,等. 基于支持向量機的土壤有機質高光譜反演[J]. 安徽理工大學學報(自然科學版),2019,39(4):39-45.
[8]李曉軍,張振遠. 基于指示和普通克里金的不連續(xù)地層厚度估計方法[J]. 巖土力學,2014,35(10):2881-2887.
[9]馬宏宏,余 濤,楊忠芳,等. 典型區(qū)土壤重金屬空間插值方法與污染評價[J]. 環(huán)境科學,2018,39(10):4684-4693.
[10]江葉楓,郭 熙. 基于輔助變量和回歸徑向基函數(shù)神經(jīng)網(wǎng)絡(R-RBFNN)的土壤有機質空間分布模擬[J]. 浙江農業(yè)學報,2018,30(4):640-648.
[11]齊雁冰,王茵茵,陳 洋,等. 基于遙感與隨機森林算法的陜西省土壤有機質空間預測[J]. 自然資源學報,2017,32(6):1074-1086.
[12]于 雷,洪永勝,耿 雷,等. 基于偏最小二乘回歸的土壤有機質含量高光譜估算[J]. 農業(yè)工程學報,2015,31(14):103-109.
[13]李啟權,王昌全,岳天祥,等. 基于定性和定量輔助變量的土壤有機質空間分布預測——以四川三臺縣為例[J]. 地理科學進展,2014,33(2):259-269.
[14]李宏勛,聶 慧. 基于灰色-偏最小二乘組合模型的中國天然氣需求預測[J]. 資源與產業(yè),2019,21(6):9-19.
[15]趙梓淇,李麗光,王宏博,等. 沈陽市區(qū)土地利用類型與地表溫度關系研究[J]. 氣象與環(huán)境學報,2016,32(6):102-108.
[16]毛李帆,江岳春,龍瑞華,等. 基于偏最小二乘回歸分析的中長期電力負荷預測[J]. 電網(wǎng)技術,2008,32(19):71-77.
[17]喬俊飛,馬士杰,許進超.基于遞歸RBF神經(jīng)網(wǎng)絡的出水氨氮預測研究[J]. 計算機與應用化學,2017,34(2):145-151.
[18]白俊強,王 丹,何小龍,等. 改進的RBF神經(jīng)網(wǎng)絡在翼梢小翼優(yōu)化設計中的應用[J]. 航空學報,2014,35(7):1865-1873.
[19]何偉銘,宋小奇,甘 屹,等. 傳感器校正的優(yōu)化灰色神經(jīng)網(wǎng)絡建模方法研究[J]. 儀器儀表學報,2014,35(3):504-512.
[20]桂 州,陳建國,王成彬.基于PCA-SMOTE-隨機森林的地質不平衡數(shù)據(jù)分類方法——以東天山地球化學數(shù)據(jù)為例[J]. 桂林理工大學學報,2017,37(4):587-593.
[21]李柳華,劉小平,歐金沛,等. 基于隨機森林模型的城市擴張三維特征時空變化及機制分析[J]. 地理與地理信息科學,2019,35(2):53-60.
[22]方匡南,吳見彬,朱建平,等. 隨機森林方法研究綜述[J]. 統(tǒng)計與信息論壇,2011,26(3):32-38.
[23]張 雷,王琳琳,張旭東,等. 隨機森林算法基本思想及其在生態(tài)學中的應用——以云南松分布模擬為例[J]. 生態(tài)學報,2014,34(3):650-659.
[24]桑滿杰,衛(wèi)海燕,毛亞娟,等. 基于隨機森林的我國蕎麥適宜種植區(qū)劃及評價[J]. 山東農業(yè)科學,2015,47(7):46-52.
[25]趙清杰,劉若宇. 基于隨機森林的大迎角非線性非定常氣動建模方法[J]. 北京理工大學學報,2017,37(11):1171-1177.
[26]Zhao Y,Xu X H,Jeremy L D,et al. Spatial variability assessment of soil nutrients in an intense agricultural area,a case study of Rugao County in Yangtze River Delta Region,China[J]. Environmental Geology,2009,57(5):1089-1102.
[27]范松克,郝成元. 2001—2016年河南省NDVI時空變化特征分析[J]. 江蘇農業(yè)學報,2019,35(4):860-867.
[28]李苗苗,吳炳方,顏長珍,等. 密云水庫上游植被覆蓋度的遙感估算[J]. 資源科學,2004,26(4):153-159.
[29]Bourennane H,King D,Couturier A,et al. Uncertainty assessment of soil water content spatial patterns using geostatistical simulations:an empirical comparison of a simulation accounting for single attribute and a simulation accounting for secondary information[J]. Ecological Modelling,2007,205(3/4):323-335.
[30]高 揚,汪亞峰,何念鵬,等. 不同土地利用方式下崇明島土壤酶與有機質空間分布特征[J]. 農業(yè)環(huán)境科學學報,2013,32(1):21-28.
[31]王 晶,任 麗,楊聯(lián)安,等. 基于云模型的西安市蔬菜區(qū)土壤肥力綜合評價[J]. 干旱區(qū)資源與環(huán)境,2017,31(10):183-189.
[32]江葉楓,郭 熙. 基于多源輔助數(shù)據(jù)和神經(jīng)網(wǎng)絡模型的稻田土壤砷空間分布預測[J]. 環(huán)境科學學報,2019,39(3):928-938.
[33]Knotters M,Brus D J,Voshaar J O. A comparison of kriging,co-kriging and kriging combined with regression for spatial interpolation of horizon depth with censored observations[J]. Geoderma,1995,67(3):227-246.
[34]姚明煌,駱炎民. 改進的隨機森林及其在遙感圖像中的應用[J]. 計算機工程與應用,2016,52(4):168-173.
[35]劉榮欣,胡 萍. 偏最小二乘法回歸模型在分析毛滌混紡面料纖維含量中的應用[J]. 河南工程學院學報(自然科學版),2019,31(1):8-12.趙 新,孫坤慧,孫愛博,等. 現(xiàn)有空間規(guī)劃實施評價及沖突協(xié)調研究——以江蘇豐縣為例[J]. 江蘇農業(yè)科學,2020,48(24):274-279.