尹 群 ,王維瑞,郭紀敏,張世文,胡青青,沈 強
(1.安徽理工大學(xué)地球與環(huán)境學(xué)院,安徽 淮南 232001;2.北京市土肥工作站,北京 100029;3.上海大學(xué)理學(xué)院,上海 200444;4.安徽理工大學(xué)測繪學(xué)院,安徽 淮南 232001)
土壤全氮(soil total nitrogen)是指土壤中各種形態(tài)氮素含量的總和,氮元素不僅是保障植物正常生長的必需元素,也是衡量土壤肥力的重要指標之一[1-2]。氮是構(gòu)成一切生命體的重要元素,準確掌握土壤全氮含量的空間分布格局及其變異特征是區(qū)域合理利用土地資源、進行精準施肥的重要前提[3-4]。在作物生產(chǎn)中,作物對氮素的需求量較大,土壤供氮不足或者過量施氮都會引起農(nóng)產(chǎn)品產(chǎn)量和品質(zhì)的下降[5-6]。采樣點數(shù)量直接影響著預(yù)測精度和研究成本[7],因此,在研究土壤全氮空間分布特征的同時,需要綜合考慮采樣數(shù)量。
目前,對于全氮的預(yù)測方法很多,其中根據(jù)高光譜來預(yù)測土壤全氮的含量和空間分布是最常見的方法,文獻[8]基于高光譜的反射特性對土壤全氮含量進行預(yù)測分析;而通過預(yù)測模型對土壤全氮進行預(yù)測研究也比較常見[9];而基于輔助變量不同采樣數(shù)量對于全氮的預(yù)測鮮有學(xué)者研究。
本文以北京市通州區(qū)東南部四個鄉(xiāng)鎮(zhèn)耕地表層土壤全氮為研究對象,基于2018年通州區(qū)耕地質(zhì)量調(diào)查數(shù)據(jù),選擇相關(guān)性較大輔助變量,運用RBF神經(jīng)網(wǎng)絡(luò)(Radial Basis Function Neural Network,RBFNN)、偏最小二乘回歸(Partial Least-Square regression,PLS)和隨機森林(Random Forest,RF)作為模擬預(yù)測方法,采樣不同梯度的采樣點數(shù)量,模擬通州區(qū)土壤全氮含量分布,對不同數(shù)量采樣點的預(yù)測精度進行對比,結(jié)果可為土壤全氮預(yù)測選擇合適的采樣點提供參考,土壤采樣設(shè)計相關(guān)研究與實踐提供參考。
1)偏最小二乘法。PLS是一種用于多元統(tǒng)計數(shù)據(jù)分析的新型算法,包括了多元回歸分析、典型相關(guān)分析和主成成分分析,能對復(fù)雜變量進行有效分析[10]。相對于普通多元回歸,PLS所提取的成分,不但能有效地概括自變量系統(tǒng)中的變異信息,同時還可以對因變量給與解釋,并且還能克服變量間的共線性問題,從而可以減少計算量。特別是在觀測值數(shù)量少以及存在多重相關(guān)性等問題時,PLS回歸具有傳統(tǒng)方法不具備的計算簡潔,建模效果好等優(yōu)點[11-12]。PLS法目前廣泛用于化學(xué)計量、社會科學(xué)等領(lǐng)域[13]。
2)RBF神經(jīng)網(wǎng)絡(luò)。RBFNN屬于單隱層的三層前饋網(wǎng)絡(luò)[14],它屬于局部逼近網(wǎng)絡(luò),該網(wǎng)絡(luò)輸入層僅起到傳輸信號的作用,神經(jīng)元的數(shù)目為樣本中輸入向量的維數(shù)[15];輸出層則對隱層的輸出進行線性加權(quán)求和得到網(wǎng)絡(luò)的最終輸出[16],利用RBFNN進行預(yù)測,首先要構(gòu)建其網(wǎng)絡(luò)模型,在建立RBFNN時,各層的節(jié)點數(shù)目、RBF、隱層中心、擴展常數(shù)和隱層到輸出層的權(quán)值都是需要考慮的因素。把之前建立的時空序列模型結(jié)合RBFNN建立如下神經(jīng)網(wǎng)絡(luò)預(yù)測模型[17-18]。
3)隨機森林。隨機森林(random forest,RF)由大量決策樹構(gòu)成,每棵樹進行獨立分類運算得到各自的分類結(jié)果,根據(jù)每棵樹的分類結(jié)果投票決定最終結(jié)果[19]。RF算法是基于傳統(tǒng)決策樹的統(tǒng)計學(xué)習(xí)理論,它可有效處理高維數(shù)據(jù),具有較高的預(yù)測準確率,克服了過擬合的問題,可以在訓(xùn)練的同時進行泛化誤差的估計,現(xiàn)已被廣泛應(yīng)用于醫(yī)學(xué)、農(nóng)學(xué)、經(jīng)濟學(xué)、水文科學(xué)、生物信息等領(lǐng)域[20]。
研究區(qū)位于北京市通州區(qū)東南部,主要包括西集鎮(zhèn)、漷縣鎮(zhèn)、于家務(wù)鄉(xiāng)以及永樂店鎮(zhèn),因這4個鄉(xiāng)鎮(zhèn)耕地分布較多,有利于樣點的布設(shè)。通州區(qū)地處北京市東南部,區(qū)域面積906平方公里,常住人口157.8萬人;全區(qū)屬于溫帶大陸性季風(fēng)氣候,年平均溫度在11.3℃,年降水量620mm左右;通州區(qū)土壤主要以潮土和褐土為主,研究區(qū)以潮土為主。
圖1 研究區(qū)位置及采樣點分布
在充分考慮了通州區(qū)的地理位置、氣候、土壤類型以及土地利用方式的基礎(chǔ)上,于2018年9月對土壤樣品采集,采用棋盤法采集0~20cm的耕地表層土壤樣品312個。每個采樣點均以GPS 記錄其海拔和坐標,每個樣點采集樣品1kg,土壤樣品經(jīng)過自然風(fēng)干后,在實驗室磨碎過篩,采用《森林土壤氮的測定》(LY/T1228-2015)進行全氮含量的測定。
土壤全氮的空間分布受到多種地表環(huán)境因素的綜合影響,參考國內(nèi)外研究,研究選取高程、坡度、植被覆蓋指數(shù)(NDVI)、地下水埋深作為土壤全氮空間分布模擬的輔助因子。NDVI由Landsat8 OLI 衛(wèi)星數(shù)字影像(拍攝于2018年4月8日,空間分辨率為30m)的第四波段和第五波段在ArcGIS 10.1中進行柵格計算獲??;高程使用GPS記錄獲得;坡度用水準儀測試;地下水埋深根據(jù)現(xiàn)場實地調(diào)查并結(jié)合歷史資料、文獻獲得。
為了驗證不同方法對土壤全氮空間分布預(yù)測精度,本研究將312樣點隨機抽取300、200、100建模。以均方根誤差、平均絕對誤差、平均相對誤差對建模集預(yù)測值與實際樣點值進行對比分析得出預(yù)測精度結(jié)果,公式如下
(1)
(2)
(3)
目前對于不確定性分析評價沒有統(tǒng)一的量化標準,國內(nèi)外學(xué)者大都采用標準差分布圖來對預(yù)測的不確定性進行評價,Bourennane研究得出保持模擬準確性的同時,標準差越小,預(yù)測是準確性越高[21]。
對有機質(zhì)的空間預(yù)測需要結(jié)合輔助變量,而選擇相關(guān)性較大的輔助變量是至關(guān)重要的。圖2為土壤全氮與輔助變量之間的相關(guān)性,可以看出全氮含量與高程、坡度、耕層厚度以及NDVI存在一定的正向相關(guān)性,其中與耕層厚度的正相關(guān)性最大;而全氮與pH存在較小的負相關(guān)性。研究選擇易獲取的高程、坡度、NDVI以及耕層厚度作為輔助變量來進行全氮的建模與預(yù)測。
圖2 土壤全氮與輔助變量之間相關(guān)性
圖3 研究區(qū)歸一化植被指數(shù)(NDVI)、耕層厚度、高程、和坡度
表1為將研究區(qū)312個采樣點隨機抽取20、40、60、80、100、150、200、250和300個樣點作為研究對象的統(tǒng)計結(jié)果??梢钥闯霾蓸狱c為20、60和80的土壤全氮含量范圍都在0.57~1.76g/kg,平均值也很接近,為1.13g/kg左右,標準差為0.26g/kg左右;而采樣點數(shù)量80和100的值域范圍相同;而采樣點數(shù)量為150、200、250、300的土壤全氮范圍都在0.40~1.923g/kg之間,均值都為1.08g/kg,標準差也相同;根據(jù)K-S檢驗的P值都大于0.05,可以看出土壤全氮含量服從正態(tài)分布。
表1 描述性統(tǒng)計
通過對相同預(yù)測模型不同采樣點數(shù)量下預(yù)測結(jié)果的RMSE、MAE和MRE的數(shù)值制作折線圖以及相同采樣點數(shù)量下不同預(yù)測模型的預(yù)測結(jié)果的RMSE、MAE和MRE的數(shù)值制作柱狀圖來直觀的反應(yīng)預(yù)測的精度。
1)預(yù)測模型相同下不同采樣數(shù)量全氮預(yù)測模型精度對比。根據(jù)圖4,預(yù)測模型為PLS模型時,根據(jù)RMSE的數(shù)值,在采樣點數(shù)量在40以下時,RMSE數(shù)值為0.23,在采樣點數(shù)量為80時最高為0.23,而采樣點數(shù)量大于100,根據(jù)RMSE的走勢,總體趨勢是隨著采樣點數(shù)量的增加,預(yù)測精度先升高再降低,然后升高,最后趨于穩(wěn)定,在采樣點數(shù)量為100以后,隨著采樣數(shù)量的增加,數(shù)值趨于穩(wěn)定為0.22,預(yù)測精度不會出現(xiàn)明顯的增加;而MAE和MRE總體趨勢是大致相同的,都是隨著采樣數(shù)量的增加精度先升高在降低隨后增加,然后趨于平穩(wěn),在采樣數(shù)量為150時,數(shù)值最低,MAE為0.16、MRE值為15.83%,精度最高。
RBFNN作為預(yù)測模型時,根據(jù)RMSE數(shù)值趨勢來看,數(shù)值是先增加再降低隨后再升高,然后再降低,隨后趨于平穩(wěn),,在采樣點為60時,數(shù)值最低為0.21,精度最高,在采樣點數(shù)量達到150之后,數(shù)值穩(wěn)定為0.22,預(yù)測精度趨于穩(wěn)定;和預(yù)測模型為PLS情況一樣,RBFNN在MAE和MRE的趨勢是一樣,數(shù)值都是先下降再升高,隨后下降,最后再升高,在采樣點數(shù)量為60時,預(yù)測精度相對較高,而在采樣點數(shù)量為80時,數(shù)值較大,預(yù)測精度較低,而在采樣數(shù)量為150到250之間預(yù)測精度逐漸升高,而大于250,MAE數(shù)值由0.16升高到0.17預(yù)測精度又相對降低。
圖4 不同采樣數(shù)量預(yù)測精度折線圖
預(yù)測模型為RF時,RMSE、MAE以及MRE值的隨著采樣數(shù)量的增加,整體變化趨勢是相同的,都是先下降再升高,再下降,最后趨于穩(wěn)定,RMSE數(shù)值在采樣點數(shù)量為150時最小為0.14,預(yù)測精度最高,而MAE和MRE也有類似情況,可以看出采樣點在100以后,預(yù)測精度趨于平穩(wěn)。
2)采樣數(shù)量相同預(yù)測模型不同全氮預(yù)測模型精度對比。從圖4可以看出,RF模型的預(yù)測精度在所有采樣數(shù)量下都是最高的;采樣點數(shù)量為20時,根據(jù)RMSE、MAE以及MRE的數(shù)值,RF模型的RMSE、MAE以及MRE的數(shù)值分別為0.22、0.16、16.52%,數(shù)值在三種模型里都是最小的,預(yù)測精度都是最高的,PLS預(yù)測精度次之;采樣點數(shù)量為40時和采樣點數(shù)量為20有相同的情況;采樣點數(shù)量為60、200、250和300的情況大致相同,RF的預(yù)測精度最高,且數(shù)值比其他兩種預(yù)測模型相對較小,RBFNN預(yù)測精度次之,而PLS根據(jù)數(shù)值,預(yù)測精度相對較差但與RBFNN模型的數(shù)值相差不大;采樣點數(shù)量為80~150時,根據(jù)RMSE、MAE以及MRE的數(shù)值,RF模型的數(shù)值最小,預(yù)測精度最高,與其他兩種模型的RMSE數(shù)值相差大約0.09、MAE數(shù)值相差近0.07、MRE數(shù)值相差近6.69%, 數(shù)值相差較大,PLS模型相對與RBFNN模型的預(yù)測精度相對較好,根據(jù)數(shù)值,兩種預(yù)測模型的預(yù)測精度相差不大。
1)相同預(yù)測模型不同采樣數(shù)量土壤全氮預(yù)測不確定性分析。根據(jù)預(yù)測模型的精度對比,選取預(yù)測精度較好的采樣點數(shù)量為100、150以及200,來對其進行不確定性分析。采樣標準差分布圖對相同預(yù)測模型不同采樣數(shù)量預(yù)測進行不確定性分析,當輔助變量為PLS法時,采樣點數(shù)量為100時的標準差相對較大,預(yù)測的不確定性較大,在標準差分布圖中還會出現(xiàn)異常值,而采樣點數(shù)量為150和200時,標準差的值域范圍相同,且分布情況相同,都是在研究區(qū)東北方向出現(xiàn)標準差偏高的情況,這與耕層厚度的分布情況大致相同;當預(yù)測模型都為RBFNN時,三種采樣數(shù)量下的標準差值域大致相同,采樣點數(shù)量為150時,值域相對偏大一點,預(yù)測的不確定性相對較大,而采樣點數(shù)量為100和200時空間分布和值域都是大致相同的,且不確定性相對較小,也都是在研究區(qū)的北部標準差值較大,南部較小,這與耕層厚度分布相同,說明耕層厚度越大,預(yù)測的不確定性越大;RF作為預(yù)測模型時,三種采樣數(shù)量下的標準差值域都相對較大,不確定性都很大。
2)相同采樣數(shù)量不同預(yù)測模型土壤全氮預(yù)測不確定性分析。根據(jù)圖5標準差分布圖,當采樣點數(shù)量為100時,RBFNN模型的標準差相對較小,預(yù)測的不確定性最小,PLS模型次之,RF的標準差最大,預(yù)測的不確定性最大;采樣點數(shù)量為150時,和采樣點數(shù)量為100時有相同的情況,RBFNN的預(yù)測不確定最小,PLS和RBFNN標準差值域大致相同,且在研究區(qū)的分布也大致相同,RF的標準差值域最大,預(yù)測的不確定性最大。
采樣點數(shù)量100
采樣點數(shù)量150
采樣點數(shù)量200圖5 不同采樣數(shù)量下不同預(yù)測模型預(yù)測標準差分布圖
利用輔助變量結(jié)合預(yù)測模型按照一定的采樣數(shù)量對土壤全氮進行準確的預(yù)測是進行土壤肥力有效調(diào)控和耕地質(zhì)量等級提升的基礎(chǔ)工作。土壤全氮的預(yù)測受到多種因素的綜合影響,研究結(jié)果表明,在區(qū)域尺度上受到輔助變量的影響。前人研究表明,對土壤全氮預(yù)測僅基于地理坐標而不考慮其他相關(guān)性變量因素的影響,預(yù)測效果是不準確的。在以往的研究中大都選擇一種輔助變量進行預(yù)測,預(yù)測的精度相對較低。研究選擇與土壤全氮相關(guān)性較大高程、有效土層厚度以及NDVI作為輔助變量,獲得較好的預(yù)測結(jié)果,從預(yù)測精度分析來看,預(yù)測精度的高低分布與有效土層厚度的高低分布大致相似。
采樣點數(shù)量對土壤全氮的預(yù)測至關(guān)重要,選擇合適數(shù)量的采樣點可以大大的縮小工作量和成本。而采樣數(shù)量點數(shù)量的選擇要考慮其他因素的影響,尤其是預(yù)測模型本身是否對采樣點數(shù)量有一定的影響。文獻[22]利用RF算法,結(jié)合多源環(huán)境變量,對研究區(qū)原有的土壤圖斑進行分解制圖,結(jié)果表明利用RF算法進行土壤制圖是可行的,RF算法受采樣點數(shù)量有一定影響,但影響較小。文獻[23]研究表明RBFNN方法對樣本數(shù)據(jù)沒有特別的要求,具有更廣泛的應(yīng)用范圍。
對于土壤全氮的預(yù)測研究,往往只利用單一預(yù)測模,而對于模型的選擇和比較鮮有研究,本研究在不同采樣數(shù)量下利用多種輔助變量結(jié)合不同的預(yù)測模型對土壤全氮進行預(yù)測,得到最佳的采樣數(shù)量和預(yù)測模型。
本研究以北京市通州區(qū)東南部四個鄉(xiāng)鎮(zhèn)為研究區(qū)域,在土壤全氮空間預(yù)測精度方面,在采樣點相同的情況下,RF預(yù)測模型的預(yù)測精度最高,能夠較好的對土壤全氮進行預(yù)測,RBFNN和PLS預(yù)測精度大致相似;在預(yù)測模型相同的情況下,采樣點數(shù)量在60~200范圍內(nèi)的預(yù)測精度相對較高。
在預(yù)測的不確定性研究方面,選擇預(yù)測精度相對較高的采樣點數(shù)量為100、150和200對預(yù)測進行不確定性分析,研究結(jié)果表明PLS回歸和RBFNN預(yù)測模型在三種采樣數(shù)量下預(yù)測的不確定性都相對較小,RF模型的預(yù)測的標準差相對較大,不確定性較大。
采樣點數(shù)量在60~200之間的預(yù)測模型預(yù)測精度相對較高,為了保證預(yù)測精度,土壤采樣數(shù)量應(yīng)不少于60個、應(yīng)控制在200個以內(nèi),若采樣點數(shù)量低于60個,利用預(yù)測模型進行土壤全氮預(yù)測會出現(xiàn)較大的誤差,會影響土壤全氮預(yù)測精度,樣點高于200,雖然預(yù)測精度可能不會有太大的降低,但會增加采樣的工作量,降低采樣效率。
選擇最佳的采樣點數(shù)量,結(jié)合相關(guān)性較高的輔助變量,選擇合適的預(yù)測模型,可以節(jié)約成本,提高預(yù)測精度和預(yù)測效率。選擇合適的預(yù)測模型是至關(guān)重要的,對預(yù)測模型預(yù)測的不確定性的影響因素是需要考慮的問題,尤其對于采樣數(shù)量對于模型的具體影響還沒有深入的了解,是今后研究的重點。