殷彩云,白子金,羅德芳,彭 杰
(塔里木大學(xué)植物科學(xué)學(xué)院,新疆 阿拉爾 843300)
土壤全氮是衡量土壤肥力水平的重要指標(biāo)之一,土壤氮含量指標(biāo)被廣泛用于土壤養(yǎng)分供應(yīng)能力、植物養(yǎng)分吸收和利用規(guī)律等農(nóng)化分析中[1],如何快速、準(zhǔn)確和高效地監(jiān)測土壤全氮含量,對作物生長和科學(xué)合理施用氮肥有重要意義。傳統(tǒng)測定土壤全氮含量的方法,不僅有耗時、耗力、成本高、環(huán)境污染等缺點(diǎn)[2-4],而且在測定過程中一些化學(xué)試劑容易對人體造成危害,這種方法顯然不能滿足生產(chǎn)中大面積快速監(jiān)測土壤全氮含量的需求。近年來,高光譜技術(shù)被廣泛用于土壤化學(xué)組分的測定,而基于光譜學(xué)原理的土壤氮素含量測定方法具有及時、省力、簡便、無污染等優(yōu)點(diǎn)[5],可為快速監(jiān)測土壤全氮含量提供一個有效途徑。
隨著科學(xué)技術(shù)的進(jìn)步,高光譜技術(shù)的發(fā)展為高效快速監(jiān)測土壤養(yǎng)分提供了新的技術(shù)和方法。目前,國內(nèi)外學(xué)者利用高光譜技術(shù)分析土壤全氮的相關(guān)研究已取得較大進(jìn)展。Hummel等[6]研究發(fā)現(xiàn)土壤全氮含量與光譜反射率在可見光和近紅外波段相關(guān)性很高。Reeves等[7]利用近紅外光譜反射率特征波段建立的模型可對土壤全氮含量進(jìn)行有效估測。Chang等[8]利用偏最小二乘法(PLSR)建立的基于光譜分析的模型可有效估測土壤全氮含量。前人的研究結(jié)果表明,利用土壤光譜反射率數(shù)據(jù)可進(jìn)行土壤全氮含量估測,為后續(xù)的研究打下堅(jiān)實(shí)基礎(chǔ)。盧艷麗等[9]利用可見光550和450 nm組成的光譜指數(shù)構(gòu)建了土壤全氮含量預(yù)測模型,預(yù)測集R2達(dá)到了0.82以上。彭杰等[10]以895、1079、1138 nm等8個敏感波段反射率對數(shù)倒數(shù)的一階微分建立的多元逐步回歸模型R2達(dá)到了0.83。李焱等[11]通過提取特征波段,以多元逐步線性回歸和偏最小二乘回歸建模,發(fā)現(xiàn)反射率經(jīng)二階微分變換后,以偏最小二乘回歸建模R2達(dá)到了0.96。王一丁等[12]對光譜反射率進(jìn)行倒數(shù)對數(shù)和正交信號校正變換后,以PLSR建立的土壤全氮估測模型R2為0.92。近年來,國內(nèi)一些研究多以高光譜數(shù)據(jù)結(jié)合非線性建模方法建立土壤養(yǎng)分含量估測模型,由于土壤光譜反射率和土壤養(yǎng)分含量之間是一種非線性關(guān)系,因此用非線性模型來估測土壤養(yǎng)分含量效果更好。如王世東等[13]、高小紅等[14]、張娟娟等[15]利用PLSR和BPNN兩種建模方法與光譜反射率及其數(shù)學(xué)變換建立土壤全氮估測模型,均具有較好的預(yù)測能力。鄭立華等[16]提取貢獻(xiàn)率超過99.98%的主成分建立BP神經(jīng)網(wǎng)絡(luò)全氮含量模型,預(yù)測R2達(dá)到了0.81。以上研究表明,基于高光譜數(shù)據(jù)建立的模型是可以對土壤全氮含量進(jìn)行估測的,但由于土壤類型和地區(qū)性差異,在實(shí)際工作中很難找到一種通用的模型來估測土壤全氮含量。
隨機(jī)森林(RF)是一種較新的數(shù)據(jù)挖掘模型[17],具有運(yùn)算速度快、穩(wěn)定性高、數(shù)據(jù)適應(yīng)能力強(qiáng)、在處理大數(shù)據(jù)集時預(yù)測精度高且不易產(chǎn)生過擬合等優(yōu)勢[18-19]。馬利芳等[20]利用RF法構(gòu)建了土壤鹽分主要離子估測模型。張智韜等[21]基于微分變換構(gòu)建的SVMDA-RF模型預(yù)測了土壤有機(jī)質(zhì)含量。目前RF多用于土壤有機(jī)質(zhì)和土壤重金屬等估測,而用于土壤全氮含量的估測研究較少。因此,本研究利用新疆南疆5縣土壤樣品的高光譜和全氮含量數(shù)據(jù),運(yùn)用偏最小二乘回歸(PLSR)、支持向量機(jī)回歸(SVM)和隨機(jī)森林回歸(RF)3種方法,結(jié)合光譜反射率(R)及一階微分(FD)、倒數(shù)(1/R)、對數(shù)(lgR)和連續(xù)統(tǒng)去除(CR)變換數(shù)據(jù)分別建立研究區(qū)全區(qū)和分區(qū)土壤全氮含量估測模型。通過分析比較不同建模方法和不同數(shù)據(jù)變換后的估測模型精度,挑選出最優(yōu)全氮含量估測模型,為研究區(qū)大范圍快速準(zhǔn)確獲取土壤全氮含量提供技術(shù)支撐。
阿克蘇地區(qū)位于新疆維吾爾自治區(qū)中部,天山山脈南麓,塔里木盆地北部,其地理坐標(biāo)為78°03′~84°07′E、39°30′~42°41′N,屬于暖溫帶大陸性氣候,年降水量42.4~94.4 mm,但年蒸發(fā)量高達(dá)1200~1500 mm[22],年均氣溫9.9~11.5℃,光熱資源豐富,晝夜溫差大[23]。和田地區(qū)位于新疆維吾爾自治區(qū)最南端,南連昆侖山,東部與巴音郭楞蒙古自治州毗鄰,北部與阿克蘇地區(qū)相鄰,西部連喀什地區(qū),地理位置為77°31′~84°55′E、34°22′~39°38′N,年均降水量35 mm,年均蒸發(fā)量2480 mm,屬于暖溫帶極端干旱荒漠氣候[22]。本研究選取的溫宿縣、拜城縣、和田縣、新和縣和阿瓦提縣隸屬于阿克蘇及和田地區(qū)。研究區(qū)種植作物以棉花、水稻、紅棗、蘋果、香梨、核桃為主,土壤類型主要以壤土和砂壤土為主,其保肥保水能力較差,土壤氮素含量普遍偏低,且該地區(qū)鹽漬化程度較高,嚴(yán)重影響作物的正常生長發(fā)育,對農(nóng)業(yè)經(jīng)濟(jì)收入造成了一定的制約。
本研究土壤樣品采集地點(diǎn)(圖1)和采集數(shù)量分別為溫宿縣105個、拜城縣78個、阿瓦提縣60個、新和縣47個以及和田縣107個,共采集397個土壤樣品。為保證土壤樣品采集的精準(zhǔn)性,用網(wǎng)格布點(diǎn)法采集土樣,各采樣點(diǎn)間距約為100 m,采樣深度為0~20 cm,每個土樣采集重量為500 g左右。土樣帶回室內(nèi)后,去除雜草、礫石及動植物殘骸等雜質(zhì),在室內(nèi)自然風(fēng)干。風(fēng)干后的土樣經(jīng)研磨混勻后分成兩份,一份過2 mm篩,用于光譜數(shù)據(jù)的測定,一份過0.25 mm篩,用于土壤全氮含量的測定。
圖1 樣區(qū)分布圖
采用半微量開氏法測定土壤全氮含量,每個土樣設(shè)3次重復(fù),重復(fù)間相對誤差控制在5%以內(nèi),取3次測量結(jié)果的平均值為最終測定值。各地區(qū)土壤全氮含量描述性統(tǒng)計(jì)見表1,由表1可知,全氮含量最大值出現(xiàn)在溫宿縣,為1.89 g/kg,最小值出現(xiàn)在新和縣,僅為0.07 g/kg,總體平均值為0.62 g/kg,各地區(qū)變異系數(shù)為10%~60%,根據(jù)雷志棟等[24]對變異系數(shù)的等級劃分,該研究區(qū)的土壤全氮含量屬于中等變異,有利于模型的構(gòu)建。
表1 各地區(qū)土壤全氮含量描述性統(tǒng)計(jì)
采用美國ASD公司的FieldSpec Pro FR型光譜儀進(jìn)行土樣光譜數(shù)據(jù)的測定,其測定波長范圍為350~2500 nm,光譜分辨率在350~1000 nm為3 nm,在1000~2500 nm為10 nm,數(shù)據(jù)重采樣間隔為1 nm[25]。測定土樣光譜前利用標(biāo)準(zhǔn)白板和黑板對光譜儀進(jìn)行校準(zhǔn)和調(diào)整。采集光譜時,為了減少外界環(huán)境對測定結(jié)果的影響,將土樣放置于直徑10 cm、深1.5 cm的內(nèi)部涂黑的培養(yǎng)皿中,以50 W鹵素?zé)魹闇y定光源,距離土樣表面70 cm,天頂角為30°,傳感器探頭位于土樣表面垂直上方15 cm處,采用25°視場角探頭,每測定一個土樣光譜進(jìn)行白板校正,每個土樣采集10條光譜曲線,算數(shù)平均后得到該土樣的實(shí)際反射率光譜數(shù)據(jù)[26]。
由于光譜曲線的350~399和2401~2500 nm波段受外界噪聲影響較大,故將其去除[13],僅選取400~2400 nm波段進(jìn)行光譜分析。為消除樣品間散射導(dǎo)致的基線偏移和減少平滑對有用信息的影響,本文采用了多元散射校正(multiplicative scatter correction,MSC)和Savitzky-Golay7點(diǎn)平滑對原始光譜反射率數(shù)據(jù)進(jìn)行預(yù)處理,得到的反射率(R),并結(jié)合一階微分(first derivative,F(xiàn)D)、連續(xù)統(tǒng)去除(continuum removal,CR)、倒數(shù)(1/R)和對數(shù)(lgR)對反射率(R)進(jìn)行數(shù)學(xué)變換。
建模思路為分區(qū)建模和全區(qū)建模,以所有采樣點(diǎn)獲得的數(shù)據(jù)進(jìn)行全區(qū)建模,以各縣采集的數(shù)據(jù)(共5個縣)進(jìn)行分區(qū)建模。為保證模型建立和驗(yàn)證的合理性,所有模型的建模集和預(yù)測集都以全氮含量由低到高進(jìn)行排序進(jìn)行等間距抽樣,以2∶1劃分成建模集與預(yù)測集。建模方法選用偏最小二乘回歸(partial least squares regression,PLSR)、支持向量機(jī)回歸(support vector machines,SVM)和隨機(jī)森林回歸(random forest,RF)3種方法。PLSR和SVM建模和驗(yàn)證在The Unscrambler X 10.5中完成,RF建模和驗(yàn)證在R語言中完成。
模型評價指標(biāo)選用決定系數(shù)(determination coefficient,R2)、均 方 根 誤 差(root mean square error,RMSE)和相對分析誤差(relative percent deviation,RPD)。其中,R2表示預(yù)測值與實(shí)測值之間的擬合程度,R2越大,說明預(yù)測值與真實(shí)值越接近,模型精度越好;RMSE表示預(yù)測值偏離真實(shí)值的程度,對于同一組數(shù)據(jù),RMSE越小,說明預(yù)測值越接近真實(shí)值;RPD表示模型預(yù)測能力的強(qiáng)弱,根據(jù)Chang等[4]對RPD的等級劃分,當(dāng)預(yù)測模型的RPD≥2時,表示該模型有較好的估測能力;當(dāng)1.4≤RPD<2.0時,表示該模型可以對樣品含量進(jìn)行粗略估測;當(dāng)RPD<1.4時,表示該模型預(yù)測能力很差,無法對樣品含量進(jìn)行估測。
根據(jù)土樣將全氮含量分為4個等級,分別為等級1(<0.5 g/kg)、等級2(0.5≤TN<1.0 g/kg)、等級3(1.0≤TN<1.5 g/kg)和 等 級4(≥1.5 g/kg)。圖2為根據(jù)每個等級的平均反射率得到4條反射率光譜曲線,由圖2可知,不同全氮含量土樣光譜曲線的變化規(guī)律基本一致,反射率變化范圍為0.15~0.50,在全波段范圍內(nèi),土壤全氮的光譜曲線變化整體呈緩慢上升趨勢,在1415、1920、2220 nm波段處有明顯的吸收特征。在可見光400~780 nm波段,光譜曲線較陡峭,反射率增長速度較快;在780~1900 nm波段,光譜曲線較平緩,反射率增長速度較慢;在1900~2100 nm波段,土壤光譜反射率隨波長的增加而增大,在2100 nm左右波段,反射率值達(dá)到最大值;在580~2400 nm波段土壤反射率也是隨著土壤全氮含量的增加而增大,但在400~580 nm波段并未呈現(xiàn)這樣的規(guī)律,出現(xiàn)了交叉現(xiàn)象。
圖2 不同全氮含量土壤光譜反射率
將土壤R經(jīng)FD、CR、1/R和lgR變換后,分別與土壤全氮含量做相關(guān)性分析,相關(guān)系數(shù)曲線如圖3。由圖3可知,土壤全氮含量與R在部分波段達(dá)到了較好的相關(guān)性;數(shù)據(jù)經(jīng)FD變換后,在近紅外波段達(dá)到顯著性水平的波段數(shù)明顯減少,但有極少波段相關(guān)性有所提高,而大部分波段相對于R的相關(guān)性并未得到改善,反而有所下降;數(shù)據(jù)經(jīng)CR變換后,在全波段內(nèi),土壤全氮含量和反射率數(shù)據(jù)相關(guān)性達(dá)到顯著性的波段數(shù)有明顯增加,且大多數(shù)波段相關(guān)性達(dá)到了極顯著水平,最大相關(guān)系數(shù)達(dá)到了0.43,是一種較好的光譜變換形式;數(shù)據(jù)經(jīng)1/R和lgR變換后,lgR變換后的相關(guān)性曲線和反射率R相關(guān)系數(shù)曲線走勢基本相同,差異較小,1/R變換后的相關(guān)系數(shù)曲線與R相關(guān)系數(shù)曲線相對稱,三者達(dá)到顯著性水平以上的波段數(shù)基本相同。
圖3 全氮含量與高光譜數(shù)據(jù)的相關(guān)分析
為了得到土壤全氮含量最優(yōu)估測模型,本文針對性地使用反射率及其4種數(shù)學(xué)變換后數(shù)據(jù),利用PLSR、SVM和RF對5個地區(qū)土壤全氮含量進(jìn)行建模,各模型結(jié)果見表2。由表2可知,3種方法建立的模型效果各不相同,在進(jìn)行分區(qū)建模時,PLSR最優(yōu)模型建模集的R2為0.83,RMSE為0.14 g/kg,預(yù)測集R2為0.73,RMSE為0.17 g/kg,RPD為1.82,未達(dá)到2.0以上,說明PLSR模型效果一般,只能對樣品全氮含量進(jìn)行粗略估測;SVM最優(yōu)模型建模集R2為0.78,RMSE為0.16 g/kg,預(yù)測集R2為0.75,RMSE為0.16 g/kg,RPD為1.97,也未達(dá)到2.0以上,說明SVM模型也只能對樣品全氮含量進(jìn)行粗略估測。SVM較PLSR模型,建模集的R2雖然下降了0.05,但預(yù)測集的R2上升了0.02,RMSE下降了0.01 g/kg,RPD上升了0.15,說明SVM模型的預(yù)測能力略高于PLSR模型。而RF最優(yōu)模型建模集的R2為0.87,RMSE為0.08 g/kg,預(yù)測 集R2為0.86,RMSE為0.08 g/kg,RPD達(dá) 到 了3.52,說明RF模型預(yù)測能力較好,可以對樣品全氮含量進(jìn)行精確估測。
全區(qū)模型與分區(qū)模型相比,PLSR、SVM和RF進(jìn)行全區(qū)建模時,建立的最優(yōu)模型RPD分別為1.50、1.62和3.24,均低于分區(qū)最優(yōu)模型,但PLSR和SVM模型的RPD均大于1.40,可以對樣本全氮含量進(jìn)行粗略估測;而分區(qū)建模部分地區(qū)建立的PLSR和SVM模型不能用于全氮含量估測,說明全區(qū)模型的穩(wěn)定性要高于分區(qū)模型。3種模型相比較,RF模型建模集R2為0.80~0.87,預(yù)測集R2為0.76~0.85,RPD為2.35~3.52,RF估測全氮含量的結(jié)果較穩(wěn)定,整體估測精度較高,是一種較好的建模模型。
由表2分析可知,不同數(shù)據(jù)變換后,模型的精度也有所變化,在5個不同地區(qū),由于土壤類型和采樣數(shù)量的不同,各種數(shù)據(jù)變換后建模精度無明顯變化規(guī)律。PLSR、SVM和RF最優(yōu)模型分別是在光譜R數(shù)據(jù)經(jīng)CR、1/R和lgR變換后建立的。在5個地區(qū)建立的最優(yōu)模型均是RF模型,在和田縣、阿瓦提縣和新和縣,數(shù)據(jù)經(jīng)lgR變換后,建立的模型精度最高,而在拜城縣和溫宿縣,數(shù)據(jù)分別經(jīng)1/R和CR變換后,建立的模型精度最高。其中阿瓦提縣和新和縣以PLSR和SVM建立的模型精度明顯低于其他地區(qū),可能是由于這兩地區(qū)采樣點(diǎn)位置比較集中,采樣數(shù)較少,土壤類型單一,總體缺乏代表性,構(gòu)建的模型效果較差。
表2 土壤全氮含量估測最優(yōu)模型
建模時將光譜R進(jìn)行預(yù)處理可消除土壤類型(質(zhì)地、顆粒大小等)及所處環(huán)境(溫度、濕度等)對建模效果的影響,并適當(dāng)提高模型的預(yù)測能力[27-28]。徐永明等[29]運(yùn)用一階導(dǎo)數(shù)(FDR)、倒數(shù)(1/R)、倒數(shù)對數(shù)[lg(1/R)]、波段深度4種數(shù)學(xué)變換后的光譜R與總氮含量進(jìn)行分析,發(fā)現(xiàn)FDR和lg(1/R)變換后的回歸和驗(yàn)證精度較高。陳紅艷等[30]利用遺傳算法結(jié)合偏最小二乘法對光譜的5種數(shù)據(jù)變換分別建模,發(fā)現(xiàn)反射率的一階導(dǎo)數(shù)表現(xiàn)最佳。Zornoza等[31]將光譜數(shù)據(jù)進(jìn)行多元散射校正和一階微分處理后,建立的模型精度有明顯提高。本研究結(jié)果與上述研究結(jié)果基本一致,本文利用R及FD、1/R、lgR和CR 4種變換后的光譜R數(shù)據(jù)進(jìn)行建模,F(xiàn)D變換后模型的精度較低,可能原因是一階微分在放大光譜特征波段的同時會放大噪聲和無關(guān)因素的干擾,這在一定程度上也會降低建模精度,而其他數(shù)據(jù)變換在建模中對建模精度都有不同程度的提高,更能反映出土壤全氮含量的變化特征。
土壤養(yǎng)分含量的高光譜估測模型主要有線性模型和非線性模型,合理選擇建模方法是提高反演精度和效率的重要步驟。PLSR方法借鑒了主成分分析、典型相關(guān)分析和普通多元線性回歸3種分析方法的優(yōu)點(diǎn)[32],較好地解決了樣本數(shù)少于變量數(shù)等問題。王海江等[33]研究了基于特征波段建立的PLSR、SVM和SMLR模型,發(fā)現(xiàn)PLSR模型精度最高。劉秀英等[34]運(yùn)用相關(guān)分析和偏最小二乘回歸建立的黃綿土土壤全氮預(yù)測模型可對0~40 cm土壤全氮進(jìn)行有效預(yù)測。而在本研究中,PLSR模型的精度卻為最低,這可能是研究地域和土壤類型差異較大,總體缺乏代表性,土壤光譜存在較大的差異性,而且PLSR屬于線性回歸模型,而全氮含量跟光譜反射率是一種非線性關(guān)系,因此無法對全氮含量的非線性特征進(jìn)行表征,從而難以保證估算結(jié)果的精確性和可靠性。代希君[35]利用ENVI 5.1將高光譜數(shù)據(jù)轉(zhuǎn)換為多光譜數(shù)據(jù),采用PLSR和SVM建立土壤鹽分反演模型,結(jié)果發(fā)現(xiàn)SVM模型反演精度優(yōu)于PLSR模型。劉煥軍等[36]利用RF構(gòu)建的基于影像波段和光譜指數(shù)的土壤有機(jī)質(zhì)含量預(yù)測模型精度R2為0.69。王金鳳等[37]運(yùn)用RF、SVM、PLSR 3種方法進(jìn)行元素含量與光譜變量建模后,發(fā)現(xiàn)基于二階微分變換的RF準(zhǔn)確度最高。為進(jìn)一步提高模型精度,鑒于以上研究結(jié)果,本研究采取了非線性建模方法SVM和RF建立全氮含量估測模型,發(fā)現(xiàn)SVM建模精度較PLSR有小幅度的提高,而RF較PLSR建模精度有大幅度的提高,由于RF具有穩(wěn)定性高、數(shù)據(jù)適應(yīng)能力強(qiáng)、抗噪聲能力強(qiáng)、在處理大數(shù)據(jù)集時預(yù)測精度高且不易產(chǎn)生過擬合等優(yōu)點(diǎn)[18-19],因此利用RF模型可有效提高模型預(yù)測精度和穩(wěn)定性。
根據(jù)不同等級土壤全氮含量光譜曲線得出,各曲線走勢基本一致,在近紅外波段的1415、1920、2220 nm處有明顯的吸收特征。對比反射率曲線得出,在580~2400 nm內(nèi)R隨土壤全氮含量的增加而增大。
對土壤光譜R進(jìn)行一定的數(shù)學(xué)變換,可提高土壤全氮和土壤光譜R的相關(guān)性,本研究選取的連續(xù)統(tǒng)去除變換明顯提高了光譜與土壤全氮的相關(guān)性,相關(guān)系數(shù)最大,達(dá)到了0.43,更能反映土壤全氮含量變化特征。
RF模型在預(yù)測土壤全氮含量的過程中具有較高的估測精度,其整體預(yù)測精度要高于PLSR和SVM模型,可以對土壤全氮含量進(jìn)行精確估測;SVM模型的估測精度雖然高于PLSR模型,但SVM和PLSR模型只能對土壤全氮含量進(jìn)行粗略估測。對光譜數(shù)據(jù)進(jìn)行數(shù)學(xué)變換后建模,除一階微分變換外,其他數(shù)據(jù)變換均對模型精度有不同程度的提高。RF模型無論是分區(qū)建模還是全區(qū)建模,模型在各種數(shù)據(jù)變換之后預(yù)測精度差異性較小、模型結(jié)果均勻、穩(wěn)定性高、適用性好。分區(qū)最優(yōu)模型的精度要高于全區(qū)最優(yōu)模型,但分區(qū)模型差異性明顯,而全區(qū)模型綜合了各地區(qū)土壤類型的差異,模型的穩(wěn)定性較高,在進(jìn)行分區(qū)建模時可通過增加樣本數(shù)來提高模型的精確性和穩(wěn)定性。