張楠楠, 張 曉, 施明登, 范澤華, 王 濤, 白鐵成
(塔里木大學(xué)信息工程學(xué)院/中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所新疆南疆農(nóng)業(yè)信息化研究中心,新疆阿拉爾 843300)
在干旱與半干旱地區(qū),土壤鹽漬化是一種常見的土地退化方式[1],已發(fā)展成為國內(nèi)外土壤學(xué)研究的熱點(diǎn)[2]。土壤鹽漬化是威脅農(nóng)業(yè)生產(chǎn)和生態(tài)系統(tǒng)穩(wěn)定的一個重要因素[3],目前已成為全球性環(huán)境問題。新疆鹽堿土總面積848萬hm2,現(xiàn)有耕地中31.1%的面積受到了不同程度鹽堿化危害[4]。新疆南疆綠洲區(qū)為土壤鹽漬化大區(qū),鹽堿土具有面積大、類型多、積鹽重、形成復(fù)雜的特點(diǎn)[5]。
近紅外光譜(NIR)技術(shù)具有快速高效監(jiān)測的特點(diǎn),已經(jīng)在農(nóng)業(yè)及其他許多領(lǐng)域中得到廣泛應(yīng)用[6-8]。近年來,許多專家學(xué)者致力于變量的選擇問題[9]和采用不同的光譜預(yù)處理方法使所建立的土壤模型更穩(wěn)定和精確。如代希君等借助模糊k-均值聚類方法、歸一化處理等方法,采用偏最小二乘回歸法進(jìn)行全局鹽分預(yù)測,預(yù)測精度有所提高[10];張娟娟等選取全譜、合頻、N—H基團(tuán)等組合的8個波段,采用多元散射校正等多種預(yù)處理方法組合進(jìn)行土壤光譜樣品處理,發(fā)現(xiàn) 4 000~5 500 cm-1波段的模型精度最好,其決定系數(shù)達(dá)到 0.90,說明模型具有極好的預(yù)測能力[11];黃帥等把原始光譜經(jīng)微分變換后的12種高光譜指數(shù)與土壤含鹽量進(jìn)行相關(guān)性分析,篩選出對土壤含鹽量變化敏感的特征光譜波段,構(gòu)建了基于逐步多元線性回歸和偏最小二乘回歸模型,得出對數(shù)二階微分變換形式模型的穩(wěn)定性和預(yù)測精度最高[12];賈生堯等提出采用遞歸偏最小二乘法(recursive partial least squares regression,簡稱RPLS)來提高模型的預(yù)測能力,并同偏最小二乘法(PLS)、局部加權(quán)PLS、滑動窗口PLS對土壤速效磷與速效鉀含量進(jìn)行預(yù)測,結(jié)果表明,RPLS模型取得了最優(yōu)的預(yù)測結(jié)果,決定系數(shù)分別為0.61、0.76[13];Lin等利用平滑與多重散射校正聯(lián)合的方法對光譜進(jìn)行預(yù)處理,再利用x-y矩陣法(sample set partitioning based on joint x-y distance,簡稱SPXY)算法挑選建模集樣本,利用連續(xù)投影算法和遺傳算法分別進(jìn)行波長優(yōu)選,得出2種算法均可減少參與建模的波長數(shù)且能提高模型的準(zhǔn)確度,其中遺傳算法的預(yù)測精度更高[14]。
本研究在總結(jié)前人研究的基礎(chǔ)上,以南疆綠洲區(qū)為研究區(qū),依據(jù)近紅外光譜數(shù)據(jù)、土壤含鹽量實(shí)測數(shù)據(jù),通過多種處理方法對土壤光譜進(jìn)行變換處理消除光譜噪聲,運(yùn)用連續(xù)投影算法(successive projections algorithm,簡稱SPA)[15]選出特征波長,建立偏最小二乘法(partial least square,簡稱PLS)和連續(xù)投影算法-偏最小二乘法(successive projections algorithm-partial least square,簡稱SPA-PLS)預(yù)測模型,并將2種模型進(jìn)行比較,以期為土壤鹽分預(yù)測模型提供一種新的研究思路和方法。
本研究選取新疆維吾爾自治區(qū)南疆綠洲區(qū)土壤為試驗(yàn)對象,該地區(qū)最高氣溫為35 ℃,最低氣溫為-28 ℃。研究區(qū)太陽輻射強(qiáng)度平均每年為0.56~0.61 MJ/cm2。年均日照時數(shù)為2 556.3~2 991.8 h,日照率為58.69%。研究區(qū)雨雪稀少,地表蒸發(fā)強(qiáng)烈,年均降水量為40.1~82.5 mm,年均蒸發(fā)量為1 876.6~2 558.9 mm。
在南疆綠洲區(qū)所選的典型樣點(diǎn)進(jìn)行土樣采集,取表層 0~10 cm土壤,為保證所取土樣樣點(diǎn)的代表性,確定樣方面積為3 m×3 m,采用5點(diǎn)法采樣,即在每個樣方的4角和中心各取1個土樣,混合均勻,取500 g土樣放入密封袋中,并做好標(biāo)記。室內(nèi)陰干:將采回的各土樣放到塑料布上攤開,并做好標(biāo)記后依次排開,將較大的土塊捏碎,以利于磨細(xì);將石子、草渣等雜物撿出,以免雜物過多,防止在稱質(zhì)量時產(chǎn)生較大誤差。 研磨過篩,將陰干后的各土樣倒入木盤中,用搟面杖或啤酒瓶研磨,并全部通過1 mm篩,分成2份,1份用于土壤鹽分測定,另1份用于近紅外光譜測定。共取得92份土壤樣本。
土壤含鹽量的測定參照《土壤農(nóng)化分析》中的電導(dǎo)法[16],采用標(biāo)準(zhǔn)曲線法計算土壤全鹽含量。
使用美國賽默飛世爾科技公司生產(chǎn)的Antaris Ⅱ FT-NIR型光譜儀,以儀器內(nèi)部空氣為背景,測量范圍為4 000~10 000 cm-1,采樣點(diǎn)數(shù)為1 557個,每張光譜掃描次數(shù)為32次,分辨率為8 cm-1,儀器使用InGaAs檢測器,化學(xué)計量學(xué)分析軟件為儀器自帶的TQ軟件。采集光譜前開機(jī)預(yù)熱0.5h,確保光源更穩(wěn)定,采集樣品時重復(fù)3次,取平均值作為土壤樣品的原始光譜(圖1)。
應(yīng)用MATLAB 2010b軟件,采用多種處理方法對土壤光譜進(jìn)行變換處理及相關(guān)分析。數(shù)據(jù)變換處理包括數(shù)據(jù)中心化(data centralized)、傅里葉變換(the fourier transform)、小波變換(wavelet transform)、歸一化處理(the normalized processing)、一階導(dǎo)數(shù)(savitzky golay first derivative)、二階導(dǎo)數(shù)(savitzky golay second derivative)、多元散射校正(multiplicative scatter correction,簡稱MSC)、卷積平滑(savitzky golay smoothing,簡稱SG平滑)。進(jìn)行光譜預(yù)處理的目的在于比較分析不同光譜預(yù)處理方法對模型預(yù)測結(jié)果的影響,從而為后續(xù)提高預(yù)測模型精度打下基礎(chǔ)。
連續(xù)投影算法是一種新型變量選擇方法,通過向量的投影分析,從光譜矩陣提取有效信息,并使光譜變量共線性最小[17],具體算法步驟參考文獻(xiàn)[18]。
偏最小二乘法是一種多元數(shù)據(jù)統(tǒng)計分析方法,該方法是集主成分分析、普通多元線性回歸和典型相關(guān)分析于一體的回歸分析方法,解決了自變量多重共線性的問題[19],已經(jīng)在光譜分析中得到了廣泛應(yīng)用。為了有效評價模型精度,本研究選取相關(guān)系數(shù)(r)、交互驗(yàn)證預(yù)測均方差(root mean standard error of cross validation,簡稱RMSECV)、預(yù)測標(biāo)準(zhǔn)差(standard error of prediction,簡稱SEP)、準(zhǔn)確率(Precision)進(jìn)行模型分析檢驗(yàn),其計算公式見表1。其中,r越接近1,回歸(或預(yù)測)結(jié)果越好;RMSECV越小,說明該模型的預(yù)測能力越高;SEP越小,則表示模型對外部樣品的預(yù)測能力越高;對于同一批次的樣本,RMSECV和SEP越小,說明模型的精度越高,兩者的值越接近,說明模型穩(wěn)定性越好;Precision用來驗(yàn)證模型的準(zhǔn)確程度。
由表2可知,數(shù)據(jù)中心化和歸一化處理經(jīng)SG平滑后,各項(xiàng)指標(biāo)均有小幅度改善;傅里葉變換、小波變換、SG平滑、SG平滑+傅里葉變換、SG平滑+小波變換這5種處理方式的4項(xiàng)指標(biāo)基本一樣,是因?yàn)檫@5種處理算法都有平滑去噪的功能;一階求導(dǎo)運(yùn)用SG平滑處理后,SEP變大,r和Precision變小,RMSECV有較大改善;二階求導(dǎo)經(jīng)SG平滑處理后,4個指標(biāo)均有較明顯改善。從SEP來看,傅里葉變換、小波變換、SG平滑、SG平滑+傅里葉變換、SG平滑+小波變換的值較小,分別為0.019 876、0.019 877、0.019 876、0.019 876、0.019 877;從RMSECV來看,SG平滑+一階求導(dǎo)的值最小,為0.008 877,其次為傅里葉變換、小波變換、SG平滑、SG平滑+傅里葉變換、SG平滑+小波變換,其值分別為 0.024 978、0.024 979、0.024 978、0.024 978、0.024 979;從r來看,SG平滑、傅里葉變換、SG平滑+傅里葉變換的值接近1,為0.982 686,其次是小波變換、SG平滑+小波變換處理,為0.982 685;但從Precision來看,傅里葉變換、小波變換、SG平滑、SG平滑+傅里葉變換、SG平滑+小波變換的值最大,為0.965 362。
表1 偏最小二乘法模型的檢驗(yàn)指標(biāo)
綜合來看,效果最好的是SG平滑、傅里葉變換、SG平 滑+ 傅里葉變換,由圖2可知,模型的SEP、RMSECV相對較小,分別為0.019 876、0.024 978,r最接近1,為 0.982 686,Precision為0.965 362。從全局波段來看,SG平滑、傅里葉變換、SG平滑+傅里葉變換適合土壤鹽分含量的可見近紅外光譜預(yù)處理。
表2 PLS模型對土壤中鹽分含量的建模精度和預(yù)測能力
2.2.1 基于MSC+SPA的優(yōu)選波長 采用校正集60個樣本的1 557個光譜變量建立的PLS全譜模型在建模過程中的光譜數(shù)據(jù)量很大,同時還會引入干擾變量,反而會降低模型的預(yù)測精度。在全譜范圍內(nèi)使用MSC進(jìn)行光譜預(yù)處理,之后使用SPXY進(jìn)行校正集樣品劃分處理,最后使用SPA算法進(jìn)行光譜變量壓縮。由圖3可知,模型中包含的變量數(shù)為6時,其均方根誤差(RMSE)最小,為0.011 809。由圖4可知,得到6個特征波長,波數(shù)分別為4 393.047、4 285.053、4 971.587、3 999.64、7 293.461、5 210.717 cm-1,其重要性依次減弱。
2.2.2 基于SPA特征波長的PLS模型 采用13種光譜預(yù)處理方法后建立SPA-PLS模型,由表3可知,數(shù)據(jù)中心化經(jīng)SG平滑后,各項(xiàng)指標(biāo)均變差;歸一化處理經(jīng)SG平滑后,各項(xiàng)指標(biāo)均向好的方向變化;傅里葉變換、小波變換、SG平滑、SG平滑+傅里葉變換、SG平滑+小波變換這5種處理方式的4項(xiàng)指標(biāo)基本一樣;一階求導(dǎo)運(yùn)用SG平滑處理后,4項(xiàng)指標(biāo)性能變差;二階求導(dǎo)經(jīng)SG平滑處理后,4個指標(biāo)性能變差,r變化最劇烈。從SEP來看,傅里葉變換、小波變換、SG平滑、SG平滑+傅里葉變換、SG平滑+小波變換的值均較小,分別為0.016 931、0.019 144、0.017 688、0.017 688、0.019 262;從RMSECV來看,傅里葉變換的值最小,為0.016 769,其次是SG平滑和SG平滑+傅里葉變換的值,均為0.017 173;從r來看,傅里葉變換的值最接近1,為0.987 467;從Precision來看,傅里葉變換、小波變換、SG平滑、SG平滑+傅里葉變換、SG平滑+小波變換的值較大,為0.96左右。
表3 SPA-PLS模型的預(yù)測結(jié)果
綜合來看,效果最好的是傅里葉變換,由圖5可知,SPA-PLS模型的SEP、RMSECV相對較小,分別為 0.016 931、0.016 769,r最接近1,為0.987 467,Precision為0.968 915。從局部特征波段來看,傅里葉變換適合土壤鹽分含量的可見近紅外光譜預(yù)處理。
研究表明,利用可見近紅外光譜技術(shù)、光譜預(yù)處理算法和連續(xù)投影算法檢測土壤中的鹽分是可行的。全波段建模過程中,經(jīng)過13種光譜預(yù)處理后建立的PLS模型,效果最好的是SG平滑、傅里葉變換、SG平滑+傅里葉變換,模型的SEP、RMSECV都較小,分別為0.019 876、0.024 978,r為 0.982 686,Precision為0.965 362。說明SG平滑、傅里葉變換、SG平滑+傅里葉變換組合適合土壤鹽分含量的可見近紅外光譜預(yù)處理。
經(jīng)SPA算法得到6個特征波長,將6個特征波長作為輸入,經(jīng)13種光譜預(yù)處理后建立的PLS模型中,效果最好的是傅里葉變換,模型的SEP、RMSECV相對較小,且比較接近,分別為0.016 931、0.016 769,r為0.987 467,Precision為 0.968 915。從局部特征波段來看,傅里葉變換適合土壤鹽分含量的可見近紅外光譜預(yù)處理。
比較全局波段和局部特征波段的模型,局部特征建模的精確度有所提高,而模型的運(yùn)算量大大降低,并具有較好的穩(wěn)定性。模型是否適合其他更廣闊的區(qū)域有待進(jìn)一步驗(yàn)證。