關鍵詞:土壤有機質;高光譜遙感;灰色信息關聯(lián);估測模型
土壤有機質是植物營養(yǎng)的主要來源之一,能夠促進植物生長發(fā)育、改善土壤的質量,因此快速及時診斷土壤有機質含量對發(fā)展精準農業(yè)具有重要意義。傳統(tǒng)的土壤有機質測量方法費時費力、周期長,不能滿足大范圍內土壤有機質及時監(jiān)測的需要。高光譜遙感因其具有波段窄、波段多、信息豐富等優(yōu)勢,為在大范圍內快速監(jiān)測土壤有機質含量提供了一種新技術[1]。目前,國內外學者在土壤光譜特性分析、光譜變換、光譜特征提取、估測建模等方面已進行了大量研究,并取得豐富成果。土壤有機質含量高光譜估測的方法有很多,如逐步線性回歸模型[2]、支持向量機[3]、神經網(wǎng)絡[4]、隨機森林[5]等。隨著研究的深入,一些新方法不斷被提出,進一步豐富了光譜估測理論與方法。
由于土壤成分較為復雜,且土壤樣本數(shù)據(jù)采集受到眾多因素的影響,從而導致土壤有機質含量高光譜估測中不可避免地存在隨機性、模糊性和灰色性,因此灰色系統(tǒng)理論[6]被應用于土壤有機質高光譜估測[7-9],有效提高了估測精度。經檢索文獻發(fā)現(xiàn),目前土壤有機質高光譜估測建模主要是基于樣本特征指標,而不是基于樣本特征指標的內涵信息。灰色集合是灰數(shù)學和灰色系統(tǒng)研究的基石。針對已有灰色集合的局限性,李麗等提出用可能度函數(shù)表示灰集,用可能度表示灰元擁有概念內涵信息的豐富程度[10];然后基于灰集的分解定理,給出了確定灰集可能度函數(shù)的方法,即增息取大法[11]。增息取大法為土壤有機質高光譜估測提供了一種新的思路,但關于這方面的研究目前鮮見報道,如何充分挖掘與利用光譜中的灰信息以提高估測精度有待深入研究。因此,本文基于灰信息理論開展土壤有機質高光譜估測模型研究。首先,對土壤樣本的光譜數(shù)據(jù)采用倒數(shù)對數(shù)的一階微分、對數(shù)倒數(shù)的一階微分等方法進行變換,計算變換后光譜數(shù)據(jù)與土壤有機質的相關系數(shù),并根據(jù)極大相關性原則選擇估測因子;然后根據(jù)增息取大法的原理,基于灰信息量序列中信息鏈的信息,構建灰信息關聯(lián)估測模型;最后利用不同的組合方案對初步估測結果進行優(yōu)化,并將所建模型應用于山東省濟南市章丘區(qū)的土壤有機質含量高光譜估測,取得了較為滿意的估測結果。
1 數(shù)據(jù)來源及預處理
1.1 試驗區(qū)概況
試驗區(qū)選在濟南市章丘區(qū)(117°10′~117°35′E,36°25′~37°09′N)。章丘區(qū)位于濟南市區(qū)東部,地勢南高北低,南部多山,氣候變化明顯,光照資源豐富,年平均氣溫12.8℃年,年均降水量為500~700mm。章丘區(qū)境內主要土壤類型為褐土、棕壤、水稻土和潮土等,其中褐土占土地可利用面積的70.2%。
1.2 數(shù)據(jù)獲取
首先準備好采集土樣所需要的儀器設備,做好采集前的準備工作,提前在地圖上規(guī)劃好采樣路線。為確保樣本的代表性,設計的采樣點均勻分布在實驗區(qū)內,如圖1所示。根據(jù)設計的土樣采集路線,在實驗區(qū)內采用梅花樣法采集深度為0~15cm的土壤樣本,共計采集76個土樣。
在室外,使用美國ASD公司生產的ASDFieldSpecProFR便攜式光譜測量儀采集土樣的光譜數(shù)據(jù)。該儀器波段范圍為350nm~2500nm,光譜采樣間隔為1nm。測量土樣光譜時,選擇天氣晴朗、無風的天氣,探頭距樣本15cm,使用3°視場角垂直照射,每個樣本重復采集10次,取其平均值作為該樣本的光譜反射率。在實驗室內,去除雜質并使用重鉻酸鉀氧化滴定法測量樣本的有機質含量。樣本有機質含量的最大值、最小值、平均值和標準差分別為29.39g·kg-1、9.84g·kg-1、20.98g·kg-1、5.17g·kg-1。
1.3 數(shù)據(jù)預處理
數(shù)據(jù)預處理主要包括光譜曲線斷點修正、平滑去噪和異常樣本剔除。首先利用ViewSpecPro軟件對76個樣本的光譜數(shù)據(jù)進行斷點修正,然后采用九點加權法進行去噪。由于受空氣水分的影響,室外的光譜數(shù)據(jù)在1350~1450nm和1800~1950nm范圍內波動劇烈、信噪比較小,因此剔除這兩個波段的光譜數(shù)據(jù)。已有研究表明,隨著土壤有機質含量的增加,土壤光譜反射率降低[12]。根據(jù)這一特點,剔除的樣本為1、19、32、41、76。剩下的71個樣本用于后續(xù)的分析。
1.4 光譜變換與光譜特征提取
為進一步增強光譜數(shù)據(jù)和土壤有機質之間的相關性,采用平方根、倒數(shù)的對數(shù)的一階微分等九種方法進行光譜變換[13,14],計算光譜變換后各波段與土壤有機質的相關系數(shù)。根據(jù)極大相關性原則,挑選7個特征波段的光譜變換數(shù)據(jù)作為估測因子,其分別為對數(shù)倒數(shù)的一階微分的560nm、1622nm、2106nm、2317nm波段,對數(shù)倒數(shù)的二階微分的589nm、787nm波段、倒數(shù)對數(shù)的一階微分的855nm波段。各特征波段的相關系數(shù)分別為0.706、0.744、0.789、-0.726、-0.745、-0.752、-0.644。將估測因子進行歸一化處理后,灰色信息矩陣的各信息列與土壤有機質之間的相關系數(shù)分別為0.841、0.832、0.819、0.824、0.817、0.816、0.785。顯然,估測因子排序有效提高了相關性。
2 土壤有機質灰信息關聯(lián)估測模型
2.1 估測因子歸一化
設有n個已知樣本,每個樣本有m個估測因子,則所有樣本的估測因子用特征值矩陣表示為X=(xij)m×n,i=1,2,…,m;j=1,2,…,n。為消除估測因子量綱量級上的差異,對估測因子的特征值矩陣進行歸一化處理[13],即
式中,rij表示xij的歸一化值;ximax和ximin分別表示第i個估測因子的最大值和最小值。
當估測因子與土壤有機質含量呈正相關時,采用式(1)進行歸一化處理;反之,采用式(2)。估測因子特征值矩陣的歸一化矩陣用R=(rij)m×n表示,rij表示第j個樣本的第i個估測因子的歸一化值,且0≤rij≤1,i=1,2,…,m;j=1,2,…,n。
2.2 估測因子的信息量序列構建
為便于表達,下面首先給出信息量序列和信息鏈的概念。
定義1稱序列?={?1,?2,…,?m}為信息量序列,其中?1,?2,…,?m表示信息量。
定義2設信息量序列為?={?1,?2,…,?m},稱?為信息量遞增序列,其中?1lt;?2lt;…lt;?m;稱?為信息量遞減序列,其中?1gt;?2gt;…gt;?m;稱?為信息量等值序列,其中?1=?2=…=?m。
定義3稱信息量序列{?g,?g+1,…?h}為?={?1,?2,…,?m}的子序列或信息鏈,其中1≤glt;h≤m,記作?gh。稱τ為信息鏈?gh的長度,τ=h-g+1。
由定義3可見,信息量子序列或信息鏈?gh??,而信息鏈的長度τ≥2的總數(shù)為M=C3m+C4m+…+Cmm。由于每一個信息鏈都可以用于灰色關聯(lián)識別,因此M個信息鏈可為土壤有機質的灰色關聯(lián)識別提供豐富的信息。
設第j個已知模式樣本的估測因子特征值向量為Rj=(r1j,r2j,…,rij,…,rmj),且0≤rij≤1,i=1,2,…,m,j=1,2,…,n,將估測因子所攜帶的信息按照由小到大的順序進行排列,可得到信息量序列?j={?1j,?2j,…,?mj}。其中?ij表示排序后的第i個信息量,i=1,2,…,m且0≤?1j≤?2j≤…≤?ij≤…≤?mj≤1,j=1,2,…,n。
雖然歸一化后的估測因子所攜載信息量有多種表示方法,但信息量具有相對性、可比性。因此,為計算方便,本研究直接將歸一化后的估測因子值作為其所攜載的信息量。
設第k個待估測樣本的估測因子特征值向量為Rk=(r1k,r2k,…,rik,…,rmk),且0≤rik≤1,同理,將待估測樣本歸一化后的估測因子按由小到大的次序進行排列,則得到灰信息向量?k={?1k,?2k,…,?ik,…,?mk}。其中?ik表示排序后的第i個信息量,i=1,2,…,m且0≤?1k≤?2k≤…≤?ik≤…≤?mj≤1,k=1,2,…,t。t表示待識別樣本的數(shù)。
需要指出,將歸一化的估測因子進行由小到大的排序實現(xiàn)了從“無序”向“有序”的轉化,以及從“特征分析”向“信息分析”的轉化。這為灰信息關聯(lián)分析提供了基礎。
2.3 灰信息關聯(lián)識別決策
在關聯(lián)因素分析中,一般把主行為因素序列作為參考序列,比較因素序列作為比較序列。本研究將待估測樣本作為參考序列,已知模式樣本作為比較數(shù)列。土壤有機質含量高光譜灰色關聯(lián)估測的基本思想是從已知模式庫中找到與待估測樣本最接近的已知模式樣本,然后將其對應已知模式樣本的有機質含量值作為待估測樣本有機質含量的預測值。
定義4設待估測樣本k和第j個已知模式的灰信息向量分別為?k={?1k,?2k,…,?mk}和?j={?1j,?2j,…,?mj}。它們的對應信息鏈分別為
則判定第k個待估測樣本與第q個已知模式樣本最接近。因此,可將第q個已知模式樣本的有機質含量值yq作為第k個待估測樣本有機質含量的預測值y?k,即y?k=yq。由于信息鏈不止一個,因此通過灰信息關聯(lián)識別可得到多個待識別樣本的有機質含量的預測值。
2.4 灰信息關聯(lián)估測結果的優(yōu)化
如果利用信息向量的不同信息鏈的信息進行灰信息關聯(lián)估測,則可得到多種不同的估測結果。因此,充分利用信息向量中信息鏈的信息可實現(xiàn)估測結果的組合優(yōu)化。但信息向量或信息量遞增序列可能存在“低頭”或“翹尾”現(xiàn)象[7],這會影響關聯(lián)估測的精度。因此,灰色關聯(lián)估測應充分利用信息向量的中間部分的信息鏈的信息,如?′k=(?2k,?3k…,?ik)等。
設有t個待估測樣本,經模擬優(yōu)化得到s種優(yōu)化方案,t個待估測樣本土壤有機質含量的初步估測值矩陣為Z=(zkb)t×s。式中,zkb表示第k個待估測樣本的第b種估測方案的土壤有機質含量的初步估測值,k=1,2,…,t,b=1,2,…,s。
根據(jù)初步估測值矩陣、實測值向量和最小二乘法,利用平均法、多元線性回歸[2]、支持向量機[3]和BP神經網(wǎng)絡[4]等方法可實現(xiàn)s種估測結果的組合優(yōu)化,從而得到最佳組合預測模式,以用于實際預測。具體方法不再贅述。
2.5 估測精度評價指標
為評價模型的有效性,對估測結果進行精度評定。本文將平均相對誤差(MRE/%)和決定系數(shù)(R2)作為評價精度的指標[15],即
土壤有機質灰信息關聯(lián)估測的計算步驟為:(a)估測因子歸一化;(b)將樣本的估測因子進行由小到大的排序,形成灰信息量序列;(c)利用灰信息鏈進行灰關聯(lián)識別,得到一組初步估測值;(d)采用平均法對初步估測值進行第一次組合優(yōu)化;(e)利用BP神經網(wǎng)絡等方法對第一次優(yōu)化后的估測結果進行第二次組合優(yōu)化;(f)評定估測精度,確定最優(yōu)估測模式。
3 結果與分析
為驗證本文估測模型的有效性,選取15%的樣本作為檢驗樣本,其余的樣本作為已知的模式樣本。首先將71個樣本按照土壤有機質含量值從小到大進行排序,然后隨機選出12個具有代表性的樣本作為檢驗樣本,其余的59個樣本作為已知模式樣本。具體結果與分析如下。
3.1 基于信息鏈的初步估測結果
設由7個估測因子生成的信息量序列為?,若取信息鏈的長度τ≥3,則由信息量序列?可生成15個信息鏈。根據(jù)15個信息鏈,按照灰色關聯(lián)估測方法,可為待估測樣本提供15種估測方案。具體初步估測結果見表1。
從表1可見,12個檢驗樣本的平均相對誤差在8.443%~18.316%之間,決定系數(shù)R2在0.504~0.840之間。這說明15種估測方案的估測精度存在較大的差異。估測方案A4的估測精度為最優(yōu),其中平均相對誤差為8.443%,決定系數(shù)R2為0.840。估測方案A2的估測精度相對最差,其中平均相對誤差為18.316%,決定系數(shù)R2為0.565。雖然15種估測方案的估測精度存在較大差異,但為進一步融合處理提供了豐富信息。
3.2 灰信息關聯(lián)初步估測的組合優(yōu)化結果
為進一步提高估測精度,將15種初步估測結果進行組合優(yōu)化。首先,利用平均融合法對估測方案A1~A15的初步估測結果進行兩兩組合,即對其中兩個估測方案的初步估測值取平均值,計算融合后檢驗樣本的平均相對誤差和決定系數(shù),再確定一個兩兩組合的最優(yōu)融合方案B1。依次類推,可得到15種最優(yōu)組合方案B。根據(jù)平均相對誤差按由小到大的順序對最優(yōu)組合方案B重新進行排列,結果見表2。其中,B1表示方案A1和A4的組合優(yōu)化方案,其他依次類推。
從表2可見,在對基于信息鏈的初步估測結果進行融合處理后,12個檢驗樣本的平均相對誤差均小于10%,決定系數(shù)R2均大于0.775。這說明組合優(yōu)化方法有效提高了估測精度。其中,對于融合方案B1,12個檢驗樣本的平均相對誤差為6.563%,決定系數(shù)R2為0.857。
3.3 灰色關聯(lián)估測的第二次組合優(yōu)化結果
從表2可見,估測方案B1至B6均具有較高的估測精度,因此本文再采用BP神經網(wǎng)絡和平均法對其進行融合處理。具體結果見表3。
從表3可見,對于方案C1和C2,相較平均融合法,BP神經網(wǎng)絡擬合程度較好,且精度較高。綜合考慮檢驗樣本的平均相對誤差和決定系數(shù),最終確定融合方案C1利用BP神經網(wǎng)絡估測的結果為最優(yōu)估測結果。
3.4 對比分析
為對比模型的有效性,基于估測因子的不同利用方式,本文再采用多元線性回歸[2]、BP神經網(wǎng)絡[4]和支持向量機[3]等進行建模估測,結果見表4。
從表4可見,多元線性回歸、BP神經網(wǎng)絡和支持向量機等方法的估測精度不夠理想,其中,12個檢驗樣本的平均相對誤差均大于10%,決定系數(shù)均小于0.780。但相較估測因子排序前,基于灰信息量的三種常用方法的估測精度均有一定的提高。而本文法的平均相對誤差為5.576%,決定系數(shù)R2為0.934。顯然,本文方法的估測精度顯著高于傳統(tǒng)方法。這是因為本文方法將估測因子的特征指標轉化為灰信息,不僅可以充分利用信息量序列中所有信息鏈的信息,而且基于不同信息鏈的估測結果為估測結果的組合優(yōu)化提供了基礎。
4 結論
針對灰色關聯(lián)估測中信息利用不充分的問題,本文基于灰信息理論建立了土壤有機質高光譜灰信息關聯(lián)估測模型。該模型計算簡單、易于程序化,不僅可充分利用灰信息量序列中信息鏈的信息獲得多種估測方案,而且為估測結果的優(yōu)化提供基礎。應用實例表明本文提出的估測模型是可行有效的,為土壤有機質、含水量等光譜估測提供了一種新途徑。但在實際應用時,光譜估測因子應不少于5個,信息鏈長度應大于3。