朱淑鑫 楊宸 顧興健 張永春 艾玉春 徐煥良
摘要:為解決在土壤速效鉀含量的高光譜定量預測分析過程中,光譜數(shù)據(jù)維數(shù)高、冗余度較大等問題,提出了一種結合K均值算法(K-means)和連續(xù)投影算法(SPA)的高光譜特征波段選擇方法。該算法首先將全波段數(shù)據(jù)分別根據(jù)不同的距離度量進行K-means聚類分析,之后對聚類后的每個波段簇分別使用SPA法提取其中的特征波段。對全波段組合、傳統(tǒng)SPA法提取的特征波段組合以及結合K-means聚類與SPA法提取的特征波段組合分別建立土壤速效鉀含量的BP神經(jīng)網(wǎng)絡預測模型,通過對比模型預測效果來比較特征波段選擇方法的性能。以鹽城市348份土壤樣品進行試驗,結果表明,結合K均值算法與連續(xù)投影算法的特征波段選擇方法可以有效地解決光譜預測分析過程中的數(shù)據(jù)冗余問題,實現(xiàn)對土壤速效鉀含量快速精確預測分析。
關鍵詞:土壤;高光譜;連續(xù)投影法(SPA);K-means聚類分析法;BP神經(jīng)網(wǎng)絡模型
中圖分類號:S127文獻標識碼:A文章編號:1000-4440(2020)02-0358-08
Abstract:In order to solve the problems of high dimensionality and redundancy of hyperspectral spectral data in hyperspectral quantitative prediction and analysis of soil available potassium content, a hyperspectral band selection method based on K-means algorithm and successive projection algorithm(SPA) was proposed. Firstly, the full-band data were clustered by K-means based on different distance measures, and then the characteristic bands were extracted by SPA method for each band cluster after clustering. BP neural network prediction models of soil available potassium content were established for full-band combination, combination of characteristic bands extracted by traditional SPA method and combination of characteristic bands extracted by K-means clustering and SPA, respectively. The performance of characteristic band selection methods was evaluated by comparing the prediction effects of the models. The 348 soil samples from Yancheng City were experimented. The characteristic band selection method based on K-means algorithm and successive projection algorithm can effectively solve the problem of data redundancy in the process of spectral prediction and analysis, and achieve the rapid and accurate prediction and analysis of soil available potassium content.
Key words:soil;hyper-spectrum;successive projection algorithm(SPA);K-means clustering analysis;BP neural network prediction models
土壤中速效鉀含量作為表征土壤中鉀元素供應狀況的重要指標之一,對農作物的質量和產量具有重要影響[1]。傳統(tǒng)的土壤速效鉀含量測定是在實驗室中通過化學方法完成的,操作復雜且耗時費力。高光譜遙感技術具有光譜分辨率極高、波段多等優(yōu)點[2],能夠獲得連續(xù)的光譜信息,可作為土壤速效鉀含量測定的一種有效技術方法,實現(xiàn)更為準確的監(jiān)測或反演[3]。在實際運用光譜數(shù)據(jù)建立模型的過程中,光譜數(shù)據(jù)往往由于其維度過高、信息冗余度大等特點,而造成模型建立過程復雜度較高、耗時較長等問題。因此,應當選取適合的光譜特征波段提取方法來剔除光譜數(shù)據(jù)中的無效信息,簡化預測模型的建立。
目前國內外學者研究光譜特征波段選取的主要方法有逐步回歸法、遺傳算法、無信息變量消除法、連續(xù)投影法等。連續(xù)投影法作為一種使矢量空間共線性最小化的前向變量選取算法,可有效去除眾多波段之間共線性影響,極大地減少數(shù)據(jù)量,有效地提高運算效率和模型精度,具有簡便、快速等優(yōu)點。劉明博等[3]通過對水稻葉片氮含量光譜檢測的研究,討論了使用連續(xù)投影算法選取有效波長的可行性。王武等[4]采用連續(xù)投影法對勾兌梨汁中原汁含量的近紅外光譜進行了特征波段提取,并建立定量分析模型。陳定星[5]采用連續(xù)投影法對土壤有機質NIR光譜數(shù)據(jù)進行特征波段選擇,建立了土壤有機質快速分析的回歸模型。但是傳統(tǒng)的連續(xù)投影算法往往由于選取初始波段的隨機性,造成所提取的特征波段可能為無效信息波段或仍舊攜帶較多冗余信息,大大降低了預測精度。針對這一問題,本研究采用K-means聚類算法和連續(xù)投影算法相結合的特征波段選擇方法,解決在土壤速效鉀含量高光譜定量預測過程中光譜數(shù)據(jù)冗余信息較多等問題,簡化預測模型的復雜度,提升預測精度。
1材料與方法
1.1土樣采集與制備
采集江蘇省鹽城市8個不同地區(qū)的348份土壤樣品。土壤樣品經(jīng)過風干、碾磨及2 mm篩選處理后,分別進行化學分析和光譜數(shù)據(jù)測定。土樣的化學分析在江蘇省農業(yè)科學院化學實驗室中完成,348份土壤樣品速效鉀含量測定分析結果為:極大值504.00 mg/kg,極小值81.00 mg/kg,均值293.79 mg/kg,標準差89.71 mg/kg。對348份土壤樣品速效鉀含量的化學分析結果進行分布統(tǒng)計,繪制對應的分布直方圖(圖1)。
采用型號為ImspectorV10E的高光譜圖像采集系統(tǒng)測定土壤樣本的光譜數(shù)據(jù),該系統(tǒng)包括高感度EMCCD相機(RaptorEMCCD,鏡頭為f/1.4,17 mm)、150 W鹵素光源,配有暗箱、散熱風扇、穿透及發(fā)射光源固定開關、20 cm×20 cm載物移動臺及裝有Spectral-Image取像軟件、HISAnalyzer分析軟件的聯(lián)想工作站。光譜波段測定范圍為400~1 000 nm,采樣間隔1.1 nm,共546個波段。在光譜數(shù)據(jù)獲取過程中,每一份土壤樣品選取5個50×50像素區(qū)域作為實際取樣點,取5個區(qū)域的平均值作為每份土樣的光譜點數(shù)據(jù),共得到348份有效土壤樣品光譜數(shù)據(jù)。
1.2K均值聚類算法
K均值聚類算法(K-means)是一種廣泛應用于聚類問題的無監(jiān)督算法[6],它首先在變量矩陣中隨機選取K個變量作為初始聚類中心,然后通過迭代計算的過程確定其余每個變量與聚類中心的相似程度,根據(jù)相似度的大小將該對象分配給不同的聚類中心,形成不同的聚類簇。更新后的聚類簇以簇內所有變量的平均值作為新的聚類中心,再次計算每個變量與新確定的聚類中心的相似度并進行再次分配,重復此過程直到聚類中心不再發(fā)生變化或誤差平方和最小為止[7]。本研究K-means算法的實現(xiàn)流程為:(1)輸入348×546的光譜反射率矩陣,348為樣品數(shù)量,546為光譜波段數(shù)量;(2)從546個波段列向量中隨機選取k個波段作為起始聚類中心;(3)根據(jù)相似度衡量指標,依次計算其余波段向量與每個聚類中心的相似度,并根據(jù)相似度的大小將其分配給不同的聚類中心;(4)根據(jù)分配后的聚類簇計算每個簇內的波段向量平均值作為新一輪的聚類中心;(5)重復第3、4步驟直到聚類中心收斂;(6)輸出k個聚類簇下的波段組合。
由K均值聚類算法原理可知,在分配列向量時,不同的相似度度量標準會得到不一樣的聚類結果。傳統(tǒng)的K-means算法通常采用歐式距離作為相似度度量標準,對于光譜數(shù)據(jù)而言,由于波段之間的相關性影響,簡單地采用歐式距離作為相似度指標很難得到最佳的聚類效果。本研究在傳統(tǒng)歐式距離標準的基礎上,采用加權歐式距離(Sqeuclidean)、絕對值距離(Cityblock)、余弦相似度(Cosine)和相關距離(Correlation)4種不同的相似度度量指標分別進行聚類,其計算公式[8]如下:
1.3連續(xù)投影算法
連續(xù)投影算法[9](Successive projections algorithm,SPA)是一種使矢量空間共線性最小化的前向變量選取算法,可有效去除眾多波段之間共線性影響,極大地減少數(shù)據(jù)量,有效提高運算效率和模型精度,縮減數(shù)據(jù)建模時間,具有簡便、快速等優(yōu)點。其算法基本原理[10-11]如下:首先以一個波段為起點,逐次循環(huán),計算它在其他未選入波段上的投影,并將投影向量最大時對應的波段增加到選取的波段組合中,算法循環(huán)N次結束,N為需要提取的波長數(shù)量。這樣可以確保每個新選入的波段都與前一個具有最小的線性關系。SPA算法的具體流程如下:(1)初始化,n=1(第1次迭代),在光譜矩陣中任選一列向量;(2)集合S定義為未被選入波段組合的列向量,分別計算所選的列向量在S向量上的投影向量;(3)記錄最大投影的序號;(4)將最大投影序號對應的向量作為下輪的投影向量;(5)n=n+1,如果n 1.4模型建立 在模型的建立過程中,如果僅使用1個樣本集,則會導致信息交叉,使得所建立的模型存在說服力不夠等問題。本研究采用Kennard-Stone法劃分建模集與驗證集[12]。Kennard-Stone法的基本原理是:通過計算樣本不同光譜數(shù)據(jù)間的差異性,將差異較大的劃分為建模集,剩余的樣本劃分為驗證集。這樣可以保證建模集中所有樣本的覆蓋范圍最廣,避免分布不均的問題,提高模型的穩(wěn)定性。將高光譜測得的348份樣品數(shù)據(jù)進行Kennard-Stone法劃分,共得到278份建模集樣本,70份驗證集樣本。 對于劃分后的土壤高光譜反射率數(shù)據(jù),采用經(jīng)典的三層神經(jīng)網(wǎng)絡結構訓練最優(yōu)BP神經(jīng)網(wǎng)絡模型對土壤速效鉀含量進行預測[13]。在MATLAB 2018b軟件中實現(xiàn),神經(jīng)網(wǎng)絡輸入層和隱藏層采用的激活函數(shù)為tansig函數(shù),設置10個隱藏層神經(jīng)元,輸出層的激活函數(shù)采用purelin函數(shù),學習率設定為0.01,誤差設定為0.001。 2結果與分析 2.1原始土壤光譜數(shù)據(jù)預處理 測得的348份原始土壤光譜數(shù)據(jù)如圖2所示。由于測量過程中,高光譜儀受到自身構造、環(huán)境因素、人為因素、電子干擾及樣品顆粒大小不同等因素的影響,導致獲得的光譜數(shù)據(jù)存在大量噪聲、基線偏移等不穩(wěn)定現(xiàn)象。因此,對光譜數(shù)據(jù)進行預處理,消除光譜中的噪聲影響。采用9點Savitzky-Golay(SG)卷積平滑法[14]對光譜數(shù)據(jù)進行平滑預處理,平滑處理后的光譜曲線如圖3所示。 2.2預處理后的光譜數(shù)據(jù)K-means算法聚類 對預處理后的光譜數(shù)據(jù)進行K-means聚類。為研究不同聚類相似度對聚類效果的影響,根據(jù)波段向量數(shù)量,結合文獻[15]中的手肘法確定聚類k值為5,將原始復雜度較高的光譜數(shù)據(jù)分為5個聚類簇,每個簇內的波段列向量間有較高的相似度。分別采用加權歐式距離、絕對值距離、余弦相似度和相關距離作為相似度度量指標,對預處理后的光譜數(shù)據(jù)進行聚類分析,結果如表1所示。其中基于加權歐式距離、絕對值距離、余弦相似度和相關距離這4種度量指標下的K-means聚類分別簡稱為Sqe-kmeans、Cit-kmeans、Cos-kmeans和Cor-kmeans。 2.3基于連續(xù)投影算法的波段選擇 聚類后的光譜數(shù)據(jù)每個簇內都由若干個相似度較高的波段組成,此時,對每個簇分別進行連續(xù)投影算法選取簇內最優(yōu)波段組合,對波段進行進一步優(yōu)選。在使用連續(xù)投影算法選擇特征波長時,一般認為特征波長選取應為5~10個為佳,這樣既能使特征波段反映整體信息,又能避免過擬合,故本研究設置特征波段選取數(shù)量(N)為10。雖然連續(xù)投影算法的初始波段仍具有隨機性,但通過與聚類算法的結合,可將隨機初始波段的范圍限制在相應的聚類簇內,大大降低了最終SPA選取結果為無效信息波段的可能。對全波段以及4種不同相似度度量下的波段組合應用連續(xù)投影算法優(yōu)選結果如表2所示。 2.4土壤速效鉀含量BP神經(jīng)網(wǎng)絡預測模型 分別將全波段光譜數(shù)據(jù)、全波段下直接使用連續(xù)投影算法的優(yōu)選波段和本研究提出的4種相似度度量聚類結合連續(xù)投影算法的優(yōu)選波段作為BP神經(jīng)網(wǎng)絡的輸入,將土壤速效鉀含量的預測值作為模型的輸出。以劃分后的278份建模樣本作為建模數(shù)據(jù),70份驗證樣本數(shù)據(jù)作為模型精度的驗證數(shù)據(jù),建立BP神經(jīng)網(wǎng)絡預測模型,將得到的預測值和實際值進行比較(圖4)。圖4中每個圓點代表一份土壤樣品,直線為預測值和實測值1∶1直線,圓點與直線距離越近,則表明模型的預測值越接近實測值,預測精度越高。 分別采用決定系數(shù)(R2)、預測均方根誤差(RMSEP)以及相對分析誤差(RPD)作為模型評價標準,其中R2反映預測值對實際值變化的解釋程度,R2值越接近1,模型預測精度越高。RMSEP驗證預測值和實際值之間的吻合度,RMSEP越小,表明模型越穩(wěn)定,預測越準確。RPD為驗證集的標準差和均方根誤差的比值,RPD越大,模型的預測能力越強[16-21]。不同波段組合下土壤速效鉀含量BP神經(jīng)網(wǎng)絡模型的檢驗結果如表3所示。 由表3可以看出,使用高光譜全部波段數(shù)據(jù)建立土壤速效鉀含量光譜預測模型時,驗證集的R2、RMSEP以及RPD分別達到0.910 3、33.57和3.23,模型預測效果在所有建模波段組合中最優(yōu),能夠對土壤速效鉀含量進行定量預測,但由于全波段光譜數(shù)據(jù)量龐大,模型建立過程較為復雜,建模所需時間達到了14.42 s,時耗較長。使用對高光譜全波段數(shù)據(jù)直接應用SPA 法篩選出的特征波段組合建立預測模型時,預測模型建立所需時間在所有波段組合中最短,僅需要0.44 s,但模型預測效果不佳,驗證集的R2、RMSEP以及RPD分別僅為0.645 7、65.11以及1.67,只可對土壤速效鉀含量進行粗略估測。使用對高光譜全波段數(shù)據(jù)先進行K-means聚類分析再結合SPA法篩選特征波段后的波段組合建立預測模型時,4種不同聚類方式對應4種不同的波段組合,所建立的預測模型在預測精準度上都達到了近似于全波段組合下的模型預測精度,相對于直接運用SPA法有了大幅提升,并且在模型建立所需時間上,相對于全波段模型建立時有了顯著改善。 分別對Sqe-kmeans+SPA、Cit-kmeans+SPA、Cos-kmeans+SPA、Cor-kmeans+SPA波段組合建立預測模型后所得到的土壤速效鉀含量預測值進行α=0.05下的單因素方差檢驗,統(tǒng)計描述如表4所示,方差檢驗結果如表5所示。 由表6可知,方差檢驗顯著性水平大于α,即4種不同聚類方式對應的不同波段組合預測模型預測的土壤速效鉀含量差異并不顯著。結合文獻[22]的研究結果,說明在K-means聚類過程中,不同的相似度度量得到的聚類結果往往差異度較小,在不同的聚類對象中,通常很難確定最優(yōu)的相似度度量指標。綜合考慮本研究預測模型的評價指標和模型建立的時間代價,Cos-kmeans+SPA法波段組合建立的模型驗證集的R2、RMSEP以及RPD分別達到了0.901 1、34.64和3.13,且建模所需時間僅為1.25 s,可在較短的時間內實現(xiàn)對土壤速效鉀含量的定量預測,更適合作為預測模型的特征波段。 3討論 本研究分析了在對江蘇省鹽城市348份土壤樣品速效鉀含量高光譜預測模型建立過程中,不同特征波段選擇方法所得到的不同建模波段組合下BP神經(jīng)網(wǎng)絡預測模型的效果。結果表明: (1)使用高光譜全部波段數(shù)據(jù)建立的土壤速效鉀預測模型有著最優(yōu)的模型預測效果,但耗時較長;使用連續(xù)投影法對全波段優(yōu)選后的波段組合所建立的預測模型耗時最短,但模型預測效果一般。(2)使用本研究提出的結合K-means聚類法和SPA法所得到的波段組合建立的土壤速效鉀預測模型分別改善了全波段下模型建立耗時較長和直接應用SPA法優(yōu)選波段組合時模型精度較差的缺點,在較短的時間內取得了較優(yōu)的預測效果。結合預測評價指標和方差分析結果,Cos-kmeans+SPA法所選波段組合更適合作為土壤速效鉀含量預測模型的輸入波段。 在利用高光譜數(shù)據(jù)建立土壤速效鉀含量的預測模型過程中,主要分析了不同特征波段組合對預測模型的影響,實際應用過程中,光譜數(shù)據(jù)的去噪效果、預測模型種類等因素都會對模型預測精度產生一定影響。在K-means聚類過程中,重點分析了不同相似度度量對聚類效果的影響,但對于聚類過程中聚類簇數(shù)量對特征波段選取的影響還有待進一步研究。 參考文獻: [1]祁亞琴,呂新,邵玉林,等. 基于高光譜數(shù)據(jù)提取土壤養(yǎng)分信息的研究進展[J]. 中國農學通報, 2014, 30(12):28-31. [2]王躍明,賈建鑫,何志平,等. 若干高光譜成像新技術及其應用研究[J]. 遙感學報, 2016, 20(5):850-857. [3]劉明博,唐延林,李曉利,等. 水稻葉片氮含量光譜監(jiān)測中使用連續(xù)投影算法的可行性[J].紅外與激光工程,2014,43(4):1265-1271. [4]王武,王建明,李穎,等. 近紅外特征波長篩選在勾兌梨汁中原汁含量的快速檢測中的應用[J].光譜學與光譜分析,2017,37(10):3058-3062. [5]陳定星. 連續(xù)投影法應用于土壤有機質NIR光譜分析的波長選擇[D].廣州:暨南大學,2013. [6]林濱. K-means聚類的多種距離計算方法的文本實驗比較[J].福建工程學院學報,2016,14(1):80-85. [7]周本金,陶以政,紀斌,等. 最小化誤差平方和K-means初始聚類中心優(yōu)化方法[J].計算機工程與應用,2018,54(15):48-52. [8]陳磊磊. 不同距離測度的K-means文本聚類研究[J].軟件,2015,36(1):56-61. [9]王瑛瑛,宋良圖. 土壤有機質近紅外光譜分析的波段優(yōu)選[J].儀表技術,2014(5):4-6. [10]郝勇,孫旭東,王豪. 基于改進連續(xù)投影算法的光譜定量模型優(yōu)化[J].江蘇大學學報,2013,34(1):49-53. [11]LIU K, CHEN X J, LI L M, et al. A consensus successive projections algorithm-multiple linear regression method for analyzing near infrared spectra[J]. Analytica Chimica Acta,2015,858:16-23. [12]陳思明,毛艷玲,鄒小興,等. 基于不同建模方法的濕地土壤有機質含量多光譜反演[J].土壤通報,2018,49(1):16-22. [13]楊紅飛,鄭黎明,郜中要,等. 砂姜黑土土壤有機碳高光譜特征與定量估算模型的研究[J].安徽農業(yè)大學學報,2018,45(1):101-109. [14]喬星星,馮美臣,楊武德,等. SG平滑處理對冬小麥地上干生物量光譜監(jiān)測的影響[J].山西農業(yè)科學,2016,44(10):1450-1454. [15]王建仁,馬鑫,段剛龍. 改進的K-means聚類k值選擇算法[J].計算機工程與應用,2019,55(8):27-33. [16]曹文濤,康日斐,王集寧,等. 基于高光譜遙感的土壤氯化鈉含量監(jiān)測[J].江蘇農業(yè)學報,2016,32(4):817-823. [17]葛亮,王斌,張立明. 基于波段聚類的高光譜圖像波段選擇[J].計算機輔助設計與圖形學學報,2012,24(11):1447-1454. [18]張悅,官云蘭. 聚類與自適應波段選擇結合的高光譜圖像降維[J].遙感信息,2018,33(2):66-70. [19]紀文君,李曦,李成學,等. 基于全譜數(shù)據(jù)挖掘技術的土壤有機質高光譜預測建模研究[J].光譜學與光譜分析,2012,32(9):2393-2398. [20]李冠穩(wěn),高小紅,肖能文,等. 特征變量選擇和回歸方法相結合的土壤有機質含量估算[J].光學學報,2019,39(9):361-371. [21]GRIGORIOS T,ARISTIDIS L. The MinMax K-means clustering algorithm[J]. Pattern Recognition,2014,47(7): 2505-2516. [22]喬天,呂成文,肖文憑,等. 基于遺傳算法的土壤質地高光譜預測模型研究[J].土壤通報,2018,49(4):773-778. (責任編輯:張震林)