胡艷培, 白鐵成, 陳好斌, 姚江河, 劉冠華, 楊洪坤
(1.塔里木大學信息工程學院,新疆阿拉爾 843300; 2.塔里木大學經(jīng)濟與管理學院,新疆阿拉爾 843300)
在塔里木河周邊生長著大片的天然胡楊林,這道天然林帶綿延數(shù)百公里,可以減緩和防止世界上第二大沙漠——塔克拉瑪干沙漠北移,且具有調(diào)節(jié)當?shù)貧夂颉⒎乐顾亮魇е峦恋厣郴捅U暇G洲農(nóng)業(yè)生產(chǎn)等優(yōu)點。胡楊樹通過多年進化長出不同大小的葉片,小葉片可有效減少水分蒸發(fā),大葉片為自身的生長提供養(yǎng)分與能量,因此胡楊葉片能夠合理地利用每一滴水。近年來,胡楊正在面臨蟲害和缺水等新的問題,導致塔里木河沿岸大片的胡楊林瀕臨死亡。因此對胡楊的健康狀況實施有效保護的前提條件是及時有效地進行監(jiān)測,而葉片的含水量是判斷胡楊生長狀況的重要依據(jù)。傳統(tǒng)的人工對葉片檢測的方法不但費時而且費力,效果不是很好,所以研究一種快速、有效、無損的檢測方法對胡楊林的有效保護具有重要的現(xiàn)實意義。
近紅外光譜(near infrared,簡稱NIR)技術(shù)檢測已被廣泛地應用在食品、石化、煙草、醫(yī)藥、農(nóng)業(yè)等行業(yè),此技術(shù)是一種低成本、快速和無損的檢測方法[1-5],其主要應用于農(nóng)產(chǎn)品品質(zhì)鑒定(小麥、花生、番茄、玉米、紅棗、蘋果和大豆等)[6-13]、植物葉片水分含量檢測[14]、土壤性質(zhì)分析[15]和早期病蟲害診斷[16]等,另外近紅外光譜技術(shù)在指紋、血跡、火藥等刑事犯罪檢驗方面具有可行性[17],但有關(guān)胡楊葉片含水量的光譜預處理方法研究的相關(guān)報道很少。
在近紅外光譜應用時,不僅可以檢測到樣品中有用的信息,還可以檢測到其他的信息和噪聲,這是因為受到樣本背景、電噪聲、雜散射等因素的干擾。在建立模型前對原始的光譜數(shù)據(jù)進行預處理是分析樣品中成分的前提條件,不同光譜的預處理方法、校正樣本的選擇方法和建模方法有很多,比如歸一化、標準化、均值中心化、標準正態(tài)變量變換、多元散射校正和去趨勢等算法是常用的光譜預處理方法。禁忌搜索算法、連續(xù)投影算法(successive ections algorithm,簡稱SPA)、粒子群優(yōu)化算法、遺傳算法(genetic algorithm,簡稱GA)、相關(guān)系數(shù)法等是常用的特征波長的篩選方法。模型建立方面,主要采用競爭性自適應重加權(quán)算法(carpls and carsplelda,簡稱CARS)、偏最小二乘法(partial least squares,簡稱PLS)、誤差反向傳輸(back propagation,簡稱BP)神經(jīng)網(wǎng)絡(luò)、支持向量機(support vector machine,簡稱SVM)等方法。SPA算法不僅可以從嚴重重疊的光譜信息中提取有用的信息,還可以消除波長變量之間的共線性干擾,提高建模的精度,在火龍果總酸含量[18]、葡萄果皮花色苷含量[19]、油菜葉片氨基酸總量[20]、羊肉品質(zhì)[21]無損檢測中的應用也驗證了連續(xù)投影算法的有效性。雖然各種光譜的預處理方法、建模方法得到了普遍的應用,但不同作物的光譜響應會有所不同,胡楊葉片含水量的建模方法和光譜預處理方法需要進一步去驗證。
本研究以胡楊葉片為研究對象,比較多種不同的光譜預處理方法對胡楊葉片水分含量模型的影響,進而確定適合于近紅外光譜分析胡楊葉片含水量的預處理方法,以此來簡化模型的運算過程,為大面積遙感監(jiān)測以及進一步研究胡楊葉片的含水量提供理論依據(jù)和數(shù)據(jù)支撐。
試驗用的胡楊葉片樣品為采集于新疆第一師十四團胡楊林中的300張胡楊葉片,從中選擇完好無損的100張胡楊葉片,用自封袋包裝并放置在冰箱中儲藏,然后集中一個時間點進行光譜采集和水分測定。
試驗中采用Zolix GaiaSorter近紅外成像高光譜儀,光譜數(shù)據(jù)的采集操作和數(shù)據(jù)存儲采用配套的軟件獲得。樣本在室內(nèi)恒溫下進行掃描,光譜分辨率為5 nm,采樣點為4 nm,測定范圍為900~1 700 nm,獲取一維影像和光譜信息,通過ENVI(Research System Inc,美國)軟件獲取每張葉片的平均光譜值作為原始光譜,每個樣本數(shù)據(jù)測量4次取平均值,導出Excel 2010文件。標準正態(tài)變量變換、數(shù)據(jù)中心化、歸一化、SPA和偏最小二乘回歸算法在MATLAB 2014a(The MathWorks Inc,美國)中實現(xiàn),葉片水分含量采用遠近紅外快速干燥箱進行烘干法測量。
本研究通過4種方法對胡楊葉片原始光譜數(shù)據(jù)進行預處理與分析,分別采用數(shù)據(jù)中心化、歸一化(normalization)和標準正態(tài)變量變換(standard normal variate transformation,簡稱SNV)3種預處理方法。
近紅外光譜分析要從復雜的信息中有效地提取具有代表性的信息建立模型,不僅可以提高建模精度,還可以減少模型的儲存空間。還有就是采集到的樣本不含化學成分數(shù)據(jù)的,如果不進行篩選而直接進行分析,費用也是昂貴的。目前,樣本的選擇方法主要包括遙感技術(shù)(random sampling,簡稱RS)、基于歐氏距離的樣本選擇方法(kennard-stone,簡稱KS)、基于歐式距離和濃度的樣本選擇方法(sample set partitioning based on joint x-y distance,簡稱SPXY)剔除方式、連續(xù)投影算法(successive ections algorithm,簡稱SPA)等。本研究基于光譜主成分和樣品含水量分析,選用SPXY方法進行校正集樣本的選擇,從100個胡楊葉片樣本中選擇65個校正集樣本,35個預測集樣本。
校正模型可通過波長選擇使模型簡化、消除非線性或無關(guān)變量從而使模型具有更強的預測能力和更好的穩(wěn)健性。
SPA算法可以從嚴重重疊的光譜信息中提取有用的信息、消除變量之間的共線性干擾、簡化建模,在波長變量選擇上得到廣泛的應用。SPA算法在初始狀態(tài)時挑取1個波長,向前運行時采用循環(huán)的方法,每循環(huán)1次計算出它在未選入波長上的投影,進而選取在投影向量中的最大波長,然后將投影向量引入到波長組合中,直到循環(huán)結(jié)束。設(shè)XK(0)表示初始的迭代向量,XM×K表示光譜的吸收矩陣,M表示樣本數(shù),K表示波長數(shù),用N(N 因此,建立了N×K波長組合對,模型的建立通過提取波長數(shù)和迭代向量的組合來實現(xiàn),使用RMSE確定模型的差異,從中選出變量的個數(shù)、相對應的波長、最小均方根誤差。為了簡化模型,防止出現(xiàn)過度擬合,建立MIR(多元線性回歸)的模型,剔除各個波長的殘差平方和,得到用于建模的特征波長。 使用偏最小二乘法(partial least squares,簡稱PLS)建立模型,采用相關(guān)系數(shù)r、預測精度(precision)、預測均方根誤差(root mean square erroe of prediction,簡稱RMSEP)和交叉驗證預測均方差(root mean square prediction of cross validation,簡稱RMSPCV)等參數(shù)來評價各個預處理方法對所建立模型的影響。對于同一樣品集的同一組分,預測均方根誤差越小,表示所建模型的預測能力越強,結(jié)果越準確,預測越精確。 由胡楊葉片的水分含量測定統(tǒng)計結(jié)果可知,水分含量最大值為0.678 6,最小值為0.446 7,平均值為 0.605 2,標準偏差為0.042 5。胡楊葉片樣品數(shù)按照3 ∶1的比例分為校正集和預測集。 圖1-a為采集到的100張胡楊葉片的原始光譜??梢钥闯?,光譜內(nèi)存在大量的散射基線漂移和噪聲,因此需要對原始的光譜數(shù)據(jù)進行預處理,建立和優(yōu)化模型。如圖1-b和圖1-c所示,預處理后的光譜有效地去除了噪聲、背景干擾、散射、基線漂移影響,光譜特征增強,有利于特征波長的選擇。圖1-d顯示,歸一化后的光譜波峰和波谷區(qū)分明顯,消除了部分噪聲、散射的影響。對比分析可知,圖1-b和圖1-c效果更佳,更能說明原始光譜預處理之后的效果。 對原始光譜進行SNV、數(shù)據(jù)中心化和歸一化處理后的光譜通過連續(xù)投影算法進行變量的選擇,最終變量數(shù)采用標準誤差也稱均方根誤差(root mean square error,簡稱RMSE)選定,如圖2為SPA處理后的篩選變量個數(shù)與波長效果,具體波長選擇結(jié)果如表1所示。 由表1可以看出,從原始光譜+SPA處理后共選出7個光譜特征波長,考慮到908 nm在光譜儀邊緣位置,所以建模時要剔除908 nm特征變量,最后選擇6個特征波長。從原始光譜+SNV+SPA初步篩選出7個光譜特征波長,由于 1 758 nm 為邊緣位置,要剔除,最終獲得6個特征波長。從原始光譜+數(shù)據(jù)中心化+SPA處理后初步篩選出6個光譜特征波長,1 755 nm為邊緣位置,要剔除,最終獲得5個特征波長。從原始光譜+歸一化+SPA處理后初步篩選出8個光譜特征波長,由于905 nm和908 nm在邊緣位置,所以要剔除,最終獲得6個特征波長。從選擇的變量波長可以看出,胡楊葉片水分含量在1 000至1 700 nm波段有較高的相關(guān)性光譜特征,可用于胡楊葉片水分的快速無損檢測,采用SPA算法選擇光譜變量不僅可以減少模型建立的復雜度,還降低了光譜數(shù)據(jù)維數(shù)。 本研究對胡楊葉片光譜數(shù)據(jù)進行優(yōu)化采用原始光譜+SPA、原始光譜+歸一化+SPA、原始光譜+數(shù)據(jù)中心化+SPA、 原始光譜+SNV+SPA 4種光譜預處理方法, 然后建立PLS模型,預測的散點圖如圖3所示。 表2為采用4種光譜的數(shù)據(jù)預處理方法對胡楊葉片建模優(yōu)化后的結(jié)果。由表2可以看出,不同的光譜預處理方法對PLS建立的模型參數(shù)存在一定的影響。在4種光譜預處理方法中,r最大值為0.774 72,最小值為0.674 24;RMSEP最小值為0.018 216,最大值為0.021 434;Precision最大值為 0.976 63,最小值為0.971 44。綜合對比分析得出,通過采用原始光譜+SNV+SPA的方法預處理后,r由0.674 24增加到0.774 72,Precision由0.971 44增加到0.976 63,RMSEP由0.021 434降低到0.018 24,RMSPCV由0.046 132降低到0.045 642。結(jié)果表明, 原始光譜+SNV+SPA降低了噪聲的干擾,提高了建模精度和相關(guān)性,因此所建立的模型具有較好的預測效果。 表1 不同預處理方法波長的篩選結(jié)果 表2 不同光譜預處理方法及參數(shù)比較 本研究利用近紅外光譜技術(shù)來檢測胡楊葉片水分含量,并且建立了胡楊葉片的預測模型,同時對比了4種不同光譜預處理方法。綜合分析得出,原始光譜+標準正態(tài)變量變換+SPA預處理后相關(guān)系數(shù)最大,所建模型的預測精度最高,交叉驗證預測均方差最小,分別為0.774 72、0.976 63、0.045 642。由此可以看出,SNV+SPA近紅外光譜預處理方法可用于胡楊葉片水分含量的檢測。1.6 建模方法
2 結(jié)果與分析
2.1 胡楊葉片水分含量
2.2 樣品光譜及處理后光譜
2.3 SPA處理結(jié)果
2.4 預測模型建立
2.5 光譜建模精度及預處理分析
3 結(jié)論