袁瑞瑞, 王 兵, 劉貴珊*,何建國, 萬國玲, 樊奈昀, 李 月, 孫有瑞
1. 寧夏大學(xué)食品與葡萄酒學(xué)院, 寧夏 銀川 750021 2. 寧夏大學(xué)物理與電子電氣工程學(xué)院, 寧夏 銀川 750021
棗(ZizyphusjujubaMiller)在中國已有4 000多年的歷史, 它主要分布在亞洲的亞熱帶和熱帶地區(qū), 已有三千多年的耕種歷史。 “靈武長棗”(Lingwu long jujube)是寧夏重要的經(jīng)濟林木之一, 并且由于其巨大的生態(tài)、 社會和經(jīng)濟效益, 也是寧夏農(nóng)業(yè)的主要組成部分[1-2], 但是靈武長棗在采收、 運輸?shù)冗^程中容易受到損傷, 并且損傷后不容易被觀察到降低商品價值嚴(yán)重影響經(jīng)濟收益[3]。 因此, 亟需一種無損檢測技術(shù)快速有效地檢測靈武長棗的內(nèi)部損傷。
近年來, 高光譜成像系統(tǒng)作為一種快速無損、 準(zhǔn)確度高且具有高靈敏度的檢測系統(tǒng), 被用于蘋果[4]、 梨[5]、 獼猴桃[6]、 草莓[7]、 藍(lán)莓[8]、 桃子[9]等的瘀傷檢測。 Zhang[10]等利用高光譜成像系統(tǒng)結(jié)合AdaBoost算法對完整蘋果和損傷后5個時間段(損傷后1 min、 1天、 2天、 3天、 4天)的蘋果進行了分類, 結(jié)果表明, 經(jīng)MSC(multiplicative scatter correction)和CFS(correlation-based feature selection)預(yù)處理后, 所選波長建立的模型平均精度為97.63%。 Fan[11]等利用最佳波長結(jié)合近紅外高光譜反射成像系統(tǒng)對藍(lán)莓內(nèi)部瘀傷隨時間的變化進行了檢測研究, 結(jié)果表明, 藍(lán)莓在撞擊后30 min、 2 h、 6 h和12 h的波段比值圖像建模分類精度分別為77.5%, 83.8%, 92.5%和95.0%, 以及CARS-LS-SVM(competitive adaptive reweighted sampling-least squares-support vector machine)模型的驗證集中健康和瘀傷藍(lán)莓準(zhǔn)確率分別為93.3%和95.9%。 Lee[5]等利用高光譜圖像對梨的物理損傷進行了檢測研究, 結(jié)果表明, 利用最佳閾值波段比檢測結(jié)果的準(zhǔn)確率為92%。 靈武長棗外部缺陷檢測已有相關(guān)研究, 但是對于靈武長棗內(nèi)部損傷檢測鮮有報道。
故以靈武長棗為研究對象, 對完整長棗和損傷后五個時間段(損傷后2, 4, 8, 12和24 h)長棗進行分類判別。 利用高光譜成像系統(tǒng)獲得高光譜圖像, 利用ENVI軟件提取感興趣(region of interest, ROI)區(qū)域, 并計算平均光譜值。 對原始光譜利用Savitzky-Golay平滑的一階導(dǎo)數(shù)(first derivatives, SG-1)和二階導(dǎo)數(shù)(second derivatives, SG-2)、 標(biāo)準(zhǔn)正態(tài)變換(standard normal variate, SNV)和去趨勢(Detrending)、 以及SNV-SG-1、 SNV-SG-2、 Detrending-SG-1、 Detrending-SG-2組合預(yù)處理, 并建立PLS-DA分類模型; 優(yōu)選最優(yōu)預(yù)處理算法得到的光譜數(shù)據(jù), 利用連續(xù)投影算法(successie projection algorithm, SPA)、 間隔隨機蛙跳(interval random frog, IRF)、 無信息消除變量(uninformative variable elimination, UVE)、 變量組合集群分析法(variable combination population analysis, VCPA)、 區(qū)間變量迭代空間收縮法(interval variable iterative space shrinkage approach, IVISSA)五種算法和IRF-SPA、 UVE-SPA、 IVISSA-SPA三種組合算法進行特征變量選擇, 特征變量建立偏最小二乘判別分析(partial least squares-discriminant analysis, PLS-DA)、 線性判別分析(linear discriminant analysis, LDA)和支持向量機(support vector machine, SVM)分類判別模型。 為損傷靈武長棗在線檢測提供理論依據(jù)。
從寧夏靈武某果園手工采摘大小顏色一致、 完好無損傷的靈武長棗, 放入保鮮袋中當(dāng)天運回實驗室, 選取60個靈武長棗貯藏在(0±2) ℃的冰箱備用。
采用如圖1所示的損傷裝置獲得損傷靈武長棗, 該裝置由試驗臺、 固定支架、 活動擺臂、 曲率半徑為8 mm且重量為22 g的實心鐵半球組成。 實驗過程中擺臂與固定支架夾角為57°, 每次鐵半球沖擊長棗赤道位置。 一共60顆靈武長棗, 每顆棗沖擊一次, 共得到60顆損傷棗。
圖1 靈武長棗損傷裝置Fig.1 Damage experimental device of Lingwu long jujube
Vis/NIR高光譜成像系統(tǒng), 波長為400~1 000 nm, 該系統(tǒng)主要由高光譜成像儀, CCD相機, 4個150 W的光纖鹵素?zé)簦?電控移動平臺, 計算機和光譜數(shù)據(jù)處理等系統(tǒng)構(gòu)成。 由于高光譜成像系統(tǒng)中噪音的影響, 需要對獲得的光譜圖像按式(1)進行校正[12]。
式(1)中: R是黑白校正后的靈武長棗圖像; IR是靈武長棗原始光譜圖像; ID是黑板圖像; IW是白板圖像。
高光譜成像系統(tǒng)在采集樣品圖像前需要開機預(yù)熱30 min[13]。 首先采集60顆未損傷長棗的圖像, 接著利用損傷裝置獲得損傷長棗, 采集損傷后2, 4, 8, 12和24 h長棗的光譜圖像, 最后一共得到360幅長棗的高光譜圖像。 利用ENVI軟件獲得感興趣區(qū)域, 計算得到完整棗和損傷后不同時間段長棗的平均光譜值。
原始光譜曲線有噪音和無用信息的干擾, 所以利用SG-1和SG-2, SNV和Detrending以及SNV-SG-1, SNV-SG-2, Detrending-SG-1, Detrending-SG-2等預(yù)處理算法對原始光譜進行預(yù)處理, 提高建模效果。 為了減少全波段光譜數(shù)據(jù)的冗余, 降低維數(shù), 去除無關(guān)信息, 提取有效信息, 建立一種低維的數(shù)據(jù)模型, 所以利用SPA, IRF, UVE, VCPA和IVISSA五種算法和IRF-SPA, UVE-SPA和IVISSA-SPA三種組合算法進行特征變量的選擇。 PLS-DA分類模型是基于PLS回歸計算, 全面考慮了每個變量的信息, 從而能夠高效準(zhǔn)確的鑒別。 LDA是一種有監(jiān)督的基于子空間的模式識別方法, 該算法能夠使原始樣本經(jīng)過線性變換后的信息更有利于分類。 SVM是一種可以分類、 模式識別、 擬合的監(jiān)督學(xué)習(xí)模型。 對于原始光譜、 預(yù)處理光譜和選擇的特征變量建立PLS-DA, LDA和SVM分類模型。 光譜預(yù)處理、 LDA和SVM在Unscramble X 10.4程序中進行, PLS-DA和特征變量選擇在MATLAB R 2014a中進行, 利用Origin 2017軟件做圖。
圖2(a)為全部樣本的曲線圖, 圖2(b)為完整長棗和損傷后不同時間段長棗的平均光譜曲線; 由圖中可以看出, 6條曲線具有相同的變化趨勢, 波峰波谷主要分布在500, 645, 675, 900和970 nm附近。 675 nm波段附近的吸收峰是由于樣本中C—H伸縮振動引起[14]。 900~1 000 nm之間的吸收峰主要是由于樣品內(nèi)部水分的吸收引起, 該波段內(nèi)存在水的O—H基團的二倍頻特征吸收峰[15]。
圖2 靈武長棗光譜曲線(a): 全部樣本曲線; (b): 平均光譜曲線Fig.2 Spectra of Lingwu long jujubes(a): Original spectra of all samples; (b): Average spectral curves
原始光譜利用SG-1, SG-2, SNV和Detrending等算法以及不同預(yù)處理算法之間相互結(jié)合進行預(yù)處理, 建立PLS-DA分類模型, 結(jié)果如表1所示, 所有模型的校正集和預(yù)測集準(zhǔn)確率分別在82.96%~91.11%和90%~96.67%之間。 利用不同預(yù)處理算法對原始光譜進行預(yù)處理都能提高模型分類效果, 分析得到SNV-SG-2-PLS-DA為最優(yōu)分類模型, 該模型校正集和預(yù)測集分類準(zhǔn)確率分別為91.11%和96.67%。
表1 原始光譜和預(yù)處理光譜的PLS-DA分類結(jié)果Table 1 Classification results of PLS-DA of the original and pre-treated spectra
利用SPA, IRF, UVE, VCPA, IVISSA, IRF-SPA, UVE-SPA和IVISSA-SPA等特征波長選擇算法選擇SNV-SG-2光譜數(shù)據(jù)的特征變量, 8種算法選擇的特征變量如表2所示, 特征變量位置如圖3所示。 SPA算法共得到23個特征變量, 占總波長的18.4%。 IRF算法選擇特征變量, 得到121個間隔中排名前10的間隔如表3所示, 通過計算排名組合間隔RMSECV值最小, 得到RMSECV最小為第68個間隔, 通過計算共得到108個波長。 圖4為UVE算法選擇特征變量過程, 虛線內(nèi)的為無用的變量被剔除, 虛線以外對應(yīng)的波長被選擇, 共得到68個波長, 占總波長的54.4%。 VCPA算法選擇特征變量, 共得到13個波長, 占總波長的10.4%。 IVISSA算法選擇特征變量, 共得到65個波長, 占總波長的52%。 IRF-SPA, UVE-SPA和IVISSA-SPA算法選擇特征變量, 分別得到17, 19和15個波長, 分別占總波長的13.6%, 15.2%和12%。
圖3 不同特征波長選擇算法選擇的波長Fig.3 Wavelengths selected by different feature wavelength selection algorithms
圖4 UVE算法選擇特征變量穩(wěn)定性分布曲線Fig.4 Stability distribution curve of characteristic variables selected by UVE algorithm
表2 不同算法選擇的特征波長Table 2 Characteristic wavelengths selected by different algorithms
表3 IRF算法選擇特征變量排名前10的波長間隔Table 3 The top 10 intervals of feature variables selected by IRF
特征變量建立的分類判別模型結(jié)果如表4所示。 在PLS-DA模型的分類結(jié)果中, 8種特征變量選擇算法選擇的特征變量建立的模型校正集和預(yù)測集準(zhǔn)確率分別在72.96%~86.30%和74.44%~94.44%之間。 在LDA模型中需要變量數(shù)少于每個等級的樣本數(shù)才能用于建模, 所以利用SPA, VCPA, IRF-SPA, UVE-SPA和IVISSA-SPA等5種算法選擇的特征變量建立了LDA分類模型, 模型校正集和預(yù)測集準(zhǔn)確率分別在71.85%~86.3%和64.44%~83.33%之間。 在SVM模型的分類結(jié)果中, 8種算法選擇的特征變量建立的模型校正集和預(yù)測集準(zhǔn)確率分別在41.49%~77.78%和34.44%~72.22%之間。 在建立的PLS-DA模型中, SNV-SG-2-UVE-PLS-DA模型效果最好, 變量數(shù)為68個, 占總變量的54.4%, 模型校正集和預(yù)測集準(zhǔn)確率分別為86.3%和94.44%。 在建立的LDA模型中, SNV-SG-2-SPA-LDA模型效果最好, SPA選擇了23個特征變量, 占總變量的18.4%, 模型校正集和預(yù)測集準(zhǔn)確率分別為86.3%和83.33%。 在SNV-SG-2-UVE-SVM模型中, UVE選擇的變量數(shù)為68個, 模型校正集和預(yù)測集準(zhǔn)確率分別為77.78%和71.11%。 通過分析, 線性判別模型(PLS-DA、 LDA)的結(jié)果優(yōu)于非線性判別模型(SVM), 在線性判別模型中PLS-DA模型分類結(jié)果優(yōu)于LDA模型的分類結(jié)果。
表4 基于特征變量的分類結(jié)果Table 4 The classification results based on characteristic wavelength
高光譜成像作為一種快速無損的檢測方法被廣泛應(yīng)用。 利用高光譜成像系統(tǒng)獲得完整長棗和損傷后不同時間段(損傷后2, 4, 8, 12和24 h)長棗的光譜圖像, 提取感興趣區(qū)域, 計算平均光譜值, 建立原始光譜和預(yù)處理光譜數(shù)據(jù)的PLS-DA分類模型, 選擇SNV-SG-2光譜數(shù)據(jù)的特征變量建立線性(PLS-DA, LDA)和非線性(SVM)分類判別模型, 并對模型進行比較。 在原始光譜數(shù)據(jù)建模中, 模型校正集和預(yù)測集準(zhǔn)確率分別為82.96%和90%。 光譜經(jīng)過預(yù)處理后得到SNV-SG-2-PLS-DA為最優(yōu)分類判別模型, 模型校正集和預(yù)測集準(zhǔn)確率分別為91.11%和96.67%, 預(yù)處理可以有效提高模型的分類準(zhǔn)確率。 在特征變量建立的分類模型中, SNV-SG-2-UVE-PLS-DA模型校正集和預(yù)測集準(zhǔn)確率分別為86.3%和94.44%; SNV-SG-2-SPA-LDA模型校正集和預(yù)測集準(zhǔn)確率分別為86.3%和83.33%; SNV-SG-2-UVE-SVM模型校正集和預(yù)測集準(zhǔn)確率分別為77.78%和71.11%。 對于特征變量選擇算法來說, 有的可以提高建模準(zhǔn)確率, 有的雖然減少了變量數(shù), 但是使得建模效果降低, 不利于判別分類。 對于建立的分類模型來說, 線性分類模型(PLS-DA, LDA)分類結(jié)果優(yōu)于非線性分類模型(SVM)分類結(jié)果, 在線性分類模型分類結(jié)果中PLS-DA模型分類結(jié)果優(yōu)于LDA模型分類結(jié)果, 因此, PLS-DA分類模型可以更好的為損傷靈武長棗在線檢測提供分類效果。