馬本學, 喻國威, 王文霞, 羅秀芝, 李玉潔, 李小占, 雷聲淵
1. 石河子大學機械電氣工程學院, 新疆 石河子 832003 2. 農業(yè)部西北農業(yè)裝備重點實驗室, 新疆 石河子 832003
西甜瓜(西瓜和甜瓜)[1]味甘多汁, 營養(yǎng)豐富, 深受廣大消費者的青睞。 近年來雖然西甜瓜的產量和銷量大幅增加, 但是其內部品質參差不齊, 難以辨別, 主要原因在于傳統(tǒng)檢測方法檢測時間長, 成本高且為有損檢測, 無法滿足現(xiàn)代生產的需要。 隨著光譜分析技術的快速發(fā)展, 近紅外光譜分析(near-infrared spectroscopy, NIRS)和高光譜成像(hyperspectral imaging, HSI)[2-3]以快速、 綠色、 無損等優(yōu)勢廣泛應用于西甜瓜內部品質無損檢測中。 西甜瓜內部品質的評價指標主要包括可溶性固形物含量(soluble solids content, SSC)、 總可溶性固形物(total soluble solids, TSS)、 堅實度(firmness, FM)、 水分(moisture)、 總酸含量(total acid content, TAC)、 成熟度(maturity)等食用指標和類胡蘿卜素(carotenoids)等營養(yǎng)指標[4]。
為跟蹤國內外最新研究進展, 綜述了近紅外光譜分析和高光譜成像在西甜瓜內部品質無損檢測中的應用; 同時, 簡要介紹了近紅外光譜分析和高光譜成像的技術特點和系統(tǒng)組成, 并歸納了常用的光譜信息解析方法; 最后, 從技術難點和實際應用兩方面綜合分析了光譜分析技術在西甜瓜內部品質無損檢測中的發(fā)展趨勢。
近紅外光(near-infrared, NIR)是人們最早發(fā)現(xiàn)的非可見光區(qū)域, 它的波長范圍為780~2 526 nm, 波數(shù)范圍為12 500~4 000 cm-1。 近紅外光譜屬于分子振動光譜, 利用分子含氫基團(C—H, O—H 和N—H等)的倍頻與合頻的吸收特性來獲取復雜的光譜信息。 典型的近紅外光譜分析系統(tǒng)一般由光源、 光譜儀、 載物臺、 光纖、 計算機等部分組成, 如圖1所示。
高光譜成像技術興起于20世紀80年代末, 結合了光譜學和傳統(tǒng)成像或計算機視覺技術, 可以有效地獲取樣品“圖譜合一”的三維數(shù)據(jù)信息, 包括二維的樣品空間圖像信息和一維的光譜信息[5-6]。 典型的高光譜成像系統(tǒng)一般由成像光譜儀、 CCD相機、 光源、 計算機、 傳輸機構等部分組成, 如圖2所示[7]。
近紅外光譜分析技術和高光譜成像技術的區(qū)別與聯(lián)系[8-10], 如表1所示。
圖1 近紅外光譜分析系統(tǒng)示意圖
圖2 高光譜成像系統(tǒng)示意圖
表1 近紅外光譜分析和高光譜成像的區(qū)別和聯(lián)系
在光譜信息解析過程中, 因光譜系統(tǒng)采集的光譜信息會受到采集環(huán)境、 光學條件和儀器性能等因素的影響, 故原始光譜信息除含有被測樣品屬性的信息外, 還包含大量無關信息, 如噪聲、 背景干擾、 雜散光等。 為消除光譜冗余信息, 提高模型的預測精度, 對光譜信息進行預處理并提取有效信息是模型建立前的重要環(huán)節(jié)。 一般的光譜信息解析步驟主要包括光譜信息的采集、 光譜信息的預處理、 變量的篩選、 預測模型的建立、 模型的評價等, 其流程圖如圖3所示[11]。
圖3 光譜信息解析流程圖
光譜信息解析首要環(huán)節(jié)就是對采集的光譜信息進行預處理, 常用光譜信息預處理方法[12]主要有平滑(smoothing), 包括移動平均法(moving average, MA)和卷積法(savitzky-golay, SG)等、 導數(shù)修正(derivative correction), 包括一階導數(shù)(first-order derivative, 1stD)和二階導數(shù)(second-order derivative, 2ndD)、 歸一化(normalization, NOR)、 標準正態(tài)變換(standard normal variable transformation, SNV)、 多元散射校正(multiplicative scattering correction, MSC)、 小波變換(wavelet transform, WT)等, 其作用效果如表2所示。
表2 光譜預處理方法及其作用效果
光譜信息中存在的大量冗余信息會降低預測模型的準確性和穩(wěn)定性。 為提高模型運算速度和精度, 進行光譜信息變量篩選是十分必要的。 常用變量篩選方法[13]主要有變量區(qū)間選擇算法, 包括移動窗口偏最小二乘法(moving windows partial least squares, MWPLS)和區(qū)間偏最小二乘法(interval partial least squares, iPLS)等、 無信息變量消除算法(uninformative variable elimination, UVE)、 遺傳算法(genetic algorithm, GA)、 連續(xù)投影算法(successive projections algorithm, SPA)和競爭性自適應重加權算法(competitive adaptive reweighted sampling, CARS)等, 其特點如表3所示。
表3 變量篩選方法的特點
建立樣品待測指標的數(shù)學模型是光譜信息解析過程中關鍵的一步, 不同的建模方法會直接影響模型的準確性和穩(wěn)定性。 常用的建模方法[14]主要有多元線性回歸(multi linear regression, MLR)、 主成分回歸(principal component regression, PCR)、 偏最小二乘回歸(partial least squares regression, PLSR)、 支持向量機(support vector machine, SVM)、 最小二乘支持向量機(least square support vector machine, LS-SVM)等, 其特點如表4所示。
在樣品待測指標的預測模型建立后, 需對模型進行評價, 常見的模型預測性能評價標準[15]主要有預測集相關系數(shù)(correlation coefficient of prediction set,RP)、 校正集相關系數(shù)(correlation coefficient of calibration set,RC)、 決定系數(shù)(coefficient of determination,R2)、 預測標準偏差(root mean square error of prediction, RMSEP)、 校正標準偏差(root mean square error of calibration, RMSEC)、 剩余預測偏差(residual predictive deviation, RPD)等。 質量較高的模型具有較高的RP,RC,R2和RPD, 較低且較為接近的RMSEP和RMSEC[16]。
表4 建模方法的特點
通過對常用光譜信息解析方法的總結可以看出, 機器學習算法已逐漸應用于光譜信息的變量篩選和模型建立, 雖然提高了模型精度, 但是模型的普適性和實用性仍不能滿足實際需要。 現(xiàn)階段, 深度學習作為機器學習的分支迅速崛起, 深度網(wǎng)絡的規(guī)模和精度也在不斷提高, 并且持續(xù)成功地應用于各類實際問題。 為進一步提高模型的精度和泛化能力, 使其能夠滿足現(xiàn)代生產的需要, 應用深度學習算法進行光譜信息解析將是今后發(fā)展的必然趨勢之一。
表5列舉了近紅外光譜分析在西甜瓜內部品質無損檢測中的應用。
SSC含量作為西甜瓜內部品質的重要評價指標, 其定量分析一直是研究熱點。 介鄧飛等[18]以“麒麟”西瓜為樣品, 研究了不同變量篩選方法(等間隔平均光譜法、 等間隔抽取光譜法、 SPA)和不同建模方法(PLSR, MLR和PCR)對SSC含量預測模型精度的影響。 結果表明, 采用等間隔抽取光譜法結合SPA建立的PLSR模型精度較高(RP為0.828, RMSEC為0.589, RMSEP為0.611)。 西甜瓜的SSC含量在不同部位存在明顯差異, 檢測部位差異是影響西甜瓜SSC含量預測模型精度的重要因素。 為探究西甜瓜SSC含量的最佳檢測部位, 介鄧飛等[19]分別利用瓜梗、 赤道和瓜臍部位的近紅外漫透射光譜信息結合PLSR和LS-SVM建立了西瓜單一檢測部位的SSC含量預測模型。 結果表明, 瓜臍為最佳單一檢測部位(LS-SVM模型:RP為0.768, RMSEP為0.731、 PLSR模型:RP為0.823, RMSEP為0.652)。 Zhang等[26]以哈密瓜為研究對象, 選用不同變量篩選方法(CARS, UVE, CARS-SPA和UVE-SPA), 對比分析了線性PLS和非線性LS-SVM建模方法對基于單一檢測部位的哈密瓜SSC含量預測模型的影響。 結果表明, 無論是線性模型還是非線性模型, 基于赤道部位光譜信息建立的哈密瓜SSC含量預測模型性能最佳(UVE-SPA-PLS 模型:RP為0.914 3, RMSEP為0.835 9、 CARS-SPA-LSSVM模型:RP為0.913 4, RMSEP為0.895 8)。 由此可見, 不同品種西甜瓜的最佳檢測部位不同。 為減小檢測部位差異對西甜瓜SSC含量預測模型性能的影響, 錢曼等[22]利用“京秀”西瓜三個檢測部位的近紅外漫反射光譜信息結合CARS和PLS, 建立了西瓜SSC含量的混合(赤道-瓜臍-瓜梗)預測模型(RP為0.905, RMSEP為0.629), 其性能優(yōu)于單一(瓜臍)預測模型。 上述研究表明, 對于不同品種的西甜瓜選擇適宜的近紅外光譜檢測部位并結合變量篩選方法, 可以有效提高西甜瓜SSC含量預測模型的性能。
表5 近紅外光譜分析在西甜瓜內部品質無損檢測中的應用
Note: “MC” is Monte Carlo; “FW” is fresh weight; “RMSECV” is root mean square error of cross validation; “SMLR” is stepwise multiple linear regression; “C-RPP” is corrected-ratio of peaks method; “CCR” is correct classification rate
研究開發(fā)西甜瓜內部品質快速無損檢測設備對西甜瓜的質量管理和市場競爭起著至關重要的作用, 國內外應用近紅外光譜分析已構建多種西甜瓜內部品質快速無損在線檢測系統(tǒng)。 Jie等[20]采集697~920 nm范圍內西瓜瓜臍部位的近紅外漫透射光譜信息, 利用基線偏移校正(baseline offset correction, BOC)進行光譜預處理, 建立了MC-UVE-SMLR預測模型(RP為0.70, RMSEP為0.33), 構建了西瓜SSC含量在線檢測系統(tǒng)。 Tamburini等[23]采集900~1 700 nm范圍內的完整西瓜的近紅外漫反射光譜信息, 利用導數(shù)修正和SNV進行光譜預處理, 建立了PLS模型, 構建了西瓜內部品質在線檢測系統(tǒng), 可實現(xiàn)對番茄紅素(R2為0.877, RMSECV為15.68), β胡蘿卜素(R2為0.822, RMSECV為0.81)和TSS(R2為0.836, RMSECV為0.8)的檢測。 少數(shù)公司研發(fā)的西甜瓜內部品質在線檢測設備已達到工業(yè)化標準, 如日本三井金屬礦業(yè)株式會社的西瓜糖度無損檢測生產線(效率為120 pcs·min-1, 誤差為±0.5 °Brix), 意大利薩克米公司研發(fā)的西甜瓜內部品質(糖度、 酸度、 成熟度和空心度)在線檢測系統(tǒng)(效率為300 pcs·min-1)等[27]。 上述系統(tǒng)及設備均為大型裝置, 不便于小型商戶和消費者使用, 開發(fā)基于智能移動終端的快速檢測系統(tǒng)是未來發(fā)展方向之一。
表6列舉了高光譜成像技術在西甜瓜內部品質無損檢測中的應用。
近些年來利用高光譜成像技術對西甜瓜SSC、 FM的定量分析較多, 李鋒霞等[28]以哈密瓜為對象, 選取500~820 nm波段范圍內的高光譜圖像信息, 分別研究了不同光譜預處理方法(1stD, 2ndD, MSC和SNV)和不同建模方法(PLS, SMLR和PCR)對哈密瓜SSC和FM預測模型的影響。 結果顯示, 1stD和SNV結合PLS建立的哈密瓜FM預測模型的預測效果最佳(RC為0.873,RP為0.646, RMSEC為4.18, RMSEP為6.4)。 高光譜成像所獲取的光譜信息冗余度較大, 與被測組分無關的信息會削弱模型的預測精度。 因此, 選擇包含相對較多有效信息的變量來建立預測模型是十分必要的。 Sun等[7]分別比較了基于不同變量篩選方法(SPA, CARS和GA)結合PLS建立的哈密瓜SSC, FM和TAC預測模型的精度。 結果表明, CARS-PLS模型實現(xiàn)了對哈密瓜SSC(RP為0.960 6, RMSEP為0.381 6, RDP為3.598)、 FM(RP為0.867 1, RMSEP為20.05, RPD為1.996)和TAC(RP為0.912 5, RMSEP為0.026 3, RPD為2.445)的準確預測。 Sun等[30]利用PLSR, PCA, SVM和人工神經網(wǎng)絡(artificial neural network, ANN)分別建立了甜瓜SSC和FM預測模型, 其中PLSR模型的預測性能最佳。 為進一步提高模型精度, 采用加權回歸系數(shù)法篩選變量后結合PLSR重新建立了甜瓜SSC和FM預測模型。 結果表明, 經變量篩選后建立的甜瓜SSC模型(R2為0.775 5, RMSEP為1.187 1)和FM模型(R2為0.355 5, RMSEP為525.293 2)的預測精度均得到了提高。
表6 高光譜成像在西甜瓜內部品質無損檢測中的應用
上述研究均是對內部品質的單一指標進行檢測, 忽略了各指標間的相關性, 因此可能會對西甜瓜內部品質的綜合評判造成影響。 SSC和FM作為西甜瓜成熟度的關鍵表征因子, 孫靜濤等[29]分別采用MSC和SNV對光譜信息進行預處理并選擇SPA, CARS和SPA-CARS對變量進行篩選后, 對比分析了基于全光譜、 SSC或FM單一特征和基于PCA特征融合的哈密瓜成熟度SVM判別模型的準確率。 結果顯示, 基于CARS-PCA-SVM特征融合和全光譜SNV-SVM的哈密瓜成熟度判別模型的準確率較高, 其校正集和預測集的判別準確率分別為95%和94%。
研究表明, 利用變量篩選方法可有效降低高光譜信息冗余度, 簡化模型, 提高模型預測精度。 建立特征信息融合的成熟度判別模型為今后利用高光譜“圖譜合一”的特性綜合評判西甜瓜的內部品質提供了理論依據(jù)。
光譜分析作為一種現(xiàn)代無損檢測技術, 與傳統(tǒng)檢測技術相比具有快速、 綠色、 無損等優(yōu)勢, 在西甜瓜內部品質無損檢測中具有廣闊的應用前景。
(1)光譜分析所獲取的信息量較大, 其中包含的許多與被測組分無關的冗余信息會增加光譜信息處理時間, 降低模型精度。 獲取光譜有效信息、 優(yōu)化預測模型一直是光譜分析技術未來發(fā)展的重要方向, 而機器學習則是實現(xiàn)模型優(yōu)化的重要手段。 深度學習作為機器學習的分支在挖掘龐大數(shù)據(jù)集的有效信息方面發(fā)展迅猛, 為解決光譜分析模型魯棒性和適應性差等問題提供了新的思路和方法, 應用深度模型預測西甜瓜的內部品質將是未來技術發(fā)展的必然趨勢。
(2)目前對于西甜瓜內部品質的無損檢測多是針對單一指標(大多數(shù)為影響口感風味的食用指標的定量檢測), 針對綜合指標(如成熟度)的研究較少。 研究西甜瓜內部品質評價指標間的內在聯(lián)系, 提取各指標相對應的變量建立多特征信息融合的西甜瓜內部品質綜合評價模型將是今后的研究重點之一。
(3)盡管國內外部分學者都構建了基于光譜分析的西甜瓜內部品質無損在線檢測系統(tǒng), 但目前大多停留在實驗室階段, 應用于商業(yè)化生產線較少且多為大型裝置, 不利于加工企業(yè)和消費者使用。 隨著人工智能、 大數(shù)據(jù)、 移動互聯(lián)網(wǎng)和云計算的不斷發(fā)展, 研究開發(fā)基于人工智能與移動終端深度融合的西甜瓜內部品質快速無損檢測系統(tǒng)將成為新的研究方向之一。