孫旭東, 劉俊彬
華東交通大學(xué)機(jī)電與車輛工程學(xué)院, 江西 南昌 330013
茶是一種深受人們喜愛的健康飲品, 但傳統(tǒng)茶葉加工工藝流程比較復(fù)雜。 以紅茶為例, 鮮葉要經(jīng)過萎凋、 揉捻、 發(fā)酵、 烘培、 復(fù)培等一系列工序制作為成品茶。 茶葉在采摘和生產(chǎn)過程中極易混入各種低密度有機(jī)異物, 例如: 昆蟲、 塑料、 木屑、 鐵屑等, 這些已成為茶葉的主要污染源, 也是消費(fèi)者投訴的主要食品異物[1]。 當(dāng)前, 世界各國都在強(qiáng)化進(jìn)口茶葉的衛(wèi)生標(biāo)準(zhǔn), 因此研究茶葉夾雜有機(jī)異物無損檢測(cè)技術(shù), 具有重要的理論價(jià)值和應(yīng)用前景。
X射線是現(xiàn)行的食品異物檢測(cè)技術(shù), 利用食品基質(zhì)與異物的密度差, 能有效檢出金屬異物, 并逐步延伸到塑料等高密度異物[2-3]。 但茶葉的生產(chǎn)加工環(huán)境參差不齊, 在茶葉加工過程中昆蟲等低密度有機(jī)異物混入頻率較高。 根據(jù)新聞報(bào)道, 在2009年—2010年歐盟RASFF連續(xù)兩年通報(bào)我國出口的烏龍茶和普洱茶中存在死昆蟲, 消費(fèi)者投訴茶葉中存在昆蟲類污染物逐漸增多[4]。 昆蟲異物混入不僅造成感官上的不悅, 而且易于引入致病細(xì)菌等, 造成食品安全事故。 昆蟲異物污染占食品物理污染投訴事件的32.2%[1], 但昆蟲異物與食品基質(zhì)較為接近, X射線很難適用。 太赫茲(THz)是介于紅外光與微波之間的電磁波, 具有低能透射特性, 可以作為X射線檢測(cè)技術(shù)的必要補(bǔ)充。 THz輻射的能量低, 頻率為1 THz的光子能量約為4.1 meV, 不會(huì)造成電離輻射損傷。 THz光譜技術(shù)具有無損、 非電離和指紋圖譜等特點(diǎn), 在數(shù)據(jù)分析方面具備圖譜結(jié)合的優(yōu)勢(shì)[5]。 Wang等使用THz光譜成像技術(shù)對(duì)核桃仁中含有的殼污染物進(jìn)行檢測(cè), 通過光譜并結(jié)合圖像分析, 探索了THz光譜成像技術(shù)在檢測(cè)復(fù)雜食品基質(zhì)中內(nèi)源性異物的可行性[6]。 Lee等利用0.2 THz的THz圖像, 檢出面粉中的鋁塊和花崗巖石塊[7]。 OK等利用圓錐形介電透鏡產(chǎn)生非衍射的準(zhǔn)貝塞爾光束, 采用時(shí)域有限差分法進(jìn)行數(shù)值分析, 實(shí)現(xiàn)了奶粉中昆蟲、 回形針等異物的檢測(cè)[8-9]。 Shin等分析了食品摻雜異物在0.2~1.3 THz頻段的光學(xué)特性, 利用THz成像實(shí)現(xiàn)了糖和奶粉基質(zhì)中粉蟲異物的檢測(cè)[10]。 Jordens等采用THz光譜檢測(cè)巧克力夾雜的金屬和非金屬(石頭、 玻璃、 塑料等))等異物, 利用時(shí)域信號(hào)特征和圖像, 實(shí)現(xiàn)了食品內(nèi)部異物的檢測(cè)[11]。 Wang等利用THz光譜與成像技術(shù)檢測(cè)香腸中的金屬異物, 證明了THz光譜對(duì)復(fù)雜成分食品中異物檢測(cè)的有效性[12]。 另外, THz光譜還可以對(duì)食品中的昆蟲異物進(jìn)行檢測(cè)。 Jiang等應(yīng)用THz光譜檢測(cè)谷物中的污染物, 在0.9~1.3 THz波段下實(shí)現(xiàn)了小麥粒和面粉中昆蟲、 金屬、 木屑、 玻璃等異物的檢測(cè)[13]。 THz光譜具有良好的指紋特性, 但涉及食品基質(zhì)和異物的THz光譜特性研究報(bào)道仍然較少, 還需深入挖掘它們的THz物性參數(shù)變化規(guī)律, 為低密度有機(jī)異物檢測(cè)提供可行的方法。
采用福建某紅茶主產(chǎn)區(qū)的紅茶作為實(shí)驗(yàn)樣品。 茶樹生長過程中主要遭受食葉類害蟲與吸汁性害蟲侵害, 而這類昆蟲絕大部分為軟體昆蟲, 極容易混入茶葉原料中, 形成異物污染。 所以, 選擇軟體昆蟲作為典型外源性異物, 另外外骨骼昆蟲具有外骨骼, 作為軟體昆蟲的對(duì)比, 也被選作昆蟲異物, 在樣品制備過程中, 人工摻入茶葉基質(zhì)中。 其中, 軟體昆蟲選擇蠕蟲, 外骨骼的昆蟲為蟋蟀, 如圖1所示。 另外聚苯乙烯(PS)也被用作外源性異物。 樣品制備的具體流程如下: 茶葉清理干凈之后置于烘干箱中, 在50 ℃環(huán)境下烘干7 h。 為了進(jìn)一步提高實(shí)際應(yīng)用能力, 增加異物樣品的多樣性, 實(shí)驗(yàn)中將蟋蟀四肢分離得到昆蟲軀干肉身與具有外骨骼的四肢, 將兩者單獨(dú)作為異物。 其中異物種類分別為蠕蟲、 完整蟋蟀、 蟋蟀軀干部位、 蟋蟀四肢以及聚苯乙烯, 共5類。 將烘干后的茶葉與昆蟲異物磨成粉末狀, 再將其置于40目篩子上(昆蟲類異物過20目篩子)進(jìn)行篩選, 得到紅茶與異物細(xì)粉末。 通過壓片機(jī)將紅茶與異物粉末壓制成直徑為1 cm, 厚度為1 mm的薄片, 放干燥處保存。 最后獲取了純茶葉、 純異物以及茶葉與異物混合樣品的壓片。
圖1 異物樣品(a): 蟋蟀; (b): 蠕蟲Fig.1 Foreign bodies sample(a): Cricket; (b): Worm
實(shí)驗(yàn)采用ADVANTEST公司生產(chǎn)的TAS7400TS太赫茲時(shí)域光譜系統(tǒng), 該系統(tǒng)由飛秒激光器、 發(fā)射器、 探測(cè)器、 數(shù)據(jù)采集與處理系統(tǒng)構(gòu)成。 TAS7400TS的工作原理如圖2所示, 在電子相位調(diào)制器的控制下, 飛秒激光器(波長=1 550 nm, 短脈沖寬度<50 fs)發(fā)射飛秒脈沖, 并通過分束器將其分為探測(cè)光和泵浦光。 THz發(fā)射器由泵浦光激發(fā)產(chǎn)生THz輻射, 該輻射從樣品中透射到達(dá)THz探測(cè)器上。 探測(cè)光束通過光延遲, 與泵浦光束一起聚焦在THz探測(cè)器上。 THz信號(hào)經(jīng)鎖定放大器放大后由計(jì)算機(jī)處理。 該系統(tǒng)的掃描頻譜范圍為0~3.0 THz, 動(dòng)態(tài)范圍>60 dB[14]。 為了進(jìn)一步提高實(shí)驗(yàn)數(shù)據(jù)的精度, 光譜分辨率為1.9 GHz, 平均每次掃描次數(shù)為1 024次, 每個(gè)樣品測(cè)量四次并取平均值。 實(shí)驗(yàn)最后獲取了單獨(dú)茶葉、 異物以及茶葉與異物混合樣品的THz光譜。
圖2 太赫茲時(shí)域光譜透射式實(shí)驗(yàn)裝置Fig.2 THz time-domain spectroscopy transmissionexperimental setup
THz光譜數(shù)據(jù)主成分變換后, 進(jìn)一步利用模式識(shí)別方法, 建立定性判別模型。 本研究采用支持向量機(jī)(SVM)和線性判別分析算法(LDA)。 SVM將輸入向量從低維樣本空間映射到高維或無限維, 從而將非線性分類轉(zhuǎn)換為線性分類[15]。 此外, 通過基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化在特征空間中搜索最佳超平面來解決線性分類問題。 應(yīng)用到光譜數(shù)據(jù)處理中時(shí), 建立的是光譜數(shù)據(jù)與分類變量之間的定性判別模型。
SVM被定義為
式(1)中, ω表示慣性權(quán)重, ζ表示松弛系數(shù), γ表示罰系數(shù)。
目前SVM模型中常用的核函數(shù)有: 線性核函數(shù), 多項(xiàng)式核函數(shù)以及高斯徑向函數(shù),部分核函數(shù)式(2)和式(3)
線性(linear)核函數(shù)
K(xi,xj)=(xixj)
(2)
高斯徑向基函數(shù)(RBF)
K(xi,xj)=exp{-γ|xi-xj|2},γ>0
(3)
LDA屬于一種有監(jiān)督學(xué)習(xí)的降維方法, 數(shù)據(jù)集中每個(gè)樣品類型是有類別輸出的, 將一個(gè)類型之間的方差最小化, 不同類型之間方差最大化[16]與線性判別分析類似, 二次判別分析是另外一種線性判別分析算法, 二者擁有類似的算法特征, 區(qū)別僅在于: 當(dāng)不同分類樣本的協(xié)方差矩陣相同時(shí), 使用線性判別分析; 當(dāng)不同分類樣本的協(xié)方差矩陣不同時(shí), 則應(yīng)該使用二次判別。
對(duì)茶葉與純異物的吸收系數(shù)與介電損耗光譜信號(hào)求取平均頻域光譜, 為了有效的減少系統(tǒng)噪聲對(duì)數(shù)據(jù)的干擾, 本研究通過對(duì)光譜進(jìn)行篩選, 選取了0.3~1.8 THz波段作為吸收系數(shù)與介電損耗的有效數(shù)據(jù)進(jìn)行研究。 茶葉與異物的吸收系數(shù)與介電損耗如圖3所示。 烘干后的蠕蟲中粗蛋白和粗脂肪分別占到了49.5%和38.9%[17], 而蟋蟀烘干后主要成分為蛋白質(zhì), 達(dá)到了61%[18]。 從圖3(a)中可以看出富含蛋白質(zhì)和脂肪的蠕蟲以及蟋蟀對(duì)THz輻射吸收很高, 隨著頻率的增加, 異物的吸收光譜呈現(xiàn)快速上升趨勢(shì)[19]。 蟋蟀四肢主要成分為甲殼質(zhì), 該異物則對(duì)THz波吸收比較微弱。 聚苯乙烯與蟋蟀四肢的吸收系數(shù)整體處于水平狀態(tài), 而且重疊區(qū)域較多, 很難區(qū)分。 紅茶富含多酚類物質(zhì)以及碳水化合物等, 與其他異物存在較大的差別。
圖3(b)中可以觀察出完整的蟋蟀與蟋蟀軀干之間介電損耗存在輕微的區(qū)分, 紅茶的光譜與其他異物樣品的光譜間隔明顯。 在0.3~1.8 THz之間, 無論是吸收系數(shù)還是介電損耗, 紅茶與不同異物的吸收系數(shù)存在很明顯的區(qū)分, 這使得THz光譜檢測(cè)技術(shù)可以實(shí)現(xiàn)茶葉中異物的判別。
圖3 茶葉與異物的THz光譜吸收系數(shù)(a)和介電損耗(b)Fig.3 THz spectral absorption coefficient (a) and dielectric loss (b) of tea and foreign matters
紅茶與異物混合后的THz光譜響應(yīng)特性如圖4所示。 從圖4(a)中可以觀察出, 不同異物與茶葉混合后的吸收系數(shù)與純紅茶的光譜區(qū)分明顯。 由于蟋蟀與蟋蟀軀干在生物成分上十分接近, 兩者與茶葉混合后的吸收光譜具有很高的相似性, 但與純茶葉吸收光譜具有一定差異。 此外紅茶夾雜聚苯乙烯的吸收光譜明顯低于純紅茶樣品, 對(duì)THz波吸收依然很弱, 與紅茶光譜很容易區(qū)分。 由于紅茶與昆蟲異物混合物對(duì)高頻太赫茲輻射的強(qiáng)烈吸收和散射, 混合物的吸收光譜在1.0~1.8 THz頻率范圍內(nèi)振蕩。 從吸收光譜可以看出各類異物樣品與茶葉光譜在0.5~1.0 THz波段下區(qū)分最大, 但對(duì)于部分異物種類仍然難以區(qū)分。 如圖4(b)所示, 不同異物的THz介電損耗光譜之間存在較大差別。 在0.5~1.0 THz范圍內(nèi), 光譜整體噪聲較小, 該波段內(nèi)紅茶與混有蟋蟀軀干異物的樣品光譜區(qū)分并不明顯。 其中摻雜蠕蟲、 完整的蟋蟀與聚苯乙烯的壓片光譜和純紅茶譜線間隔明顯, 摻雜聚苯乙烯的樣本介電損耗參數(shù)隨著頻率下降而下降, 含有蠕蟲樣品的頻譜趨勢(shì)較為平緩。 混合蟋蟀和蟋蟀軀干異物的紅茶壓片介電損耗參數(shù)在0.5~1.5 THz波段呈線性增長趨勢(shì), 在1.0~1.8 THz波段內(nèi)開始劇烈振蕩, 故0.5~1.0 THz頻段被用于后續(xù)的模型分析使用。
圖4 紅茶摻雜異物的吸收系數(shù)(a)與介電損耗(b)Fig.4 Analysis of response of spectroscopy to insect foreign bodies hiddenin tea, absorption coefficient (a) and dielectric loss (b)
主成分分析法可以對(duì)多個(gè)變量之間的相關(guān)性進(jìn)行統(tǒng)計(jì)分析, 是一種減少數(shù)據(jù)維度的有效方法。 對(duì)各組數(shù)據(jù)進(jìn)行正交變換, 降維后的主成分?jǐn)?shù)據(jù)之間無線性相關(guān)且按得分高低降序排列。 通常前k個(gè)主成分累計(jì)方差貢獻(xiàn)率足夠大時(shí), 原始數(shù)據(jù)可以近似的由前k個(gè)主成分代替。 運(yùn)用主成分分析法對(duì)含有不同異物的樣品進(jìn)行處理, 選取0.5~1.0 THz頻域范圍內(nèi)的吸收光譜和介電損耗, 兩個(gè)參數(shù)主成分得分圖如圖5所示。 其中吸收系數(shù)與介電損耗前兩個(gè)主成分在數(shù)據(jù)集中占比都超過了95%。
圖5 紅茶與異物樣品光譜主成分分析圖(a): 吸收系數(shù); (b): 介電損耗Fig.5 Principal component analysis scores plot of black tea and foreign body samples(a) : Absorption coefficient; (b): Dielectric loss
從圖5(a)吸收系數(shù)主成分分析可以看出, 六種茶葉與異物樣品并沒有形成良好的聚類效果, 其中純紅茶與摻雜蟋蟀軀干的紅茶之間難以區(qū)分開。 但是混合PS、 蠕蟲、 蟋蟀四肢異物的樣品與紅茶沒有相互交錯(cuò), 這與各類樣品的吸收光譜特征相符合。 在圖5(b)介電損耗主成分分析中可以觀察出純紅茶與摻雜蟋蟀軀干的異物樣品之間沒有明顯的區(qū)分, 而且含有蟋蟀與蟋蟀軀干異物的紅茶主成分之間重疊度高, 很難區(qū)分。 對(duì)比兩項(xiàng)參數(shù)的主成分分析, 可以發(fā)現(xiàn)吸收系數(shù)的聚類效果比介電損耗較好[10]。 為了進(jìn)一步快速準(zhǔn)確識(shí)別茶葉中混入的異物種類, 采用模式識(shí)別方法建立茶葉中異物判別模型。
由于紅茶與混合各類異物的吸收光譜以及介電損耗很難直接區(qū)分它們之間的類型, 在實(shí)際檢測(cè)過程中, 光譜變量與特性存在的線性關(guān)系并不十分明顯, 因此采用SVM和LDA兩種模型對(duì)六類樣品進(jìn)行分類判別。 通過觀察光譜信號(hào)特征, 挑選0.5~1.0 THz波段信號(hào)作為吸收光譜和介電損耗的特征數(shù)據(jù)。 將六種數(shù)據(jù)隨機(jī)分配, 其中建模集與預(yù)測(cè)集的比例為3∶1。 首先使用SVM模型對(duì)樣品進(jìn)行分類, 其中核函數(shù)采用線性(Linear)核函數(shù)與徑向基(RBF)核函數(shù)。 懲罰參數(shù)c和核函數(shù)參數(shù)對(duì)SVM分類模型運(yùn)行結(jié)果會(huì)產(chǎn)生很大的影響。 參數(shù)c過大會(huì)降低模型分類效果并且會(huì)過度擬合, 對(duì)分類精度造成影響; 反之參數(shù)c太小, 則會(huì)降低誤差經(jīng)驗(yàn)數(shù)值大小。 為了進(jìn)一步優(yōu)化SVM模型中懲罰函數(shù)(c)和核函數(shù)系數(shù)(g)內(nèi)部參數(shù), 采用網(wǎng)絡(luò)搜索和交叉驗(yàn)證獲取最優(yōu)的參數(shù)組合。 根據(jù)吸收系數(shù)與介電損耗兩項(xiàng)參數(shù)建立的SVM定性分析模型結(jié)果如表1所示, 在無預(yù)處理狀態(tài)下, 吸收光譜下的SVM與線性核函數(shù)對(duì)茶葉中異物種類識(shí)別精度較好, 達(dá)到了68.42%。
運(yùn)用LDA模型分類之前, 首先需要對(duì)原始的吸收光譜和介電損耗進(jìn)行主成分分析, 運(yùn)用PCA降低數(shù)據(jù)維度并從原始光譜中獲取特征光譜。 吸收系數(shù)譜中前三個(gè)主成分的方差貢獻(xiàn)率分別為97.2%, 1.4%和0.5%。 前三個(gè)特征向量累計(jì)方差達(dá)到了99.1%, 有效的減少了光譜數(shù)量, 并最大程度保持了原始數(shù)據(jù)的光譜特征。 將三個(gè)主成分輸入到LDA模型中進(jìn)行分類判別, 模型獲取了比較好的預(yù)測(cè)結(jié)果, 如表1所示。 LDA模型中二次判別分析對(duì)茶葉中混入的異物類型識(shí)別率最高, 達(dá)到了73.68%。
表1 茶葉與異物分類模型結(jié)果Table 1 Tea and foreign bodies classification model results
從參數(shù)分析上看, 吸收系數(shù)比介電損耗建模精度更高, 這一結(jié)論與兩項(xiàng)參數(shù)主成分分析結(jié)果相符合, 吸收光譜的特征數(shù)據(jù)更有利于判斷茶葉中的異物類型。 而對(duì)比兩個(gè)模型, 可以發(fā)現(xiàn)LDA分類模型比SVM模型對(duì)茶葉和混入異物的類型識(shí)別精度更高。 由于茶葉中摻雜的異物類型多, 但數(shù)據(jù)類型模式比較簡單。 SVM分類器適合用于將非線性可分的問題映射到更高維的空間, 轉(zhuǎn)化為線性可分問題, 尋找不同類別間差別最大的向量。 SVM作為一種有監(jiān)督學(xué)習(xí)方法, 在小樣本數(shù)據(jù)和非線性問題上具有更好的分類和預(yù)測(cè)。 由于該特征數(shù)據(jù)非線性相關(guān)并不明顯, 且數(shù)據(jù)結(jié)構(gòu)簡單, 所以SVM分類效果一般。 但是對(duì)茶葉中摻雜異物種類的判別, LDA更適用于線性分類問題, 分類精度更好, 為茶葉中混入的異物識(shí)別提供一種可行性分析方法。
應(yīng)用THz時(shí)域光譜技術(shù), 在0.5~1 THz范圍內(nèi)進(jìn)行了紅茶夾雜昆蟲異物的實(shí)驗(yàn)研究, 實(shí)驗(yàn)結(jié)果證明了紅茶夾雜昆蟲異物THz光譜檢測(cè)的可行性。
(1)紅茶的THz吸收系數(shù)、 介電損耗系數(shù)與昆蟲異物均有較為明顯的區(qū)別, 但吸收系數(shù)略優(yōu)于介電損耗系數(shù), 其LDA定性判別模型的正確識(shí)別率達(dá)到了73.68%, 建議將吸收系數(shù)作為茶葉夾雜昆蟲異物THz檢測(cè)的主要特征參數(shù)。
(2)外骨骼類昆蟲異物和蠕蟲類異物與茶葉基質(zhì)在蛋白質(zhì)等化學(xué)組分上存在較為明顯的區(qū)別, 同時(shí)THz光譜具有較好的指紋光譜特性, 適用于化學(xué)性狀的表型, 但對(duì)于物理性狀的表型則THz圖像更具優(yōu)勢(shì), THz光譜和圖像的高效融合能充分發(fā)揮光譜和圖像的特點(diǎn), 也是茶葉夾雜有機(jī)異物檢測(cè)的重要發(fā)展方向。
(3)THz技術(shù)為茶葉以及其他食品基質(zhì)夾雜有機(jī)異物檢測(cè)提供了一種新的方法, 但THz光譜數(shù)據(jù)處理目前仍沿襲一些傳統(tǒng)的化學(xué)計(jì)量學(xué)方法, 在后續(xù)研究中開發(fā)面向THz光譜的新算法, 充分挖掘其有效信息, 也是重要的方向。