張筱蕾,夏 威,唐善虎
(西南民族大學生命科學與技術學院,四川 成都 610041)
中國是茶葉的消費大國,茶葉的品質(zhì)受到眾多因素的影響.在茶葉加工過程中,水分對于茶葉品質(zhì)的形成起著非常重要的作用.原料的物理狀態(tài)和化學反應進程直接受其內(nèi)部水分含量影響[1-2].當水分含量小于5%時,茶葉香氣變化比較??;而當水分含量高于6.5%時,茶葉品質(zhì)則下降得比較快[3].傳統(tǒng)檢測茶葉中含水率的方法是烘干法[4],此法費時費力、效率低,不能實現(xiàn)在線檢測.由于茶葉的營養(yǎng)成分在高溫烘干過程中被破壞,以致樣本測試后不能再食用,因此烘干法無法滿足茶葉加工過程實時檢測的需要.研究新型的檢測方法對提高檢測效率、改善茶葉品質(zhì)都具有重要意義.
光譜技術具有操作簡單、效率高、價格低和無損檢測等優(yōu)勢,目前此技術已在眾多領域中使用[5-12].但是在茶葉加工工序中利用可見-近紅外光譜技術對其含水率檢測的研究大多基于全譜段光譜數(shù)據(jù),具有信息量大、波譜冗余重疊等特征,不利于開發(fā)快速、高精度、實時的分析監(jiān)測系統(tǒng).本文利用可見-近紅外光譜技術檢測新鮮茶葉葉片中的含水率,并提取特征波長建立優(yōu)化模型.研究的主要目的是:(1)建立光譜信息與含水率的定量關系模型;(2)基于回歸系數(shù)法(Regression Coefficients,RC)提取特征波長;(3)利用特征波長建立預測模型;(4)比較基于全波段和特征波段模型的預測效果.
本研究采用的可見/近紅外光譜儀型號為ASD FieldSpec Pro FR(Analytical Spectral Device Inc.,Boulder,CO,USA),其光譜范圍為 350 ~2500 nm.為了減少室外光和日光燈對試驗的影響,在采集光譜信息時應關閉室內(nèi)電源,使樣本處在一個黑暗的環(huán)境中,只使用鹵素燈.樣本采集前將儀器預熱20分鐘,先進行白板校正,然后再進行樣本采集.烘箱型號為GHD-9070A,JingHong,Shanghai,China.分析軟件采用Unscrambler V10.1和MATLAB R2009a進行數(shù)據(jù)分析處理.
試驗流程如下:首先采集177個新鮮茶葉葉片樣本,依次編號后逐一采集其光譜信息作為X變量,然后通過稱重法檢測得到每個樣本的含水率,作為Y變量.將葉片光譜數(shù)據(jù)進行預處理之后,建立不同的水分預測模型,再基于回歸系數(shù)法提取特征波長,利用特征波長建立相應的預測模型.
本研究采用5種方法對原始光譜信息進行預處理,包括S.G平滑(Savitzky-golay smoothing)、歸一化法(Normalization)、變量標準化(Standard normal variate,SNV)處理、多元散射校正(Multiplicative scatter correction,MSC)以及去趨勢(De-trending).每一種預處理方法都代表不同的含義.
平滑是消除噪聲的一種有效方法,本研究中使用S.G卷積平滑法對光譜進行降噪處理,該方法通過多項式來對移動窗口內(nèi)的數(shù)據(jù)進行多項式最小二乘擬合,因此,也被稱為多項式平滑[13].
歸一化處理是將所有數(shù)據(jù)轉(zhuǎn)化為0和1之間的值,具體計算公式如下:
式中x0是原始值,x是歸一化處理后的值,xmax是最大值,xmin是最小值.
SNV的作用是校正散射造成的樣品間的誤差,具體計算公式是將原始光譜xi與平均光譜x-的差值除以原始光譜的標準偏差s,即標準正態(tài)化處理.
經(jīng)SNV處理后,光譜數(shù)據(jù)的均值為0,標準差為1.
MSC的目的是消除散射對光譜數(shù)據(jù)的影響,這些散射通常是由于樣本的不均勻及顆粒大小差異造成的.
De-trending的作用是消除漫反射光譜的基線漂移,該算法的思路是依據(jù)多項式將光譜xi的吸光度和波長擬合出趨勢線li,然后將趨勢線從原始光譜中減去(xi-di).一般而言,通過去趨勢處理后,光譜數(shù)據(jù)的波峰和波谷的特征更加明顯[14].
本研究采用偏最小二乘法PLS預測茶葉含水率.PLS是一種有效的光譜建模方法,已被廣泛用于眾多領域[15-20].當變量數(shù)多于樣本數(shù)時,此方法極其有效[21-22].其原理是先求出光譜數(shù)據(jù)中的主因子,即隱含變量(Latent Variable,LV),這些LV中含有大量的有效信息[23].將LV按其累積貢獻率大小進行排列,運用LV的得分值建立預測模型.
為了減少模型的輸入變量、簡化模型,本研究采用回歸系數(shù)法(Regression Coefficients,RC)提取特征波長.特征波長的提取是將原始全部變量簡化為少數(shù)變量的過程,這些新的特征變量能夠包含原始光譜數(shù)據(jù)的有效信息,產(chǎn)生與全波段變量相似或者更優(yōu)的預測結果[24].RC法提取特征波長目前已被用于很多領域[25-26].在RC圖中,絕對值越大的波長點代表這些波長對模型的影響越大,這些波長都處在波峰或者波谷位置[17].
預測模型性能的評價參數(shù)是建模集決定系數(shù)(coefficient of determination in calibration,),交互驗證集決定系數(shù)(coefficient of determination in crossvalidation,),預測集決定系數(shù)(coefficient of determination in prediction),剩余預測偏差(residual predictive deviation,RPD),預測集均方根誤差(root mean square error in calibration,RMSEC),交互驗證集均方根誤差(root mean square error in cross-validation,RMSECV),預測集均方根誤差(root mean square error in prediction,RMSV).RPD的值小于1意味著預測模型很差,介于1.0和1.4之間表明預測模型較差,1.4和1.8之間表明模型一般,1.8和2.0之間說明預測結果好,2.0和2.5之間意味結果很好,大于2.5表明預測結果極好[27-28].一個預測判定好的模型理應需要較高的,,和RPD值,以及較低的RMSEC,RMSECV and RMSEP值,同時,和值相差較小[29].
將波長/nm作為橫坐標,所有光譜反射率值轉(zhuǎn)化為吸收值作為縱坐標,得到光譜曲線如圖1所示.通過圖1可以發(fā)現(xiàn),波段首尾處含有較大的噪聲,因此本試驗截取中間一段波長450~2 400 nm進行研究.組成有機分子的各種官能團都有其特定的紅外吸收峰,因此通過光譜圖的各種峰可以推斷出物質(zhì)的分子結構.在茶葉的光譜曲線圖中,550 nm左右處的波峰是綠色植物中葉綠素的吸收波段,970 nm處的波谷是由葉片水分子中O-H鍵引起的,970 nm,1 450 nm和1 940 nm是水的吸收波段[30-31].
圖1 茶葉樣本光譜圖Fig.1 Spectral absorbance of all tea samples
將177個新鮮茶葉葉片依次編號、稱重,然后依據(jù)國家標準Chinese National Standard GB8304-87烘干至恒重,得到每一個葉片的水分含量.為了使建模集和預測集樣本的分類更合理精確、同時也為了使所見模型穩(wěn)健性更高[1],將所有樣本按照Y變量從小到大的順序依次排列,按照2:1的比例將全部樣本分為建模集和預測集,每一個集合中的最小值、最大值、平均值和標準偏差值見表1.建模集和預測集中沒有任何一個樣本是重復的,這有助于提高模型的穩(wěn)定性[32].同時根據(jù)留一法將建模集樣本進行交互驗證,即建模集樣本同時作為驗證集樣本,如果建模集和交互驗證集的預測結果相差較大,說明模型不可信,反之,模型穩(wěn)健性高[29].
表1 茶葉葉片水分含量統(tǒng)計分析Table 1 Descriptive statistics of moisture content in tea leaves
為了消除噪音、降低基線漂移等因素對所建模型的影響,本試驗采用5種不同預處理方法對原始光譜信息進行處理,并分別將預處理后的數(shù)據(jù)建立PLS預測模型.預處理和原始光譜模型的預測結果如表2所示,每一個PLS模型中建模集和交互驗證集的預測結果相差不大,說明模型可信.所有模型的RPD值均大于2.0,其中前5個模型的RPD值大于2.5,說明所有模型的預測結果都非常好.和原始波段變量模型相比,經(jīng)預處理之后的模型(基于去趨勢模型除外)的預測結果變化不大.然而由于預處理過程本身也增加了數(shù)據(jù)運算時間,降低了效率,因此綜合考慮之后,利用原始數(shù)據(jù)的建模效果最好.
表2 基于不同預處理方法的全譜段數(shù)據(jù)PLS模型預測結果Table 2 Prediction results by PLS models with different preprocessing using whole spectra
為了提高運算效率、簡化模型、為后續(xù)在檢測儀器開發(fā)提供理論依據(jù),本研究通過回歸系統(tǒng)法提取特征波長,并將提取的特征波長作為新的X變量建立預測模型.新得到的特征波長如圖2所示,其中977和1945nm是水吸收的特征波長.被提取的9個特征波長數(shù)僅占原始全波段變量數(shù)的0.42%,較少的輸入變量減少了運算時間,優(yōu)化了模型.
為了研究新的特征變量的預測效果,同時和經(jīng)過不同預處理的全波段變量模型相比,本研究進一步將特征變量進行 Savitzky-Golay Smoothing、Normalization、SNV、MSC和De-trending預處理,然后建立相應的PLS模型,預測結果如表3所示.每一個PLS模型中建模集和交互驗證集的預測結果相差不大,說明模型可信.未經(jīng)預處理建立的模型最優(yōu),建模集和預測集中 R2分別是 0.9070和 0.8199,RMSE分別是0.0107和0.0151,RPD是2.3701.所有模型(除去趨勢模型)的RPD值均大于2.0,說明模型的預測結果都很好.基于去趨勢模型的預測效果一般,這和基于全波段變量中去趨勢模型的預測結果是一致的.和全波段模型相比,基于特征波長的模型預測結果有所下降,基于去趨勢模型預測結果的下降較為明顯.然而,特征波長的選擇使輸入變量大大減少,這不僅提高了運算效率,也為儀器開發(fā)提供理論支持.
圖2 利用回歸系數(shù)法提取的特征波長Fig.2 Effective wavelengths selected by regression coefficient
表3 基于不同預處理方法的特征波段PLS模型預測結果Table 3 Prediction of PLS models with different preprocessing using extracted EWs
本研究利用350~2 500 nm范圍內(nèi)的可見/近紅外光譜技術檢測茶葉中的含水率,獲取了177個新鮮茶葉的含水率和光譜信息,基于不同預處理方法建立相應的預測模型,每一個模型都取得了較高的預測結果.然后基于回歸系數(shù)法提取特征波長,新得到的9個特征波長數(shù)只占全波段變量數(shù)的0.42%,這有利于后續(xù)儀器的開發(fā)研究.在利用特征變量建立的預測模型中,除預處理方法去趨勢效果一般外,其他模型均取得了較好的預測結果.試驗結果表明,利用可見/近紅外光譜技術結合特征波長的提取來檢測茶葉中含水率是可行的,這為茶鮮葉品質(zhì)分析和等級快速評價提供了理論依據(jù).此外,在線、實時測量還需要建立穩(wěn)定的光譜測量模型,后續(xù)應針對不同類型特征的茶葉進行分析,建立覆蓋樣本量更廣的檢測模型.