寧井銘,李姝寰,王玉潔,張正竹,宋 彥,徐 乾,陸國(guó)富
(1.安徽農(nóng)業(yè)大學(xué) 茶樹(shù)生物學(xué)與資源利用國(guó)家重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230036;2.祥源茶業(yè)有限公司,安徽 祁門(mén) 245600)
工夫紅茶是中國(guó)傳統(tǒng)出口茶類(lèi)之一[1]。拼配是工夫紅茶生產(chǎn)和經(jīng)營(yíng)中重要的工序,是保持產(chǎn)品質(zhì)量穩(wěn)定的重要手段。茶葉拼配是根據(jù)成品茶的質(zhì)量標(biāo)準(zhǔn)(一般以實(shí)物樣為標(biāo)準(zhǔn)),將多種不同的篩號(hào)茶(原料),按一定的比例混合,組成某一確定花色等級(jí)的成品茶[2-4]。對(duì)于同一款產(chǎn)品,如采用高等級(jí)原料拼配而成,企業(yè)的經(jīng)濟(jì)利益就會(huì)受到損失;如用低等級(jí)原料拼配,又會(huì)達(dá)不到產(chǎn)品質(zhì)量要求,因而拼配對(duì)于茶葉企業(yè)而言至關(guān)重要。準(zhǔn)確掌握拼配質(zhì)量是調(diào)劑茶葉品質(zhì),穩(wěn)定產(chǎn)品質(zhì)量,充分發(fā)揮茶葉經(jīng)濟(jì)價(jià)值,提高經(jīng)濟(jì)效益的關(guān)鍵環(huán)節(jié)。目前,茶葉拼配通常采用的方法是由拼配人員先對(duì)各茶葉樣品進(jìn)行外觀和內(nèi)質(zhì)審評(píng),再根據(jù)經(jīng)驗(yàn)和審評(píng)結(jié)果,試拼小樣,然后進(jìn)行適當(dāng)調(diào)整,最終確定拼配方案[5],因而不同批次拼配結(jié)果具有偶然性,無(wú)法進(jìn)行量化、標(biāo)準(zhǔn)化生產(chǎn)。另外,拼配專(zhuān)家的培養(yǎng)過(guò)程較為漫長(zhǎng),不利于拼配技術(shù)的推廣。
高光譜圖像技術(shù)融合了光譜信息和圖像信息,既能利用光譜信息分析樣品的內(nèi)部品質(zhì)信息,也能基于圖像信息表征樣品的外部品質(zhì)特征[6-8]。近年來(lái),高光譜圖像技術(shù)在農(nóng)業(yè)生產(chǎn)得到了廣泛應(yīng)用[9-13]。高光譜圖像技術(shù)在茶葉上的研究主要集中在茶類(lèi)識(shí)別、等級(jí)劃分、茶園管理以及茶葉品質(zhì)檢測(cè)等方面。蔡健榮等[14]結(jié)合紋理特征值和支持向量機(jī)的模式識(shí)別方法進(jìn)行了碧螺春茶葉的真?zhèn)舞b別;艾施榮等[15]也通過(guò)紋理特征值結(jié)合BP神經(jīng)網(wǎng)路方法對(duì)不同產(chǎn)地的廬山云霧進(jìn)行了鑒別。于英杰等[16]結(jié)合20 個(gè)光譜特征參數(shù)和支持向量機(jī)分類(lèi)模型對(duì)不同等級(jí)的鐵觀音茶葉進(jìn)行等級(jí)分類(lèi)識(shí)別;茶園管理主要體現(xiàn)在葉綠素含量及分布在線(xiàn)無(wú)損檢測(cè)以及茶樹(shù)缺素診斷[17]和病蟲(chóng)害檢測(cè)[18]等方面。熊俊飛[19]利用高光譜圖像技術(shù)結(jié)合表面增強(qiáng)拉曼技術(shù)快速檢測(cè)茶葉中的農(nóng)藥殘留。李浬[20]結(jié)合紋理特征值快速檢測(cè)出龍井茶的含水率,并建立了含水率預(yù)測(cè)模型。高光譜圖像技術(shù)應(yīng)用到預(yù)測(cè)茶葉拼配配比的研究,鮮見(jiàn)相關(guān)報(bào)道。對(duì)茶葉拼配質(zhì)量的定量化、智能化評(píng)估,實(shí)現(xiàn)拼配過(guò)程的自動(dòng)化,是未來(lái)拼配技術(shù)的發(fā)展趨勢(shì)。
由于生產(chǎn)中茶葉拼配涉及的原料太多,比較復(fù)雜,因此,本研究采用4 種原料進(jìn)行拼配,依次逐步判別。以不同等級(jí)不同嘜號(hào)的祁門(mén)紅毛茶為原料[21],按照一定比例進(jìn)行拼配,采集拼配樣本的高光譜圖像,利用連續(xù)投影算法篩選特征光譜變量,并基于灰度共生矩陣提取圖像的紋理值,融合光譜和紋理特征值建立茶葉拼配比例的定量預(yù)測(cè)模型,構(gòu)建拼配比例求解與優(yōu)化算法。本研究將為茶葉拼配工藝提供一種品質(zhì)定量評(píng)估的新方法,研究結(jié)果有利于提高拼配工藝的自動(dòng)化、智能化水平,推進(jìn)茶葉生產(chǎn)標(biāo)準(zhǔn)化。
實(shí)驗(yàn)材料來(lái)自祥源茶葉股份有限公司,原料A:祁門(mén)工夫紅毛茶5 級(jí)6 孔正子口;原料B:祁門(mén)工夫紅毛茶6 級(jí)8 孔正子口;原料C:祁門(mén)工夫紅毛茶6 級(jí)6 孔正子口;原料D:祁門(mén)工夫紅毛茶5 級(jí)8 孔正子口。
高光譜圖像系統(tǒng)(HSI-NIR-XEVA,五鈴光學(xué)股份有限公司),系統(tǒng)主要由高光譜圖像攝像儀(Imspector V17E, Spectral Imaging Ltd., Oulu, Finland)、2 個(gè)150 W的光纖鹵素?zé)簦?900型,Illumination Technologies Inc., New York, USA)、移動(dòng)平臺(tái)、暗箱以及包括圖像采集和分析軟件(Spectral Image Software, Isuzu Optics Corp., Taiwan, China)的電腦等組成。
1.3.1 樣本處理
由于在生產(chǎn)中用于拼配的原料太多、太復(fù)雜,本研究采用逐步判別的方法,首先采用2 種原料進(jìn)行拼配、判別,再采用4 種原料進(jìn)行拼配、判別,依次類(lèi)推。實(shí)驗(yàn)采用原料A和B按照比例0%~100%,以10%的變化為梯度且每個(gè)梯度拼配10 個(gè)樣本,共拼出110 個(gè)樣本,原料C和D按照同樣的比例拼出110 個(gè)樣本。分別從2 次拼出的茶樣中任挑一個(gè)比例的拼配樣本,本實(shí)驗(yàn)挑取的是由原料A與原料B以5∶5的配比拼出的茶樣P1,以及由原料C與原料D以5∶5配比拼出的茶樣P2。然后由P1和P2再次按照比例0%~100%,以10%的變化為梯度拼出110 個(gè)樣本。利用高光譜圖像系統(tǒng)采集茶樣的高光譜信息。全部樣品按照2∶1的比例將樣品隨機(jī)分成校正集(73 個(gè))和預(yù)測(cè)集(37 個(gè)),利用校正集的樣品建立判別模型,預(yù)測(cè)集的樣品測(cè)試模型的性能。
1.3.2 高光譜圖像采集和處理
為防止信息的過(guò)度飽和成像失真,需對(duì)高光譜成像系統(tǒng)的參數(shù)進(jìn)行設(shè)置。經(jīng)過(guò)反復(fù)調(diào)節(jié),最終曝光時(shí)間設(shè)置為2 ms,物鏡的高度設(shè)為26 cm。拼配樣品(10±0.5)g均勻平鋪在規(guī)格為7.5 cm×1 cm的培養(yǎng)皿中,置于移動(dòng)平臺(tái)上以7.2 mm/s的速率采集高光譜圖像。系統(tǒng)的光譜分辨率5 nm,光譜范圍為908~1 735 nm,共508 個(gè)波段。樣本在圖像采集的過(guò)程中,由于受高光譜成像儀硬件的影響,獲取的樣本數(shù)據(jù)在采集開(kāi)始和結(jié)束時(shí)受噪聲的影響較大,因此在后續(xù)的數(shù)據(jù)處理過(guò)程中,選取957~1 670 nm波段范圍內(nèi),共438 個(gè)波段的高光譜圖像進(jìn)行分析。
在高光譜成像系統(tǒng)中,光源強(qiáng)度分布不均勻。因此在對(duì)高光譜圖像處理前,先要按照式(1)對(duì)圖像進(jìn)行黑白校正。
式中:Rc為校正后的圖像;R為原始的圖像;B為黑板校正的圖像;W為白板校正的圖像。
1.4.1 主成分分析法
高光譜數(shù)據(jù)量龐大,因此,要對(duì)高光譜數(shù)據(jù)進(jìn)行降維,去除冗余信息,優(yōu)選特征波長(zhǎng)。主成分分析[22](principal component analysis,PCA)法主要是通過(guò)協(xié)方差最大的方向?qū)⒏呔S數(shù)據(jù)空間向低維數(shù)據(jù)空間投影,將原始數(shù)據(jù)轉(zhuǎn)化到新的坐標(biāo)系統(tǒng)中[23],得到幾個(gè)彼此相互獨(dú)立的綜合變量,且都是原始數(shù)據(jù)的線(xiàn)性組合,本研究根據(jù)方差貢獻(xiàn)率提取主成分圖像,并通過(guò)比較主成分圖像下各波長(zhǎng)的權(quán)重系數(shù)的絕對(duì)值大小優(yōu)選特征波長(zhǎng)。
1.4.2 光譜特征值的選取
連續(xù)投影算法(successive projections algorithm,SPA)[24]利用向量的投影分析,在光譜信息中充分尋找含有最低限度的冗余信息的變量組,將變量間共線(xiàn)性的影響降到最低,從而減少信息的重疊,同時(shí)篩選出的幾個(gè)變量就能代表原始數(shù)據(jù)的大部分信息,提高了建模的速度和效率。
1.4.3 紋理特征提取
基于灰度共生矩陣提取特征波長(zhǎng)圖像下的紋理值?;叶裙采仃嘯25]是關(guān)于圖像亮度變化的二階特征統(tǒng)計(jì)[26],是計(jì)算特定像素間距離和角度的函數(shù)。本實(shí)驗(yàn)中,距離設(shè)置為1,對(duì)0°、45°、90°和135°四個(gè)角度的對(duì)比度、相關(guān)性、能量和同質(zhì)性提取紋理變量。其中對(duì)比度反映目標(biāo)圖像的紋理溝槽的深淺程度以及清晰度;相關(guān)性是對(duì)目標(biāo)圖像灰度矩陣所有元素在圖像的行、列方向相似度的體現(xiàn);能量反映了目標(biāo)圖像在灰度方面的紋理粗細(xì)與均勻度;同質(zhì)性則體現(xiàn)目標(biāo)圖像的局部平滑[27]。
1.4.4 建模方法的篩選
偏最小二乘(partial least squares,PLS)法[28]結(jié)合了PCA和多元線(xiàn)性回歸的化學(xué)計(jì)量學(xué)方法,通過(guò)優(yōu)選因子數(shù)達(dá)到最佳的模型效果。最小二乘支持向量機(jī)(least squares-support vector machine,LS-SVM)是Suykens等[29]為減少計(jì)算復(fù)雜程度、降低訓(xùn)練時(shí)間以及提高泛化能力提出的一種在經(jīng)典SVM上改進(jìn)后的新型統(tǒng)計(jì)學(xué)習(xí)方法。其優(yōu)勢(shì)是在于采用了等式約束,使用求解線(xiàn)性方程組的方法得出最優(yōu)化結(jié)果,占用內(nèi)存小,求解速度高。采用徑向基核函數(shù)(radial basis function,RBF)兩個(gè)重要參數(shù)為回歸誤差權(quán)重γ和RBF核函數(shù)的核參數(shù)δ2。這兩個(gè)參數(shù)字在很大程度上決定了算法的學(xué)習(xí)和泛化能力,采用二次網(wǎng)絡(luò)搜索和留一交叉驗(yàn)證的方法對(duì)γ和δ2進(jìn)行了全局尋優(yōu)。初始值分別設(shè)置為100和0.1。反向傳播人工神經(jīng)網(wǎng)絡(luò)(back propagation-artificial neural networks,BPANN)是一種反向傳遞并修正誤差的多層映射神經(jīng)網(wǎng)絡(luò),具有很強(qiáng)的非線(xiàn)性建模能力,適合解決復(fù)雜的映射問(wèn)題。
1.4.5 數(shù)據(jù)分析軟件
ENVI 4.7(ITT Visual Information Solutions, Boulder, USA),Matlab 2014a(The Mathworks Inc., Massachusetts, USA)。
本實(shí)驗(yàn)采集908~1 735 nm波長(zhǎng)范圍的近紅外光譜數(shù)據(jù),選擇圖像中間100×100像素范圍為感興趣區(qū)域(region of interest,ROI),提取ROI所有像素的光譜值,并計(jì)算出其平均值,作為這個(gè)樣本的光譜值[30]。化學(xué)含量以及物理特征的不同,樣本對(duì)特定的波長(zhǎng)有著不同的反射率,通過(guò)分析光譜信號(hào)的差異實(shí)現(xiàn)樣本品質(zhì)信息的定性或者定量檢測(cè)。原料C和原料D光譜值差異比較明顯,從圖1可以看出,3 條光譜曲線(xiàn)的趨勢(shì)相似,在1 112 nm和1 307 nm波長(zhǎng)處出現(xiàn)明顯的特征峰,且峰的高低有明顯差異。
圖1 茶樣C、D與拼配茶樣的平均光譜圖Fig. 1 Average reflectance spectra of samples C and D and their blend
2.1.1 光譜預(yù)處理方法篩選
為減少實(shí)驗(yàn)中外界環(huán)境的噪聲對(duì)信息帶來(lái)的影響,本實(shí)驗(yàn)比較了一階導(dǎo)數(shù)、平滑、極小/極大歸一化和標(biāo)準(zhǔn)正態(tài)變量變換4 種光譜預(yù)處理方法對(duì)原始光譜進(jìn)行處理,4 種方法預(yù)處理后的光譜圖見(jiàn)圖2,并且采用PLS分別建立定量模型,分析光譜預(yù)處理方法對(duì)建模結(jié)果的影響,結(jié)果如表1所示。
圖2 一階導(dǎo)數(shù)(a)、平滑(b)、歸一化(c)和標(biāo)準(zhǔn)正態(tài) 變量變換(d)預(yù)處理后的光譜圖Fig. 2 Preprocessed spectra with first derivative (a), smoothing (b),maximum-minimum normalization (c) and standard normal variate (d)
表1 不同預(yù)處理方法拼配樣PLS模型的結(jié)果比較Table 1 Comparison of the results of PLS with different preprocessing methods for calibration and prediction sets
表1通過(guò)對(duì)比校正集相關(guān)系數(shù)(Rc)和預(yù)測(cè)集相關(guān)系數(shù)(Rv)確定各預(yù)處理方法的效果。其中原料A與原料B的拼配樣,由于進(jìn)行光譜預(yù)處理后建立模型的效果并沒(méi)有明顯優(yōu)于原始數(shù)據(jù),從建立模型簡(jiǎn)單易行的角度考慮,認(rèn)為原始光譜數(shù)據(jù)最優(yōu),所以后面的數(shù)據(jù)處理全部是基于原始光譜數(shù)據(jù)。原料C與原料D的拼配樣,通過(guò)比較校正集與預(yù)測(cè)集的相關(guān)系數(shù),平滑為最佳預(yù)處理方法。P1與P2的拼配樣,歸一化為最佳預(yù)處理方法。
2.1.2 光譜特征值的選取
全光譜的波段較多,數(shù)據(jù)量大,且數(shù)據(jù)間冗余性強(qiáng),本實(shí)驗(yàn)通過(guò)SPA提取特征光譜值。圖3表示的是原料A和原料B拼配樣本通過(guò)SPA優(yōu)選特征光譜變量的過(guò)程,當(dāng)輸入模型的變量個(gè)數(shù)為10時(shí),RMSE最小,為0.048,所以最終優(yōu)選出10 個(gè)特征波長(zhǎng);這10 個(gè)特征波長(zhǎng)的位置依次為966、1 019、1 113、1 267、1 338、1 386、1 627、1 647、1 660、1 670 nm。
圖3 SPA篩選特征光譜變量過(guò)程圖Fig. 3 Selection of characteristic spectral variables by SPA
2.1.3 PCA結(jié)果
圖4 拼配茶樣的權(quán)重系數(shù)圖Fig. 4 Weighted coefficient plots for tea blends
依次對(duì)3 次拼出的茶樣高光譜圖像進(jìn)行PCA,得到前3 個(gè)主成分圖像,其中A與B、C與D、P1與P2拼配樣的PC1的方差貢獻(xiàn)率分別為98.85%、98.51%和97.20%,PC2的方差貢獻(xiàn)率分別為0.79%、1.20%和2.08%,前2 個(gè)主成分的累計(jì)方差貢獻(xiàn)率均達(dá)到了99%以上,幾乎可以代表全部信息,因此,可以利用前2 個(gè)主成分來(lái)進(jìn)行特征波長(zhǎng)的提取。如圖4所示,根據(jù)前2 個(gè)主成分圖像下各波長(zhǎng)的權(quán)重系數(shù)的絕對(duì)值的大小優(yōu)選5 個(gè)特征波長(zhǎng)。
如圖4所示,A與B拼配樣的特征波長(zhǎng)為1 107、1 187、1 307、1 435、1 655 nm;C與D拼配樣的特征波長(zhǎng)為1 112、1 193、1 307、1 438、1 655 nm;P1與P2拼配樣的特征波長(zhǎng)為1 121、1 195、1 309、1 475、1 662 nm。
基于灰度共生矩陣的方法來(lái)計(jì)算茶樣圖像的紋理,提取5 個(gè)特征波長(zhǎng)下的紋理特征為特征變量。即對(duì)A和B在1 107、1 187、1 307、1 435、1 655 nm波長(zhǎng)處的灰度圖像分別提取0°、45°、90°、135°的對(duì)比度、同質(zhì)性、能量和相關(guān)性。對(duì)C和D在1 112、1 193、1 307、1 438、1 655 nm波長(zhǎng)處的灰度圖像分別提取4 個(gè)角度的對(duì)比度、同質(zhì)性、能量和相關(guān)性。在茶樣表面溝紋越深、灰度差越大,則對(duì)比度越大,反之越小;若茶樣灰度分布均勻、紋理較粗糙,則能量值越大,反之越小;同質(zhì)性體現(xiàn)目標(biāo)圖像的局部平滑;茶樣的灰度共生矩陣值均勻相等時(shí),相關(guān)性較大,反之較小。如表2所示,相比而言,原料A溝紋較深、灰度差大,紋理較平滑,條索較緊細(xì);原料B溝紋較淺、灰度分布較均勻,紋理較粗糙,條索較松散;原料C溝紋深度次于原料A,灰度差大,紋理平滑,條索緊細(xì);原料D溝紋稍深于B,灰度分布較均勻,紋理粗糙程度稍高于B,條索較松散。
表2 基于灰度共生矩陣的紋理特征均值Table 2 Mean textual features based on gray level co-occurrence matrix
光譜特征能表征拼配茶葉的內(nèi)部品質(zhì),紋理特征能表現(xiàn)拼配茶葉外形特點(diǎn)。為更好地表示拼配茶葉隨著拼配比例的不同茶葉整體品質(zhì)發(fā)生的變化,本研究將優(yōu)選的光譜特征值與紋理特征值在特征層[31]進(jìn)行融合。分別將光譜特征值、紋理特征值以及光譜和紋理特征值融合得到的數(shù)據(jù)作為PLS、LS-SVM和BP-ANN模型的輸入值,建立拼配茶樣配比定量預(yù)測(cè)模型,結(jié)果如表3所示。以光譜特征值和紋理特征值融合數(shù)據(jù)作為L(zhǎng)S-SVM模型的輸入值時(shí)預(yù)測(cè)結(jié)果最好,原料A與原料B拼配樣預(yù)測(cè)集判別率為91.89%,原料C和原料D拼配樣預(yù)測(cè)集判別率為86.13%,茶樣P1和茶樣P2拼配樣預(yù)測(cè)集判別率為94.5%,其中通過(guò)預(yù)測(cè)茶樣P1、P2配比,即可分別得到原料A、B、C、D的配比,可以間接解決4 個(gè)原料茶樣拼配預(yù)測(cè)配比的問(wèn)題。結(jié)果表明本研究能實(shí)現(xiàn)對(duì)拼配茶樣配比的量化判別。
表3 拼配茶樣配比預(yù)測(cè)結(jié)果Table 3 Comparative evaluation of three prediction models based on different input values
為驗(yàn)證模型的穩(wěn)定性,重新拼出30 個(gè)樣本進(jìn)行模型的外部驗(yàn)證。其中P3茶樣是原料A與原料B配比為3∶7的拼配樣,P4茶樣是原料C與原料D配比為6∶4的拼配樣。通過(guò)PLS篩選出90 個(gè)變量,導(dǎo)出預(yù)測(cè)集模型和系數(shù),然后代入計(jì)算預(yù)測(cè)出樣本的配比。由表4建模結(jié)果可知,總判別率達(dá)到86.7%,發(fā)生誤判的樣本分別為第7、26、29、30個(gè)茶樣。此結(jié)果達(dá)到了具有統(tǒng)計(jì)學(xué)意義的判別率不低于85%的要求。
表4 驗(yàn)證模型判別結(jié)果Table 4 Validation of the LS-SVM prediction model
表5 拼配茶樣審評(píng)結(jié)果Table 5 The result of tea tasting of tea blends
本實(shí)驗(yàn)對(duì)以上30 個(gè)拼配樣本審評(píng),并將原料茶樣A、B、C和D作為標(biāo)準(zhǔn)樣。由于光譜信息是對(duì)內(nèi)質(zhì)的反映,所以更偏重于對(duì)滋味的評(píng)審,并依據(jù)GB/T 13738.2—2017《紅茶 第2部分:工夫紅茶》感官品質(zhì)要求進(jìn)行評(píng)分,結(jié)果如表5所示,從審評(píng)結(jié)果可以看出,編號(hào)分別為7、26、29、30的樣本所得分?jǐn)?shù)與組內(nèi)其他樣本分?jǐn)?shù)相差相對(duì)較大,與模型驗(yàn)證的結(jié)果一致。
本研究利用高光譜圖像技術(shù)獲取經(jīng)4 種茶原料按照一定比例拼配出的茶樣的光譜圖像,通過(guò)PCA法提取出5 個(gè)特征波長(zhǎng),然后進(jìn)行光譜數(shù)據(jù)與圖像紋理數(shù)據(jù)的提取,本實(shí)驗(yàn)嘗試基于光譜信息和圖像信息融合技術(shù)結(jié)合模式識(shí)別,預(yù)測(cè)拼配茶葉的配比。結(jié)果顯示,融合光譜和紋理特征值結(jié)合LS-SVM模型算法,建立拼配茶葉配比預(yù)測(cè)模型,判別率最高,達(dá)到94.5%,預(yù)測(cè)結(jié)果較好。用模型以外的隨機(jī)30 個(gè)樣本進(jìn)行對(duì)模型進(jìn)行驗(yàn)證,結(jié)果其中有4 個(gè)樣本發(fā)生誤判,總判別率為86.7%,因采用的原料在品質(zhì)上接近,對(duì)結(jié)果有一定的影響。
目前,拼配茶葉的配比通過(guò)高光譜圖像技術(shù)結(jié)合數(shù)學(xué)模型可以相對(duì)準(zhǔn)確地預(yù)測(cè)出,但是,實(shí)際生產(chǎn)中,茶葉拼配原料需要很多種,比較復(fù)雜,需要大量的數(shù)據(jù)對(duì)模型進(jìn)行進(jìn)一步的訓(xùn)練和優(yōu)化,從而求解標(biāo)準(zhǔn)茶樣中各原料的比例。