李曉麗 張東毅 董雨倫 金娟娟 何 勇
(浙江大學 生物系統(tǒng)工程與食品科學學院/農(nóng)村農(nóng)業(yè)部光譜傳感重點實驗室,杭州 310058)
茶是世界三大非酒精飲料之一,具有特殊的風味和保健功能[1]。茶由茶樹的嫩葉制成,茶葉中的茶多酚和咖啡堿是決定茶葉色、香和味的重要成分[2]。茶多酚是一類多羥基化合物,主要由兒茶素組成[3],被證明具有各種有益的藥用特性,如抗氧化能力、抗腫瘤活性、預防心血管疾病和增強免疫力[4]。表沒食子兒茶素沒食子酸酯(EGCG)、表兒茶素沒食子酸酯(ECG)、表沒食子兒茶素(EGC)和表兒茶素(EC)是新鮮茶葉中具有不同生物活性的4種主要兒茶素[5],在加工過程中,這些兒茶素可分別異構化為沒食子兒茶素沒食子酸酯(GCG)、兒茶素沒食子酸酯(CG)、沒食子兒茶素(GC)和兒茶素(C)[6]??Х葔A(CAF)也是茶葉的重要成分[7],它可以對人體產(chǎn)生刺激作用[8]。
研究表明,不同品種茶葉的茶多酚和CAF有較大的差異[9],此外,茶樹在生長過程中不同葉位的茶多酚和CAF也會有所不同[10]。通過研究鮮葉中茶多酚和CAF的含量一方面可以了解茶園中茶樹的生長狀況,進而對茶樹進行更加有效的管理,同時也可以為選擇具有更多生物活性成分的葉片提供指導,保證采摘茶葉的品質(zhì),以此促進我國茶產(chǎn)業(yè)的高質(zhì)量發(fā)展。因此,迫切需要1種能夠快速檢測新鮮茶葉內(nèi)含物含量的方法,為以后茶園智能采摘茶葉和精細化管理提供幫助。
目前,高效液相色譜(HPLC)[11]和毛細管電泳(CE)[12-13]等多種技術常用于測定茶葉中的兒茶素和CAF含量,但這些方法耗時且耗材,不能實現(xiàn)茶葉品質(zhì)的在線實時檢測??梢?近紅外光譜(Vis/NIR)是1種快速、簡單和非破壞性的技術,它已被廣泛應用于許多領域[14]。隨著光學儀器的改進和計算機科學與化學計量學的發(fā)展,Vis/NIR已廣泛應用于茶葉質(zhì)量分析領域[15-18]。Vis/NIR可以反映C-H,N-H,O-H主要化學鍵的吸收特性,因此被廣泛用于有機物質(zhì)組成的定量分析[19]。近年來,由于其特征學習能力,深度學習在分類和回歸分析中具有更好的模型性能。深度學習最初是針對分類問題而開發(fā)的,最近有研究報道將深度學習用于光譜數(shù)據(jù)分析中的回歸問題[20]。此外,深度學習方法不僅可以用作建?;貧w還可以進行特征提取[21]。研究表明,與其他機器學習方法相比,用于回歸的卷積神經(jīng)網(wǎng)絡(CNN)可以獲得相同甚至更好的模型性能。因此,本研究旨在探討不同品種和不同葉片位置的茶鮮葉光譜和內(nèi)含物的差異性,并基于Vis/NIR技術結合CNN算法來構建鮮葉中4種主要兒茶素(EGCG,ECG,EGC,EC)和CAF的定量模型,以期實現(xiàn)不同品種和葉位兒茶素單體和CAF的快速無損檢測。
2019年4月25日在浙江大學華家池校區(qū)(30.3° N,120.2° E)茶園進行樣品采集。茶樹樹齡為5年,采摘3個不同品種茶樹的鮮葉,分別為‘菊花春’(JHC),‘浙農(nóng)25’(ZN25)和‘迎霜’(YS),每個品種分別采摘6個葉位(葉梢第1葉至第6葉),每個葉位隨機收集9個樣品。最終,共獲得了162個新鮮茶葉樣品。
使用XDS近紅外光譜儀(FOSS,Denmark)在400~2 498 nm范圍內(nèi)以2 nm的分辨率進行葉面的Vis/NIR反射光譜采集。樣本的每條光譜值均為光譜儀掃描32次的平均光譜值,每條光譜產(chǎn)生總共1 050個反射率值。吸光度的計算公式如下:
A=log(1/R)
(1)
式中:A為光譜的吸光度;R為光譜的反射率,%。
為了增加信噪比,每個茶葉樣品測量3次,以3個光譜的平均值作為樣品的光譜值,通過“ISIscan v1.50”軟件獲取光譜數(shù)據(jù)。
采集完新鮮茶葉樣本的光譜后,將所有新鮮茶葉在冷凍干燥器(FreeZone6,Labconco Corp,Kansas City,MO,USA)中干燥超過24 h。冷凍干燥后,用研磨機(FW100,Taisite Instrument Co.,Ltd.,Tianjin,China)將樣品研磨成粉末,并通過60目篩子篩分。隨后,用25 mL水萃取0.1 g篩分的茶粉在85 ℃的溫度下保持20 min。然后將上清液通過0.22 μm膜濾器過濾用于HPLC分析。整個操作在室溫(25 ℃)和黑暗環(huán)境下進行,以防止兒茶素的分解。
通過配有紫外可見檢測器(波長范圍:190~600 nm)的日本島津LC-20AD高效液相色譜儀來測定4種主要兒茶素和咖啡堿的含量[22]。流動相為:(A)V(乙酸)∶V(乙腈)∶V(蒸餾水)=0.5∶3∶96.5 和(B)V(乙酸)∶V(乙腈)∶V(蒸餾水)=0.5∶30∶69.5。梯度洗脫程序如下:0~35 min,線性梯度從20%至65%B流動相; 35~45 min,等度65%B流動相。流速為1.0 mL/min,注射體積為10 μL。檢測波長為280 nm,柱溫保持在35 ℃。
1.4.1回歸分析的樣本劃分
將所有茶葉樣品根據(jù)4種兒茶素和CAF的化學含量值以升序排列,每3個樣本分為1組,位于每組中間的樣本被選為預測組,而剩余的2個樣品被選為校準組。因此,校準組的化學值范圍可以覆蓋預測組的范圍,使得模型更穩(wěn)定。本次試驗共有162個樣本,因有1個異常樣本將其剔除,最后161樣本中107個樣本用于校準集以建立檢測模型,而剩余的54個樣本用于預測集以測試模型的穩(wěn)健性。
1.4.2建立回歸模型
偏最小二乘回歸(PLSR)是一種線性回歸方法,它同時將自變量(X)和因變量(Y)投影到一個新的空間,其約束條件是可以盡可能多地解釋X和Y之間的方差。所以它不僅是盡可能多地提取有用信息,還能加強X和Y之間的相關性[23]。通過對光譜進行預處理,比較光譜PLSR模型的預測能力,進而來評估預處理方法的性能。
1.4.3特征波長選擇
Vis/NIR光譜通常由數(shù)千個光譜變量組成,其中包含許多非信息量或共線變量。全譜(Original)建模不僅會增加模型的復雜度和計算時間,還會影響模型的預測能力,從而阻礙了模型在實際生產(chǎn)中的應用。為了解決該問題,需要從Original中選擇特征波長以減小Vis/NIR光譜數(shù)據(jù)的維數(shù)。CARS是一種基于偏最小二乘法(PLS)模型回歸系數(shù)的波長選擇方法,使用蒙特卡洛采樣建立PLS模型,以獲得PLS模型的回歸系數(shù)的絕對值。計算每個波長的絕對回歸系數(shù)的權重,并根據(jù)指數(shù)遞減函數(shù)刪除權重小的波長。選擇與具有最小交叉驗證均方根誤差(RMSECV)的PLS模型相對應的候選子集[24]。競爭自適應加權抽樣(Competitive adaptive reweighted sampling, CARS)是一種很好的變量選擇方法,這些變量在PLS模型中具有絕對值更大的回歸系數(shù),以此來提高模型的預測能力。連續(xù)投影算法(Successive projections algorithm, SPA)是通過比較變量投影來選擇特征波長的方法,它能夠從光譜信息中充分尋找含有最低冗余信息的變量組,以減少變量之間的共線性。該算法可以通過設定目標變量數(shù)范圍,利用某個波長在其它所有波長上的投影向量的大小來挑選引入的待選波長,最后基于校正模型,從所有待選波長集合中選出符合設定數(shù)量范圍的特征波長[25]。最后分別對Original以及SPA和CARS選擇的特征波長進行PLS回歸,如圖1中的①所示。
深度學習在分類任務中取得了很好的效果之后,也開始應用于回歸建模。在這項研究中,采用了基于自定義分類的CNN架構進行回歸[26]。CNN架構是使用幾個基本單元設計的,包括一維(1D)卷積層、最大池化層、relu層和完全連接層。一維卷積和最大池的組合用于從原始輸入中自動進行特征表示,使用完全連接的塊來建立提取的特征和相應標簽之間的關系。訓練任務的目的是使CNN模型的輸出值和所測量的化學值之間的誤差最小化。
在本研究中,通過CNN方法對4種兒茶素和CAF進行檢測的整體框架分別如圖1中的②和③所示。第1種是將CNN用作建模方法,通過訓練CNN模型來對4種主要兒茶素和CAF進行預測。第2種CNN被用作特征提取,Original以及SPA和CARS選擇的波長分別進行CNN特征提取,總共提取了64個特征,然后提取的特征被用作PLS回歸模型的輸入,以探索特征與化學成分之間的關系。CNN架構通過不同堆疊的矩形來表示,紫色的小矩形表示卷積核,圓圈表示完全連接層中的神經(jīng)元,堆疊矩形旁邊標記的數(shù)字描述了卷積核的數(shù)量,圓圈旁邊標記的數(shù)字描述了完全連接層中的神經(jīng)元數(shù)量,L為卷積層展開的全部神經(jīng)元數(shù)量。將卷積內(nèi)核大小設置為3,步長為1,最大池化層大小設置為2,步長為2。
光譜數(shù)據(jù)分析和特征波長選擇基于Matlab R2019b(The MathWorks, Natick, MA,USA)進行。CNN 在Python3和Pytorch框架(Facebook,Menlo Park,California,USA)上執(zhí)行。PLSR是基于Unscrambler軟件實現(xiàn)的(版本10.1,CAMO,Inc,Oslo,Norway)。開發(fā)模型的性能通過決定系數(shù)(R2),均方根誤差(RMSE)和殘余預測偏差(RPD)進行評估,良好性能的模型應該包含較高的R2和RPD值,并有較低的RMSE值[27]。
圖1 光譜檢測4種主要兒茶素和咖啡堿的整體框架Fig.1 The overall framework of spectral detection of the four main catechins and caffeine
茶葉樣品的原始光譜采集如圖2所示,波長范圍為400~2 498 nm,所有茶葉樣品在整個光譜區(qū)域具有相似的趨勢,但吸光度的大小不同。在位于400~800 nm的可見光區(qū)域中存在480 nm和670 nm 2個明顯的吸收峰。表明茶葉樣品主要在可見光譜區(qū)范圍內(nèi)吸收藍紫色(455~492 nm)和紅色(622~770 nm)光,而很少吸收綠色(492~577 nm)光,這是茶葉顯示綠色的原因。在近紅外區(qū)域(800~2 500 nm)有7個吸收帶,1 200 nm處的平坦吸收峰歸因于-CH2的C-H伸縮振動的第二倍頻;1 464 nm處的峰值帶歸因于O-H的振動;1 736 nm范圍內(nèi)的信號與-CH3的C-H振動相關;1 930 nm處的吸收峰來自O-H拉伸和HOH轉(zhuǎn)變的組合振動;2 130 nm處的吸收帶是由N-H彎曲和C=O拉伸的組合振動引起;在2 310 nm和2 350 nm
圖2 茶樣品的可見近紅外光譜采集系統(tǒng)Fig.2 The visible and near infrared spectrum acquisition system of tea samples
處的2個峰分別較弱,分別對應于C-H彎曲和C-H對稱拉伸[28]。這些條帶與多酚和咖啡堿的各種官能團(CH、CH2、CH3、C=O、OH和NH)密切相關[29]。
3個品種茶鮮葉不同葉位對4種主要兒茶素和咖啡堿的含量影響見圖3??梢园l(fā)現(xiàn),‘JHC’和‘ZN25’的EGCG,EGC,ECG和EC在第1葉位的含量高于其他5個葉位,且‘YS’的EGCG,EGC和ECG在第1葉位的含量最高,每個品種茶葉的CAF從第1葉位到第3葉位含量基本一致,第4葉位到第6葉位含量則較低。此外,新鮮茶葉中4種主要兒茶素和咖啡堿的含量隨茶樹品種的變化而不同。在每個品種鮮葉的第1葉位中,兒茶素單體EGCG高于其他3種兒茶素單體含量,具體遵循以下的順序:EGCG>EGC>ECG>EC??傊?,4種兒茶素單體和CAF含量隨茶樹品種和葉位的變化而變化,而且品種和葉位對其含量的影響顯著。
圖3 鮮茶葉的葉位分布及不同葉位對4種主要兒茶素和咖啡堿含量的影響Fig.3 The leaf position distribution of fresh tea leaves and theeffects of different leaf positions on contents of four main catechins and caffeine
PLS方法經(jīng)常被用于各種化學成分的分析中,作為常規(guī)的回歸方法,它的應用十分廣泛。在本研究中,通過Original、SPA和CARS選擇的特征波長作為輸入變量,然后使用PLS對4種主要兒茶素和CAF進行回歸分析建模。通過CARS和SPA選擇光譜變量后,變量數(shù)從1 050個減少到20~75個,大大提高了檢測效率。Original、SPA和CARS挑選的特征波長分別作為輸入變量構建PLS回歸模型的性能比較如表1所示。
表1 PLS回歸模型的性能比較Table 1 Performance comparison of PLS regression model
表2 CNN回歸模型的性能比較Table 2 Performance comparison of CNN regression models
表3 通過CNN提取特征的PLS建模效果Table 3 PLS modeling effect of extracting features through CNN
如表1和表2所示,4種主要兒茶素和CAF含量預測的常規(guī)方法和深度學習方法均具有良好的性能。將CNN用于回歸建模時,使用Original和選定的波長進行CNN建??色@得比PLS模型更好或接近的性能。這說明,深度學習具有巨大的潛力,可以對4種主要兒茶素和CAF的可見近紅外光譜進行回歸分析。此外,通過CNN提取特征也獲得了很好的建模效果(表3),深度學習提取特征具有較大優(yōu)勢,并且基于SPA和CARS方法選擇特征波長后的模型性能優(yōu)于Original,這2種特征選擇波長方法結合深度學習可以提高模型的準確性。深度學習作為建模和特征提取方法可用于回歸問題的分析。
在鮮葉內(nèi)含物統(tǒng)計分析中可以發(fā)現(xiàn),‘JHC’和‘ZN25’的EGCG、EGC、ECG和EC在第1葉位的含量高于其他5個葉位,‘YS’的EGCG、EGC和ECGC在第1葉位的含量最高,每個品種茶葉的CAF從第1葉位到第3葉位含量基本一致,第4葉位到第6葉位含量則較低,這與Lin等[30]和Turkmen等[31]等的研究結果一致,茶樹中的生化物質(zhì)具有向上積累的趨勢并且大部分儲存在嫩葉中,在較老的葉子中很少。王峰等[32]在研究中也發(fā)現(xiàn),不同品種的茶鮮葉6個葉位的兒茶素各個單體含量變化情況大致相同,從第1葉位至第6葉位依次遞減。以上結果表明,茶樹第1葉位葉片可為優(yōu)質(zhì)茶葉提供材料。
本研究使用PLS方法對化學含量進行回歸分析,并通過SPA和CARS方法簡化建立的模型,然后又將CNN用于建模和特征提取,來預測4種主要兒茶素和CAF。結果表明,深度學習方法可以獲得更好的模型效果,展現(xiàn)出巨大的優(yōu)勢。此外,試驗是在沒有任何處理的情況下對新鮮茶葉進行無損快速光譜掃描,實現(xiàn)了兒茶素和CAF的快速和無損測定,為Vis/NIR光譜在茶園精細化管理和嫩葉智能采摘中的應用奠定了基礎。