陳 琦, 潘天紅, 李魚(yú)強(qiáng), 林 鴻
1. 合肥工業(yè)大學(xué)食品與生物工程學(xué)院, 安徽 合肥 230601 2. 安徽大學(xué)電氣工程與自動(dòng)化學(xué)院, 安徽 合肥 230601 3. 黃山海關(guān)茶葉質(zhì)量安全研究中心, 安徽 黃山 245000 4. 江蘇大學(xué)電氣信息工程學(xué)院, 江蘇 鎮(zhèn)江 212013
太平猴魁茶屬于綠茶尖茶, 主要產(chǎn)于安徽省黃山市黃山區(qū)三合村猴坑、 猴崗和嚴(yán)家三個(gè)村落[1]。 太平猴魁茶成品具有“兩葉一芽、 扁平挺直、 魁偉重實(shí)、 色澤蒼綠、 蘭香高爽、 滋味甘醇”等特點(diǎn), 深受廣大消費(fèi)者喜愛(ài)[1-2]。 隨著市場(chǎng)的不斷擴(kuò)大, 茶葉摻假現(xiàn)象的不斷發(fā)生損害了太平猴魁茶的市場(chǎng)形象, 實(shí)現(xiàn)精準(zhǔn)產(chǎn)地鑒別分析對(duì)促進(jìn)太平猴魁茶發(fā)展具有重要意義。
傳統(tǒng)感官分析方法主要通過(guò)外觀、 湯色、 滋味及香氣等感官指標(biāo)實(shí)現(xiàn)產(chǎn)地鑒別分析, 但手工工藝制備的茶葉成品外觀差異較小, 導(dǎo)致基于人工經(jīng)驗(yàn)的感官評(píng)審方法無(wú)法實(shí)現(xiàn)快速、 精準(zhǔn)的產(chǎn)地鑒別分析[3]。 目前主要通過(guò)化學(xué)分析方法實(shí)現(xiàn)茶葉高精度產(chǎn)地鑒別, 然而化學(xué)分析檢測(cè)繁瑣、 成本高, 并且目前沒(méi)有統(tǒng)一的化學(xué)檢測(cè)標(biāo)準(zhǔn)可用于太平猴魁茶產(chǎn)地鑒別分析。
近紅外光譜(near infrared spectroscopy,NIR)作為一種無(wú)損分析方法, 具有快速、 非破壞性、 無(wú)污染等特點(diǎn), 已在茶葉生產(chǎn)過(guò)程得到廣泛應(yīng)用[4-5]。 然而不同產(chǎn)地茶葉內(nèi)含成分種類(lèi)及其含量基本相同, 不同產(chǎn)地樣本光譜特征峰分布基本相同, 導(dǎo)致常規(guī)分析方法無(wú)法有效選擇光譜特征。 卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)作為典型的深度學(xué)習(xí)網(wǎng)絡(luò)模型之一, 具有很強(qiáng)的特征提取和模型表達(dá)能力, 已被廣泛應(yīng)用于NIR特征提取分析[6-9]。
本研究以不同產(chǎn)地光譜特征以及CNN模型, 以太平猴魁茶為研究對(duì)象, 利用1-D CNN模型提取NIR特征, 建立基于1-D CNN和NIR的太平猴魁茶產(chǎn)地鑒別模型, 并采用蒙特卡羅方法進(jìn)行產(chǎn)地鑒別模型穩(wěn)定性分析, 為太平猴魁茶產(chǎn)地鑒別及溯源分析提供新方法。
材料: 選取太平猴魁茶地理保護(hù)范圍黃山市黃山區(qū)的猴坑、 猴崗、 顏家、 三合、 石河坑、 汪王嶺共6個(gè)不同產(chǎn)地樣本, 每個(gè)產(chǎn)地各20個(gè)樣品。 按照采摘時(shí)間從指定地點(diǎn)采集樣品, 委托黃山市猴坑茶業(yè)有限公司按照太平猴魁茶傳統(tǒng)工藝進(jìn)行制備, 樣本信息如表1所示。
表1 樣品信息Table 1 Sample information
試驗(yàn)儀器: IRTracer-100NIR儀(日本島津)、 KN 295 Knifetec樣品磨(瑞典FOSS)、 石英樣品杯(日本島津)。
1.2.1 樣品制備
將茶葉用粉碎機(jī)粉碎50 s, 將粉碎的試樣過(guò)0.154 mm的篩, 密封放于4 ℃冰箱中備用。
1.2.2 儀器條件
光闌: 自動(dòng), 延遲10 s; 增益: 1; 模式: 能量掃描; 零填充: 4倍; 動(dòng)鏡速度: 2.8 mm·s-1; 測(cè)定模式: 吸光度; 掃描波數(shù)范圍: 10 000~4 000 cm-1; 掃描次數(shù): 45次; 光束: 內(nèi)部; 檢測(cè)器: MCT; 光源: 鎢燈光源; 變跡函數(shù): SqrTriangle; 分辨率: 4 cm-1。
1.2.3 光譜采集
取適量樣品于石英樣品杯中, 高度約為5 mm, 保證樣品杯底部樣品均勻無(wú)縫隙、 厚度均勻, 放在漫反射掃描裝置的放樣口處, 蓋好樣品室蓋板, 掃描光譜。
因背景噪聲、 雜散光和人工操作等因素影響, 導(dǎo)致所采集數(shù)據(jù)包含噪聲信號(hào)[10]。 在分析之前對(duì)所采集的原始光譜數(shù)據(jù)進(jìn)行預(yù)處理。 選取標(biāo)準(zhǔn)正態(tài)變換(standard normal variants,SNV)作為預(yù)處理方法[11]。
卷積神經(jīng)網(wǎng)絡(luò)是一種多層非全連接的高性能非線性深度學(xué)習(xí)方法, 其基本結(jié)構(gòu)由卷積層、 池化層和全連接層組成, 在正向傳播過(guò)程中利用卷積層和池化層相互交替學(xué)習(xí)實(shí)現(xiàn)原始數(shù)據(jù)特征提?。?在反向傳播過(guò)程中則利用梯度下降法最小化誤差函數(shù)實(shí)現(xiàn)參數(shù)調(diào)整, 以此完成權(quán)值更新[12]。
對(duì)于圖像等二維形式的數(shù)據(jù), 一般采用大小的卷積核和池化核進(jìn)行特征提取, 但本試驗(yàn)采集的NIR是一維數(shù)據(jù), 因此采用1-D CNN進(jìn)行特征分析, 其一維卷積和池化分析過(guò)程如圖1所示。
圖1 1-D CNN提取特征過(guò)程Fig.1 Feature selection process of 1-D CNN
為確定最佳網(wǎng)絡(luò)結(jié)構(gòu)和系統(tǒng)參數(shù), 選擇預(yù)測(cè)準(zhǔn)確率(correct identification rate, CIR)和運(yùn)行時(shí)間作為模型性能評(píng)估指標(biāo), 其中CIR定義為
式中, N表示全部樣本,NC表示對(duì)應(yīng)分析數(shù)據(jù)集中預(yù)測(cè)準(zhǔn)確樣本數(shù)。
選取黃山區(qū)太平猴魁茶共120個(gè)樣本(表1)進(jìn)行光譜采集, 原始光譜如圖2(a)所示。 經(jīng)SNV預(yù)處理后的光譜圖如圖2(b)所示, 相比于圖2(a), 預(yù)處理光譜特征峰更加明顯。
圖2 太平猴魁茶光譜數(shù)據(jù)(a): 原始光譜; (b): 預(yù)處理光譜Fig.2 Spectra of Taiping Houkui tea(a): Original data; (b): Preprocessed data
太平猴魁茶原始光譜波長(zhǎng)點(diǎn)(12 446)較多, 容易導(dǎo)致網(wǎng)絡(luò)訓(xùn)練時(shí)間過(guò)長(zhǎng)。 為降低模型計(jì)算成本, 需要對(duì)原始數(shù)據(jù)通過(guò)間隔采樣實(shí)現(xiàn)降維處理。 為選擇最佳采樣間隔, 將樣本隨機(jī)劃分為訓(xùn)練集(84, 占70%)和測(cè)試集(36, 占30%), 分析對(duì)比不同采樣間隔數(shù)據(jù)預(yù)測(cè)精度和計(jì)算時(shí)間(表2)。
表2 不同采樣間隔預(yù)測(cè)結(jié)果Table 2 Prediction results with different sampling intervals
分析結(jié)果表明, 基于原始光譜數(shù)據(jù)的1-DCNN模型計(jì)算時(shí)間過(guò)長(zhǎng)且模型預(yù)測(cè)準(zhǔn)確率較低, 當(dāng)采樣間隔為6時(shí),CNN模型測(cè)試集預(yù)測(cè)精度達(dá)到最大(96.67%), 當(dāng)采樣間隔繼續(xù)增大時(shí), 1-DCNN模型計(jì)算時(shí)間減少, 但預(yù)測(cè)性能快速下降, 綜合考慮模型預(yù)測(cè)精度和計(jì)算時(shí)間, 選擇6作為最佳采樣間隔。
為確定最佳網(wǎng)絡(luò)結(jié)構(gòu), 分別計(jì)算2—5層網(wǎng)絡(luò)結(jié)果模型損失函數(shù)(圖3)。 分析結(jié)果表明, 3層網(wǎng)絡(luò)結(jié)構(gòu)模型目標(biāo)函數(shù)可在最短(約85步, 如圖3紅色實(shí)線所示), 迭代步長(zhǎng)內(nèi)實(shí)現(xiàn)收斂, 因此選擇具有3層網(wǎng)絡(luò)的1-D CNN模型。
圖3 不同1-D CNN結(jié)構(gòu)訓(xùn)練集損失函數(shù)Fig.3 Loss function values of training set fordifferent 1-D CNN structure
對(duì)于NIR數(shù)據(jù), 重疊特征峰和獨(dú)立特征峰的存在導(dǎo)致模型結(jié)果對(duì)于卷積核大小及數(shù)目更加敏感, 卷積核過(guò)小導(dǎo)致模型計(jì)算過(guò)程復(fù)雜; 卷積核過(guò)大則容易造成特征丟失。 為確定最佳卷積核大小, 分別討論7—39不同大小卷積核分析結(jié)果(圖4)。
圖4 不同大小卷積核CIR Fig.4 CIR of different convolution kernel sizes
對(duì)于卷積核數(shù)目, 按照2n進(jìn)行設(shè)置, 并分別測(cè)試了卷積核數(shù)目為n=3,4,5,6,7的分析結(jié)果。 考慮到池化操作會(huì)減少卷積特征維度, 以2為梯度遞減相鄰層卷積核數(shù)目, 具體分析結(jié)果如表3所示。
表3 不同數(shù)目卷積核CIRTable 3 CIR of different convolution kernel number
由圖4可知, 當(dāng)卷積核大小為41時(shí), CIR達(dá)到最大值, 由表3可知, 當(dāng)卷積核數(shù)目大于32時(shí), 運(yùn)行時(shí)間顯著增大。 結(jié)合圖4和表3, 確定最佳卷積核大小和數(shù)目分別為41和32。
為防止因數(shù)據(jù)集參數(shù)過(guò)大而引起過(guò)擬合現(xiàn)象, 采用Dropout方法進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化。 對(duì)比網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化前后模型的預(yù)測(cè)結(jié)果發(fā)現(xiàn), 在引入Dropout后模型性能有明顯提升, 其預(yù)測(cè)集準(zhǔn)確率從91.67%提高到100%。
為確定最佳激活函數(shù), 分別對(duì)比含有4種不同激活函數(shù)(ReLU, Sigmoid, PReLU和ELU)網(wǎng)絡(luò)模型預(yù)測(cè)結(jié)果。 其中, Sigmoid激活函數(shù)預(yù)測(cè)準(zhǔn)確率最低(75%), PReLU(95.83%)和ReLU(93.33%)次之, ELU激活函數(shù)預(yù)測(cè)準(zhǔn)確率最高(98.33%)。 因此, 選擇ELU作為1-D CNN模型激活函數(shù)。
根據(jù)圖5模型結(jié)構(gòu)和系統(tǒng)參數(shù)所建1-D CNN模型如圖5所示, 圖中所示結(jié)構(gòu)含有3個(gè)卷積層(C1, C3, C5), 其卷積核大小分別為41, 39和37, 由MSRA初始化卷積核權(quán)重。 3個(gè)池化層(S2, S4, S6)按照設(shè)定步長(zhǎng)和窗口大小降低數(shù)據(jù)維度。 在分析過(guò)程中, 為防止梯度消失, 在每一次卷積后進(jìn)行批處理化(batch normalization,BN)。 通過(guò)Softmax分類(lèi)器實(shí)現(xiàn)對(duì)特定分析對(duì)象的分類(lèi)預(yù)測(cè)。
圖5 1-D CNN模型結(jié)構(gòu)Fig.5 Model structure of 1-D CNN model
根據(jù)圖5模型結(jié)構(gòu)所建1-D CNN模型的預(yù)測(cè)結(jié)果如圖6所示, 圖中橫縱軸數(shù)值表示不同產(chǎn)地屬性, 對(duì)角線變量大小表示正確預(yù)測(cè)數(shù), 可知基于CNN和NIR的太平猴魁茶產(chǎn)地鑒別模型預(yù)測(cè)準(zhǔn)確率為100%。
圖6 1-D CNN模型預(yù)測(cè)結(jié)果Fig.6 Prediction results of 1-D CNN model
為驗(yàn)證1-D CNN模型篩選NIR特征變量的有效性, 分別選取不同產(chǎn)地樣本, 對(duì)比原始數(shù)據(jù)和不同卷積層篩選數(shù)據(jù)的分布情況[見(jiàn)圖7(a)—(d)]。 由圖7(a)可知, 原始光譜數(shù)據(jù)主要分布在8 700~5 600和5 300~4 000 cm-1兩個(gè)區(qū)間, 經(jīng)第一層卷積網(wǎng)絡(luò)獲得特征峰主要分布在7 800~6 700, 6 400~5 200和5 200~4 200 cm-1, 第二層篩選的特征峰主要分布在10 000~7 100, 6 300~5 400和5 400~4 200 cm-1, 第三層篩選特征峰主要分布在10 000~7 300, 6 300~5 800和5 500~4 400 cm-1。 結(jié)合太平猴魁茶主要品質(zhì)成分官能團(tuán)的分布, 可以發(fā)現(xiàn)1-D CNN能夠有效提取太平猴魁茶內(nèi)含成分粗纖維(7 502~5 446 cm-1)、 茶多酚(6 101~4 246 cm-1)、 咖啡堿(7 502~5 446和4 424~4 246 cm-1)和游離氨基酸(7 502~5 800和5 450~4 246 cm-1)的NIR特征[13]。 對(duì)比分析圖7(a)和(d)可知, 1-D CNN模型在有效選擇光譜特征的同時(shí)能夠?qū)崿F(xiàn)不同產(chǎn)地特征變量差異化表示, 有助于提高太平猴魁茶產(chǎn)地鑒別模型分析能力。
圖7 光譜特征分布(a): 原始光譜; (b): 第一卷積層; (c): 第二卷積層; (d): 第三卷積層Fig.7 Spectral feature distribution(a): Original spectrum; (b): First convolutional layer; (c): Second convolutional layer; (d): Third convolutional layer
為驗(yàn)證1-D CNN模型有效性, 采用相同的訓(xùn)練集和測(cè)試集樣本, 對(duì)主成分分析(principal component analysis,PCA)和1-D CNN模型分別進(jìn)行100次蒙特卡羅試驗(yàn), 不同方法所建模型的訓(xùn)練集和測(cè)試集分析結(jié)果如表5所示。 分析結(jié)果表明, 相比于原始數(shù)據(jù)(41.29%, 40.57%), 基于PCA特征篩選的產(chǎn)地鑒別模型準(zhǔn)確率有所下降(30.96%, 31.93%), 其主要原因是不同產(chǎn)地光譜變量分布相似, PCA無(wú)法有效選擇特征光譜; 1-D CNN模型能夠顯著提高太平猴魁茶產(chǎn)地鑒別精度(98.48%~97.73%), 可實(shí)現(xiàn)太平猴魁茶高精度產(chǎn)地鑒別分析。 此外, 測(cè)試結(jié)果標(biāo)準(zhǔn)差表明基于1-D CNN的產(chǎn)地鑒別模型穩(wěn)定性更高。
表5 蒙特卡羅試驗(yàn)結(jié)果對(duì)比Table 5 Comparison of Monte Carlo experimental results
基于太平猴魁茶不同產(chǎn)地NIR信息, 結(jié)合CNN特征表示方法, 提出基于1-D CNN的太平猴魁茶產(chǎn)地鑒別模型。 試驗(yàn)結(jié)果表明CNN能夠有效篩選不同產(chǎn)地樣本NIR特征, 實(shí)現(xiàn)太平猴魁茶高精度產(chǎn)地鑒別分析(100%); 100次蒙特卡羅試驗(yàn)表明, 相比于原始數(shù)據(jù)(40.57%, 7.06)和PCA模型(31.93%, 6/96), 基于1-D CNN的產(chǎn)地鑒別模型具有更高的預(yù)測(cè)精度(97.73%)和更小的標(biāo)準(zhǔn)差(3.47), 該方法為太平猴魁茶等名貴茶葉產(chǎn)地鑒別及溯源分析提供新思路。