基于卷積神經(jīng)網(wǎng)絡(luò)和近紅外光譜的太平猴魁茶產(chǎn)地鑒別分析

2021-09-14 09:39潘天紅李魚(yú)強(qiáng)

光譜學(xué)與光譜分析 2021年9期

陳琦，潘天紅，李魚(yú)強(qiáng)，林鴻

1. 合肥工業(yè)大學(xué)食品與生物工程學(xué)院，安徽合肥 230601 2. 安徽大學(xué)電氣工程與自動(dòng)化學(xué)院，安徽合肥 230601 3. 黃山海關(guān)茶葉質(zhì)量安全研究中心，安徽黃山 245000 4. 江蘇大學(xué)電氣信息工程學(xué)院，江蘇鎮(zhèn)江 212013

引言

太平猴魁茶屬于綠茶尖茶，主要產(chǎn)于安徽省黃山市黃山區(qū)三合村猴坑、猴崗和嚴(yán)家三個(gè)村落[1]。太平猴魁茶成品具有“兩葉一芽、扁平挺直、魁偉重實(shí)、色澤蒼綠、蘭香高爽、滋味甘醇”等特點(diǎn)，深受廣大消費(fèi)者喜愛(ài)[1-2]。隨著市場(chǎng)的不斷擴(kuò)大，茶葉摻假現(xiàn)象的不斷發(fā)生損害了太平猴魁茶的市場(chǎng)形象，實(shí)現(xiàn)精準(zhǔn)產(chǎn)地鑒別分析對(duì)促進(jìn)太平猴魁茶發(fā)展具有重要意義。

傳統(tǒng)感官分析方法主要通過(guò)外觀、湯色、滋味及香氣等感官指標(biāo)實(shí)現(xiàn)產(chǎn)地鑒別分析，但手工工藝制備的茶葉成品外觀差異較小，導(dǎo)致基于人工經(jīng)驗(yàn)的感官評(píng)審方法無(wú)法實(shí)現(xiàn)快速、精準(zhǔn)的產(chǎn)地鑒別分析[3]。目前主要通過(guò)化學(xué)分析方法實(shí)現(xiàn)茶葉高精度產(chǎn)地鑒別，然而化學(xué)分析檢測(cè)繁瑣、成本高，并且目前沒(méi)有統(tǒng)一的化學(xué)檢測(cè)標(biāo)準(zhǔn)可用于太平猴魁茶產(chǎn)地鑒別分析。

近紅外光譜(near infrared spectroscopy,NIR)作為一種無(wú)損分析方法，具有快速、非破壞性、無(wú)污染等特點(diǎn)，已在茶葉生產(chǎn)過(guò)程得到廣泛應(yīng)用[4-5]。然而不同產(chǎn)地茶葉內(nèi)含成分種類(lèi)及其含量基本相同，不同產(chǎn)地樣本光譜特征峰分布基本相同，導(dǎo)致常規(guī)分析方法無(wú)法有效選擇光譜特征。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)作為典型的深度學(xué)習(xí)網(wǎng)絡(luò)模型之一，具有很強(qiáng)的特征提取和模型表達(dá)能力，已被廣泛應(yīng)用于NIR特征提取分析[6-9]。

本研究以不同產(chǎn)地光譜特征以及CNN模型，以太平猴魁茶為研究對(duì)象，利用1-D CNN模型提取NIR特征，建立基于1-D CNN和NIR的太平猴魁茶產(chǎn)地鑒別模型，并采用蒙特卡羅方法進(jìn)行產(chǎn)地鑒別模型穩(wěn)定性分析，為太平猴魁茶產(chǎn)地鑒別及溯源分析提供新方法。

1 實(shí)驗(yàn)部分

1.1 材料與儀器

材料：選取太平猴魁茶地理保護(hù)范圍黃山市黃山區(qū)的猴坑、猴崗、顏家、三合、石河坑、汪王嶺共6個(gè)不同產(chǎn)地樣本，每個(gè)產(chǎn)地各20個(gè)樣品。按照采摘時(shí)間從指定地點(diǎn)采集樣品，委托黃山市猴坑茶業(yè)有限公司按照太平猴魁茶傳統(tǒng)工藝進(jìn)行制備，樣本信息如表1所示。

表1 樣品信息Table 1 Sample information

試驗(yàn)儀器： IRTracer-100NIR儀(日本島津)、 KN 295 Knifetec樣品磨(瑞典FOSS)、石英樣品杯(日本島津)。

1.2 方法

1.2.1 樣品制備

將茶葉用粉碎機(jī)粉碎50 s，將粉碎的試樣過(guò)0.154 mm的篩，密封放于4 ℃冰箱中備用。

1.2.2 儀器條件

光闌：自動(dòng)，延遲10 s；增益： 1；模式：能量掃描；零填充： 4倍；動(dòng)鏡速度： 2.8 mm·s-1；測(cè)定模式：吸光度；掃描波數(shù)范圍： 10 000～4 000 cm-1；掃描次數(shù)： 45次；光束：內(nèi)部；檢測(cè)器： MCT；光源：鎢燈光源；變跡函數(shù)： SqrTriangle；分辨率： 4 cm-1。

1.2.3 光譜采集

取適量樣品于石英樣品杯中，高度約為5 mm，保證樣品杯底部樣品均勻無(wú)縫隙、厚度均勻，放在漫反射掃描裝置的放樣口處，蓋好樣品室蓋板，掃描光譜。

1.3 光譜數(shù)據(jù)預(yù)處理

因背景噪聲、雜散光和人工操作等因素影響，導(dǎo)致所采集數(shù)據(jù)包含噪聲信號(hào)[10]。在分析之前對(duì)所采集的原始光譜數(shù)據(jù)進(jìn)行預(yù)處理。選取標(biāo)準(zhǔn)正態(tài)變換(standard normal variants,SNV)作為預(yù)處理方法[11]。

1.4 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)是一種多層非全連接的高性能非線性深度學(xué)習(xí)方法，其基本結(jié)構(gòu)由卷積層、池化層和全連接層組成，在正向傳播過(guò)程中利用卷積層和池化層相互交替學(xué)習(xí)實(shí)現(xiàn)原始數(shù)據(jù)特征提?。?在反向傳播過(guò)程中則利用梯度下降法最小化誤差函數(shù)實(shí)現(xiàn)參數(shù)調(diào)整，以此完成權(quán)值更新[12]。

對(duì)于圖像等二維形式的數(shù)據(jù)，一般采用大小的卷積核和池化核進(jìn)行特征提取，但本試驗(yàn)采集的NIR是一維數(shù)據(jù)，因此采用1-D CNN進(jìn)行特征分析，其一維卷積和池化分析過(guò)程如圖1所示。

圖1 1-D CNN提取特征過(guò)程Fig.1 Feature selection process of 1-D CNN

1.5 模型評(píng)價(jià)方法

為確定最佳網(wǎng)絡(luò)結(jié)構(gòu)和系統(tǒng)參數(shù)，選擇預(yù)測(cè)準(zhǔn)確率(correct identification rate， CIR)和運(yùn)行時(shí)間作為模型性能評(píng)估指標(biāo)，其中CIR定義為

式中， N表示全部樣本,NC表示對(duì)應(yīng)分析數(shù)據(jù)集中預(yù)測(cè)準(zhǔn)確樣本數(shù)。

2 結(jié)果與討論

2.1 近紅外光譜及預(yù)處理

選取黃山區(qū)太平猴魁茶共120個(gè)樣本(表1)進(jìn)行光譜采集，原始光譜如圖2(a)所示。經(jīng)SNV預(yù)處理后的光譜圖如圖2(b)所示，相比于圖2(a)，預(yù)處理光譜特征峰更加明顯。

圖2 太平猴魁茶光譜數(shù)據(jù)(a)：原始光譜； (b)：預(yù)處理光譜Fig.2 Spectra of Taiping Houkui tea(a)： Original data； (b)： Preprocessed data

2.2 采樣間隔對(duì)模型的影響

太平猴魁茶原始光譜波長(zhǎng)點(diǎn)(12 446)較多，容易導(dǎo)致網(wǎng)絡(luò)訓(xùn)練時(shí)間過(guò)長(zhǎng)。為降低模型計(jì)算成本，需要對(duì)原始數(shù)據(jù)通過(guò)間隔采樣實(shí)現(xiàn)降維處理。為選擇最佳采樣間隔，將樣本隨機(jī)劃分為訓(xùn)練集(84，占70%)和測(cè)試集(36，占30%)，分析對(duì)比不同采樣間隔數(shù)據(jù)預(yù)測(cè)精度和計(jì)算時(shí)間(表2)。

表2 不同采樣間隔預(yù)測(cè)結(jié)果Table 2 Prediction results with different sampling intervals

分析結(jié)果表明，基于原始光譜數(shù)據(jù)的1-DCNN模型計(jì)算時(shí)間過(guò)長(zhǎng)且模型預(yù)測(cè)準(zhǔn)確率較低，當(dāng)采樣間隔為6時(shí)，CNN模型測(cè)試集預(yù)測(cè)精度達(dá)到最大(96.67%)，當(dāng)采樣間隔繼續(xù)增大時(shí)， 1-DCNN模型計(jì)算時(shí)間減少，但預(yù)測(cè)性能快速下降，綜合考慮模型預(yù)測(cè)精度和計(jì)算時(shí)間，選擇6作為最佳采樣間隔。

2.3 網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置

為確定最佳網(wǎng)絡(luò)結(jié)構(gòu)，分別計(jì)算2—5層網(wǎng)絡(luò)結(jié)果模型損失函數(shù)(圖3)。分析結(jié)果表明， 3層網(wǎng)絡(luò)結(jié)構(gòu)模型目標(biāo)函數(shù)可在最短(約85步，如圖3紅色實(shí)線所示)，迭代步長(zhǎng)內(nèi)實(shí)現(xiàn)收斂，因此選擇具有3層網(wǎng)絡(luò)的1-D CNN模型。

圖3 不同1-D CNN結(jié)構(gòu)訓(xùn)練集損失函數(shù)Fig.3 Loss function values of training set fordifferent 1-D CNN structure

2.4 卷積核大小及數(shù)目

對(duì)于NIR數(shù)據(jù)，重疊特征峰和獨(dú)立特征峰的存在導(dǎo)致模型結(jié)果對(duì)于卷積核大小及數(shù)目更加敏感，卷積核過(guò)小導(dǎo)致模型計(jì)算過(guò)程復(fù)雜；卷積核過(guò)大則容易造成特征丟失。為確定最佳卷積核大小，分別討論7—39不同大小卷積核分析結(jié)果(圖4)。

圖4 不同大小卷積核CIR Fig.4 CIR of different convolution kernel sizes

對(duì)于卷積核數(shù)目，按照2n進(jìn)行設(shè)置，并分別測(cè)試了卷積核數(shù)目為n=3,4,5,6,7的分析結(jié)果。考慮到池化操作會(huì)減少卷積特征維度，以2為梯度遞減相鄰層卷積核數(shù)目，具體分析結(jié)果如表3所示。

表3 不同數(shù)目卷積核CIRTable 3 CIR of different convolution kernel number

由圖4可知，當(dāng)卷積核大小為41時(shí)， CIR達(dá)到最大值，由表3可知，當(dāng)卷積核數(shù)目大于32時(shí)，運(yùn)行時(shí)間顯著增大。結(jié)合圖4和表3，確定最佳卷積核大小和數(shù)目分別為41和32。

2.5 Dropout的影響

為防止因數(shù)據(jù)集參數(shù)過(guò)大而引起過(guò)擬合現(xiàn)象，采用Dropout方法進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化。對(duì)比網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化前后模型的預(yù)測(cè)結(jié)果發(fā)現(xiàn)，在引入Dropout后模型性能有明顯提升，其預(yù)測(cè)集準(zhǔn)確率從91.67%提高到100%。

2.6 激活函數(shù)的比較

為確定最佳激活函數(shù)，分別對(duì)比含有4種不同激活函數(shù)(ReLU， Sigmoid， PReLU和ELU)網(wǎng)絡(luò)模型預(yù)測(cè)結(jié)果。其中， Sigmoid激活函數(shù)預(yù)測(cè)準(zhǔn)確率最低(75%)， PReLU(95.83%)和ReLU(93.33%)次之， ELU激活函數(shù)預(yù)測(cè)準(zhǔn)確率最高(98.33%)。因此，選擇ELU作為1-D CNN模型激活函數(shù)。

2.7 產(chǎn)地鑒別結(jié)果

根據(jù)圖5模型結(jié)構(gòu)和系統(tǒng)參數(shù)所建1-D CNN模型如圖5所示，圖中所示結(jié)構(gòu)含有3個(gè)卷積層(C1， C3， C5)，其卷積核大小分別為41， 39和37，由MSRA初始化卷積核權(quán)重。 3個(gè)池化層(S2， S4， S6)按照設(shè)定步長(zhǎng)和窗口大小降低數(shù)據(jù)維度。在分析過(guò)程中，為防止梯度消失，在每一次卷積后進(jìn)行批處理化(batch normalization,BN)。通過(guò)Softmax分類(lèi)器實(shí)現(xiàn)對(duì)特定分析對(duì)象的分類(lèi)預(yù)測(cè)。

圖5 1-D CNN模型結(jié)構(gòu)Fig.5 Model structure of 1-D CNN model

根據(jù)圖5模型結(jié)構(gòu)所建1-D CNN模型的預(yù)測(cè)結(jié)果如圖6所示，圖中橫縱軸數(shù)值表示不同產(chǎn)地屬性，對(duì)角線變量大小表示正確預(yù)測(cè)數(shù)，可知基于CNN和NIR的太平猴魁茶產(chǎn)地鑒別模型預(yù)測(cè)準(zhǔn)確率為100%。

圖6 1-D CNN模型預(yù)測(cè)結(jié)果Fig.6 Prediction results of 1-D CNN model

2.8 結(jié)果分析

為驗(yàn)證1-D CNN模型篩選NIR特征變量的有效性，分別選取不同產(chǎn)地樣本，對(duì)比原始數(shù)據(jù)和不同卷積層篩選數(shù)據(jù)的分布情況[見(jiàn)圖7(a)—(d)]。由圖7(a)可知，原始光譜數(shù)據(jù)主要分布在8 700～5 600和5 300～4 000 cm-1兩個(gè)區(qū)間，經(jīng)第一層卷積網(wǎng)絡(luò)獲得特征峰主要分布在7 800～6 700， 6 400～5 200和5 200～4 200 cm-1，第二層篩選的特征峰主要分布在10 000～7 100， 6 300～5 400和5 400～4 200 cm-1，第三層篩選特征峰主要分布在10 000～7 300， 6 300～5 800和5 500～4 400 cm-1。結(jié)合太平猴魁茶主要品質(zhì)成分官能團(tuán)的分布，可以發(fā)現(xiàn)1-D CNN能夠有效提取太平猴魁茶內(nèi)含成分粗纖維(7 502～5 446 cm-1)、茶多酚(6 101～4 246 cm-1)、咖啡堿(7 502～5 446和4 424～4 246 cm-1)和游離氨基酸(7 502～5 800和5 450～4 246 cm-1)的NIR特征[13]。對(duì)比分析圖7(a)和(d)可知， 1-D CNN模型在有效選擇光譜特征的同時(shí)能夠?qū)崿F(xiàn)不同產(chǎn)地特征變量差異化表示，有助于提高太平猴魁茶產(chǎn)地鑒別模型分析能力。

圖7 光譜特征分布(a)：原始光譜； (b)：第一卷積層； (c)：第二卷積層； (d)：第三卷積層Fig.7 Spectral feature distribution(a)： Original spectrum; (b)： First convolutional layer; (c)： Second convolutional layer; (d)： Third convolutional layer

2.9 模型對(duì)比

為驗(yàn)證1-D CNN模型有效性，采用相同的訓(xùn)練集和測(cè)試集樣本，對(duì)主成分分析(principal component analysis,PCA)和1-D CNN模型分別進(jìn)行100次蒙特卡羅試驗(yàn)，不同方法所建模型的訓(xùn)練集和測(cè)試集分析結(jié)果如表5所示。分析結(jié)果表明，相比于原始數(shù)據(jù)(41.29%， 40.57%)，基于PCA特征篩選的產(chǎn)地鑒別模型準(zhǔn)確率有所下降(30.96%， 31.93%)，其主要原因是不同產(chǎn)地光譜變量分布相似， PCA無(wú)法有效選擇特征光譜； 1-D CNN模型能夠顯著提高太平猴魁茶產(chǎn)地鑒別精度(98.48%～97.73%)，可實(shí)現(xiàn)太平猴魁茶高精度產(chǎn)地鑒別分析。此外，測(cè)試結(jié)果標(biāo)準(zhǔn)差表明基于1-D CNN的產(chǎn)地鑒別模型穩(wěn)定性更高。

表5 蒙特卡羅試驗(yàn)結(jié)果對(duì)比Table 5 Comparison of Monte Carlo experimental results

3 結(jié) 論

基于太平猴魁茶不同產(chǎn)地NIR信息，結(jié)合CNN特征表示方法，提出基于1-D CNN的太平猴魁茶產(chǎn)地鑒別模型。試驗(yàn)結(jié)果表明CNN能夠有效篩選不同產(chǎn)地樣本NIR特征，實(shí)現(xiàn)太平猴魁茶高精度產(chǎn)地鑒別分析(100%)； 100次蒙特卡羅試驗(yàn)表明，相比于原始數(shù)據(jù)(40.57%， 7.06)和PCA模型(31.93%， 6/96)，基于1-D CNN的產(chǎn)地鑒別模型具有更高的預(yù)測(cè)精度(97.73%)和更小的標(biāo)準(zhǔn)差(3.47)，該方法為太平猴魁茶等名貴茶葉產(chǎn)地鑒別及溯源分析提供新思路。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡