章展熠,張寶荃,王周立,楊垚,范冬梅,何衛(wèi)中,馬軍輝,林杰*
1. 浙江農(nóng)林大學(xué)茶學(xué)與茶文化學(xué)院,浙江 臨安 311300;2. 麗水市農(nóng)林科學(xué)研究院,浙江 麗水 323000;3. 麗水市經(jīng)濟作物總站,浙江 麗水 323000
茶葉作為世界三大無酒精飲料之一,在我國有著悠久的歷史,根據(jù)發(fā)酵程度不同分為綠茶、黃茶、白茶、烏龍茶、紅茶、黑茶六大基本茶類。由于產(chǎn)地、茶樹品種及制作工藝各異,茶葉又細(xì)分為多個種類。在過去的研究中,茶葉種類識別通常采用人工感官審評[1]、紅外光譜成像技術(shù)檢測[2-3]、多光譜圖像顏色特征提取[4]等方法來完成。然而,人工感官審評存在評價環(huán)境缺乏獨立性、審評人員的主觀性差異等因素的干擾[5]。其他方法也存在設(shè)備專業(yè)性高、普適性較差及耗時較長等缺點。因此,亟需開發(fā)一種客觀、便捷、快速的多茶類識別方法。
近年來,隨著卷積神經(jīng)網(wǎng)絡(luò)(CNN)的深度學(xué)習(xí)模型在眾多計算機視覺任務(wù)中取得了巨大成功,具有廣闊的發(fā)展前景,隨著AlexNet[6]、VGG[7]、ResNet[8]、DenseNet[9]等網(wǎng)絡(luò)模型的相繼提出,它們在圖像分類[6-7,10]、目標(biāo)檢測[11-12]、語義分割[13-14]等領(lǐng)域有著廣泛的應(yīng)用。目前,在茶葉領(lǐng)域中卷積神經(jīng)網(wǎng)絡(luò)雖已用于茶樹病害識別[15]、綠茶種類識別和茶葉等級篩分[16],但對多茶類的分類識別鮮有報道。由 He 等[8]提出的殘差神經(jīng)網(wǎng)絡(luò)(ResNet)便于訓(xùn)練且性能優(yōu)良,成為圖像分類任務(wù)中最典型的卷積神經(jīng)網(wǎng)絡(luò)。圖像增強能改善圖像的視覺效果,有目的地強調(diào)圖像的局部或整體特征,擴大圖像中不同物體特征之間的差別,豐富圖像信息量[17]。搭建神經(jīng)網(wǎng)絡(luò)模型需要大量的數(shù)據(jù)樣本,由于個別茶類通過網(wǎng)絡(luò)采集的圖像數(shù)量有限,目前的茶葉數(shù)據(jù)集還缺乏大量的圖像樣本,以此為基礎(chǔ)訓(xùn)練的模型容易造成過擬合問題,導(dǎo)致模型預(yù)測效果不理想[18],而數(shù)據(jù)增強技術(shù)可以在有限的數(shù)據(jù)基礎(chǔ)上創(chuàng)造更多符合要求的數(shù)據(jù),從而有效增加樣本的容量及多樣性,提升模型的魯棒性和泛化能力,解決過擬合問題[19-20]。盡管卷積神經(jīng)網(wǎng)絡(luò)在物體識別上表現(xiàn)了優(yōu)異的性能,但由于卷積神經(jīng)網(wǎng)絡(luò)“端到端”的黑盒特性,其內(nèi)部運作缺乏透明性和可解釋性[21]。Grad-CAM 作為一種類激活映射可視化方法,具有高度的類區(qū)分性,能夠使卷積神經(jīng)網(wǎng)絡(luò)模型更“透明”。
ResNet-18 作為CNN 模型,其訓(xùn)練速度快,識別準(zhǔn)確率高,占用內(nèi)存較少,具有輕量化、高效化的特點。ResNet-18 在花卉識別[22]、垃圾分類收運[23]等研究中都得到了良好的應(yīng)用。本研究使用準(zhǔn)確率(Accuracy)和損失值(Loss)作為指標(biāo)能夠準(zhǔn)確評估模型的識別性能,由于CNN 模型的“小黑盒”特性,僅用這些指標(biāo)難以對模型的分類結(jié)果進(jìn)行可視性解釋。目前,基于類激活映射方法的可解釋性研究,大多數(shù)只是根據(jù)類激活映射方法的熱力圖特點對模型進(jìn)行定性評價,而缺乏對模型的定量評估[24]。
本研究采集圖像構(gòu)建了具有復(fù)雜前景和背景的29 種常見茶類的數(shù)據(jù)集,利用卷積神經(jīng)網(wǎng)絡(luò)ResNet-18 進(jìn)行圖像識別訓(xùn)練,著重對不同數(shù)據(jù)增強方法的模型訓(xùn)練效果進(jìn)行對比;在常規(guī)CNN 模型性能評價指標(biāo)外,構(gòu)建類激映射量化指標(biāo)IOB 和MPI 對CNN 識別區(qū)域準(zhǔn)確性進(jìn)行客觀評價,以期篩選得到較優(yōu)的數(shù)據(jù)增強方法,并訓(xùn)練得到高魯棒性的多茶類CNN 圖像識別模型,從而為茶葉深度學(xué)習(xí)研究提供方法借鑒。
使用深度學(xué)習(xí)技術(shù)進(jìn)行識別茶葉的類別越復(fù)雜,種類越多,需要的數(shù)據(jù)就越多[25]。由于目前沒有公開的茶葉數(shù)據(jù)集,為了建立真實有效的多茶類數(shù)據(jù)集,本研究從社媒平臺、電商平臺和搜索引擎等收集圖像,比對相關(guān)茶類的產(chǎn)品標(biāo)準(zhǔn),對外形特征不符、過度美化的圖像予以剔除,由浙江農(nóng)林大學(xué)茶學(xué)系和浙江大學(xué)茶學(xué)系多名專家經(jīng)過多次篩查后建立了數(shù)據(jù)集,其中安吉白茶205 張,白毫銀針208張,白牡丹205 張,碧螺春217 張,東方美人197 張,凍頂烏龍205 張,都勻毛尖193 張,恩施玉露184 張,鳳凰單樅275 張,貢眉287張,黃山毛峰197 張,金花茯茶200 張,金駿眉268 張,九曲紅梅155 張,君山銀針177張,六安瓜片197 張,六堡茶208 張,龍井237 張,普洱生茶220 張,祁門紅茶229 張,壽眉202 張,熟普205 張,太平猴魁216 張,條形滇紅213 張,鐵觀音208 張,武夷巖茶203 張,信陽毛尖200 張,正山小種216 張,竹葉青196 張,共6123 張。采集得到的多茶類圖片數(shù)據(jù)集,有著復(fù)雜的前景、背景(不同背景、不同亮度、不同前景角度和不同茶葉數(shù)量),基于本數(shù)據(jù)集訓(xùn)練得到的模型能適應(yīng)復(fù)雜背景下多茶類的識別,前景和背景復(fù)雜性如圖1 所示。
本研究通過對圖像樣本進(jìn)行幾何紋理變換與光學(xué)空間變換等操作引入細(xì)微的擾動從而實現(xiàn)數(shù)據(jù)擴充,有效減輕訓(xùn)練階段的過擬合,提高模型的泛化能力。由于收集到的圖像大小不一,模型訓(xùn)練前,預(yù)先將輸入模型數(shù)據(jù)集的圖像分辨率調(diào)整為512×512。本研究首先以CNN 數(shù)據(jù)增強中常用的水平鏡像翻轉(zhuǎn)作為基礎(chǔ)增強方法進(jìn)行圖像數(shù)據(jù)加倍,再分別疊加10 種其他數(shù)據(jù)增強方法進(jìn)行二次加倍,增強后圖片數(shù)量擴充為原數(shù)據(jù)集的4 倍,11 種數(shù)據(jù)增強方法的效果如圖2 所示。具體步驟如下:
圖2 圖像數(shù)據(jù)增強前后效果Fig. 2 Examples of image data augmentation
(一)基礎(chǔ)數(shù)據(jù)增強
①水平鏡像翻轉(zhuǎn):以圖像垂直中線為軸翻轉(zhuǎn)圖像。
(二)幾何紋理變換
②網(wǎng)格擦除(Ratio=0.3):即GridDropout,以網(wǎng)格形式按照0.3 的區(qū)域比例對圖片進(jìn)行擦除。③網(wǎng)格擦除(Ratio=0.5):即GridDropout,以網(wǎng)格形式按照0.5 的區(qū)域比例對圖片進(jìn)行擦除。④隨機擦除:即Random Erasing,以若干分辨率80×80 方塊形式隨機擦除圖像部分信息。 ⑤隨機網(wǎng)格洗牌(2×2) :即RandomGridShuffle,將圖像以2×2 網(wǎng)格形式生成4 塊,并隨機打亂。⑥隨機網(wǎng)格洗牌(3×3):即RandomGridShuffle,將圖像以3×3 網(wǎng)格形式生成9 塊,并隨機打亂。⑦隨機旋轉(zhuǎn):即Random rotation,對圖片進(jìn)行隨機旋轉(zhuǎn)一個角度處理。⑧隨機旋轉(zhuǎn)(N×90°):對圖片進(jìn)行隨機旋轉(zhuǎn)N 個90°。⑨隨機裁剪:即RandomCrop,隨機裁剪圖像分辨率為一定大小。⑩分辨率擾動:即RandomScale,隨機縮放圖像的分辨率。
(三)光學(xué)內(nèi)容變換
?HSV顏色空間擾動:使用Albumentations 數(shù)據(jù)增強工具中的HueSaturationValue改變圖像的色度、飽和度和明亮度,其中Hueshift limit=20,Sat shift limit=30,Val shift limit=20。
為了對CNN 模型圖像識別區(qū)域準(zhǔn)確性進(jìn)行客觀評價,本研究在參考Selvaraju 等[26]研究的基礎(chǔ)上,構(gòu)建了交集比(Intersection over bounding box,IOB)及Grad-CAM 激活的平均比率(Mean position importance,MPI)兩個量化評價指標(biāo)來度量類激活映射的準(zhǔn)確性。從茶葉圖像集中隨機選取10 張具有背景干擾的圖像作為測試圖(即10 次重復(fù)測定)。通過圖像標(biāo)注軟件Labelme 5.0.2 對測試圖進(jìn)行語義分割和標(biāo)注,將茶葉從圖像背景中分離出來,其他部分作為背景標(biāo)注,得到帶有茶葉邊界點的Json 格式文件,再經(jīng)過掩膜交集處理得到目標(biāo)區(qū)域的二值化圖像,以白色標(biāo)注茶葉區(qū)域,黑色標(biāo)注背景區(qū)域。采用梯度加權(quán)類激活映射(Grad-CAM)對訓(xùn)練得到的ResNet-18模型的圖像識別區(qū)域進(jìn)行可視化,生成測試圖的類激活熱圖。
Grad-CAM 作為類激活映射方法之一,使用反向傳播中獲取的通道梯度均值作為通道權(quán)重生成熱力圖,具有良好的類別區(qū)分性,其原理如圖3 所示,可以對卷積神經(jīng)網(wǎng)絡(luò)的分類結(jié)果做出合理的解釋,將網(wǎng)絡(luò)模型可視化[26-28]。使用Grad-CAM 方法生成類激活圖的過程可公式化描述為:
圖3 Grad-CAM 的原理Fig. 3 Principles of Grad-CAM
其中,Ak表示最高層特征圖的第k個通道,表示針對該通道的權(quán)重,yc表示網(wǎng)絡(luò)在未通過Softmax 分類器激活前針對類別c 的預(yù)測分?jǐn)?shù),Ak,i,j為第k個特征圖中位置(i,j)的激活值,其計算公式如下:
類激活映射量化評價指標(biāo)1—IOB。原圖像中的茶葉區(qū)域定義為真實邊界框Bg(Ground-truth box),在Grad-CAM 熱圖中分割出高于最大熱點值20%的區(qū)域,取包圍分割圖的最大邊界框作為預(yù)測邊界框Bh(Bounding box),得到IOB 的計算公式為:
類激活映射量化評價指標(biāo)2—MPI。計算目標(biāo)區(qū)域二值化圖中茶葉部分的真實像素值Sh及Grad-CAM 類激活熱圖中的熱點區(qū)域(高于最大熱點值20%的區(qū)域)總像素值Sg,計算得到MPI,公式為:
采用ResNet-18 卷積神經(jīng)網(wǎng)絡(luò)框架進(jìn)行遷移學(xué)習(xí),Batch size 設(shè)置為8,優(yōu)化器使用帶動量因子的SGD(Stochastic gradient descent)算法,動量因子(Momentum)設(shè)置為0.9,初始學(xué)習(xí)率(Learning rate)設(shè)置為0.001,學(xué)習(xí)率調(diào)度器為等間隔縮減(Step LR),等間隔系數(shù)(Step size)設(shè)置為5;為加快模型訓(xùn)練收斂速度和提高模型訓(xùn)練效果,采用交叉熵作為損失函數(shù)。在經(jīng)過25 輪(Epochs)迭代后,模型基本收斂。
通過Python 語言完成模型的搭建與訓(xùn)練,基于PyTorch 深度學(xué)習(xí)框架,并行計算框架使用CUDA 11.1 版本。試驗基于Windows 11 操作系統(tǒng),使用英偉達(dá)GeForce RTX 3060 GPU顯卡,處理器為 AMD Ryzen 75800H with Radeon Graphics@3.20GHz。
本試驗采用 k 折交叉驗證法(K-folder cross validation)進(jìn)行重復(fù)交叉驗證(k=5),將圖像數(shù)據(jù)集隨機分成5 等份子集;依次遍歷這5 個子集,每次CNN 訓(xùn)練把當(dāng)前子集作為測試集,其余的4 個子集作為訓(xùn)練集,進(jìn)行模型的訓(xùn)練和評估;取5 次的指標(biāo)平均值來評價最終的模型訓(xùn)練、測試效果。k 折交叉驗證中,所有數(shù)據(jù)都會參與到訓(xùn)練和測試中,能有效避免過擬合,并充分體現(xiàn)了交叉的思想[29]。
采用方差分析進(jìn)行差異顯著性分析(P<0.05),多重比較方法為Duncan,分析軟件為SPSS 22.0。為了評價不同數(shù)據(jù)增強方法對于多茶類模型識別性能的影響,本研究選取準(zhǔn)確率和損失值作為評估算法性能的評價指標(biāo)。準(zhǔn)確率反映了本研究算法整體性能的優(yōu)劣,損失值則用來表示模型預(yù)測值與實際值的誤差,損失值越小,模型的魯棒性越好,計算公式如下:
其中,Accuracy表示準(zhǔn)確率,Loss表示損失值,F(xiàn)P代表預(yù)測錯誤的正樣本數(shù),TP代表預(yù)測正確的正樣本數(shù),F(xiàn)N表示預(yù)測錯誤的負(fù)樣本數(shù),TN表示預(yù)測正確的負(fù)樣本數(shù)。N表示總的樣本數(shù)量;pn,i表示第n個樣本為類別i的概率。
為評估得到較優(yōu)的多茶類圖像識別數(shù)據(jù)增強方法,本研究基于基礎(chǔ)數(shù)據(jù)增強方法(水平鏡像翻轉(zhuǎn)),對比了10 種數(shù)據(jù)增強方法(9種幾何紋理變換和 1 種光學(xué)空間變換)的ResNet-18 網(wǎng)絡(luò)框架訓(xùn)練效果。采用準(zhǔn)確率、損失值這2 個常規(guī)指標(biāo)來評估模型性能,結(jié)果如表1所示?;A(chǔ)數(shù)據(jù)增強后訓(xùn)練的ResNet-18 模型準(zhǔn)確率、損失值分別為91.37%和30.27,已較可觀但仍需優(yōu)化。經(jīng)過10 種數(shù)據(jù)增強方法優(yōu)化數(shù)據(jù)集后,準(zhǔn)確率進(jìn)一步提升(從+1.90 到+7.45 不等),損失值從30.27 下降到3.97~21.29,模型的魯棒性提高。其中,疊加分辨率擾動、網(wǎng)格擦除(Ratio=0.3)和HSV 顏色空間擾動訓(xùn)練后模型的準(zhǔn)確率分別提高至98.82%、98.77%、98.66%,顯著高于其他數(shù)據(jù)增強方法(P<0.05)。疊加分辨率擾動后模型損失值僅為 3.97,顯著低于隨機擦除、隨機裁剪、網(wǎng)格擦除(Ratio=0.5)、隨機網(wǎng)格洗牌、隨機旋轉(zhuǎn) N×90°和隨機旋轉(zhuǎn)(P<0.05)。綜上所述,基于準(zhǔn)確率、損失值評估模型性能,分辨率擾動、網(wǎng)格擦除(Ratio=0.3)和HSV 顏色空間擾動對于模型性能的優(yōu)化效果較好。
表1 不同數(shù)據(jù)增強方法模型性能評價Table 1 Model performances of different data enhancement methods
通常CNN 模型只以準(zhǔn)確率、損失值等指標(biāo)來衡量性能,而類激活映射(CAM)則作為模型的識別熱點區(qū)域的可視化手段。但類激活映射可視化只是一種定性觀測手段,缺乏量化結(jié)果。本研究為準(zhǔn)確評估模型對茶葉識別的準(zhǔn)確性及Grad-CAM 的定位能力,創(chuàng)新性地構(gòu)建IOB 和 MPI 兩個量化指標(biāo)進(jìn)行量化評價。Grad-CAM 基于4 種數(shù)據(jù)增強方法的類激活圖、二值化圖和量化評價示例分別如圖4 所示,圖中僅示例了HSV 顏色空間擾動、隨機旋轉(zhuǎn)、網(wǎng)格擦除(Ratio=0.3)和隨機擦除 4種數(shù)據(jù)增強方法的IOB 和MPI 可視化結(jié)果。目標(biāo)區(qū)域二值化圖標(biāo)示了多茶類識別的感興趣區(qū)域(Region of interest,ROI);理想狀態(tài)下希望類激活映射能準(zhǔn)確且充分地識別到ROI 區(qū)域。圖4 中某恩施玉露圖片示例了2 種數(shù)據(jù)增強方法的Grad-CAM 量化評價優(yōu)劣,Grad-CAM 熱圖顯示,HSV 顏色空間擾動的識別熱點雖然也有少部分落在背景干擾上(茶具、石頭),但大部分落在了ROI 區(qū)域(茶葉)內(nèi),且IOB 預(yù)測框(藍(lán)色)也更貼近真實框(紅色);而隨機旋轉(zhuǎn)有更多的識別熱點落在了背景干擾中,且IOB 預(yù)測框(藍(lán)色)明顯偏離了真實框(紅色),此圖片的模型在識別準(zhǔn)確性指標(biāo)上,HSV 顏色空間擾動要好于隨機旋轉(zhuǎn)。而IOB 和MPI 都顯示HSV 顏色空間擾動(IOB、MPI 分別為97.41%和77.42%)比隨機旋轉(zhuǎn)(IOB、MPI 分別為 68.93%和66.36%)表現(xiàn)更好,與Grad-CAM 主觀判斷一致。圖4 中某太平猴魁圖片示例了2 種數(shù)據(jù)增強方法的 Grad-CAM 量化評價優(yōu)劣,Grad-CAM 熱圖顯示,網(wǎng)格擦除(Ratio=0.3)和隨機擦除的識別熱點大部分落在了ROI 區(qū)域(茶葉)內(nèi),且IOB 預(yù)測框(藍(lán)色)也都較貼近真實框(紅色),但主觀細(xì)致觀測下,預(yù)測框和識別熱點準(zhǔn)確性網(wǎng)格擦除(Ratio=0.3)要稍好于隨機擦除;而IOB 和MPI 都顯示網(wǎng)格擦除(Ratio=0.3)(IOB、MPI 分別為98.69%和66.79%)比隨機擦除(IOB、MPI 分別為89.30%和56.34%)表現(xiàn)稍好,與Grad-CAM主觀判斷完全一致。整體而言,IOB和MPI兩個量化指標(biāo)可以較好地客觀表征CNN 模型類激活映射的準(zhǔn)確性,方便觀測和對比CNN模型識別性能。
圖4 Grad-CAM 的量化評價可視化圖Fig. 4 Visualization diagrams of quantitative evaluation of Grad-CAM
不同數(shù)據(jù)增強方法的類激活映射量化評價結(jié)果如表2 所示。由于不同圖片的量化指標(biāo)波動較大,本研究選取了10 張測試圖片(即10 次重復(fù))的IOB 和MPI 量化結(jié)果進(jìn)行統(tǒng)計分析。隨機網(wǎng)格洗牌的2 種數(shù)據(jù)增強方法的目標(biāo)區(qū)域識別準(zhǔn)確性相對較低,甚至低于基礎(chǔ)數(shù)據(jù)增強方法。而其他8 種數(shù)據(jù)增強方法的IOB和MPI,雖然在均值上有差異,但在統(tǒng)計學(xué)上不存顯著差異(P<0.05)。其中IOB 均值最高的是分辨率擾動,而MPI 均值最高的是網(wǎng)格擦除(Ratio=0.3),雖然HSV 顏色空間擾動的兩個量化指標(biāo)的均值均明顯低于分辨率擾動和網(wǎng)格擦除(Ratio=0.3),但不同測試圖片的量化評價結(jié)果波動較大,整體上不存在顯著性差異。網(wǎng)格擦除(Ratio=0.5)相較網(wǎng)格擦除(Ratio=0.3),雖然IOB 和MPI 不存在顯著差異,但性能指標(biāo)的評價結(jié)果稍差且存在顯著差異(P<0.05),因此本研究優(yōu)選網(wǎng)格擦除(Ratio=0.3)進(jìn)入下一步研究。隨機擦除也是圖片信息擦除類的數(shù)據(jù)增強方法,但其4 項指標(biāo)的整體表現(xiàn)不及網(wǎng)格擦除(Ratio=0.3)。結(jié)合模型性能指標(biāo)的評價結(jié)果,以及實際圖片識別中分辨率變動和顏色擾動等常見情況,本研究優(yōu)選網(wǎng)格擦除(Ratio=0.3)、分辨率擾動和HSV 顏色空間擾動3 種數(shù)據(jù)增強方法進(jìn)行后續(xù)的消融實驗。
表2 不同數(shù)據(jù)增強方法的類激活映射量化評價對比Table 2 Comparison of quantitative evaluation of class activation for different data enhancement methods
在對比了10 種數(shù)據(jù)增強方法CNN 訓(xùn)練效果的基礎(chǔ)上,初步優(yōu)選得到了網(wǎng)格擦除(Ratio=0.3)、分辨率擾動和HSV 顏色空間擾動3 種較優(yōu)的方法。進(jìn)一步開展消融實驗,對比了不同數(shù)據(jù)增強方法組合的CNN 訓(xùn)練效果,以期得到最佳的數(shù)據(jù)增強方法組合,結(jié)果如表3 所示。使用網(wǎng)格擦除(Ratio=0.3)、分辨率擾動和HSV 顏色空間擾動的數(shù)據(jù)增強方法兩兩組合時,準(zhǔn)確率得到一定程度提升,都超過了99%;損失值也得到一定程度下降,而類激活映射量化評價指標(biāo)IOB 和MPI 未有顯著提升(P<0.05)。其中“水平鏡像翻轉(zhuǎn)+網(wǎng)格擦除(Ratio=0.3)+HSV 顏色空間擾動”組合的準(zhǔn)確率達(dá)到了99.82%,顯著高于其他數(shù)據(jù)增強方法組合(P<0.05),損失值僅為0.64,且MPI 的均值也達(dá)到了68.44%,是所有數(shù)據(jù)增強方法組合中最高的,IOB 也達(dá)到74.79%,整體而言是最佳的數(shù)據(jù)增強方法組合。而“水平鏡像翻轉(zhuǎn)+網(wǎng)格擦除(Ratio=0.3)+分辨率擾動+HSV 顏色空間擾動”組合的準(zhǔn)確率不及“水平鏡像翻轉(zhuǎn)+網(wǎng)格擦除(Ratio=0.3)+HSV顏色空間擾動”組合,其他3 個指標(biāo)均值則不存在顯著差異(P<0.05),且該方法數(shù)據(jù)集更大,意味著需要更長的模型訓(xùn)練時間。消融實驗的結(jié)果也表明,更多的數(shù)據(jù)增強方法組合擴充圖像數(shù)據(jù)集,雖然可能提升模型性能評價指標(biāo),但在模型識別區(qū)域準(zhǔn)確性指標(biāo)上未表現(xiàn)出顯著差異。
表3 消融實驗結(jié)果Table 3 Results of ablation experiment
通過“ 水平鏡像翻轉(zhuǎn)+ 網(wǎng)格擦除(Ratio=0.3)+HSV 顏色空間擾動”最佳數(shù)據(jù)增強方法組合訓(xùn)練得到平均識別準(zhǔn)確率達(dá)到99.82%的ResNet-18 模型,并記錄該模型的訓(xùn)練與測試迭代表現(xiàn)(如圖5)。整體上,該ResNet-18 模型收斂速度較快,未出現(xiàn)收斂抖動狀態(tài),并在第6 次迭代后準(zhǔn)確率、損失值呈現(xiàn)穩(wěn)定的收斂狀態(tài)。收斂速度越快,意味著模型快速穩(wěn)健的融合,可避免過擬合或者是陷入局部最佳狀態(tài)。ResNet-18 模型大小為43.7 MB,所需空間較小。對10 張圖片的識別時間進(jìn)行記錄,計算得到每張圖片的平均識別時間僅為(0.102±0.001) s,說明識別每張圖片所需時間非常短。綜上所述,該多茶類ResNet-18 模型識別準(zhǔn)確率高、占內(nèi)存較少、識別時間較快,適合移動端應(yīng)用[16]。
圖5 ResNet-18 模型訓(xùn)練與測試迭代曲線Fig. 5 Iteration curve of training and validation of ResNet-18 model
進(jìn)一步對該模型的多茶類圖像識別結(jié)果進(jìn)行解析,采用混淆矩陣對識別模型中易識別、易混淆茶類進(jìn)行可視化(圖6)。對角線上的數(shù)值為所有正確的預(yù)測結(jié)果,其余數(shù)值均為模型誤判導(dǎo)致的錯誤的預(yù)測結(jié)果,并且矩陣的每一列表示真實類別,而矩陣的每一行表示模型的預(yù)測類別。除貢眉、黃山毛峰、武夷巖茶、信陽毛尖以外,其他25 種茶類的識別準(zhǔn)確度達(dá)到100%,未出現(xiàn)混淆,并且對于貢眉和信陽毛尖這2 種茶葉也表現(xiàn)出優(yōu)異的分類性能,識別準(zhǔn)確率均達(dá)到99%以上。黃山毛峰識別準(zhǔn)確率最低, 也達(dá)到了 98.77%( 240/243),說明本研究優(yōu)化得到的ResNet-18 模型能讓網(wǎng)絡(luò)有效提取各類別茶葉圖像的淺層(顏色、紋理等)或深層抽象特征,進(jìn)而在復(fù)雜前景、背景下實現(xiàn)多茶類的高精度識別。個別茶類產(chǎn)生了一定的識別混淆,其中黃山毛峰有2 例錯誤識別為普洱生茶,1 例錯誤識別為太平猴魁;武夷巖茶則各有3 例識別成了金駿眉和壽眉。
圖6 29 種茶類ResNet-18 模型識別結(jié)果混淆矩陣Fig. 6 Confusion matrix of recognition results of twenty-nine ResNet-18 tea models
本研究通過自主采集茶葉圖像,建立了1個包含29 種茶葉類別的數(shù)據(jù)集,所采集圖像包含不同角度、不同背景及不同數(shù)量等情況下的茶葉,共6 123 張。本研究所構(gòu)建的數(shù)據(jù)集涵蓋了六大茶類,并且具有一定代表性,具有較強的適用性和泛化能力。相比于張怡等[16]構(gòu)建的8 種綠茶數(shù)據(jù)集,本研究構(gòu)建的數(shù)據(jù)集量更大,包含更豐富的茶葉種類。以本數(shù)據(jù)集為基礎(chǔ)所構(gòu)建的多茶類識別模型在識別準(zhǔn)確率上達(dá)到了99.82%,具有優(yōu)良的識別效果。在過去的研究中,茶葉的識別可通過基于圖像處理的視覺識別技術(shù)[30]、基于顏色和形狀的計算機視覺技術(shù)[31]等技術(shù)來完成,但缺乏基于卷積神經(jīng)網(wǎng)絡(luò)和數(shù)據(jù)增強的多茶類識別模型。本研究首次針對多茶類數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強以優(yōu)化模型,選取幾何紋理變換與光學(xué)空間變換中的10 種作為數(shù)據(jù)增強方法,基本覆蓋了主要的數(shù)據(jù)增強方法,同時也能應(yīng)對茶葉擺放中出現(xiàn)的變換情況。對比10 種不同數(shù)據(jù)增強方法發(fā)現(xiàn),分辨率擾動和網(wǎng)格擦除對模型的優(yōu)化效果較好,這是由于采集的茶葉圖像分辨率大小不一,分辨率擾動能改變圖像的分辨率大小,可得到更多分辨率下的茶葉圖像,符合更多實際場景下的圖像存在形式,與Liu 等[32]的研究結(jié)果較為一致。網(wǎng)格擦除能讓CNN 學(xué)習(xí)到更多特征信息,并增加感知場,相比于隨機擦除,網(wǎng)格擦除更能顯著提高模型的泛化能力和魯棒性,與Chen 等[33]的研究結(jié)論相似。然而,旋轉(zhuǎn)變換對茶葉識別模型的優(yōu)化效果不理想,這可能由于茶葉圖像經(jīng)旋轉(zhuǎn)后,茶葉的特征信息變化不明顯,對模型的泛化能力提升較差。本研究所構(gòu)建的模型在識別準(zhǔn)確率上達(dá)到了99.82%,但在后續(xù)研究中,將針對其他數(shù)據(jù)增強方法的優(yōu)化效果展開相關(guān)研究,為多茶類識別模型的數(shù)據(jù)集構(gòu)建提供一定的參考。
本研究使用ResNet-18 作為CNN 模型,其訓(xùn)練速度快,識別準(zhǔn)確率高,占用內(nèi)存較少,具有輕量化、高效化的特點。ResNet-18 在花卉識別[22]、垃圾分類收運[23]等研究中都得到了良好的應(yīng)用。但在未來的工作中,將使用更輕量化的 MobileNet[34]作為特征提取網(wǎng)絡(luò)進(jìn)一步提高模型識別精度,為在移動端的識別應(yīng)用建立基礎(chǔ)。本研究使用準(zhǔn)確率、損失值作為指標(biāo)能準(zhǔn)確評估模型的識別性能,由于CNN模型的“小黑盒”特性,僅用這些指標(biāo)難以對模型分類結(jié)果進(jìn)行可視性解釋。目前,基于類激活映射方法的可解釋性研究中,大多只是根據(jù)類激活映射方法產(chǎn)生的熱力圖的特點對模型進(jìn)行定性評價,而缺乏對模型的定量評估[24]。本研究進(jìn)一步應(yīng)用類激活映射量化評價,在已有研究[27-28,35]的基礎(chǔ)上,將量化方法改進(jìn)后應(yīng)用于茶葉識別模型的評價中,產(chǎn)生的熱力圖不僅能準(zhǔn)確定位茶葉,而且能客觀評價模型的識別定位能力,使模型更具有可解釋性,為客觀評價CNN 模型的性能提供了一種新思路、新方法。消融實驗在復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)模型的背景下得到了廣泛的應(yīng)用,張家鈞等[36]通過消融實驗進(jìn)一步優(yōu)化了網(wǎng)絡(luò)的瓶頸結(jié)構(gòu),提高了鞋型識別算法的準(zhǔn)確性;楊繼增等[37]通過消融實驗探究了不同階段卷積層組合對算法性能的影響。本研究將不同數(shù)據(jù)增強方法組合進(jìn)行消融實驗,結(jié)果表明,分辨率擾動和網(wǎng)格擦除方法相結(jié)合,使模型識別準(zhǔn)確率進(jìn)一步提高到99.82%,量化評價結(jié)果也更優(yōu)。29 種茶類的混淆矩陣結(jié)果表明,安吉白茶、白毫銀針、白牡丹、碧螺春、東方美人、凍頂烏龍、都勻毛尖、恩施玉露、鳳凰單樅、金花茯茶、金駿眉、九曲紅梅、君山銀針、六安瓜片、六堡茶、龍井、普洱生茶、祁門紅茶、壽眉、熟普、太平猴魁、條形滇紅、鐵觀音、正山小種和竹葉青這25 種茶類在識別準(zhǔn)確率上達(dá)到了100%,但也有個別茶類的識別率存在一定的混淆,這些茶類混淆可能是茶類外形本身存在一定的混淆可能性,也可能是CNN 識別混淆和熱點區(qū)域與人感官識別的差異造成(如3 例武夷巖茶被混淆識別為金駿眉,2 例黃山毛峰被混淆識別為普洱生茶)。未來將進(jìn)一步應(yīng)用類激活映射可視化方法確定CNN 的識別區(qū)域來輔助訓(xùn)練,以使模型更加“透明”。
本研究首次對茶葉圖像數(shù)據(jù)增強方法進(jìn)行了優(yōu)化,對比了10 種數(shù)據(jù)增強方法的多茶類CNN 模型訓(xùn)練效果,得到了較優(yōu)的數(shù)據(jù)增強方法組合,即水平鏡像翻轉(zhuǎn)+網(wǎng)格擦除(Ratio=0.3)+HSV 顏色空間擾動。訓(xùn)練得到了高魯棒性的多茶類CNN 圖像識別模型,其識別準(zhǔn)確率達(dá)到了99.82%、損失值僅為0.64。同時本研究創(chuàng)新性地構(gòu)建了量化指標(biāo)IOB 和MPI,解決了類激活映射識別區(qū)域準(zhǔn)確性的客觀評價問題,可配合常規(guī)評價指標(biāo)(準(zhǔn)確率、損失值等),對CNN 模型的訓(xùn)練效果進(jìn)行更科學(xué)地衡量,為CNN 模型性能的客觀化、量化評價提供了一定的參考。