国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于注意力機制的水果損傷檢測及分類

2023-07-14 00:24張杰夏春蕾張榮福哈利扎提·居來提劉怡
光學儀器 2023年2期
關(guān)鍵詞:注意力機制深度學習

張杰 夏春蕾 張榮?!」帷ぞ觼硖帷⑩?/p>

關(guān)鍵詞:深度學習;水果損傷檢測;ResNet;注意力機制

中圖分類號:TP 183 文獻標志碼:A

引言

在眾多的食物中,水果是人類日常健康飲食的重要組成部分,因為水果富含的維生素等營養(yǎng)元素能幫助預(yù)防疾病。然而,很多水果的保質(zhì)期較短。由于儲存不當或者運輸過程中的碰撞等原因造成的損傷,使得水果品質(zhì)下降甚至變得腐爛而不宜食用。因此,食品行業(yè)在出售水果之前需要對其進行嚴格的檢測。傳統(tǒng)的人工檢測方案不僅成本高、效率低,還存在一致性和準確性較差等問題。隨著生活水平的提高,水果的消費量逐年增長,而不同市場消費者對水果品質(zhì)、種類等方面的需求呈現(xiàn)出多樣化特點,水果的自動化品質(zhì)檢測和分類也就成為必須要解決的問題。近年來,隨著深度學習和計算機視覺技術(shù)的不斷發(fā)展,機器學習及卷積神經(jīng)網(wǎng)絡(luò)在分類和檢測領(lǐng)域的應(yīng)用研究也越來越多。探索基于深度學習技術(shù)的水果損傷檢測和分類方法成為了研究熱點[1]。

近幾年,研究人員在腐壞水果的檢測方面進行了很多研究。Karakaya 等[2] 研究了多種特征提取技術(shù)在水果新鮮度分類上的性能表現(xiàn)。他們在對水果進行特征提取后,采用支持向量機(support vector machine, SVM)分類技術(shù)進行實驗。在對 1 個共有1 200 張圖片,包含橘子、香蕉和蘋果等 3 類水果在內(nèi)的數(shù)據(jù)集進行測試后,證明卷積神經(jīng)網(wǎng)絡(luò)搭配SVM 分類器呈現(xiàn)出最好的性能,分類準確率達到97.61%。Wajid 等[3] 提出了 1 種快速判別柑橘狀態(tài)的方法。他們通過對比分析包括貝葉斯、人工神經(jīng)網(wǎng)絡(luò)和決策樹的適用性和性能,發(fā)現(xiàn)決策樹分類技術(shù)對橙色條件的分類效率高于其他方法。該方法的準確度、精確度和靈敏度分別為93.13%,93.45%和93.24%。Singh 等[4]運用小波變換、定向梯度直方圖、灰度共生矩陣等方法提取蘋果的紋理特征,然后用SVM、k-NN、邏輯回歸、線性判別等多種分類器對新鮮蘋果和腐爛蘋果進行對比實驗,結(jié)果發(fā)現(xiàn),SVM 分類器的性能為98.8%,優(yōu)于其他分類器。Chakraborty 等[5]使用卷積神經(jīng)網(wǎng)絡(luò)提取水果圖像的特征,并使用Max pooling、Averagepooling 和MobileNetV2架構(gòu)對圖像進行分類。在Kaggle 數(shù)據(jù)集上的性能測試結(jié)果顯示:MobileNetV2 在訓(xùn)練集和驗證集中的準確率分別達到了99.46% 和99.61%;Max pooling 的訓(xùn)練集準確率達到94.49%, 驗證集準確率達到94.97%; Average pooling 的訓(xùn)練集準確率為93.06%,驗證集準確率為93.72%。結(jié)果表明,該研究所提出的卷積神經(jīng)網(wǎng)絡(luò)模型能夠區(qū)分新鮮水果和腐爛水果。

上述方法主要是一些主流的分類網(wǎng)絡(luò)在水果數(shù)據(jù)集上的直接應(yīng)用,研究者對網(wǎng)絡(luò)本身并無太多的改進[6]。結(jié)合以上論文的研究成果,通過與經(jīng)典的分類網(wǎng)絡(luò)對比,本文選擇ResNet 模型作為分類模型,并在此基礎(chǔ)上嘗試加入兩個不同的注意力機制進行改進,從而將水果分類所依據(jù)的特征信息予以進一步優(yōu)化,獲取有利于水果分類的重要特征;通過可視化算法Grad-CAM[7] 將模型提取的效果進行展示,最終獲得更高的分類準確率;利用自制的新數(shù)據(jù)集達到圖像增強效果,提升了網(wǎng)絡(luò)的泛化性能,對復(fù)雜的水果圖像也有不錯的識別效果。

1 模型構(gòu)架

1.1 ResNet網(wǎng)絡(luò)模型

ResNet[8] 殘差網(wǎng)絡(luò)在2015 年同時斬獲ImageNet 競賽中分類任務(wù)第一名和目標檢測第一名[9]。這個網(wǎng)絡(luò)最初由微軟工作室提出,其亮點是:解決了網(wǎng)絡(luò)層數(shù)不斷加深而導(dǎo)致的梯度爆炸或者梯度消失問題;擁有超深的網(wǎng)絡(luò)結(jié)構(gòu),不影響其性能;提出了Residul 模塊,解決了網(wǎng)絡(luò)退化問題;使用了Batch Normalization加速訓(xùn)練等。該網(wǎng)絡(luò)被廣泛使用,在圖像分割和目標檢測方向也取得了很好的效果。ResNet34的結(jié)構(gòu)如圖1 所示。

為了克服神經(jīng)網(wǎng)絡(luò)層次越深越難訓(xùn)練而導(dǎo)致的網(wǎng)絡(luò)退化問題,ResNet 模型引入了殘差模塊,很好地解決了這一問題[10]。殘差模塊如圖2 所示,對于 1 個堆疊層結(jié)構(gòu),當輸入為x時,其學習到的特征記為H(x) ,殘差F (x) = H(x)-x。殘差學習相比原始特征直接學習更加容易。當殘差為0時,堆積層僅僅做了恒等映射,網(wǎng)絡(luò)性能不會下降。實際上殘差不會為 0,這也使得堆積層在輸入特征基礎(chǔ)上學習到新的特征,從而擁有更好的性能。

1.2 SE模塊

SENet[11] 是Squeeze-and-Excitation Networks的簡稱,該網(wǎng)絡(luò)獲得了ILSVRC2017 分類比賽的冠軍。SE 模塊由Squeeze 和Excitation 兩部分組成,如圖3 所示。Squeeze 表示順著空間維度進行特征壓縮,將每個二維的特征通道變成 1 個實數(shù)。這個實數(shù)某種程度上具有全局的感受野。輸出的維度和輸入的特征通道數(shù)相匹配[12]。

1.3 CBAM模塊

卷積注意力模塊[13]( convolutional blockattention module,CBAM)是 1 種輕量通用注意力模塊,如圖4 所示,能同時在空間和通道上進行特征的注意力機制,所以該模塊由兩部分組成,通道注意力模塊和空間注意力模塊[14]。

1.4 模型結(jié)構(gòu)

為了進一步提升ResNet34 模型的分類效果,使網(wǎng)絡(luò)更加注意到新鮮水果與缺陷水果的特征,加強圖像有效特征信息,從而提高模型的魯棒性,本文提出了將SE 模塊和CBAM 模塊嵌入到ResNet 網(wǎng)絡(luò)中。由于該實驗的數(shù)據(jù)集樣本偏少,數(shù)據(jù)特征相對簡單,因此在模型訓(xùn)練過程中容易產(chǎn)生過擬合的現(xiàn)象,從而導(dǎo)致模型泛化性能變差。所以將SE 模塊嵌入到ResNet 網(wǎng)絡(luò)的每 一 層Residual Block 中,網(wǎng)絡(luò)的每 一個ResidualBlock 都將提升網(wǎng)絡(luò)對圖像重要區(qū)域的捕捉。一共引入了 16 層的Residual Block,如圖5 所示。將CBAM 模塊嵌入到第 1 層Residual Block之前與最后 1 層Residual Block 之后,相當于將該模塊添加到整個模型的開頭和結(jié)尾,一共2 次。其原因是CBAM 更善于捕捉圖像的位置信息。先確定好想要捕捉的方位,這將更有針對性地對圖像的具體細節(jié)進行特征提取,結(jié)構(gòu)如圖6 所示。兩種不同注意力機制可以相互作用。其中,SE 模塊可以在不引入新的空間維度情況下顯示構(gòu)建特征通道之間的依賴關(guān)系,通過在圖像的每個通道施加 1 個權(quán)重,加大水果圖像對通道信息的差異。而CBAM 模塊可使得模型對空間信息更加敏感,抑制無效特征層的影響,提升模型的準確率[15]。

2 實驗及結(jié)果分析

2.1 實驗平臺

本實驗在Google Colabs 平臺上進行,GPU型號為Tesla K80,顯存為11 441 MiB,Python 版本為3.7.12,深度學習框架為Pytorch,版本為1.10.0。

2.2 數(shù)據(jù)集

本文使用的數(shù)據(jù)集是Kaggle 網(wǎng)站上的fruitfresh and rotten for classification 公開數(shù)據(jù)集。數(shù)據(jù)集大小為1.95 GB,分為訓(xùn)練集和測試集,每個集里又分為6 類,分別是新鮮蘋果、新鮮香蕉、新鮮橙子、腐爛蘋果、腐爛香蕉和腐爛橙子(如圖7 所示),圖片數(shù)量一共有13 600 多張。

2.3 模型訓(xùn)練與參數(shù)調(diào)整

224 224 3在模型訓(xùn)練過程中, 將圖像縮放至作為網(wǎng)絡(luò)輸入尺寸,由于數(shù)據(jù)集本身已經(jīng)進行了加入椒鹽噪聲、旋轉(zhuǎn)角度等數(shù)據(jù)增強處理,所以僅需要將數(shù)據(jù)集轉(zhuǎn)化為張量并進行歸一化。為了實驗數(shù)據(jù)的準確性,實驗中所有模型的超參數(shù)設(shè)置都保持一致,訓(xùn)練時批量大小設(shè)置為16,訓(xùn)練迭代次數(shù)為10 次,采用Adam 梯度下降法來更新參數(shù)和優(yōu)化模型,其學習率設(shè)置為0.000 1。

圖8 給出了本文改進后模型的訓(xùn)練過程可視化展示,該可視化使用了Grad-CAM 方法。在該模型過程的可視化分析中,選取新鮮蘋果和腐爛蘋果圖片各 1 張,圖中列出的layer 1—layer 4分別對應(yīng)模型中Block( 64) 、Block( 128) 、Block(256)、Block(512)。由圖像效果可知,訓(xùn)練模型所學習到的特征隨著層數(shù)的增加而逐漸顯著,最終完成的模型也因此更容易捕捉到圖像的關(guān)鍵信息。

2.4 模型評估指標

為了評價模型的性能, 采用了準確率( accuracy) 、精確率( precision) 、召回率(recall)、特異度(specificity)作為評價指標[16]。其中,準確率A 為模型正確分類樣本數(shù)占總樣本數(shù)比例,公式為

2.5 結(jié)果與分析

先將VGG16[17]、GoogLeNet[18]、ResNet34、MobileNetV2[19] 模型在該數(shù)據(jù)集進行實驗,結(jié)果如圖9、圖10 所示。ResNet34 網(wǎng)絡(luò)訓(xùn)練的準確率和損失值都優(yōu)于其他網(wǎng)絡(luò),其準確率為97.9%,故將ResNet34作為主干網(wǎng)絡(luò)。

然后分別測試了ResNet34、ResNet34+SE、ResNet34+CBAM 和ResNet34+SE+CBAM 網(wǎng)絡(luò)的實驗準確率,并進行對比。結(jié)果顯示,改進后的ResNet34+SE+CBAM 網(wǎng)絡(luò)準確率最高, 為98.8%,比ResNet34 提高了0.9%,比ResNet34+SE 提高了0.1%, 比ResNet34+CBAM 提高了0.5%。在精確率上,ResNet34+SE+CBAM網(wǎng)絡(luò)比ResNet34 提高了0.9%,比ResNet34+SE提高了0.1%, 比ResNet34+ CBAM 提高了0.4%。在召回率上, ResNet34+SE+CBAM網(wǎng)絡(luò)比ResNet34 提高了1.1%,比ResNet34+SE 提高了0.2%,比ResNet34+ CBAM 提高了0.6%。結(jié)果證明,改進后模型性能最佳,具體結(jié)果見表1。

表2 為改進后的模型ResNet34+SE+CBAM在測試集中各品種預(yù)測精確率、召回率、特異度結(jié)果。該網(wǎng)絡(luò)每類品種的特異度均超過99.5%,說明模型的誤分類率很小,但在腐爛蘋果這個品類上精確率和召回率最低,說明模型的性能還有提升的空間。

表3 為改進后的模型ResNet34+SE+CBAM與文獻 [5] 的實驗結(jié)果數(shù)據(jù)對比。該文獻采用MobileNetV2 模型進行實驗,且使用與本文相同的數(shù)據(jù)集。通過對比可知,改進后模型的大部分實驗數(shù)據(jù)都優(yōu)于文獻 [5] 報道的實驗結(jié)果,說明改進后模型的識別效果顯著提升。

由于公開的水果數(shù)據(jù)集中新鮮與腐爛水果的圖片差異較大,特征區(qū)分較容易等原因,上述各網(wǎng)絡(luò)在分類性能測試中精確率都很高[20]。但實際在做水果分類時,一些損壞不那么明顯的水果也經(jīng)常需要予以剔除,如圖11(d)—(f)所示:分別為蟲蛀、缺水縮皺、擠壓傷等。對于這類損傷,現(xiàn)有的數(shù)據(jù)集中相關(guān)樣本較少,從而使得訓(xùn)練后模型難以分辨現(xiàn)實水果的腐壞程度,可能出現(xiàn)分類錯誤。為了測試各模型對這類水果損傷的分類效果,新拍攝了334 張?zhí)O果圖片作為補充數(shù)據(jù),其中296 張為腐爛蘋果,38 張為新鮮蘋果,圖11為拍攝樣例,借此討論新增數(shù)據(jù)對網(wǎng)絡(luò)模型識別效果的提升作用。

由于新增的水果數(shù)據(jù)集數(shù)量較少,為了討論新數(shù)據(jù)集加入后對實驗結(jié)果的影響,在原數(shù)據(jù)集保持不變的基礎(chǔ)上,將新數(shù)據(jù)集加入到驗證集作為結(jié)果測試使用,而訓(xùn)練集保持不變。實驗結(jié)果表明,經(jīng)過訓(xùn)練之后,各個網(wǎng)絡(luò)模型在驗證集中測得的準確率均有所下降,特別是在蘋果這個類別中的各項指標均有明顯地下降,但改進后的ResNet34+SE+CBAM 網(wǎng)絡(luò)分類效果依然優(yōu)于未改進前網(wǎng)絡(luò)。表4、表5 分別展示了新數(shù)據(jù)加入驗證集前后的各網(wǎng)絡(luò)效果對比。

表4 為原始數(shù)據(jù)集中的10 次迭代測試結(jié)果,因為原始數(shù)據(jù)集中腐爛水果圖片損壞程度都比較嚴重,所以分類效果好。表5 則加入了一些損壞不嚴重的樣本,可以看到網(wǎng)絡(luò)模型的相關(guān)測試數(shù)據(jù)均有所下降,但改進后模型的分類效果仍有優(yōu)勢。

表6 為訓(xùn)練集中加入新數(shù)據(jù)后,網(wǎng)絡(luò)改進前后的實驗結(jié)果分析。經(jīng)過10 次訓(xùn)練迭代后,從各個網(wǎng)絡(luò)在蘋果類別的各項指標中可以看出,加入新數(shù)據(jù)后,ResNet34+SE+CBAM網(wǎng)絡(luò)的性能仍優(yōu)于ResNet34 網(wǎng)絡(luò),損失值降低0.052,準確率提高1.5%,同樣優(yōu)于加入單個注意力機制模塊的網(wǎng)絡(luò)性能。說明在新增數(shù)據(jù)集后,注意力機制模塊仍有助于提升網(wǎng)絡(luò)的識別能力。

將新的蘋果數(shù)據(jù)加入訓(xùn)練集,經(jīng)過損壞程度較低、不易區(qū)分的水果數(shù)據(jù)訓(xùn)練后,各模型在蘋果類別的指標都有所提升,包括新鮮蘋果和腐爛蘋果兩個類別,如圖12、圖13 所示。結(jié)果對比顯示,注意力機制模塊加入原網(wǎng)絡(luò)是有效的,改進后的ResNet34+SE+CBAM 模型效果更佳。

訓(xùn)練集數(shù)據(jù)擴增之后,在新鮮蘋果和腐蝕蘋果這兩個類別的對比實驗中, ResNet34+SE+CBAM 網(wǎng)絡(luò)分別比ResNet34 網(wǎng)絡(luò)的精確率提高了1.2% 和2.0%, 比ResNet34+SE 網(wǎng)絡(luò)提高1.2% 和0.4%, 比ResNet34+CBAM 網(wǎng)絡(luò)提高1.5% 和0.8%;在召回率上,比ResNet34提高2.1% 和2.4%,比ResNet34+SE 提高了0.1% 和1.4%,比ResNet34+CBAM 提高0.1% 和1.9%。結(jié)果證明,在數(shù)據(jù)增強后,雙注意力機制模塊的加入使改進后的模型表現(xiàn)出較好的實驗效果。

3 結(jié)論

本文將ResNet34 網(wǎng)絡(luò)應(yīng)用于缺陷水果分類數(shù)據(jù)集中, 并將其與VGG16、GoogLeNet、MobileNetV2 網(wǎng)絡(luò)作對比。實驗結(jié)果表明,ResNet34 網(wǎng)絡(luò)在準確率較高的情況下,損失下降得最快,效果最好。為了優(yōu)化模型,使其能在相同的迭代次數(shù)下達到較好的效果,在網(wǎng)絡(luò)中加入了注意力機制SE 和CBAM,增強了模型特征提取過程中關(guān)注顯著信息的能力,同時抑制無關(guān)的特征信息。實驗對比發(fā)現(xiàn):改進后的模型相比之前準確率提高了0.9%,而且比分別單獨加入一個注意力機制模塊的效果更好,準確率分別提高了0.1% 和0.5%;在加入新的蘋果數(shù)據(jù)集之后,改進后網(wǎng)絡(luò)在新鮮蘋果類別的精確率提高了1.2%, 在腐蝕水果類別的精確率提高了2.0%。在未來的工作中,將進一步研究更加細化的水果品質(zhì)分類,用更優(yōu)的分類網(wǎng)絡(luò)來幫助實現(xiàn)更高的實驗?zāi)繕恕?/p>

猜你喜歡
注意力機制深度學習
面向短文本的網(wǎng)絡(luò)輿情話題
基于自注意力與動態(tài)路由的文本建模方法
基于深度學習的問題回答技術(shù)研究
基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
基于注意力機制的雙向LSTM模型在中文商品評論情感分類中的研究
InsunKBQA:一個基于知識庫的問答系統(tǒng)
有體驗的學習才是有意義的學習
電子商務(wù)中基于深度學習的虛假交易識別研究
MOOC與翻轉(zhuǎn)課堂融合的深度學習場域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望