摘 要:隨著深度學(xué)習(xí)在商品識(shí)別領(lǐng)域的發(fā)展,飲料作為常見(jiàn)的商品,將飲料識(shí)別技術(shù)應(yīng)用于自助飲料售賣(mài)柜中具有一定的研究意義和價(jià)值。為了減少飲料類(lèi)別特征相似誤檢,提出了一種基于改進(jìn)YOLOv4的飲料識(shí)別算法,通過(guò)在基礎(chǔ)網(wǎng)絡(luò)CSPDarknet53的每組殘差模塊之間增加通道注意力機(jī)制來(lái)增強(qiáng)飲料區(qū)域特征信息。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的YOLOv4模型mAP值為92.43%,比改進(jìn)前提高了1.74%,具有較好的實(shí)際應(yīng)用價(jià)值。
關(guān)鍵詞:飲料識(shí)別;CSPDarknet53;YOLOv4;通道注意力機(jī)制
中圖分類(lèi)號(hào):TP183;TP391.4 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2024)15-0036-06
Beverage Identification Algorithm Based on Improved YOLOv4
SHEN Wei, LI Hongmei, TAO Yuan, ZHU Xueling
(School of Big Data and Artificial Intelligence, Anhui Xinhua University, Hefei 230088, China)
Abstract: With the development of Deep Learning in the field of product identification, beverage as a common product, applying beverage recognition technology to self-service beverage cabinets has certain research significance and value. In order to reduce the misconduct of the beverage category due to similar characteristics, a beverage recognition algorithm based on improved YOLOv4 is proposed. By increasing the Channel Attention Mechanism between the residual modules of the basic network CSPDarknet53, the characteristic information of the beverage area is enhanced. The experimental results show that the mAP value of the improved YOLOv4 reaches 92.43%, which is about 1.74% higher than that before improvement, and the model has good practical application value.
Keywords: beverage identification; CSPDarknet53; YOLOv4; Channel Attention Mechanism
0 引 言
隨著社會(huì)的進(jìn)步,人工智能的發(fā)展日新月異。目標(biāo)檢測(cè)與識(shí)別在諸多領(lǐng)域都起到了極其重要的作用。例如,人臉識(shí)別[1]、車(chē)輛識(shí)別[2]、視頻監(jiān)控異常[3]等多個(gè)方面。1989年Lecun[4]等人提出了第一個(gè)真正多層結(jié)構(gòu)學(xué)習(xí)算法LeNet[5]網(wǎng)絡(luò)用于對(duì)手寫(xiě)數(shù)字進(jìn)行識(shí)別,相比于現(xiàn)在的網(wǎng)絡(luò)識(shí)別效果雖然不是最優(yōu),但卻是一個(gè)開(kāi)創(chuàng)性的變化。之后,深度學(xué)習(xí)卷積網(wǎng)絡(luò)得到了迅速的發(fā)展,如AlexNet[6]、ResNet[7]、VGGNet[8]等。用于目標(biāo)識(shí)別的網(wǎng)絡(luò)也是層出不窮,源源不斷。
在現(xiàn)在的日常生活中,智能化設(shè)備的出現(xiàn)越來(lái)越方便我們的生活,自助飲料售賣(mài)柜,正是一種用于消費(fèi)者購(gòu)買(mǎi)飲料商品的智能化設(shè)備。與傳統(tǒng)人工售賣(mài)飲料相比,它的出現(xiàn)在一定程度上減少了人力成本。將基于深度學(xué)習(xí)的目標(biāo)識(shí)別技術(shù)應(yīng)用到自助飲料售賣(mài)柜中去,極大地提高了飲料商品識(shí)別的精度,減少了人力資源的消耗,同時(shí)使得自助飲料售賣(mài)更加智能化。
1 技術(shù)背景介紹
1.1 YOLOv4網(wǎng)絡(luò)結(jié)構(gòu)
圖1為YOLOv4的網(wǎng)絡(luò)整體結(jié)構(gòu),主要包括三個(gè)部分:CSPDarknet53、SPP模塊、PAN模塊。
CSPDarknet53是YOLOv4的骨干網(wǎng)絡(luò),是在Darknet53的每組殘差塊上都增加CSP[9](Cross Stage Partial),Darknet53有5組殘差塊,每組殘差塊包含的殘差單元數(shù)為1、2、8、8、4。
在CNN中加入CSP,使其在提高模型輕量化的基礎(chǔ)上還保證了模型的準(zhǔn)確率,有效地提高了CNN的學(xué)習(xí)能力。在殘差網(wǎng)絡(luò)ResNet(Residual Network)上增加CSP的結(jié)果展示如圖2所示。
SPP(Spatial Pyramid Pooling)模塊即空間金字塔池化模塊,結(jié)構(gòu)如圖1中的SPP部分所示。在YOLOv4中的主要作用是增加感受野,感受野是指輸入圖像上的某個(gè)區(qū)域,該區(qū)域影響Feature Map上某個(gè)元素的計(jì)算。輸入圖像通過(guò)CSPDarknet53提取特征再通過(guò)3個(gè)卷積層后對(duì)得到的特征圖進(jìn)行了5×5、9×9、13×13的最大池化,對(duì)最大池化后的特征和池化前的特征進(jìn)行Concatenate。
PAN(Path Aggregation Network)為路徑匯聚網(wǎng)絡(luò),F(xiàn)PN(Feature Pyramid Network)為特征金字塔網(wǎng)絡(luò),較淺的特征圖進(jìn)行上采樣操作并且與較深的特征圖進(jìn)行特征融合,與FPN[10]不同的是PAN會(huì)在上采樣后又增加一個(gè)下采樣,如圖3所示,展示了PAN作用的過(guò)程,從P7進(jìn)行上采樣到P3,P3再通過(guò)下采樣與每一層進(jìn)行特征融合輸出,這樣進(jìn)行特征融合可以增強(qiáng)每一層輸出的特征信息。但是YOLOv4對(duì)特征融合方式做了改進(jìn),并不是將特征層加在一起而是將特征圖連接在一起,如圖4所示。
1.2 通道注意力機(jī)制
注意力機(jī)制模塊就像人類(lèi)的眼睛一般,當(dāng)觀看美麗的風(fēng)景時(shí),往往注意到自己最喜愛(ài)的風(fēng)景部分,忽視那些不重要的風(fēng)景部分。同樣,網(wǎng)絡(luò)也是如此,在網(wǎng)絡(luò)中添加注意力機(jī)制,能夠獲得圖像重點(diǎn)所關(guān)注的目標(biāo)區(qū)域,也就是一般所說(shuō)的注意力焦點(diǎn),抑制其他無(wú)用信息,增強(qiáng)所關(guān)注的目標(biāo)區(qū)域的特征信息。對(duì)于飲料識(shí)別來(lái)說(shuō),由于飲料種類(lèi)繁多,并且飲料類(lèi)別的顏色及形狀、大小等具有特征相似性,飲料識(shí)別過(guò)程中會(huì)出現(xiàn)誤檢的情況,從而造成飲料檢測(cè)與識(shí)別效果較差。增加注意力機(jī)制可通過(guò)增強(qiáng)飲料的區(qū)域特征,提高飲料識(shí)別的精度。注意力機(jī)制有多種,通道注意力機(jī)制是注意力機(jī)制的一種,主要是在通道方向上增加注意力機(jī)制,通過(guò)自動(dòng)學(xué)習(xí)的方式能夠獲得每個(gè)特征通道的重要性并為每個(gè)特征通道分配一個(gè)權(quán)重,讓網(wǎng)絡(luò)重點(diǎn)去關(guān)注重要的特征通道,抑制無(wú)用特征通道。
圖5為通道注意力機(jī)制模塊結(jié)構(gòu),首先將輸入特征分成兩步,一步進(jìn)行最大池化操作,另一步進(jìn)行平均池化操作,然后將得到的特征分別通過(guò)共享的兩層神經(jīng)網(wǎng)絡(luò)MLP,再將通過(guò)MLP輸出的特征進(jìn)行加和操作,通過(guò)Sigmoid激活操作,最后得到通道注意力特征圖,再與輸入特征圖進(jìn)行相乘操作,得到最終的增加通道注意力機(jī)制的特征圖。Mc計(jì)算公式如式(1)所示:
(1)
其中:σ為sigmoid激活函數(shù),W0和W1為卷積層參數(shù),AvgPool為平均池化函數(shù),MaxPool為最大池化函數(shù)。
1.3 損失函數(shù)
網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)包括邊界框回歸損失函數(shù)Lossciou、置信度損失函數(shù)Lossconf和分類(lèi)損失函數(shù)Lossclass,YOLOv4中的邊界框回歸損失函數(shù)是將YOLOv3的MSE函數(shù)改成了CIoU函數(shù),Lossciou如式(2),Lossconf如式(3),Lossclass如式(4):
在式(2)中,b為預(yù)測(cè)框的中心坐標(biāo),w、h為框的寬高,式(3)的參數(shù)λnoobj為權(quán)重系數(shù),為預(yù)測(cè)目標(biāo)置信度,為真實(shí)目標(biāo)置信度,式(4)中為預(yù)測(cè)目標(biāo)概率,為真實(shí)目標(biāo)概率。
2 基于YOLOv4模型改進(jìn)
在本方法的飲料識(shí)別中,飲料的種類(lèi)繁多,采集的飲料數(shù)據(jù)共有21類(lèi),由于飲料類(lèi)別間存在顏色、形狀、大小等特征極其相似的情況,所以會(huì)出現(xiàn)誤檢,從而導(dǎo)致某些飲料識(shí)別的精確度較低。本方法從這個(gè)角度出發(fā),在YOLOv4的基礎(chǔ)網(wǎng)絡(luò)CSPDarknet53的每組殘差單元間增加了如圖5的通道注意力機(jī)制,通過(guò)增強(qiáng)飲料區(qū)域的特征細(xì)節(jié)信息,從而提高飲料識(shí)別的精度。改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。
3 實(shí)驗(yàn)過(guò)程及結(jié)果分析
3.1 數(shù)據(jù)集及實(shí)驗(yàn)環(huán)境
本文實(shí)驗(yàn)所采用的數(shù)據(jù)集是將魚(yú)眼攝像頭安裝在冰箱的某一層,將飲料隨機(jī)擺放在不同位置,從上至下進(jìn)行拍攝采集圖像,如圖7所示。本次共使用飲料21類(lèi),采集了3 098張靜態(tài)圖像。將采集的數(shù)據(jù)按9:1的比例劃分為訓(xùn)練集和測(cè)試集,給定每類(lèi)飲料特定的標(biāo)簽,各類(lèi)飲料類(lèi)別和飲料標(biāo)簽如表1所示。用標(biāo)注工具labelImg-master對(duì)訓(xùn)練集和測(cè)試集分別進(jìn)行標(biāo)注,制作VOC數(shù)據(jù)集。訓(xùn)練時(shí)將數(shù)據(jù)和對(duì)應(yīng)的標(biāo)簽文件同時(shí)放入模型中進(jìn)行訓(xùn)練,網(wǎng)絡(luò)訓(xùn)練的環(huán)境配置如表2所示。
3.2 網(wǎng)絡(luò)改進(jìn)前后實(shí)驗(yàn)對(duì)比
分別使用訓(xùn)練后的最優(yōu)模型對(duì)指定測(cè)試集進(jìn)行檢測(cè),即可得到單個(gè)被測(cè)飲料類(lèi)別被識(shí)別的平均精度值A(chǔ)P以及所有類(lèi)別平均精度的均值mAP。
圖8(a)為YOLOv4網(wǎng)絡(luò)測(cè)試結(jié)果,圖8(b)為改進(jìn)后的YOLOv4網(wǎng)絡(luò)測(cè)試結(jié)果。從改進(jìn)前后各個(gè)飲料類(lèi)別的AP值對(duì)比可看出,網(wǎng)絡(luò)改進(jìn)之后AP值有一定的提升。整體來(lái)看,mAP值由原來(lái)的90.69%提高到了92.43%,提高了1.74%。由此可驗(yàn)證本文提出的增加通道注意力機(jī)制的YOLOv4網(wǎng)絡(luò)較原模型有所改進(jìn)。
利用原YOLOv4網(wǎng)絡(luò)與改進(jìn)后的YOLOv4網(wǎng)絡(luò)對(duì)圖像檢測(cè)速度FPS進(jìn)行測(cè)試,其結(jié)果如表3所示。通過(guò)兩次實(shí)驗(yàn)的FPS值對(duì)比來(lái)看,改進(jìn)前為19.76(幀/秒),改進(jìn)后為20.36(幀/秒),網(wǎng)絡(luò)改進(jìn)后檢測(cè)速度有了一定的提高。該實(shí)驗(yàn)結(jié)果也表明了網(wǎng)絡(luò)改進(jìn)的有效性。
3.3 不同網(wǎng)絡(luò)實(shí)驗(yàn)對(duì)比
將增加通道注意力機(jī)制的YOLOv4網(wǎng)絡(luò)與常見(jiàn)的三種目標(biāo)檢測(cè)網(wǎng)絡(luò)SSD512、Faster R-CNN、YOLOv3進(jìn)行對(duì)比,三種網(wǎng)絡(luò)在與表2相同的設(shè)備以及環(huán)境配置下進(jìn)行實(shí)驗(yàn)。
對(duì)SSD模型進(jìn)行訓(xùn)練,SSD模型是在PyTorch框架下進(jìn)行實(shí)驗(yàn),512×512為輸入圖像的大小,網(wǎng)絡(luò)訓(xùn)練集和測(cè)試集都是一致的,以VGG-16為骨干網(wǎng)絡(luò),訓(xùn)練生成的權(quán)重文件對(duì)測(cè)試集進(jìn)行測(cè)試,設(shè)定相同的置信度閾值為0.5,測(cè)試的結(jié)果如圖9所示,從圖中可看出測(cè)試的mAP值為86.55%。對(duì)其FPS值進(jìn)行測(cè)試,測(cè)試的FPS值為12.5幀/秒。
Faster R-CNN網(wǎng)絡(luò)是在Keras框架下對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,以ResNet50為骨干網(wǎng)絡(luò),輸入圖像大小為600×600,訓(xùn)練之后會(huì)得到相應(yīng)的權(quán)重文件,使用該權(quán)重文件對(duì)測(cè)試集進(jìn)行測(cè)試,測(cè)試時(shí)設(shè)置與之前網(wǎng)絡(luò)同樣的置信度閾值0.5,使用該權(quán)重文件對(duì)飲料數(shù)據(jù)測(cè)試集測(cè)試的結(jié)果如圖10所示。從圖可看出飲料識(shí)別的mAP值為87.25%,雖然Faster R-CNN網(wǎng)絡(luò)識(shí)別的精度還不錯(cuò),但是模型較大,檢測(cè)速度較慢,測(cè)試的FPS值只有1.98幀/秒。
采用YOLOv3網(wǎng)絡(luò)對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,YOLOv3是以Darknet53為骨干網(wǎng)絡(luò),在Keras框架下進(jìn)行實(shí)驗(yàn),與其他網(wǎng)絡(luò)設(shè)置相同的網(wǎng)絡(luò)參數(shù),輸入的圖像大小為416×416。通過(guò)網(wǎng)絡(luò)訓(xùn)練,得到相應(yīng)的訓(xùn)練后的權(quán)重文件。使用權(quán)重文件對(duì)飲料測(cè)試集進(jìn)行測(cè)試的結(jié)果如圖11所示。從圖中可看出,采用YOLOv3網(wǎng)絡(luò)進(jìn)行飲料識(shí)別的mAP值為87.01%。同樣,對(duì)YOLOv3網(wǎng)絡(luò)的檢測(cè)速度FPS值進(jìn)行測(cè)試,測(cè)試的FPS值為18幀/秒,略低于YOLOv4。
為了更好展示改進(jìn)后的YOLOv4網(wǎng)絡(luò)與YOLOv4、SSD512、Faster R-CNN、YOLOv3網(wǎng)絡(luò)的結(jié)果對(duì)比情況,將實(shí)驗(yàn)結(jié)果呈現(xiàn)在表中,如表4所示。從測(cè)試的mAP值可看出,SSD512識(shí)別的mAP值相比于其他網(wǎng)絡(luò)較低,F(xiàn)aster R-CNN網(wǎng)絡(luò)識(shí)別的mAP值優(yōu)于SSD512,但是由于它不能滿(mǎn)足實(shí)時(shí)性,F(xiàn)PS值非常低。YOLOv3在飲料識(shí)別的mAP值以及檢測(cè)速度FPS值上都達(dá)到了不錯(cuò)的效果,但是不如YOLOv4。YOLOv4是在YOLOv3的基礎(chǔ)上進(jìn)行了一系列的改進(jìn),對(duì)于本文的飲料數(shù)據(jù)來(lái)說(shuō),它在識(shí)別精度和檢測(cè)速度達(dá)到了一個(gè)更好的效果,與YOLOv3相比,mAP值提升了3.68%,F(xiàn)PS值也增加了約1.76幀/秒,檢測(cè)與識(shí)別效果優(yōu)于YOLOv3。本文改進(jìn)的方法相對(duì)于其他網(wǎng)絡(luò)效果較好,mAP值在YOLOv4基礎(chǔ)上又提升了1.74%,檢測(cè)速度也略高于YOLOv4,檢測(cè)速度是Faster R-CNN網(wǎng)絡(luò)的10倍多,從這些實(shí)驗(yàn)數(shù)據(jù)可充分說(shuō)明改進(jìn)實(shí)驗(yàn)的有效性,同時(shí)也具有很好的實(shí)時(shí)性。
3.4 測(cè)試集測(cè)試結(jié)果
為了進(jìn)一步證明改進(jìn)后網(wǎng)絡(luò)的有效性,本實(shí)驗(yàn)采用生成的模型對(duì)測(cè)試集進(jìn)行測(cè)試,測(cè)試集共有309張圖片,每張圖片上有一個(gè)或多個(gè)檢測(cè)類(lèi)別目標(biāo),檢測(cè)閾值設(shè)定為0.5,飲料識(shí)別與檢測(cè)的正確個(gè)數(shù)和錯(cuò)誤個(gè)數(shù)如圖12所示,黑色標(biāo)注為錯(cuò)誤檢測(cè)的部分。在圖12中,圖(a)為網(wǎng)絡(luò)改進(jìn)前的測(cè)試結(jié)果,圖(b)為改進(jìn)后網(wǎng)絡(luò)的測(cè)試結(jié)果,圖(a)、圖(b)對(duì)比可看出飲料類(lèi)別的檢測(cè)與識(shí)別錯(cuò)誤率有了一定的降低,例如圖(a)中的飲料類(lèi)別恒大冰泉、加多寶、康師傅礦泉水、農(nóng)夫山泉、王老吉、果粒橙檢測(cè)效果較差,在圖(b)檢測(cè)結(jié)果中錯(cuò)誤率都有了一定的降低,圖(a)、圖(b)對(duì)比從一定程度上證明改進(jìn)后網(wǎng)絡(luò)的有效性。
4 結(jié) 論
針對(duì)所采集的數(shù)據(jù)集中存在飲料類(lèi)別的顏色、形狀特征等極其相似的問(wèn)題,提出一種基于改進(jìn)YOLOv4的飲料識(shí)別算法,對(duì)YOLOv4網(wǎng)絡(luò)進(jìn)行改進(jìn),在YOLOv4基礎(chǔ)網(wǎng)絡(luò)CSPDarknet53的每組殘差單元之間增加通道注意力機(jī)制,在一定程度上增強(qiáng)了飲料區(qū)域特征信息,提高了飲料識(shí)別的精度。與原YOLOv4網(wǎng)絡(luò)相比,達(dá)到了預(yù)期效果,在測(cè)試集上mAP值為92.43%,檢測(cè)速度可達(dá)到20.36幀/秒。與其他三種常見(jiàn)的目標(biāo)檢測(cè)網(wǎng)絡(luò)SSD512、Faster R-CNN、YOLOv3相比,不管是在識(shí)別精度上還是檢測(cè)速度上,改進(jìn)優(yōu)化后的YOLOv4網(wǎng)絡(luò)效果都優(yōu)于這三種網(wǎng)絡(luò),檢測(cè)與識(shí)別效果良好。
參考文獻(xiàn):
[1] 左棟,楊明遠(yuǎn).基于Res Net50網(wǎng)絡(luò)特征融合的人臉識(shí)別技術(shù)研究 [J].電腦與信息技術(shù),2023,31(1):22-24.
[2] 施國(guó)棟,韋軍,孫國(guó)林,等.RFID車(chē)型識(shí)別技術(shù)的應(yīng)用研究 [J].汽車(chē)工藝與材料,2023(1):66-72.
[3] 柏萬(wàn)勝,孫鵬,郎宇博,等.視頻中異常行為自動(dòng)檢測(cè)技術(shù)研究 [J].安全,2023,44(2):1-6+9+90.
[4] LECUN Y,BOSER B,DENKER J S,et al. Handwritten Digit Recognition with a Back-Propagation Network [J].Advances in Neural Information Processing Systems,1990:396-404.
[5] LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient-Based Learning Applied to Document Recognition [J].Proceedings of the IEEE,1998,86(11):2278-2324.
[6] RUSSAKOVSKY O,DENG J,SU H,et al. ImageNet Large Scale Visual Recognition Challenge [J/OL].arXiv:1409.0575 [cs.CV].[2024-01-08].https://arxiv.org/abs/1409.0575v3.
[7] HE K M,ZHANG X Y,REN S Q,et al. Deep Residual Learning for Image Recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas:IEEE,2016:770-778.
[8] SIMONYAN K,ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition [J/OL].arXiv:1409.1556 [cs.CV].[2024-01-08].https://arxiv.org/abs/1409.1556.
[9] WANG C Y,LIAO H Y M,WU Y H,et al. CSPNet: A New Backbone that can Enhance Learning Capability of CNN [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops.Seattle:IEEE,2020:1571-1580.
[10] LIN T Y,DOLLáR P,GIRSHICK R,et al. Feature pyramid networks for object detection [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition.Honolulu:IEEE,2017:936-944.
作者簡(jiǎn)介:沈薇(1996—),女,漢族,安徽馬鞍山人,助教,碩士研究生,研究方向:計(jì)算機(jī)視覺(jué);李紅梅(1981—),女,漢族,安徽淮北人,副教授,本科,研究方向:機(jī)器視覺(jué);陶苑(1991—),女,漢族,安徽蕪湖人,助教,碩士研究生,研究方向:計(jì)算機(jī)應(yīng)用技術(shù);朱學(xué)玲(1979—),女,漢族,安徽宿州人,副教授,本科,研究方向:計(jì)算機(jī)視覺(jué)。