国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融入注意力機(jī)制的輕量化可回收垃圾檢測(cè)方法

2023-05-13 02:32:54郭洲黃詩浩謝文明呂暉張旋旋陳哲
包裝工程 2023年9期
關(guān)鍵詞:卷積聚類垃圾

郭洲,黃詩浩,謝文明,呂暉,張旋旋,陳哲

融入注意力機(jī)制的輕量化可回收垃圾檢測(cè)方法

郭洲1,2,黃詩浩1,2,謝文明2,呂暉1,2,張旋旋1,2,陳哲1,2

(1.福建省汽車電子與電驅(qū)動(dòng)技術(shù)重點(diǎn)實(shí)驗(yàn)室,福州 350118; 2.福建工程學(xué)院 電子與電氣物理學(xué)院,福州 350118)

針對(duì)目前智能垃圾分類設(shè)備使用的垃圾檢測(cè)方法存在檢測(cè)速度慢且模型權(quán)重文件較大等問題,提出一種基于YOLOv4的輕量化方法,以實(shí)現(xiàn)可回收垃圾的檢測(cè)。采用MobileNetV2輕量級(jí)網(wǎng)絡(luò)為YOLOv4的主干網(wǎng)絡(luò),用深度可分離卷積來優(yōu)化頸部和頭部網(wǎng)絡(luò),以減少參數(shù)量和計(jì)算量,提高檢測(cè)速度;在頸部網(wǎng)絡(luò)中融入CBAM注意力模塊,提高模型對(duì)目標(biāo)特征信息的敏感度;使用K?means算法重新聚類,得到適合自建可回收數(shù)據(jù)集中檢測(cè)目標(biāo)的先驗(yàn)框。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后模型的參數(shù)量減少為原始YOLOv4模型的17.0%,檢測(cè)的平均精度達(dá)到96.78%,模型權(quán)重文件的大小為46.6 MB,約為YOLOv4模型權(quán)重文件的19.1%,檢測(cè)速度為20.46幀/s,提高了約25.4%,檢測(cè)精度和檢測(cè)速度均滿足實(shí)時(shí)檢測(cè)要求。改進(jìn)的YOLOv4模型能夠在檢測(cè)可回收垃圾時(shí)保證較高的檢測(cè)精度,同時(shí)具有較好的實(shí)時(shí)性。

可回收垃圾檢測(cè);MobileNetV2;YOLOv4;注意力機(jī)制;深度學(xué)習(xí)

隨著經(jīng)濟(jì)的快速發(fā)展,人們的生活水平進(jìn)一步提高,伴隨而來的垃圾產(chǎn)出數(shù)量也在逐年增加,垃圾對(duì)環(huán)境、人們的健康造成的影響也日益凸顯,垃圾處理面臨著巨大的挑戰(zhàn)。垃圾分類是減少垃圾處理量的一種有效方式。由于目前垃圾的種類繁多,很難實(shí)現(xiàn)準(zhǔn)確分類。隨著人工智能的快速發(fā)展及計(jì)算機(jī)算力的不斷提升,垃圾分類研究已經(jīng)受到國內(nèi)外學(xué)者的廣泛關(guān)注,尤其是對(duì)能高效分揀垃圾的智能垃圾分揀設(shè)備的研究。比如,美國光學(xué)分類設(shè)備生產(chǎn)公司設(shè)計(jì)的Max?AI智能分類機(jī)器人,通過掃描物體形狀來實(shí)現(xiàn)分類,其準(zhǔn)確率較高;日本的FANUC分揀機(jī)器人,利用視覺分析系統(tǒng)對(duì)物品進(jìn)行跟蹤和分類;中國的Picking AI垃圾分類機(jī)器人,利用人工智能算法、機(jī)器人控制等技術(shù)實(shí)現(xiàn)垃圾分揀。上述分揀機(jī)器人的分揀功能較單一、占用面積較大、價(jià)格昂貴,因此無法大規(guī)模應(yīng)用。隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,基于深度學(xué)習(xí)模型解決的問題也越來越多。由此,可以將深度學(xué)習(xí)技術(shù)應(yīng)用于智能垃圾分揀設(shè)備,以解決當(dāng)前垃圾分類困難和人工分揀效率低等問題。

近年來,基于深度學(xué)習(xí)技術(shù)的目標(biāo)檢測(cè)算法發(fā)展迅速[1]。目標(biāo)檢測(cè)算法主要分為兩階段算法和一階段算法。兩階段算法首先采用傳統(tǒng)的選擇性搜索(Selective Search)及后來更新的區(qū)域生成網(wǎng)絡(luò)(Region Proposal Network,RPN)生成候選區(qū)域,然后對(duì)候選區(qū)域特征進(jìn)行提取和分類,得到最終的檢測(cè)結(jié)果,其特點(diǎn)是精度較高,缺點(diǎn)是檢測(cè)速度較慢,以Fast R?CNN(Fast Region-Convolutional Neural Network)[2]、Faster R?CNN[3]等算法為代表。一階段算法直接在整張圖片中生成若干候選框,即可同時(shí)得到目標(biāo)的位置和類別信息。雖然一階段算法的準(zhǔn)確率相對(duì)于兩階段算法較低,但其檢測(cè)速度更快。目前,通常將一階段算法用于實(shí)時(shí)檢測(cè)的場(chǎng)景,以SSD(Single Shot Multibox Detector)[4]、YOLO(You Only Look Once)[5-8]系列,以及RetinaNet[9]等算法為代表。其中,RetinaNet提出的 Focal Loss解決了一階段算法正負(fù)樣本不均衡的問題,提高了一階段算法的檢測(cè)精度。當(dāng)前,深度學(xué)習(xí)目標(biāo)檢測(cè)方法在垃圾目標(biāo)檢測(cè)方面開展了一系列研究。趙珊等[10]提出了一種基于IFPN+MobilenetV2?SSD模型的垃圾實(shí)時(shí)分類檢測(cè)方法,使用MobileNetV2作為SSD的主干網(wǎng)絡(luò),加入帶有空洞卷積的空間金字塔池化模塊,提高了模型的檢測(cè)精度和檢測(cè)速度。馬雯等[11]提出了改進(jìn)的Faster R?CNN垃圾目標(biāo)檢測(cè)模型,實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)Faster R?CNN算法相比,其平均精確度提高了8.26%,綜合識(shí)別率達(dá)到81.77%。許偉等[12]提出了一種基于YOLOv3算法的輕量級(jí)垃圾目標(biāo)檢測(cè)算法,能有效地對(duì)垃圾目標(biāo)進(jìn)行檢測(cè)。李慶等[13]基于YOLOv4提出了嵌入注意力機(jī)制的目標(biāo)檢測(cè)算法Attn?YOLOv4,經(jīng)實(shí)驗(yàn)驗(yàn)證,比原始YOLOv4算法的平均精度(Mean Average Precision,mAP)提高了0.16%,實(shí)現(xiàn)了對(duì)運(yùn)動(dòng)垃圾的快速穩(wěn)定跟蹤,在20 mm誤差范圍內(nèi)達(dá)到0.945的精確度。Kumar等[14]建立了一個(gè)垃圾數(shù)據(jù)集,共包含數(shù)量為6317張的垃圾圖像,在YoLov4模型中訓(xùn)練,平均精度達(dá)到94.99%。

上述方法雖然在一定程度上有效地提高了垃圾分類檢測(cè)的精度和速度,但很多檢測(cè)方法的參數(shù)過多,導(dǎo)致內(nèi)存占用較大,其檢測(cè)精度和速度存在較大的改進(jìn)空間;存在不注意特定場(chǎng)景和標(biāo)準(zhǔn)數(shù)據(jù)集場(chǎng)景之間差異的問題,不能達(dá)到與通用數(shù)據(jù)集相同的結(jié)果;存在因垃圾目標(biāo)樣本中的小目標(biāo)樣本導(dǎo)致的正、負(fù)樣本不平衡,從而出現(xiàn)垃圾分類檢測(cè)精度低的問題。針對(duì)以上問題,文中提出了一種基于YOLOv4改進(jìn)的輕量化可回收垃圾檢測(cè)方法,通過優(yōu)化網(wǎng)絡(luò)模型結(jié)構(gòu)和減少模型參數(shù)來提升檢測(cè)精度和檢測(cè)速度,使網(wǎng)絡(luò)模型在滿足檢測(cè)精度的同時(shí)保證了檢測(cè)速度。

1 相關(guān)網(wǎng)絡(luò)模型及原理介紹

1.1 YOLOv4網(wǎng)絡(luò)模型

YOLOv4是一種端到端的目標(biāo)檢測(cè)模型,在YOLOv3的基礎(chǔ)上進(jìn)行改進(jìn),并經(jīng)過不斷的模型優(yōu)化,模型的檢測(cè)精度和速度達(dá)到了不錯(cuò)的水平。YOLOv4整體結(jié)構(gòu)大致分為3個(gè)部分。

1)主干特征提取網(wǎng)絡(luò)。YOLOv4采用CSPDarknet53作為主干(Backbone),包含由29個(gè)卷積層堆疊而成的5組(Cross Stage Partial Network,CSPNet)模塊[15]。CSPNet結(jié)構(gòu)可以增強(qiáng)卷積網(wǎng)絡(luò)的學(xué)習(xí)能力,減少模型的計(jì)算量。通過對(duì)主干網(wǎng)絡(luò)進(jìn)行特征提取,得到了3個(gè)有效特征圖,尺度分別為13×13、26×26、52×52。不同尺度的特征圖包含不同維度的目標(biāo)語義信息。

2)頸部特征融合網(wǎng)絡(luò)。包含空間金字塔池化(Space Pyramid Pool,SPP)模塊[16]和路徑聚合網(wǎng)絡(luò)(Path Aggregation Network,PANet)[17]2個(gè)部分,SPP網(wǎng)絡(luò)對(duì)Backbone輸出的13×13特征圖進(jìn)行了1×1、5×5、9×9、13×13等4種尺度的最大池化(Maxpooling)操作,有效提高了網(wǎng)絡(luò)的感受野。PANet相較于特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN),增加了一條自下而上的增強(qiáng)路徑,加強(qiáng)了對(duì)淺層信息的提取,提高了模型的檢測(cè)精度。

3)頭部預(yù)測(cè)網(wǎng)絡(luò)。對(duì)特征融合網(wǎng)絡(luò)輸出的3個(gè)不同大小特征圖的信息進(jìn)行解碼,分別檢測(cè)小、中、大3個(gè)目標(biāo),在原圖上輸出檢測(cè)目標(biāo)的位置和類別。

1.2 MobileNetV2網(wǎng)絡(luò)結(jié)構(gòu)

深度可分離卷積將卷積分為2個(gè)過程:深度卷積,采用3×3的卷積核進(jìn)行DWConv操作;逐點(diǎn)卷積,采用1×1的卷積核進(jìn)行普通卷積操作。深度可分離卷積操作在參數(shù)量和計(jì)算量上比標(biāo)準(zhǔn)卷積操作更少,標(biāo)準(zhǔn)卷積和深度可分離卷積兩者的卷積過程如圖1—2所示。

圖1 標(biāo)準(zhǔn)卷積

圖2 深度可分離卷積

對(duì)于輸入為F×F×的特征圖,F(xiàn)為輸入特征圖的高度或?qū)挾?,為通道?shù)。對(duì)特征圖進(jìn)行卷積操作,卷積核大小為K×K,卷積核的數(shù)量為,通道數(shù)為1,輸出特征圖的大小為G×G×,G為輸出特征圖的高度或?qū)挾?,為通道?shù)。

對(duì)特征圖進(jìn)行標(biāo)準(zhǔn)卷積的過程中的計(jì)算量1和參數(shù)量1如式(1)—(2)所示。

在對(duì)特征圖進(jìn)行深度可分離卷積過程中的計(jì)算量2和參數(shù)量2如式(3)—(4)所示。

深度可分離卷積與標(biāo)準(zhǔn)卷積計(jì)算量之比的計(jì)算如式(5)所示。

MobileNetV2是在MobileNetV1的基礎(chǔ)上引入具有線性瓶頸的倒殘差結(jié)構(gòu)[18]。殘差模塊先對(duì)特征圖進(jìn)行壓縮,然后再擴(kuò)張,而倒殘差結(jié)構(gòu)與之相反,先對(duì)特征圖進(jìn)行擴(kuò)張,然后再壓縮。MobileNetV2有2種倒殘差模塊,如圖3所示。當(dāng)stride=1時(shí),特征圖首先通過一個(gè)1×1的卷積來提升通道維度,且激活函數(shù)使用ReLU6,然后通過一個(gè)3×3的深度卷積進(jìn)行特征提取,且激活函數(shù)使用ReLU6,最后通過一個(gè)1×1的卷積來降低通道維度,并采用線性激活函數(shù)。為了避免特征信息的損失,采用Linear線性激活函數(shù),接著將輸出結(jié)果與輸入進(jìn)行shortcut拼接。當(dāng)stride=2時(shí),與stride=1時(shí)的原理差不多,唯一不同的是無shortcut拼接。因?yàn)檩敵龊洼斎氲奶卣鲌D尺度不一樣,所以無法進(jìn)行shortcut拼接。

圖3 具有線性瓶頸的倒殘差模塊

CSPDarknet 53與MobileNetV2各層計(jì)算量和參數(shù)量的對(duì)比如表1所示。2種網(wǎng)絡(luò)結(jié)構(gòu)均使用了2種大小為3×3和1×1的卷積核。在不考慮激活函數(shù)層、BN層和全連接層的影響下,設(shè)置輸入圖片的尺寸為416×416×3,各層的計(jì)算量和參數(shù)量如表1—2所示。

表1 CSPDarknet 53各層的計(jì)算量與參數(shù)量

Tab.1 Computational and parametric quantities for each layer of CSPDarknet 53

注:3×3/2表示步長為2的卷積,其余步長均為1。

表2 MobileNetV2各層的計(jì)算量與參數(shù)量

Tab.2 Computational and parametric quantities for each layer of MobileNetV2

2 YOLOv4模型輕量化

2.1 主干網(wǎng)絡(luò)優(yōu)化

原始的YOLOv4模型存在參數(shù)過多、計(jì)算量大等缺點(diǎn),因此為了減少參數(shù)量、提高檢測(cè)速度,使減少參數(shù)量與提高檢測(cè)速度這兩者之間達(dá)到最優(yōu)平衡,文中采用參數(shù)量少的輕量級(jí)網(wǎng)絡(luò)MobileNetV2來作為模型Backbone。由MobileNetV2替換CSPDarknet53重新構(gòu)建的主干網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,經(jīng)過主干網(wǎng)絡(luò)特征提取后,獲得了3個(gè)有效特征層,分別為52×52×32、26×26×96、13×13×320,這3個(gè)有效特征層將作為頸部網(wǎng)絡(luò)的輸入。

圖4 重新構(gòu)建的主干網(wǎng)絡(luò)結(jié)構(gòu)

2.2 頸部網(wǎng)絡(luò)和頭部網(wǎng)絡(luò)優(yōu)化

為了進(jìn)一步減少模型的參數(shù),對(duì)頸部和頭部網(wǎng)絡(luò)進(jìn)行了優(yōu)化。因?yàn)樵陬i部和頭部網(wǎng)絡(luò)中存在許多三次和五次卷積塊,并且在三次和五次卷積塊中存在大量步長為1的3×3卷積,同時(shí)在頸部網(wǎng)絡(luò)中的二倍下采樣(DownSampling)模塊中也存在步長為2的3×3卷積,這都將造成大量的卷積運(yùn)算,影響模型的推理速度,所以將三次和五次卷積塊及二倍下采樣模塊中的3×3卷積修改為3×3的深度可分離卷積。同時(shí),為了使網(wǎng)絡(luò)模型更加關(guān)注待檢測(cè)目標(biāo)的高層語義特征,文中受到CBAM的啟發(fā),采用通道注意力模塊來增大感興趣區(qū)域特征通道的權(quán)重,并且通過空間注意力模塊來關(guān)注感興趣區(qū)域的空間位置,增大有意義特征區(qū)域的權(quán)重,減少無效區(qū)域的權(quán)重[19]。CBAM模型如圖5所示。通道注意力模塊的主要實(shí)現(xiàn)過程:首先對(duì)輸入的特征圖進(jìn)行全局空間最大池化和平均池化,得到2個(gè)維度為1×1×的特征圖,然后將它們輸入1個(gè)2層的共享神經(jīng)網(wǎng)絡(luò)(Multilayer Perceptron,MLP),得到2個(gè)特征向量,再將它們求和,通過激活函數(shù)得到通道注意力權(quán)重參數(shù)c(),最后將權(quán)重系數(shù)c()與原特征圖相乘,得到新的特征圖1,見式(6)—(7)。

c()=(MLP(AvgPool())+MLP(MaxPool())) (6)

式中:(·)為sigmoid()函數(shù);MLP(·)為多層感知機(jī)網(wǎng)絡(luò)模型函數(shù);AvgPool為平均池化;MaxPool為最大池化。

空間注意力模塊的主要實(shí)現(xiàn)過程:將特征圖1作為本模塊的輸入特征圖,首先進(jìn)行全局空間最大池化和平均池化,得到2個(gè)××1的特征圖,然后將這2個(gè)特征圖進(jìn)行堆疊拼接,之后經(jīng)過卷積核為7×7的卷積操作,再經(jīng)過激活函數(shù)后得到空間注意力權(quán)重參數(shù)s(1),最后將權(quán)重參數(shù)s(1)與特征圖1相乘,得到最終的特征圖2,見式(8)—(9)。融入具有雙重注意力機(jī)制的頸部網(wǎng)絡(luò),如圖5所示。

s(1)=(7×7(AvgPool(1);MaxPool(1))) (8)

2=s(1)×(9)

圖5 CBAM結(jié)構(gòu)

模型的特征圖可視化結(jié)果如圖6所示,可知融入CBAM注意力機(jī)制后可以更好地覆蓋目標(biāo)區(qū)域,增加目標(biāo)區(qū)域的顯著度,因此模型能夠更好地學(xué)習(xí)目標(biāo)區(qū)域的特征。為了保證模型的檢測(cè)精度和速度,最終在頸部網(wǎng)絡(luò)融入了3個(gè)CBAM模塊。

圖6 特征圖可視化結(jié)果

經(jīng)修改后模型的參數(shù)量得到大幅度減少,與原始YOLOv4模型參數(shù)量的對(duì)比見表3。

表3 模型參數(shù)的對(duì)比

Tab.4 Comparison of model parameters

由表3可知,改進(jìn)后YOLOv4模型的參數(shù)量為10 973 415,參數(shù)量僅為原始YOLOv4模型的約17.0%,參數(shù)量的減少使得模型更加輕量化,從而加快了模型的推理速度。改進(jìn)后的模型整體結(jié)構(gòu)如圖7所示。

2.3 先驗(yàn)框重新聚類

原始YOLOv4模型中的先驗(yàn)框尺寸采用K?means算法[20]在PASCAL VOC數(shù)據(jù)集聚類時(shí)得到,PASCAL VOC數(shù)據(jù)集中包含20類目標(biāo),而自建的可回收垃圾數(shù)據(jù)集只有5類目標(biāo),與PASCAL VOC數(shù)據(jù)集中所包含的目標(biāo)種類和數(shù)量都存在較大差異,錨框尺寸不一定適合可回收垃圾的檢測(cè)。為了得到更加匹配的先驗(yàn)框[21],采用K?means算法對(duì)自建的可回收垃圾中5種類型標(biāo)注框的寬高維度進(jìn)行重新聚類。K?means算法的步驟:首先隨機(jī)選取個(gè)初始的聚類中心;其次,計(jì)算其他目標(biāo)與聚類中心的距離,根據(jù)距離度量形成新的個(gè)簇,并重新調(diào)整聚類中心;最后,通過循環(huán)迭代調(diào)整,使群中各個(gè)目標(biāo)向各聚類中心聚集,使群之間的距離變大。K?means算法通常以歐氏距離為距離度量,文中將用標(biāo)注框和聚類中心框的面積重疊度作為距離度量,距離度量計(jì)算見式(10)—(11)。

圖7 改進(jìn)后的模型整體結(jié)構(gòu)

檢驗(yàn)K?means聚類生成的先驗(yàn)框的準(zhǔn)確性常常使用平均交并比(AvgIOU)進(jìn)行評(píng)估,一般來說AvgIOU值越大,說明聚類算法生成的先驗(yàn)框越準(zhǔn)確。對(duì)已經(jīng)標(biāo)注好的可回收數(shù)據(jù)集進(jìn)行聚類分析,得到與AvgIOU之間的關(guān)系,如圖8所示。

圖8 K?means聚類結(jié)果

由圖8可知,=9為AvgIOU曲線上的一個(gè)拐點(diǎn);在>9時(shí)曲線變化的幅度非常小。由此,在考慮計(jì)算速度和檢測(cè)精度的情況下選取先驗(yàn)框的數(shù)量為9,經(jīng)聚類選擇的9個(gè)先驗(yàn)框分別為(146,132)、(177,378)、(182,233)、(259,297)、(305,387)、(368,227)、(383,299)、(394,359)、(400,401)。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)數(shù)據(jù)集及評(píng)價(jià)指標(biāo)

文中實(shí)驗(yàn)使用的數(shù)據(jù)集來自自建的可回收垃圾數(shù)據(jù)集,該數(shù)據(jù)集共有5類標(biāo)簽,分別為廢紙類(cardboard)、玻璃類(glass)、塑料類(plastic)、金屬類(metal)、紡織類(textile)。這里分別使用水平翻轉(zhuǎn)、亮度調(diào)整、添加噪聲、隨機(jī)裁剪和隨機(jī)旋轉(zhuǎn)等5種數(shù)據(jù)擴(kuò)充方法對(duì)可回收垃圾數(shù)據(jù)集進(jìn)行樣本擴(kuò)充,擴(kuò)充后的圖片總數(shù)量為5 048張。采用標(biāo)注工具LabelImg軟件對(duì)可回收垃圾目標(biāo)進(jìn)行標(biāo)注,各類可回收垃圾圖片樣本數(shù)量如表4所示,數(shù)據(jù)集樣例見圖9。訓(xùn)練集、測(cè)試集和驗(yàn)證集的劃分比例為8∶1∶1。

平均準(zhǔn)確率均值為多個(gè)類別的平均準(zhǔn)確率(Average Precision,AP)求和后再取平均值。AP表示以召回率為橫軸,以精確率為縱軸,所繪制的?曲線的面積。FPS表示在模型檢測(cè)速度時(shí)每秒鐘能夠處理的圖片數(shù)量。

3.2 模型訓(xùn)練

在訓(xùn)練過程中涉及的具體軟硬件環(huán)境:操作系統(tǒng)為Windows 10中文版,CPU型號(hào)為Intel Core i5?10200H2.40 GHz,GPU型號(hào)為Nvidia GeForce GTX1650Ti,內(nèi)存為16 GB,顯存為4 GB,深度學(xué)習(xí)框架選用Pytorch1.7,加速庫為Cuda11.2、Cudnn11.2。

表4 各類別樣本數(shù)量

Tab.4 Number of each sample category

圖9 收集的可回收垃圾數(shù)據(jù)集樣例

在訓(xùn)練過程中,將輸入圖片尺寸設(shè)置為416×416。在模型訓(xùn)練時(shí),將momentum(動(dòng)量系數(shù))設(shè)為0.9,初始learning_rate(學(xué)習(xí)率)設(shè)為0.001,總訓(xùn)練代數(shù)為100個(gè)epoch。訓(xùn)練時(shí)分為2個(gè)階段,先進(jìn)行60個(gè)epoch凍結(jié)訓(xùn)練,再進(jìn)行40個(gè)epoch解凍訓(xùn)練。凍結(jié)階段具體為凍結(jié)主干網(wǎng)絡(luò),因?yàn)樵撾A段網(wǎng)絡(luò)占用的顯存較少,此時(shí)設(shè)置batch_size為8。解凍階段具體為不凍結(jié)主干網(wǎng)絡(luò),采用Adam優(yōu)化學(xué)習(xí)率,將學(xué)習(xí)率降至0.000 1。該階段網(wǎng)絡(luò)的參數(shù)變多,占用的內(nèi)存較大,此時(shí)設(shè)置batch_size為4,置信度為0.5。

3.3 實(shí)驗(yàn)結(jié)果分析

為了驗(yàn)證MobileNetV2、K?means算法和CBAM模塊對(duì)模型檢測(cè)性能的影響,使用相同的訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集,相同的迭代次數(shù)和學(xué)習(xí)速率,對(duì)優(yōu)化的模塊進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表5—6。

由表5可知,實(shí)驗(yàn)1是將YOLOv4的主干網(wǎng)絡(luò)替換成MobileNetV2,雖然mAP值只有85.56%,但其檢測(cè)速度最快,達(dá)到了22.23幀/s;實(shí)驗(yàn)2和實(shí)驗(yàn)3是在原始YOLOv4的基礎(chǔ)上分別使用K?means算法優(yōu)化先驗(yàn)框和在頸部網(wǎng)絡(luò)融入3個(gè)CBAM模塊,可知這2種方法都有助于提高模型的mAP值,但會(huì)使模型的檢測(cè)速度降低,尤其是加入CBAM模塊后其檢測(cè)速度下降得最為明顯,原因是融入CBAM模塊后,模型的計(jì)算量相對(duì)增加;實(shí)驗(yàn)4結(jié)合了3種改進(jìn)方法,該模型的mAP值達(dá)到了96.78%,相較于實(shí)驗(yàn)1提高了約13.1%,檢測(cè)速度為20.46幀/s,相較于實(shí)驗(yàn)2、3提高幅度較大。由表6可知,結(jié)合了3種改進(jìn)方法的模型的AP值都達(dá)到95%以上,說明K?means聚類算法重新聚類先驗(yàn)框,提高了模型的檢測(cè)精度,CBAM的注意力機(jī)制有效地抑制了干擾信息,提高了模型對(duì)目標(biāo)特征信息的敏感度。

為了驗(yàn)證文中改進(jìn)模型在可回收垃圾檢測(cè)中的性能,選取了目前一些主流目標(biāo)檢測(cè)模型(Faster-RCNN、YOLOv4、SSD、YOLOv5s)與文中的改進(jìn)YOLOv4模型在相同的數(shù)據(jù)集上進(jìn)行訓(xùn)練,性能的對(duì)比結(jié)果見表7。

表5 消融實(shí)驗(yàn)檢測(cè)效果

Tab.5 Detection results of ablation experiment

注:打鉤表示采用了該方法。

表6 各模塊對(duì)模型的AP值對(duì)比

Tab.6 Comparison of AP values of each module to model

由表7可知,兩階段檢測(cè)網(wǎng)絡(luò)Faster?RCNN的檢測(cè)精度相對(duì)較高,但其模型體積也相對(duì)較大,檢測(cè)速度最低僅為5.54幀/s,難以滿足可回收垃圾檢測(cè)實(shí)時(shí)性的要求。雖然SSD模型的檢測(cè)精度最低,但其模型文件大小和檢測(cè)速度都優(yōu)于Faster?RCNN模型。原始YOLOv4模型的mAP值為91.65%,權(quán)重文件的大小為244.48 MB,比其他模型大。雖然YOLOv5s在當(dāng)前模型中的檢測(cè)速度最高且模型文件最小,但是其檢測(cè)精度卻不高,比原始YOLOv4模型低1.6%。文中的改進(jìn)模型與原始YOLOv4模型相比,其mAP值提高了5.6%,模型權(quán)重文件大小為46.6 MB,相較于YOLOv4大幅減少,僅為YOLOv4的19.1%,檢測(cè)速度為20.46幀/s。相較于YOLOv4,提高了約25.4%,檢測(cè)速度和精度均滿足實(shí)時(shí)性需求。

文中的改進(jìn)模型與其他檢測(cè)模型之間的檢測(cè)效果對(duì)比如圖10所示。由對(duì)比檢測(cè)結(jié)果可知,雖然各模型均能檢測(cè)出可回收垃圾,但是在檢測(cè)結(jié)果的置信度值和擬合度上,文中的改進(jìn)模型優(yōu)于其他模型。

表7 各模型的對(duì)比結(jié)果

Tab.7 Comparison results of models

圖10 文中的改進(jìn)模型與其他模型檢測(cè)效果的對(duì)比

4 結(jié)語

針對(duì)目前垃圾檢測(cè)方法存在的檢測(cè)速度慢且權(quán)重文件較大等問題,提出了一種改進(jìn)的YOLOv4檢測(cè)方法。為了減少模型的計(jì)算量和參數(shù)量,將YOLOv4的主干網(wǎng)絡(luò)替換為MobileNetV2,并使用深度可分離卷積對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化;融入CBAM注意力機(jī)制,提高了模型對(duì)目標(biāo)特征信息的敏感度,抑制了干擾信息,從而提升了模型的檢測(cè)精度。為了得到適合數(shù)據(jù)集的先驗(yàn)框,采用K?means算法對(duì)自建可回收垃圾數(shù)據(jù)集進(jìn)行重新聚類。實(shí)驗(yàn)結(jié)果表明,參數(shù)量和模型權(quán)重文件大小分別減小為原始YOLOv4模型的17.0%和19.1%,檢測(cè)精度為96.78%,提高了5.6%,檢測(cè)速度為20.46幀/s,提高了25.4%。未來應(yīng)進(jìn)一步對(duì)模型進(jìn)行優(yōu)化,在保證檢測(cè)速度的同時(shí)提高模型的檢測(cè)精度。

[1] 鞠默然, 羅海波, 王仲博, 等. 改進(jìn)的YOLOV3算法及其在小目標(biāo)檢測(cè)中的應(yīng)用[J]. 光學(xué)學(xué)報(bào), 2019, 39(7): 253-260.

JU Mo-ran, LUO Hai-bo, WANG Zhong-bo, et al. Improved YOLOV3 Algorithm and Its Application in Small Target Detection[J]. Acta Optica Sinica, 2019, 39(7): 253-260.

[2] GIRSHICK R. Fast R-CNN[C]// IEEE International Conference on Computer Vision (ICCV), 2016: 1440-1448.

[3] REN Shao-qing, HE Kai-ming, GIRSHICK R, et al. Faster R-CNN: Towards Real-time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[4] LIU Wei, ANGUELOV D, ERHAN D, et al. SSD: Single Shot Multibox Detector[C]// European Conference on Computer Vision, 2016: 21-37.

[5] REDMON J, DIVVALA S, GIRSHICK R, et al. You Only Look Once: Unified, Real-Time Object Detection[EB/OL]. (2015-06-08)[2022-03-15]. https://arxiv.org/abs/1506.02640

[6] REDMON J, FARHADI A. YOLO9000: Better, Faster, Stronger[C]// IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 6517-6525.

[7] REDMON J, FARHADI A. Yolov3: An Incremental Improvement[EB/OL]. (2018-04-08)[2021-01-15]. https:// arxiv.org/1804.02767.

[8] BOCHKOVSKIY A, WANG Chien-yao, LIAO H Y M. YOLOv4: Optimal Speed and Accuracy of Object Detection[EB/OL]. (2020-04-23)[20220-03-15]. https://arxiv.org/ abs/2004.10934

[9] LIN Tsung-yi, GOYAL P, GIRSHICK R, et al. Focal Loss for Dense Object Detection[C]// IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017: 2999-3007.

[10] 趙珊, 劉子路, 鄭愛玲, 等. 基于MobileNetV2和IFPN改進(jìn)的SSD垃圾實(shí)時(shí)分類檢測(cè)方法[J]. 計(jì)算機(jī)應(yīng)用, 2022, 42(S1): 106-111.

ZHAO Shan, LIU Zi-lu, ZHENG Ai-ling, et al. Real-time Classification and Detection Method of Garbage Based on SSD Improved with MobileNetV2 and IFPN[J]. Journal of Computer Applications, 2022, 42(S1): 106-111.

[11] 馬雯, 于炯, 王瀟, 等. 基于改進(jìn)Faster R?CNN的垃圾檢測(cè)與分類方法[J]. 計(jì)算機(jī)工程, 2021, 47(8): 294-300.

MA Wen, YU Jiong, WANG Xiao, et al. Garbage Detection and Classification Method Based on Improved Faster R-CNN[J]. Computer Engineering, 2021, 47(8): 294-300.

[12] 許偉, 熊衛(wèi)華, 姚杰, 等. 基于改進(jìn)YOLOv3算法在垃圾檢測(cè)上的應(yīng)用[J]. 光電子·激光, 2020, 31(9): 928-938.

XU Wei, XIONG Wei-hua, YAO Jie, et al. Application of Garbage Detection Based on Improved YOLOv3 Algorithm[J]. Journal of Optoelectronics·Laser, 2020, 31(9): 928-938.

[13] 李慶, 龔遠(yuǎn)強(qiáng), 張瑋, 等. 用于智能垃圾分揀的注意力YOLOv4算法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2022, 58(11): 260-268.

LI Qing, GONG Yuan-qiang, ZHANG Wei, et al. Attention YOLOv4 Algorithm for Intelligent Waste Sorting[J]. Computer Engineering and Applications, 2022, 58(11): 260-268.

[14] KUMAR S, YADAV D, GUPTA H, et al. A Novel YOLOv3 Algorithm-based Deep Learning Approach for Waste Segregation: Towards Smart Waste Management[J]. Electronics, 2020, 10(1): 14.

[15] WANG Chien-yao, LIAO H Y M, WU Yueh-hua, et al. CSPNet: A New Backbone that can Enhance Learning Capability of CNN[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, 2020: 1571-1580.

[16] HE Kai-ming, ZHANG Xiang-yu, REN Shao-qing, et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.

[17] LIU Shu, QI Lu, QIN Hai-fang, et al. Path Aggregation Network for Instance Segmentation[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 8759-8768.

[18] SANDLER M, HOWARD A, ZHU Meng-Long, et al. Mobilenetv2: Inverted Residuals and Linear Bottlenecks[EB/OL]. (2018-12-16)[2022-03-15]. https://arxiv.org/abs/1801.04381.

[19] 張宸嘉, 朱磊, 俞璐. 卷積神經(jīng)網(wǎng)絡(luò)中的注意力機(jī)制綜述[J]. 計(jì)算機(jī)工程與應(yīng)用, 2021, 57(20): 64-72.

ZHANG Chen-jia ZHU Lei, YU Lu. Review of Attention Mechanism in Convolutional Neural Networks[J].Computer Engineering and Applications,2021, 57(20): 64-72.

[20] SINAGA K P, YANG Min-shen. Unsupervised K-means Clustering Algorithm[J]. IEEE Access, 2020(8): 80716- 80727.

[21] 王子鵬, 張榮芬, 劉宇紅, 等. 面向邊緣計(jì)算設(shè)備的改進(jìn)型YOLOv3垃圾分類檢測(cè)模型[J]. 激光與光電子學(xué)進(jìn)展, 2022, 59(4): 291-300.

WANG Zi-peng, ZHANG Rong-fen, LIU Yu-hong, et al. Improved YOLOv3 Garbage Classification and Detection Model for Edge Computing Devices[J]. Laser & Optoelectronics Progress, 2022, 59(4): 291-300.

[22] 董豪, 李少波, 楊靜, 等. 基于YOLOv4算法的藥用空心膠囊表面缺陷檢測(cè)方法[J]. 包裝工程, 2022, 43(7): 254-261.

DONG Hao, LI Shao-bo, YANG Jing, et al. Surface Defect Detection Method for Pharmaceutical Hollow Capsules Based on YOLOv4 Algorithm[J]. Packaging Engineering, 2022, 43(7): 254-261.

Lightweight Recyclable Garbage Detection Method Incorporating Attention Mechanism

GUO Zhou1,2, HUANG Shi-hao1,2, XIE Wen-ming2, LYU Hui1,2, ZHANG Xuan-xuan1,2, CHEN Zhe1,2

(1. Fujian Key Laboratory of Automotive Electronics and Electric Drive, Fuzhou 350118, China; 2. School of Electronic, Electrical Engineering and Physics, Fujian University of Technology, Fuzhou 350118, China)

The work aims to propose a lightweight method based on YOLOv4 to detect recyclable garbage, so as to address the problems of slow detection speed and large model weight files in the current garbage detection methods used by smart garbage sorting devices. The MobileNetV2 lightweight network was used as the backbone network of YOLOv4 and the depth-separable convolution was used to optimize the neck and head networks to reduce the parameters and computation to accelerate detection. The CBAM attention module was incorporated into the neck network to improve the sensitivity of the model to the target feature information. The K-means algorithm was used to re-cluster to get suitable self-built recyclable data with a priori frame for focused detection of targets. The experimental results showed that: the parameters were reduced to 17.0% of the original YOLOv4 model. The detected mAP reached 96.78%. The model weight file size was 46.6 MB, which was about 19.1% of the YOLOv4 model weight file. The detection speed was 20.46 frames/s, which was improved by 25.4%. Both the detection accuracy and the detection speed met the real-time detection requirements. The improved YOLOv4 model can guarantee high detection accuracy and good real-time performance in detection of recyclable garbage.

recyclable garbage detection; MobileNetV2; YOLOv4; attention mechanism; deep learning

TB487;TP391

A

1001-3563(2023)09-0243-11

10.19554/j.cnki.1001-3563.2023.09.030

2022?05?13

國家自然科學(xué)基金(61604041);教育部產(chǎn)學(xué)研協(xié)同育人項(xiàng)目(201901021014);福建省教育廳基金項(xiàng)目(JT180352)

郭洲(1996—),男,碩士生,主攻機(jī)器視覺、圖像處理。

黃詩浩(1985—),男,博士,副教授,主要研究方向?yàn)楣怆娦畔⒉牧吓c器件、機(jī)器視覺等。

責(zé)任編輯:彭颋

猜你喜歡
卷積聚類垃圾
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
垃圾去哪了
那一雙“分揀垃圾”的手
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
倒垃圾
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
基于DBSACN聚類算法的XML文檔聚類
倒垃圾
基于改進(jìn)的遺傳算法的模糊聚類算法
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
津市市| 高雄县| 诏安县| 黔西县| 乌鲁木齐县| 安化县| 高淳县| 叶城县| 荔波县| 新郑市| 滦南县| 措美县| 奉新县| 阜新市| 铜川市| 龙海市| 蓝山县| 玛多县| 望奎县| 嘉鱼县| 紫金县| 榆社县| 会昌县| 惠东县| 武穴市| 荆门市| 阿拉善右旗| 揭西县| 寿光市| 浠水县| 汪清县| 隆子县| 靖江市| 右玉县| 革吉县| 辉县市| 南宫市| 浏阳市| 自治县| 基隆市| 大洼县|