国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)合改進(jìn)注意力機(jī)制的YOLO目標(biāo)檢測(cè)算法

2023-07-17 08:51李杰
計(jì)算機(jī)時(shí)代 2023年7期
關(guān)鍵詞:注意力機(jī)制目標(biāo)檢測(cè)

李杰

關(guān)鍵詞:YOLO;目標(biāo)檢測(cè);多尺度卷積;注意力機(jī)制

0 引言

自從Hinton 提出利用神經(jīng)網(wǎng)絡(luò)對(duì)圖像數(shù)據(jù)中的高維特征進(jìn)行自主學(xué)習(xí)[1]以來,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)已成為計(jì)算機(jī)視覺領(lǐng)域中一個(gè)重要的研究熱點(diǎn)[2]。目標(biāo)檢測(cè)的方法主要分為雙階段和單階段目標(biāo)檢測(cè)算法。雙階段目標(biāo)檢測(cè)算法,如Fast R-CNN[3]、Faster R-CNN[4]等,都是通過生成預(yù)選框再利用神經(jīng)網(wǎng)絡(luò)對(duì)候選框進(jìn)行分類識(shí)別。單階段目標(biāo)檢測(cè)算法,如YOLO (you only look once) [5]、YOLO 9000[6]等,將目標(biāo)檢測(cè)問題轉(zhuǎn)化為回歸問題,由一個(gè)無分支的深度卷積網(wǎng)絡(luò)實(shí)現(xiàn)目標(biāo)的定位和分類。單階段算法有著較高的檢測(cè)速率,但還存在檢測(cè)精度不足的問題。

注意力機(jī)制是對(duì)特征圖進(jìn)行加權(quán)處理[7],旨在突出強(qiáng)調(diào)目標(biāo)信息。Hu[8]等人通過卷積運(yùn)算學(xué)習(xí)各通道權(quán)重來自適應(yīng)地重新校準(zhǔn)通道特征響應(yīng)。Woo 等人提出一種混合注意力機(jī)制CBAM(convolutional blockattention module)[9],將特征圖沿通道和空間兩個(gè)不同的維度順序地進(jìn)行自適應(yīng)特征細(xì)化。Sun 等人將ShuffleNet 結(jié)構(gòu)引入到Y(jié)OLOv4 中[10],減少參數(shù)量的同時(shí)檢測(cè)精度和速度方面也有所提升;Fu 等人將CBAM注意力模塊添加到Y(jié)OLOv4-head 中[11],對(duì)小目標(biāo)、重疊目標(biāo)具有更好的檢測(cè)效果。但上述研究還存在檢測(cè)精度不足或是沒有在大型公共數(shù)據(jù)集上進(jìn)行綜合性能測(cè)試。

為此,本文在YOLOv5s 的基礎(chǔ)上進(jìn)行了研究和改進(jìn)。①將多尺度卷積與注意力機(jī)制結(jié)合,提出一種改進(jìn)CBAM 注意力機(jī)制模塊,增大特征提取模塊的感受野;②將改進(jìn)CBAM 模塊引入YOLOv5s 網(wǎng)絡(luò)中,使用改進(jìn)后的注意力機(jī)制模塊進(jìn)行特征篩選,提高改進(jìn)檢測(cè)網(wǎng)絡(luò)準(zhǔn)確率。

1 YOLOv5s 和CBAM 算法

1.1 YOLOv5s 算法

本文在YOLOv5s網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改進(jìn)。YOLOv5s的網(wǎng)絡(luò)結(jié)構(gòu)分為主干網(wǎng)絡(luò)部分Backbone、特征增強(qiáng)部分Neck 和預(yù)測(cè)部分Head,如圖1 所示。

網(wǎng)絡(luò)主干Backbone 主要由連續(xù)卷積模塊Conv 和利用劃分通道的思想構(gòu)建的C3 模塊。C3 模塊是由1×1 和3×3 卷積構(gòu)成,包含LeakyReLU 函數(shù)激活的BottleneckCSP 結(jié)構(gòu)。主干網(wǎng)絡(luò)末端還加入一個(gè)特征金字塔池化模塊SPP,使用多尺度的特征融合以獲取更多小目標(biāo)的有用信息從而提升算法對(duì)小目標(biāo)檢測(cè)的精確度。

特征增強(qiáng)Neck 部分采用了FPN[12]+PAN 結(jié)合的方式對(duì)特征進(jìn)行融合從而獲得更好的效果。PAN 包含了自上而下和自底向上兩條路徑上的特征融合,這也使網(wǎng)絡(luò)獲得更高的性能。

預(yù)測(cè)部分Head使用的是GIOU_Loss作為Boundingbox 的損失函數(shù),并且在進(jìn)行非最大值抑制時(shí)引入加權(quán)因子,在Bounding box 回歸時(shí)平衡了正負(fù)樣本之間的差距。

1.2 CBAM 算法

注意力機(jī)制是一種能夠讓神經(jīng)網(wǎng)絡(luò)擁有能區(qū)分重點(diǎn)區(qū)域信息的能力,并對(duì)該區(qū)域投入更大的權(quán)重,突出和加強(qiáng)有用特征,抑制和忽略無關(guān)特征。由Woo等人提出的CBAM 算法是一種混合注意力機(jī)制。算法結(jié)構(gòu)如圖2 所示。

CBAM 注意力機(jī)制可分為兩個(gè)順序子模塊:通道注意模塊和空間注意模塊。結(jié)構(gòu)采取串聯(lián)形式。Woo等人已經(jīng)證明將通道注意子模塊放在空間注意子模塊之前會(huì)有更好的效果[9],因此本文也使用相同的順序結(jié)構(gòu)。

2 引入多尺度卷積的改進(jìn)注意力機(jī)制

傳統(tǒng)混合域注意力機(jī)制CBAM,注意力子模塊會(huì)將特征圖直接進(jìn)行通道域和空間域的全局最大池化和全局平均池化。這樣做法雖然能夠簡(jiǎn)便的提取通道域和空間域的權(quán)重,但模塊對(duì)于特征圖中的信息的利用率低,從而影響檢測(cè)網(wǎng)絡(luò)的準(zhǔn)確性。

本文沿用傳統(tǒng)混合域注意力機(jī)制CBAM 的順序串聯(lián)結(jié)構(gòu),并對(duì)其通道注意子模塊和空間注意子模塊進(jìn)行了改進(jìn),構(gòu)建一種改進(jìn)CBAM 注意力機(jī)制模塊,下面描述每個(gè)改進(jìn)注意力子模塊的細(xì)節(jié)。

2.1 通道注意子模塊

將多尺度卷積引入到注意力機(jī)制中,基于便利性也為了減少網(wǎng)絡(luò)參數(shù)只使用3×3 的卷積,同時(shí)結(jié)構(gòu)中保留了一個(gè)沒有任何操作的路徑來增加網(wǎng)絡(luò)性能。此外,池化操作對(duì)于當(dāng)前卷積網(wǎng)絡(luò)的性能提升是必不可少的,因此添加一個(gè)并行池化路徑也具有好的效果[14]。為了避免池化層的輸出與卷積層的輸出合并會(huì)導(dǎo)致特征圖維度的增加,先使用1×1 卷積來約簡(jiǎn)計(jì)算,由于有共計(jì)四層的輸出,所以將原特征圖的通道數(shù)降為原來的1/4。

對(duì)于一個(gè)輸入特征圖F ∈ Rc × h × w,通道注意子模塊對(duì)原特征圖進(jìn)行兩路并行處理,第一部分進(jìn)行多尺度卷積操作生成新的特征圖*F ∈ Rc × h × w 再進(jìn)行最大池化和平均池化,第二部分不進(jìn)行任何操作直接進(jìn)行最大池化和平均池化,得到四個(gè)的通道注意力向量:{ } Fcmax ,F(xiàn) cavg ,*Fcmax ,*F cavg ∈ Rc × 1 × 1,分別表示平均池化特征和最大池化特征。利用一個(gè)共享的多層感知機(jī)(multi-layer perceptron, MLP) 學(xué)習(xí)各通道信息的重要性,最后將四個(gè)通道注意力向量逐元素求和來合并再經(jīng)過Sigmoid 函數(shù)激活得到最終的通道注意權(quán)重Mc(F)。簡(jiǎn)而言之,通道注意力權(quán)重計(jì)算公式為:

2.2 空間注意子模塊

將通道注意的結(jié)果進(jìn)一步進(jìn)行空間權(quán)重的提取??臻g注意子模塊對(duì)輸入特征圖F' ∈ Rc × h × w 也進(jìn)行與通道注意子模塊相同的兩路并行處理,第一部分使用相同的改進(jìn)多尺度卷積生成新的特征圖*F' ∈ Rc × h × w再沿通道軸應(yīng)用最大池化和平均池化,第二部分不進(jìn)行任何操作,直接應(yīng)用最大池化和平均池化,將得到4個(gè)的空間注意力矩陣:{F's }max ,F(xiàn) 'savg ,*F 'smax ,*F 'savg ∈ R1 × h × w,分別表示通道中的平均池化特征和最大池化特征,并將它們連接起來以生成有效的特征描述圖。在特征將通道權(quán)重Mc (F)與輸入F進(jìn)行對(duì)應(yīng)通道的加權(quán),得到通道注意的結(jié)果。共享網(wǎng)絡(luò)MLP 是帶有一個(gè)隱藏層的多層感知器,為了減少參數(shù)量,隱藏層的大小設(shè)置為R(c/r) × h × w,其中r 是縮減率,本文中r 設(shè)為16。這樣兩層卷積在減少卷積參數(shù)量的同時(shí)也能夠?qū)Ω鱾€(gè)通道上的特征重要程度進(jìn)行學(xué)習(xí)。改進(jìn)通道注意模塊如圖3 所示。

2.3 改進(jìn)CBAM 注意力模塊

將兩個(gè)改進(jìn)子模塊順序串聯(lián),先用改進(jìn)通道注意力子模塊校正,然后對(duì)結(jié)果在進(jìn)行空間注意力子模塊校正。整個(gè)改進(jìn)注意力過程可以用公式概括為:

相比CBAM 中只對(duì)原特征圖進(jìn)行最大池化和平均池化操作,在改進(jìn)CBAM 結(jié)構(gòu)中增加了使用卷積、拼接的多尺度卷積運(yùn)算來生成新的特征圖,兩路運(yùn)算并行處理。引入多尺度卷積能夠提升運(yùn)算所得的通道注意權(quán)重和空間注意權(quán)重的感受野,強(qiáng)調(diào)目標(biāo)信息同時(shí)過濾其他冗余信息。

3 結(jié)合改進(jìn)CBAM 的YOLOv5s 算法

在原始YOLOv5s 中,特征增強(qiáng)部分會(huì)對(duì)特征圖進(jìn)行反復(fù)融合, 并且還會(huì)使用多個(gè)連續(xù)卷積運(yùn)算。這種做法雖然能夠使不同尺度的特征信息相互結(jié)合,但此過程也會(huì)產(chǎn)生大量冗余信息,降低網(wǎng)絡(luò)的檢測(cè)精度。同時(shí)對(duì)高維特征圖使用多個(gè)連續(xù)卷積運(yùn)算,增加網(wǎng)絡(luò)運(yùn)行的參數(shù)和計(jì)算量,也會(huì)影響網(wǎng)絡(luò)的檢測(cè)性能[13]。

在目標(biāo)檢測(cè)網(wǎng)絡(luò)中添加注意力機(jī)制,能夠顯著增強(qiáng)特征中的重要信息,對(duì)物體檢測(cè)有著重要的作用[7]。因此將改進(jìn)CBAM 引入到Y(jié)OLOv5s 中。在輸入預(yù)測(cè)部分進(jìn)行預(yù)測(cè)前,使用改進(jìn)后的注意力模塊對(duì)其進(jìn)行處理以提取到更全面、更重要的目標(biāo)信息,過濾其他冗余信息,增加檢測(cè)網(wǎng)絡(luò)的準(zhǔn)確率[15]。改進(jìn)后的YOLOv5s 網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示。

4 實(shí)驗(yàn)結(jié)果分析

4.1 數(shù)據(jù)集和網(wǎng)絡(luò)訓(xùn)練

為驗(yàn)證本文所提出的結(jié)合改進(jìn)注意力機(jī)制的YOLOv5s 目標(biāo)檢測(cè)網(wǎng)絡(luò)的性能, 在PASCAL VOC 數(shù)據(jù)集上進(jìn)行了訓(xùn)練和驗(yàn)證。在本實(shí)驗(yàn)中,將圖片轉(zhuǎn)換為長(zhǎng)寬512 大小作為網(wǎng)絡(luò)輸入,選取VOC 2012 訓(xùn)練驗(yàn)證集及VOC 2007 訓(xùn)練驗(yàn)證集作為訓(xùn)練數(shù)據(jù),將VOC 2007 訓(xùn)練驗(yàn)證集部分?jǐn)?shù)據(jù)作為驗(yàn)證集。

本文在TeslaV100 上進(jìn)行訓(xùn)練和測(cè)試模型。操作系統(tǒng)是Ubuntu18.04,開發(fā)語言是Python,框架是PyTorch,訓(xùn)練采用了Amd 優(yōu)化器進(jìn)行參數(shù)優(yōu)化。在訓(xùn)練時(shí)使用遷移學(xué)習(xí)加載預(yù)訓(xùn)練模型。訓(xùn)練網(wǎng)絡(luò)時(shí),網(wǎng)絡(luò)輸入大小為512×512 彩色圖像,batch_size 為64,初始學(xué)習(xí)率為0.0032,迭代總批次為200,權(quán)重衰減設(shè)置為0.00012. 學(xué)習(xí)率采用余弦退火衰減來保證模型更好的收斂。

4.2 結(jié)果與對(duì)比

將訓(xùn)練后的網(wǎng)絡(luò)在PASCAL VOC 測(cè)試集上進(jìn)行測(cè)試,在IOU 閾值為0.5 的情況下,繪制了召回率-精確度曲線圖,如圖6 所示。橫坐標(biāo)Recall 表示召回率,縱坐標(biāo)Precision 表示精度。改進(jìn)后的模型對(duì)各個(gè)類別均有一定的檢測(cè)精度,并對(duì)數(shù)據(jù)集中所有類別的平均準(zhǔn)確率(mAP)達(dá)到了76.1%。

4.2.1 改進(jìn)前后結(jié)果對(duì)比

為對(duì)比改進(jìn)后的檢測(cè)網(wǎng)絡(luò)的檢測(cè)效果。分別對(duì)YOLOv5s、YOLOv5s+CBAM、YOLOv5s+改進(jìn)CBAM三種模型在PASCAL VOC 測(cè)試集上的平均準(zhǔn)確率mAP 和其他性能指標(biāo)進(jìn)行了測(cè)試。如表1 所示,其中加粗?jǐn)?shù)值為三種模型中表現(xiàn)最優(yōu)值。

實(shí)驗(yàn)結(jié)果表明在兩種IOU閾值下,本文的YOLOv5s+改進(jìn)CBAM 模型相較于其他兩種模型在平均準(zhǔn)確率方面均有所提升。當(dāng)IOU 閾值為0.5 時(shí),本文方法相較于原始YOLOv5s 模型的mAP 上升了0.9%,相較于YOLOv5s+CBAM 模型的mAP 上升了0.3%。當(dāng)IOU閾值在區(qū)間[0.5:0.95]時(shí),本文方法較另外兩種模型分別提高了1.1%、0.4%。在檢測(cè)精度方面,YOLOv5s+改進(jìn)CBAM 模型精度為78.4%,為最優(yōu)值。在召回率方面較其他兩種模型低,但F1-score 均較其他兩種模型分別提高了1.2%、0.9%。

為了更直觀的發(fā)現(xiàn)改進(jìn)網(wǎng)絡(luò)檢測(cè)能力的提升,實(shí)驗(yàn)進(jìn)一步獲取了改進(jìn)前后的可視化測(cè)試結(jié)果,如圖7所示。

對(duì)比原始YOLOv5s 模型和本文的YOLOv5s+改進(jìn)CBAM 模型,改進(jìn)后的模型在復(fù)雜場(chǎng)景下能夠檢測(cè)出更多目標(biāo)。對(duì)于圖中未遮擋的目標(biāo),改進(jìn)后的模型能有更高的置信度。盡管有遮擋部分的目標(biāo)較原始YOLOv5s 模型識(shí)別置信度有所下降,但改進(jìn)后的模型仍然能成功檢測(cè)出這些目標(biāo),也進(jìn)一步證明了改進(jìn)后的模型有更好的檢測(cè)性能。

4.2.2 不同檢測(cè)算法對(duì)比

本文將改進(jìn)后的網(wǎng)絡(luò)與近年來其他目標(biāo)檢測(cè)網(wǎng)絡(luò)進(jìn)行比較,結(jié)果如表2 所示,表中加粗?jǐn)?shù)值為表現(xiàn)最優(yōu)值。

以ResNet-152 為骨干的PS-DK 網(wǎng)絡(luò),由于使用了足夠大且深的骨干網(wǎng)絡(luò),其檢測(cè)準(zhǔn)確率達(dá)到了79.5%,改進(jìn)后的網(wǎng)絡(luò)的準(zhǔn)確率較之低了3.4%,但改進(jìn)后的網(wǎng)絡(luò)參數(shù)量更少,僅為PS-DK 網(wǎng)絡(luò)參數(shù)的1/10。另外對(duì)于一些輕量化網(wǎng)絡(luò),如EEEA-Net-C2 網(wǎng)絡(luò),盡管參數(shù)量有所增加,但在檢測(cè)準(zhǔn)確率方面較之提高了4.4%。結(jié)果表明改進(jìn)后的檢測(cè)網(wǎng)絡(luò)在與近年來其他先進(jìn)的目標(biāo)檢測(cè)網(wǎng)絡(luò)對(duì)比中,也表現(xiàn)出較好的性能。

5 結(jié)束語

本文提出了一種改進(jìn)注意力機(jī)制模型,并將其引入到Y(jié)OLOv5s 目標(biāo)檢測(cè)網(wǎng)絡(luò)中,提高檢測(cè)網(wǎng)絡(luò)的準(zhǔn)確率。提出改進(jìn)CBAM 結(jié)構(gòu),引入多尺度卷積增加特征感受野提升算法性能的效果。YOLOv5s 目標(biāo)檢測(cè)網(wǎng)絡(luò)在輸入預(yù)測(cè)部分前使用改進(jìn)注意力機(jī)制模塊,提高網(wǎng)絡(luò)檢測(cè)的準(zhǔn)確率。改進(jìn)后的網(wǎng)絡(luò)在VOC 數(shù)據(jù)集上的準(zhǔn)確率達(dá)到了76.1%,較原網(wǎng)絡(luò)整體準(zhǔn)確率提升了0.9%,F(xiàn)1-score 也獲得了1.2% 的提升,同時(shí)在近年來的目標(biāo)檢測(cè)網(wǎng)絡(luò)中表現(xiàn)出不錯(cuò)的性能。接下來還將繼續(xù)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),同時(shí)研究如何提升對(duì)有遮擋的目標(biāo)的檢測(cè)效果。

猜你喜歡
注意力機(jī)制目標(biāo)檢測(cè)
面向短文本的網(wǎng)絡(luò)輿情話題
基于自注意力與動(dòng)態(tài)路由的文本建模方法
基于深度學(xué)習(xí)的問題回答技術(shù)研究
基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
基于注意力機(jī)制的雙向LSTM模型在中文商品評(píng)論情感分類中的研究
InsunKBQA:一個(gè)基于知識(shí)庫的問答系統(tǒng)
視頻中目標(biāo)檢測(cè)算法研究
行為識(shí)別中的人體運(yùn)動(dòng)目標(biāo)檢測(cè)方法
移動(dòng)機(jī)器人圖像目標(biāo)識(shí)別
基于背景建模法的運(yùn)動(dòng)目標(biāo)檢測(cè)