付國(guó)棟,黃 進(jìn),楊 濤,鄭思宇
西南交通大學(xué) 電氣工程學(xué)院,成都 611756
近幾年深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNNs)高速地推動(dòng)著計(jì)算機(jī)視覺(jué)的發(fā)展,其在圖像分類[1-6]、目標(biāo)檢測(cè)[7-9]、語(yǔ)義分割[10-11]、目標(biāo)跟蹤[12]等任務(wù)中展示著強(qiáng)大力量。為了進(jìn)一步增強(qiáng)CNNs的特征表達(dá)能力,最近的研究主要聚焦在網(wǎng)絡(luò)的三個(gè)重要因素:深度、寬度和基數(shù)。
從AlexNet[1]開(kāi)始到目前為止,CNNs網(wǎng)絡(luò)通過(guò)不斷地疊加卷積操作,使得網(wǎng)絡(luò)深度更深,以獲得優(yōu)秀的特征表達(dá)能力。ResNet[2]將相同的殘差塊疊加起來(lái),構(gòu)建了一個(gè)非常深的網(wǎng)絡(luò)結(jié)構(gòu),極大提高了CNNs性能。GoogLeNet[3-5]通過(guò)實(shí)驗(yàn)證明網(wǎng)絡(luò)寬度同樣是提高模型性能的另一個(gè)重要因素。ResNeXt[6]則從網(wǎng)絡(luò)的基數(shù)入手,證明基數(shù)不僅可以減小網(wǎng)絡(luò)模型的復(fù)雜度,而且比深度和寬度對(duì)網(wǎng)絡(luò)模型的提升效果更加明顯。
除了以上三個(gè)因素外,近幾年許多研究人員將注意力機(jī)制融入卷積模塊,證明注意力機(jī)制在對(duì)網(wǎng)絡(luò)性能改進(jìn)方面擁有巨大的潛力。Hu等人提出了SE(Squeeze-Excitation)模塊[13],它學(xué)習(xí)特征圖中各個(gè)通道間的關(guān)聯(lián)關(guān)系,生成通道注意力,讓網(wǎng)絡(luò)更加關(guān)注信息豐富的通道,為CNNs帶來(lái)明顯的性能提升。CBAM(Convolutional Block Attention Module)模塊[14]則在SE模塊基礎(chǔ)上進(jìn)行了進(jìn)一步的擴(kuò)展,該模塊將特征圖按通道進(jìn)行全局池化,獲得空間注意力;通道注意力讓網(wǎng)絡(luò)關(guān)注圖像“是什么”,而空間注意力則讓網(wǎng)絡(luò)關(guān)注圖像中物體“在哪”。BAM(Bottleneck Attention Module)[15]則采用并聯(lián)的方式將空間注意力和通道注意力整合。Wang等人提出的Non-Local[16]模塊則通過(guò)θ、?、g三個(gè)操作產(chǎn)生關(guān)于特征圖的全局注意力,并且成功融入三維卷積神經(jīng)網(wǎng)絡(luò)中,在視頻分類任務(wù)中效果提升明顯。Fu等人提出的DANet[17]則探索了輸入特征圖中各位置和各通道間的互相關(guān)性,分別生成全局空間注意力和通道注意力,該模型在語(yǔ)義分割任務(wù)中提升效果明顯。Li等人提出的SK(Selective Kernel)[18]結(jié)構(gòu)則將SE的思想和殘差網(wǎng)絡(luò)相結(jié)合,能夠讓網(wǎng)絡(luò)根據(jù)特征圖的不同尺度動(dòng)態(tài)地選擇不同的感受野,進(jìn)一步擴(kuò)展了對(duì)注意力機(jī)制的研究。
盡管上述注意力模型從不同的角度提升了CNNs的特征表達(dá)能力,但同時(shí)也給網(wǎng)絡(luò)增加了大量開(kāi)銷。以目前廣泛應(yīng)用的SE和CBAM為例,它們通過(guò)全連接層生成通道注意力,其參數(shù)量與輸入特征圖的通道數(shù)平方成正相關(guān),在深層的網(wǎng)絡(luò)中,往往特征圖的通道數(shù)量很大,因此融入注意力帶來(lái)的開(kāi)銷也很龐大,這在需要實(shí)時(shí)性的應(yīng)用場(chǎng)景中得不償失。針對(duì)此問(wèn)題,本文在目前性能最優(yōu)且通用的CBAM模型的基礎(chǔ)上,提出了一種輕量級(jí)的注意力模型——EAM(Efficient Attention Module),該模型摒棄了計(jì)算量巨大的全連接層和大卷積核,使用一維卷積和空洞卷積分別來(lái)聚合通道和空間信息,使得模型的參數(shù)量大幅縮小。本文將EAM融入YOLOv4[9]目標(biāo)檢測(cè)模型中,在VOC2012[19]數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)測(cè)試,檢測(cè)效果明顯提高,取得了媲美YOLOv4融合CBAM模型的效果。本文的主要貢獻(xiàn)如下:
(1)本文引入一維卷積和空洞卷積分別對(duì)CBAM中的通道注意力和空間注意力做了優(yōu)化改進(jìn),提出了EAM注意力模型,將整個(gè)注意力模塊的參數(shù)量減小到常數(shù)級(jí)別。
(2)本文將改進(jìn)后的輕量級(jí)模型EAM融入YOLOv4目標(biāo)檢測(cè)模型的特征融合部分,顯著提高YOLOv4算法的檢測(cè)精度,并通過(guò)消融實(shí)驗(yàn)分析論證了EAM的優(yōu)越性。
CBAM是一種簡(jiǎn)單而有效的卷積神經(jīng)網(wǎng)絡(luò)注意力模塊。在卷積神經(jīng)網(wǎng)絡(luò)中任意給定一個(gè)中間特征圖,CBAM將注意力映射沿特征圖的通道和空間兩個(gè)獨(dú)立的維度進(jìn)行注入,然后將注意力乘以輸入特征映射,對(duì)輸入的特征圖進(jìn)行自適應(yīng)特征細(xì)化。因?yàn)镃BAM是一種端到端的通用模塊,它可以無(wú)縫地集成到任何CNNs架構(gòu)中,并且可以與基本CNNs一起端到端訓(xùn)練。CBAM中的通道注意力和空間注意力的結(jié)構(gòu)如圖1所示。
圖1 CBAM中通道注意力和空間注意力結(jié)構(gòu)Fig.1 Channel attention and spatial attention structure in CBAM
給定一個(gè)中間特征圖F∈RC×H×W作為輸入,CBAM模塊的運(yùn)算過(guò)程總體分為兩個(gè)階段:首先對(duì)輸入按通道進(jìn)行全局最大值池化和均值池化,將池化后的兩個(gè)一維向量送入全連接層運(yùn)算后相加,生成一維通道注意力M C∈RC×1×1,再將通道注意力與輸入按元素相乘,獲得通道注意力調(diào)整后的特征圖F′;其次將F′按空間進(jìn)行全局最大值池化和均值池化,將池化生成的兩個(gè)二維向量拼接后進(jìn)行卷積操作,最終生成二維空間注意力M S∈R1×H×W,再將空間注意力與F′按元素相乘。具體運(yùn)算流程如圖1所示,CBAM總體生成注意力過(guò)程可描述為:
其中?表示對(duì)應(yīng)元素相乘,在相乘操作前,通道注意力和空間注意力分別需要按空間維度和通道維度進(jìn)行廣播。
YOLOv4是從YOLOv3的基礎(chǔ)上改進(jìn)而來(lái),屬于一階段目標(biāo)檢測(cè)算法,其總體結(jié)構(gòu)如圖2所示。YOLOv4使用CSPDarknet53作為主干網(wǎng)絡(luò),在CSPDarknet53中含有大量殘差邊,增加了網(wǎng)絡(luò)寬度,訓(xùn)練時(shí)更加利于梯度的反向傳播。假設(shè)YOLOv4輸入416×416的圖像,經(jīng)過(guò)主干網(wǎng)絡(luò)進(jìn)行特征提取,則獲得13×13、26×26、52×52的三組特征圖,針對(duì)13×13的特征圖,首先使用空間金字塔池化(Spatial Pyramid Pooling,SPP)結(jié)構(gòu)進(jìn)行特征融合,在SPP中使用多種尺寸的池化核對(duì)特征圖進(jìn)行池化處理,可以在沒(méi)有顯著降低網(wǎng)絡(luò)推理速度的情況下,提高感受野,分離出最有意義的上下文特征。隨后對(duì)三組不同級(jí)別的特征圖使用路徑聚合網(wǎng)絡(luò)(Path Aggregation Network,PANet)進(jìn)行特征融合。相比于特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN),PANet額外增加了一條自下向上的特征融合路徑,使得特征圖融合的語(yǔ)義更加豐富,其特征表達(dá)能力也更強(qiáng)。最后,經(jīng)過(guò)特征融合后的三組特征圖的每個(gè)位置預(yù)測(cè)3個(gè)邊界框,若數(shù)據(jù)集中含有k個(gè)類別,那么對(duì)于每個(gè)邊界框?qū)㈩A(yù)測(cè)3×(5+k)個(gè)值,其中前4個(gè)值為(t x,t y,t w,t h),用來(lái)確定邊界框的位置,第5個(gè)值s則表示該邊界框中存在目標(biāo)的置信度。
圖2 YOLOv4總體結(jié)構(gòu)(輸入圖片大小為416×416,類別數(shù)為20)Fig.2 Overall structure of YOLOv4(input image size is 416×416,number of categories is 20)
CBAM在計(jì)算生成通道注意力時(shí),使用全連接層對(duì)特征進(jìn)行映射,然而全連接層的計(jì)算量巨大,即使在設(shè)計(jì)共享全連接層時(shí)首先對(duì)通道特征壓縮r倍,共享全連接層的參數(shù)量仍然與輸入特征圖通道數(shù)的平方成正相關(guān);另外在空間注意力模塊中,為了聚合更廣泛的空間上下文特征,使用一個(gè)7×7的大感受野卷積核來(lái)聚合空間特征,相比于使用3×3的小卷積核,這在增大了感受野的同時(shí),模塊的參數(shù)量也隨之增大。因此當(dāng)在一個(gè)卷積神經(jīng)網(wǎng)絡(luò)中大量插入CBAM模塊時(shí),網(wǎng)絡(luò)參數(shù)量會(huì)大量增長(zhǎng),這也限制了該模塊的應(yīng)用場(chǎng)景。針對(duì)此問(wèn)題,本文借鑒了文獻(xiàn)[20]的思想,認(rèn)為在CNNs中任意給定的中間特征圖,其相鄰?fù)ǖ篱g的相關(guān)性更大,使用全連接層對(duì)通道特征進(jìn)行映射會(huì)產(chǎn)生許多冗余計(jì)算。因此本文設(shè)計(jì)使用一維卷積操作來(lái)對(duì)一維通道注意力進(jìn)行通道特征聚合,一維卷積核的大小即為聚合鄰域內(nèi)通道數(shù)的數(shù)量,由于卷積操作的參數(shù)共享性質(zhì),引入一維卷積使得通道注意力模塊的參數(shù)量下降到常數(shù)級(jí)。對(duì)于空間注意力,與CBAM中的思想相同,認(rèn)為卷積操作的感受野大小決定了空間注意力的性能,大的感受野能聚合更加廣泛的上下文信息,使得空間注意力的表征能力更強(qiáng)。因此本文使用空洞卷積來(lái)對(duì)二維空間注意力進(jìn)行空間特征聚合,使得在同等大小感受野的情況下,減小了模塊參數(shù)量。本文將改進(jìn)后的模塊叫做EAM(Efficient Attention Module),EAM模塊的總體結(jié)構(gòu)如圖3所示。
圖3 EAM總體結(jié)構(gòu)Fig.3 Overall structure of EAM
2.1.1 通道注意力模塊
與CBAM模塊的思想相同,本文使用通道注意力讓網(wǎng)絡(luò)關(guān)注給定圖像“是什么”。為了有效地計(jì)算通道注意力,首先使用全局均值池化和最大值池化操作來(lái)聚合特征映射的空間信息,生成兩個(gè)不同的通道描述符和,分別表示均值池化特征和最大值池化特征。與CBAM中使用全連接層聚合通道特征不同,本文選擇使用卷積核長(zhǎng)度為k的一維卷積來(lái)聚合該通道鄰域內(nèi)的k個(gè)通道的信息。將卷積后的兩個(gè)特征按元素相加,并通過(guò)Sigmoid函數(shù)運(yùn)算,生成通道注意力,隨后將生成的通道注意力沿空間上的兩個(gè)維度進(jìn)行廣播擴(kuò)充至RC×H×W,再與輸入特征圖按對(duì)應(yīng)元素相乘獲得注入通道注意力后的特征圖。具體地,通道注意力計(jì)算過(guò)程可如下表示:
其中,σ表示Sigmoid函數(shù),表示卷積核大小為k的一維卷積操作。k的大小由文獻(xiàn)[20]中的方程自適應(yīng)決定:
C表示輸入特征圖的通道數(shù),||todd表示與t最接近的奇數(shù)。
2.1.2 空間注意力模塊
本文利用特征圖中的空間關(guān)系生成空間注意力,空間注意力作為通道注意力的補(bǔ)充,使網(wǎng)絡(luò)關(guān)注圖像的有用信息“在哪里”??臻g注意力模塊首先沿輸入特征圖的通道軸進(jìn)行全局均值池化和最大值池化操作,生成兩個(gè)不同的空間上下文描述符和,并將分別生成的描述符沿通道軸進(jìn)行拼接,生成一個(gè)有效的空間特征描述符。隨后使用空洞卷積來(lái)對(duì)空間中需要強(qiáng)調(diào)或抑制區(qū)域信息進(jìn)行編碼映射,更加高效地聚合空間上下文信息,將卷積后的特征經(jīng)過(guò)Sigmoid函數(shù)運(yùn)算生成空間注意力。最后將生成的空間注意力沿通道維度廣播擴(kuò)充至RC×H×W,再與輸入特征圖按對(duì)應(yīng)元素相乘獲得注入空間注意力后的特征圖。具體地,空間注意力計(jì)算過(guò)程可如下表示:
其中,表示卷積核大小為3的空洞卷積,實(shí)驗(yàn)使用空洞率為2的空洞卷積。
由于本文提出的EAM模型是一個(gè)通用的CNNs模塊,它可以插入網(wǎng)絡(luò)中的任意位置,本文將注意力模型融入YOLOv4網(wǎng)絡(luò)中主要遵循以下兩點(diǎn)原則:
(1)不顯著增加網(wǎng)絡(luò)的復(fù)雜度。因?yàn)閅OLOv4本身屬于一階段網(wǎng)絡(luò),為滿足實(shí)時(shí)性目標(biāo)檢測(cè)而設(shè)計(jì),因此不必在整個(gè)網(wǎng)絡(luò)中每個(gè)位置添加注意力模型。同時(shí)網(wǎng)絡(luò)在訓(xùn)練時(shí)應(yīng)方便加載CSPDarknet的預(yù)訓(xùn)練權(quán)重,減少網(wǎng)絡(luò)的訓(xùn)練時(shí)間。
(2)在深度卷積神經(jīng)網(wǎng)絡(luò)中,淺層的特征比較具有通用性,它符合圖像廣泛的一般性特征;而深層特征更加抽象和復(fù)雜,其表征能力也更獨(dú)特,更加適合融入注意力調(diào)整。
根據(jù)以上兩點(diǎn)原則,本文不修改YOLOv4的主干網(wǎng)絡(luò)CSPDarknet的結(jié)構(gòu),選擇將注意力引入PANet結(jié)構(gòu)中,在同級(jí)別的特征圖進(jìn)行卷積操作后注入注意力,融合注意力模塊的PANet結(jié)構(gòu)如圖4所示。
圖4 注意力模型融入PANetFig.4 Attention model integrated into PANet
本文將融入注意力模型的YOLOv4目標(biāo)檢測(cè)算法進(jìn)行實(shí)驗(yàn)論證,實(shí)驗(yàn)數(shù)據(jù)集選擇使用VOC2012公開(kāi)數(shù)據(jù)集。該數(shù)據(jù)集共包含飛機(jī)、自行車、鳥(niǎo)、船、汽車等20個(gè)類別,在該數(shù)據(jù)集中,含有5 717個(gè)訓(xùn)練樣本和5 823個(gè)驗(yàn)證樣本。
實(shí)驗(yàn)選擇參數(shù)量和平均精確率(Average Precision,AP)[20]兩個(gè)評(píng)價(jià)指標(biāo)。參數(shù)量用來(lái)描述目標(biāo)檢測(cè)算法模型的復(fù)雜度,特別地,本文以YOLOv4的參數(shù)量為基準(zhǔn),融入注意力模型后整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)增量來(lái)評(píng)價(jià)模型的復(fù)雜度。AP被定義為不同召回率下的平均檢測(cè)精度,通常以特定類別的方式進(jìn)行評(píng)估,AP用來(lái)描述目標(biāo)檢測(cè)模型的性能。為了比較目標(biāo)檢測(cè)算法對(duì)所有對(duì)象類別即整個(gè)數(shù)據(jù)集的檢測(cè)效果,使用所有類別AP的均值(mAP)作為目標(biāo)檢測(cè)算法性能的最終度量。在計(jì)算mAP的過(guò)程中,為了測(cè)量對(duì)象定位精度,判斷目標(biāo)預(yù)測(cè)的包圍框是否正確,使用交并比(Intersection over Union,IoU)來(lái)衡量預(yù)測(cè)框和目標(biāo)真實(shí)框之間的誤差。預(yù)定義一個(gè)IoU閾值,如果預(yù)測(cè)框和真實(shí)框的IoU大于該閾值,則目標(biāo)將被認(rèn)為成功檢測(cè),否則將被標(biāo)識(shí)為誤檢。實(shí)驗(yàn)計(jì)算mAP時(shí),取IoU閾值為0.5。
本文在YOLOv4中的PANet部分分別融入SE(記為YOLOv4+SE)、CBAM(記為YOLOv4+CBAM)、EAM(記為YOLOv4+EAM)模塊進(jìn)行對(duì)比實(shí)驗(yàn)。目標(biāo)檢測(cè)網(wǎng)絡(luò)的輸入大小固定為416×416,訓(xùn)練時(shí)對(duì)圖片采取隨機(jī)水平翻轉(zhuǎn)和亮度調(diào)節(jié)的數(shù)據(jù)增廣方法,選擇Adam優(yōu)化器對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行優(yōu)化,β1設(shè)為0.9,β2設(shè)為0.999,訓(xùn)練批次大小設(shè)為8,訓(xùn)練時(shí)加載YOLOv4主干網(wǎng)絡(luò)的預(yù)訓(xùn)練模型,首先凍結(jié)主干網(wǎng)絡(luò)的參數(shù)訓(xùn)練20個(gè)周期,學(xué)習(xí)率設(shè)置為1E-3,隨后解凍整個(gè)網(wǎng)絡(luò)對(duì)全局參數(shù)進(jìn)行微調(diào)15個(gè)周期,學(xué)習(xí)率設(shè)置為1E-4。所有算法均使用tensorflow2.2深度學(xué)習(xí)框架實(shí)現(xiàn),實(shí)驗(yàn)硬件環(huán)境CPU為Intel?Xeon?Gold 6278C@2.60 GHz,GPU為Tesla T4@16 GB。
實(shí)驗(yàn)對(duì)SE和CBAM模塊中全連接層的通道壓縮率設(shè)置為16,YOLOv4與三種改進(jìn)模型在VOC2012數(shù)據(jù)集上測(cè)試結(jié)果如表1所示。由表1可以看出,YOLOv4融合本文提出EAM注意力模型后,在VOC2012數(shù)據(jù)集上測(cè)試,mAP顯著提高3.48個(gè)百分點(diǎn)。并且本文提出的EAM注意力模型相比于SE和CBAM的參數(shù)量顯著減小,對(duì)比SE和CBAM可以發(fā)現(xiàn)主要是因?yàn)槿B接層使得注意力模型的參數(shù)量顯著增加。另外EAM在引入微量參數(shù)的情況下,網(wǎng)絡(luò)的性能提升顯著,分析認(rèn)為因?yàn)樵赟E和CBAM模塊生成通道注意力的過(guò)程中,首先使用全連接層來(lái)對(duì)通道數(shù)量進(jìn)行了壓縮,此過(guò)程丟失了部分特征信息,而一維卷積并未進(jìn)行通道壓縮而效果更好,在3.3節(jié)中會(huì)深入分析通道注意力中一維卷積和空間注意力中空洞卷積的優(yōu)勢(shì)。
表1 融入注意力模型的YOLOv4實(shí)驗(yàn)結(jié)果對(duì)比Table 1 Experimental comparison of YOLOv4 incorporating attention module
針對(duì)單個(gè)類別,四種算法在VOC2012數(shù)據(jù)集上的測(cè)試實(shí)驗(yàn)結(jié)果如圖5所示。由圖表可以看出,在VOC2012數(shù)據(jù)集上,YOLOv4對(duì)于椅子和餐桌兩個(gè)類別的檢測(cè)效果相對(duì)較差,在融入注意力模型后,對(duì)于這兩個(gè)類別的檢測(cè)效果明顯提升。瀏覽數(shù)據(jù)集發(fā)現(xiàn)數(shù)據(jù)集中的椅子和餐桌樣本通常與其他類別的樣本有較多重疊,并且包含困難樣本較多,分析認(rèn)為YOLOv4在融合注意力模型后能夠顯著提高網(wǎng)絡(luò)的特征表達(dá)能力,因此網(wǎng)絡(luò)對(duì)兩個(gè)類別的檢測(cè)效果明顯提升。另外,YOLOv4在融合本文提出的EAM注意力模型后對(duì)船、盆栽、沙發(fā)這三個(gè)類別的檢測(cè)精度相比較融入其他注意力模型有明顯提高。分析認(rèn)為主要原因在于三種類別的樣本在VOC2012數(shù)據(jù)集中數(shù)量較少,在PANet中融合EAM注意力能夠顯著提高網(wǎng)絡(luò)的特征表達(dá)能力,增強(qiáng)網(wǎng)絡(luò)對(duì)少樣本的學(xué)習(xí)能力,提高網(wǎng)絡(luò)的檢測(cè)性能。
圖5 YOLOv4及三種改進(jìn)算法在VOC2012數(shù)據(jù)集上檢測(cè)結(jié)果對(duì)比Fig.5 Comparison of detection results of YOLOv4 and three improved algorithms on VOC2012 data set
本文對(duì)YOLOv4及融合CBAM和EAM后的檢測(cè)結(jié)果進(jìn)行了可視化對(duì)比,對(duì)比結(jié)果如圖6所示,根據(jù)對(duì)比可以發(fā)現(xiàn)YOLOv4在融合EAM注意力模型后對(duì)遮擋較為嚴(yán)重的目標(biāo)檢測(cè)效果明顯提高,并且目標(biāo)置信度也有小幅提高。由圖6(d)、(e)、(f)三個(gè)檢測(cè)結(jié)果對(duì)比可以發(fā)現(xiàn)在復(fù)雜的環(huán)境條件下,YOLOv4在融合本文提出的EAM注意力模型后,網(wǎng)絡(luò)的檢測(cè)效果提升顯著。
圖6 YOLOv4及其改進(jìn)算法檢測(cè)效果可視化對(duì)比Fig.6 Visual comparison of detection effect of YOLOv4 and its improved algorithm
3.3.1 通道注意力
實(shí)驗(yàn)只保留CBAM和EAM模塊中的通道注意力,舍棄兩個(gè)模塊中的空間注意力,依然將保留的通道注意力模塊融入YOLOv4的PANet結(jié)構(gòu)中,在VOC2012數(shù)據(jù)集上進(jìn)行測(cè)試,只保留通道注意力設(shè)計(jì)了三組實(shí)驗(yàn)來(lái)驗(yàn)證EAM通道注意力的有效性:
(1)使用共享全連接層聚合通道特征,壓縮率取r=16,用CBAM-C表示。
(2)直接使用一層含C個(gè)(輸入通道數(shù))神經(jīng)元的全連接層聚合通道特征,用CBAM-C+表示。
(3)使用一維卷積聚合通道特征,用EAM-C表示。
實(shí)驗(yàn)結(jié)果如表2所示。
表2 CBAM與EAM中通道注意力模塊對(duì)比Table 2 Comparison of channel attention modules in CBAM and EAM
由表2可知,在CBAM生成空間注意力過(guò)程中為了減小模塊的參數(shù)量,首先使用了r倍壓縮率的全連接層對(duì)通道進(jìn)行聚合壓縮,對(duì)比直接使用一層全連接層對(duì)通道信息進(jìn)行聚合的效果,后者雖然舍棄了一個(gè)全連接層,但是mAP提高了0.85個(gè)百分點(diǎn)。分析認(rèn)為是因?yàn)镃BAM引入了對(duì)通道進(jìn)行特征壓縮的過(guò)程,該過(guò)程雖然使得模塊的運(yùn)算量減少,同時(shí)也舍棄了特征圖的部分信息,使得通道注意力的特征表達(dá)能力下降。對(duì)比EAM的通道注意力,由于直接對(duì)全局池化后的通道特征進(jìn)行一維卷積,并沒(méi)有對(duì)特征進(jìn)行壓縮,整個(gè)特征圖的通道信息得以完整保留,因此生成的通道注意力比CBAM效果更好,但由于一維卷積只聚合了k個(gè)鄰域通道的信息,相比于直接使用全連接層進(jìn)行特征映射效果略微下降。另外,使用全連接層聚合通道信息,在參數(shù)量大量增長(zhǎng)的情況下,模型的檢測(cè)效果并未獲得顯著性提高,這也證實(shí)在特征圖中相鄰?fù)ǖ篱g的信息依賴關(guān)系更強(qiáng),使用全連接層聚合所有通道信息存在大量冗余運(yùn)算。
3.3.2 空間注意力
實(shí)驗(yàn)只保留CBAM和EAM模型中的空間注意力模塊,舍棄模型中的通道注意力,來(lái)測(cè)試空洞卷積的有效性。仍然將保留空間注意力模塊融入YOLOv4的PANet部分,在VOC2012數(shù)據(jù)集上進(jìn)行測(cè)試,只保留空間注意力設(shè)計(jì)了四組實(shí)驗(yàn):
(1)使用卷積核大小為7×7的標(biāo)準(zhǔn)卷積,用CBAM-S表示。
(2)使用卷積核大小為3×3,空洞率為2的空洞卷積,用EAM-S表示。
(3)使用卷積核大小為7×7,空洞率為2的空洞卷積,用EAM-S+表示。
(4)使用兩次卷積核大小為3×3,空洞率為2的空洞卷積,用EAM-S++表示。
實(shí)驗(yàn)結(jié)果如表3所示。
表3 CBAM與EAM中空間注意力模塊對(duì)比Table 3 Comparison of spatial attention modules in CBAM and EAM
由表3可知,對(duì)比使用7×7的標(biāo)準(zhǔn)卷積和7×7空洞卷積的實(shí)驗(yàn)結(jié)果,論證了在卷積聚合空間信息過(guò)程中,感受野越大,能聚合的空間上下文信息越豐富,對(duì)空間特征的編碼能力越強(qiáng),映射生成的空間注意力效果越好??斩绰蕿?的3×3的空洞卷積與7×7的標(biāo)準(zhǔn)卷積擁有相同的感受野,兩者的效果近似,但前者的參數(shù)量只有后者的9/49。另外由第二組和第四組實(shí)驗(yàn)結(jié)果對(duì)比發(fā)現(xiàn)堆疊多個(gè)卷積層同樣能提高空間注意力的特征表達(dá)能力。
基于CBAM注意力模型,本文提出了一種輕量級(jí)的通用注意力模型EAM,該模型使用一維卷積來(lái)聚合通道信息生成通道注意力,使用空洞卷積來(lái)聚合空間上下文信息生成空間注意力,極大地減少了注意力模型的參數(shù)量。本文將EAM融入YOLOv4網(wǎng)絡(luò)中進(jìn)行實(shí)驗(yàn)測(cè)試,實(shí)驗(yàn)結(jié)果證明該注意力模型只需要付出少量參數(shù)的代價(jià),模型檢測(cè)的效果可以顯著提高。未來(lái)將進(jìn)一步探索EAM模塊在CNNs其他領(lǐng)域的應(yīng)用,如實(shí)例分割、目標(biāo)跟蹤等。