国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于池化的雙維度視覺注意力模型*

2021-02-11 12:34:58張萬玉張文娟鄒品榮王晨陽
關(guān)鍵詞:池化注意力卷積

張萬玉,肖 鋒,張文娟,鄒品榮,王晨陽

(1.西安工業(yè)大學(xué) 計算機科學(xué)與工程學(xué)院,西安 710021;2.西安工業(yè)大學(xué) 基礎(chǔ)學(xué)院,西安 710021;3.西安工業(yè)大學(xué) 兵器科學(xué)與技術(shù)學(xué)院,西安 710021)

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)已經(jīng)廣泛地應(yīng)用到圖像分類、目標檢測和語義分割等各種計算機視覺任務(wù)中。近年來,許多研究者[1-2]開始研究如何在現(xiàn)有CNN的基礎(chǔ)上進一步提升網(wǎng)絡(luò)性能和信息感知表達能力,一方面,從LeNet[3]到VGG[4]再到Residual風(fēng)格[5-8]的網(wǎng)絡(luò)通過不斷堆疊重復(fù)的卷積模塊或者使用殘差塊(residual block)的網(wǎng)絡(luò)加深網(wǎng)絡(luò)深度,從而捕獲更多圖像的表達信息。另一方面,考慮到CNN局部感受野自身的不足,許多工作從多尺度信息融合的角度入手,GoogLeNet[9]在同一層使用不同大小的卷積核,從而獲取到不同感受野的信息;Res2Net[10]通過使用等級制度的方法,能更好表示多尺度的信息,使得網(wǎng)絡(luò)能夠獲得更加顆粒級別的信息。此外,文獻[11-13]使用膨脹卷積(dilated convolution)和分組卷積(group convolution)來對卷積網(wǎng)絡(luò)進行改造,膨脹卷積在不增加池化操作的情況下,獲得了更大的感受野信息,而分組卷積則是借鑒AlexNet[14]的工作,把卷積計算的操作分組執(zhí)行,使得在保持網(wǎng)絡(luò)基本性能的前提下,計算量顯著減少。然而,盡管基于殘差連接的方式能夠在一定程度減少梯度消失和梯度爆炸的出現(xiàn),但通過不斷堆疊卷積來獲取更多、更豐富的特征信息,實際上是一種不夠高效的方式。此外,基于多尺度融合的方式,有時需要人為手動設(shè)計的卷積核的大小,以保證其對特定任務(wù)有較好的性能提升。

認知科學(xué)中指出,大腦可以有意或無意地從大量輸入信息中選擇小部分有用信息來重點處理,弱化其它冗余信息,從而將有限信息處理資源分配給重要的任務(wù),這種具有選擇的視覺能力稱為視覺注意力機制。CNN在進行卷積操作之后,通道維度可以幫助網(wǎng)絡(luò)獲取不同物體的特征信息,即“看什么”;空間維度獲得位置上的依賴信息,即“在哪看”。將視覺注意添加到“看什么”“在哪看”兩個維度上,可以在獲得較好網(wǎng)絡(luò)性能的同時,獲得更好的信息表達。因此,針對經(jīng)典網(wǎng)絡(luò)結(jié)構(gòu)改進視覺注意力機制的方法不斷涌現(xiàn)[15-17],SENet[18]提出一種自適應(yīng)的重新標定特征通道上響應(yīng)的方法,有差別地關(guān)注不同通道間的信息;ECANet[19]在SENet的基礎(chǔ)上,提出一種自適應(yīng)地捕獲局部通道間關(guān)系的方法,并去除了瓶頸層設(shè)計。然而,它們只考慮了通道維度上的信息,而缺少空間維度上的信息。NLNet[20]提出通過自注意力(self-attention)的方式來捕獲全局的信息,從而使得生成的新的像素值不只與局部的信息有關(guān);CCNet[21]使用十字交叉的方式,顯著地減少了自注意力機制下的參數(shù)量,且能夠通過循環(huán)操作實現(xiàn)全局信息的捕獲。這兩種方法只利用了空間維度信息,而未對通道維度上的信息進行關(guān)注。CBAM[22]和BAM[23]同時關(guān)注了兩個維度,使得注意力機制捕獲的信息更加完整,但對于空間維度都僅僅考慮局部范圍內(nèi)的信息,缺少更加全局的空間信息;對于通道維度,捕獲了較多冗余的通道信息,增加模型復(fù)雜度。

本文提出一種基于池化的雙維度視覺注意力模型,使用Embedding池化的方法增強通道注意力機制聚合空間信息的多樣性和優(yōu)化空間自注意力機制捕獲全局信息的計算方式,提升網(wǎng)絡(luò)的表達能力,聚焦與目標物體有關(guān)的特征信息。

1 模型架構(gòu)設(shè)計

1.1 模型整體架構(gòu)

圖1給出了通道和空間注意力模型(Channel and Spatial Attention Module,CSAM)。

當在CNN網(wǎng)絡(luò)中輸入一張?zhí)卣鲌DF∈RC×H×W,C、H和W分別表示特征圖的通道數(shù)、高和寬。CSAM能夠順次得到通道注意力Ac∈RC×1×1和空間注意力As∈RC×H×W。整體的注意力計算流程如式(1):

F′=Ac(F)*F

F″=As(F′)*F′,

(1)

其中,*表示對應(yīng)元素的點乘操作,計算F′時,默認使用了廣播機制,使得計算過程中保證了計算維度的一致性,F(xiàn)″為CSAM最終的輸出特征圖。

1.2 通道注意力模塊

在CNN網(wǎng)絡(luò)中,不同的卷積核提取圖像中不同特征,如:紋理、邊緣等,因此不同通道下顯示信息的特征表示具有明顯的差異性。通過提取CNN中淺層網(wǎng)絡(luò)通道特征,并進行可視化,如圖2所示。由圖2看出,特征圖中每個通道能夠捕獲圖像中物體的不同特征,但在實際任務(wù)中,只有部分重要的特征會直接影響最終目標的效果,因此在進行視覺任務(wù)時,應(yīng)該重視特征圖中反應(yīng)圖像特征的通道,對顯示圖像特征較少或較弱的通道予以較少的關(guān)注。

對經(jīng)典的SENet通道注意力機制模型進行分析,發(fā)現(xiàn)其存在兩點不足:① 對空間信息的聚合只使用了全局平均池化信息,缺少對全局多樣性信息的表達。② 全連接網(wǎng)絡(luò)的引入自然而然地丟失了注意力權(quán)重的準確性。SENet結(jié)構(gòu)如圖3所示。

圖3 SENet 網(wǎng)絡(luò)結(jié)構(gòu)

本文在全局平均池化聚合空間維度(RH×W)信息的基礎(chǔ)上,增加了全局最大池化來獲取更多顯著性的特征,使網(wǎng)絡(luò)既能表示更多全局的信息,又能關(guān)注到最顯著的特征,綜合提升了信息聚合時的多樣性表達[24-26]。

全局最大和全局平均池化的計算方法為

qc=max(uc(i,j)),

(2)

(3)

其中,i∈(1,H),j∈(1,W),c∈(1,C),qc表示全局最大池化后的結(jié)果;Zc表示全局平均池化后的結(jié)果;uc表示輸入特征圖。

對于SENet池化后學(xué)習(xí)通道注意力權(quán)重的共享層,通過使用一個簡單的局部通道連接(一維卷積)的方式進行替代,使得每一個輸出通道的注意力權(quán)重只與局部通道響應(yīng),有效地消除了注意力權(quán)重不一致的問題。為了更進一步驗證更加準確的通道注意力權(quán)重,選擇單獨為每一個通道建模一個可學(xué)習(xí)的權(quán)重參數(shù),但實驗證明其性能差于局部通道的連接方式,詳細的實驗結(jié)果見表2。通道注意力模塊設(shè)計如圖4所示。

圖4 通道注意力模塊

通道注意力模塊計算的整體流程如下:

Ac(F)=Sigmoid(1Dk(GlobalAvgPool(F))+

1Dk(GlobalMaxPool(F)))

(4)

其中,1Dk表示一維卷積操作,下標k表示一維卷積核的大小,即自適應(yīng)局部通道的個數(shù)。

對于k值的選擇,為了能使網(wǎng)絡(luò)能夠?qū)崿F(xiàn)自適應(yīng)的根據(jù)網(wǎng)絡(luò)不同的通道數(shù)選擇相對應(yīng)的近鄰值k。建立一個通道數(shù)目C值與k值之間的線性函數(shù)C=k×α+β,考慮到通道數(shù)C的取值一般為2的倍數(shù),因此將線性函數(shù)變換為:C=2k×α+β。通過計算得到有關(guān)于k的表達式為

(5)

式中:下標odd表示所選k值要保證為奇數(shù),α和β的取值分別設(shè)定為2和1。

最終,模型會在訓(xùn)練過程中根據(jù)相應(yīng)網(wǎng)絡(luò)的通道數(shù)值對k值進行自適應(yīng)地調(diào)節(jié),實現(xiàn)自適應(yīng)地捕獲局部通道間的相關(guān)關(guān)系。W∈Rk為不同類型的全局池化操作后共同享有的參數(shù),即一維卷積核的參數(shù)。Sigmoid函數(shù)表示計算相應(yīng)通道的注意力權(quán)重,能將權(quán)重數(shù)值映射到[0,1]區(qū)間內(nèi),使其表示為一個概率數(shù)值,從而能夠起到注意力門控的功能,其計算表達式為

(6)

式中S(x)為輸出響應(yīng);x為輸入。

1.3 空間注意力模塊

當人們觀察一幅圖片時,大腦視覺皮層會自覺地對圖中感興趣的區(qū)域響應(yīng)更多的刺激信息,致使眼球視野聚焦在這部分區(qū)域,形成空間注意力。如圖5所示(感興趣目標為手套):

圖5 空間注意力的表示

在CNN中,空間注意力的形成主要通過重新標定特征圖空間位置上的權(quán)重分布來實現(xiàn)。然而,調(diào)整空間位置上的權(quán)重需要有效地擴大CNN的感受野區(qū)域,使網(wǎng)絡(luò)能夠考慮到更多不同位置上的信息。視覺自注意力機制能實現(xiàn)對每一個位置計算全局的相關(guān)關(guān)系,使得生成的新特征點包含了全局的信息,但暴力地計算所有位置上的全局信息,增加了網(wǎng)絡(luò)模型的參數(shù)運算量,其計算復(fù)雜度為O((H×W)2),計算方式如圖6所示。

圖6 空間自注意力計算

通過池化方法優(yōu)化視覺自注意力機制,將計算復(fù)雜度減低到O((H×W)(H+W-1))。在池化方法的選擇方面,為保留更多的局部語義信息,使得待池化的特征都具有一定的貢獻能力,選擇平均池化的操作。而最大池化則會關(guān)注局部更顯著的特征,弱化對局部多種特征信息的表達。

1) 在空間維度W和H上分別使用平均池化操作,使網(wǎng)絡(luò)獲得相應(yīng)維度下的空間Embedding信息,整個計算過程中保證通道維數(shù)C不變。

空間維度H與W的平均池化操作計算為

(7)

(8)

2) 把池化后的特征圖維度擴展(保證相對位置上數(shù)值不變,橫線或縱向進行擴展)到原始輸入特征圖大小(RC×H×W),特征圖AW∈RC×1×W和AH∈RC×H×1進行維度擴展的操作如圖7所示。

圖7 維度擴展

3) 將兩個分支上所獲取的信息進行特征融合,即進行相同位置逐元素相加的計算,使生成的新像素點包含先前在此位置水平和垂直維度上的信息,豐富特征信息的來源。

4) 為了獲取某一位置更加全局與豐富的空間語義信息,僅需對空間注意力模塊進行一次重復(fù)堆疊,便能獲得某位置全局上下文的信息,使用Sigmoid函數(shù)計算得到空間位置的注意力權(quán)重。子模塊的詳細組成結(jié)構(gòu)如圖 8所示。

圖8 空間注意力模塊

空間注意力模塊的整體計算流程如式(9)

As(F)=Sigmoid(Conv1×1(expand(AvgPoolh(F))+

expand(AvgPoolw(F))))

(9)

其中,AvgPoolh、AvgPoolw分別表示在空間維度(RH×W)的子維度h、w上對應(yīng)的平均池化操作;f代表卷積操作,1×1卷積[27]表示對通道維度進行縮減;E表示對應(yīng)維度上的擴展運算(維度擴展);Sigmoid實現(xiàn)權(quán)重放縮,計算表達式如式(6)。

1.4 注意力模塊的連接

從空間維度和通道維度分別進行注意力模塊化的設(shè)計,使網(wǎng)絡(luò)能夠同時兼顧兩個維度上的注意力信息。有效地連接雙維度下所獲取的視覺注意力信息,是更好地提升模型視覺表達能力的關(guān)鍵。兩個維度下的連接形式共有三種:先通道后空間、先空間后通道和空間通道并行。

通過實驗驗證了先通道后空間的連接方式具有更好的效果,因此選擇其作為模型最終的連接形式。這種連接方式也表明文中所設(shè)計的模塊傾向于先注意到具體的目標對象,再對其所在位置給予關(guān)注。詳細的實驗分析在消融實驗中體現(xiàn),如圖9所示。

圖9 模塊連接方式

2 實 驗

通過進行消融實驗,對模型設(shè)計的合理性和準確性進行驗證。針對圖像分類任務(wù),對CSAM模型進行評估。使用CIFAR-100標準數(shù)據(jù)集,在骨架網(wǎng)絡(luò)ResNet[5]和ResNeXt[8]網(wǎng)絡(luò)上分別對提出模型的泛化能力進行了定量分析,與先前較優(yōu)的視覺注意力模型進行了性能上的對比。最后,實施了進一步的可視化實驗,比較了設(shè)計模型與其它注意力模型之間的注意力區(qū)域聚焦能力。

2.1 實驗詳情

2.1.1 數(shù)據(jù)集

CIFAR-100數(shù)據(jù)集包含100個類別的60 000張32×32彩色圖像。訓(xùn)練集和測試集分別包含50 000張和10 000張圖像。對于該數(shù)據(jù)集,采用隨機裁剪的標準數(shù)據(jù)增強方法,該方法采用4像素填充和水平翻轉(zhuǎn)。對于預(yù)處理,使用RGB平均值和標準差對數(shù)據(jù)進行歸一化。

2.1.2 訓(xùn)練策略

網(wǎng)絡(luò)參數(shù)通過隨機梯度下降(SGD)進行優(yōu)化,其中權(quán)重衰減為1e-4,動量為0.9,并設(shè)定了初始學(xué)習(xí)率為0.1。對于ResNet-50的訓(xùn)練,選擇批量大小為64,在200個epoch內(nèi)完成網(wǎng)絡(luò)的訓(xùn)練,分別在100、150個epoch時,對學(xué)習(xí)率進行0.1倍速率衰減。對于ResNeXt-50和ResNeXt-101網(wǎng)絡(luò)的訓(xùn)練,選擇批量大小為128,在100個epoch內(nèi)完成網(wǎng)絡(luò)的訓(xùn)練,每隔30個epoch進行0.1倍的學(xué)習(xí)率衰減。

2.1.3 運行環(huán)境

所有程序均由PyTorch1.4[28]實現(xiàn),CUDA版本為10.1,且在裝有兩個GeForce GTX 1080GPU的PC上運行,運行操作系統(tǒng)為Ubuntu 16.04。

2.2 消融實驗

2.2.1 模塊連接方式

提出的注意力機制模型是基于兩個維度考慮,而雙維度下的模塊連接形式共有三種,除了如圖1所示本文采用的先通道后空間的連接方式外,其它兩種連接方式如圖9所示。

比較了不同連接形式下的分類準確率。實驗上選擇ResNeXt-50作為消融實驗的骨架網(wǎng)路和基準線,將三種組合形式添加到骨架網(wǎng)絡(luò)中進行訓(xùn)練、評估,最終得到的消融實驗結(jié)果見表1。

表1 不同連接下的準確率

Com1表示圖 9(a)中的結(jié)構(gòu),Com2表示圖 9(b)中的結(jié)構(gòu)。由表1看出,CSAM分類準確率明顯高于基準線,而在另外兩種組合下,其效果均低于基準線水平。因此,本文最終選擇如圖1所示的先通道后空間的連接形式,從實驗上佐證了CSAM組合方式選擇的合理性和準確性。

2.2.2 共享MLP設(shè)計

在通道注意力子模塊中考慮了不同共享層的設(shè)計,為了能夠定量地分析共享層設(shè)計選擇的合理性,比較了三種不同的連接形式:瓶頸層(Var1)、局部自適應(yīng)通道連接以及Var2。瓶頸層、局部自適應(yīng)通道連接如圖 10所示。Var2直接將兩種池化后的結(jié)果進行融合,不設(shè)置共享層。

圖10 共享層的連接方式

通過消融實驗證明,采用局部通道連接方式的性能不僅優(yōu)于基準線網(wǎng)絡(luò)(ResNetXt-50),而且對于另外兩種形式(Var1和Var2)也有明顯的提升。因此,有效的局部自適應(yīng)通道連接能夠在一定程度上提升網(wǎng)絡(luò)的性能,進一步證明了模型設(shè)計的合理性。實驗結(jié)果見表2。

表2 不同共享全連接方式準確率比較

2.3 圖像分類

針對標準圖像分類任務(wù),實驗中選擇了經(jīng)典的殘差系列網(wǎng)絡(luò)。ResNet和ResNeXt作為實驗中的兩種不同類型的骨架網(wǎng)絡(luò),并與State-of-the-art的注意力機制模型SENet、TANet[29]、CBAM、ECANet和BAM進行比較。為體現(xiàn)實驗的公平性,所有注意力模塊的測試均在相同的實驗條件下進行,且在骨架網(wǎng)絡(luò)中添加的位置相同。

注:加粗字體為每列最優(yōu)值。

1) 將以ResNet網(wǎng)絡(luò)為骨架網(wǎng)絡(luò)添加提出的注意力機制模型和添加其他注意力機制模型后的收斂性能比較。由于ResNet-101網(wǎng)絡(luò)參數(shù)量大,硬件性能不足,故只給出深度為50層網(wǎng)絡(luò)的比較結(jié)果。訓(xùn)練過程中的Top-1泛化誤差曲線如圖11所示。

圖11 ResNet-50在不同注意力模型下的Top-1泛化誤差

由圖11結(jié)果表明,添加提出的注意力機制模型后的收斂性較骨架網(wǎng)絡(luò)ResNet網(wǎng)絡(luò)顯著提升,一定程度上優(yōu)于其他注意力機制模型。而進一步在測試集上計算各比較模型的Top-1和Top-5準確率。添加CSAM模型的準確率分別為79.7%和95.22%,均優(yōu)于基準線和其它注意力模型。實驗結(jié)果如圖 12所示。

圖12 ResNet-50在不同注意力模型下的準確率

2) 為進一步驗證提出模型對不同骨架網(wǎng)絡(luò)的泛化能力,使用ResNeXt作為新的骨架網(wǎng)絡(luò),并選擇了50層和101層來對比不同深度下提出模型對骨架網(wǎng)絡(luò)性能的提升情況。實驗結(jié)果如圖13所示。

圖13 不同骨架網(wǎng)絡(luò)與注意力模塊下的Top-1泛化誤差

實驗結(jié)果表明在不同深度下,添加提出視覺注意力機制模型都能有效提升網(wǎng)絡(luò)性能。

3) 在測試集上計算了對應(yīng)模型的Top-1和Top-5準確率,其中CSAM對應(yīng)的準確率分別為59.65%、83.94%和59.36%、84.24%,均優(yōu)于基準線和其它注意力模型。實驗結(jié)果如圖14~圖15所示。

圖14 ResNeXt-50在不同注意力模型下的準確率

圖15 ResNeXt-101在不同注意力模型下的準確率

2.4 Grad-CAM絡(luò)可視化

為了能夠定性地分析本文所設(shè)計模塊性能的優(yōu)越性,使用來自CIFAR-100驗證集的圖像,將Grad-CAM[30]應(yīng)用到不同的注意力機制網(wǎng)絡(luò)。Grad-CAM作為一種網(wǎng)絡(luò)可視化的方法,通過計算梯度的方式來定位圖像在空間位置中的重要性,有助于進一步理解模型的判別依據(jù)。通過查看可視化后的聚焦區(qū)域來定性的比較CSAM與基準線網(wǎng)絡(luò)和其它注意力模塊之間的區(qū)域感知或聚焦能力。實驗挑選了在ResNet-50骨架網(wǎng)絡(luò)下可視化效果不夠好的圖片作為參考依據(jù),實驗可視化的結(jié)果如圖16所示。

圖16 Grad-CAM可視化

由圖16可以看出,原始的ResNet-50網(wǎng)絡(luò)所判別物體的感知區(qū)域不夠聚焦,或者聚焦了一些冗余的信息,并將這些信息作為最后的判別依據(jù)。而其它注意力機制模塊,如CBAM和SENet盡管對物體區(qū)域感知更加聚焦,但還是存在一些冗余的信息。此外,改進的ECANet盡管有較好的分類準確率,但在可視化所感知的區(qū)域明顯差于其原模型SENet。但本文提出的CSAM模型,既能夠聚焦于感知目標在圖像中的區(qū)域位置,又能夠減少對冗余信息的捕捉,進一步驗證了提出模型性能的優(yōu)越性。

3 結(jié) 論

探索并發(fā)現(xiàn)圖像更加豐富的表達能力是CNN的主要目的之一。從視覺注意力機制的角度出發(fā),提出了一種基于池化的雙維度視覺注意力機制。通過在不同維度上優(yōu)化池化方法獲取有效注意力信息的方式,使網(wǎng)絡(luò)既能知道“看什么”,又能知道“在哪看”。

結(jié)果表明,模型在分類任務(wù)(CIFAR-100)上表現(xiàn)良好,與主流的視覺注意力模型對比:SENet、CBAM、ECA,BAM和TANet,分別提升Top-1準確率0.87%、0.48%、0.17%、0.43%和0.90%,并通過Grad-CAM可視化,證明提出模型能準確對圖像中的目標區(qū)域進行聚焦和感知,明顯地提升了CNN骨架網(wǎng)絡(luò)的性能。然而,使用了維度擴展來完成特征融合,其代價是一定程度上增加了空間復(fù)雜度,不可避免的會出現(xiàn)一定程度的信息冗余,因此,選擇合適的融合方式將作為下一步的研究方向。

猜你喜歡
池化注意力卷積
面向神經(jīng)網(wǎng)絡(luò)池化層的靈活高效硬件設(shè)計
基于Sobel算子的池化算法設(shè)計
讓注意力“飛”回來
卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識別研究
基于傅里葉域卷積表示的目標跟蹤算法
“揚眼”APP:讓注意力“變現(xiàn)”
傳媒評論(2017年3期)2017-06-13 09:18:10
A Beautiful Way Of Looking At Things
陆良县| 墨竹工卡县| 高邮市| 宁德市| 西城区| 陆良县| 巴彦淖尔市| 黔东| 邵阳市| 东乌珠穆沁旗| 广元市| 黄大仙区| 大田县| 达孜县| 丁青县| 安仁县| 衡山县| 连云港市| 卫辉市| 平远县| 广州市| 南城县| 海宁市| 邢台县| 焉耆| 怀集县| 富顺县| 十堰市| 马鞍山市| 利辛县| 伊吾县| 霞浦县| 志丹县| 清丰县| 望都县| 监利县| 黄大仙区| 环江| 朝阳市| 建始县| 松潘县|