曾金芳 封琳瑯 李婕妤 閆李丹
摘要:雖然現(xiàn)已有許多關(guān)于圖像注意力機制的研究,但是現(xiàn)有的方法往往忽視了特征圖的全局空間結(jié)構(gòu)和空間注意力與通道注意力的聯(lián)系。所以本文提出了一種基于整個空間拓撲結(jié)構(gòu)的注意機制,將特征圖映射成結(jié)點與特征的形式,再借助圖卷積網(wǎng)絡(luò)的特性,得以從整個空間學(xué)習(xí)特征權(quán)重圖。其次空間注意力與通道注意力一體化結(jié)構(gòu)能夠更有效地學(xué)習(xí)特征權(quán)重。通過多個實驗測試表明,在圖像分類和人臉識別任務(wù)中,展現(xiàn)了優(yōu)異的性能和普遍適用性。
關(guān)鍵詞:深度學(xué)習(xí);注意力機制;圖像分類;人臉識別
隨著計算機性能的提升,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)廣泛地運用于圖像領(lǐng)域。經(jīng)過多年的研究,基于卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)架構(gòu)取得了重大的成功。HE等提出了殘差網(wǎng)絡(luò),可以跳層連接的殘差單元有效地解決梯度消失與梯度爆炸問題,使得網(wǎng)絡(luò)的深度成倍增長,進而圖像注意力機制逐漸受到關(guān)注。WANG等使用編碼器-解碼器的結(jié)構(gòu)對殘差網(wǎng)絡(luò)進行了注意力機制的改造得到殘差注意力網(wǎng)絡(luò)(residual attention network,RAN)。HU等使用通道注意和通道特征融合來抑制不重要通道的方式構(gòu)建了縮聚激發(fā)網(wǎng)絡(luò)(squeeze-and-excitation networks,SENet)。PARK 等構(gòu)建了瓶頸注意模塊(bottleneck attention module,BAM),該模塊依次使用通道注意力網(wǎng)絡(luò)和空間注意力網(wǎng)絡(luò)推理注意力圖。FUKUI等構(gòu)建了復(fù)雜的注意力分支結(jié)構(gòu)網(wǎng)絡(luò)(attention branch network,ABN),引入具有注意力機制的分支結(jié)構(gòu)來擴展基于響應(yīng)的視覺解釋模型。MISRA 等考慮了通道-空間相互作用,基于三個維度兩兩相關(guān)性構(gòu)建注意力網(wǎng)絡(luò)TAM (triplet attention module)。
雖然現(xiàn)已提出的許多注意都從通道注意力和空間注意力兩方面來設(shè)計模型,但是其空間結(jié)構(gòu)的尺度取決于卷積核的大小,而且沒有從圖像整體出發(fā)分析空間特性并忽視了通道與空間的關(guān)聯(lián)性。在研究中發(fā)現(xiàn),圖卷積網(wǎng)絡(luò)(graph convolution network,GCN)能夠充分地使用這些特性學(xué)習(xí)特征圖。因此本文基于圖卷積網(wǎng)絡(luò)提出了圖結(jié)構(gòu)注意力網(wǎng)絡(luò)(graph structure attention network,GSAN),該模型既考慮了通道與空間的關(guān)聯(lián)性也考慮了圖像整個拓撲結(jié)構(gòu)。
1圖結(jié)構(gòu)注意力網(wǎng)絡(luò)
在已有的研究表明,圖卷積網(wǎng)絡(luò)本身充分考慮了通道的影響并且在解決非歐幾里得數(shù)據(jù)展現(xiàn)了強大的性能。我們利用這些特性設(shè)計了一個通道注意力與空間注意力一體化的注意力網(wǎng)絡(luò)模型,而不用像其他注意力網(wǎng)絡(luò)模型一樣分別設(shè)計通道注意力分支和空間注意力分支。在模型中我們設(shè)計了一套由圖像到圖的數(shù)據(jù)映射關(guān)系,使得輸入特征與圖卷積網(wǎng)絡(luò)的輸入相匹配,并以圖卷積網(wǎng)絡(luò)為基礎(chǔ)構(gòu)建了圖結(jié)構(gòu)注意力網(wǎng)絡(luò)。在研究中表明,本文所設(shè)計注意力模型分類性能與卷積層數(shù)有關(guān),所以本文設(shè)計的卷積層數(shù)可調(diào)的注意力網(wǎng)絡(luò),以下內(nèi)容均以兩層卷積層的網(wǎng)絡(luò)為例說明。
特征圖在模型中的維度與尺度變化過程如圖1所示。Norm表示正則化,Pool表示池化,GCN表示圖卷積網(wǎng)絡(luò)。特征圖F的尺度由F∈R經(jīng)過正則化與池化得到F∈R,然后經(jīng)過圖卷積通道壓縮得到中間態(tài)F∈R并再經(jīng)過一層圖卷積恢復(fù)F∈R,最終利用廣播機制恢復(fù)到F∈R。
2圖與圖卷積網(wǎng)絡(luò)
圖是一系列的結(jié)點和描述兩個結(jié)點關(guān)系的邊組成。圖是數(shù)據(jù)元素的集合,這些數(shù)據(jù)元素相互連接形成網(wǎng)絡(luò),因此經(jīng)常被用來描述具有拓撲結(jié)構(gòu)的數(shù)據(jù)。如圖2所示,表示一個由四個結(jié)點與四條邊組成的圖,其對應(yīng)的鄰接矩陣則是描述邊的連接關(guān)系的矩陣。當(dāng)邊L(i,j∈1,2,3,4)存在時,對應(yīng)的鄰接矩陣元素A為1,否則為0。
卷積網(wǎng)絡(luò)的卷積,本質(zhì)上利用濾波器對矩陣空間的某個區(qū)域內(nèi)的像素點進行加權(quán)求和,進而求得新的特征表示的過程。許多沒有明確規(guī)律的非歐幾里得數(shù)據(jù)并不適用于卷積網(wǎng)絡(luò),而圖卷積的誕生者很好的解決這一問題。在已往的研究中,圖卷積網(wǎng)絡(luò)在具有拓撲結(jié)構(gòu)的數(shù)據(jù)上表現(xiàn)出了強大的分類性能,其依賴不變的鄰接矩陣對輸入的結(jié)點特征學(xué)習(xí),如圖3所示。
本文所搭建的圖結(jié)構(gòu)注意力網(wǎng)絡(luò)使用的圖卷積網(wǎng)絡(luò)模型如式(1)和式(2)所示。
3圖結(jié)構(gòu)注意力網(wǎng)絡(luò)算法
圖結(jié)構(gòu)注意力網(wǎng)絡(luò)如圖4所示,該注意力網(wǎng)絡(luò)流程主要分成以下幾個。
步驟1:對上一層網(wǎng)絡(luò)得到的輸出特征圖進行正則化(Norm)處理,并利用平均池化(AvgPool)操作將三個維度(C×H×W)的特征圖壓縮成兩個維度(C×H)。
步驟2:對步驟1得到的向量組重新排列,得到特征矩陣。此外,對平均池化后得到的向量建立一維的歐式空間,計算兩點之間的歐氏距離,將其倒數(shù)作為結(jié)點之間連接的緊密程度,我們將其稱為弱連接,如等式3 和等式4所示。經(jīng)過弱連接的映射后,將歐氏空間數(shù)據(jù)結(jié)構(gòu)映射成了滿足圖卷積輸入的拓撲結(jié)構(gòu)數(shù)據(jù)。最后經(jīng)過正則化后,得到概率描述的邊,進而得到鄰接矩陣。
步驟3:將特征矩陣與正則化后的鄰接矩陣輸入多層的圖卷積網(wǎng)絡(luò)(GCN),并設(shè)定一個減少系數(shù)r,該系數(shù)為在中間層中減少通道數(shù)的系數(shù)。最后經(jīng)過激活函數(shù)并恢復(fù)維度對原特征圖進行加權(quán)求解得到重新分配權(quán)重后的特征圖。
4實驗結(jié)果與分析
4.1實驗平臺
實驗環(huán)境為Ubuntu18.04操作系統(tǒng),AMD3600X處理器,RTX2070SUPER顯卡,Pytorch框架。本文所有實驗均使用上述平臺。
4.1.1圖像分類實驗
在該實驗中我們在CIFARr100數(shù)據(jù)集對模型進行Rank-1準(zhǔn)確度評估。我們在不同網(wǎng)絡(luò)模型上測試了SENet、BAM、TAM性能。分別設(shè)置了一項基準(zhǔn)測試實驗和一項消融實驗。
CIFAR100數(shù)據(jù)集:該數(shù)據(jù)集有100個類。每個類有600張大小為32×32的彩色圖像,在模型訓(xùn)練過程中將其中500張作為訓(xùn)練集,100張作為測試集。對于每一張圖像,它有兩個標(biāo)簽分別代表圖像的細粒度和粗粒度標(biāo)簽。
參數(shù)設(shè)置:使用SGD優(yōu)化器(lr=0.1,momentum=0.9,weight_decay=5e-4)和Cross Entropy Loss損失函數(shù)。學(xué)習(xí)率調(diào)整策略為迭代200次并在60、120,160次迭代調(diào)整學(xué)習(xí)率為原來的0.1倍。
為了確定圖卷積的層數(shù)對GSAN的影響,我們設(shè)計了一組不同層數(shù)的對比實驗。如表1所示,較低復(fù)雜度的GSAN更有利于避免過擬合。
為了測試本文的注意力網(wǎng)絡(luò)性能與普遍適用性,我們在MobileNetV2、ResNet18 和ResNet50 上均做了不同注意力模型的對比試驗。如表2所示,在MobileNetV2和ResNet18上相較于其它方法達到了最好的效果,在ResNet50上稍差于BAM。
4.1.2人臉分類實驗
在該實驗中我們使用余弦相似度計算準(zhǔn)確率的策略。在CASIA-WebFace數(shù)據(jù)集上訓(xùn)練模型,并在LFW 數(shù)據(jù)集和CFP-FP數(shù)據(jù)集上進行人臉識別測試。
CASIA-WebFace數(shù)據(jù)集:CASIA-WebFace數(shù)據(jù)集是經(jīng)過數(shù)據(jù)清洗的數(shù)據(jù)集,所以含有噪聲的圖像較少,常作為訓(xùn)練集使用。數(shù)據(jù)集有10 575個人的494 414張人臉圖像。
LFW數(shù)據(jù)集:圖像源于生活中的自然場景,所以圖像受到表情、光照、多姿態(tài)、遮擋、年齡等因素影響而差異極大。數(shù)據(jù)集有5 749個人的13 233張人臉圖像。
CFP-FP數(shù)據(jù)集:數(shù)據(jù)集對于每個人有10張正面圖像和4張側(cè)面圖像。CFP-FP數(shù)據(jù)集有500個人的7 000張人臉圖像。
參數(shù)設(shè)置:使用SGD優(yōu)化器(lr=0.1,momentum=0.9,weight_decay=5e-4)和ArcFace[16]損失函數(shù)。學(xué)習(xí)率調(diào)整策略為迭代18次并在6、11、16次迭代調(diào)整學(xué)習(xí)率為原來的0.1倍。
由于ArcFace損失函數(shù)的不同縮放系數(shù)s會極大的影響實驗結(jié)果的準(zhǔn)確率,因此我們先通過ResNet50-IR 模型來確定準(zhǔn)確率最高s,如表3所示。
經(jīng)過縮放系數(shù)的對比實驗可以看出ResNet50-IR模型在s為33的時候準(zhǔn)確率達到最大值,因此在其他實驗中將縮放系數(shù)s固定為33進行訓(xùn)練和測試。實驗結(jié)果如表4和表5所示,在ResNet50-IR上,當(dāng)圖卷積層為2時達到最好的效果,并且性能優(yōu)于其他注意力模塊。
5結(jié)語
本文提出一種圖結(jié)構(gòu)注意力網(wǎng)絡(luò),該方法壓縮寬度維度并有效地結(jié)合空間拓撲結(jié)構(gòu)和通道注意力。通過映射成拓撲結(jié)構(gòu)的方式學(xué)習(xí)空間注意力,有效地解決現(xiàn)有注意力感受野受限于卷積核大小的問題和卷積核過大導(dǎo)致性能下降的問題,并且更好地學(xué)習(xí)全局信息。實驗結(jié)果表明,本文注意力網(wǎng)絡(luò)在圖像分類和人臉識別任務(wù)中均展現(xiàn)了優(yōu)異的性能與普遍適用性。
參考文獻:
[1]HE K,ZHANG X Y,REN S Q,et al. Deep residual learning for image recognition[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2016:770-778.
[2]LONG J,SHELHAMER E,DARRELL T. Fully convolutional networks for semantic segmentation[C]. In Proceedings of the IEEE Conference on Computer vision and Pattern Recognition. 2015:3431 -3440.
[3]KRIZHEVSKY A,SUTSKEVER I,HINTON G E. Imagenet classification with deep convolutional neural networks[C]. In Advances in Neural Information Processing Systems. 2012:1097- 1105.
[4]SIMONYAN K,ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]. arXiv preprint arXiv.2014:1409,1556.
[5]WANG F,JIANG M Q,QIAN C,et al. Residual attention network for image classification[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017:3156-3164.
[6]HU J,SHEN L,SUN G. Squeeze-and-excitation networks[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2018:7132-7141.
[7]PARK J,WOO S,LEE J Y,et al. Bam:Bottleneck attention module[C]. arXiv preprint 2018.
[8] FUKUI H,HIRAKAWA T,YAMASHITA T,et al. Attention branch network:Learning of attention mechanism for visual explanation [C]. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2019:10705-10714.
[9] MISRA D,NALAMADA T,ARASANIPALAI A U,et al. Rotate to attend:Convolutional triplet attention module[C]. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision.2021:3139-3148.
[10] SANDLER M,HOWARD A,ZHU M L,et al. Mobilenetv2:Inverted residuals and linear bottlenecks[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018:4510-4520.
[11]HAN,DONGYOON,KIM J,et al. Deep pyramidal residual networks[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2017:6307-6315.
[12]KRIZHEVSKY A. Learning multiple layers of features from tiny images[C]. 2009.
[13]YI,DONG,LEI Z,et al. Learning face representation from scratch[C]. arXiv preprint 2014.
[14] HUANG G,MATTAR M,BERG T,et al. Labeled faces in the wild:A database for studying face recognition in unconstrained environments[C]. 2008.
[15] SENGUPTA S,CHEN J C,CASTILLO C,et al. Frontal to profile face verification in the wild[C]. In Proceedings of the IEEE Conference on Winter Conference on Applications of Computer Vision.2016:1-9.
[16] DENG,KANG J,GUO J et al. ArcFace:Additive angular margin loss for deep face recognition[C]. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2019:4685-4694.
[17] N T,KIPF,MAX,et al. Semi-supervised classification with graph convolutional networks[C]. In Proceedings of the 5th International Conference on Learning Representations.2017.
[18] NIU Z Y,ZHONG G Q,and YU H. A review on the attention mechanism of deep learning[J]. Neuro computing.2017(452):48-62.