彭玉青, 劉憲姿, 袁宏濤, 武儀美
(河北工業(yè)大學(xué) 人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300401)
場(chǎng)景識(shí)別技術(shù)的目的是使計(jì)算機(jī)能夠通過(guò)一系列的判別算法,自動(dòng)判斷圖像的類別,為場(chǎng)景圖像分配語(yǔ)義[1]。隨著場(chǎng)景圖像類別的豐富和圖片數(shù)量的增多,場(chǎng)景圖像的類內(nèi)差異性和類間相似性對(duì)場(chǎng)景識(shí)別精確性的影響越來(lái)越明顯,使得場(chǎng)景識(shí)別更具有挑戰(zhàn)性。 早期的場(chǎng)景識(shí)別方法主要使用底層特征描述子表示場(chǎng)景圖片,如GIST,SIFT,HOG[2,3]等,它們是描述圖像顏色、形狀、紋理等基本特性的基礎(chǔ)特征。這種特征形式簡(jiǎn)單、容易獲取和計(jì)算,但得到的圖像全局表示具有一定局限性。隨著深度神經(jīng)網(wǎng)絡(luò)和大量數(shù)據(jù)集的出現(xiàn),越來(lái)越多的研究人員開始嘗試使用深度學(xué)習(xí)方法。
目前將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)應(yīng)用于場(chǎng)景識(shí)別領(lǐng)域的研究已有很多。研究人員通過(guò)融合不同類型的特征增強(qiáng)特征判別性。Wang L等人[4]通過(guò)兩個(gè)不同深度的網(wǎng)絡(luò)結(jié)構(gòu)分別提取圖像的局部特征和全局特征,融合兩個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的輸出作為識(shí)別結(jié)果。Wang Z等人[5]采用以Inception-v2為基礎(chǔ)的多組合網(wǎng)絡(luò)架構(gòu),其中的一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)用于獲取對(duì)象類信息,另一個(gè)用于獲取場(chǎng)景類信息,融合兩個(gè)模型的特征后進(jìn)行分類。這類方法需要多個(gè)網(wǎng)絡(luò)模型,導(dǎo)致訓(xùn)練網(wǎng)絡(luò)模型的難度加大,且計(jì)算過(guò)于復(fù)雜,時(shí)間開銷大,算法實(shí)用性不強(qiáng)。
另有部分研究學(xué)者通過(guò)對(duì)圖像區(qū)域的篩選得到更具有判別性的特征。李彥冬等人[6]通過(guò)似物性檢測(cè)獲得圖像中的顯著性區(qū)域,利用神經(jīng)網(wǎng)絡(luò)提取特征進(jìn)行分類。余良琨等人[7]通過(guò)選擇性搜索得到潛在物體框,提取深度特征后進(jìn)行分類。Bai S等人[8]利用滑動(dòng)窗口獲得候選目標(biāo)區(qū)域,經(jīng)過(guò)CNN和長(zhǎng)短期記憶(long short term memory,LSTM)的處理進(jìn)行分類。這類方法通過(guò)傳統(tǒng)算法生成一系列候選區(qū)域,但場(chǎng)景圖像較為復(fù)雜時(shí)難以得到準(zhǔn)確的顯著性區(qū)域,算法性能嚴(yán)重下降。
以上基于CNN的場(chǎng)景識(shí)別方法都是通過(guò)對(duì)所有特征的分析處理得到最后的分類結(jié)果,而場(chǎng)景圖像中并不是所有特征都屬于有效信息,對(duì)分類結(jié)果起作用。人類識(shí)別場(chǎng)景時(shí)會(huì)選擇性關(guān)注一部分信息,忽略其他可見(jiàn)的信息,注意力機(jī)制就是模仿人類這種感知方式的一種方法,而且注意力機(jī)制已經(jīng)在圖像分類、目標(biāo)檢測(cè)等領(lǐng)域取得顯著成果。SENet[9]利用特征的通道間關(guān)系產(chǎn)生通道注意力圖譜,計(jì)算量小且能附加到任意模型。CBAM[10]建模通道與空間注意力,并且具有輕量級(jí)的優(yōu)點(diǎn)。殘差注意力模塊[11]通過(guò)堆疊注意力模塊并進(jìn)行注意力殘差學(xué)習(xí)使模型深度增加。在以上幾種注意力模型中,兼顧通道與空間的注意力模型具有更好的性能,但是計(jì)算空間注意力時(shí)會(huì)因下采樣操作丟失部分信息,導(dǎo)致得到的注意力特征具有一定的局限性。
本文將提出一種用于場(chǎng)景識(shí)別的多尺度注意力網(wǎng)絡(luò)(multi-scale attention network,MANet),增強(qiáng)圖像特征表現(xiàn)力,關(guān)注重要特征,抑制不必要特征。
本文以VGG16作為主干網(wǎng)絡(luò),將構(gòu)建的多尺度注意力模塊MANet附加到VGG16的最后一個(gè)卷積層(Conv5_3),為輸入特征的通道和特征圖各部分分配權(quán)重,增強(qiáng)預(yù)測(cè)時(shí)的多尺度判別性特征。模塊輸出的聚合特征輸入到池化層和全連接層;在全連接層引入中心損失函數(shù)與SoftMax損失函數(shù)聯(lián)合監(jiān)督,拉進(jìn)同一類別特征間距離。最后,由SoftMax層輸出預(yù)測(cè)場(chǎng)景類別,其整體結(jié)構(gòu)如圖1所示。
圖1 加入MANet的VGG16模型結(jié)構(gòu)
MANet將主干網(wǎng)絡(luò)最后一層卷積輸出的特征作為輸入,通過(guò)不同感受野的平均池化層得到不同尺度的特征圖,使池化后的特征圖大小分別為1×1和輸入特征圖的1/2,1/4。尺度1分支生成通道注意力特征,對(duì)特征通道進(jìn)行重標(biāo)定;尺度2和尺度3分支,基于不同尺度的特征圖分別生成空間注意力特征。最后,串聯(lián)各個(gè)尺度的特征,降維至初始特征大小,輸入到池化層和全連接層進(jìn)行計(jì)算,如圖2所示。給定最后一個(gè)卷積層輸出的特征F∈C×H×W,整體計(jì)算過(guò)程可概括為
圖2 多尺度注意力網(wǎng)絡(luò)結(jié)構(gòu)
F′=dr(Fc+Fs1+Fs2)
(1)
式中Fc,F(xiàn)s1,F(xiàn)s2∈C×H×W為經(jīng)過(guò)多尺度注意力模塊的各個(gè)分支標(biāo)定的注意力特征, dr為1×1卷積降維操作,最后輸出聚合后的特征F′∈C×H×W。
圖2中的尺度1通道注意力用來(lái)構(gòu)建通道間的關(guān)系,為通道分配權(quán)重,突出更值得關(guān)注的對(duì)象。本文的通道注意力結(jié)構(gòu)是基于SENet的改進(jìn),其結(jié)構(gòu)如圖3(a)。SENet通過(guò)全局平均池化操作將特征沿空間維度壓縮成一個(gè)通道描述符,表征在特征通道上響應(yīng)的全局分布;通過(guò)非線性學(xué)習(xí)建模通道間的依賴性,然后在通道維度上對(duì)原始特征進(jìn)行重標(biāo)定。但是經(jīng)過(guò)標(biāo)定的特征圖輸出響應(yīng)較原來(lái)會(huì)變?nèi)酰员疚募尤胱⒁饬埐顚W(xué)習(xí),使顯著的特征更加顯著,而且聚合注意力特征與原始全局特征,既保證了特征信息的全面性,又防止網(wǎng)絡(luò)層數(shù)加深可能產(chǎn)生的梯度消失現(xiàn)象,其整體計(jì)算過(guò)程如下
Fc=Mc(F)=(Ac(F)+1)*F
(2)
Ac(F)=σ(g(W,F))=σ(W(Avg0(F)))
(3)
圖3 注意力分支結(jié)構(gòu)
Fsi=Msi(F)=(Asi(F)+1)*F
(4)
Asi(F)=σ(h(f,F))=σ(f(Avgi(F)))
(5)
SoftMax損失使不同類別特征保持分離,其描述如下
(6)
式中xi∈d為yi類的第i個(gè)特征,Wj∈d為全連接層參數(shù)矩陣的第j列,b為偏置項(xiàng)。m為每批次的圖片數(shù)量,n為類別總數(shù)。
SoftMax損失僅作用于不同類別間的特征,對(duì)于類內(nèi)特征差異性大的情況難以發(fā)揮很好的效果。而場(chǎng)景圖像的類內(nèi)差異性明顯,所以對(duì)于場(chǎng)景識(shí)別任務(wù),深度學(xué)習(xí)特征不僅需要可分離還需要可判別。因此,本文引入中心損失和SoftMax損失聯(lián)合監(jiān)督訓(xùn)練[12],如圖1所示。中心損失的定義如式(7)所示,其中,cyi為第yi個(gè)類別的特征中心
(7)
在每次迭代中,通過(guò)平均相對(duì)應(yīng)類別的特征去計(jì)算中心,拉近同一類別特征間的距離。Lc的梯度和cyi的更新公式如下
?Lc/?xi=xi-cyi
(8)
(9)
式中φ為一個(gè)判斷函數(shù),yi=j時(shí)值為1,否則為0。SoftMax損失與中心損失的聯(lián)合監(jiān)督可以表示為
(10)
式中 參數(shù)λ用于平衡兩個(gè)損失函數(shù)的比重。λ=0時(shí)可視為只使用SoftMax損失監(jiān)督訓(xùn)練。
本文所有實(shí)驗(yàn)都在同一實(shí)驗(yàn)環(huán)境下完成,使用CPU為Xeon W—2123;GPU為GeForce GTX 1080Ti,24 G;在Ubuntu 16.04操作系統(tǒng)上使用開源深度學(xué)習(xí)框架Caffe完成網(wǎng)絡(luò)的微調(diào)訓(xùn)練。以Places205預(yù)訓(xùn)練的VGG16模型為基準(zhǔn),基礎(chǔ)學(xué)習(xí)率為0.001,動(dòng)量設(shè)定為0.9,共訓(xùn)練100 epoches,每3 000次迭代學(xué)習(xí)率變?yōu)樵瓉?lái)的1/10。由于GPU的物理內(nèi)存有限,訓(xùn)練期間采用小批次32的訓(xùn)練方式。
本文選擇兩個(gè)標(biāo)準(zhǔn)場(chǎng)景識(shí)別數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),即MIT Indoor67和SUN397。MIT Indoor67數(shù)據(jù)集共包含67類室內(nèi)場(chǎng)景,共計(jì)15 620張室內(nèi)場(chǎng)景圖像,每類至少有100張圖像,每類選擇80張作為訓(xùn)練集,20張作為驗(yàn)證集。SUN397數(shù)據(jù)集共包含397類,每個(gè)類別至少有100張圖像,共計(jì)108 754張圖像,每類選取50張為訓(xùn)練集,50張為驗(yàn)證集。
本文在MIT Indoor 67數(shù)據(jù)集上進(jìn)行了通道注意力,空間注意力,以及多尺度注意力并行的實(shí)驗(yàn)對(duì)比。并分析了注意力殘差學(xué)習(xí)對(duì)通道和空間注意力的影響;卷積核大小對(duì)空間注意力的影響,實(shí)驗(yàn)結(jié)果如表1所示,其中“VGG16”為基準(zhǔn)模型。
表1 多尺度注意力模塊實(shí)驗(yàn)分析結(jié)果
實(shí)驗(yàn)結(jié)果表明,相較于原始模型,加入通道注意力結(jié)構(gòu)能夠有效的提高識(shí)別的準(zhǔn)確率,而改進(jìn)后的殘差通道注意力模型“VGG16+殘差通道注意力”有更好的表現(xiàn),說(shuō)明本文改進(jìn)的通道注意力模塊有更好的提取特征的能力,實(shí)現(xiàn)了更好的注意力計(jì)算。帶有殘差學(xué)習(xí)的空間注意力模塊也產(chǎn)生了更好的準(zhǔn)確性,并且在不同卷積核大小的比較中,采用較大卷積核的模型“VGG16+殘差空間注意力(3×3)”有更好的表現(xiàn),這表示需要大的感受野來(lái)決定空間上重要的區(qū)域。因此本文設(shè)計(jì)的空間注意力結(jié)構(gòu)將卷積核大小設(shè)為3×3,并使用注意力殘差學(xué)習(xí)。最后,多尺度注意力結(jié)構(gòu)并行計(jì)算能得到更精細(xì)的注意力圖,優(yōu)于僅使用通道注意力或空間注意力,表明結(jié)合兩種注意力是至關(guān)重要的,而且使用多尺度注意力模塊的“VGG16+MANet”具有更高的精度,說(shuō)明多個(gè)尺度的空間注意力特征互補(bǔ),多尺度結(jié)合能夠彌補(bǔ)信息缺失。
2.3.1 損失函數(shù)聯(lián)合監(jiān)督效果驗(yàn)證
本實(shí)驗(yàn)在MIT indoor 67數(shù)據(jù)集上進(jìn)行了損失函數(shù)聯(lián)合監(jiān)督的效果驗(yàn)證。對(duì)比了中心損失分別加入到fc6和fc7層不同位置的情況,實(shí)驗(yàn)結(jié)果如表2。實(shí)驗(yàn)結(jié)果表明聯(lián)合監(jiān)督優(yōu)于單個(gè)損失函數(shù)監(jiān)督,且中心損失作用在fc7時(shí)使模型達(dá)到了最好的識(shí)別性能。
表2 損失函數(shù)聯(lián)合監(jiān)督的對(duì)比 %
2.3.2 對(duì)類內(nèi)差異性和類間相似性的影響效果驗(yàn)證
在MIT indoor 67中選取了多個(gè)類別進(jìn)行測(cè)試。表3為本文模型與基準(zhǔn)模型在“書店”和“圖書館”兩個(gè)典型易混淆場(chǎng)景的對(duì)比,“誤判率”表示誤判為相似類別的概率,即將“書店”識(shí)別為“圖書館”,將“圖書館”判斷成“書店”的概率。
表3 相似類別實(shí)驗(yàn)結(jié)果對(duì)比 %
圖4為不同場(chǎng)景下的對(duì)比,準(zhǔn)確率都有較大提升。從結(jié)果中可以看出,原始網(wǎng)絡(luò)模型對(duì)易混淆類別的識(shí)別是極其困難的,本文模型能夠更準(zhǔn)確識(shí)別出相似類別,說(shuō)明通過(guò)多尺度模塊聚合的特征具有判別性;聯(lián)合監(jiān)督的優(yōu)化方法能夠更加有效削弱類內(nèi)差異性和類間相似性對(duì)識(shí)別任務(wù)的影響。
圖4 本文模型與基準(zhǔn)模型在多個(gè)類別的準(zhǔn)確率對(duì)比
在MIT Indoor 67數(shù)據(jù)集和SUN397數(shù)據(jù)集均進(jìn)行了與其他場(chǎng)景識(shí)別算法的對(duì)比實(shí)驗(yàn),如表4所示。實(shí)驗(yàn)結(jié)果表明,本文模型在兩個(gè)數(shù)據(jù)集上都達(dá)到了最好的識(shí)別效果。SUN397數(shù)據(jù)集因包含的場(chǎng)景類別復(fù)雜,圖像數(shù)量較大,其識(shí)別準(zhǔn)確率普遍較低,但本文模型具有較高準(zhǔn)確率。由此可以看出本文模型有更好的場(chǎng)景識(shí)別性能,具有更強(qiáng)的魯棒性。
表4 MIT Indoor 67和SUN397數(shù)據(jù)集上不同算法準(zhǔn)確率對(duì)比 %
通過(guò)對(duì)特征的通道和空間兩個(gè)方面的重標(biāo)定,關(guān)注判別性更高的部分。實(shí)驗(yàn)結(jié)果證明,改進(jìn)后的通道注意力結(jié)構(gòu)產(chǎn)生了更精細(xì)的注意力計(jì)算,更加突出值得關(guān)注的對(duì)象信息;設(shè)計(jì)的空間注意力結(jié)構(gòu)能夠有效關(guān)注顯著性區(qū)域;最后融合多尺度特征使其更具有判別性且彌補(bǔ)了特征丟失,削弱了類間相似性。此外,本文還引入了中心損失聯(lián)合監(jiān)督的優(yōu)化策略,有效減少了類內(nèi)差異性的影響,進(jìn)一步提升了分類準(zhǔn)確率。最后,分別在MIT Indoor 67和SUN397數(shù)據(jù)集上驗(yàn)證本文模型,識(shí)別效果均優(yōu)于其它算法,充分證明本文算法具有更優(yōu)的識(shí)別性能和更強(qiáng)的魯棒性。