国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多尺度感受野網(wǎng)絡和注意力機制的場景識別方法研究

2020-04-16 05:26:10張能歡王永濱
關(guān)鍵詞:空洞尺度注意力

張能歡,王永濱

(1.中國傳媒大學協(xié)同創(chuàng)新中心,北京 100024;2.中國傳媒大學計算機與網(wǎng)絡空間安全學院,北京 100024)

1 引言

給我們一張圖像,場景識別能預測出該圖像內(nèi)容的場景所在地,比如是辦公室、操場還是書店。場景識別是計算機視覺的基本任務之一,近年來受到越來越多的關(guān)注,它可以廣泛應用于人機交互、圖像/視頻檢索、智能場景匹配拍攝等領(lǐng)域。然而,由于場景圖像往往具有豐富的背景信息、多種多樣的物體對象和靈活多變的拍攝視角,導致存在嚴重的類別模糊。場景識別的困難主要有以下兩點:

一是場景圖像對尺度敏感

關(guān)于場景圖像對尺度敏感的問題,我們可以從數(shù)據(jù)集的角度來分析。深度學習的快速發(fā)展一方面得益于硬件條件的成熟,另一方面也得益于具有海量標注數(shù)據(jù)的數(shù)據(jù)集的出現(xiàn),比如ImageNet、COCO等??紤]到場景圖像中也包含很多的物體,所以利用ImageNet中包含的海量物體信息來輔助場景識別,提高場景識別的準確率應該是有效的。然而,Zhou等人[1]利用ImageNet和Places兩個數(shù)據(jù)集來直接訓練場景識別的任務模型,但是結(jié)果卻比只用Places數(shù)據(jù)集來訓練更差,額外增加的物體信息反而降低了準確率。另外,2016年,Herranz等人[2]提出了一個數(shù)據(jù)集偏差的概念,認為不同任務的數(shù)據(jù)集的尺度中心點是不一樣的,一類是以Places為代表的的以場景為中心,另一類是以ImageNet為代表的以物體為中心,由于這兩類數(shù)據(jù)集存在嚴重的尺度偏差問題,導致簡單的融合這兩類數(shù)據(jù)集來訓練同一個網(wǎng)絡,結(jié)果差強人意,所以,Herranz等人又提出了一個多尺度并行的模型結(jié)構(gòu),用不同尺度的模型來適應不同的數(shù)據(jù)集,最后結(jié)果進行融合,這樣反而能取得很好的效果,由此表明尺度問題對場景識別來說很關(guān)鍵。圖1中(a)展示了具有不同尺度的wave場景圖像,(b)展示了需要大尺度信息的胡同場景,這些圖像都需要網(wǎng)絡能靈活捕捉不同尺度的場景特征。

圖1 尺度敏感和特征模糊的例子

二是場景圖像的特征模糊

場景中涵蓋的背景信息和物體信息非常豐富,導致很難明確出什么是某一類場景的特征,比如圖1中(c)展示的沙龍場景,雖然是同一類場景,但是內(nèi)容卻完全不同。而(d)中展示的內(nèi)容很相似,但是場景卻不同,所以場景的特征存在模糊性。以往的方法,很多都采用多特征融合來實現(xiàn)場景識別。Sun等人[3]提出融合物體信息、全局外觀信息和背景信息來表征場景特征。Seong等人[4]提出用物體信息和場景信息結(jié)合來訓練場景識別的模型。雖然已經(jīng)有了很多的嘗試,但是效果卻不是很顯著。場景特征的選擇還是需要依靠網(wǎng)絡訓練來自適應地完成。

在本文中,我們引入空洞卷積,設計了一個多尺度感受野模塊,來解決尺度敏感問題,同時加入注意力機制來提高特征的區(qū)分度和代表性,最后,我們在三個公開的場景識別數(shù)據(jù)集上驗證了方法的可行性和有效性。

2 模型介紹

本文提出一種基于多尺度感受野和注意力機制的場景識別模型,整體模型結(jié)構(gòu)如圖2所示。模型結(jié)構(gòu)中主要包括兩個模塊:多尺度感受野模塊和注意力模塊,其中多尺度感受野主要基于空洞卷積設計的。注意力模塊包括空間注意力和通道注意力兩部分內(nèi)容。我們的基礎網(wǎng)絡模型根據(jù)數(shù)據(jù)集大小分別采用了ResNet-18和ResNet-50兩種不同的網(wǎng)絡結(jié)構(gòu)。

圖2 基于多尺度感受野和注意力機制的場景識別模型整體結(jié)構(gòu)

2.1 多尺度感受野模塊

空洞卷積是由Holschneider等人[5]首先在小波分解任務中提出的。由于空洞卷積能夠在不增加額外計算量的同時捕獲大的感受野信息,所以空洞卷積開始在很多領(lǐng)域得到廣泛應用。本文的多尺度感受野模塊就是基于空洞卷積設計的。具體多尺度感受野模塊結(jié)構(gòu)如圖3所示。

圖3 多尺度感受野模塊結(jié)構(gòu)圖

假設模塊的輸入為F∈H×W×4C,然后送入到具有不同空洞因子的卷積層中,再將輸出進行拼接,最后再送入到一個普通卷積層中,實現(xiàn)特征降維,具體操作可表述如下:

(1)

(2)

其中l(wèi)表示層,di表示空洞因子,在本文中我們選了1,2,4,8四種空洞因子,*r表示空洞卷積操作,concat(·) 表示拼接操作,CONV2(·) 表示一個二維卷積操作。

2.2 注意力模塊

注意力的設計初衷是模仿人類的視覺機制,人類在觀看一張圖片時,并不是所有內(nèi)容都一視同仁,而是有選擇地看更重要的內(nèi)容,注意力機制就是讓網(wǎng)絡模型去學習更相關(guān)的特征。在場景識別任務中,不同的圖像空間區(qū)域和語義特征對識別的準確率貢獻是不一樣的,所以我們加入了空間注意力和通道注意力來提高模型的特征選擇能力。

具體注意力模塊的結(jié)構(gòu)如圖4所示,其中,空間注意力的操作如下:

Fl=concat(GMP(Fl-1),GAP(Fl-1))

(3)

Fl+1=CONV2(Fl)

(4)

Fl+2=σ(Fl+1)

(5)

通道注意力的操作如下:

Fl=GAP(Fl-1)

(6)

Fl+1=CONV1(Fl)

(7)

Fl+2=σ(Fl+1)

(8)

其中GMP(·)和GAP(·) 分別表示全局最大池化和全局平均池化操作,σ表示激活函數(shù),CONV1(·) 表示一維卷積操作。

圖4(a)是空間注意力模型結(jié)構(gòu) (b)是通道注意力模型結(jié)構(gòu)

3 實驗及分析

3.1 實驗數(shù)據(jù)和實驗配置

本實驗主要采用了三個公開的場景識別數(shù)據(jù)集,分別是Places365[6],SUN397[7]和MIT Indoor67[8]。

Places365數(shù)據(jù)集是Places2數(shù)據(jù)集的子集,有兩個版本,分別是Places365 challenge和Places365 standard,我們采用的是Places365 standard,它有365類場景,每類場景大約有3068到5000張圖片不等,總共有1803460張訓練圖片。

SUN397數(shù)據(jù)集有397類場景,108754張圖片。我們采用和大多數(shù)對比實驗相同的實驗方案,隨機從每個類別中選取50張圖片用于訓練,50張圖片用于測試。

MIT Indoor67數(shù)據(jù)集有67類室內(nèi)場景,15620張圖片,實驗中,我們從每個類別中隨機選取80張圖片用于訓練,20張圖片用于測試。

在本文實驗中,所有數(shù)據(jù)集圖片均調(diào)整為224×224 的大小,學習率初始化為0.001,然后每30輪降為0.1倍。批大小為64。采用SGD的優(yōu)化算法。采用PyTorch框架,在一個NVIDIA Titan Xp GPU(12G)上進行實驗。

3.2 模型分析

這一部分的實驗,我們采用Places365數(shù)據(jù)集來進行的,主要分三部分進行對比,第一部分是關(guān)于多尺度感受野模塊的有效性驗證;第二部分是空間注意力的可視化效果;第三部分是通道注意力的可視化效果。

為了驗證多尺度感受野模塊的有效性,我們設計了三個模型的對比實驗方案,其中均采用了基于ImageNet的預訓練模型參數(shù)進行初始化。首先,我們在原始ResNet-50網(wǎng)絡上基于Places365數(shù)據(jù)集進行了實驗,之后加入了本文提出的多尺度模塊重新進行了實驗,最后,我們用普通的3x3卷積操作替代了多尺度感受野模塊,最終三個實驗的對比結(jié)果如圖5所示。從圖5可以看出,本文提出的多尺度感受野模塊的效果是最優(yōu)的。

圖5 三種網(wǎng)絡的準確率對比

同時,為了更直觀地看出多尺度感受野模塊的效果,我們進行了可視化展示,如圖6所示,可以看出多尺度感受野模塊有效提高了模型的感受野,從而間接提高了場景識別的準確率。

圖6 多尺度感受野模塊的可視化效果

表7展示了注意力模塊的可視化效果。其中前兩列展示的是通道注意力的效果,可以看出提取的特征更準確。后兩列展示的是空間注意力的效果,可以看出加入空間注意力模塊后,在空間區(qū)域的定位上更精準。

圖7 注意力模塊的可視化效果

3.3 與其他方法的對比

為了更進一步驗證本文方法的先進性,我們在三個公開數(shù)據(jù)集上進行了廣泛的實驗,并與其他場景識別方法進行了對比。

表1給出了在Places365-standard數(shù)據(jù)集上的統(tǒng)計結(jié)果。從表1可以看出,在ResNet50基礎網(wǎng)絡模型上分別單獨增加的多尺度感受野模塊、空間注意力模塊和通道注意力模塊的結(jié)果都比原始ResNet50要好,表明這三個模塊是有效的。之后,我們將這三個模塊進行融合,其結(jié)果時最優(yōu)的,表明了本文方法的有效性。

表1 在Places365 standard上的實驗結(jié)果

表2是基于MIT Indoor67數(shù)據(jù)集的對比結(jié)果,考慮到MIT Indoor67數(shù)據(jù)集的規(guī)模比Places365 standard小很多,所以基礎網(wǎng)絡我們采用了ResNet-18。從表2的結(jié)果可看出本文的方法取得了最優(yōu)的效果。

表2 在MIT Indoor67上的實驗結(jié)果

表3是基于SUN397數(shù)據(jù)集的對比結(jié)果,也可以看出本文方法是有效的。

表3 在SUN397上的實驗結(jié)果

續(xù)表

4 結(jié)論

本文提出了一種利用感受野和注意機制來提高場景識別性能的新方法。我們首先設計了一種基于空洞卷積的多尺度感受野模塊,可以提取更大感受野的特征,從而對場景圖像有更全面的了解。其次,采用了一個空間注意模塊和一個通道注意模塊,它們能夠自適應地提取與場景更相關(guān)的區(qū)域和語義特征。最后,通過大量的實驗表明,我們的方法比現(xiàn)有的場景識別方法簡單、高效。作為下一步的工作,我們將根據(jù)不同的場景類別和圖像內(nèi)容來研究感受野的自適應大小。

猜你喜歡
空洞尺度注意力
讓注意力“飛”回來
財產(chǎn)的五大尺度和五重應對
“揚眼”APP:讓注意力“變現(xiàn)”
傳媒評論(2017年3期)2017-06-13 09:18:10
空洞的眼神
A Beautiful Way Of Looking At Things
宇宙的尺度
太空探索(2016年5期)2016-07-12 15:17:55
用事實說話勝過空洞的說教——以教育類報道為例
新聞傳播(2015年20期)2015-07-18 11:06:46
9
臭氧層空洞也是幫兇
世界科學(2013年11期)2013-03-11 18:09:47
班有活寶
蓝田县| 永顺县| 吴忠市| 蕉岭县| 连州市| 博罗县| 宁波市| 商河县| 临城县| 文山县| 巩义市| 历史| 彭泽县| 米林县| 洪洞县| 吴江市| 清流县| 博白县| 武功县| 夏河县| 澄城县| 阳新县| 娄底市| 绥化市| 木兰县| 刚察县| 康定县| 砚山县| 鲁山县| 大兴区| 渭源县| 逊克县| 腾冲县| 招远市| 兰州市| 砀山县| 日喀则市| 定西市| 隆子县| 安龙县| 儋州市|