国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于注意力機(jī)制的多尺度融合航拍影像語義分割

2018-02-23 02:26鄭顧平
圖學(xué)學(xué)報(bào) 2018年6期
關(guān)鍵詞:航拍尺度語義

鄭顧平,王 敏,李 剛

?

基于注意力機(jī)制的多尺度融合航拍影像語義分割

鄭顧平,王 敏,李 剛

(華北電力大學(xué)控制與計(jì)算機(jī)工程學(xué)院,河北 保定 071003)

航拍影像同一場(chǎng)景不同對(duì)象尺度差異較大,采用單一尺度的分割往往無法達(dá)到最佳的分類效果。為解決這一問題,提出一種基于注意力機(jī)制的多尺度融合模型。首先,利用不同采樣率的擴(kuò)張卷積提取航拍影像的多個(gè)尺度特征;然后,在多尺度融合階段引入注意力機(jī)制,使模型能夠自動(dòng)聚焦于合適的尺度,并為所有尺度及每個(gè)位置像素分別賦予權(quán)重;最后,將加權(quán)融合后的特征圖上采樣到原圖大小,對(duì)航拍影像的每個(gè)像素進(jìn)行語義標(biāo)注。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的FCN、DeepLab語義分割模型及其他航拍影像分割模型相比,基于注意力機(jī)制的多尺度融合模型不僅具有更高的分割精度,而且可以通過對(duì)各尺度特征對(duì)應(yīng)權(quán)重圖的可視化,分析不同尺度及位置像素的重要性。

語義分割;多尺度融合;注意力機(jī)制;卷積神經(jīng)網(wǎng)絡(luò)

圖像語義分割(semantic segmentation)又稱為圖像標(biāo)注或場(chǎng)景解析[1],其目標(biāo)是為圖像中的每個(gè)區(qū)域或像素分配對(duì)應(yīng)的語義類別,將其分割為視覺上有意義或者感興趣的區(qū)域。隨著深度學(xué)習(xí)的發(fā)展,SHELHAMER等[2]提出全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN),現(xiàn)已成為圖像語義分割的基礎(chǔ)模型,為了實(shí)現(xiàn)端到端的分割,F(xiàn)CN去掉了VGG16[3]末端的全連接層,隨后的SegNet[4]、U-Net[5]等語義分割模型也均采用了此策略。近年來隨著遙感領(lǐng)域的發(fā)展,航拍影像的像素級(jí)語義分割受到眾多研究人員重視,基于各種語義分割模型的分割方法[6-7]被提出。但因航拍影像同一場(chǎng)景中不同對(duì)象尺度差異較大,如沿海城市場(chǎng)景中海洋的尺度遠(yuǎn)大于建筑、道路等對(duì)象的尺度,因此,如何為不同尺度對(duì)象針對(duì)性地選擇合適的分割尺度以及選取適當(dāng)?shù)牟呗赃M(jìn)行尺度融合,仍然是航拍影像語義分割急需解決的問題。

許多研究人員通過提取多尺度特征的思路得到對(duì)象的不同尺度,以處理分割尺度的選擇問題。多尺度特征的提取通常使用兩種結(jié)構(gòu)來實(shí)現(xiàn):①網(wǎng)絡(luò)跳接(skip-net)[8-9]結(jié)構(gòu),該結(jié)構(gòu)通過結(jié)合中間卷積層的特征實(shí)現(xiàn)不同尺度特征的提取,但由于尺度特征來源受限,存在無法任意選擇合適尺度的局限性。②網(wǎng)絡(luò)共享(share-net)[10-11]結(jié)構(gòu),該結(jié)構(gòu)通過將原圖像調(diào)節(jié)為不同的尺度并各自輸入一個(gè)共享的深度網(wǎng)絡(luò)來提取多樣的尺度特征,但增加了模型計(jì)算量,同時(shí)也耗費(fèi)了更大的存儲(chǔ)空間。CHEN等[12]提出了多孔空間金字塔池化(atrous spatial Pyramid pooling,ASPP)結(jié)構(gòu),將不同采樣率的多個(gè)并行的擴(kuò)張卷積分別視為不同的尺度,避免了上述兩種方法的缺陷,但其尺度提取十分依賴采樣率的選擇。

另一方面,語義分割模型目前常用的多尺度特征融合方法為平均池化(average pooling)[13]和最大池化(max pooling)[14]。但平均池化在特征融合時(shí)視每個(gè)尺度及位置像素同等重要,并未考慮不同的尺度特征對(duì)場(chǎng)景中各尺度對(duì)象的影響;最大池化在各尺度中選擇了最大的激活值作為融合結(jié)果,但對(duì)于特征圖每個(gè)位置的尺度選取過于絕對(duì)且對(duì)場(chǎng)景尺度的理解仍然停留在像素層面。近年來,注意力機(jī)制(attention mechanism,AM)憑借其能夠聚焦于具有豐富信息的顯著區(qū)域的特性[15],越來越多地被應(yīng)用到圖像分割任務(wù)中。然而,傳統(tǒng)的視覺顯著模型如基于認(rèn)知模型[16]、基于圖論模型[17]以及基于頻域分析模型[18]等,大多都采用自底向上的注意力機(jī)制而僅受數(shù)據(jù)的驅(qū)動(dòng)[19],因而無法滿足深度神經(jīng)網(wǎng)絡(luò)自頂向下的基于任務(wù)驅(qū)動(dòng)的要求。而深度學(xué)習(xí)中的AM,更多是將其引入到特征的空間或時(shí)間維度,針對(duì)特征的尺度維度的應(yīng)用則鮮有涉及。

針對(duì)以上問題,本文在FCN模型的基礎(chǔ)上,提出了一種基于AM的多尺度融合語義分割模型,實(shí)現(xiàn)對(duì)航拍影像端到端的分割。在尺度特征提取階段,對(duì)ASPP結(jié)構(gòu)進(jìn)行改進(jìn),結(jié)合多采樣率同層卷積(multi-rate same layer convolution,MRSLC)方式在某一尺度上同時(shí)用多個(gè)采樣率的擴(kuò)張卷積提取特征,增加了模型的魯棒性;在多尺度特征融合階段,將AM引入特征的尺度維度,使得模型自適應(yīng)地為同一場(chǎng)景中不同對(duì)象選擇合適的分割尺度,并能夠?qū)?chǎng)景尺度的理解上升到對(duì)象層面。實(shí)驗(yàn)結(jié)果表明,該模型在一定程度上提高了分割準(zhǔn)確率和魯棒性。此外,AM的引入提供了可供分析的可視化權(quán)重圖,直觀展現(xiàn)了網(wǎng)絡(luò)模型中每個(gè)尺度和位置像素的重要性。

1 基于注意力機(jī)制的多尺度融合語義分割模型

本文的語義分割模型整體框架如圖1所示。

圖1 基于注意力機(jī)制的多尺度融合分割模型整體框架

(1) 將待分割航拍影像經(jīng)過深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network,DCNN)提取影像的高層全局性特征。

(2) 對(duì)影像的高層特征進(jìn)行多尺度特征的提取,生成多個(gè)不同的尺度特征。

(3) 同時(shí)將多尺度特征提取的卷積結(jié)果作為注意力模型的輸入,得到分別對(duì)應(yīng)于每個(gè)尺度特征的權(quán)重圖。

(4) 對(duì)所有尺度特征加權(quán)求和并在雙線性插值之后對(duì)每個(gè)像素進(jìn)行分類,得到與原圖像尺寸相同的最終的語義分割結(jié)果。

(5) 采用反向傳播算法訓(xùn)練模型,利用端到端的方式微調(diào)整個(gè)模型參數(shù)。

1.1 DCNN的構(gòu)建

1.1.1 DCNN結(jié)構(gòu)

高分辨率特征圖能夠更好地保留原圖中豐富的細(xì)節(jié)信息,且允許模型采用速度更快的雙線性插值方法進(jìn)行上采樣。因此,為了得到更為密集的航拍影像高分辨率特征圖,本文的DCNN網(wǎng)絡(luò)基于VGG16深度神經(jīng)網(wǎng)絡(luò)建立模型框架,并在網(wǎng)絡(luò)結(jié)構(gòu)上作了兩方面的改變,如圖2所示。

圖2 DCNN網(wǎng)絡(luò)結(jié)構(gòu)

(1) DCNN網(wǎng)絡(luò)移除了VGG16中最后兩個(gè)池化層pool4和pool5,使得最后一層特征圖的尺寸由原圖大小的1/32增至1/8,有效地增加了高層特征圖分辨率。

(2) 移除pool4、pool5之后,DCNN網(wǎng)絡(luò)在conv5卷積層中使用采樣率為2的擴(kuò)張卷積代替原來的傳統(tǒng)卷積方式,在不損失特征圖分辨率以及不增加更多訓(xùn)練參數(shù)的情況下,增大了特征圖中每個(gè)像素的感受野。

雖然最后兩個(gè)池化層的移除導(dǎo)致特征圖像素的感受野不能隨原VGG16網(wǎng)絡(luò)繼續(xù)成倍增加,但由于擴(kuò)張卷積能夠隨著其采樣率的線性增加使得特征圖感受野呈指數(shù)型增長(zhǎng),得以直接代替原網(wǎng)絡(luò)中的池化操作而不影響原網(wǎng)絡(luò)參數(shù)的傳遞。

1.1.2 DCNN構(gòu)建方法

DCNN網(wǎng)絡(luò)的輸入為3通道的彩色航拍影像,輸出為512通道的高分辨率特征圖。網(wǎng)絡(luò)中間層特征圖的構(gòu)建如下:

(1) 卷積層特征圖

(2) 池化層特征圖

(3) 擴(kuò)張卷積層與卷積層的輸出特征圖獲得方法相同,可通過式(1)得到。但其引入的采樣率使得卷積核膨脹變大,擴(kuò)大后的卷積核=×(–1)+1,其中,為擴(kuò)張卷積采樣率;為原始卷積核大小。

1.2 多尺度特征提取

ASPP通過不同采樣率的多個(gè)并行卷積來提取圖像的多尺度特征,網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。該結(jié)構(gòu)將VGG16的fc6、fc7和fc8這3個(gè)全連接層均變?yōu)榫矸e層并擴(kuò)展成個(gè)并行的fc6-fc7-fc8分支。其中,fc6層主要用于提取場(chǎng)景中不同尺度對(duì)象的特征,使用3×3的采樣率為rate的擴(kuò)張卷積核進(jìn)行卷積,={1, 2, ···,}表示不同的采樣率,fc7與fc8層均采用1×1的卷積核。網(wǎng)絡(luò)的輸出為提取的多尺度特征圖,且每個(gè)尺度的特征圖數(shù)量與圖像的語義類別數(shù)目相同。

圖3 ASPP結(jié)構(gòu)

ASPP結(jié)構(gòu)雖然能夠通過并行的擴(kuò)張卷積提取圖像的多尺度特征,但僅依靠一種采樣率來代表某一尺度容易導(dǎo)致模型的分割結(jié)果不夠穩(wěn)定,而且當(dāng)DCNN網(wǎng)絡(luò)產(chǎn)生的特征圖分辨率較大時(shí),可供選擇的采樣率較多,采樣率的選取則尤為重要。本文提出一種MRSLC來緩和ASPP對(duì)采樣率選取的依賴性,結(jié)合了MRSLC的多尺度特征提取結(jié)構(gòu)ASPP+MRSLC,如圖4所示。

圖4 ASPP+MRSLC結(jié)構(gòu)

1.3 基于注意力機(jī)制的多尺度融合

圖5 基于注意力機(jī)制的多尺度特征融合結(jié)構(gòu)

1.3.1 注意力模型的構(gòu)建

注意力模型的目的是得到與尺度特征對(duì)應(yīng)的可解釋的權(quán)重圖,用以表示各尺度及像素的重要性。本文通過引入額外的卷積神經(jīng)網(wǎng)絡(luò)來構(gòu)建注意力模型,其具體構(gòu)建及原因如下:

(1) 模型結(jié)構(gòu)。僅包含一個(gè)卷積層的注意力模型只能通過個(gè)濾波器來學(xué)習(xí)特征,易導(dǎo)致特征學(xué)習(xí)不夠充分。為了獲取更豐富的關(guān)聯(lián)信息以增加權(quán)重分配的準(zhǔn)確率,將模型構(gòu)建為兩個(gè)卷積層,其中第一層包括1 024個(gè)濾波器,第二層包括個(gè)濾波器。

(2) 模型輸入。fc8層相比于conv5_3、fc6和fc7層能夠?qū)W習(xí)到更為全局性具有高層語義的尺度特征,包含的尺度信息更加豐富。因此將合并了各個(gè)分支的fc8層特征統(tǒng)一作為注意力模型的輸入。

(3) 濾波器大小。注意力模型的任務(wù)是學(xué)習(xí)為尺度特征圖的每個(gè)位置像素分配權(quán)重,而3×3的濾波器過多地考慮了周圍像素對(duì)該位置像素的影響。因此兩個(gè)卷積層均選用大小為1×1的濾波器進(jìn)行卷積,使模型將關(guān)注點(diǎn)落在像素自身與分割結(jié)果的相關(guān)性。

1.3.2 注意力機(jī)制工作流程

基于AM的多尺度融合結(jié)構(gòu)工作流程具體如下:

由上述過程可知,注意力機(jī)制的引入能夠決定為不同尺度及不同位置像素賦予多少注意力,并且可以通過對(duì)每個(gè)尺度權(quán)重的可視化觀察注意力的具體分配。

1.4 模型訓(xùn)練

該語義分割模型通過最優(yōu)化多標(biāo)簽交叉熵函數(shù)進(jìn)行模型訓(xùn)練。目標(biāo)函數(shù)定義為

由于注意力模型能夠通過反向傳播計(jì)算損失進(jìn)而更新其模型的權(quán)重參數(shù),因此,可以采用端到端的方式訓(xùn)練整個(gè)網(wǎng)絡(luò)。模型的DCNN部分直接使用VGG16網(wǎng)絡(luò)的預(yù)訓(xùn)練參數(shù)進(jìn)行微調(diào),其他部分采用高斯隨機(jī)分布初始化權(quán)重。

2 實(shí)驗(yàn)及結(jié)果分析

本實(shí)驗(yàn)軟件平臺(tái)為:Windows10 64位操作系統(tǒng),TensorFlow深度學(xué)習(xí)框架;硬件平臺(tái):CPU為IntelCore i5-7300HQ,主頻2.5 GHz;內(nèi)存8 GB;GPU為GTX 1050ti。

2.1 實(shí)驗(yàn)數(shù)據(jù)

實(shí)驗(yàn)數(shù)據(jù)集使用Zurich_v1.0語義標(biāo)注數(shù)據(jù)集,包含20對(duì)瑞士蘇黎世地區(qū)大分辨率的航拍影像及對(duì)應(yīng)的標(biāo)簽影像。為了簡(jiǎn)化模型最后對(duì)每個(gè)像素的分類過程,實(shí)驗(yàn)中將標(biāo)簽影像轉(zhuǎn)換為像素值范圍0~8的灰度圖,以0~8的像素值依次代表背景、道路、建筑、樹木、草坪、耕地、水域、鐵路與泳池共9類語義標(biāo)注。此外,本文將航拍影像及對(duì)應(yīng)的標(biāo)簽影像均勻切割成224×224大小的圖像塊,并通過旋轉(zhuǎn)、鏡像翻轉(zhuǎn)等操作對(duì)數(shù)據(jù)集進(jìn)行提升,最終得到1 920對(duì)原始影像和標(biāo)簽數(shù)據(jù),其中訓(xùn)練集1 520對(duì),驗(yàn)證集100對(duì),測(cè)試集300對(duì)。

模型通過隨機(jī)梯度下降對(duì)網(wǎng)絡(luò)的權(quán)重和偏置進(jìn)行更新,訓(xùn)練批次大小為2,動(dòng)量為0.9,訓(xùn)練階段共迭代8 000次,每200次保存一次模型,網(wǎng)絡(luò)初始學(xué)習(xí)率為0.001,每迭代4 000次學(xué)習(xí)率乘以0.1。

2.2 實(shí)驗(yàn)結(jié)果

本文采用像素準(zhǔn)確率(pixel accuracy,PA)、平均交并比(mean intersection over union,MIOU)以及圖像分割時(shí)間()作為模型的評(píng)價(jià)方法和準(zhǔn)則。

2.2.1 模型中超參的影響與選取

表1 ASPP尺度融合個(gè)數(shù)實(shí)驗(yàn)

2.2.2 不同的尺度融合方法對(duì)比

將本文的AM尺度融合方法與平均池化(Avg)、最大池化(Max)融合方法對(duì)比,結(jié)果見表3。由表3可知,在ASPP結(jié)構(gòu)與(ASPP+MRSLC)結(jié)構(gòu)上引入AM的融合方法具有更高的分割精度,且分割速度與Avg、Max方法相當(dāng),因此可以說明在ASPP和ASPP+MRSLC引入AM能夠有效提升模型的語義分割性能。

表2 MRSLC尺度個(gè)數(shù)實(shí)驗(yàn)

表3 尺度融合方法實(shí)驗(yàn)對(duì)比

為了直觀地說明在尺度融合中引入AM的作用,本文可視化分析了由注意力模型得到的權(quán)重圖,如圖6所示,圖中的(d)、(e)、(f)列分別代表小、中、大3種尺度特征對(duì)應(yīng)的權(quán)重圖??梢钥吹?,在尺度層面,小尺度與中等尺度權(quán)重最高分別為0.4和0.5,最低僅為0.05,而大尺度權(quán)重范圍為0.3~0.9之間,說明模型為大尺度特征賦予了相對(duì)更多的注意力;在像素層面,小尺度權(quán)重圖為場(chǎng)景中的小尺度對(duì)象賦予相對(duì)較大的權(quán)重,為大尺度對(duì)象賦予了較小的權(quán)重;中等尺度權(quán)重圖為中等尺度對(duì)象賦予相對(duì)較大的權(quán)重,為其他尺度賦予較小的權(quán)重;大尺度權(quán)重圖則為大尺度對(duì)象賦予較大的權(quán)重,為小尺度對(duì)象賦予了較小的權(quán)重。由此可知,引入AM的尺度融合模型能夠通過學(xué)習(xí)將小尺度特征的注意力聚焦于如零散的樹木等小尺度對(duì)象,將中等尺度特征的注意力集中于耕地等中等尺度對(duì)象,而將大尺度特征的注意力集中于成片的樹林、草坪等較大尺度對(duì)象,基于AM的尺度融合能夠使模型有效地針對(duì)不同對(duì)象自適應(yīng)地選取不同尺度特征。

圖6 航拍影像分割結(jié)果

2.2.3 與其他模型對(duì)比

本文用相同的評(píng)價(jià)指標(biāo)對(duì)FCN、DeepLab語義分割模型以及文獻(xiàn)[6-7]所提出的航拍影像分割模型進(jìn)行衡量,實(shí)驗(yàn)結(jié)果見表4。由表4可知,本文提出的基于AM的多尺度融合模型在MIOU和PA指標(biāo)上均高于其他模型,且分割速度較快,能夠滿足對(duì)模型的實(shí)時(shí)分割要求。在9個(gè)語義類別的識(shí)別率上,本文模型在6個(gè)類別上取得了最好的分割結(jié)果,體現(xiàn)了在不同語義對(duì)象上的整體優(yōu)越性。另外,表4中各模型對(duì)航拍影像中背景、道路、建筑和水域的分割精度普遍較高,而對(duì)樹木、耕地、鐵路和泳池的分割精度較低。主要原因是該數(shù)據(jù)集中耕地、鐵路和泳池這幾類語義對(duì)象的樣本過少,使得模型沒有充分學(xué)習(xí)到其獨(dú)有的特征,而樹木在場(chǎng)景中的分布較為零散且邊界區(qū)域過于粗糙,導(dǎo)致對(duì)其分割更為困難。

表4 本文模型與其他方法性能比較

圖7給出了本文模型和其他模型在4幅航拍影像上的結(jié)果示例。從結(jié)果可以看到FCN32s分割的航拍影像較為粗糙,缺少大量的邊緣細(xì)節(jié),F(xiàn)CN8s的分割結(jié)果更加細(xì)致精確,捕獲了更多的細(xì)節(jié)特征但對(duì)部分大尺度對(duì)象的分割過于細(xì)碎。這是由于FCN8s通過逐步的上采樣方式融合前幾層卷積層特征,學(xué)習(xí)到了更多的細(xì)節(jié)信息。兩種DeepLab模型由于調(diào)整最后兩個(gè)池化層的步長(zhǎng)為1使得特征圖分辨率更為密集從而包含了更多的信息,因此對(duì)大部分對(duì)象的分割相比于FCN更加精準(zhǔn),但對(duì)于樹木、道路等形狀較零碎區(qū)域的分割仍不夠準(zhǔn)確。文獻(xiàn)[6]由于采用SegNet網(wǎng)絡(luò)作為基礎(chǔ)語義分割模型,更多地考慮了對(duì)像素的分類,缺乏鄰近像素的整體一致性,因此導(dǎo)致分割結(jié)果邊緣不夠規(guī)整。文獻(xiàn)[7]模型存在較多的誤分割現(xiàn)象,例如將道路誤分類為鐵路,建筑誤分類為耕地等。相比較之下,本文模型不僅能夠?qū)λ虻却蟪叨葘?duì)象以及單顆零散樹木等小尺度對(duì)象都實(shí)現(xiàn)相對(duì)準(zhǔn)確的分割,而且分割邊緣較為平滑精確,對(duì)語義對(duì)象的誤分割也較少。

圖7 不同方法分割結(jié)果對(duì)比

3 結(jié)束語

針對(duì)航拍影像中對(duì)象尺度差異較大,單一尺度難以對(duì)其進(jìn)行有效分割的問題,本文提出了一種基于AM的多尺度融合語義分割模型。在尺度特征提取階段,將ASPP多尺度特征提取結(jié)構(gòu)擴(kuò)展為ASPP+MRSLC結(jié)構(gòu),在不增加模型復(fù)雜度的同時(shí)提取到更加多樣的尺度特征。在特征融合過程中,通過AM的引入使得模型能夠自適應(yīng)地為場(chǎng)景中不同尺度對(duì)象選擇最合適的尺度特征,對(duì)小尺度對(duì)象選擇較小的尺度,為大尺度對(duì)象選擇較大的尺度。實(shí)驗(yàn)結(jié)果表明,本文提出的模型有效地提高了圖像分割精度,具有較好的航拍影像語義分割能力。

[1] CHEN L C, YANG Y, WANG J, et al. Attention to scale: scale-aware semantic image segmentation [C]// IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 3640-3649.

[2] SHELHAMER E, LONG J, DARRELL T. Fully convolutional networks for semantic segmentation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4): 640-651.

[3] 王晨琛, 王業(yè)琳, 葛中芹, 等. 基于卷積神經(jīng)網(wǎng)絡(luò)的中國(guó)水墨畫風(fēng)格提取[J]. 圖學(xué)學(xué)報(bào), 2017, 38(5): 754-759.

[4] BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: A deep convolutional encoder-decoder architecture for scene segmentation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495.

[5] RONNEBRGER O, FISCHER P, BROX T. U-Net: convolutional networks for biomedical image segmentation [C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Berlin: Springer, 2015: 234-241.

[6] AUDEBERT N, SAUX B L, LEFèVRE S. Semantic segmentation of earth observation data using multimodal and multi-scale deep networks [C]//Asian Conference on Computer Vision. Berlin: Springer, 2016: 180-196.

[7] MARMANIS D, WEGNER J D, GALLIANI S, et al. Semantic segmentation of aerial images with an ensemble of cnns [EP/OL]. [2018-01-15]. https://www. researchgate.net/publication/307530684_SEMANTIC_SEGMENTATION_OF_AERIAL_IMAGES_WITH_AN_ENSEMBLE_OF_CNNS.

[8] HARIHARAN B, ARBELAEZ P, GIRSHICK R, et al. Hypercolumns for object segmentation and fine-grained localization [J]. IEEE Transactions on Analysis and Machine Intelligence, 2017, 39(4): 627-639.

[9] MOSTAJABI M, YADOLLAHPOUR P, SHAKHNAROVICH G. Feedforward semantic segmentation with zoom-out features [C]//IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 3376-3385.

[10] FARABET C, COUPRIE C, NAJMAN L, et al. Learning hierarchical features for scene labeling [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1915-1929.

[11] LIN G S, SHEN C H, VAN DEN HENGEL A, et al. Efficient piecewise training of deep structured models for semantic segmentation [C]//IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 3194-3203.

[12] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848.

[13] DAI J F, HE K M, SUN J. BoxSup: exploiting bounding boxes to supervise convolutional networks for semantic segmentation [C]//IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2015: 1635-1643.

[14] PAPANDREOU G, KOKKINOS I, SAVALLEP A. Modeling local and global deformations in deep learning: epitomic convolution, multiple instance learning, and sliding window detection [C]//IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2015: 390-399.

[15] 劉全, 翟建偉, 鐘珊, 等. 一種基于視覺注意力機(jī)制的深度循環(huán)Q網(wǎng)絡(luò)模型[J]. 計(jì)算機(jī)學(xué)報(bào), 2017, 40(6): 1353-1366.

[16] ITTI L, KOCH C, NIEBUR E. A model of saliency-based visual attention for rapid scene analysis [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998, 20(11): 1254-1259.

[17] SCH?LKOPF B, PLATT J, HOFMANN T. Graph-based visual saliency [C]//International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2006: 545-552.

[18] HOU X D, ZHANG L Q. Saliency detection: a spectral residual approach [C]//IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2007: 1-8.

[19] 黎萬義, 王鵬, 喬紅. 引入視覺注意機(jī)制的目標(biāo)跟蹤方法綜述[J]. 自動(dòng)化學(xué)報(bào), 2014, 40(4): 561-576.

Semantic Segmentation of Multi-Scale Fusion Aerial Image Based on Attention Mechanism

ZHENG Guping, WANG Min, LI Gang

(School of Computer and Control Engineering, North China Electric Power University, Baoding Hebei 071003, China)

In aerial images, there is significant difference between the scales of different objects in the same scene, single-scale segmentation often hardly achieves the best classification effect. In order to solve the problem, we proposes a multi-scale fusion model based on attention mechanism. Firstly, extract multi-scale features of the aerial image using dilated convolutions with different sampling rates; then utilize the attention mechanism in the multi-scale fusion stage, so that the model can automatically focus on the appropriate scale, and learn to put different weights on all scale and each pixel location; finally, the weighted sum of feature map is sampled to the original image size, and each pixel of aerial image is semantically labeled. The experiment demonstrates that compared with the traditional FCN and DeepLab method, and other aerial image segmentation model, the multi-scale fusion model based on attention mechanism not only has higher segmentation accuracy, but also can analyze the importance of different scales and pixel location by visualizing the weight map corresponding to each scale feature.

semantic segmentation; multi-scale fusion; attention mechanism; convolutional neural network

TP 391

10.11996/JG.j.2095-302X.2018061069

A

2095-302X(2018)06-1069-09

2018-04-15;

2018-06-17

國(guó)家自然科學(xué)基金項(xiàng)目(51407076);中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金(2018MS075)

鄭顧平(1960-),男,河北保定人,博士,教授,碩士生導(dǎo)師。主要研究方向?yàn)閳D像理解。E-mail:zhengguping@126.com

李 剛(1980-),男,河北棗強(qiáng)人,博士,副教授,碩士生導(dǎo)師。主要研究方向?yàn)橹悄茈娋W(wǎng)與大數(shù)據(jù)、信息物理能源系統(tǒng)、故障預(yù)測(cè)與健康管理等。E-mail:ququ_er2003@126.com

猜你喜歡
航拍尺度語義
真實(shí)場(chǎng)景水下語義分割方法及數(shù)據(jù)集
財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
航拍巴彥呼碩
語言與語義
航拍,蒼穹下的醉美視角
難忘的航拍
陜西畫報(bào)航拍
批評(píng)話語分析中態(tài)度意向的鄰近化語義構(gòu)建
宇宙的尺度
“吃+NP”的語義生成機(jī)制研究
云阳县| 衡水市| 辽阳市| 兴化市| 凤台县| 新郑市| 烟台市| 公主岭市| 米林县| 彭水| 巴青县| 乌拉特后旗| 萍乡市| 丹寨县| 永仁县| 手游| 昌邑市| 上林县| 诸城市| 邯郸县| 射洪县| 郓城县| 松原市| 永德县| 临澧县| 苍南县| 麻阳| 枣庄市| 洪洞县| 兴宁市| 东城区| 长汀县| 北流市| 墨竹工卡县| 渑池县| 蒲江县| 贵州省| 武平县| 博客| 名山县| 嘉鱼县|