国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于密集連接與特征增強(qiáng)的語義分割算法

2023-03-16 10:21:32馬素剛陳期梅侯志強(qiáng)楊小寶張子賢
計(jì)算機(jī)工程 2023年3期
關(guān)鍵詞:空洞尺度語義

馬素剛,陳期梅,侯志強(qiáng),楊小寶,3,張子賢

(1.西安郵電大學(xué) 計(jì)算機(jī)學(xué)院,西安 710121;2.西安郵電大學(xué) 陜西省網(wǎng)絡(luò)數(shù)據(jù)分析與智能處理重點(diǎn)實(shí)驗(yàn)室,西安 710121;3.西安郵電大學(xué) 西安市大數(shù)據(jù)與智能計(jì)算重點(diǎn)實(shí)驗(yàn)室,西安 710121)

0 概述

在計(jì)算機(jī)視覺領(lǐng)域,基于語義分割對場景理解的研究起著關(guān)鍵性作用,是當(dāng)前計(jì)算機(jī)視覺領(lǐng)域的重要研究方向和熱點(diǎn)。語義分割是像素級別的分類,主要任務(wù)是為圖像中每個像素分配其所屬類別的標(biāo)簽并進(jìn)行密集預(yù)測[1]。語義分割在許多實(shí)際應(yīng)用中的需求快速增長,如交通標(biāo)志識別[2]、場景識別[3]、點(diǎn)云分割[4]及醫(yī)學(xué)影像分析[5]等。

隨著計(jì)算機(jī)硬件技術(shù)的迅速發(fā)展和大量分割數(shù)據(jù)集的出現(xiàn),基于深度學(xué)習(xí)的分割算法取得了令人矚目的進(jìn)展和效果。SHELHAMER 等[6]提出的全卷積網(wǎng)絡(luò)(Fully Convolution Network,F(xiàn)CN)利用卷積層替換分類網(wǎng)絡(luò)(VGGNet、AlexNet 等)中的全連接層,實(shí)現(xiàn)像素點(diǎn)到像素點(diǎn)的預(yù)測,同時使用跳躍結(jié)構(gòu)結(jié)合不同深度的特征信息,從而實(shí)現(xiàn)精度的提升。BADRINARAYANAN 等[7]提出的SegNet 僅存儲池化的最大權(quán)值索引,在解碼階段使用存儲的索引進(jìn)行上采樣,該方法實(shí)現(xiàn)了精度與速度之間的權(quán)衡。RONNEBERGER 等[8]提出的U-Net 分割模型包括收縮路徑和擴(kuò)展路徑。收縮路徑通過下采樣獲得上下文信息,擴(kuò)展路徑獲取精準(zhǔn)的位置信息,使用跳躍結(jié)構(gòu)拼接兩條路徑中對應(yīng)大小的特征,定位邊界信息。上述方法所設(shè)計(jì)的網(wǎng)路結(jié)構(gòu)均采用連續(xù)的下采樣和池化操作,降低了圖像分辨率,且固定大小的感受野限制了對上下文信息的捕獲,從而導(dǎo)致對目標(biāo)邊緣分割的不連續(xù)性。

DeepLabv1[9]引入空洞卷積替換網(wǎng)絡(luò)后幾層的降采樣操作,保證了特征圖的分辨率。LIU 等[10]在感受野模塊中引入空洞卷積,增大了感受野,增強(qiáng)了網(wǎng)絡(luò)的特征提取能力。受空間金字塔池化(Spatial Pyramid Pooling,SPP)[11]的啟發(fā),DeepLabv2[12]將空洞卷積與金字塔相結(jié)合,提出空洞空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)模塊,使用不同采樣比例的空洞卷積,增強(qiáng)模型識別同一物體不同尺度的能力。DeepLabv3[13]設(shè)計(jì)級聯(lián)或并行的空洞卷積模塊,捕獲更大的感受野并獲取多尺度信息,同時將池化加入到ASPP 中獲取全局信息。ZHAO等[14]設(shè)計(jì)的金字塔池化模塊(Pyramid Pooling Module,PPM)通過聚合不同區(qū)域的上下文信息獲取全局上下文信息。DeepLab 系列方法及其變體方法在一定程度上解決了多尺度問題。

為進(jìn)一步改善目標(biāo)邊緣分割的連續(xù)性問題,研究人員提出了許多特征增 強(qiáng)方法。HOU 等[15]提出的協(xié)調(diào)注意力(Coordinate Attention,CA)模塊考慮空間和通道兩個維度的信息,強(qiáng)調(diào)有用的特征而抑制無用的特征,以增強(qiáng)特征的表達(dá)能力。Non-Local[16]通過計(jì)算任意位置之間的權(quán)重捕捉遠(yuǎn)距離的依賴關(guān)系。注意力的特征增強(qiáng)方法主要是通過增加重要通道的權(quán)重,相對強(qiáng)調(diào)語義信息,而沒有考慮低層的細(xì)粒度信息和語義信息之間的關(guān)系。TAKIKAWA 等[17]提出的雙流語義結(jié)構(gòu)將低層細(xì)粒度信息作為一個獨(dú)立的處理分支,通過融合語義特征與邊界特征獲得精確的分割結(jié)果。LIU 等[18]設(shè)計(jì)一個自下而上的增強(qiáng)路徑,將低層的位置信息流傳播到高層特征中,產(chǎn)生含有豐富語境信息的特征圖。DeepLabv3+[19]設(shè)計(jì)一個簡單的解碼器模塊,通過融合深層信息和淺層信息提升分割效果。綜上所述,DeepLab 系列方法解決了多尺度問題,但該類方法僅能利用像素點(diǎn)周圍稀疏的信息,高層語義信息之間缺乏相關(guān)性,導(dǎo)致分割錯誤。多路徑增強(qiáng)方法通常僅使用低層的高分辨特征圖,而忽略了主干網(wǎng)絡(luò)中其他層的特征信息,造成部分可用信息的損失,不能較好地解決分割結(jié)果不連續(xù)和邊界粗糙等問題。

針對上述算法存在的不足,本文結(jié)合DeepLabv3+算法,提出一種基于密集連接和特征增強(qiáng)的語義分割算法。該算法將空洞空間金字塔池化結(jié)構(gòu)中并行分支的輸出以密集的方式連接,增強(qiáng)信息流之間的交互,同時利用骨干網(wǎng)絡(luò)產(chǎn)生的多階段特征增強(qiáng)特征的表征能力。

1 本文算法

本文提出一種基于密集連接和特征增強(qiáng)的語義分割算法,該算法充分利用主干網(wǎng)絡(luò)中各階段的特征信息,明顯改善分割邊界不連續(xù)及目標(biāo)丟失等問題,提高語義分割精度。

1.1 算法結(jié)構(gòu)

DeepLabv3+[19]是經(jīng)典的編解碼結(jié)構(gòu)。在編碼階段,原始圖像經(jīng)過骨干網(wǎng)絡(luò)進(jìn)行特征信息的提取,將第4 層的特征輸入到空洞空間金字塔池化模塊中編碼上下文信息,其由1×1 卷積、池化和空洞率為6、12、18 的空洞卷積組成。然后融合多尺度特征信息,使用1×1 卷積降低通道數(shù)。在解碼階段,首先對編碼階段的特征進(jìn)行4 倍的上采樣,與骨干網(wǎng)絡(luò)第1 層特征經(jīng)過1×1 卷積后得到特征拼接,拼接后的特征經(jīng)過3×3 卷積細(xì)化特征,然后上采樣恢復(fù)到原始圖像的大小,輸出最終的分割結(jié)果。

本文基于DeepLabv3+算法的改進(jìn)結(jié)構(gòu)如圖1 所示(在圖1 中,圓圈中的C 表示拼接)。編碼器負(fù)責(zé)提取特征,將骨干網(wǎng)絡(luò)第4 個Block 層輸出的特征x4輸入到共享空洞空間金字塔池化模塊中,提取圖像的多尺度局部密集信息,該結(jié)構(gòu)由多個不同空洞率密集連接的空洞卷積和平均池化組成,空洞率分別為1、6、12 和18,融合提取到的多尺度信息使用1×1 卷積降低融合后特征的通道數(shù),然后對其進(jìn)行4 倍上采樣。

圖1 本文改進(jìn)算法結(jié)構(gòu)Fig.1 Structure of the improved algorithm in this paper

其中:conv 表示1×1 卷積、激活函數(shù)和歸一化操作;up 表示4 倍的上采樣;SS-ASPP表示共享空洞空間金字塔池化。

在解碼階段,重利用ResNet 中4 個Block 層的輸出結(jié)果x1、x2、x3、x4,使用通道降低模塊將每層特征的通道數(shù)減少到128,得到一個精簡的特征金字塔Fr。

其中:CCR表示通道降低。利用特征金字塔增強(qiáng)模塊(Feature Pyramid Enhancement Module,F(xiàn)PEM)對Fr級聯(lián)多次達(dá)到特征增強(qiáng)的作用。

其中:output0表示對Fr級聯(lián)一次后的結(jié)果;outputn表示對Fr級聯(lián)多次(1 ≤n<4)的結(jié)果。通過逐元素相加的方式融合級聯(lián)后的多個結(jié)果,對融合后的特征金字塔進(jìn)行1×1 卷積,將通道數(shù)從512 減少到48,取得較好的分割結(jié)果。

其中:F表示融合操作;conv 表示1×1 卷積、激活函數(shù)和歸一化操作。最后融合編碼器所得特征,經(jīng)過卷積和上采樣細(xì)化分割結(jié)果。

1.2 共享空洞空間金字塔池化

共享空洞空間金字塔池化(Shared-Atrous Spatial Pyramid Pooling,S-ASPP)模塊由級聯(lián)多個不同空洞率的空洞卷積和池化組成。小空洞率捕捉近距離信息,大空洞率捕捉遠(yuǎn)距離信息。由于小物體具有的像素信息較少,在卷積過程中極易丟失或被誤分類。為更好地分割小物體,本文將前一層空洞卷積的輸出作為下一層輸入的一部分,使小物體能在不同大小的空洞卷積中被檢測到,增強(qiáng)局部信息流之間的傳遞。對于大空洞率的空洞卷積,通過連接前一層的輸出可以捕獲更多信息,如空洞率R=18,將空洞率R=12 的輸入及輸出均作為其輸入,可以利用更多的采樣像素來捕獲特征信息,提高信息利用率。為防止網(wǎng)絡(luò)過寬和信息冗余,在最后一個空洞卷積之前使用1×1 卷積降低維度。

密集連接增強(qiáng)了像素之間的相關(guān)性,上下文之間形成依賴關(guān)系。以一維空洞卷積為例,其運(yùn)算如式(7)所示:

其中:x[i]為一維輸入;r表示空洞率;w[k]表示卷積核的第k個參數(shù)(k為卷積核的長度);f[i]為一維空洞卷積的輸出。

對于空洞率為R和卷積核大小為K的空洞卷積,感受野大小的計(jì)算如式(8)所示:

當(dāng)空洞率R=12、卷積核K=3 時,一維空洞卷積的感受野為25。如圖2(a)所示,每次只有3 個像素參與卷積運(yùn)算,然而在二維卷積運(yùn)算下效果更差,當(dāng)空洞率越大時,卷積核的有效參數(shù)就越少。密集連接的S-ASPP模塊隨著空洞率的逐層增大,依次將前一層的輸出作為下一層輸入的一部分,通過采樣密集的像素,提高像素的利用率。如圖2(b)所示,在空洞率R=18 的空洞卷積上密集連接空洞率R=12 的輸入及輸出,空洞率R=12 的空洞卷積中有7 個像素參與運(yùn)算,采樣點(diǎn)密度高于直接進(jìn)行空洞卷積的采樣點(diǎn)密度。對于二維卷積而言,密集連接的空洞卷積的采樣像素遠(yuǎn)多于一維卷積的采樣像素,增加了參與運(yùn)算的參數(shù),使該空洞卷積能利用更多的信息。

圖2 空洞卷積采樣點(diǎn)Fig.2 Atrous convolution sampling point

密集連接的空洞卷積不僅能利用更多的像素信息,而且可以獲得更大的感受野,如式(9)所示:

其中:RRFi+1和RRFi分別表示當(dāng)前層的感受野和前一層的感受野;K'表示卷積核;Stri表示之前所有卷積層的步長乘積。

Stri計(jì)算公式如式(10)所示:

如將空洞率R=12 的空洞卷積密集連接到空洞率R=18 的空洞卷積上,感受野由原來的37 增加到61,參與運(yùn)算的有效元素也隨之增加。利用S-ASPP模塊能在較大的感受野中獲得更密集的采樣點(diǎn)像素,更加準(zhǔn)確地判斷每一像素所屬類別,有效降低信息損失。

1.3 特征金字塔增強(qiáng)融合模塊

特征金字塔增強(qiáng)融合模塊(Feature Pyramid Enhancement Fusion Module,F(xiàn)PEFM)包括特征金字塔增強(qiáng)模塊(FPEM)[20]和特征融合模塊(Feature Fusion Module,F(xiàn)FM)。FPEM 由上尺度增強(qiáng)和下尺度增強(qiáng)兩部分組成。

上尺度增強(qiáng)作用于精簡的特征金字塔Fr,首先將輸入特征中第4 層的特征進(jìn)行2 倍上采樣后與第3 層特征的元素對應(yīng)相加,將相加后的特征經(jīng)過3×3 深度可分離卷積加深網(wǎng)絡(luò)深度,同時利用歸一化處理和激活函數(shù)增強(qiáng)網(wǎng)絡(luò)的非線性表達(dá)能力,得到融合后的特征,以此類推,直到精簡特征金字塔的第1 層特征。下尺度增強(qiáng)的輸入是上尺度增強(qiáng)后的結(jié)果,將上尺度增強(qiáng)中輸出的第3 層特征進(jìn)行2 倍上采樣操作與第4 層特征的元素對應(yīng)相加,將相加后的特征經(jīng)過3×3、步長為2 的深度可分離卷積加深網(wǎng)絡(luò)深度,同時利用歸一化和激活函數(shù)增強(qiáng)網(wǎng)絡(luò)的非線性表達(dá)能力得到融合后的特征,以此類推,直到上尺度增強(qiáng)輸出中的第1 層特征,最終輸出增強(qiáng)后的整體特征圖。

就分割而言,深層信息便于提取像素的類別,淺層信息有利于提取邊緣和紋理信息,每一種信息都有不可替代的作用。FFM 用于融合不同深度和尺度的特征,連接和上采樣是常用的融合方法,然而上述方法導(dǎo)致融合后的特征通道數(shù)變多,影響算法的運(yùn)算速度。為此,使用一種新的融合方法,以逐像素相加的方式融合同尺度特征,然后將相加后特征中低分辨率上采樣到高分辨率,拼接為512 個通道的特征圖,再利用1×1 卷積將通道數(shù)減少到48,得到更好的分割結(jié)果。

2 實(shí)驗(yàn)

在實(shí)驗(yàn)過程中,本文算法使用Python 3.6 進(jìn)行數(shù)據(jù)處理,操作系統(tǒng)為Ubuntu 18.04,GPU 為NVIDIA TITANV,CUDA 10.2 加速運(yùn)算,CPU 為Intel?Xeon?Gold 6136。

2.1 實(shí)驗(yàn)參數(shù)

本文算法在PASCAL VOC 2012 增強(qiáng)數(shù)據(jù)集和Cityscapes 數(shù)據(jù)集上進(jìn)行驗(yàn)證。使用Poly 學(xué)習(xí)策略,優(yōu)化器為隨機(jī)梯度下降(SGD),權(quán)重衰減為0.000 6。PASCAL VOC 2012 數(shù)據(jù)集的學(xué)習(xí)率為0.002,批量處理大小為8,訓(xùn)練46 個epochs,將輸入圖像隨機(jī)剪裁到512×512 像素。為驗(yàn)證本文算法的魯棒性,在Cityscapes 數(shù)據(jù)集上進(jìn)行驗(yàn)證,其中,學(xué)習(xí)率為0.000 1,批量處理大小為2,最大迭代次數(shù)為60 000次,將輸入圖像隨機(jī)剪裁到769×769 像素。在訓(xùn)練過程中使用數(shù)據(jù)增強(qiáng)避免過擬合現(xiàn)象的產(chǎn)生,包括隨機(jī)翻轉(zhuǎn)(p=0.5),在[0.5,2.0]的比例范圍內(nèi)做隨機(jī)縮放。為進(jìn)一步提高算法性能,在驗(yàn)證過程中使用多尺度輸入,計(jì)算多尺度的平均結(jié)果作為最終結(jié)果。實(shí)驗(yàn)結(jié)果表明了多尺度測試的效果優(yōu)于單尺度測試。

2.2 數(shù)據(jù)集及評價指標(biāo)

PASCAL VOC 2012 是語義分割的基準(zhǔn)數(shù)據(jù)集,該數(shù)據(jù)集包含20 個前景類和1 個背景類。本文采用PASCAL VOC 2012的擴(kuò)充數(shù)據(jù)集,將原始數(shù)據(jù)集和SBD數(shù)據(jù)集融合擴(kuò)充訓(xùn)練集圖片到10 582 張。擴(kuò)充后的數(shù)據(jù)集有更多的數(shù)據(jù)量,使模型表現(xiàn)出更強(qiáng)的泛化能力。

Cityscapes 是包括多個城市的街道場景數(shù)據(jù)集。該數(shù)據(jù)集包含5 000 張精細(xì)標(biāo)注圖像和20 000 張粗標(biāo)注圖像,但在本文中僅使用精細(xì)標(biāo)注圖像,其中,2 975 張圖像用于訓(xùn)練,500 張圖像用于驗(yàn)證,1 525 張圖像用于測試。

本文采用平均交并比(mean Intersection over Union,mIoU)和每秒檢測幀數(shù)(Frames Per Second,F(xiàn)PS)作為評估指標(biāo)。mIoU 是計(jì)算真實(shí)值和預(yù)測值兩個集合的交并集之比,衡量語義分割結(jié)果的質(zhì)量。計(jì)算公式如式(11)所示:

其中:N為像素類別數(shù)量;pij表示實(shí)際類別為i類預(yù)測為j類的像素總數(shù);pii表示實(shí)際類別為i類預(yù)測類別也為i類的像素總數(shù)。

FPS 評估算法的檢測速度,其計(jì)算公式如式(12)所示:

其中:N為圖片的數(shù)量;Tj為處理第j張圖片的時間。

2.3 實(shí)驗(yàn)結(jié)果分析

2.3.1 PASCAL VOC 2012 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

圖3 所示為本文算法與基礎(chǔ)算法在PASCAL VOC 2012 數(shù)據(jù)集上的對比。

圖3 PASCAL VOC 2012 驗(yàn)證集的可視化結(jié)果Fig.3 Visual results of PASCAL VOC 2012 validation set

從第1 行的分割結(jié)果可看出,DeepLabv3+算法對船的整體輪廓分割的較粗糙,而本文算法的分割結(jié)果更加清晰和精細(xì),邊緣更加平滑。在第2 行的可視化結(jié)果中,DeepLabv3+算法將左邊第1 個人的腿部像素誤分割為第2 個人腿部像素的一部分,且輪廓不精細(xì),同時缺失對馬頭部信息的預(yù)測,本文算分的分割算法能較好地將腿部像素區(qū)分開,并成功預(yù)測出原算法中未識別出的像素信息。在第3 行中,原算法對沙發(fā)和人的輪廓分割的較為模糊且粗糙,而本文算法能較好地分割出沙發(fā)和人之間的邊緣,且沙發(fā)的邊緣較為精細(xì)和平滑。從第4 行的可視化結(jié)果中看出,原算法網(wǎng)絡(luò)結(jié)構(gòu)無法預(yù)測桌子的整體輪廓,且預(yù)測出的一部分邊緣模糊和不連續(xù),而本文算法成功地預(yù)測出桌子的整體輪廓信息并清楚地呈現(xiàn)出左邊桌架。綜上所述,本文提出的分割算法能使分割結(jié)果更加精細(xì),相對于原算法,本文算法對邊緣的分割更加清晰和平滑。

為進(jìn)一步驗(yàn)證本文算法的分割優(yōu)勢及有效性,基于PASCAL VOC 2012 數(shù)據(jù)集將本文算法與其他分割算法相比較,結(jié)果如表1 所示。本文算法的mIoU比DUpsampling[21]、DANet[22]、PANet[23]和HyperSeg[24]分別提高1.46、0.19、0.36 和0.53 個百分點(diǎn)。從表1可看出本文算法取得了較好的結(jié)果。

表1 不同算法在PASCL VOC 2012 數(shù)據(jù)集上的對比結(jié)果Table 1 Comparison results of different algorithms on PASCL VOC 2012 dataset

2.3.2 Cityscapes 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

圖4 所示為本文算法與基準(zhǔn)算法在Cityscapes數(shù)據(jù)集上的對比。例如,從第1 行的每張圖像中對路邊欄桿、路燈桿等小目標(biāo)像素的預(yù)測結(jié)果可以發(fā)現(xiàn),本文算法的分割結(jié)果更加連續(xù)與平滑。在第3 行的分割結(jié)果中,原算法對車輪廓的分割結(jié)果非常粗糙,但本文算法較好地呈現(xiàn)了車的輪廓信息,邊緣更加平滑,帶來了更好的可視化結(jié)果。在最后一行中,原算法將不同的道路像素信息分割為同一種像素信息,出現(xiàn)誤分割的現(xiàn)象,同時對行人的分割較為粗糙,而本文算法能夠較好地區(qū)分道路像素,對行人的分割更加精細(xì),帶來了更好的可視化結(jié)果。此外,對于其他類別,如交通標(biāo)志、墻壁、建筑物以及植物等像素,本文算法利用FPEFM 對多階段信息進(jìn)行重利用,提高了對物體邊緣的分割效果。

圖4 Cityscapes 驗(yàn)證集的可視化結(jié)果Fig.4 Visual results of Cityscapes validation set

為進(jìn)一步驗(yàn)證本文算法的有效性,將本文算法與近年來的分割算法進(jìn)行比較,對比結(jié)果如表2 所示,可以看出本文算法取得了較好的結(jié)果。

表2 不同算法在Cityscapes 數(shù)據(jù)集上的對比結(jié)果Table 2 Comparison results of different algorithms on Cityscapes dataset %

2.4 消融實(shí)驗(yàn)

2.4.1 各模塊的性能比較

為進(jìn)一步驗(yàn)證本文所提出的S-ASPP 模塊和引入的FPEFM 模塊對性能的影響,本文在PASCAL VOC 2012 增強(qiáng)數(shù)據(jù)集上逐層做消融實(shí)驗(yàn),以mIoU為對比指標(biāo),實(shí)驗(yàn)結(jié)果如表3 所示。

表3 各模塊性能比較Table 3 Performance comparison of each modules %

本文以DeepLabv3+為基準(zhǔn),所有消融實(shí)驗(yàn)的結(jié)果均來自PASCAL VOC 2012 增強(qiáng)訓(xùn)練集,并在驗(yàn)證集上進(jìn)行評估。由對比實(shí)驗(yàn)1 和實(shí)驗(yàn)2 可知,將本文設(shè)計(jì)的S-ASPP 模塊取代原算法中的ASPP 模塊,獲得79.75%的分割精度,該模塊主要提高各分支之間的語義交互,充分利用深層信息,獲取豐富的語義信息。由實(shí)驗(yàn)1 和實(shí)驗(yàn)3 可知,將引入的FPEFM 作為本文算法的解碼器,mIoU 相對原算法提升1.65 個百分點(diǎn),該模塊增強(qiáng)骨干網(wǎng)絡(luò)中不同尺度特征的表達(dá)能力,并促進(jìn)不同深度特征信息的融合。對比實(shí)驗(yàn)1 和實(shí)驗(yàn)4 可知:將S-ASPP和FPEFM 模塊同時加入原算法中,最終精度達(dá)到了81.13%,相比于基礎(chǔ)算法提升2.28 個百分點(diǎn)。

圖5 所示為加入各模塊后的分割圖像,更加直觀地表示了每個模塊的有效性。其中,第1 列為原始圖像,第2 列為原算法的分割圖像,第3 列是S-ASPP 替換原算法中ASPP 結(jié)構(gòu)的分割結(jié)果,第4 列是引入FPEFM 作為解碼器的分割結(jié)果,第5 列是同時加入S-ASPP 和FPEFM 的最終分割圖像。由可視化結(jié)果可看出:同時加入S-ASPP 和FPEFM 模塊后,能更好識別出物體邊緣的像素點(diǎn),改善物體邊緣的分割效果。

圖5 加入各模塊后的可視化結(jié)果Fig.5 Visual results after adding each modules

2.4.2 FPEM 模塊的數(shù)量

表4 所示為在原算法中加入不同數(shù)量的FPEM對PASCAL VOC 2012 驗(yàn)證集性能的影響。由表4的結(jié)果可以看出:將FPEM 的數(shù)量N從2 增加到4時,性能得到不同程度的提升,但FPEM 數(shù)量從4 增加到5 時,性能呈現(xiàn)下降趨勢,這表明適合的FPEM數(shù)量有利用增強(qiáng)特征的表征能力,但超過一定數(shù)量時,可能會捕獲到大量的干擾信息,影響最終的分割效果。同時,隨著數(shù)量的不斷增加,相應(yīng)地也增加了參數(shù)量,進(jìn)而影響運(yùn)行速度。為了取得更好的性能,在后續(xù)的實(shí)驗(yàn)中將FPEM 數(shù)量設(shè)置為4。

表4 不同數(shù)量的FPEM 的結(jié)果Table 4 Results with different numbers of FPEM

2.4.3 通道數(shù)對FFM 的影響

FFM 融合FPEM 中不同深度的特征,F(xiàn)FM 輸出的通道數(shù)為528。該模塊的輸出通道數(shù)對性能的影響如表5 所示,當(dāng)輸出通道數(shù)為48 時,可以得到更好的分割結(jié)果。因此,采用[1×1,48]進(jìn)行通道縮減。

表5 通道數(shù)對FFM 模塊的影響Table 5 Influence of channel number on FFM module

2.4.4 S-ASPP 中參數(shù)設(shè)定

采用控制變量方法驗(yàn)證共享空洞空間金字塔池化模塊對算法性能的影響,主要考慮空洞率組合的選取以及密集連接方式兩個方面。選擇適當(dāng)?shù)目斩绰蕦-ASPP 模塊較為重要,在相同卷積層的情況下能擴(kuò)大感受野??斩绰瘦^大會遺漏對小物體的分割,空洞率較小會影響大物體獲取上下文信息,造成分割不連續(xù)和誤分割問題。本文選擇了3 組空洞率作為比較,如表6 所示,通過對比實(shí)驗(yàn)1(原算法)與實(shí)驗(yàn)2、4、6 可知,實(shí)驗(yàn)2、4、6 的空洞率組合結(jié)果均優(yōu)于原算法的空洞率組合結(jié)果,其中最適合的空洞率為4、8、12 和16,mIoU 提高0.53 個百分點(diǎn),速度也易于接受。比較實(shí)驗(yàn)2、4、6 和實(shí)驗(yàn)3、5、7 可知,密集連接方式較無密集連接分別提高0.2、0.4 和0.5 個百分點(diǎn),這表明密集連接有效地建立了不同空洞卷積之間的依賴關(guān)系,降低了信息損失。其中空洞率為1、6、12 和18 的密集連接實(shí)現(xiàn)了更佳的分割結(jié)果,但速度比無密集連接有所下降。由于改進(jìn)后的算法變得越來越復(fù)雜,算法的參數(shù)、速度等方面都會受到影響,很難在精度、速度和參數(shù)等因素之間保持平衡,但所增加的參數(shù)量和速度在可接受范圍內(nèi),因此該算法以犧牲客觀因素為代價,換取mIoU 的提高。綜上所述,S-ASPP 模塊選擇空洞率為1、6、12 和18 的密集連接。

表6 S-ASPP 中參數(shù)設(shè)定的對比Table 6 Comparison of parameter settings in S-ASPP

3 結(jié)束語

本文提出一種基于密集連接和特征增強(qiáng)的語義分割算法,整個網(wǎng)絡(luò)采用編解碼結(jié)構(gòu)。編碼器通過提取圖像信息,利用S-ASPP 模塊提取特定分辨率特征的多尺度信息捕獲密集的采樣點(diǎn)像素,從而獲取更加全面的局部信息。解碼器恢復(fù)圖像的分辨率,從重利用骨干網(wǎng)絡(luò)的多層特征出發(fā)對其進(jìn)行特征增強(qiáng),提高特征的表征能力,并融合編碼器和解碼器得到特征信息。實(shí)驗(yàn)結(jié)果表明,該算法有效地解決了分割邊緣不連續(xù)和誤分割等問題,取得了理想的分割結(jié)果。本文算法側(cè)重于精度的提升,但忽略了速度等因素,后續(xù)研究將從局部、全局以及上下文信息的角度出發(fā),設(shè)計(jì)一種有效的結(jié)合方式,滿足語義分割算法對準(zhǔn)確性和實(shí)時性的要求。

猜你喜歡
空洞尺度語義
財(cái)產(chǎn)的五大尺度和五重應(yīng)對
語言與語義
空洞的眼神
宇宙的尺度
太空探索(2016年5期)2016-07-12 15:17:55
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
用事實(shí)說話勝過空洞的說教——以教育類報道為例
新聞傳播(2015年20期)2015-07-18 11:06:46
認(rèn)知范疇模糊與語義模糊
9
臭氧層空洞也是幫兇
語義分析與漢俄副名組合
株洲县| 白沙| 长岛县| 芦山县| 恩施市| 浙江省| 镇巴县| 文安县| 新丰县| 综艺| 潼南县| 榆社县| 建宁县| 赤水市| 鄯善县| 手游| 奈曼旗| 阜宁县| 常熟市| 成武县| 郸城县| 开化县| 泊头市| 灵武市| 台江县| 沂水县| 龙岩市| 镇安县| 宜州市| 英山县| 南开区| 合山市| 和平区| 雷波县| 西华县| 江安县| 怀柔区| 盘锦市| 新巴尔虎右旗| 新泰市| 武冈市|