摘 要:針對(duì)室外復(fù)雜場(chǎng)景下圖像分割難度較大的問(wèn)題,提出一種基于HRNet的多語(yǔ)義圖像分割模型(HR_DfeNet)。該模型通過(guò)引入通道注意力和空間注意力模塊優(yōu)化特征提取,通過(guò)改進(jìn)金字塔池化模塊設(shè)計(jì)ASPP_M模塊形成高分辨率特征提取分支,并與多種注意力機(jī)制融合。在Cityscape數(shù)據(jù)集上,HR_DfeNet相較于傳統(tǒng)分割模型表現(xiàn)出不同程度的分割優(yōu)化效果。
關(guān)鍵詞:室外復(fù)雜場(chǎng)景;圖像分割;注意力模塊;金字塔池化模塊
中圖分類號(hào):TP391.41文獻(xiàn)標(biāo)志碼:A文章編號(hào):1671-5276(2024)03-0181-04
A Multi Semantic Image Segmentation Method Based on Improved High Resolution Networks
Abstract:To address the difficulty of image segmentation in complex outdoor scenes, this paper proposes a multi semantic image segmentation model based on HRNet (HR_DfeNet), which optimizes feature extraction by introducing channel attention and spatial attention modules, designs a high-resolution feature extraction branch by improving the pyramid pooling module and ASPP_M module, and integrates with multiple attention mechanisms. On the Cityscape dataset, HR_DfeNet exhibits varying degrees of segmentation optimization performance compared to traditional segmentation models.
Keywords:outdoor complex scenes; image segmentation; attention module; pyramid pooling module
0 引言
與室內(nèi)環(huán)境不同的是,室外結(jié)構(gòu)化或非結(jié)構(gòu)化環(huán)境下的多語(yǔ)義圖像中的信息區(qū)分度差,類別邊緣更模糊,從而識(shí)別分割難度更大。所以室外環(huán)境下如何實(shí)現(xiàn)對(duì)圖像信息的精確快速區(qū)分成為當(dāng)前研究的重點(diǎn)內(nèi)容[1]。
基于深度學(xué)習(xí)的語(yǔ)義分割方法是現(xiàn)在的主流研究方向,這類研究主要基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)。包子涵等[2]提出改進(jìn)余弦型高斯核函數(shù)的非局部均值濾波算法,減小了圖片預(yù)處理階段噪點(diǎn)的影響。LONG等[3]提出第一個(gè)深度學(xué)習(xí)語(yǔ)義分割模型FCN,通過(guò)將全連接層替換為反卷積層并進(jìn)行上采樣以生成空間特征映射,從而產(chǎn)生密集的像素級(jí)特征。這一創(chuàng)新證明了深層網(wǎng)絡(luò)可用于輸入尺寸可變的語(yǔ)義分割模型中,進(jìn)行端到端訓(xùn)練來(lái)預(yù)測(cè)像素級(jí)別的標(biāo)簽。此外,HRNet 在分割過(guò)程中能夠始終保持高分辨率特征,通過(guò)高低分辨率特征的并行連接和信息交換來(lái)不斷優(yōu)化特征表示[4]。CHEN等[5]提出的DeepLab系列模型使用深度卷積的方式進(jìn)行特征提取,在卷積層中引入空洞卷積和空洞空間金字塔池化模塊(atrous spatial pyramid pooling ,ASPP)擴(kuò)大了感受野并捕獲了多尺度空間信息。張藝杰[6]設(shè)計(jì)的雙路徑網(wǎng)絡(luò)可分別提取空間和語(yǔ)義信息,并通過(guò)一個(gè)高效的特征融合模塊來(lái)融合這兩種信息。同時(shí),近年來(lái)注意力機(jī)制也被廣泛應(yīng)用于語(yǔ)義分割模型,注意力機(jī)制通過(guò)注意力分布計(jì)算特征加權(quán)融合,能夠有效地處理多個(gè)特征向量[7-8]。
目前深度學(xué)習(xí)的語(yǔ)義分割方法準(zhǔn)確率較高,但仍存在上采樣階段特征提取不充分、分辨率限制等問(wèn)題。本文針對(duì)室外復(fù)雜場(chǎng)景圖像分割改進(jìn),優(yōu)化特征提取并設(shè)計(jì)高分辨率特征提取分支,最后通過(guò)實(shí)驗(yàn)驗(yàn)證改進(jìn)方法的有效性。
1 模型改進(jìn)
本文以高分辨率識(shí)別分割網(wǎng)絡(luò)(HRNet)模型為基礎(chǔ),通過(guò)引進(jìn)多種注意力機(jī)制和優(yōu)化ASPP模塊等方法對(duì)模型進(jìn)行優(yōu)化設(shè)計(jì),構(gòu)建一種新型高效多語(yǔ)義圖像分割網(wǎng)絡(luò)模型。
1.1 基于ECA/SA下的模塊優(yōu)化
圖像分割中,層級(jí)模塊之間傳遞的特征信息包含空間特征和通道特征信息。本節(jié)結(jié)合高分辨率網(wǎng)絡(luò)結(jié)構(gòu)的特點(diǎn),通過(guò)引入通道注意力機(jī)制(ECA)和空間注意力機(jī)制(SA),提高HRNet網(wǎng)絡(luò)的特征傳遞效率。
1)ECA的優(yōu)化設(shè)計(jì)
通道注意力機(jī)制通過(guò)賦予不同通道的特征不同的重要性,使網(wǎng)絡(luò)更高效地提取與任務(wù)相關(guān)的特征。
針對(duì)HRNet的結(jié)構(gòu)特點(diǎn),本文設(shè)計(jì)將ECA通道模塊引入主干網(wǎng)絡(luò)的Concat之后,對(duì)合并的高分辨率信息進(jìn)行進(jìn)一步優(yōu)化,具體如圖1所示。
在對(duì)多個(gè)串行分支上采樣Concat后,獲得尺寸大小為H×W×C的特征圖VConcat,其中C是VConcat的通道數(shù)。通過(guò)全局平均池化對(duì)其在空間尺度上進(jìn)行壓縮,使其變?yōu)?×1×C,在歸一化空間尺度的同時(shí),通道數(shù)保持不變。然后通過(guò)使用一個(gè)自適應(yīng)大小為5×5的卷積操作,捕獲不同通道之間的信息,利用激活函數(shù)輸出特征圖的通道注意力權(quán)重信息QT。具體計(jì)算公式如式(1)所示。
式中:Cn*nov為自適應(yīng)卷積操作;n為卷積核大小;APool為平均池化函數(shù)。
最后,將Q與輸入特征圖數(shù)據(jù)Vi進(jìn)行乘積,即完成對(duì)Concat輸出特征圖的通道優(yōu)化。
2)SA的優(yōu)化設(shè)計(jì)
在HRNet中,淺層分支可能包含干擾信息,直接上采樣會(huì)導(dǎo)致偽影和影響語(yǔ)義分割結(jié)果,尤其在需要精確邊界的任務(wù)中。
因此本文對(duì)HRNet的每個(gè)高分辨率提取分支引入空間注意力更新模塊以提高圖像特征傳遞效率,具體如圖2所示。在每個(gè)分支進(jìn)行上采樣Concat前,對(duì)輸出尺寸為C×H×W的數(shù)據(jù)特征F進(jìn)行通道上的壓縮處理,使C=1。其中每個(gè)像素權(quán)值相同,但在整個(gè)平面中權(quán)值不同;H和W是F的高度和寬度。對(duì)壓縮后的數(shù)據(jù)進(jìn)行最大池化和平均池化操作,然后將兩種池化數(shù)據(jù)進(jìn)行平級(jí)拼接,最后通過(guò)卷積層和激活函數(shù)確定通道平面的注意力權(quán)值分布Q。具體公式如式(2)所示。
式中APool(Vi)和MPool(Vi)分別表示第i個(gè)分支的平均池化與最大池化結(jié)果;Cn*n表示n*n大小的卷積運(yùn)算。
最后,將第i個(gè)分支的權(quán)值分布Qi與輸出特征圖Vi乘積,即完成對(duì)特征圖的空間權(quán)值優(yōu)化過(guò)程,得到了具有更明顯空間語(yǔ)義信息的新特征圖Vi'。
1.2 基于優(yōu)化ASPP下的分支優(yōu)化
HRNet的高分辨率并行結(jié)構(gòu)使其可以進(jìn)行多次特征卷積融合,但常規(guī)融合方式對(duì)精度提升有限,且增加訓(xùn)練復(fù)雜度。因此,為優(yōu)化并行分支融合效果,本文進(jìn)一步引入空洞空間卷積池化金字塔(ASPP)模塊。
ASPP模塊通過(guò)多個(gè)并行分支使用不同尺度的空洞卷積和池化操作,增大感受野,提取多尺度特征。其結(jié)構(gòu)如圖3所示,模塊通過(guò)膨脹卷積層、全局池化層和Concat融合層構(gòu)建金字塔池化,以不同膨脹率捕獲多尺度信息。適當(dāng)?shù)呐蛎浡蔬x擇對(duì)感受野和信息提取至關(guān)重要,能避免網(wǎng)格問(wèn)題并提升精度。針對(duì)膨脹率選取問(wèn)題,本文設(shè)計(jì)了混合擴(kuò)張卷積框架(HDC)來(lái)構(gòu)建金字塔的膨脹率,以減輕 網(wǎng)格問(wèn)題。首先對(duì)k個(gè)不同尺寸下的膨脹卷積模塊,定義其膨脹率分別為[p1,p2,…,pk],則有
Di=max(Di+1-2pi,-Di+1+2pi,pi),
(i=1,2,…,k-1)(3)
式中Di=pi定義為兩個(gè)非零點(diǎn)之間的最大距離。為最小化“網(wǎng)格問(wèn)題”的影響,選擇膨脹率時(shí),要確保一個(gè)組內(nèi)卷積的變換因子不固定,即不包含大于1的公約數(shù)。因此本文選擇的空洞率分別為(2,3,7,13)這4種尺度,加上池化層和原特征圖層,共6層結(jié)構(gòu),對(duì)ASPP模塊改進(jìn)設(shè)計(jì)為ASPP_M,具體如圖4所示。
在改進(jìn)ASPP模塊中,首先對(duì)原特征數(shù)據(jù)不做處理直接進(jìn)行下級(jí)傳遞,然后利用上述設(shè)計(jì)的4種不同膨脹率下的空洞卷積對(duì)原特征圖進(jìn)行不同尺度下的特征提??;最后利用平均池化完成全局下的語(yǔ)義提取,同時(shí)增加了批歸一化層提高模型的訓(xùn)練效率。最后進(jìn)行Concat數(shù)據(jù)融合,完成ASPP_M模塊的特征增強(qiáng)任務(wù)。
1.3 整體模型搭建
通過(guò)上述改進(jìn),本文基于HRNet構(gòu)建了雙特征提取分支下的優(yōu)化模型(HR_DfeNet)。該模型一方面通過(guò)多種注意力優(yōu)化模塊針對(duì)性提取模型的特征辨識(shí)度;另一方面通過(guò)優(yōu)化金字塔模型加強(qiáng)對(duì)特征圖多尺度信息的語(yǔ)義提取能力,整體架構(gòu)如圖5所示。
2 算法驗(yàn)證與對(duì)比分析
2.1 實(shí)驗(yàn)環(huán)境和參數(shù)配置
本文的語(yǔ)義分割方法主要針對(duì)室外一般結(jié)構(gòu)化或非結(jié)構(gòu)化復(fù)雜場(chǎng)景進(jìn)行研究,并基于仿真平臺(tái)進(jìn)行實(shí)驗(yàn)驗(yàn)證,因此可通過(guò)網(wǎng)上查找和自行拍攝等建立數(shù)據(jù)集。該數(shù)據(jù)集包含了各類室外場(chǎng)景的1 000張圖片。實(shí)驗(yàn)采用傳統(tǒng)MIoU作為模型性能的核心評(píng)估指標(biāo),使用交叉熵?fù)p失函數(shù)和Adam優(yōu)化器來(lái)訓(xùn)練模型。訓(xùn)練過(guò)程包括320個(gè)Epoch輪次,初始學(xué)習(xí)率設(shè)定為0.000 1,BatchSize設(shè)置為12,選取數(shù)個(gè)目前主流多語(yǔ)義分割算法進(jìn)行綜合對(duì)比分析,包括HRNet、DeepLabV3+、U-Net、PSPNet。
2.2 消融實(shí)驗(yàn)
本文針對(duì)上述多個(gè)優(yōu)化模塊進(jìn)行了消融實(shí)驗(yàn),以驗(yàn)證每個(gè)模塊對(duì)分割效果的影響。取數(shù)據(jù)集數(shù)量15%比例的圖像進(jìn)行模型訓(xùn)練,為確保實(shí)驗(yàn)評(píng)估的準(zhǔn)確性,每項(xiàng)消融實(shí)驗(yàn)均重復(fù)3次,以平均值作為數(shù)據(jù)基準(zhǔn),并記錄最值以評(píng)估結(jié)果的波動(dòng)情況。
本文設(shè)計(jì)5種方案對(duì)模型的消融部分進(jìn)行對(duì)比分析,分別為:1)原HRNet模型;2)SA優(yōu)化的HRNet模型;3)SA+ECA改進(jìn)(即單特征提取分支)下的HRNet模型;4)ASPP_M(單特征提取分支)下的HRNet模型;5)HR_DfeNet(雙特征特區(qū)分支融合)模型。
具體的實(shí)驗(yàn)結(jié)果如表1所示,其中√代表在原HRNet模型中添加該(改進(jìn)的)模塊,×代表不添加??梢杂^察到,相較于原HRNet網(wǎng)絡(luò),方案2—方案5所建的其余模塊均在不同程度上優(yōu)化了分割效果,驗(yàn)證了本文設(shè)計(jì)的多種優(yōu)化方案的有效性。其中方案1—方案3的優(yōu)化效果逐級(jí)明顯,說(shuō)明基于注意力機(jī)制下的高分辨率特征提取分支有效地保留了特征圖的空間細(xì)節(jié)和全局信息。同時(shí),方案4—方案5表明基于ASPP_M的高分辨率特征提取分支通過(guò)多種尺度的卷積和池化操作,顯著優(yōu)化了圖像在多尺度上的語(yǔ)義信息處理效果。
2.3 HR_DfeNet分割效果驗(yàn)證
為評(píng)估HR_DfeNet模型的分割精度,對(duì)5種算法進(jìn)行了對(duì)比分析。
圖6展示了HRNet與HR_DfeNet模型在測(cè)試集上的部分分割對(duì)比效果。由于本文的主干網(wǎng)絡(luò)是HRNet,圖中僅展示了HRNet與HR_DfeNet的分割效果。HRNet在遠(yuǎn)視距和類別邊緣區(qū)分不明顯的物體分割上效果較差,而HR_DfeNet模型能夠更好地提取類別之間的語(yǔ)義差別。盡管未能完全篩選出所有類別,但相比HRNet有明顯優(yōu)化,并且HR_DfeNet算法對(duì)細(xì)小枝葉輪廓及墻體等大面積內(nèi)細(xì)小物體的識(shí)別能力顯著改善。
將訓(xùn)練集圖片分割為11種類標(biāo)簽,各個(gè)算法模型在測(cè)試集下的分割效果如表2所示。較HRNet模型,HR_DfeNet模型在多個(gè)細(xì)小類別如指示牌、桿、柵欄等的分割精度對(duì)比原HRNet模型優(yōu)化效果明顯;HR_DfeNet的平均交并比較HRNet模型提高了2.6%,較DeepLabV3+模型提升了約3.7%,比其他模型也有不同程度的優(yōu)越性。
3 結(jié)語(yǔ)
本文通過(guò)研究室外多語(yǔ)義圖像分割算法,提出了一種基于HRNet的多語(yǔ)義圖像分割模型(HR_DfeNet)。該模型通過(guò)引入空間/通道注意力機(jī)制和ASPP_M模塊,顯著提升了模型對(duì)高分辨率特征圖的表征能力。通過(guò)在自建數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證,本文所建模型在分割精度上較多種傳統(tǒng)算法皆有明顯的優(yōu)化和提升效果。
參考文獻(xiàn):
[1] 余京蕾.淺談?dòng)?jì)算機(jī)視覺(jué)技術(shù)進(jìn)展及其新興應(yīng)用[J]. 北京聯(lián)合大學(xué)學(xué)報(bào),2020,34(1):63-69.
[2] 包子涵,李龍海,劉麗麗,等.基于機(jī)器視覺(jué)的救援機(jī)器人自動(dòng)避障技術(shù)研究[J]. 機(jī)械制造與自動(dòng)化,2024,53(1):202-208.
[3]SHELHAMER E,LONG J,DARRELL T.Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(4):640-651.
[4] SUN K,XIAO B,LIU D,et al.Deep high-resolution representation learning for human pose estimation[C] //2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach,CA,USA:IEEE,2019:5686-5696.
[5]CHEN L C,PAPANDREOU G,KOKKINOS I,et al.Semantic image segmentation with deep convolutional nets and fully connected CRFs[EB/OL]. (2016-06-07)[2024-05-01]http://arxiv.org/abs/1412.7062.
[6] 張藝杰.基于深度學(xué)習(xí)的高分辨率遙感圖像語(yǔ)義分割方法研究[D]. 成都:電子科技大學(xué),2022.
[7] LIU G P,KE J.End-to-end full-waveform echo decomposition based on self-attention classification and U-net decomposition[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2022,15:7978-7987.
[8] 田壯壯,張恒偉,王坤,等.改進(jìn)CenterNet在遙感圖像目標(biāo)檢測(cè)中的應(yīng)用[J]. 遙感學(xué)報(bào),2023,27(12):2706-2715.