宣明慧,張榮國(guó),胡 靜,李富萍,趙 建
(太原科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,太原 030024)
傳統(tǒng)的圖像分割方法有基于閾值、基于邊緣和基于區(qū)域等,這些方法的分類依據(jù)是顏色和紋理等底層特征,而非語(yǔ)義特征,而圖像語(yǔ)義分割是對(duì)每個(gè)像素點(diǎn)賦予語(yǔ)義含義,是場(chǎng)景理解的基礎(chǔ)性技術(shù)。
近年來(lái),隨著數(shù)據(jù)集和GPU 的不斷發(fā)展和完善,卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練大量數(shù)據(jù)學(xué)習(xí)特征上表現(xiàn)出了很大的優(yōu)勢(shì)。全卷積神經(jīng)網(wǎng)絡(luò)(FCN)[1]在圖像識(shí)別任務(wù)的基礎(chǔ)上,去掉最后的全連接層,對(duì)每個(gè)像素點(diǎn)屬于哪一個(gè)語(yǔ)義標(biāo)簽產(chǎn)生一個(gè)預(yù)測(cè)概率,F(xiàn)CN將圖像分類問(wèn)題轉(zhuǎn)換成了像素點(diǎn)分類問(wèn)題,是深度學(xué)習(xí)技術(shù)在圖像語(yǔ)義分割任務(wù)上的開(kāi)端,但是FCN仍然存在相同語(yǔ)義類分割不緊湊,不同語(yǔ)義類分界不明顯的問(wèn)題。DeepLab V1[2]根據(jù)目標(biāo)的大小來(lái)調(diào)整空洞卷積的空洞率,以達(dá)到調(diào)整感受野的目的。文獻(xiàn)[3]引入通道注意力機(jī)制,根據(jù)從高級(jí)特征中獲得的全局上下文信息將注意力集中到圖像的特定內(nèi)容,結(jié)合金字塔結(jié)構(gòu),不需要使用復(fù)雜的空洞卷積就可以提取密集特征,是一種新的特征融合方式。SegNet[4]引入編碼器-解碼器思想,在解碼器階段使用最大池化索引對(duì)特征圖進(jìn)行上采樣。
圖像語(yǔ)義分割模型在提取高級(jí)特征的過(guò)程中由于不斷的下采樣導(dǎo)致空間位置丟失,導(dǎo)致語(yǔ)義分割的效果較差,因此如何將具有空間信息的低級(jí)特征與高級(jí)特征進(jìn)行融合成為研究的重點(diǎn)。針對(duì)該問(wèn)題,本文提出聯(lián)合空間注意力模塊和通道注意力模塊融合并行路徑多級(jí)別特征的方法,以提高小目標(biāo)物體的分割效果。
本文主要有以下3方面的貢獻(xiàn):
(1)給出了一個(gè)空間注意力模塊,針對(duì)具有豐富位置信息的低級(jí)別特征圖,提取空間注意力矩陣來(lái)指導(dǎo)缺乏位置信息的高級(jí)特征圖;
(2)將提出的空間注意力模塊聯(lián)合通道注意力模塊,以融合具有不同級(jí)別特征的并行路徑;
(3)所提的利用空間和通道注意力模塊融合多級(jí)別特征構(gòu)造學(xué)習(xí)網(wǎng)絡(luò)的方法,對(duì)于小目標(biāo)和邊界具有良好分割效果。
CBAM[5]在通道注意力的基礎(chǔ)上引入空間注意力,結(jié)合了空間注意力和通道注意力機(jī)制;DANet[6]提出了一種新穎的對(duì)偶注意力網(wǎng)絡(luò),利用通道注意力模塊學(xué)習(xí)通道之間的相關(guān)依賴性,利用位置注意力模塊學(xué)習(xí)特征的空間依賴性,兩個(gè)模塊并行分布最后進(jìn)行加和。
針對(duì)空間位置信息大量丟失的問(wèn)題,BiSeNet[7]引入空間路徑,保持較高分辨率,保留更多的小目標(biāo)和邊界信息;DeepLab V1[2]模型引入空洞卷積解決高級(jí)特征位置信息大量丟失的問(wèn)題。
基于BiSeNet[7]的雙通道和CBAM[5]的空間注意力思想,本文提出利用空間注意力模塊(SAM)和通道注意力模塊(CAM)來(lái)融合具有低級(jí)別特征的空間信息路徑和具有高級(jí)別特征的語(yǔ)義信息路徑。
通道注意力模塊:在卷積神經(jīng)網(wǎng)絡(luò)中,每一層網(wǎng)絡(luò)會(huì)產(chǎn)生多個(gè)通道,若給每個(gè)通道上的信號(hào)都增加一個(gè)代表該通道與關(guān)鍵信息相關(guān)度的權(quán)重,那么權(quán)重越大,則表示相關(guān)度越高,借鑒文獻(xiàn)[5]的思想,本文的通道注意力模塊同時(shí)使用全局平均池化和全局最大池化來(lái)獲得最終的通道注意力向量,對(duì)語(yǔ)義信息路徑上的每層特征圖提取通道注意力向量,將提取到的通道注意力向量作用于語(yǔ)義信息路徑的相應(yīng)特征圖上,確定每層特征圖上需要重點(diǎn)關(guān)注的內(nèi)容。通道注意力模塊如圖1所示。
通道注意力模塊可用公式(1)表示:
(1)
公式(1)中的XSE表示語(yǔ)義信息路徑中每層輸出的特征圖,也是通道注意力模塊的輸入特征圖,CA(XSE)表示對(duì)特征圖XSE提取通道注意力向量。
語(yǔ)義信息路徑:圖1中的語(yǔ)義信息路徑采用預(yù)訓(xùn)練模型Resnet101作為主干網(wǎng)絡(luò),如表1所示,2X、4X、8X、16X、32X分別表示2倍、4倍、8倍、16倍、32倍下采樣。
表1 語(yǔ)義信息路徑網(wǎng)絡(luò)結(jié)構(gòu)列表
空間注意力模塊:考慮到圖像中空間位置信息的重要程度不同,本文引入空間注意力模塊,借鑒文獻(xiàn)[5]的思想,本文的空間注意力矩陣是在通道軸上聯(lián)合使用平均池化和最大池化獲得最后的空間注意矩陣,對(duì)具有豐富位置信息的空間信息路徑上的特征圖提取空間注意力矩陣,將提取到的空間注意力矩陣作用于語(yǔ)義信息路徑的相應(yīng)特征圖上??臻g注意力模塊如圖2所示。
圖2 空間注意力模塊
空間注意力矩陣可用下面的公式表示:
(2)
空間信息路徑:圖3中的空間信息路徑主要包含5個(gè)卷積層以及對(duì)應(yīng)的Batch Nornalization層、ReLU層,如表2所示。
表2 空間信息路徑網(wǎng)絡(luò)結(jié)構(gòu)列表
如圖3所示,首先針對(duì)具有高級(jí)別特征的語(yǔ)義信息路徑引入了通道注意力模塊,在Resnet101提取的特征圖上,顯式地建模通道之間的相互依存關(guān)系,確定每層特征圖上需要重點(diǎn)關(guān)注的內(nèi)容;其次針對(duì)具有低級(jí)別特征的空間信息路徑引入空間注意力模塊,在保留了豐富空間信息的特征圖上提取空間注意力矩陣,并將提取的空間注意力矩陣作用于語(yǔ)義信息路徑相應(yīng)特征圖,以確定需要重點(diǎn)關(guān)注的位置。
圖3 網(wǎng)絡(luò)概述圖
額外監(jiān)督:在主監(jiān)督的基礎(chǔ)上加入兩個(gè)輔助監(jiān)督,采用交叉熵函數(shù)計(jì)算損失。
(3)
公式(3)中的p和q分別是網(wǎng)絡(luò)的最終輸出預(yù)測(cè)圖中像素點(diǎn)的預(yù)期輸出和實(shí)際輸出,p1和q1、p2和q2分別是第一次、第二次進(jìn)行上下級(jí)特征融合后輸出的特征圖中像素點(diǎn)的預(yù)期輸出和實(shí)際輸出。
Loss=l0+l1+l2
(4)
SGD優(yōu)化器:初始學(xué)習(xí)率為0.1,動(dòng)量為0.9,為了防止過(guò)擬合,設(shè)置權(quán)重衰減率為5e-4.
(5)
公式(5)中Loss為模型的初始損失函數(shù),N為樣本數(shù),λ是正則項(xiàng)系數(shù)也就是權(quán)重衰減率,W為網(wǎng)絡(luò)中權(quán)重參數(shù)。權(quán)重更新方式為:
(6)
公式(6)中,W代表網(wǎng)絡(luò)中權(quán)重參數(shù),V代表速率,g代表梯度,ρ代表動(dòng)量,lr表示學(xué)習(xí)率。
CamVid數(shù)據(jù)集的實(shí)驗(yàn)環(huán)境是網(wǎng)上服務(wù)器GeFore RTX1080Ti,10G顯存。CamVid數(shù)據(jù)集共有701張城市街道圖,本文對(duì)數(shù)據(jù)集進(jìn)行處理,將其中的421張作為訓(xùn)練集,112張作為驗(yàn)證集,168張作為測(cè)試集,共有建筑物、行人、路面、圍欄、汽車(chē)、自行車(chē)手、樹(shù)、桿、指示牌等11個(gè)語(yǔ)義類,將圖像剪裁為352*352,批次大小設(shè)為5.
為了驗(yàn)證本文方法的有效性,設(shè)計(jì)了一種對(duì)比實(shí)驗(yàn)。依次從語(yǔ)義信息路徑的每一層的特征圖中提取通道注意和空間注意,然后對(duì)特征融合進(jìn)行上采樣,對(duì)于具有在空間信息路徑上具有位置信息的特征圖,不提取空間注意矩陣。
從表3可以看出,文本方法優(yōu)于對(duì)比方法。從圖4可以看出,本文方法對(duì)人行道,建筑物,道路,汽車(chē)和樹(shù)木等具有良好的分割效果。
表3 CamVid測(cè)試集上對(duì)比實(shí)驗(yàn)結(jié)果
圖4 CamVid測(cè)試集可視化效果圖
表4給出了本文方法與8種現(xiàn)有方法在11個(gè)語(yǔ)義類上的對(duì)比結(jié)果。觀察表4中的數(shù)據(jù),本文方法在自行車(chē),建筑,標(biāo)志符號(hào)等7個(gè)語(yǔ)義類上的精度都高于其他方法。在道路,行人,柱桿和天空等4個(gè)語(yǔ)義類上,本文方法精度稍低,但仍高于其他大部分方法。從整體指標(biāo)mAcc_class可以看出,本文方法在這11個(gè)語(yǔ)義類上具有良好的性能。
表4 各類方法在CamVid測(cè)試集11個(gè)語(yǔ)義類上的結(jié)果對(duì)比
本文方法與10種現(xiàn)有方法在CamVid測(cè)試集進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果如表5所示,在Mean IOU和Pixel Accuracy兩個(gè)評(píng)價(jià)指標(biāo)上,本文方法高于其他10種現(xiàn)有方法。
表5 各類方法在CamVid測(cè)試集上的結(jié)果
針對(duì)空間信息丟失和復(fù)用問(wèn)題,本文提出的融合空間和通道注意力多級(jí)別特征的圖像語(yǔ)義分割模型,保留了豐富的空間信息,并通過(guò)通道注意力模塊和空間注意力模塊對(duì)特征圖進(jìn)行了融合,提高了目標(biāo)物體的分割精度。但由于自動(dòng)駕駛領(lǐng)域?qū)τ趫D像語(yǔ)義分割具有實(shí)時(shí)性要求,因此接下來(lái)將在降低模型復(fù)雜度和提升實(shí)時(shí)性方面進(jìn)行研究和探索。