国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多維注意力融合的駕駛場景分割增強算法

2023-10-17 15:08:31劉奕晨章堅武胡晶
計算機應(yīng)用研究 2023年10期
關(guān)鍵詞:注意力機制

劉奕晨 章堅武 胡晶

摘 要:針對使用注意力機制的語義分割模型計算資源消耗與精度不平衡的問題,提出一種輕量化的語義分割注意力增強算法。首先,基于駕駛場景中物體的形狀特點設(shè)計了條狀分維注意力機制,使用條形池化代替?zhèn)鹘y(tǒng)方形卷積,并結(jié)合降維操作分維度提取長程語義關(guān)聯(lián),削減模型計算量。接著融合通道域與空間域上的注意力,形成可疊加與拆解的輕量化多維注意力融合模塊,全方位提取特征信息,進一步提升模型精度。最后,將模塊插入基于ResNet-101骨干網(wǎng)的編碼—解碼網(wǎng)絡(luò)中,指導(dǎo)高低層語義融合,矯正特征圖邊緣信息,補充預(yù)測細節(jié)。實驗表明,該模塊有較強的魯棒性和泛化能力,與同類型注意力機制相比,削減了約90%的參數(shù)量以及80%的計算量,且分割精度依舊取得了穩(wěn)定的提升。

關(guān)鍵詞:語義分割;注意力機制;條狀特征提?。欢嗑S注意力融合

中圖分類號:TP391 文獻標(biāo)志碼:A 文章編號:1001-3695(2023)10-046-3180-06

doi:10.19734/j.issn.1001-3695.2023.01.0014

Driving scene segmentation enhancement algorithm based on multidimensional attention fusion

Liu Yichen1,Zhang Jianwu1,Hu Jing2

(1.School of Communication Engineering,Hangzhou Dianzi University,Hangzhou 310018,China;2.Zhejiang Uniview Technologies Co.,Ltd.,Hangzhou 310051,China)

Abstract:To address the problem of unbalanced computational resource consumption and accuracy of semantic segmentation models using attention mechanism,this paper proposed a lightweight attention enhancement algorithm for semantic segmentation.Firstly,it designed a striped dimensional attention mechanism based on the shape characteristics of objects in driving scenes,used striped pooling instead of traditional square convolution,and combined dimensionality reduction operations to extract long-range semantic associations in each dimension to cut down the model computation.Then it fused the attention on channel domain and spatial domain to form a lightweight multidimensional attention fusion module that could be superimposed and disassembled to extract feature information in all directions and further improve the model accuracy.Finally,it inserted the module into the ResNet-101 backbone based encoding-decoding network to guide the semantic fusion of high and low layers,correct the feature map edge information,and supplement the prediction details.The experiments show that the module has strong robustness and generalization ability,cutting about 90% of the number of parameters and 80% of the computation compared with the same type of attention mechanism,and the segmentation accuracy still achieves a stable improvement.

Key words:semantic segmentation;attention mechanism;strip feature extraction;multi-dimensional attention fusion

0 引言

語義圖像分割是計算機視覺中的一項基本任務(wù)。傳統(tǒng)分割主要是通過提取圖片的低級特征然后進行分割,如閾值分割法[1,2]、邊緣檢測法[3,4]、區(qū)域分割法[5]等。這個階段一般是非監(jiān)督學(xué)習(xí),分割出來的結(jié)果缺少語義標(biāo)注?;谏疃葘W(xué)習(xí)的圖像語義分割能根據(jù)標(biāo)簽進行語義劃分,具有批量化處理和多分類的優(yōu)點,在各領(lǐng)域均取得了廣泛的應(yīng)用,如生物醫(yī)學(xué)[6]、無人機航拍[7]、圖像編輯[8]等。駕駛場景圖像語義分割是以城市街景圖像為研究對象理解城市內(nèi)復(fù)雜的街景及交通狀況,由此分析和獲取路況信息。該技術(shù)對于實現(xiàn)自動駕駛、機器人傳感和圖像處理等潛在的應(yīng)用領(lǐng)域具有重要意義。

全卷積網(wǎng)絡(luò)[9]基于現(xiàn)存的知名分類模型,將包括AlexNet、VGG-16、GoogLeNet、ResNet等模型進行了改進,使其更加適應(yīng)像素分類的要求。但由于固定的卷積核以及池化大小,模型缺乏上下文信息的交互能力。采用空洞卷積[10,11]在標(biāo)準(zhǔn)卷積中間填充0或者輸入等間隔采樣,在降采樣的同時保持分辨率,可以增加感受野且降低計算量,可以起到檢測分割大目標(biāo)以及精確定位目標(biāo)的作用。填充0的數(shù)量影響感受野大小,即捕獲多尺度上下文信息。金字塔結(jié)構(gòu)[12,13]也可以聚合不同尺度的信息,匯聚圖像的全局線索。

引入軟注意力機制也是增強上下文關(guān)聯(lián),建立像素遠程依賴的有效手段之一。自動駕駛公司Momenta在2017年公布了一種全新的圖像識別結(jié)構(gòu)SENet[14],其中的SE模塊通過全局平均池化獲得全局感受野,強調(diào)了不同通道的權(quán)重,證明了通道注意力對結(jié)果提升的必要性。Wang等人[15]提出的ECANet延續(xù)了該理論并提出一種不降維的局部跨信道交互策略,顯著降低了模型的復(fù)雜度。除此之外,許多研究也注意到了空間注意力可以加強同幀圖像像素間、不同幀像素間的關(guān)聯(lián)性。如CBAM[16]通過平均池化與最大池化結(jié)合捕捉空間注意力。非局部神經(jīng)網(wǎng)絡(luò)中的非局部塊[17]合并了除通道外的所有維度,通過點乘操作建立當(dāng)前像素間與其他所有像素間的關(guān)系。DANet[18]在此基礎(chǔ)上融合了通道域與空間域的注意力,更好地做到了分割的精確性。文獻[19]提出的基于多級疊加和注意力機制的圖像語義分割方法中,也使用了由通道和空間組成的注意力機制模塊來抑制無意義的特征。但是以上方法計算了每個像素間的關(guān)聯(lián)矩陣,使得占用的內(nèi)存大大增加,在實際應(yīng)用中存在一定的局限性。

為了有效捕捉遠距離上下文關(guān)系,并在提升精度的過程中簡化注意力機制的計算操作,本文基于駕駛場景提出一種條狀分維度注意力機制(strip partitioned dimensional attention,SPDA)。為了適應(yīng)場景中道路、高層建筑、路燈、柵欄等條狀物的分割,本文中用長條形池化核代替方形池化核,并在每個維度上將特征降維后單獨計算注意力,再進行后續(xù)融合。首先,在每個通道的特征圖上,利用條狀池化在圖像高度和寬度上分別進行了信息融合,再提取出該維度上的特征權(quán)重。在此基礎(chǔ)上,設(shè)計了結(jié)合通道域與空間域的多維注意力融合模塊(multi-attention fusion module,MAFM),將新的注意力機制應(yīng)用于高度和寬度并進行融合,保證每個維度信息的完整性。為了證明該模塊的有效性,本研究以DeepLab v3+編碼—解碼結(jié)構(gòu)為基礎(chǔ),將ResNet101作為骨干網(wǎng),構(gòu)建了MAFM與網(wǎng)絡(luò)融合后的多維注意力網(wǎng)絡(luò)結(jié)構(gòu)(multidimensional attention network,MANet)。實驗表明,加入MAFM后的網(wǎng)絡(luò)性能相比原網(wǎng)絡(luò)取得了有效的提升,是一種較為先進的注意力提取方法。

本文的貢獻如下:a)提出一種基于條狀池化的注意力機制,能更好地適應(yīng)駕駛場景中的目標(biāo)物體;b)設(shè)計了結(jié)合通道域與空間域的多維注意力融合模塊,在僅增加很小參數(shù)量的情況下融合了通道域和空間域的注意力;模塊的輕量化設(shè)計允許該模塊能夠插入各種網(wǎng)絡(luò)結(jié)構(gòu)中;c)提出了基于DeepLab v3+編解碼器結(jié)構(gòu)的融合網(wǎng)絡(luò)MANet,取得了更高質(zhì)量的圖像分割預(yù)測結(jié)果。

1 相關(guān)工作

DeepLab v3+[20]采用新的編碼—解碼結(jié)構(gòu),修復(fù)尖銳物體邊界,彌補了DeepLab v3[21]分割目標(biāo)的邊界信息丟失嚴(yán)重的問題。網(wǎng)絡(luò)分為編碼器和解碼器兩部分,如圖1所示。

DeepLab v3+編碼器沿用了DeepLab v3的結(jié)構(gòu),由骨干網(wǎng)絡(luò)和帶有空洞卷積的空間金字塔池化模塊(atrous spatial pyramid pooling,ASPP)組成。骨干網(wǎng)絡(luò)可以是任意的分類網(wǎng)絡(luò),研究者采用了改良的Xception網(wǎng)絡(luò),優(yōu)化了分割效果。

空間金字塔池化模塊結(jié)合了空洞卷積和金字塔池化結(jié)構(gòu),包含三個擴張率分別為6、12、18的3×3的空洞卷積和一個1×1卷積。擴張率和特征圖比例有關(guān),輸入圖像尺度和輸出特征圖尺度之比越大,空洞卷積的擴張率越大。實驗表明,該比例為8時分割效果最佳??傮w上,編碼器在增加了感受野的同時能夠進一步捕捉多尺度信息,功能更加精細全面。解碼器中包含兩次雙線性插值操作。首先將低層特征和高層特征按照通道維度進行拼接,其中低層特征通道數(shù)降維成48,高層通道數(shù)為256。再經(jīng)過兩次3×3卷積操作后恢復(fù)為原圖大小,得到像素級的預(yù)測。

和以往的工作不同,本文重點研究在基礎(chǔ)網(wǎng)絡(luò)架構(gòu)上設(shè)計一種全新的注意力機制,并在此基礎(chǔ)上提出一種輕量級注意力模塊,提供了一種輕量化語義分割網(wǎng)絡(luò)的新思路。

2 基于DeepLab v3+的多維注意力網(wǎng)絡(luò)框架

本章首先提出了條狀分維度注意力機制SPDA,闡述其具體實現(xiàn)方法,然后說明如何使用該機制設(shè)計多維注意力融合模塊MAFM。最后,將展示融合了該模塊的語義分割網(wǎng)絡(luò)結(jié)構(gòu)MANet,并說明模塊的先進性。

2.1 條狀分維注意力機制(SPDA)

為了簡化注意力的計算,本文提出一種條狀分維度注意力機制SPDA,分別提取每個通道輸入特征圖的高度和寬度上的注意力權(quán)重,便于后續(xù)在原特征圖上的融合。結(jié)構(gòu)如圖2所示。

由于池化核是條狀,該操作可以很方便地融合寬度上的長距離信息,整合出每個通道上的高度特征。與二維平均池不同,條狀池化使用一個條帶形狀的池化窗口沿水平維度或垂直維度執(zhí)行池化,對行或列中的所有特征值進行平均,是一個形狀為1×N或者N×1的池化核,N為當(dāng)前特征圖的長度或者寬度。條狀池化的優(yōu)點在于:首先,沿著一個空間維度部署一個長核形狀,從而能夠捕獲孤立區(qū)域的遠程關(guān)系;同時,它能在其他空間維度上保持一個狹窄的核形狀,便于捕獲局部上下文,防止不相關(guān)區(qū)域干擾標(biāo)簽預(yù)測。后續(xù)實驗也可以證明,相比傳統(tǒng)的方形卷積核與方形池化,條狀池化能很好地聚合單個維度上的全局信息,對于上下文跨度較大的目標(biāo)有較好的識別效果。輸出張量:

在過去的研究中,常用的方形池化具有空間域上下文局限性,而通道域注意力機制將特征分散到了各個通道中,不足以單獨表現(xiàn)其他兩個維度的特點。與過往研究相比,S~H能更加集中地描述高度特征在所有特征圖中的表現(xiàn),通過后續(xù)與寬度、通道特征的融合,分步驟強調(diào)了單個維度上各個元素的權(quán)重。同時,通過降維操作,sigmoid函數(shù)的空間復(fù)雜度從平方降低為線性,計算所需內(nèi)存更小。

2.2 多維注意力融合模塊(MAFM)

在注意力機制相關(guān)研究中,結(jié)構(gòu)大致可以分為通道注意力、空間注意力、混合注意力三類。通道注意力使用全局池化提取通道特征,參數(shù)量少,可用于各種輕量化語義分割網(wǎng)絡(luò)[22~24],但該操作忽略了像素本身的注意力,損失了分割細節(jié)。空間注意力通常與多尺度輸入、金字塔結(jié)構(gòu)結(jié)合,特征圖經(jīng)過不同尺寸卷積核擴大感受野,捕捉上下文關(guān)聯(lián)[25,26],精度高,但同時會引入大量計算?;旌献⒁饬ν瑫r結(jié)合通道和空間注意力,如DANet[18]將三通道鋪開至同一維度上,然后合并除通道數(shù)外的維度,進行矩陣點乘操作計算所有像素與所有像素之間的相似性,再與通道注意力融合。點乘操作對計算資源的消耗是巨大的,空間復(fù)雜度為(H×W)×(H×W)。CCNet[27]對此作出改進,將空間復(fù)雜度降為(H×W)×(H+W-1)。但因為涉及到循環(huán)操作,依舊存在一定計算量,所以,需要在計算資源與計算準(zhǔn)確率之間作出平衡。

本研究使用SPDA構(gòu)建MAFM模塊,對各維度分別進行特征提取,在此基礎(chǔ)上進行全局的注意力融合,可以減少二維卷積運算帶來的負(fù)擔(dān)。MAFM分為高度、寬度、通道三個分支,具體過程如圖3所示。

首先,和基于高度的注意力相同,可以運用SPDA計算得到寬度上的注意力權(quán)重X~W。同時,為了計算不同通道的特征權(quán)重,在通道域分支采用全局池化操作,輸出為

XC即獲取到的每個通道上W×H個元素的平均值,代表每個通道的特征映射,然后使用sigmoid函數(shù)計算每個通道的權(quán)值:

在得到高度、寬度、通道三個維度的權(quán)重分支后,構(gòu)建多維注意力融合模塊進行和原特征圖的融合模塊。

MAFM中,在空間域(高度和寬度)上對特征圖采取了連續(xù)兩次逐像素相乘的操作。加算會模糊單個維度上的表現(xiàn),因此,該階段基于高度和寬度的注意力分為兩個步驟進行乘算處理,以此放大單像素的注意力特征。首先,將帶有高度上的權(quán)值張量H與原特征圖X逐元素相乘,得到第一階段特征圖輸出Xatt_h。其次,將帶有寬度上的權(quán)值張量W與原特征圖X逐元素相乘,得到第二階段特征圖輸出:

最后,將第二階段得到的特征圖經(jīng)過一個3×3卷積的處理,進一步融合空間特征圖上的權(quán)重。設(shè)定輸出通道數(shù)為輸入的兩倍,得到空間域特征圖,然后與通道域分支的輸出XC結(jié)合:

Xatt為最終經(jīng)過MAFM輸出的特征圖。該模型整體參數(shù)量較小,計算相對簡單,可以靈活加入任意骨干網(wǎng)絡(luò)的任意部分。后續(xù)實驗對此進行了驗證。

2.3 插入MAFM的語義分割網(wǎng)絡(luò)(MANet)

MANet采用DeepLab v3+編碼—解碼器結(jié)構(gòu)。編碼器中用MAFM模塊計算目標(biāo)在空間域與通道域的權(quán)重,指導(dǎo)ASPP對不同特征尺度的特征圖進行融合,提升分割精確度。解碼器采用高層與低層信息融合的方式,通過低層信息矯正特征圖邊緣信息,并使用MAFM輔助細節(jié)還原。MANet整體結(jié)構(gòu)如圖4所示。

細節(jié)方面,在編碼器中,采用效果較好的ResNet101作為骨干網(wǎng),將第一層1個7×7卷積替換為3個3×3卷積,再將特征圖輸入后續(xù)網(wǎng)絡(luò)。對于高分辨率的輸入特征圖,該操作在保證相同感受野的前提下大幅度地減少參數(shù),使其本身帶有正則性質(zhì)的特征圖能夠更容易學(xué)一個可泛化的特征空間。ResNet101分為四組區(qū)塊,由于第三組區(qū)塊深度遠大于其余幾組,模型訓(xùn)練階段在第三組后加入輔助交叉熵?fù)p失,更好地監(jiān)督分割質(zhì)量,同時也可以一定程度加快網(wǎng)絡(luò)收斂。輔助交叉熵?fù)p失模塊結(jié)構(gòu)如圖5所示。

骨干網(wǎng)后連接的ASPP模塊結(jié)構(gòu)由四種不同采樣率的空洞卷積組成,能夠聚合多尺度信息,具有更大的感受野。為了節(jié)約計算資源,MAFM和ASPP的結(jié)合需要考慮通道數(shù)帶來的影響,特征圖輸入MAFM模塊前首先進行了通道數(shù)的調(diào)整。通道數(shù)越低,參數(shù)量越小,但同時降低通道數(shù)會影響分割效果。為了找到最合適的通道數(shù),在后續(xù)實驗中特別進行了對比實驗說明。之后, 將ASPP與MAFM特征圖融合并壓縮通道數(shù),綜合局部與全局的信息。MAFM相比DANet等骨干網(wǎng)串聯(lián)的空間—通道域注意力模塊擁有更小的計算量,允許多次并聯(lián)。

解碼器高層特征圖輸入大小為原特征圖的1/8,經(jīng)過一次上采樣后與骨干網(wǎng)第一層組輸出的底層特征圖進行通道融合。然后,經(jīng)過MAFM進一步處理通道融合后的特征圖,還原上采樣丟失的細節(jié)信息。最后,再次使用卷積并進行上采樣得到最終的輸出預(yù)測圖。

實驗注意到,MAFM的多次插入不會為網(wǎng)絡(luò)帶來過多的參數(shù)與計算量,并且可以對網(wǎng)絡(luò)性能進行有效提升。在本研究的模型訓(xùn)練部分,將提供更多的結(jié)果和對此的分析。

3 實驗與分析

為了評估模型性能,本研究基于城市景觀數(shù)據(jù)集進行了綜合實驗。在本章中,首先會介紹數(shù)據(jù)集和相關(guān)的實現(xiàn)細節(jié);然后針對核心模塊MAFM進行了多組對比實驗,包括在不同骨干網(wǎng)上添加MAFM模塊,不同輸入通道數(shù)時在編碼器和解碼器的不同位置上添加MAFM模塊,以及在城市駕駛場景的不同目標(biāo)上進行了分割精度的驗證;最后,將插入MAFM模塊形成的MANet分割結(jié)果進行了可視化,并與其他分割網(wǎng)絡(luò)進行對比,說明模型的有效性。

3.1 數(shù)據(jù)集介紹

實驗采用的數(shù)據(jù)集為針對自動駕駛開發(fā)的城市景觀數(shù)據(jù)集cityscapes[28]。這是一個大規(guī)模的關(guān)注于城市街道場景理解的數(shù)據(jù)集,以車載視角拍攝高分辨率圖片,包含50個城市不同場景、不同背景、不同季節(jié)的街景。有5 000張精細標(biāo)注數(shù)據(jù)以及20 000張粗糙標(biāo)注數(shù)據(jù)。本文采用精細標(biāo)注數(shù)據(jù)進行訓(xùn)練和測試,包括來自16個城市共2 975張訓(xùn)練圖,以及來自其他3個城市的500張測試圖。語義標(biāo)簽分為19類,每張圖像的分辨率為2 048×1 024。輸入網(wǎng)絡(luò)前,裁剪大小為768×768。為了避免過擬合,對數(shù)據(jù)集使用了隨機縮放、水平翻轉(zhuǎn)、高斯模糊、顏色抖動和圖像裁剪等方法進行數(shù)據(jù)增強。

3.2 優(yōu)化器

本研究采用SGD優(yōu)化器,初始學(xué)習(xí)率為0.01,動量為0.9,權(quán)重衰減為1E-4。采用多項式學(xué)習(xí)率衰減策略:

其中:lr為初始學(xué)習(xí)率;lrend為終止訓(xùn)練時的學(xué)習(xí)率,這里為0; sglobal和smax分別為當(dāng)前迭代次數(shù)和總迭代次數(shù),可以根據(jù)訓(xùn)練環(huán)境進行手動調(diào)整;power設(shè)置為0.9。研究使用兩個TITAN RTX-24 GB GPU進行訓(xùn)練,批次處理大小為4。

3.3 評估標(biāo)準(zhǔn)

評價指標(biāo)采用mIoU(平均交并比):

3.4 MAFM對比實驗

3.4.1 骨干網(wǎng)與MAFM的融合

在不同骨干網(wǎng)解碼器上添加MAFM模塊,以證明模塊的廣泛性。各網(wǎng)絡(luò)添加MAFM前后性能對比如表1所示。其中,Params代表模型參數(shù),用來衡量模型的大小。GMACs代表點乘運算量,用來衡量模型的復(fù)雜度。

實驗表明,單個MAFM模塊的引入給模型帶來的新參數(shù)不足1 M,在不同骨干網(wǎng)上均能取得一定提升。在ResNet101上,mIoU提升達到了1.18,同時點乘操作僅增加4.50%。

3.4.2 編解碼器與MAFM的融合

本研究采用ResNet101作為骨干網(wǎng),輸出步幅output_stride=8,研究MAFM插入網(wǎng)絡(luò)時不同輸入通道數(shù)k以及插入的不同位置對網(wǎng)絡(luò)性能的影響,在城市景觀數(shù)據(jù)集的驗證集上進行消融實驗。

在不同輸入通道數(shù)的實驗中,均采用MAFM模塊在編解碼器同時融合的情況,對64、128、256、512四種通道數(shù)進行了對比,實驗結(jié)果如表2所示。實驗表明,當(dāng)MAFM輸入通道數(shù)k為256時,模塊性能到達峰值,mIoU從79.58提升到81.01。

在不同位置添加MAFM的實驗中,分別研究了256輸入通道下編碼器融合、解碼器融合與同時融合三種情況,實驗結(jié)果如表3所示。

實驗發(fā)現(xiàn),每個位置均對網(wǎng)絡(luò)性能有所提升。從單個部位看,編碼器上加入MAFM時,參數(shù)量增加1.18 M,mIoU相比基線架構(gòu)從79.58%提升至80.51%;在解碼器上加入MAFM時,參數(shù)量比同條件下編碼器降低0.45 M,mIoU提升至80.76%。當(dāng)編碼器、解碼器同時和MAFM融合時,mIoU獲得了進一步提升,相比基線架構(gòu)提升1.53%,且疊加模塊時參數(shù)量增長為線性。這意味著在同一網(wǎng)絡(luò)中多次使用模塊時不會產(chǎn)生參數(shù)量爆炸性增長的情況。

3.4.3 MAFM對不同分割目標(biāo)的影響

表4展示了基線網(wǎng)絡(luò)添加MAFM模塊前后的語義分割結(jié)果,均使用城市景觀數(shù)據(jù)集的訓(xùn)練集訓(xùn)練,在驗證集上測試每個類別的詳細mIoU?;€網(wǎng)絡(luò)是以ResNet101作為骨干網(wǎng),將第一層1個7×7卷積替換為3個3×3卷積,并添加了輔助交叉熵?fù)p失的DeepLab v3+網(wǎng)絡(luò)。在其他類別準(zhǔn)確率沒有明顯下降的前提下,多維注意力融合模塊在提高柱狀、條狀物體的分割準(zhǔn)確率方面成效顯著。典型條狀物如柵欄,柱子分別取得了2.9%和1.8%的提升;墻體、交通燈、交通標(biāo)識、地面等形狀較為規(guī)則的物體也取得了優(yōu)秀的分割結(jié)果,較基線網(wǎng)絡(luò)分別提升了9.9%、2.0%、1.9%、1.8%。此外,“人”的分割結(jié)果也有所提升,如行人、騎行者,均在原有基礎(chǔ)上提升了1%;一些大面積分割目標(biāo)如道路、建筑、天空等基本與基線保持相同水平。

3.5 MANet可視化分析

為了說明MANet在城市駕駛場景中比起傳統(tǒng)語義分割網(wǎng)絡(luò)具有更好的應(yīng)用能力,對場景分割預(yù)測結(jié)果和分割邊緣分別進行了可視化實驗,并與DeepLab v3+的可視化結(jié)果進行比較。

場景分割預(yù)測可視化如圖6所示(改善明顯的區(qū)域已用紅框標(biāo)注,參見電子版)。由圖(a)可以看出,MANet上下文關(guān)聯(lián)度增強,分割結(jié)果更加明顯且完整,切割邊緣較基線更加平滑。由圖(b)可以看出,對于和背景混淆度較高的目標(biāo),由于MANet中多維注意力的加入,建立了長程語義關(guān)聯(lián),能夠更好地和背景實現(xiàn)分離,即使是比較細小的目標(biāo)物(如路標(biāo)桿、電線桿等)也能在像素級別上準(zhǔn)確捕捉到。圖(c)中的“植被”與“人行道”距離較近,形狀相似,且亮度較低,極易產(chǎn)生錯誤判斷,但MANet可以較為準(zhǔn)確地將兩者進行分割。由圖(d)可以說明,MANet還可以區(qū)別出重疊度較高的不同目標(biāo),如同一個區(qū)域中的“騎行者”與“行人”,而DeepLab v3+有概率產(chǎn)生混淆,可能會造成誤判,在駕駛場景中此類誤判往往會帶來安全隱患。

分割邊緣可視化如圖7所示,圖中線條越細、越光滑,說明分割效果越好。由圖中藍框部分可以看出,DeepLab v3+的分割存在塊狀缺失,當(dāng)目標(biāo)中間有遮擋時,可能會將一個目標(biāo)判斷成多個;本文的MANet分割邊緣精確度更高,修復(fù)了原網(wǎng)絡(luò)存在的較大面積分割錯誤,對于重疊和遮擋的魯棒性較強。

3.6 MANet性能對比

MANet和其他同樣使用注意力機制的網(wǎng)絡(luò)性能評估如表5所示,表中模型均采用ResNet-101作為骨干網(wǎng),輸入特征圖大小為4×3×768×768。

和以往注意力機制相比,許多注意力機制因為本身計算量過大的問題,只能采用深度卷積模型,以骨干網(wǎng)與注意力模塊串聯(lián)的方式輸出特征圖。DANet和CCNet以經(jīng)典的殘差網(wǎng)絡(luò)作為骨干網(wǎng),后接注意力分支,經(jīng)過特征融合得到輸出特征圖。該種結(jié)構(gòu)限制了注意力機制的作用位置,只能在網(wǎng)絡(luò)的特定位置插入并作用于網(wǎng)絡(luò)訓(xùn)練。而MANet中的注意力機制更趨近于模塊化,和DANet中的注意力方法相比,節(jié)約了約90%的參數(shù)量以及80%的計算量;在點乘量和CCNet保持同一數(shù)量級的基礎(chǔ)上,參數(shù)量削減約10倍,mIoU提升0.5%,且多個MAFM的疊加不會帶來計算量的指數(shù)增長。這意味著MAFM可以作為一種靈活調(diào)整的模塊應(yīng)用于各種網(wǎng)絡(luò)。

不同模型預(yù)測結(jié)果對比如表6所示。

模型均采用ResNet-101作為骨干網(wǎng)絡(luò),使用城市景觀數(shù)據(jù)集中的精細訓(xùn)練集訓(xùn)練。和其他使用相同骨干網(wǎng)的語義分割網(wǎng)絡(luò)相比,添加了MAFM后構(gòu)建的MANet在城市景觀數(shù)據(jù)集上取得了較為先進的結(jié)果。由此可見,在傳統(tǒng)注意力機制的思想基礎(chǔ)上,MAFM結(jié)構(gòu)的創(chuàng)新和計算資源的削減不會對語義分割的效果產(chǎn)生影響,并且取得了一定的提升,體現(xiàn)了良好的綜合性能。

4 結(jié)束語

本文提出了一種可作為駕駛場景分割應(yīng)用的語義分割增強算法。利用條狀分維度注意力機制分別得到特征圖高度和寬度上的注意力權(quán)重,并進行空間域和通道域上注意力的融合,形成輕量化的MAFM模塊。該模塊可以添加到不同骨干網(wǎng)的不同位置,在ResNet101上提升較高。模塊輸入通道數(shù)k為256時性能最好,且在編碼器與解碼器中同樣有效,說明了模塊的靈活性與廣泛性。最后展示的各網(wǎng)絡(luò)mIoU對比數(shù)據(jù)以及對特征圖的可視化表明,MAFM使用參數(shù)少,模型簡單,插入MAFM構(gòu)建的語義分割網(wǎng)絡(luò)MANet可以對遠程上下文依賴性較大的物體產(chǎn)生更好的預(yù)測結(jié)果,且綜合性能較為優(yōu)秀。一般的注意力機制為達到更高的準(zhǔn)確率,耗費計算資源大,網(wǎng)絡(luò)訓(xùn)練時間久,但是在駕駛等應(yīng)用場景中,計算速度與準(zhǔn)確率需要同時滿足一定要求。本研究目的在于緩解算力與精確度之間的矛盾,探究一種實用的注意力機制,并為語義分割網(wǎng)絡(luò)在應(yīng)用方面的研究打下基礎(chǔ)。

參考文獻:

[1]林正春,王知衍,張艷青.最優(yōu)進化圖像閾值分割算法[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2010,22(7):1202-1206.(Lin Zhengchun,Wang Zhiyan,Zhang Yanqing.Optimal evolution algorithm for image thresholding[J].Journal of Computer-Aided Design and Computer Graphics,2010,22(7):1202-1206.)

[2]Wang Shitong,Chung Fulai,Xiong Fusong.A novel image thresholding method based on Parzen window estimate[J].Pattern Recognition:the Journal of the Pattern Recognition Society,2008,41(1):117-129.

[3]季虎,孫即祥,邵曉芳,等.圖像邊緣提取方法及展望[J].計算機工程與應(yīng)用,2004,40(14):70-73.(Ji Hu,Sun Jixiang,Shao Xiaofang,et al.The algorithm for image edge detection and prospect[J].Computer Engineering and Applications,2004,40(14):70-73.)

[4]段瑞玲,李慶祥,李玉和.圖像邊緣檢測方法研究綜述[J].光學(xué)技術(shù),2005,31(3):415-419.(Duan Ruiling,Li Qingxiang,Li Yuhe.Summary of image edge detection[J].Optical Technique,2005,31(3):415-419.)

[5]Ronneberger O,F(xiàn)ischer P,Brox T.U-Net:convolutional networks for biomedical image segmentation[C]//Proc of International Conference on Medical Image Computing and Computer-Assisted Intervention.Cham:Springer,2015:234-241.

[6]張墺琦,亢宇鑫,武卓越,等.基于多尺度特征和注意力機制的肝臟組織病理圖像語義分割網(wǎng)絡(luò)[J].模式識別與人工智能,2021,34(4):375-384.(Zhang Aoqi,Kang Yuxin,Wu Zhuoyue,et al.Semantic segmentation network of pathological images of liver tissue based on multi-scale feature and attention mechanism[J].Pattern Recognition and Artificial Intelligence,2021,34(4):375-384.)

[7]Murali S,Govindan V K,Kalady S.Single image shadow removal by optimization using non-shadow anchor values[J].Computational Visual Media,2019,5(3):311-324.

[8]朱浩,谷小婧,藍鑫,等.基于多尺度輪廓增強的RGB-IR雙波段圖像語義分割算法[J].激光與紅外,2022,52(4):543-551.(Zhu Hao,Gu Xiaojing,Lan Xin,et al.RGB-IR semantic segmentation based on multi-scale edge enhancement[J].Laser and Infrared,2022,52(4):543-551.)

[9]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[J].Communications of the ACM,2017,60(6):84-90.

[10]Yu F,Koltun V.Multi-scale context aggregation by dilated convolutions[EB/OL].(2016-04-30)[2023-03-01].https://doi.org/10.48550/arXiv.1511.07122.

[11]Wang Panqu,Chen Pengfei,Yuan Ye,et al.Understanding convolution for semantic segmentation[C]//Proc of Winter Conference on Applications of Computer Vision.Piscataway,NJ:IEEE Press,2018:1451-1460.

[12]趙迪,孫鵬,陳奕博,等.基于高度有效驅(qū)動注意力與多層級特征融合的城市街景語義分割[J].光電子·激光,2022,33(10):1038-1046.(Zhao Di,Sun Peng,Chen Yibo,et al.Urban street view semantic segmentation based on height-driven effective attention and multi-stage feature fusion[J].Journal of Optoelectronics·Laser,2022,33(10):1038-1046.)

[13]Zhu Lanyun,Ji Deyi,Zhu Shiping,et al.Learning statistical texture for semantic segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:12537-12546.

[14]Hu Jie,Shen Li,Sun Gang.Squeeze-and-excitation networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2018:7132-7141.

[15]Wang Qilong,Wu Banggu,Zhu Pengfei,et al.ECA-Net:efficient channel attention for deep convolutional neural networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:11531-11539.

[16]Woo S,Park J,Lee J Y,et al.CBAM:convolutional block attention module[C]//Proc of European Conference on Computer Vision.Cham:Springer,2018:3-19.

[17]Wang Xiaolong,Girshick R,Gupta A,et al.Non-local neural networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:7794-7803.

[18]Fu Jun,Liu Jing,Tian Haijie,et al.Dual attention network for scene segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:3146-3154.

[19]蘇曉東,李世洲,趙佳圓,等.基于多級疊加和注意力機制的圖像語義分割方法[J/OL].計算機工程,2023.https://doi.org/10.19678/j.issn.1000-3428.0065940.(Su Xiaodong,Li Shizhou,Zhao Jiayuan,et al.Image semantic segmentation based on multi-level overlay and attention mechanism[J/OL].Computer Engineering,2023.https://doi.org/10.19678/j.issn.1000-3428.0065940.)

[20]Chen L C,Zhu Yukun,Papandreou G,et al.Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//Proc of European Conference on Computer Vision.Cham:Springer,2018:801-818.

[21]Chen L C,Papandreou G,Schroff F,et al.Rethinking atrous convolution for semantic image segmentation[EB/OL].(2017-12-05)[2023-03-01].https://doi.org/10.48550/arXiv.1706.05587.

[22]Yu Changqian,Wang Jingbo,Peng Chao,et al.BiSeNet:bilateral segmentation network for real-time semantic segmentation[C]//Proc of European Conference on Computer Vision.Cham:Springer,2018:325-341.

[23]Yu Changqian,Gao Changxin,Wang Jingbo,et al.BiSeNet v2:bilateral network with guided aggregation for real-time semantic segmentation[J].International Journal of Computer Vision,2021,129(11):3051-3068.

[24]Li Hanchao,Xiong Pengfei,F(xiàn)an Haoqiang,et al.DFANet:deep feature aggregation for real-time semantic segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Los Alamitos:IEEE Computer Society,2019:9522-9531.

[25]Yang Kailun,Zhang Jiaming,Rei S,et al.Capturing omni-range context for omnidirectional segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2021:1376-1386.

[26]梁新宇,權(quán)冀川,楊輝,等.多尺度特征提取和多層次注意力機制的迷彩偽裝目標(biāo)分割算法[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2022,34(5):683-692.(Liang Xinyu,Quan Jichuan,Yang Hui,et al.Ca-mouflage target segmentation algorithm using multi-Scale feature extraction and multi-level attention mechanism[J].Journal of Computer-Aided Design and Computer Graphics,2022,34(5):683-692.)

[27]Huang Zilong,Wang Xinggang,Huang Lichao,et al.CCNet:criss-cross attention for semantic segmentation[C]//Proc of IEEE/CVF International Conference on Computer Vision.Washington DC:IEEE Computer Society,2019:603-612.

[28]Cordts M,Omran M,Ramos S,et al.The cityscapes dataset for semantic urban scene understanding[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:3213-3223.

[29]Ma Ningning,Zhang Xiangyu,Zheng H T,et al.ShuffleNetV2:practical guidelines for efficient CNN architecture design[C]//Proc of European Conference on Computer Vision.Cham:Springer,2018:116-131.

[30]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual lear-ning for image recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:770-778.

[31]Zagoruyko S,Komodakis N.Wide residual networks[EB/OL].(2017-06-14)[2023-03-01].https://doi.org/10.48550/arXiv.1605.07146.

[32]Zhang Fan,Chen Yanqin,Li Zhihang,et al.ACFNet:attentional class feature network for semantic segmentation[C]//Proc of IEEE/CVF International Conference on Computer Vision.Washington DC:IEEE Computer Society,2019:6798-6807.

[33]Li Xiangtai,You Ansheng,Zhu Zhen,et al.Semantic flow for fast and accurate scene parsing[C]//Proc of European Conference on Computer Vision.Cham:Springer,2020:775-793.

[34]Choi S,Kim J T,Choo J.Cars cant fly up in the sky:improving urban-scene segmentation via height-driven attention networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition.Washington DC:IEEE Computer Society,2020:9370-9380.

收稿日期:2023-01-08;修回日期:2023-03-06基金項目:國家自然科學(xué)基金資助項目(U1866209,61772162)

作者簡介:劉奕晨(1998-),女,浙江杭州人,碩士,主要研究方向為計算機視覺、人工智能圖像處理;章堅武(1961-),男(通信作者),浙江杭州人,博導(dǎo),博士,主要研究方向為移動通信、多媒體信號處理與人工智能、通信網(wǎng)絡(luò)與信息安全(jwzhang@hdu.edu.cn);胡晶(1982-),女,浙江宇視科技有限公司高級工程師,總裁辦主任,主要研究方向為人工智能、物聯(lián)網(wǎng).

猜你喜歡
注意力機制
基于注意力機制的行人軌跡預(yù)測生成模型
多特征融合的中文實體關(guān)系抽取研究
基于注意力機制和BGRU網(wǎng)絡(luò)的文本情感分析方法研究
從餐館評論中提取方面術(shù)語
基于深度學(xué)習(xí)的手分割算法研究
基于序列到序列模型的文本到信息框生成的研究
面向短文本的網(wǎng)絡(luò)輿情話題
基于自注意力與動態(tài)路由的文本建模方法
基于深度學(xué)習(xí)的問題回答技術(shù)研究
基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
景东| 临漳县| 罗定市| 宁晋县| 临潭县| 石首市| 台北县| 郧西县| 大埔区| 奉贤区| 泾源县| 黄浦区| 锦屏县| 扶余县| 旺苍县| 廊坊市| 集贤县| 达拉特旗| 将乐县| 于都县| 姜堰市| 灌南县| 喀喇沁旗| 河西区| 九龙县| 沈丘县| 阜阳市| 专栏| 平潭县| 定日县| 宁国市| 武强县| 内黄县| 彩票| 永定县| 贡嘎县| 东港市| 滕州市| 普兰店市| 高青县| 神农架林区|