国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于語(yǔ)義傳播與前/背景感知的圖像語(yǔ)義分割網(wǎng)絡(luò)

2022-02-17 05:56劉漳輝占小路陳羽中
模式識(shí)別與人工智能 2022年1期
關(guān)鍵詞:集上卷積語(yǔ)義

劉漳輝 占小路 陳羽中

圖像語(yǔ)義分割或場(chǎng)景解析是計(jì)算機(jī)視覺(jué)中長(zhǎng)期存在且充滿挑戰(zhàn)的基礎(chǔ)任務(wù).它的基本目標(biāo)是對(duì)給定圖像中每個(gè)像素都分配一個(gè)對(duì)應(yīng)語(yǔ)義類別的標(biāo)簽,最后得到對(duì)應(yīng)類別的分割圖,因此圖像分割也可看作是像素級(jí)的分類任務(wù),是細(xì)粒度最小的圖像語(yǔ)義理解任務(wù).精準(zhǔn)高效的圖像語(yǔ)義分割算法能幫助人們更好地分析和理解圖像,廣泛應(yīng)用于自動(dòng)駕駛、醫(yī)療診斷、圖像生成、圖像編輯、增強(qiáng)現(xiàn)實(shí)等諸多領(lǐng)域.

隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,學(xué)者們提出一些基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的圖像語(yǔ)義分割算法.全卷積神經(jīng)網(wǎng)絡(luò)(Fully CNN, FCN)[1]將完全卷積用于語(yǔ)義分割,將分類網(wǎng)絡(luò)的全連接層替換成卷積層,有效地進(jìn)行端到端訓(xùn)練,輸入圖像大小不受限制,產(chǎn)生對(duì)應(yīng)大小的密集預(yù)測(cè),實(shí)現(xiàn)像素級(jí)別的分類預(yù)測(cè).此后,研究者們提出一系列基于FCN的改進(jìn)算法,在圖像語(yǔ)義分割任務(wù)上取得一定進(jìn)展.但是,由于FCN通過(guò)堆疊卷積與池化操作提取特征,圖像分辨率不斷下降,出現(xiàn)位置信息的損失.此外,受到感受野的限制,容易出現(xiàn)錯(cuò)誤的上下文信息聚合,難以適應(yīng)包括存在多類別的場(chǎng)景在內(nèi)的一些復(fù)雜場(chǎng)景.因此,圖像語(yǔ)義分割研究的重點(diǎn)在于上下文關(guān)系建模及解決分辨率重建問(wèn)題.

針對(duì)上下文關(guān)系建模,早期的研究工作主要通過(guò)概率圖模型描述像素之間的關(guān)系,如條件隨機(jī)場(chǎng)[2]和馬爾科夫隨機(jī)場(chǎng)[3].針對(duì)前端-后端結(jié)構(gòu),前端采用深度神經(jīng)網(wǎng)絡(luò)(Deep CNN, DCNN)進(jìn)行特征提取,后端使用概率圖模型提取像素間的依賴關(guān)系.但是,由于模型多在離散的標(biāo)簽空間中進(jìn)行建模,計(jì)算代價(jià)高昂.還有一些方法在骨干網(wǎng)絡(luò)后通過(guò)金字塔聚合或注意力機(jī)制捕獲上下文關(guān)系.基于金字塔聚合的方法主要通過(guò)池化操作或空洞卷積操作獲得更大范圍的上下文信息,進(jìn)而融合多尺度特征的上下文信息,得到更有鑒別力的特征.Zhao等[4]提出PSPNet(Pyramid Scene Parsing Network),使用空間金字塔池化模塊(Spatial Pyramid Pooling, SPP),通過(guò)不同網(wǎng)格大小的池化操作捕獲多尺度的上下文信息.Chen等[5]提出DeeplabV3,使用空洞空間金字塔池化模塊(Atrous SPP, ASPP),通過(guò)并行多個(gè)不同空洞率的空洞卷積獲得多尺度特征圖.Yang等[6]提出DenseASPP(Densely Connected ASPP),使用密集連接的帶孔金字塔池化模塊,結(jié)合DenseNet(Dense Convolutional Network)[7]與ASPP模塊,有效增大特征的感受野,獲得更大范圍的上下文信息.

雖然特征金字塔能收集豐富的上下文信息,但未對(duì)上下文信息的重要性進(jìn)行有效區(qū)分,忽略前景與背景上下文之間的依賴關(guān)系,影響構(gòu)建特征的類別區(qū)分能力.此外,人類在觀察前景目標(biāo)時(shí)不僅依賴局部信息辨別前景目標(biāo)的準(zhǔn)確類別,還會(huì)與背景進(jìn)行對(duì)比,以突出前景目標(biāo).近年來(lái),基于注意力機(jī)制的方法廣泛應(yīng)用于包括圖像語(yǔ)義分割在內(nèi)的各種計(jì)算機(jī)視覺(jué)任務(wù)中.該機(jī)制的主要思想是通過(guò)一個(gè)注意力圖對(duì)特征進(jìn)行有選擇的增強(qiáng),即將注意力更多地放在感興趣的區(qū)域內(nèi).受SENet(Squeeze and Excitation Networks)[8]的啟發(fā),Zhang等[9]提出EncNet(Context Encoding Network),使用上下文編碼模塊,從編碼的語(yǔ)義中生成一個(gè)加權(quán)向量,有選擇地突出與類別相關(guān)的特征.Wang等[10]提出Non_local(Non-local Neural Networks),利用自注意力機(jī)制建模每個(gè)像素間的依賴關(guān)系,突破感受野的限制,捕獲長(zhǎng)距離的依賴關(guān)系.Fu等[11]提出DANet(Dual Attention Network),從空間與通道兩個(gè)角度構(gòu)建兩個(gè)注意力模塊,并行建模像素間的語(yǔ)義相互依賴關(guān)系,融合兩個(gè)注意力模塊的輸出,進(jìn)一步增強(qiáng)特征的表示能力.

自注意力機(jī)制存在計(jì)算復(fù)雜度較高且有大量冗余計(jì)算的問(wèn)題.一些優(yōu)化方法,如CCNet(Criss-Cross Network)[12]、EMANet(Expectation-Maximization Atten-tion Networks)[13]、ANNet(Asymmetric Non-local Neural Networks)[14],降低計(jì)算復(fù)雜度,其核心思想是優(yōu)化采樣點(diǎn),避免在整個(gè)圖像上建立注意力圖.此外,一些方法聚焦于提取各類上下文關(guān)系,如ACFNet(Attentional and Class Feature Network)[15]、OCRNet(Object-Contextual Representations-Network)[16]等,引入像素和類別之間的依賴關(guān)系,豐富上下文信息.

隨著圖神經(jīng)網(wǎng)絡(luò)的發(fā)展,研究者們采用圖卷積捕獲更廣泛的上下文信息.Chen等[17]提出GloRe-Net(Graph-Based Global Reasoning Networks),將坐標(biāo)空間的像素級(jí)特征聚合到交互空間,再進(jìn)行有效的關(guān)系推理,最后在反投影回原始坐標(biāo)空間,以圖卷積的方式有效建模遠(yuǎn)區(qū)域之間的關(guān)系.Wu等[18]提出GINet(Graph Interaction Network),利用圖交互單元,以類別的文本形式提取語(yǔ)義概念,通過(guò)視覺(jué)圖和語(yǔ)義圖的交互更新每個(gè)像素特征的信息.

針對(duì)分辨率重建問(wèn)題,大多數(shù)研究者采用空洞卷積[19]或編解碼結(jié)構(gòu).基于空洞卷積的模型主要在骨干網(wǎng)絡(luò)中以空洞卷積替代原有的卷積操作,從而維持圖像的分辨率.此類方法未引入額外參數(shù),但高分辨率的特征圖顯著增加內(nèi)存消耗與計(jì)算復(fù)雜度,限制模型的應(yīng)用范圍.基于編解碼結(jié)構(gòu)的模型通過(guò)聚合編碼器的多層次特征逐步恢復(fù)分辨率,在恢復(fù)過(guò)程中不斷進(jìn)行上采樣及特征融合操作.Ronne-berger等[20]提出U-Net,每次進(jìn)行2倍上采樣直至恢復(fù)原分辨率.Noh等[21]提出DeconvNet(Learning Deconvolution Network),通過(guò)堆疊反卷積層,逐步恢復(fù)原圖大小.但是,上述模型引入大量參數(shù),增大訓(xùn)練難度.Wu等[22]提出FastFCN,使用聯(lián)合金字塔上采樣方法,通過(guò)多并行空洞卷積生成高分辨率的特征圖.Tian等[23]提出DUsampling,使用數(shù)據(jù)依賴上采樣方法,學(xué)習(xí)重構(gòu)矩陣以最小化真實(shí)標(biāo)簽與壓縮標(biāo)簽的誤差,再使用重構(gòu)矩陣對(duì)特征進(jìn)行上采樣.特征融合操作多采用普通的加法或拼接操作.由于高層特征包含豐富的語(yǔ)義信息,缺少空間的細(xì)節(jié)信息,低層特征則相反,因此,對(duì)高層特征與低層特征進(jìn)行簡(jiǎn)單的相加與拼接操作無(wú)法得到高質(zhì)量的特征.

針對(duì)上述問(wèn)題,本文提出基于語(yǔ)義傳播與前/背景感知的圖像語(yǔ)義分割網(wǎng)絡(luò)(Image Segmantic Seg-metation Network Based on Semantic Propagation and Fore-Background Aware, SPAFBA).首先,提出聯(lián)合語(yǔ)義傳播上采樣模塊(Joint Semantic Propagation Up-Sampling Module, JSPU),提取高層特征的全局語(yǔ)義信息與局部語(yǔ)義信息,得到語(yǔ)義權(quán)重,將高層特征語(yǔ)義傳播到低層特征,縮小兩者之間的語(yǔ)義差距,再通過(guò)逐層上采樣實(shí)現(xiàn)分辨率重構(gòu).此外,還提出金字塔前/背景感知模塊(Pyramid Fore-Background Aware Module, PFBA),通過(guò)兩個(gè)并行分支提取不同尺度的前景特征與背景特征,建立前景與背景間的依賴關(guān)系,捕獲多尺度的前/背景感知特征,增強(qiáng)前景特征的上下文表示.語(yǔ)義分割基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)表明,SPAFBA性能較優(yōu).

1 基于語(yǔ)義傳播與前/背景感知的圖像語(yǔ)義分割網(wǎng)絡(luò)

1.1 模型框架

本文提出基于語(yǔ)義傳播與前/背景感知的圖像語(yǔ)義分割網(wǎng)絡(luò)(SPAFBA),整體框圖如圖1所示.

圖1 SPAFBA整體框圖Fig.1 Overall framework of SPAFBA

SPAFBA主要由深度卷積神經(jīng)網(wǎng)絡(luò)模塊(DCNN)、聯(lián)合語(yǔ)義傳播上采樣模塊(JSPU)、金字塔前/背景感知模塊(PFBA)及預(yù)測(cè)層4個(gè)模塊組成.DCNN是整個(gè)模型的入口,遵循典型的神經(jīng)網(wǎng)絡(luò)設(shè)計(jì),也稱為主干網(wǎng)絡(luò).DCNN輸出一個(gè)低分辨率、攜帶豐富語(yǔ)義信息的特征圖.JSPU旨在獲取具有高分辨率和豐富語(yǔ)義信息的特征,輸出3個(gè)具有相同大小的特征圖,分別包含不同級(jí)別的語(yǔ)義特征.PFBA以JSPU輸出的3個(gè)特征圖的連接作為模塊的輸入,捕獲前景特征和背景特征之間的依賴關(guān)系,并增強(qiáng)前景特征的上下文表示,得到像素鑒別能力更強(qiáng)的特征圖.預(yù)測(cè)層通過(guò)Softmax激活函數(shù)生成類標(biāo)簽上的概率分布,預(yù)測(cè)目標(biāo)類別.

1.2 深度卷積神經(jīng)網(wǎng)絡(luò)模塊

深度卷積神經(jīng)網(wǎng)絡(luò)通過(guò)不斷堆疊卷積與池化操作,并使用殘差連接加深網(wǎng)絡(luò)的深度,提取豐富的特征表示.SPAFBA使用ResNet101作為骨干網(wǎng)絡(luò).ResNet101分為5層,每層對(duì)應(yīng)于1個(gè)輸出,分辨率逐層減小為1/2倍,最后一層輸出原圖縮小32倍的特征圖.另外,為了減少參數(shù)和計(jì)算量,使用3個(gè)3×3卷積替換骨干網(wǎng)絡(luò)第1層中的7×7卷積.

1.3 聯(lián)合語(yǔ)義傳播上采樣模塊

語(yǔ)義分割模型通常采用分類模型作為骨干網(wǎng)絡(luò),如ResNet系列、EfficientNet系列.分類網(wǎng)絡(luò)對(duì)于分辨率的要求并不高,作為骨干網(wǎng)絡(luò)時(shí),最后輸出尺寸通常為原圖的1/32.但是,語(yǔ)義分割任務(wù)是密集的逐像素預(yù)測(cè)任務(wù),最終輸出需恢復(fù)為原圖大小,因此輸出的分辨率大小嚴(yán)重影響模型性能.目前,大多數(shù)模型采用空洞卷積的方法維持特征的分辨率,雖然能維持特征的分辨率,但需要更大的內(nèi)存消耗及計(jì)算資源.因此,SPAFBA提出聯(lián)合語(yǔ)義傳播模塊,不采用空洞卷積的方法,而是從骨干網(wǎng)絡(luò)后三層的輸出中逐步恢復(fù)空間信息.

另外,高層特征分辨率較低,通常含有豐富的語(yǔ)義信息,對(duì)類別預(yù)測(cè)更具有區(qū)分性,但缺乏空間位置信息.低層特征則分辨率較高,含有更多細(xì)粒度結(jié)構(gòu)的信息,但缺乏語(yǔ)義表征能力.充分結(jié)合這兩種特征的優(yōu)勢(shì)是實(shí)現(xiàn)精準(zhǔn)語(yǔ)義分割的基礎(chǔ).

SPAFBA在恢復(fù)空間信息時(shí)還抽取高層特征的語(yǔ)義信息,用于增強(qiáng)低層特征的語(yǔ)義表示.首先,高層特征通過(guò)上采樣操作實(shí)現(xiàn)空間信息的補(bǔ)充,再利用2個(gè)分支分別捕獲全局語(yǔ)義權(quán)重及局部語(yǔ)義權(quán)重.全局語(yǔ)義分支先通過(guò)1個(gè)全局平均池化操作,得到C×1×1(C為通道個(gè)數(shù))的全局語(yǔ)義向量,通過(guò)2個(gè)1×1卷積進(jìn)行權(quán)重學(xué)習(xí),前一個(gè)卷積進(jìn)行通道縮減以減少計(jì)算,后一個(gè)卷積恢復(fù)成原有通道大小.局部語(yǔ)義分支通過(guò)2個(gè)簡(jiǎn)單的1×1卷積學(xué)習(xí)局部語(yǔ)義權(quán)重.與全局語(yǔ)義分支相同,前一個(gè)卷積進(jìn)行通道縮減以減少計(jì)算.將全局語(yǔ)義分支與局部語(yǔ)義分支學(xué)習(xí)的全局語(yǔ)義及局部語(yǔ)義權(quán)重相加,經(jīng)過(guò)Sigmoid函數(shù)激活后,得到高層特征的語(yǔ)義表示.之后,通過(guò)與低層特征進(jìn)行逐像素乘法,將語(yǔ)義信息傳入低層,增強(qiáng)低層特征的語(yǔ)義表示.為了利用殘差結(jié)構(gòu)的優(yōu)勢(shì),模塊通過(guò)連接的方式融合增強(qiáng)后的低層特征與原低層特征,得到具有魯棒性的輸出特征:

t=T(l,h)=

l+l·sigmoid(F(pooling(h);θ,μ)+F(h;φ,ω)),(1)

其中,T(·)為語(yǔ)義傳播函數(shù),l為低層特征輸入,具有相同維度,h為高層特征輸入,pooling(·)為最大池化操作,F(xiàn)(·)為分支結(jié)構(gòu),θ、μ、φ、ω為卷積操作.

聯(lián)合語(yǔ)義傳播上采樣模塊的逐級(jí)傳播結(jié)構(gòu)如圖1左下角所示,最左側(cè)3個(gè)特征為骨干網(wǎng)絡(luò)最后三層的輸出,分別記為C3、C4、C5.不同于經(jīng)典的以Top-Down方式逐步恢復(fù)分辨率的U-Net或FPN(Fea-

ture Pyramid Network),JSPU模塊的上采樣結(jié)構(gòu)類似三角形,同一階段考慮每?jī)蓚€(gè)相鄰特征,并逐漸上升到頂部.

在第一階段中,C5與C4進(jìn)行一次語(yǔ)義傳播,得到輸出特征:

C54=C5⊕T(C4,C5),

其中,T(·)如式(1)函數(shù),⊕為逐像素加法.同時(shí)C4與C3進(jìn)行一次語(yǔ)義傳播,得到特征:

C43=C3⊕T(C3,C4).

此時(shí)C43包含C4的語(yǔ)義信息,減少與C54之間的語(yǔ)義差異.相比而言,Top-Down結(jié)構(gòu)得到C54后直接與C3進(jìn)行傳播,兩者語(yǔ)義差距較大,并且可能隨著不斷傳遞造成語(yǔ)義丟失問(wèn)題.但是,JSPU模塊提出的上采樣結(jié)構(gòu)通過(guò)每?jī)蓚€(gè)鄰近特征傳遞語(yǔ)義信息,較好地解決語(yǔ)義丟失問(wèn)題.在第二階段中,C54與C43再進(jìn)行一次傳播,得

C543=C54⊕T(C43,C54).

此時(shí)C543分辨率為原圖的1/8,并且結(jié)合三層特征的語(yǔ)義.最后將C3、C43、C543按通道維度拼接,得到JSPU模塊最后的輸出特征:

Xout=concat(ω(C3),C43,C543),

其中,ω為3×3卷積操作,concat表示按通道拼接.Xout空間維度與C3相同,通道維度為C3通道數(shù)的3倍.注意到C3經(jīng)過(guò)3×3卷積層提取更細(xì)粒度的特征表示.另外,C4作為整個(gè)傳播的中間特征,語(yǔ)義表示能力會(huì)影響整個(gè)模型性能.因此,SPAFBA在C4處增加一個(gè)輔助監(jiān)督以確保其表征能力.

JSPU模塊結(jié)構(gòu)如圖2所示.

圖2 JSPU模塊結(jié)構(gòu)圖Fig.2 Structure of JSPU

1.4 金字塔前/背景感知模塊

研究表明,上下文信息有利于模型性能的提升,SPAFBA模仿人類觀察辨別事物的方式,建立前景與背景之間的上下文依賴關(guān)系,更好地識(shí)別前景信息,增強(qiáng)前景特征的類別識(shí)別能力.由于圖像中相鄰像素可能屬于不同類別,空間區(qū)分對(duì)于前景環(huán)境至關(guān)重要.SPAFBA使用空洞卷積捕捉前景的上下文,空洞卷積可提供更大的感受野以捕獲空間上更遠(yuǎn)的上下文信息.對(duì)于背景,由于背景通常是由一些像素作為一整個(gè)區(qū)域的代表,無(wú)需進(jìn)行空間區(qū)分,故采用池化方法捕捉背景的上下文信息.

PFBA通過(guò)4個(gè)不同空洞率的空洞卷積得到4個(gè)不同尺度的前景特征:

fi=atrous(Xout;ri),i=1,2,3,4,

其中,空洞率r1=1,r2=6,r3=12,r4=18,Xout為上一模塊的輸出,atrous為空洞卷積操作.由此得到前進(jìn)特征集合:

F={f1,f2,f3,f4}.

背景特征由最大池化分支及平均池化分支獲得,注意在每次池化操作后都經(jīng)過(guò)一個(gè)堆疊的由1×1卷積、批量歸一化層(Batch Normalization, BN)及ReLU激活函數(shù)構(gòu)成的卷積層.經(jīng)過(guò)2個(gè)分支可得到2組不同含義的背景特征:

AB={Flat(ab1),Flat(ab2),Flat(ab3),Flat(ab4)},

MB={Flat(mb1),Flat(mb2),Flat(mb3),Flat(mb4)},

其中,

mbi=ρi(Mpool(Xout;bi)),i=1,2,3,4,

abj=τj(Apool(Xout;bj)),j=1,2,3,4,

Flat為按空間平鋪展開(kāi)操作,Apool為平均池化操作,Mpool為最大池化操作,ρi、τj為1×1卷積操作,背景劃分區(qū)域b1=1,b2=2,b3=3,b4=6.最大池化分支重視全局背景特征,平均池化側(cè)重局部背景特征,再將其按空間平鋪展開(kāi)并拼接,得到最后的背景特征:

B=concat(AB,MB),

其中concat為拼接操作.

基于前景特征與背景特征,PFBA提出前/背景感知特征(Fore-Background Aware Feature)的概念,用于表示經(jīng)過(guò)前景-背景關(guān)系圖增強(qiáng)后的前/景特征.前/背景感知特征中的每個(gè)像素能自適應(yīng)獲得不同背景上下文依賴關(guān)系.首先對(duì)于背景特征B′按空間維度展開(kāi)為C×S矩陣,其中S為背景區(qū)域個(gè)數(shù).前景特征經(jīng)過(guò)一個(gè)空洞卷積之后獲得三維特征D∈RC×H×W.為了獲得前/背景的關(guān)系圖,將前景特征D維度轉(zhuǎn)換為C×N,其中N=H×W,將其轉(zhuǎn)置后與背景特征進(jìn)行矩陣乘法,并通過(guò)softmax函數(shù)激活,得到前/背景依賴關(guān)系圖M∈RN×S,前景特征第i個(gè)位置與第j個(gè)背景區(qū)域之間的依賴關(guān)系表示如下:

其中,·為點(diǎn)積運(yùn)算,通過(guò)指數(shù)映射放大關(guān)系差異.

PFBA對(duì)關(guān)系圖M進(jìn)行線性插值,將S個(gè)背景區(qū)域擴(kuò)成N個(gè),即由原來(lái)的N×S對(duì)關(guān)系增加到N×N對(duì)關(guān)系,以擴(kuò)充前景特征的視野,得到更豐富的上下文對(duì)比信息.最后的前/背景依賴關(guān)系圖為

M=?(D,B′)=Interpolation(softmax(DT×B′)),

其中,?為獲取前/背景依賴關(guān)系圖函數(shù),Interpola-tion為線性插值操作.

最后,為了捕獲多尺度的前/背景感知特征,4個(gè)前景特征共享同一個(gè)背景特征,將前景特征集合F中的每個(gè)前景特征依次與背景特征B通過(guò)?(·)函數(shù)建立依賴關(guān)系,再通過(guò)矩陣乘法對(duì)前景特征加權(quán),并將結(jié)果重塑,得到由4個(gè)前/背景感知組成的集合:

A={A1,A2,A3,A4}=f+α(f·?(f,B)),

其中,f∈F,α初始值置為0,通過(guò)模型學(xué)習(xí)得到一個(gè)分配權(quán)重.

此外,PFBA包括一個(gè)全局池化分支,由全局平均池操作、1×1卷積和雙線性插值組成,用于捕獲全局上下文信息.PFBA將4個(gè)前/背景感知特征與全局特征按通道維度進(jìn)行拼接,并使用1×1卷積縮減通道,同時(shí)加入失活層保證模型的泛化能力.通過(guò)融合全局特征與多尺度前/背景感知特征,獲得鑒別能力較強(qiáng)的語(yǔ)義特征圖,即PFBA模塊最后的輸出特征:

Eout=concat(A,glo_pool(Xout)),

其中g(shù)lo_pool為全局池化分支操作.

PFBA模塊結(jié)構(gòu)圖如圖3所示.

圖3 PFBA模塊結(jié)構(gòu)圖Fig.3 Structure of PFBA

1.5 預(yù)測(cè)層

預(yù)測(cè)層以金字塔前/背景特征感知模塊的輸出作為輸入,通過(guò)一個(gè)卷積層將通道輸出縮減至總的分類個(gè)數(shù),再通過(guò)雙線性插值上采樣兩倍恢復(fù)成原圖大小,得到最終的分割預(yù)測(cè)圖.采用像素交叉熵?fù)p失應(yīng)用于最終的分割預(yù)測(cè),通過(guò)最小化模型的損失值訓(xùn)練模型.另外,除了最終的預(yù)測(cè)損失,SPAFBA對(duì)骨干網(wǎng)絡(luò)第4層的輸出進(jìn)行監(jiān)督.最終損失為

Ltotal=Lmain+αLaux,

其中,Lmain為最終預(yù)測(cè)損失,Laux為輔助監(jiān)督損失,α為輔助損失的加權(quán)參數(shù).

2 實(shí)驗(yàn)及結(jié)果分析

2.1 實(shí)驗(yàn)數(shù)據(jù)集

本文在PASCAL_VOC2012、PASCAL-Context、ADE20K數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn).PASCAL_VOC2012數(shù)據(jù)集是一個(gè)廣泛使用的語(yǔ)義分割基準(zhǔn)數(shù)據(jù)集,包含20個(gè)前景目標(biāo)類別和1個(gè)背景類,分為3個(gè)子集,訓(xùn)練集包括1 464幅圖像,驗(yàn)證集包括1 449幅圖像,測(cè)試集包括1 456幅有精細(xì)分割標(biāo)注的圖像.本文使用由SBD數(shù)據(jù)集提供的額外數(shù)據(jù)擴(kuò)充數(shù)據(jù)集,得到包含10 582幅圖像的訓(xùn)練集,即train_aug.PASCALContext數(shù)據(jù)集是一個(gè)復(fù)雜且具有挑戰(zhàn)性的場(chǎng)景解析數(shù)據(jù)集,包含59個(gè)前景目標(biāo)類和1個(gè)背景類,訓(xùn)練集包括4 998幅圖像,驗(yàn)證集包括5 105幅圖像.ADE20K數(shù)據(jù)集是一個(gè)龐大的場(chǎng)景解析數(shù)據(jù)集,包含150個(gè)類別,訓(xùn)練集包含25 000幅圖像,驗(yàn)證集包含2 000幅圖像,測(cè)試集包含3 000幅圖像.

2.2 實(shí)驗(yàn)設(shè)置和評(píng)估指標(biāo)

SPAFBA使用標(biāo)準(zhǔn)的ResNet101作為骨干網(wǎng)絡(luò),包含5層網(wǎng)絡(luò)結(jié)構(gòu).為了實(shí)現(xiàn)全分辨率的預(yù)測(cè),在骨干網(wǎng)絡(luò)后增加1個(gè)上采樣層.此外,使用3個(gè)3×3卷積取代第1層的7×7卷積.模型基于PyTorch框架實(shí)現(xiàn),使用ImageNet上預(yù)訓(xùn)練的模型初始化主干網(wǎng)絡(luò)的權(quán)重.學(xué)習(xí)率采用poly衰減策略,在訓(xùn)練期間每次迭代后基礎(chǔ)學(xué)習(xí)率根據(jù)

逐漸下降至0.采用隨機(jī)梯度下降法(Stochastic Gradient Descent, SGD)作為訓(xùn)練優(yōu)化器,并設(shè)置動(dòng)量為0.9,權(quán)重衰減為0.000 1.另外,模型還使用異步批處理歸一化(Synchronized Batch Normalization, SyncBN)進(jìn)行訓(xùn)練,衰減系數(shù)設(shè)置為0.000 1.

在數(shù)據(jù)增強(qiáng)方面,SPAFBA在訓(xùn)練期間對(duì)輸入圖像進(jìn)行隨機(jī)水平翻轉(zhuǎn),在0.5~2.0范圍內(nèi)對(duì)圖像進(jìn)行隨機(jī)縮放和隨機(jī)裁剪.

對(duì)于不同的基準(zhǔn)數(shù)據(jù)集,采用不同的訓(xùn)練設(shè)置.針對(duì)PASCAL_VOC2012數(shù)據(jù)集,在驗(yàn)證集和測(cè)試集上,首先將初始學(xué)習(xí)率設(shè)置為 0.001,裁剪大小為 512×512,批處理大小為16,在 train_aug訓(xùn)練集上訓(xùn)練80個(gè)迭代周期.然后,在原始PASCAL_VOC2012訓(xùn)練集上進(jìn)行微調(diào),迭代周期設(shè)置為50,設(shè)置較小的初始學(xué)習(xí)率為0.000 1.針對(duì)PASCAL_Context數(shù)據(jù)集,初始學(xué)習(xí)率設(shè)置為0.001,裁剪大小設(shè)置為520×520,訓(xùn)練120個(gè)迭代周期,批處理大小設(shè)置為16.針對(duì)ADE20K數(shù)據(jù)集,初始學(xué)習(xí)率設(shè)置為0.004,裁剪大小設(shè)置為576×576,訓(xùn)練180個(gè)迭代周期,批處理大小設(shè)置為16.

采用廣泛使用的平均交并比(Mean Intersectionover Union, mIoU)和像素精度(Pixel Accuracy, pixAcc)作為主要評(píng)估指標(biāo).在測(cè)試期間,模型增加多尺度和翻轉(zhuǎn)的策略進(jìn)行評(píng)估.輸入圖像按原始尺度的{0.5,0.75,1.0,1.25,1.5,1.75,2.0}進(jìn)行縮放并隨機(jī)翻轉(zhuǎn),得到多個(gè)輸入圖像,最后生成最終的預(yù)測(cè)結(jié)果.

2.3 對(duì)比方法

實(shí)驗(yàn)中采用的對(duì)比方法如下.1)語(yǔ)義分割方法:FCN[1]、PSPNet[4]、EncNet[9].2)注意力機(jī)制方法:DANet[11]、CCNet[12]、ANNet[14]、CFNet(Cooccur-rent Feature Network)[24]、DMNet(Dynamic Multi-scale Network)[25]、SANet(Squeeze-and-Attention Net-works)[26]、APCNet(Adaptive Pyramid Context Net-work)[27].3)圖卷積方法:GINet[18]、CDGCNet(Class-Wise Dynamic Graph Convolution Network)[28].4)其它方法:OCRNet[16]、RecoNet(Low-Rank-to-High-Rank Context Reconstruction Framework)[29]、EfficientFCN[30].

2.4 實(shí)驗(yàn)結(jié)果

各方法在3個(gè)數(shù)據(jù)集上的mIoU值對(duì)比如表1所示.對(duì)比方法的實(shí)驗(yàn)結(jié)果數(shù)據(jù)均引自對(duì)應(yīng)文獻(xiàn).為了公平對(duì)比,所有對(duì)比方法都未采用額外的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練.

表1 各方法在3個(gè)數(shù)據(jù)集上的mIoU值對(duì)比Table 1 mIoU value comparison of different methods on 3 datasets %

由表1可知,相比FCN、PSPNet、EncNet,SPAF-BA的mIoU值有顯著提升.相比DANet、CFNet、DMNet、SANet、CCNet和ANNet,SPAFBA的mIoU值在PASCAL_VOC2012、PASCAL_Context數(shù)據(jù)集上至少提升1.1%~1.6%,在ADE20k數(shù)據(jù)集上也取得微弱的性能優(yōu)勢(shì).相比CDGCNet和GINet,SPAFBA的mIoU值在Pascal_VOC2012數(shù)據(jù)集上提升1.1%,在PASCAL_Context數(shù)據(jù)集上提升0.6%.相比RecoNet,SPAFBA的mIoU值在PASCAL_VOC-2012數(shù)據(jù)集上略有下降,但在PASCAL_Context數(shù)據(jù)集上提升0.7%.在ADE20K數(shù)據(jù)集上,SPAFBA的mIoU值略優(yōu)于OCRNet、EfficientFCN,但略差于RecoNet.從3個(gè)數(shù)據(jù)集的整體性能表現(xiàn)可分析出,SPAFBA在類別數(shù)適中的復(fù)雜任務(wù)中更能體現(xiàn)優(yōu)勢(shì),相比采用注意力機(jī)制或圖卷積方式構(gòu)建上下文依賴關(guān)系的方法,SPAFBA由于考慮背景區(qū)域?qū)Σ煌叨惹熬疤卣鞯募?lì)與約束,PFBA模塊建立的前/背景依賴關(guān)系在復(fù)雜場(chǎng)景下依然能提供上下文區(qū)分關(guān)系,增強(qiáng)前景特征的表示,從而提升方法性能.

2.5 網(wǎng)絡(luò)分析

在本節(jié)實(shí)驗(yàn)中,SPAFBA的基線模型僅包括標(biāo)準(zhǔn)的ResNet101骨干網(wǎng)絡(luò),并直接通過(guò)雙線性插值恢復(fù)原圖分辨率大小,通過(guò)逐模塊增加的方式進(jìn)行消融實(shí)驗(yàn),評(píng)估不同模塊對(duì)模型總體性能的影響.模型在train_aug數(shù)據(jù)集上進(jìn)行訓(xùn)練,在PASCAL_VOC2012驗(yàn)證集上進(jìn)行評(píng)估.為了公平起見(jiàn),訓(xùn)練及測(cè)試設(shè)置均相同.

不同模塊對(duì)SPAFBA的mIoU值對(duì)比如表2所示.

表2 不同模塊對(duì)SPAFBA的mIoU值的影響Table 2 Influence of different modules on mIoU of SPAFBA

由表2可看出,僅包括ResNet101骨干網(wǎng)絡(luò)的基線模型的mIoU值為71.68%,添加JSPU模塊后,mIoU值提升7.66%,表明相比基線模型,JSPU模塊使用的雙線性插值上采樣具有明顯優(yōu)勢(shì).原因在于 JSPU模塊使用高層特征的語(yǔ)義信息作為低層特征的語(yǔ)義指導(dǎo),同時(shí)考慮全局語(yǔ)義及局部語(yǔ)義,更好地利用低層特征恢復(fù)分辨率.雙線性插值僅考慮局部信息,容易受局部錯(cuò)誤像素干擾,恢復(fù)分辨率能力較弱.僅在ResNet101中添加PFBA模塊,mIoU值比基線模型提升4.95%,相比僅加入JSPU模塊降低2.71%.其主要原因在于ResNet101具有較低的輸出步幅,丟失過(guò)多的細(xì)節(jié)特征.PFBA難以捕獲具有較好特征表示的前景特征及背景特征,建立的前/背景依賴關(guān)系對(duì)前景特征的增強(qiáng)效果有限.在添加JSPU模塊后繼續(xù)加入PFBA模塊,mIoU值提升至80.34%.上述性能提升表明建模前景與背景之間的依賴關(guān)系能增強(qiáng)特征的上下文表示,從而提高模型性能.在添加JSPU模塊與PFBA模塊后,根據(jù)文獻(xiàn)[9],進(jìn)一步在骨干網(wǎng)絡(luò)第四層添加輔助損失,SPAFBA的mIoU值又提升0.21%.這表明輔助損失確保中間層特征的語(yǔ)義表示能力,加強(qiáng)模型的表征能力.進(jìn)一步在測(cè)試過(guò)程中采用多尺度和翻轉(zhuǎn)策略,相比只添加輔助損失,mIoU值提升0.13%.最后,使用原始PASCAL_VOC2012數(shù)據(jù)集的訓(xùn)練集微調(diào)模型, mIoU達(dá)到81.67%.上述實(shí)驗(yàn)表明,SPAFBA中的模塊能顯著提高網(wǎng)絡(luò)性能.

下面進(jìn)一步對(duì)比分析采用不同骨干網(wǎng)絡(luò)時(shí),JSPU模塊對(duì)骨干網(wǎng)絡(luò)的性能影響,結(jié)果如表3所示,表中Dilated_表示在相應(yīng)骨干網(wǎng)絡(luò)中增加空洞卷積操作,+JSPU表示在相應(yīng)骨干網(wǎng)絡(luò)中添加JSPU模塊.

表3 采用不同骨干網(wǎng)絡(luò)時(shí)JSPU模塊在PASCAL_VOC2012驗(yàn)證集上的性能表現(xiàn)Table 3 Performance of JSPU module with different backbone networks on PASCAL_VOC2012 val set

由表3可看出,添加JSPU模塊后的效果明顯優(yōu)于添加空洞卷積操作.相比空洞卷積維持高分辨率的方法, JSPU模塊能獲得同樣輸出步幅的結(jié)果,此外,JSPU模塊內(nèi)存占用更少,在訓(xùn)練模型時(shí)也具有優(yōu)勢(shì).

最后,分析JSPU模塊與不同的上下文信息提取方法及PFBA模塊結(jié)合的性能表現(xiàn),進(jìn)一步驗(yàn)證JSPU模塊與PFBA模塊的有效性.采用的上下文信息提取方法包括EncNet中的 Context Encoding Mo-dule方法(簡(jiǎn)記為Encoding),DeeplabV3中的ASPP,PSPNet中的PPM(Pyramid Pooling Module).

各方法在PASCAL_VOC2012驗(yàn)證集上的有效性結(jié)果如表4所示:Encoding、ASPP、PPM的上采樣方法不做插值時(shí),表示原始論文的網(wǎng)絡(luò)結(jié)構(gòu);ASPP、PPM的上采樣方法為JSPU時(shí),表示加入JSPU模塊進(jìn)行上采樣恢復(fù)分辨率;Encoding中上采樣方法為雙線性插值時(shí),表示首先從EncNet的骨干網(wǎng)絡(luò)中移除空洞卷積,輸出步幅調(diào)整為32,再使用雙線性插值對(duì)輸出特征圖進(jìn)行4倍上采樣,將輸出步幅恢復(fù)到與原始模型一致,并將特征圖送入Context Encoding Module上下文提取模塊.

表4 各方法的有效性實(shí)驗(yàn)結(jié)果Table 4 Vadility of different methods in experiment

由表4可見(jiàn),Encoding中上采樣方法從不采用插值改為雙線性插值.mIoU值有所下降,表明替換骨干網(wǎng)絡(luò)中空洞卷積獲得高分辨率的圖像是困難的,不恰當(dāng)?shù)纳喜蓸臃椒赡軐?dǎo)致性能損失.但采用JSPU模塊替換空洞卷積時(shí),mIoU值有所提升,優(yōu)于不采用插值的方式,進(jìn)一步驗(yàn)證JSPU模塊在上下文信息提取方面的優(yōu)勢(shì).同時(shí),將JSPU模塊應(yīng)用到ASPP和PPM中,mIoU值也有所提升.JSPU模塊與PFBA模塊結(jié)合,mIoU值達(dá)到最優(yōu),說(shuō)明PFBA模塊捕獲的前/背景依賴能對(duì)前景特征提供背景區(qū)域上下文依賴,實(shí)現(xiàn)對(duì)每個(gè)像素特征的激勵(lì)與約束,增強(qiáng)特征的語(yǔ)義表示能力.

2.6 可視化案例

ResNet101和SPAFBA在PASCAL_VOC2012驗(yàn)證集上的可視化結(jié)果如圖4所示.

(a)原始圖像(a)Original images

(b)真實(shí)標(biāo)簽圖(b)Ground Truth

(c)ResNet101

(d)SPAFBA圖4 各方法在PASCAL_VOC2012 驗(yàn)證集上的可視結(jié)果展示Fig.4 Visual results of different methods on PASCAL_VOC2012 val set

由圖4可見(jiàn),SPAFBA的分割質(zhì)量明顯優(yōu)于ResNet101.在第1幅飛機(jī)圖像中,ResNet101基本丟失飛機(jī)兩翼及尾部形狀,而SPAFBA清晰捕獲其形狀.類似地,對(duì)于第4幅和第5幅圖像,SPAFBA都能較好地分割對(duì)象形狀.在第2幅和第3幅這種多對(duì)象距離很近或重疊的場(chǎng)景中,ResNet101容易將對(duì)象邊界錯(cuò)分或難以區(qū)分,SPAFBA則大幅改善邊界劃分效果,邊界信息和細(xì)節(jié)處理更精確.

SPAFBA在PASCAL_VOC2012測(cè)試集的可視化結(jié)果如圖5所示.由圖可見(jiàn),預(yù)測(cè)結(jié)果中每個(gè)像素的分類結(jié)果與原始圖像基本一致,在邊緣及邊界上效果較優(yōu),說(shuō)明SPAFBA具有較高的語(yǔ)義分割精度.

(a)原始圖像(a)Original images

(b)可視化結(jié)果(b)Visualization results圖5 SPAFBA在PASCAL_VOC2012測(cè)試集上的可視化結(jié)果Fig.5 Visualization results of SPAFBA on PASCAL_VOC2012 test set

3 結(jié) 束 語(yǔ)

本文提出基于語(yǔ)義傳播與前/背景感知的圖像語(yǔ)義分割網(wǎng)絡(luò)(SPAFBA).SPAFBA中包含聯(lián)合語(yǔ)義傳播模塊和金字塔前/背景感知模塊.聯(lián)合語(yǔ)義傳播模塊提取高級(jí)特征的語(yǔ)義信息,增強(qiáng)低層特征的語(yǔ)義,緩解兩者之間的語(yǔ)義差距,較好地利用低層特征進(jìn)行融合,恢復(fù)分辨率,解決圖像語(yǔ)義分割的分辨率重建問(wèn)題.金字塔前/背景感知模塊建立前景與背景之間的上下文依賴關(guān)系,較好地增強(qiáng)特征的表示能力.兩個(gè)公共數(shù)據(jù)集上的實(shí)驗(yàn)表明SPAFBA性能較優(yōu).今后將考慮如何改善邊緣細(xì)節(jié)信息的處理,以及如何構(gòu)建一個(gè)更輕、更有效的模型.

猜你喜歡
集上卷積語(yǔ)義
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測(cè)定
單雙點(diǎn)平滑結(jié)合的流形正則化半監(jiān)督分類學(xué)習(xí)框架
基于圖像處理與卷積神經(jīng)網(wǎng)絡(luò)的零件識(shí)別
基于深度卷積網(wǎng)絡(luò)與空洞卷積融合的人群計(jì)數(shù)
卷積神經(jīng)網(wǎng)絡(luò)概述
漢語(yǔ)依憑介詞的語(yǔ)義范疇
幾道導(dǎo)數(shù)題引發(fā)的解題思考
2008年高考考前模擬試題(二)及略解
电白县| 信丰县| 志丹县| 应用必备| 横山县| 江津市| 敖汉旗| 梁平县| 台中县| 盖州市| 南雄市| 华阴市| 东乌| 海兴县| 齐齐哈尔市| 修文县| 密云县| 吴桥县| 邮箱| 锦屏县| 封开县| 靖江市| 道真| 宁远县| 博罗县| 宁阳县| 新民市| 苗栗县| 乐山市| 牡丹江市| 安西县| 胶州市| 嘉义市| 龙泉市| 新野县| 岳阳市| 万山特区| 白山市| 柘荣县| 武宁县| 虹口区|