羅暉 蘆春雨 鄭翔文
摘要:為了實(shí)現(xiàn)更精確的語義分割,提出了一種目標(biāo)全局解析網(wǎng)絡(luò)(object global parsingnetwork,OGPNeI)。首先,基于卷積特征金字塔構(gòu)造了一個(gè)多尺度角點(diǎn)檢測(cè)器,檢測(cè)不同尺度特征圖上目標(biāo)的關(guān)鍵點(diǎn)信息;其次,提出了一種多尺度聯(lián)合池算法將獲得的多尺度角點(diǎn)進(jìn)行融合;最后,將組歸一化(GrounpNormalization,GN)方法引入到該分割網(wǎng)絡(luò)訓(xùn)練中以提升網(wǎng)絡(luò)訓(xùn)練和收斂速度。OGPNet在Pascal VOC 2012數(shù)據(jù)集和Cityscapes數(shù)據(jù)集的分割結(jié)果的mIoU評(píng)價(jià)分別達(dá)到了78.5%和67.6%。且實(shí)驗(yàn)證明,相對(duì)于現(xiàn)有的一些語義分割網(wǎng)絡(luò),由OGPNet分割出的目標(biāo)具有更完整的輪廓,且分割結(jié)果的視覺質(zhì)量更好。
關(guān)鍵詞:語義分割;多尺度;角點(diǎn)檢測(cè);聯(lián)合池化;組歸一化
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)33-0206-05
在深度學(xué)習(xí)被應(yīng)用于語義分割之前,語義分割設(shè)計(jì)通常是以圖像像素的低層視覺線索作為分割特征依據(jù),如TextonFor-est和CRFst。然而在不提供人工輔助信息的情況下,這些語義分割方法對(duì)困難場(chǎng)景下的分割效果并不理想。隨著計(jì)算機(jī)硬件的不斷升級(jí)和深度學(xué)習(xí)的興起,卷積神經(jīng)網(wǎng)絡(luò)(convolu-fional Neural Network,CNN)在圖像識(shí)別、語義分割等領(lǐng)域研究中的優(yōu)越性逐漸體現(xiàn),研究者因而對(duì)基礎(chǔ)CNN框架的語義分割方法進(jìn)行了深人探索。Long等人用卷積替換將分類網(wǎng)絡(luò)中的全連接層進(jìn)而構(gòu)建了全卷積網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN),該網(wǎng)絡(luò)能夠?qū)崿F(xiàn)對(duì)任意大小輸入圖像進(jìn)行塊評(píng)估與分類。FCN證明了基于CNN的語義分割網(wǎng)絡(luò)的可行性,但分割結(jié)果較為粗糙。為提高網(wǎng)絡(luò)的分割精度,Badrinarayanan等人將更多的跳躍連接引入到FCN中,并提出了SegNet。該網(wǎng)絡(luò)由一個(gè)編碼器一解碼器組和像素級(jí)分類層組成,編碼器通過卷積和最大池化獲得輸入圖像的深層語義特征,解碼器則根據(jù)最大池化索引進(jìn)行上采樣,最后由分類器對(duì)其輸出的進(jìn)行像素級(jí)分類,最終實(shí)現(xiàn)對(duì)輸入圖像的語義分割。此外,Chen等人提出了DeepLabV1網(wǎng)絡(luò)。該網(wǎng)絡(luò)利用FCN和插值得到的與輸入圖像大小相同的粗分割分?jǐn)?shù)圖(score map),然后采用全連接CRFs對(duì)其進(jìn)行細(xì)致修正。FCN和SegNet都是最早的編解碼器結(jié)構(gòu),相對(duì)FCN,SegNet更能夠節(jié)省運(yùn)算內(nèi)存,但SegNet的基準(zhǔn)分值不夠好,因此不能繼續(xù)使用。
在基于卷積框架的語義分割網(wǎng)絡(luò)中,為獲得更大感受野、聚合語義上下文信息,需要對(duì)特征圖進(jìn)行池化操作。然而,池化也造成了圖像中目標(biāo)位置信息的丟失。為此,受kronecker分解卷積濾波器的啟發(fā),Koltun~將膨脹卷積(Dilated Convolu-tion)引入到語義分割網(wǎng)絡(luò),利用不同膨脹率獲得不同尺度的特征圖,并通過hole算法將多尺度背景聚合,改善分割結(jié)果。Chen等人嘲在DeepLabVl的基礎(chǔ)上結(jié)合所提出的膨脹空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)算法構(gòu)建了Dee-pLabV2網(wǎng)絡(luò),該網(wǎng)絡(luò)通過捕獲圖像中的目標(biāo)和多尺度特征圖中的上下文實(shí)現(xiàn)語義的魯棒分割。
由于基于膨脹卷積的聚合算法需要大量高分辨率特征圖作為輸入,而這些特征圖的獲取需要占用計(jì)算機(jī)大量?jī)?nèi)存,且運(yùn)算成本高昂。為解決這一問題,Lin等人提出了具有編碼器一解碼器結(jié)的RefineNet,該網(wǎng)絡(luò)中所有組件遵循殘差連接設(shè)計(jì),其編碼器是ResNet-101模塊,解碼器是RefineNet模塊,該網(wǎng)絡(luò)融合了編碼器的高分辨率特征和解碼器的低分辨率特征,有效的較少了網(wǎng)絡(luò)運(yùn)算量。之后,Chen等人重新考慮了膨脹卷積在語義分割網(wǎng)絡(luò)中的使用,通過級(jí)聯(lián)多個(gè)膨脹卷積層對(duì)ASPP進(jìn)行了改進(jìn),并提出DeepLebV3網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠獲得更廣泛的上下文信息,進(jìn)而獲得更好的語義分割效果。
基于以上研究基礎(chǔ),本文從獲取更豐富的圖像上下文信息的角度,提出了并提出了OPGNet。該網(wǎng)絡(luò)綜合考慮到圖像前景與背景關(guān)系,以及圖像中目標(biāo)的空間位置,在FCN的基礎(chǔ)上引人多尺度角點(diǎn)檢測(cè)器和聯(lián)合池化層,獲得豐富的上下文信息,進(jìn)而獲得較好的語義分割結(jié)果。OPGNet的主要特點(diǎn)如下:
1)OGPNet采用ResNet-1叭作為骨干網(wǎng),避免學(xué)習(xí)過程中由于卷積層過深而導(dǎo)致的梯度分散或梯度爆炸問題,提高圖像特征學(xué)習(xí)效果;
2)采用多尺度角點(diǎn)檢測(cè)器對(duì)特征圖中目標(biāo)輪廓的角點(diǎn)進(jìn)行檢測(cè),深度解析目標(biāo)輪廓;
3)采用同階合并、鄰階交比的策略,對(duì)多尺度的角點(diǎn)進(jìn)行融合池化,以獲得精確的目標(biāo)輪廓信息;
4)使用GN方法替代批次歸一化(Batch Normalization,BN)方法,以提高OGPNet的訓(xùn)練速度。
1oGPNet語義分割
為了充分獲取并學(xué)習(xí)圖像中包含的上下文信息,提高語義分割精度,本文提出了OGPNet。利用ResNet-101特性,構(gòu)建由不同尺度特征圖組成的特征金字塔,然后利用多尺度角點(diǎn)檢測(cè)器獲得不同尺度特征圖上目標(biāo)的輪廓角點(diǎn),獲得的角點(diǎn)經(jīng)過聯(lián)合池化后被融合到由上采樣得到的與輸入圖像大小相同的特征圖上,最后通過像素預(yù)測(cè)得到分割結(jié)果。OGPNet的主要結(jié)構(gòu)如圖1所示。
1.1多尺度角點(diǎn)檢測(cè)器
角點(diǎn)是圖像中領(lǐng)域內(nèi)具有主要方向的特征點(diǎn),角點(diǎn)所在領(lǐng)域通常也是圖像中穩(wěn)定的、信息豐富的區(qū)域。OGPNet引人多尺度角點(diǎn)檢測(cè)器,檢測(cè)待分割目標(biāo)的關(guān)鍵點(diǎn),使網(wǎng)絡(luò)能夠?qū)W習(xí)更多的上下文信息,進(jìn)而能夠提高分割結(jié)果中目標(biāo)的完整性和分割精度。多尺度角點(diǎn)檢測(cè)器的設(shè)計(jì)具體分以下幾個(gè)步驟:
3)角點(diǎn)檢測(cè):基于構(gòu)建的差分特征金字塔,將每階中相鄰的三層差分特征圖做比較運(yùn)算。如圖3(a)所示,就中間層特征圖中超像素點(diǎn)而言,若該點(diǎn)特征值大于其立體鄰域內(nèi)的26個(gè)點(diǎn)的特征值,則記錄該點(diǎn)的值與其位置。對(duì)于某階中最外層的差分特征圖,則先構(gòu)造一個(gè)與本階特征圖大小相同的全零特征圖,如圖3(b)所示,然后進(jìn)行比較算法。通過該操作能夠獲得每層差分特征圖各自的角點(diǎn)。這里考慮到不同階相鄰差分特征圖之間存在尺寸差異,比較運(yùn)算只在同階差分特征圖內(nèi)執(zhí)行。
1.2多尺度聯(lián)合池化
該階段利用多尺度聯(lián)合池化操作,將1.1中所檢測(cè)到的不精確的多尺度角點(diǎn)進(jìn)行融合,生成具有精確角點(diǎn)信息的特征圖,以保證后續(xù)像素預(yù)測(cè)過程中特征圖中角點(diǎn)信息的準(zhǔn)確性。聯(lián)合池化的具體過程如下:
1)同階合并:對(duì)于同階角點(diǎn)特征圖,采用加權(quán)求和的方式將該階的中間三層的角點(diǎn)特征圖融合,如式(3)、(4)。最終可得到3張尺度不同的角點(diǎn)特征圖。
其中,Wδ為每層角度特征圖的求和權(quán)值,大小與該層的高斯尺度因子有關(guān);M為融合后形成的新的角點(diǎn)特征圖。
2)鄰階較比:
對(duì)1)生成的M中相鄰的兩張角點(diǎn)特征圖,用兩個(gè)尺度比為1:2的滑動(dòng)窗口在相應(yīng)大小比的特征圖上分別以1和2為步長(zhǎng)遍歷特征圖,并根據(jù)式(5)對(duì)較大尺度特征圖進(jìn)行更新,實(shí)現(xiàn)將小尺度特征圖上角點(diǎn)信息融合到較大尺度的特征圖上。最后生成一張具有豐富角點(diǎn)信息,且大小與輸入圖像大小相同的角點(diǎn)特征圖。
2OGPNet性能評(píng)價(jià)實(shí)驗(yàn)
該部分首先介紹了用于實(shí)驗(yàn)的數(shù)據(jù)集、實(shí)驗(yàn)配置和設(shè)備配置以及用于評(píng)價(jià)語義分割網(wǎng)絡(luò)性能的評(píng)價(jià)指標(biāo)。然后,給出了兩個(gè)Pascal VOCl2和Cityscapes兩個(gè)數(shù)據(jù)及上OGPNet的測(cè)試結(jié)果。最后,將OGPNet同其他語義分割方法在以上幾個(gè)數(shù)據(jù)集的基礎(chǔ)上進(jìn)行了實(shí)驗(yàn),并比較它們的分割性能。
2.1實(shí)驗(yàn)數(shù)據(jù)集及硬件配置
Pascal VOC12是最流行的語義圖像分割基準(zhǔn)數(shù)據(jù)集之一。該數(shù)據(jù)集包含20個(gè)室內(nèi)和室外目標(biāo)類別和一個(gè)背景類別。實(shí)驗(yàn)中采用了該數(shù)據(jù)集中10582幅圖像進(jìn)行訓(xùn)練,1449幅圖像進(jìn)行驗(yàn)證,1456幅圖像進(jìn)行測(cè)試。
Cityscapes是一個(gè)通過車載攝像機(jī)采集的大型城市街道場(chǎng)景數(shù)據(jù)集。它包含5000張經(jīng)過精細(xì)注視的圖片。實(shí)驗(yàn)中使用包含了19種目標(biāo)類別和一個(gè)背景類別的了2975張用于訓(xùn)練,500張圖像用于驗(yàn)證,1525張圖像用于測(cè)試。
實(shí)驗(yàn)在配有16GB內(nèi)存、Intel i5-7600處理器和兩張GTl080Ti GPU顯卡的圖形工作站上進(jìn)行。工作站同時(shí)安裝CUDA 9.0和CuDNN 7.0。
2.2性能評(píng)價(jià)指標(biāo)
為了深入分析語義分割模型的性能,除平均交并比(mIoU)之外,還引入了標(biāo)記精度(rrA)、定位精度(LA)和邊界精度(BA)三個(gè)指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了評(píng)價(jià)。這些評(píng)估指標(biāo)描述如下。
(1)TA用于評(píng)價(jià)預(yù)測(cè)的像素級(jí)標(biāo)簽與場(chǎng)景真實(shí)值標(biāo)簽之間的差異,能夠反映模型對(duì)包含多種語義類別圖像的分類準(zhǔn)確性;
(2)LA定義為目標(biāo)的預(yù)測(cè)邊界框與地面真實(shí)邊界框之間的交并比(Iou),用于估計(jì)模型對(duì)圖像中目標(biāo)定位的精度;
(3)利用BAt,31統(tǒng)計(jì)正確定位對(duì)象的預(yù)測(cè)語義邊界與實(shí)際語義邊界的差值,它能反映網(wǎng)絡(luò)的語義分割精度。
2.3實(shí)驗(yàn)結(jié)果
首先,用MS-COCO對(duì)OGPNet進(jìn)行預(yù)訓(xùn)練,然后選擇VOCl2中20個(gè)目標(biāo)類別的圖像對(duì)OGPNet進(jìn)行訓(xùn)練和測(cè)試,預(yù)訓(xùn)練和訓(xùn)練的迭代次數(shù)分別為150k次和30k次。表1展示了OGPNet對(duì)20類目標(biāo)的分割結(jié)果的TA、LA和BA的性能比較。
表1中實(shí)驗(yàn)評(píng)價(jià)結(jié)果表明所提出的OGPNet中多尺度角點(diǎn)檢測(cè)器對(duì)于精確的語義分割是有效的。另外,借助殘差網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)勢(shì),本可以用更深層次的殘差網(wǎng)絡(luò)進(jìn)行特征提取,但是受實(shí)際實(shí)驗(yàn)情況影響,本文將不再對(duì)不同深度的ResNet做相關(guān)的分割性能比較。
3結(jié)論
為了更準(zhǔn)確地描述對(duì)象的上下文信息,提高對(duì)象的語義分割精度,本文提出了一種全局解析網(wǎng)絡(luò)。該網(wǎng)絡(luò)存在以下幾個(gè)有點(diǎn):第一,構(gòu)建了多尺度角點(diǎn)檢測(cè)器,能夠?qū)δ繕?biāo)輪廓特征進(jìn)行深度分析,獲取目標(biāo)角點(diǎn)信息;第二,采用了多尺度聯(lián)合池對(duì)多尺度角點(diǎn)特征圖進(jìn)行融合,能夠降低數(shù)據(jù)的維數(shù),同時(shí)精煉圖像角點(diǎn)特征;第三,采用組歸一化方法對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,加速網(wǎng)絡(luò)訓(xùn)練過程。本文通過對(duì)OGPNet與其他幾種網(wǎng)絡(luò)在PAS-CAL VOCl2數(shù)據(jù)集和Cityscapes數(shù)據(jù)集的語義分割結(jié)果的性能評(píng)價(jià)的比較,證明了OGPNet在語義分割中能夠有效地保證分割目標(biāo)輪廓的完整性,進(jìn)而提高語義分割精度。在今后的工作中,我們將對(duì)弱監(jiān)督的語義分割網(wǎng)絡(luò)進(jìn)一步研究。