一種基于多尺度角點(diǎn)檢測(cè)的語義分割網(wǎng)絡(luò)

2019-01-08 03:16羅暉蘆春雨鄭翔文

電腦知識(shí)與技術(shù) 2019年33期

羅暉蘆春雨鄭翔文

摘要：為了實(shí)現(xiàn)更精確的語義分割，提出了一種目標(biāo)全局解析網(wǎng)絡(luò)（object global parsingnetwork，OGPNeI）。首先，基于卷積特征金字塔構(gòu)造了一個(gè)多尺度角點(diǎn)檢測(cè)器，檢測(cè)不同尺度特征圖上目標(biāo)的關(guān)鍵點(diǎn)信息;其次，提出了一種多尺度聯(lián)合池算法將獲得的多尺度角點(diǎn)進(jìn)行融合;最后，將組歸一化（GrounpNormalization，GN）方法引入到該分割網(wǎng)絡(luò)訓(xùn)練中以提升網(wǎng)絡(luò)訓(xùn)練和收斂速度。OGPNet在Pascal VOC 2012數(shù)據(jù)集和Cityscapes數(shù)據(jù)集的分割結(jié)果的mIoU評(píng)價(jià)分別達(dá)到了78.5%和67.6%。且實(shí)驗(yàn)證明，相對(duì)于現(xiàn)有的一些語義分割網(wǎng)絡(luò)，由OGPNet分割出的目標(biāo)具有更完整的輪廓，且分割結(jié)果的視覺質(zhì)量更好。

關(guān)鍵詞：語義分割;多尺度;角點(diǎn)檢測(cè);聯(lián)合池化;組歸一化

中圖分類號(hào)：TP391 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2019）33-0206-05

在深度學(xué)習(xí)被應(yīng)用于語義分割之前，語義分割設(shè)計(jì)通常是以圖像像素的低層視覺線索作為分割特征依據(jù)，如TextonFor-est和CRFst。然而在不提供人工輔助信息的情況下，這些語義分割方法對(duì)困難場(chǎng)景下的分割效果并不理想。隨著計(jì)算機(jī)硬件的不斷升級(jí)和深度學(xué)習(xí)的興起，卷積神經(jīng)網(wǎng)絡(luò)（convolu-fional Neural Network，CNN）在圖像識(shí)別、語義分割等領(lǐng)域研究中的優(yōu)越性逐漸體現(xiàn)，研究者因而對(duì)基礎(chǔ)CNN框架的語義分割方法進(jìn)行了深人探索。Long等人用卷積替換將分類網(wǎng)絡(luò)中的全連接層進(jìn)而構(gòu)建了全卷積網(wǎng)絡(luò)（Fully Convolutional Network，F(xiàn)CN），該網(wǎng)絡(luò)能夠?qū)崿F(xiàn)對(duì)任意大小輸入圖像進(jìn)行塊評(píng)估與分類。FCN證明了基于CNN的語義分割網(wǎng)絡(luò)的可行性，但分割結(jié)果較為粗糙。為提高網(wǎng)絡(luò)的分割精度，Badrinarayanan等人將更多的跳躍連接引入到FCN中，并提出了SegNet。該網(wǎng)絡(luò)由一個(gè)編碼器一解碼器組和像素級(jí)分類層組成，編碼器通過卷積和最大池化獲得輸入圖像的深層語義特征，解碼器則根據(jù)最大池化索引進(jìn)行上采樣，最后由分類器對(duì)其輸出的進(jìn)行像素級(jí)分類，最終實(shí)現(xiàn)對(duì)輸入圖像的語義分割。此外，Chen等人提出了DeepLabV1網(wǎng)絡(luò)。該網(wǎng)絡(luò)利用FCN和插值得到的與輸入圖像大小相同的粗分割分?jǐn)?shù)圖（score map），然后采用全連接CRFs對(duì)其進(jìn)行細(xì)致修正。FCN和SegNet都是最早的編解碼器結(jié)構(gòu)，相對(duì)FCN，SegNet更能夠節(jié)省運(yùn)算內(nèi)存，但SegNet的基準(zhǔn)分值不夠好，因此不能繼續(xù)使用。

在基于卷積框架的語義分割網(wǎng)絡(luò)中，為獲得更大感受野、聚合語義上下文信息，需要對(duì)特征圖進(jìn)行池化操作。然而，池化也造成了圖像中目標(biāo)位置信息的丟失。為此，受kronecker分解卷積濾波器的啟發(fā)，Koltun～將膨脹卷積（Dilated Convolu-tion）引入到語義分割網(wǎng)絡(luò)，利用不同膨脹率獲得不同尺度的特征圖，并通過hole算法將多尺度背景聚合，改善分割結(jié)果。Chen等人嘲在DeepLabVl的基礎(chǔ)上結(jié)合所提出的膨脹空間金字塔池化（Atrous Spatial Pyramid Pooling，ASPP）算法構(gòu)建了Dee-pLabV2網(wǎng)絡(luò)，該網(wǎng)絡(luò)通過捕獲圖像中的目標(biāo)和多尺度特征圖中的上下文實(shí)現(xiàn)語義的魯棒分割。

由于基于膨脹卷積的聚合算法需要大量高分辨率特征圖作為輸入，而這些特征圖的獲取需要占用計(jì)算機(jī)大量?jī)?nèi)存，且運(yùn)算成本高昂。為解決這一問題，Lin等人提出了具有編碼器一解碼器結(jié)的RefineNet，該網(wǎng)絡(luò)中所有組件遵循殘差連接設(shè)計(jì)，其編碼器是ResNet-101模塊，解碼器是RefineNet模塊，該網(wǎng)絡(luò)融合了編碼器的高分辨率特征和解碼器的低分辨率特征，有效的較少了網(wǎng)絡(luò)運(yùn)算量。之后，Chen等人重新考慮了膨脹卷積在語義分割網(wǎng)絡(luò)中的使用，通過級(jí)聯(lián)多個(gè)膨脹卷積層對(duì)ASPP進(jìn)行了改進(jìn)，并提出DeepLebV3網(wǎng)絡(luò)，該網(wǎng)絡(luò)能夠獲得更廣泛的上下文信息，進(jìn)而獲得更好的語義分割效果。

基于以上研究基礎(chǔ)，本文從獲取更豐富的圖像上下文信息的角度，提出了并提出了OPGNet。該網(wǎng)絡(luò)綜合考慮到圖像前景與背景關(guān)系，以及圖像中目標(biāo)的空間位置，在FCN的基礎(chǔ)上引人多尺度角點(diǎn)檢測(cè)器和聯(lián)合池化層，獲得豐富的上下文信息，進(jìn)而獲得較好的語義分割結(jié)果。OPGNet的主要特點(diǎn)如下：

1）OGPNet采用ResNet-1叭作為骨干網(wǎng)，避免學(xué)習(xí)過程中由于卷積層過深而導(dǎo)致的梯度分散或梯度爆炸問題，提高圖像特征學(xué)習(xí)效果;

2）采用多尺度角點(diǎn)檢測(cè)器對(duì)特征圖中目標(biāo)輪廓的角點(diǎn)進(jìn)行檢測(cè)，深度解析目標(biāo)輪廓;

3）采用同階合并、鄰階交比的策略，對(duì)多尺度的角點(diǎn)進(jìn)行融合池化，以獲得精確的目標(biāo)輪廓信息;

4）使用GN方法替代批次歸一化（Batch Normalization，BN）方法，以提高OGPNet的訓(xùn)練速度。

1oGPNet語義分割

為了充分獲取并學(xué)習(xí)圖像中包含的上下文信息，提高語義分割精度，本文提出了OGPNet。利用ResNet-101特性，構(gòu)建由不同尺度特征圖組成的特征金字塔，然后利用多尺度角點(diǎn)檢測(cè)器獲得不同尺度特征圖上目標(biāo)的輪廓角點(diǎn)，獲得的角點(diǎn)經(jīng)過聯(lián)合池化后被融合到由上采樣得到的與輸入圖像大小相同的特征圖上，最后通過像素預(yù)測(cè)得到分割結(jié)果。OGPNet的主要結(jié)構(gòu)如圖1所示。

1.1多尺度角點(diǎn)檢測(cè)器

角點(diǎn)是圖像中領(lǐng)域內(nèi)具有主要方向的特征點(diǎn)，角點(diǎn)所在領(lǐng)域通常也是圖像中穩(wěn)定的、信息豐富的區(qū)域。OGPNet引人多尺度角點(diǎn)檢測(cè)器，檢測(cè)待分割目標(biāo)的關(guān)鍵點(diǎn)，使網(wǎng)絡(luò)能夠?qū)W習(xí)更多的上下文信息，進(jìn)而能夠提高分割結(jié)果中目標(biāo)的完整性和分割精度。多尺度角點(diǎn)檢測(cè)器的設(shè)計(jì)具體分以下幾個(gè)步驟：

3）角點(diǎn)檢測(cè)：基于構(gòu)建的差分特征金字塔，將每階中相鄰的三層差分特征圖做比較運(yùn)算。如圖3（a）所示，就中間層特征圖中超像素點(diǎn)而言，若該點(diǎn)特征值大于其立體鄰域內(nèi)的26個(gè)點(diǎn)的特征值，則記錄該點(diǎn)的值與其位置。對(duì)于某階中最外層的差分特征圖，則先構(gòu)造一個(gè)與本階特征圖大小相同的全零特征圖，如圖3（b）所示，然后進(jìn)行比較算法。通過該操作能夠獲得每層差分特征圖各自的角點(diǎn)。這里考慮到不同階相鄰差分特征圖之間存在尺寸差異，比較運(yùn)算只在同階差分特征圖內(nèi)執(zhí)行。

1.2多尺度聯(lián)合池化

該階段利用多尺度聯(lián)合池化操作，將1.1中所檢測(cè)到的不精確的多尺度角點(diǎn)進(jìn)行融合，生成具有精確角點(diǎn)信息的特征圖，以保證后續(xù)像素預(yù)測(cè)過程中特征圖中角點(diǎn)信息的準(zhǔn)確性。聯(lián)合池化的具體過程如下：

1）同階合并：對(duì)于同階角點(diǎn)特征圖，采用加權(quán)求和的方式將該階的中間三層的角點(diǎn)特征圖融合，如式（3）、（4）。最終可得到3張尺度不同的角點(diǎn)特征圖。

其中，Wδ為每層角度特征圖的求和權(quán)值，大小與該層的高斯尺度因子有關(guān);M為融合后形成的新的角點(diǎn)特征圖。

2）鄰階較比：

對(duì)1）生成的M中相鄰的兩張角點(diǎn)特征圖，用兩個(gè)尺度比為1：2的滑動(dòng)窗口在相應(yīng)大小比的特征圖上分別以1和2為步長(zhǎng)遍歷特征圖，并根據(jù)式（5）對(duì)較大尺度特征圖進(jìn)行更新，實(shí)現(xiàn)將小尺度特征圖上角點(diǎn)信息融合到較大尺度的特征圖上。最后生成一張具有豐富角點(diǎn)信息，且大小與輸入圖像大小相同的角點(diǎn)特征圖。

2OGPNet性能評(píng)價(jià)實(shí)驗(yàn)

該部分首先介紹了用于實(shí)驗(yàn)的數(shù)據(jù)集、實(shí)驗(yàn)配置和設(shè)備配置以及用于評(píng)價(jià)語義分割網(wǎng)絡(luò)性能的評(píng)價(jià)指標(biāo)。然后，給出了兩個(gè)Pascal VOCl2和Cityscapes兩個(gè)數(shù)據(jù)及上OGPNet的測(cè)試結(jié)果。最后，將OGPNet同其他語義分割方法在以上幾個(gè)數(shù)據(jù)集的基礎(chǔ)上進(jìn)行了實(shí)驗(yàn)，并比較它們的分割性能。

2.1實(shí)驗(yàn)數(shù)據(jù)集及硬件配置

Pascal VOC12是最流行的語義圖像分割基準(zhǔn)數(shù)據(jù)集之一。該數(shù)據(jù)集包含20個(gè)室內(nèi)和室外目標(biāo)類別和一個(gè)背景類別。實(shí)驗(yàn)中采用了該數(shù)據(jù)集中10582幅圖像進(jìn)行訓(xùn)練，1449幅圖像進(jìn)行驗(yàn)證，1456幅圖像進(jìn)行測(cè)試。

Cityscapes是一個(gè)通過車載攝像機(jī)采集的大型城市街道場(chǎng)景數(shù)據(jù)集。它包含5000張經(jīng)過精細(xì)注視的圖片。實(shí)驗(yàn)中使用包含了19種目標(biāo)類別和一個(gè)背景類別的了2975張用于訓(xùn)練，500張圖像用于驗(yàn)證，1525張圖像用于測(cè)試。

實(shí)驗(yàn)在配有16GB內(nèi)存、Intel i5-7600處理器和兩張GTl080Ti GPU顯卡的圖形工作站上進(jìn)行。工作站同時(shí)安裝CUDA 9.0和CuDNN 7.0。

2.2性能評(píng)價(jià)指標(biāo)

為了深入分析語義分割模型的性能，除平均交并比（mIoU）之外，還引入了標(biāo)記精度（rrA）、定位精度（LA）和邊界精度（BA）三個(gè)指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了評(píng)價(jià)。這些評(píng)估指標(biāo)描述如下。

（1）TA用于評(píng)價(jià)預(yù)測(cè)的像素級(jí)標(biāo)簽與場(chǎng)景真實(shí)值標(biāo)簽之間的差異，能夠反映模型對(duì)包含多種語義類別圖像的分類準(zhǔn)確性;

（2）LA定義為目標(biāo)的預(yù)測(cè)邊界框與地面真實(shí)邊界框之間的交并比（Iou），用于估計(jì)模型對(duì)圖像中目標(biāo)定位的精度;

（3）利用BAt，31統(tǒng)計(jì)正確定位對(duì)象的預(yù)測(cè)語義邊界與實(shí)際語義邊界的差值，它能反映網(wǎng)絡(luò)的語義分割精度。

2.3實(shí)驗(yàn)結(jié)果

首先，用MS-COCO對(duì)OGPNet進(jìn)行預(yù)訓(xùn)練，然后選擇VOCl2中20個(gè)目標(biāo)類別的圖像對(duì)OGPNet進(jìn)行訓(xùn)練和測(cè)試，預(yù)訓(xùn)練和訓(xùn)練的迭代次數(shù)分別為150k次和30k次。表1展示了OGPNet對(duì)20類目標(biāo)的分割結(jié)果的TA、LA和BA的性能比較。

表1中實(shí)驗(yàn)評(píng)價(jià)結(jié)果表明所提出的OGPNet中多尺度角點(diǎn)檢測(cè)器對(duì)于精確的語義分割是有效的。另外，借助殘差網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)勢(shì)，本可以用更深層次的殘差網(wǎng)絡(luò)進(jìn)行特征提取，但是受實(shí)際實(shí)驗(yàn)情況影響，本文將不再對(duì)不同深度的ResNet做相關(guān)的分割性能比較。

3結(jié)論

為了更準(zhǔn)確地描述對(duì)象的上下文信息，提高對(duì)象的語義分割精度，本文提出了一種全局解析網(wǎng)絡(luò)。該網(wǎng)絡(luò)存在以下幾個(gè)有點(diǎn)：第一，構(gòu)建了多尺度角點(diǎn)檢測(cè)器，能夠?qū)δ繕?biāo)輪廓特征進(jìn)行深度分析，獲取目標(biāo)角點(diǎn)信息;第二，采用了多尺度聯(lián)合池對(duì)多尺度角點(diǎn)特征圖進(jìn)行融合，能夠降低數(shù)據(jù)的維數(shù)，同時(shí)精煉圖像角點(diǎn)特征;第三，采用組歸一化方法對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，加速網(wǎng)絡(luò)訓(xùn)練過程。本文通過對(duì)OGPNet與其他幾種網(wǎng)絡(luò)在PAS-CAL VOCl2數(shù)據(jù)集和Cityscapes數(shù)據(jù)集的語義分割結(jié)果的性能評(píng)價(jià)的比較，證明了OGPNet在語義分割中能夠有效地保證分割目標(biāo)輪廓的完整性，進(jìn)而提高語義分割精度。在今后的工作中，我們將對(duì)弱監(jiān)督的語義分割網(wǎng)絡(luò)進(jìn)一步研究。

電腦知識(shí)與技術(shù)2019年33期

電腦知識(shí)與技術(shù)的其它文章: 大數(shù)據(jù)環(huán)境下數(shù)據(jù)挖掘在電子取證中的應(yīng)用; 關(guān)于新型安全計(jì)算機(jī)數(shù)據(jù)庫更新機(jī)制的研究; 面向突發(fā)事件的網(wǎng)絡(luò)輿情智能采集架構(gòu); 淺析網(wǎng)絡(luò)安全在數(shù)字化校園建設(shè)中的應(yīng)用; 放療機(jī)房防護(hù)的Geant4模擬; 泛在電力物聯(lián)網(wǎng)對(duì)信息安全的要求

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種基于多尺度角點(diǎn)檢測(cè)的語義分割網(wǎng)絡(luò)