用于場景分割的改進(jìn)DeepLabV3+算法

2022-03-16 10:29桑永龍

電光與控制 2022年3期

桑永龍，韓軍

(1.上海大學(xué)通信與信息工程學(xué)院，上海 200000；2.上海先進(jìn)通信與數(shù)據(jù)科學(xué)研究院，上海 200000)

0 引言

隨著深度學(xué)習(xí)的廣泛應(yīng)用，語義分割作為圖像處理中的重要算法，已經(jīng)成為近年來研究的熱點(diǎn)。傳統(tǒng)的圖像分割算法主要分析低階語義來分割不同目標(biāo)，常用的語義信息包括形狀、顏色、紋理等。但是這些低階信息不僅缺失像素的對比度、方向度等中級語義，而且缺少像素之間的實(shí)體類別之間的高級語義，從而給聚類分析帶來一定挑戰(zhàn)。

為了改善傳統(tǒng)圖像分割的不足，語義分割研究者們提出一種以卷積神經(jīng)網(wǎng)絡(luò)為核心的像素分類方法，解析圖像的深層次語義信息。文獻(xiàn)[1]提出了基于全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,FCN)的語義分割算法，該方法的優(yōu)點(diǎn)在于，輸入圖像的尺寸不再固定，可以為不同大小，同時(shí)不再局限于塊級別輸入，使計(jì)算復(fù)雜度大大降低，但是圖像下采樣操作也直接導(dǎo)致特征的分辨率降低，目標(biāo)的邊界變得非常模糊，使分割不夠精確。基于FCN的思路，文獻(xiàn)[2]提出SegNet網(wǎng)絡(luò)，首先使用same卷積從編碼端提取分辨率較低的語義特征，然后根據(jù)編碼器中最大池化層得到的提示信息定位目標(biāo)位置，最后在解碼端同樣使用same卷積，將在池化過程中丟失的信息重新學(xué)習(xí)到，從而生成高分辨率預(yù)測圖。在此基礎(chǔ)上，文獻(xiàn)[3]提出U-Net網(wǎng)絡(luò)模型，該模型主要采用U型的“編解碼”結(jié)構(gòu)，此結(jié)構(gòu)的反卷積層同時(shí)整合了前一層的輸出特征和對應(yīng)下采層捕捉到的語義信息，從而對目標(biāo)進(jìn)行精確定位，此方法可以較好地處理大分辨率圖像，但不能很好地解決尺度變化的問題。2016年,谷歌提出的DeepLab網(wǎng)絡(luò)模型以其優(yōu)越的分割效果成為語義分割領(lǐng)域經(jīng)典的算法之一。DeepLabV1[4]采用深度卷積網(wǎng)絡(luò)和全連接條件隨機(jī)場完成語義分割，但是最大池化和下采樣操作壓縮了圖像分辨率，降低了圖像的分辨率，同時(shí)空間不變性也限制了此模型的精度，使獲得的概率圖變模糊。在此基礎(chǔ)上，DeepLabV2[5]結(jié)合空洞卷積實(shí)現(xiàn)語義分割，允許有效地?cái)U(kuò)大卷積核的視場來整合更多的上下文信息，從而確保了訓(xùn)練階段能夠?qū)W習(xí)到多尺度目標(biāo)的信息，且不需要增加額外的參數(shù)或者計(jì)算量。DeepLabV3[6]將空洞卷積改進(jìn)為空洞空間金字塔池化(Atrous Spatial Pyramid Pooling，ASPP)結(jié)構(gòu)模型，ASPP使用多個采樣率和有效視場的卷積核來檢測傳入的卷積特征，能夠在多個尺度上捕獲目標(biāo)和圖像的上下文內(nèi)容。CHEN等[7]提出了DeepLabV3+網(wǎng)絡(luò)，該網(wǎng)絡(luò)采用編解碼器模型，將V3版本的網(wǎng)絡(luò)作為網(wǎng)絡(luò)編碼器，輸出不同尺度的高層特征，設(shè)置解碼器將低層特征與編碼器高層特征相結(jié)合，并通過雙線性插值進(jìn)行上采樣恢復(fù)物體細(xì)節(jié)和空間信息。近年來，ZHONG等[8]提出的SANet(Squeeze and Attention Networks)通過引入“注意力”卷積通道將像素組注意力強(qiáng)加于常規(guī)卷積上，從而考慮了空間通道的相互依賴性，最終合并來自SANet的4個不同層次階段的信息輸出預(yù)測結(jié)果，然而注意力機(jī)制對于目標(biāo)的位置捕獲能力較差，很難學(xué)習(xí)序列中的順序關(guān)系。ZHANG等[9]提出了一種跨空間和尺度的特征交互網(wǎng)絡(luò)FPT(Feature Pyramid Transformer),該網(wǎng)絡(luò)通過使用了3個自上而下和自下而上transformer將特征金字塔轉(zhuǎn)換為具有更豐富上下文信息的特征金字塔，但使網(wǎng)絡(luò)的局部信息獲取不足，造成位置編碼不準(zhǔn)確。

本文提出的改進(jìn)的DeepLabV3+網(wǎng)絡(luò)模型算法不僅優(yōu)化主干殘差單元，同時(shí)重新設(shè)計(jì)了ASPP結(jié)構(gòu)，并在解碼端融合多個尺度的編碼信息，提高了網(wǎng)絡(luò)的識別準(zhǔn)確度與分割精度。

1 改進(jìn)的DeepLabV3+網(wǎng)絡(luò)

DeepLabV3+網(wǎng)絡(luò)主要由主干網(wǎng)絡(luò)(特征提取網(wǎng)絡(luò))、ASPP模塊[10-12]和上采樣模塊組成。在此網(wǎng)絡(luò)的基礎(chǔ)上，本文首先用ResNest網(wǎng)絡(luò)[13]替換了主干網(wǎng)絡(luò)中的ResNet網(wǎng)絡(luò)[14]，使得各訓(xùn)練目標(biāo)的權(quán)重比值不同，同時(shí)使用密集連接的空洞卷積金字塔模塊重構(gòu)ASPP，增大感受野，提高對特征信息的復(fù)用效率。最后在解碼端引入了編碼端不同降采樣層輸出的特征信息，增加網(wǎng)絡(luò)對細(xì)粒度特征的感知。改進(jìn)后的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

圖1 改進(jìn)DeepLabV3+網(wǎng)絡(luò)原理圖Fig.1 Schematic diagram of improved DeepLabV3+ network

1.1 主干網(wǎng)絡(luò)優(yōu)化

DeepLabV3+網(wǎng)絡(luò)中的主干網(wǎng)絡(luò)，包括ResNet和其他基礎(chǔ)的殘差網(wǎng)絡(luò)，是針對于圖像分類而設(shè)計(jì)的，由于有限的感受野大小以及缺乏跨通道之間的相互作用，這些網(wǎng)絡(luò)并不適合于目標(biāo)檢測、圖像分割等領(lǐng)域。因此，為改善ResNet網(wǎng)絡(luò)對目標(biāo)特征提取的限制，本文受分組卷積[15]的啟發(fā)，采用了可分組的ResNest網(wǎng)絡(luò)替換ResNet。首先將特征圖按照網(wǎng)絡(luò)超參數(shù)K分成幾個固定的分組，并將由此得到的特征圖組稱之為基數(shù)組，如圖2(c)所示，則對應(yīng)的變換公式為

(1)

式中：y表示分組網(wǎng)絡(luò)的輸出特征；x表示輸入特征；Τi(x)表示第i個分組對應(yīng)的變換關(guān)系。對于一個未分組的網(wǎng)絡(luò)來說，若輸入特征圖尺寸為C×W×H，卷積核數(shù)量為N，每個卷積核尺寸為C×M×M，輸出特征圖數(shù)量也為N，如圖2(a)所示，則需要學(xué)習(xí)的參數(shù)個數(shù)為N×C×M×M。若分成K個分組，如圖2(b)所示，則對應(yīng)需要學(xué)習(xí)的參數(shù)個數(shù)為N×(1/K)×M×M，由此可見，需要學(xué)習(xí)到的參數(shù)為原來的1/K，降低了網(wǎng)絡(luò)學(xué)習(xí)參數(shù)。

圖2 分組網(wǎng)絡(luò)原理圖Fig.2 Schematic diagram of grouped network

ResNest的另一個改進(jìn)之處在于對基數(shù)組的二次分割。將基數(shù)組劃分成R組，則總的特征組數(shù)量為G=KR，則對于每個基數(shù)組輸出的特征信息可以表示為

(2)

(3)

由式(3)可知，分組后的網(wǎng)絡(luò)在訓(xùn)練時(shí)每個分組可以得到不同的權(quán)重，因此對于輸入圖像，不同分組學(xué)習(xí)到的特征不同，從而提高了學(xué)習(xí)效率和特征提取的準(zhǔn)確性。最終ResNest模塊的設(shè)計(jì)方式為V=Concat{V1,V2，…，VK}，表示將所有的基數(shù)組沿著通道維度連接起來構(gòu)成一個整體。

1.2 密集連接ASPP

在卷積神經(jīng)網(wǎng)絡(luò)中，為了保留圖像卷積的細(xì)節(jié)特征，同時(shí)增大感受野，DeepLabV3+采用空洞卷積和空洞空間金字塔池化模塊來融合圖像的多尺度特征。當(dāng)空洞卷積的卷積核大小為k，擴(kuò)張率為r′時(shí)，其能夠提供的感受野大小為

R=(r′-1)×(k-1)+k。

(4)

由式(4)可知，感受野大小與擴(kuò)張率成正比。雖然較大的擴(kuò)張率可以帶來更大的感受野，并捕獲更多的全局特征，但是這并不意味著，擴(kuò)張率越大越好。因?yàn)閿U(kuò)張率會使得局部特征的提取難度增加，如圖3(a)所示，對于一個一維的圖像空洞卷積來說，若其擴(kuò)張率為6，則在此次卷積過程中只有3個像素被用來計(jì)算，導(dǎo)致邊緣細(xì)節(jié)信息提取不足，這種現(xiàn)象若被拓展到二維，則情況會變得更糟。

為解決ASPP模型中增大感受野導(dǎo)致信息丟失問題，本文根據(jù)DenseNet網(wǎng)絡(luò)[16]設(shè)計(jì)了重構(gòu)后的密集連接ASPP結(jié)構(gòu)(見圖1)。在密集連接的ASPP中，隨著擴(kuò)張率的逐層增加，下層的特征會被上層卷積所利用，使得像素的采樣更加密集，與并聯(lián)ASPP相比可以利用更多的圖像像素。圖3(b)說明，對于一個擴(kuò)張率為6的卷積層，在其卷積層之下設(shè)置一個擴(kuò)張率為3的卷積層可以使得其參與計(jì)算的像素從原來的3個像素增加到7個。如圖3(c)所示，拓展到二維的效果更加明顯，參與計(jì)算的像素由9個增加到49個。這種擴(kuò)張率卷積層密集連接的方式不僅提高了像素的利用，也將目標(biāo)細(xì)節(jié)特征傳遞到更深的網(wǎng)絡(luò)層，提高了目標(biāo)的分割能力。

圖3 空洞卷積采樣圖Fig.3 Astrous convolution sampling

在感受野計(jì)算方面，密集連接的ASPP得到的感受野大小是各層卷積網(wǎng)絡(luò)輸出感受野大小的累加，而并聯(lián)ASPP只是各層輸出感受野的最大值。傳統(tǒng)的Deep-LabV3+網(wǎng)絡(luò)中ASPP使用的擴(kuò)張率大小分別為6，12和18，則最大感受野表示為：Rmax=max(R3,6，R3,12，R3,18)=R3,18=37。

本文使用的密集連接ASPP的擴(kuò)張率分別為6，12，18和24，則最大感受野表示為：Rmax=R3,6+R3,12+R3,18+R3,24-3=122。其中：Rk,r表示當(dāng)卷積核大小為k的情況下，空洞擴(kuò)張率為r時(shí)，卷積核所能提供的感受野大小。因此在特征卷積過程中，可以利用式(5)衡量感受野和信息利用率β之間的關(guān)系，即

(5)

密集連接前后空洞卷積在特征圖中表現(xiàn)如表1所示。

表1 ASPP連接方式對空洞卷積的影響Table 1 Effect of ASPP connection methods on astrous convolution

從表1中可知，并聯(lián)方式的ASPP感受野大小取決于最大擴(kuò)張率的空洞卷積，但是隨著空洞卷積的增加，有效利用的像素個數(shù)并沒有增加，所以像素利用率下降。相比而言，密集連接的ASPP不僅在感受野方面有著較大提升，而且像素利用率也有明顯提高。

1.3 解碼端設(shè)計(jì)

圖像細(xì)節(jié)特征的丟失和圖像的下采樣有直接的關(guān)系，為了獲得更多的細(xì)節(jié)特征，本文在DeepLabV3+網(wǎng)絡(luò)的基礎(chǔ)上引入更多的低層語義特征，此處主要融合了采樣系數(shù)為1/4，1/8 和1/16的低層語義特征，同時(shí)為了不影響編碼端輸出的高階語義特征，將輸出的3種低層語義特征降維成64，32和16，降維操作的主要作用是防止低層語義信息過多，影響高層語義信息的表達(dá)，造成目標(biāo)分割不準(zhǔn)確。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 實(shí)驗(yàn)配置

實(shí)驗(yàn)的硬件配置為：Intel Xeon E5-2620處理器，16 GiB內(nèi)存，NVIDIA GTX1080Ti顯卡，系統(tǒng)配置主要基于Ubuntu16.04操作系統(tǒng)，采用Pytorch1.3框架，Python版本是3.6。訓(xùn)練的基本網(wǎng)絡(luò)是DeepLabV3+，其主干部分采用ResNest網(wǎng)絡(luò)，采用密集連接的ASPP，解碼端采用多尺度語義特征融合方法。

2.2 實(shí)驗(yàn)流程和評價(jià)指標(biāo)

實(shí)驗(yàn)流程可以分成3個部分：數(shù)據(jù)集準(zhǔn)備、數(shù)據(jù)訓(xùn)練和數(shù)據(jù)驗(yàn)證。實(shí)驗(yàn)主要采用公開的CityScape數(shù)據(jù)集[17]，該數(shù)據(jù)集提供了5000 張精細(xì)標(biāo)注的圖像，被劃分為訓(xùn)練集2975張、驗(yàn)證集500張、測試集1525張，有19個類別用于語義分割驗(yàn)證，根據(jù)類別屬性將其分為天空、人物、車輛等7大類。訓(xùn)練網(wǎng)絡(luò)參數(shù)如下：學(xué)習(xí)率為0.012 5、輸出步長為16、batch_size設(shè)置為4，共訓(xùn)練500次。

本文采用語義分割的評價(jià)標(biāo)準(zhǔn)有2種，平均像素精度 (MPA)和平均交并比 (MIoU)。若數(shù)據(jù)集含有k+1個類別，pi j表示真值為第i類的像素被預(yù)測為第j類像素的數(shù)目，則pi i表示為真正的像素?cái)?shù)量(TP)，pj j為假負(fù)的像素?cái)?shù)量(FN)，pj i為假正的像素?cái)?shù)量(FP)。

MPA是計(jì)算每類被正確分類的像素比例，再取平均，即

(6)

MIoU是真實(shí)標(biāo)簽與預(yù)測標(biāo)簽的交集與其并集之比，計(jì)算每個類的 IoU，再取平均，即

(7)

2.3 實(shí)驗(yàn)結(jié)果分析

2.3.1 不同主干對比實(shí)驗(yàn)與分析

本節(jié)基于DeepLabV3+網(wǎng)絡(luò)，對比了3種不同主干網(wǎng)絡(luò)在CityScape數(shù)據(jù)集上測試的數(shù)據(jù)結(jié)果，如表2所示。

表2 不同主干網(wǎng)絡(luò)對實(shí)驗(yàn)的影響對比Table 2 Comparison of the influence of different backbone networks on the experiment

由表2可以看出，在只改變主干殘差單元的情況下，不同的主干網(wǎng)絡(luò)對于CityScape數(shù)據(jù)集檢測結(jié)果不同，其中以ResNest為主干的網(wǎng)絡(luò)，在MIoU和MPA兩個性能上的表現(xiàn)要優(yōu)于其他兩種網(wǎng)絡(luò)，但是由于改進(jìn)的DeepLabV3+網(wǎng)絡(luò)更為復(fù)雜，所以單幀圖像預(yù)測時(shí)間有了一定增加。

2.3.2 改進(jìn)ASPP對比實(shí)驗(yàn)與分析

本節(jié)實(shí)驗(yàn)主要驗(yàn)證ASPP連接方式和不同擴(kuò)張率對實(shí)驗(yàn)結(jié)果的影響。其中，表3記錄了主干為ResNest情況下，不同的ASPP連接方式和擴(kuò)張率組對網(wǎng)絡(luò)性能的影響。

表3 不同的ASPP連接方式和擴(kuò)張率對實(shí)驗(yàn)結(jié)果影響對比Table 3 Influence of different ASPP connection methods and expansion rates on experimental results

由表3可以看出，在連接方式相同的情況下，隨著感受野的增大，網(wǎng)絡(luò)的MIoU也越高，其中，并聯(lián)方式提升了0.8%，密集連接的方式提升了1.2%，但是擴(kuò)張率組的增加會導(dǎo)致網(wǎng)絡(luò)越復(fù)雜，單幀預(yù)測時(shí)間越增大。在相同擴(kuò)張率的情況下，密集連接的方式相比于并聯(lián)方式在MIoU方面提升較大，最高可以提升3.3%，但是單幀預(yù)測時(shí)間基本相同，此結(jié)果不僅說明具有更大感受野的密集連接ASPP在CityScape數(shù)據(jù)集上分割更加準(zhǔn)確，而且證實(shí)增加的1×1卷積層能夠降低網(wǎng)絡(luò)參數(shù)，從而有效防止單幀檢測時(shí)間升高。

2.3.3 改進(jìn)網(wǎng)絡(luò)和原網(wǎng)絡(luò)對各類目標(biāo)檢測結(jié)果對比

本節(jié)實(shí)驗(yàn)主要對比以不同主干的原DeepLabV3+網(wǎng)絡(luò)和改進(jìn)后的網(wǎng)絡(luò)，在測試集中對每一類對象的檢測結(jié)果的影響，結(jié)果如表4所示。

表4 不同網(wǎng)絡(luò)在CityScape數(shù)據(jù)集上每一類別的MIoU統(tǒng)計(jì)結(jié)果Table 4 The MIoU statistical results of each category on the CityScape dataset of different networks

從表4統(tǒng)計(jì)結(jié)果可知，本文模型對除天空之外的其他類別都有不同程度的提升，其中對于行人和交通標(biāo)識等較小目標(biāo)的識別能力提升較大。為了驗(yàn)證改進(jìn)和未改進(jìn)的DeepLabV3+網(wǎng)絡(luò)在目標(biāo)識別準(zhǔn)確度和邊界優(yōu)化上的效果，圖4記錄了各種網(wǎng)絡(luò)出在CityScape數(shù)據(jù)集上的檢測結(jié)果圖。

圖4 不同網(wǎng)絡(luò)預(yù)測結(jié)果對比圖Fig.4 Comparison of different network prediction results

從圖4中可以看出，以ResNet101為主干的網(wǎng)絡(luò)對大目標(biāo)(如植物)和小目標(biāo)(如行人和交通標(biāo)識)的分割效果相對較差。以ResNet152系列為主干的網(wǎng)絡(luò)在對大目標(biāo)分割時(shí)效果有所提升，但是對于目標(biāo)細(xì)節(jié)的分割仍然沒有明顯的提高，例如部分騎手被錯誤地識別成為行人。改進(jìn)DeepLabV3+網(wǎng)絡(luò)既保證了大目標(biāo)的分割準(zhǔn)確度，同時(shí)也能達(dá)到對小目標(biāo)的精確分割，例如圖4中白框表示部分，交通標(biāo)識和車輛的輪廓細(xì)節(jié)更加清晰，人物分割更加準(zhǔn)確。

3 結(jié)束語

本文主要針對室外道路場景，提出了一種改進(jìn)DeepLabV3+語義分割網(wǎng)絡(luò)。此網(wǎng)絡(luò)主要通過替換主干網(wǎng)絡(luò)為ResNest，在單個網(wǎng)絡(luò)中結(jié)合了分組卷積結(jié)構(gòu)，使網(wǎng)絡(luò)能夠保留大部分的空間信息，同時(shí)設(shè)計(jì)密集連接ASPP模塊，實(shí)現(xiàn)不犧牲特征空間分辨率的同時(shí)擴(kuò)大感受野和提高信息復(fù)用率。解碼端融合3種不同低層語義特征，增加了目標(biāo)細(xì)粒度特征信息的感知。相比于DeepLabV3+網(wǎng)絡(luò)，本文提出的算法在CityScape數(shù)據(jù)集上的MIoU和MPA兩種指標(biāo)上都有較大的提升，同時(shí)較好地解決了小目標(biāo)分割不準(zhǔn)確和邊界模糊問題。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡