王 俊,王 靜,曹 旺
(四川大學(xué)電子信息學(xué)院,成都 610065)
語(yǔ)義分割是計(jì)算機(jī)視覺(jué)三大任務(wù)之一,也一直是科學(xué)界與工業(yè)界投入研究的重點(diǎn)。圖像語(yǔ)義分割是語(yǔ)義分割的重要分支任務(wù),語(yǔ)義指的是圖像中物體所代表的含義,例如在街景圖像中,車(chē)輛、行人、道路、建筑都有著不同的含義,而圖像語(yǔ)義分割主要任務(wù)就是對(duì)圖像的語(yǔ)義進(jìn)行理解,并對(duì)不同語(yǔ)義的物體進(jìn)行分割,其在新興的自動(dòng)駕駛領(lǐng)域有著廣泛的應(yīng)用,具體而言,自動(dòng)駕駛需要對(duì)復(fù)雜的道路情況進(jìn)行理解,高分辨率圖像中的每個(gè)像素都被分類(lèi)為一組語(yǔ)義標(biāo)簽。與其他場(chǎng)景不同,自動(dòng)駕駛場(chǎng)景中的物體表現(xiàn)出非常大的尺度變化,這對(duì)多尺度信息必須正確編碼的意義上的高級(jí)特征表示提出了巨大挑戰(zhàn),同時(shí)精度還會(huì)受外部光照和圖片拍攝角度影響。
目前圖像語(yǔ)義分割算法主要以全卷積神經(jīng)網(wǎng)絡(luò)FCN為基礎(chǔ),其在語(yǔ)義分割領(lǐng)域取得了不錯(cuò)的效果,但還存在一些問(wèn)題:高級(jí)語(yǔ)義信息在提升分割性能方面至關(guān)重要,為了獲得高級(jí)語(yǔ)義信息,F(xiàn)CN 使用了多個(gè)池化層,但后續(xù)需要上采樣恢復(fù)圖像大小,這樣一是丟失了細(xì)節(jié)與局部信息,無(wú)法整合全局信息;二是參數(shù)和計(jì)算時(shí)間大大增加,無(wú)法滿(mǎn)足設(shè)備算力資源有限的情況。
針對(duì)自動(dòng)駕駛場(chǎng)景下圖像分割問(wèn)題,本文以現(xiàn)有的語(yǔ)義分割網(wǎng)絡(luò)Deeplabv3+為基礎(chǔ)提出了一種性能優(yōu)秀的輕量級(jí)圖像語(yǔ)義分割方法,骨干網(wǎng)絡(luò)采用輕量級(jí)的MobilenetV2。首先對(duì)Deeplabv3+的編碼階段進(jìn)行分析,針對(duì)聚合多尺度上下文信息的ASPP 模塊運(yùn)算量過(guò)大,且支路之間缺乏相關(guān)性的問(wèn)題,提出一種新的密集連接結(jié)構(gòu)的ASPP 模塊,在解碼階段,為了整合全局信息,額外選擇了下采樣倍數(shù)為2、8、16的低級(jí)特征進(jìn)行二次特征融合。
目前在圖像語(yǔ)義分割領(lǐng)域有很多深度學(xué)習(xí)方法提出,Long 等人在2015年提出的FCN,F(xiàn)CN 作為圖像語(yǔ)義分割的奠基,解決了像素級(jí)別的圖像分割問(wèn)題,其將CNN 的全連接層替換為卷積層,使得分類(lèi)網(wǎng)絡(luò)能夠輸出熱圖,但下采樣層的存在使得高級(jí)特征圖的分辨率較低,使用雙線(xiàn)性插值或反卷積實(shí)現(xiàn)分辨率重建,將低分辨率的特征圖上采樣至原圖大小,最后在上采樣后的特征圖上完成像素分類(lèi)。
FCN 在處理輸入圖像的過(guò)程中引入了噪聲,對(duì)此Google 提出了著名的Deeplab 系列模型,為了解決池化所帶來(lái)的信息損失,Deeplabv1引入了空洞卷積,同時(shí)利用條件隨機(jī)場(chǎng)來(lái)提高分割性能;Deeplabv2相較Deeplabv1 采用了多尺度和ASPP 獲得了更好的分割效果,將VGG-16替換成了ResNet;Deeplabv3則提出了一種通用框架,同時(shí)改進(jìn)了ASPP。
Deeplabv3+則是本文研究的重點(diǎn),本文在此基礎(chǔ)上做了若干改進(jìn),Deeplabv3+最大的改進(jìn)在于提出了一個(gè)編碼器-解碼器結(jié)構(gòu),編碼器-解碼器結(jié)構(gòu)是目前語(yǔ)義分割領(lǐng)域非常流行的網(wǎng)絡(luò)架構(gòu),一般編碼器部分用來(lái)提取高級(jí)特征,而解碼器部分通過(guò)處理編碼器得到的特征圖得到預(yù)測(cè)圖。
Deeplabv3+模型作為經(jīng)典的編解碼結(jié)構(gòu),將Deeplabv3 模型作為編碼層,在其后端級(jí)聯(lián)一個(gè)簡(jiǎn)單有效的解碼器,模型結(jié)構(gòu)如圖1 所示。
圖1 Deeplabv3+結(jié)構(gòu)
解碼階段(decoder)對(duì)編碼階段輸出的特征張量采用雙線(xiàn)性插值4 倍上采樣后,與Backbone 上對(duì)應(yīng)層級(jí)的特征圖拼接,利用跨層連接捕捉淺層特征承載的細(xì)節(jié)信息,進(jìn)一步豐富圖像的語(yǔ)義信息和細(xì)節(jié)信息;經(jīng)兩個(gè)3×3 卷積細(xì)化特征后,使用雙線(xiàn)性插值4 倍上采樣將特征圖尺寸逐步恢復(fù)到原始圖像大小,緩解采樣幅度過(guò)大導(dǎo)致部分特征信息丟失問(wèn)題。
本文在Deeplabv3+模型的基礎(chǔ)上進(jìn)行了改進(jìn), 提出了一種新型語(yǔ)義分割模型UDeeplabv3+,U-Deeplabv3+的整體結(jié)構(gòu)如圖2所示。
圖2 U-Deeplabv3+結(jié)構(gòu)
編碼階段,針對(duì)原ASPP模塊使用了多個(gè)空洞卷積對(duì)輸入特征并行進(jìn)行運(yùn)算,導(dǎo)致網(wǎng)絡(luò)運(yùn)算量過(guò)大,并且不同空洞卷積支路之間缺乏聯(lián)系的問(wèn)題,本文創(chuàng)新性地提出了一種多支路串行ASPP 模塊,將多個(gè)空洞卷積支路串行連接,使得每一個(gè)空洞卷積支路輸入由原來(lái)的維度320降低到128,大大減小了模塊的計(jì)算量,同時(shí)采用密集連接的思路,將前一支路的輸出與現(xiàn)支路的輸出進(jìn)行相加,再送入后一支路,密集連接的優(yōu)勢(shì)在于增強(qiáng)了各支路的相關(guān)性,增大了感受野,充分地利用了有效信息,分割精度有所提高;同時(shí)本文舍棄了原ASPP 模塊每個(gè)支路輸出最后并行相加的做法,只選擇了1x1卷積支路、空洞卷積串行支路、池化支路的輸出進(jìn)行合并相加,進(jìn)一步減小了計(jì)算量,同時(shí)兼顧了精度。
解碼階段,原Deeplabv3+網(wǎng)絡(luò)僅使用了下采樣倍數(shù)為4的特征與高級(jí)特征進(jìn)行融合,并沒(méi)有充分利用所有的低級(jí)特征,而低級(jí)特征中包含更多的細(xì)節(jié)。本文提出了一種新的解碼模塊U-Decoder,靈感來(lái)自UNet,采用類(lèi)似U 型的網(wǎng)絡(luò)架構(gòu),下采樣倍數(shù)不同的低級(jí)特征調(diào)整尺度后依次進(jìn)行融合,相鄰特征之間的融合使得特征之間的相關(guān)性增強(qiáng),提高了低級(jí)信息利用率,最后再將融合的低級(jí)特征與高級(jí)特征進(jìn)行融合,各級(jí)特征圖都得到了利用,使得分割精度有所提高。
本文創(chuàng)新性地提出MSASPP 模塊(multibranch series ASPP),保留了原ASPP 模塊的全局平均池化支路和1x1卷積支路,將三條空洞卷積支路改為串行連接,詳細(xì)結(jié)構(gòu)見(jiàn)圖3,多條空洞卷積支路串行連接帶來(lái)了更大范圍的感受野,串行連接的感受野計(jì)算公式如下:
圖3 MSASPP感受野
其中和為兩個(gè)串行的空洞卷積感受野,為串行后的感受野大小。各空洞卷積支路的感受野變化如圖3,同時(shí)采用了密集連接的方式加強(qiáng)了各支路的相關(guān)性,因?yàn)榕蛎浡手饾u增加,上層的卷積可以利用下層的特征,使像素采樣更加密集,高感受野的特征也能擁有低感受野的特征信息。MSASPP模塊的輸出可表示為:
高級(jí)特征具有豐富的語(yǔ)義信息,低級(jí)特征具有更多的細(xì)節(jié)信息,而不同層級(jí)的低級(jí)特征的信息也不盡相同,所以相較于僅利用一種層級(jí)的低級(jí)特征,使用所有的低級(jí)特征是更好的選擇。本文提出了一種U 型解碼結(jié)構(gòu),從下采樣倍數(shù)為2的低級(jí)特征支路開(kāi)始,依次和相鄰的低級(jí)特征進(jìn)行融合,分辨率更低的低級(jí)特征融合前需要先進(jìn)行上采樣到與上一級(jí)的低級(jí)特征分辨率相同。這樣的做法帶來(lái)的好處是最大程度上利用了所有層級(jí)的信息,沒(méi)有錯(cuò)過(guò)不同的細(xì)節(jié),同時(shí)相鄰的低級(jí)特征依次融合,其特征圖所含的語(yǔ)義信息相近,融合的契合度較高。詳細(xì)結(jié)構(gòu)見(jiàn)圖2。
自動(dòng)駕駛領(lǐng)域常用的數(shù)據(jù)集是Cityscapes 數(shù)據(jù)集,該數(shù)據(jù)集包含50 多個(gè)城市采集得來(lái)的街景圖像,總共包含5000 張高質(zhì)量標(biāo)注圖像,20000張粗略標(biāo)注圖,一般街道場(chǎng)景語(yǔ)義分割只采用5000 張精細(xì)標(biāo)注圖,其中2975 張圖作為訓(xùn)練集,500張圖作為驗(yàn)證集,1525張圖作為測(cè)試集,但是測(cè)試機(jī)的標(biāo)注沒(méi)有公開(kāi),所以本文僅使用驗(yàn)證集評(píng)估模型改進(jìn)后的效果。Cityscapes數(shù)據(jù)集有1024×2048 的高分辨率,由于機(jī)器的性能限制和模型要求,將輸入圖像分辨率由1024×2048 調(diào)整為513×513,并通過(guò)隨機(jī)裁剪、色彩抖動(dòng)、翻轉(zhuǎn)來(lái)對(duì)圖像進(jìn)行數(shù)據(jù)增強(qiáng)。
在語(yǔ)義分割任務(wù)中,像素精度、平均像素精度、頻權(quán)交并比、均交并比都是評(píng)價(jià)算法性能優(yōu)劣的指標(biāo)。而均交并比(mean intersection over union,)是最常用的指標(biāo),本文也主要采用作為評(píng)價(jià)指標(biāo),將類(lèi)別的預(yù)測(cè)值與真實(shí)值之間的交集和并集進(jìn)行相除,求和之后再取平均值,表示為不同類(lèi)別預(yù)測(cè)值和真實(shí)值的重合程度。
其中,代表圖像中像素的總類(lèi)別數(shù)量,X代表像素實(shí)際類(lèi)別是類(lèi),預(yù)測(cè)結(jié)果是類(lèi)的數(shù)量,X代表像素實(shí)際類(lèi)別是類(lèi),預(yù)測(cè)結(jié)果是類(lèi)的數(shù)量,X代表像素實(shí)際類(lèi)別是類(lèi),預(yù)測(cè)結(jié)果是類(lèi)的數(shù)量。
本文實(shí)驗(yàn)基于Pytorch 框架,語(yǔ)言為Python3.7,操作系統(tǒng)為Ubuntu18.04,芯片為Intel Xeon E5- 1650 v4 主頻3.6 GHz,內(nèi)存32 GB,顯卡為一塊NVIDIA GeForce GTX 1080Ti,初始學(xué)習(xí)率為0.05,weight decay 設(shè)置為1e-4,學(xué)習(xí)策略為poly,動(dòng)量為0.9,損失函數(shù)為交叉熵函數(shù)。
為了確定模型的有效性,將U-Deeplabv3+與其他語(yǔ)義分割算法在Cityscapes 驗(yàn)證集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示。
表1 不同模型在Cityscapes 上性能對(duì)比
由表1 可知,Deeplabv3+與其他的語(yǔ)義分割算法相比擁有較為先進(jìn)的結(jié)果,本文提出的UDeeplabv3+在其基礎(chǔ)上獲得了更有競(jìng)爭(zhēng)力的結(jié)果,mIoU 相較Deeplabv3+提高了2.1%,以較小的時(shí)間成本為代價(jià),換得分割精度的提升,較好地權(quán)衡二者之間關(guān)系,一定程度上提升了工程實(shí)用性。
在Cityscapes 數(shù)據(jù)集上分割結(jié)果對(duì)比如圖4所示。觀(guān)察圖4 可知,Deeplabv3+模型沒(méi)能對(duì)圖片中的紅綠燈、交通標(biāo)志等小物體進(jìn)行清晰分割,細(xì)節(jié)丟失嚴(yán)重;而U-Deeplabv3+模型妥善處理了上述不足之處,由于擁有多分支串聯(lián)MSASPP 模塊和U 型解碼結(jié)構(gòu),模型具有較大的感受野,對(duì)于小物體的感知也更加準(zhǔn)確,同時(shí)也能夠表征出圖像細(xì)節(jié)信息,邊緣預(yù)測(cè)更為清晰,綜上,U-Deeplabv3+模型更好地保留圖像細(xì)節(jié)信息,預(yù)測(cè)結(jié)果更加準(zhǔn)確和全面。
圖4 Cityscapes 驗(yàn)證集上分割結(jié)果對(duì)比
為驗(yàn)證多分支串聯(lián)MSASPP 模塊、U 型解碼結(jié)構(gòu)等方案的有效性,故在Cityscapes 數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),以mIoU 為對(duì)比指標(biāo),實(shí)驗(yàn)結(jié)果如表2所示。
表2 不同改進(jìn)方案在Cityscapes數(shù)據(jù)集上性能分析
本文針對(duì)Deeplabv3+模型細(xì)節(jié)感知能力較弱,對(duì)于小物體存在誤判漏判的問(wèn)題,提出了改進(jìn)方案。通過(guò)設(shè)計(jì)多分支串聯(lián)MSASPP 模塊,提供更大的感受野,同時(shí)采用密集連接設(shè)計(jì),進(jìn)一步增強(qiáng)了信息間交互,提升信息利用率;設(shè)計(jì)了U 型解碼結(jié)構(gòu),目的是恢復(fù)更多的在降采樣過(guò)程中損失的空間維度信息和像素位置信息,最大程度上利用了所有層級(jí)的信息,沒(méi)有錯(cuò)過(guò)不同的細(xì)節(jié),同時(shí)相鄰的低級(jí)特征依次融合,其特征圖所含的語(yǔ)義信息相近,融合的契合度較高。
本文模型在Cityscapes 數(shù)據(jù)集上的實(shí)驗(yàn)數(shù)據(jù)證明,改進(jìn)后的模型結(jié)構(gòu)擁有較好的分割性能,同時(shí)對(duì)小物體的感知能力較強(qiáng)。在后續(xù)工作中,將深入研究兼顧預(yù)測(cè)精度與實(shí)時(shí)性的高性能網(wǎng)絡(luò),進(jìn)一步增強(qiáng)語(yǔ)義分割算法在工程應(yīng)用中實(shí)用性。