摘 要 近年來(lái),隨著越來(lái)越多的應(yīng)用場(chǎng)景需要高效而且精確的分割技術(shù),例如移動(dòng)機(jī)器人、智能駕駛、室內(nèi)導(dǎo)航、虛擬現(xiàn)實(shí)與增強(qiáng)現(xiàn)實(shí)等。圖像語(yǔ)義分割問(wèn)題吸引了越來(lái)越多的計(jì)算機(jī)視覺(jué)與機(jī)器學(xué)習(xí)研究者。首先介紹了圖像語(yǔ)義分割技術(shù)相關(guān)的背景知識(shí),然后介紹了幾種圖像語(yǔ)義分割問(wèn)題的深度學(xué)習(xí)算法及其特點(diǎn),最后針對(duì)當(dāng)前該領(lǐng)域存在的一些問(wèn)題進(jìn)行總結(jié)和展望。
關(guān)鍵詞 圖像語(yǔ)義分割;深度學(xué)習(xí);智能駕駛
引言
我們都知道,圖像是由許多像素組成,而語(yǔ)義分割顧名思義就是將像素按照?qǐng)D像中表達(dá)語(yǔ)義含義的不同進(jìn)行分組。然而,語(yǔ)義分割任務(wù)是一個(gè)非常具有挑戰(zhàn)性的難題,其難點(diǎn)主要包括在物體層次上,對(duì)于同一物體,由于光照、視角等的不同,拍攝出的圖像會(huì)有很大的不同,另外,由于物體運(yùn)動(dòng),物體之間的相互交叉等所帶來(lái)的形變與遮擋問(wèn)題,也給圖像語(yǔ)義分割帶來(lái)了很大的挑戰(zhàn)。在類(lèi)別層次上,類(lèi)內(nèi)物體之間的差異性和類(lèi)間物體之間的相似性。在背景層次上,干凈的背景有助于實(shí)現(xiàn)圖像的語(yǔ)義分割,但實(shí)際場(chǎng)景中錯(cuò)綜復(fù)雜的背景會(huì)大大提升了分割的難度。
在深度學(xué)習(xí)應(yīng)用到計(jì)算機(jī)視覺(jué)領(lǐng)域之前,研究人員一般使用紋理基元森林或是隨機(jī)森林方法來(lái)構(gòu)建用于語(yǔ)義分割的分類(lèi)器。傳統(tǒng)語(yǔ)義分割是在一副圖像中,把目標(biāo)從背景中分離出來(lái),由于計(jì)算機(jī)計(jì)算能力有限,只能處理一些灰度圖,后來(lái)才能處理RGB圖,這時(shí)的分割主要是通過(guò)提取圖片的低級(jí)特征,然后進(jìn)行分割,出現(xiàn)了一些方法:Ostu、FCM、分水嶺等。之后,隨著計(jì)算能力的提高,人們開(kāi)始考慮獲得圖像的語(yǔ)義分割,這里的語(yǔ)義是低級(jí)語(yǔ)義,主要指分割出來(lái)的物體的類(lèi)別,這個(gè)階段人們考慮使用機(jī)器學(xué)習(xí)的方法進(jìn)行分割。隨著Jonathan Long 等人在2015年提出的全卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn),深度學(xué)習(xí)才正式進(jìn)入圖像語(yǔ)義分割領(lǐng)域,這里的語(yǔ)義主要指分割出來(lái)的物體的類(lèi)別,從分割結(jié)果可以清楚地知道分割出來(lái)的是什么物體,比如貓、狗等。至此圖像語(yǔ)義分割技術(shù)進(jìn)入到了全卷積神經(jīng)網(wǎng)絡(luò)時(shí)期。全卷積神經(jīng)網(wǎng)絡(luò)在深度學(xué)習(xí)中表現(xiàn)出了強(qiáng)大的潛力,計(jì)算機(jī)在圖片通過(guò)深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行深度學(xué)習(xí)后能夠清楚地歸納出輸入圖片中的具有相同語(yǔ)義含義的像素點(diǎn)。深度學(xué)習(xí)方法成為現(xiàn)今解決語(yǔ)義分割問(wèn)題的主流。
1基于深度學(xué)習(xí)的語(yǔ)義分割方法
深度學(xué)習(xí)技術(shù)引入至計(jì)算機(jī)視覺(jué)領(lǐng)域之后獲得了巨大成功。其中FCN作為基于深度學(xué)習(xí)的圖像語(yǔ)義分割的開(kāi)山之作,對(duì)之后的語(yǔ)義分割網(wǎng)絡(luò)起到了很好的引領(lǐng)作用。本文將介紹FCN以及由其改進(jìn)而來(lái)的其他幾種深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)[1]。
(1)FCN。這篇論文是第一篇成功使用深度學(xué)習(xí)做圖像語(yǔ)義分割的論文。FCN首先提出了全卷積網(wǎng)絡(luò)。將全連接網(wǎng)絡(luò)替換成了卷積網(wǎng)絡(luò),使得網(wǎng)絡(luò)可以接受任意大小的圖片,并輸出和原圖一樣大小的分割圖。只有這樣,才能為每個(gè)像素做分類(lèi)。 然后FCN使用了反卷積層。分類(lèi)神經(jīng)網(wǎng)絡(luò)的特征圖一般只有原圖的幾分之一大小。想要映射回原圖大小必須對(duì)特征圖進(jìn)行上采樣,這就是反卷積層的作用。雖然名字叫反卷積層,但其實(shí)它并不是卷積的逆操作,更合適的名字叫作轉(zhuǎn)置卷積,通過(guò)上采樣將小的特征圖卷回大的特征圖。同樣的雖然FCN有許多優(yōu)點(diǎn),但缺點(diǎn)也很明顯,分割結(jié)果與人工標(biāo)注的圖相比還是較為模糊,具體細(xì)節(jié)方面還不夠好。其次,對(duì)圖片像素進(jìn)行分類(lèi)時(shí)并沒(méi)有充分考慮圖片的上下文關(guān)系,缺乏空間上的一致性。
(2)SegNet。SegNet的新穎之處在于解碼器對(duì)其較低分辨率的輸入特征圖進(jìn)行上采樣的方式。具體地說(shuō),解碼器使用了在相應(yīng)編碼器的最大池化步驟中計(jì)算的池化索引來(lái)執(zhí)行非線性上采樣。這種方法消除了學(xué)習(xí)上采樣的需要。經(jīng)上采樣后的特征圖是稀疏的,因此隨后使用可訓(xùn)練的卷積核進(jìn)行卷積操作,生成密集的特征圖。并且其編碼器和 FCN 一樣進(jìn)行卷積而不使用全連接層,因此是擁有較少參數(shù)的輕量級(jí)網(wǎng)絡(luò)。
(3)DeepLab。DeepLab是Google團(tuán)隊(duì)提出的一種用于圖像語(yǔ)義分割的深度學(xué)習(xí)模型。Deeplab仍然采用了與FCN相同的全卷積化結(jié)構(gòu)。并在其基礎(chǔ)之上提出了空洞卷積。具體來(lái)說(shuō)就是在卷積的最后兩個(gè)最大池化操作中不降低特征圖的分辨率,并在倒數(shù)第二個(gè)最大池化之后的卷積中使用空洞卷積。并使用 CRF作為后處理,恢復(fù)邊界細(xì)節(jié),達(dá)到準(zhǔn)確定位的效果。
DeeplabV2則提出了空洞空間金字塔池化,在不同的分支采用不同的空洞率以獲得多尺度圖像表征。
而Deeplab V3中又再次討論了空洞卷積,一個(gè)顯式調(diào)整過(guò)濾器視野,同時(shí)控制特征相應(yīng)分辨率的強(qiáng)大工具。為了解決多尺度目標(biāo)的分割問(wèn)題,使用串行/并行設(shè)計(jì)了能夠捕捉多尺度上下文的模塊,模塊中采用不同的空洞率。此外,通過(guò)增強(qiáng)先前提出的空洞空間金字塔池化模塊,增加了圖像級(jí)特征來(lái)編碼全局上下文,使得模塊可以在多尺度下探測(cè)卷積特征[2]。
2結(jié)束語(yǔ)
本文綜述了圖像語(yǔ)義分割技術(shù)相關(guān)的背景知識(shí)以及幾種該問(wèn)題的深度學(xué)習(xí)算法及其特點(diǎn),并通過(guò)不同模型結(jié)構(gòu)的對(duì)比將各個(gè)模型的優(yōu)缺點(diǎn)進(jìn)行了綜合性評(píng)估。雖然現(xiàn)有的語(yǔ)義分割模型已經(jīng)能到達(dá)較好的分割結(jié)果,但仍有很多具有挑戰(zhàn)性的難題,例如,語(yǔ)義分割的樣本標(biāo)注要求 極高,想要獲得足夠多的數(shù)據(jù)樣本需要高昂的成本費(fèi),另外,模型的解釋性差,創(chuàng)新難度高等問(wèn)題也給圖像語(yǔ)義分割帶來(lái)了很大的挑戰(zhàn)。這些問(wèn)題大大提升了圖像語(yǔ)義分割的難度。盡管如此,相信我們?nèi)匀豢梢酝ㄟ^(guò)對(duì)問(wèn)題的研究與發(fā)現(xiàn),提出更加優(yōu)秀的深度學(xué)習(xí)算法來(lái)解決圖像語(yǔ)義分割問(wèn)題。
參考文獻(xiàn)
[1] Garcia-Garcia A,Orts-Escolano S,Oprea S,et al. A Review on Deep Learning Techniques Applied to Semantic Segmentation[J].Computer Vision and Pattern Recognition,2017(4):17.
[2] 田萱,王亮,丁琪. 基于深度學(xué)習(xí)的圖像語(yǔ)義分割方法綜述[J].軟件學(xué)報(bào),2019,30(2):440-468.
作者簡(jiǎn)介
谷浩榮(1996-),男,遼寧省營(yíng)口市人;畢業(yè)院校:沈陽(yáng)理工大學(xué),專(zhuān)業(yè):軟件工程,學(xué)歷:碩士,現(xiàn)就職單位:沈陽(yáng)理工大學(xué),研究方向:計(jì)算機(jī)視覺(jué)。