(廣東技術(shù)師范大學(xué)計(jì)算機(jī)科學(xué)學(xué)院,廣東廣州 510000)
近年來(lái),圖像在目標(biāo)檢測(cè)、圖像分類(lèi)、分割以及識(shí)別等方面的應(yīng)用越來(lái)越廣,其中圖像分割技術(shù)是根據(jù)相似性原則將圖像分成若干個(gè)不同特性區(qū)域的過(guò)程。圖像分割方法大致可分為3 類(lèi):基于圖論的方法、基于像素聚類(lèi)的方法與語(yǔ)義分割方法,而圖像語(yǔ)義分割是以像素共同點(diǎn)為分割依據(jù),從像素級(jí)別處理圖像[1]。語(yǔ)義分割是場(chǎng)景理解的基礎(chǔ)性技術(shù),對(duì)智能駕駛、機(jī)器人認(rèn)知層面的自主導(dǎo)航、無(wú)人機(jī)著陸系統(tǒng)以及智慧安防監(jiān)控等無(wú)人系統(tǒng)具有至關(guān)重要的作用。
傳統(tǒng)圖像分割是根據(jù)灰度、彩色、空間紋理等特征將圖像劃分成若干個(gè)互不相交的區(qū)域,使得這些特征在同一個(gè)區(qū)域內(nèi)表現(xiàn)出一致性或者相似性,而在不同的區(qū)域間表現(xiàn)出明顯不同。其方法主要分為以下幾類(lèi):基于閾值的分割方法、基于區(qū)域的分割方法、基于邊緣的分割方法等。閾值分割方法是常用的分割技術(shù)之一,其實(shí)質(zhì)是根據(jù)一定的標(biāo)準(zhǔn)自動(dòng)確定最佳閾值,并根據(jù)灰度級(jí)使用這些像素以實(shí)現(xiàn)聚類(lèi)?;趨^(qū)域的分割方法是以直接尋找新區(qū)域?yàn)榛A(chǔ)的分割技術(shù),可分為區(qū)域生長(zhǎng)和區(qū)域分裂合并兩種基本提取方式。區(qū)域生長(zhǎng)以單個(gè)像素點(diǎn)為基礎(chǔ),將具有相似特征的像素點(diǎn)聚合到一起形成區(qū)域,其計(jì)算簡(jiǎn)單,對(duì)于均勻分布的圖像具有良好效果。區(qū)域分裂合并從整體圖像出發(fā),通過(guò)像素點(diǎn)之間的分裂得到各子區(qū)域,四叉樹(shù)分解法就是其典型代表方法?;谶吘墮z測(cè)的分割方法通過(guò)檢測(cè)不同區(qū)域邊緣分割圖片,最簡(jiǎn)單的邊緣檢測(cè)方法是并行微分算子法,它利用相鄰區(qū)域的像素值不連續(xù)的性質(zhì),采用導(dǎo)數(shù)檢測(cè)邊緣點(diǎn)。傳統(tǒng)方法多數(shù)通過(guò)提取圖像的低級(jí)語(yǔ)義,如大小、紋理、顏色等。在復(fù)雜環(huán)境中,應(yīng)對(duì)能力與精準(zhǔn)度遠(yuǎn)沒(méi)有達(dá)到要求。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,深度學(xué)習(xí)模型開(kāi)始與傳統(tǒng)語(yǔ)義分割方法相結(jié)合,即在利用傳統(tǒng)方法分割出目標(biāo)區(qū)域的基礎(chǔ)上,進(jìn)一步采用卷積神經(jīng)網(wǎng)絡(luò)等方法學(xué)習(xí)目標(biāo)特征并訓(xùn)練分類(lèi)器,對(duì)目標(biāo)區(qū)域進(jìn)行分類(lèi),從而實(shí)現(xiàn)目標(biāo)區(qū)域的語(yǔ)義標(biāo)注[2]。卷積神經(jīng)網(wǎng)絡(luò)模型的提出,為圖像語(yǔ)義分割與深度學(xué)習(xí)的結(jié)合奠定了基礎(chǔ),使得圖像語(yǔ)義分割技術(shù)應(yīng)用于多個(gè)應(yīng)用領(lǐng)域。卷積神經(jīng)網(wǎng)絡(luò)使用卷積層—激活函數(shù)—池化層—全連接層的運(yùn)行結(jié)構(gòu),輸入圖像經(jīng)卷積層聚攏不同局部區(qū)域特征,通過(guò)激活函數(shù)(Sigmoid、Relu、Tanh 等)部分激活,部分抑制從而強(qiáng)化特征。池化層在不改變目標(biāo)對(duì)象的基礎(chǔ)上,使輸入圖片變小,減少訓(xùn)練參數(shù),最后使用全連接層神經(jīng)元的前向傳播與反向傳導(dǎo)損失計(jì)算函數(shù)最優(yōu)點(diǎn),使輸入圖像的分類(lèi)、分割等更加高效。訓(xùn)練研究人員以卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)提出AlexNet、VGGNet、GoogleNet、ResNet 等圖像分類(lèi)網(wǎng)絡(luò)模型[3-6],其中AlexNet網(wǎng)絡(luò)為2012 年ILSVRC 大賽冠軍,GoogleNet 網(wǎng)絡(luò)、VGG?Net 網(wǎng)絡(luò)分別為2014 年ILSVRC 大賽中的冠亞軍,ResNet網(wǎng)絡(luò)為2015 年ILSVRC 大賽冠軍,其特點(diǎn)如表1 所示。
Table 1 Image semantic segmentation methods combined with deep learning and traditional methods表1 深度學(xué)習(xí)與傳統(tǒng)方法相結(jié)合的圖像語(yǔ)義分割方法
隨著全卷積神經(jīng)網(wǎng)絡(luò)的提出,圖像語(yǔ)義分割技術(shù)進(jìn)入新時(shí)期,計(jì)算機(jī)在視覺(jué)領(lǐng)域通過(guò)深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行全卷積后能夠極大提高圖像分類(lèi)效率與識(shí)別準(zhǔn)度,網(wǎng)絡(luò)框架與語(yǔ)義分割問(wèn)題進(jìn)入深度結(jié)合快速擴(kuò)展的時(shí)代。全卷積網(wǎng)絡(luò)通過(guò)擴(kuò)展普通卷積網(wǎng)絡(luò)模型,使其具有更多的參數(shù)特征和更好的空間層次。其結(jié)構(gòu)可以分為全卷積和反卷積兩部分,全卷積借鑒卷積神經(jīng)網(wǎng)絡(luò)模型,輸入圖像在參數(shù)減少與特征強(qiáng)化后,采用反卷積層對(duì)最后卷積層的特征圖進(jìn)行上采樣,通過(guò)轉(zhuǎn)置卷積恢復(fù)輸入圖像尺寸,從而針對(duì)每個(gè)像素都產(chǎn)生一個(gè)預(yù)測(cè),使輸入圖像達(dá)到語(yǔ)義級(jí)分割。全卷積網(wǎng)絡(luò)將卷積神經(jīng)網(wǎng)絡(luò)對(duì)于圖像的識(shí)別精度從圖像級(jí)識(shí)別提升為全卷積神經(jīng)網(wǎng)絡(luò)中像素級(jí)的識(shí)別。但是使用全卷積網(wǎng)絡(luò)的圖像分割仍存在分割結(jié)果不夠精準(zhǔn)、輸出圖像模糊等問(wèn)題。全卷積網(wǎng)絡(luò)為語(yǔ)義分割的未來(lái)發(fā)展指明了方向,研究人員以全卷積神經(jīng)為基礎(chǔ)提出U-Net、SegNet、PSPNet、RefineNet、DeepLab、BiSeNet、Panoptic FPN[7-13]等圖像分割網(wǎng)絡(luò)結(jié)構(gòu)模型。其特點(diǎn)如表2 所示。
Table 2 Semantic segmentation methods based on deep learning表2 基于深度學(xué)習(xí)的語(yǔ)義分割方法
評(píng)估基于深度學(xué)習(xí)的圖像語(yǔ)義分割算法性能的主要指標(biāo)可歸納為:精確度、執(zhí)行時(shí)間及內(nèi)存占用等。處理速度或運(yùn)行時(shí)間是重要的衡量指標(biāo),因?yàn)閿?shù)據(jù)集一般較大,受到計(jì)算機(jī)硬件設(shè)施限制,更少的執(zhí)行時(shí)間意味著更多的應(yīng)用可能。內(nèi)存是語(yǔ)義分割的另一個(gè)重要因素,不過(guò)內(nèi)存在多數(shù)場(chǎng)景下是可以擴(kuò)充的。精確度是最關(guān)鍵指標(biāo),圖像分割中通常依據(jù)許多標(biāo)準(zhǔn)衡量算法精度。這些標(biāo)準(zhǔn)通常是像素精度及圖像交并比衍變產(chǎn)生,如像素精度(Pixel Ac?curacy,PA=)、均像素精度(Mean Pixel Accuracy,MPA=)、均交并比(Mean Intersection over Union,MIOU=)等。像素精度是最簡(jiǎn)單的度量,用以標(biāo)記正確像素占總像素的比例。均像素精度是類(lèi)別內(nèi)像素正確分類(lèi)概率的平均值。均交并比是公認(rèn)的算法評(píng)估標(biāo)準(zhǔn),其計(jì)算兩個(gè)集合的交集和并集之比,在語(yǔ)義分割領(lǐng)域中,真實(shí)值和預(yù)測(cè)值就是兩個(gè)集合的體現(xiàn)。FCN 網(wǎng)絡(luò)的提出打破了傳統(tǒng)分割方法,使用Caffe網(wǎng)絡(luò)框架,在PASCAL VOC 數(shù)據(jù)集上的分割精度(MIOU%)為62.2%。為解決FCN 分割精度不高等問(wèn)題,SegNet 算法被提出,其使用Caffe 網(wǎng)絡(luò)框架,在CamVid 數(shù)據(jù)集上的分割精度為60.1%。隨后RefineNet 出現(xiàn),使用Pytorch 網(wǎng)絡(luò)框架,在PASCAL VOC 數(shù)據(jù)集上的分割精度為83.4%。PSPNet 提出金字塔模塊,使用TensorFlow 網(wǎng)絡(luò)框架,在PASCAL VOC 數(shù)據(jù)集上的分割精度為85.4%。BiSeNet 和全景FCN 的提出使語(yǔ)義分割算法更加完善,它們?cè)贑ityscapes 數(shù)據(jù)集上的分割精度分別達(dá)68.4% 和79%。上述數(shù)據(jù)集匯總?cè)绫? 所示,網(wǎng)絡(luò)框架匯總?cè)绫? 所示。
Table 3 Summary of data sets表3 數(shù)據(jù)集匯總
Table 4 Network frameworks表4 網(wǎng)絡(luò)框架匯總
基于深度學(xué)習(xí)的圖像語(yǔ)義分割技術(shù)雖然取得了良好分割效果,但是其網(wǎng)絡(luò)訓(xùn)練需要大量數(shù)據(jù)集,像素級(jí)別的圖像質(zhì)量難以保證,原因是大量使用基于強(qiáng)監(jiān)督的分割方法,依賴(lài)于人工數(shù)據(jù)標(biāo)記,且對(duì)未知場(chǎng)景適應(yīng)能力差。2014 年,DeepLab v1 結(jié)合深度卷積神經(jīng)網(wǎng)絡(luò)和概率圖模型,形成完整端對(duì)端網(wǎng)絡(luò)模型,但是其空間分辨率低,存儲(chǔ)空間需求量大;2017 年,DeepLab v2 空洞金字塔的提出,提高了模型優(yōu)化能力,但圖像細(xì)節(jié)模糊處理能力下降;同年,DeepLab v3 改進(jìn)金字塔結(jié)構(gòu)被提出,其使用1×1 小卷積核,但輸出圖效果不佳;2018 年,DeepLab v3+被提出,其使用編碼器解碼器結(jié)構(gòu),使用改進(jìn)版的Xception 作為基礎(chǔ)網(wǎng)絡(luò),彌補(bǔ)了之前版本網(wǎng)絡(luò)的缺陷性,但仍需繼續(xù)提高模型運(yùn)行速度與性能,如隨著DeepLab 算法的發(fā)展,深度學(xué)習(xí)具有更新太快、周期較長(zhǎng)、完善缺陷困難等問(wèn)題。目前,還沒(méi)有一種通用算法適用于所有領(lǐng)域,基于深度學(xué)習(xí)的圖像語(yǔ)義分割尚有巨大發(fā)展?jié)摿Α?/p>