国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

深度學(xué)習(xí)背景下的圖像語(yǔ)義分割方法綜述

2023-11-22 01:18:38嚴(yán)毅鄧超李琳朱凌坤葉彪
關(guān)鍵詞:語(yǔ)義像素卷積

嚴(yán)毅,鄧超*,李琳,朱凌坤,葉彪

1.武漢科技大學(xué)汽車與交通工程學(xué)院,武漢 430063;2.武漢科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,武漢 430063;3.武漢理工大學(xué)交通與物流工程學(xué)院,武漢 430063

0 引言

計(jì)算機(jī)視覺(jué)的研究和各項(xiàng)相關(guān)技術(shù)取得了長(zhǎng)足的進(jìn)步。圖像分類、目標(biāo)檢測(cè)和圖像語(yǔ)義分割(image semantic segmentation,ISS)是目前計(jì)算機(jī)視覺(jué)領(lǐng)域的3個(gè)熱點(diǎn)研究方向,如圖1所示。圖像語(yǔ)義分割是計(jì)算機(jī)視覺(jué)的經(jīng)典任務(wù),概念由Ohta 于1980年首次提出,其定義為:給圖像中的每一個(gè)像素分配一個(gè)預(yù)先定義好的表示其語(yǔ)義類別的標(biāo)簽(Csurka和Perronnin,2011),從定義可以看出圖像語(yǔ)義分割的實(shí)質(zhì)是實(shí)現(xiàn)圖像的場(chǎng)景理解。從實(shí)際應(yīng)用層面來(lái)看,在自動(dòng)駕駛、計(jì)算攝影、人機(jī)交互、圖像搜索引擎和虛擬現(xiàn)實(shí)等領(lǐng)域都可以看見(jiàn)圖像語(yǔ)義分割技術(shù)的身影,國(guó)內(nèi)外許多大型科技公司(如谷歌、百度等)以及初創(chuàng)公司(如商湯、曠視等)也都在語(yǔ)義分割相關(guān)領(lǐng)域投入了大量財(cái)力物力。

圖1 從粗粒度到細(xì)粒度的推理演化:分類、檢測(cè)或定位、語(yǔ)義分割Fig.1 Inference evolution from coarse-grained to fine-grained:classification,detection or localization,semantic segmentation((a)image classification;(b)target detection;(c)image semantic segmentation)

全球眾多的科研實(shí)驗(yàn)室針對(duì)基于深度學(xué)習(xí)的圖像語(yǔ)義分割開展了研究工作,關(guān)于自動(dòng)化、人工智能和模式識(shí)別領(lǐng)域的學(xué)術(shù)會(huì)議也對(duì)基于深度學(xué)習(xí)的語(yǔ)義分割研究成果做了報(bào)告。與傳統(tǒng)的圖像分割相比,基于深度學(xué)習(xí)的圖像語(yǔ)義分割存在不小的優(yōu)勢(shì),不僅能夠充分地挖掘圖像所蘊(yùn)含的像素特征,也可以利用圖像自身的場(chǎng)景和高級(jí)語(yǔ)義特征推理出圖像所表達(dá)的信息,在分割準(zhǔn)確度和效率方面遠(yuǎn)遠(yuǎn)超過(guò)傳統(tǒng)方法?,F(xiàn)代深度學(xué)習(xí)體系對(duì)圖像語(yǔ)義分割的處理過(guò)程是一個(gè)從粗推理到細(xì)推理的自然步驟,其目標(biāo)是對(duì)圖像的每個(gè)像素進(jìn)行密集預(yù)測(cè)并推斷其所屬標(biāo)簽。一般情況下,基于深度學(xué)習(xí)的圖像語(yǔ)義分割都要經(jīng)過(guò)以下3 個(gè)處理模塊:特征提取模塊、語(yǔ)義分割模塊和精細(xì)化處理模塊,處理流程如圖2 所示,圖中虛線表示選擇處理步驟。

圖2 基于深度學(xué)習(xí)的圖像語(yǔ)義分割處理流程Fig.2 Image semantic segmentation process based on deep learning

據(jù)谷歌學(xué)術(shù)顯示,研究者近10 年來(lái)在語(yǔ)義分割方面發(fā)表的論文超過(guò)12 000 篇,但是國(guó)內(nèi)詳細(xì)總結(jié)基于深度學(xué)習(xí)的語(yǔ)義分割方法的綜述文獻(xiàn)依舊較少,鑒于此,本文對(duì)近年相關(guān)研究成果做了系統(tǒng)梳理論述。

1 開源數(shù)據(jù)集與語(yǔ)義分割方法

1.1 常用的開源數(shù)據(jù)集

數(shù)據(jù)集是算法研究的先決條件,全球的部分科研機(jī)構(gòu)、大型公司以及比賽項(xiàng)目開源了不少的大規(guī)模數(shù)據(jù)集,極大地推動(dòng)了相關(guān)領(lǐng)域的發(fā)展??捎迷趫D像語(yǔ)義分割方面的數(shù)據(jù)集按照?qǐng)D像數(shù)據(jù)性質(zhì)可分為3 類:2D 數(shù)據(jù)集、RGB-depth(2.5D)數(shù)據(jù)集和3D數(shù)據(jù)集。

1.1.1 2D數(shù)據(jù)集

圖像語(yǔ)義分割的研究主要集中在二維圖像上。較為流行的2D數(shù)據(jù)集如下:

1)PASCAL VOC(pattern analysis,statistical modeling and computational learning visual object classes)(Everingham 等,2015)。PASCAL VOC 是國(guó)際著名的計(jì)算機(jī)視覺(jué)挑戰(zhàn)賽,其開源的RGB 數(shù)據(jù)集均帶有標(biāo)簽,可用于5 種不同的比賽:分類、檢測(cè)、分割、動(dòng)作分割和人員布局。VOC 2012是最常用的數(shù)據(jù)集,有21 個(gè)類別,訓(xùn)練集和驗(yàn)證集共包括11 530幅圖像。

2)PASCAL Context(Mottaghi等,2014)。PASCAL Context 是由PASCAL VOC 2010 數(shù)據(jù)集擴(kuò)展而來(lái)的,包含所有訓(xùn)練圖像的像素級(jí)標(biāo)簽(10 103),該數(shù)據(jù)集共有540 個(gè)語(yǔ)義類別,但是通常選擇由59 個(gè)語(yǔ)義類別組成的子集進(jìn)行訓(xùn)練研究,而將其余語(yǔ)義類別標(biāo)記為背景。

3)PASCAL Part(Chen 等,2014)。該數(shù)據(jù)集同樣是PASCAL VOC 2010 的擴(kuò)展,PASCAL VOC 的原始類被保留,但是將原始類劃分得更細(xì),例如,將自行車分解為車把、前輪、后輪、鏈輪和鞍座。PASCAL Part 分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,每幅圖像都有像素級(jí)標(biāo)注,可以提供精細(xì)的語(yǔ)義信息。

4)SBD(semantic boundaries dataset)(Hariharan等,2011)。該數(shù)據(jù)集是從整個(gè)PASCAL VOC 比賽(不僅是分割比賽)中獲得的,包含PASCAL VOC 2011 的11 355 幅標(biāo)注圖像,訓(xùn)練集有8 498 幅圖像,驗(yàn)證集有2 857 幅圖像。其除了注釋每個(gè)對(duì)象的邊界之外,同時(shí)提供了類別級(jí)別和實(shí)例級(jí)別的信息。由于其訓(xùn)練數(shù)據(jù)量增加,該數(shù)據(jù)集經(jīng)常被用來(lái)代替PASCAL VOC進(jìn)行深度學(xué)習(xí)。

5)COCO(Microsoft common objects in context)(Lin等,2014)。該數(shù)據(jù)集是微軟公司開源的用于圖像識(shí)別、語(yǔ)義分割的大型數(shù)據(jù)集。COCO 包含80 多個(gè)類別,訓(xùn)練集有82 783幅圖像,驗(yàn)證集有40 504幅圖像,測(cè)試集超過(guò)80 000幅圖像。特別地,測(cè)試集又劃分為4 個(gè)不同的子集:test-dev、test-standard、testchallenge和test-reserve,每個(gè)子集有具體的功能。

6)SYNTHIA(SYNTHetic collection of imagery and annotations)(Ros等,2016)。SYNTHIA是虛擬城市的大規(guī)模真實(shí)感知效果圖集合,常用于駕駛領(lǐng)域的語(yǔ)義分割。擁有11 個(gè)類,提供了細(xì)粒度的像素級(jí)標(biāo)注,訓(xùn)練圖像有13 407 幅。數(shù)據(jù)集還具有豐富的場(chǎng)景學(xué)習(xí),包括不同的地點(diǎn)、季節(jié)和天氣。

7)Cityscapes(Cordts 等,2016)。Cityscapes 是一個(gè)專注于城市街景語(yǔ)義理解的大型數(shù)據(jù)集,該數(shù)據(jù)集分為8 個(gè)大類,30 個(gè)子類,提供了語(yǔ)義、實(shí)例和密集的像素標(biāo)注。具有5 000 多幅精細(xì)標(biāo)注圖像和20 000 幅粗標(biāo)注圖像。其最初是作為視頻錄制的,采集了50 個(gè)城市幾個(gè)月的情景,有大量的動(dòng)態(tài)對(duì)象和場(chǎng)景布局。

8)CamVid(Brostow 等,2009)。CamVid 也是一個(gè)適應(yīng)于駕駛領(lǐng)域的道路場(chǎng)景理解數(shù)據(jù)集,利用儀表盤上的攝像機(jī)采樣出701幀圖像,共有32個(gè)類。

9)KITTI(Karlsruhe Institute of Technology and Toyota Technological Institute at Chicago)(Geiger 等,2013)。KITTI 是用于機(jī)器人和自動(dòng)駕駛領(lǐng)域的最著名數(shù)據(jù)集之一。包含了由3 種傳感器(高分辨率RGB、灰度立體攝像機(jī)和3D 激光掃描儀)記錄的幾個(gè)小時(shí)的交通場(chǎng)景,最初該數(shù)據(jù)集是沒(méi)有標(biāo)注的,后來(lái)由多個(gè)研究者分別進(jìn)行了標(biāo)注。

10)Youtube-Objects(Prest 等,2012)是一個(gè)從Youtobe 收集的視頻數(shù)據(jù)集,其中包含10 個(gè)來(lái)自PASCAL VOC的類,圖像分辨率為480 × 360像素。

11)Adobes Portrait Segmentation(Shen 等,2016)。其主要收集的是人像圖像,圖像分辨率為800 × 600 像素,訓(xùn)練集由1 500 幅圖像組成,測(cè)試集由300 幅圖像組成。該數(shù)據(jù)集是用半自動(dòng)方式標(biāo)注的,非常適合前景分割領(lǐng)域。

12)MINC(materials in context)(Bell 等,2015)。MINC 是一個(gè)用于貼片材料分類和全場(chǎng)景材料分割的數(shù)據(jù)集,提供了23 個(gè)類別:木材、玻璃、金屬等。訓(xùn)練集有7 061幅圖像,測(cè)試集有5 000幅圖像,驗(yàn)證集有2 500 幅圖像,圖像分辨率約為800 × 500 像素或500 × 800像素。

13)DAVIS(densely-annotated video segmentation)(Perazzi等,2016)。DAVIS用于視頻對(duì)象分割,數(shù)據(jù)集由50 個(gè)高清晰度序列組成,每一幀都提供了4 個(gè)不同類別的像素級(jí)注釋:人類、動(dòng)物、車輛和物體。

14)Stanford background(Gould 等,2009)。該數(shù)據(jù)集主要是戶外場(chǎng)景圖像,是從LabelMe、MSRC、PASCAL Voc 和Geometric Context 4 個(gè)數(shù)據(jù)集中獲取的,包含715幅圖像,尺寸為320 × 240像素。

15)SiftFlow(Liu 等,2009)。包含2 688 幅完全注釋的圖像,大多來(lái)自于LabelMe 數(shù)據(jù)集,包括街道、山脈、田野、海灘和建筑等8個(gè)不同的語(yǔ)義類別。

1.1.2 2.5D數(shù)據(jù)集

1)NYUDv2(Silberman 等,2012)。該數(shù)據(jù)集是用微軟Kinect設(shè)備捕獲的,共有1 449幅關(guān)于室內(nèi)物體的2.5D圖像,訓(xùn)練和測(cè)試集分別有795幅和654 幅圖像,提供類別和實(shí)例級(jí)別的標(biāo)注。該數(shù)據(jù)集特別適合室內(nèi)工作的機(jī)器人,然而相對(duì)于其他數(shù)據(jù)集規(guī)模較小。

2)SUN3D(Xiao 等,2013)。SUN3D 是一個(gè)大規(guī)模2.5D 數(shù)據(jù)庫(kù),包含8 個(gè)注釋序列,圖像產(chǎn)生于41 個(gè)不同建筑中的254 個(gè)空間,一些地方在一天中的不同時(shí)刻多次拍攝。

3)SUNRGBD(Song 等,2015)。該數(shù)據(jù)集由10 000 幅2.5D 圖像組 成,其來(lái)自NYU depth v2、Berkeley B3DO和SUN3D 3個(gè)數(shù)據(jù)集。

4)OSD(object segemntation database)(Richtsfeld,2012)。OSD 數(shù)據(jù)集中的大多數(shù)物體是存在部分遮擋的,專門用來(lái)評(píng)估分割方法。

5)RGB-D Object Dataset(Lai等,2011)。該數(shù)據(jù)集由300 個(gè)視頻序列組成,分為51 個(gè)關(guān)于室內(nèi)場(chǎng)景的類別。數(shù)據(jù)集是使用3D攝像機(jī)以30 Hz的頻率拍攝的,每一幀的分辨率為640 × 480像素。

1.1.3 3D數(shù)據(jù)集

生成用于分割的大規(guī)模3D 數(shù)據(jù)集是非常困難的,也并沒(méi)有很多的深度學(xué)習(xí)方法能夠處理3D 數(shù)據(jù)。由于這些原因,3D 數(shù)據(jù)集目前不是很流行。盡管如此,依然有必要總結(jié)幾個(gè)比較有名的3D 數(shù)據(jù)集,今后的研究工作更要重視。

1)ShapeNet Part(Yi 等,2016)。該數(shù)據(jù)集專注于細(xì)粒度的3D 對(duì)象分割,包含從16 個(gè)類別的原始數(shù)據(jù)集中采樣的31 693個(gè)樣本。數(shù)據(jù)集中的每個(gè)目標(biāo)類都用2~5 個(gè)部件進(jìn)行標(biāo)記,例如飛機(jī)類用機(jī)翼、機(jī)身、尾部和引擎標(biāo)記。

2)Stanford 2D-3D-S(Armeni 等,2017)。是一個(gè)多模態(tài)的大規(guī)模室內(nèi)空間數(shù)據(jù)集,它提供的數(shù)據(jù)包括2D、2.5D 和3D(網(wǎng)格和點(diǎn)云)形式,由70 496幅完整的高清RGB圖像(分辨率1 080 × 1 080像素)以及對(duì)應(yīng)的深度圖、表面法線、網(wǎng)格和點(diǎn)云(帶有語(yǔ)義標(biāo)注)組成,共有13 個(gè)類別。其是從6 個(gè)室內(nèi)區(qū)域的271個(gè)房間采集的。

3)A Benchmark for 3D Mesh Segmentation(Chen等,2009)。該數(shù)據(jù)集一共分為19 個(gè)類別,380 個(gè)網(wǎng)格,每個(gè)網(wǎng)格都被人工劃分為功能區(qū),其主要目標(biāo)是提供劃分示例。

4)Sydney Urban Objects Dataset(Quadros 等,2012)是用Velodyne HDK-64E LIDAR 激光雷達(dá)掃描的,包含各種常見(jiàn)的城市道路物體,對(duì)車輛、行人、標(biāo)志和樹木進(jìn)行了631 次單獨(dú)點(diǎn)云掃描,而且還提供了完整的360°注釋掃描.

5)Large-Scale Point Cloud Classification Benchmark(Hackel等,2016)。該數(shù)據(jù)集提供了各種自然、城市場(chǎng)景的人工注釋3D 點(diǎn)云,靜態(tài)捕捉的點(diǎn)云,具有非常精細(xì)的粒度,包含30 個(gè)大規(guī)模點(diǎn)云,15 個(gè)用于訓(xùn)練,15個(gè)用于測(cè)試。

1.2 面向2D數(shù)據(jù)的語(yǔ)義分割方法

目前,基于深度學(xué)習(xí)的2D圖像語(yǔ)義分割方法有很多種,從方法特點(diǎn)上可分為3 類:基于候選區(qū)域的圖像語(yǔ)義分割方法、全監(jiān)督學(xué)習(xí)圖像語(yǔ)義分割方法和弱監(jiān)督學(xué)習(xí)圖像語(yǔ)義分割方法。

1.2.1 基于候選區(qū)域的圖像語(yǔ)義分割方法

基于候選區(qū)域的圖像語(yǔ)義分割法由Carrerira 等人(2012b)首次提出,該方法先是利用區(qū)域生成算法在圖像中生成一系列自由格式的候選區(qū)域(其中的每個(gè)候選區(qū)域都有可能包含潛在的目標(biāo)物體),并利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)對(duì)候選區(qū)域的圖像特征和語(yǔ)義信息進(jìn)行提取,再對(duì)這些區(qū)域進(jìn)行分類,之后把關(guān)于分類區(qū)域的預(yù)測(cè)轉(zhuǎn)化成關(guān)于像素的預(yù)測(cè),像素得分最高的區(qū)域即可進(jìn)行標(biāo)簽?;诤蜻x區(qū)域的語(yǔ)義分割方法中,具有代表性的有RCNN(Girshick 等,2014)、SDS(Hariharan等,2014)、MPA(Liu等,2016)和Mask-RCNN(He等,2018)等。

Carrerira 等人(2012b)運(yùn)用CPMC(constrained parametric min-cut)算法來(lái)生成候選區(qū)域,并計(jì)算候選區(qū)域?qū)儆谀愁悩?biāo)簽的概率大小,從而得出分割結(jié)果。于此之上,Carrerira等人(2012a)將SOP(secondorder-pooling)算法應(yīng)用在了特征提取階段(SOP 算法能夠?qū)^(qū)域的局部特征進(jìn)行聚合),進(jìn)一步提高了分割精度。Girshick 等人(2014)提出了區(qū)域卷積神經(jīng)網(wǎng)絡(luò)模型(region-based convolutional neural network,RCNN),RCNN 通過(guò)SS(selective search)算法(Uijlings 等,2013)提取候選區(qū)域,既能夠進(jìn)行目標(biāo)檢測(cè),也可以完成語(yǔ)義分割。SS 算法把候選區(qū)域的尺寸設(shè)置為227 × 227 像素,之后再利用卷積神經(jīng)網(wǎng)絡(luò)提取每個(gè)候選區(qū)域的特征,基于所提取的特征,利用支持向量機(jī)對(duì)其分類,得出最終的語(yǔ)義分割結(jié)果。RCNN 的缺點(diǎn)是:對(duì)候選區(qū)域具有較高的依賴性、語(yǔ)義分割精度較低、不能實(shí)時(shí)分割。Hariharan 等人(2014)在RCNN 算法基礎(chǔ)上加入了SDS(simultaneous detection and segmentation)網(wǎng)絡(luò),SDS 網(wǎng)絡(luò)能夠采用MGG(multi-scale combinatorial grouping)算法(Arbelaze 等,2014)在候選區(qū)域和區(qū)域前景中自主提取語(yǔ)義特征,再交替訓(xùn)練所提取的兩部分語(yǔ)義特征,最后運(yùn)用非極大值抑制方法進(jìn)行區(qū)域增強(qiáng)。MGG 算法對(duì)輸入圖像的像素大小不設(shè)限制。此工作的貢獻(xiàn)在于擴(kuò)展了算法的適用范圍,且提高了語(yǔ)義分割性能。

之前的工作均是在RCNN 網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行的,鑒于RCNN 有網(wǎng)絡(luò)運(yùn)算量大、產(chǎn)生的候選區(qū)域太多、生成速度慢以及生成的形狀不統(tǒng)一等等不足,一些學(xué)者提出了Fast-RCNN 算法。Fast-RCNN 網(wǎng)絡(luò)(Girshick,2015)將候選區(qū)域映射到卷積神經(jīng)網(wǎng)絡(luò)的特征圖上,利用ROI池化層產(chǎn)生固定大小的特征圖,候選區(qū)域的生成速度有了顯著提升。Ren 等人(2015)提出了Faster-RCNN 網(wǎng)絡(luò),其利用區(qū)域建議網(wǎng)絡(luò)(region proposal network,RPN)來(lái)快速生成候選區(qū)域,所產(chǎn)生的候選區(qū)域可以與檢測(cè)網(wǎng)絡(luò)共享卷積特征,對(duì)候選區(qū)域的產(chǎn)生速度和分割精度有了顯著提升,缺點(diǎn)是對(duì)候選區(qū)域中的感興趣區(qū)域不夠敏感。Caesar 等人(2016)以Fast-RCNN 為基礎(chǔ)提出基于區(qū)域的端到端圖像語(yǔ)義分割算法,著重考慮了候選區(qū)域的感興趣區(qū)域,通過(guò)自由形式的池化層捕捉其前景特征,兼顧上下文語(yǔ)境信息和區(qū)域的自由表示,可以更魯棒的處理分割任務(wù)。He等人(2018)將ROI與分割子網(wǎng)絡(luò)加入了Faster-RCNN 算法,提出了Mask-RCNN 算法,Mask-RCNN 可以完成目標(biāo)檢測(cè)和實(shí)例分割。Mask-RCNN 主干由兩部分構(gòu)成,第1 部分為Faster-RCNN,其主要功能是對(duì)候選區(qū)域進(jìn)行分類和回歸,從而實(shí)現(xiàn)目標(biāo)物體的高效檢測(cè);第2 部分通過(guò)一個(gè)小型全卷積網(wǎng)絡(luò)完成實(shí)例分割任務(wù)。Mask-RCNN的提出對(duì)圖像語(yǔ)義分割領(lǐng)域做出了重大貢獻(xiàn)。

總體來(lái)說(shuō),基于候選區(qū)域的圖像語(yǔ)義分割方法具有以下優(yōu)缺點(diǎn)。優(yōu)點(diǎn)為:使用目標(biāo)檢測(cè)技術(shù)生成候選區(qū)域,可以同時(shí)完成目標(biāo)檢測(cè)任務(wù)和語(yǔ)義分割任務(wù)。缺點(diǎn)為:分割過(guò)程對(duì)候選區(qū)域過(guò)于依賴;不能充分地考慮圖像中的全局語(yǔ)義信息,分割圖像中的小物體或小面積區(qū)域時(shí)效果不理想。

1.2.2 全監(jiān)督學(xué)習(xí)圖像語(yǔ)義分割方法

基于深度學(xué)習(xí)的語(yǔ)義分割方法大多是全監(jiān)督學(xué)習(xí)模型。全監(jiān)督學(xué)習(xí)圖像語(yǔ)義分割方法即采用人工提前標(biāo)注過(guò)的像素作為訓(xùn)練樣本,語(yǔ)義分割過(guò)程為:1)人工標(biāo)注數(shù)據(jù),即給圖像的每個(gè)像素預(yù)先設(shè)定一個(gè)語(yǔ)義標(biāo)簽;2)運(yùn)用已標(biāo)注的數(shù)據(jù)訓(xùn)練神經(jīng)網(wǎng)絡(luò);3)語(yǔ)義分割。人工標(biāo)注的像素可以提供大量的細(xì)節(jié)語(yǔ)義信息和局部特征,以便高效精準(zhǔn)地訓(xùn)練網(wǎng)絡(luò)。全監(jiān)督語(yǔ)義分割方法大多是在全卷積網(wǎng)絡(luò)的基礎(chǔ)上衍生出來(lái)的,可按照其改進(jìn)特點(diǎn)分為下面幾類,如表1所示。

表1 全監(jiān)督學(xué)習(xí)語(yǔ)義分割方法Table 1 Fully supervised learning semantic segmentation method

1)FCN算法。Long等人(2015)提出了全卷積網(wǎng)絡(luò)(fully convolutional network,F(xiàn)CN),它以全監(jiān)督學(xué)習(xí)的方式分割圖像,輸入圖像的大小不受限制,能夠?qū)崿F(xiàn)端到端的像素級(jí)預(yù)測(cè)任務(wù)。網(wǎng)絡(luò)結(jié)構(gòu)圖如圖3所 示,F(xiàn)CN 將VGG-16(Visual Geometry Group 16-layer network)算法的全連接層替換為卷積層。一幅RGB 圖像輸入卷積神經(jīng)網(wǎng)絡(luò)之后,進(jìn)行一系列的卷積和池化操作提取特征圖,再通過(guò)反卷積層對(duì)特征圖進(jìn)行上采樣處理,最后進(jìn)行像素分類并把粗粒度的分割結(jié)果轉(zhuǎn)換成細(xì)粒度分割結(jié)果。FCN成功地將圖像分類網(wǎng)絡(luò)拓展為語(yǔ)義分割網(wǎng)絡(luò),可以在較抽象的特征中標(biāo)記像素的類別,對(duì)圖像語(yǔ)義分割領(lǐng)域做出了卓越貢獻(xiàn),但是仍面臨著3 方面的挑戰(zhàn):池化層會(huì)使得特征圖的分辨率下降,也會(huì)導(dǎo)致某些像素的位置信息損失;上采樣處理會(huì)使得結(jié)果模糊,不能很好地理解圖像的細(xì)節(jié)信息;分割過(guò)程離散,不能充分地考慮像素上下文語(yǔ)義信息,故無(wú)論是局部特征還是全局特征利用率均不高。

圖3 FCN網(wǎng)絡(luò)結(jié)構(gòu)圖(Long等,2015)Fig.3 FCN network diagram(Long et al.,2015)

2)基于全卷積的擴(kuò)張語(yǔ)義分割算法。由于全卷積網(wǎng)絡(luò)存在上述問(wèn)題,Google在2014年提出了擴(kuò)張語(yǔ)義分割算法,其能夠擴(kuò)大感受野并且不增加參數(shù)量,代表算法有DeepLab-V1、DeepLab-V2、DeepLab-V3和DeepLab-V3+。

Chen和Kokkinos(2014)把卷積神經(jīng)網(wǎng)絡(luò)與概率圖級(jí)聯(lián)而成了DeepLab-V1 網(wǎng)絡(luò),在全卷積網(wǎng)絡(luò)的末端加入了FCCRF(fully connected conditional random field),F(xiàn)CCRF 可以對(duì)粗粒度分割圖進(jìn)行邊界優(yōu)化,同時(shí)加入了帶孔卷積來(lái)增大特征圖的感受野。圖4為DeepLab-V1 的處理流程。DeepLab-V1 網(wǎng)絡(luò)在PASCAL VOC 2012 數(shù)據(jù)集上的語(yǔ)義分割指標(biāo)平均交并比(mean intersection over union,mIoU)達(dá)到71.6%。

圖4 DeepLab-V1網(wǎng)絡(luò)處理流程(Chen和Kokkinos,2014)Fig.4 Processing based on DeepLab-V1(Chen and Kokkinos,2014)

Chandra 等人(2016)提出基于高斯條件隨機(jī)場(chǎng)(Gaussian conditional random field,G-CRF)的語(yǔ)義分割算法,其可以與任意損失函數(shù)進(jìn)行聯(lián)合訓(xùn)練,在同樣的數(shù)據(jù)集上語(yǔ)義分割精度達(dá)到75.46%。

Chen 等人(2018a)改進(jìn)了DeepLab-V1網(wǎng)絡(luò)特征圖分辨率下降、不能準(zhǔn)確定位等問(wèn)題,提出了DeepLab-V2 網(wǎng)絡(luò)。該算法通過(guò)帶孔卷積作為上采樣濾波器用來(lái)提取特征,并且結(jié)合空間金字塔池化(spatial pyramid pooling)提 出ASPP(atrous spatial pyramid pooling),使得其可以更好地提取多尺度特征。DeepLab-V2 網(wǎng)絡(luò)擴(kuò)大了感受野,語(yǔ)義分割精度有了顯著提高,在PASCAL VOC 2012數(shù)據(jù)集上mIoU指標(biāo)達(dá)到了79.7%。

Chen 等人(2018a)提出了DeepLab-V3 算法,DeepLab-V3改變了ASPP的空間結(jié)構(gòu),先將4個(gè)帶孔卷積并聯(lián)成一個(gè)新的ASPP,再把多個(gè)帶孔卷積和新的ASPP串聯(lián),組成一個(gè)端到端的分割網(wǎng)絡(luò),其可以捕捉多尺度的圖像語(yǔ)義信息。DeepLab-V3 在PASCAL VOC 2012數(shù)據(jù)集上mIoU指標(biāo)達(dá)到了85.7%。

Chen等人(2018b)在DeepLab-V3網(wǎng)絡(luò)結(jié)構(gòu)中加入了編碼—解碼算法和Xception 網(wǎng)絡(luò),從而提出了DeepLab-V3+語(yǔ)義分割網(wǎng)絡(luò)。其可以更好地保留分割的細(xì)粒度特征,更好地理解圖像的上下文語(yǔ)義信息,也能夠顯著提升網(wǎng)絡(luò)的分割準(zhǔn)確度和運(yùn)算速度。DeepLab-V3+網(wǎng)絡(luò)在PASCAL VOC 2012 數(shù)據(jù)集上mIoU達(dá)到了89.0%。

3)基于全卷積的對(duì)稱語(yǔ)義分割算法。在圖像語(yǔ)義分割領(lǐng)域,對(duì)稱結(jié)構(gòu)的語(yǔ)義分割網(wǎng)絡(luò)是解決“池化處理會(huì)使得特征圖分辨率會(huì)下降、部分像素空間位置語(yǔ)義信息缺失”問(wèn)題的一類重要方法。對(duì)稱結(jié)構(gòu)的語(yǔ)義分割網(wǎng)絡(luò)也叫做基于編碼器—解碼器的網(wǎng)絡(luò),該方法的原理是通過(guò)深度學(xué)習(xí)中的卷積、池化等步驟組成編碼器來(lái)提取圖像特征,然后通過(guò)反卷積、上池化等步驟組成解碼器來(lái)恢復(fù)圖像的一系列像素特征。

Noh等人(2015)提出的DeconvNet網(wǎng)絡(luò)為第1個(gè)對(duì)稱語(yǔ)義分割模型,將VGG16 的softmax 層換成了上池化和反卷積層,上池化能夠進(jìn)行目標(biāo)的準(zhǔn)確定位,并將特征圖的大小還原到池化前的水平從而得到稀疏特征圖,反卷積層又會(huì)把稀疏特征圖轉(zhuǎn)化為稠密特征圖,但是該模型參數(shù)較多,運(yùn)算復(fù)雜。

針對(duì)DeconvNet 網(wǎng)絡(luò)參數(shù)量太大的問(wèn)題,Badrinarayanan 等人(2017)提出了SegNet 網(wǎng)絡(luò)。SegNet網(wǎng)絡(luò)的編碼器部分與VGG16相同,由13個(gè)卷積層和5 個(gè)池化層構(gòu)成,解碼器部分由9 個(gè)上采樣層、13 個(gè)卷積層和1個(gè)softmax分類器組成,

如圖5 所示。SegNet 網(wǎng)絡(luò)運(yùn)算簡(jiǎn)便,涉及的參數(shù)數(shù)量和占用的存儲(chǔ)空間均較小,但是該網(wǎng)絡(luò)是通過(guò)先驗(yàn)概率來(lái)進(jìn)行像素點(diǎn)的分類,無(wú)法預(yù)測(cè)分割結(jié)果的置信度。

圖5 SegNet網(wǎng)絡(luò)結(jié)構(gòu)示意圖(Badrinarayanan等,2017)Fig.5 Schematic diagram of SegNet network structure(Badrinarayanan et al.,2017)

Ronneberger 等人(2015)提出了專門適應(yīng)生物醫(yī)學(xué)圖像語(yǔ)義分割的U-Net 算法,該網(wǎng)絡(luò)模型編碼器部分進(jìn)行下采樣處理,逐漸降低特征圖的分辨率,解碼器部分進(jìn)行上采樣處理,還原圖像細(xì)節(jié)信息。U-Net網(wǎng)絡(luò)可以通過(guò)圖像切塊擴(kuò)充數(shù)據(jù)量,所以在訓(xùn)練圖像較少的情況下同樣具有較高的不變性和魯棒性。U-Net網(wǎng)絡(luò)的確有不錯(cuò)的分割效果,然而只適用于2D 圖像。Milletari 等人(2016)把全卷積、神經(jīng)網(wǎng)絡(luò)和3D 體積結(jié)合提出了一種V-Net 網(wǎng)絡(luò),用來(lái)處理3D 數(shù)據(jù),而且對(duì)于前景和背景數(shù)量不匹配的問(wèn)題設(shè)計(jì)了目標(biāo)函數(shù),可以用少量數(shù)據(jù)進(jìn)行訓(xùn)練,加快了訓(xùn)練速度。

Peng 等人(2017)提出了一種GCN(global convlutional network)網(wǎng)絡(luò),該網(wǎng)絡(luò)把CNN 的全連接層換成了卷積核較大的卷積層,GCN 網(wǎng)絡(luò)的編碼器由ResNet 網(wǎng)絡(luò)構(gòu)成,解碼器由GCN 和反卷積構(gòu)成,并且加入了小型殘差塊進(jìn)行邊界優(yōu)化,顯著提高了分割邊界的清晰度和分割準(zhǔn)確率。

總體來(lái)說(shuō),基于全卷積的對(duì)稱語(yǔ)義分割網(wǎng)絡(luò)主要具有以下優(yōu)缺點(diǎn),優(yōu)點(diǎn)為:還原圖像的空間維度和像素的位置信息,解決池化操作后特征圖分辨率降低的問(wèn)題;缺點(diǎn)為:網(wǎng)絡(luò)訓(xùn)練參數(shù)過(guò)多,計(jì)算量大,無(wú)法實(shí)現(xiàn)實(shí)時(shí)分割。

4)基于特征融合的算法。特征融合的主要思想是兼顧考慮圖像的高級(jí)特征、中級(jí)特征、低級(jí)特征以及全局特征、部分特征,通過(guò)對(duì)各層次、各區(qū)域特征的融合來(lái)更好地獲取圖像深層的上下文信息,其能夠?qū)D像的上下文信息進(jìn)行整合加工,提高各種特征的利用效率,以解決之前算法運(yùn)算量大,訓(xùn)練時(shí)間長(zhǎng)的問(wèn)題。

Liu 等人(2015)首先將全局特征進(jìn)行上池化處理,再將其融合到局部特征中得到圖像的上下文信息。Ghiasi和Fowlkes(2016)用拉普拉斯金字塔重構(gòu)低層特征,提出了LRR(Laplacian pyramid reconstruction and refinement model)模型。LRR 模型將特征圖表示為一組基函數(shù)的線性組合,并通過(guò)跨層方法引入邊界特征,融合了低層、高層特征,顯著提高了分割精度。

Li 等人(2017)提出了深層級(jí)聯(lián)(deep layer cascade,LC)方法,該方法通過(guò)區(qū)域卷積處理各階段感興趣的區(qū)域,忽略其余不感興趣的區(qū)域。并且具有一定的自主學(xué)習(xí)能力,當(dāng)圖像區(qū)域的復(fù)雜程度不同時(shí)匹配不同深度的處理網(wǎng)絡(luò),從而進(jìn)行針對(duì)性訓(xùn)練。

Lin 等人(2016b)提出了RefineNet 網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)如圖6 所示,圖像輸入網(wǎng)絡(luò)之后,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)得到4 種分辨率不同(1∕4,1∕8,1∕16,1∕32)的特征圖,之后將特征圖與對(duì)應(yīng)的精細(xì)模塊(由一些殘差組件組成)融合。經(jīng)過(guò)幾次迭代,融合不同的特征圖之后得到分割結(jié)果。RefineNet 網(wǎng)絡(luò)能夠高效的利用粗粒度高層語(yǔ)義特征和細(xì)粒度低層語(yǔ)義特征,更好地理解上下文語(yǔ)義信息,其在PASCAL VOC 2012 數(shù)據(jù)集上的分割精度為83.4%。

圖6 RefineNet網(wǎng)絡(luò)結(jié)構(gòu)示意圖(Lin等,2016b)Fig.6 Schematic diagram of RefineNet network structure(Lin et al.,2016b)

Zhao 等人(2017a)提出PSP(pyramid scene parsing)網(wǎng)絡(luò),圖像輸入該網(wǎng)絡(luò)之后先通過(guò)ResNet 網(wǎng)絡(luò)和擴(kuò)張網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,預(yù)訓(xùn)練之后特征圖的大小變?yōu)樵瓉?lái)的1∕8,再將其同時(shí)送入4 個(gè)并行的池化層進(jìn)行池化處理,融合4 種不同尺寸的特征圖,最后上采樣還原特征圖的大小。PSP 網(wǎng)絡(luò)處理流程如圖7所示。PSP 網(wǎng)絡(luò)顯著提高了語(yǔ)義分割精準(zhǔn)度,其在PASCAL VOC 2012 上的分割精度為85.4%。Zhao等人(2017b)在之前的基礎(chǔ)上提出了圖像級(jí)聯(lián)網(wǎng)絡(luò)(image cascade network,ICNet),其在保證分割精度的同時(shí)實(shí)現(xiàn)了實(shí)時(shí)分割。受其啟發(fā),構(gòu)建了雙流圖像分割網(wǎng)絡(luò)(dual image segmentation,DIS)(Luo 等,2017),該網(wǎng)絡(luò)在PASCAL VOC 2012 上的分割精度為86.8%。

圖7 PSP網(wǎng)絡(luò)處理流程(Zhao等,2017a)Fig.7 Processing based on PSP(Zhao et al.,2017a)((a)input image;(b)feature map;(c)spatial pyramid pooling;(d)image semantic segmentation)

PointRend(Kirillov 等,2020)是一種針對(duì)點(diǎn)渲染的神經(jīng)網(wǎng)絡(luò),核心思想是將圖像分割視為圖像渲染,即在2D 平面上表現(xiàn)3D 物體。PointRend 網(wǎng)絡(luò)由3個(gè)模塊構(gòu)成:第1 個(gè)模塊是關(guān)于有效點(diǎn)的選擇,只選擇物體邊緣的點(diǎn);第2 個(gè)模塊是關(guān)于點(diǎn)的特征表達(dá),此模塊會(huì)運(yùn)用雙線性插值算法推理被選點(diǎn)的特征;第3 個(gè)模塊是對(duì)點(diǎn)的特征進(jìn)行預(yù)測(cè)。核心模塊是點(diǎn)的選擇,可以節(jié)約大量的算力。PointRend 也可以與DeepLab、Mask R-CNN(He等,2018)網(wǎng)絡(luò)融合。

條紋池化(strip pooling)是一種新型的池化方法,不同與普通的池化法,條紋池化核為1 ×n或n× 1,可以精確地捕捉矩形結(jié)構(gòu)的物體。SPNet 網(wǎng)絡(luò)(Hou等,2020)是由條紋池化模塊和混合池化模塊(Yu等,2014)融合而成的分割算法。條紋池化模塊首先會(huì)對(duì)輸入圖像進(jìn)行水平條紋池化和豎直條紋池化兩種處理,每幅輸入圖像會(huì)產(chǎn)生兩幅特征圖,再將兩個(gè)特征圖融合,經(jīng)過(guò)融合的特征圖與原圖進(jìn)行像素相乘處理后輸出?;旌铣鼗K則是將金字塔池化方法加入到了條紋池化模塊,混合池化和條紋池化配合使用,可對(duì)不同形狀的物體進(jìn)行分割。SPNet 分割效果良好。

除此之外,還有學(xué)者主張融合不同階段提取的圖像特征,例如將上一階段提取的特征和下一階段提取的特征進(jìn)行融合。Raj 等人(2015)提出了一種多尺度深度卷積神經(jīng)網(wǎng)絡(luò),其首先將不同尺度的卷積層植入到VGG-16 網(wǎng)絡(luò)中,捕捉不同尺度的特征之后,融合上下兩個(gè)階段的特征。該網(wǎng)絡(luò)能夠捕捉到粗粒度和細(xì)粒度的特征。

5)基于循環(huán)神經(jīng)網(wǎng)絡(luò)的算法。循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)利用其拓?fù)浣Y(jié)構(gòu),成功地應(yīng)用于長(zhǎng)時(shí)間序列和短時(shí)間序列的建模。循環(huán)神經(jīng)網(wǎng)絡(luò)具有兩方面的特點(diǎn):能夠?qū)v史信息進(jìn)行遞歸處理;能夠?qū)v史記憶進(jìn)行建模。圖像語(yǔ)義分割過(guò)程中通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)可以更好地捕捉上下文信息,更充分地利用全局特征和局部特征?;谘h(huán)神經(jīng)網(wǎng)絡(luò)的語(yǔ)義分割模型,一般都是在卷積神經(jīng)網(wǎng)絡(luò)中加入了RNN layer,卷積層用于捕獲圖像的局部空間特征,RNN layer 用于捕獲有關(guān)像素序列的特征,很多方法用到了圖像分塊?;谘h(huán)神經(jīng)網(wǎng)絡(luò)的圖像語(yǔ)義分割處理流程如圖8 所示。圖像首先通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取特征,然后將特征圖傳送到循環(huán)神經(jīng)網(wǎng)絡(luò)中捕獲上下文信息,用RNN 層序列化像素,分析像素之間的依賴關(guān)系后得到全局語(yǔ)義特征,最后通過(guò)反卷積上采樣得到分割結(jié)果。

圖8 基于RNN的算法一般處理流程Fig.8 General processing of algorithm based on RNN

Pinheiro 和Collobert(2014)首次將泛化后的循環(huán)神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像語(yǔ)義分割領(lǐng)域。Visin 等人(2016)在圖像分類網(wǎng)絡(luò)ResNet 的基礎(chǔ)上,提出了ReSeg 語(yǔ)義分割體系。圖像輸入ReSeg 網(wǎng)絡(luò)后首先用第一層的VGG-16 算法生成特征圖,再將生成的特征圖輸入到一個(gè)或多個(gè)ResNet 層進(jìn)行微調(diào),最后用基于反卷積的上采樣層來(lái)恢復(fù)特征圖的大小。在這種方法中,還使用了門控循環(huán)單元(gated recurrent unit,GRU),因?yàn)槠湓趦?nèi)存占用和計(jì)算能力方面取得了良好的性能平衡。

普通的循環(huán)神經(jīng)網(wǎng)絡(luò)序列在建模長(zhǎng)期依賴關(guān)系時(shí)存在梯度爆炸或梯度消失的問(wèn)題,于是有學(xué)者建立了長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)模型和GRUs技術(shù)來(lái)解決該問(wèn)題。通過(guò)LSTM和GRUs 處理圖像時(shí),保留圖像的時(shí)間序列特征和高級(jí)語(yǔ)義信息,可以得到更好的分割結(jié)果。Li 等人(2016)同樣受到ResNet 網(wǎng)絡(luò)架構(gòu)的啟發(fā),提出了一種新的適應(yīng)于場(chǎng)景標(biāo)注的LSTM-CF 模型,該方法使用了兩個(gè)不同的數(shù)據(jù)源:RGB和depth。RGB管道依賴于DeepLab架構(gòu)的一個(gè)變體,將3種不同尺度的特征連接起來(lái)一豐富特征表示。

6)基于生成對(duì)抗網(wǎng)絡(luò)的算法。生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)由Goodfellow等人(2014)首次提出。在圖像語(yǔ)義分割過(guò)程中,用生成對(duì)抗網(wǎng)絡(luò)獲取上下文信息可以解決CRF 運(yùn)算量大、內(nèi)存占用過(guò)高和訓(xùn)練時(shí)間長(zhǎng)等問(wèn)題?;谏蓪?duì)抗網(wǎng)絡(luò)的語(yǔ)義分割算法基本結(jié)構(gòu)框架如圖9 所示。生成器網(wǎng)絡(luò)一般是FCN、SegNet 或PSPNet 等分割網(wǎng)絡(luò),圖像輸入以后先經(jīng)過(guò)生成器生成大量的人造樣本,再將檢測(cè)數(shù)據(jù)集輸入判別器網(wǎng)絡(luò),判別器網(wǎng)絡(luò)會(huì)對(duì)人造樣本和檢測(cè)數(shù)據(jù)集學(xué)習(xí),并進(jìn)行對(duì)抗訓(xùn)練。當(dāng)樣本的真假被輸出后,生成器網(wǎng)絡(luò)和判別器網(wǎng)絡(luò)會(huì)自動(dòng)進(jìn)行修正調(diào)節(jié),迭代訓(xùn)練過(guò)程中會(huì)不斷提高生成器的分割準(zhǔn)確率和判別器的判斷能力。

圖9 基于GAN的語(yǔ)義分割算法基本結(jié)構(gòu)框架Fig.9 Basic structure framework of semantic segmentation algorithm based on GAN

Luc 等人(2016)首次把生成對(duì)抗網(wǎng)絡(luò)引入到了圖像語(yǔ)義分割領(lǐng)域,輸入圖像首先由卷積神經(jīng)網(wǎng)絡(luò)處理成為分割結(jié)果,再將其送入生成對(duì)抗網(wǎng)絡(luò)判別真假,對(duì)抗學(xué)習(xí)訓(xùn)練不斷提高分割準(zhǔn)確率。Hoffman等人(2016)結(jié)合了生成對(duì)抗網(wǎng)絡(luò)和領(lǐng)域適應(yīng)性思想,并對(duì)損失函數(shù)進(jìn)行了再次調(diào)整優(yōu)化,創(chuàng)建了語(yǔ)義分割的適應(yīng)性框架。Kozinski 等人(2017)用生成對(duì)抗網(wǎng)絡(luò)來(lái)規(guī)范化分割網(wǎng)絡(luò)的參數(shù)。Souly 等人(2017)通過(guò)條件生成對(duì)抗網(wǎng)絡(luò)(conditional generative adversarial network,CGAN)生成人造樣本。

基于生成對(duì)抗網(wǎng)絡(luò)的算法能夠生成樣本并且判斷真假,可以解決卷積神經(jīng)網(wǎng)絡(luò)、全卷積網(wǎng)絡(luò)進(jìn)行語(yǔ)義分割時(shí)的一些問(wèn)題。但是該類算法在進(jìn)行大規(guī)模訓(xùn)練時(shí)效果并不好。

7)基于注意力機(jī)制的算法。注意力(attention)機(jī)制主要用在自然語(yǔ)言處理領(lǐng)域(natural language processing,NLP),但有研究者開始嘗試將注意力機(jī)制用在語(yǔ)義分割上。把注意力機(jī)制融入語(yǔ)義分割算法,突出的貢獻(xiàn)就是可以在大量的語(yǔ)義信息中捕獲最關(guān)鍵的部分,更加高效的訓(xùn)練分割網(wǎng)絡(luò)。自注意力機(jī)制模型的分割效果遠(yuǎn)遠(yuǎn)優(yōu)于通道注意力機(jī)制模型。

DANet(dual attention network)(Fu 等,2019)將ResNet(帶有空洞卷積)作為主干網(wǎng)絡(luò),卷積后的特征圖送入兩個(gè)并行的自注意力網(wǎng)絡(luò)(位置注意力網(wǎng)絡(luò)和通道注意力網(wǎng)絡(luò))。位置注意力網(wǎng)絡(luò)能夠獲取特征圖上任意兩點(diǎn)之間的空間依賴關(guān)系,通道注意力網(wǎng)絡(luò)能夠獲取特征圖上任意兩個(gè)通道之間的通道依賴關(guān)系。再將經(jīng)過(guò)注意力機(jī)制處理過(guò)的兩幅特征圖融合,最后進(jìn)行分割。

增加卷積層的個(gè)數(shù)可以增大網(wǎng)絡(luò)的感受野,但是也會(huì)不斷地增加算力需求,還會(huì)造成圖像信息的流失。non-local(Wang 等,2018)就是可以解決上述問(wèn)題的自注意力機(jī)制模塊。non-local 能夠輕松計(jì)算出任意兩點(diǎn)之間的關(guān)系,也能使得輸出圖像的尺度與輸入圖像保持一致。Zhu 等人(2019)在ResNet 中加入了non-local,計(jì)算效率有了不少的提升。EMANet(Li 等,2019)稱為期望最大化注意力機(jī)制網(wǎng)絡(luò),相比于non-local 更加簡(jiǎn)單,但性能顯著優(yōu)于nonlocal。

HANet(Choi 等,2020)也是融入了自注意力機(jī)制的網(wǎng)絡(luò),其專門適應(yīng)于城市場(chǎng)景(該類圖像每行像素均含有顯著差異的上下文信息)語(yǔ)義分割,能夠捕獲上下文信息,而且可以算出每行像素的注意權(quán)值。HANet也能夠加入現(xiàn)有的分割網(wǎng)絡(luò)。

1.2.3 弱監(jiān)督學(xué)習(xí)圖像語(yǔ)義分割方法

全監(jiān)督學(xué)習(xí)的圖像語(yǔ)義分割方法在圖像語(yǔ)義分割領(lǐng)域占了很大的比例,卷積神經(jīng)網(wǎng)絡(luò)、全卷積網(wǎng)絡(luò)等的應(yīng)用也取得了不錯(cuò)的效果。但是制作像素級(jí)精確標(biāo)簽圖像的過(guò)程成本很大,往往需要花費(fèi)大量時(shí)間去進(jìn)行人工標(biāo)注。因此有一些學(xué)者開始研究基于弱監(jiān)督學(xué)習(xí)的語(yǔ)義分割方法,該系列方法使用弱標(biāo)注的圖像訓(xùn)練分割模型。弱標(biāo)注數(shù)據(jù)相較于像素級(jí)標(biāo)注人工操作較少,比較容易獲取。目前,主流的弱監(jiān)督學(xué)習(xí)標(biāo)注方法可分為以下4 類:邊界框標(biāo)簽、簡(jiǎn)筆標(biāo)簽、圖像級(jí)標(biāo)簽和點(diǎn)標(biāo)簽。

1)基于邊界框標(biāo)簽的方法。邊界框的標(biāo)注過(guò)程需要的時(shí)間較少,該類方法的訓(xùn)練樣本即為邊框級(jí)標(biāo)注圖像,分割效果并不比全監(jiān)督學(xué)習(xí)的語(yǔ)義分割方法(相同條件下)差很多。

Dai等人(2015)以全卷積網(wǎng)絡(luò)為基礎(chǔ),通過(guò)邊框級(jí)標(biāo)注圖像訓(xùn)練分割器,提出了BoxSup 算法。該網(wǎng)絡(luò)首先使用MGG 算法候選出語(yǔ)義標(biāo)注區(qū)域,再將語(yǔ)義標(biāo)注區(qū)域設(shè)置為監(jiān)督信息送入到全卷積網(wǎng)絡(luò)中訓(xùn)練,訓(xùn)練之后全卷積網(wǎng)絡(luò)會(huì)輸出精度更高的標(biāo)注區(qū)域,這些標(biāo)注區(qū)域又會(huì)被送入全卷積網(wǎng)絡(luò)再次訓(xùn)練,如此迭代至準(zhǔn)確率收斂。Rajchl 等人(2016)創(chuàng)立了DeepCut 分割模型,同樣用邊框級(jí)標(biāo)注數(shù)據(jù)集進(jìn)行訓(xùn)練,不過(guò)是用卷積神經(jīng)網(wǎng)絡(luò)重復(fù)迭代。

2)基于簡(jiǎn)筆標(biāo)簽的方法?;诤?jiǎn)筆標(biāo)注的方法,語(yǔ)義分割流程簡(jiǎn)潔明了,制作訓(xùn)練樣本的成本也較低。簡(jiǎn)筆標(biāo)注對(duì)圖像中的不同語(yǔ)義畫線標(biāo)注即可,如圖10所示。

圖10 簡(jiǎn)筆標(biāo)注示意圖Fig.10 Stick figure annotation schematic diagram

Bearman 等人(2016)提出了點(diǎn)監(jiān)督方法,其使用隨機(jī)簡(jiǎn)筆標(biāo)注的點(diǎn)當(dāng)成監(jiān)督信息,并與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,分割效果良好。Lin 等人(2016a)創(chuàng)立了ScribbleSup 網(wǎng)絡(luò),ScribbleSup 能夠分為兩個(gè)過(guò)程:自動(dòng)標(biāo)記過(guò)程與圖像訓(xùn)練過(guò)程。自動(dòng)標(biāo)記過(guò)程首先對(duì)圖像簡(jiǎn)筆標(biāo)注之后,圖像訓(xùn)練過(guò)程再通過(guò)圖模型對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,最后完成分割。

3)基于圖像級(jí)標(biāo)簽的方法。基于圖像級(jí)標(biāo)注的方法,其訓(xùn)練樣本不用進(jìn)行像素標(biāo)注,制作成本非常低,故成為弱監(jiān)督學(xué)習(xí)語(yǔ)義分割的主流方法。圖像級(jí)標(biāo)注的缺點(diǎn)是只標(biāo)注了語(yǔ)義的種類信息,而對(duì)語(yǔ)義形狀沒(méi)有進(jìn)行標(biāo)注。

Pinheiro 等人(2015)將多示例學(xué)習(xí)(multipleinstance learning,MIL)技術(shù)引入了弱監(jiān)督學(xué)習(xí)領(lǐng)域,MIL 技術(shù)被用來(lái)構(gòu)建像素語(yǔ)義與圖像標(biāo)簽間的關(guān)系,其首先通過(guò)ImageNet圖像級(jí)標(biāo)注訓(xùn)練模型,然后通過(guò)卷積神經(jīng)網(wǎng)絡(luò)生成特征平面,后續(xù)處理階段還用到了超像素和MCG 等技術(shù),顯示了良好的分割結(jié)果。在此基礎(chǔ)上,Pathak 等人(2015)通過(guò)約束卷積神經(jīng)網(wǎng)絡(luò)(constrained convolutional neural network,CCNN)來(lái)分割圖像,使用圖像級(jí)標(biāo)注進(jìn)行訓(xùn)練,訓(xùn)練過(guò)程即為求約束條件的最優(yōu)解。Kolesnikov 等人(2016)提出了可以結(jié)合多個(gè)損失函數(shù)進(jìn)行語(yǔ)義分割的思想,創(chuàng)立了SEC 算法,其損失函數(shù)由3 個(gè)子損失函數(shù)構(gòu)成。

基于圖像級(jí)標(biāo)注的分割方法的顯著問(wèn)題是不關(guān)注語(yǔ)義目標(biāo)的位置信息。針對(duì)此問(wèn)題,Wei 等人(2017)提出了一種由簡(jiǎn)到繁的分割模型,即STC 算法。第1 步通過(guò)顯著性目標(biāo)檢測(cè)方法計(jì)算出敏感區(qū)域;第2 步融合區(qū)域特征并且構(gòu)建像素語(yǔ)義關(guān)系,再通過(guò)卷積神經(jīng)網(wǎng)絡(luò)生成一組敏感區(qū)域圖;第3 步由簡(jiǎn)到繁進(jìn)行迭代。經(jīng)過(guò)上述步驟不斷提高分割精度。

Jin 等人(2017)受其啟發(fā),同樣通過(guò)圖像標(biāo)注進(jìn)行監(jiān)督訓(xùn)練,先訓(xùn)練淺層神經(jīng)網(wǎng)絡(luò),之后再將不同的淺層網(wǎng)絡(luò)合成為一個(gè)深度神經(jīng)網(wǎng)絡(luò)。其的工作在PASCAL VOC 2012 數(shù)據(jù)集中進(jìn)行了端到端測(cè)試,顯示出良好的分割效果。

Qi 等人(2016)為了解決弱監(jiān)督學(xué)習(xí)語(yǔ)義分割的誤差累計(jì)問(wèn)題,將增強(qiáng)反饋思想引入到了迭代訓(xùn)練過(guò)程中,首先進(jìn)行目標(biāo)定位,再通過(guò)反饋結(jié)果逐漸改善分割性能;Hou 等人(2017)在分割圖像時(shí)將EM(expectation maximization)算法和卷積神經(jīng)網(wǎng)絡(luò)結(jié)合,顯示出良好的分割效果;Durand 等人(2017)在全卷積網(wǎng)絡(luò)基礎(chǔ)上,通過(guò)弱監(jiān)督學(xué)習(xí)選取出圖像的顯著性區(qū)域,再利用顯著性區(qū)域的特征信息進(jìn)行圖像分割;

4)基于點(diǎn)標(biāo)簽的方法。圖像級(jí)標(biāo)簽與點(diǎn)標(biāo)簽的不同之處僅在于點(diǎn)標(biāo)簽需要一個(gè)“點(diǎn)”大致標(biāo)記出目標(biāo)的中心位置,基于點(diǎn)標(biāo)簽的方法分割性能遠(yuǎn)遠(yuǎn)優(yōu)于基于圖像級(jí)標(biāo)簽的方法。點(diǎn)監(jiān)督類激活圖(point supervised class activation maps,PCAM)算法(McEver等,2020)通過(guò)點(diǎn)標(biāo)簽提升定位和分割能力,首先用ResNet50 為基礎(chǔ)的CNN 處理點(diǎn)標(biāo)簽圖像計(jì)算點(diǎn)監(jiān)督類激活圖,并生成類別標(biāo)簽,再對(duì)比點(diǎn)標(biāo)簽與輸出的差異,更新PCAM 網(wǎng)絡(luò)的消耗。然后利用IRNet與PACM 聯(lián)合構(gòu)建偽語(yǔ)義標(biāo)簽,將偽語(yǔ)義標(biāo)簽視為真實(shí)語(yǔ)義標(biāo)簽訓(xùn)練分割網(wǎng)絡(luò)。

1.3 面向2.5D數(shù)據(jù)的語(yǔ)義分割方法

大量的語(yǔ)義分割工作是在2D 數(shù)據(jù)集中完成的。加入深度信息能夠一定程度地區(qū)分易混淆的像素,從而提高分割精度。但RGB 圖像中只包含顏色紋理等外觀特征,三維幾何信息不能被獲取。低成本RGB-D 傳感器的出現(xiàn)也進(jìn)一步降低了研究門檻,開始有部分學(xué)者研究立體數(shù)據(jù),一些專注于RGB-D 場(chǎng)景分割的論文開始發(fā)表。近些年,許多學(xué)者把二維信息與深度信息進(jìn)行了拼湊,分割精度確有提高。Gupta 等人(2014)首先把RGB-D 信息進(jìn)行了編碼操作,再將編碼后的深度信息與顏色信息輸入到并聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)中,最后將預(yù)測(cè)到的兩個(gè)語(yǔ)義分割概率圖融合。Li等人(2016)將深度數(shù)據(jù)的每個(gè)像素編碼為3 個(gè)不同的通道,通過(guò)這種方式可以將深度圖像輸入到RGB 數(shù)據(jù)分割模型中,并從結(jié)構(gòu)信息中學(xué)習(xí)新的特征。Zeng 等人(2016)提出了一種利用多視圖RGB-D 數(shù)據(jù)、自我監(jiān)督和數(shù)據(jù)驅(qū)動(dòng)學(xué)習(xí)的語(yǔ)義分割方法,訓(xùn)練了多個(gè)用于特征提取的網(wǎng)絡(luò),其最大的貢獻(xiàn)是能夠?qū)⒉东@的RGB-D 圖像輸入到FCN網(wǎng)絡(luò)中進(jìn)行場(chǎng)景分割。上述研究的確取得了較好的效果,但也有不足之處:1)將二維特征與RGB-D 特征簡(jiǎn)單地拼湊融合,不能很好地提取并運(yùn)用二者在空間上的互補(bǔ)信息;2)CNN 高層特征中的各通道均會(huì)對(duì)特定類別的語(yǔ)義信息進(jìn)行編碼,上述方法沒(méi)有考慮到高層特征間語(yǔ)義信息的相互關(guān)系。針對(duì)以上問(wèn)題,Duan 等人(2021)研究了一個(gè)融合注意力機(jī)制(開發(fā)了一種跨模態(tài)注意力機(jī)制)和語(yǔ)義感知的端到端訓(xùn)練網(wǎng)絡(luò),可以高效率地融合2 維信息與深度信息。實(shí)驗(yàn)結(jié)果顯示,該方法即使不用很深的網(wǎng)絡(luò)也能得到不錯(cuò)的分割結(jié)果。

Ma 等人(2017)提出了一種基于FuseNet 算法的RGB-D 圖像分割方法。首先利用移動(dòng)的RGB-D 攝像機(jī)獲取視圖,在訓(xùn)練階段通過(guò)SLAM 技術(shù)獲取攝像機(jī)軌跡,然后將RGB-D 圖像扭曲成真實(shí)標(biāo)注的幀用于分割。

1.4 面向3D數(shù)據(jù)的語(yǔ)義分割方法

3D 數(shù)據(jù)(如點(diǎn)云或多邊形網(wǎng)格)的額外維度提供了豐富的空間信息。面向3D 數(shù)據(jù)的語(yǔ)義分割方法可以分為間接處理法和直接處理法。典型的卷積架構(gòu)需要高度規(guī)則的輸入數(shù)據(jù)格式,由于點(diǎn)云或網(wǎng)格不是常規(guī)格式,故研究者一般都會(huì)將非結(jié)構(gòu)化、無(wú)序的點(diǎn)云或網(wǎng)格轉(zhuǎn)化成規(guī)則的3D 體素網(wǎng)格或圖像集合,再輸入分割網(wǎng)絡(luò)。

1.4.1 間接處理法

Su 等人(2018)將一個(gè)三維物體映射為多個(gè)不同角度的二維圖,再用卷積神經(jīng)網(wǎng)絡(luò)提取特征,但是該方法在(多個(gè)二維圖)還原3D物體時(shí)不太理想。

Wu 等人(2018a)提出了Squeezeseg 網(wǎng)絡(luò)框架,該框架是可以進(jìn)行端到端訓(xùn)練。其先把點(diǎn)云通過(guò)球面投影處理得到前視圖,再用SqueezeNet(Iandola等,2016)提取圖像特征,最后分割圖像并優(yōu)化。在此基礎(chǔ)上,SqueezesegV2(Wu 等,2018b)也相繼被提出,SqueezesegV2 能夠更魯棒地減少點(diǎn)云噪聲。Imad 等人(2021)提出了一種通過(guò)遷移學(xué)習(xí)進(jìn)行3D分割的算法,該算法首先把3D 點(diǎn)云投影成2D 數(shù)據(jù),再利用2D 遷移學(xué)習(xí)分割圖像,最終將2D 分割結(jié)果反投影到3D 數(shù)據(jù)中。Le 等人(2018)開發(fā)了基于三維形狀理解的PointGrid 網(wǎng)絡(luò),PointGrid 在每個(gè)體素單元網(wǎng)格中提取數(shù)量一致的特征點(diǎn),從而采樣幾何細(xì)節(jié),解決了卷積神經(jīng)網(wǎng)絡(luò)對(duì)空間稀疏的體素不能高效處理的問(wèn)題。Meng 等人(2018)則致力于研究點(diǎn)云分布的稀疏性與不均勻性,把不規(guī)則的點(diǎn)云轉(zhuǎn)化成規(guī)則的體素網(wǎng)格,再通過(guò)插值自動(dòng)編碼器對(duì)各體素信息進(jìn)行編碼。

間接處理法最大的優(yōu)勢(shì)是彌補(bǔ)了CNN 不能處理3D 數(shù)據(jù)的缺陷,但仍然面臨一些問(wèn)題,比如過(guò)程復(fù)雜、精度不高以及重要信息丟失嚴(yán)重等。

1.4.2 直接處理法

直接處理法不用進(jìn)行繁瑣的數(shù)據(jù)形式轉(zhuǎn)換。斯坦福大學(xué)的Qi 等人(2017)提出了第1 個(gè)直接處理點(diǎn)云數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)PointNet,PointNet 網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單,如圖11 所示,可以很好地解決點(diǎn)云在空間排列上的無(wú)序性問(wèn)題,能夠進(jìn)行物體分類、分割、場(chǎng)景語(yǔ)義轉(zhuǎn)換等任務(wù)。然而PointNet 網(wǎng)絡(luò)只能獨(dú)立學(xué)習(xí)每個(gè)點(diǎn)的特征,不能良好地學(xué)習(xí)點(diǎn)之間的關(guān)系。

圖11 PointNet網(wǎng)絡(luò)結(jié)構(gòu)(Qi等,2017)Fig.11 Network structure of PointNet(Qi et al.,2017)

之后提出的PointNet++網(wǎng)絡(luò)用以解決上述問(wèn)題,但導(dǎo)致運(yùn)算成本太高。Engelmann 等人(2017)受PointNet 網(wǎng)絡(luò)的啟發(fā),提出了分塊處理點(diǎn)云的思想,目的在于增大網(wǎng)絡(luò)的感受野,學(xué)習(xí)點(diǎn)云間的關(guān)系。

Engelmann 等人(2017)的實(shí)驗(yàn)表明了點(diǎn)云關(guān)系融合的重要性。Huang 等人(2018)提出了一種基于3D 卷積神經(jīng)網(wǎng)絡(luò)的點(diǎn)云分割方法,該方法不需要人工制作標(biāo)簽,可以處理大規(guī)模的數(shù)據(jù)。在包含7 類對(duì)象的城市點(diǎn)云數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)后表明該方法具有較高的魯棒性,但其較大的缺點(diǎn)是空間信息丟失嚴(yán)重。KPConv(Thomas 等,2019)是一種能夠分割點(diǎn)云數(shù)據(jù)的擴(kuò)張神經(jīng)網(wǎng)絡(luò),KPConv 的卷積核由多個(gè)帶權(quán)重的核點(diǎn)構(gòu)成,并且能夠靈活地設(shè)置。Tatarchenko 等人(2018)提出了基于切線卷積的3D 數(shù)據(jù)神經(jīng)網(wǎng)絡(luò),能夠直接處理曲面幾何。該方法尤其適用于大規(guī)模點(diǎn)云,實(shí)驗(yàn)結(jié)果顯示出良好的分割性能。

2 語(yǔ)義分割相關(guān)實(shí)驗(yàn)分析

如何客觀公平地評(píng)價(jià)某種方法的分割性能是十分重要的問(wèn)題,因此有必要總結(jié)統(tǒng)一的評(píng)價(jià)指標(biāo),總結(jié)相關(guān)實(shí)驗(yàn)并進(jìn)行對(duì)比分析。

2.1 性能評(píng)價(jià)指標(biāo)

在圖像語(yǔ)義分割領(lǐng)域,分割性能評(píng)價(jià)指標(biāo)有7種:平均精度(average precision,AP)、平均精度均值(mean average precision,mAP)、平均準(zhǔn)確率(mean accuracy,MA)、平均召回率(average recall,AR)、平均交并比(mIoU)、像素準(zhǔn)確率(pixel accuracy,PA)和頻率加權(quán)交并比(frequency weighted intersection over union,F(xiàn)WIoU),比較常用的有兩種:平均準(zhǔn)確率、平均交并比。

2.2 2D數(shù)據(jù)集的相關(guān)實(shí)驗(yàn)分析

近年計(jì)算機(jī)硬件條件發(fā)展迅速,數(shù)據(jù)的處理能力也有了很大程度的提升。在基于深度學(xué)習(xí)的語(yǔ)義分割領(lǐng)域內(nèi),大部分的學(xué)者都將研究重點(diǎn)放在了提高分割準(zhǔn)確率,對(duì)于計(jì)算性能的研究相較于前者比較少,尤其是基于候選區(qū)域的語(yǔ)義分割方法和弱監(jiān)督學(xué)習(xí)語(yǔ)義分割方法。所以對(duì)以上兩種方法的相關(guān)實(shí)驗(yàn)僅從分割準(zhǔn)確率上展開分析,而全監(jiān)督學(xué)習(xí)的語(yǔ)義分割算法對(duì)于計(jì)算性能也是非常關(guān)注的,其相關(guān)實(shí)驗(yàn)將從分割準(zhǔn)確率和計(jì)算性能兩個(gè)方面進(jìn)行闡述。

2.2.1 基于候選區(qū)域的語(yǔ)義分割方法相關(guān)實(shí)驗(yàn)分析

相關(guān)實(shí)驗(yàn)對(duì)比如表2 所示?;诤蜻x區(qū)域的語(yǔ)義分割方法都是以mIoU 作為評(píng)價(jià)指標(biāo),RCNN 是基于候選區(qū)域的第1個(gè)開源算法,mIoU指標(biāo)并不高,但是其分割性能穩(wěn)定,開源時(shí)間較早,已經(jīng)被大量應(yīng)用,其余幾種方法的結(jié)構(gòu)框架都是以RCNN 為基礎(chǔ)。

表2 基于候選區(qū)域的語(yǔ)義分割方法實(shí)驗(yàn)對(duì)比Table 2 Experimental comparison of semantic segmentation algorithms based on candidate regions

2.2.2 全監(jiān)督學(xué)習(xí)語(yǔ)義分割方法相關(guān)實(shí)驗(yàn)分析

全監(jiān)督學(xué)習(xí)語(yǔ)義分割經(jīng)常涉及實(shí)時(shí)分割,所以實(shí)驗(yàn)分析不但要考慮分割準(zhǔn)確率,也要考慮網(wǎng)絡(luò)運(yùn)行速度。

1)關(guān)于分割準(zhǔn)確率的相關(guān)實(shí)驗(yàn)對(duì)比。全監(jiān)督學(xué)習(xí)語(yǔ)義分割方法實(shí)驗(yàn)對(duì)比如表3 所示。從表3 可以看出:(1)算法的應(yīng)用場(chǎng)景和分割特點(diǎn)不同時(shí),選擇的數(shù)據(jù)集也不同。分割常規(guī)靜態(tài)圖像時(shí),PASCAL VOC 2012通常。而CityScapes 數(shù)據(jù)集常被一些用于動(dòng)態(tài)場(chǎng)景解析或?qū)崟r(shí)分割的算法進(jìn)行分割測(cè)試。(2)算法的精度在不斷提高。DeepLab-V3+網(wǎng)絡(luò)整合了FCN、ResNet等許多算法的優(yōu)點(diǎn),mIou指標(biāo)最高。由于其優(yōu)異的性能,在工業(yè)界常用來(lái)分割靜態(tài)圖像,受到了廣泛的應(yīng)用。(3)從算法分類來(lái)看,基于注意力機(jī)制的算法整體上分割精度最高,可能是今后的熱點(diǎn)研究方向。(4)大多數(shù)的分割方法都是以FCN 和ResNet 這兩種網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ),由此也能看出FCN網(wǎng)絡(luò)和ResNet網(wǎng)絡(luò)是具有重要意義的。

2)關(guān)于網(wǎng)絡(luò)運(yùn)行速度的相關(guān)實(shí)驗(yàn)對(duì)比。網(wǎng)絡(luò)運(yùn)行速度也是分割算法性能的重要參考點(diǎn)。由于一些論文中沒(méi)有提到算法的運(yùn)行速度,故只比較部分算法。所有參與比較的算法都在CityScapes 中進(jìn)行實(shí)驗(yàn)測(cè)試,結(jié)果如表4 所示。其中,“運(yùn)行速度”表示分割每一幅圖像需要的時(shí)間,“每秒幀數(shù)”是“運(yùn)行速度”的倒數(shù)。表4 顯示,ENet 算法的運(yùn)行速度最快,每秒可以分割76.9 幅圖像,ICNet 和SegNet 算法也具有較好的分割速度,這3 種網(wǎng)絡(luò)均可以進(jìn)行圖像實(shí)時(shí)分割和動(dòng)態(tài)場(chǎng)景理解。FCN網(wǎng)絡(luò)由于上采樣過(guò)程比較耗時(shí),其運(yùn)行速度一般,F(xiàn)CN網(wǎng)絡(luò)難以進(jìn)行圖像實(shí)時(shí)分割等任務(wù)。而DeepLab-V1 和DeepLab-V2過(guò)程會(huì)涉及到對(duì)圖像結(jié)構(gòu)化預(yù)測(cè),該過(guò)程也非常耗時(shí),所以運(yùn)行速度更低。

表4 全監(jiān)督學(xué)習(xí)語(yǔ)義分割方法運(yùn)行速度實(shí)驗(yàn)對(duì)比Table 4 Experimental comparison of computational performance of semantic segmentation algorithms based on fully supervised learning

2.2.3 弱監(jiān)督學(xué)習(xí)語(yǔ)義分割方法相關(guān)實(shí)驗(yàn)分析

弱監(jiān)督學(xué)習(xí)語(yǔ)義分割方法相關(guān)實(shí)驗(yàn)對(duì)比如表5所示?;谌醣O(jiān)督學(xué)習(xí)的語(yǔ)義分割方法大多都用較權(quán)威的PASCAL VOC 2012 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),表5直觀地反映出該類方法mIoU 指標(biāo)整體顯著低于前兩類方法,而且標(biāo)注方法越簡(jiǎn)單,分割精度也越弱。

表5 弱監(jiān)督學(xué)習(xí)的語(yǔ)義分割方法實(shí)驗(yàn)對(duì)比Table 5 Experimental comparison of semantic segmentation algorithms based on weakly supervised learning

2.3 RGB-D數(shù)據(jù)集的相關(guān)實(shí)驗(yàn)分析

目前,適應(yīng)于RGB-D 數(shù)據(jù)集且開源的分割算法不多,實(shí)驗(yàn)數(shù)據(jù)集也都不同,將mIoU 視為評(píng)價(jià)指標(biāo)進(jìn)行簡(jiǎn)單總結(jié),如表6所示。可以看出,RGB-D 數(shù)據(jù)的分割準(zhǔn)確率還有很大的提升空間,這也是目前面臨的最大挑戰(zhàn);融合不同模塊的辦法有一定的作用,但顯然效果有限。

表6 RGB-D數(shù)據(jù)相關(guān)實(shí)驗(yàn)Table 6 Related experimental of RGB-D data

2.4 3D數(shù)據(jù)集的相關(guān)實(shí)驗(yàn)分析

3D數(shù)據(jù)相關(guān)實(shí)驗(yàn)對(duì)比如表7所示。

表7 3D數(shù)據(jù)相關(guān)實(shí)驗(yàn)Table 7 Related experimental of 3D data

2.5 實(shí)驗(yàn)總結(jié)

目前,針對(duì)2D 數(shù)據(jù)的分割算法各方面都取得了不錯(cuò)的成績(jī),部分已經(jīng)應(yīng)用在了實(shí)際生活中。其中DeepLab-V3+網(wǎng)絡(luò)的分割精度最高,mIoU 達(dá)到了89.0%,并且分割速度較快,具有較高的應(yīng)用價(jià)值。存在的問(wèn)題主要有以下3 個(gè)方面:1)大量算法沒(méi)有在權(quán)威數(shù)據(jù)集上實(shí)驗(yàn),故得出的算法性能需進(jìn)一步探究;2)部分算法沒(méi)有開源,不能再次復(fù)現(xiàn)實(shí)驗(yàn);3)某些實(shí)驗(yàn)沒(méi)有詳細(xì)的描述設(shè)置過(guò)程、實(shí)驗(yàn)參數(shù)、訓(xùn)練權(quán)重等內(nèi)容,影響該領(lǐng)域的研究進(jìn)展。

3 存在的問(wèn)題和未來(lái)研究方向

1)分割算法在精確度和實(shí)時(shí)性之間往往是顧此失彼。算法終究要落實(shí)到應(yīng)用中,視頻分割、無(wú)人駕駛等應(yīng)用領(lǐng)域?qū)?shí)時(shí)性要求很高,常見(jiàn)的攝像機(jī)幀率為25幀∕s,大多數(shù)方法遠(yuǎn)沒(méi)有達(dá)到該速度,例如FCN-8s在PASCAL VOC上處理一幅低分辨率的圖像需要100 ms。目前對(duì)該問(wèn)題的探討工作尚且不足,未來(lái)必須在大量實(shí)驗(yàn)的基礎(chǔ)上找到廣泛認(rèn)可的平衡點(diǎn)。

2)分割網(wǎng)絡(luò)通常需要大量的內(nèi)存來(lái)實(shí)現(xiàn)推理和訓(xùn)練,在一些設(shè)備上并不適應(yīng)。雖然該問(wèn)題可以簡(jiǎn)單地通過(guò)降低網(wǎng)絡(luò)復(fù)雜性來(lái)解決,但會(huì)喪失分割精確度。剪枝是一個(gè)很有前途的研究方向,其可以簡(jiǎn)化分割網(wǎng)絡(luò),使網(wǎng)絡(luò)輕量化,并且保留網(wǎng)絡(luò)原有的分割能力。這個(gè)問(wèn)題非常值得進(jìn)一步研究。

3)適應(yīng)于3D 數(shù)據(jù)的分割算法設(shè)計(jì)是當(dāng)前的研究熱點(diǎn),但非常缺乏高質(zhì)量的3D 數(shù)據(jù)集,目前已有的3D 數(shù)據(jù)集都是拼湊數(shù)據(jù)集。即使有新的算法提案,也難以客觀地評(píng)估其性能。3D 數(shù)據(jù)集比低維度的數(shù)據(jù)集更難創(chuàng)建并且之前存在技術(shù)限制,所以這方面的工作具有較大的發(fā)展空間。從2018 年開始,各大頂級(jí)會(huì)議都提到該問(wèn)題,可見(jiàn)其重要程度。

4)針對(duì)RGB-D 數(shù)據(jù)和3D 數(shù)據(jù)的分割算法依舊很少,尤其是3D 數(shù)據(jù),已開源的算法精度也普遍不高。由于其無(wú)序和非結(jié)構(gòu)化的性質(zhì),普通的架構(gòu)不能對(duì)其直接處理。故該問(wèn)題需要研究者進(jìn)行深入的開發(fā)探索。

5)序列數(shù)據(jù)的時(shí)間一致性:一些方法解決了視頻或序列分割的問(wèn)題,但是有些未利用時(shí)間序列信息來(lái)提高準(zhǔn)確率或分割效率。然而,沒(méi)有一種方法解決了一致性的問(wèn)題。一致性信息對(duì)于一個(gè)應(yīng)用在視頻流上的分割系統(tǒng)非常重要,要求其不僅可以逐幀地處理數(shù)據(jù),還要求其對(duì)整個(gè)片段的處理保持一致。

6)已有論文提出可以在不進(jìn)行訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的情況下實(shí)現(xiàn)人臉檢測(cè),是否也可以不訓(xùn)練網(wǎng)絡(luò)實(shí)現(xiàn)語(yǔ)義分割。

4 結(jié)語(yǔ)

語(yǔ)義分割是近年新興研究方向,具有很高的研究?jī)r(jià)值,目前較全面的語(yǔ)義分割綜述文章依舊較少。本文致力于語(yǔ)義分割問(wèn)題,對(duì)此進(jìn)行了總結(jié),涵蓋了該領(lǐng)域經(jīng)典和先進(jìn)的方法、權(quán)威通用的數(shù)據(jù)集以及相關(guān)實(shí)驗(yàn)。仔細(xì)描述數(shù)據(jù)集的特征,能夠使研究者快速選取適合其需求的數(shù)據(jù)集;分割方法從設(shè)計(jì)特點(diǎn)、優(yōu)缺點(diǎn)和分割準(zhǔn)確度方面做了介紹,便于研究者熟悉其架構(gòu)并改進(jìn)缺點(diǎn);而分析實(shí)驗(yàn)有助于學(xué)習(xí)實(shí)驗(yàn)經(jīng)驗(yàn),重新審視分割網(wǎng)絡(luò),精益求精。本文對(duì)研究結(jié)果進(jìn)行了討論,并對(duì)該領(lǐng)域未來(lái)的研究方向和待解決的問(wèn)題提出了有益的見(jiàn)解。然而尚存在如下不足之處:由于大部分論文都沒(méi)有介紹實(shí)驗(yàn)設(shè)置,所以在實(shí)驗(yàn)分析部分也未涉及該內(nèi)容,整體上不夠完整。語(yǔ)義分割已經(jīng)有了很多成功的應(yīng)用案例,期待將來(lái)會(huì)出現(xiàn)更多的精彩算法。

猜你喜歡
語(yǔ)義像素卷積
趙運(yùn)哲作品
藝術(shù)家(2023年8期)2023-11-02 02:05:28
像素前線之“幻影”2000
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
語(yǔ)言與語(yǔ)義
“像素”仙人掌
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
高像素不是全部
CHIP新電腦(2016年3期)2016-03-10 14:22:03
認(rèn)知范疇模糊與語(yǔ)義模糊
汝州市| 夏河县| 新建县| 金溪县| 沽源县| 三台县| 灯塔市| 遂宁市| 互助| 敦化市| 西贡区| 绥化市| 修武县| 翁源县| 西华县| 泰宁县| 漠河县| 东乌| 武功县| 桂东县| 阜城县| 资源县| 五河县| 隆化县| 永州市| 涞水县| 广州市| 泊头市| 巢湖市| 思南县| 盐山县| 茂名市| 青铜峡市| 昌黎县| 高密市| 钟山县| 开平市| 东台市| 香河县| 碌曲县| 遂平县|