国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的圖像語義分割方法綜述?

2019-03-05 03:45:54萱,王亮,丁
軟件學(xué)報 2019年2期
關(guān)鍵詞:語義像素卷積

田 萱,王 亮,丁 琪

(北京林業(yè)大學(xué) 信息學(xué)院,北京 100083)

當(dāng)前,計算機視覺領(lǐng)域的核心研究包括圖像分類、物體檢測和圖像語義分割(image semantic segmentation,簡稱ISS)等,其中,ISS是一門涉及計算機視覺、模式識別與人工智能等研究領(lǐng)域的交叉學(xué)科,是數(shù)字圖像處理與機器視覺的研究重點.ISS在虛擬現(xiàn)實、工業(yè)自動化、視頻檢測等不同領(lǐng)域有廣泛的應(yīng)用,具有重要的研究意義和應(yīng)用價值.ISS由Ohta等人首次提出,其定義是:為圖像中的每一個像素分配一個預(yù)先定義好的表示其語義類別的標(biāo)簽[1].與傳統(tǒng)的圖像分割相比,ISS在其基礎(chǔ)上為圖像中的目標(biāo)或前景加上一定的語義信息,能夠根據(jù)圖像本身的紋理、場景和其他高層語義特征來得出圖像本身需要表達(dá)的信息,更具實用價值.近年來,國內(nèi)外眾多科研機構(gòu)相繼開展了針對該領(lǐng)域的學(xué)術(shù)研究,人工智能、模式識別以及計算機視覺方面的國內(nèi)外學(xué)術(shù)會議都會對該領(lǐng)域和相關(guān)研究成果做重點討論.這些機構(gòu)和組織有效地推動了ISS技術(shù)的發(fā)展.

近年來,深度學(xué)習(xí)(deep learning,簡稱 DL)技術(shù)[2]迅猛發(fā)展,基于深度學(xué)習(xí)的圖像語義分割方法(image semantic segmentation based on deep learning,簡稱 ISSbDL)也日新月異.鑒于目前國內(nèi)還沒有全面細(xì)致論述ISSbDL方法的綜述文獻(xiàn)[3,4],我們總結(jié)并整理了相關(guān)研究后得到本文.如圖1所示,按照ISS的方法特點和處理粒度,將 ISSbDL方法分為基于區(qū)域分類的圖像語義分割方法(ISS based on the regional classification,簡稱ISSbRC)和基于像素分類的圖像語義分割方法(ISS based on the pixel classification,簡稱ISSbPC),對每類方法按照處理特點又細(xì)分為若干種不同的子方法.

Fig.1 A taxonomy of ISSbDL圖1 基于深度學(xué)習(xí)的圖像語義分割方法分類

本文第1節(jié)介紹DL與ISS的相關(guān)背景及ISSbDL的早期研究.第2節(jié)對ISSbRC方法進(jìn)行詳細(xì)介紹和總結(jié).第3節(jié)對ISSbPC方法進(jìn)行分析和總結(jié),并根據(jù)處理特點進(jìn)一步分類,詳細(xì)介紹每類子方法的基本思想和優(yōu)缺點.第4節(jié)對 ISS相關(guān)實驗進(jìn)行分析與比較,并介紹常用公共數(shù)據(jù)集和算法性能評價指標(biāo).第5節(jié)總結(jié)討論ISS未來的發(fā)展方向和發(fā)展趨勢.

1 相關(guān)背景及早期研究介紹

DL的概念由Hinton等人[2]在2006年首次提出,是機器學(xué)習(xí)中一種基于對數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法.DL技術(shù)能夠有效地提取圖像中的低級、中級和高級語義信息,并結(jié)合分類器輔助進(jìn)行像素分類,提高了ISS方法的分割準(zhǔn)確率.目前,主流的 DL模型有卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,簡稱 CNN)[5]、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,簡稱RNN)[6]和生成對抗網(wǎng)絡(luò)(generative adversarial network,簡稱GAN)[7]等.

其中,CNN的基本結(jié)構(gòu)由輸入層、卷積層、池化層、全連接層及輸出層組成.輸入圖像經(jīng)過CNN多個卷積操作和池化操作進(jìn)行特征提取,將低層粗糙特征逐步轉(zhuǎn)變?yōu)楦邔泳?xì)特征,高層特征再經(jīng)過全連接層和輸出層后進(jìn)行分類.CNN由于其特殊的網(wǎng)絡(luò)結(jié)構(gòu),特別適合處理圖像數(shù)據(jù),對平移、伸縮、傾斜等圖像形變具有較高的不變性.RNN由一連串重復(fù)的神經(jīng)網(wǎng)絡(luò)模塊序列組成,序列中的每個元素都執(zhí)行相似的任務(wù),圖像上下文(image context)之間的連續(xù)信息可合理利用.當(dāng)前,具有代表性的RNN包括傳統(tǒng)的RNN序列模型、長短期記憶神經(jīng)網(wǎng)絡(luò)(long short-term memory,簡稱LSTM)[8]以及門控遞歸單元(gated recurrent unit,簡稱GRU)[9].GAN由一個生成器網(wǎng)絡(luò)(generator network)和一個判別器網(wǎng)絡(luò)(discriminator network)組成,其基本思想是:從訓(xùn)練庫中獲取大量訓(xùn)練樣本進(jìn)行學(xué)習(xí),生成器網(wǎng)絡(luò)不斷產(chǎn)生人造樣本,判別器網(wǎng)絡(luò)不斷對人造樣本進(jìn)行判斷,訓(xùn)練時,讓兩組網(wǎng)絡(luò)相互對抗、相互提高.

在 ISS領(lǐng)域,CNN因其高效的學(xué)習(xí)性能和良好的應(yīng)用效果,受到研究者更多的青睞,成為研究熱點.除CNN外,RNN因其遞歸處理歷史信息和建模歷史記憶的特點,特別適合處理與時空序列有關(guān)的信息,也常被一些研究者用于捕獲圖像上下文信息.此外,GAN模型避免了一些傳統(tǒng)生成模型在實際應(yīng)用中的困難,具有新穎性和良好的適應(yīng)性,在ISS研究中也正逐漸得到重視.總的來說,DL技術(shù)利用深層模型來學(xué)習(xí)圖像特征,促進(jìn)了ISS領(lǐng)域中相關(guān)研究的發(fā)展,掀起了一股ISSbDL的研究熱潮.

2013年,文獻(xiàn)[10]嘗試使用DL技術(shù)對室內(nèi)場景進(jìn)行語義分割:利用CNN對RGB-D圖像進(jìn)行特征提取的同時,將RGB圖像聚類得到超像素,然后使用分類器對超像素進(jìn)行分類,完成ISS任務(wù).文獻(xiàn)[11]則在上述工作的基礎(chǔ)上,利用深層CNN提取、整合不同分辨率圖像的特征,并使用分割樹對粗糙圖像塊中的超像素進(jìn)行平滑預(yù)測處理.這些早期的ISSbDL方法[10,11]出現(xiàn)在ISS由傳統(tǒng)的機器學(xué)習(xí)方式向深度學(xué)習(xí)方式過渡的階段,先使用聚類操作生成超像素,再用 CNN等分類器對超像素進(jìn)行分類.圖像分割過程分階段進(jìn)行,耗時、費力,分割過程無法有效利用圖像的全局語義特征,分割結(jié)果比較粗糙.

隨著DL技術(shù)的發(fā)展,研究者又進(jìn)一步改進(jìn),先將圖像劃分為一系列目標(biāo)候選區(qū)域,再用DL技術(shù)對目標(biāo)區(qū)域進(jìn)行分類,避免生成超像素,提高了分割效率,本文第 2節(jié)所介紹的基于區(qū)域分類的圖像語義分割方法即為此類改進(jìn).另一些研究者則直接利用深度神經(jīng)網(wǎng)絡(luò)(deep neural network,簡稱DNN)以像素分類的方式進(jìn)行分割,將分割過程改為端到端(end-to-end)的模式,避免了預(yù)先生成圖像塊所帶來的問題,提高了分割準(zhǔn)確率,本文將在第 3節(jié)中介紹這類基于像素分類的圖像語義分割方法.基于這些改進(jìn),我們將ISSbDL的處理流程概括為特征提取、語義分割和后期處理這3個核心步驟,如圖2所示,其中,實線表示一般處理步驟,虛線表示選擇使用環(huán)節(jié).

Fig.2 Workflow for ISSbDL圖2 基于深度學(xué)習(xí)的圖像語義分割方法的一般處理流程

2 基于區(qū)域分類的圖像語義分割方法

在ISSbDL方法中,基于區(qū)域分類的圖像語義分割方法把傳統(tǒng)圖像處理算法與DNN相結(jié)合,先將原始圖像劃分成不同的目標(biāo)候選區(qū)域,得到一系列圖像塊(image patch),再利用DNN對圖像塊或圖像塊中的每個像素進(jìn)行語義分類,最后根據(jù)分類結(jié)果對原始圖像進(jìn)行標(biāo)注,得到最終分割結(jié)果.因為圖像塊的質(zhì)量直接決定分割結(jié)果的好壞,ISSbRC方法的關(guān)鍵在于如何從原始圖像產(chǎn)生不同目標(biāo)區(qū)域的圖像塊.根據(jù)區(qū)域生成算法和圖像塊劃分標(biāo)準(zhǔn)不同,下面將 ISSbRC方法劃分為兩類:基于候選區(qū)域的方法和基于分割掩膜的方法.表1對這兩類方法從方法特點、優(yōu)缺點和處理流程等幾個方面進(jìn)行了分析與比較.下面對其進(jìn)行詳細(xì)介紹.

Table 1 Comparison of ISSbRC表1 基于區(qū)域分類的圖像語義分割方法對比

2.1 基于候選區(qū)域的方法

該類方法首先利用相應(yīng)的算法生成大量候選區(qū)域并篩選出合理的候選區(qū)域,再運用CNN對每個候選區(qū)域提取圖像特征和語義信息,接著利用分類器對候選區(qū)域中的圖像塊或像素進(jìn)行分類,最后輸出分割結(jié)果.因為每個候選區(qū)域都有可能包含圖像中潛在的目標(biāo)物體,候選區(qū)域的質(zhì)量不但影響CNN捕獲圖像特征的能力,而且影響分類器對候選區(qū)域進(jìn)行分類的精度.

2014年,文獻(xiàn)[12]在 CNN 的基礎(chǔ)上提出了區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(regions with CNN features,簡稱 RCNN).RCNN將選擇搜索(selective search,簡稱SS)算法產(chǎn)生的候選區(qū)域與CNN產(chǎn)生的視覺特征相結(jié)合,可同時完成目標(biāo)檢測和ISS兩項任務(wù).RCNN的處理流程如圖3所示,首先,使用SS算法抽取約2 000個候選區(qū)域;再用CNN提取每個候選區(qū)域的特征;最后,根據(jù)捕獲的特征,使用 SVM(support vector machine)對每個候選區(qū)域中的目標(biāo)物體分類.但RCNN也存在嚴(yán)重依賴候選區(qū)域、產(chǎn)生圖像變形、分割精確度不夠高和速度不夠快等缺點,其綜合性能仍有待提高.

文獻(xiàn)[13]在RCNN的基礎(chǔ)上提出了SDS(simultaneous detection and segmentation)方法.與RCNN方法相比,SDS方法使用MCG(multi-scale combinatorial grouping)[19]算法在CNN中獨立地從候選區(qū)域和區(qū)域前景中提取特征,再將這兩部分特征進(jìn)行聯(lián)合訓(xùn)練,然后使用非極大值抑制(non-maximum suppression,簡稱NMS)算法進(jìn)行區(qū)域增強,分割性能有顯著提升.

由于 RCNN存在著生成的候選區(qū)域數(shù)量過多、網(wǎng)絡(luò)運算量大且候選區(qū)域形狀不規(guī)則等局限性,一些研究者開始探索產(chǎn)生高質(zhì)量候選區(qū)域的方法.文獻(xiàn)[20]中的 SPPNet網(wǎng)絡(luò)將空間金字塔池化層(spatial pyramid pooling player,簡稱SPP player)插入到RCNN卷積層的后面,減少了特征提取過程中的重復(fù)計算.文獻(xiàn)[21]中的Fast-RCNN網(wǎng)絡(luò)將候選區(qū)域映射到CNN的卷積特征圖上,通過ROI Pooling層,將每個候選區(qū)域生成固定尺寸的特征圖,提升了生成候選區(qū)域的速度.文獻(xiàn)[22]中的Faster-RCNN網(wǎng)絡(luò)在Fast-RCNN網(wǎng)絡(luò)的基礎(chǔ)上加入?yún)^(qū)域建議網(wǎng)絡(luò)(region proposal network,簡稱RPN),能夠快速生成高質(zhì)量的候選區(qū)域.

Fig.3 Workflow for RCNN[12]圖3 RCNN的處理流程[12]

2016年,文獻(xiàn)[14]以SDS方法為基礎(chǔ),使用不同大小的滑動窗口對原圖進(jìn)行卷積、池化等操作,得到多尺度特征圖,再通過尺度對齊將不同尺度的特征圖歸一化到同樣大小,并將其做并行處理,提出了能夠完成定位、分類和分割這3個任務(wù)的MPA(multi-scale path aggregation)方法[14].MPA方法通過組合不同尺度的特征圖,能夠綜合圖像中多個不同部位的局部信息,有效地避免了物體理解的歧義,使分割結(jié)果更具魯棒性.

2017年,文獻(xiàn)[15]在Faster-RCNN基礎(chǔ)網(wǎng)絡(luò)中加入ROI Align層和分割子網(wǎng),提出了能夠?qū)崿F(xiàn)目標(biāo)檢測和實例級圖像語義分割(即實例分割)兩個任務(wù)的Mask-RCNN網(wǎng)絡(luò).Mask-RCNN由兩個分支子網(wǎng)組成:第1個分支子網(wǎng)繼承自 Faster-RCNN,用于對候選區(qū)域進(jìn)行分類和回歸,可有效地檢測出圖像中的目標(biāo)物體;第 2個分支子網(wǎng)使用一個微型全卷積網(wǎng)絡(luò)進(jìn)行高質(zhì)量的實例分割.Mask-RCNN能夠完成分類、回歸和分割這3項任務(wù),并保留目標(biāo)對象的空間結(jié)構(gòu)信息,促進(jìn)了ISS的發(fā)展.

2.2 基于分割掩膜的方法

基于分割掩膜(segmentation mask)的方法重點關(guān)注如何有效生成與目標(biāo)候選區(qū)域相對應(yīng)的分割掩膜,大致可分為兩個核心步驟.

(1)首先,在圖像中檢測出所有潛在的目標(biāo)候選對象,將原圖像劃分為一系列大小不等的圖像塊,每個圖像塊包含一個潛在的目標(biāo)候選對象.

(2)將產(chǎn)生的圖像塊送入CNN進(jìn)行處理,其每個像素經(jīng)過“是否屬于該目標(biāo)候選對象”的二分類判斷后得到分割掩膜,再將多張分割掩膜進(jìn)行優(yōu)化處理得到最終分割結(jié)果.

文獻(xiàn)[16]基于CNN提出用于生成目標(biāo)建議(object proposal)的DeepMask模型.該模型直接從原始圖像中生成與目標(biāo)候選對象對應(yīng)的圖像塊,再根據(jù)這些圖像塊為每個目標(biāo)候選對象生成分割掩膜.DeepMask模型使用前饋網(wǎng)絡(luò)在整張圖像中生成目標(biāo)對象的分割掩膜,所產(chǎn)生的掩膜邊界粗糙,不能精準(zhǔn)對齊.文獻(xiàn)[17]在 DeepMask的基礎(chǔ)上將淺層網(wǎng)絡(luò)中的低級特征與深層網(wǎng)絡(luò)中的高級特征相結(jié)合,并且自下而上進(jìn)行圖像處理,提出了SharpMask模型.SharpMask模型先通過DeepMask模型對每個輸入產(chǎn)生一個粗糙的分割掩膜,再將該粗糙分割掩膜傳入不同的精煉模塊,然后結(jié)合不同尺寸的特征圖,以自下而上的方式重新生成精細(xì)化的分割掩膜.文獻(xiàn)[18]以 Fast-RCNN 為基礎(chǔ),提出了 MultiPath模型.該模型使用跳躍連接(skip connection)、中心凹區(qū)域(foveal region)和一個積分損失函數(shù)(integral loss function)對分割掩膜中的對象再次識別并分類,能夠解決物體檢測過程中尺度、遮擋和集群等問題,分割掩膜生成過程中的定位精度有顯著提升.

3 基于像素分類的圖像語義分割方法

ISSbRC方法取得了一定的分割效果,但也存在圖像分割精度不高和分割速度不夠快等問題,因此,一些研究者提出直接在像素級別上進(jìn)行圖像語義分割,產(chǎn)生了基于像素分類的圖像語義分割方法.ISSbPC方法利用DNN從帶有大量標(biāo)注的圖像數(shù)據(jù)中提取出圖像特征和語義信息,再根據(jù)這些信息來學(xué)習(xí)、推理原始圖像中像素的類別,通過端到端訓(xùn)練的方式對每個像素進(jìn)行分類,以像素分類的方式達(dá)到語義分割的目標(biāo).ISSbPC方法無需產(chǎn)生目標(biāo)候選區(qū)域,直接為圖像中的每個像素進(jìn)行分類,原始圖像經(jīng)過一個端到端模型后直接輸出分割結(jié)果,是一種從訓(xùn)練數(shù)據(jù)出發(fā),貫穿整個模型后直接輸出結(jié)果的新模式.ISSbPC方法將原始圖像、標(biāo)注圖像以及弱標(biāo)注(weak label)圖像等海量數(shù)據(jù)作為訓(xùn)練樣本,可以捕獲更豐富的圖像特征,不僅增加了模型的整體契合度,而且提高了學(xué)習(xí)效率,有效提升了分割準(zhǔn)確率.

根據(jù)標(biāo)注類型和學(xué)習(xí)方式不同,我們將 ISSbPC方法主要分為兩類:全監(jiān)督學(xué)習(xí)圖像語義分割方法(ISS based on fully supervised learning,簡稱 ISSbFSL)和弱監(jiān)督學(xué)習(xí)圖像語義分割方法(ISS based on weakly supervised learning,簡稱ISSbWSL).ISSbFSL方法使用經(jīng)過人工精確加工的像素級標(biāo)注作為訓(xùn)練樣本,其分割流程為:先對圖像中的每個像素預(yù)先給定一個語義標(biāo)簽得到標(biāo)注數(shù)據(jù),然后利用標(biāo)注數(shù)據(jù)對 DNN進(jìn)行訓(xùn)練,再將訓(xùn)練好的DNN用于圖像語義分割.ISSbWSL方法則使用弱標(biāo)注數(shù)據(jù)作為樣本對DNN進(jìn)行訓(xùn)練,再用訓(xùn)練后的DNN對圖像進(jìn)行語義分割.這兩類方法按照改進(jìn)特點不同又可分為若干類子方法,其分類示意如圖4所示.下面進(jìn)行具體介紹和分析.

Fig.4 A taxonomy of ISSbPC圖4 基于像素分類的圖像語義分割方法分類

3.1 全監(jiān)督學(xué)習(xí)圖像語義分割方法

經(jīng)過人工精確標(biāo)注的圖像樣本能夠提供大量細(xì)節(jié)信息和局部特征,有利于提高網(wǎng)絡(luò)訓(xùn)練效率和分割精確度,因此,目前的ISSbDL方法大多是全監(jiān)督學(xué)習(xí)類型.ISSbFSL方法在訓(xùn)練階段會利用DNN從大量帶有像素級標(biāo)注的圖像中提取豐富的視覺特征和語義信息,再利用這些特征和信息對圖像像素進(jìn)行分類.

針對早期ISSbRC方法存在的存儲開銷大、計算效率低等問題,Long等人[23]于2014年設(shè)計了一種兼容任意尺寸圖像、以全監(jiān)督學(xué)習(xí)方式進(jìn)行圖像語義分割的全卷積網(wǎng)絡(luò)(fully convolutional network,簡稱FCN).如圖5所示,FCN在VGG-16網(wǎng)絡(luò)[24]基礎(chǔ)上進(jìn)行改進(jìn),使用卷積層替換傳統(tǒng)CNN中的全連接層,使用跨層(skip layer)方法組合中間卷積層產(chǎn)生的特征圖,再通過雙線性插值(bilinear interpolation,簡稱 BI)算法進(jìn)行上采樣(upSample),將粗糙的分割結(jié)果轉(zhuǎn)換為細(xì)密的分割結(jié)果.FCN采用跨層方法,既同時兼顧全局語義信息和局部位置信息,又能從抽象特征中恢復(fù)出像素所屬的類別,把圖像級別的分類進(jìn)一步延伸到了像素級別的分類,成功地將原本用于圖像分類的網(wǎng)絡(luò)轉(zhuǎn)變?yōu)橛糜趫D像分割的網(wǎng)絡(luò).

FCN在分割過程中能夠恢復(fù)像素所屬的類別,極大地推動了ISS的發(fā)展.然而該領(lǐng)域仍然存在兩個問題:一是圖像經(jīng)過池化操作后,特征圖的分辨率不斷降低,部分像素的空間位置信息丟失;二是分割過程未能有效地考慮圖像上下文(image context)信息,無法充分利用豐富的空間位置信息,導(dǎo)致局部特征和全局特征的利用率失衡.FCN未能有效地解決這兩個問題,致使分割結(jié)果粗糙、分割邊界不連續(xù).針對這兩個問題,在FCN的基礎(chǔ)上,研究者又提出了一系列新方法,根據(jù)這些方法的改進(jìn)特點不同,我們將其劃分為7類:基于FCN的方法、基于優(yōu)化卷積結(jié)構(gòu)的方法、基于編碼器-解碼器的方法、基于概率圖模型的方法、基于特征融合的方法、基于 RNN的方法和基于GAN的方法.表2從方法特點、優(yōu)缺點、關(guān)鍵技術(shù)和主要功能這幾個方面對這7種方法進(jìn)行了歸納總結(jié).下面將詳細(xì)介紹這7類方法.

Fig.5 Framework for FCN[23]圖5 FCN框架結(jié)構(gòu)[23]

Table 2 Comparison of fully-supervised image semantic segmentation algorithm based on pixel classification表2 基于像素分類的全監(jiān)督學(xué)習(xí)圖像語義分割方法對比

Table 2 Comparison of fully-supervised image semantic segmentation algorithm based on pixel classification(Continued)表2 基于像素分類的全監(jiān)督學(xué)習(xí)圖像語義分割方法對比(續(xù))

3.1.1 基于FCN的方法

FCN在進(jìn)行圖像語義分割時沒有充分考慮像素與像素之間的關(guān)系,缺乏空間一致性,對圖像中的細(xì)節(jié)不夠敏感,導(dǎo)致分割結(jié)果不夠精細(xì).文獻(xiàn)[25]在 FCN的末端增加全連接條件隨機場(fully connected conditional random field,簡稱FCCRF),對粗糙分割圖進(jìn)行邊界優(yōu)化,并使用帶孔卷積(atrous convolution)擴大特征圖的感受野(receptive field,簡稱 RF),提出了 DeepLab網(wǎng)絡(luò).DeepLab的處理流程如圖6所示,首先,將圖像送入到結(jié)合了Hole算法的FCN中進(jìn)行處理,得到粗略的特征圖,再使用BI算法對FCN的輸出結(jié)果進(jìn)行上采樣操作得到粗糙分割圖像;然后,使用 FCCRF對粗糙分割圖像進(jìn)行結(jié)構(gòu)化預(yù)測,并對圖像中的像素點進(jìn)行建模、求解,平滑處理粗糙分割圖像的邊緣;最后得到一個完整的圖像語義分割結(jié)果.

Fig.6 General framework for DeepLab[25]圖6 DeepLab基本框架[25]

2016年,文獻(xiàn)[26]在DeepLab網(wǎng)絡(luò)的基礎(chǔ)上提出了DeepLab-V2網(wǎng)絡(luò),對特征圖分辨率變小、定位精度過低等問題進(jìn)行改進(jìn).與DeepLab網(wǎng)絡(luò)相比,DeepLab-V2網(wǎng)絡(luò)不僅使用帶孔卷積作為上采樣濾波器進(jìn)行稠密特征提取,而且將帶孔卷積與空間金字塔池化方法(spatial pyramid pooling method)[20]相結(jié)合后,提出帶孔空間金字塔池化(atrous spatial pyramid pooling,簡稱ASPP),并利用ASPP整合多尺度特征,最后,再用FCCRF優(yōu)化分割圖像,在不增加過多參數(shù)的情況下,增大了感受野、提高了分割精度.

2017年,文獻(xiàn)[27]基于上述兩種方法[25,26]級聯(lián)多個帶孔卷積模塊,并在空間維度上對 ASPP進(jìn)行改進(jìn),提出了Deeplab-V3網(wǎng)絡(luò).Deeplab-V3網(wǎng)絡(luò)以并行方式將4個不同孔洞率(atrous rate)的帶孔卷積并聯(lián),組成一個改進(jìn)版的ASPP,再以串行方式將多個帶孔卷積模塊與改進(jìn)后的ASPP串聯(lián)在一起,構(gòu)成一個端到端處理圖像的網(wǎng)絡(luò).Deeplab-V3結(jié)合串行方式與并行方式的帶孔卷積后,能夠多尺度(multiple scale)地分割物體,獲取多尺度的圖像信息.實驗結(jié)果表明,Deeplab-V3在無需加入FCCRF的情況下,分割準(zhǔn)確率仍然優(yōu)于文獻(xiàn)[25,26]中的方法.

由于文獻(xiàn)[25,26]只是簡單地把FCCRF加在FCN的末尾,需要分別訓(xùn)練FCN和FCCRF,導(dǎo)致FCN的粗分割操作與FCCRF的精分割操作沒有過多的交互聯(lián)系.文獻(xiàn)[28]在文獻(xiàn)[25]的基礎(chǔ)上提出了CRFasRNN網(wǎng)絡(luò),訓(xùn)練時,運用BP(back propagation)算法將CRFasRNN網(wǎng)絡(luò)放在FCN的末尾,進(jìn)行端到端處理.CRFasRNN網(wǎng)絡(luò)的基本思路是:把條件隨機場(conditional random field,簡稱CRF)的學(xué)習(xí)、推理、求解等過程迭代建模為RNN的相關(guān)運算,通過迭代mean field算法把該過程嵌入到CNN中,從而將CNN與CRF的學(xué)習(xí)過程統(tǒng)一在一個完整的網(wǎng)絡(luò)中,提升了分割效果.

3.1.2 基于優(yōu)化卷積結(jié)構(gòu)的方法

在使用 CNN 進(jìn)行圖像語義分割過程中,池化操作能夠增大特征圖的感受野,并匯合圖像的背景信息,但也帶來了特征圖分辨率不斷降低、部分像素的空間位置信息丟失等問題.一個解決該問題的思路是對神經(jīng)網(wǎng)絡(luò)中的卷積結(jié)構(gòu)進(jìn)行優(yōu)化,使用經(jīng)過優(yōu)化的卷積結(jié)構(gòu)來代替?zhèn)鹘y(tǒng)的卷積、池化等操作.

文獻(xiàn)[29]對普通的卷積操作進(jìn)行優(yōu)化,從中引入不同的擴張率(dilation rate),提出了擴張卷積(dilated convolution).擴張卷積是在正常連續(xù)的卷積操作中加入不同的間隔,間隔大小由擴張率決定,可以在不損失分辨率、不增加計算量的情況下使感受野呈指數(shù)增長,并可捕獲圖像的多尺度局部特征和保留大部分像素的空間位置信息,提升了分割準(zhǔn)確率.事實上,這里的擴張卷積也是一種帶孔卷積[23],兩類卷積操作的具體結(jié)構(gòu)和計算方式基本一致,只是名稱略有不同.

在ISS過程中,使用擴張卷積能夠更有效地提取圖像特征、增加感受野,并保留一部分像素的空間位置信息.但擴張卷積在操作過程中易產(chǎn)生空間間隙,會出現(xiàn)信息丟失、信息不相關(guān)和局部信息之間的連續(xù)性被打斷等問題.2017年,文獻(xiàn)[30]使用混合擴張卷積(hybrid dilated convolution,簡稱HDC)代替擴張卷積,并使用稠密上采樣卷積(dense upsampling convolution,簡稱DUC)替換BI算法.HDC由一系列不同擴張率的擴張卷積模塊組成,既能增加感受野,又能保持局部信息的相關(guān)性,有效地避免了上述問題.

雖然上述方法[29,30]可以增加感受野的大小,但其固定形狀的卷積核對幾何變換的模擬能力不強,對圖像中一些未知形變的適應(yīng)性較差,不利于提取形狀不規(guī)則物體的特征.文獻(xiàn)[31]將帶有偏移量的采樣操作代替原來位置固定的采樣操作,在卷積處理的作用區(qū)域上加入一個可學(xué)習(xí)的偏移量,使卷積操作的卷積核具有可變的形狀,提出了可變形卷積(deformable convolution).可變形卷積既能增大感受野的范圍,又有利于DNN學(xué)習(xí)圖像中的感興趣區(qū)域,增強了ISS過程中對幾何變換的適應(yīng)性,提高了分割準(zhǔn)確率.

3.1.3 基于編碼器-解碼器的方法

在ISS領(lǐng)域,要解決“池化操作后特征圖分辨率不斷降低、部分像素空間位置信息丟失”等問題,除了對卷積結(jié)構(gòu)進(jìn)行優(yōu)化外,另一類方法是使用編碼器-解碼器(encoder-decoder)結(jié)構(gòu).該類方法是一種利用對稱網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行圖像語義解析的機制,其本質(zhì)是利用DL技術(shù)中的卷積、池化等操作所構(gòu)成的編碼器來編碼被捕獲的像素位置信息和圖像特征,再利用反卷積(deconvolution)或上池化(unpooling)等操作所構(gòu)成的解碼器來對其進(jìn)行解析,還原圖像的空間維度和像素的位置信息.

2015年,文獻(xiàn)[59]利用編碼器-解碼器結(jié)構(gòu)在編碼過程中進(jìn)行下采樣(subsampled)操作,逐步減少特征圖的分辨率,在解碼過程則進(jìn)行上采樣(upsampled)操作,逐步恢復(fù)物體細(xì)節(jié)和圖像分辨率,提出一種對生物醫(yī)學(xué)圖像進(jìn)行語義分割的 U-net網(wǎng)絡(luò).文獻(xiàn)[60]以解決自動駕駛汽車和智能機器人的 ISS問題為目標(biāo),提出了 SegNet-Basic網(wǎng)絡(luò).SegNet-Basic網(wǎng)絡(luò)基于先驗概率計算每個像素點的分類,是一個類似編碼解碼過程的對稱結(jié)構(gòu)網(wǎng)絡(luò),其基本結(jié)構(gòu)如圖7所示.該網(wǎng)絡(luò)的左邊是一個由全卷積網(wǎng)絡(luò)構(gòu)成的編碼器,通過卷積、池化等操作進(jìn)行下采樣處理;右邊是一個由反卷積網(wǎng)絡(luò)構(gòu)成的解碼器,利用轉(zhuǎn)置卷積和上池化操作進(jìn)行上采樣處理.針對先驗概率無法給出分類結(jié)果置信度的問題,文獻(xiàn)[32]基于SegNet-Basic網(wǎng)提出了Bayesian SegNet網(wǎng)絡(luò).Bayesian SegNet在每個卷積層后面增加了一個DropOut層,可有效防止權(quán)重過度擬合并增強網(wǎng)絡(luò)的學(xué)習(xí)能力;同時,還引入貝葉斯網(wǎng)絡(luò)(Bayesian network)和高斯過程,基于后驗概率計算像素類別,使網(wǎng)絡(luò)在ISS過程中能更合理地模擬事件概率.

Fig.7 Framework for SegNet-Basic[60]圖7 SegNet-Basic網(wǎng)絡(luò)框架[60]

文獻(xiàn)[33]在FCN的基礎(chǔ)上提出一個完全對稱的DeconvNet網(wǎng)絡(luò).該網(wǎng)絡(luò)用反卷積替換BI算法,建立了一種完全對稱機制;同時,將反卷積操作與上池化操作結(jié)合起來,在一定程度上避免了細(xì)節(jié)丟失和邊界模糊等現(xiàn)象,更好地反映了物體的細(xì)節(jié),提高了分割效果.

文獻(xiàn)[32,33,60]雖然能夠取得較好的分割結(jié)果,但在網(wǎng)絡(luò)訓(xùn)練中也存在參數(shù)權(quán)重過多、計算量過大等問題,導(dǎo)致分割速度難以達(dá)到實時處理的要求.2016年,文獻(xiàn)[34]基于編碼器-解碼器結(jié)構(gòu)提出一種高效神經(jīng)網(wǎng)絡(luò)Enet(efficient neural network).ENet在執(zhí)行分割任務(wù)時采用分解濾波器策略,使用低階近似(low-rank approximation)將卷積操作分解為更簡單的操作,在保證分割精度的同時,顯著降低了計算量,是一種可完成像素標(biāo)注、場景解析等任務(wù)的實時分割網(wǎng)絡(luò).ENet中編碼部分的網(wǎng)絡(luò)比解碼部分復(fù)雜很多,是一種不對稱的編碼器-解碼器結(jié)構(gòu).

文獻(xiàn)[35]使用帶有大型卷積核(large kernel)的卷積層代替CNN中的全連接層,提出了全局卷積網(wǎng)絡(luò)(global convolution network,簡稱GCN).該方法使用ResNet構(gòu)建編碼器,使用GCN和反卷積構(gòu)建解碼器,并且網(wǎng)絡(luò)中加入了用于邊界優(yōu)化的簡單殘差塊,能夠在像素相對集中的小面積區(qū)域捕獲圖像信息,使得物體的分割邊界更清晰、分割準(zhǔn)確率更高.

3.1.4 基于概率圖模型的方法

“未能充分考慮圖像的上下文信息,以及局部特征和全局特征的利用率失衡”是ISS在發(fā)展過程中所面臨的另一個問題,而將概率圖模型(probabilistic graphical model,簡稱PGM)[61]用于CNN的后期處理,則能有效地捕獲圖像上下文信息,并且平衡局部特征與全局特征的利用率.PGM 建模時以像素點作為節(jié)點,像素點與像素點之間的概率相關(guān)關(guān)系作為邊.PGM可有效地獲取各像素點之間的依賴關(guān)系,捕捉圖像全局信息和像素級語義信息,進(jìn)而為語義分割過程提供豐富的圖像上下文信息.該類方法的處理流程如圖8所示,先用CNN對原始圖像進(jìn)行特征提取,得到粗糙分割結(jié)果;再將其送入 PGM 中用于捕獲語義信息和像素依賴關(guān)系,對粗糙分割結(jié)果進(jìn)行邊緣細(xì)化、精度加工等優(yōu)化,從而得到精細(xì)化的分割結(jié)果.圖8虛線框的內(nèi)容是使用PGM對圖像進(jìn)行建模的過程.常用的PGM包括馬爾可夫隨機場(Markov random field,簡稱MRF)、條件隨機場、貝葉斯網(wǎng)絡(luò)等.

Fig.8 Workflow for ISS based on PGM圖8 基于概率圖模型的圖像語義分割方法的處理流程

基于上述思想,文獻(xiàn)[38]引入MRF來捕捉ISS中復(fù)雜的上下文信息,將CNN與MRF結(jié)合,提出一種端到端訓(xùn)練的深度解析網(wǎng)絡(luò)(deep parsing network,簡稱DPN).DPN將高階關(guān)系(highorder relation)、標(biāo)簽信息和語義信息結(jié)合在MRF中,通過CNN中的基礎(chǔ)網(wǎng)絡(luò)層來近似模擬MRF的一元項(unary term),通過MRF的額外層來近似估計 MRF的成對項(pairwise term),其反向傳播過程不需要額外的迭代計算便能夠在 GPU(graphics processing unit)中進(jìn)行并行加速處理,從而減少了計算量,提高了分割效率.

文獻(xiàn)[62]以CRF為基礎(chǔ)設(shè)計了一個目標(biāo)團勢函數(shù)(object clique potential),提出一個能夠有效地檢測并分割物體的新模型.文獻(xiàn)[36]則綜合利用CNN與CRF的優(yōu)勢來探索圖像中復(fù)雜的上下文信息,提出一種深度結(jié)構(gòu)化模型(deep structured model,簡稱DSM).DSM在建模CRF后,利用相鄰圖像塊之間的語義關(guān)系來捕獲“區(qū)域-區(qū)域上下文(path-path context)”;通過滑動金字塔池化技術(shù)連接由CNN輸出的多尺度特征圖,以此來捕獲“區(qū)域-背景上下文(path-background context)”;最后,綜合利用兩種不同的圖像上下文信息進(jìn)行語義分割,提高了分割準(zhǔn)確率.文獻(xiàn)[63]基于上述思想[36],將 CNN與 CRF組合在一起用于結(jié)構(gòu)化預(yù)測,直接在消息的傳遞推理過程中預(yù)測消息,避免了大量計算梯度,是一種運行速度更快、運算量更小的DSM.文獻(xiàn)[37]對傳統(tǒng)的CRF改進(jìn)后將其嵌入到CNN中,提出一個從粗糙分割到精細(xì)分割逐步轉(zhuǎn)變的網(wǎng)絡(luò)模型.該網(wǎng)絡(luò)[37]在粗糙分割階段,使用FCN提取圖像的空間特征后進(jìn)行特征組合,再用“語境 CRF(context CRF)”重構(gòu)經(jīng)過組合的特征;在精細(xì)分割階段,用“指導(dǎo)CRF(guidance CRF)”根據(jù)輸入圖像的邊界來描繪物體輪廓,精細(xì)化分割對象的邊界.

文獻(xiàn)[36,37,63]在進(jìn)行圖像語義分割后續(xù)優(yōu)化處理時,只將粗糙分割圖像輸入CRF的一元項和成對項進(jìn)行結(jié)構(gòu)化預(yù)測,忽略了對CRF中高階勢能項(higher order potential,簡稱HOP)[64]的有效利用,在捕獲全局特征和圖像上下文信息時存在一定的不確定性和誤差.文獻(xiàn)[42]將兩種不同的HOP加入到CRF后,將其與CNN結(jié)合,提出一種新的ISS模型,避免了上述缺陷.文獻(xiàn)[40]設(shè)計了一個基于目標(biāo)檢測的HOP和一個基于超像素[65]的HOP,并將這兩種HOP嵌入到CNN中進(jìn)行端到端訓(xùn)練,提高了ISS的分割準(zhǔn)確率.

文獻(xiàn)[41]嘗試用高斯條件隨機場(Gaussian conditional random field,簡稱GCRF)代替?zhèn)鹘y(tǒng)CRF執(zhí)行對分割結(jié)果的后續(xù)優(yōu)化任務(wù),通過固定次數(shù)的迭代高斯平均場(Gaussian mean field,簡稱 GMF)提出高斯平均場網(wǎng)絡(luò)(Gaussian mean fieldnetwork,簡稱GMF network),再將GCRF、GMF network與CNN結(jié)合在一起,共同處理ISS問題,得到一種端到端語義分割的高斯條件隨機場網(wǎng)絡(luò)(Gaussian conditional random fields network,簡稱GCRF network).文獻(xiàn)[39]使用CNN分別學(xué)習(xí)GCRF的一元勢函數(shù)和二元勢函數(shù),提出一種端到端訓(xùn)練參數(shù)的二次優(yōu)化(quadratic optimization,簡稱QO)模型,提高了ISS后續(xù)優(yōu)化處理的效率.

3.1.5 基于特征融合的方法

“利用CRF等概率圖模型作為CNN的后期處理”能夠有效地捕獲圖像上下文信息,提高全局特征的利用率,但概率圖模型方法在學(xué)習(xí)、推理過程中仍存在計算量過大、訓(xùn)練時間較長、嚴(yán)重消耗內(nèi)存等缺點.特征融合是整合圖像上下文信息并提高全局特征利用率的另一種策略,基于特征融合的方法主張兼顧圖像的全局特征、局部特征以及高、中、底等各層次特征,通過融合不同層次特征、不同區(qū)域特征來捕獲圖像中隱含的上下文信息,可有效地避免使用概率圖模型導(dǎo)致的問題.

文獻(xiàn)[66]將提取的全局特征經(jīng)過上池化處理后加入到局部特征中,兩種特征融合后獲得圖像的上下文信息,再將上下文信息與融合后的特征一起用于下一層網(wǎng)絡(luò)的處理.文獻(xiàn)[43]通過拉普拉斯金字塔(Laplacian pyramid)算法[67]將不同卷積層提取的低層特征進(jìn)行重構(gòu),提出了 LRR(Laplacian pyramid reconstruction and refinement model)模型.LRR模型把特征圖表示為一組基函數(shù)的線性組合,使用跨層方法[23]引入邊界信息后,將低層特征與高層特征進(jìn)行融合,可有效地捕獲圖像的上下文信息,并對粗糙分割結(jié)果求精.

文獻(xiàn)[48]將原始圖像進(jìn)行尺度變換后并行輸入 FCN,并引入注意力模型(attention model)[68],對不同尺度的目標(biāo)物體賦予不同的權(quán)重,再分別學(xué)習(xí)其對應(yīng)的特征圖,最后,融合多尺度特征進(jìn)行像素分類.文獻(xiàn)[44]提出一種能夠進(jìn)行多級并行處理的級聯(lián)式RefineNet網(wǎng)絡(luò),其框架結(jié)構(gòu)如圖9所示.在該網(wǎng)絡(luò)中,原始圖像首先經(jīng)過CNN處理得到 1/4、1/8、1/16和 1/32尺度的 4種不同分辨率特征圖,這些特征圖再送入與之對應(yīng)的精細(xì)模塊(RefineNet block)融合.如此迭代數(shù)次,通過多路徑優(yōu)化處理,不同層次、不同分辨率的特征圖融合得到優(yōu)化的分割結(jié)果.RefineNet中的精細(xì)模塊由一系列經(jīng)過殘差連接的組件構(gòu)成,每個組件對低分辨率特征圖進(jìn)行上采樣處理后再融合高分辨率特征圖,可有效整合不同尺度、不同層次的特征,對圖像上下文信息的利用更充分、合理.

Fig.9 Framework for RefineNet[44]圖9 RefineNet網(wǎng)絡(luò)框架[44]

文獻(xiàn)[45]使用卷積核大小不同的4種CNN來捕捉局部特征和全局特征,對圖像特征進(jìn)行級聯(lián)處理,將多個同一層次的圖像特征進(jìn)行融合,提出了PSPNet網(wǎng)絡(luò).PSPNet的處理流程如圖10所示:圖像經(jīng)過CNN處理后獲得粗糙特征圖,然后再通過空間金字塔池化(spatial pyramid pooling)[20]模塊對特征圖進(jìn)行級聯(lián)處理,將4種不同尺度的特征圖進(jìn)行融合,得到完整的特征表達(dá),能夠分別獲取不同區(qū)域的上下文信息,進(jìn)一步提升了分割精度.文獻(xiàn)[46]基于PSPNet網(wǎng)絡(luò),在兼顧分割精度的同時,為保證實時性,提出了能夠?qū)崟r分割的圖像級聯(lián)網(wǎng)絡(luò)(image cascade network,簡稱ICNet).ICNet對不同尺寸的輸入圖像進(jìn)行下采樣操作,將低分辨率圖片通過整個CNN網(wǎng)絡(luò)后得到粗糙分割圖,然后利用級聯(lián)特征融合單元(cascade feature fusion unit,簡稱CFF)來融合高分辨率圖片的特征,從而提高分割速度.

Fig.10 Workflow for PSPNet圖10 PSPNet網(wǎng)絡(luò)的處理流程

文獻(xiàn)[47]借鑒文獻(xiàn)[69-71]的思想,使用區(qū)域卷積(region convolution)對每個階段的感興趣區(qū)域進(jìn)行處理,而默認(rèn)忽略其他不感興趣的區(qū)域,提出了端到端訓(xùn)練的深層級聯(lián)(deep layer cascade,簡稱LC)方法.LC方法具有一定的自適應(yīng)能力和自主學(xué)習(xí)能力,能夠?qū)⒉煌瑥?fù)雜度的圖像區(qū)域分別放在不同深度的網(wǎng)絡(luò)層進(jìn)行處理,可以有針對性地處理不同難易程度的像素.

除上述圖像特征融合方式外,一些學(xué)者主張將上一階段卷積網(wǎng)絡(luò)提取的圖像特征融入到下一階段卷積網(wǎng)絡(luò)提取的特征中,將不同卷積網(wǎng)絡(luò)提取的不同圖像特征進(jìn)行融合.基于這種思想,文獻(xiàn)[72]在 VGG-16網(wǎng)絡(luò)中加入一系列不同尺度的卷積操作,從圖像中提取出不同尺度的特征信息后,將上一階段特征融入下一階段的特征中進(jìn)行卷積處理,設(shè)計出一種能夠捕獲高層和低層特征的多尺度深度卷積神經(jīng)網(wǎng)絡(luò)(multi-scale deep convolutional neural network).文獻(xiàn)[49]在文獻(xiàn)[50]的基礎(chǔ)上增加了3個不同尺度的子網(wǎng)絡(luò),采用“先進(jìn)行聯(lián)合訓(xùn)練、后進(jìn)行階段訓(xùn)練”的策略,可獨立完成深度估計、法向量估計和 ISS這 3個任務(wù).文獻(xiàn)[73]從結(jié)構(gòu)上對上面的多尺度CNN[49,50]進(jìn)行改進(jìn),將其擴展為4個子網(wǎng),并利用其中一個子網(wǎng)進(jìn)行粗糙分割,其余3個子網(wǎng)進(jìn)行精細(xì)分割.文獻(xiàn)[74]則在 FCN的基礎(chǔ)上增加多個不同尺度的卷積層,提出了多尺度全卷積網(wǎng)絡(luò)(multi-scale fully convolutional network).

3.1.6 基于RNN的方法

針對“無法充分利用圖像上下文信息、局部特征和全局特征的利用率失衡”等問題,另一種解決思路是:利用RNN可遞歸處理歷史信息和建模歷史記憶的特點,在分割圖像過程中使用RNN來捕獲圖像上下文信息和全局特征.RNN不僅可以學(xué)習(xí)當(dāng)前時刻的信息,還可以依賴之前的序列信息,有利于建模全局內(nèi)容和保存歷史信息,促進(jìn)了圖像上下文信息的利用.基于RNN的方法進(jìn)行圖像語義分割時,將RNN layer嵌入到CNN中,在卷積層提取圖像的局部空間特征,在 RNN layer提取像素序列特征.其一般處理流程如圖11所示,首先,輸入圖像經(jīng)過CNN處理后得到特征圖;然后,將特征圖輸入RNN中獲取圖像上下文信息,用RNN layer序列化像素、分析各像素的依賴關(guān)系后得到全局語義特征,再使用反卷積層進(jìn)行上采樣處理;最后,得到分割結(jié)果.

Fig.11 Workflow for ISS based on RNN圖11 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的圖像語義分割方法處理流程

文獻(xiàn)[51]借鑒 RNN 的循環(huán)思想,將泛化后的 RNN 應(yīng)用于 ISS領(lǐng)域.文獻(xiàn)[53]利用 DAG(directed acyclic graph)的特性來彌補分割過程中“RNN無法直接應(yīng)用于UCG(undirected cyclic graph)結(jié)構(gòu)圖像”的缺陷,使RNN能夠直接對圖像中的每個像素進(jìn)行分類.文獻(xiàn)[52]綜合利用CNN與RNN的優(yōu)點,使用RNN的衍生網(wǎng)絡(luò)ReNet處理圖片數(shù)據(jù),提出了ReSeg網(wǎng)絡(luò).ReSeg使用4個傳統(tǒng)的RNN序列模型替代CNN中卷積層的卷積和池化操作,在水平與垂直兩個方向分別切割圖像并對其空間依賴關(guān)系建模,其框架結(jié)構(gòu)如圖12所示,輸入圖像經(jīng)過VGG-16網(wǎng)絡(luò)后得到圖像的局部特征,然后將特征圖送入ReNet網(wǎng)絡(luò)逐步提取出圖像的全局特征和上下文信息,最后使用由反卷積網(wǎng)絡(luò)組成的上采樣層逐步恢復(fù)特征圖的分辨率,輸出分割結(jié)果.同時,ReSeg還使用GRU來平衡內(nèi)存占用率和計算負(fù)載能力,具有很高的靈活性和適應(yīng)性.文獻(xiàn)[54]用4個不同方向的RNN子網(wǎng)來完成圖像標(biāo)注任務(wù):輸入圖像被劃分為多個非重疊窗口送入4個獨立且不同方向的LSTM記憶塊,在沒有其他附加條件的情況下,捕獲局部特征和全局特征.文獻(xiàn)[75]則利用光度和深度 2種不同類型的數(shù)據(jù)來建模全局特征,使用LSTM從多種途徑獲取上下文信息再將其整合到CNN中,增強了語義特征的表達(dá)效果.

Fig.12 Framework for ReSeg[52]圖12 ReSeg網(wǎng)絡(luò)的框架結(jié)構(gòu)[52]

傳統(tǒng)的RNN序列模型在訓(xùn)練過程中容易出現(xiàn)梯度爆炸或梯度消失等問題,使用其衍生網(wǎng)絡(luò)LSTM或GRU配合梯度截斷(gradient clipping)、批標(biāo)準(zhǔn)化(batch normalization)等策略則可避免該問題[76,77].LSTM和GRU利用某些特定的方法來規(guī)則遍歷二維圖像,圖像上下文的關(guān)聯(lián)性可轉(zhuǎn)化為結(jié)構(gòu)化的循環(huán)依賴關(guān)系,易于建模像素序列以及圖像空間域的依賴關(guān)系[52].在利用 LSTM 或 GRU對圖像進(jìn)行建模并將其平滑為像素序列的過程中,需盡量保存圖像的時間序列特征,并盡量避免丟失其高級語義信息和像素依賴關(guān)系,以提升分割效果[78,79].

3.1.7 基于GAN的方法

“使用帶有高階勢能項的CRF進(jìn)行結(jié)構(gòu)化預(yù)測”存在著模型復(fù)雜、計算量大、訓(xùn)練時間長、內(nèi)存占用率高等問題,此外,HOP也需要預(yù)先人工設(shè)置,不易實現(xiàn).在ISS過程中,使用GAN代替CRF捕獲圖像上下文信息,不但能夠避免上述問題,還可在不增加模型復(fù)雜度和訓(xùn)練時間的情況下增加長距離空間標(biāo)簽的連續(xù)性,具有較強的空間一致性.

基于 GAN的方法進(jìn)行圖像語義分割時,基本框架結(jié)構(gòu)如圖13所示.該類方法一般使用 FCN,SegNet或PSPNet等分割網(wǎng)絡(luò)作為生成器網(wǎng)絡(luò),輸入圖像經(jīng)過生成器網(wǎng)絡(luò)處理后得到預(yù)測分割圖像,將預(yù)測分割圖像作為人造樣本、真實標(biāo)簽圖像(ground truth)作為真實樣本輸入判別器網(wǎng)絡(luò),判別器網(wǎng)絡(luò)學(xué)習(xí)真實樣本和人造樣本的區(qū)別,并基于博弈思想進(jìn)行對抗訓(xùn)練.待輸出樣本數(shù)據(jù)的真假后,其內(nèi)部的反饋機制會對生成器網(wǎng)絡(luò)與判別器網(wǎng)絡(luò)進(jìn)行調(diào)節(jié),經(jīng)過數(shù)次迭代訓(xùn)練后,生成器網(wǎng)絡(luò)的分割準(zhǔn)確率和判別器網(wǎng)絡(luò)的鑒別能力不斷提高.圖13中,虛線表示 GAN利用判斷結(jié)果進(jìn)行反饋微調(diào);菱形標(biāo)志表示選擇“真實標(biāo)簽圖像”或“預(yù)測分割圖像”兩者中的一種作為判別器網(wǎng)絡(luò)的輸入.當(dāng)判別器網(wǎng)絡(luò)的輸入組合為“原始圖像”與“預(yù)測分割圖像”時,輸出“假”代表正確結(jié)果;當(dāng)輸入組合為“原始圖像”與“真實標(biāo)簽圖像”時,輸出“真”代表正確結(jié)果.

2016年,文獻(xiàn)[55]首次將GAN引入ISS領(lǐng)域,提出一種圖像分割的新方法,原始圖像在由CNN構(gòu)成的分割網(wǎng)絡(luò)中轉(zhuǎn)變?yōu)榉指罱Y(jié)果,分割結(jié)果輸入對抗網(wǎng)絡(luò)后被判斷出真假,兩組網(wǎng)絡(luò)進(jìn)行對抗學(xué)習(xí)、彼此競爭,經(jīng)過迭代訓(xùn)練后,逐步提高分割網(wǎng)絡(luò)的分割準(zhǔn)確率.文獻(xiàn)[56]基于 FCN,將 GAN與領(lǐng)域適應(yīng)性(domain adaptation)思想結(jié)合,將源域與目標(biāo)域共享標(biāo)記空間,并通過最優(yōu)化目標(biāo)損失函數(shù)來減少全局偏移和特定偏移的影響,提出用于ISS的領(lǐng)域適應(yīng)性框架.文獻(xiàn)[57]通過 GAN來實現(xiàn)分割網(wǎng)絡(luò)的參數(shù)規(guī)則化,使用未進(jìn)行標(biāo)注的圖像訓(xùn)練分割網(wǎng)絡(luò)(生成器網(wǎng)絡(luò)).文獻(xiàn)[58]則利用條件生成對抗網(wǎng)絡(luò)(conditional generative adversarial network,簡稱CGAN)[80]產(chǎn)生人造樣本進(jìn)行對抗訓(xùn)練.

Fig.13 Framework for ISS based on GAN圖13 基于GAN的圖像語義分割方法的基本框架

GAN模型擁有不斷生成數(shù)據(jù)和辨別數(shù)據(jù)真假的能力,在一定程度上可減少CNN、FCN等網(wǎng)絡(luò)在圖像語義分割過程中帶來的問題.同時,GAN引入判別器來解決數(shù)據(jù)域分布不一致問題,通過對抗學(xué)習(xí)來近似不可解的損失函數(shù),具有較好的分割效果[81].但 GAN模型的優(yōu)化過程不穩(wěn)定,訓(xùn)練時容易坍縮到一個鞍點上,在處理大規(guī)模圖像數(shù)據(jù)時,其可解釋性和延展性有待提高[82].

3.2 弱監(jiān)督學(xué)習(xí)圖像語義分割方法

利用CNN、FCN等神經(jīng)網(wǎng)絡(luò)進(jìn)行全監(jiān)督學(xué)習(xí)的分割方法在ISS領(lǐng)域獲得了較好的效果,但I(xiàn)SSbFSL方法在訓(xùn)練階段所需要的像素級精確標(biāo)注圖像制作過程費時、費力,難以大批量獲取.因此,一些學(xué)者開始研究以弱監(jiān)督學(xué)習(xí)的方式進(jìn)行圖像語義分割,形成了一系列的ISSbWSL方法.ISSbWSL方法使用經(jīng)過粗略標(biāo)記的弱標(biāo)注圖像進(jìn)行訓(xùn)練,減少了標(biāo)注時間和標(biāo)注成本.在 ISS領(lǐng)域,目前常見的弱標(biāo)注數(shù)據(jù)大致有圖像級標(biāo)注、邊框級標(biāo)注和涂鴉級標(biāo)注.如圖14所示,邊框級標(biāo)注泛指一些人工標(biāo)記的邊界框(bounding box),涂鴉級標(biāo)注泛指一些人工隨機涂鴉的點或線條,圖像級標(biāo)注則把圖像中的物體種類標(biāo)簽作為標(biāo)注.

Fig.14 Examples of different image labeling圖14 不同類型的圖像標(biāo)注示例

與像素級標(biāo)注數(shù)據(jù)相比,弱標(biāo)注數(shù)據(jù)無需過多人工操作,更容易獲取.根據(jù)弱標(biāo)注數(shù)據(jù)的不同類型,我們將ISSbWSL方法分為 4類:基于邊框級標(biāo)注的方法、基于涂鴉級標(biāo)注的方法、基于圖像級標(biāo)注的方法和多種弱標(biāo)注數(shù)據(jù)混合的方法.下面進(jìn)行詳細(xì)介紹.

3.2.1 基于邊框級標(biāo)注的方法

在ISSbWSL領(lǐng)域,基于邊框級標(biāo)注的方法使用邊框級標(biāo)注圖像作為訓(xùn)練樣本.與ISSbFSL方法相比,該類方法在標(biāo)注邊界框過程中時間成本較低,可節(jié)省大量人力物力;同時,其分割性能與同等條件下的全監(jiān)督學(xué)習(xí)方法近似.

文獻(xiàn)[83]以FCN為基礎(chǔ)網(wǎng)絡(luò),用邊框級標(biāo)注的圖像作為訓(xùn)練樣本,通過循環(huán)迭代方式不斷提高分割準(zhǔn)確率,提出了BoxSup網(wǎng)絡(luò).BoxSup的框架結(jié)構(gòu)如圖15所示,首先,用MCG算法[19]得到初步的目標(biāo)候選區(qū)域;然后,將該目標(biāo)候選區(qū)域作為已知的監(jiān)督信息輸入到FCN中進(jìn)行優(yōu)化和更新;待FCN輸出具有更高精度的候選區(qū)域后,再將輸出的目標(biāo)候選區(qū)域又重新輸入FCN中進(jìn)行訓(xùn)練.如此重復(fù)迭代,直到準(zhǔn)確率收斂.文獻(xiàn)[84]在GrabCut算法[85]的基礎(chǔ)上加入CRF和 CNN,提出了DeepCut方法.DeepCut使用邊框級標(biāo)注的圖像作為訓(xùn)練樣本,通過在CNN中進(jìn)行迭代訓(xùn)練,逐步提高圖像的分割精度.

Fig.15 Framework for BoxSup圖15 BoxSup網(wǎng)絡(luò)的框架結(jié)構(gòu)

3.2.2 基于涂鴉級標(biāo)注的方法

基于涂鴉級標(biāo)注的方法使用涂鴉級標(biāo)注的圖像作為訓(xùn)練樣本,分割過程較為簡單,訓(xùn)練樣本易于獲取,降低了人工標(biāo)注的工作量.

文獻(xiàn)[86]用多個像素標(biāo)注圖像中的物體,提出了用隨機涂鴉的點作為監(jiān)督信息的點監(jiān)督(point supervision)方法.該方法將監(jiān)督信息與CNN模型中的損失函數(shù)相結(jié)合,取得了較好的分割效果.文獻(xiàn)[87]使用涂鴉方式進(jìn)行圖像標(biāo)注,將帶有涂鴉線條的圖像作為訓(xùn)練樣本,提出了ScribbleSup方法.ScribbleSup方法分為自動標(biāo)記階段和圖像訓(xùn)練階段:自動標(biāo)記階段首先根據(jù)涂鴉線條對圖像生成像素塊,然后將每個像素塊作為圖模型中的一個節(jié)點,再用GraphCut算法建模自動完成對所有訓(xùn)練圖像的標(biāo)注;圖像訓(xùn)練階段則是將上一階段完成的標(biāo)注圖像送入FCN中訓(xùn)練,得到分割結(jié)果.

3.2.3 基于圖像級標(biāo)注的方法

與其他類型的標(biāo)注相比,圖像級標(biāo)注使用類別標(biāo)簽作為訓(xùn)練標(biāo)注,不需要進(jìn)行像素標(biāo)注,制作更簡單、工作量更小,因而受到研究者更多的關(guān)注,成為 ISSbWSL方法的主流.但是圖像級標(biāo)注只提供了物體種類信息,缺少位置、形狀等信息,在分割過程中也面臨諸多挑戰(zhàn).

文獻(xiàn)[88]將多示例學(xué)習(xí)(multiple instance learning,簡稱MIL)[89]應(yīng)用在ISSbWSL,以構(gòu)建圖像標(biāo)注與像素語義之間的關(guān)聯(lián);同時,還使用超像素、候選框和MCG算法等技術(shù)作為后續(xù)處理,取得了一定的分割效果.文獻(xiàn)[90]使用約束卷積神經(jīng)網(wǎng)絡(luò)(constrained convolutional neural network,簡稱CCNN)進(jìn)行圖像語義分割,CCNN將圖像級標(biāo)注作為限制條件,通過內(nèi)部的損失函數(shù)來預(yù)測像素類別,把訓(xùn)練過程看作是限制條件的最優(yōu)化過程.文獻(xiàn)[91]使用復(fù)合形式的損失函數(shù)進(jìn)行圖像語義分割,提出了SEC(seed,expand and constrain)方法.SEC方法中的復(fù)合損失函數(shù)由3個不同的目標(biāo)損失函數(shù)組成,訓(xùn)練CNN時,3個不同的目標(biāo)損失函數(shù)分別完成不同的分割任務(wù).

文獻(xiàn)[92]提出一種可將分割結(jié)果由簡單到復(fù)雜逐步轉(zhuǎn)變的STC(simple to complex)方法.該方法首先利用顯著性目標(biāo)檢測(salient object detection)算法檢測出顯著性區(qū)域,進(jìn)行區(qū)域特征融合和構(gòu)建像素間的語義關(guān)系后,由 CNN產(chǎn)生一組顯著性區(qū)域圖.接著,再由一套迭代機制從簡單到復(fù)雜地重復(fù)數(shù)次該過程,逐步提升分割精度.文獻(xiàn)[93]在循環(huán)迭代的訓(xùn)練過程中引入增強反饋(augmented feedback)思想,先使用選擇搜索算法和MCG算法進(jìn)行目標(biāo)定位,再根據(jù)反饋信息逐步提升分割能力,可在一定程度上避免 ISSbWSL存在的誤差累積問題.文獻(xiàn)[94]基于CNN和期望值最大化(expectation maximization,簡稱EM)算法,使用顯著性目標(biāo)檢測算法和注意力圖(attention maps)對圖像進(jìn)行分割,分割效果較好.文獻(xiàn)[95]基于 FCN,采用弱監(jiān)督學(xué)習(xí)方式識別出圖像中多個不同的顯著性區(qū)域(discriminative localization)后,捕獲不同區(qū)域的局部特征,再利用局部特征對圖像中的物體進(jìn)行定位和分割.文獻(xiàn)[96]采用圖像級標(biāo)注圖像對分類網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使用分類網(wǎng)絡(luò)按照主次順序逐步獲取目標(biāo)對象的顯著性區(qū)域,并利用一種逐步擦除顯著性區(qū)域、不斷提高像素分類精度的方法來處理圖像的顯著性區(qū)域,使得分割精度迅速提升.

3.2.4 多種弱標(biāo)注數(shù)據(jù)混合的方法

以上3種使用弱標(biāo)注圖像進(jìn)行訓(xùn)練的分割方法極大地推動了ISSbWSL的發(fā)展,但由于弱標(biāo)注圖像的局限性,單純使用某種圖像級標(biāo)注的訓(xùn)練效果較差,如果混合多種弱標(biāo)注圖像則可能取得較好的效果.多種弱標(biāo)注數(shù)據(jù)混合的方法將多種弱標(biāo)注圖像與像素級標(biāo)注圖像相互混合,通過混合訓(xùn)練的方式進(jìn)行半監(jiān)督學(xué)習(xí).

文獻(xiàn)[97]引入半監(jiān)督學(xué)習(xí)思想,將分類和分割相結(jié)合,提出了由分類網(wǎng)絡(luò)和分割網(wǎng)絡(luò)組合而成的DecoupledNet網(wǎng)絡(luò).訓(xùn)練時,DecoupledNet先用大量的圖像級標(biāo)注訓(xùn)練分類網(wǎng)絡(luò),再用少量的像素級標(biāo)注訓(xùn)練分割網(wǎng)絡(luò).這種方法沒有循環(huán)迭代過程,不必考慮迭代收斂,因而具有較好的擴展性.文獻(xiàn)[98]在DeepLab網(wǎng)絡(luò)的基礎(chǔ)上,將邊框級標(biāo)注與圖像級標(biāo)注一起用于訓(xùn)練,對于給定的邊框級標(biāo)注圖像,先使用 CRF對其做自動分割,再在分割結(jié)果上做全監(jiān)督學(xué)習(xí).同時,該方法[98]還嘗試將少量的像素級標(biāo)注圖像和大量的弱標(biāo)注圖像結(jié)合訓(xùn)練,并使用EM算法來預(yù)測未標(biāo)記像素的類別,其分割結(jié)果與進(jìn)行全監(jiān)督學(xué)習(xí)的DeepLab網(wǎng)絡(luò)十分接近.

總的來說,ISSbWSL方法嘗試在大量弱標(biāo)注數(shù)據(jù)中找到圖像的高級特征,允許計算機在無人指導(dǎo)的情況下進(jìn)行學(xué)習(xí),可使ISS擺脫對大量像素級標(biāo)簽數(shù)據(jù)的依賴.但目前大部分ISSbWSL方法沒有充分考慮噪聲干擾下弱標(biāo)注圖像分布的不確定性和復(fù)雜性,其分割性能與 ISSbFSL方法相比仍有較大差距.如何靈活運用弱標(biāo)注圖像數(shù)據(jù)來提高分割準(zhǔn)確率和抗干擾性,并減少大量弱標(biāo)注圖像所帶來的計算復(fù)雜性,是該類方法目前亟需解決的問題.

4 圖像語義分割實驗分析與對比

在進(jìn)行圖像語義分割實驗時,要對每種方法進(jìn)行公平、客觀的評價,就必須使用權(quán)威的數(shù)據(jù)集和統(tǒng)一的評價指標(biāo).本節(jié)將介紹一些在 ISS實驗中常用的公共數(shù)據(jù)集以及衡量算法性能的指標(biāo),并對前文中一些經(jīng)典方法的實驗結(jié)果進(jìn)行系統(tǒng)的分析和對比.表3總結(jié)了圖像語義分割的常用公共數(shù)據(jù)集.

Table 3 Common datasets for image semantic segmentation表3 常用的圖像語義分割數(shù)據(jù)集

4.1 常用公共數(shù)據(jù)集

(1)PASCAL Visual Object Classes(簡稱PASCAL VOC)[99].PASCAL VOC是一個國際計算機視覺挑戰(zhàn)賽,該組織提供了領(lǐng)域內(nèi)知名度最高的圖像測試數(shù)據(jù)集和計算機視覺領(lǐng)域的基準(zhǔn)測試.2005年~2012年間,該組織每年都發(fā)布帶標(biāo)簽的圖像數(shù)據(jù)庫并開展算法競賽,由此產(chǎn)生了一系列數(shù)據(jù)集.目前,該系列最常用的數(shù)據(jù)集是PASCAL VOC 2012.該數(shù)據(jù)集涉及物體共21種,包括人類、動物、交通工具和室內(nèi)物品等,圖片大小不固定,背景復(fù)雜多變.

(2)PASCAL-CONTEXT[100].PASCAL-CONTEXT數(shù)據(jù)集由PASCAL VOC 2010數(shù)據(jù)集改進(jìn)和擴展而來,里面增加了更多的物體標(biāo)注和場景信息,總共包含540個語義類別的圖像標(biāo)注.在算法評估時,一般選取前59類作為分割評判標(biāo)準(zhǔn).

(3)PASCAL-PART[101].PASCAL-PART數(shù)據(jù)集中的圖片大都出自PASCAL VOC 2010,分為訓(xùn)練集、驗證集和測試集這 3個部分,每部分中的圖像都含有像素級標(biāo)注,能夠提供豐富的細(xì)節(jié)信息.PASCAL-PART每張圖像中,目標(biāo)物體的不同部位都有精確標(biāo)注,可為物體解析和 ISS任務(wù)提供詳細(xì)標(biāo)注的樣本.

(4)Microsoft Common Objects in Context(簡稱MS COCO)[102].MS COCO數(shù)據(jù)集早先是微軟公司進(jìn)行圖像測試的一個大型數(shù)據(jù)庫,后來,微軟公司將其開源和推廣.MS COCO數(shù)據(jù)集總共包含81種類別(包括背景)、328 000張圖像、2 500 000個物體實例和100 000個人體關(guān)鍵部位標(biāo)注,大部分圖片從復(fù)雜的日常場景中獲取,圖中的物體具有精確的位置標(biāo)注.

(5)ImageNet Large Scale Visual Recognition Challenge(簡稱ILSVRC)[103]).ILSVRC也是一個著名的國際計算機視覺挑戰(zhàn)比賽,提供的ImageNet數(shù)據(jù)集有1 400多萬幅圖片,涵蓋2萬多個類別,其中,超過百萬的圖片有明確的類別標(biāo)注和物體位置標(biāo)注.數(shù)據(jù)集文檔詳細(xì),有團隊維護(hù),使用方便,在圖像研究領(lǐng)域應(yīng)用廣泛,被稱為圖像算法性能檢驗的另一標(biāo)準(zhǔn)數(shù)據(jù)集.

(6)Karlsruhe Institute of Technology and Toyota Technological Institute(KITTI)[104].KITTI是目前國際上用于自動駕駛場景檢測的最大評測數(shù)據(jù)集,主要用于評測車載環(huán)境下路面分割、目標(biāo)檢測、目標(biāo)跟蹤等技術(shù).KITTI數(shù)據(jù)集包含市區(qū)、鄉(xiāng)村和高速公路等真實場景圖像,每張圖像中含有不同程度的遮擋現(xiàn)象.

(7)Cityscapes Dataset(簡稱Cityscapes)[105].Cityscapes主要提供無人駕駛環(huán)境下的圖像分割數(shù)據(jù),用于評估算法在城區(qū)場景語義理解方面的性能.Cityscapes包含 50個城市不同環(huán)境、不同背景、不同季節(jié)的街道場景,提供5 000張精細(xì)標(biāo)注的圖片、20 000張粗略標(biāo)注的圖片和30種標(biāo)注物體.

(8)Sift Flow[106].該數(shù)據(jù)集以戶外場景解析類的圖片為主,包含街道、山脈、城市、海灘和建筑等8種戶外類型場景,共有2 688張圖片、33種語義類目標(biāo)和3種地理類目標(biāo).圖片都具有像素級標(biāo)注,分辨率為 256×256.

(9)Stanford background dataset(簡稱SBD)[107].SBD由斯坦福大學(xué)建立,用于衡量語義級場景解析算法的性能.該數(shù)據(jù)集包含725張圖片,分別從LabelMe、PASCAL VOC等數(shù)據(jù)集中抽取而來.圖片大多為戶外場景類型,大小較為規(guī)整,每張圖片至少包含1個前景對象.

(10)NYU Depth Dataset V2(簡稱NYUDv2)[108].NYUDv2中的圖片大都出自微軟Kinect數(shù)據(jù)庫,分為RGB圖像、深度圖像和RDB-D圖像這3個子數(shù)據(jù)集.該數(shù)據(jù)集由一系列表示各種室內(nèi)場景的視頻序列組成,總共包含1 449張RDB-D圖像、26種場景類型、464種室內(nèi)場景和407 024幀經(jīng)過標(biāo)記的圖像數(shù)據(jù).

(11)SUN-RGBD[109].SUN-RGBD中的圖像大多由4個不同的RGB-D圖像傳感器捕獲而得,共包含10 000張RGB-D圖像、146 617個多邊形標(biāo)注、58 657個邊界框標(biāo)注以及大量的空間布局信息和種類信息.

4.2 實驗性能評價指標(biāo)

在 ISS領(lǐng)域,常用的性能評價指標(biāo)主要包括平均召回率(average recall,簡稱 AR)[110]、平均精度(average precision,簡稱AP)[110]、平均精度均值(mean average precision,簡稱mAP)[110]、像素準(zhǔn)確率(pixel accuracy,簡稱PA)[23]、平均準(zhǔn)確率(mean accuracy,簡稱MA)[23]、平均交并比(mean intersection over union,簡稱mIoU)[23]和帶權(quán)交并比(frequency weighted intersection over union,簡稱FWIoU)[23].在結(jié)果評價時,一般選取PA、MA和mIoU這3種評價指標(biāo)綜合分析.其中,mIoU表示分割結(jié)果與其真值的重合度,是目前ISS領(lǐng)域使用頻率最高和最常見的評價指標(biāo).PA、MA和mIoU的具體定義及計算公式如公式(1)~公式(3)所示.

(1)PA用于計算正確分割的像素數(shù)量與圖像像素總量的比例,其具體計算方法如公式(1)所示.

(2)MA表示所有類別物體像素準(zhǔn)確率的平均值,其具體計算方法如公式(2)所示.

(3)mIoU表示分割結(jié)果與原始圖像真值的重合程度,其具體計算方法如公式(3)所示.

其中,N代表圖像像素的類別數(shù)量;Ti代表第i類的像素總數(shù);Xii代表實際類型為i、預(yù)測類型為i的像素總數(shù);Xji代表實際類型為i、預(yù)測類型為j的像素總數(shù).

4.3 實驗結(jié)果分析與對比

為便于說明算法效果,本節(jié)將按照圖1中的分類對ISSbRC、ISSbFSL和ISSbWSL這3類方法的實驗結(jié)果分別進(jìn)行分析對比.事實上,隨著計算機硬件技術(shù)的發(fā)展和數(shù)據(jù)處理能力的提高,當(dāng)前 ISSbDL領(lǐng)域中,大多數(shù)研究都以提升算法的“分割準(zhǔn)確率”為研究重點,而對“計算性能”關(guān)注不多.特別是上述3類方法中的ISSbRC方法和ISSbWSL方法,由于其功能側(cè)重點、應(yīng)用場景和改進(jìn)方式等原因,相關(guān)研究大都忽略了對算法“計算性能”的實驗考察.因此,本節(jié)對這兩類方法的效果僅從算法“分割準(zhǔn)確率”方面進(jìn)行分析對比.部分ISSbFSL方法因涉及到動態(tài)場景解析或?qū)崟r圖像語義分割等研究領(lǐng)域,比較重視算法的“計算性能”指標(biāo).因此,針對ISSbFSL方法,本節(jié)將從算法“分割準(zhǔn)確率”與“計算性能”兩個方面進(jìn)行實驗結(jié)果分析.

4.3.1 ISSbRC方法的實驗對比分析

ISSbRC方法的實驗對比見表4,主要比較因素有關(guān)鍵技術(shù)、實驗數(shù)據(jù)集和評價指標(biāo)等.

Table 4 Experimental comparison of ISSbRC表4 基于區(qū)域分類的圖像語義分割方法實驗對比

從表4中可以看到,ISSbRC方法大多選用PASCAL VOC和MS COCO數(shù)據(jù)集作測試數(shù)據(jù)集,因為這兩種數(shù)據(jù)集更有權(quán)威性和說服力.在基于候選區(qū)域的方法中,RCNN[12]的mIoU雖然不高,但因其提出時間最早、性能平穩(wěn)、代碼開源,已被實用化.其他算法,如SDS[13]、MPA[14]、Mask-RCNN[15]等,其框架結(jié)構(gòu)都是在RCNN的基礎(chǔ)上改進(jìn)而來,因此分割準(zhǔn)確率逐步提升.基于分割掩膜的方法使用RCNN中的技術(shù)得到候選區(qū)域后,再對像素進(jìn)行二分類處理生成分割掩膜,分割效果較好.在該類方法中,SharpMask[17]和 MultiPath[18]分別對 DeepMask[16]進(jìn)行改進(jìn),分割性能有較大的提升.其中,SharpMask將 DeepMask生成的粗略分割掩膜輸入精細(xì)模塊,進(jìn)行逐步優(yōu)化后最終生成精細(xì)的分割掩膜,其平均召回率比DeepMask提高了近1倍.

4.3.2 ISSbFSL方法的實驗對比分析

(1)針對ISSbFSL方法分割準(zhǔn)確率的實驗結(jié)果對比見表5,主要比較因素有基于的基礎(chǔ)網(wǎng)絡(luò)、關(guān)鍵技術(shù)、是否使用PGM方法、實驗數(shù)據(jù)集和評價指標(biāo)等.

Table 5 Experimental comparison of segmentation accuracy for ISSbFSL表5 基于像素分類的全監(jiān)督學(xué)習(xí)圖像語義分割方法的分割準(zhǔn)確率實驗對比

從表5中可以看到,根據(jù)算法的應(yīng)用場景和分割特色不同,選用的數(shù)據(jù)集也不同.當(dāng)對常規(guī)靜態(tài)圖像進(jìn)行圖像語義分割時,大多選用PASCAL VOC 2012作為測試數(shù)據(jù)集;當(dāng)進(jìn)行動態(tài)場景解析或?qū)崟r圖像語義分割時,大多選用CityScapes作為測試數(shù)據(jù)集.

該類方法中,DeepLab-V3[27]、PSPNet[45]、RefineNet[44]、DUC+HDC[30]、LC[47]、GCN+[35]和 QO[39]等算法在PASCAL VOC 2012數(shù)據(jù)集上的mIoU都超過了80%,對圖像中不同尺度的物體有較好的識別效果,分割結(jié)果的邊界比較接近真實分割邊界,是最具代表性的圖像語義分割算法.其中,DeepLab-V3算法因為集成了FCN[23]、PSPNet和DeepLab-V2等眾多網(wǎng)絡(luò)的優(yōu)點,其mIoU指標(biāo)目前排名最高.而PSPNet與RefineNet通過多路徑、多尺度方式對圖像特征進(jìn)行融合,可有效捕捉圖像中豐富的上下文信息,在mIoU指標(biāo)上分別排名第二和第三.

CRFasRNN[28]、Dilation10[29]、DeepLab-V1[25]和 DeepLab-V2[26]等算法則是基于 FCN 進(jìn)行改進(jìn),在 PASCAL VOC 2012數(shù)據(jù)集上的mIoU都超過70%,在分割準(zhǔn)確率方面與FCN相比有較大提升.其中,DeepLab-V2由于具有代碼開源時間早、性能穩(wěn)定和分割準(zhǔn)確率高等優(yōu)點,在工業(yè)界備受青睞,被廣泛用于分割靜態(tài)圖像,其 mIoU達(dá)到了79.7%.

其中,SegNet[32]、ENet[34]和 ICNet[46]這 3種算法由于主要用于無人自動駕駛、在線視頻處理等領(lǐng)域,故而選擇在滿足實時圖像語義分割性能測試的CityScapes數(shù)據(jù)集進(jìn)行實驗.實驗結(jié)果表明,這3種算法的mIoU都超過了 50%,分割精度基本滿足對街道場景圖像進(jìn)行語義分割的要求.其中,ICNet將不同尺度的圖像放在不同深度的神經(jīng)網(wǎng)絡(luò)中處理,并使用級聯(lián)特征融合單元融合不同分辨率的特征圖,在 CityScapes上的 mIoU為 69.5%,分割準(zhǔn)確率相對于SegNet和ENet有明顯提升,分割性能突出.

(2)針對算法的計算性能,基于Cityscapes基準(zhǔn)測試和PASCAL VOC基準(zhǔn)測試中的有關(guān)內(nèi)容[99,105]以及相關(guān)參考文獻(xiàn)[23,46],我們從ISSbFS方法中選擇了代表性較強、相關(guān)度較高的幾種經(jīng)典算法進(jìn)行分析對比.各算法計算性能的實驗測試均在Cityscapes數(shù)據(jù)集中進(jìn)行,其測試結(jié)果見表6,主要比較因素有算法名稱、發(fā)表年份、運行時間和每秒幀數(shù)等,其中,“運行時間”代表分割一張圖像所消耗的時間,“每秒幀數(shù)”代表每秒能夠分割的圖像總數(shù)量.

Table 6 Experimental comparison of computational performance for ISSbFSL表6 基于像素分類的全監(jiān)督學(xué)習(xí)圖像語義分割方法的計算性能實驗對比

從表6中可以看到,各類具體算法的分割速度有較大差異.其中,ENet[34]、ICNet[46]和SegNet[32]這3種算法的運行時間分別為 0.013s、0.033s和 0.06s,分割速度較快,實時性強,適用于實時圖像分割;而 FCN[23]由于在使用雙線性插值算法進(jìn)行上采樣過程中耗時較長,導(dǎo)致分割速度不高,其運行時間為 0.5s,無法滿足實時圖像分割的需求;DeepLab-V1[25]和DeepLab-V2[26]由于在利用PGM對圖像進(jìn)行結(jié)構(gòu)化預(yù)測過程中計算較為復(fù)雜、耗時較長,導(dǎo)致其分割速度較低,也無法滿足實時圖像分割的需求;其他算法的分割速度都比 FCN要低,也同樣無法滿足實時圖像分割的需求,不適用于在線視頻處理和動態(tài)場景解析等任務(wù).

4.3.3 ISSbWSL方法的實驗對比分析

ISSbWSL方法的實驗結(jié)果對比見表7,主要比較因素有關(guān)鍵技術(shù)、監(jiān)督信息、是否使用CRF方法、實驗數(shù)據(jù)集和評價指標(biāo)等.在這些方法中,BoxSup[83]、ScribbleSup[87]和WeaklySemi[98]這3種方法在PASCAL VOC 2012數(shù)據(jù)集上的mIoU都超過了70%,分割準(zhǔn)確率較高,是以弱監(jiān)督學(xué)習(xí)方式進(jìn)行圖像語義分割的典型算法.而基于圖像級標(biāo)注的方法因為僅僅使用帶有種類標(biāo)注的弱標(biāo)注數(shù)據(jù)進(jìn)行弱監(jiān)督訓(xùn)練,分割效果不明顯,分割邊界粗糙且不連續(xù),mIoU都普遍較低.

Table 7 Experimental comparison of ISSbWSL表7 基于像素分類的弱監(jiān)督學(xué)習(xí)圖像語義分割方法實驗對比

5 總結(jié)與展望

如今,深度學(xué)習(xí)技術(shù)已經(jīng)廣泛應(yīng)用到圖像語義分割領(lǐng)域.本文主要對基于深度學(xué)習(xí)的圖像語義分割的經(jīng)典方法與研究現(xiàn)狀進(jìn)行了較為細(xì)致的分類、梳理與總結(jié).根據(jù)分割特點和處理粒度不同,將基于深度學(xué)習(xí)的圖像語義分割方法分為基于區(qū)域分類的圖像語義分割方法和基于像素分類的圖像語義分割方法,把基于像素分類的圖像語義分割方法進(jìn)一步細(xì)分為全監(jiān)督學(xué)習(xí)圖像語義分割方法和弱監(jiān)督學(xué)習(xí)圖像語義分割方法.對每類方法的代表性算法進(jìn)行了研究、分析和對比,并概括總結(jié)了每類方法的技術(shù)特點和優(yōu)缺點.在現(xiàn)有研究成果的基礎(chǔ)上,我們總結(jié)ISS研究領(lǐng)域的重點問題和發(fā)展趨勢,認(rèn)為該領(lǐng)域還存在如下一些具有挑戰(zhàn)性的研究方向.

(1)應(yīng)用于場景解析任務(wù)的圖像語義分割

場景解析任務(wù)處理的圖像背景復(fù)雜、環(huán)境多變,現(xiàn)有ISSbDL方法無法有效地捕獲圖像的上下文信息和深度語義信息,在識別和分割圖像中目標(biāo)物體時仍存在較大的困難.文獻(xiàn)[111]把遷移學(xué)習(xí)的思想引入場景解析任務(wù),將圖像像素特征與詞匯概念相結(jié)合,提出一個開放式詞匯解析網(wǎng)絡(luò)(the open vocabulary parsing network,簡稱 OVPN).文獻(xiàn)[112]提出一個針對該任務(wù)的語境循環(huán)殘差網(wǎng)絡(luò)(contextual recurrent residual network,簡稱CRRN),通過繼承序列模型和殘差學(xué)習(xí),建模遠(yuǎn)程語境依賴、學(xué)習(xí)視覺特征.這些方法目前都存在難以選擇標(biāo)注基元量化級別、未充分利用場景幾何深度等問題,如何解決這些場景解析中的問題并實現(xiàn)有效分割是一個挑戰(zhàn).

(2)實例級圖像語義分割

實例級圖像語義分割,有時也稱為實例分割(instance segmentation,簡稱IS),融合了分割與檢測兩個功能,可以分割出圖像中同類物體的不同實例.文獻(xiàn)[113]將多任務(wù)學(xué)習(xí)(multi-task learning)[114]引入分割領(lǐng)域?qū)崿F(xiàn)實例分割,其分割過程分為3個能夠共享卷積特征的子任務(wù),將上一任務(wù)的輸出作為下一任務(wù)的輸入,分割時,能夠區(qū)分出不同的實例對象.文獻(xiàn)[13,15]對RCNN進(jìn)行改進(jìn)后,既能用于ISS,又能用于IS.文獻(xiàn)[115,116]對FCN進(jìn)行改進(jìn),使用滑動窗口或物體框?qū)⒉煌奈恢眯畔⒕幋a到特征圖中,對每個實例進(jìn)行語義分割.文獻(xiàn)[117]在圖像中使用聚類的方法構(gòu)建分割樹,并探索不同的實例.文獻(xiàn)[118]使用多示例學(xué)習(xí)方法結(jié)合弱監(jiān)督學(xué)習(xí)進(jìn)行 IS.文獻(xiàn)[119]使用一個可逆的 RNN處理 IS問題.這些方法在分割準(zhǔn)確率和算法綜合性能上都有很大的提升空間,如何平衡分割效果與時間復(fù)雜度,也是目前亟需解決的問題.

(3)實時圖像語義分割

實時圖像語義分割以極高的分割速率處理圖像或視頻數(shù)據(jù),并分析利用各圖像(幀)之間的時空關(guān)系,是一種以高分割速率運行的 ISS機制.文獻(xiàn)[34]基于編碼器-解碼器結(jié)構(gòu),采用分解濾波器策略,使用低階近似將卷積操作分解為更簡單的操作,降低了計算量,初步實現(xiàn)了實時分割.文獻(xiàn)[46]采用逐步提高分割精度的策略,逐漸減少圖像經(jīng)過的網(wǎng)絡(luò)層數(shù),利用級聯(lián)特征融合單元來融合高分辨率與低分辨率圖像的特征,提高了分割速度,基本達(dá)到了實時分割.實時圖像語義分割常被應(yīng)用于視頻跟蹤和多目標(biāo)定位等任務(wù),有巨大的商業(yè)價值,但目前的ISS方法大多無法滿足實時分割的速度要求.探索如何進(jìn)一步提高實時圖像語義分割的速度與精度,是該領(lǐng)域的一個研究熱點.

(4)應(yīng)用于三維數(shù)據(jù)的語義分割

目前,大多數(shù) ISS算法以處理靜態(tài)圖片數(shù)據(jù)為主,而針對點云、多邊形網(wǎng)格等三維數(shù)據(jù)的分割方法卻較少.文獻(xiàn)[120-122]嘗試使用三維卷積神經(jīng)網(wǎng)絡(luò)(3D convolutional neural network,簡稱3D-CNN)對三維數(shù)據(jù)進(jìn)行處理.文獻(xiàn)[123]則對3D-CNN進(jìn)行改進(jìn),設(shè)計了一個能夠標(biāo)注點云數(shù)據(jù)并進(jìn)行語義分割的3D-CNN.文獻(xiàn)[124]直接以未排序的點云作為輸入數(shù)據(jù),提出一個能夠直接對點云數(shù)據(jù)進(jìn)行語義分割的 PointNet網(wǎng)絡(luò).三維數(shù)據(jù)語義分割技術(shù)是近年來興起的一項熱門研究,由于三維數(shù)據(jù)的無序性和非結(jié)構(gòu)化本質(zhì),如何合理離散化和結(jié)構(gòu)化這些數(shù)據(jù)并有效地保留其空間位置信息,仍是一個有待解決的問題.而且,由于三維數(shù)據(jù)語義分割任務(wù)嚴(yán)重依賴大量數(shù)據(jù)集,如何大規(guī)模地獲取三維數(shù)據(jù)并建立相關(guān)公共數(shù)據(jù)集,也是研究者們要努力的一個方向.

(5)應(yīng)用于視頻數(shù)據(jù)的語義分割

視頻語義分割是一種基于三維空間的 ISS問題.目前,針對視頻數(shù)據(jù)的語義分割方法較少.帶有時間序列的視頻數(shù)據(jù)在語義分割過程中能充分利用二維圖像中的隱含信息,可更好地顯示二維圖像無法展現(xiàn)的時空特征.文獻(xiàn)[125]基于 FCN提出一種有效利用時空信息進(jìn)行視頻語義分割的循環(huán)全卷積網(wǎng)絡(luò)(recurrent fully convolutional network,簡稱 RFCN).文獻(xiàn)[126]將視頻數(shù)據(jù)中的空間特征融入 FCN,提出一種融合時空特征的時空全卷積網(wǎng)絡(luò)(spatio-temporal fully convolutional network,簡稱STFCN).文獻(xiàn)[127]則設(shè)計了一個定時全卷積網(wǎng)絡(luò)(clockwork FCN),使用自適應(yīng)時鐘信號操縱定時卷積驅(qū)動進(jìn)行視頻分割.未來,研究如何充分利用視頻豐富的時空序列特征具有重要意義;同時,如何從視頻高效抽取高層語義信息也是一個難點.

致謝在此,我們向?qū)Ρ疚奶岢鰧氋F修改意見的各位同行及評審專家表示感謝.

猜你喜歡
語義像素卷積
趙運哲作品
藝術(shù)家(2023年8期)2023-11-02 02:05:28
像素前線之“幻影”2000
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
語言與語義
“像素”仙人掌
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
高像素不是全部
CHIP新電腦(2016年3期)2016-03-10 14:22:03
認(rèn)知范疇模糊與語義模糊
新竹市| 翁牛特旗| 会昌县| 利津县| 新安县| 青冈县| 金秀| 荔浦县| 大兴区| 安化县| 盈江县| 禹州市| 水富县| 海宁市| 金乡县| 张家口市| 彭泽县| 东源县| 凭祥市| 年辖:市辖区| 会昌县| 余姚市| 凌源市| 大厂| 策勒县| 边坝县| 贵定县| 东海县| 大城县| 中江县| 克山县| 祥云县| 平潭县| 定日县| 德清县| 石屏县| 长岭县| 十堰市| 合肥市| 讷河市| 武清区|