梁新宇,羅 晨,權(quán)冀川,肖鎧鴻,高偉嘉
1.陸軍工程大學(xué) 指揮控制工程學(xué)院,南京210007
2.陸軍工程大學(xué) 通信工程學(xué)院,南京210007
3.中國(guó)人民解放軍68023部隊(duì)
圖像分割(image segmentation)技術(shù)已經(jīng)成為計(jì)算機(jī)視覺領(lǐng)域的重要研究方向,是圖像語(yǔ)義理解的重要環(huán)節(jié),也是實(shí)現(xiàn)完全場(chǎng)景理解的重要方式之一。圖像分割技術(shù)通常用于定位圖像中目標(biāo)和邊界(線、曲面)的位置,為圖像中的每一個(gè)像素打上標(biāo)簽,擁有相同標(biāo)簽的像素具有相同的特征,為進(jìn)一步對(duì)圖像進(jìn)行分類、檢測(cè)和內(nèi)容理解打下良好的基礎(chǔ)。
圖像語(yǔ)義分割是對(duì)圖像中的每個(gè)像素都劃分出對(duì)應(yīng)的類別,即實(shí)現(xiàn)圖像在像素級(jí)別上的分類。如圖1所示,根據(jù)需求劃分的類別標(biāo)簽,將圖中的“瓶子”“杯子”“立方體”實(shí)現(xiàn)像素級(jí)別的分類。
圖1 圖像語(yǔ)義分割
不同于圖像分類和目標(biāo)檢測(cè)技術(shù),在開始圖像分割處理之前,必須明確語(yǔ)義分割的任務(wù)要求,即理解語(yǔ)義分割的輸入和輸出。語(yǔ)義分割的重要性在于越來(lái)越多的應(yīng)用需要利用圖像進(jìn)行理解推斷,包括人機(jī)交互[1-2]、自動(dòng)駕駛[3-5]、醫(yī)學(xué)影像[6-11]、計(jì)算攝影[12-13]、虛擬現(xiàn)實(shí)[14-16]、增強(qiáng)現(xiàn)實(shí)[17-18]等領(lǐng)域。
近年來(lái),隨著深度學(xué)習(xí)技術(shù)的逐步深入,圖像語(yǔ)義分割技術(shù)有了突飛猛進(jìn)的發(fā)展,相繼涌現(xiàn)出了一批經(jīng)典的語(yǔ)義分割模型和算法。本文從圖像語(yǔ)義分割的技術(shù)發(fā)展視角,將其劃分為傳統(tǒng)圖像語(yǔ)義分割技術(shù)與基于深度學(xué)習(xí)的圖像語(yǔ)義分割技術(shù)兩大類。重點(diǎn)對(duì)基于深度學(xué)習(xí)的典型語(yǔ)義分割網(wǎng)絡(luò)架構(gòu)進(jìn)行了梳理總結(jié),對(duì)于最近兩年內(nèi)提出的新型網(wǎng)絡(luò)架構(gòu)進(jìn)行了綜合分析。同時(shí),從圖像語(yǔ)義分割的性能評(píng)價(jià)需求出發(fā),研究了常用的測(cè)試數(shù)據(jù)集和性能評(píng)價(jià)方法,對(duì)于主流的語(yǔ)義分割網(wǎng)絡(luò)架構(gòu)進(jìn)行了性能對(duì)比分析,可為相關(guān)領(lǐng)域的理論研究和應(yīng)用實(shí)踐提供有價(jià)值的參考。
(1)基于閾值的圖像分割技術(shù)
基于閾值的圖像分割技術(shù)的基本思想是基于圖像的灰度特征來(lái)計(jì)算一個(gè)或多個(gè)灰度閾值,并將圖像中每個(gè)像素的灰度值與閾值進(jìn)行比較,最后再根據(jù)像素比較的結(jié)果劃分到合適的類別中。
閾值分割的優(yōu)點(diǎn)是計(jì)算簡(jiǎn)單、運(yùn)算效率較高且速度快。全局閾值對(duì)于灰度相差很大的不同目標(biāo)和背景能進(jìn)行有效的分割;局部閾值或動(dòng)態(tài)閾值對(duì)于閾值差異不大的目標(biāo)更為合適。雖然基于閾值的分割技術(shù)簡(jiǎn)單高效,但也有一定的局限性。這種方法只考慮像素本身的灰度值,一般不考慮空間特征,因而對(duì)噪聲很敏感。在實(shí)際應(yīng)用中,閾值法通常要與其他方法結(jié)合使用。
(2)基于邊緣的圖像分割技術(shù)
所謂邊緣是指圖像中兩個(gè)不同區(qū)域的邊界線上連續(xù)的像素點(diǎn)的集合,是圖像局部特征不連續(xù)性的反映,體現(xiàn)了灰度、顏色、紋理等圖像特性的突變?;谶吘壍姆指罴夹g(shù)是根據(jù)灰度值進(jìn)行邊緣檢測(cè),將圖像分割成不同的部分。它是建立在邊緣灰度值會(huì)呈現(xiàn)出階躍型或屋頂型變化這一觀測(cè)基礎(chǔ)上的方法。
基于邊緣的分割方法的重點(diǎn)在于邊緣檢測(cè)對(duì)抗噪性和檢測(cè)精度之間的權(quán)衡。若提高檢測(cè)精度,則噪聲產(chǎn)生的偽邊緣會(huì)導(dǎo)致不合理的輪廓;若提高抗噪性,則會(huì)產(chǎn)生輪廓漏檢和位置偏差。為此,人們提出各種多尺度邊緣檢測(cè)方法,根據(jù)實(shí)際問題設(shè)計(jì)多尺度邊緣信息的結(jié)合方案,以較好地兼顧抗噪性和檢測(cè)精度。該方法的不足之處在于,在劃分復(fù)雜圖像時(shí)邊緣的連續(xù)性和完整性難以保證。
(3)基于區(qū)域的圖像分割技術(shù)
基于區(qū)域的圖像分割技術(shù)按照相似性準(zhǔn)則將圖像分成不同的區(qū)域。其主要利用了圖像的局部空間信息,能夠較好地避免其他算法帶來(lái)的分割空間小的缺陷。
然而,這種分割技術(shù)在進(jìn)行大區(qū)域分割時(shí)速度較慢,抗噪性差,往往會(huì)分割出無(wú)意義的區(qū)域或者造成圖像的過(guò)度分割等。一般情況下,會(huì)與其他方法結(jié)合使用,發(fā)揮各自的優(yōu)勢(shì)以獲得更好的分割效果。
(4)基于特定理論的圖像分割技術(shù)
基于特定理論、方法的圖像分割技術(shù)包括聚類分析、模糊集理論、圖論等,這些理論為圖像分割技術(shù)的難點(diǎn)突破和研究拓展了新的方向。
傳統(tǒng)的圖像分割技術(shù)在分割精度和分割效率上難以達(dá)到實(shí)際應(yīng)用的要求,尤其是在實(shí)時(shí)場(chǎng)景理解和圖像信息處理方面。而且,語(yǔ)義分割時(shí),單獨(dú)使用一種傳統(tǒng)的圖像分割算法,難以獲得良好的分割效果。正確的思路是,不斷將各種新理論和新方法引入圖像分割領(lǐng)域。近年來(lái),基于深度學(xué)習(xí)的圖像分割技術(shù)很好地解決了上述問題。
深度學(xué)習(xí)(Deep Learning)[19]是機(jī)器學(xué)習(xí)的一個(gè)分支,也是近十年機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)。深度學(xué)習(xí)是利用多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),將隱含在高層中的信息進(jìn)行建模的方法。
基于深度學(xué)習(xí)的圖像語(yǔ)義分割技術(shù)(簡(jiǎn)稱深度圖像語(yǔ)義分割)的主要思路是,不需要人為設(shè)計(jì)特征,直接向深層網(wǎng)絡(luò)輸入大量原始圖像數(shù)據(jù),根據(jù)設(shè)計(jì)好的深度網(wǎng)絡(luò)算法,對(duì)圖像數(shù)據(jù)進(jìn)行復(fù)雜處理,得到高層次的抽象特征;輸出的不再是簡(jiǎn)單的分類類別或者目標(biāo)定位,而是帶有像素類別標(biāo)簽的與輸入圖像同分辨率的分割圖像。
許多語(yǔ)義分割問題可以使用深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)解決,這類網(wǎng)絡(luò)架構(gòu)在準(zhǔn)確率和處理效率上都明顯超越了傳統(tǒng)的方法。本節(jié)闡述了圖像語(yǔ)義分割處理的經(jīng)典網(wǎng)絡(luò)架構(gòu)及其實(shí)際用例,并對(duì)這些架構(gòu)的特性進(jìn)行總結(jié)和分析。
(1)全卷積網(wǎng)絡(luò)
2014年,全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)[20]問世,其網(wǎng)絡(luò)架構(gòu)如圖2所示。它是傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)[21]的擴(kuò)展,主要思想是利用全卷積網(wǎng)絡(luò)取代原有架構(gòu)的全連接層部分,以達(dá)到可以輸入任意分辨率圖像的目的。由于傳統(tǒng)CNN的全連接層是針對(duì)固定長(zhǎng)度的特征向量進(jìn)行分類的,所以只能接受特定大小的輸入圖像。為了改變這種局限性,F(xiàn)CN 采用卷積和池化層,可以接受任意分辨率的輸入圖像。再利用反卷積層對(duì)最后一個(gè)卷積層的特征圖進(jìn)行上采樣,使輸出結(jié)果恢復(fù)到與輸入圖像相同的尺寸。FCN可對(duì)圖像的每個(gè)像素產(chǎn)生一個(gè)預(yù)測(cè),同時(shí)保留了原始輸入圖像中的空間信息,并在上采樣的特征圖上逐個(gè)像素進(jìn)行分類和計(jì)算分類損失,相當(dāng)于每個(gè)像素對(duì)應(yīng)一個(gè)訓(xùn)練樣本。所以,F(xiàn)CN通過(guò)對(duì)圖像進(jìn)行像素級(jí)的分類來(lái)解決語(yǔ)義級(jí)別的圖像分割問題。
圖2 FCN架構(gòu)
FCN為語(yǔ)義分割引入了端到端的全卷積網(wǎng)絡(luò),同時(shí)重新利用預(yù)訓(xùn)練網(wǎng)絡(luò),結(jié)合反卷積層進(jìn)行上采樣,并引入跳躍連接改善上采樣粗糙的像素定位。
FCN在處理室內(nèi)場(chǎng)景分割任務(wù)中,較好地實(shí)現(xiàn)了視覺假體輔助盲人識(shí)別的應(yīng)用[22]。除此之外,F(xiàn)CN在典型紅外目標(biāo)分割[23]以及輸電線路航拍[24]等工程實(shí)踐中取得了良好表現(xiàn)。
(2)SegNet
FCN 和SegNet[25]都是最先出現(xiàn)的編碼-解碼結(jié)構(gòu)。FCN網(wǎng)絡(luò)使用了反卷積層和少量跳躍連接,但是產(chǎn)生的分割圖較為粗略。為了提升效果,SegNet引入了更多的跳躍連接。另一方面,SegNet 并沒有復(fù)制FCN 中的編碼器特征,而是復(fù)制了最大池化指數(shù),這使得在內(nèi)存使用上SegNet 比FCN 更為高效。因此,SegNet 比FCN 更節(jié)省內(nèi)存。
在農(nóng)業(yè)信息領(lǐng)域,SegNet在高分辨率遙感影像的農(nóng)村建設(shè)用地信息提取任務(wù)中,總體的分類分割精度達(dá)到96.61%[26],效果明顯。SegNet在工件表面缺陷檢測(cè)[27]等工業(yè)工程領(lǐng)域中得以應(yīng)用,并取得不錯(cuò)的效果。
(3)DeepLab v1
基于CNN模型架構(gòu)的圖像分割技術(shù)是根據(jù)分類這種高層語(yǔ)義改進(jìn)的,但CNN 具有的不變性特點(diǎn)會(huì)導(dǎo)致丟失位置信息,無(wú)法對(duì)像素點(diǎn)精確定位語(yǔ)義。如圖3所示,DeepLab v1[28]是CNN 和概率圖模型(Probabilistic Graphical Model,PGM)[29]的結(jié)合,利用空洞卷積(Atrous Convolution)增加卷積操作過(guò)程的感受野,保持分辨率。同時(shí),對(duì)CNN最后一層增加全連接條件隨機(jī)場(chǎng)(Conditional Random Filed,CRF)[28],使分割結(jié)果更精確。
圖3 DeepLab v1架構(gòu)
(4)DeepLab v2
DeepLab v2[30]在DeepLabv1的基礎(chǔ)上進(jìn)行了改進(jìn),引入了空間金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)結(jié)構(gòu),以融合不同級(jí)別的語(yǔ)義信息,改進(jìn)Deep-Labv1未融合不同層信息的不足。具體的處理方法是,選擇不同擴(kuò)張率的空洞卷積處理特征圖,由于感受野不同,得到信息的層級(jí)也不同。ASPP 層把這些不同層級(jí)的特征圖連接到一起,進(jìn)行信息融合,如圖4。
圖4 ASPP結(jié)構(gòu)
作為DeepLab系列中的經(jīng)典網(wǎng)絡(luò)架構(gòu),DeepLab v1和DeepLab v2已經(jīng)在遙感影像處理[31]、城市街景解析[32]以及室內(nèi)場(chǎng)景分析等實(shí)際場(chǎng)景中應(yīng)用。
(5)RefineNet
在前述的幾種語(yǔ)義分割架構(gòu)中,為了提取更復(fù)雜的特征、構(gòu)建更深的神經(jīng)網(wǎng)絡(luò),許多算法往往會(huì)以犧牲空間分辨率的方式,在盡量少地增加計(jì)算量的前提下,換取特征通道數(shù)的增加。雖然這種方式有諸多優(yōu)點(diǎn),但是空間分辨率的下降是其明顯的缺陷。
為了解決這一問題,同時(shí)更好地優(yōu)化語(yǔ)義分割結(jié)果,RefineNet[33]提供了一個(gè)能夠良好融合高分辨率語(yǔ)義特征和低分辨率語(yǔ)義特征的模塊來(lái)生成高分辨率的分割圖。RefineNet模型的整體架構(gòu)如圖5所示,RefineNet包括三大模塊:殘差卷積模塊(Residual Convolution Unit,RCU)、多分辨率融合模塊(Multi-Resolution Fusion)鏈?zhǔn)綒埐畛鼗K(Chained Residual Pooling)。
圖5 RefineNet模型架構(gòu)
殘差卷積模塊從不同尺度的圖像中抽取底層特征;多分辨率融合模塊,抽取中間層特征對(duì)多尺度的特征進(jìn)行融合,以解決因?yàn)橄虏蓸訉?dǎo)致的信息丟失問題;鏈?zhǔn)綒埐畛鼗K,抽取高層特征,不同池化相當(dāng)于不同大小的窗口,在整合不同尺度特征后通過(guò)卷積加權(quán)在一起,從而捕獲背景上下文信息。
(6)PSPNet
語(yǔ)義分割過(guò)程中,對(duì)圖像語(yǔ)義場(chǎng)景的解析或理解極為關(guān)鍵。然而,早期的多數(shù)架構(gòu)都是基于FCN的,沒有引入足夠的上下文信息及不同感受野下的全局信息,容易導(dǎo)致錯(cuò)誤的分割結(jié)果。PSPNet[34]提出了一個(gè)具有層次全局優(yōu)先級(jí)、包含不同子區(qū)域之間不同尺度信息的模塊,稱為金字塔池化模塊(Pyramid Pooling Module),如圖6 所示。它充分利用全局特征層次的先驗(yàn)知識(shí)對(duì)不同場(chǎng)景進(jìn)行理解,聚合不同區(qū)域的上下文信息以獲取全局上下文的內(nèi)容。同時(shí),PSPNet 還提出了一個(gè)適度監(jiān)督損失的優(yōu)化策略,在多個(gè)數(shù)據(jù)集上表現(xiàn)優(yōu)異。與全局金字塔池化不同的是,可以通過(guò)PSPNet 對(duì)不同區(qū)域信息的融合來(lái)實(shí)現(xiàn)全局上下文信息的融合。
總之,PSPNet 為像素級(jí)場(chǎng)景解析提供了有效的全局上下文先驗(yàn),金字塔池化模塊可以收集具有層級(jí)的信息,比全局池化更有代表性。并且,PSPNet和帶空洞卷積的FCN 相比,并沒有增加多少計(jì)算量。在端到端的學(xué)習(xí)中,全局金字塔池化模塊和局部FCN 功能可以同時(shí)訓(xùn)練和優(yōu)化??梢哉f(shuō),PSPNet 同時(shí)利用局部和全局信息,更好地提取全局上下文信息,使得場(chǎng)景識(shí)別更加可靠。
RefineNet 和PSPNet 已經(jīng)應(yīng)用在醫(yī)療影像[8]、農(nóng)業(yè)信息[35-36]、遙感圖像[37]等領(lǐng)域,通過(guò)特征融合的思想,對(duì)圖像上下文語(yǔ)義進(jìn)行捕獲,實(shí)現(xiàn)不同尺度信息整合,獲得了良好的性能表現(xiàn)。
2017 年以來(lái),在技術(shù)的推動(dòng)下,經(jīng)典網(wǎng)絡(luò)架構(gòu)有新的突破;同時(shí),新的設(shè)計(jì)思想和觀點(diǎn)又催生出新的網(wǎng)絡(luò)架構(gòu)。這些網(wǎng)絡(luò)架構(gòu)代表了語(yǔ)義分割的前沿方向。
(1)DeepLab v3
如圖7 所示,DeepLab v3[38]在DeepLabv2 模型的基礎(chǔ)上,作了以下改進(jìn):①放棄了CRF 操作;②改進(jìn)了ASPP 模塊,加入了批規(guī)范化(Batch Norm,BN)操作;③為了防止空洞卷積感受野的擴(kuò)張率過(guò)大導(dǎo)致的“權(quán)值退化”現(xiàn)象,增加了全局平均池化結(jié)構(gòu),利用全局信息,以強(qiáng)調(diào)和加強(qiáng)全局特征。
圖6 PSPNet模型架構(gòu)
圖7 DeepLab v3模型架構(gòu)
DeepLab v3 通過(guò)編碼多尺度信息,增強(qiáng)圖像級(jí)的特征,獲得了比DeppLab v1、DeppLab v2 更加良好的實(shí)驗(yàn)效果,并取得了與其他先進(jìn)模型相當(dāng)?shù)男阅堋?/p>
(2)DeepLab v3+
DeepLabv3+[39]提出了一個(gè)全新的編碼-解碼結(jié)構(gòu),如圖8 所示。該模型使用DeepLab v3 作為編碼器模塊,并增加了一個(gè)簡(jiǎn)單卻有效的解碼模塊,逐漸恢復(fù)空間信息以捕捉清晰的目標(biāo)邊界;并且在解碼過(guò)程中對(duì)不同層級(jí)特征進(jìn)行融合,進(jìn)行多尺度上下文信息的探索。此外,對(duì)編碼模塊進(jìn)行了優(yōu)化處理,加入了Xception[40]結(jié)構(gòu)以減少參數(shù)量,提高運(yùn)行速度。
DeepLab v3+在提出的編碼-解碼架構(gòu)中,通過(guò)空洞卷積直接控制提取編碼特征的分辨率,在精度和運(yùn)行時(shí)間之間尋找平衡點(diǎn)。將Xception結(jié)構(gòu)應(yīng)用于分割任務(wù),在編碼模塊中的ASPP部分和解碼模塊分別加入深度可分卷積,在減少計(jì)算消耗和參數(shù)量的同時(shí)維持了相似的性能表現(xiàn),得到了強(qiáng)大又快速的模型。
(3)Auto-DeepLab
Auto-DeepLab[41]是近期由李飛飛帶領(lǐng)的團(tuán)隊(duì)提出的自動(dòng)搜索圖像語(yǔ)義分割架構(gòu)的算法。該架構(gòu)首次將神經(jīng)架構(gòu)搜索(Neural Architecture Search,NAS)引入到語(yǔ)義分割領(lǐng)域,自動(dòng)搜索網(wǎng)絡(luò)架構(gòu)。利用研究提出的分層神經(jīng)架構(gòu)搜索方法確定最優(yōu)網(wǎng)絡(luò)架構(gòu)和單元架構(gòu),完成圖像語(yǔ)義分割任務(wù),性能超越了很多業(yè)內(nèi)主流的模型,甚至可以在未經(jīng)過(guò)預(yù)訓(xùn)練的情況下達(dá)到預(yù)訓(xùn)練模型的水平。Auto-DeepLab 開發(fā)出與分層架構(gòu)搜索空間完全匹配的離散架構(gòu)的連續(xù)松弛結(jié)構(gòu),顯著提高架構(gòu)搜索的效率,降低計(jì)算需求。
(4)DANet
DANet[42]是一種新型的場(chǎng)景語(yǔ)義分割網(wǎng)絡(luò),利用“自注意力機(jī)制”捕獲豐富的語(yǔ)義信息。如圖9 所示,DANet在帶有空洞卷積的ResNet[43]架構(gòu)的尾部添加兩個(gè)并行的注意力模塊:位置注意力模塊(Position Attention Module)和通道注意力模塊(Channel Attention Module)。在位置注意力模塊中,任一位置的特征更新是通過(guò)圖像所有位置特征的加權(quán)聚合實(shí)現(xiàn)的,權(quán)重是由兩個(gè)位置上特征的相似性決定的,即無(wú)論兩個(gè)位置的距離多遠(yuǎn),只要特征相似就能得到更高的權(quán)重。
在通道注意力模塊中,也應(yīng)用了類似的自注意力機(jī)制來(lái)學(xué)習(xí)任意兩個(gè)通道映射之間的關(guān)系,同樣通過(guò)所有通道的加權(quán)和來(lái)更新某一個(gè)通道。
圖8 DeepLab v3+架構(gòu)
圖9 DANet模型架構(gòu)
為了更好地利用兩個(gè)注意力模塊的全局語(yǔ)義信息,將模塊的輸出經(jīng)過(guò)一個(gè)卷積層后進(jìn)行逐元素的加和實(shí)現(xiàn)特征融合,最后通過(guò)一個(gè)卷積層得到最終的預(yù)測(cè)結(jié)果。
DANet在PASCAL Context[44]、MS COCO[45]和Cityscapes[46]數(shù)據(jù)集上取得的顯著效果說(shuō)明,該架構(gòu)在處理圖像語(yǔ)義的復(fù)雜場(chǎng)景方面更加高效靈活。該架構(gòu)選擇性地聚合了顯著和不顯著對(duì)象的相似語(yǔ)義特征,并從全局視角自適應(yīng)地集成各種尺度的相似空間關(guān)系,將通道關(guān)系和空間關(guān)系有效結(jié)合,進(jìn)一步增強(qiáng)了特征表示能力。
語(yǔ)義分割的網(wǎng)絡(luò)架構(gòu)從FCN 開始,不斷融入CRF、ASSP等行之有效的技術(shù),在語(yǔ)義分割速度、準(zhǔn)確度等方面不斷提升?,F(xiàn)階段,語(yǔ)義分割的架構(gòu)旨在優(yōu)化分割結(jié)果的精確度和提高分割效率,以便在圖像語(yǔ)義實(shí)時(shí)處理領(lǐng)域進(jìn)行應(yīng)用。對(duì)上述網(wǎng)絡(luò)架構(gòu)進(jìn)行了綜合分析,并從主要思想、優(yōu)缺點(diǎn)、關(guān)鍵技術(shù)和主要功能等幾個(gè)方面進(jìn)行了對(duì)比總結(jié),如表1所示。
在深度圖像語(yǔ)義分割領(lǐng)域的實(shí)踐中,收集并創(chuàng)建一個(gè)足夠大且具有代表性的應(yīng)用場(chǎng)景數(shù)據(jù)集,對(duì)于任何基于深度學(xué)習(xí)的語(yǔ)義分割架構(gòu)都是極為重要的。這需要大量的時(shí)間、專業(yè)領(lǐng)域的知識(shí),同時(shí)也需要相關(guān)的軟硬件設(shè)施使得架構(gòu)可以正確理解與學(xué)習(xí)捕捉到的數(shù)據(jù)。而且,使用一個(gè)現(xiàn)有的、有足夠代表性的標(biāo)準(zhǔn)數(shù)據(jù)集可以保證架構(gòu)之間的性能對(duì)比更加公平[47]。
下面介紹圖像分割領(lǐng)域目前最受歡迎的大規(guī)模數(shù)據(jù)集,表2從數(shù)據(jù)集的應(yīng)用場(chǎng)景、類別數(shù)目、發(fā)布時(shí)間以及訓(xùn)練集、驗(yàn)證集、測(cè)試集等方面進(jìn)行了劃分整理。
(1)Cambridge- driving Labeled Video Database(CamVid)[48-49]。是由Brostow 等人在2009 年建立的道路、駕駛場(chǎng)景理解數(shù)據(jù)集,從車載攝相機(jī)拍攝的5 個(gè)視頻流中采樣出了701 幅圖像,共32 類物體,如建筑、墻、樹、植被等。
(2)Semantic Boundaries Dataset(SBD)[50]。是PASCAL數(shù)據(jù)集的擴(kuò)展,包含21類,共11 355張標(biāo)注圖像。數(shù)據(jù)集所提供的標(biāo)注中除了有每個(gè)物體的邊界信息外,還有種類級(jí)別及實(shí)例級(jí)別的信息。
(3)PASCAL VOC 2012[51]。是為圖像分類和語(yǔ)義分割等任務(wù)發(fā)布的一套數(shù)據(jù)集。其中的圖像主要是常見生活物體,共劃分為21類,包括人、動(dòng)物、植物和交通工具等。2014年,Mottaghi R等人在此基礎(chǔ)上重新標(biāo)注了約10 000 幅圖像,將訓(xùn)練圖像的數(shù)量提升到10 582個(gè),稱為PASCAL VOC 2012+[52]。
(4)NYU Depth Dataset v2(NYUDv2)[53]。是由微軟Kinect 設(shè)備采集的室內(nèi)的RGB-D 圖像,由一系列表示各種室內(nèi)場(chǎng)景的視頻序列組成,共包含40 個(gè)類別的1 449張像素級(jí)標(biāo)注的圖像數(shù)據(jù)。但該數(shù)據(jù)集相對(duì)于其他數(shù)據(jù)集規(guī)模偏小,限制了其在深度網(wǎng)絡(luò)中的應(yīng)用。
(5)PASCAL Context[44]。由PASCAL VOC 2010數(shù)據(jù)集改進(jìn)和擴(kuò)展而來(lái),數(shù)據(jù)集中增加了更多物體像素級(jí)別的標(biāo)注和場(chǎng)景信息,共包含540個(gè)語(yǔ)義類別。雖然種類繁多,但是在算法評(píng)估時(shí),一般選取前59類作為分割評(píng)判標(biāo)準(zhǔn),其他類別標(biāo)記為背景。
(6)PASCAL Part[54]。是PASCAL-VOC 2010 識(shí)別競(jìng)賽的擴(kuò)展,在原有數(shù)據(jù)集基礎(chǔ)上對(duì)圖像中每個(gè)物體的部分提供了一個(gè)像素級(jí)別的分割標(biāo)注,能夠提供豐富的細(xì)節(jié)信息,可為物體解析和圖像分割任務(wù)提供詳細(xì)標(biāo)注的樣本。
(7)Microsoft Common Objects in Context(MS COCO)[45]。最初來(lái)自于微軟圖像測(cè)試的一個(gè)大型數(shù)據(jù)庫(kù),數(shù)據(jù)集規(guī)模巨大,內(nèi)容豐富,共包含81種類別(包括背景)、328 000張圖像、2 500 000個(gè)物體實(shí)例和100 000個(gè)人體關(guān)鍵部位標(biāo)注,圖像從復(fù)雜的日常場(chǎng)景中獲取,圖像中的物體具有精確的位置標(biāo)注。
(8)Cityscapes[46]。是一個(gè)城市街道場(chǎng)景解析的大規(guī)模數(shù)據(jù)集,主要提供無(wú)人駕駛環(huán)境下的圖像分割數(shù)據(jù),用于評(píng)估算法在城區(qū)場(chǎng)景語(yǔ)義理解方面的性能。該數(shù)據(jù)集提供約5 000張精細(xì)標(biāo)注的圖片和20 000張粗略標(biāo)注的圖片,涵蓋了30種語(yǔ)義、實(shí)例以及密集像素標(biāo)注的類別,包括平坦表面、人、車輛、建筑等。數(shù)據(jù)是從50個(gè)
城市中持續(xù)數(shù)月采集而來(lái),涵蓋不同環(huán)境、不同背景、不同季節(jié)的街道場(chǎng)景,具有動(dòng)態(tài)信息豐富、場(chǎng)景布局多樣和街道背景復(fù)雜等特點(diǎn)。
表1 語(yǔ)義分割典型網(wǎng)絡(luò)架構(gòu)的對(duì)比總結(jié)
表2 深度圖像分割常用數(shù)據(jù)集
(9)Karlsruhe Institute of Technology and Toyota Technological Institute(KITTI)[55]。包含市區(qū)、鄉(xiāng)村和高速公路等真實(shí)場(chǎng)景圖像,是近幾年在智能機(jī)器人和無(wú)人駕駛領(lǐng)域廣受歡迎的數(shù)據(jù)集之一。研究者使用高分辨率RGB、灰度立體攝像機(jī)和三維激光掃描儀等多種類型傳感器采集交通場(chǎng)景數(shù)據(jù),用于評(píng)測(cè)車載環(huán)境下路面分割、目標(biāo)檢測(cè)、目標(biāo)跟蹤等技術(shù)。該數(shù)據(jù)集并沒有提供完整的語(yǔ)義標(biāo)注,先后由Alvarez 等人[56-57]、Zhang 等人[58]、Ros 等人[59]為該數(shù)據(jù)集的部分?jǐn)?shù)據(jù)手工添加語(yǔ)義標(biāo)注以滿足其問題的需求。
(10)SUN-RGBD[60]。圖像由四個(gè)RGB-D 傳感器得來(lái),尺寸與PASCAL VOC一致,整個(gè)數(shù)據(jù)集均為密集標(biāo)注,包括多邊形、帶方向的邊界框以及三維空間,共包含10 000張RGB-D圖像、146 617個(gè)多邊形標(biāo)注、58 657個(gè)邊界框標(biāo)注以及大量的空間布局信息和種類信息,適合于場(chǎng)景理解任務(wù)。
(11)ADE20K[61]。是一個(gè)場(chǎng)景理解的新的數(shù)據(jù)集,由151個(gè)類別(包括背景)、20 210張場(chǎng)景圖片組成,包括各種物體(如人、汽車等)、場(chǎng)景(天空、路面等)。
(12)UESTC All-Day Scenery(UADS)[62]。旨在提供全天候道路圖片以及對(duì)應(yīng)的二值標(biāo)簽用以標(biāo)識(shí)圖像中的可行區(qū)域與不可行區(qū)域。整個(gè)數(shù)據(jù)集包含四種天候(黃昏天候,夜間天候,下雨天候和艷陽(yáng)天候)共計(jì)6 380張圖像。
為使分割架構(gòu)能夠在特定領(lǐng)域發(fā)揮實(shí)際作用并產(chǎn)生重大貢獻(xiàn),必須對(duì)其性能進(jìn)行嚴(yán)格評(píng)估。同時(shí),為了對(duì)架構(gòu)性能進(jìn)行公平比較,必須使用標(biāo)準(zhǔn)的、被所屬領(lǐng)域認(rèn)可的指標(biāo)進(jìn)行評(píng)估[63]。評(píng)估的維度必須多樣化,以證明架構(gòu)的有效性和有用性。在實(shí)際應(yīng)用中會(huì)根據(jù)需求或目的對(duì)相關(guān)指標(biāo)進(jìn)行取舍,如在實(shí)時(shí)應(yīng)用場(chǎng)景中,更加關(guān)注處理速度,在一定程度上需要犧牲精度。然而,為了保證科學(xué)的嚴(yán)謹(jǐn)性,需要為架構(gòu)方法提供所有可能的評(píng)價(jià)指標(biāo)。下文從執(zhí)行時(shí)間、內(nèi)存占用和準(zhǔn)確性三個(gè)方面對(duì)分割架構(gòu)的性能指標(biāo)進(jìn)行闡述。
(1)運(yùn)行時(shí)間
運(yùn)行時(shí)間或處理速度是一個(gè)非常有價(jià)值的度量標(biāo)準(zhǔn),因?yàn)榻^大多數(shù)方法架構(gòu)必須滿足處理數(shù)據(jù)過(guò)程中花費(fèi)時(shí)間的嚴(yán)格要求。但是,該評(píng)價(jià)指標(biāo)非常依賴于硬件和后端實(shí)現(xiàn),在某些情況下,為這些方法架構(gòu)提供精確的時(shí)間的比較是毫無(wú)意義的[20]。
大多數(shù)情況下,運(yùn)行時(shí)間可以用于評(píng)估架構(gòu)對(duì)實(shí)際應(yīng)用是否有用,并在相同條件下進(jìn)行公平比較,以檢查哪種方法最快。
(2)內(nèi)存占用
內(nèi)存占用是評(píng)估分割方法架構(gòu)的另一個(gè)重要指標(biāo)。盡管在條件允許的情況下可以通過(guò)擴(kuò)展內(nèi)存容量的方式使內(nèi)存占用不像運(yùn)行時(shí)間那樣受限,但在某些特定情況下它也可能成為一個(gè)限制因素。實(shí)際應(yīng)用場(chǎng)景中,內(nèi)存配置是固定的,一般不會(huì)因?yàn)樗惴ㄒ蠖鴦?dòng)態(tài)調(diào)整,而且即使是普通的用于加速深度網(wǎng)絡(luò)的高端圖形處理單元(GPU)也不會(huì)搭載大容量?jī)?nèi)存。因此,詳細(xì)記錄方法架構(gòu)在實(shí)驗(yàn)中占用的最大及平均存儲(chǔ)空間是非常有用的。
(3)準(zhǔn)確度
在語(yǔ)義分割領(lǐng)域中,有幾項(xiàng)經(jīng)典的用于評(píng)估方法架構(gòu)準(zhǔn)確度的標(biāo)準(zhǔn)。評(píng)估語(yǔ)義分割結(jié)果時(shí),一般來(lái)說(shuō)選取像素準(zhǔn)確度(Pixel Accuracy,PA)[20]、平均準(zhǔn)確度(Mean Accuracy,MA)[20]、交并比(Intersection over Union,IoU)[20]以及平均交并比(mean Intersection over Union,mIoU)[20]等幾項(xiàng)評(píng)價(jià)指標(biāo)進(jìn)行綜合分析。為方便理解,對(duì)以下公式中的相關(guān)符號(hào)做如下說(shuō)明:K 表示圖像像素的類別的數(shù)量;ti表示第i 類的像素的總數(shù);nii表示實(shí)際類型為i、預(yù)測(cè)類型為i 的像素總數(shù);nji表示實(shí)際類型為i、預(yù)測(cè)類型為j 的像素總數(shù)[63]。
像素準(zhǔn)確度PA表示正確分割圖像的像素?cái)?shù)量與像素總數(shù)之間的比率:
交并比IoU 表示分割結(jié)果與原始圖像真值的重合程度,在目標(biāo)檢測(cè)中可以理解為系統(tǒng)預(yù)測(cè)的檢測(cè)框與原圖片中標(biāo)記檢測(cè)框的重合程度,取值范圍在[0,1]區(qū)間:
平均交并比mIoU表示圖像像素的IoU在所有類別上的平均值:
其中,mIoU指標(biāo)的代表性和簡(jiǎn)單性非常突出,是目前圖像語(yǔ)義分割領(lǐng)域使用頻率最高和最常見的準(zhǔn)確度評(píng)價(jià)指標(biāo),大多數(shù)研究人員都利用這個(gè)指標(biāo)來(lái)評(píng)判他們的語(yǔ)義分割結(jié)果。
由于各個(gè)架構(gòu)在功能側(cè)重、改進(jìn)技術(shù)和應(yīng)用場(chǎng)景等方面都不相同,無(wú)法利用運(yùn)行時(shí)間和內(nèi)存占用指標(biāo)進(jìn)行統(tǒng)一衡量,但可以采用準(zhǔn)確度評(píng)價(jià)指標(biāo)橫向?qū)Ρ炔煌軜?gòu)的性能。下文以提升架構(gòu)的分割準(zhǔn)確度為研究重點(diǎn),利用mIoU 評(píng)價(jià)指標(biāo),對(duì)上述語(yǔ)義分割典型網(wǎng)絡(luò)架構(gòu)在相應(yīng)數(shù)據(jù)集上進(jìn)行了測(cè)試實(shí)驗(yàn)和性能對(duì)比。
表3 是對(duì)各主流語(yǔ)義分割典型架構(gòu)在PASCAL CONTEXT、MS COCO、Cityscapes 等數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果數(shù)據(jù)。
表3 深度圖像語(yǔ)義分割網(wǎng)絡(luò)架構(gòu)的實(shí)驗(yàn)結(jié)果
從表3 可以看到,在數(shù)據(jù)集方面,不同的語(yǔ)義分割架構(gòu)根據(jù)應(yīng)用場(chǎng)景和分割特點(diǎn)的不同,選用的數(shù)據(jù)集也不同。PASCAL VOC 2012 作為靜態(tài)圖像進(jìn)行語(yǔ)義分割的測(cè)試數(shù)據(jù)集,相較于其他數(shù)據(jù)集,語(yǔ)義分割架構(gòu)在該數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表現(xiàn)最佳;當(dāng)進(jìn)行實(shí)時(shí)圖像語(yǔ)義理解或動(dòng)態(tài)場(chǎng)景解析時(shí),大多選用CityScapes作為測(cè)試數(shù)據(jù)集;多數(shù)分割架構(gòu)在MS COCO數(shù)據(jù)集上的表現(xiàn)并不理想,一方面因?yàn)樵摂?shù)據(jù)集中圖片的背景更復(fù)雜,每張圖片上的實(shí)例目標(biāo)個(gè)數(shù)多,小目標(biāo)更多;另一方面,MS COCO評(píng)估標(biāo)準(zhǔn)比其他數(shù)據(jù)集更加嚴(yán)格。
在語(yǔ)義分割架構(gòu)方面,PASCAL VOC 2012數(shù)據(jù)集上有相當(dāng)一部分架構(gòu)的mIoU 指標(biāo)都超過(guò)了80%,如DeepLab v3+、RefineNet 等,這些架構(gòu)對(duì)圖像中不同尺度的物體有較好的識(shí)別效果,實(shí)驗(yàn)所得分割結(jié)果的邊界比較接近真實(shí)分割邊界,是最具代表性的圖像語(yǔ)義分割架構(gòu)。其中,DeepLab v2 由于性能穩(wěn)定和分割準(zhǔn)確率較高等優(yōu)點(diǎn),被廣泛用于分割靜態(tài)圖像;DeepLab v3+架構(gòu)因?yàn)榧闪薋CN、DeepLab v2等眾多網(wǎng)絡(luò)的優(yōu)點(diǎn),其mIoU 指標(biāo)目前排名最高;PSPNet 與RefineNet 通過(guò)多尺度、多路徑的技術(shù)對(duì)圖像進(jìn)行高效特征提取和融合,有效捕捉圖像中豐富的上下文信息,分割效果良好,mIoU 指標(biāo)得分也十分靠前。作為最新研究的架構(gòu),DANet 在Pascal Context 數(shù)據(jù)集上獲得的mIoU 指標(biāo)得分超過(guò)50%,這是之前的架構(gòu)所達(dá)不到的;Auto-DeepLab作為語(yǔ)義分割架構(gòu)的搜索架構(gòu),在PASCAL VOC 2012和CityScapes 數(shù)據(jù)集的上實(shí)驗(yàn)表現(xiàn)相當(dāng)出色,mIoU 指標(biāo)均達(dá)到了80%以上,效果甚至超越許多成熟架構(gòu),這也為語(yǔ)義分割架構(gòu)的研究提供了新的思路。
隨著計(jì)算機(jī)性能的提升和語(yǔ)義分割算法架構(gòu)的不斷優(yōu)化,基于深度學(xué)習(xí)的圖像語(yǔ)義分割技術(shù)在計(jì)算機(jī)視覺領(lǐng)域?qū)l(fā)揮越來(lái)越大的作用,同時(shí)也面臨著諸多挑戰(zhàn):
(1)輕量化的網(wǎng)絡(luò)架構(gòu)。隨著移動(dòng)端、嵌入式設(shè)備對(duì)語(yǔ)義分割技術(shù)的需求不斷擴(kuò)展,如何在簡(jiǎn)化架構(gòu)、壓縮和復(fù)用計(jì)算需求上生成更加輕量化的網(wǎng)絡(luò)架構(gòu)同時(shí)又能保證準(zhǔn)確率,將是今后深度圖像語(yǔ)義分割技術(shù)的重要發(fā)展方向。
(2)小數(shù)據(jù)集下的架構(gòu)設(shè)計(jì)。在實(shí)際工程應(yīng)用尤其是專有領(lǐng)域中,如醫(yī)療影像等,絕大多數(shù)情況下會(huì)面臨目標(biāo)數(shù)據(jù)來(lái)源少、規(guī)模小的情況。在沒有大規(guī)模訓(xùn)練數(shù)據(jù)集的前提下,設(shè)計(jì)合理的網(wǎng)絡(luò)架構(gòu)以適應(yīng)小規(guī)模數(shù)據(jù)集的現(xiàn)實(shí)情況尤為重要,這是技術(shù)與實(shí)際場(chǎng)景結(jié)合的重要環(huán)節(jié)。
(3)提升小目標(biāo)圖像分割的效率。目前,針對(duì)小目標(biāo)圖像語(yǔ)義分割的算法架構(gòu)還不能完全滿足實(shí)際場(chǎng)景應(yīng)用的要求,依舊存在漏檢測(cè)、分割邊界模糊等問題。如何對(duì)小目標(biāo)圖像進(jìn)行精確、高效分割是目前深度圖像語(yǔ)義分割領(lǐng)域的重要研究方向。
(4)實(shí)現(xiàn)超大尺寸圖像的分割[64]。隨著圖像采集技術(shù)的發(fā)展,圖像分辨率將大幅提升,今后4K圖像將成為主流。但目前的大部分深度圖像語(yǔ)義分割框架還不能滿足這一實(shí)際需要,在超大尺寸圖像的處理方法與處理效率方面還存在很大的挑戰(zhàn)。從技術(shù)的發(fā)展趨勢(shì)來(lái)看,針對(duì)超大尺寸圖像的分割也是深度圖像語(yǔ)義分割領(lǐng)域未來(lái)的發(fā)展方向。
圖像語(yǔ)義分割作為計(jì)算機(jī)視覺領(lǐng)域的重要技術(shù),面對(duì)未來(lái)應(yīng)用場(chǎng)景更加豐富、需求更加嚴(yán)苛的形勢(shì),也將面臨更多的挑戰(zhàn)。因此,對(duì)基于深度學(xué)習(xí)的圖像語(yǔ)義分割技術(shù)的研究和探索任重道遠(yuǎn)。