史彩娟,張衛(wèi)明,陳厚儒,葛錄錄
華北理工大學(xué)人工智能學(xué)院,河北唐山 063210
視覺顯著性是指模仿人類視覺系統(tǒng)快速檢測出視覺上最獨(dú)特的顯著性區(qū)域,即顯著場景,然后對該區(qū)域進(jìn)行感知和處理。顯著性目標(biāo)檢測(salient object detection,SOD)是指檢測顯著場景中最吸引注意力的物體。近年,顯著性目標(biāo)檢測得到了廣泛研究和應(yīng)用,如圖像分類[1-2]、語義分割[3-4]、超像素[5]、圖像檢索[6]、視覺跟蹤[7]、內(nèi)容感知圖像編輯[8]和機(jī)器人導(dǎo)航[9]等。
顯著性目標(biāo)檢測方法一般可以分為傳統(tǒng)顯著性目標(biāo)檢測方法和基于深度學(xué)習(xí)的顯著性目標(biāo)檢測方法。傳統(tǒng)顯著性目標(biāo)檢測方法主要是利用人類直觀感覺或者啟發(fā)式先驗(yàn),如利用色度比較[10]、背景比較[11]和邊界點(diǎn)先驗(yàn)[12]等,通過人工提取特征來檢測目標(biāo)。然而,人工提取特征非常耗時。近年,深度學(xué)習(xí)的發(fā)展極大促進(jìn)了顯著目標(biāo)檢測研究,基于深度學(xué)習(xí)的顯著性目標(biāo)檢測方法不斷被提出。不同于傳統(tǒng)方法,基于深度學(xué)習(xí)的顯著性目標(biāo)檢測方法不需要人工提取特征,而是自動學(xué)習(xí)得到多尺度特征;另外,檢測性能也有了很大提升,如檢測精度大幅提升,時效性越來越好,模型輕量級,單一網(wǎng)絡(luò)同時完成顯著性目標(biāo)的檢測和邊界定位等。但是,現(xiàn)有的基于深度學(xué)習(xí)的顯著性目標(biāo)檢測方法也還存在不足,如復(fù)雜背景下的顯著性目標(biāo)檢測性能有待進(jìn)一步提升,檢測的實(shí)時性有待提高,模型復(fù)雜度需要降低等。
近年,部分學(xué)者對基于深度學(xué)習(xí)的目標(biāo)檢測方法進(jìn)行了梳理總結(jié)[13-19],但是對國內(nèi)外基于深度學(xué)習(xí)的顯著性目標(biāo)檢測算法的總結(jié)與分析非常有限。因此,本文將對基于深度學(xué)習(xí)的顯著性目標(biāo)檢測算法進(jìn)行總結(jié)分析。首先詳細(xì)闡述了基于深度學(xué)習(xí)的顯著性目標(biāo)檢測的不同方法;其次簡單介紹了常用數(shù)據(jù)集和評估準(zhǔn)則;接著對多個基于深度學(xué)習(xí)的顯著性目標(biāo)檢測方法進(jìn)行了性能比較;最后分析了現(xiàn)有基于深度學(xué)習(xí)的顯著性目標(biāo)檢測方法的不足及未來發(fā)展方向。
隨著深度學(xué)習(xí)的快速發(fā)展,基于深度學(xué)習(xí)的顯著性目標(biāo)檢測方法被廣泛提出,克服了傳統(tǒng)方法中人工提取特征耗時或者遷移性較差等問題。圖1 給出了近年來基于深度學(xué)習(xí)的顯著性目標(biāo)檢測的發(fā)展歷程及主要方法。本文分別從邊界/語義增強(qiáng)、全局/局部結(jié)合和輔助網(wǎng)絡(luò)三個不同的角度對現(xiàn)有的基于深度學(xué)習(xí)的顯著性目標(biāo)檢測方法進(jìn)行介紹。
研究發(fā)現(xiàn),深度網(wǎng)絡(luò)VGG[20](visual geometry group)和ResNet[21](residual neural network)等提取的多層多尺度特征中低層特征包含良好的空間信息,可以定位邊界,而高層特征具有豐富的語義信息,可以定位顯著性目標(biāo)。因此,為了提高顯著性目標(biāo)檢測的性能,有的研究對低層特征進(jìn)行操作來增強(qiáng)邊界[22],獲得更加清晰的顯著性目標(biāo)邊界;有的研究銳化高層特征來獲得豐富的語義信息,通過語義增強(qiáng)來更好地定位顯著性目標(biāo)[23];還有一些研究對邊界和語義同時進(jìn)行增強(qiáng)[24],以獲得更好的顯著性目標(biāo)檢測效果。因此,本節(jié)將從邊界增強(qiáng)、語義增強(qiáng),邊界/語義增強(qiáng)三個角度對基于深度學(xué)習(xí)的顯著性目標(biāo)檢測方法進(jìn)行介紹。
1.1.1 基于邊界增強(qiáng)的顯著性目標(biāo)檢測方法
Fig.1 Development of salient object detection based on deep learning圖1 基于深度學(xué)習(xí)的顯著性目標(biāo)檢測的發(fā)展
邊界增強(qiáng)是指通過增強(qiáng)深度特征中的低層特征來獲得更多的邊界信息,從而更好地定位顯著目標(biāo)邊界。Tai 等人提出ELD(encoded low-level distance)算法[22]對顏色及其分布和濾波器響應(yīng)位置等低層特征的特征距離進(jìn)行編碼,生成低階距離圖以獲得邊界檢測效果;Wang 等人提出的KSR(kernelized subspace ranking)算法[25]構(gòu)建了一種基于核化的子空間排序模型來測量低層特征的兩兩距離,根據(jù)模型給出的建議分?jǐn)?shù)生成低層特征圖。以上兩種方法通過編碼低層特征距離來檢測邊界信息,定位顯著性目標(biāo)輪廓,但是輪廓邊界有時會模糊,導(dǎo)致部分邊界細(xì)節(jié)丟失,仿真結(jié)果如圖2(c)、(d)所示。為了進(jìn)一步提升顯著性目標(biāo)邊界檢測效果,一些研究通過引入相關(guān)操作來增強(qiáng)低層特征具有邊界信息。Li 等人提出的DCL(deep contrast learning)算法[26]采用分段空間池流模擬不連續(xù)的顯著性目標(biāo)邊界,解決顯著性目標(biāo)邊界模糊的問題。Hou 等人提出的DSS(deeply supervised salient)算法[27]是在HED(holistically-nested edge detection)體系結(jié)構(gòu)中引入了具有跳躍結(jié)構(gòu)的短連接,使每一層具有更加豐富的多尺度特征映射,從而獲得顯著性目標(biāo)的清晰邊界。DCL 和DSS 方法的仿真顯著圖如圖2(e)、(f)所示。從仿真結(jié)果可以看出,相較于直接編碼低層特征距離的算法,進(jìn)一步引入相關(guān)操作的方法獲得的顯著性目標(biāo)邊界更加清晰。但是,這些操作的引入容易引起顯著性目標(biāo)檢測不準(zhǔn)確,如圖2(e)、(f)第二行出現(xiàn)了不準(zhǔn)確的顯著性目標(biāo)(山)。
Fig.2 Saliency maps of methods based on boundary enhancement圖2 基于邊界增強(qiáng)方法的顯著圖
另外,還有一些研究直接對顯著性目標(biāo)的邊界進(jìn)行檢測。Hou 等人提出TBOS(three birds one stone)算法[28],采用了一種通用架構(gòu)對顯著性目標(biāo)邊界進(jìn)行檢測,同時能夠完成骨架提取和目標(biāo)分割。Feng 等人提出的AFNet(attentive feedback network)算法[29]采用BEL(boundary-enhanced loss)邊界增強(qiáng)損失來獲得更精確的邊界,進(jìn)而實(shí)現(xiàn)對顯著性目標(biāo),特別是凸起窄條紋的分割。Qin等人提出的BASNet(boundaryaware salient network)算法[30]將混合損耗用于邊界感知的顯著性目標(biāo)檢測,能夠準(zhǔn)確地預(yù)測出清晰的邊界結(jié)構(gòu),以及有效地分割出顯著性目標(biāo)區(qū)域。以上三種直接提取顯著性目標(biāo)邊界的檢測算法的顯著圖如圖3(c)、(d)所示。從圖3 可以看出這類方法能夠提取清晰的顯著性目標(biāo)邊界,邊界細(xì)節(jié)相對較好,顯著性目標(biāo)的檢測準(zhǔn)確度較高(無關(guān)的顯著性目標(biāo)較少)。
Fig.3 Saliency maps of methods based on direct extraction of boundaries圖3 直接提取邊界方法的顯著圖
1.1.2 基于語義增強(qiáng)的顯著性目標(biāo)檢測方法
語義增強(qiáng)是指從高層特征中獲得豐富的語義信息,從而更好地定位顯著性目標(biāo),使顯著性目標(biāo)更加突出。Dai等人提出的R-FCN(region-based fully convolutional networks)算法[23]通過全卷積網(wǎng)絡(luò)獲得高層語義特征以獲得具有通用性的顯著性圖。Wu 等人提出CPD(cascaded partial decoder)算法[31],直接利用生成的顯著性圖細(xì)化骨干網(wǎng)的特征來提高高層特征的表示能力;另外,利用多尺度特征進(jìn)一步細(xì)化顯著性圖并糾正映射錯誤。Liu等人提出的PoolNet算法[32]充分利用卷積神經(jīng)網(wǎng)絡(luò)的池操作,將金字塔池塊放在U 型結(jié)構(gòu)的最頂層來獲取豐富的語義信息。以上三種基于語義增強(qiáng)的顯著性目標(biāo)檢測方法的顯著圖如圖4(c)~(e)所示。這類方法可以準(zhǔn)確定位顯著性目標(biāo)的位置,但是由于僅針對高層特征所包含的語義進(jìn)行增強(qiáng),有時會造成顯著性目標(biāo)邊界模糊或者多個顯著性目標(biāo)重合。
Fig.4 Saliency maps of methods based on semantic enhancement圖4 基于語義增強(qiáng)方法的顯著圖
為了獲得有效的顯著性目標(biāo),一些研究通過引入注意力機(jī)制進(jìn)一步增強(qiáng)語義信息。Liu 等人提出的PiCANet(pixel-wise contextual attention network)算法[33]首先為每個像素生成注意力圖,然后有選擇地整合上下文信息來構(gòu)建有效特征,最后與U-Net 架構(gòu)結(jié)合生成顯著性圖。Chen 等人提出的RAS(reverse attention salient)算法[34]根據(jù)逆向注意提出了一個自上而下的邊訓(xùn)練邊輸出的剩余學(xué)習(xí)方式,實(shí)現(xiàn)對最深層語義信息的增強(qiáng)?;谧⒁饬C(jī)制的語義增強(qiáng)顯著性目標(biāo)檢測算法的顯著圖如圖5(c)、(d)。引入注意力機(jī)制來有效提取語義信息,準(zhǔn)確定位顯著性目標(biāo)的位置。
Fig.5 Saliency maps of methods based on semantic enhancement with attention mechanism圖5 基于注意力機(jī)制的語義增強(qiáng)方法的顯著圖
1.1.3 基于邊界/語義增強(qiáng)的顯著性目標(biāo)檢測方法
通過前面兩類方法的分析可以看出,只進(jìn)行邊界增強(qiáng)容易造成顯著性目標(biāo)模糊,而只進(jìn)行語義增強(qiáng)則會引起顯著性目標(biāo)的邊界模糊。因此,為了克服二者的缺點(diǎn),一些研究對邊界和語義同時進(jìn)行增強(qiáng),同時獲得良好的顯著性目標(biāo)信息以及輪廓信息,從而提升顯著性目標(biāo)檢測性能。
Zhang 等人提出的Amulet 算法[24]將多層特征映射集到多個分辨率,獲得同時包含語義信息和邊緣細(xì)節(jié)的顯著性圖。Zhang 等人提出的BDMPM(bidirectional message passing model)算法[35]設(shè)計(jì)了一種門函數(shù)來控制消息的傳遞速率和雙向傳遞。雙向的消息傳遞結(jié)構(gòu)可以同時對語義信息和空間細(xì)節(jié)進(jìn)行編碼實(shí)現(xiàn)顯著性目標(biāo)檢測。以上兩種基于邊界/語義增強(qiáng)的顯著性目標(biāo)檢測算法的顯著圖如圖6(c)、(d)。這些方法既可以準(zhǔn)確定位顯著性目標(biāo)的位置,又可以獲得清晰的顯著性目標(biāo)邊界。主要是因?yàn)橥ㄟ^語義增強(qiáng)可以減小無效目標(biāo)的干擾,更好地定位顯著性目標(biāo)的位置;通過邊界增強(qiáng)可以獲得清晰的顯著性目標(biāo)邊界。
Fig.6 Saliency maps of methods based on boundaries/semantic enhancement圖6 基于邊界/語義增強(qiáng)方法的顯著圖
另外,還有一些研究采用金字塔結(jié)構(gòu)同時對高低層特征進(jìn)行處理,實(shí)現(xiàn)顯著性目標(biāo)邊界和語義的同時增強(qiáng)。Wang 等人提出的SRM(stagewise refinement model)算法[36]首先利用深度前饋網(wǎng)絡(luò)生成一個粗略的預(yù)測圖,然后將一個金字塔結(jié)構(gòu)應(yīng)用于不同區(qū)域得到更加精確的顯著性圖。Wang 等人提出的PAGE(pyramid attention edge)算法[37]設(shè)計(jì)了顯著性目標(biāo)檢測的基本金字塔注意結(jié)構(gòu),能夠挖掘多尺度的深層顯著性信息,同時利用一個邊緣檢測模塊完成邊界提取。Zhao 等人提出的PFA(pyramid feature attention)法[38]將多層卷積特征分成高層特征和低層特征,首先對高層特征設(shè)計(jì)了一個上下文信息金字塔模塊(context-aware pyramid feature extraction,CPFE)來提取豐富的上下文語義信息,然后采用信道注意模塊(channel-wise attention,CA)來進(jìn)一步增強(qiáng)語義信息,從而更好地定位顯著性目標(biāo)區(qū)域;對于低層特征采用空間注意模塊(spacial attention,SA)來細(xì)化空間信息,更好地定位顯著性目標(biāo)的邊界;最后,將SA和CA 的輸出進(jìn)行有效融合來獲得更好的顯著性圖?;诮鹱炙倪吔?語義增強(qiáng)的顯著性目標(biāo)檢測算法的顯著圖如圖7(c)~(e)所示,可以看出PFA 算法性能優(yōu)于PAGE 算法和SRM 算法。
研究發(fā)現(xiàn)全局信息(顏色、紋理、背景/前景等)包含顯著性目標(biāo)的位置信息,而局部信息可以增強(qiáng)顯著性目標(biāo)邊界。一些檢測方法采用遞歸操作、多分辨率操作和注意力機(jī)制等將全局/局部相結(jié)合以獲得更好的顯著性目標(biāo)檢測性能。
Fig.7 Saliency maps of methods based on boundaries/semantic enhancement with feature pyramid圖7 基于特征金字塔的邊界/語義增強(qiáng)方法的顯著圖
遞歸操作是指全局和局部操作交替進(jìn)行。Liu等人提出的DHSNet(deep hierarchical saliency network)[39]算法首先利用全局對比度、對象性和緊湊性等全局信息得到一個顯著性圖,然后采用層次遞歸卷積神經(jīng)網(wǎng)絡(luò)(hierarchical recurrent convolutional neural network,HRCNN)利用局部上下文信息對顯著性圖進(jìn)一步增強(qiáng)。Wang 等人提出的GRL 算法[40]采用遞歸方式利用加權(quán)響應(yīng)圖提取上下文信息定位顯著性目標(biāo),然后對局部邊界進(jìn)行細(xì)化以獲得更加清晰的邊界。雖然遞歸方式取得了一定的效果,但是研究發(fā)現(xiàn)遞歸操作非常耗時耗力。另一種全局/局部相結(jié)合的顯著性目標(biāo)檢測方法是采用多分辨率特征來提升顯著性目標(biāo)檢測效果。Luo 等人提出的NLDF(non-local deep features)[41]算法利用卷積塊和反卷積設(shè)計(jì)了一種簡單的4×5 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過每一列提取并強(qiáng)化特定分辨率的局部特征,最后將局部和全局信息結(jié)合起來輸出。另外,還有一些研究在遞歸和多分辨率操作的基礎(chǔ)上添加了注意力機(jī)制,對提取的全局/局部信息進(jìn)一步強(qiáng)化,提升顯著性目標(biāo)檢測性能,如Zhang 等人提出的漸進(jìn)注意引導(dǎo)遞歸網(wǎng)絡(luò)PAGR(progressive attention guided recurrent)[42]?;谌?局部結(jié)合的顯著性目標(biāo)檢測方法的顯著圖如圖8(c)~(f)所示。在相同的VGG(visual geometry group)模型下,與DHS 算法相比,NLDF 和PAGR 算法能夠獲得更加清晰的顯著性圖,由于PAGR 算法引入了注意力機(jī)制,其性能最優(yōu)。
Fig.8 Saliency maps of methods based on global/local combination圖8 基于全局/局部結(jié)合方法的顯著圖
基于輔助網(wǎng)絡(luò)的顯著性目標(biāo)檢測是指采用其他領(lǐng)域已有模型作為輔助網(wǎng)絡(luò)來提升顯著性目標(biāo)檢測性能。Li 等人提出的MDF(multiscale deep features)算法[43]使用預(yù)先訓(xùn)練的圖像分類模型來產(chǎn)生分級的顯著性圖;Li 等人提出的C2S-Net(contour to contour salient network)算法[44]將深度輪廓檢測模型自動轉(zhuǎn)換為顯著性目標(biāo)檢測模型;Zhang 等人提出的CapSal 算法[45]將字幕網(wǎng)絡(luò)(image captioning network,ICN)作為輔助語義任務(wù)來提高復(fù)雜場景中的顯著目標(biāo)檢測性能;Wu 等人提出的MLSLNet(mutual learning supervised learning network)算法[46]以一種交互方式讓顯著性目標(biāo)檢測和前景輪廓檢測交替進(jìn)行來得到顯著性圖。圖9 給出了基于輔助網(wǎng)絡(luò)的顯著性目標(biāo)檢測算法的顯著圖。
Fig.9 Saliency maps of methods based on auxiliary network圖9 基于輔助網(wǎng)絡(luò)方法的顯著圖
表1 列出了以上三種類型顯著性目標(biāo)檢測方法的機(jī)制、優(yōu)點(diǎn)、缺點(diǎn)和適用場景。
通過以上分析及表1 可以看出,現(xiàn)有基于深度學(xué)習(xí)的顯著性目標(biāo)檢測方法邊界模糊的原因和相應(yīng)的解決方法可以歸納為以下幾類:(1)深度模型包含許多下采樣操作,上采樣后的特征難以恢復(fù)原有的空間信息,融合后引起邊界模糊。因此,為了減小下采樣操作引起的多尺度融合損失,引入一些特定操作,如PoolNet 算法中采用功能聚合模塊等。(2)針對不同因素對邊界檢測的影響,通過編碼低層特征距離來檢測邊界信息,定位顯著性目標(biāo)輪廓,如ELD 算法和KSR 算法;或者是設(shè)計(jì)新的損失函數(shù),通過反向傳播調(diào)整模型參數(shù),如AFNet算法和BASNet算法。(3)基礎(chǔ)模型簡易導(dǎo)致檢測的邊界模糊,可以通過多尺度操作增強(qiáng)原有的特征效果,如DSS 算法、SRM 算法和PAGE 算法等,或添加注意力機(jī)制來提取更有效的低層特征,如PFA 算法等。
Table 1 Analysis and comparison of different types of salient object detection methods表1 不同類型顯著性目標(biāo)檢測方法分析比較
另外,通過研究分析發(fā)現(xiàn),基于深度學(xué)習(xí)的顯著性目標(biāo)檢測方法中常常引入注意力機(jī)制,大致可以分為三種:(1)時空域注意力,比較適合同時具有時序及空域特征的場景,通過遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)設(shè)計(jì)注意力機(jī)制,如PAGR 算法;(2)軟注意力,是一種確定性的注意力,可以直接通過網(wǎng)絡(luò)生成,它也是可微的,可以通過神經(jīng)網(wǎng)絡(luò)算出梯度,并且通過前向傳播和后向反饋來學(xué)習(xí)得到注意力的權(quán)重,如PFA 算法和RAS 算法;(3)硬注意力,從輸入信息中選擇重要的特征,如PiCANet 算法每個像素生成注意力圖,這種方式更高效和直接。
介紹基于深度學(xué)習(xí)的顯著性目標(biāo)檢測常用數(shù)據(jù)集以及評估準(zhǔn)則。
為了滿足不同的顯著性目標(biāo)檢測研究需求,多個顯著性目標(biāo)檢測數(shù)據(jù)集被提出,如MSRA數(shù)據(jù)集[47]、ASD 數(shù)據(jù)集[48]、SOD 數(shù)據(jù)集[49]、MSRA10K 數(shù)據(jù)集[10]、PASCAL-S 數(shù)據(jù)集[50]、DUTS 數(shù)據(jù)集[51]、SED 數(shù)據(jù)集[52]、ECSSD 數(shù)據(jù)集[53]、DUTO-OMRON 數(shù)據(jù)集[11]和HKU-IS數(shù)據(jù)集[43]。下面對基于深度學(xué)習(xí)的顯著性目標(biāo)檢測中常用的MSRA10K 數(shù)據(jù)集、HKU-IS 數(shù)據(jù)集、DUTS數(shù)據(jù)集、SOD 數(shù)據(jù)集、ECSSD 數(shù)據(jù)集、DUTO-OMRON數(shù)據(jù)集和PASCAL-S 數(shù)據(jù)集分別進(jìn)行介紹。
MSRA10K 數(shù)據(jù)集:也稱為THUS10K,2007 年由西安交通大學(xué)與微軟亞洲研究院的Liu 等人提出,只提供了邊界框級別的顯著性真值標(biāo)定,具有大規(guī)模和精確的注釋,常用來訓(xùn)練顯著性目標(biāo)檢測模型。
HKU-IS 數(shù)據(jù)集:包含4 447 個圖像,由香港大學(xué)的Li 等人在2015 年建立,該數(shù)據(jù)集中的圖像包含多個斷開連接的顯著性目標(biāo),多目標(biāo)的邊界重合和色彩對比度較低。
DUTS 數(shù)據(jù)集:具有10 553 個訓(xùn)練圖像和5 019個測試圖像。所有訓(xùn)練圖像來自ImageNet DET[54]訓(xùn)練集,而測試圖像來自ImageNet DET 測試集和SUN[55]數(shù)據(jù)集。訓(xùn)練和測試集都包含非常重要的場景,用于顯著性目標(biāo)檢測。
SOD 數(shù)據(jù)集:包含300 張圖像,來自于伯克利分割數(shù)據(jù)集,每張圖像具有像素級注釋。大部分圖像包含多個顯著性目標(biāo),并且目標(biāo)與背景的顏色對比度較低。
ECSSD 數(shù)據(jù)集:包含1 000 張圖像,2013 年由香港中文大學(xué)的Yan 等人構(gòu)建。ECSSD 數(shù)據(jù)集中的圖像具有復(fù)雜的結(jié)構(gòu)和背景。
DUTO-OMRON 數(shù)據(jù)集:包含5 168 個高質(zhì)量圖像,2013 年由大連理工大學(xué)的Yang 等人建立。該數(shù)據(jù)集中的圖像具有多個顯著性目標(biāo),背景相對復(fù)雜。
PASCAL-S 數(shù)據(jù)集:2014 年由喬治亞理工學(xué)院的Li 等人建立,包括8 個類別。采用不同的顯著性標(biāo)記對來自PASCAL VOC[56]的850 張圖像修復(fù)后構(gòu)成。PASCAL-S 數(shù)據(jù)集用于評估具有復(fù)雜背景、多個目標(biāo)場景的模型性能。
本節(jié)介紹基于深度學(xué)習(xí)的顯著性目標(biāo)檢測中常用的評價準(zhǔn)則。
F-度量(Fβ)[48]。對精度和召回率進(jìn)行總體評估,通過加權(quán)計(jì)算可以得到Fβ,其計(jì)算公式為:
一般β2=0.3,F(xiàn)β值越大表明模型性能越好。
加權(quán)F-度量加權(quán)F-度量是F-度量的推廣,通過交替計(jì)算精度和召回率得到。加權(quán)F-度量為了解決鄰域信息的不同,為不同位置的不同誤差分配了不同的權(quán)重,其計(jì)算公式如下:
P-R 曲線。以Precision和Recall作為縱-橫軸坐標(biāo)的二維曲線,即查準(zhǔn)率-查全率曲線,選取不同閾值時對應(yīng)的精度和召回率繪制。P-R 曲線圍起來的面積是AP(average precision)值,AP值越高,模型性能越好。
平均絕對誤差(MAE)[58]。MAE計(jì)算公式如下:
其中,W和H分別表示圖像的寬和高。P(x,y)表示顯著性概率結(jié)果,Y(x,y)表示真值。MAE值越小表示模型越好。
本節(jié)對三種類型基于深度學(xué)習(xí)的顯著性目標(biāo)檢測的不同算法分別進(jìn)行了定量比較,在數(shù)據(jù)集ECSSD、DUT-OMRON、HKU-IS 和DUTS-TE 上進(jìn)行了實(shí)驗(yàn),采用F-度量(Fβ)和平均絕對誤差(MAE)作為評估準(zhǔn)則,結(jié)果見表2、表3 和表4。
從以上3 個表格可以看出:(1)基于VGG16 結(jié)構(gòu),各模型性能由高到低依次為AFNet、MLSLNet、PFA 和PAGE,其中AFNet 和MLSLNet 側(cè)重于邊界信息,而PFA 和PAGE 側(cè)重于多尺度信息。由于PFA 利用了低層特征的空間信息使得其性能優(yōu)于PAGE,而AFNet著重對顯著性目標(biāo)的邊界(特別是凸起的窄條紋)進(jìn)行提取和增強(qiáng),其性能在四種方法中達(dá)到了最優(yōu)。(2)基于ResNet 結(jié)構(gòu),各模型性能由高到低依次為PoolNet、CPD 和BASNet。PoolNet 取得最佳性能主要得益于其在池化操作方面做出的改進(jìn),以及采用功能聚合模塊實(shí)現(xiàn)不同尺度特征的無縫融合。
Table 2 Quantitative comparison of methods based on boundaries/semantic enhancement表2 基于邊界/語義增強(qiáng)方法的定量比較
Table 3 Quantitative comparison of methods based on global/local combination表3 基于全局/局部結(jié)合方法的定量比較
Table 4 Quantitative comparison of methods based on auxiliary networks表4 基于輔助網(wǎng)絡(luò)方法的定量比較
綜上所述,PoolNet 模型取得了優(yōu)于其他模型的顯著性目標(biāo)檢測性能。另外,也反映了基于ResNet結(jié)構(gòu)的模型優(yōu)于基于VGG16 結(jié)構(gòu)的模型。但是,由于VGG結(jié)構(gòu)相對簡單,仍然具有一定的研究及應(yīng)用價值。
圖10 到圖14 給出了基于深度學(xué)習(xí)的顯著性目標(biāo)檢測算法在5 個數(shù)據(jù)集DUT-OMRON、DUTS、ECSSD、HKU-IS 和PASCAL-S 上的P-R 曲線。
Fig.10 P-R curves on DUT-OMRON dataset圖10 DUT-OMRON 數(shù)據(jù)集上的P-R 曲線
Fig.11 P-R curves on DUTS dataset圖11 DUTS 數(shù)據(jù)集上的P-R 曲線
可以看出PoolNet 算法在5 個數(shù)據(jù)集上均取得了最佳性能,主要?dú)w因于其在池化方面做出的改進(jìn)及采用特征聚合模塊實(shí)現(xiàn)多尺度特征的無縫融合。
Fig.13 P-R curves on HKU-IS dataset圖13 HKU-IS 數(shù)據(jù)集上的P-R 曲線
Fig.14 P-R curves on PASCAL-S dataset圖14 PASCAL-S 數(shù)據(jù)集上的P-R 曲線
Fig.15 Visual comparison of different methods圖15 不同方法的視覺比較
圖15 給出了基于深度學(xué)習(xí)的不同顯著性目標(biāo)檢測算法的視覺比較,從中可以看出:(1)基于邊界/語義增強(qiáng)的顯著性目標(biāo)檢測算法中,性能由高到低的算法依次為PoolNet、CPD 和BASNet。其中,BASNet算法專注于邊界信息,能夠檢測出清晰的顯著性目標(biāo)邊界,在簡單的ECSSD 數(shù)據(jù)集和PASCAL-S 數(shù)據(jù)集中表現(xiàn)良好。但是,在相對復(fù)雜的DUT-OMRON等數(shù)據(jù)集中表現(xiàn)較差,這是因?yàn)槿狈ωS富的高層語義信息。CPD 算法專注于提取高層特征包含的語義信息,因此在DUT-OMRON 等數(shù)據(jù)集中的表現(xiàn)優(yōu)于BASNet算法。PoolNet算法性能最佳,是因?yàn)樵O(shè)計(jì)了池化金字塔從高層特征中提取了豐富的語義信息,同時設(shè)計(jì)了功能聚合模塊實(shí)現(xiàn)了多尺度特征的無縫融合。(2)基于全局/局部結(jié)合的顯著性目標(biāo)檢測的算法中,PAGR 算法取得了最佳性能,它在遞歸和多分辨率操作的基礎(chǔ)上添加了注意力機(jī)制,使產(chǎn)生的特征更加有效。(3)在基于輔助網(wǎng)絡(luò)的顯著性目標(biāo)檢測算法中,MLSLNet 性能較好,其遷移的前景輪廓檢測是有效的。(4)本文所提顯著性目標(biāo)檢測的算法中,PoolNet 算法取得了最好的性能,得益于算法中的池化金字塔和功能聚合模塊,獲取了豐富的語義信息,同時實(shí)現(xiàn)了多尺度特征的無縫融合。
近年,基于深度學(xué)習(xí)的顯著性目標(biāo)檢測方法從不同方面進(jìn)行了探索,如特征金字塔、池操作、注意力機(jī)制等,并取得了不錯的性能。但是,現(xiàn)有方法也仍存在如下不足:
(1)現(xiàn)有顯著性目標(biāo)檢測算法主要針對背景簡單的圖像,而實(shí)際圖像一般均具有復(fù)雜背景,因此現(xiàn)有方法對復(fù)雜背景下的顯著性目標(biāo)檢測還有很大的局限。
(2)對于實(shí)際應(yīng)用場景,一般要求顯著性目標(biāo)檢測具有很好的實(shí)時性,但是現(xiàn)有方法主要是針對靜止圖像或者是計(jì)算復(fù)雜度比較大,導(dǎo)致實(shí)時性差。
(3)現(xiàn)有顯著性目標(biāo)檢測算法對大目標(biāo)的檢測效果較好,但是對實(shí)際應(yīng)用中的小目標(biāo)檢測性能較差,不能滿足實(shí)際應(yīng)用的需求。
(4)現(xiàn)有顯著性目標(biāo)檢測方法多采用矩形框定位顯著性目標(biāo)的位置,簡單方便,但是由于顯著性目標(biāo)的大小形狀各異,僅采用矩形框定位具有很大的局限性。
(5)現(xiàn)有顯著性目標(biāo)檢測方法一般采用完全監(jiān)督學(xué)習(xí)的方式訓(xùn)練模型,計(jì)算量和所需時間代價巨大,不滿足實(shí)際應(yīng)用環(huán)境和需求。
因此,為了克服現(xiàn)有方法的不足,未來基于深度學(xué)習(xí)的顯著性目標(biāo)檢測可以從以下五方面展開研究:
(1)針對復(fù)雜背景下顯著性目標(biāo)檢測性能較差的情況,設(shè)計(jì)適應(yīng)復(fù)雜背景(對背景敏感或者前景背景對比度低等)的顯著性目標(biāo)檢測模型,另外建立包含復(fù)雜背景的圖像數(shù)據(jù)集,為新模型的訓(xùn)練與評估做好準(zhǔn)備。
(2)為了滿足實(shí)際應(yīng)用中對實(shí)時性的需求,設(shè)計(jì)低復(fù)雜度、輕量級的顯著性目標(biāo)檢測模型是顯著性目標(biāo)檢測的一個研究熱點(diǎn)。目前主要有三種方式:第一是直接在網(wǎng)絡(luò)設(shè)計(jì)中對網(wǎng)絡(luò)輕量級化,如輕量化網(wǎng)絡(luò)模型SqueezeNet 在模型設(shè)計(jì)時規(guī)定了三種特有的設(shè)計(jì)原則,同時將不同的卷積封裝成卷積網(wǎng)絡(luò)模塊;第二是采用深度可分離卷積,對卷積進(jìn)行分離操作,然后在卷積層對神經(jīng)網(wǎng)絡(luò)進(jìn)行歸約,如MobileNet網(wǎng)絡(luò)可以應(yīng)用于移動端;第三是對網(wǎng)絡(luò)直接進(jìn)行壓縮與編碼,對網(wǎng)絡(luò)進(jìn)行剪裁,然后進(jìn)行權(quán)值量化共享,最后采用霍夫曼編碼降低存儲。
(3)在某些實(shí)際特定場景中目標(biāo)很小,如何對小目標(biāo)進(jìn)行有效檢測以滿足實(shí)際應(yīng)用的需求,成為了當(dāng)前急需解決的一個問題。因此,特定場景下小目標(biāo)檢測也是未來顯著性目標(biāo)檢測的一個研究方向,可以使用分辨率更高的卷積特征圖以及殘差模塊來增強(qiáng)對小目標(biāo)的檢測能力。
(4)針對顯著性目標(biāo)檢測方法采用矩形框定位顯著性目標(biāo)的局限性,可以采用不同的措施進(jìn)行不同尺度目標(biāo)定位。由于不同位置可能對應(yīng)著不同尺度或變形的物體,采用能夠?qū)Τ叨然蛘吒惺芤按笮∵M(jìn)行自適應(yīng)的可變形卷積來實(shí)現(xiàn)精確定位。另外,可以采用多點(diǎn)定位法完成顯著性目標(biāo)的位置定位。多點(diǎn)定位是指在顯著性目標(biāo)周圍選取幾個關(guān)鍵點(diǎn),比如右上、左下、中心點(diǎn)和偏移量的測量。多點(diǎn)定位可以靈活地對顯著性目標(biāo)的輪廓完成定位,省時省力,不用像矩形框那樣,提前設(shè)計(jì)并預(yù)留多個矩形框的存儲。
(5)由于人為獲取標(biāo)簽費(fèi)時費(fèi)力,且不符合一些場景的實(shí)際情況,因此為了克服這些缺陷,采用無監(jiān)督或弱監(jiān)督學(xué)習(xí)進(jìn)行顯著性目標(biāo)檢測模型的研究和設(shè)計(jì)將是未來的必然發(fā)展方向。
本文對基于深度學(xué)習(xí)的顯著性目標(biāo)檢測方法進(jìn)行了綜述,通過對國內(nèi)外研究現(xiàn)狀的分析可知,基于深度學(xué)習(xí)的顯著性目標(biāo)檢測算法得到了廣泛研究,各種不同的方法被提出,但是檢測性能還需要進(jìn)一步提升,如檢測精度、速度、復(fù)雜背景、小目標(biāo)、弱監(jiān)督等。因此,能夠準(zhǔn)確、實(shí)時地對復(fù)雜背景下的小目標(biāo)進(jìn)行弱監(jiān)督顯著性檢測是未來基于深度學(xué)習(xí)的顯著性目標(biāo)檢測不斷追求的目標(biāo)。