溫 靜,宋建偉
(山西大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,太原 030006)
視覺顯著性源于認(rèn)知學(xué)中的視覺注意模型,旨在模擬人類視覺系統(tǒng)自動(dòng)檢測(cè)出圖片中最與眾不同和吸引人眼球的目標(biāo)區(qū)域。顯著性檢測(cè)在很多視覺任務(wù)(例如目標(biāo)跟蹤[1]、圖像語(yǔ)義分割[2]、行人重識(shí)別[3]以及基于內(nèi)容感知的圖像編輯[4]等)的預(yù)處理階段起著至關(guān)重要的作用。
早期的顯著性檢測(cè)方法[5-6]主要采用一些計(jì)算模型和基于手工特征的傳統(tǒng)方法來預(yù)測(cè)顯著性區(qū)域。隨著深度學(xué)習(xí)的興起,較早階段采用的深度方法都是利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)提取特征的能力來預(yù)測(cè)像素點(diǎn)是否為顯著性區(qū)域。例如:Wang 等[7]提出一種將局部估計(jì)和全局搜索相結(jié)合的顯著性檢測(cè)算法;Li 等[8]提出了一種利用每個(gè)超像素的上下文CNN 特征來預(yù)測(cè)像素的顯著性值的顯著性檢測(cè)算法。雖然上述方法可以完成顯著性檢測(cè)任務(wù),但是CNN 結(jié)構(gòu)中的完全連接層會(huì)大幅地增加檢測(cè)的時(shí)間,降低計(jì)算效率,并且影響空間位置信息的捕獲。
針對(duì)這個(gè)問題,近幾年提出了基于全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional neural Network,F(xiàn)CN)[1]來逐像素點(diǎn)地預(yù)測(cè)顯著性值。Lee等[9]提出將低層空間特征嵌入特征圖中,然后將其與CNN 特征組合以預(yù)測(cè)顯著性圖;Liu 等[10]提出了一個(gè)兩階段的網(wǎng)絡(luò),該網(wǎng)絡(luò)首先產(chǎn)生粗略的顯著性圖,然后整合局部上下文信息對(duì)于顯著性細(xì)節(jié)分層優(yōu)化,完善最終結(jié)果;Wang等[11]使用低級(jí)線索生成顯著性圖,并利用它以循環(huán)方式定位顯著性區(qū)域,從而完成顯著性預(yù)測(cè)任務(wù)。
但是這些工作主要利用了FCN 里單獨(dú)特定層的特征信息,沒有充分地考慮各級(jí)特征之間的信息互補(bǔ)作用。由于缺乏底層空間細(xì)節(jié),使得顯著性圖無法保留比較精細(xì)的對(duì)象邊界。Luo 等[12]針對(duì)以上的問題,改進(jìn)U 型結(jié)構(gòu)的同時(shí),又利用了多層次的上下文信息來準(zhǔn)確檢測(cè)出顯著物體;Zhang 等[13]使用雙向結(jié)構(gòu)在CNN 提取的多級(jí)特征之間傳遞消息,以更好地預(yù)測(cè)顯著性圖。
但上述的這些方法依然無法準(zhǔn)確地檢測(cè)具有各種比例大小、形狀和位置各異的顯著性對(duì)象。而造成這些問題的原因主要有以下兩點(diǎn):
1)以前大多數(shù)的基于FCN 的顯著性檢測(cè)模型依次堆疊單尺度卷積層和最大池化層以生成深度特征。由于感受野有限,因此通過這種網(wǎng)絡(luò)學(xué)習(xí)到的特征可能不包含豐富的多尺度全局信息。
2)在自上而下的網(wǎng)絡(luò)傳遞中獲得的豐富高級(jí)語(yǔ)義信息在反卷積的過程中,又被逐漸傳送到較淺的層,因此,較深層捕獲的信息在傳遞的同時(shí)逐漸被稀釋。
因此,解決上述問題的方法轉(zhuǎn)化為如何全局化多尺度地提取較高級(jí)語(yǔ)義信息,并且更有效地將全局高級(jí)語(yǔ)義信息和底層細(xì)節(jié)特征協(xié)同利用的研究?;诖?,本文算法在多級(jí)特征分層處理的同時(shí),充分地考慮高層特征空間的全局信息,通過引入多尺度全局池化特征聚合模塊(Multi-scale Global Feature Aggregation Module,MGFAM)集成網(wǎng)絡(luò)高級(jí)特征空間的不同尺度信息,全局化地提取到高層次特征圖層帶來的豐富語(yǔ)義信息。除此之外,為了將具有全局性的高級(jí)語(yǔ)義信息和底層細(xì)節(jié)特征有效協(xié)同利用,在本文中進(jìn)一步將MGFAM提取到的特征信息進(jìn)行特征融合操作,并且將融合的信息分別傳遞至較淺的層次;然后,將較淺層次中包含的底層空間細(xì)節(jié)信息和通過MGFAM 產(chǎn)生的全局高級(jí)語(yǔ)義信息進(jìn)行融合,這樣可以有效地解決自上而下傳遞過程中的信息被稀釋,以及缺乏全局信息等問題。這些設(shè)計(jì)使得整體網(wǎng)絡(luò)輸出的特征信息包含全局高級(jí)語(yǔ)義概念和底層空間細(xì)節(jié)。
在本章中,1.1 節(jié)具體描述了本文提出的模型整體結(jié)構(gòu);接著,在1.2 節(jié)中介紹了多尺度全局特征聚合模塊;最后,針對(duì)于不同級(jí)別的特征圖層,進(jìn)一步設(shè)計(jì)了一種有效的特征融合方式以及多層次傳遞組合方式,這會(huì)在1.3 節(jié)中較為詳細(xì)地闡述。
在本文中,基于FCN 來構(gòu)建模型的體系結(jié)構(gòu),并以VGG-16 Net 作為預(yù)訓(xùn)練模型。總體構(gòu)架如圖1 所示。本文模型使用的VGG-16 是以視覺顯著性檢測(cè)任務(wù)為驅(qū)動(dòng),從而做出修改的基干網(wǎng)絡(luò)。首先將VGG-16 網(wǎng)絡(luò)中的全連接層去掉,用于逐像素點(diǎn)預(yù)測(cè);然后,將VGG-16 中最后的最大池化層去掉,從而使得最終輸出的信息保留更多細(xì)節(jié)。
在基本骨架VGG-16 信息傳遞的同時(shí),對(duì)每層輸出的特征圖分別進(jìn)行分層處理。為了增大感受野,學(xué)習(xí)更為豐富的上下文信息,在VGG-16的5個(gè)層次的輸出后都分別添加空洞卷積模塊;除此之外,為了多級(jí)上下文特征信息得到充分利用,隨后添加了門控雙向消息傳遞模塊。在此模塊中,高層級(jí)中的語(yǔ)義信息和低層級(jí)中的空間細(xì)節(jié)雙向傳遞,較深的層級(jí)將語(yǔ)義信息逐步傳遞至低級(jí)更好地實(shí)現(xiàn)顯著區(qū)域定位,而較淺的層將更多的空間細(xì)節(jié)傳遞給較深層次。因此,通過這種不同于骨干網(wǎng)絡(luò)的多層級(jí)信息相互傳遞配合以產(chǎn)生更準(zhǔn)確的結(jié)果,最終經(jīng)過融合得到輸入圖像初步的顯著性預(yù)測(cè)結(jié)果。
為了關(guān)注更多全局性的高級(jí)語(yǔ)義信息,本文引入了多尺度全局特征聚合模塊。此外,本文模型選擇合適的層級(jí)插入MGFAM,提取到不同層級(jí)的全局高級(jí)語(yǔ)義信息進(jìn)行特征融合操作。為了包含更多的底層細(xì)節(jié)信息,本文模型還將提取出的有判別性的特征信息有指向性地進(jìn)行特征傳遞操作。最后,將來自MGFAM 的指導(dǎo)信息和較低層次的初步預(yù)測(cè)結(jié)果進(jìn)行融合得到最終的預(yù)測(cè)結(jié)果。
在圖1 中展示了模型所有的功能模塊。模型以256×256圖像大小作為輸入,先使用VGG-16 分層提取多級(jí)特征(第一行),利用MCFEM(Multi-scale Context-aware Feature Extraction Module)捕獲不同級(jí)別的上下文信息,然后經(jīng)由門控雙向消息傳遞模塊(Gated Bi-directional Message Passing Module,GBMPM)后獲得初步的預(yù)測(cè)結(jié)果。在Conv4-3和Conv5-3后面添加了MGFAM,降維后進(jìn)行特征融合操作。最終多層次多尺度信息融合,利用集成特征Prev1進(jìn)行顯著性預(yù)測(cè)。
圖1 本文提出的模型的總體框架Fig.1 Overall framework of the proposed model
在文獻(xiàn)[14-15]中都表明,F(xiàn)CN 的感受野比理論上要小很多,尤其是對(duì)于比較深的層次,感受野無法全局地捕獲或提取整張輸入特征圖像的全局信息。因此,檢測(cè)結(jié)果總是僅發(fā)現(xiàn)了顯著對(duì)象的局部信息,有嚴(yán)重的信息丟失現(xiàn)象。
目前,金字塔池化已經(jīng)成功應(yīng)用于圖像分割[14]等領(lǐng)域,并且針對(duì)以上問題獲得了不錯(cuò)的解決效果。金字塔池化通過融合不同感受野大小的子區(qū)域的信息,可以提取出更豐富的全局特征。為此,根據(jù)顯著性檢測(cè)的任務(wù)特點(diǎn),對(duì)其進(jìn)行了調(diào)整和改進(jìn),引入了多尺度全局特征聚合模塊來解決這類問題。
圖2 顯示了MGFAM 的具體結(jié)構(gòu)。本文模型在構(gòu)建時(shí)摒棄了模塊傳統(tǒng)的嵌入方式,分別在Conv4層和Conv5層后添加MGFAM,雙分支并行提取出不同層級(jí)的全局信息。在尺度方面,根據(jù)顯著性檢測(cè)任務(wù)特點(diǎn),本研究構(gòu)建了4 種尺度的平均池化操作,將特征圖分別平均池化至1×1、2×2、4×4、8×8 的尺寸大小。圖中尺度最小的為最粗略的層級(jí),是使用全局池化生成的單個(gè)bin 輸出。剩下的3 個(gè)層級(jí)將輸入特征圖劃分成若干個(gè)不同的子區(qū)域,并對(duì)每個(gè)子區(qū)域進(jìn)行池化。為了保持全局特征的權(quán)重,4 個(gè)尺度池化后的特征圖分別都降維至1/4。
圖2 MGFAM的詳細(xì)圖示Fig.2 Schematic diagram of MGFAM
為了更好地表示第n個(gè)級(jí)別尺度的全局平均池化操作以及降維操作,其統(tǒng)一表示如(1)所示:
Sn表示經(jīng)過不同級(jí)別全局平均池化再降維后的特征圖結(jié)果。接著將Sn分別上采樣至與輸入特征圖相同的尺寸。不同尺度特征圖從低分辨率上采樣至高分辨率的過程由以下方式執(zhí)行:
其中:n表示尺度等級(jí),n∈{1,2,3,4};x代表輸入的特征圖;k代表每一尺度等級(jí)池化后的分辨率大?。籆onv(*;θ)是參數(shù)θ={W,b}的卷積層;Up(·)是上采樣操作,旨在將特征圖分尺度上采樣;φ(·)是ReLU(Rectified Linear Unit)激活函數(shù)。
最后,將不同尺度等級(jí)池化后的最終結(jié)果Gn和輸入的特征圖x拼接為最終的全局特征。為了保持通道維數(shù)不變,降維至原來的1/2。特征合并及降維的過程表示如式(3)所示:
其中:Cat(·)是通道軸之間的串聯(lián)操作,Pi(i=4、5)為Conv4-3和Conv5-3 后輸出特征圖分別經(jīng)過MGFAM 處理后的最終結(jié)果。
特征聚合的過程就是融合目標(biāo)特征的過程,聚合過程中給予了原本的輸出特征圖較大的權(quán)重,用于提供VGG-16 網(wǎng)絡(luò)的原始層次信息。并且通過4 種尺度的池化,獲得了全局池化生成的單個(gè)bin 帶來的全局信息,以及其他3個(gè)尺度等級(jí)下的平均池化操作所提供的不同子區(qū)域之間的不同尺度信息。因此,特征聚合之后提供了本層級(jí)最為有效的全局上下文信息特征。
圖2 展示了多尺度全局特征聚合模塊的具體操作,每一層都分別池化至2n-1(n表示尺度等級(jí))4 種尺度大小。上采樣后,將4種尺度池化分支拼接聚合后輸出。
本文的基礎(chǔ)模型基于VGG-16 網(wǎng)絡(luò)構(gòu)建。然而,VGG-16整體的結(jié)構(gòu)是自上而下的單方向傳遞的,在特征提取的過程中特征圖逐漸減小。因此,在顯著性檢測(cè)任務(wù)中,經(jīng)過VGG-16 網(wǎng)絡(luò)的輸出需要通過上采樣操作將特征圖調(diào)整到和輸入圖像一樣的大小。這一操作就使得高級(jí)特征在傳輸?shù)捷^低層時(shí)將逐漸被稀釋。
為了解決這一問題,本文將通過MGFAM 提取出的全局上下文信息進(jìn)行特征融合操作,并且設(shè)計(jì)了一種有效的多層次傳遞方式。
1.3.1 基于MGFAM的深層次特征融合
在深層次特征融合方式地設(shè)計(jì)上,不再保留MGFAM 作為每層的固有部分,只在VGG-16 的Conv4 層和Conv5 層后分別添加該模塊。
Conv5層作為VGG-16骨干網(wǎng)絡(luò)的最后一個(gè)block,具有最強(qiáng)的語(yǔ)義信息。但是輸出的特征圖分辨率較低,無法獲取更多的細(xì)節(jié)信息,對(duì)于細(xì)節(jié)的感知能力比較差。因此,在Conv4層后也獨(dú)立加入了MGFAM。Conv4 層輸出的特征圖分辨率是Conv5層的4倍,相比最后一個(gè)block來說,具有更多的位置以及細(xì)節(jié)信息,并且在全局池化的過程中對(duì)于信息的損失相對(duì)較少。
接著將Conv4 層和Conv5 層分別經(jīng)過MGFAM 提取后的多尺度信息進(jìn)行特征融合操作,多層級(jí)全局信息進(jìn)行融合互補(bǔ)后,獲得更加具有判別力的特征。在后續(xù)2.2.2 節(jié)的模型簡(jiǎn)化實(shí)驗(yàn)中也詳細(xì)地闡述了這種特征融合方式的設(shè)計(jì)緣由以及有效性。
1.3.2 多層次特征傳遞
基于MGFAM 的深層次特征融合之后,為了保證其產(chǎn)生的指導(dǎo)信息可以與自上而下路徑中的不同級(jí)別的特征圖信息融合在一起。本文通過多層次特征傳遞的方式將指導(dǎo)信息傳遞到不同級(jí)別的特征圖層。在本文中,選擇將指導(dǎo)信息傳遞至前三層,充分地考慮到淺層特征更需要全局性的高級(jí)語(yǔ)義信息,本文算法采用的這種局部傳遞(Local propagation)方式減少了冗余信息。如圖3 所示,局部傳遞這種方法,比全局傳遞(Global propagation)方式(即,將指導(dǎo)信息自上而下傳遞到每個(gè)級(jí)別特征圖的方式)可以避免重復(fù)的全局高級(jí)語(yǔ)義特征堆積,減少冗余信息干擾。
圖3 多層次特征傳遞方式結(jié)果對(duì)比Fig.3 Result comparison of multi-level feature propagation schemes
例如圖3(d)既獲得了顯著性目標(biāo)蝴蝶,同時(shí)也避免了與蝴蝶目標(biāo)相連的黃色鮮花區(qū)域的干擾。最終傳遞的引導(dǎo)信息如式(4)所示:
其中F為Conv4-3 和Conv5-3 經(jīng)過MGFAM 提取信息后,特征融合后所得的信息。
在計(jì)算最終的顯著性預(yù)測(cè)結(jié)果的過程中,每層級(jí)的預(yù)測(cè)模塊Previ將特征圖hi和高層次預(yù)測(cè)信息Previ+1以及通過MGFAM 提取的多級(jí)全局信息的融合結(jié)果M作為輸入進(jìn)行融合。每層級(jí)預(yù)測(cè)模塊的融合過程如下:
其中Conv(*;θi)是卷積操作,用1×1的卷積核來進(jìn)行卷積降維處理。
模型的參數(shù)是通過最小化ground truth 和顯著性圖之間的交叉熵?fù)p失來優(yōu)化的。Prev1是模型的最終顯著性圖預(yù)測(cè)結(jié)果。網(wǎng)絡(luò)通過最小化softmax 的交叉熵?fù)p失函數(shù)來端到端訓(xùn)練提出的模型。式(6)給出了損失函數(shù)的定義:
其中:lx,y∈{0,1}是像素(x,y)的標(biāo)簽,Px,y是像素(x,y)屬于前景的概率。
實(shí)驗(yàn)設(shè)置 本文的模型是基于TensorFlow 框架而實(shí)現(xiàn)的。網(wǎng)絡(luò)的骨干參數(shù)使用在ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)練的VGG-16模型進(jìn)行初始化。對(duì)于除骨干網(wǎng)絡(luò)之外的卷積層,使用截?cái)喾ň€法初始化權(quán)重。在后面提到的模型簡(jiǎn)化測(cè)試中,默認(rèn)情況,使用ECSSD 數(shù)據(jù)集進(jìn)行測(cè)試對(duì)比。本文所有實(shí)驗(yàn)均使用Adam優(yōu)化器進(jìn)行,初始學(xué)習(xí)率為1E -6。
數(shù)據(jù)集 為了驗(yàn)證本文方法的有效性,本文在幾個(gè)主流的公共數(shù)據(jù)集上面評(píng)估算法性能。本文實(shí)驗(yàn)選擇使用數(shù)據(jù)集有:DUTS[16]、PASCAL-S[17]、ECSSD[18]、SOD[19]和HKU-IS[20]。DUTS是一個(gè)大規(guī)模的數(shù)據(jù)集,其中包含10 553張用于訓(xùn)練的圖像。這些圖像具有不同位置和不同比例以及復(fù)雜的背景,檢測(cè)這些圖像具有一定的挑戰(zhàn)性。在本文實(shí)驗(yàn)中主要將該數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù)集。PASCAL-S數(shù)據(jù)集主要包含自然圖像。ECSSD 有各種復(fù)雜場(chǎng)景的圖像,包含許多語(yǔ)義上有意義但結(jié)構(gòu)復(fù)雜的圖像用于評(píng)估。SOD 是基于伯克利分割數(shù)據(jù)集(Berkeley Segmentation Dataset,BSD)的顯著對(duì)象邊界的集合。HKU-IS 包括4 447 個(gè)具有挑戰(zhàn)性的圖像,在本文實(shí)驗(yàn)中將該數(shù)據(jù)集的3 000幅圖像用于訓(xùn)練,1 447幅作為測(cè)試圖像。
評(píng)估準(zhǔn)則 在本文中,使用了在顯著性任務(wù)中廣泛使用的指標(biāo)來評(píng)估本文方法的性能并且與其他方法進(jìn)行對(duì)比,評(píng)估指標(biāo)分別為準(zhǔn)確率(Precision)、召回率(Recall)、平均絕對(duì)誤差(Mean Absolute Error,MAE)和F度量值(F-measure)。
除此之外,為了使實(shí)驗(yàn)數(shù)據(jù)結(jié)果更加形象地展現(xiàn),本文繪制了PR(Precision-Recall)曲線。PR 曲線對(duì)不同概率閾值(范圍從0到1)下的顯著性圖進(jìn)行二值化并與ground truth進(jìn)行比較,從而計(jì)算出最終結(jié)果。
為了更全面地對(duì)本文的模型進(jìn)行評(píng)估,本文使用F 度量值(F-measure)來對(duì)整體性能做綜合度量,F(xiàn)-measure是查全率和查準(zhǔn)率在非負(fù)權(quán)重β下的加權(quán)調(diào)和平均值,定義如下:
如文獻(xiàn)[21]所述,將β2設(shè)置為0.3 的權(quán)重精度要比召回率高。MAE是直接計(jì)算模型輸出的顯著性圖與ground truth之間的平均絕對(duì)誤差,首先將兩者進(jìn)行二值化,然后通過式(8)進(jìn)行計(jì)算:
其中:P和G分別顯著性圖預(yù)測(cè)結(jié)果和ground truth;W和H分別表示P的寬度和高度。
為了證明MGFAM 和深層次特征融合的有效性,進(jìn)行了模型簡(jiǎn)化測(cè)試。除了MGFAM 和融合方式的不同組合之外,所有其他配置都相同。圖4展示了不同組合的視覺效果。
2.2.1 MGFAM的有效性
為了捕獲圖像豐富的全局上下文信息,本文引入了MGFAM。本文在選擇插入MGFAM 的VGG-16 網(wǎng)絡(luò)層次上做了更多考慮。如果輸入MGFAM 的特征圖分辨率太大,那么在進(jìn)行分尺度池化的過程中,對(duì)于分辨率大的特征圖來說因?yàn)橹苯訉⑵淙殖鼗?×1、2×2 等很小的尺度,在獲取全局信息的同時(shí)會(huì)丟失更多信息。按照設(shè)想,分別在VGG-16 每層都添加MGFAM,最后因?yàn)閾p失太大很難完成顯著性檢測(cè)任務(wù)。
除此之外,本文通過實(shí)驗(yàn)做了更多的嘗試,比如只在Conv1 后加MGFAM,只在Conv2 后加MGFAM,分別在Conv1、Conv2、Conv3 后加MGFAM 等,實(shí)驗(yàn)證明在VGG-16 網(wǎng)絡(luò)的較淺層添加MGFAM,反而會(huì)因?yàn)閾p失太大而嚴(yán)重干擾檢測(cè)結(jié)果。
因此,在前期實(shí)驗(yàn)中只在分辨率最低的Conv5 后添加MGFAM。如表1,MGFAM 使得檢測(cè)結(jié)果在ECSSD 數(shù)據(jù)集上的F-measure 和MAE 均得到了提升。MGFAM 多尺度多區(qū)域的池化操作,更突出了顯著物體在全局上的完整性。如圖4(c),是不加MGFAM 的基礎(chǔ)結(jié)果,對(duì)于感受野比較有限的模型,總是錯(cuò)誤地將背景估計(jì)為顯著物體。而圖4(e),是在Conv5 后添加MGFAM 之后的檢測(cè)結(jié)果。可以明顯地觀察到,引入的MGFAM在顯著性檢測(cè)任務(wù)中起到了較好的效果。
為了進(jìn)一步證明MGFAM 的有效性,本文選擇結(jié)構(gòu)和MGFAM 相似,具有代表性的多平行分支提取特征的模塊ASPP(Atrous Spatial Pyramid Pooling)[22]來做比較。圖4(d)展示了引入ASPP模塊后的最終檢測(cè)結(jié)果??梢悦黠@地觀察到,雖然ASPP模塊因?yàn)榧闪瞬煌惺芤跋碌亩喑叨刃畔?,起到了一些作用,但是ASPP因?yàn)槭且环N稀疏的操作會(huì)造成棋盤偽影效應(yīng),并且因?yàn)槿狈θ中畔⒌奶崛?,很易受到?fù)雜背景干擾。
2.2.2 特征融合的有效性
在提取特征信息的過程中,既想要得到對(duì)細(xì)節(jié)感知能力較強(qiáng)的信息,又不想因?yàn)榉直媛侍螅沟迷诙喑叨热殖鼗瘯r(shí)讓信息損失太多,所以在融合方法的設(shè)計(jì)上本文放棄了在較底層上做處理。Conv3 層作為承上啟下的中間層,往往無法捕獲有判別力的特征信息。通過實(shí)驗(yàn)表明,Conv3 對(duì)結(jié)果沒有決定性的影響,為了避免信息的冗余利用,放棄了選擇連同Conv3 層做融合操作,只在Conv4 層和Conv5 層加入多尺度全局池化特征聚合模塊。
而針對(duì)融合和多尺度全局池化的先后順序,本文通過實(shí)驗(yàn)又做了進(jìn)一步的探討。表1 第1 行第4~6 列數(shù)據(jù)為先將Conv4層和Conv5層輸出的特征信息融合后再使用MGFAM進(jìn)行多尺度全局池化(MFa)的F-measure(Max F)及MAE 結(jié)果,由表1可以看出,相較于只在Conv5層后添加MGFAM(表1中MGFAM)效果又有進(jìn)一步提升。接著改變策略進(jìn)行實(shí)驗(yàn),在Conv4 層和Conv5 層后先分別加入MGFAM,將其分別經(jīng)過MGFAM 提取后的多尺度全局信息再進(jìn)行特征融合操作(MFp),實(shí)驗(yàn)結(jié)果(第2 行第4~6 列數(shù)據(jù))表明,這種操作因分層處理有更好的表現(xiàn)。
表1 ECSSD數(shù)據(jù)集上模型簡(jiǎn)化測(cè)試結(jié)果Tab.1 Model simplification test results on ECSSD dataset
由表1 ECSSD 數(shù)據(jù)集上進(jìn)行模型簡(jiǎn)化測(cè)試結(jié)果可以看出,模型中的MGFAM 以及融合操作都至關(guān)重要,并且都為檢測(cè)性能做出了一定的貢獻(xiàn)。
由圖4 可以看出,在Conv4 和Conv5 分層添加MGFAM 后再進(jìn)行特征融合的操作,既得到了對(duì)細(xì)節(jié)的感知能力較強(qiáng)的信息(第1 行),又獲得了豐富的全局信息,使得顯著性檢測(cè)結(jié)果對(duì)前景和背景的分辨能力更強(qiáng)(第2~3行)。
圖4 模型簡(jiǎn)化測(cè)試結(jié)果Fig.4 Model simplification test results
將本文提出的顯著性目標(biāo)檢測(cè)模型與較先進(jìn)的7 種算法進(jìn)行了對(duì)比。其中HS(Hierarchical Saliency detection)[23]、wCtr(saliency optimization from robust background detection)[24]是傳統(tǒng)的顯著性檢測(cè)算法,而PFAN(Pyramid Feature Attention Network for saliency detection)[25]、BDMP(Bi-Directional Message Passing model for salient object detection)[13]、DGRL(Detect Globally,Refine Locally)[15]、NLDF(Non-Local Deep Features for salient object detection)[12]和DSS(Deeply Supervised Salient object detection with short connections)[26]是基于深度學(xué)習(xí)的顯著性目標(biāo)檢測(cè)算法。為了保證對(duì)比實(shí)驗(yàn)的公平性,NLDF、BDMP、DGRL 等主流的深度學(xué)習(xí)算法結(jié)果是使用原文作者提供的開源代碼以及模型來進(jìn)行訓(xùn)練、測(cè)試及評(píng)價(jià)獲得的。對(duì)于PFAN 算法本文按照原文作者所提供的圖像結(jié)果進(jìn)行評(píng)價(jià),獲取最終的指標(biāo)評(píng)價(jià)結(jié)果。
2.3.1 定量評(píng)估
本文的算法在4 個(gè)基準(zhǔn)數(shù)據(jù)集上與7 種主流的顯著性檢測(cè)算法進(jìn)行了比較。從表2 可以看出,本文的算法在ECSSD數(shù)據(jù)集上相較于HS、wCtr 等傳統(tǒng)顯著性檢測(cè)算法在Fmeasure 值上提高了0.25 左右,MAE 也分別降低了0.18 和0.12。除此之外,相較于NLDF以及BDMP等較先進(jìn)的基于深度的顯著性檢測(cè)算法,F(xiàn)-measure 值分別提高0.028 和0.008;其中相較于NLDF 算法,MAE 值也降低了0.023。除此之外,該算法在其他數(shù)據(jù)集下的F-measure 和MAE 均有較好的表現(xiàn),這有力地證明了本文所改進(jìn)的模型的有效性。圖5 列出了4 個(gè)數(shù)據(jù)集上不同算法的PR 曲線。由圖5 可以看出,本文算法的PR(Precision-Recall)曲線在4 個(gè)數(shù)據(jù)集上的表現(xiàn)總體優(yōu)于其他算法。
表2 本文算法與7種顯著性目標(biāo)檢測(cè)算法在4個(gè)廣泛使用的數(shù)據(jù)集上的定量比較Tab.2 Qualitative comparison of the proposed algorithm with 7 saliency object detection methods on 4 widely used datasets
圖5 8種算法在4個(gè)流行的顯著性目標(biāo)檢測(cè)數(shù)據(jù)集上的PR曲線對(duì)比Fig.5 Precision-Recall curves comparison of eight algorithms on 4 popular salient object detection datasets
表3 列出本文在NVIDIA 1080Ti GPU 的硬件設(shè)備條件下測(cè)試一張輸入圖像的平均消耗時(shí)間。由表可以看出,本文的全卷積網(wǎng)絡(luò)模型,與大多數(shù)先前的顯著目標(biāo)檢測(cè)算法相比,也達(dá)到了較高的運(yùn)算速度。
表3 各算法平均運(yùn)行時(shí)間比較Tab.3 Average running time comparison of different methods
2.3.2 定性評(píng)估
為了進(jìn)一步證明本文算法的優(yōu)勢(shì)所在,圖6展示了本文算法最終顯著性預(yù)測(cè)結(jié)果,從而定性地分析模型優(yōu)越性。圖6列出了本文模型和7種經(jīng)典算法生成的顯著圖的視覺效果對(duì)比。
圖6 本文算法與7種顯著性目標(biāo)檢測(cè)算法結(jié)果的定性比較Fig.6 Quantitative comparison of the results of the proposed algorithm and 7 salient object detection methods
從圖6中(第1行)可以清晰地看出,本文的算法針對(duì)前景和背景不明顯的圖片依然有較好的檢測(cè)效果。不論是對(duì)于有復(fù)雜場(chǎng)景(第2、3行),還是多對(duì)象(4、5行)、小對(duì)象(6、7行)以及大對(duì)象(8、9 行)的圖片均有不錯(cuò)的檢測(cè)效果。除此之外,因?yàn)橥瑫r(shí)也集成上下文信息,分層提取特征,所以本文的算法不僅在全局方面能更可靠地檢測(cè),在邊緣細(xì)節(jié)上也有較好的表現(xiàn),如圖6(第8、9行)。
但是在多尺度全局池化的過程中,不可避免地會(huì)造成一定的信息丟失;同時(shí),在傳遞方式上的選擇也不夠優(yōu)雅,雖然給底層提供了更有判別力的全局信息,但是因其多倍的上采樣,使得結(jié)果在邊緣和細(xì)節(jié)的處理上仍然不夠樂觀。
本文提出了一種基于多級(jí)全局信息傳遞模型的顯著性檢測(cè)算法,算法引入了多尺度全局特征聚合模塊,并且提出了有效的深層次特征融合算法,最終采用多層次特征傳遞的方式將較低層的特征信息和較高層全局特征信息組合,從而獲得顯著性目標(biāo)區(qū)域。通過定性與定量實(shí)驗(yàn)比較驗(yàn)證了本文提出的算法不論是在性能上還是在速度上均有較好的表現(xiàn)。
針對(duì)多層級(jí)多尺度池化和上采樣帶來的信息損失問題,在未來的工作中,將考慮在充分利用全局信息的同時(shí),增強(qiáng)邊緣和細(xì)節(jié)上的處理;此外,將進(jìn)一步優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),探索新的信息傳遞方法來減少信息損失。