張守東,楊 明,胡 太
南京師范大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,南京 210023
計算機視覺分析利用相關(guān)算法來模擬人類視覺系統(tǒng)中大腦感知的工作原理,對數(shù)字圖像進行特定任務(wù)的處理。顯著性目標(biāo)檢測屬于計算機視覺領(lǐng)域下的一個重要分支,在這幾年已經(jīng)成為熱門的研究話題,它是指人類能夠通過視覺系統(tǒng)從場景中提取出與其他區(qū)域相比更為顯著的區(qū)域,這有助于剔除后續(xù)視覺任務(wù)中圖像內(nèi)無價值的區(qū)域。早期對這種情境感知和處理能力的研究主要來自認知科學(xué)家,而在最近一段時間里,計算機視覺領(lǐng)域的研究者同樣對該領(lǐng)域產(chǎn)生極大的興趣,并通過研究提出了大量的顯著性目標(biāo)檢測算法。顯著性目標(biāo)檢測能夠從復(fù)雜的場景中快速準確地定位圖像中最顯著的目標(biāo)或區(qū)域,識別后的顯著性結(jié)果在視頻目標(biāo)跟蹤[1]、交通控制[2]、圖像檢索[3]、圖像質(zhì)量評估[4-5]、場景理解[6]等諸多計算機視覺領(lǐng)域中都有著廣泛的應(yīng)用。
顯著性目標(biāo)檢測算法的性能在過去的一段時間里實現(xiàn)了較大的提升,特別是得益于近幾年興起的深度學(xué)習(xí),利用多層神經(jīng)網(wǎng)絡(luò)能夠模擬大腦皮層感知神經(jīng)元處理信息的特性,顯著性目標(biāo)檢測算法的性能得到了進一步的提升。但是在復(fù)雜場景下檢測目標(biāo)的準確性和完整性仍然存在著諸多問題,本文針對提高復(fù)雜場景下顯著性目標(biāo)檢測算法的準確性展開深入研究,挖掘與利用更具有辨別性的深度特征,提出了一種新的基于多特征融合的顯著性目標(biāo)檢測算法。
概括來說,本文有以下兩點貢獻:
(1)提出了一個基于多特征融合的全卷積神經(jīng)網(wǎng)絡(luò)用于顯著性目標(biāo)檢測。在全卷積神經(jīng)網(wǎng)絡(luò)的深層,以預(yù)測顯著圖作為特征,融合圖像的全局深度特征和顯著性目標(biāo)的位置特征,得到更具判別力的特征表示。
(2)提出了利用顯著性提名獲取候選目標(biāo)的位置信息和置信值,并在各候選目標(biāo)中添加中心先驗。為每個候選目標(biāo)添加中心先驗可以有效地避免中心偏好,使得模型對位于圖像非中心區(qū)域的顯著性目標(biāo)同樣具有檢測作用。
顯著性目標(biāo)檢測是提取圖像在視覺上最顯著的目標(biāo)或區(qū)域?;谟嬎銠C視覺的顯著性目標(biāo)檢測研究起始于20世紀90年代[7],經(jīng)過多年的研究與發(fā)展,顯著性目標(biāo)檢測算法的性能有了極大的提升。與大多數(shù)基于對比差異的經(jīng)典模型[8]不同,基于CNN(convolutional neural network)的模型消除了對手工特征的高度依賴,避免人為地選擇合適的特征?;贑NN框架的模型通常包含數(shù)十萬個可調(diào)參數(shù)和眾多感受野(receptive field)大小不同的神經(jīng)元,導(dǎo)致模型的復(fù)雜度比傳統(tǒng)方法更高,同時也帶來檢測效果的提升。因此,近幾年來眾多研究者更傾向于利用CNN框架研究和解決顯著性目標(biāo)檢測的問題,基于CNN的顯著性目標(biāo)檢測模型逐漸成為當(dāng)前顯著性目標(biāo)檢測的主要趨勢。
SuperCNN是He等[9]提出用深度學(xué)習(xí)的方法學(xué)習(xí)超像素的特征表示,它是早期將CNN應(yīng)用于顯著性目標(biāo)檢測的嘗試。與基于像素級分類的卷積神經(jīng)網(wǎng)絡(luò)相比,He等提出的方法不僅提高了計算效率,還兼顧了全局上下文信息。然而該方法太過依賴超像素分割的結(jié)果,且具有內(nèi)部標(biāo)記一致性的超像素塊丟失了塊內(nèi)的一部分語義信息,導(dǎo)致提取不出足夠的信息,因此在復(fù)雜場景的數(shù)據(jù)集下,該方法將不再適用。Wang等[10]同時考慮了圖像的局部和全局信息,提出分別為局部對比和全局搜索設(shè)計兩個子網(wǎng)絡(luò)。與Wang等類似的思想,Zhao等[11]考慮局部和全局上下文,構(gòu)造了一個結(jié)合多種上下文的深度學(xué)習(xí)框架,整個圖像通過全局上下文模型提取全局對比信息,通過局部對比模型獲得局部信息。Lee等[12]提出利用兩個子網(wǎng)絡(luò)分別提取低級特征和高級特征的方法。Kim等[13]設(shè)計了一個雙通道的CNN網(wǎng)絡(luò),兩個通道的CNN分別用于獲取局部上下文和全局上下文信息。Wang等[14]提出利用Fast R-CNN[15]框架解決顯著性目標(biāo)檢測問題,通過在ROI池化層之后設(shè)置多個全連接層獲得每個區(qū)域的顯著值。Kim等[16]訓(xùn)練CNN來預(yù)測顯著性目標(biāo)的形狀。Li等[17]利用CNN提取超像素的高級特征,利用基于對比的方法獲得區(qū)域的低級特征。考慮到復(fù)雜場景下的自然圖像中可能存在多個尺寸差別較大的顯著性目標(biāo),Li等[18]提出將圖像三個不同尺度分割的區(qū)域作為CNN的輸入,利用三個子網(wǎng)絡(luò)提取圖像每個區(qū)域不同尺度的深度特征,隨后將這三個深度特征進行拼接,最后通過訓(xùn)練一個由兩個全連接層組成的多層感知器(multilayer perceptron,MLP),得到該區(qū)域的顯著性分布。
雖然CNN可以有效提取超像素的深度特征,但顯著性目標(biāo)的檢測效果過于依賴特征提取前的超像素分割結(jié)果和特征提取后的分類網(wǎng)絡(luò)??臻g信息無法在全連接層中傳播,導(dǎo)致CNN提取到深度特征丟失部分語義信息。為了解決該問題,研究者提出了基于像素級分類的全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN)[19]。由于去除了全連接層,因此FCN具有保持空間信息的特性,大量基于FCN的顯著性目標(biāo)檢測模型被提出并獲得了更優(yōu)的檢測性能。
Li等[20]在提出基于CNN提取多尺度深度特征的模型之后,又提出了一種具有兩個互補分支的卷積網(wǎng)絡(luò)模型,模型最終通過一個平衡的交叉熵損失函數(shù)融合兩個分支的預(yù)測結(jié)果。Liu等[21]構(gòu)建一種由前后兩個子網(wǎng)絡(luò)連接而成的網(wǎng)絡(luò)模型。受Xie等[22]提出的全局嵌套邊緣檢測(holistically-nested edge detection,HED)方法的啟發(fā),Tang等[23]使用循環(huán)卷積層替換了HED中的原始卷積層,達到同時獲取局部和全局上下文信息的目的。從多特征融合的動機出發(fā),Li等[24]考慮聯(lián)合語義分割和顯著性目標(biāo)檢測,將VGGNet中的兩個原始全連接層替換為卷積層,實現(xiàn)類似全卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。隨著研究者對網(wǎng)絡(luò)架構(gòu)的研究不斷深入,Zhang等[25]提出使用Deeplab[26]提取的高級特征和采用多級融合機制來檢測顯著性目標(biāo)。Li等提出的MSRNet[27]考慮了實例級的顯著性目標(biāo)分割。Hou和Cheng等[28]設(shè)計一個基于HED架構(gòu)[22]的自上而下的模型,該算法提出通過在相鄰層之間建立強關(guān)系,有助于模型能夠更準確地確定顯著性目標(biāo)的位置,從而提升了最終顯著圖的分割性能。這些基于神經(jīng)網(wǎng)絡(luò)的算法在一般場景下的單目標(biāo)顯著性檢測已經(jīng)達到了較高的檢測精度,但是在復(fù)雜的場景下,復(fù)雜背景中的噪聲區(qū)域依然會干擾顯著性目標(biāo)的檢測,導(dǎo)致檢測精度的降低。
本文提出一種基于多特征融合的顯著性目標(biāo)檢測算法(salient object detection based on multi-feature fusion,SOD_MFF)。如圖1所示,該算法首先訓(xùn)練一個顯著性提名網(wǎng)絡(luò),網(wǎng)絡(luò)獲取圖像中包含顯著性目標(biāo)的多個候選區(qū)域。利用顯著性目標(biāo)候選區(qū)域的空間信息和類別置信值生成混合高斯分布圖作為顯著性目標(biāo)位置的先驗分布。將通過該先驗分布得到的顯著性目標(biāo)空間位置特征與深度神經(jīng)網(wǎng)絡(luò)較深層的特征相融合,同時融合初始顯著圖置信圖的特征表示,通過一個訓(xùn)練好的網(wǎng)絡(luò)最終預(yù)測得到像素級的顯著性目標(biāo)區(qū)域。
在一般場景下,卷積神經(jīng)網(wǎng)絡(luò)提供了具有較強判別性的深度語義特征,而深度語義特征在較復(fù)雜場景下依舊會出現(xiàn)判別性較弱的情況。當(dāng)顯著性目標(biāo)的部分區(qū)域或背景的部分區(qū)域包含強烈的語義信息時,僅依賴深度特征的算法會錯誤地標(biāo)記這些區(qū)域的顯著性,如圖2,第一、二列分別為原圖和真值圖(ground truth,GT),第三列為僅依賴深度特征的檢測算法(multiscale deep feature,MDF)[18]生成的顯著圖,第四列為在第三列方法的基礎(chǔ)上融合傳統(tǒng)手工特征的檢測算法(hybrid deep and handcrafted feature,HDHF)[29]生成的顯著圖??梢悦黠@看出,傳統(tǒng)的手工特征依然是顯著性目標(biāo)檢測的重要特征。在這種較復(fù)雜的場景下,傳統(tǒng)的特征提取方法能夠根據(jù)邊界、紋理等信息提取出有對比度、有判別力的手工特征。深度特征與傳統(tǒng)手工特征實現(xiàn)了特征表示上的互補,融合這兩種特征有利于顯著性目標(biāo)的高效檢測。
Fig.1 Schematic map of network structure圖1 網(wǎng)絡(luò)結(jié)構(gòu)示意圖
Fig.2 Comparison of methods between deep features and fusing traditional features圖2 對比深度特征和融合傳統(tǒng)特征的方法
為了提高融合特征的辨別性,被添加的淺層特征需要通過實驗反復(fù)調(diào)整。研究者通常需要思考以下兩個問題:神經(jīng)網(wǎng)絡(luò)中哪一層的淺層特征是有效的?融合多少層淺層特征是最佳的?考慮到本文基準算法的優(yōu)異性能,本文算法將Li等[29]2016年提出的基于超像素塊提取深度和手工特征的顯著性檢測算法(HDHF)生成的顯著圖作為初始化顯著性目標(biāo)特征,與網(wǎng)絡(luò)較深層的特征圖拼接在一起,得到更具有判別性的特征表示。這種思路受益于集成學(xué)習(xí)中堆疊做法,在訓(xùn)練時會通過合理劃分數(shù)據(jù)集的方式避免模型過擬合。
為了進一步提升算法性能,本文考慮添加中心先驗信息。之前的研究者認為圖像的中心更有可能存在顯著性目標(biāo),因此嘗試給圖像的中心特征加上較高的權(quán)重或者直接通過中心先驗得到顯著性目標(biāo)的空間位置特征。然而,如圖3,左側(cè)為原圖,中間為中心先驗圖,右側(cè)為中心先驗作用下的圖像,相比于遠離圖像中心的顯著性目標(biāo)仙人掌,此時靠近中心的山體被判別為顯著性目標(biāo)的概率更大,因此中心先驗失效。
Fig.3 Central priori has no effect圖3 中心先驗失去先驗效果
本文提出使用顯著性提名的方法檢測出目標(biāo)候選區(qū)域,如圖4所示,分別以各目標(biāo)的中心作為二維高斯分布的均值,建立顯著性目標(biāo)先驗分布圖,以此克服傳統(tǒng)中心先驗的弱點,達到提升顯著性檢測性能的目的。
Fig.4 Priori distribution map of salient objects圖4 顯著性目標(biāo)先驗分布圖
不同于利用高斯分布直接添加中心先驗的做法,本文采用的是類似于區(qū)域提名的做法,如圖5所示,在Faster R-CNN[30]的網(wǎng)絡(luò)上進行修改,將原先分類層的20個目標(biāo)類別設(shè)置為顯著性目標(biāo)和非顯著性目標(biāo)這兩個目標(biāo)類別,而相應(yīng)訓(xùn)練集的類別標(biāo)簽也從原先的20種替換成顯著性二元標(biāo)簽,重新訓(xùn)練得到顯著性區(qū)域提名網(wǎng)絡(luò),修改后的網(wǎng)絡(luò)可以獲得顯著性目標(biāo)的候選區(qū)域以及對應(yīng)的置信值。顯著性區(qū)域提名算法通過檢測圖片中所有目標(biāo)的潛在位置,之后分別以各區(qū)域的中心作為高斯分布的中心,構(gòu)建目標(biāo)先驗分布。通過先驗分布得到顯著性目標(biāo)的空間位置特征,該特征將與全局像素從深度神經(jīng)網(wǎng)絡(luò)提取的深度特征融合,得到更具有判別性的特征表示。
Fig.5 Candidate regions for salient objects圖5 顯著性目標(biāo)的候選區(qū)域
Fig.6 Schematic map of network training圖6 網(wǎng)絡(luò)訓(xùn)練示意圖
如圖6所示,在模型的訓(xùn)練過程中,當(dāng)SOD_MFF和HDHF采用相同的訓(xùn)練集時,會導(dǎo)致模型因過擬合而無法收斂到更好的結(jié)果,即通過神經(jīng)網(wǎng)絡(luò)生成的顯著圖和HDHF算法生成的顯著圖相似,沒有起到互補的作用。因此將訓(xùn)練集合理劃分成十等份,隨機挑選三份訓(xùn)練HDHF模型中的參數(shù),而SOD_MFF模型使用完整的訓(xùn)練集訓(xùn)練,提升模型的泛化性能。
顯著性目標(biāo)檢測過程中,特征來自于全卷積神經(jīng)網(wǎng)絡(luò)提取的深度特征、HDHF算法生成的顯著性置信圖、利用目標(biāo)檢測方法Faster R-CNN[30]獲得顯著性區(qū)域的空間位置特征,通過卷積網(wǎng)絡(luò)得到最終的顯著圖。
在本章中,首先簡單介紹本次的數(shù)據(jù)集及實驗平臺;然后介紹評估模型使用的評價指標(biāo);接著對網(wǎng)絡(luò)參數(shù)設(shè)置和模型的訓(xùn)練過程進行說明,便于后續(xù)研究者復(fù)現(xiàn)論文的實驗;最后以定性和定量的方式將本文提出的算法與當(dāng)前主流的顯著性目標(biāo)檢測技術(shù)進行比較并進行結(jié)果分析。
在四個常用的公開數(shù)據(jù)集上評估了本文提出的方法,這些數(shù)據(jù)集分別是MSRA-B、ECSSD、PASCALS和HKU-IS。其中MSRA-B數(shù)據(jù)集包含5 000張具有各種顯著性目標(biāo)類別的圖像,雖然部分圖像的場景比較復(fù)雜,但大部分圖像都只有單個顯著性目標(biāo)。而ECSSD數(shù)據(jù)集是在CSSD數(shù)據(jù)集的基礎(chǔ)上擴展而來的,該數(shù)據(jù)集包含1 000張場景復(fù)雜的圖像,其中部分圖像還存在顯著性目標(biāo)結(jié)構(gòu)復(fù)雜和背景目標(biāo)難以剔除的場景,需要提取圖像更豐富的語義特征才能有效地檢測顯著性目標(biāo)。PASCAL-S是在PASCALVOC 2010分割挑戰(zhàn)賽的驗證集基礎(chǔ)上發(fā)展而來,該數(shù)據(jù)集包含850張圖像,其中的真值圖是由12個人獨立標(biāo)注,最終取閾值為0.5而成,該數(shù)據(jù)集中的大部分圖像都具有較為復(fù)雜的場景。HKU-IS是一個包含4 447張極具挑戰(zhàn)性圖像的大型數(shù)據(jù)集,其中的絕大部分圖像中的目標(biāo)都具有較低的對比度且單張圖像中存在多個顯著性目標(biāo),該數(shù)據(jù)集的引入增加了顯著性目標(biāo)檢測算法的檢測難度。這些常用的數(shù)據(jù)集里都包含訓(xùn)練集、驗證集、測試集和手工標(biāo)注的二元真值圖(GT)。為了便于與其他算法進行公平的比較,按照慣例,本文使用MSRA-B數(shù)據(jù)集中的2 500張圖像訓(xùn)練SOD_MFF,該2 500張圖像被標(biāo)記為訓(xùn)練集,驗證集為500張圖像,剩下的2 000張圖像作為模型性能評估的測試集。為了測試SOD_MFF對存在不同偏好的其他數(shù)據(jù)集的適用性,本文在MSRA-B的訓(xùn)練集上訓(xùn)練SOD_MFF,在MSRA-B中的測試集、HKU-IS、ECSSD和PASCAL-S上比較不同算法的性能。
本次實驗平臺使用的操作系統(tǒng)是Ubuntu 14.04.5,CPU的型號為英特爾至強E5-2650,主頻為2.2 GHz,GPU的型號為Nvidia TITANX Pascal,單張顯卡內(nèi)存為12 GB,訓(xùn)練模型時同時使用了5塊該種型號的顯卡。
準確率-召回率曲線被廣泛用來驗證顯著性對象檢測算法。通過設(shè)置不同的閾值,將一個顯著圖S轉(zhuǎn)換為一個二元標(biāo)記M,然后將M與真值圖G進行比較,分別計算出Precision和Recall的值。其中,Precision和Recall的計算公式見式(1)。
F-measure通常無論是精確率或召回率都不可以完全評價一個顯著圖的質(zhì)量。為此,提出了F-measure利用一個非負的權(quán)重β2作為精確率和召回率的加權(quán)調(diào)和平均,式(2)即為F-measure的計算公式:
正如許多顯著的物體檢測工作[31]所建議的那樣,β2通常被設(shè)置為0.3以更多地權(quán)衡精確率,因為研究者發(fā)現(xiàn)召回率并不像精確度那么重要。例如,通過將整張圖設(shè)置為前景,可以容易地實現(xiàn)100%的召回率。
平均絕對誤差(mean absolute error,MAE)對于某些特定的應(yīng)用,連續(xù)顯著圖的質(zhì)量可能比二元標(biāo)記更重要。為了進行更加全面的比較,采用評估連續(xù)顯著圖S和二元真值G之間的平均絕對誤差,二者均在[0,1]范圍內(nèi)歸一化。MAE分值定義為式(3):
本文提出的算法基于caffe[32]深度學(xué)習(xí)框架實現(xiàn),本節(jié)將介紹在caffe環(huán)境下神經(jīng)網(wǎng)絡(luò)訓(xùn)練的參數(shù)設(shè)置及與網(wǎng)絡(luò)訓(xùn)練過程,其中網(wǎng)絡(luò)參數(shù)設(shè)置如表1所示。
Table 1 Parameter settings for SMR_GPF network表1 SMR_GPF網(wǎng)絡(luò)參數(shù)設(shè)置
SOD_MFF的網(wǎng)絡(luò)結(jié)構(gòu)主要是基于VGG16網(wǎng)絡(luò)而設(shè)計的,訓(xùn)練過程中,通過反向傳播算法統(tǒng)一優(yōu)化包括特征聯(lián)結(jié)前后的整個網(wǎng)絡(luò)中各層的參數(shù)。如圖7所示,本節(jié)將主要闡述網(wǎng)絡(luò)的訓(xùn)練過程。
Fig.7 Training diagram of neural network圖7 本文神經(jīng)網(wǎng)絡(luò)訓(xùn)練流程圖
(1)劃分數(shù)據(jù)集:對于每個評估數(shù)據(jù)集,將數(shù)據(jù)集劃分為訓(xùn)練集、驗證集和測試集三部分。
(2)制作顯著性邊界框檢測數(shù)據(jù)集:對于數(shù)據(jù)集中每個樣本的真實顯著圖(GT),利用洪水填充(flood fill)算法分割每個顯著性目標(biāo)(即標(biāo)記連通圖),并根據(jù)每個目標(biāo)得到每個顯著性目標(biāo)的邊界框,將該樣本下所有的顯著性目標(biāo)以邊界框的形式保存為xml文件。
(3)根據(jù)上一步制作的邊界框檢測數(shù)據(jù)集,在訓(xùn)練集上基于Faster R-CNN網(wǎng)絡(luò)訓(xùn)練顯著性邊界框檢測模型。
(4)獲得顯著性候選區(qū)域:根據(jù)上一步得到的顯著性邊界框檢測模型對所有訓(xùn)練集和驗證集的樣本進行顯著性邊界框檢測,為了能夠?qū)⒃撔畔⑶度氲缴窠?jīng)網(wǎng)絡(luò)中,本文算法依據(jù)檢測得到的邊界框和置信值生成多元高斯分布圖,多元高斯分布圖中每一個峰值為顯著性區(qū)域的置信值,分布圖中大于0的區(qū)域即為顯著性的候選區(qū)域。
(5)獲得初始顯著圖:利用訓(xùn)練集數(shù)據(jù)對基于超像素塊提取深度和手工特征的顯著性檢測算法(HDHF)中的分類網(wǎng)絡(luò)進行訓(xùn)練,并通過驗證集數(shù)據(jù)訓(xùn)練每個超像素粒度下模型結(jié)果的權(quán)重,最終得到完整的HDHF模型。
(6)根據(jù)上一步得到的HDHF模型對所有訓(xùn)練集和驗證集的樣本進行顯著性檢測得到初始顯著圖。
(7)為了能夠在預(yù)訓(xùn)練模型VGG16上進行微調(diào),對訓(xùn)練集和驗證集中所有樣本的圖像進行預(yù)處理,數(shù)據(jù)預(yù)處理過程包括:圖像均值化、RGB圖像維度轉(zhuǎn)換為BGR圖像。
(8)利用訓(xùn)練集和驗證集的樣本訓(xùn)練本文網(wǎng)絡(luò)的模型:對于網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計,以預(yù)處理后的原始圖像、第4步得到的顯著性多元高斯分布圖和第6步得到的初始顯著圖同時作為網(wǎng)絡(luò)的輸入,在經(jīng)過若干個卷積層之后得到圖像的深度特征圖,將尺度縮放后的多元高斯分布圖、初始顯著圖與深度特征圖按照相同坐標(biāo)不同通道的方式進行拼接。然后繼續(xù)利用多層卷積網(wǎng)絡(luò)向前傳播。網(wǎng)絡(luò)參數(shù)進行合理設(shè)置之后,對設(shè)計的網(wǎng)絡(luò)進行訓(xùn)練得到最終的顯著性檢測SOD_MFF模型。
(9)對于測試集中的每一幅圖像,與第(7)步同樣的預(yù)處理方式對圖像進行預(yù)處理,同時結(jié)合顯著性多元高斯分布圖和初始顯著圖作為網(wǎng)絡(luò)的輸入數(shù)據(jù),根據(jù)測試網(wǎng)絡(luò)的前向計算得到最終尺度較小的顯著圖,利用B樣條插值算法將其上采樣至原始圖像大小一致的顯著圖,這樣的顯著圖即為最終所需要的顯著性檢測結(jié)果。
雖然SOD_MFF使用MSRA-B中的2 500個訓(xùn)練樣本訓(xùn)練模型需要大約30 h,已經(jīng)訓(xùn)練好的模型(SOD_MFF)在400×300大小的測試圖像中僅需2.3 s就可以完成顯著性目標(biāo)檢測的任務(wù)。與當(dāng)前一些先進的基于深度學(xué)習(xí)的顯著性目標(biāo)檢測算法相比,該方法都有較為明顯的優(yōu)勢。實驗結(jié)果證明,SOD_MFF的性能已經(jīng)優(yōu)于現(xiàn)有的先進方法。
將本文提出的基于多特征融合的顯著性目標(biāo)檢測算法(SOD_MFF)與當(dāng)前深度學(xué)習(xí)應(yīng)用于顯著性目標(biāo)檢測領(lǐng)域的先進算法進行比較。同時,一些經(jīng)典的基于手工特征判別的顯著性目標(biāo)檢測算法也參與性能的比較。對比算法有:FT(frequency-tuned)、GC(global contrast)、HS(hierarchical saliency)、PISA(pixelwise image saliency by aggregating complementary appearance contrast measures)、LEGS(local estimation and global search)[10]、MC(multi-context)[11]、DCL(deep contrast learning)[20]、MDF(multiscale deep feature)[18]和HDHF[29]。本文使用提供的開源代碼復(fù)現(xiàn)實驗結(jié)果或者提供的顯著圖進行相關(guān)性能比較。
如圖8,給出了本文提出的方法在4個公開的數(shù)據(jù)集上對比當(dāng)前顯著性目標(biāo)檢測先進算法的直觀展示。前兩行是顯著性目標(biāo)與圖像背景存在對比差異較小的情況,中間兩行是顯著圖中顯著性目標(biāo)內(nèi)部組成部分較為復(fù)雜的情況,后兩行是顯著性目標(biāo)與圖像邊緣相接觸的情況。第一列為測試集中的原圖,第二列為手工標(biāo)記的二元真值圖(GT),第三列為本文提出的SOD_MFF算法生成的顯著圖,后面的9列為當(dāng)前先進的顯著性目標(biāo)檢測深度學(xué)習(xí)算法和經(jīng)典的基于傳統(tǒng)手工特征的顯著性目標(biāo)檢測算法生成的顯著圖。為了突出本文提出的SOD_MFF對于復(fù)雜場景下的顯著性目標(biāo)檢測依然非常高效,從4個公開數(shù)據(jù)集的近11 500張圖像中找到了極具代表性的6張圖像進行對比展示。前兩行圖像選取的背景較為復(fù)雜且目標(biāo)區(qū)域與其相鄰的背景區(qū)域?qū)Ρ榷容^小,僅憑手工特征或淺層特征都無法得到令人滿意的結(jié)果。中間兩行圖像選取的圖像特點是目標(biāo)區(qū)域由多個對比度較大的小區(qū)域組成,如果不借助通過深度語義信息進行判別,很難獲得完整的顯著性目標(biāo)。最后兩行圖像的顯著性目標(biāo)不再集中在圖像的中心區(qū)域,而都與圖像邊緣有接觸。通過觀察發(fā)現(xiàn),可以直觀地發(fā)現(xiàn)本文提出的SOD_MFF效果優(yōu)于與其進行對比的其他9種算法。具體定量化的算法性能比較見表2所示。
Fig.8 Visual comparison of saliency maps generated by different algorithms圖8 不同算法生成顯著圖的視覺對比
如圖9所示為本文提出的SOD_MFF算法與其他顯著性目標(biāo)檢測算法在PR曲線上的比較。如圖10所示為SOD_MFF算法與其他對比算法在精確率、召回率和F值的量化比較。從兩張圖可以明顯看出,本文提出的SOD_MFF在上述公開數(shù)據(jù)集上的性能明顯優(yōu)于其他所有對比算法的性能。對比之前算法的maxF(maxF-measure,數(shù)值越大性能越好),SOD_MFF比HDHF、MDF和DCL在4個數(shù)據(jù)集上平均分別提高了3.45%、4.43%和2%,maxF-measure指標(biāo)上優(yōu)勢明顯;對于評價指標(biāo)MAE(數(shù)值越小性能越好),本文提出來的SOD_MFF比HDHF、MDF和DCL在4個數(shù)據(jù)集上平均分別減少了2.83%、3.6%和1.73%,使得最終的顯著圖更接近給定的真值圖(GT)。在檢測單幅圖像的顯著性目標(biāo)時,本文提出的SOD_MFF算法與現(xiàn)有基于深度學(xué)習(xí)的顯著性目標(biāo)檢測算法相比,耗時差異不明顯,檢測結(jié)果的正確率卻有明顯的提升。
Table 2 Quantitative comparison of experimental results表2 實驗結(jié)果的定量化比較
Fig.9 Comparison of PR curves between SOD_MFF and other algorithms圖9 SOD_MFF與對比算法的PR曲線之間的比較
Fig.10 Comparison of Precision,Recalland F-measure between SOD_MFF and other algorithms圖10 SOD_MFF與對比算法Precision,Recall和F值的比較
本文提出了一種新穎的顯著性目標(biāo)檢測算法:基于多特征融合的顯著性目標(biāo)檢測算法。它訓(xùn)練一個顯著性目標(biāo)檢測網(wǎng)絡(luò),并且以HDHF模型的預(yù)測顯著圖作為特征,此外通過顯著性提名網(wǎng)絡(luò)確定候選區(qū)域,在各候選區(qū)域添加中心先驗作為特征。經(jīng)過10種算法在4個極具挑戰(zhàn)性的數(shù)據(jù)集上測試對比后發(fā)現(xiàn),在背景存在較多噪聲干擾的情況下,本文提出的SOD_MFF性能明顯比其他當(dāng)前主流算法更具有競爭力。