陳恒晟,王 軍,毛 毅,孟祥豪,劉 剛,吳國(guó)棟
(1.國(guó)防科技大學(xué),安徽 合肥 230037;2.中國(guó)人民解放軍91306 部隊(duì),上海 201900;3.中國(guó)人民解放軍第61516 部隊(duì),北京 100071)
人類在面對(duì)自然場(chǎng)景時(shí),會(huì)對(duì)所接收到的視覺(jué)信息進(jìn)行預(yù)處理,自動(dòng)過(guò)濾掉無(wú)關(guān)緊要的背景,篩選出最引人注意的目標(biāo)。顯著性目標(biāo)檢測(cè)算法正是模擬人類這種視覺(jué)注意機(jī)制,通過(guò)構(gòu)建有效的計(jì)算模型,從圖像中檢測(cè)出最具有代表性和顯著性的目標(biāo),從而提取圖像關(guān)鍵信息,簡(jiǎn)潔高效地表達(dá)圖像內(nèi)容。在以往的研究中,顯著性目標(biāo)檢測(cè)往往只針對(duì)一幅靜態(tài)圖像,即通過(guò)提取單幅圖像的特征描述其顯著性信息。然而隨著時(shí)代的發(fā)展,顯著性目標(biāo)檢測(cè)應(yīng)用的場(chǎng)景越來(lái)越復(fù)雜,對(duì)于目標(biāo)檢測(cè)的要求和標(biāo)準(zhǔn)也越來(lái)越高,基于單一圖像場(chǎng)景的顯著性目標(biāo)檢測(cè)已無(wú)法滿足應(yīng)用需求。因此,近年來(lái)基于多圖像協(xié)同的顯著性目標(biāo)檢測(cè)正逐漸成為一個(gè)熱門研究課題。所謂協(xié)同顯著性,是指多場(chǎng)景中共同存在的相同或者相似目標(biāo)的顯著程度。其不僅要考慮單幅圖像的顯著性目標(biāo)特征,而且還需要兼顧一組圖像之中共同目標(biāo)之間的協(xié)同性特征。協(xié)同顯著性在協(xié)同分割、目標(biāo)跟蹤、多場(chǎng)景目標(biāo)識(shí)別、人臉識(shí)別等領(lǐng)域[1]都有著重要的研究?jī)r(jià)值。
近年來(lái),針對(duì)協(xié)同顯著性目標(biāo)檢測(cè)問(wèn)題,不少學(xué)者做了大量的研究工作并提出了很多優(yōu)秀的算法。這些算法大致可以分為基于特征融合的算法和基于圖融合的算法。基于特征融合的算法旨在提取不同圖像之間的協(xié)同一致性特征,并將這種協(xié)同一致性融入顯著性目標(biāo)檢測(cè)計(jì)算過(guò)程。如Chen 等人[2]基于視覺(jué)注意機(jī)制,通過(guò)對(duì)分割圖像塊的稀疏特征進(jìn)行匹配,得到協(xié)同檢測(cè)結(jié)果。Fu 等人[3]通過(guò)將所有的圖像進(jìn)行顏色聚類,構(gòu)造每種聚類顏色值的分布直方圖,然后將對(duì)比度特征、空間分布性特征和一致性特征進(jìn)行整合得到協(xié)同顯著性目標(biāo)檢測(cè)結(jié)果。Liu 等人[4]通過(guò)對(duì)圖像的分層分割,利用顏色直方圖計(jì)算分割區(qū)域的全局相似性,從而得到協(xié)同顯著圖。以上算法在一些簡(jiǎn)單的場(chǎng)景下有著較好的檢測(cè)效果,能夠有效準(zhǔn)確地檢測(cè)出顯著性目標(biāo),但是上述算法主要通過(guò)提取圖像中的如顏色、對(duì)比度等底層特征或是物理特征對(duì)圖像進(jìn)行處理,難以在復(fù)雜的背景下取得較好的檢測(cè)效果。隨著深度學(xué)習(xí)技術(shù)在圖像領(lǐng)域的應(yīng)用,也出現(xiàn)了不少基于深度特征的協(xié)同顯著性目標(biāo)檢測(cè)模型。如Zhang 等人[5]分別選取同組內(nèi)和其他組圖像的候選目標(biāo)集作為正負(fù)樣本訓(xùn)練集,提取高維的深度特征,然后提出一種基于貝葉斯推理的協(xié)同顯著性檢測(cè)模型;Wei 等人[6]通過(guò)深度學(xué)習(xí)提取輸入圖像組的共同語(yǔ)義特征來(lái)尋找共同顯著目標(biāo)。以上算法雖然能夠取得較高的算法精度,但是必須要有大量訓(xùn)練集作支撐,且需要人工預(yù)先精確標(biāo)定出協(xié)同顯著的目標(biāo)區(qū)域,算法開發(fā)的復(fù)雜性較高。
基于圖融合的方法可以直接利用現(xiàn)有的模型檢測(cè)結(jié)果,通過(guò)設(shè)計(jì)適當(dāng)?shù)娜诤喜呗垣@得協(xié)同顯著圖。例如Cao 等人[7]將M種單幅圖像顯著性檢測(cè)算法的顯著圖按照一定的閾值進(jìn)行前景和背景分割,構(gòu)建特征矩陣并進(jìn)行低秩分解得到協(xié)同顯著圖。Li 等人[8]在獲得單個(gè)圖像顯著圖的基礎(chǔ)上,采用高效流行排序算法實(shí)現(xiàn)對(duì)其融合得到協(xié)同顯著圖。Tsai 等人[9]通過(guò)設(shè)計(jì)棧式自動(dòng)編碼器來(lái)對(duì)多個(gè)顯著圖線索進(jìn)行編碼譯碼,從而得到最終協(xié)同顯著圖。基于圖融合算法的優(yōu)點(diǎn)是能夠充分利用多個(gè)顯著圖線索之間的互補(bǔ)性,缺點(diǎn)是對(duì)融合策略的設(shè)計(jì)要求較高。
綜上,本文提出一種基于協(xié)同注意和多線索融合的顯著性目標(biāo)檢測(cè)算法,算法流程如圖1 所示。
圖1 本文算法基本流程
該算法一方面通過(guò)深度卷積神經(jīng)網(wǎng)絡(luò)提取受檢測(cè)圖像的深度語(yǔ)義特征,另一方面運(yùn)用主成分分析對(duì)提取的群組圖像的深度特征向量進(jìn)行處理得到目標(biāo)的協(xié)同特征向量?;诂F(xiàn)有的圖像顯著性目標(biāo)檢測(cè)算法提取群組圖像的協(xié)同顯著性目標(biāo)建議候選對(duì)象,并將協(xié)同注意圖與不同顯著性檢測(cè)算法結(jié)果進(jìn)行乘法融合,運(yùn)用元胞自動(dòng)機(jī)算法對(duì)不同顯著性檢測(cè)結(jié)果進(jìn)行整合,以去除干擾目標(biāo),達(dá)到準(zhǔn)確定位協(xié)同顯著目標(biāo)的目的。通過(guò)在已公開的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)表明,本文所提算法在檢測(cè)精度和普適性上優(yōu)于目前的主流算法,具有較強(qiáng)的魯棒性。
針對(duì)常規(guī)協(xié)同顯著性目標(biāo)檢測(cè)算法復(fù)雜、設(shè)計(jì)要求較高的問(wèn)題,結(jié)合上述思路,本文設(shè)計(jì)結(jié)構(gòu)如下。
(1)對(duì)協(xié)同特征進(jìn)行提取,通過(guò)基于VGG16Net深度學(xué)習(xí)網(wǎng)絡(luò)框架的算法,構(gòu)建全卷積結(jié)構(gòu)的顯著性檢測(cè)網(wǎng)絡(luò),并簡(jiǎn)要介紹卷積神經(jīng)網(wǎng)絡(luò)如何對(duì)圖像進(jìn)行深度語(yǔ)義特征提取。
(2)為從深度語(yǔ)義特征中提取出協(xié)同特征,根據(jù)主成分分析的原理,介紹了相關(guān)的協(xié)同特征提取方法。
(3)為了對(duì)提取得到的協(xié)同特征進(jìn)行多線索融合,通過(guò)乘法融合和多層元胞自動(dòng)機(jī)兩種方法,對(duì)初始顯著圖進(jìn)行多線索融合。
(4)利用二值化的方法對(duì)顯著圖進(jìn)行優(yōu)化,并通過(guò)與其他顯著性檢測(cè)算法進(jìn)行實(shí)驗(yàn)對(duì)比,得出相關(guān)結(jié)論。
協(xié)同特征的應(yīng)用是協(xié)同顯著性檢測(cè)研究中至關(guān)重要的環(huán)節(jié)。這種協(xié)同特征一般指的是一個(gè)圖像組內(nèi)具有相同或者相似顏色、紋理或者語(yǔ)義特征的顯著目標(biāo)之間的一致性。一般來(lái)說(shuō),一個(gè)圖像組內(nèi)的協(xié)同目標(biāo)往往是包含信息量最大的部分,即該部分圖像區(qū)域所對(duì)應(yīng)的特征描述明顯地區(qū)別于其他圖像區(qū)域,而主成分分析(Principal Component Analysis,PCA)能夠很好地描述大數(shù)據(jù)中包含信息量最大的特征成分。因此受文獻(xiàn)[10-11]的啟發(fā),本文采用主成分分析法來(lái)提取圖像組之間的協(xié)同特征。
一般而言,用于描述圖像目標(biāo)檢測(cè)的特征有顏色、紋理、直方圖、對(duì)比度等低層次特征。在面對(duì)較為簡(jiǎn)單的圖像時(shí),基于這些特征的算法能夠達(dá)到一定的效果,但是當(dāng)面對(duì)的圖像場(chǎng)景較為復(fù)雜時(shí),往往存在較大的局限性。尤其是對(duì)于多圖像的協(xié)同顯著性目標(biāo)檢測(cè)而言,面臨的圖像場(chǎng)景更加復(fù)雜,需要設(shè)計(jì)具有語(yǔ)義分析功能的高級(jí)特征。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)作為深度學(xué)習(xí)的代表算法之一,在圖像處理方面有著重要的影響。它能夠自動(dòng)從大規(guī)模的數(shù)據(jù)中學(xué)習(xí)特征,并把結(jié)果向同類型未知數(shù)據(jù)泛化。通過(guò)多層卷積和池化,逐層提取圖像的特征,最終得到目標(biāo)的深度語(yǔ)義特征?;谏疃染矸e網(wǎng)絡(luò)的圖像語(yǔ)義特征提取示意圖如圖2 所示。
圖2 卷積神經(jīng)網(wǎng)絡(luò)原理
卷積神經(jīng)網(wǎng)絡(luò)一般包含輸入層、卷積層、池化層和輸出層。圖2 為卷積神經(jīng)網(wǎng)絡(luò)VGG-net 的網(wǎng)絡(luò)結(jié)構(gòu)圖。對(duì)于卷積神經(jīng)網(wǎng)絡(luò)而言,前端的卷積層往往提取的是圖像的顏色、紋理、邊緣等淺層特征,而后端卷積層是對(duì)前端的輸入特征進(jìn)行分析綜合,得到更深層次的語(yǔ)義特征。研究表明[12-13],這種語(yǔ)義特征對(duì)于準(zhǔn)確檢測(cè)圖像中的目標(biāo)更有幫助。對(duì)于輸入圖像In,經(jīng)過(guò)深度卷積網(wǎng)絡(luò)的多次卷積和池化處理,從最后一個(gè)卷積層的輸出特征為X,其維度為H×W×K(此處以VGG-net[14]為例進(jìn)行說(shuō)明),其中H和W為特征X的長(zhǎng)和寬,K為特征通道的個(gè)數(shù)。該特征向量X經(jīng)過(guò)高度抽象,去除了圖像中大量的背景冗余信息,保留了圖像中深層次的目標(biāo)語(yǔ)義信息。
式中,為所有特征向量的均值,令:
那么,根據(jù)PCA 原理,可得協(xié)方差矩陣:
對(duì)于上述協(xié)方差矩陣,可以求得最大特征值λ及其對(duì)應(yīng)的特征向量v,那么最終的協(xié)同目標(biāo)激活圖Coi(k,p)為:
圖3 協(xié)同目標(biāo)成分激活示例
第1 節(jié)得到的協(xié)同特征圖的主成分分析方式模擬了協(xié)同注意機(jī)制,將協(xié)同目標(biāo)區(qū)域的顯著值給予大致的標(biāo)注,起到初步定位協(xié)同顯著性目標(biāo)的作用,但無(wú)法明確地檢測(cè)出協(xié)同顯著性目標(biāo)的具體輪廓。而現(xiàn)有的許多圖像顯著性檢測(cè)算法結(jié)果中,大多檢測(cè)結(jié)果比較準(zhǔn)確,但是存在干擾目標(biāo)的影響,無(wú)法準(zhǔn)確檢測(cè)出具有協(xié)同性的目標(biāo)。本節(jié)基于現(xiàn)有圖像顯著性目標(biāo)檢測(cè)算法提供的顯著性目標(biāo)檢測(cè)結(jié)果,首先將前文得到的協(xié)同顯著性目標(biāo)特征圖作為先驗(yàn)信息;其次,將協(xié)同特征圖與現(xiàn)有的顯著性目標(biāo)初始候選對(duì)象進(jìn)行乘法融合,以對(duì)初始目標(biāo)候選對(duì)象進(jìn)行修正,去除不具有協(xié)同一致性的目標(biāo)對(duì)象;最后,運(yùn)用多層元胞自動(dòng)機(jī)對(duì)不同線索進(jìn)行融合,從而充分利用不同檢測(cè)方法之間的互補(bǔ)性,提升檢測(cè)結(jié)果。其基本流程如圖4 所示。
圖4 多線索融合流程
式中,為修正后的顯著圖,由此可以得到圖像Ii的N個(gè)線索。文獻(xiàn)[15]提出多層元胞自動(dòng)機(jī)算法來(lái)對(duì)多個(gè)顯著圖線索進(jìn)行融合,多層元胞自動(dòng)機(jī)模型能夠充分利用不同線索之間的互補(bǔ)性,構(gòu)造多個(gè)線索之間的影響關(guān)系,通過(guò)不斷迭代更新,求得最終的顯著圖。適用于顯著圖融合的多層元胞自動(dòng)機(jī)的數(shù)學(xué)模型為:
式中:l(·)為以e為底的對(duì)數(shù)函數(shù);可以理解為線索為m的顯著圖在“感受”到其他線索的狀態(tài)后,在下一次t+1 時(shí)刻更新后的顯著值;Smt為其在t時(shí)刻的顯著值;γk為自適應(yīng)閾值;η為固定常數(shù),一般取0.15。由式(6)可知,若一個(gè)線索“感受”它的鄰居(其他線索)的顯著值“狀態(tài)”后,它應(yīng)該相應(yīng)增加或者減少自身的顯著值,以保證和其他線索能共同構(gòu)成一個(gè)穩(wěn)定的狀態(tài)。
對(duì)于協(xié)同顯著性檢測(cè)而言,本文基于協(xié)同特征圖對(duì)不同線索進(jìn)行修正引導(dǎo)后,分別將送入多層元胞自動(dòng)機(jī)模型中,使不同的顯著圖線索相互影響,并達(dá)到一個(gè)相對(duì)穩(wěn)定的狀態(tài)后輸出最終顯著圖結(jié)果。判斷穩(wěn)態(tài)的收斂條件為:
式中,ξ為一個(gè)較小的非零閾值,一般情況下當(dāng)所有顯著圖線索不再發(fā)生明顯差異時(shí),即可以認(rèn)為更新達(dá)到穩(wěn)定狀態(tài)。
本文在實(shí)驗(yàn)測(cè)試中,主要采用了通過(guò)模板引導(dǎo)的協(xié)同顯著性檢測(cè)算法(Co-Saliency Detection via Mask-Guided,CSMG)[16]、通過(guò)邊緣網(wǎng)絡(luò)引導(dǎo)的顯著性目標(biāo)檢測(cè)算法(Edge Guidance Network for Salient Object Detection,EGNET)[17]以及魯棒背景檢測(cè)中的顯著性優(yōu)化算法(Saliency Optimization from Robust Background Detection,RBD)[18]3 種 顯著性算法進(jìn)行融合,主要原因是這些算法對(duì)于目標(biāo)的邊緣檢測(cè)效果較好,能夠彌補(bǔ)本文協(xié)同顯著圖對(duì)于目標(biāo)邊緣檢測(cè)結(jié)果較差的缺點(diǎn)。圖5 給出了幾個(gè)示例,從圖3 中可以看出進(jìn)行多線索融合后的圖像相較于未融合的目標(biāo)顯著圖在目標(biāo)識(shí)別的準(zhǔn)確度上有顯著的提升。
圖5 多線索融合示例
本文算法輸入圖像Map,輸出顯著圖Sal。整體流程如下所示:
(1)利用深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)輸入的相關(guān)群組圖像提取深度特征X;
(2)對(duì)卷積層得到的深度特征X進(jìn)行主成分分析,得到相應(yīng)的協(xié)同特征向量ξ*;
(3)利用協(xié)同特征向量和初始顯著性目標(biāo)候選對(duì)象進(jìn)行乘法融合,得到顯著圖;
(4)利用元胞自動(dòng)機(jī)對(duì)顯著圖進(jìn)行多線索融合;
(5)對(duì)融合顯著圖進(jìn)行優(yōu)化,得到最終顯著圖。
3.1.1 測(cè)試數(shù)據(jù)集
本文在iCoseg 數(shù)據(jù)集上[19]對(duì)各類算法進(jìn)行測(cè)試。iCoseg 數(shù)據(jù)集中包含各類物品、人物、建筑等目標(biāo),背景復(fù)雜,具有一定的挑戰(zhàn)性,能夠有效地檢測(cè)協(xié)同顯著性模型的適用性,數(shù)據(jù)集中的每一張圖片都有像素級(jí)別的真值標(biāo)注,以便和計(jì)算結(jié)果進(jìn)行對(duì)比。本文主要結(jié)合基于聚類的協(xié)同顯著性檢測(cè)算法(Cluster Based Co-saliency Detection,CB_C)[20]、CSMG、基于層次分割的協(xié)同顯著性目標(biāo)檢測(cè)算法(Co-saliency Detection Based on Hierarchical Segmentation,HS)[4]、RBD 這5 種算法,對(duì)結(jié)果進(jìn)行分析與比較。
3.1.2 評(píng)價(jià)指標(biāo)
本文主要通過(guò)PR 曲線、平均絕對(duì)誤差(Mean Absolute Error,MAE)、F-measure值、S-measure值[21]4 個(gè)評(píng)價(jià)指標(biāo)對(duì)結(jié)果進(jìn)行評(píng)價(jià)。PR 曲線中的P代表的是Precision(精準(zhǔn)率),R 代表的是Recall(召回率),其代表的是精準(zhǔn)率與召回率的關(guān)系;MAE值為平均絕對(duì)誤差,其在像素層次計(jì)算顯著圖s(x,y)與真值圖g(x,y)之間的誤差,并在整幅圖像上求平均:
式中,W、H分別為圖像的寬與高。
F-measure值為精確度和召回率的加權(quán)和平均,用于測(cè)量?jī)煞鶊D像相匹配的程度:
式中:P為精確度;R為召回率;β2為參數(shù),取0.3。
S-measure為目標(biāo)顯著圖的背景圖和真值圖之間的相似值,計(jì)算得出兩者之間的得分:
式中:So和Sr分別為面向物體和面向區(qū)域的結(jié)構(gòu)相似性度量;α為參數(shù),取0.5。
圖6 給出了本文算法與其他算法的檢測(cè)結(jié)果示例,可以看出:CB_C 算法顯著值差異大,且存在錯(cuò)檢誤檢的情況;CSMG 算法總體較好,但是存在檢測(cè)目標(biāo)不完全的情況;HS 算法由于其檢測(cè)存在局限性,因此前景和背景在特定情況下無(wú)法進(jìn)行有效區(qū)分和檢測(cè)。本文通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取圖像的深度特征,使其能夠準(zhǔn)確定位顯著目標(biāo),同時(shí)通過(guò)多層元胞自動(dòng)機(jī),利用互補(bǔ)性來(lái)彌補(bǔ)算法之間的不足。因此,本文算法在上述場(chǎng)景下都能夠更加精確地檢測(cè)出共同目標(biāo)區(qū)域,而且?guī)缀醪淮嬖谡`檢測(cè)問(wèn)題,體現(xiàn)了較強(qiáng)的魯棒性。
圖6 本文算法與其他算法對(duì)比
MAE值、F-measure值、S-measure值作為圖像檢測(cè)精度和誤差的重要指標(biāo),在一定程度上決定了顯著性目標(biāo)圖的好壞。其中:MAE值越小,代表圖像的平均絕對(duì)誤差越??;F-measure值越大,代表圖像的精確率和召回率越高;S-measure值越大,代表圖像與真值圖之間相似度越高。通過(guò)3.1 節(jié)中提到的計(jì)算方法,表1 給出了本文算法與其他算法的MAE值、F-measure值、S-measure值的對(duì)比。
表1 不同算法的評(píng)估結(jié)果對(duì)比
從表1 中數(shù)據(jù)可以看出,本文算法在MAE值上均低于其他算法,F(xiàn)-measure和S-measure值均大于其他算法,從圖7可以看出:在閾值大于230時(shí),本文所提的算法F-measure值大于其他算法,并且在低于230 時(shí)也大于其余大部分算法,表明了該算法的精確率和召回率較高,結(jié)果與真值圖之間的匹配程度較好。
圖7 各算法F-measure 曲線
同時(shí)本文畫出了目標(biāo)顯著圖的PR 曲線,并給出了本文算法和其他算法的比較。圖8 給出了本文算法和部分其他算法在數(shù)據(jù)集上的PR 曲線,可以看出本文算法所得結(jié)果擁有較為飽和的PR 曲線,說(shuō)明本文算法在精確度與召回率方面相對(duì)于以往算法均有一定的提升。
圖8 各算法PR 曲線
綜上,本文在MAE值、F-measure值、S-measure值上均大于其他幾種算法,并且在精準(zhǔn)度、召回率、PR 曲線等指標(biāo)下也優(yōu)于大部分算法。以上實(shí)驗(yàn)數(shù)據(jù)說(shuō)明了本文所提算法產(chǎn)生的顯著圖與真值圖更加接近,且各方面性能指標(biāo)均優(yōu)于大部分算法。
本文提出了基于協(xié)同特征和多線索融合的顯著性目標(biāo)檢測(cè)算法。所提算法結(jié)合深度學(xué)習(xí)和主成分分析提取目標(biāo)的協(xié)同特征,以此來(lái)確保顯著性目標(biāo)提取的準(zhǔn)確性和普適性。為了充分利用各算法之間的互補(bǔ)性,本文通過(guò)多層元胞自動(dòng)機(jī)對(duì)顯著圖進(jìn)行優(yōu)化,使得顯著圖相較于未優(yōu)化前有了明顯的改善,提升了算法在面對(duì)復(fù)雜場(chǎng)景時(shí)的適用性。實(shí)驗(yàn)表明,本文所提算法能夠在一定程度上改善顯著性目標(biāo)檢測(cè)的準(zhǔn)確性,有效區(qū)分檢測(cè)目標(biāo)邊界輪廓,并且各項(xiàng)參數(shù)均優(yōu)于目前主流的大部分顯著性目標(biāo)檢測(cè)算法,具有較強(qiáng)的魯棒性和適用性。