曾祥鑫,李 飚,劉 坤
(國防科學(xué)技術(shù)大學(xué)ATR重點(diǎn)實(shí)驗(yàn)室,長沙 410073)
視覺顯著性的概念是在研究人類視覺感知機(jī)制的過程中提出的。針對人類視覺系統(tǒng)(human visual system,HVS)的研究發(fā)現(xiàn),對于一幅圖像,人眼可以快速地將圖像中的目標(biāo)和背景分離出來,并且通常對圖像中部分區(qū)域的關(guān)注度較高[1],這部分區(qū)域也稱為感興趣區(qū)域(regions of interest,ROI)。顯著性檢測的研究目的在于使機(jī)器可以模擬人類的視覺自動定位到圖像中“顯著”或“感興趣”的目標(biāo)對象,在圖像自適應(yīng)壓縮、目標(biāo)檢測與分割、圖像檢索等多個方面都具有廣泛的應(yīng)用前景,是當(dāng)前計(jì)算機(jī)視覺領(lǐng)域研究的一個熱點(diǎn)。
視覺顯著性的計(jì)算模型大致可以分為自底向上的數(shù)據(jù)驅(qū)動模型和自頂向下的任務(wù)驅(qū)動模型。任務(wù)驅(qū)動模型的思想是利用先驗(yàn)知識建模來計(jì)算顯著性,以解決特定場景下的應(yīng)用問題。在從底層特征出發(fā)的數(shù)據(jù)驅(qū)動模型中比較經(jīng)典的有從生物視覺原理出發(fā)提出的Itti模型[2],該模型通過提取圖像在不同尺度下的顏色、亮度、方向特征,再根據(jù)特征融合策略生成最終的顯著圖。Hou等[3]從頻域出發(fā),提出利用圖像傅里葉變換后的幅度譜殘差來計(jì)算顯著度。文獻(xiàn)[4]基于全局對比度,定義單個像素的顯著度為該像素與圖像中其他所有像素的距離總和,并采用直方圖統(tǒng)計(jì)的方法優(yōu)化計(jì)算。Cheng等[5]在文獻(xiàn)[4]的基礎(chǔ)上進(jìn)一步利用顏色信息,在RGB空間對顏色通道進(jìn)行量化,以及采用顏色合并、平滑等操作來減少計(jì)算量,最后基于顏色直方圖統(tǒng)計(jì)信息計(jì)算全局顯著度。Achanta等在文獻(xiàn)[6]中提出頻率調(diào)諧方法,采用某個像素的顏色與平滑處理后的圖像顏色均值之間的差異來定義該像素的顯著性。在上述自底向上的顯著性檢測算法中,幾乎都以目標(biāo)和背景的差異為前提,從圖像的局部或全局出發(fā),以對比度來計(jì)算顯著性。本文從基于全局對比度的方法[4-8]中得到啟發(fā),結(jié)合對圖像中顯著目標(biāo)的結(jié)構(gòu)信息的先驗(yàn)知識分析,針對現(xiàn)有的算法進(jìn)行改進(jìn),通過抑制背景的干擾和引入空間位置關(guān)系,取得了較好的檢測效果。
根據(jù)視覺特性,人眼通常對圖像中的結(jié)構(gòu)信息表現(xiàn)出較高的敏感性[9]。圖像中的顯著部分也是人眼關(guān)注的感興趣區(qū)域,其大多數(shù)情況下都具有較豐富的結(jié)構(gòu)特征。因此,采用檢測區(qū)域的結(jié)構(gòu)特征也成為顯著性檢測的一種有效方式。Weickert等[10]提出將結(jié)構(gòu)張量(structure tensor)作為圖像分析的有力工具,已成功應(yīng)用到圖像結(jié)構(gòu)方向場計(jì)算、特征檢測和圖像去噪等領(lǐng)域。本文采用局部結(jié)構(gòu)張量對圖像局部幾何結(jié)構(gòu)特征進(jìn)行分析。
圖像梯度的變化可以有效地表明局部區(qū)域的同質(zhì)化程度。通常,圖像中的背景部分較為平坦,同質(zhì)化程度較高,顯著度低,而目標(biāo)部分結(jié)構(gòu)化特征明顯,顯著度較高。采用基于圖塊的形式對區(qū)域的同質(zhì)性進(jìn)行檢測,考慮圖像中的某一個像素p,在該像素的N×N鄰域計(jì)算局部梯度向量[11]:
該圖塊的局部結(jié)構(gòu)張量(也稱為局部梯度協(xié)方差矩陣)定義為
式中:Gρ是方差為ρ的高斯函數(shù),主要用來減少圖像噪聲對梯度運(yùn)算的影響。
通過對局部結(jié)構(gòu)張量矩陣的分析,可知矩陣的特征值能反映該區(qū)域結(jié)構(gòu)的復(fù)雜度。在圖像平坦區(qū)域,矩陣特征值λ1和λ2都較小,表明該區(qū)域的同質(zhì)化程度較高;在復(fù)雜結(jié)構(gòu)區(qū)域中,特征值λ1或λ2相對較大,表明在相應(yīng)特征方向上的灰度梯度變化較大。對圖像進(jìn)行分塊預(yù)處理,通過設(shè)定一個經(jīng)驗(yàn)閾值λ,可以大致區(qū)分圖像的結(jié)構(gòu)區(qū)域和非結(jié)構(gòu)區(qū)域[12],結(jié)果如圖1所示。
圖1 結(jié)構(gòu)區(qū)域和非結(jié)構(gòu)區(qū)域檢測結(jié)果
作為一種重要的底層特征,顏色信息可以直觀地描述自然圖像的特征分布,人們很容易注意到與背景形成鮮明顏色對比的區(qū)域?;谌謱Ρ榷鹊娘@著性檢測模型可以對圖像中相似的區(qū)域分配一個相近的顯著性值,均勻地突出目標(biāo)。在圖像結(jié)構(gòu)化區(qū)域檢測中,通過局部結(jié)構(gòu)張量分析得到了關(guān)于背景和前景目標(biāo)的粗略分布信息。以此為基礎(chǔ),對基于全局顏色對比度的顯著性檢測主要考慮兩個方面:根據(jù)已獲得的背景先驗(yàn)知識,以全局顏色對比度計(jì)算顯著度;根據(jù)顯著性目標(biāo)的空間分布信息,一致性突出顯著目標(biāo)。
1.2.1 全局對比度計(jì)算
考慮到CIELab顏色模型與人眼視覺的相似性,分別提取圖像對應(yīng)到該顏色空間上的l,a和b分量作為圖像顏色特征值。與Achanta等提出的FT算法[5]利用圖像整體平滑后的顏色均值作為參考值不同的是,本文利用得到的目標(biāo)和背景的先驗(yàn)信息生成背景掩膜,計(jì)算背景部分的所有像素的顏色均值,以圖像中的所有像素與該均值的差值定義全局顯著度:其中:為第p個像素的顏色特征矢量;為背景顏色均值矢量;表示歐式距離。
1.2.2 空間位置關(guān)系
在從全局計(jì)算每個像素的顏色特征相對于背景顏色均值的對比度時(shí),還應(yīng)注意到目標(biāo)在圖像中通常是集中分布的特性,即需要考慮以目標(biāo)的空間位置為參考的空間關(guān)系[13]。同樣,根據(jù)背景掩膜的分布情況,可以定義圖像中目標(biāo)區(qū)域的中心位置Pm=(xm,ym),xm和ym為掩膜中前景目標(biāo)的質(zhì)心坐標(biāo)。對其進(jìn)行歸一化,以此定義空間位置關(guān)系度量和空間關(guān)系權(quán)重系數(shù)(見圖2(b)):
其中:σ為空間關(guān)系權(quán)重因子,用來衡量空間距離權(quán)重對顯著度的影響程度。
計(jì)算全局對比度顯著性,在考慮顏色對比度對顯著性貢獻(xiàn)時(shí),以空間位置關(guān)系作為全局對比度顯著性計(jì)算的權(quán)重參數(shù),定義基于顏色的全局對比度顯著性為
圖2 顯著性檢測各步驟對應(yīng)的顯著圖
全局顏色對比度的顯著性檢測由于是基于背景抑制的方式和通過參考空間分布的先驗(yàn)信息,因而得到的顯著圖具有全分辨率,更突出體現(xiàn)在具有較高對比度的目標(biāo)上。通常由于目標(biāo)顏色分布的均勻性,目標(biāo)處的顯著度一致性較好,對單一背景下的目標(biāo)檢測的結(jié)果更加驗(yàn)證了這一點(diǎn)(見圖2(c))。其不足之處是局部結(jié)構(gòu)檢測只得到關(guān)于目標(biāo)和背景的粗略分布信息,故在背景雜波較多、紋理復(fù)雜的情況下會在背景中對比度較高處也表現(xiàn)出較大的顯著度。
文獻(xiàn)[3]基于頻域譜殘差(SR)的方法,利用對灰度圖像傅里葉變換后的幅度譜均值濾波計(jì)算殘差譜,再結(jié)合相位譜逆變換生成顯著圖(見圖2(d))。由于SR方法對冗余背景的濾波效果較好,均勻紋理的背景所呈現(xiàn)的顯著值較低,故通過一定的規(guī)范化處理使其滿足像素級的輸出。綜合考慮上述兩種顯著圖的優(yōu)勢,可以采用下面的非線性融合方式對基于顏色對比度的顯著圖進(jìn)行優(yōu)化。
式中:SSR和Sglobal分別代表基于譜殘差法的顯著性圖像和基于全局顏色對比度的顯著性圖像。通過歸一化處理,在像素級上完成兩種顯著性檢測模型的優(yōu)化整合。λ11=0.1,λ12=0.9,λ21=0.8,λ22=0.2為多次實(shí)驗(yàn)得到的權(quán)值參數(shù)。S1強(qiáng)調(diào)顯著性目標(biāo)的完整性,S2突出顯著性目標(biāo)的邊緣。經(jīng)過融合后的顯著圖(見圖2(e))明顯增強(qiáng)了顯著性目標(biāo)區(qū)域,抑制了背景以及可能存在的弱小顯著目標(biāo)。
使用Achanta等提出的公共數(shù)據(jù)集MSRA-1000[6]對本文算法進(jìn)行分析評價(jià)。該數(shù)據(jù)集共包含1 000幅自然圖像,均來自MSRA顯著目標(biāo)數(shù)據(jù)庫,并且每幅圖都提供了與顯著區(qū)域相對應(yīng)的人工標(biāo)注的二值基準(zhǔn)圖像(ground truth,GT)。圖3直觀地給出了本文算法(Ours)與應(yīng)用較多的幾種顯著性檢測算法(SR[3],GB[14],AC[15],F(xiàn)T[6],HC[5])在上述數(shù)據(jù)集上的檢測比較結(jié)果,其中(a)和(b)分別為原始圖像和GT人工分割圖。可以看出:以上幾種算法均能在一定程度上達(dá)到符合人眼主觀感覺的顯著性目標(biāo)檢測水平的要求,其中FT算法、HC算法與本文算法所檢測的結(jié)果相對更優(yōu),并且可以看出本文算法在突出目標(biāo)區(qū)域、抑制背景方面取得了更明顯的效果。
為了客觀地比較不同的顯著性檢測方法對高亮顯著目標(biāo)區(qū)域的效果,設(shè)定兩組實(shí)驗(yàn)進(jìn)行分析。實(shí)驗(yàn)1以準(zhǔn)確率和召回率(precision-recall,PR)曲線作為衡量顯著區(qū)域檢測算法性能的評價(jià)指標(biāo)。準(zhǔn)確率反映了檢測算法的有效性,即算法所檢測到的顯著性像素同時(shí)是人工標(biāo)注顯著區(qū)域像素與整個顯著檢測區(qū)域的比值。召回率則是人工標(biāo)注的參考區(qū)域中能被正確檢測的像素比值,體現(xiàn)了算法檢測的完整性。通過設(shè)定固定閾值T∈[0,255]來二值化顯著性圖像,并繪制 PR曲線。圖4(a)給出了本文所提出的算法與其他幾種算法的準(zhǔn)確率和召回率的計(jì)算結(jié)果。實(shí)驗(yàn)2對顯著圖進(jìn)行自適應(yīng)閾值分割,設(shè)定自適應(yīng)閾值為自身顯著圖均值的2倍,引入F-measure評價(jià)方法,即在綜合平均準(zhǔn)確率和平均召回率的基礎(chǔ)上評價(jià)顯著性區(qū)域的檢測效果,結(jié)果見圖4(b)。自適應(yīng)分割閾值和F-measure指標(biāo)的計(jì)算公式如下:
其中:H和W為顯著圖的高和寬;S(i,j)為坐標(biāo)(i,j)處的像素顯著值;β為權(quán)衡平均準(zhǔn)確率和平均召回率的影響程度,設(shè)定β2=0.3使得平均準(zhǔn)確率的權(quán)重高于平均召回率。由圖4可以看出:本文算法取得了較好的檢測準(zhǔn)確率和召回率,與本文算法思路較接近的FT算法相比性能提升明顯。
圖3 幾種顯著性檢測算法顯著圖的直觀比較
圖4 顯著性檢測算法客觀性能比較分析
通過對圖像中顯著目標(biāo)的結(jié)構(gòu)特征的分析,為基于圖像全局顏色對比度特征的顯著性檢測模型提供了更多的先驗(yàn)信息,使檢測結(jié)果更加突出目標(biāo)區(qū)域,抑制背景的干擾和影響。本文算法在較復(fù)雜的自然場景下對顯著目標(biāo)定位準(zhǔn)確,所檢測的目標(biāo)與背景的顯著度差異明顯。后續(xù)工作將進(jìn)一步解決目標(biāo)區(qū)域非均勻情況下的顯著區(qū)域一致高亮的問題。
[1]Jiang P,Ling H,Yu J,et al.Salient Region Detection by UFO:Uniqueness,F(xiàn)ocusness and Objectness[C]//IEEE International Conference on Computer Vision.USA:[s.n.],2013:1976-1983.
[2]Itti L,Koch C,Niebur E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(11):1254-1259.
[3]Hou X,Zhang L.Saliency detection:A spectral residual approach[C]//IEEE Conference on Computer Vision and Pattern Recognition.USA:[s.n.],2007:1-8.
[4]Zhai Y,Shah M.Visual attention detection in video sequences using spatiotemporal cues[C]//ACM International Conference on Multimedia.USA:[s.n.],2005:815-824.
[5]Cheng M,Zhang G,Mitra N,et al.Global contrast based salient region detection[C]//IEEE Conference on Computer Vision and Pattern Recognition.USA:[s.n.],2011:409-416.
[6]Achanta R,Hemami S,Estrada F,et al.Frequency-tuned salient region detection[C]//IEEE Conference on Computer Vision and Pattern Recognition.USA:[s.n.],2009:1597-1604.
[7]Perazzi F,Krahenbuhl P,Pritch Y,et al.Saliency filters:Contrast based filtering for salient region detection[C]//IEEE Conference on Computer Vision and Pattern Recognition.USA:[s.n.],2012:733-740.
[8]Jiang Z,Davis L S.Submodular salient region detection[C]//IEEE Conference on Computer Vision and Pattern Recognition.USA:[s.n.],2013:2043-2050.
[9]李崇飛,高穎慧,盧凱,等.基于結(jié)構(gòu)相似度的視覺顯著性檢測方法[J].計(jì)算機(jī)工程與科學(xué),2013,35(10):181-185.
[10]Weickert J.Anisotropic Diffusion in Image Processing[M].Germany:Teubner,Stuttgart,1988.
[11]邵宇,孫富春,劉瑩.基于局部結(jié)構(gòu)張量的無參考型圖像質(zhì)量評價(jià)方法[J].電子與信息學(xué)報(bào),2012,34(8):1779-1785.
[12]Junq C,Kim C.A unified spectral-domain approach for saliency detection and its application to automatic object segmentation[J].IEEE Transactions on Image Processing,2012,21(3):1272-1283.
[13]Zhou L,Yang Z.Salient region detection based on spatial and background priors[C]//IEEE International Conference on Information and Automation.USA:[s.n.],2014:262-266.
[14]Harel J,Koch C,Perona P.Graph-based visual saliency[J].Advances in Neural Information Processing Systems,2006,19:545-552.
[15]Achanta R,Estrada F,Wils P,et al.Salient region detection and segmentation[C]//IEEE Conference on Computer Vision Systems.USA:[s.n.],2008:66-75.