張建興,李軍,石慶龍
重慶大學(xué)自動(dòng)化學(xué)院,重慶400044
視覺(jué)注意力機(jī)制被研究者廣泛運(yùn)用于機(jī)器視覺(jué)和機(jī)器人目標(biāo)跟蹤領(lǐng)域[1],其主要包括兩種類型[2-3]:自下而上注意力(Bottom-Up attention,BU注意力”)機(jī)制和自上而下注意力(Top-Down attention,TD注意力)機(jī)制。BU注意力機(jī)制即由底層數(shù)據(jù)到上層注意力的過(guò)程,注意目標(biāo)的取得完全來(lái)源于場(chǎng)景圖像信息。TD注意力機(jī)制遵循自上而下過(guò)程,即依據(jù)任務(wù)目標(biāo)決定底層場(chǎng)景圖像中吸引注意力的區(qū)域。這是兩個(gè)完全相反的過(guò)程。
單純的TD注意力機(jī)制有高度的自主性和復(fù)雜性,主要體現(xiàn)在任務(wù)目標(biāo)的不確定性與隨意性,難以較精確地建立其模型機(jī)制,導(dǎo)致運(yùn)用上的局限性。另一方面,BU注意力過(guò)程依據(jù)輸入場(chǎng)景圖像的諸如亮度、顏色和方向等特征來(lái)選擇注意力顯著區(qū)域。該過(guò)程可以看做是人類早期視覺(jué)系統(tǒng)的注意力選擇機(jī)制,其建模相對(duì)容易,受到很多研究者關(guān)注[4],其中的代表是Itti模型[5]。它利用從圖像中提取亮度、顏色和方向等底層特征構(gòu)造視覺(jué)注意力顯著圖,由視覺(jué)顯著圖吸引注意力,分割目標(biāo)物體。該方法模型簡(jiǎn)單,對(duì)噪聲的魯棒性好,特別是當(dāng)噪聲的特性不直接破壞目標(biāo)的主要特征的時(shí)候。缺點(diǎn)是當(dāng)干擾物與目標(biāo)有部分特征類似時(shí),干擾物也會(huì)有不同程度的顯著度,從而對(duì)目標(biāo)的注意產(chǎn)生一定影響。Amudha與Soman[6]提出了一種新的基于注意力的感知方法,該方法使用任務(wù)并行和合并的選擇調(diào)諧模型來(lái)進(jìn)行注意區(qū)域檢測(cè)。該模型作為目標(biāo)識(shí)別算法包含預(yù)處理過(guò)程時(shí),有效減少搜索的計(jì)算復(fù)雜度,在視頻序列上進(jìn)行標(biāo)記應(yīng)用的測(cè)試也取得較理想的結(jié)果。Itti與Baldi[7]提出一種新的貝葉斯驚奇模型,模型把貝葉斯理論運(yùn)用到人類視覺(jué)注意力驚奇模型,以此衡量數(shù)據(jù)對(duì)觀測(cè)者的吸引程度。盡管這個(gè)驚奇模型只是在場(chǎng)景時(shí)間和空間上的低水平量化,沒(méi)有豐富的語(yǔ)義規(guī)則,但也較準(zhǔn)確的檢測(cè)到人類感興趣區(qū)域,只是與其他方法相比,檢測(cè)到的感興趣目標(biāo)相對(duì)較多。Wen[8]等人提出了一種基于小物體的視覺(jué)注意力感知模型,該模型以Itti注意力模型為基礎(chǔ),在生成顯著圖之后運(yùn)用高斯混合模型(GMM)對(duì)顯著圖進(jìn)行進(jìn)一步精確化得到感興趣區(qū)域。該方法能更精確地檢測(cè)到目標(biāo),尤其對(duì)小目標(biāo)的感知有較好的效果。
上述方法和運(yùn)用雖然在特定運(yùn)用場(chǎng)景中取得了較好的預(yù)期感知結(jié)果,但是經(jīng)過(guò)仔細(xì)研究發(fā)現(xiàn),當(dāng)場(chǎng)景中目標(biāo)的顯著程度低于背景或其他物體時(shí),注意力往往不被目標(biāo)吸引,從而不能得到滿意的結(jié)果。因此本文提出一種改進(jìn)的基于注意力的圖像分割方法,使得當(dāng)目標(biāo)顯著度低于背景或其他物體時(shí)也能被較準(zhǔn)確的分割。
本文提出的目標(biāo)分割方法如圖1所示,包含三部分:場(chǎng)景特征圖生成、集成顯著圖和圖像分割目標(biāo)的提取。其中場(chǎng)景特征圖的生成由兩類特征組成:?jiǎn)渭冏韵露?,由?shù)據(jù)驅(qū)動(dòng)直接從場(chǎng)景圖像提取到的三類特征(顏色特征、亮度特征、方向特征);自上而下,結(jié)合目標(biāo)任務(wù)與場(chǎng)景圖像共同提取到的目標(biāo)色彩特征。根據(jù)從場(chǎng)景圖像中提取到的三類特征與結(jié)合目標(biāo)任務(wù)、場(chǎng)景圖像共同提取到的特征通過(guò)分步進(jìn)行的方式集成一張最終顯著圖。圖像分割目標(biāo)的提取使用閾值分割法從最終顯著圖分割出注意力目標(biāo)區(qū)域,進(jìn)而分割出目標(biāo)物體。
圖1 圖像分割系統(tǒng)結(jié)構(gòu)圖
將輸入的場(chǎng)景圖像使用二進(jìn)高斯金字塔產(chǎn)生9尺度圖(0∶8尺度),在8個(gè)倍頻程中從1∶1,1∶2,1∶4,…,1∶256(分別對(duì)應(yīng)0,1,…,8尺度)。通過(guò)與視覺(jué)接受域類似的線性“中心圍繞”操作計(jì)算每個(gè)特征,再用跨尺度融合。中心圍繞算子在模型中通過(guò)對(duì)周圍尺度s線性插值至中心尺度等大小后與中心尺度c進(jìn)行點(diǎn)對(duì)點(diǎn)相減實(shí)現(xiàn)(下文用Θ表示)。中心是尺度c∈{2,3,4}中的像素,周圍是尺度s=c+d,其中d∈{3,4}。
生成顯著圖的4個(gè)特征,分別是亮度特征、顏色特征、方向特征和目標(biāo)色彩特征。對(duì)于RGB色彩模型,r、g、b分別代表紅、綠、藍(lán)3個(gè)色彩通道的值,取值范圍[0,1]),亮度I經(jīng)
計(jì)算得到。由9尺度高斯金字塔得到亮度高斯金字塔I(δ),δ∈[0..8]表示尺度。r、g、b用I歸一化,目的是降低亮度對(duì)色彩的耦合。因?yàn)橹挥挟?dāng)亮度達(dá)到一定程度時(shí),色彩才能被感知,故僅當(dāng)I大于整個(gè)圖像亮度1/10時(shí)進(jìn)行歸一化操作,否則r=g=b=0。特征圖由高斯金字塔進(jìn)行中心圍繞操作(Θ)即上文提到的由中心細(xì)尺度c與周圍粗尺度s的差值得到。亮度特征圖I(c,s)計(jì)算公式如下:
將r、g、b 3個(gè)色彩通道擴(kuò)展為R、G、B、Y(分別表示紅、綠、藍(lán)、黃)4個(gè)色彩通道,定義如下:
高斯金字塔R(δ)、G(δ)、B(δ)、Y(δ)分別由以上4個(gè)新通道得到。顏色特征圖的構(gòu)造是依據(jù)靈長(zhǎng)類動(dòng)物大腦皮質(zhì)的“顏色雙競(jìng)爭(zhēng)”系統(tǒng)[9]:在視覺(jué)接受域中心,神經(jīng)元被一種顏色(如紅色)激發(fā)的同時(shí)抑制另一種顏色(如綠色),反過(guò)來(lái)也是一樣的。這樣在人類主要視覺(jué)皮質(zhì)里就存在4個(gè)空間色彩對(duì):紅與綠,綠與紅,藍(lán)與黃,黃與藍(lán)。在本文用特征圖RG(c,s)表示紅與綠和綠與紅兩個(gè)色彩對(duì),用特征圖BY(c,s)表示藍(lán)與黃和黃與藍(lán)兩個(gè)色彩對(duì),其計(jì)算公式如下:
方向特征圖的構(gòu)造運(yùn)用了方向Garbor金字塔O(δ,θ),δ代表尺度,θ∈{0°,45°,90°,135°}代表4個(gè)方向。(Garbor濾波器使用余弦光柵與二維高斯卷積,目的是與視覺(jué)皮質(zhì)中主要負(fù)責(zé)方向感知的神經(jīng)元在視野中敏感性相一致)。方向特征圖O(c,s,θ)計(jì)算公式如下:
目標(biāo)色彩特征圖是自上而下,依據(jù)任務(wù)目標(biāo)得到的特征圖。其形成是依據(jù)輸入目標(biāo)圖像中色彩成分所占比重最多的兩種顏色(兩種顏色值分別用m1、m2表示),目的是強(qiáng)化目標(biāo)的顏色特征,使其在較顯著的背景或其他物體干擾的情形下也能被感知。目標(biāo)色彩特征圖P(c,s,m),計(jì)算原理如下(f(i,j)表示場(chǎng)景圖像中對(duì)應(yīng)點(diǎn)的顏色值,且值為(r0,g0,b0);m對(duì)應(yīng)的顏色值為(r,g,b),m∈(m1,m2)。
(1)場(chǎng)景圖像顏色與m越相似,則相應(yīng)點(diǎn)特征值越大;
(2)相似度太低則對(duì)應(yīng)點(diǎn)特征值為0,即若|r0-r|,|g0–g|,|b0–b|3個(gè)值中其中一個(gè)大于TT(本實(shí)驗(yàn)中取TT=80/255)則P(ψ,m)=0,(P(ψ,m)表示每個(gè)尺度的目標(biāo)色彩特征值,ψ表示任意尺度);否則:
上式中先計(jì)算出中心尺度和周圍尺度的目標(biāo)色彩特征值,再使用中心圍繞算子操作計(jì)算輸入目標(biāo)圖像中色彩成分所占比重最多的兩種顏色對(duì)應(yīng)的目標(biāo)色彩特征圖。
根據(jù)得到的54幅特征圖:亮度特征圖6幅,顏色特征圖12幅,方向特征圖24幅,目標(biāo)色彩特征圖12幅。利用特征圖生成視覺(jué)注意力顯著圖時(shí),由于每個(gè)特征圖都可能包含顯著性不明顯的物體,為了減少不明顯物體的干擾,本文不是將所有特征圖直接集成為一張顯著圖,而是采用分步進(jìn)行的方式。第一步先將這些不同類別的特征圖用歸一化和跨尺度融合為4張顯著圖,分別是亮度顯著圖、顏色顯著圖、方向顯著圖和目標(biāo)色彩顯著圖,第二步將這4幅顯著圖集成為1張最終顯著圖S(見(jiàn)公式(7))。
歸一化操作(用N(·)表示)的目的是在缺少TD監(jiān)督的情況下,整體提升有部分強(qiáng)刺激峰值,而整體抑制包含大量類似峰值響應(yīng)。其計(jì)算方法是首先將圖像取值規(guī)范化為[0,M],以消除幅值產(chǎn)生的差異,其次計(jì)算圖像中最大值M和其他所有局部極大值的平均值,然后再整幅圖像乘以
跨尺度融合(用“⊕”表示)過(guò)程是將每一個(gè)歸一化的特征圖壓縮到尺度4再對(duì)應(yīng)點(diǎn)相加。亮度顯著圖顏色顯著圖方向顯著圖和目標(biāo)色彩顯著圖的生成,以及將這4幅顯著圖集成為最終顯著圖S的計(jì)算公式如下:
最終顯著圖S的最大值點(diǎn)定義了最顯著圖像的位置,即是注意力焦點(diǎn)。為了提取注意力焦點(diǎn),將其雙線性插值到0尺度(與原圖等大小)計(jì)算每個(gè)單連通區(qū)域的平均值(例如S中有5個(gè)顯著物體則有不多于5個(gè)連通區(qū)域,相應(yīng)平均值記為Si,i∈{1,2,3,4,5}),假設(shè)最大的兩個(gè)平均值分別是S1、S2,且S1>S2,則閥值T計(jì)算公式如下:
顯著圖用以下公式二值化(f(i,j)表示顯著圖的灰度值):
將二值化后的顯著圖與原圖按位與運(yùn)算即可提取到感知目標(biāo)。整個(gè)處理步驟如下:
(1)將輸入的場(chǎng)景圖像使用二進(jìn)高斯金字塔產(chǎn)生9尺度圖;
(2)計(jì)算每個(gè)尺度的亮度I(δ)和亮度特征圖I(c,s);
(3)計(jì)算每個(gè)尺度的R、G、B、Y和顏色特征圖RG(c,s),BY(c,s);
(4)計(jì)算每個(gè)尺度方向特征O(δ,θ)和方向特征圖O(c,s,θ);
(5)計(jì)算輸入目標(biāo)圖像色彩成分所占比重最多的兩種顏色m1、m2,從而計(jì)算每個(gè)尺度目標(biāo)色彩特征值P(ψ,m),進(jìn)一步計(jì)算目標(biāo)色彩特征圖P(c,s,m);
(6)采用分步進(jìn)行的方式集成最終注意力顯著圖S;
(7)對(duì)最終注意力顯著圖S雙線性插值到0尺度,計(jì)算T,然后二值化;
(8)二值化的顯著圖S與原輸入場(chǎng)景圖按位相與,分割出目標(biāo)物體。
這一算法的處理過(guò)程如圖2所示。
圖2 圖像分割流程圖
本章描述運(yùn)用增加目標(biāo)色彩特征的改進(jìn)型,基于注意力的圖像分割算法的實(shí)驗(yàn)結(jié)果和分析。
本實(shí)驗(yàn)圖像分辨率為520像素×390像素的24位彩色圖。如圖2所示,首先采集目標(biāo)任務(wù)的圖像。為了更好地提取出所占比例最大的兩種顏色成分,避免圖像中背景干擾,輸入前需要將背景替換為純黑(r=g=b=0)或者純白(r=g=b=1),然后輸入系統(tǒng)。在系統(tǒng)中提取m1、m2時(shí),考慮到實(shí)際采集的圖像由于光照和視角的原因,即使是純白(或純黑)的目標(biāo)在圖像中也不是純白(或純黑)而是集中在靠近純白(或純黑)所在顏色范圍,故忽略純白與純黑。接著輸入視野中場(chǎng)景圖像,通過(guò)線性濾波分別得到亮度、顏色、方向3個(gè)類別9尺度高斯金字塔(I(δ),C(δ),O(δ)),結(jié)合m1、m2得到目標(biāo)色彩高斯金字塔(P(ψ,m))。然后進(jìn)行“中心圍繞”和歸一化操作分別計(jì)算每個(gè)特征圖,根據(jù)每個(gè)特征圖用跨尺度融合和歸一化計(jì)算每個(gè)類別的顯著圖,再集成為一張最終顯著圖S,用閾值T二值化之后對(duì)其雙線性插值到0尺度(與原圖等大小),與輸入場(chǎng)景圖按位相與。圖3用5個(gè)有代表的視覺(jué)場(chǎng)景展示該改進(jìn)算法的運(yùn)算結(jié)果,第一列是原始圖像,第二列為顯著圖,第三列是閥值處理后的二值圖,最后一列為圖像分割結(jié)果。
圖3 圖像分割結(jié)果
為了評(píng)估和分析本文改進(jìn)的算法性能,使用該算法與傳統(tǒng)的Itti算法、GBVS(Graph-Based Visual Saliency)算法[10]作比較。圖4為這幾種算法的最終分割結(jié)果對(duì)比(因二值分割閾值對(duì)最終分割結(jié)果影響較大且無(wú)統(tǒng)一計(jì)算標(biāo)準(zhǔn),故本實(shí)驗(yàn)分割閾值取T=0.5)。
圖4 算法對(duì)比圖
由圖4可見(jiàn)本文算法并非完全準(zhǔn)確感知目標(biāo),但是在針對(duì)一些基本的運(yùn)用(比如定位、目標(biāo)識(shí)別、避障等)是足夠的。
依據(jù)傳統(tǒng)的Itti算法以及后來(lái)的GBVS算法生成的顯著圖能找到場(chǎng)景圖像中的顯著區(qū)域,但是往往該區(qū)域所包含的物體不一定是目標(biāo)物體,尤其是目標(biāo)物體顯著度較低時(shí),該現(xiàn)象尤為明顯(例如圖4的第三行、第四行)。
表1 本文方法與Itti算法及GBVS算法對(duì)比
為了更精確地分析和對(duì)比本文改進(jìn)的算法,定義了兩個(gè)變量命中指數(shù)D與失敗指數(shù)Df。命中指數(shù)D與失敗指數(shù)Df跟Si(上文已定義)的值相關(guān),假設(shè)最大的兩個(gè)平均值分別是S1、S2,且S1>S2,若S1對(duì)應(yīng)的物體不是需要被感知的目標(biāo)(即顯著程度最高的區(qū)域不是目標(biāo)物體),則D=0,表示感知失敗,此時(shí)失敗指數(shù)Df=(S2-S1)/S2;若S1對(duì)應(yīng)的物體是需要被感知的目標(biāo)(即顯著程度最高的區(qū)域是目標(biāo)物體),則D=(S1-S2)/S1,D越大說(shuō)明目標(biāo)越顯著命中效果越好,此時(shí)失敗指數(shù)Df=0。表1為根據(jù)圖4所示實(shí)驗(yàn)計(jì)算得到的指數(shù)D與失敗指數(shù)Df,由表中數(shù)據(jù)可見(jiàn)本文算法的優(yōu)越性。
基于注意力的圖像分割改進(jìn)算法在超過(guò)100幅場(chǎng)景圖像運(yùn)用中,超過(guò)95%的處理結(jié)果顯示本算法可以成功地在視覺(jué)場(chǎng)景中正確分割到目標(biāo)物體。
提出一種新的基于注意力的圖像分割方法。本文方法是一種多尺度多特征分析方法,既利用了自下而上的場(chǎng)景信息,又利用了自上而下的目標(biāo)任務(wù)的色彩特征共同構(gòu)成場(chǎng)景圖像顯著圖,再?gòu)娘@著圖中提取最顯著區(qū)域,從而達(dá)到目標(biāo)分割的目的。
從實(shí)驗(yàn)結(jié)果來(lái)看,由于本文方法加入了目標(biāo)任務(wù)特征,在場(chǎng)景圖像中背景或者干擾物體較明顯的情形下,該方法依然能準(zhǔn)確將注意力集中到目標(biāo)物體所在區(qū)域,進(jìn)而有效分割出目標(biāo)物體,取得理想的實(shí)驗(yàn)結(jié)果。
[1]Yuanlong Y,George K,M ann I,et al.Target tracking for moving robots using object-based visual attention[C]//Proceedings of IEEE International Conference on Intelligent Robots and Systems,2010:2902-2907.
[2]Niebur E,Koch C.Computational architectures for attention[M].The Attentive Brain,Cambridge:M IT Press,1998:163-186.
[3]Qiaorong Z,Guochan G,Huim in X.Image segmentation based on visual attention mechanism[J].Journal of multimedia,2009,14(6):363-370.
[4]Yaoru S,F(xiàn)isher R,F(xiàn)ang W,et al.A computer vision model for visual-object-based attention and eye movements[J].Computer Vision and Image Understanding,2008,112:126-142.
[5]Itti L,Koch C,Niebur E.A model of saliency-based visual attention for rapid scene analysis[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(11):1254-1259.
[6]Amudha J,Soman K P.Selective tuning visual attention model[J].International Journal of Recent Trends in Engineering,2009,2(2):117-119.
[7]Itti L,Baldi P.Bayesian surprise attracts human attention[J].Vision Research,2009,49:1295-1306.
[8]Wen G,Changshe X,Songed M,et al.Visual attention based small object segmentation in natual images[C]//Proceedings of IEEE International Conference on Image Processing,2010:1565-1568.
[9]Engel S,Zhang X,Wandell B.Colour tuning in human visual cortex measured with functional magnetic resonance imaging[J].Nature,1997,388(6637):68-71.
[10]Harel J,Koch C,Perona P.Graph-Based visual saliency[C]//Proceedings of Neural Information Processing System s.[S.l.]:M IT Press,2006:545-552.