方志明 崔榮一 金璟璇
(延邊大學(xué)工學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系,智能信息處理實(shí)驗(yàn)室,延吉 133002)
基于生物視覺(jué)特征和視覺(jué)心理學(xué)的視頻顯著性檢測(cè)算法?
方志明 崔榮一 金璟璇?
(延邊大學(xué)工學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系,智能信息處理實(shí)驗(yàn)室,延吉 133002)
(2016年11月18日收到;2017年2月18日收到修改稿)
提出了一種空域和時(shí)域相結(jié)合的視頻顯著性檢測(cè)算法.對(duì)單幀圖像,受視覺(jué)皮層層次化感知特性和Gestalt視覺(jué)心理學(xué)的啟發(fā),提出了一種層次化的靜態(tài)顯著圖檢測(cè)方法.在底層,通過(guò)符合生物視覺(jué)特性的特征圖像(雙對(duì)立顏色特征及亮度特征圖像)的非線性簡(jiǎn)化模型來(lái)合成特征圖像,形成多個(gè)候選顯著區(qū)域;在中層,根據(jù)矩陣的最小Frobenius-范數(shù)(F-范數(shù))性質(zhì)選取競(jìng)爭(zhēng)力最強(qiáng)的候選顯著區(qū)域作為局部顯著區(qū)域;在高層,利用Gestalt視覺(jué)心理學(xué)的核心理論,對(duì)在中層得到的局部顯著區(qū)域進(jìn)行整合,得到具有整體感知的空域顯著圖.對(duì)序列幀圖像,基于運(yùn)動(dòng)目標(biāo)在位置、運(yùn)動(dòng)幅度和運(yùn)動(dòng)方向一致性的假設(shè),對(duì)Lucas-Kanade算法檢測(cè)出的光流點(diǎn)進(jìn)行二分類,排除噪聲點(diǎn)的干擾,并利用光流點(diǎn)的運(yùn)動(dòng)幅度來(lái)衡量運(yùn)動(dòng)目標(biāo)運(yùn)動(dòng)顯著性.最后,基于人類視覺(jué)對(duì)動(dòng)態(tài)信息與靜態(tài)信息敏感度的差異提出了一種空域和時(shí)域顯著圖融合的通用模型.實(shí)驗(yàn)結(jié)果表明,該方法能夠抑制視頻背景中的噪聲并且解決了運(yùn)動(dòng)目標(biāo)稀疏等問(wèn)題,能夠較好地從復(fù)雜場(chǎng)景中檢測(cè)出視頻中的顯著區(qū)域.
∶顯著性檢測(cè),非線性簡(jiǎn)化,Gestalt視覺(jué)心理學(xué),Lucas-Kanade算法
PACS∶95.75.Mn,42.30.Tz,42.30.VaDOI∶10.7498/aps.66.109501
近幾十年,隨著神經(jīng)心理學(xué)和神經(jīng)解剖學(xué)的發(fā)展,視覺(jué)顯著性逐步成為計(jì)算機(jī)視覺(jué)的熱點(diǎn).視頻的顯著性區(qū)域檢測(cè)可用于簡(jiǎn)化復(fù)雜視頻場(chǎng)景,過(guò)濾與任務(wù)相關(guān)性較弱的信息,保留與當(dāng)前任務(wù)相關(guān)度較高的信息[1].自動(dòng)完成視頻的顯著性區(qū)域檢測(cè)成為視頻內(nèi)容感知[2]、視頻編碼[3,4]、無(wú)人駕駛[5]和視頻摘要等[6?8]任務(wù)的重要基礎(chǔ)任務(wù).
顯著性檢測(cè)方法主要分為四類∶基于像素的檢測(cè)模型、基于塊的檢測(cè)模型、基于頻率的檢測(cè)模型和基于低秩重建的檢測(cè)模型.基于像素的檢測(cè)模型以像素為基本單位,在不同特征下進(jìn)行圖像顯著性的計(jì)算.Itti等[9]模擬視覺(jué)系統(tǒng)的神經(jīng)機(jī)制,提出了一種基于多尺度圖像特征融合的顯著性檢測(cè)方法.在此基礎(chǔ)上,Itti和Koch[10]增加了運(yùn)動(dòng)特征,從而將該模型擴(kuò)展到視頻中的顯著性檢測(cè).該類方法計(jì)算量較大,對(duì)噪聲敏感,受圖像復(fù)雜度的影響較大.基于塊的方法,Cheng等[11]將原圖像過(guò)分割成多個(gè)區(qū)域,然后提取顏色直方圖和空間位置來(lái)計(jì)算區(qū)域的顯著度,從而提取顯著性目標(biāo).該類方法的檢測(cè)結(jié)果取決于塊分割的準(zhǔn)確性.此外,Liu和Wang[12]基于中心-周圍差異,提出了一種結(jié)合局部塊的變化對(duì)比和全局感知的方法,該方法簡(jiǎn)單快速.基于頻率譜的方法,Guo等[13]通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)圖像的相位譜殘差(PFT)的顯著性檢測(cè)方法優(yōu)于幅度譜殘差(SR)[14]方法.在此基礎(chǔ)上,將顏色、亮度和運(yùn)動(dòng)特征組成一個(gè)四元數(shù)組并提出了QPFT的方法,同時(shí)可用于視頻的顯著性檢測(cè).該類方法不僅受背景復(fù)雜程度干擾嚴(yán)重,且檢測(cè)出的顯著區(qū)域?yàn)橐幌盗蟹稚⒌狞c(diǎn),不利于顯著區(qū)域的完整分割與提取.此外,該方法運(yùn)動(dòng)顯著性檢測(cè)結(jié)果受時(shí)間間隔參數(shù)的影響較大且無(wú)法衡量運(yùn)動(dòng)顯著性.基于低秩重建的方法,Zhu和Wang[15]以及Tao等[16]將圖像表示為低秩部分(非顯著性部分)和稀疏部分(顯著性部分),通過(guò)低秩矩陣恢復(fù)得到顯著圖.Xue等[17]通過(guò)在X-t和Y-t方向?qū)⒌椭染仃嚪纸獾姆椒▉?lái)提取視頻中的顯著性目標(biāo).此類方法檢測(cè)結(jié)果受參數(shù)選取及背景復(fù)雜度的影響大且只保證了檢測(cè)結(jié)果是稀疏的,并不意味檢測(cè)結(jié)果是顯著的.
此外,從目標(biāo)和背景的分割角度考慮顯著性目標(biāo)提取,馬兆勉和陶純堪[18]以及金左輪等[19]認(rèn)為目標(biāo)前景在紋理特征上相對(duì)于背景更加光滑.金左輪等利用紋理粗糙度來(lái)計(jì)算圖像的顯著性,由于缺少顏色特征,導(dǎo)致彩色目標(biāo)漏檢.紋理特征與顏色特征具有相關(guān)性,紋理粗糙程度在顏色空間分布上呈現(xiàn)出連貫性和集中性等特點(diǎn).因此,在自然圖像中,紋理特征的部分信息可以由顏色特征來(lái)體現(xiàn).從信息論的角度考慮,人造目標(biāo)的出現(xiàn)會(huì)引起自然場(chǎng)景的統(tǒng)計(jì)特性發(fā)生變化[20].許元男等[21]利用Wigner-Ville分布和Rényi熵來(lái)計(jì)算顯著圖.由于缺少空間分布和顏色分布等先驗(yàn)知識(shí),該方法只能應(yīng)用于灰度圖像,且檢測(cè)結(jié)果的完整性較差.
除了以上方法及以上方法的改進(jìn)算法,近兩年出現(xiàn)了大量利用深度學(xué)習(xí)[22?24]的方法來(lái)做顯著性檢測(cè)的文獻(xiàn),其原理為通過(guò)構(gòu)建、訓(xùn)練神經(jīng)網(wǎng)絡(luò)來(lái)生成顯著圖.此類算法需要龐大的數(shù)據(jù)集和手工標(biāo)注數(shù)據(jù)集,計(jì)算量大且不宜用于視頻顯著性的檢測(cè).
以上文獻(xiàn)中視頻顯著性檢測(cè)都是在圖像顯著性檢測(cè)算法中,將使用幀差法檢測(cè)出的運(yùn)動(dòng)目標(biāo)[13]作為顯著性運(yùn)動(dòng)目標(biāo),因此檢測(cè)結(jié)果不理想.文獻(xiàn)[25]總結(jié)相關(guān)文獻(xiàn)發(fā)現(xiàn)視頻顯著性檢測(cè)大多是將視頻顯著值歸結(jié)為先計(jì)算兩種顯著值即運(yùn)動(dòng)顯著值和靜態(tài)顯著值,然后融合兩者結(jié)果.與此同時(shí),該文獻(xiàn)采用結(jié)合濾波器的金字塔光流法進(jìn)行動(dòng)態(tài)顯著性估計(jì),該方法計(jì)算量較大,且金字塔模型不適用于分辨率較低的視頻.目前,視頻運(yùn)動(dòng)目標(biāo)檢測(cè)主要有幀差法[26]、背景差分法[27]、光流法[28]等三種方法.幀差法算法簡(jiǎn)單快速,但不能檢測(cè)出運(yùn)動(dòng)幅度的大小.背景差分法過(guò)度依賴背景模型的準(zhǔn)確性.光流法主要優(yōu)點(diǎn)是能夠用于計(jì)算各像素的運(yùn)動(dòng)幅度和方向,主要缺點(diǎn)是檢測(cè)結(jié)果受噪聲的干擾嚴(yán)重.
Elazary和Itti[29]通過(guò)大量標(biāo)注的圖像數(shù)據(jù)測(cè)試,認(rèn)為場(chǎng)景中的顯著性區(qū)域受低層視覺(jué)屬性的影響較大.針對(duì)上述文獻(xiàn)存在的問(wèn)題,本文提出了一種基于雙對(duì)立顏色特征、Gestalt視覺(jué)心理學(xué)和光流法的空域和時(shí)域顯著性融合的顯著性檢測(cè)算法.在空域,顯著性檢測(cè)基于生物視覺(jué)特性的雙對(duì)立顏色特征和亮度特征,模型具有層次結(jié)構(gòu),自底向上,圖像逐漸簡(jiǎn)化,利用Gestalt視覺(jué)心理學(xué)主要理論使得顯著目標(biāo)具有一定的整體性.在時(shí)域,基于運(yùn)動(dòng)目標(biāo)所在位置、運(yùn)動(dòng)幅度和運(yùn)動(dòng)方向一致性假設(shè),利用Lucas-Kanade算法(簡(jiǎn)稱LK光流法)[30]并通過(guò)二分類進(jìn)行降噪處理來(lái)計(jì)算運(yùn)動(dòng)顯著性,使其適用于低分辨率復(fù)雜視頻顯著性檢測(cè).最后在不同顏色空間中融合了空域和時(shí)域的顯著性檢測(cè)結(jié)果,該模型實(shí)現(xiàn)了視頻的時(shí)空顯著性檢測(cè),實(shí)驗(yàn)中對(duì)低分辨視頻進(jìn)行測(cè)試,取得了較好的實(shí)驗(yàn)結(jié)果.
視覺(jué)顯著性檢測(cè)的原理是通過(guò)模仿人類視覺(jué)注意機(jī)制的方法來(lái)獲得顯著性區(qū)域.視覺(jué)顯著性描述了一個(gè)目標(biāo)區(qū)域在一個(gè)場(chǎng)景中的獨(dú)特性或吸引視覺(jué)注意的能力,這種能力來(lái)自生物視覺(jué)特性或由觀察者受先驗(yàn)知識(shí)導(dǎo)致的.視頻顯著性檢測(cè)和圖像顯著性檢測(cè)的主要區(qū)別在于視頻具有運(yùn)動(dòng)特征.
由于視頻種類繁多,目前沒(méi)有一種時(shí)空顯著性融合方法能夠應(yīng)用于所有類型的視頻.本文將人眼對(duì)彩色信息比灰度信息更為敏感和人眼對(duì)運(yùn)動(dòng)信息比靜態(tài)信息更敏感的兩大特性一一對(duì)應(yīng),將視頻的單幀圖像靜態(tài)顯著性和序列幀圖像顯著性檢測(cè)結(jié)果分別用灰度顏色模型和孟塞爾色系模型[31]表示,提出了一種通用各個(gè)場(chǎng)景、基于視覺(jué)敏感度的顯著性可視化的表示方法.在復(fù)雜場(chǎng)景視頻的單個(gè)畫(huà)面中既能夠同時(shí)顯示兩種顯著性的結(jié)果,又能夠不致使畫(huà)面過(guò)于復(fù)雜、混亂.顯著性檢測(cè)框圖如圖1所示.
圖1 視頻顯著性檢測(cè)框架圖Fig.1.Video saliency detection framework.
大腦皮層中主要負(fù)責(zé)處理視覺(jué)信息的部分是視覺(jué)皮層(visual cortex).人類的視覺(jué)皮層包括初級(jí)視皮層(V1,也稱作紋狀皮層(striate cortex))和紋外皮層(extrastriate cortex,如V2,V3等).作為第一個(gè)進(jìn)行視覺(jué)處理的區(qū)域,Vl主要接收與外觀感知有關(guān)的電信號(hào),響應(yīng)結(jié)果進(jìn)一步傳導(dǎo)到V2等更高級(jí)視皮層區(qū)域進(jìn)行處理.
圖2 圖像顯著性檢測(cè)框圖Fig.2.Image saliency detection block diagram.
受視皮層結(jié)構(gòu)和Gestalt視覺(jué)心理學(xué)的啟發(fā)[32],本文建立了具有三層結(jié)構(gòu)的空域顯著性檢測(cè)模型,逐層對(duì)圖像進(jìn)行簡(jiǎn)化,并將各個(gè)簡(jiǎn)化結(jié)果加以組合,使之成為一個(gè)知覺(jué)上易于處理的整體.本文提出的圖像顯著性檢測(cè)模型框圖如圖2所示,圖3為對(duì)應(yīng)的模型示意圖.低層為視覺(jué)特征提取層,用于提取底層特征,低層圖像中的各個(gè)像素,包括了噪聲點(diǎn)(灰色點(diǎn)).低層經(jīng)過(guò)特征提取,提取出各個(gè)特征對(duì)應(yīng)的顯著性區(qū)域,從而降低圖像的復(fù)雜度;在中層,多個(gè)特征顯著性目標(biāo)區(qū)域進(jìn)行競(jìng)爭(zhēng),得出單個(gè)特征對(duì)應(yīng)的局部顯著性區(qū)域;高層為組織層,利用Gestalt視覺(jué)心理學(xué)的主要理論對(duì)中層競(jìng)爭(zhēng)勝出的局部顯著區(qū)域進(jìn)行整體感知,進(jìn)行目標(biāo)區(qū)域的整合.隨著層次由低到高,圖像不斷被簡(jiǎn)化,形成整體.本文所構(gòu)造的模型首先將圖像從像素點(diǎn)映射到多個(gè)區(qū)域作為候選顯著性目標(biāo),然后將單目標(biāo)和鄰近候選區(qū)域進(jìn)行整體感知整合,最終提取出符合視覺(jué)認(rèn)知心理的顯著性目標(biāo).
圖3 (網(wǎng)刊彩色)圖像顯著性檢測(cè)示意圖Fig.3. (color online)Image saliency detection schematic diagram.
3.1 低層-像素點(diǎn)到多區(qū)域
本文利用圖像數(shù)據(jù)的分布特性,自適應(yīng)地合并具有相似特征的像素點(diǎn),形成與特征對(duì)應(yīng)的區(qū)域群.基于視覺(jué)對(duì)可見(jiàn)光顏色的敏感度差異,本文采用雙對(duì)立顏色對(duì)[33]及亮度特征屬性對(duì)應(yīng)的特征圖像來(lái)共同體現(xiàn)圖像的顯著性.雙對(duì)立顏色特征圖像矩陣(RG,BY)和亮度特征圖像矩陣(I)定義同文獻(xiàn)[9],分別由(1),(2)和(3)式定義.其中,R,G,B,Y分別為對(duì)立色中的紅、綠、藍(lán)、黃顏色;rc,gc,bc分別表示rgb顏色模型中的原圖像的紅、綠、藍(lán)的顏色通道圖像矩陣.
(4)式中的SimF表示特征圖像矩陣F(F =RG,BY,I)經(jīng)過(guò)簡(jiǎn)化的結(jié)果,S為簡(jiǎn)化參數(shù)(S=1,2,3),運(yùn)算符*表示矩陣對(duì)應(yīng)元素相乘.該操作可以減少圖像中對(duì)比度弱的區(qū)域.若簡(jiǎn)化參數(shù)S取不同的等級(jí)值,則圖像中對(duì)比度弱的區(qū)域減少的程度就不同.圖5為圖4所示的原始彩色圖像的灰度圖像對(duì)應(yīng)的灰度分布直方圖,從左到右依次為灰度圖的簡(jiǎn)化參數(shù)S從1增至3的直方圖.由直方圖的分布情況可以看出,隨著簡(jiǎn)化等級(jí)的升高,直方圖由灰度分布較均衡的情況逐漸變?yōu)閮啥朔植嫉那闆r.由圖6可以看出,隨著簡(jiǎn)化等級(jí)S(S=1,2,3)的提高,亮度特征圖像(第一列)中的較亮區(qū)域(警示牌等區(qū)域)進(jìn)一步被突出,紅綠特征圖像(第二列)中的紅綠差異被突顯(紅色三角形),而藍(lán)黃特征圖像(第三列)中的偏黃區(qū)域進(jìn)一步被凸顯(孩子的衣服).因此,隨著簡(jiǎn)化等級(jí)的提高,特征圖像中對(duì)應(yīng)特征屬性的區(qū)域逐步被凸顯,而其他特征屬性對(duì)應(yīng)的區(qū)域被合并和抑制.
圖4 (網(wǎng)刊彩色)原始圖像Fig.4.(color online)Original image.
圖5 簡(jiǎn)化等級(jí)-灰度分布變化圖Fig.5.Simplified level gray distribution map.
圖6 特征-簡(jiǎn)化等級(jí)示意圖Fig.6.Feature image with different simplified levels.
3.2 中層-組合特征競(jìng)爭(zhēng)
中層為競(jìng)爭(zhēng)層,圖像對(duì)應(yīng)的三個(gè)特征對(duì)顯著區(qū)域形成的貢獻(xiàn)進(jìn)行競(jìng)爭(zhēng).傳統(tǒng)算法對(duì)多特征顯著圖進(jìn)行線性疊加,而Gestalt理論的基本出發(fā)點(diǎn)是,整體不能用部分之和去理解,因此本文采用多特征圖像非線性組合并利用最小F-矩陣范數(shù)進(jìn)行約束得到競(jìng)爭(zhēng)力最強(qiáng)的局部顯著性區(qū)域.矩陣A的F-范數(shù)由(5)式表示,(6)式表示特征圖像的非線性組合方式由參數(shù)θ=(a,b,c,d,e,g)確定.其中,a,b,c為簡(jiǎn)化參數(shù),a,b,c∈{1,2,3},同(4)式中的S;d,e,g為組合參數(shù),d,e,g∈{?1,+1}.組合參數(shù)取值為?1表示該屬性下的特征區(qū)域?qū)μ崛∽罴扬@著區(qū)域起負(fù)作用,取值為+1表示該屬性下的特征區(qū)域?qū)μ崛∽罴扬@著區(qū)域起正作用.如(7)式所示,利用最小F-范數(shù)來(lái)求得對(duì)應(yīng)特征的顯著性區(qū)域的非線性組合參數(shù),從而得到顯著性最強(qiáng)的局部顯著圖,并且保證了非線性組合特征對(duì)應(yīng)的顯著性區(qū)域足夠稀疏.
將不同簡(jiǎn)化組合參數(shù)對(duì)應(yīng)的顯著圖按照其對(duì)應(yīng)矩陣的F-范數(shù)值從小到大排列,排列結(jié)果如圖7所示,逐行從左到右,F-范數(shù)逐漸增大.圖7中的第一幅圖像為最小F-范數(shù)對(duì)應(yīng)的特征圖像的非線性組合.最后一幅圖像為最大F-范數(shù)對(duì)應(yīng)的特征圖像的非線性組合.
圖7 范數(shù)-顯著性區(qū)域變化示意圖Fig.7.Norm-saliency regional variation schematic diagram.
3.3 高層-Gestalt視覺(jué)整體感知
Gestalt理論明確提出∶在眼和腦的作用下,圖像不斷地進(jìn)行組織、簡(jiǎn)化及統(tǒng)一.Gestalt的組織過(guò)程是有選擇地將一些元素統(tǒng)一在一起,我們能感知到它是一個(gè)完整的單位.本文主要應(yīng)用以下Gestalt的主要理論作為約束條件進(jìn)行顯著性區(qū)域整合∶
2)主體和背景 場(chǎng)景的特點(diǎn)會(huì)影響視覺(jué)系統(tǒng)對(duì)場(chǎng)景中的主體和背景的解析,當(dāng)一個(gè)小物體(或色塊)與更大的物體重疊時(shí),我們傾向于認(rèn)為小的物體是主體而大的物體是背景;
3)整體與局部 由知覺(jué)活動(dòng)組織成的經(jīng)驗(yàn)中的整體,在性質(zhì)上不等于部分的簡(jiǎn)單線性疊加;
4)接近 指單獨(dú)的視覺(jué)單元無(wú)限貼近,以至于它們彼此黏連,在視覺(jué)上就形成了一個(gè)較大、統(tǒng)一的整體;
5)閉合 封閉的圖形往往看成一個(gè)整體.
其中約束條件1)和約束條件3)已在低層和中層體現(xiàn).低層中的特征圖像通過(guò)簡(jiǎn)化參數(shù)進(jìn)行簡(jiǎn)化;在中層,通過(guò)對(duì)特征圖像進(jìn)行非線性組合來(lái)構(gòu)造局部顯著性區(qū)域.
在高層,根據(jù)Gestalt約束條件4)和約束條件5)判斷各個(gè)特征圖像的最簡(jiǎn)化圖像(S=3)經(jīng)過(guò)mean shift聚類的顯著性區(qū)域塊的外接矩形框Si與最小F-范數(shù)對(duì)應(yīng)的局部顯著區(qū)域塊外接矩形框Smin是否有交集,并按就近原則合并.合并條件為∶兩個(gè)外接矩形框區(qū)域存在重疊部分(滿足理論第4,5條),如(8)式所示,
他表示無(wú)法理解。她輕輕微笑,說(shuō),你因此可知,這一生不必去學(xué)習(xí)中文是件幸運(yùn)的事情。相比起現(xiàn)在的中文,我更喜歡古代中文。那是即使對(duì)中國(guó)人來(lái)說(shuō)也更為優(yōu)美而艱澀的文字。時(shí)間淘汰一切被現(xiàn)在的人認(rèn)為不需要也不重要的事物。很多事物的價(jià)值最后被低估或者高估,并不客觀。我們不知道真正重要的東西是什么,也經(jīng)常缺乏耐心。
合并停止條件為∶合并滿足重合條件的顯著性區(qū)域面積大于背景面積或接觸圖像邊界(滿足約束條件2)).靜態(tài)圖像的顯著性檢測(cè)流程示意圖見(jiàn)圖8.
圖8 顯著性檢測(cè)流程示意圖Fig.8.Saliency detection process schematic diagram.
Lucas-Kanade即LK光流法應(yīng)用于輸入圖像的一組特征點(diǎn)上時(shí)比較方便,因此被廣泛應(yīng)用于稀疏光流場(chǎng).由于真實(shí)場(chǎng)景視頻的背景復(fù)雜度高,噪聲點(diǎn)多,LK光流法需要計(jì)算每一個(gè)像素的光流,在實(shí)際應(yīng)用中的檢測(cè)結(jié)果不是很好.Bouguet[34]采用圖像金字塔的方法來(lái)實(shí)現(xiàn)運(yùn)動(dòng)的跟蹤,但由于視頻分辨率低,特征點(diǎn)精確度低,導(dǎo)致光流點(diǎn)過(guò)稀疏情況發(fā)生,運(yùn)動(dòng)目標(biāo)缺失嚴(yán)重,不適用于顯著性運(yùn)動(dòng)目標(biāo)的運(yùn)動(dòng)幅度可視化.同多數(shù)稀疏光流法,在運(yùn)動(dòng)目標(biāo)與環(huán)境相似時(shí),利用特征點(diǎn)的光流法容易出現(xiàn)檢測(cè)失敗和光流點(diǎn)稀疏的問(wèn)題.為了解決光流點(diǎn)稀疏問(wèn)題,本文基于傳統(tǒng)的LK光流法檢測(cè)結(jié)果,根據(jù)光流點(diǎn)的位置、運(yùn)動(dòng)方向和運(yùn)動(dòng)幅度值特征,對(duì)光流點(diǎn)進(jìn)行二分類,將其分為噪聲點(diǎn)和運(yùn)動(dòng)目標(biāo)點(diǎn).算法步驟如圖9所示.
圖9 LK改進(jìn)算法框圖Fig.9.Improved LK algorithm block diagram.
圖10 中的(a1)和(c1)為測(cè)試視頻,其畫(huà)面分辨率較低,背景復(fù)雜度較高.其中,圖10(a1)為場(chǎng)景中運(yùn)動(dòng)速度快的片段中的一幀,圖10(c1)為場(chǎng)景中運(yùn)動(dòng)速度較慢的片段中的一幀,圖10(b1)和圖10(d1)分別為用金字塔光流法檢測(cè)其與前一幀的光流實(shí)驗(yàn)結(jié)果.可以看出,檢測(cè)到的運(yùn)動(dòng)目標(biāo)過(guò)于稀疏,無(wú)法檢測(cè)出較完整的個(gè)體,不適用于視頻顯著性表示.
圖10 (網(wǎng)刊彩色)基于LK光流法的改進(jìn)方法與金字塔光流法得對(duì)比 (a1)快速移動(dòng),(b1)金字塔光流法,(c1)緩慢移動(dòng),(d1)金字塔光流法;(a2),(a3)LK光流法,(b2),(b3)K-均值聚類,(c2),(c3)中值濾波,(d2),(d3)本文結(jié)果Fig.10.(color online)comparison between the improved method based on LK optical flow method and Pyramid optical flow method:(a1)Fast motion,(b1)pyramid optical flow,(c1)slow motion,(d1)pyramid optical flow;(a2),(a3)LK optical,(b2),(b3)K-means cluster,(c2),(c3)medianfilter,(d2),(d3)our result.
圖10 (a2)和圖10(a3)表示傳統(tǒng)LK光流法分別對(duì)圖10(a1)和圖10(c1)的檢測(cè)結(jié)果,可以看出傳統(tǒng)方法雖然能夠檢測(cè)出較為完整的運(yùn)動(dòng)目標(biāo),但對(duì)噪聲極其敏感.為了得到較為完整的運(yùn)動(dòng)目標(biāo),本文基于傳統(tǒng)的LK光流法,對(duì)檢測(cè)出的光流點(diǎn)進(jìn)行分類,將光流點(diǎn)分為噪聲點(diǎn)和運(yùn)動(dòng)目標(biāo)點(diǎn).圖10(b2)和圖10(b3)為運(yùn)動(dòng)目標(biāo)聚類結(jié)果,可以看出,本文的方法能夠較好地將噪聲點(diǎn)去除.在此結(jié)果上,基于運(yùn)動(dòng)目標(biāo)點(diǎn)具有局部集中的特性,本文采用中值濾波消除孤立點(diǎn),圖10(c2)和圖10(c3)為孤立點(diǎn)去除的結(jié)果.從圖10(d2)和圖10(d3)可以看出本文的方法既能夠有效保留運(yùn)動(dòng)目標(biāo),又能夠抑制噪聲.
本文從兩方面進(jìn)行實(shí)驗(yàn)結(jié)果評(píng)價(jià).一方面是將低分辨率、噪聲點(diǎn)多的視頻單幀圖像和靜態(tài)自然圖像的顯著性檢測(cè)結(jié)果同其他經(jīng)典方法的結(jié)果進(jìn)行可視化對(duì)比,并利用MSRA1000數(shù)據(jù)庫(kù)ECSSD數(shù)據(jù)庫(kù)[35]對(duì)本文方法與其他方法進(jìn)行對(duì)比分析;另一方面結(jié)合光流法對(duì)視頻多幀圖像顯著性檢測(cè)結(jié)果進(jìn)行可視化評(píng)價(jià).實(shí)驗(yàn)軟件為Matlab2015a,硬件條件為4 GB RAM的Intel Xeon CPU E5-2603.
5.1 單幀/靜止圖像實(shí)驗(yàn)評(píng)價(jià)
圖11為視頻單幀圖像由本文方法進(jìn)行顯著性檢測(cè)的結(jié)果,背景復(fù)雜程度從左到右依次增加.圖11中的子圖(a)為交通視頻單幀圖像及對(duì)應(yīng)的顯著性檢測(cè)結(jié)果,圖像中用于輔助駕駛的標(biāo)志性目標(biāo)均能較好地被檢測(cè)出,檢測(cè)結(jié)果符合工程需求;圖11(b)為室內(nèi)視頻單幀圖像及其顯著性檢測(cè)結(jié)果,其中顏色鮮艷的目標(biāo)被成功檢測(cè)出來(lái)且目標(biāo)較為完整,如桌面上的紅色袋子,枕頭和手臂,紅色和黃色的魔方平面等.為了進(jìn)一步驗(yàn)證本文方法的準(zhǔn)確性和魯棒性,將本文方法與頻率調(diào)整(FT),直方圖反差(HC),區(qū)域反差(RC),LC等方法進(jìn)行了可視化對(duì)比.
圖11 (網(wǎng)刊彩色)室外室內(nèi)場(chǎng)景視頻單幀圖像顯著性檢測(cè)結(jié)果示意圖 (a)交通視頻單幀圖像;(b)室內(nèi)視頻單幀圖像Fig.11.(color online)Single frame image saliency detection result diagram of outdoor and indoor scene video:(a)Results of single frame image detection in traffic scene video;(b)results of single frame image detection in indoor scene video.
圖12是對(duì)MSRA1000數(shù)據(jù)庫(kù)利用不同方法進(jìn)行顯著性檢測(cè)的結(jié)果示例,對(duì)于復(fù)雜背景的圖像,頻率分析的方法(如SR)檢測(cè)結(jié)果受背景干擾嚴(yán)重.由實(shí)驗(yàn)結(jié)果可以看出,以上方法按照抗背景干擾能力的排序?yàn)椤肙urs>RC>HC>FT>LC>SR,本文方法受復(fù)雜背景的影響最小.相對(duì)于其他方法,本文方法不僅成功地檢測(cè)出目標(biāo)且受背景干擾最小,而且檢測(cè)出的顯著性區(qū)域更接近手工標(biāo)注(GT)的區(qū)域且檢測(cè)結(jié)果邊界清晰,易于顯著性目標(biāo)分割.
圖13是對(duì)ECSSD數(shù)據(jù)庫(kù)利用不同方法進(jìn)行顯著性檢測(cè)的結(jié)果示例,該數(shù)據(jù)庫(kù)的顯著性目標(biāo)所在的背景相對(duì)于MSRA1000數(shù)據(jù)庫(kù)更為復(fù)雜,而且顯著性目標(biāo)的個(gè)體數(shù)量和顏色組成上更具有多樣性,給顯著性檢測(cè)帶來(lái)極大的挑戰(zhàn).第5行、第7行和第8行的圖像受背景和自身復(fù)雜的目標(biāo)顏色和紋理構(gòu)成的影響,檢測(cè)結(jié)果較差,僅本文方法可以將顯著性目標(biāo)與背景分離.經(jīng)ECSSD數(shù)據(jù)庫(kù)檢測(cè),對(duì)背景復(fù)雜的圖片,SR方法檢測(cè)結(jié)果最差,本文方法抑制背景復(fù)雜程度干擾的能力最強(qiáng),檢測(cè)出的目標(biāo)較為完整且易于分割,有利于進(jìn)一步的視頻顯著性目標(biāo)分割、視頻壓縮等工作.
本文方法與其他典型方法(CH,GS-SP,LR,SF,CB,RC,HC,RA,FT及IT)的實(shí)驗(yàn)結(jié)果[36]及SR,PQFT[14]的實(shí)驗(yàn)結(jié)果進(jìn)行量化對(duì)比,選取不同閾值得到不同方法的PR(precision-recall)曲線.圖14中各個(gè)子圖的縱軸和橫軸分別代表查準(zhǔn)率P(precision)和召回率R(recall).圖14(a)的兩幅圖為不同方法在MSRA1000數(shù)據(jù)庫(kù)的測(cè)試結(jié)果,圖14(b)為不同方法在ECSSD數(shù)據(jù)庫(kù)的測(cè)試結(jié)果.從圖14可以看出,本文方法的檢測(cè)結(jié)果優(yōu)于其他文獻(xiàn)方法的實(shí)驗(yàn)結(jié)果,具有較高的準(zhǔn)確率.
圖12 (網(wǎng)刊彩色)MSRA1000數(shù)據(jù)庫(kù)顯著性檢測(cè)示例Fig.12.(color online)Results of MSRA1000 database saliency detection.
5.2 視頻多幀實(shí)驗(yàn)可視化分析
為了驗(yàn)證本文算法的效果,本文算法對(duì)多幀視頻進(jìn)行了顯著性實(shí)驗(yàn),如表1所列,選取了3個(gè)室內(nèi)視頻、2個(gè)室外視頻,且視頻中的運(yùn)動(dòng)均為非剛體運(yùn)動(dòng),所有視頻都存在噪聲和畫(huà)面的局部抖動(dòng).視頻1、視頻2和視頻3為室內(nèi)視頻,其中視頻1到視頻3的背景復(fù)雜度依次增高.
表1 實(shí)驗(yàn)視頻簡(jiǎn)介T(mén)able 1.Test video introduction.
圖13 (網(wǎng)刊彩色)ECSSD數(shù)據(jù)庫(kù)顯著性檢測(cè)示例Fig.13.(color online)Results of ECSSD database saliency detection.
表1中對(duì)應(yīng)序號(hào)視頻的靜態(tài)顯著性檢測(cè)結(jié)果和運(yùn)動(dòng)顯著性檢測(cè)結(jié)果如圖15所示.圖15的第一列表示視頻序列中的一幀,第二列表示該幀的靜態(tài)顯著性,第三列表示該幀相對(duì)于前一幀的運(yùn)動(dòng)顯著性檢測(cè)結(jié)果.實(shí)驗(yàn)表明,本文的方法能夠有效提取視頻單幀的顏色顯著性區(qū)域和運(yùn)動(dòng)顯著性區(qū)域,且檢測(cè)結(jié)果受復(fù)雜背景的干擾較小,提取顯著區(qū)域的效果較好.經(jīng)過(guò)不同低分辨視頻和圖像數(shù)據(jù)庫(kù)的驗(yàn)證,本文的靜態(tài)顯著性檢測(cè)方法能夠適用于多種類型視頻的顯著性檢測(cè).靜態(tài)顯著性和動(dòng)態(tài)顯著性融合結(jié)果示例如圖16所示,人由圖16(a)的移動(dòng)狀態(tài)變?yōu)閳D16(b)的靜止?fàn)顟B(tài).圖16(a)中彩色部分為運(yùn)動(dòng)顯著性區(qū)域,灰色部分為靜態(tài)顯著性區(qū)域,隨著運(yùn)動(dòng)的停止,圖16(b)中彩色區(qū)域消失.
5.3 視頻多幀實(shí)驗(yàn)定量分析
統(tǒng)計(jì)包括表1中的5個(gè)低分率視頻的實(shí)驗(yàn)結(jié)果數(shù)據(jù),總計(jì)10個(gè)低分率視頻,每個(gè)視頻隨機(jī)選取125幀,共1250幀的視頻畫(huà)面圖像.經(jīng)10個(gè)人進(jìn)行手工標(biāo)注,共同標(biāo)注次數(shù)超過(guò)5次的區(qū)域記為有效標(biāo)注區(qū)域,總計(jì)4386個(gè)靜態(tài)顯著性區(qū)域,973個(gè)動(dòng)態(tài)顯著性區(qū)域.利用矩形框手工標(biāo)注單幀圖像中的靜態(tài)顯著性區(qū)域和運(yùn)動(dòng)顯著性區(qū)域.實(shí)驗(yàn)結(jié)果中的標(biāo)記區(qū)域包括∶正確檢測(cè)結(jié)果和錯(cuò)誤檢測(cè)結(jié)果.手工標(biāo)注區(qū)域但實(shí)驗(yàn)未標(biāo)記區(qū)域?yàn)槁z區(qū)域.標(biāo)記區(qū)域矩形框與手工標(biāo)注區(qū)域矩形框的重疊面積達(dá)到手工標(biāo)注框的面積的60%以上才記為正確標(biāo)記,否則為錯(cuò)誤標(biāo)記(虛報(bào)區(qū)域).表2的數(shù)據(jù)表明,本文的算法有較高的準(zhǔn)確率,較低的漏檢率和錯(cuò)誤率.
表2 檢測(cè)結(jié)果數(shù)據(jù)統(tǒng)計(jì)Table 2.Statistic data of the test result.
圖14 (網(wǎng)刊彩色)不同方法在不同數(shù)據(jù)庫(kù)的性能指標(biāo)對(duì)比 (a)MSRA1000數(shù)據(jù)庫(kù)測(cè)試結(jié)果;(b)ECSSD數(shù)據(jù)庫(kù)測(cè)試結(jié)果Fig.14.(color online)Comparison of test results of different methods using different databases:(a)Test results of MSRA1000 database;(b)test results of ECSSD database.
本文利用雙對(duì)立顏色特征和Gestalt視覺(jué)心理學(xué)理論作為約束條件,基于層次結(jié)構(gòu)的方法來(lái)檢測(cè)圖像顯著性區(qū)域,該方法降低了紋理特征帶來(lái)的干擾,檢測(cè)出的顯著性區(qū)域較為完整且符合視覺(jué)的基本規(guī)律.在此之上,結(jié)合改進(jìn)的光流法,對(duì)視頻幀中的運(yùn)動(dòng)信息進(jìn)行檢測(cè).最后將圖像的顯著性和運(yùn)動(dòng)顯著性利用不同的色系同時(shí)展現(xiàn)在一個(gè)畫(huà)面中,使融合后的畫(huà)面更清晰.與傳統(tǒng)方法相比,基于生物視覺(jué)特性的方法對(duì)不同特征得到的顯著性區(qū)域進(jìn)行簡(jiǎn)單線性疊加,未考慮視覺(jué)心理學(xué)相關(guān)的因素,不符合普遍的視覺(jué)規(guī)律.而基于數(shù)學(xué)計(jì)算方法(如計(jì)算對(duì)比度和頻率分析的方法)未考慮生物視覺(jué)感知特性,導(dǎo)致檢測(cè)結(jié)果未能較好地與生物視覺(jué)特性感知結(jié)果相符.本文的方法模仿生物視覺(jué)特性,從底層提取相關(guān)特征的顯著性區(qū)域,同時(shí)利用高層先驗(yàn),即視覺(jué)心理學(xué)的相關(guān)成果,對(duì)不同特征對(duì)應(yīng)的顯著性區(qū)域進(jìn)行操作,使通過(guò)生物特征計(jì)算得到的結(jié)果滿足視覺(jué)心理學(xué)的相關(guān)理論.實(shí)驗(yàn)結(jié)果表明,本文方法的圖像和視頻顯著性檢測(cè)結(jié)果與手工標(biāo)注區(qū)域基本一致.
圖15 (網(wǎng)刊彩色)視頻顯著性檢測(cè)結(jié)果(第一列為視頻單幀圖像、第二列為靜態(tài)顯著性檢測(cè)結(jié)果,第三列為動(dòng)態(tài)顯著性檢測(cè)結(jié)果)Fig.15.(color online)Video saliency detection results(thefirst column for the video single frame image and second columns for the static saliency detection results,the third column for the dynamic saliency detection results).
圖16 運(yùn)動(dòng)狀態(tài)改變的視頻顯著性檢測(cè)示例 (a)運(yùn)動(dòng)狀態(tài);(b)靜止?fàn)顟B(tài)Fig.16.Video saliency detection results of motion state changes:(a)Motion state;(b)static state.
人的視覺(jué)還受先驗(yàn)知識(shí)的影響,針對(duì)不同場(chǎng)景,靜態(tài)顯著性應(yīng)當(dāng)考慮更多的先驗(yàn)知識(shí),如交通場(chǎng)景中應(yīng)當(dāng)添加人臉識(shí)別、人的個(gè)體識(shí)別、交通警示牌識(shí)別等技術(shù);運(yùn)動(dòng)顯著性應(yīng)引入更多幀的運(yùn)動(dòng)情況,以確定視頻中運(yùn)動(dòng)顯著性較強(qiáng)的時(shí)間段.下一步工作將考慮以上因素,對(duì)算法做進(jìn)一步改進(jìn)和完善.
[1]Borji A,Sihite D N,Itti L 2015 IEEE Trans.Image Process.24 5706
[2]Cichy R M,Pantazis D,Oliva A 2016 Cerebral Cortex 26 3563
[3]Li Z C,Qin S Y,Itti L 2011 Image Vision Comput.29 1
[4]Wu G L,Fu Y J,Huang S C,Chen S Y 2013 IEEE Trans.Image Process.22 2247
[5]Franke U,Pfeiffer D,Rabe C,Knoeppel C,Enzweiler M,Stein F,Herrtwich R 2013 Proceedings of IEEE Conference on Computer Vision Sydney,Australia,December 1–8,2013 p214
[6]Ma Y F,Hua X S,Lu L,Zhang H J 2005 IEEE Trans.Multimed.7 907
[7]Ejaz N,Mehmood I,Baik S W 2014 Comput.Elec.Engr.40 993
[8]Evangelopoulos G,Zlatintsi A,Potamianos A,Maragos P 2013 IEEE Trans.Multimed.15 1553
[9]Itti L,Koch C,Niebur E 1998 IEEE Trans.Pattern Anal.Mach.Intell.20 1254
[10]Itti L,Koch C 2001 Nat.Rev.Neurosci.2 194
[11]Cheng M M,Zhang G X,Mitra N J,Huang X,Hu S M 2011 Proceedings of Computer Vision and Pattern Recognition Colorado Springs,November 15–18,2011 p409
[12]Liu J,Wang S 2015 Neurocomputing 147 435
[13]Guo C,Ma Q,Zhang L 2008 Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition Anchorage,Alaska,January 17–18,2008 p1
[14]Hou X D,Zhang L Q 2007 Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition Minneapolis,Minnesota,June 19–21,2007 p18
[15]Zhu Z,Wang M 2016 J.Comput.Appl.36 2560
[16]Tao D,Cheng J,Song M 2016 IEEE Trans.Neur.Netw.Lear.Syst.27 1122
[17]Xue Y W,Guo X J,Cao X C 2012 Proceedings of IEEE International Conference on Acoustics,Speech and Signal Processing Kyoto,Japan,March 25–30,2012 p1485
[18]Ma Z M,Tao C K 1999 Acta Phys.Sin.48 2202(in Chinese)[馬兆勉,陶純堪 1999物理學(xué)報(bào) 48 2202]
[19]Jin Z L,Han J,Zhang Y,Bo Lf2014 Acta Phys.Sin.63 069501(in Chinese)[金左輪,韓靜,張毅,柏連發(fā)2014物理學(xué)報(bào)63 069501]
[20]Wu Y Q,Zhang J K 2010 Acta Phys.Sin.59 5487(in Chinese)[吳一全,張金礦 2010物理學(xué)報(bào) 59 5487]
[21]Xu Y N,Zhao Y,Liu L P,Zhang Y,Sun X D 2010 Acta Phys.Sin.59 980(in Chinese)[許元男,趙遠(yuǎn),劉麗萍,張宇,孫秀冬2010物理學(xué)報(bào)59 980]
[22]Wang X,Ma H,Chen X 2016 Proceedings of International Conference on Image Processing the Phoenix Convention Centre,Phoenix,Arizona,USA,September,2016 p25
[23]He S,Lau R W,Liu W 2015 Int.J.Comput.Vision 115 330
[24]Li H,Chen J,Lu H 2017 Neurocomputing 226 212
[25]Huang Y 2016 M.S.Thesis(Beijing:Institute of Optoelectronic Technology)[黃燁2016碩士學(xué)位論文 (北京:中國(guó)科學(xué)院)]
[26]Paragios N,Deriche R 2000 IEEE Trans.Pattern Anal.Mach.Intell.22 266
[27]Tsai D M,Lai S C 2009 IEEE Trans.Image Process.18 158
[28]Barron J L,Fleet D,Beauchemin S S 1994 Int.J.Comput.Vision 12 43
[29]Elazary L,Itti L 2008 J.Vision 8
[30]Lucas B D,Kanade T 1981 Proceedings of International Joint Conference on Artificial Intelligence Vancouver,BC,Canada,August,1981 285
[31]Baker S,Scharstein D,Lewis J P,Roth S,Black M J,Szelisk R 2007 Proceedings of IEEE International Conference on Computer Vision Rio de Janeiro,Brazil,October 14–21,2007 p92
[32]Koffka K 1935 Principles of Gestalt Psychology(London:Lund Humphries)
[33]Mullen K T 1985 J.Phys.359 381
[34]Gary B,Adrian K 2008 Learning OpenCV(America:O’Reilly Media)pp356–370
[35]Shi J,Yan Q,Xu L,Jia J 2016 IEEE Trans.Pattern Anal.Mach.Intell.38 1
[36]Li X,Li Y,Shen C H,Dick A,Hengel 2013 Proceedings of Computer Vision Sydney,NSW,Australia,December 8,2013 p3328
PACS∶95.75.Mn,42.30.Tz,42.30.VaDOI∶10.7498/aps.66.109501
*Project supported by the Science and Technology Development Plan Foundation of Jilin Province,China(Grant No.20140101186JC).
?Corresponding author.E-mail:1537161104@qq.com
Video saliency detection algorithm based on biological visual feature and visual psychology theory?
Fang Zhi-Ming Cui Rong-Yi Jin Jing-Xuan?
(Intelligent Information Processing Laboratory,Department of Computer Science and Technology,Faculty of Engineering,Yanbian University,Yanji 133002,China)
18 November 2016;revised manuscript
18 February 2017)
In order to solve the problems of video saliency detection and poor fusion effect,a video saliency detection model and a fusion model are proposed.Video saliency detection is divided into spatial saliency detection and temporal saliency detection.In the spatial domain,inspired by the properties of visual cortex hierarchical perception and the Gestalt visual psychology,we propose a hierarchical saliency detection model with three-layer architecture for single frame image.The video single frame is simplified layer by layer,then the results are combined to form a whole consciousness vision object and become easier to deal with.At the bottom of the model,candidate saliency regions are formed by nonlinear simplification modelof the characteristic image(dual color characteristic and luminance characteristic image),which is in accordance with the biological visual characteristic.In the middle of the model,the candidate regions with the strongest competitiveness are selected as the local salient regions according to the property of matrix minimum Freseniusnorm(F-norm).At the top levelof the model,the local salient regions are integrated by the core theory of Gestalt visual psychology,and the spatial saliency map is obtained.In the time domain,based on the consistency assumption of a moving object in target location,motion range and direction,the optical flow points detected by Lucas-Kanade method are classified to eliminate the noise interference,then the motion saliency of moving object is measured by the motion amplitude.Finally,based on the difference between the visual sensitivity of dynamic and static information and the difference in visual sensitivity between color information and gray information,a general fusion modelof time and spatial domain salient region is proposed.The saliency detection results of single frame image and video sequence frame image are represented by the gray color model and the Munsell color system respectively.Experimental results show that the proposed saliency detection method can suppress the background noise,solve the sparse pixels problem of a moving object,and can effectively detect the salient regions from the video.The proposed fusion model can display two kinds of saliency results simultaneously in a single picture of a complex scene.This model ensures that the detection results of images are so complicated that a chaotic situation will not appear.
∶saliency detection,nonlinear simplification,Gestalt visual psychology,Lucas-Kanade method
?吉林省科技發(fā)展計(jì)劃項(xiàng)目(批準(zhǔn)號(hào):20140101186JC)資助的課題.
?通信作者.E-mail:1537161104@qq.com
?2017中國(guó)物理學(xué)會(huì)Chinese Physical Society