張榮國,賈玉閃,胡 靜,劉小君,李曉明
(1.太原科技大學(xué) 計(jì)算機(jī)與技術(shù)學(xué)院,太原 030024;2.合肥工業(yè)大學(xué) 機(jī)械工程學(xué)院,合肥 230009)
視覺顯著性檢測是一種應(yīng)用于圖像及視頻上的人工智能技術(shù),它可以將大量圖像或視頻中引人注意的目標(biāo)對象提取出來,應(yīng)用這一技術(shù)分析處理海量的圖像及視頻將成為時(shí)代發(fā)展的趨勢。顯著性檢測方法大致可以分為兩類:一類是由數(shù)據(jù)驅(qū)動的顯著性檢測方法,一類是模擬人類大腦驅(qū)動的顯著性檢測方法。由于技術(shù)發(fā)展的限制,現(xiàn)在還無法準(zhǔn)確地模擬出大腦的運(yùn)作機(jī)制,也就無法實(shí)現(xiàn)大腦驅(qū)動下的顯著性檢測,因此現(xiàn)有的顯著性檢測方法大多是由數(shù)據(jù)驅(qū)動的顯著性檢測。目前顯著性檢測方法發(fā)展越來越成熟,已被應(yīng)用到對象識別、目標(biāo)重定向、圖像視頻壓縮等多個(gè)領(lǐng)域中[1-2]。
隨著大數(shù)據(jù)時(shí)代的到來,人們需要處理的數(shù)據(jù)量越來越多,視覺顯著性檢測技術(shù)也由對圖像的靜態(tài)檢測技術(shù)向動態(tài)的視頻顯著性檢測技術(shù)轉(zhuǎn)變。視頻顯著性檢測是指從視頻序列中檢測出最引人注目的對象。Mahadevan等[3]將中心—周圍方法應(yīng)用到視頻領(lǐng)域,該方法將顏色、強(qiáng)度、方向上的特征線性組合在一起,并和動態(tài)紋理模型相結(jié)合,以此生成顯著圖,提出的方法在動態(tài)視頻場景中有好的表現(xiàn)。Cui等[4]將譜殘差方法擴(kuò)展到了視頻域中,提出了一種時(shí)間譜殘差方法,依據(jù)傅立葉頻譜分析將動態(tài)視頻顯著目標(biāo)與背景分離。Liu等[5]在視頻顯著性檢測中應(yīng)用信息論的知識進(jìn)行顯著性檢測,用時(shí)空視頻幀卷的信息表示顯著值,他將信息論的知識擴(kuò)展到了動態(tài)視頻檢測中。Xi等人[6]的方法將背景先驗(yàn)知識應(yīng)用到了動態(tài)視頻顯著性檢測中,使用背景先驗(yàn)知識檢測不同時(shí)間狀態(tài)下的背景區(qū)域,使用測地線距離提取空間上的顯著目標(biāo),最后將時(shí)間狀態(tài)上得到的顯著圖和空間狀態(tài)下得到的顯著圖融合得到最終狀態(tài)下的顯著圖。如今很多人將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到顯著性檢測中,Jiang等人提出的DeepVS模型是一種基于深度學(xué)習(xí)框架針對動態(tài)視頻場景的顯著性檢測方法[7-8]。該方法由目標(biāo)子網(wǎng)和運(yùn)動子網(wǎng)組成的運(yùn)動卷積神經(jīng)網(wǎng)絡(luò)(OM-CNN)來預(yù)測DeepVS的幀內(nèi)顯著性。在OM-CNN中,提出了交叉網(wǎng)絡(luò)掩碼和層次化特征規(guī)范化,將目標(biāo)子網(wǎng)的空間特征和運(yùn)動子網(wǎng)的時(shí)間特征結(jié)合起來。
對于視頻顯著性來說,由于某些場景的復(fù)雜性,如背景的高紋理或前景與背景之間的低顏色區(qū)分性,僅依靠靜態(tài)的空間特征不能進(jìn)行有效的檢測,特別是在動態(tài)背景中會產(chǎn)生較大的誤差;而運(yùn)動對象的時(shí)間運(yùn)動特征單獨(dú)使用,也不能夠很好地解決視頻顯著性目標(biāo)的檢測問題。為此,我們提出了將視頻輸入幀的空間信息特性與動態(tài)對象的時(shí)間運(yùn)動特性相結(jié)合的視頻顯著性檢測方法:超像素梯度流場與元胞自動機(jī)結(jié)合的視頻圖像顯著性檢測方法,通過梯度流場引入時(shí)間運(yùn)動特性,通過元胞自動機(jī)引入空間位置特性;實(shí)驗(yàn)結(jié)果表明,這種時(shí)空特征相結(jié)合的方法可以得到更加準(zhǔn)確的視頻顯著圖。
給定輸入視頻序列,首先要獲得每個(gè)幀的超像素,使用SLIC方法將每幀圖像進(jìn)行超像素分割[9-10],得到的超像素保留了原視頻的結(jié)構(gòu)信息,同時(shí)也有效地忽略了不想要部分。
(1)
(2)
(3)
(4)
采用大位移運(yùn)動估計(jì)算法[11]來計(jì)算光流。設(shè)vk為Ik′的光流場,然后計(jì)算vk的光流梯度大?。?/p>
(5)
Mk(x)=
(6)
將包含圖像基本結(jié)構(gòu)信息的超像素賦予初始顯著值,在圖像邊界上的超像素是背景的概率更高,所以先將圖像邊界上的超像素假設(shè)為背景區(qū)域,將邊界上的超像素賦予接近零的顯著值,對于剩下的超像素,將其初始化為統(tǒng)一的顯著值。
每幀圖像中的對象邊緣或輪廓保留為超像素之間的邊界,這些邊界和空間顏色的不連續(xù)性揭示了視頻幀的重要內(nèi)容。在具有復(fù)雜的紋理和背景區(qū)域中,僅使用顏色不連續(xù)性特征并不能充分地區(qū)分出顯著對象來。在光流場中突然變化的像素通常會引起人們的更多關(guān)注,所以合理地添加運(yùn)動特征將有助于顯著區(qū)域檢測。運(yùn)動的物體可能是具有非常小的光流或者背景是動態(tài)的,僅依靠運(yùn)動特征就會導(dǎo)致錯(cuò)誤的結(jié)果。為此給出一種融合空間顏色和光流場兩種特征的時(shí)空顯著性估計(jì)方法。
根據(jù)前面的分析,將空間顏色特征和運(yùn)動特征融合到顯著性檢測當(dāng)中,這種方法比僅依靠空間或運(yùn)動特征的方法更加準(zhǔn)確。當(dāng)光流通過當(dāng)前幀時(shí),光流值將隨相應(yīng)時(shí)空梯度場值增加。假設(shè)幀Ik的大小為n×m,光流從幀的左右上下四個(gè)側(cè)面進(jìn)入,并在相反方向的側(cè)面結(jié)束,其梯度流Fl、Fr、Ft、Fd,可分別定義如下:
(7)
(8)
(9)
從左到右的梯度流Fl的光流值通過時(shí)空梯度場時(shí)將增加。基于梯度流,構(gòu)建如下的梯度流場T:
(10)
從(10)中,可以得出在x處的梯度流場T值是在x處的M值再將加上其4個(gè)相鄰區(qū)域的最小光流值。但是,由于僅考慮4個(gè)鄰域,因此梯度流場T會受到其鄰域異常值的影響。T對某些噪聲也很敏感,因?yàn)樘荻攘鲀H考慮同一直線上的所有點(diǎn),并且梯度流無法通過這些有噪聲的點(diǎn)。因此,重新定義在(9)中的梯度流值定義如下:
(11)
這樣,梯度流值就考慮了所有周圍的(2t+1)梯度流值。當(dāng)t=0時(shí),可以將(9)視為(11)的特例。通過實(shí)驗(yàn)發(fā)現(xiàn),將t的值設(shè)置為2較為合適。
(12)
對于輸入視頻序列,可以觀察到相鄰幀之間的視覺背景區(qū)域是一致的,可以假設(shè)一幀中的視覺背景區(qū)域在下一幀中也是背景區(qū)域?;诖耍貙?4)如下:
(13)
(14)
將參數(shù)η的值設(shè)為給定值,當(dāng)區(qū)域梯度流場值小于該值時(shí),會將該區(qū)域視為背景區(qū)域。
在元胞自動機(jī)中,每個(gè)元胞是由SLIC算法生成超像素來表示的,每個(gè)超像素的顯著性值在0到1之間連續(xù)分布。元胞的鄰域類似于圖論中z層鄰域的概念,元胞的2層鄰域不僅包含第一層相鄰元胞還包含了與相鄰元胞有公共邊界的第二層元胞。更新原則不是只基于鄰域的信息,還將基于特征空間中鄰域與元胞之間的相似性影響也考慮進(jìn)來。
卷積神經(jīng)網(wǎng)絡(luò)最后一層中的特征編碼對象包含了圖像高級特征,而中間層包含了圖像的低級特征,將兩種特征結(jié)合在一起的方法更加有效。為此本文使用全卷積網(wǎng)絡(luò)(FCN-32s)來提取圖像的編碼。由于卷積網(wǎng)中的下采樣和池化操作,F(xiàn)CN框架中每個(gè)卷積層的輸出的結(jié)果都不相同,需要裁剪特征圖及調(diào)整輸入圖像大小,然后進(jìn)行簡單的線性組合。超像素之間的相似性可計(jì)算如下:
(15)
決定元胞下一狀態(tài)的影響因素不僅是元胞當(dāng)前的狀態(tài),還包含了元胞鄰域的狀態(tài),兩者共同決定元胞的下一狀態(tài)。任何一對超像素的相似性可以通過特征空間中的測地線距離來測量。對于有n個(gè)超像素的顯著圖,構(gòu)造影響因子矩陣F∈Rn×n.F中的每個(gè)元素fij定義為超像素i對j的影響因子:
(16)
其中超像素i的深度特征表示為ri,g(ri,rj)等同于測量的深度特征上的加權(quán)距離。σf是控制相似強(qiáng)度的參數(shù),NB(i)是元胞i的鄰域的集合。為了歸一化影響因子矩陣,度矩陣D=diag{d1,d2,…,dn}被構(gòu)造出來,其中di=∑jfij.最后,行標(biāo)準(zhǔn)化影響因子矩陣可以被表示為F*=D-1·F.
如果超像素與特征空間中的所有相鄰元胞都不相同,它的下一個(gè)狀態(tài)會更多地受當(dāng)前狀態(tài)影響。如果一個(gè)元胞與它的鄰域相似,它應(yīng)該被當(dāng)前狀態(tài)所吸收。為此,建立一個(gè)聯(lián)通矩陣C=diag{c1,c2,…,cn}來促進(jìn)所有元胞之間的更新。每個(gè)元胞的聯(lián)通性被定義為:ci=1/max(fij).
因此它與其鄰域的最大相似度成反比。由于ci表示當(dāng)前狀態(tài)的聯(lián)通性,將其標(biāo)準(zhǔn)化為ci∈[b,a+b],其中[b,a+b]?[0,1]:
(17)
在元胞自動機(jī)模型中,所有元胞將根據(jù)更新規(guī)則同步更新其狀態(tài),基于影響因子矩陣F*∈Rn×n和聯(lián)通矩陣C*∈Rn×n定義的同步更新規(guī)則如下:
s(t+1)=C*s(t)+(I-C*)F*s(t)
(18)
通過光流場可以得到視頻中顯著對象的運(yùn)動信息,利用元胞自動機(jī)的自動更新原則可以得到每幀上粗略的顯著圖。為了得到更加準(zhǔn)確顯著圖,將視頻中的動態(tài)運(yùn)動信息和靜態(tài)空間信息都考慮進(jìn)去,將兩種信息進(jìn)行融合以此得到最終視頻上的顯著圖,如下所示:
(19)
最后,通過設(shè)置固定閾值將顯著圖像進(jìn)行二值化處理。
超像素梯度流場與元胞自動機(jī)融合的視頻圖像顯著性檢測方法步驟如表1:
表1 超像素梯度流與元胞機(jī)融合的視頻顯著圖檢測
為了說明本文方法的有效性,在ViSal數(shù)據(jù)集[12]上進(jìn)行測試。將本文所提方法與現(xiàn)有的4種方法PQFT[13]、SST[14]、SIVM[15]、SPVM[16]進(jìn)行對比實(shí)驗(yàn),使用PR曲線、AUC、MAE、F-measure和S-measure值5種評估指標(biāo)進(jìn)行性能評估[17],實(shí)驗(yàn)運(yùn)行軟件環(huán)境為MATLAB,運(yùn)行系統(tǒng)為Windows 7,處理器為Inter Core i5 3.10Ghz CPU,運(yùn)行內(nèi)存為4 GB.
圖1到圖6是ViSal數(shù)據(jù)集上在bird視頻上進(jìn)行檢測的效果圖,并將檢測的部分原視頻幀和PQFT方法、SST方法、SIVM方法、SPVM方法和我們所提方法進(jìn)行檢測的效果圖進(jìn)行了對比,圖7是bird視頻幀上的金標(biāo)準(zhǔn)顯著圖。
圖1 ViSal數(shù)據(jù)集bird視頻原圖
圖2 PQFT在ViSal數(shù)據(jù)集bird視頻結(jié)果
圖3 SST在ViSal數(shù)據(jù)集bird視頻結(jié)果
圖4 SIVM在ViSal數(shù)據(jù)集bird視頻結(jié)果
圖5 SPVM在ViSal數(shù)據(jù)集bird視頻結(jié)果
圖6 Ours在ViSal數(shù)據(jù)集bird視頻結(jié)果
圖7 ViSal數(shù)據(jù)集bird視頻真實(shí)顯著值GT
圖8 ViSal數(shù)據(jù)集panda視頻原圖
圖9 PQFT在ViSal數(shù)據(jù)集panda視頻結(jié)果
圖10 SST在ViSal數(shù)據(jù)集panda視頻結(jié)果
圖11 SIVM在ViSal數(shù)據(jù)集panda視頻結(jié)果
圖12 SPVM在ViSal數(shù)據(jù)集panda視頻結(jié)果
圖8到圖13是ViSal數(shù)據(jù)集上在panda視頻上進(jìn)行檢測的效果圖,并將檢測的部分原視頻幀和PQFT方法、SST方法、SIVM方法、SPVM方法和本文所提方法進(jìn)行檢測的效果圖進(jìn)行了對比,圖14是panda視頻幀上的金標(biāo)準(zhǔn)顯著圖。
圖13 Ours在ViSal數(shù)據(jù)集panda視頻結(jié)果
圖14 ViSal數(shù)據(jù)集panda視頻真實(shí)顯著值GT
通過上述檢測效果圖,可以看到本文方法可以有效地抑制復(fù)雜的背景區(qū)域,突出顯著目標(biāo)。為了進(jìn)一步說明本文算法的性能,用5種評估指標(biāo)和現(xiàn)有的4種算法進(jìn)行對比實(shí)驗(yàn)。圖15和圖16是Visal數(shù)據(jù)集上bird視頻和panda視頻上進(jìn)行檢測的PR曲線效果圖,表2和表3是ViSal數(shù)據(jù)集上bird視頻和panda視頻上進(jìn)行檢測的MAE、F-measure、AUC、S-measure四種評估指標(biāo)得出來的評估數(shù)據(jù)。從這些曲線圖和數(shù)據(jù)表中可以清晰地發(fā)現(xiàn)本文方法在視頻顯著性檢測的多個(gè)性能指標(biāo)上都有良好的表現(xiàn)。
圖15 ViSal數(shù)據(jù)集bird視頻PR圖
圖16 ViSal數(shù)據(jù)集panda視頻PR圖
表2 ViSal數(shù)據(jù)集bird視頻測試結(jié)果
表3 ViSal數(shù)據(jù)集panda視頻測試結(jié)果
本文提出的超像素梯度流場與元胞自動機(jī)融合的視頻圖像顯著性檢測方法檢測效果更佳。該方法使用顏色梯度和光流梯度構(gòu)建了時(shí)空梯度場,根據(jù)時(shí)空梯度場得出了梯度流值。通過卷積神經(jīng)網(wǎng)絡(luò)獲得了超像素的深度特征信息,將超像素的深度特征應(yīng)用到了元胞自動機(jī)中,根據(jù)自定義規(guī)則從而自動迭代更新出顯著圖。將融合了時(shí)空信息的粗略顯著圖和元胞自動機(jī)的粗略顯著圖進(jìn)行融合得到了最終的顯著圖。通過實(shí)驗(yàn)對比結(jié)果,表明本文方法具有更高的準(zhǔn)確性,能夠抑制復(fù)雜的背景,從而突出顯著對象。但是本文只是做了對單目標(biāo)對象的研究,在多目標(biāo)上還需要進(jìn)一步研究。