郭迎春,李雅楠,于 洋
(河北工業(yè)大學(xué) 人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300401)
顯著目標(biāo)檢測旨在讓計算機視覺系統(tǒng)模擬人類的視覺系統(tǒng),從復(fù)雜場景中快速抽取出顯著目標(biāo)區(qū)域用于后續(xù)的圖像處理,廣泛應(yīng)用于圖像/視頻壓縮[1]、目標(biāo)分割[2]和目標(biāo)追蹤[3]以及運動目標(biāo)檢測[4]等領(lǐng)域。
與圖像顯著性檢測相比,視頻顯著性檢測方法起步較晚,發(fā)展不很成熟。雖然可以利用靜態(tài)圖像的顯著性檢測策略提取視頻序列中的目標(biāo)物體,但是對于視頻而言,人類更多地關(guān)注到運動顯著物體。而靜態(tài)圖像的顯著性檢測方法割裂了相鄰幀乃至整個視頻幀之間的聯(lián)系,因而未能突出視頻顯著目標(biāo)。目前視頻顯著性檢測方法通常采用底層特征(如顏色、光流、亮度、紋理)進行顯著性檢測。從模型的構(gòu)造方法看,基于底層特征主要有2種方法,即直通管線(Direct-pipeline)模型[5-13]和融合(Fusion)模型[14-17]。
直通管線模型旨在利用時空特征突出視頻顯著目標(biāo)。Zhou 等[5]將視頻幀分割成STRs(Spatio-temporal Regions),利用STR之間的特征對比度和先驗項突出前景目標(biāo)。其中每個STR的特征由3個特征向量(顏色直方圖、光流歸一化直方圖和光流方向)表示。Wang等[6]提出利用空間邊緣和時間運動邊界的測地線距離生成時空顯著圖,之后又提出了用于顯著性估計的梯度流場,并結(jié)合局部和全局對比度進一步突出前景目標(biāo),最后通過能量函數(shù)優(yōu)化目標(biāo)[7]。Liu等[8]構(gòu)造了一個具有虛擬背景節(jié)點的超像素級的無向加權(quán)圖,通過優(yōu)化常規(guī)節(jié)點中每個節(jié)點到常規(guī)節(jié)點與虛擬背景節(jié)點最短運動特征距離之和獲得運動顯著圖,經(jīng)過雙向時間傳播和空間傳播生成視頻顯著圖。Chen等[10]將顯著性目標(biāo)檢測表示為一個最小化約束能量函數(shù)問題,利用時空線索和局部約束實現(xiàn)全局顯著性優(yōu)化。Guo等[11]在梯度流場的基礎(chǔ)上,提出一種自適應(yīng)融合相鄰兩幀顯著圖的方法,并結(jié)合靜態(tài)顯著圖提取視頻顯著區(qū)域。Cong等[13]提出基于稀疏重構(gòu)的方法捕獲幀內(nèi)顯著物體,通過前向和后向傳播生成幀間顯著圖,最后利用全局優(yōu)化模塊突出一致顯著目標(biāo)。
融合模型利用空間線索和時間線索生成時間顯著圖和空間顯著圖,然后將2種顯著圖利用融合策略生成視頻顯著圖。Kim等[14]采用RWR(Random Walk with Restar)框架融合空間轉(zhuǎn)換矩陣和時間重啟動分布以檢測時空顯著性。Xi等[15]利用時間先驗和背景先驗知識得到時間顯著性和空間顯著性,之后將2種顯著值線性疊加并單位歸一化融合成視頻顯著圖。Chen等[16]對外觀/背景建模作為時間層面的全局線索,指導(dǎo)顏色顯著性與運動顯著性的融合。
盡管上述視頻顯著性檢測方法在各個時期中發(fā)揮著自身獨特的優(yōu)勢,但是在目標(biāo)位于邊界、動態(tài)背景復(fù)雜以及前景目標(biāo)被遮擋等更具有挑戰(zhàn)性的場景下,這些方法受自身局限性的影響往往不能很好地解決這些問題。因此復(fù)雜場景下的顯著目標(biāo)檢測仍然是一個亟待研究和解決的課題。本文對視頻序列構(gòu)造了一個時空上下文模型,提出了基于運動對比度和時空精細化的無監(jiān)督視頻顯著目標(biāo)檢測框架,使目標(biāo)物體具有良好的空間平滑性和時間連續(xù)性,并準(zhǔn)確突出顯著性一致的區(qū)域。
本文的主要貢獻可歸納為以下3點:
1)提出了一種基于運動對比度的顯著目標(biāo)檢測方法,當(dāng)目標(biāo)出現(xiàn)被遮擋或者位于邊界等比較復(fù)雜情形時,能夠有效地突出視頻中的運動物體;
2)為了使顯著目標(biāo)更加精確,本文結(jié)合外觀線索、運動線索與空間線索計算幀內(nèi)局部對比度與全局對比度,精細化前景目標(biāo);
3)本文利用幀間的顏色和運動相似性自適應(yīng)融合前一幀顯著圖增強了目標(biāo)物體的時空一致性。
本文的目的是精確有效地檢測出復(fù)雜視頻場景中的顯著目標(biāo)區(qū)域,主要工作分為4個部分:在1.1節(jié)中重點介紹了運動邊界連通度的計算過程,并在其基礎(chǔ)上估計背景概率約束運動對比度生成運動對比度圖;在1.2節(jié)中分析了單幀圖像的局部和全局的顯著性,進一步精細化前景目標(biāo)生成空間顯著圖;在1.3節(jié)中度量了相鄰的兩幀圖像的相似程度,自適應(yīng)融合前一幀圖像的顯著圖得到時間顯著圖;在1.4節(jié)中對運動顯著圖、空間顯著圖和時間顯著圖進行融合生成時空一致的視頻顯著圖。圖1為本文提出方法的總體框架圖。
圖1 提出方法的框架圖Fig.1 Framework of the proposed approach
對于視頻,人們更多地將注意力分配到運動明顯的物體。為此,本文提出了一種運動顯著性線索,即運動對比度,來捕獲視頻中的人類感興趣區(qū)域。
給定一個視頻序列F,首先采用LDOF 算法(Large Displacement Optical Flow)提取光流矢量,并通過SLIC 算法(Simple Linear Iterative Clustering)對視頻序列進行超像素分割,每一幀圖像將得到一組子圖像區(qū)域spi(i=1,2,…,N),N表示超像素的個數(shù)。然后提取超像素級的顏色特征、空間特征和運動特征。其中,超像素spi的顏色特征C(spi)由超像素塊內(nèi)所有像素CIE-Lab顏色空間中L、a、b3個分量平均值構(gòu)成向量表示,空間特征P(spi)由超像素中心的空間位置坐標(biāo)構(gòu)成的向量表示,運動特征V(spi)由超像素塊內(nèi)所有像素的光流矢量的平均值構(gòu)成的向量表示。
為了準(zhǔn)確區(qū)分視頻當(dāng)中的前景和背景區(qū)域,本文提出了邊界運動連通度,即度量圖像中任意一個超像素與背景區(qū)域之間的關(guān)聯(lián)程度,由此獲得背景概率降低運動對比度線索的誤檢率。首先定義超像素spi的邊界運動連通度ΦV()spi如公式(1)所示:
式中:φV,t、φV,b、φV,l、φV,r分別為沿上、下、左、右4個邊界計算得到的運動連通度。
以上邊界運動連通度為例,計算視頻序列中超像素spi生成運動關(guān)聯(lián)域的面積,其定義如公式(2):
式中:DV()spi,spj表示超像素spi與spj之間的運動距離(i,j=1,…,N,i≠j),由超像素spi沿著最短運動路徑到spj得到邊的權(quán)重累加值,控制生成運動關(guān)聯(lián)域的范圍,在本文中設(shè)置為1。
接著計算超像素spi與上邊界運動關(guān)聯(lián)長度如公式(3):
式中:spi表示上邊界中任意的超像素,|TopBnd|為上邊界(TopBnd)中超像素個數(shù),控制著上邊界區(qū)域運動關(guān)聯(lián)程度,設(shè)置為經(jīng)驗值1。根據(jù)超像素spi的運動關(guān)聯(lián)域面積和沿上邊界運動關(guān)聯(lián)長度進一步計算獲得上邊界運動連通度,其計算方法如公式(4):
與上邊界運動連通度計算過程類似,分別可以計算出沿下、左、右3個邊界運動連通度。通過公式(1)可獲得最終的邊界連通度。利用公式(5)對邊界連通度進行歸一化映射為運動背景概率pV,bg(spi)為:
式中:σV,Con控制邊界運動連通度轉(zhuǎn)化為背景概率的強度,在本文設(shè)置為1。
為了突出與視頻中主導(dǎo)運動不同的區(qū)域,計算任意超像素spi與全局范圍內(nèi)的超像素之間的運動特征距離,同時進行空間加權(quán)減弱距離當(dāng)前超像素較遠區(qū)域的影響,并結(jié)合背景概率作為約束項,由此定義超像素spi運動對比度如下:
式中:WP()spi,spj表示在空間域超像素spi對spj的影響程度,空間位置距離超像素spi越遠的區(qū)域,對其的影響程度越低;‖* ‖ 表示特征之間的歐氏距離;σp控制周圍區(qū)域在空間上的影響范圍。從圖2 中可以看出,運動對比度圖能夠有效突出運動顯著的目標(biāo)物體,物體細節(jié)較為清晰。
為了增強前景目標(biāo)的完整性,在運動對比度圖CtrV的基礎(chǔ)上融合時空梯度場圖TSG[7],生成運動顯著圖MS:
式中:?表示自適應(yīng)融合2種顯著圖操作并將融合后的顯著圖歸一化到[0,1][11]。從圖2中可以看出,運動顯著圖(見圖2f))相比于運動對比圖(見圖2d))和時空梯度場圖(見圖2e)),可以更加均勻地突出顯著物體,并保持一致高亮,且削弱了不顯著的背景噪聲。
圖2 運動顯著圖的構(gòu)建Fig.2 Examples of constructing motion saliency map
運動顯著圖可以突出視頻幀中運動顯著區(qū)域,從圖2f)中可以看到得到的顯著目標(biāo)仍然不夠準(zhǔn)確,因此這里利用幀內(nèi)圖像的對比度線索(包括局部和全局空間線索)來進一步精細化運動顯著圖MS中的前景區(qū)域O。
計算單幀圖像中任意一個超像素spi與背景區(qū)域之間的特征距離(包括顏色和運動),在空間位置距離其較近的背景超像素賦予較高的空間權(quán)重,可得到局部空間顯著性,計算方法如公式(9)所示:
式中:norm(*)表示單位歸一化到[0,1]范圍操作[15];||B表示背景區(qū)域中包含的超像素個數(shù)。
接著利用另一種度量方法來突出超像素spi與背景區(qū)域在外觀和運動對比明顯的區(qū)域,即每個超像素到背景區(qū)域的最短特征距離(包括顏色和運動)路徑累加值,稱為全局空間顯著度,具體計算方法如下:
式中:DC和DV分別表示幀內(nèi)超像素spi到背景區(qū)域中超像素spj沿最短顏色特征路徑距離之和與最短運動特征路徑距離之和。接著將局部空間顯著圖SSl和全局空間顯著圖SSg歸一化到[0,1]范圍內(nèi),融合兩種空間對比度線索增強空間一致性,獲得最終空間顯著圖:
式中:norm(*)表示單位歸一化到[0,1]范圍。與運動顯著圖MS相比,空間顯著圖SS(見圖1)能夠均勻突出顯著目標(biāo),使物體細節(jié)部分相對更加完整,并且能夠有效抑制前景目標(biāo)邊緣附近的背景噪聲。
視頻中相鄰幀間的顯著目標(biāo)具有一致性,相應(yīng)區(qū)域的顯著值存在高度相似性。基于這個先驗知識,本文提出一種時間精細化方法,計算當(dāng)前幀與前一幀在外觀和運動的相似性,作為權(quán)重項動態(tài)融合前一幀的視頻顯著圖獲得當(dāng)前幀的時間顯著圖。
式中:SC和SM分別是當(dāng)前幀中的任意超像素與前一幀任意一個超像素的顏色特征和運動特征相似度的總和;μC和μM分別是當(dāng)前幀的近似前景目標(biāo)中的超像素與前一幀前景目標(biāo)中的超像素的顏色特征和運動特征的距離的最小值;為空間加權(quán)權(quán)重,計算公式如下:
式中:μP是當(dāng)前幀的近似前景目標(biāo)與前一幀的前景目標(biāo)的空間距離的平均值。接著根據(jù)相鄰兩幀圖像之間的相似性自適應(yīng)融合前一幀的視頻顯著圖,得到時間顯著圖的定義如下:
式中:FS 表示前一幀圖像的視頻顯著圖。如圖1 所示,運動顯著圖MS 和空間顯著圖SS 缺失了細節(jié)(膝蓋)部分,由時間顯著圖TS可以檢測出較完整的內(nèi)容。
由1.1節(jié)、1.2節(jié)和1.3節(jié)分別得到了運動顯著圖、空間顯著圖和時間顯著圖。為了結(jié)合各種顯著圖的優(yōu)勢使最終的顯著圖更加穩(wěn)健,同時削弱背景噪聲,需要將3種顯著圖進行融合生成視頻顯著圖:
如圖1所示,與運動顯著圖MS、空間顯著圖SS和時間顯著圖TS相比,視頻顯著圖VS前景目標(biāo)一致高亮,均勻突出了運動顯著圖、空間顯著圖和時間顯著圖的共同顯著目標(biāo),減弱不一致顯著區(qū)域的影響。
本小節(jié)主要介紹本文方法所采用的數(shù)據(jù)集和評價算法優(yōu)劣的性能評價指標(biāo)。同時與近幾年顯著目標(biāo)檢測領(lǐng)域中的經(jīng)典算法進行了對比,并對實驗結(jié)果進行定性和定量的評估與分析,以驗證本文方法的先進性。
本算法主要與10種典型的顯著性檢測算法進行了比較,分別為TIMP(TIme-MaPping)[5],RWR(Random Walk with Restart)[14],MB+M(Minimum Barrier)[18],SAGM(Saliency-aware Geodesic)[6],GF(Gradient Flow)[7]、MSTM(Minimum Spanning Tree Model)[19]、SGSP(Superpixel-Level Graph And Spatiotemporal Propagation)[8]、FD(Fusion and Diffusion)[16]、SCSD(Spatiotemporal Consistency Saliency Detection)[11]和SRP(Sparsity-based Reconstruction and Propagation)[13]。在3 個公開的標(biāo)準(zhǔn)數(shù)據(jù)集DAVIS[20]、FBMS[21]和Segtrackv2[22]上評估了這些顯著性模型的性能。所有的測評結(jié)果來源于親自運行作者公開的源代碼或者作者提供的測試結(jié)果集。
DAVIS數(shù)據(jù)集是一個物體分割數(shù)據(jù)集,包括50個視頻序列,幀數(shù)范圍為25~104幀,共有3 455個幀標(biāo)注。該數(shù)據(jù)集富有挑戰(zhàn)性的場景,例如運動背景、背景復(fù)雜、目標(biāo)物體遮擋和目標(biāo)物體位于邊界等。
FBMS數(shù)據(jù)集是一個運動物體分割數(shù)據(jù)集,分為訓(xùn)練集和測試集。其中訓(xùn)練集包括29個視頻序列,353個幀標(biāo)注。測試集包括30個視頻序列,367個幀標(biāo)注。FBMS數(shù)據(jù)集大多數(shù)視頻序列幀數(shù)超過100幀,其涵蓋了攝像機的抖動、模糊、運動復(fù)雜、前景物體形狀大小變化、背景復(fù)雜等各種挑戰(zhàn)。其中,本文利用FBMS測試集進行試驗評估。
Segtrackv2 數(shù)據(jù)集最初用來評估跟蹤算法,也適用于評估視頻分割算法,近年來被廣泛應(yīng)用于視頻顯著性目標(biāo)檢測評估的任務(wù)中。該數(shù)據(jù)集包括14個視頻序列,幀數(shù)范圍為21~244。該數(shù)據(jù)集包含攝像機抖動、光照變化和運動復(fù)雜等情形。
本文與其他10種經(jīng)典模型在3個數(shù)據(jù)集(DAVIS、FBMS和Segtrackv2)上進行了比較。每個數(shù)據(jù)集選取兩個典型的具有挑戰(zhàn)性的視頻序列,如圖3所示,從上到下依次是DAVIS 數(shù)據(jù)集:bmx-bumps(目標(biāo)物體位于邊界,物體被遮擋),goat(背景雜亂);FBMS 數(shù)據(jù)集:lion01(目標(biāo)與背景顏色相近),rabbits04(攝像機運動);Segtrackv2數(shù)據(jù)集:bird-of-paradise(攝像機靜止),parachute(亮度變化)。
圖3 不同模型得到的顯著圖在DAVIS、FBMS 和Segtrackv2 數(shù)據(jù)集上的直觀對比效果Fig.3 The visual comparison of the saliency maps obtained by the different models on the DAVIS,FBMS and Segtrackv2
從圖3中可以看出,本算法可以有效地檢測到上述幾種復(fù)雜場景中的顯著物體。MB+M 和MSTM 未利用時空信息及相應(yīng)的策略,所以難以有效檢測視頻中目標(biāo)一致的物體。GF在物體位于邊界和被遮擋的情況下(例如bmx-bumps),錯誤地將部分背景區(qū)域檢測為顯著區(qū)域。所提出的方法與之相比,表現(xiàn)出良好的性能優(yōu)勢。TIMP和RWRV在背景雜亂的情況下(例如goat),無法突出一致的顯著目標(biāo),背景噪聲嚴(yán)重,而本模型能夠高亮地突出顯著目標(biāo)。RWRV,SAGM,GF 和SGSP 在光照變化的情況下,檢測性能魯棒性較差。由于引入邊界運動連通度的機制,本方法無論是在動態(tài)背景還是在靜態(tài)背景的場景下,均能檢測出運動顯著的目標(biāo)區(qū)域。本文采用無監(jiān)督的模型從低層特征中捕獲前景對象,與近幾年的方法相比,本方法適用于更加復(fù)雜的場景,而且能夠有效地捕獲到前景對象。
本文采用4 種定量評價指標(biāo)評估不同視頻顯著目標(biāo)檢測模型的性能:Precision-Recall(PR)、F-measure、S-measure 和MAE。為了公平有效地進行評估,本文將所有顯著圖重新調(diào)整到[0,255],從中依次選取閾值對顯著圖進行二值化得到二值圖,然后與真值(GT,ground-truth)進行比較。圖4為本算法與其余10種主流算法在DAVIS、FBMS和Segtrackv2數(shù)據(jù)集上的PR曲線。表1為最大F-measure值、S-measure值以及MAE測評結(jié)果。值得注意的是,表1中測評結(jié)果排名最好的數(shù)據(jù)均用加粗字體表示。
圖4 不同算法在3 個數(shù)據(jù)集上的PR 曲線Fig.4 PR curves of different methods on three datasets
F-measure評估算法整體性能,利用查準(zhǔn)率和查全率計算得到,其計算公式如下:
式中:β2控制著分割準(zhǔn)確率和分割完全率的權(quán)重,這里β2設(shè)置為0.3[23]。
S-measure是Fan等[24]提出的一種新型的評估顯著圖度量方法,廣泛用來評價顯著圖與真值圖GT之間的結(jié)構(gòu)相似度。
式中:So表示對象感知結(jié)構(gòu)相似性;Sr表示區(qū)域感知結(jié)構(gòu)相似性。α通常設(shè)置為0.5。
圖4 顯示了本算法與10 種主流算法的PR 曲線。與SRP 相比,本文的PR 曲線峰值略低,最大相差0.5%,幾乎與SRP模型持平。但綜合其他測評結(jié)果來看(如表1),無論是最大F-measure、S-measure 還是MAE 值,均明顯優(yōu)于SRP。其中,在最大F-measure值上與SRP 模型相比,本模型高于其1.8%~8%左右;在S-measure 值上,本模型均高于SRP,在MAE 上相差0.8%~1.8%。這說明本模型的測試效果的精度和和魯棒性更勝一籌。且相比于其他模型,本文的PR 曲線明顯處于最高值,性能效果明顯。從F-measure 來看,所提出方法在3 個數(shù)據(jù)集上均獲得了最高的分?jǐn)?shù)。從S-measure 上看,在FBMS 和Segtrackv2 數(shù)據(jù)集上與其他模型相比,本模型分值最高。在DAVIS數(shù)據(jù)集上,所提出算法與FD分值相當(dāng)。從MAE來看,在Segtrackv2數(shù)據(jù)集上取得了最低值。在其他2個數(shù)據(jù)集上,與獲得最低MAE的模型相比,相差0.4%~1%左右。總的來說,本文提出的基于級聯(lián)優(yōu)化策略的視頻顯著性檢測算法在復(fù)雜的視頻中能夠準(zhǔn)確有效地定位顯著區(qū)域,與近五年的視頻顯著性檢測模型相比具有一定的競爭力。實驗結(jié)果證明了本文方法的有效性和合理性。
表1 與主流模型評估對比結(jié)果Tab.1 Comparison of evaluation results with the state-ofthe-art models
本文提出了一種新的視頻顯著目標(biāo)檢測方法,相比于過去無監(jiān)督模型,對具有挑戰(zhàn)性的場景具有更強的魯棒性。首先,在計算運動顯著圖時提出了基于運動對比度檢測運動目標(biāo)的方法,并融合時空梯度場圖,一致突出共同的顯著運動目標(biāo)。接著,采用全局與局部兩種對比度線索對運動顯著目標(biāo)進行精細化,使前景對象具有較高的顯著性,抑制背景噪聲。此外,利用幀間的相似性動態(tài)融合前一幀圖像的顯著圖,突出幀間一致目標(biāo)物體。本文在3個公開的數(shù)據(jù)集上進行實驗,實驗結(jié)果表明本文提出的方法具有一定的有效性和先進性。由于本文采用了光流提取運動特征,而提取光流耗費時間大,大大降低了檢測的時間效率。所以未來的工作希望探索一種新方法,替代光流獲取運動特性。而且在雜亂的背景中檢測微小的顯著物體并且應(yīng)對更加復(fù)雜的場景也是本文目前工作的瓶頸,這也是未來需要研究的重點。