張雷 李成龍 涂錚錚 湯 進(jìn),2
( 1.安徽大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥,230601;2.安徽省工業(yè)圖像處理與分析重點(diǎn)實(shí)驗(yàn)室,合肥,230039)
基于保邊濾波的顯著目標(biāo)快速分割方法
張雷1李成龍1涂錚錚1湯 進(jìn)1,2
( 1.安徽大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥,230601;2.安徽省工業(yè)圖像處理與分析重點(diǎn)實(shí)驗(yàn)室,合肥,230039)
在視頻中自動(dòng)發(fā)掘目標(biāo)并對(duì)其進(jìn)行精確分割是一個(gè)非常有挑戰(zhàn)性的計(jì)算機(jī)視覺問題。本文提出了一種基于保邊濾波的顯著目標(biāo)快速分割方法。首先,通過融合外觀特征與運(yùn)動(dòng)特征,將視頻中的顯著目標(biāo)發(fā)掘轉(zhuǎn)為能量函數(shù)最小化問題進(jìn)行求解。其次,為了更精確地進(jìn)行分割目標(biāo),融合外觀的高斯混合外觀模型(Gaussian mixture mode,GMM)、位置先驗(yàn)以及時(shí)空平滑約束構(gòu)建馬爾科夫隨機(jī)場(chǎng)(Markov random field,MRF)模型,并使用圖割算法進(jìn)行求解。本文提出的基于保邊濾波的顯著目標(biāo)快速分割方法,在犧牲較少的精度下,極大地提高了分割效率。最后在兩個(gè)數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,本文算法的分割精度超過了其他5種目標(biāo)分割方法,且加速算法在損失少量精度的情況下提高了2倍分割效率。
顯著目標(biāo)發(fā)掘;MRF模型;保邊濾波;快速目標(biāo)分割
視頻中的目標(biāo)分割是計(jì)算機(jī)視覺中的一個(gè)基礎(chǔ)底層問題,可用于運(yùn)動(dòng)識(shí)別、三維重建、視頻檢索和視頻摘要等。由于無約束的視頻中存在背景復(fù)雜、光照變化、目標(biāo)和背景運(yùn)動(dòng)劇烈等因素,使得如何自動(dòng)發(fā)掘目標(biāo),并對(duì)其進(jìn)行準(zhǔn)確地時(shí)空分割具有非常大的挑戰(zhàn)性。近年來,一些研究學(xué)者根據(jù)目標(biāo)的一些外觀或運(yùn)動(dòng)特征實(shí)現(xiàn)目標(biāo)的自動(dòng)發(fā)掘,并進(jìn)一步精確分割[1-8,10-11]。
(1)基于圖像顯著性的目標(biāo)分割方法。該方法是在圖像中利用目標(biāo)顯著性進(jìn)行初始化,進(jìn)而精確分割。這些方法可以看作是視頻中目標(biāo)分割的特例,即初始化和分割均不考慮時(shí)序關(guān)系。Cheng等[3]通過全局的顏色特征對(duì)比計(jì)算目標(biāo)的顯著性,然后閾值化作為目標(biāo)的初始分割,進(jìn)而使用GrabCut進(jìn)行精確分割。該方法具有較快的處理速度,但魯棒性不高。Achanta等[4]以像素點(diǎn)為中心的小窗口內(nèi)Lab顏色特征與附近其他窗口進(jìn)行局部對(duì)比得到顯著性計(jì)算結(jié)果,并結(jié)合在多尺度上的顯著性值得到最終的圖像顯著性檢測(cè)結(jié)果,最后在過分割的基礎(chǔ)上,將平均顯著性值高于閾值的區(qū)域分割出來,以此作為目標(biāo)的分割結(jié)果,此方法容易導(dǎo)致丟失大部分的目標(biāo)區(qū)域。以上這些方法都是用圖像顯著性結(jié)果作為目標(biāo)的初始化,實(shí)現(xiàn)自動(dòng)的目標(biāo)分割。而視頻中的場(chǎng)景更為復(fù)雜,僅僅利用視頻幀自身的信息不能有效地進(jìn)行目標(biāo)分割,所以方法存在較大的局限性。
(2)基于視頻顯著性的目標(biāo)分割方法。Fukuchi等[5]結(jié)合當(dāng)前幀的圖像顯著性檢測(cè)結(jié)果與前一幀的分割結(jié)果,并用卡爾曼濾波得到當(dāng)前幀的初始化目標(biāo),最后在馬爾科夫隨機(jī)場(chǎng)(Markov random field, MRF)中進(jìn)行目標(biāo)分割的求解,在圖像處理單元(Graphics processing unit,GPU)加速下使得此方法具有較高的分割效率,但此方法在構(gòu)建馬爾科夫隨機(jī)場(chǎng)時(shí),并僅僅用了目標(biāo)的外觀特征,沒有考慮到目標(biāo)在視頻中存在的位置先驗(yàn)信息,從而導(dǎo)致對(duì)一些由運(yùn)動(dòng)到靜止的目標(biāo)出現(xiàn)漏分割的情況。Li等[6]首先通過計(jì)算得到視頻幀的圖像與運(yùn)動(dòng)顯著性信息,并由此信息得到的形狀特征、前景與背景顏色特征以及顯著性特征,并結(jié)合時(shí)空一致性約束構(gòu)建條件隨機(jī)場(chǎng)(Condition random field,CRF)模型,最后用圖割的方法求解得到目標(biāo)分割的結(jié)果,但此方法在顯著性計(jì)算時(shí)不能均勻的凸顯顯著目標(biāo),且具有較高的時(shí)間復(fù)雜度,導(dǎo)致其應(yīng)用受到較大的限制。Wang等[7]先計(jì)算每一視頻幀的空間邊緣特征與運(yùn)動(dòng)邊緣特征,再對(duì)這兩種特征計(jì)算測(cè)地距離得到顯著性結(jié)果,并在此基礎(chǔ)上通過計(jì)算與估計(jì)背景區(qū)域的測(cè)地距離得到較準(zhǔn)確的顯著性檢測(cè)結(jié)果,最后結(jié)合全局的外觀模型、位置先驗(yàn)以及時(shí)空平滑建立能量函數(shù)進(jìn)行目標(biāo)分割,是一種離線的目標(biāo)分割方法。
(3)其他的視頻目標(biāo)自動(dòng)分割方法。Lee等[8]首先把所有視頻幀過分割成超像素[9],并依據(jù)外觀與運(yùn)動(dòng)特征差異計(jì)算超像素的顯著值。然后對(duì)超像素進(jìn)行聚類,利用超像素的顯著值對(duì)類進(jìn)行排序,把排名最高的類作為目標(biāo)的初始化。最后以像素點(diǎn)為結(jié)點(diǎn),結(jié)合目標(biāo)和背景的高斯混合模型(Gaussian mixture model, GMM),以及局部形狀匹配位置先驗(yàn),構(gòu)建MRF模型進(jìn)行目標(biāo)分割。在此基礎(chǔ)上,Zhang等[10]構(gòu)造了一個(gè)分層的有向無環(huán)圖(Directed acyclic graph,DAG)來選取最終的目標(biāo)區(qū)域,并利用光流對(duì)目標(biāo)區(qū)域進(jìn)行擴(kuò)張。但Lee和Zhang等的分割方法只適合單目標(biāo)的分割情況,且時(shí)間復(fù)雜度較高。Papazoglou等[11]通過目標(biāo)的運(yùn)動(dòng)特征度量來初始化目標(biāo),然后結(jié)合位置先驗(yàn)以及時(shí)空平滑約束建立MRF模型快速分割出目標(biāo)。由于該方法只采用了目標(biāo)運(yùn)動(dòng)特征度量,在靜止或者運(yùn)動(dòng)較小的目標(biāo)分割中往往會(huì)失敗。值得注意的是,文獻(xiàn)[7-9,11]的目標(biāo)分割方法都利用了視頻的全局信息,導(dǎo)致這些方法都不能處理任意長(zhǎng)的視頻,具有較大的局限性。
本文針對(duì)以上目標(biāo)分割中存在的問題,提出了一種基于保邊濾波的顯著目標(biāo)快速分割方法。該方法能夠在線自動(dòng)地發(fā)掘視頻中的顯著目標(biāo),并在保邊濾波的作用下保持目標(biāo)的邊界信息,得到較準(zhǔn)確的目標(biāo)初始化,在此基礎(chǔ)上對(duì)目標(biāo)進(jìn)行快速分割,且該方法具有較高的分割精度。本文實(shí)驗(yàn)也驗(yàn)證了該方法的有效性,分割精度優(yōu)于現(xiàn)有的其他目標(biāo)分割方法,且具有較高的分割效率。
本文提出基于保邊濾波的顯著目標(biāo)快速分割方法,其算法流程圖如圖1所示。該方法首先在梯度驅(qū)動(dòng)下對(duì)視頻幀進(jìn)行降采樣,保留最大的梯度信息得到低分辨率的視頻幀,并提取此低分辨率視頻幀的外觀特征與運(yùn)動(dòng)特征,然后在能量最小化的框架下融合這兩種不同的特征,得到視頻顯著性檢測(cè)結(jié)果,并均勻的凸顯出顯著目標(biāo)。在此基礎(chǔ)上進(jìn)行閾值化發(fā)掘顯著目標(biāo),并估計(jì)出目標(biāo)和背景的外觀模型,即高斯混合模型,再結(jié)合由上一幀傳遞到該幀的目標(biāo)位置先驗(yàn)以及時(shí)空的平滑約束建立MRF模型,并使用圖割算法進(jìn)行求解得到目標(biāo)精確的分割結(jié)果,最后還原到原分辨率大小,并用保邊的局部多點(diǎn)交叉濾波(Cross-based local multipoint filtering,CLMF)算法進(jìn)行處理得到的目標(biāo)分割最終結(jié)果。
圖1 基于保邊濾波的顯著目標(biāo)快速分割算法流程圖Fig.1 Flow chart of fast salient object segmentation based on edge-preserving filtering
1.1 融合外觀和運(yùn)動(dòng)特征的顯著目標(biāo)發(fā)掘
本文在能量最小化的框架下,通過融合外觀特征和運(yùn)動(dòng)特征得到視頻顯著性計(jì)算結(jié)果,并用固定的閾值處理發(fā)掘顯著目標(biāo)。常用的圖像外觀特征包括顏色、亮度、紋理和邊緣等,為了簡(jiǎn)單有效,本文使用具有互補(bǔ)作用的顏色與結(jié)構(gòu)特征。其中,顏色特征采用Lab空間來表示,結(jié)構(gòu)特征融合梯度方向和大小來表示,即在以像素點(diǎn)為中心的小窗口內(nèi),分別計(jì)算此窗口內(nèi)像素的梯度方向和梯度大小的直方圖,然后聯(lián)接兩個(gè)直方圖作為該像素點(diǎn)的結(jié)構(gòu)特征表示[12]。對(duì)于運(yùn)動(dòng)特征,使用光流[13]幅值大小來表示。
1.1.1 視頻顯著性的公式形式化表示
本文在能量最小化框架下求解視頻顯著性問題。為了提取顯著的目標(biāo)以及一致的凸顯目標(biāo)區(qū)域,定義能量函數(shù)為
(1)
(2)
式中:Ωp表示由像素點(diǎn)p生成的不規(guī)則自適應(yīng)大小的聯(lián)通區(qū)域,即在一定的臂長(zhǎng)r范圍內(nèi),根據(jù)每一個(gè)像素點(diǎn)p與此范圍內(nèi)其他像素點(diǎn)顏色距離小于閾值T1,生成聯(lián)通的自適應(yīng)大小窗口Ωp。并用窗口內(nèi)其他像素點(diǎn)k對(duì)其進(jìn)行加權(quán),權(quán)值大小為wpk,此權(quán)值由Ωk所包含的像素點(diǎn)確定,詳細(xì)見式(3)。因?yàn)閷?duì)p加權(quán)由p生成的自適應(yīng)窗口中其他像素點(diǎn)所決定,所以具有很好的保邊作用。
(3)
1.1.2 基于CLMF的視頻顯著性求解
(1)構(gòu)建代價(jià)體
(4)
(2)對(duì)代價(jià)體進(jìn)行CLMF保邊濾波
(5)
(3)選擇最優(yōu)值
(6)
圖2為有CLMF作用下的視頻顯著性計(jì)算結(jié)果,與沒有CLMF的作用下的視頻顯著性計(jì)算結(jié)果的比較圖。圖2中依次給出了原視頻幀、手工標(biāo)注結(jié)果、在CLMF作用下的視頻顯著性計(jì)算結(jié)果以及沒有CLMF作用下的視頻顯著性計(jì)算結(jié)果。從圖中可以看出,CLMF保邊濾波很好地保持了目標(biāo)邊界信息,均勻的凸顯目標(biāo)區(qū)域,且能有效地去除噪聲的干擾。
圖2 CLMF在視頻顯著計(jì)算中的作用比較圖Fig.2 Effect comparison images of CLMF in video saliency calculation
1.1.3 顯著目標(biāo)提取
本文通過在能量最小化框架下計(jì)算視頻顯著性,得到顯著性結(jié)果較好的均勻凸顯出目標(biāo)區(qū)域,且很好地保持目標(biāo)的邊界信息,并利用簡(jiǎn)單的閾值T2分割得到顯著目標(biāo),在此基礎(chǔ)上用MRF模型對(duì)目標(biāo)進(jìn)行精確的分割。
1.2 基于MRF模型的目標(biāo)精確分割
對(duì)于進(jìn)一步的精確分割,本文以超像素[15]為處理單位,首先通過初始分割結(jié)果和超像素的重疊比確定目標(biāo)超像素。然后以超像素為結(jié)點(diǎn)構(gòu)建MRF模型,能量函數(shù)定義如式(7)所示,并使用Graph Cut[16]進(jìn)行求解得到目標(biāo)精確的分割結(jié)果。
(7)
1.3 基于梯度驅(qū)動(dòng)以及CLMF保邊濾波的加速算法
為了降低時(shí)間復(fù)雜度,滿足視頻數(shù)據(jù)的時(shí)間處理需求,本文提出一種基于梯度驅(qū)動(dòng)以及保邊濾波的加速算法,在損失少量精度的基礎(chǔ)上極大提高了分割速度。首先使用m×m的窗口對(duì)視頻幀進(jìn)行降采樣,使用該窗口內(nèi)梯度最大的像素點(diǎn)作為低分辨率視頻幀對(duì)應(yīng)位置的像素值;然后在此低分辨率視頻上使用1.1節(jié)和1.2節(jié)的方法進(jìn)行顯著目標(biāo)的分割;最后將分割出的結(jié)果升采樣到原分辨率大小,并在原視頻幀的引導(dǎo)下使用CLMF保邊濾波進(jìn)行處理,由此保證分割的精度。圖3馬的視頻給出了梯度驅(qū)動(dòng)降采樣及CLMF保邊濾波升采樣的比較圖,從圖中可以看出,本文在梯度驅(qū)動(dòng)降采樣的基礎(chǔ)上得到較好的分割結(jié)果,并在原視頻幀的引導(dǎo)下進(jìn)行保邊濾波處理是有效的,較好地保持了目標(biāo)的邊界信息。
圖3 梯度驅(qū)動(dòng)降采樣及CLMF保邊濾波升采樣比較圖Fig.3 Comparison between sub-sampling result with gradient-driven and up-sampling result with CLMF edge-preserving filtering
算法的具體流程如下。
輸入:視頻幀。
(1)梯度驅(qū)動(dòng)的降采樣。對(duì)視頻幀用m×m的窗口進(jìn)行降采樣,保留最大的梯度信息。
(2)顯著目標(biāo)發(fā)掘。在能量最小化的框架下,融合外觀特征與運(yùn)動(dòng)特性進(jìn)行視頻中顯著目標(biāo)的發(fā)掘,具體細(xì)節(jié)見1.1節(jié)。
(3)GMM估計(jì)。用當(dāng)前幀顯著目標(biāo)的檢測(cè)結(jié)果優(yōu)化上一幀的GMM作為當(dāng)前幀外觀GMM。
(4)目標(biāo)分割。根據(jù)當(dāng)前幀的外觀GMM和位置先驗(yàn)以及時(shí)空的平滑約束求解式(8),得到目標(biāo)分割結(jié)果,并輸出當(dāng)前幀的外觀模型。
(5)在CLMF作用下的升采樣。將目標(biāo)分割結(jié)果升采樣到原分辨率大小,并對(duì)此進(jìn)行保邊濾波得到原分辨率的目標(biāo)分割結(jié)果。
輸出:目標(biāo)分割結(jié)果。
本文在兩個(gè)數(shù)據(jù)集上與5種不同的目標(biāo)分割方法進(jìn)行比較,通過對(duì)實(shí)驗(yàn)結(jié)果的對(duì)比分析,驗(yàn)證了本文方法的有效性,其分割精度在大部分情況下優(yōu)于其他的目標(biāo)分割算法,并取到了較高的分割效率。
2.1 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)中的兩個(gè)數(shù)據(jù)集為Fukuchi[5]公共數(shù)據(jù)集與自己收集的視頻集。其中Fukuchi公共數(shù)據(jù)集包含10個(gè)不同的視頻,分別為飛機(jī)、鳥、狐貍、滑雪1、滑雪2、馬、貓、黃鸝、犀牛和向日葵,并給出了手工標(biāo)注的分割結(jié)果。為了進(jìn)一步驗(yàn)證本文算法的有效性以及實(shí)用性,本文也收集了6個(gè)不同類型的視頻進(jìn)行實(shí)驗(yàn),其中選取了YouTube-Objects公共數(shù)據(jù)上的飛機(jī)、馬和摩托車這3個(gè)視頻中的一個(gè)鏡頭,以及自己拍攝的監(jiān)控場(chǎng)景的行人、兩個(gè)行人、兩人交談這3個(gè)視頻,并都進(jìn)行了人工標(biāo)注。為了實(shí)驗(yàn)比較的客觀性,在選取這些視頻時(shí),考慮到文獻(xiàn)[11]只對(duì)運(yùn)動(dòng)目標(biāo)才能夠進(jìn)行有效分割以及文獻(xiàn)[10]只適應(yīng)于單目標(biāo)分割的情況,本文選取視頻中的飛機(jī)、摩托車和兩個(gè)行人都有較大的運(yùn)動(dòng),而飛機(jī)、摩托車和馬的視頻中都是單一的目標(biāo)??傮w上,這兩個(gè)數(shù)據(jù)集考慮到了目標(biāo)的個(gè)數(shù)、目標(biāo)運(yùn)動(dòng)的快慢、鏡頭遠(yuǎn)近以及攝像機(jī)的運(yùn)動(dòng),能夠較全面地評(píng)價(jià)分割算法的性能。
本文實(shí)驗(yàn)中的比較方法包括現(xiàn)有較流行的目標(biāo)分割方法,其中包括文獻(xiàn)[6]、文獻(xiàn)[10]、文獻(xiàn)[11]、VIBE[17]和RCC[3]的目標(biāo)分割算法,文獻(xiàn)[6,10,11]算法是近年較好的目標(biāo)分割算法,VIBE是經(jīng)典的目標(biāo)檢測(cè)算法,而RCC是基于圖像顯著性的目標(biāo)分割算法。在實(shí)驗(yàn)中設(shè)置參數(shù)如下:λ,h,α1,α2,α3,T1和r分別設(shè)置為0.6,24,1,5 000,4 000,25和9,視頻顯著性檢測(cè)結(jié)果歸一化到[0,1]之間,閾值T2設(shè)置為0.4,m×m大小的窗口設(shè)置為2×2,并假設(shè)前景與背景分別由5和8個(gè)單高斯組成,且在實(shí)驗(yàn)中這些參數(shù)都保持不變。
圖4 在收集的視頻數(shù)據(jù)中每個(gè)視頻的平均錯(cuò)誤率比較折線圖 Fig.4 Average inaccuracy rate comparison line chart for every video in collected video datasets
2.2 實(shí)驗(yàn)結(jié)果與分析
(8)
2.2.1 定量分析
表1中給出了在Fukuchi公共數(shù)據(jù)集上的實(shí)驗(yàn)精度比較結(jié)果,其中第1列是此數(shù)據(jù)集中所有視頻的類別,括號(hào)內(nèi)給出了視頻的總幀數(shù)。第2,3,4,5,6,7列分別表示本文算法、文獻(xiàn)[10]、文獻(xiàn)[11],VIBE,RCC和文獻(xiàn)[6]的平均錯(cuò)誤率,倒數(shù)第1,2行分別表示本文算法相對(duì)其他算法提高精度的百分比,以及每種算法在整個(gè)數(shù)據(jù)集上的平均錯(cuò)誤率。從表中的平均錯(cuò)誤率與提高精度百分比可以看出,本文方法的分割精度優(yōu)于其他5種算法的分割精度,且相對(duì)于VIBE算法提高了84.1%的精度。RCC算法在此數(shù)據(jù)集中表現(xiàn)出較好的分割精度,但本文算法在此基礎(chǔ)上仍提高了16.6%的精度,且RCC算法只針對(duì)靜態(tài)圖像進(jìn)行目標(biāo)分割,沒有充分利用視頻的時(shí)序信息,具有一定的局限性,這從圖4的精度比較曲線中可以看出。
圖4給出了在本文收集的6個(gè)視頻的分割精度比較曲線,其中不同的顏色代表不同的分割算法,橫坐標(biāo)表示視頻號(hào),并給出了對(duì)應(yīng)視頻的名稱,縱坐標(biāo)表示平均錯(cuò)誤率。由于文獻(xiàn)[6]在飛機(jī)的視頻中具有較高的錯(cuò)誤率0.667 8,為了更好地進(jìn)行折線圖的比較,故在折線圖未加入文獻(xiàn)[6]飛機(jī)視頻的精度值。從圖中可以看出,本文的分割精度在大部分視頻上都要優(yōu)于其他方法的分割結(jié)果。其中文獻(xiàn)[10]雖然整體的分割效果較穩(wěn)定,但分割精度不高,且復(fù)雜度較高,很難得到廣泛的應(yīng)用。文獻(xiàn)[11]在飛機(jī)與馬的單個(gè)大目標(biāo)的視頻分割中出現(xiàn)了漏分割的情況,從而導(dǎo)致精度較低。VIBE算法對(duì)背景有運(yùn)動(dòng)干擾的視頻具有較差的分割結(jié)果,如馬和摩托車的視頻。RCC算法在飛機(jī)與兩個(gè)行人的視頻中存在較多的分割錯(cuò)誤,而在摩托車上表現(xiàn)較好的分割結(jié)果,這是由于摩托車視頻中的目標(biāo)具有較好的圖像顯著性,從而使得RCC具有較高的分割精度。由于飛機(jī)視頻中鏡頭遠(yuǎn)近的不斷變化,對(duì)文獻(xiàn)[17]中提取的運(yùn)動(dòng)特征影響較大,導(dǎo)致分割的精度較低,而本文算法在這6個(gè)視頻中都具有較好的分割結(jié)果,超過了其他的目標(biāo)分割算法。
表1 在Fukuchi公共數(shù)據(jù)集上分割算法的精度比較結(jié)果(其中黑色加粗為最高的分割精度)
Tab.1 Accuracy comparison of different segmentation algorithms on Fukuchi public dataset (The black-bordered is the best segmentation accuracy)
算法本文算法文獻(xiàn)[10]文獻(xiàn)[11]VIBE[17]RCC[3]文獻(xiàn)[6]飛機(jī)(57)0.02350.03520.01480.06320.04640.0598紅鳥(69)0.02430.05790.11280.11170.01750.0168狐貍(86)0.00710.07740.00880.12870.05300.0222滑雪1(48)0.01470.06730.04330.32040.11920.0643滑雪2(68)0.00890.07550.03320.24880.03880.0401馬(74)0.03170.11110.03350.23570.07580.1242貓(92)0.01750.10690.01190.14850.01900.0888黃鸝(103)0.14660.11360.61290.31820.03730.1587犀牛(85)0.00720.12220.00850.22370.00730.0768向日葵(86)0.05060.14080.05810.29090.03160.0541平均錯(cuò)誤率0.03320.09080.09380.20900.03980.0706精度提高百分比/%—63.464.684.116.653.0
本文實(shí)驗(yàn)所用的PC處理器為Intel(R) Core(TM) i7-4790K CPU 4.00 GHz。視頻幀大小為640×360時(shí),分割一幀所需時(shí)間約為1.2 s,但在本文實(shí)驗(yàn)中先降采樣到320×180,其中降分辨率與升分辨率時(shí)間約為0.04 s/幀,計(jì)算光流所用時(shí)間為0.08 s/幀,視頻顯著性計(jì)算每幀需要約0.2 s,總共分割一幀所需時(shí)間約為0.6 s,提高了約2倍的分割效率。文獻(xiàn)[11]處理1幀的時(shí)間大概是0.4 s(除去計(jì)算光流和過分割時(shí)間),RCC處理一幀所需時(shí)間為0.004 s。盡管VIBE能夠?qū)崟r(shí)的進(jìn)行目標(biāo)分割,但在很多情況下不能得到較好的分割結(jié)果。文獻(xiàn)[10]不僅內(nèi)存需求大,而且耗時(shí)巨大,僅每一幀產(chǎn)生可能的目標(biāo)區(qū)域所需時(shí)間就超過80 s,文獻(xiàn)[6]計(jì)算每幀的運(yùn)動(dòng)與圖像顯著性的時(shí)間超過60 s,文獻(xiàn)[6,10]的分割時(shí)間遠(yuǎn)大于本文方法的分割時(shí)間。
2.2.2 定性分析
本文展示了4組不同的視頻分割結(jié)果,如圖5所示。前兩組視頻來自Fukuchi公共數(shù)據(jù)集中的滑雪1與滑雪2的視頻,后兩組視頻為自己收集的視頻數(shù)據(jù)。每組視頻給出了其中3幀的分割結(jié)果,左上角標(biāo)注的序號(hào)為視頻的幀號(hào)。其中每一組視頻的第1,2,3,4,5,6行分別表示本文算法、文獻(xiàn)[10]、文獻(xiàn)[11],VIBE[17],RCC[3]和文獻(xiàn)[6]的分割結(jié)果??梢钥闯觯疚牡姆指罱Y(jié)果優(yōu)于其他5種方法的分割結(jié)果。
從4組視頻第2行可以看出,文獻(xiàn)[10]對(duì)于單個(gè)大目標(biāo)的馬視頻中,只分割出了馬的一部分,且在第1組視頻中沒有分割出任何目標(biāo)。從第3行看出,文獻(xiàn)[11]在目標(biāo)運(yùn)動(dòng)較快時(shí)有較好的分割結(jié)果,但對(duì)運(yùn)動(dòng)較小或者靜止的目標(biāo)不能進(jìn)行有效的分割。從第4行看出,VIBE算法在相機(jī)運(yùn)動(dòng)或背景運(yùn)動(dòng)干擾的情況下分割結(jié)果較差,不能對(duì)目標(biāo)進(jìn)行有效分割。從第5行可以看出,RCC算法對(duì)一些運(yùn)動(dòng)的目標(biāo)不能進(jìn)行有效的分割,主要是由于RCC沒有考慮到目標(biāo)的運(yùn)動(dòng)信息,所以此算法對(duì)視頻中的目標(biāo)分割具有局限性。從第6行可以看出,文獻(xiàn)[6]在馬的視頻中誤分割出背景,對(duì)監(jiān)控場(chǎng)景的行人存在漏分割的情況。從4組視頻的第1行可以看出,本文算法基本克服了其他算法的缺點(diǎn),對(duì)視頻中的所有目標(biāo)都具有較好的分割結(jié)果,但也存在一些問題,比如在第4組監(jiān)控場(chǎng)景的行人視頻中,將行人的影子也作為目標(biāo)分割出來,后面將針對(duì)這一類問題進(jìn)行研究,且由于本文是一種在線的目標(biāo)分割算法,前幾幀的分割受目標(biāo)初始化的影響較大所導(dǎo)致前幾幀的分割結(jié)果可能較差,但這也是在線目標(biāo)分割都會(huì)遇到的問題。
本文提出了一種基于保邊濾波的顯著目標(biāo)快速分割方法,該方法能夠在無約束的場(chǎng)景下自動(dòng)發(fā)掘不同類型、不同運(yùn)動(dòng)模式下的多個(gè)目標(biāo),并進(jìn)行精確地分割。為了提高效率,使用一種基于梯度驅(qū)動(dòng)以及保邊濾波的加速算法,在保證精度的基礎(chǔ)上,極大地提高了分割速度。實(shí)驗(yàn)驗(yàn)證了該方法的有效性,其精度在大部分情況下優(yōu)于其他目標(biāo)分割算法,且具有較高的分割效率。下一步的研究重點(diǎn)是融合目標(biāo)的邊界特征等聯(lián)合地對(duì)目標(biāo)建模,進(jìn)一步地提高分割精度,以及提出相應(yīng)的快速求解算法,降低處理復(fù)雜度,更好地服務(wù)于后續(xù)的其他視覺任務(wù)。
[1] 趙勝男,王文劍.一種快速均值漂移圖像分割算法[J].數(shù)據(jù)采集與處理,2015,30(1):192-201.
Zhao Shengnan,Wang Wenjian. Fast mean shift for image segmentation[J]. Journal of Data Acquisition and Processing,2015, 30(1):192-201.
[2] 唐利明,黃大榮,李可人.基于變分水平集的圖像分割模型[J].數(shù)據(jù)采集與處理,2014,29(5):704-712.
Tang Liming, Huang Darong, Li Keren.New model based on variational level set for image segmentation[J]. Journal of Data Acquisition and Processing,2015, 29(5):192-201.
[3] Cheng M, Mitra N J, Huang X, et al. Global contrast based salient region detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 569-582.
[4] Achanta R, Estrada F, Wils P, et al. Salient region detection and segmentation[C]// Computer Vision Systems. [S.l.]:Springer Berlin Heidelberg, 2008: 66-75.
[5] Fukuchi K, Miyazato K, Kimura A, et al. Saliency-based video segmentation with graph cuts and sequentially updated priors[C]// Proceedings of IEEE International Conference on Multimedia and Expo. New York:[s.n.],2009: 638-641.
[6] Li W T, Chang H S, Lien K C, et al. Exploring visual and motion saliency for automatic video object extraction[J]. IEEE Transactions on Image Processing, 2013, 22(7): 2600-2610.
[7] Wang W, Shen J, Porikli F. Saliency-aware geodesic video object segmentation[C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, USA:[s.n.],2015.
[8] Lee Y J, Kim J, Grauman K. Key-segments for video object segmentation [C]//Proceedings of IEEE International Conference on Computer Vision.Barcelona, Spain:IEEE,2011:1995-2002.
[9] Endres I, Hoiem D. Category independent object proposals[C]//Proceedings of European Conference on Computer Vision. Hersonissos, Crete,Greece:[s.n.],2010,635:575-588.
[10]Zhang D, Javed O, Shah M. Video object segmentation through spatially accurate and temporally dense extraction of primary object regions[C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Portland, USA:IEEE, 2013: 628-635.
[11]Papazoglou A, Ferrari V. Fast object segmentation in unconstrained video[C]// Proceedings of IEEE International Conference on Computer Vision. Sydney, Australia: IEEE, 2013: 1777-1784.
[12]Wang Keze, Lin Liang, Lu Jiangbo, et al. PISA: Pixelwise image saliency by aggregating complementary appearance contrast measures with edge-preserving coherence[J]. IEEE Transactions on Image Processing, 2015, 24(10): 3019-3033.
[13]Bao L, Yang Q, Jin H. Fast edge-preserving patchmatch for large displacement optical flow[J]. IEEE Transactions on Image Processing, 2014, 23(12): 4996-5006.
[14]Hosni A, Rhemann C, Bleyer M, et al. Fast cost-volume filtering for visual correspondence and beyond[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(2): 504-511.
[15]Achanta R, Shaji A, Smith K, et al. SLIC superpixels compared to state-of-the-art superpixel methods[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(11): 2274-2282.
[16]Boykov Y, Veksler O, Zabih R. Fast approximate energy minimization via graph cuts[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2001, 23(11):1222-1239.
[17]Barnichm O, Van D M. Vibe: A universal background subtraction algorithm for video sequences[J]. IEEE Transactions on Image Processing, 2011, 20(6):1709-1724.
Fast Salient Object Segmentation Method Based on Edge-Preserving Filtering
Zhang Lei1, Li Chenglong1, Tu Zhengzheng1, Tang Jin1,2
( 1.Department of Computer Science and Technology, Anhui University, Hefei, 230601 , China; 2.Key Lab of Industrial Image Processing & Analysis of Anhui Province, Hefei, 230039, China)
How to automatically discover salient objects in video and further perform accurate object segmentation is a challenging problem in computer vision. Here, fast salient object segmentation method based on edge-preserving filtering is proposed. Firstly, the salient object discovery is formulated as an energy minimization problem, which fuses the appearance and motion features. Then, a Markov random field (MRF) model, integrating the Gaussian mixture model (GMM) of appearance, the location prior, and the spatial-temporal smoothness, is constructed for accurate segmentation, and is efficiently optimized by graph cut. Moreover, an edge-preserving-based method is presented to improve the segmentation efficiency with a little loss of accuracy. Finally, extensive experiments on two datasets suggest that the proposed method performance is better than that of other five methods, and the accelerated version can speed up to two times of the original one.
salient object discovery; MRF model; edge-preserving filtering; fast object segmentation
國家自然科學(xué)基金(61472002)資助項(xiàng)目;安徽省高等學(xué)校省級(jí)自然科學(xué)研究項(xiàng)目重點(diǎn)項(xiàng)目(KJ2014A015)資助項(xiàng)目;安徽省高等學(xué)校自然科學(xué)研究重點(diǎn)項(xiàng)目(KJ2015A110)資助項(xiàng)目;安徽省科技廳自然科學(xué)基金面上項(xiàng)目(1308085MF97)資助項(xiàng)目。
2015-09-24;
2015-11-24
TP391
A
張雷(1990-),男,碩士研究生,研究方向: 視頻分析,E-mail:zhanglei_edu@foxmail.com。
湯進(jìn)(1976-),男,教授,博士生導(dǎo)師,研究方向:計(jì)算機(jī)視覺、圖像處理和模式識(shí)別等。
李成龍(1988-),男,博士研究生,研究方向:計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)等。
涂錚錚(1982-),女,講師,研究方向:圖像處理與模式識(shí)別等。