夏 倩,許 勇,夏玉勤
(1.貴州民族大學(xué) 傳媒學(xué)院,貴州 貴陽(yáng)520025;2.華南理工大學(xué) 計(jì)算機(jī)學(xué)院,廣東 廣州510510;3.貴州大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,貴州 貴陽(yáng)520025)
傳統(tǒng)的數(shù)字摳像 (digital image matting)算法例如三分圖、涂鴉方式都需要用戶(hù)交互,耗時(shí)多且計(jì)算復(fù)雜,使視頻摳像圖算法的實(shí)際應(yīng)用受限[1]。
微軟的Kinect體感設(shè)備能夠獲取深度圖,它可以避免物體遮擋、亮度變化、陰影以及環(huán)境變化等的影響,因此現(xiàn)有的視頻摳像算法引入了深度圖像信息來(lái)輔助摳像。文獻(xiàn)[2]對(duì)獲取的深度圖進(jìn)行聚類(lèi)和形態(tài)學(xué)操作,得到大致的區(qū)間分割圖。接著利用深度值來(lái)改進(jìn)閉式解摳像算法[3],但它沒(méi)有充分利用前一步獲取的透明度值a,造成無(wú)法獲得精確的摳像邊界。文獻(xiàn) [4]利用顏色信息將圖像過(guò)分割,過(guò)分割區(qū)域被視為節(jié)點(diǎn),接著把顏色和深度信息相似性作為鄰接區(qū)域邊的權(quán)重,從而構(gòu)建一個(gè)帶權(quán)圖。最后使用歸一化切割方法實(shí)現(xiàn)摳像,但是算法中沒(méi)有考慮前背景關(guān)聯(lián)性,無(wú)法將前景與背景有接觸的區(qū)域分離。文獻(xiàn) [5]不僅考慮空間信息、顏色信息,而且結(jié)合深度信息建立一個(gè)雙重雙邊濾波器,但這種算法沒(méi)有考慮每一信息的權(quán)重,只是簡(jiǎn)單的將所有信息糅合在一起,摳像結(jié)果不理想。
針對(duì)以上問(wèn)題,本文提出一種利用運(yùn)動(dòng)、顏色以及Kinect的深度圖來(lái)提取感興趣區(qū)域 (region of interest,RoI)的自動(dòng)視頻摳像算法。算法根據(jù)運(yùn)動(dòng)和深度信息獲得到視頻中的ROI,排除非主要區(qū)域及背景的干擾,減少了運(yùn)算量,提高了后續(xù)摳像的速度。在ROI區(qū)域內(nèi)使用改進(jìn)的種子區(qū)域生長(zhǎng)法,計(jì)算粗前景掩膜,再利用數(shù)學(xué)形態(tài)學(xué)和邏輯操作得到大致的三分圖。最后在和人類(lèi)視覺(jué)一致的Lab顏色空間[6]中精確計(jì)算三分圖,即使用改進(jìn)的Shared Matting算法[7]來(lái)減小前一步驟中大致三分圖帶來(lái)的誤差,保證視頻自動(dòng)摳像結(jié)果的精度。本文算法省去了任何形式的人機(jī)交互,在降低計(jì)算復(fù)雜度的同時(shí)也提高了運(yùn)算速度。
本文研究的重點(diǎn)是利用Kinect產(chǎn)生的深度圖像信息、顏色信息、運(yùn)動(dòng)信息以及幀間相關(guān)性自動(dòng)生成精確的視頻幀摳像,提高視頻摳像效果,期望既能減少視頻摳像時(shí)間,又能保證視頻摳像的時(shí)空一致性。本文算法流程如圖1所示。
圖1 本文算法流程
視頻摳像的目標(biāo)在于精確提取場(chǎng)景中的ROI[8,9]。例如,在大多數(shù)場(chǎng)景中,運(yùn)動(dòng)的目標(biāo)經(jīng)常是人們比較關(guān)注的區(qū)域。這些ROI如果能被計(jì)算機(jī)迅速發(fā)現(xiàn),并進(jìn)行重點(diǎn)分析,將提高圖像處理效率和精度。
本文利用三幀差分法,首先選取視頻序列圖像中連續(xù)三幀,分別計(jì)算相鄰兩幀的差分圖像,然后選擇恰當(dāng)?shù)拈撝祵⒉罘謭D像二值化處理,最后兩個(gè)連續(xù)差分二值圖像進(jìn)行邏輯與運(yùn)算,從而獲得出運(yùn)動(dòng)目標(biāo)既是視頻場(chǎng)景中的ROI。但該方法易于受到噪聲和亮度突變的影響。為了降低運(yùn)動(dòng)目標(biāo)的誤判性,在此基礎(chǔ)上,考慮前后運(yùn)動(dòng)的變化相鄰幀的深度信息。當(dāng)Kinect設(shè)備不動(dòng)時(shí),場(chǎng)景中的背景不會(huì)運(yùn)動(dòng),而只有運(yùn)動(dòng)目標(biāo)才會(huì)有深度信息上的變化。因此把序列圖像中的相鄰幀的深度信息的變化值也作為判定運(yùn)動(dòng)目標(biāo)的依據(jù)。為了提高計(jì)算速度,在三幀差分法前需要把彩色圖像轉(zhuǎn)換為灰度圖像
式中:ft-1(i,j),ft(i,j),ft+1(i,j)——圖像中(i,j)在t-1、t和t+1時(shí)刻對(duì)應(yīng)的前一幀、當(dāng)前幀和后一幀。dt(i,j),dt+1(i,j)——相應(yīng)像素點(diǎn)分別對(duì)應(yīng)的深度值,mt(i,j)——連續(xù)三幀的變化圖像,選擇合適的閾值T1來(lái)判斷前景和背景,Mt(i,j)就是根據(jù)公式獲得的當(dāng)前幀大致的ROI,如圖2 (a)所示。由于圖像中存在一些噪聲點(diǎn)及漏洞,需要進(jìn)行膨脹處理和連通區(qū)域面積分析。設(shè)定一個(gè)閾值,當(dāng)連通的區(qū)域面積大于該閾值時(shí),就認(rèn)定檢測(cè)到了ROI。當(dāng)然,ROI也能直接進(jìn)行圖像分割,但是大多數(shù)都是基于閾值的方法[10-12],其通用性差。為了得到精確的摳效果,這里的粗ROI只為后續(xù)的粗前景掩膜提供區(qū)域信息。
圖2 圖像掩膜
獲得序列圖像精準(zhǔn)的三分圖,需要對(duì)圖像進(jìn)行區(qū)域劃分,進(jìn)而從圖像中摳出前景的區(qū)域。種子區(qū)域生長(zhǎng)算法的核心問(wèn)題是種子點(diǎn)的選擇以及相似性判斷準(zhǔn)則。本文采用了改進(jìn)的自動(dòng)種子區(qū)域選取方法,即基于深度信息的自動(dòng)選取算法。將上一步獲得ROI區(qū)域位置映射到當(dāng)前幀,選取映射區(qū)域范圍中心位置點(diǎn)作為種子點(diǎn),它能夠反映關(guān)注目標(biāo)的圖像信息。同時(shí)也考慮像素的相似性和空間上像素的鄰近性。具體的算法步驟如下:
步驟1 將前一步驟獲得的粗ROI區(qū)域位置映射到當(dāng)前幀,把相應(yīng)區(qū)域中心位置的一個(gè)像素點(diǎn)作為初始種子點(diǎn);
步驟2 判斷相鄰像素 (未標(biāo)記)是否滿足相似性準(zhǔn)則;
步驟3 如果滿足,則該鄰域像素合并到種子區(qū)域,并給該點(diǎn)添加相應(yīng)標(biāo)記;
步驟4 對(duì)于新合并的區(qū)域,重復(fù)步驟2,步驟3;
步驟5 區(qū)域?qū)⒃诟鱾€(gè)方向上不斷增長(zhǎng),直到映射區(qū)域內(nèi)沒(méi)有多的像素點(diǎn)被合并,迭代結(jié)束
設(shè)像素點(diǎn)pk為前景點(diǎn), (i,j)為與種子點(diǎn)相鄰的像素。判定它屬于前景區(qū)域的準(zhǔn)則如式 (2)所示。(i,j)為前景點(diǎn)的條件不僅僅是該點(diǎn)與種子點(diǎn)亮度差值小于閾值T2,而且根據(jù)針對(duì)的視頻場(chǎng)景,本文認(rèn)為只要像素點(diǎn)的深度值變化值在一定范圍內(nèi),就認(rèn)為是前景點(diǎn)。所以設(shè)定了(i,j)的深度值要在(ft(pk)-T2,ft(pk)+T2)范圍內(nèi)。本文改進(jìn)的自動(dòng)種子區(qū)域生成算法,不但取消人工交互的過(guò)程,在降低了計(jì)算復(fù)雜度的同時(shí),也避免了與前景顏色接近的背景而造成的摳像錯(cuò)誤,最終得到粗前景掩膜。
考慮到分割誤差、深度圖包含有噪聲以及自身精度的影響,前景邊緣區(qū)域、前景和背景重合區(qū)域不能得到較好的處理。因此,對(duì)上述區(qū)域再處理,以得到一個(gè)包含前景、背景和未知區(qū)域的大致三分圖。圖2 (b)、圖2 (c)是步驟3和步驟5所得結(jié)果。具體步驟如下:
步驟1 利用形態(tài)學(xué)操作對(duì)上一步操作得到的粗前景掩膜進(jìn)行膨脹處理,前景邊緣向外擴(kuò)張,以便它能包括前景的所有邊緣;
步驟2 使用Canny算子對(duì)擴(kuò)大的前景掩膜提取邊緣;
步驟3 由于前一步驟中提取的邊緣有可能存在不連續(xù),對(duì)邊緣使用膨脹操作;
步驟4 將經(jīng)過(guò)以上處理的前景掩膜和ROI區(qū)域進(jìn)行邏輯與操作,去除掉背景區(qū)域的雜點(diǎn);
步驟5 對(duì)前一步的結(jié)果進(jìn)行兩次腐蝕操作,3次膨脹操作,這樣就得到了視頻幀的三分圖。
三分圖中確定最精確的前景背景區(qū)域,擴(kuò)大未知區(qū)域的范圍。由于前景區(qū)域的透明度a 值為1,背景區(qū)域?yàn)?。剩余部分即為三分圖的未知區(qū)域。以往的摳像算法,通過(guò)前景和背景再重建來(lái)求解未知區(qū)域的a 值,計(jì)算量巨大。為了提高視頻摳像效率,文獻(xiàn) [7]采用了基于RGB 顏色空間的Shared Matting算法來(lái)完成未知像素的求解。它通過(guò)相鄰像素間共享候選樣點(diǎn)的方式來(lái)減少計(jì)算量。在計(jì)算最優(yōu)前景和背景樣本點(diǎn)對(duì)時(shí),從每個(gè)像素出發(fā),沿4條射線向外尋找,擴(kuò)大采集范圍,避免陷入局部最優(yōu)。并且進(jìn)行了平滑處理消除噪聲干擾,獲得較好的摳像結(jié)果。
本文對(duì)Shared Matting算法進(jìn)行改進(jìn),在算法的區(qū)域擴(kuò)張階段,在與人類(lèi)視覺(jué)一致的Lab顏色空間[6]中計(jì)算未知區(qū)域鄰近像素的顏色相似性,進(jìn)一步糾正粗三分圖中未知像素點(diǎn),提高了后續(xù)采樣的效率,得到更好的摳像結(jié)果。采用Rhemann測(cè)試數(shù)據(jù)庫(kù)[13]中的圖像,Lab與RGB 顏色空間區(qū)域擴(kuò)張個(gè)數(shù)和處理時(shí)間對(duì)比結(jié)果見(jiàn)表1。經(jīng)過(guò)擴(kuò)張后,統(tǒng)計(jì)圖像中未知像素點(diǎn)的數(shù)量和擴(kuò)張的處理時(shí)間,Lab顏色空間分別比RGB空間在像素個(gè)數(shù)上平均少約2%,在處理速度上快2.6%。圖2 (d)是本文采用基于Lab顏色空間的Shared Matting算法得到的視頻幀的精前景掩膜。
表1 Lab和RGB顏色空間處理對(duì)比
視頻中序列圖像,都會(huì)輸出相應(yīng)前景掩模并做標(biāo)記。由于視頻中前后幀之間有較強(qiáng)的相關(guān)性,掩膜信息在連續(xù)幀間傳遞,這樣有助于檢查視頻連續(xù)幀前景掩膜信息一致性,有利于改進(jìn)的視頻摳像的整體性能和魯棒性。例如,視頻場(chǎng)景中的運(yùn)動(dòng)目標(biāo)速度很慢,此時(shí)可能會(huì)檢測(cè)不到ROI,這樣粗前景區(qū)域提取時(shí)就沒(méi)有可靠的種子點(diǎn),從而獲得不了三分圖。或者視頻場(chǎng)景中背景有和前景不相關(guān)的快速移動(dòng)的物體。針對(duì)第一種情況,本文可以利用前一幀的前景掩膜信息區(qū)處理當(dāng)前幀。對(duì)于第二種情況,利用深度信息的變化范圍以及前后幀的相關(guān)性來(lái)判斷摳像結(jié)果。
為了驗(yàn)證本文算法的性能。本文算法和同樣利用深度和顏色信息的文獻(xiàn) [5]算法,分別從摳像效果、摳像準(zhǔn)確率和摳像時(shí)間3個(gè)方面進(jìn)行比較分析。實(shí)驗(yàn)平臺(tái)配置是CPU為Intel CoreⅡ雙核處理器、主頻2.0GHz和RAM 2.0GB。以matlab7.0為開(kāi)發(fā)環(huán)境,使用文獻(xiàn) [14]中 “Professor”,文獻(xiàn)[15]中“Bellat”的測(cè)試集和自選3組Kinect視頻。
從圖3 (b)顯示的摳像效果來(lái)看,當(dāng)前景和背景顏色相近時(shí) (“Professor”膚色、領(lǐng)帶和背景顏色接近),文獻(xiàn)[5]算法發(fā)生了部分圖像缺失或者冗余。而本文結(jié)合顏色信息和深度信息,當(dāng)前景和背景相似時(shí),有前景區(qū)域的深度信息設(shè)定在一定范圍內(nèi)的輔助判斷,能較好地解決上述問(wèn)題,如圖3 (c)所示。當(dāng)視頻場(chǎng)景比較復(fù)雜,人們往往對(duì)場(chǎng)景中運(yùn)動(dòng)目標(biāo)比較感興趣。例如,一個(gè)人在跳舞而另一個(gè)人保持不動(dòng) (如圖4所示)。本文算法使用顏色信息,并且結(jié)合運(yùn)動(dòng)信息和深度信息,只是摳出顯著運(yùn)動(dòng)的目標(biāo),而文獻(xiàn)[5]是把兩者都摳出 (長(zhǎng)條方框中為不動(dòng)目標(biāo))。在摳像細(xì)節(jié)方面,從圖3連續(xù)三幀圖像的摳像結(jié)果中可以看到,本文算法處理的結(jié)果明顯優(yōu)于文獻(xiàn)[5]。
為了驗(yàn)證視頻摳像結(jié)果的準(zhǔn)確率,本文對(duì)視頻摳像質(zhì)量進(jìn)行了定量的比較。即用查準(zhǔn)率 (P)和查全率 (R)作為評(píng)價(jià)的準(zhǔn)則,對(duì)標(biāo)準(zhǔn)圖像的分割結(jié)果和正確分割結(jié)果進(jìn)行比較。其中,查準(zhǔn)率表示當(dāng)前摳像結(jié)果中準(zhǔn)確部分所占的比例,查全率表示當(dāng)前摳像結(jié)果中準(zhǔn)確部分在正確分割結(jié)果中所占的比例。它們分別定義為
式中:Z(x,y)——正確的摳像結(jié)果,B(x,y)——摳像后得到的二值圖像。比較結(jié)果如圖5所示,由圖中可見(jiàn),本文算法的摳像效果較好,平均查準(zhǔn)率和查全率均優(yōu)于文獻(xiàn)[5]算法。
圖3 “Professor”第12、13和14幀摳像效果的比較
圖4 “Bellat”第83幀摳像效果
圖5 查準(zhǔn)率p和查全率R 對(duì)比
本文算法的運(yùn)行時(shí)間由自動(dòng)提取ROI時(shí)間、粗前景掩膜提取時(shí)間、生成三分圖時(shí)間和視頻幀精摳像時(shí)間組成。文獻(xiàn) [5]算法需要用戶(hù)標(biāo)記,多次交互才能完成最后的摳像,而本文算法是使用自動(dòng)提取出視頻幀中的ROI,大大節(jié)約了時(shí)間。兩種摳像時(shí)間比較見(jiàn)表2,本文算法比文獻(xiàn)[5]算法速度平均提高11倍??梢赃_(dá)到實(shí)時(shí)摳像效果。
表2 Kinect視頻集上本文算法和文獻(xiàn) [5]算法的時(shí)間比較/ (S/frame)
結(jié)合運(yùn)動(dòng)、深度和顏色信息,提出了一種基于Kinect的自動(dòng)視頻摳像算法。該算法對(duì)傳統(tǒng)的視頻摳像算法從4個(gè)方面進(jìn)行了改進(jìn)。針對(duì)摳像算法中人工交互頻繁,摳像精度,計(jì)算速度等問(wèn)題,利用改進(jìn)的三幀間差分法自動(dòng)檢測(cè)到視頻中的ROI;再結(jié)合深度圖信息改進(jìn)自動(dòng)種子增長(zhǎng)區(qū)域算法,估算出粗前景掩膜;通過(guò)數(shù)學(xué)形態(tài)操作和邏輯操作生成粗三分圖;采用改進(jìn)了的Shared Matting 算法,得到精確的視頻幀摳像效果。實(shí)驗(yàn)結(jié)果表明,該算法精度高、速度快。對(duì)于大多數(shù)具有顯著前景目標(biāo)的視頻得到較好的摳像效果。
[1]ZHANG Zhanpeng,ZHU Qingsong,XIE Yaoqin.The latest research progress on digital matting [J].ACTA Automatica Sinica,2012,38 (10):1571-1578 (in Chinese). [張展鵬,朱青松,謝耀欽.數(shù)字摳像的最新研究進(jìn)展 [J].自動(dòng)化學(xué)報(bào),2012,38 (10):1571-1578.]
[2]Zhu J,Liao M,Yang R,et al.Joint depth and alpha matte optimization via fusion of stereo and time-of-flight sensor[C]//Proc of CVPR.Miami,USA:IEEE Press,2009:453-460.
[3]Levin A,Lischinski D,Weiss Y.A closed form solution to natural image matting [C]//Proc of CVPR.Minneapolis,USA:IEEE Press,2007:228-242.
[4]Cigla C,Alatan A A.Segmentation in multi-view video via color,depth and motion cues[C]//Proc of the 15th IEEE International Conference on Image Processing,2008:2724-2727.
[5]Kim S Y,Cho JH A Koschan,Abidi M A.Spatial and temporal enhancement of depth images captured by a time-of-flight depth sensor [C]//Proceedings of 20th International Conference on Pattern Recognition,2010:2358-2361.
[6]D’Angelo A,Dugelay J.A statistical approach to culture colors distribution in video sensors[C]//5th Int Workshop on VPQM,2010:13-15.
[7]Gastal E S L,Oliveira M M.Shared sampling for real-time alpha matting [J].Computer Graphics Forum,2010,29 (2):575-584.
[8]Steven Yantis.To see is to attend[J].Science,2011,29:54-55.
[9]WANG Xin,WANG Bin,ZHANG Liming.Airport detection based on salient areas in remote sensing images[J].Journal of Computer-Aided Design &Computer Graphics,2012,24 (3):336-344 (in Chinese).[王鑫,王斌,張立明.基于圖像顯著性區(qū)域的遙感圖像機(jī)場(chǎng)檢測(cè) [J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2012,24 (3):336-344.]
[10]Achanta R,Estrada F,Wils P,et al.Salient region detection and segmentation [C]//Proceedings of International Conference on Computer Vision Systems,2008:66-75.
[11]Achanta R,Hemami S,Estrada F,et al.Frequency-tuned salient region detection [C]//Proceedings of IEEE International Conference on Computer Vision and Pattern Recognition,2009:1597-1604.
[12]ZHANG Qiaorong,JING Li,XIAO Huimin,et al.Image segamentation based on visual saliency [J].Journal of Image and Graphics,2011,16 (5):767-773 (in Chinese). [張巧榮,景麗,肖會(huì)敏,等.利用視覺(jué)顯著性的圖像分割方法[J].中國(guó)圖象圖形學(xué)報(bào),2011,16 (5):767-773.]
[13]Rhemann C,Rother C,Wang J,et al.Alpha matting evaluation website[DB/OL].[2012-03-16].http://www.alphamatting.com.
[14]Mobile 3DTV research,video plus depth [DB/OL]. [2011-03-16].http://sp.cs.tut.fi/mobile3dtv/video-plus-depth.
[15]MSR video Sequences[DB/OL].[2014-03-06].http://research.microsoft.com/en-us/um/people/sbkang/3dvideodownload.