陳玉峰,牛慶高,王靜,趙貴喜
(1.解放軍93163部隊(duì)航空理論教研室,哈爾濱150001;2.齊魯師范學(xué)院生物科學(xué)與技術(shù)系,濟(jì)南250013)
基于FTV的改進(jìn)深度估計(jì)算法?
陳玉峰1,牛慶高1,王靜2,趙貴喜1
(1.解放軍93163部隊(duì)航空理論教研室,哈爾濱150001;2.齊魯師范學(xué)院生物科學(xué)與技術(shù)系,濟(jì)南250013)
深度估計(jì)是任意視點(diǎn)電視(Free View Television,F(xiàn)TV)系統(tǒng)的關(guān)鍵技術(shù)。為提高深度邊緣的深度估計(jì)準(zhǔn)確度,并解決視頻序列中不同幀間同一深度物體深度估計(jì)值不一致問題,提出一種在深度圖的時(shí)間一致性保持算法,以前一幀的深度圖與當(dāng)前視圖的運(yùn)動(dòng)信息為約束條件估計(jì)當(dāng)前幀的深度,使得相鄰幀的深度圖在時(shí)間上保持一致。
任意視點(diǎn)電視;深度/視差估計(jì);深度圖時(shí)間一致性;平均亮度-梯度匹配
2002年MPEG會(huì)議中提出了任意視點(diǎn)電視(Free View Television,F(xiàn)TV)[1]系統(tǒng),它能夠提供一種全新的、生動(dòng)的、真實(shí)的、交互式[2]的三維視聽系統(tǒng),該系統(tǒng)可廣泛應(yīng)用于廣播通信、娛樂、教育、醫(yī)療、視頻監(jiān)控等領(lǐng)域。FTV的一項(xiàng)關(guān)鍵技術(shù)就是如何獲得準(zhǔn)確的深度信息。目前,深度信息的獲取方法有兩種,一種采用深度攝像機(jī)直接獲得深度信息,深度攝像機(jī)采集速度比較慢,深度數(shù)據(jù)與視頻數(shù)據(jù)的采集需要同步調(diào)整,并且深度攝像機(jī)對(duì)室外場(chǎng)景的采集效果不夠理想;另一種通過立體匹配從不同空間位置采集得到的立體圖像對(duì)中計(jì)算場(chǎng)景深度信息,它根據(jù)相鄰兩攝像機(jī)拍攝的左右兩視圖尋找場(chǎng)景中同一點(diǎn)在這兩個(gè)視圖中對(duì)應(yīng)的投射位置,該方法適用于室內(nèi)外各種類型場(chǎng)景,成本較低,易實(shí)現(xiàn)。其中基于graph cuts的深度估計(jì)算法[4],引入了亞像素、四分之一像素的搜索機(jī)制[5]。為了估計(jì)視點(diǎn)間遮擋區(qū)域的深度,采用左中右3個(gè)視點(diǎn)位置的視圖估計(jì)中間視點(diǎn)的深度圖。但是深度估計(jì)的準(zhǔn)確度尤其是深度邊緣的準(zhǔn)確度仍然需要進(jìn)一步提高[6]。因此本文基于FTV-AHG采用的graph cuts的深度估計(jì)算法提出一種保持深度邊緣深度估計(jì)準(zhǔn)確度并保持深度圖時(shí)間一致性的深度估計(jì)算法。
2.1 Graph cuts算法介紹
Graph cuts[4]是一種全局匹配算法,即它并不是逐個(gè)像素地計(jì)算深度,而是將整個(gè)視圖的深度估計(jì)過程模型化為求解能量目標(biāo)函數(shù)全局最小值的問題,繼而同時(shí)估計(jì)出視圖中所有像素的深度。首先依據(jù)某種測(cè)度函數(shù)構(gòu)造式(1)所示的能量函數(shù),然后采用圖論中的最大流-最小割(max flow-min cut)[3,7]算法能量目標(biāo)函數(shù)的最小值,從而為每個(gè)像素節(jié)點(diǎn)分配最優(yōu)或接近最優(yōu)的視差。
式中,I(x,y)表示當(dāng)前視圖(x,y)位置處像素p的亮度值,Iref(x-d,y)表示在視差為d時(shí)參考視圖中的匹配像素的亮度值,disp(x,y)與disp(xN,yN)分別表示本次迭代中(x,y)位置處像素p的視差與其上下左右鄰近像素的視差,w、h分別表示圖像的寬度與高度。Edata與Esmooth分別表示在預(yù)選視差下對(duì)應(yīng)像素間實(shí)際匹配程度(以絕對(duì)亮度差作為測(cè)度函數(shù))以及相鄰像素深度值(視差)之間的一致程度。
2.2 深度圖時(shí)間一致性保持
以往的深度估計(jì)算法只關(guān)注深度圖在空間上的準(zhǔn)確度,然而FTV系統(tǒng)需要多個(gè)視點(diǎn)的視圖在一段時(shí)間內(nèi)的所有圖像的深度信息。理論上,不同幀間同一深度物體的深度估計(jì)值應(yīng)該是相同的,但由于深度估計(jì)算法對(duì)光照條件隨時(shí)間的變化不夠穩(wěn)健,使得該物體的深度估計(jì)結(jié)果隨時(shí)間的變化而變化,進(jìn)而導(dǎo)致合成的虛擬視圖的主客觀質(zhì)量隨時(shí)間有明顯的波動(dòng)。為保持深度圖在時(shí)間上的一致性,在估計(jì)當(dāng)前視圖當(dāng)前幀的深度時(shí),顯然要考慮其前一幀的深度圖,從而抑制深度圖隨時(shí)間的變化。但是對(duì)于運(yùn)動(dòng)物體而言,其真實(shí)深度在不同時(shí)刻有可能是變化的,尤其是運(yùn)動(dòng)遮擋與運(yùn)動(dòng)暴露區(qū)域,其在不同時(shí)刻的真實(shí)深度勢(shì)必變化,如圖1所示,圖中圈注區(qū)域?yàn)檫\(yùn)動(dòng)遮擋區(qū)域,該區(qū)域在相鄰幀的真實(shí)深度勢(shì)必是變化的,因此在保持深度圖時(shí)間一致性的同時(shí)需要考慮時(shí)間上相鄰幀的運(yùn)動(dòng)信息。
圖1 運(yùn)動(dòng)遮擋區(qū)域Fig.1 Areamasked bymotion
本文提出基于運(yùn)動(dòng)信息的深度圖時(shí)間一致性保持算法(Motion Based Temporal Consistency Preserving,MBTCP)。首先采用式(2)進(jìn)行運(yùn)動(dòng)檢測(cè),計(jì)算以當(dāng)前像素為中心的區(qū)域(窗口)以及前一幀對(duì)應(yīng)區(qū)域的均方差準(zhǔn)則(MSE)。若MSE大于門限TH,就將當(dāng)前像素判斷為運(yùn)動(dòng)像素,并標(biāo)記為“1”,否則判斷為靜止像素并標(biāo)記為“0”,進(jìn)而得到當(dāng)前視圖當(dāng)前幀相對(duì)前一幀的運(yùn)動(dòng)掩膜(Motion Mask)。
式中,W表示以當(dāng)前像素為中心的窗口的大小,Ik(x+a,y+b)表示該窗口內(nèi)各個(gè)像素的亮度值,Ik-1(x+a,y+b)表示前一幀中對(duì)應(yīng)區(qū)域內(nèi)各個(gè)像素的亮度值。
計(jì)算測(cè)度函數(shù)Edata時(shí),對(duì)靜止區(qū)域的像素(運(yùn)動(dòng)掩膜中標(biāo)記為“0”的像素)增加懲罰因子Ctemp(x,y,d),用來抑制相鄰兩幀深度值的變化,如式(3)所示:
式中,Dprev(x,y)表示當(dāng)前像素(x,y)在前一幀對(duì)應(yīng)位置處的深度值;ω2為加權(quán)因子表示前一幀的深度值對(duì)當(dāng)前幀深度值的影響,ω2越大,前一幀的深度值對(duì)當(dāng)前幀深度值的影響越小。對(duì)于靜止像素,ω2通常選為0.5。
本文算法目的在于保持深度邊緣的深度估計(jì)準(zhǔn)確度并保持深度圖的時(shí)間一致性,因此這里將深度邊緣保持算法與時(shí)間一致性保持算法結(jié)合,采用式(4)作為測(cè)度函數(shù)Edata:
式中,ALGME與Ctemp(x,y,d)分別表示平均亮度-梯度匹配誤差與時(shí)間懲罰因子,式(1)作為graph cuts的能量目標(biāo)函數(shù)進(jìn)行深度估計(jì),并將估計(jì)的深度圖與目前FTV-AHG提供的深度估計(jì)參考軟件估計(jì)的深度圖進(jìn)行比較。為了便于說明,將本文算法稱為ALGME-MBTCP,將FTV-AHG采用的graph cuts算法稱為FTV-DE2.2。
為了比較深度圖的準(zhǔn)確度,分別采用ALGMEMBTCP與FTV-DE2.2估計(jì)FTV-AHG提供的標(biāo)準(zhǔn)測(cè)試序列的深度圖,并采用該深度圖合成虛擬視點(diǎn)的視圖,比較虛擬視圖的主客觀質(zhì)量,進(jìn)而比較深度圖的準(zhǔn)確度。
圖2為FTV-DE2.2與ALGME-MBTCP估計(jì)所得時(shí)間上相鄰四幀的深度圖,圖2(a)、(b)、(c)、(d)分別為采用FTV-DE2.2s估計(jì)的第3視點(diǎn)第6、7、8、9幀的深度圖,圖2(e)、(f)、(g)、(h)分別為采用ALGME-MBTCP估計(jì)的第3視點(diǎn)第6、7、8、9幀的深度圖。從圖中可以看出圖2(a)、(b)、(c)、(d)中深度圖隨時(shí)間變化很大,但是在圖2(e)、(f)、(g)、(h)中深度圖隨時(shí)間變化很小。
圖2 深度圖時(shí)間一致性結(jié)果比較Fig.2 Comparison of the time consistency of the depth chart
圖3 比較了采用兩種算法估計(jì)的深度圖合成的虛擬視圖的主觀質(zhì)量。圖3(a)、(b)與(c)、(d)分別為采用FTV-DE2.2與ALGME-MBTCP估計(jì)的深度圖合成的第4視點(diǎn)虛擬視圖的第6、第7兩幀。從圖3可以看出相比FTV-DE2.2,采用ALGMEMBTCP估計(jì)的深度圖合成的虛擬視圖的主觀質(zhì)量隨時(shí)間的變化很小。
為了說明在保持時(shí)間一致性時(shí)運(yùn)動(dòng)信息的作用,將運(yùn)動(dòng)掩膜全部標(biāo)記為“1”,即不考慮運(yùn)動(dòng)信息,然后進(jìn)行深度估計(jì)。圖4為在考慮運(yùn)動(dòng)信息與不考慮運(yùn)動(dòng)信息的情況下估計(jì)所得的深度圖。從圖4可以看出,在考慮運(yùn)動(dòng)信息的情況下,運(yùn)動(dòng)遮擋區(qū)域的深度更加準(zhǔn)確。圖5為分別采用圖4(a)、(b)與(c)、(d)合成的虛擬視圖。從圖5可以看出,考慮到運(yùn)動(dòng)信息時(shí),合成的虛擬視圖在運(yùn)動(dòng)遮擋區(qū)域的主觀質(zhì)量更高。
圖3 虛擬視圖主觀質(zhì)量隨時(shí)間的波動(dòng)Fig.3 Fluctuations over time of the subjective quality of virtual view
圖4 運(yùn)動(dòng)遮擋區(qū)域深度比較Fig.4 Depth comparison of sports blocked area
圖5 合成虛擬視圖比較Fig.5 Comparison of synthesized virtual view
對(duì)多個(gè)測(cè)試序列的實(shí)驗(yàn)結(jié)果表明,較FTV-DE2.2算法,采用ALGME-MBTCP算法估計(jì)的深度圖合成的虛擬視圖的客觀質(zhì)量PSNR更高,平均高出0.21 dB。
針對(duì)FTV系統(tǒng)的需求,本文提出了基于graph cuts的深度邊緣與時(shí)間一致性的保持算法。提出了一種新的測(cè)度函數(shù),采用平均亮度-梯度聯(lián)合匹配代替單像素亮度匹配,保持深度邊緣的準(zhǔn)確度;提出了基于運(yùn)動(dòng)信息的時(shí)間一致性保持算法,在考慮相鄰兩幀的運(yùn)動(dòng)信息的情況下,采用前一幀的深度值約束當(dāng)前幀的深度值,抑制深度圖隨時(shí)間的變化。實(shí)驗(yàn)結(jié)果表明,本文的算法對(duì)深度邊緣的準(zhǔn)確度有很大提高,同時(shí)也有效地保持了深度圖在時(shí)間上的一致性。
[1]Tanimoto M,F(xiàn)ujii T.FTV—free viewpoint television[R]. MPEG-M8595.Kaernten:Klagenfurt,2002.
[2]Smolic A,Yamashita R.Reporton Statusof3DAV Exploration[R]//ISO/IEC JTC1/SC29/WG11 N5416.Awaji,Japan:[s.n],2002.
[3]MPEG.Preliminary FTVModeland Requirements[EB/OL].(2007-07-07)[2008-06-15]http://wg11.sc29.org/mpeg/docs/81/causanne/wgll/wq168.zip..
[4]Boykov Y,Veksler O,Zabih R.Fast approximate energy minimization via graph cuts[J].IEEETransactions on Pattern Analysis and Machine Intelligence,2001,23(11):1222-1239.
[5]ISO/IEC JTC1/SC29/WG11 M15584,Experimental Results on Depth Estimation and View Synthesiswith sub-pixel precision[S].
[6]ISO/IEC JTC1/SC29/WG1 M15648,EE results on Leavinglaptop[S].
[7]ISO/IECJTC1/SC29/WG11 M15594,Enhancement of Temporal Consistency forMulti-view Depth Map Estimation[S].
An Im proved Depth Estimation Algorithm Based on FTV
CHEN Yu-feng1,NIYQing-gao1,WANG Jing2,ZHAO Gui-xi1
(1.Aviation Theory Teaching and Research Section,Unit93163 of PLA,Harbin 150001,China;2.Department of Biological Science and Technology,Qilu Normal University,Jinan 250013,China)
Depth estimation is one of the key technologies of FTV(Free View Television)system.To increase depth accuracy,a depth estimation method which can preserve temporal consistency is proposed.For current view,depth values of the previous frame and motion information between current frame and its previous frame are used as constraint conditions to estimate depthmap of current frame,thus preserving temporal consistency of depth maps in the two successive frames.Experiment results show thatnotonly accuracy of depth edges in depth maps is increased,but also temporal consistency of depthmaps is preserved well.
free view television;depth/disparity estimation;temporal consistency of depth map;average luminance-gradientmatching
the Ph.D.degree in 2008.He is now an associate professor.His research interests include image processing and aviation communication.
1001-893X(2011)09-0055-04
2011-03-03;
2011-06-30
TN941.4
A
10.3969/j.issn.1001-893x.2011.09.011
陳玉峰(1969—),男,黑龍江哈爾濱人,2008年獲工學(xué)博士學(xué)位,現(xiàn)為副教授,主要研究方向?yàn)閳D像處理和航空通信。
Email:harbincyf@163.com
CHEN Yu-feng was born in Harbin,Heilongjiang Province,in 1969.He