戴 萬(wàn) 長(zhǎng)(浙江東方職業(yè)技術(shù)學(xué)院信息傳媒與自動(dòng)化學(xué)院 浙江 溫州 325011)
多視點(diǎn)視頻是用不同位置的多個(gè)攝像機(jī)對(duì)同一場(chǎng)景進(jìn)行拍攝而獲得的數(shù)據(jù),多視點(diǎn)視頻編碼[1]是3DTV(立體電視)[2]、FTV(自由視點(diǎn)電視)[3]、虛擬現(xiàn)實(shí)等應(yīng)用領(lǐng)域的關(guān)鍵技術(shù)之一。多視點(diǎn)視頻編碼中的視差估計(jì)占用了整個(gè)編碼過(guò)程大量的時(shí)間,因此研究一種高效的視差估計(jì)方法對(duì)提高編碼效率至關(guān)重要[4-5]。李躍等[6]分析了相鄰宏塊的運(yùn)動(dòng)矢量相關(guān)性及最優(yōu)率失真之間的關(guān)系,采用一種提早終止策略,有效地節(jié)省了編碼時(shí)間,但是該文沒(méi)有分析宏塊視差矢量的相關(guān)性,算法有待進(jìn)一步優(yōu)化。Kim等[7]分析了視差矢量和運(yùn)動(dòng)矢量的空間特性關(guān)系,通過(guò)預(yù)測(cè)運(yùn)動(dòng)矢量來(lái)節(jié)約編碼時(shí)間,但其需要通過(guò)增加視點(diǎn)數(shù)量來(lái)完成矢量預(yù)測(cè),影響編碼效率進(jìn)一步提高。Boonthep等[8]通過(guò)調(diào)整宏塊類(lèi)型來(lái)自適應(yīng)確定搜索范圍,從而減少編碼時(shí)間,但是該方法的視差匹配算法不夠優(yōu)越。宋曉煒等[9]分析了視差矢量的特點(diǎn),通過(guò)三步搜索法確定最佳匹配塊,避免極限校正存在的問(wèn)題,提高了編碼效率,但是該算法率失真性能下降較多。胡波等[10]采用一種均值偏移算法對(duì)宏塊進(jìn)行匹配,取得了較好的視差估計(jì)效果。本文在時(shí)空域上分析了視差矢量和運(yùn)動(dòng)矢量的空間特性,通過(guò)建立Kalman濾波器[11]預(yù)測(cè)運(yùn)動(dòng)矢量,在當(dāng)前幀中用Mean Shift算法[12]實(shí)現(xiàn)宏塊的視差匹配,最后通過(guò)實(shí)驗(yàn)驗(yàn)證了該方法的有效性。
多視點(diǎn)視頻編碼結(jié)構(gòu)一般分為以下幾種:GoGOP預(yù)測(cè)結(jié)構(gòu)[13]、聯(lián)播方案(Simulcast)[14]、基于分層 B 幀的預(yù)測(cè)結(jié)構(gòu)HBP(Hierarchical B Pictures)[15]。研究表明HBP預(yù)測(cè)結(jié)構(gòu)性能優(yōu)越,是目前多視點(diǎn)視頻編碼采用的主流結(jié)構(gòu)。如圖1所示為8視點(diǎn)、GOP長(zhǎng)度為8的HBP結(jié)構(gòu)。
圖1 HBP結(jié)構(gòu)的多視點(diǎn)視頻編碼
相關(guān)研究表明幀間視差矢量相關(guān)性最強(qiáng),如圖2所示。
圖2 運(yùn)動(dòng)矢量和視差矢量關(guān)系
為在相鄰時(shí)刻t、t+T,相鄰視點(diǎn)Si、Si+1的四幀圖像。di,t表示Si視點(diǎn)中的某一宏塊在t時(shí)刻的位置,則t、t+T時(shí)刻宏塊的視差矢量D(t)、D(t+T)按下式表示:
D(t)=di+1,t-di,tD(t+T)=di+1,t+T-di,t+T
(1)
Si、Si+1視點(diǎn)宏塊的運(yùn)動(dòng)矢量M(i)、M(i+1)為:
M(i)=di,t+T-di,tM(i+1)=di+1,t+T-di+1,t
(2)
從上述兩式可以得到:
D(t+T)-D(t)=M(i+1)-M(i)=
di+1,t+T-di,t+T-di+1,t+di,t
(3)
即:
D(t+T)=D(t)+M(i+1)-M(i)
(4)
式(4)表明當(dāng)前幀的視差矢量和其運(yùn)動(dòng)矢量及參考幀的視差矢量、運(yùn)動(dòng)矢量相關(guān)[16]。在已知參考幀視差矢量和運(yùn)動(dòng)矢量基礎(chǔ)上只要獲得當(dāng)前幀的運(yùn)動(dòng)矢量,就可求出當(dāng)前幀的視差矢量,本文用Kalman濾波器[17]預(yù)測(cè)宏塊的運(yùn)動(dòng)矢量。Kalman濾波器是以均方誤差最優(yōu)化作為準(zhǔn)則的線性濾波器,通過(guò)建立時(shí)變隨機(jī)信號(hào)的狀態(tài)方程和觀測(cè)方程對(duì)當(dāng)前時(shí)刻信號(hào)進(jìn)行預(yù)測(cè),其狀態(tài)方程和觀測(cè)方程如下:
X(k)=AX(k-1)+w(k-1)
(5)
Z(k)=BX(k)+v(k)
(6)
式中:A、B表示狀態(tài)轉(zhuǎn)移矩陣和觀測(cè)矩陣;w(k-1)、v(k)表示過(guò)程噪聲和測(cè)量噪聲,這里將其定義為服從獨(dú)立分布、零均值的高斯白噪聲。由于時(shí)間間隔T較短,宏塊運(yùn)動(dòng)可以描述成受一階加速擾動(dòng)的直線運(yùn)動(dòng),則建立宏塊的狀態(tài)方程和預(yù)測(cè)方程為:
(7)
(8)
式中:[x(k)y(k)]表示宏塊在水平、垂直方向上的位移即運(yùn)動(dòng)矢量,[vx(k)vy(k)]表示宏塊在水平、垂直方向上的速度,[xc(k)yc(k)]表示運(yùn)動(dòng)矢量觀測(cè)值。
對(duì)當(dāng)前幀中的宏塊建立特征模型,用式(9)表示其第u個(gè)特征值的概率密度:
(9)
(10)
對(duì)于參考幀宏塊和當(dāng)前幀宏塊采用Bhattacharyya系數(shù)進(jìn)行匹配,Bhattacharyya代表參考幀宏塊特征向量和當(dāng)前幀宏塊特征向量夾角的余弦值,定義如下:
(11)
(12)
(13)
式中:
(14)
對(duì)式(13)求極值運(yùn)算,即可獲得Mean Shift向量:
(15)
式中核函數(shù):
(16)
本文提出的視差估計(jì)算法均在HHI提供的多視點(diǎn)視頻編碼校驗(yàn)?zāi)P蚃MVM7.0進(jìn)行測(cè)試[18]。硬件平臺(tái)配置為:Intel(R) Core 2 Duo,主頻2.39 GHz的CPU,內(nèi)存為1 GB。測(cè)試用的視頻為標(biāo)準(zhǔn)的多視點(diǎn)序列Ballroom、Exit、Race1。采用的編碼結(jié)構(gòu)為HBP,GOP長(zhǎng)度取8,Inter模式為16×16,搜索范圍在±64,量化參數(shù)分別為22、27、32、37,相關(guān)參數(shù)設(shè)置及實(shí)驗(yàn)環(huán)境配置如表1、圖3所示。
表1 測(cè)試環(huán)境
(a) Ballroom
(b) Exit
(c) Race1圖3 多視點(diǎn)視頻測(cè)試序列
在JMVM7.0平臺(tái)上對(duì)本文提出的方法、JMVM的全搜索方法(FS)、文獻(xiàn)[8]方法和文獻(xiàn)[9]方法、新圓形快速算法(NewPel)分別進(jìn)行測(cè)試研究。表2、表3、表4是本文方法和各種算法的編碼時(shí)間比較。圖4是本文方法和各種算法的率失真性能曲線的比較。通過(guò)對(duì)比發(fā)現(xiàn),本文方法和全搜索算法相比,PSNR降低較少、碼率提升也較少,因此對(duì)率失真性能影響甚微,而編碼效率獲得大幅度提高,編碼時(shí)間減少93%以上。與新圓形快速算法相比,無(wú)論是編碼效率和率失真性能均獲得提高。本文方法和文獻(xiàn)[8]方法相比,編碼時(shí)間減少了16.2%~27.4%,PSNR提高,碼率下降,因此率失真性能獲得提升。這是由于本文采用的Kalman濾波能夠有效地預(yù)測(cè)視差矢量,減少搜索點(diǎn)數(shù),從而減少編碼時(shí)間。本文方法和文獻(xiàn)[9]方法相比,編碼時(shí)間下降,PSNR提高0.22(db)~0.32(db),碼率下降0.16%~2.21%,因此率真實(shí)性能改善較明顯。文中采用Mean Shift算法是一種均值聚類(lèi)算法,在宏塊的視差匹配過(guò)程中優(yōu)越性得到了體現(xiàn)。本文方法和文獻(xiàn)[10]方法相比,編碼效率幾乎保持不變,但率失真性能獲得提高,尤其是對(duì)于Race1序列改善性能明顯。這是由于Race1序列中目標(biāo)移動(dòng)速度較快,本文的Kalman濾波可以有效地估計(jì)目標(biāo)移動(dòng)位置,從而為下一步的視差匹配提供精確的初始位置。同時(shí)Kalman濾波可以減少M(fèi)ean Shift算法迭代次數(shù),彌補(bǔ)了引入Kalman濾波帶來(lái)的計(jì)算量。
(a) Ball序列
(b) Exit序列
(c) Race1序列圖4 本文方法和各種算法率失真性能比較
表2 Ballroom序列編碼時(shí)間比較 s
表3 Exit序列編碼時(shí)間比較 s
表4 Race1序列編碼時(shí)間比較 s
多視點(diǎn)視頻編碼計(jì)算量極其龐大,因此有必要采用一種高效的多視點(diǎn)視頻編碼方案來(lái)提高效率。本文對(duì)宏塊的運(yùn)動(dòng)模型建立一階線性Kalman濾波器,有效地預(yù)測(cè)當(dāng)前幀宏塊的運(yùn)動(dòng)矢量,分析了視差矢量和運(yùn)動(dòng)矢量的關(guān)系,從而獲得當(dāng)前幀預(yù)測(cè)視差矢量。通過(guò)預(yù)測(cè)視差矢量的計(jì)算獲得宏塊的初始搜索位置,將該值作為均值偏移算法迭代的初值,進(jìn)而進(jìn)行下一步的視差匹配。將本文提出的方法在JMVM7.0平臺(tái)上測(cè)試,并和全搜索算法及其他快速算法做比較。發(fā)現(xiàn)本文方法和全搜索算法相比,編碼效率獲得了大幅提高,而率失真性能幾乎維持不變。和其他快速算法相比,無(wú)論在率失真性能提升上和編碼效率提高上都具有明顯效果。
[1] Oh K J,Lee J,Park D S.Multi-view video coding based on high efficiency video coding[C]//5th Pacific Rim Symposium on Image and Video Technology.Gwangju:Springer,2011:371- 380.
[2] Muller K, Merkle P, Wiegend T. 3-D video representation using depth maps[J]. Proceedings of the IEEE, 2011, 99(4): 643- 656.
[3] Tanimoto M, Tehrani M P, Fujii T, et al. Free-view point TV[J]. IEEE Signal Processing Magazine, 2011, 28(1): 67- 76.
[4] Deng Zhipin, Jia Kebin, Chan Yuilam. A fast stereoscopic video coding algorithm based on JMVM[J]. Science China Information Sciences, 2011, 54(6): 1218- 1226.
[5] Ryu S C, Seo J D, Lee J Y, et al. Advanced motion vector coding framework for multiview video sequences[J]. Multimedia Tools and Applications, 2013, 67(1): 49- 70.
[6] 李躍, 鄧聯(lián)文, 業(yè)勛, 等. 多視點(diǎn)視頻編碼的TZSearch算法優(yōu)化[J]. 中南大學(xué)學(xué)報(bào)(自然科學(xué)版), 2014, 45(10): 3450- 3455.
[7] Kim Y, Kim J, Sohn K. Fast disparity and motion estimation for multi-view video coding[J]. IEEE Transactions on Consumer Electronics, 2007, 53(2): 712- 719.
[8] Boonthep N,Chiracharit W,Chamnongthai K.Adaptive search range determination for geometry based disparity and motion estimation of MVC[C]//Signal and Information Processing Association Annual Summit and Conference(APSIPA).Siem Reap: IEEE, 2015: 1- 5.
[9] 宋曉煒, 楊蕾, 劉忠, 等. 基于視差矢量特點(diǎn)的視差估計(jì)快速算法[J]. 計(jì)算機(jī)應(yīng)用, 2012, 32(7): 1856- 1859.
[10] 胡波, 戴萬(wàn)長(zhǎng), 肖志堅(jiān), 等. 均值偏移的多視點(diǎn)視差估計(jì)新方法[J]. 計(jì)算機(jī)應(yīng)用, 2013, 33(8): 2297- 2299.
[11] Wang Haoqian, Du Chengli, Wang Xingzheng, et al. Fast Disparity Estimation and Mode Decision for Multi-view Video Coding[C]//International Conference on Medical Biometrics. Shenzhen: IEEE, 2014: 195- 199.
[12] Comaniciu D, Meer P. Mean shift: A robust application toward feature space analysis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(5): 603- 619.
[13] Eisert P, Steinbach E, Girod B. Automatic reconstruction of stationary 3-D objects from multiple uncalibrated camera views[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2002, 10(2): 227- 261.
[14] Fecker U, Kaup A. H.264/AVC-compatible coding of dynamic light fields using transposed picture ordering[C]//13th European Signal Processing Conference. Antalya: IEEE, 2005:1- 4.
[15] Merkle P, Smolic A, Muller K, et al. Efficient prediction structures for multiview video coding[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2007, 17(11): 1461- 1473.
[16] 明艷. 基于3D相鄰區(qū)域宏塊相關(guān)性的多視點(diǎn)視頻快速編碼算法[J]. 重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版), 2016, 28 (6): 783- 788.
[17] Fukunage K, Hostetler L D. The estimation of the gradient of a density function with application in pattern recognition [J]. IEEE Transactions of Information Theory, 1975, 21(1): 32- 40.
[18] 李楓, 趙巖, 王世剛, 等. 基于JMVC的立體視頻場(chǎng)景突變檢測(cè)算法[J]. 吉林大學(xué)學(xué)報(bào): 理學(xué)版, 2016, 54 (3): 587- 591.