金雪松,趙志杰,林茂六
(1.哈爾濱工業(yè)大學(xué)電子與信息工程學(xué)院,哈爾濱 150001;2.哈爾濱商業(yè)大學(xué)計算機與信息工程學(xué)院,哈爾濱 150028)
近年來,多視角視頻編解碼已經(jīng)成為現(xiàn)代視頻通信的研究熱點。多視角視頻是一種新型的具有立體感和交互操作功能的視頻。多視角視頻的場景通過一定數(shù)量的攝像機同時獲取,構(gòu)成所謂的多視角視頻數(shù)據(jù)源,這些數(shù)據(jù)轉(zhuǎn)換成相同的數(shù)據(jù)表示形式,允許用戶交互式瀏覽場景。多視角的視頻引用已經(jīng)超過立體視頻,包括 3-D 電視[1]和自由視角電視[2-3]。多視角視頻系統(tǒng)一般包括多視角視頻采集、多視角視頻編碼、網(wǎng)絡(luò)傳輸、解碼和顯示等部分。與單視角視頻相比,多視角視頻的數(shù)據(jù)量隨著攝像機的數(shù)目增加而線性增加,必須找到合適的編碼方法才能使得多視角視頻獲得廣泛的應(yīng)用。最簡單和可靠的編碼是使用現(xiàn)有的單視角編碼方法和技術(shù)分別編碼多視角視頻的每一個視角視頻[4]。但是,這種方法沒有利用視角間視頻可相關(guān)性,所以它并不是最優(yōu)的。視角間存在的相關(guān)性必定會影響編碼效率,編碼器要給予足夠考慮[5]。
由于多視角視頻壓縮需求增加,發(fā)展針對多視角視頻的編碼技術(shù)和標(biāo)準(zhǔn)刻不容緩。國際標(biāo)準(zhǔn)化組織發(fā)出征求多視角視頻編碼技術(shù)的倡議書。從此,越來越多的多視角編碼方案被提出。多視角視頻編碼(Mutli-view Video Coding, MVC)標(biāo)準(zhǔn)是在非常成熟且已頒布的H.264/ AVC的基礎(chǔ)上,主要增加了視角間的預(yù)測框架,提高編碼效率[6-7];由于視頻信號傳輸通道和顯示設(shè)備的多樣化,可伸縮性就成為多視角視頻非常重要的特性。MVC并不支持完全可伸縮——時間、空間、視角和質(zhì)量可伸縮。文獻[8]提出將可伸縮視頻編碼(Scalable Video Coding, SVC)改進并引入到多視角編碼中,提出基于 SVC技術(shù)的可伸縮多視角編碼(Scalable Multi-view Video Coding,SMVC)。但是,這種編碼系統(tǒng)由于采用混合編碼結(jié)構(gòu),并不能實現(xiàn)完全可伸縮的編碼框架?;谛〔ㄗ儞Q的SMVC最早是由文獻[9]提出的,由于小波變換的多分辨率特性和能量集中性質(zhì),小波變換非常符合視頻編碼中對可伸縮性的需求。完全基于小波變換的視頻編碼框架不僅能高效地壓縮視頻,而且能夠保持碼流的可伸縮性。多視角視頻可以分為3個分解步驟:單視角時間分解、視角間分解和空間分解。分解后獲得小波系數(shù)通過小波編碼器編碼,如 SPIHT[10]和 3DESCOT[11]。文獻[12]在其基礎(chǔ)上進行改進,同時提出基于小波包變換的編碼方案。本文實現(xiàn)了一種完全基于小波變換的多視角視頻編碼系統(tǒng)。
與單視角編碼框架類似,多視角框架采用基于提升小波的分解方式,按照分解先后順序,分別包括單視角運動補償時域濾波(Motion Compensated Temporal Filtering, MCTF)、針對MCTF生成的時間低通幀視差補償視角濾波(Disparity View Compensated Filtering, DVCF),然后是 2D-DWT和熵編碼,產(chǎn)生的比特流按目標(biāo)碼率優(yōu)化截斷組合成最終的碼流,如圖1所示。
圖1 多視角視頻編碼系統(tǒng)
將多視角視頻的每一個視角看作是單視角視頻進行時間分解:視頻信號通過二通道分解濾波器濾波( H0(z) 和 H1(z)),再下采樣,分別獲得高通子帶Hk和低通子帶Lk?1,其示意圖如圖2(a)所示。在重建端,子帶信號分別上采樣(補零插值),并由合成濾波器濾波( F0(z)和 F1( z)),將生成的信號相加,生成重建信號,如圖2(b)所示。如果不考慮其他因素, H0(z)、H1(z) 、 F0(z)和 F1( z)滿足完全重構(gòu)條件的話,原始信號與重建信號完全一致。
圖2 二通道分解/合成濾波器組
在工程實現(xiàn)時,考慮時間復(fù)雜度和空間復(fù)雜度,雙正交小波濾波器組 5/3 Le Gall比較適合用作視頻時間分解,因為其濾波器不是太長,便于實現(xiàn),同時能夠較好地利用相鄰信號的相關(guān)性,更加準(zhǔn)確地預(yù)測信號,基本上已被主流的小波編碼方案采用。高通和低通濾波器Z變換可由式(1)、式(2)給出。
一般采用提升方式實現(xiàn)信號分解和合成。由于提升小波的構(gòu)造方法的提出[13],如圖3所示,極大地推廣小波的應(yīng)用,在基于小波的視頻框架中,采用小波提升方法使得分解視頻信號變得簡便。所以,5/3小波能夠變成預(yù)測和更新濾波器對:
圖3 雙正交濾波器的提升結(jié)構(gòu)
如果不考慮視頻內(nèi)容隨時間的變化,基于5/3小波提升的分解表達式可以使用下式表示:
由圖4可見,每5個連續(xù)視頻幀組成一個基本單元,如F2k、F2k+1、F2k+2、F2k+3、F2k+4即可組成一個分解基本單元,可以生成對應(yīng)的低通幀和高通幀??梢娫谶@種 MCTF結(jié)構(gòu)中,高通幀利用前后2幀的信息生成,而低通幀利用前后4幀的相關(guān)信息生成,相比于Haar小波用相鄰2幀產(chǎn)生低通幀和高通幀能更加充分地利用視頻序列的連續(xù)性。
圖4 基于5/3雙正交濾波器提升的單層分解結(jié)構(gòu)
為了更好地適應(yīng)視頻內(nèi)容隨時間的變化,考慮沿著運動軌跡的分解是合理地并能更好地去除時間域的冗余。運動補償時域濾波技術(shù)是通過對視頻序列進行時域一維小波變換以去除視頻序列中大量的時間冗余信息,達到視頻壓縮并為實現(xiàn)時間可伸縮作必要的準(zhǔn)備。由5/3提升小波分解式可得基于5/3提升小波的MCTF基本結(jié)構(gòu),如圖3所示。
圖5 運動估計變宏塊形式
從理論上講,視頻中的每一個像素都是處于隨著時間變化某一運動軌跡上的,沿著每一個軌跡進行小波分解可獲得最優(yōu)的結(jié)果。但是,這種處理方法的缺點也很明顯:針對每個像素的運動估計的計算量太多,不利于實時的編碼系統(tǒng)。
考慮到編碼效率和計算量之間進行折中,最終分解是基于不同的編碼塊。為了充分適應(yīng)視頻內(nèi)容的多樣性,運動估計和補償中采用不同形式的編碼塊(變宏塊),如圖5所示。
每個視角的圖像組(Group of Picture, GOP)經(jīng)過MCTF后生成一幀低通幀和一系列不同頻率的高通幀,由于不同視角的低通幀之間相關(guān)性非常強,去除它們之間的冗余就是多視角編碼器必須考慮的。將同一時間段所有視角分解后生成的低通幀組合新的“序列”,首先進行顏色校正,然后進行視差補償小波分解變換。變換方法中可以采用與 MCTF中相同的技術(shù)。
每個視角選取一定數(shù)量的幀作為一個小波分解單元,稱為 GOP,GOP中包含的幀的數(shù)目與 MCTF的分解層數(shù)相關(guān);而視頻序列的視角決定DVCF的分解層數(shù),所有視角的 GOP組成 GOP組(Groups of Groups of Pictures, GoGoP)。如圖6所示,假設(shè)GOP包含8幀:(1)每個視角GOP單獨執(zhí)行MCTF,分解后,幀序按頻率從高到底重新排列分別為4幀T-H、2幀 T-LH、1幀 T-LLH和 1幀 T-LLL。(2)利用上述顏色校正算法校正8個視角生成的T-LLL之間顏色差異,然后執(zhí)行DVCF。DCVF將這8幀分解成4幀V-H、2幀V-LH、1幀V-LLH和1幀V-LLL。(3)利用二維離散小波變換分解每一時間-視角子帶,生成最終的編碼子帶。
圖6 GoGoP的4維小波分解結(jié)構(gòu)
根據(jù)時間、視角和空間的分解順序,可以將這種結(jié)構(gòu)稱為T+V+2D,即四維分解。當(dāng)然,分解順序并不固定這一種,也可以是視角、時間和空間,或者空間、時間和視角,MCTF和DVCF也可以在小波域執(zhí)行。在圖6中,用灰度的深淺表示子帶所屬的頻帶,越偏黑表示對應(yīng)的頻率越低。圖中視頻幀和視角的排列順序重新排列,使得分解后信號能量沿著時間軸、視角軸遞增排列。
利用雙正交 9/7濾波器組進一步去除每個時間-視角的空間相關(guān)性,其分解方法與JPEG2000標(biāo)準(zhǔn)一樣[14]。四維小波分解后,利用編碼器編碼獲得小波子帶系數(shù)。小波編碼器較成熟的有 EZW、SPIHT和EBCOT,以及為視頻信號設(shè)計的3D-ESCOT,這些編碼器可以分為2類:利用子帶間和子帶內(nèi)相關(guān)性實現(xiàn)編碼。二維小波變換能構(gòu)造出分辨率可伸縮比特流,二進制位平面編碼可實現(xiàn)嵌入式可伸縮的比特流,然而EZW和SPIHT采用零樹編碼結(jié)構(gòu),在分辨率級之間引入相關(guān)性,破壞了分辨率可伸縮性。為了實現(xiàn)最佳的可伸縮性,應(yīng)盡量使系數(shù)比特層編碼具備一定的獨立性。
3D-ESCOT編碼器是 JPEG2000標(biāo)準(zhǔn)采用的EBCOT在三維上的擴展,其編碼思想是一致的,利用逐步量化和比特平面編碼小波系數(shù),完成小波系數(shù)的可伸縮表示。編碼器將子帶分成小塊,同時將同一頻帶的時間子帶處于相同位置的小塊拼成三維的立方體編碼塊,單獨對每一個編碼塊進行編碼,這樣編碼引入的相關(guān)性只限制在一個塊內(nèi)。
每一個編碼塊被編碼器生成帶一系列截斷點的連續(xù)碼流,對應(yīng)截斷點的碼率和失真在編碼過程中可以估計,為隨后的碼率優(yōu)化截斷提供基礎(chǔ)。
率失真優(yōu)化截斷技術(shù)用來重新組合不同子帶獨立編碼,獲得不同比特的碼流,使得最終的解碼視頻全局最優(yōu)??紤]目標(biāo)碼率RT,將它分配給N個不同特性的子帶,使得解碼后視頻質(zhì)量最優(yōu)。Ri表示子帶優(yōu)化分配后獲得碼率,Di(R)表示子帶的率失真函數(shù)。
構(gòu)成率子帶失真函數(shù)的碼率是由編碼器在不同掃描層所使用的碼率,失真則是根據(jù)當(dāng)前掃描后已編碼比特平面估計的,只是不同子帶失真權(quán)重不一樣,這是與實際的分解結(jié)構(gòu)有關(guān)系的,包括采用的小波基和MCTF與DCVF的先后順序。在MCTF和DCVF中,一般比較常用的小波基有Haar和5/3小波。對于5/3小波的一層 MCTF,分解后低通時間子帶和高通時間子帶的失真權(quán)重分別為:WL= 1.5和 WH= 0.719;多層MCTF分解后子帶可由單層子帶權(quán)重遞推獲得,如 T-LLLH子帶的權(quán)重 WT-LLLH= WT-L× WT-L× WT-L×WT-H。DCVF是針對幀T-LLLL進行進一步分解的,其分解后獲得的子帶權(quán)重與 MCTF的權(quán)重計算法方法一樣,只是它們是在低通幀T-LLLL的基礎(chǔ)上。Haar小波的分析與上面完全類似。如果采用4T+3V結(jié)構(gòu),率失真優(yōu)化截斷失真權(quán)重如表1所示,括號中的數(shù)據(jù)表示MCTF采用5/3小波而DCVF采用Haar小波時推導(dǎo)獲得的。
表1 率失真優(yōu)化截斷失真權(quán)重
由式(12)可以看出,在一定碼率限制條件下,優(yōu)化碼率分配的結(jié)果是使得所有子帶率失真曲線切線斜率完全一樣時對應(yīng)的碼率,保證分配給所有子帶碼率之和等于目標(biāo)碼率。
為了考察基于小波多視角編碼系統(tǒng)框架的性能,分別對不同特性的視頻做編解碼實驗,將實驗結(jié)果與最新的小波多視角編碼系統(tǒng)比較[14]。選擇了3種標(biāo)準(zhǔn)的多視角視頻序列:race1, ballroom和exit作為測試序列。所有的序列都是 8個視角、分辨率為 VGA(640×480像素),由水平平行規(guī)則排列的攝像機拍攝。Race1的幀率為 30 f/s,ballroom 和 exit的幀率為25 f/s。在時間分解過程中,GOP選為 16幀,進行4層分解;而在視角分解中,GOP選為 8幀,進行3層分解。
圖7~圖 9分別為編解碼器針對 race1、ballroom和exit序列的性能圖。Y-PSNR為序列所有幀所有視角Y分量PSNR的平均值,碼率為所有視角碼率的平均值。
圖7 Race1序列
圖8 Ballroom序列
圖9 Exit序列
從實驗結(jié)果可以看出,在小波的編碼器中,基于5/3小波的DCVF優(yōu)于基于Haar小波的DCVF。也就是說,即便是MCTF生成的低通幀,雖然它們之間沒有嚴(yán)格意義上的前后關(guān)系,其內(nèi)在相關(guān)性還是較強的。
本文選擇的3個測試序列race1、ballroom和exit,其視頻內(nèi)容變化快慢是不一樣的。race1序列表示的內(nèi)容變化非常劇烈,不僅視頻中主要物體運動速度快,而且背景隨著攝像機的轉(zhuǎn)動也發(fā)生較大的變化;而ballroom序列內(nèi)容變化較為溫和;exit序列內(nèi)容變化比較緩慢,只有視頻中的主要物體運動,而背景部分基本沒有任何變化。與文獻[14]提出的編碼系統(tǒng)比較可知,不同的視頻測試序列結(jié)果是不一樣的。與文獻[14]相比,本文提出的方案測試 race1序列的實驗結(jié)果更優(yōu),測試ballroom序列相當(dāng),而exit序列較差。
本文建立了一個基于小波變換的多視角編碼框架。利用小波的多分辨率特性,完成多視角視頻時間、空間和時間的可伸縮編碼,同時,結(jié)合嵌入式熵編碼技術(shù),實現(xiàn)質(zhì)量可伸縮。根據(jù)子帶的率失真函數(shù),優(yōu)化截斷碼流,使得視頻解碼的質(zhì)量最優(yōu)。實驗結(jié)果表明,多視角編碼器取得了較好的編碼效率,相比于其他小波視頻編碼系統(tǒng),本文系統(tǒng)更適合運動比較劇烈的視頻序列。
[1]Vetro A, Matusik W, Pfister H, et al.Coding Approaches for End-to-end 3-D TV Systems[C]//Proc.of Picture Coding Symposium.San Francisco, USA: [s.n.], 2004.
[2]Theobalt C, Ziegler G, Magnor M, et al.Model-based Free-viewpoint Video: Acquisition, Rendering, and Encoding[C]//Proc.of Picture Coding Symposium.San Francisco, USA: [s.n.], 2004.
[3]Tanimoto M.Free Viewpoint Television: FTV[C]//Proc.of Picture Coding Symposium.San Francisco, USA: [s.n.],2004.
[4]Sullivan G J, Topiwala P, Luthra A.The H.264/AVC Advanced Video Coding Standard: Overview and Introduction to the Fidelity Range Extension[C]//Proc.of International Society for Optical Engineering.[S.l.]: SPIE Press, 2004.
[5]Fecker U, Kaup A.Statistical Analysis of Multi-reference Block Matching for Dynamic Light Field Coding[C]//Proc.of the 10th International Fall Workshop on Vision,Modeling, and Visualization.[S.l.]: Springer, 2005.
[6]Merkle P, Muller K, Smolic A, et al.Efficient Compression of Multi-view Video Exploiting Interview Dependencies Based on H.264/MPEG-AVC[C]//Proc.of IEEE International Conference on Multimedia and Expo.[S.l.]:IEEE Press, 2006.
[7]Merkle P, Smolic A, Muller K, et al.Efficient Prediction Structures for Multi-view Video Coding[J].IEEE Trans.on Circuits and Systems for Video Technology, 2007, 17(11):1461-1473.
[8]Droese M, Clements C, Sikora T.Extending Single-view Scalable Video Coding to Multi-view Based on H.264/AVC[C]//Proc.of IEEE International Conference on Image Processing.[S.l.]: IEEE Press, 2006.
[9]Yang Wenxian, Wu Feng, Lu Yan, et al.4-D Wavelet-based Multiview Video Coding[J].IEEE Trans.on Circuits and Systems for Video Technology, 2006, 16(11): 1385-1396.
[10]Said A, Pearlman W A.A New Fast and Efficient Image Codec Based on Set Partitioning in Hierarchical Trees[J].IEEE Trans.on Circuits and Systems for Video Technology, 1996, 6(3): 243-250.
[11]Xu Jizheng, Xiong Zixiang, Li Shipeng, et al.Threedimensional Embedded Subband Coding with Optimized Truncation(3-D ESCOT)[J].Applied and Computational Harmonic Analysis, 2001, 10: 290-315.
[12]Garbas J U, Popescu B P, Kaup A.Methods and Tools for Wavelet-based Scalable Multi-view Video Coding[J].IEEE Trans.on Circuits and Systems for Video Technology, 2011, 21(2): 113-126.
[13]Sweldens W.The Lifting Scheme: A New Philosophy in Biorthogonal Wavelet Constructions[C]//Proc.of Wavelet Application Signal Image Process Conference.San Diego,USA: [s.n.], 1995.
[14]Taubman D.High Performance Scalable Image Compression with EBCOT[J].IEEE Trans.on Image Processing, 2000, 9(7): 1158-1170.