張?jiān)浦?,?陌,張 剛
(1. 三亞中科遙感研究所,海南 三亞 572029; 2. 太原理工大學(xué) 信息工程學(xué)院,山西 太原 030024)
?
整體壓縮高清視頻的可伸縮編碼算法
張?jiān)浦?,2,張 陌2,張 剛2
(1. 三亞中科遙感研究所,海南 三亞 572029; 2. 太原理工大學(xué) 信息工程學(xué)院,山西 太原 030024)
高清視頻從一層原始信號(hào)出發(fā),通過降采樣產(chǎn)生多層影像,其各層數(shù)據(jù)是同一場景的不同分辨率表現(xiàn),存在高度相關(guān),目前各種壓縮算法忽略了這種層間相關(guān)性. 本文針對(duì)高清視頻引入層內(nèi)-層間搜索機(jī)制,探索一種從整體上壓縮金字塔的可伸縮的層間壓縮編碼I-LC,其預(yù)測(cè)殘差能量比傳統(tǒng)幀內(nèi)-幀間搜索方法更低. I-LC降采樣部分利用紋理濾波TDFA層內(nèi)搜索,有效去除了影像數(shù)據(jù)的層內(nèi)紋理相關(guān),類似于H.26x 的幀內(nèi)壓縮; I-LC升采樣部分形成了原始信號(hào)的一個(gè)高精度逼近,可以去除圖像的層間相關(guān)性,相當(dāng)于H.26x的幀間壓縮. I-LC將這兩個(gè)手段與傳統(tǒng)的DCT,量化和游程編碼等結(jié)合在一起,把空間金字塔作為一個(gè)整體進(jìn)行壓縮,重建PSNR高于36 dB時(shí),壓縮率比傳統(tǒng)AVS的I幀編碼提高103.05,壓縮效率相當(dāng)于H.265或AVS2.
層間壓縮; 高清視頻; 重采樣濾波對(duì)偶; 紋理濾波; 可伸縮編碼
高清數(shù)字視頻編碼從超高清(7 680×4 320)原始信號(hào)出發(fā),通過降采樣產(chǎn)生多層金字塔影像[1-5],諸如H.265或AVS2壓縮編碼的目標(biāo)是提供直到SQICF(128×96)多達(dá)6層的壓縮處理[6-8]. H.264(或AVS)的可伸縮編碼基于幀間處理技術(shù)[9-10],利用運(yùn)動(dòng)補(bǔ)償參數(shù)的層間相關(guān)性提高壓縮率,可提供0.2 bit/像素的壓縮效率. 幀間可伸縮編碼的缺陷是重建影像質(zhì)量在高層衰減嚴(yán)重,目前尚未應(yīng)用到H.265或AVS2[11]. 對(duì)于運(yùn)動(dòng)劇烈的影像,幀間編碼會(huì)引入大量I幀預(yù)測(cè)模式,產(chǎn)生I幀模式占比極高的甚至全I(xiàn)幀碼流. 全I(xiàn)幀壓縮可以產(chǎn)生高質(zhì)量的重建影像,但壓縮率μ(一幅圖片壓縮前后尺寸之比)難以滿足視頻編碼要求. 若全I(xiàn)幀可伸縮編碼能夠達(dá)到H.265或AVS2的壓縮率水平,即0.1 bit/像素(或亮度0.06 bit/像素),則可用作高清數(shù)字視頻的可伸縮編碼.
利用降采樣生成的金字塔各層是同一場景不同分辨率的呈現(xiàn),存在高度相關(guān),現(xiàn)有各種可伸縮編碼都忽略了層間相關(guān)性. 本文提出一種可伸縮層間壓縮算法I-LC(Inter-Layer Compression),以全I(xiàn)幀方式高效率去除高清視頻金字塔的層間相關(guān),其亮度圖像重建PSNR高于36 dB時(shí),壓縮率μ可達(dá)128.65(或亮度0.06 位/像素),滿足H.265或AVS2壓縮目標(biāo).
本文的層間預(yù)測(cè)方法采用“降采樣+升采樣”的重采樣濾波對(duì)偶RSFP(Re-Sampling Filter Pair),原理如圖 1 所示[12].
圖1 濾波對(duì)偶RSFP原理
RSFP對(duì)原始影像P(n)降采樣生成高一層數(shù)據(jù)P(n+1),然后再對(duì)P(n+1)升采樣,產(chǎn)生當(dāng)前層原始影像的一個(gè)預(yù)測(cè)P′(n),以及預(yù)測(cè)殘差e(n)=P(n)-P′(n),e(n) 能量的大小反映了RSFP的預(yù)測(cè)效果. RSFP升采樣選用AVS的1/2插值濾波器,降采樣采用紋理方向?yàn)V波TDFA(Texture Direction Filtering Approach). 下面以亮度信號(hào)為例闡述TDFA的基本原理.
TDFA對(duì)每個(gè)8×8塊在水平、 垂直、 直流、 135°和45°這5個(gè)方向中搜索,確定一個(gè)濾波方向. 紋理搜索的距離采用絕對(duì)差值之和SAD(Sum Absolute Difference). 對(duì)于2個(gè)不同的8×8塊x和y
SAD(x,y) =∑ij∣xij-yij∣.
假定一個(gè)8×8塊x的像素矩陣為
由x可生成水平、 垂直、 135°、 45°和直流5種方向的紋理矩陣A,B,C,D和E,其元素分別為
將A和B的對(duì)應(yīng)元素加權(quán)平均形成直流矩陣E,代表一種無方向的紋理. 以及
若與x最小距離塊分別為A,B,C,D或E, 則塊x的紋理方向分別對(duì)應(yīng)著水平、 垂直、 135°、 45°或直流. 在塊x內(nèi)部用一個(gè)3階濾波器,沿著紋理方向?qū)嵤┙挡蓸? 參與濾波的樣點(diǎn)包括像素自身,以及按如下方式確定的另外2個(gè)樣點(diǎn).
水平紋理:同1行左右各1個(gè)像素;
垂直紋理:同1列上下各1個(gè)像素;
直流紋理:左邊和上邊各1個(gè)像素;
135°紋理:上左和下右各1個(gè)像素;
45°紋理:上右和下左各1個(gè)像素.
取Crew的100幀影像共633 600個(gè)8×8塊作為實(shí)驗(yàn)數(shù)據(jù),分別用RSFP和AVS的I幀算法求出預(yù)測(cè)殘差e(n). 對(duì)e(n)作DCT變換,其直流分量DC是e(n)的能量. 圖 2 是I-LC的RSFP預(yù)測(cè)器和AVS的I幀預(yù)測(cè)算法的DC分布曲線. 其橫坐標(biāo)是DC的取值,范圍在[-3 000, 3 000],以步長60劃分子區(qū)間; 縱坐標(biāo)是DC的取值在每個(gè)子區(qū)間的占比.
圖2 直流分量分布曲線對(duì)比
由圖 2 知本文的RSFP預(yù)測(cè)效果優(yōu)于AVS的I幀預(yù)測(cè)算法.I-LC的DC動(dòng)態(tài)范圍是±200,而AVS的I幀是±2 000; 殘差能量占比也集中趨向0值附近,落在[-30, 30]內(nèi)的占比超過了39%,而后者在7%左右. 這說明小能量殘差的比率顯著增加,有利于后續(xù)量化壓縮. 測(cè)試其它3組數(shù)據(jù)(Ice、Harbor和Soccer),結(jié)果基本相同.
2.1 I-LC原理
I-LC壓縮方案的整體結(jié)構(gòu)見圖 3,其中編碼過程包括DCT變換、 量化和熵編碼.
當(dāng)前層P(n)經(jīng)RSFP降采樣得到上一層P(n+1),再經(jīng)RSFP升采樣得到預(yù)測(cè)信號(hào)S(n)以及預(yù)測(cè)殘差
e(n)=P(n)-S(n),
e(n)經(jīng)DCT變換、 量化、 熵編碼得到輸出E(n),類似方法處理其余各層獲得金字塔全部輸出. 因最高層P(l+m)數(shù)據(jù)量是第l層的1/4m,當(dāng)總層數(shù)m足夠大時(shí),P(l+m)占比很小,可不作壓縮直接存儲(chǔ).
圖3 I-LC原理
2.2 I-LC編碼算法
I-LC編碼器的工作流程見圖 4.
首先降采樣處理每一層,得到金字塔各層影像數(shù)據(jù)P(n). 令最高層P(m)為當(dāng)前層重建數(shù)據(jù)P′(n),從最高層開始升采樣當(dāng)前層重建數(shù)據(jù)P′(n)得到下一層預(yù)測(cè)信號(hào)S(n-1),當(dāng)前的層數(shù)n減1. 對(duì)該層預(yù)測(cè)殘差e(n)作DCT變換,量化和熵編碼形成該層輸出E(n). 隨后對(duì)E(n)解碼,逆量化和逆變換產(chǎn)生該層重建預(yù)測(cè)殘差e′(n),加上S(n)得到新的一層重建數(shù)據(jù)P′(n). 由于I-LC僅壓縮高清視頻各層的預(yù)測(cè)殘差,因此壓縮效率很高.
2.3 I-LC解碼算法
I-LC解碼器的工作流程見圖 5.
首先確定解碼觀察的目標(biāo)層數(shù)l和金字塔最高層層號(hào)m,令n=m-1,上一層重建數(shù)據(jù)P′(n+1)是未經(jīng)壓縮的頂層數(shù)據(jù)P(m). 升采樣P′(n+1)得到當(dāng)前層預(yù)測(cè)信號(hào)S(n); 取出存儲(chǔ)的當(dāng)前層輸出信號(hào)E(n)并進(jìn)行熵解碼,逆量化和逆DCT變換,得到當(dāng)前層重建預(yù)測(cè)殘差e′(n); 當(dāng)前層重建信號(hào)P′(n)=S(n)+e′(n). 對(duì)無損壓縮有e′(n)=e(n)以及P′(n)=P(n). 重復(fù)此過程直到各層數(shù)據(jù)均被重建.
比較圖 4 和圖 5,發(fā)現(xiàn)I-LC編碼器內(nèi)部嵌入了一個(gè)解碼器,這樣可使重建信號(hào)P′(n)在編碼側(cè)和解碼側(cè)同步,避免編碼誤差隨層數(shù)的增加而積累.
圖4 I-LC 編碼流程圖
圖5 I-LC 解碼流程圖.
為測(cè)試I-LC的壓縮效果并與AVS的I幀算法比較,取4組實(shí)驗(yàn)數(shù)據(jù)(crew,harbor,ice和soccer)每組200幀,亮度數(shù)據(jù)尺寸壓縮前為407 808B/幀. 分別用I-LC和AVS的I-幀算法壓縮這些亮度數(shù)據(jù)并計(jì)算PSNR和壓縮率μ,實(shí)驗(yàn)結(jié)果見表 1 和圖 6.
圖6 PSNR和壓縮率曲線對(duì)比
表1 I-LC和AVS-I的壓縮效果
從表 1 看出,QP取0時(shí)兩種壓縮算法都是近無損的,但I(xiàn)-LC的壓縮率μ略高于AVS-I. 對(duì)確定的QP,I-LC的PSNR和μ都優(yōu)于AVS-I,當(dāng)QP大于23時(shí),優(yōu)勢(shì)呈迅速擴(kuò)大的趨勢(shì).
I-LC在μ為100(QP=43)時(shí),PSNR為36.75 dB,而同樣的QP取值,AVS-I的PSNR已經(jīng)降到34 dB以下,而且μ不及I-LC的1/2,僅為44.81.
對(duì)于視頻壓縮應(yīng)用,重建PSNR應(yīng)高于36 dB. 此時(shí)I-LC的μ可達(dá)128.65(QP=46,亮度0.06 bit/像素),而AVS-I的μ僅為25.60(QP=38,亮度0.31 bit/像素),壓縮率不及I-LC的20%.
視頻壓縮時(shí),色度信息的比重低于亮度數(shù)據(jù),因此可伸縮編碼算法I-LC有望獲得全彩色0.1 bit/像素的壓縮效率,這是H.265和AVS2的目標(biāo),但后者不具有可伸縮能力.
本文提出一種全I(xiàn)幀可伸縮圖像編碼方案I-LC,可用來整體壓縮高清視頻金字塔影像. I-LC利用紋理濾波TDFA消除金字塔數(shù)據(jù)的層內(nèi)紋理相關(guān),類似于H.26x的幀內(nèi)壓縮; 利用重采樣濾波對(duì)偶RSFP去除金字塔數(shù)據(jù)的層間相關(guān),相當(dāng)于H.26x的幀間壓縮,改善壓縮效果相當(dāng)明顯.
分析I-LC的計(jì)算復(fù)雜性,首先I-LC用一個(gè)3階濾波器生成金字塔,運(yùn)算量相當(dāng)于雙三次濾波,而搜索紋理方向的原理類似于H.26x或AVS的I-幀算法,計(jì)算復(fù)雜度與其相當(dāng). 其次I-LC采用AVS的1/2插值算法升采樣,運(yùn)算量遠(yuǎn)低于H.26x的 1/2插值,僅占P幀計(jì)算量的很小比例; 而I-LC的其余部分包括DCT變換、 量化和熵編碼等,是包括H.26x或AVS,JPEG和JPEG2000等任何壓縮算法必須具備的[13-15]. 此外,一個(gè)m層金字塔數(shù)據(jù)總量不會(huì)超過原始影像的4/3.
當(dāng)QP增加時(shí),I-LC的層間預(yù)測(cè)效果對(duì)重建質(zhì)量至關(guān)重要,優(yōu)化RSFP可以顯著提高I-LC壓縮率. TDFA降采樣濾波器性能仍有很大提升空間:這里的TDFA在一個(gè)8×8像素塊中搜索5個(gè)紋理方向,可以選擇更小如4×4像素塊進(jìn)行搜索,或者選擇更多的搜索方向(H.265和AVS2有33個(gè)搜索方向),有望捕捉到更精細(xì)的紋理特征,這會(huì)進(jìn)一步改善TDFA的降采樣效果. 此外,I-LC層間預(yù)測(cè)殘差主要集中在低能量范圍,說明熵編碼碼字的概率分布已經(jīng)改變,有必要重新訓(xùn)練它們并計(jì)算新的概率分布,然后重新分配熵編碼每個(gè)碼字的長度,可望進(jìn)一步提高壓縮率.
[1]Nasrollahi K, Moeslund T B. Super-resolution: a comprehensive survey[J]. Machine Vision and Applications, 2014, 25(6):1423-1468.
[2]Yuan H, Kwong S, Liu J, et al. A novel distortion model and lagrangian multiplier for depth maps coding[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2013, 24(3):443-451.
[3]Peleg T, Elad M. A statistical prediction model based on sparse representations for single image super-resolution[J]. IEEE TIP, 2014, 23(6):2569-2582.
[4]Thapa D, Raahemifar K, Bobier W R, et al. Comparison of super-resolution algorithms applied to retinal images[J]. Journal of Biomedical Optics, 2014, 19 (5):056002.
[5]Wang J, Aidi W. Super-Resolution image reconstruction based on iteration and wavelet transform[J]. Journal of Communication and Computer, 2014, 287(1):39-44.
[6]Sullivan G J, Ohm J, Han W J, et al. Overview of the high efficiency video coding (HEVC) standard[J]. IEEE Transactions on Circuits & Systems for Video Technology, 2012, 22(12):1649-1668.
[7]Zhou J J, Zhou D J, Sato S G. Alternating asymmetric search range assignment for bidirectional motion estimation in H.265/HEVC and H.264/AVC[J]. Journal of Visual Communication and Image Representation, 2014, 25(5):1275-1286.
[8]Ma Siwei, Huang Tiejun, Reader C, et al. AVS2 making video coding smarter[standards in a nutshell][J]. IEEE Signal Processing Magazine, 2015, 32(2):172-183.
[9]Van d A G, David P, Reisslein M. Traffic and quality characterization of single-layer videod streams encoded with the H.264/MPEG-4 advanced video coding standard and scalable video coding extension[J]. IEEE Transactions on Broadcasting, 2008, 54(3):698-718.
[10]Wei Z, Wu Y, Deng R H, et al. A hybrid scheme for authenticating scalable video codestreams[J]. IEEE Transactions on Information Forensics & Security, 2014, 9(4): 543-553.
[11]Sullivan G J, Ohm J, Han W J, et al. Overview of the high efficiency video coding (HEVC) standard[J]. IEEE Transactions on Circuits & Systems for Video Technology, 2012, 22(12): 1649-1668.
[12]張?jiān)浦? 張陌,王晉年, 等. TDFA:一種生成空間影像金字塔的方法[J]. 中國圖象圖形學(xué)報(bào), 2016, 21(7):959-966. Zhang Yunzhou, Zhang Mo, Wang Jinnian, et al. TDFA:a generation method of spatial image pyramid[J]. Journal of Image and Graphics, 2016, 21(7): 959-966. (in Chinese)
[13]Thomas R. Image encoding methods and apparatus providing improved visual results[P]. US8559742B2, 2013.
[14]Wallace G K. The JPEG still picture compression standard[J]. Communications of the Acm, 1991, 34(4): 30-44.
[15]Tescher A G. JPEG vs. JPEG 2000:an objective comparison of image encoding quality[J]. Proceedings of SPIE Applications of Digital Image Processing XXVII, 2004, 5558:300-308.
A Scalable Coding Algorithm of Overall Compression HD Video
ZHANG Yun-zhou1,2, ZHANG Mo2, ZHANG Gang2
(1. Sanya Research Center Institute of Remote Sensing and Digital Earth (RADI) of Chinese Academy of Science, Sanya 572029, China;2. College of Information Engineering, Taiyuan University of Technology,Taiyuan 030024, China)
The multilayer image of HD video are produced by way of down-sampling from one layer of original signal, its each layer respectively is the presentation of the different resolution of the same scene, and there is a high correlation, but which has always been ignored by the various compression algorithms. This paper explored a high efficient scalable solution of inter-layer compression I-LC, whose intra-layer and inter-layer search mechanism make the energy of prediction error much lower than that of the traditional H.26x’s or AVS’s the intra-frame and inter-frame search, so it is a novel method of overall scalable compression of HD video. I-LC’s down-sampling part carry on the intra-layer texture search, and it is similar to H.26x’s intra-frame compression, which effectively remove the intra-layer texture correlation of image data; A high precision approximation to the original signal can be formed by the I-LC’s up-sampling part, and its prediction residual energy is very low, which can effectively remove the inter-layers correlation of the image data, and is equivalent to H.26x’s inter-frame compression. Combining these two means and the traditional DCT, quantization, and run-length encoding and so on, one frame of the HD video was carried the I-LC compression as a whole. At reconstruction PSNR was over 36 dB, I-LC’s compression ratio increased 103.05 than the AVS’s I-frame algorithm, which compression efficiency is equivalent to that of H.265 or AVS2.
inter-layer compression; HD Video; re-sampling filter pair; texture filtering; scalable coding
2016-04-05 基金項(xiàng)目:山西省自然科學(xué)基金資助項(xiàng)目(2013011017-3)
張?jiān)浦?1990-),男,助理研究員,博士,主要從事遙感信息處理和云存儲(chǔ)技術(shù)的研究.
1673-3193(2016)05-0501-05
TP751.1
A
10.3969/j.issn.1673-3193.2016.05.012