何書前,鄧正杰,石 春
1.中山大學(xué) 信息科學(xué)與技術(shù)學(xué)院,廣州 510275 2.海南師范大學(xué) 信息科學(xué)技術(shù)學(xué)院,???571158
聯(lián)合率失真模型的幀級碼率控制方法
何書前1,2,鄧正杰2,石 春2
1.中山大學(xué) 信息科學(xué)與技術(shù)學(xué)院,廣州 510275 2.海南師范大學(xué) 信息科學(xué)技術(shù)學(xué)院,???571158
在視頻通信系統(tǒng)中,如何在有限的帶寬和緩沖資源條件下達到最好的視頻編碼質(zhì)量,碼率控制起到非常重要的作用。特別是在H.264/AVC視頻編碼標(biāo)準(zhǔn)[1-2]的應(yīng)用中,率失真最優(yōu)化(RDO)技術(shù)的使用引入了量化參數(shù)求解的“雞蛋問題“,給碼率控制帶來了巨大挑戰(zhàn)。其中,H.264/AVC標(biāo)準(zhǔn)中推薦了JVT-G012[3]通過預(yù)測編碼復(fù)雜度很好地解決了該問題,在GOP中分配幀比特和選擇量化參數(shù)以達到編碼目標(biāo)。因為該方法采用單通線性預(yù)測模型,將造成較大的預(yù)測誤差,從而引入較大的幀間編碼質(zhì)量波動。為了解決編碼復(fù)雜度的預(yù)測精度問題,Ma等4]建議了雙通的碼率控制策略,如果第一遍編碼未能獲得準(zhǔn)確的量化值,第二遍編碼時將很好地提高精度;但該方法引入了非常高的計算復(fù)雜度。后來,引入了線性R-Q模型,將雙通方法擴展為半雙通碼率控制算法,在計算復(fù)雜度和預(yù)測精度之間取得了較好的折中。在文獻[5]中,改進了G012中的MAD預(yù)測模型,并在R-Q模型中引入了頭信息的影響,將碼率控制方法擴展到H.264低延時視頻通信系統(tǒng)中。Wanghanli等人[6]指出了I幀初始量化的選擇將影響整個GOP的編碼質(zhì)量,并利用I幀的熵信息和Intra16的編碼信息預(yù)測初始量化參數(shù),大大提高了GOP的編碼率失真性能。Bo Yan[7]等人則將I幀和P幀的編碼復(fù)雜度聯(lián)合建模,獲得了更佳的比特分配方案。綜上所述,在文獻[3-13]提出的方法,均假定時間上相鄰的編碼單元之間的頭信息不變,碼率模型則簡化為殘差碼率模型,并定義為量化參數(shù)與視頻內(nèi)容參數(shù)的函數(shù),其中視頻內(nèi)容參數(shù)均采用了殘差信息的方差,因此,得到的率失真模型精度有限。在本文中不僅對頭信息進行了分析建模,而且引入頭信息與殘差信息之間的關(guān)系,改進了碼率模型,并利用前一編碼單元的分布穩(wěn)定特性對實際殘差直方圖與拉普拉斯假設(shè)預(yù)測的直方圖進行了修正。另外,量化失真即殘差失真,現(xiàn)有的殘差失真模型假定殘差服從拉普拉斯分布,已得到了非常好的效果;結(jié)合聯(lián)合碼率模型與殘差失真模型,構(gòu)建在受限的碼率條件下,求最小的失真問題的求解方法。
由H.264編碼原理可知,總的視頻編碼輸出信息中不僅包含殘差信息,還包括了由運動信息、模式信息、語法信息(參考幀、量化與其他語法)組成的頭信息。如圖1所示,在頭信息中,主要組成部分為模式信息和運動矢量信息,其他的(如量化參數(shù)等)頭信息占的比重較小且穩(wěn)定,用常數(shù)來表示,因此,頭信息的定義如下:
R(h)=R(Mode)+R(Inter)+θ (1)模式信息R(Mode),運動矢量信息R(Inter),為頭信息的重要部分,其他類型為常量θ。R(Mode)和R(Inter)兩個變量的大小與編碼模式選擇密切相關(guān),不同的模式可表示為分塊數(shù)量NB,編碼模式分塊的數(shù)量NB越大,則R(Mode)和R(Inter)產(chǎn)生的信息量越大,同時,同一種模式下,運動矢量差值mvd越大,則R(Inter)的信息量越大。頭信息的輸出碼率與視頻幀的內(nèi)容復(fù)雜度相關(guān),內(nèi)容復(fù)雜度越高,宏塊分塊越小,得到的頭信息則越高;另外,頭信息與殘差信息存在耦合關(guān)系,相對于相同的幀間編碼條件,越小的宏塊分塊模式,殘差信息則越小,反之亦然。
如圖2所示,本文對news視頻序列進行了測試,給出了運動矢量、模式與編碼塊數(shù)之間的關(guān)系,如圖2列出了幀的模式與編碼的塊數(shù)的關(guān)系以及幀運動矢量信息與編碼塊數(shù)之間的關(guān)系。
從圖2中可以看出,幀運動矢量信息、模式編碼信息與塊數(shù)量之間成明顯的線性關(guān)系,即
同理,運動矢量與模式編碼信息之間也存在線性關(guān)系;
其中,參數(shù) β(mvd)由mvd決定,每幀的編碼分塊數(shù)NB=為幀中第i個宏塊的分塊數(shù),MF為幀中包含的宏塊總數(shù)。將式(2)(3)帶入式(1)可得頭信息編碼模型:
視頻序列的幀間時空相關(guān)性較強,因此,相鄰幀間的運動程度變化較小,β(mvd)可以由已編碼幀的平均值預(yù)測此外,NB直接反映了時空相關(guān)性的變化MAD表示當(dāng)前幀與前一幀的平均絕對差。頭信息的估計模型為:
圖1 News視頻序列頭信息組成部份
圖2 News R(Inter)-NB關(guān)系圖和R(Mode)-NB關(guān)系圖
混合預(yù)測編碼框架下,幀間編碼的原理是在參考幀中找到最佳的編碼模塊,對原始塊與預(yù)測塊的差值進行編碼,聯(lián)合分塊信息與運動信息,組成總的編碼信息量R。不同大小的塊得到的差值不一樣,得到的運動信息也不一樣;當(dāng)塊數(shù)量越大,運動信息越大,同時,得到的殘差值越??;當(dāng)塊數(shù)量越小,宏塊殘差差值則越大,運動信息則越少。
當(dāng)幀間編碼的參考幀與原始幀確定之后,相對于某一量化參數(shù),幀間時空復(fù)雜度則表示為最小的率失真代價。采用的各種編碼模式進行預(yù)測編碼來描述時空復(fù)雜度,將時空復(fù)雜度分為空間復(fù)雜度和時間復(fù)雜度。其中空間復(fù)雜度用量化前殘差信息來描述R(t),時間復(fù)雜度則用頭信息來描述R(h)。因此,得到時空復(fù)雜度,用信息量的方式描述:R=R(t)+R(mv)。如圖3所示,對不同運動程度的視頻序列進行測試,采用不同的量化參數(shù),不同的編碼模式分別表示為16×16為1,8×16為2,16×8為3,8×8為8,收集頭信息與量化之前殘差信息量,對于每個宏塊,每種模式得到的信息量基本重合,每一種編碼模式得到的殘差信息和頭信息的總和幾乎相等。因此,假定幀間預(yù)測編碼得到的時空復(fù)雜度為固定值,并等于目標(biāo)碼率R,由以上的測試結(jié)果可知,每種編碼模式的時空復(fù)雜度相同。即
將上式代入到式(6)中,可得:
目前,已有多篇文獻[14-15]證明視頻殘差信息服從拉普拉斯分布,在這里,假定殘差信息的概率密度為拉普拉斯分布為殘差信息方差。在量化之前,有了概率密度分布,殘差信息的信息量表示為信息熵可得:
根據(jù)香濃的率失真理論,殘差信息的量化失真模型很容易推導(dǎo)得到:
圖3 序列幀中各編碼模式編碼信息量
圖4 本文方法與G-012碼率控制算法幀PSNR/R值比較
對于目標(biāo)碼率受限條件下的率失真最優(yōu)化碼率控制問題,給定目標(biāo)碼率R,通過式(5)得到R′(h)和N′B,代入式(10)中可得到殘差信息的方差σ。從文獻[15]可知,碼率控制方法為了保持PSNR的穩(wěn)定性,將保持前后幀之間的量化參數(shù)值控制在一定的范圍內(nèi)[-Δ,+Δ],這里選擇Δ=3。設(shè)前一幀量化參數(shù)值為Q,則量化范圍為{Q-3,Q-2,Q-1,Q,Q+1,Q+2,Q+3},從式(11)和(12)可得和,其中 k屬于以上量化參數(shù)范圍。通過 λ= 0.85×將信息與失真統(tǒng)一到同一量綱,得到相應(yīng)的代價Jk,最佳率失真代價的量化參數(shù)及為Q*(min{Jk})。
本文算法已經(jīng)在JVT參考軟件JM10.2平臺[15]上實現(xiàn),并對不同的運動激烈程度的QCIF(144×176)格式的視頻序列進行了測試,視頻序列的分類為:低運動或低空間復(fù)雜度視頻序列(Akiyo和Container),中等空間復(fù)雜度或運動程度視頻序列(Foreman和News)和高空間復(fù)雜度和快速運動視頻序列(Football和Mobile)。參考軟件的測試條件如下:每種視頻序列編碼結(jié)構(gòu)采用IPP結(jié)構(gòu);參考幀數(shù)選擇為1;RDO最優(yōu)化編碼;運動估計搜索范圍為16;每個視頻序列編碼100幀。首先采用固定量化參數(shù)對每種視頻序列進行編碼,得到輸出碼率,作為JM模型的參考對比;接著固定量化參數(shù)作為碼率控制算法的初始量化值,同時,將以上輸出碼率作為碼率控制算法的目標(biāo)碼率,對固定量化參數(shù)編碼JM方法,G012碼率控制和本文算法進行了比較。
表1給出了實驗測試結(jié)果,分別從輸出碼率和PSNR兩個方面,采用平均PSNR/輸出碼率比值進行比較,對于運動劇烈程度較大的視頻序列,頭信息占比較大時,PSNR增益較小,最大達到了0.21 dB;較低的運動劇烈程度的視頻序列,相鄰幀的頭信息變化較小,PSNR增益較大,最大達到了0.27 dB。由于本方法采用了頭信息與殘差的聯(lián)合率失真模型,每種視頻序列的視頻輸出實際碼率與目標(biāo)碼率的匹配程度均優(yōu)于G012方法,體現(xiàn)了高精確的碼率控制。
圖4給出了JVT算法G012與本文算法的Akiyo視頻序列每幀PSNR/R比較,其中,橫坐標(biāo)為幀序號,縱坐標(biāo)分別為PSNR/R比值。圖中結(jié)果顯示,不管是每幀的PSNR還是輸出碼率對比,本文方法單位比特得到的PSNR增益大多數(shù)幀均優(yōu)于G012,特別是PSNR值,平均達到了0.27 dB;與JVT G012碼率控制方法相比,最高達0.51 dB。
表1 各種方法的對比結(jié)果
本文分析了視頻編碼器輸出的碼率組成,指出了頭信息在中低碼率應(yīng)用中的重要性,提出了一種聯(lián)合頭信息與殘差信息率失真模型的幀級碼率控制方法。首先,分析了頭信息中運動信息與模式信息的影響,建立了頭信息模型;接著,利用時空復(fù)雜度對各種模式的穩(wěn)定性,假定殘差信號服從拉氏分布,通過殘差信息的率失真模型,得到聯(lián)合率失真模型;最后,利用視頻內(nèi)容的高時空相關(guān)性,得到率失真模型的估計模型,應(yīng)用于幀級碼率控制算法中。實驗結(jié)果顯示,本文方法不僅從模型控制精度方面,還是從視頻解碼質(zhì)量方面,均優(yōu)于JVT G012方法。
[1]Wiegand T,Sullivan G J,Bjontegaard G,et al.Overview of the H.264/AVC video coding standard[J].IEEE Transactions on Circuits and Systems for Video Technology,2003,13(7):560-576.
[2]Wiegand T,Sullivan G J,Luthra A.Draft ITU-T recommendation and final draft international standard of joint video specification(ITU-T Rec.H.264---ISO/IEC 14496-10 AVC)[Z].2003.
[3]Li Z G,Pan F,Lim K P,et al.Adaptive basic unit layer rate-control for JVT[C]//7th JVT Meeting,Pattaya II,Thailand,2003.
[4]Ma S W,Gao W,Lu Y.Rate-distortion analysis for H.264/ AVC video coding and its application to rate control[J]. IEEE Transactionson CircuitsandSystemsfor Video Technology,2005,15(12):1533-1544.
[5]Liu Yang,Li Zhengguo,Soh Y C.A novel rate control scheme for low delay video communication of H.264/AVC standard[J]. IEEE Transactions on Circuits and Systems for Video Technology,2007,17(1):68-78.
[6]Wang Hanli,Kwong S.Rate-distortion optimization of rate control for H.264 with adaptive initial quantization parameter determination[J].IEEE Transactions on Circuits and Systems for Video Technology,2008,18(1):140-144.
[7]Yan B,Sun K R.Joint complexity estimation of I-frame and P-frame for H264AVC rate control[J].IEEE Transactions on Circuits and Systems for Video Technology,2012,22(5):790-798.
[8]Jiang M Q,Ling N.On Lagrange multiplier and quantizer adjustment for H.264 frame-layer video rate control[J]. IEEE Transactions on Circuits and Systems for Video Technology,2006,16(5):663-669.
[9]Yuan W,Lin S X,Zhang Y D,et al.Optimum bit allocation and ratecontrolforH.264/AVC[J].IEEE Transactionson Circuits and Systems for Video Technology,2006,16(6):705-715.
[10]Li X,Oertel N,Hutter A,et al.Laplace distribution based Lagrangian rate distortion optimization forhybrid video coding[J].IEEE Transactions on Circuits and Systems for Video Technology,2009,19(2):193-205.
[11]Liao Ke-Ying,Yang Jar-Ferr,Sun Ming-Ting.Rate-distortion costestimation forH.264/AVC[J].IEEE Transactions on Circuits and Systems for Video Technology,2010,20(1):38-49.
[12]Moon J M,Kim J H.A new low-complexity integer distortion estimation method forH.264/AVC encoder[J].IEEE Transactions on Circuits and Systems for Video Technology,2010,20(2):207-212.
[13]Dong Jianpeng,Ling Nam.A context-adaptiveprediction scheme for parameter estimation in H.264/AVC Macroblock layer rate control[J].IEEE Transactions on Circuits and Systems for Video Technology,2009,19(8):1108-1117.
[14]Guo Liwei,Au O C,Ma Mengyao,et al.A novel analytic quantization-distortion modelforhybrid video coding[J]. IEEE Transactionson Circuitsand SystemsforVideo Technology,2009,19(5):627-641.
[15]H.264/AVC reference softwares[EB/OL].[2012-08-20].http:// iphome.hhi.de/suehring/tml/.
HE Shuqian1,2,DENG Zhengjie2,SHI Chun2
1.School of Information Science and Technology,Sun Yat-Sen University,Guangzhou 510275,China 2.School of Information Science and Technology,Hainan Normal University,Haikou 571158,China
This paper presents a new frame-level rate control scheme for H.264/AVC with joint rate and distortion models.A rate model for the header information is developed to estimate header bits more accurately.The number of header bits is modeled as a function of the number of blocks and the average bits of MVs.A new Rate-Distortion(R-D)model for header information and texture is proposed to joint header-texture rate model and a distortion model.An accurate estimation method is proposed to improve rate distortion performance.When compared with the rate control scheme G012 which is adopted by the latest JVT H.264/AVC reference model JM10.2,the proposed rate control algorithm could improve the matching rate between actual bits and targets ones by up to 98.06%.The average luminance PSNR of decoded video is increased by up to 0.27 dB.
rate distortion;rate control;header information;target rate
在H.264/AVC視頻編碼框架下,基于聯(lián)合率失真模型,提出了一種新的幀級碼率控制方法。利用分塊數(shù)量和平均運動矢量信息,發(fā)展了一種精確的頭信息估計模型;聯(lián)合頭信息與殘差信息模型,并結(jié)合殘差失真模型,提出新的聯(lián)合頭信息與殘差率失真模型;利用精確的估計方法進一步提高率失真性能。相對于最新的JVT H.264/AVC參考軟件JM10.2中采用的JVT-G012方法,該方法提高了實際碼率與目標(biāo)碼率之間的匹配率達到了98.06%,重構(gòu)視頻的平均亮度PSNR值增加了0.27 dB。
率失真;碼率控制;頭信息;目標(biāo)碼率
A
TN919.8
10.3778/j.issn.1002-8331.1304-0219
HE Shuqian,DENG Zhengjie,SHI Chun.Joint rate distortion models rate control method for frame level.Computer Engineering and Applications,2013,49(23):19-23.
海南省自然科學(xué)基金項目(No.611128,No.612122,No.613164,No.613163)。
何書前(1978—),男,博士研究生,副教授,研究領(lǐng)域為視頻編碼、壓縮感知;鄧正杰(1980—),男,博士,副教授,研究領(lǐng)域為圖像處理;石春(1976—),男,博士,副教授,研究領(lǐng)域為無線通信。E-mail:heshuqian05@126.com
2013-04-15
2013-05-24
1002-8331(2013)23-0019-05
CNKI出版日期:2013-06-26 http://www.cnki.net/kcms/detail/11.2127.TP.20130626.1539.004.html