陳榮榮
(肇慶學(xué)院 電子信息與機電工程學(xué)院,廣東 肇慶 526061)
在MPEG-1、MPEG-2、H.263等視頻編碼方法中,普遍采用離散余弦變換(Discrete cosine transform,DCT)編碼[1];而最新的國際視頻編碼標準H.264,又被稱為MPEG4-AVC,則采用了整數(shù)變換(Integer transform,IT)編碼[2].由于MPEG-4具有壓縮率高,但畫面和聲音質(zhì)量卻沒有太大損失的優(yōu)點,它在現(xiàn)在的視頻編碼領(lǐng)域占有重要地位;因此,研究如何把MPEG-1、MPEG-2、H.263等格式的視頻轉(zhuǎn)換為MPEG-4格式的視頻具有重要意義.格式轉(zhuǎn)換的核心步驟是從離散余弦變換參數(shù)到整數(shù)變換參數(shù)的轉(zhuǎn)化,簡稱為DCT-to-IT變換(DCT-to-IT conversion,DIC).文獻[3]2-3對此過程作了介紹,但缺乏對此算法的具體推導(dǎo).本文中,筆者從離散余弦變換和整數(shù)變換的理論基礎(chǔ)出發(fā),詳細推導(dǎo)了DCT-to-IT變換的過程,對文獻[3]2-3中提出的方法作進一步說明和修正,提高了執(zhí)行效率,并提供了仿真結(jié)果作為參考依據(jù).
編碼過程中,DCT的變換與逆變換公式分別如式(1)和(2)所示:
其中:u=0時,Cu=1/;u>0時,Cu=1;v=0時,Cv=1/;v>0時,Cv=1.
如果將離散余弦變換的量化矩陣表示為Q(u,v),則量化與反量化的過程分別以如下式(3)和(4)表示:
其中round[.]表示取與該分數(shù)值最接近的整數(shù).亮度和色度量化矩陣的值QL和QC可在文獻[4]中查得.
量化因子qJPEG用于限制量化矩陣Q(u,v)的值,范圍在1%~100%.在式(3)和(4)中,量化矩陣的各元素都和壓縮因子α相乘,α的定義如下:
MPEG-1、MPEG-2、H.263等采用的是8×8 DCT模塊;而H.264采用的則是4×4 IT模塊[5],它的公式表示為
其中:
整數(shù)變換的逆變換(IIT)的定義如下:
其中
整數(shù)變換中量化與反量化的過程分別由(8)和(9)實現(xiàn),Yij為矩陣Y在i,j處的值.
H.264使用了分級量化器,支持52個量化步長,用量化參數(shù)來索引量化步長,量化步長用Qstep表示,量化參數(shù)用QP表示.QP每增加1,Qstep就增加12.25%;QP每增加6,Qstep就增加1倍.其中QP=0時,Qstep=0.625;QP=51時,Qstep=224.
圖1示意了像數(shù)域的離散余弦變換到整數(shù)變換的轉(zhuǎn)換過程,輸入8×8的離散余弦變換參數(shù)模塊(X),并以經(jīng)過逆離散余弦變換后新的8×8模塊(x)覆蓋原來的模塊.新的8×8模塊被均勻地分為4個4×4模塊(x1,x2,x3,x4),每個4×4模塊都經(jīng)過相應(yīng)的整數(shù)變換成為新的4×4參數(shù)模塊,并重新組合為新的8×8模塊,這個過程會在視頻的所有模塊中重復(fù).
圖1 像數(shù)域的離散余弦變換到整數(shù)變換的轉(zhuǎn)換過程
由于不需要進行完整的解碼和再編碼,在變換域中完成DCT到IT的轉(zhuǎn)換比在像數(shù)域中完成該轉(zhuǎn)換更有效[6]498-500,因此,我們需要尋找一種在變換域中完成DCT到IT的轉(zhuǎn)換方法.圖2示意了一種假設(shè)在變換域中完成的DCT到IT的轉(zhuǎn)換過程,將這個變換簡稱為DIC(DCT-to-IT conversion).它可以把一個輸入為MPEG-2格式視頻的DCT參數(shù)(X)轉(zhuǎn)換為輸出為AVC格式視頻的IT參數(shù)(Y).假設(shè)DIC的過程由一個8×8的核心矩陣S表示[3]2:
圖2 DCT到IT的轉(zhuǎn)換過程
S矩陣的推導(dǎo)過程如下:
x被均勻劃分為4個小矩陣x1,x2,x3,x4,由式(6)可知其整數(shù)變換過程可以分別表示為
其中,x是X的IDCT.令T8為DCT的核心變換矩陣,那么有x=T8TXT8.
由上面的分析可以推導(dǎo)出
在文獻[3]2-3中,DIC的轉(zhuǎn)換過程僅由式(10)表示.由以上推導(dǎo)過程可發(fā)現(xiàn)文獻[3]2-3沒有把縮放因子Ef考慮在內(nèi),對結(jié)果可能造成一定誤差,因此,筆者推導(dǎo)的DIC過程由式(14)定義.
如果保留文獻[3]2-3中對DIC過程的推導(dǎo),則要考慮在量化過程中合并縮放因子PF(a2,ab/2,b2/4).輸入矩陣X可以變換為未縮放的系數(shù)矩陣W=,每個系數(shù)Yij的量化和縮放在一步操作中完成,公式為
其中:Yij,Zij的含義與式(8)相同;PF的值由i,j決定,為Ef位于i,j處的元素值.
反變換時的縮放因子Ei也可以合并到這個操作中,并乘以一個縮放因子常量64以避免過程中的舍入誤差,則反量化和縮放的過程如下:
其中:Wij表示恢復(fù)后的系數(shù),用來作為下一步進行反變換的輸入,公式為X=WCi.反變換后的輸出值要除以64,以消除恢復(fù)過程中引入的因子常量64.正向變換和反向變換時PF的值如表1所示.
表1 正向變換和反向變換時的PF值
圖3示意了對算法的仿真過程.每幀圖像都被劃分為許多8×8的模塊(x),經(jīng)過DCT、量化(Q1)及反量化(IQ1)后,重構(gòu)的參數(shù)(X)被送進2個處理系統(tǒng).這2個系統(tǒng)都是將X映射到整數(shù)變換域,其中第1個系統(tǒng)經(jīng)過DIC和IT的量化(Q2)、反量化(IQ2)及IIT后,重構(gòu)出原圖像(xS1),其中量化過程Q2分別按式(8)和(15)執(zhí)行,DIC過程分別標記為DIC1和DIC2,以比較本文推導(dǎo)的DIC方法與文獻[3]2-3推導(dǎo)方法的結(jié)果,重構(gòu)圖像分別記為xS1和xS2;第2個系統(tǒng)經(jīng)過IDCT、IT、量化(Q2)、反量化(IQ2)及IIT完成原圖像的重構(gòu)(xR).另外,還仿真了DCT和IT的過程,由這2個系統(tǒng)重構(gòu)出的像數(shù)模塊分別記為xD和xI.按文中出現(xiàn)的說明順序,這4個系統(tǒng)分別標記為ST(ST1,ST2)、DCTIT、DCT和IT,除ST2外,其余系統(tǒng)的IT量化過程均按式(8)執(zhí)行.比較上述4個系統(tǒng)重構(gòu)的圖像,用以判斷DIC轉(zhuǎn)換方法得到圖像質(zhì)量的優(yōu)劣.
峰值信噪比δ經(jīng)常用作圖像壓縮等領(lǐng)域中信號重建質(zhì)量的測量方法,它常簡單地通過均方差S定義.2個m×n單色圖像I和K,如果一個為另外一個的噪聲近似,那么其均方差定義為
峰值信噪比定義為
其中,Imax是表示圖像點顏色的最大數(shù)值.如果每個采樣點用8位表示,那么就是255.
每點有R,G,B 3個值的彩色圖像,其峰值信噪比的定義類似,只是均方差是所有方差之和除以圖像尺寸再除以3,如式(19)所示.
其中:IR,IG,IB,KR,KG和KB分別表示原始圖像和解壓縮后圖像的R,G,B這3層的值.δ愈高愈好,即S越小越好.
圖3 算法的仿真過程
根據(jù)上面的分析可知,在DCT中,取α=99可得到最大的峰值信噪比δ;在IT中,取Qstep=0.625可得到最大的δ因此在仿真過程中取這2個值作為量化的參數(shù).應(yīng)用Matlab軟件仿真了離散余弦變換(DCT整數(shù)變換(IT)、在像數(shù)域(DCTIT)和轉(zhuǎn)換域(DIC)進行的離散余弦變換參數(shù)到整數(shù)變換參數(shù)的轉(zhuǎn)換過程,并分別選取了以人物、風(fēng)景、汽車、建筑、動物為主要背景,在白天、黑夜等不同時間拍攝的JPG格式圖片,比較具有代表性.比較圖片經(jīng)過上述4個系統(tǒng)之后的δ值,特別對經(jīng)過系統(tǒng)1和系統(tǒng)2之后的δ值進行比較.同時,在相同的運行環(huán)境下,對同一圖片的DIC1和DIC2過程分別運行10次,計算這10次的平均執(zhí)行時間,以評估這2種算法的效率.比較結(jié)果如表2所示.
表2 不同編碼方式的δ值結(jié)果比較
由以上10組圖片的比較結(jié)果可以看出,δIT>δDCT>δDIC>δdctit.由δDIC和δdctit的比較結(jié)果可見,在轉(zhuǎn)換域進行的參數(shù)變換DIC優(yōu)于在像數(shù)域進行的參數(shù)變換,與文獻[6]498-500提出的結(jié)論相符合.在相同的運行環(huán)境下,運用式(8)和(15)這2種量化方法推導(dǎo)的DIC過程所得的峰值信噪比相等.由DIC1和DIC2的程序執(zhí)行時間比較可見,tDIC2>tDIC1.這是由于在按式(15)進行量化的DIC2中,程序每循環(huán)1次都需要根據(jù)該像數(shù)點的位置(i,j)判斷PF的值,而這個判斷過程本身也是1次循環(huán),多重循環(huán)的嵌套使程序的執(zhí)行效率較低,耗時較長.10組圖片的DIC1執(zhí)行時間皆比DIC2執(zhí)行時間短,且時間縮短較為明顯,由此可總結(jié)出筆者推導(dǎo)的DIC公式(14)比文獻[3]2-3中推導(dǎo)的公式(10)具有更高的效率.
本文中,筆者討論了一種在變換域中完整地將DCT參數(shù)轉(zhuǎn)換為IT參數(shù)的方法,并應(yīng)用Matlab程序仿真了離散余弦變換、整數(shù)變換、在像數(shù)域和轉(zhuǎn)換域進行的離散余弦變換參數(shù)到整數(shù)變換參數(shù)的轉(zhuǎn)換方法,即從MPEG-2到H.264/MPEG4-AVC的參數(shù)轉(zhuǎn)換方法.在對轉(zhuǎn)換方法進行推導(dǎo)的同時,對原有方法加以完善補充,提高了程序的效率,節(jié)省了執(zhí)行時間.最后選取了10組內(nèi)容、背景、尺寸不同的圖片,對采用不同方法編碼、解碼后的圖像質(zhì)量進行了比較,驗證了在轉(zhuǎn)換域進行MPEG-2到AVC/MPEG-4參數(shù)轉(zhuǎn)換的可行性,為簡化和改進視頻壓縮方法提供了依據(jù).
[1] International Organization for Standardation,International Electrotechnical Commission.ISO/IEC 13818-2,Information technologygeneric coding of moving pictures and associated audio information:Video[S].2nd ed.2000.
[2] WEIGAND T,SULLIVAN G J,BJNTEGAARD G,et al.Overview of the H.264/AVC video coding standard[J].IEEE Trans Circuits Syst Video Technol.2003,13(7):560-576.
[3] XIN Jun,ANTHONY V,SUN Hufang.Converting DCT coefficients to H.264/AVC Transform Coefficients[C]//Mitsubishi Electric Research Laboratories.2004:6.
[4] GHANBARI M.Video Coding:A Introduction to Standard Codecs[M]//IEEE Telecommunications Series 42.1999:52-54.
[5] 畢厚杰.新一代視頻壓縮編碼標準——H.264/AVC[M].2版.北京:人民郵電出版社,2005:111-117.
[6] KEESMAN G,HELLINGHUIZEN R,HOEKSEMA F,et al.Transcoding of MPEG bitstreams[J].Signal Processing:Image Communication,1996(8):481-500.