杜鮮艷,韓曉軍
(天津工業(yè)大學信息與通信工程學院,天津 300160)
H.264中運動估計算法優(yōu)化及其在DM642上的實現(xiàn)
杜鮮艷,韓曉軍
(天津工業(yè)大學信息與通信工程學院,天津 300160)
針對H.264標準的多模式運動估計和運動補償算法編碼模式復雜、計算量大的不足,通過對H.264參考模型JM中運動估計算法的分析,對算法進行了優(yōu)化,利用DM642嵌入式系統(tǒng)的硬件特點,在存儲器系統(tǒng)上實現(xiàn)其優(yōu)化.實驗結(jié)果表明:與參考模型JM的運行估計算法相比,提出的優(yōu)化方法有效地降低了整個編碼器的運行時間,在恢復質(zhì)量(用峰值信噪比表征)平均下降0.05 dB、碼速率增加不超過1.4%的前提下,編碼速率提高35%~45%,表明了該算法在編碼速度方面有明顯的提高.
H.264;塊匹配;DM642;運動估計優(yōu)化
由ITU-T視頻專家組(VCEG)和ISO/IEC運動圖像專家組(MPEG)聯(lián)合制定的H.264/AVC[1]視頻編解碼標準,著重于解決壓縮的高效率和傳輸?shù)母呖煽啃?它采用多參考幀、雙向預測、1/4像素精度的運動補償、多種塊模式搜索和率失真優(yōu)化技術,使得編碼質(zhì)量和壓縮比與原有的視頻編碼標準相比都有了明顯的提高.在H.264中,多參考幀、小數(shù)像素估計及多模式運動矢量的使用,使編碼的圖像質(zhì)量大大提高,但代價是高精度、大耗時的運動估計.對H.264編碼器各個算法模塊進行分析可以看出,運動估計模塊的計算量占整個編碼器運算量80%以上.要想提高編碼速度,提高運動估計部分的速度是關鍵.對于運動估計模塊的快速算法,國內(nèi)外已有許多研究成果[2-3].如Chanbari M[2]提出的小交叉模板SCSA(small cross search algorithm)、ZHU和MA[3]提出的菱形搜索法(DS,diamond search)經(jīng)過多次改進,已經(jīng)成為目前模板快速算法中性能較為優(yōu)異的算法之一.本文提出了基于圖像分析預測和閾值控制的運動估計算法,并結(jié)合硬件平臺DM642的存儲器優(yōu)化,在不降低圖像質(zhì)量和增加碼率的基礎上,提高了搜索速度,以適應視頻圖像在網(wǎng)絡傳輸中的應用.
從圖像序列中提取出有關物體運動的信息的過程稱為運動估計,其表達方式是運動矢量;其中前一幀相應的運動目標物體根據(jù)運動矢量補償?shù)倪^程稱為運動補償.
圖1所示為運動估計和補償?shù)脑韴D.
圖1 運動估計和運動補償原理圖Fig.1 Motion estimation and motion compensation schematic
圖1中的運動估計模塊是根據(jù)一定的匹配原則,從一個或多個參考幀中,尋找與當前幀最大匹配的幀.運動補償則是通過當前幀與參考幀作差而得到的殘差,對殘差經(jīng)過編碼和變換并攜帶一些解碼器所需要的信息輸出到解碼器.殘差經(jīng)過解碼,與參考幀相加后又重構(gòu)原圖像.重構(gòu)的幀被存儲下來作為后面預測所需要的參考幀.目前,幾乎所有的運動補償算法都是利用塊匹配算法,使當前塊與匹配塊的SAD(sum of absolute difference)[4]最小.
式中:(i,j)為位移矢量;fk和fk-1分別為當前幀和參考幀的像素值;M×N為塊的大小.
在運動估計過程中,根據(jù)一定的匹配準則來得到當前編碼塊的最佳匹配塊.常用的誤差匹配準則函數(shù)有平均絕對差(MAD)、均方誤差(MSE)、歸一化互相關函數(shù)(NCCF)和絕對誤差和函數(shù)(SAD).塊匹配準則就是把圖像劃分為許多子塊,認為子塊內(nèi)所有像素的位移量是相同的.對于某一時間t,圖像幀k中的某一子塊如果在另一時間t-t1的幀k-1中可以找到若干與其相似的子塊,則稱其中最為相似的子塊為塊匹配,并認為該塊匹配是幀中相對應子塊位移的結(jié)果,位移矢量中兩幀中相應子塊的坐標決定,其算法原理如圖2所示.
為提高編碼的準確度和減少計算量,H.264標準采用塊匹配大小可變的運動補償方法來達到這個目的.該方法在移動一致的區(qū)域使用大尺度的匹配塊,在運動邊緣區(qū)域使用小尺度的匹配塊,其特有的靈活性使得編碼效率明顯改善.
圖2 塊匹配算法原理Fig.2 Block-matching algorithms
3.1 DM642 EVM存儲器系統(tǒng)
DM642三層次的存儲器系統(tǒng)圖如圖3所示.
圖3 三級存儲器系統(tǒng)Fig.3 Tertiary storage system
DM642 EVM的存儲系統(tǒng)[5]由片內(nèi)存儲和片外存儲兩部分組成.其中,片內(nèi)內(nèi)存采用2級緩存結(jié)構(gòu):第1級包括相互獨立的L1P(16 kbit)和L1D(16 kbit),只能作為高速緩存使用;第2級L2(256 kbit)是一個統(tǒng)一的程序/數(shù)據(jù)空間,可以整體作為SRAM映射到存儲空間,也可以將Cache和SRAM混合使用.第3級是片外外存,一般由SDRAM構(gòu)成.L1、L2和片外SDRAM構(gòu)成了整個存儲系統(tǒng)的層次結(jié)構(gòu).DM642還提供了64個獨立通道的EDMA(enhanced direct memory access)控制器負責片內(nèi)L2存儲器與片外外存及其他外設之間的數(shù)據(jù)傳輸.
3.2 編碼器在DM642上的優(yōu)化
3.2.1 算法級優(yōu)化
根據(jù)運動估計算法,提出了基于圖像分析預測和閾值控制的運動估計算法.其主要流程是通過對圖像的塊匹配分析,利用周邊相鄰塊對當前塊的運動矢量進行預測,并設定自適應閾值.當匹配達到或超過閾值時,停止搜索.這樣會大大節(jié)約搜索時間,減少搜索計算量.與以往的搜索方法相比較,該方法在搜索窗32時,平均每塊搜索點數(shù)為3~4,比全搜索算法的速度提高了1 000多倍.與新三步法和菱形搜索法等一些經(jīng)典的搜索方法相比較,其優(yōu)勢也是很明顯的.通過對3組視頻序列的分析處理,新算法在保持視頻質(zhì)量的前提下,明顯地提高了編碼速度,PSNR損失小于0.05 dB,碼率增大1.4%.這對于運動估計算法基本可以忽略不計.
3.2.2 存儲器級優(yōu)化的實現(xiàn)
在存儲器級優(yōu)化中,通過直接調(diào)用DAT相關函數(shù)DAT_open、DAT_copyd等和使用較底層的EDMA相關函數(shù),直接對EDMA的相關模塊進行配置和操作,可優(yōu)化存儲器,提高編碼速度.對于H.264編碼器,待處理數(shù)據(jù)包括當前圖像和若干參考圖像.把這些數(shù)據(jù)都放入片內(nèi)RAM處理很難達到處理的實時性,本文算法中將這些數(shù)據(jù)都放在片外,編碼時把部分數(shù)據(jù)用EDMA搬到片內(nèi),具體方法如下:
(l)在片內(nèi) RAM開設 4個緩沖區(qū):src_bufA、src_bufB、ref_bufA、ref_bufl3,用于存放編碼宏塊和參考窗數(shù)據(jù)(參考幀中搜索區(qū)域內(nèi)的數(shù)據(jù)).
(2)在編碼第1個宏塊之前把編碼宏塊和參考窗數(shù)據(jù)分別用QDMA從片外RAM搬到緩沖區(qū)src_bufA和ref_bufA中.
(3)編碼src_bufA中的數(shù)據(jù)時,啟動QDMA,把下一宏塊數(shù)據(jù)和參考窗數(shù)據(jù)從片外RAM分別搬到緩沖區(qū)src_bufB和ref_bufB中.
(4)編碼src_bufB中的數(shù)據(jù)時,啟動QDMA,把下一宏塊數(shù)據(jù)和參考窗數(shù)據(jù)從片外RAM分別搬到緩沖區(qū)src_bufA和ref_bufA中.
(5)如此循環(huán)直到一幀圖像編碼結(jié)束.
本文使用PC上的仿真環(huán)境CCS3.3對編碼器的性能進行測試.選擇C64xx tds510usb Emulator仿真器,對3個典型的標準視頻序列“Foreman”(運動劇烈)、“Carphone”(中等運動)、“Claire”(運動較?。┻M行實驗研究,每個序列為100幀、QCIF格式,Y∶U∶V比為4∶2∶0模式.對H.264參考模型JM進行修改并與JM進行比較,給出相應的實驗結(jié)果,如表1、圖4~圖6所示.
表1 編碼器優(yōu)化前后結(jié)果比較Tab.1 Encoder results between before and after optimization
圖4 Foreman序列Fig.4 Foreman sequence
圖5 Carphone序列Fig.5 Carphone sequence
圖6 Claire序列Fig.6 Claire sequence
根據(jù)實驗結(jié)果可以看出,經(jīng)過一系列優(yōu)化以后,函數(shù)運行的時鐘周期數(shù)大大減小,運動搜索時使用的SAD函數(shù)甚至僅僅為優(yōu)化前的3%左右,內(nèi)插函數(shù)和運動補償函數(shù)也為優(yōu)化前的20%~40%.主函數(shù)的性能明顯提高,僅占優(yōu)化前時鐘周期數(shù)的35%.優(yōu)化算法可以在PSNR降低小于0.05 dB、比特率增加不超過1.4%的前提下,整體編碼速率提高35%~45%,對于運動較小的序列,該方法的效果尤其顯著.
本文針對H.264編碼中運動估計和運動補償?shù)膹碗s計算,通過對算法和存儲器的優(yōu)化提高了編碼速率,并將該優(yōu)化方法應用到視頻的編碼中,實驗結(jié)果表明與現(xiàn)有的優(yōu)化方法比較,本文的方法在保持圖像質(zhì)量的前提下,有效地降低了算法的運算復雜度,大大提高了H.264編碼的速率.
[1] Joint Video Team of 1TU-Tand150/IECJTCI,Draft ITU-T Recommendation and Final Draft International Standard of Joint Video Specification[S/OL].[2004-03-20].http://www.itu. int/home/index.html.
[2] GHANBARI M.The cross-search algorithm for motion estimation[J].IEEE Trans Communication,1990,38(7):950-953.
[3] ZHU Shan,MA Kai-Kuang.A new diamond search algorithm for fast block matching motion estimation[J].IEEE Trans on Image Processing,2000,9(2):287-290.
[4]WIEGAND Thomas,SULLIVAN Gary J,JON Tegaard Gisle B.Overview of the H.264/AVC video coding standard [J].IEEE Trans on Circuits and Systems for Video Tech,2003,13(7):560-576.
[5]李方慧,王 飛.TMS320C6000系列DSPs原理與應用[M].北京:電子工業(yè)出版社,2005.
Optimization of H.264 motion estimation based on DM642
DUXian-yan,HANXiao-jun
(School of Information and Communication Engineering,Tianjin Polytechnic University,Tianjin 300160,China)
The multi-mode motion estimation algorithm and motion compensation algorithm of H.264 standard have the problems of complicated coding mode and large quantity of calulation.Combining DM642 embedded system hardware characteristics,through analyzing motion estimation algorithm from H.264′s reference model JM,the algorithm and memorg system are optimized.The experiment results show that comparing with reference model JM,the algorithm optimizes the H.264 encoder and decreases the encoding time efficiently.Moreover,on the premise that peak-value of signal to noise ratio(PSNR)just drop 0.05 dB and code speed just increase 1.4%,encoding rate increases 35%-45%.It means that this algorithm increases coding speed with little quality fall of the reconstructed image.
H.264;block-matching;DM642;motion estimation optimization
book=1,ebook=2
TP391
A
1671-024X(2010)01-0085-04
2009-08-31
杜鮮艷(1984—),女,碩士研究生.
韓曉軍(1958—),女,副教授,碩士生導師.E-mail:hanxiaojun@tjpu.edu.cn