吳煒煒,岑 峰
(同濟(jì)大學(xué) 電子與信息工程學(xué)院,上海 201804)
信息化時(shí)代的到來(lái),伴隨著現(xiàn)代電子技術(shù)的高速發(fā)展,人們?cè)谌粘I詈凸ぷ髦袑?duì)于視頻/圖像的實(shí)時(shí)圖像處理能力提出了更高的需求,這就使得如何能夠去除有限空間內(nèi)信息之間的重復(fù),從而提升資源的利用率變得尤為重要。圖像和視頻是多媒體系統(tǒng)的重要組成部分,隨著高清電視在日常生活中的日益普及,使得如何利用當(dāng)前有限的存儲(chǔ)空間和網(wǎng)絡(luò)帶寬來(lái)承載下一代高清視頻變得極其重要,這也就要求有新一代具有更高壓縮效率的視頻編解碼標(biāo)準(zhǔn)出現(xiàn)。離散余弦變換(DCT)模塊是其中重要的組成部分。
DCT是數(shù)字圖像處理和壓縮編碼領(lǐng)域最常用的變換之一,是當(dāng)前最流行的靜態(tài)圖像壓縮標(biāo)準(zhǔn)JPEG、動(dòng)態(tài)圖像壓縮標(biāo)準(zhǔn)MPEG、H.264以及HEVC(制定中)標(biāo)準(zhǔn)的核心部分。DCT因其具有對(duì)變換信號(hào)的緊縮有效性、獨(dú)立于信號(hào)本身的變換基以及變換后的系數(shù)游程編碼獨(dú)具優(yōu)勢(shì),通過DCT變換可以有效去除幀內(nèi)和幀間的冗余信息。在一幅圖像中,像素之間的灰度或色差信號(hào)變換緩慢,導(dǎo)致在子塊中像素之間的相關(guān)性很強(qiáng)。DCT是一種正交變換,實(shí)現(xiàn)從時(shí)域到頻域的轉(zhuǎn)換,從而去除掉時(shí)域中數(shù)據(jù)之間的相關(guān)性,使變換后系數(shù)的能量相對(duì)集中,有利于量化后對(duì)變換系數(shù)采用游程編碼和Huffman編碼,從而實(shí)現(xiàn)圖像的壓縮處理。伴隨著DCT變換應(yīng)用的普及,為進(jìn)一步減少圖像失真的同時(shí)提高變換速度,整型DCT變換應(yīng)運(yùn)而生。整型DCT變換通過計(jì)算DCT浮點(diǎn)變換的整數(shù)可逆矩陣分解,從而得到可以整數(shù)實(shí)現(xiàn)的可逆矩陣變換,再利用得到的分解矩陣依次對(duì)圖像樣本宏塊進(jìn)行變換,最后將變換得到的系數(shù)用多種高效的編碼方法進(jìn)行編碼。
本文通過研究8×8矩陣 DCT變換的實(shí)現(xiàn),對(duì) 4×4整數(shù)DCT算法進(jìn)行對(duì)比研究,對(duì)設(shè)計(jì)進(jìn)行參數(shù)化RTL級(jí)描述并驗(yàn)證,為實(shí)現(xiàn)下一代視頻編解碼標(biāo)準(zhǔn)(HEVC)的DCT模塊不同大小宏塊(16×16和 32×32)的通用性做好前期準(zhǔn)備。
二維N點(diǎn)離散余弦變換的基本公式為:
在硬件實(shí)現(xiàn)過程中,通常將二維DCT變換通過兩次一維DCT變換來(lái)實(shí)現(xiàn),一維N點(diǎn)離散余弦變換的基本公式為:
目前有關(guān)DCT算法的硬件實(shí)現(xiàn)主要是基于分布式[1]算法(DA)和蝶形算法的硬件實(shí)現(xiàn)。DA算法的原理是將固定的比例系數(shù)和數(shù)結(jié)合到查找表中,利用多重查找表執(zhí)行計(jì)算,在硬件實(shí)現(xiàn)上采用流水線設(shè)計(jì)技術(shù),將二維DCT的實(shí)現(xiàn)轉(zhuǎn)化為兩個(gè)一維DCT實(shí)現(xiàn),采用查表、移位和加法邏輯來(lái)實(shí)現(xiàn)乘法運(yùn)算,很大程度上提高了運(yùn)算速度。本文正是利用了DCT中預(yù)先系數(shù)固定的特點(diǎn)[2],將相應(yīng)的輸入數(shù)據(jù)的乘法計(jì)算好并存于ROM中,利用ROM和累加器代替乘法器。乘法器的引入將導(dǎo)致面積的增加,不利于布局布線,且乘法所用時(shí)間大約是為進(jìn)行乘法而準(zhǔn)備所用時(shí)間的兩倍[3]。因此,利用ROM和累加器代替乘法器的設(shè)計(jì)使其結(jié)構(gòu)緊湊、規(guī)則、精度高且易于布局和布線。
對(duì)于二維8×8浮點(diǎn)型 DCT變換[4],輸入的變換矩陣為F,則變換后的矩陣W=NfFNfT,其中N為系數(shù)矩陣:
對(duì)于二維4×4矩陣DCT變換,輸入的變換矩陣為X,則變換后的矩陣Y=M×MT,其中M為系數(shù)矩陣:
圖1和圖 2分別為 4×4矩陣 DCT和 8×8矩陣 DCT的蝶形算法結(jié)構(gòu)圖。
由圖1和圖2可知,使輸入的數(shù)據(jù)不經(jīng)過 8×8算法的第1級(jí)和加法的運(yùn)算而直接進(jìn)入第2級(jí)結(jié)構(gòu)進(jìn)行移位運(yùn)算,可以通過多次調(diào)用更小級(jí)別模塊的方式來(lái)實(shí)現(xiàn)模塊之間的復(fù)用。而分別將不同模塊的離散余弦變換系數(shù)存放于不同的ROM中,適用于擁有大量ROM結(jié)構(gòu)的FPGA中,這對(duì)于在制定中的新一代視頻編解碼標(biāo)準(zhǔn)HEVC中不同大小輸入矩陣的通用性有很強(qiáng)的實(shí)用價(jià)值,可以通過多次調(diào)用更小級(jí)別模塊的方式減小硬件模塊的面積并增強(qiáng)了復(fù)用性和通用性。
本文采用層次化、模塊化的思想,將設(shè)計(jì)劃分為多個(gè)功能模塊,并對(duì)硬件設(shè)計(jì)采用了流水線技術(shù),采用Verilog HDL硬件描述語(yǔ)言,并采用Cadence公司的NCLaunch和Xilinx ISE對(duì)設(shè)計(jì)進(jìn)行仿真驗(yàn)證和綜合。
當(dāng)輸入相同數(shù)據(jù)時(shí),通過設(shè)計(jì)的8×8矩陣 DCT變換和調(diào)用4×4矩陣[6]得到的仿真結(jié)果如圖 3和圖4所示。對(duì)比圖3和圖4可知,通過多次調(diào)用矩陣DCT模塊可以實(shí)現(xiàn)矩陣的DCT變換,且結(jié)果相同。
傳統(tǒng)實(shí)現(xiàn)與模塊調(diào)用方式所耗資源對(duì)比如圖5所示。
針對(duì)以上提出的設(shè)計(jì),用Xilinx公司的ISE 10.1在VirtexⅤ系列FPGA上進(jìn)行綜合、布局布線后可以看出,在實(shí)現(xiàn)通用性的同時(shí)能夠有效地減少芯片的面積和占用的資源,并在芯片的運(yùn)行速度上有所提升。
本文采用的層次化、模塊化、將設(shè)計(jì)劃分為多個(gè)功能模塊的思想,便于在硬件實(shí)現(xiàn)上通過模塊的調(diào)用達(dá)到減小面積的作用。鑒于DCT在圖像壓縮中的廣泛應(yīng)用,將DCT的硬件實(shí)現(xiàn)應(yīng)用于新標(biāo)準(zhǔn)的不同大小輸入矩陣數(shù)據(jù)具有廣泛的應(yīng)用前景。由于DCT算法計(jì)算量宏大,怎樣在硬件實(shí)現(xiàn)過程中減少乘法器[7]的數(shù)目(理論上的最小值是11個(gè)乘法器),對(duì)于減少硬件面積成本和降低復(fù)雜程度也有很大的研究?jī)r(jià)值,隨之帶來(lái)的芯片面積減少、低電壓、低復(fù)雜度和低延時(shí)等優(yōu)點(diǎn)都具有較強(qiáng)的實(shí)際研究?jī)r(jià)值。
[1]EL-BANNA H,EL-FATTAH A,F(xiàn)AKHR W.An efficient implementation of the 1D DCT using FPGA technology[C].Engineering of Computer Bosed Sustems: Proceedings of 11th IEEE International Conference and Workshop, 2004:356-360.
[2]李躍新,張吉烈.二維DCT并行流水線算法及FPGA的實(shí)現(xiàn)[J].貴州大學(xué)學(xué)報(bào)(自然科學(xué)版),2009(4):82-83.
[3]郭寶增,牛力,劉志明.基于 Loeffler算法的 2-D DCT IP軟核設(shè)計(jì)[J].微電子學(xué)與計(jì)算機(jī),2011(2):136-139.
[4]JiangChan, YuNingmei, GuMeihua.A novelVLSI architectureof 8×8 integerDCT based on H.264/AVC FRext[C].Proceedings of 2010 Third International Symposium on Knowledge Acquisition and Modeling,2010.
[5]郁光珍,鄭博,李松亭,等.H.264/AVC整數(shù) DCT變換與量化的 FPGA 實(shí)現(xiàn)[J].電視技術(shù),2011(9):20-22.
[6]陳寶遠(yuǎn),吳孟澤,張清喜,等.H.264標(biāo)準(zhǔn)中整數(shù) DCT圖像壓縮算法的優(yōu)化及實(shí)現(xiàn) [J].哈爾濱理工大學(xué)學(xué)報(bào),2009(5):27-30.
[7]THOUDAM V P S, BHAUMIK B, CHATTERJEE S.Ultra low power implementation of 2-D DCT for image/video compression[C].2010 International Conference on Computer Applications and Industrial Electronics (ICCAIE), 2010:532-536.