摘要:如何將人眼視覺特性結(jié)合到壓縮編碼技術(shù)中,以去除圖像中的視覺冗余,是當(dāng)前數(shù)字圖像壓縮領(lǐng)域中的熱點問題。根據(jù)人眼的視覺選擇特性以及JPEG2000感興趣區(qū)域編碼思想,并考慮到JPEG2000所采用的兩種感興趣區(qū)域編碼方法的局限性,提出了實用的基于人眼眼視覺特性的小波圖像壓縮模型。并通過試驗驗證了該模型的性能,試驗結(jié)果表面由該模型方法得到的重建圖像的感興趣區(qū)域質(zhì)量較好,并且感興趣區(qū)域的邊緣部分更加清晰。
關(guān)鍵詞: 人類視覺系統(tǒng);感興趣區(qū)域; 形狀編碼; 適形離散小波變換; SPECK算法
中圖分類號:TN919 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2013)16-3802-04
日常生活中,人類接收的信息以視覺信息為主,與其他信息相比,圖像所包含的信息量更大、更直觀、更確切。隨著通信技術(shù)和多媒體技術(shù)的迅速發(fā)展,數(shù)字圖像的存儲和傳輸?shù)玫搅藦V泛應(yīng)用。然而,由于數(shù)字圖像的數(shù)據(jù)含量和信息含量非常大,使得現(xiàn)有通信網(wǎng)容量無法滿足其傳輸和存儲的需求,極大地限制了數(shù)字圖像通信的發(fā)展。傳統(tǒng)的圖像壓縮方法是以香農(nóng)信息論為基礎(chǔ),考慮多媒體數(shù)據(jù)信源的統(tǒng)計特性來去除數(shù)據(jù)之間的數(shù)據(jù)冗余,這種方法未能考慮信息獲取者的主觀特性以及圖像的具體結(jié)構(gòu)和內(nèi)容,也沒有充分考慮到人類視覺系統(tǒng)的特性,使得壓縮比無法得到進(jìn)一步的提高。長期以來,研究者們通過對人眼視覺處理現(xiàn)象的觀察與研究,發(fā)現(xiàn)了人類視覺系統(tǒng)的一些特性,如果能在圖像編碼中充分利用這些特性以去除圖像中的視覺冗余,將能夠在不影響重建圖像質(zhì)量的前提下進(jìn)一步提高壓縮比。因此,如何將人眼視覺特性結(jié)合到圖像壓縮編碼技術(shù)中,成為當(dāng)前數(shù)字圖像壓縮領(lǐng)域中的熱點問題。
1 人眼視覺特性
人類視覺系統(tǒng)是一套復(fù)雜的生物學(xué)圖像處理系統(tǒng),而視覺也是人類最奇妙、最難以描述的功能之一。盡管到目前為止人們對它的了解還處于初級階段,但隨著神經(jīng)學(xué)和腦科學(xué)的研究進(jìn)展,還是在長期的探索中總結(jié)出了一些人眼的視覺特性。這些特性既揭示了人類視覺系統(tǒng)的復(fù)雜性,也為圖像編碼領(lǐng)域的相關(guān)研究工作提供了一些新的方法。
1)感受野等級特性:在初級視皮層中,神經(jīng)細(xì)胞的響應(yīng)只與該細(xì)胞視野范圍中很小區(qū)域的光強度模式有關(guān),在該區(qū)域中,光線的增強或者減弱都會引發(fā)神經(jīng)細(xì)胞響應(yīng)的顯著變化,這樣的區(qū)域被稱為神經(jīng)細(xì)胞的感受野。人類視覺通道上具有各層次的神經(jīng)細(xì)胞,既有簡單細(xì)胞也有復(fù)雜細(xì)胞,不同細(xì)胞所處理的信息分別對應(yīng)于視網(wǎng)膜上的不同局部區(qū)域,但是隨著層次的加深,其區(qū)域也就越大,此即為感受野等級假設(shè)。
2)反饋機(jī)制:人類視覺系統(tǒng)對視覺信息的處理,不僅有從視網(wǎng)膜到初級視皮層再到高級視皮層區(qū)域的前向處理通路,還存在著許多大腦高層區(qū)域到達(dá)初級視皮層區(qū)域的反饋處理通路。
3)注意選擇特性和特征選擇性:人類視覺系統(tǒng)的主要特征是分層次的多通道信息處理,視覺信息在視覺通路中的傳播以在時間域和空間域逐級整合的方式實現(xiàn),從而完成對視覺信息的概念化抽象。在視覺信息的處理過程中,大腦對外界信息的反應(yīng)并不都是一致的,而是表現(xiàn)出選擇特性。一是由于人類大腦的容積是有限的,無法處理感覺器官所提供的信息總量,更無法實現(xiàn)對全部信息的實時處理,因此,人類視覺系統(tǒng)所采取的方法是對部分信息有選擇地進(jìn)行處理;二是由于感覺器官所感受到的外部環(huán)境信息并不都是重要的,只需對部分特定信息做出響應(yīng)并進(jìn)行處理即可。
除了視覺注意選擇特性,視皮層神經(jīng)細(xì)胞對各種視覺刺激還具有高度的特征選擇性,例如方位/方向選擇特性、空間頻率選擇特性、速度選擇特性、雙眼視差選擇特性、顏色選擇特性等。
2 基于人眼視覺特性的小波圖像壓縮模型
針對人眼的視覺選擇特性,人們提出了基于感興趣區(qū)域(ROI)的編碼方案。對處理的圖像中用戶感興趣的區(qū)域進(jìn)行壓縮時采用低壓縮比,而對感興趣之外的背景區(qū)域采用高壓縮比。該文根據(jù)人眼的視覺選擇特性以及JPEG2000感興趣區(qū)域編碼思想,同時針對JPEG2000所采用的兩種感興趣區(qū)域編碼方法的局限性,提出了實用的基于人眼視覺特性的小波圖像壓縮模型,并對此模型的可行性進(jìn)行了深入的探索。
2.1壓縮模型概述
本文提出的壓縮模型具體過程如圖1所示。首先,對于任意形狀ROI的輪廓信息采用垂直邊緣差分鏈算法進(jìn)行編碼,將得到的輪廓信息碼流放入最后的壓縮碼流文件中;然后,由此輪廓信息編碼得到ROI掩模,對輸入圖像的ROI和背景區(qū)域分別進(jìn)行適形離散小波(SA-DWT)變換,對變換后的系數(shù)應(yīng)用JPEG2000定義的比例位移法,選定一個合適的位移尺度因子s,根據(jù)ROI掩模對感興趣區(qū)域進(jìn)行移位;最后采用所提出的基于感興趣區(qū)域的無鏈表SPECK算法進(jìn)行編碼,解碼過程與編碼過程相反。接下來對本模型各個部分所采用的技術(shù)做進(jìn)一步詳細(xì)的介紹。
2.2感興趣區(qū)域的輪廓編碼
針對JPEG2000的兩種ROI編碼方法的局限性,一些學(xué)者進(jìn)行了大量的研究,并提出了很多改進(jìn)方法,如逐比特面偏移算法、最重要比特面偏移算法等。但以上算法都避開了對任意形狀的ROI進(jìn)行形狀編碼,無法實現(xiàn)感興趣區(qū)域的輪廓信息編碼。Subedar等人對ROI形狀編碼進(jìn)行了深入的研究,提出了一種任意形狀輪廓信息編碼方法,此方法基于JPEG2000的比例位移法,采取簡單的差分鏈編碼對任意形狀的ROI進(jìn)行輪廓信息編碼,得到了較好的效果。田勇等人對上述方法進(jìn)行了改進(jìn),提出了一種更加簡單有效的任意形狀ROI的輪廓信息編碼算法:垂直邊緣差分鏈編碼(Vertical Edge Differential Chain Coding)。該算法支持多個任意形狀ROI的形狀編碼,能夠靈活調(diào)節(jié)ROI和背景區(qū)域的重構(gòu)圖像質(zhì)量,更具有算法簡單、碼流比特開銷非常小的優(yōu)點。該文的模型中也采用了田勇所提出的這種ROI輪廓信息編碼算法。
2.3 感興趣區(qū)域的紋理編碼
在感興趣區(qū)域內(nèi)像素的紋理編碼部分,用適形離散小波變換(SA-DWT)代替普通小波變換,將任意形狀ROI和背景區(qū)域分別進(jìn)行變換。SA-DWT的優(yōu)點就在于變換之后的ROI系數(shù)個數(shù)和原ROI的像素個數(shù)是相同的,避免了對感興趣區(qū)域以外的系數(shù)編碼,使得感興趣區(qū)域的邊緣圖像質(zhì)量有了較大的提高。
在進(jìn)行感興趣區(qū)域的紋理編碼時,需要先對其進(jìn)行SA-DWT變換,不同的小波濾波器處理任意長度圖像段小波變換的方法也不同,因此本文模型中采用的是奇對稱雙正交9/7小波濾波器。進(jìn)行SA-DWT變換時,對任意長度的圖像段進(jìn)行小波分解時,需要處理圖像邊緣以保持小波變換良好的重構(gòu)屬性,有限長圖像段之外的像素值必須用與此圖像段像素值相關(guān)的值進(jìn)行填充,即進(jìn)行邊界擴(kuò)展,該文所提出的模型中采用的是對稱擴(kuò)展。進(jìn)行SA-DWT變換后,所得到的小波系數(shù)需要進(jìn)行移位,以分離背景系數(shù)與ROI系數(shù),因此,還需要進(jìn)行ROI掩模的計算。圖2所示為Lena標(biāo)準(zhǔn)測試圖像的帶有ROI掩模的小波系數(shù)圖像。
2.4 SPECK算法的改進(jìn)與擴(kuò)展
嵌入式集合分裂塊算法(SPECK:Set Partitioning Embedded Block coder)是由A. said和Pearlman提出的,是一種高效的小波編碼算法。該算法具有完全嵌入式、漸進(jìn)式傳輸、計算復(fù)雜度低、低動態(tài)存儲需要、可快速編碼/譯碼、高性能等優(yōu)點,但是,通過分析算法的偽代碼,發(fā)現(xiàn)該算法存在一些缺點:
1)SPECK采用了列表結(jié)構(gòu),導(dǎo)致內(nèi)存開銷較大,需要進(jìn)行大量內(nèi)存管理操作。
2)算法所采用的集合分類策略過于復(fù)雜,降低了編碼效率;
3)重要系數(shù)的位置信息沒有和符號信息、排序信息同時輸出,影響了圖像重構(gòu)質(zhì)量。
針對SPECK法的優(yōu)點與缺點,提出了一種低內(nèi)存開銷的改進(jìn)算法:無鏈表SPECK算法(NL-SPECK),該算法通過取消原來算法中的鏈表結(jié)構(gòu)、將重要系數(shù)的位信息嵌入排序信息中等措施,大大減少了原來算法的內(nèi)存耗費,提高了算法的編碼速度,從而使得該算法更易于軟、硬件的實現(xiàn);同時,該算法使得重要系數(shù)的位信息伴隨著符號信息、排序信息同時輸出,從而使得比特分配更加合理,大大提高了編碼算法的壓縮性能。
從JPEG2000的比例位移法的位平面偏移情況來看,有的位平面只包含ROI系數(shù),有的位平面既包含ROI系數(shù)又包含背景系數(shù)。根據(jù)ROI編碼的位平面偏移特點,也為了將無鏈表SPECK算法應(yīng)用于感興趣區(qū)域編碼,對無鏈表SPECK算法進(jìn)行擴(kuò)展,提出基于感興趣區(qū)域的無鏈表SPECK算法。該算法的基本思想如下:
1) 如果位平面中只包含ROI系數(shù),則對那些位于ROI之外的點和集合不進(jìn)行編碼;
2) 如果位平面中既包含ROI系數(shù),也包含背景系數(shù),則按改進(jìn)的無鏈表SPECK算法進(jìn)行編碼。
此算法思想非常簡單有效,只需對無鏈表SPECK算法作很少變動即可。由于比特平面的偏移,產(chǎn)生了多余的位平面信息,應(yīng)用此算法可有效的去除多余信息,從而提高編碼效率。
2.5 試驗結(jié)果及分析
3 結(jié)論
基于人眼視覺特性的多媒體數(shù)據(jù)壓縮技術(shù)的研究,對信息社會的發(fā)展和信息技術(shù)的進(jìn)步具有很重要的意義,是多媒體技術(shù)進(jìn)一步發(fā)展的基石。如何將人眼的視覺特性結(jié)合到編碼技術(shù)中,使得重建圖像的質(zhì)量符合人眼的視覺特性,是圖像編碼中的熱點問題,這不僅和編碼技術(shù)的發(fā)展有關(guān),也和生物科學(xué)中對人類視覺系統(tǒng)結(jié)構(gòu)的認(rèn)識密切相關(guān)。該文在分析人眼視覺特性的基礎(chǔ)上,提出了一種基于人眼視覺特性的小波圖像壓縮模型,通過試驗分析了該模型的性能及可行性,試驗結(jié)果表明該模型具有較好的壓縮性能。但本文的研究工作只是對基于人眼視覺選擇特性的感興趣區(qū)域小波圖像壓縮方法作了初步探索,在以后的研究工作中,還需要繼續(xù)不斷地努力。隨著多媒體技術(shù)的發(fā)展與無線通訊技術(shù)的普及,基于人眼視覺特性的圖像壓縮技術(shù)將具有更廣闊的應(yīng)用前景和發(fā)展空間。
參考文獻(xiàn):
[1] 高文,趙德斌,馬思偉.數(shù)字視頻編碼技術(shù)原理 [M].北京:科學(xué)出版社,2010:311-316.
[2] 沈蘭蓀,卓力.小波編碼與網(wǎng)絡(luò)視頻傳輸[M].北京:科學(xué)出版社,2005.
[3] 田勇.基于對象的靜態(tài)圖像壓縮研究[D].大連理工大學(xué),2005.
[4] Yong Tian, Xiangwei Kong. An efficient shape-based arbitrary shape ROI coding method with SA-DWT for JPEG2000[C]. IEEE International Conference on Acoustics, Speech and Signal Processing, 2005.
[5] William A. Pearlman, Asad Islam, Nithin Nagaraj, and Amir Said. Efficient, Low-complexity Image Coding With a Set-partitioning Embedded Block Coder [J]. Ieee Transactions on Circuits and Systems For Video Technology, 2004,14(11):1219-1235.