喻 莉,馮 慧,張軍濤,左 雯,王 寧
(1.華中科技大學 電子信息與工程系,湖北 武漢430074;2.中興通信股份有限公司,廣東 深圳518057)
近年來,以計算機技術、視頻、音頻和通信技術為基礎的多媒體技術發(fā)展迅猛,而互聯(lián)網(wǎng)的發(fā)展普及也使得多媒體技術的應用更加廣闊。多媒體使人們的生活更加豐富多彩,但是由于受到網(wǎng)絡帶寬的限制,圖像質量總是不盡人意,低碼率視頻編碼不僅用于窄帶網(wǎng)絡環(huán)境如桌面視頻,隨著高清視頻引入視頻會議等應用,現(xiàn)有寬帶網(wǎng)絡也無法滿足高清視頻碼流的傳輸,對低碼率視頻編碼同樣有很大需求。但是在編碼碼率達到要求的條件下,視頻質量卻不佳。近年來,為了進一步提升視頻壓縮性能,國內(nèi)外許多專家和學者專注于人眼視覺特性。
結合感興趣區(qū)域ROI[1](Region of Interest)編碼是一類重要的基于人眼視覺特性的方法,視頻質量的最終受體是人眼視覺系統(tǒng)(HVS)。視頻中每一幀都存在一些紋理信息豐富的區(qū)域,這些區(qū)域更能引起人眼視覺的注意,即ROI區(qū)域。提升ROI區(qū)域的主觀質量可以增強圖像的主觀質量。基于ROI編碼的方法可分為兩種類型:一種是基于特征區(qū)域的增強層編碼[1-2];另一種是針對ROI區(qū)域進行更精細的量化方法。前者主要適用于MPEG-4框架,而后者應用廣泛有效。文獻[3]提出了基于HVS針對前景和背景選取不同的量化參數(shù)QP的分級量化模型,文獻[4]提出一種靈活的比特分配算法,文獻[5]提出一種基于感知的ROI視頻編碼方案,文獻[6]提出一種基于ROI的可分級量化策略,上述模型均是將視頻幀分為ROI區(qū)域和非ROI區(qū)域(即前景區(qū)域和背景區(qū)域)進行分級量化,然而,這些模型并沒有考慮ROI區(qū)域內(nèi)部特性,對ROI區(qū)域同一量化缺乏對人眼感興趣區(qū)域層次性的進一步分析,以至于在低碼率的編碼條件下,這些模型對視頻主觀質量的提升有限,不能滿足低碼率視頻的應用需求。所以,進一步探索對ROI區(qū)域的分級量化具有十分重要的意義。
本文針對低碼率條件下以人臉為主體的桌面視頻、手持終端等場景提出一種基于ROI與JND的分級量化方法。人眼視覺特性HVS中的JND模型表明邊界區(qū)域的JND值相對于平滑區(qū)域的要大[7-8],而人臉區(qū)域內(nèi)的眼睛、鼻子、嘴巴等部位屬于邊界,因此在以人臉為主體的桌面視頻、手持終端等場景下,ROI區(qū)域(即人臉)中人眼更感興趣的邊界部分可以用JND模型檢測。通過結合ROI和JND對視頻幀的區(qū)域劃分,建立更加符合人眼視覺特性的三級量化模型,指導人眼感興趣區(qū)域量化參數(shù)的選取,進一步提升ROI區(qū)域的主觀質量。
傳統(tǒng)基于ROI的分級量化模型僅將視頻幀劃分為ROI區(qū)域和非ROI區(qū)域,沒有考慮ROI區(qū)域的內(nèi)部特性,不能很好地符合人眼視覺特性。為進一步提升視頻主觀質量,本文分析了人眼感興趣區(qū)域(人臉)的內(nèi)部特性。根據(jù)HVS中的恰可失真(JND)模型可知,邊界區(qū)域的JND值相對于平滑區(qū)域較大。在本文中,人臉區(qū)域內(nèi)的眼睛、鼻子、嘴巴等部位屬于邊界,因而JND值較大,如圖1所示。因此,在以人臉為主體的桌面視頻、手持終端等場景下,結合JND可以對ROI區(qū)域(即人臉)進一步劃分,即將整幀圖像劃分為NROI,ROI_level1,ROI_level2,據(jù)此可以建立一種三級量化模型,圖2是該分級量化模型的框圖。通過該模型來指導不同區(qū)域的量化過程,為人眼感興趣的區(qū)域分配更多的比特,從而提升視頻圖像的主觀質量。
圖1 foreman序列JND值計算結果,深色的代表JND值較大
圖2 基于ROI和JND的分級量化模型框圖
基于ROI和JND的分級量化方法具體過程如下:
當宏塊屬于NROI區(qū)域時,其量化參數(shù)QP的大小由式(1)決定
式中:λ代表基于感興趣因子P的一個QP調(diào)整因子;X和Y代表視頻幀在寬度和高度方向所包含的宏塊個數(shù)。
當宏塊屬于ROI區(qū)域,且其JND值小于等于閾值JNDthd時,即當宏塊屬于ROI_level1時,其量化參數(shù)QP由式(3)決定
當宏塊屬于ROI區(qū)域,且其JND值大于閾值JNDthd時,即當宏塊屬于ROI_level2時,其量化參數(shù)QP的大小由式(4)決定
式中:QPinit代表幀級QP;Δ是根據(jù)ROI區(qū)域內(nèi)JND值的特點調(diào)整QP的常數(shù)因子,Δ>0;P是人眼對視頻幀的感興趣因子,由人眼視覺特性可知,ROI區(qū)域越大,人眼視覺對其感興趣程度越低,相應感興趣因子P值越小。相反地,ROI區(qū)域面積越小,感興趣程度越高,所以感興趣因子P與ROI區(qū)域面積的關系為
式中:α是感興趣常數(shù);Spicture是當前幀的面積;SROI是感興趣區(qū)域總面積;k是常數(shù)。
據(jù)此,本文針對ROI區(qū)域與非ROI區(qū)域,結合JND建立三級量化模型,采用不同的量化策略,為人眼感興趣區(qū)域分配更多的比特來進行編碼,而對人眼不那么感興趣的區(qū)域分配較少的比特,從而提升整個視頻的主觀質量。
本文所提方法在X264平臺上實現(xiàn),JND檢測采用Yang等人提出的像素域NAMM模型[10](該模型有效地融合了亮度自適應模型和紋理掩模模型,具有較好的性能)。為驗證本文算法的有效性,將本文算法與X264標準測試平臺軟件、文獻[6]中基于ROI區(qū)域的視頻編碼方法進行比較。實驗采用4種測試序列,主要實驗參數(shù)如表1所示,這些序列具有不同的運動劇烈程度,從而可以驗證本文算法的魯棒性。
表1 主要實驗參數(shù)
圖3給出了cif序列foreman目標碼率為100 kbit/s時3種算法編碼的主觀效果圖,可見本文算法編碼的圖像人臉區(qū)域具有更清晰的紋理信息,因而具有更好的主觀質量。VGA序列Zhang目標碼率為150 kbit/s時3種算法編碼的主觀質量對比如圖4所示,相對于圖4a、圖4b、圖4c中人臉的關鍵部位,如眼睛、鼻子、嘴巴等區(qū)域的方塊和模糊大量減少,主觀質量提高明顯。因此實驗結果驗證了本文所提分級量化模型的有效性。
針對低碼率條件下以人臉為主體的桌面視頻、手持終端等場景,本文提出一種基于ROI和JND的分級量化方法。該方法結合JND模型對ROI區(qū)域進行再分級,建立多級量化模型,指導各區(qū)域量化參數(shù)的選擇。實驗結果表明,本文所提分級量化模型更加符合人眼視覺特性,能夠顯著提高視頻圖像的主觀質量。
[1]袁飛,黃聯(lián)芬,姚彥.視頻質量客觀評價技術研究[J].電視技術,2007,31(3):91-94.
[2]PENG W H,CHIANG T,HANG H M.Adding selective enhancement in scalable video coding for region-of-interest functionality[C]//Proc.IEEE International Symposium on Circuits and Systems.Island of Kos:IEEE Press,2006:3089-3092.
[3]VAN D S M,LIN Y T.Content-based selective enhancement for streaming video[C]//Proc.Image Processing.Piscataway:IEEE Press,2001:977-980.
[4]DALY S,MATTHEWS K,RIBAS C J.Face-based visually-optimized image sequence coding[C]//Proc.Image Processing.Los Alamitos:IEEE Press,1998:443-447.
[5]CHAI D,NGAN K N,BOUZERDOUM A.Foreground/background bit allocation for region-of-interest coding[C]//Proc.Image Processing.Vancouver,BC,Canada:IEEE Press,2001:923-926.
[6]SIRA R,NIKIL J.Optimizing algorithms for region-of-interest video compression with application to mobile telehealth[C]//Proc.Multimedia and Expo.Toronto,Canada:IEEE Press,2006,130(56):513-516.
[7]LIU Q,HU R.Perceptually motivated adaptive quantization algorithm for region-of-interest coding in H.264[C]//Proc.9th Pacific Rim Conference on Multimedia,PCM 2008.Tainan,Taiwan:Springer Verlag,2008:129-137.
[8]CHOU C H,LI Y C.A perceptually tuned subband image coder based on the measure of just-noticeable-distortion profile[J].IEEE Trans.Circuits and Systems for Video Technology,1995,43(54):467-476.
[9]劉靜,王永芳,武翠芳,等.改進的JND模型及其在圖像編碼中的應用[J].電視技術,2011,35(13):15-18.
[10]YANG X K,LIN W S,LU Z K,et al.Just noticeable distortion model and its applications in video coding[J].Signal Processing:Image Communication,2005,20(7):662-680.