王永建,梁麥先,鐵小輝
(中國通信建設集團設計院有限公司,北京 100079)
一種面向新一代可伸縮視頻編碼的上采樣設計
王永建,梁麥先,鐵小輝
(中國通信建設集團設計院有限公司,北京 100079)
可伸縮視頻編碼屬于新一代H.265/HEVC視頻編碼標準中的關鍵技術。本文分析了其相關技術,針對傳統(tǒng)空間可伸縮視頻編碼中的上采樣過程運算復雜、時間延遲等缺點,借鑒雙邊濾波器,將內容自適應嵌入到上采樣過程中,提出了一種新的非線性和內容自適應設計方法。通過理論推導得出了改進后濾波器的表示公式,并設計出了新的上采樣實現流程。通過仿真實驗驗證了理論推導的正確性,并與傳統(tǒng)方法進行了比較,結果表明該方法可有效地提高編碼效率、降低系統(tǒng)復雜性。
H.265/HEVC;可伸縮視頻編碼;上采樣;雙邊濾波器;內容自適應
隨著移動互聯網、LTE、IPTV、智能終端、超高清顯示等技術的發(fā)展,視頻服務與人們生活聯系日益緊密。網絡環(huán)境(如傳輸介質、鏈路帶寬等)越來越復雜,智能終端的分辨率、處理器、內存等性能多樣,要求視頻編碼能自適應復雜多變的環(huán)境,傳統(tǒng)的視頻編碼技術已不能滿足要求,于是產生了可伸縮視頻編碼(Scalable Video Coding)技術。
ITU-T與ISO/IEC在2003年聯合發(fā)布了H.264/AVC標準[1],首次引入了可伸縮視頻編碼技術,取得了巨大成功;2013年,又發(fā)布了最新的H.265/HEVC(High Efficiency Video Coding)標準,包含了最新的可伸縮視頻編碼標準[2]。
可伸縮視頻編碼技術理念為:將視頻信號采用分層編碼的形式,即在時間、空間、質量或者頻率上進行分層,形成一個基本層(Base layer)和多個增強層(Enhancement layer)。當通信帶寬不足或信噪比很低時,僅對基本層的視頻碼流傳送和解碼,這時解碼出的視頻質量較差;當通信帶寬變大或信噪比較高時,則對增強層的碼流傳送和解碼;從而提高視頻的解碼質量,增強視頻碼流對復雜環(huán)境的適應性。
經過多年的研究,業(yè)界對可伸縮視頻編碼技術有多種實現方法,大致可劃分為兩大類:三維小波方法和聯合可伸縮視頻模型(JSVM,Joint Scalable Video Model)[3]。前者的代表為三維提升子帶視頻編碼器(Barbell Lifting)[4]和運動補償的嵌入式零樹塊編碼器(MC-EZBC)[5-6],后者的代表為H.264/AVC、MPEG-4 FGS[7]和H.265/HEVC等。三維小波方法的優(yōu)點是在寬動態(tài)比特率范圍內能夠支持靈活的、細粒度的可伸縮性,但缺點是不能很好地支持運動圖像的分級(低碼率下編碼性能較差)和空間可伸縮視頻編碼。JSVM的優(yōu)點是基本層完全兼容H.264/AVC和H.265/HEVC(低碼率下編碼性能較好),同時可靈活支持各種可伸縮視頻編碼。
可伸縮視頻編碼技術主要包括空間可伸縮、時間可伸縮、質量可伸縮等,本文研究內容屬于空間可伸縮范疇,因此其他可伸縮技術本文不再贅述。
1.1 空間可伸縮性
空間可伸縮視頻編碼(Spatial Scalable Video Coding),指通過對不同空間分辨率的視頻圖像進行編碼,形成基本層與增強層碼流,其原理如圖1所示。
圖1 空間可伸縮視頻編碼原理圖
圖1中,預處理器對輸入的原始視頻圖像進行空間下采樣,形成低分辨率的圖像;基本層編碼器輸出基本層碼流,中間處理器對其解碼、重構形成基本層圖像;對基本層圖像進行上采樣,作為對原始視頻圖像進行編碼的預測參考;增強層編碼器對預測編碼與原始視頻圖像之間的量化差值進行處理,得到高分辨率的增強層碼流;增強層碼流與基本層碼流復用最后形成可伸縮的視頻碼流[1,8]。上采樣是其中最為關鍵、復雜的部分。
1.2 HEVC系統(tǒng)結構
HEVC在主要原理和基本結構方面與H.264/AVC基本相同,但是其幾乎在每一個實現環(huán)節(jié)上都進采取了相應的改進措施,盡管每一項措施的效率提高并不顯著,然而總體效果卻比H.264/AVC編碼效率提高了約一倍[9-10]。HEVC采用多回路解碼結構,增強層解碼要對相對應的基本層進行完整解碼與重構,系統(tǒng)結構如圖2所示。
圖2 HEVC系統(tǒng)結構圖
圖2中,基本層與增強層都由熵解碼器(Entropy Decoder)、逆變換(Inverse Transformation)、逆量化(Inverse Quantization)、幀內預測(Intra Prediction)、運動補償(Motion Compensation)、回路濾波器(Loop Filter)等構成?;緦咏獯a后的圖像輸入到解碼緩沖區(qū)(Decoded Picture Buffer),作為運動補償和隨機層間預測的參考。如果基本層與增強層圖像的空間分辨率不同,基本層圖像要在層間預測之前先進行上采樣。
在HEVC系統(tǒng)中,上采樣器源于HEVC/H.265中的運動補償插值器(該插值器可分離,大大降低了系統(tǒng)的復雜性),使插入的像素值由基本層變化為增強層。對于空間可伸縮性,基本層的亮度值與增強層未濾波的亮度值共用。輸入像素經N-tap濾波后獲得內插像素,在HEVC中使用特定的8-tap線性濾波器用于亮度組件,4-tap濾波器用于色度組件[11,12]。但是在上采樣時,基本層圖像在內容自適應和非線性編碼過程中遭到損壞,基本層噪聲處理效果不理想,影響了實際效果。
1.3 雙邊濾波器
雙邊濾波器是一種具有去噪保邊功能的非線性濾波器,在2-D鄰域內取決于兩個函數,分別由空間距離和像素亮度值差決定,可分別稱之為空間鄰近度因子與亮度相似度因子,從而實現非線性和自適應濾波[13]。
雙邊濾波器中,輸出像素的值依賴于鄰域像素的值的加權組合[14]。假設某鄰域S中心點為(x,y),大小為(2N+1)×(2N+1),鄰域內任一個像素為(i,j),輸入亮度值為f(i,j),則輸出像素值g(i,j)表示為
(1)
設定W=w(),w()是加權系數,由空間鄰近度因子Ws與亮度相似度因子Wr的乘積決定。
(2)
(3)
因此
W=Ws×Wr=
(4)
式(2)隨著像素與中心點之間空間距離的增加而減小,σd表示控制參數,影響著衰減程度。
式(3)隨著像素與中心點之間亮度值差的增大而減小,σR表示控制參數,影響著衰減程度。
式(4)中,像素與中心點之間空間距離越大或者亮度值相差越大,則權重值越低,去噪保邊效果越好,不過卻會大大增加復雜性,造成實現成本的增加。
另外,雙邊濾波器還受濾波器半寬N的影響,N越大平滑能力越強。
式(1)和(4)中,對于每個像素,2-D不可分割N×N雙邊濾波器(N是窗口大小)需要乘以2N2, 加上3(N2-1),并除1。此時梯度和空間組件的權重值存儲在查詢表中,該方法能降低實現的復雜性,但需要額外的內存與頻寬。
2.1 設計思路
根據前文所述,空間可伸縮上采樣需必備兩個要素。第一,上采樣時插入的像素值使基本層變化為增強層。第二,若要對增強層編碼實現理想的預測,上采樣時必須減少基本層的噪聲。
當高振幅與高頻信息的邊緣與結構保持相對應時,雙邊濾波器能夠消除低振幅高頻的內容(通常夾帶噪聲),達到理想的效果。通常,非線性濾波器會增加復雜性,雙邊濾波器仍不例外,例如運算量的增加,在濾波進行之前要等待上采樣的結果存儲完成而產生延遲等。為解決上述復雜性和延遲問題,本文受雙邊濾波器啟發(fā),設計一種新的內容自適應方法,以期提高系統(tǒng)效率,并且在濾波之前不需要對采樣結果存儲,降低系統(tǒng)復雜性與成本。
2.2 實現方法
將內容自適應嵌入上采樣中,通過將插值和內容自適應組件分離實現。在已有的研究中,采用可分離雙邊濾波器實現內容自適應分離的方法已被證實,不過存在明顯的缺陷,尤其是處理對角線結構時效果欠佳。為彌補該缺陷,本文擬將內容自適應嵌入到上采樣過程中。
雖然采用可分離內容自適應濾波器能夠減少運算量,卻需要額外的線性緩沖區(qū)。為解決該問題,本文擬利用內容自適應過程中的整數像素或插入像素來消除對插入的相鄰像素的依賴。
選擇一個適當的位置,要求正在進行上采樣的像素通過的同時完成內容自適應濾波,并且整數像素與基本層內像素的空間位置要相對應。當增強層圖像分辨率大于基本層圖像分辨率時,則包含了小數位置的像素(也可能包含整數位置像素)。
如果HEVC上采樣過程中(2t)抽頭值為{a-t,a-t+1,…,at-1},則上采樣可表示為
(5)
式中:表示向下取整運算,改進后的濾波器(設定窗口大小為3×1)可表示為
(6)
式中:像素(k,q)和(m,n)是與像素(i,j)相鄰的整數像素,而像素(i,j)可能在整數像素位置或小數像素位置。在本文HEVC設計中,當(i,j)取整數值時Up=f(i,j)。另外,式(6)不僅具有與函數(1)類似的內容自適應濾波特性和類似的值域,并且具有明顯降低運算量、延遲時間和線性緩沖需求等優(yōu)點。因為,對于整數像素值的計算僅僅使用其他整數像素位置的信息,不需要相鄰像素值的插入。與此類似,對于小數像素值的計算僅僅使用處于當前位置的插入像素與其他整數像素值。
這里要求計算時只使用整數像素值(或當前位置小數像素值),當一個像素的上采樣/插值完成的同時,不需要等待上采樣結果,內容自適應濾波也同時完成,因此無需額外的線性緩沖。改進后的濾波器上采樣的流程如圖3所示。
圖3 改進后的1-D內容自適應濾波上采樣流程
在圖3中,雙邊濾波采用插值法就地進行分離,虛線方塊表示非線性和內容自適應組件。對于每個1-D內容自適應濾波階段,濾波過程需要乘以2(M-1)+1,并加上3(M-1)-1(M是所支持的1-D域的長度,乘法中的加1為了計算每個濾波階段中的除運算)。當M=3時,則需要乘以10,并加10。當M值比較小時,除運算可看做是使用倒數查詢表的乘運算。由于空間查詢表與梯度組件可以組合,相乘的數值可進一步減至6。因此,這種簡化的方法在濾波一個抽樣時可乘以6,并加10。另外,在最初的可分離階段,這種簡化的內容自適應濾波器作用于水平的上采樣圖像,與完全上采樣的圖像相比,該方法具有更低的垂直分辨率,因而這樣的圖像像素數量比完全上采樣的圖像濾波后要少,從而進一步降低了該方法的整體復雜性。
3.1 編碼效率測試
為驗證本文設計方法的有效性,本文將該方法集成到HEVC參考軟件HM-12.0中[15]。這里允許增強層對線性內插幀或內容自適應內插幀預測,幀的選擇由編碼器完成,并在基于率失真代價的編碼單元中進行自適應性選擇,然后在比特流中對上采樣器發(fā)出指示。
在仿真實驗中,設定參數如下:窗口大小為3×1,σs=3.4;查詢表基于權重梯度,為{16,15,12,9,6,4,2,1,0},指數取最小值(梯度?2,8),σR=15;插值器為8-tap濾波器[15]。
選用HEVC常用測試條件,包括all-intra、隨機存取、低延遲P配置等[16]?;贖M-12.0軟件錨點序列,采用BDBR(BjOntegaard Delta Bit Rate)進行測試[17]。測試序列包含2個裁切后的4K序列(稱為測試條件中的“A類”)和5個高清序列(稱為測試條件中的“B類”),圖像幀為YUV 4∶2∶0色彩樣式。
以增強層比率(EL)測試比特率,基本層(BL)比率保持不變,負數表示減少,選用2-D空間可伸縮常用測試用例AI、RA、LD-P,測試結果如表1所示。
表1 新設計方法編碼效率測試 %
根據表1測試結果,將非線性和內容自適應特性加入上采樣器后提高了編碼效率,測試用例AI、RA、LD-P的增強層(EL)比特率分別下降了5.3%、5.8%、6.2%,正好對應于基本層(BL)與增強層(EL)兩者(BL+EL)的4.3%,3.8%,4.8%的比特率下降。
3.2 復雜性測試
本文采用HEVC標準組織提供的復雜性測試方法[18]。
首先測試編碼時的復雜性。對基于塊的上采樣,HM-12.0軟件中標準的上采樣器在上采樣一個像素時乘以37,增加32,這對于亮度與色度都很有效果,這里假設色度與亮度樣式為2∶1。
前文第二節(jié)所述的2-D不可分離雙邊濾波器,如果N=3,則乘以28然后加36。前文第3節(jié)所述改進后的濾波器,在僅計算一種色彩情況下,當M=3時,則乘以6然后加10。因此,如果計算色度與亮度,則乘以9然后加15。
選擇在最壞情況下進行測試[19],將所有塊都采用新設計方法進行上采樣時運算量的增加情況,與采用線性上采樣器(與傳統(tǒng)2-D不可分離雙邊濾波器一樣)進行對比,測試結果如表2所示。
表2 新設計方法編碼復雜性測試
根據表2測試結果,與傳統(tǒng)2-D不可分離雙邊濾波器相比,采用新設計方法情況下運算量的增加小得多。另外,在實際的編碼過程中,并不是所有的塊都采用內容自適應濾波上采樣器,并且上采樣也僅僅是整個編碼過程的一部分,因此,整體運算量的增加將遠遠小于最壞情況下的增加。
然后測試解碼時的復雜性?;贖M-12.0軟件錨點序列進行解碼,將采用新設計方法時運算量的增加情況,與采用HM-12.0軟件中標準的解碼器時進行對比。測試結果如表3所示,結果表明增加很少。
表3 新設計方法解碼復雜性測試 %
本文介紹了HEVC中可伸縮視頻編碼相關技術,分析了目前存在的問題,在此基本上提出了一種非線性和內容自適應上采樣方法。該方法將可分離非線性內容自適應濾波器引入到上采樣過程中,實現上采樣與內容自適應濾波同步完成,不須額外線性緩沖。通過仿真實驗表明,該方法能有效提高編碼效率并降低復雜度。
[1] Advanced video coding for generic audio-visual services[S]. 2003.
[2] BROSS B,HAN W J,OHM J R,et al. High efficiency video coding (HEVC) text specification draft 10 (for FOIS & Consent)[S]. 2013.
[3] REICHEL J, WIEN M, SCHWARZ H. Joint scalable video model jsvm-3 Annex [S]. 2005.
[4] XIONG R, XU J, WU F,et al. Barbell-lifting based 3-D wavelet coding scheme[J]. IEEE Trans. Circuits and Systems for Video Technology,2007,17(19):1256-1296.
[5] HSIANG S T, WOODS J W. Embedded video coding using invertible motion compensated 3-D subband/wavelet filter bank [J]. Signal Processing:Image Communication, 2001,16(8):705-724.
[6] CHEN P. Fully scalable subband/ wavelet coding [M]. [S.l.]:VDM Verlag Dr. MullerAktiengesellschaft & Co.,2003.
[7] LI W. Overview of fine granularity scalability in MPEG-4 video standard[J]. IEEE Trans. Circuits and Systems for Video Technology,2001,11(3):301-317.
[8] SCHWARZ H,MARPE D,WIEGAND T. Overview of the scalable video coding extension of the H.264/AVC standard[J]. IEEE Trans. Circuits and Systems for Video Technology,2007,17(9):1103-1120.
[9] SULLIVAN G J,OHM J R,HAN W J,et al. Overview of the high efficiency video coding (HEVC) standard[J]. IEEE Trans. Circuits and Systems for Video Technology,2012,22(12):1649-1668.
[10] POURAZAD M T, DOUTRE C, AZIMI M. HEVC:the new gold standard for video compression how does HEVC compare with H.264/AVC[J]. IEEE Consumer Electronis Magazine,2012,1(3):36-46.
[11] MCCANN K,ROSEWARNE C,BROSS B,et al. High efficiency video coding (HEVC) test model 16 (HM 16) improved encoder description[S]. 2014.
[12] CHEN J. SHVC test model 1 (SHM 1)[S]. 2013.
[13] ALSHINA E. AHG-13,17:complexity and performance analysis of different length up-sampling filters in SHM 1.0[S]. 2013.
[14] RICHARD S. Computer vision:algorithms and applications[S]. 2010. [15] HEVC reference software[EB/OL].[2015-04-28].https://hevc.hhi.fraunhofer.de/svn/svn_HEVCSoftware/tags/.
[16] LI X,BOYCE J,ONNO P,et al. Common SHM test conditions and software reference collfigurations[S]. 2013.
[17] BJONTEGAARD G. Calculation of average PSNR differences between RD-curves[S]. 2001.
[18] FRANOIS E,TABATABAI A,ALSHINA E. BoG report:methodology for evaluating complexity of combined and residual prediction methods in SHVC[S]. 2013.
[19] ZHAO J,MISRA K,SEGALL A. Non-SCE4:adaptive up-sampling of base layer picture using simplified separable bilateral filters[S]. 2013.
王永建(1981— ),碩士,高級工程師,主要研究方向為網絡信息安全、多媒體通信、數據通信、數據挖掘分析等;
梁麥先(1964— ),女,教授級高級工程師,主要研究方向為數據通信、交換網絡、電信核心網等;
鐵小輝(1979— ),高級工程師,主要研究方向為多媒體通信、無線視頻通信等。
責任編輯:時 雯
Upsampling Design for Next Generation Scalable Video Coding
WANG Yongjian, LIANG Maixian,TIE Xiaohui
(ChinaInternationalTelecommunicationConstructionGroupDesignInstituteCo.Ltd.,Beijing100079,China)
Scalable video coding is a key technology of the next generation video coding standard of H.265/HEVC. Contraposing the imperfection of calculations complexity and time delay,etc.,of upsampling process in the traditional spatial scalable video coding, its related technologies are analyzed, then a new nonlinear and content-adaptive design method are proposed by the content-adaptive embedded into the upsampling process, using the bilateral filter. The formula for the improved filter is derived by theoretical derivation, and a new upsampling process is designed. The theoretical derivation is proved to be correct by the simulation results. Compared with the traditional scheme, the coding efficiency is improved effectively, and the complexity of system is reduced by the method.
H.265/HEVC;scalable video coding;upsampling;the bilateral filter;content-adaptive
【本文獻信息】王永建,梁麥先,鐵小輝.一種面向新一代可伸縮視頻編碼的上采樣設計[J].電視技術,2015,39(23).
TN919.8
A
10.16280/j.videoe.2015.23.004
2015-06-08