景璇璇 范曉鵬
Abstract: In view of the stretching phenomenon when the 360 video is projected in equi-rectangular projection format, and the characteristics that the sampling rate of two-pole is high but the equator is relatively low, the paper proposes a fast encoding algorithm of 360 video based on the CTU latitude position. First, because of the ERP video non-uniform sampling rate, the entire ERP image can be divided into three parts: the area near the pole, the area near the equator, the area between the pole area and the equatorial area. Secondly, based on the latitude position of the coding tree unit, the area to which the current coding tree unit belongs is determined, that is, the area division is finally determined according to the coding tree unit latitude. Finally, according to the criteria that for different regions, the locations with high sampling rate are suitable for large block coding, and the locations with low sampling rate are suitable for small block coding, the area prediction depth range is determined. Experimental results show that when using WS-PSNR to evaluate the coding effect, compared with the HEVC reference software HM integrated with 360Lib3.0, the algorithm saves 11.9% of the coding time when the luminance block has a BD-rate increase of only 0.6%.
引言
近年來,隨著計算機三維處理能力的增長和低成本傳感顯示元件的出現(xiàn),虛擬現(xiàn)實得到了快速發(fā)展[1]。360度視頻作為虛擬現(xiàn)實內(nèi)容具體呈現(xiàn)形式之一,是采用相機陣列拍攝自然場景或者說由多個鏡頭同時對物體進行360度環(huán)繞拍攝得到的視頻,可以同時獲取水平方向360度和垂直方向180度的場景圖像。由于其包括全部物理視域的像素點,一般采用4 K、6 K或者8 K的視頻分辨率,及10 bit的位深。高分辨率和位深給360度視頻編碼及傳輸帶來了巨大的挑戰(zhàn)。由ITU-T/VCEG和ISO-IEC/MPEG成立的聯(lián)合視頻研究組(JVET)把360度視頻納入到未來視頻編碼標準范圍內(nèi),并開發(fā)了用于360度視頻編碼和處理的360Lib軟件包 [2]。
本文中,研究針對編碼單元樹的劃分深度,利用360度視頻基于ERP格式投影時越靠近極點區(qū)域采樣越密集、越靠近赤道區(qū)域采樣越稀疏的不均勻采樣特性,通過縮小編碼單元樹的劃分深度范圍,在編碼性能損失可以接受的情況下,盡可能減少360度視頻的編碼時間,提升編碼效率。
1相關(guān)工作
針對360度視頻的編碼問題,主要分為2類。一是通過改進360度視頻的投影格式來提升編碼性能;二是將類似于傳統(tǒng)視頻,在編碼階段針對360度視頻的特性進行HEVC局部編碼優(yōu)化。Lee等人[3]通過在不連續(xù)的邊緣處填充額外的像素點的方法來改進COHP(緊密八面體投影),緊密八面體投影存在4個不連續(xù)的邊緣,該方法認為于編碼之前,在每個不連續(xù)邊緣處填充由垂直線性插值得到的2個有效像素點,這樣有效減少了在不連續(xù)邊緣周圍出現(xiàn)的偽影,并提升了壓縮效率。Boyce [4]提出了一種填充的ERP投影格式PERP,該方法在普通ERP圖片的右側(cè)填充像素,將像素從圖片的左邊緣區(qū)域直接復制到圖片的右邊緣填充區(qū)域。Sauer等人[5]研發(fā)了一種通過提供幾何校正的參考圖片改進360度視頻序列中運動補償性能的方法。Hendry等人[6]提出針對ERP投影格式的基于編碼樹單元位置的自適應QP算法,使得極點區(qū)域的QP減小,赤道區(qū)域的QP增大,此算法充分考慮了ERP格式兩極過采樣的問題,極大提升了編碼性能。
針對快速編碼問題,文獻[7]的研究則根據(jù)統(tǒng)計信息給率失真代價設(shè)置閾值,從而決定當前塊是否劃分的方法。當率失真代價小于閾值時終止塊劃分,這樣就節(jié)省了計算不必要小塊率失真代價的時間。文獻[8]提出根據(jù)相鄰的編碼樹單元深度范圍進行當前編碼樹單元的深度范圍預測,針對方法可能引起的誤差擴散問題,研究同時創(chuàng)建了一種信任度量機制。文獻[9]針對預測單元方面,利用圖像紋理的復雜度,過濾掉一部分量測上不大可能的預測單元,同時根據(jù)鄰近預測單元信息,再次過濾掉一部分子預測單元。以上幾種算法都是基于HEVC靈活的塊劃分結(jié)構(gòu)。
2算法詳述
2.1算法概況
針對360度視頻投影到ERP格式時兩級區(qū)域過采樣的特點,本文提出了一個深度范圍預測的360度視頻快速編碼算法。算法流程如圖1所示。該算法包含有3個部分。首先,根據(jù)ERP視頻不均勻采樣特性,將整幅ERP圖像分成3個區(qū)域:靠近極點處的區(qū)域、靠近赤道處的區(qū)域、處在極點區(qū)域和赤道區(qū)域之間的區(qū)域。其次,基于編碼樹單元的緯度位置,來判斷當前編碼樹單元所屬的區(qū)域,即區(qū)域劃分最終是按編碼樹單元緯度來決定的。最后,根據(jù)不同的區(qū)域,按照采樣率高的位置適合大塊編碼、采樣率低的位置適合小塊編碼的準則,分別確定其預測深度范圍。
2.2根據(jù)采樣率劃分ERP視頻幀
用等矩形投影格式ERP(Equarectangular Projection)將360度視頻投影到2D平面時,將整個球面視頻映射到一個2D矩形面上。這一研究過程可如圖2所示。
等矩形投影格式包含物理視域的所有像素信息,能夠很好地兼容原360度視頻,但也同時帶來了大量的冗余信息。而且投影時存在明顯的緯度拉伸。越靠近兩側(cè)極點區(qū)域,拉伸越嚴重,投影到矩形面上時采樣率越高。
HEVC視頻標準編碼視頻時,采用編碼單元的四叉樹結(jié)構(gòu)。編碼單元可以遞歸地進行劃分,最大是編碼樹單元CTU(Coding Unit Tree),大小為64×64;最小尺寸是8×8。編碼單元大小與其深度(在所屬四叉樹內(nèi)的高度)一一對應。HEVC對編碼單元劃分時,考察當前編碼單元和4個子劃分單元的率失真代價,選擇率失真較小的劃分方式。所以,率失真優(yōu)化過程即為編碼單元四叉樹的深度遞歸過程。HEVC中編碼單元的深度和對應的編碼單元大小可參見表1。
在HEVC編碼階段,采樣率高的位置適合用較大的編碼單元,即較小的深度進行編碼,而不會引起較大的失真;采樣率低的地方適合用較小的編碼單元,即較大的深度進行編碼,以減少失真。所以,利用360度視頻不均勻采樣特點,可以根據(jù)編碼樹單元所在的緯度位置,分別確定其編碼時的深度范圍,以節(jié)省率失真優(yōu)化過程的時間。
因此,根據(jù)采樣率高低,可以將整幅ERP格式圖像分成靠近兩極處、靠近赤道處、兩極和赤道之間3個部分??拷鼉蓸O處的區(qū)域采樣率最高,兩極和赤道之間的區(qū)域次之,靠近赤道處的區(qū)域采樣率最低。如圖3所示,就描繪了ERP格式的3個區(qū)域。其中,POLE表示靠近兩極的區(qū)域,EQUA表示赤道附近的區(qū)域,MEDI表示極點和赤道之間的區(qū)域。
2.3預測ERP不同區(qū)域的深度范圍
根據(jù)公式(2),當前編碼樹單元屬于POLE區(qū)域時,表示當前編碼樹單元采樣率較高,預測深度范圍為D1;當前編碼樹單元屬于EQUA區(qū)域時,表示當前編碼樹單元采樣率低,預測深度范圍為D2;當前編碼樹單元屬于MEDI區(qū)域時,相對另外2個區(qū)域,采樣率居中,不對其深度范圍預測,保持HEVC原來的深度范圍D0。
2.4判斷編碼樹單元所屬的區(qū)域
本小節(jié)首先討論如何獲取編碼樹單元的緯度位置,再根據(jù)緯度位置確定編碼樹單元所屬的區(qū)域。整個過程的框架如圖4所示。
給定ERP圖像上一點,ERP圖像投影到球面上時,球面上存在與該像素對應的一點。源像素點的緯度即為其對應點的天頂角。假設(shè)給定的點是ERP圖像中第i行的一個像素,球面上與該像素對應的點的緯度可通過計算獲得。運算公式如下所示:θ(i)=π·ih(3)其中,h是ERP圖像的高度。
編碼樹單元的緯度可通過求取編碼樹單元內(nèi)所有像素緯度的平均值計算出來,具體即如式(4)所示:θ-=1N∑k+N-1i=kθ(i)(4)其中,k是編碼樹單元內(nèi)第一行像素點的行索引,N是編碼樹單元的高度。
根據(jù)編碼樹單元緯度判斷所屬ERP區(qū)域的框架流程可見圖4。若當前編碼樹單元緯度處于0~π/6或5π/6~π,認為該編碼樹單元屬于POLE區(qū)域;若當前編碼樹單元緯度處于π/6~2π/6或4π/6~5π/6,認為該編碼樹單元屬于MEDI區(qū)域;否則,該編碼樹單元處于2π/6~4π/6,認為其屬于EQUA區(qū)域。
3實驗結(jié)果與分析
為了驗證基于編碼樹單元緯度的360度視頻快速編碼算法的有效性,研究在集成了360Lib3.0的HEVC測試平臺軟件HM16.15上實現(xiàn)算法,并且嚴格按照360度視頻的通用測試條件進行實驗。測試序列使用360度視頻通測條件中的10個360度視頻序列,這10個序列中包含4個分辨率為4 K的序列和6個分辨率為8 K的序列。序列信息詳情可見表2。
對比實驗是在HM16.15測試平臺上設(shè)計實現(xiàn),除了本文改進的算法,其它所有配置均與本實驗使用的配置相同。
實驗結(jié)果可詳見表3。針對360度視頻,使用客觀質(zhì)量評價標準SPSNR-NN、CPP-PSNR和WS-PSNR來評價本文算法。表3給出了3個評價標準下每一個測試序列的亮度和色度的BD-rate及時間節(jié)省,ΔT表示相比anchor的時間節(jié)省。ΔT的數(shù)學定義則如式(5)所示:ΔT=THM-TpwTpw×100%(5)其中,THM表示配置相同、編碼相同序列時對應HM16.15所消耗的時間,Tpw為編碼相同序列時本文提出算法的消耗時間。
由表3可知,本文提出的基于CTU緯度的360度視頻快速編碼算法相比于HM16.15-360Lib3.0測試平臺,亮度分量帶來0.6%的性能損失、2個色度分量分別帶來0.4%和0.5%的性能損失,編碼時間節(jié)省了11.9%。也就是說,該算法能夠在編碼性能損失很小的情況下,達到11.9%的編碼時間節(jié)省。
4結(jié)束語
本文針對360度視頻的ERP投影格式,利用其不均勻的特點,提出了一種基于編碼樹單元緯度的360度視頻快速編碼算法,重新定義了編碼樹單元的劃分深度范圍。根據(jù)ERP兩極采樣率高,赤道處相對低,兩極和赤道之間采樣率居中的特性,將ERP格式分成靠近兩極的區(qū)域POLE、靠近赤道的區(qū)域EQUA和處于兩極及赤道區(qū)域之間的區(qū)域MEDI共3個部分,從而可根據(jù)各自采樣率高低分別確定各部分的深度范圍。算法執(zhí)行時,首先根據(jù)編碼樹單元內(nèi)每個像素的緯度計算出當前編碼樹單元的緯度,然后將編碼樹單元緯度映射到事先定義好的區(qū)域,從而得到當前編碼樹單元的深度范圍預測值。本算法能夠在RA10配置、端到端WS-PSNR評價標準下,在亮度分量BD-rate平均增加0.6%的情況下,達到11.9%的編碼時間節(jié)省。
參考文獻
[1] 周忠,周頤,肖江劍. 虛擬現(xiàn)實增強技術(shù)綜述[J]. 中國科學:信息科學,2015,45(2):157-180.
[2] NORKIN A, YANG H, OHM J R, et al. Call for test materials for future video coding standardization [C]// Joint Video Exploration Team of ITU-T SG16 WP3 and ISO//IEC JTC1//SC29//WG11. Warsaw:MPEG group, 2015:1-4.
[3] LEE Y H, LIN H C, LIN Jianliang, et al. AHG8: An improvement on compact octahedron projection with padding[Z]. USA:Joint Video Exploration Team of ITU-T SG16 WP3 and ISO//IEC JTC1//SC2//WG11, JVET-F0053, 2017.
[4] BOYCE J. Padded ERP (PERP) projection format[Z].USA: Joint Video Exploration Team of ITU-T SG16 WP3 and ISO//IEC JTC1//SC29//WG11, JVET-F0108, 2017.
[5] SAUER J, SCHNEIDER J, WIEN M. Improved motion compensation for 360° video projected to polytopes[C]// IEEE International Conference on Multimedia and Expo. HongKong, China: IEEE, 2017:61-66.
[6] HENDRY, COBAN M, VAN DER AUWERA G, et al. AHG8: Adaptive QP for 360° video ERP projection[Z]. USA:Joint Video Exploration Team of ITU-T SG16 WP3 and ISO//IEC JTC1//SC2//WG11, JVET-F0053, 2017.
[7] KIM Y, JUN D S, JUNG S, et al. A fast intra-prediction method in HEVC using rate-distortion estimation based on Hadamard transform[J]. Etri Journal, 2013, 35(2):270-280.
[8] SHI Yongfang, AU O C, ZHANG Xingyu, et al. Content based fast prediction unit quadtree depth decision algorithm for HEVC[C]//2013 IEEE International Symposium on Circuits and Systems (ISCAS). Beijing,China: IEEE,2013:225-228.
[9] TIAN Guifen, GOTO S. Content adaptive prediction unit size decision algorithm for HEVC intra coding[C]// 2012 Picture Coding Symposium. Krakow, Poland:IEEE, 2012:405-408.