摘 要:為了節(jié)?。常叮啊闳耙曨l的編碼時間,對通用視頻編碼標(biāo)準(zhǔn)中的編碼單元劃分決策過程進(jìn)行了研究,提出了一種面向360°全景視頻的幀內(nèi)預(yù)測編碼的快速算法。通過優(yōu)化編碼樹單元(Coding Tree Unit,CTU) 的編碼深度范圍和編碼單元的劃分模式的選擇過程,減少編碼時間。實驗結(jié)果表明,在全幀內(nèi)模式下,所提算法比原始算法平均可以節(jié)?。常矗?33% 的時間復(fù)雜度,同時帶來的BDBR 平均增量僅為1. 665% ,BDPSNR 的平均降低量僅為0. 076 dB。
關(guān)鍵詞:通用視頻編碼;360°全景視頻;幀內(nèi)編碼;快速算法
中圖分類號:TP751. 1 文獻(xiàn)標(biāo)志碼:A 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
文章編號:1003-3106(2024)05-1074-09
0 引言
在通信技術(shù)和數(shù)字技術(shù)的推動下,普通二維視頻和標(biāo)清視頻已無法滿足人們?nèi)找嬖鲩L的視頻需求,視頻應(yīng)用的多樣性和高清化的趨勢對視頻編碼性能提出了更高的要求[1]。為此,國際電信聯(lián)盟電信標(biāo)準(zhǔn)化部門(International TelecommunicationUnion-Telecommunication Standardization Sector,ITU-T)與國際標(biāo)準(zhǔn)化組織(International Organization forStandardization,ISO)和國際電工委員會會(Interna-tional Electrotechnical Commission,IEC )合作,于2020 年7 月正式發(fā)布了最新的視頻編碼標(biāo)準(zhǔn),即通用視頻編碼(H. 266 / VVC)標(biāo)準(zhǔn)[2],為已有和新興的視頻應(yīng)用(如360°全景視頻)提供更加強大的壓縮性能及更加靈活易用的功能[3]。
360°全景視頻是一種包含全方位視覺信息的球體視頻,具有高幀率、高分辨率和高位深等特點[4],能夠給人們帶來更真實、更鮮活、更豐富的體驗感,但與此同時,也使得視頻數(shù)據(jù)量成倍增長,需要花費的編碼時間大大增加,影響了360°全景視頻在實時性場景中的應(yīng)用[5]。此外,由于目前尚不支持對360°全景視頻直接進(jìn)行編碼,需要將360°全景視頻的球面圖像投影成二維平面圖像,然后利用傳統(tǒng)的視頻編碼標(biāo)準(zhǔn)框架來完成剩余的編碼工作[6]。因此,面向360°全景視頻的快速編碼算法需在視頻編碼標(biāo)準(zhǔn)的基礎(chǔ)上進(jìn)行研究。
Wang 等[7]在高效視頻編碼(H. 265 / HEVC)標(biāo)準(zhǔn)的基礎(chǔ)上結(jié)合等矩形投影(Equi-Rectangular Projection,ERP)格式的視頻特點,利用深度信息和空間相關(guān)性對最可能模式(Most Probable Mode,MPM)過程進(jìn)行了優(yōu)化,減少了幀內(nèi)預(yù)測模式中候選模式的數(shù)量,并利用相鄰預(yù)測單元(Prediction Unit,PU)的深度信息和絕對變換差之和(Sum of AbsoluteTransform Difference,SATD)的相關(guān)性,提出了一種對PU 提前跳過和終止劃分的操作算法。Wang等[8]分析了ERP 格式的采樣密度的特點,基于HEVC 標(biāo)準(zhǔn)提出去除一些大于編號18 的冗余角度模式,并擴(kuò)展小于編號18 的角度模式,同時修改了最可能模式的推導(dǎo)方法,實現(xiàn)了針對ERP 格式視頻的幀內(nèi)角度模式的快速算法。Liu 等[9]基于HEVC標(biāo)準(zhǔn)對立方體投影格式下VR 360°視頻編碼的編碼參數(shù)進(jìn)行統(tǒng)計分析,提出了一種基于粗略模式?jīng)Q策(Rough Mode Decision,RMD)和MPM 之間的候選模式修剪方法。Lin 等[10]通過分析ERP 格式的緯度特性對HEVC 標(biāo)準(zhǔn)中的幀內(nèi)模式?jīng)Q策的影響,考慮了幀內(nèi)依賴關(guān)系和率失真模型,將全局復(fù)雜度分配到所有緯度區(qū)域的問題公式化,提出了一種基于緯度的幀內(nèi)編碼復(fù)雜度優(yōu)化算法。Beling 等[11]利用ERP 格式的拉伸模型,提出在HEVC 標(biāo)準(zhǔn)的幀內(nèi)編碼樹單元(Coding Tree Unit,CTU)劃分過程中進(jìn)行自適應(yīng)地提前終止。Zhang 等[12]在HEVC 標(biāo)準(zhǔn)的基礎(chǔ)上,根據(jù)ERP 過程中的像素坐標(biāo)進(jìn)行自適應(yīng)修正量化參數(shù)補償,并基于深度范圍和空間相關(guān)性預(yù)測實現(xiàn)CU 劃分的提前終止,以及采用prewitt 算子自適應(yīng)模式選擇算法來減少編碼時間。Storch等[13]利用360°全景視頻的空間特性,通過減少基于幀區(qū)域評估幀內(nèi)預(yù)測模式的數(shù)量,提出一種自適應(yīng)的編碼幀區(qū)域的評估技術(shù)。
綜上可知,面向360°全景視頻提出的幀內(nèi)預(yù)測編碼的快速算法都基于HEVC 標(biāo)準(zhǔn),目前針對360°全景視頻基于最新一代的視頻編碼標(biāo)準(zhǔn)VVC 的研究正處于初始階段。因此,借鑒前人工作,本文在VVC 標(biāo)準(zhǔn)的基礎(chǔ)上,結(jié)合360°全景視頻在ERP 格式映射過程中采樣不均勻的特點,從CTU 編碼深度和CU 劃分模式兩方面出發(fā),提出面向360°全景視頻的幀內(nèi)預(yù)測編碼的快速算法。
1 VVC 標(biāo)準(zhǔn)CU 劃分模式
CU 劃分模式是指對CU 進(jìn)行分割的方式。根據(jù)不同類型的視頻內(nèi)容選擇不同的劃分模式可以提高視頻的編碼效率和預(yù)測精度。因此,為了滿足高清、超高清等新興視頻的編碼需求,VVC 標(biāo)準(zhǔn)不僅將CTU 尺寸擴(kuò)展為128 × 128,還提供了更靈活的CU 劃分模式[14]。
在VVC 標(biāo)準(zhǔn)中,共有6 種CU 劃分模式,分別是四叉樹(Quad Tree,QT)、水平二叉樹(HorizontalBinary-tree,BH)、垂直二叉樹(Vertical Binarytree,BV)、水平三叉樹(Horizontal Ternary-tree,TH)、垂直三叉樹(Vertical Ternary-tree,TV)和不劃分。其中,BH和BV 統(tǒng)稱為二叉樹,是將一個CU 分成2 個大小相等的子CU;TH 和TV 統(tǒng)稱為三叉樹,是在水平或垂直方向產(chǎn)生3 個比例為1 ∶ 2 ∶ 1 的子CU[15],如圖1 所示。
確定CTU 內(nèi)部最優(yōu)CU 劃分模式的判別過程是遞歸過程,VVC 在遞歸劃分CU 時需要依次計算采用不劃分、QT 劃分、PH 劃分、BV 劃分、TH 劃分和TV 劃分的率失真代價(Rate Distortion Cost,RD-cost),并選擇RD-cost 最小的劃分模式作為最優(yōu)的劃分方式。通過CU 劃分模式判別,一幀視頻圖像會被劃分為多個能夠覆蓋全幀且不重疊的CTU,并將每個CTU 作為根節(jié)點,再執(zhí)行遞歸劃分操作,得到多個CU。一個CTU 通過遞歸劃分為多個CU 的示例如圖2 所示,其中,圖2 (a)展示了VVC 標(biāo)準(zhǔn)中某個大小為128 ×128 的CTU 在經(jīng)歷復(fù)雜的幀內(nèi)預(yù)測和劃分模式等過程后根據(jù)RD-cost 選出的最優(yōu)劃分結(jié)果;圖2 (b)是對應(yīng)于圖2(a)的CU 劃分結(jié)構(gòu)的樹形圖,其中,黑線表示QT 劃分,藍(lán)色線表示BT 劃分,黃色線表示TT劃分。
2 提出的算法
該算法首先利用ERP 格式的采樣特點、CTU 的紋理復(fù)雜度以及空間相關(guān)性,對編碼深度范圍進(jìn)行優(yōu)化,以實現(xiàn)CU 劃分過程中的提前終止;然后,針對大小為32×32 的CU 利用紋理方向信息,優(yōu)化CU的劃分模式的選擇過程,以進(jìn)一步實現(xiàn)對CU 劃分過程的簡化操作。
2. 1 基于緯度的CTU 深度決策方法
360°全景視頻在映射為ERP 格式的過程中,為了保證球面采樣的等角特性,在不同緯度區(qū)域均采用了相同的采樣點[16],造成360°全景視頻在球面不同緯度區(qū)域存在不同程度的拉伸。這導(dǎo)致采用傳統(tǒng)的視頻編碼方法對360°全景視頻壓縮效果并不理想,需要在傳統(tǒng)視頻編碼的基礎(chǔ)上,針對其特點進(jìn)行編碼優(yōu)化。因此對ERP 格式的360°全景視頻進(jìn)行分析總結(jié):越靠近兩極,拉伸程度越重,采樣率越高,且視頻內(nèi)容常為天空或大地,編碼深度較小,編碼塊較大;越靠近赤道,拉伸程度越輕,采樣率越低,且視頻內(nèi)容越豐富,編碼深度較大,編碼塊較小;對于中間區(qū)域,情況較復(fù)雜,無法直接判定出編碼塊大小,但此區(qū)域的圖像內(nèi)容通常較為復(fù)雜,應(yīng)兼顧深度較小和深度較大的情況。
基于上述分析,提出對ERP 格式的360°全景視頻進(jìn)行區(qū)域劃分,通過CTU 所處區(qū)域判定其編碼深度的范圍。首先,將ERP 格式的整幅圖像劃分為3 個區(qū)域,分別是兩極區(qū)域、赤道區(qū)域以及中間區(qū)域;然后,以CTU 的權(quán)重值作為判斷當(dāng)前CTU 所處區(qū)域的依據(jù)。
獲取權(quán)重值的思想是以CTU 為基本單元,計算每一行像素的權(quán)重值,再將其求和并取平均,最終得到的值即為該CTU 的權(quán)重值。其中,每一行權(quán)重值wj 的計算方法如式(1)所示,j 為每個CTU 最左側(cè)一列像素的縱坐標(biāo),H 為視頻幀的高度;第i 個CTU 的權(quán)重值ωi 的計算方法如式(2)所示,CTUH為CTU 的高度。
通過大量實驗得出ωi ?。埃?4、0. 9 作為3 種區(qū)域的閾值時,可以在編碼效率和編碼質(zhì)量之間取得較好的平衡,則CTU 所屬區(qū)域如下:
式中:CTUi 表示第i 個CTU,POLE、MID、EQUA 分別表示CTU 所處的區(qū)域為兩極區(qū)域、中間區(qū)域和赤道區(qū)域。
在VVC 標(biāo)準(zhǔn)中,CTU 默認(rèn)的最大編碼深度為6,最小為0。因此,將兩極區(qū)域的編碼深度設(shè)置為D1 = [0,4],中間區(qū)域的編碼深度設(shè)置為D2 = [2,5],赤道區(qū)域的編碼深度設(shè)置為D3 = [3,6]。由于每個CTU 必然會有一個區(qū)域與之相對應(yīng),因此將CTU 所屬區(qū)域的編碼深度區(qū)間作為當(dāng)前CTU 的編碼深度區(qū)間,則每個CTU 的深度DN1 可由式(4)確定:
2. 2 基于方差的CTU 深度決策方法
由于360°全景視頻通常包含很多如天空、海平面或草地等形式的平坦區(qū)域,且經(jīng)實驗發(fā)現(xiàn)在平坦區(qū)域中判斷紋理復(fù)雜度時采用方差法獲得的結(jié)果較為準(zhǔn)確,因此選用方差法計算每個CTU 的紋理復(fù)雜度。具體計算方法如下:
式中:var 為方差值,(i,j)為當(dāng)前CTU 中的左上頂點像素的坐標(biāo)值,CU_W 和CU_H 為最大CU 的寬度和高度。
根據(jù)每個視頻的圖像內(nèi)容自適應(yīng)地選擇判斷紋理復(fù)雜度的閾值,并根據(jù)視頻序列的幀率進(jìn)行更新閾值。將CTU 根據(jù)紋理復(fù)雜程度區(qū)分為3 類,分別為簡單CTU、一般CTU 和復(fù)雜CTU。當(dāng)CTU 的方差高于上閾值(Tt)時,可以判定該CTU 具有豐富的圖像細(xì)節(jié),可直接計算小尺寸CU 的RD-cost 值,而不考慮適用于簡單紋理的大尺寸CU;當(dāng)CTU 的方差值低于下閾值(Tl)時,判定該CTU 位于圖像平滑區(qū)域,此時可以終止CTU 遞歸到更高的編碼深度,跳過對劃分結(jié)構(gòu)復(fù)雜和編碼深度較大的CU 進(jìn)行RD-cost 值的計算。
具體算法是首先將視頻序列分為原始算法幀和算法優(yōu)化幀,間隔為當(dāng)前視頻的幀率值;然后,在原始算法幀中,按照VVC 標(biāo)準(zhǔn)的幀內(nèi)預(yù)測的原始算法進(jìn)行編碼,并在編碼完成后,計算所有CTU 的方差值以及存儲各個CTU 內(nèi)所有CU 的深度值;最后,在算法優(yōu)化幀中,去除相同的方差值,并在計算上閾值時,將去重后的方差值按照從小到大的順序進(jìn)行排列,表示為[NPmin,NPmax ],而在計算下閾值時,將去重后的方差值按照從大到小的順序進(jìn)行排列,表示為[NPmax,NPmin]。
獲取上閾值的方法是首先遍歷[NPmin,NPmax ],以當(dāng)前NP 作為上閾值,統(tǒng)計滿足所有CTU 的方差值大于等于當(dāng)前CTU 的方差值且當(dāng)前CTU 內(nèi)的CU深度大于2 的CU 個數(shù),以及不滿足的CU 個數(shù),從而計算當(dāng)前NP 的劃分準(zhǔn)確率A。A 的計算如式(6)所示。式中:R 為正確劃分?jǐn)?shù),指滿足條件的CU 個數(shù);E 為錯誤劃分?jǐn)?shù),指不滿足條件的CU 個數(shù)。R 和E 的初始值均為0,在原始算法幀編碼結(jié)束后,根據(jù)式(7)和式(8)計算上閾值的R 和E。
獲取下閾值的方法和上閾值的相類似。不同之處是遍歷[NPmax,NPmin ],以當(dāng)前NP 作為下閾值,統(tǒng)計滿足所有CTU 的方差值小于等于當(dāng)前CTU 的方差值且當(dāng)前CTU 內(nèi)的CU 深度小于5 的CU 個數(shù),以及不滿足的CU 個數(shù)。
當(dāng)A 首次滿足準(zhǔn)確率的條件時,終止遍歷,并選取當(dāng)前的NP 的值為新的閾值,直到下一原始算法幀,重新計算NP 。為了權(quán)衡編碼時間和視頻質(zhì)量,在產(chǎn)生盡可能少的失真的同時,可以最大程度地節(jié)省編碼時間,本文通過大量實驗總結(jié)得出不同QP下的劃分準(zhǔn)確率的條件,如表1 所示。
將簡單CTU 的編碼深度設(shè)置為D4 = [0,4],復(fù)雜CTU 的編碼深度設(shè)置為D5 = [3,6],不更改一般CTU 的編碼深度區(qū)間,則此時各個CTU 的編碼深度區(qū)間可以通過式(9)確定。
式中:D4 、D5 為前文所定義的區(qū)間,DN2 為當(dāng)前CTU的編碼深度區(qū)間,SIMPLE、GENERAL 和COMPLEX分別為簡單CTU、一般CTU 和復(fù)雜CTU。
2. 3 基于空間相關(guān)性的CTU 深度決策方法
由于同一幀中的空間相鄰CU 通常具有相同或相似的紋理,故編碼深度具有較強的空間相關(guān)性。在VVC 標(biāo)準(zhǔn)中,幀內(nèi)預(yù)測按照Z 字形順序?qū)Γ茫?進(jìn)行編碼,在對當(dāng)前CTU 進(jìn)行編碼時,其左側(cè)相鄰的CTU 與上方相鄰的CTU 已經(jīng)完成編碼,因此可以利用這2 個相鄰CTU 的深度信息預(yù)測當(dāng)前CTU 的編碼深度范圍,以進(jìn)一步縮小當(dāng)前CTU 的編碼深度范圍,從而實現(xiàn)減少RDcost 的計算次數(shù),縮短編碼時間。
當(dāng)左側(cè)相鄰的CTU 與上方相鄰的CTU 的最大編碼深度均小于等于5,且當(dāng)前CTU 的最大編碼深度大于4 時,將當(dāng)前CTU 的最大編碼深度減1,最小編碼深度不變;而當(dāng)左側(cè)相鄰的CTU 與上方相鄰的CTU 的最小編碼深度均大于等于3,且當(dāng)前CTU 的最小編碼深度小于4 時,將當(dāng)前CTU 的最小編碼深度加1,最大編碼深度不變。此時各個CTU 的編碼深度區(qū)間表示方法如下:
式中:DN3 為當(dāng)前CTU 的編碼深度區(qū)間,Dl_max和Da_max 分別為左側(cè)和上方相鄰CTU 的最大編碼深度,Dl_min 和Da_min 分別為左側(cè)和上方相鄰CTU 的最小編碼深度,other 為除上述條件外的其他情況。
2. 4 基于梯度的CU 劃分模式?jīng)Q策方法
鑒于最大二叉樹尺寸和最大三叉樹尺寸都是32,且小CU 不會占用太多編碼時間,因此針對大小為32×32 的CU 做進(jìn)一步優(yōu)化。利用Sobel 梯度算子提取出的邊緣特征決定是否跳過垂直或水平劃分模式。
Sobel 算子使用2 個3×3 的卷積核,分別對圖像進(jìn)行水平和垂直方向的卷積運算。值得注意的是Sobel 算子在卷積運算時,無法對最外一圈的像素值做運算,因此,在計算梯度前先對原始視頻圖像的最外圈進(jìn)行像素值的填充。填充方法是對最頂行、最底行、最左列和最右列中的像素采用最近原則進(jìn)行填充,即在需要填充像素值的位置使用距離最近的像素值進(jìn)行填充,如圖3 所示,其中,W 和H 為原始視頻大小的寬和高,陰影部分表示原始視頻,白色部分為填充部分,每個小方塊均代表一個像素。
由Sobel 算子提取邊緣特征,得到邊緣圖后,將在邊緣圖中坐標(biāo)為(x,y)的像素值記錄為sobel(x,y)。如果sobel(x,y)不等于0,則將sobel(x,y)設(shè)為1,否則設(shè)為0;然后,使用VE 和HE 的比值來表示紋理方向的趨勢是水平或垂直。
VE 和HE 的計算如下:
式中:vei 和hei 分別為y = i 和x = i 時sobel(x,y)不為0 的邊緣點的數(shù)量,VE 為垂直方向上的邊緣長度,HE 為水平方向上的邊緣長度。
當(dāng)VE/HE>1 時,說明該CU 內(nèi)更多存在的是垂直方向上的紋理,更有可能采用垂直劃分模式進(jìn)行劃分該CU,因而,提前跳過水平劃分模式,即跳過BH 和TH 的劃分方式;當(dāng)HE/VE >1 時,說明該CU 的水平方向的紋理趨勢較強于垂直方向的紋理趨勢,提前跳過垂直劃分模式,即跳過BV 和TV 的劃分方式。
綜上所述,本文所提算法的流程如圖4 所示。判斷360°全景視頻的ERP 格式視頻序列的當(dāng)前幀是否為算法優(yōu)化幀。若當(dāng)前幀不是算法優(yōu)化幀,即為原始算法幀,采用VVC 標(biāo)準(zhǔn)的原始算法。若當(dāng)前幀為算法優(yōu)化幀,則首先根據(jù)當(dāng)前CTU 的權(quán)重值ωi判斷出當(dāng)前CTU 所處區(qū)域,初步確定當(dāng)前CTU 的深度范圍為DN1 ;其次判斷CTU 的方差var 與下閾值(Tl)和上閾值(Tt )的關(guān)系,從而判定出當(dāng)前CTU的紋理復(fù)雜度,得到當(dāng)前CTU 的深度范圍為DN2 ;然后結(jié)合左側(cè)相鄰的CTU、上方相鄰的CTU 和當(dāng)前CTU 的編碼深度,進(jìn)一步判斷出當(dāng)前CTU 的深度范圍為DN3 ;最后判斷當(dāng)前CU 尺寸是否為32×32,若是,則繼續(xù)判斷VE 和HE 之間的比值關(guān)系,并據(jù)此抉擇出是否跳過垂直或水平劃分模式,若否,則本文算法至此結(jié)束。
3 實驗結(jié)果
為驗證本文方法的性能,將本文提出的算法在JVET 提供的集成了360Lib 的官方參考軟件360Lib12. 0-VTM11. 0 上進(jìn)行測試。在全幀內(nèi)模式和通用測試條件[17]下對JVET 推薦的360°全景視頻序列進(jìn)行測試。編碼配置的量化參數(shù)QPs 指定為{22,27,32,37}。采用被廣泛認(rèn)可的客觀評價指標(biāo)BDPSNR 和BDBR 來評價本文提出的算法的編碼性能,同時,采用Time Reduction(TR)來表示編碼器復(fù)雜度的降低[18],計算如下:
式中:TVTM11. 0 表示原始算法的VVC 編碼器所耗費的編碼時間,TP 表示所提算法的VVC 編碼器所耗費的編碼時間。
所提算法和原始算法的對比結(jié)果如表2 所示??梢钥闯?,相對于原始算法,所提算法在BDBR 平均增加1. 665% 和BDPSNR 平均損失0. 076 dB 的前提下,編碼時間平均縮減了34. 33% 。在編碼效率損失方面,所提算法的編碼效率損失最低為0. 924% ,最高為2. 256% ;在時間節(jié)省方面,所提算法的時間節(jié)省最低為25. 21% ,最高為44. 50% ,平均為34. 33% ,說明所提算法針對不同類型的視頻序列均可以有效降低編碼的計算復(fù)雜度,提升編碼速度,并保證圖像質(zhì)量幾乎不變。
為了更直觀地表示編碼器性能的損失,將所提算法與VVC 原始算法的率失真曲線進(jìn)行比較,如圖5 所示。與VTM11. 0 標(biāo)準(zhǔn)算法相比,所提算法的率失真曲線和原始算法的率失真曲線非常接近。這表明對于不同分辨率大小且視頻內(nèi)容完全不同的測試序列,該算法對編碼時間均有不同程度的縮減,都降低了編碼復(fù)雜度,且視頻質(zhì)量損失可忽略不計。
人眼是視頻信號的最終接收方,因此,除客觀質(zhì)量評價指標(biāo)外,視頻的主觀質(zhì)量評價也較為重要。由于QP 越大,視頻質(zhì)量越低,使得通過主觀判斷原始算法和本文所提算法之間的差異越困難,本文截取了PoleVault_le 測試序列在QP 為22 時的解碼幀圖像,如圖6 所示。從圖6 中的原始算法和本文所提算法的解碼幀的對比圖以及相對應(yīng)的細(xì)節(jié)放大圖中,可以看出天空、房屋、樹木、人物及車輛等部分幾乎完全一樣。說明使用本文所提算法進(jìn)行編解碼的視頻序列在視頻質(zhì)量方面所造成的影響微乎其微。
4 結(jié)束語
為解決360°全景視頻編碼時間過長的問題,本文在VVC 標(biāo)準(zhǔn)的基礎(chǔ)上結(jié)合360°全景視頻在ERP格式映射過程中采樣不均勻的特點,提出了一種面向360°全景視頻的幀內(nèi)預(yù)測編碼的快速算法。該算法首先將視頻劃分為3 個區(qū)域,根據(jù)CTU 所處區(qū)域初步判定當(dāng)前CTU 的編碼深度范圍;然后,根據(jù)各個CTU 的方差值和自適應(yīng)更新的雙閾值對每個CTU 按照紋理復(fù)雜度進(jìn)行分類,以進(jìn)一步限制當(dāng)前CTU 的編碼深度范圍;最后,利用編碼深度信息的空間相關(guān)性,將相鄰CTU 的深度范圍作為參考,完成對當(dāng)前CTU 編碼深度范圍的最終決策。同時,針對大小為32 ×32 的CU,利用紋理信息跳過垂直或水平劃分模式,以優(yōu)化CU 劃分模式的選擇過程。實驗結(jié)果表明,與原始算法相比,在全幀內(nèi)模式下,該算法有效簡化了360°全景視頻的幀內(nèi)編碼CU 劃分決策過程,平均可以節(jié)省34. 33% 的時間復(fù)雜度,同時帶來的BDBR 平均增量僅為1. 665% ,BDPSNR的平均降低量僅為0. 076 dB。在幾乎不損失視頻質(zhì)量的情況下,所提算法降低了360°全景視頻的編碼復(fù)雜度,有效縮短了編碼時間。
參考文獻(xiàn)
[1] 帥鑫,卿粼波,何小海,等. 一種基于卷積神經(jīng)網(wǎng)絡(luò)的VVC 去壓縮偽影半盲方法[J]. 無線電工程,2022,52(10):1702-1709.
[2] ZHANG H C,YU L,LI T S,et al. Fast GLCMbased IntraBlock Partition for VVC [C]∥ 2021 Data CompressionConference (DCC). Snowbird:IEEE,2021:382.
[3] 萬帥,霍俊彥,馬彥卓,等. 新一代通用視頻編碼H.266 / VVC:原理,標(biāo)準(zhǔn)與實現(xiàn)[M]. 北京:電子工業(yè)出版社,2022.
[4] TSANG S H,CHAN Y L. 360degree Intra Coding Modefor Equirectangular Projection Format Videos[C]∥2020IEEE International Symposium on Circuits and Systems(ISCAS). Seville:IEEE,2020:1-5.
[5] 吳志強,郁梅,姜浩,等. 基于感興趣區(qū)域的360° 全景視頻編碼[J]. 激光與光電子學(xué)進(jìn)展,2018,55 (6):191-197.
[6] HE Y,VISHWANATH B. AHG8:Algorithm Description ofInterdigital’s Projection Format Conversion Tool (PCT360)[C]∥Joint Video Exploration Team (JVET)of ITUT SG16 WP 3 and ISO/ IEC JTC 1/ SC 29/ WG 11. Chengdu:[s.n. ],2016:560-569.
[7] WANG Y B,LI Y M,YANG D Q,et al. A Fast Intra Prediction Algorithm for 360degree Equirectangular PanoramicVideo[C]∥2017 IEEE Visual Communications and ImageProcessing (VCIP). St. Petersburg:IEEE,2018:1-4.
[8] WANG Y B,CHEN Z Z,LIU S. EquirectangularProjection Oriented Intra Prediction for 360degree VideoCoding[C]∥2020 IEEE International Conference on Visual Communications and Image Processing (VCIP ).Macau:IEEE,2020:483-486.
[9] LIU Z,XU C,ZHANG M M,et al. Fast Intra PredictionAlgorithm for Virtual Reality 360 Degree Video Based onImproved RMD[C]∥2019 Data Compression Conference(DCC). Snowbird:IEEE,2019:593.
[10] LIN J L,LIN L Q,LI W M,et al. Latitudebased FlexibleComplexity Allocation for 360degree Video Coding[J].IEEE Transactions on Broadcasting,2022,68 (3 ):572-581.
[11] BELING B,STORCH I,AGOSTINI L,et al. ERPbasedCTU Splitting Early Termination for Intra Prediction of360 Videos[C]∥2020 IEEE International Conference onVisual Communications and Image Processing (VCIP ).Macau:IEEE,2020:359-362.
[12] ZHANG M M,ZHANG J,LIU Z,et al. An EfficientCoding Algorithm For 360degree Video Based onImproved Adaptive QP Compensation and Early CU Partition Termination[J]. Multimedia Tools and Applications,2019,78(1):1081-1101.
[13] STORCH I,ZATT B,AGOSTINI L,et al. SpatiallyAdaptive Intra Mode Preselection for ERP 360 VideoCoding [C ]∥ 2020 IEEE International Conference onAcoustics,Speech and Signal Processing (ICASSP). Barcelona:IEEE,2020:2178-2182.
[14] LI W,FAN C X,REN P. Fast Intrapicture Partitioningfor Versatile Video Coding[C]∥2020 IEEE 5th International Conference on Signal and Image Processing (ICSIP). Nanjing:IEEE,2020:108-111.
[15] BOSSEN F,SUHRING K,WIECKOWSKI A,et al. VVCComplexity and Software Implementation Analysis [J].IEEE Transactions on Circuits and Systems for VideoTechnology,2021,31(10):3765-3778.
[16] YE Y,BOYCE J M,HANHART P. Omnidirectional 360°Video Coding Technology in Responses to the Joint Callfor Proposals on Video Compression with CapabilityBeyond HEVC [J]. IEEE Transactions on Circuits andSystems for Video Technology,2019,30(5):1241-1252
[17] BOYCE J M,ALSHINA E,ABBAS A,et al. JVETD1030:JVET Common Test Conditions and EvaluationProcedures for 360° Video[C]∥ITUT SG 16 WP 3 andISO / IEC JTC 1 / SC 29 / WG 11 7th Meeting. Torino:[s.n. ],2016:1205-1213.
[18] ZHANG M L,CHEN Y S,LU X,et al. Fast Coding UnitPartition Decision for Intra Prediction in Versatile VideoCoding[C]∥The 11th International Conference on Imageand Graphics (ICIG 2021). Haikou:ACM,2021:700-711.
作者簡介
金雪松 男,(1975—),博士,教授。主要研究方向:圖像處理與模式識別、深度學(xué)習(xí)。
王田田 女,(1997—),碩士研究生。主要研究方向:視頻編碼。
基金項目:黑龍江省自然科學(xué)基金(F2018020)