于 源 賈克斌
(北京工業(yè)大學(xué)信息學(xué)部 北京 100124)
(北京工業(yè)大學(xué)計(jì)算智能與智能系統(tǒng)北京市重點(diǎn)實(shí)驗(yàn)室 北京 100124)
(先進(jìn)信息網(wǎng)絡(luò)北京實(shí)驗(yàn)室 北京 100124)
目前,在日常生活中廣泛應(yīng)用的視頻編碼標(biāo)準(zhǔn)是H.264/AVC(advanced video coding)標(biāo)準(zhǔn)[1]。然而,在有限的網(wǎng)絡(luò)帶寬和存儲(chǔ)資源下,該標(biāo)準(zhǔn)已逐漸難以滿足高分辨率視頻業(yè)務(wù)對(duì)于高效率編碼的要求。為此,新一代編碼標(biāo)準(zhǔn)H.265/HEVC(high efficiency video coding)[2]應(yīng)運(yùn)而生。由于在二維視頻編碼中H.265/HEVC 標(biāo)準(zhǔn)展現(xiàn)了其高效性,因而基于H.264/AVC 的三維視頻編碼標(biāo)準(zhǔn)(three dimensional AVC,3D-AVC)也發(fā)展到了基于H.265/HEVC的3D-HEVC 標(biāo)準(zhǔn),該標(biāo)準(zhǔn)是目前最新一代的3D 視頻編碼標(biāo)準(zhǔn)。
以往的多視點(diǎn)視頻編碼(muliti-view video coding,MVC)[3]不包括深度信息,因而不能使用基于深度圖的繪制技術(shù)(depth image based rendering,DIBR)[4]來合成虛擬視點(diǎn),相比之下加入了深度圖的3D-HEVC 標(biāo)準(zhǔn)的顯示效果更好且范圍更廣。然而,3D-HEVC 標(biāo)準(zhǔn)需要對(duì)多個(gè)視點(diǎn)中的紋理圖和對(duì)應(yīng)深度圖進(jìn)行編碼,這導(dǎo)致數(shù)據(jù)量急劇增加。該標(biāo)準(zhǔn)下各個(gè)視點(diǎn)中的紋理圖和深度圖仍以HEVC 標(biāo)準(zhǔn)的編碼框架為基礎(chǔ)[5]。H.265/HEVC 的編碼復(fù)雜度相對(duì)于H.264/AVC 增加了253%,其中基于四叉樹結(jié)構(gòu)的編碼單元(coding unit,CU)[6]遞歸劃分技術(shù)是編碼復(fù)雜度提升的主要源頭,判斷其劃分過程就占據(jù)了整體編碼時(shí)間的80%[7]左右。3D-HEVC繼承了HEVC 中的這種劃分結(jié)構(gòu),且所有視點(diǎn)中的紋理圖和深度圖均需要進(jìn)行該種劃分過程。在這個(gè)過程中,從最小尺寸8 ×8 的CU 到最大尺寸64 ×64的CU 中所有可能的劃分方式均要先計(jì)算率失真成本(rate-distortion cost,RDCost),隨后選取RDCost 值最低的劃分方式為當(dāng)前編碼樹單元(coding tree unit,CTU)的最終劃分結(jié)構(gòu),對(duì)當(dāng)前幀的所有CU 進(jìn)行處理后即可得到該幀的最終劃分結(jié)果。在待編碼CU 的劃分過程中,需要在多達(dá)35 種HEVC 原有的幀內(nèi)預(yù)測模式以及3D-HEVC 中加入的深度建模模式(depth modeling mode,DMM)DMM1 和DMM4 中依據(jù)RDCost 進(jìn)行最優(yōu)幀內(nèi)模式的選擇,大幅提高了編碼復(fù)雜度。本文也將從這一點(diǎn)出發(fā),提出優(yōu)化算法來加快深度圖幀內(nèi)CU 劃分過程,提高編碼效率。
現(xiàn)有的降低3D-HEVC 幀內(nèi)編碼復(fù)雜度的研究可主要分為2 類,包括預(yù)測模式快速?zèng)Q策算法和CU尺寸快速?zèng)Q策算法。文獻(xiàn)[8]使用Canny 算子和Hough 變換處理深度圖中所具有的獨(dú)特的邊緣信息,最終跳過計(jì)算復(fù)雜度高的DMM1 模式,加快幀內(nèi)預(yù)測模式選擇過程。此外,各向同性的Sobel 算子也可以被用來檢測預(yù)測單元的紋理復(fù)雜度和邊緣方向[9]。
由于幀內(nèi)CU 劃分具有的特點(diǎn),機(jī)器學(xué)習(xí)相關(guān)的方法也廣泛應(yīng)用到降低3D-HEVC 深度圖編碼計(jì)算復(fù)雜度的工作中。比較有代表性的算法如基于靜態(tài)決策樹的快速深度圖編碼算法[10]和利用多個(gè)決策樹進(jìn)行幀內(nèi)編碼單元?jiǎng)澐稚疃仍缙跊Q策的算法[11]。但是,上述方法都是基于概率或人工特征判斷,缺乏魯棒性。近些年深度學(xué)習(xí)快速發(fā)展,有效克服了傳統(tǒng)機(jī)器學(xué)習(xí)方法中存在的這些弊端。如文獻(xiàn)[12]中使用10 層的快速選擇卷積神經(jīng)網(wǎng)絡(luò)(fast selecting CU’ s depth-convolutional neural network,FSCD-CNN)對(duì)深度圖CU 的分類進(jìn)行學(xué)習(xí),加快視頻編碼的速度。文獻(xiàn)[13]使用整體嵌套邊緣檢測(holistically-nested edge detection,HED)[14]網(wǎng)絡(luò)來檢測深度圖的邊緣,通過對(duì)邊緣復(fù)雜度進(jìn)行提前判斷來簡化劃分深度選擇過程,實(shí)現(xiàn)快速編碼。為了加快所有視點(diǎn)下深度圖的編碼過程,本文使用所提出的算法對(duì)深度視頻進(jìn)行CU 劃分深度預(yù)測,并使用其來替換原始編碼器HTM 中的深度圖CU 劃分過程,顯著地提高了編碼效率。本方法的參數(shù)量相比復(fù)雜的網(wǎng)絡(luò)更低,計(jì)算時(shí)間也較少,可以在未來更加易于部署到硬件中實(shí)現(xiàn)。
如圖1 所示,3D-HEVC 標(biāo)準(zhǔn)中同一時(shí)刻的所有視點(diǎn)的紋理圖及深度圖組成一個(gè)處理單元(access unit,AU),并以此作為單位按照時(shí)間順序進(jìn)行編碼。為了保證編碼質(zhì)量,獨(dú)立視點(diǎn)按照原始的HEVC 標(biāo)準(zhǔn)進(jìn)行編碼,依賴視點(diǎn)采用擴(kuò)展后的HEVC 標(biāo)準(zhǔn)進(jìn)行編碼。該擴(kuò)展過程中加入了更加適用于深度圖編碼以及多視點(diǎn)視頻編碼的新技術(shù),如基于深度圖特點(diǎn)提出了新的幀內(nèi)預(yù)測模式,深度建模模式DMMs等,然而新模式的加入使得深度圖幀內(nèi)CU 劃分的復(fù)雜度再次增加。
圖1 3D-HEVC 多視點(diǎn)標(biāo)準(zhǔn)編碼順序
其中,占據(jù)編碼復(fù)雜度最高的CTU 劃分過程的具體劃分方式如圖2 所示。
圖2 CTU 劃分結(jié)構(gòu)示意圖
3D-HEVC 標(biāo)準(zhǔn)下的幀內(nèi)CU 采用四叉樹結(jié)構(gòu)進(jìn)行劃分。如圖2 所示,待編碼的圖像以CTU 為單位進(jìn)行劃分,默認(rèn)情況下CTU 的尺寸為64 ×64,該尺寸的CTU 稱作最大編碼單元(largest coding unit,LCU)。CTU 可以包含單個(gè)CU,即CTU 不再進(jìn)一步劃分,也可以根據(jù)四叉樹結(jié)構(gòu)遞歸拆分成多個(gè)較小的CU,如圖中不同劃分深度下不同尺寸的CU,最小尺寸默認(rèn)值為8 ×8。
每個(gè)CTU 中的CU 大小是通過蠻力率失真優(yōu)化搜索來進(jìn)行確定的,包括從父CU 到子CU 由上而下的檢查過程以及由子CU 到父CU 的比較過程。在檢查過程中,編碼器需要檢查整個(gè)CTU 的率失真代價(jià),隨后對(duì)其子CU 進(jìn)行檢查,此過程由上到下進(jìn)行,直到CU 尺寸達(dá)到最小。父CU 的率失真代價(jià)使用Rparent表示,其子CU 率失真代價(jià)表示為{1,2,3,4})。根據(jù)父CU 和其對(duì)應(yīng)的子CU 的率失真代價(jià),進(jìn)行由下至上的比較過程來判斷是否拆分父CU。若滿足≥Rparent,則父CU 不進(jìn)行拆分;若滿足<Rparent,則父CU 將被拆分。在決定是否拆分時(shí),要考慮劃分標(biāo)志的率失真代價(jià)。在經(jīng)過完整的率失真優(yōu)化搜索后,最終率失真代價(jià)最小的CU 劃分結(jié)構(gòu)將會(huì)被采納。
從圖3 以及圖4 中的數(shù)據(jù)統(tǒng)計(jì)結(jié)果可以看出,深度圖中包含大面積的平坦區(qū)域,這使得50%左右的CU 的劃分深度為0,即所有待劃分的CTU 中約一半是不需要進(jìn)行劃分的,然而這些不需劃分的CU在標(biāo)準(zhǔn)編碼器HTM中仍要進(jìn)行率失真成本的計(jì)算等不必要的復(fù)雜操作,這就導(dǎo)致深度圖編碼時(shí)間急劇增加。從圖5 中可以看到,在不同的量化參數(shù)(quantization parameter,QP)值下,深度圖編碼時(shí)間占總編碼時(shí)間的86%~88%,即基于3D-HEVC 的多視點(diǎn)編碼過程中,深度圖的編碼占據(jù)了絕大多數(shù)編碼時(shí)間,因而急需對(duì)深度圖編碼過程進(jìn)行優(yōu)化。
圖3 深度圖特性
圖4 深度圖劃分深度統(tǒng)計(jì)
圖5 編碼時(shí)間分布
表1 中所示的是構(gòu)建深度圖劃分?jǐn)?shù)據(jù)集所使用的視頻及各項(xiàng)參數(shù)。構(gòu)建的數(shù)據(jù)集將用于后續(xù)的網(wǎng)絡(luò)訓(xùn)練。由于3D-HEVC 標(biāo)準(zhǔn)測試序列數(shù)量有限,為了盡量擴(kuò)大數(shù)據(jù)集的數(shù)量和種類,選擇的視頻數(shù)量較多,且為了避免訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)出現(xiàn)重疊,將訓(xùn)練幀和測試幀以至少50 幀完全間隔開。
表1 深度劃分?jǐn)?shù)據(jù)集
圖6 展示的是本文的整體算法流程。由于深度圖中包含大面積平坦區(qū)域以及分割平坦區(qū)域的邊緣部分,因而本文選擇搭建2 個(gè)通道的特征傳遞層來更有效地提取特征。在預(yù)處理部分,將深度視頻的待編碼幀裁剪成64 ×64 尺寸的LCU,傳入網(wǎng)絡(luò)。其中一個(gè)通道進(jìn)行平均池化操作至16 ×16,另一通道仍保持64 ×64。對(duì)圖像進(jìn)行平均池化,將多個(gè)像素值求和并平均后,可突出背景特征,從而使提取到的特征更加多樣。
圖6 算法整體流程
下一個(gè)部分為使用卷積層特征提取模塊來對(duì)視頻中具有的空間信息進(jìn)行多尺度融合。由于CTU編碼過程中CU 的長度為2 的倍數(shù),因而為了不重疊地提取視頻的特征,在特征傳遞層中卷積操作對(duì)應(yīng)的卷積核(filter)尺寸分別為4 ×4、2 ×2 以及2 ×2。將2 個(gè)通道中后2 個(gè)卷積層所提取出的特征,如式(1)所示,輸入到后續(xù)的全連接層中學(xué)習(xí)2 個(gè)通道之間的非線性關(guān)系。
分別經(jīng)過2 個(gè)全連接層和softmax 層后輸出尺寸為1 +2 ×2 +4 ×4=21 大小的劃分預(yù)測信息Infosplit。由于QP 值的大小對(duì)于視頻編碼質(zhì)量有著非常大的影響,因此將歸一化后的QP 值作為特征進(jìn)行了融合。由于HEVC 標(biāo)準(zhǔn)規(guī)定了52 個(gè)量化步長,對(duì)應(yīng)于52 個(gè)QP(0~51),因此將QP 值通過與相乘歸一化至0~1 之間。將歸一化后的QP 值與第1 個(gè)全連接層的輸出進(jìn)行拼接,將特征組合到一起,隨后進(jìn)行下一步全連接操作,將QP 值與特征進(jìn)行進(jìn)一步融合。最終得到的Infosplit將用于判斷劃分深度為0 的64 ×64、劃分深度為1 的32 ×32 以及劃分深度為2 的16 ×16 尺寸的CU 是否需要進(jìn)一步劃分。對(duì)于本文所研究的問題來說,僅存在CU劃分以及不劃分2 種狀態(tài),因而得到的預(yù)測信息Infosplit最終經(jīng)過與固定閾值0.5 進(jìn)行比較,若Infosplit>0.5 則進(jìn)一步劃分,否則不再進(jìn)行下一深度的劃分。若在劃分深度為0 時(shí),網(wǎng)絡(luò)預(yù)測得到<0.5 成立,則可以提前終止對(duì)是否進(jìn)一步劃分的判斷。這就是整個(gè)兩通道多層特征傳遞卷積神經(jīng)網(wǎng)絡(luò)(two-channel feature transfer convolutional neural network,T-CNN)的結(jié)構(gòu)。
此網(wǎng)絡(luò)將作為劃分深度預(yù)測模塊,在HTM 標(biāo)準(zhǔn)編碼器中替換掉復(fù)雜的CU 劃分深度決策過程,加快深度圖幀內(nèi)CU 劃分。具體流程為:開始編碼后,在編碼到深度圖時(shí)會(huì)觸發(fā)預(yù)測網(wǎng)絡(luò),得到預(yù)測信息后直接跳過標(biāo)準(zhǔn)的CU 劃分深度決策過程;在3 個(gè)視點(diǎn)中均進(jìn)行這樣的操作,編碼器其余部分繼續(xù)進(jìn)行后面的編碼相關(guān)工作,最終輸出編碼后的比特流以及解碼出用于進(jìn)行質(zhì)量評(píng)估的視頻信號(hào),編碼結(jié)束。
實(shí)驗(yàn)中使用的是3D-HEVC 標(biāo)準(zhǔn)測試視頻序列:Balloons(1024 × 768)、Kendo(1024 × 768)、Newspaper(1024 × 768)、Poznan_Hall2(1920 ×1088)、Poznan_Street(1920 × 1088)以及Undo_Dancer(1920 ×1088)。編碼時(shí)對(duì)每個(gè)測試序列編碼3 個(gè)視點(diǎn)(主視點(diǎn)、依賴視點(diǎn)1 以及依賴視點(diǎn)2)。紋理圖中的QP 值以及與其對(duì)應(yīng)的深度圖的QP 值設(shè)置為(25,34)、(30,39)、(35,42)和(40,45)。其中,Balloons、Kendo 和Newspaper的幀率為30,Poznan_Hall2、Poznan_Street 以及Undo_Dancer 的幀率為25,視頻序列的編碼幀數(shù)為50幀。
為了對(duì)實(shí)驗(yàn)結(jié)果有一致的衡量標(biāo)準(zhǔn),實(shí)驗(yàn)均是在配置為AMD Ryzen 7 4800H、Radeon Graphics 2.90 GHz、64 位Windows 10 操作系統(tǒng)的計(jì)算機(jī)上進(jìn)行的。訓(xùn)練階段使用的顯卡為GeForce RTX 2060,實(shí)際編碼過程中調(diào)用模型時(shí)僅使用CPU。為了驗(yàn)證所提出算法的性能,采用全幀內(nèi)(all intra,AI)編碼模式在3D-HEVC 測試平臺(tái)HTM-16.0 上進(jìn)行測試。編譯軟件為Visual Studio 2019,集成開發(fā)環(huán)境PyCharm,深度學(xué)習(xí)庫Tensorflow-GPU 1.13.1。
進(jìn)行結(jié)果分析時(shí),算法的率失真性能使用BDrate(bj?ntegaard delta bitrate)來進(jìn)行評(píng)價(jià)。表2 中視頻PSNR/視頻比特率表示編碼紋理視圖相對(duì)于視頻比特率的BD-rate,視頻PSNR/總比特率表示編碼紋理視圖相對(duì)于總比特率的BD-rate。
表2 率失真性能評(píng)價(jià)
下文中使用T代表編碼時(shí)間,ΔT代表加入本算法后所節(jié)省的編碼時(shí)間在原始編碼時(shí)間中的占比,用來表示算法的時(shí)間復(fù)雜度的下降,其計(jì)算公式如式(2)所示。
其中,Tori為原始編碼器HTM-16.0 的編碼時(shí)間,Tnew為加入本算法后的HTM 編碼時(shí)間。
從表2 可以得出,與原始編碼器HTM-16.0 的編碼性能相比,編碼視圖的平均BD-rate 損失為1.4%,率失真性能沒有出現(xiàn)明顯的下降,在分辨率為1920 ×1088 尺寸的視頻中,效果要優(yōu)于低分辨率1024 ×768 的視頻。圖7 顯示了不同QP 值下原始編碼器與加入本文算法后的編碼器最終合成的虛擬視點(diǎn)對(duì)比圖,從主觀上可看出并未出現(xiàn)明顯失真。
使用本算法進(jìn)行單個(gè)視點(diǎn)下深度圖CU 劃分深度預(yù)測所需時(shí)間不超過2.5 s,最多占據(jù)編碼時(shí)間的0.1%。表3 將本文算法與其他研究者所提出的算法在編碼復(fù)雜度降低程度上進(jìn)行了對(duì)比。從表中可以看到,與文獻(xiàn)[11,12,15]中的算法相比,加入本文算法后,平均可節(jié)省76.62%的編碼時(shí)間,顯著降低了編碼復(fù)雜度。
表4 列出了實(shí)驗(yàn)過程中所用的測試視頻所具有的特征,從中可以看到,測試視頻的分辨率以及視頻所具有的特征種類較為多樣。結(jié)合表2 以及表3 的實(shí)驗(yàn)結(jié)果,可以得出算法魯棒性較好,尤其在更高分辨率、具有更多平坦區(qū)域的視頻中性能出色,可在新的測試數(shù)據(jù)上進(jìn)行很好地預(yù)測。在對(duì)具有少量平坦區(qū)域的視頻進(jìn)行預(yù)測時(shí),精度仍有提升的空間。
表4 測試視頻所具有的特征
本文通過對(duì)3D-HEVC 標(biāo)準(zhǔn)編碼復(fù)雜度進(jìn)行分析,找出編碼復(fù)雜度過高的深度圖幀內(nèi)CU 劃分過程,針對(duì)于這一點(diǎn)建立了深度圖幀內(nèi)CU 劃分深度數(shù)據(jù)集,并進(jìn)一步提出了3D-HEVC 深度圖幀內(nèi)快速編碼算法。通過使用兩通道多層特征傳遞卷積神經(jīng)網(wǎng)絡(luò)T-CNN,替代各個(gè)視點(diǎn)下深度圖幀內(nèi)CU 復(fù)雜的深度劃分過程,可以在保證合成視點(diǎn)質(zhì)量的同時(shí),顯著降低編碼復(fù)雜度。結(jié)果表明,編碼時(shí)間平均可降低76%,提升了編碼效率。