国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

新一代通用視頻編碼標(biāo)準(zhǔn)H.266/VVC:現(xiàn)狀與發(fā)展

2024-04-10 07:49萬帥霍俊彥馬彥卓楊付正
西安交通大學(xué)學(xué)報 2024年4期
關(guān)鍵詞:矢量濾波像素

萬帥,霍俊彥,馬彥卓,楊付正

(1. 西北工業(yè)大學(xué)電子信息學(xué)院,710129,西安; 2. 皇家墨爾本理工大學(xué)工程學(xué)院,VIC3001,澳大利亞墨爾本; 3. 西安電子科技大學(xué)通信工程學(xué)院,710071,西安)

作為一種主要通過視覺來感知世界的生物,人類對于視覺媒體的需求是天然的,并且隨著信息技術(shù)的發(fā)展與日俱增。近年來,視頻應(yīng)用逐漸呈現(xiàn)出兩大趨勢:高清化與多樣化。一方面,高清、超高清視頻的獲取成本大大降低,隨之而來的則是爆發(fā)式的數(shù)據(jù)增量。另一方面,互聯(lián)網(wǎng)生態(tài)的不斷豐富也促生了各式各樣的視頻應(yīng)用。人們不再滿足于被動觀看,而是熱衷于主動進(jìn)行記錄和分享(如短視頻、運(yùn)動攝影)、通過視頻進(jìn)行交互(如視頻會議、屏幕內(nèi)容分享、游戲視頻)、參與沉浸式體驗(如360°全景視頻、多視角立體視頻)等。相應(yīng)地,各類視頻應(yīng)用涉及的視頻格式多樣、特色各異,為視頻壓縮編碼的統(tǒng)一架構(gòu)和普遍有效性帶來挑戰(zhàn)。

針對大幅提高編碼效率和應(yīng)對多樣化視頻類型的迫切需求,國際電信聯(lián)盟ITU-T的視頻編碼專家組與國際標(biāo)準(zhǔn)化組織ISO/IEC的運(yùn)動圖像專家組于2015年組建聯(lián)合視頻探索小組(Joint Video Exploration Team, JVET),共同開展新一代視頻編碼國際標(biāo)準(zhǔn)的制定工作。值得一提的是,這兩個組織曾經(jīng)有過3次非常成功的合作:DVD的核心技術(shù)H.262/MPEG-2標(biāo)準(zhǔn)[1],獲得廣泛應(yīng)用的先進(jìn)視頻編碼H.264/AVC標(biāo)準(zhǔn)[2],壓縮性能突出的高效視頻編碼H.265/HEVC標(biāo)準(zhǔn)[3]。

經(jīng)過兩年的探索,JVET在Joint Exploration Model(JEM)參考軟件平臺[4]上取得了較好的編碼增益,為新一代視頻編碼標(biāo)準(zhǔn)的研發(fā)做好了技術(shù)儲備。2018年4月,JVET將新一代標(biāo)準(zhǔn)命名為通用視頻編碼(versatile video coding, VVC)[5]。VVC 標(biāo)準(zhǔn)的目標(biāo)是以統(tǒng)一架構(gòu)編碼不同類別的視頻。在同一次會議上,JVET建立了第一版VVC測試模型(VVC test model, VTM)[6],正式開啟了VVC標(biāo)準(zhǔn)的制定。2018年4月—2020年7月是VVC標(biāo)準(zhǔn)形成的關(guān)鍵時期,期間JVET共召開了10次會議,對6 000多份技術(shù)提案進(jìn)行了深入討論,將性能優(yōu)異的工具采納至標(biāo)準(zhǔn)。在這個過程中,VTM編碼性能迅速提升,標(biāo)志著VVC標(biāo)準(zhǔn)的快速發(fā)展。2020年7月,隨著JVET會議落下帷幕,通用視頻編碼標(biāo)準(zhǔn)VVC正式形成[7]。隨后,ITU-T批準(zhǔn)VVC標(biāo)準(zhǔn)并正式定名為ITU-T H.266。因此,在正式場合通常將該標(biāo)準(zhǔn)寫為H.266/VVC[8]。

H.266/VVC標(biāo)準(zhǔn)的編碼性能卓越。相比H.265/HEVC,H.266/VVC在同等質(zhì)量的條件下能夠節(jié)省大約50%的碼率[9]。同時,其解碼復(fù)雜度不超過H.265/HEVC的兩倍,編碼復(fù)雜度增加與壓縮性能增益基本保持正比。此外,H.266/VVC標(biāo)準(zhǔn)能夠應(yīng)對更多樣的視頻格式和內(nèi)容,為已有和新興的視頻應(yīng)用提供高效、靈活、統(tǒng)一的編碼壓縮框架。H.266/VVC出色的編碼性能來源于其在標(biāo)準(zhǔn)化過程中引入的新型編碼工具和語法架構(gòu)[7-11],本文將對H.266/VVC關(guān)鍵技術(shù)進(jìn)行梳理和剖析。

H.266/VVC標(biāo)準(zhǔn)面向廣泛的應(yīng)用場景,除了電視廣播、視頻會議、視頻點(diǎn)播等傳統(tǒng)業(yè)務(wù),還包括自適應(yīng)視頻流、屏幕內(nèi)容視頻、多視點(diǎn)視頻、可分層視頻、全景視頻等新興業(yè)務(wù)。目前,H.266/VVC標(biāo)準(zhǔn)已經(jīng)處于實用化階段。在標(biāo)準(zhǔn)參考軟件VTM的基礎(chǔ)上,工業(yè)界開發(fā)了更為高效的軟硬件編解碼實現(xiàn),如開源編解碼器[12]、商用編解碼器、播放器、比特流分析軟件等[13],隨之涌現(xiàn)出各式各樣相關(guān)應(yīng)用。H.266/VVC標(biāo)準(zhǔn)也受到應(yīng)用類標(biāo)準(zhǔn)的認(rèn)可,現(xiàn)已被歐洲電信標(biāo)準(zhǔn)協(xié)會數(shù)字視頻廣播標(biāo)準(zhǔn)以及巴西下一代廣播電視標(biāo)準(zhǔn)采納[13]。與此同時,視頻編解碼標(biāo)準(zhǔn)并未停止演進(jìn)的步伐。在標(biāo)準(zhǔn)制定完成之后,JVET圍繞提高視頻編解碼性能進(jìn)行著持續(xù)的探索,形成了兩大探索方向:超越VVC的增強(qiáng)壓縮(enhanced compression beyond VVC capability, beyond VVC)[14]和基于神經(jīng)網(wǎng)絡(luò)的視頻編碼(neural network-based video coding, NNVC)[15]。本文針對H.266/VVC標(biāo)準(zhǔn)的編解碼器實現(xiàn)和未來技術(shù)發(fā)展走向進(jìn)行了探討與展望。

1 H.266/VVC 關(guān)鍵技術(shù)

視頻編碼的關(guān)鍵技術(shù)包含高層語法設(shè)計和編碼工具兩大方面。H.266/VVC沿用了既往標(biāo)準(zhǔn)中的雙層碼流體系,包含視頻編碼層(video coding layer, VCL)和網(wǎng)絡(luò)適配層(network abstract layer, NAL)。原始視頻數(shù)據(jù)劃分為編碼單元后送入混合編碼框架進(jìn)行編碼,遵循標(biāo)準(zhǔn)語法描述生成VCL比特流,再與對應(yīng)高層語法一起組合、封裝,構(gòu)成NAL單元(NAL unit, NALU)。NALU可以作為載荷直接在網(wǎng)絡(luò)上進(jìn)行傳輸。

1.1 碼流結(jié)構(gòu)

H.266/VVC的編碼比特流可包含一個或多個編碼視頻序列(coded video sequence, CVS)。CVS是時域獨(dú)立可解碼的基本單元,每個CVS以幀內(nèi)隨機(jī)接入點(diǎn)圖像或逐漸解碼刷新圖像作為起始。CVS 碼流結(jié)構(gòu)如圖1所示。每個CVS包含一個或多個按解碼順序排列的訪問單元(access unit, AU)。每個AU包含一個或多個同一時刻的圖像單元(picture unit, PU),每個PU包含且僅包含一幅完整圖像的編碼數(shù)據(jù)。當(dāng)一個AU包含多個PU時,每個PU可以是特定質(zhì)量或分辨率(可分級視頻流)圖像,也可以是多視點(diǎn)視頻的某一視點(diǎn),以及深度、反射率等屬性信息。AU中的不同PU被歸屬為不同的層,一個CVS中所有同層的PU 組成了編碼視頻序列層(coded layer video sequence, CLVS)。

圖1 CVS結(jié)構(gòu)Fig.1 CVS structure

每個PU為一幅圖像的碼流,包含一個或多個片(slice)。片與片之間進(jìn)行獨(dú)立編解碼,該設(shè)計有利于在數(shù)據(jù)丟失時進(jìn)行重新同步。slice編碼數(shù)據(jù)打包形成的NALU稱為VCL NALU。除此之外,PU還包含非VCL NALU,如參數(shù)集、訪問單元分割符等。參數(shù)集包含視頻中不同層級編碼單元的共用信息,是獨(dú)立編碼的數(shù)據(jù)類型。其中,視頻參數(shù)集承載視頻分級的信息,表達(dá)PU間的依賴關(guān)系,配合參考幀管理支持可分級視頻編碼、多視點(diǎn)視頻編碼等需求。序列參數(shù)集包含CVS的共用編碼參數(shù),如圖像格式、編碼塊尺寸限制、檔次與層級等。H.266/VVC標(biāo)準(zhǔn)新引入了自適應(yīng)參數(shù)集、解碼能力信息等參數(shù)集。

參數(shù)集作為非VCL NALU進(jìn)行傳輸,為傳遞關(guān)鍵數(shù)據(jù)提供了高魯棒機(jī)制。參數(shù)集的獨(dú)立性使得其可以提前發(fā)送,也可以在需要增加新參數(shù)集的時候再發(fā)送。參數(shù)集可以被多次重發(fā)或者采用特殊技術(shù)加以保護(hù),甚至采用帶外發(fā)送的方式。

slice頭及其之上的語法結(jié)構(gòu)通常稱為高層語法。高層語法設(shè)計的目的是為了網(wǎng)絡(luò)傳輸和存儲的需要,對視頻編碼數(shù)據(jù)進(jìn)行有效組織和封裝,保證碼流接口的友好性、隨機(jī)接入性、誤碼恢復(fù)能力、互動性、向后兼容性等。網(wǎng)絡(luò)適配層是高層語法中最關(guān)鍵的組成之一。視頻壓縮數(shù)據(jù)根據(jù)其內(nèi)容特性被分成具有不同特性的NALU,并對NALU的內(nèi)容特性進(jìn)行標(biāo)識。網(wǎng)絡(luò)可以根據(jù)NALU及其標(biāo)識優(yōu)化視頻傳輸性能,不再需要具體分析視頻數(shù)據(jù)的內(nèi)容特性。H.266/VVC高層語法的詳細(xì)信息可參考文獻(xiàn)[16]。

1.2 編碼框架

類似于H.265/HEVC,H.266/VVC仍采用基于編碼樹單元(coding tree unit, CTU)的劃分結(jié)構(gòu)。待編碼圖像首先被分割成slice,每個slice由相同大小的CTU組成。為匹配4K、8K等視頻的編碼需求,H.266/VVC中CTU亮度塊的最大允許尺寸為128×128像素。每個CTU按照二叉樹、三叉樹、四叉樹遞歸劃分為不同尺寸的編碼單元(coding unit, CU)[17]作為大多數(shù)編碼工具的基本單位。slice到CU的劃分結(jié)構(gòu)如圖2所示。

圖2 slice到CU之間的劃分示例Fig.2 Example of partitioning slice into CU

H.266/VVC整體編碼框架如圖3所示。對每個CU進(jìn)行編碼時,通常流程如下:首先,通過幀內(nèi)或幀間預(yù)測去除圖像的空、時間相關(guān)性;再次,將預(yù)測殘差送入變換模塊生成能量較為集中的變換系數(shù);之后,將變換系數(shù)送到量化模塊實現(xiàn)多對一的映射;最后,再送入熵編碼模塊以輸出碼流。為了得到與解碼器一致的重建信號,H.266/VVC編碼器包含完整的解碼器,如圖3中黃色底色部分所示。編碼控制模塊往往通過拉格朗日率失真優(yōu)化[18-19]選擇最優(yōu)的編碼參數(shù)[20]。H.266/VVC在圖3所示的各個模塊都引入了新工具,下文將分模塊進(jìn)行介紹。

圖3 H.266/VVC編碼框架Fig.3 Framework of H.266/VVC encoding

1.3 幀內(nèi)預(yù)測編碼

幀內(nèi)預(yù)測編碼使用當(dāng)前圖像內(nèi)已編碼像素值預(yù)測待編碼像素值,從而有效去除視頻空域相關(guān)性。H.266/VVC的幀內(nèi)預(yù)測包含參考像素獲取、預(yù)測值計算和預(yù)測值修正3個步驟[21],如圖4所示。圖中{}里的內(nèi)容為H.266/VVC采用的代表性技術(shù)。

圖4 H.266/VVC幀內(nèi)預(yù)測編碼Fig.4 H.266/VVC intra prediction coding

在獲取參考像素時,H.266/VVC允許使用鄰近額外2行/列參考像素[22],擴(kuò)展了參考像素范圍。為提高角度預(yù)測的準(zhǔn)確性,H.266/VVC引入了高效插值濾波器。傳統(tǒng)的預(yù)測模式包括平面、直流和65種角度模式,以適配具有不同紋理特性的編碼塊。對于寬高不等的矩形塊,H.266/VVC引入寬角度模式[23]。此外,幀內(nèi)子區(qū)域劃分[24]使用重建子區(qū)域作為后續(xù)子區(qū)域的參考。H.266/VVC還引入位置相關(guān)的幀內(nèi)聯(lián)合預(yù)測(position dependent intra prediction combination, PDPC)[25],利用空間相關(guān)性強(qiáng)的參考像素對預(yù)測值進(jìn)行修正。

基于矩陣的幀內(nèi)預(yù)測(matrix-based intra prediction, MIP)模式是H.266/VVC中采用神經(jīng)網(wǎng)絡(luò)思想的新技術(shù)。MIP源于多層神經(jīng)網(wǎng)絡(luò)[26-27],為權(quán)衡計算復(fù)雜度,最終使用矩陣乘法近似實現(xiàn)一層全連接網(wǎng)絡(luò)。MIP預(yù)測過程如圖5所示,參考像素作為輸入向量與MIP預(yù)測矩陣相乘得到部分預(yù)測值,再通過上采樣得到最終預(yù)測值。其中,對參考像素下采樣和對輸出向量上采樣有利于降低矩陣乘法次數(shù),同時減少內(nèi)存。

圖5 基于矩陣的幀內(nèi)預(yù)測原理框圖Fig.5 Diagram of matrix-based intra prediction

采用亮度信號對色度信號進(jìn)行分量間預(yù)測是H.266/VVC的特色之一。如圖6所示,分量間線性模型(cross-component linear mode, CCLM)預(yù)測模式[28]基于亮度色度局部相關(guān)性建立分量間線性模型,根據(jù)該模型和亮度重建值計算色度預(yù)測值。CCLM的關(guān)鍵是利用參考像素的亮度色度值確定線性模型的系數(shù)。H.266/VVC采納了本文作者提出的參考像素子集方案[29],該方法在不降低性能的前提下具有更低復(fù)雜度,且對不同塊尺寸采用統(tǒng)一方案,利于硬件實現(xiàn)。

圖6 分量間線性模型原理框圖Fig.6 Diagram of cross-component linear mode

1.4 幀間預(yù)測編碼

幀間預(yù)測編碼利用視頻的時域相關(guān)性,只編碼圖像間的運(yùn)動信息及預(yù)測殘差,可大幅度提高編碼效率。根據(jù)運(yùn)動矢量(motion vector, MV)和預(yù)測殘差的編碼方式,H.266/VVC幀間編碼模式可以分為跳過、合并和高級運(yùn)動矢量預(yù)測3大類,如表1所示。具體地,跳過模式采用預(yù)測運(yùn)動矢量表示MV信息,且不編碼運(yùn)動矢量差值和預(yù)測殘差。合并模式僅編碼預(yù)測運(yùn)動矢量和預(yù)測殘差,不編碼運(yùn)動矢量差值。高級運(yùn)動矢量預(yù)測模式則對預(yù)測運(yùn)動矢量、運(yùn)動矢量差值和殘差均進(jìn)行編碼。

表1 H.266/VVC幀間預(yù)測模式分類及特點(diǎn)Table 1 Classification and characteristics of H.266/VVC inter prediction modes

H.266/VVC幀間預(yù)測過程可分為運(yùn)動矢量的預(yù)測、運(yùn)動矢量的確定、運(yùn)動補(bǔ)償3個步驟,每個步驟都引入了多項新技術(shù)[30-31],如圖7所示。圖中,{}里的內(nèi)容為H.266/VVC采用的代表性技術(shù)。

圖7 H.266/VVC幀間預(yù)測編碼Fig.7 H.266/VVC inter prediction coding

1.4.1 運(yùn)動矢量預(yù)測

運(yùn)動矢量預(yù)測列表中按一定規(guī)則放置與當(dāng)前CU空域、時域相關(guān)性強(qiáng)的已編碼塊MV,作為當(dāng)前CU的預(yù)測運(yùn)動矢量的候選值。當(dāng)選擇列表中的某個候選運(yùn)動矢量預(yù)測作為當(dāng)前CU的預(yù)測運(yùn)動矢量時,只需編碼選中運(yùn)動矢量預(yù)測在列表中的索引值。H.266/VVC引入了基于歷史的候選運(yùn)動矢量預(yù)測,利用先前已編碼塊的運(yùn)動信息存儲為歷史信息并用于構(gòu)造運(yùn)動矢量預(yù)測列表。

傳統(tǒng)的幀間預(yù)測中,同一個CU內(nèi)所有像素采用相同的運(yùn)動矢量。H.266/VVC引入了基于子塊的時域MV預(yù)測,使用單一模式標(biāo)識CU內(nèi)各子塊的不同MV信息,提升了MV的表示效率。

仿射運(yùn)動補(bǔ)償是H.266/VVC的特色幀間編碼技術(shù)。對于存在旋轉(zhuǎn)、縮放、拉伸等非平移運(yùn)動的編碼塊,塊中各像素的運(yùn)動矢量雖然不同,但具有一定的規(guī)律性,可以通過高階變形模型以極少的模型參數(shù)來描述[32-34]。

1.4.2 運(yùn)動矢量確定

針對合并模式,H.266/VVC引入了解碼端運(yùn)動矢量修正和帶有運(yùn)動矢量差值索引的合并模式。解碼端運(yùn)動矢量修正是解碼端基于前后向運(yùn)動矢量的對稱偏移,利用前后向參考塊的匹配程度確定調(diào)整偏移量,對運(yùn)動矢量進(jìn)行修正。帶有運(yùn)動矢量差值索引的合并模式并未編碼實際的運(yùn)動矢量差值,而是根據(jù)運(yùn)動矢量差值出現(xiàn)的概率預(yù)先定義一個固定的高概率偏移值集合,用集合中的索引確定MV的偏移量。

針對高級運(yùn)動矢量預(yù)測模式,H.266/VVC引入了對稱運(yùn)動矢量差值和運(yùn)動矢量差值的自適應(yīng)精度表示。對稱運(yùn)動矢量差值針對雙向預(yù)測的CU,只編碼其前向運(yùn)動矢量差值,后向運(yùn)動矢量差值則根據(jù)對稱一致性推導(dǎo)得到。運(yùn)動矢量差值的自適應(yīng)精度表示允許針對不同運(yùn)動劇烈程度的視頻內(nèi)容,以CU為單位自適應(yīng)選擇不同運(yùn)動矢量差值精度,以兼顧運(yùn)動矢量表示范圍和精度。

1.4.3 運(yùn)動補(bǔ)償

H.266/VVC引入了聯(lián)合幀內(nèi)幀間預(yù)測,其運(yùn)動補(bǔ)償通過融合幀內(nèi)和幀間預(yù)測值實現(xiàn)。

幾何劃分幀間預(yù)測具有一定分割的理念[35]。當(dāng)運(yùn)動物體具有非水平或垂直邊緣時,采用矩形劃分將在邊緣處產(chǎn)生大量小塊,需要編碼大量的塊劃分及MV信息,如圖8(a)所示。幾何劃分幀間預(yù)測使用斜線將矩形CU劃分成兩個不規(guī)則子區(qū)域以匹配實際的運(yùn)動,如圖8(b)所示。劃分線以極坐標(biāo)形式用角度和偏移量來高效表示。各子區(qū)域分別利用不同運(yùn)動信息獲得補(bǔ)償,并對劃分線附近區(qū)域以軟混合的方式進(jìn)行加權(quán)融合,以模擬自然場景中柔和的邊緣過渡。

H.266/VVC引入了基于光流的預(yù)測值修正。對于普通運(yùn)動,雙向光流[36]可以利用前向預(yù)測參考塊和后向預(yù)測參考塊的一致性,估計前向預(yù)測參考塊和后向預(yù)測參考塊間的光流,修正運(yùn)動矢量及相應(yīng)的預(yù)測值。對仿射運(yùn)動補(bǔ)償,光流預(yù)測細(xì)化[37]為4×4 像素子塊的每個像素計算光流補(bǔ)償值。

為處理亮度漸變的場景,除了slice級加權(quán)運(yùn)動補(bǔ)償,H.266/VVC還引入了CU級的雙向加權(quán)運(yùn)動補(bǔ)償預(yù)測。該技術(shù)針對局部亮度漸變的場景,在CU層傳輸線性加權(quán)預(yù)測的參數(shù)。

1.5 變換編碼

預(yù)測殘差空間分布通常較分散,采用變換編碼可將其映射到分布集中的變換域,進(jìn)一步去除空間冗余。H.266/VVC引入多項變換新技術(shù)[38],其過程如圖9所示。預(yù)測殘差通常首先經(jīng)過主變換得到一次變換系數(shù);對于采用DCT-Ⅱ作為主變換核的一次變換系數(shù),選擇性使用二次變換,得到最終變換系數(shù)。H.266/VVC支持變換跳過模式,直接對殘差進(jìn)行量化。針對幀間預(yù)測殘差,子塊變換[39]僅對殘差能量大的部分區(qū)域進(jìn)行變換,其余區(qū)域殘差強(qiáng)制歸零。當(dāng)編碼塊寬或高等于最大變換尺寸時,變換系數(shù)僅保留低頻部分,高頻系數(shù)置零,同樣達(dá)到減少變換系數(shù)能量的目的。圖中,{}里的內(nèi)容為H.266/VVC采用的代表性技術(shù)。

圖9 H.266/VVC編碼端變換編碼Fig.9 H.266/VVC transform coding in encoder

不同預(yù)測模式下的殘差信號往往具有不同特性[40],H.266/VVC引入多核變換選擇以匹配多種預(yù)測殘差特性。

H.266/VVC引入低頻不可分變換[41],對以DCT-Ⅱ為主變換核的變換系數(shù)進(jìn)行二次變換,使得殘差能量更集中。首先,將左上角的N個低頻變換系數(shù)轉(zhuǎn)化為一維向量,并將其余位置的變換系數(shù)置零;然后,對該一維向量進(jìn)行低頻不可分變換變換得到長度為R(R≤N)的向量。由此,二次變換可以達(dá)到減少變換系數(shù)的目的。與MIP類似,低頻不可分變換的變換核通過大量數(shù)據(jù)訓(xùn)練得到。

1.6 量化

除傳統(tǒng)的標(biāo)量量化外,H.266/VVC引入了高效的依賴量化[42]。與傳統(tǒng)的標(biāo)量量化不同,依賴量化中當(dāng)前變換系數(shù)的量化值依賴于前一個變換系數(shù)的量化值。依賴量化利用了變換系數(shù)間的相關(guān)性,使得變換系數(shù)經(jīng)量化后在M維向量空間更緊密(M代表變換塊中變換系數(shù)的個數(shù))。從解碼器的角度來看,H.266/VVC中的依賴量化定義了兩種不同的標(biāo)量量化器Q0、Q1,對應(yīng)設(shè)計了依賴量化的4種狀態(tài)。在反量化時,變換系數(shù)按照編解碼順序重建,每處理一個系數(shù),依賴量化相應(yīng)更新一次狀態(tài),第k+1個系數(shù)所使用的標(biāo)量量化器(Q0或Q1),由第k個量化索引值和當(dāng)前的依賴量化的狀態(tài)決定。

編碼端可采用率失真優(yōu)化量化[43]的思想,利用狀態(tài)間隨時間(對應(yīng)于系數(shù)組中的序號)轉(zhuǎn)換形成的柵格,對整個系數(shù)組最優(yōu)的量化路徑進(jìn)行搜索,選擇最佳量化索引[44-45]。依賴量化以系數(shù)組為單位實現(xiàn)最優(yōu)量化,隱含了矢量量化的思想。

1.7 熵編碼

熵編碼用于進(jìn)一步去除數(shù)據(jù)間的統(tǒng)計冗余。對于高層語法元素,H.266/VVC采用簡單的熵編碼方法,例如定長碼、零階指數(shù)哥倫布碼等,有利于快速解析語法元素。對于片級以下的語法元素,H.266/VVC采用基于上下文的自適應(yīng)算術(shù)編碼[46]獲取較高編碼性能。其中,上下文建模是利用以已編碼的語法元素為條件進(jìn)行編碼的思想進(jìn)行概率模型預(yù)測。H.266/VVC引入雙概率更新模型以及低復(fù)雜度的概率迭代算法,可獲得準(zhǔn)確的概率模型。

1.8 環(huán)路濾波

H.266/VVC仍采用基于塊的混合編碼框架,因此方塊效應(yīng)、振鈴效應(yīng)、顏色偏差以及圖像模糊等常見編碼失真效應(yīng)仍然存在。為了降低各類失真對視頻質(zhì)量的影響,H.266/VVC采用環(huán)路濾波[47],包括亮度映射與色度縮放、去方塊濾波、樣點(diǎn)自適應(yīng)補(bǔ)償和自適應(yīng)環(huán)路濾波。其中,去方塊濾波和樣點(diǎn)自適應(yīng)補(bǔ)償延續(xù)了H.265/HEVC的算法。

亮度映射與色度縮放[48]的核心思想是為亮度平坦區(qū)域分配更多碼字,為紋理復(fù)雜區(qū)域分配較少的碼字。其中,基于動態(tài)分段線性模型的亮度映射技術(shù)根據(jù)概率分布將亮色度原始值域范圍擴(kuò)展到指定位深的像素值域范圍。

自適應(yīng)環(huán)路濾波[49]運(yùn)用維納濾波的思想,以原始幀和重建幀之間的最小均方誤差為優(yōu)化目標(biāo),根據(jù)維納-霍夫方程求解得到自適應(yīng)環(huán)路濾波濾波系數(shù)。自適應(yīng)環(huán)路濾波包括亮度自適應(yīng)環(huán)路濾波、色度自適應(yīng)環(huán)路濾波和分量間自適應(yīng)環(huán)路濾波。分量間自適應(yīng)環(huán)路濾波提出利用亮度對色度進(jìn)行補(bǔ)償,補(bǔ)充色度的紋理細(xì)節(jié),提升色度質(zhì)量。分量間自適應(yīng)環(huán)路濾波使用未經(jīng)過自適應(yīng)環(huán)路濾波濾波的亮度重建值進(jìn)行色度修正,便于并行執(zhí)行不同的自適應(yīng)環(huán)路濾波濾波。

1.9 面向屏幕內(nèi)容的編碼算法

屏幕內(nèi)容,如計算機(jī)桌面分享、文檔演示、游戲動畫等,是一種特殊視頻類型,通常由計算機(jī)生成。相比自然視頻,屏幕內(nèi)容視頻不受攝像機(jī)鏡頭的物理限制,不存在傳感器噪聲,常含有更少的顏色類型、更多的重復(fù)圖形、更銳利的物體邊緣。針對上述特點(diǎn),H.266/VVC標(biāo)準(zhǔn)引入多種屏幕內(nèi)容編碼工具[50-51]。

幀內(nèi)塊復(fù)制的預(yù)測過程與幀間預(yù)測類似,在當(dāng)前幀已經(jīng)完成重建的區(qū)域內(nèi)搜索與當(dāng)前塊匹配的參考塊,進(jìn)而將參考塊進(jìn)行復(fù)制得到預(yù)測塊。參考塊與當(dāng)前塊之間的位移用塊矢量來描述。

在局部區(qū)域,計算機(jī)生成的內(nèi)容通常只使用少量的顏色。調(diào)色板模式直接對這些數(shù)量較少的顏色集進(jìn)行編碼,以提升編碼效率。調(diào)色板可以是分量間聯(lián)合調(diào)色板,也可以是單分量的調(diào)色板。

為了削弱顏色失真效應(yīng),屏幕視頻經(jīng)常使用4∶4∶4顏色格式。為有效利用顏色分量間的相關(guān)性,H.266/VVC標(biāo)準(zhǔn)采用了自適應(yīng)顏色變換,允許使用顏色轉(zhuǎn)換模塊將視頻殘差信息轉(zhuǎn)換到Y(jié)CgCo顏色空間進(jìn)行變換、量化、熵編碼等操作,提高編碼性能,降低計算復(fù)雜度。

2 H.266/VVC 編解碼器

隨著H.266/VVC標(biāo)準(zhǔn)的正式發(fā)布,涌現(xiàn)出大量相關(guān)軟硬件,包括開源編解碼器、商用編解碼器、播放器等[13]。其中,H.266/VVC標(biāo)準(zhǔn)的官方參考軟件VTM和基于VTM開發(fā)的開源編解碼器VVenC/VVdeC是目前最具代表性的H.266/VVC編解碼實現(xiàn),對于學(xué)術(shù)研究和產(chǎn)品開發(fā)都具有重要的價值。

2.1 H.266/VVC軟件實現(xiàn)

2.1.1 VVC測試模型VTM

視頻編碼標(biāo)準(zhǔn)只規(guī)定碼流的語法語義,并不對編碼器進(jìn)行限制。然而,為了對語法元素進(jìn)行合理設(shè)計,標(biāo)準(zhǔn)應(yīng)明確可能的編碼方式,從而形成系統(tǒng)化的標(biāo)準(zhǔn)編解碼器測試模型。VVC測試模型VTM是H.266/VVC標(biāo)準(zhǔn)的官方參考軟件,由JVET開發(fā)和維護(hù)[6]。作為標(biāo)準(zhǔn)實現(xiàn)的基本參考,VTM可用于驗證和評估H.266/VVC編解碼器的性能,幫助理解標(biāo)準(zhǔn)語法的內(nèi)涵和解碼過程,并可作為開發(fā)實際產(chǎn)品的基礎(chǔ)。除了常規(guī)的視頻編碼,VTM還支持多視角編碼、全景視頻編碼、深度圖編碼等,能夠滿足沉浸式場景、三維視頻等不同應(yīng)用的需求。

VTM功能齊全,使用方便,來源權(quán)威,針對H.266/VVC標(biāo)準(zhǔn)的編解碼器性能評估通常以VTM為基準(zhǔn),相應(yīng)的結(jié)果需在通用測試條件下進(jìn)行對比[52]。通用測試條件由JVET制定,規(guī)定了標(biāo)準(zhǔn)測試序列[53]和不同應(yīng)用場景下的編解碼參數(shù)設(shè)置,包括標(biāo)準(zhǔn)動態(tài)范圍、高動態(tài)范圍、360°全景、非4∶2∶0 色度格式等測試場景。相應(yīng)地,標(biāo)準(zhǔn)測試序列涵蓋了不同分辨率下的自然場景視頻(class A~E)、屏幕內(nèi)容視頻(class F)、高動態(tài)視頻(class H)以及360°全景視頻(class S)等。

針對不同的測試場景,通用測試條件規(guī)定了相應(yīng)的測試條件,包括全幀內(nèi)、隨機(jī)訪問和低延遲設(shè)置。隨機(jī)訪問設(shè)置通常提供1 s左右的隨機(jī)接入間隔,適用于娛樂類應(yīng)用,如廣播、流媒體等;低延遲設(shè)置適用于對時延敏感的交互式應(yīng)用,如視頻會議、直播等;全幀內(nèi)設(shè)置則阻斷了幀間誤差傳播,為信道環(huán)境較差的場景,如丟包嚴(yán)重場景,提供更高的魯棒性。

BD-rate(Bj?ntegaard delta bit rate,用符號ΔR表示)[54-55]是視頻編碼中使用的客觀度量指標(biāo)。在一定比特率或質(zhì)量范圍內(nèi),該指標(biāo)可以比較兩種不同的視頻編解碼器,或同一視頻編解碼器不同配置下的率失真性能。該值為負(fù)數(shù)時,表示壓縮效率提高。通用測試條件規(guī)定了各測試條件下使用的量化參數(shù),通常為22、27、32和37,得到相應(yīng)的編碼碼率和質(zhì)量(通常以峰值信噪比衡量)后,即可求解出BD-rate。

2.1.2 VVenC開源編碼器

VTM的開發(fā)以獲得最大編碼增益為目標(biāo),并未針對編解碼速度進(jìn)行全面優(yōu)化,也不支持多線程實現(xiàn),因此并不能滿足實際應(yīng)用的需求。VVenC[12]是VTM之外受到廣泛關(guān)注的H.266/VVC開源編碼器,由德國Fraunhofer HHI研究所基于VTM開發(fā)。VVenC最大的特點(diǎn)是快速高效,可以用更低的復(fù)雜度獲得近似VTM的性能,并針對實用性進(jìn)行了大量優(yōu)化。VVenC編碼器對VTM編碼框架的各大模塊均設(shè)計了快速算法[56]。此外,VVenC支持真實應(yīng)用場景下的實用功能,如多線程加速、可變碼率控制和感知質(zhì)量優(yōu)化等,還支持編碼預(yù)處理、高動態(tài)范圍、變分辨率編碼以及屏幕內(nèi)容編碼等功能。

通過對配置集進(jìn)行帕累托優(yōu)化,VVenC設(shè)置了5個可選的質(zhì)量/速度預(yù)設(shè)檔位[57],分別為極慢、慢、中等、快和極快,可根據(jù)應(yīng)用需求在編碼時間和復(fù)雜度之間進(jìn)行權(quán)衡和選擇。以H.265/HEVC的參考軟件HM為基準(zhǔn),VTM以及VVenC在不同預(yù)設(shè)檔位和線程數(shù)設(shè)置下的BD-rate增益ΔR和編碼器運(yùn)行時間如圖10所示。

圖10 VTM及VVenc相對于HM的編碼性能[12] Fig.10 VTM and VVenc coding performance compared to HM[12]

2.2 H.266/VVC算法性能分析

為深入分析H.266/VVC的算法性能,本節(jié)將其與H.265/HEVC的性能進(jìn)行比較,并進(jìn)一步在VTM中關(guān)閉各編碼工具以分析具體工具對性能的貢獻(xiàn)。此外,討論了采用各主要工具的像素占比情況和限制條件。

2.2.1 與H.265/HEVC 性能對比及分析

表2給出了隨機(jī)訪問配置下,H.266/VVC與H.265/HEVC的性能對比??梢钥闯?在相同的峰值信噪比下,H.266/VVC可節(jié)省38.42%的編碼碼率。若采用主觀質(zhì)量作為質(zhì)量測度,可節(jié)省約50%的編碼碼率。與此同時,編碼復(fù)雜度為H.265/HEVC的7倍,解碼復(fù)雜度為163%。在序列測試集中,class A1與class A2為4K高分辨率視頻??梢钥闯?H.266/VVC針對高分辨率視頻取得的編碼增益更為突出。

表2 隨機(jī)訪問配置下H.266/VVC與H.265/HEVC性能對比Table 2 Coding performance comparison between H.266/VVC and H.265/HEVC under random access configuration

2.2.2 H.266/VVC 編碼算法性能分析

對H.266/VVC各編碼工具的性能評價需綜合考慮率失真性能和算法復(fù)雜度兩個因素。率失真性能可通過與不含該工具的VTM基準(zhǔn)進(jìn)行性能比較,得到相同重建質(zhì)量下的碼率變化量(以BD-rate衡量)。針對特定的編碼工具,文獻(xiàn)[58]采用在VTM中關(guān)閉該工具導(dǎo)致的BD-rate上升量來衡量該工具對編碼性能的貢獻(xiàn)。編碼和解碼復(fù)雜度通常通過計算與VTM基準(zhǔn)編碼時間和解碼時間的比值進(jìn)行衡量。

H.266/VVC主要編碼工具全稱及縮寫如表3所示。

表3 H.266/VVC主要編碼工具全稱及縮寫Table 3 Full names and abbreviations of the main coding tools in H.266/VVC

圖11給出了H.266/VVC主要編碼工具的性能和編解碼復(fù)雜度的關(guān)系。圖中:ΔR1表示各編碼工具關(guān)閉后相比關(guān)閉前VTM基準(zhǔn)的BD-rate,反映了關(guān)閉該編碼工具后壓縮效率的下降(對應(yīng)于碼率的上升)情況;編/解碼時間占比分別表示編碼工具關(guān)閉后相比VTM基準(zhǔn)的編/解碼時間比。從圖中可以看出,性能提升最明顯的是自適應(yīng)環(huán)路濾波,關(guān)閉該工具使得BD-rate增加4.34%。與此同時,關(guān)閉自適應(yīng)環(huán)路濾波后,編碼時間為VTM基準(zhǔn)編碼時間的96%,解碼時間為VTM基準(zhǔn)解碼時間的87%。由此可見,該工具在解碼端具有較高的復(fù)雜度。值得注意的是,有相當(dāng)一部分編碼工具,在關(guān)閉后其編解碼時間比反而上升,其主要原因是不采用該類編碼工具通常需要將圖像劃分為更小的CU進(jìn)行編解碼,而更小的CU單元會引入更多的處理環(huán)節(jié),從而引起編解碼時間增加。

(a)各工具的率失真性能-編碼時間

此外,編碼工具的使用像素占比也可作為評估新工具有效性的測度。圖12給出了H.266/VVC主要新增工具在全幀內(nèi)、隨機(jī)訪問和雙向低延遲這3種典型設(shè)置下的使用像素占比。綜合圖11和圖12可以看出,使用像素占比與工具的性能貢獻(xiàn)大致呈線性關(guān)系。例如,在參與評估的工具中,自適應(yīng)環(huán)路濾波影響的像素數(shù)量最多,而其性能貢獻(xiàn)也最大。但是也有例外。例如,仿射技術(shù),影響像素數(shù)相對較少,但性能貢獻(xiàn)也較大。這是因為符合非平移運(yùn)動假設(shè)的像素數(shù)量未必很多,但采用仿射技術(shù)能夠開展高效預(yù)測。更為詳細(xì)的數(shù)據(jù)請參考文獻(xiàn)[58]。

圖12 主要新增編碼工具像素使用占比Fig.12 Pixel occupancy of key new coding tools

在H.266/VVC標(biāo)準(zhǔn)發(fā)展和制定的過程中,每個新編碼工具的加入都經(jīng)過了詳細(xì)的評估,以確保在盡可能在不增加或少增加編解碼復(fù)雜度的前提下,新編碼工具的加入可與其他編碼工具協(xié)同作用,獲取更佳的編碼效率。考慮到各編碼工具適用場景可能不同,標(biāo)準(zhǔn)中設(shè)置了一些編碼工具使用的限制條件。例如:最可能模式列表、MIP和多核變換選擇等工具僅針對亮度分量開啟使用;多核變換選擇僅針對幀內(nèi)編碼殘差使用;當(dāng)使用CCLM模式時,禁用多參考行、PDPC工具等等。

2.3 H.266/VVC硬件實現(xiàn)

H.266/VVC為方便軟硬件實現(xiàn)和優(yōu)化提供了必要的支持。與H.265/HEVC一樣,H.266/VVC支持波前技術(shù),方便實現(xiàn)多線程并行編碼。通過多線程并行運(yùn)算,設(shè)計合理的數(shù)據(jù)結(jié)構(gòu)和程序流程,以及充分利用單指令多數(shù)據(jù)操作的優(yōu)化方法,目前已經(jīng)可在現(xiàn)有主流的x86硬件平臺上實現(xiàn)4K分辨率視頻的H.266/VVC碼流實時解碼,但同樣分辨率的實時編碼在目前主流硬件平臺尚不可行。雖然H.266/VVC最高支持8K分辨率視頻,相應(yīng)的硬件編解碼實現(xiàn)仍任重道遠(yuǎn)。

盡管H.266/VVC標(biāo)準(zhǔn)制定過程中充分考慮了算法的實現(xiàn)復(fù)雜度,但其在硬件實現(xiàn)方面仍面臨巨大的挑戰(zhàn)[59]。這些挑戰(zhàn)主要來源于為有效實現(xiàn)超高分辨率視頻編碼引入的特性。首先,高分辨率視頻本身數(shù)據(jù)量大,對其進(jìn)行實時編解碼需要高吞吐率和高處理速度。其次,為提高編碼效率,H.266/VVC發(fā)展了已有編碼技術(shù),或引入了更為復(fù)雜的新技術(shù)[60],導(dǎo)致對硬件運(yùn)算能力的要求有進(jìn)一步的提高。例如,預(yù)測模式的增多需要更多的硬件資源,計算預(yù)測值所需的邏輯也更加復(fù)雜。H.266/VVC新引入的MIP和多核變換選擇需要存儲一定數(shù)量的預(yù)訓(xùn)練矩陣,盡管在標(biāo)準(zhǔn)制定時已對矩陣系數(shù)的數(shù)量和精度進(jìn)行了限制,但其對存儲空間仍有較高的要求。幀間預(yù)測的精細(xì)運(yùn)動估計和補(bǔ)償算法則對計算能力和帶寬提出了更高的要求。

從整體架構(gòu)來說, H.266/VVC沿襲了混合式編碼框架,具有并行處理能力強(qiáng)的特點(diǎn)?;旌鲜骄幋a框架可復(fù)用性較好,因此現(xiàn)有針對硬件實現(xiàn)的研究工作主要集中在對具體編碼模塊的硬件加速方面,尤其是最為耗時的預(yù)測模塊、變換模塊和濾波模塊等。例如,文獻(xiàn)[61]針對VVC中的幀內(nèi)預(yù)測模式進(jìn)行分析,遴選出18種對性能貢獻(xiàn)較大的子模式,針對專用集成電路設(shè)計了優(yōu)化算法。文獻(xiàn)[62]針對VVC中的快速運(yùn)動估計模塊,利用整像素位置的率失真代價推斷最佳預(yù)測的分像素位置,從而提高硬件友好性。文獻(xiàn)[63]提出了統(tǒng)一的多核變換選擇的硬件架構(gòu),便于VVC變換模塊的硬件實現(xiàn)。針對自適應(yīng)環(huán)路濾波,文獻(xiàn)[64]針對亮度和色度提出了優(yōu)化的掃描機(jī)制,從而針對自適應(yīng)環(huán)路濾波實現(xiàn)內(nèi)存的高效管理。

雖然面臨諸多挑戰(zhàn),H.266/VVC的硬件實現(xiàn)已處于實用化階段。目前,市場已出現(xiàn)支持H.266/VVC的芯片產(chǎn)品。例如:MediaTek的Pentonic 2000智能電視系統(tǒng)級芯片(system on chip,SoC)是世界首批支持 H.266/VVC解碼的芯片[65],RealTek[66]和LG[67]也相繼發(fā)布了支持H.266/VVC的SoC產(chǎn)品。

3 發(fā) 展

JVET在H.266/VVC發(fā)布之后持續(xù)對視頻編碼的發(fā)展進(jìn)行研究,以探索標(biāo)準(zhǔn)的未來走向和關(guān)鍵技術(shù)?,F(xiàn)階段的探索仍然以H.266/VVC架構(gòu)為基礎(chǔ)。根據(jù)編碼工具的不同類別,繼H.266/VVC之后,視頻編碼標(biāo)準(zhǔn)的發(fā)展聚焦在兩大方向:Beyond VVC探索更為先進(jìn)的、非神經(jīng)網(wǎng)絡(luò)的編碼工具;NNVC則探索基于神經(jīng)網(wǎng)絡(luò)的編碼工具。

3.1 基于H.266/VVC框架的編碼技術(shù)演進(jìn):Beyond VVC

Beyond VVC探索的方式屬于技術(shù)演進(jìn)[14],在H.266/VVC編解碼模塊的基礎(chǔ)上,通過改進(jìn)編碼工具增強(qiáng)編碼性能。Beyond VVC目前已經(jīng)取得了令人關(guān)注的進(jìn)展,相比于H.266/VVC參考軟件VTM11.0,Beyond VVC參考軟件平臺ECM(enhanced compression model)8.0在全幀內(nèi)配置下可以達(dá)到9.86%的編碼增益,在隨機(jī)訪問配置下可以達(dá)到19.86%的編碼增益[68]。Beyond VVC的性能提升來源于預(yù)測、變換、環(huán)路濾波等模塊的綜合提升[69]。

3.1.1 預(yù)測模塊

幀內(nèi)/幀間預(yù)測是Beyond VVC提升編碼效率的主要模塊,其增益很大程度上得益于模板的使用[70]。Beyond VVC將模板定義為當(dāng)前待編碼塊上方和左方的區(qū)域,在編碼當(dāng)前塊時該區(qū)域已完成重建,如圖13所示。模板與待編碼塊具有強(qiáng)相關(guān)性,模板與參考區(qū)域的關(guān)系可以作為待編碼塊的先驗信息。

圖13 Beyond VVC基于模板算法Fig.13 Template based algorithm in Beyond VVC

在幀內(nèi)預(yù)測中,可利用模板估計優(yōu)先預(yù)測模式或模型參數(shù),從而高效表示預(yù)測模式等信息?;谀0宓膸瑑?nèi)模式推導(dǎo)[71]技術(shù)針對模板開展幀內(nèi)預(yù)測,根據(jù)幀內(nèi)預(yù)測的結(jié)果和模板重建信息的預(yù)測精度確定1~2種優(yōu)先的幀內(nèi)預(yù)測模式。解碼端模式推導(dǎo)[72]技術(shù)分析模板的梯度直方圖,根據(jù)梯度方向確定1~2種優(yōu)先的幀內(nèi)預(yù)測模式。幀內(nèi)模板匹配模式可在當(dāng)前幀已重建區(qū)域中通過模板開展搜索尋找到匹配模板,為待編碼塊確定預(yù)測塊,從而提高編碼效率。

在幀間預(yù)測中,模板廣泛地應(yīng)用于運(yùn)動矢量預(yù)測、運(yùn)動矢量確定和預(yù)測值獲取過程中。例如,針對參考幀已重建區(qū)域,可利用模板對運(yùn)動矢量列表的多個候選進(jìn)行排序,也可利用模板進(jìn)行搜索提升運(yùn)動矢量的精度。考慮到模板與待編碼塊的特性可能存在差異,通常利用模板確定多個候選以及候選順序,最佳預(yù)測模式需根據(jù)其用于待編碼塊的率失真性能確定。

在色度幀內(nèi)預(yù)測中,建立精細(xì)分量間預(yù)測模型是提升編碼效率的有效途徑。卷積分量間預(yù)測模型[73]建立鄰域內(nèi)多位置亮度與色度的預(yù)測模型,并依據(jù)模板區(qū)域計算模型參數(shù),自適應(yīng)建立亮度與色度卷積預(yù)測模型。多模型線性模型為亮度與色度建立分段線性預(yù)測模型。為了獲取更準(zhǔn)確的預(yù)測模型,Beyond VVC通過調(diào)整CCLM的模型參數(shù)[74],或者通過在預(yù)測模型中添加梯度因子與位置信息等方法[75]提升預(yù)測模型的準(zhǔn)確性。另外,由作者提出的直接塊矢量模式,充分利用亮度已有塊矢量信息推導(dǎo)色度塊矢量[76]。進(jìn)一步地,Beyond VVC采用了色度融合技術(shù),設(shè)計了傳統(tǒng)色度預(yù)測模式與分量間預(yù)測模式的自適應(yīng)加權(quán)方案。

3.1.2 變換模塊

Beyond VVC進(jìn)一步拓展了多核變換選擇的變換核候選集,同時利用新提出的可分離KL變換變換核將多核變換選擇應(yīng)用于幀間編碼。Beyond VVC還提出不可分離一次變換[77],對于符合相應(yīng)特性的預(yù)測殘差,經(jīng)一次變換后可實現(xiàn)能量的高度集中。另外,基于與已重建模板像素的連續(xù)性,對部分變換系數(shù)符號進(jìn)行預(yù)測,可進(jìn)一步提升變換系數(shù)的編碼效率[78]。

3.1.3 環(huán)路濾波

Beyond VVC中的自適應(yīng)環(huán)路濾波引入了基于邊帶分類和基于殘差樣本的分類方法。此外,分量間聯(lián)合樣點(diǎn)自適應(yīng)補(bǔ)償[79]通過對亮度值和色度值聯(lián)合分類,確定補(bǔ)償值,可得到更為精細(xì)的補(bǔ)償值。雙邊濾波器[80]對去方塊濾波的輸出圖像進(jìn)行處理,綜合考慮樣本的空間相鄰度和像素相似度生成補(bǔ)償值,可達(dá)到去除噪聲同時保留邊緣的目的。

3.2 基于神經(jīng)網(wǎng)絡(luò)的編碼工具探索:NNVC

2020年10月的JVET會議上,正式確定建立NNVC的探索實驗,研究利用神經(jīng)網(wǎng)絡(luò)強(qiáng)大的非線性表達(dá)能力提升視頻編碼性能。目前,NNVC探索實驗[15]主要包括基于神經(jīng)網(wǎng)絡(luò)的環(huán)路濾波技術(shù)、基于神經(jīng)網(wǎng)絡(luò)的幀內(nèi)/幀間預(yù)測技術(shù)、基于神經(jīng)網(wǎng)絡(luò)的超分辨率技術(shù)以及基于神經(jīng)網(wǎng)絡(luò)的后處理技術(shù)等。

基于神經(jīng)網(wǎng)絡(luò)的環(huán)路濾波采用神經(jīng)網(wǎng)絡(luò)濾波器對重建視頻進(jìn)行處理[81-83],研究重點(diǎn)為有限計算復(fù)雜度下的網(wǎng)絡(luò)架構(gòu)設(shè)計、網(wǎng)絡(luò)模型輸入的編碼參數(shù)、與傳統(tǒng)濾波處理算法的融合等?;谏窠?jīng)網(wǎng)絡(luò)的幀間預(yù)測重點(diǎn)研究采用神經(jīng)網(wǎng)絡(luò)生成高質(zhì)量參考幀、替換傳統(tǒng)雙向加權(quán)預(yù)測的多幀預(yù)測等[84]?;谏窠?jīng)網(wǎng)絡(luò)的幀內(nèi)預(yù)測[85]使用神經(jīng)網(wǎng)絡(luò)從當(dāng)前圖像已重建的像素產(chǎn)生更加準(zhǔn)確的預(yù)測塊,或是根據(jù)已重建的亮度信息使用神經(jīng)網(wǎng)絡(luò)產(chǎn)生準(zhǔn)確的色度信息[86],從而更好地利用視頻的空間信息。基于神經(jīng)網(wǎng)絡(luò)的超分辨率研究通過編碼低分辨率視頻節(jié)省碼率,解碼端將低分辨率視頻超分恢復(fù)到高分辨率[87]。基于神經(jīng)網(wǎng)絡(luò)的后處理對重建視頻進(jìn)行濾波,但不同于環(huán)內(nèi)濾波,濾波后圖像不會作為后續(xù)圖像的參考,網(wǎng)絡(luò)可以利用編碼端提供的一些輔助信息,提升濾波性能[88]。

基于神經(jīng)網(wǎng)絡(luò)的視頻編碼工具在H.266/VVC的基準(zhǔn)上能夠取得較好的性能增益[89],但該類編碼工具也具有高計算復(fù)雜度的特點(diǎn)。文獻(xiàn)[90]提出使用CP分解以及融合相鄰1×1卷積等操作有效降低計算復(fù)雜度。如何在神經(jīng)網(wǎng)絡(luò)的性能增益和計算復(fù)雜度之間進(jìn)行合理權(quán)衡是目前聚焦的研究趨勢。2023年4月的JVET會議上,與會專家達(dá)成共識,下一階段的主要任務(wù)是建立不同復(fù)雜度下的濾波方案[91],研究如何統(tǒng)一設(shè)計濾波器的輸入、如何開展高效的訓(xùn)練以及統(tǒng)一濾波器如何與現(xiàn)有編解碼器高效融合。上述任務(wù)的確立標(biāo)志著NNVC的發(fā)展進(jìn)入了新的階段。

4 總結(jié)與展望

新一代視頻編碼標(biāo)準(zhǔn)H.266/VVC面向多樣化的應(yīng)用,從高層語法和編碼工具兩個層面進(jìn)行了大量技術(shù)革新,能夠適應(yīng)不同的網(wǎng)絡(luò)環(huán)境和應(yīng)用需求。H.266/VVC仍然采用成熟的混合編碼框架,對于軟硬件實現(xiàn)十分友好,具有良好的實用化前景。H.266/VVC的技術(shù)革新體現(xiàn)在所有主要編碼模塊,包括幀內(nèi)預(yù)測、幀間預(yù)測、變換、量化、環(huán)路濾波等。標(biāo)準(zhǔn)參考模型VTM具有出色的壓縮性能,在此基礎(chǔ)上也出現(xiàn)了更為高效的開源編解碼器和相關(guān)應(yīng)用。

由于各行各業(yè)對視頻應(yīng)用的需求迫切且持續(xù)增長,H.266/VVC具有廣闊的應(yīng)用前景。然而,從標(biāo)準(zhǔn)發(fā)布到大規(guī)模商用往往存在較長的周期。例如,H.265/HEVC于2013年標(biāo)準(zhǔn)制定完成,直至近年來才具有較大的市場占比。基于此,預(yù)估H.266/VVC的市場接納期也會持續(xù)較長時間。H.266/VVC最先進(jìn)入的領(lǐng)域預(yù)計是以高效軟件編碼器為主的互聯(lián)網(wǎng)媒體領(lǐng)域,如短視頻應(yīng)用等。此外,H.266/VVC的實用有望推動可分級視頻、高動態(tài)視頻、屏幕視頻等應(yīng)用的發(fā)展。H.266/VVC硬件實現(xiàn)的應(yīng)用率先出現(xiàn)在允許較大尺寸的電視芯片領(lǐng)域。至于其他消費(fèi)類應(yīng)用、軍工應(yīng)用等領(lǐng)域,則更多地需要成熟的芯片方案和可接受的算力來支撐。另外,H.266/VVC的相關(guān)應(yīng)用也可能拓展到圖像壓縮領(lǐng)域。例如,高效圖像文件壓縮格式源于H.265/HEVC的幀內(nèi)編碼,在圖像壓縮獲得了有效應(yīng)用,H.266/VVC中的幀內(nèi)編碼技術(shù)也可能產(chǎn)生類似的發(fā)展。

雖然H.266/VVC標(biāo)準(zhǔn)已經(jīng)進(jìn)入實用化階段,JVET對H.266/VVC后續(xù)標(biāo)準(zhǔn)的發(fā)展仍保持著不懈探索。在現(xiàn)有標(biāo)準(zhǔn)架構(gòu)下,JVET分別從采用非神經(jīng)網(wǎng)絡(luò)工具Beyond VVC和神經(jīng)網(wǎng)絡(luò)工具NNVC兩個不同的方向進(jìn)行持續(xù)研究,都取得了顯著進(jìn)展。然而,哪一個方向才是下一代視頻編碼標(biāo)準(zhǔn)的走向,目前尚未形成明確結(jié)論。

值得關(guān)注的是,部分跳出或完全跳出現(xiàn)有混合編碼框架的端到端視頻編碼也在飛速發(fā)展?;谏窠?jīng)網(wǎng)絡(luò)的端到端視頻編碼大致可分為3類:基于殘差編碼的方案,基于條件編碼的方案,基于3D自編碼器的方案。基于殘差編碼的方案借鑒傳統(tǒng)混合視頻編解碼器的思路,通過神經(jīng)網(wǎng)絡(luò)編碼工具進(jìn)行運(yùn)動補(bǔ)償生成預(yù)測幀,并將其與當(dāng)前幀的殘差進(jìn)行編碼,如DVC[92]?;跅l件編碼的方案將時域相關(guān)的幀或特征作為當(dāng)前幀編碼的條件,如DCVC及其后續(xù)一系列改進(jìn)[93]?;?D自編碼器方案則是相關(guān)圖像編解碼器的自然延伸,擴(kuò)大了網(wǎng)絡(luò)輸入的維度[94-95]。除上述方案之外,隱式神經(jīng)網(wǎng)絡(luò)表達(dá)采用過擬合的神經(jīng)網(wǎng)絡(luò)進(jìn)行信源表示,將視頻壓縮問題轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)壓縮問題,從全新的角度實現(xiàn)了視頻編碼[96-97]。

目前,針對靜止圖像,國際標(biāo)準(zhǔn)化組織正在致力于研究使用端到端的神經(jīng)網(wǎng)絡(luò)進(jìn)行高效壓縮,即正在進(jìn)行中的JPEG AI標(biāo)準(zhǔn)[98]。預(yù)計使用神經(jīng)網(wǎng)絡(luò)進(jìn)行視頻編碼的國際標(biāo)準(zhǔn)也將會出現(xiàn)在或遠(yuǎn)或近的未來。無論是與傳統(tǒng)編碼框架融合,還是采用全新的端到端實現(xiàn),現(xiàn)階段基于神經(jīng)網(wǎng)絡(luò)的視頻編碼面臨兩方面的考驗。一是如何能夠克服其對計算資源的依賴。二是如何能夠定義一個通用的穩(wěn)定結(jié)構(gòu),使得日益變化的網(wǎng)絡(luò)能夠以極低的代價在終端上進(jìn)行迭代更新。未來視頻編碼標(biāo)準(zhǔn)將如何與神經(jīng)網(wǎng)絡(luò)結(jié)合,又在何時能夠獲得實用化,將在對相關(guān)技術(shù)的探索中逐漸明朗。

猜你喜歡
矢量濾波像素
趙運(yùn)哲作品
像素前線之“幻影”2000
矢量三角形法的應(yīng)用
“像素”仙人掌
基于矢量最優(yōu)估計的穩(wěn)健測向方法
高像素不是全部
三角形法則在動態(tài)平衡問題中的應(yīng)用
RTS平滑濾波在事后姿態(tài)確定中的應(yīng)用
基于線性正則變換的 LMS 自適應(yīng)濾波
基于隨機(jī)加權(quán)估計的Sage自適應(yīng)濾波及其在導(dǎo)航中的應(yīng)用