路偉,余寧梅,南江涵,王冬芳
(西安理工大學(xué) 自動(dòng)化與信息工程學(xué)院,陜西 西安 710048)
HEVC(High Efficiency Video Coding)圖像編碼是基于圖像塊進(jìn)行的DCT/DST(Discrete Cosine Transform/Discrete Sine Transform)變換量化的,因而會(huì)導(dǎo)致圖像塊的邊界處重構(gòu)像素的精度低于塊內(nèi)部重構(gòu)像素?cái)?shù)據(jù)的精度,從而導(dǎo)致了邊緣塊效應(yīng)。這種塊效應(yīng)會(huì)影響到編碼壓縮的效率,也會(huì)影響到解碼出圖像的清晰度。因此是當(dāng)前的高清視頻編解碼技術(shù)所必須考慮的一個(gè)重要問題。去塊濾波技術(shù)可以在不明顯影響圖像內(nèi)容的情況下去除方塊效應(yīng)的影響,顯著提高重構(gòu)圖像的主客觀質(zhì)量,是改善圖像塊效應(yīng)的有效方法。文獻(xiàn)[1]針對(duì)H.264與HEVC去塊濾波算法的異同進(jìn)行了研究,并列出相關(guān)數(shù)據(jù)說明了HEVC中去塊濾波算法的低碼率方面優(yōu)于H.264。文獻(xiàn)[2]針對(duì)HEVC的算法,提出了一種基于判決條件的快速算法,用來確定其濾波強(qiáng)度以及濾波方式。文獻(xiàn)[3]針對(duì)需要濾波塊中像素點(diǎn)間的相關(guān)性,提出了一種低復(fù)雜度的感知優(yōu)化,用以降低濾波器的計(jì)算復(fù)雜度。文獻(xiàn)[4]是最新的草案定稿版,將歷屆會(huì)議提案中有關(guān)去塊濾波部分的最優(yōu)算法列入其中,提高了去塊濾波處理效率。但是,以上研究都在算法層面展開。由于 HEVC是靠增加編碼復(fù)雜度來獲得編碼效率的提升,編解碼時(shí)間也隨之大幅增加。采用軟件對(duì)圖像進(jìn)行去塊濾波處理,處理時(shí)間過長,不能滿足實(shí)時(shí)處理要求。為了提高處理速度,采用硬件加速的方式勢在必行。在HEVC編解碼系統(tǒng)中,去塊濾波是非常重要也是占用編碼時(shí)間多的模塊之一,對(duì)HEVC去塊濾波模塊的VLSI實(shí)現(xiàn)進(jìn)行研究,提高超高清視頻的編碼速度具有重要意義。在HEVC去塊濾波的VLSI研究方面,文獻(xiàn)[5]采用四級(jí)流水線結(jié)構(gòu),完成了濾波邊界的判斷、濾波強(qiáng)度判斷、參數(shù)選取、強(qiáng)弱濾波的實(shí)現(xiàn),同時(shí)采用內(nèi)存交互技術(shù)根據(jù)濾波順序進(jìn)行數(shù)據(jù)調(diào)度,增大了濾波數(shù)據(jù)的吞吐率。但是,內(nèi)存交互技術(shù)和流水線中模塊的計(jì)算有著密切的關(guān)系,在數(shù)據(jù)流控制上比較困難,并且容易造成數(shù)據(jù)地址錯(cuò)誤的情況。文獻(xiàn)[6]采用由水平和垂直兩個(gè)方向組成的8×8寄存器陣列來計(jì)算四叉樹子塊的邊界濾波。并且采用總線技術(shù)將多種分割模式的濾波塊逐一調(diào)度,利用寄存器陣列進(jìn)行濾波計(jì)算。但是,這種總線調(diào)度寄存器陣列結(jié)構(gòu)在SOC系統(tǒng)中有一定瓶頸,并且易受DDR控制器帶寬和總線帶寬的約束,對(duì)數(shù)據(jù)處理有一定局限性。
基于以上原因,本文對(duì)HEVC去塊濾波算法結(jié)構(gòu)進(jìn)行分析,設(shè)計(jì)了轉(zhuǎn)置矩陣模塊。在不改變算法濾波順序的基礎(chǔ)上,采用轉(zhuǎn)置模塊對(duì)數(shù)據(jù)進(jìn)行暫存,以此減少數(shù)據(jù)重復(fù)讀取操作,進(jìn)而解決了ASIC架構(gòu)中去塊濾波模塊面積資源消耗大的問題。
HEVC去塊濾波是為了減少各單元(CU(Coding Unit)、PU(Prediction Unit)、TU(Transform Unit))邊界的塊效應(yīng)而采用的一種濾波方式。HEVC為了利于簡化硬件設(shè)計(jì)和并行處理,將濾波的基本單元設(shè)置為8×8塊大小的單元。由于CU、PU、TU是按照四叉樹分割方式將LCU(Largest Coding Unit)從64×64大小的塊分為32×32、16×16、8×8大小,從而對(duì)相應(yīng)的邊界進(jìn)行去塊濾波處理[7]。去塊濾波的方式如圖1所示,圖1中每個(gè)黑色的圓點(diǎn)代表了單元塊中的一個(gè)像素點(diǎn)(Sample)。圖1由6個(gè)8×8大小的塊組成了待濾波的區(qū)域,其中Block of 8×8 sample指向了其中一個(gè)8×8塊。6個(gè)8×8塊中的兩個(gè)方框是需要進(jìn)行濾波的兩個(gè)濾波區(qū)域(Can be deblocked),圖1標(biāo)出了需要進(jìn)行濾波的位置,分別是水平邊界(Horizontal boundary)和垂直邊界(Vertical boundary)[8]。由圖1可以看出,垂直邊界和水平邊界都在需要濾波的區(qū)域中,并且兩個(gè)需要濾波區(qū)域的參考像素點(diǎn)Sample是互不相關(guān)的,即這兩個(gè)濾波區(qū)域可以單獨(dú)完成濾波。
圖1 PU濾波方式
HEVC去塊濾波的基本單元塊是8×8塊,其邊界選擇在8×8塊邊界區(qū)域,每個(gè)8×8塊的邊界分別和自己相鄰的8×8塊邊界組成了去塊濾波的邊界,如圖1所示。左邊需要濾波區(qū)域由四個(gè)相鄰的8×8塊組成的濾波邊界。依次是左上8×8塊的右下4×4塊,中上8×8塊的左下4×4塊,左下8×8塊的右上4×4塊,中下8×8塊的左上的4×4塊。這4個(gè)4×4塊的相鄰邊界分別組成了垂直邊界(Vertical boundary)和水平邊界(Horizontal boundary)[9]。得到的濾波基本單元塊,如圖2所示。首先對(duì)垂直邊界進(jìn)行濾波,會(huì)用到水平方向的8行數(shù)據(jù),P3iP2iP1iP0i, Q0iQ1iQ2iQ3i(i=0…7)。垂直邊界濾波完成后,需要對(duì)水平邊界進(jìn)行濾波。此時(shí),需要用到之前經(jīng)過濾波后,垂直方向的8列數(shù)據(jù),Pij(i=3,2,1,0.j=0…7)和Qij(i=3,2,1,0,j=0…7)。水平邊界的濾波完成后,就可將得到去塊濾波后的最終數(shù)據(jù)。
圖2 去塊濾波的邊界
其濾波的算法是采用P和Q點(diǎn)進(jìn)行濾波。下面以一行(列)為例說明:
強(qiáng)濾波:
p0′=(p2+2·p1+2·p0+2·q0+q1+4)?3
(1)
q0′=(p1+2·p0+2·q0+2·q1+q2+4)?3
(2)
p1′=(p2+p1+p0+q0+2)?2
(3)
q1′=(p0+q0+q1+q2+2)?2
(4)
p2′=(2·p3+3·p2+p1+p0+q0+4)?3
(5)
q2′=(p0+q0+q1+3·q2+2·q3+4)?3
(6)
弱濾波:
Δ定義為:
Δ=(9·(q0-p0)-3·(q1-p1)+8)?4
(7)
當(dāng)abs(Δ)小于tc·10時(shí),有:
Δ=Clip3(-tc,tc,Δ)
(8)
p0′=Clip1(p0+Δ)
(9)
q0′=Clip1(q0-Δ)
(10)
如果dEp1 = 1,則:
Δp=Clip3(-tc?1),tc?1,(((p2+p0+1)?1)-p1+Δ)?1)
(11)
p1′=Clip1(p1+Δp)
(12)
如果dEq1=1,則:
Δq=Clip3(-tc?1),tc?1,(((q2+q0+1)?1)-q1-Δ)?1)
(13)
q1′=Clip(q1+Δq)
(14)
其中p1′和q1′(i=0,1,2)是濾波后的像素值。
由以上算法原理可知,HEVC濾波將CU、PU、TU按照四叉樹方式分割并對(duì)邊界進(jìn)行濾波,并且劃分出來的每個(gè)需要濾波單元都是相互獨(dú)立的[10]。根據(jù)這一原理,本研究設(shè)計(jì)了圖3所示濾波單元數(shù)可配置的并行濾波結(jié)構(gòu)。首先,通過Local bus得到重構(gòu)數(shù)據(jù)及相應(yīng)的參數(shù)(參數(shù)中包含有LCU經(jīng)四叉樹的分割信息),將重構(gòu)數(shù)據(jù)及相應(yīng)的參數(shù)暫存到Temp SRAM中。通過Control控制器將重構(gòu)數(shù)據(jù)中需要濾波的CU塊及參數(shù)信息存入Curr CU中。在Curr CU模塊中根據(jù)分割參數(shù)信息,將CU塊按照預(yù)測分割方式分成了多個(gè)PU塊,將這些PU塊及參數(shù)按照順序依次送入Sep 8×8模塊。在Sep 8×8中將PU塊按照四叉樹分割方式分割到8×8大小塊為止。從8×8塊中取出需要進(jìn)行濾波的數(shù)據(jù)及相應(yīng)的參數(shù),并將其排序,依次送入下面的Filter Unit中。Filter Unit模塊接收需要進(jìn)行濾波的數(shù)據(jù)及相關(guān)的參數(shù)信息進(jìn)行濾波處理。這里采用可配置并行處理的方式,設(shè)置了N個(gè)濾波處理單元Filter Unit進(jìn)行并行處理。N的數(shù)值越大,F(xiàn)ilter Unit單元數(shù)越多,可同時(shí)處理濾波單元就越多,處理濾波數(shù)據(jù)的速度越快,吞吐量越大。反之,N的數(shù)值越小,F(xiàn)ilter Unit單元數(shù)越小,可同時(shí)處理濾波單元就越少。對(duì)于一個(gè)LCU會(huì)有若干個(gè)邊界需要濾波,其中32×32分割塊的邊界有8個(gè)8×8的邊界,垂直邊界和水平邊界各4個(gè),16×16、8×8分割塊分別含有4個(gè)和2個(gè)8×8邊界。為了保證分割塊能夠按照算法中給定的順序進(jìn)行處理,將設(shè)計(jì)中的濾波單元數(shù)量N設(shè)置為2的倍數(shù)。將濾波的順序進(jìn)行排序依次處理。假設(shè)Filter Unit單元數(shù)為4,當(dāng)待處理的分割塊為32×32、16×16、8×8時(shí),一次可進(jìn)行的水平或者垂直濾波的分割塊數(shù)分別為1、2和4個(gè)。各個(gè)Filter Unit單元處理完成后得到了濾波后的數(shù)據(jù),通過Control控制Data out模塊,N個(gè)并行的濾波數(shù)據(jù)按照之前定義的順序輸出數(shù)據(jù)。
圖3 去塊濾波結(jié)構(gòu)圖
HEVC去塊濾波單元硬件系統(tǒng)的核心模塊有:濾波強(qiáng)度計(jì)算模塊(BS Calculation)、亮度塊濾波模塊(Luma Filter)、色度塊濾波模塊(Chroma Filter)、轉(zhuǎn)置模塊(Transpose)、數(shù)據(jù)供給和控制模塊(Data Provide & Control)和數(shù)據(jù)緩存(SRAM)。
去塊濾波單元結(jié)構(gòu)和模塊間的數(shù)據(jù)流走向如圖4所示,即:
① 將重構(gòu)圖的PU或者TU中需要進(jìn)行濾波的像素點(diǎn)和相應(yīng)的參數(shù)值輸入RFs暫存,等待濾波處理。RFs保存了待濾波的數(shù)據(jù)和相應(yīng)的參數(shù)值。
② 待濾波的像素點(diǎn)和參數(shù)準(zhǔn)備好后,將8×8的每行(列)的8個(gè)像素信息,經(jīng)由Data Provide & Control模塊傳輸給BS Calculation模塊進(jìn)行相應(yīng)行(列)濾波強(qiáng)度值計(jì)算。此處需要根據(jù)整體編碼器中的幀內(nèi)、幀間模式以及相鄰快的信息進(jìn)行判斷。具體處理的方式為,當(dāng)BS=2時(shí)使用強(qiáng)濾波、當(dāng)BS=1時(shí)使用弱濾波、當(dāng)BS=0時(shí)不濾波。具體判斷方式如圖5所示。
圖4 去塊濾波單元硬件結(jié)構(gòu)
圖5 BS計(jì)算流程圖
對(duì)于當(dāng)前塊Q或相鄰塊P為幀內(nèi)預(yù)測模式且邊界為宏塊邊界的BS=2,即為強(qiáng)濾波。當(dāng)前塊Q或相鄰塊P有非零coeff、當(dāng)前塊Q或相鄰塊P有不同的參考像素、當(dāng)前塊Q或相鄰塊P有不同的MVS、|MV_P - MV_Q|>=4,符合這幾種情況的BS=1,即為弱濾波。凡不屬于以上幾種情況的BS=0,即為不濾波。
③ 當(dāng)整個(gè)8×8塊的濾波強(qiáng)度值計(jì)算完畢后,會(huì)返回Data Provide & Control模塊一個(gè)濾波強(qiáng)度值,這個(gè)濾波強(qiáng)度值決定了接下來要采用的濾波是強(qiáng)濾波還是弱濾波。
④ 濾波強(qiáng)度計(jì)算完成后,系統(tǒng)開啟Luma filter,向其中每次輸入8行8個(gè)亮度像素信息以及已經(jīng)準(zhǔn)備好的亮度邊界濾波強(qiáng)度值。經(jīng)過濾波計(jì)算后,8×8亮度塊重新返回至Data Provide & Control模塊內(nèi)。
⑤ 4×4色度濾波與亮度濾波相似。每次向Chorma filter輸入4行4個(gè)色度像素信息和色度邊界濾波強(qiáng)度值。經(jīng)過濾波計(jì)算后,4×4色度塊重新返回至Data Provide & Control模塊內(nèi)。
⑥ 由于每次只能進(jìn)行垂直濾波或者水平濾波,因此,按照濾波順序,需要將8行亮度塊的像素點(diǎn)和4行色度塊的像素點(diǎn)先進(jìn)行垂直濾波。濾波完成后,會(huì)被輸入至Transpose模塊內(nèi),進(jìn)行像素矩陣轉(zhuǎn)置。經(jīng)過轉(zhuǎn)置的模塊會(huì)被暫時(shí)存入SRAM中,用于水平濾波。
⑦ 當(dāng)所有亮度塊垂直邊界濾波完成,且經(jīng)過轉(zhuǎn)置存入SRAM后,Data Provide & Control模塊會(huì)提取SRAM中經(jīng)過轉(zhuǎn)置的亮度塊,輸入亮度濾波模塊,進(jìn)行水平濾波。從步驟2開始重復(fù)上面的操作,完成水平濾波。同樣,色度濾波也會(huì)有這樣的操作。
HEVC算法中去塊濾波的順序是,首先,對(duì)LCU的所有CU、PU、TU的垂直邊界進(jìn)行濾波,將濾波后的數(shù)據(jù)存入外部存儲(chǔ)。當(dāng)所有垂直邊界濾波完成后,用已經(jīng)垂直濾波完成后的sample值對(duì)LCU的所有CU、PU、TU的水平邊界進(jìn)行濾波。硬件設(shè)計(jì)中如果按照算法的順序進(jìn)行濾波設(shè)計(jì),垂直濾波后的數(shù)據(jù)需要通過Local Bus進(jìn)行存儲(chǔ)。當(dāng)所有的垂直邊界濾波完成后,需要再次通過Local Bus調(diào)取垂直邊界濾波完成后的數(shù)據(jù)進(jìn)行水平濾波。這樣會(huì)使得系統(tǒng)需要對(duì)Local Bus進(jìn)行數(shù)據(jù)讀和取操作,從而影響系統(tǒng)的處理速度。為了能夠讓垂直濾波后的數(shù)據(jù)不需要通過Local Bus存入外部存儲(chǔ),而直接被水平濾波使用。本文對(duì)垂直邊界濾波完成后的數(shù)據(jù)進(jìn)行轉(zhuǎn)置、暫存的操作,從而使垂直邊界濾波完成后的數(shù)據(jù)進(jìn)行后續(xù)水平邊界濾波的處理操作。采用這種設(shè)計(jì)可以提高數(shù)據(jù)利用率,增加模塊的復(fù)用性,減少對(duì)于外部存儲(chǔ)的依賴,使得去塊濾波系統(tǒng)變的高效。
圖6給出了以4×4為例的色度轉(zhuǎn)置模塊結(jié)構(gòu)圖。首先,垂直濾波完成后的數(shù)據(jù)存入Data in中,數(shù)據(jù)保存并由Control模塊控制,每次只讀出4×4塊的一行數(shù)據(jù)。將讀出的第一行數(shù)據(jù)送給Data buffer 1。Data buffer1按照一行相應(yīng)的位置送入移位寄存器模塊分別是0、1、2、3,同時(shí)第二行數(shù)據(jù)進(jìn)入Data buffer 1。經(jīng)過一個(gè)時(shí)鐘周期后,第二行的Data buffer 1數(shù)據(jù)按照行相應(yīng)的位置送入移位寄存器模塊0、1、2、3,而此時(shí)第一行的0、1、2、3內(nèi)的數(shù)據(jù)移位到相應(yīng)位置4、5、6、7。依次類推,4個(gè)時(shí)鐘周期運(yùn)算后一個(gè)4×4塊就可以完成寄存器組的移位。然后,將0、4、8、12送入Data buffer 2,同時(shí)將后面列依次向左移位。經(jīng)過一個(gè)時(shí)鐘周期后,Data buffer 2將數(shù)據(jù)按照順序傳給Data out 1,就得到了第一列的數(shù)據(jù)。此時(shí),下一個(gè)色度塊的第一行數(shù)據(jù)從Data buffer 1給3、7、11、15。依次類推,4個(gè)時(shí)鐘周期后就得到4個(gè)列的數(shù)據(jù),此時(shí)下一個(gè)色度塊的數(shù)據(jù)已經(jīng)全部在寄存器組中,Control控制寄存器組向下移位,重復(fù)以上操作,從Data buffer 3輸出給Data out 2。依次循環(huán)下去。
按照以上步驟就可以實(shí)現(xiàn)濾波的轉(zhuǎn)置,并且是按照流水級(jí)運(yùn)行,能夠提高數(shù)據(jù)處理能力。對(duì)于亮度8×8塊,需要將寄存器組設(shè)計(jì)為8×8,原理與色度轉(zhuǎn)置模塊一致。
圖6 色度轉(zhuǎn)置模塊
本文以HEVC去塊濾波算法為基礎(chǔ),研究設(shè)計(jì)了去塊濾波的VLSI實(shí)現(xiàn)方式,利用8×8濾波塊可獨(dú)立進(jìn)行濾波的特性,設(shè)計(jì)了可調(diào)濾波單元個(gè)數(shù)的并行結(jié)構(gòu)??膳渲脼V波單元數(shù)為N個(gè),N越大濾波單元越多,處理效率越高,吞吐率越大,但面積會(huì)增加;N越小濾波單元越小,處理效率和吞吐率會(huì)下降,但面積會(huì)減少。根據(jù)算法中分割塊濾波邊界的特點(diǎn),對(duì)采用可配置濾波單元數(shù)進(jìn)行計(jì)算,得到表1所示數(shù)據(jù)??煽吹?,隨著N的增加,門數(shù)、吞吐率、處理能力也有所增加。
在設(shè)計(jì)過程中分別對(duì)N=1、2、4、6、8時(shí)的設(shè)計(jì)進(jìn)行了綜合,得到了相應(yīng)的門數(shù)。對(duì)于吞吐率的計(jì)算本研究根據(jù)設(shè)計(jì)中采用流水線技術(shù),每個(gè)濾波單元可處理相應(yīng)的一個(gè)塊的一行(列)數(shù)據(jù)。本研究首先計(jì)算出N=4時(shí)的吞吐率約為1.1 GB/s,再根據(jù)每個(gè)濾波單元能夠處理261 MB/s的數(shù)據(jù)得出N為其他值時(shí)的吞吐率。處理能力是在相應(yīng)吞吐率基礎(chǔ)上計(jì)算得到。
表1 N配置表
本文采用了轉(zhuǎn)置矩陣的方式對(duì)數(shù)據(jù)進(jìn)行暫存,而并非采用直接將每行(列)計(jì)算完的數(shù)據(jù)先存儲(chǔ)起來。等所有的行(列)的數(shù)據(jù)都計(jì)算完后,再對(duì)數(shù)據(jù)按照行、列轉(zhuǎn)置的方式依次輸入給濾波模塊計(jì)算下一步的列(行)的數(shù)據(jù)。因此,這樣可在存儲(chǔ)單元上減少一定的面積。結(jié)合可配置濾波單元數(shù)的方式,當(dāng)要達(dá)到高效處理數(shù)據(jù)單元的時(shí)候存儲(chǔ)單元減少的面積數(shù)就會(huì)更多。
為了能夠保證高清視頻編碼4 K視頻序列的流暢性的最低要求,幀率需要每秒達(dá)到30幀。本文采用N=4,即4個(gè)并行的濾波處理單元進(jìn)行處理操作,這樣可用相對(duì)較小的硬件資源消耗達(dá)到流暢性的最低要求。在此配置下,表2說明了本研究的設(shè)計(jì)和參考文獻(xiàn)的比較。相同工藝參數(shù)下,比文獻(xiàn)[5]所提及的門數(shù)少、處理能力高。比文獻(xiàn)[6]門數(shù)多5.7 K,但是數(shù)據(jù)吞吐率和處理能力都比文獻(xiàn)[6]高。
表2 資源消耗表
1)以HEVC去塊濾波算法為基礎(chǔ),設(shè)計(jì)了去塊濾波的VLSI實(shí)現(xiàn)方式。
2)利用濾波塊間相互獨(dú)立進(jìn)行濾波的特性,設(shè)計(jì)了可配置濾波單元個(gè)數(shù)的并行結(jié)構(gòu),給出了實(shí)現(xiàn)框圖。并針對(duì)濾波先垂直后水平的濾波順序,設(shè)計(jì)了轉(zhuǎn)置模塊,將垂直濾波后的數(shù)據(jù)進(jìn)行轉(zhuǎn)置。為了避免使用系統(tǒng)總線進(jìn)行數(shù)據(jù)重復(fù)讀取,而有可能降低系統(tǒng)處理數(shù)據(jù)的效率,把轉(zhuǎn)置后的數(shù)據(jù)暫存在SRAM中,為水平濾波提供實(shí)時(shí)的數(shù)據(jù),以提高流水線運(yùn)行效率。
3)使用 SMIC 0.13 μm的工藝庫參數(shù),綜合后在300 MHz下,配置濾波單元數(shù)為4個(gè),系統(tǒng)總門數(shù)為59.7 K,可以實(shí)時(shí)處理3840×2160@33fps的圖像序列。
參考文獻(xiàn):
[1]Zhou M, Sze V, Mastuba Y.A study on HEVC parsing throughput issue:joint collaborative team on video coding[C].Torino, JCTVC-F068, 2011.
[2]Sullivan G J, Ohm J R, Han W J, et al.Overview of the high efficiency video coding (HEVC) standard[J].IEEE Transcation Circuits and Systems for Video Technology, 2012, 22(9): 1649-1668.
[3]Naccari M B, Ascenso C.Low complexity deblocking filter perceptual optimization for the HEVC code:2011 18th IEEE international conference on image processing (ICIP)[C].Brussels,2011:159-163.
[4]Bross B, Han W J, Ohm J R, et al.High efficiency video coding (HEVC) text specification draft 10 (for FDIS & Consent):JCTVC-L1003_v25[C].Geneva ,2013:190-220.
[5]Shen weiwei, Shang Qing, Shen Sha, et al.A high-throughput VLSI architecture for deblocking filter in HEVC:IEEE international symposium on circuits and systems (ISCAS)[C].Beijing:China,2013:673-676.
[6]Jongwoo B.Register array-based VLSI architecture of H265/HEVC loop filter[J].IEICE Electronics Express,2013, 10(7):1-9.
[7]Ohm J R, Sullivan G J, Schwarz H, et al.Comparison of the coding efficiency of video coding standards including high efficiency video coding (HEVC)[J].IEEE Transactions on Circuits and Systems for Video Technology, 2012, 22(12): 1669-1684.
[8]Bross B, Han W J, Ohm J R,et al.High efficiency video coding (HEVC) text specification draft 10 (for FDIS & Consent):JCTVC-L1003[C].Geneva ,2013: 179-201.
[9]Bossen F, Bross B, Sühring K.et al.HEVC complexity and implementation analysis[J].IEEE Transactions on Circuits and Systems for Video Technology, 2012, 22(12): 1550-1561.
[10]Andrey Norkin, Gisle Bj ntegaard, Arild Fuldseth HEVC deblocking filter[J].IEEE Transactions on Circuits and Systems for Video Technology, 2012, 22(12):1801-1809.