尹其文
(上海海事大學 信息工程學院,上海 201306)
SHVC中幀內(nèi)預測快速算法的研究
尹其文
(上海海事大學 信息工程學院,上海201306)
可分級高效視頻編碼(SHVC)可實現(xiàn)對視頻序列的分層編碼,正是因為實現(xiàn)了分層編碼,編碼的時間復雜度也會大大增加,尤其是在幀內(nèi)預測過程中,需要從35種模式中通過率失真優(yōu)化(RDO)選出最佳預測模式。為了加速增強層(EL)幀內(nèi)預測模式的決策進程,基于當前預測單元(PU)與基本層(BL)相同位置PU,以及與BL中相同位置或EL中當前PU空間上相鄰的PU的幀內(nèi)預測模式的相關性,提出幀內(nèi)預測模式快速決策算法。實驗結(jié)果表明:在保證視頻質(zhì)量基本不變的情況下,相比較于SHVC的標準SHM-9.0而言,能減少大約40%~50%的時間。
SHVC;BL;EL;PU;相關性
可伸縮視頻編碼已經(jīng)被研究并標準化20多年了,但是可伸縮視頻編碼從來沒有像非可伸縮視頻編碼一樣被廣泛商業(yè)化,即使對它的研究已經(jīng)很成熟,但在商用時還是處處受限,其主要的原因在于其實現(xiàn)的復雜度。非可伸縮視頻編碼實現(xiàn)起來較簡單,并且易懂,不需要繁瑣的上采樣或下采樣的流程和多層編碼機制。相比非可伸縮視頻編碼,可伸縮視頻編碼的實現(xiàn)要困難得多。因為可伸縮視頻編碼提供了把視頻編碼成多層的機制,其中每一層是在相同場景下不同質(zhì)量的代表。BL代表最低質(zhì)量層,只有唯一的一個,通過參考BL可以編碼一個或者多個EL,往后每一個EL代表更高層次的視頻質(zhì)量,以此來一步步提升視頻的質(zhì)量??缮炜s視頻編碼的優(yōu)點在于不管是將視頻序列編碼成多少層,傳輸碼流的方式還是一樣的,將不同層的碼流融入進一支碼流中,在解碼端,可以根據(jù)不同的網(wǎng)絡和硬件設備條件,來提取其中所需的碼流。但是正是因為將視頻編碼成多層,每一層都需要用到幀內(nèi)預測和幀間預測,尤其是在幀內(nèi)預測時,每一個PU在進行幀內(nèi)預測時都需要從35種模式中選出一種最佳預測模式,因此時間復雜度也大大增加。
高效視頻編碼(HEVC)[1-2]的第二版本主要分為:SHVC[3-4]、3D-HEVC、MV-HEVC,其中3D-HEVC更適用于深度圖的編碼,MV-HEVC更適合于多視點編碼,而SHVC是可伸縮編碼,可以廣泛應用于網(wǎng)絡不穩(wěn)定、帶寬不夠或者終端設備差異性較大情況下的編碼,其應用范圍相對于其他兩個來說更廣。
在SHVC的發(fā)展過程中,吸取了以前的經(jīng)驗教訓,改變了常規(guī)可伸縮視頻編碼的模式,重復利用多個單層HEVC核和僅改變高層語法的HEVC*編碼器來實現(xiàn)可伸縮視頻編碼架構(gòu)。這樣一來,在可伸縮視頻編碼的架構(gòu)中,可以在技術改進很小的情況下去實現(xiàn)可伸縮編碼。SHVC的編碼架構(gòu)中,BL使用的是HEVC編碼器或AVC[5-6]編碼器,在EL中使用的是HEVC*編碼器,所謂HEVC*編碼器,也就是對HEVC編碼器進行了高層語法的改動之后形成的編碼器,用于編碼除BL外的所有EL,這些高層語法改動用以通知有關層依賴性的必要信息。因此,SHVC一問世,就受到了廣大專家的推崇與認可,其商用價值也是最被看好的。雖然SHVC目前還沒有大量應用于實際當中,但是其所采用的各項新技術已經(jīng)預示著SHVC將會成為取代HEVC的主流多媒體編碼標準。
SHVC是目前視頻壓縮編碼研究中的一塊熱領域。它繼承了HEVC的35種幀內(nèi)預測模式,如圖1所示,其中包括33種角度模式、一種DC模式和一種PLANAR模式。對于每一層中的每一個PU,SHVC標準都會依次實施這35種模式(如圖1),然后對其結(jié)果進行率失真優(yōu)化(RDO)[7]選出該幀圖像的EL中此PU的最佳幀內(nèi)預測模式。這相比較于AVC或者HEVC來說,復雜度大大增加,時間性能下降。因此,為了在保證視頻質(zhì)量和良好的用戶體驗的基礎上,改善SHVC的時間性能,出現(xiàn)了一系列的幀內(nèi)預測快速算法。
圖1 35種幀內(nèi)預測模式
文獻[8-9]提出了對SVC幀內(nèi)預測的快速決策算法,算法總體思想就是根據(jù)BL和EL的相關性來減少EL幀內(nèi)預測的候選模式,但是由于SVC與SHVC的幀內(nèi)預測的模式不相同,SHVC的角度模式進一步細化了,因此此類算法無法應用于SHVC,但是此類算法利用BL與EL的相關性的思想可以加以借鑒。
文獻[10-11]提出了對HEVC的快速決策算法,應用提出CU分割決策方案來跳過一些不必要的CU位深查詢。這類跳過算法是基于對當前CU或時間或空間上相鄰的CU的位深的分析來提出的。SHVC中,可以利用BL的CU位深來快速選出EL的CU大小。
文獻[12-14]提出了針對SHVC幀內(nèi)預測的快速算法,文獻[12]是在EL中僅僅對同位BL的幀內(nèi)預測模式及其相鄰的幀內(nèi)模式進行RDO來得出最佳預測方案,這種方案的明顯缺陷在于無法保證預測模式的多樣性,但是可以在EL中利用同位BL的幀內(nèi)預測模式的信息;文獻[13]和文獻[14]都提出了一種由粗到精的幀內(nèi)預測模式?jīng)Q策方案,都是首先按照某種算法從35種幀內(nèi)預測模式中選出幾種,然后對其進一步精確化,最后得出最佳的模式。
總言之,以前的各種算法各有其優(yōu)缺點,都可以在時間性能上得到改善,但是可能會造成其他方面的缺陷,比如PSNR的大幅度降低,或者BD-rate的大幅度減小,又或者沒有充分利用空間上相鄰的PU的模式相似性,這些都會影響視頻本身的質(zhì)量或者沒有充分節(jié)省時間。
事實上,BL的圖像是按照一定的縮放因子從EL進行下采樣獲得的,因此,BL與EL的圖像具有相似的紋理和結(jié)構(gòu)信息[15-16]。有理由相信,EL與BL的PU分割方式是非常相似的,因此,大膽推測EL與BL中同位置PU的幀內(nèi)預測模式(BLM)是相似的。表1的數(shù)據(jù)表明,這種推測是合理的,其中BLM-1表示與BLM模式左邊相鄰的模式,其他的以此類推。特別說明,沒有將PLANAR模式和DC模式作為統(tǒng)計考慮的對象,因為它們不是角度模式,沒有相鄰模式。
表1 空間可伸縮下EL的PU與BL中相同位置的PU的幀內(nèi)預測模式的相關性 (單位:%)
此外還用到了EL中與當前PU空間上相鄰的PU的幀內(nèi)預測模式(ELM)的相關性,將其作為候選模式的其中一個要素,假定當前PU左邊有兩個PU塊,幀內(nèi)預測模式分別為:ELM左、ELM左上,上邊有兩個PU塊,預測模式分別為:ELM上中、ELM上右。表2表明,其邏輯是合理的。
表2 空間可伸縮下EL的當前PU與EL中空間相鄰的PU的幀內(nèi)預測模式的相關性 (單位:%)
另外,還用到了與BL中相同位置PU空間上相鄰的PU的幀內(nèi)預測模式(BLM)的相關性,作為候選模式的另外一個要素,同樣假定BL中同位置PU左邊有兩個PU塊,幀內(nèi)預測模式分別為:BLM左、BLM左上,上邊有兩個PU塊,預測模式分別為:BLM上中、BLM上右。表3表明,該邏輯是合理的。
表3 空間可伸縮下EL的當前PU與BL中同位置空間相鄰的PU的幀內(nèi)預測模式的相關性 (單位:%)
基于對以上數(shù)據(jù)和其他各種快速算法的整理與分析,本文利用EL中當前PU與BL中同位置PU,以及與BL中相同位置或EL中當前PU空間上相鄰的PU的幀內(nèi)預測模式的相關性提出自己的算法,流程圖如圖2,提出的算法包括以下幾個步驟:
(1)根據(jù)PU的紋理與結(jié)構(gòu)信息,計算33種角度模式的Hadamard變換的絕對值差和(SATD),然后根據(jù)SATD的大小排序得出SATD排序中較小的5種幀內(nèi)預測模式;
表4 空間可伸縮下視頻序列的R-D性能、時間復雜度減少以及比特率(SHM標準與本文提出的算法)
(2)對這5種幀內(nèi)預測模式的相鄰模式(相鄰模式最多可能10種)計算出SATD;
(3)對PLANAR、DC、BLM模式計算出SATD;
(4)找出同位BL的PU塊的左邊和上方相鄰PU塊的預測模式(BLM左、BLM左上、BLM上中、BLM上右),計算出SATD;
(5)找出EL中當前PU塊的左邊和上方相鄰PU塊的預測模式(ELM左、ELM左上、ELM上中、ELM上右),計算出SATD;
(6)對上述5個步驟的結(jié)果的SATD進行排序生成一個長度為N的序列;
(7)對N個候選模式分別進行RDO,RDO最小的即為最佳候選模式。
圖2 本文提出的幀內(nèi)預測算法流程圖
本方案仿真是實驗室環(huán)境,采用Win10系統(tǒng),4 GB內(nèi)存,CPU為i7-5500U的計算機,安裝的軟件是Microsoft Visual Studio 2010,從八大類序列中抽取了七大類(CGS一般用于色域可伸縮情況),每類中抽取1~2個測試序列,所有序列均為4:2:0YUV序列,分別為BasketballDrive,最高分辨率為1 920×1 080; BQTerrace,最高分辨率為1 920×1 080;Cactus,分辨率為1 920×1 080;Kimono,最高分辨率為1 920×1 080;ParkScene,最高分辨率為1 920×1 080;PeopleOnStreet,最高分辨率為2 560×1 600;Traffic,最高分辨率為2 560×1 600。其中只有PeopleOnStreet和Traffic沒有2x配置文件,其他的均是采用了1.5x和2x兩種配置文件來進行仿真的。特別說明,其中最高分辨率指的是EL的分辨率,對其進行下采樣之后可以得到相應的BL的分辨率。
為了驗證提出的算法的合理性,基于以上基礎,采用的代碼為SHM-9.0,嚴格按照JCT-VC[17]提出的共同測試環(huán)境。
實驗結(jié)果如表4所示。
注:(1)
(1)
Tproposed為本文提出算法的時間,TSHM為SHM-9.0標準算法的時間。
(2)
PSNR=PSNRproposed-PSNRSHM
(2)
PSNRproposed為本文提出算法的PSNR,PSNRSHM為SHM標準算法的PSNR。
從表4的結(jié)果可以看出,本文提出的算法與SHVC標準SHM-9.0相比,在保證視頻質(zhì)量基本不變或者降低很微小的前提下,實現(xiàn)時間大幅度減少。相比較于SHVC的標準SHM-9.0而言,對1.5x序列PSNR的平均降低控制在0.08 db內(nèi),平均時間達到了45.9%的減少;對2x序列,PSNR平均降低了0.06 db,實現(xiàn)了平均時間43.7%的減少。
本文提出的針對幀內(nèi)預測模式的快速算法,其原理是基于當前PU與BL相同位置PU,以及與BL中相同位置或EL中當前PU空間上相鄰的PU的幀內(nèi)預測模式的相關性。仿真結(jié)果表明:在保證視頻質(zhì)量基本不變的情況下,相比較于SHVC的標準SHM-9.0而言,能減少大約40%~50%的時間,這也證明了算法的有效性。
[1] SJOBERG R,Chen Ying.Overview of HEVC:high-level syntax and referencs picture managemant[J].Institute of Electrical and Electronics Engineers(IEEE),2012,22(12):1858-1870.
[2] ZHANG Y F,WANG H B,LI Z.Fast coding unit depth decision algorithm for interframe coding in HEVC[J].Data Compression Conference (DCC),2013,113:53-62.
[3] BOYCE J M,Ye Yan,Chen Jianle, et al.Overview of SHVC:scalable excetion of the hign efficiency video coding(HEVC) standard[J].IEEE Transactions on Circuits & Systems for Video Technology,2016,26(1):20-34.
[4] 盧鑫,林茂六,金雪松等.新一代可伸縮視頻編碼標準:背景、特征、技術及其應用[J].電子測量與儀器學報,2015,29(10):1415-1424.
[5] LI G L,CHEN M J,LI H J,et al.Efficient search and mode prediction algorithms for motion estimation in H.264/AVC[C].Kobe, Japan: Proceeding of IEEE International Symposium on Circuits and Systems(ISCAS),2005,5:5481-5484.
[6] LAUDE T, Xiu Xiaoyu,Dong Jie,et al.Scalsble extension of HEVC using enhanced inter-layer prediction[J].IEEE International Conference on Innage Processing,2015:3739-3743.
[7] ZHU X,HONG W,XU H,et al.Spatial quality index based rate perceptual-distortion optimization for video coding[J].Journal of Visual Communication & Image Representation,2016,291:423-434.
[8] SEGALL C A, SULLIVAN G J.Spatial scalability within the H.264 AVC scalable video coding extension[J].IEEE Transactions on Circuits and Systems for Video Technology, 2007,17(9):1112-1135.
[9] KHALEK A A,CARAMANIS C, HEATH R W.A cross-layer design for perceptual optimization of H.264/SVC with unequal error protection[J].IEEE Journal on Selected Areas in Communications,2012,30(7):1157-1171.
[10] ZHAO L,ZHANG L,MA S,et al.Fast mode decision algorithm for intra prediction in HEVC[J].ISCAS,2011,37:1-4.
[11] SHEN X L,YU L,CHEN J.Fast coding unit size selection for HEVC based on Bayesian decision rule[J].Picture Coding Symposium (PCS),2012,29:453-456.
[12] BAILLEUL R, COCK J D.Fast mode decision for SNR scalability in SHVC digest of technical papers[C].IEEE International Conference on Consumer Electronics,2014:193-194.
[13] FRAN?OIS E,SHI S,GISQUET C,et al.Non-SCE1:simplification of intra mode coding in SHVC[C].JCT-VC M0115 Apr.2013.
[14] Zuo Xuguang,Yu Lu.Fast mode decision method for all intra spatial scalability in SHVC[C].IEEE,2015:394-397.
[15] 雷海衛(wèi),劉文怡,王安紅.3D-HEVC中深度圖幀內(nèi)預測模式判決過程的改進[J].電子技術應用,2016,42(10):116-119.
[16] 羅國成,余彪,劉進,等.基于小波變換的新型幀內(nèi)模式預測快速選擇算法[J].微型機與應用,2013,32(25): 32-34.
[17] SEREGIN V,HE Y.Common SHM test conditions and software reference configurations[S].JCT-VC P1009,Jan.2014.
Fast algorithm for intra prediction in SHVC
Yin Qiwen
(College of Information Engineering, Shanghai Maritime University, Shanghai 201306,China)
Scalable High Efficiency Video Coding (SHVC) can achieve hierarchical coding of video sequences,because of the realization of the hierarchical coding,the prediction of the time complexity will be greatly increased,especially in the intra prediction process,because of selecting the best mode from 35 models.In order to accelerate the intra prediction mode decision process in the enhancement layer (EL),based on the correlation of the intra prediction mode among the current prediction unit (PU),the PU in the same position of the base layer (BL) and the PU in Spatially adjacent of BL or EL,proposed the fast decision algorithm for intra prediction mode.The experimental results show that the time reduction of about 40%~50% can be achieved compared with SHVC standard SHM9.0 when the video quality is basically the same.
SHVC; BL; EL; PU; correlation
TP391
A
10.19358/j.issn.1674-7720.2017.21.013
尹其文.SHVC中幀內(nèi)預測快速算法的研究J.微型機與應用,2017,36(21):41-44.
2017-04-14)
尹其文(1992-),男,碩士研究生,主要研究方向:視頻壓縮編碼,新一代可伸縮視頻編碼(SHVC)的幀內(nèi)預測算法的優(yōu)化。