劉鵬宇, 王聰聰, 賈克斌
(1.北京工業(yè)大學(xué)信息學(xué)部, 北京 100124; 2.先進信息網(wǎng)絡(luò)北京實驗室, 北京 100124;3.北京工業(yè)大學(xué)計算智能與智能系統(tǒng)北京市重點實驗室, 北京 100124)
高質(zhì)量、低碼率是視頻傳輸中永恒不變的追求,如何在保證視頻質(zhì)量的前提下降低帶寬成本是整個視頻傳輸應(yīng)用中重要的一環(huán). 然而,目前用于視頻壓縮傳輸?shù)闹髁骶幋a技術(shù),從MPEG1[1]到H.264[2],再到H.265[3],每隔10年時間,視頻的壓縮率僅能提升1倍左右,平均每年壓縮率提升只有不到7%,遠遠低于視頻數(shù)據(jù)量的增長率.
為了提升視頻壓縮率,通常在發(fā)送端對高分辨率視頻進行降分辨率的下采樣操作,然后在信道中傳輸?shù)头直媛实囊曨l,最后在接收端應(yīng)用圖像超分辨率技術(shù)還原出高分辨率的視頻[4],這種方法可以有效緩解視頻傳輸過程中的帶寬壓力. 然而,在發(fā)送端進行下采樣時,由于丟失了大量原始高分辨率視頻中的高頻信息,使得在接收端應(yīng)用圖像超分辨率技術(shù)進行還原時面臨高度的病態(tài)性問題,正是由于在映射空間中存在不止一組對應(yīng)的高分辨率圖像和低分辨率圖像,這無疑給重建原始高分辨率視頻帶來極大的困難.
為了緩解視頻傳輸應(yīng)用中使用圖像超分辨率技術(shù)帶來的高度病態(tài)性問題,本文提出一種聯(lián)合上下采樣的超分辨率框架. 該框架的優(yōu)勢是通過設(shè)計卷積神經(jīng)網(wǎng)絡(luò)模擬圖像的降采樣過程,使得原始高分辨率圖像的信息能夠“隱匿”在降采樣后的圖像中,然后再與圖像超分辨率模型進行端到端的訓(xùn)練. 實驗表明,這種通過引入原始高分辨率圖像信息、上下采樣過程聯(lián)動的方式可以有效緩解超分辨率重建中的病態(tài)性問題,大幅提高重建圖像質(zhì)量.
超分辨率技術(shù)是一種將低分辨率圖像重建為高分辨率圖像的技術(shù)[5]. 提升圖像的分辨率不僅能帶來良好的視覺體驗,還能提高后續(xù)視覺任務(wù)的檢測效果,是一項重要的圖像處理技術(shù),也是計算機視覺領(lǐng)域重要的課題之一.
早期的研究使用插值的方法來解決超分辨率問題[6],但是這些方法在預(yù)測細節(jié)、真實感和紋理方面存在局限性. 之后,有研究使用基于統(tǒng)計學(xué)習(xí)的方法來解決超分辨率問題[7],其原理與基于深度學(xué)習(xí)的方法類似,大都是研究低分辨率圖像和高分辨率圖像之間的映射關(guān)系.
近些年來,深度學(xué)習(xí)技術(shù)憑借其強大的特征提取能力在各項圖像任務(wù)中取得非凡的成果[8],包括圖像識別[9-10]、目標檢測[11-12]、圖像處理[13-14]等,其中還包括圖像超分辨率. 利用深度學(xué)習(xí)處理超分辨率任務(wù)的本質(zhì)是通過建立卷積神經(jīng)網(wǎng)絡(luò)模型來擬合低分辨率圖像與高分辨率圖像間的映射關(guān)系. 具體來說,主要有以下4種框架:
1) 前置上采樣超分辨率
這種框架首先使用傳統(tǒng)方法(如雙三次插值)對原始低分辨率圖像進行上采樣得到“粗高分辨率圖像”,然后通過卷積神經(jīng)網(wǎng)絡(luò)去擬合“粗高分辨率圖像”與真實高分辨率圖像之間的映射關(guān)系[15-18]. 該方法只需要對“粗高分辨率圖像”進行精細化處理,大大降低了模型的擬合難度. 但是,這種方法會放大原始圖像中的噪聲和模糊,同時由于擬合發(fā)生在高維空間,計算復(fù)雜度相對較高.
2) 后置上采樣超分辨率
與前置上采樣超分辨率框架相對的一種框架是后置上采用超分辨率[19-22],該方法使用卷積神經(jīng)網(wǎng)絡(luò)以不改變尺寸的方式提取原始圖像特征,最后使用一個可學(xué)習(xí)的上采樣層對模型進行端到端的訓(xùn)練. 這種框架的計算主要在低維空間進行,相較于前置上采樣框架可大幅降低計算復(fù)雜度,但由于其在上采樣層的學(xué)習(xí)難度很大,重建性能不夠穩(wěn)定.
3) 逐步上采樣超分辨率
一種折衷的想法在Laplacian Pyramid SR Network[23-24]和progressive SR[25]中被提出,即將最后的大的上采樣分解成數(shù)個小的上采樣,在每一個小的上采樣前使用卷積神經(jīng)網(wǎng)絡(luò)來提取圖像特征. 如此,通過將一個困難的任務(wù)分解成數(shù)個簡單的任務(wù),極大地降低了學(xué)習(xí)難度,獲得更好的性能. 但這種方式的缺陷在于模型復(fù)雜,訓(xùn)練難度大.
4) 迭代上下采樣超分辨率
這種框架采用類似U-Net的結(jié)構(gòu)[26],通過在模型中交替使用上采樣和下采樣意在更充分地挖掘低分辨率圖像與高分辨率圖像對之間的深層關(guān)系[27],從而提供更高質(zhì)量的重建結(jié)果.
一般來說,峰值信噪比(peak signal-to-noise ratio,PSNR)高于40 dB表明處理后的圖像非常接近原始圖像,但目前圖像超分辨率方法很難達到這一指標. 其關(guān)鍵在于上述4類超分辨率框架都存在上采樣這一步驟,由于原始信息的缺乏,這個步驟是高度病態(tài)的. 如何降低高度病態(tài)性,是突破現(xiàn)有超分重建技術(shù)的關(guān)鍵所在. 本文從視頻傳輸?shù)慕嵌戎匦滤伎汲直媛实目蚣茉O(shè)計,將原始高分辨率圖像的信息引入圖像的上采樣過程中,以緩解上采樣引發(fā)的高度病態(tài)性問題.
超分辨率問題可以表示為
L=fbic(H)
(1)
記原始高分辨率圖像為H,其對應(yīng)的低分辨率圖像為L,這個低分辨率圖像一般由雙三次插值得到,其中fbic為雙三次插值函數(shù),超分辨率的目的是找到一個“逆函數(shù)”fsr,使得
H=fsr(L)
(2)
顯然這樣的變換是高度病態(tài)的,直接使用卷積神經(jīng)網(wǎng)絡(luò)去擬合這樣的變換關(guān)系存在困難,因為低分辨率與高分辨率圖像之間的映射空間過于龐大,一個低分辨率圖像可以映射為多個高分辨率圖像.
圖1 聯(lián)合上下采樣超分辨率框架Fig.1 Joint up-and-down sampling super-resolution framework
這個問題在圖像超分辨率中是無解的,因為輸入數(shù)據(jù)在經(jīng)過雙三次插值后,已經(jīng)損失了大量高分辨率圖像信息. 為了解決這個問題,本文擬通過約束超分辨率過程中的映射空間來提升超分辨率的性能. 具體而言,在訓(xùn)練低分辨率圖像和高分辨率圖像的映射關(guān)系時,通過額外訓(xùn)練一個高分辨率圖像到低分辨率圖像的映射關(guān)系來限制低分辨率圖像的映射空間,表達式為
H=fsr(fds(H))
(3)
式中:fsr為低分辨率圖像到高分辨率圖像的映射函數(shù);fds為高分辨率圖像到低分辨率圖像的映射函數(shù). 通過聯(lián)合訓(xùn)練這2個映射函數(shù),可以有效限制超分辨率過程中映射空間的大小.
進一步,根據(jù)Hoeffding[28]不等式
P[R(f)-(f)≥
(4)
對任意的f∈F,R(f)是期望風(fēng)險,(f)是經(jīng)驗風(fēng)險,N為樣本數(shù)量,為泛化誤差,[ai,bi]為樣本區(qū)間,在本任務(wù)中可以記為[0,C],其中C為常數(shù),則式(4)可進一步化簡為
P[R(f)-(f)≥
(5)
由于F={f1,f2,…,fd}為一個有限集合,d為映射空間尺寸,故
P[?f∈F:R(f)-(f)≥]=
(6)
基于理論推導(dǎo),本文提出一種聯(lián)合上下采樣的超分辨率框架,如圖1所示.
所提出的框架主要由下采樣網(wǎng)絡(luò)和超分辨率網(wǎng)絡(luò)構(gòu)成. 下采樣網(wǎng)絡(luò)用于對高分辨率圖像進行降采樣操作,使用由傳統(tǒng)退化方法(雙三次插值)得到的低分辨率圖像進行監(jiān)督訓(xùn)練. 在這個過程中,相比“粗暴”的插值方式,更多的高分辨率信息被隱匿在生成的低分辨率圖像中,同時在結(jié)構(gòu)上又與插值方式生成的低分辨率圖像相同,不影響主觀視覺效果. 超分辨率網(wǎng)絡(luò)即為普通的超分辨率網(wǎng)絡(luò),不同的是,其輸入為保留了高分辨率圖像信息的低分辨率圖像,使得還原的難度更低. 最后,整個框架進行聯(lián)合訓(xùn)練,降采樣過程與超分辨率過程互相約束,總體上減小了映射空間的尺寸,有效提升了模型性能.
框架的具體結(jié)構(gòu)如表1、2所示. 為了便于對提出的方案進行驗證,超分辨率網(wǎng)絡(luò)部分直接選用了一種流行的超分辨率模型——EDSR[22]模型,這種模型結(jié)構(gòu)簡潔,性能強大,便于進行實驗效果的對比. 而下采樣網(wǎng)絡(luò)在設(shè)計過程中遵循超分辨率網(wǎng)絡(luò)的設(shè)計范式,取消批歸一化層,通過堆疊殘差塊的方式提升模型能力[29],緩解網(wǎng)絡(luò)訓(xùn)練過程中可能出現(xiàn)的梯度消失和梯度爆炸.
表1 下采樣網(wǎng)絡(luò)結(jié)構(gòu)
表2 超分辨率網(wǎng)絡(luò)結(jié)構(gòu)
下采樣網(wǎng)絡(luò)結(jié)構(gòu)和超分辨率網(wǎng)絡(luò)結(jié)構(gòu)均包含Head、Body、Tail三個模塊,其中Head模塊由一層3×3的卷積層組成,用于擴展模型的整體寬度,使得特征的映射在一個較大的空間內(nèi)進行,以提升性能;Body模塊為主要的特征提取層,具體結(jié)構(gòu)如圖2所示,包含2個3×3的卷積層和1個激活函數(shù)層,并使用殘差連接的方式進行組合;Tail模塊的作用是改變輸入維度,實現(xiàn)降采樣或超分辨率,分別由帶步長的卷積層和Pixelshuffle[30]構(gòu)成.
圖2 殘差塊Fig.2 Resblock
圖1所示的聯(lián)合上下采樣超分辨率框架同目前主流的超分辨率框架一樣,需要使用成對的高、低分辨率圖像進行訓(xùn)練(低分辨率圖像由雙三次插值方法退化得到). 區(qū)別在于,其總體結(jié)構(gòu)上輸入為高分辨率圖像,輸出也為高分辨率圖像,而低分辨率圖像能夠用于監(jiān)督上采樣網(wǎng)絡(luò)的輸出.
另外值得注意的是,由于下采樣網(wǎng)絡(luò)的輸出結(jié)果為浮點類型,為滿足實際應(yīng)用場景的需求,輸出需要通過量化轉(zhuǎn)化為整形. 而這一量化過程是不可導(dǎo)的,導(dǎo)致無法通過反向傳播進行訓(xùn)練. 因此,訓(xùn)練過程分為2步. 即首先不加入量化過程,進行下采樣網(wǎng)絡(luò)和超分辨率網(wǎng)絡(luò)的聯(lián)合訓(xùn)練;在模型收斂后,在模型中加入量化步驟,加載聯(lián)合訓(xùn)練后的權(quán)重作為初值進行微調(diào),即可完成整體框架的訓(xùn)練.
本文將所提出框架在主流超分數(shù)據(jù)集和HEVC標準測試序列與框架中采用的超分辨率模型EDSR進行了2倍、3倍、4倍的超分辨率實驗對比,以下是實驗參數(shù)和實驗結(jié)果展示.
為保證公平,所有模型均基于超分辨率數(shù)據(jù)集DIV2K[31]的前800張圖片進行訓(xùn)練,DIV2K數(shù)據(jù)集可使用圖像共900張,其中100張用于驗證,800張用于訓(xùn)練,圖像平均分辨率1 972×1 734,包含風(fēng)景、動物、植物、人、食物、建筑、車輛、手工藝品等多種類別,是被最為廣泛使用的超分辨率數(shù)據(jù)集.
測試使用的圖像超分辨率數(shù)據(jù)集包括Set14[32](見圖3(a)),Manga109[33](見圖3(b)),BSD100[34](見圖3(c)),Set5[35](見圖3(d)),Urban100[36](見圖3(e)),其中,Urban100主要為建筑圖像,Manga109為漫畫圖像.
圖3 測試圖像數(shù)據(jù)集Fig.3 Test image data sets
此外,選取了5種分辨率和場景各異的HEVC標準測試序列進行了測試,如圖4所示,均選取時長為10 s的片段,利用視頻編碼常用工具FFmpeg將視頻序列保存為RGB圖像,根據(jù)其幀率的區(qū)別每個序列獲得240~500張圖像.
實驗基于深度學(xué)習(xí)框架PyTorch[37]進行,硬件設(shè)備為RTX2080TI. 使用圖像Y通道上的PSNR和結(jié)構(gòu)相似度(structural similarity,SSIM)為指標進行性能評判標準,同時也進行主觀效果的對比展示.
在訓(xùn)練過程中,與通常的超分辨率模型訓(xùn)練方法相同,將圖像切為192×192的小片進行訓(xùn)練,推斷則在整張圖像上推斷. 使用Adam優(yōu)化器,初始學(xué)習(xí)率為1×10-4,以余弦退火策略進行學(xué)習(xí)率的調(diào)整,使用L1(第一范數(shù))損失作為損失函數(shù).
圖4 測試視頻數(shù)據(jù)集Fig.4 Test video data sets
在圖像超分數(shù)據(jù)集和HEVC標準測試序列上的結(jié)果分別如表3、4所示. 其中,Bicubic[38]代表使用雙三次插值的方式進行上采樣的超分辨率結(jié)果,
表3 在圖像數(shù)據(jù)集上的性能對比
表4 在視頻數(shù)據(jù)集上的性能對比
其數(shù)值可以在一定程度上代表數(shù)據(jù)集的還原難度,一般作為實驗的基線展示. EDSR為所對比的超分辨率模型,Proposed為提出的聯(lián)合上下采樣的超分辨率框架.
圖5 圖片數(shù)據(jù)集上的平均PSNR性能對比Fig.5 Average PSNR performance comparisons on image data sets
圖5、6分別為各個圖像和視頻數(shù)據(jù)集下不同超分倍數(shù)任務(wù)的平均PSNR指標,可以看到,在幾乎所有的圖像超分辨率數(shù)據(jù)集上以及超分辨率倍數(shù)任務(wù)中,所提出框架相較原始的EDSR模型均有較明顯的提升,在圖像數(shù)據(jù)集上相比原始的EDSR模型平均提升超過2.9 dB. 這表明通過約束超分辨率任務(wù)的函數(shù)映射空間,能夠有效緩解超分辨率任務(wù)中的病態(tài)性問題. 值得注意的是在HEVC標準測試序列中,所提出的框架甚至能達到無損(PSNR超過40 dB)的程度,相比原始的EDSR模型平均提升超過1 dB,證明本文提出的方法對于視頻傳輸具有十分積極的意義.
圖6 視頻數(shù)據(jù)集上的平均PSNR性能對比Fig.6 Average PSNR performance comparisons on video data sets
在圖片數(shù)據(jù)集上的主觀效果對比如圖7所示,圖7(a)為原始高分辨率圖像,圖7(b)為雙三次插值的恢復(fù)結(jié)果,圖7(c)(d)分別為EDSR模型和所提出的框架的恢復(fù)效果,可以看到,使用所提出的方法,一些細節(jié)和紋理能夠被更好地恢復(fù). 圖8為在視頻序列上的測試效果,圖8(a)為原始圖像,圖8(b)為雙三次插值恢復(fù)的圖像,圖8(c)(d)分別為EDSR模型和所提出框架的恢復(fù)結(jié)果,可以明顯看出細節(jié)部分的質(zhì)量提升. 因此,從主觀效果上來看,所提出的框架具有更有競爭力的效果.
圖7 圖像恢復(fù)質(zhì)量主觀對比Fig.7 Image restoration quality subjective contrast
圖8 視頻恢復(fù)質(zhì)量主觀對比Fig.8 Video restoration quality subjective contrast
本文從模型的參數(shù)量、浮點運算數(shù)和顯存占用3個角度分析所提出模型的計算效率,并與原始的EDSR模型進行對比,如表5所示. 表格中為2倍、3倍、4倍超分辨率任務(wù)下輸入尺寸為192×192切片情況下的計算效率統(tǒng)計,可以看到,由于增加了一個全新的上采樣模塊,相比原始的EDSR,模型的參數(shù)量、浮點運算數(shù)和顯存都有較大的消耗. 一般來說,神經(jīng)網(wǎng)絡(luò)參數(shù)量越多,擬合能力就越強[29],為消除參數(shù)量的影響,進一步進行了有關(guān)參數(shù)量的消融實驗.
表5 計算效率分析
不改變框架整體結(jié)構(gòu),通過將目前框架的寬度(通道數(shù))減半并適當減少殘差塊數(shù)量的方式訓(xùn)練了2倍超分辨率任務(wù)下的新模型,新模型的參數(shù)量與EDSR模型相當,在圖像和視頻數(shù)據(jù)集上的表現(xiàn)如表6所示. 需要注意的是,盡管低參數(shù)量模型的超分辨率部分不再與EDSR完全相同,但依然采用了一致的設(shè)計范式. 可以看到,在消除了參數(shù)量的影響后,所提出的框架依然具有有競爭力的結(jié)果.
表6 低參數(shù)量模型性能
1) 針對超分辨率技術(shù)中的高度病態(tài)性問題,本文面向視頻傳輸應(yīng)用提出一種聯(lián)合上下采樣的超分辨框架.
2) 針對所提出的超分辨率框架,在模型泛化能力層面上,給出其在理論上具有更佳表現(xiàn)的證明. 即通過減少超分辨率中映射函數(shù)的空間尺寸,可以有效提升模型的能力.
3) 基于所提出框架構(gòu)建了深度學(xué)習(xí)模型,通過在框架的超分辨率模型使用EDSR模型并與原始的EDSR模型進行對比實驗. 實驗結(jié)果表明,所提出框架在圖像數(shù)據(jù)集上相比原始EDSR模型可以提升超過2.9 dB的PSNR指標,在HEVC標準測試序列上可以達到近乎無損,并且主觀效果提升明顯,證明所提出框架的有效性.