国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

單幅圖像超分辨率重建技術(shù)研究進(jìn)展

2022-12-03 14:30張芳趙東旭肖志濤耿磊吳駿3劉彥北
自動(dòng)化學(xué)報(bào) 2022年11期
關(guān)鍵詞:插值字典殘差

張芳 趙東旭 肖志濤 耿磊 吳駿,3劉彥北

圖像分辨率指的是圖像所包含的細(xì)節(jié)量,體現(xiàn)成像系統(tǒng)對(duì)物體實(shí)際細(xì)節(jié)的反映能力.超分辨率(Super-resolution,SR)技術(shù)起初指的是可以提高光學(xué)成像系統(tǒng)分辨率的技術(shù),現(xiàn)在常指可以將單幅或多幅低分辨率圖像經(jīng)過處理轉(zhuǎn)換成高分辨率圖像的方法[1].超分辨重建技術(shù)是信息光學(xué)、數(shù)字圖像處理與模式識(shí)別、計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)等多領(lǐng)域結(jié)合的學(xué)科,在醫(yī)學(xué)成像[2]、生物信息識(shí)別[3-4]、智能交通、安防監(jiān)控等領(lǐng)域受到了廣泛關(guān)注.

1964 年和1968 年,Harris[5]和Goodman[6]分別發(fā)表文章提出SR 重建的概念,但當(dāng)時(shí)并未得到廣泛認(rèn)可.直到20 世紀(jì)80 年代,特別是1984 年Tsai等[7]提出頻域中基于圖像序列的方法之后,SR 重建技術(shù)才取得了突破性進(jìn)展.之后國(guó)內(nèi)外眾多研究者對(duì)SR 問題進(jìn)行深入研究,一些權(quán)威期刊,如Transactions on Pattern Analysis and Machine Intelligence、International Journal of Computer Vision、Pattern Recognition、Signal Processing和Image Communication等都刊登SR重建領(lǐng)域文章.除此之外,幾個(gè)計(jì)算機(jī)視覺領(lǐng)域的重要國(guó)際會(huì)議也收錄此類文章,如Computer Vision and Pattern Recognition、International Conference on Computer Vision、European Conference on Computer Vision、英國(guó)機(jī)器視覺會(huì)議、國(guó)際信息處理會(huì)議和人工智能國(guó)際聯(lián)合大會(huì)等.2016 年以來,有一項(xiàng)專門針對(duì)SR 技術(shù)的國(guó)際比賽New Trends in Image Restoration and Enhancement(NTIRE),之后NTIRE 逐漸被全球?qū)W者關(guān)注.這些會(huì)議和比賽大大推動(dòng)了圖像SR 重建技術(shù)的發(fā)展.

近年來,各大研究機(jī)構(gòu)和相關(guān)技術(shù)人員已經(jīng)開放SR 重建技術(shù)的數(shù)據(jù)庫(kù),極大地推動(dòng)了SR 重建研究工作的進(jìn)一步開展,涌現(xiàn)了大量研究成果.國(guó)外伊利諾伊大學(xué)厄巴納香檳分校的Yang等[8-9]、加州大學(xué)圣克魯茲分校的Nguyan等[10]、法國(guó)科學(xué)院的Yu等[11]、以色列理工學(xué)院的Elad等[12]和蘇黎世聯(lián)邦理工學(xué)院的Timofte等[13]等;國(guó)內(nèi)中國(guó)科學(xué)院的Cui等[14]、中國(guó)科學(xué)技術(shù)大學(xué)的Song等[15]、香港理工大學(xué)的Wang等[16]、香港中文大學(xué)的Dong等[17]、西北工業(yè)大學(xué)的Zhu等[18]、西安電子科技大學(xué)的Gao等[19]和Dong等[20]等,在SR 研究中都取得了顯著的進(jìn)展[21].

鑒于國(guó)內(nèi)外SR 圖像重建領(lǐng)域取得的豐富成果,近年來陸續(xù)有學(xué)者對(duì)這些研究成果進(jìn)行了歸納和分析,形成了一些優(yōu)秀的綜述文章.文獻(xiàn)[22]按照不同的低分辨率(Low-resolution,LR)輸入和SR 輸出情況對(duì)傳統(tǒng)SR 重建方法進(jìn)行分類整理,文獻(xiàn)[23]與文獻(xiàn)[24]介紹了基于深度學(xué)習(xí)的圖像SR復(fù)原方法的研究進(jìn)展.本文以單幅圖像作為研究對(duì)象,對(duì)基于傳統(tǒng)方法和深度學(xué)習(xí)的SR 重建方法進(jìn)行歸納與分析,從基于插值和基于學(xué)習(xí)兩方面對(duì)單幅圖像SR 方法進(jìn)行綜述,對(duì)目前各種SR 方法按網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行劃分,在此基礎(chǔ)上按不同應(yīng)用場(chǎng)景和不同降質(zhì)方式進(jìn)行分類討論,并對(duì)傳統(tǒng)方法和深度學(xué)習(xí)方法之間的聯(lián)系進(jìn)行了介紹,總結(jié)了傳統(tǒng)理念在深度學(xué)習(xí)方法中的延續(xù)與應(yīng)用.文章最后結(jié)合數(shù)據(jù)集對(duì)方法的性能和魯棒性進(jìn)行了比較,并展望了該領(lǐng)域未來的發(fā)展方向,以供相關(guān)領(lǐng)域的研究者參考.

1 圖像SR 重建概述

1.1 圖像質(zhì)量退化模型及SR 重建思路

成像過程中,由于設(shè)備本身存在缺陷并且受采集環(huán)境影響,會(huì)導(dǎo)致得到的圖像模糊、關(guān)鍵信息不詳細(xì)等問題.設(shè)低分辨率圖像y是由高分辨率圖像x經(jīng)過一系列變換得到的,退化過程如下:

式中,D為亞采樣矩陣,B為光學(xué)模糊矩陣,W為幾何運(yùn)動(dòng)模糊矩陣,n為加性高斯白噪聲.由于從硬件方面改善上述不足所需要的成本較高,因此,通過軟件完成后期圖像處理來彌補(bǔ)設(shè)備采集的缺陷,不僅可以降低成本,還能滿足學(xué)者們的需求.圖像SR 重建是一種軟件圖像處理技術(shù),SR 重建為上述圖像退化的逆過程,旨在已知輸入的低分辨率圖像y的情況下,通過不斷優(yōu)化SR 重建模型,獲取更接近于高分辨率 (High-resolution,HR)圖像x的SR 圖像xsr.由于上述SR 重建自身的病態(tài)性[25]和較高的實(shí)用價(jià)值,使其在計(jì)算機(jī)視覺領(lǐng)域具有很大的理論研究空間和應(yīng)用空間,因而受到長(zhǎng)期關(guān)注.

1.2 SR 重建技術(shù)的發(fā)展及分類

起初在圖像復(fù)原和圖像增強(qiáng)技術(shù)中,為了恢復(fù)單幅圖像因超出光學(xué)系統(tǒng)傳遞函數(shù)極限而缺失的信息,需要估計(jì)該圖像上的頻譜信息進(jìn)行頻譜外推[26-27]從而提高圖像分辨率,因而產(chǎn)生了一系列頻域SR方法,包括基于傅里葉變換的SR 方法和基于小波變換的SR 方法等.后來,由于空域法能夠建立全面的觀測(cè)模型,還具有包含空域先驗(yàn)信息的能力,所以眾多學(xué)者針對(duì)空域法進(jìn)行了大量研究.

本文主要論述基于單幅圖像的空域SR 重建(Single image super resolution,SISR),將從基于插值和基于學(xué)習(xí)兩方面介紹單幅圖像SR 重建技術(shù),方法分類如圖1 所示.本文第2 節(jié)介紹基于插值的SR 方法,第3 節(jié)闡述基于學(xué)習(xí)的SR 方法.鑒于基于學(xué)習(xí)的SR 方法是目前的研究熱點(diǎn),內(nèi)容較多,本文在第3~4 節(jié)由淺入深地進(jìn)行重點(diǎn)闡述與分析.第3 節(jié)分析基于傳統(tǒng)淺層學(xué)習(xí)的SR 方法,第4 節(jié)對(duì)基于深度學(xué)習(xí)的SR 方法展開探討,第5 節(jié)闡述深度學(xué)習(xí)SR 方法與傳統(tǒng)SR 方法的聯(lián)系與區(qū)別,第6 節(jié)介紹圖像SR 重建數(shù)據(jù)集以及SR 重建圖像評(píng)價(jià)方法,第7 節(jié)進(jìn)行總結(jié)和展望.

2 基于插值的圖像SR 重建

基于插值的重建方法是根據(jù)放大因子在已有像素之間插入一定數(shù)量的新像素補(bǔ)充HR 圖像缺失的像素,并且將插值后的圖像像素?cái)?shù)據(jù)與插值卷積核進(jìn)行卷積,相當(dāng)于對(duì)圖像進(jìn)行平滑處理.在傳統(tǒng)插值方法中,根據(jù)插值實(shí)現(xiàn)方式可分為最近鄰插值[28]、雙線性插值[29]、雙三次插值(Bicubic interpolation,BI)[30]等.基于插值的SR 包括以下3 個(gè)步驟:

1)上采樣.獲得HR 圖像中與LR 圖像某些位置對(duì)應(yīng)的已知像素;

2)插值.補(bǔ)充HR 圖像中缺失的像素;

3)去模糊.增強(qiáng)重建圖像質(zhì)量.

其中,最近鄰插值最簡(jiǎn)單,每一個(gè)缺失的像素都采用與其最相鄰像素相等的強(qiáng)度值,但鋸齒現(xiàn)象明顯,放大效果不理想.雙線性插值方法利用缺失像素點(diǎn)周圍4 個(gè)最鄰近已知像素點(diǎn)的像素值,采用水平和豎直兩個(gè)方向上的線性插值結(jié)果補(bǔ)充缺失的像素,放大的圖像鋸齒現(xiàn)象有改善,但邊緣模糊.雙三次插值利用待求像素點(diǎn)周圍4 × 4 鄰域內(nèi)的16個(gè)己知像素點(diǎn)的值加權(quán)內(nèi)插得到待求點(diǎn)像素值,其插值過程如圖2 所示.由圖2 可以看出,要想求得HR 像素點(diǎn) (i+u,j+v)的像素值,需要用(i+u,j+v)點(diǎn)4 × 4 鄰域內(nèi)的16 個(gè)己知LR 像素點(diǎn)的值進(jìn)行加權(quán)運(yùn)算.

圖2 雙三次插值過程示意圖Fig.2 Schematic diagram of the bicubic interpolation

雙三次插值方法是用一個(gè)三次多項(xiàng)式S(x)來逼近理論上的最佳插值函數(shù) s in(x)/x,其數(shù)學(xué)表達(dá)式為:

式中,a為自由變量,其取值范圍為 [-1,-1/2],一般取a為-1,將a=-1 代入式(2),得到:

雙三次插值方法的基本公式為:

相對(duì)最近鄰插值和雙線性插值方法,雙三次插值能夠利用圖像中更多細(xì)節(jié)信息,有效地抑制圖像的塊兒效應(yīng)和邊緣階梯失真現(xiàn)象,但運(yùn)算復(fù)雜度較高,當(dāng)輸出圖像不連續(xù)時(shí)會(huì)導(dǎo)致輸出圖像出現(xiàn)振鈴噪聲和邊緣模糊現(xiàn)象,需要通過圖像恢復(fù)進(jìn)行修復(fù).

為了克服以上傳統(tǒng)插值方法中的振鈴模糊問題,研究者們提出了一些針對(duì)圖像邊緣增強(qiáng)的非線性插值方法,包括基于邊緣的插值方法和基于小波變換的插值方法(見第5.1 節(jié)).基于邊緣的方法指的是利用圖像中像素的邊緣方向來控制插值方向?qū)D像進(jìn)行插值.Kwok等[31]通過定向插值改善了鋸齒偽影現(xiàn)象,插值的方向由邊緣方向決定.Li等[32]提出了一種基于邊緣指導(dǎo)的圖像插值(New edge directed interpolation,NEDI)算法,該方法假設(shè)LR 和HR 圖像在邊緣處具有相同的邊緣信息,從而通過計(jì)算LR 圖像邊緣的局部協(xié)方差來推導(dǎo)出最佳線性超分辨映射的預(yù)測(cè)系數(shù).雖然上述方法可以實(shí)現(xiàn)圖像邊緣處的銳化,但其算法復(fù)雜度高,為此,Chen等[33]對(duì)NEDI 算法進(jìn)行了相應(yīng)的改進(jìn),提出了一種快速邊緣導(dǎo)向的插值算法.針對(duì)NEDI 算法只是單獨(dú)針對(duì)LR 圖像中某一個(gè)像素值進(jìn)行預(yù)測(cè)的缺陷,Zhang等[34]提出用圖像的局部方差對(duì)插值函數(shù)進(jìn)行優(yōu)化得到更好的插值結(jié)果,采用軟判決自適應(yīng)插值算法來分析LR 圖像中相鄰像素之間的結(jié)構(gòu),從而實(shí)現(xiàn)一次性估計(jì)一組缺失像素的值,其中像素預(yù)測(cè)是由一個(gè)自適應(yīng)不可分的2D 濾波器濾波實(shí)現(xiàn)的.這些方法可以得到較為完整的局部結(jié)構(gòu)和比較銳利的邊緣.

基于插值方法屬于無樣本的單圖像超分方法,本質(zhì)上屬于一種圖像增強(qiáng).

3 基于傳統(tǒng)淺層學(xué)習(xí)的圖像SR 重建

為了解決SISR 重建這類欠定性問題,一個(gè)有效策略是在求解過程中引入圖像的先驗(yàn)信息來正則解空間,更好地逼近真實(shí)解,從而獲得理想的HR圖像.基于正則化約束的SR 方法將先驗(yàn)信息作為正則化約束項(xiàng)加入到圖像重構(gòu)過程中,將圖像重構(gòu)問題轉(zhuǎn)換為尋求滿足特定限制條件解的最優(yōu)化問題,在求解方程中引入代價(jià)函數(shù),然后迭代求解得到重建圖像,其求解表達(dá)式為:

式中,R(X)是正則化項(xiàng),λ是決定正則化約束強(qiáng)度的參數(shù).

正則化思想作為超分目標(biāo)函數(shù)項(xiàng),在基于樣例的方法和基于稀疏編碼的方法等基于淺層學(xué)習(xí)的SR 重建方法中均有大量的使用.常用的正則項(xiàng)包括2 范數(shù)形式的Tikhonov 正則項(xiàng)[35]、1 范數(shù)形式的全變差正則項(xiàng)[36]以及雙邊全變差正則項(xiàng)[37]等.Tikhonov 代價(jià)函數(shù)是單位矩陣或有限差分矩陣,對(duì)重建圖像中的高頻部分進(jìn)行約束,從而減少重建過程中可能引入的高頻噪聲,但會(huì)使重建圖像變得光滑,趨向模糊.基于全變分模型的SR 方法將圖像梯度的范數(shù)作為正則化約束項(xiàng)[36,38],其正則化式為R(X)=‖?X‖1,其中?是梯度算子.正則化方法能直接加入先驗(yàn)約束,有唯一解,收斂穩(wěn)定性高,且具有較強(qiáng)的去噪能力.

基于學(xué)習(xí)的SR 方法通過機(jī)器學(xué)習(xí)算法從大量訓(xùn)練樣本中獲得LR 圖像和HR 圖像之間的對(duì)應(yīng)關(guān)系,并把這種關(guān)系運(yùn)用到重建過程中,實(shí)現(xiàn)圖像的SR 重建,因此這類方法往往需要一個(gè)樣本庫(kù)來提供相應(yīng)信息以供重建方法充分學(xué)習(xí)先驗(yàn)知識(shí).從解決此類基于樣本庫(kù)訓(xùn)練問題的角度出發(fā),本文將傳統(tǒng)SR 重建方法劃分為三類進(jìn)行闡述:第1 類方法是基于樣例學(xué)習(xí)的方法,采用馬爾科夫隨機(jī)場(chǎng)和流形學(xué)習(xí)中局部線性嵌入的思想完成重建;第2 類方法是基于稀疏表示的方法,結(jié)合圖像稀疏編碼、字典學(xué)習(xí)以及圖像相似性的思想完成重建;第3 類是基于回歸的方法,建立高斯回歸、嶺回歸、隨機(jī)森林與卷積神經(jīng)網(wǎng)絡(luò)等回歸模型的方法完成重建.

3.1 基于樣例學(xué)習(xí)的SR 重建方法

基于樣例學(xué)習(xí)的方法主要包括建立樣本庫(kù)和構(gòu)建高頻子帶(重建)兩個(gè)獨(dú)立步驟.主要思想是:首先通過樣本學(xué)習(xí)建立LR 與HR 圖像之間的關(guān)系,然后利用此關(guān)系實(shí)現(xiàn)LR 圖像的SR 重建.此類方法最早源于Freeman等[39]提出基于馬爾科夫網(wǎng)絡(luò)的SR 重建方法,即利用馬爾科夫網(wǎng)絡(luò)最優(yōu)化求解相關(guān)示例樣本.首先將HR 圖像塊與其對(duì)應(yīng)的LR圖像塊作為樣本,通過馬爾科夫網(wǎng)絡(luò)模型建立原始圖像與樣本塊之間的關(guān)系,然后采用置信傳播算法對(duì)候選樣本進(jìn)行近似求解完成學(xué)習(xí)過程,最后通過樣本中的高頻信息實(shí)現(xiàn)圖像的SR 重建.

將輸入的LR 圖像與目標(biāo)HR 圖像都分割成小塊,每個(gè)圖像塊用一個(gè)馬爾科夫網(wǎng)絡(luò)節(jié)點(diǎn)表示,每個(gè)HR 節(jié)點(diǎn)與其對(duì)應(yīng)的LR 節(jié)點(diǎn)相連,也與其相鄰的HR 節(jié)點(diǎn)相連,這兩類節(jié)點(diǎn)的聯(lián)合概率分別用Φ(xk,yk)和 Ψ (xk,yk)表示.這樣就把HR 重建的問題變成求解后驗(yàn)概率的局部最大值,公式如下:

式中,N為相鄰域的大小.將馬爾科夫網(wǎng)絡(luò)中的每個(gè)LR 圖像塊 Φ (xk,yk)作為索引,在樣本庫(kù)中搜索最佳匹配樣本中對(duì)應(yīng)的H R 圖像塊,記為Ψ(xk,yk).根據(jù)樣本庫(kù)采用置信傳播算法對(duì)其進(jìn)行近似求解.在重建時(shí),利用馬爾科夫網(wǎng)絡(luò)最優(yōu)化求解(最大化馬爾科夫網(wǎng)絡(luò)的概率)找到最優(yōu)的HR樣本塊,將高頻信息加到插值放大后的圖像上,得到重建的HR 圖像.

馬爾科夫網(wǎng)絡(luò)中的LR 節(jié)點(diǎn)只能從與其相連的一個(gè)HR 節(jié)點(diǎn)獲取到高頻信息,因此只能計(jì)算圖像塊局部關(guān)系,Wang等[40]使用條件隨機(jī)場(chǎng)引入多個(gè)新的節(jié)點(diǎn),將每一個(gè)新的節(jié)點(diǎn)作為HR 節(jié)點(diǎn)和與其相鄰的所有LR 節(jié)點(diǎn)的橋梁,加強(qiáng)了節(jié)點(diǎn)間的相關(guān)性,從而建立高低分辨率樣本的全局關(guān)系.此外,由于人類視覺對(duì)異常的高頻信息比較敏感,而馬爾科夫網(wǎng)絡(luò)沒有阻止異常候選圖像塊的能力,所以該算法的重建結(jié)果中容易產(chǎn)生噪聲.為了解決這個(gè)問題,Chang等[41]提出一種利用局部線性嵌入來獲取k個(gè)近鄰點(diǎn)權(quán)重的方法,假設(shè)訓(xùn)練樣本中的HR 圖像塊集合和與之對(duì)應(yīng)的LR 圖像塊集合分別構(gòu)成兩個(gè)具有相同局部線性結(jié)構(gòu)的流形.根據(jù)此假設(shè),HR 圖像塊便可以被其鄰域的相似結(jié)構(gòu)線性表示,且權(quán)重系數(shù)相同,即求出k個(gè)最鄰近低分辨圖像塊的權(quán)重,并利用該組權(quán)重與對(duì)應(yīng)的HR 圖像塊相乘求得最終的HR 圖像.鄰域嵌入方法可以利用較少的樣本表示出較多的變化模式,從而大幅降低計(jì)算量,但由于k值是固定的,因此會(huì)出現(xiàn)欠擬合或過擬合的現(xiàn)象.為此,Chan等[42]通過直方圖配準(zhǔn)選擇相似的訓(xùn)練圖像,選擇不同特征,并通過邊緣檢測(cè)針對(duì)不同類型的圖像塊選擇不同的鄰域數(shù)目,從而更好地完成圖像重建.Gao等[43]提出聯(lián)合學(xué)習(xí)的方法,將LR 圖像和HR 圖像的特征投影到統(tǒng)一空間,提高近鄰保持率.

3.2 基于稀疏表示的SR 重建方法

與Chang等[41]的流形假設(shè)不同,Yang等[8-9]提出了一種基于稀疏表示的SR 重建方法.該方法對(duì)訓(xùn)練樣本集的幾何特征結(jié)構(gòu)未做出任何假設(shè),而是認(rèn)為可以從同一場(chǎng)景的HR 圖像塊集合和與之相對(duì)應(yīng)的LR 圖像塊集合中分別學(xué)習(xí)出一組耦合字典,并且任何一個(gè)HR 圖像塊和其對(duì)應(yīng)的LR 圖像塊在耦合字典下具有近似相同的稀疏表示系數(shù),通過這種思想來建立LR 圖像塊與HR 圖像塊之間所對(duì)應(yīng)的一種特定映射關(guān)系(成對(duì)的字典).根據(jù)得到的LR 字典對(duì)輸入的LR 圖像進(jìn)行稀疏編碼(求得輸入LR圖像的稀疏系數(shù)),依據(jù)該編碼和HR 字典重建出HR 圖像.

自然圖像在某種字典下具有稀疏性,可以將這種稀疏性作為正則化約束項(xiàng).稀疏表示是在給定的超完備字典中用盡可能少的原子來表示圖像,圖像經(jīng)過稀疏表示后可以獲得更為簡(jiǎn)潔的表示方式,從而更容易獲取圖像中所蘊(yùn)含的信息.信號(hào)x∈RN的稀疏表示過程可以用一個(gè)過完備字典Φ∈RN×M(N?M)的幾個(gè)基元的線性組合描述,公式如下:

式中,α是稀疏系數(shù),大部分元素為零或接近零.x的稀疏表示系數(shù)正則化形式為:

式中,λ是用來權(quán)衡稀疏表示誤差和稀疏程度的正則化系數(shù).

基于稀疏表示的圖像SR 重建方法包括字典訓(xùn)練和稀疏編碼兩個(gè)重要步驟.字典訓(xùn)練有以下兩種方式:1)由已知信號(hào)變換構(gòu)造字典,例如離散余弦變換、離散傅里葉變換、小波變換、Curvelet 變換、Contourlet 變換等,但這種方法字典中的所有原子都是由少量的幾個(gè)參數(shù)決定或由簡(jiǎn)單的仿射變換形成,因此原子形態(tài)不夠豐富,不能對(duì)圖像本身的復(fù)雜結(jié)構(gòu)進(jìn)行最優(yōu)表示;2)通過對(duì)樣本集的學(xué)習(xí)構(gòu)造字典,即字典學(xué)習(xí)算法,該方法構(gòu)造的字典原子數(shù)量更多,形態(tài)更豐富,能更好地對(duì)信號(hào)或圖像本身的結(jié)構(gòu)進(jìn)行稀疏表示,其中K 次迭代奇異值分解(K-singular value decomposition,K-SVD)算法[44]和主成分分析算法[45]最為常見.稀疏分解算法主要有正交匹配追蹤算法[46]和迭代收縮算法[47].正交匹配追蹤算法的求解過程是先對(duì)所選原子進(jìn)行Gram-Schmidt 正交化處理,然后將待求信號(hào)投影到正交化后的原子形成的空間上,得到待求信號(hào)在各個(gè)已選原子上分解的分量和余量,迭代分解使余量最小化,直到滿足預(yù)先設(shè)定的條件為止.正交匹配追蹤算法可以保證迭代最優(yōu),但其固有的局限性使得算法在K-SVD 字典學(xué)習(xí)時(shí)必須嚴(yán)格限制圖像塊的稀疏性,導(dǎo)致字典學(xué)習(xí)的精度降低,文獻(xiàn)[48]利用迭代收縮算法取代正交匹配追蹤算法構(gòu)建稀疏表示系數(shù),求解凸優(yōu)化問題.在后續(xù)的研究工作中,此類方法的改進(jìn)主要在這兩方面展開.

1)字典訓(xùn)練優(yōu)化

Yang等[9]提出的字典訓(xùn)練方法在訓(xùn)練階段可以在很好地表示LR 和HR 圖像空間的同時(shí)保證其具有相同的稀疏表示系數(shù),但是由于重建階段對(duì)輸入LR 圖像稀疏表示系數(shù)的求解過程無法施加與訓(xùn)練階段相同的約束,并不能保證求得稀疏表示系數(shù)是LR 和HR 圖像共有的系數(shù),導(dǎo)致重建精度降低.為此眾多研究者提出一系列的高低分辨率字典訓(xùn)練方法,來緩解LR 和HR 圖像空間稀疏表示系數(shù)的不一致問題,有效提升了重建的結(jié)果.Wang等[16]提出了一種半耦合字典的學(xué)習(xí)算法,這種算法假設(shè)LR 圖像塊和HR 圖像塊在相應(yīng)字典下的稀疏表示系數(shù)存在線性關(guān)系,該算法放寬了約束條件的同時(shí)增強(qiáng)了圖像塊之間的映射能力,緩解了稀疏表示系數(shù)的不一致問題.Zeyde等[49]使用主成分分析算法投射LR 特征向量尋找對(duì)應(yīng)子空間,使得LR 特征能夠被LR 字典更加精確地表示,同時(shí),通過采用維度約減預(yù)處理和正交匹配追蹤算法計(jì)算LR 圖像塊的策略來提高稀疏表示模型的計(jì)算效率.Yang等[50]提出一種交錯(cuò)空間的優(yōu)化方法來訓(xùn)練高低分辨率字典,其核心是把同步的聯(lián)合字典訓(xùn)練方式變?yōu)榻诲e(cuò)空間優(yōu)化問題,但是由于該優(yōu)化問題的高度非線性的非凸函數(shù)優(yōu)化問題,很難找到一個(gè)較為理想的局部?jī)?yōu)化解,算法的時(shí)間復(fù)雜性也較高.He等[51]提出一種基于Bata 先驗(yàn)的耦合字典訓(xùn)練方式,有效緩解稀疏表示系數(shù)的不一致問題,改善了重建HR 圖像效果.此外,稀疏編碼的優(yōu)化算法也相繼提出,文獻(xiàn)[52]針對(duì)耦合特征空間的HR 重建,提出了一種基于一致性稀疏編碼的SR 重建方法,主要思想是先獨(dú)立地訓(xùn)練HR 字典和LR 字典,然后分別求得訓(xùn)練HR 和LR 圖像的稀疏表示系數(shù),把圖像變換到稀疏表示空間,最后再通過最小二乘法建立兩個(gè)空間稀疏表示系數(shù)之間的映射關(guān)系.雖然該方法可以提高重建精度,但是獨(dú)立的稀疏編碼方式,增加了其稀疏表示系數(shù)映射關(guān)系建立的難度.Zhao等[53]提出了一種基于自適應(yīng)稀疏表示的SR 重建方法,通過產(chǎn)生一個(gè)合適的系數(shù)來平衡稀疏表示和協(xié)同表示之間的關(guān)系.Wang等[54]提出從訓(xùn)練樣本集中學(xué)習(xí)到更有效的過完備字典,具有分辨率無關(guān)性的圖像表達(dá)(Resolution-invariant image representation,RIIR),被應(yīng)用于快速的多級(jí)超分辨率圖像重建任務(wù)中.

2)稀疏編碼優(yōu)化

一些研究工作指出,重建質(zhì)量很大程度上取決于數(shù)據(jù)的幾何結(jié)構(gòu)[55].因此,重點(diǎn)是探索這些潛在的幾何結(jié)構(gòu)以增強(qiáng)現(xiàn)有的稀疏編碼穩(wěn)定性.通過將圖像補(bǔ)丁的非局部信息轉(zhuǎn)換成稀疏系數(shù),非局部稀疏編碼方法[56-57]被廣泛地提出用于圖像重建.

與上述通過外部數(shù)據(jù)集學(xué)習(xí)字典的方法不同,Glasner等[58]結(jié)合自相似思想和樣本學(xué)習(xí)的方法,利用圖像塊的冗余性和不同尺度的圖像塊來重建未知的HR 圖像塊,字典是從輸入圖像本身及其降質(zhì)的圖像中學(xué)習(xí)到.需要重建的LR 圖像的結(jié)構(gòu)模式?jīng)]有出現(xiàn)在一般的圖像數(shù)據(jù)集中,那么從這個(gè)數(shù)據(jù)集中學(xué)習(xí)到的映射關(guān)系就不能很好地恢復(fù)圖像的紋理細(xì)節(jié),因此在通過改進(jìn)高低分辨率字典訓(xùn)練方式來提升重建質(zhì)量的同時(shí),文獻(xiàn)[55-65]也在基于稀疏表示模型的基礎(chǔ)上引入圖像結(jié)構(gòu)先驗(yàn)約束來有效保持圖像的幾何結(jié)構(gòu)來有效地避免此問題.Dong等[20]結(jié)合自適應(yīng)稀疏領(lǐng)域選擇和自適應(yīng)正則項(xiàng)重建出清晰的圖像邊緣,視覺效果良好.文獻(xiàn)[59]利用圖像的非局部自相似性來獲得原始圖像的稀疏編碼系數(shù)的良好估計(jì),然后將觀測(cè)圖像的稀疏編碼系數(shù)集中到這些估計(jì)上.Yang等[60]利用了圖像的雙重稀疏性和非局部相似性約束,為了自適應(yīng)地調(diào)整并表示HR 圖像塊的字典.上述常規(guī)模型僅考慮列非局部相似稀疏表示系數(shù)中的先驗(yàn),而沒有考慮稀疏表示系數(shù)的所有條目(或行)中的先驗(yàn),建模能力會(huì)受到限制.實(shí)際上,如果在稀疏表示系數(shù)空間中將相似表示系數(shù)的簇重新排列為矩陣,則列和行之間都存在非局部相似先驗(yàn).Li等[61]使用行非局部相似性先驗(yàn),探索具有l(wèi)1范數(shù)約束的行非局部相似性正則化項(xiàng).通過將引入到常規(guī)的列非局部相似性稀疏表示模型,提出了一個(gè)雙稀疏正則化稀疏表示模型.引入基于代理函數(shù)的迭代收縮算法來有效地解決該模型.Shi等[62]提出了一種基于低秩稀疏表示和自相似的SR 重建算法,然而該算法從字典對(duì)中學(xué)習(xí)大量原子的過程需要往往會(huì)消耗較長(zhǎng)的時(shí)間.Li等[63]結(jié)合稀疏表示和非局部自相似性,提出了一種自學(xué)習(xí)的SR 重建算法,將字典學(xué)習(xí)和迭代過程融合到一起,能夠有效地減少訓(xùn)練時(shí)間并提高算法的魯棒性.隨后,李進(jìn)明等[64]通過增加低秩和非局部自相似性來約束LR 和HR 圖像的稀疏分解,這保證了稀疏求解的準(zhǔn)確性,從而提高了傳統(tǒng)稀疏表示方法的重建性能.Lu等[65]引入非局部自相似和流形學(xué)習(xí)用于約束雙字典的幾何結(jié)構(gòu),從而保證圖像恢復(fù)細(xì)節(jié)的準(zhǔn)確性.但是人為設(shè)計(jì)圖像先驗(yàn)只針對(duì)少量特定圖像有較好效果,對(duì)普通自然復(fù)雜背景的圖像,重建HR 圖像質(zhì)量顯著下降,HR 圖像重建模型的魯棒性較差.

3.3 基于回歸的SR 重建方法

使用稀疏字典進(jìn)行SR 重建可以大幅提高圖像重建質(zhì)量,但存在如下問題:1)稀疏字典在計(jì)算稀疏系數(shù)時(shí)計(jì)算量很大;2)不存在能夠稀疏表示所有圖像塊的全局字典,這不僅會(huì)使得SR 重建的先驗(yàn)信息不準(zhǔn)確,還會(huì)帶來因圖像塊過小限制模型感受野的問題.為了解決稀疏系數(shù)計(jì)算量大的問題,Kim等[66]提出僅訓(xùn)練一個(gè)嶺回歸函數(shù)來預(yù)測(cè)HR特征,結(jié)合核匹配追蹤和梯度下降的思想來降低核嶺回歸(Kernel ridge regression,KRR)訓(xùn)練和測(cè)試的時(shí)間復(fù)雜度.對(duì)于字典不完備的問題,可以通過建立回歸模型把一系列的非線性變換轉(zhuǎn)化成對(duì)數(shù)據(jù)的擬合,學(xué)習(xí)數(shù)據(jù)的內(nèi)在分布.例如,Kim等[67]利用支持向量回歸(Support vector regression,SVR)來估計(jì)圖像的高頻細(xì)節(jié).Deng等[68]在文獻(xiàn)[67]的基礎(chǔ)上,提出了基于多輸出二次支持向量回歸的SR重建算法,這種方法將從低分辨率圖像空間到HR圖像空間的非線性映射問題轉(zhuǎn)換為線性映射問題,有效地減少了參數(shù)的數(shù)量,同時(shí)能夠確保同一圖像補(bǔ)丁中各個(gè)像素點(diǎn)之間的關(guān)聯(lián)性.He等[69]通過高斯過程回歸(Gaussian process regression,GPR),選擇一個(gè)適當(dāng)?shù)膮f(xié)方差函數(shù)來估計(jì)HR 圖像的像素值.Wang等[70]在高斯回歸的基礎(chǔ)上,提出了一種基于字典樣本和Student-t 似然高斯過程回歸的SR 重建算法.Timofte等[71]將協(xié)同表示[72]應(yīng)用到SR 重建,提出了基于固定鄰域回歸的SR 重建算法,這種算法通過學(xué)習(xí)錨定在字典原子上的稀疏表示系數(shù)和投影矩陣,實(shí)現(xiàn)快速地SR 圖像重建.隨后,Yang等[73]提出使用多元線性回歸從眾多圖像子空間中學(xué)習(xí)一組簡(jiǎn)單映射函數(shù).Zhang等[74]受此啟發(fā)將多元線性回歸的思想與分類相結(jié)合,直接使用多元線性回歸構(gòu)建每一組特征子空間之間的映射關(guān)系.盡管基于回歸的方法與其他基于學(xué)習(xí)的方法相比,在性能上取得了顯著提高,但仍存在特定的線性函數(shù)對(duì)不同退化情況難以建模的問題.而深度學(xué)習(xí)技術(shù)中的運(yùn)用激活函數(shù)進(jìn)行非線性特征表示的方法很好地解決了此問題.有效防止數(shù)據(jù)過擬合.例如Dong等[17]提出基于卷積神經(jīng)網(wǎng)絡(luò)的非線性回歸SR 重建方法,使得圖像的質(zhì)量得到進(jìn)一步改善.

3.4 基于傳統(tǒng)學(xué)習(xí)的SR 重建方法的討論

綜合以上分析,基于插值的SR 重建方法利用待重建HR 圖像中未知像素和LR 圖像中已知像素之間的線性或者非線性關(guān)系來估計(jì)其像素值,達(dá)到分辨率增強(qiáng)的目標(biāo).雖算法簡(jiǎn)單、易于并行計(jì)算,執(zhí)行速度快,但是隨著圖像放大倍數(shù)增加,重建HR圖像會(huì)出現(xiàn)邊緣平滑、模糊及振鈴和鋸齒效應(yīng)等缺陷,特別是對(duì)于場(chǎng)景復(fù)雜的自然圖像,重建圖像質(zhì)量較差.因此,基于插值的方法比較適合對(duì)實(shí)時(shí)性要求較高、對(duì)于放大倍數(shù)要求較小、對(duì)重建質(zhì)量效果要求也較低的簡(jiǎn)單場(chǎng)景下圖像的重建.此類方法屬于無樣本的單圖像超分方法,未利用高低分辨率樣本之間的先驗(yàn)信息進(jìn)行約束.

基于學(xué)習(xí)的SR 方法是一種有樣本的單幅圖像SR 方法,通過學(xué)習(xí)高、低分辨率圖像之間的統(tǒng)計(jì)關(guān)系,并把這種關(guān)系運(yùn)用到重建過程中,實(shí)現(xiàn)圖像的SR 重建.基于樣本學(xué)習(xí)的SR 重建方法可細(xì)分為基于樣例學(xué)習(xí)、基于稀疏表示和基于回歸3 種方法.

基于馬爾科夫網(wǎng)絡(luò)的樣例學(xué)習(xí)方法提出了從大量樣本中學(xué)習(xí)LR 和HR 圖像之間先驗(yàn)信息并約束HR 重建的思想,采用馬爾科夫網(wǎng)絡(luò)構(gòu)建圖像和場(chǎng)景的局部區(qū)域之間的關(guān)系模型,為基于學(xué)習(xí)的SR 重建奠定了理論基礎(chǔ).由于訓(xùn)練樣本量較大并且學(xué)習(xí)模型有限,此類方法的計(jì)算量大且泛化性較差.鄰域嵌入法從流形學(xué)習(xí)中引入局部線性嵌入來處理圖像SR 任務(wù),雖在計(jì)算量和重建性能上較文獻(xiàn)[39]方法有所改善,但未解決LR 和HR 圖像塊的鄰域數(shù)量和特征表示的問題,導(dǎo)致模型缺乏紋理和細(xì)節(jié)的先驗(yàn)性.

相比樣例學(xué)習(xí)通過人為設(shè)計(jì)的基信號(hào)(字典原子)表示信號(hào)的方法,稀疏表示的字典原子是通過建立稀疏先驗(yàn)約束,由稀疏編碼過程中自動(dòng)學(xué)習(xí)字典原子.基于稀疏表示的SR 重建認(rèn)為目標(biāo)圖像可以由過完備稀疏字典中少量原子的線性組合構(gòu)成,其他原子的系數(shù)為零或近似為零.考慮到稀疏表示能夠通過基本原子信號(hào)結(jié)構(gòu)化來表示原信號(hào),在其表示空間有利于映射關(guān)系的學(xué)習(xí)和建立,并構(gòu)建先驗(yàn)信息保持圖像的邊緣和紋理結(jié)構(gòu).但是由于LR和HR 圖像空間映射關(guān)系的多樣性、復(fù)雜性、空間變化性及高度非線性,導(dǎo)致重建結(jié)果過分依賴訓(xùn)練圖像,對(duì)真實(shí)自然場(chǎng)景圖像的重建效果并不理想.

基于回歸的SR 重建方法直接建立高低分辨率圖像之間的回歸模型,通過回歸構(gòu)建特征子空間之間的非線性映射關(guān)系來重建圖像.與樣例學(xué)習(xí)、稀疏表示的方法相比,雖然基于回歸的方法在性能上有顯著提升,但特定的線性回歸函數(shù)對(duì)于非線性數(shù)據(jù)或者數(shù)據(jù)特征間具有相關(guān)性多項(xiàng)式回歸的情況難以建模,并且難以表達(dá)圖像塊間復(fù)雜的特征數(shù)據(jù),未考慮圖像場(chǎng)景的復(fù)雜性和多樣性,導(dǎo)致映射函數(shù)的精度仍然不高,重建HR 圖像存在較多的平滑邊緣和模糊紋理細(xì)節(jié).

4 基于深度學(xué)習(xí)的圖像SR 重建

隨著深度學(xué)習(xí)技術(shù)的不斷更新,基于深度學(xué)習(xí)的SR 重建方法在最近幾年得到了蓬勃發(fā)展.利用深度學(xué)習(xí)技術(shù),不再需要單獨(dú)的圖像塊特征提取等預(yù)處理過程和后續(xù)的HR 圖像塊聚合過程,利用非線性變換自動(dòng)學(xué)習(xí)多層次特征,更深入地挖掘高、低分辨率圖像之間的內(nèi)在聯(lián)系.實(shí)踐證明,深度學(xué)習(xí)方法可用來解決低層視覺問題,如圖像去噪和去模糊[75].對(duì)于自然圖像SR 重建,深層卷積神經(jīng)網(wǎng)絡(luò)可以直接學(xué)習(xí)LR 圖像和HR 圖像之間的端到端映射,重建出LR 圖像丟失的高頻細(xì)節(jié)信息.本節(jié)將對(duì)基于深度學(xué)習(xí)的圖像SR 重建的網(wǎng)絡(luò)模型及其各部分特性進(jìn)行歸納.

2015 年,Dong等[17]首次將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于SR 重建中,提出一種端到端的網(wǎng)絡(luò)結(jié)構(gòu)--基于CNN的超分辨模型(Super-resolution convolutional neural network,SRCNN),每個(gè)卷積層應(yīng)用多個(gè)不同的濾波器,這些濾波器在訓(xùn)練期間會(huì)自動(dòng)提取分層特征.該方法將基于傳統(tǒng)的稀疏編碼方法與基于深度學(xué)習(xí)的SR 方法聯(lián)系在一起,相對(duì)于傳統(tǒng)稀疏表示的字典學(xué)習(xí)方法,過程大大簡(jiǎn)化.利用深度學(xué)習(xí)的方法對(duì)圖像進(jìn)行SR 重建時(shí)的基本思路為:首先,將LR 圖像作為網(wǎng)絡(luò)的輸入,然后通過卷積層形成特征矩陣,并對(duì)其進(jìn)行卷積濾波處理形成特征圖作為下一層的輸入層;在此期間,被處理的LR 圖像特征矩陣和HR 圖像形成的特征矩陣通過激活函數(shù)進(jìn)行非線性映射,這是一個(gè)復(fù)雜的細(xì)節(jié)預(yù)測(cè)過程,將映射后得到的特征矩陣通過重建層獲得HR 圖像,這屬于正向傳播過程.通常在輸出HR 圖像之前還要加入損失函數(shù)進(jìn)行像素比對(duì),通過反向傳播算法來優(yōu)化網(wǎng)絡(luò)內(nèi)部參數(shù)和節(jié)點(diǎn)模型不斷減小輸出圖像和理想圖像之間的差距,直至損失函數(shù)收斂.近年來出現(xiàn)的深度學(xué)習(xí)SR 網(wǎng)絡(luò)包括快速超分辨率(Fast super-resolution by CNN,FSRCNN)[76]、亞像素卷積網(wǎng)絡(luò)(Efficient sub-pixel convolutional neural network,ESPCN)[77]、非常深度卷積網(wǎng)絡(luò)(VDSR)[78]、深度遞歸卷積網(wǎng)絡(luò)(Deeply recursive convolutional network,DRCN)[79]、拉普拉斯金字塔超分辨網(wǎng)絡(luò)(Laplacian pyramid super-resolution networks,LapSRN)[80]、非常深的殘差編碼器-解碼器網(wǎng)絡(luò)(Very deep residual encoder-decoder network,RED-Net)[81]、深度遞歸殘差網(wǎng)絡(luò)(Deep recursive residual network,DRRN)[82]、密集連接超分辨網(wǎng)絡(luò)(Super-resolution dense convolutional network,SRDenseNet)[83]、生成對(duì)抗超分辨網(wǎng)絡(luò)(Super-resolution generative adversarial network,SRGAN)[84]、記憶網(wǎng)絡(luò)(Memory network,Mem-Net)[85]、殘差密集網(wǎng)絡(luò)(Residual dense network,RDN)[86]等.深度學(xué)習(xí)SR 網(wǎng)絡(luò)的結(jié)構(gòu)主要由特征提取、細(xì)節(jié)預(yù)測(cè)、重建輸出等部分組成,如圖3 所示.

圖3 基于深度學(xué)習(xí)的SR 方法網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 Network structure of SR method based on deep learning

4.1 網(wǎng)絡(luò)模型

在深度學(xué)習(xí)方法中,圖像的特征提取與表示、信息預(yù)測(cè)以及信息的傳遞與重建均在復(fù)雜的網(wǎng)絡(luò)架構(gòu)展現(xiàn).與HR 圖像相比,其相對(duì)應(yīng)的LR 圖像丟失了許多細(xì)節(jié).深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)采用網(wǎng)絡(luò)級(jí)聯(lián)的方式來預(yù)測(cè)LR 圖像中丟失的細(xì)節(jié)并重建相應(yīng)的HR 圖像,但這種方式也存在弊端.如前所述,網(wǎng)絡(luò)層數(shù)的增多勢(shì)必會(huì)增加參數(shù)量,網(wǎng)絡(luò)的性能也會(huì)隨著參數(shù)量的增加而降低.研究表明,在深度CNN 中引入稀疏先驗(yàn)[87]、殘差網(wǎng)絡(luò)(Residual Neural Network,Res-Net)[88]、密集連接卷積網(wǎng)絡(luò)(Dense convolutional network,DenseNet)[89]、生成對(duì)抗網(wǎng)絡(luò)(Generative adversarial networks,GAN)[90]等各種網(wǎng)絡(luò),殘差塊[91]、密集連接塊[92]、跳轉(zhuǎn)連接以及遞歸單元[79]等多種結(jié)構(gòu),會(huì)使得SR 網(wǎng)絡(luò)模型更加穩(wěn)定,性能更加優(yōu)越.基于深度學(xué)習(xí)的SR 模型將以上提到的各種網(wǎng)絡(luò)與結(jié)構(gòu)進(jìn)行整合,通過聯(lián)合優(yōu)化獲得更好的重建性能.

1)殘差學(xué)習(xí)在圖像SR 中的應(yīng)用

殘差學(xué)習(xí)的思想是將前一層的信息與當(dāng)前層的信息相結(jié)合,并將它們一起傳遞到下一層.殘差學(xué)習(xí)是SR 重建中用到的最廣泛的連接結(jié)構(gòu),該結(jié)構(gòu)增強(qiáng)層與層之間學(xué)習(xí)信息的質(zhì)量,同時(shí)可以確保前期訓(xùn)練層的信息傳遞到更深層.Kim等[78]第一次將殘差學(xué)習(xí)融入CNN 網(wǎng)絡(luò),提出一種深度卷積神經(jīng)網(wǎng)絡(luò),用以學(xué)習(xí)原始LR 圖像的邊緣信息.殘差塊是將卷積層、批歸一化層(Batch normalization,BN)和線性整流函數(shù)(Rectified linear unit,Re-LU)激活層組合在一起的結(jié)構(gòu).該網(wǎng)絡(luò)最早用于分類任務(wù),而將其直接用于SR 效果并不好,因此不斷有學(xué)者對(duì)其內(nèi)部進(jìn)行微調(diào)改進(jìn).增強(qiáng)深度超分辨網(wǎng)絡(luò)(Enhanced deep super-resolution network,EDSR)對(duì)殘差塊內(nèi)部結(jié)構(gòu)進(jìn)行改進(jìn),Lim等[91]將其中的BN 層去掉,該操作有兩點(diǎn)好處:一是可以減少內(nèi)存使用量,從而加快運(yùn)行時(shí)間;二是去掉歸一化后增加了網(wǎng)絡(luò)范圍靈活性.Yu等[93]提出的WDSR 使用權(quán)重歸一化層代替BN,該操作不僅在網(wǎng)絡(luò)尺度范圍上沒有限制,而且還通過限制權(quán)重參數(shù)范圍有效地減輕了深度SR 網(wǎng)絡(luò)的訓(xùn)練難度.除了對(duì)殘差塊內(nèi)部結(jié)構(gòu)進(jìn)行調(diào)整外,還可以對(duì)網(wǎng)絡(luò)的局部結(jié)構(gòu)或整體結(jié)構(gòu)進(jìn)行調(diào)整.文獻(xiàn)[94]提出深度平行殘差網(wǎng)絡(luò)(Deep parallel residual network,DPRN)網(wǎng)絡(luò),這是一種深度并行殘差網(wǎng)絡(luò),該網(wǎng)絡(luò)是將每個(gè)殘差分支初始特征映射到殘差組合中進(jìn)行并行卷積訓(xùn)練,第一個(gè)卷積層將利用此輸出進(jìn)行局部殘差學(xué)習(xí),每個(gè)分支的輸出用于全局殘差學(xué)習(xí)達(dá)到提升網(wǎng)絡(luò)速度和精度的目的.

2)遞歸神經(jīng)網(wǎng)絡(luò)在圖像SR 中的應(yīng)用

遞歸神經(jīng)網(wǎng)絡(luò)在SR 重建中是以遞歸單元形式展現(xiàn),通過使用遞歸塊來增強(qiáng)輸入特征映射的表示,其原理是接受前一部分輸出的淺層特征映射,并遞歸地使用特征映射中的代表特征來挖掘LR 和HR對(duì)之間的內(nèi)在關(guān)系.文獻(xiàn)[79,92,95]均以遞歸網(wǎng)絡(luò)為原型,引用該結(jié)構(gòu)進(jìn)行重建的最大特點(diǎn)是可以實(shí)現(xiàn)信息的跨層傳遞,減少網(wǎng)絡(luò)參數(shù).隨著網(wǎng)絡(luò)的加深,添加更多的權(quán)重層會(huì)引入更多的參數(shù),其模型可能會(huì)過度擬合,對(duì)此文獻(xiàn)[79]通過一個(gè)嵌入網(wǎng)絡(luò)進(jìn)行特征提取,首次在網(wǎng)絡(luò)中引入遞歸單元,當(dāng)執(zhí)行更多的遞歸時(shí),模型參數(shù)不會(huì)增加.隨后出現(xiàn)的DRRN、深度遞歸上下采樣網(wǎng)絡(luò)(Deep recursive up-down sampling network,DRUDN)均是在遞歸單元內(nèi)部進(jìn)行有效調(diào)整后,完成高質(zhì)量的重建.在DRUDN 中,每個(gè)遞歸塊由一對(duì)卷積和反卷積層組成,所有展開的塊通過權(quán)值共享減少參數(shù)量.此外,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)是一種以輸入數(shù)據(jù)的演進(jìn)方向進(jìn)行遞歸且所有循環(huán)單元按鏈?zhǔn)竭B接的遞歸神經(jīng)網(wǎng)絡(luò).Li等[96]以RNN結(jié)構(gòu)為核心思想提出一種反饋網(wǎng)絡(luò)(Super-resolution feedback network,SRFBN),以細(xì)化具有高級(jí)信息的低級(jí)表示,該網(wǎng)絡(luò)結(jié)構(gòu)引入的反饋機(jī)制允許該網(wǎng)絡(luò)攜帶當(dāng)前的輸出糾正之前的輸出狀態(tài),同時(shí)對(duì)每次迭代施加損失函數(shù)促使輸出的反饋模塊學(xué)習(xí)到HR 圖像特征.

3)生成對(duì)抗網(wǎng)絡(luò)在圖像SR 中的應(yīng)用

生成對(duì)抗網(wǎng)絡(luò)(GAN)是由Goodfellow等[90]提出并在計(jì)算機(jī)視覺任務(wù)中逐漸發(fā)展起來的網(wǎng)絡(luò)模型.GAN的原理是生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)之間進(jìn)行相互博弈,判別器用來區(qū)分生成的樣本和真實(shí)數(shù)據(jù),而生成器學(xué)習(xí)生成新樣本并將判別器的錯(cuò)誤最大化.2017 年,GAN 網(wǎng)絡(luò)被應(yīng)用到SR 重建中,Ledig等[84]提出的超分辨率GAN (Super-resolution GAN,SRGAN)利用感知損失和對(duì)抗損失來提升恢復(fù)出的圖片的真實(shí)感.感知損失是利用CNN 提取的特征,通過比較生成圖像經(jīng)過CNN 后的特征和目標(biāo)圖片經(jīng)過CNN 后的特征的差異,使生成圖片和目標(biāo)圖片在語(yǔ)義和風(fēng)格上更相似.但由于感知質(zhì)量問題和訓(xùn)練不穩(wěn)定問題[97]造成輸出圖片缺乏高頻紋理細(xì)節(jié),SRGAN 生成的圖像存在平滑現(xiàn)象.針對(duì)上述問題,文獻(xiàn)[98]提出一種多樣化的GAN 架構(gòu)DGAN,包含多個(gè)生成器和一個(gè)判別器.利用多個(gè)生成器共享信息和參數(shù),雖然輸入相同,但每個(gè)分支生成的圖像不同,并且會(huì)對(duì)生成假樣本的生成器進(jìn)行實(shí)時(shí)更新以得到更為真實(shí)的生成圖像.

實(shí)際上,為了設(shè)計(jì)出性能好的SR 網(wǎng)絡(luò),將以上提到的網(wǎng)絡(luò)、單元以及結(jié)構(gòu)相融合是當(dāng)下一種流行且有效的方式,例如將全局殘差學(xué)習(xí)和遞歸單元相結(jié)合,用于緩解網(wǎng)絡(luò)加深引起的梯度消失和信息缺失等問題.為了獲得更高的重建精度,Tai等[82]設(shè)計(jì)出52 層DRRN 模型,將遞歸結(jié)構(gòu)引入到殘差分支當(dāng)中,該模型采用局部和全局殘差學(xué)習(xí)、遞歸層以及80 層MemNet 模型,其中包含長(zhǎng)時(shí)間存儲(chǔ)單元和多個(gè)監(jiān)督.RDN 網(wǎng)絡(luò)[86]將殘差塊和密集塊相結(jié)合,其原理是通過單元與結(jié)構(gòu)之間形成一種連續(xù)記憶機(jī)制,首先是局部特征融合,然后通過局部殘差學(xué)習(xí)傳遞信息,接著網(wǎng)絡(luò)以一種全局特征融合的方式挖掘分層信息,最后通過全局殘差學(xué)習(xí)將特征映射到高維HR 進(jìn)行上采樣操作,輸出重建結(jié)果.以上典型網(wǎng)絡(luò)的內(nèi)部結(jié)構(gòu)如表1 所示.

表1 典型深度學(xué)習(xí)網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)Table 1 The internal structure of a typical deep learning network

4.2 特征提取

以上提到的深度學(xué)習(xí)SR 方法中,按空間分辨率來劃分,特征提取分為在LR 空間提取特征和在HR 空間提取特征兩種情況.HR 空間特征提取意味著要在HR 空間進(jìn)行卷積操作,此類方法需要先對(duì)LR 圖像進(jìn)行雙三次插值BI 得到與期望的HR圖像相同大小的圖像,再輸入到網(wǎng)絡(luò)中進(jìn)行特征提取,這種輸入與輸出相同尺寸的網(wǎng)絡(luò)結(jié)構(gòu)有利于全局殘差結(jié)構(gòu)的構(gòu)建,但在較高的分辨率上進(jìn)行卷積操作,計(jì)算復(fù)雜度會(huì)隨HR 圖像的空間尺度增大而增長(zhǎng).LR 空間特征提取,就是將LR 圖像作為網(wǎng)絡(luò)輸入,在未經(jīng)插值的原始LR 圖像上直接提取特征,重建效率提高,但網(wǎng)絡(luò)的輸入特征圖較小時(shí),隨著網(wǎng)絡(luò)層數(shù)的加深,容易丟失細(xì)節(jié)信息.在基于深度學(xué)習(xí)的SR 發(fā)展過程中,這兩種方法都得到廣泛應(yīng)用.已有的基于深度學(xué)習(xí)的SR 方法的網(wǎng)絡(luò)輸入如表2 所示.

表2 SR 網(wǎng)絡(luò)輸入及層數(shù)對(duì)照表Table 2 Comparison of SR network input and layer number

4.3 模型多尺度化

如何使訓(xùn)練模型多尺度化,也是眾多研究者們關(guān)心的問題.當(dāng)單尺度模型只可用于與其相對(duì)應(yīng)的比例因子重建HR 圖像時(shí)(如圖4(a)所示),網(wǎng)絡(luò)訓(xùn)練的參數(shù)會(huì)隨著尺度因子的增多而增多,雖然增強(qiáng)網(wǎng)絡(luò)性能最直接的方式是增加參數(shù)量(特征層數(shù)和特征通道數(shù)),但特征映射層過多將直接導(dǎo)致計(jì)算成本加大,網(wǎng)絡(luò)性能不穩(wěn)定.因此,建立一種能適用于多尺度因子的網(wǎng)絡(luò)模型可以在很大程度上提高網(wǎng)絡(luò)性能[78,80,91].主要思想是在某一尺度訓(xùn)練模型上測(cè)試不同縮放倍數(shù)的圖像,如圖4(b)所示,采用多尺度特征映射和子網(wǎng)絡(luò)并行策略,使所有預(yù)定義的尺度因子共享網(wǎng)絡(luò)參數(shù).這種特定尺度多路徑學(xué)習(xí)是在網(wǎng)絡(luò)的開頭和結(jié)尾附加特定尺度的預(yù)處理路徑和上采樣路徑,主要共享特征提取的中間部分.因此,在訓(xùn)練期間,只更新與所需尺度對(duì)應(yīng)的路徑,來實(shí)現(xiàn)大多數(shù)參數(shù)在不同尺度上共享.例如受空間金字塔池化[100]方法的啟發(fā),LapSRN 采用多尺度權(quán)值共享的策略,通過同一個(gè)網(wǎng)絡(luò)處理不同尺度的圖像放大問題.文獻(xiàn)[101]提出的元學(xué)習(xí)超分辨(Meta-SR)結(jié)構(gòu),采用Meta-SR 上采樣模塊動(dòng)態(tài)預(yù)測(cè)上采樣濾波器權(quán)重,以任意上采樣因子放大任意LR 圖像來實(shí)現(xiàn)模型多尺度化.

圖4 不同尺度模型SR 結(jié)構(gòu)Fig.4 SR structure with different scales

通過文獻(xiàn)[102]單尺度模型和多尺度模型的對(duì)比實(shí)驗(yàn)發(fā)現(xiàn),單一尺度模型能夠很好地恢復(fù)具有相應(yīng)比例因子的HR 圖像,多尺度模型實(shí)現(xiàn)的結(jié)果與相應(yīng)比例的單尺度模型所獲得的結(jié)果相當(dāng),但比模型尺度與圖像尺度不一致時(shí)的結(jié)果要好很多.所以,用多尺度訓(xùn)練模型來恢復(fù)具有不同尺度因子的HR圖像,在不影響重建性能的前提下,同時(shí)能夠節(jié)約成本,提高模型穩(wěn)定性.

4.4 不同應(yīng)用場(chǎng)景下的SR 重建

以上討論的圖像SR 重建方法中,在構(gòu)建數(shù)據(jù)集時(shí)因無法直接獲取高低分辨率圖像對(duì),所采用的做法是在收集HR 圖像后,通過雙三次下采樣人工生成LR 圖像.但該下采樣方法改變了LR 圖像的底層特征.因此,用上述圖像對(duì)訓(xùn)練出的SR 模型魯棒性較差,導(dǎo)致提出的SR 方法很難泛化到真實(shí)場(chǎng)景中.近兩年,圖像SR 重建方法主要針對(duì)現(xiàn)實(shí)場(chǎng)景下未知退化因子的單圖像SR,稱為真實(shí)圖像SR.

基于真實(shí)圖像的SR 重建的關(guān)鍵是數(shù)據(jù)集,采取的網(wǎng)絡(luò)模型仍以殘差塊、密集殘差結(jié)構(gòu)以及注意力機(jī)制[99]等網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)為基礎(chǔ),如表1 所示,使用多尺度結(jié)構(gòu)對(duì)圖像特征進(jìn)行上下采樣完成圖像SR 重建.Cai等[103]提出了基于拉普拉斯金字塔的核預(yù)測(cè)網(wǎng)絡(luò)(Laplacian pyramid based kernel prediction network,LP-KPN),在RealSR 數(shù)據(jù)集上能夠有效地學(xué)習(xí)像素卷積核的權(quán)重用于HR 圖像的重建.Wang等[104]將殘差學(xué)習(xí)的思想用于立體聲圖像SR,提出一個(gè)視差注意力立體聲SR 網(wǎng)絡(luò),該網(wǎng)絡(luò)采用殘差思想以提取豐富的上下文信息,引入視差注意力機(jī)制以建立立體圖像的對(duì)應(yīng)關(guān)系,減小計(jì)算和存儲(chǔ)成本.Pan等[105]對(duì)在實(shí)際場(chǎng)景中捕獲的LR 圖像進(jìn)行SR 重建,使用基于高斯過程的神經(jīng)架構(gòu)搜索(Gaussian process based neural architecture search,GP-NAS)通過異構(gòu)模型實(shí)現(xiàn)真實(shí)圖像SR,基于現(xiàn)有的密集殘差網(wǎng)絡(luò),通過改變密集殘差塊的數(shù)量、大小以及特征數(shù)量,利用基于高斯過程的神經(jīng)體系結(jié)構(gòu)搜索方案GP-NAS,使用較大的搜索空間來查找候選網(wǎng)絡(luò)體系結(jié)構(gòu).Zhang等[106]構(gòu)建了的真實(shí)圖像CUFFED5 數(shù)據(jù)集,并且提出神經(jīng)紋理遷移的思想實(shí)現(xiàn)真實(shí)圖像SR 重建,該思想包含局部紋理特征匹配和紋理遷移兩個(gè)部分,利用參考圖像中的紋理以彌補(bǔ)LR 圖像的細(xì)節(jié)信息.Bulat等[107]針對(duì)真實(shí)的人臉圖像進(jìn)行SR 重建,以生成對(duì)抗網(wǎng)絡(luò)(GAN)為基礎(chǔ)提出了一個(gè)兩階段的重建過程.同樣,針對(duì)人臉和通用場(chǎng)景建立了一個(gè)標(biāo)基于歸一化流的超分辨率模型,在感知質(zhì)量指標(biāo)方面也表現(xiàn)出了良好的性能.

4.5 不同降質(zhì)方式的SR 重建

圖像降質(zhì)分為已知降質(zhì)和未知降質(zhì)兩種.已知降質(zhì)是指對(duì)圖像進(jìn)行不同尺度、模糊核以及噪聲方面的降質(zhì).對(duì)于不同降質(zhì)方式得到的LR 圖像建立不同的SR 模型是近幾年的一個(gè)發(fā)展方向.

對(duì)于模糊降質(zhì),Zhang等[108]通過研究高斯模糊、運(yùn)動(dòng)模糊、Disk 模糊,提出可以去任意模糊核的DPSR 模型,在BSD68 數(shù)據(jù)集上得到了清晰的重建結(jié)果.對(duì)于下采樣降質(zhì),除雙三次插值下采樣降質(zhì)外,Song等[109]針對(duì)帶噪聲的非線性下采樣和間隔下采樣方式,提出基于迭代殘差學(xué)習(xí)的框架實(shí)現(xiàn)深度圖SR 重建,在該框架中,利用通道注意力機(jī)制、多階段融合、權(quán)重共享以及深度細(xì)化等粗略到精細(xì)的方式學(xué)習(xí)HR 深度圖.對(duì)于噪聲降質(zhì),哈爾濱工業(yè)大學(xué)張凱團(tuán)隊(duì)提出的去噪卷積神經(jīng)網(wǎng)絡(luò)(Denoising onvolutional neural network,DnCNN)[110]、快速靈活的去噪卷積神經(jīng)網(wǎng)絡(luò)(Fast and flexible denoising convolutional neural network,FFDNet)[111]和卷積盲去噪網(wǎng)絡(luò)(Convolutional blind denoising network,CBDNet)[112]是針對(duì)噪聲降質(zhì)圖像SR 重建的遞進(jìn)的三種方法,重建對(duì)象從均勻的高斯噪聲變成更加復(fù)雜的真實(shí)噪聲.DnCNN 利用歸一化和殘差學(xué)習(xí)可以有效地去除均勻高斯噪聲.然而真實(shí)噪聲具有信號(hào)依賴性、顏色通道相關(guān)性以及不均勻性,基于此FFDNet 使用噪聲估計(jì)作為輸入,在抑制均勻分布的噪聲的同時(shí)保留細(xì)節(jié)信息,實(shí)現(xiàn)更加復(fù)雜的真實(shí)場(chǎng)景的超分辨重建.在FFDNet的基礎(chǔ)上,CBDNet 將噪聲水平估計(jì)過程也用一個(gè)子網(wǎng)絡(luò)實(shí)現(xiàn),從而使得整個(gè)網(wǎng)絡(luò)實(shí)現(xiàn)盲去噪.Zamir等[113]提出的MIRNet,是在非常深的殘差通道卷積網(wǎng)絡(luò) (Very deep residual channel attention networks,RCAN)的基礎(chǔ)上通過整個(gè)網(wǎng)絡(luò)維護(hù)空間精確的HR 表示,并從LR 表示接收強(qiáng)大的上下文信息多尺度特征聚合,學(xué)習(xí)豐富的特征以修復(fù)和增強(qiáng)真實(shí)圖像,同時(shí)達(dá)到圖像去噪的目的.此外,上述的LP-KPN、SRFlow 也可以完成去噪.Zhang等[114]提出的展開超分辨網(wǎng)絡(luò)(Unfolding super-resolution network,USRNet)可同時(shí)解決不同尺度、模糊、噪聲等多種降質(zhì)問題,該方法集成了基于學(xué)習(xí)與基于建模的方法.通過半二次分裂算法將最大后驗(yàn)概率估計(jì)(Maximum a posteriori estimation,MAP)推理展開,采用固定次數(shù)的迭代來求解數(shù)據(jù)子問題與先驗(yàn)子問題,通過神經(jīng)網(wǎng)絡(luò)模塊進(jìn)行求解兩個(gè)子問題,從而得到一個(gè)可端到端訓(xùn)練的迭代網(wǎng)絡(luò).

5 基于傳統(tǒng)與深度學(xué)習(xí)SR的聯(lián)系

基于深度學(xué)習(xí)實(shí)現(xiàn)圖像SR 重建,之所以能取得良好的效果,一方面是因?yàn)樯顚泳矸e神經(jīng)網(wǎng)絡(luò)能夠深入挖掘圖像的細(xì)節(jié)特征,可以直接、自主地學(xué)習(xí)LR 圖像和HR 圖像之間的映射關(guān);另一方面是因?yàn)樯疃葘W(xué)習(xí)方法在應(yīng)用于SR的過程中,遵循了圖像降質(zhì)和重建的客觀規(guī)律,實(shí)際上深度學(xué)習(xí)的很多做法都是傳統(tǒng)方法的延伸,與傳統(tǒng)SR 方法既有區(qū)別又存在很多關(guān)聯(lián).圖5 展示了上述基于插值、基于淺層學(xué)習(xí)以及基于深度學(xué)習(xí)的SR 重建方法本質(zhì)的聯(lián)系和差異.

圖5 SR 重建方法本質(zhì)的聯(lián)系和差異Fig.5 Relations and differences of SR reconstruction methods

5.1 小波變換與深度學(xué)習(xí)的結(jié)合

基于離散小波變換(Discrete wavelet transform,DWT)的SR 重建方法基本思想是將信號(hào)分解到不同的分辨率上,這樣分解可以在不同尺度上獨(dú)立地對(duì)信號(hào)進(jìn)行分析和研究,并且對(duì)高頻信號(hào)采用逐漸精細(xì)的頻域或時(shí)域采樣,從而聚焦到對(duì)象的任意細(xì)節(jié).最初將DWT 與SR 相結(jié)合應(yīng)用的是Ford等[115]提出的基于小波變換的一維信號(hào)非均勻采樣重建,而后Nguyen等[116]將該方法拓展到二維信號(hào),在多分辨率框架下得到了基于小波變換的SR圖像重建算法,取得良好效果并得到了廣泛的應(yīng)用,隨后一些國(guó)內(nèi)研究者[117-120]和國(guó)外研究者[121-126]進(jìn)一步完善了基于小波變換的SR 方法.總之,基于DWT的SR 重建方法包括以下4 步:

1)先對(duì)原始圖像進(jìn)行降質(zhì)處理,得到LR 圖像.

2)借助小波變換,將圖像分解為水平低頻垂直低頻分量LL 和三個(gè)高頻分量,分別為水平高頻垂直低頻分量HL、水平低頻垂直高頻分量LH、水平高頻垂直高頻分量HH.如圖6 虛線部分所示.

圖6 基于傳統(tǒng)小波變換和與深度學(xué)習(xí)相結(jié)合的小波變換SR 重建方法流程圖Fig.6 SR reconstruction method based on traditional wavelet transform and wavelet transform combined with deep learning

3)借助SR 算法,有針對(duì)性地對(duì)每個(gè)分量進(jìn)行算法重建.

4)借助逆離散小波變換(Inverse DWT,IDWT)將重建后得到的分量再重構(gòu),從而得到HR 圖像.

在以上傳統(tǒng)的子帶插值SR 重建方法的基礎(chǔ)上,有些學(xué)者將DWT 與深度學(xué)習(xí)SR 算法相結(jié)合,利用小波變換將高低頻分離,運(yùn)用深度學(xué)習(xí)方法重建小波域子帶,完成單幅圖像SR 重建,如圖6 陰影區(qū)域所示.例如,Zhang等[120]實(shí)驗(yàn)驗(yàn)證了SRGAN恢復(fù)的圖像紋理細(xì)節(jié)魯棒性較差,為了得到更豐富的高頻細(xì)節(jié),將小波變換引入以得到具有豐富全局信息和局部紋理細(xì)節(jié)的HR 圖像.張麗[127]將小波變換和VDSR 結(jié)合,研究在不同小波域子帶進(jìn)行內(nèi)插和深度學(xué)習(xí)的SR 效果,并探討了兩者相結(jié)合的五種SR 算法,將所構(gòu)造的SR 算法應(yīng)用于一個(gè)面向交通監(jiān)管的SR 重建系統(tǒng).段立娟等[128]采用多階段學(xué)習(xí)策略,首先推理出HR 圖像對(duì)應(yīng)的小波系數(shù),然后重建SR 圖像,并且網(wǎng)絡(luò)模型采用結(jié)合圖像空域與小波域的損失函數(shù)進(jìn)行優(yōu)化求解.孫超等[129]發(fā)現(xiàn)基于深度學(xué)習(xí)的單圖像SR 方法僅研究圖像空域,忽略了圖像頻域中高頻信息的重要性,從而導(dǎo)致生成的圖像相對(duì)平滑,因此,其利用小波變換能夠提取圖像細(xì)節(jié)的特性,使用Tai等[82]提出的DRRN 網(wǎng)絡(luò)模型完成對(duì)高頻子帶的重建,相比于原始DRRN 結(jié)構(gòu)峰值信噪比(Peak signal-to-noise ratio,PSNR)值提高了26.8%.

5.2 稀疏編碼與深度學(xué)習(xí)的聯(lián)系

自然圖像中的稀疏先驗(yàn)以及源于此先驗(yàn)的HR和LR 空間之間的關(guān)系被廣泛應(yīng)用于SR 重建中.在傳統(tǒng)方法的啟發(fā)下,深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)這個(gè)關(guān)系進(jìn)行了深度挖掘.以深度學(xué)習(xí)與傳統(tǒng)的稀疏編碼之間的關(guān)系作為依據(jù),可以將SR 重建過程分為圖像塊提取、非線性映射、上采樣重建三個(gè)階段.在特征提取方面,傳統(tǒng)的SR 方法通過鄰域嵌入(第4.2 節(jié))和構(gòu)造字典(第4.3 節(jié))等方法完成人工設(shè)計(jì)圖像塊特征提取.深度學(xué)習(xí)技術(shù)可以通過多層卷積操作和網(wǎng)絡(luò)的反復(fù)訓(xùn)練自動(dòng)提取特征,再結(jié)合激活函數(shù)層完成對(duì)數(shù)據(jù)的擬合和非線性映射,以實(shí)現(xiàn)圖像多層次特征的學(xué)習(xí)和提取.例如Wang等[130]提出基于稀疏編碼網(wǎng)絡(luò)的方法(Sparse coding based network,SCN),借鑒基于稀疏表示SR 重建的思想,將原方法中稀疏表示、映射、重建三個(gè)獨(dú)立優(yōu)化的模塊集成到一個(gè)稀疏網(wǎng)絡(luò)中.網(wǎng)絡(luò)的訓(xùn)練相當(dāng)于對(duì)三個(gè)模塊協(xié)同優(yōu)化,因而可得到全局最優(yōu)解.該方法首先通過特征提取層得到圖像的稀疏先驗(yàn)信息;然后,通過基于學(xué)習(xí)的迭代收縮和閾值算法(Learned iterative shrinkage and thresholding algorithm,LISTA)[131]建立了一個(gè)稀疏網(wǎng)絡(luò)SCN,該網(wǎng)絡(luò)可實(shí)現(xiàn)圖像的稀疏編碼和解碼;最后,采用級(jí)聯(lián)網(wǎng)絡(luò)完成圖像放大,該方法能夠在更高放大倍數(shù)下提高PSNR 值,且算法運(yùn)行速度進(jìn)一步提升.作者進(jìn)一步推出了使用多個(gè)SCN的級(jí)聯(lián)版本[132],在客觀評(píng)價(jià)和主觀評(píng)價(jià)上都得到了改進(jìn).因此,SCN實(shí)際上可看作通過CNN 實(shí)現(xiàn)了基于稀疏編碼SR方法,采用LISTA 得到基于神經(jīng)網(wǎng)絡(luò)產(chǎn)生稀疏編碼的近似估計(jì),解決基于傳統(tǒng)稀疏編碼SISR的時(shí)間消耗推理問題.

5.3 上采樣重建方法的發(fā)展

通常在SR 網(wǎng)絡(luò)末端,為了構(gòu)建HR 圖像都會(huì)進(jìn)行解碼,即上采樣過程.基于傳統(tǒng)方法的上采樣采用的方法通常為插值法(第2 節(jié)),包括最鄰近插值、雙線性插值和雙三次插值,但插值上采樣通常信息冗余大,映射能力小.為解決上述問題,SR 領(lǐng)域出現(xiàn)幾種可以嵌入到深度學(xué)習(xí)網(wǎng)絡(luò)模型中的上采樣方法,分別是轉(zhuǎn)置卷積層[76, 82,102]、亞像素卷積層[77, 91,102]、任意尺度縮放(Meta-Upscale)[100]、內(nèi)容感知特征重組(Content-aware reassembly of features,CAPAFE)[133].1)轉(zhuǎn)置卷積層將被下采樣的小尺度抽象信息上采樣到原來的分辨率.FSRCNN 首次將轉(zhuǎn)置卷積層引入SR 網(wǎng)絡(luò)中,提出通過改變反卷積層濾波器的大小將圖像上采樣到不同的尺度,從而實(shí)現(xiàn)輸出多尺度.2)ESPCN 中亞像素卷積結(jié)構(gòu),LR 圖像經(jīng)特征提取后得到一個(gè)通道數(shù)為、大小和輸入圖像相同的特征圖像,再將將不同通道上同一個(gè)位置的r的平方個(gè)像素排列成r×r的區(qū)域,對(duì)應(yīng)HR的的子塊,最終輸出HR 圖像.3)Meta-SR 中提出的上采樣模塊可以完成圖像任意尺度縮放,動(dòng)態(tài)預(yù)測(cè)放縮的權(quán)值及像素的對(duì)應(yīng)關(guān)系,實(shí)現(xiàn)較好效果的非整數(shù)倍放縮.4)CAPAFE 提出一種內(nèi)容感知重組模塊進(jìn)行上采樣,該模塊用于利用計(jì)算得到的權(quán)重將通道轉(zhuǎn)化成一個(gè)的矩陣作為內(nèi)核,與原本輸入的特征圖上的對(duì)應(yīng)點(diǎn)及以其為中心點(diǎn)的區(qū)域做卷積計(jì)算來獲得輸出,計(jì)算速度快.

6 數(shù)據(jù)集及SR 圖像評(píng)價(jià)方法

6.1 圖像SR 重建數(shù)據(jù)集

目前,已經(jīng)公布了許多專門用于圖像SR 重建的數(shù)據(jù)集.深度學(xué)習(xí)出現(xiàn)之前,大部分超分辨重建方法都是采用人工特征,并在小型數(shù)據(jù)集上驗(yàn)證了方法的性能.文獻(xiàn)[134]詳細(xì)介紹了傳統(tǒng)SR 算法中最常用的數(shù)據(jù)集,本文重點(diǎn)介紹基于深度學(xué)習(xí)SR算法中常用的9 個(gè)數(shù)據(jù)集及其主要參數(shù).

首先介紹Yang等[9]的數(shù)據(jù)集、Berkeley Segmentation的數(shù)據(jù)集[135]和DIV2K 數(shù)據(jù)集[136],這些是供訓(xùn)練使用的數(shù)據(jù)集.Yang等[9]的數(shù)據(jù)集有91幅圖像,Berkeley Segmentation 數(shù)據(jù)集有200 幅SR 重建基準(zhǔn)圖像,包含一些人像、植物和動(dòng)物等,這兩個(gè)數(shù)據(jù)集使用最為廣泛;DIV2K 是近兩年SR重建研究中廣泛使用的較大型數(shù)據(jù)集,用于挑戰(zhàn)NTIRE 比賽(例如CVPR 2017 和CVPR 2018)和Perceptual Image Restoration and Manipulation (PIRM)比賽(例如ECCV 2018),其中包含1 000幅2K 高清晰度RGB 圖像,并提供降尺度因子為2、3 和4的HR 和LR 圖像.

除上述三個(gè)訓(xùn)練數(shù)據(jù)集之外,Set5[137]、Set14[49]、BSD100[135]、Urban100[138]、manga109[139]和Sun-80[140]測(cè)試集均是供測(cè)試使用的數(shù)據(jù)集.Set5、Set14、BSD100、Urban100 是SR 重建的4 個(gè)基準(zhǔn)數(shù)據(jù)集,其中Set5、Set14 分別包含5 幅、14 幅圖像,BSD100是來自Berkeley Segmentation 數(shù)據(jù)集的100 幅自然圖像,Urban100 包含100 幅具有挑戰(zhàn)性的不同時(shí)間段的城市場(chǎng)景圖像,Manga109 是日本漫畫數(shù)據(jù)集.Sun80 數(shù)據(jù)集具有80 幅自然圖像,每個(gè)圖像都帶有一系列的網(wǎng)絡(luò)搜索參考.

近幾年,研究者們構(gòu)建了一些用于SR 重建的真實(shí)圖像數(shù)據(jù)集,其中包括CUFED5[106]、RealSR[103]、DRealSR[141]、City100[142]、SR-Row[142]、LOL 數(shù)據(jù)集[143]和MIT-Adobe FiveK 數(shù)據(jù)集[144]等.CU-FED5數(shù)據(jù)集提供了訓(xùn)練和測(cè)試集,并在內(nèi)容、紋理、顏色、照明和視點(diǎn)等方面具有不同相似度的參考.RealSR數(shù)據(jù)集是在相同場(chǎng)景下通過調(diào)整單反相機(jī)的焦距獲取真實(shí)圖像數(shù)據(jù)集,在長(zhǎng)焦距下獲得HR 圖像,在短焦距下獲得對(duì)應(yīng)的LR 圖像.DRealSR 由5 種不同的單反相機(jī)(佳能、索尼、尼康、奧林巴斯和松下)拍攝的室內(nèi)外廣告海報(bào)、植物、辦公室、建筑物等構(gòu)成.City100 數(shù)據(jù)集是在室內(nèi)環(huán)境下拍攝的紙質(zhì)明信片圖像.大型數(shù)據(jù)集對(duì)于提高深度卷積神經(jīng)網(wǎng)絡(luò)的性能非常重要,所以在數(shù)據(jù)集較少的情況下會(huì)對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充,一方面可以對(duì)數(shù)據(jù)集中圖片進(jìn)行0.5、0.6、0.7、0.8、0.9 等倍數(shù)的縮小;另一方面可對(duì)數(shù)據(jù)集中圖像進(jìn)行不同角度的旋轉(zhuǎn).

6.2 常用圖像SR 重建評(píng)價(jià)指標(biāo)和方法

在SR 重建方法不斷發(fā)展的過程中,研究者們提出了一系列評(píng)價(jià)指標(biāo)來評(píng)估各種方法對(duì)圖像進(jìn)行SR 重建的效果,表3 從方法特點(diǎn)、方法類別以及方法適用場(chǎng)景等多方面對(duì)SR 重建質(zhì)量評(píng)價(jià)方法進(jìn)行了多維度的總結(jié).常用評(píng)估方法包括:平均主觀得分(Mean opinion score,MOS)、平均主觀得分差異(Dierential mean opinion score,DMOS)、均方誤差(Mean square error,MSE)、結(jié)構(gòu)相似性(Structural similarity index,SSIM)、多尺度結(jié)構(gòu)相似性(Multi-scale structural similarity,MSSSIM)、特征結(jié)構(gòu)相似性(Feature structural similarity,FSIM)、視覺信息保真度(Visual information fidelity,VIF)、信息保真度準(zhǔn)則(Information fidelity criterion,IFC)、非對(duì)齊參考圖像質(zhì)量評(píng)估(Non-aligned reference image quality assessment,NAR-DCNN)[145]、主觀感知質(zhì)量(Perceptual index,PI)[147]、Ma[148]、自然圖像質(zhì)量評(píng)估器(Natural image quality evaluator,NIQE)、圖像完整性標(biāo)注器(Image integrity notator using DCT Statistics,BLIINDS)[149]、盲圖像質(zhì)量指標(biāo)(Blind image quality index,BIQI)[150]、盲/無參考圖像空間質(zhì)量評(píng)估器(Blind reference image spatial quality evaluator,BRISQUE)[151]、學(xué)習(xí)感知圖像塊相似度(Learned perceptual image patch similarity,LPIPS)[146]、深度雙線性CNN 圖像質(zhì)量評(píng)價(jià)(Deep bilinear CNN,DB-CNN)[152]、基于排名學(xué)習(xí)的無參考圖像質(zhì)量評(píng)估(Rankings image quality assessment,Rank-IQA)[153]、基于深度學(xué)習(xí)的圖像質(zhì)量指數(shù)(Deep learning based Image quality index,DIQI)[154].

表3 SR 重建圖像常用質(zhì)量評(píng)價(jià)方法Table 3 Common quality evaluation methods for SR reconstructed images

7 結(jié)束語(yǔ)

SR 重建是計(jì)算機(jī)視覺領(lǐng)域中的一個(gè)典型問題,SR 重建技術(shù)在實(shí)際生活中具有良好的應(yīng)用前景,因此目前SR 圖像重建,尤其是結(jié)合深度學(xué)習(xí)技術(shù)的SR 圖像重建處于深度研究階段.之前,無論是傳統(tǒng)的SR 重建方法還是基于深度學(xué)習(xí)的SR 重建方法,研究工作均圍繞提高圖像重建準(zhǔn)確性、節(jié)約計(jì)算成本和提高時(shí)間效率等方面展開.近年來,隨著真實(shí)圖像數(shù)據(jù)集的不斷擴(kuò)大和硬件設(shè)備性能的不斷提升,基于深度學(xué)習(xí)的真實(shí)圖像SR 重建技術(shù)獲得了良好發(fā)展.今后的研究可以從應(yīng)用場(chǎng)景、降質(zhì)方式、網(wǎng)絡(luò)設(shè)計(jì)和評(píng)價(jià)指標(biāo)四個(gè)方面展開:

1)針對(duì)不同應(yīng)用場(chǎng)景,設(shè)計(jì)更具針對(duì)性的網(wǎng)絡(luò)模型.目前SR 重建方法的研究多是基于特定自然圖像數(shù)據(jù)集,與各種各樣的深度學(xué)習(xí)網(wǎng)絡(luò)模型結(jié)合取得了良好效果,例如由于LR 和HR 有非常高的關(guān)聯(lián)度,殘差網(wǎng)絡(luò)的思想在圖像SR 中應(yīng)用效果良好;為了減少參數(shù)量,采用遞歸神經(jīng)網(wǎng)絡(luò);近幾年,GAN網(wǎng)絡(luò)也不斷發(fā)展并成功應(yīng)用于SR 重建中.由于不同領(lǐng)域的圖像有各自的特點(diǎn),例如醫(yī)學(xué)圖像、SAR圖像、交通監(jiān)控圖像、夜視圖像等,針對(duì)具體應(yīng)用領(lǐng)域有針對(duì)性地選擇和設(shè)計(jì)網(wǎng)絡(luò)是提高重建性能、提高技術(shù)實(shí)用性的關(guān)鍵因素.

2)針對(duì)不同降質(zhì)方式建立自適應(yīng)的退化模型提高SR 網(wǎng)絡(luò)的針對(duì)性,或者建立普適的退化模型提高SR 網(wǎng)絡(luò)的泛化能力.首先,在建立成像退化模型的過程中,研究者對(duì)圖像噪聲以及圖像模糊核的估計(jì)鮮有研究和討論,往往將噪聲默認(rèn)為加性高斯白噪聲,并未考慮系統(tǒng)噪聲和量化噪聲等.所以,在SR 重建研究中,針對(duì)不同降質(zhì)方式建立適合的模型會(huì)大大增強(qiáng)重建的針對(duì)性與準(zhǔn)確性.其次,設(shè)計(jì)適應(yīng)性強(qiáng)的模型來處理任意噪聲和模糊核是提高SR 網(wǎng)絡(luò)泛化能力的重要手段.

3)網(wǎng)絡(luò)模型的設(shè)計(jì).SR 重建網(wǎng)絡(luò)大多由特征提取與重建兩部分構(gòu)成.在后續(xù)研究中,對(duì)于前者需要探索更多卷積模式和特征提取方法,例如局部、全局與多尺度特征融合,自適應(yīng)卷積核、通道和空間注意力機(jī)制以及空洞卷積的合理使用等;對(duì)于后者,在不增添冗余且無效信息的情況下改進(jìn)上采樣層,使其充分利用特征提取部分提取到的特征完成特征圖大尺度上采樣重建,盡量減少圖像特征的損失,提升網(wǎng)絡(luò)的魯棒性.

4)圖像的盲超分和盲評(píng)估.若想應(yīng)用于實(shí)際場(chǎng)景,設(shè)計(jì)一種對(duì)單幅圖像進(jìn)行盲SR 重建的技術(shù)是未來的趨勢(shì),即一幅低質(zhì)量圖像的重建不依靠高低分辨率圖像對(duì)的學(xué)習(xí),而是通過對(duì)不成對(duì)圖像的學(xué)習(xí)與表示或者對(duì)單幅圖像周圍像素點(diǎn)的充分學(xué)習(xí)來訓(xùn)練模型,以供未知降質(zhì)圖像完成重建.對(duì)于重建結(jié)果的評(píng)價(jià)指標(biāo),全參考評(píng)級(jí)指標(biāo)若想保證評(píng)價(jià)結(jié)果公正且合理,后續(xù)的設(shè)計(jì)應(yīng)權(quán)衡主觀和客觀兩方面完成,無參考評(píng)價(jià)指標(biāo)(盲評(píng)估)是現(xiàn)在和未來用于評(píng)估真實(shí)圖像SR 方法性能的趨勢(shì).

猜你喜歡
插值字典殘差
滑動(dòng)式Lagrange與Chebyshev插值方法對(duì)BDS精密星歷內(nèi)插及其精度分析
基于雙向GRU與殘差擬合的車輛跟馳建模
基于殘差學(xué)習(xí)的自適應(yīng)無人機(jī)目標(biāo)跟蹤算法
基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
字典的由來
基于pade逼近的重心有理混合插值新方法
大頭熊的字典
混合重疊網(wǎng)格插值方法的改進(jìn)及應(yīng)用
正版字典
綜合電離層殘差和超寬巷探測(cè)和修復(fù)北斗周跳
资中县| 姚安县| 孝义市| 西华县| 右玉县| 库尔勒市| 深水埗区| 增城市| 班玛县| 咸宁市| 绥中县| 民权县| 蒙自县| 车险| 固阳县| 桐乡市| 淮阳县| 湖口县| 兴山县| 湘潭县| 商城县| 西华县| 忻城县| 集贤县| 盐山县| 新疆| 禄丰县| 高安市| 社会| 教育| 河东区| 田阳县| 普兰店市| 清新县| 密云县| 山阴县| 肇州县| 辽中县| 盱眙县| 井研县| 阳山县|