国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

圖像超分辨率技術(shù)的回顧與展望*

2020-02-20 03:41:58林慶帆李瑩華王富平1津1
計算機(jī)與生活 2020年2期
關(guān)鍵詞:分辨率卷積圖像

劉 穎,朱 麗,林慶帆,李瑩華,王富平1,,盧 津1,

1.西安郵電大學(xué) 電子信息現(xiàn)場勘驗(yàn)應(yīng)用技術(shù)公安部重點(diǎn)實(shí)驗(yàn)室,西安 710121

2.陜西省無線通信與信息處理技術(shù)國際合作研究中心,西安 710121

3.西安郵電大學(xué) 圖像與信息處理研究所,西安 710121

4.新加坡Silicon Vision有限公司,新加坡 787820

1 引言

圖像超分辨率(super-resolution,SR)是指利用算法將圖像從低分辨率(low resolution,LR)恢復(fù)到高分辨率(high resolution,HR)的過程,是計算機(jī)視覺和圖像處理的重要技術(shù)之一[1]。它不僅在提高圖像感知質(zhì)量的很多領(lǐng)域具有廣泛應(yīng)用,如醫(yī)學(xué)成像[2-4]、監(jiān)控視頻與安全等[5-8],還有助于改進(jìn)其他計算機(jī)視覺任務(wù),如圖像檢索、圖像分割等[9-12]。

圖像超分辨率技術(shù)根據(jù)其輸入輸出不同大致可分為三類,即多圖像、視頻和單圖像超分辨率[13]。其中,單圖像超分辨率重建技術(shù)(single image superresolution,SISR)由于其增強(qiáng)圖像細(xì)節(jié)和紋理方面具有很高的實(shí)用價值,因此一直是圖像處理領(lǐng)域的研究熱點(diǎn)[14]。在過去的工作中,傳統(tǒng)的單圖像超分辨率算法已經(jīng)取得了巨大的成功,但隨著放大因子的增大,人為定義的先驗(yàn)信息和觀測模型所能提供用于高分辨圖像重建的信息越來越少,這使得傳統(tǒng)算法很難達(dá)到重建高頻信息的目的[15-16]。近年來,隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展,基于深度學(xué)習(xí)的超分辨率網(wǎng)絡(luò)模型得到了積極的探索,并在各種標(biāo)準(zhǔn)數(shù)據(jù)集上實(shí)現(xiàn)了更優(yōu)的性能。從早期基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的圖像超分辨率方法[17-18]到最近基于生成對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)[19]的圖像超分辨率方法[20],越來越多基于深度學(xué)習(xí)方法已被應(yīng)用于解決超分辨率問題?;谏疃葘W(xué)習(xí)的超分辨率方法在放大因子較大的情況下能產(chǎn)生相對好的輸出結(jié)果,使輸出圖像更加逼真,同時利用GPU加速可以相對快速地得到結(jié)果。

基于圖像超分辨率技術(shù)的研究成果,有學(xué)者從不同角度對現(xiàn)有技術(shù)進(jìn)行了總結(jié)。其中,文獻(xiàn)[21]根據(jù)不同的輸入輸出情況,對超分辨率算法進(jìn)行系統(tǒng)分類,并分別介紹其發(fā)展歷程;文獻(xiàn)[22]根據(jù)成像系統(tǒng)模型,主要對基于學(xué)習(xí)的圖像超分辨率算法進(jìn)行對比分析;文獻(xiàn)[23]主要介紹了基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像超分辨率(super-resolution convolutional neural network,SRCNN)和基于更深層次網(wǎng)絡(luò)的超分辨率(very deep convolutional networks super-resolution,VDSR)兩種基于深度學(xué)習(xí)的單圖像超分辨率技術(shù);文獻(xiàn)[24]主要介紹了SRCNN、基于高效亞像素卷積神經(jīng)網(wǎng)的圖像超分辨率(efficient sub-pixel convolutional neural network,ESPCN)和基于生成對抗網(wǎng)絡(luò)的圖像超分辨率網(wǎng)絡(luò)(super-resolution generative adversarial network,SRGAN)三種典型的單圖像超分辨率網(wǎng)絡(luò)模型;文獻(xiàn)[25]對基于重建的圖像超分辨率中的迭代反向投影法(iterate back projection,IBP)、凸集投影法(projection onto convex sets,POCS)等算法,以及基于學(xué)習(xí)的圖像超分辨率中的稀疏表示、基于深度神經(jīng)網(wǎng)絡(luò)等算法進(jìn)行介紹;文獻(xiàn)[26]就自然圖像、視頻和更高維度圖像的超分辨率技術(shù)進(jìn)行綜述。本文將基于深度學(xué)習(xí)的單圖像超分辨率算法成果分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩大類并進(jìn)行了詳細(xì)介紹,同時分類論述了部分具有代表性的前沿超分辨率技術(shù),并對圖像評價指標(biāo)和典型數(shù)據(jù)集進(jìn)行列舉,進(jìn)而對幾種典型算法的實(shí)驗(yàn)結(jié)果進(jìn)行對比分析。

2 超分辨率技術(shù)的分類

圖像超分辨率技術(shù)的主要任務(wù)是生成真實(shí)、清晰且人為痕跡盡可能少的HR圖像,根據(jù)輸入輸出的不同,其定義有所區(qū)別,主要可分為三類。圖1給出了具體的超分辨率問題的分類算法。

2.1 多圖像超分辨率

Fig.1 Classification of super-resolution problems圖1 超分辨率問題的分類

多圖像超分辨率方法利用多幅LR圖像得到一幅真實(shí)且清晰的HR圖像,主要采用基于重建的算法,即試圖通過模擬圖像形成模型來解決LR圖像中的混疊偽像問題。多圖像超分辨率重建算法根據(jù)重建過程所在域不同可分為頻域法和空域法。相比于頻域法,空域法在圖像適應(yīng)性方面更好,并且能夠產(chǎn)生更好的超分辨率重建結(jié)果,因此近年應(yīng)用更為廣泛。目前典型的空域重建算法有迭代反向投影(IBP)方法[27]、凸集投影(POCS)方法[28-29]和貝葉斯最大后驗(yàn)(maximum a posterior,MAP)估計方法[30-32]。表1就三種典型的空域多圖像算法做出比較,列出各自典型特點(diǎn),少量特殊算法可能有特例情況。

Table 1 Comparison of 3 classic multi-image super-resolution algorithms表1 三種經(jīng)典多圖像超分辨率算法對比

2.2 視頻超分辨率

視頻超分辨率輸入的是一個視頻序列,該技術(shù)不僅可以提高視頻中每一幀的分辨率,還可以利用算法在時域中增加圖像幀的數(shù)目,從而達(dá)到提高視頻整體質(zhì)量的目的。視頻超分辨率方法可以分為以下兩大類:一是增量視頻超分辨率方法;二是同時視頻超分辨率方法[33]。增量視頻超分辨率方法的優(yōu)點(diǎn)是速度快,相比于同時視頻超分辨率方法更適合對實(shí)時性要求高的應(yīng)用,但輸出的HR視頻視覺效果較差。而由于同時視頻超分辨率方法考慮到了不同視頻幀之間的一致性,因此可以生成較清晰的、質(zhì)量較高的視頻,但其計算速度比較慢,不適合實(shí)時應(yīng)用場景[13]。表2對兩種視頻超分辨率算法的優(yōu)缺點(diǎn)進(jìn)行對比[21]。

Table 2 Comparison of 2 video super-resolution algorithms表2 兩類視頻超分辨率算法對比

2.3 單圖像超分辨率

單圖像超分辨率輸入的是一幅LR圖像,僅利用一幅LR圖像來重建得到HR圖像。目前單幅圖像超分辨率方法主要分為三類,即基于插值的圖像超分辨率算法、基于重建模型的圖像超分辨率算法和基于學(xué)習(xí)的圖像超分辨率算法[13]。表3中列舉了三種單圖像超分辨率算法的優(yōu)缺點(diǎn)。

2.3.1 基于插值的單圖像超分辨率算法

基于插值的單圖像超分辨率算法利用基函數(shù)或插值核來逼近損失的圖像高頻信息,從而實(shí)現(xiàn)HR圖像的重建。最近鄰插值、雙線性插值和雙三次插值都是典型的插值算法。Keys首先提出雙三次差值算法[34],至今仍然應(yīng)用于各個領(lǐng)域;Li等人提出了基于邊緣指導(dǎo)的插值算法[35];Sun等人利用了局部結(jié)構(gòu)的圖像梯度框架先驗(yàn)正則化實(shí)現(xiàn)插值過程[36];Wang等人采用先插值后修改的策略增強(qiáng)圖像的視覺效果,提高相鄰圖像區(qū)域間的顏色或亮度的過渡[37];Giachetti等人提出基于曲率的迭代插值方案,同時利用GPU加速提高算法速度[38];季成濤等人提出基于正則化的邊緣定向插值算法[39]。近年來,也有很多學(xué)者利用機(jī)器學(xué)習(xí)的方法,Dong和Romano等人利用了基于稀疏表示的方法來對圖像插值實(shí)現(xiàn)圖像超分辨率[40-41]。

Table 3 Performance comparison of 3 single image super-resolution algorithms表3 三種單圖像超分辨率算法性能對比

2.3.2 基于重建模型的單圖像超分辨率算法

基于重建模型的圖像超分辨率算法通過將圖像的先驗(yàn)知識作為約束條件加入到圖像的超分辨率重建過程中,使得超分辨率重建這個不適定問題變得可解。Xu等人提出了一種內(nèi)核估計方法,該方法基于空間先驗(yàn)和迭代支持檢測內(nèi)核細(xì)化,避免了內(nèi)核元素硬閾值強(qiáng)制稀疏[42]。Shan等人利用重尾梯度分布對圖像進(jìn)行超分辨率處理[43]。Kim等人利用圖像大梯度的稀疏性作為算法的先驗(yàn)知識來降低算法復(fù)雜度[44]。Xiong等人利用圖像大梯度的稀疏性作為算法的先驗(yàn)知識來歸一化輸入的LR圖像[45]。

2.3.3 基于學(xué)習(xí)的單圖像超分辨率算法

基于學(xué)習(xí)的圖像超分辨率算法通過訓(xùn)練圖像數(shù)據(jù)集學(xué)習(xí)低分辨與高分辨圖像之間的映射關(guān)系,來預(yù)測低分辨圖像中丟失的高頻信息,從而達(dá)到重建高分辨率圖像的目的。文獻(xiàn)[46]首次將機(jī)器學(xué)習(xí)方法成功應(yīng)用到圖像超分辨率中。流形學(xué)習(xí)也被用于圖像超分辨率中,Chang等人提出了一種基于局部線性嵌入的圖像超分辨率算法[47]。稀疏表示和字典訓(xùn)練也被用于圖像超分辨率方法中,Yang等人將局部線性嵌入和壓縮感知理論結(jié)合,利用信號的稀疏表示訓(xùn)練樣本集得到學(xué)習(xí)字典[48]。近年來,越來越多的學(xué)者開始重視深度學(xué)習(xí)的研究,并將其應(yīng)用于不同領(lǐng)域。Dong等人首先提出基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像超分辨率算法(SRCNN)[17-18]是卷積神經(jīng)網(wǎng)絡(luò)在超分應(yīng)用的開山之作??傮w而言,基于學(xué)習(xí)的超分辨率重建方法是目前研究的主流方向,其效果也是最好的[49]。

3 基于深度學(xué)習(xí)的單圖像超分辨率重建

在超分辨率的研究工作中,傳統(tǒng)超分辨率重建方法主要依賴于約束項的構(gòu)造以及圖像之間配準(zhǔn)的精確度達(dá)到重建效果,但其不適用于放大倍數(shù)較大的超分辨率重建[21]。隨著放大因子的增大,人為定義的先驗(yàn)知識和觀測模型所能提供的用于超分辨率重建的信息越來越少,即使增加LR圖像的數(shù)量,亦難以達(dá)到重建高頻信息的目的[15-16]。如果想從本質(zhì)上突破基于重建的超分辨率重建方法的局限性,需要尋求新的思路與方法[50]。此時,基于深度學(xué)習(xí)的單圖像超分辨率重建技術(shù)應(yīng)運(yùn)而生,它的出現(xiàn)解決了傳統(tǒng)超分辨率技術(shù)中的許多瓶頸問題,在近幾年取得了巨大的成功,在本章將詳細(xì)介紹基于深度學(xué)習(xí)的單圖像超分辨率技術(shù)。

深度學(xué)習(xí)(deep learning,DL)源于人工神經(jīng)網(wǎng)絡(luò),其概念由Hinton等人[51]在2006年提出,由于深度學(xué)習(xí)在其他計算機(jī)視覺領(lǐng)域中取得了突破性進(jìn)展,人們嘗試引入深度神經(jīng)網(wǎng)絡(luò),通過構(gòu)建深層次的網(wǎng)絡(luò)進(jìn)行訓(xùn)練來解決圖像超分辨率重建問題。目前,越來越多具有深度學(xué)習(xí)功能的超分辨率模型被提出,根據(jù)是否依賴于LR圖像和對應(yīng)的HR圖像訓(xùn)練網(wǎng)絡(luò)模型,可以粗略地將其分為有監(jiān)督的超分辨率和無監(jiān)督的超分辨率,由于有監(jiān)督的超分辨率技術(shù)能夠取得較好的重建效果,是目前研究的主流方向。在本章中根據(jù)基于深度學(xué)習(xí)的有監(jiān)督超分辨率和無監(jiān)督超分辨率分別進(jìn)行介紹,并對目前圖像超分辨率重建領(lǐng)域部分具有代表性的最新研究成果匯總論述。

3.1 有監(jiān)督學(xué)習(xí)的單圖像超分辨率

不同的網(wǎng)絡(luò)模型之間有很大的差異,但其本質(zhì)上而言都是一組不同模塊的相互組合,其中最基本也是重要的模塊即為模型框架、網(wǎng)絡(luò)設(shè)計和學(xué)習(xí)策略[1]。在本節(jié)中,先對基本模塊進(jìn)行模塊化分析,再總結(jié)它們的優(yōu)點(diǎn)和局限性,最后詳細(xì)介紹幾個不同模塊組合的典型的超分辨率網(wǎng)絡(luò)模型。

3.1.1 網(wǎng)絡(luò)模型基本模塊

(1)網(wǎng)絡(luò)模型框架

單圖像超分辨率是從LR到HR空間的一對多映射,由于其不適定性,如何進(jìn)行上采樣,即從低分辨率輸入產(chǎn)生高分辨率輸出是關(guān)鍵問題。雖然現(xiàn)有超分辨率模型的架構(gòu)差異很大,但它們可歸納為四個模型框架,即預(yù)上采樣、后上采樣、漸進(jìn)上采樣和迭代上下采樣超分辨率[1]。在預(yù)上采樣超分辨率中,預(yù)定義的傳統(tǒng)算法完成了難以進(jìn)行的上采樣任務(wù),深度CNN僅需要細(xì)化大致略圖,降低學(xué)習(xí)難度,Dong等人[17-18]首先采用預(yù)上采樣超分辨率框架,并提出SRCNN來學(xué)習(xí)從內(nèi)插LR圖像到HR圖像的端到端映射。后上采樣超分辨率通過替換預(yù)定義的上采樣操作在低維空間中執(zhí)行大部分映射[52-53],使計算復(fù)雜度和空間復(fù)雜度大大降低,并且也帶來了相當(dāng)快的訓(xùn)練速度。對于漸進(jìn)上采樣超分辨率,該框架下的模型基于CNN級聯(lián)并逐步重建出更高分辨率的圖像,通過將困難的任務(wù)分解為多個簡單的任務(wù),在每個階段圖像被上采樣到更高的分辨率并由CNN細(xì)化,拉普拉斯金字塔超分辨率網(wǎng)絡(luò)(Laplacian pyramid super-resolution networks,LapSRN)[54]是典型采用漸進(jìn)上采樣超分辨率框架的網(wǎng)絡(luò)模型。迭代上下采樣超分辨率試圖迭代地計算重建誤差,然后將其融合以調(diào)整HR圖像,該框架下的模型可以更好地挖掘LR-HR圖像對之間的深層關(guān)系,從而提供更高質(zhì)量的重建結(jié)果[55]。

(2)網(wǎng)絡(luò)設(shè)計策略

網(wǎng)絡(luò)的設(shè)計策略在深度學(xué)習(xí)的網(wǎng)絡(luò)模型中有著舉足輕重的作用。在超分辨率領(lǐng)域,研究人員在超分辨率框架之上應(yīng)用各種網(wǎng)絡(luò)設(shè)計策略來構(gòu)建最終的超分辨率網(wǎng)絡(luò)模型。大致地可將超分領(lǐng)域目前流行的網(wǎng)絡(luò)設(shè)計策略歸納為以下幾類:殘差學(xué)習(xí)、遞歸學(xué)習(xí)、密集連接、生成對抗、注意力機(jī)制等。殘差網(wǎng)絡(luò)(residual network,ResNet)[56]提出了網(wǎng)絡(luò)的殘差學(xué)習(xí),可以分為局部殘差和全局殘差,全局殘差要求輸入圖片與重建的目標(biāo)圖片有極大的相關(guān)性,通過分析其相關(guān)性進(jìn)行學(xué)習(xí)。局部殘差主要用于緩解由于網(wǎng)絡(luò)的加深而帶來的退化問題,提高其學(xué)習(xí)能力。為了緩解更深的網(wǎng)絡(luò)帶來的過度擬合和模型復(fù)雜的問題,提出了遞歸學(xué)習(xí)。Kim等人[57]提出了深度遞歸卷積網(wǎng)絡(luò)(deeply-recursive convolutional network,DRCN),首次將之前已有的遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network,RNN)結(jié)構(gòu)應(yīng)用在超分辨率處理中,得到了很好的效果。文獻(xiàn)[58]提出了密集網(wǎng)絡(luò)(dense network,DenseNet),通過密集塊中的信道數(shù)量和連接后擠壓信道大大減少了參數(shù)數(shù)量,有效緩解了梯度消失問題。基于密集網(wǎng)絡(luò)的圖像超分辨率(superresolution dense network,SRDenseNet)[59]將密集連接引入超分辨率中,融合低級和高級特征以提供更豐富的信息來重建高質(zhì)量細(xì)節(jié)。SRGAN[20]首次將生成對抗網(wǎng)絡(luò)用于圖像的超分辨率重建工作中,利用生成對抗學(xué)習(xí)策略對網(wǎng)絡(luò)模型進(jìn)行優(yōu)化,網(wǎng)絡(luò)實(shí)現(xiàn)了較大放大因子下的圖像重建,模型產(chǎn)生了相對較好的重建效果。隨著注意力機(jī)制在各個視覺任務(wù)上產(chǎn)生好的結(jié)果,部分學(xué)者也將其應(yīng)用于圖像超分辨率領(lǐng)域。文獻(xiàn)[60]考慮到不同通道之間特征表示的相互依賴性和相互作用,利用通道注意力機(jī)制提出了一個深度殘差通道注意力網(wǎng)絡(luò)(deep residual channel attention networks,RCAN),該模型不僅在表達(dá)能力上得到了極大提高,而且SR性能也得到了優(yōu)化。

(3)學(xué)習(xí)策略

在網(wǎng)絡(luò)訓(xùn)練中,往往采用特定的學(xué)習(xí)策略,如最小化損失函數(shù)、批量標(biāo)準(zhǔn)化、多監(jiān)督和數(shù)據(jù)集處理等,通常在模型中會用到不止一種的學(xué)習(xí)策略,多種策略的組合使得模型產(chǎn)生更好的輸出。

損失函數(shù):在超分辨率中,損失函數(shù)用于測量生成的超分辨率圖像和真實(shí)HR圖像之間的差異,并指導(dǎo)模型優(yōu)化。在超分的模型中常見的損失函數(shù)有像素?fù)p失、內(nèi)容損失、對抗損失等。兩個圖像之間像素?fù)p失主要包括L1損失(即平均絕對誤差)和L2損耗(即均方誤差),像素?fù)p失約束產(chǎn)生的超分辨率圖像在像素級上與原來的真實(shí)的HR圖像更加相似。基于對評估的圖像質(zhì)量感知,內(nèi)容損失被引入超分辨率[61-62],內(nèi)容損失主要表示為兩個圖像的特征表示的歐式距離。生成對抗網(wǎng)絡(luò)(GAN)[19]在圖像超分上的應(yīng)用使得對抗損失也進(jìn)入了圖像超分辨率領(lǐng)域,SRGAN[20]中通過生成器和鑒別器的相互對抗學(xué)習(xí)產(chǎn)生相當(dāng)好的輸出。

批量標(biāo)準(zhǔn)化:在網(wǎng)絡(luò)訓(xùn)練中,隨著參數(shù)的不斷更新,網(wǎng)絡(luò)中層與層之間的數(shù)據(jù)會產(chǎn)生較大的差異,導(dǎo)致網(wǎng)絡(luò)不斷地適應(yīng)新的數(shù)據(jù)分布,進(jìn)而使得訓(xùn)練變得異常困難,而且網(wǎng)絡(luò)越深,這種現(xiàn)象就越明顯,這種現(xiàn)象也稱為網(wǎng)絡(luò)的內(nèi)部協(xié)變量偏移。為了解決這個問題,文獻(xiàn)[63]提出批量歸一化(batch normalization,BN)以減少網(wǎng)絡(luò)的內(nèi)部協(xié)變量偏移。通過此策略可以避免梯度消失和梯度爆炸,加速網(wǎng)絡(luò)的收斂,提高網(wǎng)絡(luò)的泛化能力,優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),目前批量標(biāo)準(zhǔn)化策略這種技術(shù)被超分辨率網(wǎng)絡(luò)模型廣泛使用[64-66]。

多監(jiān)督:多監(jiān)督是指增加多個額外監(jiān)督模型中的信號用于增強(qiáng)梯度傳播并避免梯度消失和爆炸,DRCN[57]為了防止梯度問題引入遞歸學(xué)習(xí),包含了對遞歸單元的多監(jiān)督。在實(shí)際中往往是在損失函數(shù)中添加所需的特定條件來實(shí)現(xiàn)的,可以通過反向傳播監(jiān)督信號來達(dá)到加強(qiáng)模型的訓(xùn)練效果。

數(shù)據(jù)集:在深度學(xué)習(xí)中,數(shù)據(jù)集也同樣發(fā)揮著重要的作用。通過增大數(shù)據(jù)集,可以使得網(wǎng)絡(luò)學(xué)習(xí)到更多的圖像特征,增強(qiáng)網(wǎng)絡(luò)模型的性能。提前對數(shù)據(jù)集的圖片進(jìn)行預(yù)處理,增加圖片的多樣性,在數(shù)據(jù)增強(qiáng)的幫助下,超分辨率模型的性能可以得到極大的提高。

3.1.2 典型網(wǎng)絡(luò)模型

針對模型框架、網(wǎng)絡(luò)設(shè)計和學(xué)習(xí)策略等不同的模塊的組合,本小節(jié)主要介紹四種具有代表性的有監(jiān)督學(xué)習(xí)的典型超分辨率網(wǎng)絡(luò)模型。

(1)基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像超分辨率

卷積神經(jīng)網(wǎng)絡(luò)的興起對圖像超分辨率產(chǎn)生了很大的影響,基于卷積神經(jīng)網(wǎng)絡(luò)的超分辨率方法中最為典型的就是SRCNN方法。該方法中構(gòu)建了一種基于三層卷積神經(jīng)網(wǎng)絡(luò)的圖像超分辨率模型,可以實(shí)現(xiàn)一種由低分辨率圖像到高分辨率圖像端到端的映射。在實(shí)現(xiàn)過程中,主要分為三個步驟:特征提取、非線性變換和圖像生成。基于卷積神經(jīng)網(wǎng)絡(luò)的超分辨率算法將這三個步驟都統(tǒng)一到一個模型中,顯著地提高了模型效率。不需要另外學(xué)習(xí)參數(shù),因此用時較短。但該方法的弊端是在網(wǎng)絡(luò)的層數(shù)加深時模型的學(xué)習(xí)效果會下降,并且對于較大圖片的處理速度不夠好。圖2為基于卷積神經(jīng)網(wǎng)絡(luò)超分辨率模型結(jié)構(gòu)示意圖。

基于卷積神經(jīng)網(wǎng)絡(luò)的快速圖像超分辨率重建(fast super-resolution convolutional neural network,F(xiàn)SRCNN)[52]與SRCNN[17-18]都是由香港中文大學(xué)Dong、Tang等人所提出的網(wǎng)絡(luò)模型。FSRCNN是對之前SRCNN的改進(jìn),借助于反卷積核之間的協(xié)作,網(wǎng)絡(luò)不需要預(yù)處理就可以學(xué)習(xí)到一個原始LR與HR之間的端對端的映射。該模型保證精度的同時還實(shí)現(xiàn)了加速。通過該網(wǎng)絡(luò)的卷積層來實(shí)現(xiàn)不同上采樣因子之間的快速訓(xùn)練和測試,沒有重建質(zhì)量的損失,但效果相比于SRCNN沒有具體的改進(jìn)。

Fig.2 Schematic diagram of super-resolution model based on convolutional neural network圖2 基于卷積神經(jīng)網(wǎng)絡(luò)的超分辨率模型結(jié)構(gòu)示意圖

(2)基于深度遞歸卷積網(wǎng)絡(luò)的圖像超分辨率

SRCNN的網(wǎng)絡(luò)層數(shù)較少,同時感受野也較小。更深的網(wǎng)絡(luò)可能會得到高精度,但可能會產(chǎn)生過度擬合和模型巨大問題。針對此問題,Kim等人[57]提出了深度遞歸卷積網(wǎng)絡(luò)(DRCN)。第一次將之前已有的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)結(jié)構(gòu)應(yīng)用在超分辨率處理中。DRCN通過采用文獻(xiàn)[67]的遞歸監(jiān)督策略和文獻(xiàn)[68]中的跳躍層來處理模型訓(xùn)練問題,特別是解決爆炸/消失的梯度問題。利用殘差學(xué)習(xí)的思想(跳躍連接),加深了網(wǎng)絡(luò)結(jié)構(gòu)(16個遞歸),增加了網(wǎng)絡(luò)感受野,提升了性能。網(wǎng)絡(luò)模型中使用更多的卷積層增加網(wǎng)絡(luò)感受野,利用遞歸模塊實(shí)現(xiàn)權(quán)重共享,避免了過多網(wǎng)絡(luò)參數(shù),并采用跨層連接的方式實(shí)現(xiàn)多層特征融合,其重建效果相比于SRCNN有了較大提高。圖3為基于深度遞歸卷積網(wǎng)絡(luò)超分辨率模型結(jié)構(gòu)示意圖。

Fig.3 Schematic diagram of super-resolution model based on deep recursive convolution network圖3 基于深度遞歸卷積網(wǎng)絡(luò)超分辨率模型結(jié)構(gòu)示意圖

(3)基于高效亞像素卷積神經(jīng)網(wǎng)絡(luò)的圖像超分辨率

在SRCNN和DRCN中,低分辨率圖像都是先通過上采樣插值得到與高分辨率圖像大小相同的圖像,再將其作為網(wǎng)絡(luò)輸入,這意味著卷積操作在較高的分辨率上進(jìn)行,與在低分辨率的圖像上計算卷積相比,這將會在很大程度上降低效率。ESPCN[53]提出了一種在低分辨率圖像上直接計算卷積得到高分辨率圖像的高效率方法,其核心概念是亞像素卷積層。網(wǎng)絡(luò)輸入原始低分辨率圖像,通過兩個卷積層以后,得到的特征圖像大小與輸入圖像相同。通過使用亞像素卷積層,實(shí)現(xiàn)圖像從低分辨率到高分辨率放大的過程,插值函數(shù)被隱含在前面的卷積層中,可以自動學(xué)習(xí)到。只在最后一層對圖像進(jìn)行大小變換,由于前面的卷積運(yùn)算在低分辨率圖像上進(jìn)行,因此效率會得到提高。在重建效果上,用峰值信噪比(peak signal to noise ratio,PSNR)衡量重建性能,ESPCN比SRCNN更優(yōu)。圖4為基于高效亞像素卷積網(wǎng)絡(luò)超分辨率模型結(jié)構(gòu)示意圖。

(4)基于生成對抗網(wǎng)絡(luò)的圖像超分辨率

生成對抗網(wǎng)絡(luò)(GAN)是Goodfellow等人[19]在2014年提出的一種生成對抗式模型。該模型是由兩個網(wǎng)絡(luò)組成的深層次神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),將一個網(wǎng)絡(luò)與另一個網(wǎng)絡(luò)相互對立。一個神經(jīng)網(wǎng)絡(luò)稱為生成器,生成新的數(shù)據(jù)實(shí)例;另一個神經(jīng)網(wǎng)絡(luò)稱為鑒別器,評估它們的真實(shí)性,即鑒別器決定它所審查的每個數(shù)據(jù)實(shí)例是否屬于實(shí)際訓(xùn)練數(shù)據(jù)集?;谏蓪咕W(wǎng)絡(luò)的圖像超分辨率(SRGAN)[20]將生成對抗網(wǎng)絡(luò)(GAN)應(yīng)用到圖像超分辨率領(lǐng)域。生成器模型根據(jù)輸入的低分辨率圖像生成其對應(yīng)的高分辨率圖像,而鑒別器用于判斷圖像屬于生成的高分辨率圖還是真實(shí)的高分辨率圖像,兩者相互迭代訓(xùn)練,直到鑒別器無法分辨出輸入的圖像是生成的圖像還是真實(shí)的圖像,則認(rèn)為兩者達(dá)到了納什均衡[19],最后生成器模型能夠生成出以假亂真的高分辨率圖像。從SRGAN模型中引入感知損失(perceptual loss)[69]到損失函數(shù)中,使生成圖片和目標(biāo)圖片在語義和風(fēng)格上更相似,使得生成的圖像更具真實(shí)感。圖5給出基于生成對抗網(wǎng)絡(luò)的圖像超分辨率的模型結(jié)構(gòu)示意圖。

3.1.3 典型網(wǎng)絡(luò)模型性能對比

算法的網(wǎng)絡(luò)模型是不同模塊之間的相互組合,從而形成各網(wǎng)絡(luò)模塊的性能各異。本小節(jié)主要針對3.1.1小節(jié)中的四種典型網(wǎng)絡(luò)模型進(jìn)行模塊和性能的總結(jié)分析,針對其模塊和性能進(jìn)行總結(jié)分析。表4中從多個角度對四種網(wǎng)絡(luò)模型進(jìn)行對比,可以看出其各有優(yōu)勢。SRCNN是卷積神經(jīng)網(wǎng)絡(luò)在超分領(lǐng)域的開山之作,使用三層網(wǎng)絡(luò)設(shè)計結(jié)構(gòu),采用預(yù)上采樣超分辨率的模型框架,相比于其他網(wǎng)絡(luò)結(jié)構(gòu)較簡單,但對于較大放大因子的圖像重建的效果不夠理想。DRCN模型框架采用后上采樣超分辨率,運(yùn)用了遞歸連接的網(wǎng)絡(luò)設(shè)計,其特點(diǎn)在于層間鏈接信息共享,這使得運(yùn)算的復(fù)雜度相對簡單,同時也能夠取得好的重建效果。ESPCN模型框架采用亞像素卷積的上采樣方式,將從LR圖像中提取到的特征圖重新排列成HR圖像,該方法加快了算法的運(yùn)算速度,在保證較好視覺效果的前提下,滿足了實(shí)時視頻處理的要求。SRGAN的模型設(shè)計同樣采用了后上采樣超分辨率,使用的獨(dú)有的GAN結(jié)構(gòu)網(wǎng)絡(luò)設(shè)計,對于較大的放大因子的圖像重建能夠得到較好的主觀感受。

3.2 無監(jiān)督學(xué)習(xí)的單圖像超分辨率

Fig.4 Schematic diagram of super-resolution model based on efficient sub-pixel convolution network圖4 基于高效亞像素卷積網(wǎng)絡(luò)超分辨率模型結(jié)構(gòu)示意圖

Fig.5 Schematic diagram of super-resolution model based on generative adversarial network圖5 基于生成對抗網(wǎng)絡(luò)的圖像超分辨率的網(wǎng)絡(luò)模型結(jié)構(gòu)示意圖

Table 4 Comparative analysis of 4 super resolution algorithms network models表4 四種超分辨率算法網(wǎng)絡(luò)模型對比分析

現(xiàn)有的超分辨率重建工作主要集中于有監(jiān)督學(xué)習(xí),即使用匹配的LR-HR圖像對學(xué)習(xí)出LR到HR的映射。然而,由于難以獲取相同場景下的不同分辨率的圖像,因此常通過對HR圖像進(jìn)行下采樣來獲取數(shù)據(jù)集中的LR圖像。但由于實(shí)際中提供網(wǎng)絡(luò)訓(xùn)練的圖像通常為非配對圖像,因此相比有監(jiān)督的學(xué)習(xí),在真正的現(xiàn)實(shí)樣例中無監(jiān)督的學(xué)習(xí)訓(xùn)練建立的模型更加符合實(shí)際。在本節(jié)中,將介紹幾種具有代表性的無監(jiān)督學(xué)習(xí)單圖像超分辨率技術(shù)?!傲銟颖荆▃eroshot)”超分辨率技術(shù)和弱監(jiān)督超分辨率技術(shù)是超分領(lǐng)域具有代表性的兩類無監(jiān)督學(xué)習(xí)方法。

3.2.1 “零樣本”超分辨率技術(shù)

Shocher等[70]提出的“零樣本”超分辨率技術(shù)是第一個基于CNN的無監(jiān)督超分辨率方法,算法利用了深度學(xué)習(xí)的強(qiáng)大學(xué)習(xí)功能,但不依賴于之前的訓(xùn)練。在單個圖像中利用信息的內(nèi)部重現(xiàn),并在測試時訓(xùn)練一個特定于圖像的小型CNN,僅從輸入圖像本身提取一個樣本。因此,它可以適應(yīng)每個圖像的不同設(shè)置,如舊照片、噪聲圖像、生物數(shù)據(jù)以及獲取過程未知或不理想的其他圖像。隨著超分辨率技術(shù)的發(fā)展,其他類型無監(jiān)督超分辨率技術(shù)也得到了積極的探索。文獻(xiàn)[71]通過最小化源圖像和下采樣目標(biāo)圖像之間的差異來學(xué)習(xí)其權(quán)重構(gòu)建網(wǎng)絡(luò)模型,從而產(chǎn)生清晰自然的圖像。文獻(xiàn)[72]提出了一種簡單而有效的雙重(即高分辨率和低分辨率)網(wǎng)絡(luò)架構(gòu),該架構(gòu)可有效利用高分辨率數(shù)據(jù)并直接生成高分辨率深度圖。通過網(wǎng)絡(luò)模型生成的深度圖相當(dāng)清晰,并且可以很好地處理細(xì)小物體和遠(yuǎn)處的物體。

3.2.2 弱監(jiān)督超分辨率技術(shù)

研究人員嘗試使用未配對的LR-HR圖像學(xué)習(xí)具有弱監(jiān)督學(xué)習(xí)的超分辨率模型,提出了弱監(jiān)督超分辨率技術(shù)。Bulat等人[73]提出了一個兩階段的過程,首先訓(xùn)練HR到LR的GAN,然后使用未配對的LRHR圖像來學(xué)習(xí)退化,通過應(yīng)用兩階段過程,模型有效提高了實(shí)際LR圖像超分辨率重建圖像的質(zhì)量。Yuan等人[74]提出了一個周期內(nèi)超分辨率網(wǎng)絡(luò)(cyclein-cycle generative adversarial network,CinCGAN),該網(wǎng)絡(luò)由4個發(fā)生器和2個鑒別器組成,分別構(gòu)成兩個循環(huán)GAN來進(jìn)行弱監(jiān)督學(xué)習(xí)的超分辨率重建。該網(wǎng)絡(luò)模型通過學(xué)習(xí)一個從源域到目標(biāo)域的映射來進(jìn)行圖像的遷移,在沒有任何配對訓(xùn)練數(shù)據(jù)集圖像的情況下,捕捉一個圖像集的特殊特征,并將這些特征轉(zhuǎn)化為另一個圖像集。通過實(shí)驗(yàn)對已有方法的定量比較,證明了該方法的極大優(yōu)越性。

3.3 單圖像超分辨率最新成果

超分辨率重建技術(shù)正在蓬勃發(fā)展,本節(jié)中主要通過以下三方面對目前具有代表性的最新超分辨重建技術(shù)的研究成果進(jìn)行分類論述。

3.3.1 真實(shí)圖像的超分辨率重建

大部分圖像超分辨率在訓(xùn)練數(shù)據(jù)的選取上,往往是通過對HR圖像進(jìn)行簡單且統(tǒng)一的降級來生成LR圖像。但是,真實(shí)世界中LR圖像的降級更為復(fù)雜,當(dāng)其結(jié)果應(yīng)用于實(shí)際場景時,在模擬數(shù)據(jù)上訓(xùn)練的SISR模型可能會變得無效。針對這一現(xiàn)實(shí)問題,現(xiàn)有許多學(xué)者開始傾向于研究基于真實(shí)圖像的超分辨率重建。文獻(xiàn)[73]首次聚焦于利用真實(shí)的HR獲取自然的LR圖像問題上,設(shè)計了一個基于GAN的High-to-Low網(wǎng)絡(luò)從HR圖像獲取較自然的LR圖像來模擬真實(shí)低分辨率數(shù)據(jù)。與以往的文章不同,作者提出GAN-Centered網(wǎng)絡(luò),即以GAN損失作為主導(dǎo),Pixel損失作為輔導(dǎo)來優(yōu)化網(wǎng)絡(luò)得到較好的重建效果。為了提高深層超分辨率CNN對真實(shí)照片的泛化能力和魯棒性,文獻(xiàn)[75]提出了一種將模糊核模型引入到訓(xùn)練中的核建模超分辨率網(wǎng)絡(luò)(kernel modeling super-resolution,KMSR),該方法在未知模糊核的照片上具有有效性。文獻(xiàn)[76]通過調(diào)整數(shù)碼相機(jī)的焦距來拍攝同一場景中的一對LR-HR圖像,建立了一個真實(shí)世界的超分辨率數(shù)據(jù)集。此外文中提出了一種圖像配準(zhǔn)算法,用于在不同分辨率下逐步對齊圖像對,并且建立了一個基于拉普拉斯金字塔的核預(yù)測網(wǎng)絡(luò),通過該網(wǎng)絡(luò)模型可以有效地學(xué)習(xí)每像素內(nèi)核以恢復(fù)HR圖像,在現(xiàn)實(shí)世界場景上具有很好的效果。文獻(xiàn)[77]從相機(jī)鏡頭的角度研究SR,即CameraSR,旨在緩解現(xiàn)實(shí)成像系統(tǒng)中分辨率(Resolution)與視場(field-of-view)之間的內(nèi)在權(quán)衡。利用實(shí)際數(shù)據(jù)對常用的合成退化模型進(jìn)行定量分析,用于在現(xiàn)實(shí)成像系統(tǒng)中促進(jìn)現(xiàn)有的基于學(xué)習(xí)的SR方法。CameraSR能夠進(jìn)一步提高所捕獲圖像的分辨率。

針對SISR研究一直存在的問題,即在模擬數(shù)據(jù)集上訓(xùn)練的模型很難推廣到真實(shí)世界的圖像,基于真實(shí)圖像的超分辨率研究能夠很好地解決這一問題。但該研究也存在一些固有的缺點(diǎn),例如訓(xùn)練難度較大和假設(shè)的過度完善[1],目前迫切需要解決此類問題。隨著超分辨率重建技術(shù)在實(shí)際應(yīng)用中的迫切需要,基于真實(shí)圖像的超分辨率研究也將得到進(jìn)一步的探索。

3.3.2 基于網(wǎng)絡(luò)模型改進(jìn)的圖像超分辨率

針對許多典型的圖像超分辨率網(wǎng)絡(luò)模型,許多學(xué)者對其進(jìn)一步研究并加以改進(jìn),取得了新的研究成果。GAN網(wǎng)絡(luò)在超分辨率重建上的應(yīng)用將超分領(lǐng)域推向了一個新的高度,隨后基于GAN網(wǎng)絡(luò)的超分辨率重建網(wǎng)絡(luò)框架不斷涌現(xiàn)。為了進(jìn)一步增強(qiáng)圖像超分辨率的視覺效果,文獻(xiàn)[78]深入研究并改進(jìn)了SRGAN網(wǎng)絡(luò)模型,提出了一個增強(qiáng)型超分辨率生成對抗網(wǎng)絡(luò)模型(enhanced super-resolution generative adversarial networks,ESRGAN),引入新網(wǎng)絡(luò)結(jié)構(gòu)單元RRDB(residual-in-residual dense block)。Residu借鑒相對生成對抗網(wǎng)絡(luò)(relativistic GAN)進(jìn)行預(yù)測,還使用了激活前具有更強(qiáng)監(jiān)督信息的特征表達(dá)來約束感知損失函數(shù)。ESRGAN模型能夠恢復(fù)更加真實(shí)自然的紋理,取得比SRGAN模型更好的視覺效果。文獻(xiàn)[79]設(shè)計了一個可以在特征域中起作用的額外的鑒別器,在特征圖中加入了對抗性損失,使得生成網(wǎng)絡(luò)能夠生成與圖像結(jié)構(gòu)相關(guān)的高頻特征。針對現(xiàn)有的方法不能直接優(yōu)化一些無差異的感知度量問題,文獻(xiàn)[80]提出了帶有排序器的超分辨率重建網(wǎng)絡(luò)——RankSRGAN。用感知指標(biāo)優(yōu)化生成器并生成更加自然的紋理,同時所提出的方法可以結(jié)合不同SR的優(yōu)勢產(chǎn)生更好結(jié)果的方法。文獻(xiàn)[81]提出了一種更客觀地從感知損失中獲益的新方法,優(yōu)化了一個基于深度網(wǎng)絡(luò)的解碼器,并且該方法利用文章中提出的對象、背景和邊界標(biāo)簽,在考慮背景紋理相似性的同時,估計一個合適的邊界感知損失。該方法可以得到更真實(shí)的紋理和更清晰的邊緣,并且在重建效果上展現(xiàn)了優(yōu)良的性能。文獻(xiàn)[82]提出了一種新的基于小波域樣式傳輸?shù)姆椒ǎ╳avelet domain style transfer,WDST),實(shí)現(xiàn)了比SRGAN更好的感知失真(perception distortion,PD)權(quán)衡。該方法在現(xiàn)有的SISR方法中實(shí)現(xiàn)了最佳的失真和感知質(zhì)量的權(quán)衡。利用殘差網(wǎng)絡(luò)和反饋網(wǎng)絡(luò)的優(yōu)良特性,最先進(jìn)的超分辨率重建研究也取得了一定的成果。文獻(xiàn)[60]提出一種由幾個具有長跳躍連接的殘余組組成殘差殘差(residual in residual,RIR)結(jié)構(gòu),從而形成非常深的網(wǎng)絡(luò)。此外,文中提出了一個通道注意機(jī)制,通過考慮信道間的相互依賴性自適應(yīng)地調(diào)整信道特征。通過實(shí)驗(yàn)表明網(wǎng)絡(luò)模型能夠達(dá)到更好的重建精度和效果。注意到成對操作在各種圖像處理任務(wù)中的有效性,文獻(xiàn)[83]設(shè)計了一個可以將任意成對的操作插入其中的模塊,并用這種模塊實(shí)現(xiàn)一種稱為“雙重殘差連接”新的殘差連接方式。實(shí)驗(yàn)結(jié)果表明,所提出的具有正確選擇的配對操作的網(wǎng)絡(luò)展現(xiàn)了優(yōu)良的性能。文獻(xiàn)[84]提出了一種基于嵌入塊殘差網(wǎng)絡(luò)的模型(embedded block residual network,EBRN)來實(shí)現(xiàn)圖像超分辨率重建,該模型巧妙地使用圖像頻率分離思想從不同復(fù)雜度的子網(wǎng)絡(luò)中恢復(fù)圖像不同頻率段的信息,克服了當(dāng)前SR模型中存在的圖像低頻信息過擬合,高頻信息欠擬合問題。文獻(xiàn)[85]提出了一種利用反饋網(wǎng)絡(luò)構(gòu)建超分辨率重建網(wǎng)絡(luò)(feedback network for image super-resolution,SRFBN),用高級信息通過反饋連接來細(xì)化低層次信息,所提出的SRFBN具有很強(qiáng)的早期重建能力,可以逐步創(chuàng)建最終的高分辨率圖像。文中還引入了一種學(xué)習(xí)策略,以使網(wǎng)絡(luò)能夠很好地適應(yīng)更復(fù)雜的任務(wù),廣泛的實(shí)驗(yàn)結(jié)果表明SRFBN方法具有很強(qiáng)的優(yōu)越性。

基于網(wǎng)絡(luò)模型改進(jìn)的圖像超分辨率研究成果不斷涌現(xiàn),極大地促進(jìn)了超分辨率重建性能的優(yōu)化。但目前大多數(shù)該類網(wǎng)絡(luò)模型普遍存在網(wǎng)絡(luò)架構(gòu)相對復(fù)雜,參數(shù)量大,預(yù)測時間較長等問題。如何減少模型大小并加快預(yù)測速度,同時保持性能是一個重要問題,如果期望解決這些問題,輕量級體系結(jié)構(gòu)就勢在必行。

3.3.3 超分辨率重建研究領(lǐng)域拓展

隨著超分辨率重建網(wǎng)絡(luò)模型日趨完善,越來越多的學(xué)者對新的超分辨率重建領(lǐng)域開始探索。文獻(xiàn)[86]首次針對深度超分辨率方法易受到對抗性攻擊進(jìn)行研究,從理論上和實(shí)驗(yàn)上對幾種先進(jìn)的超分辨率重建方法受對抗性攻擊的魯棒性進(jìn)行了全面的分析,并探討了攻擊的可傳遞性,針對性攻擊和普遍攻擊的可行性。文獻(xiàn)[87]使用SR技術(shù)來增強(qiáng)小型感興趣區(qū)域(region of interest,RoI)的特性,提出了一種新的特征級超分辨率方法,對于小目標(biāo)檢測具有明顯的改進(jìn)效果。文獻(xiàn)[88]提出了一種新穎的雙重定向膠囊網(wǎng)絡(luò)模型,利用膠囊層和卷積層的組合來學(xué)習(xí)有效的極低分辨率(very low resolution,VLR)識別模型,并且合并了兩個新穎的損失函數(shù),網(wǎng)絡(luò)模型對低分辨率圖像分類效果優(yōu)良。文獻(xiàn)[89]提出一種視差-注意力立體SR網(wǎng)絡(luò)(parallax attention stereo superresolution network,PASSRNet),它將立體匹配結(jié)合到SR任務(wù)中,利用視差的注意力機(jī)制來建模立體圖像的對應(yīng)關(guān)系,取得了優(yōu)良的性能。為了解決現(xiàn)有算法缺乏考慮實(shí)際應(yīng)用的問題,文獻(xiàn)[90]提供了一種快速、精確且輕量級的網(wǎng)絡(luò),在保證網(wǎng)絡(luò)模型重建效果的同時大量減少網(wǎng)絡(luò)參數(shù)和操作。針對大多數(shù)現(xiàn)有SISR方法只考慮一些特定的整數(shù)因子(X2,X3,X4…)的問題,文獻(xiàn)[91]提出了動態(tài)預(yù)測每個尺度系數(shù)濾波器權(quán)重的Meta-SR網(wǎng)絡(luò),首次通過單一模型解決了超分辨率的任意縮放因子問題(包括非整數(shù)因子),通過大量實(shí)驗(yàn)證明了Meta-SR網(wǎng)絡(luò)模型的優(yōu)越性。

超分辨率重建研究領(lǐng)域的拓展帶來許多超分辨率上的新成果,同時也實(shí)現(xiàn)了超分辨率領(lǐng)域的新突破。隨著國內(nèi)外研究機(jī)構(gòu)和學(xué)者的不斷探索,進(jìn)一步的拓展研究成果也將會相繼面世。

4 其他相關(guān)研究

算法整體模型不僅僅就算法本身的模型設(shè)計,其他與算法相關(guān)的模塊也同樣重要。本章中就超分辨率重建的其他相關(guān)研究進(jìn)行論述,主要介紹了圖像質(zhì)量評價標(biāo)準(zhǔn)、公共數(shù)據(jù)集以及典型算法實(shí)驗(yàn)對比分析。

4.1 圖像質(zhì)量評價標(biāo)準(zhǔn)

常用的圖像質(zhì)量評價方法可分為主觀評價方法和客觀評價方法。主觀評價方法是觀察人員根據(jù)評價標(biāo)準(zhǔn)或者個人經(jīng)驗(yàn)主觀地對圖像給出質(zhì)量評價,常用的有主觀平均意見分?jǐn)?shù)法(mean opinion of score,MOS)和信息保真度準(zhǔn)則(information fidelity criterion,IFC)。客觀評價法是通過建立數(shù)學(xué)模型,對圖像質(zhì)量進(jìn)行定量的評價,主要有均方誤差(mean square error,MSE)、峰值信噪比(PSNR)、結(jié)構(gòu)相似度(structural similarity,SSIM)等。

4.1.1 主觀評價指標(biāo)

主觀平均意見分?jǐn)?shù)法具有較高的使用率和可信度,然而也存在明顯的不足,實(shí)驗(yàn)中需要邀請眾多實(shí)驗(yàn)人員,因此時間成本較高。2005年Sheikh等人[92]基于原始參考圖像與超分辨率圖像之間的互信息提出了信息保真度準(zhǔn)則,通過對圖像進(jìn)行小波變換,采用高頻分量計算圖像之間的相似性,用以衡量失真圖像保留參考圖像的信息,這種度量方式能夠更好地匹配對高頻信息更加敏感的人類視覺系統(tǒng),雖然計算比較復(fù)雜,但是評價更加符合主觀評測效果。

4.1.2 客觀評價指標(biāo)

均方誤差是圖像客觀質(zhì)量評價常用的指標(biāo),好處在于它的數(shù)學(xué)意義簡明,計算方法方便易行,其缺點(diǎn)在于客評價值和主觀評價的一致性較差。

峰值信噪比也是一個被廣泛用來客觀地評價重建圖像失真程度的指標(biāo)。PSNR基于兩幅圖像的均方誤差來計算相似度,單位為分貝(dB),PSNR的值越大,則說明超分辨率的圖像失真越少,效果越好。

自然場景下圖像的物體往往具有很強(qiáng)結(jié)構(gòu)特征,而這種結(jié)構(gòu)特征與光照信息是相互獨(dú)立的。結(jié)構(gòu)相似度[93]通過結(jié)合圖像的結(jié)構(gòu)信息、亮度信息和對比度信息估計原始圖像和失真圖像之間的相似度,從這三個角度綜合估計參考圖像和失真圖像之間結(jié)構(gòu)相似度。SSIM值越大,效果越好。

4.2 公用數(shù)據(jù)集介紹

在表5中,列出了在基于深度學(xué)習(xí)的單圖像超分辨率重建中常用的圖像數(shù)據(jù)集。一些數(shù)據(jù)集已經(jīng)被其使用者劃分為訓(xùn)練、驗(yàn)證和測試集。然而,不同網(wǎng)絡(luò)模型可以針對不同數(shù)據(jù)集劃分進(jìn)行訓(xùn)練,沒有特別的規(guī)定。研究人員有時在數(shù)據(jù)集上任意劃分,例如在文獻(xiàn)[51]中,91 Timofte數(shù)據(jù)集被分解為24 800幅和ImageNet的395 909幅進(jìn)行訓(xùn)練。另外,一些作者也結(jié)合多個訓(xùn)練數(shù)據(jù)集,例如文獻(xiàn)[94]中的訓(xùn)練集291結(jié)合了數(shù)據(jù)集Timofte91和BSD 200,是訓(xùn)練文獻(xiàn)[95-96]的最主流選擇。

4.3 典型算法實(shí)驗(yàn)結(jié)果分析

實(shí)驗(yàn)對比最近鄰域插值(Nearest)、雙線性插值(Bicubic)、SRCNN、DRCN、ESPCN、SRGAN共六種典型的圖像超分辨率重建方法,其中最近鄰域插值、雙線性插值是典型的傳統(tǒng)超分辨率算法,其他四種為具有代表性的基于深度學(xué)習(xí)的單圖像超分辨率算法。分別在Set5、Set14、BSD100三種常用的公共數(shù)據(jù)集上采用四倍放大因子進(jìn)行測試,并采用PSNR、SSIM、MOS三種常用的評價指標(biāo)對實(shí)驗(yàn)結(jié)果進(jìn)行評估。實(shí)驗(yàn)結(jié)果如表6所示。

Table 5 Summary of common public datasets表5 常用的公用數(shù)據(jù)集匯總

表6分別列舉了六種算法在Set5、Set14、BSD100測試數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,針對不同的測試集,不同方法的表現(xiàn)各有差異。圖6中的(a)、(b)、(c)對比了六種算法在PSNR、SSIM和MOS三種評價指標(biāo)下的表現(xiàn),其中PSNR和SSIM為客觀評價指標(biāo),MOS為主觀評價指標(biāo)。此外,為了更為直觀地反映各算法在重建圖像方面的有效性,圖7對六種算法的重建圖像質(zhì)量效果進(jìn)行比較。由實(shí)驗(yàn)結(jié)果可以得出如下結(jié)論:

(1)對比實(shí)驗(yàn)數(shù)據(jù)表以及對比圖,明顯看出相比于傳統(tǒng)算法,基于深度學(xué)習(xí)的方法在各種評價指標(biāo)上的表現(xiàn)均優(yōu)于傳統(tǒng)算法,尤其是在圖6(c)中的MOS主觀評價指標(biāo)上的提升最為明顯,這是由于對于較大的放大因子,傳統(tǒng)的算法很難重建出高頻信息,而基于深度學(xué)習(xí)的方法卻表現(xiàn)優(yōu)良,這與網(wǎng)絡(luò)模型強(qiáng)大的學(xué)習(xí)能力密切相關(guān)。

(2)SRCNN效果相對其他的網(wǎng)絡(luò)稍差,但其作為神經(jīng)網(wǎng)絡(luò)在超分上的應(yīng)用的開山之作,為后續(xù)的網(wǎng)絡(luò)設(shè)計奠定了深厚的基礎(chǔ)。三種評價指標(biāo)上,DRCN的表現(xiàn)總體較好,這與其獨(dú)特的層間鏈接信息共享結(jié)構(gòu)有關(guān)。ESPCN也都展現(xiàn)出其優(yōu)良的性能,表現(xiàn)也較為穩(wěn)定,獨(dú)有的亞像素卷積層在超分中有著重要的作用,同時ESPCN也在視頻超分中有著很好的表現(xiàn)。

(3)SRGAN在PSNR和SSIM評價指標(biāo)下的表現(xiàn)并不是特別突出,從圖6(b)中可以看到,SRGAN在SSIM的評價指標(biāo)上的表現(xiàn)并不具優(yōu)勢,這是由于SRGAN的生成器生成的圖片為與真實(shí)圖像相類似的“假”圖像,其結(jié)構(gòu)相似性與真實(shí)的高分辨率圖像存在一定的差異,故SSIM評價指標(biāo)上表現(xiàn)較差。但傳統(tǒng)的超分辨率算法可以實(shí)現(xiàn)SRGAN的生成器,通過借助鑒別器網(wǎng)絡(luò)可以避免輸出圖像過度平滑,使輸出圖像更加逼真,故SRGAN在主觀評價MOS上的表現(xiàn)最好。從圖7中也可看出SRGAN的重建圖像具有良好的視覺特性,這也是生成對抗網(wǎng)絡(luò)用在較大放大因子條件下最有價值之所在。

Table 6 Experimental results of 6 algorithms on different test data set表6 六種算法在不同測試數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

Fig.6 Performance of different evaluation indicators of 6 algorithms on different test sets圖6 六種算法在不同測試集上不同評價指標(biāo)的表現(xiàn)

Fig.7 Comparison of experimental results using 6 algorithms圖7 六種算法實(shí)驗(yàn)效果對比圖

5 未來研究趨勢探討與總結(jié)

5.1 未來趨勢探討

盡管基于深度學(xué)習(xí)的單圖像超分辨率技術(shù)取得了巨大的成功,但目前仍存在很大的發(fā)展空間。本節(jié)主要在現(xiàn)有研究成果進(jìn)行調(diào)研的基礎(chǔ)上,總結(jié)討論該領(lǐng)域以下幾點(diǎn)未來研究趨勢:

(1)無監(jiān)督學(xué)習(xí)的超分辨率技術(shù)的研究

由于圖像在同一場景下不同分辨率的圖像很難獲取,因此插值法被廣泛用于構(gòu)建超分辨率數(shù)據(jù)集。目前主要的研究是有監(jiān)督學(xué)習(xí)的超分技術(shù),但實(shí)際上,有監(jiān)督學(xué)習(xí)的超分與實(shí)際情況有所差異。相比之下,無監(jiān)督學(xué)習(xí)的超分技術(shù)利用無監(jiān)督的學(xué)習(xí)訓(xùn)練建立的模型更加符合實(shí)際,這對于現(xiàn)實(shí)需求具有很大影響,因此基于無監(jiān)督學(xué)習(xí)的超分辨率技術(shù)研究具有很大的價值。

(2)特定領(lǐng)域的超分辨率技術(shù)研究

目前絕大多數(shù)的超分研究主要針對自然圖像,雖然具有普適性,但同樣也存在弊端,即面對特定的需求場景超分辨率效果存在很大缺失。隨著智能交通、視頻監(jiān)控、光學(xué)文字識別等應(yīng)用需求的增加,對特定某一類圖像的超分辨率算法研究,例如針對人臉、文字、指紋、車牌或其他特定區(qū)域的超分辨率算法研究具有著重要的意義[21]。在這些專用場景中,具有較多的先驗(yàn)知識,將這些先驗(yàn)的知識與超分辨率的算法緊密結(jié)合起來,得到的輸出圖像質(zhì)量可能會有較大提高,在實(shí)際應(yīng)用中也更有意義。

(3)超分辨率算法與其他計算機(jī)視覺任務(wù)結(jié)合

超分辨率重建技術(shù)應(yīng)用十分廣泛,除了在實(shí)際清晰化場景中的應(yīng)用,同樣超分辨率重建技術(shù)可以和其他計算機(jī)視覺任務(wù)相結(jié)合產(chǎn)生好的結(jié)果。例如,低分辨率圖像的識別分類、小目標(biāo)檢測上的應(yīng)用等,對于此類應(yīng)用目前也已有學(xué)者在進(jìn)行探索研究。充分利用超分辨率重建技術(shù)改進(jìn)其他計算機(jī)視覺任務(wù),或者利用其他計算機(jī)視覺任務(wù)輔助圖像的超分辨率重建這也將是一個十分重要的方向。

(4)算法改進(jìn)方向研究

好的算法設(shè)計可以最大程度地利用圖像先驗(yàn)知識,快速得到所需結(jié)果,產(chǎn)生好的重建效果。面對目前的算法在重建效果上存在的局限性,通過結(jié)合局部和全局信息,大型感受野提供更多的上下文信息,有助于生成更逼真的HR圖像。它有望結(jié)合局部和全局信息,為超分辨率提供不同尺度的上下文信息;不同的背景圖像關(guān)注超分辨率的不同信息。例如,風(fēng)景圖像可能更關(guān)注顏色和紋理,而動物身體區(qū)域可能更關(guān)注毛發(fā)細(xì)節(jié)。因此,結(jié)合注意機(jī)制來利用上下文信息,以增強(qiáng)對關(guān)鍵特征的關(guān)注,這有助于產(chǎn)生更加真實(shí)的細(xì)節(jié)信息;結(jié)合低級和高級信息,深層CNN中的淺層傾向于提取諸如顏色和邊緣的低級特征,而較深層提取諸如對象身份之類的更高級別的表示。因此,將低級細(xì)節(jié)與高級抽象語義相結(jié)合可以對HR重建有很大幫助。

5.2 結(jié)束語

基于深度學(xué)習(xí)的圖像超分辨率近年來取得了突破性進(jìn)展。本文就基于深度學(xué)習(xí)的單圖像超分辨率技術(shù)作出探討,主要將其分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的超分辨率技術(shù),分別對其進(jìn)行分析與論述,同時還討論了超分領(lǐng)域其他一些相關(guān)的研究,最后就未來的超分研究進(jìn)行展望。

基于深度學(xué)習(xí)的單圖像超分辨率技術(shù)已經(jīng)展現(xiàn)出了巨大的潛力,在未來很長一段時間內(nèi),超分辨率圖像重建問題將是計算機(jī)視覺與圖像處理領(lǐng)域的研究熱點(diǎn)。伴隨著多媒體大數(shù)據(jù)的發(fā)展,最終超分辨率技術(shù)會不斷地發(fā)展與完善,圖像超分辨率重建技術(shù)將會廣泛應(yīng)用于各個領(lǐng)域。

猜你喜歡
分辨率卷積圖像
改進(jìn)的LapSRN遙感圖像超分辨重建
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實(shí)現(xiàn)
有趣的圖像詩
EM算法的參數(shù)分辨率
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
原生VS最大那些混淆視聽的“分辨率”概念
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
基于深度特征學(xué)習(xí)的圖像超分辨率重建
一種改進(jìn)的基于邊緣加強(qiáng)超分辨率算法
一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
轮台县| 巢湖市| 普宁市| 珠海市| 横峰县| 伽师县| 砚山县| 牡丹江市| 合作市| 崇仁县| 水城县| 社旗县| 昌宁县| 军事| 讷河市| 修武县| 稻城县| 梧州市| 凤台县| 大化| 衡阳县| 白山市| 宣化县| 桂林市| 新昌县| 墨江| 鹤山市| 林西县| 景洪市| 开化县| 汨罗市| 湟中县| 通辽市| 湖口县| 威宁| 新绛县| 许昌市| 婺源县| 交城县| 衡阳县| 塔河县|