吳 靖,葉曉晶,黃 峰,陳麗瓊,王志鋒,劉文犀
(1.福州大學(xué)機(jī)械工程及自動化學(xué)院,福建福州 350116;2.福州大學(xué)先進(jìn)技術(shù)創(chuàng)新研究院,福建福州 350116;3.福州大學(xué)計(jì)算機(jī)與大數(shù)據(jù)學(xué)院,福建福州 350116)
圖像超分辨率重建(Super-resolution Reconstruction,SR)是指將同一場景的一張或多張低分辨率(Low Resolution,LR)退化圖像恢復(fù)成對應(yīng)的一張或多張高分辨率(High Resolution,HR)清晰圖像的技術(shù),是計(jì)算機(jī)視覺和圖像處理領(lǐng)域的重要技術(shù)之一.圖像SR不僅可以提高圖像的感知質(zhì)量,還有助于提升目標(biāo)檢測、圖像去噪等其他計(jì)算機(jī)視覺任務(wù)的性能[1~3].相比于設(shè)計(jì)更復(fù)雜的光學(xué)成像系統(tǒng)來提升圖像質(zhì)量,圖像SR技術(shù)能夠在達(dá)到相同效果的同時大大降低成本,也能突破衍射極限對光學(xué)成像系統(tǒng)的限制,獲取更高分辨率的重建圖像,因此在視頻監(jiān)控、醫(yī)療成像、衛(wèi)星遙感等領(lǐng)域有著廣泛的應(yīng)用[4~8].
根據(jù)低分辨率圖像在網(wǎng)絡(luò)模型中輸入數(shù)量的不同,可將圖像SR技術(shù)分為單幀圖像超分辨率重建(Single Image Super-resolution Reconstruction,SISR)以及多幀圖像超分辨率重建(Multi-Image Super-resolution Reconstruction,MISR).其中,SISR可大致分為3類:基于插值的方法、基于重構(gòu)的方法和基于學(xué)習(xí)的方法[9].基于學(xué)習(xí)的方法按照學(xué)習(xí)程度的不同,又可分為基于淺層學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法[10].MISR主要可分為頻域法和空域法[11].相較于MISR需要多張同一場景具有亞像素位移的LR圖像作為輸入,且圖像間亞像素位移的不可預(yù)知性給充分利用圖像的混疊信息帶來了一定難度,SISR只需輸入一張LR圖像即可重建出圖像的紋理細(xì)節(jié),具有較高的實(shí)用價值,因此是目前圖像超分辨率重建領(lǐng)域的主要研究方向.
早在20世紀(jì)60年代,Harris[12]和Goodman[13]就分別提出單幀圖像超分辨率重建的相關(guān)方法,并稱為Harris-Goodman頻譜外推法.隨后,Tsai等人[14]于1984年提出用于多幀圖像超分辨率重建的頻域處理法.自此,研究者開始關(guān)注并研究圖像超分辨率重建技術(shù),各種基于插值的方法[15,16]、基于重構(gòu)的方法[17~21]也相繼被提出.隨著機(jī)器學(xué)習(xí)在計(jì)算機(jī)視覺和圖像處理領(lǐng)域的發(fā)展,F(xiàn)reeman等人[22]將機(jī)器學(xué)習(xí)應(yīng)用于圖像超分辨率重建領(lǐng)域,并于2000年首次提出了基于學(xué)習(xí)的圖像超分辨率重建方法.此后各種基于淺層學(xué)習(xí)的方法[23~26]也陸續(xù)被提出.然而這些傳統(tǒng)的方法大多是通過提取對圖像輪廓等紋理細(xì)節(jié)表達(dá)能力有限的圖像底層特征來重建高分辨率圖像,故在很大程度上限制了圖像的重建效果.
近年來,隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,研究人員對基于深度學(xué)習(xí)的圖像超分辨率重建技術(shù)展開積極的探索和研究.相較于傳統(tǒng)方法,基于深度學(xué)習(xí)的方法能夠從數(shù)據(jù)集中提取到更具表達(dá)能力的圖像特征,自適應(yīng)地學(xué)習(xí)低分辨率與高分辨率圖像之間的映射關(guān)系,不僅有效地克服了圖像獲取過程中出現(xiàn)的模糊、噪聲等退化因素的影響,同時在各種標(biāo)準(zhǔn)數(shù)據(jù)集上取得了更好的重建效果并展現(xiàn)出更優(yōu)的網(wǎng)絡(luò)性能.
隨著圖像SR研究成果的逐年增多,綜述文獻(xiàn)的歸納整理變得極為重要.早期的圖像SR綜述文獻(xiàn)[27~29]主要針對傳統(tǒng)SR方法的算法原理及其研究成果進(jìn)行總結(jié)歸納,本文不再贅述.自深度學(xué)習(xí)應(yīng)用于圖像SR領(lǐng)域以來,相關(guān)SR綜述文獻(xiàn)開始側(cè)重于基于深度學(xué)習(xí)的圖像SR內(nèi)容的闡述.大多數(shù)文獻(xiàn)[30~33]從網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)、上采樣方式和損失函數(shù)等方面對SR研究成果進(jìn)行論述,并總結(jié)分析不同網(wǎng)絡(luò)模型的相關(guān)內(nèi)容.部分文獻(xiàn)[11,34,35]從有、無監(jiān)督學(xué)習(xí)等角度出發(fā),闡述分析SR中具有代表性的研究成果.唐艷秋等人[36]從模型類型、網(wǎng)絡(luò)結(jié)構(gòu)、信息傳遞方式等方面對各種SR算法進(jìn)行詳細(xì)評述,并對比分析不同算法的優(yōu)缺點(diǎn).而Wang等人[37]同樣從有、無監(jiān)督SR的角度出發(fā),詳細(xì)綜述了SR最新進(jìn)展,并介紹了一些特定領(lǐng)域的應(yīng)用,同時對比部分網(wǎng)絡(luò)模型的精度、大小和計(jì)算代價等內(nèi)容.Anwar等人[38]則根據(jù)網(wǎng)絡(luò)模型的結(jié)構(gòu)差異,提出了一種新的分類方法,將現(xiàn)有算法分為線性、殘差、多分支、遞歸、漸進(jìn)等9種類型,并對模型之間的網(wǎng)絡(luò)復(fù)雜性、內(nèi)存占用等加以比較.Chen等人[39]針對真實(shí)世界的單幀圖像超分辨率重建(Real-world SISR,RSISR)進(jìn)行全面綜述,并總結(jié)出四大類RSISR方法,對RSISR技術(shù)的進(jìn)一步發(fā)展和應(yīng)用具有重要意義.
其中,部分文獻(xiàn)[30~32,35,38,39]僅介紹SR中常用的數(shù)據(jù)集和圖像質(zhì)量評價指標(biāo).然而數(shù)據(jù)集和評價指標(biāo)對SR網(wǎng)絡(luò)的訓(xùn)練和重建圖像的評價具有重要作用,僅對常用的方法進(jìn)行介紹是不夠的.同時,只有少量文獻(xiàn)[37,38]簡單提及了SR的相關(guān)挑戰(zhàn)賽,而挑戰(zhàn)賽恰恰是SR發(fā)展趨勢的一種體現(xiàn).隨著SR方法的逐年更新迭代,前期的綜述文獻(xiàn)已無法涵蓋最新的研究成果,也無法使讀者了解到更多的數(shù)據(jù)集信息及相關(guān)圖像質(zhì)量評價指標(biāo),且僅從網(wǎng)絡(luò)模型的發(fā)展情況分析SR的發(fā)展趨勢是不全面的.因此本文在前人的基礎(chǔ)上,首先以網(wǎng)絡(luò)模型的設(shè)計(jì)、訓(xùn)練、測試為邏輯思路介紹圖像SR的相關(guān)知識,完善并豐富數(shù)據(jù)集構(gòu)建方式、網(wǎng)絡(luò)模型基本框架以及圖像質(zhì)量評價指標(biāo)等相關(guān)內(nèi)容;其次根據(jù)學(xué)習(xí)模式的不同將現(xiàn)有方法劃分為監(jiān)督式SR和無監(jiān)督式SR,并根據(jù)模型的網(wǎng)絡(luò)結(jié)構(gòu)及設(shè)計(jì)策略,重點(diǎn)對監(jiān)督式SR典型及最新的研究成果加以評述,力求系統(tǒng)和全面地介紹基于深度學(xué)習(xí)的SISR方法;最后從數(shù)據(jù)集構(gòu)建方式、網(wǎng)絡(luò)模型研究進(jìn)展及SR挑戰(zhàn)賽等角度分析基于深度學(xué)習(xí)的圖像SR未來的發(fā)展趨勢,以促進(jìn)基于深度學(xué)習(xí)的SISR技術(shù)今后的發(fā)展及應(yīng)用.
圖像SR旨在從低分辨率退化圖像中恢復(fù)出相應(yīng)的高分辨率圖像.通常,低分辨率圖像滿足式(1)所示的退化過程:
其中,ILR和IHR分別表示LR圖像和HR圖像,D表示退化函數(shù),θ表示退化過程的參數(shù).根據(jù)θ是否已知,可將圖像SR分為退化已知的非盲超分辨率重建方法和退化未知的盲超分辨率重建方法,其中盲超分辨率重建方法主要應(yīng)用于真實(shí)世界的圖像超分辨率重建.
圖像超分辨率重建是圖像退化過程的逆過程,可利用低分辨率圖像中的信息重建出對應(yīng)的高分辨率圖像,即
其中,F(xiàn)表示超分辨率重建模型,β表示超分辨率重建模型的參數(shù).
數(shù)據(jù)集作為SR網(wǎng)絡(luò)的主要數(shù)據(jù)來源,可用于訓(xùn)練、驗(yàn)證及測試,其中訓(xùn)練數(shù)據(jù)集作為網(wǎng)絡(luò)端到端學(xué)習(xí)的重要數(shù)據(jù)來源,對網(wǎng)絡(luò)性能的提升有著重要的作用,一個高質(zhì)量、多數(shù)量、大范圍的圖像數(shù)據(jù)集能夠在很大程度上提升網(wǎng)絡(luò)性能.根據(jù)SISR網(wǎng)絡(luò)模型是否使用匹配的低分辨率-高分辨率(LR-HR)圖像對進(jìn)行訓(xùn)練,可以將其分為監(jiān)督式SISR和無監(jiān)督式SISR.監(jiān)督式SISR需要用匹配的LR-HR圖像對訓(xùn)練網(wǎng)絡(luò),因此訓(xùn)練數(shù)據(jù)集的構(gòu)建對監(jiān)督式SISR至關(guān)重要.
現(xiàn)有的數(shù)據(jù)集主要分為兩種類型.一種是只采集HR圖像的數(shù)據(jù)集,如DIV2K[40],DIV8K[41]等數(shù)據(jù)集,對于此類數(shù)據(jù)集可采用不同的退化方式獲取相應(yīng)的LR圖像,從而構(gòu)造匹配的LR-HR訓(xùn)練圖像對,以這種方式獲得的訓(xùn)練數(shù)據(jù)集一般被稱為合成數(shù)據(jù)集.另一種則是直接采集同一場景不同分辨率的圖像,從而獲取LRHR圖像對的數(shù)據(jù)集,如RealSR[42],DRealSR[43]等數(shù)據(jù)集,這類訓(xùn)練數(shù)據(jù)集一般被稱為真實(shí)數(shù)據(jù)集.目前主要有3種方法用于真實(shí)數(shù)據(jù)集的構(gòu)建,包括基于焦距調(diào)整的方法、基于硬件分箱的方法和基于波束分束器的方法[39].相較于合成數(shù)據(jù)集,真實(shí)數(shù)據(jù)集通常具有更真實(shí)的退化過程,適用于真實(shí)場景圖像的超分辨率重建.但真實(shí)數(shù)據(jù)集的構(gòu)建存在一定難度,如真實(shí)數(shù)據(jù)集直接采集到的LR-HR圖像對通常是不匹配的,需要進(jìn)行嚴(yán)格的配準(zhǔn)操作才能得到具有相同視場且可用于訓(xùn)練的LR-HR圖像對,且真實(shí)世界圖像的退化核會隨著景深的變化而變化,通常是不均勻的,往往需要根據(jù)實(shí)際情況采取不同的策略再進(jìn)行超分辨率重建.
由于難以獲取同一場景下成對的LR圖像和HR圖像,所以現(xiàn)有數(shù)據(jù)集大多只采集HR圖像,再通過不同的退化方式得到相應(yīng)的LR圖像,以構(gòu)造合成數(shù)據(jù)集用于訓(xùn)練SISR網(wǎng)絡(luò)模型.然而LR圖像的實(shí)際退化過程未知且復(fù)雜,易受到模糊、噪聲、下采樣、圖片壓縮等因素的影響,難以對其進(jìn)行準(zhǔn)確的定義.因此,在不同的SISR網(wǎng)絡(luò)模型中使用的退化方式?jīng)]有一個統(tǒng)一的標(biāo)準(zhǔn).根據(jù)現(xiàn)有SISR網(wǎng)絡(luò)模型構(gòu)造合成數(shù)據(jù)集時所采取退化方式的不同,可總結(jié)出以下幾種退化模型.
(1)簡單退化模型
簡單退化模型通過對HR圖像進(jìn)行簡單的下采樣操作得到相應(yīng)的LR圖像,如式(3)所示:
其中,↓s表示尺度因子為s的下采樣運(yùn)算.以往的SISR網(wǎng)絡(luò)模型大多采用理想的雙三次下采樣進(jìn)行退化以獲取LR圖像.然而簡單退化模型獲得的LR圖像與實(shí)際的退化過程存在較大差異,不僅難以應(yīng)用于真實(shí)場景的圖像SR,也難以處理與雙三次下采樣具有不同退化空間的圖像.
(2)一般退化模型
一般退化模型對下采樣、模糊和噪聲等退化因素加以考慮,與簡單退化模型相比,退化過程更接近實(shí)際場景,如式(4)所示:
其中,k表示模糊核,?表示卷積操作,n表示噪聲,通常設(shè)置為標(biāo)準(zhǔn)差為δ的加性高斯白噪聲.
SRMD(SR network for Multiple Degradations)[44]等網(wǎng)絡(luò)模型驗(yàn)證了一般退化模型的有效性,但其仍與圖像的真實(shí)退化過程存在一定差異,且退化范圍無法有效覆蓋實(shí)際場景中的各種退化,因此大規(guī)模退化模型應(yīng)運(yùn)而生.
(3)大規(guī)模退化模型
大規(guī)模退化模型是在一般退化模型或其變體的基礎(chǔ)上對各種退化因素進(jìn)行擴(kuò)展,考慮更真實(shí)和更復(fù)雜的退化過程,從而獲取具有更準(zhǔn)確及更大范圍退化空間的LR圖像.大規(guī)模退化模型旨在通過更準(zhǔn)確的模糊核估計(jì)等方式擴(kuò)大圖像退化空間來模擬圖像的真實(shí)退化過程以獲取相應(yīng)的LR圖像,因此適用于真實(shí)圖像的SR.
SFTMD(Spatial Feature Transform for Multiple Degradations)[45],DAN(Deep Alternating Network)[46]等網(wǎng)絡(luò)模型通過有效的模糊核估計(jì),使其設(shè)計(jì)的大規(guī)模退化模型更有利于真實(shí)圖像的SR.BSRGAN(Blind SRGAN)[47]等網(wǎng)絡(luò)模型在一般退化模型的基礎(chǔ)上設(shè)計(jì)了一種更加復(fù)雜且實(shí)用的大規(guī)模退化模型,對更復(fù)雜的退化模糊、下采樣和噪聲等退化因素加以考慮,從而構(gòu)造合成數(shù)據(jù)集用于訓(xùn)練.而Real-ESRGAN網(wǎng)絡(luò)模型[48]則是在經(jīng)典退化模型(式(5))的基礎(chǔ)上,對模糊、下采樣、噪聲和JPEG壓縮等退化元素加以考慮,通過“n階”退化過程(式(6))建模以擴(kuò)大退化空間,每個退化過程采用不同參數(shù)的經(jīng)典退化模型,從而合成具有更加真實(shí)退化過程的LR圖像,極大地提升了網(wǎng)絡(luò)重建質(zhì)量.
(4)無監(jiān)督式退化模型
無監(jiān)督式退化模型通過生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)等無監(jiān)督的方式模擬圖像的退化過程,獲取相應(yīng)的LR圖像.相比簡單退化模型和一般退化模型,無監(jiān)督式退化模型能夠利用生成對抗網(wǎng)絡(luò)的對抗博弈性使網(wǎng)絡(luò)更好地模擬圖像真實(shí)的退化過程,因此主要應(yīng)用于真實(shí)場景的圖像SR.
KernelGAN(Kernel estimation using an internal-GAN)[49],DSGAN(Down-Sample GAN)[50]等網(wǎng)絡(luò)模型均是通過GAN以無監(jiān)督的方式得到與原始HR圖像有相同分布的LR圖像,從而構(gòu)造合成數(shù)據(jù)集進(jìn)行真實(shí)圖像的SR.FCA(Frequency Consistent Adaptation)[51]則是一種頻率一致性自適應(yīng)方法,通過所提出的自適應(yīng)生成器以無監(jiān)督的方式估計(jì)圖像的退化過程,從而得到與真實(shí)場景圖像具有頻率一致性的LR圖像,用于SR網(wǎng)絡(luò)的訓(xùn)練.
目前,已有很多可用于圖像SR的數(shù)據(jù)集,這些數(shù)據(jù)集在圖像質(zhì)量、數(shù)量、范圍和分辨率等方面都存在一定差異,可以為不同的圖像SR任務(wù)提供數(shù)據(jù)支持.表1對圖像SR中常用的數(shù)據(jù)集進(jìn)行總結(jié)[40~43,47,49,52~68],以便了解數(shù)據(jù)集的相關(guān)內(nèi)容并選擇合適的數(shù)據(jù)集用于SR網(wǎng)絡(luò)的訓(xùn)練、驗(yàn)證和測試.
表1 圖像超分辨率重建常用數(shù)據(jù)集概述
以不同退化方式或采集方式得到合成數(shù)據(jù)集或真實(shí)數(shù)據(jù)集后,即可對網(wǎng)絡(luò)模型進(jìn)行相應(yīng)的訓(xùn)練.雖然現(xiàn)有SISR的網(wǎng)絡(luò)模型之間差異較大,但本質(zhì)上可以將它們看成是網(wǎng)絡(luò)模型框架、網(wǎng)絡(luò)設(shè)計(jì)策略和網(wǎng)絡(luò)學(xué)習(xí)策略等模塊的不同組合[37],從而簡化復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu).
網(wǎng)絡(luò)模型框架是SISR網(wǎng)絡(luò)模型中最基本的模塊,根據(jù)上采樣層在網(wǎng)絡(luò)模型中位置的不同,可將模型基本框架劃分為4種類型:預(yù)上采樣、后上采樣、漸進(jìn)式上采樣、迭代式上下采樣,如圖1所示.上采樣指的是將原始的LR圖像轉(zhuǎn)換為HR圖像的操作,它作為SR中必不可少的環(huán)節(jié),在網(wǎng)絡(luò)模型框架中占有重要地位.
2.2.1 預(yù)上采樣模型框架
預(yù)上采樣模型框架中的上采樣層位于網(wǎng)絡(luò)前端的圖像預(yù)處理環(huán)節(jié),如圖1(a)所示.該框架通常使用傳統(tǒng)的基于插值的上采樣方法,如線性插值、雙三次插值等,最常用的是雙三次插值的上采樣方法.
早期的SRCNN[69,70],VDSR[55],DRCN[71]等網(wǎng)絡(luò)模型都是使用預(yù)上采樣模型框架,先將LR圖像上采樣為所需尺寸的HR圖像,再將其輸入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行SR,以恢復(fù)HR圖像的更多細(xì)節(jié).預(yù)上采樣模型框架的結(jié)構(gòu)簡單,能進(jìn)行任意尺度因子圖像的SR.但它先對LR圖像進(jìn)行上采樣后再輸入網(wǎng)絡(luò)進(jìn)行訓(xùn)練的操作,使網(wǎng)絡(luò)模型的計(jì)算在高維空間中進(jìn)行,顯著增加了計(jì)算復(fù)雜度,時間及空間成本也隨之增加,因此在近年網(wǎng)絡(luò)模型中的使用逐漸減少.
2.2.2 后上采樣模型框架
為了避免在高維空間中計(jì)算帶來的影響,提高網(wǎng)絡(luò)計(jì)算效率,后上采樣模型框架將上采樣層放置于網(wǎng)絡(luò)末端,如圖1(b)所示,直接將LR圖像輸入卷積神經(jīng)網(wǎng)絡(luò)中,在低維空間形成映射,最后在網(wǎng)絡(luò)末端進(jìn)行上采樣后輸出重建的HR圖像.
圖1 圖像超分辨率重建網(wǎng)絡(luò)模型基本框架
后上采樣模型框架在網(wǎng)絡(luò)末端的上采樣層通常使用的是基于學(xué)習(xí)的上采樣方法,如轉(zhuǎn)置卷積(又稱反卷積)、亞像素卷積等,以實(shí)現(xiàn)端到端的自動學(xué)習(xí).此外,元上采樣(meta-upscale)[72]等特殊的上采樣方法可用于任意尺度因子(1~4倍,步長為0.1)的SR.在后上采樣模型框架的影響下,F(xiàn)SRCNN[56],ESPCN[73],BTSRN[74]和RNAN[75]等網(wǎng)絡(luò)模型實(shí)現(xiàn)了網(wǎng)絡(luò)加速并取得了較好的網(wǎng)絡(luò)性能.
后上采樣模型框架在低維空間計(jì)算的方式,能夠在維持或提升網(wǎng)絡(luò)性能的同時,降低網(wǎng)絡(luò)計(jì)算量和空間復(fù)雜度,并提高網(wǎng)絡(luò)計(jì)算效率.但對大尺度因子的學(xué)習(xí)存在一定難度,且無法滿足單一模型的多尺度因子圖像SR的需求,對不同尺度因子的圖像需要訓(xùn)練不同的網(wǎng)絡(luò)模型.
2.2.3 漸進(jìn)式上采樣模型框架
漸進(jìn)式上采樣模型框架如圖1(c)所示,是以級聯(lián)的方式連接卷積神經(jīng)網(wǎng)絡(luò),并通過多個上采樣層逐步重建得到最終的HR圖像.LapSRN[76]是典型的采用漸進(jìn)式上采樣模型框架的網(wǎng)絡(luò)模型,它將網(wǎng)絡(luò)結(jié)構(gòu)分成三級,每級進(jìn)行兩倍的上采樣操作,通過逐級上采樣實(shí)現(xiàn)兩倍、四倍及八倍的超分辨率重建結(jié)果.MSLapSRN[77],LP-KPN[42]和E-ProSRNet[78]等網(wǎng)絡(luò)模型也采用這種框架,實(shí)現(xiàn)了單一模型的多尺度因子圖像SR.
漸進(jìn)上采樣模型框架采用逐步上采樣的方式將困難的大尺度因子SR任務(wù)分解為多個簡單的小尺度因子SR任務(wù),極大地降低了學(xué)習(xí)難度,且在不引入過多時間和空間成本的情況下,能夠滿足單一模型的多尺度因子SR的需求.但存在模型結(jié)構(gòu)設(shè)計(jì)復(fù)雜、訓(xùn)練穩(wěn)定性差等問題.
2.2.4 迭代式上下采樣模型框架
迭代式上下采樣模型框架如圖1(d)所示,該框架在網(wǎng)絡(luò)中交替使用上、下采樣層,再通過迭代反向投影不斷改進(jìn)重建圖像細(xì)節(jié),從而得到最終的重建圖像.
DBPN[79](Deep Back-Projection Networks)網(wǎng)絡(luò)模型是首個采用該框架的方法,它利用迭代的上下采樣層的誤差反饋機(jī)制來指導(dǎo)網(wǎng)絡(luò)重建,獲得最終的HR圖像.相較于單向前饋神經(jīng)網(wǎng)絡(luò)直接學(xué)習(xí)輸入圖像到目標(biāo)空間非線性映射的方法,DBPN網(wǎng)絡(luò)模型將學(xué)習(xí)過程分成多個階段,并為每個階段的投影誤差提供誤差反饋機(jī)制,使模型具有自校正的過程用于修正重建細(xì)節(jié),從而獲得更好的重建結(jié)果.同時DBPN順應(yīng)深度學(xué)習(xí)發(fā)展趨勢,將其擴(kuò)展為多個變體以提升網(wǎng)絡(luò)性能[80].此外,DSRN[81],SRFBN[82]等網(wǎng)絡(luò)模型也在網(wǎng)絡(luò)中交替使用上、下采樣層,并通過不同的反饋機(jī)制改善HR圖像細(xì)節(jié).
相比于其他模型框架,迭代式上下采樣模型框架能夠更好地挖掘LR-HR圖像對之間的深層關(guān)系,從而獲得更多圖像細(xì)節(jié),構(gòu)建更高質(zhì)量的重建圖像.但迭代式上下采樣模型框架的網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜、發(fā)展還不成熟,仍需進(jìn)一步探索.
對于完成訓(xùn)練的網(wǎng)絡(luò)模型,可通過不同的圖像質(zhì)量評價指標(biāo)評估重建圖像質(zhì)量,驗(yàn)證網(wǎng)絡(luò)模型有效性,測試網(wǎng)絡(luò)模型性能.根據(jù)評價主體不同,可以將SR的圖像質(zhì)量評價指標(biāo)分為主觀評價指標(biāo)和客觀評價指標(biāo).
2.3.1 主觀評價指標(biāo)
主觀評價指標(biāo)是由評價人員根據(jù)自己的主觀感受對圖像質(zhì)量進(jìn)行評價的一種方式.根據(jù)是否有真實(shí)HR圖像作為標(biāo)準(zhǔn)參考圖像,可以將其分為絕對主觀評價指標(biāo)和相對主觀評價指標(biāo).
絕對主觀評價指標(biāo),如平均意見排名(Mean Opinion Rank,MOR)[83],是在無標(biāo)準(zhǔn)參考圖像的情況下,評價人員根據(jù)自己的主觀視覺感受及設(shè)定好的評價尺度對幾種SR方法的重建圖像質(zhì)量進(jìn)行排名從而計(jì)算得出的.
相對主觀評價指標(biāo),如平均意見得分(Mean Opinion Score,MOS)[84],是在有標(biāo)準(zhǔn)參考圖像的情況下,評價人員將不同SR方法獲得的重建結(jié)果與標(biāo)準(zhǔn)的參考圖像進(jìn)行對比,并將圖像進(jìn)行組內(nèi)對比,最后根據(jù)評價尺度對這組圖像進(jìn)行評分.
表2所示是主觀評價指標(biāo)兩種方法的評價尺度.可以發(fā)現(xiàn),這兩種主觀評價指標(biāo)的評價尺度都是根據(jù)評價人員的主觀感受進(jìn)行衡量的,評價結(jié)果符合人類視覺感受,因此主觀評價指標(biāo)是最直接、最有效的評價方法.但主觀評價指標(biāo)易受評價人員的主觀感受及各種因素的影響,有較大的不確定性,可重復(fù)性、實(shí)時性也較差,且評價過程需要耗費(fèi)大量的時間、人力、物力、財(cái)力等,在實(shí)際使用過程中存在一定困難,因此難以被廣泛應(yīng)用.
表2 主觀評價指標(biāo)的評價尺度
2.3.2 客觀評價指標(biāo)
客觀評價指標(biāo)是指通過不同的數(shù)學(xué)模型和算法來評估圖像質(zhì)量的方法[85,86],具有簡單、高效、可重復(fù)性強(qiáng)等優(yōu)點(diǎn),因此SR中通常使用客觀評價指標(biāo)對重建圖像進(jìn)行質(zhì)量評價.客觀評價指標(biāo)根據(jù)是否需要真實(shí)的HR圖像作為參考圖像,可以大致分為全參考型和無參考型兩種.
全參考型的客觀評價指標(biāo)是將重建的HR圖像與真實(shí)HR圖像進(jìn)行比較計(jì)算得出的,一般用于監(jiān)督式SR的圖像評估.該評價指標(biāo)包括峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)、結(jié)構(gòu)相似度(Structural SIMilarity,SSIM)、信息保真度準(zhǔn)則(Information Fidelity Criterion,IFC)、學(xué)習(xí)感知圖像塊相似度(Learned Perceptual Image Patch Similarity,LPIPS)等,其中PSNR和SSIM是最常用的客觀評價指標(biāo).
無參考型的客觀評價指標(biāo)無可參考的真實(shí)HR圖像,因此常用于無監(jiān)督式SR的圖像評估.該評價指標(biāo)包括自然圖像質(zhì)量評價(Natural Image Quality Evaluator,NIQE)、基于感知的圖像質(zhì)量評價(Perception-based Image QUality Evaluator,PIQUE)、無參考質(zhì)量指標(biāo)(No-Reference Quality Metric,NRQM)、感知指數(shù)(Perception Index,PI)等.
(1)峰值信噪比
PSNR是指通過計(jì)算重建HR圖像與真實(shí)HR圖像對應(yīng)像素點(diǎn)之間的誤差,從而客觀地評估重建圖像失真程度的指標(biāo).PSNR值主要由均方誤差(Mean Square Error,MSE)決定,MSE表達(dá)式如式(7)所示:
其中,M和N分別表示圖像長、寬的像素?cái)?shù);IHR(i,j)和ISR(i,j)分別表示真實(shí)HR圖像與重建HR圖像在空間位置(i,j)處的像素值.
PSNR表達(dá)式如式(8)所示,單位為分貝(dB):
其中,MAX為IHR(i,j)圖像的最大像素值,對于8比特(bit)精度的圖像,MAX取值為255.
由式(7)和式(8)可以看出,最小化MSE損失函數(shù)(即L2損失函數(shù))相當(dāng)于最大化PSNR評價指標(biāo).PSNR值的取值范圍為[0,+∞),其值越大,則表示重建HR圖像與真實(shí)HR圖像之間的像素誤差越小,重建HR圖像相對于真實(shí)HR圖像的失真越少,重建圖像的質(zhì)量越好.PSNR通過逐像素計(jì)算的方法簡單、高效,是SR領(lǐng)域最常用的圖像質(zhì)量評價指標(biāo).但PSNR僅從數(shù)學(xué)角度計(jì)算圖像之間的差異,未從本質(zhì)上考慮人類視覺系統(tǒng)(Human Visual System,HVS)特性,故PSNR計(jì)算結(jié)果反映的圖像質(zhì)量情況與人類主觀視覺感受的圖像質(zhì)量情況存在一定差異,不能完全、準(zhǔn)確地反映重建圖像的感知質(zhì)量.
(2)結(jié)構(gòu)相似度
SSIM是由Wang等人[87]于2004年提出的,從亮度、對比度和結(jié)構(gòu)三個方面來衡量參考圖像與失真圖像之間結(jié)構(gòu)相似性的方法.SSIM主要由圖像間的亮度、對比度和結(jié)構(gòu)三部分信息組成,且三者之間是相對獨(dú)立的,即亮度和/或?qū)Ρ榷鹊男畔⒆兓粫绊憟D像的結(jié)構(gòu)信息.
SSIM的表達(dá)式如式(9)所示:
其中,α,β,γ為權(quán)重參數(shù),分別用于調(diào)整l(IHR,ISR),c(IHR,ISR),s(IHR,ISR)三個分量的相對重要性,且α>0,β>0,γ>0.l(IHR,ISR),c(IHR,ISR),s(IHR,ISR)分別表示亮度、對比度、結(jié)構(gòu)三個分量,它們的表達(dá)式分別如式(10)~(12)所示:
其中,μIHR,μISR分別表示IHR和ISR的均值;σIHR,σISR分別表示IHR和ISR的標(biāo)準(zhǔn)差;σIHRISR表示IHR和ISR的協(xié)方差;C1,C2和C3是為了避免計(jì)算中出現(xiàn)不穩(wěn)定而添加的小常數(shù).
特別地,當(dāng)α=β=γ=1,且C3=C2/2時,SSIM可以表示為式(13),該形式是SR圖像質(zhì)量評價時最常使用的形式:
SSIM值的取值區(qū)間為[0,1],其值越大,表明圖像質(zhì)量越好.由于考慮了HVS特性,SSIM的計(jì)算結(jié)果相比PSNR指標(biāo)能夠更有效地反映重建HR圖像的感知質(zhì)量,與人類感知結(jié)果具有較好的一致性,因此SSIM被廣泛用于SR圖像的質(zhì)量評價.在SR質(zhì)量評價中通常使用PSNR和SSIM共同衡量重建圖像質(zhì)量.
(3)信息保真度準(zhǔn)則
2005年,Sheikh等人[88]提出了一種基于自然場景統(tǒng)計(jì)信息對圖像質(zhì)量進(jìn)行評價的方法,即IFC評價指標(biāo),通過結(jié)合自然場景模型和失真模型的統(tǒng)計(jì)模型,量化參考圖像與測試圖像之間的相互信息,從而量化圖像感知質(zhì)量,并以此衡量重建圖像質(zhì)量的優(yōu)劣.
IFC的表達(dá)式如式(14)所示,該式量化了參考圖像和失真圖像之間共享的統(tǒng)計(jì)信息:
其中,CNk,k,DNk,k,sNk,k分別表示第k個子帶RFCk,Dk,sk的Nk系數(shù).
IFC是一個保真指標(biāo),而非失真指標(biāo),其值的取值范圍為[0,+∞),IFC值越大,圖像保真度越高,重建圖像質(zhì)量越好.IFC在信息提取過程中使用感知質(zhì)量建模,因此IFC計(jì)算結(jié)果與人類視覺感知結(jié)果具有較好的一致性.
(4)學(xué)習(xí)感知圖像塊相似度
2018年,Zhang等人[89]提出LPIPS感知評價指標(biāo),利用預(yù)訓(xùn)練的深度卷積神經(jīng)網(wǎng)絡(luò)提取參考圖像與失真圖像的特征,計(jì)算圖像在深度特征空間上的L2距離,并評估圖像間的感知相似度.
LPIPS的表達(dá)式如式(15)所示:
其中,l表示深度卷積神經(jīng)網(wǎng)絡(luò)的第l層分別表示IHR和ISR從第l層中提取特征,并在通道維度上進(jìn)行單元?dú)w一化的結(jié)果,且是用于縮放激活通道的向量,wl∈RCl,當(dāng)wl=1?l時,相當(dāng)于計(jì)算余弦距離.
LPIPS是根據(jù)人類感知進(jìn)行訓(xùn)練的,因此LPIPS值可以較好地反映人們對圖像的主觀感受,LPIPS值越小,圖像的感知質(zhì)量越好.
(5)自然圖像質(zhì)量評價
Mittal等人[90]于2013年提出了基于空域特征的完全無參考型的評價指標(biāo)NIQE,通過從失真圖像提取的自然場景統(tǒng)計(jì)特征和從自然圖像提取的感知質(zhì)量特征的多元高斯模型(MultiVariate Gaussian model,MVG)擬合參數(shù)之間的距離來評估失真圖像的質(zhì)量.
NIQE表達(dá)式如式(16)所示:
其中,ν1和Σ1分別表示自然圖像MVG模型的均值向量和協(xié)方差矩陣,ν2和Σ2分別表示失真圖像MVG模型的均值向量和協(xié)方差矩陣.NIQE的值越小,表示圖像的質(zhì)量越好.
(6)基于感知的圖像質(zhì)量評價
Venkatanath等人[91]于2015年提出了一種無參考感知的圖像質(zhì)量評價指標(biāo)PIQUE,基于測試圖像的局部塊級別特征,估計(jì)給定測試圖像中存在的失真量.PIQUE考慮了人類視覺注意力等人類感知圖像質(zhì)量原則,通過對輸入圖像進(jìn)行預(yù)處理,提取自然場景統(tǒng)計(jì)特征,再對圖像進(jìn)行塊級別分析以識別不同失真塊的類型,并分配不同分?jǐn)?shù),最后合并塊級別分?jǐn)?shù)以確定整體圖像質(zhì)量.
PIQUE表達(dá)式如式(17)所示:
其中,NSA表示給定圖像中空間活動塊的數(shù)量,C1是防止數(shù)值不穩(wěn)定添加的一個正常數(shù),Dsk是失真塊所分配的失真量.
PIQUE值的取值范圍為[0,1],其值越小,圖像質(zhì)量越好.當(dāng)PIQUE值接近于0(0~0.3)時,表示圖像質(zhì)量良好;當(dāng)PIQUE值接近于1(0.5~1.0)時,表示圖像質(zhì)量較差;若PIQUE值介于0.3到0.5之間,則可將其視為平均質(zhì)量圖像.PIQUE的計(jì)算考慮了HVS特性,因此該評價指標(biāo)的評價結(jié)果接近人類感知質(zhì)量的評價結(jié)果.
(7)無參考質(zhì)量指標(biāo)
Ma等人[92]于2017年提出了一種無參考型評價指標(biāo)NRQM,在一些文獻(xiàn)中也將其簡寫為Ma.NRQM以重建的HR圖像作為輸入,將頻率域和空間域中計(jì)算的統(tǒng)計(jì)量作為輸入圖像的特征,在單獨(dú)的集成回歸樹中訓(xùn)練特征,并利用線性回歸模型對大量的視覺感知分?jǐn)?shù)進(jìn)行學(xué)習(xí),得到圖像質(zhì)量分?jǐn)?shù)以評估輸入圖像的質(zhì)量.
NRQM的表達(dá)式如式(18)所示:
其中,?表示最終的質(zhì)量分?jǐn)?shù),由3種類型特征的預(yù)測質(zhì)量分?jǐn)?shù)組成;λn表示不同類型特征的權(quán)重;表示不同類型特征的預(yù)測質(zhì)量分?jǐn)?shù),通過對T個回歸樹的輸出進(jìn)行平均得到,(xn表示不同類型的低級特征,n=1,2,3;pt表示森林中第t棵決策樹的概率,t=1,2,…,T).NRQM值越大,表明重建圖像的質(zhì)量越好.
(8)感知指數(shù)
PI是Blau等人[68]結(jié)合NIQE和Ma兩個無參考客觀評價指標(biāo)提出的感知指標(biāo),該指標(biāo)聯(lián)合量化了準(zhǔn)確性與感知質(zhì)量,與主觀評價指標(biāo)具有高度的相關(guān)性.
PI的表達(dá)式如式(19)所示:
PI值越小,表明重建圖像的感知質(zhì)量越好.
目前大多數(shù)單幀圖像超分辨率重建技術(shù)都是基于深度學(xué)習(xí)的方法進(jìn)行研究的,并取得了較為豐富的研究成果.從早期基于卷積神經(jīng)網(wǎng)絡(luò)的超分辨率重建方法,如SRCNN[69]等,到很有前景的基于生成對抗網(wǎng)絡(luò)的超分辨率重建方法,如SRGAN[93]等,再到近來大火于低級(low level)視覺任務(wù)界的基于Transformer的超分辨率重建方法,如IPT[94]等,基于深度學(xué)習(xí)的方法在圖像重建效果上實(shí)現(xiàn)了很大的提升.圖2給出了部分代表性SR算法的發(fā)展歷程.按照學(xué)習(xí)模式的不同,可以將基于深度學(xué)習(xí)的SISR方法劃分為監(jiān)督式SISR(圖中黑色)和無監(jiān)督式SISR(圖中藍(lán)色);根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)及圖像重建效果的不同,將監(jiān)督式SISR進(jìn)一步劃分為基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的方法(圖中軸線上方不加粗)、基于生成對抗網(wǎng)絡(luò)(GAN)的方法(圖中軸線下方)和基于Transformer的方法(圖中軸線上方加粗).本節(jié)首先從監(jiān)督式SISR角度出發(fā),對代表性的算法進(jìn)行評述.
圖2 基于深度學(xué)習(xí)的SISR部分網(wǎng)絡(luò)模型的發(fā)展時間軸線
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種通過傳統(tǒng)梯度下降法訓(xùn)練并學(xué)習(xí)圖像特征的前饋神經(jīng)網(wǎng)絡(luò),局部連接、權(quán)值共享等特性使其相較于其他神經(jīng)網(wǎng)絡(luò)能夠更好地學(xué)習(xí)與表達(dá)圖像特征,因此被廣泛應(yīng)用于圖像處理領(lǐng)域[95,96].基于卷積神經(jīng)網(wǎng)絡(luò)的單幀圖像超分辨率重建方法主要采用卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),以PSNR最大化為目標(biāo),旨在使網(wǎng)絡(luò)獲得更真實(shí)的細(xì)節(jié)、更好的保真度,即PSNR,SSIM等客觀指標(biāo)的提升.雖然基于CNN的方法在評價指標(biāo)方面表現(xiàn)較好,但其重建圖像往往過于平滑,無法帶來很好的感知效果.
現(xiàn)有SISR網(wǎng)絡(luò)模型是在不同模型框架的基礎(chǔ)上應(yīng)用不同的網(wǎng)絡(luò)設(shè)計(jì)策略及學(xué)習(xí)策略構(gòu)建的.根據(jù)網(wǎng)絡(luò)模型中設(shè)計(jì)策略的不同,可以進(jìn)一步將近年來較為經(jīng)典以及新提出的網(wǎng)絡(luò)模型分為以下幾類:基于淺層卷積神經(jīng)網(wǎng)絡(luò)(Shallow Convolutional Neural Network,SCNN)的方法、基于殘差網(wǎng)絡(luò)(Residual Network,ResNet)的方法、基于遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的方法、基于密集卷積網(wǎng)絡(luò)(Dense convolutional Network,DenseNet)的方法、基于注意力機(jī)制(Attentional Mechanism,AM)的方法和基于輕量化網(wǎng)絡(luò)(Lightweight Network,LN)的方法.
3.1.1 基于淺層卷積神經(jīng)網(wǎng)絡(luò)的方法
2014年,Dong等人[69]首次將深度學(xué)習(xí)應(yīng)用于圖像SR領(lǐng)域,提出了第一個基于卷積神經(jīng)網(wǎng)絡(luò)的SISR網(wǎng)絡(luò)模型SRCNN(Super-Resolution CNN).受基于稀疏編碼的圖像SR方法的啟發(fā)對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行設(shè)計(jì),得到由圖像塊特征的提取與表示層、特征的非線性映射層及重建層等簡單的三層卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成的SRCNN網(wǎng)絡(luò)(圖3),實(shí)現(xiàn)LR圖像到HR圖像之間的端到端映射.雖然SRCNN相較于傳統(tǒng)的SR方法在速度和重建質(zhì)量上都有所提升,但預(yù)上采樣的模型框架給它帶來了計(jì)算復(fù)雜、訓(xùn)練收斂速度慢等問題,同時SRCNN還存在結(jié)構(gòu)簡單、難以充分利用圖像上下文信息等不足之處.
圖3 SRCNN網(wǎng)絡(luò)結(jié)構(gòu)
針對SRCNN計(jì)算成本高、難以實(shí)時應(yīng)用的問題,Dong等人[56]又于2016年對其進(jìn)行改進(jìn)及加速,提出了FSRCNN(Fast SRCNN)網(wǎng)絡(luò)模型.FSRCNN由特征提取層、收縮層、非線性映射層、擴(kuò)張層以及反卷積層構(gòu)成,它的主要改進(jìn)是將SRCNN中的預(yù)上采樣模型框架替換為后上采樣模型框架,通過網(wǎng)絡(luò)末端的反卷積層(圖4)實(shí)現(xiàn)上采樣,以解決計(jì)算復(fù)雜度高等問題.另外,還通過改變特征維數(shù)、共享映射層參數(shù)等操作,提高網(wǎng)絡(luò)計(jì)算效率,提升重建圖像質(zhì)量.
圖4 反卷積層卷積過程
為降低計(jì)算復(fù)雜度、提升網(wǎng)絡(luò)計(jì)算效率,Shi等人[73]也于2016年提出了另一種快速、高效的SR網(wǎng)絡(luò)模型ESPCN(Efficient Sub-Pixel CNN),與FSRCNN一樣采用后上采樣模型框架,但ESPCN使用的是亞像素卷積層(圖5)對圖像進(jìn)行上采樣.ESPCN網(wǎng)絡(luò)由包含兩個卷積層的隱藏層和一個亞像素卷積層構(gòu)成.它先從隱藏層中提取LR輸入圖像的特征,再從亞像素卷積層中獲取重建的HR圖像,從而實(shí)現(xiàn)快速高效的端到端學(xué)習(xí),得到比FSRCNN網(wǎng)絡(luò)模型更好的重建效果.
圖5 亞像素卷積層卷積過程
盡管早期SRCNN,F(xiàn)SRCNN,ESPCN等淺層卷積神經(jīng)網(wǎng)絡(luò)模型的網(wǎng)絡(luò)層數(shù)不超過5層,網(wǎng)絡(luò)結(jié)構(gòu)相對簡單,沒有使用過多的網(wǎng)絡(luò)設(shè)計(jì)策略,但其重建效果相較于傳統(tǒng)的圖像SR方法得到了一定提升,對基于深度學(xué)習(xí)的圖像SR的發(fā)展具有開創(chuàng)性作用.
3.1.2 基于殘差網(wǎng)絡(luò)的方法
為了提取更多圖像特征,提升網(wǎng)絡(luò)模型性能,最直接的方式是通過增加網(wǎng)絡(luò)的深度或?qū)挾葋碓龆嗑W(wǎng)絡(luò)參數(shù)量.然而單純地加深、加寬網(wǎng)絡(luò),隨之出現(xiàn)的是梯度消失、梯度爆炸和網(wǎng)絡(luò)退化等問題.對于梯度問題,通常使用批歸一化或正則化等操作就能夠很大程度地解決,但退化問題卻仍然存在.對此,He等人[97]提出了殘差網(wǎng)絡(luò)用于解決深層網(wǎng)絡(luò)帶來的梯度和退化問題,其結(jié)構(gòu)如圖6所示,即在普通網(wǎng)絡(luò)(plain network)中加入快捷連接(shortcut connections)/跳躍連接(skip connections)操作,使普通網(wǎng)絡(luò)經(jīng)過殘差學(xué)習(xí)成為對應(yīng)的殘差網(wǎng)絡(luò).
圖6 殘差網(wǎng)絡(luò)應(yīng)用于SR
ResNet具有全局殘差學(xué)習(xí)和局部殘差學(xué)習(xí)兩種殘差學(xué)習(xí)方式,主要區(qū)別在于全局殘差學(xué)習(xí)是對網(wǎng)絡(luò)模型的輸入和輸出之間進(jìn)行快捷連接,局部殘差學(xué)習(xí)則是對網(wǎng)絡(luò)模型內(nèi)部不同深度的層之間進(jìn)行快捷連接.ResNet不僅能夠有效提取圖像細(xì)節(jié)信息,還能解決過深的網(wǎng)絡(luò)層帶來的梯度及退化問題,同時大量減少參數(shù)量和訓(xùn)練時間,因此在深層網(wǎng)絡(luò)中被廣泛應(yīng)用.
受ImageNet分類比賽中深度卷積神經(jīng)網(wǎng)絡(luò)VGGnet的啟發(fā),Kim等人[55]首次將ResNet(圖7(a))應(yīng)用于圖像SR中,于2016年提出了具有20個權(quán)重層的深度SISR網(wǎng)絡(luò)模型VDSR(Very Deep CNN for SR).考慮到低、高分辨率圖像之間的低頻信息在很大程度上是相似的,他們利用殘差學(xué)習(xí)的思想,在VDSR中學(xué)習(xí)低、高分辨率圖像之間高頻信息的殘差,從而減少訓(xùn)練時間,提高訓(xùn)練速度.另外,他們還將ResNet與提高學(xué)習(xí)率、自適應(yīng)梯度裁剪等策略相結(jié)合,使VDSR深度網(wǎng)絡(luò)模型的訓(xùn)練過程更加穩(wěn)定.此后,ResNet被廣泛應(yīng)用于圖像SR網(wǎng)絡(luò)模型中.
同年,Mao等人[98]提出了深度全卷積編解碼網(wǎng)絡(luò)RED-Net(Residual Encoder-Decoder Network),不僅可以進(jìn)行圖像SR,還能夠解決圖像去噪等其他圖像恢復(fù)任務(wù).受高速公路網(wǎng)絡(luò)(highway network)和深度ResNet的啟發(fā),RED-Net模型在對稱的卷積層和反卷積層之間添加了跳躍連接,以解決深層網(wǎng)絡(luò)帶來的各種問題.卷積層用于提取輸入圖像特征,反卷積層則利用跳躍連接直接與卷積層所提取的特征結(jié)合,從而更好地恢復(fù)出圖像細(xì)節(jié)信息,也使得訓(xùn)練深層網(wǎng)絡(luò)變得更加容易.
2017年,Lim等人[99]在SRResNet[93]結(jié)構(gòu)(圖7(b))的基礎(chǔ)上進(jìn)行優(yōu)化,利用ResNet的思想構(gòu)建增強(qiáng)型深度SR網(wǎng)絡(luò)模型EDSR(Enhanced Deep SR),創(chuàng)新性地去除了SRResNet結(jié)構(gòu)中的批歸一化(Batch Normalization,BN)層(圖7(c)).BN層在SR中對圖像特征進(jìn)行歸一化的操作,會破壞圖像信息,影響圖像質(zhì)量,因此去除BN層不僅可以改善圖像質(zhì)量,還能夠在訓(xùn)練期間節(jié)省約40%的內(nèi)存,實(shí)現(xiàn)同等計(jì)算資源條件下更深層網(wǎng)絡(luò)的構(gòu)建.同時,Lim等人采取殘差縮放等方法解決深度網(wǎng)絡(luò)訓(xùn)練不穩(wěn)定的問題,從而實(shí)現(xiàn)深層網(wǎng)絡(luò)重建圖像質(zhì)量的顯著提升.為解決EDSR網(wǎng)絡(luò)模型只能處理特定單尺度因子SR的問題,Lim等人對EDSR進(jìn)行擴(kuò)展,又提出了多尺度深度超分辨率網(wǎng)絡(luò)模型MDSR(Multiscale Deep SR)用于單一模型的多尺度因子SR,而MDSR不僅能夠大量減少參數(shù)量與訓(xùn)練時間,還能實(shí)現(xiàn)與EDSR相當(dāng)?shù)木W(wǎng)絡(luò)性能.
2018年,Li等人[100]指出一些網(wǎng)絡(luò)模型性能的提高不是來自模型結(jié)構(gòu)的改變,而是使用了一些未知的訓(xùn)練技巧,同時,大多數(shù)網(wǎng)絡(luò)模型通過加深網(wǎng)絡(luò)層數(shù)提升網(wǎng)絡(luò)性能的方法難以充分利用LR圖像特征,且無法使用單一模型處理多尺度任務(wù).為此,Li等人在不使用任何訓(xùn)練技巧的情況下,提出了多尺度殘差網(wǎng)絡(luò)MSRN(Multi-Scale Residual Network)用于實(shí)現(xiàn)單一模型的多尺度SR任務(wù),旨在通過網(wǎng)絡(luò)結(jié)構(gòu)的改變來提升網(wǎng)絡(luò)性能.MSRN引入多尺度殘差塊(Multi-Scale Residual Block,MSRB)作為網(wǎng)絡(luò)的基本構(gòu)建模塊,如圖7(d)所示,MSRB將ResNet與不同尺度的卷積核結(jié)合,以獲取不同尺度的圖像特征,得到局部多尺度特征,最后將其與全局特征融合,充分利用LR圖像特征,得到最終的重建圖像.
圖7 不同網(wǎng)絡(luò)模型的殘差塊
2021年,Lan等人[101]指出大多數(shù)基于CNN的網(wǎng)絡(luò)模型沒有充分利用底層特征以致網(wǎng)絡(luò)性能相對較差,因此提出了兩個能夠有效提取圖像特征的網(wǎng)絡(luò)模型用于圖像SR.一個是包含多個局部共享組的級聯(lián)殘差網(wǎng)絡(luò)CRN(Cascading Residual Network),該網(wǎng)絡(luò)通過級聯(lián)機(jī)制促進(jìn)特征融合和梯度傳播,以更有效地提取圖像特征.另一個是具有雙全局路徑結(jié)構(gòu)的增強(qiáng)殘差網(wǎng)絡(luò)ERN(Enhanced Residual Network),該網(wǎng)絡(luò)通過雙全局路徑從原始輸入中捕獲長距離空間特征,以實(shí)現(xiàn)更強(qiáng)大的特征表達(dá).通過結(jié)構(gòu)的改進(jìn),CRN和ERN網(wǎng)絡(luò)模型能夠以更少的參數(shù)量實(shí)現(xiàn)與EDSR相當(dāng)甚至更好的網(wǎng)絡(luò)性能.
ResNet不僅能夠通過局部或全局殘差學(xué)習(xí)有效提取SR網(wǎng)絡(luò)模型中低分辨率輸入圖像的特征信息,還可以解決過深網(wǎng)絡(luò)帶來的各種訓(xùn)練及梯度問題,因此許多SR網(wǎng)絡(luò)模型都將殘差學(xué)習(xí)的思想應(yīng)用于網(wǎng)絡(luò)結(jié)構(gòu)中,以實(shí)現(xiàn)網(wǎng)絡(luò)性能的提升,后期的很多SR網(wǎng)絡(luò)模型也將殘差學(xué)習(xí)思想與其他網(wǎng)絡(luò)設(shè)計(jì)策略相結(jié)合,以獲取更好的超分辨率重建效果.
3.1.3 基于遞歸神經(jīng)網(wǎng)絡(luò)的方法
RNN結(jié)構(gòu)通常由輸入狀態(tài)x、輸出狀態(tài)y和循環(huán)狀態(tài)s組成,如圖8(a)所示,可以將其按照時間順序展開,以上一時刻(t-1)的輸出與當(dāng)前時刻(t)的輸入同時作為當(dāng)前網(wǎng)絡(luò)的輸入,從而得到當(dāng)前時刻(t)的輸出,再不斷迭代上述過程得到最終的輸出[102].由于RNN的網(wǎng)絡(luò)層主要用于記憶數(shù)據(jù),而不是分層次處理,且每次迭代后新的圖像信息都會被添加到每一層中,所以RNN在無限次的網(wǎng)絡(luò)更新迭代后可以獲得無限的記憶深度[103].RNN在SR中是以遞歸的方式多次應(yīng)用相同的模塊,如圖8(b)所示,其內(nèi)部的模塊具有參數(shù)共享的特性,使網(wǎng)絡(luò)模型能夠在不引入過多參數(shù)的情況下學(xué)習(xí)更高層次的特征,從而提升網(wǎng)絡(luò)性能.
圖8 遞歸神經(jīng)網(wǎng)絡(luò)
為了控制深度網(wǎng)絡(luò)中的參數(shù)量,避免增加網(wǎng)絡(luò)深度帶來的過擬合等問題,Kim等人[71]首次將RNN應(yīng)用于圖像SR中,并結(jié)合殘差學(xué)習(xí)的思想,于2016年提出了多達(dá)16個遞歸層的深度遞歸卷積網(wǎng)絡(luò)DRCN(Deeply-Recursive Convolutional Network),通過對部分卷積層采用遞歸學(xué)習(xí)的方式,實(shí)現(xiàn)在不引入過多參數(shù)的情況下提升網(wǎng)絡(luò)性能.DRCN由用于特征提取的嵌入網(wǎng)絡(luò)、用于特征非線性映射的推理網(wǎng)絡(luò)和重建網(wǎng)絡(luò)等三個子網(wǎng)絡(luò)構(gòu)成,是將全局殘差學(xué)習(xí)、單權(quán)重遞歸學(xué)習(xí)及多目標(biāo)優(yōu)化結(jié)合的SR方法.Tai等人[104]在DRCN的基礎(chǔ)上,進(jìn)一步結(jié)合ResNet和RNN,提出了多達(dá)52個卷積層的深度遞歸殘差網(wǎng)絡(luò)DRRN(Deep Recursive Residual Network),通過更深層次的網(wǎng)絡(luò)結(jié)構(gòu)提升網(wǎng)絡(luò)模型的性能,同時結(jié)合多路徑模式的局部、全局殘差學(xué)習(xí)以及多權(quán)重的遞歸學(xué)習(xí),控制參數(shù)量并穩(wěn)定網(wǎng)絡(luò).
Han等人[81]認(rèn)為許多深層SR網(wǎng)絡(luò)結(jié)構(gòu)可以表示為具有各種遞歸函數(shù)的單狀態(tài)遞歸神經(jīng)網(wǎng)絡(luò)的有限展開,并從RNN的角度理解深層結(jié)構(gòu),如圖9(a)~(c)所示.基于此,他們提出了雙狀態(tài)遞歸網(wǎng)絡(luò)DSRN(Dual-State Recurrent Network),其RNN結(jié)構(gòu)如圖9(d)所示.與使用相同空間分辨率的單狀態(tài)模型不同,DSRN能夠在不同的空間分辨率中運(yùn)行,在LR和HR空間采用兩個循環(huán)狀態(tài),通過網(wǎng)絡(luò)中的延遲反饋機(jī)制,在LR-HR之間交換循環(huán)信號,充分利用LR和HR空間的特征,得到最終的重建圖像.
圖9 不同網(wǎng)絡(luò)模型的RNN展開
2019年,Li等人[82]同樣利用反饋機(jī)制,提出了一種圖像超分辨率反饋網(wǎng)絡(luò)SRFBN(SR Feedback Network),將高階信息細(xì)化為低階表示,并逐步生成最終的HR圖像,實(shí)現(xiàn)較少參數(shù)量情況下的網(wǎng)絡(luò)性能提升.圖10所示是SRFBN網(wǎng)絡(luò)模型的反饋機(jī)制,反饋方式通過使用帶約束的RNN中的隱藏狀態(tài)來實(shí)現(xiàn).同時,SRFBN網(wǎng)絡(luò)模型還引入了課程學(xué)習(xí)(curriculum learning)策略,通過將逐步增加重建難度的目標(biāo)HR圖像依次送入網(wǎng)絡(luò)進(jìn)行連續(xù)迭代,使網(wǎng)絡(luò)能夠逐步學(xué)習(xí)復(fù)雜的退化模型,從而更好地適應(yīng)復(fù)雜的任務(wù).
圖10 SRFBN反饋機(jī)制
RNN參數(shù)共享的特性使其能夠在不引入過多參數(shù)的情況下學(xué)習(xí)更高層次的特征,但仍然無法避免深層網(wǎng)絡(luò)帶來的梯度和訓(xùn)練等問題,因此RNN通常會與ResNet、多監(jiān)督學(xué)習(xí)、課程學(xué)習(xí)等網(wǎng)絡(luò)設(shè)計(jì)及學(xué)習(xí)策略相結(jié)合,以緩解梯度及訓(xùn)練問題,實(shí)現(xiàn)網(wǎng)絡(luò)性能的提升.
3.1.4 基于密集卷積網(wǎng)絡(luò)的方法
2017年,Huang等人[105]提出DenseNet,并將其概括成一種簡單的連接模式,即為了確保網(wǎng)絡(luò)各層之間的最大信息流,直接連接具有相同特征圖大小的任意兩個層,并擴(kuò)展到所有層的連接.DenseNet在SR中應(yīng)用的結(jié)構(gòu)圖如圖11所示,對于網(wǎng)絡(luò)中的每一層,該層前面所有層的特征圖都作為該層的輸入,而該層的特征圖將成為后續(xù)所有層的輸入之一.
圖11 密集卷積網(wǎng)絡(luò)應(yīng)用于SR
與ResNet使用求和的方式將淺層特征傳遞到后續(xù)層再組合起來不同,DenseNet是通過連接的方式來組合它們.與傳統(tǒng)的連接方式也不同,DenseNet采用密集連接的方式進(jìn)行組合能夠充分利用層間信息.DenseNet通過加強(qiáng)層間特征傳播,鼓勵層間特征重用,使網(wǎng)絡(luò)模型中各層的特征被充分利用,從而大大減少參數(shù)量,改進(jìn)網(wǎng)絡(luò)的信息流動和梯度,有效緩解梯度消失的問題,使網(wǎng)絡(luò)更容易訓(xùn)練.
2017年,Tong等人[106]首次將DenseNet應(yīng)用于SR中,提出了SRDenseNet(Super-Resolution DenseNet)網(wǎng)絡(luò)模型,通過密集跳躍連接將低、高層特征有效融合,再利用反卷積層進(jìn)一步提升重建圖像的細(xì)節(jié)信息.同年,Tai等人[107]提出了深度持久記憶網(wǎng)絡(luò)Mem-Net(deep persistent Memory Network),使用DenseNet中的密集連接操作來加強(qiáng)特征傳播,彌補(bǔ)信息丟失,進(jìn)一步增強(qiáng)高頻信號.MemNet由特征提取網(wǎng)絡(luò)、多個堆疊的記憶塊以及重構(gòu)網(wǎng)絡(luò)組成,其中最主要的結(jié)構(gòu)是由用于模擬非線性函數(shù)的遞歸單元和用于自適應(yīng)學(xué)習(xí)不同記憶權(quán)重的門單元組成的記憶塊(圖12).它通過自適應(yīng)的學(xué)習(xí)過程來挖掘持久記憶,從而構(gòu)建深度網(wǎng)絡(luò)的長期依賴關(guān)系.
圖12 記憶塊結(jié)構(gòu)
單一的網(wǎng)絡(luò)設(shè)計(jì)策略通常難以獲取較大的網(wǎng)絡(luò)性能提升,因此多策略的有效結(jié)合對網(wǎng)絡(luò)性能的提升至關(guān)重要.2019年,Shamsolmoali等人[108]提出基于擴(kuò)張卷積神經(jīng)網(wǎng)絡(luò)的新模型,通過將DenseNet與擴(kuò)張卷積進(jìn)行適當(dāng)?shù)慕Y(jié)合,得到性能與效率有效權(quán)衡的網(wǎng)絡(luò)模型.次年,Pan等人[109]提出基于密集殘差網(wǎng)絡(luò)的網(wǎng)絡(luò)模型,利用基于高斯過程的神經(jīng)結(jié)構(gòu)搜索(GP-NAS)和異構(gòu)模型集成等策略在真實(shí)圖像SR中取得優(yōu)異性能,并得到高保真度的重建圖像.而Jiang等人[110]提出的分層密集殘差網(wǎng)絡(luò)HDRN(Hierarchical Dense Recursive Network)同樣在DenseNet的基礎(chǔ)上利用分層殘差塊和全局融合模塊實(shí)現(xiàn)整個網(wǎng)絡(luò)由粗到細(xì)的特征重建,從而得到準(zhǔn)確的重建效果.
DenseNet在SR網(wǎng)絡(luò)中通過密集連接的方式使網(wǎng)絡(luò)模型中各層的特征被充分利用,不僅大大降低了網(wǎng)絡(luò)參數(shù)量,而且有效緩解了梯度消失的現(xiàn)象,使得深度網(wǎng)絡(luò)易于訓(xùn)練.但單一的網(wǎng)絡(luò)設(shè)計(jì)策略往往難以實(shí)現(xiàn)較大的網(wǎng)絡(luò)性能提升,將DenseNet與不同網(wǎng)絡(luò)設(shè)計(jì)及學(xué)習(xí)策略進(jìn)行有效組合,才能使基于DenseNet的SISR網(wǎng)絡(luò)模型實(shí)現(xiàn)更好的重建效果.
3.1.5 基于注意力機(jī)制的方法
注意力機(jī)制是根據(jù)圖像特征的重要性程度分配不同的權(quán)重,使網(wǎng)絡(luò)以高權(quán)重聚焦重要信息,以低權(quán)重忽略無關(guān)信息,從而改善圖像細(xì)節(jié),提升圖像重建質(zhì)量的機(jī)制,具有較好的靈活性和魯棒性[111].目前主流的注意力機(jī)制包括通道注意力、空間注意力和自注意力.2018年,Hu等 人[112]提 出 的SENet(Squeeze-and-Excitation Network)將通道注意力機(jī)制引入深度神經(jīng)網(wǎng)絡(luò)中,通過引入“擠壓-激勵”塊(SE block)顯式建模通道之間的相互依賴,提高網(wǎng)絡(luò)的特征學(xué)習(xí)能力,其結(jié)構(gòu)如圖13所示.
圖13 通道注意力機(jī)制
前述基于CNN的網(wǎng)絡(luò)模型在通道中平等對待LR輸入圖像包含的豐富低頻信息,影響了網(wǎng)絡(luò)的表征能力,因此Zhang等人[113]于2018年首次將注意力機(jī)制應(yīng)用于SR中,提出殘差通道注意力網(wǎng)絡(luò)RCAN(Residual Channel Attention Network).RCAN中的通道注意力機(jī)制能夠根據(jù)通道之間的依賴關(guān)系自適應(yīng)地重新調(diào)整每個通道的特征,從而學(xué)習(xí)到更多有用的通道特征,提高網(wǎng)絡(luò)表征能力.此外,RCAN中還使用了殘差中的殘差(Residual In Residual,RIR)結(jié)構(gòu),通過長、短跳躍連接構(gòu)建深度可訓(xùn)練網(wǎng)絡(luò).
2019年,Dai等人[114]指出現(xiàn)有的基于CNN的網(wǎng)絡(luò)模型大多通過設(shè)計(jì)更寬或更深層次的網(wǎng)絡(luò)結(jié)構(gòu)來提升性能,忽視了對中間層特征相關(guān)性的探索,從而限制了網(wǎng)絡(luò)的表征能力.而RCAN中引入的經(jīng)典通道注意力機(jī)制通過全局平均池化利用特征的一階統(tǒng)計(jì)量,卻忽略了高于一階的統(tǒng)計(jì)量,從而阻礙了網(wǎng)絡(luò)的判別能力,且研究表明二階統(tǒng)計(jì)量較一階統(tǒng)計(jì)量更有助于特征判別性的表示.為此,Dai等人提出了二階注意網(wǎng)絡(luò)SAN(Second-order Attention Network)并引入二階通道注意力(Second-Order Channel Attention,SOCA)機(jī)制(圖14),通過協(xié)方差歸一化獲取特征的二階統(tǒng)計(jì)量來學(xué)習(xí)特征的相關(guān)性,使網(wǎng)絡(luò)關(guān)注更多特別的特征,提高判別學(xué)習(xí)能力,從而實(shí)現(xiàn)更強(qiáng)大的特征相關(guān)學(xué)習(xí)和特征表達(dá)能力.受SOCA機(jī)制的影響,SAN網(wǎng)絡(luò)模型在具有紋理等更高階信息的圖像上表現(xiàn)更佳.
圖14 二階通道注意力機(jī)制
2020年,Wei等人[43]沒有通過統(tǒng)一處理圖像中的所有像素/區(qū)域/組件或者側(cè)重處理邊緣或紋理來訓(xùn)練SR網(wǎng)絡(luò)模型,而是受Harris角點(diǎn)檢測的啟發(fā),根據(jù)圖像所傳達(dá)信息的重要性,將圖像分為平面、邊緣和角點(diǎn)三個低層次部分,并利用沙漏超分辨率網(wǎng)絡(luò)HGSR(Hour-Glass SR),分別構(gòu)建與平面、邊緣和角點(diǎn)相關(guān)的三個組件注意力塊來探索不同組件的重要性,從而提出組件分治CDC(Component Divide-and-Conquer)網(wǎng)絡(luò)模型,旨在以分而治之的方式解決真實(shí)世界的SR.另外,Wei等人還提出了一種梯度加權(quán)損失函數(shù),根據(jù)圖像重建難度適應(yīng)模型訓(xùn)練,以解決圖像中不同區(qū)域在各個方向梯度不同的問題.
相比于其他類型的基于CNN的網(wǎng)絡(luò)模型,基于注意力機(jī)制的網(wǎng)絡(luò)模型通常會區(qū)別對待圖像中的重要和不重要區(qū)域,并通過設(shè)置高權(quán)重加強(qiáng)對圖像重要區(qū)域的特征提取,從而獲取更有效的圖像信息.與基于RNN,DenseNet等網(wǎng)絡(luò)設(shè)計(jì)策略的網(wǎng)絡(luò)模型相同,基于注意力機(jī)制的網(wǎng)絡(luò)模型也需要與殘差學(xué)習(xí)、課程學(xué)習(xí)等其他網(wǎng)絡(luò)設(shè)計(jì)及學(xué)習(xí)策略相結(jié)合,才能取得更好的網(wǎng)絡(luò)性能提升.
3.1.6 基于輕量化網(wǎng)絡(luò)的方法
輕量化網(wǎng)絡(luò)指的是通過設(shè)計(jì)更加緊湊的網(wǎng)絡(luò)結(jié)構(gòu)或者在原始網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上使用一些輕量化策略來減少網(wǎng)絡(luò)參數(shù)量,提升網(wǎng)絡(luò)速度,并保持或提升原有網(wǎng)絡(luò)性能的一種高效網(wǎng)絡(luò).LN旨在將SR算法應(yīng)用于實(shí)際,實(shí)現(xiàn)真正意義上的輕量化及移動設(shè)備端的SR任務(wù)部署,是對性能與效率的一種權(quán)衡.目前,輕量化網(wǎng)絡(luò)中常用的輕量化策略有很多,如使用擴(kuò)張卷積(dilated convolution)、群卷積(group convolution)或者深度可分卷積(depthwise separable convolution)等先進(jìn)卷積來替代傳統(tǒng)的卷積操作,從而實(shí)現(xiàn)更高效的性能,同時還有網(wǎng)絡(luò)剪枝(network pruning)、知識蒸餾(knowledge distillation)、神經(jīng)架構(gòu)搜索(neural architecture search)和自適應(yīng)推理(adaptive inference)等輕量化策略可用于輕量化網(wǎng)絡(luò)的構(gòu)建.
為實(shí)現(xiàn)SR算法的實(shí)際應(yīng)用,2018年,Ahn等人[115]提出了一種精確、高效的深度級聯(lián)殘差網(wǎng)絡(luò)CARN(CAscading Residual Network)及其輕量化的移動變體CARN-M(CARN-Mobile).CARN網(wǎng)絡(luò)模型在ResNet的基礎(chǔ)上將殘差塊(圖15(a))替換為級聯(lián)塊(圖15(c)),并通過局部和全局殘差學(xué)習(xí)傳遞圖像信息,該網(wǎng)絡(luò)注重網(wǎng)絡(luò)性能的提升.CARN-M網(wǎng)絡(luò)模型則在CARN的基礎(chǔ)上結(jié)合有效的殘差塊(圖15(b))和將級聯(lián)塊進(jìn)行參數(shù)共享的遞歸塊(圖15(d))來優(yōu)化參數(shù)量及操作數(shù)量,以實(shí)現(xiàn)性能與速度的權(quán)衡并獲得高效的SR網(wǎng)絡(luò)模型,使其能夠應(yīng)用于移動設(shè)備.
圖15 CARN不同模塊結(jié)構(gòu)對比
同年,Hui等人[116]為減少網(wǎng)絡(luò)運(yùn)行時間,利用群卷積和信息蒸餾塊等輕量化策略提出了一種由特征提取塊、信息蒸餾塊和重建塊三部分組成的緊湊且深層的信息蒸餾網(wǎng)絡(luò)IDN(Information Distillation Network).由增強(qiáng)單元和壓縮單元組合而成的信息蒸餾塊(圖16)作為IDN網(wǎng)絡(luò)的重要結(jié)構(gòu),能夠逐步提取豐富而有效的圖像特征.其中,增強(qiáng)單元利用通道分離策略保留局部信息并處理后續(xù)信息,主要用于增強(qiáng)LR輸入圖像的輪廓區(qū)域,而壓縮單元則由1×1卷積層構(gòu)成,主要用于降維及提取相關(guān)圖像信息.IDN網(wǎng)絡(luò)模型在群卷積、知識蒸餾和每層過濾器數(shù)量設(shè)置相對較少等各種策略的影響下,網(wǎng)絡(luò)速度有了很大的提升.
圖16 IDN網(wǎng)絡(luò)模型的信息蒸餾塊
2019年,Hui等人[117]在IDN的基礎(chǔ)上對信息蒸餾塊加以改進(jìn),設(shè)計(jì)出信息多蒸餾塊(圖17)用于構(gòu)建輕量化的信息多蒸餾網(wǎng)絡(luò)IMDN(Information Multi-Distillation Network),并利用自適應(yīng)裁剪策略解決任意尺度因子的SR問題.信息多蒸餾塊由漸進(jìn)細(xì)化模塊(Progressive Refinement Module,PRM)、對比感知通道注意層以及能夠減少特征通道數(shù)量的1×1卷積構(gòu)成,用于逐步提取更加細(xì)膩、更具真實(shí)感的圖像特征.在各種策略的作用下,IMDN在客觀評價指標(biāo)和推理時間方面都表現(xiàn)良好,并取得了AIM 2019受限超分辨率重建挑戰(zhàn)賽的冠軍.次年,Liu等人[118]在IMDN基礎(chǔ)上加以改進(jìn),提出了與通道分離策略具有相同操作的特征蒸餾連接,用于構(gòu)建殘差特征蒸餾網(wǎng)絡(luò)RFDN(Residual Feature Distillation Network).RFDN在信息蒸餾網(wǎng)絡(luò)的作用下實(shí)現(xiàn)了更輕量化和更靈活的圖像SR,并獲得了AIM 2020高效超分辨率重建挑戰(zhàn)賽的冠軍.
圖17 IMDN網(wǎng)絡(luò)模型的信息多蒸餾塊
為減少網(wǎng)絡(luò)參數(shù)量和運(yùn)算量,Chu等人[119]引入一種融合微觀和宏觀搜索的、新型的彈性神經(jīng)架構(gòu)搜索(Neural Architecture Search,NAS)方法,微觀搜索空間用于提取特征單元塊,宏觀搜索空間則使用密集連接將特征單元塊連接起來,從而構(gòu)建能夠?qū)崿F(xiàn)快速、準(zhǔn)確和輕量化的三種FALSR(Fast,Accurate and Lightweight SR)網(wǎng)絡(luò)模型,其中FALSR-A在視覺效果方面表現(xiàn)最好,F(xiàn)ALSR-B具有最低的參數(shù)量,F(xiàn)ALSR-C的網(wǎng)絡(luò)性能則表現(xiàn)得比輕量化的CARN網(wǎng)絡(luò)模型更好.而Li等人[120]提出的線性組合像素自適應(yīng)回歸網(wǎng)絡(luò)模型LAPAR(Linearly-Assembled Pixel-Adaptive Regression)將直接學(xué)習(xí)LR圖像到HR圖像的映射問題轉(zhuǎn)化為基于多個預(yù)定義過濾器字典的線性回歸任務(wù),同時根據(jù)特征通道數(shù)量(C)和局部融合模塊數(shù)量(M)提出了LAPAR-A(C32-M4),LAPAR-B(C24-M3)和LAPAR-C(C16-M2)三種模型以評估網(wǎng)絡(luò)的可擴(kuò)展性.LAPAR三種網(wǎng)絡(luò)模型在兩倍尺度因子的情況下均表現(xiàn)出比FALSR三種網(wǎng)絡(luò)模型更高效的重建效果,且在保證運(yùn)行速度的同時,該模型在圖像去噪、JPEG去塊等其他低級視覺任務(wù)中也表現(xiàn)良好.
2021年,Wang等人[121]提出了稀疏掩碼超分辨率重建網(wǎng)絡(luò)模型SMSR(Sparse Mask SR),通過研究圖像的稀疏性減少網(wǎng)絡(luò)的冗余計(jì)算,提高網(wǎng)絡(luò)的推理效率.相較于獨(dú)立關(guān)注空間及通道維度冗余計(jì)算的自適應(yīng)推理和網(wǎng)絡(luò)剪枝方法,SMSR提供了一個統(tǒng)一的框架來考慮空間和通道維度的冗余計(jì)算,通過將空間掩碼與通道掩碼結(jié)合,使用空間掩碼學(xué)習(xí)識別圖像的重要區(qū)域,使用通道掩碼學(xué)習(xí)標(biāo)記圖像的不重要區(qū)域,因此精確地刪除網(wǎng)絡(luò)中冗余計(jì)算的部分,使網(wǎng)絡(luò)能夠有效地降低計(jì)算成本,以獲得更好的效率,同時保持相當(dāng)?shù)男阅?此外,SMSR在移動設(shè)備上的應(yīng)用也有顯著的加速.
輕量化網(wǎng)絡(luò)能夠在維持或提升網(wǎng)絡(luò)性能的同時,降低網(wǎng)絡(luò)參數(shù)量,提高網(wǎng)絡(luò)速度,實(shí)現(xiàn)更高效的SR網(wǎng)絡(luò),使SR算法能夠部署在現(xiàn)實(shí)應(yīng)用中.盡管出現(xiàn)了越來越多的輕量化網(wǎng)絡(luò)并取得了一定的成果,但大多數(shù)網(wǎng)絡(luò)主要關(guān)注參數(shù)量和浮點(diǎn)運(yùn)算次數(shù)(Floating Point Operations,F(xiàn)LOPs),然而FLOPs越少并不意味著網(wǎng)絡(luò)效率越好,相反,網(wǎng)絡(luò)激活的數(shù)量是網(wǎng)絡(luò)效率更準(zhǔn)確的衡量標(biāo)準(zhǔn)[122].因此,對于輕量化網(wǎng)絡(luò)效率的衡量不能只關(guān)注參數(shù)量和FLOPs,而應(yīng)該從各個角度進(jìn)行全面的分析[123],進(jìn)而實(shí)現(xiàn)高效的輕量化網(wǎng)絡(luò).
生成對抗網(wǎng)絡(luò)是Goodfellow等人[124]于2014年提出的一個通過對抗過程評估生成模型的新框架.如圖18所示,該框架包含兩個子模塊:一個是生成器(Generator,G),用于捕獲數(shù)據(jù)分布;另一個是判別器(Discriminator,D),用于判斷輸入數(shù)據(jù)的“真?zhèn)巍?估計(jì)輸入數(shù)據(jù)是來自訓(xùn)練數(shù)據(jù)而非來自G的概率,通過對抗博弈的方法訓(xùn)練兩個網(wǎng)絡(luò),不斷完善G和D,直至D“難辨真假”則完成訓(xùn)練.
圖18 生成對抗網(wǎng)絡(luò)
基于GAN的方法主要采用生成對抗網(wǎng)絡(luò)的結(jié)構(gòu),以感知驅(qū)動的方式訓(xùn)練網(wǎng)絡(luò),旨在使重建圖像獲得更好的感知質(zhì)量、更逼真的視覺效果,在視覺效果上更接近真實(shí)圖像,但該方法在客觀評價指標(biāo)方面表現(xiàn)不佳,對圖像細(xì)節(jié)的恢復(fù)存在誤差.
2017年,Ledig等人[93]首次將GAN應(yīng)用于圖像SR領(lǐng)域中,提出了SRGAN(Super-Resolution Generative Adversarial Network)網(wǎng)絡(luò)模型.SRGAN包含生成網(wǎng)絡(luò)和對抗網(wǎng)絡(luò),生成網(wǎng)絡(luò)將輸入的LR圖像進(jìn)行SR生成重建后的HR圖像,而判別網(wǎng)絡(luò)則判斷輸入的是重建的HR圖像還是原始的HR圖像.若判斷錯誤則兩者繼續(xù)相互迭代訓(xùn)練,直至判別網(wǎng)絡(luò)將輸入的重建HR圖像當(dāng)成是原始的HR圖像則完成訓(xùn)練.相較于之前基于CNN的網(wǎng)絡(luò)模型,SRGAN不僅使用GAN改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),同時也將感知損失應(yīng)用于SR中,采用感知損失與對抗損失組合的損失函數(shù),從而使重建圖像的細(xì)節(jié)更加豐富、圖像更具真實(shí)感,在感知質(zhì)量上得到了很好的提升.但GAN框架的“欺騙性”使它的PSNR和SSIM等客觀評價指標(biāo)相對較低.
為生成紋理逼真、圖像自然的SR圖像,Sajjadi等人[125]提出了一種結(jié)合感知損失的自動紋理合成的增強(qiáng)型網(wǎng)絡(luò)EnhanceNet.EnhanceNet同樣采用了GAN的結(jié)構(gòu),生成網(wǎng)絡(luò)部分是一個用于紋理合成的前饋全卷積神經(jīng)網(wǎng)絡(luò),通過GAN與感知損失的結(jié)合,能夠?qū)崿F(xiàn)高放大倍數(shù)的真實(shí)紋理,而判別網(wǎng)絡(luò)部分則遵循常見的設(shè)計(jì)模式.同時為證明不同損失函數(shù)對重建圖像質(zhì)量的影響,Sajjadi等人還對各種損失函數(shù)的重建結(jié)果進(jìn)行比較,驗(yàn)證了以MSE為損失函數(shù)的重建圖像雖然有最高的PSNR和SSIM等客觀評價指標(biāo),但其重建結(jié)果較為平滑,缺乏高頻細(xì)節(jié),而將感知損失、對抗損失以及紋理損失相結(jié)合的損失函數(shù)所生成的重建圖像雖然客觀評價指標(biāo)較低,但卻能產(chǎn)生具有真實(shí)紋理及逼真視覺效果的重建圖像.
受SRGAN的啟發(fā),Wang等人[126]于2018年提出了ESRGAN(Enhanced SRGAN)網(wǎng)絡(luò)模型,主要在網(wǎng)絡(luò)結(jié)構(gòu)、損失函數(shù)等方面對SRGAN進(jìn)行改進(jìn).在網(wǎng)絡(luò)結(jié)構(gòu)方面,生成網(wǎng)絡(luò)去除了殘差塊中的BN層,并引入了殘差中的殘差密集塊(Residual-in-Residual Dense Block,RDDB)結(jié)構(gòu),判別網(wǎng)絡(luò)則用相對判別器代替原有的標(biāo)準(zhǔn)判別器.在損失函數(shù)方面,對感知損失進(jìn)行改進(jìn),通過使用激活層前的特征,增強(qiáng)圖像的表征能力,并引入網(wǎng)絡(luò)插值[127]的方法使重建圖像從平滑的重建結(jié)果向感知質(zhì)量較好的重建結(jié)果轉(zhuǎn)移.得益于這些改進(jìn),ESRGAN網(wǎng)絡(luò)模型的網(wǎng)絡(luò)性能及重建圖像都得到了很好的提升.
ESRGAN通過對SRGAN的改進(jìn),實(shí)現(xiàn)了優(yōu)異的感知重建效果,故此后基于GAN的網(wǎng)絡(luò)模型大多都是在ESRGAN網(wǎng)絡(luò)模型上進(jìn)行改進(jìn)創(chuàng)新.如BSRGAN[47],RFB-ESRGAN[128](NTIRE 2020感知極端SR挑戰(zhàn)賽的冠軍模型)和Real-ESRGAN[48]等網(wǎng)絡(luò)模型的結(jié)構(gòu)都是基于ESRGAN結(jié)構(gòu)進(jìn)行改進(jìn),并取得了優(yōu)異的重建效果.
Zhang等人[129]指出許多與人類主觀評價高度相關(guān)的感知質(zhì)量評價指標(biāo)(無參考型客觀評價指標(biāo))通常是不可微的且無法作為損失函數(shù)優(yōu)化網(wǎng)絡(luò)模型,故提出由標(biāo)準(zhǔn)的SRGAN和Ranker組成的RankSRGAN網(wǎng)絡(luò)模型.其中Ranker是一個通用和可微的模型,可以通過學(xué)習(xí)排名的方法模擬任意感知指標(biāo)的行為,并作為損失函數(shù)優(yōu)化網(wǎng)絡(luò).RankSRGAN網(wǎng)絡(luò)模型在公共SR數(shù)據(jù)集上使用不同的SR方法生成SR圖像,再將成對的圖像對根據(jù)感知質(zhì)量得分進(jìn)行排名后構(gòu)建排名(rank)數(shù)據(jù)集用于網(wǎng)絡(luò)模型的訓(xùn)練.因此RankSRGAN網(wǎng)絡(luò)模型能夠結(jié)合不同SR方法的優(yōu)點(diǎn),在感知質(zhì)量方面產(chǎn)生更好的結(jié)果,并恢復(fù)出比SRGAN和ESRGAN網(wǎng)絡(luò)模型更真實(shí)的紋理.
基于GAN的方法利用GAN結(jié)構(gòu)的對抗性使網(wǎng)絡(luò)重建效果更具真實(shí)感,對不關(guān)注細(xì)節(jié)的整體圖像具有較好的應(yīng)用效果,但該方法存在大量的網(wǎng)絡(luò)參數(shù),使得網(wǎng)絡(luò)訓(xùn)練不穩(wěn)定,推理速度也因此延緩.對于基于GAN的方法要注重圖像細(xì)節(jié)的重建,同時采用合適的策略構(gòu)造輕量化網(wǎng)絡(luò)并使其訓(xùn)練穩(wěn)定.
Transformer是由Google的Vaswani等人[130]于2017年提出的一種用于自然語言處理(Natural Language Processing,NLP)的網(wǎng)絡(luò)架構(gòu),其模型架構(gòu)如圖19所示.它摒棄了RNN和CNN,是一個完全基于自注意力機(jī)制來獲取輸入和輸出之間全局依賴關(guān)系的轉(zhuǎn)換模型.相較于CNN通過堆疊卷積層擴(kuò)大感受野以獲取全文信息,RNN通過遞推捕捉全局聯(lián)系,卻難以捕捉長距離依賴,而自注意力機(jī)制能夠更好地捕捉全局聯(lián)系,解決了長距離依賴的問題,同時能夠支持并行化計(jì)算,加快訓(xùn)練速度,提升網(wǎng)絡(luò)效率.
圖19 Transformer模型架構(gòu)
Transformer最初是為了NLP任務(wù)中的序列建模而設(shè)計(jì)的,而后隨著ViT(Vision Transformer)[131],DETR(Detection Transformer)[132],ViViT(Video Vision Transformer)[133]等網(wǎng)絡(luò)模型的相繼提出,Transformer逐漸被應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域,并取得比CNN、非極大抑制和3D卷積等更好的效果[134].
基于Transformer的方法主要采用Transformer的結(jié)構(gòu),將自注意力機(jī)制引入網(wǎng)絡(luò)中.由于Transformer強(qiáng)大的圖像表征能力和各式各樣的結(jié)構(gòu),此類網(wǎng)絡(luò)能夠得到較CNN更好的重建結(jié)果和評價指標(biāo).當(dāng)前基于Transformer的SR方法主要有兩種類型:一種是完全使用Transformer結(jié)構(gòu)作為網(wǎng)絡(luò)架構(gòu)的純Transformer網(wǎng)絡(luò)模型;另一種是將Transformer作為主干網(wǎng)絡(luò)與CNN相結(jié)合的混合Transformer網(wǎng)絡(luò)模型.
2021年,Chen等人[94]將Transformer架構(gòu)應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域,聯(lián)合提出了一種用于處理SR、去噪和去雨等多種低級計(jì)算機(jī)視覺任務(wù)的預(yù)訓(xùn)練網(wǎng)絡(luò)模型IPT(Image Processing Transformer).該網(wǎng)絡(luò)屬于純Transformer模型,以端到端的方式進(jìn)行學(xué)習(xí),網(wǎng)絡(luò)結(jié)構(gòu)主要由用于從輸入退化圖像提取特征的頭(heads)、用于從輸入數(shù)據(jù)中重建丟失信息的編-解碼器(encoderdecoder)Transformer和用于輸出重建圖像的尾(tails)三部分構(gòu)成,其中編-解碼器Transformer與原始Transformer[130]中的結(jié)構(gòu)相似,不同之處在于該網(wǎng)絡(luò)利用了特定任務(wù)的嵌入作為解碼器的附加輸入.為了最大限度地挖掘Transformer的潛力,作者采用包含1 000個類別的ImageNet數(shù)據(jù)集構(gòu)造了大量的退化圖像數(shù)據(jù)對,并利用這些數(shù)據(jù)對對IPT模型進(jìn)行訓(xùn)練.同時,為了使IPT模型更好地適應(yīng)不同的圖像處理任務(wù)并將其應(yīng)用到未知任務(wù)上,作者還引入了對比學(xué)習(xí)(contrastive learning)來學(xué)習(xí)通用的特征.最后,經(jīng)過微調(diào)后的預(yù)訓(xùn)練IPT模型可以有效地用于所需的任務(wù),且在不同任務(wù)上的表現(xiàn)超過了大多數(shù)現(xiàn)有的方法.
2021年,Liang等人[135]基于Swin Transformer[136]的結(jié)構(gòu),提出了一種用于圖像恢復(fù)的網(wǎng)絡(luò)模型SwinIR(Image Restoration Using Swin Transformer).該網(wǎng)絡(luò)屬于混合Transformer模型,網(wǎng)絡(luò)結(jié)構(gòu)主要由淺層特征提取、深層特征提取和圖像重建三個模塊組成.淺層特征提取模塊采用卷積層提取淺層特征,并利用殘差連接將淺層特征直接傳遞給重建模塊,以保留圖像的低頻信息;深層特征提取模塊主要由多個RSTB(Residual Swin Transformer Block)和一個用于特征增強(qiáng)的卷積層組成,每個RSTB中利用STL(Swin Transformer Layer)進(jìn)行局部注意和跨窗口交互;而圖像重建模塊則通過融合淺層和深層特征,實(shí)現(xiàn)高質(zhì)量圖像的重建.SwinIR網(wǎng)絡(luò)模型整合了CNN和Transformer的優(yōu)勢,既能夠利用CNN處理大尺度因子的圖像SR問題,也能夠利用Transformer解決長距離依賴的問題,從而在圖像SR、圖像去噪和JPEG壓縮偽影減少等低級計(jì)算機(jī)視覺任務(wù)上表現(xiàn)出良好的性能.
同年,Lu等人[137]指出Vision Transformer計(jì)算成本高、GPU內(nèi)存占用大等問題導(dǎo)致網(wǎng)絡(luò)無法設(shè)計(jì)得過深,為此,提出了一種新的高效網(wǎng)絡(luò)ESRT(Efficient SR Transformer),以研究在輕量級SR任務(wù)中使用Transformer的可行性.ESRT是一個混合Transformer的網(wǎng)絡(luò)模型,網(wǎng)絡(luò)結(jié)構(gòu)主要由淺層特征提取、輕量級CNN骨干(Lightweight CNN Backbone,LCB)、輕量級Transformer骨干(Lightweight Transformer Backbone,LTB)和圖像重建四個部分組成.其中,LCB通過動態(tài)調(diào)整映射圖的大小,能夠以較低的計(jì)算成本提取深層圖像特征,可用于解決Transformer在小數(shù)據(jù)集上特征提取能力差的問題.而由一系列高效Transformer(Efficient Transformer,ET)組成的LTB,主要用于獲取圖像中相似塊的長期依賴關(guān)系,同時利用ET解決其他Vision Transformer參數(shù)大和GPU內(nèi)存消耗大的問題.通過這些改進(jìn),ESRT能夠有效地增強(qiáng)圖像中相似塊的特征表達(dá)能力和長期依賴性,從而獲得更好的性能,驗(yàn)證了Transformer在輕量級SR任務(wù)中的可行性.
無論是純Transformer網(wǎng)絡(luò)模型還是混合Transformer網(wǎng)絡(luò)模型,目前基于Transformer的方法均表現(xiàn)出比基于CNN的方法更好的網(wǎng)絡(luò)性能,但基于Transformer的方法目前仍處于發(fā)展階段,因此主要注重網(wǎng)絡(luò)模型重建質(zhì)量的提升,對于實(shí)際的應(yīng)用考慮較少,后續(xù)可結(jié)合實(shí)際應(yīng)用考慮更具實(shí)用性的輕量化Transformer網(wǎng)絡(luò)模型.
無監(jiān)督式SISR旨在通過從未配對的LR-HR圖像中學(xué)習(xí)函數(shù)來解決SR問題,從而得到更能夠處理真實(shí)世界場景下SR問題的網(wǎng)絡(luò)模型.目前,大多數(shù)SR網(wǎng)絡(luò)模型都是采用有監(jiān)督學(xué)習(xí)的方法進(jìn)行網(wǎng)絡(luò)訓(xùn)練,但監(jiān)督式SR仍然存在一些難以解決的問題,如真實(shí)數(shù)據(jù)集構(gòu)造過程存在一定難度,合成數(shù)據(jù)集采用的退化過程具有一定的人工先驗(yàn),無法完全符合圖像真實(shí)退化過程等.而無監(jiān)督式SR可以對未配對的LR-HR圖像對進(jìn)行訓(xùn)練,相比于需要使用成對的LR-HR圖像對進(jìn)行網(wǎng)絡(luò)訓(xùn)練的監(jiān)督式SR,其在真實(shí)世界的圖像SR任務(wù)上更具優(yōu)勢,因此逐漸受到研究人員的關(guān)注,如AIM 2019和NTIRE 2020等真實(shí)世界圖像超分辨率重建挑戰(zhàn)賽就旨在以弱監(jiān)督或無監(jiān)督的學(xué)習(xí)方法來實(shí)現(xiàn)SR.本章主要將無監(jiān)督式SISR分為“零樣本(zeroshot)”圖像超分辨率重建和弱監(jiān)督式圖像超分辨率重建兩類進(jìn)行介紹.
2018年,Shocher等人[138]認(rèn)為現(xiàn)實(shí)圖像是具有模糊、噪聲、偽影和壓縮等性質(zhì)的非理想圖像,監(jiān)督式的SR方法無法很好地解決非理想圖像的SR問題,因此不適用于真實(shí)世界圖像的SR.為解決此問題,Shocher等人提出了第一個無監(jiān)督式的基于CNN的網(wǎng)絡(luò)模型ZSSR(Zero-Shot SR).ZSSR網(wǎng)絡(luò)不依賴模型的預(yù)訓(xùn)練,而是利用單個圖像內(nèi)部的信息,在測試時直接訓(xùn)練一個小型的特定圖像的CNN,僅從輸入的LR測試圖像中提取內(nèi)部信息,從而實(shí)現(xiàn)各種大小、尺度因子的非理想圖像的SR.圖20為監(jiān)督式SR與ZSSR的對比,相較于監(jiān)督式SR需要花費(fèi)較多時間對網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練從而得到圖像的先驗(yàn)知識,ZSSR能夠在測試時直接進(jìn)行網(wǎng)絡(luò)的訓(xùn)練與測試,同時在非理想的圖像上表現(xiàn)出比EDSR網(wǎng)絡(luò)模型更好的性能.但ZSSR存在測試時間較長以及對每張圖像都需要訓(xùn)練一個特定網(wǎng)絡(luò)模型的缺點(diǎn).
圖20 監(jiān)督式SR與ZSSR對比[138]
對于未配對的LR-HR圖像,弱監(jiān)督式SR主要是采用不同的方法,在不引入預(yù)定義退化的情況下進(jìn)行SR.根據(jù)所用方法的不同,大致可以將其分為兩種類型:一種是運(yùn)用無監(jiān)督式的退化模型學(xué)習(xí)圖像退化過程以構(gòu)造合成數(shù)據(jù)集進(jìn)行SR,另一種則是在網(wǎng)絡(luò)中通過不同的循環(huán)結(jié)構(gòu)以實(shí)現(xiàn)弱監(jiān)督式SR.
為解決監(jiān)督式SR方法無法應(yīng)用于現(xiàn)實(shí)世界場景圖像的問題,Bulat等人[139]于2018年提出了一個弱監(jiān)督式的兩階段網(wǎng)絡(luò)模型.首先利用一個GAN模型以無監(jiān)督的方法學(xué)習(xí)HR圖像的退化和下采樣過程,得到相應(yīng)的LR圖像,再對前一個GAN模型的LR輸出圖像進(jìn)行重建,訓(xùn)練一個由LR圖像到HR圖像的GAN模型,從而實(shí)現(xiàn)真實(shí)世界圖像的SR,有效地提高真實(shí)世界LR圖像的質(zhì)量.此外,DSGAN[50]和RealSR[60]等網(wǎng)絡(luò)模型同樣以無監(jiān)督的方式獲取相應(yīng)LR圖像并構(gòu)造合成數(shù)據(jù)集,解決LR-HR圖像不匹配的問題,再基于改進(jìn)后的ESRGAN網(wǎng)絡(luò)模型進(jìn)行圖像的重建,取得了很好的重建效果,并分別在AIM 2019和NTIRE 2020真實(shí)圖像超分辨率重建挑戰(zhàn)賽上獲得了冠軍.
2018年,Yuan等人[140]受CycleGAN[141]的啟發(fā),以生成對抗網(wǎng)絡(luò)為基本結(jié)構(gòu),提出了一種無監(jiān)督式的循環(huán)生成對抗網(wǎng)絡(luò)模型CinCGAN(Cycle-in-Cycle GAN).該模型包含2個CycleGAN:第一個CycleGAN通過將有噪聲和模糊的LR輸入圖像映射到一個雙三次下采樣的clean LR空間,從而得到去噪和去模糊后的LR圖像;第二個CycleGAN則用于學(xué)習(xí)從第一個CycleGAN中輸出的LR圖像到HR圖像的映射,即通過現(xiàn)有的SR網(wǎng)絡(luò)模型來重建中間結(jié)果到所需的放大倍數(shù),再以端到端的方式對這兩個模塊同時進(jìn)行組合和微調(diào),從而得到HR重建圖像的輸出.此外,為進(jìn)一步提高CinCGAN的網(wǎng)絡(luò)性能,Zhang等人[142]又于2020年采用漸進(jìn)式多循環(huán)策略及模糊損失對CinCGAN加以改進(jìn),提出了一個多循環(huán)網(wǎng)絡(luò)模型MCinCGAN(Multiple Cycle-in-Cycle GAN),用于處理多種尺度因子、退化未知且復(fù)雜和LRHR圖像不匹配的SR問題.
Wu等人[143]認(rèn)為導(dǎo)致無監(jiān)督式SR模型產(chǎn)生不滿意重建效果的關(guān)鍵在于不真實(shí)的低頻信息和不準(zhǔn)確的高頻紋理,因此利用數(shù)據(jù)約束策略從損失函數(shù)、訓(xùn)練數(shù)據(jù)和后處理等方面對CycleGAN的結(jié)構(gòu)進(jìn)行改進(jìn),提出了無監(jiān)督的ECycleGAN(Enhanced CycleGAN)網(wǎng)絡(luò)模型.他們通過引入新的圖像約束損失函數(shù)來補(bǔ)償無監(jiān)督學(xué)習(xí)中像素級監(jiān)督的缺失,并限制判別器的數(shù)據(jù)內(nèi)容,促進(jìn)其抑制高頻紋理或偽影,此外還引入了模型平均策略用于后處理.由于這些改進(jìn),ECycleGAN的訓(xùn)練變得更加穩(wěn)定,同時圖像重建能力也得到了有效提升.
為便于分析圖像超分辨率重建的發(fā)展趨勢,表3對前述部分網(wǎng)絡(luò)模型相關(guān)內(nèi)容進(jìn)行總結(jié)對比.表中的類型按照前述網(wǎng)絡(luò)模型進(jìn)行分類.LR圖像獲取方式:Bicubic表示雙三次下采樣,B表示模糊核,GB表示高斯模糊核,N表示噪聲,GN表示高斯噪聲,J表示JPEG壓縮.由于數(shù)據(jù)增強(qiáng)[144]能夠擴(kuò)大數(shù)據(jù)容量,減少迭代次數(shù),并在一定程度上提升網(wǎng)絡(luò)性能,所以許多網(wǎng)絡(luò)模型常通過隨機(jī)翻轉(zhuǎn)、旋轉(zhuǎn)和縮放等操作對數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng).
表3 基于深度學(xué)習(xí)的單幀圖像超分辨率重建典型網(wǎng)絡(luò)模型總結(jié)
續(xù)表
對于網(wǎng)絡(luò)模型的總結(jié)對比,除了表3所示的內(nèi)容外,本文還在Wang等人[37]的基礎(chǔ)上,對最新網(wǎng)絡(luò)模型的SR精度(即PSNR)、模型大?。磪?shù)數(shù)量)和計(jì)算代價(即操作數(shù)multi-add)進(jìn)行基礎(chǔ)測試對比,如圖21所示.SR精度由網(wǎng)絡(luò)模型在Set5,Set14,B100和Urban100四個基準(zhǔn)數(shù)據(jù)集上的平均PSNR值來衡量,再計(jì)算模型大小和計(jì)算成本,尺度因子為2.
圖21 圖像超分辨率重建基準(zhǔn)測試
ICCV(IEEE International Conference on Computer Vision,即國際計(jì)算機(jī)視覺大會)、CVPR(IEEE Conference on Computer Vision and Pattern Recognition,即國際計(jì)算機(jī)視覺與模式識別會議)和ECCV(European Conference on Computer Vision,即歐洲計(jì)算機(jī)視覺國際會議)是世界三大頂級的計(jì)算機(jī)視覺會議.近年來,利用深度學(xué)習(xí)技術(shù)的圖像SR研究取得了顯著進(jìn)展,相關(guān)挑戰(zhàn)賽也層出不窮.其中最有影響力的圖像SR挑戰(zhàn)當(dāng)屬三大頂會所組織的NTIRE(New Trends in Image Restoration and Enhancement,即圖像恢復(fù)與增強(qiáng)的新趨勢)挑戰(zhàn)賽、AIM(Advances in Image Manipulation,即圖像處理的進(jìn)展)挑戰(zhàn)賽以及PIRM(Perceptual Image Restoration and Manipulation,即感知圖像恢復(fù)與處理)挑戰(zhàn)賽.
NTIRE挑戰(zhàn)賽一般是與同年的CVPR會議同期開展,研究圖像恢復(fù)與增強(qiáng)的新趨勢,聚焦圖像、視頻的質(zhì)量改進(jìn)與評估,涉及圖像及視頻的超分辨率重建、去噪、去霧、去模糊等內(nèi)容.NTIRE挑戰(zhàn)賽自2017年開始舉辦至今,吸引了不少圖像處理領(lǐng)域的研究者和愛好者的關(guān)注,是近年來計(jì)算機(jī)視覺領(lǐng)域非常有影響力的一場賽事.2021年,NTIRE挑戰(zhàn)賽在圖像處理挑戰(zhàn)方面沒有關(guān)于SISR的相關(guān)挑戰(zhàn),但在視頻處理挑戰(zhàn)方面有一場關(guān)于MISR的挑戰(zhàn).另外,還有一場與CVPR 2021聯(lián)合舉辦的首屆Mobile AI 2021挑戰(zhàn)賽,旨在從移動設(shè)備端開發(fā)端到端基于深度學(xué)習(xí)的圖像SR的解決方案,并在移動或邊緣NPU上實(shí)現(xiàn)實(shí)時性.
AIM挑戰(zhàn)賽是關(guān)于圖像處理類的國際挑戰(zhàn)賽,涵蓋了圖像、視頻處理的多個熱門研究方向,例如超分辨率重建、重光照、圖像補(bǔ)全等.AIM挑戰(zhàn)賽中關(guān)于圖像SR的挑戰(zhàn)主要涉及真實(shí)世界的圖像SR和高效的圖像SR.AIM挑戰(zhàn)賽與NTIRE挑戰(zhàn)賽一樣在計(jì)算機(jī)視覺領(lǐng)域有很大的影響力,自2019年起連續(xù)舉辦了兩年,2021年由于時間和資源的限制沒有舉辦.
PIRM挑戰(zhàn)賽是2018年與ECCV 2018 PIRM研討會聯(lián)合舉辦的第一個關(guān)于感知圖像超分辨率重建的挑戰(zhàn).PIRM挑戰(zhàn)賽中提出的無參考型客觀評價指標(biāo)PI聯(lián)合量化了準(zhǔn)確性和感知質(zhì)量,且與主觀評價指標(biāo)具有較強(qiáng)的相關(guān)性,為感知SR的圖像質(zhì)量提供了有效的評價指標(biāo).雖然PIRM挑戰(zhàn)賽只舉辦了一屆,但它為感知圖像SR今后的發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ).
為分析圖像超分辨率重建的發(fā)展趨勢,表4[59,68,83,123,145~153]從賽道設(shè)置、數(shù)據(jù)集使用、評價指標(biāo)等方面總結(jié)了近年來上述挑戰(zhàn)賽的相關(guān)信息.
從基于CNN到基于GAN再到基于Transformer的單幀圖像超分辨率重建的發(fā)展,表明了基于深度學(xué)習(xí)的圖像超分辨率重建技術(shù)取得了階段性的成功,開始從PSNR目標(biāo)最大化的SR向感知驅(qū)動的SR再到性能顯著提升的SR轉(zhuǎn)換.雖然現(xiàn)階段基于深度學(xué)習(xí)的圖像超分辨率重建技術(shù)已有很多表現(xiàn)優(yōu)異的成果,但仍存在很大的發(fā)展空間.根據(jù)表3對現(xiàn)有研究成果的總結(jié)和表4對近年相關(guān)挑戰(zhàn)賽的相關(guān)內(nèi)容總結(jié),可以從以下幾個方面對圖像超分辨率重建領(lǐng)域未來的發(fā)展趨勢進(jìn)行展望.
(1)性能提升
當(dāng)前,影響SR網(wǎng)絡(luò)性能的主要因素是訓(xùn)練數(shù)據(jù)集以及網(wǎng)絡(luò)結(jié)構(gòu)等.網(wǎng)絡(luò)結(jié)構(gòu)包括網(wǎng)絡(luò)模型中使用的網(wǎng)絡(luò)框架、損失函數(shù)、網(wǎng)絡(luò)設(shè)計(jì)及學(xué)習(xí)策略、網(wǎng)絡(luò)深度及寬度等.改善這些因素可以提升網(wǎng)絡(luò)性能,獲得重建效果更好的網(wǎng)絡(luò)模型.
(a)訓(xùn)練數(shù)據(jù)集.數(shù)據(jù)集是影響網(wǎng)絡(luò)性能的重要因素,如何采集數(shù)據(jù)集并構(gòu)建訓(xùn)練數(shù)據(jù)集則至關(guān)重要.目前,訓(xùn)練數(shù)據(jù)集可以通過合成數(shù)據(jù)集以及真實(shí)數(shù)據(jù)集的兩種方式獲取.
從表3和表4可以看出,近年來訓(xùn)練集中LR圖像的獲取方式已逐漸從簡單的雙三次合成數(shù)據(jù)集向真實(shí)數(shù)據(jù)集以及無監(jiān)督式模擬退化過程的合成數(shù)據(jù)集轉(zhuǎn)變.在網(wǎng)絡(luò)結(jié)構(gòu)變化較小的情況下,通過轉(zhuǎn)變訓(xùn)練集獲取方式的網(wǎng)絡(luò)模型性能也能有所提升,如RealSR[60]網(wǎng)絡(luò)模型在網(wǎng)絡(luò)結(jié)構(gòu)方面只對ESRGAN判別網(wǎng)絡(luò)進(jìn)行改進(jìn),并通過無監(jiān)督式退化模型合成數(shù)據(jù)集,就得到了很大的性能提升.因此為了獲得更好的圖像質(zhì)量,可以通過改善訓(xùn)練數(shù)據(jù)集的構(gòu)建方式,模擬圖像真實(shí)退化過程,擴(kuò)大退化空間使模型更具泛化性,以便對各種真實(shí)場景進(jìn)行SR.
表4 圖像超分辨率重建相關(guān)挑戰(zhàn)賽內(nèi)容總結(jié)
(b)損失函數(shù).損失函數(shù)作為網(wǎng)絡(luò)結(jié)構(gòu)的一部分,在網(wǎng)絡(luò)模型中也占據(jù)重要地位.相較于之前單純使用一種損失函數(shù)(L2損失或L1損失)的方法來看,多種損失函數(shù)的組合已表現(xiàn)出明顯優(yōu)勢,能給圖像帶來更好的感知效果[125].但目前尚未出現(xiàn)標(biāo)準(zhǔn)的組合型損失函數(shù).如何進(jìn)行損失函數(shù)的有效組合得到最佳的重建結(jié)果,仍需繼續(xù)探索研究.
(c)評價指標(biāo).圖像質(zhì)量評價指標(biāo)作為衡量圖像質(zhì)量的重要方式之一,在SR圖像的質(zhì)量評價中具有重要地位.MOS和MOR等常用的主觀評價指標(biāo)雖然能夠較為準(zhǔn)確地衡量圖像的感知質(zhì)量,但昂貴的人工成本及不可復(fù)現(xiàn)性,使該指標(biāo)并沒有被廣泛應(yīng)用.盡管PSNR和SSIM等客觀評價指標(biāo)通過計(jì)算圖像間的像素差距對圖像質(zhì)量進(jìn)行衡量的方式,與主觀評價指標(biāo)存在反相關(guān)的關(guān)系,無法準(zhǔn)確反映人對重建圖像的主觀評價,但從表3、表4中可以看出,PSNR和SSIM仍然是目前主流的SR評價指標(biāo),同時,從表中可以發(fā)現(xiàn),近年來的評價指標(biāo)有從全參考型的客觀評價指標(biāo)向無參考型客觀評價指標(biāo)轉(zhuǎn)變的趨勢.由于現(xiàn)有的客觀評價指標(biāo)與主觀評價指標(biāo)存在一定的差異,所以探索一種符合人類視覺感受且便于使用的客觀評價指標(biāo)也將是一個重要的研究方向.
目前,評價網(wǎng)絡(luò)模型視覺效果的測試圖像通常是采用一些自然圖像,如動物、建筑、文字等,并通過放大圖像,觀察動物毛發(fā)、建筑框架、文字信息等圖像細(xì)節(jié)來衡量重建圖像的視覺效果,該方法從整體及局部對圖像質(zhì)量進(jìn)行評估,雖然能夠較為準(zhǔn)確地評價圖像重建質(zhì)量,但對于一些視覺效果較為相似的圖案就難以辨別其重建質(zhì)量.因此,可以通過引入西門子星圖(圖22(a))、USAF-1951分辨率板(圖22(b))等靶標(biāo)圖對網(wǎng)絡(luò)模型的性能進(jìn)行評估,并通過圖形的線對關(guān)系等判斷空間分辨率,從而更為準(zhǔn)確地評估網(wǎng)絡(luò)模型的性能.
圖22 不同類型靶標(biāo)圖
(d)算法結(jié)合.目前,已有將SR算法與其他計(jì)算機(jī)視覺任務(wù)相結(jié)合共同處理圖像問題的應(yīng)用,如SCN[154],SinIR[155]和IPT[94]等網(wǎng)絡(luò)模型.圖像的退化過程是由模糊、噪聲等各種因素造成的,相較于單獨(dú)訓(xùn)練網(wǎng)絡(luò)處理去模糊、去噪等單個圖像問題后再進(jìn)行圖像SR,組合處理的方式能夠更有效地一次性處理各種圖像問題,很大程度上節(jié)省了存儲空間,提升了計(jì)算效率.因此,可以進(jìn)一步研究SR算法與其他計(jì)算機(jī)視覺任務(wù)結(jié)合共同處理圖像恢復(fù)問題的方式.
(e)通用插件及框架.除了從整體的網(wǎng)絡(luò)結(jié)構(gòu)上進(jìn)行改進(jìn)實(shí)現(xiàn)特定網(wǎng)絡(luò)模型的SR,也有不少研究人員研究通用的插件和框架旨,在從局部上對網(wǎng)絡(luò)進(jìn)行改進(jìn),從而實(shí)現(xiàn)網(wǎng)絡(luò)性能的提升.如Kong等人[156]提出的一種利用數(shù)據(jù)特性加速SR網(wǎng)絡(luò)的通用框架ClassSR,通過類模塊將子圖像按照難易程度分類,用不同分支處理不同難度的類,最終實(shí)現(xiàn)幾乎所有基于學(xué)習(xí)的大圖像SR方法的加速.又如Wang等人[157]利用條件卷積開發(fā)的插件模塊,不僅可以處理任意尺度的SR問題,還可以處理非對稱的SR問題.
(2)實(shí)際應(yīng)用
一個好的網(wǎng)絡(luò)模型不僅要具有良好的網(wǎng)絡(luò)性能,且要能夠?qū)⑺惴☉?yīng)用于實(shí)際才能真正起到作用.盡管現(xiàn)有的大多數(shù)網(wǎng)絡(luò)具有良好的性能,但很多卻無法應(yīng)用于實(shí)際.因此現(xiàn)有的網(wǎng)絡(luò)模型越來越重視實(shí)際的應(yīng)用,追求高效、實(shí)時、輕量化.從表4所示的挑戰(zhàn)賽發(fā)展趨勢可以看出,SR算法正在從學(xué)術(shù)研究向工業(yè)產(chǎn)品應(yīng)用轉(zhuǎn)化.
(a)注重網(wǎng)絡(luò)效率,構(gòu)建輕量化SR網(wǎng)絡(luò)模型.從AIM 2019受限SR及AIM 2020高效SR的挑戰(zhàn)賽中可以看出當(dāng)前網(wǎng)絡(luò)對實(shí)時性的需求,同時從評價指標(biāo)的變化也可以看出實(shí)時性不僅僅是由參數(shù)量、運(yùn)行時間以及浮點(diǎn)運(yùn)算次數(shù)(FLOPs)等決定的,網(wǎng)絡(luò)激活的數(shù)量等也具有一定的影響.所以衡量一個網(wǎng)絡(luò)的效率不僅是從運(yùn)行時間、參數(shù)量和FLOPs方面考慮,還要從其他方面考慮并進(jìn)行全面的分析.近來,SR網(wǎng)絡(luò)模型已實(shí)現(xiàn)較好的性能,但卻難以實(shí)現(xiàn)實(shí)時性需求,因此往后的發(fā)展要注重輕量化網(wǎng)絡(luò)模型的構(gòu)建,使SR算法能夠應(yīng)用于實(shí)際.
(b)注重網(wǎng)絡(luò)質(zhì)量,構(gòu)建應(yīng)用于真實(shí)場景的SR網(wǎng)絡(luò)模型.從基于CNN到基于GAN方法的轉(zhuǎn)變,是從PSNR目標(biāo)最大化的SR向感知驅(qū)動的SR轉(zhuǎn)變,同時也表明了感知SR的重要性.從表3、表4中訓(xùn)練數(shù)據(jù)集構(gòu)建方式的轉(zhuǎn)變可以看出,SR的發(fā)展逐漸從經(jīng)典SR轉(zhuǎn)向真實(shí)世界的SR,網(wǎng)絡(luò)模型更加注重對現(xiàn)實(shí)場景SR的應(yīng)用,可見能夠?qū)崿F(xiàn)真實(shí)場景圖像而非合成場景圖像的應(yīng)用才是各項(xiàng)SR技術(shù)的最終落腳點(diǎn).
(c)注重網(wǎng)絡(luò)應(yīng)用,構(gòu)建基于移動設(shè)備的SR網(wǎng)絡(luò)模型.從Mobile AI 2021挑戰(zhàn)賽中可以看出,目前超分的一個發(fā)展趨勢是從硬件設(shè)備端轉(zhuǎn)向移動設(shè)備端,使相關(guān)的SR網(wǎng)絡(luò)模型能夠應(yīng)用于實(shí)際,實(shí)現(xiàn)算法的落地.如Ayazoglu等人[158]針對現(xiàn)有模型在移動設(shè)備端運(yùn)行的限制因素對網(wǎng)絡(luò)構(gòu)建塊加以改進(jìn),提出了一個極輕量化的超分辨率網(wǎng)絡(luò)XLSR(Extremely Lightweight SR),在運(yùn)行時間和模型參數(shù)等方面得到很大提升,并且能實(shí)現(xiàn)移動硬件端的高效運(yùn)行,最終獲得了Mobile AI 2021挑戰(zhàn)賽的冠軍.
(d)特定領(lǐng)域的應(yīng)用.目前大多數(shù)的SR網(wǎng)絡(luò)模型主要用自然圖像進(jìn)行訓(xùn)練,雖具有一定的泛化性,但對于紅外圖像、遙感圖像等特定場景圖像的SR依舊存在局限性.如何將這些特定場景的先驗(yàn)知識與深度學(xué)習(xí)的框架結(jié)合起來應(yīng)用于SR中是一個值得探索的方向.
本文對基于深度學(xué)習(xí)的單幀圖像超分辨率重建的相關(guān)知識及現(xiàn)有研究成果進(jìn)行綜述.隨著單幀圖像超分辨率重建技術(shù)的發(fā)展,構(gòu)建數(shù)據(jù)集的方式已逐漸從簡單的雙三次合成數(shù)據(jù)集向真實(shí)數(shù)據(jù)集以及大規(guī)模和無監(jiān)督式合成數(shù)據(jù)集轉(zhuǎn)變,旨在構(gòu)建具有更大退化空間和更真實(shí)退化過程的退化模型.模型框架仍然以后上采樣模型框架為主.評價指標(biāo)雖有向無參考型客觀評價指標(biāo)轉(zhuǎn)變的趨勢,但目前仍以PSNR和SSIM為主.單幀圖像超分辨率重建從最初的以PSNR最大化為目標(biāo)到以感知驅(qū)動為目標(biāo)再到以Transformer為主干的發(fā)展,是圖像超分辨率重建算法的一大進(jìn)步,也為后續(xù)超分辨率重建網(wǎng)絡(luò)的發(fā)展提供了新思路,促進(jìn)了圖像超分辨率重建技術(shù)的進(jìn)一步發(fā)展.目前,單幀圖像超分辨率技術(shù)已在學(xué)術(shù)研究上取得了較好的成果,后續(xù)的研究重點(diǎn)會向算法的應(yīng)用部署以及工業(yè)產(chǎn)品研發(fā)方面轉(zhuǎn)移.