邢蘇霄,陳金玲,李錫超,陳 彤
(南京烽火天地通信科技有限公司,南京 210019)
圖像超分辨率重建(super-resolution reconstruction,SR)是計算機視覺和圖像處理領域中一個極具挑戰(zhàn)性的熱門研究課題. 大多數(shù)成像設備會受到硬件、環(huán)境等多種因素的干擾,使得圖像的分辨率并不能滿足實際應用的需要. 為了提高圖像空間分辨率,研究學者們開始嘗試在不改變成像設備的前提下,利用圖像處理、機器學習等算法將低分辨率(low resolution,LR)圖像重建為高分辨率(high resolution,HR)圖像[1]. 正是因為深度學習能自適應地學習LR 圖像與HR 圖像之間的非線性映射關系這種特性,使得基于深度學習的圖像SR 算法明顯優(yōu)于傳統(tǒng)方法,因此也成為單圖像超分辨率重建(single image super-resolution,SISR)的主流研究方法. 同時,SR 技術在醫(yī)學圖像的分析與識別[2]、人臉超分辨率[3]、視頻監(jiān)控與安全[4]、遙感圖像[5]等實際場景中有著廣泛的應用.
近年來,大量介紹SISR 方法的文獻[6,7]以及與超分辨率相關的綜述類文章[8,9]層出不窮,這些文獻中都對近年來SR 領域提出的各種新型算法、設計的新型網絡框架、新型的應用場景等進行了研究與總結. 與之不同的是,本文按照學習方法的差異性將基于深度學習的SISR 問題分為兩大類: 有監(jiān)督的SISR 方法和無監(jiān)督的SISR 方法. 先全面介紹了與SISR 問題相關的儲備知識,然后詳細論述了以上兩類方法的最新理論和研究進展,同時比較了不同算法之間的異同點和優(yōu)缺點,最后對該領域存在的問題和未來的發(fā)展方向進行了總結和展望.
本節(jié)將從問題定義、基準數(shù)據(jù)集、評價指標和損失函數(shù)等方面對SISR 方法的理論基礎展開詳細的調研,并對其中涉及到的相關基礎知識和理論實現(xiàn)進行論述.
日常生活中,由于成像設備、成像環(huán)境等多種退化因素的影響,人們獲取到的圖像通常是LR 圖像,其退化過程如圖1 所示. 設Ix為由退化模型輸出的LR 圖像,Iy為原始的HR 圖像.
圖1 圖像退化過程
那么,LR 與HR 圖像之間的關系則可以表示為:
其中,D(·)表示退化函數(shù),δ表示退化因子.
圖像退化過程中的退化函數(shù)、模糊因子、噪聲等因素通常都是未知的,而能夠被直接獲取的只有LR 圖像Ix. 因此,在不改變硬件設備的條件下,要獲取更高空間分辨率的圖像只能通過LR 圖像進行重建. 那么其重建過程可以表述為:
其中,F(·)表示超分辨率重建模型,為重建后的HR 圖像,θ為模型中的參數(shù). 由圖1 可知,圖像退化是由運動模糊、成像模糊、加性噪聲等多種因素共同影響的,則圖像的退化過程[10]可以由符號化后的式(3)進行表述:
其中,Iy?k表示原始高分辨率圖像與模糊核的卷積過程,↓s表示下采樣因子,nσ表示加性噪聲. 而基于深度學習的SISR 的實現(xiàn)過程就是模型不斷迭代學習的過程,在找到低分辨率圖像與高分辨率圖像之間最佳非線性映射關系之后,損失函數(shù)達到最小值. 重建過程的損失函數(shù)可以由式(4)進行表示:
其中,L(,Iy)表示由超分辨率模型重建后的HR 圖像與真實的HR 圖像之間的損失函數(shù),λ為折衷參數(shù),ψ(?)表示正則化項.
數(shù)據(jù)作為深度學習算法的建模必不可少的基本要素之一,其數(shù)據(jù)量的多少以及數(shù)據(jù)質量的好壞將直接影響著目標模型的效果. 現(xiàn)如今,SISR 領域有著各式各樣的數(shù)據(jù)集用于模型的訓練與測試,這些數(shù)據(jù)集在圖像的數(shù)量、圖像的質量、圖像的分辨率、圖像的多樣性以及圖像的成像環(huán)境等方面都有所不同. 其中,大多數(shù)數(shù)據(jù)集僅包含HR 圖像,不包含用于模型訓練和測試所需的不同放大倍數(shù)下的LR-HR 圖像對,需要通過雙三次插值算法實現(xiàn)圖像對的構造.
本節(jié)將對常用的SISR 數(shù)據(jù)集進行調研,匯總結果如表1 所示. 本節(jié)列出了各類數(shù)據(jù)集在圖像數(shù)量、圖像格式、圖像類型、圖像平均分辨率以及圖像中所包含的類別信息. 其中,Set5[11]、Set14[12]、Urban100[13]、BSDS100[14]、Manga109[15]常作為模型重建效果評估的基準數(shù)據(jù)集. 同時,研究者們也常常傾向于多個數(shù)據(jù)集共同參與模型的訓練與測試,例如T91[16]與BSDS300[14]的結合,DIV2K[17]與Flickr2K[18]的結合. 其次,一些其他視覺領域的數(shù)據(jù)集也參與到SR 模型的訓練過程中,如ImageNet[19]、MS-COCO[20]、VOC2012[21]、CelebA-HQ[22]、L20[23]等.
表1 SISR 領域基準數(shù)據(jù)集
根據(jù)測量方法的不同,可以將圖像質量評價(image quality assessment,IQA)方法[30]分為: 通過人類視覺對圖像質量進行感知的主觀評價方法和通過數(shù)值計算進行定量分析的客觀評價方法. 其中,主觀評價方法相較于客觀方法更加符合實際應用,但其需要消耗更多的人力和時間資源,所以基于客觀評價方法進行定量評估是目前超分辨率重建領域的主流評價指標,本節(jié)將對以上兩類評價方法進行簡要論述.
(1)峰值信噪比(peak signal-to-noise ratio,PSNR)[31]是目前應用最為廣泛的用于圖像重建質量評價的指標之一. 在SR 任務中,PSNR是由最大像素值與兩幅圖像之間的均方誤差來定義的.PSNR值越大表明圖像的質量越好,其計算公式如式(5)所示. 其中,MAXI表示圖像中最大像素值,MSE表示兩個圖像之間對應像素差值平方的均值,單通道和多通道圖像的MSE計算原理如式(6)、式(7)所示.
單通道的MSE:
多通道的MSE:
(2)結構相似性評價(structural similarity index measure,SSIM)[32]是用于比較圖像間亮度、對比度、結構細節(jié)的相似度指標. 與PSNR相比,SSIM與人類視覺系統(tǒng)對圖像結構提取方面的適應性更加契合,SSIM的取值范圍為[0,1]. 圖片的結構相似度越大,表示其失真程度越小,也說明圖像的質量越好,SSIM的原理實現(xiàn)如式(11)所示.
其中,μX和μY分別表示圖像X,Y的像素均值,σX和σY分別表示X,Y的像素標準差,σXY表示圖像X,Y的協(xié)方差.C1、C2、C3是常數(shù),C1=(K1×L)2,C2=(K2×L)2,C3=C2/2,一般有K1=0.01,K2=0.03,L=255. 權重參數(shù) α ,β ,γ 能夠分別控制亮度、對比度和結構細節(jié)對結構相似度的重要性.
(3)平均意見得分(mean opinion score,MOS)[33]是屬于IQA 中一種常用的圖像質量評價主觀方法,也是在圖像感知質量評價方面最可靠的方法. 該方法要求參與評測的人員對被測圖像從圖像的清晰度、對比度、顏色、外觀細節(jié)等方面進行視覺感知并打分,最后的評估得分是每一個評級份數(shù)的算術平均分,分數(shù)范圍由壞至好分別為1 到5 分. 但是這種方法會因為評測標準的不同或人為偏見等不可控因素的影響而存在一些缺陷和局限性.
(4)基于學習的IQA 方法是為了減少人為因素的干擾,更好地評估圖像的視覺感知質量,在大型理想參考圖像數(shù)據(jù)集上通過學習的方式對圖像進行質量評估的一種算法. 2017 年,Kim 等人[34]提出了基于CNN 的全參考圖像質量評估模型DeepQA,該方法結合失真圖像、主觀評分和客觀誤差圖進行模型的訓練并對圖像的視覺相似性進行預測. Ma 等人[35]和Talebi 等人[36]分別提出了MEON 和NIMA 的無參考IQA 神經網絡,該方法不需要真實的參考圖像,直接從視覺感知分數(shù)中進行學習并預測圖像的質量分數(shù). 基于CNN 的方法能夠在視覺感知評估方面表現(xiàn)出更好的性能,但需要更多的數(shù)據(jù)資源.
除了上述幾種常見的方法外,還有一些通過特定任務(圖像分類、人臉識別、圖像分割等)來間接衡量SISR 性能的方法. 同時,基于相位一致性和圖像的梯度大小來計算圖像的特征相似性[37]的方法也被用來評估圖像的質量. Blau 等人[38]在2018 年的論文中提出,圖像的感知質量和圖像的失真是相互矛盾的,隨著圖像失真度的降低,圖像的視覺感知質量也會隨之降低.所以,PSNR和SSIM這兩種定量分析的方法仍是目前圖像SR 領域應用最為廣泛的IQA 方法.
損失函數(shù)是深度學習模型迭代優(yōu)化過程中必不可少的重要元素之一. 在SISR 任務中,損失函數(shù)的選擇至關重要,其通過計算誤差來衡量HR 圖像的重建質量. 而長期的研究發(fā)現(xiàn),多種損失函數(shù)的共同指導更能在多方面指導HR 圖像的重建過程. SR 領域中最為常見的損失是像素損失,但由于像素并不能對圖像的重建質量進行絕對評估,所以內容損失、對抗損失、先驗損失等各類損失函數(shù)應運而生,以下將介紹幾種常用的損失函數(shù).
(1)像素損失(pixel loss): 該損失是最為簡單常用的一類損失函數(shù),其主要以像素為基礎衡量兩幅圖像之間的差異,包括L1、L2 損失[39]以及L1 損失的一種可區(qū)分的變體Charbonnier 損失[40],其具體表達式分別如式(12)、式(13)、式(14)所示. 這類損失能夠提高模型的收斂速度,但是缺乏對圖像內容以及語義信息的考慮,常會出現(xiàn)重建圖像過度平滑的現(xiàn)象.
(2)內容損失(content loss)[41]: 該損失也常被稱為感知損失,如式(15)所示. 其主要是從圖像內容理解和感知層面對圖像質量進行評價,通常使用預先訓練好的圖像分類網絡對兩幅圖像之間的語義差異進行評估,從而提高重建圖像的視覺相似性和真實度.
(3)紋理損失(texture loss)[42]: 該損失主要源自于風格遷移領域,其常被稱為風格常見損失,如式(17)所示. 通常使用重建圖像與原始圖像不同通道之間的相關性來度量兩幅圖像在顏色、紋理、對比度等方面的相似性.
(4)對抗損失(adversarial loss)[43]: 該損失的提出主要是由于對抗生成網絡(generative adversarial networks,GANs),GANs 由生成器和判別器組成,如式(18)所示.SISR 任務中的生成器為超分模塊,而判別器主要用高層的語義信息來鑒別生成圖像的真實性,從而使得重建后的HR 圖像更加真實.
(5)先驗損失(prior loss)[44]: 該損失主要是將稀疏先驗、梯度先驗和邊緣先驗等知識引入到SISR 模型中,如式(19)、式(20)所示. 該損失將已知的先驗作為約束條件放入損失函數(shù)中,從而能夠優(yōu)化圖像的一些特定信息,使得重建的效果能夠朝著預期的方向發(fā)展,重建后的HR 圖像也將包含更多的紋理細節(jié).
目前,大多數(shù)基于深度學習方法的SISR 模型均側重于使用LR 圖像和HR 圖像進行模型訓練,也即這類模型都屬于有監(jiān)督的深度學習模型. 雖然不同模型之間的差異性較大,但是他們均是由模型框架、網絡設計、學習策略等組件組合而成,以適用于各種SR 任務. 因此,本節(jié)將從網絡的類型和網絡的框架兩個層面對有監(jiān)督的SISR 方法進行分類,并對其中的代表性算法進行介紹.
根據(jù)網絡設計的差異性,可以根據(jù)網絡設計的不同將有監(jiān)督的深度學習超分辨率重建網絡分為以PS NR為導向的SISR 方法和以視覺感知為驅動的SISR 方法.
2.1.1 以PSNR為導向的SISR 方法
隨著卷積神經網絡(convolutional neural network,CNN)在圖像分類領域的成功應用,SISR 方法也在CNN模型的啟發(fā)下取得了顯著的進步,而前期基于深度學習的SISR 模型大多數(shù)均是以獲取較高的PS NR為導向,也即通過像素損失來指導網絡的學習過程. Dong等人[45]首次將傳統(tǒng)的稀疏編碼方法與深度學習相結合,提出了基于深度卷積神經網絡的端到端單圖像超分辨率重建算法(super-resolution convolutional neural network,SRCNN). 隨后,Kim 等人[46]加深網絡層數(shù)以提取更深層次的圖像特征,并且為了減少網絡參數(shù)、提升特征圖利用率,進一步提出了基于深層卷積的VDSR 和DRCN. 由于深層網絡容易出現(xiàn)梯度爆炸或梯度消失的現(xiàn)象,ResNet 的思想也參與到SR 任務中,Zhang 等人[47]基于殘差密集塊構建了RDN,該網絡實現(xiàn)了全局殘差的學習和局部特征的融合,并在PS NR上取得了不錯的性能. 同時,為了突破固定放大倍數(shù)的限制,實現(xiàn)對深入圖像的任意放大,Shi 等人[48]提出了一種基于像素重排思想的ESPCN 方法用于超分辨率重構. 為進一步實現(xiàn)對LR 圖像的非整數(shù)縮放,Hu 等人[49]提出了可通過單一模型解決任意縮放因子問題的全新模型Meta-SR,并在基準數(shù)據(jù)集上取得了優(yōu)越性能. 為了解決LR 與HR 圖像映射空間的不確定性,DBPN[50]、DRN[51]、SRFBN[52]等方法利用反饋機制在網絡迭代學習的過程中對圖像的重建特征進行約束,從而減少可能的函數(shù)空間并在PSNR上顯示出更好的重建性能.為了進一步提升PSNR,attention 機制被引入到SR 領域,該機制能夠有效提升網絡的表征能力以及加強信息的流動性,典型的算法有RCAN[53]、SAN[54]、HAN[55]等. 因此,CNN 與各類深度學習策略的有效結合,使得以PSNR為導向的SISR 方法取得了較為完善的重建性能.
2.1.2 以視覺感知為驅動的SISR 方法
SR 問題也可以看作是一種圖像轉換的任務,也即輸入一張退化的LR 圖像,經過模型處理后得到一張高質量的HR 圖像. 考慮到以PSNR為導向的重建方法常常會導致高頻信息的缺失,重建后的HR 圖像過度平滑,與真實的HR 圖像在視覺感知上存在一定的差異. Johnson 等人[41]在 2016 年則提出利用感知損失來衡量重建后的圖像質量,以此來提升模型的重建性能. Ledig 等人[30]在2016 年提出了一個以視覺感知為驅動的SRGAN 方法,該方法首次將生成對抗網絡(generative adversarial network,GAN)[44]用于SISR 領域,并在MOS 上表現(xiàn)出了卓越的性能. 隨后,大量以視覺感知為驅動的基于GAN 的SR 方法被提出,例如Wang等人[56]通過在ESRGAN 中引入密集殘差塊(residualin-residual dense block,RRDB)來提高網絡的性能;Soh 等人[57]基于自然流形鑒別器設計了NatSR,使得重建后的圖像具有更加真實的紋理和更加自然的細節(jié)信息; Wang 等人[29]則基于特征的空間信息感知提出了SFTGAN,該方法讓圖像的紋理信息恢復更精細、更接近于真實的HR 圖像; Ma 等人[58]發(fā)現(xiàn)基于上述方法重建后的HR 圖像常常存在明顯的結構變形問題,于是提出了結構保留的SPSR 網絡,該方法能在緩解圖像結構變形的同時還能夠生成豐富的問題細節(jié); 為了更好的構建LR 圖像和高頻信息之間的關系,Lugmayr等人[59]基于歸一化流設計了能夠基于低分辨率輸入學習輸出的條件分布的SRFlow,該方法能夠探索超分辨率的解空間并生成多樣性的圖像,且最終的生成圖像在感知度量上均優(yōu)于當前最優(yōu)的GAN 方法. 盡管現(xiàn)有的以感知為驅動的SISR 方法的確能夠有效提升圖像的感知質量,但是仍會出現(xiàn)偽影、幾何變形等現(xiàn)象.
根據(jù)模型框架的差異性,可以根據(jù)框架設計的不同將有監(jiān)督的深度學習超分辨率重建網絡分為預定義上采樣網絡、單次上采樣網絡、漸進上采樣網絡和迭代上下采樣網絡.
2.2.1 預定義上采樣網絡
預定義上采樣網絡(predefined up-sampling network)的實現(xiàn)通常先利用傳統(tǒng)的插值算法將輸入的LR 圖像放大到具有目標尺寸的粗略HR 圖像,然后使用深度卷積神經網絡(deep convolutional neural network,DCNN)進行特征提取,使得網絡能自動學習LR 圖像到HR 圖像的端到端非線性映射關系,從而實現(xiàn)SR 圖像的重建. Dong 等人[26]率先使用預定義上采樣的SR 框架提出了SRCNN,首次利用CNN 實現(xiàn)了高質量的重建效果.如圖2 所示,該方法解決了LR 圖像直接映射到HR 圖像的困難,降低了學習的難度,同時也能實現(xiàn)任意縮放因子下的比傳統(tǒng)單尺度SR 模型更加精細的重建效果.文獻[53,54] 在這種主流框架的基礎上對學習策略、模型設計等方面進行改進,使得基于深度學習的SISR模型的性能逐步得到提升. 但是,這種預先處理至目標尺寸的上采樣操作會給輸入圖像帶來額外的噪聲和模糊,并且使得大多數(shù)計算都是在高維空間實現(xiàn)的,使得網絡的時間復雜度和空間復雜度要明顯高于其他框架.
圖2 預定義上采樣網絡
2.2.2 單次上采樣網絡
單次上采樣網絡(single up-sampling network)直接在低維空間實現(xiàn)大部分的計算過程,也即在不對輸入的LR 圖像進行目標尺寸縮放的前提下,利用DCNN進行特征提取,并在網絡的后端采用可端到端學習的上采樣層(亞像素卷積層或者反卷積)對非線性映射后的圖像進行放大,其網絡設計如圖3 所示. 該方法能有效提高圖像的空間分辨率,且相較于預定義上采樣網絡能夠大大降低網絡的時間和空間成本,因此,基于這種網絡的設計思想,通過對特征提取層、上采樣層、學習策略等模塊的改進,文獻[56,60,61]的方法也取得了更好的性能. 但是,其無法學習到LR 與HR 圖像之間復雜的非線性映射關系,而且網絡中只進行了一步上采樣操作,這樣會增加網絡的學習難度,同時針對每一個縮放因子都需要訓練一個獨立的SR 模型,所以無法實現(xiàn)任意縮放尺寸的SR 能力.
圖3 單次上采樣網絡
2.2.3 漸進上采樣網絡
漸進上采樣網絡(progressive up-sampling network)利用拉普拉斯金字塔網絡在前向過程中重建出不同尺度的SR 圖像,如圖4 所示. 該網絡通過CNN 的級聯(lián),輸入的LR 圖像在每一個上采樣階段都會被重建到一個更高分辨率的HR 圖像,這種上采樣疊加的操作使得網絡能夠更好地對淺層特征進行利用. LapSRN[40]、MS-LapSRN[62]和漸進式SR (ProSR)[63]也都采用了這種網絡結構,并取得了較單次上采樣網絡更優(yōu)的性能,并且ProSR 在網絡的學習過程中加強了上下文信息的流行性. 漸進式的上采樣網絡可以解決多種尺度的SR 任務,面對大尺度放大需求,該框架可以有效降低時間復雜度,但是將學習過程拆分為多個階段會造成網絡性能的不穩(wěn)定.
圖4 漸進上采樣網絡
2.2.4 迭代上下采樣網絡
迭代上下采樣網絡(iterative up and down-sampling network)中加入了一種迭代式的誤差修正反饋機制,嘗試利用反向傳播的機制構建相互連接的上采樣模塊和下采樣模塊,從而獲取到不同層次的分辨率特征,并利用誤差對重建后的HR 圖像進行加強,網絡結構如圖5 所示. Haris 等人[50]基于該網絡提出了DBPN,通過上采樣層和下采樣層交替連接的方式將中間所有的重建結果重建最終的HR 圖像. 隨后,SRFBN[52]采用了迭代的上下采樣反饋塊,跳過連接更密集,學習到了更好的表示方法. 該框架下的模型可以更好地挖掘LR-HR 圖像對之間的深層關系,產生更深層次的特征,從而提供更高質量的重建結果,但目前反向傳播模塊的設計并沒有明確的標準.
圖5 迭代上下采樣網絡
目前,SISR 網絡的實現(xiàn)大多數(shù)都基于有監(jiān)督的學習機制,也即使用成對的LR-HR 圖像進行模型訓練.但想要收集到同一個場景并且具有不同分辨率的圖像需要大量的人力和時間成本,而且現(xiàn)有的大多數(shù)SR 數(shù)據(jù)集都需要通過傳統(tǒng)的插值算法生成與HR 圖像向配對的LR 圖像,而這種已知的退化過程對真實場景下的SR 需求并不適用. 因此,基于無監(jiān)督學習的SR 方法受到研究學者的廣泛關注,該方法在訓練過程中不需要成對的LR-HR 圖像,模型也能學習到真實場景下的圖像退化函數(shù),最終獲取到的模型更容易適應真實自然場景下的SR 問題. 本小節(jié)將對現(xiàn)有的幾種無監(jiān)督學習下的SISR 深度學習方法進行介紹.
基于弱監(jiān)督學習的SISR 方法在不利用插值算法構造成對的LR-HR 數(shù)據(jù)的前提下,使用非配對的LRHR 圖像進行網絡的訓練,在該學習方法下有兩種網絡訓練方式:
一種是先學習HR 圖像退化為LR 圖像的退化核,再用該函數(shù)生成HR 圖像對應的LR 圖像,以構建成對的LR-HR 數(shù)據(jù)集用于SR 模型的訓練. CVPR2021 年接收的一篇最新的研究無監(jiān)督學習下的退化感知SISR算法DASR[64],該網絡采用無監(jiān)督學習的方式利用退化表達學習機制自適應地從LR 圖像中捕獲到具有辨識性的特征,從而獲取到準確的退化信息,最后結合對比學習的思想對低分辨率特征進行調制.
另一種是利用循環(huán)學習的思想讓網絡學習LR 圖像到HR 圖像的映射和HR 圖像到LR 圖像的退化函數(shù),從而實現(xiàn)相互驗證和相互促進. 2018 年,Yuan 等人[65]受到CycleGAN[66]的啟發(fā),于是設計了一個由4 個生成器和2 個判別器組合而成的無監(jiān)督SISR 模型CinCGAN.該網絡將HR 圖像和LR 圖像分別看作兩個不同的作用域,并利用CycleGAN 的循環(huán)結構來解決真實場景下LR 圖像的重建問題.
Shocher 等人[67]最早將零次學習(zero-shot learning)應用到SR 領域并提出完全無監(jiān)督的SISR 深度學習方法ZSSR. 其利用網絡在對輸入的單一特定圖像進行測試時訓練SR 網絡的思想,學習圖像內部的先驗特征,進而預測出圖像的退化函數(shù),預估出LR 圖像與HR 圖像之間的退化關系并恢復出圖像的高頻細節(jié).ZSSR 的實現(xiàn)不需要大型的SR 數(shù)據(jù)集,只需要通過學習到的退化函數(shù)生成小型數(shù)據(jù)集,并在該SR 數(shù)據(jù)集上完成網絡的訓練. 所以,該方法對真實場景下的圖像進行重建時具有更大的優(yōu)勢,但ZSSR 需要對每張?zhí)囟ǖ膱D像進行上千次的迭代學習,因此其推理時間要遠大于其他基于深度學習的SISR 方法. 2020 年,Soh 等人[68]為解決推理時間過長的問題,將零次學習與元轉換學習相結合應用到SR 問題中,從而提出了只需一次梯度更新便可使重建效果可觀的MZSR 方法. 雖然,基于零次學習方法的SR 網絡在未知退化函數(shù)的條件下取得了出色的性能,并且能夠有效改善自然場景下LR 圖像的重建效果,但仍然會存在噪聲和偽影.
為了更加直觀地比較SISR 的性能,本節(jié)將在4 倍放大因子的條件下,對目前一些典型的有監(jiān)督和無監(jiān)督的SISR 算法在Set5、Set14、BSDS100 三個基準數(shù)據(jù)集上分別計算PSNR和SSIM,從定量分析的角度進行對比分析.
由表2 可知,SRCNN 作為第一個將CNN 引入SISR 領域的算法,其得益于CNN 強大的特征捕獲和表達能力,使得SRCNN 對單張LR 圖像的重建能力遠高于傳統(tǒng)的雙三次插值方法Bicubic; 其次,密集連接、殘差連接、特征金字塔等網絡結構也在SISR 領域取得了顯著的進步,如VDSR[53]、RRDB[56]、LapSRN[40]等算法; 隨后,為了解決SR 的不適定性,提高SISR 網絡對真實自然場景圖像重建的自適應性和泛化能力,研究人員逐漸將反饋回歸機制、基于感知損失、先驗損失、生成式建模思想、無監(jiān)督學習等方法用于SISR領域. 其中,基于歸一化流的SRFlow 重建方法取得了優(yōu)異的重建性能,無監(jiān)督的重建算法ZSSR 也能有效學習到LR 圖像的超分辨率信息,其重建性能超越了經典的SRCNN,也為基于無監(jiān)督學習方法的SISR 研究打下了堅實的基礎.
表2 ×4 放大因子下不同算法在Set5、Set14、BSDS100 數(shù)據(jù)集下的PSNR/SSIM 指標
盡管各類SISR 算法已經取得了顯著的進步,但是對結構復雜、紋理信息豐富的圖像重建后還是會存在一定的重建偽影、信息丟失等問題,所以SISR 任務仍然面臨著許多挑戰(zhàn).
本文對深度學習方法在SISR 領域的最新研究進展進行了詳細調研與論述. SISR 技術作為計算機視覺領域的重要研究任務之一,其可以作為刑事偵查、醫(yī)學診斷、遙感圖像等領域的有效輔助工具. 基于深度學習的SISR 算法層出不窮,本文主要圍繞基于有監(jiān)督、無監(jiān)督的SISR 技術進行討論,也對其中涉及到的背景知識進行了具體的介紹. 雖然SISR 的性能已經取得了顯著的提升,但是仍然還存在很多挑戰(zhàn),以下將對SISR 研究過程中存在的問題和未來發(fā)展趨勢進行總結.
(1)評價指標
SISR 問題中常用IQA 來衡量SR 算法的性能,PSNR和SSIM作為兩個最常用的評價指標. 前者容易導致過度平滑的問題,使得差異較小的圖片之間的定量分析誤差較大,而后者雖然從亮度、對比度和結構細節(jié)方面模擬人類的視覺感知,但是不能完全準確表示圖像的視覺感知效果,MOS 雖然與視覺感知質量最為相近,但是其評估過程需要消耗大量的時間和人工成本. 所以,制定通用的、準確的SR 質量評價指標是目前亟待解決的問題.
(2)真實場景圖片的SR
自然場景下的圖片常常會受到加性噪聲、運動模糊、壓縮偽影等因素的影響,使得模型面對未知的退化問題,缺少成對的真實場景下的LR-HR 圖像. 因此,在有人工設計的數(shù)據(jù)集上訓練的SISR 模型對自然場景圖像的重建效果并不理想. 雖然,已經有很多研究方法被提出,但是仍然存在訓練難度大、重建細節(jié)不夠完善等缺點. 因此,針對未知圖像退化過程的建模依舊是SISR 的重要發(fā)展方向.
(3)網絡框架的設計趨勢
一個好的網絡框架不僅能提升SISR 的性能,還能有效減少模型的時間復雜度和空間復雜度. 因此,后續(xù)可以考慮在模型的學習過程中,將全局信息和局部信息、底層特征與高層次特征相結合的思想,利用不同尺度、不同層次的語義信息加強網絡對圖像特征的表征能力,從而提升SISR 算法的重建性能.
(4)上采樣方法的改進
目前使用的上采樣方法會存在不能端到端學習、感受野分布不均勻、會產生棋盤效應等問題,因此會導致SISR 算法低效、重建效果不穩(wěn)定等問題. 同時目前的上采樣多為整數(shù)倍. 所以,探索出一個高效地、適用于任意放大因子的上采樣方法是未來值得進一步研究的方向.