黃夢宇 祁佳佳 魏東等
摘要:超分辨率重建技術(shù)將低分辨率圖像通過算法重建成高分辨率圖像。深度學(xué)習(xí)方法已經(jīng)在超分辨率重建中取得了顯著的進(jìn)展,文章綜述了基于深度學(xué)習(xí)的單幀圖像超分辨率重建技術(shù)。首先,介紹了超分辨率重建的研究背景及意義、傳統(tǒng)方法的缺陷,以及常見的公開數(shù)據(jù)集。然后,闡述了近年來基于殘差網(wǎng)絡(luò)及注意力機(jī)制的單幀圖像超分辨率重建技術(shù)等研究內(nèi)容。最后,對基于深度學(xué)習(xí)的超分辨率重建技術(shù)進(jìn)行了展望與總結(jié),雖然當(dāng)前已經(jīng)取得了一些進(jìn)展,但仍然面臨很多挑戰(zhàn),如模型的泛化能力不足、復(fù)雜場景下的超分辨率重建等問題。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展和改進(jìn),超分辨率重建技術(shù)將會有更加廣泛的應(yīng)用。
關(guān)鍵詞:深度學(xué)習(xí);超分辨率;殘差網(wǎng)絡(luò);注意力機(jī)制;Transtormcr
中圖法分類號:TP391 文獻(xiàn)標(biāo)識碼:A
1 研究背景及意義
圖像超分辨率(Super?Resolution,SR)重建技術(shù)是計算機(jī)視覺領(lǐng)域重要的數(shù)字圖像處理技術(shù),它通過使用一系列算法和模型,從低分辨率(Low?resolution,LR)圖像中重建出高分辨率(High?resolution,HR)圖像,由于圖像的高分辨率模式包含較多細(xì)節(jié)和信息,因此該技術(shù)在許多領(lǐng)域具有廣泛的用途。目前,該技術(shù)已經(jīng)在醫(yī)療圖像分析、衛(wèi)星遙感觀測、人臉識別及刑偵分析、監(jiān)控視頻復(fù)原、視頻娛樂系統(tǒng)、工業(yè)成像監(jiān)測等領(lǐng)域得到越來越多的實際應(yīng)用。
1.1 基于像素插值的重建算法
該方法通過簡單的像素插值技術(shù)來提高圖像的分辨率。雖然這種方法非常簡單,但其重建效果通常較差,因此它不能有效地處理圖像中的高頻信息。
1.2 基于邊緣信息的重建算法
該方法利用圖像中的邊緣信息來提高圖像的分辨率。這種方法通常比插值方法更有效,但它對噪聲和圖像偽影的處理效果并不理想。
1.3 基于局部統(tǒng)計的重建算法
該方法利用圖像中的局部統(tǒng)計信息來重建高分辨率圖像。這種方法通常需要高質(zhì)量的低分辨率圖像和精確的統(tǒng)計模型,條件較為苛刻。
1.4 基于深度學(xué)習(xí)的重建算法
該方法基于深度學(xué)習(xí)技術(shù)使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)或生成對抗網(wǎng)絡(luò)(GAN)來訓(xùn)練圖像的重建模型,這種方法通常具有較高的重建質(zhì)量和準(zhǔn)確度。在深度學(xué)習(xí)的框架下,超分辨率重建的任務(wù)通常被視為學(xué)習(xí)從低分辨率圖像到高分辨率圖像的映射函數(shù),主要可以分為2 類:基于重建的算法和基于生成的算法。
1.4.1 基于重建的算法
基于重建的算法通過學(xué)習(xí)映射函數(shù)將低分辨率圖像重建成高分辨率圖像。通常使用卷積神經(jīng)網(wǎng)絡(luò)對圖像進(jìn)行特征提取和重建,其中SRCNN[1] 是第1個使用深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行超分辨率重建的網(wǎng)絡(luò),它采用3 個卷積層來提取特征,3 層分別為特征提取層、非線性映射層和重建層,然后使用反卷積層進(jìn)行圖像重建。
1.4.2 基于生成的算法
基于生成的算法使用生成對抗網(wǎng)絡(luò)來學(xué)習(xí)生成高分辨率圖像。其中,SRGAN[2] 是第1 個使用生成對抗網(wǎng)絡(luò)進(jìn)行超分辨率重建的網(wǎng)絡(luò),它使用了1 個生成器網(wǎng)絡(luò)和1 個判別器網(wǎng)絡(luò),生成器網(wǎng)絡(luò)負(fù)責(zé)將低分辨率圖像轉(zhuǎn)換為高分辨率圖像,判別器網(wǎng)絡(luò)則負(fù)責(zé)區(qū)分生成器生成的圖像和真實高分辨率圖像。
2 常見數(shù)據(jù)集
在超分辨率重建算法的研究中,為了評估算法的性能和效果,需要使用一些公開的數(shù)據(jù)集進(jìn)行測試和比較。表1 列舉了較為常見的幾個公開數(shù)據(jù)集,其被廣泛應(yīng)用于單圖像超分辨率重建的算法研究和評估中。研究者可以使用這些數(shù)據(jù)集進(jìn)行算法的訓(xùn)練、調(diào)試和測試,以提高超分辨率重建算法的性能和效果。
3 相關(guān)方法
3.1 基于殘差網(wǎng)絡(luò)的超分辨率重建技術(shù)
殘差網(wǎng)絡(luò)是一種深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),主要用于解決深度網(wǎng)絡(luò)訓(xùn)練中的梯度消失問題。殘差網(wǎng)絡(luò)引入了跳躍連接來學(xué)習(xí)殘差,即學(xué)習(xí)輸入和輸出之間的差異,從而避免了傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)中梯度消失的問題,其可以有效地學(xué)習(xí)到圖像的非線性特征,從而提高重建圖像的質(zhì)量,因此其被廣泛應(yīng)用于單圖像超分辨率任務(wù)中。由于受殘差網(wǎng)絡(luò)結(jié)構(gòu)的啟發(fā)———通過增加網(wǎng)絡(luò)層數(shù)來加深網(wǎng)絡(luò)結(jié)構(gòu),因此極深卷積神經(jīng)網(wǎng)絡(luò)的圖像超分辨率網(wǎng)絡(luò)VDSR[3] 被提出,并取得了更好的圖像重建效果。此后,也有極具代表性的網(wǎng)絡(luò)EDSR[4] 通過加深和加寬殘差模塊,使其學(xué)習(xí)到更復(fù)雜的圖像特征,該方法在提高圖像質(zhì)量和保留細(xì)節(jié)方面都表現(xiàn)出色,并且具有較快的速度和較小的模型尺寸,該模型所具有的網(wǎng)絡(luò)結(jié)構(gòu)成為后續(xù)大量相關(guān)研究工作所參考的基線。
大量研究表明,使用殘差網(wǎng)絡(luò)的單圖像超分辨率方法可以提高圖像的重建質(zhì)量,使重建圖像更接近于原始高分辨率圖像。此外,許多研究還通過比較不同的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練方法,進(jìn)一步優(yōu)化了殘差網(wǎng)絡(luò)的超分辨率重建性能。
3.2 基于注意力機(jī)制的超分辨率重建技術(shù)
注意力機(jī)制是一種在深度學(xué)習(xí)中廣泛應(yīng)用的技術(shù),它可以使網(wǎng)絡(luò)集中于輸入圖像的特定區(qū)域,從而提高網(wǎng)絡(luò)的性能和準(zhǔn)確性。單圖像超分辨率重建技術(shù)可以提高網(wǎng)絡(luò)對于圖像細(xì)節(jié)的捕捉和重建能力,常用的主要有通道注意力機(jī)制、空間注意力機(jī)制和自注意力機(jī)制3 種。注意力機(jī)制中的全局注意力機(jī)制能夠關(guān)注整張圖像,對圖像中所有的細(xì)節(jié)進(jìn)行捕捉;局部注意力機(jī)制則可以關(guān)注特定區(qū)域,對細(xì)節(jié)進(jìn)行更加精細(xì)的捕捉。
RCAN[5] 網(wǎng)絡(luò)首次將注意力機(jī)制使用在超分辨率圖像處理任務(wù)中,其僅使用了通道注意力作為該模型的注意力模塊,其余部分與EDSR 網(wǎng)絡(luò)相同,有了通道注意力的加持,該模型效果較EDSR 相比有顯著的提升。Transformer[6] 是另一類神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),它完全消除了遞歸和卷積,可以同時對輸入序列中的所有位置進(jìn)行處理,在自然語言處理和計算機(jī)視覺任務(wù)中表現(xiàn)出顯著的性能增強(qiáng)。Yang 提出了一種新的圖像超分辨率紋理Transformer 網(wǎng)絡(luò)TTSR[7] ,其由4 個相關(guān)聯(lián)的模塊組成,包括可學(xué)習(xí)紋理提取器、嵌入模塊、用于紋理轉(zhuǎn)移的硬注意模塊和用于紋理合成的軟注意力模塊,這些模塊針對圖像生成任務(wù)進(jìn)行了優(yōu)化。該網(wǎng)絡(luò)可以通過注意力機(jī)制發(fā)現(xiàn)對應(yīng)的深層特征,紋理變換器可以使用跨尺度方式進(jìn)一步堆疊,從而能夠以不同放大率進(jìn)行紋理恢復(fù)。
通過應(yīng)用注意力機(jī)制,單圖像超分辨率重建模型可以更加準(zhǔn)確地提取圖像特征,并在重建過程中更加關(guān)注重要的信息,從而提高重建質(zhì)量和效果。
4 未來展望
使用殘差網(wǎng)絡(luò)的單圖像超分辨率已成為一種有效的圖像重建技術(shù),具有廣泛的應(yīng)用前景。但是,盡管該方法已經(jīng)取得了較好的效果,但仍有許多挑戰(zhàn)需要克服。例如,如何處理復(fù)雜的圖像結(jié)構(gòu)和紋理信息,如何減少計算成本等,未來仍需要繼續(xù)研究和探索這一領(lǐng)域。同時,在單圖像超分辨率任務(wù)中使用Transformer 可以實現(xiàn)更好的圖像重建效果,該技術(shù)可以作為未來研究的參考方向,以進(jìn)一步提高圖像超分辨率的性能。這些方法的不同設(shè)計,也提供了不同的思路和靈感,可以啟發(fā)更多的創(chuàng)新想法。
5 結(jié)束語
超分辨率重建技術(shù)已成為計算機(jī)視覺領(lǐng)域一個重要的研究方向,雖然現(xiàn)有的技術(shù)和方法已經(jīng)取得了一定的成果,但在真實場景中的應(yīng)用還需要進(jìn)一步的研究和改進(jìn)。例如,訓(xùn)練好的超分辨率重建模型在未見過的數(shù)據(jù)上的表現(xiàn)通常不如在訓(xùn)練集上的表現(xiàn),這可能是由于訓(xùn)練數(shù)據(jù)不夠多樣化或者過擬合等引起的。另外,對于復(fù)雜場景下的圖像,如多物體、多紋理、有遮擋等,當(dāng)前的超分辨率重建技術(shù)往往表現(xiàn)不佳。某些基于深度學(xué)習(xí)的超分辨率重建方法需要大量的計算資源和時間來進(jìn)行訓(xùn)練和推理,這限制了它們的實際應(yīng)用。對于高倍率的超分辨率重建,當(dāng)前的技術(shù)還無法滿足高質(zhì)量的需求。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展和改進(jìn),這些問題有望得到解決。未來,隨著硬件和軟件技術(shù)的不斷發(fā)展,基于深度學(xué)習(xí)的超分辨率重建技術(shù)必將有更廣泛的應(yīng)用領(lǐng)域。
參考文獻(xiàn):
[1] DONG C,LOY C C,HE K,et al.Learning a Deep ConvolutionalNetwork for Image Super?Resolution[C]∥European Conferenceon Computer Vision,2014:184?199.
[2] LEDIG C,THEIS L,HUSZAR F,et al.Photo?Realistic SingleImage Super?Resolution Using a Generative AdversarialNetwork[C]∥Proceedings of the IEEE/ CVF conference onComputer Vision and Pattern Recognition,2017:4681?4690.
[3] KIM J,LEE J K,LEE K M.Accurate Image Super?ResolutionUsing Very Deep Convolutional Networks[C]∥ Proceedingsof the IEEE/ CVF conference on Computer Vision and PatternRecognition,2016:1646?1654.
[4] LIM B,SON S,KIM H,et al.Enhanced Deep Residual Networksfor Single Image Super?Resolution [C] ∥ Proceedings of theIEEE/ CVF conference on Computer Vision and PatternRecognition,2017:136?144.
[5] ZHANG Y L,LI K P,LI K,et al. Image Super?ResolutionUsing Very Deep Residual Channel Attention Networks[C]∥European Conference on Computer Vision,2018:286?301.
[6] VASWANI A,SHAZEER N,PARMAR N,et al.Attention Is AllYou Need [C] ∥Advances in Neural Information ProcessingSystems,2017:30.
[7] YANG F,YANG H,FU J,et al.Learning Texture TransformerNetwork for Image Super?Resolution[C]∥Proceedings of theIEEE/ CVF conference on Computer Vision and PatternRecognition,2020:5791?5800.
作者簡介:
黃夢宇(1992—),碩士,研究方向:計算機(jī)視覺( 通信作者)。
祁佳佳(1996—),碩士,研究方向:MEMS 集成智能傳感器。
魏東(1968—),碩士,副教授,研究方向:計算機(jī)視覺。
揣榮巖(1963—),博士,教授,研究方向:MEMS 集成智能傳感器。