摘" 要: 基于參考圖像的圖像超分辨率(Ref?SR)技術(shù)將高分辨率(HR)參考圖像導(dǎo)入單輸入圖像超分辨率(SISR)方法中,利用參考圖像中轉(zhuǎn)移的紋理緩解了此方法中長期存在的不適定問題。盡管定量和定性結(jié)果的顯著提升已經(jīng)驗(yàn)證了Ref?SR方法的優(yōu)越性,但在紋理轉(zhuǎn)移之前存在的不對(duì)齊問題表明該方法中還有進(jìn)一步提高性能的空間。現(xiàn)有方法忽視了在對(duì)齊特征時(shí)細(xì)節(jié)的重要性,因此沒有充分利用低分辨率(LR)圖像中包含的信息。文中提出一種基于細(xì)節(jié)增強(qiáng)框架(DEF)的參考圖像超分辨率方法,該方法引入擴(kuò)散模型來生成和增強(qiáng)LR圖像中的潛在細(xì)節(jié)。如果參考圖像中存在對(duì)應(yīng)部分,設(shè)計(jì)方法可以使得圖像特征的對(duì)齊更為準(zhǔn)確;在參考圖像缺少對(duì)應(yīng)部分的情況下,LR圖像中的細(xì)節(jié)仍然得到了增強(qiáng),同時(shí)避免了參考圖像轉(zhuǎn)移錯(cuò)誤紋理的影響。大量實(shí)驗(yàn)表明,提出的方法相比于以往方法在數(shù)值結(jié)果相仿的前提下取得了優(yōu)越的視覺效果。
關(guān)鍵詞: 圖像超分辨率; 參考圖像; 不適定問題; 相關(guān)對(duì)齊; 紋理轉(zhuǎn)移; 擴(kuò)散模型
中圖分類號(hào): TN911.73?34" " " " " " " " " " nbsp; " " 文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " " " " 文章編號(hào): 1004?373X(2024)19?0087?07
Image super?resolution algorithm based on detail?enhancing framework
WANG Zihan1, 2, YUAN Xiaobing1, 2
(1. Shanghai Institute of Microsystem and Information Technology, University of Chinese Academy of Sciences, Shanghai 201210, China;
2. School of Information Science and Technology, ShanghaiTech University, Shanghai 200050, China)
Abstract: In the technology of the reference?based image super?resolution (Ref?SR), the high?resolution (HR) reference images are imported into the single?input image super?resolution (SISR) approach, and the long?standing ill?posed issue of the very method has been alleviated with the assistance of texture transferred from reference images. Although the significant improvement in quantitative and qualitative results has verified the superiority of Ref?SR methods, the presence of misalignment before texture transfer indicates room for further performance improvement. Existing methods tend to neglect the significance of details in the context of comparison, so they fail to leverage the information contained within low?resolution (LR) images. In view of the above, a reference?based image super?resolution method on the basis of detail?enhancing framework (DEF), which introduces the diffusion model to generate and enhance the underlying detail in LR images, is proposed. If corresponding parts are present in the reference images, the proposed method can facilitate rigorous alignment. In cases where the reference images lack corresponding parts, the details in the LR images are still enhanced, and the influence of the wrong texture transferred from the reference images is avoided. Extensive experiments demonstrate that the proposed method achieves superior visual results while maintaining comparable numerical results in comparison with the existing methods.
Keywords: image super?resolution; reference image; ill?posed issue; correlation alignment; texture transfer; diffusion model
0" 引" 言
單圖像輸入的超分辨率(SISR)是一種計(jì)算成像技術(shù),旨在增強(qiáng)單個(gè)低分辨率(LR)圖像的分辨率和細(xì)節(jié)水平,通常通過估計(jì)像素值從而生成相應(yīng)的高分辨率(HR)圖像來實(shí)現(xiàn)。SISR的本質(zhì)在于從單個(gè)輸入圖像中存在的信息中預(yù)測(cè)所需額外像素的像素值。受到SISR不適定本質(zhì)的限制,單個(gè)LR圖像可能生成多個(gè)不同的HR圖像。而這與真實(shí)圖像(GT)的唯一性對(duì)立,從而導(dǎo)致最終輸出中出現(xiàn)偽影和幻覺。為了確保超分辨率(SR)結(jié)果的真實(shí)性,可以借助參考圖像在圖像SR中補(bǔ)充信息。參考圖像中存在的語義信息,包括內(nèi)容和紋理,在恢復(fù)輸入圖像方面至關(guān)重要。此外,獲取相似的HR參考圖像比獲取嚴(yán)格對(duì)應(yīng)的HR真實(shí)圖像更為可行??傊?,將相關(guān)但不同的HR參考圖像中的HR紋理轉(zhuǎn)移到LR輸入圖像有利于恢復(fù)出可靠的結(jié)果,這形成了基于參考圖像的圖像超分辨率(Ref?SR)的理念。
Ref?SR的網(wǎng)絡(luò)架構(gòu)通常包括以下四個(gè)部分:特征提取、特征對(duì)齊、紋理轉(zhuǎn)移和紋理聚合。其中,在特征對(duì)齊過程中,匹配LR圖像與參考圖像之間的對(duì)應(yīng)關(guān)系是最關(guān)鍵的步驟。然而,由于LR圖像和參考圖像分辨率不同,難以獲得準(zhǔn)確的對(duì)應(yīng)關(guān)系。為了解決對(duì)齊不準(zhǔn)確的問題,最近在這一領(lǐng)域中的研究將空間對(duì)齊的研究重點(diǎn)從逐像素點(diǎn)匹配[1?2]轉(zhuǎn)移到了圖像塊匹配[3?11],以提高匹配精度。除此之外,為了補(bǔ)齊圖像之間分辨率的差距并獲得分辨率一致的圖像對(duì),先前的方法傾向于簡(jiǎn)單地將輸入LR圖像調(diào)整到與相應(yīng)參考圖像相同的分辨率,例如使用雙三次插值方法。文獻(xiàn)[6]選擇將參考圖像進(jìn)行下采樣以適應(yīng)匹配過程并降低計(jì)算復(fù)雜度。雖然這種方法在一定程度上可以減輕對(duì)齊不準(zhǔn)確的問題,但它忽視了細(xì)節(jié)的增強(qiáng),而這可能會(huì)破壞后續(xù)圖像恢復(fù)結(jié)果。使用插值方法調(diào)整LR圖像的大小僅依賴于原像素周圍的像素值來預(yù)測(cè)目標(biāo)像素值,而由此產(chǎn)生的感受野不足以全面利用原有信息。因此,在參考圖像中存在相應(yīng)特征時(shí),由于缺乏豐富的細(xì)節(jié),圖像對(duì)之間的某些對(duì)應(yīng)特征無法準(zhǔn)確對(duì)齊。除此之外,某些情況下LR圖像內(nèi)的特定特征在參考圖像中缺乏對(duì)應(yīng)部分,使其無法識(shí)別對(duì)齊的圖像塊。這些未對(duì)齊的特征在雙三次插值后保持不變,由于缺乏細(xì)節(jié)而影響輸出的視覺質(zhì)量。因此,由于在對(duì)齊過程中缺乏細(xì)節(jié)增強(qiáng),LR圖像的預(yù)處理仍然有改進(jìn)空間。
一個(gè)自然的想法是,在對(duì)齊之前使用生成式模型增強(qiáng)LR圖像的細(xì)節(jié)。在SR領(lǐng)域內(nèi),普遍存在的生成式模型主要包括兩種范式:生成對(duì)抗網(wǎng)絡(luò)(GAN)和擴(kuò)散模型。與基于GAN的模型相比,擴(kuò)散模型更穩(wěn)定、更能夠應(yīng)對(duì)各種圖像分布的不確定性。盡管擴(kuò)散模型在生成細(xì)節(jié)方面表現(xiàn)出理想的性能,但由于SR的不適定性、擴(kuò)散模型固有的隨機(jī)性以及泛化能力的不足,它容易產(chǎn)生偽影。
為了一并解決不對(duì)齊和偽影問題,首先采用理論分析來闡明在圖像超分辨率任務(wù)中細(xì)節(jié)的重要性和定位。然后,提出了一種新的框架,稱之為細(xì)節(jié)增強(qiáng)框架(DEF),用于基于參考的方法,該方法用預(yù)訓(xùn)練的擴(kuò)散模型替換了LR圖像的調(diào)整大小。模型結(jié)構(gòu)的修改從以下兩個(gè)方面補(bǔ)償了固有的局限性:對(duì)于基于參考的模型而言,引入擴(kuò)散模型豐富了LR圖像中的細(xì)節(jié)信息,從而有利于LR圖像和參考圖像之間的對(duì)齊;與此同時(shí),為了去除偽影,參考圖像中的真實(shí)紋理信息指導(dǎo)了擴(kuò)散模型中細(xì)節(jié)的生成,減少了偽影的產(chǎn)生。在五個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),包括CUFED5[12]、Manga109[13]、Urban100[14]、Sun80[15]和WR?SR[5]。結(jié)果表明,提出的框架在視覺質(zhì)量上取得了更好的表現(xiàn),與最先進(jìn)的方法在定量上表現(xiàn)相當(dāng)。
本文的主要貢獻(xiàn)有:對(duì)Ref?SR中細(xì)節(jié)增強(qiáng)的重要性進(jìn)行了深入調(diào)查,而這一方面在以往的方法中往往被忽視;提出了細(xì)節(jié)增強(qiáng)框架(DEF),將擴(kuò)散模型引入Ref?SR模型中,這不僅有助于更精確的對(duì)齊,而且在對(duì)齊后減少了生成圖像的偽影。實(shí)驗(yàn)結(jié)果表明,本文提出的方法在保持可比數(shù)值保真度的同時(shí),實(shí)現(xiàn)了領(lǐng)先的視覺性能。
1" 圖像超分辨率模型分析
1.1" 零值域分解
評(píng)估圖像超分辨率結(jié)果的視覺質(zhì)量長期以來一直是一個(gè)棘手的問題,因?yàn)樘岢鲆粋€(gè)被廣泛接受的度量來有意識(shí)地評(píng)估或改進(jìn)它太復(fù)雜了。大多數(shù)方法傾向于縮小像素值之間的差距,導(dǎo)致輸出具有細(xì)節(jié)不足、過度平滑,并且視覺呈現(xiàn)對(duì)人類感知不利。
受到相關(guān)工作[16?17]的啟發(fā),圖像可以分解為符合數(shù)據(jù)一致性的值域空間和代表真實(shí)性的零域空間。具體來說,數(shù)據(jù)一致性表示圖像的結(jié)構(gòu)特征,而真實(shí)性傾向于反映圖像中固有的更細(xì)微的細(xì)節(jié)。給定一個(gè)無噪聲的圖像超分辨率模型如下:
[y=Ax] (1)
式中:[x∈RD×1]、[A∈Rd×D]和[y∈Rd×1]分別代表真實(shí)圖像(GT)、線性退化因子和退化后的圖像。為了從輸入圖像[y]中得到SR圖像[x],需要設(shè)置兩個(gè)約束來保證SR圖像的視覺效果。
[Ax≡y] (2)
[x~q(x)] (3)
式中[q(x)]代表真實(shí)圖像的分布。式(2)代表數(shù)據(jù)一致性的約束,式(3)則代表真實(shí)性的約束。通過對(duì)[A]做奇異值分解,可以得到它的偽逆[A?]的矩陣形式,而它的偽逆[A?]可以用于把真實(shí)圖像[x]投影到值域,因?yàn)橛校?/p>
[AA?Ax=Ax] (4)
同樣地,[(I-A?A)]可以把[x]投影到零域,因?yàn)橛校?/p>
[A(I-A?A)x=0] (5)
需要注意的是,任意圖像[x]都可以被投影到值域和零域,因?yàn)橛校?/p>
[x≡A?Ax+(I-A?A)x] (6)
1.2" 對(duì)于以往模型的分析
由于基于PSNR的模型[3?4,6,9]取得了巨大成功,現(xiàn)有的基于參考的超分辨率方法往往專注于保持圖像的數(shù)據(jù)一致性。這與輸入和輸出之間的均方誤差密切相關(guān),而不是從圖像細(xì)節(jié)的角度考慮真實(shí)性。對(duì)細(xì)節(jié)生成的忽視通常會(huì)導(dǎo)致結(jié)果過于平滑。為了研究這個(gè)問題,重新訓(xùn)練了TTSR[4]模型,以評(píng)估是否可以通過現(xiàn)有兩種模型的聚合來增強(qiáng)細(xì)節(jié)。
基于參考的模型:當(dāng)前基于參考的算法大致可以分為特征提取、匹配和融合三個(gè)部分,其中融合可以進(jìn)一步分解為紋理轉(zhuǎn)移和紋理聚合。通過在參考圖像和LR圖像之間匹配最相關(guān)的圖像塊,紋理可以直接從HR圖像轉(zhuǎn)移到LR圖像。這種操作保證了已經(jīng)轉(zhuǎn)移的紋理的數(shù)據(jù)一致性,但仍然存在一些缺點(diǎn),包括紋理誤匹配和紋理欠匹配。
在基于參考的數(shù)據(jù)集中,相似但略有不同的紋理可能會(huì)在參考圖像中出現(xiàn)多次。當(dāng)試圖在參考圖像和輸入圖像之間精確匹配正確的紋理時(shí),這可能會(huì)帶來挑戰(zhàn)。另一方面,參考圖像和輸入圖像的亮度、對(duì)比度和色調(diào)等參數(shù)可能不同。在沒有任何基本調(diào)整的情況下轉(zhuǎn)移紋理,可能會(huì)對(duì)最終輸出的感知質(zhì)量產(chǎn)生毀滅性的影響。紋理誤匹配可能在這兩種情況下發(fā)生。
即使在存在多個(gè)參考圖像的情況下,參考圖像可能也無法涵蓋需要轉(zhuǎn)移到輸入圖像的所有紋理。因此,可能會(huì)存在一定數(shù)量的不匹配紋理,導(dǎo)致紋理欠匹配。
基于生成的模型:生成模型,尤其是最近的去噪擴(kuò)散概率模型(DDPMs),以其再現(xiàn)高頻細(xì)節(jié)的能力而聞名。此外,就重建質(zhì)量而言,已觀察到DDPMs相對(duì)于基于回歸的方法在主觀感知質(zhì)量方面表現(xiàn)出更好的性能,這對(duì)于迭代地在零域中完善輸入圖像非常理想。通過應(yīng)用通用的預(yù)訓(xùn)練權(quán)重,可以大大降低計(jì)算復(fù)雜度并獲得穩(wěn)定的輸出。然而,正如上面提到的,每幅圖像都具有其獨(dú)特的分布,這不是完全可以由通用的預(yù)訓(xùn)練權(quán)重預(yù)測(cè)的。在這種情況下,生成模型容易生成偽影。
總之,基于參考的模型利用相似的參考圖像來指導(dǎo)LR圖像的恢復(fù),但是對(duì)應(yīng)匹配中的細(xì)節(jié)不足降低了對(duì)齊準(zhǔn)確率。相比之下,擴(kuò)散模型完全有能力生成細(xì)節(jié),但是由于缺少具體的先驗(yàn)信息,導(dǎo)致輸出中出現(xiàn)偽影。通過聚合基于參考的模型和擴(kuò)散模型,后者生成的細(xì)節(jié)可以用于增強(qiáng)對(duì)應(yīng)關(guān)系圖并彌補(bǔ)缺失的細(xì)節(jié)。
2" 細(xì)節(jié)增強(qiáng)算法框架
2.1" 總" 覽
為了解決細(xì)節(jié)增強(qiáng)問題,本文提出了一個(gè)新的框架如圖1所示,該框架繼承了基于參考的模型的主要結(jié)構(gòu),同時(shí)引入了擴(kuò)散模型。整個(gè)細(xì)節(jié)增強(qiáng)問題可以分解為兩個(gè)子任務(wù):細(xì)節(jié)生成和細(xì)節(jié)傳遞。首先,輸入圖像經(jīng)過擴(kuò)散模型的反向過程增強(qiáng)了細(xì)節(jié)。然而由于其低可信度,生成的細(xì)節(jié)將按比例替換為參考圖像的相應(yīng)部分,而其余未被替換的部分可以解決上述的欠匹配問題。
對(duì)于細(xì)節(jié)生成任務(wù),不直接應(yīng)用下采樣的輸入圖像,因?yàn)檫@嚴(yán)重破壞了先驗(yàn)信息,而是通過預(yù)訓(xùn)練的擴(kuò)散模型對(duì)輸入圖像進(jìn)行上采樣,獲得細(xì)節(jié)增強(qiáng)的輸入圖像。
至于細(xì)節(jié)傳遞任務(wù),遵循傳統(tǒng)的基于參考的超分辨率過程。首先,對(duì)細(xì)節(jié)增強(qiáng)圖像和參考圖像進(jìn)行特征提取:
[FTexture=FTE(IRef,IDE)] (7)
式中:[FTexture]、[FTE]、[IRef]和[IDE]分別代表紋理特征、特征提取模塊、參考圖像以及細(xì)節(jié)增強(qiáng)后的輸入圖像。
當(dāng)涉及到對(duì)齊時(shí),利用細(xì)節(jié)增強(qiáng)的輸入圖像來計(jì)算參考圖像和輸入圖像之間的相似性。通過用細(xì)節(jié)增強(qiáng)的輸入圖像替換細(xì)節(jié)不足的輸入圖像,有效地解決了準(zhǔn)確計(jì)算對(duì)應(yīng)關(guān)系圖所面臨的挑戰(zhàn)。最后,使用多尺度聚合模塊[FMSA]從經(jīng)過轉(zhuǎn)移的圖像特征[FDE]和參考圖像特征[FRef]中獲取最終結(jié)果[ISR]。
[ISR=FMSA(FRef,F(xiàn)DE)] (8)
2.2" 細(xì)節(jié)增強(qiáng)模塊
在傳統(tǒng)的基于參考的超分辨率框架中,對(duì)LR圖像和參考圖像的特征提取是同時(shí)開始的。而DEF引入了一種新的范式,在增強(qiáng)過程中將擴(kuò)散模型作為初始步驟進(jìn)行整合。將考慮的圖像分解為不同的值域部分和零域部分,如式(9)所示,本文方法通過將主要注意力引向零域部分來優(yōu)先增強(qiáng)圖像細(xì)節(jié)。使用簡(jiǎn)單的下采樣操作符[A]來提取零空間信息[(I-A?A)x]。需要注意的是,提取的信息受到公式(2)中提到的數(shù)據(jù)一致性的約束:
[Ax=AA?y+A(I-A?A)xn=y+(A-A)xn=y] (9)
式中[xn]指圖像中提取到的零域信息。
與其他生成模型不同,擴(kuò)散模型的輸出受到嚴(yán)格的圖像大小約束。為了在具有任意圖像大小的數(shù)據(jù)集上評(píng)估本文方法,受到分塊方法的啟發(fā),將圖像切分成滿足圖像大小限制要求的圖像塊,并將它們輸入到擴(kuò)散模型中。一種合理的方法是將圖像分割成不同的圖像塊,然后在后處理階段將它們連接起來。例如,如果有一個(gè)尺寸為128×256的圖像,可以將其切成兩個(gè)滿足擴(kuò)散模型輸入需求的128×128的部分。
2.3" 特征提取和對(duì)齊模塊
為了在輸入圖像和參考圖像之間實(shí)現(xiàn)精準(zhǔn)對(duì)齊,需要提取兩者的特征。通過將預(yù)訓(xùn)練的分類模型分成多個(gè)部分,得到了細(xì)節(jié)增強(qiáng)圖像[IDE]和參考圖像[IRef]的多尺度特征,即對(duì)圖像進(jìn)行多尺度特征提?。?/p>
[FsDE=FTE(IDE)," " "FsRef=FTE(IRef)] (10)
式中[FsDE]和[FsRef]是圖像在第[s]個(gè)尺度上提取到的特征。先前的方法傾向于通過降采樣然后上采樣來預(yù)處理參考圖像以匹配分辨率。由于擴(kuò)散模型已經(jīng)彌補(bǔ)了分辨率差距并在低分辨率圖像中生成了豐富的細(xì)節(jié),因此上采樣是不必要的。
對(duì)齊的準(zhǔn)確性在于計(jì)算相應(yīng)圖像塊之間的相似度。余弦相似度是最常用的度量標(biāo)準(zhǔn)。首先將[FsDE]和[FsRef]分割成圖像塊[Fs'DE=[q1,q2,…,qHW]]和[Fs'Ref=[k1,k2,…,kH'W']],然后通過計(jì)算[Fs'DE]和[Fs'Ref]中元素的內(nèi)積來評(píng)估相關(guān)度[ri,j]:
[ri,j=qiqi,kjkj] (11)
關(guān)于[Fs'DE]中的第[i]個(gè)元素,可以通過以下方式獲得索引映射矩陣[Pi]和置信度映射矩陣[Ci]:
[Pi=argmaxjri,j," " "Ci=maxjri,j] (12)
式中:[Pi]代表在參考圖像中需要進(jìn)行轉(zhuǎn)移的位置;[Ci]則代表二者的相關(guān)度。
2.4" 紋理轉(zhuǎn)移與聚合
現(xiàn)有的Ref?SR方法面臨1.2節(jié)中討論的紋理不匹配的問題時(shí),在性能上往往會(huì)有明顯下降。導(dǎo)致這個(gè)問題的原因不僅包括對(duì)齊過程中的錯(cuò)位,還包括卷積傳統(tǒng)設(shè)計(jì)中的固有缺陷。與常規(guī)卷積核不同,待轉(zhuǎn)移的紋理形狀可能不是固定的,這使得映射并不準(zhǔn)確。為了解決這個(gè)問題,采用了可調(diào)整感受野的可變卷積網(wǎng)絡(luò)[18](Deformable Convolution Network, DCN)。給定輸入圖像中的位置[pi],可以利用對(duì)齊過程中獲取的索引映射[Pi]中的對(duì)應(yīng)位置[pki]和在置信度映射[Ci]中獲取的傳輸紋理的置信度[cki],來計(jì)算該位置上的第[l]個(gè)尺度特征[Til]。
[Til=ckijwjFlRef(pki+pc+Δpj)mj] (13)
式中:[wj]表示卷積核權(quán)重;[pc∈{(-1,1),(-1,0),…,(1,1)}];[Δpj]和[mj]分別表示第[j]個(gè)可學(xué)習(xí)的偏移和可學(xué)習(xí)的掩碼。在對(duì)[FlRef]和第[l]個(gè)尺度的索引映射[Pl]進(jìn)行變形后,變形結(jié)果為[wl],然后通過對(duì)[wl]和從[IDE]提取的第[l]個(gè)尺度特征[FlDE]實(shí)施卷積來學(xué)習(xí)[Δpj]和[mj]。
最后,需要集成多尺度轉(zhuǎn)移特征模塊以輸出SR圖像。在這里,繼承TTSR[4]提出的跨尺度集成模塊,該模塊逐步從較低尺度聚合紋理到較高尺度。具體來說,這個(gè)模塊在信息利用方面表現(xiàn)出理想的性能,符合本文要求。
2.5" 實(shí)施細(xì)節(jié)
網(wǎng)絡(luò)概述可以分解為兩個(gè)部分:擴(kuò)散模型和Ref?SR架構(gòu)。前者負(fù)責(zé)SISR子任務(wù),后者則包括紋理提取和轉(zhuǎn)移。
1) 數(shù)據(jù)集預(yù)處理
通過隨機(jī)旋轉(zhuǎn)圖像(旋轉(zhuǎn)角度在0~360°之間,間隔為90°)和隨機(jī)水平和垂直翻轉(zhuǎn)圖像來增強(qiáng)數(shù)據(jù)集。
2) 擴(kuò)散模型的實(shí)現(xiàn)
使用雙三次下采樣器作為退化算子以確保公平比較。至于噪聲計(jì)劃和輸入圖像約束,選擇線性噪聲計(jì)劃和256×256的預(yù)訓(xùn)練模型。為了在訓(xùn)練期間實(shí)現(xiàn)細(xì)粒度的擴(kuò)散過程,將時(shí)間步長設(shè)置為1 000。避免了其他時(shí)間步驟的評(píng)估,因?yàn)樗鼈儠?huì)影響可比性。線性噪聲計(jì)劃的端點(diǎn)為[1-α0=10-6]和[1-αT=10-2]。
3) 紋理轉(zhuǎn)移網(wǎng)絡(luò)的訓(xùn)練
為了公平比較,在4倍尺度上訓(xùn)練DEF,特征提取器共享相同的架構(gòu)。具體來說,使用Adam優(yōu)化器訓(xùn)練網(wǎng)絡(luò),參數(shù)[β1=0.9]和[β2=0.999]。學(xué)習(xí)率設(shè)置為1×10-4,批量大小為9,每批包含9個(gè)LR、HR和參考圖像。需要注意的是,給定提取器的權(quán)重應(yīng)該固定,因?yàn)楹罄m(xù)的比較需要穩(wěn)定性,可變的提取器可能會(huì)影響對(duì)應(yīng)關(guān)系匹配的性能。
4) 損失函數(shù)
鑒于本文方法的重點(diǎn)是增強(qiáng)重建圖像的視覺質(zhì)量,同時(shí)通過利用圖像的空間結(jié)構(gòu)和語義信息來保留復(fù)雜細(xì)節(jié),引入重建損失以指導(dǎo)訓(xùn)練過程是至關(guān)重要的。為了增強(qiáng)SR圖像的細(xì)節(jié),還引入了感知損失和對(duì)抗損失,因此整體損失函數(shù)如下所示:
[?=?rec+λ1?per+λ2?adv] (14)
為了更加重視細(xì)節(jié),將[?rec]、[?per]和[?adv]的權(quán)重系數(shù)分別設(shè)置為1、1×10-2和1×10-4。重建損失是前兩個(gè)時(shí)期訓(xùn)練過程中唯一涉及的損失,用于預(yù)熱網(wǎng)絡(luò),而感知損失和對(duì)抗損失則在后續(xù)過程中添加,直到結(jié)束訓(xùn)練。
3" 實(shí)" 驗(yàn)
3.1" 數(shù)據(jù)集和衡量指標(biāo)
1) 訓(xùn)練數(shù)據(jù)集
本文模型的整個(gè)訓(xùn)練過程在CUFED5數(shù)據(jù)集上完成,該數(shù)據(jù)集包括11 871對(duì)圖像,每對(duì)圖像包括一個(gè)輸入圖像和一個(gè)參考圖像。由于輸入和參考圖像的分辨率均為160×160,將輸入圖像分辨率大小調(diào)整為40×40,以進(jìn)行后續(xù)的4倍超分辨率。
2) 測(cè)試數(shù)據(jù)集
為了展示本文網(wǎng)絡(luò)的泛化能力,采用了五個(gè)測(cè)試集,包括CUFED5、Sun80、Urban100、Manga109和WR?SR。CUFED5的測(cè)試集包含126張圖像,每張圖像都有4個(gè)不同相似度尺度的參考圖像。WR?SR有150組圖像,每組圖像包括一張輸入圖像和多張參考圖像。Sun80有80張自然圖像,每張圖像都與多個(gè)參考圖像配對(duì)。Urban100有100張建筑圖像,而Manga109有109張漫畫圖像,其中大部分圖像共享相同的風(fēng)格。它們是沒有參考圖像的SISR數(shù)據(jù)集,因此遵循設(shè)置:Urban100采用其LR圖像作為參考圖像,而在Manga109中隨機(jī)選擇另一張HR圖像作為其參考圖像。
3) 評(píng)估指標(biāo)
通過PSNR和SSIM指標(biāo)來評(píng)估本文提出的方法和其他方法取得的結(jié)果。具體來說,這些指標(biāo)是在YCrCb色彩空間的亮度通道上計(jì)算的。
3.2" 與最先進(jìn)方法的對(duì)比
將本文方法與先前最先進(jìn)的SISR方法和單參考Ref?SR方法進(jìn)行了比較。SISR方法包括SRCNN、EDSR、ESRGAN和RankSRGAN,本文選擇其中一半的方法是基于GAN的,因?yàn)樗鼈兙哂猩韶S富細(xì)節(jié)的強(qiáng)大能力。單參考Ref?SR方法包括SRNTT、TTSR、MASA和C2?matching。
1) 定量比較
為了公平比較,在CUFED5數(shù)據(jù)集上訓(xùn)練所有方法,并在CUFED5、Manga109、Sun80、Urban100和WR?SR的測(cè)試集上進(jìn)行評(píng)估,結(jié)果如表1所示。
所有提到的方法的尺度因子均為×4。表1表明,本文方法勝過大多數(shù)先前的方法,并在WR?SR數(shù)據(jù)集上與C2?matching取得了相仿的表現(xiàn),這凸顯了在特征對(duì)齊和聚合過程中提出的獨(dú)特細(xì)節(jié)生成結(jié)構(gòu)的優(yōu)越性。
2) 定性評(píng)估
定性評(píng)估給出了本文方法、一個(gè)SISR方法和先前最先進(jìn)的Ref?SR方法的視覺結(jié)果。將本文方法與ESRGAN、TTSR、MASA和C2?matching進(jìn)行了比較,結(jié)果如圖2所示。
通過比較來自相同輸入LR圖像的選定部分的結(jié)果,很明顯本文方法可以在各個(gè)方面恢復(fù)更準(zhǔn)確的細(xì)節(jié)。圖2的第一行專注于合成自然人臉,而第二行和第三行的焦點(diǎn)是字母和物體紋理的恢復(fù)。ESRGAN無法充分利用參考圖像中的信息,導(dǎo)致無法生成可靠的細(xì)節(jié)。TTSR、MASA和C2?matching由于輸入LR圖像與參考圖像之間的細(xì)節(jié)差距而無法充分利用參考圖像中的信息,進(jìn)而妨礙了對(duì)齊和傳遞過程。對(duì)于基于參考的方法,細(xì)節(jié)增強(qiáng)的輸入圖像平滑了物體的邊緣,在特征域中使對(duì)齊更準(zhǔn)確,從而優(yōu)化了紋理傳輸和集成過程,最終呈現(xiàn)出更高視覺質(zhì)量的圖像。
3.3" 消融實(shí)驗(yàn)
在本節(jié)中,進(jìn)行消融實(shí)驗(yàn)以驗(yàn)證本文對(duì)Baseline的改進(jìn)的有效性,包括細(xì)節(jié)增強(qiáng)框架和可變卷積網(wǎng)絡(luò)。
與簡(jiǎn)單地調(diào)整輸入LR圖像大小不同,本文的細(xì)節(jié)增強(qiáng)框架通過在特征提取之前應(yīng)用擴(kuò)散模型來縮小分辨率差距。重新訓(xùn)練了TTSR作為本文的Baseline。消融實(shí)驗(yàn)結(jié)果如表2所示。
表2顯示,本文方法的PSNR和SSIM值均顯著增加,其中,對(duì)Baseline的改進(jìn)方法相比Baseline在PSNR指標(biāo)上均提高了2 dB。先前的方法通常通過雙三次插值將LR圖像上采樣,利用周圍的16個(gè)像素來生成目標(biāo)像素值,從而匹配輸入圖像和參考圖像之間的分辨率。雖然基本的對(duì)齊要求已得到滿足,但過度平滑的圖像往往會(huì)在最終輸出中產(chǎn)生偽影。結(jié)果表明,DEF在對(duì)齊和傳輸部分的細(xì)節(jié)增強(qiáng)任務(wù)中遠(yuǎn)遠(yuǎn)優(yōu)于Baseline。
由于對(duì)參考圖像進(jìn)行預(yù)處理以獲得與LR圖像分辨率相同圖像,Baseline采用了transformer結(jié)果進(jìn)行對(duì)齊。為了保留參考圖像中的細(xì)節(jié),保留了原始參考圖像,因此transformer結(jié)構(gòu)是不必要的。本文采用相關(guān)嵌入來獲取索引圖,然后根據(jù)索引,將卷積網(wǎng)絡(luò)升級(jí)為可變形卷積網(wǎng)絡(luò),增強(qiáng)其對(duì)不規(guī)則紋理轉(zhuǎn)移的魯棒性。表2中的統(tǒng)計(jì)數(shù)據(jù)顯示了PSNR指標(biāo)的顯著提高。由于在參考圖像的預(yù)處理過程中細(xì)節(jié)已經(jīng)受損,因此SSIM的提升有限。
4" 結(jié)" 語
本文提出了一種新穎的細(xì)節(jié)增強(qiáng)框架,以緩解SR的不適定本質(zhì)對(duì)重建質(zhì)量的影響?;诶碚摲治?,在理想的SR模型中設(shè)置了兩個(gè)約束,以確保SR圖像的真實(shí)性和數(shù)據(jù)一致性。具體而言,在DEF中,借助擴(kuò)散模型對(duì)圖像進(jìn)行分解,并迭代地優(yōu)化部分內(nèi)容。通過應(yīng)用新框架,在LR圖像中生成豐富的細(xì)節(jié),并解決特征對(duì)齊階段的紋理不匹配問題。此外,利用可變形卷積網(wǎng)絡(luò)實(shí)現(xiàn)了細(xì)節(jié)增強(qiáng)的LR圖像與參考圖像之間更精確的特征轉(zhuǎn)移。實(shí)驗(yàn)結(jié)果,尤其是定性結(jié)果,證明了本文提出的框架在優(yōu)化當(dāng)前Ref?SR結(jié)構(gòu)方面的可行性。
參考文獻(xiàn)
[1] ZHENG H T, JI M Q, WANG H Q, et al. CrossNet: An end?to?end reference?based super resolution network using cross?scale war?ping [C]// Proceedings of the European Conference on Computer Vision (ECCV). Heidelberg, Germany: Springer, 2018: 87?104.
[2] SHIM G, PARK J, KWEON I S. Robust reference?based super?resolution with similarity?aware deformable convolution [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2020: 8422?8431.
[3] ZHANG Z F, WANG Z W, LIN Z L, et al. Image super?resolution by neural texture transfer [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2019: 7982?7991.
[4] YANG F Z, YANG H, FU J L, et al. Learning texture transformer network for image super?resolution [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2020: 5790?5799.
[5] JIANG Y M, CHAN K C K, WANG X T, et al. Robust reference?based super?resolution via C2?matching [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2021: 2103?2112.
[6] LU L Y, LI W B, TAO X, et al. MASA?SR: Matching acceleration and spatial adaptation for reference?based image super?resolution [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2021: 6368?6377.
[7] CAO J Z, LIANG J Y, ZHANG K, et al. Reference?based image super?resolution with deformable attention transformer [C]// 17th European Conference on Computer Vision. Heidelberg, Germany: Springer, 2022: 325?342.
[8] HUANG Y X, ZHANG X Y, FU Y, et al. Task decoupled framework for reference?based super?resolution [C]// Procee?dings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2022: 5921?5930.
[9] XIA B, TIAN Y, HANG Y, et al. Coarse?to?fine embedded PatchMatch and multi?scale dynamic aggregation for reference?based super?resolution [C]// Proceedings of the AAAI Conference on Artificial Intelligence. [S.l.]: AAAI Press, 2022: 2768?2776.
[10] ZHANG L, LI X, HE D L, et al. RRSR: Reciprocal reference?based image super?resolution with progressive feature alignment and selection [C]// 17th European Conference on Computer Vision. Heidelberg, Germany: Springer, 2022: 648?664.
[11] ZHANG L, LI X, HE D L, et al. LMR: A large?scale multi?re?ference dataset for reference?based super?resolution [EB/OL]. [2024?02?27]. https://doi.org/10.48550/arXiv.2303.04970.
[12] WANG Y F, LIN Z, SHEN X H, et al. Event?specific image importance [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2016: 4810?4819.
[13] MATSUI Y, ITO K, ARAMAKI Y, et al. Sketch?based manga retrieval using manga109 dataset [J]. Multimedia tools and applications, 2017, 76(20): 21811?21838.
[14] HUANG J B, SINGH A, AHUJA N. Single image super?resolution from transformed self?exemplars [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2015: 5197?5206.
[15] SUN L, HAYS J. Super?resolution from internet?scale scene matching [C]// 2012 IEEE International Conference on Computational Photography (ICCP). New York: IEEE, 2012: 1?12.
[16] SCHWAB J, ANTHOLZER S, HALTMEIER M. Deep 1 space learning for inverse problems: Convergence analysis and rates [J]. Inverse problems, 2019, 35(2): 025008.
[17] WANG Y H, HU Y J, YU J W, et al. GAN prior based 1?space learning for consistent super?resolution [C]// Proceedings of the AAAI Conference on Artificial Intelligence. [S.l.]: AAAI Press, 2023: 2724?2732.
[18] DAI J F, QI H Z, XIONG Y W, et al. Deformable convolutional networks [C]// Proceedings of the IEEE International Con?ference on Computer Vision. New York: IEEE, 2017: 764?773.
作者簡(jiǎn)介:王子涵(1997—),男,湖北武漢人,在讀碩士研究生,研究方向?yàn)閳D像超分辨率。
袁曉兵(1969—),男,吉林長春人,博士研究生,研究員,研究方向?yàn)闊o線傳感器網(wǎng)絡(luò)、物聯(lián)網(wǎng)核心技術(shù)與行業(yè)應(yīng)用等。
收稿日期:2024?03?25" " " " " "修回日期:2024?04?16
基金項(xiàng)目:微系統(tǒng)技術(shù)實(shí)驗(yàn)室基金項(xiàng)目(6142804230103)