莫太平,黃巧人,陳德鴻,伍錫如,張向文
(桂林電子科技大學(xué)電子工程與自動化學(xué)院 廣西 桂林 541000)
尺寸小的低分辨率(low resolution, LR)圖像恢復(fù)成大尺寸或原尺寸的高分辨率(high resolution,HR)圖像的過程叫圖像超分辨率(super-resolution,SR)重建,可以在有限的硬件設(shè)備條件下提高圖像品質(zhì)恢復(fù)和復(fù)原的效果,該技術(shù)目前已成功應(yīng)用在醫(yī)療診斷、紅外遙感、虹膜識別和安防監(jiān)控等領(lǐng)域。
近些年,卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network, CNN)受到廣泛的研究與應(yīng)用,并在姿態(tài)估計、目標(biāo)檢測和圖像增強等計算機視覺任務(wù)中獲得了優(yōu)異的效果,被不斷嘗試應(yīng)用于新的視覺任務(wù)中。SRCNN[1]首次被用于圖像超分辨率重建就獲得了比傳統(tǒng)算法更好的重建效果。在此基礎(chǔ)上,文獻(xiàn)[2]提出快速超分辨率卷積神經(jīng)網(wǎng)絡(luò),去除輸入圖像預(yù)處理步驟,采用反卷積進(jìn)行上采樣操作,加快了模型的訓(xùn)練速度。
隨著研究人員的深入探索,卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)不斷增加以提升圖像重建質(zhì)量。受ResNet[3]殘差思想的啟發(fā),文獻(xiàn)[4]提出更深層的超分辨率網(wǎng)絡(luò)(very deep convolutional networks, VDSR),利用殘差結(jié)構(gòu)加深網(wǎng)絡(luò)層數(shù),通過自適應(yīng)梯度裁剪策略來加快模型訓(xùn)練的收斂速度,同時解決梯度爆炸問題,獲得了優(yōu)于SRCNN 算法的圖像質(zhì)量評價。文獻(xiàn)[5]整合殘差塊和密集塊,提出殘差密集網(wǎng)絡(luò)(residual dense network, RDN),充分提取了特征信息。文獻(xiàn)[6]提出超分辨率生成對抗網(wǎng)絡(luò)(superresolution generative adversarial network, SRGAN),使用16 個殘差塊串聯(lián)組成生成網(wǎng)絡(luò),利用VGG19[7]提出的感知損失優(yōu)化函數(shù)提升了恢復(fù)圖像的真實感。文獻(xiàn)[8]提出增強深度殘差網(wǎng)絡(luò)(enhanced deep residual networks, EDSR),和SRGAN 相比去除了ResNet 上不必要的模塊,如批量歸一化層(batch normalization, BN)。EDSR 采 用L1Loss 函數(shù),提高了圖像超分辨率效果。文獻(xiàn)[9]在SRGAN上也做了去除生成器中BN 的處理,同時加入高效通道注意力,從而獲取更多的圖像細(xì)節(jié)。
最近,一些研究使用編碼器-解碼器框架對降尺度和還原尺度過程進(jìn)行聯(lián)合建模從而實現(xiàn)圖像超分辨率重建。在IRN[10]中,高頻信息獨立于LR 圖像進(jìn)行建模,性能上受到局限。HCFlow[11]考慮了高頻信息與LR 圖像關(guān)系,相比IRN 恢復(fù)了較豐富的高頻細(xì)節(jié),但沒有充分利用高頻信息與LR 圖像之間的交互作用。文獻(xiàn)[12]使用圖像隱寫的思想將高頻信息嵌入到LR 圖像中,提出一種用于單幅圖像的可逆隱寫縮放網(wǎng)絡(luò)(invertible steganography rescaling network, ISRN),該網(wǎng)絡(luò)有效提取和分離了視覺上難以察覺的隱寫信息,從而更好地嵌入到LR 圖像中,一定程度上提高了重建圖像的質(zhì)量。針對IRN 的圖像降尺度不適定問題,文獻(xiàn)[13]引入新的下縮放潛變量,結(jié)合原始潛變量形成一個具有雙潛變量的DLV-IRN,在不同的測試集和測試尺度上都提高了生成的HR 圖像的質(zhì)量。文獻(xiàn)[14]提出可逆任意圖像縮放網(wǎng)絡(luò)(invertible arbitrary rescaling network, IARN),利用位置感知尺度編碼和搶占式信道分割等創(chuàng)新組件改進(jìn)網(wǎng)絡(luò)。結(jié)果表明,在雙向任意縮放的情況下,該方法具有較好的性能。這些算法雖然提升了重建后的圖像質(zhì)量,但整個模型的復(fù)雜度較大,對承載的硬件要求較高。
針對上述問題,為了平衡模型復(fù)雜度和重建性能,本文提出一種改進(jìn)的IRN 算法。通過對IRN 關(guān)鍵組件進(jìn)行深入研究,發(fā)現(xiàn)IRN 的特征提取模塊能提取足夠的特征信息,但參數(shù)量較大,影響模型的計算速度;模型的潛變量嵌入信息不足,影響逆向訓(xùn)練捕捉邊緣信息的能力。所以利用注意力機制和密集連接網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計特征提取模塊,并使用小波域高頻子帶插值設(shè)計網(wǎng)絡(luò)的潛變量,網(wǎng)絡(luò)參數(shù)量較少,計算量低,同時保證了網(wǎng)絡(luò)的超分辨重建性能,使網(wǎng)絡(luò)能夠部署在硬件要求不高的場景,具有較高的實用價值。
IRN 是一種構(gòu)造雙射、有效可逆并且具有易處理雅可比行列式特點的神經(jīng)網(wǎng)絡(luò)。網(wǎng)絡(luò)主要有兩個任務(wù):前向和逆向訓(xùn)練過程,如圖1 所示。
圖1 可逆神經(jīng)網(wǎng)絡(luò)示意圖
假設(shè)X∈ ?D,Y∈ ?L,數(shù)據(jù)在前向過程中損失部分信息,所以Y的固有維度L一定小于X的固有維度D,為訓(xùn)練捕獲損失的信息,引入潛變量Z調(diào)整逆向過程,表示為:
式中,θ 是網(wǎng)絡(luò)參數(shù);p(z)表示潛變量z的概率分布。相應(yīng)的前向過程f(x;θ)可以表示為:
結(jié)合上述定義,X的模型分布可以表示為:
式中,JX是雅可比行列式
該神經(jīng)網(wǎng)絡(luò)由一系列的構(gòu)建塊組成,本文使用文獻(xiàn)[15]的仿射耦合層構(gòu)建神經(jīng)網(wǎng)絡(luò),如圖2 所示。輸入被分成[J1,J2],經(jīng)上/下三角的雅可比仿射變換:
圖2 可逆神經(jīng)網(wǎng)絡(luò)構(gòu)建塊
式中,輸出[K1,K2]連接下一個構(gòu)建塊,內(nèi)部函數(shù)φ φ、 、η 代表任意的神經(jīng)網(wǎng)絡(luò),當(dāng)耦合層反轉(zhuǎn)時,有:
本文算法的網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。整個網(wǎng)絡(luò)結(jié)構(gòu)由兩個相同的降尺度模塊串聯(lián)組成。降尺度模塊由一個小波變換和若干個可逆構(gòu)建塊串聯(lián)而成。小波變換作為第一層把圖像x分解成高低頻兩部分并輸入到下一層構(gòu)建塊,同理構(gòu)建塊的輸出作為下一層構(gòu)建塊的輸入。構(gòu)建塊中φ 、 φ、η 是圖像特征提取模塊,為了方便計算,三者使用相同的設(shè)計。
圖3 網(wǎng)絡(luò)模型結(jié)構(gòu)圖
本文利用網(wǎng)絡(luò)的密集連接結(jié)構(gòu)和通道注意力設(shè)計特征提取模塊,輸入數(shù)據(jù)首先經(jīng)過3 層密集連接的空洞卷積[16],其卷積核為3×3,擴展率分別為1,2,4,如圖4 所示。然后每個卷積層再通過ReLU 激活函數(shù)激活后輸出。前面所有層的輸出作為后一層的輸入實現(xiàn)特征復(fù)用,空洞卷積增大了感受野,保證3 層密集連接層能提取足夠多的特征信息,同時減少模塊的參數(shù)量。
圖4 擴展率為1,2,4 的3×3 卷積核的空洞卷積
經(jīng)過密集連接層后,引入卷積注意力模塊[17](convolutional block attention module, CBAM)的通道域部分,聚合特征映射的空間信息,分配更多資源在關(guān)鍵特征信息上,整個特征提取網(wǎng)絡(luò)如圖5 所示。三層密集連接的空洞卷積層提取輸入數(shù)據(jù)的多層密集特征信息,將其輸入到注意力通道域,由通道域計算各特征通道的比例系數(shù),最后加到輸入的特征信息上,實現(xiàn)網(wǎng)絡(luò)自適應(yīng)關(guān)注特征信息的重點區(qū)域。
圖5 特征提取模塊
潛變量的引入是為了捕獲圖像的高頻信息,提高模型圖像超分辨率重建的質(zhì)量。受文獻(xiàn)[18]啟發(fā),本文采用一種基于離散小波變換的高頻子帶插值的潛變量,如圖5 所示。
LR 圖像經(jīng)雙線性插值上采樣2 倍,再利用小波變換分解插值后的圖像,通過LR 圖像與低頻分量LL 比值可獲取修正系數(shù):
式中,XLR和XLL分別代表LR 圖像和低頻分量LL。
如圖6 所示,根據(jù)計算的修正系數(shù)α 調(diào)整HH、HL、LH 高頻分量,將修正后的高頻分量HH′、HL′、LH′通過concatenate 函數(shù)得到潛變量。該潛變量能嵌入圖像高頻信息,使模型在逆向訓(xùn)練過程捕捉更多的圖像邊緣信息,提升重建圖像質(zhì)量。修正系數(shù)針對重建效果可進(jìn)行微調(diào),最終選取2 時,效果最佳。
圖6 模型潛變量
本文算法使用L2和L1損失函數(shù)計算網(wǎng)絡(luò)的前向損失和逆向損失,分別為:
式中,θ 代表網(wǎng)絡(luò)的優(yōu)化參數(shù);N代表每次輸入圖像的數(shù)量;LR 和HR 代表低分辨率和高分辨率標(biāo)簽圖像;Mf和MI代表模型的前向和逆向輸出結(jié)果;yL和z代表前向訓(xùn)練產(chǎn)生的低分辨率圖像和潛變量。整個網(wǎng)絡(luò)的損失函數(shù)是前向損失和逆向損失之和,為:
通過最小化損失函數(shù)優(yōu)化網(wǎng)絡(luò)參數(shù)。
本文使用DIV2K[19]數(shù)據(jù)集作訓(xùn)練集,對訓(xùn)練集圖像進(jìn)行隨機平移、翻轉(zhuǎn)90°和裁剪等操作實現(xiàn)數(shù)據(jù)增強,并且統(tǒng)一圖像尺寸為480×480,滿足訓(xùn)練需求。本文用超分辨率公開的基準(zhǔn)數(shù)據(jù)集Set5,Set14,BSD100,Urban100 作測試集。
實驗平臺配置為處理器Intel I5 10600KF,運行內(nèi)存8 GB,顯卡NVIDIA GeForce RTX2060。實驗運行環(huán)境為Ubuntu18.04,深度學(xué)習(xí)框架為PyTorch,CUDA 加速版本CUDA Toolkit 7.6.5。模型總迭代次數(shù)5×105,初始學(xué)習(xí)率2×10-4,每迭代1×104次,學(xué)習(xí)率衰減一次,衰減率γ=0.5,使用Adam 不斷優(yōu)化網(wǎng)絡(luò)參數(shù)直至模型收斂。
分別使用SE(squeeze-and-excitation)模塊、CBAM 和殘差注意力模塊(residual attention module,RAM)3 種不同的注意機制來結(jié)合密集連接結(jié)構(gòu)。SE 注意力機制將特征圖放到全局池化中,然后提高和降低通道維數(shù),最后與原特征圖相乘,生成一個新的特征圖[20]。CBAM 的通道域比SE 模塊多一個全局最大池化層,將不同池化后的兩個特征圖相加后與原特征圖相乘,得到輸出結(jié)果。RAM[21]的通道域采用方差池化,后續(xù)步驟與SE 注意機制類似。對比分析以上3 種不同特征提取模塊引入到采用基于小波域高頻自帶插值的潛變量的可逆縮放網(wǎng)絡(luò)中的效果。實驗結(jié)果如表1所示。從表中的結(jié)果可以得出,SE 和RAM 的加入降低了算法的性能,而CBAM 的加入在一定程度上提高了算法的性能。因此,CBAM 是本算法注意機制的最佳選擇。
表1 不同注意力機制的對比
為了測試和分析改進(jìn)的IRN 網(wǎng)絡(luò)的重建性能,本文設(shè)計消融實驗來驗證效果。以尺度因子×4 為例,在Set14 數(shù)據(jù)集上比較是否引入CBAM 和基于小波域高頻子帶插值的潛變量對圖像超分辨率重建的影響。如表2 所示,其中:√代表采用,×代表不采用。可以發(fā)現(xiàn)同時采用CBAM和基于小波域高頻子帶插值的潛變量的模型效果最好。
為了進(jìn)一步比較由高斯分布和小波域高頻子帶插值組成的潛變量的性能。使用Set14 數(shù)據(jù)集進(jìn)行測試,提取網(wǎng)絡(luò)在執(zhí)行可逆構(gòu)建塊時產(chǎn)生的特征圖。之后對所有特征圖進(jìn)行相同處理,如增加曝光度、銳度使圖像對比更加明顯。圖7 均來自Img001,圖7a 為從IRN 可逆構(gòu)件塊中提取的4 張?zhí)卣鲌D,圖7b 為從本文模型可逆構(gòu)件塊中提取的對應(yīng)特征圖。明顯看出由高斯分布構(gòu)成的潛變量只能提取少量的高頻信息,圖像輪廓不夠清晰。本文采用的小波域高頻子帶插值可以提取豐富的高頻信息,較清晰地看到圖像的輪廓。在其他網(wǎng)絡(luò)組件和參數(shù)設(shè)置相同的情況下,對比采用高斯分布和小波域高頻子帶插值的網(wǎng)絡(luò)在訓(xùn)練期間相同迭代的測試集的峰值信噪比。如圖8 所示,使用小波域高頻子帶插值的潛變量比高斯分布的潛變量的網(wǎng)絡(luò)收斂更快、更穩(wěn)定。因此,基于小波域高頻子帶插值的潛變量比采用高斯分布的潛變量性能好。
圖7 特征圖對比
圖8 不同潛變量在訓(xùn)練時PSNR 的對比
本文從主觀人眼感受和客觀數(shù)據(jù)評價兩方面來評價重建圖像質(zhì)量。主觀人眼感受通過人的視覺評判圖像的優(yōu)劣,客觀數(shù)據(jù)評價通過對峰值信噪比(PSNR)和結(jié)構(gòu)相似度(SSIM)數(shù)值大小來評價圖像的優(yōu)劣,本文主要評價RGB 通道上的PSNR 和SSIM。
PSNR 基于圖像間對應(yīng)像素點的像素差值來評價圖像質(zhì)量,單位為dB,計算公式為:
式中,2n-1 表示圖像像素范圍;MSE 是高分辨圖像IHR和超分辨率重建圖像ISR的均方差。PSNR 的值越大則圖像失真度越小。
SSIM 根據(jù)輸入圖像與重建后的圖像的亮度、對比度和結(jié)構(gòu)來計算圖像的相似性,數(shù)值范圍為[0, 1],值越大表示圖像相似性越高、失真度越小。計算公式為:
式中,x為高分辨圖像;y為超分辨率重建圖像;μx和 μy分 別為x和y的均值;為x和y的方差; σxy為x和y的協(xié)方差;C1和C2為常數(shù),通常取C1=0.01×2552,C2=0.03×2552。
本文算法與SRCNN、SRResNet、SRGAN、EDSR、RDN、IRN 等方法作對比實驗,各算法分別在尺度因子×2 和×4 下計算圖像質(zhì)量指標(biāo),在數(shù)據(jù)集Set5、Set14、BSD100 和Urban100 下的測試結(jié)果如表3、表4 所示。數(shù)據(jù)加粗表示測試的最優(yōu)值。 本 文 算 法 在Set5、 Set14、 BSD100 以 及Urban100 上均取得最高評價指標(biāo),客觀說明本文算法重建的圖像質(zhì)量優(yōu)異。
表3 測試集在尺度因子×2 的PSNR/SSIM
表4 測試集在尺度因子×4 的PSNR/SSIM
為了從主觀上評價各方法的重建效果,在尺度因子×4 結(jié)果中隨機選擇2 張場景不同的圖像,放大每張圖像感興趣的區(qū)域,其效果如圖9 所示,其中HR 表示高分辨率參考圖像。SRCNN、SRGAN、SRResNET 算法重建的圖像存在嚴(yán)重的偽影,缺失大量的圖像邊緣信息,RDNS 和ESDN 算法重建的圖像視覺效果較好,但在紋理細(xì)節(jié)上較模糊。本文方法和IRN 方法的視覺效果最好,兩者難以分辨差異,說明本文方法重建圖像的視覺效果較逼真。
圖9 尺度因子×4 的方法重建圖像視覺效果對比
模型的大小影響硬件的計算速度和內(nèi)存占用率。為檢驗算法的參數(shù)量和運行時間,在4 個測試集中隨機選取50 張圖像,尺度因子×4 進(jìn)行測試,與SRCNN、SRResNet、SRGAN、EDSR、RDN、IRN 算法對比,結(jié)果如表5 所示。數(shù)據(jù)加粗表示最優(yōu)值。從表中數(shù)據(jù)可知,本文方法的參數(shù)量排倒數(shù)第3,重建時間和計算量均為最低。說明本文方法的模型性能比其他算法更好。
表5 模型復(fù)雜度對比結(jié)果
本文利用注意力機制和密集連接網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計特征提取模塊,采用基于小波域高頻子帶插值的潛變量這種改進(jìn)可逆縮放網(wǎng)絡(luò)的圖像超分辨率重建算法,減小了計算量和重建時間,提升了模型訓(xùn)練時對圖像細(xì)節(jié)的注意力,同時解決了潛變量保存高頻信息較少的問題。實驗結(jié)果表明,本文算法的重建圖像效果和模型的性能整體優(yōu)于現(xiàn)有的幾種方法。
致謝:本文工作還得到桂林電子科技大學(xué)研究生教育創(chuàng)新計劃(2021YCXS125)的支持,在此表示感謝!