王 宇,寧 媛
(貴州大學(xué) 電氣工程學(xué)院,貴陽 550025)
近年來,為了提升圖像的質(zhì)量,人們從設(shè)備著手,通過對硬件進(jìn)行升級改造可以提升成像系統(tǒng)性能,提高圖像分辨率。然而,考慮到各方面的因素,諸如硬件的制作成本、制作工藝等一些限制,學(xué)者通過研究對原始圖像進(jìn)行圖像處理操作來獲得更高分辨率的圖像,因此產(chǎn)生了圖像超分辨率技術(shù)[1-2]。
基于深度學(xué)習(xí)的圖像SR積累了大量的關(guān)注度,它已經(jīng)延伸到各種現(xiàn)實(shí)世界的應(yīng)用中。如醫(yī)學(xué)成像、視頻監(jiān)控、遙感、圖像分類、檢測、識別和去噪。然而,現(xiàn)有的用于圖像SR的卷積神經(jīng)網(wǎng)絡(luò)一般有兩個(gè)局限性:一是網(wǎng)絡(luò)深度很深,不僅削弱了自下而上的信息流,而且模型容量大,計(jì)算負(fù)擔(dān)大;其二網(wǎng)絡(luò)架構(gòu)往往是前饋式的,使得前幾層無法捕捉到后幾層的有用信息,限制了特征學(xué)習(xí)能力。
因此,根據(jù)網(wǎng)絡(luò)模型中存在的大量冗余參數(shù),研究者提出了網(wǎng)絡(luò)模型壓縮方法,并將模型壓縮方法分為淺層壓縮和深層壓縮兩大類。具體分類如圖1所示。本文主要從輕量化網(wǎng)絡(luò)模型出發(fā),介紹提出的幾種輕量化網(wǎng)絡(luò)模型。
圖1 模型壓縮分類Fig.1 Model compression classification
神經(jīng)網(wǎng)絡(luò)輕量化的原則是獲得更高效的網(wǎng)絡(luò),優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)和卷積計(jì)算,減少網(wǎng)絡(luò)參數(shù)的同時(shí)不損失性能,加強(qiáng)對網(wǎng)絡(luò)內(nèi)部的理解。下面將主要介紹近年來的幾種輕量化壓縮網(wǎng)絡(luò)。
文獻(xiàn)[3]中提出了一種針對SISR的快速輕量級組卷積網(wǎng)絡(luò)(LGCN)模型,該模型結(jié)構(gòu)如圖2所示。其主要由三部分組成:特征提取網(wǎng)(F-Net)、級聯(lián)記憶群卷積網(wǎng)(C-Net)和重建網(wǎng)(R-Net)。創(chuàng)新之處主要集中在C-Net上,即級聯(lián)多個(gè)記憶群卷積網(wǎng)(MGCN),結(jié)構(gòu)如圖3所示。具體來說,MGCN包含一個(gè)記憶單元和一個(gè)通道注意單元。記憶單元由多個(gè)交替的組卷積層和1×1卷積層組成,采用密集連接的結(jié)構(gòu)建立記憶機(jī)制。與DenseNet[4]不同,利用1×1卷積層作為中間層,逐步收集局部信息。因此,MGCN中的1×1卷積層不僅可以對組卷積層的輸出進(jìn)行線性組合,而且可以逐步收集局部信息。信道關(guān)注單元的靈感來自于擠壓和激勵(lì)網(wǎng)[5]的思想,本文將擠壓和激勵(lì)網(wǎng)[5]中的完全連接層替換為1×1卷積層,以更好地模擬通道方面的關(guān)系。
圖2 LGCN整體框架結(jié)構(gòu)Fig.2 LGCN overall framework structure
圖3 MGCN內(nèi)部結(jié)構(gòu)Fig.3 Internal structure of MGCN
通過實(shí)驗(yàn)比較了LGCN與幾種輕量級SISR方法。其中包括Bicubic、SRCNN[6]、VDSR[7]、LapSRN[8]、MSLapSRN[9]、DRRN[10]和IDN[11]。實(shí)驗(yàn)在4個(gè)基準(zhǔn)數(shù)據(jù)集上評估了超分辨率圖像的平均峰值信噪比(PSNR)和結(jié)構(gòu)相似度(SSIM)值,其結(jié)果見表1。在大多數(shù)縮放因子下,提出的LGCN方法在大多數(shù)數(shù)據(jù)集上實(shí)現(xiàn)了最佳性能。模型在Set5上與IDN相比,在2×和4×尺度上的PSNR表現(xiàn)稍差。需要注意的是,Set5數(shù)據(jù)集是最小的數(shù)據(jù)集,只包含5張圖片。以4×尺度為例,模型在Set14數(shù)據(jù)集上比IDN高0.05 dB,在具有挑戰(zhàn)性的Urban 100數(shù)據(jù)集上比IDN提高0.08 dB。此外,在所有數(shù)據(jù)集上,LGCN在所有縮放因子下都能獲得最高的SSIM值,并且能夠生成與原始高分辨率圖像具有高度結(jié)構(gòu)相似性的圖像。
表1 對比最新的SISR算法的量化結(jié)果Tab.1 Comparison of quantification results of the latest SISR algorithm
此外,還選擇了兩種非輕量級SISR方法,即SRResNet[12]和EDSR[13]進(jìn)行比較,結(jié)果見表2。由表2可見,兩種方法都優(yōu)于LGCN。這是一個(gè)合理的結(jié)果,因?yàn)槠溆懈?、更廣的網(wǎng)絡(luò)結(jié)構(gòu),包含大量的卷積層和參數(shù)。實(shí)際上,SRResNet和EDSR的參數(shù)分別為1 543K和43 000 K,而LGCN的參數(shù)只有660 K。
表2 對比非輕量化網(wǎng)絡(luò)結(jié)果Tab.2 Comparison of non-lightweighted network results
實(shí)驗(yàn)同時(shí)在Set14數(shù)據(jù)集上進(jìn)行了四倍縮放因子的視覺比較,如圖4所示。在圖4中可以觀察到,大部分的比較方法都會因高頻信息的丟失而導(dǎo)致紅框中的花朵出現(xiàn)模糊偽影。相比之下,LGCN方法可以清晰地恢復(fù)花上的紅點(diǎn)。
圖4 set14數(shù)據(jù)集的四倍因子的視覺比較Fig.4 Visual comparison of the four-fold factor for the set14 dataset
在每個(gè)區(qū)塊訓(xùn)練了不同分組大小,即G=1、2和4時(shí)所提出的LGCN,并在表4中顯示了它們的參數(shù)和PSNR。G=1是無組的標(biāo)準(zhǔn)卷積。當(dāng)分組大小為2時(shí),性能下降0.11 dB,對于222 K參數(shù)減少。當(dāng)分組大小改為4時(shí),性能比G=2時(shí)降低0.16 dB,參數(shù)減少110 k。可以看出,隨著組數(shù)的增加,性能越來越差,而參數(shù)數(shù)卻迅速減少。因此在最終的LGCN模型中選擇G=2。從圖5中可以看出,LGCN在G=2時(shí),實(shí)現(xiàn)了一個(gè)相對輕量級的模型,同時(shí)表現(xiàn)出了優(yōu)異的重建質(zhì)量。
圖5 模型參數(shù)對比Fig.5 Comparison of model parameters
2019年,xu[14]提出了一種基于反饋的輕量級復(fù)用神經(jīng)網(wǎng)絡(luò)(FRNN)。FRNN是由一系列遞歸的密集連接塊(DCBs)與低分辨率(LR)圖像特征和輸出前的DCB作為輸入。每個(gè)DCB自適應(yīng)地融合來自側(cè)面輸出中間特征圖的多層次特征,生成強(qiáng)大的特征表示。同時(shí),DCB級聯(lián)了一組多尺度殘差塊(MRB),每一個(gè)MRB都有一個(gè)放大的視場,以充分捕捉多尺度的上下文信息。
圖6介紹了MFRSR的網(wǎng)絡(luò)框架,包括一個(gè)上采樣分支和一個(gè)殘差學(xué)習(xí)分支。
圖6 MFRSR的結(jié)構(gòu)圖Fig.6 Structure of the MFRSR
上采樣分支利用一個(gè)簡單的雙線性上采樣核來調(diào)整LR輸入的大小,使其與HR輸出的大小相同。殘差學(xué)習(xí)分支由LR特征提取塊(LRFEB)組成。
如圖8所示,密集連接塊包含N個(gè)多尺度殘差快,展示了MRB的內(nèi)部結(jié)構(gòu),利用不同的內(nèi)核來捕捉具有跳轉(zhuǎn)連接的多尺度上下文信息。
圖7 DCB結(jié)構(gòu)Fig.7 DCB structure
圖8 MRB結(jié)構(gòu)Fig.8 MRB structure
針對幾種算法(SRCNN、VDSR、MSRN[15]、DDBRN[16]、SRFBN[17])進(jìn)行了仿真實(shí)驗(yàn)。由圖9可以看出,其它幾種算法都會產(chǎn)生更多錯(cuò)誤的文本方向或令人不快的偽影。相比之下,MFRSR能夠生成精確和真實(shí)的SR圖像,準(zhǔn)確地重建細(xì)節(jié)。
圖9 不同算法實(shí)驗(yàn)效果對比Fig.9 Comparison of the experimental effects of different algorithms
文獻(xiàn)[14]的創(chuàng)新之處在于:
(1)提出了一種基于反饋的輕量級RNN,用于高精度的SISR。該網(wǎng)絡(luò)充分利用了LR圖像中豐富的多尺度上下文信息,生成了強(qiáng)大的特征呈現(xiàn),這對于精確的SISR來說至關(guān)重要。
(2)設(shè)計(jì)了一種新型的多核融合機(jī)制,能夠在多尺度輸入的情況下動(dòng)態(tài)調(diào)整輸出特征表征的感受野大小。因此,網(wǎng)絡(luò)不需要通過加深層數(shù)來擴(kuò)大輸出表征的接受場大小,從而實(shí)現(xiàn)模型容量的輕量化。
(3)提出的MFRSR是輕量級的,只有4.5M的參數(shù),如圖10所示。但卻在5個(gè)基準(zhǔn)數(shù)據(jù)集上的PSNR和SSIM方面達(dá)到了最先進(jìn)的性能。
圖10 不同算法PSNR對比Fig.10 Comparison of different algorithms PSNR
Liu[18]提出了一種針對SISR的輕量級網(wǎng)絡(luò),即基于注意力的多尺度殘差網(wǎng)絡(luò)(AMSRN)。整個(gè)網(wǎng)絡(luò)的主框架由一個(gè)殘差空間金字塔池化(ASPP)塊以及一個(gè)空間和信道感知的注意力殘差(SCAR)塊交替堆疊構(gòu)成。殘差A(yù)SPP塊利用不同擴(kuò)張率的平行擴(kuò)張卷積,來達(dá)到捕捉多尺度特征的目的。SCAR塊在雙層卷積殘差塊的基礎(chǔ)上增加了通道注意力(CA)和空間注意力(SA)機(jī)制。此外,在SCAR塊中還引入了分組卷積,在防止過擬合的同時(shí)進(jìn)一步降低參數(shù)。同時(shí)還設(shè)計(jì)了一個(gè)多尺度特征注意模塊,為淺層特征提供指導(dǎo)性的多尺度注意信息。特別是提出了一種新穎的升標(biāo)模塊,采用雙路徑聯(lián)合使用亞像素卷積層和最近插值層,對特征進(jìn)行升標(biāo),而不是單獨(dú)使用解卷積層或亞像素卷積層。
為了使網(wǎng)絡(luò)集中在重要的特征上以增強(qiáng)其表示能力,根據(jù)通道和空間位置的相互依賴性,設(shè)計(jì)了一個(gè)空間和通道感知的注意力殘差塊,將SA單元和CA單元結(jié)合成殘差塊。圖11描述了所提出的空間和通道感知注意力模塊。
圖11 空間-通道注意力模塊結(jié)構(gòu)Fig.11 Spatial-channel attention module structure
AMSRN的框架如圖12所示,其中包括5個(gè)部分:初始特征提取階段、多尺度特征提取階段、深層特征提取階段、上尺度特征提取階段以及重建階段。
圖12 AMSRN的整體結(jié)構(gòu)Fig.12 Overall structure of the AMSRN
定量的角度對提出的AMSRN模型與一些最先進(jìn)的方法進(jìn)行評估,包括SRCNN、VDSR、DRCN[19]、LapSRN、MemNet[19]、EDSR、CARN[20]、MSRN、DCSR[21]、AWSRN[22]和DADN[23]。
圖13描述了Set14圖像的平均PSNR與運(yùn)行時(shí)間的權(quán)衡。值得注意的是,所提出的方法在保證重建性能的前提下,速度相對較快。
圖13 不同方法的精度和速度的比較Fig.13 Comparison of accuracy and speed of different methods
通過實(shí)驗(yàn),Liu[18]提出的模型達(dá)到了與最先進(jìn)的方法相媲美的效果,網(wǎng)絡(luò)非常輕巧。然而,在升級因子較大的情況下存在不足。
Zhao等[24]提出了一種輕量化橫向抑制網(wǎng)路來進(jìn)行精準(zhǔn)磁共振(MR)圖像超分辨率(SR)。所提出的網(wǎng)絡(luò)是受橫向抑制機(jī)制的啟發(fā),其假設(shè)相鄰神經(jīng)元之間存在抑制效應(yīng)。網(wǎng)絡(luò)的主干由若干個(gè)側(cè)向抑制塊組成。其中,抑制效果是由一個(gè)級聯(lián)的局部抑制單元明確實(shí)現(xiàn)的。當(dāng)模型規(guī)模較小時(shí),明確抑制特征激活,能進(jìn)一步探索模型的表達(dá)能力。為了更有效地提取特征,還使用了多個(gè)并行的擴(kuò)張卷積,直接從輸入圖像中提取淺層特征。
為了提取不同接受場的淺層特征大小,在特征提取子網(wǎng)中使用一組3×3稀釋率不同的conv層,如圖14所示,只應(yīng)用一個(gè)3×3的conv層來重建最終輸出。
圖14 橫向抑制網(wǎng)絡(luò)的整體結(jié)構(gòu)Fig.14 Overall structure of the transverse suppression network
通過適度的模型參數(shù)和計(jì)算開銷,實(shí)現(xiàn)了高精度和快速的SR重建。在橫向抑制機(jī)制的激勵(lì)下,設(shè)計(jì)了一個(gè)局部抑制單元(LIU),明確地對特征圖進(jìn)行抑制調(diào)節(jié),減輕了模型的表示負(fù)擔(dān)。通過整合不同接受場大小的淺層特征,提升了模型性能。通過這種策略增加提取特征的多樣性。將側(cè)向抑制機(jī)制與淺層特征提取相結(jié)合策略提高了深度模型的性能。
通過對幾種典型圖像超分辨率算法(NLM[25]、SRCNN、VDSR、IDN、RecNet[26]、FSCWRN[27])進(jìn)行實(shí)驗(yàn)對比分析,這些方法的定量結(jié)果直接利用峰值信噪比(PSNR)和結(jié)構(gòu)性分析,并且只比較與LIN模型參數(shù)數(shù)量大致相似的模型。此外,還采用了幾何自編的技巧來進(jìn)一步提高模型的性能,在這種情況下,其被表示為LIN+,見表3。
根據(jù)表4,執(zhí)行最慢的是NLM,因?yàn)槠涫腔诘鷥?yōu)化處理的。此外,基于深度CNN方法的運(yùn)行時(shí)間也很相似,都是每卷小于5 s。本文模型的效率與其它快速模型相當(dāng)。例如,IDN和RecNet,由于這些模型規(guī)模相似,提出的LIN和LIN+的性能明顯優(yōu)于這些模型,見表3。該模型不僅在SR性能上有很高的準(zhǔn)確性,而且在應(yīng)用中也有實(shí)際作用。
表3 幾種典型SR模型之間的定量比較Tab.3 Quantitative comparison between several typical SR models
表4 比較模型處理的運(yùn)行時(shí)間Tab.4 Comparison of model processing runtimes
在不同的MR圖像上進(jìn)行的廣泛實(shí)驗(yàn)表明(如圖15),所提出的模型優(yōu)于其他輕量級SR模型。由于模型規(guī)模和性能之間更好的權(quán)衡,LIN模型更適合現(xiàn)實(shí)世界的應(yīng)用和部署。
圖15 多種模型實(shí)驗(yàn)仿真Fig.15 Experimental Simulation of Various Models
本文介紹了幾種輕量化網(wǎng)絡(luò)模型,這一些網(wǎng)絡(luò)模型在很大程度上都比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)在網(wǎng)絡(luò)參數(shù)、視覺效果上都有很明顯的優(yōu)勢。特別是在移動(dòng)設(shè)備上的應(yīng)用,小型化的神經(jīng)網(wǎng)絡(luò)的研究將會使得移動(dòng)設(shè)備圖像超分辨率擁有更廣泛的發(fā)展前景。特別是解決傳統(tǒng)神經(jīng)網(wǎng)絡(luò)運(yùn)算需求過大而無法在移動(dòng)設(shè)備上高效運(yùn)行的問題,但是其具有任務(wù)單一、泛化性差的缺點(diǎn),因此,未來需要對網(wǎng)絡(luò)搜索算法進(jìn)行研究,在不同的應(yīng)用場景下,可以根據(jù)網(wǎng)絡(luò)搜索對該場景下最優(yōu)的輕量化網(wǎng)絡(luò)進(jìn)行搜索并應(yīng)用,使得不同的輕量化網(wǎng)絡(luò)都能發(fā)揮出其最優(yōu)的性能?;谳p量化網(wǎng)絡(luò)搜索的超分辨率將是未來的一個(gè)研究方向。