胡雪影,郭海儒,朱 蓉
(1.河南理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,河南焦作 454000;2.嘉興學(xué)院數(shù)理與信息工程學(xué)院,浙江嘉興 314000)
(*通信作者電子郵箱zr@mail.zjxu.edu.cn)
圖像超分辨率(Super Resolution,SR)重建旨在通過輸入一幅或多幅低分辨率(Low Resolution,LR)圖像重建出包含豐富細(xì)節(jié)的高分辨率(High Resolution,HR)圖像。重建技術(shù)作為一個(gè)不適定的逆問題,其過程需要盡可能收集和分析更多的相鄰像素以獲取更多的線索,用于上采樣過程中補(bǔ)充丟失的像素信息。而單圖像超分辨率(Signal Image Super Resolution,SISR)[1-2]重建則是要利用一幅圖像中包含的豐富信息以及從樣本圖像中得到的視覺先驗(yàn),識(shí)別重要的視覺線索,填充細(xì)節(jié),并盡可能忠實(shí)和美觀地呈現(xiàn)。近年來,重建技術(shù)在醫(yī)療影像、衛(wèi)星遙感、視頻監(jiān)控等領(lǐng)域都有著廣泛的應(yīng)用。
在計(jì)算機(jī)視覺任務(wù)中,為由低分辨率圖像重建出高分辨率圖像,研究者們已經(jīng)提出多種SISR 方法,主要可分為傳統(tǒng)的SISR 方法[3-4]和深度學(xué)習(xí)方法[5]。傳統(tǒng)的SISR 方法是基于經(jīng)驗(yàn)算法實(shí)現(xiàn),會(huì)遺忘大量的高頻信息且需要一定量人為干預(yù),方法的性能結(jié)果與實(shí)際應(yīng)用要求有著較大的差距。
由于出色的性能,深度學(xué)習(xí)方法已成為模式識(shí)別與人工智能領(lǐng)域研究的熱點(diǎn),其中的卷積網(wǎng)絡(luò)(Convolutional Network,ConvNet)[6]近年來更是在計(jì)算機(jī)視覺任務(wù)中取得巨大成功。Dong 等[7]提出的超分辨率卷積神經(jīng)網(wǎng)絡(luò)(Super-Resolution Convolutional Neural Network,SRCNN)使用了三層卷積網(wǎng)絡(luò)首次將深度學(xué)習(xí)運(yùn)用到圖像超分辨率重建中,網(wǎng)絡(luò)以端到端的方式學(xué)習(xí)從LR 到HR 的映射,不需要傳統(tǒng)方法中的任何工程特性,并且獲得比傳統(tǒng)方法更先進(jìn)的性能。Kim等隨后提出的深度遞歸卷積網(wǎng)絡(luò)(Deeply-Recursive Convolutional Network,DRCN)[8]和極深度超分辨網(wǎng)絡(luò)(Very Deep Super-Resolution network,VDSR)[9]取得了當(dāng)時(shí)最先進(jìn)的性能。Wang 等[10]在生成對(duì)抗網(wǎng)絡(luò)為主體的增強(qiáng)型超分辨率生成對(duì)抗網(wǎng)絡(luò)(Enhanced Super-resolution Generative Adversarial Networks,ESRGAN)中,融合感知損失提高對(duì)低分率圖像的特征重構(gòu)能力,還原圖像缺失的高頻語義信息,取得了逼真視覺效果;Mao 等[11]提出具有對(duì)稱結(jié)構(gòu)的編解碼網(wǎng)絡(luò)(Restoration Encoder-Decoder Network,REDNet)對(duì)SR 過程產(chǎn)生的噪聲有抑制作用,能恢復(fù)出更加干凈的圖片。殘差通道注意力網(wǎng)絡(luò)(Residual Channel Attention Network,RCAN)[12]通過在卷積網(wǎng)絡(luò)引入注意力機(jī)制,通過考慮卷積特征通道之間的相互依賴性來自適應(yīng)地重新縮放通道方式的特征;Hui等[13]提出的信息蒸餾網(wǎng)絡(luò)(Information Distillation Network,IDN),在信息蒸餾模塊里,局部特征可被有效提取且有著輕量級(jí)參數(shù)和計(jì)算復(fù)雜度。深度SR 方法優(yōu)秀的性能在特定的圖像超分辨中得到應(yīng)用[14-16]。
但上述方法在成功將深度學(xué)習(xí)技術(shù)引入超分辨率問題的同時(shí),也具有一定的局限性。SRCNN 存在著依賴于小圖像區(qū)域的上下文,訓(xùn)練收斂太慢,網(wǎng)絡(luò)只適用于單尺度的缺陷;VDSR 雖然解決了SRCNN 存在的問題,但VDSR 較小的感受野使得其網(wǎng)絡(luò)卷積層簡(jiǎn)單鏈?zhǔn)蕉询B,魯棒性與泛化性得不到保證;DRCN 則由于使用了循環(huán)卷積網(wǎng)絡(luò),導(dǎo)致訓(xùn)練時(shí)間長(zhǎng),存儲(chǔ)量大,不便于實(shí)際應(yīng)用;而ESRGAN采用對(duì)抗的方式生成SR 圖像,破壞了SR 圖像與HR 圖像像素間的對(duì)應(yīng)關(guān)系,且網(wǎng)絡(luò)規(guī)模龐大不利于訓(xùn)練與使用。
針對(duì)上述SR方法存在的問題,本文提出一種基于混合深度卷積網(wǎng)絡(luò)的圖像超分辨率重建方法。該方法中卷積與反卷積構(gòu)建的編解碼結(jié)構(gòu)去除圖像SR過程產(chǎn)生的噪聲,空洞卷積擴(kuò)大卷積感受野,通過不同卷積方式的混合使用構(gòu)建端到端網(wǎng)絡(luò),重建出符合原高分辨率圖像的超分辨率圖像。
與前述SISR方法相比,本文所提方法具有如下特點(diǎn):
1)網(wǎng)絡(luò)直接學(xué)習(xí)低分辨率和高分辨率圖像之間的端到端映射,采用卷積與反卷積級(jí)聯(lián)編解碼方式,消解圖像特征中含有的噪聲。
2)在圖像重建部分中應(yīng)用空洞卷積層,使小的卷積核獲得大的感受野,提升重建效果的同時(shí)降低計(jì)算量。
3)使用殘差學(xué)習(xí)快速優(yōu)化網(wǎng)絡(luò),通過在網(wǎng)絡(luò)中添加多個(gè)個(gè)跳躍連接,加速訓(xùn)練過程并提高重建結(jié)果性能。
實(shí)驗(yàn)研究中,低分辨率圖像成像模型通常表示為:其中:IL為低分辨率圖像;IH為高分辨率圖像;D為下采樣算子;B為模糊算子;n為加性噪聲。
由式(1)推導(dǎo)由低分辨率圖像得到高分辨圖像的超分辨率重建過程模型:
其中:B-1D-1n可簡(jiǎn)化為S(生成噪聲),得到式(3):
由式(3),經(jīng)過上采樣(D-1)、去模糊(B-1)、降噪(-S)等一系列處理操作,可將低分辨率圖像重建為高分辨率圖像。
計(jì)算機(jī)視覺的圖像處理非常依賴于圖像的特征。圖像的特征就是用較少的數(shù)據(jù)來描述捕獲圖像內(nèi)容中包含的重要信息,因此,圖像特征本質(zhì)上可以理解為圖像的稀疏化表示[17]。由此,Zeiler 等[18]提出了反卷積網(wǎng)絡(luò)(DeConvolutional Network,DeCNN)的概念,這是一種基于正則化圖像稀疏表示方法,能夠提取出圖像特征并利用這些特征重構(gòu)圖像;陳揚(yáng)鈦等[19]將基于L1正則化反卷積網(wǎng)絡(luò)模型應(yīng)用于圖像表述與復(fù)原,去除圖像噪聲;Long 等[20]在用于圖像分割的全卷積網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)模型中使用反卷積層(Deconvolution layer)獲得優(yōu)異效果,突出證明了反卷積網(wǎng)絡(luò)在圖像處理中的巨大作用;Xu等[21]發(fā)現(xiàn)真實(shí)的模糊退化很少符合理想的線性卷積模型,采用反卷積網(wǎng)絡(luò)捕獲圖像退化特征進(jìn)而復(fù)原圖像(式(4)),而不是單純地從生成模型的角度對(duì)異常值進(jìn)行完美建模[22]。
其中:x為輸入圖片;c為圖片的通道數(shù)量;i為圖像像素;k為特征圖數(shù)量;?為卷積操作;Z為特征圖,是局部隱變量,對(duì)于每個(gè)輸入x都不一樣。f是卷積核,為全局變量,對(duì)所有輸入x都一樣。
借鑒上述思想及方法,將卷積與反卷積聯(lián)結(jié)使用,并且增加卷積深度,使其在圖像超分辨率重建去噪過程中發(fā)揮更大的作用,進(jìn)一步證實(shí)較深的卷積與反卷積層聯(lián)合使用可以顯著提高超分辨率的性能。
研究者們對(duì)深度學(xué)習(xí)的不斷探索,貢獻(xiàn)了很多經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)。LeCun 等的開拓性成果LeNet[23],是大量神經(jīng)網(wǎng)絡(luò)架構(gòu)演進(jìn)的起點(diǎn),為后續(xù)相關(guān)深度學(xué)習(xí)研究領(lǐng)域提供靈感;和LeNet 相似的AlexNet[24],不僅解決了網(wǎng)絡(luò)較深時(shí)存在的梯度彌散問題,提高訓(xùn)練速度,而且還增強(qiáng)了模型的泛化能力;繼承LeNet 以及AlexNet 部分框架結(jié)構(gòu)的VGG[25]更是直接利用了多層小卷積核疊加的優(yōu)點(diǎn)(3個(gè)3×3的卷積核的鏈?zhǔn)蒋B加正則等效于1 個(gè)7×7 的卷積核),這種設(shè)計(jì)不僅可以大幅度地減少參數(shù),其本身帶有正則性質(zhì)的卷積圖能夠更容易學(xué)習(xí)一個(gè)通用的、可表達(dá)的特征空間;殘差網(wǎng)絡(luò)(Residual Network,ResNet)[26]則是在網(wǎng)絡(luò)中增加直連通道,允許原始輸入信息直接傳到后面的網(wǎng)絡(luò)層中。這不僅可以極快地加速神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,也能比較大地提升模型的結(jié)果準(zhǔn)確率等。
然而深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)于其他任務(wù)存在著一些致命性的缺陷。例如:下采樣/池化過程導(dǎo)致內(nèi)部數(shù)據(jù)結(jié)構(gòu)丟失、空間層級(jí)化信息丟失、小物體信息無法重建等。而圖像超分辨率重建過程需要更多的相鄰像素(即依賴大感受野)。因此如何在卷積感受野大小與網(wǎng)絡(luò)參數(shù)數(shù)量二者中找到一個(gè)平衡點(diǎn),是一個(gè)至關(guān)重要的問題。而空洞卷積(擴(kuò)張卷積)能在不使用會(huì)導(dǎo)致信息損失的pooling 層且計(jì)算量相當(dāng)?shù)那闆r下,提供更大的感受野,這恰恰與圖像超分辨率重建的理念(SISR網(wǎng)絡(luò)不需要pooling 層)相重合。因此,空洞卷積的設(shè)計(jì)恰好可解決上述如何找到最佳平衡點(diǎn)問題。
空洞卷積誕生于圖像分割領(lǐng)域[27],圖像輸入到網(wǎng)絡(luò)中經(jīng)過CNN 提取特征,再經(jīng)過pooling 降低圖像尺度的同時(shí)增大感受野。在圖像需要全局信息或者語音文本需要較長(zhǎng)的序列信息依賴的問題中,都有很好的應(yīng)用效果[20,28-29]。對(duì)比傳統(tǒng)的卷積加池化操作,普通多層卷積聯(lián)結(jié)使用,只能達(dá)到卷積層數(shù)與感受野大小成線性關(guān)系,而空洞卷積與卷積的聯(lián)合使用,可以使感受野與層數(shù)呈指數(shù)級(jí)增長(zhǎng)。如圖1 所示,圓點(diǎn)為卷積點(diǎn),深色區(qū)域?yàn)楦惺芤啊?/p>
圖1 不同比率空洞卷積感受野對(duì)比Fig.1 Comparison of receptive fields of dilated convolutions with different ratios
將圖1中不同比率點(diǎn)距的空洞卷積層聯(lián)結(jié),級(jí)聯(lián)卷積效果如圖2所示。
圖2 不同比率空洞卷積多層級(jí)聯(lián)Fig.2 Multi-cascade of dilated convolutions with different ratios
空洞卷積網(wǎng)絡(luò)參數(shù)數(shù)量呈線性增長(zhǎng),而使卷積感受域指數(shù)擴(kuò)展,保證網(wǎng)絡(luò)參數(shù)量限度的同時(shí)增大感受野。圖1(a)是由3×3 卷積核F1通過1 倍的卷積產(chǎn)生的,其卷積點(diǎn)間距為1,其每個(gè)卷積具有3×3的感受野;(b)F2是由F1通過2倍的卷積產(chǎn)生的,卷積點(diǎn)間距為2,F(xiàn)2中的每個(gè)卷積核的感受野為7×7;(c)F3是由F2通過4 倍的卷積產(chǎn)生的,卷積點(diǎn)間距為2,F(xiàn)3中的每個(gè)卷積核的感受野為15×15。與每一層關(guān)聯(lián)的參數(shù)數(shù)量相同。
在圖像超分辨重建網(wǎng)絡(luò)中,采用卷積與空洞卷積的級(jí)聯(lián)使用,擴(kuò)大了卷積感受野,在不增加網(wǎng)絡(luò)容量的前提下能獲得更多相鄰像素信息。
傳統(tǒng)的卷積層或全連接層在進(jìn)行信息傳遞時(shí),或多或少會(huì)存在信息損耗丟失問題。He 等[26]為解決深層網(wǎng)絡(luò)訓(xùn)練困難的問題提出的殘差網(wǎng)絡(luò)(ResNet)[26]在卷積網(wǎng)絡(luò)中增加直連通道,允許原始輸入信息直接傳到后面的網(wǎng)絡(luò)層。不僅可以極快地加速神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,并且提升了模型的準(zhǔn)確率。確切地說,殘差網(wǎng)絡(luò)通過直接將輸入信息繞道傳到輸出的方式,在某種程度上解決了圖像特征細(xì)節(jié)缺少的問題,保護(hù)圖像信息的完整性。即整個(gè)網(wǎng)絡(luò)只需要學(xué)習(xí)輸入、輸出的殘差部分,簡(jiǎn)化了學(xué)習(xí)目標(biāo)和難度。殘差塊的結(jié)構(gòu)如圖3所示。
圖3 殘差結(jié)構(gòu)Fig.3 Residual structure
如圖3 所示,假設(shè)原始網(wǎng)絡(luò)學(xué)習(xí)函數(shù)為H(x),將其分解為H(x)=F(x)+x。分解后原始網(wǎng)絡(luò)(圖3 垂直向下的流程)擬合F(x),分支x(圖3 彎曲部分,為跳躍連接)。在ResNet中引入了殘差函數(shù)F(x)=H(x)-x(即目標(biāo)值與輸入值的偏差),通過訓(xùn)練擬合F(x),進(jìn)而由F(x)+x得到H(x)。如果F(x)=0,則相當(dāng)于引入了一個(gè)恒等映射到圖像超分辨率重建任務(wù)中,使用殘差學(xué)習(xí)通過在卷積網(wǎng)絡(luò)添加跳躍連接可將圖像初始特征直接傳輸?shù)骄W(wǎng)絡(luò)中后層,協(xié)助梯度的反向傳播,加快訓(xùn)練進(jìn)程,提高結(jié)果性能。
本文所構(gòu)建的網(wǎng)絡(luò)模型主要由四個(gè)模塊組成:上采樣、特征提取、編解碼結(jié)構(gòu)去噪和圖像重建。上采樣模塊將低分辨率圖片通過簡(jiǎn)單上采樣,得到與高分辨率圖像具有相同像素的低分辨率圖像;特征提取模塊將圖像表示為可供處理的特征映射;編解碼結(jié)構(gòu)完成圖像特征去噪任務(wù);任務(wù)完成后,將反卷積去噪中的最終特征映射輸入重建模塊,最終生成超分辨率重建圖像。具體模型如圖4所示。
圖4 網(wǎng)絡(luò)架構(gòu)Fig.4 Network architecture
2.1.1 上采樣
在基于深度學(xué)習(xí)的圖像超分辨率重建任務(wù)中,由高分辨率圖像的重建模型(式(3)),需要通過上采樣將低分辨率圖像放縮至與高分辨率圖像具有相同像素?cái)?shù)量的次低分辨率圖像。而上采樣中最簡(jiǎn)單的方式是重采樣和插值:主要通過將輸入圖片重新縮放到一個(gè)想要的尺寸,同時(shí)計(jì)算每個(gè)點(diǎn)的像素點(diǎn)。文獻(xiàn)[7-9]即是采用在圖像輸入網(wǎng)絡(luò)前使用雙三次線性插值對(duì)低分辨率圖像進(jìn)行上采樣,但此方法形式上增加了人工干預(yù),過多添加工程特征,影響重建效果。受文獻(xiàn)[20,22]的思想啟發(fā),本文采用反卷積網(wǎng)絡(luò)結(jié)構(gòu)將輸入低分辨圖像上采樣到目標(biāo)圖像大小。此部分使用卷積核為3×3的反卷積層將低分辨率圖像上采樣至目標(biāo)圖像同等尺度大小,作為特征提取層的輸入。
2.1.2 圖像特征提取
傳統(tǒng)圖像恢復(fù)中,圖像特征提取的一種策略是先將圖像塊進(jìn)行密集提?。?0],之后用一組預(yù)先訓(xùn)練的基底(如主成分分析(Principal Component Analysis,PCA)[31]、離散余弦變換(Discrete Cosine Transform,DCT)[32]等)來表示。而在卷積神經(jīng)網(wǎng)絡(luò)中,此部分可納入到網(wǎng)絡(luò)的基礎(chǔ)優(yōu)化中,卷積操作自動(dòng)提取圖像特征。形式上,本文的特征提取子網(wǎng)絡(luò)表示式(5):
其中:X為上采樣后低分辨率圖像;W1和b1分別表示卷積權(quán)值和偏置,其中W1大小為3×3×64;“?”表示卷積運(yùn)算,運(yùn)算添加0 邊界,步長(zhǎng)為1,使輸入、輸出尺寸保持一致,防止產(chǎn)生邊界降秩。同時(shí)使用RELU[33](max(0,×))用于卷積特征激活。使用雙層64 個(gè)3×3 卷積核的卷積層提取上采樣后圖像的特征,獲取到圖像特征細(xì)節(jié)。
2.1.3 編解碼去噪結(jié)構(gòu)
在特征去噪結(jié)構(gòu)中,卷積與反卷積級(jí)聯(lián)使用構(gòu)造編解碼結(jié)構(gòu),可以最大限度地消解圖像特征噪聲。卷積層保留了主要的圖像內(nèi)容,反卷積層則用來補(bǔ)償細(xì)節(jié)信息,在達(dá)到良好去噪效果的同時(shí)較好地保留圖像內(nèi)容[34]。針對(duì)輸入含有噪聲圖像特征和干凈圖像,本部分網(wǎng)絡(luò)結(jié)構(gòu)致力于學(xué)習(xí)一個(gè)殘差即F(X)=Y-X得到。形式上,這一層形式化表示為:
其中:F1為特征提取階段輸出;W2和b2為卷積權(quán)值與偏置大小,W2為3×3×64;W3和b3為反卷積權(quán)值與偏置,W3大小為3×3×64;“?”表示反卷積運(yùn)算。式(8)是一個(gè)跳躍連接[26],正如殘差網(wǎng)絡(luò)的設(shè)計(jì)初衷,跳躍連接可以解決網(wǎng)絡(luò)層數(shù)較深的情況下梯度彌散問題,同時(shí)有助于梯度的反向傳播,加快訓(xùn)練過程。
卷積層逐漸縮小特征圖大小,保留了主要的圖像內(nèi)信息,獲取圖像特征的抽象內(nèi)容;反卷積層再逐漸增大特征圖的大小,放大特征尺寸的同時(shí)恢復(fù)圖像特征細(xì)節(jié)信息。同時(shí)采用跳躍連接加快訓(xùn)練過程,最終在確保編解碼結(jié)構(gòu)輸入輸出尺寸大小一致的同時(shí),也保證了在移動(dòng)端計(jì)算能力有限情況下的測(cè)試效率,獲得去除噪聲的圖像特征圖。
本部分卷積層全部使用64 個(gè)3×3×64 的卷積核。但前半部分的卷積運(yùn)算不添加0邊界且步長(zhǎng)為2,使特征輸出尺寸變?yōu)檩斎氲囊话?。而在后半部分的反卷積特征恢復(fù)中,卷積運(yùn)算添加0 邊界、步長(zhǎng)為2。將特征圖恢復(fù)到原來大小,保證圖像尺度完整性。
2.1.4 圖像重建
在重建過程中,輸入隱藏狀態(tài)的特征圖F2,輸出超分辨率的重建圖像,可以看作為特征提取階段的逆運(yùn)算。在傳統(tǒng)的SR方法中,通常平均化重疊高分辨率特征圖以產(chǎn)生最終的完整圖像。而在網(wǎng)絡(luò)卷積中,使用卷積核W dc作為一個(gè)反作用基底系數(shù),將高維隱藏狀態(tài)圖像特征的每個(gè)位置看作高分辨率圖像所對(duì)應(yīng)像素不同維度的矢量形式。反之可以將特征圖投影到圖像域中,獲得超分辨率重建圖像。受此啟發(fā),定義了一個(gè)卷積層來生成最終的高分辨率圖像:
式(9)為形式化的空洞卷積,W4為空洞卷積的卷積權(quán)值,設(shè)置rate分別為1、1、2、4。式(10)是一個(gè)跳躍連接,提高訓(xùn)練速度;式(11)為超分辨率圖像重建,ISR為輸出的超分辨率重建圖像,為c個(gè)大小為1×1×64 的卷積核,c代表著圖像通道數(shù)量,b5表示卷積偏置。
本部分前4 層卷積使用64 個(gè)3×3×64 的卷積核對(duì)圖像特征進(jìn)行高維提取運(yùn)算,其卷積核卷積點(diǎn)間距分別為1、1、2、4,可以以更大感受野對(duì)圖像特征進(jìn)行運(yùn)算。隨后使用64 個(gè)3×3×64 卷積核構(gòu)成的卷積層,將初次提取到的圖像特征與高維特征進(jìn)行加和運(yùn)算,保證了特征的充分利用。最后使用C(C為高分辨率重建圖像通道數(shù)量)個(gè)1×1×64卷積核的卷積層重建出需要的高分辨率圖像。
本文通過將上述四種不同功能驅(qū)動(dòng)的模塊(它們都與卷積網(wǎng)絡(luò)具有相似的形式)聯(lián)結(jié)在一起,形成一個(gè)具有去噪、增大感受野的混合深度卷積神經(jīng)網(wǎng)絡(luò),用作圖像超分辨率重建任務(wù)。
2.2.1 損失函數(shù)與優(yōu)化
對(duì)于任意給定一個(gè)訓(xùn)練數(shù)據(jù)集{X1C,Y1C}n-1i=0,本文的目標(biāo)是找到準(zhǔn)確映射值Y=F(x),使獲得的超分辨率重建圖像F(x)與真實(shí)高分辨率圖像Y之間的均方誤差(Mean Squared Error,MSE)[35]最小,同時(shí)也有利于圖像質(zhì)量評(píng)價(jià)指標(biāo)——峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)[36]的提高。盡管高PSNR 并不代表重建圖像的絕對(duì)優(yōu)秀,但當(dāng)使用替代評(píng)估指標(biāo)(如SSIM(Structural SIMilarity))來評(píng)估模型時(shí),仍然觀察到滿意的性能。
其中:P(i,j)、T(i,j)分別表示預(yù)測(cè)圖像與真實(shí)圖像;H、W分別為圖像的高度和寬度。
即:
在本文中,將MSE作為一部分并入損失函數(shù)floss(式(14))。通過添加L2權(quán)重衰減對(duì)訓(xùn)練進(jìn)行正則化,β表示權(quán)值衰減的乘系數(shù),設(shè)為10-3,θ即為所求參數(shù)。這樣在得到最終損失的條件下,可以微調(diào)節(jié)參數(shù)來盡可能地達(dá)到最優(yōu)結(jié)果。
2.2.2 優(yōu)化方式
本文使用Adam 優(yōu)化方法[37]更新權(quán)重矩陣,以將損失函數(shù)數(shù)值降至最低。其參數(shù)更新公式為:
其中:β1設(shè)為0.9;β2設(shè)為0.999 9;ε設(shè)為10-8;學(xué)習(xí)率η為0.001;mt為梯度的第一時(shí)刻平均值;vt為梯度的第二時(shí)刻方差值。
2.2.3 參數(shù)設(shè)置
在訓(xùn)練之前,需要初始化網(wǎng)絡(luò)參數(shù)以供后續(xù)網(wǎng)絡(luò)訓(xùn)練更新。對(duì)于權(quán)重初始化,結(jié)合Kin等[9]描述的方法。本文從平均值為零、標(biāo)準(zhǔn)偏差為0.001(偏差為0)的正態(tài)分布中隨機(jī)抽取數(shù)值,初始化每層的卷積核權(quán)重W,而偏置b則全部置0。初始學(xué)習(xí)率被設(shè)置為0.001,之后每訓(xùn)練20輪遞減1/2。
實(shí)驗(yàn)的硬件環(huán)境為AMD Ryzen 2700X 八核的處理器;Nvidia GeForce GTX 1080 Ti GPU;軟件環(huán)境為Ubuntu 16.04的操作系統(tǒng)。網(wǎng)絡(luò)模型采用tensorflow 框架構(gòu)成。實(shí)驗(yàn)訓(xùn)練了網(wǎng)絡(luò)參數(shù)100 輪次(每輪次1 000 次迭代,迭代批次大小32),100個(gè)輪次后停止學(xué)習(xí)。
訓(xùn)練集 使用公開自然圖像數(shù)據(jù)集BSD200[38](200 個(gè)圖像)與T91 數(shù)據(jù)集[39](91 個(gè)圖像),其適用于大多數(shù)實(shí)驗(yàn)。在SRCNN/VDSR中已證明深度模型通常受益于海量數(shù)據(jù)的訓(xùn)練。實(shí)驗(yàn)中將291個(gè)訓(xùn)練圖像進(jìn)行旋轉(zhuǎn)90度、鏡像、倒置等操作,獲得包含1 164 個(gè)圖像的增強(qiáng)訓(xùn)練數(shù)據(jù)集;同時(shí)在增強(qiáng)訓(xùn)練數(shù)據(jù)集上裁剪64×64 大?。ú眉舨椒鶠?6)的子圖送入網(wǎng)絡(luò),便于學(xué)習(xí)網(wǎng)絡(luò)參數(shù)。將網(wǎng)絡(luò)模型應(yīng)用于任意大小的圖像,因?yàn)樗腔谕耆矸e的,而裁剪可更加方便地優(yōu)化網(wǎng)絡(luò)模型參數(shù)。
測(cè)試集 使用通常用于基準(zhǔn)測(cè)試[7,40]的數(shù)據(jù)集Set5[41](5個(gè)圖像)和Set14[42](14 個(gè)圖像)、BSD100[38](100 個(gè)圖像)以及由Huang等[43]提供的城市圖像Urban100數(shù)據(jù)集。
由于卷積網(wǎng)絡(luò)的特殊性,其只能將圖像放縮雙倍大小。本文在測(cè)試數(shù)據(jù)集評(píng)價(jià)了兩個(gè)尺度因子,包括×2和×4。
1)編解碼結(jié)構(gòu)降噪。
在本文所提方法中,用編解碼結(jié)構(gòu)卷積提取圖像特征,保留主要特征;用反卷積針對(duì)特征上采樣,恢復(fù)圖像細(xì)節(jié),從而完成圖像特征噪聲過濾,進(jìn)而達(dá)到圖像特征降噪的目的。
如圖5(a)顯示了有反卷積構(gòu)建編解碼結(jié)構(gòu)與不具有反卷積網(wǎng)絡(luò)對(duì)比示例。當(dāng)沒有反卷積層時(shí),網(wǎng)絡(luò)模型為標(biāo)準(zhǔn)卷積網(wǎng)絡(luò)。通過觀察比對(duì)可發(fā)現(xiàn)含有反卷積編解碼去噪部分的網(wǎng)絡(luò)可以達(dá)到更高的精度(以PSNR為指標(biāo))。
2)空洞卷積。
空洞卷積不改變卷積運(yùn)算本身的運(yùn)算方式與參數(shù),通過修改卷積核的構(gòu)造以不同的方式使用過濾器參數(shù)。空洞卷積使用不同的擴(kuò)張比例因子在不同的范圍內(nèi)應(yīng)用相同的卷積核參數(shù),以達(dá)到獲取更多圖像上下文信息的目的。顯然,第一層的特征圖包含不同的結(jié)構(gòu)(例如,不同方向的邊),而第二層的特征圖在強(qiáng)度上主要不同。
如圖5(b)展示了具有空洞卷積與不具有空洞卷積網(wǎng)絡(luò)對(duì)比示例,空洞卷積通過擴(kuò)張卷積感受野促進(jìn)了性能的提高。
最后,圖5(c)中展示了同時(shí)使用反卷積和空洞卷積與二者皆不使用的性能對(duì)比曲線,發(fā)現(xiàn)當(dāng)二者同時(shí)使用時(shí)對(duì)性能提升效果顯著。
圖5 各網(wǎng)絡(luò)結(jié)構(gòu)性能結(jié)果分析Fig.5 Performance result analysis of different network structures
3)殘差學(xué)習(xí)。
輸入圖像在網(wǎng)絡(luò)計(jì)算中攜帶著大量的細(xì)節(jié)信息,但如果在輸入與輸出之間存在許多卷積遞歸,就會(huì)產(chǎn)生梯度問題,如梯度消失/爆炸等。它們之間的映射關(guān)系學(xué)習(xí)是非常困難的,并且學(xué)習(xí)效率非常低。此時(shí),可以通過設(shè)置殘差學(xué)習(xí)快速解決這個(gè)問題。
在網(wǎng)絡(luò)中添加了兩個(gè)跳躍連接,如圖4 所示:其一為特征去噪部分局部連接,協(xié)助梯度的反向傳播,加快訓(xùn)練過程;另一個(gè)則為遠(yuǎn)程跳躍連接,加快訓(xùn)練過程,提高結(jié)果性能。具體對(duì)比分析結(jié)果見表1。
表1 殘差學(xué)習(xí)測(cè)試(學(xué)習(xí)率:0.001)Tab.1 Residual learning testing(learning rate:0.001)
表1 實(shí)驗(yàn)采用全卷積網(wǎng)絡(luò),在數(shù)據(jù)集Urban100 上針對(duì)比例因子2 和4 在不同訓(xùn)練輪次下的超分辨率重建定性定量分析結(jié)果,學(xué)習(xí)率設(shè)為0.001,評(píng)測(cè)指標(biāo)為PSNR/SSIM。經(jīng)過對(duì)比分析可以發(fā)現(xiàn),含有跳躍連接的網(wǎng)絡(luò)無論是訓(xùn)練速度還是評(píng)測(cè)指標(biāo)都比非殘差學(xué)習(xí)網(wǎng)絡(luò)的結(jié)果更加優(yōu)異,而在未含跳躍連接的網(wǎng)絡(luò)中,不僅訓(xùn)練收斂困難,并且結(jié)果很差。而這也證明了殘差學(xué)習(xí)在模型訓(xùn)練的表現(xiàn)良好。通過對(duì)比,發(fā)現(xiàn)含有單跳躍連接的網(wǎng)絡(luò)中,遠(yuǎn)程連接比局部連接的結(jié)果性能更好,而訓(xùn)練收斂速度次之。在含有多跳躍連接的網(wǎng)絡(luò),無論是收斂速度還是結(jié)果性能都比單連接網(wǎng)絡(luò)結(jié)果優(yōu)異。
綜上,使用殘差學(xué)習(xí)所學(xué)習(xí)映射的效果要比直接學(xué)習(xí)效果相對(duì)較好,學(xué)習(xí)速度更高。
將本文所提方法與其他幾種已有先進(jìn)圖像超分辨率重建方法在多個(gè)公開數(shù)據(jù)集上進(jìn)行圖像重建結(jié)果對(duì)比,評(píng)估其特性與性能。用于對(duì)比的幾種方法有:1)Bicubic:像素插值方法[44];2)A+:調(diào)整錨定鄰域回歸法[40];3)SRCNN:簡(jiǎn)單的端到端全卷積圖像超分辨率方法[7];4)VDSR:帶有殘差學(xué)習(xí)的深度全卷積圖像超分辨率處理網(wǎng)絡(luò),全卷積網(wǎng)絡(luò)圖像超分辨率重建效果最好方法[9];5)REDNet:由卷積層-反卷積層構(gòu)成的對(duì)稱的編解碼框架,對(duì)圖像超分辨與去噪表現(xiàn)出優(yōu)異效果[11]。
在表2中,顯示了多種優(yōu)秀SR 方法在多個(gè)公開數(shù)據(jù)集上進(jìn)行測(cè)試結(jié)果。通過對(duì)比可發(fā)現(xiàn),在這些數(shù)據(jù)集中,本文提出的方法明顯優(yōu)于其他傳統(tǒng)SR 方法如A+等,且對(duì)比其他網(wǎng)絡(luò)SR方法,在PSNR和SSIM上均有提高。
表2 各SR方法性能對(duì)比Tab.2 Performance comparison of different SR methods
圖6(a)返回的是Set14 數(shù)據(jù)集第008 號(hào)圖像使用了放大因子為4 的超分辨重建結(jié)果,觀測(cè)到本文方法返回結(jié)果圖在抗鋸齒方面表現(xiàn)更好;圖6(b)返回的是在BSD100 數(shù)據(jù)集第43 號(hào)圖像使用了超分因子為2 的超分辨重建結(jié)果,觀測(cè)到本文的方法在船頂部分細(xì)節(jié)恢復(fù)得更加銳利與清晰;圖6(c)返回的是在Urban100 數(shù)據(jù)集第82 號(hào)圖像使用了比例因子為4的超分辨重建結(jié)果。相比其他超分辨率方法,可以觀測(cè)到本文的方法在人物腿部部分恢復(fù)得更清晰與連續(xù)。
圖6 各SR方法重建結(jié)果對(duì)比Fig.6 Comparison of reconstruction results by different SR methods
通過對(duì)比發(fā)現(xiàn),無論在客觀數(shù)據(jù)還是在主觀視覺效果對(duì)比上,本文所獲取的重建圖片效果明顯優(yōu)于其他先進(jìn)SR 方法,因此,本文所提方法相較于其他SR 方法有明顯性能優(yōu)異之處。
本文提出了一種帶有去噪功能的混合深度卷積網(wǎng)絡(luò)方法,用于圖像超分辨率重建。首先,探索了卷積與反卷積構(gòu)建的編解碼結(jié)構(gòu)對(duì)圖像特征噪聲的消解效果;接著,探討了空洞卷積對(duì)卷積感受野的提升作用;然后,發(fā)現(xiàn)殘差學(xué)習(xí)不僅能更快優(yōu)化網(wǎng)絡(luò),而且能提升圖像重建效果。在Set5、Set14、Urban100 以及BSD100 等公開數(shù)據(jù)集上進(jìn)行圖像重建對(duì)比,表明所提方法比現(xiàn)有的方法在基準(zhǔn)圖像上有更好的效果。
但是本文所提算法在取得優(yōu)異結(jié)果的情況下,也存在著一些不足。由于反卷積結(jié)構(gòu)的限制性,本文只能將低分辨率圖像重建為偶數(shù)倍的超分辨率圖像,而奇數(shù)放大倍率則表現(xiàn)不好,在之后的研究中,將通過優(yōu)化上采樣方式來解決這一問題。