彭學(xué)桂
(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)
單幅圖像的超分辨重建(Single Image Super Resolution,SISR)是計(jì)算機(jī)視覺(jué)中的子任務(wù),目標(biāo)是從一幅低分辨率(Low Resolution,LR)圖像中恢復(fù)出高清圖像(High Resolution,HR)。隨著圖像處理技術(shù)的日趨成熟,超分辨率重建作為一種提高圖像分辨率的方法,其應(yīng)用領(lǐng)域也越來(lái)越廣,已被用于人臉識(shí)別、衛(wèi)星遙感圖像、銀行安全監(jiān)控系統(tǒng)等領(lǐng)域。
深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)在圖像處理方面效果顯著。Dong[1]等人在2014 年提出SRCNN,第一次將卷積網(wǎng)絡(luò)應(yīng)用于超分辨率(Super Resolution,SR)重建;Lan[2]等人為了提高網(wǎng)絡(luò)的計(jì)算效率,設(shè)計(jì)了一種密集型的輕量級(jí)網(wǎng)絡(luò),可以用于更強(qiáng)的多尺度特征表達(dá)和特征相關(guān)學(xué)習(xí);Shi[3]等人提出的高效率亞像素卷積模型(Efficient Sub -Pixel Convolution Networks,ESPCN),模型引入亞像素卷積,是一種高效、快速、無(wú)參的像素重排列上采樣方式;Hui[4]等人提出了一種新的感知圖像超分辨率方法,通過(guò)構(gòu)建一個(gè)階段式網(wǎng)絡(luò),逐步產(chǎn)生視覺(jué)上高質(zhì)量的結(jié)果;Tong[5]等人構(gòu)建了SRDenseNet,在稠密塊(Dense block)中將每一層的特征都輸入給之后的所有層,使所有層的特征都串聯(lián)起來(lái),而不是像ResNet 那樣直接相加。這樣的結(jié)構(gòu)給整個(gè)網(wǎng)絡(luò)帶來(lái)了減輕梯度消失、加強(qiáng)特征傳播、支持特征復(fù)用、減少參數(shù)數(shù)量的優(yōu)點(diǎn);Zhang[6]等人設(shè)計(jì)了一種無(wú)監(jiān)督的多循環(huán)模型結(jié)構(gòu),以生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)作為基礎(chǔ)單元,將有噪聲和模糊的低分辨率向量映射到一個(gè)無(wú)噪聲的低分辨率向量空間;Wang[7]等人在超分辨率重建生成對(duì)抗模 型(Super Resolution Generative Adversarial Networks,SRGAN)的基礎(chǔ)上,,去除網(wǎng)絡(luò)中所有的正則化層,并將殘差單元由串聯(lián)變?yōu)槊芗B接,得到增強(qiáng)的超分辨率重建生成對(duì)抗模型。
近年來(lái)誕生了各種各樣的超分辨率網(wǎng)絡(luò),但超分辨率重建本身依舊存在很多問(wèn)題。首先,超分辨率重建是一個(gè)病態(tài)問(wèn)題,對(duì)于同一個(gè)低分辨率圖像,其對(duì)應(yīng)的高分辨率圖片的解并不唯一,即存在不適定性,為了約束解空間,通常需要可靠的先驗(yàn)信息;其次,隨著重建圖片的尺寸擴(kuò)大,問(wèn)題的復(fù)雜性也會(huì)增加。在更高的因子下,恢復(fù)丟失的細(xì)節(jié)信息會(huì)更加復(fù)雜,經(jīng)常導(dǎo)致錯(cuò)誤信息的再現(xiàn)。此外,網(wǎng)絡(luò)輸出圖片質(zhì)量的評(píng)估并不簡(jiǎn)單,量化指標(biāo)與人的感知只有松散的關(guān)聯(lián)。最關(guān)鍵的,這些網(wǎng)絡(luò)大多數(shù)采用簡(jiǎn)單的雙三次下采樣,從高質(zhì)量圖像構(gòu)建低分辨率和高分辨率對(duì)用于訓(xùn)練,可能會(huì)丟失與頻率相關(guān)的細(xì)節(jié),在現(xiàn)實(shí)世界的圖像超分辨率中的效果并不好。
針對(duì)上述問(wèn)題,本文提出一種GCA 網(wǎng)絡(luò)。首先通過(guò)一個(gè)圖像退化框架估計(jì)各種模糊核以及真實(shí)的噪聲分布,可以獲得與真實(shí)世界圖像共享一個(gè)公共域的圖像,使網(wǎng)絡(luò)輸入的低分辨率圖片與高分辨率圖片處在一個(gè)域中,提高了模型在現(xiàn)實(shí)世界圖片上測(cè)試的效果;其次,生成模塊使用殘差注意力稠密塊(Residual in Residual Dense,RRDB)和殘差塊(Residual Network,ResNet)對(duì)圖片高低頻信息進(jìn)行融合,為了使網(wǎng)絡(luò)在各層次特征信息融合的過(guò)程中更專(zhuān)注于圖片的高層次信息,采用注意力機(jī)制,將RRDB 模塊輸出后的特征向量作為高層次特征信息的參數(shù),再使用sub-pixel 網(wǎng)絡(luò)上采樣得到超分辨率圖片;在判別模塊中使用膠囊網(wǎng)絡(luò)(Capsule Net)對(duì)生成模塊輸出的超分辨率圖片及真實(shí)的高分辨率圖片進(jìn)行判別。
早期的超分辨率重建技術(shù)可以分為3 類(lèi):基于插值,基于重建,基于學(xué)習(xí)的方法?;诓逯档姆椒ㄔ趥鹘y(tǒng)方法中相對(duì)來(lái)說(shuō)實(shí)現(xiàn)簡(jiǎn)單,且應(yīng)用廣泛,但是這些線性的模型不利于恢復(fù)高頻細(xì)節(jié)信息;基于學(xué)習(xí)的稀疏表示技術(shù)通過(guò)使用先驗(yàn)知識(shí)增強(qiáng)了線性模型的能力,假設(shè)任意的自然圖像可以被字典的元素稀疏表示,需要大量計(jì)算資源;基于重建的方法通常用于多幀圖像的超分辨率重建,該技術(shù)需要結(jié)合先驗(yàn)知識(shí)。
單幅圖片超分辨率重建是一個(gè)逆問(wèn)題,對(duì)于一個(gè)低分辨率圖像,可能存在許多不同的高分辨率圖像與之對(duì)應(yīng),因此通常在求解高分辨率圖像時(shí)會(huì)加一個(gè)先驗(yàn)信息進(jìn)行規(guī)范化約束。在傳統(tǒng)的方法中,這個(gè)先驗(yàn)信息可以通過(guò)若干成對(duì)出現(xiàn)的低-高分辨率圖像的實(shí)例中學(xué)到。而基于深度學(xué)習(xí)的超分辨率重建(Super Resolution,SR)通過(guò)神經(jīng)網(wǎng)絡(luò)直接學(xué)習(xí)分辨率圖像到高分辨率圖像的端到端的映射函數(shù)。
基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)解決單圖像超分辨率重建的初步方法是通過(guò)3 層的卷積網(wǎng)絡(luò)對(duì)輸入圖片做卷積處理。Singh[8]等人提出將圖像超分辨率問(wèn)題分為多個(gè)子問(wèn)題,然后利用神經(jīng)網(wǎng)絡(luò)來(lái)處理的方法。為了解決信息流隨網(wǎng)絡(luò)深度而削弱的問(wèn)題,Xu[9]等人根據(jù)循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的原理設(shè)計(jì)了一個(gè)輕量級(jí)的基于反饋的遞歸神經(jīng)網(wǎng)絡(luò)(Feedback Recurrent Neural Network FRNN);Li[10]等人根據(jù)該思路,提出了基于反饋連接和類(lèi)循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的SRFBN 反饋網(wǎng)絡(luò);Zhang[11]等人采用了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的多層降級(jí)超分辨率模 型(Super Resolution Multiple Degradations,SRMD);Fritsche[12]等人提出了通過(guò)無(wú)監(jiān)督方式訓(xùn)練網(wǎng)絡(luò)來(lái)學(xué)習(xí)退化率的模型(Distant Supervision GAN,DSGAN)。
目前,注意力機(jī)制已經(jīng)逐漸運(yùn)用在圖像及其它一些任務(wù)上,取得了顯著的效果。Yang[13]等人提出將殘差網(wǎng)絡(luò)和稠密跳躍連接結(jié)合起來(lái);Huang[14]等設(shè)計(jì)了一個(gè)雙路徑的注意力網(wǎng)絡(luò),將殘差連接和稠密連接組合,以此來(lái)進(jìn)行不同層次特征信息的互補(bǔ);Fu[15]等人設(shè)計(jì)了一個(gè)尺度注意力模塊,通過(guò)引入尺度因子作為先驗(yàn)知識(shí)來(lái)學(xué)習(xí)低分辨率圖像的判別特征,利用坐標(biāo)信息和比例因子的二次多項(xiàng)式預(yù)測(cè)像素級(jí)重構(gòu)核,實(shí)現(xiàn)任意比例因子的超分辨率。
圖像超分辨率的重建目的是從LR圖像中恢復(fù)出相應(yīng)的HR圖像。為了得到相對(duì)應(yīng)的成對(duì)數(shù)據(jù)集,通常的做法是將高分辨率圖片降級(jí),以此來(lái)獲得低分辨率圖片。一般來(lái)說(shuō),LR圖像ILR建模為退化的輸出,式(1):
其中,D為退化映射函數(shù);IHR為對(duì)應(yīng)的HR圖像;δ為退化函數(shù)中的超參數(shù)。
往往降級(jí)退化過(guò)程是未知的,只是得到LR圖片。需要從LR圖片中恢復(fù)和真實(shí)標(biāo)簽樣本IHR一致的超分辨率圖片式(2):
其中,F(xiàn)是超分辨率模型,θ代表整個(gè)模型F的超參數(shù)。
雖然退化過(guò)程是未知的,并且可能受到各種因素的影響,如:壓縮偽像、各向異性退化、傳感器噪聲和散斑噪聲,但是隨著不斷地嘗試對(duì)退化映射建模,現(xiàn)在大多數(shù)工作將降級(jí)直接建模為單個(gè)下采樣操作,式(3):
其中,↓s為下采樣操作,s為比例因子。
事實(shí)上,大多數(shù)的超分辨率數(shù)據(jù)集構(gòu)造都是通過(guò)這種方式,下采樣一般采用雙三次插值。
本文采用一種新的退化映射函數(shù),式(4):
其中,IHR*k表示模糊核k和HR圖像IHR之間的卷積,nε是以ε為標(biāo)準(zhǔn)差的噪聲。
實(shí)驗(yàn)表明,該降級(jí)函數(shù)得到的LR圖片比簡(jiǎn)單的插值下采樣更接近真實(shí)世界的圖片。
GCA 模型的整體結(jié)構(gòu)如圖1 所示。模型分為3部分,分別為預(yù)處理模塊(Preprocessed Module)、生成器模塊(Generator Module)以及判別器模塊(Discriminator Module)。
圖1 GCA 的整體模型Fig.1 The GCA overall model
本文使用一種基于核估計(jì)和噪聲注入的真實(shí)圖像退化方法。假設(shè)LR圖像通過(guò)式(5)退化方法獲得。
其中,k和n分別表示模糊核和噪聲。
為了更準(zhǔn)確地模擬退化方法,本文從真實(shí)世界圖像中明確地估計(jì)核和噪聲,在獲得估計(jì)的核和噪聲塊后,建立一個(gè)退化池,用于將高分辨率圖像退化為符合真實(shí)世界模糊和噪聲分布的低分辨率圖片,從而生成用于訓(xùn)練GCA 網(wǎng)絡(luò)的圖像對(duì),該降級(jí)過(guò)程簡(jiǎn)單描述見(jiàn)表1。
表1 數(shù)據(jù)集預(yù)處理算法Tab.1 Data set preprocessing algorithm
本文采用核估計(jì)算法從真實(shí)圖片中明確地估計(jì)核,估計(jì)的模糊核應(yīng)該滿足式(6)約束:
其中, (Isrc*k) ↓s是核函數(shù)為k的下采樣LR圖片,Isrc↓s是理想核函數(shù)下采樣后的圖片。
因此最小化二者之差就是期望下采樣的低分辨率圖片保留原更多的低頻信息,式(6)中的第二項(xiàng)是為了約束k的總和為1,第三項(xiàng)是k的懲罰邊界,后面的判別模塊是為了保證生成的圖片和原圖片盡可能相似,也就是處于同一個(gè)域,更符合真實(shí)世界的圖像。
通過(guò)以上約束獲得模糊核后,將所有的模糊核放入退化池中,然后從退化池中隨機(jī)選擇一個(gè)模糊核來(lái)對(duì)HR圖片進(jìn)行降級(jí)退化處理,該過(guò)程可以表述如式(7):
其中,ID代表下采樣后的圖片,ki代表從{k1,k2,…,km} 中隨機(jī)選定的模糊核。
由于真實(shí)世界圖片并不是純凈的,往往受到環(huán)境的影響而存在一定噪聲。為了更好地?cái)M合真實(shí)圖片,需要在經(jīng)過(guò)模糊核下采樣后的圖片中加入噪聲。本文直接從原數(shù)據(jù)集X的圖片中采集噪聲塊,一般情況下,內(nèi)容越豐富,其像素值的方差是越大的,因此,本文設(shè)計(jì)了一個(gè)篩選規(guī)則來(lái)收集方差在一定范圍內(nèi)的塊,簡(jiǎn)化如式(8):
其中,σ(·)表示計(jì)算方差的函數(shù),v是方差的最大值。
獲得了一系列的噪聲塊后,將所有的噪聲塊放入退化池,從中隨機(jī)裁剪噪聲塊加入到下采樣后的圖片中,以此來(lái)完成噪聲注入,表示為式(9):
其中,ni是從退化池隨機(jī)裁剪的噪聲塊。
經(jīng)過(guò)模糊核和噪聲注入退化后的ILR更加符合真實(shí)世界的圖像。
生成模塊本質(zhì)上就是一個(gè)生成函數(shù)G,對(duì)于給定的LR圖片,可以輸出對(duì)應(yīng)的HR圖片。本文采用RRDB 塊和Resnet 塊作為生成網(wǎng)絡(luò)的基礎(chǔ)塊,注意力機(jī)制的原理便是將前面部分的特征向量作為當(dāng)前層高層次信息的參數(shù)。假設(shè)數(shù)據(jù)集Preprocessed 中下采樣的比例因子為r,用一個(gè)大小為W ×H ×C的張量來(lái)表示ILR圖片,rW × rH × C的張量則表示ILR圖片和IHR。生成模塊作為一個(gè)前饋網(wǎng)絡(luò)代表網(wǎng)絡(luò)中的超參數(shù),θG ={W1:L;b1:L},通過(guò)超分辨率網(wǎng)絡(luò)中特定的損失函數(shù)LSR得到。訓(xùn)練時(shí),數(shù)據(jù)集中的高分辨率圖片表示為低分辨率圖片表示為
作為生成模塊的基本塊RRDB,其結(jié)構(gòu)如圖2所示。首先將Preprocessed 過(guò)程后得到的LR圖片經(jīng)過(guò)9×9 卷積對(duì)輸入圖片進(jìn)行一個(gè)全局信息提取,再輸入到RRDB 塊中對(duì)信息進(jìn)一步整合,具體來(lái)說(shuō),稠密塊(Dense Block)的每一層使用64 個(gè)步長(zhǎng)為1 的3×3 卷積核,每層的輸出采用LRelu 激活函數(shù),其與Relu 函數(shù)的不同之處在于將小于0 的數(shù)值進(jìn)行保留,這對(duì)于超分辨率這樣對(duì)細(xì)節(jié)信息要求較高的任務(wù)非常適合。RRDB 的每一個(gè)Dense Block之后會(huì)有一個(gè)殘差縮放因子β,即在將殘差添加到主路徑之前,通過(guò)乘以0 和1 之間的常數(shù)來(lái)縮小殘差,因?yàn)殡S著網(wǎng)絡(luò)層數(shù)的加深,會(huì)存在一定的冗余信息,越靠近輸入的層其所含信息越豐富,殘差因子相對(duì)更大,這也是一種自注意力機(jī)制。
圖2 RRDB 塊結(jié)構(gòu)Fig.2 RRDB block structure
RRDB 塊之后,使用Resnet 塊來(lái)整合網(wǎng)絡(luò)中各層的信息,同時(shí)加速網(wǎng)絡(luò),保證了梯度信息能夠有效的傳遞。損失函數(shù)從判別模塊開(kāi)始反向傳播至生成模塊時(shí),經(jīng)過(guò)了很多層,越深的網(wǎng)絡(luò)隱藏參數(shù)越多,在反向傳播的過(guò)程中也越容易梯度彌散,而加入Resnet 塊可避免這種情況。Resnet 塊共有3 個(gè),每個(gè)包含3 層卷積神經(jīng)網(wǎng)絡(luò),每層網(wǎng)絡(luò)由64 個(gè)3×3 的卷積核構(gòu)成,在卷積核前面加了一個(gè)LRelu 預(yù)激活函數(shù)。
為了使生成模塊輸出的圖片和Preprocessed 中的HR圖片能輸入到判別模塊進(jìn)行分類(lèi),需要將Resent 塊后的圖片進(jìn)行上采樣,使之與HR圖片同等尺寸。此處本文使用像素混洗(Pixel-Shuffle)對(duì)圖片進(jìn)行放大,其過(guò)程可以表示為式(10):
其中,Ihid表示處于低維空間的圖片,PS是像素混洗算子,其將W×H×C × r2的張量重新排列成大小為rW × rH × C的張量。
從數(shù)學(xué)角度來(lái)講,該算子的像素重排列可以表示為式(11):
其中,x,y,c分別為尺寸大小以及通道數(shù);mod為模運(yùn)算符;C為比例因子;T則為組合排列函數(shù)。
假設(shè)輸入是一個(gè)三維的張量x × y × c,通過(guò)PS周期為T(mén)的運(yùn)算,其可以變成其它尺寸的張量。
在Pixel-Shuffle 層前設(shè)置3×3 的卷積層,經(jīng)過(guò)卷積得到通道數(shù)為r2與輸入圖像大小一樣的特征圖像;再將特征圖像每個(gè)像素的r2個(gè)通道重新排列成一個(gè)r × r的區(qū)域,對(duì)應(yīng)高分辨率圖像中一個(gè)r × r大小的子塊,從而大小為W × H × r2的特征圖像被重新排列成rW × rH ×1 的高分辨率圖片。另外,Pixel-Shuffle 只在最后一層對(duì)圖像大小做變換,前面的卷積運(yùn)算由于在低分辨率圖像上進(jìn)行,因此效率會(huì)較高。
判別模塊是由膠囊網(wǎng)絡(luò)組成的一個(gè)二分類(lèi)器,將生成模塊輸出的ISR作為虛假圖片,數(shù)據(jù)集預(yù)處理過(guò)程的IHR作為真實(shí)圖片,判別模塊的目的是盡可能地區(qū)分出ISR和IHR。Discriminator 只訓(xùn)練判別模塊的參數(shù);Generator 的訓(xùn)練是把生成模塊和判別模塊兩個(gè)網(wǎng)絡(luò)連在一起,凍結(jié)判別模塊的學(xué)習(xí)率,以此來(lái)對(duì)兩個(gè)模塊進(jìn)行交替訓(xùn)練,最終使得Discriminator中的分類(lèi)器無(wú)法區(qū)分ISR和IHR。生成模塊輸出的fake 圖片表示為生成模塊和判別模塊的對(duì)抗訓(xùn)練定義如式(12):
其中,GG代表生成器;DθD代表判別器;E則代表訓(xùn)練過(guò)程中的比例因子。
用判別模塊訓(xùn)練來(lái)實(shí)現(xiàn)maxθD,其由膠囊網(wǎng)絡(luò)組成,分別是Conv1 層、PrimaryCaps 層、DigitCaps層。為了實(shí)現(xiàn)對(duì)ISR和IHR的0-1 二分類(lèi),本文將DigitCaps 層改為兩個(gè)膠囊,最后通過(guò)計(jì)算膠囊向量的模塊作為分類(lèi)的概率值。由于膠囊網(wǎng)絡(luò)中不存在池化層,對(duì)細(xì)節(jié)信息的捕獲非常敏感,且在Mnist 數(shù)據(jù)集上對(duì)數(shù)字圖片分類(lèi)的結(jié)果較好,非常適合圖片分類(lèi)任務(wù)。
和CNN 中的標(biāo)量神經(jīng)元不一樣,膠囊網(wǎng)絡(luò)中的神經(jīng)元是向量,膠囊網(wǎng)絡(luò)通過(guò)動(dòng)態(tài)路由算法將低級(jí)膠囊的預(yù)測(cè)結(jié)果傳輸?shù)礁呒?jí)膠囊。Conv1 層有256個(gè)9×9 卷積核,primary 層是一個(gè)卷積膠囊層,通過(guò)6×6 的卷積核和reshape 操作得到,最后通過(guò)全連接的矩陣轉(zhuǎn)換得到兩個(gè)膠囊,分別對(duì)應(yīng)0-1 分類(lèi)。
將均方誤差作為損失函數(shù),因?yàn)閳D像超分辨率重建的常用評(píng)價(jià)指標(biāo)PSNR 與之存在一定的數(shù)值運(yùn)算關(guān)系,可以得到更高的PSNR 值。學(xué)習(xí)端到端的重建映射函數(shù)f L需要計(jì)算網(wǎng)絡(luò)參數(shù),用θ代表,即式(13):
其中,yi和xi為高低分辨率圖像,n為訓(xùn)練樣本的數(shù)量。
為了驗(yàn)證模型的有效性,做了一定的對(duì)比實(shí)驗(yàn)和消融實(shí)驗(yàn),還使用Set5、Set14、BSD100 公共基準(zhǔn)數(shù)據(jù)集進(jìn)行測(cè)試實(shí)驗(yàn)。
Set5 是一個(gè)經(jīng)典數(shù)據(jù)集,只包含嬰兒、鳥(niǎo)、蝴蝶、頭和人的5 幅測(cè)試圖像。
Set14 公開(kāi)數(shù)據(jù)集包含更多類(lèi)別,但圖像數(shù)量依然很少,只有14 張圖像。
BSD100 是一個(gè)具有100 張測(cè)試圖像的經(jīng)典數(shù)據(jù)集,從自然圖像到特定對(duì)象,如植物、人、食物等。
City100 包括City100 NikonD5500 和City100 iPhoneX,分別表示單反相機(jī)和智能手機(jī)相機(jī)下的分辨率和視場(chǎng)退化,以100 張不同城市場(chǎng)景的明信片作為成像對(duì)象。HR 和LR 圖像分別在55 mm 和18 mm的焦距下拍攝。
通過(guò)數(shù)據(jù)集預(yù)處理,得到相對(duì)應(yīng)的高低分辨率圖像對(duì),通過(guò)隨機(jī)截取低分辨率圖像的48×48,以及高分辨率圖像對(duì)應(yīng)位置的192×192,并分別將其旋轉(zhuǎn)與翻轉(zhuǎn),進(jìn)行數(shù)據(jù)增強(qiáng)處理,以此得到更多的訓(xùn)練數(shù)據(jù)集。采用Adam 優(yōu)化器來(lái)優(yōu)化模型,動(dòng)量設(shè)置為0.9,權(quán)重衰減系數(shù)為0.000 1,共訓(xùn)練代數(shù)為200,此外采用多步學(xué)習(xí)策略,初始學(xué)習(xí)率為0.01,在適當(dāng)?shù)牡螖?shù)后,以一定比例降低學(xué)習(xí)率。
所有實(shí)驗(yàn)均在windows10 系統(tǒng)搭載的12 GB NVIDIA GTX 1080 Ti GPU 和3.6 GHz Intel ?i7CPU 上完成的,在Pytorch-GPU 1.13.1 環(huán)境下使用python3.7 實(shí)現(xiàn)了模型。
PSNR:峰值信噪比是一個(gè)表示信號(hào)最大可能功率和影響其表示精度的破壞性噪聲功率的比值,經(jīng)常作為圖像重建等領(lǐng)域中重建質(zhì)量好壞的評(píng)價(jià)標(biāo)準(zhǔn),其值越大,表明圖像質(zhì)量越好;
SSIM:越大表示輸出圖像和無(wú)失真圖像的差距越小,即圖像質(zhì)量越好。
為了進(jìn)行直觀的對(duì)比,將本文所提模型的SR結(jié)果與SRCNN、ESRGAN、DPAN、WDN 等現(xiàn)有模型進(jìn)行對(duì)比,這些模型在超分任務(wù)中性能較好,具有代表性,且與本文提出的算法具有一定的相關(guān)性。SRCNN 模型首次將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于圖像超分辨率任務(wù);ESRGAN 在SRGAN 的基礎(chǔ)上去除所有的BN 層。DPAN[14]則構(gòu)建了一個(gè)雙路徑的注意力模型;WDN[8]是最近提出的一種將超分辨率任務(wù)分而治之的算法,通過(guò)多路徑的模型將超分辨率重建任務(wù)分為多個(gè)子任務(wù),并行計(jì)算從而大大提高了模型的效率。
基線模型的PSNR 和SSIM 指標(biāo)在公共數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果見(jiàn)表2,本文提出的模型分別為28.53和0.869,比WDN 要更好。和SRCNN、ESRGAN、DPAN、WDN 比較,在兩個(gè)評(píng)價(jià)指標(biāo)上,本文的方法表現(xiàn)出了一定的優(yōu)勢(shì),這說(shuō)明本文提出的GCA 模型在圖像超分辨率重建上效果良好,直觀效果如圖3所示。為了證明本文所提算法中各個(gè)模塊的有效性,將進(jìn)行消融實(shí)驗(yàn),結(jié)果見(jiàn)表3。
表2 對(duì)比實(shí)驗(yàn)結(jié)果Tab.2 Compare the results of the experiment
表3 消融實(shí)驗(yàn)結(jié)果Tab.3 Ablation experiment
圖3 模型效果可視化Fig.3 Model effect visualization
將GCA 算法中的Generator 作為基線模型,City100 數(shù)據(jù)集中包含高低分辨率圖像對(duì),進(jìn)行消融實(shí)驗(yàn)時(shí),各個(gè)模塊之間可以獨(dú)立存在,互不影響,這也保證了消融實(shí)驗(yàn)的可靠性。另外,從實(shí)驗(yàn)結(jié)果上來(lái)看也證明了Preprocessed 模塊在構(gòu)造低分辨率圖片上有效果。表3 中的實(shí)驗(yàn)數(shù)據(jù)表明GCA 算法中的各個(gè)模塊在超分辨率任務(wù)中是有效的。在Set5、Set14 和BSD100 公共數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果見(jiàn)表4,通過(guò)與基線模型的對(duì)比可以看出本文提出的GCA算法在PSNR 和SSIM 指標(biāo)上都是要更好的。
表4 Set5、Set14、BSD100 數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)Tab.4 Comparison experiments on Set5,Set14,BSD100 datasets
本文提出GCA 算法來(lái)提高真實(shí)世界圖片的超分辨率重建效果,數(shù)據(jù)集的預(yù)處理上采用核估計(jì)和噪聲注入,目的是為了獲取處于同一域的高分辨率和低分辨率圖片對(duì),生成模塊利用RRDB 塊和ResNet 塊促進(jìn)了模型中不同層之間的信息流動(dòng)和特征重用,判別模塊則利用膠囊網(wǎng)絡(luò)對(duì)超分辨率圖片和高清圖片進(jìn)行判別分類(lèi),通過(guò)生成模塊和判別模塊二者之間的交替博弈來(lái)進(jìn)行訓(xùn)練。在City100數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文采用的模型在真實(shí)世界圖片上的效果優(yōu)異,與其它方法相比,在PSNR 和SSIM 評(píng)價(jià)指標(biāo)上,均取得較好的效果。目前的模型主要針對(duì)的是較低倍數(shù)的超分辨率重建圖片,在未來(lái)的工作中,將致力于輸出更高倍數(shù)圖片的研究。