王志強(qiáng),趙 莉,肖 鋒
(西安工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,西安710021)
圖像超分辨率技術(shù)是計(jì)算機(jī)視覺領(lǐng)域中的一項(xiàng)重要的研究課題,具有較大的研究價(jià)值和意義。圖像超分辨率主要通過低分辨率(Low Resolution,LR)圖像實(shí)現(xiàn)高分辨率(High Resolution,HR)圖像的轉(zhuǎn)化,它應(yīng)用于廣泛的領(lǐng)域,如醫(yī)療、衛(wèi)星遙感和公共安防等領(lǐng)域。早期的超分辨率圖像處理方法是基于單幀圖像的Harris-Goodman頻譜外推法[1],該方法使用單幅圖像實(shí)現(xiàn)超分辨率任務(wù),由于單幅圖像超分辨率引入先驗(yàn)知識(shí)的不足,生成圖像的效果難以提升,使得單幅圖像超分辨率技術(shù)的發(fā)展受到限制。此后提出了基于序列或多幀圖像[2]的超分辨率重建問題,并給出了基于頻域逼近的重建圖像方法,這些圖像復(fù)原技術(shù)通過改變截止頻率提高圖像質(zhì)量,缺點(diǎn)是截止頻率以外的信息未得到較好地恢復(fù)。隨后學(xué)者提出采用信號(hào)處理的方法恢復(fù)成像過程中丟失的高頻信息,從而獲取更好的分辨率圖像,促進(jìn)超分辨率恢復(fù)技術(shù)在圖像處理領(lǐng)域的不斷發(fā)展。
目前超分辨率技術(shù)主要有3大類:基于插值的方法、基于重建的方法和基于學(xué)習(xí)的方法。其中基于插值的方法中典型的方法有:最近鄰插值、雙線性插值和雙線性插值,這類方法的優(yōu)點(diǎn)是快速易行和運(yùn)行復(fù)雜度低,但由于不能引入額外有用的高頻信息,低分辨率圖像的采樣值并不是理想值,使得形成的圖片模糊、質(zhì)量不高?;谥亟ǖ姆椒╗3]是利用多幅低分辨率圖像的互補(bǔ)信息重構(gòu)一副高分辨率圖像,該類方法主要是構(gòu)建高分辨圖像與低分辨率圖像關(guān)系的觀察模型,根據(jù)觀察模型,利用多幅低分辨率圖像獲得高分辨率的圖像,生成的圖像質(zhì)量最后主要取決于配準(zhǔn)效果、模糊參數(shù)的估計(jì)和先驗(yàn)知識(shí)的定義,該類方法的缺陷是由于人為定義的先驗(yàn)知識(shí)和觀測模型所提供的高分辨率的信息越來越少,使得信息大部分丟失,影響了生成的高分辨率圖像的效果。針對這一不足,文獻(xiàn)[4-5]提出基于學(xué)習(xí)的超分辨率復(fù)原方法,通過學(xué)習(xí)得到高分辨率圖像和低分辨率圖像之間的映射關(guān)系,對特征進(jìn)行提取并建立學(xué)習(xí)模型,通過低分辨率塊建立最匹配的高分辨率塊,實(shí)現(xiàn)了低分辨率到高分辨率的轉(zhuǎn)化,其中的先驗(yàn)知識(shí)不再人為設(shè)定。基于學(xué)習(xí)的方法較多,例如:基于示例的方法[6]和基于稀疏字典的圖像超分辨率復(fù)原方法[7],其主要是進(jìn)行特征提取、模型學(xué)習(xí)和重建的過程,但它們與基于重建的方法一樣有著各自的不足,如基于示例的學(xué)習(xí),由于需要對重復(fù)區(qū)域的高頻信息求均值,使得圖像邊緣過于平滑;基于稀疏字典的圖像超分辨率方法在稀疏編碼和重建過程運(yùn)算量大、迭代次數(shù)多和計(jì)算效率低。近年來,隨著科技發(fā)展,獲取大量數(shù)據(jù)變得相對容易,促進(jìn)了深度學(xué)習(xí)的不斷發(fā)展,其在特征提取上相較淺層學(xué)習(xí)能獲得更多的信息,用深度學(xué)習(xí)生成的模型效果總體來說優(yōu)于淺層學(xué)習(xí)。很多學(xué)者通過借鑒深度學(xué)習(xí)在圖像目標(biāo)檢測、圖像分類和圖像分割的經(jīng)驗(yàn),提取精細(xì)的圖像特征和建立更好的學(xué)習(xí)模型來實(shí)現(xiàn)圖片從低分變率到高分辨率的更好的紋理轉(zhuǎn)化,主要方法有基于卷積神經(jīng)網(wǎng)絡(luò)的方法[8-9]、基于遞歸卷積網(wǎng)絡(luò)的方法[10]和基于生成式對抗網(wǎng)絡(luò)[11]等。
文中基于生成式對抗網(wǎng)絡(luò)實(shí)現(xiàn)低分辨率到高分辨率圖像的轉(zhuǎn)化,在文獻(xiàn)[12]基礎(chǔ)上,對生成式對抗網(wǎng)絡(luò)模型結(jié)構(gòu)進(jìn)行改進(jìn),加深網(wǎng)絡(luò)層次、修改殘差網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)絡(luò)參數(shù)。
本文利用深度學(xué)習(xí)的生成式對抗方法來實(shí)現(xiàn)圖像的高分辨率轉(zhuǎn)化,通過創(chuàng)建一個(gè)鑒別網(wǎng)絡(luò)和一個(gè)生成網(wǎng)絡(luò),利用對抗競爭性思想進(jìn)行網(wǎng)絡(luò)結(jié)構(gòu)的訓(xùn)練,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1中,生成器網(wǎng)絡(luò)通過輸入低分辨率圖像生成高分辨率圖像,鑒別器網(wǎng)絡(luò)用來鑒別圖片是真實(shí)的圖片還是生成器生成的圖片,若判斷是假則返回零。根據(jù)損失情況和優(yōu)化算法對生成網(wǎng)絡(luò)中的權(quán)重和偏移量進(jìn)行調(diào)整,實(shí)現(xiàn)在下一次訓(xùn)練中生成更加接近真實(shí)圖片的高分辨率圖像,訓(xùn)練鑒別器網(wǎng)絡(luò),通過輸入高分辨率圖像不斷提高鑒別網(wǎng)絡(luò)的鑒別能力,用來鑒別出更加真實(shí)的生成圖片?;趯故綄W(xué)習(xí)思想,使用大量的實(shí)驗(yàn)數(shù)據(jù)圖像不斷更新網(wǎng)絡(luò)中的細(xì)節(jié)參數(shù),生成更好的學(xué)習(xí)模型,利用訓(xùn)練好的學(xué)習(xí)模型對要處理的低分辨率圖像進(jìn)行卷積生成高分辨率圖像,通過主觀方法和客觀方法進(jìn)行對比,確定優(yōu)點(diǎn)和不足,進(jìn)一步修改,最終形成整體的網(wǎng)絡(luò)模型結(jié)構(gòu)。
生成式對抗網(wǎng)絡(luò)實(shí)現(xiàn)輸入低分辨率圖像生成高分辨率的圖像。文獻(xiàn)[13]的方法表明網(wǎng)絡(luò)層次越深卷積核越多能獲取到更多的細(xì)節(jié)信息,所以為了減少細(xì)節(jié)損失,本方法在生成網(wǎng)絡(luò)結(jié)構(gòu)上加深了網(wǎng)絡(luò)結(jié)構(gòu),設(shè)置24個(gè)結(jié)構(gòu)相同的殘差塊。借鑒EDSR[14]方法網(wǎng)絡(luò)結(jié)構(gòu)上去掉批量歸一化層(BN層),圖像超分辨率要求輸出的圖像在色彩、對比度、亮度上和輸入一致,但通過BN層的處理會(huì)破壞原有的對比度,而且BN層會(huì)和卷積層一樣占用內(nèi)存,去掉可節(jié)省內(nèi)存的消耗,為了節(jié)省內(nèi)存、提高性能和獲得更好的效果,本文在整體的生成網(wǎng)絡(luò)中去掉原先卷積模塊和殘差模塊里的批量歸一化層。生成網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2中,生成網(wǎng)絡(luò)訓(xùn)練通過輸入低分辨率圖片經(jīng)過第一層卷積網(wǎng)絡(luò)進(jìn)行特征提取,卷積層參數(shù)為64個(gè)3×3的卷積核,步長為1,利用激活函數(shù)Relu進(jìn)行非線性映射提升性能,隨后經(jīng)過24個(gè)殘差塊,每個(gè)殘差塊的工作包括用64個(gè)3×3的卷積核以步長1進(jìn)行卷積和Relu操作,相較原先的殘差結(jié)構(gòu),文中去除了批量歸一化層,殘差網(wǎng)絡(luò)后接一層卷積層其中包含64個(gè)3×3的卷積核,通過跳躍連接進(jìn)行卷積求均值求和,2個(gè)相同的以卷積層、上采樣層和Relu層組成的卷積模塊對結(jié)果進(jìn)行放大處理,其中卷積層由256個(gè)3×3卷積核組成,上采樣層利用Pixel Shuffle[15]算法來擴(kuò)大圖像,最終經(jīng)過3個(gè)1×1的卷積核進(jìn)行步長為1的卷積層和tanh激活層,生成高分辨率圖像。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Neural network structure
圖2 生成網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Generative network structure
鑒別網(wǎng)絡(luò)判斷輸入的圖片是生成網(wǎng)絡(luò)生成的圖片還是真實(shí)的圖片,通過對鑒別網(wǎng)絡(luò)進(jìn)行訓(xùn)練,不斷提高鑒別網(wǎng)絡(luò)的判別能力。利用優(yōu)化算法Adam和根據(jù)損失函數(shù)判斷損失,反向修改生成網(wǎng)絡(luò)和鑒別網(wǎng)絡(luò)的權(quán)重等各項(xiàng)參數(shù),減小生成圖像與真實(shí)圖像的差距,提高生成網(wǎng)絡(luò)的生成能力,提高圖片的清晰度和細(xì)節(jié)紋理,實(shí)現(xiàn)更高質(zhì)量的圖像的生成。在鑒別網(wǎng)絡(luò)中,各項(xiàng)參數(shù)如卷積核的大小、Feature Map的個(gè)數(shù)和Stride的大小對于網(wǎng)絡(luò)的判別能力和實(shí)驗(yàn)效果都有很大影響,為提高感知野獲取更多的信息文中用4×4的卷積核進(jìn)行卷積操作,通過多層的卷積、LRelu、全連接層和Sigmoid的操作輸出判別結(jié)果。鑒別網(wǎng)絡(luò)的參數(shù)見表1。
鑒別網(wǎng)絡(luò)結(jié)構(gòu)中前6層使用4×4的卷積核進(jìn)行特征提取,通過增加特征圖個(gè)數(shù)來增加提取的特征信息, 7~9層利用1×1的卷積層降低輸入通道數(shù)和卷積核參數(shù)來減少運(yùn)算復(fù)雜度和實(shí)現(xiàn)降維,進(jìn)行3×3的卷積和跳躍連接對不同階段的特征信息處理以獲取更多有用的特征信息,經(jīng)過FlattenLayer進(jìn)行數(shù)據(jù)一維化、全連接和Sigmoid層輸出判斷結(jié)果,根據(jù)判別結(jié)果分析真實(shí)數(shù)據(jù)與實(shí)驗(yàn)數(shù)據(jù)差距,通過反向傳播算法修改內(nèi)部網(wǎng)絡(luò)參數(shù)值,增強(qiáng)模型的預(yù)測能力,減小實(shí)驗(yàn)結(jié)果差距,提高網(wǎng)絡(luò)鑒別能力,進(jìn)而提高網(wǎng)絡(luò)的生成能力。鑒別網(wǎng)絡(luò)模型結(jié)構(gòu)如圖3所示。
損失函數(shù)通過衡量預(yù)測值和真實(shí)值的差距判斷網(wǎng)絡(luò)的性能,而且在反向傳播中損失函數(shù)有助于修改參數(shù)來實(shí)現(xiàn)網(wǎng)絡(luò)的優(yōu)化。
表1 卷積參數(shù)表Tab.1 Convolution parameter table
圖3 鑒別網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 Distinguishing network structure
由于整體網(wǎng)絡(luò)結(jié)構(gòu)采用生成式對抗思想,鑒別模型的目標(biāo)是實(shí)現(xiàn)判別準(zhǔn)確率最大化,生成模型的目的是使鑒別模型的準(zhǔn)確率最小化,即鑒別網(wǎng)絡(luò)希望最大化判斷出圖片真實(shí)性,生成網(wǎng)絡(luò)則希望鑒別網(wǎng)絡(luò)辨別不出圖像真?zhèn)?。所以為了?yōu)化網(wǎng)絡(luò),解決對抗性最大-最小問題,最小化生成網(wǎng)絡(luò)G和最大化鑒別網(wǎng)絡(luò)D,定義目標(biāo)函數(shù)為
ETLR~PG(TLR)[log (1-D(G(TLR)))]。
(1)
式中:E為真實(shí)數(shù)據(jù)THR和TLR的數(shù)學(xué)期望;THR為高分辨率圖像;TLR為低分辨率圖像;D(THR)為鑒別網(wǎng)絡(luò)判斷真實(shí)高分辨率圖片是否真實(shí)的概率;G(TLR)為低分辨率通過生成網(wǎng)絡(luò)生成的高分辨率圖像;D(G(TLR))為鑒別網(wǎng)絡(luò)判斷生成網(wǎng)絡(luò)生成的圖片的是否真實(shí)的概率。
為了減少圖像在卷積過程中的像素?fù)p失,定義了生成網(wǎng)絡(luò)的損失函數(shù)LG,通過判斷生成的高分辨率圖片的特征表示和真實(shí)圖片的特征之間的差距,通過優(yōu)化權(quán)重和偏移量盡可能地減少高頻細(xì)節(jié)損失,生成在視覺上和高頻細(xì)節(jié)更好的高分辨率圖像。LG損失函數(shù)為
LG=Lg+Lvgg+Lmse。
(2)
式中:Lg為生成的圖片通過鑒別網(wǎng)絡(luò)的判別結(jié)果與真實(shí)值的交叉熵;Lvgg為生成圖片經(jīng)過vgg19網(wǎng)絡(luò)與真實(shí)圖片經(jīng)過vgg19網(wǎng)絡(luò)的像素之間的損失;Lmse為真實(shí)高分辨圖像與生成的高分辨率圖片像素之間的損失。
在鑒別網(wǎng)路中鑒別器判別出是真實(shí)圖片還是生成器生成的高分辨率圖片,為了提高鑒別能力,分析鑒別損失情況,定義鑒別損失函數(shù)為
LD=Ldr+Ldh。
(3)
式中:Ldr為生成網(wǎng)絡(luò)生成的高分辨率圖像在判別網(wǎng)絡(luò)判別結(jié)果與真實(shí)值0的交叉熵;Ldh為真實(shí)高分辨率圖像在判別網(wǎng)絡(luò)判別結(jié)果與真實(shí)值1的交叉熵。
在整個(gè)實(shí)現(xiàn)過程中,由于圖片進(jìn)行卷積特征提取和采樣的過程中難免造成圖像信息的丟失,如圖像的一些紋理特征、高頻細(xì)節(jié)和顏色等。為盡可能減少這些損失,定義的損失函數(shù)在進(jìn)行優(yōu)化過程中起到重要作用。通過損失函數(shù)得到網(wǎng)絡(luò)的損失情況,判斷網(wǎng)絡(luò)的性能,然后通過修改各層參數(shù)優(yōu)化生成網(wǎng)絡(luò)和鑒別網(wǎng)絡(luò),提高生成網(wǎng)絡(luò)的生成能力和鑒別網(wǎng)絡(luò)的鑒別能力,進(jìn)而提高圖像的生成質(zhì)量。
通過網(wǎng)絡(luò)的交替式訓(xùn)練,實(shí)現(xiàn)圖像從低分辨率到高分辨率的轉(zhuǎn)化,本文采用Tensorflow深度學(xué)習(xí)框架,數(shù)據(jù)集來源于DIV2K上的雙三次降采樣×4的高分辨率圖片和低分辨率圖片。DIV2K提供1 000張高清圖(2 K分辨率)和對應(yīng)的下采樣的低分辨率圖像,其中800張高清圖和對應(yīng)的低分辨率圖作為訓(xùn)練,100張高清圖和對應(yīng)的低分辨圖用于驗(yàn)證,剩余的圖用于測試。實(shí)驗(yàn)結(jié)果主要通過主觀評價(jià)和客觀評價(jià)2種方式驗(yàn)證,其中主觀評價(jià)通過多種方法實(shí)驗(yàn)結(jié)果觀察對比,主要是根據(jù)圖像的清晰度、紋理細(xì)節(jié)和直觀感受判斷方法的優(yōu)劣;客觀評價(jià)通過使用峰值信噪比和結(jié)構(gòu)相識(shí)性2種算法,運(yùn)算原始高分辨率圖像和生成的圖像的比較值客觀評價(jià)方法的優(yōu)劣。圖4為生成的對應(yīng)高分辨率圖的比較結(jié)果,通過圖4觀察到,文中方法得到的高分辨率圖相較Bicubic方法更加清晰,相較于SRGAN圖像顏色更加接近真實(shí)高分辨率圖像,雖然相較于HR高分辨率圖像還有一些差距,但在一些紋理特征、高頻細(xì)節(jié)和顏色上均有較好的轉(zhuǎn)化表現(xiàn)。
圖4 實(shí)驗(yàn)對比結(jié)果Fig.4 Comparison of experimental results
主觀評價(jià)方法可直觀地發(fā)現(xiàn)實(shí)驗(yàn)結(jié)果的優(yōu)缺點(diǎn),但個(gè)人的視覺感受存在差異,為了更好地評價(jià)實(shí)驗(yàn)結(jié)果,文中利用客觀評價(jià)標(biāo)準(zhǔn)峰值信噪比(PSRN)和結(jié)構(gòu)相似性(SSIM)對部分實(shí)驗(yàn)結(jié)果進(jìn)行評價(jià)。PSRN越高,說明圖片轉(zhuǎn)化過程失真越小,圖片生成的越好,SSIM用來衡量2幅圖像的相似程度,數(shù)值越高表示2幅圖像越相似,最大為1。圖4實(shí)驗(yàn)結(jié)果客觀評價(jià)值見表2,Set14數(shù)據(jù)結(jié)果的客觀評價(jià)值見表3。
表2為文中給出實(shí)驗(yàn)結(jié)果圖4的2種客觀評價(jià)值,數(shù)據(jù)說明文中方法得到圖1和圖3的PSRN和SSIM值相比于Bicubic的方法有所提高,圖2的兩種客觀評價(jià)值略低于Bicubic,但從主觀觀察中本文方法的得到的結(jié)果更加清晰。表3為用Set14數(shù)據(jù)集的測試結(jié)果比,從表3可以看出,本文方法的大部分測試結(jié)果值相對另外2種方法有一定的提高。總體而言該方法相對另外2種方法在客觀評價(jià)值上有更好的實(shí)驗(yàn)結(jié)果。
表2 客觀評價(jià)值Tab.2 Objective evaluation values
表3 Set14客觀評價(jià)值Tab.3 Set14 objective evaluation values
本文利用深度學(xué)習(xí)的生成式對抗網(wǎng)絡(luò)的學(xué)習(xí)方法,創(chuàng)建生成式對抗網(wǎng)絡(luò)模型,建立生成網(wǎng)絡(luò)和鑒別網(wǎng)絡(luò),其中生成網(wǎng)絡(luò)在SRGAN網(wǎng)絡(luò)的基礎(chǔ)上修改了網(wǎng)絡(luò)層次,更改了殘差結(jié)構(gòu)和網(wǎng)絡(luò)參數(shù),鑒別網(wǎng)絡(luò)由多層卷積、全連接層和Sigmoid層組成。低分辨率圖片通過生成模型生成高分辨率圖片,鑒別模型用來鑒別生成圖片是原始自然圖片還是生成的圖片,通過生成網(wǎng)絡(luò)和鑒別網(wǎng)絡(luò)的交替式訓(xùn)練學(xué)習(xí),優(yōu)化生成模型和鑒別模型。實(shí)驗(yàn)結(jié)果從主觀方面可看出,文中方法生成的圖像較清晰,在紋理色彩方面更接近于高分辨率圖像,從客觀評價(jià)上峰值信噪比和結(jié)構(gòu)相似性的值相較圴有一定的提高。但同時(shí)也存在不足之處,如在轉(zhuǎn)化過程中對于色彩紋理復(fù)雜的圖片轉(zhuǎn)化的效果不佳,與真實(shí)的高分辨率圖片相較還有差距,在以后的工作中將進(jìn)一步優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),減少細(xì)節(jié)損失,實(shí)現(xiàn)更好的生成能力,提高生成圖片與原圖的結(jié)構(gòu)相似性。