国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

深度學(xué)習(xí)在超分辨率圖像重建中的應(yīng)用

2017-07-20 12:50韓森森
計(jì)算機(jī)時(shí)代 2017年7期
關(guān)鍵詞:映射深度學(xué)習(xí)卷積

韓森森

摘 要: 超分辨率圖像重建可以利用低分辨率圖像重構(gòu)出一幅高分辨率圖像,該技術(shù)已經(jīng)成為圖像處理領(lǐng)域的研究熱點(diǎn)。目前深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中一個(gè)熱門(mén)的分支,其通過(guò)將低級(jí)特征進(jìn)行組合形成更加抽象的高級(jí)視覺(jué)特征,避免了人工提取特征。文章將當(dāng)前的重建算法分為基于重建約束的方法、基于重構(gòu)和基于學(xué)習(xí)的方法三大類(lèi),著重介紹幾種基于深度學(xué)習(xí)的重建算法,最后對(duì)超分辨率圖像重建技術(shù)未來(lái)的研究方向進(jìn)行展望。

關(guān)鍵詞: 超分辨率; 深度學(xué)習(xí); 卷積; 神經(jīng)網(wǎng)絡(luò); 視覺(jué)特征; 映射

中圖分類(lèi)號(hào):TP399 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2017)07-38-04

Application of deep learning in super-resolution image reconstruction

Han Sensen

(School of Computer and Information Engineering, Henan University, Kaifeng, Henan 475000, China)

Abstract: Super-resolution image reconstruction can reconstruct a high-resolution image using low-resolution images; it has become a hotspot in image processing. Deep learning is a popular branch of machine learning, which by combining low-level features to form more abstract high-level visual features, to avoid the artificial extraction of features. This paper divides the current reconstruction algorithm into three categories, which are based on interpolation, based on reconstruction and based on learning, and especially focuses on the reconstruction algorithms based on deep learning. Finally the future research direction of super-resolution image reconstruction technology is prospected.

Key words: super-resolution; deep learning; convolution; neural networks; visual feature; mapping

0 引言

單幀圖像的超分辨率(super resolution,SR)重建是指利用已知的低分辨率圖像,重構(gòu)出具有更高像素密度的圖像,并且重構(gòu)出的圖像還能夠保持豐富的紋理、質(zhì)地等細(xì)節(jié)信息。它在視頻監(jiān)控、圖像打印、醫(yī)學(xué)圖像處理、衛(wèi)星成像等領(lǐng)域有較廣泛的應(yīng)用。

超分辨率圖像的重建本質(zhì)上是一個(gè)病態(tài)(ill-posed)問(wèn)題,因?yàn)椴煌耆嗤亩鄰垐D像高分辨圖像在經(jīng)過(guò)相同的降采樣都可以產(chǎn)生相同的低分辨圖像,這是一種典型的一對(duì)多問(wèn)題,因此存在惟一解,特別是在放大倍數(shù)較高的情況下該問(wèn)題將變得更為復(fù)雜。

1 算法分類(lèi)

當(dāng)前的超分辨算法大致可分為三類(lèi):基于插值的超分辨率重建算法,基于重構(gòu)的超分辨率重建算法和基于學(xué)習(xí)的超分辨率重建算法。

基于插值的重建算法假設(shè)像素的灰度值是連續(xù)變化的,并利用鄰近像素的灰度值計(jì)算待插值像素的灰度值,然而實(shí)際應(yīng)用中許多圖像并不滿(mǎn)足這種假設(shè)。并且該算法通過(guò)一個(gè)預(yù)定義的數(shù)學(xué)公式直接將低分辨率圖像生成高分辨率的圖像而不考慮任何的圖像特性,也不接受任何的訓(xùn)練。所以基于差值方法得到的重建圖像容易產(chǎn)生模糊、鋸齒現(xiàn)象。常見(jiàn)的線(xiàn)性插值方法有最近鄰插值方法,雙線(xiàn)性插值方法,雙三次插值方法等。

基于重構(gòu)的超分辨率重建算法是依照特定的退化模型,將已知的低分辨率圖像序列中不同場(chǎng)景的信息進(jìn)行融合來(lái)重建出高分辨率圖像,因此該算法需要對(duì)圖像進(jìn)行配準(zhǔn)。常見(jiàn)重構(gòu)算法有種迭代反向投影[1](IBP)、凸集投影法[2](POCS)。

基于學(xué)習(xí)的分辨率重建算法則是通過(guò)機(jī)器學(xué)習(xí)方法從大量的低分辨圖像和高分辨圖像對(duì)中學(xué)習(xí)它們之間的映射函數(shù),利用學(xué)習(xí)到的函數(shù)對(duì)測(cè)試圖像進(jìn)行預(yù)測(cè)來(lái)產(chǎn)生高分辨率圖像。常見(jiàn)的基于學(xué)習(xí)的分辨率重建算法有嵌套的鄰域嵌入[3](Neighbor Embedding with Locally Linear Embedding)、固定鄰域回歸[4](Anchored Neighborhood Regression)、稀疏編碼[5](Sparse Coding)。

相比較于其他兩類(lèi)算法而言,基于學(xué)習(xí)的SR算法直接學(xué)習(xí)分辨率圖像與高分辨率圖像端到端的映射函數(shù),比傳統(tǒng)的插值和重構(gòu)的方法具有更突出的性能。本文著重介紹幾種基于深度學(xué)習(xí)的超分辨算法,包括SRCNN[6],DRCN[7], ESPCN[8]和SRGAN[9]等。

2 SRCNN

SRCNN(Super-Resolution Convolutional Neural Network)是較早地使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)做SR的網(wǎng)絡(luò)模型。該網(wǎng)絡(luò)結(jié)構(gòu)十分簡(jiǎn)單,僅僅用了三個(gè)卷積層。對(duì)于一張低分辨率圖像,SRCNN首先使用雙三次插值將它放大到將要放大的尺寸,再通過(guò)三層卷積神經(jīng)網(wǎng)絡(luò)做非線(xiàn)性映射,得到的輸出結(jié)果作為重建的高分辨率圖像。整個(gè)過(guò)程可分為三個(gè)部分:圖像塊的提取和特征表示,特征非線(xiàn)性映射和最終的重建。

圖像塊提取與表示:該過(guò)程從低分辨率圖像中提取出部分重疊的圖像塊,并將每個(gè)圖像塊表示為一個(gè)高維向量,這些向量包含一些特征映射,映射的個(gè)數(shù)與向量的維數(shù)相同。

非線(xiàn)性映射:這個(gè)功能將每個(gè)高維向量非線(xiàn)性地映射成另外一個(gè)高維向量。從概念上來(lái)講每個(gè)映射后的向量代表了一個(gè)高分辨率圖像塊。這些向量構(gòu)成了另外一個(gè)特征集。

重建:這個(gè)處理聚集以上高分辨率基于像素塊的替代對(duì)象,用于生成最終的高分辨率圖像。并且我們希望這個(gè)圖像能盡可能與高分辨率原圖相近。

對(duì)重建后的超分辨率圖像的質(zhì)量進(jìn)行定量評(píng)價(jià)的兩個(gè)常用指標(biāo)是PSNR[10](Peak Signal-to-Noise Ratio)和SSIM[11](Structure Similarity Index)。這兩個(gè)值代表重建圖像的像素值和原始圖像像素值的接近程度,具體對(duì)比結(jié)果如表1,在2、3、4的放大倍數(shù)下,SRCNN與傳統(tǒng)方法的對(duì)比,可以看出無(wú)論是在哪個(gè)放大倍數(shù)下,SRCNN的PSNR值都比其他的重建算法要高出0.4Db左右。

SRCNN的網(wǎng)絡(luò)層數(shù)較少,同時(shí)局部感受野也較小,所以從輸入圖像中提取到的信息就非常有限。因此DRCN(Deeply-Recursive Convolutional Network for Image Super-Resolution)提出在網(wǎng)絡(luò)中增加更多的卷積層增加局部感受野的大小,這樣可利用更多的鄰域像素。同時(shí)為了避免過(guò)多網(wǎng)絡(luò)參數(shù),DRCN提出使用遞歸神經(jīng)網(wǎng)絡(luò)RNN(Recurrent neural network)。

與SRCNN比較類(lèi)似DRCN的網(wǎng)絡(luò)結(jié)構(gòu)可分為三個(gè)部分,第一個(gè)是Embedding network,相當(dāng)于SRCNN中的特征提取,第二個(gè)是Inference network,相當(dāng)于SRCNN中的非線(xiàn)性變換,第三個(gè)是Reconstruction network,即從特征圖像得到最后的重建結(jié)果。其中的Inference network是一個(gè)遞歸網(wǎng)絡(luò),即數(shù)據(jù)循環(huán)地通過(guò)該層進(jìn)行多次遞歸。將這個(gè)遞歸過(guò)程展開(kāi)后可以看出,它等效于多個(gè)串聯(lián)的卷積層共享同一組參數(shù),Inference network展開(kāi)后的網(wǎng)絡(luò)結(jié)構(gòu)是由D個(gè)共享參數(shù)的卷積層組成。DRCN將每一層的卷積輸出都送入同一個(gè)Reconstruction Net來(lái)作為其輸入,由于遞歸的深度是D,從而一共可得到D個(gè)重建圖像,再把它們加權(quán)平均得到最終的輸出。此外DRCN受ResNet[14]的啟發(fā)通過(guò)skip connection將輸入圖像與Inference net的輸出HD疊加作為Reconstruction Net的輸入,這就相當(dāng)于Inference Net學(xué)習(xí)的是高分辨率圖像與低分辨率圖像的殘差圖像,即圖像的高頻信息。

實(shí)驗(yàn)部分,DRCN同樣也使用了包含91張圖像的Set91[4]數(shù)據(jù)集進(jìn)行訓(xùn)練,與SRCNN不同的是DRCN使用的訓(xùn)練數(shù)據(jù)是在多個(gè)方法倍數(shù)下生成的,而不像SRCNN那樣在單一的放大倍數(shù)下生成,這樣可以利用不同尺度圖像間的信息進(jìn)行互補(bǔ),理論上DRCN的重建效果會(huì)由于SRCNN,具體的對(duì)比結(jié)果如表2所示,可以看出DRCN的重建圖像的PSNR與SRCNN相比有了較大提高。

4 ESPCN

在SRCNN和DRCN中,低分辨率圖像都需要先使用雙三次插值得到與高分辨率圖像大小相同的低分辨率圖像來(lái)為網(wǎng)絡(luò)輸入,這意味著卷積的計(jì)算將在較高分辨率的圖像上進(jìn)行,這與在低分辨率圖像上計(jì)算卷積相比于會(huì)需要較大的計(jì)算開(kāi)銷(xiāo)。因此ESPCN(Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network)提出在低分辨率圖像上直接計(jì)算卷積來(lái)得到高分辨率圖像。

ESPCN的核心思想是亞像素卷積層(Sub-pixel Convolutional Layer)。網(wǎng)絡(luò)的輸入是原始的低分辨率圖像,經(jīng)過(guò)兩個(gè)卷積層后得到的特征圖像大小與輸入圖像一樣,但是特征的通道數(shù)變?yōu)閞2,γ是圖像的目標(biāo)放大倍數(shù)。然后將每個(gè)像素上的r2個(gè)通道重新排列成一個(gè)γ×γ的區(qū)域,該區(qū)域?qū)?yīng)于高分辨率圖像中的一個(gè)區(qū)域大小為γ×γ的子塊,從而對(duì)于一個(gè)大小為r2×H×W的特征圖像在通道上進(jìn)行重新排列會(huì)形成一個(gè)大小為1×rH×rW的圖像,該圖像的尺寸是輸入圖像尺寸的r倍,從而間接地實(shí)現(xiàn)了輸入圖像的放大。

通過(guò)使用sub-pixel convolution可以間接的實(shí)現(xiàn)圖像的放大過(guò)程,即插值函數(shù)是隱含地包含在前面的卷積層中,只在網(wǎng)絡(luò)的最后一層對(duì)圖像大小做變換,前面的卷積運(yùn)算由于在低分辨率圖像上進(jìn)行,因此效率會(huì)有很明顯的較高。

ESPCN的訓(xùn)練與SRCNN類(lèi)似,在重建效果上,以PSNR為評(píng)價(jià)指標(biāo)來(lái)看ESPCN比SRCNN有進(jìn)一步的提高,具體對(duì)比如表3所示。而時(shí)間效率方面對(duì)于一個(gè)1080HD的視頻圖像,對(duì)其放大四倍進(jìn)行的高分辨率重建,SRCNN需要的時(shí)間為0.434s,而ESPCN只需要0.029s。

SRGAN(Photo-Realistic Single Image Super Resolution Using a Generative Adversarial Network)是將生成對(duì)抗網(wǎng)絡(luò)用于SR問(wèn)題的處理。其出發(fā)點(diǎn)是傳統(tǒng)的方法一般只能處理的是較小的放大倍數(shù),當(dāng)圖像的放大倍數(shù)在4以上時(shí),得到的結(jié)果往往顯得過(guò)于平滑,從而重建出的圖像在視覺(jué)上卻少一些質(zhì)地細(xì)節(jié)的真實(shí)感,因此SRGAN使用GAN來(lái)生成圖像中的細(xì)節(jié)。

SRGAN網(wǎng)絡(luò)由兩部分組成:生成網(wǎng)和判別網(wǎng),生成網(wǎng)用于生成一些圖像,判別網(wǎng)用于判斷接收到的輸入圖像是由生成網(wǎng)生成的還是來(lái)自于真實(shí)樣本中的原始圖像。訓(xùn)練時(shí)如果判別網(wǎng)無(wú)法區(qū)分出來(lái)輸入的樣本來(lái)自于哪里就達(dá)到了預(yù)期的效果。

傳統(tǒng)方法一般使用圖像的最小均方差(MSE)作為誤差函數(shù),即該誤差函數(shù)使重建圖像有較高的PSNR,但是重建圖像缺少了必要的高頻信息,因而在重建后的圖像中容易出現(xiàn)過(guò)度平滑的紋理。在SRGAN的誤差函數(shù)中又增加了一個(gè)內(nèi)容誤差項(xiàng)和生成誤差項(xiàng)。

內(nèi)容誤差用于衡量重建出圖像與原始圖像在更高級(jí)的視覺(jué)特征上的差別。其具體定義由以下公式描述。

生成誤差項(xiàng)基于判別網(wǎng)輸出的概率,其輸出值表示輸入數(shù)據(jù)來(lái)自于真實(shí)樣本的概率大小。其具體定義由以下公式描述。

其中是一個(gè)圖像屬于真實(shí)的高分辨率圖像的概率。是重建的高分辨率圖像。

SRGAN的訓(xùn)練過(guò)程與前面的網(wǎng)絡(luò)類(lèi)似,同樣使用PSNR和SSIM評(píng)價(jià)標(biāo)準(zhǔn)對(duì)算法的重建效果進(jìn)行測(cè)試,SRGAN生成的高分辨率圖像看起來(lái)更真實(shí),具體的對(duì)比如表4所示。

6 結(jié)束語(yǔ)

深度學(xué)習(xí)已經(jīng)在超分辨率圖像重建領(lǐng)域取得了突破性的成績(jī),同時(shí)它仍然存在一些問(wèn)題,例如它與傳統(tǒng)的機(jī)器學(xué)習(xí)方法一樣,通常假設(shè)訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)服從同樣的分布,而實(shí)際上這兩者存在一定的偏差。此外當(dāng)前的重建算法仍然只使用于較小的放大倍數(shù),對(duì)于較大的放大倍數(shù)得到重建圖像仍然過(guò)于平滑模糊,因此如何充分利用深度學(xué)習(xí)來(lái)增強(qiáng)算法在較高的放大倍數(shù)下的重建性能是目前深度學(xué)習(xí)研究的重點(diǎn)。

參考文獻(xiàn)(References):

[1] Irani M, Peleg S. Improving resolution by image registration[J].

CVGIP: Graphical models and image processing,1991.53(3):231-239

[2] Stark H, Oskoui P. High-resolution image recovery from

image-plane arrays, using convex projections[J].JOSA A,1989.6(11):1715-1726

[3] Timofte R, De Smet V, Van Gool L. A+: Adjusted

anchored neighborhood regression for fast super-

resolution[C],2014:111-126

[4] Timofte R, De Smet V, Van Gool L. Anchored

neighborhood regression for fast example-based super-

resolution[C],2013:1920-1927

[5] Yang J, Wright J, Huang T S, et al. Image

super-resolution via sparse representation[J]. IEEE transactions on image processing,2010.19(11):2861-2873

[6] Bruna J, Sprechmann P, Lecun Y, et al. Image

Super-Resolution Using Deep Convolutional Networks[J]. Computer Science,2015.

[7] Kim J, Lee J K, Lee K M. Deeply-Recursive Convolutional

Network for Image Super-Resolution[J]. arXiv preprint arXiv:1511.04491,2015.

[8] Shi W, Caballero J, Huszár F, et al. Real-Time Single

Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network[J],2016.

[9] Ledig C, Theis L, Huszar F, et al. Photo-Realistic Single

Image Super-Resolution Using a Generative Adversarial Network[J],2016.

[10] Hore A, Ziou D. Image Quality Metrics: PSNR vs. SSIM[J],

2010:2366-2369

[11] Wang Z, Bovik A C, Sheikh H R, et al. Image quality

assessment: from error visibility to structural similarity[J].IEEE Transactions on Image Processing,2004.13(4):600-612

[12] Kim K I, Kwon Y. Single-image super-resolution using

sparse regression and natural image prior[J]. Pattern Analysis & Machine Intelligence IEEE Transactions on,2010.32(6):1127-1133

[13] Dong C, Loy C C, He K, et al. Image super-resolution

using deep convolutional networks[J]. IEEE transactions on pattern analysis and machine intelligence,2016.38(2):295-307

[14] He K, Zhang X, Ren S, et al. Deep Residual Learning for

Image Recognition[J].Computer Science,2015.

猜你喜歡
映射深度學(xué)習(xí)卷積
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
從濾波器理解卷積
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
論美國(guó)動(dòng)畫(huà)電影題材變化及現(xiàn)實(shí)映射意義
試論泰國(guó)文化對(duì)外來(lái)廣告的映射
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
概念隱喻在構(gòu)建語(yǔ)篇連貫中的作用探析
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法