申海杰,邊 倩,陳曉范,王振鐸,田新志
(西安思源學(xué)院電子信息工程學(xué)院,陜西西安710038)
近年來,隨著手持拍攝設(shè)備的廣泛普及,人們越來越傾向于采用錄制視頻的方式記錄自己的生活。然而,在拍攝的過程中由于拍攝設(shè)備的抖動或拍攝目標的運動會使得拍攝到的視頻出現(xiàn)不必要的模糊,這就大大降低了視頻圖像的質(zhì)量。因此,需要一種有效的視頻去模糊的算法來實現(xiàn)對模糊視頻的復(fù)原。目前,最有效的視頻去模糊方法是利用相鄰幀的圖像信息來銳化模糊圖像[1],該方法通過從相鄰幀圖像中提取質(zhì)量好的像素或圖像區(qū)域,并將其進行聚合,從而重建出高質(zhì)量的清晰圖像。文獻[2-3]的工作表明,與傳統(tǒng)的反卷積去模糊方法相比,基于圖像塊合成的方法能夠取得更好的效果。對于此類方法而言,使用圖像配準的方法將多幀模糊圖像進行對齊是實現(xiàn)圖像去模糊的前提,相鄰幀圖像的配準一般可通過最近鄰圖像塊查找[2]或光流法[3]來實現(xiàn)。然而這種圖像配準的方法在紋理較低的區(qū)域魯棒性較差,且時間消耗大。
近年來,深度學(xué)習(xí)的方法被不斷應(yīng)用于圖像及視頻去模糊的任務(wù)中[4-6],并通過大量研究證明了該方法在圖像去模糊方面的優(yōu)越性。在視頻去模糊方面,文獻[1]首次提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的端到端的視頻去模糊算法,該方法將相鄰幀圖像依據(jù)圖像三色通道進行疊加,然后放入卷積神經(jīng)網(wǎng)絡(luò)模型中學(xué)習(xí)多幀模糊圖像與清晰圖像之間的映射關(guān)系,從而達到復(fù)原中心幀圖像的目的。此外,文獻[7]還將生成對抗網(wǎng)絡(luò)[8](Generative Adversarial Network,GAN)應(yīng)用于視頻去模糊中,并通過使用三維卷積實現(xiàn)了對輸入相鄰幀圖像空間信息的提取和融合。
以上所提到的基于深度學(xué)習(xí)的視頻去模糊算法均采用端到端的模型來實現(xiàn)對清晰圖像的預(yù)測,其最終生成清晰圖像的效果僅依據(jù)模型所確定的均方誤差函數(shù)來進行誤差的反向傳播。然而,人眼對圖像質(zhì)量的評價受多種因素的影響,并非單一誤差函數(shù)可以決定。文中將像素空間損失函數(shù)與特征空間損失函數(shù)相結(jié)合,使得真實圖像與網(wǎng)絡(luò)生成的圖像可以分別在像素空間和特征空間進行比較,如此可保證復(fù)原圖像具有更好的視覺效果。此外,傳統(tǒng)生成對抗網(wǎng)絡(luò)中的判別網(wǎng)絡(luò)僅依據(jù)圖像的整體信息來判斷圖像的真?zhèn)?,這樣會導(dǎo)致圖像信息的嚴重丟失。文中受馬爾可夫判別器[9-10]思想的啟發(fā)設(shè)計了一個判別網(wǎng)絡(luò),該網(wǎng)絡(luò)可以對圖像塊信息甚至像素信息的真?zhèn)巫龀雠袛?,使得網(wǎng)絡(luò)更注重紋理信息的學(xué)習(xí)。
文中工作的目標是通過學(xué)習(xí)多幀模糊圖像與真實清晰圖像之間端到端的映射關(guān)系以實現(xiàn)視頻的去模糊,為此,基于生成對抗網(wǎng)絡(luò)設(shè)計了一個視頻去模糊網(wǎng)絡(luò)。如圖1所示,給定一組模糊圖像序列,首先分別通過生成網(wǎng)絡(luò)的第一層卷積層進行空間信息的提取,接著將提取的空間特征進行融合,融合后的空間信息通過一個16層的深度殘差網(wǎng)絡(luò)類來學(xué)習(xí)模糊圖像序列與清晰圖像之間的映射關(guān)系,隨后生成的圖像被送入判別器中以判斷其真實程度,以保證最終生成與真實圖像高度相似的圖像。
注:該網(wǎng)絡(luò)由基于深度殘差網(wǎng)絡(luò)的生成網(wǎng)絡(luò)和由4層卷積網(wǎng)絡(luò)組成的判別網(wǎng)絡(luò)構(gòu)成。其中,Conv表示卷積層,BN表示歸一化層,ReLU表示激活層的線性整流函數(shù)。圖1 視頻去模糊網(wǎng)絡(luò)結(jié)構(gòu)圖
文中提出的生成網(wǎng)絡(luò)的詳細結(jié)構(gòu)圖如圖1左側(cè)所示,該網(wǎng)絡(luò)主要由空間特征提取與融合模塊,淺層特征提取模塊,基于深度殘差網(wǎng)絡(luò)的深層特征提取模塊,以及圖像重建模塊4部分組成。要通過綜合多幀模糊圖像的信息生成單幀清晰圖像,首先需要學(xué)習(xí)多幀圖像之間的空間關(guān)系。為此,這里分別在輸入的每幀模糊圖像后接入一層卷積層來對每幀圖像的空間特征信息進行提取,接著將卷積層提取到的特征進行拼接,以實現(xiàn)空間信息的融合,此過程的表達式如下:
(1)
(2)
其中,GSF表示空間特征提取操作,Gconcat表示空間特征拼接操作。接著,采用一層卷積層來實現(xiàn)淺層特征的提取,提取的淺層特征隨后經(jīng)過一組深度殘差網(wǎng)絡(luò)來提取更深層的特征。
F2=GCF(F1) ,
(3)
F3=GDR(F2) ,
(4)
其中,GCF和GDR分別表示含有一層卷積層的淺層特征提取模塊和包含16個殘差塊的深層特征提取模塊。經(jīng)過深層特征提取后生成的特征圖,經(jīng)3層卷積層進行重建,生成最終的復(fù)原圖像IR。
IR=GREC(F3) ,
(5)
其中,GREC表示圖像重建模塊。
受馬爾可夫判別器和Wasserstein GAN[11](WGAN)的啟發(fā),文中設(shè)計了一個判別網(wǎng)絡(luò)。如圖1右側(cè)所示,該網(wǎng)絡(luò)由4層卷積層構(gòu)成,其中,最后一層用于輸出一個圖像真?zhèn)蔚呐袛嗑仃嚒T摼仃囍械拿總€元素分別代表判別器對每個圖像塊的判斷結(jié)果,此操作可以保證圖像細節(jié)信息的精確恢復(fù)。此外,文中還引入Wasserstein距離作為衡量訓(xùn)練效果的指標。由于在大多數(shù)情況下,Wasserstein距離具有連續(xù)且?guī)缀跆幪幙晌⒌睦硐胄再|(zhì),因此,使用Wasserstein距離來衡量生成圖像與真實圖像之間的差異可以防止梯度消失,并可獲得更好的復(fù)原效果。WGAN通過解決式(6)的最小最大對抗性問題來獲得最優(yōu)的生成和判別網(wǎng)絡(luò)。其主要目標是希望生成網(wǎng)絡(luò)生成的圖像能夠騙過判別器D,使得判別器無法判斷該圖像是真實的還是生成的,通過生成器與判別器之間的相互博弈,使得網(wǎng)絡(luò)最終可以復(fù)原出與真實清晰圖像高度相似的圖像。
(6)
文中設(shè)計的模型使用的損失函數(shù)是由對抗損失函數(shù)LGAN,基于像素空間的損失函數(shù)Lpixel以及基于特征空間的損失函數(shù)Lperceptual組成的,其表達式為
L=LGAN+aLpixel+bLperceptual,
(7)
其中,a和b分別為像素空間損失函數(shù)和特征空間損失函數(shù)的權(quán)重,用于衡量對每個損失函數(shù)的重視程度。由于特征空間的損失函數(shù)權(quán)重過大會導(dǎo)致圖像灰度信息的缺失,故文中a=100,b=0.001。
1.3.1 像素空間損失函數(shù)
像素空間損失函數(shù)主要用于保證生成圖像與真實圖像在內(nèi)容上的相似性。由于使用L2損失函數(shù)常會導(dǎo)致生成的圖像模糊[9, 12],所以文中使用L1損失函數(shù)作為像素空間損失函數(shù)。L1函數(shù)定義如下:
(8)
其中,W和H分別為圖像的長和寬。
1.3.2 特征空間損失函數(shù)
像素空間損失可以用于保證生成圖像與真實圖像之間的相似性,但僅僅在像素空間上對圖像進行比較,不利于圖像紋理細節(jié)信息的復(fù)原。文中將生成的圖像與真實圖像送入訓(xùn)練好的19層卷積神經(jīng)網(wǎng)絡(luò)(VGG19)中,通過計算生成圖像特征圖與原始圖像特征圖之間的歐氏距離來計算其感知損失函數(shù)[13],即
(9)
其中,φi,j是第i個池化層之前的第j個卷積所獲得的特征映射,Wi,j和Hi,j是φ的維度。
1.3.3 對抗損失函數(shù)
文中使用的對抗損失函數(shù)基于Wasserstein GAN,定義如下:
(10)
其中,N是數(shù)據(jù)集中圖像的數(shù)量。
為了對文中提出的網(wǎng)絡(luò)進行訓(xùn)練,需要兩組包含相同內(nèi)容的視頻,一組是高質(zhì)量的清晰視頻,另一組是相對應(yīng)的因拍攝設(shè)備抖動或目標運動而產(chǎn)生的模糊視頻,但通過拍攝來獲取這樣兩組視頻是十分困難的。一種常用的方法是通過模擬模糊核函數(shù),生成出清晰視頻相對應(yīng)的模糊視頻。然而,通過此方法合成的模糊視頻與真實拍攝到的模糊視頻有很大的差異。文獻[1]提出對高速攝像機拍攝的連續(xù)視頻短曝光幀進行平均來生成模糊視頻幀,相對應(yīng)的清晰視頻幀則通過對高速相機拍攝的視頻進行下采樣而得到。由于此方法能夠模擬在真實視頻中常見的相機抖動和物體運動等情況,所以能夠生成更加真實的模糊視頻。
為了更好地對文中所提出的算法進行比較,文中使用文獻[1]中的數(shù)據(jù)集進行訓(xùn)練和測試,該數(shù)據(jù)集中包含由手機,運動相機,以及單反相機拍攝的71段視頻,每段視頻大概3~5 s,將相鄰的5幀分為一組,最終數(shù)據(jù)集中共有4 000組,其中3 200組用于訓(xùn)練,800組用于測試。
文中提出的網(wǎng)絡(luò)所使用的優(yōu)化器是RMSprop[14],訓(xùn)練批次為16,初始學(xué)習(xí)率為0.000 1,訓(xùn)練的總周期為200,且在前100個訓(xùn)練周期結(jié)束之后,學(xué)習(xí)率呈線性衰減直至為0。所提出的網(wǎng)絡(luò)在配置為一塊英特爾E5-2620 CPU 和一塊英偉達GTX 1080 Ti GPU的臺式電腦上訓(xùn)練了近10小時。
對測試集中的數(shù)據(jù)進行了視頻去模糊,并采用圖像峰值信噪比 (Peak Signal-to-Noise Ratio, PSNR),圖像結(jié)構(gòu)相似度 (Structural SIMilarity, SSIM),以及感知距離[15](Perceptual Distance, Percept Dist)對復(fù)原結(jié)果進行了量化評估。峰值信噪比在一定程度上能夠反映復(fù)原圖像的真實度,其公式如下:
(11)
其中,N為圖像大小,xn指原始圖像第n個像素值,yn指重建圖像的第n個像素值。
圖像結(jié)構(gòu)相似度用于衡量復(fù)原后的圖像與原始清晰圖像之間的相似程度,給定兩幅圖像x和y,其圖像結(jié)構(gòu)相似性計算如下所示:
(12)
其中,ux、uy,sx、sy,sxy分別是x和y的平均值,標準差,協(xié)方差。c1和c2是用于保持穩(wěn)定的常數(shù)。
感知距離則能夠反映圖像的視覺效果,感知距離越小,表明圖像的視覺效果越好。假設(shè)x0和y0分別是來自于圖像x和y上的圖像塊,則感知距離的計算可表示如下:
(13)
其中,x0l和y0l分別是從網(wǎng)絡(luò)的l層中提取的經(jīng)過通道數(shù)歸一化后的特征。
接著將文獻[1, 4-5]中的方法與文中方法進行了定量對比,其中,文獻[4-5]中的方法屬于基于單幀圖像的去模糊方法,而文獻[1]中的方法與文中方法均屬于基于視頻去模糊方法。四種方法對比結(jié)果如表1所示。
表1 測試集中視頻去模糊結(jié)果對比
由于在大多數(shù)的圖像或視頻去模糊任務(wù)中,模糊核都是未知量,故此類問題屬于典型的不適定性問題。而與基于單幀圖像的去模糊算法相比,基于多幀圖像的去模糊算法能夠更好地聚合到相鄰幀圖像之間的相關(guān)信息,故而能夠生成出圖像質(zhì)量更高的清晰圖像。如表1所示,基于多幀圖像的去模糊方法在峰值信噪比值、結(jié)構(gòu)相似度值和感知距離方面均優(yōu)于基于單幀圖像的方法。此外,與文獻[1]中的方法相比,文中方法的峰值信噪比值約提高了1.37 dB,結(jié)構(gòu)相似度值約提高了0.015 2,感知距離約減小了0.012 4,這說明將基于像素空間的損失函數(shù)與基于特征空間的損失函數(shù)結(jié)合對提高圖像的質(zhì)量有著重要作用。
此外,還對文中方法,文獻[1, 4-5]中方法的圖像去模糊的視覺效果進行了對比,如圖2所示。為了便于對圖像去模糊效果更好地對比,這里對模糊圖像,原始清晰圖像,以及文獻中方法和文中方法去模糊后圖像的局部細節(jié)進行了放大。通過對局部放大圖進行對比,可以看出使用文中方法復(fù)原后的圖像,其紋理細節(jié)更加清晰,在圖像視覺效果上超過了文獻[1]中的視頻去模糊算法,這是由于文中設(shè)計的基于馬爾可夫判別器的判別網(wǎng)絡(luò)能夠?qū)D像塊甚至像素的真?zhèn)芜M行判斷,促進了網(wǎng)絡(luò)對圖像紋理信息的學(xué)習(xí),同時使用像素空間與特征空間相結(jié)合的損失函數(shù)也使得生成圖像的質(zhì)量得到了提高。
圖2 測試集中視頻去模糊結(jié)果對比
文中數(shù)據(jù)集中所使用的生成模糊視頻的方法雖與真實情況下產(chǎn)生的模糊視頻十分接近,但這畢竟只是模擬的方法,與現(xiàn)實中產(chǎn)生的模糊圖像還是有一定差距。為了進一步驗證文中方法的有效性,這里對20段在日常生活中拍攝的真實的模糊視頻進行了去模糊處理,真實模糊視頻由文獻[1]提供,并對其復(fù)原結(jié)果進行了對比和分析。圖3為使用文中方法,文獻[1, 4-5]的方法對真實模糊視頻進行復(fù)原后的對比。從圖中看出,文中方法在圖像細節(jié)恢復(fù)方面具有更加優(yōu)越的效果。
圖3 真實視頻去模糊結(jié)果對比
由于對于真實模糊視頻而言并沒有與之相對應(yīng)的真實清晰中間幀圖像,為了對經(jīng)不同方法去模糊后的視頻進行定量的對比分析,這里使用了文獻[16]中提出的盲圖像質(zhì)量指標(Blind Image Quality Indices, BIQI)來對真實視頻的去模糊效果進行評價,盲圖像質(zhì)量指標值介于0到100之間,BIQI值越小,表示圖像的質(zhì)量越好。盲圖像質(zhì)量指標值的計算可分為兩步,首先使用訓(xùn)練好的分類器將輸入的圖像分為5種失真類型 (JPEG,JPEG2000,噪聲,模糊,快衰落)并得到對應(yīng)類型的概率值pi{i=1,…,5},然后根據(jù)相應(yīng)的失真類型來判斷圖像的質(zhì)量,每個類型對應(yīng)的質(zhì)量分數(shù)為qi{i=1,…,5},盲圖像質(zhì)量指標值的計算公式如式(14)所示。如表2所示,文中方法的盲圖像質(zhì)量指標值比文獻[1]中方法低2.45,說明了文中方法在真實視頻去模糊中的有效性。
(14)
表2 真實視頻去模糊結(jié)果對比
文中提出了一種基于生成對抗網(wǎng)絡(luò)的視頻去模糊算法。將基于像素空間與基于特征空間的損失函數(shù)相結(jié)合,設(shè)計了一種基于馬爾可夫判別器的判別網(wǎng)絡(luò),大大促進了網(wǎng)絡(luò)對圖像紋理細節(jié)的學(xué)習(xí),使得生成的清晰圖像質(zhì)量得到了提升。將文中提出的方法與文獻[1, 4-5]中方法在測試集以及真實視頻上的去模糊效果進行了定性定量的對比。實驗結(jié)果表明,經(jīng)文中算法處理后,圖像的峰值信噪比值和結(jié)構(gòu)相似度值均有了明顯的提升,感知距離和盲圖像質(zhì)量指標值也有了一定程度的下降,證實了文中方法在視頻去模糊中的有效性。