祝 軒,柳 欣,蘭志翔,孫逸霏,金玉瑩,陳培榕
(1.西北大學(xué) 信息科學(xué)與技術(shù)學(xué)院,陜西 西安 710127;2.西北大學(xué) 數(shù)學(xué)學(xué)院,陜西 西安 710127)
超分辨率(super-resolution,SR)技術(shù)是從低分辨率(low-resolution,LR)圖像或視頻中恢復(fù)出高分辨率(high-resolution,HR)圖像或視頻[1]。隨著高清顯示技術(shù)的發(fā)展,SR技術(shù)在提高監(jiān)控視頻[2]、醫(yī)學(xué)圖像[3]以及遙感圖像[4]等質(zhì)量方面的應(yīng)用越來(lái)越廣泛。目前,SR方法分為單幅圖像超分辨率(single image super-resolution,SISR)方法和視頻超分辨率(video super-resolution,VSR)方法。相較于SISR方法,VSR方法可以利用幀內(nèi)的空間信息和幀間的短時(shí)連續(xù)性和內(nèi)容相似恢復(fù)出包含更多高頻細(xì)節(jié)的視頻[5-6]。
近年來(lái),基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)以其在圖像特征提取和模擬復(fù)雜映射關(guān)系上的優(yōu)勢(shì)被廣泛應(yīng)用于VSR。大部分基于CNN的VSR方法[7-9]利用像素?fù)p失(均方誤差)訓(xùn)練網(wǎng)絡(luò),促使SR幀的平均像素值接近HR幀的平均像素值,其結(jié)果往往導(dǎo)致重建的SR幀缺乏高頻細(xì)節(jié)、邊緣不清晰、紋理平滑、視覺(jué)效果較差。目前,基于感知損失訓(xùn)練的生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)在SISR任務(wù)中生成了清晰的邊緣、豐富的紋理和真實(shí)的顏色[10-11],但基于GAN的VSR方法尚不多見(jiàn)[12],且重建出的視頻SR結(jié)果的感知質(zhì)量有待提高。
本文提出了一個(gè)光流估計(jì)補(bǔ)償結(jié)合多特征鑒別GAN的端到端視頻超分辨率網(wǎng)絡(luò)框架MC-PETGAN,該框架由光流估計(jì)補(bǔ)償網(wǎng)絡(luò)串聯(lián)多特征鑒別GAN組成。光流估計(jì)補(bǔ)償網(wǎng)絡(luò)利用相鄰視頻幀之間具有的短時(shí)連續(xù)性和內(nèi)容相似性特點(diǎn)補(bǔ)償相鄰視頻幀;多特征鑒別GAN基于多特征鑒別器在像素、邊緣和紋理3個(gè)方面的對(duì)抗訓(xùn)練促使生成器生成的SR幀與HR幀分別在像素、邊緣和紋理3個(gè)方面的數(shù)據(jù)分布趨于一致,提高SR幀的感知質(zhì)量。
單幅圖像超分辨率是從單幅LR圖像中恢復(fù)出具有高頻信息的SR圖像。Dong等人將CNN應(yīng)用于SISR,設(shè)計(jì)了一個(gè)包含3個(gè)卷積層的輕量級(jí)網(wǎng)絡(luò)SRCNN[13],其性能和速度均優(yōu)于傳統(tǒng)方法。Kim等人使用全局殘差策略設(shè)計(jì)了一個(gè)20層的殘差網(wǎng)絡(luò)VDSR[14],該網(wǎng)絡(luò)通過(guò)學(xué)習(xí)HR圖像與LR圖像之間的高頻殘差加快模型收斂速度。Sajjadi等人提出的EnhanceNet網(wǎng)絡(luò)利用紋理匹配損失增強(qiáng)SR結(jié)果的真實(shí)感[10]。Ledig等人提出的SRGAN[11]網(wǎng)絡(luò)聯(lián)合內(nèi)容損失和對(duì)抗損失訓(xùn)練網(wǎng)絡(luò),以便生成真實(shí)的結(jié)構(gòu)和紋理。
全參考圖像質(zhì)量評(píng)價(jià)指標(biāo)(如峰值信噪比(PSNR)、根均方誤差(RMSE))度量的是SR圖像和HR圖像像素點(diǎn)之間的差異,其往往用于評(píng)價(jià)圖像或視頻的失真度。2018 PIRM-SR(PIRM challenge on perceptual image super-resolution)[18]提出的感知分?jǐn)?shù)(PI)指標(biāo)用于評(píng)價(jià)SR視頻的感知質(zhì)量。PI能夠表征圖像或視頻在像素、結(jié)構(gòu)、紋理和色彩等方面的視覺(jué)質(zhì)量。有研究指出,PSNR值所反映的具有良好視覺(jué)質(zhì)量的SR結(jié)果與人類(lèi)觀察者的主觀評(píng)價(jià)往往不一致,甚至相反[11,18-19]。
感知指標(biāo)PI的定義如下:
(1)
其中:I表示待評(píng)價(jià)圖像;Ma(·)表示一種無(wú)參考圖像質(zhì)量評(píng)價(jià)方法[20];NIQE(·)是基于自然圖像統(tǒng)計(jì)特征的無(wú)參考圖像質(zhì)量評(píng)價(jià)方法[21]。
大量文獻(xiàn)表明PI和NIQE跟人類(lèi)主觀評(píng)分結(jié)果高度相關(guān),越低的PI和NIQE表示越好的感知質(zhì)量[18-19]。
MC-PETGAN網(wǎng)絡(luò)框架如圖1所示,MC-PETGAN由光流估計(jì)補(bǔ)償網(wǎng)絡(luò)和多特征鑒別GAN構(gòu)成,多特征鑒別器包括像素鑒別器Dp、邊緣鑒別器DE和紋理鑒別器DT。
圖1 MC-PETGAN網(wǎng)絡(luò)框架Fig.1 The architecture of MC-PETGAN
(2)
(3)
其中:FNet(·)表示光流估計(jì)函數(shù);h和w分別表示LR視頻幀的高度和寬度。
補(bǔ)償幀為
(4)
(5)
(6)
2.3.1 多特征鑒別器訓(xùn)練 多特征鑒別器Dp、DE和DT分別用于鑒別SR幀和HR幀的像素值、邊緣和紋理的一致性。多特征鑒別器的網(wǎng)絡(luò)結(jié)構(gòu)如表1~3所示,Conv(n,k,s)為卷積層,其中,參數(shù)n,k,s分別表示卷積核數(shù)量、大小和步長(zhǎng)。
1)像素鑒別器Dp:Dp的輸入是初始SR幀和HR幀。訓(xùn)練Dp的損失函數(shù)LDp為
(7)
2)邊緣鑒別器DE:邊緣反映了圖像局部特性的不連續(xù)性(如灰度突變、顏色突變、紋理突變等),人類(lèi)視覺(jué)對(duì)邊緣十分敏感,邊緣質(zhì)量與圖像質(zhì)量緊密相關(guān)。DE用于鑒別SR幀和HR幀的邊緣。訓(xùn)練DE的損失函數(shù)LDE為
(8)
其中,Edge(·)表示邊緣提取檢測(cè)算子。本文采用canny算子提取邊緣。
3)紋理鑒別器DT:不包含色彩信息的灰度圖像能夠更加突出圖像的紋理。DT用于鑒別灰度化的SR幀和HR幀。訓(xùn)練DT的損失函數(shù)LDT為
(9)
其中,Gray(·)表示灰度化操作。
表1 像素鑒別器網(wǎng)絡(luò)結(jié)構(gòu)Tab.1 The architectures of pixel discriminators
表2 邊緣鑒別器網(wǎng)絡(luò)結(jié)構(gòu)Tab.2 The architectures of edge discriminators
表3 紋理鑒別器網(wǎng)絡(luò)結(jié)構(gòu)Tab.3 The architectures of texture discriminators
(10)
(11)
(12)
(13)
(14)
(15)
(16)
其中,φ4,4表示從VGG19網(wǎng)絡(luò)中第4個(gè)MaxPooling層之前的第4個(gè)卷積層獲得的特征圖。
感知損失Lperceptual為
(17)
圖2 生成器網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 The architecture of generator
從互聯(lián)網(wǎng)上下載110段包括自然風(fēng)景、人、動(dòng)物和建筑等的1080P HD(1 080×1 920)視頻,這些視頻涵蓋了復(fù)雜的場(chǎng)景轉(zhuǎn)換和多樣的運(yùn)動(dòng)形式。從每段視頻中提取連續(xù)的32幀,總共3 520幀構(gòu)成訓(xùn)練樣本。利用Matlab的imresize函數(shù)對(duì)原始視頻幀進(jìn)行兩倍下采樣獲得HR視頻幀(540×960),將HR視頻幀4倍下采樣得到相應(yīng)的LR視頻幀(135×240),成對(duì)的HR/LR視頻幀構(gòu)成訓(xùn)練集。從Ultra Video Group Database(ultravideo.cs.tut.fi)中選取10段視頻作為驗(yàn)證集,用于超參數(shù)的選擇和模型性能的驗(yàn)證。分別使用公共基準(zhǔn)集Vid4、SPMC8(從SPMC數(shù)據(jù)集[23]中選取的8段視頻)、以及從互聯(lián)網(wǎng)上下載的低質(zhì)量監(jiān)控視頻作為測(cè)試集。
從每一個(gè)LR序列視頻幀中隨機(jī)提取連續(xù)的3幀,在每幀中隨機(jī)裁剪出一個(gè)64×64的塊并將它們?cè)谏疃染S度上堆疊作為L(zhǎng)R輸入。從與LR幀對(duì)應(yīng)的HR幀中裁剪出256×256的HR塊,并對(duì)LR塊和 HR塊進(jìn)行旋轉(zhuǎn)和翻轉(zhuǎn)等數(shù)據(jù)增強(qiáng)操作,將增強(qiáng)后的LR塊集合和HR塊集合分別作為L(zhǎng)R和HR訓(xùn)練集樣本。MC-PETGAN網(wǎng)絡(luò)的訓(xùn)練過(guò)程包含預(yù)訓(xùn)練階段和交替訓(xùn)練階段,預(yù)訓(xùn)練階段分別用光流損失Lflow和MSE損失LMSE訓(xùn)練光流估計(jì)補(bǔ)償網(wǎng)絡(luò)和生成器,提供初始化參數(shù)。交替訓(xùn)練階段用感知損失Lperceptual和鑒別器損失LDp、LDE、LDT分別交替訓(xùn)練生成器與鑒別器,并將鑒別器權(quán)重參數(shù)截?cái)嗟絒-0.01,0.01]之間。
在tensorflow上實(shí)現(xiàn)MC-PETGAN網(wǎng)絡(luò)框架,優(yōu)化器為RMSprop,batchsize設(shè)置為15。預(yù)訓(xùn)練階段的學(xué)習(xí)率為10-4,訓(xùn)練次數(shù)為103,交替訓(xùn)練階段的學(xué)習(xí)率為10-4,訓(xùn)練次數(shù)為400。實(shí)驗(yàn)環(huán)境為Nvidia GTX 1080 Ti GPU,16GB內(nèi)存。
消融學(xué)習(xí)實(shí)驗(yàn)方案設(shè)置如表4,消融實(shí)驗(yàn)的結(jié)果能充分反映光流估計(jì)補(bǔ)償和多特征鑒別器對(duì)網(wǎng)絡(luò)性能的影響。
表4 消融學(xué)習(xí)實(shí)驗(yàn)方案設(shè)置Tab.4 The experimental schemes of ablation study
表5是表4中5種消融學(xué)習(xí)實(shí)驗(yàn)方案在公共基準(zhǔn)集Vid4上4倍SR重建的PSNR、PI和NIQE值。PI和NIQE值越低表示視覺(jué)感知質(zhì)量越好,PSNR值越高表示失真度越低。由表5可以得到以下結(jié)論:①光流估計(jì)補(bǔ)償可以獲得更有競(jìng)爭(zhēng)力的PI和PSNR值,相比于PETGAN方案,MC-PETGAN方案具有更低的PI和NIQE值以及更高的PSNR值;②多特征鑒別器可以有效降低PI和NIQE值,相比于MC-PGAN、MC-PEGAN和MC-PTGAN方案,MC-PETGAN方案具有更低的PI和NIQE值,PSNR只比MC-PEGAN略微減小。
表5 Vid4數(shù)據(jù)集上消融學(xué)習(xí)實(shí)驗(yàn)結(jié)果Tab.5 The ablation study results on Vid4 dataset
本文選取VSRnet、VESPCN、TDVSR、SOF-VSR、EnhanceNet和SRGAN作為對(duì)比方法,其中VSRnet、VESPCN、TDVSR和SOF-VSR是利用像素?fù)p失訓(xùn)練的VSR網(wǎng)絡(luò),EnhanceNet和SRGAN是利用感知損失訓(xùn)練僅包含像素鑒別器的SISR網(wǎng)絡(luò)。VSRnet、VESPCN和TDVSR的實(shí)驗(yàn)結(jié)果來(lái)自于作者官方主頁(yè);EnhanceNet和SOF-VSR的實(shí)驗(yàn)結(jié)果根據(jù)官方源碼和模型參數(shù)獲得;SRGAN的實(shí)驗(yàn)結(jié)果是通過(guò)第三方復(fù)現(xiàn)模型獲得。所有評(píng)價(jià)結(jié)果均基于將Vid4的序列SR幀的每幀邊緣裁掉8個(gè)像素,并按亮度通道計(jì)算。
3.4.1 定性驗(yàn)證 圖3和圖5是本文方法和對(duì)比方法分別對(duì)SPMC8和Vid4數(shù)據(jù)集中的數(shù)據(jù)4倍SR重建結(jié)果,為了更清楚地顯示不同方法的區(qū)別,在圖4和圖6分別展示了圖3和圖5中紅框區(qū)域的局部放大結(jié)果。由于VESPCN和TDVSR方法沒(méi)有圖3測(cè)試數(shù)據(jù)相應(yīng)的源碼,因此,圖3和圖4中只給出了EnhanceNet、SRGAN和SOF-VSR的實(shí)驗(yàn)結(jié)果,圖5給出了所有對(duì)比方法的實(shí)驗(yàn)結(jié)果。觀察圖3~6可以看出,本文方法相比于對(duì)比方法能夠重建出更多的高頻細(xì)節(jié),邊緣和紋理完整清晰,色彩真實(shí),視覺(jué)感知更加愉悅。
圖3 “veni3_011”4倍SR重建結(jié)果Fig.3 The SR results of "veni3_011" under the upscaling factor of 4
圖4 圖3的局部放大區(qū)域結(jié)果Fig.4 The enlarged local region results of Fig.3
圖5 “walk”4倍SR重建結(jié)果Fig.5 The SR results of "walk" under the upscaling factor of 4
圖6 圖5的局部放大區(qū)域結(jié)果Fig.6 The enlarged local region results of Fig.5
圖7是本文方法對(duì)低質(zhì)量監(jiān)控視頻2倍及4倍SR重建結(jié)果,結(jié)果顯然本文方法可以恢復(fù)出低質(zhì)量監(jiān)控視頻中的更多信息,如橢圓區(qū)域中的小車(chē)尾部“教練”字樣、高速公路上懸掛監(jiān)控設(shè)備的人以及交通警示標(biāo)志。
3.4.2 定量驗(yàn)證 表6和表7分別列出了本文方法以及對(duì)比方法在Vid4和SPMC8數(shù)據(jù)集上4倍SR重建的PI、NIQE和PSNR值。由表6和表7可知,本文方法與VSR方法(VSRnet,VESPCN,TDVSR,SOF-VSR)相比,具有低的PI值。本文方法與SISR方法(EnhanceNet,SRGAN)相比,具有高的PSNR值。結(jié)合表6、表7和圖3、圖5可知,本文方法相比于VSR方法感知指標(biāo)更好;相比于SISR方法失真指標(biāo)更好。此外,本文方法生成的SR結(jié)果相比于VSR方法,結(jié)構(gòu)和紋理更加清晰;相比于SISR方法,在保證結(jié)構(gòu)和紋理清晰的基礎(chǔ)上能夠有效克服偽影。
圖7 低質(zhì)量監(jiān)控視頻2倍和4倍SR重建結(jié)果Fig.7 The SR results of low-quality surveillance videos under the upscaling factor of 2 and 4
表6 Vid4數(shù)據(jù)集4倍SR重建定量比較結(jié)果Tab.6 Quantitative comparative SR results on Vid4 dataset under the upscaling factor of 4
本文提出了一個(gè)新的端到端的視頻超分辨率重建框架MC-PETGAN,其充分利用了視頻具有的幀間短時(shí)連續(xù)和空間相似性特性。MC-PETGAN框架包括光流估計(jì)補(bǔ)償網(wǎng)絡(luò)和多特征鑒別GAN,光流估計(jì)補(bǔ)償網(wǎng)絡(luò)引入幀間短時(shí)連續(xù)和內(nèi)容相似信息,為多特征鑒別GAN提供有效豐富的信息。生成器與多特征鑒別器之間對(duì)抗訓(xùn)練促使SR結(jié)果與HR幀具有相似的像素、邊緣和紋理分布,提高VSR結(jié)果的感知質(zhì)量。實(shí)驗(yàn)結(jié)果表明,本文方法在保證視頻SR結(jié)果像素精度的基礎(chǔ)上,還可以較好地恢復(fù)出清晰的邊緣和紋理,而且視覺(jué)感受愉快。