国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

圖像視頻質(zhì)量增強(qiáng)綜述

2021-10-27 05:57陳中平徐邁劉鐵
關(guān)鍵詞:短時(shí)記憶殘差卷積

陳中平,徐邁,劉鐵

(北京航空航天大學(xué),北京 100191)

1 緒論

1.1 研究背景和意義

在如今信息化時(shí)代下,各種互聯(lián)網(wǎng)數(shù)據(jù)在互聯(lián)網(wǎng)中傳播時(shí)會(huì)耗費(fèi)大量的互聯(lián)網(wǎng)流量,其中圖像和視頻數(shù)據(jù)占據(jù)的比例越來越大。圖像和視頻在帶寬受限的互聯(lián)網(wǎng)中傳播時(shí),為了降低圖像視頻碼率,節(jié)省傳輸帶寬,通常會(huì)使用有損壓縮算法對圖像視頻進(jìn)行壓縮,對于圖像有JPEG[1]、JPEG-2000[2]等,對于視頻有MPEG-1[3]、MPEG-2[4]、MPEG-4[5]、H.264/AVC[6]和HEVC[7]等。但是圖像和視頻經(jīng)過有損壓縮就會(huì)出現(xiàn)失真現(xiàn)象,例如塊效應(yīng)、紋理模糊、振鈴現(xiàn)象、形狀畸變等,而圖像視頻中存在這些失真會(huì)嚴(yán)重影響到觀看者的主觀感受。因此,對于經(jīng)過有損壓縮后的圖像視頻進(jìn)行質(zhì)量增強(qiáng)十分必要。

1.2 研究現(xiàn)狀

對于有損壓縮圖像的質(zhì)量增強(qiáng),在早期有很多基于傳統(tǒng)方法進(jìn)行處理的工作。比如,2004年Liew 等人[8]提出了利用過完備的小波表示方法去除壓縮后圖像的塊效應(yīng);2013年Wang 等人[9]又提出通過對塊邊界進(jìn)行濾波處理來消除JPEG 圖像的塊效應(yīng)。近年來隨著深度學(xué)習(xí)在圖像處理和計(jì)算機(jī)視覺等領(lǐng)域的廣泛應(yīng)用,Dong 等人[10]在2015年根據(jù)他們之前的超分辨率工作中的重建網(wǎng)絡(luò),設(shè)計(jì)了一個(gè)用于提升JPEG 圖像質(zhì)量的四層的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN);除了卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用,Galteri 等人[11]于2017年提出了一種用生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)訓(xùn)練的完全卷積殘差網(wǎng)絡(luò),可以產(chǎn)生更適合人眼視覺的高質(zhì)量圖像;2020年Jin 等人[12]提出了一種包含了殘差學(xué)習(xí)和遞歸學(xué)習(xí)的網(wǎng)絡(luò),還采用了橫向連接傳輸在不同頻率流中提取特征用于圖像增強(qiáng)。

關(guān)于視頻增強(qiáng),考慮到視頻的每一幀都是一幅圖像,因此圖像質(zhì)量增強(qiáng)方法是視頻質(zhì)量增強(qiáng)的基礎(chǔ),在圖像質(zhì)量增強(qiáng)中采用的卷積神經(jīng)網(wǎng)絡(luò)和生成對抗網(wǎng)絡(luò)經(jīng)過改進(jìn)同樣可以運(yùn)用于視頻質(zhì)量增強(qiáng)中。例如,Yang 等人[13]于2018年提出了一種叫QE-CNN 的卷積神經(jīng)網(wǎng)絡(luò)用于視頻質(zhì)量提升,此種網(wǎng)絡(luò)模型對于視頻幀中的I 幀和P 幀同樣適用;同年他們還提出了一種名為MFQE[14]的網(wǎng)絡(luò),利用視頻多幀信息進(jìn)行質(zhì)量增強(qiáng),充分利用了視頻幀間的信息相關(guān)性,提高了視頻質(zhì)量提升效果。另外,在2019年Yu 等人[15]設(shè)計(jì)了一種具有遞歸框架的對抗學(xué)習(xí)網(wǎng)絡(luò)VRGAN,其中包含了一個(gè)具有遞歸框架的生成器和一個(gè)相對判別器。最近,Wang 等人[16]提出了一個(gè)包含了多級(jí)小波變換的生成對抗網(wǎng)絡(luò)。除了圖像處理中的卷積神經(jīng)網(wǎng)絡(luò)和生成對抗網(wǎng)絡(luò),由于視頻中的一幀不僅具有幀內(nèi)信息相關(guān)性,而且視頻幀是連續(xù)的,還可以考慮利用視頻幀間的信息相關(guān)性,Meng 等人[17]設(shè)計(jì)了一種名為MGANet的深度網(wǎng)絡(luò),采用一個(gè)雙向的長短時(shí)記憶網(wǎng)絡(luò)[18]充分利用多幀信息來增強(qiáng)當(dāng)前幀。在2019年,Xu 等人[19]提出了NL-ConvLSTM 網(wǎng)絡(luò),不僅考慮到幀間的信息相關(guān)性,還考慮了低質(zhì)量幀內(nèi)也存在高質(zhì)量塊的情況,提出用非局部的思想來利用連續(xù)多幀中的高質(zhì)量塊的信息。

圖1展示了過去幾年中圖像視頻質(zhì)量增強(qiáng)的經(jīng)典工作,依據(jù)所使用的深度神經(jīng)網(wǎng)絡(luò)不同進(jìn)行分類。

圖1 圖像視頻質(zhì)量增強(qiáng)的經(jīng)典工作分類

2 圖像質(zhì)量增強(qiáng)

基于深度學(xué)習(xí)的圖像處理方法近年來發(fā)展迅速,從2015年至今有越來越多的工作利用深度學(xué)習(xí)進(jìn)行有損壓縮圖像的質(zhì)量增強(qiáng)。根據(jù)所用的深度學(xué)習(xí)網(wǎng)絡(luò)的不同基本可以分為兩類:基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)[20]和基于生成對抗網(wǎng)絡(luò)(GAN)[21]的圖像質(zhì)量增強(qiáng)。圖2 和圖3分別為多種基于卷積神經(jīng)網(wǎng)絡(luò)和生成對抗網(wǎng)絡(luò)的圖像質(zhì)量增強(qiáng)方法。

圖2 基于CNN的圖像質(zhì)量增強(qiáng)網(wǎng)絡(luò),其中(a)為[10],(b)為[45],(c)為[22]的網(wǎng)絡(luò)結(jié)構(gòu)圖

圖3 基于GAN的圖像質(zhì)量增強(qiáng)網(wǎng)絡(luò),其中(a)為[11],(b)為[27]的網(wǎng)絡(luò)結(jié)構(gòu)圖

2.1 基于CNN的圖像質(zhì)量增強(qiáng)

卷積神經(jīng)網(wǎng)絡(luò)的一般結(jié)構(gòu)組成包括輸入層,隱藏層,輸出層,其中隱藏層中有卷積層、池化層、全連接層等常見部分。

2015年Dong 等人[10]根據(jù)他們之前的超分辨率重建網(wǎng)絡(luò),設(shè)計(jì)了一個(gè)用于提升JPEG 壓縮圖像質(zhì)量的四層卷積神經(jīng)網(wǎng)絡(luò)(Artifacts Reduction Convolutional Neural Network,AR-CNN),這是第一個(gè)利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像質(zhì)量增強(qiáng)的工作,AR-CNN 的四個(gè)卷積層分別起到特征提取、特征去噪、非線性映射和圖像重構(gòu)的作用。AR-CNN 存在的問題是難于訓(xùn)練,所以在訓(xùn)練時(shí)采用了從簡單到難的遷移學(xué)習(xí)。2016年Svoboda等人[22]結(jié)合了殘差學(xué)習(xí)、跳躍連接等結(jié)構(gòu),設(shè)計(jì)了一個(gè)可以在較短時(shí)間內(nèi)用單個(gè)步驟完成訓(xùn)練的8層卷積網(wǎng)絡(luò),其中殘差學(xué)習(xí)可以加快訓(xùn)練過程,跳躍連接能夠使信息更容易從輸入端傳輸?shù)捷敵龆?。Vu等人[23]在2018年設(shè)計(jì)了一個(gè)快速高效質(zhì)量增強(qiáng)的網(wǎng)絡(luò)(FEQE),解決了三個(gè)方面的問題:a)可以在低分辨率上完成計(jì)算,b)使用的卷積層通道數(shù)很小,從而可以增加網(wǎng)絡(luò)深度,c)采用的去亞像素下采樣不會(huì)導(dǎo)致信息丟失。通常在考慮圖像質(zhì)量增強(qiáng)時(shí)主要針對亮度通道進(jìn)行處理,而2017年Fuyà Espinar 等人[24]提出針對彩色圖像進(jìn)行質(zhì)量增強(qiáng)處理,且Cui 等人[25]在2018年提出考慮到不同通道信息相關(guān)性的基于3階段CNN 的方法。為了適用于多種圖像任務(wù),2019年Jin等人[12]設(shè)計(jì)了一個(gè)包含殘差學(xué)習(xí)和遞歸學(xué)習(xí)的網(wǎng)絡(luò),殘差學(xué)習(xí)可以加快學(xué)習(xí)速度,遞歸學(xué)習(xí)可以減少參數(shù)量,同時(shí)采用了一個(gè)橫向連接傳遞不同通道提取的特征。另外還有一些實(shí)現(xiàn)網(wǎng)絡(luò)模型更加優(yōu)化的工作,例如2019年Chen 等人[26]提出采用各向同性的卷積核來減少參數(shù)量,在對稱位置使用相同的權(quán)重從而為圖像增強(qiáng)提取旋轉(zhuǎn)不變性特征。

2.2 基于GAN的圖像質(zhì)量增強(qiáng)

2014年Goodfellow 等人提出了生成對抗網(wǎng)絡(luò)[21],之后便被廣泛應(yīng)用。它的基本結(jié)構(gòu)主要是由一個(gè)生成器和一個(gè)判別器組成,判別器的目的是判別輸入的樣本是屬于真實(shí)樣本集還是假樣本集,而生成器作用是生成樣本,使自己生成的樣本讓判別器無法判斷真假。

2017年Galteri 等人[11]提出了一種用生成對抗結(jié)構(gòu)訓(xùn)練的卷積殘差網(wǎng)絡(luò)模型,其中生成器采用的是深度殘差網(wǎng)絡(luò),判別器是在子塊級(jí)別完成判別的。2018年Mao 等人[27]提出了更加注重塊邊緣信息的生成對抗網(wǎng)絡(luò)——邊緣保存生成對抗網(wǎng)絡(luò),同時(shí)實(shí)現(xiàn)邊緣保存和紋理生成。Upadhyay 等人[28]考慮到訓(xùn)練數(shù)據(jù)的問題,在2019年設(shè)計(jì)了一種可以利用多種質(zhì)量水平的訓(xùn)練數(shù)據(jù)的生成對抗網(wǎng)絡(luò),根據(jù)以較低的設(shè)備成本且更容易獲取的中等質(zhì)量圖像對低質(zhì)量圖像進(jìn)行增強(qiáng)。另外還有一些工作針對特定的圖像類型,比如Guo 等人[29]提出了多尺度密集生成對抗網(wǎng)絡(luò)去增強(qiáng)水下圖像,Tang等人[30]設(shè)計(jì)的疊加生成對抗網(wǎng)絡(luò)處理CT 圖像,其中的第一個(gè)GAN 用于去噪,第二個(gè)GAN用于生成高質(zhì)量圖像。

圖像增強(qiáng)一般采用峰值信噪比(Peak Signal to Noise Ratio,PSNR)和結(jié)構(gòu)相似性(Structural Similarity,SSIM)。表1為圖像質(zhì)量增強(qiáng)中不同方法的結(jié)果比較。

表1 圖像質(zhì)量增強(qiáng)方法的結(jié)果比較

3 視頻質(zhì)量增強(qiáng)

視頻的每一幀都可以認(rèn)為是一幅圖像,但是相對于圖像壓縮,視頻的壓縮過程更復(fù)雜,因此視頻在有損壓縮過程中產(chǎn)生的失真也會(huì)更加復(fù)雜。隨著深度學(xué)習(xí)方法在圖像質(zhì)量增強(qiáng)中的應(yīng)用,這些方法同樣可以應(yīng)用于有損壓縮視頻的質(zhì)量增強(qiáng)[31][32][33][34]。除了圖像中常用的基于卷積神經(jīng)網(wǎng)絡(luò)和生成對抗性網(wǎng)絡(luò)的質(zhì)量增強(qiáng)方法,由于視頻幀間是連續(xù)的,幀間信息存在相關(guān)性,可以利用其它幀的信息來增強(qiáng)當(dāng)前幀,所有對于視頻有基于長短時(shí)記憶網(wǎng)絡(luò)(Long-Short Term Memory,LSTM)的方法[34][35]。圖4、圖5 和圖6為基于不同神經(jīng)網(wǎng)絡(luò)的視頻質(zhì)量增強(qiáng)方法的網(wǎng)絡(luò)模型。

圖4 基于CNN的視頻質(zhì)量增強(qiáng)網(wǎng)絡(luò),其中(a)為[13],(b)為[14]的網(wǎng)絡(luò)結(jié)構(gòu)圖

圖5 基于GAN的視頻質(zhì)量增強(qiáng)網(wǎng)絡(luò)[16]

圖6 基于LSTM 的視頻質(zhì)量增強(qiáng)網(wǎng)絡(luò),其中(a)為[40],(b)為[19]的網(wǎng)絡(luò)結(jié)構(gòu)圖

3.1 基于CNN的視頻質(zhì)量增強(qiáng)

圖像處理是視頻處理的基礎(chǔ),所以基于卷積神經(jīng)網(wǎng)絡(luò)的圖像質(zhì)量增強(qiáng)方法經(jīng)過改變也可以應(yīng)用于視頻增強(qiáng)。2017年Hou 等人[36]采用了一個(gè)兩層的卷積神經(jīng)網(wǎng)絡(luò)對視頻進(jìn)行質(zhì)量增強(qiáng)。2018年Yang 等人[13]提出了一種針對HEVC 編碼標(biāo)準(zhǔn)壓縮視頻的質(zhì)量增強(qiáng)方法QE-CNN,由于視頻I 幀和P 幀的壓縮編碼方式存在區(qū)別,產(chǎn)生的失真也不同,因此對于視頻中的I幀和P 幀分別以不同的模型進(jìn)行增強(qiáng)??紤]到視頻和圖像的區(qū)別是視頻幀間存在信息相關(guān)性,同年Yang等人[14]又提出了利用多幀信息增強(qiáng)當(dāng)前幀的視頻質(zhì)量增強(qiáng)方法MFQE,他們在文中指出視頻壓縮過程中會(huì)在連續(xù)多幀上產(chǎn)生質(zhì)量波動(dòng),因此可以利用離當(dāng)前幀最近且質(zhì)量較高的幀幫助恢復(fù)當(dāng)前幀的信息。之后,Guan 等 人[37]于2019年基于MFQE提出了MFQE2.0,采用了基于雙向LSTM 網(wǎng)絡(luò)的高質(zhì)量幀檢測方法,并且在質(zhì)量增強(qiáng)網(wǎng)絡(luò)中加入多尺度信息提取和密集連接的映射結(jié)構(gòu)來提升增強(qiáng)效果。2019年Tong 等人[38]也設(shè)計(jì)了一種基于深度學(xué)習(xí)的多幀質(zhì)量增強(qiáng)方法,利用光流進(jìn)行幀間運(yùn)動(dòng)補(bǔ)償,并考慮了相鄰幀的質(zhì)量和與當(dāng)前幀距離的權(quán)衡問題,用一個(gè)中等質(zhì)量幀和高質(zhì)量幀來增強(qiáng)當(dāng)前幀。

3.2 基于GAN的視頻質(zhì)量增強(qiáng)

基于生成對抗網(wǎng)絡(luò)的視頻質(zhì)量增強(qiáng)方法的主要結(jié)構(gòu)是一個(gè)生成器和一個(gè)判別器。2019年Yu 等人[15]設(shè)計(jì)了一個(gè)名叫VRCNN 的視頻質(zhì)量增強(qiáng)方法,考慮到壓縮視頻的幀間不連續(xù)會(huì)降低視覺質(zhì)量,所以采用了遞歸網(wǎng)絡(luò)來保持相鄰幀之間的一致性,并引入了相對判別器[39]評(píng)估生成幀和高質(zhì)量幀之間的關(guān)系。2020年Wang等人[16]設(shè)計(jì)了一個(gè)基于多層小波變換的生成對抗網(wǎng)絡(luò),用于增強(qiáng)有損壓縮視頻的主觀質(zhì)量,研究發(fā)現(xiàn)恢復(fù)小波域中的高頻子帶對于提升視頻主觀質(zhì)量非常關(guān)鍵,因此他們提出了一個(gè)具有小波密集殘差結(jié)構(gòu)的小波重構(gòu)網(wǎng)絡(luò)來恢復(fù)高頻細(xì)節(jié),使主觀質(zhì)量得到提升。

3.3 基于LSTM 的視頻質(zhì)量增強(qiáng)

長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)最早是在1997年由Hochreiter 等人[18]提出的,它是遞歸網(wǎng)絡(luò)的一種。遞歸神經(jīng)網(wǎng)絡(luò)無法學(xué)習(xí)具有長時(shí)間間隔的信息,而長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)可以用于解決具有長距離依賴的問題,它的主要結(jié)構(gòu)包括輸入門、遺忘門和輸出門。

2018年Meng等人[17]設(shè)計(jì)了一種多幀引導(dǎo)注意力網(wǎng)絡(luò)MGANet,因?yàn)橐曨l中短時(shí)間間隔內(nèi)的背景通常不會(huì)改變,只有其中的物體有一些小的變化,這表明在連續(xù)的幀中大部分低頻成分是相同的,所以在文獻(xiàn)[17]中提出了一個(gè)雙向殘差卷積長短時(shí)記憶網(wǎng)絡(luò)(BRCLSTM)用于處理各幀的變化,利用多幀信息進(jìn)行質(zhì)量增強(qiáng)??紤]到有損壓縮視頻各幀存在質(zhì)量波動(dòng),為了利用更大范圍內(nèi)多幀的有利信息來增強(qiáng)當(dāng)前幀的質(zhì)量,2019年Yang 等人[40]提出了具有雙向遞歸結(jié)構(gòu)的質(zhì)量門控卷積長短時(shí)記憶網(wǎng)絡(luò)QG-ConvLSTM,包含空間網(wǎng)絡(luò)、門發(fā)生器、質(zhì)量門控單元和重建網(wǎng)絡(luò)四部分。2019年Xu 等人[19]發(fā)現(xiàn)在一個(gè)高質(zhì)量幀中可能會(huì)存在一些低質(zhì)量的塊,而在低質(zhì)量幀中也可能存在高質(zhì)量的塊,僅僅使用鄰近的高質(zhì)量幀有可能會(huì)丟失低質(zhì)量幀中的高質(zhì)量塊的信息,在此發(fā)現(xiàn)的基礎(chǔ)上基于非局部策略來捕獲全局運(yùn)動(dòng)模式和利用視頻中的時(shí)空依賴性,提出了新穎的端到端的深度神經(jīng)網(wǎng)絡(luò)NL-ConvLSTM,充分利用連續(xù)多幀的非局部信息來增強(qiáng)當(dāng)前幀的質(zhì)量。

4 總結(jié)與展望

本文綜述了基于深度學(xué)習(xí)的圖像視頻質(zhì)量增強(qiáng)方法,根據(jù)不同的神經(jīng)網(wǎng)絡(luò)種類將圖像增強(qiáng)方法分為

基于卷積神經(jīng)網(wǎng)絡(luò)和生成對抗網(wǎng)絡(luò)的方法,將視頻質(zhì)量增強(qiáng)方法分為基于卷積神經(jīng)網(wǎng)絡(luò),生成對抗網(wǎng)絡(luò)和長短時(shí)記憶網(wǎng)絡(luò)的方法。近來的文獻(xiàn)表明,基于生成對抗網(wǎng)絡(luò)的質(zhì)量增強(qiáng)方法可以生成更滿足觀看者主觀感受的圖像視頻,基于長短時(shí)記憶網(wǎng)絡(luò)的質(zhì)量增強(qiáng)方法能夠利用更大范圍連續(xù)多幀的信息,取得了更好的增強(qiáng)效果,這兩類方法的應(yīng)用也越來越廣泛。盡管目前深度學(xué)習(xí)在圖像視頻質(zhì)量增強(qiáng)上取得了非常顯著的提升效果,未來還有很多可以改進(jìn)的方向,比如現(xiàn)有工作都是只針對客觀或主觀質(zhì)量進(jìn)行增強(qiáng)的,如何實(shí)現(xiàn)客觀和主觀質(zhì)量同時(shí)提升是將來發(fā)展方向;以及如何更好的利用編碼端的信息作為先驗(yàn)知識(shí),對解碼端的壓縮視頻進(jìn)一步提升增強(qiáng)效果。因此,未來還會(huì)有更多可以繼續(xù)研究的深度學(xué)習(xí)方法來更好的實(shí)現(xiàn)有損壓縮圖像和視頻的質(zhì)量增強(qiáng)。

猜你喜歡
短時(shí)記憶殘差卷積
基于長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)的動(dòng)力電池剩余容量預(yù)測方法
基于殘差-注意力和LSTM的心律失常心拍分類方法研究
基于雙向GRU與殘差擬合的車輛跟馳建模
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
基于殘差學(xué)習(xí)的自適應(yīng)無人機(jī)目標(biāo)跟蹤算法
卷積神經(jīng)網(wǎng)絡(luò)的分析與設(shè)計(jì)
基于深度卷積的殘差三生網(wǎng)絡(luò)研究與應(yīng)用
從濾波器理解卷積
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
吉林大學(xué)考古與藝術(shù)博物館觀眾短時(shí)記憶調(diào)查報(bào)告
宣化县| 乌兰察布市| 健康| 镇康县| 旬阳县| 徐闻县| 海林市| 故城县| 左贡县| 湖口县| 徐水县| 安义县| 元江| 定州市| 来安县| 新乡县| 伊吾县| 武强县| 阳曲县| 江山市| 揭东县| 象州县| 安福县| 仪征市| 广宗县| 安新县| 灵寿县| 福泉市| 江阴市| 乃东县| 靖安县| 武乡县| 南漳县| 黑龙江省| 迁安市| 岱山县| 甘德县| 当涂县| 云梦县| 泌阳县| 民权县|