国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

時空域上下文學(xué)習(xí)的視頻多幀質(zhì)量增強(qiáng)方法

2020-01-02 09:07佟駿超吳熙林丁丹丹
關(guān)鍵詞:預(yù)處理卷積神經(jīng)網(wǎng)絡(luò)

佟駿超,吳熙林,丁丹丹

(杭州師范大學(xué) 信息科學(xué)與工程學(xué)院,杭州311121)

過去幾年,視頻逐漸成為互聯(lián)網(wǎng)的主要流量,根據(jù)思科白皮書預(yù)測,到2020年,互聯(lián)網(wǎng)有近80%[1]流量為視頻。未經(jīng)壓縮的視頻體積大,給傳輸和存儲都帶來巨大挑戰(zhàn)。因此,原始視頻一般都經(jīng)過壓縮再進(jìn)行傳輸或存儲。然而,視頻壓縮會帶來壓縮噪聲,尤其在帶寬嚴(yán)重受限的情況下,壓縮噪聲嚴(yán)重地影響了用戶的主觀體驗。這時,有必要在解碼端再次提升壓縮視頻的質(zhì)量。

針對圖像或視頻質(zhì)量增強(qiáng),國內(nèi)外已有不少研究。Dong等[2]設(shè)計了減少噪聲的卷積神經(jīng)網(wǎng)絡(luò)(Artifacts Reduction Convolutional Neural Network,ARCNN),減少了JPEG壓縮圖像所產(chǎn)生的噪聲。之后,Zhang等[3]設(shè)計的去噪神經(jīng)網(wǎng)絡(luò)(Denoising Convolutional Neural Network,DnCNN),具有較深的網(wǎng)絡(luò)結(jié)構(gòu),實現(xiàn)了圖像去噪,超分辨率和JPEG圖像質(zhì)量增強(qiáng)。后來,Yang等[4]設(shè)計了解碼端可伸縮卷積神經(jīng)網(wǎng)絡(luò)(Decoder-side Scalable Convolutional Neural Network,DSCNN),該結(jié)構(gòu)由2個子網(wǎng)絡(luò)組成,分別減少了幀內(nèi)編碼與幀間編碼的失真。然而,上述方法都僅利用了圖像的空域信息,沒有利用相鄰幀的時域信息,仍有提升空間。Yang等[5]嘗試了一種多幀質(zhì)量增強(qiáng)(Multi-Frame Quality Enhancement,MFQE)方法,利用空域的低質(zhì)量當(dāng)前幀與時域上的高質(zhì)量相鄰幀來增強(qiáng)當(dāng)前幀。同等條件下,MFQE獲得了比空域單幀方法更好的性能。

在視頻序列中,盡管幀之間具有相似性,但仍存在一定的運動誤差。Yang等[5]所提出的MFQE做法是首先借助光流網(wǎng)絡(luò),得到相鄰幀與當(dāng)前待增強(qiáng)幀之間的光流場;然后根據(jù)該光流場對相鄰幀進(jìn)行運動補(bǔ)償,即相鄰幀內(nèi)的像素點,根據(jù)光流信息,向當(dāng)前幀對齊,得到對齊幀;最后,將對齊幀與當(dāng)前幀一起送入后續(xù)的質(zhì)量增強(qiáng)網(wǎng)絡(luò)。上述方法能夠取得顯著增益,但也有一些不足:

1)視頻幀之間的運動位移不一定恰好是整像素,有可能是亞像素位置,一般的做法是通過插值得到亞像素位置的像素值,不可避免地會產(chǎn)生一定誤差。也就是說,根據(jù)光流信息進(jìn)行幀間運動補(bǔ)償?shù)牟呗源嬖谝欢ǖ娜毕荨?/p>

2)MFQE利用了當(dāng)前幀前后各一幀圖像對當(dāng)前幀進(jìn)行增強(qiáng),增強(qiáng)網(wǎng)絡(luò)對應(yīng)的輸入為3幀圖像,包括當(dāng)前幀與2個對齊幀。視頻序列由連貫圖像組成,推測,如果在時域采納更多幀則會達(dá)到更好效果,這就意味著需要根據(jù)光流運動補(bǔ)償產(chǎn)生更多對齊幀,神經(jīng)網(wǎng)絡(luò)的復(fù)雜度與參數(shù)量也會急劇上升,并不利于訓(xùn)練與實現(xiàn)。

考慮到上述問題,本文提出一種基于時空域上下文學(xué)習(xí)的多幀質(zhì)量增強(qiáng)方法(STMVE),該方法不再從光流補(bǔ)償,而是從預(yù)測的角度出發(fā),根據(jù)時域多幀得到當(dāng)前幀的預(yù)測幀,繼而通過該預(yù)測幀來提升當(dāng)前幀的質(zhì)量。在預(yù)測時,在不增加網(wǎng)絡(luò)參數(shù)與復(fù)雜度的情況下,充分利用了近距離低質(zhì)量的2幀圖像、遠(yuǎn)距離高質(zhì)量的2幀圖像,顯著提升了性能。

本文的主要貢獻(xiàn)如下:

1)在多幀關(guān)聯(lián)性挖掘方面,與傳統(tǒng)的基于光流進(jìn)行運動補(bǔ)償?shù)姆椒ú煌?,STMVE方法根據(jù)當(dāng)前幀的鄰近幀,得到當(dāng)前幀的預(yù)測幀。具體地,使用自適應(yīng)可分離的卷積神經(jīng)網(wǎng)絡(luò)(Adaptive Separable Convolutional Neural Network,ASCNN)[6],輸入時域鄰近圖像,通過自適應(yīng)卷積與運動重采樣,得到預(yù)測幀。該方法極大地縮短了預(yù)處理時間,并且預(yù)測圖像的質(zhì)量也得到了明顯的改善。

2)在增強(qiáng)策略方面,提出多重預(yù)測的方式,充分利用當(dāng)前幀的鄰近4幀圖像。將該4幀圖像分為2類:近距離低質(zhì)量的2幀圖像與遠(yuǎn)距離高質(zhì)量的2幀圖像。這2類圖像對當(dāng)前幀的質(zhì)量提升各有優(yōu)勢,設(shè)計神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)并通過學(xué)習(xí)來結(jié)合其優(yōu)勢,獲得更佳性能。

3)在多幀聯(lián)合增強(qiáng)方面,提出了一種時空域上下文聯(lián)合的多幀卷積神經(jīng)網(wǎng)絡(luò)(Multi-Frame CNN,MFCNN),該結(jié)構(gòu)采用早期融合的方式,采用一層卷積層將時空域信息融合,而后通過迭代卷積不斷增強(qiáng)。整個網(wǎng)絡(luò)利用全局與局部殘差結(jié)構(gòu),降低了訓(xùn)練難度。

1 相關(guān)工作

1.1 基于單幀的圖像質(zhì)量增強(qiáng)

近年來,在提升壓縮圖像質(zhì)量方面涌現(xiàn)出大量工作。比如,Park和Kim[7]使用基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Netural Network,CNN)的方法來替代H.265/HEVC的環(huán)路濾波。Jung等[8]使用稀疏編碼增強(qiáng)了JPEG壓縮圖像的質(zhì)量。近年來,深度學(xué)習(xí)在提高壓縮圖像質(zhì)量方面取得巨大成功。Dong等[2]提出了一個4層的ARCNN,明顯提升了JPEG壓縮圖像的質(zhì)量。利用JPEG壓縮的先驗知識以及基于稀疏的雙域方法,Wang等[9]提出了深度雙域卷積神經(jīng)網(wǎng)絡(luò)(Deep Dualdomain Convolutional netural Network,DDCN),提高了JPEG 圖像的質(zhì)量。Li等[10]設(shè)計了一個20層的卷積神經(jīng)網(wǎng)絡(luò)來提高圖像質(zhì)量。最近,Lu等[11]提出了深度卡爾曼濾波網(wǎng)絡(luò)(Deep Kalman Filtering Network,DKFN)來減少壓縮視頻所產(chǎn)生的噪聲。Dai等[12]設(shè)計了一個基于可變?yōu)V波器大小的卷積神經(jīng)網(wǎng)絡(luò)(Variable-filter-size Residuelearning Convolutional Neural Network,VRCNN),進(jìn)一步提高了H.265/HEVC壓縮視頻的質(zhì)量,取得了一定性能。

上述工作設(shè)計了不同的方法,在圖像內(nèi)挖掘了像素之間的關(guān)聯(lián)性,完成了空域單幀的質(zhì)量增強(qiáng)。由于沒有利用相鄰幀之間的相似性,這些方法還有進(jìn)一步提升空間。

1.2 基于多幀圖像的超分辨率

基于多幀的超分辨與基于多幀的質(zhì)量增強(qiáng)問題有相似之處。Tsai等[13]提出了開創(chuàng)性的多幀圖像的超分辨率工作,隨后在文獻(xiàn)[14]中得到了更進(jìn)一步研究。同時,許多基于多幀的超分辨率方法都采用了基于深度神經(jīng)網(wǎng)絡(luò)的方法。例如,Huang等[15]設(shè)計了一個雙向遞歸卷積神經(jīng)網(wǎng)絡(luò)(Bidirectional Recurrent Convolution Network,BRCN),由于循環(huán)神經(jīng)網(wǎng)絡(luò)能夠較好地對視頻序列的時域相關(guān)性進(jìn)行建模,獲取了大量有用的時域信息,相較于單幀超分辨率方法,性能得到顯著提升。Li和Wang[16]提出了一種運動補(bǔ)償殘差網(wǎng)絡(luò)(Motion Compensation and Residual Net,MCRes-Net),首先使用光流法進(jìn)行運動估計和運動補(bǔ)償,然后設(shè)計了一個深度殘差卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行圖像質(zhì)量增強(qiáng)。上述多幀方法所取得的性能超越了同時期的單幀方法。

Yang等[5]提出利用時域和空域信息來完成質(zhì)量增強(qiáng)任務(wù),設(shè)計了一種MFQE的增強(qiáng)策略。首先,利用光流網(wǎng)絡(luò)產(chǎn)生光流信息,相鄰幀在光流信息的引導(dǎo)下,得到與當(dāng)前待增強(qiáng)幀處于同一時刻的對齊幀;然后,該對齊幀與當(dāng)前待增強(qiáng)幀一同輸入質(zhì)量增強(qiáng)網(wǎng)絡(luò)。受上述工作的啟發(fā),本文提出了一種更加精準(zhǔn)和有效的基于多幀的方法,以進(jìn)一步提升壓縮視頻的質(zhì)量。

2 時空域上下文學(xué)習(xí)多幀質(zhì)量增強(qiáng)

如圖1所示,所提方法的整體結(jié)構(gòu)包括預(yù)處理部分與質(zhì)量增強(qiáng)網(wǎng)絡(luò)。其中,預(yù)處理部分采用ASCNN網(wǎng)絡(luò),其輸入相近多幀重建圖像,分別生成關(guān)于當(dāng)前幀的2個預(yù)測幀;然后,這2個預(yù)測幀與當(dāng)前幀一起送入質(zhì)量增強(qiáng)網(wǎng)絡(luò),經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)的非線性映射,得到增強(qiáng)后的當(dāng)前幀。

2.1 光流法與ASCNN

挖掘多幀之間關(guān)聯(lián)性的關(guān)鍵是對多幀之間的運動誤差進(jìn)行補(bǔ)償。光流法是一種常見的方法。本文對光流法與基于預(yù)測的ASCNN的計算復(fù)雜度與性能進(jìn)行了對比。

圖1 時空域上下文學(xué)習(xí)的多幀質(zhì)量增強(qiáng)方法Fig.1 Approach for multi-frame quality enhancement using spatial-temporal context learning

1)使用光流法進(jìn)行預(yù)處理

f(t-1)→t表示2幀 圖 像(、,t>1)。首先,通過光流估計網(wǎng)絡(luò)HFlow得到的光流;然后,對得到光流與進(jìn)行WARP操作,得到對齊幀;最后,將和一起送入卷積神經(jīng)網(wǎng)絡(luò),可得到t時刻的質(zhì)量增強(qiáng)幀。

2)使用ASCNN進(jìn)行預(yù)處理

光流法的典型實現(xiàn)是FlowNet[17]。本文選取了4個測試序列,每個序列測試50幀,比較了FlowNet 2.0與ASCNN的時間復(fù)雜度,如表1所示。對于2個網(wǎng)絡(luò),分別輸入2幀圖像,并得到各自的預(yù)處理時間。經(jīng)過預(yù)處理,光流法得到2幀對齊圖像,ASCNN得到1幀預(yù)測幀。值得注意的是,由于FlowNet 2.0網(wǎng)絡(luò)參數(shù)量較大,當(dāng)顯存不足時,每幀圖像被分成多塊進(jìn)行處理。從表1可以看出,F(xiàn)lowNet 2.0的預(yù)處理耗時約為ASCNN的10倍。

表1 光流法(Flow Net 2.0)與ASCNN預(yù)處理時間對比Table 1 Pre-processing time comparison of optical flow method(Flow Net 2.0)and ASCNN

2.2 多幀質(zhì)量增強(qiáng)網(wǎng)絡(luò)

多幀質(zhì)量增強(qiáng)網(wǎng)絡(luò)MFCNN的結(jié)構(gòu)如圖3所示,網(wǎng)絡(luò)結(jié)構(gòu)內(nèi)部的參數(shù)配置如表2所示。在MFCNN中,HCFEN為粗特征提取網(wǎng)絡(luò)(Coarse Feature Extraction Network,CFEN),分別用于提取、和的空間特征:

圖2 光流法(FlowNet 2.0)與ASCNN預(yù)處理得到的輸出圖像的主觀圖Fig.2 Subjective quality comparison of output image preprocessed by optical flow method(FlowNet 2.0)and ASCNN

然后,送入Conv 4,將所級聯(lián)的特征進(jìn)一步融合,同時使用1×1大小的卷積核來降該層的參數(shù)量:

最后,經(jīng)過7個殘差網(wǎng)絡(luò)[18]的殘差塊,得到特征矩陣為F7。在MFCNN的最后輸出層,加入Xdt形成全局殘差學(xué)習(xí)結(jié)構(gòu):

圖3 早期融合網(wǎng)絡(luò)結(jié)構(gòu)及其內(nèi)部每個殘差塊的結(jié)構(gòu)Fig.3 Structure of proposed early fusion network and structure of each residual block in it

表2 多幀質(zhì)量增強(qiáng)網(wǎng)絡(luò)結(jié)構(gòu)Table 2 Str ucture of proposed quality enhancement network

3 實驗結(jié)果與分析

3.1 實驗條件

本文的訓(xùn)練與測試環(huán)境為i7-8700K CPU和Nvidia GeForce GTX 1080 TI GPU。所有實驗都基于TensorFlow深度學(xué)習(xí)框架。本文使用118個視頻序列來訓(xùn)練神經(jīng)網(wǎng)絡(luò),并在11個H.265/HEVC標(biāo)準(zhǔn)測試序列進(jìn)行測試。每個序列都使用HM16.9在Random-Access(RA)配置下圖像組(Group of Pictures,GOP)大小設(shè)置為8,量化參數(shù)分別設(shè)置為22、27、32、37,并獲得重建視頻序列。

3.2 實驗結(jié)果比較與分析

1)與傳統(tǒng)光流法的對比

本文采用基于早期融合的質(zhì)量增強(qiáng)網(wǎng)絡(luò)結(jié)構(gòu),對5種預(yù)處理方法的性能進(jìn)行了對比,以圖4所示的第2幀圖像為例,包括:

圖4 以圖像組為單位對低質(zhì)量圖像進(jìn)行增強(qiáng)Fig.4 Enhancing low-quality images for each GOP

①使用光流法對前后t±2幀進(jìn)行運動補(bǔ)償,分別得到對齊幀,利用兩幀對齊幀對當(dāng)前幀進(jìn)行增強(qiáng)。

②使用ASCNN利用前后t±2幀預(yù)測當(dāng)前幀,利用該預(yù)測幀對當(dāng)前幀進(jìn)行增強(qiáng)。

③結(jié)合①與②,利用兩幀對齊幀與一幀預(yù)測幀對當(dāng)前幀進(jìn)行增強(qiáng)。

④使用光流法對前后t±2幀進(jìn)行運動補(bǔ)償,分別得到對齊幀,使用ASCNN利用前后t±1幀預(yù)測當(dāng)前幀,利用兩幀對齊幀與一幀預(yù)測幀對當(dāng)前幀進(jìn)行增強(qiáng)。

⑤使用ASCNN,分別利用前后t±1與t±2幀預(yù)測當(dāng)前幀,根據(jù)所得到的兩幀預(yù)測幀對當(dāng)前幀進(jìn)行增強(qiáng)。

表3給出了上述幾種方法的性能對比,其中t+n代表與t時刻相隔n幀??梢?,使用ASCNN,將2對相鄰幀生成當(dāng)前時刻的2個預(yù)測幀的方式,取得了最優(yōu)的性能。

表3 5種預(yù)處理方式所獲得的PSNR性能指標(biāo)對比Table 3 PSNR performance indicator comparison by five pre-processing strategies dB

2)與不同網(wǎng)絡(luò)結(jié)構(gòu)的對比

本文設(shè)計了多種形態(tài)的網(wǎng)絡(luò)結(jié)構(gòu),并對其性能進(jìn)行了對比。如圖5所示,分別設(shè)計了直接融合、漸進(jìn)融合2種方式,并與本文的早期融合進(jìn)行了對比。

3種結(jié)構(gòu)的區(qū)別在于,直接融合方法直接將多幀信息級聯(lián)作為網(wǎng)絡(luò)輸入,漸進(jìn)融合方法逐漸地級聯(lián)卷積特征圖。將這3種結(jié)構(gòu)設(shè)計成具有相近的參數(shù)量,實驗結(jié)果如表4所示??梢?,漸進(jìn)融合比直接融合的性能平均提高了0.03 dB,而早期融合比漸進(jìn)融合又能夠提升0.04 d B。

該實驗證明了對每個輸入幀使用更多獨立濾波器,可以更好地甄別當(dāng)前幀與預(yù)測幀的重要性。但隨著網(wǎng)絡(luò)深度的增加,漸進(jìn)融合方法會引入更多參數(shù)。因此,相同等參數(shù)量的情況下,與早期融合方法相比,漸進(jìn)融合網(wǎng)絡(luò)深度較淺,很可能產(chǎn)生欠擬合問題,無法達(dá)到同等性能。

3)與單幀質(zhì)量增強(qiáng)方法的對比

采用ASCNN,分別對前后幀進(jìn)行預(yù)測,具體地,分別使用ASCNN利用前后距離近質(zhì)量低的兩幀圖像(如圖4的第1幀與第3幀)、前后距離遠(yuǎn)質(zhì)量高的兩幀圖像(如圖4的第0幀與第4幀),得到當(dāng)前幀的兩幀預(yù)測幀,這兩幀預(yù)測幀與當(dāng)前幀一起送入所提出的早期融合網(wǎng)絡(luò),得到最終增強(qiáng)的圖像。

如表5所示,本文所提出的STMVE始終優(yōu)于僅使用空域信息的單幀質(zhì)量增強(qiáng)方法。具體地,相較于H.265/HEVC,STMVE在量化參數(shù)為37、32、27、22分別取得了0.47、0.43、0.38、0.28 dB的增益,相較于單幀質(zhì)量增強(qiáng)方法,分別獲得0.16、0.15、0.15和0.11 d B的性能增益。

圖5 直接融合網(wǎng)絡(luò)和漸進(jìn)融合網(wǎng)絡(luò)與所提出的早期融合網(wǎng)絡(luò)的對比Fig.5 Comparison of direct fusion networks and slow fusion networks with proposed early fusion networks

表4 三種網(wǎng)絡(luò)結(jié)構(gòu)的PSNR性能指標(biāo)對比Table 4 PSNR perfor mance indicator comparison of three network structures dB

4)與多幀質(zhì)量增強(qiáng)方法的對比

本文也與MFQE的結(jié)果進(jìn)行了對比,結(jié)果如表6所示,其中,ΔPSNR代表STMVE與MFQE的PSNR之差。隨機(jī)選取了4個測試序列,在量化參數(shù)為37時,測試其前36幀。結(jié)果表明,所提出的STMVE方法平均比MFQE高出0.17 d B。在參數(shù)數(shù)量上,MFQE的參數(shù)量約為1 715 360,而STMVE的參數(shù)量為362 176,僅為MFQE的21%??梢姡岢龅木W(wǎng)絡(luò)雖然具有較少參數(shù),但仍獲得了較高性能。

表5 不同方法的PSNR性能指標(biāo)對比Table 5 Compar ison of PSNR performance indicator among different methods dB

表6 STMVE方法與MFQE的PSNR性能指標(biāo)對比Table 6 PSNR performance indicator comparison between proposed method and MFQE dB

5)主觀質(zhì)量對比

本文還比較了經(jīng)不同方法處理后得到的圖像的主觀質(zhì)量,如圖6所示。經(jīng)觀察可見,與H.265/HEVC和單幀質(zhì)量增強(qiáng)方法相比,所提出的STMVE方法能夠明顯改善圖像的主觀質(zhì)量,圖像的細(xì)節(jié)被更好地保留下來,主觀質(zhì)量提升明顯。

圖6 不同方法獲得圖像的主觀質(zhì)量對比Fig.6 Subjective quality comparison of reconstructed pictures enhanced by different methods

4 結(jié) 論

本文提出了一種時空域上下文學(xué)習(xí)的多幀質(zhì)量增強(qiáng)方法基于STMVE。與以往基于單幀質(zhì)量增強(qiáng)的方法不同,STMVE方法充分利用了當(dāng)前幀的鄰近4幀圖像的時域信息。與傳統(tǒng)的基于光流法的運動補(bǔ)償方式不同,本文提出了利用預(yù)測幀增強(qiáng)當(dāng)前幀的質(zhì)量;為充分挖掘時域信息,提出了多幀增強(qiáng)的早期漸進(jìn)融合式網(wǎng)絡(luò)結(jié)構(gòu)。其次,針對所提出的STMVE方法,分別就預(yù)處理方式、網(wǎng)絡(luò)組合結(jié)構(gòu)、質(zhì)量增強(qiáng)方法及主觀質(zhì)量進(jìn)行了分析,并設(shè)計實驗與以往方法進(jìn)行了對比。大量的實驗結(jié)果表明,與其他方法相比,本文所提出的STMVE方法在主觀質(zhì)量與客觀質(zhì)量上都有顯著優(yōu)勢。

猜你喜歡
預(yù)處理卷積神經(jīng)網(wǎng)絡(luò)
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測定
KR預(yù)處理工藝參數(shù)對脫硫劑分散行為的影響
預(yù)處理對醫(yī)用外科口罩用熔噴布顆粒過濾性能的影響
基于神經(jīng)網(wǎng)絡(luò)的船舶電力系統(tǒng)故障診斷方法
手術(shù)器械預(yù)處理在手術(shù)室的應(yīng)用
MIV-PSO-BP神經(jīng)網(wǎng)絡(luò)用戶熱負(fù)荷預(yù)測
基于改進(jìn)Hopfield神經(jīng)網(wǎng)絡(luò)的對地攻擊型無人機(jī)自主能力評價
一種基于卷積神經(jīng)網(wǎng)絡(luò)的地磁基準(zhǔn)圖構(gòu)建方法
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
一種并行不對稱空洞卷積模塊①
齐齐哈尔市| 辛集市| 临邑县| 类乌齐县| 梁河县| 龙州县| 晋江市| 西充县| 富裕县| 弥渡县| 嵊泗县| 麻城市| 林芝县| 清水县| 卓资县| 上蔡县| 通城县| 雷波县| 朝阳区| 石柱| 琼海市| 大关县| 太白县| 阳江市| 罗江县| 汶上县| 赣榆县| 昌江| 凤凰县| 本溪市| 定边县| 章丘市| 交城县| 邵阳县| 明星| 五大连池市| 富宁县| 武威市| 施甸县| 桐梓县| 泸溪县|