楊春玲 凌茜 呂澤宇
(華南理工大學(xué) 電子與信息學(xué)院,廣東 廣州 510640)
為了解決視頻壓縮編碼方法(如H.264、MPEG等)編碼端復(fù)雜、耗時(shí)長、難以適用于采樣資源受限的應(yīng)用場景的問題,文獻(xiàn)[1-2]提出了壓縮感知理論,實(shí)現(xiàn)了信號(hào)采樣與壓縮過程的合并,大大節(jié)省了采樣成本。
視頻壓縮感知(CVS)重構(gòu)算法是視頻壓縮感知研究的核心任務(wù)之一。在視頻壓縮感知重構(gòu)中,運(yùn)動(dòng)估計(jì)/補(bǔ)償是提升圖像質(zhì)量的關(guān)鍵技術(shù)。多假設(shè)預(yù)測算法作為優(yōu)秀的運(yùn)動(dòng)估計(jì)/補(bǔ)償方案,在視頻壓縮感知重構(gòu)中取得了較好的效果。文獻(xiàn)[3-4]基于多假設(shè)預(yù)測-殘差重構(gòu)框架提出了多假設(shè)視頻壓縮感知重構(gòu)算法MHR,通過加權(quán)組合多個(gè)塊的信息來實(shí)現(xiàn)當(dāng)前幀的多假設(shè)預(yù)測。在此過程中,假設(shè)集構(gòu)造以及假設(shè)權(quán)重求解是兩個(gè)關(guān)鍵的問題。為了優(yōu)化假設(shè)集的構(gòu)成,文獻(xiàn)[5]在多個(gè)候選幀中選擇最優(yōu)參考幀進(jìn)行多假設(shè)預(yù)測;文獻(xiàn)[6]在多個(gè)參考幀中選取指定數(shù)量的高相似度假設(shè)塊進(jìn)行預(yù)測,避免了無關(guān)塊在預(yù)測過程中引入的噪聲;文獻(xiàn)[7]提出了多參考幀的兩階段多假設(shè)重構(gòu)算法2sMHR,在觀測域多假設(shè)重構(gòu)的基礎(chǔ)上進(jìn)行第二階段圖像域重疊分塊多假設(shè),提高了匹配塊的整體質(zhì)量。為了提高假設(shè)塊權(quán)值的求解精度,文獻(xiàn)[8]引入了彈性網(wǎng)模型;文獻(xiàn)[9]則在彈性網(wǎng)模型基礎(chǔ)上對(duì)l2范數(shù)正則化項(xiàng)進(jìn)行權(quán)值調(diào)整。多假設(shè)視頻壓縮感知重構(gòu)算法深入挖掘了視頻信號(hào)的時(shí)間相關(guān)性,獲得了較好的重構(gòu)質(zhì)量,但其重構(gòu)過程中存在迭代優(yōu)化繁瑣、算法復(fù)雜度較高等問題。
近年來,研究人員結(jié)合視頻壓縮感知理論與深度學(xué)習(xí)方法[10],提出了一些優(yōu)秀的視頻壓縮感知重構(gòu)神經(jīng)網(wǎng)絡(luò),在提升重構(gòu)質(zhì)量的同時(shí),緩解了傳統(tǒng)視頻壓縮感知重構(gòu)算法耗時(shí)長的問題,有良好的研究與應(yīng)用前景。文獻(xiàn)[11]首次提出了端到端深度學(xué)習(xí)視頻壓縮感知重構(gòu)算法CSVideoNet,通過合成估計(jì)長短期記憶網(wǎng)絡(luò)將關(guān)鍵幀的信息傳遞至非關(guān)鍵幀,然而該算法存在像素空間相關(guān)性建模效果差、訓(xùn)練難度大的問題。文獻(xiàn)[12]提出了VCSNet,利用關(guān)鍵幀的多級(jí)特征對(duì)非關(guān)鍵幀進(jìn)行補(bǔ)償,然而基于2維卷積的神經(jīng)網(wǎng)絡(luò)難以挖掘視頻信號(hào)準(zhǔn)確的運(yùn)動(dòng)信息。CSVideoNet與VCSNet延續(xù)了神經(jīng)網(wǎng)絡(luò)低延時(shí)的特征,但在一定程度上忽視了傳統(tǒng)算法明晰的理論基礎(chǔ),無法實(shí)現(xiàn)高質(zhì)量的運(yùn)動(dòng)估計(jì)與補(bǔ)償。為了解決該問題,文獻(xiàn)[13]提出了基于對(duì)齊預(yù)測與殘差重構(gòu)的視頻壓縮感知重構(gòu)算法(PRCVSNet),該算法從傳統(tǒng)多假設(shè)理論出發(fā),利用時(shí)域可變形卷積對(duì)齊網(wǎng)絡(luò)(TDAN)與殘差重構(gòu)網(wǎng)絡(luò)實(shí)現(xiàn)了特征域多假設(shè)預(yù)測與殘差重構(gòu),取得了優(yōu)秀的重構(gòu)性能。為了選擇合適的參考幀構(gòu)造最優(yōu)假設(shè)集,文獻(xiàn)[14]對(duì)PRCVSNet進(jìn)行改進(jìn),設(shè)計(jì)了兩階段串聯(lián)的多假設(shè)運(yùn)動(dòng)補(bǔ)償,以及基于此的視頻壓縮感知重構(gòu)算法(2sMHNet),進(jìn)一步提升了重構(gòu)質(zhì)量。PRCVSNet與2sMHNet的重構(gòu)性能表明,傳統(tǒng)壓縮感知重構(gòu)算法理論對(duì)神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)具有巨大的參考意義,在保證理論可解釋性的同時(shí)實(shí)現(xiàn)了高質(zhì)量快速重構(gòu)。
PRCVSNet與2sMHNet可有效挖掘視頻信號(hào)的時(shí)間相關(guān)性,但仍然存在一定的不足:①運(yùn)動(dòng)估計(jì)子網(wǎng)絡(luò)過于淺層,難以準(zhǔn)確地找到最優(yōu)假設(shè)集;②僅采用尺寸為3×3的卷積核實(shí)現(xiàn)多假設(shè)加權(quán)求和過程,假設(shè)集容量過小導(dǎo)致圖像中一些相關(guān)信息被忽略;③利用卷積核參數(shù)作為假設(shè)集權(quán)重,這些參數(shù)在訓(xùn)練結(jié)束后即被固定,無法針對(duì)不同假設(shè)集特征自適應(yīng)地求解加權(quán)系數(shù);④2sMHNet采用兩階段串行式重構(gòu)模式,對(duì)于運(yùn)動(dòng)較慢的序列,在第二階段選擇相鄰幀作為參考幀并非為最優(yōu)方案。為了解決以上問題,本研究提出了新的特征域多假設(shè)預(yù)測模塊(FMH_Module)與兩階段多參考幀運(yùn)動(dòng)補(bǔ)償模式,以及基于此的視頻壓縮感知重構(gòu)網(wǎng)絡(luò)。FMH_Module通過設(shè)計(jì)新的運(yùn)動(dòng)估計(jì)模塊與假設(shè)權(quán)重求解模塊來提升假設(shè)集構(gòu)造的合理性與假設(shè)集權(quán)重的求解精度,以增強(qiáng)網(wǎng)絡(luò)的預(yù)測能力;兩階段多參考幀運(yùn)動(dòng)補(bǔ)償模式通過同時(shí)將關(guān)鍵幀與相鄰幀作為參考,使不同運(yùn)動(dòng)特征序列均能合理地構(gòu)造最優(yōu)假設(shè)集,以進(jìn)一步提升預(yù)測精度。
在視頻壓縮感知中,視頻序列被劃分為固定時(shí)長的多個(gè)圖像組(GOP)以進(jìn)行分塊采樣,每個(gè)GOP的第一幀為關(guān)鍵幀,以較高的采樣率rk進(jìn)行采樣以保留更多的細(xì)節(jié)信息,而其余的非關(guān)鍵幀則以極低的采樣率rnk進(jìn)行單幀獨(dú)立采樣以降低平均采樣率。由于關(guān)鍵幀采樣率較高,因此直接采用圖像重構(gòu)算法即可獲得高質(zhì)量的重構(gòu)結(jié)果;而對(duì)于獨(dú)立重構(gòu)效果較差的非關(guān)鍵幀,則利用已重構(gòu)信息預(yù)測當(dāng)前幀,并在預(yù)測的基礎(chǔ)上進(jìn)行殘差重構(gòu)。
多假設(shè)預(yù)測算法借鑒了傳統(tǒng)編解碼框架中的運(yùn)動(dòng)補(bǔ)償方案。該算法以圖像塊為基本單位,首先根據(jù)指定的匹配準(zhǔn)則在參考幀中尋找L個(gè)當(dāng)前塊的相似塊組成假設(shè)集H,并使用觀測矩陣Φ獲得觀測值,然后通過最小化觀測域歐氏距離得到假設(shè)塊的對(duì)應(yīng)權(quán)重w,即
(1)
最后通過線性組合假設(shè)集與假設(shè)權(quán)重得到當(dāng)前塊的預(yù)測塊xp,即
(2)
殘差重構(gòu)過程如下:首先計(jì)算預(yù)測幀xp的觀測值與原始觀測值y的殘差,然后利用重構(gòu)算法FΦ-1(·)將殘差映射回像素域,與預(yù)測幀相加使其逼近原始信號(hào),即
xres=xp+FΦ-1(y-Φxp)
(3)
傳統(tǒng)多假設(shè)重構(gòu)算法雖然能高效地挖掘視頻時(shí)間相關(guān)性,但存在時(shí)間復(fù)雜度過高、塊效應(yīng)嚴(yán)重、預(yù)測精度受限等不足。文獻(xiàn)[13-14]為了挖掘幀間相關(guān)性,提出了基于深度學(xué)習(xí)的多假設(shè)預(yù)測模塊與殘差重構(gòu)模塊。多假設(shè)預(yù)測模塊利用時(shí)域可變形對(duì)齊卷積神經(jīng)網(wǎng)絡(luò)[15],在特征域?qū)崿F(xiàn)各像素的多假設(shè)預(yù)測,在參考幀中取出K個(gè)最優(yōu)相似像素構(gòu)成假設(shè)集,然后通過一個(gè)卷積實(shí)現(xiàn)對(duì)假設(shè)集的加權(quán)求和并輸出預(yù)測幀,即
(4)
最后,將預(yù)測結(jié)果從特征域映射至像素域,得到各像素的多假設(shè)預(yù)測幀。
殘差重構(gòu)模塊基于殘差重構(gòu)理論,通過重構(gòu)預(yù)測幀殘差來進(jìn)一步提升重構(gòu)質(zhì)量。另外,文獻(xiàn)[14]為了構(gòu)造最優(yōu)假設(shè)集提出了兩階段運(yùn)動(dòng)補(bǔ)償模式,在第一階段利用細(xì)節(jié)信息豐富的關(guān)鍵幀作為參考幀進(jìn)行多假設(shè)預(yù)測,在第二階段利用相關(guān)性更強(qiáng)的相鄰幀作為參考幀,充分利用了圖像組幀間相關(guān)性。
在多假設(shè)預(yù)測殘差重構(gòu)框架中,構(gòu)造高匹配程度的假設(shè)集以及求解高精度的假設(shè)集權(quán)值是算法研究的重點(diǎn)。針對(duì)這兩個(gè)方面,本研究基于深度學(xué)習(xí)強(qiáng)大的學(xué)習(xí)能力,利用卷積神經(jīng)網(wǎng)絡(luò)模擬多假設(shè)預(yù)測中假設(shè)集構(gòu)造、假設(shè)權(quán)重求解等過程,提出了一種新的特征域多假設(shè)預(yù)測視頻壓縮感知重構(gòu)神經(jīng)網(wǎng)絡(luò)FMH_CVSNet,具體包括提出新的特征域多假設(shè)預(yù)測模塊(FMH_Module)和兩階段多參考幀補(bǔ)償模式與特征域融合網(wǎng)絡(luò)。
在重構(gòu)過程中,首先利用圖像壓縮感知重構(gòu)算法SPLNet[16]對(duì)所有幀進(jìn)行初始重構(gòu),然后利用增強(qiáng)重構(gòu)子網(wǎng)絡(luò)進(jìn)一步提升非關(guān)鍵幀的重構(gòu)質(zhì)量。
FMH_CVSNet算法框架如圖1所示,增強(qiáng)重構(gòu)子網(wǎng)絡(luò)由兩個(gè)階段組成,在第一階段重構(gòu)中,選擇已重構(gòu)的關(guān)鍵幀作為參考幀,利用FMH_Module實(shí)現(xiàn)多假設(shè)預(yù)測,并通過殘差重構(gòu)模塊[13-14]進(jìn)行殘差重構(gòu),得到第一階段的重構(gòu)幀;在第二階段重構(gòu)中,分兩種情況選擇參考幀實(shí)現(xiàn)當(dāng)前幀的預(yù)測。當(dāng)相鄰幀為非關(guān)鍵幀時(shí),將第一階段重構(gòu)的相鄰幀與關(guān)鍵幀同時(shí)作為參考幀對(duì)當(dāng)前幀進(jìn)行多假設(shè)預(yù)測,并利用本文提出的特征域融合模塊將兩個(gè)預(yù)測幀進(jìn)行自適應(yīng)融合得到最終的預(yù)測;當(dāng)相鄰幀為關(guān)鍵幀時(shí),只選擇關(guān)鍵幀作為參考幀得到預(yù)測。最后利用殘差重構(gòu)模塊進(jìn)行重構(gòu),得到最后的重構(gòu)幀。
圖1 FMH_CVSNet算法框架Fig.1 Algorithm framework of FMH_CVSNet
多假設(shè)預(yù)測-殘差重構(gòu)框架具有結(jié)構(gòu)簡單、支持理論完善、重構(gòu)性能好等優(yōu)點(diǎn)。本研究基于多假設(shè)理論與信號(hào)特征提出了一種新的特征域多假設(shè)預(yù)測模塊FMH_Module,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 FMH_Module的網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Network structure of FMH_Module
輸入空間尺寸為H×W×1的待重構(gòu)幀與參考幀,首先利用d個(gè)大小為3×3×1的卷積濾波器(Conv_0)、1個(gè)LReLU激活層以及3個(gè)殘差學(xué)習(xí)單元[17](ResBlock,每個(gè)ResBlock包括2個(gè)大小為3×3×d的卷積層及1個(gè)ReLU激活函數(shù))實(shí)現(xiàn)幀圖像空間(Xc,Xr)到d維特征空間(Fc,Fr)的映射,此時(shí)Fc與Fr的空間尺寸為H×W×d。然后利用本研究設(shè)計(jì)的運(yùn)動(dòng)估計(jì)模塊(M-Block)以及假設(shè)權(quán)重求解模塊(W-Block)分別求得最優(yōu)假設(shè)像素的運(yùn)動(dòng)偏移矢量及對(duì)應(yīng)的權(quán)重。運(yùn)動(dòng)估計(jì)模塊通常利用堆疊的卷積層來學(xué)習(xí)輸入特征(Fc,Fr)到最優(yōu)假設(shè)像素的運(yùn)動(dòng)偏移(Δp)的映射。在此過程中,若卷積網(wǎng)絡(luò)過淺,則代表模型僅采用了小范圍的感受野求解匹配信息,與傳統(tǒng)塊匹配運(yùn)動(dòng)估計(jì)中搜索窗受限的情況類似,難以估計(jì)較大的運(yùn)動(dòng)。因此,運(yùn)動(dòng)估計(jì)模塊通過級(jí)聯(lián)多個(gè)卷積層增加感受野,從而對(duì)運(yùn)動(dòng)劇烈的視頻構(gòu)造出高質(zhì)量的假設(shè)集。但在處理慢速運(yùn)動(dòng)序列時(shí),過大的感受野反而會(huì)引入額外的不相關(guān)信息,因此運(yùn)動(dòng)估計(jì)模塊在加深多假設(shè)預(yù)測網(wǎng)絡(luò)的同時(shí),引入了跳躍連接結(jié)構(gòu),對(duì)不同尺寸感受野信息進(jìn)行融合,使網(wǎng)絡(luò)能同時(shí)適應(yīng)運(yùn)動(dòng)劇烈程度不同的序列,并在一定程度上可以防止梯度消失[18],更有利于網(wǎng)絡(luò)的訓(xùn)練。如圖2所示,輸入Fc與Fr,在拼接參考幀與當(dāng)前幀特征空間的通道后,運(yùn)動(dòng)估計(jì)模塊首先通過2個(gè)卷積層和1個(gè)LReLU非線性激活層學(xué)習(xí)小范圍運(yùn)動(dòng)信息,在此基礎(chǔ)上為擴(kuò)大感受野,疊加2個(gè)卷積層與1個(gè)LReLU激活層,輸出較大范圍的運(yùn)動(dòng)信息,然后通過殘差連接將不同感受野下的特征相加,得到較豐富的運(yùn)動(dòng)信息。圖2中,Conv_1由d個(gè)大小為H×W×2d的卷積濾波器組成,Conv_2、Conv_3、Conv_4由d個(gè)大小為3×3×d的卷積濾波器組成。最后,運(yùn)動(dòng)估計(jì)模塊利用2K個(gè)大小為3×3×d的卷積濾波器Conv_5與平均池化操作,輸出K個(gè)假設(shè)運(yùn)動(dòng)偏移Δp(Δp∈RH×W×2K)。利用求得的運(yùn)動(dòng)偏移Δp,即可在參考幀對(duì)應(yīng)位置找到對(duì)應(yīng)的假設(shè)像素構(gòu)造假設(shè)集H∈RH×W×d×K。
在傳統(tǒng)多假設(shè)理論中,當(dāng)前假設(shè)塊與待重構(gòu)塊的相似程度越高,則該假設(shè)塊的權(quán)值越大。因此,本研究構(gòu)造了一個(gè)假設(shè)權(quán)重求解模塊,通過K個(gè)核大小為3×3×d的卷積層Conv_6與Sigmoid非線性層來自適應(yīng)求解各假設(shè)像素的權(quán)重。在求解過程中,由于運(yùn)動(dòng)估計(jì)模塊得到的運(yùn)動(dòng)偏移Δp僅包含假設(shè)集的空間位置信息,而無法表征當(dāng)前待預(yù)測像素與假設(shè)像素的相關(guān)程度,因此本研究選擇同時(shí)包含空間位置信息與相關(guān)程度的運(yùn)動(dòng)信息作為假設(shè)權(quán)重求解模塊的輸入。通過該過程,不同待預(yù)測像素的每個(gè)假設(shè)像素都可以針對(duì)其信號(hào)特征自適應(yīng)地求解,得到對(duì)應(yīng)的假設(shè)權(quán)重w∈RH×W×1×K。
假設(shè)權(quán)重w表征了當(dāng)前待重構(gòu)像素對(duì)應(yīng)的多個(gè)假設(shè)像素的重要性,本研究首先利用其對(duì)假設(shè)集進(jìn)行加權(quán):
Hw=wH
(5)
Fp=wc*Hw
(6)
式中,wc為卷積核權(quán)重,F(xiàn)p為特征域的預(yù)測幀。在此過程中,假設(shè)權(quán)重卷積w針對(duì)不同待重構(gòu)像素的不同假設(shè)集均能自適應(yīng)計(jì)算,但對(duì)每個(gè)特征通道共享;而卷積權(quán)重wc則偏重于表征假設(shè)像素不同通道的重要性關(guān)系。在具體實(shí)驗(yàn)設(shè)置中,本研究為平衡網(wǎng)絡(luò)計(jì)算量,將特征通道d設(shè)置為64,假設(shè)集容量K設(shè)置為25,以獲取充足的相關(guān)像素。
在運(yùn)動(dòng)補(bǔ)償過程中,參考幀的選擇取決于兩個(gè)因素:幀質(zhì)量q、與待重構(gòu)幀的相關(guān)程度c。視頻壓縮感知在重構(gòu)質(zhì)量優(yōu)秀的關(guān)鍵幀(xk)與相關(guān)性較強(qiáng)的相鄰幀(xn)之中選擇參考幀(xr),即
(7)
式中,qk、qn、ck、cn分別為關(guān)鍵幀和相鄰幀的質(zhì)量,以及與待重構(gòu)幀的相關(guān)程度。
在本文的兩階段重構(gòu)框架下,在第一階段的重構(gòu)中,關(guān)鍵幀重構(gòu)質(zhì)量遠(yuǎn)遠(yuǎn)高于非關(guān)鍵幀的初始重構(gòu)質(zhì)量,即qk/qn>cn/ck,因此選擇關(guān)鍵幀作為參考幀較為合理。第一階段增強(qiáng)重構(gòu)后,由于非關(guān)鍵幀的重構(gòu)質(zhì)量得到提升,qk/qn減小,相關(guān)程度差異cn/ck成為第二階段重構(gòu)的主要影響因素。在第二階段中,在同一個(gè)GOP內(nèi)幀的相關(guān)程度與序列的運(yùn)動(dòng)特征有關(guān),若序列為快速運(yùn)動(dòng)序列,cn/ck較大,則選擇相鄰幀作為參考幀更為合理;反之,若序列為慢速運(yùn)動(dòng)序列,則選擇關(guān)鍵幀為參考幀更為有效。為了綜合幀質(zhì)量和相關(guān)程度對(duì)參考幀選擇的影響,同時(shí)滿足快速運(yùn)動(dòng)序列與慢速運(yùn)動(dòng)序列不同的參考幀需求,本研究提出了兩階段多參考幀運(yùn)動(dòng)補(bǔ)償模式以及一個(gè)自適應(yīng)特征域融合網(wǎng)絡(luò)。
圖3 FMH_CVSNet參考幀的選擇(GOP=8)Fig.3 Reference frame selection of FMH_CVSNet(GOP=8)
FMH_CVSNet采用訓(xùn)練好的SPLNet作為圖像壓縮感知重構(gòu)網(wǎng)絡(luò),并在此基礎(chǔ)上進(jìn)一步訓(xùn)練增強(qiáng)多假設(shè)重構(gòu)網(wǎng)絡(luò)以實(shí)現(xiàn)幀間時(shí)空相關(guān)性的有效學(xué)習(xí)。網(wǎng)絡(luò)訓(xùn)練中目標(biāo)函數(shù)包括兩部分限制:重構(gòu)幀和原始幀盡可能接近;重構(gòu)幀的觀測值和原始觀測值盡可能接近。以均方誤差作為損失函數(shù),這兩個(gè)部分的損失目標(biāo)表示分別為
(8)
(9)
(10)
為驗(yàn)證FMH_CVSNet的有效性,本文設(shè)計(jì)了一系列不同條件下的實(shí)驗(yàn),對(duì)FMH_CVSNet進(jìn)行重構(gòu)質(zhì)量與算法復(fù)雜度的分析,并通過消融實(shí)驗(yàn)分析了網(wǎng)絡(luò)中各模塊的性能。在GOP大小為8,關(guān)鍵幀采樣率為0.5,非關(guān)鍵幀采樣率分別為0.20、0.10、0.05的條件下進(jìn)行仿真測試實(shí)驗(yàn)。
本研究采用與2sMHNet[14]相同的UCF-101數(shù)據(jù)集進(jìn)行SPLNet的預(yù)訓(xùn)練以及增強(qiáng)多假設(shè)重構(gòu)網(wǎng)絡(luò)的訓(xùn)練。在訓(xùn)練過程中,SPLNet超參數(shù)設(shè)置參考文獻(xiàn)[16],增強(qiáng)多假設(shè)重構(gòu)網(wǎng)絡(luò)采用默認(rèn)超參數(shù)設(shè)定下的AdamOptimizer優(yōu)化器,學(xué)習(xí)率設(shè)置為0.000 01。使用PyTorch框架來實(shí)現(xiàn)本文的FMH_CVSNet并在NVIDIA 2080Ti進(jìn)行訓(xùn)練與測試。
3.2.1 重構(gòu)性能與重構(gòu)視覺效果對(duì)比
選取6組CIF格式(354×288)的標(biāo)準(zhǔn)序列Akiyo、Coastguard、Foreman、Mother_daughter、Paris、Silent作為測試序列,將FMH_CVSNet與基于深度學(xué)習(xí)的視頻壓縮感知重構(gòu)算法(2種基于幀間多級(jí)特征補(bǔ)償?shù)木W(wǎng)絡(luò)VCSNet-1[12]、VCSNet-2[12]以及兩種基于可變形卷積的多假設(shè)預(yù)測重構(gòu)網(wǎng)絡(luò)PRCVSNet[13]、2sMHNet[14])進(jìn)行了對(duì)比,每個(gè)序列前兩個(gè)GOP在各采樣率下的平均重構(gòu)峰值信噪比(PSNR)與結(jié)構(gòu)相似性指數(shù)(SSIM)如表1所示。由表中可見:FMH_CVSNet相比于VCSNet-1與VCSNet-2,平均PSNR分別顯著提升了4.30、3.87 dB,平均SSIM分別提升了0.044 6、0.029 1,表明了FMH_CVSNet網(wǎng)絡(luò)結(jié)構(gòu)的合理性與有效性,以及結(jié)合信號(hào)先驗(yàn)信息與傳統(tǒng)壓縮感知理論來構(gòu)造神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的重要性;相比于已有的多假設(shè)殘差重構(gòu)網(wǎng)絡(luò)PRCVSNet與2sMHNet,F(xiàn)MH_CVSNet的平均PSNR分別提升了2.96、2.15 dB,平均SSIM分別提升了0.017 1、0.003 7,證明了本研究網(wǎng)絡(luò)結(jié)構(gòu)的有效性。
表1 CIF格式下FMH_CVSNet與基于深度學(xué)習(xí)的CVS重構(gòu)算法的PSNR與SSIM對(duì)比Table 1 Comparison of PSNR and SSIM between FMH_CVSNet and deep learning based CVS reconstruction algorithms in CIF format
以6個(gè)QCIF格式(176×144)的標(biāo)準(zhǔn)視頻序列(Soccer、Football、Ice、Foreman、Hall、Suzie)為測試序列,將本文FMH_CVSNet與傳統(tǒng)多假設(shè)視頻壓縮感知重構(gòu)算法(MHR[4]、2sMHR[7])及傳統(tǒng)CVS重構(gòu)算法SSIM-InterF-GSR[18]進(jìn)行了對(duì)比,6個(gè)QCIF格式視頻序列前12個(gè)GOP的重構(gòu)性能對(duì)比如表2所示,其中對(duì)比算法均使用原作者發(fā)布的代碼進(jìn)行實(shí)現(xiàn)與仿真。由表中可知:FMH_CVSNet相對(duì)于傳統(tǒng)算法的性能提升明顯,平均PSNR比MHR、2sMHR分別提升了8.37、4.76 dB,平均SSIM分別提升了0.127 3、0.049 7,證明了深度神經(jīng)網(wǎng)絡(luò)的強(qiáng)大學(xué)習(xí)能力與優(yōu)秀的泛化能力;SSIM-InterF-GSR是目前重構(gòu)質(zhì)量最好的傳統(tǒng)算法之一,而FMH_CVSNet的性能均優(yōu)于SSIM-InterF-GSR,在3個(gè)采樣率下平均PSNR分別提升了2.44、3.50、4.57 dB,平均SSIM分別提升了0.019 6、0.029 7、0.055 4;在采樣率較低時(shí),基于深度學(xué)習(xí)的CVS重構(gòu)算法的重構(gòu)性能較傳統(tǒng)算法提升更為明顯,表明了深度學(xué)習(xí)在信息有限時(shí)相比于傳統(tǒng)算法能更好地挖掘深層特征,獲得更好的重構(gòu)性能。
表2 FMH_CVSNet與傳統(tǒng)視頻壓縮感知重構(gòu)算法的PSNR與SSIM對(duì)比Table 2 PSNR and SSIM comparison between FMH_CVSNet and traditional video compression sensing reconstruction algorithms
FMH_CVSNet與傳統(tǒng)重構(gòu)算法(2sMHR[7]與SSIM-InterF-GSR[18])以及基于深度學(xué)習(xí)的CVS重構(gòu)算法(PRCVSNet[13]與2sMHNet[14])在關(guān)鍵幀采樣率為0.5、非關(guān)鍵幀采樣率為0.1、GOP大小為8時(shí),Hall序列第31幀以及Football序列第2幀的重構(gòu)效果如圖4、圖5所示,圖中標(biāo)注了每個(gè)重構(gòu)結(jié)果的PSNR值。從圖中可知:傳統(tǒng)算法2sMHR出現(xiàn)了明顯的塊效應(yīng)與噪點(diǎn),而SSIM-InterF-GSR則出現(xiàn)了過平滑,腿部輪廓、手部細(xì)節(jié)、服飾紋理等大量信息被抹去;3種基于深度學(xué)習(xí)的多假設(shè)重構(gòu)網(wǎng)絡(luò)均能較好地重構(gòu)出圖像的輪廓信息與細(xì)節(jié)信息,但本文的FMH_CVSNet能更清晰地重構(gòu)出人物衣服、腿部等區(qū)域,重構(gòu)視覺效果最優(yōu)。
圖4 非關(guān)鍵幀采樣率0.1時(shí)各算法在序列Hall第31幀的重構(gòu)視覺效果Fig.4 Reconstructed visual results of the 31st Hall frame with different algorithms at 0.1 sampling rate
圖5 非關(guān)鍵幀采樣率0.1時(shí)各算法在序列Football第2幀的重構(gòu)視覺效果Fig.5 Reconstructed visual results of the 2nd Football frame with different algorithms at 0.1 sampling rate
3.2.2 算法復(fù)雜度對(duì)比
本文將FMH_CVSNet與PRCVSNet[13]與2sMHNet[14]進(jìn)行了重構(gòu)時(shí)間與網(wǎng)絡(luò)參數(shù)量對(duì)比。當(dāng)非關(guān)鍵采樣率為0.1時(shí),3種算法對(duì)QCIF標(biāo)準(zhǔn)序列的平均每幀GPU重構(gòu)時(shí)間以及網(wǎng)絡(luò)參數(shù)量比較如表3所示。由表中可知,F(xiàn)MH_CVSNet的時(shí)間復(fù)雜度與空間復(fù)雜度略高于PRCVSNet與2sMHNet,這是由于FMH_CVSNet采用了算法復(fù)雜度較高的SPLNet作為圖像壓縮感知重構(gòu)網(wǎng)絡(luò),并使用了更復(fù)雜的多假設(shè)重構(gòu)網(wǎng)絡(luò)。因此,本文提出的FMH_CVSNet雖然提升了重構(gòu)質(zhì)量,但在一定程度上增加了網(wǎng)絡(luò)運(yùn)算與存儲(chǔ)負(fù)擔(dān)。
表3 3種基于深度學(xué)習(xí)的CVS重構(gòu)算法的復(fù)雜度對(duì)比Table 3 Comparison of complexity among three CVS reconstruction algorithms based on deep learning
3.2.3 消融實(shí)驗(yàn)結(jié)果分析
為驗(yàn)證本研究提出的特征域多假設(shè)預(yù)測模塊(FMH_Module)以及多參考幀運(yùn)動(dòng)補(bǔ)償模式的有效性,本文在訓(xùn)練與測試條件相同的情況下,以FMH_CVSNet為基礎(chǔ),分別設(shè)置了不同的多假設(shè)網(wǎng)絡(luò)(包括本文的FMH_Module與TDAN多假設(shè)網(wǎng)絡(luò)[13])、不同的參考幀選擇模式(本文的多參考幀模式與兩階段單相鄰幀運(yùn)動(dòng)補(bǔ)償模式[14]),并比較了其重構(gòu)性能。當(dāng)非關(guān)鍵幀采樣率為0.1時(shí),不同網(wǎng)絡(luò)結(jié)構(gòu)在QCIF數(shù)據(jù)集及CIF數(shù)據(jù)集上的平均PSNR如表4所示,其中QCIF數(shù)據(jù)集中每個(gè)序列選取前96幀,而CIF數(shù)據(jù)集中每個(gè)序列選取前16幀進(jìn)行測試。
由表4可以看出:FMH_Module與多參考幀運(yùn)動(dòng)補(bǔ)償模式都不同程度地提升了重構(gòu)精度。選擇FMH_Module作為多假設(shè)預(yù)測網(wǎng)絡(luò)相比于利用TDAN在兩個(gè)數(shù)據(jù)集上的平均PSNR分別提升了0.17、0.36 dB;選擇多參考幀運(yùn)動(dòng)補(bǔ)償模式相比于單相鄰幀運(yùn)動(dòng)補(bǔ)償模式[14]在兩個(gè)數(shù)據(jù)集上的平均PSNR分別提升了0.34、0.33 dB。
表4 不同網(wǎng)絡(luò)結(jié)構(gòu)在不同測試集上的平均PSNRTable 4 Average PSNR of different network structures on diffe-rent test sets
為了提升網(wǎng)絡(luò)的預(yù)測能力,本文提出了新的多假設(shè)預(yù)測網(wǎng)絡(luò)FMH_Module,通過設(shè)計(jì)運(yùn)動(dòng)估計(jì)模塊、假設(shè)權(quán)重求解模塊以及擴(kuò)大假設(shè)集容量等方式,在特征空間實(shí)現(xiàn)了高質(zhì)量的多假設(shè)預(yù)測。為了評(píng)估這些不同網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù)設(shè)置對(duì)FMH_Module預(yù)測精度的影響,本文設(shè)置了5個(gè)對(duì)比實(shí)驗(yàn):①縮小假設(shè)集容量,更改Conv_7卷積核大小為3×3,標(biāo)記為MH-C3;②移除自適應(yīng)假設(shè)集求解模塊,標(biāo)記為MH-AW;③移除平均池化層APool,標(biāo)記為MH-AP;④刪除運(yùn)動(dòng)估計(jì)模塊中的殘差連接,標(biāo)記為MH-RL;⑤縮小運(yùn)動(dòng)估計(jì)神經(jīng)網(wǎng)絡(luò)層數(shù),刪除Conv_3、Conv_4以及中間的LReLU層,標(biāo)記為MH-ME。
由于FMH_CVSNet完整網(wǎng)絡(luò)的訓(xùn)練周期較長,故本文僅對(duì)多假設(shè)預(yù)測模塊進(jìn)行訓(xùn)練并測試,即以SPLNet初始重構(gòu)結(jié)果為輸入,選擇最近關(guān)鍵幀作為參考幀,利用不同結(jié)構(gòu)的多假設(shè)預(yù)測網(wǎng)絡(luò)輸出預(yù)測幀,該預(yù)測幀的質(zhì)量在一定程度上反應(yīng)了多假設(shè)預(yù)測網(wǎng)絡(luò)的性能。當(dāng)非關(guān)鍵幀采樣率為0.1時(shí),不同網(wǎng)絡(luò)結(jié)構(gòu)的多假設(shè)預(yù)測模塊在CIF及QCIF數(shù)據(jù)集上的PSNR對(duì)比如表5所示。
由表5可知:完整結(jié)構(gòu)的FMH_Module取得了最好的預(yù)測結(jié)果,相比于其他網(wǎng)絡(luò)結(jié)構(gòu)均有不同程度的提升;設(shè)置自適應(yīng)權(quán)重模塊對(duì)預(yù)測結(jié)果的影響最大,加入自適應(yīng)權(quán)重求解模塊后,CIF與QCIF序列的平均PSNR分別提升了2.67、1.12 dB;加大假設(shè)集容量可使平均PSNR提升了0.42 dB;設(shè)置平均池化層對(duì)預(yù)測結(jié)果的提升較小,僅提升了0.08 dB;運(yùn)動(dòng)估計(jì)深度不同對(duì)預(yù)測結(jié)果的影響不同,加深運(yùn)動(dòng)估計(jì)層數(shù)使平均PSNR提升了0.70 dB,而僅增加殘差連接使平均PSNR提升了0.27 dB。以上結(jié)果均表明了FMH_Module網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)的合理性,均在不同程度上提升了多假設(shè)預(yù)測的精度。
表5 不同設(shè)置下FMH_Module預(yù)測結(jié)果的PSNRTable 5 PSNR of FMH_Module prediction results under different settings
在多假設(shè)預(yù)測算法中,獲得高質(zhì)量預(yù)測的關(guān)鍵是構(gòu)造匹配程度高的假設(shè)集以及求解高精度的假設(shè)集權(quán)值。本文針對(duì)現(xiàn)有網(wǎng)絡(luò)假設(shè)集構(gòu)造以及假設(shè)權(quán)重求解的不足,提出了特征域多假設(shè)預(yù)測視頻壓縮感知重構(gòu)網(wǎng)絡(luò)FMH_CVSNet。FMH_CVSNet以SPLNet為初始重構(gòu)網(wǎng)絡(luò),設(shè)計(jì)了新的基于特征域多假設(shè)模塊FMH_Module與兩階段多參考幀運(yùn)動(dòng)補(bǔ)償模式的增強(qiáng)重構(gòu)子網(wǎng)絡(luò)。FMH_Module通過設(shè)計(jì)合理的運(yùn)動(dòng)估計(jì)模塊、假設(shè)權(quán)重求解模塊以及擴(kuò)大假設(shè)集容量等方式,在特征空間實(shí)現(xiàn)了高質(zhì)量的多假設(shè)預(yù)測;兩階段多參考幀運(yùn)動(dòng)補(bǔ)償模式為了同時(shí)適應(yīng)快速運(yùn)動(dòng)序列與慢速運(yùn)動(dòng)序列不同的信號(hào)特征,在第一階段選擇關(guān)鍵幀作為參考幀的基礎(chǔ)上,在第二階段同時(shí)利用關(guān)鍵幀與相鄰幀進(jìn)行特征域多假設(shè)預(yù)測,并通過一個(gè)融合網(wǎng)絡(luò)對(duì)二者進(jìn)行優(yōu)勢互補(bǔ),得到最后的預(yù)測幀。仿真結(jié)果表明,與現(xiàn)有算法相比,F(xiàn)MH_CVSNet的重構(gòu)性能提升明顯,相比于2sMHR和VCSNet-2,平均PSNR分別提升了4.76、3.87 dB。