邱 亮,夏慧明,儲(chǔ)久良
(1.南京師范大學(xué)泰州學(xué)院,江蘇 泰州 225300;2.南京理工大學(xué)泰州科技學(xué)院,江蘇 泰州 225300)
視頻質(zhì)量評(píng)價(jià)算法主要分為視頻主觀質(zhì)量評(píng)價(jià)與客觀質(zhì)量評(píng)價(jià)。由于視頻主觀評(píng)價(jià)結(jié)果最準(zhǔn)確可靠,因此常用視頻客觀評(píng)價(jià)結(jié)果與主觀評(píng)價(jià)結(jié)果的一致性作為客觀評(píng)價(jià)算法的性能評(píng)價(jià)指標(biāo)。
目前國(guó)際上存在多種視頻質(zhì)量評(píng)價(jià)算法,峰值信噪比PSNR(Peak Signal Noise Ratio)由于數(shù)據(jù)模型簡(jiǎn)單,是一種廣泛使用的圖像與視頻質(zhì)量評(píng)價(jià)指標(biāo),但該模型與人眼視覺特性的一致性差;Wang等[1]利用結(jié)構(gòu)相似性算法SSIM(Structure SIMilarity)提取場(chǎng)景中的結(jié)構(gòu)特征,并結(jié)合亮度掩蔽特性和運(yùn)動(dòng)估計(jì),提出基于視頻結(jié)構(gòu)相似度測(cè)量VSSIM(Video Structural SImilarity Measurement)算法[2];Seshadrinathan等[3]利用Gabor濾波器對(duì)圖像進(jìn)行多通道分解,對(duì)各通道進(jìn)行運(yùn)動(dòng)估計(jì),提出了基于運(yùn)動(dòng)的視頻完整性評(píng)價(jià)MOVIE(MOtion-based Video Integrity Evaluation index)算法;Prison等[4]提取視頻中人眼能夠感知的圖像特征(亮度、色彩、時(shí)空變化),利用統(tǒng)計(jì)學(xué)原理模擬人眼視覺系統(tǒng)HVS(Human Visual System),提出了視頻質(zhì)量評(píng)價(jià)VQM(Video Quality Model)模型。Lin等[5]利用圖像的相位一致性以及圖像的空域梯度特征,提出了一種特征相似度測(cè)量FSIM(Feature SIMilarity index for image quality assessment)[6]算法,該算法復(fù)雜度低、執(zhí)行效率高,得出的評(píng)價(jià)結(jié)果和人眼主觀感受的一致性較好,是目前最好的靜態(tài)圖像質(zhì)量評(píng)價(jià)算法之一。
由于人眼的對(duì)比度掩蔽特性,人眼對(duì)于視覺信號(hào)中不同對(duì)比度具有較強(qiáng)的敏感度,而梯度信息可以體現(xiàn)圖像中的對(duì)比度信息。Wang Yue等[7]引入三維Sobel算子計(jì)算視頻的局部時(shí)空域的梯度,對(duì)時(shí)空域梯度幅值進(jìn)行閾值判斷選取感興趣像素點(diǎn),然后計(jì)算感興趣區(qū)域的3D結(jié)構(gòu)張量來描述視頻的時(shí)域失真,取得了較好的視頻質(zhì)量評(píng)價(jià)效果。
本文借鑒FSIM在空域計(jì)算梯度相似度的方法,并利用視頻序列前后幾幀的相關(guān)性,采用一種新的時(shí)域三維Sobel算子計(jì)算時(shí)域梯度相似度,提出了一種基于時(shí)域梯度相似度矩陣的視頻質(zhì)量評(píng)價(jià)模型TGSM-FSIM(video quality assessment model based on Temporal domain Gradient Similarity Matrix and FSIM)。該模型不局限于特定的視頻主觀評(píng)價(jià)數(shù)據(jù)庫(kù),具有計(jì)算復(fù)雜度低、通用性強(qiáng)等特點(diǎn),并且對(duì)不同失真類型的視頻序列均有較好的視頻評(píng)價(jià)性能,因此算法有較好的魯棒性。
與靜態(tài)圖像相比,視頻序列存在一些復(fù)雜的時(shí)域變化,因此本文在FSIM圖像評(píng)價(jià)算法中加入時(shí)域梯度相似度來描述視頻的時(shí)域失真。
FSIM算法是一種基于視覺淺層次特征的圖像評(píng)價(jià)算法,主要基于圖像的相位一致性特征與圖像的空域梯度特征。
相位一致性特征相似度矩陣計(jì)算公式為:
(1)
其中,PC(x)表示圖像的相位一致性矩陣,計(jì)算過程參見文獻(xiàn)[7],T1是一個(gè)常數(shù)。
利用空域的梯度算子計(jì)算出圖像垂直梯度的特征函數(shù)Gy(x)與水平方向梯度的特征函數(shù)Gx(x),該算法采用的是Scharr算子,如表1所示。
Table 1 Gradient operators表1 梯度算子
圖像空域梯度幅值矩陣計(jì)算公式為:
(2)
圖像空域梯度相似度矩陣計(jì)算公式為:
(3)
其中,T2為常數(shù)。
結(jié)合相位一致性與梯度特征,得到參考圖像與失真圖像相似度矩陣計(jì)算公式為:
(4)
其中,α、β為常數(shù)。
像素的相位一致性值可以反映該像素為人類視覺感興趣像素區(qū)域的可能性,因此用相位一致性值作為SL(x)的加權(quán)系數(shù)得到質(zhì)量評(píng)價(jià)模型,如式(5)所示:
(5)
其中,Ω表示整個(gè)空域,PCm(x)表示參考圖像與失真圖像矩陣對(duì)應(yīng)矩陣元素的較大值矩陣,可以表示為:
PCm=max(PC1(x),PC2(x))
(6)
二維梯度算子沒有考慮時(shí)域的梯度信息,文獻(xiàn)[7]引入三維梯度算子計(jì)算時(shí)域結(jié)構(gòu)張量矩陣,取得了較好的視頻質(zhì)量評(píng)價(jià)性能。本文將FSIM的空域Scharr算子進(jìn)行擴(kuò)展,形成三維梯度算子,如圖1所示。
Figure 1 Three-dimensional gradient operator圖1 三維梯度算子
Figure 3 Progress of calculating gradient similarity matrix圖3 梯度相似度矩陣計(jì)算示意圖
令ft(x)表示當(dāng)前幀,ft-1(x)表示當(dāng)前幀的后一幀,ft+1(x)表示前一幀。利用圖1中的三維梯度算子,計(jì)算時(shí)域梯度的公式為:
Gt(x)=gt-1*ft-1(x)+
gt*ft(x)+gt+1*ft+1(x)
(7)
但是,對(duì)于視頻編碼標(biāo)準(zhǔn),如H.264編碼標(biāo)準(zhǔn),一般采用兩幀以上圖像作參考幀進(jìn)行運(yùn)動(dòng)估計(jì)與運(yùn)動(dòng)補(bǔ)償,因此,本文在圖1的三維梯度算子基礎(chǔ)上提出了一種基于前后兩幀的三維梯度算子,即對(duì)圖1的三維梯度算子進(jìn)行了擴(kuò)展,并且距離當(dāng)前幀越遠(yuǎn)則序列間的時(shí)域影響會(huì)越小,基于此種特性,本文提出了一種新型的三維梯度算子,如圖2所示。
Figure 2 Temporal gradient operator圖2 時(shí)域梯度算子
(8)
再利用前文所述的方法,計(jì)算當(dāng)前幀的水平梯度Gx(x)與垂直方向的梯度Gy(x),那么時(shí)空域的梯度幅度計(jì)算公式為:
GM′(x)=
(9)
(10)
其中,T3為常數(shù)。
本文選取了LIVE視頻數(shù)據(jù)庫(kù)中“Rushhour”的5個(gè)視頻序列,時(shí)空域梯度相似度矩陣的計(jì)算過程如圖3所示。
該模型計(jì)算公式為:
TGSM-FSIM=
(11)
本文選用LIVE視頻主觀評(píng)價(jià)質(zhì)量數(shù)據(jù)庫(kù)[8]進(jìn)行算法的性能測(cè)試。LIVE視頻數(shù)據(jù)庫(kù)是目前最新的且被廣泛認(rèn)可的視頻主觀評(píng)價(jià)數(shù)據(jù)庫(kù)[9],包含了10個(gè)原始視頻序列,視頻序列的分辨率為768×432,其中7個(gè)視頻序列幀率為25 fps,3個(gè)視頻序列幀率為50 fps。每一個(gè)原始視頻序列對(duì)應(yīng)4種不同失真類型與失真程度共15個(gè)失真序列,其中4個(gè)無線失真,3個(gè)IP失真,4個(gè)H.264壓縮和4個(gè)MPEG-2壓縮。
客觀圖像/視頻質(zhì)量評(píng)價(jià)算法的性能評(píng)價(jià)主要衡量客觀評(píng)價(jià)數(shù)據(jù)與主觀評(píng)價(jià)數(shù)據(jù)的一致性。視頻質(zhì)量專家組VQEG(Video Quality Experts Group)提出了四種評(píng)價(jià)指標(biāo):斯皮爾曼等級(jí)次序相關(guān)系數(shù)SROCC(Spearman Rank Order Correlation Coefficient)、肯德爾等級(jí)次序相關(guān)系數(shù)KROCC(Kendall Rank Order Correlation Coefficient)、皮爾森線性相關(guān)系數(shù)PLCC(Pearson Linear Correlation Coefficient)和均方根誤差RMSE(Root Mean Square Error)。本文選取SROCC與PLCC作為視頻質(zhì)量評(píng)價(jià)算法性能的指標(biāo)。
SROCC計(jì)算公式為:
(12)
其中,di表示第i個(gè)視頻序列在主觀評(píng)價(jià)分?jǐn)?shù)中的排序與客觀評(píng)價(jià)分?jǐn)?shù)中排序的差值。
對(duì)于PLCC的計(jì)算,首先要對(duì)主觀數(shù)據(jù)與客觀數(shù)據(jù)進(jìn)行非線性擬合,文獻(xiàn)[10]給出了一種Logistic函數(shù)對(duì)數(shù)據(jù)進(jìn)行擬合:
(13)
其中,βi是需要擬合的參數(shù)。
PLCC計(jì)算公式為:
(14)
為了更好地評(píng)價(jià)本文所提視頻質(zhì)量評(píng)價(jià)算法,將該算法與經(jīng)典的VSSIM、MOVIE和VQM等算法在LIVE視頻數(shù)據(jù)庫(kù)上進(jìn)行性能對(duì)比。表2給出了PLCC與SROCC指標(biāo),其中VSSIM、MOVIE、VQM等三種算法的PLCC與SROCC指標(biāo)參考了文獻(xiàn)[7]中的數(shù)據(jù)。采用FSIM對(duì)視頻質(zhì)量評(píng)價(jià)時(shí),首先分別計(jì)算失真序列每一幀的質(zhì)量,然后計(jì)算平均值作為視頻序列的質(zhì)量。TGSM-FSIM1采用圖1中的三維梯度算子計(jì)算時(shí)域梯度,TGSM-FSIM2采用本文提出的前后多幀的新三維梯度算子計(jì)算時(shí)域梯度。
從表2可看出,本文所提視頻質(zhì)量評(píng)價(jià)算法與目前經(jīng)典的三種算法相比,本文算法性能最好,其中SROCC比MOVIE算法高出約3%,比VQM高出11%。并且MOVIE算法是基于三維Gabor濾波分解到多時(shí)空通道,算法復(fù)雜度遠(yuǎn)遠(yuǎn)高于本文的算法。因此,從計(jì)算復(fù)雜度上來說,本文算法較MOVIE算法有優(yōu)勢(shì)。與FSIM算法相比,本文所提算法由于引入了時(shí)域梯度相似度矩陣,在原FSIM算法提取空域梯度的基礎(chǔ)上加入了時(shí)域的梯度信息,可以較好地表示視頻的時(shí)域變化,因此視頻評(píng)價(jià)性能有較大提高,PLCC提高了約10%,SROCC提高了約9%。
表3給出了本文算法對(duì)不同失真類型視頻的評(píng)價(jià)性能。由表3可看出,本文提出算法模型在對(duì)各種失真類型視頻進(jìn)行質(zhì)量評(píng)價(jià)時(shí)都具有很好的魯棒性,對(duì)各種失真類型的評(píng)價(jià)性能PLCC指標(biāo)均在0.75以上,其中對(duì)無線失真的視頻評(píng)價(jià)性能最好,評(píng)價(jià)IP失真性能次之,MPEG2的評(píng)價(jià)性能最差。
Table 3 Assessment performance ofthe TGSM-FSIM in different distortion types表3 TGSM-FSIM對(duì)不同失真視頻的評(píng)價(jià)性能
圖4為本文所提視頻質(zhì)量評(píng)價(jià)模型與LIVE數(shù)據(jù)庫(kù)中主觀評(píng)分MOS(Mean Opinion Score)的一致性對(duì)比圖。圖4中離散點(diǎn)表示LIVE數(shù)據(jù)庫(kù)中所有失真序列,一共有150個(gè)離散點(diǎn),實(shí)線是Logistic函數(shù)對(duì)視頻序列的客觀評(píng)價(jià)結(jié)果與主觀數(shù)據(jù)的非線性擬合曲線。離散點(diǎn)如果均勻分布在擬合曲線上則認(rèn)為評(píng)價(jià)算法性能較好。
Figure 4 TGSM-FSIM algorithm and MOS data fitting curve圖4 TGSM-FSIM算法與MOS數(shù)據(jù)擬合曲線
由圖4可以看出,本文提出的評(píng)價(jià)模型與主觀視頻評(píng)價(jià)結(jié)果具有較好的一致性。
本文在FSIM算法中加入了時(shí)域梯度相似度矩陣,將圖像質(zhì)量評(píng)價(jià)的二維梯度模型改進(jìn)為視頻質(zhì)量評(píng)價(jià)的三維梯度模型,提出了基于時(shí)域梯度相似度矩陣的視頻質(zhì)量評(píng)價(jià)算法,與人眼主觀視頻質(zhì)量評(píng)價(jià)取得了較好的一致性,并且算法并不需要復(fù)雜的變換域變換,計(jì)算復(fù)雜度低,可以實(shí)現(xiàn)實(shí)時(shí)的視頻質(zhì)量評(píng)價(jià)。
參考文獻(xiàn):
[1] Wang Z, Bovik A C, Sheikh H R,et al.Image quality assessment:From error visibility to structural similarity [J].IEEE Transactions on Image Processing,2004,13(4):600-612.
[2] Wang Zhou, Lu Li-gang, Bovik A C. Video quality assessment based on structural distortion measurement [J].Signal Processing-Image Communication,2004,19(2):121-132.
[3] Seshadrinathan K, Bovik A C. Motion tuned spatio-temporal quality assessment of natural videos [J].IEEE Transactions on Image Processing,2010,19(2):335-350.
[4] Pinson M H,Wolf S.A new standardized method for objectively measuring video quality [J].IEEE Transactions on Broadcasting,2004,50(3):312-322.
[5] Morrone M C,Owens R A.Feature detection from local energy [J].Pattern Recognition Letters,2014,6(5):303-313.
[6] Zhang Lin, Zhang Lei, Mou Xuan-qin,et al.FSIM:A feature similarity index for image quality assessment [J].IEEE Transactions on Image Processing,2011,20(8):2378-2386.
[7] Wang Yue, Jiang Ting-ting, Ma Si-wei,et al.Novel spatio-temporal structural information based video quality metric [J].IEEE Transactions on Circuits & Systems for Video Technology,2012,22(7):989-998.
[8] Seshadrinathan K, Soundararajan R, Bovik A C,et al.Study of subjective and objective quality assessment of video [J].IEEE Transactions on Image Processing,2010,19(6):1427-1441.
[9] Rohaly A,Libert J,Corriveau P,et al.Final report from the video quality experts group on the validation of objective models of video quality assessment[R].[S.l]:ITU-T Standards Contribution COM,2000:9-80.
[10] Sheikh H R, Sabir M F, Bovik A C. A statistical evaluation of recent full reference image quality assessment algorithms [J].IEEE Transactions on Image Processing,2006,15(11):3440-3451.