国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多模雙線性池化和時(shí)間池化聚合的無參考VMAF視頻質(zhì)量評價(jià)模型

2022-07-11 01:54:50李嘉鋒
關(guān)鍵詞:池化特征向量分?jǐn)?shù)

卓 力,楊 碩,張 菁,李嘉鋒

(北京工業(yè)大學(xué)信息學(xué)部,北京 100124)

視頻質(zhì)量評價(jià)是計(jì)算機(jī)視覺、圖像處理等領(lǐng)域的經(jīng)典問題.視頻在壓縮、傳輸?shù)拳h(huán)節(jié)中會引入各種失真,導(dǎo)致視頻質(zhì)量的下降,影響用戶的觀看體驗(yàn)質(zhì)量(quality of experience,QoE).為了評估視頻壓縮處理算法的性能,優(yōu)化系統(tǒng)資源的配置,需要對視頻質(zhì)量進(jìn)行準(zhǔn)確的評價(jià).

視頻質(zhì)量評價(jià)可分為主觀評價(jià)和客觀評價(jià)[1].其中主觀評價(jià)方法依靠人觀看待測視頻的打分去評估視頻質(zhì)量,是最為準(zhǔn)確、可靠的質(zhì)量評價(jià)方法,但是,該方法通常受測試環(huán)境和實(shí)驗(yàn)人員數(shù)量等客觀因素影響,具有很大的局限性,不能滿足實(shí)際應(yīng)用需求.客觀評價(jià)則是通過建立數(shù)學(xué)模型對待測視頻進(jìn)行打分,但是常常無法準(zhǔn)確反映出用戶觀看視頻的主觀體驗(yàn).近年來,能夠與主觀評價(jià)保持一致的客觀質(zhì)量評價(jià)方法受到了工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注,成為現(xiàn)階段視頻質(zhì)量評價(jià)的研究熱點(diǎn).

視頻多方法評估融合(video multimethod assessment fusion,VMAF)是美國Netflix公司于2016年推出的一種視頻質(zhì)量客觀評價(jià)指標(biāo)[2].VMAF采集了大量的主觀打分?jǐn)?shù)據(jù)作為訓(xùn)練集,采用不同的質(zhì)量評估方法對視頻質(zhì)量進(jìn)行度量,然后采用支持向量回歸(support vector regression,SVR)進(jìn)行融合,使得VMAF可以保留每種質(zhì)量評估方法的優(yōu)勢.相比于峰值信噪比(peak signal to noise ratio,PSNR)和結(jié)構(gòu)相似性(structural similarity,SSIM)[3]等視頻質(zhì)量客觀評價(jià)準(zhǔn)則,VMAF指標(biāo)更加接近于主觀感受,可以與用戶的主觀評價(jià)保持一致.實(shí)驗(yàn)結(jié)果表明,與PSNR相比,采用VMAF作為視頻質(zhì)量評價(jià)指標(biāo),在人眼感知質(zhì)量相當(dāng)?shù)那闆r下,視頻編碼碼率可以節(jié)約30%左右.因此,VMAF自推出以來就受到了工業(yè)界的廣泛關(guān)注.

雖然VMAF指標(biāo)比較符合用戶的主觀感知,但是現(xiàn)在的VMAF指標(biāo)是一種全參考的評價(jià)方法.在實(shí)際應(yīng)用中,人們往往很難獲取到原始視頻的信息.為此,本文提出了一種無參考的VMAF預(yù)測模型.該模型采用“幀級得分預(yù)測+時(shí)間池化聚合”的方式,分為兩階段進(jìn)行建模:1) 利用自建的數(shù)據(jù)集,建立了一種基于多模雙線性池化[4]的失真視頻幀級VMAF預(yù)測模型,用于對視頻幀的VMAF分?jǐn)?shù)進(jìn)行預(yù)測;2) 采用3種時(shí)間池化方法對預(yù)測的視頻幀VMAF分?jǐn)?shù)分別進(jìn)行聚合,構(gòu)成質(zhì)量特征向量,采用nu-支持向量回歸(nu support vector regression,NuSVR)的方法建立質(zhì)量特征向量與VMAF預(yù)測分?jǐn)?shù)之間的映射模型,用于對失真視頻的VMAF分?jǐn)?shù)進(jìn)行預(yù)測.實(shí)驗(yàn)結(jié)果表明,采用本文提出的無參考VMAF評價(jià)指標(biāo),無需原始視頻參考信息就可以對視頻質(zhì)量進(jìn)行準(zhǔn)確的評價(jià).

1 視頻質(zhì)量評價(jià)算法

目前視頻質(zhì)量評價(jià)建模普遍采用2種思路:

第1種是采用“時(shí)空特征提取+回歸”的思路.該類方法首先提取視頻的時(shí)空特征,然后采用SVR、深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)等方式建立特征參數(shù)與視頻得分之間的映射關(guān)系.文獻(xiàn)[5]在碼流域采用整數(shù)余弦變換(integer cosine transform,ICT)系數(shù)的統(tǒng)計(jì)信息表示視頻的空間紋理信息,采用運(yùn)動向量的統(tǒng)計(jì)信息表示視頻的時(shí)間復(fù)雜度,結(jié)合量化參數(shù)(quantization parameter,QP)形成特征向量,最后采用DNN的方法對特征向量進(jìn)行回歸,得到視頻打分預(yù)測模型.文獻(xiàn)[6]將相鄰幀的幀差圖在離散余弦變換(discrete cosine transform,DCT)域進(jìn)行統(tǒng)計(jì)分析,提取運(yùn)動一致性度量、全局運(yùn)動度量和視頻抖動特征,并采用自然圖像質(zhì)量評估(natural image quality evaluator,NIQE)[7]方法對圖像質(zhì)量進(jìn)行評估,作為對空間信息的一種補(bǔ)充特征,最后采用SVR的方法對特征進(jìn)行回歸.文獻(xiàn)[8]采用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)提取視頻的深度特征,設(shè)計(jì)了手工特征來表示視頻的清晰度變化,作為視頻的時(shí)間特征,最后采用DNN的方法進(jìn)行特征回歸.

第2種是采用“幀級得分預(yù)測+時(shí)間池化”的思路.該類方法通常采用圖像質(zhì)量評價(jià)(image quality assessment,IQA)方法預(yù)測每個(gè)視頻幀的打分,然后在時(shí)間維度上進(jìn)行池化聚合,得到視頻質(zhì)量打分模型.文獻(xiàn)[9]利用現(xiàn)有的深度無參考圖像質(zhì)量評估(deep blind image quality assessment,DeepBIQA)模型[10]學(xué)習(xí)視頻幀的時(shí)空視覺感知特征,得到視頻的單幀打分;然后利用卷積神經(jīng)聚合網(wǎng)絡(luò)(convolutional neural aggregation network,CNAN)學(xué)習(xí)每個(gè)視頻幀得分的權(quán)重,通過各幀得分的加權(quán)平均得到視頻的質(zhì)量打分.文獻(xiàn)[11]采用預(yù)訓(xùn)練的CNN模型提取視頻幀的空間特征,然后利用門控循環(huán)單元(gate recurrent unit,GRU)網(wǎng)絡(luò)學(xué)習(xí)視頻的長時(shí)間特征,進(jìn)而獲得視頻的各幀打分,最后采用時(shí)間池化[12]將視頻各幀分?jǐn)?shù)聚合為視頻質(zhì)量打分.

為了將視頻的幀級得分合并,得到視頻級得分,目前研究人員已經(jīng)提出多種時(shí)間池化策略.總的來說,目前的池化策略可以分為以下3種不同的類型:

1) 基于數(shù)值統(tǒng)計(jì)的時(shí)間池化方法.此類方法是最簡單有效的時(shí)間合并算法,在多個(gè)無參考VQA模型中得到廣泛使用.常見的有簡單平均池化(mean pooling,Mpooling)[13]、諧波均值池化[14]等等.以Q表示視頻級得分,N表示視頻的總幀數(shù),qn表示第n幀的幀分?jǐn)?shù),其中Mpooling的公式為

(1)

2) 考慮質(zhì)量較差的幀對視頻感知質(zhì)量的影響.此類方法以公認(rèn)的觀念為基礎(chǔ),著重強(qiáng)調(diào)時(shí)間維度質(zhì)量差的幀的影響.常見的有百分?jǐn)?shù)池化[15]和視頻質(zhì)量池化(video quality pooling,VQpooling)[16].其中VQpooling是一種自適應(yīng)的空間和時(shí)間池化策略.對于時(shí)間池化策略而言,其根據(jù)分?jǐn)?shù)采用k均值聚類將視頻幀分為高質(zhì)量GH和低質(zhì)量GL兩組,然后采用

(2)

合并得到視頻最終分?jǐn)?shù).式中:|GL|和|GH|分別是GL和GH的基數(shù);權(quán)重占比ω=(1-ML/MH)2,ML和MH分別是集合GL和GH中分?jǐn)?shù)的平均值.

3) 考慮記憶效應(yīng)對視頻感知質(zhì)量的影響.由于視頻的最終接受者是用戶,對于用戶記憶效應(yīng)的考慮也是感知質(zhì)量度量的重要方面.常見的有時(shí)間磁滯池化(temporal hysteresis pooling,THpooling)[12]、首因效應(yīng)和近因效應(yīng)[17].其中THpooling是受用戶對時(shí)變視頻質(zhì)量的判斷中觀察到的磁滯效應(yīng)啟發(fā)而來.將用戶在第n幀對過去的質(zhì)量的記憶ln表示為過去視頻幀分?jǐn)?shù)的最小值,即

(3)

式中κprev={max(1,n-τ),…,n-2,n-1}表示要考慮的視頻幀的索引,τ是一個(gè)超參數(shù).對于當(dāng)前的質(zhì)量記憶mn表示為

(4)

式中:κnext={n,n+1,…,min(n+τ,N)}表示要考慮的視頻幀索引;ωj表示高斯加權(quán)函數(shù)的下降部分;vj表示v=sort({qk},k∈Knext)的第j幀.最后,將記憶質(zhì)量與當(dāng)前質(zhì)量合并,得到包含磁滯效應(yīng)的實(shí)際質(zhì)量,并采用簡單平均池化得到視頻最終分?jǐn)?shù).

q′n=αmn+(1-α)ln

(5)

(6)

式中:q′n為包含磁滯效應(yīng)的第n幀的幀分?jǐn)?shù);α為超參數(shù),用于平衡當(dāng)前質(zhì)量和記憶質(zhì)量的權(quán)重.

時(shí)間池化策略可以有效地將視頻幀分?jǐn)?shù)聚合為視頻分?jǐn)?shù),但是現(xiàn)在常用的時(shí)間池化方法都只是針對某一種時(shí)間感知效應(yīng)所設(shè)計(jì)的.文獻(xiàn)[18]將多種池化方式結(jié)合起來使用,充分發(fā)揮各種池化方法的優(yōu)勢,取得了比單一時(shí)間池化方式更好的結(jié)果.

2 提出的無參考VMAF視頻質(zhì)量評價(jià)模型

本文采用“幀級得分預(yù)測+時(shí)間池化聚合”的方式建立無參考VMAF模型,整體結(jié)構(gòu)如圖1所示.建模過程包括2個(gè)核心部分:首先,采用一種基于多模雙線性池化的CNN結(jié)構(gòu),用于建立幀級的無參考VMAF評價(jià)模型,在無參考視頻信息的情況下,可以對失真視頻幀的VMAF分?jǐn)?shù)進(jìn)行預(yù)測;然后,采用3種不同的時(shí)間池化方法對失真視頻幀的VMAF預(yù)測分?jǐn)?shù)進(jìn)行聚合,得到視頻的質(zhì)量特征向量;最后,采用NuSVR對質(zhì)量特征向量進(jìn)行回歸,得到失真視頻的VMAF預(yù)測模型.下面將分別介紹2個(gè)部分的實(shí)現(xiàn)細(xì)節(jié).

圖1 提出的無參考VMAF預(yù)測模型整體框架Fig.1 Overall framework of proposed no-reference VMAF prediction model

2.1 失真視頻幀的VMAF打分預(yù)測模型

本文采用一種基于多模雙線性池化的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來建立幀級VMAF分?jǐn)?shù)預(yù)測模型,如圖1中步驟1所示.網(wǎng)絡(luò)的輸入是失真視頻幀,輸出則是該視頻幀的VMAF預(yù)測分?jǐn)?shù).通過訓(xùn)練該網(wǎng)絡(luò)可以建立失真視頻幀與該幀VMAF預(yù)測分?jǐn)?shù)之間的映射模型,從而在無需參考視頻信息的情況下,對失真視頻幀的VMAF分?jǐn)?shù)進(jìn)行預(yù)測.其中整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)包括VGG-16[19]和SCNN兩個(gè)CNN,2個(gè)網(wǎng)絡(luò)的層數(shù)分別是16層和14層.失真視頻幀分別被送入2個(gè)網(wǎng)絡(luò)中,將每個(gè)網(wǎng)絡(luò)最后一個(gè)卷積層的輸出特征提取出來,并將SCNN的輸出進(jìn)行上采樣到與VGG-16的輸出具有相同的尺寸,然后采用多模雙線性池化將2個(gè)特征進(jìn)行融合,作為失真視頻幀的深度特征.

假設(shè)采用VGG-16和SCNN提取的失真視頻幀I在位置l處的2個(gè)特征分別為fA(l,I)和fB(l,I),雙線性池化過程就是先把同一位置l處的2個(gè)特征進(jìn)行雙線性融合(相乘)后,得到矩陣

(7)

對所有位置的b(l,I)進(jìn)行Sum pooling操作,得到矩陣

(8)

最后把矩陣ξ(I)張成一個(gè)向量,表示為

x=vec(ξ(I))

(9)

對x進(jìn)行矩歸一化和L2歸一化操作,得到融合后的特征

(10)

z=y/‖y‖2

(11)

眾所周知,在處理復(fù)雜任務(wù)時(shí),DNN的層數(shù)越多,則往往性能越好,但這是以大規(guī)模的訓(xùn)練樣本數(shù)據(jù)作為支撐的.如果訓(xùn)練數(shù)據(jù)集的規(guī)模不足,在訓(xùn)練層數(shù)較多的DNN時(shí)常會出現(xiàn)過擬合現(xiàn)象,導(dǎo)致網(wǎng)絡(luò)性能難以令人滿意,而輕型CNN的結(jié)構(gòu)簡單,但是特征提取表達(dá)能力往往不足.

考慮到本文自建的數(shù)據(jù)集規(guī)模有限,本文采用一種基于多模雙線性池化的CNN結(jié)構(gòu),可以充分利用2個(gè)輕型CNN提取的特征,獲得更具表達(dá)能力的深度特征.雙線性池化融合后的特征z進(jìn)一步用于回歸操作,建立無參考VMAF模型.

本文采用“預(yù)訓(xùn)練+微調(diào)”的方式對網(wǎng)絡(luò)進(jìn)行訓(xùn)練.其中,VGG-16在ImageNet數(shù)據(jù)集[20]上進(jìn)行預(yù)訓(xùn)練,SCNN則采用Waterloo Exploration數(shù)據(jù)集[21]和PASCAL VOC數(shù)據(jù)集[22]合并的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練.SCNN的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.整個(gè)網(wǎng)絡(luò)共有14層,包括9個(gè)卷積層、1個(gè)池化層、3個(gè)全連接層和1個(gè)Softmax層,并且9個(gè)卷積層均使用了3×3的卷積核尺寸.

圖2 SCNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of SCNN network

為了對模型參數(shù)進(jìn)行微調(diào),本文采集了大量的數(shù)據(jù),自行建立了VMAF數(shù)據(jù)集.首先,利用失真視頻和相應(yīng)的原始參考視頻獲得各個(gè)失真視頻幀以及整個(gè)視頻的VMAF真實(shí)分?jǐn)?shù).然后,將失真視頻幀和相應(yīng)的VMAF真實(shí)分?jǐn)?shù)一一對應(yīng),作為一個(gè)訓(xùn)練樣本對,構(gòu)成訓(xùn)練數(shù)據(jù)集.利用該數(shù)據(jù)集對網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào),得到優(yōu)化后的網(wǎng)絡(luò)模型.

在對失真視頻幀進(jìn)行預(yù)測時(shí),將失真視頻幀輸入到訓(xùn)練好的網(wǎng)絡(luò)中,輸出即為該幀的VMAF預(yù)測分?jǐn)?shù).這樣,在無需參考視頻信息的情況下,就可以對失真視頻幀的VMAF分?jǐn)?shù)進(jìn)行預(yù)測,得到一種無參考的VMAF打分模型.

2.2 失真視頻的VMAF打分預(yù)測

現(xiàn)有的一些對于視頻幀分?jǐn)?shù)進(jìn)行時(shí)間池化的方法都是通過統(tǒng)計(jì)數(shù)據(jù)或先驗(yàn)知識驅(qū)動的,有多種實(shí)現(xiàn)方式,并且不同的方法可能會捕獲到視頻中包含的不同信息.比如:Mpooling用于對視頻幀的質(zhì)量進(jìn)行平均;VQpooling考慮了質(zhì)量比較差的視頻幀對視頻整體分?jǐn)?shù)的影響;THpooling則考慮的是用戶在觀看視頻時(shí)出現(xiàn)的磁滯效應(yīng)等.可以預(yù)期的是不同的池化方法具有不同的性能,在不同的數(shù)據(jù)集上的表現(xiàn)也會有所差異,不同的池化結(jié)果之間具有一定的互補(bǔ)性.因此,如圖1中步驟2所示,本文將各個(gè)失真視頻幀的VMAF預(yù)測分?jǐn)?shù)分別采用3種時(shí)間池化方法進(jìn)行聚合,將結(jié)果合并后形成一個(gè)質(zhì)量特征向量,然后利用NuSVR建立該特征向量與視頻VMAF分?jǐn)?shù)之間的回歸模型,用于對視頻的VMAF分?jǐn)?shù)進(jìn)行預(yù)測.

質(zhì)量特征向量的構(gòu)建可以表示為

F=C(q1,q2,q3)

(12)

式中:C表示concat級聯(lián)操作;q1、q2、q3分別表示采用不同時(shí)間池化方法對失真視頻幀進(jìn)行處理得到的結(jié)果.

Mpooling、VQpooling和THpooling分別針對視頻幀質(zhì)量的波動程度、較差的視頻幀對整體質(zhì)量的影響和用戶觀看視頻時(shí)出現(xiàn)的磁滯效應(yīng)等因素進(jìn)行表征,因此,F(xiàn)可以看作是對失真視頻的質(zhì)量進(jìn)行表達(dá).接下來,本文采用NuSVR建立質(zhì)量特征向量F和視頻VMAF預(yù)測分?jǐn)?shù)之間的回歸模型,用于對失真視頻的VMAF分?jǐn)?shù)進(jìn)行預(yù)測.

2.3 失真視頻幀的VMAF打分預(yù)測模型

NuSVR[23]是支持向量機(jī)(support vector machines,SVM)中的一種回歸模型.對于給定的失真視頻集合{(xi,yi),i=1,2,…,n},其中:n為失真視頻的數(shù)量;xi表示輸入的每個(gè)失真視頻的質(zhì)量特征向量;yi表示每個(gè)視頻的真實(shí)的VMAF分?jǐn)?shù).在實(shí)際操作中,NuSVR的優(yōu)化問題可以轉(zhuǎn)變?yōu)橐粋€(gè)拉格朗日函數(shù)的鞍點(diǎn)求解問題,具體表述為

(13)

式中:k(xi,xj)為徑向基核函數(shù);c為懲罰變量;v用于控制支持向量數(shù)量和訓(xùn)練誤差.上述問題的最優(yōu)解α、α*和相應(yīng)的偏置項(xiàng)b,可以用于預(yù)測視頻的VMAF分?jǐn)?shù).對于輸入的視頻質(zhì)量特征X,VMAF的預(yù)測分?jǐn)?shù)可以由

(14)

計(jì)算獲得.

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)集和性能評價(jià)指標(biāo)

為了驗(yàn)證所提出的無參考VMAF視頻質(zhì)量評價(jià)模型的有效性,本文在2個(gè)公開的視頻數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),即WaterlooSQoE-Ⅲ數(shù)據(jù)集[24]和LIVE-NFLX-Ⅱ數(shù)據(jù)集[25].WaterlooSQoE-Ⅲ數(shù)據(jù)集包含20個(gè)原始高質(zhì)量視頻,其內(nèi)容包括人物、植物、自然風(fēng)光等不同類型.這些視頻以11個(gè)固定碼率進(jìn)行編碼,在6種自適應(yīng)碼率算法和13種具有代表性的網(wǎng)絡(luò)環(huán)境下生成了450個(gè)失真視頻.LIVE-NFLX-Ⅱ數(shù)據(jù)集則包含紀(jì)錄片、動畫、游戲等15個(gè)不同類型的原始視頻.原始視頻根據(jù)內(nèi)容驅(qū)動的動態(tài)優(yōu)化器進(jìn)行碼率編碼,在4種客戶端碼率自適應(yīng)算法和7種不同移動網(wǎng)絡(luò)條件下生成了420個(gè)失真視頻.利用數(shù)據(jù)集中的失真視頻和原始參考視頻,分別計(jì)算各個(gè)視頻幀和視頻的VMAF真實(shí)分?jǐn)?shù),構(gòu)建VMAF數(shù)據(jù)集,用于進(jìn)行模型性能的驗(yàn)證.

為了評估模型的性能,采用2個(gè)評估指標(biāo):皮爾森線性相關(guān)系數(shù)(Pearson’s linear correlation coefficient,PLCC)和斯皮爾曼秩相關(guān)系數(shù)(Spearman rank-order correlation coefficient,SROCC).采用PLCC表示預(yù)測精度,采用SROCC評估預(yù)測單調(diào)性.2個(gè)指標(biāo)的數(shù)值越高,則表示模型的預(yù)測性能越好,具體的計(jì)算公式分別為

(15)

(16)

3.2 實(shí)驗(yàn)參數(shù)設(shè)置

本文方法包括失真視頻幀級VMAF分?jǐn)?shù)預(yù)測和視頻級VMAF分?jǐn)?shù)預(yù)測2個(gè)部分.2個(gè)部分訓(xùn)練時(shí)采用的參數(shù)如下:1) 在失真視頻幀級VMAF分?jǐn)?shù)預(yù)測階段,為了獲取更優(yōu)越的性能,本文采用自建的VMAF數(shù)據(jù)集對網(wǎng)絡(luò)進(jìn)行了微調(diào).在微調(diào)過程中,初始學(xué)習(xí)率設(shè)置為1×10-3,訓(xùn)練批次為64,迭代次數(shù)為50.2) 在視頻級VAMF分?jǐn)?shù)預(yù)測階段,為了訓(xùn)練NuSVR回歸模型,將失真視頻數(shù)據(jù)集隨機(jī)切分為2個(gè)子集,其中,80%用于訓(xùn)練,20%用于測試.采用了Mpooling、VQpooling和THpooling三種池化方法獲取視頻的質(zhì)量特征向量,用于建立無參考VMAF模型.

3.3 時(shí)間池化方法對模型性能的影響

為了研究不同的時(shí)間池化方法對建模精度的影響,本文分別對Mpooling、VQpooling和THpooling三種時(shí)間池化方法進(jìn)行了對比實(shí)驗(yàn),如表1所示,可以看出:

1) 對于3種時(shí)間池化方法來說,在2個(gè)數(shù)據(jù)集上,Mpooling均可以獲得最優(yōu)的性能,這與數(shù)據(jù)集中大多數(shù)視頻的質(zhì)量波動不太劇烈有關(guān).

2) 與采用單一的時(shí)間池化方法相比,采用3種時(shí)間池化方法相結(jié)合的方式可以獲得更優(yōu)的性能,這也說明3種池化方法結(jié)合起來可以實(shí)現(xiàn)信息互補(bǔ).

3) 3種池化方法的結(jié)果在WaterlooSQoE-Ⅲ數(shù)據(jù)集上的準(zhǔn)確度低于在LIVE-NFLX-Ⅱ數(shù)據(jù)集上的結(jié)果,其原因是WaterlooSQoE-Ⅲ數(shù)據(jù)集中視頻的失真模式更加復(fù)雜.

4) 首先,不同的時(shí)間池化方法會捕獲到視頻中包含的不同信息;其次,VSROCC衡量的是預(yù)測分?jǐn)?shù)和真實(shí)分?jǐn)?shù)的秩序相關(guān)性,并不表示預(yù)測的準(zhǔn)確度.在WaterlooSQoE-Ⅲ數(shù)據(jù)集上之所以采用Mpooling獲得的VSROCC略優(yōu)于合并模型,原因在于該數(shù)據(jù)集中的視頻失真模式復(fù)雜,視頻分?jǐn)?shù)分布范圍大,更容易預(yù)測視頻的秩序相關(guān)性,因此,可以獲得最高的VSROCC,此時(shí),在合并的模型中VQpooling和THpooling補(bǔ)充的信息不足以繼續(xù)提升預(yù)測結(jié)果的VSROCC,更多地是提升預(yù)測結(jié)果的準(zhǔn)確度VPLCC.可以看到,在2個(gè)數(shù)據(jù)集上合并模型的VSROCC相比于Mpooling分別提升了-0.01%和0.01%,而準(zhǔn)確度指標(biāo)VPLCC分別提升了2.01%和0.75%.

由表1可知,在3種池化方法中Mpooling可以獲得最優(yōu)的性能,這表明Mpooling適用于大多數(shù)情況.為了證明在合并模型中VQpooling和THpooling會對Mpooling方法有補(bǔ)充作用,給出了單獨(dú)采用3種時(shí)間池化方法在2個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,如圖3、4所示.可以看出,在失真視頻的真實(shí)VMAF分?jǐn)?shù)低于40時(shí),VQpooling或THpooling可以獲得比Mpooling更好的性能.這是由于在視頻質(zhì)量較差時(shí),VQpooling僅考慮了質(zhì)量較差的幀的影響,THpooling僅考慮了用戶觀看視頻時(shí)的記憶效應(yīng),而Mpooling則沒有對視頻中質(zhì)量較差幀的影響予以考慮.

表1 不同時(shí)間池化方法的性能比較Table 1 Performance comparison of different temporal pooling methods

圖3 3種池化方法在WaterlooSQoE-Ⅲ數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Fig.3 Experimental results of three pooling methods on the WaterlooSQoE-Ⅲ dataset

圖4 3種池化方法在LIVE-NFLX-Ⅱ數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Fig.4 Experimental results of three pooling methods on the LIVE-NFLX-Ⅱ dataset

3.4 不同建模方法的性能對比

為了驗(yàn)證不同建模方法對模型精度的影響,本文分別采用決策樹、NuSVR等8種淺層機(jī)器學(xué)習(xí)方法進(jìn)行建模,其中質(zhì)量特征向量是通過采用3種時(shí)間池化方法相結(jié)合的方式得到的.實(shí)驗(yàn)對比結(jié)果如表2所示.

由表2可以看出,在WaterlooSQoE-Ⅲ數(shù)據(jù)集上,采用NuSVR可以得到更優(yōu)的性能,而在LIVE-NFLX-Ⅱ數(shù)據(jù)集上,采用隨機(jī)森林進(jìn)行建模可以得到更優(yōu)的性能,這在一定程度上與2個(gè)數(shù)據(jù)集包含不同的失真模式相關(guān).折中考慮,本文選擇NuSVR作為建模方法.在WaterlooSQoE-Ⅲ數(shù)據(jù)集上VPLCC和VSROCC分別達(dá)到了91.11%、93.33%,在LIVE-NFLX-Ⅱ數(shù)據(jù)集上分別達(dá)到92.64%、91.33%.實(shí)驗(yàn)結(jié)果充分說明,本文提出的無參考VMAF模型可以獲得較高的預(yù)測精度.

表2 不同建模方法的模型精度對比Table 2 Comparison of model accuracy of different modeling methods

4 結(jié)論

1) 提出了一種基于“幀級得分預(yù)測+視頻級時(shí)間池化聚合”的無參考VMAF預(yù)測模型.首先,采用一種基于多模雙線性池化的CNN結(jié)構(gòu),用于對視頻幀的無參考VMAF得分進(jìn)行預(yù)測;然后,分別采用3種時(shí)間池化方法對視頻幀分?jǐn)?shù)進(jìn)行聚合,得到視頻的質(zhì)量特征向量;最后,采用NuSVR對質(zhì)量特征向量進(jìn)行回歸.

2) 在實(shí)際應(yīng)用中,由于很難獲取原始視頻的信息,而提出的模型不需要原始視頻信息就可以預(yù)測出視頻的VMAF分?jǐn)?shù),因此,具有重要的應(yīng)用價(jià)值.實(shí)驗(yàn)結(jié)果表明,本文提出的模型可以獲得較高的預(yù)測精度.

3) 在QoE建模過程中,視頻的質(zhì)量是一個(gè)重要的影響因素.因此,在下一步的工作中,將嘗試把無參考的VMAF模型應(yīng)用于QoE建模,進(jìn)而評估用戶觀看視頻的主觀感受體驗(yàn).

猜你喜歡
池化特征向量分?jǐn)?shù)
基于緊湊型雙線性網(wǎng)絡(luò)的野生茵識別方法研究
無線電工程(2024年8期)2024-09-16 00:00:00
基于Sobel算子的池化算法設(shè)計(jì)
二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
克羅內(nèi)克積的特征向量
卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
分?jǐn)?shù)的由來
無限循環(huán)小數(shù)化為分?jǐn)?shù)的反思
可怕的分?jǐn)?shù)
基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識別研究
一類特殊矩陣特征向量的求法
宝应县| 丁青县| 文山县| 泌阳县| 兰考县| 鹤岗市| 抚宁县| 斗六市| 宾阳县| 南皮县| 屏南县| 南岸区| 宽甸| 桐乡市| 揭西县| 托克逊县| 三亚市| 姚安县| 同心县| 泽普县| 延川县| 盐津县| 永川市| 蓬溪县| 犍为县| 台安县| 枣强县| 百色市| 富锦市| 东宁县| 大渡口区| 新干县| 克拉玛依市| 玉屏| 大关县| 徐水县| 西畴县| 海淀区| 金秀| 毕节市| 老河口市|