基于HTTP自適應流媒體傳輸?shù)?D視頻質(zhì)量評價

2020-01-02 09:08:12翟宇軒劉怡桑徐藝文陳忠輝房穎趙鐵松

北京航空航天大學學報 2019年12期

翟宇軒，劉怡桑，徐藝文，陳忠輝，房穎，趙鐵松

（福州大學物理與信息工程學院，福州350108）

近年來，網(wǎng)絡技術(shù)的發(fā)展推動了在線3D視頻服務的興起。相比于傳統(tǒng)的2D視頻，3D視頻即使進行了有效的壓縮其數(shù)據(jù)量仍然較大，而有限的網(wǎng)絡帶寬資源導致了3D視頻傳輸中的質(zhì)量波動，從而使得3D視頻網(wǎng)絡服務的用戶體驗質(zhì)量（Quality of Experience，QoE）［1］不高。因此，3D視頻的傳輸引入了基于HTTP的自適應流媒體（HTTP Adaptive Streaming，HAS）技術(shù)。HAS可以根據(jù)不同的網(wǎng)絡帶寬情況提供不同碼率的視頻，在避免卡頓的同時盡可能利用有限的帶寬提升視頻質(zhì)量，改善用戶體驗質(zhì)量。

由于3D視頻需要額外考慮視點間的碼率分配，3D視頻的HAS技術(shù)比傳統(tǒng)2D視頻的更加復雜。目前，針對3D視頻HAS的相關(guān)工作還比較少，文獻［2］提出了交互式多視點HAS的最優(yōu)傳輸策略來平衡編碼的失真和渲染合成失真，該算法同時考慮了視頻內(nèi)容特征和用戶交互度。文獻［3］利用軟件定義網(wǎng)絡（Software Defined Network，SDN）提出了基于視頻塊的流媒體傳輸框架，這個方案可以根據(jù)感興趣區(qū)域改善用戶體驗質(zhì)量。文獻［4］提出了一種基于HTTP動態(tài)自適應流媒體（Dynamic Adaptive Streaming over HTTP，DASH）的高效3D自適應流媒體服務方法，其能為用戶提供流暢的立體視頻。盡管上述工作已經(jīng)為3D流媒體應用提出了有效的方案，但是為了給用戶提供最佳的觀看體驗，評估不同流媒體自適應方案的用戶體驗質(zhì)量至關(guān)重要［5］。目前，對于基于HAS技術(shù)的3D視頻傳輸中的用戶體驗的研究越來越受到關(guān)注。QoE模型反映了客觀質(zhì)量與用戶體驗質(zhì)量之間的關(guān)系，可以極大地幫助3D HAS系統(tǒng)的設計和優(yōu)化。

文獻［6］發(fā)現(xiàn)相對于視頻質(zhì)量的瞬間急劇變化，視頻質(zhì)量由低到高緩慢變化時的用戶觀看體驗質(zhì)量更高?；谶@一特性，提出了一種適用于DASH的QoE自適應算法。文獻［7］通過分析2D視頻和3D視頻的自適應流媒體傳輸策略，發(fā)現(xiàn)由3D到2D的轉(zhuǎn)換可能是降低比特率的最佳選擇，而相反的由2D到3D的轉(zhuǎn)換并沒有明顯改善用戶的體驗質(zhì)量。雖然文獻［7］定性分析了3D視頻質(zhì)量切換對感知質(zhì)量的影響，但是仍然缺乏可以用于指導3D視頻傳輸時質(zhì)量切換的QoE的量化模型。另外，已有大量工作致力于3D圖像的客觀質(zhì)量評價［8-10］，這些評價算法可以準確反映3D內(nèi)容的感知質(zhì)量，但無法用于表達視頻質(zhì)量切換導致的QoE變化。

為了研究3D視頻傳輸過程中網(wǎng)絡質(zhì)量波動（Network Quality Fluctuation，NQF）對用戶體驗質(zhì)量的影響，本文設計了主觀實驗用于獲取用戶在NQF情況下觀看視頻的體驗質(zhì)量。主觀實驗特別考慮了單視點和雙視點的視頻質(zhì)量改變分別對3D視覺感知質(zhì)量的影響。最后，提出了一個基于卷積神經(jīng)網(wǎng)絡（Convolutional Neural Networks，CNN）的QoE模型，該模型體現(xiàn)了塊級客觀質(zhì)量與用戶對3D視頻的觀看體驗質(zhì)量的映射關(guān)系，可用于指導3D視頻自適應傳輸中的視點間碼率分配。

1 網(wǎng)絡質(zhì)量波動的影響

雙目立體3D視頻（Stereoscopic 3D video）通常包含左右2個視點，其所需的帶寬遠大于傳統(tǒng)的2D視頻。3D視頻的自適應傳輸在帶寬不足情況下會面臨視頻質(zhì)量的突降以及左右視點的比特率平衡等問題。本節(jié)通過主觀實驗來分析單視點和雙視點視覺質(zhì)量的改變對3D感知質(zhì)量的影響。文獻［11］表明，主視眼的不同對總體感知質(zhì)量的影響可忽略不計。因此，實驗中單視點的圖像質(zhì)量變化均基于左視點的圖像。

實驗總共使用了13個3D視頻序列，其中包括3MV-HEVC數(shù)據(jù)庫［12］中的CP（Carpark）、SK（Shark）、ST（Street）、GF（Gtfly）、KD（Kendo）、LB（Lovebird）、BN（Balloons）、BA（Bookarrival），以及數(shù)字音頻編解碼技術(shù)標準工作組（AVS）數(shù)據(jù)庫［13］中的 BM （Badminton）、JL （Jinli）、DB（Dubai）、AG（Asiangame）、WS（Wushu）。圖1為各個序列的截圖，表1為相應的空間信息（Spatial Information，SI）和時間信息（Temporal Information，TI）［14］。所有視頻序列時長為10 s，視頻質(zhì)量的變化發(fā)生在視頻序列第5 s末，即每個序列的前5 s和后5 s擁有不同的視頻質(zhì)量。為了避免引入由分辨率不同造成的體驗質(zhì)量差別，高分辨率視頻均采用了下采樣處理，所有序列的分辨率為1024×768，幀率為25幀/s。

NQF實驗按照4種比特率編碼視頻：

圖1 3D序列截圖［12-13］Fig.1 Snapshots of 3D sequences［12-13］

1）“全比特率”表示足夠的帶寬使得視點質(zhì)量近似原畫質(zhì)，視點比特率設置為1 000 kbit/s。

2）“高比特率”模擬網(wǎng)絡輕微阻塞時的視點比特率，設置為200 kbit/s。

3）“中比特率”模擬網(wǎng)絡遭受中等阻塞時的視點比特率，設置為100 kbit/s。

4）“低比特率”模擬網(wǎng)絡遭受嚴重阻塞時的視點比特率，設置為50 kbit/s。

由表2可知，模擬的NQF類型包含4種質(zhì)量的切換，分別為單視點質(zhì)量上升、雙視點質(zhì)量上升、單視點質(zhì)量下降和雙視點質(zhì)量下降。其中質(zhì)量上升和下降過程被細分為6種比特率變化：低到全、中到全、高到全；全到低、全到中、全到高。使用3D-HEVC標準參考軟件HTM 16.0作為編碼器，13個原始序列依據(jù)12種視頻質(zhì)量切換類型共生成156組3D測試序列。實驗中采用的觀看設備為華碩PG278 3D屏幕和NVIDIA 3D眼鏡。本次實驗共有34名受試者，包括23名男性和11名女性，年齡介于21～25歲。所有受試者都通過了視力測試并且在觀看3D視頻中沒有產(chǎn)生不適感。在主觀測試之前，受試者都已熟悉3D視頻顯示方式和實驗流程，并將顯示屏和眼鏡調(diào)整到舒適的位置。主觀測試遵循ITU-R BT.500［15］建議書推薦的單激勵（Single Stimulus，SS）方法和五級損傷量表［15］。在測試期間，所有NQF測試序列在隨機打亂順序后連續(xù)顯示，每個序列結(jié)束后都有5 s的間隔用于評分。

表1 測試數(shù)據(jù)集［12-13］Table 1 Test dataset［12-13］

表2 網(wǎng)絡質(zhì)量波動類型Table 2 Network quality fluctuation types

為了提高數(shù)據(jù)的可靠性，每個受試者的測試都引入重復序列。數(shù)據(jù)結(jié)果采用ITU-R BT.500建議書中的可靠性原則［15］來排除不可靠的分數(shù)。24名受試者對視頻質(zhì)量的評分值被保留至后續(xù)的數(shù)據(jù)分析。為了檢查選擇的樣本量是否足以產(chǎn)生穩(wěn)定的結(jié)果，以“數(shù)據(jù)飽和度”作為指導原則［16］。受試者人數(shù)上升導致的平均意見得分（Mean Opinion Score，MOS）數(shù)據(jù)飽和曲線如圖2所示，每個受試者對13個序列的主觀評分為an，選取m個受試者的主觀評分均值為

所有24個主觀評分均值為s，xm和s之間的皮爾森線性相關(guān)系數(shù)（Pearson Linear Correlation Coefficient，PLCC）隨著選取人數(shù)m增加而增大，“飽和值”出現(xiàn)在受試者人數(shù)達到20時，這表明本次實驗采用24個樣本值已足夠。

根據(jù)ITU-R BT.500建議書［15］，所有受試者的MOS表現(xiàn)了主觀評分等級。圖3給出了不同比特率切換時單目和雙目質(zhì)量波動的主觀評分。圖3（a）和（b）分別表示單視點和雙視點質(zhì)量上升的MOS值，可以看出，單視點質(zhì)量切換比雙視點質(zhì)量切換引起了更小的用戶體驗質(zhì)量下降；圖3（c）和（d）的比較同樣可以發(fā)現(xiàn)單視點質(zhì)量切換對體驗質(zhì)量的影響更小。該結(jié)果符合雙目視覺的掩蔽特性，當一個視點質(zhì)量不變，另一個視點質(zhì)量下降至一定范圍內(nèi)，人眼無法察覺到失真［17］。該結(jié)論已應用至3D視頻的非對稱編碼［18-19］來減少視覺冗余，也成為3D視頻非對稱碼率傳輸?shù)幕A［20］。

圖2 受試者人數(shù)上升導致的MOS數(shù)據(jù)飽和Fig.2 MOS data saturation caused by increased number of subjects

圖3 NQF主觀實驗結(jié)果Fig.3 Subjective experimental results of NQF

為了研究上升和下降2種視頻質(zhì)量切換的區(qū)別，表3顯示了同種類型質(zhì)量變化下所有13個視頻序列MOS的平均值。由表3可知，無論何種視頻質(zhì)量（低、中、高）和視點（單視點、雙視點），視頻質(zhì)量上升的評分總高于質(zhì)量下降的評分。原因是，在視頻質(zhì)量上升類型中，10 s序列的后5 s為高畫質(zhì)，短時記憶的影響使得受試者的最終評價分數(shù)更接近后出現(xiàn)的高畫質(zhì)的分數(shù)；同理，質(zhì)量下降類型中后出現(xiàn)的低畫質(zhì)降低了整體評分。這個現(xiàn)象是由于用戶體驗質(zhì)量會受到心理學中的近因效應影響，即前一時刻的體驗質(zhì)量會對之后一段時間內(nèi)的觀看體驗造成影響［21-22］。當用戶接受高質(zhì)量視頻時會產(chǎn)生更高視頻質(zhì)量的期望，因此視頻質(zhì)量的下降會使得用戶更加沮喪，加速用戶體驗質(zhì)量的下降；相反，觀看低質(zhì)量視頻的用戶則對視頻質(zhì)量的上升更加敏感，提高了體驗質(zhì)量的評分。本文主觀實驗中，視頻質(zhì)量的上升和下降2種切換表現(xiàn)出了不同體驗質(zhì)量評分，這一結(jié)果與現(xiàn)有時變視頻質(zhì)量研究［21-22］一致。這說明在3D視頻自適應傳輸策略方面：帶寬受限時，視頻質(zhì)量可以避免出現(xiàn)突然劇烈的下降；帶寬充足時，可以快速提升視頻的質(zhì)量。

表3 視頻質(zhì)量波動類型的MOS均值Table 3 Average MOS of video quality fluctuation types

2 3D QoE模型

目前，主觀測試雖然是衡量用戶體驗質(zhì)量的最可靠方法，但存在高成本，低速度和無法進行實時評估等缺點。客觀QoE模型是一種獲得近似主觀評分的低成本方法。利用第1節(jié)方法所獲得的視頻主觀質(zhì)量數(shù)據(jù)庫及CNN構(gòu)建了3D視頻的客觀QoE模型。將3D測試序列和原始序列的每一幀劃分為64×64子塊，并計算左右視圖中測試序列的子塊與相對應原始序列的子塊的結(jié)構(gòu)相似性（Structural Similarity，SSIM）［23-24］，左右視點所有幀的塊級SSIM分別表示為ql和qr。所得到的ql和qr輸入到CNN網(wǎng)絡中預測用戶的體驗質(zhì)量值。因此，本文提出的QoE模型為

式中：Q表示用戶體驗質(zhì)量的預測值，預測函數(shù)基于CNN完成。

如圖4所示，本文設計的CNN模型由2層卷積層和2層全連接層組成。卷積核的大小分別設置為5×5、3×3。圖中：M 和N分別為視頻的寬和高，K為視頻幀數(shù)。輸入為測試序列的塊級SSIM，輸出為用戶體驗質(zhì)量的預測值Q。在網(wǎng)絡訓練過程中，從156組3D 測試序列中隨機選取141個樣本作為訓練集，用于訓練并驗證MOS和3D視頻內(nèi)容的塊級SSIM 之間的關(guān)系，剩余15個樣本作為測試集用作最后的測試。

在圖像視頻質(zhì)量評價中，通常通過斯皮爾曼秩相關(guān)系數(shù)（Spearman Rank Order Correlation Coefficient，SROCC）、肯德爾秩相關(guān)系數(shù)（Kendall Rank Order Correlation Coefficient，KROCC）、PLCC來評價所提模型的性能。其相關(guān)系數(shù)能夠用于反映客觀質(zhì)量評價與主觀MOS值的相關(guān)程度，值越接近于1，則說明模型的性能越好。由表4可知，測試集中所有序列的主觀評價MOS值與模型預測值之間的SROCC、KROCC、PLCC分別為0.927、0.775、0.906，評估結(jié)果說明基于CNN的QoE模型能夠較好地預測用戶體驗質(zhì)量。

由于缺少同類型數(shù)據(jù)庫和模型進行比較，本文設置了3組對比實驗：①將每個視頻序列的2個視點PSNR的平均值作為預測QoE；②將每個視頻序列的2個視點SSIM 的平均值作為預測QoE；③采用文獻［10］的3D質(zhì)量評價算法。實驗測試使用了同樣配置的電腦（Intel Core i5-7500，8GB RAM，Windows 10 64-bit）。實驗結(jié)果如表4所示，可以看出，SSIM、PSNR無法很好地反映用戶體驗質(zhì)量，文獻［10］的3D質(zhì)量評價算法在本文的數(shù)據(jù)庫上表現(xiàn)同樣不佳，但優(yōu)于PSNR、SSIM，這是由于3D質(zhì)量評價方法針對于評價3D立體圖像和視頻的壓縮失真，考慮了圖像失真類型和人眼雙目視覺特性而沒有考慮真實傳輸過程中的視頻質(zhì)量的變化。本文還記錄了不同算法測試一個10 s序列的運行時間，本文模型需要計算塊級SSIM，導致運行時間大于直接計算3D視頻的PSNR、SSIM，但是性能遠好于其他3種方法。

圖4 3D QoE模型框架Fig.4 Framework of 3D QoE model

表4 QoE模型和其他方法的性能比較Table 4 Comparison of performance between QoE model and other methods

3 結(jié) 論

本文研究了3D自適應流媒體應用中的用戶體驗質(zhì)量，并設計了網(wǎng)絡帶寬不穩(wěn)定情況下的3D視頻質(zhì)量變化的主觀實驗。

實驗結(jié)果表明受試者對單視點質(zhì)量變化不敏感，并且視頻質(zhì)量上升狀態(tài)的用戶體驗質(zhì)量更高。通過訓練主觀評分數(shù)據(jù)，本文建立了基于CNN的QoE模型用于評估3D視頻在自適應傳輸中的用戶體驗質(zhì)量。該模型提供了高精度的QoE預測值，可用于改進3D自適應傳輸和平衡3D視頻傳輸中兩視點間比特率。在流媒體視頻服務中，代理服務器可以根據(jù)該模型預測得到的QoE為用戶提供不同碼率的3D視頻，從而有效分配網(wǎng)絡帶寬資源。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于HTTP自適應流媒體傳輸?shù)?D視頻質(zhì)量評價

1 網(wǎng)絡質(zhì)量波動的影響

2 3D QoE模型

3 結(jié) 論