張新有 王元勛 邢煥來 王紅剛
?
基于對比敏感度的DASH客戶端碼率選擇算法研究
張新有*①王元勛①邢煥來①王紅剛②
①(西南交通大學信息科學與技術(shù)學院 成都 611756)②(ECE Department, University of Massachusetts, Dartmouth, MA 02747, USA)
基于帶寬估算的碼率選擇算法具有帶寬利用率高的優(yōu)點,但是同時也存在容易受網(wǎng)絡(luò)波動影響造成計算出的目標碼率出現(xiàn)瞬時峰值而造成帶寬浪費的問題。針對于此,該文提出一種基于人眼對比敏感度特征的碼率選擇算法,在客戶端利用人眼對比敏感度模型計算當前觀看條件下人眼截止空間頻率,選擇服務(wù)器中和截止空間頻率差的絕對值最小視頻分片對應(yīng)的碼率作為目標碼率。和基于帶寬估算選擇目標碼率的方法進行對比實驗,測試二者在不同視角內(nèi)計算的目標碼率,得到兩者的碼率計算結(jié)果階梯圖。實驗結(jié)果表明,在視角為5o到15o情況下,所提方法較帶寬估計方法在確保視頻效果前提下能夠有效節(jié)約帶寬。
對比敏感度;截止空間頻率;DASH(Dynamic Adaptive Streaming over Http);碼率選擇
采用HTTP作為視頻流傳輸協(xié)議的DASH (Dynamic Adaptive Streaming over Http)系統(tǒng)具有部署方便、容易穿越NAT的特點[1]。典型的DASH系統(tǒng)由服務(wù)器和客戶端組成。服務(wù)器提供不同碼率的視頻分片以及媒體信息描述文件(Media Presentation Description, MPD),客戶端通過MPD文件向服務(wù)器申請相應(yīng)碼率的視頻分片播放。碼率選擇是DASH系統(tǒng)的核心。怎樣在不降低用戶體驗的前提下選擇低碼率視頻分片,從而減少網(wǎng)絡(luò)帶寬占用一直是研究的熱點。
本篇文章組織如下:第2節(jié)給出了本文研究的相關(guān)概念;第3節(jié)提出使用CSF進行計算的理論依據(jù)和本文提出的具體方法,并進行相關(guān)公式的推導(dǎo);第4節(jié)給出了實驗條件和結(jié)果。論文的結(jié)論部分對本文方法進行了總結(jié),給出了一般結(jié)論,分析了存在的問題。
2.1 視覺空間頻率與對比度
在視覺研究中,空間頻率是指單位視角內(nèi)做正弦變化光柵的周期數(shù)(圖1),單位是周/度(cycles per degree, cpd)。式(1)給出了空間頻率的計算方法[9]。表示觀察者離光柵的距離,代表光柵的像素個數(shù),代表屏幕像素密度,單位是ppi(pixels per inch)。需要說明的是在實際應(yīng)用中很少直接采用此公式計算產(chǎn)生視覺刺激圖像的空間頻率,而是使用擬合的CSF數(shù)學模型進行計算,詳見3.3節(jié)。
圖1 空間頻率概念
人眼對于亮度強度變化的響應(yīng)是非線性的,人眼視覺系統(tǒng)的響應(yīng)更主要依賴于相對于背景亮度的局部變化,而不是絕對亮度值,在圖像研究中使用對比度來對這種亮度變化進行測量。在本文中,使用式(2)的Michelson的對比度計算公式[9]計算圖像的對比度。其中和分別表示產(chǎn)生視覺刺激圖像的最大亮度和最小亮度值。對比敏感度定義為恰可分辨最小對比度值的倒數(shù)。
2.2 CSF
對比敏感度隨空間頻率變化的曲線稱為CSF曲線,圖2顯示了Barten的CSF模型曲線??v軸表示對比敏感度,其值越大表明對人眼的視覺刺激效果越強。橫軸表示空間頻率,正常人在空間頻率為4cpd左右視覺刺激達到最高,60cpd左右時將不再產(chǎn)生視覺刺激。在取得最大對比敏感度值的空間頻率稱為人眼截止頻率,高于人眼截止頻率并不會增加觀察者的視覺效應(yīng)。
圖2 Barten CSF模型曲線
人眼截止頻率和觀看的客觀條件(例如:視角、光照)參數(shù)有關(guān),在不同的條件下人眼截止頻率不同。同樣地,對于不同碼率的視頻分片其視頻幀的空間頻率也不相同。因此,通過計算當前觀看環(huán)境下的人眼截止頻率和服務(wù)器中待選擇視頻分片的空間頻率的關(guān)系可以得到最適合當前條件下的視頻分片。
3.1 算法過程
圖3顯示了本文設(shè)計的客戶端進行目標碼率的計算過程??蛻舳送ㄟ^收集用戶當前的環(huán)境參數(shù)(光照、視角)計算出在此條件下的人眼截止頻率,和服務(wù)器中提前計算出的可選擇空間頻率進行比較,從而選擇出最適合當前觀看條件的視頻分片??紤]一個簡單的例子,假設(shè)MPD文件中可選擇視頻分片碼率包含4 Mbps和2 Mbps兩種并且通過帶寬估計方法計算的目標碼率為4 Mbps。若在當前觀看場景參數(shù)下計算出的人眼截止頻率為3.0 cpd, 4 Mbps和2 Mbps碼率的視頻分片計算出的空間頻率分別為2.68 cpd和2.83 cpd,按照選擇和3.0 cpd差的絕對值最小者作為目標碼率的原則,因此本文算法計算結(jié)果為2 Mbps。上述情景中,在產(chǎn)生相同的視覺效果的前提下本文方法申請低碼率的視頻分片節(jié)約了網(wǎng)絡(luò)帶寬。下文將詳細敘述客戶端各個算法模塊的工作過程。
圖3 客戶端碼率選擇過程
3.2 參數(shù)采集
通過使用客戶端的傳感器(例如攝像頭,距離傳感器等)可以得到用戶到客戶端顯示器的距離和客戶端的亮度信息。通過收集到的信息計算得出視角參數(shù),見式(3)。代表視角,是客戶端顯示器的寬度,為用戶到顯示器的距離。不推薦采用人眼跟蹤的方式進行視角計算,因為在增加客戶端的計算量同時降低了用戶使用體驗。
3.3 截止頻率計算
3.4待選擇頻率計算
文獻[6]中所有計算在服務(wù)器端完成,由于采用在線計算的視頻的空間頻率方式,因此當申請視頻流的客戶端數(shù)量增加,會給服務(wù)器帶來較大計算壓力。本文中采用在服務(wù)器端離線計算的方式計算視頻分片的空間頻率。MPD文件中[U2] ,供客戶端決策時使用。求取圖片的空間頻率的具體操作步驟如圖4所示。
圖4 計算視頻分片的空間頻率過程
在步驟(a)~步驟(b)中提取出視頻分片的第1幀圖片后將此圖片轉(zhuǎn)換到線性空間并提取亮度通道(例如LAB空間的L通道)。
在步驟(c)中計算每個像素的局部對比度,由于人眼視覺中存在偏心率,選用較大的區(qū)域會降低計算的準確度,因此本文中對于每個像素點采用5個像素的鄰域進行計算,在得到局部最大亮度值和最小亮度值后使用式(2)計算出此像素點的對比度。需要注意的是當對于對比度為0,表明此像素點局部的亮度信號是均勻的,對視覺并無激勵作用,將其舍棄。
步驟(d)中高斯低通濾波器能夠平滑可視區(qū)域,本文中使用的濾波器過濾模板選擇大小范圍在3~8, sigma在1.6~5之間。
步驟(e)~步驟(f)中,對比敏感度為過濾后的對比度的倒數(shù)。在求出對比敏感度后使用式(7)計算圖片的空間頻率[6],其中表示圖片中每個像素點的對比敏感度。
3.5 空間頻率選擇和碼率映射
4.1 DASH實驗系統(tǒng)和相關(guān)參數(shù)
為了驗證方法的有效性,本文搭建了最小DASH實驗系統(tǒng),如圖5所示。DASH視頻分片服務(wù)器用于提供不同碼率的視頻分片和MPD文件,使用HTTP 1.1協(xié)議進行分片傳輸。在產(chǎn)生分片前使用SVT標準測試序列[16]生成不同碼率和分辨率的視頻,具體參數(shù)見表1和表2。使用文獻[17]中開源DASH分片生成工具DASHEncoder產(chǎn)生視頻分片。根據(jù)文獻[15]設(shè)定視頻切片的時間間隔為3 s。在完成視頻切片后按照第3節(jié)所述計算出每個視頻分片的空間頻率作為待選擇頻率寫入到MPD文件中。
表1測試視頻序列使用的碼率和分辨率
碼率(Mbps)分辨率 1.20352×288 1.60640×360 2.00720×576 2.25960×540 4.501280×720 8.001920×1080
表2測試視頻序列
視頻序列名稱幀率格式 Sun Flower[16]25H264 Duck Take Off[16]25H264 Cross Old Town[16]25H264
使用文獻[18]提出的碼率切換算法和本文進行對比實驗。文獻[18]的方法中使用了“平滑”流量算法,見式(10)。是上一次下載分片時測得的帶寬,是在迭代過程中上一次估計的帶寬,為當前估計的帶寬。是權(quán)重值,代表對歷史流量估計的依賴程度,分為固定和變化權(quán)重兩種方式,本文采用后者。變化權(quán)重的方法中使用了函數(shù)來歸一化瞬時估計誤差以及過濾的值,和是函數(shù)的參數(shù),根據(jù)文獻[18],本文設(shè)置其值分別為,。
圖5 最小DASH實驗系統(tǒng)
4.2 實驗結(jié)果及分析
由式(6)計算出了在亮度為150 cd/m2的條件下,用戶觀看角度從5o到30o變化時截止頻率的變化,見圖6所示??梢钥闯觯S著用戶視角增加,截止頻率逐步減小,且在視角為15o左右減小的速率開始不斷降低。根據(jù)式(3)可知用戶視角和觀看距離以及屏幕大小有關(guān),本文中由于顯示屏幕的寬度固定,因此在圖6中,視角的增加代表用戶觀看距離的減小。由人眼視覺系統(tǒng)特性可知,人眼對于近處的物體分辨能力大于較遠物體,因此不需要太強的視覺刺激就可以產(chǎn)生相同的視覺效應(yīng)。隨著觀看距離的減少,所需要的亮度變化也逐漸減小,空間頻率也隨之降低。
圖7和圖8是本文方法和文獻[18]的方法(Bandwidth Estimate)播放表2中的3個測試序列的對比實驗結(jié)果,實驗中測試了每個視頻序列分別在網(wǎng)絡(luò)帶寬為4 Mbps和10 Mbps的表現(xiàn)。由圖7和圖8可以看出帶寬估計的方法其計算出的目標碼率大小基本保持在帶寬上限附近。這是因為帶寬估計的方法只與網(wǎng)絡(luò)的質(zhì)量有關(guān),由于測試的最小DASH系統(tǒng)處于局域網(wǎng)內(nèi)網(wǎng)絡(luò)波動較小,因此其值相對穩(wěn)定。對于基于本文方法,從單個測試視頻序列來看,隨著用戶視角不斷增加,客戶端申請的視頻碼率也逐漸增加,這是由于視角增加代表用戶與屏幕距離減小,用戶眼睛分辨能力增加,因此需要申請較高碼率的視頻流。在視角在[5o,15o]范圍內(nèi)時,本文的方法比基于帶寬估計的方法節(jié)省帶寬,因為此時用戶距離屏幕較遠,對于細節(jié)分辨能力較弱,不需要申請高碼率的視頻流就可以達到相應(yīng)的視覺效應(yīng)。但是需要注意的是,這種優(yōu)勢在用戶觀看視角達到15o左右將失去,由圖6可知,在用戶視角在15o左右時截止頻率減小速率降低,意味著在視角大于15o后截止頻率保持在高碼率視頻的頻率區(qū)間內(nèi),因此客戶端計算出的目標碼率基本落在此區(qū)間。從圖中可以看出在視角為15o時本文方法已經(jīng)不再具有節(jié)約帶寬的特點,這是因為本文計算目標碼率的方法和帶寬無關(guān),在不考慮帶寬上限的前提下目標碼率只與人眼的視覺特征有關(guān),因此在申請的碼率達到網(wǎng)絡(luò)帶寬上限后,目標碼率應(yīng)該由網(wǎng)絡(luò)帶寬來決定而不是人眼對比敏感度。
本文通過考慮客戶端觀看環(huán)境參數(shù)計算DASH系統(tǒng)的目標碼率。實驗證明此方法在用戶觀看視角范圍在[5o, 15o]時能夠不降低用戶觀看體驗的前提下,有效節(jié)約帶寬。但是由于沒有考慮網(wǎng)絡(luò)信道的實際容量,借助文獻[19]的思想,在確保用戶體驗質(zhì)量(QoE)情況下,當帶寬有限時,如何確保用戶視頻連續(xù)性和和視頻保真是下一步的研究方向。
圖6 亮度150 cd/m2下人眼截止頻率???圖7 4 Mbps帶寬下實驗對比結(jié)果???圖8 10 Mbps帶寬下實驗對比結(jié)果
[1] LUCA De Cicco and SAVERIO Mascolo. An adaptive video streaming control system: Modeling, validation and performance evaluation[J]./, 2013, 22(2): 526-539. doi: 10.1109/TNET.2013. 2253797.
[2] SAAMER A, NARAYaANASWAMY S, BEGEN A C,. An experimental evaluation of rate-adaptive video players[U5] HTTP[J].:, 2012, 27(4): 271-287. doi: 10.1016/j.image.2011.10.003.
[3] RAN Yongyi, SHI Youkang, YANG Enzhong,. Dynamic resource allocation for video transcoding with QoS guaranteeing in cloud-based DASH system[C]. IEEE GlobeCom Workshops, (GC Wkshps), Austin, 2014: 144-149.
[4] TIAN Guibin and LIU Yong. Towards agile and smooth video adaptation in dynamic HTTP streaming[J]., 2015, 9(11): 1-14.[U6] 10.1109/ TNET.2015.2464700.
[5] REZNIK Y A. User-adaptive mobile video streaming using MPEG-DASH[C]. SPIE Optical Engineering+Applications. International Society for Optics and Photonics, San Diego, 2013: 88560J-88560J-5.
[6] VANAM R and REZNIK Y A. Perceptual pre-processing filter for user-adaptive coding and delivery of visual information[C]. IEEE Picture Coding Symposium (PCS), San Jose, 2013: 426-429.
[7] VANAM R, KEROFAKY L J, and REZNIK Y A. Perceptual pre-processing filter for adaptive video on demand content delivery[C]. IEEE International Conference on Image Processing (ICIP), Paris, 2014: 2537-2541.
[8] CHEN Wei, MA Liangping, STERNBERG G,. User-aware DASH over Wi-Fi[C]. International Conference on Computing, Networking and Communications (ICNC), Garden Grove, 2015: 749-753.
[9] KEROFAKY L, VANAM R, and REZNIK Y. Adapting objective video quality metrics to ambient lighting[C]. Seventh International Workshop on Quality of Multimedia Experience (QoMEX), Pylos-Nestoras, 2015: 1-6.
[10] NILL N B. A visual model weighted cosine transform for image compression and quality assessment[J]., 1985, 33(6): 551-557. doi: 10.1109/TCOM. 985.1096337.
[11] SCHULZE T J. Procedure for calculating the resolution of electro-optical systems[C]. International Society for Optics and Photonics, San Diego-DL Tentative, 1990: 317-327.
[12] WU Yiyan and COLL D C. Multilevel block truncation coding using a minimax error criterion for high-fidelity compression of digital images[J]., 1993, 41(8): 1179-1191. doi: 10.1109/26. 231961.
[13] DALY S J. Visible differences predictor: an algorithm for the assessment of image fidelity[C]. SPIE/IS&T 1992 Symposium on Electronic Imaging: Science and Technology, Cambridge, MA, 1992: 2-15.
[14] BARTEN P G J. Formula for the contrast sensitivity of the human eye[J]., 2003, 5294: 231-238. doi: 10.1117/12. 537476.
[15] REZNIK Y A and VANAM R. Improving coding and delivery of video by exploiting the oblique effect[C]. IEEE Global Conference on Signal and Information Processing (GlobalSIP), Austin, 2013: 775-778.
[16] The SVT high definition multi format test set[EB/OL]. ftp://vqeg.its.bldrdoc.gov/HDTV/SVT Multiformat/.2006. 2.
[17] MUELLER C, LEDERER S, POECHER J,. Demo paper: Libdash-an open source software library for the mpeg-dash standard[C]. IEEE International Conference on Multimedia and Expo Workshops (ICMEW), San Jose, 2013: 1-2.
[18] THANG T C, HO Q D, KANG J W,. Adaptive streaming of audiovisual content using MPEG DASH[J]., 2012, 58(1): 78-85. doi: 10.1109/ TCE.2012.6170058.
[19] SEYEDEBRAHIMI M, PENG Xiaohong, and BAILEY C. Client QoE-oriented segment selection for DASH[C]. IEEE International Conference on Computer and Information Technology,Liverpool, 2015: 1663-1668.
Rate Selection Algorithm of DASH Client Based on Contrast Sensitivity
ZHANG Xinyou①WANG Yuanxun①XING Huanlai①WANG Honggang②
①(,,611756,)②(,,02747,)
One significant advantage of rate selection algorithms based on bandwidth estimation is the high bandwidth utilization rate. They are, however, vulnerable to network bandwidth fluctuations, leading to appearance of rate instantaneous peak value and hence wasting unnecessary bandwidth consumption. To tackle the problem above, this paper proposes a novel rate selection algorithm based on the contrast sensitivity of human eyes, where in the client eyes cutoff spatial frequency under the current viewing conditions is calculated by using the human contrast sensitivity model. The algorithm selects the rate of video fragment which has the minimum absolute difference value to the spatial frequency computed, stored in server as the target rate. Compared with those methods for calculating the target rate based on bandwidth estimation and testing target rate in different angles, the proposed method gets the ladder diagrams of rate calculation of both methods. Experimental results demonstrate that the proposed algorithm is able to save a considerable amount of bandwidth without the loss of video quality, with viewing angle from 5o to 15o.
Contrast sensitivity; Cutoff spatial frequency; Dynamic Adaptive Streaming over Http (DASH); Rate selection
TP391
A
1009-5896(2016)11-2826-06
10.11999/JEIT160150
2016-02-02;改回日期:2016-07-29;
2016-09-30
張新有xyzhang@swjtu.edu.cn
國家自然科學基金(61401374)
The National Natural Science Foundation of China (61401374)
張新有: 男,1971年生,副教授,主要研究方向為計算機網(wǎng)絡(luò)、MANET、嵌入式系統(tǒng).
王元勛: 男,1988年生,碩士生,研究方向為網(wǎng)絡(luò)應(yīng)用技術(shù)與嵌入式系統(tǒng).
邢煥來: 男,1984年生,副教授,主要研究方向為計算機網(wǎng)絡(luò)、SDN、無線網(wǎng)絡(luò).
王紅剛: 男,1974年生,副教授,主要研究方向為無線網(wǎng)絡(luò)、社交網(wǎng)絡(luò).