沈宇翔 王俊義 林基明
視頻會議技術的挑戰(zhàn)及解決方法
沈宇翔 王俊義 林基明
(桂林電子科技大學信息與通信學院,廣西 桂林 541004)
對于位于多個不同地點的人們來說,視頻會議是溝通交流的首選方法之一。隨著軟件技術的發(fā)展,中小企業(yè)以及個人用戶都得以使用基于個人電腦和共享線路的低成本視頻會議服務。此時用戶接收設備和網絡環(huán)境的異構性就成為了亟待解決的問題。文章首先簡單介紹了視頻會議系統(tǒng)的構成,然后闡述了視頻會議技術所面臨的難題及其解決方法。
視頻會議;網絡編碼;視頻編碼;資源分配
隨著信息技術的發(fā)展,網絡通信經歷了從(電子郵件)到實時通信(即時通信軟件)的發(fā)展。而自從2000年iChat、Skype以及騰訊QQ陸續(xù)推出視頻通話功能以來,視頻通話迅速成為一種非常流行的在線通信方式。近年來,這些即時通信軟件進一步推出了多人視頻和群視頻功能。
相較于需要專業(yè)視頻編解碼設備、專用線路和會議室的傳統(tǒng)商業(yè)視頻會議,即時通訊軟件提供的多人視頻服務只需要個人電腦甚至移動智能設備以及共享線路。因此,使用即時通訊軟件進行視頻會議可以使小公司和自由職業(yè)者節(jié)省大量硬件設備方面的開支。
與此同時,由于接收設備的處理能力各有不同,接收者所擁有的上下行網絡帶寬也千差萬別,從而接收者的異構性成為了設計視頻編碼以及視頻傳輸優(yōu)化所需要考慮的問題之一。再者,由于視頻會議參與人數較多,視頻傳輸對帶寬的高需求問題在視頻會議中更加突出。高清視頻通話則需要更高的帶寬,例如Skype提供的高清視頻通話通常需要900kb/s的帶寬[1],于是,如何減少高清視頻會議對帶寬的需求也成為了研究的重點之一。此外,視頻會議的實時性還要求網絡延遲處于一個可容忍的范圍內,不僅如此,用戶網絡環(huán)境的異構性還可能會導致各位用戶相互之間網絡延遲的不對稱性,這是延遲控制和用戶體驗設計所不能忽視的問題。
近年來隨著網絡技術和視頻技術的發(fā)展,使得帶寬需求可以通過使用網絡編碼這類的技術得到緩解,而異構接收者的問題可以通過引入可伸縮視頻編碼得以解決。本文詳細闡述了視頻會議編碼與傳輸過程中所需要面對的問題,以及解決這些問題的相關技術在視頻傳輸和視頻會議中的研究現狀。
視頻會議系統(tǒng)由用戶界面、會議管理模塊、信令模塊以及多媒體模塊構成,如圖1所示。
(1)在視頻會議系統(tǒng)中,用戶可以使用用戶界面來設置、發(fā)起、管理一個視頻會議,系統(tǒng)管理員還可以通過用戶界面來控制其他三個模塊。電腦端的用戶界面一般是圖形界面,而移動端的用戶界面除了圖形界面,也可以考慮使用語音控制來進行人機交互。
(2)會議管理模塊主要與用戶界面協(xié)同工作以實現計劃、開啟會議,以及管理會議用戶的加入與退出等功能。
(3)信令模塊主要由一系列協(xié)議棧組成,其中通常包含會話初始協(xié)議(SIP)和H.323等協(xié)議棧,這些協(xié)議棧用于實現會話的創(chuàng)建、修改和釋放功能,和視頻會議的多媒體傳輸和控制功能,以及帶寬控制等功能。
該模塊通常包含多點控制單元(MCU),它用于橋接來自數個不同信源的呼叫。MCU由兩種邏輯組件構成:單一的多點控制器(MC)和多點處理器(MP,或稱為混合器)。多點控制器用于協(xié)商網絡中每一個終端的參數設置,以及控制視頻會議過程所消耗的資源。多點處理器則處理來自每一個終端的音頻流和視頻流,再將其發(fā)送給參與視頻會議的其他終端。
也有不適用多點控制單元的視頻會議系統(tǒng),這樣的系統(tǒng)使用一種基于H.323協(xié)議的“去中心化多點”技術,其每一個節(jié)點都直接與其他節(jié)點交換音頻流和視頻流。這種系統(tǒng)的優(yōu)點在于:由于沒有中心節(jié)點,因此一般不會出現鏈路容量瓶頸問題,從而便于傳輸高質量的視頻流和音頻流。但也會消耗更多的網絡帶寬資源。
(4)多媒體模塊負責視頻流和音頻流的編碼解碼與合成工作,以及管理實時傳輸協(xié)議(RTP)、用戶數據報協(xié)議(UDP)和RTP控制協(xié)議(RTCP)。
筆者將主要從多媒體模塊的視頻編碼和信令模塊的傳輸控制來闡述視頻會議系統(tǒng)的優(yōu)化。
圖1 視頻會議系統(tǒng)的構成
在本小節(jié)中,筆者將介紹幾種視頻編碼以及它們各自應用于視頻會議時的優(yōu)缺點。
3.1H.264/AVC
H.264/AVC標準完成于2003年,它是目前使用最廣泛的視頻編碼格式之一。其特點是具有很高的數據壓縮比率,H.264/AVC與之前的視頻編碼格式(例如MPEG-2和H.263等)相比,它能以后者一半或更低的比特率提供相同質量的視頻圖像。
H.264/AVC的關鍵技術特點之一是使用了多幀的幀間預測。它最多可以使用之前的5幀作為參考幀來進行幀間編碼,遠多于其之前的視頻編碼格式所允許的參考幀數量,從而獲得更好的糾錯性能和可擴展性。并且使用了宏塊大小可變的運動補償,最多支持7種大小的宏塊分割模式,以獲得對運動區(qū)域更精確的圖像分割,從而提高了圖片質量。
然而這些性能改進是以增加計算復雜度為代價的。在應用于視頻會議時,通過對其運動估計的算法進行優(yōu)化,可以極大幅度地降低視頻編碼所需要的時間,使其在對延遲敏感的視頻會議應用中達到更好的性能[2]。
3.2HEVC
HEVC標準推出于2013年,在大多數方面,它都是H.264/AVC所具有的特點的擴展。它以更高的計算復雜度為代價,進一步提高了編碼效率,在提供與H.264/AVC格式相同質量的視頻圖像時,它所需要的碼率只有后者的一半。此外相較于H.264/AVC格式,其關鍵特點還在于支持更高的視頻分辨率以及提高了并行處理方法。
由于同樣具有幀間編碼的運動預測功能,考慮到在視頻會議場景中,由于攝像機位置通常都是固定的,因此在每一幀圖片中,用戶的背景圖像通常也是相同的,從而可以在第一幀或一個隨機訪問點的第一幀中將背景信息提取出來進行建模,以優(yōu)化HEVC的分層預測,獲得更高的編碼效率和更低的編碼復雜度[3]。
3.3H.264/SVC
H.264/AVC格式由于其性能優(yōu)越,在其第一版標準完成之后,還推出了多種擴展版本。2007年推出的H.264/SVC格式就是其中的一種擴展版本。這種視頻編碼格式對視頻進行編碼后得到一個基礎視頻層和數個增強視頻層,接收并解碼基礎層后可以得到最低質量的視頻圖像;在此基礎上,根據用戶設備的處理能力和用戶的網絡帶寬資源情況,依次接收一個或數個增強層可以獲得更高質量的視頻圖像。因此使用H.264/SVC格式得到的視頻流能很好地應對接收者設備和網絡的異構性[4]。
H.264/SVC根據其輸出視頻流的分級方式的不同,可分為時域可分級、空域可分級和質量可分級,分別提供不同幀率、分辨率和質量的視頻流。興趣域可分級是一種質量可分級的編碼方式,它根據用戶的需求,將視頻圖像分為用戶感興趣的區(qū)域(興趣域)和背景圖像兩部分,對背景圖像只輸出低質量的視頻流,并對興趣域部分的圖像進行分級編碼。在視頻會議中,用戶通常只對其他與會人員感興趣,因此非常適合使用興趣域可分級的H.264/SVC格式[5]。
在本小節(jié)中,筆者將探討視頻傳輸過程中所要面對的難題,以及這些領域內的研究現狀。
4.1帶寬需求
即使使用了高壓縮比率的視頻編碼,高清視頻會議依然需要消耗大量的網絡帶寬資源。為了降低網絡負擔并控制擁塞,可以在視頻的傳輸過程中,采用一些技術來降低視頻會議對整個網絡資源的占用率。
網絡編碼技術概念的提出,使中間節(jié)點除了具有傳統(tǒng)的存儲轉發(fā)功能,還具有對數據包的處理功能。它將兩個或數個數據包通過異或運算合并成為一個數據包再進行轉發(fā),從而極大地減少對鏈路帶寬的消耗,能突破鏈路帶寬容量的瓶頸,獲得更大的網絡吞吐量。
當融合的數據包來自于相同的SVC視頻層時,稱之為層內網絡編碼[6];而當融合的數據包來自于不同的SVC視頻層時,則是層間網絡編碼[7]。層間網絡編碼的設計比層內網絡編碼更具有挑戰(zhàn)性,但在多數情況下,使用層間網絡編碼方案所取得效果至少不遜于使用層內網絡編碼方案。而如果是在無線網絡環(huán)境下,由于無線網絡具有廣播的特性,還可以對來源于不同會話的數據包進行會話間網絡編碼[8,9]。此外,在視頻會議場景中,由于很多節(jié)點之間都存在雙向鏈路同時傳輸信息,其數據包的傳輸路徑比單會話的有向網絡更容易形成環(huán)形路徑,因此也可以考慮采用適用于環(huán)形路徑的網絡編碼[10,11]。
4.2延遲需求
在視頻會議中,若端到端的單向延遲超過350ms,用戶體驗就會顯著降低[1]。提供即時通訊服務的公司一般通過在多處地點開設服務器來減少視頻數據包中繼的次數,從而達到降低傳輸延遲的目的。對于在無線異構網絡中傳輸的高清視頻流,首先將視頻幀分割為更小的子幀,再通過最優(yōu)化算法進行傳輸調度,以最小化總的傳輸延遲[12]。在滿足延遲要求的基礎上,可以通過傳輸調度的方式最優(yōu)化所有用戶獲得的平均視頻質量[13]。另一方面,視頻會議異構用戶間的非對稱延遲也不會對用戶體驗造成顯著的影響[14]。
4.3魯棒性
在考慮異構接收者需求的情況下一般會采用H.264/SVC視頻編碼,根據其分級的特點,可以通過幀間預測的方式降低丟包對視頻質量的影響[15,16]。此外,還有另一種差錯恢復方法:在視頻編碼時引入冗余圖像,并把冗余圖像信息與SVC視頻流一起發(fā)送至網關;網關則根據冗余圖像信息和當前的網絡狀態(tài),決定接收更多的增強層或減少接收的增強層數量;最后在解碼器采用維納濾波和Virtual-BLSkip技術對丟失的增強層數據包進行差錯掩蓋、優(yōu)化視頻圖像模糊的部分,從而得到更高信噪比的視頻圖像[17]。
隨著移動智能設備的性能越來越好,使用移動智能設備參與視頻會議也成為了可能。雖然如此,相較于個人電腦,移動智能設備的計算能力還是較弱,而且移動智能設備往往還需要額外考慮電池的電量消耗和網絡流量消耗。
MEDIEVAL是第一個整合了真實LTE平臺的、以用戶體驗為目標的SVC視頻流原型測試平臺?;谶@個平臺,可以很好地設計與測試適用于移動智能設備的傳輸調度算法,以獲得更好的用戶體驗[18]。
移動智能設備通常使用無線網絡進行通信,而無線網絡存在不穩(wěn)定性,其鏈路容量時常會上下波動。因此,當檢測到鏈路狀態(tài)變差的時候,可以適當降低視頻質量來獲取穩(wěn)定的通信,而鏈路狀態(tài)變好的時候則可以請求更高質量的視頻通話[19]。
近年來云技術的出現也為移動智能設備應用的發(fā)展帶來了新的突破。云計算和云存儲技術允許用戶和公司通過第三方數據中心所提供的各種資源來計算和存儲數據。移動設備通過無線網絡以及互聯(lián)網接入云端后,可以將移動設備無法處理或處理代價過高的移動應用轉移到云端服務器,利用云端資源執(zhí)行計算任務,從而拓展了移動設備的計算或存儲能力。因此,借助云計算優(yōu)化移動視頻傳輸、以獲取更好的視頻會議用戶體驗也是一種非常有研究價值的方案[20]。
隨著基于個人電腦和移動智能設備的視頻會議的出現,這種非常高效的多人即時通話服務得到了廣泛的應用,而用戶的設備和網絡異構性成為了新的研究熱點。本文首先簡單介紹了視頻會議系統(tǒng)的構成,隨后闡述了視頻會議在視頻編碼和視頻傳輸過程中需要面對的難題以及研究現狀。最后描述了近年來出現的新技術及其對視頻會議發(fā)展的影響。
[1] XU YANG,YU CHENGUANG,LI JINGJIANG,et al.Video Telephony for End-Consumers:Measurement Study of Google+,iChat,and Skype[J].IEEE/ACM Transactions on Networking,2014,22(3):826-839.
[2] LUO RONG,CHEN BIN. Optimization of Motion Estimation in H.264/AVC Encoder for Video Conference Application[C]. International Conference on Communi- cations, Circuits and Systems, 2009. Milpitas, CA: IEEE, 2009:537-539.
[3] ZHANG XIANGUO, TIAN YONGHONG,HUANG TIEJUN,et al.Optimizing the Hierarchical Prediction and Coding in HEVC for Surveillance and Conference Videos With Background Modeling[J].IEEE Transactions on Image Processing,2014,23(10):4511-4526.
[4] GROIS DAN,HADAR OFER, OHAYORR RONY,et al.Live Video Streaming with Adaptive Pre-Processing by Using Scalable Video Coding[C].2013 IEEE International Conference on Consumer Electronics. Las Vegas,NV: IEEE,2013:588-589.
[5] GROIS DAN, KAMINSKY EVGENY, HADAR OFER. Adaptive Bit-Rate Control for Region-of-Interest Scalable Video Coding[C].2010 IEEE 26th Convention of Electrical and Electronics Engineers in Israel.Eliat: IEEE,2010:000761-000765.
[6] ZOU JUNNI,XIONG HONGKAI,LI CHENGLIN,et al. Prioritized Flow Optimization with Multi-Path and Network Coding Based Routing for Scalable Multirate Multicasting[J].IEEE Trans.on Circuits and Systems for Video Technology,2011,21(3):259-273.
[7] SHAO MINGKAI,DUMITRESCU SORINA,WU XIAOLIN. Layered multicast with inter-layer network coding for multimedia streaming[J].IEEE Trans.on Multimedia,2011,13(2):353-365.
[8] SEFEROGLU HULYA,MARKOPOULOU ATHINA,RAMAKRISHNAN K K. I2NC: Intra- and Inter-Session Network Coding for Unicast Flows in Wireless Networks[C].IEEE INFOCOM 2011.Shanghai:IEEE,2011:1035-1043.
[9] YANG DU,BACHMATIUK JOANNA,MUMTAZ SHAHID,et al. Symmetric Video Multicast over Multihop Wireless Network Using Inter-/Intra-Session Network Coding[C]. Globecom 2013 Workshop.Atlanta,GA:IEEE,2013:1139-1144.
[10] EREZ ELONA, FEDER MEIR. Efficient Network Code Design for Cyclic Networks[J].IEEE Transactions on Information Theory,2010,56(8):3862-3878.
[11] WANG LIANG, HUANG JIAQING,LI HUI.Applying Network Coding to Cyclic Networks[C].INFOCOM 2009 Workshops.Rio de Janeiro: IEEE,2009:1-2.
[12] WU JIYAN,YANG JINGQI,WU XIAOKUN,et al. A Low Latency Scheduling Approach for High Definition Video Streaming over Heterogeneous Wireless Networks[C]. Globecom 2013 Workshop.Atlanta,GA:IEEE,2013:1723-1729.
[13] KHALEK AMIN ABDEL,CARAMANIS CONSTANTINE,HEATH ROBERT W.Delay-Constrained Video Transmission:Quality-Driven Resource Allocation and Scheduling[J]. IEEE Journal of Selected Topics in Signal Processing,2015,9(1):60-75.
[14] SCHMITT MARWIN,GUNKEL SIMON,CESAR PABLO,et al.Asymmetric delay in video-mediated group discussions[C].2014 Sixth International Workshop on Quality of Multimedia Experience (QoMEX). Singapore:IEEE,2014:19-24.
[15] TANG SIYU, ALFACE PATRICE RONDAO. Impact of Random and Burst Packet Losses on H.264 Scalable Video Coding[J].IEEE Transactions on Multimedia,2014,16(8):2256-2269.
[16] WIEN MATHIAS,CAZOULAT RENAUD, GRAFFUNDER ANDREAS, et al.Real-Time System for Adaptive Video Streaming Based on SVC[J]. IEEE Transactions on Circuits and Systems for Video Technology,2007,17(9):1227-1237.
[17] ZHANG DONG,LI HOUQIANG,CHEN CHANG WEN. Robust Transmission of Scalable Video Coding Bitstream over Heterogeneous Networks[J].IEEE Transactions on Circuits and Systems for Video Technology,2015,25(2):300-313.
[18] FU BO,KUNZMANN GERALD,WETTERWALD MICHELLE,et al. QoE-aware Traffic Management for Mobile Video Delivery[C]. 2013 IEEE International Conference on Communications Workshops (ICC).Budapest:IEEE,2013:652-656.
[19] LI XIN,GUAN JIANFENG,ZHANG HONGKE. Distortion Optimized Mobile Multiparty Video Conferencing[C]. 2009 International Conference on Communications and Mobile Computing. Yunnan:IEEE,2009:95-101.
[20] FENG YUAN,LI BAOCHUN,LI BO.Airlift:Video Conferencing as a Cloud Service using Inter-Datacenter Networks[C]. 2012 20th IEEE International Conference on Network Protocols (ICNP). Austin,TX:IEEE,2012:1-11.
The challenges and solutions of video conferencing technology
Video conferencing is one of the most popular choices for geographically distributed people to communicate with each other. With the development of software technology, minor enterprises and individual user could use personal computer and shared links-based video conferencing service at very low cost. Hence the heterogeneity of user device and user network environment becomes the most important problem. First the system of video conferencing is briefly introduced, then the challenges and solutions of video conferencing are carefully discussed.
Video conferencing; network coding; video coding; resource allocation
TN92
A
1008-1151(2016)02-0008-04
2016-01-10
國家自然科學基金(61261017,61571143);廣西自然科學基金(2013GXNSFAA019334);廣西信息科學實驗中心經費資助;廣西無線寬帶通信與信號處理重點實驗室開發(fā)基金(GXKL0614202,GXKL0614101);桂林電子科技大學研究生科研創(chuàng)新項目(YJCXS201523)。
沈宇翔(1987-),男,桂林電子科技大學在讀研究生,研究方向為視頻流傳輸優(yōu)化。