, , , , , ,
(云南大學(xué) 信息學(xué)院 云南 昆明 650504)
隨著互聯(lián)網(wǎng)產(chǎn)業(yè)的飛速發(fā)展,語(yǔ)音、圖片、視頻等各種多媒體類型的文件應(yīng)用越來越廣泛,其中數(shù)字視頻通信成為人們關(guān)注的焦點(diǎn),在多媒體通信應(yīng)用中占據(jù)重要位置.為了解決其存儲(chǔ)和傳輸占用的寬帶資源,國(guó)際電信聯(lián)盟及國(guó)際標(biāo)準(zhǔn)化組織制定了H.261、H.263、H.264、H.265、MPEG-1、MPEG-2、MPEG-4、MPEG-7等系列標(biāo)準(zhǔn)用于視頻壓縮編碼.2002年6月,音視頻編碼標(biāo)準(zhǔn)(AVS)工作組宣布成立,AVS是我國(guó)具備自主知識(shí)產(chǎn)權(quán)的第2代信源編碼標(biāo)準(zhǔn).在這些編碼標(biāo)準(zhǔn)中,特別是面向低碼率、高質(zhì)量的標(biāo)準(zhǔn)在實(shí)時(shí)應(yīng)用中具有重要意義.視頻編碼是用盡量少的比特?cái)?shù)來最大限度地表述視頻內(nèi)容,從而節(jié)約移動(dòng)通信寬帶資源.2012年全球移動(dòng)數(shù)據(jù)流量為5 EB.預(yù)計(jì)到2019年,全球視頻流量占據(jù)的比重將從2014年的64%上升到80%[1],視頻業(yè)務(wù)的比重在不斷提高.龐大的網(wǎng)絡(luò)數(shù)據(jù)量對(duì)網(wǎng)絡(luò)帶寬提出了巨大的考驗(yàn).盡管移動(dòng)通信系統(tǒng)不斷通過技術(shù)演進(jìn)與革新來增加帶寬,但仍無法從根本上解決帶寬不足的問題.
從節(jié)省移動(dòng)通信帶寬資源上講,眾多研究者從壓縮編碼技術(shù)上提高編碼性能,從而減少視頻傳輸?shù)臄?shù)據(jù)量.文獻(xiàn)[2]采用四叉樹單元結(jié)構(gòu)、殘差四叉樹變換結(jié)構(gòu)、像素自適應(yīng)差值以及自適應(yīng)熵編碼等多項(xiàng)先進(jìn)編碼技術(shù)來提高視頻數(shù)據(jù)壓縮量.文獻(xiàn)[3-4]分別利用自適應(yīng)濾波與碼率控制技術(shù)等實(shí)現(xiàn)編碼效率的最大化.文獻(xiàn)[5]綜述了基于壓縮感知的編碼方法,提出感興趣區(qū)域編碼.這些技術(shù)從視頻數(shù)據(jù)的編碼角度減少了信息冗余,節(jié)省了帶寬資源,但計(jì)算量較大.鑒于人眼對(duì)視頻的視覺冗余,文獻(xiàn) [6-7]提出了可察覺失真編碼和非對(duì)稱立體視頻編碼算法來提升視頻傳輸?shù)木W(wǎng)絡(luò)適應(yīng)性和編碼效率. 文獻(xiàn) [8-9]把視頻編碼和視覺冗余相結(jié)合,有效提升了網(wǎng)絡(luò)適應(yīng)性和編碼效率.在面對(duì)移動(dòng)通信壓力時(shí),只從編碼壓縮上減少數(shù)據(jù)冗余是不夠的,需要結(jié)合更多的技術(shù)來節(jié)省帶寬資源.本文對(duì)影音視頻提出了一種節(jié)帶化處理系統(tǒng),在傳輸過程中建立模型庫(kù),減少圖像傳輸冗余,節(jié)約了移動(dòng)帶寬資源.
視頻編碼是以圖像質(zhì)量為代價(jià),減少連續(xù)幀間和幀內(nèi)的冗余.一部視頻包括很多場(chǎng)景,每個(gè)場(chǎng)景又包括不斷切換的鏡頭內(nèi)容,這樣影音視頻在時(shí)間先后上難免會(huì)有重復(fù)信息.圖1為《生活大爆炸》第1季第7集中幾個(gè)不同時(shí)刻的幀圖,每張圖的兩個(gè)方框區(qū)域內(nèi)表示了在時(shí)間先后上出現(xiàn)的內(nèi)容冗余,消除這種間隔幀間的冗余信息,將節(jié)約更多的移動(dòng)寬帶通信資源.
圖1 視頻間隔幀間的內(nèi)容冗余Fig.1 Content redundancy between video interval frames
從圖1可以看出,影音視頻間隔幀間存在著一定的冗余信息.為了減少這部分冗余信息,提出了結(jié)合存儲(chǔ)的影音視頻節(jié)帶化系統(tǒng),如圖2所示.影音視頻在傳輸之前,對(duì)其做一個(gè)預(yù)處理,視頻是連續(xù)的圖像序列,包括多個(gè)場(chǎng)景,各個(gè)場(chǎng)景又分成不同的鏡頭,先對(duì)視頻做鏡頭檢測(cè),把鏡頭切換的那一幀找出來,然后分析鏡頭切換幀間的冗余;采用特征匹配方法,匹配越多的幀相似性越大,把先前出現(xiàn)過的幀內(nèi)容建立模型庫(kù),后續(xù)出現(xiàn)的幀如果可匹配上模型庫(kù)里的模型,則匹配上的那部分區(qū)域就不用傳輸.系統(tǒng)模型庫(kù)主要是根據(jù)背景區(qū)域建立的.模型庫(kù)建立后,視頻就被分成了匹配區(qū)域和未匹配區(qū)域,后續(xù)傳輸中收發(fā)兩端同時(shí)更新這個(gè)庫(kù),傳輸時(shí)傳輸未匹配區(qū)域和匹配區(qū)域的標(biāo)簽信息,即未匹配區(qū)域的圖像編碼信息和匹配區(qū)域的語(yǔ)義編碼信息,這些語(yǔ)義信息包括模型編號(hào)以及區(qū)域外接點(diǎn)位置等描述匹配區(qū)域的信息.在收端根據(jù)標(biāo)簽信息找到模型庫(kù)里的匹配模型,與解碼圖像拼接成幀圖,最終構(gòu)成可觀看的視頻.
圖2 影音視頻節(jié)帶化系統(tǒng)Fig.2 Content-slimming system for audio video
影音視頻可能由幾十個(gè)場(chǎng)景構(gòu)成,而每一個(gè)場(chǎng)景中又包括很多的鏡頭切換,鏡頭檢測(cè)的目的是為了把影音視頻的鏡頭切換幀找出來.利用自適應(yīng)閾值法[10]進(jìn)行鏡頭檢測(cè),把視頻序列按每21幀分成一個(gè)小組,相鄰小組間首尾幀相同,每10個(gè)組構(gòu)成一個(gè)單元,閾值處理過程如圖3所示.
圖3 閾值處理過程Fig.3 Threshold processing
如果有鏡頭轉(zhuǎn)換,則在小組內(nèi)通過相同的自適應(yīng)閾值兩次二分,將鏡頭轉(zhuǎn)換范圍縮小在5幀內(nèi),通過式(1)判定出鏡頭切換幀.
≥3,
(1)
式中:tm是幀間最大距離值;ts是幀間第二大距離值;C是一個(gè)為了保證分母非零的很小的常量.對(duì)于切換鏡頭的檢測(cè),該方法效果很好,對(duì)于漸變鏡頭的計(jì)算會(huì)加入更多的判定條件,計(jì)算會(huì)更復(fù)雜些.圖4是鏡頭檢測(cè)得到的幾個(gè)鏡頭起始幀.
圖4 鏡頭檢測(cè)得到的鏡頭起始幀F(xiàn)ig.4 Shot starting frames obtained by lens detection
特征匹配一方面是為了根據(jù)鏡頭起始幀建立出模型,另一方面是實(shí)現(xiàn)模型庫(kù)與后續(xù)圖像的匹配,完成圖像拆分及重構(gòu).圖像匹配技術(shù)通過對(duì)兩幅圖像的特征、結(jié)構(gòu)、關(guān)系、紋理、灰度等對(duì)應(yīng)關(guān)系和相似性、一致性進(jìn)行分析,尋找出相同對(duì)象目標(biāo).張煥龍等[11]針對(duì)傳統(tǒng)群智能方法在圖像匹配應(yīng)用中參數(shù)較多且調(diào)節(jié)復(fù)雜的問題,將布谷鳥搜索(CS)機(jī)制引入到圖像匹配過程.1999年Lowe提出了尺度不變特征轉(zhuǎn)換(scale invariant feature transform,SIFT),并于2004年得到完善[12]. SIFT對(duì)圖像平移、旋轉(zhuǎn)、尺度變換等變形也能很好地檢測(cè)到特征點(diǎn)[13],同時(shí)采用了不同尺度空間,受噪聲影響小,又因?yàn)榛谔卣鼽c(diǎn)的匹配實(shí)現(xiàn)速度較快,因此在圖像匹配識(shí)別領(lǐng)域應(yīng)用廣泛.圖5是兩幀圖像的SIFT特征點(diǎn)匹配情況.
圖5中存在一條斜向右上的錯(cuò)誤匹配對(duì),為了剔除這種特征點(diǎn)對(duì),利用隨機(jī)采樣一致性(RANSAC)算法[14]來去除這種錯(cuò)誤匹配對(duì).RANSAC算法具有較強(qiáng)的穩(wěn)定性,可以用一個(gè)估計(jì)模型來表示這些適合的點(diǎn),去掉樣本群中錯(cuò)誤的樣本,得到有效樣本點(diǎn), 已被廣泛地應(yīng)用于特征檢測(cè)、樣本以及極限估計(jì)中[15].由于圖6是運(yùn)用RANSAC算法去除錯(cuò)誤匹配對(duì)后得到的更精確的匹配情況,故匹配的點(diǎn)對(duì)數(shù)減少了.
圖5 SIFT特征點(diǎn)匹配Fig.5 SIFT feature point matching
圖6 加入RANSAC算法后的SIFT特征點(diǎn)匹配Fig.6 SIFT feature point matching after adding RANSAC algorithm
圖7 模型庫(kù)示例Fig.7 Examples of model library
特征點(diǎn)匹配數(shù)目越多,范圍越寬,說明圖像越相似,相應(yīng)冗余信息也越多.特征匹配上的幀圖像,把先出現(xiàn)的幀所在鏡頭起始幀與該鏡頭內(nèi)最后一幀作差,即用幀差法提取背景,然后把背景分割成與原視頻同寬的背景區(qū)域,構(gòu)成模型庫(kù).圖7為兩個(gè)模型庫(kù)示意圖.
圖像可匹配區(qū)域的拆分過程如圖8所示.圖8(a)是建立的模型與后續(xù)幀的SIFT匹配,特征點(diǎn)匹配只能說明圖像間有相似區(qū)域,但是對(duì)這個(gè)區(qū)域的大小進(jìn)行確定還是個(gè)難點(diǎn).為了準(zhǔn)確表示匹配區(qū)域,利用點(diǎn)集三角剖分法[16]來對(duì)特征點(diǎn)構(gòu)成封閉區(qū)域,那么封閉區(qū)域肯定是可以匹配上的,即圖像進(jìn)行分割時(shí)的區(qū)域是相應(yīng)模型的一個(gè)子集.三角剖分后形成的區(qū)域內(nèi)圖像信息就是不需要傳輸?shù)?,可以根?jù)模型庫(kù)進(jìn)行恢復(fù).特征點(diǎn)三角剖分過程如圖8(b)所示.圖8(c)中的黑色區(qū)域是拆分掉的區(qū)域,不需要傳輸,直接可以根據(jù)模型進(jìn)行恢復(fù).
圖8 圖像可匹配區(qū)域的拆分過程Fig.8 Split process of image matching region
在Windows 7平臺(tái)上,搭建了Matlab實(shí)驗(yàn)仿真,對(duì)兩段視頻實(shí)驗(yàn)素材進(jìn)行了節(jié)帶化系統(tǒng)處理,表1列舉了兩段視頻的實(shí)驗(yàn)素材信息.視頻1、視頻2都是《The Big Bang Theory》里截取的片段,是本文節(jié)帶化仿真的原始影音視頻.
表1 實(shí)驗(yàn)素材信息Tab.1 Information of experimental material
影音視頻節(jié)帶化系統(tǒng)仿真中,對(duì)視頻受關(guān)注的前景信息沒有進(jìn)行處理,而只是對(duì)具有相似性的背景區(qū)域進(jìn)行了處理,忽略了邊緣較少的細(xì)節(jié)信息,視頻恢復(fù)效果可接受.圖9為原視頻與恢復(fù)視頻同一時(shí)刻的截圖,其中線框區(qū)域內(nèi)的圖像是不傳輸?shù)膮^(qū)域.對(duì)比視頻可以看出,恢復(fù)的效果還是很好的,但是在細(xì)節(jié)地方還是會(huì)有拼接上的差別,對(duì)圖9(c)、(d)截取的時(shí)刻來說,右下角字母CBS以及HDTV處有明顯的色差.所以在收端從模型庫(kù)里選擇模型恢復(fù)圖像,還需考慮更多關(guān)于顏色方面的細(xì)節(jié).
為了從顏色上來判斷恢復(fù)視頻和原視頻是否有很大差異,在顏色空間YUV里比較了兩個(gè)視頻節(jié)帶化處理前后的YUV平均值.選擇YUV空間是因?yàn)樗请娨曄到y(tǒng)中一種常用的顏色編碼方法.圖10為原視頻與恢復(fù)視頻YUV平均值對(duì)比曲線圖.從圖10可以看出,視頻1和視頻2節(jié)帶化處理前后的YUV平均值在每幀基本保持不變,說明從模型恢復(fù)的區(qū)域沒有改變整體的顏色,不會(huì)在視覺上產(chǎn)生較大的顏色差異.
圖9 原視頻與恢復(fù)視頻同一時(shí)刻的截圖Fig.9 Screenshots at the same time of the original video and the recovery video
圖10 原視頻與恢復(fù)視頻YUV平均值比較Fig.10 Comparison of the YUV average value of the original video and the recovery video
為了從圖像本質(zhì)上對(duì)視頻進(jìn)行客觀評(píng)價(jià),對(duì)視頻1和視頻2計(jì)算了平均峰值信噪比(PSNR).圖11顯示了視頻1和視頻2的原視頻與恢復(fù)視頻的平均峰值信噪比,圖中的平均峰值信噪比是每幀圖像的YUV三個(gè)維度上的均值.由圖11可以看出,原視頻在圖像上已經(jīng)存在一定壓縮,峰值信噪比是以視頻解壓后為參考進(jìn)行計(jì)算的.對(duì)視頻1而言,原視頻的平均峰值信噪比在40 dB附近波動(dòng),在32幀左右波動(dòng)較大;恢復(fù)視頻在38 dB附近波動(dòng)較小,整體上更平穩(wěn).對(duì)視頻2而言,原視頻的平均峰值信噪比在45 dB附近波動(dòng),整體有一個(gè)略微下滑的趨勢(shì),恢復(fù)視頻保持這種趨勢(shì),但整體上更平穩(wěn).峰值信噪比可以從一方面說明圖像質(zhì)量的損失情況,其值越大說明圖像壓縮損失越小,圖像越清晰,即恢復(fù)出的視頻效果較好.
圖11 視頻1和視頻2的原視頻與恢復(fù)視頻的平均峰值信噪比Fig.11 Average PSNR of the original video and the recovery video of video 1 and video 2
移動(dòng)寬帶通信中對(duì)影音視頻節(jié)帶化處理后,視頻的恢復(fù)效果在顏色和信噪比上都與原視頻相差很小.節(jié)帶化系統(tǒng)一方面是為了保證視頻質(zhì)量,另一方面也是為了節(jié)省帶寬資源.本文對(duì)原始視頻和節(jié)帶化處理后的視頻進(jìn)行比較,得到視頻的節(jié)約量.表2列舉了視頻1、視頻2的節(jié)帶化實(shí)驗(yàn)結(jié)果,視頻原始數(shù)據(jù)量用M表示,節(jié)帶化后傳輸?shù)臄?shù)據(jù)量用N表示,節(jié)約率β可以表示為
(2)
從表2可以看出,就影音視頻而言,節(jié)帶化處理后傳輸?shù)囊曨l信息量減少.對(duì)于鏡頭切換間隔幀重復(fù)的視頻,節(jié)帶化系統(tǒng)對(duì)這種影音視頻能達(dá)到10%左右的節(jié)約量,這個(gè)節(jié)約量還只是在圖像幀基于匹配上的子區(qū)域進(jìn)行的拆分與重構(gòu),當(dāng)然傳輸?shù)臄?shù)據(jù)還需要增加一些對(duì)匹配模型的說明,而這部分信息很小,所以采用視頻節(jié)帶化系統(tǒng)處理可以實(shí)現(xiàn)帶寬資源的節(jié)約.
視頻2的節(jié)約率比視頻1低,一方面是因?yàn)橐曨l本身間隔時(shí)間內(nèi)重復(fù)信息變少了,單位時(shí)間內(nèi)能實(shí)現(xiàn)建模匹配的模型減少;另一方面,匹配過程中,點(diǎn)匹配對(duì)一些幀沒有達(dá)到好的效果,故模型庫(kù)里模型匹配識(shí)別出來的區(qū)域變小了,即能拆分的區(qū)域小,所以節(jié)約率有所下降.對(duì)視頻而言,雖然本文的建模還不能達(dá)到理想模型庫(kù)全集,匹配的準(zhǔn)確性也還不夠高,但是從整體上看,這種存儲(chǔ)加計(jì)算的節(jié)帶化處理系統(tǒng)可以節(jié)省視頻傳輸資源,達(dá)到期望的目的.
為了更直觀地表示影音視頻建模存儲(chǔ)節(jié)帶化系統(tǒng)的節(jié)約量,以視頻幀的方式把每一幀圖像的節(jié)約量直觀表示出來,把視頻分成幀,對(duì)節(jié)帶化處理前后每一幀的大小進(jìn)行比較,可以得到每一幀的節(jié)約量.圖12列舉了視頻1中20幀節(jié)帶化處理前后對(duì)比圖.圖中所示第1幀是參考幀,之后的19幀是視頻在時(shí)間上有一定間隔的幀,參考模型的建立是根據(jù)第1幀圖像確定的,所以第1幀是全信息傳輸.有了模型之后,后續(xù)能與模型匹配的幀只需要傳輸未匹配信息和關(guān)于選定模型的信息,選定模型的信息可用數(shù)據(jù)量很小的標(biāo)簽表示.忽略掉模型的標(biāo)簽信息,得到影音視頻節(jié)帶化處理前后視頻幀的節(jié)約量.
表2 節(jié)帶化實(shí)驗(yàn)結(jié)果 Tab.2 Experimental results of content-slimming
圖12 視頻1中20幀節(jié)帶化處理前后比較Fig.12 Comparison of before and after content-slimming processing of 20 frames in video 1
在互聯(lián)網(wǎng)迅猛發(fā)展和普及的今天,視頻節(jié)帶化研究將是一個(gè)熱點(diǎn)問題,視頻業(yè)務(wù)有強(qiáng)大的市場(chǎng)動(dòng)力.本文從視頻內(nèi)容上提出一種影音視頻節(jié)帶化處理系統(tǒng),在傳輸過程中建立模型庫(kù),減少圖像傳輸冗余,節(jié)約移動(dòng)帶寬資源.從節(jié)帶化系統(tǒng)仿真角度搭建了基于影音業(yè)務(wù)的節(jié)帶化系統(tǒng)并仿真,從視頻恢復(fù)效果和節(jié)約量來分析仿真結(jié)果,指出了這種視頻節(jié)帶化處理的優(yōu)點(diǎn).對(duì)于影音視頻,本文提出的這種計(jì)算加存儲(chǔ)的影音視頻節(jié)帶化系統(tǒng),能減少視頻傳輸量,節(jié)約移動(dòng)通信帶寬資源.在將來的工作中,對(duì)于高效建模、區(qū)域分割以及視頻圖像的重構(gòu)都需要進(jìn)一步的研究,以達(dá)到影音視頻節(jié)帶化系統(tǒng)的高效性和準(zhǔn)確性.