楊春玲 謝小蘭
(華南理工大學(xué)電子與信息學(xué)院 廣州 510640)
分布式視頻編碼(Distribution Video Coding,DVC)是建立在 Slepian-Wolf 理論[1]和 Wyner-Ziv(WZ)理論[2]基礎(chǔ)上的一種新型的視頻編碼框架。與傳統(tǒng)的視頻編碼(MPEG-x, H.26x等) 相比,這種視頻編碼結(jié)構(gòu)編碼簡單、解碼復(fù)雜,適合應(yīng)用于計(jì)算能力和內(nèi)存容量都受限的無線視頻終端。
基于 Turbo碼的 Discrete Cosine Transform(DCT)域的Wyner-Ziv編碼系統(tǒng)TDWZ[3]是當(dāng)前最典型有效的 DVC系統(tǒng)之一,本文的研究基于TDWZ。
在分布式視頻編碼中,原始WZ幀與相應(yīng)邊信息間相關(guān)噪聲模型的準(zhǔn)確度對編碼效率有很大影響,相關(guān)噪聲模型越準(zhǔn)確,Turbo碼成功解碼需要的校驗(yàn)位就越少,一方面降低了碼率,提高了壓縮效率;另一方面,減少了Turbo碼解碼的計(jì)算量。所以,解碼端相關(guān)噪聲的準(zhǔn)確建模是分布式視頻編碼的一個(gè)關(guān)鍵技術(shù)。
現(xiàn)有的 DVC系統(tǒng)一般采用拉普拉斯分布來描述原始WZ幀和邊信息之間的噪聲關(guān)系,近年來許多研究者對相關(guān)噪聲模型的研究主要在于如何獲得更精確的拉普拉斯參數(shù)[4,5]。文獻(xiàn)[4]利用殘差置信度,提出了子帶級(jí)、系數(shù)級(jí)兩種不同級(jí)別的拉普拉斯參數(shù)估計(jì)算法。文獻(xiàn)[5]利用已經(jīng)成功解碼的部分 WZ幀子帶來估計(jì)更精確的拉普拉斯參數(shù)。文獻(xiàn)[6]提出利用拉普拉斯概率密度函數(shù)的加權(quán)和(利用相應(yīng)的統(tǒng)計(jì)運(yùn)動(dòng)矢量場的概率作為權(quán)重)對相關(guān)噪聲進(jìn)行建模。子帶級(jí)的拉普拉斯分布模型由于在計(jì)算復(fù)雜度和精確度上具有良好的折中得到了廣泛認(rèn)可。
本文通過研究發(fā)現(xiàn)DVC系統(tǒng)中的DCT殘差系數(shù)統(tǒng)計(jì)分布不完全符合拉普拉斯分布這個(gè)假設(shè),而是具有更尖的峰值特性和更長的尾部,為適應(yīng)殘差系數(shù)的這兩個(gè)特性,本文提出拉普拉斯-柯西混合分布(LCMD)模型對TDWZ中的相關(guān)噪聲進(jìn)行建模。該混合模型用改進(jìn)參數(shù)的拉普拉斯分布來描述小殘差系數(shù)的分布,而用柯西分布來描述大殘差系數(shù)的分布。同時(shí),本文創(chuàng)新性地提出一種簡單有效的柯西分布參數(shù)估計(jì)方法和更精確的拉普拉斯分布參數(shù)估計(jì)法。
本節(jié)首先分離線和在線兩種情況介紹最典型的子帶級(jí)拉普拉斯噪聲分布模型,然后深入分析TDWZ中的DCT殘差系數(shù)特性。
在TDWZ中,原始WZ幀信息與邊信息之間的統(tǒng)計(jì)特性通常用子帶級(jí)的拉普拉斯分布來描述,即每一幀的每一子帶的殘差系數(shù)對應(yīng)一個(gè)不同的拉普拉斯參數(shù)。
(1)離線的子帶級(jí)相關(guān)噪聲模型 文獻(xiàn)[4]所提出的離線(理想)的相關(guān)噪聲模型是假設(shè)在解碼端可以準(zhǔn)確知道原始WZ幀信息,并利用原始WZ幀和邊信息的差值作為殘差樣本來進(jìn)行拉普拉斯參數(shù)估計(jì)。其具體步驟如下:
步驟 1 通過式(1)計(jì)算WZ和SI 的殘差幀:
步驟 3 子帶bk中殘差系數(shù)的分布用參數(shù)為αbk的拉普拉斯概率密度函數(shù)描述:
(2)在線子帶級(jí)相關(guān)噪聲模型 與采用式(1)來估計(jì)拉普拉斯噪聲模型不同,文獻(xiàn)[4]所提出的在線(實(shí)際)的相關(guān)噪聲模型是利用前后兩個(gè)關(guān)鍵幀之間的運(yùn)動(dòng)補(bǔ)償殘差RME來估計(jì)的。
在分布式視頻壓縮中,如果殘差系數(shù)的絕對值比較小,說明此位置的邊信息與對應(yīng)位置的原始WZ幀較相似,因此該位置的邊信息置信度較高。拉普拉斯參數(shù)本質(zhì)上是對邊信息置信度的一個(gè)描述,參數(shù)越大,說明邊信息置信度越高。然而,在子帶級(jí)拉普拉斯分布噪聲建模方法中,由于同一子帶的殘差系數(shù)對應(yīng)相同的拉普拉斯參數(shù),因此這種噪聲建模方法賦予同一子帶邊信息相同的置信度,可能會(huì)導(dǎo)致DVC解碼時(shí),對高置信度邊信息(具有小殘差系數(shù))賦予較低置信度,而對于低置信度邊信息(具有大殘差系數(shù))賦予了較高置信度,這種參數(shù)估計(jì)的不合適會(huì)得到不準(zhǔn)確的拉普拉斯分布噪聲模型,使得拉普拉斯分布不能準(zhǔn)確描述殘差分布,從而降低了DVC的壓縮效率。另一方面,由于拉普拉斯密度以指數(shù)率衰減,其尾部衰減與實(shí)際 DCT系數(shù)直方圖統(tǒng)計(jì)中在重尾分布上有很大區(qū)別[7,8],所以它不能很好地描述大殘差系數(shù)的分布特征。由以上分析可以看出,由于子帶級(jí)的拉普拉斯參數(shù)估計(jì)法不準(zhǔn)確以及拉普拉斯概率密度的尾部衰減方式與DCT重尾分布特性的不相符,因此,子帶級(jí)的拉普拉斯分布模型不能很好地描述DVC中DCT殘差的大系數(shù)和小系數(shù)的分布,或者說它不能精確地刻畫出殘差系數(shù)的重尾和尖峰分布特性。
圖1給出了foreman序列的第88幀中的第1個(gè)AC (Alternating Current)子帶的殘差系數(shù)的直方圖統(tǒng)計(jì)分布和相應(yīng)拉普拉斯分布的比較,從圖中可以看出,相應(yīng)拉普拉斯分布模型跟真實(shí)的噪聲分布相比,有很大的差異。相比拉普拉斯分布,DCT殘差系數(shù)具有更陡峭的峰值特性和更長的尾部。
圖1 foreman序列第88幀中的第1個(gè)AC子帶殘差系數(shù)直方圖統(tǒng)計(jì)分布和相應(yīng)的拉普拉斯分布比較
文獻(xiàn)[7, 8]指出,柯西分布的尾部衰減很慢,具有重尾特性,更能逼近 DCT系數(shù)的尾部形態(tài)。根據(jù)柯西分布具有重尾特性這一特點(diǎn),本文提出利用柯西分布來描述DVC中DCT殘差系數(shù)分布的尾部特征,從而彌補(bǔ)拉普拉斯分布其尾部衰減方式的不足。針對子帶級(jí)拉普拉斯分布由于其參數(shù)估計(jì)的不合適,使得高置信度邊信息(具有小殘差系數(shù))被賦予較低置信度,導(dǎo)致拉普拉斯分布峰值不夠尖銳這一缺點(diǎn),本文提出了一種改進(jìn)拉普拉斯參數(shù)估計(jì)法,從而提出一種新的殘差系數(shù)分布模型,拉普拉斯-柯西混合分布(LDMD)模型。
由于在解碼端利用原始的WZ幀信息來估計(jì)相關(guān)噪聲模型可以達(dá)到性能的上界,因此,本節(jié)先介紹離線LCMD模型,然后再討論在線LCMD噪聲模型。
(1)離線LCMD噪聲模型 在LCMD模型中,每個(gè)子帶的DCT殘差系數(shù)首先被分成小系數(shù)和大系數(shù)兩類,大系數(shù)的分布用柯西分布來描述,小系數(shù)的分布用拉普拉斯分布描述,然后根據(jù)混合模型的特點(diǎn)計(jì)算出柯西分布和拉普拉斯分布的參數(shù)。該算法主要有如下4個(gè)實(shí)現(xiàn)步驟。
步驟1系數(shù)分類
在每個(gè)子帶中,DCT殘差系數(shù)被分成兩個(gè)集合,小系數(shù)集S0和大系數(shù)集S1,其分類準(zhǔn)則如下:
其中TH是分類閾值,它由式(6)獲得:
步驟2柯西分布參數(shù)估計(jì)
柯西分布可以表示為
其中λ和μ分別為形狀和位置參數(shù)??紤]到視頻壓縮中殘差系數(shù)基本關(guān)于0值對稱,所以令μ=0。在本文中就只剩下參數(shù)λ需要估計(jì)。假設(shè)每個(gè)子帶的系數(shù)分布可以由柯西概率密度或者拉普拉斯概率密度來描述,對于柯西分布,總可以找到一個(gè)λ,使得其概率密度在[-TH,TH]區(qū)間內(nèi)的積分值等于拉普拉斯概率密度在[-TH,TH]區(qū)間內(nèi)的積分值而依然可以保持它的重尾特性。以此思想為出發(fā)點(diǎn),λ按如下過程估計(jì):
令PL(TH)表示拉普拉斯概率密度在[-TH,TH]內(nèi)的積分值,它可以按式(9)計(jì)算:
令PC(TH)表示柯西概率密度在[-TH,TH]內(nèi)的積分值,按式(10)計(jì)算:
λ由式(11)計(jì)算:
步驟3LCMD中拉普拉斯分布參數(shù)的改進(jìn)
按式(12)給屬于S0集合的殘差系數(shù)重新計(jì)算拉普拉斯參數(shù):
步驟4LCMD噪聲模型
本文所提的LCMD模型如式(13)所示:
圖2(a)為soccer序列的第88幀中的第1個(gè)AC子帶的殘差系數(shù)的直方圖統(tǒng)計(jì)分布、子帶級(jí)拉普拉斯分布、使用文中所提的柯西分布、以及本文改進(jìn)后的拉普拉斯分布的比較,圖中的閾值 TH=27 為使用文中分類方法求得。為更清楚的看出大系數(shù)的分布,圖2(b)給出該子帶中系數(shù)值大于閾值27時(shí)的幾種分布的比較。從圖2可以看出,相比子帶級(jí)拉普拉斯分布,文中柯西分布更逼近真實(shí) DCT殘差系數(shù)的尾部分布形態(tài)(圖中落在區(qū)間[-27, 27]外的系數(shù)為大殘差系數(shù),即對應(yīng)重尾部分)。而調(diào)整后的拉普拉斯分布在[-27,27]之間具有很陡峭的峰值,非常接近真實(shí)殘差系數(shù)的分布。
(2)在線LCMD噪聲模型 由于在實(shí)際的DVC系統(tǒng)中,在解碼端沒有原始WZ幀數(shù)據(jù),為了使所提相關(guān)噪聲模型更實(shí)際,由式(4)所示的運(yùn)動(dòng)補(bǔ)償殘差幀RME被用來估計(jì)相關(guān)噪聲模型,其他步驟則與離線情況下的LCMD模型相同。
圖2 殘差系數(shù)比較
圖3給出了不同相關(guān)噪聲模型下WZ幀的率失真(RD)曲線。由圖3可見,無論是離線還是在線情況,本文所提LCMD噪聲模型相比拉普拉斯噪聲模型,DVC壓縮性能都有所提高,而離線情況下的性能改善更加明顯,文中提出的離線LCMD模型對3個(gè)序列的平均質(zhì)量最大可以提高0.9 dB此外,與離線的拉普拉斯模型對比,在線的LCMD模型都能夠獲得較好的增益。
由實(shí)驗(yàn)還可以看出,3個(gè)序列中運(yùn)動(dòng)復(fù)雜度越高,其增益越大,原因是:運(yùn)動(dòng)越復(fù)雜的視頻序列,其邊信息的各個(gè)像素的質(zhì)量差異越大,而LCMD模型中調(diào)整后的拉普拉斯分布由于更精確地描述了高精度邊信息的置信度,所以高精度邊信息置信度的描述跟真實(shí)的置信度的差異被大大縮小。此外,LCMD模型中的柯西分布較好地捕獲了大殘差系數(shù)分布的尾部信息,所以總體性能上運(yùn)動(dòng)復(fù)雜序列(如soccer序列)的增益就越大。由此也可以看出,運(yùn)動(dòng)越復(fù)雜,邊信息質(zhì)量越差,文中的LCMD模型對系統(tǒng)性能的提升越大。
圖3 本文LCMD模型對soccer, carphone和foreman序列的壓縮性能
在計(jì)算復(fù)雜度上,分布式視頻編碼的解碼計(jì)算量主要集中在邊信息生成和Turbo碼的迭代譯碼。由于利用所提出的 LCMD模型能更精確的計(jì)算出邊信息與原始WZ幀的噪聲模型,因此譯碼器只需較少的校驗(yàn)位和較少的迭代次數(shù)就可以糾正邊信息錯(cuò)誤而恢復(fù)出原始WZ幀,因此減少了計(jì)算量。與采用文獻(xiàn)[4]的拉普拉斯模型相比,表1給出了不同序列在采用LCMD模型后譯碼時(shí)間的節(jié)省率。由實(shí)驗(yàn)結(jié)果可以看出,采用LCMD模型后,系統(tǒng)譯碼消耗時(shí)間對于不同運(yùn)動(dòng)復(fù)雜度的序列都有不同程度的減少。
表1 采用LCMD后系統(tǒng)譯碼時(shí)間的節(jié)省率(LCMD:所提模型,Lap:拉普拉斯模型)
本文提出了一種新的拉普拉斯-柯西混合分布噪聲模型。在LCMD模型中,根據(jù)殘差系數(shù)的絕對值將殘差系數(shù)分成兩類:小系數(shù)和大系數(shù)。小系數(shù)的分布由拉普拉斯分布來描述,大系數(shù)由柯西分布來描述。同時(shí),提出兩種確定分布參數(shù)的方法,一種是簡單有效的柯西分布參數(shù)估計(jì)法,另一種是拉普拉斯參數(shù)改進(jìn)方法。仿真結(jié)果表明,與典型的拉普拉斯模型相比,本文所提的離線和在線的LCMD模型均能產(chǎn)生較高的編碼增益,尤其是對于較高運(yùn)動(dòng)強(qiáng)度的序列,其增益更明顯。此外,采用LCMD模型可以降低TDWZ系統(tǒng)的解碼復(fù)雜度。
[1]Slepian D and Wolf J. Noiseless coding of correlated information sources [J].IEEE Transactions on Information Theory, 1973, 19(4): 471-480.
[2]Wyner A and Ziv J. The rate-distortion function for source coding with side information at the decoder[J].IEEE Transactions on Information Theory, 1976, 22(1): 1-10.
[3]Brites C, Ascenso J, Pedro J Q,et al.. Evaluating a feedback channel based transform domain Wyner-Ziv video codec [J].Signal Processing:Image Communication, 2008, 23(2):269-297.
[4]Brites C and Pereira F. Correlation noise modeling for efficient pixel and transform domain Wyner-Ziv video coding[J].IEEE Transactions on Circuits and Systems for Video Technology, 2008, 18(9): 1177-1190.
[5]Huang X and Forchhammer S. Improved virtual channel noise model for transform domain Wyner-Ziv video coding[C]. IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP), Taipei, China, 2009: 921-924.
[6]Martins R, Brites C, Ascenso J,et al.. Statistical motion learning for improved transform domain Wyner-Ziv video coding[J].IET Image Processing,2010, 4(1):28-41.
[7]Sergio S and Manuel D. Cauchy-density-based basic unit layer rate controller for H.264/AVC[J].IEEE Transactions on Circuits and Systems for Video Technology, 2010, 20(8):1139-1143.
[8]Chen L, Yang G B, and Ho A T. A Cauchy distribution based video watermark detection for H.264/AVC in DCT domain[C]. IEEE International Symposium on Circuits and Systems (ISCAS), Changsha, China, 2011: 2665-2668.
[9]Li Z, Liu L, and Delp E J. Rate distortion analysis of motion side estimation in Wyner-Ziv video coding [J].IEEE Transactions on Image Processing, 2007, 16(1): 98-113.