王小龍,梁久禎
(江南大學(xué)物聯(lián)網(wǎng)工程學(xué)院,江蘇無錫214122)
視頻監(jiān)控的應(yīng)用遍布全球,監(jiān)控人員對于能提供快速、準(zhǔn)確的智能視頻分析解決方案的需求越來越強。智能視頻監(jiān)控系統(tǒng)實現(xiàn)的第一步就是以最低的誤差對運動對象進行分割。
隨著監(jiān)控視頻的體積和分辨率的不斷增加,如何對視頻靈活高效的處理在實際應(yīng)用中顯得尤為重要。相對于主流的像素域方法,壓縮域視頻分析平衡了智能視頻監(jiān)控系統(tǒng)的處理效率與視覺感知,更適合于實際應(yīng)用需要。鑒于實際監(jiān)控視頻場景中的大多數(shù)視頻序列已經(jīng)壓縮,為了最大化利用編碼端的工作,直接在壓縮域內(nèi)進行運動對象分割,可免除對壓縮視頻進行完全解碼。從壓縮碼流中提取相關(guān)信息直接用作運動對象分割所需要的特征,這些在宏塊(macroblock)或塊(block)級別上提取的特征使得所需要處理的數(shù)據(jù)量遠少于像素域,從而顯著降低了分割算法的計算量。因此,從壓縮域分割運動對象具有快速高效的特點,可解決像素域?qū)ο蠓指铍y以滿足的高效處理要求。Babu等人[1]先對運動矢量(MV)做累積來增強運動信息,并以空間插值算法來得到稠密的運動矢量,然后使用EM算法對稠密的運動矢量場進行分割,最后提出了一種基于邊緣細化的方法。Wang和Zhung[2]首先結(jié)合空間、時間和紋理來獲得具有魯棒性的運動信息,接著通過檢測運動信息來提取運動塊。Zen[3]用運動矢量的幅度和相位來分割對象,利用前后幀的DCT系數(shù)匹配關(guān)系來跟蹤對象。Zeng等人[4]首先將運動矢量分成4類,然后使用馬爾科夫隨機場模型提取運動對象,文獻[5-7]也使用了基于 MRF的對象分割技術(shù)。Wang等人[8]在H.264壓縮域基于MV-LBP特征背景建模提取粗糙對象,通過最大后驗概率提取輪廓集細化進一步運動對象。目前,在H.264的壓縮域進行對象分割的技術(shù)大多是依賴于運動矢量場。然而,運動矢量本質(zhì)上以編碼為導(dǎo)向,其建立是為了更好地壓縮視頻,它并不代表視頻序列中真實的運動。另外,視頻壓縮域的運動矢量場格外嘈雜,若基于MV進行壓縮域運動對象分割則需要額外的復(fù)雜度來處理噪聲MV。
基于上述研究背景,本文改進了一種Vibe背景建模算法并成功應(yīng)用于壓縮域背景建模,通過引入最大熵自適應(yīng)閾值精確分割出運動對象。
監(jiān)控視頻的背景一般比較單一,迄今為止像素域?qū)ο蠓指铑I(lǐng)域已經(jīng)提出了很多背景建模的方法。在H.264編碼框架中,殘差數(shù)據(jù)為當(dāng)前編碼塊與其最佳匹配塊的差值,殘差系數(shù)基于4×4塊變換、量化,通過Zig-Zag掃描、熵編碼呈現(xiàn)在視頻壓縮碼流中。對于背景相對單一的監(jiān)控視頻場景,背景塊在相鄰幀之間一般差別不大,編碼過程中容易搜索到與其匹配的較佳的塊,所以在運動補償?shù)臅r候背景塊的殘差數(shù)據(jù)會非常小,該殘差數(shù)據(jù)經(jīng)過DCT變化、量化、熵編碼之后反映到視頻壓縮碼流中占據(jù)的比特數(shù)也較少;對于運動對象區(qū)域塊在運動搜索的時候很難找到與其匹配很精確的塊,運動補償時對應(yīng)殘差數(shù)據(jù)較大,在視頻壓縮碼流中所占據(jù)的比特數(shù)也越多。因此,通過塊在壓縮碼流里面占據(jù)比特數(shù)的不同可以對運動對象進行分割。
基于上述分析,將背景建模的思想引入到視頻壓縮域。根據(jù)視頻壓縮編碼理論,每個宏塊在視頻壓縮碼流里占據(jù)的大小(即宏塊比特數(shù)MBbits)可以看成一個離散的信號,那么對一幀圖像就可以比擬成一個MBbits場。本文試圖在H.264壓縮域建立MBbits背景模型,改進了一種Vibe算法提取前景運動對象宏塊,并基于最大信息熵選取自適應(yīng)閾值進行對象邊緣細化。本文提出的背景建模和運動對象分割方法的流程如圖1所示。該算法包括以下幾個過程:1)壓縮碼流中MBbits以及DCT殘差系數(shù)的提取;2)Vibe背景模型初始化及更新機制;3)基于最大熵原理的自適應(yīng)閾值選取;4)運動對象分割;5)I幀對象區(qū)域預(yù)測。本文實驗中采用只有首幀是I幀,其余幀為P幀的幀結(jié)構(gòu)。
圖1 背景建模和運動對象分割算法流程圖
在H.264/AVC編碼策略中,一個視頻圖像可編碼成一個或更多個片(slice),每個片包含整數(shù)個宏塊(MB)。片的句法結(jié)構(gòu)如圖2所示,其中片頭規(guī)定了片的類型,該片屬于哪個圖像,有關(guān)的參考圖像等,片的數(shù)據(jù)包含一系列的編碼宏塊和/或跳編碼(不編碼)數(shù)據(jù)[9]。每個宏塊包含頭單元和殘差數(shù)據(jù)。由于每個宏塊的mb_type、mb_pred等宏塊頭單元數(shù)據(jù)差別不大,因此忽略宏塊頭信息,只統(tǒng)計每個宏塊編碼殘差。如圖3所示為測試序列Hall Monitor第68幀的MBbits場。實際MBbits場和理論相符合,運動對象前景宏塊MBbits相對較大,周圍由于出現(xiàn)室內(nèi)光照等噪聲因子會出現(xiàn)噪聲區(qū)域。
圖3 Hall Monitor第68幀對應(yīng)的MBbits場(截圖)
在H.264壓縮碼流中,非正常的塊比特數(shù)不能反映出對象移動的強度。所以在進行背景建模之前,首先要對MBbits預(yù)處理得到能反映對象運動區(qū)域信息的MBbits場。通過大量實驗觀察發(fā)現(xiàn),當(dāng)幀內(nèi)預(yù)測塊大面積出現(xiàn)時,一般是由光照變化或場景切換等背景變化引起的非運動區(qū)域變化;當(dāng)幀內(nèi)預(yù)測塊小面積出現(xiàn)時,這些被幀間預(yù)測塊所包圍的分散的幀內(nèi)預(yù)測塊通常運動相對平緩,一般是運動對象的內(nèi)部區(qū)域(如圖3所示Hall Monitor第68幀第163個宏塊為幀內(nèi)預(yù)測塊,MBbits163=20對應(yīng)著運動對象的內(nèi)部區(qū)域塊)。采用均值濾波計算MBbits值,當(dāng)出現(xiàn)極個別突變的MBbits時,采用中值濾波將其剔除。
像素域Vibe背景建模的方法首次采用隨機選擇機制和鄰域傳播機制來建立和更新背景模型,從而有效提高了準(zhǔn)確度,增加了抗噪能力并減少了計算負載。Vibe背景模型的基本思想:通過建立一個具有N幀樣本的背景模型,當(dāng)前幀與背景模型比較,根據(jù)一定的分割準(zhǔn)則區(qū)分前景目標(biāo)。
第一步,引入一個幀數(shù)為N的背景模型,用第一幀的MBbits場來初始化背景模型。對于N幀背景模型中,每個樣本中每個宏塊對應(yīng)的樣本值記為Pn(x)(x代表宏塊號,n代表背景模型樣本號)。如圖4所示,圖4a是視頻序列第一幀,圖4b是所構(gòu)建的背景模型N幀中的某一幀,模型初始化策略就是在圖4a宏塊F位置隨機選取其八鄰域中任意一個宏塊的F(m)(m=1,2,…,8)來初始化背景模型對應(yīng)位置宏塊Pn(x),圖4將用F(3)來初始化對應(yīng)第n幀背景模型宏塊Pn(x)。這樣的初始化工作將執(zhí)行N幀。用第1幀初始化N個樣本的背景模型后,從視頻序列的第2幀開始對前景背景進行分類。定義標(biāo)記函數(shù)s(x),判斷新進一幀位置MBi處是否為前景目標(biāo),本文引入判別準(zhǔn)則為
式中:n=1,2,…,N;Pt(x)表示t時刻視頻幀中宏塊x位置處的MBbits值,Pn(x)為背景樣本模型,每個宏塊對應(yīng)的背 景 模 型 樣 本 集 合 Q(x)={P1(x),P2(x),…,PN(x)},那么有Pn(x)∈Q(x)。當(dāng)前宏塊MBbits與N幀背景模型依次進行比較,執(zhí)行N次式(1)后,設(shè)定閾值ε,若s(x)=0的總數(shù)滿足Sum(s(x)=0)>ε,將該位置MBi判斷為背景宏塊并用它來對背景模型進行更新;否則為前景,對該宏塊不作為背景模型更新的候選。
圖4 Vibe背景模型初始化
背景模型建立以后,需要對背景模型進行更新。Vibe存在光照突變、背景切換等方面處理的欠缺,本文針對監(jiān)控視頻場景提出了“場景波動因子”來檢測整個場景的波動,從宏塊級—幀級更新背景模型解決光照和場景切換、相機抖動等場景波動較大的問題。
宏塊級,在時域隨機抽取背景模型中1個樣本進行更新,若當(dāng)前幀中MBi判斷為背景,用它來更新背景模型中隨機幀的同一位置的宏塊,這就是時域隨機。鑒于相鄰宏塊的空間相關(guān)性較強,當(dāng)某宏塊被判定為背景宏塊時,其鄰域宏塊成為背景的概率比較大,因此使用背景宏塊MBbits值來隨機更新背景模型中對應(yīng)位置八鄰域的某一宏塊,這就是空域隨機。
幀級,通過統(tǒng)計每個MBbits的波動幅度,引入“場景波動因子”來確定是否進行幀級背景模型的更新。ft表示t時刻某一宏塊對應(yīng)的MBbits值。定義f^t為已知測量變量時t時刻的后驗狀態(tài)估計
采用一種遞歸推算,將上一次計算得到的后驗估計作為下一次計算的先驗估計。由此t時刻先驗狀態(tài)估計
后驗狀態(tài)估計式(2)反映了MBbits狀態(tài)分布的均值。用t-1時刻的先驗估計誤差Δf^t-1與t時刻的先驗估計誤差Δf^t來計算信號的方差
則先驗狀態(tài)估計誤差
式中:φ(t)反映了t時刻某一宏塊MBbits信號波動大小。設(shè)單幀視頻的宏塊總數(shù)為Ω,則t時刻單幀視頻的“場景波動因子”為
對于一般監(jiān)控視頻場景,當(dāng)受到光照突變、場景切換等因素影響時,場景會出現(xiàn)劇烈的波動。當(dāng)場景波動因子滿足式(7)經(jīng)驗公式時,說明場景波動較大,重新初始化背景模型,從而達到幀級背景模型更新。
通過建立改進的Vibe背景模型,能夠在壓縮域分割宏塊級對象區(qū)域,為了得到更精確的運動對象分割結(jié)果,本文將信息熵的概念引入到壓縮域?qū)ο蠓指钪小.264基于4×4塊整數(shù)DCT變換對宏塊的預(yù)測殘差進行變換,一個4×4殘差信息大說明其難于壓縮,每個宏塊的殘差比特MBbits是其16個4×4子塊殘差信息之和。因此,對運動對象區(qū)域進行4×4塊邊緣細化工作。用h(x)表示每4×4子塊的DCT殘差系數(shù)大小。則一幀圖像中,最小信息量為h(x)0(等級為0),最大信息量為h(x)l-1(等級為l-1),W={0,1,2,…,l-1}表示4×4子塊殘差等級的集合。設(shè)M為一幀視頻4×4塊總數(shù),Nμ(μ∈W)為殘差等級μ時的4×4塊數(shù)量,殘差等級μ出現(xiàn)的概率為pμ,則
式中:信息熵H(N)是當(dāng)前殘差等級μ的無組織程度的度量。H(N)的大小和概率分布函數(shù)有關(guān),熵值越大,每個殘差等級μ對應(yīng)的4×4塊數(shù)分布越均勻。本文的算法在考慮殘差信息分配關(guān)系的基礎(chǔ)上保留全部信息熵模型,選取最大熵自適應(yīng)選擇最佳分割閾值,將閾值設(shè)定風(fēng)險降到最小。對于閾值t∈W,低于閾值的信息熵、高于閾值的信息熵分別表示為
對應(yīng)信息熵為
當(dāng)(EL+EH)最大時即意味著目標(biāo)區(qū)域和背景區(qū)域內(nèi)各自4×4子塊殘差分布具有最大的同一性,如式(12)所示設(shè)定自適應(yīng)最佳閾值T,表示分割4×4前景塊和背景塊的閾值
R
由式(12)可以得到前景4×4邊緣塊與背景塊的分界閾值。式(13)定義了標(biāo)記函數(shù)c(x),對于監(jiān)控視頻場景當(dāng)h(x)大于閾值T,本文認為是該4×4塊為運動對象邊緣塊。
圖5 不同算法分割結(jié)果
采用2個標(biāo)準(zhǔn)測試序列對本文所提出的算法進行性能評估:Hall Monitor(300幀/352×288像素),PetsD2TeC2序列(1 000幀/768×576像素)。根據(jù)實驗需要,拍攝了測試序列F-Building(YUV格式,1 000幀/320×280像素)也用來評價本文算法。本文所有的編碼和解碼工作均在官方參考模型JM12.4版本上進行,幀結(jié)構(gòu)為IPPP…(只有第一幀是I幀),量化參數(shù)(QP)為30,幀率為30 f/s,1個參考幀,運動估計的搜索范圍為[-32,32]。所有的實驗都是在一臺配置為Intel Core i5,CPU 2.4 GHz,裝有微軟XP系統(tǒng)的臺式機上進行。
圖5給出了文獻[4-6]的算法實驗結(jié)果和本文算法視覺效果比較圖。本文用精確度和召回率用來客觀地評估實驗結(jié)果,將這兩個度量值融合成一個F度量(F-measure)衡量本文系統(tǒng)精度。
如表1所示,文獻[4]的算法容易受噪聲運動矢量的影響,其召回率低于本文算法,易出現(xiàn)分割目標(biāo)部分缺失的情況。文獻[5]為未使用基于DCT殘差的邊緣細化,其召回率和本文相當(dāng),但分割精確度小于本文算法。文獻[6]較好地平衡了精確度和召回率,對于目標(biāo)較大的物體(測試序列Hall Monitor)能獲得非常滿意的分割效果,但是對于柔性小運動目標(biāo)(測試序列PetsD2TeC2、F-Building)極易出現(xiàn)分割漏洞。本文算法不依賴于MV,在宏塊級迅速鎖定運動目標(biāo),確保下一步分割的目標(biāo)完整性,進一步根據(jù)應(yīng)用需求進行空域邊緣精細化。對于偶爾的光照突變場景變化較大的環(huán)境,本文算法能很快檢測出來并立即初始化背景模型,防止了運動對象分割的誤差漂移,因此本文算法一般適用于室外監(jiān)控視頻場景。
以上結(jié)果分析得出,本文算法在運動對象提取精確度影響不大的情況下,提高了召回率,獲得了較完整的運動目標(biāo)分割結(jié)果。一般基于MV的壓縮域運動對象分割方法,首先需要進行運動矢量場的預(yù)處理,獲得更為可靠的運動矢量場,進一步提取相關(guān)特征通過建立復(fù)雜的背景模型得到分割效果。本文算法大大降低預(yù)處理環(huán)節(jié)的復(fù)雜度,從宏塊級能直接提取特征MBbits,采用改進的Vibe建立背景模型,系統(tǒng)運行效率提高了約5% ~15%,因此具有一定的實用性。
表1 運動對象提取的客觀數(shù)據(jù)分析
本文提出一種背景建模和運動對象分割方法。引入了Vibe背景模型在H.264壓縮域分割出宏塊級運動對象,進一步根據(jù)提取的DCT殘差系數(shù),通過最大熵自適應(yīng)閾值精細化運動對象邊緣。實驗結(jié)果顯示,本文提出的算法具有良好的分割效果,適用于處理性能要求較高的應(yīng)用領(lǐng)域,具有一定的實用價值。新一代視頻壓縮編碼標(biāo)準(zhǔn)HEVC已經(jīng)發(fā)布,下一步研究任務(wù)將結(jié)合HEVC、動態(tài)背景下的壓縮域運動對象分割、像素域的運動對象分割技術(shù)三點展開,進一步完善算法以順應(yīng)高清監(jiān)控視頻市場。
:
[1] BABU R,RAMAKRISHNAN K,SRINIVASAN S.Video object segmentation:a compressed domain approach[J].IEEE Trans.Circuits and Systems for Video Technology,2004,14(4):462-474.
[2] WANG R,ZHANG H,ZHANG Y.A confidence measure based moving object extraction system built for compressed domain[C]//Proc.ISCAS 2000.Geneva:IEEE Press,2000:21-24.
[3] ZEN H,HASEGA T,OZAWA S.Moving object detection from MPEG coded picture[C]//Proc.ICIP 1999.Kobe:IEEE Press,1999:25-29.
[4] ZENG W,DU J,GAO W,et al.Robust moving object segmentation on H.264/AVC compressed video using the block-based MRF model[J].Real-Time Imaging,2005,11(4):290-299.
[5] CHEN Y,BAJIC I.A joint approach to global motion estimation and motion segmentation from a coarsely sampled motion vector field[J].IEEE Trans.Circuits and Systems for Video Technology,2011,21(9):1316-1328.
[6] CHEN Y,BAJIC I,SAEEDI P.Moving region segmentation from compressed video using global motion estimation and markov random fields[J].IEEE Trans.Multimedia,2011,13(3):421-431.
[7] CHEN Y,BAJIC I,SAEEDI P.Motion segmentation in compressed video using markov random fields[C]//Proc.IEEE ICME 2010.[S.l.]:Press,2010:760-765.
[8] WANG T,LIANG J,WANG X,et al.Background modeling using local binary patterns of motion vector[C]//Proc.VCIP 2012.San Diego,CA:IEEE Press,2012:1-5.
[9]畢厚杰,王健.新一代視頻壓縮編碼標(biāo)準(zhǔn)—H.264/AVC[M].2版.北京:人民郵電出版社,2009.
[10] LIN C,YU C.Image segmentation based on maximum entropy and kernel self-organizing map[C]//Proc.S-CET 2012.Xi’an:IEEE Press,2012:1-4.