楊 洋,滕 游,2,商明將,朱 威,2
1(浙江工業(yè)大學(xué) 信息工程學(xué)院,杭州 310023)2(浙江省嵌入式系統(tǒng)聯(lián)合重點(diǎn)實(shí)驗(yàn)室,杭州 310023)
運(yùn)動(dòng)目標(biāo)檢測(cè)是智能視頻分析中的一個(gè)重要環(huán)節(jié),它可以在像素域或壓縮域中實(shí)現(xiàn)檢測(cè)[1],現(xiàn)有的檢測(cè)方法如幀差法[2]、背景建模法等大多都是在像素域中處理,其中背景建模常用的方法主要有高斯混合模型(GMM)[3]以及視覺(jué)背景提取方法(VIBE)[4].文獻(xiàn)[5]基于改進(jìn)的Surendra背景模型,根據(jù)多幀灰度差設(shè)定兩個(gè)門限值進(jìn)行目標(biāo)檢測(cè).文獻(xiàn)[6]利用K均值算法對(duì)像素建立高斯混合模型,從背景中分離出前景目標(biāo).文獻(xiàn)[7]在VIBE的基礎(chǔ)上,利用三幀差分法自適應(yīng)獲取每個(gè)像素點(diǎn)的閾值,檢測(cè)出了運(yùn)動(dòng)目標(biāo)區(qū)域.這些方法都是在像素域中對(duì)小分辨率視頻進(jìn)行運(yùn)動(dòng)目標(biāo)檢測(cè),處理過(guò)程中需要建立和更新復(fù)雜的模型.
隨著視頻信息技術(shù)的快速發(fā)展,高清、超高清視頻正逐漸進(jìn)入我們的工作和生活,視頻圖像的分辨率也越來(lái)越高.視頻數(shù)據(jù)通常都是以壓縮的格式傳輸和存儲(chǔ),基于像素域的運(yùn)動(dòng)目標(biāo)檢測(cè)方法需要將經(jīng)壓縮的視頻碼流解碼到像素域后再檢測(cè),大幅增加了計(jì)算復(fù)雜度,而基于壓縮域的檢測(cè)方法由于可以利用視頻碼流中的運(yùn)動(dòng)矢量等編碼信息來(lái)實(shí)現(xiàn)檢測(cè),可以有效降低計(jì)算復(fù)雜度.
現(xiàn)有壓縮域中對(duì)運(yùn)動(dòng)特征的檢測(cè)主要是利用以運(yùn)動(dòng)矢量[8]為主的編碼信息進(jìn)行檢測(cè).運(yùn)動(dòng)矢量信息由于是從編碼器的角度中獲取,存在一些噪聲信息,這些噪聲信息并不能表示真正運(yùn)動(dòng)的區(qū)域,所以在對(duì)運(yùn)動(dòng)區(qū)域檢測(cè)之前需要對(duì)獲取到的運(yùn)動(dòng)矢量進(jìn)行預(yù)處理.其中文獻(xiàn)[9]從AVS碼流中碼流中提取出了宏塊與運(yùn)動(dòng)矢量信息得到運(yùn)動(dòng)目標(biāo)軌跡,將背景幀與運(yùn)動(dòng)目標(biāo)軌跡結(jié)合實(shí)現(xiàn)視頻摘要的提取.文獻(xiàn)[10]從H.264碼流中提取出運(yùn)動(dòng)矢量,對(duì)運(yùn)動(dòng)矢量場(chǎng)進(jìn)行空間濾波、Mean-Shift聚類等處理得到運(yùn)動(dòng)目標(biāo).文獻(xiàn)[11]對(duì)視頻流中提取的運(yùn)動(dòng)矢量進(jìn)行規(guī)范化以及特征分析,實(shí)現(xiàn)高速運(yùn)動(dòng)目標(biāo)的檢測(cè).國(guó)際標(biāo)準(zhǔn)化組織ITU-T的視頻編碼專家組(VCEG)和ISO/IEC的運(yùn)動(dòng)圖像專家組(MPEG)于2013年共同推出了新一代的高效率視頻編碼標(biāo)準(zhǔn)(HEVC)[12].與上一代編碼標(biāo)準(zhǔn)H.264相比,HEVC采用了更為靈活的塊劃分編碼技術(shù).目前針對(duì)HEVC壓縮域的檢測(cè)方法研究還比較少.文獻(xiàn)[13]針對(duì)高分辨率視頻,將HEVC編碼得到的運(yùn)動(dòng)矢量進(jìn)行權(quán)重值劃分,利用相鄰前景塊的個(gè)數(shù),檢測(cè)出前景與背景.文獻(xiàn)[14]從HEVC碼流中獲取塊劃分結(jié)構(gòu)與運(yùn)動(dòng)矢量信息,先對(duì)運(yùn)動(dòng)矢量進(jìn)行空域和時(shí)域的標(biāo)簽分類,再利用馬爾可夫(MRF)模型對(duì)標(biāo)簽場(chǎng)進(jìn)行運(yùn)動(dòng)一致性估計(jì),從而得到運(yùn)動(dòng)目標(biāo).文獻(xiàn)[13]與文獻(xiàn)[14]的方法只利用了運(yùn)動(dòng)矢量與劃分結(jié)構(gòu),尚未充分利用預(yù)測(cè)模式等編碼信息,并且還存在整體檢測(cè)效果不佳、計(jì)算復(fù)雜度較高等問(wèn)題.
為了能夠大幅降低檢測(cè)計(jì)算復(fù)雜度的同時(shí)有效檢測(cè)運(yùn)動(dòng)目標(biāo),本文提出了一種HEVC壓縮域的運(yùn)動(dòng)目標(biāo)檢測(cè)方法.該方法利用HEVC編碼過(guò)程中得到的劃分結(jié)構(gòu)、編碼模式與運(yùn)動(dòng)矢量等信息,首先對(duì)運(yùn)動(dòng)矢量進(jìn)行預(yù)處理,接著利用編碼塊的劃分結(jié)構(gòu)與編碼模式在時(shí)域和空域上對(duì)運(yùn)動(dòng)矢量進(jìn)行濾波、膨脹等處理,最后以4×4塊為基本單位對(duì)圖像進(jìn)行運(yùn)動(dòng)檢測(cè),從而得到運(yùn)動(dòng)目標(biāo)區(qū)域.
為了靈活有效地編碼視頻圖像,HEVC采用了新的處理單元?jiǎng)澐謾C(jī)制,包括編碼單元(CU)、預(yù)測(cè)單元(PU)和變換單元(TU).這種劃分機(jī)制有利于編碼器根據(jù)視頻圖像內(nèi)容特點(diǎn)自適應(yīng)選擇最佳的劃分方式.在HEVC中,一幀視頻圖像被劃分成多個(gè)不同大小的正方形CU進(jìn)行編碼,其尺寸可以為64×64、32×32、16×16或8×8,每個(gè)CU又被進(jìn)一步劃分為一個(gè)或多個(gè)PU進(jìn)行預(yù)測(cè),其預(yù)測(cè)模式可以為幀內(nèi)預(yù)測(cè)模式(Intra模式)或幀間預(yù)測(cè)模式(Inter模式).在Intra編碼模式下,每個(gè)PU沒(méi)有運(yùn)動(dòng)矢量;在Inter編碼模式下,每個(gè)PU都有運(yùn)動(dòng)矢量.PU的幀間預(yù)測(cè)模式包括Skip、Merge、2N×2N、N×N、N×2N、2N×N、2N×nU、2N×nD、nL×2N和nR×2N[12],如圖1所示.Skip模塊的塊劃分方式同2N×2N,無(wú)需編碼殘差和運(yùn)動(dòng)矢量.
圖1 PU預(yù)測(cè)模式劃分Fig.1 Division of PU prediction mode
HEVC在幀間預(yù)測(cè)環(huán)節(jié)采用了運(yùn)動(dòng)估計(jì)技術(shù),該技術(shù)對(duì)預(yù)測(cè)塊在某個(gè)搜索范圍內(nèi)搜尋與其最相似的匹配塊,匹配塊到當(dāng)前塊的位移即為運(yùn)動(dòng)矢量,它能夠反映出物體的運(yùn)動(dòng)信息.因此,可利用運(yùn)動(dòng)矢量信息來(lái)實(shí)現(xiàn)運(yùn)動(dòng)目標(biāo)檢測(cè).圖2為BasketballDrill序列經(jīng)過(guò)編碼后第5幀的中心區(qū)域,可以看出運(yùn)動(dòng)員所在區(qū)域CU的尺寸大多都為16×16或8×8,而背景部分大多都為64×64或32×32,即運(yùn)動(dòng)活躍性較大的區(qū)域CU尺寸相對(duì)較小,運(yùn)動(dòng)活躍性較小的區(qū)域CU尺寸相對(duì)較大.圖2中有箭頭的塊表示該塊存在運(yùn)動(dòng)矢量且箭頭的方向?yàn)檫\(yùn)動(dòng)矢量的方向,運(yùn)動(dòng)員身上的運(yùn)動(dòng)矢量一致性較高,但運(yùn)動(dòng)員周圍的背景部分存在不少的運(yùn)動(dòng)矢量噪聲,需要將其濾除,否則會(huì)影響運(yùn)動(dòng)目標(biāo)檢測(cè)的精度.
圖2 BasketballDrill序列編碼后的運(yùn)動(dòng)矢量Fig.2 Motion vectors after the coding of basketballDrill sequence
圖3 本文方法流程框圖Fig.3 Flow chart of the proposed method
根據(jù)HEVC編碼信息的特征以及前一節(jié)對(duì)編碼信息的分析,本節(jié)提出了一種運(yùn)動(dòng)目標(biāo)檢測(cè)方法,該方法的處理流程如圖3所示.首先輸入一幀編碼信息,對(duì)運(yùn)動(dòng)矢量進(jìn)行預(yù)處理,并判斷當(dāng)前幀是否有全局運(yùn)動(dòng),若存在,則結(jié)束當(dāng)前幀處理,否則對(duì)當(dāng)前幀的運(yùn)動(dòng)矢量幅值進(jìn)行空間中值濾波,從整體上對(duì)噪聲進(jìn)行濾除;接著進(jìn)行基于塊尺寸的幅值濾波、基于Skip模式的幅值濾波、以及更新Intra模式的運(yùn)動(dòng)矢量幅值,以達(dá)到局部上更精細(xì)的濾波;然后對(duì)運(yùn)動(dòng)區(qū)域進(jìn)行膨脹,使空洞區(qū)域形成連通;完成空域上的處理之后,再進(jìn)行時(shí)間域上的幅值濾波,最終實(shí)現(xiàn)運(yùn)動(dòng)目標(biāo)的檢測(cè).
本文方法先獲取當(dāng)前幀亮度分量的運(yùn)動(dòng)矢量、劃分結(jié)構(gòu)與編碼模式信息,建立當(dāng)前幀的運(yùn)動(dòng)矢量圖與編碼模式圖.在HEVC編碼過(guò)程中,最小的幀間PU尺寸為8×4和4×8,因此本文方法取運(yùn)動(dòng)矢量的基本粒度為4×4塊.考慮到運(yùn)動(dòng)目標(biāo)檢測(cè)多應(yīng)用于視頻監(jiān)控等低延時(shí)應(yīng)用場(chǎng)景,較少使用雙向預(yù)測(cè)的B幀,因此本文選用的幀類型為前向預(yù)測(cè)的P幀.
由于攝像機(jī)在拍攝視頻的過(guò)程中可能存在全局的轉(zhuǎn)動(dòng)或者距離前景運(yùn)動(dòng)物體很近,導(dǎo)致視頻畫面存在全局運(yùn)動(dòng)或者運(yùn)動(dòng)范圍很大,通過(guò)編碼信息較難獲取到真實(shí)運(yùn)動(dòng)的區(qū)域.本文方法主要是針對(duì)視頻監(jiān)控等背景基本靜止的視頻場(chǎng)景,為了能準(zhǔn)確地檢測(cè)出真正的運(yùn)動(dòng)區(qū)域,需要判斷當(dāng)前畫面是否存在全局運(yùn)動(dòng).首先對(duì)當(dāng)前幀所有4×4塊水平和垂直方向上的運(yùn)動(dòng)矢量分別進(jìn)行排序,選取中值作為水平方向的全局運(yùn)動(dòng)矢量值GMVx和垂直方向的全局運(yùn)動(dòng)矢量值GMVy.接著用Tgmv表示全局運(yùn)動(dòng)矢量閾值,若GMVx與GMVy都位于[-Tgmv,Tgmv]之間,則認(rèn)為視頻圖像沒(méi)有全局運(yùn)動(dòng),則對(duì)每個(gè)4×4塊進(jìn)行按照式(1)處理得到運(yùn)動(dòng)矢量幅值圖,否則當(dāng)前幀不處理:
MVamp=|MVx|+|MVy|
(1)
其中MVamp表示4×4塊的運(yùn)動(dòng)矢量幅值,MVx與MVy分別表示水平與垂直方向上的運(yùn)動(dòng)矢量,由于HEVC是采用四分之一像素精度運(yùn)動(dòng)補(bǔ)償,運(yùn)動(dòng)矢量幅值的單位為四分之一像素位移.Tgmv為全局運(yùn)動(dòng)矢量閾值,本文中取值為2,即全局運(yùn)動(dòng)矢量小于等于二分之一像素位移時(shí)判定當(dāng)前幀沒(méi)有全局運(yùn)動(dòng).
由于采用率失真優(yōu)化技術(shù),HEVC編碼后的視頻圖像在靜止區(qū)域中會(huì)存在一些運(yùn)動(dòng)矢量噪聲,這些噪聲相對(duì)孤立,而真實(shí)運(yùn)動(dòng)的物體是以區(qū)域的形式在圖像中表現(xiàn),因此本小節(jié)利用相鄰PU塊的運(yùn)動(dòng)矢量信息,將在空域上孤立的運(yùn)動(dòng)矢量噪聲濾除.
圖4 參考?jí)K位置Fig.4 Position of reference blocks
選取當(dāng)前PU中左上角4×4塊的運(yùn)動(dòng)矢量幅值作為當(dāng)前PU的運(yùn)動(dòng)矢量幅值,記作MVpu.根據(jù)當(dāng)前幀最終的PU劃分形式,以PU為單位對(duì)當(dāng)前幀所有4×4塊的運(yùn)動(dòng)矢量幅值進(jìn)行空間中值濾波.若當(dāng)前PU不在圖像邊界,則選取與當(dāng)前PU中左上角4×4塊左側(cè)相鄰和上側(cè)相鄰的4×4塊,右上角4×4塊右側(cè)相鄰的4×4塊以及左下角4×4塊下側(cè)相鄰的4×4塊作為中值濾波參考?jí)K,參考方式如圖4所示,并獲取這四個(gè)參考?jí)K的MVamp.將這四個(gè)參考?jí)K的運(yùn)動(dòng)矢量幅值與MVpu一起進(jìn)行排序,選取中值作為當(dāng)前PU中所有4×4塊的運(yùn)動(dòng)矢量幅值.若當(dāng)前PU塊位于圖像的邊界且非四個(gè)頂角處,則選取圖4中存在的三個(gè)參考?jí)K,將這三個(gè)參考?jí)K的運(yùn)動(dòng)矢量幅值進(jìn)行排序,選取中值作為當(dāng)前PU中所有4×4塊的運(yùn)動(dòng)矢量幅值.若當(dāng)前PU塊位于圖像的頂角處,則選取圖4中存在的兩個(gè)參考?jí)K,將這兩個(gè)參考?jí)K的運(yùn)動(dòng)矢量幅值與MVpu一起進(jìn)行排序,選取中值作為當(dāng)前PU中所有4×4塊的運(yùn)動(dòng)矢量幅值.
經(jīng)過(guò)前面的中值濾波可以將周圍運(yùn)動(dòng)矢量幅值為零的非零運(yùn)動(dòng)矢量噪聲濾掉,但依然存在區(qū)域性幅值較小的運(yùn)動(dòng)矢量噪聲,這些噪聲也不能表示真實(shí)的運(yùn)動(dòng)目標(biāo).根據(jù)第2節(jié)的分析,運(yùn)動(dòng)活躍性較小的區(qū)域CU尺寸相對(duì)較大,因此本小節(jié)利用編碼塊的尺寸進(jìn)行進(jìn)一步的濾波.
利用每個(gè)PU所屬CU的尺寸對(duì)每個(gè)PU的4×4塊按式(2)進(jìn)行基于塊尺寸的運(yùn)動(dòng)矢量幅值濾波,式中CUsize表示所屬CU的尺寸;T64、T32、T16、T8分別表示CUsize為64×64、32×32、16×16、8×8時(shí)的濾波閾值,三者關(guān)系需滿足式(3).
(2)
T64≥T32≥T16≥T8
(3)
根據(jù)第2節(jié)的運(yùn)動(dòng)分析可知顯著運(yùn)動(dòng)的前景目標(biāo)其運(yùn)動(dòng)幅度大都不會(huì)小于一個(gè)像素,因此本文中T64、T32、T16、T8分別取值為4、2、1、0,即當(dāng)CUsize為64×64、32×32、16×16時(shí),小于等于一個(gè)像素、二分之一像素、四分之一像素的運(yùn)動(dòng)矢量幅值被認(rèn)為是噪聲.由于8×8是最小的CU劃分,其運(yùn)動(dòng)活躍性相對(duì)較大,因此本文方法不對(duì)其進(jìn)行濾波,保留其運(yùn)動(dòng)特征.
在顯著運(yùn)動(dòng)的區(qū)域中,PU預(yù)測(cè)方式大部分不會(huì)選擇Skip模式,而當(dāng)PU的預(yù)測(cè)模式為Skip模式時(shí)它會(huì)選取相鄰已有的運(yùn)動(dòng)矢量來(lái)作為自身運(yùn)動(dòng)矢量,如果只對(duì)Skip模式自身的運(yùn)動(dòng)矢量進(jìn)行處理,這樣的區(qū)域也會(huì)被判定為運(yùn)動(dòng)區(qū)域.因此,本小節(jié)根據(jù)Skip模式的運(yùn)動(dòng)特性分析,利用相鄰PU的預(yù)測(cè)模式對(duì)這部分噪聲進(jìn)行濾除,對(duì)于所有預(yù)測(cè)模式為Skip模式的PU進(jìn)行運(yùn)動(dòng)矢量幅值濾波.
若當(dāng)前PU不在圖像邊界,則先選取當(dāng)前PU在圖4中的四個(gè)4×4塊作為Skip模式PU參考?jí)K,接著統(tǒng)計(jì)這四個(gè)參考?jí)K所屬四個(gè)PU中編碼模式為Skip模式的個(gè)數(shù)Numskip,最后對(duì)當(dāng)前PU中所包含的4×4塊按式(4)更新MVamp:
(4)
式中Tskip為基于Skip模式的幅值濾波閾值.由于運(yùn)動(dòng)區(qū)域也會(huì)存在較為平坦的部分,如人的頭發(fā)、皮膚、顏色單一的衣服等相關(guān)區(qū)域,這些區(qū)域在小范圍內(nèi)運(yùn)動(dòng)時(shí)也會(huì)選擇Skip預(yù)測(cè)模式,而這部分也應(yīng)當(dāng)成為運(yùn)動(dòng)區(qū)域.經(jīng)實(shí)驗(yàn)分析,本文Tskip取值為4,以進(jìn)行嚴(yán)格的Skip模式濾波,在濾除Skip模式運(yùn)動(dòng)矢量噪聲的同時(shí),保證運(yùn)動(dòng)區(qū)域的平坦部分不會(huì)被濾掉.若當(dāng)前PU為圖像邊界PU,則將所包含4×4塊的運(yùn)動(dòng)矢量幅值直接設(shè)為0,減少對(duì)運(yùn)動(dòng)目標(biāo)檢測(cè)的干擾.
HEVC在進(jìn)行編碼預(yù)測(cè)時(shí)會(huì)根據(jù)率失真代價(jià)來(lái)選擇最佳的編碼模式,在一些幀間預(yù)測(cè)率失真代價(jià)較大的運(yùn)動(dòng)區(qū)域中,也會(huì)存在Intra模式的CU,而這部分CU同樣需要成為運(yùn)動(dòng)區(qū)域的一部分.因此,本小節(jié)利用相鄰4×4塊的編碼信息來(lái)判斷每個(gè)Intra模式的CU是否位于運(yùn)動(dòng)區(qū)域.
首先將前一小節(jié)得到的濾波后運(yùn)動(dòng)矢量幅值圖中所有的非零運(yùn)動(dòng)矢量幅值進(jìn)行排序,取中值作為Intra模式CU的運(yùn)動(dòng)矢量幅值的參考值,記為MVIntra.對(duì)當(dāng)前幀中的每個(gè)Intra模式CU,選取當(dāng)前CU在圖4中的存在的4×4塊作為Intra模式CU參考?jí)K.統(tǒng)計(jì)這些參考?jí)K中運(yùn)動(dòng)矢量幅值大于Tamp的個(gè)數(shù)Tnum1,以及參考?jí)K中對(duì)應(yīng)CU的編碼模式為Intra模式的個(gè)數(shù)Tnum2,計(jì)算Tnum1與Tnum2的和,記為Tnum.本文中Tamp取值為4,即將周圍塊運(yùn)動(dòng)矢量幅值大于一個(gè)像素位移的當(dāng)作真實(shí)的運(yùn)動(dòng)區(qū)域來(lái)統(tǒng)計(jì).在當(dāng)前CU為非邊界CU時(shí),若Tnum大于1,表示當(dāng)前CU周圍存在運(yùn)動(dòng)區(qū)域,則將當(dāng)前CU下所有4×4塊的MVamp設(shè)為MVIntra,否則設(shè)為0.在當(dāng)前CU為邊界CU時(shí),若Tnum不為0,表示當(dāng)前CU周圍存在運(yùn)動(dòng)區(qū)域,則將當(dāng)前CU下所有4×4塊的MVamp設(shè)為MVIntra,否則設(shè)為0.
由于運(yùn)動(dòng)矢量是基于PU塊得出的,因此經(jīng)過(guò)上面的處理之后運(yùn)動(dòng)區(qū)域的塊可能被濾掉,導(dǎo)致運(yùn)動(dòng)目標(biāo)的檢測(cè)存在空洞.根據(jù)第2節(jié)的運(yùn)動(dòng)分析可知16×16、8×8的劃分大小運(yùn)動(dòng)活躍性相對(duì)較高,本文采用5×5鄰域膨脹的方法對(duì)由4×4塊組成的運(yùn)動(dòng)區(qū)域進(jìn)行膨脹,使得小于16×16像素的運(yùn)動(dòng)區(qū)域空洞形成連通.HEVC中最小的幀間PU尺寸為8×4和4×8,所以在5×5鄰域內(nèi)采用圖5中灰色部分的間隔方式選擇膨脹參考?jí)K,該方式與全選擇的效果相同,所有情況均能覆蓋,且能減少統(tǒng)計(jì)塊個(gè)數(shù).
圖5 5×5鄰域膨脹模板Fig.5 Expansion template of 5×5 neighborhood
對(duì)當(dāng)前幀中每個(gè)4×4塊,若其MVamp不為0,則該塊的MVamp保持不變,否則根據(jù)圖5選擇存在的參考?jí)K,統(tǒng)計(jì)這些參考?jí)K中MVamp非0的個(gè)數(shù)NZnum1,若NZnum1為0,即當(dāng)前塊5×5鄰域內(nèi)沒(méi)有運(yùn)動(dòng)區(qū)域,則膨脹之后的MVamp仍為0,否則先獲取這些參考?jí)K中最小且非0的MVamp,記為MinMVamp,再將膨脹后的MVamp設(shè)置為MinMVamp.圖6所示為BasketballDrill序列第23幀膨脹前后效果對(duì)比,可以看出圖6(a)中運(yùn)動(dòng)員的身體以及球的中間存在空洞區(qū)域,而圖6(b)中這些空洞區(qū)域?qū)崿F(xiàn)連通,檢測(cè)完整性得到了提升.
運(yùn)動(dòng)矢量噪聲在時(shí)域上是孤立存在的,而物體的運(yùn)動(dòng)是存在時(shí)域連續(xù)性,即當(dāng)前幀的某一塊區(qū)域存在運(yùn)動(dòng),那么上一幀相應(yīng)塊的鄰近區(qū)域也很有可能會(huì)存在著運(yùn)動(dòng).因此本小節(jié)利用相鄰幀在時(shí)域上的相關(guān)性進(jìn)一步濾除運(yùn)動(dòng)矢量噪聲.
圖6 膨脹效果對(duì)比Fig.6 Comparison of expansion effect
在前一步獲取到的當(dāng)前幀膨脹后的運(yùn)動(dòng)矢量幅值圖中,對(duì)每個(gè)4×4塊,若其運(yùn)動(dòng)矢量幅值為0,則濾波之后的運(yùn)動(dòng)矢量幅值仍為0,否則先選取當(dāng)前4×4塊在前一幀膨脹后的運(yùn)動(dòng)矢量幅值圖中相同位置4×4塊,以及此位置8鄰域中存在的4×4塊組成時(shí)間域?yàn)V波參考?jí)K,接著統(tǒng)計(jì)參考?jí)K中運(yùn)動(dòng)矢量幅值非零的個(gè)數(shù),記為NZnum2,最后對(duì)當(dāng)前4×4塊的運(yùn)動(dòng)矢量幅值按照式(5)進(jìn)行更新.圖7為BasketballDrill序列第17幀時(shí)間域?yàn)V波效果對(duì)比,可以看出圖7(a)中左側(cè)非運(yùn)動(dòng)區(qū)域存在較多的噪聲,而圖7(b)中經(jīng)過(guò)時(shí)間域?yàn)V波后這些噪聲被濾除掉了,并且運(yùn)動(dòng)員邊緣部分的檢測(cè)精度也得到了提升.
圖7 時(shí)間域?yàn)V波效果對(duì)比Fig.7 Comparison of time domain filtering effect
(5)
本實(shí)驗(yàn)的開發(fā)環(huán)境為Visual Studio2012,HEVC編碼參考軟件為X265_1.8.測(cè)試的處理器為Intel Core i5-4590,主頻3.30GHz.X265編碼器的配置如下:幀率30fps,無(wú)B幀且I幀后面全是P幀,關(guān)閉WPP功能,開啟AMP與Rect劃分方式.實(shí)驗(yàn)選取了兩個(gè)HEVC標(biāo)準(zhǔn)視頻序列BasketballDrill和BQMall,以及一個(gè)本文錄制的視頻序列,這三個(gè)序列的背景均靜止.BasketballDrill序列的分辨率為832×480,所在場(chǎng)景為籃球運(yùn)動(dòng)員訓(xùn)練場(chǎng)景,有多個(gè)運(yùn)動(dòng)目標(biāo)、并且目標(biāo)運(yùn)動(dòng)速度都較快.BQMall序列的分辨率也為832×480,所在場(chǎng)景為人物在商場(chǎng)走動(dòng)的場(chǎng)景,有多個(gè)運(yùn)動(dòng)目標(biāo)且運(yùn)動(dòng)目標(biāo)較大,序列中存在沒(méi)有運(yùn)動(dòng)的人以及人在玻璃上的倒影,這些不納入到真實(shí)的前景運(yùn)動(dòng)目標(biāo)中.本文錄制的視頻分辨率為1920×1080,所在場(chǎng)景為人物走動(dòng),只有一個(gè)較小的運(yùn)動(dòng)目標(biāo).
圖8 BasketballDrill序列對(duì)比圖Fig.8 Comparison chart of four methods for basketballdrill sequence
圖8至圖10分別給出了本文方法與三種經(jīng)典的像素域運(yùn)動(dòng)目標(biāo)檢測(cè)方法在三個(gè)序列下的主觀效果比較,其中真實(shí)前景groundtruth[13]均為手動(dòng)標(biāo)定.圖8為BasketballDrill序列第29幀對(duì)比圖,圖8(a)為原始幀,圖8(b)為groundtruth,圖8(c)為三幀幀差法的檢測(cè)結(jié)果,圖8(d)為高斯混合模型GMM的檢測(cè)結(jié)果,圖8(e)為視覺(jué)背景提取方法VIBE的檢測(cè)結(jié)果,圖8(f)為本文方法的檢測(cè)結(jié)果.從圖8中可以看出三幀幀差法、GMM和VIBE在背景區(qū)域有較多的噪聲.本文方法在背景區(qū)域沒(méi)有噪聲,是由于本文在時(shí)域和空域上對(duì)運(yùn)動(dòng)矢量進(jìn)行了濾波,使得背景區(qū)域的噪聲被濾掉.但由于球的運(yùn)動(dòng)速度過(guò)快導(dǎo)致球的邊緣部分在時(shí)間域?yàn)V波操作時(shí)被濾掉了,未能完整地檢測(cè)出.
圖9 BQMall序列對(duì)比圖Fig.9 Comparison chart of four methods for BQMall sequence
圖9為BQMall序列第7幀對(duì)比圖,從圖中可以看到三幀幀差法與GMM對(duì)檢測(cè)的目標(biāo)存在較大空洞的問(wèn)題,人物的完整性檢測(cè)較差,這主要因?yàn)槿松砩洗嬖陬伾嘟鼌^(qū)域,運(yùn)動(dòng)時(shí)這些區(qū)域在小范圍內(nèi)變化不大,而本文采取了膨脹的方法使得空洞的部分連通,因此檢測(cè)的完整性較好.由于場(chǎng)景中有較多的玻璃,人在走動(dòng)的時(shí)候玻璃上的倒影也會(huì)運(yùn)動(dòng),三幀幀差法與GMM在背景區(qū)域還存在不少噪聲,本文方法也在當(dāng)前幀的右邊出現(xiàn)一些錯(cuò)誤檢測(cè).
圖10 本文錄制序列對(duì)比圖Fig.10 Comparison chart of four methods for our sequence
圖10為錄制序列第179幀對(duì)比圖,由于人的腿部運(yùn)動(dòng)幅度不大,所以幀差法檢測(cè)效果不明顯.GMM對(duì)光照的變化較為敏感,因此在背景區(qū)域存在較多噪聲,而且人的周圍還存在“鬼影”的現(xiàn)象.VIBE在人的身上存在較多的空洞,對(duì)目標(biāo)的完整性檢測(cè)較差.由于本文方法采用了時(shí)域和空域上的濾波,因此背景區(qū)域沒(méi)有噪聲,且完整性較好.
為了比較四種方法在三個(gè)序列下的客觀檢測(cè)效果,本文采用檢測(cè)精度Precision、召回率Recall和F-measure來(lái)衡量檢測(cè)方法的客觀性能[14-16].檢測(cè)精度Precision是指檢測(cè)到的真實(shí)像素點(diǎn)數(shù)占檢測(cè)到的所有樣本點(diǎn)數(shù)的比例,精度越高表示錯(cuò)誤檢測(cè)的點(diǎn)數(shù)越少.召回率Recall表示檢測(cè)正確的像素點(diǎn)數(shù)占整個(gè)groundtruth的比例,召回率越高表示對(duì)運(yùn)動(dòng)目標(biāo)的檢測(cè)能力越強(qiáng),F(xiàn)-measure是對(duì)Precision與Recall綜合性能的一個(gè)比較,相關(guān)計(jì)算如式(6)、式(7)和式(8):
(6)
(7)
(8)
其中TP為正確檢測(cè)樣本像素點(diǎn)數(shù),F(xiàn)P為錯(cuò)誤檢測(cè)樣本像素點(diǎn)數(shù),F(xiàn)N為錯(cuò)誤檢測(cè)的負(fù)樣本像素點(diǎn)數(shù).三個(gè)序列選取了連續(xù)的30幀典型片段進(jìn)行統(tǒng)計(jì),其中BasketballDrill序列為第15~44幀,BQMall序列為第6~35幀,錄制序列為第149~178幀.
圖11 BQMall序列曲線對(duì)比圖Fig.11 Comparison curves of four methods for BQMall sequence
圖11為BQMall序列三個(gè)客觀指標(biāo)的曲線對(duì)比圖,由于該序列前面若干幀的運(yùn)動(dòng)目標(biāo)存在較多顏色相近的區(qū)域且目標(biāo)運(yùn)動(dòng)幅度不是很明顯,可以看到GMM與三幀差的檢測(cè)較差,而本文方法顯示出了較強(qiáng)的檢測(cè)穩(wěn)定性,而且在損失較少的Precision下,Recall和F-measure均明顯優(yōu)于其它三種方法.表1為四種方法的比較結(jié)果,從表1中可以看出本文方法的平均Recall達(dá)到了93%,遠(yuǎn)高于其它三種方法;相比三幀幀差法、GMM和VIBE,平均F-measure分別提高了44%、8%和4%.由于本方法是基于編碼塊進(jìn)行劃分的,對(duì)運(yùn)動(dòng)物體的邊緣處理不夠精細(xì),因此檢測(cè)精度Precision稍低于其它三種方法.表2為四種方法對(duì)每幀的平均處理時(shí)間進(jìn)行比較,每個(gè)序列統(tǒng)計(jì)的處理總幀數(shù)為200幀.從表2中可以看出本文方法每幀平均處理時(shí)間在832×480與1920×1080分辨率下分別為三幀幀差法時(shí)間的68%與85%、GMM時(shí)間的5%與8%、VIBE時(shí)間的17%與27%.上述比較分析說(shuō)明本文方法在較小的精度損失下大幅地減少了檢測(cè)時(shí)間,具有更好的實(shí)時(shí)性,并且提高了對(duì)目標(biāo)的檢測(cè)能力,綜合性能也優(yōu)于其它三種方法.
表1 四種方法Precision、Recall、F-measure比較Table 1 Comparison of Precision,Recall and F-measure for four methods
表2 四種方法平均處理時(shí)間(ms /幀)Table 2 Comparison of average processing time for four methods
本文利用HEVC壓縮域中的編碼信息,提出了一種運(yùn)動(dòng)目標(biāo)檢測(cè)方法.首先從HEVC壓縮域中提取出運(yùn)動(dòng)矢量、劃分結(jié)構(gòu)以及編碼模式等編碼信息,通過(guò)運(yùn)動(dòng)矢量判斷當(dāng)前幀是否存在全局運(yùn)動(dòng),并對(duì)當(dāng)前幀的運(yùn)動(dòng)矢量求取幅值得到運(yùn)動(dòng)矢量幅值圖;接著利用CU的尺寸、PU的劃分信息和編碼模式對(duì)運(yùn)動(dòng)矢量幅值進(jìn)行濾波以及進(jìn)行Intra編碼塊的處理;然后對(duì)運(yùn)動(dòng)矢量幅值圖進(jìn)行膨脹;最后利用相鄰幀的相關(guān)性在時(shí)域上對(duì)運(yùn)動(dòng)矢量進(jìn)行濾波,得到當(dāng)前幀的運(yùn)動(dòng)目標(biāo)區(qū)域.與傳統(tǒng)的像素域檢測(cè)方法三幀幀差法、GMM和VIBE方法相比,本文方法整體上對(duì)運(yùn)動(dòng)目標(biāo)具有更好的檢測(cè)效果,而且大幅的降低了計(jì)算復(fù)雜度,更加適合于對(duì)分辨率和實(shí)時(shí)性要求較高的應(yīng)用場(chǎng)合.當(dāng)然本文方法還存在一些問(wèn)題,尤其是對(duì)快速運(yùn)動(dòng)目標(biāo)和目標(biāo)邊緣的處理效果都還需要提升,我們將在后續(xù)的工作中進(jìn)一步研究和完善.
:
[1] Qi B,Ghazal M,Amer A.Robust global motion estimation oriented to video object segmentation[J].IEEE Transactions on Image Processing,2008,17(6):958-967.
[2] Zhuang Y,Wu C,Zhang Y,et al.Realization of moving object detection and tracking algorithm based on frame difference method and particle filter algorithm[C].Chinese Control and Decision Conference,2017:161-166.
[3] Thangarajah A,Wu Q M J,Huo J.A unified threshold updating strategy for multivariate gaussian mixture based moving object detection [C].International Conference on High Performance Computing & Simulation,2016:570-574.
[4] Barnich Olivier,Van Droogenbroeck Marc.ViBe:a universal background subtraction algorithm for video sequences[J].IEEE Transactions on Image Processing,2011,20(6):1709-1724.
[5] Wang Kai,Wu Min,Yao Hui,et al.Moving target detection method based on multi-frame background subtraction and double threshold [J].Journal of Chinese Computer Systems,2017,38(1):179-183.
[6] Mushawwir L A,Supriana I.Gaussian mixture model and spatial-temporal evaluation for object detection and tracking in video surveillance system[C].IEEE International Conference on Information Technology Systems and Innovation,2016:1-7.
[7] He Zhi-hui,Huang Shan,Ran Geng.An improved visual background extractor model for moving object detection algorithm [J].Journal of Chinese Computer Systems,2015,36(11):2559-2562.
[8] Babu R V,Ramakrishnan K R,Srinivasan S H.Video object segmentation:a compressed domain approach[J].IEEE Transactions on Circuits & Systems for Video Technology,2004,14(4):462-474.
[9] Zhao Lei,Huang Hua.Compressed domain synopsis research in AVS surveillance profile[J].Computer Science,2016,43(7):46-50.
[10] Sun Le,Dai Ming,Li Gang,et al.An algorithm of mean-shift clustering-based moving object segmentation in H.264 compression domain[J].Journal of Optoelectronics Laser,2013,24(11):2205-2211.
[11] Mu Chun-di,Xie Jian-bin,Yan Wei,et al.Detecting high-speed moving targets in moving camera environments[J].Journal of Image and Graphics,2015,20(3):349-356.
[12] Sullivan G J,Ohm J,Han W J,et al.Overview of the high efficiency video coding(HEVC)standard[J].IEEE Transactions on Circuits & Systems for Video Technology,2012,22(12):1649-1668.
[13] Praeter J D,Vyver J V D,Kets N V,et al.Moving object detection in the HEVC compressed domain for ultra-high-resolution interactive video[C].IEEE International Conference on Consumer Electronics,2017:135-136.
[14] Niu Zhi-guo,Liang Jiu-zhen,Wu Qin.Moving object segmentation methord based on block in HEVC compressed domain[J].Computer Engineering and Applications,2016,52(14):202-208.
[15] Amit S N K B,Aoki Y.High precision road segmentation for cover level of forward view estimation via stereo camera[C].Asian Control Conference,2015:1-6.
[16] Zhou W,Song T,Lin L,et al.Multi-scale contrast-based saliency enhancement for salient object detection[J].Iet Computer Vision,2014,8(3):207-215.
附中文參考文獻(xiàn):
[5] 王 凱,吳 敏,姚 輝,等.多幀背景差與雙門限結(jié)合的運(yùn)動(dòng)目標(biāo)檢測(cè)方法[J].小型微型計(jì)算機(jī)系統(tǒng),2017,38(1):179-183.
[7] 何志輝,黃 山,冉 耕.一種改進(jìn)視覺(jué)背景提取模型的運(yùn)動(dòng)目標(biāo)檢測(cè)算法[J].小型微型計(jì)算機(jī)系統(tǒng),2015,36(11):2559-2562.
[9] 趙 磊,黃 華.AVS監(jiān)控檔視頻的壓縮域摘要研究[J].計(jì)算機(jī)科學(xué),2016,43(7):46-50.
[10] 孫 樂(lè),戴 明,李 剛,等.H.264壓縮域中mean-shift聚類運(yùn)動(dòng)目標(biāo)檢測(cè)算法[J].光電子·激光,2013,24(11):2205-2211.
[11] 穆春迪,謝劍斌,閆 瑋,等.面向動(dòng)攝像機(jī)的高速運(yùn)動(dòng)目標(biāo)檢測(cè)[J].中國(guó)圖象圖形學(xué)報(bào),2015,20(3):349-356.
[14] 牛志國(guó),梁久禎,吳 秦.基于塊劃分的HEVC運(yùn)動(dòng)目標(biāo)檢測(cè)方法[J].計(jì)算機(jī)工程與應(yīng)用,2016,52(14):202-208.