郭治成,黨建武*,金 靜
(1. 蘭州交通大學(xué) 電子與信息工程學(xué)院,蘭州 730070;2. 甘肅省人工智能與圖形圖像處理工程研究中心,蘭州 730070)
運(yùn)動(dòng)目標(biāo)檢測(cè)通過快速、完整地獲取視頻序列中的運(yùn)動(dòng)物體,為檢測(cè)目標(biāo)[1]、跟蹤目標(biāo)[2]和分析理解目標(biāo)行為[3]等算法提供研究基礎(chǔ),是計(jì)算機(jī)視覺處理的研究熱點(diǎn)和難點(diǎn)之一,在智能監(jiān)控、智慧城市等諸多場(chǎng)景都有廣泛的應(yīng)用.國內(nèi)外學(xué)者提出了許多目標(biāo)檢測(cè)的算法,其中主要有幀間差分法[4]、LK光流法[5]和基于背景差分方法[6-7]等.幀差法通過時(shí)間序列上相鄰幀或連續(xù)幾幀之間差分運(yùn)算獲取前景目標(biāo),算法運(yùn)算快、實(shí)時(shí)性較強(qiáng),但檢測(cè)結(jié)果容易出現(xiàn)空洞,無法提取目標(biāo)完整的內(nèi)部信息.LK光流法源自光流場(chǎng),通過計(jì)算各像素點(diǎn)在不同幀之間位移矢量特征的差異得到前景目標(biāo),目標(biāo)獲取較為完整,但計(jì)算量大、復(fù)雜度較高,無法滿足實(shí)時(shí)性.背景差分法是運(yùn)動(dòng)目標(biāo)檢測(cè)最為常用的方法,利用已知幀構(gòu)建和更新穩(wěn)定的背景模型,將背景模型與檢測(cè)幀做差分并檢測(cè)前景目標(biāo),算法復(fù)雜度較低,能夠較為準(zhǔn)確提取目標(biāo).
背景差分法的檢測(cè)性能取決于穩(wěn)健的背景模型,背景模型的初始化和更新算法決定算法性能.國內(nèi)外很多學(xué)者深入研究了如何建立穩(wěn)健高效的背景模型[8-10],主要分為以單高斯背景模型SGM(semi-global matching,SGM)、混合高斯背景模型GMM(gaussian mixture model,GMM)[11]等為代表的參數(shù)化方法和以碼本模型CodeBook[12]、像素自適應(yīng)分割模型PBAS(pixel-based adaptive segmentervisual,PBAS)[13]、ViBe(visual background extractor)[14]等為代表的非參數(shù)化方法.混合高斯背景模型采用多個(gè)高斯分布描述像素變化,能夠較好的處理多峰分布的背景,但調(diào)整閾值難度較高,計(jì)算復(fù)雜度高,無法達(dá)到實(shí)時(shí)性.CodeBook為圖像序列中每個(gè)像素建立碼本結(jié)構(gòu),每個(gè)碼本中又包含多個(gè)碼字,處理局部區(qū)域時(shí)間周期性起伏效果較好,復(fù)雜度不高,但內(nèi)存消耗量大,更新碼字后易造成目標(biāo)檢測(cè)錯(cuò)誤,無法自適應(yīng)檢測(cè)復(fù)雜背景.PBAS引入控制論思想和背景復(fù)雜程度度量方法,處理復(fù)雜背景有較好的效果,但判斷前景閾值和計(jì)算更新率復(fù)雜度較高,處理速度慢,實(shí)時(shí)性較差.Barnich提出ViBe算法依據(jù)像素鄰域空間內(nèi)的相關(guān)特性用一幀將背景模型初始化,更新采用隨機(jī)策略調(diào)整背景模型,計(jì)算復(fù)雜度低,實(shí)時(shí)性較強(qiáng),但易產(chǎn)生ghost區(qū)域,固定閾值導(dǎo)致召回率較低,檢測(cè)結(jié)果中易產(chǎn)生孔洞.
目前在背景動(dòng)態(tài)變化程度較大時(shí)大多數(shù)背景建模算法(如:CodeBook、ViBe等)檢測(cè)效果不夠理想,提取前景目標(biāo)和識(shí)別正確背景往往引起誤匹配,出現(xiàn)大量的假前景,魯棒性較差.有些算法在背景動(dòng)態(tài)變化程度較大時(shí)表現(xiàn)出較好的檢測(cè)效果(如:GMM、PBAS等),但算法復(fù)雜度高、計(jì)算量大、實(shí)時(shí)性差.本文提出一種基于自適應(yīng)復(fù)雜場(chǎng)景的背景建模算法,采集視頻前5幀圖像快速初始化背景模型,通過后續(xù)幀獲取像素的分布特征更新背景模型,降低噪聲和邊緣像素對(duì)模型的影響,改善初始化易造成ghost現(xiàn)象的問題,提出自適應(yīng)離散系數(shù),降低在復(fù)雜場(chǎng)景中提取前景目標(biāo)的難度,減少了目標(biāo)空洞和假目標(biāo),表現(xiàn)出較強(qiáng)的魯棒性,算法計(jì)算復(fù)雜度低,能夠快速完成目標(biāo)的檢測(cè).
本文算法采集視頻前5幀圖像初始化背景模型,通過后續(xù)幀中像素分布特征和自適應(yīng)離散系數(shù)更新背景模型,其由工作原理、模型初始化以及更新模型策略三方面組成.
觀測(cè)視頻序列同位置像素值在時(shí)間軸上可構(gòu)成一個(gè)F(xi)={x1,x2,…,xt}序列,其中:xi代表視頻一幀中一個(gè)像素;i和t為時(shí)間;F(xi)為xi的像素值.本文算法為視頻序列同位置像素建立背景樣本模型M(xi)={P(xi),B(xi),V(xi)},其中:P(xi)={p1,p2,…,pN}為xi處背景樣本集,pi為第i個(gè)樣本像素值,N為樣本個(gè)數(shù);B(xi)=為前一幀xi-1是否是背景,若是b=0,若不是b=1;V(xi)={v}為xi像素離散系數(shù).
模型工作原理是背景樣本模型M(xi)作為邊界判別前景像素(foreground)和背景像素(background),M(xi)包含了所有背景像素值及特征,背景像素值分布在M(xi)內(nèi)部,通過式(1)判斷t時(shí)刻輸入F(xt)是否為背景像素.
(1)
一幀圖像中像素在灰度級(jí)上的值與其鄰域像素灰度值相關(guān)性較強(qiáng),如圖1(a)所示,視頻在連續(xù)5幀中選取兩個(gè)3×3區(qū)域?yàn)锳(中心坐標(biāo)(183,120),位于視頻中間靠下側(cè))和B(中心坐標(biāo)(165,38),位于視頻中間靠左下側(cè)),像素灰度值在A、B兩個(gè)區(qū)域內(nèi)變化如圖1(b)所示.從圖1(b)可以看出:A區(qū)域中心像素與鄰域像素相關(guān)性較強(qiáng),為平滑區(qū)域;B為邊界區(qū)域,中心像素與鄰域像素變化幅度較大,但中心像素與大部分鄰域像素相關(guān)性較強(qiáng),可在背景模型初采樣時(shí)建立像素鄰域和中心像素的集合.
初始化背景模型采集前5幀圖像,取t時(shí)刻像素{xt|t=1,2,…,5}的3×3鄰域像素構(gòu)成備選集合S(xi),選取S(xi)中N個(gè)滿足式(5)的像素值為P(xt)初始樣本集.
S(xi)={F(xt),F′(xt)|t=1,2,…,5},i=1,2,…,45,
(2)
fi=count(S(xi)),
(3)
m=median(F(xt)),t=1,2,…,5,
(4)
pi={xi∈S(xi)|max(fi)∩min(xi-m)},i=1,2,…,N.
(5)
其中:F′(xt)為xt鄰域像素值;fi為像素在視頻中出現(xiàn)頻率,利用背景像素的高頻率特性可有效去除噪聲對(duì)模型的影響;m為F(xt)中值.以m為特征篩選像素,減少了鄰域中邊緣像素的影響,提高了算法的穩(wěn)健性;N為樣本個(gè)數(shù),一般選取10~20之間;初始化前一幀狀態(tài)默認(rèn)為背景B(xi)={b=0};初始化離散系數(shù)Vf(xi)={F(xt)|t=6}.
圖1 像素鄰域相關(guān)性Fig.1 Pixel domain correlation
視頻中背景一般由背景動(dòng)態(tài)變化范圍分為兩類:簡單背景(見圖2(a)A區(qū)域,中心坐標(biāo)(61,64),位于視頻中間靠左側(cè))和復(fù)雜背景(見圖2(a)B區(qū)域,中心坐標(biāo)(115,160),位于視頻中間靠下側(cè)),選取視頻連續(xù)50幀,F(xiàn)(A)、F(B)為A、B中心點(diǎn)像素值,F(xiàn)(A)、F(B)變化如圖2(b)所示.
圖2 背景動(dòng)態(tài)變化Fig.2 Dynamic changes in background
區(qū)域A為簡單背景,像素值相對(duì)集中,動(dòng)態(tài)變化范圍小,容易判斷前景目標(biāo).區(qū)域B為復(fù)雜背景,像素值動(dòng)態(tài)變化復(fù)雜,檢測(cè)目標(biāo)難度較大,不易用像素值描述復(fù)雜背景動(dòng)態(tài)變化程度,因此建立模型離散系數(shù)V(xi)={v},滿足式(7)衡量背景動(dòng)態(tài)變化程度.
(6)
(7)
視頻背景不是一成不變,會(huì)隨著光線、遺留物體、停滯目標(biāo)等因素而變化,背景模型的策略應(yīng)能夠使模型適應(yīng)這種變化,以提高判斷前背景目標(biāo)的準(zhǔn)確性.
模型更新策略如下:
步驟1:F(xt)未被分類,計(jì)算集合{P(xi)∪F(xt),i=1,2,…,N}的離散系數(shù)V(xt).
步驟2:判斷K值(見式(8)),若K=0,執(zhí)行步驟3;若K=1,執(zhí)行步驟4.
k={(V(xt)<δ)⊕B(xt)}.
(8)
步驟3:若F(xt)和V(xt+1)滿足式(9)(其中:ε,γ為常數(shù)),則F(xt)為背景,執(zhí)行步驟5;否則F(xt)為前景,執(zhí)行步驟6.
(vt<δ)∧(count(|F(xt)-P(xi)|>ε)>γ).
(9)
步驟4:輸入F(xt+1),計(jì)算{P(xi)∪F(xt+1),i=1,2,…,N}的離散系數(shù)V(xt+1),若F(xt+1)和V(xt+1)滿足式(9),則F(xt)為背景,執(zhí)行步驟5;否則F(xt)為前景,執(zhí)行步驟6.
步驟6:B(xi)=1,若連續(xù)80幀該位置像素都為前景,則判斷該點(diǎn)為遺留物體或目標(biāo)停止運(yùn)動(dòng),用F(xt+i)(i=0,1,…,4)初始化M(xi).其中,F(xiàn)(xt+1)
為F(xt)相鄰幀,利用目標(biāo)在前后幀中具較強(qiáng)的相關(guān)性,可有效減少目標(biāo)空洞和噪聲對(duì)檢測(cè)目標(biāo)的影響.
為檢驗(yàn)本文所提出的背景建模算法的適應(yīng)性和有效性,軟件用VC++和Opencv編程實(shí)現(xiàn),實(shí)驗(yàn)參考了實(shí)際工程環(huán)境,配置硬件環(huán)境采用處理器為Intel Core i5 2.9 GHz,內(nèi)存為16 GB.對(duì)比算法選取文獻(xiàn)[12]中的CodeBook算法、文獻(xiàn)[11]中的MOG算法、文獻(xiàn)[13]中的PBAS算法和文獻(xiàn)[14]中的ViBe算法.
實(shí)驗(yàn)對(duì)象選取MicrosoftWallflower paper和CDNet2014兩個(gè)數(shù)據(jù)集中的Bootstrap、TimeOfDay、WavingTrees、highway、canoe和fountain02 6種場(chǎng)景測(cè)試算法,其中:fountain02單幀分辨率為432×288;canoe、highway單幀分辨率為320×240;Bootstrap、TimeOfDay和WavingTrees單幀分辨率為160×120;CodeBook建模幀數(shù)為30幀,MOG建模幀數(shù)為20幀.仿真結(jié)果如圖3所示,其中:Origian為視頻源;Ground Truth為實(shí)際前景;Proposed為本文算法處理結(jié)果.
為了對(duì)算法做更加精確地定量分析,從處理速度和準(zhǔn)確性兩方面做對(duì)比試驗(yàn)以評(píng)價(jià)本文算法的性能.
圖3 五種算法結(jié)果對(duì)比Fig.3 Comparison of the five algorithms processing results
處理速度為5種算法平均建模時(shí)間(modeling time,MT)和對(duì)單幀處理的平均時(shí)間(handling time,HT),算法消耗時(shí)間見表1.本文算法背景模型初始化只采集視頻連續(xù)5幀圖像,耗時(shí)較短,單幀處理速度相對(duì)其他算法較快,具有實(shí)時(shí)處理視頻的能力.
采用Yi W等在CDnet 2014[15]上提出的三組指標(biāo)對(duì)算法進(jìn)行準(zhǔn)確性評(píng)估,包括召回率(recall,RE)、準(zhǔn)確率(precision,PR)和誤檢百分比(precentage of wrong classifications,PWC).
(10)
(11)
(12)
其中:TP為前景中正確檢測(cè)的點(diǎn);TN為前景中錯(cuò)誤檢測(cè)的點(diǎn);FP為背景中正確檢測(cè)的點(diǎn);FN為背景中錯(cuò)誤檢測(cè)的點(diǎn).
表1 5種算法處理速度對(duì)比
普通場(chǎng)景實(shí)驗(yàn)數(shù)據(jù)highway、WavingTrees、Bootstrap和TimeOfDay等實(shí)驗(yàn)結(jié)果見表2.canoe和fountain02為復(fù)雜場(chǎng)景,包括動(dòng)態(tài)水面、人工噴泉等復(fù)雜背景,實(shí)驗(yàn)結(jié)果見表3.由圖3可以看出,本文算法前景目標(biāo)提取較其他算法完整度較高,識(shí)別背景錯(cuò)誤率較低,假前景較少,在復(fù)雜背景環(huán)境下前景目標(biāo)識(shí)別度也較高.從表2、3定量分析可以看出,本文算法準(zhǔn)確率、召回率和誤檢百分比也優(yōu)于其他算法,在復(fù)雜場(chǎng)景下有較強(qiáng)的魯棒性.
表2 普通場(chǎng)景
表3 復(fù)雜場(chǎng)景
本文提出一種基于自適應(yīng)復(fù)雜場(chǎng)景的背景建模方法,算法復(fù)雜度低,建模速度快,對(duì)低幀率視頻處理實(shí)時(shí)性強(qiáng),改善了初始化易造成ghost現(xiàn)象的問題,減少了噪聲和邊緣像素對(duì)模型的影響.模型用自適應(yīng)離散系數(shù),降低了在復(fù)雜場(chǎng)景中提取前景目標(biāo)的難度.實(shí)驗(yàn)對(duì)多組數(shù)據(jù)進(jìn)行測(cè)試,測(cè)試結(jié)果表明本算法相對(duì)于其他算法在處理速度和準(zhǔn)確性上具有一定的優(yōu)勢(shì),在復(fù)雜場(chǎng)景中提取目標(biāo)較完整,減少了由背景像素值大幅度變化產(chǎn)生的假前景,具有較強(qiáng)的適應(yīng)性和魯棒性.實(shí)驗(yàn)結(jié)果圖像沒有經(jīng)過后期處理,檢測(cè)目標(biāo)出現(xiàn)局部缺失和孔洞,后期需要采用形態(tài)學(xué)等算法進(jìn)行改進(jìn).