范 潔,謝 鑫,陳戰(zhàn)勝
(北京聯(lián)合大學(xué)應(yīng)用科技學(xué)院,北京 100101)
現(xiàn)階段計(jì)算機(jī)智能監(jiān)控技術(shù)[1]的快速發(fā)展,視頻序列中目標(biāo)檢測(cè)定位已成為現(xiàn)下圖像處理領(lǐng)域的關(guān)鍵技術(shù)之一。隨著科技的發(fā)展,人們想要獲得的信息越來越多且信息的詳細(xì)度要求更高,因此如何加強(qiáng)目標(biāo)個(gè)體定位技術(shù),以滿足社會(huì)現(xiàn)實(shí)需求成為現(xiàn)下研究領(lǐng)域中較為重要的課題[2]。
相關(guān)領(lǐng)域?qū)<业玫降妮^好成果如下:文獻(xiàn)[4]提出了一種基于擴(kuò)展卡爾曼濾波(EKF)的目標(biāo)定位算法。根據(jù)視頻平臺(tái)鎖定跟蹤目標(biāo)的特性,對(duì)同一目標(biāo)進(jìn)行多次測(cè)量。依據(jù)組合姿態(tài)信息結(jié)合地球橢球模型,確定目標(biāo)的視軸指向,建立狀態(tài)方程和測(cè)量方程,最后利用擴(kuò)展卡爾曼濾波實(shí)現(xiàn)視頻目標(biāo)定位。但是該方法的視頻目標(biāo)姿態(tài)映射效果較差,應(yīng)用過程較為復(fù)雜,導(dǎo)致目標(biāo)定位結(jié)果存在較大誤差。文獻(xiàn)[5]針對(duì)目標(biāo)快速運(yùn)動(dòng)、遮擋等復(fù)雜視頻場(chǎng)景中,目標(biāo)跟蹤魯棒性差和跟蹤精度低的問題,提出一種基于多層卷積特征的自適應(yīng)決策融合目標(biāo)識(shí)別跟蹤算法。首先提取卷積神經(jīng)網(wǎng)絡(luò)(CNN)中幀圖像的多層卷積特征,改善網(wǎng)絡(luò)單層特征表征目標(biāo)信息不全面的缺陷,增強(qiáng)算法的泛化能力;同時(shí)使用多層特征計(jì)算幀圖像相關(guān)性響應(yīng),提高算法的目標(biāo)姿態(tài)跟蹤精度;最后該方法使用自適應(yīng)決策融合算法將所有相應(yīng)中目標(biāo)位置決策動(dòng)態(tài)融合以定位目標(biāo)。融合算法綜合考慮生成響應(yīng)的各跟蹤器歷史決策信息和當(dāng)前決策信息,以保證算法的魯棒性。該方法的視頻目標(biāo)姿態(tài)跟蹤效果較好,但是存在復(fù)雜度高、定位精度不理想問題。
雖然上述兩種傳統(tǒng)方法能夠?qū)σ曨l動(dòng)態(tài)幀中目標(biāo)進(jìn)行定位,但在實(shí)際操作過程中,都具有定位精度不夠理想且未有效消除噪聲干擾導(dǎo)致定位不精準(zhǔn)?;诖耍岢鲂碌年P(guān)鍵姿態(tài)映射下視頻動(dòng)態(tài)幀目標(biāo)定位方法。根據(jù)核密度估計(jì)理論建立非參數(shù)模型。獲取連續(xù)多幀微分法確定像素點(diǎn)和背景模型的概率分布,使方法在一定程度上克服了諸如光、振動(dòng)等因素的干擾,并且定位精度更高。
核密度估計(jì)[6]在一般情況下作為數(shù)學(xué)估計(jì)方面的數(shù)理統(tǒng)計(jì)工具,在圖像領(lǐng)域中該方法不用圖像背景的特征分布形式,也能在核函數(shù)統(tǒng)計(jì)結(jié)果中選取出合適的數(shù)據(jù)矩陣,并且求解出矩陣中每個(gè)不同的概率分布,然后根據(jù)結(jié)果構(gòu)建出數(shù)據(jù)樣本以及空間中的分布模型。
在目標(biāo)區(qū)域的個(gè)體劃分和提取特征過程中,由于存在外界非自然環(huán)境影響和自然噪聲干擾,取得結(jié)果不夠精準(zhǔn)。而常規(guī)方法往往忽略了先驗(yàn)知識(shí)步驟,導(dǎo)致在樣本足夠的情況下,核密度估計(jì)無法逐步收斂。因此本文首先設(shè)定先驗(yàn)知識(shí),使所提方法在視頻通用性方面更有效地提取動(dòng)態(tài)目標(biāo)。
假設(shè)存在某一維空間,并且空間數(shù)據(jù)點(diǎn)有n個(gè),用R=(x1,x2,…,xn)表示,在R集合中取獨(dú)立分布隨機(jī)變量,而對(duì)應(yīng)變量是一個(gè)完全滿足于分布密度函數(shù)的條件變量p(x),那么在任意x(x∈R)的核密度估計(jì)為
(1)
式(1)中K(·)為核函數(shù),而n和h則分別表示數(shù)據(jù)點(diǎn)數(shù)量與光滑參數(shù)[7],以每個(gè)采樣點(diǎn)為中心的局部函數(shù)加權(quán)平均效應(yīng)為數(shù)據(jù)塊的估計(jì)概率密度函數(shù)值。在實(shí)際計(jì)算的過程中,K(·)都會(huì)選擇以零為中心點(diǎn),且具有部分支撐點(diǎn)的概率密度函數(shù)取值,核函數(shù)具體取值如下表1:
(2)
這樣根據(jù)式(2)便可得知核密度估計(jì),是由視頻序列中每個(gè)像素進(jìn)行加權(quán)平均處理后得知概率密度分布[8]的,而高斯函數(shù)則可以表述出樣本概率的具體分布密度,從而可以確定函數(shù)的平滑、連續(xù)和最小密度,以便對(duì)小樣本產(chǎn)生良好估計(jì)效果。那么式(2)可以進(jìn)一步寫為
(3)
在實(shí)際應(yīng)用中,核函數(shù)的帶寬取值是非常重要的,因?yàn)樵撊≈禃?huì)直接影響計(jì)算的最后結(jié)果以及圖像顯著性區(qū)域檢測(cè)的精準(zhǔn)度。樣本密度分布曲線可能有較大波動(dòng),如果帶寬取值過大,那么便會(huì)呈現(xiàn)出一種平滑現(xiàn)象。因此,需要獲得任意連續(xù)幀樣本絕對(duì)差和平均值:
其中,連續(xù)幀樣本中值m=median(|xi-xi+1|),假設(shè)xi服從高斯分布N(μ,?2),那么(xi-xi+1)同樣服從于N(0,2?2)的高斯分布,根據(jù)正態(tài)分布的對(duì)稱性及中位數(shù)的定義得Pr(N(0,2?2)>m)=0.25,因此標(biāo)準(zhǔn)差可得
參數(shù)曲線被分為四個(gè)調(diào)整區(qū)域,它們分別是:高光、亮調(diào)、暗調(diào)、陰影。我們可以通過曲線區(qū)域下方的三個(gè)三角形滑塊控制這四個(gè)區(qū)域覆蓋的影調(diào)范圍。向左移動(dòng)第一個(gè)三角,即縮小陰影區(qū)域,擴(kuò)大暗調(diào)區(qū)域;其他區(qū)域以此類推。當(dāng)我們將鼠標(biāo)移動(dòng)到曲線上方,當(dāng)前的可調(diào)整區(qū)間則會(huì)被高亮顯示出來。單擊并拖動(dòng)鼠標(biāo)即可對(duì)對(duì)應(yīng)區(qū)域進(jìn)行更改。
(4)
在同一特定圖像序列中,背景圖像通常是相同的。因此,在實(shí)際應(yīng)用中,像素值較長(zhǎng)、較為穩(wěn)定則為背景像素。如果像素的當(dāng)前值與背景值匹配,可以改變閾值,達(dá)到提取背景信息的目的。
通過對(duì)每個(gè)像素點(diǎn)的概率進(jìn)行研究,利用上述公式確定的模型計(jì)算幀中像素點(diǎn)的概率分布P(x),如果分布概率p小于默認(rèn)閾值T,則將像素分類為前一個(gè)風(fēng)景點(diǎn),否則,程序可以隔離背景并識(shí)別剪輯中的動(dòng)態(tài)目標(biāo)。閾值通常是根據(jù)實(shí)驗(yàn)列中使用的視頻序列來確定的,因此有
(5)
由于視頻序列中的場(chǎng)景是不斷變化的,為了適應(yīng)視頻序列的變化,保證目標(biāo)提取的準(zhǔn)確性,需要不斷更新背景模型,在核密度模型中。一般情況下,使用當(dāng)前幀圖像代替原始幀圖像作為新的樣本,使背景更新方法便于對(duì)背景樣本中采集的透視像素進(jìn)行分類。其中連續(xù)幀差分[9]計(jì)算求解的結(jié)果將會(huì)作為下一次更新視頻序列的前提。若在下次計(jì)算的過程中,活動(dòng)點(diǎn)是固定的目標(biāo)動(dòng)態(tài),那么視頻像素將不會(huì)發(fā)生改變,而原始的像素樣本就需要在保持原有位置的基礎(chǔ)上對(duì)其進(jìn)行改變,用來當(dāng)作背景板的樣例。
假設(shè)It-1,It-2,It是固定時(shí)間t-2,t-1,t中的動(dòng)態(tài)圖像,那么針對(duì)三幀圖像同步進(jìn)行的運(yùn)算式就有
(6)
在三個(gè)消解幀中提供運(yùn)動(dòng)像素,分析兩幀之間的差異,并從第一幀中提取活動(dòng)幀的運(yùn)動(dòng)區(qū)域。如果運(yùn)動(dòng)目標(biāo)存在,且在短時(shí)間內(nèi)出現(xiàn),則可以有效避免將背景像素作為前像素進(jìn)行檢測(cè),減少誤識(shí)區(qū)域。它可以減小目標(biāo)的運(yùn)動(dòng)和跟蹤區(qū)域。
(7)
根據(jù)上式結(jié)果,對(duì)前景圖像目標(biāo)沒有變化的視頻幀進(jìn)行統(tǒng)計(jì),并在一定基礎(chǔ)上設(shè)置閾值th,當(dāng)實(shí)際的統(tǒng)計(jì)數(shù)值高于指定閾值時(shí),那么就可以認(rèn)為前景視頻動(dòng)態(tài)圖像的像素是一直保持在靜止?fàn)顟B(tài)的,這樣就可以將其重新投放到新的背景中,根據(jù)檢測(cè)出來的顯著性區(qū)域M、M1以及M2即可獲取出新的視頻關(guān)鍵姿態(tài)背景模型
(8)
圖1 目標(biāo)定位流程圖
假設(shè)如果m維空間同時(shí)擁有著n個(gè)數(shù)據(jù)點(diǎn)(x1,x2,…,xn),并且其中任意一個(gè)姿態(tài)數(shù)據(jù)點(diǎn)都可以將其看作為視頻目標(biāo)中心點(diǎn),那么就可以將數(shù)據(jù)點(diǎn)xi出的密度指標(biāo)判定為
(9)
結(jié)合上式的計(jì)算結(jié)果,根據(jù)減法聚類算法[10]思想,當(dāng)計(jì)算求解出所有數(shù)據(jù)點(diǎn)的密度指標(biāo)后,便可選取出其中一個(gè)密度指標(biāo)最高的節(jié)點(diǎn)來作為第一個(gè)關(guān)鍵姿態(tài),本文設(shè)定xc1為該目標(biāo)中心,而Pc1則是其對(duì)應(yīng)的核函數(shù)密度指標(biāo),這樣任意數(shù)據(jù)點(diǎn)xi的指標(biāo)便可根據(jù)下式做出對(duì)應(yīng)的改變
(10)
這里hbj(j=1,2,…,m)為常數(shù),一般情況下hbj=ηhaj,其中將η描述為大于1的正常數(shù)值,防止出現(xiàn)距離較近的兩個(gè)目標(biāo)中心。
當(dāng)視頻動(dòng)態(tài)中數(shù)據(jù)點(diǎn)的核密度指標(biāo)[11]出現(xiàn)變動(dòng)后,將其中密度指標(biāo)最大取值設(shè)定為待定位視頻中目標(biāo)個(gè)體,在此期間利用不斷的迭代獲得最優(yōu)目標(biāo)中心,Pi<ε·Pc1(0<ε≤1)為迭代終止指令。
在對(duì)視頻動(dòng)態(tài)目標(biāo)進(jìn)行定位的過程中,目標(biāo)實(shí)際核密度取值在一定范圍內(nèi)是與圖像數(shù)據(jù)點(diǎn)以及密集程度成正比的,根據(jù)這一特征點(diǎn),便可用于描述視頻目標(biāo)的帶寬參數(shù)。
假設(shè)通過計(jì)算獲取出第一個(gè)目標(biāo)中心點(diǎn)的數(shù)據(jù)點(diǎn)取值為x1時(shí),與其相互對(duì)應(yīng)的帶寬值[12]便可標(biāo)記為h1i,而Pc1則描述為數(shù)據(jù)點(diǎn)的密度取值,這樣當(dāng)?shù)趇個(gè)用于描述視頻目標(biāo)的帶寬取值hij即可變換為hij=(pi/Pc1)·h1i。
為驗(yàn)證論文方法的應(yīng)用效果,設(shè)計(jì)實(shí)驗(yàn)。本次實(shí)驗(yàn)采用某時(shí)間段的交通視頻監(jiān)控圖像作為實(shí)驗(yàn)測(cè)試樣本,視頻樣本采集室內(nèi)環(huán)境如圖2所示。圖3為視頻樣本中隨機(jī)抽取的視頻圖像樣本。
圖2 實(shí)驗(yàn)樣本采集環(huán)境
圖3 實(shí)驗(yàn)樣本
為驗(yàn)證所提方法分析的視頻序列像素點(diǎn)噪聲概率密度的有效性,對(duì)樣本視頻圖像進(jìn)行兩次訓(xùn)練,驗(yàn)證該步驟是否能夠降低視頻目標(biāo)噪聲。本次處理的視頻幀數(shù)為30fps,實(shí)驗(yàn)迭代次數(shù)為25次,訓(xùn)練結(jié)果如圖4所示。
圖4 樣本訓(xùn)練結(jié)果
依據(jù)圖4實(shí)驗(yàn)結(jié)果可知,經(jīng)過兩次樣本訓(xùn)練,視頻圖像的目標(biāo)噪聲得到了有效降低,說明所提方法的為所提方法分析的視頻序列像素點(diǎn)噪聲概率密度具有降低圖像噪聲效果,為方法的應(yīng)用性驗(yàn)證提供依據(jù)與條件。
為驗(yàn)證提出方法的視頻圖像目標(biāo)定位性能,設(shè)計(jì)不同方法動(dòng)態(tài)幀目標(biāo)定位精度對(duì)比實(shí)驗(yàn)。本次實(shí)驗(yàn)的樣本視頻圖像中包括多目標(biāo),如行人、騎行人、行駛車輛,且存在多處交通危險(xiǎn)點(diǎn),利用該樣本圖像進(jìn)行實(shí)驗(yàn)結(jié)果的驗(yàn)證具有可靠性。將文獻(xiàn)[4]提出的基于擴(kuò)展卡爾曼濾波(EKF)的目標(biāo)定位算法、文獻(xiàn)[5]提出的基于多層卷積特征的自適應(yīng)決策融合目標(biāo)識(shí)別跟蹤算法作為實(shí)驗(yàn)的對(duì)照組,與提出方法進(jìn)行對(duì)比分析,動(dòng)態(tài)幀目標(biāo)定位精度對(duì)比結(jié)果如圖5所示。
圖5 不同方法視頻目標(biāo)定位精度對(duì)比
由圖5實(shí)驗(yàn)結(jié)果可以看出,文獻(xiàn)[4]方法定位識(shí)別出的視頻圖像點(diǎn)為兩處,但是這兩個(gè)目標(biāo)點(diǎn)僅有一個(gè)是交通異常點(diǎn),另外一個(gè)目標(biāo)為正常行駛車輛,說明該方法的視頻目標(biāo)定位精度偏低。與該方法相比,文獻(xiàn)[5]方法定出出的視頻圖像目標(biāo)更多,但是此時(shí)間點(diǎn)的交通狀況的關(guān)鍵點(diǎn)沒有進(jìn)行定位,即交通事故點(diǎn),說明該方法的定位應(yīng)用效果不理想。所提方法的視頻圖像目標(biāo)定位效果為圖4的(c),從該結(jié)果中可以看出,所提方法的目標(biāo)定位更為全面,對(duì)該監(jiān)控視頻中的交通事故、騎行危險(xiǎn)者以及肢體沖突均完成的定位,具有較好的定位效果。這是因?yàn)樗岱磸?fù)噶采用高斯密度估計(jì)法構(gòu)建了視頻動(dòng)態(tài)圖像關(guān)鍵姿態(tài)背景模型,可以高精度提取動(dòng)態(tài)個(gè)體目標(biāo)關(guān)鍵姿態(tài)特征輪廓,以更高的準(zhǔn)確度實(shí)現(xiàn)視頻圖像目標(biāo)的定位。
現(xiàn)階段視頻目標(biāo)個(gè)體定位問題也成為了現(xiàn)下領(lǐng)域中較為重要的研究課題之一,但傳統(tǒng)目標(biāo)定位方法無法滿足于當(dāng)前基本需求,基于此本文在關(guān)鍵姿態(tài)映射的基礎(chǔ)上,提出新的視頻動(dòng)態(tài)幀目標(biāo)定位方法,采用高斯密度估計(jì)方法建立視頻動(dòng)態(tài)圖像的背景模型,對(duì)視頻序列中像素點(diǎn)的種質(zhì)素值進(jìn)行概率密度分析,提取動(dòng)態(tài)目標(biāo),選擇第一個(gè)目標(biāo)中心,改變樣本點(diǎn)的密度估計(jì),達(dá)到實(shí)現(xiàn)目標(biāo)位置的目的。實(shí)驗(yàn)結(jié)果表明該方法有效地解決了傳統(tǒng)定位方法存在的問題,具有良好的定位效果。