蔣宇 袁健
摘 要:目前主流的判別式目標(biāo)跟蹤模型大多使用灰度、顏色等手工特征,在目標(biāo)快速移動(dòng)或受到視頻序列背景等因素干擾情況下,目標(biāo)跟蹤器可能在跟蹤目標(biāo)時(shí)學(xué)習(xí)到錯(cuò)誤特征而導(dǎo)致跟蹤失敗。因此,提出一種結(jié)合深度特征的相關(guān)濾波跟蹤算法。首先將待跟蹤目標(biāo)圖像輸入至卷積神經(jīng)網(wǎng)絡(luò)中,提取出較高層的卷積特征,然后將提取的卷積特征輸入相關(guān)濾波器中得到響應(yīng),最后根據(jù)響應(yīng)峰值得到追蹤結(jié)果。以VOT2016中包含人體運(yùn)動(dòng)的視頻序列為實(shí)驗(yàn)數(shù)據(jù)集,并分別與CN、SAMF及KPDCF模型進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果表明,結(jié)合深度特征的相關(guān)濾波算法具有較好的追蹤性能,在不大幅降低追蹤速度的情況下,提升了追蹤精度和穩(wěn)定性。
關(guān)鍵詞:手工特征;相關(guān)濾波器;深度特征;目標(biāo)追蹤;卷積神經(jīng)網(wǎng)絡(luò);人體運(yùn)動(dòng)序列
DOI: 10. 11907/rjdk.191379
開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
中圖分類(lèi)號(hào):TP303
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1672-7800(2020)001-0089-06
0 引言
在人體運(yùn)動(dòng)序列中,需要追蹤的目標(biāo)通常有著較大形變,且視頻序列背景可能有較多變化,所以在單目標(biāo)跟蹤過(guò)程中需要選取出比較有區(qū)分度,且有著較低計(jì)算量的特征,才能更好地滿足單目標(biāo)追蹤的實(shí)時(shí)性與高精度要求。如今,由于單目標(biāo)跟蹤對(duì)實(shí)時(shí)性的要求越來(lái)越高,因此相關(guān)濾波算法在該領(lǐng)域十分流行,但是濾波跟蹤是基于先驗(yàn)訓(xùn)練模板的,一旦出現(xiàn)追蹤目標(biāo)本身形變較大,或因運(yùn)動(dòng)過(guò)快而發(fā)生變形的情況,相關(guān)濾波算法產(chǎn)生的訓(xùn)練模板很可能在后續(xù)的幀序列中匹配不一致,從而導(dǎo)致追蹤目標(biāo)丟失或追蹤錯(cuò)誤的情況。隨著機(jī)器學(xué)習(xí)技術(shù)的迅速發(fā)展,深度卷積神經(jīng)網(wǎng)絡(luò)在視覺(jué)追蹤領(lǐng)域的應(yīng)用也越來(lái)越廣。一般而言,構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)層數(shù)越多,提取的高層特征將包含更多語(yǔ)義信息以及定位目標(biāo)的結(jié)構(gòu)化信息,卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用效果也會(huì)越顯著。例如2014年提出的G oogLeNet與2015年提出的ResNet,這些深層次網(wǎng)絡(luò)采用大量圖片數(shù)據(jù)集進(jìn)行訓(xùn)練,被成功應(yīng)用于圖像處理各相關(guān)領(lǐng)域。但是卷積神經(jīng)網(wǎng)絡(luò)需要進(jìn)行大量計(jì)算,直接使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類(lèi)追蹤,難以實(shí)現(xiàn)目標(biāo)實(shí)時(shí)追蹤。因此,本文結(jié)合卷積神經(jīng)網(wǎng)絡(luò)的抽象特征與相關(guān)濾波跟蹤算法,提出一種基于深度卷積特征的相關(guān)濾波跟蹤模型。實(shí)驗(yàn)結(jié)果表明,該模型應(yīng)用于人體運(yùn)動(dòng)序列追蹤速度較快,且有著較高精度。
目標(biāo)追蹤是計(jì)算機(jī)圖像處理領(lǐng)域一個(gè)非常重要的研究方向,有著十分廣泛的應(yīng)用場(chǎng)景。早期研究基本上都在歐美等發(fā)達(dá)國(guó)家,比如早在1980年代,Horn等[1]提出將光流法用于對(duì)計(jì)算機(jī)視頻中目標(biāo)的追蹤與識(shí)別。光流計(jì)算實(shí)際上是一種通過(guò)檢測(cè)圖像像素點(diǎn)強(qiáng)度隨時(shí)間的變化情況,進(jìn)而推斷出物體移動(dòng)速度及方向的方法,如2001年Sidenbladh[2]通過(guò)光流信息表征運(yùn)動(dòng)特征,G onzalez[3]使用KLT特征,Btadski&Davisa1[4]采用運(yùn)動(dòng)梯度信息對(duì)運(yùn)動(dòng)特征進(jìn)行表述。但這些基于光流法的研究缺陷在于當(dāng)個(gè)體被遮擋時(shí),提取運(yùn)動(dòng)信息會(huì)變得極其困難且誤差較大,追蹤精度也很低。因此,傳統(tǒng)光流計(jì)算在目標(biāo)運(yùn)動(dòng)邊界被遮擋、背景干擾強(qiáng)的情況下,遠(yuǎn)遠(yuǎn)達(dá)不到對(duì)于目標(biāo)追蹤精度和速度的要求。之后,出現(xiàn)了粒子濾波算法[5]與一些基于卡爾曼濾波[6]及其相關(guān)改進(jìn)方法。隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,針對(duì)目標(biāo)追蹤的研究逐漸演變?yōu)橐粋€(gè)計(jì)算機(jī)視覺(jué)的目標(biāo)識(shí)別檢測(cè)問(wèn)題。2010年,Bolme等[7]第一次將相關(guān)濾波應(yīng)用于目標(biāo)追蹤領(lǐng)域,并構(gòu)建了一個(gè)自適應(yīng)的相關(guān)濾波器,稱(chēng)為MOSSE濾波器。MOSSE濾波器對(duì)視頻第一幀中的追蹤目標(biāo)建模,然后對(duì)視頻序列的每一幀,利用提取到的目標(biāo)特征檢測(cè)幀圖像,以最小輸出平方誤差作為新的目標(biāo)位置,并且不斷調(diào)整建模目標(biāo)。MOSSE濾波器可通過(guò)快速傅立葉變換使大量計(jì)算轉(zhuǎn)換到頻域,從而加快追蹤速度;Henriques等[8]隨后提出一種基于核函數(shù)映射的相關(guān)濾波器,該濾波器將待追蹤目標(biāo)的外觀通過(guò)核函數(shù)映射至特征空間,然后通過(guò)最小二乘作分類(lèi),從而提升了追蹤精度。但是該核相關(guān)濾波器只提取了目標(biāo)灰度特征,也存在著追蹤丟失的可能性。
隨著人工智能技術(shù)的不斷發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)開(kāi)始被應(yīng)用于圖像處理領(lǐng)域,并在計(jì)算機(jī)視覺(jué)方面取得了很好的效果,在目標(biāo)追蹤領(lǐng)域更是有著突破性進(jìn)展。如Wang等[9]首次將卷積神經(jīng)網(wǎng)絡(luò)運(yùn)用于目標(biāo)追蹤領(lǐng)域,利用預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)挖掘目標(biāo)深度特征,然后通過(guò)在追蹤時(shí)不斷調(diào)整神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)目標(biāo)的追蹤。神經(jīng)網(wǎng)絡(luò)解決了追蹤時(shí)訓(xùn)練樣本規(guī)模較小的問(wèn)題,但在追蹤速度上低于基于相關(guān)濾波器的追蹤算法。然而,將神經(jīng)網(wǎng)絡(luò)應(yīng)用于目標(biāo)追蹤領(lǐng)域,并在追蹤時(shí)不斷調(diào)整網(wǎng)絡(luò)的思想為后續(xù)深度學(xué)習(xí)在目標(biāo)追蹤方面的應(yīng)用打下了基礎(chǔ)。
2015年左右,深度學(xué)習(xí)在目標(biāo)追蹤領(lǐng)域得到了大量應(yīng)用。如Nam等[10]提出一種多域網(wǎng)絡(luò),該模型基于預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(CNN),使用大量視頻預(yù)先跟蹤C(jī)NN,并跟蹤視頻實(shí)況獲得通用目標(biāo)表示。神經(jīng)網(wǎng)絡(luò)由共享層與域特定層的多個(gè)分支組成,其中域?qū)?yīng)于各個(gè)訓(xùn)練序列,并且每個(gè)分支負(fù)責(zé)二進(jìn)制分類(lèi)以識(shí)別每個(gè)域中的目標(biāo)。然后,迭代地針對(duì)每個(gè)域訓(xùn)練網(wǎng)絡(luò),以獲得共享層中的通用目標(biāo)表示。當(dāng)在新序列中跟蹤目標(biāo)時(shí),將預(yù)訓(xùn)練CNN中的共享層與新的二進(jìn)制分類(lèi)層(在線更新)組合構(gòu)建新網(wǎng)絡(luò);M artin等[11-12]提出將SRDCF用于目標(biāo)追蹤領(lǐng)域,使用循環(huán)矩陣解決了計(jì)算損失函數(shù)時(shí)的邊界效應(yīng)問(wèn)題,通過(guò)引入懲罰因子提高追蹤精度,但速度相比傳統(tǒng)相關(guān)濾波模型大幅降低,之后又提出一種改進(jìn)的D-SRDCF模型,通過(guò)結(jié)合手工特征與CN特征,進(jìn)一步提高了精度,但是速度又進(jìn)一步降低。這些研究大都將目光聚焦在經(jīng)過(guò)大數(shù)據(jù)集預(yù)訓(xùn)練后的卷積神經(jīng)網(wǎng)絡(luò),但神經(jīng)網(wǎng)絡(luò)存在計(jì)算耗時(shí)較長(zhǎng)的問(wèn)題,因而目標(biāo)追蹤速度無(wú)法得到保證。
國(guó)內(nèi)也在很早前就開(kāi)始了目標(biāo)跟蹤相關(guān)領(lǐng)域研究,早在1986年,我國(guó)就有部分學(xué)者對(duì)計(jì)算機(jī)視覺(jué)追蹤技術(shù)進(jìn)行研究,并取得了一定成果,如徐博文等[13]提出的結(jié)合關(guān)鍵點(diǎn)跟蹤的尺度自適應(yīng)相關(guān)濾波模型,候建華等[14]提出的基于在線學(xué)習(xí)判別性外觀模型的多目標(biāo)跟蹤模型等。
綜上所述,基于相關(guān)濾波的目標(biāo)追蹤通常在實(shí)時(shí)性方面表現(xiàn)出明顯的優(yōu)越性,而基于深度學(xué)習(xí)的模型通常在準(zhǔn)確性方面有著較好表現(xiàn)。本文根據(jù)目標(biāo)追蹤領(lǐng)域發(fā)展趨勢(shì),結(jié)合相關(guān)濾波算法與深度學(xué)習(xí)理論,基于預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)提出一種結(jié)合深度特征的相關(guān)濾波追蹤算法模型,并將其應(yīng)用于人體運(yùn)動(dòng)序列追蹤中。
1 相關(guān)濾波目標(biāo)跟蹤模型
相關(guān)性是指兩個(gè)信號(hào)之間的關(guān)系,有互相關(guān)與自相關(guān)兩種,相關(guān)濾波便是建立在此基礎(chǔ)之上。對(duì)于給定的兩個(gè)離散信號(hào)Sigl和Sig2,其相關(guān)性可以描述為式(1)。
其中的*表示信號(hào)的共軛,其中m和n表示位移變量。相關(guān)性即相似程度,如果信號(hào)之間的相似程度高,則其相關(guān)性也高。所以在基于相關(guān)濾波的目標(biāo)追蹤中,主要是提取追蹤目標(biāo)在候選區(qū)域的特征,并將其與計(jì)算生成的濾波器作相關(guān)操作,得到相關(guān)濾波響應(yīng)峰圖(空域置信圖)。響應(yīng)峰圖中峰值坐標(biāo)就是追蹤目標(biāo)在圖像中的位置坐標(biāo),下面將詳細(xì)推導(dǎo)該過(guò)程。令一個(gè)數(shù)字圖像f和一個(gè)濾波器h進(jìn)行相關(guān)操作后,得到輸出g,如式(2)所示。
g=f〇h
(2)
式(2)表明,得到的濾波響應(yīng)值受到h(濾波器模板)的影響,因此目標(biāo)追蹤問(wèn)題就變?yōu)閷ふ覟V波器模板的問(wèn)題。式(2)中的〇表示卷積操作,卷積操作計(jì)算量較大,因此相關(guān)濾波跟蹤算法中通常將卷積操作通過(guò)快速傅立葉變換轉(zhuǎn)換到頻域中進(jìn)行,從而減少計(jì)算量,提高追蹤效率。若將快速傅立葉變換表示為F,則式(2)可以表示為式(3)。
F(g)=F(f〇h)=F(h)。F(h)*(3)
G =F。H*
(4) 式(4)為式(3)的簡(jiǎn)化表達(dá),由此,相關(guān)濾波的目標(biāo)追琮問(wèn)題可以表示為對(duì)濾波器H*的求解,如式(5)所示。
H*=G/F/
(5) 若追蹤的目標(biāo)在追蹤過(guò)程中發(fā)生形變或遮擋變化,此時(shí)就需要H*適應(yīng)場(chǎng)景變化。因此,相關(guān)濾波算法通常都會(huì)選擇最近的n個(gè)樣本更新H*,并在追蹤過(guò)程中不斷求解并更新H*,如式(6)所示。
其中i表示第i個(gè)輸入樣例。將濾波器H*與追蹤目標(biāo)特征集合進(jìn)行相關(guān)計(jì)算,可以得到濾波響應(yīng)峰圖,取峰圖中的峰值作為追蹤目標(biāo)位置。因此,追蹤目標(biāo)特征提取是相關(guān)濾波算法中很重要的組成部分,特征提取質(zhì)量將直接關(guān)系到追蹤效果。相關(guān)濾波追蹤模型如圖1所示。
2 結(jié)合深度特征的相關(guān)濾波目標(biāo)跟蹤算法
2.1 預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)
目前有一些開(kāi)源的已經(jīng)過(guò)預(yù)訓(xùn)練的圖像分類(lèi)網(wǎng)絡(luò),本部分算法模型將基于這些預(yù)訓(xùn)練網(wǎng)絡(luò)提取深度特征,并將從這些網(wǎng)絡(luò)中提取的深度特征應(yīng)用于相關(guān)濾波器,用于對(duì)目標(biāo)進(jìn)行追蹤。VGG[15]卷積神經(jīng)網(wǎng)絡(luò)(簡(jiǎn)稱(chēng)為VCGNet)是Visual Geometry Group實(shí)驗(yàn)室基于大規(guī)模分類(lèi)數(shù)據(jù)庫(kù)Ima-geNet[16]訓(xùn)練出來(lái)的卷積神經(jīng)網(wǎng)絡(luò)模型。ImageNet是一個(gè)圖片數(shù)據(jù)庫(kù),所有圖片已通過(guò)人工手動(dòng)標(biāo)注好類(lèi)別,共有22 000個(gè)類(lèi)別,是目前世界上最大的圖像識(shí)別數(shù)據(jù)庫(kù)。經(jīng)過(guò)該數(shù)據(jù)庫(kù)訓(xùn)練出的VGGNet網(wǎng)絡(luò)模型對(duì)除此之外的其它數(shù)據(jù)集具有很強(qiáng)的泛化能力。另外,VGCNet網(wǎng)絡(luò)模型還具有較強(qiáng)的遷移能力。
VCCNet模型結(jié)構(gòu)十分簡(jiǎn)潔,在目標(biāo)追蹤領(lǐng)域大部分采用16或19層網(wǎng)絡(luò)結(jié)構(gòu)(分別稱(chēng)為VGC16和VCG19)。本文選擇19層網(wǎng)絡(luò)結(jié)構(gòu)作為實(shí)驗(yàn)的卷積神經(jīng)網(wǎng)絡(luò),包括16個(gè)卷積層與3個(gè)全連接層。前幾層采用3x3結(jié)構(gòu)的卷積核作卷積操作,每個(gè)卷積層后面均有一個(gè)激活層。后幾層為池化層,池化層的卷積核為2x2。網(wǎng)絡(luò)最后有3個(gè)全連接層和一個(gè)soft- max層。
2.2 深度特征結(jié)合相關(guān)濾波器
上文討論了使用相關(guān)濾波解決目標(biāo)追蹤問(wèn)題,并將目標(biāo)追蹤問(wèn)題轉(zhuǎn)換成求解濾波器H*的問(wèn)題。然而,在實(shí)際計(jì)算中,計(jì)算機(jī)都是針對(duì)圖像中每個(gè)像素點(diǎn)進(jìn)行操作的,所以式(6)可以具體表示為式(7)。
其中u、v是單個(gè)像素元素對(duì)應(yīng)矩陣H中的下標(biāo)。要想使差平方和最小,此時(shí)只需對(duì)每個(gè)元素求得的偏導(dǎo)值為0即可,如式(8)所示。
在視頻序列開(kāi)始時(shí),通過(guò)手工對(duì)視頻第一幀中已標(biāo)注好的目標(biāo)位置進(jìn)行特征提取,計(jì)算初始化相關(guān)濾波器模板。在具體實(shí)現(xiàn)時(shí),對(duì)視頻序列的第一幀圖像進(jìn)行隨機(jī)放射變換,產(chǎn)生n個(gè)訓(xùn)練樣本,將樣本進(jìn)行高斯函數(shù)輸出得到響應(yīng)峰圖,響應(yīng)峰圖中的峰值則是追蹤目標(biāo)的中心位置,便可求得該相關(guān)濾波器模板。為了提高該相關(guān)濾波器的魯棒性,使其能夠應(yīng)對(duì)復(fù)雜場(chǎng)景,如光照急劇變化或相似背景干擾等,對(duì)相關(guān)濾波器模板采用如下更新機(jī)制,如式(11)-(13)所示。
其中的Ai、Bi是由當(dāng)前視頻幀計(jì)算得出的,而Ai-1、Bi-1,是由上一視頻幀計(jì)算得出的,η表示該相關(guān)濾波模板學(xué)習(xí)率。因此,之前視頻幀與當(dāng)前視頻幀都會(huì)對(duì)濾波器模板訓(xùn)練產(chǎn)生影響,但是當(dāng)前幀的影響更大。
相關(guān)濾波算法將用于本章提出的模型在線學(xué)習(xí)部分中,下面說(shuō)明如何使用濾波器進(jìn)行追蹤?;舅悸窞椋河沙跏冀o定的追蹤目標(biāo)外觀,學(xué)習(xí)生成一個(gè)判別相關(guān)濾波器(簡(jiǎn)稱(chēng)DCF),在追蹤目標(biāo)的待檢測(cè)圖片中,DCF會(huì)對(duì)其中的追蹤目標(biāo)輸出相關(guān)響應(yīng)峰值,由此實(shí)現(xiàn)對(duì)追蹤目標(biāo)在待檢測(cè)圖片中的定位。相關(guān)濾波運(yùn)算可以在頻域通過(guò)快速傅立葉變換實(shí)現(xiàn),因此相關(guān)濾波有著較高的實(shí)時(shí)性。
首先,在視頻序列的初始幀中指定追蹤目標(biāo)位置信息,然后根據(jù)指定的追蹤目標(biāo)圖像提取追蹤目標(biāo)特征集合,訓(xùn)練得出DCF,在視頻序列的后續(xù)每幀圖像中,從前一幀由相關(guān)濾波輸出的追蹤目標(biāo)位置中提取追蹤目標(biāo)圖像特征,實(shí)現(xiàn)相關(guān)濾波的更新。以第t幀為例:①此時(shí)已知t-l幀時(shí)追蹤目標(biāo)的位置信息D,在第t幀中提取出位置D的圖像;②對(duì)得到的圖像進(jìn)行特征提取,作相關(guān)濾波運(yùn)算,得到相關(guān)濾波響應(yīng)峰圖(空域置信圖);③響應(yīng)峰圖中的峰值位置即是第t幀中追蹤目標(biāo)的位置;④將得到的第t幀追蹤目標(biāo)位置作為第t幀的輸出,再依據(jù)位置信息更新相關(guān)濾波器。
下面構(gòu)建基于深度特征的相關(guān)濾波實(shí)時(shí)追蹤模型(Deep Feature DCF,以下簡(jiǎn)稱(chēng)DFDCF)。模型主要流程如下:
首先,確定序列首幀中手工標(biāo)注好的追蹤目標(biāo)區(qū)域,將該區(qū)域圖像輸入VCG19網(wǎng)絡(luò)(已預(yù)訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò))中,提取出卷積層中第16層特征,根據(jù)式(10)計(jì)算出相應(yīng)濾波模板;然后,對(duì)序列中的每一幀后續(xù)圖像,采用式(11)提出的更新規(guī)則更新濾波模板,由上一視頻幀的輸出結(jié)果(第一幀輸出結(jié)果即為手工標(biāo)注結(jié)果)確定當(dāng)前幀的位置提取信息,將當(dāng)前幀提取的圖像再次輸入至VCG19網(wǎng)絡(luò)中。由于高層卷積特征有著追蹤目標(biāo)的語(yǔ)義信息,所以選取( conv16)卷積層特征作為當(dāng)前特征,與新濾波模板作用得出濾波響應(yīng);最終,將響應(yīng)峰值作為當(dāng)前追蹤結(jié)果。模型流程如圖2所示。
3 實(shí)驗(yàn)與分析
3.1 數(shù)據(jù)集與實(shí)驗(yàn)環(huán)境
VOT( Visual Object Tracking)[17]是一個(gè)針對(duì)單目標(biāo)跟蹤的測(cè)試數(shù)據(jù)集,從2013年發(fā)展至今,已成為單目標(biāo)跟蹤領(lǐng)域主流的3大平臺(tái)之一。作為一個(gè)測(cè)試數(shù)據(jù)集,VOT有著十分豐富的測(cè)試數(shù)據(jù),本文只選取其中的人體運(yùn)動(dòng)視頻序列作為實(shí)驗(yàn)數(shù)據(jù),包括singerl、singer2、godfather等共24個(gè)視頻序列。
本實(shí)驗(yàn)中利用已訓(xùn)練好的VCC19提取目標(biāo)區(qū)域特征,具體采用19層網(wǎng)絡(luò)中的第16層卷積特征,其中式(12)與式(13)中的學(xué)習(xí)率η值為0.02。從追蹤的實(shí)驗(yàn)數(shù)據(jù)集VOT2017中篩選出人體運(yùn)動(dòng)序列數(shù)據(jù)集,其中的初始幀目標(biāo)位置已知。
3.2 評(píng)估指標(biāo)
為了驗(yàn)證本文跟蹤算法的性能,結(jié)合VOT以及傳統(tǒng)追蹤指標(biāo),使用如下評(píng)價(jià)指標(biāo)作為本文算法模型評(píng)價(jià)指標(biāo):
(1)每秒傳輸幀數(shù)(Frames Per Second,F(xiàn)PS)。定義為跟蹤視頻總耗時(shí)T與視頻總幀數(shù)F的商值,如式(14)所示。
FPS=T/F
(14)
(2)精確度(Accuracy)[18]。用來(lái)評(píng)價(jià)追蹤算法追蹤目標(biāo)的準(zhǔn)確度,數(shù)值越大,準(zhǔn)確度越高。其借用了IoU( Inter-section-over-Union,交并比)定義,某人體運(yùn)動(dòng)序列第t幀的準(zhǔn)確率定義如式(15)所示。
3.3 結(jié)果對(duì)比分析
本文實(shí)驗(yàn)采用文獻(xiàn)[13]中提出的結(jié)合關(guān)鍵點(diǎn)的跟蹤算法(簡(jiǎn)稱(chēng)KPDCF)、CN[19]、SAMF[20]進(jìn)行實(shí)驗(yàn)結(jié)果對(duì)比。實(shí)驗(yàn)圖集如圖3所示。
由圖3可以看出,不同算法模型在視頻序列每一幀的追蹤結(jié)果都不相同,但是VOT數(shù)據(jù)集中標(biāo)注的真實(shí)目標(biāo)位置只有一個(gè),因此不同算法的準(zhǔn)確率也不同。當(dāng)然,不同模型的跟蹤速度也不同,圖4展示了KPDCF、CN、SAMF與本文提出模型在速度上的對(duì)比實(shí)驗(yàn)結(jié)果。
由圖4可以看出,最為簡(jiǎn)單的CN模型跟蹤速度最快,達(dá)到了90fps多,但這是在犧牲追蹤精度的情況下達(dá)到的,本文提出的DFDCF模型跟蹤速度排名第二。KPDCF由于考慮了多尺度自適應(yīng)問(wèn)題,提高了算法的時(shí)間復(fù)雜度,因此速度較慢,而SAMF模型在跟蹤速度方面表現(xiàn)最差。
圖5展示了在singerl視頻序列下4個(gè)模型的精確度與魯棒值對(duì)比,在singerl視頻序列中,光線變化較為強(qiáng)烈,背景干擾性強(qiáng)??梢钥吹剑?0次實(shí)驗(yàn)中,本文提出的DFD-CF不論是平均準(zhǔn)確度還是平均Rs值,在4個(gè)算法中都是最高的,雖然與KPDCF的性能差距不大,但在以上的FPS結(jié)果對(duì)比中,DFDCF相比KPDCF領(lǐng)先了約20fps。CN模型雖然在FPS對(duì)比中大幅領(lǐng)先,但其追蹤精度和魯棒值都遠(yuǎn)達(dá)不到要求。事實(shí)上,在針對(duì)其它人體運(yùn)動(dòng)視頻序列的實(shí)驗(yàn)結(jié)果中,DFDCF的平均精度與魯棒值都有著較好表現(xiàn),具體數(shù)據(jù)如表1一表3所示。
4 結(jié)語(yǔ)
本文研究了人體運(yùn)動(dòng)序列的目標(biāo)追蹤問(wèn)題,首先介紹了傳統(tǒng)基于相關(guān)濾波的目標(biāo)追蹤算法,指出其手工特征選擇部分在追蹤目標(biāo)形變較大或受到外界環(huán)境因素干擾情況下,可能導(dǎo)致追蹤目標(biāo)失敗,然后提出一種結(jié)合深度特征的相關(guān)濾波追蹤模型,使用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)獲取目標(biāo)特征,并將得到的深度卷積特征用作相關(guān)濾波器的特征提取部分,相關(guān)濾波器則作為運(yùn)動(dòng)序列的在線目標(biāo)追蹤部分。實(shí)驗(yàn)結(jié)果表明,本文提出的基于深度特征的相關(guān)濾波追蹤模型在人體運(yùn)動(dòng)序列追蹤領(lǐng)域有著良好性能,在與其它模型對(duì)比時(shí),在每秒傳輸幀數(shù)、準(zhǔn)確率和魯棒值方面都表現(xiàn)較好。然而,現(xiàn)有目標(biāo)追蹤算法在追蹤速度與追蹤準(zhǔn)確率方面很難做到兩者兼顧,后續(xù)研究將聚焦如何在不大幅降低追蹤準(zhǔn)確率的情況下,進(jìn)一步提高追蹤速度。
參考文獻(xiàn)
[1]HORN B K P, SCHUNCK B G. Determining optical flow[J]. ArtificialIntelligence, 1981 , 17( 1-3) : 185-204.
[2]BOBICK A F, DAVIS J W. The recognition of human movement usingtemporal templates [J]. Pattern Analysis & Machine IntelligenceIEEE Transactions on , 2001 .23( 3) : 257-267.
[3]COMANICIU D. RAMESH V, MEER P. Kernel-based object track-ing [J]. Pattern Analysis & Machine Intelligence, 2003, 25 (5) :564-575.
[4] ZHAO T, NEVATIA R. Tracking multiple humans in crowded envi-ronment [ C ]. Proceedings of the 2004 IEEE Computer Society Confer-ence on Computer Vision and Pattern Recognition, 2004.