牟 琦,張 寒,何志強(qiáng),李占利
(1.西安科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,陜西 西安 710054;2.西安科技大學(xué)機(jī)械工程學(xué)院,陜西 西安 710054)
視覺目標(biāo)跟蹤是指根據(jù)給定的第1 幀圖像中目標(biāo)的狀態(tài),對后續(xù)視頻幀序列中目標(biāo)的位置進(jìn)行估計(jì)的過程,被廣泛應(yīng)用到視頻監(jiān)控、智能機(jī)器人和人機(jī)交互等領(lǐng)域[1-3]?;谙嚓P(guān)濾波的目標(biāo)跟蹤方法由于跟蹤效率高、精度好等優(yōu)點(diǎn)被廣泛關(guān)注,在其基礎(chǔ)上改進(jìn)的目標(biāo)跟蹤算法在跟蹤領(lǐng)域占據(jù)主導(dǎo)位置[4-7]。
BOLME 等[8]提出的誤差最小平方和濾波器(minimum output sum of squared error filter,MOSSE)算法,將相關(guān)濾波應(yīng)用到跟蹤領(lǐng)域,通過傅里葉變換把濾波運(yùn)算轉(zhuǎn)到頻域,大幅提高了目標(biāo)跟蹤算法的效率。HENRIQUES 等[9]提出的核循環(huán)結(jié)構(gòu)(circulant structure with kernels,CSK)算法將循環(huán)矩陣的理論和核方法應(yīng)用到相關(guān)濾波跟蹤中,優(yōu)化目標(biāo)跟蹤算法的運(yùn)動模型和觀測模型,實(shí)現(xiàn)了對目標(biāo)移動更為魯棒的相關(guān)濾波目標(biāo)跟蹤算法。HENRIQUES 等[10]將多通道的方向梯度直方圖(histogram of oriented gradient,HOG)特征與CSK框架結(jié)合,提出了核相關(guān)濾波目標(biāo)跟蹤算法(kernelized correlation filters,KCF),該算法提取目標(biāo)的HOG 特征對目標(biāo)建模,大幅提升了相關(guān)濾波目標(biāo)跟蹤的準(zhǔn)確度。
以上基于相關(guān)濾波的目標(biāo)跟蹤算法在簡單環(huán)境且目標(biāo)尺度未發(fā)生明顯變化時(shí),能夠快速跟蹤目標(biāo),得到良好的跟蹤效果。但在實(shí)際場景中,目標(biāo)背景通常比較復(fù)雜,且目標(biāo)尺度可能發(fā)生較大變化。KCF 算法使用單一特征訓(xùn)練跟蹤模板,無法充分地表示目標(biāo)特征,在復(fù)雜場景中魯棒性低,易受環(huán)境的影響;另外,當(dāng)目標(biāo)與鏡頭距離發(fā)生較大變化時(shí),KCF 無法根據(jù)目標(biāo)的變化動態(tài)調(diào)整跟蹤邊框的尺寸,目標(biāo)窗口內(nèi)會存在大量的非目標(biāo)區(qū)域或不能完全包含目標(biāo),導(dǎo)致濾波器在后續(xù)跟蹤中學(xué)習(xí)到錯(cuò)誤特征,所訓(xùn)練出的跟蹤模板被污染,無法正確地跟蹤目標(biāo)。針對目標(biāo)尺度變化問題,文獻(xiàn)[11]提出了基于相關(guān)濾波的判別型尺度空間算法(discriminative scale space tracking,DSST),通過分別構(gòu)建一個(gè)平移濾波器和一個(gè)尺度濾波器實(shí)現(xiàn)對目標(biāo)的尺度自適應(yīng)跟蹤。該算法能對目標(biāo)尺度進(jìn)行比較準(zhǔn)確地估計(jì),但是當(dāng)目標(biāo)尺度變化較大時(shí),算法效率較低。本文針對環(huán)境復(fù)雜、目標(biāo)尺度變化而導(dǎo)致跟蹤效果不理想的問題,提出了一種基于深度估計(jì)和特征融合的尺度自適應(yīng)目標(biāo)跟蹤算法。當(dāng)目標(biāo)與鏡頭距離發(fā)生較大變化時(shí),目標(biāo)的深度和尺度會同時(shí)發(fā)生變化,并且二者之間會存在相關(guān)關(guān)系。基于以上相關(guān)關(guān)系,本文算法首先通過深度估計(jì)網(wǎng)絡(luò),建立深度-尺度估計(jì)模型,估計(jì)目標(biāo)的尺度,從而在目標(biāo)尺度發(fā)生變化后,能夠自適應(yīng)地調(diào)整目標(biāo)框大小,實(shí)現(xiàn)更加魯棒的目標(biāo)跟蹤。本文算法所采用的左右一致性單目深度估計(jì)網(wǎng)絡(luò)可以直接對視頻序列圖像估計(jì)深度信息,無需深度圖像或雙目圖像序列,因此該算法不受場景和硬件設(shè)備的限制,應(yīng)用場景和經(jīng)典的相關(guān)濾波目標(biāo)跟蹤算法KCF 相同。
另外,在目標(biāo)跟蹤中,利用目標(biāo)的特征建立目標(biāo)的外觀模型,其直接影響目標(biāo)跟蹤的精度。因此,使用強(qiáng)有力的特征來描述目標(biāo)對實(shí)現(xiàn)準(zhǔn)確的目標(biāo)跟蹤非常重要。HOG 特征是通過計(jì)算和統(tǒng)計(jì)圖像局部區(qū)域的梯度方向直方圖得到的,在圖像的局部方格單元上操作,受圖像的光照變化和幾何形變影響小,但是對目標(biāo)的姿態(tài)、角度的變化十分敏感。顏色(color name,CN)特征是全局特征,描述整個(gè)目標(biāo)不同顏色通道的數(shù)量統(tǒng)計(jì),對目標(biāo)角度的變化、局部形變不敏感,且包含了豐富的場景信息,有利于區(qū)分目標(biāo)與背景。為了更加充分地描述目標(biāo),本文將HOG 特征和CN 特征相融合,對目標(biāo)外觀建模,有效地提升了模型的表征能力。
本文提出深度-尺度估計(jì)模型,利用目標(biāo)的深度值估計(jì)尺度值,實(shí)現(xiàn)尺度自適應(yīng)目標(biāo)跟蹤。和KCF算法相比,提高了跟蹤的準(zhǔn)確度;和DSST 算法相比,在尺度變化較大時(shí),跟蹤速度更快;在環(huán)境復(fù)雜、目標(biāo)移動過程中出現(xiàn)與目標(biāo)顏色近似的遮擋物時(shí),魯棒性更好。
相關(guān)濾波目標(biāo)跟蹤算法將信號的相關(guān)性理論引入到目標(biāo)跟蹤算法中,對目標(biāo)模板與待檢測區(qū)域進(jìn)行相關(guān)計(jì)算,將響應(yīng)結(jié)果的最大值點(diǎn)作為目標(biāo)預(yù)測中心點(diǎn)。其主要工作就是訓(xùn)練一個(gè)可用于跟蹤的相關(guān)濾波模板。目標(biāo)模板與待檢測區(qū)域的相關(guān)運(yùn)算為
其中,f為待檢測區(qū)域圖像特征;h為相關(guān)濾波模板;g為響應(yīng)輸出。為了提高運(yùn)算效率,通常會進(jìn)行快速傅里葉變換,在頻率域內(nèi),將相關(guān)計(jì)算轉(zhuǎn)化為點(diǎn)乘運(yùn)算,即
其中,F(xiàn)為待檢測區(qū)域圖像特征經(jīng)過快速傅里葉變換后的表示;H*為相關(guān)濾波模板經(jīng)過快速傅里葉變換后的復(fù)共軛;G為響應(yīng)輸出。在跟蹤過程中,通過對待檢測區(qū)域進(jìn)行M次采樣得到F,然后分別構(gòu)造高斯響應(yīng)函數(shù)得到G,利用最小化均方誤差的方法,訓(xùn)練得到最優(yōu)的相關(guān)濾波模板,目標(biāo)函數(shù)為
最小化式(3),得到相關(guān)濾波模板的最優(yōu)解,即
通過式(4)可以求得第i幀圖像中最優(yōu)的相關(guān)濾波模板。為了避免相鄰幀之間目標(biāo)細(xì)微差異對目標(biāo)跟蹤的影響,將上一幀相關(guān)濾波模板與當(dāng)前幀得到的相關(guān)濾波模板加權(quán)求和,得到新的相關(guān)濾波模板,即
其中,η為學(xué)習(xí)率,通常取值0.125。
深度圖像中的每一個(gè)像素值表示場景中像素點(diǎn)和拍攝點(diǎn)的距離。目前主要是利用激光、結(jié)構(gòu)光等在物體表面的反射獲取場景深度信息,需要較高的成本。深度估計(jì)算法通過圖像獲取場景深度信息,無需安裝深度攝像頭,可分為立體視覺方法和單目圖像深度估計(jì)方法。立體視覺方法需要至少2個(gè)位置相對固定的相機(jī)同一時(shí)間對同一場景進(jìn)行拍攝,這一條件限制了其應(yīng)用范圍。單目圖像深度估計(jì)方法只需要一個(gè)普通相機(jī),應(yīng)用場景所受限制更小。
近年來,深度學(xué)習(xí)在視覺領(lǐng)域表現(xiàn)優(yōu)異,一些學(xué)者開始將深度學(xué)習(xí)方法應(yīng)用于目標(biāo)深度估計(jì)問題。
EIGEN 等[12]利用圖像的深度信息作為標(biāo)簽訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN),實(shí)現(xiàn)對圖像深度的估計(jì);此后,在此基礎(chǔ)上出現(xiàn)了一些改進(jìn)的基于監(jiān)督學(xué)習(xí)的方法。但是在某些場景下,無法得到精確的深度信息,因此一些學(xué)者轉(zhuǎn)向研究無監(jiān)督的深度學(xué)習(xí)方法。文獻(xiàn)[13]提出了一種基于圖像的單目深度估計(jì)網(wǎng)絡(luò)。該方法無需用真實(shí)的深度信息作為標(biāo)簽,在訓(xùn)練時(shí)使用相對容易獲取的左右視圖圖像訓(xùn)練網(wǎng)絡(luò),在測試和應(yīng)用時(shí)僅需要單幅圖像便可得到對應(yīng)的深度圖。GOARD 等[14]在文獻(xiàn)[13]的基礎(chǔ)上進(jìn)行優(yōu)化,進(jìn)一步提高了無監(jiān)督深度估計(jì)網(wǎng)絡(luò)的性能。
圖1 為文獻(xiàn)[14]提出的左右一致性單目深度估計(jì)網(wǎng)絡(luò)的結(jié)構(gòu)示意圖。
圖1 左右一致性單目深度估計(jì)網(wǎng)絡(luò) Fig.1 Monocular depth estimation network with left-right consistency
算法的思想是用重建圖像的方式構(gòu)建深度估計(jì)網(wǎng)絡(luò)。訓(xùn)練階段,網(wǎng)絡(luò)的輸入是標(biāo)定好的雙目相機(jī)同步采集的圖像對,左視圖Il,右視圖Ir,通過CNN,得到右視差圖dr和左視差圖dl,分別應(yīng)用到左視圖Il和右視圖Ir,可以得到重建后的右視圖和左視圖。分別計(jì)算重建的左視圖與原左視圖之間的誤差以及重建的右視圖和原右視圖之間的誤差,并引入視差平滑誤差Cds和左右 視差一致誤差Clr,即總誤差C=Cap+Cds+Clr,最小化總誤差C,得到CNN 的各項(xiàng)參數(shù)。測試階段,將測試集的左視圖或右視圖輸入到訓(xùn)練階段得到的CNN,網(wǎng)絡(luò)輸出視差d,由雙目相機(jī)的成像原理可知:D=Bf/d,其中B為2 個(gè)相機(jī)之間的距離,f為相機(jī)焦距,D為圖像的深度值。
當(dāng)目標(biāo)與鏡頭距離發(fā)生較大變化時(shí),目標(biāo)在空間內(nèi)的深度信息變化與尺度變化之間存在較強(qiáng)的相關(guān)關(guān)系,尺度值會隨深度值的增大而減小。根據(jù)這種相關(guān)關(guān)系,本文算法首先根據(jù)不同幀中目標(biāo)深度值和尺度值的變化關(guān)系,建立并訓(xùn)練深度-尺度估計(jì)模型,利用該模型對尺度進(jìn)行估計(jì);然后將得到的尺度值引入到使用特征融合的相關(guān)濾波跟蹤算法中,在跟蹤時(shí),自動調(diào)整目標(biāo)邊框尺寸,實(shí)現(xiàn)對目標(biāo)的尺度自適應(yīng)魯棒跟蹤。
本文算法的關(guān)鍵是利用訓(xùn)練數(shù)據(jù)集建立深度-尺度估計(jì)模型,從而通過當(dāng)前幀目標(biāo)的深度信息,預(yù)測目標(biāo)尺度值。具體步驟如圖2 所示。
圖2 深度-尺度估計(jì)模型 Fig.2 Depth-scale estimation model
主要步驟如下:
步驟1.利用文獻(xiàn)[14]中的左右一致性單目深度估計(jì)網(wǎng)絡(luò),得到二維圖像對應(yīng)的深度圖。
步驟2.提取視頻幀序列中每一幀的目標(biāo)面積size_i和目標(biāo)中心位置深度值depth_i,其中i為幀序號,1≤i≤N,N為總幀數(shù)??紤]到不同目標(biāo)的長寬比例不同,本文算法中的尺度采用目標(biāo)面積來表示。深度值depth_i由步驟1 得到。
步驟3.建立深度-尺度估計(jì)模型。隨著目標(biāo)深度的逐漸增加,尺度逐漸減小,理論上呈線性關(guān)系。由于本文算法中的尺度采用目標(biāo)面積,因此,采用二次多項(xiàng)式來建立深度-尺度模型,即
其中,k1,k2分別為一次項(xiàng)和二次項(xiàng)系數(shù);k0為常數(shù)項(xiàng);scale為目標(biāo)的估計(jì)尺度值??紤]到不同目標(biāo)面積有較大不同,使用每一幀的面積除以第1 幀面積,作為該幀的真實(shí)尺度值trueScale_i,即
步驟4.訓(xùn)練深度-尺度估計(jì)模型,使用最小均方誤差作為損失函數(shù),即
其中,f(depth_i)為第i幀目標(biāo)的尺度估計(jì)值;trueScale_i為訓(xùn)練數(shù)據(jù)集中第i幀目標(biāo)的真實(shí)尺度值。
本文提出的尺度自適應(yīng)目標(biāo)跟蹤算法如圖3所示。
圖3 尺度自適應(yīng)目標(biāo)跟蹤算法 Fig.3 Scale-adaptive target tracking algorithm
步驟1.根據(jù)視頻序列中第1 幀給定的目標(biāo)中心點(diǎn)坐標(biāo)X,在其周圍采樣得到訓(xùn)練樣本,分別提 取樣本的HOG 特征和CN 特征,2 種特征相加后得到樣本的最終特征F;根據(jù)訓(xùn)練樣本與目標(biāo)中心點(diǎn)X的距離,生成[0~1]范圍的高斯型標(biāo)簽,即預(yù)期響應(yīng)置信圖G。使用H=G/F得到相關(guān)濾波器模板H。
步驟2.在后續(xù)幀中,根據(jù)前一幀目標(biāo)中心點(diǎn)坐標(biāo)X在當(dāng)前幀中的位置X',在X'周圍采樣并提取特征,計(jì)算相關(guān)濾波器H與樣本特征的響應(yīng)值,響應(yīng)值最大處即為目標(biāo)所在位置。
步驟3.使用深度估計(jì)網(wǎng)絡(luò)得到目標(biāo)的深度值depth_i,再利用深度-尺度估計(jì)模型得到目標(biāo)的尺度值S_i,根據(jù)得到的尺度值調(diào)整目標(biāo)框尺寸,實(shí)現(xiàn)對目標(biāo)的尺度自適應(yīng)跟蹤。
為避免深度估計(jì)過程中的誤差,本文算法使用第1 幀中目標(biāo)的真實(shí)尺度值對估計(jì)尺度值進(jìn)行矯正,即
其中,trueScale_1 為第1 幀中目標(biāo)的真實(shí)尺度,scale_1?為通過深度-尺度模型計(jì)算出的第1 幀尺度值;scale_i?為通過深度-尺度模型計(jì)算出的第i幀尺度值,S_i為矯正后第i幀的估計(jì)尺度值。
步驟4.判斷當(dāng)前幀是否為視頻序列中的最后一幀,若是,則結(jié)束跟蹤;否則利用式(5)更新相關(guān)濾波器模板H,i加1,并返回至步驟2,對第i+1幀圖像進(jìn)行目標(biāo)跟蹤。
本文提出的尺度自適應(yīng)目標(biāo)跟蹤的實(shí)驗(yàn)環(huán)境見表1。
表1 尺度自適應(yīng)目標(biāo)跟蹤實(shí)驗(yàn)環(huán)境配置 Table 1 Experimental environment configuration of scale adaptive target tracking
3.2.1 數(shù)據(jù)集介紹
本文采用的數(shù)據(jù)集為目標(biāo)跟蹤標(biāo)準(zhǔn)數(shù)據(jù)集OTB-100(Online Object Tracking Benchmark)中的6個(gè)序列和作者自建的Girl_S 序列。
OTB-100 數(shù)據(jù)集是最常用的目標(biāo)跟蹤算法數(shù)據(jù)集,包含100 個(gè)視頻序列。每個(gè)序列包含img 文件夾和ground-truth 文件,img 文件夾包含該序列連續(xù)的RGB 圖像;ground-truth 文件包含每一幀RGB圖像對應(yīng)的標(biāo)定信息,即目標(biāo)邊框的左上角坐標(biāo)x,y和目標(biāo)邊框的寬、高數(shù)據(jù)。本文選擇跟蹤過程中目標(biāo)尺度發(fā)生變化的 Car2,Human2,Girl2,Crossing,Walking 和Walking2 序列作為實(shí)驗(yàn)數(shù)據(jù)集。例如,Car2 序列中包含913 幀連續(xù)的圖像。序列的目標(biāo)為一輛在公路上行駛的小轎車,拍攝的相機(jī)位于轎車的后方,目標(biāo)在行駛過程中尺度發(fā)生了明顯的變化,并且場景的光照也發(fā)生了明暗交替的變化。
自建Girl_S 序列拍攝于西安科技大學(xué)臨潼校區(qū)圖書館門前,包含200 幀連續(xù)圖像序列和每一幀圖像的ground-truth 文件。該序列中的目標(biāo)是身著橙色上衣的學(xué)生,在行走過程中目標(biāo)的尺度發(fā)生了明顯變化,并且在第108~154 幀中,另一名身著黃色上衣的行人出現(xiàn),對跟蹤目標(biāo)進(jìn)行了完全遮擋。
本文使用Car2 序列的前850 幀圖像訓(xùn)練深度-尺度估計(jì)模型;使用其余6 個(gè)序列對深度-尺度估計(jì)模型進(jìn)行了測試。
3.2.2 評價(jià)指標(biāo)
本文使用4 種評價(jià)指標(biāo)對算法進(jìn)行分析。
(1) 成功率。預(yù)測框和標(biāo)定框二者的交集與并集之間的比值大于等于給定閾值的視頻幀數(shù)和總幀數(shù)的百分比,即
其中,N為視頻的總幀數(shù)。gt_box_i和pre_box_i分別為第i幀的標(biāo)定框和預(yù)測框;T1 為閾值,常取值0.5;success為成功率。成功率越大,表示跟蹤的越準(zhǔn)確。
(2) 中心位置誤差。預(yù)測框中心點(diǎn)坐標(biāo)與標(biāo)定框中心點(diǎn)坐標(biāo)二者之間的歐氏距離,即
其中,1≤i≤N,N為視頻的總幀數(shù);Pxgt和Pygt分別為標(biāo)定框中心點(diǎn)的橫、縱坐標(biāo);Pxpre和Pypre分別為預(yù)測框中心點(diǎn)的橫、縱坐標(biāo);d_i(Pgt,Ppre)為2 點(diǎn)之間的歐氏距離。
(3) 精度。中心位置誤差小于給定閾值的視頻幀數(shù)和總幀數(shù)的百分比,即
其中,precisions(x)為跟蹤精度,其值越大,表示精度越高;T2 為閾值,常取值20。
(4) 速度。算法所用時(shí)間與視頻序列幀數(shù)的比值,即平均每秒跟蹤的幀數(shù),值越大則跟蹤的速度越快。
3.3.1 深度-尺度估計(jì)模型實(shí)驗(yàn)
首先,使用左右一致性單目深度估計(jì)網(wǎng)絡(luò),得到Car2 序列中各幀的深度值。
圖4 為Car2 序列中部分幀的RGB 圖像和對應(yīng)的深度圖像。圖中綠色框標(biāo)注的是所跟蹤的目標(biāo),實(shí)驗(yàn)中使用的尺度值指綠色框的面積,由ground-truth 文件中的長、寬計(jì)算得到;深度值指的是深度圖像中綠色框中心位置像素的深度值。
圖4 Car2 部分幀的RGB 圖像和深度圖像 Fig.4 Part of the RGB images and depth images of Car2
圖5(a)中的藍(lán)色線為Car2 序列中目標(biāo)深度值隨幀數(shù)的變化情況??梢钥闯?,目標(biāo)移動過程中,目標(biāo)和鏡頭的相對位置一直在變化,出現(xiàn)的幾個(gè)峰值是因?yàn)樵诟欉^程中目標(biāo)通過橋梁,光照發(fā)生了由亮到暗再到亮的變化,可以將其忽略。圖5(b)中的藍(lán)色線為Car2 序列中目標(biāo)尺度值隨幀數(shù)變化的情況。可以看出,隨著目標(biāo)與鏡頭相對距離的改變,目標(biāo)的尺度逐漸變小,并且趨勢明顯。圖5(a)和(b)中的橙色線分別是對深度值和尺度值平滑擬合后的結(jié)果。
圖5 目標(biāo)的變化曲線((a)目標(biāo)深度值曲線圖;(b)目標(biāo)尺度值曲線圖) Fig.5 Variation curves of target ((a) Plot of target depth values;(b) Plot of target scale values)
圖6(a)中的藍(lán)色散點(diǎn)的坐標(biāo)分別是目標(biāo)的深度值和尺度值,紅色曲線是直接對其進(jìn)行擬合的結(jié)果。
為了提高模型的可靠性,本文算法首先對離散的深度值和尺度值分別進(jìn)行平滑處理,經(jīng)過平滑處理后的深度值與尺度值的散點(diǎn)圖如圖6(b)中綠色星形散點(diǎn)所示,紅色曲線是對平滑處理后的深度值和尺度值進(jìn)行擬合的結(jié)果,即深度-尺度估計(jì)模型。
圖6 深度-尺度估計(jì)模型((a)未平滑的深度-尺度估計(jì)模型;(b)平滑處理后的深度-尺度估計(jì)模型) Fig.6 Depth-scale estimation model ((a) Unsmoothed depth-scale estimation model;(b) Smoothed depth-scale estimation model)
3.3.2 尺度自適應(yīng)跟蹤實(shí)驗(yàn)
為了客觀的驗(yàn)證本文算法的有效性,在除用于訓(xùn)練深度-尺度模型的Car2 序列外的6 個(gè)目標(biāo)尺度發(fā)生變化的序列上進(jìn)行測試,并與KCF 算法[10]、DSST 算法[11]進(jìn)行對比,實(shí)驗(yàn)結(jié)果如圖7 和8、表2和3 所示。
表2 各算法在6個(gè)視頻序列的跟蹤結(jié)果的平均值 Table 2 Average of the tracking results of each algorithm for 6 video sequences
圖7 對Walking2 序列的跟蹤結(jié)果 Fig.7 The tracking result for Walking2
圖7 是在Walking2 序列上的跟蹤結(jié)果??梢钥闯觯诘?10 幀時(shí),目標(biāo)尺度發(fā)生了明顯變化;在第339 幀時(shí),KCF 的跟蹤框由于尺度過大,導(dǎo)致跟蹤模板污染,跟蹤框失效,在后續(xù)幀中丟失了目標(biāo),而本文算法和DSST 算法可自適應(yīng)地調(diào)整跟蹤框大小,在后續(xù)幀中仍能較準(zhǔn)確地跟蹤目標(biāo)。
圖8 是在Girl_S 序列上的跟蹤結(jié)果??梢钥吹剑诘?0 幀時(shí),目標(biāo)尺度發(fā)生了變化,DSST 算法的尺度較準(zhǔn)確,KCF 未作尺度調(diào)整,本文算法的尺度有所變化;在第130 幀時(shí),目標(biāo)被遮擋,此時(shí),DSST算法估計(jì)的目標(biāo)尺度最準(zhǔn)確,KCF 算法的尺度未發(fā)生變化,本文算法對尺度做了一定的調(diào)整;在第160幀到200 幀,目標(biāo)通過遮擋后重新出現(xiàn),DSST 算法發(fā)生漂移,跟蹤錯(cuò)誤;KCF 和本文算法均能夠正確跟蹤目標(biāo),KCF 算法的目標(biāo)尺度固定,而本文算法對尺度做了調(diào)整。
圖8 對Girrl_S 序列的跟蹤結(jié)果 Fig.8 The tracking result for Girl_S
將本文算法和采用HOG+CN 特征的KCF-CN算法、僅采用HOG 特征的KCF 算法、DSST 算法分別在6 個(gè)視頻序列上測試,得到的成功率、中心位置誤差、精度和速度的平均值見表2??梢钥闯?,本文目標(biāo)跟蹤算法在跟蹤成功率、中心位置誤差、精度上的表現(xiàn)都優(yōu)于KCF 算法,但是本文算法的速度明顯低于KCF 算法。這是由于本文算法需要采用左右一致性單目深度估計(jì)網(wǎng)絡(luò)計(jì)算每一幀的深度值。因此,在實(shí)時(shí)跟蹤時(shí),會明顯降低跟蹤的速度,但依然能夠滿足公園、小區(qū)、學(xué)校、商場等場景下對低速目標(biāo)(如行人)實(shí)時(shí)跟蹤的要求。在非實(shí)時(shí)跟蹤時(shí),可以首先使用單目深度估計(jì)算法,得到所有幀的深度,從而實(shí)現(xiàn)更高速的跟蹤。和DSST算法相比,本文算法精度更高。
在表3 中列出了本文算法和對比算法在6 個(gè)序列上的成功率、中心位置誤差、精度和速度,其中加粗黑體字為表現(xiàn)最好的算法。本文算法和DSST算法在成功率、中心位置誤差和精度3 個(gè)指標(biāo)中,總體而言表現(xiàn)良好。KCF-CN 算法優(yōu)于KCF 算法,證明了魯棒的外觀模型可以更充分地表示目標(biāo),從而提高目標(biāo)跟蹤算法的性能。
表3 各算法在6個(gè)視頻序列的結(jié)果對比 Table 3 Comparison of the results of each algorithm in 6 video sequences
在成功率和中心位置誤差指標(biāo)上,本文算法和DSST 算法在每個(gè)視頻序列上的表現(xiàn)都明顯高于KCF 算法。這是因?yàn)楸疚乃惴ê虳SST 算法能實(shí)時(shí)自適應(yīng)地調(diào)整預(yù)測框的大小,及時(shí)更新濾波模板,所以跟蹤更準(zhǔn)確;在精度指標(biāo)上,Crossing 序列和Walking 序列,與本文算法和DSST 算法都達(dá)到了100%,是因?yàn)檫@2 個(gè)序列的尺度變化很小,因此,即使KCF 算法不改變?yōu)V波模板大小,也能準(zhǔn)確地跟蹤目標(biāo)。而在目標(biāo)尺度發(fā)生較大變化時(shí),本文算法和DSST 算法更準(zhǔn)確。
在Human2 序列中,本文算法在成功率和精度指標(biāo)上略低DSST 算法,是因?yàn)樵撔蛄泄庹兆兓瘡?fù)雜,目標(biāo)的深度受到影響,估計(jì)到的目標(biāo)尺度不準(zhǔn)確,影響了2 個(gè)指標(biāo),但本文算法始終可以跟蹤到目標(biāo),而DSST 算法在跟蹤中,有幾幀未能跟蹤到,所以本文算法在中心誤差指標(biāo)上優(yōu)于DSST 算法;在速度上,本文算法快于DSST 算法。
在Girl2 序列中,發(fā)生了目標(biāo)被遮擋的情況。被其他行人完全遮擋的前幾幀,DSST 算法預(yù)測就已經(jīng)發(fā)生了偏移,而本文算法是在目標(biāo)被完全遮擋后才發(fā)生了偏移,因此本文算法的成功率和精度略高于DSST 算法;本文算法的中心誤差大的原因是,目標(biāo)被遮擋后,本文算法預(yù)測的位置離目標(biāo)很遠(yuǎn),DSST 算法雖然未能跟蹤到目標(biāo),但是預(yù)測的位置并未偏離很大。
自建序列Girl_S 中,在精度和中心位置誤差指標(biāo)中,本文算法較高,是因?yàn)槟繕?biāo)被遮擋后,DSST算法跟蹤錯(cuò)誤,而本文算法并未跟蹤錯(cuò)誤;在成功率指標(biāo)中,因?yàn)樵撔蛄姓w亮度較低,在第35 幀后,目標(biāo)的深度預(yù)測不準(zhǔn)確,估計(jì)的尺度比目標(biāo)實(shí)際的尺度大,所以成功率不高。在速度上,本文算法快于DSST 算法。
綜上,本文算法比KCF 算法在除速度指標(biāo)外的其他3 個(gè)指標(biāo)上更好;與DSST 算法相比,在尺度變化較大時(shí),跟蹤速度更快;在環(huán)境復(fù)雜、目標(biāo)移動過程中出現(xiàn)與目標(biāo)顏色近似的遮擋物時(shí),魯棒性更好。
圖9 是在不同閾值下,本文算法和對比算法在6 個(gè)視頻序列上的平均跟蹤精度。可以看出,本文算法表現(xiàn)最好。
圖9 各算法的跟蹤精度可視化圖 Fig.9 Visualization of tracking accuracy of each algorithm
針對經(jīng)典核相關(guān)濾波目標(biāo)跟蹤算法在復(fù)雜環(huán)境下,或目標(biāo)尺度發(fā)生較大變化時(shí),無法準(zhǔn)確跟蹤目標(biāo)的問題,本文提出一種基于深度估計(jì)和特征融合的尺度自適應(yīng)目標(biāo)跟蹤算法。該算法將HOG 特征和CN 特征相融合建立目標(biāo)的外觀模型,并通過建立深度-尺度估計(jì)模型,實(shí)現(xiàn)了尺度自適應(yīng)的魯棒跟蹤算法。實(shí)驗(yàn)結(jié)果表明,和KCF 算法相比,當(dāng)目標(biāo)發(fā)生明顯尺度變化時(shí),該算法能夠有效提升目標(biāo)跟蹤的準(zhǔn)確率。但是由于引入左右一致性單目深度估計(jì)網(wǎng)絡(luò)來估計(jì)目標(biāo)的深度值,跟蹤速度較慢,適用于公園、小區(qū)、學(xué)校、商場等場景下對低速目標(biāo)的跟蹤,以及非實(shí)時(shí)跟蹤的場景;和DSST 算法相比,在尺度變化較大時(shí),跟蹤速度更快,在環(huán)境復(fù)雜、目標(biāo)移動過程中出現(xiàn)與目標(biāo)顏色近似的遮擋物時(shí),魯棒性更好。