黃浩淼,張 江,張 晶,保峻嶸
(1.昆明理工大學信息工程與自動化學院,云南 昆明 650500; 2.中國船舶集團有限公司第七〇五研究所昆明分部,云南 昆明 650102;3.云南梟潤科技服務(wù)有限公司,云南 昆明 650500; 4.昆明理工大學云南省人工智能重點實驗室,云南 昆明 650500;5.云南省信息技術(shù)發(fā)展中心,云南 昆明 650228)
目標跟蹤在計算機視覺領(lǐng)域和信息物理融合系統(tǒng)(Cyber Physical Systems)的感知層中一直是研究的熱點。然而在快速移動、目標受到長時間遮擋、背景雜亂等復雜場景下跟蹤結(jié)果仍然面臨很大的挑戰(zhàn)性。因此,眾多優(yōu)秀的判別式與生成式目標跟蹤算法[1]相繼被推出,其中,相關(guān)濾波算法憑借速度快和循環(huán)采樣方式增加樣本豐富性,有效提高了跟蹤魯棒性和實時性,在近幾年受到研究者更多的關(guān)注。比如:引入循環(huán)矩陣和核概念的CSK(Circulant Structure of tracking-by-detection with Kernel)[2]算法,CSK通過循環(huán)對密集樣本目標周圍的背景進行采樣,然后分類器經(jīng)過核函數(shù)對循環(huán)移位的樣本進行快速檢測,提高跟蹤的速度。但是,由于目標特征提取只選擇灰度特征,導致CSK算法在復雜情景下不能很好地表現(xiàn)目標外觀模型,出現(xiàn)跟蹤失敗。CN算法(adaptive color attributes for real-time visual tracking)[3]根據(jù)目標的表觀模型,經(jīng)過快速傅里葉變換與核映射得到多通道下的顏色特征信息,然后預測下一幀的目標最大響應位置,并使用PCA降維技術(shù)減少特征維度,提高算法的實時性,但也屏蔽了部分目標信息,對于光照強度魯棒性較差。KCF(high-speed tracking with Kernelized Correlation Filters)[4]在CSK的基礎(chǔ)上,采用HOG多通道特征替換灰度特征,并通過高斯核函數(shù)簡化循環(huán)矩陣傅里葉對角化計算,提高了算法的魯棒性,但對于目標尺度發(fā)生變化的情況,容易跟蹤漂移。DSST(Discriminative Scale Space Tracking)[5]通過引入尺度濾波器,構(gòu)建33層金字塔特征向量,對目標尺度變化進行響應,解決目標尺度變化問題的同時跟蹤精度也很高,但是在跟蹤快速運動目標時,跟蹤效果不佳。Nam等人[6]提出TCNN (Tree Convolutional Neural Network)方法,通過樹形結(jié)構(gòu)結(jié)合多個CNN來表示目標的多種外觀模型,然后對每個模型的候選框加權(quán)平均得到目標位置,從而適應目標的快速形變,但模型復雜,降低了跟蹤的實時性。Oron等人[7]提出一種對目標區(qū)域分塊的跟蹤方法,首先對圖像目標區(qū)域進行分塊處理,根據(jù)像素匹配的相似性預測目標的下一幀所在位置,提高跟蹤的精確度,但跟蹤速度很慢?;鹪粕彽热薣8]提出一種融合多特征的相關(guān)濾波跟蹤算法,通過提取多種特征構(gòu)建目標表觀模型,進行降維后重新構(gòu)造特征矩陣并融合入相關(guān)濾波器,得到更精確的目標跟蹤效果,但模型變得復雜,降低了跟蹤的實時性。陳晨等人[9]提出一種多模糊核融合的單目標跟蹤算法,根據(jù)模糊理論改進核函數(shù)的損失函數(shù),提高了算法在跟蹤過程中的實時性。張晶等人[10]提出一種TLD(Tracking-Learning-Detection)跟蹤框與STC(fast tracking via Spatio-Temporal Context learning)響應位置進行相似度聯(lián)合優(yōu)化的目標跟蹤算法TLD-STCS,通過對上下幀圖像目標區(qū)域相似性的判定,快速找到STC算法置信圖中置信度最大的輸出響應值,從而得到合適的目標框。
對于以上的相關(guān)濾波器算法在跟蹤快速運動目標時,濾波器都容易因為邊界效應導致跟蹤失敗,Kalal等人[11]提出了跟蹤與檢測結(jié)合的 TLD算法,該算法通過TLD檢測器篩除錯誤樣本,避免了快速運動產(chǎn)生的邊界效應影響,由一種正負樣本在線學習機制不斷優(yōu)化算法的魯棒性,但由于檢測器采用了整幀循環(huán)采樣矩形框,降低了算法的實時性。Danelljan等人[12]提出空間約束相關(guān)濾波器SRDCF(learning Spatially Regularized Correlation Filters for visual tracking),將正則化的權(quán)重系數(shù)加入濾波器,得到更大的檢測區(qū)域,從而改善邊界效應中邊緣物體的檢測,提高了目標快速運動時的跟蹤魯棒性,但目標完全遮擋時容易丟失目標。Zhang等人[13]提出的快速壓縮跟蹤算法通過引入樸素貝葉斯函數(shù)改進分類器,使得分類器能避免目標區(qū)域中相似度高的背景干擾,提高對正負樣本的分類,但沒有考慮到目標局部特征變化。Liu等人[14]提出一種前景劃分下的雙向?qū)?yōu)跟蹤方法BOTFP,通過將顏色屬性引入目標表觀模型,然后對圖像進行背景消除的方式解決目標快速運動時特征容易丟失的問題,但目標外觀變化時魯棒性較差。Wang等人[15]提出從圖像中提取目標模型和背景的跟蹤方法,從圖像的置信圖中分離出目標和背景,然后對模型中的目標與背景同時訓練并響應,有效地緩解了邊緣效應,但未達到實時跟蹤的效果。
在相關(guān)濾波算法中,DSST算法可以達到快速且更魯棒的跟蹤效果,但目標快速運動時產(chǎn)生的邊界效應,使其不能準確響應目標位置,從而導致跟蹤失敗。本文在文獻[5]的基礎(chǔ)上,首先使用較大尺寸的濾波器來檢測目標區(qū)域,保留更多目標信息,提高目標外觀模型的可信度,在損失函數(shù)的系數(shù)上加入權(quán)重系數(shù)矩陣,對目標檢測區(qū)域中心位置進行集中響應,達到目標的粗定位;目標快速運動使濾波器對運動模型更新失敗,檢測器的在線學習機制可以重新找到目標,因此本文使用文獻[11]的檢測器來約束DSST算法濾波器的位置響應;目標快速運動導致圖像模糊,產(chǎn)生邊界效應,為了減少檢測器采樣滑動矩形框的誤差,在TLD檢測器中加入自適應樸素貝葉斯分類器,通過分塊計算圖像特征得分,對檢測器產(chǎn)生的滑動矩形框中背景信息與目標進行有效區(qū)分,得到更多包含目標的滑動矩形框;最后通過DSST的目標響應位置與TLD檢測器輸出的滑動矩形框進行最優(yōu)相似性匹配,平滑輸出響應,對目標位置進行精確定位。實驗表明,本文算法在目標快速運動情景中,通過對目標區(qū)域中心進行集中響應,并通過檢測器來約束濾波器的初始位置響應,提高了對目標進行定位的魯棒性。但是,TLD檢測器對圖像采用一種網(wǎng)格循環(huán)采樣矩形框的方法導致算法實時性不高。本文提出了使用DSST尺度濾波器獲得的目標尺度對滑動矩形框循環(huán)采樣,從而減少相關(guān)計算量,提高了算法的實時性。
DSST算法以上一幀目標位置為中心提取S種不同尺度下的矩形樣本,然后把所有固定尺寸為M×N的樣本構(gòu)建成M×N×S的矩形圖像塊,并在這個尺寸下提取fhog特征,使用三維高斯函數(shù)構(gòu)建對應的期望輸出g,經(jīng)過相關(guān)濾波器進行迭代運算,取矩形圖像塊響應中的最大值,得到新位置和新尺度。相關(guān)濾波器使用2個相互獨立的濾波器,選擇不同維度的特征和特征種類來訓練樣本,分別評估目標的尺度和位置變化。
首先利用二維高斯函數(shù)初始化目標位置得到期望輸出g,以該目標位置為中心構(gòu)建S個尺寸不同的矩形樣本,依據(jù)矩形樣本對圖像循環(huán)采集矩形圖像塊f,對圖像塊中每個像素點計算其一維灰度特征和27維fhog特征;將這些特征融合后乘以二維漢寧窗作為目標位置預測輸入Z,根據(jù)濾波器響應函數(shù)求得Z對應的最大響應值,即獲得目標的新位置。為了構(gòu)造最佳的位置濾波器h,需要滿足代價函數(shù)最?。?/p>
(1)
其中,d=28為特征融合后的維度;at表示濾波器訓練第t個矩形圖像塊的權(quán)重;上標l表示特征的第l維;fl為矩形圖像塊第l維的特征;hl為矩形圖像塊第l維對應的濾波器;g為樣本中目標位置二維高斯函數(shù)輸出值;λ為正則項系數(shù),用于防止濾波器過擬合,樣本離目標區(qū)域中心越遠,正則項的值越大,則訓練濾波器影響越小。
然后利用Parseval定理將式(1)變換到頻域上求解。由于需要對矩形圖像塊中的每個像素點求解d×d維的線性方程,計算非常耗時,為了加快算法運行速度,得到魯棒的近似結(jié)果,使用式(2)對濾波器進行更新:
(2)
(3)
(4)
其中,η為學習速率。在下一幀圖像中,目標位置的定位可以通過求解位置濾波器的離散傅里葉逆變換最大響應yt來確定,響應函數(shù)表示如下:
(5)
位置濾波器得到目標響應位置后,通過一維高斯函數(shù)初始化目標尺度得到期望輸出g。按照樣本尺度選擇原則得到包含目標的矩形樣本,計算每個樣本中像素點的31維fhog特征,將樣本中提取的特征重構(gòu)為一個33層金字塔的特征向量,再乘以一維漢寧窗后作為目標尺度預測輸入Z,根據(jù)濾波器響應函數(shù)求得Z對應的最大響應值,即獲得目標當前的尺度。由于二維位置濾波器已經(jīng)確定P×R目標區(qū)域的大小,再利用一維尺度濾波器評估目標尺度。目標樣本尺度的選擇原則為:
(6)
其中,P和R分別為目標區(qū)域的寬和高,a=1.02為尺度因子,S=33是尺度濾波器的樣本尺度選擇層數(shù)。尺度濾波器評估目標尺度為非線性增長的指數(shù)函數(shù),可以達到接近目標響應位置的細檢測目的,得到更準確的尺度評估結(jié)果。再根據(jù)式(5)求得尺度濾波器中最大響應值,即可獲得目標的尺度,然后根據(jù)式(3)和式(4)更新尺度信息。
DSST算法的相關(guān)濾波器在訓練響應之前,依據(jù)構(gòu)建的矩形樣本對圖像循環(huán)采集矩形圖像塊f,但在目標快速運動情景下,包含目標邊緣的矩形圖像塊存在著位移邊界,導致濾波器不能準確響應目標位置。文獻[16]通過構(gòu)建的矩形樣本加上余弦框,當目標處于搜索區(qū)域的邊界時,弱化區(qū)域邊界背景對響應的干擾,但這樣屏蔽背景信息,同時也弱化了目標模型對物體信息的描述,導致跟蹤算法跟蹤失敗。本文使用較大尺寸的濾波器來檢測目標區(qū)域,保留目標更多的物體真實信息,不會忽略目標邊緣處背景信息的檢測。由于循環(huán)采樣的矩形圖像塊中心位置不存在邊界位移問題,本文將相關(guān)濾波器的正則項系數(shù)λ乘以權(quán)重系數(shù)矩陣,使靠近目標邊緣處的正則項系數(shù)更大,對濾波器響應的影響更小,最后濾波器響應集中在矩形圖像塊的中心區(qū)域,克服了邊界效應。具體為通過一個M×N空間權(quán)重系數(shù)矩陣w來懲罰距離目標中心比較遠的矩形圖像塊。
(7)
當目標處的矩陣權(quán)重系數(shù)較小時,背景處的矩陣權(quán)重系數(shù)較大,為了使濾波器關(guān)注目標信息,背景處的濾波響應結(jié)果應當盡量小,這是引入權(quán)重系數(shù)矩陣的目的。然后使用帕斯瓦爾定理將目標函數(shù)變換到頻域:
(8)
(9)
其中,D(·)為對角化操作,C(·)為循環(huán)化操作。根據(jù)位置濾波器中傅里葉變換的共軛對稱特性,可以對求解過程進行加速,因此將傅里葉變換后的實部與虛部合并為一個實數(shù),在保持2個矩陣相差結(jié)果不變的前提下,求解速度快了至少一倍。
對零頻Ω0、正頻Ω+、負頻Ω-的點分別將其實部和虛部的矩陣轉(zhuǎn)換為純實部數(shù)矩陣的方法,如式(10)所示:
(10)
然后對式(9)通過左乘同一變化稀疏酉矩陣B得到:
(11)
經(jīng)過向量化和塊對角化操作,將求和符號去掉簡化得到改進的濾波器,公式為:
(12)
TLD 跟蹤算法[11]由一種判別正負樣本的在線學習機制對目標持續(xù)跟蹤,使用一對約束估計出檢測錯誤,在因邊界效應產(chǎn)生錯誤樣本被有效篩除的過程中持續(xù)修正檢測器,跟蹤過程的魯棒性不斷增強。但是,檢測器根據(jù)設(shè)定的尺度步長,依次對每個視頻幀進行全局掃描,生成大量的矩形框,這些矩形框占用了大量的計算資源,降低了檢測模塊的運算速度。改進的檢測器首先使用2.2節(jié)中規(guī)定的33種尺度進行全局掃描得到矩形框,增加算法的實時性。并且為了加強檢測器對目標與背景的區(qū)分能力,先對矩形框內(nèi)的圖像分塊提取特征,通過樸素貝葉斯分類器計算得分,得分高的即為輸出矩形框。針對目標快速運動后導致圖像模糊,TLD檢測器對矩形框內(nèi)圖像塊中目標信息進行循環(huán)拼接,拼接過程中這些信息在拼接處并不是連續(xù)的,會產(chǎn)生邊界效應。本文改進的檢測器自適應區(qū)分目標與背景,能有效解決目標信息在拼接處不連續(xù)的邊界效應問題,提高檢測器的魯棒性。
Figure 1 Schematic of the improved detector圖1 改進的檢測器示意圖
首先檢測器根據(jù)式(6)的尺度掃描產(chǎn)生n個滑動矩形框,然后提取矩形框中目標特征并將其代入到樸素貝葉斯分類器中,實現(xiàn)對背景信息和目標的分類。假設(shè)正負樣本先驗概率相同,則樸素貝葉斯分類器模型如下所示:
(13)
其中,fi為第i個矩形框;y∈{0,1}是二元變量,其值分別代表正負樣本標簽。視頻跟蹤中目標一般為不規(guī)則形狀,導致檢測器產(chǎn)生的矩形框中包含的背景信息較少,而邊緣處含有的背景信息較多,檢測器對矩形框樣本進行分類將產(chǎn)生干擾。因此,本文提出依據(jù)網(wǎng)格均分采樣得到N×N共W塊圖像的目標特征,從而弱化邊緣背景信息對矩形框內(nèi)特征的干擾;再將第k塊圖像的特征壓縮輸入到樸素貝葉斯分類器,計算每個圖像特征的得分,篩選出其中得分較大者,并根據(jù)距離目標中心位置分配的權(quán)重值組成強檢測器。矩形框內(nèi)第k塊圖像距離矩形框中心位置越近,其圖像塊特征得分權(quán)重值越高,反之亦然,進而弱化矩形框內(nèi)邊緣處圖像中包含的背景信息對檢測器分類的影響。第k塊圖像權(quán)重值公式如下所示:
k=1,…,W
(14)
其中,(lx,ly)為矩形框的中心位置坐標,(kx,ky)為網(wǎng)格均分中第k塊圖像的中心位置坐標。將圖像權(quán)重值作為樸素貝葉斯分類器模型計算圖像特征得分的系數(shù),矩形框邊緣位置得到較小的圖像權(quán)重值,使圖像特征得分更低,從而弱化檢測器對矩形框分類時邊緣處背景信息的干擾。改進后的自適應加權(quán)樸素貝葉斯分類器模型如下所示:
(15)
其中,fki為矩形框第k塊圖像提取的第i個目標特征。對矩形框內(nèi)網(wǎng)格均分得到的W塊圖像得分進行加權(quán)求和,得分較大的矩形框即為跟蹤的目標相似度高的滑動矩形框,然后依次通過級聯(lián)分類器,將最終通過的矩形框聚類后作為檢測器輸出框。改進的檢測器示意圖如圖1所示。
跟蹤過程中,檢測器通過級聯(lián)分類器產(chǎn)生大量聚類后的矩形框。本文通過圖像最優(yōu)相似性匹配關(guān)系得到與濾波器響應的目標位置最相似的矩形框,進而平滑目標位置的輸出響應。利用該方法可約束初始響應值,抑制跟蹤過程中的漂移現(xiàn)象。
首先對DSST響應的目標區(qū)域和TLD檢測器滑動矩形框進行初始化:Q={qj},j∈1,…,n;P={pi},i∈1,…,m,pi表示TLD檢測器矩形框內(nèi)第i個特征點,qj表示DSST目標響應的區(qū)域內(nèi)第j個特征點。下一步,獲得跟蹤框中P與Q集合之間的特征點最優(yōu)匹配對。在匹配過程中,分別計算出集合Q中DSST響應的目標區(qū)域內(nèi)特征點qj與集合P中特征點的最近鄰匹配距離,若在P中得到的最優(yōu)匹配特征點為pi,則OMP(pi,qj,P,Q)為1,否則為0。
OMP(pi,qj,P,Q)=
(16)
其中,NN(pi,Q)=argmind(pi,qj)=argmin|pi-qj|2為最近鄰匹配距離。然后計算P與Q之間的最優(yōu)相似性匹配的期望:
(17)
其中,p(·)為概率分布函數(shù)。若期望大于設(shè)定閾值,則保留該匹配的矩形框,再通過權(quán)重比例系數(shù)ρ彈性調(diào)整輸出框中心位置:
XTLD-DSST=ρXTLD+(1-ρ)XDSST
(18)
其中,XTLD表示TLD檢測器矩形框的中心點,XDSST表示DSST目標響應的位置中心點。TLD-DSST算法輸出目標框調(diào)整過程如圖2所示。
Figure 2 TLD-DSST algorithm output target frame adjustment process diagram圖2 TLD-DSST算法輸出目標框調(diào)整過程圖
TLD-DSST算法的流程如圖3所示。
Step1初始化目標框。DSST算法濾波器根據(jù)3.1節(jié)增加空間權(quán)重系數(shù)矩陣w來調(diào)整距離目標中心比較遠的矩形圖像塊,對這些矩形圖像塊進行濾波響應,最大響應即為目標位置和尺度。
Step2初始化TLD算法檢測器。檢測器按照DSST尺度濾波器的尺度循環(huán)采樣矩形框,并根據(jù)3.2節(jié)對矩形框進行分塊提取目標特征,經(jīng)由自適應樸素貝葉斯分類器計算得分,篩除包含更多背景的矩形框;然后經(jīng)過三大級聯(lián)分類器的滑動矩形框進行相似度scbb和重疊度dbb計算;最后進行聚類得到檢測器預測的矩形框集合。
Step3綜合模塊中DSST響應的目標位置中心點和TLD檢測器滑動矩形框中心點集合進行最優(yōu)相似性匹配,利用該關(guān)系約束初始響應值,根據(jù)3.3節(jié)更新目標的中心位置,并將其作為正樣本放入學習模塊。
Step4學習模塊通過P-N在線學習機制對檢測器中的目標模型進行學習,并更新正負樣本庫,提高TLD檢測器的魯棒性。
Step5視頻結(jié)束則退出,反之返回Step 1跟蹤下一幀。
Figure 3 Flow chart of TLD-DSST algorithm 圖3 TLD-DSST算法流程圖
本節(jié)將TLD-DSST算法與 CN算法、TLD算法、DSST算法、TCNN算法進行對比實驗分析,從目標跟蹤測試集網(wǎng)站上(http:∥www.visual-tracking.net)選擇6個實驗測試視頻,如表1所示,共有2 823幀,實驗測試視頻序列包括快速運動、背景雜亂、光照變化、旋轉(zhuǎn)、遮擋等背景環(huán)境。
Figure 4 Accuracy of test videos圖4 測試視頻的精度圖
本文實驗環(huán)境的處理器為Intel i5-4210 2.60 GHz,內(nèi)存為4 GB,對本文中學習速率取η= 0.085,尺度因子取a=1.02,權(quán)重比例系數(shù)取ρ= 0.75。本文算法從成功率圖、精度圖和幀率FPS3個評測標準來比較上述5種算法,使用文獻[17]的測試視頻中的Ground truth作為實際目標框計算成功率圖和精度圖。其中,跟蹤算法輸出目標框的中心位置與實際目標框的中心位置的歐氏距離用于計算精度圖,通過計算跟蹤算法每幀的包圍框重疊度,然后將大于給定閾值的幀數(shù)除以總幀數(shù)得到成功率圖。圖4和圖5為算法精度圖與成功率圖的對比。通過對6個視頻序列的跟蹤,綜合以上3種評測標準,可以看出本文算法在中心位置誤差的精度和包含框重疊度的成功率方面都優(yōu)于原先的DSST算法。接下來通過本文實驗結(jié)果以及視頻測試序列部分截圖對5種不同的跟蹤算法進行分析。
在實驗測試視頻中,本文選擇soccer測試視頻中具有遮擋、背景雜亂、快速運動的情景。圖6第1部分是soccer測試視頻跟蹤結(jié)果的截圖,從#62可以看出,目標的衣服與背景的顏色相似,在快速運動中,由于目標姿態(tài)的變化產(chǎn)生邊界效應,導致CN算法的目標顏色模型和DSST算法的相關(guān)濾波器模型更新受到背景信息的干擾,對目標顏色特征和HOG特征的描述變差,影響跟蹤框準確表征目標區(qū)域,從而跟蹤框發(fā)生偏移;從#104、#138可以看出,目標被彩帶遮擋時,TLD算法、DSST算法和TCNN算法跟蹤框偏移,TLD算法由于將包含大量干擾物的區(qū)域作為正樣本在檢測器中進行訓練,導致跟蹤失?。粡?202可以看出,偏移的誤差積累后導致DSST算法跟蹤失敗,而TLD算法由于檢測器具備錯誤更新機制,能對目標進行有效跟蹤。從以上視頻幀中可看出,本文算法明顯提高了DSST算法目標跟蹤的魯棒性,首先分塊提取檢測器采集矩形框中目標特征,由自適應權(quán)重值改進的樸素貝葉斯分類器模型計算得分,對目標與背景信息進行區(qū)分,通過此檢測器來平滑濾波器響應,矯正目標中心位置。
Table 1 Test video sequences表1 測試視頻序列
Figure 5 Success rates of test videos圖5 測試視頻的成功率圖
Figure 6 Partial screenshots of video tracking sequences圖6 視頻跟蹤序列部分截圖
選擇BlurCar1測試視頻中具有快速運動的情景。圖6第2部分是BlurCar1測試視頻跟蹤結(jié)果的截圖,從#22、#133、#376、#378可以看出,目標快速運動后圖像模糊,目標與背景具有一定的顏色相似度,影響CN算法和DSST算法的目標響應,導致跟蹤漂移;本文算法對濾波器加入權(quán)重系數(shù)矩陣,考慮到目標區(qū)域邊緣檢測,對有效信息分配高權(quán)重,得到目標的準確位置。
選擇coke測試視頻中具有光照變化、旋轉(zhuǎn)、遮擋的情景。圖6第3部分是coke測試視頻跟蹤結(jié)果的截圖,從#25可以看出,光線變強時,影響TLD跟蹤框內(nèi)特征點通過光流法計算前后向誤差,導致特征點預測的跟蹤框縮??;從#273、#281可以看出,目標發(fā)生完全遮擋后,CN算法和DSST算法對偽目標葉子進行濾波器訓練并更新目標模型,導致跟蹤失敗,TCNN樹狀模型根據(jù)上一幀偽目標葉子的位置得到檢測后的候選框,導致跟蹤結(jié)果不魯棒。TLD算法通過檢測器的跟蹤失敗恢復機制重新找到目標區(qū)域,同樣本文算法中檢測器通過對前幾幀圖像進行訓練,更新學習模塊中正負樣本庫,目標完全遮擋再出現(xiàn)后,檢測器根據(jù)正負樣本庫篩選出包含目標的矩形框,再通過最優(yōu)相似性匹配提高跟蹤性能。
選擇BlurOwl測試視頻中具有尺度變化、快速運動的情景。圖6第4部分是BlurOwl測試視頻跟蹤結(jié)果的截圖,從#47、#77、#97可以看出,目標上下快速移動時,CN算法和DSST算法跟蹤框發(fā)生偏移,最后跟蹤失敗;從#121可以看出,目標左右快速移動時,CN算法和DSST算法的跟蹤框跟蹤失敗,快速移動產(chǎn)生的邊界效應影響了CN算法和DSST算法對目標模型的更新,引入了過多背景信息,導致目標跟蹤失敗。TCNN算法通過多個CNN模型進行權(quán)重計算候選框,可以適應目標的快速變換。TLD算法和本文算法可以持續(xù)跟蹤到目標,TLD算法具有檢測器可篩除邊界效應得到的錯誤樣本,而本文算法的檢測器能更好地區(qū)分目標和背景,平滑濾波器的響應,得到目標跟蹤的準確位置。
選擇bird1測試視頻中具有快速運動、形變、遮擋的情景。圖6第5部分是bird1測試視頻跟蹤結(jié)果的截圖,從#12、#16可以看出,目標發(fā)生形變后,翅膀的擺動使CN算法和TLD算法跟蹤框漂移;從#119、#187可以看出,目標被彩云完全遮擋后,CN算法和DSST算法濾波器對背景信息進行位置響應,最后跟蹤失敗,TCNN算法通過多個模型檢測候選框,但無法確定目標位置,最后跟蹤失敗。本文算法和TLD算法通過在線學習機制重新找到目標區(qū)域,實現(xiàn)了對目標的實時跟蹤。
選擇DragonBaby測試視頻中具有快速運動、旋轉(zhuǎn)的情景。圖6第6部分是DragonBaby測試視頻跟蹤結(jié)果的截圖,從#28、#36可以看出,目標發(fā)生旋轉(zhuǎn)后,CN算法和DSST算法提取目標單一的特征導致跟蹤框漂移;從#44、#84可以看出,目標快速運動后,TCNN算法提取目標深度特征后,通過樹狀模型避免了最近幀的過擬合,本文算法通過對目標中心位置集中響應,并通過檢測機制平滑初始響應位置,得到了精確的定位結(jié)果。
從表2和表3的soccer實驗精確度和成功率得到,DSST算法精確度為0.463,成功率為0.323,本文算法分別提高了45.6%和55.1%。從圖5的soccer實驗成功率圖得到,在重疊閾值大于0.8時,本文算法比其他算法的成功率高。主要是在快速運動時,CN算法、DSST算法和TCNN算法跟蹤框漂移,TLD算法根據(jù)檢測器調(diào)整跟蹤框輸出,本文算法通過檢測器提取目標特征,自適應區(qū)分矩形框內(nèi)的目標與背景,避免了快速運動和背景雜亂導致的背景信息干擾。
從表2和表3的BlurCar1實驗精確度和成功率得到,DSST算法精確度為0.483,成功率為0.385,本文算法分別提高了36.2%和40.8%。從圖4的soccer實驗精度圖得到,在中心誤差閾值小于15時,TLD算法比DSST算法的精確度高。主要是因為出現(xiàn)快速運動時,DSST算法因為邊界效應對邊緣進行訓練,導致跟蹤框漂移,TLD算法的檢測器篩除錯誤樣本,通過重疊度的計算獲得矩形框,避免了邊界效應的影響;中心誤差閾值大于15時,DSST算法比TLD算法的精確度高,主要是TLD算法雖然具有檢測器的錯誤樣本篩選機制,但是由于對視頻幀中目標的訓練不足,學習模塊中正負樣本庫不完善,導致算法的魯棒性不強。本文算法結(jié)合了上述2種算法的優(yōu)點,對前期的視頻幀經(jīng)過提取HOG特征并迭代運算得到目標響應,將其作為正樣本更新學習模塊,學習模塊的樣本與檢測器中采樣的矩形框進行相似度和重疊度計算,得到更準確的矩形框,不斷提高算法的魯棒性。
Table 2 Average center error rate (accuracy) for five different algorithms表2 5種不同算法的平均中心誤差率(精確度)
Table 3 Average overlap ratio (success rate) of five different algorithms表3 5種不同算法的平均重疊率(成功率)
從表2和表3的coke實驗精確度和成功率得到,DSST算法精確度為0.747,成功率為0.589,本文算法分別提高了3.9%和4.9%。從圖5的coke實驗成功率圖得到,在重疊閾值大于0.8時,本文算法、CN算法、DSST算法和TCNN算法都比TLD算法的成功率高。主要原因是視頻中存在光照變化導致TLD跟蹤框縮小,本文算法和其他3種算法通過提取目標特征,有效地改善了光照變化對目標跟蹤的影響。在重疊閾值小于0.8時,本文算法比CN算法、DSST算法和TCNN算法的成功率高。主要原因是相關(guān)濾波算法的濾波器對葉子進行訓練響應,導致目標跟蹤失敗,深度學習算法模型得出錯誤的候選框,而本文算法具有檢測器的跟蹤失敗恢復機制,能重新找到目標區(qū)域。
從表2和表3的BlurOwl實驗精確度和成功率得到,DSST算法精確度為0.463,成功率為0.388,本文算法分別提高了18.4%和14.9%。從圖4的BlurOwl實驗精度圖得到,在中心誤差閾值小于10時,本文算法和TCNN算法比CN算法、DSST算法和TLD算法的精度高。主要原因是在出現(xiàn)快速移動時,邊界效應影響了CN算法和DSST算法對目標特征模型的更新,導致目標跟蹤失敗,而本文算法擴大濾波器的目標檢測尺寸,增加物體有效信息的檢測,避免邊界效應中邊緣檢測的影響,并將結(jié)果作為正樣本更新學習模塊,提高了算法的魯棒性。
從表2和表3的bird1實驗精確度和成功率得到,DSST算法精確度為0.485,成功率為0.374,本文算法分別提高了28.9%和31.1%。從圖4的bird1實驗精度圖得到,在中心誤差閾值大于20時,本文算法比其他算法的精度高。主要原因是在目標完全被遮擋時,其他算法對背景信息進行錯誤響應,導致目標跟蹤失敗,而本文算法通過檢測器的在線學習機制對正負樣本的每一幀進行學習訓練,然后將跟蹤的樣本作為正樣本,放入目標學習模塊中不斷優(yōu)化,從而持續(xù)跟蹤目標。
從表2和表3的DragonBaby實驗精確度和成功率得到,DSST算法精確度為0.628,成功率為0.503,本文算法分別提高了16.6%和19.5%。從圖4的DragonBaby實驗精度圖得到,在中心誤差閾值小于15時,本文算法、TLD算法和TCNN算法比DSST算法和CN算法的精度高,主要原因是目標快速運動產(chǎn)生的邊界效應影響了算法濾波器的位置響應,導致運動模型更新失敗,而本文算法擴大濾波器的目標檢測尺寸,增加物體有效信息的檢測,并對目標中心位置進行集中響應,避免了邊界效應中邊緣檢測的影響。
從表4得到,CN算法對提取的目標顏色特征采用主成分降維技術(shù),跟蹤的實時性最佳,DSST算法通過將高斯核函數(shù)轉(zhuǎn)為頻域計算,并提出濾波器更新機制,從而提高了跟蹤的實時性;TCNN算法對目標進行多層卷積提取深度特征,并需要對每一幀進行樹形判斷,導致實時性最差;TLD算法通過網(wǎng)格循環(huán)采樣矩形框,計算每個矩形框的重疊度和相似度,實時性較差;本文算法通過DSST算法中相關(guān)濾波器得到的目標尺度采樣矩形框,從而減少檢測器多尺度循環(huán)采樣矩形框的采樣時間,因此本文算法能夠在TLD算法基礎(chǔ)上,實時性提高了2.37倍,平均幀率達到49.47 f/s,并且本文算法使用傅里葉變換的共軛對稱性使得高斯濾波過程縮短了一半時間。
Table 4 Average frame rate comparison among five different algorithms表4 5種不同算法的平均幀率對比 f/s
本文在TLD算法的基礎(chǔ)上提出了一種融合TLD框架的DSST實時目標跟蹤改進算法TLD-DSST。本文算法在相關(guān)濾波器中增加權(quán)重系數(shù)矩陣來平衡目標中心區(qū)域,得到目標響應位置;然后對檢測器進行分塊提取目標特征,放大目標與背景的差異度,再通過樸素貝葉斯分類器提高檢測器的分類能力;最后將檢測器聚類得到的眾多矩形框與響應的目標位置進行最優(yōu)相似性匹配,根據(jù)權(quán)重彈性調(diào)整目標輸出框的中心位置,提高了本文算法的魯棒性。同時,本文通過DSST算法中尺度濾波器得到的目標尺度采樣矩形框,對比于TLD算法使用循環(huán)采樣矩形框的方法降低了計算周期。最后通過實驗結(jié)果表明,與對比算法相比,本文的TLD-DSST算法有最好的實時跟蹤性能,在目標快速運動情景下能取得很好的效果,明顯優(yōu)于改進的DSST算法。然而,本文算法并沒有考慮相似目標重疊時導致跟蹤失敗問題,下一步的研究方向是在相似目標發(fā)生遮擋情景中,通過卷積網(wǎng)絡(luò)提取目標特征,提高跟蹤算法的魯棒性。