陸惟見,尚振宏,劉 輝,李潤鑫,錢 謙
(昆明理工大學(xué) 信息工程與自動化學(xué)院,云南 昆明 650500)
由于光照變化、遮擋、目標(biāo)形變、攝像機抖動等諸多因素的影響,實現(xiàn)魯棒的視覺跟蹤[1]仍然是一件非常困難的事情?;谀繕?biāo)特征跟蹤是視覺跟蹤中最為重要的一類方法,研究發(fā)現(xiàn),諸如深度去噪自編碼器和卷積神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)[2,3]方法挖掘出的數(shù)據(jù)多層表征更能夠反映數(shù)據(jù)更深層的本質(zhì),文獻(xiàn)[4]使用了多層PCA卷積提取目標(biāo)分層次特征。文獻(xiàn)[5]使用了自編碼機挖掘數(shù)據(jù)的多層表征。這些方法均通過卷積神經(jīng)網(wǎng)絡(luò)或神經(jīng)網(wǎng)絡(luò)來提取目標(biāo)的特征表達(dá),但由于過多的池化層,使目標(biāo)特征丟失了其局部結(jié)構(gòu)信息,在發(fā)生遮擋或目標(biāo)形變時容易丟失。文獻(xiàn)[6]提出的基于卷積網(wǎng)絡(luò)的跟蹤器(convolutional network-based tracker,CNT)算法簡化了卷積網(wǎng)絡(luò)的結(jié)構(gòu),剔除了池化層,使用由第一幀目標(biāo)獲得的一組濾波器與后續(xù)幀卷積,提取包含目標(biāo)局部結(jié)構(gòu)和內(nèi)部幾何布局信息的特征描述。上述算法和一些經(jīng)典算法[7~9]使用的滑動平均模型更新方法過于依賴于上一幀或最近幀定位到的目標(biāo)信息,跟蹤的歷史信息未充分利用。這種滑動平均的目標(biāo)模型更新方法在跟蹤精度較高的情況下,對目標(biāo)外表變化較為魯棒。但如果跟蹤精度不高,錯誤信息的累積會導(dǎo)致目標(biāo)發(fā)生漂移甚至丟失現(xiàn)象。
目標(biāo)模型更新的難點在于穩(wěn)定性和可塑性之間的平衡,目前主要的模型更新算法可分為滑動平均更新法[10,11]和選擇特征更新法[12,13]。兩種方法僅依賴于上一幀或最近幀定位到的目標(biāo)信息,已經(jīng)跟蹤到的目標(biāo)對后續(xù)跟蹤沒有發(fā)揮作用,跟蹤的歷史信息未充分利用。在跟蹤過程中,若目標(biāo)與初始目標(biāo)模型差異較大時,較難準(zhǔn)確跟蹤。
擁有復(fù)雜記憶系統(tǒng)的人類可以適應(yīng)各種情況下的跟蹤任務(wù)[14],受此啟發(fā),并針對上述問題,本文使用歷史跟蹤結(jié)果構(gòu)建目標(biāo)特征模板庫并結(jié)合CNT算法的卷積網(wǎng)絡(luò)特征提取,提出了一種基于多模板及卷積網(wǎng)絡(luò)的魯棒跟蹤方法。在CNT算法的基礎(chǔ)上,通過構(gòu)建并更新多樣性模板庫,不僅依賴上一幀,而是利用跟蹤結(jié)果的歷史信息為運動目標(biāo)跟蹤提供更完整的候選匹配信息,提高了算法的準(zhǔn)確性和穩(wěn)定性。
CNT算法提出了一種簡化的卷積網(wǎng)絡(luò),使用由第一幀目標(biāo)獲得的一組濾波器與后續(xù)幀作卷積,提取包含目標(biāo)局部結(jié)構(gòu)和內(nèi)部幾何布局信息的特征描述。為保證論文的完整性,將CNT算法簡述如下,算法的詳細(xì)論述見文獻(xiàn)[6]。
首先,將輸入圖像轉(zhuǎn)換為n像素×n像素的灰度圖像I,對I按w×w大小進(jìn)行密集采樣獲得一組重疊的局部圖像塊,圖像Ii的采樣樣本集Υi為
Υi=Patch(Ii)={Y1,…,Yl}
(1)
式中l(wèi)=(n-w+1)×(n-w+1),為減少光照變化影響,每個圖像塊Yi均進(jìn)行均值相減和L2歸一化操作。
(2)
將d個使用同一組濾波器的特征S疊加得到三維特征張量C∈R(n-w+1)×(n-w+1)×d,為使特征C對目標(biāo)形變魯棒,用稀疏向量c近似vec(C)∈R(n-w+1)2d,其可通過最小化式(3)求得
(3)
稀疏描述子c在式(3)中作為目標(biāo)模型,為適應(yīng)跟蹤過程中目標(biāo)外觀的變化,須對式(3)所表示的目標(biāo)模型進(jìn)行更新,CNT使用滑動平均的方法更新模型
(4)
CNT的跟蹤算法建立在粒子濾波框架下,其核心思想是根據(jù)t時刻系統(tǒng)狀態(tài)的一個觀測結(jié)果Ot={o1,…,ot},利用概率理論迭代估計系統(tǒng)t時刻的狀態(tài)st,即找到后驗概率分布P(st│Ot)
(5)
(6)
根據(jù)粒子濾波原理,最優(yōu)的目標(biāo)狀態(tài)估計可以通過最大化粒子集的后驗估計來實現(xiàn),即
(7)
CNT算法基于單一模板,通過迭代更新這一模板特征進(jìn)行運動目標(biāo)跟蹤。由于復(fù)雜背景和目標(biāo)形變的影響,迭代更新過程中錯誤信息的累積會導(dǎo)致目標(biāo)發(fā)生漂移甚至丟失的現(xiàn)象。
本文提出了改進(jìn)算法通過模擬人類的記憶系統(tǒng),將跟蹤過程中得到的目標(biāo)信息進(jìn)行儲存,用于構(gòu)建多樣性模板庫,利用跟蹤結(jié)果的歷史信息為運動目標(biāo)跟蹤提供更完整的候選匹配信息。在跟蹤過程中,對CNT算法得到的跟蹤結(jié)果進(jìn)行遮擋判定,選取合適的跟蹤結(jié)果用于構(gòu)建模板庫,在更新過程中需剔除模板庫內(nèi)的冗余模板,保持模板庫的多樣性。經(jīng)上述步驟,多樣性模板庫在CNT算法的目標(biāo)匹配階段為其提供了更完整的候選匹配信息。
視覺跟蹤任務(wù)可以看作一種時域運動估計問題。在連續(xù)視頻序列中,相鄰幀目標(biāo)不會發(fā)生較大變化。跟蹤開始時,在第一幀人為標(biāo)定目標(biāo),以此目標(biāo)作為目標(biāo)模型對下一幀目標(biāo)進(jìn)行定位。隨著跟蹤進(jìn)行,經(jīng)過篩選的模板不斷進(jìn)入,模板庫將逐漸被建立起來。
跟蹤過程中,需在模板庫內(nèi)選擇合適的模板作為目標(biāo)模型進(jìn)行匹配,為避免部分遮擋的目標(biāo)成為模板進(jìn)入模板庫, 設(shè)計了一種通過比較目標(biāo)和背景相似度的遮擋判定方法:對第t-1幀跟蹤結(jié)果xt-1周圍進(jìn)行高斯采樣得n個與xt-1重疊率為γ背景采樣,記為Bt-1={b1,…,bn} 。在CNT算法的粒子濾波框架下,通過計算xt和Bt-1={b1,…,bn}的最大后驗估計判斷當(dāng)前幀跟蹤結(jié)果的遮擋情況
(8)
(9)
當(dāng)ρo小于預(yù)設(shè)的閾值δ時,認(rèn)為目標(biāo)模型未被遮擋。
為了防止在跟蹤過程中模板庫的無限擴充,設(shè)模板庫最多可容納N個模板,Nt,Nt≤N為第t幀時模板庫內(nèi)模板的個數(shù)。則模板庫可定義為
(10)
設(shè)閾值T作為衡量跟蹤結(jié)果與目標(biāo)的相似性度量,模板庫建立的算法流程如下:
1)以第一幀選定的目標(biāo)為模板庫內(nèi)初始模板,設(shè)置模板計數(shù)器i←1。
4)當(dāng)ρs>εT,ε為用于保證入庫模板質(zhì)量的系數(shù),取值范圍(1,2],選擇ρs所對應(yīng)的xi為當(dāng)前幀的跟蹤結(jié)果,其中,xi∈Xt。由目標(biāo)xi系統(tǒng)狀態(tài)和式(9)可計算出ρo。
6)若ρs 閾值的確定易受目標(biāo)和背景紋理結(jié)構(gòu)以及跟蹤窗口大小等的影響。調(diào)節(jié)閾值T可以調(diào)節(jié)模板庫內(nèi)模板之間的差異以及模板入庫的頻率。 (11) 為了驗證本文算法的有效性和正確性,使用MATLAB進(jìn)行編程,對國際公共測試視頻VOT2015[15]中的trellis_c,Basketball和david3視頻序列進(jìn)行跟蹤實驗。實驗結(jié)果按性質(zhì)分成定性分析和定量分析兩類,定性分析給出圖像結(jié)果,定量分析給出統(tǒng)計結(jié)果。在定量分析中,將本文算法與近年熱點算法跟蹤—學(xué)習(xí)—檢測[16](tracking-learning-detection,TLD)算法以及基于深度特征學(xué)習(xí)的跟蹤[5](deep learning-tracking,DLT)算法在覆蓋率和中心位置誤差方面進(jìn)行比較。 圖1為基于trellis_c視頻序列進(jìn)行的,將本文算法和原始CNT算法進(jìn)行對比實驗,測試目標(biāo)在發(fā)生光照變化或復(fù)雜背景紋理情況下算法的魯棒性。 如圖1所示,在130幀左右目標(biāo)的形變不明顯,背景和前景(目標(biāo))對比明顯,背景的紋理變化相較于前景較為復(fù)雜。在跟蹤過程中,原始CNT算法由于模型更新過程引入過多的背景信息其跟蹤結(jié)果已經(jīng)開始發(fā)生漂移,而本文算法仍舊可以對目標(biāo)繼續(xù)跟蹤。原始CNT算法僅依賴上一幀得到的目標(biāo)信息進(jìn)行迭代更新,信息具有局限性和單一性,當(dāng)發(fā)生形變和復(fù)雜背景時,錯誤信息的累積往往導(dǎo)致錯誤跟蹤。本文算法維持著模板庫的多樣性,隨著跟蹤進(jìn)行,模板庫不斷的豐富,當(dāng)出現(xiàn)復(fù)雜背景的情況,能夠從模板庫找到相應(yīng)的模板對目標(biāo)進(jìn)行較準(zhǔn)確的定位跟蹤。 圖1 trellis_c場景2種算法跟蹤結(jié)果 圖2測試算法的抗遮擋和抗形變性能,在視頻序列Basketball和david3上進(jìn)行,本文算法與原始CNT算法、TLD算法和DLT算法對比實驗。對于Basketball視頻序列,在第18幀左右當(dāng)目標(biāo)發(fā)生嚴(yán)重遮擋時,TLD算法已經(jīng)不能對目標(biāo)進(jìn)行跟蹤,DLT算法、CNT算法和本文算法仍能夠?qū)δ繕?biāo)進(jìn)行跟蹤,但在第80幀后目標(biāo)形態(tài)發(fā)生較大變化,CNT算法和DLT算法出現(xiàn)了跟蹤漂移的情況,而本文算法仍然能夠繼續(xù)跟蹤。對于david3視頻序列,在第23幀目標(biāo)第一次被遮擋時,TLD算法出現(xiàn)跟蹤失敗,跟蹤無法進(jìn)行的情況。在隨后的跟蹤過程中,由于目標(biāo)的形變,在150幀后DLT算法出現(xiàn)了跟蹤框尺度異常和漂移的問題。CNT算法也在190幀左右目標(biāo)被完全遮擋時跟蹤失敗,只有本文算法還能繼續(xù)跟蹤。 圖2 Basketball和david3視頻跟蹤結(jié)果 對圖3的實驗結(jié)果進(jìn)行定量分析,本文算法與上述算法在覆蓋率[15]和中心位置誤差[15]的對比結(jié)果如圖3所示。由圖可知,本文算法的覆蓋率一直維持在一定范圍內(nèi),并且中心位置誤差為4種算法中最小。其他3種算法由于跟蹤過程中目標(biāo)的遮擋和形變出現(xiàn)了跟蹤失敗或跟蹤框漂移的情況,所以覆蓋率在某一時刻變?yōu)?,中心位置誤差逐漸增大。其中在david3視頻序列中,TLD算法在第25幀跟蹤失敗,跟蹤框停止移動,但在235幀后目標(biāo)又移動到其跟蹤框范圍內(nèi),所以其覆蓋率曲線呈現(xiàn)凹形,中心位置誤差曲線呈現(xiàn)凸形。 圖3 定量分析對比 通過上述實驗結(jié)果可以看出,TLD算法在目標(biāo)發(fā)生遮擋時的魯棒性較低,DLT算法和CNT算法在目標(biāo)發(fā)生前形態(tài)變化前跟蹤比較穩(wěn)定,但在目標(biāo)形態(tài)和初始狀態(tài)有了較大差異或遮擋時,其模型更新方法易受到錯誤信息的干擾,出現(xiàn)跟蹤框尺度變換異常或跟蹤漂移的狀況。CNT算法依賴初始目標(biāo)特征的迭代更新,當(dāng)目標(biāo)的局部結(jié)構(gòu)和內(nèi)部幾何布局發(fā)生較大變化時容易導(dǎo)致跟蹤錯誤。而本文算法維持著目標(biāo)的差異性和多樣性模板庫,當(dāng)遮擋和形變后,可以從模板庫內(nèi)找到遮擋之前目標(biāo)的相似信息,實現(xiàn)目標(biāo)持續(xù)跟蹤。 針對滑動平均模型更新法和選擇特征模型更新法過于依賴于上一幀或最近幀定位到的目標(biāo)信息,不能很好地應(yīng)對復(fù)雜背景和目標(biāo)形態(tài)變化的情況,本文使用歷史跟蹤結(jié)果構(gòu)建目標(biāo)特征模板庫并結(jié)合CNT算法的卷積網(wǎng)絡(luò)特征提取,為運動目標(biāo)跟蹤提供了更完整的候選匹配信息。實驗證明:改進(jìn)算法在保留了原始CNT算法抗遮擋能力的前提下,提升了在復(fù)雜背景和目標(biāo)形變時的魯棒性和準(zhǔn)確性。 [1] 安 寧,閆 斌,熊 杰.基于壓縮感知的多尺度絕緣子跟蹤算法[J].傳感器與微系統(tǒng),2016,35(3):140-143. [2] Clement F,Camille C,Laurent N,et al.Learning hierarchical featues for scene labeling[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(8):1915-1929. [3] Alex K,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[C]∥Advances in Neural Information Processing Systems,LakeTahoe,USA:NIPS,2012:748-764. [4] 李寰宇,畢篤彥,楊 源,等.基于深度特征表達(dá)與學(xué)習(xí)的視覺跟蹤算法研究[J].電子與信息學(xué)報,2015,37(9):2033-2039. [5] Wang N,Yeung D Y.Learning a deep compact image representation for visual tracking[J].Advances in Neural Information Processing Systems,2013,26(1):809-817. [6] Zhang K,Liu Q,Wu Y,et al.Robust visual tracking via convolutional networks[J].IEEE Transactions on Image Processing,2015,25(4):1-18. [7] Zhang K,Zhang L,Yang M H. Real-time compressive tra-cking[C]∥European Conference on Computer Vision,Berlin,Germany:Springer,2012:864-877. [8] Bolme D S,Beveridge J R,Draper B A,et al.Visual object tra-cking using adaptive correlation filters[C]∥Computer Vision and Pattern Recognition,San Francisco,USA:IEEE,2010:2544-2550. [9] Bolme D S,Draper B A,Beveridge J R.Average of synthetic exact filtes[C]∥Computer Vision and Pattern Recognition,Anchorage,USA:IEEE,2009:2105-2112. [10] Collins R T,Liu Y,Leordeanu M.Online selection of discriminative tracking features[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(10):1631-1643. [11] Grabner H,Leistner C,Bischof H.Semi-supervised on-line boosting for robust tracking[C]∥European Conference on Computer Vision,Berlin,Germany:Springer-Verlag,2008. [12] 沈志熙,楊 欣,黃席樾.均值漂移算法中目標(biāo)模板更新算法研究[J].自動化學(xué)報,2009,35(5):478-483. [13] Hong Zhibin.Multi-store tracker(MUSTer):A cognitive psycho-logy inspired approach to object tracking[C]∥Computer Vision and Pattern Recognition,Boston,USA:IEEE,2015:749-758. [14] Kristan M,Matas J,Leonardis A,et al.The visual object tracking VOT2015 challenge results[C]∥Computer Vision Workshops,Santiago,USA:IEEE,2015:1-23. [16] Kalal Z,Matas J,Mikolajczyk K.PN learning: Bootstrapping binary classifiers by structural constraints[C]∥Computer Vision and Pattern Recognition,San Francisco,USA:IEEE,2010:49-56.2.3 模板庫更新
3 實驗結(jié)果與分析
3.1 定性分析
3.2 定量分析
4 結(jié)束語