李希
摘要:視頻流中目標(biāo)的長(zhǎng)時(shí)間跟蹤問題是計(jì)算機(jī)視覺領(lǐng)域中極具挑戰(zhàn)性的課題。在視頻幀中,目標(biāo)可由其位置及自身特征等信息進(jìn)行描述。目前大多數(shù)跟蹤算法利用滑動(dòng)窗口機(jī)制,對(duì)每個(gè)窗口進(jìn)行簡(jiǎn)單的特征提取,以實(shí)現(xiàn)目標(biāo)的檢測(cè)與跟蹤。出于降低算法計(jì)算復(fù)雜度的考慮,很多跟蹤算法均使用弱特征描述目標(biāo),因而導(dǎo)致無(wú)法解決目標(biāo)旋轉(zhuǎn)、尺度變換和光照變化等問題。在最近出現(xiàn)的目標(biāo)檢測(cè)與識(shí)別算法中,顏色特征已展示出其優(yōu)異的性能,它們能很好地解決光照變化等問題。但是在滑動(dòng)窗口機(jī)制下,窗口數(shù)量非常大,導(dǎo)致基于顏色特征的計(jì)算復(fù)雜度過高,直接影響跟蹤算法的實(shí)時(shí)性能。本論文基于TLD算法的框架體系,提出利用BIN-NST算法對(duì)窗口進(jìn)行篩選,大幅度減少候選窗口數(shù)量,在此基礎(chǔ)上能夠高效地利用顏色特征對(duì)目標(biāo)進(jìn)行檢測(cè)與跟蹤,解決了在光線驟變的情況下出現(xiàn)的跟蹤失敗的問題。
關(guān)鍵詞:視頻流;跟蹤;TLD算法
1. 引言
視頻中目標(biāo)物體的長(zhǎng)時(shí)間跟蹤是計(jì)算機(jī)視覺領(lǐng)域一個(gè)非常具有挑戰(zhàn)的問題。視頻跟蹤在許多應(yīng)用中,特別是人機(jī)交互,視頻監(jiān)控,以及機(jī)器人中都扮演了重要的角色。但是由于光照變化,局部遮擋,雜亂的背景,形狀變化等因素,使跟蹤問題更加復(fù)雜化。
近期出現(xiàn)的視頻跟蹤算法,主要分為三類:基于特征、基于外表模型和基于結(jié)構(gòu)信息。基于特征的跟蹤算法中,所使用的特征包括多種不同的圖象屬性特征,如像素值[1]、顏色信息[2,3,4,5]、紋理描述[6,7]等。外表模型主要有顏色分布特征[3,4]、子空間描述[1,8]、支持向量機(jī)(SVM)[9]、Boosting[6,7,10]、特征稀疏描述[11,12,13]等。逐漸地越來(lái)越多的跟蹤算法開始使用目標(biāo)結(jié)構(gòu)信息[2,14,15,16,17,18]。融入目標(biāo)結(jié)構(gòu)信息的跟蹤算法對(duì)目標(biāo)變形、遮擋有較強(qiáng)的魯棒性。
基于特征的跟蹤算法中,大部分使用方型模板提取特征信息描述目標(biāo)。Lim等[1]提出使用增量子空間模型描述目標(biāo)的方法,在很大程度上增強(qiáng)了算法對(duì)光照變化的魯棒性。為了增強(qiáng)算法的魯棒性,Kwon等[19]將跟蹤器分解成為幾個(gè)更小的跟蹤器。Wen等[8]在跟蹤算法中融入時(shí)空上下文特征信息,Mahadevan等[20]利用圖象顯著特征信息以改進(jìn)跟蹤算法。這些跟蹤算法都沒有考慮目標(biāo)的變形、遮擋問題。
后來(lái)涌現(xiàn)出一些能夠較好地解決遮擋問題的跟蹤算法。Adam等[2]將目標(biāo)分割成水平和垂直方向的子塊,這種處理方法對(duì)部分遮擋具有較強(qiáng)的魯棒性。文獻(xiàn)[11,12,13]采用稀疏描述方法從外表特征中重建目標(biāo)信息,也較好地解決了遮擋問題。Babenko 等[22]采用多實(shí)例學(xué)習(xí)策略來(lái)減少遮擋對(duì)跟蹤的影響。Grabner等[23]利用上下文信息解決全遮擋問題,取得了較好的實(shí)驗(yàn)結(jié)果。然而,這些算法卻忽視了目標(biāo)的變形問題。
為了真正有效地解決目標(biāo)變形、遮擋問題,近期出現(xiàn)了一些綜合性的跟蹤算法,如在外表模型中融入時(shí)空特征信息、上下文先驗(yàn)信息等,以期達(dá)到更魯棒有效的跟蹤性能。基于分段的跟蹤器[29]使用多個(gè)局部塊直方圖描述目標(biāo),融合了目標(biāo)的內(nèi)部結(jié)構(gòu)信息,能很好的處理部分遮擋。然而,它的模板并不隨著視頻序列的變化而進(jìn)行修正,因而難于跟蹤有外表變形的目標(biāo)。另外一種處理方式是在跟蹤過程中融入目標(biāo)檢測(cè)模塊[30,31,32]。利用檢測(cè)模塊實(shí)時(shí)地更新外表模型,這種算法在目標(biāo)脫離跟蹤范圍后,仍能重新捕獲到目標(biāo)。但這些基于檢測(cè)的跟蹤器容易被具有相似外表的目標(biāo)所誤導(dǎo)。對(duì)于在無(wú)約束環(huán)境下的長(zhǎng)時(shí)間跟蹤任務(wù),需要融入一些空間先驗(yàn)信息以增強(qiáng)算法的魯棒性。Yang等設(shè)計(jì)了一種上下文敏感的跟蹤器[33](Context-Aware Tracker:CAT)解決了目標(biāo)漂移問題,上下文先驗(yàn)信息是一些容易跟蹤且與目標(biāo)運(yùn)動(dòng)一致的輔助性目標(biāo)。
基于特征類的算法沒有較好的解決目標(biāo)變形及局部遮擋的問題;而基于外表模型的算法卻沒有較好的解決光照變化和局部遮擋問題?;诮Y(jié)構(gòu)信息的算法沒有較好的解決相似目標(biāo)的影響,以及光照變化的問題。
本文設(shè)計(jì)使用跟蹤與檢測(cè)相結(jié)合的體系結(jié)構(gòu),實(shí)現(xiàn)了一個(gè)長(zhǎng)時(shí)間跟蹤算法。首先設(shè)計(jì)改進(jìn)的BING算法(BIN-NST算法),使得在檢測(cè)器中最初的目標(biāo)候選窗口數(shù)量銳減至2000個(gè)左右,并且完全不影響目標(biāo)檢測(cè)性能。然后在此基礎(chǔ)上,在算法中采用lsh的強(qiáng)特征信息來(lái)描述候選窗口內(nèi)的目標(biāo)特征,較好地解決光照變化的問題。
Our contributions are as follows:
1 我們對(duì)bing算法進(jìn)行了改進(jìn),原始的bing算法采用梯度作為特征
2 在跟蹤算法中融入強(qiáng)特征,有效的解決了光照不變形和旋轉(zhuǎn)不變性的問題
3 通過改進(jìn)的bing與tld融合,在使用強(qiáng)特征的前提下仍然保證了跟蹤算法的實(shí)時(shí)性
2. 相關(guān)工作
2.1 跟蹤—學(xué)習(xí)—檢測(cè)算法(TLD)
TLD算法[38]主要討論研究視頻流中的目標(biāo)物體的長(zhǎng)時(shí)間跟蹤問題。在一幅單獨(dú)的圖像幀中,目標(biāo)物體是由其位置和自身特征所表征的。在連續(xù)的視頻幀中,TLD算法能夠定位或者重新出目標(biāo)的位置。TLD由三個(gè)部分組成:跟蹤,學(xué)習(xí)和檢測(cè)。跟蹤器在視頻流中跟蹤目標(biāo)。檢測(cè)器使用滑動(dòng)窗口機(jī)制找出目標(biāo),其結(jié)果可修正跟蹤器,并在跟蹤器失效的情況下使得該算法能繼續(xù)找到目標(biāo)。學(xué)習(xí)器通過PN約束把檢測(cè)器錯(cuò)誤分類的正負(fù)樣本找出來(lái),重新訓(xùn)練并對(duì)檢測(cè)器的所用到特征進(jìn)行更新,保證收斂于目標(biāo)。TLD算法中開創(chuàng)了一種全新的學(xué)習(xí)方法(P-N學(xué)習(xí),Positive和Negative),這種方法通過一對(duì)約束來(lái)估計(jì)出錯(cuò)誤。P約束就是找到被錯(cuò)誤分類的正樣本,N約束找到被錯(cuò)誤分類的負(fù)樣本。整個(gè)學(xué)習(xí)過程可以被看作是一個(gè)獨(dú)立的離散的動(dòng)態(tài)過程模型,并且在該過程模型下發(fā)現(xiàn)學(xué)習(xí)器的效果得到了有效地提升。
參考文獻(xiàn)
[1]J. Lim,D. A. Ross,R.-S. Lin,and M.-H. Yang,“Incremental learning for visual tracking,” in Advances in Neural Information Processing?Systems 17. Cambridge,MA,USA:MIT Press,2004.
[2]A. Adam,E. Rivlin,and I. Shimshoni,“Robust fragments-based tracking using the integral histogram,” in Proc. IEEE Comput. Soc. Conf. CVPR,vol. 1. Jun. 2006,pp. 798–805.
[3]D. Comaniciu,V. Ramesh,and P. Meer,“Real-time tracking of non-rigid objects using mean shift,” in Proc. IEEE CVPR,vol. 2. Jun. 2000,pp. 142–149.