楊海巖 薛擎天
【摘 要】目標跟蹤在計算機視覺領域有著重要的應用,跟蹤的結果常常會受到光照、遮擋物、相似物的影響,因此算法仍然具有很大的挑戰(zhàn)。TLD(Tracking Learning and Detection)算法是目前復雜環(huán)境目標追蹤的有效算法。本文從框架、追蹤和性能等幾個方面對TLD算法進行了研究與分析。
【關鍵詞】跟蹤;視頻幀;檢測;特征
0 引言
人類的視覺系統(tǒng)是感知和觀察世界的最主要途徑,運動目標的檢測與跟蹤一直都是視覺領域的難題之一。目標跟蹤主要由三個部分組成:目標檢測、識別和跟蹤。對于一幀獨立的圖像幀,目標的位置、形狀、大小信息標識出一個確定的物體。對于一段完整的視頻,就是通過尋找目標的位置形狀等信息來跟蹤目標,如果目標跟丟或者受到障礙物的遮擋,系統(tǒng)能夠指出錯誤。對于視頻中未知物體的長期跟蹤,Zdenek Kalal提出了一種新的跟蹤算法—TLD(Tracking Learning and Detection),TLD可以通過整個的目標識別系統(tǒng)來追蹤運動的物體目標。
1 算法框架
TLD視頻目標跟蹤算法,是由跟蹤、學習和檢測三個環(huán)節(jié)構成,跟蹤和檢測并行運行,其結果作為學習的樣本,學習后的模型再反饋給檢測和跟蹤環(huán)節(jié),對其進行實時更新,最終實現(xiàn)持續(xù)穩(wěn)定的跟蹤。
該算法需要手動選擇被跟蹤目標,或者采用其他運動目標檢測算法實現(xiàn)自動目標識別。假定選定被跟蹤的目標后,學習模塊和檢測模塊中的參數同時也被初始化。在TLD算法中,I1代表著第一幀視頻幀,BB1表示初始幀中的目標實體,也就是我們手動選擇的目標,類似地,BBK代表在第k幀(IK)中邊界框所包含的目標實體。初始化后,視頻幀被逐幀送入到跟蹤器和檢測器,跟蹤器和檢測器分別計算出該實體在下一幀中的區(qū)域,分別用BBti和BBdi表示計算出的結果。該集成器結合了跟蹤和檢測器的結果來確定該目標實體的位置,學習器使用跟蹤結果來更新檢測器的參數。TLD的輸出結果是一個包含目標的邊界框,初始化模塊的輸出結果是更新后的學習器和檢測器的參數。
2 目標跟蹤
TLD跟蹤模塊采用重疊塊跟蹤策略,主要使用光流算法,如Lucas-Kanade光流法。TLD在跟蹤前需要指定待跟蹤的目標,由一個矩形框標出。最終整體目標的運動取所有局部塊移動的中值,并結合正反向誤差分析來選取在連續(xù)視頻幀中的目標,這種局部跟蹤策略可以解決跟蹤過程中所出現(xiàn)的部分遮擋的問題。
TLD檢測模塊實際上是一個分類器,該分類器是在學習模塊訓練生成。在特征選取上,最初特征是從包含目標物體的訓練集合中的圖像塊中收集的。所收集的特征點的統(tǒng)計數據用于訓練分類器區(qū)分目標實體和背景,然后創(chuàng)建掃描窗口來詳細地掃描圖像或視頻幀,從每個掃描窗口中收集的積分圖像特征被用于在檢測器中訓練分類器。對于每一幀,分類器需要把掃描窗口判定為目標實體或背景。分類器在具體的設計上,采用級聯(lián)形式,即分類器包括三個子分類器,分別為方差分類器、集成分類器、最近鄰分類器。每個子分類器標簽子窗口為真或假,即當子窗口被標記為真時,它被分類為包含目標實體。第一個分類器粗略快速地區(qū)分掃描窗口中的背景,如果目標候選區(qū)域沒有通過第一個分類器,就不會進入后面的分類器。在后面的分類器中需要更加復雜的標準以避免模糊圖像塊的錯誤檢測。級聯(lián)分類器使得檢測器可以快速消除背景子窗口和準確地檢測出目標實體的區(qū)域。
基于視頻的目標識別跟蹤技術有其復雜的特性,主要體現(xiàn)在運動目標的外觀會有一定的變化,如相機焦距的變化,目標自身運動軌跡的變化,拍攝角度的變化、外界光線的變化,運動中其他物品的遮擋等等,這些都會使目標的外觀上與初始幀中所選取的目標有很大的差異。因此,要想使跟蹤算法具有魯棒的特性,適應不同環(huán)境變化,能夠實現(xiàn)持續(xù)穩(wěn)定的跟蹤,這就要求跟蹤算法具有一定的學習能力。TLD學習模塊主要完成這一任務。
TLD學習模塊是建立在在線模型的基礎上。在線模型是一個大小為15×15的圖像塊的集合,這些圖像塊來自跟蹤和檢測所得的結果,初始的在線模型為起始跟蹤時指定的待跟蹤的目標圖像。在線模型是一個動態(tài)模型,其發(fā)展是由兩個事件來驅動,分別為增長事件和修剪事件。
在實際的跟蹤場景中,由于受到環(huán)境和目標本身等多因素的影響,使目標的外觀不斷發(fā)生變化,這使得由跟蹤器預測產生的目標圖像會包含其他與目標無關的信息。通過對目標物體形變的研究來提高檢測器對不同外形物體的識別能力。隨著跟蹤時間的增加,在線模型中圖像塊的數量會急劇增加,會導致目標的特征空間不斷增大,這一過程就是所說的增長事件。在實際的目標跟蹤過程中我們需要一定數量的新特征來適應目標不斷變化的特點。然而,目標特征空間的增加會導致計算量的增大,同時也會增加一些虛假特征信息,最終影響跟蹤效果。為了防止增長事件帶來的其他非目標圖像,采用了與之相對的(下轉第17頁)(上接第21頁)修剪事件來平衡。也就是,對在線模型中的圖像塊進行篩選,去除增長事件所產生的干擾圖像塊。通過增長事件和修剪事件的動態(tài)平衡來促使在線模型一直保持與當前的跟蹤目標相一致。
在線模型中的圖像塊集合為TLD的學習提供了一個樣本空間,在TLD算法學習訓練過程中采用了兩種約束:P約束和N約束。P約束針對目標的運動路線收集更多的正樣本(規(guī)定與跟蹤軌跡上的目標圖像距離近的圖像塊為正樣本),同時把得到的軌跡進行篩選,選出最有可能的目標的運動軌跡,然后將這些篩選出來的軌跡作為正樣本。而N約束主要是發(fā)現(xiàn)本應由檢測器區(qū)分的背景信息。P約束和N約束降低了分類器的錯誤率,在一定的范圍內,其錯誤率趨近于零。TLD跟蹤算法主要的實現(xiàn)步驟如下:
(1)在第一幀中手動選擇要跟蹤的目標物體。
(2)初始化分類器和跟蹤器中的參數。
(3)遍歷掃描每一幀視頻幀,并對掃描窗口內的圖像進行分類器檢測,檢測出目標的位置和大小,同時,跟蹤器通過上一幀的目標框進行預測。
(4)根據檢測器判斷出的目標框和跟蹤器預測出的目標框,綜合判斷出最終的跟蹤結果。
(5)通過P-N學習來更新分類器參數。
(6)用矩形框框出目標物體。
(7)判斷視頻幀是否結束。如果視頻結束,就結束整個跟蹤過程,否則跳轉至步驟(3)繼續(xù)執(zhí)行。
3 性能分析
TLD跟蹤算法的性能優(yōu)勢在于可以在在線的狀態(tài)下同時進行在線的學習和對新的分類器進行訓練,而且還能在訓練分類器的基礎上更新并矯正。因為算法結合了在線檢測器的功能,所以即使目標在脫離監(jiān)視范圍之后再一次出現(xiàn),該算法仍然能夠很好的由于算對目標進行重新檢測,以便對目標繼續(xù)跟蹤。算法存在的不足是該算法目前還不可以自動對跟蹤目標進行鎖定,也就是不具備自動目標檢測功能,需要人工選定對目標。當目標物品被遮擋時該算法容易失去對目標的跟蹤同時也有可能對錯誤的目標進行跟蹤。在初期階段,當目標發(fā)生大范圍的旋轉之后,會對算法造成丟失目標的影響。對弱小目標的跟蹤效果較差。TLD算法受光照影響大,當光照條件發(fā)生突然的變化時,很容易就會丟失目標。行人流型物體的追蹤也是該算法的短板,算法不能同時追蹤多個目標。
【參考文獻】
[1]Z.Kalal,K.Mikolajczyk,and J.Matas.Tracking-Learning-Detection[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2011,34(7):1409-1422.
[2]高帆,吳國平,邢晨,等.基于TLD目標跟蹤算法研究[J].電視技術,2013,37:11-19.
[3] 張帥領.基于TLD的視頻目標跟蹤算法的研究[D].西安電子科技大學.2014.endprint