孟曉燕, 段建民
(北京工業(yè)大學信息學部, 北京 100124)
目標跟蹤是一個機遇與挑戰(zhàn)并存的機器視覺研究方向,因在自動駕駛[1]、交通流監(jiān)控[2]、人機交互[3]、機器人[4]、醫(yī)學診斷[5]和行為識別[6]等領(lǐng)域得到廣泛應用,而成為了研究熱點. 機遇主要體現(xiàn)在雖然經(jīng)過十幾年的研究,該方向已經(jīng)有了許多突破性的進展,但是仍然存在進一步深入研究和提升的空間. 挑戰(zhàn)性則體現(xiàn)在復雜環(huán)境和目標本身2個方面,具體而言,跟蹤失敗可以歸因于跟蹤過程中發(fā)生的遮擋、光照變化、尺度和形態(tài)差異以及快速運動等不利因素.
目標跟蹤旨在從連續(xù)視頻幀中識別出感興趣區(qū)域. 一般而言,跟蹤框架由4個模塊組成,分別是目標初始化、外觀建模、運動估計和目標定位. 目標初始化是對目標的位置或感興趣區(qū)域標示包圍框的過程,外觀建模是由具備判別能力的目標特征和構(gòu)造的數(shù)學模型組成的檢測過程,運動估計是推斷跟蹤后續(xù)幀中目標所處位置的過程,而目標定位操作則涉及到最大后驗概率預測或貪婪搜索策略. 大量的跟蹤算法被相繼提出,回答了何為視覺目標跟蹤,何種學習機制適用于跟蹤任務(wù),以及如何有效定義外觀模型和運動模型等問題. 文獻[7-11]從不同的側(cè)重點對跟蹤算法進行了調(diào)查,但是考慮到近年來該領(lǐng)域的迅速發(fā)展,以及相關(guān)濾波和深度學習在完成跟蹤任務(wù)時的突出表現(xiàn),目前仍缺乏一個針對性較強且相對全面的論述. 本文旨在提供一個基于相關(guān)濾波理論的目標跟蹤方法的研究進展綜述,希望可以為讀者們就跟蹤算法的多樣性提供一個有組織、有層次的參考文獻,并為其未來將要開展的研究工作提供有價值的參考思路.
本文工作如下:首先對相關(guān)濾波跟蹤算法進行了介紹,并且對核相關(guān)濾波器進行了詳細描述. 然后就視覺目標跟蹤面臨的主要難題、目前的研究現(xiàn)狀等方面展開分析與討論. 最后在OTB2013、OTB100和VOT2017基準數(shù)據(jù)集上,對具有代表性的相關(guān)濾波類跟蹤算法進行了對比,進一步說明了其優(yōu)越性.
基于相關(guān)濾波理論的跟蹤方案在頻域內(nèi)進行計算有效控制了運算成本,提高了跟蹤效率. 依據(jù)已有知識,可將相關(guān)濾波跟蹤器(correlation filter trackers,CFTs)的一般框架歸納為圖1. 首先在初始幀確定的目標位置提取圖像塊,訓練濾波器. 然后在跟蹤過程中,根據(jù)前一幀中的目標位置,在當前幀中估計包含目標的圖像塊. 為了有效地表示目標外觀,可在選定的圖像塊中提取手工特征、深度特征或融合特征,并利用余弦窗口平滑邊界. 通過離散傅里葉變換執(zhí)行相關(guān)濾波操作. 最后通過傅里葉逆變換得到響應地圖,響應得分最大值所在的位置即為目標在當前幀中的新位置.
設(shè)h為相關(guān)濾波器,x為輸入數(shù)據(jù),可以取圖像特征或原始像素. 根據(jù)卷積定理,空域中的卷積等于頻域中元素間的乘積,可得
x?h=F-1(⊙*)
(1)
式中:?為卷積;⊙為元素間的乘法運算;F-1為傅里葉逆變換;*為復共軛. 式(1)給出了輸入x和濾波器h之間的置信地圖,選擇目標周圍置信度值最大處對相關(guān)濾波器進行更新. 假設(shè)y為期望輸出,對于新目標外觀z,相關(guān)濾波器h需滿足
y=F-1(⊙*)
(2)
因此,可得
(3)
文獻[12]將CFTs表示為求解嶺回歸問題,利用循環(huán)矩陣對樣本進行密集采樣,并引入核函數(shù)提升分類器的性能,具體的實現(xiàn)過程可以分為訓練、檢測和更新3個部分.
1) 訓練. 在第t幀中,以檢測到的目標位置為中心選取大小為M×N的圖像塊x作為基樣本,采用循環(huán)移位得到訓練樣本xi,其中i∈{0,1,…,M-1}×{0,1,…,N-1}. 對于遞歸最小二乘法(recursive least square,RLS)分類器,分類實質(zhì)為找到w使得函數(shù)f(x)=wTx在xi上的響應與yi的平方誤差值最小,即
(4)
(5)
(6)
式中:σ為核函數(shù)參數(shù);*為的復共軛.
2) 檢測. 樣本訓練完成之后,對于新讀入的視頻幀,選取以上一幀中估計的目標位置為中心、大小為M×N的圖像塊上進行檢測,得到的響應圖表示為
f(z)=F-1((xz)⊙)
(7)
f(z)得分最大值處所對應的位置即為當前幀中目標的位置.
3) 更新. 為了適應跟蹤過程中目標外觀的變化,采用線性插值的方式對濾波器和目標外觀模型進行更新,更新方式為
(8)
式中:t為幀數(shù);θ為學習率.
由于實際場景的復雜性以及目標自身的變化,視覺目標跟蹤面臨很多技術(shù)難點,本節(jié)主要從特征表示與尺度變化2個方面進行分析. 與其他視覺任務(wù)一樣,對于目標跟蹤而言,特征表示直接關(guān)系到目標外觀模型的有效性,進而影響跟蹤的成敗. 因此,選擇合適的獨立特征或融合特征是設(shè)計跟蹤框架時需要重點考慮的問題. 此外,目標在視頻序列中的尺度會隨著目標與攝像機之間的距離發(fā)生改變,變大或變小均會對之后的建模產(chǎn)生不利影響,累計誤差導致跟蹤失敗.
最初將相關(guān)濾波理論引入目標跟蹤領(lǐng)域的MOSSE[13]跟蹤器和基于檢測的核循環(huán)結(jié)構(gòu)CSK[14]跟蹤器采用的均為單通道灰度特征,而灰度特征的表征能力不足以處理背景復雜或者目標與背景顏色相似的情況. 之后Henriques等[12]將單通道特征擴展為多通道方向梯度直方圖特征,利用圖像的梯度信息提升算法的跟蹤性能. 文獻[15]將Gray擴展為多通道顏色名稱(color names,CN)特征,結(jié)合自適應降維策略,在降低計算成本的同時提升了跟蹤性能. 方向梯度直方圖(histogram of oriente gridients,HOG)特征和顏色特征在描述目標方面顯示出了明顯的優(yōu)勢,所以之后提出的許多算法采用的均為HOG特征或CN特征,如RPT[16]、DSST[17]、FDSST[18]和LMCF[19]等.
考慮到利用單一特征描述目標的局限性,研究者們將關(guān)注點放在了如何融合不同特征的特性實現(xiàn)優(yōu)勢互補上,但是復雜特征不可避免地增加了計算復雜度,因此如何在保證跟蹤實時性的同時提升跟蹤性能是需要重點考慮的問題. 文獻[20]從優(yōu)化特征表示的角度出發(fā)提出了SAMF跟蹤器,同時對Gray、CN和HOG特征進行建模,提升了復雜環(huán)境下跟蹤器的魯棒性. 文獻[21]從特征間差異性角度出發(fā),利用深度信息和顏色信息的優(yōu)勢互補,提出了DS-KCF跟蹤器,保證實時性的同時,有效提升了算法性能. 受HOG強大表征力的啟發(fā),文獻[22]將一種新的描述算子MC-HOG與相關(guān)濾波框架結(jié)合提出了MOCA跟蹤器,利用多顏色通道的方向梯度直方圖特征進行建模,在一定程度上提升了跟蹤器的性能. 文獻[23]提出的STAPLE算法通過保持2個獨立的回歸問題來開發(fā)每個補丁的固有結(jié)構(gòu),采用HOG和全局顏色直方圖共同描述目標. 在顏色模板中,前景和背景區(qū)域由先前的估計位置計算,得到搜索區(qū)域中每個像素的得分,使用積分圖計算顏色響應地圖. 在HOG模板中,在先前估計位置確定的搜索區(qū)域上提取HOG特征,并將其與CF卷積得到密集響應模板,最終通過2個模板得分的線性組合估計出目標的位置. 它可以視為DSST和DAT的互補與結(jié)合,2種算法高效無縫結(jié)合之后,不僅準確性得以提升,其計算效率也有了顯著的提升,幀率達到了80幀/s,STAPLE的算法框架如圖2所示.
隨著深度學習的快速發(fā)展,許多結(jié)合深度卷積特征的CFTs應運而生. 文獻[24]在相關(guān)濾波框架中引入豐富的層次卷積特征用于視覺跟蹤,基于KCF框架,采用在ImageNet上使用VGG-19訓練好的特定三層特征替代原始HOG特征進行建模,有效提升了跟蹤性能. 文獻[25]在SRDCF框架的基礎(chǔ)上結(jié)合卷積特征進行建模提出了DeepSRDCF跟蹤算法. 不同卷積層的特征適于完成不同的任務(wù),低層特征利于定位,而高層特征因包含豐富的語義信息適于分類. CFNet[26]對比了所提算法框架分別使用conv1、conv2和conv5時的性能差異,得出了CFNet-conv2更適于完成跟蹤任務(wù)的結(jié)論. 之后提出的許多方法以不同的方式結(jié)合深度特征構(gòu)造跟蹤框架,獲得了優(yōu)異的成績,但是此類濾波器忽略了卷積層之間的關(guān)系,所以仍然存在一定的局限性. Danelljan等[27]提出的C-COT使用神經(jīng)網(wǎng)絡(luò)VGG-Net提取深度特征,將原始的彩色圖像和2個卷積層的輸出作為特征,雖然提升了準確度,但是復雜的特征嚴重影響了計算速度,難以滿足實時性的要求. ECO[28]在其基礎(chǔ)上通過因式分解操作,將HOG、CN和卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)的維度進行了不同程度的降維,減少了訓練參數(shù),進而有效降低了計算復雜度. ECO+[29]將特征網(wǎng)絡(luò)換為ResNet-50,采用數(shù)據(jù)增強擴充訓練集,將淺層特征和深度特征分而治之,最終兩部分響應自適應融合得到最優(yōu)結(jié)果. 作者具體分析了淺層特征和深度特征的特征差異,得出了深度特征偏向于魯棒性而手工特征更關(guān)注準確度的結(jié)論.
由上述討論可知,CFTs經(jīng)歷了從單通道特征到多通道特征、從單一特征到融合特征、從人工特征到深度特征的過程,如何為跟蹤任務(wù)匹配合適的特征以及采取何種方式進行特征融合是實現(xiàn)跟蹤器性能提升急需解決的關(guān)鍵問題.
傳統(tǒng)CFTs通常采用固定大小的窗口,以致于在跟蹤過程中易發(fā)生目標尺度增大、邊緣信息丟失或尺度減少引入背景干擾等問題. 為了更好地處理目標尺度變化帶來的跟蹤漂移問題,許多學者從不同的角度進行了研究. Li等[20]針對尺度問題提出了SAMF方法,該方法在KCF跟蹤框架的基礎(chǔ)上,將濾波器在多尺度縮放的圖像塊上進行檢測得到響應地圖,取響應最大的位置為目標位置與最佳尺度. Danelljan等[17]提出的DSST算法同樣采取尺度窮舉的思路,與SAMF不同的是其采用的是分步窮舉策略,即先進行平移跟蹤,后進行尺度跟蹤. SAMF可以看作是一個全局尋優(yōu)的過程,而DSST可以看作是局部尋優(yōu)的過程,全局最優(yōu)并不能保證局部最優(yōu),所以SAMF的得分最高處并不能保證尺度最優(yōu). 此外,與SAMF統(tǒng)一選取HOG+CN特征建模不同,DSST的分步策略為不同濾波器的特征描述子提供了更加靈活的選擇. 獨立尺度濾波器的引入,不可避免地增大了計算復雜度,而且相較于SAMF的7個粗略尺度,DSST的尺度池因包含了33個精細尺度,降低了計算效率. 之后提出的加速版FDSST[18]就是考慮到復雜度的問題,采用降維操作和QR分解降低了計算量. 文獻[30]提出的多模板尺度自適應核CFT-CF+MT,與文獻[17]和[20]采用的策略類似,也是在一定的尺度池中進行窮舉搜索,使用后驗概率取代最大似然概率,獲得了健壯的跟蹤性能. 文獻[31]借鑒配置獨立尺度濾波器的思路,將分步策略化為同步進行,得到目標最佳位置以及尺度. 考慮到連續(xù)幀中跟蹤目標的尺度變化范圍較小,采用上述窮舉尺度池的方法一定程度上滿足了尺度更新的需要,而且配置獨立尺度濾波器的方法,具備很強的移植能力,為解決尺度變化問題提供了一種可行的思路. 考慮到尺度濾波器的使用對于耗時的負面影響,Solis等[32]基于KCF框架提出了一種快速可伸縮方案,通過引入可調(diào)高斯核函數(shù)和幀間關(guān)鍵點匹配技術(shù)處理尺度問題,并從特征描述子、模板大小等方面綜合降低了運行時間,是一種高效的CFT.
除了窮舉尺度池的方法,分塊處理也是實現(xiàn)尺度自適應的一種有效方式. 文獻[16]提出的可信塊跟蹤器RPT,由部件間的相對位置關(guān)系推斷目標的尺度變換情況. 文獻[33]提出了一種實時分塊自適應核相關(guān)濾波器RPAC,將跟蹤目標分解為5個部件,為每個部件配備獨立的濾波器,通過計算各個響應地圖中響應得分最大處的變化來估計目標尺度的變化. 文獻[34]從平衡準確性與實時性的角度出發(fā)提出了DPCF跟蹤器,通過一個全局濾波器和多個部件濾波器間的耦合作用協(xié)同處理局部遮擋和尺度變化問題.
除了早期的跟蹤器,之后提出的跟蹤框架大多包含了尺度適應策略. 其中,尺度窮舉法和分塊模型是實現(xiàn)尺度自適應的2個主要思路,如何在盡量不影響執(zhí)行速度的情況下,確定尺度因子及空間結(jié)構(gòu)是需要重點考慮的問題.
目標跟蹤之所以具有極大的挑戰(zhàn)性,是因為以下幾方面因素[35]:1) 目標外觀信息的缺失;2) 背景噪聲的干擾;3) 不可避免的外觀變化. 盡管目前的研究已經(jīng)在建立外觀模型和魯棒跟蹤方面取得了明顯進展,目標跟蹤技術(shù)應用于實際場景時仍然是一個非常復雜的問題. 除了第2節(jié)中討論的特征表示以及尺度自適應更新方面,像目標遮擋、跟蹤漂移等問題,也在很大程度上影響了跟蹤性能.
本節(jié)針對上述挑戰(zhàn)和問題,分別從基本類CFTs、部件類CFTs、正則化類CFTs和Siamese網(wǎng)絡(luò)類CFTs共4個類別對已有的目標跟蹤算法進行分析與討論.
基本類CFTs以KCF為基本框架,旨在改進KCF自身的缺陷以及處理不同的跟蹤難題. 具體而言,這些跟蹤器從特征表示、尺度變化的處理、核函數(shù)、長期跟蹤、響應分布以及算法集成等角度進行優(yōu)化,以實現(xiàn)跟蹤性能的提升.
從特征優(yōu)化的角度出發(fā),文獻[24]在相關(guān)濾波框架中引入了豐富的層次卷積特征用于視覺跟蹤,提出了HCFT跟蹤器. HCFT在KCF框架中引入在ImageNet上使用VGG-19訓練好的特定三層特征替代原始HOG特征,并為每一層特征配置獨立的相關(guān)濾波器進行模板學習,得到置信圖后進行加權(quán)融合獲取目標位置. 目標定位時,兼顧了低層特征的高分辨率優(yōu)勢和高層特征的語義信息,提升了跟蹤的精確度和魯棒性. Ma等[36]對HCFT進行了擴展,加入重檢測模塊和尺度估計,提出了基于層次關(guān)聯(lián)特征的跟蹤器HCFT+. 文獻[37]學習卷積層輸出的CF編碼目標外觀,推斷每一層的響應,并以由粗到細的方式進行目標定位. 算法增加額外的CF用以保持目標外觀的長期記憶,而且將其應用于不同類型的目標方案. Qi 等[38]提出的HDT算法同樣在特征層面進行了研究,集成了CNN不同層特征的優(yōu)勢,首先通過相關(guān)濾波器在卷積層建立弱跟蹤器,并為每一個弱分類器分配權(quán)重作為決策置信,然后采用boosting的思想進行對沖生成強跟蹤器,得到最終的跟蹤結(jié)果,HDT跟蹤框架如圖3所示.
從處理尺度變化的角度出發(fā),Zhang等[39]在KCF基本框架上提出的RAJSSC算法更能夠同時從空間位移、尺度變化和旋轉(zhuǎn)變化對目標外觀變化建立模型. 算法首先通過循環(huán)矩陣在尺度和位置空間執(zhí)行窮舉搜索,然后將目標模板從笛卡兒坐標系轉(zhuǎn)移到對數(shù)極坐標系,確保目標發(fā)生旋轉(zhuǎn)時,仍能保持其循環(huán)結(jié)構(gòu). Li等[20]針對尺度問題提出了SAMF方法,將濾波器在多尺度縮放的圖像塊上進行檢測得到響應地圖,取響應最大的位置為目標位置與最佳尺度. Danelljan等提出的DSST[17]算法和加速版FDSST[18]同樣采取尺度窮舉的思路對尺度變換進行了處理,具體的實現(xiàn)方式已在2.2節(jié)中給出. 類似文獻[17-18,20]采用的窮舉尺度池方法一定程度上滿足了尺度更新的需要,為解決尺度變化問題提供了一種可行的思路. 考慮到尺度濾波器的使用對于耗時的負面影響,文獻[32]基于KCF框架提出了一種快速可伸縮方案,通過引入可調(diào)高斯核函數(shù)和幀間關(guān)鍵點匹配技術(shù)處理尺度問題. 文獻[40]將Edgeboxes引入KCF框架提出了KCFDPT方法,通過生成目標候選區(qū)域應對目標尺度和長寬比的變化.
從核函數(shù)的角度出發(fā),文獻[41]針對基本相關(guān)濾波器只使用單核的問題,提出一種基于多核相關(guān)濾波器的跟蹤算法,算法充分利用不同特征的冪頻譜(power spectrums)及其判別不變性來提升性能,并且采用最優(yōu)二分搜索和特征快速估計進行尺度估計,同時利用特征金字塔的最小層數(shù),有效降低了計算量.
從實現(xiàn)長期跟蹤的角度出發(fā),文獻[42]在DSST的基礎(chǔ)上,引入了負責目標置信度的相關(guān)濾波器,即通過平移CF、尺度CF和置信度CF共同實現(xiàn)目標的跟蹤任務(wù). 如圖4所示,LCT通過對時間上下文相關(guān)信息建模實現(xiàn)平移估計,采用外觀信息構(gòu)建尺度金字塔實現(xiàn)尺度估計,使用在線隨機ferns檢測器實現(xiàn)目標丟失情況下的重新檢測,很大程度上提升了目標大面積遮擋和移除視野情況下跟蹤的魯棒性. 作者在LCT基礎(chǔ)上,使用支持向量機(support vector machine,SVM)替代在線隨機ferns檢測作為重檢測模塊提出了ILCT[43]方法. 文獻[44]受認知心理學ASMM(Atkinson-Shiffrin memory model)啟發(fā)提出了多存儲跟蹤器MUSTer,將短期存儲和長期存儲聚合到圖像信息并進行跟蹤. 短期存儲涉及到一個集成相關(guān)濾波器ICF用于結(jié)合時空一致性,而長期存儲涉及到隨機抽樣一致算法(random sample consensus,RANSAC)估計和關(guān)鍵點匹配跟蹤控制輸出.
從響應分布的角度出發(fā),文獻[45]為克服單中心高斯分布作為目標響應會降低跟蹤性能的缺陷,提出了一種可以自適應更改目標響應的通用框架,以降低跟蹤器循環(huán)位移不能可靠近似轉(zhuǎn)換時的敏感性. 文獻[46]基于濾波器響應的各向異性,提出了3種稀疏損失函數(shù)用以減少濾波器的損耗及過擬合情況. 文獻[47]同樣針對KCF濾波器的響應分布問題,提出了一種輸出約束轉(zhuǎn)移方法,在貝葉斯優(yōu)化框架中對相關(guān)響應的分布進行建模,緩解了跟蹤的漂移問題. 一方面,OCT基于對目標的相關(guān)響應服從高斯分布的合理解釋,利用高斯分布選擇訓練樣本,降低了模型的不確定性. 另一方面,OCT基于將數(shù)據(jù)分布轉(zhuǎn)換為優(yōu)化變量約束的理論,提升了估計效率.
從算法集成的角度出發(fā),由于每種跟蹤算法之間都存在一定的差異,它們根據(jù)被跟蹤目標以及環(huán)境的不同進行假設(shè),因此不同算法均能體現(xiàn)出自身的優(yōu)勢和不足,對不同算法進行集成實現(xiàn)優(yōu)勢互補是提升跟蹤性能的一種有效方式. 文獻[48]提出了一種基于支持相關(guān)濾波器的跟蹤器SCF. 算法通過循環(huán)矩陣對SVM模型進行重構(gòu),將交替優(yōu)化過程與離散傅里葉變化結(jié)合,即將跟蹤問題轉(zhuǎn)換為支持相關(guān)濾波器的迭代學習過程,進而實時找到全局最優(yōu)解. 文獻[19]提出的LMCF算法,同樣使用結(jié)構(gòu)SVM作為分類器,引入相關(guān)濾波器的速度優(yōu)勢,通過多峰檢測避免了相似物體和背景的干擾,并且采用高效的模型更新策略,兼顧準確性的同時大大加快了計算效率. 文獻[49]提出了一種多任務(wù)相關(guān)粒子濾波器進行視覺跟蹤,所提的MCPF跟蹤框架結(jié)合了MCF和粒子濾波器的優(yōu)勢,利用不同特征之間的相關(guān)性聯(lián)合學習相關(guān)濾波器,通過粒子抽樣策略有效處理了尺度變化問題,并引導抽樣粒子向目標狀態(tài)分布的模式方向運動以提升跟蹤性能. 文獻[50]提出的并行跟蹤與驗證跟蹤框架從尋求跟蹤性能和效率間平衡點的角度出發(fā),將跟蹤過程分為跟蹤器和驗證器2個部分. 跟蹤部分采用FDSST算法,負責計算實時推理和估計跟蹤結(jié)果,驗證器部分負責多尺度驗證結(jié)果,其中跟蹤部分和驗證部分采用2個線程工作異步進行.
判別式相關(guān)濾波器的跟蹤性能主要受到3個方面的限制:1) 濾波器尺寸需要和塊尺寸相等的條件限制了檢測范圍. 2) 固定的搜索區(qū)域造成了訓練樣本集中負樣本的缺失,產(chǎn)生模型過擬合的情況,當跟蹤發(fā)生遮擋時難以實現(xiàn)重新檢測. 3) 采用周期假設(shè)產(chǎn)生邊界效應問題. 雖然選擇較大的搜索區(qū)域可以解決此類問題,但是引入過多的背景信息又會降低跟蹤器的判別能力,因此,研究者們引入正則化策略來改善這一問題,許多正則化類相關(guān)濾波器應運而生.
針對判別相關(guān)濾波器采用周期假設(shè)導致不必要的邊界效應這一問題,文獻[51]在DCF框架中引入正則項提出了空間正則化判別CFT-SRDCF. 算法根據(jù)空間位置確定濾波器的懲罰系數(shù),弱化了背景信息的干擾,并利用高斯- 賽德爾迭代方法進行在線訓練,提升了跟蹤性能. SRDCF對尺度變化的處理方法采用了SAMF[20]的尺度金字塔法. 通過引入空間權(quán)重函數(shù)對目標邊界框外的非零濾波器進行懲罰的思路是合理的,但是權(quán)重在整個序列中是固定的,只能抑制背景,卻不能隨著形狀的變化而增強目標. 文獻[52]在判別相關(guān)濾波框架中結(jié)合了顏色概率,提出了基于通道可靠性和空間置信度的CSR-DCF跟蹤方法. 一方面,空間置信度地圖支持濾波器自適應選擇適于跟蹤的目標區(qū)域,減少了不必要的邊界效應和矩形假設(shè)的局限性. 另一方面,CSR-DCF框架對多通道特征直接求和的方式進行了優(yōu)化,首先根據(jù)約束最小二乘解的性質(zhì)估計得到通道可靠性,將其作為加權(quán)系數(shù),然后采用自適應加權(quán)求和策略得到最終的響應結(jié)果,其算法框架如圖5所示. SRDCF和CSR-DCF都專注于懲罰濾波器,其中SRDCF是引入固定的權(quán)值來抑制邊界處的濾波器,而CSR-DCF采用二值分割模型來消除對應背景的濾波器系數(shù). 文獻[53]從不同于SRDCF和CSR-DCF的思路出發(fā),通過構(gòu)造自適應特征權(quán)值來為像素分配不同的權(quán)值,兼?zhèn)浔尘耙种坪湍繕嗽鰪?,提出了FWDCF跟蹤器. FWDCF的一個主要貢獻是提出了偽相關(guān)濾波變量,將自適應權(quán)重整合于DCF框架,并采用高斯- 賽德爾法在傅里葉域進行優(yōu)化求解.
Danelljan等[54]將SRDCF框架在樣本質(zhì)量層面進行了優(yōu)化發(fā)展為SRDCFdecon,通過一個聯(lián)合外觀模型和樣本質(zhì)量權(quán)重的統(tǒng)一公式實現(xiàn)了損壞樣本的降低和正確樣本的增加. 文獻[25]使用CNN特征替代了原框架中采用的手工特征,提出了DeepSRDCF算法,并且證明了淺層卷積層與深層相比更適于完成視覺跟蹤任務(wù). 隨著深度運動特征在動作識別領(lǐng)域的廣泛應用,文獻[55]將深度運動特征和手工特征融合共同作用于SRDCF框架,提出了DMSRDCF算法,因深度運動特征為外觀線索提供了互補信息而顯著提升了跟蹤性能. 文獻[56]對DMSRDCF的工作進行了擴展,具體分析了深度運動特征對視覺目標跟蹤的影響及其適用條件.
在在線被動攻擊學習的啟發(fā)下,從平衡主動學習和被動學習的角度出發(fā),文獻[57]將時間正則化引入到SRDCF框架中,提出了時空正則化相關(guān)濾波器STRCF. 該框架不僅可以合理地逼近多幅訓練樣本上的SRDCF形式,而且在發(fā)生巨大形變時體現(xiàn)出了更強的魯棒性. STRCF模型是凸的,采用交替方向乘子法(alternating direction method of multiplier,ADMM)對每個子問題進行求解時均能得到閉合解,而且能在迭代次數(shù)較少時實現(xiàn)收斂,得到最終的跟蹤結(jié)果. 文獻[58]在時空正則化相關(guān)濾波框架中引入雙色聚類直方圖模型提出了CSCT跟蹤方法. 首先,采用K-means算法對第一幀中目標真值的顏色通道進行聚類,生成一個數(shù)據(jù)自適應非均勻量化器用于設(shè)計顏色直方圖,從而得到更加魯棒的顏色模型. 然后,為了避免外觀突變造成的跟蹤漂移,CSCT框架提出了一種時空正則化方法來學習濾波器. 最后,將顏色聚類直方圖模型與時空正則化相關(guān)濾波模型進行線性組合,得到最終的外觀模型.
文獻[27]提出的C-COT方法使用VGG-Net提取特征,通過隱式插值將不同分辨率的特征圖插值到連續(xù)空間域,應用Hessian矩陣獲得亞像素精度的目標位置. 針對C-COT使用高維特征訓練大量濾波器而且每幀更新造成計算量增加的缺陷,文獻[28]在C-COT基礎(chǔ)上,提出了改進版本的ECO跟蹤框架,從3個方面對C-COT進行了優(yōu)化. 首先,ECO通過矩陣分解卷積操作對濾波器進行降維,得到了一組具有顯著能量的緊湊型濾波器. 其次,從圖6給出的C-COT和ECO的訓練樣本可看出,C-COT的訓練集由一系列連續(xù)的樣本組成,這樣既產(chǎn)生了大量的冗余樣本又可能導致對近期樣本的過度擬合,而ECO將樣本劃分為一定數(shù)量具備類內(nèi)相似性和類間差異性的組件,利用混合高斯模型對組件外觀進行表示,在降低樣本數(shù)量的同時提升了樣本的判別能力. 最后,ECO采用稀疏型模型更新策略進一步降低了計算復雜度. 針對ECO不能受益于更好更深的深度特征這一反?,F(xiàn)象,文獻[29]提出了ECO+算法. 在ECO的基礎(chǔ)上,ECO+將特征網(wǎng)絡(luò)換為ResNet-50,采用數(shù)據(jù)增強擴充訓練集,將淺層特征和深度特征分而治之,最終兩部分響應自適應融合得到最優(yōu)結(jié)果. 文獻[59]同樣是從利用相關(guān)濾波器的在線學習效率和CNN特征的判別能力進行結(jié)合的思路出發(fā),在ECO框架的基礎(chǔ)上提出了CFWCR方法. 首先從訓練好的CNN的不同層提取的每個特征進行歸一化,然后對每個特征的加權(quán)卷積響應進行求和,得到最終的響應得分. 文獻[60]對CFWCR的工作進行了進一步的發(fā)展,提出了MFT算法. 針對CNN不同層次的特征和跟蹤中遇到的不同問題之間的關(guān)聯(lián)性,MFT框架為不同的特性配置不同的特征,并且采用獨立求解的方式,根據(jù)視頻的特性自適應調(diào)整融合權(quán)重,得到更加健壯的跟蹤器. 文獻[61]分析了深度特征的空間信息,提出了LSART跟蹤方法. 首先,提出一種KRR模型,證明了該模型可以采用神經(jīng)網(wǎng)絡(luò)的方法進行求解. 然后,提出了一個具有空間正則化核的CNN,每個輸出通道對應的濾波器聚焦于目標的特定區(qū)域,并且通過距離變換池確定卷積層各輸出通道的有效性. 最后,聯(lián)合KRR模型和CNN的輸出,得到最終的響應值.
針對現(xiàn)有的空間正則化方法通過簡單的預定義約束來正則化濾波器,忽略了特征輸入的多樣性和冗余性的缺陷,文獻[62]提出了一種基于構(gòu)建自適應空間特征選擇外觀模型的LADCF跟蹤方法. 該框架利用時間一致性設(shè)計了一個低維判別流形空間,實現(xiàn)了可靠靈活的時間信息壓縮,進而減少了濾波器的退化,保留了圖像的多樣性. 在實驗時,只選擇了5%的手工特征和20%的深度特征,卻獲得了更好的性能,同時解決了邊界效應和背景雜波的問題. 為了更好地利用未標記的數(shù)據(jù)和樣本空間的流形結(jié)構(gòu),文獻[63]提出了一種基于增廣樣本的流形正則化CFT-MRCT,利用矩陣的塊循環(huán)結(jié)構(gòu)從目標區(qū)域和非目標區(qū)域剪裁得到增廣樣本,通過標記和未標記的流形空間結(jié)構(gòu),并且采用半監(jiān)督跟蹤框架提升了跟蹤性能. Mueller等[64]提出了一種基于內(nèi)容注意力機制的相關(guān)濾波跟蹤算法.
與全局外觀模型相比,許多跟蹤器采用局部分塊策略建立外觀模型. 其優(yōu)勢在于當目標發(fā)生部分遮擋時,未被遮擋的部分仍然可以有效地表示目標的外觀模型,利用局部信息實現(xiàn)目標跟蹤,而且分塊模型也是實現(xiàn)尺度自適應的一種有效方式. 其劣勢則體現(xiàn)為模型分塊帶來的計算復雜度問題,但是CFTs的高效性和魯棒性可以彌補這一缺陷,使其應用于分塊模型時具有極大的優(yōu)勢.
文獻[33]提出了一種基于部件的實時跟蹤方法RPAC. 如圖7所示,RPAC將跟蹤目標分解為5個局部目標,為每個部件配置獨立的相關(guān)濾波器進行跟蹤,然后將部件濾波器的置信得分聯(lián)合得到最終的判定值. 為解決部件發(fā)生遮擋權(quán)重值仍較大引發(fā)誤跟蹤的問題,作者綜合考慮峰值旁瓣比值與置信圖平滑約束來判斷部件的遮擋情況,并為每個部件分配權(quán)值,同時采用空間布局約束來抑制組合噪聲的干擾. 文獻[16]提出一種可信塊跟蹤方法,以KCF為基本濾波器,通過跟蹤可信度度量來衡量塊在跟蹤時的可信程度,在序列蒙特卡羅框架下用概率模型估計可信塊的分布,并通過霍夫投票來確定目標的位置. 文獻[65]通過發(fā)掘和利用可信的部件來學習目標模型,使用多方向遞歸神經(jīng)網(wǎng)絡(luò)遍歷候選區(qū)域來捕捉上下文信息. 在跟蹤過程中,利用神經(jīng)網(wǎng)絡(luò)生成置信度地圖,在充分利用可靠部件信息的同時,通過正則化判別相關(guān)濾波來抑制背景噪聲產(chǎn)生的影響. 文獻[66]提出的PKCF算法同樣以KCF為基濾波器訓練每個模板塊,通過粒子濾波框架自適應地設(shè)置每個塊的權(quán)重.
可變形部件在解決非剛性物體的形變和遮擋問題時顯示出了巨大的潛力. 文獻[34]提出的DPCF方法基于可變形部件相關(guān)濾波器進行目標跟蹤,通過一個全局濾波器和多個部件濾波器間的耦合作用協(xié)同處理局部遮擋和尺度變化問題. 首先,通過局部濾波器對應特定的目標部件實現(xiàn)粗略估計,為全局濾波器提供定位依據(jù). 然后,全局濾波器向部件濾波器提供反饋作為更新和相關(guān)形變參數(shù)的決策依據(jù),具體算法框架如圖8所示. 文獻[67]提出的DPT方法也是一種基于相關(guān)濾波器的可變形部件跟蹤方法,將視覺和幾何特征約束為一個凸代價函數(shù),并提出迭代直接法用于高效優(yōu)化. 跟蹤器在2個層次上對目標進行建模,綜合了根相關(guān)濾波器作為粗略表示與中層星型部件模型用于精確定位,同時采取自頂向下定位、自底向上更新的方式實現(xiàn)目標跟蹤. 文獻[68]提出了一個統(tǒng)一的公式學習可變形卷積濾波器DCCO. 在這個框架中,形變?yōu)V波器由子濾波器的線性組合進行表達,聯(lián)合優(yōu)化子濾波器的參數(shù)和它們之間的位置關(guān)系進行模型學習. 文獻[69]使用馬爾可夫隨機模型捕捉塊內(nèi)時空關(guān)系和遮擋先驗知識實現(xiàn)了跟蹤性能的提升,并且使用一個高效密集的置信傳播用于所提馬爾可夫模型的推導.
文獻[70]同樣借鑒全局與局部相結(jié)合的思路,提出了LGCF視覺跟蹤模型. 該模型有效聯(lián)合了局部和全局策略,通過部件和目標之間的運動模型保持其內(nèi)部結(jié)構(gòu),同時加入時間一致性緩解了模型漂移的問題. 文獻[71]提出一種利用部件空間結(jié)構(gòu)的分塊自適應核CFT-SSPA-KCF,該模型同時最小化外觀和形變代價以預測目標的位置. 優(yōu)化過程分為2個部分,首先是采用KCF對部件的外觀進行跟蹤加快計算速度,然后通過結(jié)構(gòu)化學習機制最小化形變代價函數(shù)以減小標簽噪聲,最后結(jié)合最小生成樹和動態(tài)規(guī)劃得到的部件外觀與形變得分確定目標在當前幀的位置.
與目前將目標劃分為固定數(shù)目的部件相比,文獻[72]提出了一種基于動態(tài)可變形部件集合的非剛性目標跟蹤方法. 其中,保留形狀的核相關(guān)濾波器被引入到水平集框架中用于動態(tài)地跟蹤單個目標塊,具備了假設(shè)復雜拓撲結(jié)構(gòu)的能力. 當可變形部件捕獲單個目標子區(qū)域時,使用光度判別和形狀變化去顯示單個目標子區(qū)域的跟蹤性能,動態(tài)選擇具有良好可跟蹤性的子區(qū)域進行似然估計,最終實現(xiàn)目標輪廓的確定.
分塊模型將局部圖像特征與幾何特征進行結(jié)合,是視覺跟蹤的強大范例,具有一定的應對部分遮擋、目標形變和視角變化的能力. 其難點在于如何有效利用每個部件的時空置信圖對全局目標位置進行估計,如何處理部件間的空間位置關(guān)系、全局目標與局部塊間的關(guān)系,以及遮擋、形變情況下部件可信度的計算. 分塊的數(shù)量和空間結(jié)構(gòu)關(guān)系與跟蹤的性能有著緊密聯(lián)系,如何在密集搜索時兼?zhèn)涞陀嬎愠杀臼且粋€極具挑戰(zhàn)的問題.
在最近的研究中,基于Siamese網(wǎng)絡(luò)的視覺跟蹤算法因其高效性吸引了研究者們的注意,并取得了優(yōu)異的成績. 1個Siamese網(wǎng)絡(luò)連接2個輸入生成1個輸出,通過共享卷積層或全連接層實現(xiàn)對2個圖像塊的相似性判別,目的是尋求不同輸入圖像中是否存在相同的目標. 文獻[73]提出的SiameseFC框架通過目標區(qū)域和候選區(qū)域的相似性度量來完成跟蹤任務(wù),如圖9(a)所示,SiameseFC是完全卷積的,輸入為目標z和當前幀中大于目標的預測區(qū)域x,將z和x經(jīng)過φ之后得到的輸出送入相似性度量模塊,最終輸出結(jié)果為一個標量值響應分數(shù)地圖,其尺寸取決于搜索圖像的大小,分值最高的位置即為目標位置. 全卷積網(wǎng)絡(luò)使得待搜索區(qū)域不需要與目標圖像具有相同尺寸,為網(wǎng)絡(luò)提供了更大的搜索區(qū)域,其中φ的體系結(jié)構(gòu)與文獻[74]中的類似,具體參數(shù)如表1所示. 為了應對跟蹤過程中目標的尺度變化,搜索圖像選取了5個尺度,分別是1.025{-2,-1,0,1,2}. 前文中提到的文獻[24-25,27]顯示了將深度特征與CF框架結(jié)合有助于提升跟蹤器的性能,但是上述文獻中的方法只是簡單地利用提前訓練好的深度特征,沒有進行更加深入的整合. 針對這一局限性,并且考慮到SiameseFC全卷積結(jié)構(gòu)缺少同類目標的判別性信息,文獻[26]在SiameseFC的基礎(chǔ)上引入相關(guān)濾波器提出了CFNet算法,將具有封閉解的相關(guān)濾波器視為可微的CNN層,通過反向傳播實現(xiàn)了端到端的學習. 如圖9(b)給出的CFNet框架所示,在特征提取時,上下2個分支網(wǎng)絡(luò)是相同的,差別體現(xiàn)在樣例分支中加入的相關(guān)濾波器. 研究發(fā)現(xiàn),CFNet與SiameseFC相比,在網(wǎng)絡(luò)層數(shù)較深時跟蹤精度方面提升有限,性能并沒有隨著網(wǎng)絡(luò)的加深而提高,甚至出現(xiàn)了降低,但是CFNet在網(wǎng)絡(luò)層數(shù)較淺時可以取得較好的效果,也就是說CFNet能夠得益于輕量級網(wǎng)絡(luò)實現(xiàn)跟蹤效率與準確性的兼顧. 不同于CFNet致力于改進SiameseFC的初衷,文獻[75]同樣提出了一種端到端的輕量級網(wǎng)絡(luò)架構(gòu)DCFNet框架,學習卷積特征并執(zhí)行相關(guān)跟蹤過程. 具體來說,DCFNet使用卷積層在離線訓練過程中編碼先驗信息,然后將DCF視為Siamese網(wǎng)絡(luò)中增加的一個特殊的相關(guān)濾波層,通過它將網(wǎng)絡(luò)輸出定義為目標位置的概率熱圖,完成在線學習與跟蹤. 雖然相關(guān)濾波層需要在線更新,但是因為推導是在傅里葉頻域內(nèi)進行的,所以得以保留了DCF的高效性.
表1 SiameseFC的網(wǎng)絡(luò)參數(shù)
作為匹配類跟蹤算法中的一種代表性方法,孿生網(wǎng)絡(luò)跟蹤模型具有超越實時速度的計算效率,但是匹配類算法本身缺乏在線適應能力,難以捕捉跟蹤過程中目標和背景發(fā)生的變化,很大程度上限制了跟蹤的精確度. 針對這一缺陷,文獻[76]在SiameseFC框架的基礎(chǔ)上增加了目標外觀變換轉(zhuǎn)換層和背景抑制變換層,提出了動態(tài)孿生網(wǎng)絡(luò)Dsiam[77]跟蹤方法. Dsiam算法的主要貢獻為:1) 分別在模板分支和搜索分支引入外觀變換轉(zhuǎn)換層和背景抑制轉(zhuǎn)換層,有效提升了模型的泛化能力. 2) 為了降低在線更新對計算效率產(chǎn)生的負面影響,并且得益于模型的循環(huán)卷積形式,采用FFT對所提更新模型進行快速計算,兼顧了在線適應能力與高效性. 3) Dsiam實現(xiàn)了元素層面的多層特征融合,具備自適應融合不同層深度特征的能力. 文獻[78]從平衡跟蹤速度與精度的角度出發(fā),提出了Early-Stopping跟蹤器. 根據(jù)幀的難易程度自適應選擇學習特征,利用馬爾可夫決策求解跟蹤問題,對易于處理的視頻幀通過相關(guān)濾波結(jié)合人工特征完成,而對于困難幀采用孿生網(wǎng)絡(luò)結(jié)合深度卷積特征完成,并且利用強化學習判斷是否向后續(xù)卷積層繼續(xù),有效避免了需要最后一層做出決策的局限,提升了跟蹤效率. 文獻[79]提出的CREST算法將特征提取、生成響應地圖和模型更新集成到神經(jīng)網(wǎng)絡(luò)中,采用end-to-end的訓練方式,在跟蹤過程中沒有采用循環(huán)移位和離散傅里葉變化,直接進行空間卷積運算,生成密集響應地圖. 如圖10給出的CREST算法框架所示,左邊部分采用孿生網(wǎng)絡(luò)提取特征地圖,右邊部分是在DCF Base mapping的基礎(chǔ)上引入了2個殘差學習:空間殘差和時間殘差. 其中,空間殘差使用3層網(wǎng)絡(luò),輸入為當前幀的特征地圖,當目標受到如遮擋、光照變化等外部干擾因素的影響造成DCF無法回歸到真值時,空間殘差被用于進行響應修正. 時間殘差的輸入則是初始幀的特征地圖,其作用是在空間殘差與DCF均無法回歸到真值時,對響應地圖進行修正. 由此可見,殘差學習的引入提高了外觀發(fā)生劇烈變化時目標響應的魯棒性.
結(jié)合深度卷積特征的相關(guān)濾波器在最近跟蹤測試中取得了良好的成績,但是目前大部分的跟蹤器只考慮外觀特征,而忽略了視頻幀之間的運動信息. 針對這一問題,文獻[80]提出了光流跟蹤器FlowTrack. 與之前利用預先計算好光流信息用于跟蹤不同,作者將特征提取、warp操作、特征融合、相關(guān)濾波器等模塊集于一個網(wǎng)絡(luò)并進行end-to-end訓練. 具體來說,網(wǎng)絡(luò)采用Siamese框架,分為歷史分支和當前分支,在歷史分支中進行光流的提取和warp,在當前分支只進行特征的提取. 在融合階段,設(shè)計了一種時空注意力機制,在空間位置和時間維度上分別配置權(quán)重,并且采用類似SENet的方式度量權(quán)重. 完成特征融合之后,將歷史分支和當前分支的輸出一起送入CF層進行訓練,得到最終的跟蹤結(jié)果.
離線學習的本質(zhì)使得Siamese網(wǎng)絡(luò)無法真正意義上抑制背景中出現(xiàn)的干擾樣本,也就是說很難正確區(qū)分2個外觀類似的人或者車,導致跟蹤發(fā)生漂移. 而相關(guān)濾波算法是在線學習的方法,可以通過分析上下文之間的關(guān)系進行調(diào)整,提升算法的性能. 因此,如何將在線學習與離線訓練有效結(jié)合,是需要重點考慮的一個問題.
本節(jié)給出第3節(jié)研究現(xiàn)狀分析中討論的4種不同類別且具有代表性的一些相關(guān)濾波類跟蹤算法在OTB2013[81]、 OTB100[82]和VOT2017[83]基準數(shù)據(jù)集上的性能對比與分析,3個基準數(shù)據(jù)集的詳細信息如表2所示.
表2 基準數(shù)據(jù)集的詳細信息
4.1.1 OTB2013和OTB100數(shù)據(jù)集
OTB2013基準數(shù)據(jù)集由50段帶有標記屬性的視頻序列組成,標記屬性代表了現(xiàn)實場景中執(zhí)行跟蹤任務(wù)時會遇到的跟蹤難題,分別是光照變化(illumination variation,IV)、尺度變化(scale variation,SV)、遮擋(occlusion,OCC)、形變(deformation,DEF)、運動模糊(motion blur,MB)、快速運動(fast motion,FM)、平面內(nèi)旋轉(zhuǎn)(in-plane rotation,IPR)、平面外旋轉(zhuǎn)(out-of-plane rotation,OPR)、移出視野范圍(out-of-view,OV)、低分辨率(low resolution,LR)和背景雜亂(background clutters,BC). 文獻[82]在OTB2013的基礎(chǔ)上對數(shù)據(jù)集進行了擴展,將50段視頻序列增加到了100段. OTB2013基準數(shù)據(jù)集的視頻序列顯示如圖11所示,視頻序列的屬性標記情況如表3所示.
4.1.2 OTB評價指標
為了評價跟蹤器的性能,文獻[81]采用2種方式對其進行度量. 一種是精確度(precision rate),中心位置誤差(center location error,CLE)是一種衡量跟蹤精度的評價指標,定義為被跟蹤目標中心位置與地面真值之間的平均歐式距離. 另一種是成功率(success rate),若跟蹤邊界框與地面真值框之間的重疊率超過設(shè)定的閾值,則視為跟蹤成功. 成功率表示跟蹤成功的幀數(shù)所占的比例,重疊率計算公式為
(9)
式中:rt為跟蹤框;ra為真值框;∩為兩者重疊的區(qū)域;∪為兩者的覆蓋區(qū)域. 除此之外,用精確度圖(precision plot)和成功率圖(success plot)評估跟蹤器的性能. 精確度圖顯示了閾值在一定范圍內(nèi)的平均精度,本節(jié)中閾值取20. 成功率圖表示閾值在一定范圍內(nèi)的重疊率精度,由曲線下的面積評估跟蹤器性能. 一般評估算法的方法是從第1幀的真值位置初始化跟蹤器,在整個測試序列中運行,得到平均精度和成功率,并定義為一次評估值(one-pass evaluation,OPE). 然而,跟蹤器對初始化的敏感性導致不同的初始化導致性能間的巨大差異,因此使用2種方法來分析跟蹤器對初始化的魯棒性,即對初始化分別進行時間和空間擾動,稱為時間魯棒性評價(temporal robustness evaluation,TRE)和空間魯棒性評價(spatial robustness evaluation,SRE).
表3 OTB2013視頻序列的標記屬性
4.1.3 跟蹤算法對比
為了全面而清晰地評估CFTs的性能,本節(jié)對32種具有代表性的CFTs在OTB2013和OTB100基準數(shù)據(jù)集上的測試結(jié)果進行了比較. 根據(jù)第3節(jié)所提分類方式將32種CFTs歸為4類. 屬于基本CFTs的有15種,包括KCF[12]、KCF+MT[30]、DSST[17]、FDSST[18]、SAMF[20]、Staple[23]、Staple-CA[64]、KCFDPT[40]、LMCF[19]、 SCT[84]、LCT[42]、SCF[48]、 HDT[38]、 MCPF[49]和MUSTer[44];屬于正則化CFTs的有10種,包括SRDCF[51]、 Deep-SRDCF[25]、 SRDCF-decon[54]、 C-COT[27]、 ECO[28]、BACF[85]、CSR-DCF[52]、MRCT[63]、SWCF[86]和ACFN[87];屬于Siamese類CFTs的有5種,包括SiamFC[73]、CFNet-conv1[26]、CFNet-conv2[26]、CREST[79]和DCFNet[75];屬于部件類CFTs的有2種,包括DPCF[34]和RPT[16]. 上述方法的基本原理與跟蹤框架已在第3章研究現(xiàn)狀分析部分進行了分析,并且表4給出其中20種開源算法的資源鏈接.
之所以選擇這32種CFTs進行對比,有以下4點原因: 1) 將本節(jié)與第3節(jié)研究現(xiàn)狀分析部分進行前后呼應,所選取的32種CFTs的設(shè)計思路與算法框架在第3節(jié)給出了介紹,通過理論知識與實驗結(jié)果的結(jié)合加深對算法的理解;2) 所選32種算法涵蓋了基本類、正則化類、部件類和Siamese網(wǎng)絡(luò)類CFTs,可以更加全面地了解CFTs的整體性能水平;3) 32種CFTs中有15種屬于基本類,并且涵蓋了對KCF多個角度的改進,如特征表示、尺度變化的處理、核函數(shù)、長期跟蹤、響應分布以及算法集成等;4) 同類算法之間具有較強的關(guān)聯(lián)性,例如正則類中的Deep-SRDCF、SRDCF-decon和C-COT都是在SRDCF基礎(chǔ)上的改進算法,Siamese類中的CFNet和DCFNet都是在SiameseFC基礎(chǔ)上提出的改進方案,通過對比這些具有一定關(guān)聯(lián)性的算法有利于更深入地了解相關(guān)領(lǐng)域研究的發(fā)展現(xiàn)狀及有價值的研究方向. 表5是對32種CFTs在2個基準數(shù)據(jù)集上的2個性能指標的統(tǒng)計結(jié)果,圖12顯示了它們在OTB2013和OTB100數(shù)據(jù)集上的成功率、精確率值及幀率. 根據(jù)給出的測試結(jié)果,對這些算法從特征的角度、模型和框架的角度、跟蹤挑戰(zhàn)的角度以及實時性的角度分別進行對比分析.
表4 20種CFTs的資源鏈接
從特征的角度進行分析,因為相關(guān)濾波類跟蹤屬于判別式跟蹤方法,即將跟蹤問題轉(zhuǎn)換為檢測問題,所以好的特征是此類跟蹤的關(guān)鍵因素. 從表5給出的成功率和精確率結(jié)果以及表6給出的特征信息可以看出,HOG和CN特征在視覺跟蹤領(lǐng)域體現(xiàn)出了優(yōu)異的性能,一系列基于HOG特征、CN特征或者是兩者融合的算法相繼提出,如RPT、DSST、FDSST、SAMF、KCFDPT、SRDCF等. DeepSRDCF在SRDCF的基礎(chǔ)上,將深度卷積特征引入SRDCF中,探索了不同conv特征的性能差異,結(jié)果顯示采用第1層conv的效果最好,在2個數(shù)據(jù)集上將成功率和精確率分別提升了1.5%、3.7%和1.1%、6.2%. CFNet同樣對比了分別使用conv1、conv2和conv5時的性能差異,結(jié)果顯示采用conv2的性能最優(yōu). 之后提出的許多方法以不同的方式結(jié)合深度特征構(gòu)造跟蹤框架,體現(xiàn)出了良好的性能,但是它們獨立學習各層的CFT而忽視了層與層之間的關(guān)聯(lián)性,使得此類方法存在一定的局限. CF2和HDT從不同層特征優(yōu)勢互補的角度出發(fā),在不影響實時性的同時提升了跟蹤性能,MCPF在其基礎(chǔ)上進一步利用不同層之間的依賴關(guān)系訓練濾波器,進一步提升了跟蹤精度. C-COT使用VGG-Net提取深度特征,將原始的彩色圖像和2個卷積層的輸出作為特征,與CFNet等同類算法相比精確度有了顯著提升,但是復雜的特征嚴重降低了計算效率,難以達到實時性的要求. ECO在C-COT基礎(chǔ)上通過因式分解操作,將HOG、CN和CNN的特征維度進行降維,其中HOG壓縮到10,CN壓縮到3,CNN的第1、5卷積層分別壓縮到16和64,減少了訓練參數(shù),進而有效降低了計算復雜度,使得幀率提高了大約8倍.
表5 32種CFTs在OTB2013和OTB100上的性能對比結(jié)果
表6 CFTs的詳細信息
根據(jù)表5的對比結(jié)果結(jié)合表6的跟蹤器詳細信息對32種CFTs從模型和框架的角度進行分析,DSST在KCF基礎(chǔ)上從解決尺度問題的角度出發(fā),擴展了跟蹤框架,增加了一個獨立的尺度濾波器,與KCF相比,準確率有了一定的提高. 之后提出的加速版FDSST采用降維操作和QR分解降低了計算量,幀率與DSST相比提高了1倍多,同時在OTB2013上的成功率也提升了近3%. SAMF與DSST算法類似,同樣采用了尺度窮舉的思路,但是尺度因子的變化范圍較小,不能較好地處理尺度變化較大的情況. 與尺度池方法不同,DPCF基于可變形分塊實現(xiàn)了對濾波器大小的自適應調(diào)節(jié),在OTB2013和OTB100上的成功率和精確率與SAMF相比分別提升了2.6%、4.4%和2.4%、2.4%. 針對判別相關(guān)濾波器采用周期假設(shè)導致不必要的邊界效應這一問題,SRDCF引入空間正則化弱化背景信息的干擾,顯著提升了性能. SRDCF-decon在SRDCF的基礎(chǔ)上從提升樣本質(zhì)量的角度出發(fā),在OTB2013上的成功率提升了3.3%. CSR-DCF利用空間置信圖使濾波器參數(shù)同樣是集中在置信分高的地方,和SRDCF一樣抑制背景信息的干擾,但是采取的方式不同,性能差距也較大. BACF同樣對邊界效應進行了處理,提出了擴大所搜區(qū)域采用真實負樣本的思路,取得了比SRDCF-decon更加優(yōu)異的成績. BACF的成績很大程度上說明了樣本質(zhì)量對跟蹤器性能有很大的影響. 不同類跟蹤算法根據(jù)被跟蹤目標和任務(wù)的不同設(shè)計算法框架,均具有自身的優(yōu)勢及劣勢,所以將相關(guān)濾波器與其他算法集合去實現(xiàn)優(yōu)勢互補也是一種提升跟蹤性能的思路. LMCF通過集成CF與結(jié)構(gòu)化SVM,與KCF相比,性能得到了顯著提升. MCPF跟蹤框架將MCF與粒子濾波器進行了結(jié)合,采用粒子抽樣策略有效處理了尺度變化問題,并引導抽樣粒子向目標狀態(tài)分布的模式方向運動提升了跟蹤性能. 近期一些將Siamese網(wǎng)絡(luò)與相關(guān)濾波結(jié)合的算法也被用于處理跟蹤問題,如SiamFC、CFNet和DCFNet等,圖12給出的幀率說明了使用輕量級網(wǎng)絡(luò)能夠?qū)崿F(xiàn)跟蹤速度方面的提升.
從跟蹤挑戰(zhàn)的角度進行分析,大多數(shù)跟蹤器并不能在所有的跟蹤挑戰(zhàn)中都表現(xiàn)出良好的性能. OTB數(shù)據(jù)集將跟蹤挑戰(zhàn)的屬性歸納為分為IV、SV、OCC、DEF、MB、FM、IPR、OPR、OV、LR和BC,屬性的具體介紹已在4.1.1小節(jié)給出. 表7、8分別給出了10種采用手工特征的CFTs和10種采用深度特征的CFTs在OTB100基準數(shù)據(jù)集不同挑戰(zhàn)屬性下得到的Success Rate,排名第一的結(jié)果用粗體表示,排名第二的結(jié)果用斜體表示,排名第三的結(jié)果用下劃線表示. 在快速運動和運動模糊挑戰(zhàn)中,目標的外觀因目標自身或者是相機的運動而模糊. 手工特征CFTs中ECO-HC和SRDCF-decon表現(xiàn)最好,這是因為SRDCF-decon通過擴大搜索空間的方式解決了快速運動序列中目標位置發(fā)生較大變化的難題,而ECO-HC采用亞像素級的多分辨率特征有效提升了跟蹤精度. 在深度特征CFTs中ECO和C-COT表現(xiàn)最好. 在尺度變化和遮擋挑戰(zhàn)中,跟蹤器在目標觀測時通常會將干擾背景作為目標信息而導致跟蹤漂移的發(fā)生. 在手工特征CFTs中,SRDCF、CSRDCF和ECO-HC表現(xiàn)最好,而深度特征CFTs中ECO、C-COT和MCPF表現(xiàn)最好. 綜合性能最好的ECO通過混合高斯模型對訓練樣本進行分組,不僅避免了近期錯誤樣本產(chǎn)生的過擬合問題,而且提升了樣本的多樣性與判別能力,因此表現(xiàn)出了優(yōu)異的性能. 從表3給出的OTB視頻序列的標記屬性可以看出,在許多測試序列中,光照變化和低分辨率是同時存在的,為準確跟蹤帶來了很大的難題. 為了解決光照問題,跟蹤器需要提升對目標模型和背景模型的判別能力,而在低分辨率圖像中,外觀表示也起到了重要作用. 因此,這2個挑戰(zhàn)可以通過表征能力強的特征解決. 在手工特征CFTs中,ECO-HC和SRDCF-decon表現(xiàn)最好,在深度特征CFTs中,ECO和CF-Net在精度方面表現(xiàn)最好,并且深度特征與手工特征相比具有更強的表征能力. 移出視野范圍對于大多數(shù)跟蹤器而言是最為嚴峻的挑戰(zhàn)之一,通過保持有用的目標樣本在跟蹤失敗后啟動重檢測模塊是解決OV問題的途徑. 手工特征CFTs中,CSRDCF和SRDCF具有較高的跟蹤精度,而采用深度特征的ECO和C-COT得益于學習多分辨率特征有效應對了OV挑戰(zhàn). 由于判別型跟蹤方法在線學習正負樣本,背景雜亂會對跟蹤器的訓練造成干擾,因此背景雜亂也是難以處理的跟蹤挑戰(zhàn)之一,ECO和ECO-HC表現(xiàn)出了優(yōu)異的性能. 因為ECO采用多分辨率卷積特征提升了外觀表示,利用高斯混合模型對樣本集進行分組提升了樣本質(zhì)量,稀疏型模型更新方式提升了跟蹤效率,所以在絕大多數(shù)跟蹤挑戰(zhàn)中取得了最為優(yōu)異的性能. 通過上述分析可以看出,4種類別的CFTs相比,每個挑戰(zhàn)屬性下表現(xiàn)最為良好的都是正則類CFTs.
表7 手工特征CFTs在OTB100不同屬性測試序列中的成功率
表8 深度特征CFTs在OTB100不同屬性測試序列中的成功率
從實時性的角度進行分析,通常情況下認為跟蹤算法的幀率達到25幀/s視為滿足實時處理的需求. 從表5給出的實時性指標可以看出所對比的32種CFTs中,有12種可以實現(xiàn)實時跟蹤. 最初提出的MOSSE、CSK、CN等算法的幀率均超過了100幀/s,之后提出的相關(guān)濾波類跟蹤器從不同的優(yōu)化角度出發(fā)有效提升了整體性能,但是越來越復雜的框架難免在一定程度上影響運算效率,即便如此,大部分的CFTs仍能滿足或接近滿足實時性的需求.
4.2.1 VOT2017基準數(shù)據(jù)集
VOT2017[88]基準數(shù)據(jù)集由60段帶有5種標記屬性的視頻序列組成,這5種屬性分別是相機移動、光照變化、尺度變化、動作變化和遮擋. VOT2017將VOT2016中已經(jīng)被大多數(shù)算法準確跟蹤的10個序列進行了替換,并且保持了序列的分布屬性. VOT數(shù)據(jù)集對于極小目標跟蹤是非常重要的一個基準數(shù)據(jù)集,同時VOT2017對所有序列的真值進行了重新標定,精確到像素級別,然后重新擬合矩形框,給出了更為準確的標注信息.
4.2.2 VOT2017評價指標
VOT2017使用平均重疊期望(expected average overlap,EAO)、Accuracy和Robustness這3個性能指標對算法進行評估. Accuracy指的是跟蹤器在單個測試序列下真值與預測包圍框之間平均重疊率,重疊率的定義已在4.1.2小節(jié)給出. Robustness指的是跟蹤器在單個測試序列中失敗的次數(shù),當重疊率為0時即判定為跟蹤失敗,在失敗并丟棄5幀之后進行重新初始化. EAO是對每個跟蹤器在一段序列上非重置重疊的期望值.
4.2.3 跟蹤結(jié)果對比
為了進一步分析CFTs的性能,本小節(jié)對10種具有代表性的CFTs在VOT2017基準數(shù)據(jù)集上進行了比較. 10種CFTs中包含5種使用深度特征的方法,分別為CF2、ECO、C-COT、SiameseFC和MCPF. 另外5種使用人工特征的方法,為CSRDCF、SRDCF、STAPLE、DSST和KCF. 其中CSRDCF、SRDCF、C-COT和ECO屬于正則類,STAPLE、DSST、CF2和MCPF屬于基本類,SiameseFC屬于孿生網(wǎng)絡(luò)類. 表9是這10種CFTs在VOT2017基準數(shù)據(jù)集上對3個性能指標的評估結(jié)果,得分最優(yōu)的用粗體表示.
從表9給出的實驗結(jié)果可以看出,在Baseline測試中,手工特征跟蹤器中CSRDCF獲得EAO和R的最優(yōu)值分別為0.256和0.356,STAPLE獲得A的最優(yōu)值為0.530. 深度特征跟蹤器中CF2獲得為EAO的最高得分為0.286,MCPF獲得A的最高得分為0.510,ECO獲得R的最高得分為0.276. 在Realtime測試中,手工特征跟蹤器中的STAPLE在各項指標中表現(xiàn)都是最好,深度特征跟蹤器則由SiameseFC獲得了各項指標的最高得分.
表9 HC特征和深度特征跟蹤器在VOT2017基線和實時測試中的A、R和EAO對比結(jié)果
本文針對相關(guān)濾波類目標跟蹤方法應用于實際場景時面臨的主要難題,以及目前該領(lǐng)域的研究現(xiàn)狀展開討論與分析,并將32種代表性相關(guān)濾波類跟蹤器在OTB-2013、OTB100和VOT2017基準數(shù)據(jù)集上進行了評估,表明了相關(guān)濾波類跟蹤器在性能方面的優(yōu)越性. 雖然相關(guān)濾波類跟蹤方法與其他方法相比具有一定的優(yōu)勢,但是在應用于實際場景時,準確性和魯棒性仍然難以滿足跟蹤任務(wù)的需要. 因此,目標跟蹤領(lǐng)域以及相關(guān)濾波類跟蹤仍然存在進一步深入研究與提升的空間.
結(jié)合文章的研究現(xiàn)狀分析和實驗部分的對比結(jié)果,并且考慮目前機器視覺領(lǐng)域的研究熱點,目標跟蹤的進一步研究可以從以下幾個方面考慮:
1) 如何平衡跟蹤性能與實時性之間的關(guān)系. 復雜特征以及算法框架在提升跟蹤精度的同時將不可避免地影響其實時性,所以做到兩者兼顧才能實現(xiàn)高效穩(wěn)健的跟蹤.
2) 對于視覺跟蹤任務(wù),特征的優(yōu)劣是影響跟蹤性能的關(guān)鍵因素. 在處理跟蹤問題時,卷積特征與人工特征相比具有一定的優(yōu)勢,但是選取預先訓練好的卷積特征還是跟蹤專用的特征,以及何種網(wǎng)絡(luò)訓練得到的特征更利于跟蹤仍是目前需要進一步研究探討的課題.
3) 目前大部分單目標跟蹤算法的研究對象都是短時目標跟蹤任務(wù),雖然已有少數(shù)研究者對長時跟蹤進行了研究,但其本質(zhì)依然是在短時跟蹤框架中引入重檢測模塊或其他校正模塊來實現(xiàn),缺乏具有針對性的長時跟蹤框架,這是值得進一步深入研究的問題.
4) 相關(guān)濾波類跟蹤算法屬于一種tracking-by-detection框架,在線更新的學習方式和有限的訓練樣本可能導致過擬合問題,造成跟蹤失敗. 而生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)具有生成逼近真實圖像的能力,在相關(guān)濾波跟蹤框架中加入GAN用于生成訓練樣本是未來研究的一個重要方向.
5) 定制網(wǎng)絡(luò)架構(gòu). 探索更加適用于跟蹤框架學習的網(wǎng)絡(luò)架構(gòu),而不僅僅是通過遷移學習的方式進行網(wǎng)絡(luò)微調(diào),這同樣是未來跟蹤任務(wù)一個有前途的研究方向.