賈永超 何小衛(wèi) 鄭忠龍
摘 要:針對基于人工特征的背景感知相關(guān)濾波(CACF)算法在形變、運動模糊、低分辨率情形跟蹤效果較差以及跟蹤器遇到嚴重遮擋等情形容易陷入局部最優(yōu)而導致跟蹤失敗的問題,提出一種融合重檢測機制的卷積回歸網(wǎng)絡(CRN)目標跟蹤算法。在訓練階段,將相關(guān)濾波作為CRN層融入進深度神經(jīng)網(wǎng)絡,使網(wǎng)絡成為一個整體進行端到端訓練;在跟蹤階段,通過殘差連接融合不同網(wǎng)絡層及其響應值,同時引入重檢測機制使算法從潛在的跟蹤失敗中恢復,當響應值低于給定閾值時激活檢測器。在數(shù)據(jù)集OTB-2013上的實驗表明,所提算法在50個視頻序列上精確度達到88.1%,相比原始CACF算法提高9.7個百分點,在具有形變、運動模糊等屬性的視頻序列上相比原始算法表現(xiàn)更優(yōu)秀。
關(guān)鍵詞:目標跟蹤;相關(guān)濾波;卷積回歸網(wǎng)絡;端到端;重檢測
中圖分類號:?TP183; TP391.41
文獻標志碼:A
Object tracking algorithm combining re-detection mechanism and convolutional regression network
JIA Yongchao, HE Xiaowei*, ZHENG Zhonglong
College of Mathematics and Computer Science, Zhejiang Normal University, Jinhua Zhejiang 321004, China
Abstract:?Concerning the problem that Context-Ware Correlation Filter (CACF) algorithm based on artificial features has poor tracking performance under the situations of deformation, motion blur and low resolution and when the tracker encounters conditions like severe occlusion, it is easy to fall into local optimum and cause tracking failure, a new object tracking algorithm combining re-detection mechanism and Convolutional Regression Network (CRN) was proposed. In the training phase, the correlation filter was integrated into the deep neural network as a CRN layer, so that the network became a whole for end-to-end training. In the tracking phase, different network layers and their response values were merged through residual connections. At the same time, a re-detection mechanism was introduced to make the tracking algorithm recover from the potential tracking failure, and the re-detector would be activated when the response value was lower than the given threshold. Experimental results on the dataset OTB-2013 show that the proposed algorithm achieves 88.1% accuracy on 50 video sequences, which is 9.7 percentage points higher than the accuracy of original CACF algorithm, and has better results compared with original algorithm on video sequences with attributes like deformation and motion blur.
Key words:?object tracking; correlation filter; Convolution Regression Network (CRN); end-to-end; re-detection
0 引言
目標跟蹤要解決的問題是在只給定第一幀數(shù)據(jù)情況下在視頻序列中預測目標的大小、位置等參數(shù),目標跟蹤是多個領(lǐng)域中,諸如智能監(jiān)控、人機交互、視頻分析等的核心問題之一[1],存在諸如尺度變化、遮擋、光照變化、形變、快速移動等挑戰(zhàn),因此,設計準確、高效的目標跟蹤算法仍然是一個值得持續(xù)關(guān)注的課題。在過去幾十年來,目標跟蹤的研究取得了長足的發(fā)展,在這期間出現(xiàn)了包括均值漂移(Mean shift)[2-3]、粒子濾波(Particle Filter)[4]和卡爾曼濾波(Kalman Filter)[5]等經(jīng)典的跟蹤算法。近些年來,相關(guān)濾波(Correlation Filter)是比較引人矚目的跟蹤框架[6],其中比較有代表性的自適應相關(guān)濾波目標跟蹤[7]算法是第一次將相關(guān)濾波引入到目標跟蹤領(lǐng)域,以近700幀/s(frames per second, fps)的速度遠遠超過同時期其他優(yōu)秀算法;
2012年,Henriques等[8]提出的核化循環(huán)矩陣目標跟蹤(Circulant Structure of tracking-by-detection with Kernels, CSK)算法通過在頻域上用循環(huán)移位的方法進行稠密采樣,同時利用循環(huán)矩陣可對角化的性質(zhì)保證算法的實時性;
2015年,Henriques等[9]在CSK工作的基礎(chǔ)上進一步提出了高速核化相關(guān)濾波(High-Speed Tracking with Kernelized Correlation Filters, KCF)算法,在保證速度的同時又提高了目標跟蹤的精度;
針對KCF算法只利用有限背景信息這一缺點,Mueller等[10]提出改進算法——背景感知相關(guān)濾波(Context-Aware Correlation Filter, CACF)算法,通過對原始算法增加背景信息塊,增強了濾波器的判別能力,從而進一步提高了算法精確度。
基于相關(guān)濾波的跟蹤算法在取得一系列進展的同時也存在共同的缺點,這些方法所使用的特征大多基于方向梯度直方圖(Histogram of Oriented Gradients, HOG)、顏色特征(color name)等人工特征,導致這些方法在遭遇遮擋、形變、背景駁雜等環(huán)境時容易造成跟蹤失敗;而相比傳統(tǒng)的手工特征,近年來新崛起的深度學習特征具有更加強大的視覺表達能力[11],使得深度神經(jīng)網(wǎng)絡在目標檢測和分類等領(lǐng)域展現(xiàn)出其強大的統(tǒng)治力。在目標跟蹤領(lǐng)域,深度神經(jīng)網(wǎng)絡的應用滯后于其他視覺任務,主要由于目標跟蹤只給定當前跟蹤視頻序列第一幀的限位框(bounding box),因此很難獲取大量的適用于跟蹤的先驗樣本,這導致當前很多采用深度神經(jīng)網(wǎng)絡的目標跟蹤算法[12]直接遷移學習其他任務(比如分類和檢測)訓練的網(wǎng)絡,同時在跟蹤過程中進行在線微調(diào)。Ma等[13]提出的層級特征視覺跟蹤(Hierarchical Convolutional Features for visual tracking, HCF)算法利用卷積網(wǎng)絡不同層特征進行目標跟蹤。熊昌鎮(zhèn)等[14]提出的稀疏卷積策略減少了卷積特征維度,采用間隔更新方法提高跟蹤了速度,但這會損失一部分精確度。Qin等[15]提出的底層深度跟蹤(Hedged Deep Tracking, HDT)算法,通過使用分類任務預訓練VGGNet或ResNet等網(wǎng)絡,在跟蹤過程中通過隨機梯度下降方法(Stochastic Gradient Descent, SGD)進行在線微調(diào)來實現(xiàn)目標跟蹤。由于這些網(wǎng)絡規(guī)模大、參數(shù)多,導致算法運行速度很慢,HCF算法速度僅為2fps。基于以上分析本文提出如下三點改進方案:
1)卷積回歸網(wǎng)絡(Convolution Regression Network, CRN)。將嶺回歸作為卷積網(wǎng)絡中一層進行端到端訓練,網(wǎng)絡專為目標跟蹤任務訓練,獲得的特征表達能力更強。
2)重檢測機制。模型遇到遮擋等情況會導致預測目標位置不準確,當錯誤積累疊加時跟蹤器容易發(fā)生漂移,重檢測機制可以將跟蹤器從潛在的跟蹤失敗中恢復。
3)殘差連接。利用卷積神經(jīng)網(wǎng)絡不同層特征,通過殘差連接可以獲得更魯棒跟蹤結(jié)果。
1 背景感知相關(guān)濾波
相關(guān)濾波算法通過循環(huán)采樣的方法來獲取豐富的訓練樣本,基本方法為通過一個基向量循環(huán)移位來實現(xiàn)循環(huán)密集采樣。將采集到的圖像塊拉伸成一維向量,通過n次相乘形成不同的循環(huán)樣本,將樣本塊組合在一起形成矩陣,稱其為循環(huán)矩陣。根據(jù)文獻[9]循環(huán)矩陣具有如下性質(zhì):
其中:離散傅里葉矩陣 F 是一個常量矩陣,H表示共軛轉(zhuǎn)置。通過式(1)可以簡化線性回歸的解。
通過最小化式(2)來獲取濾波器 w :
對式(2)求導,令對 w 的導數(shù)為零可以得到濾波器的解為: w =( A T0 A 0+λ1 I )-1 A T0 y ,其中T 表示轉(zhuǎn)置。因為 A 0是循環(huán)矩陣,可以用式(1)對角化進行化簡,因此函數(shù)的解在頻域簡化為:
其中:⊙代表哈曼達積,?? 是 w 的傅里葉變換。
為了增強相關(guān)濾波器判別能力,將相關(guān)濾波器結(jié)合全局背景約束,合理地利用背景信息,形成背景感知的相關(guān)濾波算法CACF。算法中的背景感知是通過在目標周圍采樣k個背景圖像塊構(gòu)造新的回歸公式:
其中: X 0是原始樣本塊 x ′0通過循環(huán)移位形成的,新增背景塊 x ′i通過循環(huán)移位形成 X i。
式(4)在傅里葉空間的閉式解為:
在檢測階段,用學習到的濾波器 w 和搜索圖像塊 z 作卷積運算,矩陣 Z 是由圖像塊 z 循環(huán)移位獲得。目標位置就是響應值最大的位置。在頻域上的檢測公式為:
2 融合重檢測機制的卷積回歸網(wǎng)絡
本文算法首先通過將卷積回歸網(wǎng)絡加入常規(guī)網(wǎng)絡層,使其成為一個整體進行端到端的訓練,在訓練過程中進行嶺回歸運算,在反向傳播過程中調(diào)整回歸參數(shù),通過殘差連接不同網(wǎng)絡層及其輸出的響應值,得到最終響應值。同時為解決嚴重遮擋等情況下算法漂移,建立了一個重檢測機制,在跟蹤過程中通過響應值設置一個閾值系統(tǒng),用于監(jiān)督是否進行重檢測,當響應值小于給定閾值時激活重檢測,為避免陷入局部最優(yōu),重檢測模型進行全局檢測,形成最終算法——融合重檢測機制的卷積回歸網(wǎng)絡跟蹤算法(algorithm combining Re-detection mechanism and Convolutional Regression Network, ReCRN)。
2.1 網(wǎng)絡訓練
區(qū)別于傳統(tǒng)的相關(guān)濾波算法,本文算法將嶺回歸作為卷積回歸網(wǎng)絡進行端到端訓練,傳統(tǒng)嶺回歸中的參數(shù)由人工設定,本文通過網(wǎng)絡訓練調(diào)整參數(shù),使其更適合目標跟蹤任務。由于目標周圍包含有用的背景信息,這些信息對于增強回歸網(wǎng)絡判別力十分重要,因此對于輸入的樣本塊包含目標周圍背景。在訓練期間通過解決一個最優(yōu)化問題完成反向傳播,由于卷積回歸層為非常規(guī)設計,因此要求其反向傳播參數(shù)。定義損失函數(shù)如下:
[7]?BOLME D S, BEVERIDGE J R, DRAPER B A, et al. Visual object tracking using adaptive correlation filters [C]// Proceedings of the 2010 Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2010: 2544-2550.
[8]?HENRIQUES J F, RUI C, MARTINS P, et al. Exploiting the circulant structure of tracking-by-detection with kernels [C]// Proceedings of the 2012 European Conference on Computer Vision, LNCS 7575. Berlin: Springer, 2012: 702-715.
[9]?HENRIQUES J F, RUI C, MARTINS P, et al. High-speed tracking with kernelized correlation filters [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583-596.
[10]?MUELLER M, SMITH N, GHANEM B. Context-aware correlation filter tracking [C]// Proceedings of the 2017 Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 1387-1395.
[11]?管皓,薛向陽,安志勇.深度學習在視頻目標跟蹤中的應用進展與展望[J].自動化學報,2016,42(6):834-847. (GUAN H, XUE X Y, AN Z Y. Advances on application of deep learning for video-object tracking [J]. Acta Automatica Sinica, 2016, 42(6): 834-847.)
[12]?王鑫,侯志強,余旺盛,等.基于多層卷積特征融合的目標尺度自適應穩(wěn)健跟蹤[J].光學學報,2017,37(11):232-243. (WANG X, HOU Z Q, YU W S, et al. Target scale adaptive robust tracking based on fusion of multilayer convolutional features [J]. Acta Optica Sinica, 2017, 37(11): 232-243.)
[13]?MA C, HUANG J-B, YANG X K, et al. Hierarchical convolutional features for visual tracking [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2015: 3074-3082.
[14]?熊昌鎮(zhèn),車滿強,王潤玲.基于稀疏卷積特征和相關(guān)濾波的實時視覺跟蹤算法[J].計算機應用,2018,38(8):2175-2179. (XIONG C Z, CHE M Q, WANG R L. Real-time visual tracking algorithm based on correlation filters and sparse convolutional features [J]. Journal of Computer Applications, 2018, 38(8): 2175-2179.)
[15]?QI Y, ZHANG S, QIN L, et al. Hedged deep tracking [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington,DC: IEEE Computer Society, 2016: 4303-4311.
[16]??WU Y, LIM J, YANG M-H. Online object tracking: a benchmark [C]// Proceedings of the 2013 Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2013: 2411-2418.
[17]?BERTINETTO L, VALMADRE J, HENRIQUES J F, et al. Fully-convolutional siamese networks for object tracking [C]//? ECCV 2016:? Proceedings of the 2016 European Conference on Computer Vision, LNCS 9914. Cham: Springer, 2016: 850-865.