視頻運動目標(biāo)跟蹤算法研究綜述

2019-08-15 01:28單明媚王華通鄭浩嵐林彬

物聯(lián)網(wǎng)技術(shù) 2019年7期

單明媚王華通鄭浩嵐林彬

摘要：視頻運動目標(biāo)跟蹤是計算機視覺領(lǐng)域的研究熱點，具有廣闊的應(yīng)用前景。近年來，深度學(xué)習(xí)等技術(shù)的引入使得目標(biāo)跟蹤算法的準(zhǔn)確性得到極大提升，但是當(dāng)目標(biāo)發(fā)生形變、尺度變化、被遮擋等情況時，容易導(dǎo)致跟蹤失敗。為了進一步改進運動目標(biāo)跟蹤算法，文中系統(tǒng)地梳理了現(xiàn)有的運動目標(biāo)跟蹤算法，將其劃分為經(jīng)典的跟蹤算法、基于相關(guān)濾波的跟蹤算法和基于深度學(xué)習(xí)的算法，分別從算法的基本原理、算法性能等方面進行詳細的闡述，并對未來的發(fā)展趨勢進行了展望。

關(guān)鍵詞：計算機視覺;目標(biāo)跟蹤;最小均方誤差濾波器;深度學(xué)習(xí);均值漂移;卡爾曼濾波

中圖分類號：TP391;TN911-34文獻標(biāo)識碼：A文章編號：2095-1302（2019）07-00-03

0 引言

視頻運動目標(biāo)跟蹤作為當(dāng)前計算機領(lǐng)域最為熱門的技術(shù)之一，對視頻中目標(biāo)行為能夠進行準(zhǔn)確地追蹤定位，而且隨著算法的不斷更新，目標(biāo)跟蹤理論也越來越完善，應(yīng)用的領(lǐng)域涉及智能視頻監(jiān)控、無人機偵察、智能駕駛等。簡單來說，目標(biāo)跟蹤就是在第一幀時給出目標(biāo)的初始位置，利用跟蹤算法計算出后續(xù)每幀圖像中目標(biāo)的位置信息。理論上來說，目標(biāo)跟蹤能夠進行實時的跟蹤，但是在實際應(yīng)用中，由于光照、遮擋、尺度變化等因素，很容易導(dǎo)致目標(biāo)丟失。

通常，從構(gòu)建目標(biāo)模型的角度可將目標(biāo)跟蹤算法分為生成式方法和判別式方法。

生成式方法對目標(biāo)進行特征提取以及模型構(gòu)建，在下一幀中找到與模型相似的區(qū)域即為目標(biāo)的預(yù)測區(qū)域。

判別式方法將跟蹤問題歸結(jié)于二分類問題，主要研究如何將目標(biāo)和背景區(qū)分出來。

比較兩種方法，判別式方法更能適應(yīng)背景變化等復(fù)雜問題。判別式方法近年來不斷被改進，在技術(shù)方面有了極大的突破，研究人員不斷地從特征、尺度等方面改進算法，使得目標(biāo)跟蹤更加適應(yīng)復(fù)雜多變的環(huán)境。

本文將從3個方面介紹目標(biāo)跟蹤的發(fā)展歷程，分別為經(jīng)典的目標(biāo)跟蹤算法、基于相關(guān)濾波的跟蹤算法、基于深度學(xué)習(xí)的算法，最后對跟蹤領(lǐng)域的發(fā)展趨勢進行展望。

1 經(jīng)典的目標(biāo)跟蹤算法

經(jīng)典的目標(biāo)跟蹤算法主要包括均值漂移算法[1]、卡爾曼濾波算法[2]和粒子濾波算法[3]。基于均值漂移的跟蹤算法簡單有效，對旋轉(zhuǎn)等問題有較好的魯棒性。均值漂移算法在目標(biāo)被遮擋時，對中心位置進行分塊加權(quán)處理，有效地屏蔽了錯誤位置信息對跟蹤結(jié)果的影響。均值漂移算法引入高斯核函數(shù)讓低維不可分?jǐn)?shù)據(jù)變成高維可分?jǐn)?shù)據(jù)，簡化了計算，但是針對尺度變化等問題不能得到較好的跟蹤結(jié)果。

在基于概率推導(dǎo)的目標(biāo)跟蹤算法中，粒子濾波和卡爾曼濾波有效地解決了遞歸貝葉斯濾波概率在實際應(yīng)用中很難獲得最優(yōu)解的問題。當(dāng)貝葉斯濾波中存在線性時變函數(shù)，噪聲為高斯形式時，卡爾曼濾波對數(shù)據(jù)進行最優(yōu)化處理，得到目標(biāo)最優(yōu)狀態(tài)估計;當(dāng)噪聲不符合高斯分布時，粒子濾波采用序列蒙特卡羅的濾波方法得到目標(biāo)最優(yōu)位置分析。卡爾曼濾波和粒子濾波這兩種經(jīng)典的運動模型能夠準(zhǔn)確地計算出視頻中目標(biāo)的預(yù)測區(qū)域，提高了目標(biāo)跟蹤的準(zhǔn)確率。

2 基于相關(guān)濾波的跟蹤算法

相關(guān)濾波跟蹤算法實質(zhì)上是根據(jù)第一幀目標(biāo)樣本訓(xùn)練濾波器，利用濾波器搜索目標(biāo)所在的區(qū)域，根據(jù)響應(yīng)值判斷目標(biāo)位置，并且在跟蹤過程中不斷更新濾波器。相比于傳統(tǒng)的跟蹤算法，基于相關(guān)濾波的跟蹤算法利用快速傅里葉變換將濾波過程從時域轉(zhuǎn)到頻域進行計算，極大地提高了跟蹤速度。

首次提出用于跟蹤算法的相關(guān)濾波器是由Bolme等提出的最小均方誤差濾波器（Minimum Output Sum of Squared Error，MOSSE）。MOSSE算法提取灰度特征[4]時，采用一種自適應(yīng)訓(xùn)練策略，以最大響應(yīng)值作為目標(biāo)中心。后續(xù)的相關(guān)濾波跟蹤算法在MOSSE算法的基礎(chǔ)上從特征表達、尺度自適應(yīng)、解決邊界效應(yīng)問題等方面進行一系列的改進。

2.1 特征改進

Henriques等提出核相關(guān)濾波算法（Kernel Correlation Filter，KCF）。KCF將MOSSE中單通道的灰度特征拓展到了31維的方向梯度直方圖（Histogram of Oriented Gradient，HOG）特征，提高了相關(guān)濾波跟蹤算法的魯棒性[5]。KCF算法引入核函數(shù)，利用循環(huán)矩陣特有的傅里葉空間對角化性質(zhì)來簡化計算，從而提升了算法的執(zhí)行效率。顏色命名（Color Name，CN）算法是由Danelljan等提出，算法主要特點有：將RGB顏色空間轉(zhuǎn)換成CN顏色空間，降低光照、遮擋對顏色失真的影響程度[6];引入貝葉斯公式，區(qū)分前景與背景，大大降低了背景的干擾程度。Zhu等提出利用不同顏色的空間梯度來描述目標(biāo)，將RGB圖像轉(zhuǎn)變?yōu)轭伾臻g，隨后收集各通道的HOG特征，豐富了算法對目標(biāo)的特征表達能力[7]。在特征融合方面，Bertinetto 等提出在響應(yīng)階段把HOG特征和簡單顏色直方圖兩種特征結(jié)合在一起，將濾波響應(yīng)圖和概率圖以一定的比例結(jié)合在一起，根據(jù)得分圖來定位目標(biāo)，兩種特征的結(jié)合使得該方法對光照、形變、運動模糊都具有很好的魯棒性[8]。

2.2 尺度自適應(yīng)算法

為了解決尺度變化問題，Danelljan等提出的判斷尺度空間跟蹤器（Discriminative Scale Space Tracker，DSST）在核相關(guān)濾波算法的基礎(chǔ)上引入了尺度估計[9]。DSST算法除了用于估計目標(biāo)中心的平移濾波器外，還單獨訓(xùn)練了一個一維的尺度濾波器，估計出目標(biāo)在當(dāng)前幀的位置中心后，在當(dāng)前位置處提取多個不同大小的圖像塊，并使用尺度濾波器進行尺度估計，以最大響應(yīng)對應(yīng)的尺度作為最優(yōu)尺度。DSST算法不僅對尺度的處理方式快速有效，而且尺度模塊還可以遷移到任意算法中。

Li等提出一種具有特征集成的尺度自適應(yīng)核相關(guān)濾波跟蹤器[10]，主要的特點有：將單一的特征擴展為多特征，即融合了灰度、CN和HOG特征，算法性能有很明顯的提高;引入尺度池的方法，在比較階段對候選區(qū)域的目標(biāo)分別做7個尺度的估計，與上一幀進行比較，最大響應(yīng)值對應(yīng)的尺度因子作為當(dāng)前幀目標(biāo)的尺度，實現(xiàn)尺度自適應(yīng)。Huang等人提出將目標(biāo)檢測算法和KCF算法結(jié)合在一起的算法[11]。KCF算法負責(zé)目標(biāo)位置的初步估計，使用邊緣框在目標(biāo)附近搜索，進行搜索后會產(chǎn)生候選區(qū)域，對候選區(qū)域進行評估和檢測選取最終目標(biāo)位置。

Li等提出積分邊界和中心相關(guān)濾波器跟蹤算法（Integrating Boundary and Center Correlation Filters，IBCCF），該算法采用二維濾波器和一維邊界濾波器相結(jié)合的框架來解決尺度的問題[12]。主要思路是利用中心和4個邊界的近正交性，將近正交性正則化加入到損失函數(shù)中進行求解。在進行參數(shù)更新時，先利用奇異值分解得到一個參數(shù)的近似解，然后更新其他參數(shù)，最終獲得解決方案。IBCCF算法有效地解決了尺度變化問題，但是計算冗余，極大地影響了跟蹤速度。

2.3 處理邊界效應(yīng)問題

為了解決邊界效應(yīng)問題，較早的解決方法是由Danelljan等提出的空間約束相關(guān)濾波器（Spatially Regularized Correlation Filter，SRDCF）[13]。相比于KCF等算法，SRDCF算法加大了搜索區(qū)域，采用空域正則化對濾波器邊界函數(shù)加大權(quán)重約束，并進行迭代優(yōu)化，分類器能夠更準(zhǔn)確地進行追蹤。Kiani等提出有限邊界的相關(guān)濾波器算法（Correlation Filters with Limited Boundaries，CFLB），該算法采用單通道灰度特征，速度較快，但是算法性能并不理想[14]。在CFLB算法中使用了較大的檢測圖像和作用域較小的濾波器，同時循環(huán)移位樣本左乘掩模矩陣，掩模矩陣是在原循環(huán)移位樣本大圖像塊中裁剪出小圖像塊，使得總體循環(huán)移位樣本減少，真實樣本增多。

除此之外，隨著深度學(xué)習(xí)技術(shù)的興起，研究者們開始將深度特征與相關(guān)濾波算法進行結(jié)合，進一步提高了相關(guān)濾波跟蹤算法的跟蹤性能。

3 基于深度學(xué)習(xí)的跟蹤算法

近年來，深度學(xué)習(xí)應(yīng)用在目標(biāo)跟蹤領(lǐng)域取得了極大的成功。基于深度學(xué)習(xí)的跟蹤算法主要分為兩類：一類是結(jié)合深度特征和相關(guān)濾波設(shè)計跟蹤算法;另一類是基于深度網(wǎng)絡(luò)對目標(biāo)進行端到端的跟蹤。

3.1 深度特征結(jié)合相關(guān)濾波

Ma等提出的HCF算法使用VGGNet-19作為特征提取器，對輸入的圖像提取多層卷積特征分別訓(xùn)練相關(guān)濾波器，在判別階段將經(jīng)過3個相關(guān)濾波得到的響應(yīng)圖進行加權(quán)，得到最終的響應(yīng)圖，并通過最大響應(yīng)定位目標(biāo)中心[15]。VGGNet-19不同層次輸出的特征分別具有不同的特點。HCF針對VGGNet-19的各層特征的特點，由粗粒度到細粒度，最終準(zhǔn)確定位目標(biāo)的中心點，以一種簡潔的方式將卷積特征與相關(guān)濾波有效地結(jié)合了起來。

Danelljian等在SRDCF的基礎(chǔ)上加入深度特征，雖然提高了算法性能，但由于深度特征的提取速度較慢，導(dǎo)致算法的實時性較差[16]。連續(xù)域卷積相關(guān)濾波跟蹤算法（Continuous Convolution Operators for visual Tracking，C-COT）[17]在連續(xù)空間域中學(xué)習(xí)濾波器模型，該算法允許多分辨率特征圖的自然整合，對子像素能夠進行更精確的定位。Danelljan等對C-COT算法進行了改進，提出高效卷積操作（Efficient Convolution Operators，ECO）提高C-COT算法的跟蹤速

度[18]。ECO算法實現(xiàn)了傳統(tǒng)的人工特征和卷積特征的融合，從特征維度、樣本、模板更新等方面去除冗余操作。具體來說，ECO算法采用了間隔多幀進行一次更新的策略，進一步提高了算法的效率;使用主成分分析方法，對所融合的卷積特征、HOG特征及CN特征進行大幅的降維，極大地提高了算法的執(zhí)行效率;采用高斯混合模型既可以保持訓(xùn)練集的有效性，又可以防止訓(xùn)練集的不斷擴大。

3.2 端到端的深度網(wǎng)絡(luò)跟蹤

不同于深度特征結(jié)合相關(guān)濾波的算法，Nam等提出一種新思路，訓(xùn)練了一個多域?qū)W習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)（Multi-Domain Network，MDNet），端到端地解決跟蹤問題[19]。MDNet算法中使用大量跟蹤視頻對網(wǎng)絡(luò)進行預(yù)訓(xùn)練，以獲得通用的目標(biāo)表示。網(wǎng)絡(luò)由共享層和多分支的特定域?qū)咏M成，其中，域?qū)?yīng)于獨立的訓(xùn)練等級，并且每個分支負責(zé)一個二分類去識別每個域中的目標(biāo)，算法針對每個域迭代的訓(xùn)練網(wǎng)絡(luò)來獲得共享層中的通用目標(biāo)表示。當(dāng)跟蹤一個新的視頻序列中的目標(biāo)時，MDNet算法更新特定域?qū)樱Y(jié)合預(yù)訓(xùn)練的共享層組成新的端到端網(wǎng)絡(luò)，回歸目標(biāo)框的位置。與現(xiàn)有跟蹤基準(zhǔn)中的最新方法相比，所提出的算法表現(xiàn)出優(yōu)異的性能。

4 結(jié) 語

視頻運動目標(biāo)跟蹤算法發(fā)展至今，在特征表達、處理尺度變化、解決遮擋問題等方面都取得了長足的進步，顯著提升了算法的跟蹤精度和跟蹤速度。目前，運動目標(biāo)跟蹤算法在目標(biāo)跟蹤領(lǐng)域存在的主要問題：

（1）如何提升深度特征結(jié)合相關(guān)濾波算法的跟蹤速度;

（2）如何訓(xùn)練出更適合于目標(biāo)跟蹤問題的端到端模型。

可以預(yù)見的是，相關(guān)濾波和深度學(xué)習(xí)的結(jié)合仍會是領(lǐng)域內(nèi)的研究熱點，未來如何充分發(fā)揮其各自優(yōu)勢，從而進一步提高跟蹤性能，值得期待。

參考文獻

[1] COMANICIU D，RAMESH V，MEER P. Real-time tracking of non-rigid objects using mean shift [C]// Proceedings IEEE Conference on Computer Vision and Pattern Recognition. Piscataway：IEEE Press，2002：1-8.

[2] COMANICIU D，RAMESH V，MEER P. Kernel-based object tracking [J]. IEEE transactions on pattern analysis and machine intelligence，2003，25（5）：564-577.

[3] LI Y，AI H，YAMASHITA T，et al. Tracking in low frame rate video：a cascade particle filter with discriminative observers of different life spans [J]. IEEE transactions on pattern analysis and machine intelligence，2008，30（10）：1728-1740.

[4] BOLME D S，BEVERIDGE J R，DRAPER B A，et al. Visual object tracking using adaptive correlation filters [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway：IEEE Press，2010：2544-2550.

[5] HENRIQUES J F，RUI C，MARTINS P，et al. High-speed tracking with kernelized correlation filters [J]. IEEE transactions on pattern analysis and machine intelligence，2015，37（3）：583-596.

[6] DANELLJAN M，KHAN F S，F(xiàn)ELSBERG M，et al. Adaptive color attributes for real-time visual tracking [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway：IEEE Press，2014：1090-1097.

[7] ZHU G，WANG J，WU Y，et al. MC-HOG correlation tracking with saliency proposal [C]// Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence. Palo Alto：AAAI Press，2016：3690-3696.

[8] BERTINETTO L，VALMADRE J，GLOLDETZ S，et al. Staple：complementary learners for real-time tracking [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway：IEEE Press，2016：1401-1409.

[9] DANELLJAN M，HAGER G，KHAN F S，et al. Accurate scale estimation for robust visual tracking [C]// Proceedings of the British Machine Vision Conference. Nottingham：BMVC Press，2014：65.1-65.11.

[10] LI Y，ZHU J. A scale adaptive kernel correlation filter tracker with feature integration [J]. IEEE transactions on pattern analysis and machine intelligence，2014：254-265.

[11] HUANG D，LUO L，CHEN Z，et al. Applying detection proposals to visual tracking for scale and aspect ratio adaptability [J]. International journal of computer vision，2017，122（3）：524-541.

[12] LI F，YAO Y，LI P，et al. Integrating boundary and center correlation filters for visual tracking with aspect ratio variation [C]// IEEE International Conference on Computer Vision Workshop. Piscataway：IEEE Computer Society，2017：2001-2009.

[13] DANELLJAN M，HAGER G，KHAN F S，et al. Learning spatially regularized correlation filters for visual tracking [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway：IEEE Press，2015：4310-4318.

[14] KIANI H G，SIM T，LUCEY S. Correlation filters with limited boundaries [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway：IEEE Press，2015：4630-4638.

[15] MA C，HUANG J B，YANG X，et al. Hierarchical convolutional features for visual tracking [C]// Proceedings of the IEEE International Conference on Computer Vision. Piscataway：IEEE Press，2016：3074-3082.

[16] DANELLJAN M，HAGER G，KHAN F S，et al. Convolutional features for correlation filter based visual tracking [C]// Proceedings of the IEEE International Conference on Computer Vision Workshop. Piscataway：IEEE Press，2016：621-629.

[17] DANELLJAN M，ROBINSON A，KHAN F S，et al. Beyond correlation filters：learning continuous convolution operators for visual tracking [C]// Proceedings of the European Conference on Computer Vision. Berlin：Springer Press，2016：472-488.

[18] DANELLJAN M，BHAT G，KHAN F S，et al. ECO：efficient convolution operators for tracking [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Piscataway：IEEE Press，2017：6931-6939.

[19] NAM H，HAN B. Learning multi-domain convolutional neural networks for visual tracking [C]// Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. Piscataway：IEEE Press，2016：4293-4302.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

視頻運動目標(biāo)跟蹤算法研究綜述