孫博 王阿川
摘 要:為了解決核相關(guān)濾波跟蹤算法在復(fù)雜場景下跟蹤效果差的問題,提出了一種融合深度特征和尺度自適應(yīng)的相關(guān)濾波目標跟蹤算法。首先,通過深度殘差網(wǎng)絡(luò)(ResNet)提取圖像中被跟蹤區(qū)域的深度特征,再提取目標區(qū)域方向梯度直方圖(FHOG)特征,通過核相關(guān)濾波器學(xué)習(xí),分別得到多個響應(yīng)圖,并對響應(yīng)圖進行加權(quán)融合,得到跟蹤目標位置。其次,通過方向梯度直方圖(FHOG)特征,訓(xùn)練一個PCA降維的尺度濾波器,實現(xiàn)對目標尺度的估計,使算法對目標尺度發(fā)生變化有很好的自適應(yīng)能力。最后,根據(jù)響應(yīng)圖的峰值波動情況改進模型更新策略,引入重新檢測機制,降低模型發(fā)生漂移概率,提高算法抗遮擋能力,在標準數(shù)據(jù)集OTB100中與其他7種目標跟蹤算法進行比較。結(jié)果表明,相比原始KCF算法,改進后的KCF算法精準度提升了29.4%,成功率提升了25.9%。所提算法實現(xiàn)了對跟蹤目標位置的精準估計,提高了尺度自適應(yīng)能力和算法速度,增強了算法抗遮擋能力。
關(guān)鍵詞:計算機圖像處理;目標跟蹤;核相關(guān)濾波;深度特征;多尺度;抗遮擋
中圖分類號:TP391?? 文獻標識碼:A
doi:10.7535/hbkd.2021yx06006
Scale-adaptive correlation filter tracking algorithm fusing depth features and FHOG features
SUN Bo, WANG Achuan
(College of Information and Computer Engineering,Northeast Forestry University,Harbin,Heilongjiang 150040,China)
Abstract:Aiming at the problem of poor tracking by the kernel-related tracking filter algorithm in complex scenes,proposed a correlation filter target tracking algorithm combining depth features and scale adaptation.Firstly,the deep residual network (ResNet) was used to extract the depth features of the tracked area in the image,and then the target area directional gradient histogram feature (FHOG) was extracted,and multiple response maps were obtained through the kernel correlation filter learning,and were performed weighted fusion to obtain the tracking target position.Secondly,a PCA dimensionality reduction scale filter was trained through the directional gradient histogram (FHOG) feature to realize the estimation of the target scale,so that the algorithm had a good adaptive ability to the change of the target scale.Finally,according to the peak fluctuation of the response graph,the model update strategy was improved and the re-detection mechanism was introduced to reduce the probability of model drift and improve the anti-occlusion ability of the algorithm.Compare with other 7 target tracking algorithms in the standard data set OTB100.The experimental results show that the accuracy of the original KCF algorithm is improved by 29.3%,and the success rate is improved by 25.3%.The proposed algorithm achieves accurate estimation of tracking target position,improves the scale adaptive ability and the speed of the algorithm and enhances the anti-occlusion ability of the algorithm.
Keywords:
computer image processing;target tracking;kernel correlation filtering;depth feature;multi-scale;anti- occlusion
視覺目標跟蹤一直是計算機視覺領(lǐng)域的熱點研究問題,隨著技術(shù)的發(fā)展,目標跟蹤技術(shù)被廣泛應(yīng)用于無人飛行器、智能交通系統(tǒng)、智能監(jiān)控系統(tǒng)、虛擬現(xiàn)實等領(lǐng)域。在跟蹤過程中,目標被遮擋,環(huán)境中的光照條件、目標尺度發(fā)生變化等原因會導(dǎo)致跟蹤效果較差。針對該類問題,眾多學(xué)者對跟蹤算法進行了一些研究。
由HENRIQUES等[1]提出的核相關(guān)濾波跟蹤算法(kernel correlation filter,KCF),通過提取圖像方向梯度直方圖(HOG)特征,利用循環(huán)矩陣在頻域可對角化的特點,使得矩陣運算轉(zhuǎn)化為向量間點乘運算,加快了運算速度,但該方法的不足在于沒有對目標尺度變化進行處理,無法做到尺度自適應(yīng)。自適應(yīng)顏色屬性跟蹤方法(CN)[2],通過將RGB空間的特征轉(zhuǎn)化到11維顏色空間,使算法的輸入特征更加豐富,跟蹤精度得到了提高。判別式尺度空間跟蹤(discriminative scale space tracker, DSST)[3]算法,引入了位置濾波器與尺度濾波器,2個濾波器相互獨立,通過尺度濾波器完成對目標的尺度估計。Staple算法[4],使用HOG特征和COLOR特征2種互補的特征因子對目標進行學(xué)習(xí),彌補了尺度變換和光照對跟蹤效果造成的影響。尺度自適應(yīng)相關(guān)濾波器SAMF算法[5],利用尺度池的方法完成對目標的自適應(yīng)跟蹤。sKCF[6]算法在KCF算法基礎(chǔ)上增加了自適應(yīng)高斯窗口函數(shù)和尺度估計。但上述算法在遇到背景雜亂、目標快速運動、光照變化、被遮擋和尺度變化等問題時,會出現(xiàn)不同程度的跟蹤精度下降,甚至目標丟失的問題。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,圖像深層次的語義信息[7] 得以被挖掘,在目標跟蹤、圖像分割[8]等領(lǐng)域得以應(yīng)用。HCF[9]跟蹤算法在核相關(guān)濾波跟蹤算法的基礎(chǔ)上,選取多層深度特征代替HOG特征,并利用淺層網(wǎng)絡(luò)特征進行跟蹤定位,提高了跟蹤精準度。Siam R-CNN算法[10] 提出了一種新的實例挖掘策略,提高對相似目標的魯棒性 。C-COT[11]算法是對深度學(xué)習(xí)和相關(guān)濾波算法的改進,通過立方插值和Hessian矩陣,解決了算法在連續(xù)空間域訓(xùn)練的問題。
針對上述問題,本文提出一種融合深度特征和FHOG特征的尺度自適應(yīng)相關(guān)濾波跟蹤算法。將深度特征與FHOG特征融入核相關(guān)濾波跟蹤框架,利用尺度濾波器完成對目標尺度的估計,通過PCA降維大幅縮減尺度濾波器的特征維度,減少尺度估計環(huán)節(jié)的耗時;再根據(jù)響應(yīng)圖的峰值波動情況判斷目標是否被遮擋,在目標被遮擋或丟失后利用DPM模型重新檢測目標位置;最后根據(jù)響應(yīng)圖峰值波動情況與最大響應(yīng)值改進模型更新策略。
1 KCF算法
KCF算法的主要流程如下:先利用循環(huán)矩陣對跟蹤區(qū)域進行正負樣本采樣,提取樣本HOG特征,訓(xùn)練濾波模板;再利用多項核函數(shù)計算目標區(qū)域和待選區(qū)域的相似度,得出響應(yīng)圖,響應(yīng)圖中峰值位置即為跟蹤目標位置。
1.1 訓(xùn)練分類器
設(shè)訓(xùn)練樣本為xi,對應(yīng)標簽為yi,線性分類器為f(x)=wTxi,訓(xùn)練分類器的目的是通過樣本xi,找到最佳的濾波模板系數(shù)w,使得f(xi)與標簽yi平方誤差和最小,分類器的損失函數(shù)如式(1)所示:
minw∑i(f(xi)-yi)2+λ‖w‖2,(1)
式中:λ為正則項。
通過引入映射函數(shù)φ(x),將數(shù)據(jù)映射到高維度空間,此時w可表示為φ(xi)的線性組合,如式(2)所示,并且可以使用核函數(shù)進行求解。
w=∑iαiφ(xi)。(2)
對分類器求解,如式(3)所示:
α=(k+λI)-1y,(3)
式中:I為單位矩陣;y為樣本對應(yīng)標簽矩陣;k為核矩陣;α表示系數(shù)。
利用循環(huán)矩陣以及傅里葉逆變換對式(3)在頻域中進行求解,如式(4)所示:
α=F-1F(y)F(k)+λ,(4)
式中:F-1表示傅里葉逆變換。
1.2 位置檢測
在下一幀圖像中,z為跟蹤目標候選窗口區(qū)域圖像樣本,則z的回歸值如式(5)所示:
f(z)=wTz=∑iαiφ(x)Tφ(z)=αTkzx,(5)
式中:kzx是z和x的核相關(guān);αT為α的轉(zhuǎn)置向量;x為訓(xùn)練樣本向量;φ(x)為訓(xùn)練樣本特征向量;φ(z)為候選窗口樣本特征向量。
將式(4)代入式(5),得到分類器的響應(yīng)輸出,如式(6)所示:
f(z)=α⊙kzx=F-1[F(α)⊙F(kzx)],(6)
式中:⊙代表點乘,最大響應(yīng)點為跟蹤目標中心位置。
1.3 更新分類器
由于目標不斷運動會導(dǎo)致外觀模型發(fā)生變化,直接影響跟蹤效果,因而需要不斷更新濾波器與外觀模型:
xi=(1-η)xi-1+ηxi,(7)
αi=(1-η)αi-1+ηαi,(8)
式中:xi為外觀模型;αi為分類器系數(shù);η為學(xué)習(xí)率。
2 融合深度特征與FHOG特征的改進KCF算法
針對復(fù)雜環(huán)境下相關(guān)濾波跟蹤算法的跟蹤精度和魯棒性的問題,采用HOG特征的KCF目標跟蹤算法,由于提取特征單一,可能會導(dǎo)致跟蹤出現(xiàn)漂移,甚至跟蹤失敗的問題。由于FHOG特征對目標運動模糊,光照變化描述較好,深度特征有較好的局部紋理表達能力,包含更多的語義信息,能很好地識別目標形變,所以本文提出將FHOG特征與深度特征進行加權(quán)融合替代原有KCF算法的單一特征,完成對目標的精準定位。在跟蹤過程中目標尺度可能會不斷變化,KCF算法無法對目標做到自適應(yīng)尺度估計,本文通過提取多個尺度樣本,訓(xùn)練尺度濾波器,完成對目標尺度的估計,從而改變目標模型更新機制,提高跟蹤精度。
2.1 特征融合
2.1.1 目標區(qū)域深度特征提取
通過卷積神經(jīng)網(wǎng)絡(luò)提取目標區(qū)域深度特征[12],不同卷積層提取圖像特征不同:高層次的卷積層提取的特征包含更多的語義信息,對跟蹤目標外觀的變化具有較好的魯棒性,但高層次的卷積層空間分辨率低,對目標定位效果較差;淺層次的卷積層提取的特征包含更多目標細節(jié)信息,對目標位置定位效果更好,但無法適應(yīng)目標外觀的多尺度變化。隨著近年來卷積神經(jīng)網(wǎng)絡(luò)的不斷發(fā)展,相繼出現(xiàn)了多個卷積神經(jīng)網(wǎng)絡(luò)模型,包括GooLeNet[13],VGGNet[14],ResNet[15],DenseNet[16]等。由于傳統(tǒng)的CNN網(wǎng)絡(luò)[17]采用的是直接使用有參層學(xué)習(xí)輸入、輸出之間的映射,并且達到一定深度后再增加層數(shù)不但不能使分類性能提升,還會使模型的收斂速度減慢,準確率也會隨之降低。而ResNet網(wǎng)絡(luò)通過多個有參層來學(xué)習(xí)輸入輸出之間的殘差,保證模型的準確率,殘差學(xué)習(xí)單元如圖1所示,其中輸入設(shè)為x,學(xué)習(xí)的特征為H(x),學(xué)習(xí)的殘差為F(x)=H(x)-x,最終的學(xué)習(xí)特征為F(x)+x,當(dāng)模型中的殘差為0時,相當(dāng)于做了恒等映射,網(wǎng)絡(luò)模型不會因為層數(shù)的增加而再出現(xiàn)退化問題,性能不會隨之下降,因此本文采用ResNet網(wǎng)絡(luò)模型對跟蹤目標進行特征提取。
ResNet共有5種不同結(jié)構(gòu),包括ResNet-18,ResNet-34,ResNet-50,ResNet-101,ResNet-152。結(jié)合各個模型的泛化能力以及模型的演算速度等因素,本文選用在ImageNet上訓(xùn)練結(jié)果top1(識別準確率)達到75%的ResNet-50網(wǎng)絡(luò)模型來提取跟蹤目標的深度特征。選取ResNet-50中Conv2-1與Conv4-1兩層特征,其中Conv4-1包含更多語義信息,能夠很好地識別目標的形變,淺層的Conv2-1能夠?qū)Ω櫮繕诉M行精確定位,再將每個卷積層提取的深度特征調(diào)整為固定尺寸。
2.1.2 目標區(qū)域FHOG特征提取
HOG特征提?。菏紫?,將圖像灰度化,利用Gamma校正對圖像進行歸一化,計算圖像每一個像素的梯度;其次,將圖像劃分成若干個cell,計算每個cell的梯度特征;最后,將cells組成block,將block中的cells的梯度特征串聯(lián)得到block的梯度特征,將所有block的梯度特征進行串聯(lián)就是圖像的HOG特征。
FHOG[18]是在HOG特征的基礎(chǔ)上進行了一些改進。首先,對跟蹤目標區(qū)域方向敏感(0~360°)和方向不敏感(0~180°)的像素級特征進行映射;其次,對其進行歸一化與截斷處理,得到27+4=31維特征向量。在31維特征向量中,包含18維對方向敏感的特征,9維對方向不敏感的特征以及4維累加特征。FHOG特征能夠詳細描述目標邊緣信息,并且對局部形狀信息表現(xiàn)效果較好,對于光照強度的變化具有很好的魯棒性。
2.1.3 融合深度特征與FHOG特征
采用ResNet-50中Conv2-1與Conv4-1提取跟蹤目標區(qū)域的深度特征,同時提取目標區(qū)域的FHOG特征。每個特征在頻域中的響應(yīng)計算公式如式(9)—式(11)所示:
fConv2-1(z)=F-1[F(kzxConv2-1)⊙F(αConv2-1)],(9)
fConv4-1(z)=F-1[F(kzxConv4-1)⊙F(αConv4-1)],(10)
fFHOG(z)=F-1[F(kzxFHOG)⊙F(αFHOG)],(11)
式中:fConv2-1(z),fConv4-1(z),fFHOG(z)分別代表待檢測窗口樣本z的Conv2-1特征、Conv4-1特征及FHOG特征對應(yīng)的響應(yīng)圖;α代表每個特征對應(yīng)分類器的解;kzx代表訓(xùn)練樣本對應(yīng)的特征向量x與下一幀候選區(qū)域樣本z的核相關(guān)。
將3個特征響應(yīng)圖譜進行加權(quán)融合,如式(12)所示:
f(z)=λ1fConv2-1(z)+λ2fConv4-1(z)+λ3fFHOG(z)。(12)
式中:λ1,λ2,λ3為特征融合系數(shù),在實驗過程中發(fā)現(xiàn),3個響應(yīng)圖進行融合,采用不同權(quán)重,效果不同,不同權(quán)重下的跟蹤結(jié)果對比如表1所示。通過大量實驗得出改進算法融合權(quán)重λ1=1,λ2=0.5,λ3=0.7。f(z)為最終融合后的響應(yīng)圖,峰值位置即為跟蹤目標中心位置。算法的主要結(jié)構(gòu)如圖2所示。
2.2 目標尺度自適應(yīng)估計
本文所提算法通過訓(xùn)練一個一維相關(guān)濾波器作為尺度濾波器,完成對跟蹤目標的尺度估計。首先,依據(jù)目標中心位置進行采樣,提取S個不同尺度樣本。采用尺度估計的目標樣本尺寸參數(shù)選擇原則,如式(13)所示:
anP×anR, n∈-S-12」…S-12」,(13)
式中:濾波器的總級數(shù)用S來表示,S決定n的取值范圍,本文提取S=33個不同的尺度樣本;P代表前一幀的寬;R代表前一幀的高;」代表向下取整;a為尺度因子,尺度選擇的步長受到尺度因子的影響,本文尺度因子a取值為1.01。 其次,對每個尺度樣本提取FHOG特征,利用特征向量訓(xùn)練尺度濾波器;最后,經(jīng)過濾波器得到的響應(yīng)圖譜中響應(yīng)值最大的點為目標最佳尺度。尺度濾波器的模板為M,N,如式(14)和式(15)所示:
M=F(yei)⊙(F(xei))*,(14)
N=∑dk=1(F(xkei)⊙(F(xkei))*),(15)
式中:xei代表樣本;d是樣本的FHOG特征維度;xkei為樣本的k維特征;樣本xei對應(yīng)標簽為yei;F為傅里葉變換;⊙代表點乘;*表示共軛。
尺度濾波器響應(yīng)輸出對應(yīng)的公式如式(16)所示:
y∧e=F-1(∑dk=1Mk⊙F(ze)N+λ),(16)
式中:F-1為逆傅里葉變換;λ為正則項。
2.3 基于PCA的尺度特征降維
尺度濾波器需要對33個尺度樣本S的每個特征維度都進行一次快速傅里葉變換,在一定程度上降低了跟蹤算法的速度。利用主成分分析法(PCA),對FHOG特征進行降維,在不損失圖像特征的前提下,減少計算量,加快跟蹤速度。
主成分分析法通過坐標的旋轉(zhuǎn)與平移變換,將一組相關(guān)變量投影到不相關(guān)的低維子空間中,達到降維目的。具體過程如下。
首先,通過式(17)將坐標原點平移至樣本數(shù)據(jù)的中心,讓原本相互獨立的樣本大致相關(guān)。
S(i)=S(i)-mean(S(i)),(17)
式中:S(i)為第i個尺度樣本的FHOG特征展開。為了避免圖像噪聲引起數(shù)據(jù)偏移,將協(xié)方差矩陣E進行特征分解,同時將投影矩陣Pm的每行設(shè)置為E對應(yīng)的特征向量,減少數(shù)據(jù)偏移的影響。協(xié)方差矩陣特征值分解如式(18)所示:
E(i,j)=S(i)S(j)T。(18)
其次,利用投影矩陣Pm將S(i)投影到低維空間,對尺度樣本S(i)的31維FHOG特征降維,在保證不損失圖像特征信息的同時,減少尺度處理環(huán)節(jié)的耗時,提升算法速度。
2.4 改進的模型更新策略與重新檢測
針對模型更新環(huán)節(jié),傳統(tǒng)KCF算法在每一幀跟蹤結(jié)束后,都會對模型進行更新,這種更新策略的弊端在于,一旦跟蹤目標被遮擋,遮擋信息就會更新到模型中,污染模型[19],而響應(yīng)圖的峰值波動反映了跟蹤精確度的高低。本文通過計算平均峰值相關(guān)能量[20](average peak-tocorrelation energy,APCE)觀察響應(yīng)圖峰值波動程度,APCE主要反映了響應(yīng)圖的峰值和各點響應(yīng)值的關(guān)系。通過APCE值判斷目標是否被遮擋,APCE表示方式如式(19)所示:
APCE=|fmax-fmin|2mean∑w,h(fw,h-fmin)2,(19)
式中:fmax,fmin,fw,h分別代表最大響應(yīng)、最小響應(yīng)和第w行、h列的響應(yīng)。
本文設(shè)置APCE閾值為L1。當(dāng)L1高于閾值時,表明跟蹤效果良好,目標未被遮擋,則無需重新檢測;當(dāng)?shù)陀陂撝禃r,說明跟蹤目標被嚴重遮擋或丟失,此時停止對模型更新,開始重新檢測。本文采用DPM模型[18] 作為重新檢測機制,利用待跟蹤序列第一幀提供的跟蹤目標的bounding-box(位置,尺寸)獲取正負訓(xùn)練樣本,訓(xùn)練DPM模型。DPM模型重新檢測具體步驟為1)構(gòu)建待檢測圖像HOG特征金字塔;2)通過滑動窗口的方式計算每個子模型的響應(yīng)值,與模型中閾值進行比較;3)采用非極大值抑制的方法去除重復(fù)檢測,得到最終檢測結(jié)果,完成對目標的重新定位。
為了解決當(dāng)目標被遮擋或丟失時,干擾信息被錯誤地更新到模型中,導(dǎo)致跟蹤出現(xiàn)漂移的問題,本文設(shè)置2個閾值L2,L3(L2
式(20)為更新策略。
η=0.02,? APCE>L1&fmax>L3,0.01,? APCE>L1&L2
通過改進更新模型策略引入重新檢測機制,減少不必要的模型更新,加快了跟蹤速度,提高了跟蹤算法的精準度。
2.5 算法步驟
本文算法步驟如下:
1)獲取視頻序列第一幀中跟蹤目標的位置與尺度信息,提取深度特征與FHOG特征訓(xùn)練位置濾波器,提取多個尺度樣本訓(xùn)練尺度濾波器。
2)找到下一幀視頻序列的待檢測區(qū)域,利用ResNet卷積神經(jīng)網(wǎng)絡(luò)獲取待檢測區(qū)域Conv2-1與Conv4-1兩層深度特征,同時提取其FHOG特征。
3)將深度特征與FHOG特征分別通過濾波器運算,得到對應(yīng)的響應(yīng)圖fConv2-1,fConv4-1,fFHOG,然后,對3個響應(yīng)圖進行加權(quán)融合,確定跟蹤目標精確位置。
4)對跟蹤目標提取33個不同的尺度樣本,提取樣本的FHOG特征并做PCA降維處理,將特征經(jīng)過尺度濾波器運算,完成對目標的尺度估計。
5)確定目標位置與尺度,根據(jù)平均峰值相關(guān)能量(APCE)判斷是否更新濾波器模板,若小于閾值L1,則停止更新,利用DPM模型重新檢測跟蹤目標;若高于閾值L1,則根據(jù)fmax選擇學(xué)習(xí)率η進行更新。
6)依次重復(fù)步驟2)—步驟5),直至完成對全部視頻序列的跟蹤。
3 實驗結(jié)果與分析
3.1 實驗環(huán)境
實驗硬件環(huán)境為IntelCore i5-9600kf CPU,主頻4.8 Hz,NVIDIA RTX2080 GPU,內(nèi)存32 GB配置的計算機。軟件運行的環(huán)境為Windows10操作系統(tǒng),使用Matlab2017a為開發(fā)平臺,正則項λ=10-4,采用標準數(shù)據(jù)集OTB-100[21]對本文算法進行實驗。
3.2 評價指標
為了評估目標算法性能,在實驗中采用中心位置誤差(center location error,CLE)和重疊率(overlap precision,OP)2個評估參數(shù)對跟蹤結(jié)果進行評價,重疊率如式(21)所示:
OP=area(AT∩AG)area(AT∪AG),(21)
式中:AT為算法跟蹤框;AG為標準跟蹤框。
中心位置誤差如式(22)所示:
CLE=(xm-xn)2+(ym-yn)2,(22)
式中:xm,ym為算法跟蹤目標中心位置;xn,yn為標準中心位置。
3.3 定量分析
將本文改進算法與Staple,C-COT,DSST,KCF,SAMF,Siam R-CNN,sKCF 7種典型目標跟蹤算法在OTB-100上進行測試對比,選用OTB-100中10種屬性來衡量算法性能:SV(scale variation)代表尺度變化、IPR(in-plane rotation)代表旋轉(zhuǎn)、OCC(occlusion)為遮擋、OV代表目標超出視野范圍、BC(background clutters)代表背景雜亂、LR(low resolution)代表分辨率低、IV(illumination variation)代表光照發(fā)生變化;MB(motion blur)代表模糊、FM(fast motion)代表快速運動、OPR(out-of-plane rotation)代表圖像外旋轉(zhuǎn)。實驗結(jié)果如表2和表3所示,其中表2表示算法各屬性跟蹤精準度,表3表示算法各屬性下跟蹤成功率。由表2和表3可以看出,在不同干擾因素下本文算法都能表現(xiàn)出優(yōu)越的跟蹤性能,并且在遮擋條件下的精準度與成功率分別為0.895和0.653,均高于其他對比算法。這主要是由于所提算法改進模型更新策略,提高了算法的抗遮擋能力。綜合以上分析可得,在遮擋條件下,改進算法具有較高的跟蹤精準度,在應(yīng)對復(fù)雜環(huán)境下具有較好的魯棒性。
將本文所提算法和其他7種算法在OTB-100視頻序列進行測試,得出成功率曲線與精準度曲線如圖4所示,本文所提算法精準度為0.876,成功率為0.650,相比原始KCF算法精準度提升了29.4%,成功率提升了25.9%。與近年來結(jié)合深度學(xué)習(xí)的目標跟蹤算法相比,精準度上高于C-COT 算法,略低于Siam R-CNN算法;與KCF的改進算法(sKCF)比較,在精準度與成功率上均高于該算法。
3.4 定性分析
為了測試算法對于跟蹤目標旋轉(zhuǎn)、遮擋、形變、光照、尺度變化的魯棒性,本文選取了OTB-100中的Soccer,CarScale,Skiing,Ironman 4條視頻序列對算法進行測試實驗。同時與Staple,C-COT,DSST,KCF,SAMF,Siam R-CNN ,sKCF 7種算法進行比較,即每種算法在4條視頻序列上均運行一次,跟蹤結(jié)果如圖5所示,以下對不同視頻序列下各個算法跟蹤效果進行分析。
1)Skiing序列中,目標區(qū)域光照發(fā)生變化、目標出現(xiàn)形變、快速運動、目標旋轉(zhuǎn)出圖像邊界等問題,第21幀目標周圍區(qū)域光照發(fā)生變化,并且運動目標出現(xiàn)旋轉(zhuǎn),KCF,DSST等算法均出現(xiàn)跟蹤偏移、失敗的情況,本文算法仍能對目標進行持續(xù)跟蹤,第65幀,目標尺度縮小,本文算法對目標調(diào)整到最佳尺度。可見本文算法對光照、形變、旋轉(zhuǎn)具有很好的魯棒性。
2)Soccer序列中,目標出現(xiàn)光照、尺度變化,目標被遮擋,并且跟蹤目標又出現(xiàn)了運動模糊現(xiàn)象,背景雜波現(xiàn)象。第127幀,背景出現(xiàn)雜波,光照發(fā)生變化,Staple算法跟蹤失敗,KCF和DSST算法出現(xiàn)漂移,本文算法持續(xù)跟蹤。第210幀,目標出現(xiàn)運動模糊,本文算法能夠有效地跟蹤目標。第300幀,目標光照發(fā)生劇烈變化,DSST算法雖然能定位目標位置,但對目標尺度估計不準確。
3)CarScale序列中,目標出現(xiàn)尺度變化、遮擋等現(xiàn)象,在230幀與252幀,本文算法與Siam R-CNN算法對目標尺度估計較好,其他算法對目標的尺度變化處理結(jié)果較差,KCF算法無法對目標尺度進行估計。
4)Ironman序列中,目標出現(xiàn)光照、形變、遮擋、運動模糊,目標部分出現(xiàn)在視野外,背景出現(xiàn)雜波等現(xiàn)象。第102幀目標周圍光照發(fā)生劇烈變化,DSST,KCF算法跟丟目標,Staple算法出現(xiàn)跟蹤漂移,本文算法因改進模型更新策略并引入重新檢測機制,對遮擋問題處理較好,所以能夠準確地跟蹤到目標。
3.5 算法速度
8種算法在OTB100視頻序列測試的平均速度如表4所示,與其他7種算法相比較,本文所提算法速度為16.5 f/s,與近年來結(jié)合深度學(xué)習(xí)的綜合性能較好的目標跟蹤算法(C-COT,Siam R-CNN)相比,高于C-COT算法的0.8 f/s和Siam R-CNN算法的3.7 f/s,主要原因在于本文所提算法在尺度估計環(huán)節(jié)對特征進行PCA降維,減少了尺度估計環(huán)節(jié)計算耗時,提高了算法的速度。但與傳統(tǒng)相關(guān)濾波算法速度相比略有下降, 主要原因是提取目標區(qū)域深度特征,提高目標精確位置的同時,導(dǎo)致計算量增大,算法實時性有所下降,本文算法在跟蹤速度上還有待作進一步的改進。
4 結(jié) 語
針對復(fù)雜環(huán)境下單一特征和尺度估計導(dǎo)致的目標跟蹤精度低、成功率差等問題,本文在核相關(guān)濾波算法框架的基礎(chǔ)上,提出了一個融合深度特征和FHOG特征的尺度自適應(yīng)相關(guān)濾波跟蹤算法。提取圖像的深度特征與FHOG特征,通過加權(quán)融合的方式將不同特征的響應(yīng)圖進行加權(quán)融合,得到目標的精確位置;通過建立尺度濾波器完成對目標尺度的估計,利用PCA降維大幅減少尺度濾波器的特征維度,減少了尺度估計環(huán)節(jié)的計算耗時。引入平均峰值相關(guān)能量(APCE)來判斷目標遮擋或丟失情況,并用DPM模型重新檢測,使算法具備一定的抗遮擋能力。改進模型更新策略,通過平均峰值相關(guān)能量和最大相關(guān)響應(yīng)共同決定模型更新策略,減少在目標被遮擋或丟失等條件下對模型的錯誤更新,使模型更新更為準確。從實驗結(jié)果上看,相較于原始KCF算法,本文算法的精準度和成功率有較大提升,并且在遮擋條件下有較好的跟蹤效果。
但是,本研究尚存在一些不足,由于增加了深度特征,同時考慮尺度變化,使得算法的速度略有下降。未來將對算法速度進行改進,在保持準確率與成功率的同時,提升算法的跟蹤速度。
參考文獻/References:
[1] HENRIQUES J F,CASEIRO R,MARTINS P,et al.High-speed tracking with kernelized correlation filters[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(3):583-596.
[2] DANELLJAN M,SHAHBAZ KHAN F,F(xiàn)ELSBERG M,et al.Adaptive color attributes for real-time visual tracking[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE,2014:1090-1097.
[3] DANELLJAN M,HGER G,SHAHBAZ KHAN F,et al.Accurate scale estimation for robust visual tracking[C]//Proceedings of the British Machine Vision Conference.[S.l.]:BMVA Press,2014.doi:10.5244/C.28.65.
[4] BERTINETTO L,VALMADRE J,GOLODETZ S,et al.Staple:Complementary learners for real-time tracking[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.]:IEEE,2016:1401-1409.
[5] LI Y,ZHU J K.A scale adaptive kernel correlation filter tracker with feature integration[C]//Computer Vision-ECCV 2014 Workshops.Cham:Springer International Publishing,2015:254-265.
[6] MONTERO A S,LANG J,LAGANIRE R.Scalable kernel correlation filter with sparse feature integration[C]//2015 IEEE International Conference on Computer Vision Workshop (ICCVW).[S.l.]:IEEE,2015:587-594.
[7] 睢丙東,張湃,王曉君.一種改進YOLOv3的手勢識別算法[J].河北科技大學(xué)學(xué)報,2021,42(1):22-29.
SUI Bingdong,ZHANG Pai,WANG Xiaojun.A gesture recognition algorithm based on improved YOLOv3[J].Journal of Hebei University of Science and Technology,2021,42(1):22-29.
[8] 劉娜,岳琪琪,陳加宏,等.搜索區(qū)域和目標尺度自適應(yīng)的無人艇海面目標跟蹤[J].光學(xué)精密工程,2020,28(3):671-685.
LIU Na,YUE Qiqi,CHEN Jiahong,et al.Search area and target scale adaptive sea surface object tracking for unmanned surface vessel[J].Optics and Precision Engineering,2020,28(3):671-685.
[9] MA C,HUANG J B,YANG X K,et al.Hierarchical convolutional features for visual tracking[C]//2015 IEEE International Conference on Computer Vision(ICCV).[S.l.]:IEEE,2015:3074-3082.
[10]VOIGTLAENDER P,LUITEN J,TORR P H S,et al.Siam R-CNN:Visual tracking by re-detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.]:IEEE,2020:6577-6587.
[11]DANELLJAN M,ROBINSON A,SHAHBAZ KHAN F,et al.Beyond correlation filters:Learning continuous convolution operators for visual tracking[C]//Computer Vision-ECCV 2016.Cham:Springer International Publishing,2016:472-488.
[12]陳輝東,丁小燕,劉艷霞.基于深度學(xué)習(xí)的目標檢測算法綜述[J].北京聯(lián)合大學(xué)學(xué)報(自然科學(xué)版),2021,35(3):39-46.
CHEN Huidong,DING Xiaoyan,LIU Yanxia.Review of target detection algorithm based on deep learning[J].Journal of Beijing Union University(Natural Sciences),2021,35(3):39-46.
[13]SZEGEDY C,LIU W,JIA Y Q,et al.Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).[S.l.]:IEEE,2015:1-9.
[14]SIMONYAN K,ZISSERMAN A.Very Deep Convolutional Networks for Large-scale Image Recognition[DB/OL].[2014-09-04].https://arxiv.org/abs/1409.1556.
[15]HE K M,ZHANG X Y,REN S Q,et al.Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).[S.l.]:IEEE,2016:770-778.
[16]HUANG G,LIU Z,VAN DER MAATEN L,et al.Densely connected convolutional networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).[S.l.]:IEEE,2017:2261-2269.
[17]劉佳真,陳勤霞,艾斯卡爾·艾木都拉.融合相關(guān)濾波和CNN的點狀目標跟蹤技術(shù)研究[J].激光與紅外,2021,51(2):244-249.
LIU Jiazhen,CHEN Qinxia,ASKR Hamdulla.Research on point target tracking technology based on correlation filtering and CNN[J].Laser & Infrared,2021,51(2):244-249.
[18]FELZENSZWALB P F,GIRSHICK R B,MCALLESTER D,et al.Object detection with discriminatively trained part-based models[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(9):1627-1645.
[19]劉坤,于晟燾.基于卷積神經(jīng)網(wǎng)絡(luò)的云霧遮擋艦船目標識別[J].控制與決策,2021,36(3):661-668.
LIU Kun,YU Shengtao.Obscured ship target recognition based on convolutional neural network[J].Control and Decision,2021,36(3):661-668.
[20]WANG M M,LIU Y,HUANG Z Y.Large margin object tracking with circulant feature maps[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).[S.l.]:IEEE,2017:4800-4808.
[21]WU Y,LIM J,YANG M H.Online object tracking:A benchmark[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE,2013:2411-2418.
收稿日期:2021-09-10;修回日期:2021-11-19;責(zé)任編輯:王淑霞
基金項目:黑龍江省自然科學(xué)基金(C201414)
第一作者簡介:孫 博(1996—),男,吉林吉林人,碩士研究生,主要從事圖像處理方面的研究。
通訊作者:王阿川教授。E-mail:wangca1964@126.com
孫博,王阿川.
融合深度特征和FHOG特征的尺度自適應(yīng)相關(guān)濾波跟蹤算法
[J].河北科技大學(xué)學(xué)報,2021,42(6):591-600.
SUN Bo,WANG Achuan.
Scale-adaptive correlation filter tracking algorithm fusing depth features and FHOG features
[J].Journal of Hebei University of Science and Technology,2021,42(6):591-600.