馮琪堯,張驚雷
(1.天津理工大學(xué)電氣工程與自動化學(xué)院,天津 300384;2.天津市復(fù)雜系統(tǒng)控制理論及應(yīng)用重點實驗室,天津 300384)
隨著卷積神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)在目標檢測領(lǐng)域取得成功,越來越多的研究者將其運用到目標跟蹤中,并取得了很好的效果[1]。深度學(xué)習(xí)方法的優(yōu)勢在于使用深度特征對圖像信息進行編碼,而深度特征有較強的特征表達能力和泛化能力[2],相比傳統(tǒng)手工特征更加精確,能減小復(fù)雜外觀和背景的影響,適應(yīng)不同的跟蹤場景。
目前,目標跟蹤算法主要分為基于相關(guān)濾波的算法和基于深度學(xué)習(xí)的算法?;谙嚓P(guān)濾波的算法中以核化相關(guān)濾波器KCF (Kernelized Correlation Filters)[3]為代表,使用循環(huán)矩陣采集正負樣本,利用脊回歸訓(xùn)練目標檢測器,取得了良好的效果。后續(xù)的區(qū)別尺度空間跟蹤器DSST (Discriminative Scale Space Tracker )[4]、時域正則相關(guān)濾波SRDCF (Spatially Regularized Discriminative Correlation Filters)[5]、高效卷積算子ECO (Efficient Convolution Operators )[6]等算法均在此基礎(chǔ)上進行改進,但都以增加算法復(fù)雜度的方式提升跟蹤效果,導(dǎo)致速度大幅降低。基于深度學(xué)習(xí)類算法中,孿生網(wǎng)絡(luò)類算法因其在速度與精度上取得了良好的平衡,受到學(xué)者們的廣泛關(guān)注[7,8]。該類算法以全卷積孿生SiamFC (Fully-Convolutional Siamese) 網(wǎng)絡(luò)目標跟蹤算法[9]為代表,將目標跟蹤看作圖像匹配任務(wù),將標記的跟蹤目標作為模板,在后續(xù)幀中尋找匹配的樣本,取得了良好的效果,此類算法僅需進行離線訓(xùn)練,使速度得到保證。孿生實例搜索跟蹤器SINT (Siamese InNstance search for Tracker)[10]在孿生網(wǎng)絡(luò)框架下重新設(shè)計了特征提取網(wǎng)絡(luò),將目標跟蹤任務(wù)看作一個定位問題,加入了感興趣區(qū)域池化層,并利用光流進一步提升了跟蹤效果。DSiam (Dynamic Siamese)[11]是一種動態(tài)孿生網(wǎng)絡(luò)模型,可在線學(xué)習(xí)目標外觀變化,并在網(wǎng)絡(luò)中融合多層特征,提升了網(wǎng)絡(luò)特征表達能力。早停跟蹤器EAST (EArly-Stopping Tracker)[12]提出一種根據(jù)特征提取網(wǎng)絡(luò)中每層的特征表達質(zhì)量“早?!钡呗?,若淺層網(wǎng)絡(luò)中表達質(zhì)量滿足需求則不向深層傳遞,降低了算法復(fù)雜度。相關(guān)濾波器孿生網(wǎng)CFNet (Correlation Filter siamese Network)[13]將相關(guān)濾波器作為孿生網(wǎng)絡(luò)中的一個分層進行訓(xùn)練,提升了算法性能,但為保證速度縮減了網(wǎng)絡(luò)步長和特征通道數(shù),降低了特征表達質(zhì)量。
針對孿生網(wǎng)絡(luò)類算法易導(dǎo)致算法在光照變化、目標形變和遮擋等復(fù)雜場景中跟蹤失敗的問題,本文提出一種混合注意力機制,以抑制圖像中的干擾信息,使跟蹤算法在復(fù)雜場景中具有更好的跟蹤精度。另外,在訓(xùn)練階段本文提出一種自對抗訓(xùn)練樣本對的構(gòu)建方法,以模擬復(fù)雜場景,并利用多個損失函數(shù)進行聯(lián)合訓(xùn)練,提升了算法的泛化性。在多個公開測試集上的實驗表明,本文算法較經(jīng)典算法取得了更好的跟蹤精度與更強的泛化性,同時速度滿足實時跟蹤需求。
SiamFC是一種基于深度學(xué)習(xí)的目標跟蹤算法,包括離線訓(xùn)練和在線跟蹤2個階段。
離線訓(xùn)練階段采用圖像對進行訓(xùn)練,從視頻序列圖像中取距離小于閾值D的2幀構(gòu)建訓(xùn)練樣本對,較前一幀作為示例圖像z,較后一幀作為搜索圖像x,分別輸入孿生網(wǎng)絡(luò)的2個分支;利用骨干網(wǎng)絡(luò)進行特征提取,骨干網(wǎng)絡(luò)使用調(diào)整后的AlexNet[14],得到模板特征圖和搜索區(qū)域特征圖,對二者進行卷積操作,得到最終的響應(yīng)得分圖。該過程表示如式(1)所示:
fSiamFC(z,x)=φ(z)*φ(x)
(1)
其中,φ表示骨干網(wǎng)絡(luò),*表示卷積操作。
訓(xùn)練階段將得分圖與標簽(數(shù)據(jù)集中使用一個矩形框在每幀圖像中標出目標位置,以矩形框區(qū)域作為目標,以像素點為單位,在每幀圖像上生成目標的概率分布圖,即為標簽)進行對比,若得分圖上某一像素點與標簽相差小于閾值R時,視為正樣本,否則視為負樣本,如式(2)所示:
(2)
其中,p是得分圖中某個位置的正負樣本屬性,u是該位置對應(yīng)的標簽,c是該位置在得分圖中的響應(yīng)值,k是網(wǎng)絡(luò)步長。
訓(xùn)練過程利用Logistic loss定義損失,如式(3)所示:
L(p,u)=log(1+exp(-pu))
(3)
以所有像素點損失的平均值作為該圖像對的總損失。SiamFC應(yīng)用隨機梯度下降法最小化損失函數(shù),來訓(xùn)練孿生網(wǎng)絡(luò)參數(shù)θ,如式(4)所示:
(4)
其中,E表示期望,L(·)表示Logistic loss。
訓(xùn)練階段使用127*127的示例圖像和255*255的搜索圖像,按照式(5)構(gòu)建圖像對:
(5)
Figure 1 Image pair build圖1 圖像對構(gòu)建
示例圖像與搜索圖像均輸入權(quán)重共享的骨干網(wǎng)絡(luò)進行特征提取,骨干網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。
Table 1 Structure of backbone network
在線跟蹤階段從初始幀中選定目標區(qū)域作為跟蹤模板,輸入孿生網(wǎng)絡(luò)示例分支,算法運行時無需調(diào)整跟蹤模板及網(wǎng)絡(luò)參數(shù),后續(xù)幀輸入孿生網(wǎng)絡(luò)搜索圖像分支。所有圖像均使用式(5)方式裁剪后輸入網(wǎng)絡(luò),其中搜索圖像分支裁剪時使用前一幀目標框的中心位置,利用訓(xùn)練好的端到端的網(wǎng)絡(luò)模型直接獲得跟蹤框。
本文提出一種基于混合注意力機制的孿生網(wǎng)絡(luò)目標跟蹤SiamMA (Siamese network object tracking based on Mixed Attention mechanism) 算法,算法結(jié)構(gòu)如圖2所示。該算法在訓(xùn)練階段使用堆疊裁剪法構(gòu)建訓(xùn)練樣本對,在骨干網(wǎng)絡(luò)后添加通道注意力CA(Channel Attention)和空間注意力SA(Spatial Attention)混合的注意力機制,同時調(diào)整損失函數(shù),使算法性能得到有效提升。
Figure 2 Structure of SiamMA algorithm 圖2 SiamMA算法結(jié)構(gòu)
如圖3b所示,經(jīng)典SiamFC算法構(gòu)建訓(xùn)練樣本對時,使用像素均值填充圖像裁剪時尺寸不足部分,該方法易在訓(xùn)練圖像中出現(xiàn)大量均值填充區(qū)域,與實際跟蹤場景不符。
Figure 3 Training sample pairs圖3 訓(xùn)練樣本對
本文提出一種構(gòu)建自對抗訓(xùn)練樣本對的數(shù)據(jù)增強方法,利用圖像自身信息通過堆疊裁剪法提高訓(xùn)練樣本的復(fù)雜度。數(shù)據(jù)增強是提高深度學(xué)習(xí)算法性能的常用方法,即人為增加輸入圖像的復(fù)雜度,提升網(wǎng)絡(luò)魯棒性[15]。通過堆疊裁剪法構(gòu)建自對抗樣本的方法如圖4所示,將圖像自身信息作為尺寸不足部分的填充元素,首先將訓(xùn)練圖像堆疊成3*3的圖像陣列,然后以中心圖像左下角為坐標原點,利用式(5)對圖像進行裁剪。
Figure 4 Stacking and cropping圖4 堆疊裁剪法
目標跟蹤任務(wù)需在圖像序列首幀選取感興趣目標,可人工剔除干擾因素,獲得較純凈的示例圖像,而后續(xù)幀中的干擾因素無法依賴人工處理。本文在網(wǎng)絡(luò)訓(xùn)練階段模擬這一現(xiàn)象,在構(gòu)建訓(xùn)練樣本對時,對孿生網(wǎng)絡(luò)搜索分支的輸入圖像使用堆疊裁剪法進行處理,為搜索圖像引入更多干擾因素,模擬實際跟蹤時的復(fù)雜場景,使訓(xùn)練的網(wǎng)絡(luò)模型獲得更強的魯棒性和泛化性。
堆疊裁剪法為搜索圖像引入大量語義背景,導(dǎo)致訓(xùn)練中前景與背景的類不均衡,為此本文引入Focal loss來平衡前景與背景,如式(6)所示:
(6)
其中,p是得分圖中某個位置的正負樣本屬性,γ為常數(shù)調(diào)節(jié)因子。算法總損失LSiamMA如式(7)所示:
LSiamMA=L(p,u)+FL(p,u)
(7)
計算機視覺中的注意力機制是模仿人類大腦處理視覺信號的機制。當人觀察場景時,首先快速掃視整個場景,然后會發(fā)現(xiàn)感興趣區(qū)域進行重點觀察。同理在深度學(xué)習(xí)中,淺層卷積神經(jīng)網(wǎng)絡(luò)提取到的信息以相同權(quán)重向深層傳遞,但當知道某些先驗信息后,就能相應(yīng)調(diào)整權(quán)重,抑制某些干擾因素,提高深度特征的編碼質(zhì)量,增強網(wǎng)絡(luò)的特征表達能力[16]。
卷積神經(jīng)網(wǎng)絡(luò)的核心是卷積運算,卷積是跨通道和空間提取特征的,因此卷積神經(jīng)網(wǎng)絡(luò)中的注意力機制主要從通道和空間2個維度進行權(quán)重建模,以提高特征表達質(zhì)量。本文根據(jù)目標跟蹤任務(wù)特點,提出一種通道-空間混合注意力機制,如式(8)和式(9)所示:
CA(n1,n2)=σ(S2δ(S1n1)+S2δ(S1n2))
(8)
SA(m1,m2)=σ(Conv(m1⊙m2))
(9)
通道注意力(CA)機制如式(8)所示,其中,n1和n2分別是將特征圖逐通道進行全局最大池化GMP (Global Maximum Pooling)和全局平均池化GAP (Global Average Pooling)的結(jié)果,S1和S2是全連接層,δ是ReLU函數(shù),σ是Sigmoid函數(shù)。CA模塊結(jié)構(gòu)如圖5所示,其對骨干網(wǎng)絡(luò)輸出的特征圖(Feature map)同時進行GAP和GMP操作,F(xiàn)C1和FC2是全連接層,再以獲得的數(shù)組為特征圖逐通道重新分配權(quán)重(Rewight)。
Figure 5 Channel attention module圖5 通道注意力模塊
空間注意力(SA)機制如式(9)所示,m1和m2分別是將特征圖上的像素點逐空間位置進行全局最大池化(GMP)和全局平均池化(GAP)的結(jié)果;⊙是連接操作,將獲得的2個單通道特征圖連接成1個兩通道特征圖;Conv()是卷積操作,將兩通道特征圖映射到同一特征空間,以獲得的矩陣為輸入的特征圖逐像素位置重新分配權(quán)重(Rewight)。SA模塊結(jié)構(gòu)如圖6所示。
Figure 6 Spatial attention module圖6 空間注意力模塊
此時算法的相似度匹配過程可表示如式(10)所示:
fSiamMA(z,x)=CA(φ(z))*SA(CA(φ(x)))
(10)
在孿生網(wǎng)絡(luò)示例分支中僅包含目標信息和少量的背景信息,這對于跟蹤任務(wù)同樣重要。因此,本文算法僅在示例分支中添加通道注意力模塊,使包含目標信息更豐富的通道在網(wǎng)絡(luò)中獲得更大權(quán)重;而在搜索分支中,除目標信息外通常包含更多的背景信息和干擾信息,本文算法使用空間注意力模塊,抑制搜索圖像中多余的背景信息和干擾信息,同時使用通道注意力模塊調(diào)整各個通道權(quán)重。
為評估改進后的SiamMA算法的性能,本文使用OTB2015[17]、GOT-10k[18]、UAV123[19]和Temple Color 128[20]等關(guān)注點不同的數(shù)據(jù)集進行測試,并將改進算法與SiamFC[9]、區(qū)域候選孿生網(wǎng)絡(luò)SiamRPN (Siamese Region Proposal Network)[7]、SINT[10]、DSiam[11]和CFNet[13]等孿生網(wǎng)絡(luò)類算法,以及KCF[3]、DSST[4]、SRDCF[5]和ECO[6]等經(jīng)典相關(guān)濾波類算法進行對比。本文算法使用Python 3.6實現(xiàn),深度學(xué)習(xí)框架使用PyTorch 1.1.0,實驗平臺為NVIDIA GeForce 1080Ti的Ubuntu服務(wù)器,使用GOT-10k訓(xùn)練集進行訓(xùn)練。
GOT-10k是一個含10 000個訓(xùn)練集視頻和180個測試集視頻的大型數(shù)據(jù)集,包含563個目標種類,評價指標包括:平均重合度AO(Average Overlap)、成功跟蹤的準確度SR(Success Rate,取0.5和0.75這2個閾值)和速度(fps)。OTB2015包含100個涵蓋外觀變形、光照變化、快速運動、運動模糊等經(jīng)典挑戰(zhàn)性場景的視頻序列,評價指標為精度Pre(即跟蹤框和真實目標框中心位置平均歐氏距離小于20像素值幀數(shù)占總幀數(shù)之比)和成功率Suc(即跟蹤框和真實目標框的重疊部分面積與二者總面積之比)。UAV123由123個1 000幀以上無人機拍攝的長視頻序列組成,其中UAV20L包含20個5 000幀以上的超長序列,包括目標尺度和拍攝角度劇烈變化、目標被完全遮擋的情況。Temple Color 128包含128個彩色視頻序列,與其他標準數(shù)據(jù)集不同,該數(shù)據(jù)集注重算法對色彩的識別能力。
實驗結(jié)果如表2所示。GOT-10k測試結(jié)果展示了算法對不同目標類別跟蹤的泛化性,如圖7所示,本文SiamMA算法的AO較SiamFC提升了21.7%,在0.5和0.75這2個閾值下也分別提升了23.9%和17%。同時速度達到60.47 fps(較SiamFC下降1.17 fps),表明本文提出的混合注意力機制在提升了算法對不同類別目標的泛化性的同時,僅增加極小的計算成本。OTB2015測試結(jié)果展示了算法在復(fù)雜跟蹤場景中的性能,本文SiamMA算法較SiamFC性能指標分別提升4.5%和3.3%,但與ECO等相關(guān)濾波算法仍有差距,然而ECO算法運行速度僅為2.62 fps,難以滿足實時性要求,而本文SiamMA算法在運行速度較快的同時保證了一定的精確度與成功率,取得了良好的速度與性能的平衡。本文SiamMA算法在UAV123上較SiamFC成功率提升1.3%。在超長跟蹤序列UAV20L上相比對照算法,精度和成功率均為最優(yōu),且較SiamFC性能分別提升7.9%和6.2%。在Temple Color 128數(shù)據(jù)集上,本文SiamMA算法較SiamFC性能指標分別提升3.4%和2.2%,表明本文提出的混合注意力機制在復(fù)雜色彩場景中也能有效提升算法性能。SiamRPN是目前孿生網(wǎng)絡(luò)類最先進的算法之一,在實驗中其與本文算法的精度和成功率十分接近。ECO在多個常規(guī)數(shù)據(jù)集上的精度和成功率高于本文SiamMA算法的,但其速度差距明顯。
Table 2 Experimental results of different algorithms
Figure 7 Average overlap (AO) normalization results of different algorithms on GOT-10k圖7 不同算法在GOT-10k上平均重合度(AO)歸一化結(jié)果
算法可視化結(jié)果如圖8所示。圖8a中,由于第23幀目標快速移動,SiamFC跟蹤框已經(jīng)發(fā)生偏移,第81幀由于尺度突然變化,SiamFC跟蹤框已經(jīng)完全偏移目標,而本文SiamMA算法仍能框定目標。在無人機拍攝圖像(圖8b)中,從首幀時的遠處小尺度目標,到第243幀開始目標逐漸接近鏡頭,到第785幀大尺度,本文SiamMA算法都能準確框定目標,SiamFC僅能標定目標的一部分,至第1 051幀結(jié)束也未能完全框定目標,表明本文算法對目標尺度變化和目標角度變化跟蹤時有較強的魯棒性。圖8c中,第 906幀目標被部分遮擋,所有算法均未被影響,在第1 085幀中,目標左側(cè)行人移動至目標右側(cè),過程中目標被完全遮擋,SiamFC跟蹤框發(fā)生偏移,至第1 536幀完全偏移目標,而本文SiamMA算法全程可精確框定目標。圖8d中,銀白色的打火機由于其本身像素值較高,對卷積神經(jīng)網(wǎng)絡(luò)中目標響應(yīng)值造成了一定影響,初始幀中目標遮擋住打火機,第56幀時目標離開打火機位置,SiamFC跟蹤框完全偏移目標,至最終第370幀始終未能框定目標,而本文SiamMA算法始終都能準確框定目標。圖8e中,視頻中目標發(fā)生劇烈形變,由彎曲逐漸伸展,本文SiamMA算法較SiamFC可更加精確地標定整個目標,更加接近真實值。
Figure 8 Visualization results of different algorithms圖8 不同算法可視化結(jié)果
本文在經(jīng)典SiamFC算法的基礎(chǔ)上,提出了一種基于混合注意力機制的孿生網(wǎng)絡(luò)目標跟蹤算法(SiamMA),有效抑制了跟蹤中的背景干擾,在訓(xùn)練階段提出構(gòu)建自對抗訓(xùn)練樣本對的數(shù)據(jù)增強方法,使訓(xùn)練的網(wǎng)絡(luò)模型具有更強的泛化性。實驗表明,本文算法在多個數(shù)據(jù)集上獲得了更好的精度與成功率,然而與部分相關(guān)濾波算法相比仍有差距,在保證算法運行速度前提下提升跟蹤效果仍是今后需完善的工作。