張長弓,楊海濤,馮博迪,王晉宇,李高源
(航天工程大學(xué) 航天信息學(xué)院,北京 101400)
單目標(biāo)跟蹤是計(jì)算機(jī)視覺領(lǐng)域的研究方向之一,其基本任務(wù)是獲取視頻中單個目標(biāo)在每一幀中的位置信息,為對目標(biāo)的運(yùn)動行為及規(guī)律的分析和理解提供基礎(chǔ),以便完成更進(jìn)一步的研究。隨著計(jì)算機(jī)硬件性能的不斷提高,越來越多的領(lǐng)域開始出現(xiàn)基于單目標(biāo)跟蹤的具體應(yīng)用,如交通監(jiān)控[1]、行人檢測[2]。但由于復(fù)雜多變的現(xiàn)實(shí)環(huán)境,目標(biāo)跟蹤依舊面臨著許多挑戰(zhàn)。
近幾年,基于深度學(xué)習(xí)的目標(biāo)跟蹤方法取得了不錯的研究成果,尤其是基于孿生網(wǎng)絡(luò)的一系列跟蹤器。Bertinetto等[3]首次提出將孿生網(wǎng)絡(luò)應(yīng)用于跟蹤問題中,開創(chuàng)性地將跟蹤問題轉(zhuǎn)化為了相似性學(xué)習(xí)問題,取得了又好又快的效果。而SiamRPN[4]等一系列跟蹤器則將目標(biāo)檢測領(lǐng)域的區(qū)域推薦網(wǎng)絡(luò)(Region Proposal Network,RPN)引入到孿生網(wǎng)絡(luò)中,將跟蹤問題轉(zhuǎn)換為基于孿生網(wǎng)絡(luò)的RPN檢測框架,提供了跟蹤器發(fā)展的新思路。
孿生跟蹤器使用模板匹配的方法,在海量視頻數(shù)據(jù)中進(jìn)行端到端離線訓(xùn)練,因此無法在線更新模板,在面對目標(biāo)發(fā)生特征變化的情況時,跟蹤器容易出現(xiàn)漂移、丟失等。此外,模板匹配方法僅通過目標(biāo)的外觀進(jìn)行推斷,導(dǎo)致豐富的背景上下文信息被忽略,而背景信息對于區(qū)分目標(biāo)周圍的相似物體極為重要。基于這些考慮,本文通過結(jié)合注意力機(jī)制和特征金字塔網(wǎng)絡(luò),開發(fā)了一種利用豐富的上下文信息來增強(qiáng)目標(biāo)表征能力的孿生跟蹤器,它可以增強(qiáng)目標(biāo)表示,提高RPN的分類和回歸的準(zhǔn)確度,降低復(fù)雜背景和相似物體的影響,從而提高跟蹤器的魯棒性和準(zhǔn)確性。
本文所提出的SiamERPN(Siamese Enhanced-RPN)算法在SiamRPN++[5]基礎(chǔ)上,使用金字塔式特征融合方法自頂向下融合骨干網(wǎng)絡(luò),使用通道注意力和空間注意力對RPN進(jìn)行增強(qiáng),利用豐富的上下文信息提高對目標(biāo)的辨別能力,降低復(fù)雜背景和相似物體的干擾。圖1為本文算法構(gòu)建的網(wǎng)絡(luò)模型框架圖,主要由特征提取網(wǎng)絡(luò)、特征融合模塊和增強(qiáng)RPN三部分組成。
圖1 SiamERPN網(wǎng)絡(luò)結(jié)構(gòu)圖
Bertinetto在文獻(xiàn)[3]中通過將孿生網(wǎng)絡(luò)應(yīng)用在目標(biāo)跟蹤,把實(shí)現(xiàn)跟蹤轉(zhuǎn)變?yōu)榱私鉀Q相似性學(xué)習(xí)問題。孿生跟蹤器包含初始幀目標(biāo)模板圖像z和當(dāng)前幀搜索圖像x兩個輸入,分別經(jīng)過共享參數(shù)φ的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)映射到相同的特征空間中,然后應(yīng)用相似性度量函數(shù)g(φ(x)、φ(z))來衡量兩者間的的相似性,在響應(yīng)值最大的位置估計(jì)目標(biāo)狀態(tài)。SiamRPN把RPN[6]與孿生網(wǎng)絡(luò)結(jié)合,將φ(z)和φ(x)使用上行通道(up-channel)互相關(guān)計(jì)算后送入RPN生成密集響應(yīng)圖,以實(shí)現(xiàn)基于RPN的目標(biāo)跟蹤。
SiamRPN++則在SiamRPN的基礎(chǔ)上通過改變采樣方式消除了嚴(yán)格平移不變性被破壞所帶來的影響,使孿生網(wǎng)絡(luò)可以利用現(xiàn)代化網(wǎng)絡(luò)如ResNet[7],從而提高了孿生跟蹤器特征提取網(wǎng)絡(luò)的性能。聚合多層特征并建立多個RPN以更準(zhǔn)確地預(yù)測目標(biāo)狀態(tài)。另外,將上行通道互相關(guān)替換為深度(depthwise)互相關(guān),減少了大量的參數(shù),提升了跟蹤器速度。本文的方法延續(xù)了 SiamRPN++的思想,使用較深的ResNet-50作為骨干網(wǎng)絡(luò),采用深度互相關(guān)和多層特征融合策略。但相比于SiamRPN++的多RPN線性融合,本文提出了一種金字塔式特征層融合方法對骨干網(wǎng)絡(luò)進(jìn)行增強(qiáng),提高對目標(biāo)的表征能力,另外,本文還引入增強(qiáng)RPN模塊以強(qiáng)化RPN對前背景分類和邊界框回歸的準(zhǔn)確性。
RPN使用滑動窗口技術(shù)在特征圖的每個位置都生成k個矩形錨框(anchor),通過對可能包含物體的錨框進(jìn)行回歸,最終得到精確的目標(biāo)邊界框。RPN包含兩個分支:分類和回歸,我們將目標(biāo)模板和搜索圖像的特征進(jìn)行深度互卷積以送入這兩個分支進(jìn)行訓(xùn)練。其中,分類分支的任務(wù)是判別每個錨框?qū)儆谀繕?biāo)還是背景,即二分類任務(wù),因此進(jìn)行深度互相關(guān)后得到2k個特征,分類分支針對這些特征進(jìn)行前背景判別?;貧w分支的任務(wù)是對生成的錨框進(jìn)行回歸計(jì)算,得到較為準(zhǔn)確的邊界框。由于以[x,y,w,h]來表示一個錨框的范圍,因此k個錨框最終得到4k個特征,回歸分支將這些特征轉(zhuǎn)變?yōu)楦泳_的邊界框。
如圖2所示,增強(qiáng)RPN模塊以骨干網(wǎng)絡(luò)計(jì)算的卷積特征作為輸入,通過應(yīng)用注意力機(jī)制輸出增強(qiáng)后的分類和回歸結(jié)果,其包含RPN和注意力模塊兩個部分。
圖2 增強(qiáng)RPN結(jié)構(gòu)圖
RPN的分類分支關(guān)注特征圖中的語義部分,文獻(xiàn)[6]闡述了特征圖中不同的通道對特定目標(biāo)具有不同的響應(yīng)這一特點(diǎn),即對不同目標(biāo),有些特征通道可能更為重要,而有些通道則可能完全無關(guān),這種無關(guān)于目標(biāo)語義的特征通道常常會影響模型的相似性計(jì)算過程,進(jìn)而影響跟蹤結(jié)果,因此使用通道注意力,通過建模特征通道間的依賴關(guān)系以及提取各通道的權(quán)重來增強(qiáng)特定通道對語義的響應(yīng),降低無關(guān)通道的影響。另一方面,回歸分支關(guān)注特征圖中目標(biāo)的空間位置,自然地,考慮使用空間注意力對特征圖進(jìn)行增強(qiáng),突出目標(biāo)的空間位置,以獲得更好的回歸結(jié)果。
如圖3所示,使用X∈C×Hx×Wx和Z∈C×Hz×Wz表示目標(biāo)模板和搜索圖像的特征,以分類為例,搜索圖像的特征圖C×Hx×Wx送入RPN后使用CBAM(Convolutional Block Attention Module)[8]進(jìn)行注意力增強(qiáng)。首先經(jīng)過通道注意力模塊。CBAM使用平均池化和最大池化來聚合的上下文信息生成和兩個特征,然后將這兩個特征送入共享權(quán)重的多層感知機(jī)(Multi-Layer Perceptron,MLP),MLP包含一個隱藏層。為了減少開銷,在隱藏層中引入了壓縮率r,使隱藏層神經(jīng)元個數(shù)變?yōu)镃/r。經(jīng)過MLP得到通道權(quán)重Mc,最后與原特征相乘,輸出通道增強(qiáng)后的特征即
(a)通道注意力網(wǎng)絡(luò)結(jié)構(gòu)圖
(b)空間注意力網(wǎng)絡(luò)結(jié)構(gòu)圖圖3 注意力結(jié)構(gòu)圖
(1)
式中:Mc表示通道權(quán)重,σ表示sigmoid激活函數(shù),AvgPool和MaxPool分別表示平均池化和最大池化,MLP代表多層感知機(jī),W0∈C/r×C和W1∈C×C/r是MLP的隱藏層權(quán)重和輸出層權(quán)重。
(2)
式中:Ms表示空間位置權(quán)重,f7×7代表7×7卷積層。
采用較深的網(wǎng)絡(luò)ResNet-50作為骨干網(wǎng)絡(luò),以獲得更好的特征提取能力。由于單層特征對目標(biāo)跟蹤來說較為乏力,無法同時提供不同分辨率、多尺度、豐富語義和較細(xì)的外觀特征,而且對于ResNet來說,特征層之間的跨度較大,低層關(guān)注外觀特征等低級信息,可以幫助建模目標(biāo)外觀,高層關(guān)注語義這一高級信息,在面對物體形變遮擋等問題時具有良好的表現(xiàn),因此考慮使用多個特征層進(jìn)行融合以解決前述弊端,提高骨干網(wǎng)絡(luò)的表達(dá)能力。
SiamRPN++嘗試使用ResNet的多個特征層來提高表達(dá)能力,但其僅對conv3_x,conv4_x,conv5_x三個特征層進(jìn)行線性加權(quán)求和,沒有較好地利用淺層外觀特征和深層語義。因此受文獻(xiàn)[9]的啟發(fā),采用了金字塔式融合特征層的方法,即深層語義指導(dǎo)淺層特征,以實(shí)現(xiàn)多層特征更有效的融合,同時邊融合邊檢測,在特征融合的基礎(chǔ)上對RPN進(jìn)行線性加權(quán),以得到更精確的結(jié)果,如圖4所示。
圖4 金字塔式特征融合結(jié)構(gòu)圖
采用邊融合邊檢測目標(biāo)的思路,首先將最深的特征層F5使用雙線性插值法上采樣到特征層F4的分辨率,與F4進(jìn)行線性相加得到F45,送入RPN1,最后將F45上采樣到F3的分辨率并與之相加,送入RPN2,從而實(shí)現(xiàn)語義指導(dǎo)的特征層融合,提高骨干網(wǎng)絡(luò)的特征提取能力。另一方面,對于送入RPN的256維特征圖,每層特征圖上的每個位置都會產(chǎn)生5個尺度的錨框,在分類分支中每個錨框會得到維度為2的得分圖進(jìn)行前背景分類,即特征圖的每個位置都會產(chǎn)生共2 560個參數(shù)。因此每增加RPN的數(shù)量都會引入大量參數(shù),增加網(wǎng)絡(luò)的時間復(fù)雜度,降低跟蹤器的速度。同時,采用conv5_x特征的RPN跟蹤效果較差[5]。綜合以上考慮,為了使跟蹤器在速度與跟蹤效果上更加平衡,相比于基線算法,我們精簡了conv5_x對應(yīng)的RPN。
最后,將RPN1和RPN2進(jìn)行加權(quán)求和,權(quán)重初始值為1,作為可學(xué)習(xí)參數(shù)在端到端的訓(xùn)練中自適應(yīng)地確定,以得到更加精細(xì)的跟蹤結(jié)果:
(3)
在本文提出的算法結(jié)構(gòu)中,骨干網(wǎng)絡(luò)使用ImageNet[10]的圖像分類預(yù)訓(xùn)練數(shù)據(jù)進(jìn)行初始化,整個網(wǎng)絡(luò)在COCO[11]、ImageNet VID、Youtube-BoundingBoxes[12]數(shù)據(jù)集中進(jìn)行端到端訓(xùn)練。根據(jù)孿生網(wǎng)絡(luò)的核心思想即相似性學(xué)習(xí),將訓(xùn)練集原圖像通過平移、裁切等方法進(jìn)行擴(kuò)充為多個包含目標(biāo)的不同圖像,使網(wǎng)絡(luò)學(xué)習(xí)衡量對象相似性的方法。
采用OTB100[13]數(shù)據(jù)集進(jìn)行算法結(jié)果的測試驗(yàn)證和對比。OTB100是目標(biāo)跟蹤最常用的評價數(shù)據(jù)集之一,包含有100個視頻序列,通過精度和成功率的曲線下面積得分(Area under Curve, AUC)來評價跟蹤器的準(zhǔn)確性和魯棒性,其中精度表示算法估計(jì)坐標(biāo)與真實(shí)坐標(biāo)在給定歐氏距離閾值下的幀數(shù)所占百分比,成功率則代表算法估計(jì)邊界框和真實(shí)邊界框在一定閾值下的重疊區(qū)域比例。
采用AMD 5700x、nVidia RTX3090作為實(shí)驗(yàn)平臺,基于Windows 10 x64、python 3.6和pytorch 1.8進(jìn)行開發(fā)。
跟蹤器的骨干網(wǎng)絡(luò)使用減少步長的ResNet-50,RPN使用[0.33,0.5,1,2,3]這5種不同尺度的錨框,采用0.9動量的隨機(jī)梯度下降法作為優(yōu)化算法。遵循SiamFC,跟蹤器的模板分支輸入采用127×127大小的圖像,搜索分支則使用255×255的圖像。整個網(wǎng)絡(luò)采用端到端的方式訓(xùn)練了20輪,前10輪凍結(jié)骨干網(wǎng)絡(luò),后10輪將參與特征融合的骨干網(wǎng)絡(luò)3、4、5層卷積層加入訓(xùn)練中。
2.3.1 定量分析
為了全面對比驗(yàn)證本文所提算法的有效性,選取了目標(biāo)跟蹤領(lǐng)域較為優(yōu)秀和經(jīng)典的算法KCF[14]、SRDCF[15]、BACF[16]、DeepSRDCF[17]、SiamFC、CFNet[18]、SiamRPN、ATOM[19],SiamRPN++共9種算法一并進(jìn)行跟蹤效果的測試,其中SiamRPN++為本文算法的基線。首先在OTB100數(shù)據(jù)集中進(jìn)行測試,實(shí)驗(yàn)結(jié)果如圖5所示,除本文算法外的實(shí)驗(yàn)數(shù)據(jù)來自文獻(xiàn)[20]的公開成果。
(a)算法成功率圖
(b)算法精度圖圖5 10種算法在OTB100數(shù)據(jù)集上的運(yùn)行結(jié)果對比
為了更直觀地進(jìn)行算法對比,將結(jié)果整理為表1,粗體為排名第1,斜體為排名第2,下同??梢钥闯?,本文算法具有0.668的成功率AUC和0.876的精度AUC,不僅比對比基線算法成功率提升了9.1%,精度提升了5.1%,而且相比于排名第二的ATOM算法也有1.5%的成功率和1.9%的精度提升,與其他算法相比提升更大,表現(xiàn)出了良好的跟蹤精度和魯棒性。
表1 10種算法在OTB100數(shù)據(jù)集上的運(yùn)行結(jié)果表
OTB數(shù)據(jù)集不僅可以評價算法的總體性能,其包含的不同屬性視頻序列可以測試算法在面對不同挑戰(zhàn)時的表現(xiàn),以進(jìn)行更細(xì)粒度的評價。OTB主要包含有遮擋(occlusion,OC)、光照變化(illumination variation,IV)、運(yùn)動模糊(motion blur,MB)、視野外(out of view,OV)、尺度變化(scale variation,SV)、背景干擾(background clutter,BC)、快速移動(fast motion,F(xiàn)M)、形變(deformation,DEF)、平面內(nèi)旋轉(zhuǎn)(in-plane rotation,IPR)、低分辨率(low resolution,LR)、平面外旋轉(zhuǎn)(out-of-plane rotation,OPR)等11種挑戰(zhàn),表2和表3給出了前述算法在這些挑戰(zhàn)中的成功率和精度??梢钥闯?, SiamERPN在11種挑戰(zhàn)中除了DEF稍弱于基線算法,BC和OC稍弱于其他算法外,成功率和精度均取得了較為優(yōu)秀的表現(xiàn),這得益于注意力機(jī)制對RPN的增強(qiáng),以及特征融合對骨干網(wǎng)絡(luò)特征提取能力的提升。
表2 10種算法在OTB100數(shù)據(jù)集11種挑戰(zhàn)中的成功率表
表3 10種算法在OTB100數(shù)據(jù)集11種挑戰(zhàn)中的精度表
2.3.2 定性分析
為了更加直觀地對比展示SiamERPN與其他算法的差異,選擇OTB100中的6個視頻序列Box、Football1、Matrix、MotorRolling和Trellis,將包含SiamERPN在內(nèi)的5個跟蹤結(jié)果可視化,進(jìn)行定性分析。這6個視頻序列囊括了前述11種目標(biāo)跟蹤挑戰(zhàn),可以比較全面地分析跟蹤器效果,測試結(jié)果如圖6所示,其中黑色代表本文提出的SiamERPN算法,紅色為本文的基線算法SiamRPN++,綠色為經(jīng)典算法SiamFC,白色ATOM和藍(lán)色CFNet則是較為優(yōu)秀的孿生網(wǎng)絡(luò)改進(jìn)算法。
在Box序列中,在面對物體發(fā)生旋轉(zhuǎn)、遮擋和相似物體干擾時,SiamFC總是跟蹤相似物體,ATOM和SiamRPN++不同程度的發(fā)生誤判,而SiamERPN和CFNet跟蹤魯棒性較強(qiáng),其中SiamERPN在物體旋轉(zhuǎn)時具有較高的跟蹤精度,可以將物體側(cè)面也納入標(biāo)注范圍。在Football1序列中,目標(biāo)快速運(yùn)動和旋轉(zhuǎn),產(chǎn)生運(yùn)動模糊的同時多個球員作為密集干擾項(xiàng)阻礙跟蹤器判斷,SiamERPN可以穩(wěn)定且精準(zhǔn)進(jìn)行跟蹤,四個對比算法則發(fā)生丟失和精度過低的問題。在Matrix、MotorRolling和Trellis三個序列中,目標(biāo)發(fā)生快速反復(fù)的明暗變化,同時Matrix中有較強(qiáng)的遮擋干擾,可以看到,除SiamERPN和基線算法表現(xiàn)良好外,其他三個算法均出現(xiàn)不同程度的錯誤。而在Bird1序列中,面對長時間的阻擋,幾種算法均出現(xiàn)了不同程度的漂移,阻擋消失后,除ATOM外的算法均錯誤地跟蹤到相似目標(biāo)。綜上,SiamERPN在表現(xiàn)出良好性能的同時仍有一定的局限性。
2.3.3 速度分析
目標(biāo)跟蹤作為一種實(shí)時性算法,對運(yùn)行速度具有一定的要求(15 frame/s)[21]。為驗(yàn)證本文算法具有一定的高效性,將SiamERPN與經(jīng)典孿生網(wǎng)絡(luò)算法進(jìn)行速度的橫向?qū)Ρ?。?展示了4種算法在OTB數(shù)據(jù)集中的測試結(jié)果,其中SiamERPN(w/o attention)表示只包含有特征融合模塊的本文算法,用以驗(yàn)證該模塊對算法速度的影響。
可以看出,SiamERPN的速度均弱于對比算法,這是注意力模塊和RPN的大量參數(shù)導(dǎo)致的,但SiamERPN與基準(zhǔn)算法的速度差距較小,且符合實(shí)時性的要求,同時性能表現(xiàn)具有較大優(yōu)勢,綜上來看,SiamERPN可以很好地實(shí)現(xiàn)速度與性能的平衡。另一方面,SiamERPN(w/o attention)的結(jié)果顯示,即使經(jīng)過上采樣等操作,在剪枝RPN后仍可以實(shí)現(xiàn)與基準(zhǔn)算法相近的速度,說明精簡RPN數(shù)量對平衡速度和性能是有幫助的。
本文提出了一種基于注意力增強(qiáng)的RPN和金字塔式特征融合的目標(biāo)跟蹤算法SiamERPN,對現(xiàn)有SiamRPN++算法進(jìn)行了改進(jìn)。首先利用注意力機(jī)制對RPN進(jìn)行改進(jìn),通過通道注意力和空間注意力突出目標(biāo)的語義特征和空間位置,使RPN可以獲得更好的前背景分類和邊界框回歸結(jié)果;然后針對SiamRPN++的特征融合機(jī)制提出了一種改進(jìn)方法,通過金字塔式自頂向下融合實(shí)現(xiàn)具有豐富語義的細(xì)粒度檢測。實(shí)驗(yàn)結(jié)果表明,本文所提算法的性能相比基線算法具有一定的提高,同時RPN數(shù)量的降低減少了網(wǎng)絡(luò)復(fù)雜度,實(shí)現(xiàn)了跟蹤器在速度與跟蹤效果上的平衡。