基于增強(qiáng)RPN的孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法*

2022-10-28 03:27張長弓楊海濤馮博迪王晉宇李高源

電訊技術(shù) 2022年10期

張長弓，楊海濤，馮博迪，王晉宇，李高源

(航天工程大學(xué) 航天信息學(xué)院,北京 101400)

0 引言

單目標(biāo)跟蹤是計(jì)算機(jī)視覺領(lǐng)域的研究方向之一，其基本任務(wù)是獲取視頻中單個目標(biāo)在每一幀中的位置信息，為對目標(biāo)的運(yùn)動行為及規(guī)律的分析和理解提供基礎(chǔ)，以便完成更進(jìn)一步的研究。隨著計(jì)算機(jī)硬件性能的不斷提高，越來越多的領(lǐng)域開始出現(xiàn)基于單目標(biāo)跟蹤的具體應(yīng)用，如交通監(jiān)控[1]、行人檢測[2]。但由于復(fù)雜多變的現(xiàn)實(shí)環(huán)境，目標(biāo)跟蹤依舊面臨著許多挑戰(zhàn)。

近幾年，基于深度學(xué)習(xí)的目標(biāo)跟蹤方法取得了不錯的研究成果，尤其是基于孿生網(wǎng)絡(luò)的一系列跟蹤器。Bertinetto等[3]首次提出將孿生網(wǎng)絡(luò)應(yīng)用于跟蹤問題中，開創(chuàng)性地將跟蹤問題轉(zhuǎn)化為了相似性學(xué)習(xí)問題，取得了又好又快的效果。而SiamRPN[4]等一系列跟蹤器則將目標(biāo)檢測領(lǐng)域的區(qū)域推薦網(wǎng)絡(luò)(Region Proposal Network,RPN)引入到孿生網(wǎng)絡(luò)中，將跟蹤問題轉(zhuǎn)換為基于孿生網(wǎng)絡(luò)的RPN檢測框架，提供了跟蹤器發(fā)展的新思路。

孿生跟蹤器使用模板匹配的方法，在海量視頻數(shù)據(jù)中進(jìn)行端到端離線訓(xùn)練，因此無法在線更新模板，在面對目標(biāo)發(fā)生特征變化的情況時，跟蹤器容易出現(xiàn)漂移、丟失等。此外，模板匹配方法僅通過目標(biāo)的外觀進(jìn)行推斷，導(dǎo)致豐富的背景上下文信息被忽略，而背景信息對于區(qū)分目標(biāo)周圍的相似物體極為重要。基于這些考慮，本文通過結(jié)合注意力機(jī)制和特征金字塔網(wǎng)絡(luò)，開發(fā)了一種利用豐富的上下文信息來增強(qiáng)目標(biāo)表征能力的孿生跟蹤器，它可以增強(qiáng)目標(biāo)表示，提高RPN的分類和回歸的準(zhǔn)確度，降低復(fù)雜背景和相似物體的影響，從而提高跟蹤器的魯棒性和準(zhǔn)確性。

1 基于增強(qiáng)RPN的孿生網(wǎng)絡(luò)跟蹤算法

本文所提出的SiamERPN(Siamese Enhanced-RPN)算法在SiamRPN++[5]基礎(chǔ)上，使用金字塔式特征融合方法自頂向下融合骨干網(wǎng)絡(luò)，使用通道注意力和空間注意力對RPN進(jìn)行增強(qiáng)，利用豐富的上下文信息提高對目標(biāo)的辨別能力，降低復(fù)雜背景和相似物體的干擾。圖1為本文算法構(gòu)建的網(wǎng)絡(luò)模型框架圖，主要由特征提取網(wǎng)絡(luò)、特征融合模塊和增強(qiáng)RPN三部分組成。

圖1 SiamERPN網(wǎng)絡(luò)結(jié)構(gòu)圖

1.1 孿生網(wǎng)絡(luò)跟蹤器

Bertinetto在文獻(xiàn)[3]中通過將孿生網(wǎng)絡(luò)應(yīng)用在目標(biāo)跟蹤，把實(shí)現(xiàn)跟蹤轉(zhuǎn)變?yōu)榱私鉀Q相似性學(xué)習(xí)問題。孿生跟蹤器包含初始幀目標(biāo)模板圖像z和當(dāng)前幀搜索圖像x兩個輸入，分別經(jīng)過共享參數(shù)φ的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network，CNN)映射到相同的特征空間中，然后應(yīng)用相似性度量函數(shù)g(φ(x)、φ(z))來衡量兩者間的的相似性，在響應(yīng)值最大的位置估計(jì)目標(biāo)狀態(tài)。SiamRPN把RPN[6]與孿生網(wǎng)絡(luò)結(jié)合，將φ(z)和φ(x)使用上行通道(up-channel)互相關(guān)計(jì)算后送入RPN生成密集響應(yīng)圖，以實(shí)現(xiàn)基于RPN的目標(biāo)跟蹤。

SiamRPN++則在SiamRPN的基礎(chǔ)上通過改變采樣方式消除了嚴(yán)格平移不變性被破壞所帶來的影響，使孿生網(wǎng)絡(luò)可以利用現(xiàn)代化網(wǎng)絡(luò)如ResNet[7]，從而提高了孿生跟蹤器特征提取網(wǎng)絡(luò)的性能。聚合多層特征并建立多個RPN以更準(zhǔn)確地預(yù)測目標(biāo)狀態(tài)。另外，將上行通道互相關(guān)替換為深度(depthwise)互相關(guān)，減少了大量的參數(shù)，提升了跟蹤器速度。本文的方法延續(xù)了 SiamRPN++的思想，使用較深的ResNet-50作為骨干網(wǎng)絡(luò)，采用深度互相關(guān)和多層特征融合策略。但相比于SiamRPN++的多RPN線性融合，本文提出了一種金字塔式特征層融合方法對骨干網(wǎng)絡(luò)進(jìn)行增強(qiáng)，提高對目標(biāo)的表征能力，另外，本文還引入增強(qiáng)RPN模塊以強(qiáng)化RPN對前背景分類和邊界框回歸的準(zhǔn)確性。

1.2 增強(qiáng)RPN

RPN使用滑動窗口技術(shù)在特征圖的每個位置都生成k個矩形錨框(anchor)，通過對可能包含物體的錨框進(jìn)行回歸，最終得到精確的目標(biāo)邊界框。RPN包含兩個分支：分類和回歸，我們將目標(biāo)模板和搜索圖像的特征進(jìn)行深度互卷積以送入這兩個分支進(jìn)行訓(xùn)練。其中，分類分支的任務(wù)是判別每個錨框?qū)儆谀繕?biāo)還是背景，即二分類任務(wù)，因此進(jìn)行深度互相關(guān)后得到2k個特征，分類分支針對這些特征進(jìn)行前背景判別?；貧w分支的任務(wù)是對生成的錨框進(jìn)行回歸計(jì)算，得到較為準(zhǔn)確的邊界框。由于以[x,y,w,h]來表示一個錨框的范圍，因此k個錨框最終得到4k個特征，回歸分支將這些特征轉(zhuǎn)變?yōu)楦泳_的邊界框。

如圖2所示，增強(qiáng)RPN模塊以骨干網(wǎng)絡(luò)計(jì)算的卷積特征作為輸入，通過應(yīng)用注意力機(jī)制輸出增強(qiáng)后的分類和回歸結(jié)果，其包含RPN和注意力模塊兩個部分。

圖2 增強(qiáng)RPN結(jié)構(gòu)圖

RPN的分類分支關(guān)注特征圖中的語義部分，文獻(xiàn)[6]闡述了特征圖中不同的通道對特定目標(biāo)具有不同的響應(yīng)這一特點(diǎn)，即對不同目標(biāo),有些特征通道可能更為重要,而有些通道則可能完全無關(guān)，這種無關(guān)于目標(biāo)語義的特征通道常常會影響模型的相似性計(jì)算過程,進(jìn)而影響跟蹤結(jié)果，因此使用通道注意力，通過建模特征通道間的依賴關(guān)系以及提取各通道的權(quán)重來增強(qiáng)特定通道對語義的響應(yīng)，降低無關(guān)通道的影響。另一方面，回歸分支關(guān)注特征圖中目標(biāo)的空間位置，自然地，考慮使用空間注意力對特征圖進(jìn)行增強(qiáng)，突出目標(biāo)的空間位置，以獲得更好的回歸結(jié)果。

如圖3所示，使用X∈C×Hx×Wx和Z∈C×Hz×Wz表示目標(biāo)模板和搜索圖像的特征，以分類為例，搜索圖像的特征圖C×Hx×Wx送入RPN后使用CBAM(Convolutional Block Attention Module)[8]進(jìn)行注意力增強(qiáng)。首先經(jīng)過通道注意力模塊。CBAM使用平均池化和最大池化來聚合的上下文信息生成和兩個特征，然后將這兩個特征送入共享權(quán)重的多層感知機(jī)(Multi-Layer Perceptron，MLP)，MLP包含一個隱藏層。為了減少開銷，在隱藏層中引入了壓縮率r，使隱藏層神經(jīng)元個數(shù)變?yōu)镃/r。經(jīng)過MLP得到通道權(quán)重Mc，最后與原特征相乘，輸出通道增強(qiáng)后的特征即

(a)通道注意力網(wǎng)絡(luò)結(jié)構(gòu)圖

(b)空間注意力網(wǎng)絡(luò)結(jié)構(gòu)圖圖3 注意力結(jié)構(gòu)圖

(1)

式中：Mc表示通道權(quán)重，σ表示sigmoid激活函數(shù)，AvgPool和MaxPool分別表示平均池化和最大池化，MLP代表多層感知機(jī)，W0∈C/r×C和W1∈C×C/r是MLP的隱藏層權(quán)重和輸出層權(quán)重。

(2)

式中：Ms表示空間位置權(quán)重，f7×7代表7×7卷積層。

1.3 特征提取網(wǎng)絡(luò)

采用較深的網(wǎng)絡(luò)ResNet-50作為骨干網(wǎng)絡(luò)，以獲得更好的特征提取能力。由于單層特征對目標(biāo)跟蹤來說較為乏力，無法同時提供不同分辨率、多尺度、豐富語義和較細(xì)的外觀特征，而且對于ResNet來說，特征層之間的跨度較大，低層關(guān)注外觀特征等低級信息，可以幫助建模目標(biāo)外觀，高層關(guān)注語義這一高級信息，在面對物體形變遮擋等問題時具有良好的表現(xiàn)，因此考慮使用多個特征層進(jìn)行融合以解決前述弊端，提高骨干網(wǎng)絡(luò)的表達(dá)能力。

SiamRPN++嘗試使用ResNet的多個特征層來提高表達(dá)能力，但其僅對conv3_x,conv4_x,conv5_x三個特征層進(jìn)行線性加權(quán)求和，沒有較好地利用淺層外觀特征和深層語義。因此受文獻(xiàn)[9]的啟發(fā)，采用了金字塔式融合特征層的方法，即深層語義指導(dǎo)淺層特征，以實(shí)現(xiàn)多層特征更有效的融合，同時邊融合邊檢測，在特征融合的基礎(chǔ)上對RPN進(jìn)行線性加權(quán)，以得到更精確的結(jié)果，如圖4所示。

圖4 金字塔式特征融合結(jié)構(gòu)圖

采用邊融合邊檢測目標(biāo)的思路，首先將最深的特征層F5使用雙線性插值法上采樣到特征層F4的分辨率，與F4進(jìn)行線性相加得到F45，送入RPN1，最后將F45上采樣到F3的分辨率并與之相加，送入RPN2，從而實(shí)現(xiàn)語義指導(dǎo)的特征層融合，提高骨干網(wǎng)絡(luò)的特征提取能力。另一方面，對于送入RPN的256維特征圖，每層特征圖上的每個位置都會產(chǎn)生5個尺度的錨框，在分類分支中每個錨框會得到維度為2的得分圖進(jìn)行前背景分類，即特征圖的每個位置都會產(chǎn)生共2 560個參數(shù)。因此每增加RPN的數(shù)量都會引入大量參數(shù)，增加網(wǎng)絡(luò)的時間復(fù)雜度，降低跟蹤器的速度。同時，采用conv5_x特征的RPN跟蹤效果較差[5]。綜合以上考慮，為了使跟蹤器在速度與跟蹤效果上更加平衡，相比于基線算法，我們精簡了conv5_x對應(yīng)的RPN。

最后，將RPN1和RPN2進(jìn)行加權(quán)求和，權(quán)重初始值為1，作為可學(xué)習(xí)參數(shù)在端到端的訓(xùn)練中自適應(yīng)地確定，以得到更加精細(xì)的跟蹤結(jié)果：

(3)

2 實(shí)驗(yàn)與分析

2.1 訓(xùn)練集和驗(yàn)證集

在本文提出的算法結(jié)構(gòu)中，骨干網(wǎng)絡(luò)使用ImageNet[10]的圖像分類預(yù)訓(xùn)練數(shù)據(jù)進(jìn)行初始化，整個網(wǎng)絡(luò)在COCO[11]、ImageNet VID、Youtube-BoundingBoxes[12]數(shù)據(jù)集中進(jìn)行端到端訓(xùn)練。根據(jù)孿生網(wǎng)絡(luò)的核心思想即相似性學(xué)習(xí)，將訓(xùn)練集原圖像通過平移、裁切等方法進(jìn)行擴(kuò)充為多個包含目標(biāo)的不同圖像，使網(wǎng)絡(luò)學(xué)習(xí)衡量對象相似性的方法。

采用OTB100[13]數(shù)據(jù)集進(jìn)行算法結(jié)果的測試驗(yàn)證和對比。OTB100是目標(biāo)跟蹤最常用的評價數(shù)據(jù)集之一，包含有100個視頻序列，通過精度和成功率的曲線下面積得分(Area under Curve， AUC)來評價跟蹤器的準(zhǔn)確性和魯棒性，其中精度表示算法估計(jì)坐標(biāo)與真實(shí)坐標(biāo)在給定歐氏距離閾值下的幀數(shù)所占百分比，成功率則代表算法估計(jì)邊界框和真實(shí)邊界框在一定閾值下的重疊區(qū)域比例。

2.2 實(shí)現(xiàn)細(xì)節(jié)

采用AMD 5700x、nVidia RTX3090作為實(shí)驗(yàn)平臺，基于Windows 10 x64、python 3.6和pytorch 1.8進(jìn)行開發(fā)。

跟蹤器的骨干網(wǎng)絡(luò)使用減少步長的ResNet-50，RPN使用[0.33,0.5,1,2,3]這5種不同尺度的錨框，采用0.9動量的隨機(jī)梯度下降法作為優(yōu)化算法。遵循SiamFC，跟蹤器的模板分支輸入采用127×127大小的圖像，搜索分支則使用255×255的圖像。整個網(wǎng)絡(luò)采用端到端的方式訓(xùn)練了20輪，前10輪凍結(jié)骨干網(wǎng)絡(luò)，后10輪將參與特征融合的骨干網(wǎng)絡(luò)3、4、5層卷積層加入訓(xùn)練中。

2.3 實(shí)驗(yàn)結(jié)果

2.3.1 定量分析

為了全面對比驗(yàn)證本文所提算法的有效性，選取了目標(biāo)跟蹤領(lǐng)域較為優(yōu)秀和經(jīng)典的算法KCF[14]、SRDCF[15]、BACF[16]、DeepSRDCF[17]、SiamFC、CFNet[18]、SiamRPN、ATOM[19]，SiamRPN++共9種算法一并進(jìn)行跟蹤效果的測試，其中SiamRPN++為本文算法的基線。首先在OTB100數(shù)據(jù)集中進(jìn)行測試，實(shí)驗(yàn)結(jié)果如圖5所示，除本文算法外的實(shí)驗(yàn)數(shù)據(jù)來自文獻(xiàn)[20]的公開成果。

(a)算法成功率圖

(b)算法精度圖圖5 10種算法在OTB100數(shù)據(jù)集上的運(yùn)行結(jié)果對比

為了更直觀地進(jìn)行算法對比，將結(jié)果整理為表1，粗體為排名第1，斜體為排名第2，下同?？梢钥闯?，本文算法具有0.668的成功率AUC和0.876的精度AUC，不僅比對比基線算法成功率提升了9.1%，精度提升了5.1%，而且相比于排名第二的ATOM算法也有1.5%的成功率和1.9%的精度提升，與其他算法相比提升更大，表現(xiàn)出了良好的跟蹤精度和魯棒性。

表1 10種算法在OTB100數(shù)據(jù)集上的運(yùn)行結(jié)果表

OTB數(shù)據(jù)集不僅可以評價算法的總體性能，其包含的不同屬性視頻序列可以測試算法在面對不同挑戰(zhàn)時的表現(xiàn)，以進(jìn)行更細(xì)粒度的評價。OTB主要包含有遮擋(occlusion，OC)、光照變化(illumination variation，IV)、運(yùn)動模糊(motion blur，MB)、視野外(out of view，OV)、尺度變化(scale variation，SV)、背景干擾(background clutter，BC)、快速移動(fast motion，F(xiàn)M)、形變(deformation，DEF)、平面內(nèi)旋轉(zhuǎn)(in-plane rotation，IPR)、低分辨率(low resolution，LR)、平面外旋轉(zhuǎn)(out-of-plane rotation，OPR)等11種挑戰(zhàn)，表2和表3給出了前述算法在這些挑戰(zhàn)中的成功率和精度?？梢钥闯?， SiamERPN在11種挑戰(zhàn)中除了DEF稍弱于基線算法，BC和OC稍弱于其他算法外，成功率和精度均取得了較為優(yōu)秀的表現(xiàn)，這得益于注意力機(jī)制對RPN的增強(qiáng)，以及特征融合對骨干網(wǎng)絡(luò)特征提取能力的提升。

表2 10種算法在OTB100數(shù)據(jù)集11種挑戰(zhàn)中的成功率表

表3 10種算法在OTB100數(shù)據(jù)集11種挑戰(zhàn)中的精度表

2.3.2 定性分析

為了更加直觀地對比展示SiamERPN與其他算法的差異，選擇OTB100中的6個視頻序列Box、Football1、Matrix、MotorRolling和Trellis，將包含SiamERPN在內(nèi)的5個跟蹤結(jié)果可視化，進(jìn)行定性分析。這6個視頻序列囊括了前述11種目標(biāo)跟蹤挑戰(zhàn)，可以比較全面地分析跟蹤器效果，測試結(jié)果如圖6所示，其中黑色代表本文提出的SiamERPN算法，紅色為本文的基線算法SiamRPN++，綠色為經(jīng)典算法SiamFC，白色ATOM和藍(lán)色CFNet則是較為優(yōu)秀的孿生網(wǎng)絡(luò)改進(jìn)算法。

在Box序列中，在面對物體發(fā)生旋轉(zhuǎn)、遮擋和相似物體干擾時，SiamFC總是跟蹤相似物體，ATOM和SiamRPN++不同程度的發(fā)生誤判，而SiamERPN和CFNet跟蹤魯棒性較強(qiáng)，其中SiamERPN在物體旋轉(zhuǎn)時具有較高的跟蹤精度，可以將物體側(cè)面也納入標(biāo)注范圍。在Football1序列中，目標(biāo)快速運(yùn)動和旋轉(zhuǎn)，產(chǎn)生運(yùn)動模糊的同時多個球員作為密集干擾項(xiàng)阻礙跟蹤器判斷，SiamERPN可以穩(wěn)定且精準(zhǔn)進(jìn)行跟蹤，四個對比算法則發(fā)生丟失和精度過低的問題。在Matrix、MotorRolling和Trellis三個序列中，目標(biāo)發(fā)生快速反復(fù)的明暗變化，同時Matrix中有較強(qiáng)的遮擋干擾，可以看到，除SiamERPN和基線算法表現(xiàn)良好外，其他三個算法均出現(xiàn)不同程度的錯誤。而在Bird1序列中，面對長時間的阻擋，幾種算法均出現(xiàn)了不同程度的漂移，阻擋消失后，除ATOM外的算法均錯誤地跟蹤到相似目標(biāo)。綜上，SiamERPN在表現(xiàn)出良好性能的同時仍有一定的局限性。

2.3.3 速度分析

目標(biāo)跟蹤作為一種實(shí)時性算法，對運(yùn)行速度具有一定的要求(15 frame/s)[21]。為驗(yàn)證本文算法具有一定的高效性，將SiamERPN與經(jīng)典孿生網(wǎng)絡(luò)算法進(jìn)行速度的橫向?qū)Ρ?。?展示了4種算法在OTB數(shù)據(jù)集中的測試結(jié)果，其中SiamERPN(w/o attention)表示只包含有特征融合模塊的本文算法，用以驗(yàn)證該模塊對算法速度的影響。

可以看出，SiamERPN的速度均弱于對比算法，這是注意力模塊和RPN的大量參數(shù)導(dǎo)致的，但SiamERPN與基準(zhǔn)算法的速度差距較小，且符合實(shí)時性的要求，同時性能表現(xiàn)具有較大優(yōu)勢，綜上來看，SiamERPN可以很好地實(shí)現(xiàn)速度與性能的平衡。另一方面，SiamERPN(w/o attention)的結(jié)果顯示，即使經(jīng)過上采樣等操作，在剪枝RPN后仍可以實(shí)現(xiàn)與基準(zhǔn)算法相近的速度，說明精簡RPN數(shù)量對平衡速度和性能是有幫助的。

3 結(jié) 論

本文提出了一種基于注意力增強(qiáng)的RPN和金字塔式特征融合的目標(biāo)跟蹤算法SiamERPN，對現(xiàn)有SiamRPN++算法進(jìn)行了改進(jìn)。首先利用注意力機(jī)制對RPN進(jìn)行改進(jìn)，通過通道注意力和空間注意力突出目標(biāo)的語義特征和空間位置，使RPN可以獲得更好的前背景分類和邊界框回歸結(jié)果；然后針對SiamRPN++的特征融合機(jī)制提出了一種改進(jìn)方法，通過金字塔式自頂向下融合實(shí)現(xiàn)具有豐富語義的細(xì)粒度檢測。實(shí)驗(yàn)結(jié)果表明，本文所提算法的性能相比基線算法具有一定的提高，同時RPN數(shù)量的降低減少了網(wǎng)絡(luò)復(fù)雜度，實(shí)現(xiàn)了跟蹤器在速度與跟蹤效果上的平衡。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡