徐淑萍,萬亞娟
(西安工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,西安 710021)
近年來,隨著科技的不斷發(fā)展,目標(biāo)跟蹤在無人駕駛、智能交通、人機(jī)交互等多個(gè)領(lǐng)域得到了廣泛的應(yīng)用,具有良好的發(fā)展前景[1-3]。然而,在實(shí)際跟蹤場景中,往往會遇到背景雜亂、遮擋、形變等干擾因素,所以構(gòu)建一種準(zhǔn)確、魯棒的目標(biāo)跟蹤算法仍然是一個(gè)極具挑戰(zhàn)性的問題[4]。
近年來,基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法因?yàn)槠鋬?yōu)異的跟蹤性能和較好的實(shí)時(shí)性而得到了廣泛的關(guān)注[5-6]。文獻(xiàn)[7]提出的全卷積孿生網(wǎng)絡(luò)(Fully-Convolutional Siamese Networks,SiamFC)目標(biāo)跟蹤算法將跟蹤問題看做是模板匹配問題,無需更新模板,速度快且準(zhǔn)確率高,但因尺度問題導(dǎo)致魯棒性不強(qiáng)。文獻(xiàn)[8]提出的孿生區(qū)域建議網(wǎng)絡(luò)( Siamese Region Proposal Network,SiamRPN)目標(biāo)跟蹤算法將跟蹤任務(wù)看做是單樣本檢測,在SiamFC的基礎(chǔ)上加入了區(qū)域建議網(wǎng)絡(luò)[9](Region Proposal Network,RPN),可得到目標(biāo)邊界框的位置和形狀,有效的減少了尺度變化的影響,但模型的泛化能力較弱,目標(biāo)丟失時(shí)仍能有較大響應(yīng)1。為進(jìn)一步提升孿生網(wǎng)絡(luò)的跟蹤性能,文獻(xiàn)[10]提出了深層網(wǎng)絡(luò)的孿生區(qū)域建議(Siamese Region Proposal Network with Very Deep Network,SiamRPN++)跟蹤算法,在互相關(guān)部分引入了一個(gè)逐層特征聚合結(jié)構(gòu),設(shè)計(jì)了三層級聯(lián)RPN并使用深度互相關(guān)機(jī)制,增強(qiáng)了算法的魯棒性;文獻(xiàn)[11]提出的淺中深特征融合孿生網(wǎng)絡(luò)(Shallow-Middle-Deep Feature Fusion Siamese Network,SiamSMDFF)跟蹤算法,將淺中深層特征相融合以獲得互補(bǔ)特征映射,對目標(biāo)進(jìn)行準(zhǔn)確定位。隨著注意力機(jī)制的發(fā)展,將注意力機(jī)制嵌入到孿生網(wǎng)絡(luò)中成為了研究的熱點(diǎn)。文獻(xiàn)[12]提出孿生注意力網(wǎng)絡(luò)(Siamese Attention Network,SiamAttN),將注意力機(jī)制引入RPN網(wǎng)絡(luò),通過加權(quán)融合分類分支和注意力分支的得分來區(qū)分正負(fù)樣本;文獻(xiàn)[13]提出孿生目標(biāo)感知網(wǎng)絡(luò)(Siamese Object-Aware Network,SiamOAN),在主干網(wǎng)絡(luò)部分引入通道注意力,自適應(yīng)的識別目標(biāo)的重要特征,一定程度上減少了背景干擾。以上跟蹤算法雖然取得了一定的成果,但在實(shí)際復(fù)雜場景中仍有一些局限性。算法只使用從最后一層卷積層提取到的語義特征而忽略了有助于區(qū)分目標(biāo)和背景的細(xì)節(jié)特征;算法很少使用注意力機(jī)制或只使用通道注意力機(jī)制,只關(guān)注各個(gè)不同通道的重要程度,而忽略了目標(biāo)的空間信息。在相似物干擾和遮擋因素干擾下,很容易出現(xiàn)目標(biāo)丟失與錯(cuò)誤跟蹤,降低跟蹤精度。
綜合上述分析,文中基于SiamRPN跟蹤算法,并結(jié)合多層特征融合算法,引入自適應(yīng)加權(quán)網(wǎng)絡(luò),設(shè)計(jì)一種基于孿生網(wǎng)絡(luò)特征融合與自適應(yīng)加權(quán)的跟蹤算法,減少實(shí)際跟蹤過程中因遮擋和環(huán)境干擾對結(jié)果的影響,提升跟蹤的精度和穩(wěn)定性。
多層特征融合與自適應(yīng)加權(quán)的孿生區(qū)域建議(Multi-Layer Feature Fusion and Adaptive Weighting Siamese Region Proposal Network,MFFAW-SiamRPN)跟蹤算法在SiamRPN算法的基礎(chǔ)上融入了特征融合模塊和自適應(yīng)加權(quán)網(wǎng)絡(luò),算法框架如圖1所示。
圖1 MFAW-SiamRPN算法框架圖Fig.1 The framework of MFAW-SiamRPN algorithm
在特征提取網(wǎng)絡(luò)部分嵌入特征融合模塊,融合網(wǎng)絡(luò)的深層和淺層信息,豐富目標(biāo)的特征表示能力;在特征提取網(wǎng)絡(luò)末端嵌入特征自適應(yīng)加權(quán)網(wǎng)絡(luò),關(guān)注各個(gè)通道和區(qū)域位置上的重要特征,提高網(wǎng)絡(luò)的適應(yīng)性和辨別能力;將上述數(shù)據(jù)輸入到RPN網(wǎng)絡(luò)進(jìn)行相似度計(jì)算,輸出目標(biāo)當(dāng)前幀的預(yù)測邊界框位置。
SiamRPN跟蹤算法只采用主干網(wǎng)絡(luò)最后一層卷積層的特征來描述被跟蹤目標(biāo),文中為避免因特征提取不充分而導(dǎo)致無法辨別目標(biāo)和相似干擾物的問題,提出多層特征融合模塊,具體如圖2所示。
圖2 多層特征融合模塊圖Fig.2 Multi-layer feature fusion module
在圖2中,C={C1,C2,C3,C4,C5}表示在主干網(wǎng)絡(luò)的每個(gè)階段獲得的特征映射,其中C5是最后一層卷積層的特征圖,將其作為skipASPP模塊的輸入。與傳統(tǒng)卷積相比,空洞卷積可以在不增加核參數(shù)數(shù)量的情況下獲得更大的感受野,在skipASPP模塊,使用膨脹率大小分別是1,2,5的空洞卷積進(jìn)行跳躍連接,以增強(qiáng)每個(gè)卷積塊的輸入和輸出的交互功能,skipASPP模塊的工作原理為
(1)
式中:Si為每個(gè)空洞卷積的操作;⊕為兩個(gè)特征圖按元素相加;outi為每個(gè)空洞卷積塊輸出的結(jié)果。skipASPP模塊最后的輸出為
out=S1(C5)⊕S2(out1)⊕S3(out2)。
(2)
將skipASPP模塊的輸出與C5進(jìn)行add運(yùn)算,得到M5,對M5進(jìn)行連續(xù)上采樣,并與主干網(wǎng)絡(luò)經(jīng)過橫向連接輸出的特征圖相結(jié)合,輸出不同尺寸大小的特征圖M4-M1。為了減少多次上采樣產(chǎn)生的混疊失真效應(yīng)的影響,通過調(diào)整并平均M1,M2,M4,M5到與M3相同尺寸大小來獲得更充分的圖像上下文和感受野信息,最終得到特征圖M。
雖然在孿生網(wǎng)絡(luò)特征提取部分加入了多層特征融合模塊使提取到的特征包含豐富的深層語義特征和淺層細(xì)節(jié)特征,但是在遮擋、運(yùn)動模糊、光照變化等干擾因素的影響下,網(wǎng)絡(luò)的魯棒性依然很差。主要是因?yàn)椴煌ǖ馈⒉煌瑓^(qū)域的特征圖對整個(gè)跟蹤過程的貢獻(xiàn)是有差異的,將特征圖的不同通道或區(qū)域同等對待取相同的權(quán)重是不合理的,所以引入特征自適應(yīng)加權(quán)網(wǎng)絡(luò)對不同通道、不同區(qū)域進(jìn)行自適應(yīng)權(quán)重計(jì)算,詳細(xì)的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。從圖中可以看出,該網(wǎng)絡(luò)由通道注意力、整體-部分網(wǎng)絡(luò)、空間注意力三部分組成,每部分的詳細(xì)介紹如下。
圖3 特征自適應(yīng)加權(quán)網(wǎng)絡(luò)Fig.3 Feature adaptive weighted network
1.2.1 空間注意力
空間注意力更注重對目標(biāo)位置特征的描述[14],也是對通道注意力的一種補(bǔ)充,利用不同通道中各個(gè)位置之間的關(guān)系來構(gòu)建空間注意力,對目標(biāo)特征信息中最豐富的區(qū)域予以更多的關(guān)注[15]??臻g注意力模塊將孿生網(wǎng)絡(luò)特征提取部分輸出的特征圖作為輸入,沿通道方向分別對特征圖上的各個(gè)位置做全局平均池化(GAP)和全局最大池化(GMP),獲得2個(gè)大小是w×h的單通道特征圖像,將其沿通道方向進(jìn)行特征拼接后變成大小是w×h的雙通道特征圖;之后利用隱藏層對得到的特征圖進(jìn)行卷積,將其映射到同一特征空間;卷積結(jié)果經(jīng)過Sigmoid激活函數(shù)激活之后可以生成一個(gè)二維的空間注意力圖Fs,公式為
Fs=σ(Conv(Concat(GAP(F),GMP(F)))),
(3)
式中:GAP,GMP分別為全局平均池化、全局最大池化;Concat為特征拼接;Conv為卷積操作;σ為Sigmoid激活函數(shù)。
1.2.2 整體-部分網(wǎng)絡(luò)
為了改善特征位置的空間不變性,描述全局特征和局部特征之間的語義關(guān)系[16-17],提出一種整體-部分網(wǎng)絡(luò),主要過程是:將一個(gè)完整的特征圖劃分成多個(gè)小區(qū)域;在學(xué)習(xí)被拆解的部分之間的強(qiáng)的語義依賴的時(shí)候,把這幾個(gè)部分的模型整合到一起;結(jié)合全部外觀模型和局部外觀模型的特征圖,用于之后的目標(biāo)分類和回歸。具體操作如圖3所示,使用因子為2的雙線性插值法將經(jīng)過多層特征融合模塊后得到的特征圖F上采樣得到新的特征圖F′,使用裁剪操作將其切分成上下左右四個(gè)部分,使用max函數(shù)融合部分特征映射和整體特征映射得到一個(gè)新的同樣大小的特征映射Fn,其定義為
(4)
其中p,q分別為上下左右的每一部分、兩部分組合后的部分(左-右或者上-下)或者四部分的融合。將經(jīng)過空間注意力處理后得到的特征映射與經(jīng)過整體-部分網(wǎng)絡(luò)處理后的特征映射相加,得到的新的特征映射Fm作為通道注意力部分的輸入。
1.2.3 通道注意力
通過卷積層可以提取到多通道的特征圖,每個(gè)通道的特征圖代表的是顏色、邊緣、紋理等不同種類的信息[18]。在實(shí)際的跟蹤場景中,不同通道的特征圖的貢獻(xiàn)是不一樣的[19],有些通道包含的信息可能很關(guān)鍵很有意義而有的通道可能不包含信息或者包含一些無用的信息,所以可以通過通道注意力給不同的通道分配不同的權(quán)重,有選擇的提取目標(biāo)的特征,提高模型的判別力。
單獨(dú)使用GAP或GMP可能會忽略掉通道內(nèi)的部分特征信息,所以為了獲得更全面的特征信息,文中的通道注意力融合全局平均池化和全局最大池化;同時(shí)在不降低通道維數(shù)的情況下采用快速一維卷積實(shí)現(xiàn)跨通道信息交互,但這種方法只捕獲了每個(gè)通道與其相鄰k個(gè)通道之間的局部跨通道交互,可能會失去與其他通道之間的交互,為了解決這個(gè)問題,在融合后的特征圖上增加一個(gè)新的分支,通過通道混洗后該通道再與其相鄰的k個(gè)通道進(jìn)行局部跨通道交互以捕獲不同的信息。
文中提出的通道注意力網(wǎng)絡(luò)如圖3所示,輸入的特征Fm∈RC×H×W,其中C,H,W分別為特征圖的通道數(shù)、高、寬。對輸入的特征圖分別進(jìn)行全局平均池化和全局最大池化,將得到的結(jié)果進(jìn)行逐點(diǎn)相加,公式為
y=GAP(Fm)⊕GMP(Fm)。
(5)
在新分支上對y進(jìn)行通道混洗操作,假設(shè)特征圖y被分成g組,每組有n個(gè)通道,將特征圖y的通道尺寸重塑為g×n,轉(zhuǎn)置,將其展平得到y(tǒng)1。
接下來使用快速一維卷積來捕獲局部跨通道信道交互,公式為
w1=σ(C1DK(y)),
(6)
w2=σ(C1DK(y1)),
(7)
其中卷積核k的大小可以通過自適應(yīng)計(jì)算得到,具體計(jì)算公式為
(8)
使用特征相加的方式將兩個(gè)分支的特征向量進(jìn)行融合,將得到的權(quán)值矩陣與特征圖Fm相乘得到最終的特征圖Fu。
MFAW-SiamRPN使用區(qū)域建議網(wǎng)絡(luò)(RPN)實(shí)現(xiàn)目標(biāo)的分類和回歸,其中分類主要是用來鑒別前景和背景,回歸主要是為了生成候選區(qū)域,從而獲取邊界框的正確位置,其框架結(jié)構(gòu)如圖1所示。將通過特征提取網(wǎng)絡(luò)、特征自適應(yīng)加權(quán)網(wǎng)絡(luò)后得到的模板特征圖φ(z)和搜索特征圖φ(x)作為輸入;使用兩個(gè)3×3的卷積層將φ(z)的通道數(shù)提升到2k和4k,得到的兩個(gè)卷積層中[Φ(z)]cls用于分類,[Φ(z)]reg用于回歸,其中k代表錨框的數(shù)量,使用兩個(gè)大小為3×3通道數(shù)不變的卷積層將φ(x)變成大小為20×20×256的卷積層;在模板分支和搜索分支上計(jì)算φ(z)和φ(x)的相關(guān)性。為了訓(xùn)練文中提出的MFAWSiamRPN算法,分類分支采用交叉熵?fù)p失函數(shù),而回歸分支采用smoothL1損失函數(shù)。用Ax,Ay,Aw,Ah為錨框的中心點(diǎn)坐標(biāo)和尺寸,用Tx,Ty,Tw,Th為真實(shí)框的中心點(diǎn)坐標(biāo)和尺寸大小,對坐標(biāo)偏移量進(jìn)行標(biāo)準(zhǔn)化處理,公式為
(9)
通過smoothL1來計(jì)算回歸分支的損失,公式為
(10)
所以網(wǎng)絡(luò)整體的損失函數(shù)計(jì)算公式為
loss=Lcls+λLreg,
(11)
式中:λ為平衡分類和回歸兩部分的超參數(shù);Lreg為smoothL1損失;Lcls為交叉熵?fù)p失;其計(jì)算公式為
(12)
用Pytorch深度學(xué)習(xí)框架在PC機(jī)上實(shí)現(xiàn),GPU為GetForce RTX 2080Ti,內(nèi)存大小是64 G。算法基于Python語言編寫,使用標(biāo)準(zhǔn)差為0.01、均值為0的高斯分布初始化主干網(wǎng)絡(luò)。算法所使用的到的數(shù)據(jù)集有GOT10k,OTB2015,VOT2018,使用動量為0.9,權(quán)重衰減為0.000 5的隨機(jī)梯度下降算法(SGD)對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,共進(jìn)行50輪迭代,其中前五輪主要用來預(yù)熱,學(xué)習(xí)率從0.001線性增加到0.005,在剩下的45輪訓(xùn)練中,學(xué)習(xí)率從0.005呈指數(shù)衰減到0.000 01,每輪訓(xùn)練的批尺寸大小為16。
在OTB2015、VOT2018數(shù)據(jù)集上將MFAW-SiamRPN算法與其他已有的先進(jìn)的跟蹤器進(jìn)行比較,文中所提算法取得了較為優(yōu)異的結(jié)果。
2.2.1 VOT2018結(jié)果分析
VOT2018數(shù)據(jù)集包括60個(gè)視頻序列,具有遮擋、形變等不同的挑戰(zhàn)屬性,評價(jià)指標(biāo)包括準(zhǔn)確率、期望平均重疊率等。其中準(zhǔn)確率代表預(yù)測的目標(biāo)的中心位置和目標(biāo)實(shí)際的中心位置之間的平均歐氏距離小于給定閾值的幀數(shù)與總視頻幀數(shù)之間的比率,用百分比的形式表示;期望平均重疊率(Expected Average Overlap,EAO)是將不同長度序列求得的準(zhǔn)確率的平均值再取平均,所求結(jié)果是一個(gè)百分?jǐn)?shù);魯棒性用來評價(jià)跟蹤器是否穩(wěn)定,數(shù)值越大,穩(wěn)定性越差。目標(biāo)預(yù)測框和真實(shí)框之間的交并比為0時(shí)代表跟蹤失敗,魯棒性的計(jì)算公式為跟蹤失敗次數(shù)與總的跟蹤次數(shù)之間的比率,用一個(gè)百分?jǐn)?shù)來表示。將MFAW-SiamRPN算法與Staple[20],KCF[21],SiamFC,SiamRPN,DaSiamRPN[22],ECO[23]六種主流的跟蹤算法進(jìn)行比較,實(shí)驗(yàn)結(jié)果見表1。
表1 VOT2018測試結(jié)果Tab.1 VOT2018 test results
可以看出,文中提出的跟蹤器取得了比較好的效果,雖然準(zhǔn)確率略低于DaSiamRPN,但在EAO值和魯棒性上均優(yōu)于其他算法。圖4為不同算法的EAO排序圖,橫坐標(biāo)為排名,縱坐標(biāo)為EAO值。
圖4 VOT2018數(shù)據(jù)集期望平均重疊率圖Fig.4 VOT2018 dataset expected average overlap rate
從圖4可以看出,文中提出的跟蹤器的EAO值達(dá)到了0.406,相比于基準(zhǔn)跟蹤器SiamRPN提高了2.3%。綜合表明,MFAW-SiamRPN跟蹤算法整體性能不錯(cuò),可以達(dá)到比較好的跟蹤效果。
2.2.2 OTB2015結(jié)果分析
OTB2015由100個(gè)視頻序列組成,擁有遮擋、形變等11種挑戰(zhàn)屬性,評價(jià)指標(biāo)為準(zhǔn)確率、成功率。成功率代表目標(biāo)的預(yù)測框和真實(shí)框之間的交并比(IOU)大于設(shè)定的閾值的幀數(shù)占總視頻幀數(shù)的比率,其中準(zhǔn)確率、成功率越高,跟蹤器的性能就越好。
將MFAW-SiamRPN算法與其他六種現(xiàn)有的跟蹤算法Staple,KCF,CFNet,SiamFC,SiamRPN,DASiamRPN進(jìn)行對比,在OTB2015上的實(shí)驗(yàn)結(jié)果如圖5所示。其中圖5(a)中,縱軸代表成功率,橫軸代表預(yù)測框與真實(shí)框之間的重疊率,以百分比的形式表示;圖5(b)中,縱軸代表準(zhǔn)確率,橫軸是設(shè)置的不同的像素值范圍;從圖中可以看出,MFAW-SiamRPN算法的準(zhǔn)確率為0.872,成功率為0.664,相比于基準(zhǔn)跟蹤器SiamRPN,準(zhǔn)確率增加了2.5%,成功率增加了2.8%。結(jié)果表明,MFAW-SiamRPN算法能提取到更豐富的特征,網(wǎng)絡(luò)具有更強(qiáng)的適應(yīng)性,跟蹤效果較好。
圖5 OTB2015實(shí)驗(yàn)結(jié)果圖Fig.5 OTB2015 experimental results
為了全面評估MFAW-SiamRPN跟蹤算法在各種挑戰(zhàn)屬性上的性能,將MFAW-SiamRPN算法與其他已有的跟蹤算法在含有11種不同挑戰(zhàn)屬性的圖像序列上進(jìn)行對比實(shí)驗(yàn),結(jié)果如圖6~7所示。
圖6 OTB2015的11種挑戰(zhàn)屬性上的準(zhǔn)確率Fig.6 Accuracy on 11 challenge attributes of OTB2015
圖7 OTB2015的11種挑戰(zhàn)屬性上的成功率Fig.7 Success rate on 11 challenge attributes of OTB2015
實(shí)驗(yàn)表明,MFAW-SiamRPN算法能夠很好地應(yīng)對復(fù)雜環(huán)境中的各種挑戰(zhàn),該跟蹤器在11個(gè)挑戰(zhàn)屬性上均優(yōu)于基準(zhǔn)跟蹤器SiamRPN。同時(shí),與其他跟蹤器相比,文中跟蹤器在大多數(shù)情況下表現(xiàn)良好。以上分析表明,MFAW-SiamRPN算法在處理各種挑戰(zhàn)場景方面是有效的,尤其是在遮擋、背景雜亂方面。
為了更加直觀的觀察MFAW-SiamRPN算法的跟蹤性能,從OTB2015數(shù)據(jù)集中選取具有代表性的5段視頻圖像序列對跟蹤結(jié)果進(jìn)行分析,并與其他6種跟蹤器進(jìn)行比較。圖8展示了7種不同的跟蹤器在遮擋、背景雜亂、形變、出視野等挑戰(zhàn)因素[24]干擾下的跟蹤結(jié)果。
圖8 七個(gè)不同的跟蹤器在6段視頻序列上的跟蹤結(jié)果Fig.8 Tracking results of seven different trackers on six video sequences
1) 遮擋。在目標(biāo)跟蹤任務(wù)中,遮擋分為部分遮擋和全部遮擋,如圖8當(dāng)中的Human3、Jogging圖像序列。在Human3圖像序列中,目標(biāo)男性在走向馬路對面的過程中先后經(jīng)過了一個(gè)女孩和一個(gè)交通指示桿從而經(jīng)歷了遮擋和遮擋后重現(xiàn)的過程。在第30和第45幀中,目標(biāo)男性被部分遮擋,所有跟蹤器都能夠準(zhǔn)確的跟蹤到目標(biāo),但當(dāng)他在第72幀中完全重新出現(xiàn)后,除了KCF,Staple外,其他跟蹤器都能夠跟蹤到該目標(biāo)男性。在Jogging序列中,慢跑的目標(biāo)女孩在73幀中被信號燈遮擋,在96幀重新出現(xiàn),只有文中提出的跟蹤器仍精準(zhǔn)的跟著目標(biāo)女性。
2) 背景雜亂。在圖像序列Bolt2,Subway中,被跟蹤目標(biāo)與周圍人的外形、衣服十分相似,容易對跟蹤過程造成一定的干擾。在Bolt2圖像序列中,被跟蹤目標(biāo)與其他運(yùn)動員的相似穿著和場景的不斷切換導(dǎo)致背景十分雜亂,在第80幀,Staple,KCF,CFNet開始跟錯(cuò)目標(biāo),在第143幀,SiamFC,SiaRPN,DaSiamRPN也開始跟丟目標(biāo),只有文中算法在整個(gè)視頻序列中可以持續(xù)穩(wěn)定的跟蹤目標(biāo)。在Subway序列中,目標(biāo)在第47幀碰到一個(gè)衣著相似的人,由于相似物的干擾導(dǎo)致最后只有文中算法跟著目標(biāo)人物。
3) 形變。在序列Walking2中,目標(biāo)女性在遠(yuǎn)離鏡頭走動的過程中尺寸逐漸變小,只有文中算法在整個(gè)序列中表現(xiàn)良好。主要是因?yàn)槲闹懈櫰髟谔卣魈崛【W(wǎng)絡(luò)部分集成了多層特征融合模塊,提取到了更豐富的空間信息和語義信息。
4) 出視野。在圖像序列Human6中,目標(biāo)男性在過馬路的過程中出現(xiàn)了身體的一部分在鏡頭之外的情況,在第545幀,目標(biāo)的腳不在圖像內(nèi),在第549幀中,身體的一半都已經(jīng)離開了視野之內(nèi),導(dǎo)致提取到的信息不充分不完全,使得其他算法預(yù)測的跟蹤框不準(zhǔn)確,位置產(chǎn)生了偏移,而文中提出的算法由于集成了多層特征融合和特征自適應(yīng)加權(quán)網(wǎng)絡(luò),提取到了更多、更有用的信息,從而能夠更為準(zhǔn)確的表示目標(biāo)、框選目標(biāo)。
MFAW-SiamRPN主要由四個(gè)部分組成,即多層特征融合、空間注意力、通道注意力、整體-部分網(wǎng)絡(luò)。為了更充分的理解每個(gè)部分在跟蹤算法中的貢獻(xiàn),在OTB2015數(shù)據(jù)集上分析對比MFAWSiamRPN算法的四種變體,分別是僅使用自適應(yīng)加權(quán)網(wǎng)絡(luò),不使用多層特征融合模塊,構(gòu)建AWSiamRPN算法;使用多層特征融合模塊和通道注意力構(gòu)建MFCASiamRPN算法;使用多層特征融合模塊和空間注意力構(gòu)建MFSASiamRPN算法;使用多層特征融合模塊、通道注意力、整體-部分網(wǎng)絡(luò)構(gòu)建MFCAWPSiamRPN算法。對比跟蹤算法共有五種,其消融實(shí)驗(yàn)結(jié)果見表2。從表中可以看出,相比于MFAW-SiamRPN,AWSiamRPN在準(zhǔn)確率和成功率上分別降低了1.6%、1.2%,主要是因?yàn)樘崛〉降臏\層細(xì)節(jié)信息和深層語義信息增加了模型的外觀表征能力,從而提升了跟蹤的精度。同時(shí),MFCAWPSiamRPN算法相比于MFCASiamRPN算法準(zhǔn)確率提高了1.1%,成功率提高了1%。以上分析表明,跟蹤器的每個(gè)部分都有助于提升跟蹤器的整體性能效果,多層特征融合模塊使得模型能夠提取到更豐富的特征,自適應(yīng)加權(quán)網(wǎng)絡(luò)使得模型能夠根據(jù)各部分的重要程度對不同區(qū)域和通道分配不同的權(quán)重,重點(diǎn)關(guān)注有價(jià)值的區(qū)域。
表2 消融實(shí)驗(yàn)結(jié)果Tab.2 Ablation experimental results
MFAW-SiamRPN算法在孿生區(qū)域建議網(wǎng)路SiamRPN的基礎(chǔ)上,集成多層特征融合模塊、自適應(yīng)加權(quán)網(wǎng)絡(luò),提出了一種基于多層特征融合和自適應(yīng)加權(quán)的孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法MFAW-Siam-RPN。多層特征融合模塊采用具有不同擴(kuò)張率的空洞卷積來充分利用上下文信息,用跳躍連接實(shí)現(xiàn)足夠的特征融合,使模型具有更好的適應(yīng)性和判別力。由空間注意力、整體-部分網(wǎng)絡(luò)、通道注意力組成的自適應(yīng)加權(quán)網(wǎng)絡(luò)給不同的區(qū)域和通道分配不同的權(quán)重,使網(wǎng)絡(luò)能夠?qū)W習(xí)到更魯棒的特征表示,進(jìn)一步增強(qiáng)了網(wǎng)絡(luò)的特征識別能力。在OTB2015和VOT2018數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明所提跟蹤算法與其他幾種先進(jìn)的跟蹤算法相比具有良好的跟蹤性能,可以在高幀率下有效的處理遮擋、背景雜亂、形變等問題。相比較基準(zhǔn)跟蹤器SiamRPN,文中算法在OTB2015數(shù)據(jù)集上的準(zhǔn)確率提升了2.5%,成功率提升了2.8%,在VOT2018數(shù)據(jù)集上的EAO值提升了約2.3%。