国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于孿生網(wǎng)絡(luò)和Transformer的小目標(biāo)跟蹤算法SiamTrans

2024-01-09 04:00:16公海濤陳志華盛斌祝冰艷
計(jì)算機(jī)應(yīng)用 2023年12期
關(guān)鍵詞:子網(wǎng)集上精度

公海濤,陳志華*,盛斌,祝冰艷

基于孿生網(wǎng)絡(luò)和Transformer的小目標(biāo)跟蹤算法SiamTrans

公海濤1,陳志華1*,盛斌2,祝冰艷1

(1.華東理工大學(xué) 信息科學(xué)與工程學(xué)院,上海 200237; 2.上海交通大學(xué) 電子信息與電氣工程學(xué)院,上海 200240)(?通信作者電子郵箱czh@ecust.edu.cn)

針對現(xiàn)有小目標(biāo)跟蹤算法的魯棒性差、精度及成功率低的問題,提出一種基于孿生網(wǎng)絡(luò)和Transformer的小目標(biāo)跟蹤算法SiamTrans。首先,基于Transformer機(jī)制設(shè)計(jì)一種相似度響應(yīng)圖計(jì)算模塊。該模塊疊加若干層特征編碼-解碼結(jié)構(gòu),并利用多頭自注意力機(jī)制和多頭跨注意力機(jī)制在不同層次的搜索區(qū)域特征圖中查詢模板特征圖信息,從而避免陷入局部最優(yōu)解,并獲得一個(gè)高質(zhì)量的相似度響應(yīng)圖;其次,在預(yù)測子網(wǎng)中設(shè)計(jì)一個(gè)基于Transformer機(jī)制的預(yù)測模塊(PM),并利用自注意力機(jī)制處理預(yù)測分支特征圖中的冗余特征信息,以提高不同預(yù)測分支的預(yù)測精度。在Small90數(shù)據(jù)集上,相較于TransT(Transformer Tracking)算法,所提算法的跟蹤精度和跟蹤成功率分別高8.0和9.5個(gè)百分點(diǎn)??梢?,所提出的算法具有更優(yōu)異的小目標(biāo)跟蹤性能。

目標(biāo)跟蹤;小目標(biāo);孿生網(wǎng)絡(luò);注意力機(jī)制;Transformer

0 引言

目標(biāo)跟蹤是計(jì)算機(jī)視覺研究中的一個(gè)重要方向,通過對視頻中不同幀之間目標(biāo)位置的連續(xù)預(yù)測實(shí)現(xiàn)對目標(biāo)運(yùn)動的穩(wěn)定跟蹤。從任務(wù)結(jié)果看,目標(biāo)跟蹤與目標(biāo)檢測任務(wù)存在著一定的相似性,目的都是預(yù)測圖片中目標(biāo)的位置;但是目標(biāo)跟蹤需要處理在時(shí)間上具有連續(xù)性的不同視頻幀。此外,目標(biāo)的運(yùn)動過程還受到形變、遮擋、背景模糊等因素的干擾,因此目標(biāo)跟蹤任務(wù)更具挑戰(zhàn)性。

本文將小目標(biāo)定義為目標(biāo)面積小于圖片面積1%的目標(biāo)。小目標(biāo)是一種特殊的目標(biāo),自身尺度較小,無法為跟蹤器提供足夠的特征進(jìn)行學(xué)習(xí)。另外,小目標(biāo)在運(yùn)動過程中更易受到環(huán)境因素的影響,比如:簡單的遮擋就會導(dǎo)致小目標(biāo)在運(yùn)動視野中完全消失;低分辨率圖像中小目標(biāo)可提供的特征更少。這些問題導(dǎo)致對小目標(biāo)穩(wěn)定跟蹤的難度更大。隨著無人機(jī)、無人駕駛等產(chǎn)業(yè)的發(fā)展,小目標(biāo)跟蹤技術(shù)也存在廣泛的應(yīng)用前景,但是因?yàn)榧夹g(shù)上的難度以及相關(guān)產(chǎn)業(yè)的滯后性,目標(biāo)跟蹤任務(wù)的研究重點(diǎn)多為常規(guī)目標(biāo),專門跟蹤小目標(biāo)的研究相對較少。將針對常規(guī)目標(biāo)設(shè)計(jì)的跟蹤算法直接應(yīng)用在小目標(biāo)跟蹤任務(wù)中存在較大問題,如Henriques等[1]提出的KCF(Kernelized Correlation Filters)算法、Li等[2]提出的SiamRPN(Siamese Region Proposal Network)算法、Guo等[3]提出的SiamCAR(Siamese fully Convolutional classification And Regression)算法在跟蹤小目標(biāo)時(shí)容易丟失目標(biāo),還存在預(yù)測精度較低的問題;此外,現(xiàn)有的小目標(biāo)跟蹤算法漏檢、誤檢問題也較多。

針對上述問題,本文基于孿生網(wǎng)絡(luò)和Transformer算法[4]提出了一種小目標(biāo)跟蹤算法SiamTrans。在目前已提出的單目標(biāo)跟蹤算法中,孿生網(wǎng)絡(luò)架構(gòu)優(yōu)越性顯著,王夢亭等[5]總結(jié)了基于孿生網(wǎng)絡(luò)的經(jīng)典單目標(biāo)跟蹤算法,因此本文算法也選擇孿生網(wǎng)絡(luò)架構(gòu)。通過設(shè)計(jì)基于Transformer算法的相似度響應(yīng)圖計(jì)算模塊,本文算法提高了相似度響應(yīng)圖的計(jì)算精度,為預(yù)測子網(wǎng)提供了高精度的輸入信息;此外,在預(yù)測子網(wǎng)中設(shè)計(jì)了一個(gè)基于Transformer算法的預(yù)測模塊(Prediction Module, PM),通過自注意力機(jī)制提高目標(biāo)位置預(yù)測的準(zhǔn)確性。

本文的主要工作如下:

1)基于Transformer算法提出了一種相似度響應(yīng)圖計(jì)算模塊,該模塊中包含特征編碼-解碼結(jié)構(gòu),利用多頭自注意力機(jī)制和多頭跨注意力機(jī)制實(shí)現(xiàn)目標(biāo)特征與搜索區(qū)域特征的有效融合,提高相似度響應(yīng)圖的計(jì)算精度,從而為預(yù)測子網(wǎng)提供高質(zhì)量輸入信息。

2)基于Transformer算法提出了一種預(yù)測模塊,該模塊利用自注意力機(jī)制增強(qiáng)了對目標(biāo)前景、背景和目標(biāo)位置信息的關(guān)注度,準(zhǔn)確預(yù)測了目標(biāo)位置。

3)提出了一種基于孿生網(wǎng)絡(luò)與Transformer的小目標(biāo)跟蹤算法SiamTrans,將相似度響應(yīng)圖計(jì)算模塊和預(yù)測模塊嵌入孿生網(wǎng)絡(luò),實(shí)現(xiàn)了對小目標(biāo)的有效跟蹤。在Small90[6]、LaTOT(Large-Scale Tiny Object Tracking benchmark)[7]、UAV123(Unmanned Aerial Vehicle123)[8]等數(shù)據(jù)集上的測試結(jié)果表明SiamTrans具有較優(yōu)的性能。

1 相關(guān)技術(shù)

1.1 小目標(biāo)跟蹤算法

為了增強(qiáng)目標(biāo)跟蹤的魯棒性,常用的方法是特征融合或者注意力機(jī)制,如朱文球等[9]提出的目標(biāo)跟蹤算法中提出了融合空間注意力和通道注意力的混合注意力機(jī)制。已有的小目標(biāo)跟蹤算法主要通過增強(qiáng)特征的方式實(shí)現(xiàn)目標(biāo)跟蹤。Ahmadi等[10]在跟蹤算法中整合空間特征信息和頻率特征信息,增強(qiáng)了目標(biāo)特征圖中的目標(biāo)特征信息,從而提高了目標(biāo)位置預(yù)測的準(zhǔn)確度。相似地,Ahmadi等[11]為了解決復(fù)雜環(huán)境中小目標(biāo)跟蹤的問題,提出了一種多層次的小目標(biāo)跟蹤算法,增強(qiáng)了小目標(biāo)跟蹤的魯棒性。Marvasti-Zadeh等[12]則提出了一種雙流網(wǎng)絡(luò),該網(wǎng)絡(luò)訓(xùn)練時(shí)會學(xué)習(xí)不同尺寸的特征信息并通過注意力機(jī)制過濾不相關(guān)的特征信息。通過這些策略,目標(biāo)跟蹤算法較好地解決了目標(biāo)運(yùn)動過程中的遮擋以及視角變化問題。Liu等[6]提出了一種目標(biāo)特征簽名機(jī)制,通過特征簽名算法提高了小目標(biāo)特征在特征圖中的區(qū)別度使得目標(biāo)更容易被預(yù)測。盡管這些方法已經(jīng)在小目標(biāo)跟蹤任務(wù)上取得了一定的進(jìn)展,但是仍然存在一些問題,比如在計(jì)算相似度響應(yīng)圖時(shí)僅利用單層特征圖,未充分利用目標(biāo)特征信息與當(dāng)前幀不同特征層之間的特征關(guān)系;此外,利用互相關(guān)操作計(jì)算相似度響應(yīng)圖容易丟失語義信息并陷入局部最優(yōu)解。這些問題制約著小目標(biāo)跟蹤算法的性能。

1.2 常規(guī)目標(biāo)跟蹤算法

常規(guī)目標(biāo)跟蹤算法可以分為基于相關(guān)濾波的跟蹤算法和基于深度學(xué)習(xí)的跟蹤算法。早期階段,基于相關(guān)濾波的跟蹤算法在跟蹤速度以及精度上表現(xiàn)優(yōu)異,很多優(yōu)秀的算法,如KCF[1]、CSK(Circulant Structure of tracking-by-detection with Kernels)[13]、SAMF(Scale Adaptive Multiple Feature)[14]、ECO(Efficient Convolution Operators)[15]等算法被先后提出。盡管這些算法在相關(guān)數(shù)據(jù)集上的測試結(jié)果具有明顯優(yōu)點(diǎn),但是也存在著明顯缺點(diǎn),如學(xué)習(xí)目標(biāo)特征的能力不足,在復(fù)雜場景中算法不能穩(wěn)定跟蹤目標(biāo)等。這些因素制約了相關(guān)濾波算法的進(jìn)一步發(fā)展。

深度學(xué)習(xí)方法在巨量數(shù)據(jù)的基礎(chǔ)上,對模型中的參數(shù)進(jìn)行調(diào)整,使得模型不斷得到優(yōu)化,擬合能力不斷增強(qiáng)。這也意味著深度學(xué)習(xí)算法有著強(qiáng)大的特征學(xué)習(xí)能力,這一能力使它在目標(biāo)跟蹤、目標(biāo)檢測、語義分割等任務(wù)中具有巨大優(yōu)勢。在跟蹤任務(wù)中,基于孿生網(wǎng)絡(luò)的算法將跟蹤問題建模為一個(gè)相似度匹配問題,通過端到端的訓(xùn)練實(shí)現(xiàn)了跟蹤精度與速度的平衡,并在多個(gè)數(shù)據(jù)集上超越了基于相關(guān)濾波的跟蹤算法。SiamFC(Fully-Convolutional Siamese network)算法[16]是目標(biāo)跟蹤任務(wù)中首個(gè)全卷積的跟蹤網(wǎng)絡(luò),它設(shè)計(jì)了一種非常簡潔的模型結(jié)構(gòu),通過計(jì)算搜索區(qū)域中不同位置與目標(biāo)特征的相似度實(shí)現(xiàn)對目標(biāo)位置的準(zhǔn)確預(yù)測。此后,基于孿生網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)秀跟蹤模型大量涌現(xiàn),如SiamRPN[2]將在目標(biāo)檢測任務(wù)中大獲成功的RPN(Region Proposal Network)引入跟蹤任務(wù)中,在不增加計(jì)算量的前提下,利用預(yù)制的錨框?qū)崿F(xiàn)了對目標(biāo)位置的高質(zhì)量回歸。在SiamRPN[2]的基礎(chǔ)上,SiamRPN++算法[17]優(yōu)化了特征提取子網(wǎng)以及相似度計(jì)算方法,并在多個(gè)數(shù)據(jù)集上獲得了更好的結(jié)果。此外,DaSiamRPN(Distractor-aware SiamRPN)[18]、SiamMask[19]、SiamBAN(Siamese Box Adaptive Network)[20]等算法也是基于孿生網(wǎng)絡(luò)的代表性工作。

Transformer算法[4]是一種完全基于注意力機(jī)制的算法,它成功應(yīng)用于自然語言處理任務(wù)和計(jì)算機(jī)視覺任務(wù)中。Yan等[21]提出了包含一種編碼-解碼的Transformer組件的跟蹤算法,該組件會編碼視頻幀序列中包含的時(shí)間、空間特征信息,并利用解碼模塊直接預(yù)測候選框。相似地,Wang等[22]也設(shè)計(jì)了一個(gè)包含編碼-解碼結(jié)構(gòu)的Transformer模塊并整合到基于孿生網(wǎng)絡(luò)結(jié)構(gòu)的跟蹤算法中,Transformer模塊的目的是融合視頻幀中的時(shí)序信息以提升相似度計(jì)算的準(zhǔn)確性。與前兩種算法不同的是,Blatter等[23]則是在預(yù)測子網(wǎng)的分支中引入了Transformer模塊,通過替換預(yù)測子網(wǎng)分支中的卷積結(jié)構(gòu)并引入一個(gè)輕量級的特征提取模塊,模型在CPU上就達(dá)到了較高的處理速度。上述針對常規(guī)目標(biāo)設(shè)計(jì)的跟蹤算法直接應(yīng)用到小目標(biāo)跟蹤任務(wù)中會存在漏檢、誤檢的問題,但這些方法的設(shè)計(jì)思想對小目標(biāo)跟蹤算法的設(shè)計(jì)具有啟發(fā)性。

2 本文算法設(shè)計(jì)

2.1 特征提取子網(wǎng)

2.2 相似度響應(yīng)圖計(jì)算模塊

2.2.1特征編碼模塊

2.2.2特征解碼模塊

FDM的結(jié)構(gòu)如圖2(b)所示。FDM的作用是融合模板特征圖以及搜索區(qū)域特征圖,從而得到與互相關(guān)操作輸出結(jié)果類似的相似度響應(yīng)圖。與FEM不同,在FDM中設(shè)計(jì)一個(gè)多頭跨注意力機(jī)制層,該層的輸入信息為FEM輸出的模板特征編碼響應(yīng)圖以及上一層FDM輸出的相似度響應(yīng)圖。此外,為了強(qiáng)化相似度響應(yīng)圖中的目標(biāo)位置信息,在該模塊中同樣引入目標(biāo)的空間編碼信息。該模塊中多頭跨注意力機(jī)制的計(jì)算公式如式(6)所示:

2.3 預(yù)測子網(wǎng)

在跟蹤任務(wù)中,用預(yù)測子網(wǎng)預(yù)測目標(biāo)位置?,F(xiàn)有的基于孿生網(wǎng)絡(luò)的跟蹤算法中,預(yù)測子網(wǎng)由卷積結(jié)構(gòu)組成,包含分類分支和回歸分支兩個(gè)分支:前者用來區(qū)分搜索區(qū)域中的前景和背景;后者用來預(yù)測目標(biāo)預(yù)測框的位置。在預(yù)測任務(wù)中,跟蹤算法需要重點(diǎn)關(guān)注前景信息和目標(biāo)位置信息,過濾冗余信息,因此基于Transformer[4]設(shè)計(jì)了預(yù)測模塊,模塊中包含了一個(gè)自注意力層,以增強(qiáng)跟蹤器對前景信息以及目標(biāo)位置的感知能力,提高目標(biāo)預(yù)測的精度。預(yù)測模塊的結(jié)構(gòu)如圖2(c)所示。算法分別在分類分支以及回歸分支中嵌入6個(gè)預(yù)測模塊,兩個(gè)分支末尾分別引入了1個(gè)卷積層以調(diào)整輸出結(jié)果,最終得到對目標(biāo)位置的預(yù)測結(jié)果。

圖2 FEM,F(xiàn)DM和PM的結(jié)構(gòu)

3 實(shí)驗(yàn)與結(jié)果分析

實(shí)驗(yàn)的硬件設(shè)備如下:顯卡型號為NVIDIA Geforce RTX 3090,CPU型號為8核心 2.1 GB Intel Xeon Silver 4208,內(nèi)存型號為16 GB DDR4 RAM。算法使用梯度下降法在COCO(Common Objects in COntext)[25]、ImageNet DET(ImageNetwork DETection)[26]、LaTOT[7]以及GOT-10k[27]等數(shù)據(jù)集進(jìn)行訓(xùn)練。特征提取子網(wǎng)兩個(gè)分支的輸入圖像大小分別設(shè)定為256×256、128×128。算法選擇在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的ResNet-50作為特征提取器。模型一共訓(xùn)練800輪,批處理尺寸設(shè)置為16,學(xué)習(xí)率設(shè)置為0.000 1,訓(xùn)練400輪學(xué)習(xí)率衰減至1/10。訓(xùn)練好的算法在5個(gè)數(shù)據(jù)集上進(jìn)行了測試,分別是Small90[6]、Small112[6]、UAV123_10fps[8]、UAV20L[8]和LaTOT[7],具體的實(shí)驗(yàn)結(jié)果如下。

3.1 Small90數(shù)據(jù)集

為了評估提出的小目標(biāo)跟蹤算法的性能,Liu等[6]在UAV123[8]等數(shù)據(jù)集的基礎(chǔ)上收集了90個(gè)視頻序列,提出了Small90數(shù)據(jù)集。Small90數(shù)據(jù)集中視頻序列包含的目標(biāo)均為小目標(biāo)。根據(jù)目標(biāo)運(yùn)動過程中的特點(diǎn),這些視頻序列包含光照變化、尺度變化、遮擋、形變,運(yùn)動模糊、快速運(yùn)動、平面內(nèi)旋轉(zhuǎn)、平面外旋轉(zhuǎn)、目標(biāo)消失、背景雜波和低分辨率這11個(gè)屬性。通過分析跟蹤算法在不同屬性上的跟蹤精度可以準(zhǔn)確評估跟蹤器針對目標(biāo)不同運(yùn)動特點(diǎn)的魯棒性。圖3為本文算法與其他跟蹤算法的對比結(jié)果。從圖3可以看出,本文算法明顯優(yōu)于其他對比算法,其中方括號數(shù)值為測試算法的精度和成功率為曲線下面積值(Area Under Curve, AUC)。具體地,SiamTrans算法在跟蹤精度和成功率上分別比次優(yōu)算法TransT(Transformer Tracking)[28]高8.0個(gè)百分點(diǎn)和9.5個(gè)百分點(diǎn)。表1對比了SiamTrans與SCT(Structuralist Cognitive Tracker)[29]、KCF_AST(Kernelized Correlation Filters_Aggregation Signature Tracker)[6]、MDNet_AST(Multi-Domain Convolutional Neural Networks_Aggregation Signature Tracker)[6]和ECO(Efficient Convolution Operators)[15]在不同視頻屬性上的表現(xiàn),SiamTrans僅在遮擋、低分辨率屬性上表現(xiàn)略差,在其他屬性上表現(xiàn)最優(yōu)。

圖3 不同算法在Small90數(shù)據(jù)集上的結(jié)果

表1不同算法在Small90數(shù)據(jù)集上不同屬性下的跟蹤精度以及成功率比較結(jié)果

Tab.1 Comparison results of tracking precision and success rate for different algorithms in different attributes on Small90 dataset

3.2 Small112數(shù)據(jù)集

與Small90數(shù)據(jù)集[6]相比,Small112數(shù)據(jù)集[6]又加入了22個(gè)更具有挑戰(zhàn)性的視頻序列,新增的視頻序列對算法的跟蹤能力提出了更高的要求。Small112數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果如表2所示,SiamTrans與6個(gè)跟蹤算法作了對比。DaSiamRPN_AST(Distractor-Aware Siamese Networks_Aggregation Signature Tracker)[6]在Small112數(shù)據(jù)集上的成功率最高,SiamTrans的跟蹤精度最優(yōu)。

3.3 UAV123_10fps數(shù)據(jù)集

小目標(biāo)跟蹤任務(wù)的一個(gè)重要應(yīng)用場景是無人機(jī)領(lǐng)域,可以利用無人機(jī)對特定目標(biāo)進(jìn)行長時(shí)跟蹤。UAV123_10fps數(shù)據(jù)集[8]中的123個(gè)視頻序列由無人機(jī)在低空拍攝,因?yàn)榕臄z角度和高度的特殊性,視頻中的目標(biāo)尺寸更小,跟蹤難度更高。比如,遠(yuǎn)距離拍攝導(dǎo)致目標(biāo)更加難以判別、拍攝視野中的目標(biāo)更加容易丟失。圖4為跟蹤算法在UAV123_10fps數(shù)據(jù)集上的跟蹤結(jié)果,分別測試了本文算法與CSK[13]、SAMF[14]、OAB(Online version of the AdaBoost Algorithm)[30]、MEEM(Multiple Experts using Entropy Minimization)[31]和TransT[28]。在跟蹤精度上SiamTrans與TransT算法[28]表現(xiàn)相近。在跟蹤成功率上,SiamTrans超過次優(yōu)算法1.2個(gè)百分點(diǎn),表現(xiàn)最優(yōu)。

圖4 不同算法在UAV123_10fps數(shù)據(jù)集上的結(jié)果

3.4 UAV20L數(shù)據(jù)集

UAV20L數(shù)據(jù)集[8]對跟蹤算法的長時(shí)跟蹤能力提出了更高的要求,因?yàn)閿?shù)據(jù)集中包含的20個(gè)視頻序列的平均幀數(shù)超過1 000,均為長時(shí)視頻。如果跟蹤器沒有魯棒的跟蹤能力,就容易在跟蹤過程中丟失目標(biāo),影響跟蹤的成功率和跟蹤精度。UAV20L數(shù)據(jù)集的跟蹤結(jié)果如表2所示。與DaSiamRPN_AST[6]等6個(gè)跟蹤算法相比,本文算法在成功率和精度上都表現(xiàn)最優(yōu),這也表明SiamTrans具有優(yōu)秀的長時(shí)跟蹤能力。

3.5 LaTOT數(shù)據(jù)集

深度學(xué)習(xí)有海量數(shù)據(jù)的支撐,而小目標(biāo)跟蹤任務(wù)缺乏大規(guī)模訓(xùn)練數(shù)據(jù)集的支撐。LaTOT數(shù)據(jù)集[7]在一定程度上解決了這個(gè)問題。LaTOT數(shù)據(jù)集中的數(shù)據(jù)海量且多樣,包含了434個(gè)視頻序列,超過217 000幀圖像,覆蓋了48個(gè)類別,270個(gè)場景。這一大規(guī)模數(shù)據(jù)集的出現(xiàn)在一定程度上彌補(bǔ)了它與常規(guī)目標(biāo)跟蹤任務(wù)之間的差距。圖5是在LaTOT數(shù)據(jù)集上的可視化結(jié)果。本文算法的對比算法包括MDNet算法[32]、SiamRPN++算法[17]和SiamCAR算法[3]。表3是本文算法與其他算法在LaTOT數(shù)據(jù)集上的對比結(jié)果。小目標(biāo)跟蹤算法MKDNet(Multilevel Knowledge Distillation Network)[7]在LaTOT數(shù)據(jù)集中尺度變化、目標(biāo)消失兩個(gè)屬性上的成功率優(yōu)于SiamTrans,在其他屬性上SiamTrans表現(xiàn)最優(yōu)。

表2不同算法在Small112和UAV20L數(shù)據(jù)集上的跟蹤成功率和精度比較結(jié)果

Tab.2 Comparison results of tracking success rate and precision for different algorithms on Small112 and UAV20L datasets

圖5 SiamTrans算法跟蹤結(jié)果的可視化結(jié)果

表3 不同算法在LaTOT數(shù)據(jù)集上不同屬性下的跟蹤成功率

4 消融實(shí)驗(yàn)與結(jié)果

為了證明相似度響應(yīng)圖計(jì)算模塊以及預(yù)測模塊的作用,在本章設(shè)計(jì)相應(yīng)的消融實(shí)驗(yàn)。

4.1 相似度響應(yīng)圖計(jì)算模塊

在相似度響應(yīng)圖計(jì)算模塊中疊加了若干個(gè)特征編碼模塊以及特征解碼模塊。為了驗(yàn)證模塊以及FEM-FDM疊加層數(shù)的有效性,在消融實(shí)驗(yàn)中驗(yàn)證了只使用互相關(guān)操作計(jì)算相似度響應(yīng)圖以及疊加不同層FEM-FDM對跟蹤器預(yù)測精度的影響,結(jié)果如表4所示。從表4中可見,與其他層數(shù)的FEM-FDM相比,疊加6層FEM-FDM的效果最好。作為經(jīng)典的相似度響應(yīng)圖計(jì)算方法,互相關(guān)操作仍然具有一定優(yōu)勢,它在UAV123_10fps數(shù)據(jù)集[8]上跟蹤精度最高,但是在Small90數(shù)據(jù)集[6]上的跟蹤精度和成功率以及UAV123_10fps數(shù)據(jù)集上的成功率均低于疊加6層編碼-解碼模塊的模型。

表4相似度響應(yīng)圖計(jì)算模塊的消融實(shí)驗(yàn)結(jié)果

Tab.4 Ablation experimental results of similarity response map calculation module

4.2 預(yù)測模塊

在預(yù)測模塊的消融實(shí)驗(yàn)中,設(shè)計(jì)僅使用卷積模塊的預(yù)測分支以及疊加不同層預(yù)測模塊的預(yù)測分支。表5展示了消融實(shí)驗(yàn)的結(jié)果。從實(shí)驗(yàn)結(jié)果可以看出,在預(yù)測分支中設(shè)計(jì)6層預(yù)測模塊時(shí)的結(jié)果優(yōu)于僅有卷積結(jié)構(gòu)時(shí)模型的結(jié)果以及添加其他層數(shù)預(yù)測模塊時(shí)模型的表現(xiàn)。

圖6為預(yù)測分支的特征圖的可視化結(jié)果。

表5預(yù)測模塊的消融實(shí)驗(yàn)結(jié)果

Tab.5 Ablation experiment results of prediction module

圖6 預(yù)測分支的特征圖的可視化結(jié)果

圖6中選擇的視頻幀為Small90數(shù)據(jù)集中g(shù)roup_2視頻序列中的第1、51、91幀。從圖6可以看出,因?yàn)閳D片中存在多個(gè)相似的目標(biāo),在未添加預(yù)測模塊時(shí),特征圖中存在多個(gè)峰值,不利于預(yù)測分支預(yù)測目標(biāo)位置。在添加預(yù)測模塊后,特征圖中的其他峰值得到抑制,目標(biāo)特征被突出,這有利于跟蹤器實(shí)現(xiàn)準(zhǔn)確的預(yù)測。

5 結(jié)語

本文將孿生網(wǎng)絡(luò)和Transformer結(jié)合,提出了小目標(biāo)跟蹤算法SiamTrans。在模型中,提出了基于Transformer結(jié)構(gòu)的相似度響應(yīng)圖計(jì)算模塊以及基于Transformer結(jié)構(gòu)的預(yù)測模塊,豐富了小目標(biāo)跟蹤任務(wù)的解決方案,增強(qiáng)了跟蹤小目標(biāo)的魯棒性。實(shí)驗(yàn)結(jié)果表明,相較于其他跟蹤算法,SiamTrans算法對小目標(biāo)的跟蹤精度以及準(zhǔn)確率均有了明顯提升。實(shí)驗(yàn)過程中,發(fā)現(xiàn)模型在一些特殊場景下仍然會出現(xiàn)丟失目標(biāo)的問題,這也是將來需要改進(jìn)的地方。

[1] HENRIQUES J F, CASEIRO R, MARTINS P, et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583-596.

[2] LI B, YAN J, WU W, et al. High performance visual tracking with Siamese region proposal network[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 8971-8980.

[3] GUO D, WANG J, CUI Y, et al. SiamCAR: Siamese fully convolutional classification and regression for visual tracking [C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 6268-6276.

[4] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.

[5] 王夢亭,楊文忠,武雍智. 基于孿生網(wǎng)絡(luò)的單目標(biāo)跟蹤算法綜述[J]. 計(jì)算機(jī)應(yīng)用, 2023, 43(3):661-673.(WANG M T, YANG W Z, WU Y Z. Survey of single target tracking algorithms based on Siamese network [J]. Journal of Computer Applications, 2023, 43(3): 661-673.)

[6] LIU C, DING W, YANG J, et al. Aggregation signature for small object tracking [J]. IEEE Transactions on Image Processing, 2020, 29: 1738-1747.

[7] ZHU Y, LI C, LIU Y, et al. Tiny object tracking: a large-scale dataset and a baseline[EB/OL]. (2022-02-11)[2022-09-16].https://arxiv.org/pdf/2202.05659.pdf.

[8] MUELLER M, SMITH N, GHANEM B. A benchmark and simulator for UAV tracking [C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9905. Cham: Springer, 2016: 445-461.

[9] 朱文球,鄒廣,曾志高. 融合層次特征和混合注意力的目標(biāo)跟蹤算法[J]. 計(jì)算機(jī)應(yīng)用, 2022, 42(3): 833-843.(ZHU W Q, ZOU G, ZENG Z G. Object tracking algorithm with hierarchical features and hybrid attention[J]. Journal of Computer Applications, 2022, 42(3): 833-843.)

[10] AHMADI K, SALARI E. Small dim object tracking using frequency and spatial domain information[J]. Pattern Recognition, 2016, 58: 227-234.

[11] AHMADI K, SALARI E. Small dim object tracking using a multi objective particle swarm optimisation technique[J]. IET Image Processing, 2015, 9(9): 820-826.

[12] MARVASTI-ZADEH S M, KHAGHANI J, CHANEI-YAKHDAN H, et al. COMET: context-aware IoU-guided network for small object tracking [C]// Proceedings of the 2020 Asian Conference on Computer Vision, LNCS 12623. Cham: Springer, 2021: 594-611.

[13] HENRIQUES J F, CASEIRO R, MARTINS P, et al. Exploiting the circulant structure of tracking-by-detection with kernels[C]// Proceedings of the 2012 European Conference on Computer Vision, LNCS 7575. Berlin: Springer, 2012: 702-715.

[14] LI Y, ZHU J. A scale adaptive kernel correlation filter tracker with feature integration[C]// Proceedings of the 2014 European Conference on Computer Vision, LNCS 8926. Cham: Springer, 2015: 254-265.

[15] DANELLJAN M, BHAT G, SHAHBAZ KHAN F, et al. ECO: efficient convolution operators for tracking [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 6931-6939.

[16] BERTINETTO L, VALMADRE J, HENRIQUES J F, et al. Fully-convolutional Siamese networks for object tracking[C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9914. Cham: Springer, 2016: 850-865.

[17] LI B, WU W, WANG Q, et al. SiamRPN++: evolution of Siamese visual tracking with very deep networks [C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 4282-4291.

[18] ZHU Z, WANG Q, LI B, et al. Distractor-aware Siamese networks for visual object tracking[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11213. Cham: Springer, 2018: 103-119.

[19] WANG Q, ZHANG L, BERTINETTO L, et al. Fast online object tracking and segmentation: a unifying approach [C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 1328-1338.

[20] CHEN Z, ZHONG B, LI G, et al. Siamese box adaptive network for visual tracking[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 6667-6676.

[21] YAN B, PENG H, FU J, et al. Learning spatio-temporal Transformer for visual tracking [C]// Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2021: 10428-10437.

[22] WANG N, ZHOU W, WANG J, et al. Transformer meets tracker: exploiting temporal context for robust visual tracking [C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2021: 1571-1580.

[23] BLATTER P, KANAKIS M, DANELLJAN M, et al. Efficient visual tracking with Exemplar Transformers [C]// Proceedings of the 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2023: 1571-1581.

[24] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.

[25] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context [C]// Proceedings of the 2014 European Conference on Computer Vision, LNCS 8693. Cham: Springer, 2014: 740-755.

[26] RUSSAKOVSKY O, DENG J, SU H, et al. ImageNet large scale visual recognition challenge [J]. International Journal of Computer Vision, 2015, 115(3): 211-252.

[27] HUANG L, ZHAO X, HUANG K. GOT-10k: a large high-diversity benchmark for generic object tracking in the wild[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(5): 1562-1577.

[28] CHEN X,YAN B,ZHU J,et al. Transformer tracking[C]//Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway:IEEE,2021:8122-8131.

[29] CHOI J, CHANG H J, JEONG J, et al. Visual tracking using attention-modulated disintegration and integration[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 4321-4330.

[29] NAM H, HAN B. Learning multi-domain convolutional neural networks for visual tracking [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 4293-4302.

[30] GRABNER H, GRABNER M, BISCHOF H. Real-time tracking via on-line boosting [EB/OL]. [2022-11-20]. https://citeseerx.ist.psu.edu/viewdoc/download;jsessionid=0653CED71417C5E6632E7117161E2201?doi=10.1.1.91.8743&rep=rep1&type=pdf.

[31] ZHANG J, MA S, SCLAROFF S. MEEM: robust tracking via multiple experts using entropy minimization [C]// Proceedings of the 2014 European Conference on Computer Vision,LNCS 8694. Cham:Springer, 2014:188-203.

[32] ZHANG Z, PENG H, FU J, et al. Ocean: object-aware anchor-free tracking [C]// Proceedings of the 2020 European Conference on Computer Vision, LNCS 12366. Cham: Springer, 2020: 771-787.

[33] CHEN X, YAN B, ZHU J, et al. Transformer tracking[C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2021: 8122-8131.

SiamTrans: tiny object tracking algorithm based on Siamese network and Transformer

GONG Haitao1, CHEN Zhihua1*, SHENG Bin2, ZHU Bingyan1

(1,,200237,;2,,200240,)

Aiming at the problems of poor robustness, low precision and success rate in the existing tiny object tracking algorithms, a tiny object tracking algorithm, SiamTrans, was proposed on the basis of Siamese network and Transformer. Firstly, a similarity response map calculation module was designed based on the Transformer mechanism. In the module, several layers of feature encoding-decoding structures were superimposed, and multi-head self-attention and multi-head cross-attention mechanisms were used to query template feature map information in feature maps of different levels of search regions, which avoided falling into local optimal solutions and obtained a high-quality similarity response map. Secondly, a Prediction Module (PM) based on Transformer mechanism was designed in the prediction subnetwork, and the self-attention mechanism was used to process redundant feature information in the prediction branch feature maps to improve the prediction precisions of different prediction branches. Experimental results on Small90 dataset show that, compared to the TransT (Transformer Tracking) algorithm, the tracking precision and tracking success rate of the proposed algorithm are 8.0 and 9.5 percentage points higher, respectively. It can be seen that the proposed algorithm has better tracking performance for tiny objects.

object tracking; tiny object; Siamese network; attention mechanism; Transformer

This work is partially supported by Fund Project of National Key Laboratory of Space Intelligent Control (HTKJ2022KL502010).

GONG Haitao, born in 1998, M. S. candidate. His research interests include computer vision, deep learning.

CHEN Zhihua, born in 1969, Ph. D., professor. His research interests include computer vision, machine learning.

SHENG Bin, born in 1981, Ph. D., professor. His research interests include virtual reality, computer graphics.

ZHU Bingyan, born in 1998, M. S. candidate. Her research interests include computer vision, deep learning.

TP391.4

A

1001-9081(2023)12-3733-07

10.11772/j.issn.1001-9081.2022111790

2022?12?06;

2023?02?23;

2023?02?27。

空間智能控制技術(shù)全國重點(diǎn)實(shí)驗(yàn)室開放基金課題(HTKJ2022KL502010)。

公海濤(1998—),男,山東臨沂人,碩士研究生,主要研究方向:計(jì)算機(jī)視覺、深度學(xué)習(xí);陳志華(1969—),男,江西上饒人,教授,博士,CCF杰出會員,主要研究方向:計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí);盛斌(1981—),男,湖北武漢人,教授,博士,CCF會員,主要研究方向:虛擬現(xiàn)實(shí)、計(jì)算機(jī)圖形學(xué);祝冰艷(1998—),女,安徽六安人,碩士研究生,主要研究方向:計(jì)算機(jī)視覺、深度學(xué)習(xí)。

猜你喜歡
子網(wǎng)集上精度
一種簡單子網(wǎng)劃分方法及教學(xué)案例*
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
子網(wǎng)劃分問題研究及應(yīng)用
基于DSPIC33F微處理器的采集精度的提高
電子制作(2018年11期)2018-08-04 03:25:38
復(fù)扇形指標(biāo)集上的分布混沌
子網(wǎng)劃分的簡易方法
GPS/GLONASS/BDS組合PPP精度分析
改進(jìn)的Goldschmidt雙精度浮點(diǎn)除法器
基于安全協(xié)議的虛擬專用子網(wǎng)研究
河南科技(2014年16期)2014-02-27 14:13:04
漳平市| 无为县| 日土县| 威海市| 中超| 濉溪县| 多伦县| 札达县| 宁远县| 定兴县| 汕尾市| 木里| 甘洛县| 建阳市| 利辛县| 梅河口市| 蒙山县| 固始县| 万宁市| 谷城县| 太湖县| 历史| 江门市| 河间市| 仲巴县| 宜昌市| 乌鲁木齐县| 西平县| 南宫市| 台中县| 石嘴山市| 大方县| 拜泉县| 类乌齐县| 南康市| 察隅县| 西丰县| 永新县| 广汉市| 河源市| 江阴市|