用于通用目標(biāo)跟蹤的圖記憶跟蹤器

2023-11-10 05:19:06席佳祺陳曉冬蔡懷宇

天津大學(xué)學(xué)報(自然科學(xué)與工程技術(shù)版) 2023年12期

席佳祺，陳曉冬，汪?毅，蔡懷宇

席佳祺，陳曉冬，汪?毅，蔡懷宇

(天津大學(xué)精密儀器與光電子工程學(xué)院，天津 300072)

基于匹配的跟蹤算法能夠?qū)⑻囟繕?biāo)的識別問題轉(zhuǎn)化為模板匹配問題，具有較高的響應(yīng)速度和跟蹤精度，這使它在通用目標(biāo)跟蹤中占有優(yōu)勢．然而，此類算法缺乏在線適應(yīng)性和對特定數(shù)據(jù)的針對性，難以應(yīng)對目標(biāo)和跟蹤場景的復(fù)雜變化．針對這一問題，提出一種基于圖結(jié)構(gòu)的圖記憶跟蹤器以提升通用目標(biāo)跟蹤的準(zhǔn)確性．首先，利用圖的節(jié)點(diǎn)匹配機(jī)制實現(xiàn)目標(biāo)先驗知識與搜索輸入的點(diǎn)對點(diǎn)局部匹配，并根據(jù)匹配結(jié)果定位目標(biāo)位置．其次，利用目標(biāo)位置信息生成新模板．為抑制相似實例的干擾，根據(jù)相似實例分類響應(yīng)呈現(xiàn)多峰的特點(diǎn)對新模板進(jìn)行動態(tài)篩選．最后，將經(jīng)過篩選的新模板作為候選信息存入存儲模塊．為了防止篩選失誤引起后續(xù)錯誤疊加、減少錯誤信息的參與度，存儲模塊對候選信息進(jìn)行實時更新．視頻序列上的測試結(jié)果顯示，圖記憶跟蹤器的存儲模塊能夠及時更新候選信息，保留目標(biāo)不同時刻的狀態(tài)．常用跟蹤基準(zhǔn)上的結(jié)果顯示，圖記憶跟蹤器在成功率和精度上優(yōu)于基于匹配的基線跟蹤器SiamRPN．與最近的先進(jìn)跟蹤器CstNet相比，圖記憶跟蹤器在OTB100基準(zhǔn)上獲得了11.75%的重疊成功率增益，10.53%的精度增益，在VOT2016基準(zhǔn)上獲得了8.59%的預(yù)期平均重疊增益．速度測試的結(jié)果顯示，圖記憶跟蹤器能夠在單片RTX2070上實現(xiàn)29幀/s的運(yùn)行速度．

目標(biāo)跟蹤；通用跟蹤；圖結(jié)構(gòu)；局部匹配；模板更新

基于匹配的跟蹤是一種成熟的通用目標(biāo)跟蹤策略．它利用視頻第1幀或前1幀中的目標(biāo)信息構(gòu)建模型，學(xué)習(xí)通用的匹配函數(shù)來模擬目標(biāo)的在線變化．近年來，基于匹配的跟蹤使用深度學(xué)習(xí)來提高泛化能?力[1]，它們通過海量數(shù)據(jù)的離線訓(xùn)練，學(xué)習(xí)不同幀中目標(biāo)之間的相似性，實現(xiàn)了良好的跟蹤結(jié)果．

然而，基于匹配的跟蹤器性能主要依賴于離線訓(xùn)練網(wǎng)絡(luò)對相似對象的判別能力，缺乏在線適應(yīng)性和對特定目標(biāo)的針對性，不能很好地捕捉對象、背景或成像條件的時間變化，且易受到相似實例或背景噪聲的干擾．許多研究提出了不同的機(jī)制來更新模板特征，以提高跟蹤器對當(dāng)前任務(wù)的適應(yīng)能力．基于線上學(xué)習(xí)算法利用相似性響應(yīng)[2]和分支特征[3]的損失梯度推斷模板更新殘差，能夠?qū)崿F(xiàn)實時的跟蹤效果，但這一結(jié)構(gòu)的網(wǎng)絡(luò)訓(xùn)練較為困難．基于相關(guān)濾波器的算法[4-5]訓(xùn)練相關(guān)濾波器對固定模板的特征進(jìn)行調(diào)整，使其更準(zhǔn)確地概括當(dāng)前目標(biāo)的特定屬性．這類算法致力于提升網(wǎng)絡(luò)對某一特定類別的識別能力，而使目標(biāo)更容易被相似實例干擾．基于軌跡的算法[6-7]能夠應(yīng)對相似實例的干擾問題，但不適用于不限制鏡頭、目標(biāo)和背景移動的復(fù)雜視頻．針對復(fù)雜的跟蹤場景，一些算?法[8-9]通過綜合歷史信息建立模板庫來應(yīng)對場景和目標(biāo)的變化．這類算法的思路是提取歷史檢測信息作為候選信息，篩選可信任的信息作為模板，但其具有3個缺陷：第一，歷史幀的目標(biāo)形態(tài)差異較大，歷史信息和特定幀信息的全局匹配是不穩(wěn)健的；第二，目標(biāo)特征被視為整體存入候選庫，不可避免地保留了部分背景信息，對這些信息的學(xué)習(xí)使跟蹤器將背景誤認(rèn)為是目標(biāo)的一部分；第三，候選信息不一定正確，檢測誤差會在累加計算中造成檢測錯誤．

針對以上問題，本文提出包含3點(diǎn)貢獻(xiàn)的圖記憶跟蹤網(wǎng)絡(luò)．①針對歷史信息和特定幀信息的全局匹配的劣勢，將圖的節(jié)點(diǎn)匹配機(jī)制應(yīng)用于先驗知識的嵌入過程中，實現(xiàn)點(diǎn)對點(diǎn)局部匹配．②針對背景信息混入先驗知識的問題，對即將存入存儲模塊的候選信息進(jìn)行動態(tài)篩選，確保進(jìn)入候選庫的信息盡量少地包含無關(guān)的背景干擾．③對于檢測失誤引起的后續(xù)錯誤疊加的問題，通過對先驗信息進(jìn)行實時更新來減少錯誤信息的參與度．由于存儲模塊存入錯誤信息是無法避免的，這些信息會造成先驗知識與當(dāng)前任務(wù)的不匹配，因此引入注意力機(jī)制使網(wǎng)絡(luò)關(guān)注于在當(dāng)前檢測任務(wù)中具有優(yōu)勢的先驗知識．結(jié)果表明，所提出的方法優(yōu)于基線跟蹤器SiamRPN[10]，在VOT2016和VOT2018基準(zhǔn)上分別獲得了10.17%和15.16%的綜合性能預(yù)期平均重疊(expected average overlap，EAO)增益，同時能夠保持29幀/s的實時運(yùn)行速度．

1?圖記憶跟蹤器

圖記憶跟蹤器使用經(jīng)典的Siamese構(gòu)架[1]將視覺跟蹤轉(zhuǎn)化為模板匹配問題，并在其基礎(chǔ)上設(shè)計了基于圖的匹配模塊、篩選模塊和存儲模塊．其結(jié)構(gòu)如圖1所示．

圖1?圖記憶跟蹤器結(jié)構(gòu)示意

圖記憶跟蹤器的輸入為存儲模塊讀出的先驗知識[0，1，…，M]和＝時刻的搜索輸入S．當(dāng)＜＋1時存儲模塊未滿，以初始模板0代替先驗知識．兩路輸入經(jīng)過特征提取網(wǎng)絡(luò)和層間串聯(lián)函數(shù)提取特征編碼，得到(M)和(S)分別為

式中：M為存儲模塊讀出的第個信息，∈[0，]；3、4、5分別為特征提取網(wǎng)絡(luò)的第3、4、5層特征；cat為通道串聯(lián)操作．

兩路特征編碼共同輸入匹配模塊進(jìn)行搜索輸入與先驗知識的局部匹配，得到匹配后的融合編碼為

式中Graph代表圖模塊的處理過程．

Cls分類分支和Loc定位分支根據(jù)融合編碼得到分類響應(yīng)cls與包圍框bbox為

由分類響應(yīng)與包圍框生成新模板，經(jīng)過篩選模塊篩選后作為候選信息輸入存儲模塊，再由存儲模塊控制其讀寫．

1.1?基于圖的匹配模塊

圖是一種常用的數(shù)據(jù)結(jié)構(gòu)，常被用于局部信息處理中．GNNM[11]以空間方式對每個節(jié)點(diǎn)采用前饋神經(jīng)網(wǎng)絡(luò)．SSCGCN[12]通過傅里葉域中的卷積在圖上提供明確定義的定位算子．對于計算機(jī)視覺任務(wù)，Wang等[13]提出將視頻表示為時空區(qū)域圖，其捕捉相似性關(guān)系和時空關(guān)系．在跟蹤檢測領(lǐng)域，GCT[14]采用時空圖卷積網(wǎng)絡(luò)進(jìn)行目標(biāo)建模．受此啟發(fā)，將圖用于先驗信息與搜索輸入的局部匹配過程中．圖2顯示了所設(shè)計模塊的局部匹配過程．

圖2?先驗信息與搜索輸入特征的局部匹配

首先，假設(shè)僅存在單個先驗知識．如圖2所示，將單個先驗知識0與搜索輸入S的特征編碼上每個點(diǎn)看作圖的一個節(jié)點(diǎn)．令p和s分別為(0)和(S)的節(jié)點(diǎn)集合，p中任意節(jié)點(diǎn)包含先驗知識某一位置的不同尺度的特征信息，s中任意節(jié)點(diǎn)則包含搜索輸入某一位置的不同尺度的特征信息．由于先驗知識與搜索輸入共享特征提取網(wǎng)絡(luò)參數(shù)，節(jié)點(diǎn)、包含的特征信息呈現(xiàn)一一對應(yīng)的關(guān)系．利用兩組節(jié)點(diǎn)構(gòu)建二分圖為

的兩個子圖分別為p＝(p，)和s＝(s，)．通過s中每個節(jié)點(diǎn)對p中所有節(jié)點(diǎn)進(jìn)行搜索，實現(xiàn)先驗知識與搜索輸入的局部匹配，其具體過程如下．

步驟1 獲取節(jié)點(diǎn)之間的權(quán)并進(jìn)行搜索．對于中每個點(diǎn)(，)，令e表示節(jié)點(diǎn)和節(jié)點(diǎn)之間的權(quán)，其計算方式為兩節(jié)點(diǎn)線性變化后的內(nèi)積，即

步驟2 將搜索結(jié)果傳遞到s中以實現(xiàn)局部匹配．由于搜索輸入中與先驗知識越相似的區(qū)域越有可能存在目標(biāo)，更多的目標(biāo)信息應(yīng)該被傳遞到那里．因此，使用e作為相似性度量進(jìn)行信息傳遞．

具體來說，利用p中所有節(jié)點(diǎn)傳遞到s中第個節(jié)點(diǎn)的相關(guān)性得分計算節(jié)點(diǎn)的加權(quán)表達(dá)，則有

式中：softmax為歸一化函數(shù)；v為線性層權(quán)重．

收集傳遞到s中所有節(jié)點(diǎn)的先驗知識，得到局部匹配結(jié)果為

步驟3 為保留當(dāng)前幀的目標(biāo)信息，使定位分支更好地細(xì)化目標(biāo)形狀大小，對0與S的局部匹配結(jié)果與S的特征進(jìn)行編碼融合，即

式中conv表示核為1×1的卷積層．

考慮存在多個先驗知識0，1，…，M的情況．對于任意一個先驗知識M得到的融合特征編碼g，引入SE模塊[15]生成權(quán)重編碼，對融合特征編碼g進(jìn)行加權(quán)疊加得到最終的融合編碼為

將融合編碼輸入分類分支與定位分支得到跟蹤結(jié)果．

1.2?篩選模塊

圖記憶跟蹤器將每一幀的跟蹤結(jié)果剪切下來作為新模板．然而，這些新模板存在兩點(diǎn)問題：第一，生成新模板時不可避免地保留了部分背景信息，對這些信息的學(xué)習(xí)使跟蹤器將背景誤認(rèn)為是目標(biāo)的一部分；第二，相似對象與目標(biāo)混疊，跟蹤器易將相似對象誤認(rèn)為目標(biāo)．這使它們不能直接作為候選信息存入存儲區(qū)．針對這些問題，設(shè)計了如圖3所示的篩選模塊．

篩選模塊的具體工作如下．

首先，根據(jù)定位分支獲得的包圍框?qū)λ阉鬏斎脒M(jìn)行剪切生成新模板T，同時生成標(biāo)記目標(biāo)與背景的模板標(biāo)簽label，用于在后續(xù)的生成特征編碼的過程中突出目標(biāo)信息．

其次，對新模板進(jìn)行篩選，篩選過程如圖4所示.

圖3?篩選模塊結(jié)構(gòu)示意

圖4?篩選過程示意

如圖4所示，篩選依據(jù)是由分類分支的分類響應(yīng)決定的．如果＝時搜索輸入S中目標(biāo)周圍無相似對象，那么分類結(jié)果通常顯示為單峰．如果目標(biāo)與相似對象混疊，分類結(jié)果顯示為多個峰值點(diǎn)，此時對搜索輸入剪切生成的新模板將不可避免地包含部分相似對象，對后續(xù)結(jié)果產(chǎn)生影響．因此，篩選模塊濾除分類結(jié)果為多個峰值點(diǎn)的新模板，以抑制相似對象的干擾．

具體來說，由定位分支生成的目標(biāo)包圍框bbox生成以目標(biāo)中心點(diǎn)為中心的高斯分布圖像label，對分類分支生成的分類結(jié)果cls進(jìn)行相似性計算，若相似性大于統(tǒng)計平均值sim，則通過gate輸入存儲模塊作為候選信息，否則放棄當(dāng)前新模板，使用原始數(shù)據(jù)進(jìn)行下一幀的跟蹤．用于篩選的gate可表示為

1.3?存儲模塊

經(jīng)過篩選的新模板作為候選信息輸入如圖5所示的存儲模塊，其主要工作是控制候選信息的讀寫．

圖5?存儲模塊寫入過程

如圖5所示，存儲區(qū)的輸入是經(jīng)過篩選的新模板T、初始模板0和分類響應(yīng)cls．為了控制候選信息的寫入，根據(jù)初始模板與候選信息的相似程度生成用于判斷是否寫入存儲區(qū)的寫權(quán)重閾值Initwrite和當(dāng)前候選信息T的寫權(quán)重write分別為

式中g(shù)lobal為全局池化操作．

由于手動標(biāo)記的初始模板是跟蹤器唯一能夠得到的絕對正確的目標(biāo)信息，候選信息與初始模板的相似性越大，跟蹤器對候選信息的信任程度越高，寫權(quán)重write越大．Initwrite為存儲區(qū)未滿時生成的閾值，用于在后續(xù)幀中評估寫權(quán)重write的大?。撝翟降停f明跟蹤場景越復(fù)雜，對寫權(quán)重的約束力越?。?/p>

存儲模塊的寫入流程如下：當(dāng)＜＋1時存儲區(qū)未滿，對于待檢測的實時性視頻來說，此時的目標(biāo)和場景與初始狀態(tài)基本相同，因此直接將候選信息寫入；當(dāng)＞時存儲區(qū)已滿，根據(jù)寫權(quán)重write判斷是否寫入，寫入時替換舊的候選信息，替換位置由寫權(quán)重write、讀權(quán)重read和寫入幀數(shù)frame決定，即

當(dāng)模板的可靠性低，被讀取的次數(shù)少，寫入的時間長，則優(yōu)先被替換．完成寫入與替換后，對存儲區(qū)各個位置的權(quán)重進(jìn)行復(fù)位．進(jìn)行下一幀識別時，由存儲模塊讀出候選信息計算特征編碼作為先驗知識．

此外，值越大，存儲的候選信息越豐富，但過高的值會導(dǎo)致訓(xùn)練時數(shù)據(jù)量成倍增加，因此在實驗中將值固定為6，在可訓(xùn)練的范圍內(nèi)保留最高的值.

2?實驗驗證

本節(jié)介紹了圖記憶跟蹤器的訓(xùn)練細(xì)節(jié)和測試結(jié)果，并與成熟的跟蹤算法進(jìn)行了比較．為公平比?較，所有被比較的跟蹤器數(shù)據(jù)來自文獻(xiàn)或比賽結(jié)果[1-10, 16-18]．

2.1?訓(xùn)練細(xì)節(jié)

使用分布訓(xùn)練對圖記憶跟蹤器的各部分參數(shù)進(jìn)行訓(xùn)練．首先，訓(xùn)練不包含圖模塊和存儲模塊的網(wǎng)絡(luò)模型，訓(xùn)練數(shù)據(jù)為同一視頻序列裁剪的模板和搜索輸入圖像對．其次，凍結(jié)特征提取網(wǎng)絡(luò)的前3層參數(shù)訓(xùn)練圖模塊、分類分支和定位分支．訓(xùn)練數(shù)據(jù)為同一視頻序列裁剪得到的1張搜索輸入和8張模板，隨機(jī)抽取1張模板與搜索輸入組成圖像對輸入網(wǎng)絡(luò)，其他模板作為候選信息輸入存儲模塊參與訓(xùn)練．

訓(xùn)練數(shù)據(jù)包含COCO[19]、VID[20]、LaSOT[21]和YoutubuVOS[22]數(shù)據(jù)集．模板與搜索輸入的剪切方式采用SiamRPN剪切方式，模板尺寸為127像素×127像素，搜索輸入尺寸為255像素×255像素．訓(xùn)練周期為30，批量尺寸為8，學(xué)習(xí)率為1×10-2～1×10-5，采用動量為0.9的隨機(jī)梯度下降(SGD)來訓(xùn)練網(wǎng)絡(luò)，權(quán)重衰減為1×10-5．

2.2?測試結(jié)果與分析

本節(jié)展示了存儲模塊測試結(jié)果、跟蹤結(jié)果、基準(zhǔn)測試結(jié)果和消融實驗，以證明所提出跟蹤器的先進(jìn)性．測試平臺是單片NVIDIA RTX 2070．

2.2.1?存儲模塊測試結(jié)果

存儲模塊存儲的候選信息是否準(zhǔn)確直接影響到跟蹤的效果，因此，本文測試了存儲模塊的存儲內(nèi)容.

圖6顯示了視頻序列Bird1的3幀圖像，綠色包圍框為跟蹤器輸出的目標(biāo)框，0～6分別為對應(yīng)時刻存儲模塊中存儲的候選信息．視頻序列中，目標(biāo)在第81～221幀完全被云層覆蓋．圖6(a)、(b)、(c)分別展示了目標(biāo)丟失前(第65幀)、目標(biāo)丟失時(第139幀)和再次定位目標(biāo)后(第358幀)的跟蹤結(jié)果．

如圖6所示，3幀圖像的21張候選信息皆包含目標(biāo)物，沒有存入無關(guān)背景信息或相似對象．如圖6(b)所示，第139幀識別到不含目標(biāo)的包圍框，但存儲模塊中并沒有寫入不含目標(biāo)的候選信息，這說明存儲模塊能夠及時更新候選信息，保留原始信息和與當(dāng)前目標(biāo)形態(tài)相似的信息．

圖6?存儲模塊的存儲內(nèi)容

2.2.2?跟蹤結(jié)果

本節(jié)測試了跟蹤器在不同挑戰(zhàn)的視頻序列中的效果．如圖7～圖12所示，選取了6組具有挑戰(zhàn)性的視頻序列，每個視頻序列間隔選取5張圖像．每個圖像序列的尺寸和類型不一．藍(lán)色包圍框表示第1幀中手動標(biāo)記的目標(biāo)框，綠色包圍框表示基線跟蹤器SiamRPN的輸出結(jié)果，紅色包圍框表示圖記憶跟蹤器輸出結(jié)果．6組圖像序列的主題分別是目標(biāo)位移、目標(biāo)丟失(目標(biāo)在第81～221幀之間完全被背景遮擋)、相似對象干擾、目標(biāo)形變、光照變化和相似對象遮擋．為了更清晰地區(qū)分圖中的目標(biāo)與相似實例，在存在多個相似實例的圖8和圖9中使用符號T標(biāo)記了真實的目標(biāo)對象．

如圖7、圖10、圖11所示，在主題為目標(biāo)移動、目標(biāo)形變和光照變化的視頻序列中，基線跟蹤器SiamRPN與所提出的圖記憶跟蹤器均能識別到正確目標(biāo)，但圖記憶跟蹤器得到的包圍框更貼合目標(biāo)．這是因為圖記憶跟蹤器使用局部匹配代替全局匹配，能夠?qū)崿F(xiàn)更精細(xì)化的定位．在圖8、圖9、圖12中，SiamRPN丟失目標(biāo)，而圖記憶跟蹤器仍能正確識別到目標(biāo)．這是因為圖記憶跟蹤器獲取了充足的模板信息，在丟失目標(biāo)后能夠由儲存多種目標(biāo)狀態(tài)的先驗知識找到目標(biāo)，而SiamRPN需要根據(jù)第1幀固定的模板重新跟蹤，這使它容易將相似性對象誤識別為目標(biāo)．圖記憶跟蹤器在不同主題和尺寸的視頻序列中均能準(zhǔn)確識別到目標(biāo)，說明其對于目標(biāo)和場景變化具有適應(yīng)性，同時對不同大小的視頻序列均能保持穩(wěn)定?跟蹤．

圖7?視頻序列Biker的跟蹤結(jié)果

圖8?視頻序列Bird1的跟蹤結(jié)果

圖9?視頻序列Bolt2的跟蹤結(jié)果

圖10?視頻序列Diving的跟蹤結(jié)果

圖11?視頻序列Man的跟蹤結(jié)果

圖12?視頻序列GOT6的跟蹤結(jié)果

2.2.3?基準(zhǔn)測試結(jié)果

為測試圖記憶跟蹤器在普適性數(shù)據(jù)集上的跟蹤能力，在3個常用跟蹤基準(zhǔn)上測試了所提出的跟蹤器，并與基于匹配的經(jīng)典跟蹤器以及近幾年的先進(jìn)的模板更新跟蹤器進(jìn)行了比較．跟蹤基準(zhǔn)包括OTB100[23]、VOT2016[24]、VOT2018[25]．

選用OTB2015的100個挑戰(zhàn)性序列OTB100進(jìn)行跟蹤器評估．評價標(biāo)準(zhǔn)包含兩個指標(biāo)，即重疊成功率()和精度()．重疊成功率通過顯示真實邊界框和跟蹤器預(yù)測的邊界框之間交并比大于給定閾值的視頻幀數(shù)占總幀數(shù)的比例，來衡量跟蹤器預(yù)測的邊界框的準(zhǔn)確程度．同時使用曲線下的區(qū)域?qū)Σ煌母櫰鬟M(jìn)行排序．精度通過顯示真實邊界框和跟蹤器預(yù)測的邊界框中心的距離大于給定閾值的視頻幀數(shù)占總幀數(shù)的比例，來衡量跟蹤器對目標(biāo)進(jìn)行定位的準(zhǔn)確程度．同時選取距離低于閾值時跟蹤的成功率進(jìn)行排序．閾值距離通常設(shè)置為20個像素．

VOT2016和VOT2018是廣泛使用的視覺目標(biāo)跟蹤基準(zhǔn)．每個跟蹤基準(zhǔn)包含60個具有各種挑戰(zhàn)性因素的序列，視頻序列中的每一幀用單個目標(biāo)對象的邊界框標(biāo)定真實值．VOT基準(zhǔn)采用準(zhǔn)確性、穩(wěn)健性和預(yù)期平均重疊EAO作為衡量標(biāo)準(zhǔn)．準(zhǔn)確性基于真實邊界框和跟蹤器預(yù)測的邊界框的交并比來評估跟蹤器．準(zhǔn)確性的值越大，跟蹤器對目標(biāo)的定位越準(zhǔn)確．穩(wěn)健性用于評價跟蹤器在跟蹤目標(biāo)過程中的穩(wěn)定性．穩(wěn)健性的值越大，跟蹤器丟失目標(biāo)的可能性越大，其穩(wěn)定性越差．預(yù)期平均重疊EAO綜合考慮了邊界框重疊率和跟蹤器丟失目標(biāo)后重新初始化的時間，能夠?qū)Ω櫰鞯恼w性能進(jìn)行評估．預(yù)期平均重疊EAO的值越大表明跟蹤器的綜合性能越好．

表1顯示了3個常用基準(zhǔn)上的測試結(jié)果．對比算法為一些經(jīng)典的基于Siamese結(jié)構(gòu)、算法和近幾年的使用模板更新的跟蹤算法，包括SiamFC[1]、SiamRPN[10]、DSiam[5]、CstNet[9]、TADT[3]、CFNet[4]、GradNet[2]、C-COT[6]、FlowTrack[7]、Memtrack[8]和楊浩等[16]、周益飛等[17]、邱云飛等[18]提出的算法．對于未提供測試數(shù)據(jù)的算法，表格中顯示為空白．

表1?3個基準(zhǔn)上的測試結(jié)果

Tab.1?Results of three benchmarks

注：SiamRPN是本文的基線跟蹤器，帶*號的數(shù)據(jù)為最優(yōu)數(shù)據(jù)．

由表1可知，所提出的跟蹤器在基準(zhǔn)OTB100上實現(xiàn)了0.656的重疊成功率和0.860的精度，與最優(yōu)數(shù)據(jù)分別相差0.026和0.021，C-COT和FlowTrack雖然在其中一個參數(shù)上優(yōu)于所提出的圖記憶跟蹤器，但在另一個參數(shù)上弱于它．在基準(zhǔn)VOT2016和VOT2018上，圖記憶跟蹤器取得了最優(yōu)的準(zhǔn)確性和預(yù)期平均重疊，穩(wěn)健性弱于其他跟蹤器．這說明雖然所提出的跟蹤器丟失目標(biāo)后重新定位所需的時間更長，但其在跟蹤準(zhǔn)確率方面占有優(yōu)勢，且具備優(yōu)秀的綜合性能．

與基線跟蹤器相比，所提出的跟蹤器在比較的幾個參數(shù)上皆優(yōu)于SiamRPN，且在VOT2016和VOT2018上分別獲得了10.17%和15.16%的綜合性能(EAO)增益，證明了所提出模塊的有效性．與最近的先進(jìn)算法CstNet相比，圖記憶跟蹤器在OTB100基準(zhǔn)上獲得了11.75%的重疊成功率增益，10.53%的精度增益，在VOT2016基準(zhǔn)上獲得了8.59%的綜合性能增益．與表中最先進(jìn)的算法FlowTrack相比，圖記憶跟蹤器在OTB100上的精度略遜一籌，造成了2.4%的精度損耗，但在VOT2016上獲得了13.4%的綜合性能增益．

2.2.4?消融實驗

匹配模塊是所提出跟蹤器的核心，為了評估其有效性，本文比較了消融匹配模塊前后在不同數(shù)據(jù)集上的跟蹤成功率和速度．消融匹配模塊后，將存儲模塊提供的先驗知識進(jìn)行疊加后與搜索輸入進(jìn)行全局匹配．消融實驗結(jié)果顯示在表2中．表中顯示的檢測速度是跟蹤器在一臺配備Nvidia RTX2070圖形處理器的計算機(jī)上的每秒處理的圖像幀數(shù)．

表2?消融實驗結(jié)果

Tab.2?Results of the ablation experiment

從表2的跟蹤成功率可以看出，匹配模塊能夠?qū)TB數(shù)據(jù)集上重疊成功率從0.447提升至0.656，說明匹配模塊對于提升跟蹤器性能有積極作用．從速度測試數(shù)據(jù)來看，所提出的匹配模塊雖然取得了性能提升，但增加了時間成本．盡管如此，它仍然可以以29幀/s的速度運(yùn)行．

3?結(jié)?語

基于匹配的跟蹤通過計算通用的特征相似性來定位目標(biāo)，這一過程拋棄了對特定跟蹤場景和目標(biāo)狀態(tài)特征表示的學(xué)習(xí)．而跟蹤器是根據(jù)所有類型的視頻設(shè)計的，無法在訓(xùn)練階段保留對所有狀態(tài)的目標(biāo)和跟蹤場景的辨別能力．本文提出了圖記憶跟蹤器，它能夠在跟蹤時獲取當(dāng)前視頻的先驗知識以學(xué)習(xí)當(dāng)前跟蹤任務(wù)的特征表示．針對先驗知識的篩選、生成和嵌入方式，分別設(shè)計了篩選模塊、存儲模塊和匹配模塊．本文的思路是使篩選模塊盡可能地篩除背景和相似對象對候選信息的干擾，存儲模塊提取最適合于當(dāng)前任務(wù)的候選信息生成先驗知識，圖模塊實現(xiàn)先驗知識與當(dāng)前搜索輸入的局部匹配與融合．通過測試結(jié)果可知，所提出的跟蹤器能夠獲得正確的候選信息和目標(biāo)跟蹤結(jié)果，這說明所提出的模塊能夠滿足設(shè)計思路的要求．

此外，測試結(jié)果同樣體現(xiàn)了所提出的跟蹤器在穩(wěn)健性方面的不足．具體來說，相比于其他先進(jìn)的跟蹤器，所提出的跟蹤器丟失目標(biāo)后重新定位所需的時間更長．這是因為跟蹤器為了減少丟失目標(biāo)后錯誤識別到相似對象的情況，由目標(biāo)丟失的位置為中心向外尋找新目標(biāo)，而不是在全圖范圍內(nèi)尋找目標(biāo)，這使所提出的跟蹤器需要多幀進(jìn)行重新定位．如何在保持高效的跟蹤的前提下提升跟蹤器的穩(wěn)健性，仍需要進(jìn)一步研究．

［1］Bertinetto L，Valmadre J，Henriques J，et al. Fully-convolutional siamese networks for object tracking[C]// European Conference on Computer Vision. Amsterdam，Netherlands，2016：850-865.

［2］Li Peixia，Chen Boyu，Ouyang Wanli，et al. GradNet：Gradient-guided network for visual object tracking[C]//International Conference on Computer Vision. Seoul，Korea，2019：6161-6170.

［3］Li Xin，Ma Chao，Wu Baoyuan，et al. Target-aware deep tracking[C]//Computer Society Conference on Computer Vision and Pattern Recognition. Long Beach，USA，2019：1369-1378.

［4］Valmadre J，Bertinetto L，Henriques J，et al. End-to-end representation learning for correlation filter based tracking[C]//Conference on Computer Vision and Pattern Recognition. Honolulu，USA，2017：5000-5008.

［5］Guo Qing，F(xiàn)eng Wei，Zhou Ce，et al. Learning dynamic siamese network for visual object tracking[C]// International Conference on Computer Vision. Venice，Italy，2017：1781-1789.

［6］Danelljan M，Robinson A，Khan F，et al. Beyond correlation filters：Learning continuous convolution op-erators for visual tracking[C]//Conference on Computer Vision and Pattern Recognition. Las Vegas，USA，2016：472-488.

［7］Zhu Zheng，Wu Wei，Zou Wei，et al. End-to-end flow correlation tracking with spatial-temporal attention[C]// Conference on Computer Vision and Pattern Recognition. Salt Lake City，USA，2018：548-557.

［8］Yang Tianyu，Chen A. Learning dynamic memory networks for object tracking[C]//European Conference on Computer Vision. Munich，Germany，2018：153-169.

［9］Yao Siyuan，Zhang Hua，Ren Wenqi，et al. Robust online tracking via contrastive spatio-temporal aware network[C]//AAAI Conference on Artificial Intelligence. Hawaii，USA，2019：8666-8673.

［10］Li Bo，Yan Junjie，Wu Wei，et al. High performance visual tracking with siamese region proposal network [C]//Conference on Computer Vision and Pattern Recognition. Salt Lake City，USA，2018：8971-8980.

［11］Franco S，Marco G，Ah T，et al. The graph neural network model[J]. Transactions on Neural Networks，2009，20(1)：61-80.

［12］Kipf T，Welling M. Semi-supervised classification with graph convolutional networks[C]//International Conference on Learning Representations. Palais des Congrès Neptune，F(xiàn)rance，2017：1-14.

［13］Wang Xiaolong，Abhinav G. Videos as space-time region graphs[C]//European Conference on Computer Vision. Munich，Germany，2018：413-431.

［14］Guo Dongyan，Shao Yanyan，Cui Ying，et al. Graph attention tracking[C]//Conference on Computer Vision and Pattern Recognition. Nashville，USA，2021：9543-9552.

［15］Hu Jie，Shen Li，Albanie S，et al. Squeeze-and-excitation networks[J]. Transactions on Pattern Analysis and Machine Intelligence，2020，42(8)：2011-2023.

［16］楊?浩，鐘小勇，黃林輝. 基于先驗機(jī)制的級聯(lián)目標(biāo)跟蹤算法研究[J]. 無線電工程，2023，53(2)：371-380.

Yang Hao，Zhong Xiaoyong，Huang Linhui. Research on cascaded target tracking algorithm based on prior mechanism[J]. Radio Engineering，2023，53(2)：371-380(in Chinese).

［17］周益飛，徐文卓. 基于響應(yīng)正則化的孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法[J]. 計算機(jī)應(yīng)用與軟件，2022，39(11)：154-159.

Zhou Yifei，Xu Wenzhuo. Target tracking algorithm based on response regularization siamese network[J]. Computer Applications and Software，2022，39(11)：154-159(in Chinese).

［18］邱云飛，卜祥蕊，張博強(qiáng). 動態(tài)時空異常感知的相關(guān)濾波目標(biāo)跟蹤算法[J/OL]. 系統(tǒng)仿真學(xué)報，https://kns. cnki.net/kcms/detail//11.3092.V.20221201.1149.001.html，2022-12-01.

Qiu Yunfei，Bu Xiangrui，Zhang Boqiang. Dynamic spatio-temporal anomaly-aware object tracking algorithm[J/OL]. Journal of System Simulation，https://kns. cnki.net/kcms/detail//11.3092.V.20221201.1149.001.html，2022-12-01(in Chinese).

［19］Lin T，Maire M，Belongie S，et al. Microsoft COCO：Common objects in context[C]//European Con-ference on Computer Vision. Zurich，Switzerland，2014：740-755.

［20］Russakovsky O，Deng Jia，Su Hao，et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision，2015，115(3)：211-252.

［21］Fan Heng，Lin Liting，Yang Fan，et al. LaSOT：A high-quality large-scale single object tracking bench-mark[C]//Conference on Computer Vision and Pattern Recognition. Long Beach，USA，2019：5369-5378.

［22］Xu Ning，Yang Linjie，F(xiàn)an Yuchen，et al. YouTube-VOS：Sequence-to-sequence video object segmentation[C]//European Conference on Computer Vision. Munich，Germany，2018：603-619.

［23］Wu Yi，Lim J，Yang M H. Object tracking benchmark[J]. Transactions on Pattern Analysis and Machine Intelligence，2015，37(9)：1834-1848.

［24］Kristan M，Leonardis A，Matas J，et al. The visual object tracking VOT2016 challenge results[C]//Euro-pean Conference on Computer Vision Workshop. Amsterdam，Netherlands，2016：192-217.

［25］Kristan M，Leonardis A，Matas J，et al. The sixth visual object tracking VOT2018 challenge results[C]// European Conference on Computer Vision Workshops. Munich，Germany，2018：3-53.

Graph Memory Tracker for Generic Object Tracking

Xi Jiaqi，Chen Xiaodong，Wang Yi，Cai Huaiyu

(School of Precision Instruments and Optoelectronic Engineering，Tianjin University，Tianjin 300072，China)

Matching-based tracking algorithm transforms the issue of detecting specific targets into template matching and has a high response speed and tracking precision. As a result，it has an advantage in generic target tracking. How-ever，lack of online adaptability，applicability to specific data，and difficulty in coping with the complex changes in targets and tracking scenes are some of the issues it faces. To address this issue，a graph structure-based graph mem-ory tracker is presented to enhance the accuracy of generic object tracking. First，the node-matching mechanism of the graph was used to achieve point-to-point local matching between the prior knowledge of the target and the search input. The target position was then located using the matching result. Second，the new template was created by processing the target location information. To suppress the interference from similar objects，the new template was dynamically screened according to the characteristics of the multi-peak classification response of similar objects. Finally，the new screened template was saved as candidate information in the memory module. The memory module updated candidate information in real-time to prevent subsequent error superposition produced by screening errors and to decrease the participation of error information. The results from the video sequences demonstrated that the memory module of the graph memory tracker can update the candidate information in time and store the target’s state at each instance. The results on common tracking benchmarks reveal that the graph memory tracker is superior to the matching-based baseline tracker SiamRPN in success rate and accuracy. Compared with the latest advanced tracker CstNet，we achieved an 11.75% overlap success rate gain，10.53% accuracy gain on OTB100，and 8.59% expected average overlap gain on VOT2016. The graph memory tracker achieves a running speed of 29 frames per second on a single RTX2070 in the speed test.

object tracking；generic tracking；graph structure；local matching；template updating

the National Natural Science Foundation of China(No. 82027801).

10.11784/tdxbz202210023

TP391.4

0493-2137(2023)12-1317-09

2022-10-19；

2023-02-27.

席佳祺（1995—??），女，博士研究生，xijiaqi@tju.edu.cn.Email：m_bigm@tju.edu.cn

陳曉冬，xdchen@tju.edu.cn.

國家自然科學(xué)基金資助項目(82027801).

(責(zé)任編輯：孫立華)

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

用于通用目標(biāo)跟蹤的圖記憶跟蹤器

1?圖記憶跟蹤器

1.1?基于圖的匹配模塊

1.2?篩選模塊

1.3?存儲模塊

2?實驗驗證

2.1?訓(xùn)練細(xì)節(jié)

2.2?測試結(jié)果與分析

3?結(jié)?語