国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

混合目標(biāo)與搜索區(qū)域令牌的視覺目標(biāo)跟蹤

2024-02-20 08:22:10薛萬利張智彬裴生雷張開華陳勝勇
計算機研究與發(fā)展 2024年2期
關(guān)鍵詞:令牌模板記憶

薛萬利 張智彬 裴生雷 張開華 陳勝勇

1 (天津理工大學(xué)計算機科學(xué)與工程學(xué)院 天津 300384)

2 (青海民族大學(xué)物理與電子信息工程學(xué)院 西寧 810007)

3 (南京信息工程大學(xué)計算機學(xué)院 南京 130012)

(xuewanli@email.tjut.edu.cn)

視覺目標(biāo)跟蹤是計算機視覺的重要研究方向[1].其研究任務(wù)是在視頻序列首幀中給定任意目標(biāo),并在后續(xù)視頻序列中持續(xù)預(yù)測目標(biāo)位置. 目標(biāo)跟蹤被廣泛應(yīng)用于無人駕駛、智能視頻監(jiān)控、人機交互等領(lǐng)域[2]. 如何設(shè)計簡單、高效的通用視覺目標(biāo)跟蹤方法是一個亟需解決的難題. 尤其在真實復(fù)雜場景中,目標(biāo)表觀受光照影響、尺寸變化、嚴(yán)重遮擋等挑戰(zhàn),會產(chǎn)生持續(xù)的劇烈變化,從而影響跟蹤結(jié)果.

近些年,基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)的目標(biāo)跟蹤獲得廣泛關(guān)注. 然而受限于感受野規(guī)模,CNN 更多用于處理目標(biāo)在時間域或空間域的局部特征,未能有效捕獲目標(biāo)特征之間的長期依賴關(guān)系[3]. 當(dāng)前基于CNN 的主流跟蹤框架主要包括:基于孿生網(wǎng)絡(luò)(siamese network)[4-7]的目標(biāo)跟蹤和基于在線學(xué)習(xí)判別式模型[8-10]的目標(biāo)跟蹤. 這些方法在獲取圖像局部特征時表現(xiàn)優(yōu)異,但在復(fù)雜場景中,如目標(biāo)被頻繁遮擋或出現(xiàn)劇烈形變時,則不能很好地建模特征的全局上下文關(guān)系.

此外,基于Transformer 的跟蹤方案通過引入全局自注意力(self-attention)機制獲取特征間長期依賴關(guān)系[11-13]. 在此類方案中,多數(shù)跟蹤方法采用CNN 作為主干網(wǎng)絡(luò)對圖像進(jìn)行特征提取,隨后利用Transformer 設(shè)計編碼器和解碼器. 文獻(xiàn)[14?15]專注簡化跟蹤步驟,將Transformer 作為特征提取器并直接輸出預(yù)測位置. 然而,此類跟蹤方案中起核心作用的自注意力機制,由于其計算復(fù)雜度為,使得其隨圖像大小增加導(dǎo)致計算量陡增,并直接影響目標(biāo)跟蹤效率.

為了降低計算量,一些研究采用視覺多層感知器(multi-layer perceptron,MLP)來構(gòu)建主干網(wǎng)絡(luò)[16-17].這些研究使用MLP 層代替Transformer 中的自注意力層,并在時域進(jìn)行令牌(token)間信息交互,所謂令牌即目標(biāo)和搜索區(qū)域?qū)?yīng)的樣本被切分成若干個不重疊的圖像塊. 令牌間的信息交互進(jìn)一步簡化時域信息的融合操作. MLP 的引入降低了計算復(fù)雜度,但是在訓(xùn)練和測試中隨著令牌數(shù)量增加,會顯著加大MLP 計算量,同樣會影響目標(biāo)跟蹤效率.

受全局濾波網(wǎng)絡(luò)設(shè)計啟發(fā)[3],本文提出利用快速傅里葉變換(fast Fourier transform, FFT)對令牌進(jìn)行高效融合,以降低視覺MLP 模型在令牌數(shù)量增加時產(chǎn)生的計算開銷. 首先,利用FFT 將令牌時域特征轉(zhuǎn)變?yōu)轭l域特征. 隨后,在頻域空間中捕獲目標(biāo)當(dāng)前信息及其歷史信息與搜索區(qū)域信息間的長程依賴關(guān)系.最后,利用快速傅里葉逆變換(inverse FFT, IFFT)將頻域特征轉(zhuǎn)換回時域特征. 上述FFT,IFFT 運算步驟使得所提跟蹤方法,能夠以較低的對數(shù)復(fù)雜度在頻域空間快速學(xué)習(xí)目標(biāo)在時空維度上的交互關(guān)系. 此外,為了更好地自適應(yīng)目標(biāo)在跟蹤過程中的表觀變化,提出一種基于質(zhì)量評估的目標(biāo)模板記憶存儲機制. 該機制根據(jù)當(dāng)前跟蹤狀態(tài)動態(tài)更新記憶存儲器中穩(wěn)定的歷史目標(biāo)信息,用于學(xué)習(xí)適應(yīng)目標(biāo)變化的外觀模型,有助于在搜索區(qū)域內(nèi)準(zhǔn)確匹配目標(biāo).

本文的主要貢獻(xiàn)有3 點:

1) 提出一種快速獲取令牌間長程依賴關(guān)系的跟蹤算法. 特征提取與融合以端到端的形式進(jìn)行學(xué)習(xí),同時在頻域空間以更小的計算復(fù)雜度建模目標(biāo)令牌與搜索區(qū)域令牌間的交互關(guān)系.

2) 提出一種基于質(zhì)量評估的目標(biāo)模板記憶存儲機制,動態(tài)自適應(yīng)地捕捉目標(biāo)在視頻序列中的穩(wěn)定變化過程,提供高質(zhì)量的長期歷史目標(biāo)信息.

3) 所提跟蹤方法在3 個公共跟蹤數(shù)據(jù)集LaSOT[18],OTB100[19],UAV123[20]上獲得優(yōu)秀評價.

1 相關(guān)工作

1.1 基于CNN 的目標(biāo)跟蹤

目標(biāo)跟蹤框架通常可以被劃分為3 部分:1)提取圖像特征的主干網(wǎng)絡(luò);2)目標(biāo)與搜索區(qū)域特征融合模塊;3)生成預(yù)測位置模塊. 多數(shù)跟蹤方法[5-9]將CNN 作為主干網(wǎng)絡(luò). 其中,基于孿生網(wǎng)絡(luò)的跟蹤框架以端到端方式進(jìn)行訓(xùn)練.SiamFC[7]采用全卷積孿生網(wǎng)絡(luò)提取目標(biāo)特征,跟蹤過程中不進(jìn)行目標(biāo)模板更新.DSiam[21]基于孿生網(wǎng)絡(luò)以正則化線性回歸模型動態(tài)更新目標(biāo)模板.SiamRPN[6]利用孿生網(wǎng)絡(luò)提取目標(biāo)與搜索區(qū)域特征,同時結(jié)合目標(biāo)檢測研究中的區(qū)域推薦網(wǎng)絡(luò)對目標(biāo)位置進(jìn)行精準(zhǔn)定位.SiamRPN++[5]在訓(xùn)練過程中輔以位置均衡策略緩解CNN 在訓(xùn)練過程中存在的位置偏見問題. 此外,一些基于在線學(xué)習(xí)的判別式目標(biāo)跟蹤模型也取得優(yōu)異性能.DiMP[8]采用端到端網(wǎng)絡(luò)模型離線學(xué)習(xí)目標(biāo)與背景間的差異,同時在線更新目標(biāo)模板.PrDiMP[9]基于DiMP[8]將概率回歸用于端到端訓(xùn)練,在測試階段對搜索區(qū)域生成關(guān)于目標(biāo)狀態(tài)的條件概率密度來捕獲目標(biāo). 基于CNN的目標(biāo)跟蹤在訓(xùn)練時容易造成歸納偏置.

1.2 基于Transformer 的目標(biāo)跟蹤

當(dāng)前Transformer 網(wǎng)絡(luò)被廣泛用于各項視覺任務(wù)中,如目標(biāo)分類及檢測[22-24]. Transformer 中的自注意力機制將每個輸入元素與其他元素進(jìn)行相關(guān)性計算.在視覺跟蹤研究中,TrDiMP[13]使用Transformer 增強目標(biāo)上下文信息,在編碼器中通過自注意力機制增強目標(biāo)模板特征,利用解碼器融合上下文模板進(jìn)行目標(biāo)定位. TransT[12]提出一種基于多頭注意力機制的特征融合網(wǎng)絡(luò),融合后特征分別輸入目標(biāo)分類器及邊界回歸器. Stark[11]則利用ResNet[25]作為主干網(wǎng)絡(luò)提取目標(biāo)特征,以Transformer 編碼器和解碼器進(jìn)行端到端訓(xùn)練. SwinTrack[14]借鑒Swin Transformer[22],采用完全基于注意力機制的Transformer 進(jìn)行特征提取及融合. ToMP[26]同樣是一種完全基于Transformer 的跟蹤算法,使用一個并行的2 階段跟蹤器來回歸目標(biāo)邊界. Mixformer[15]提出一種同時混合注意力模塊用于特征提取及融合. 基于Transformer 的目標(biāo)跟蹤方法雖然取得出色性能,但是隨著搜索區(qū)域增大,其計算復(fù)雜度也將呈2 次方增加,從而影響目標(biāo)跟蹤效率.

1.3 基于MLP 的混合令牌相關(guān)工作

MLP-mixer[16]采用MLP 代替Transformer 中的自注意力機制進(jìn)行令牌混合.ResMLP[17]基于MLP-mixer,利用仿射變換代替歸一化進(jìn)行加速處理.gMLP[27]使用空間門控單元在空間維度上給令牌重新加權(quán). 上述MLP 混合令牌的研究同樣存在計算量增加問題,即隨著輸入令牌數(shù)量增多其時間復(fù)雜度會以2 次方增加,并且MLP 通常存在固定空間權(quán)重很難擴展到高分辨率圖像的情形.

2 方法介紹

圖1 展示了基于FFT 的目標(biāo)與搜索區(qū)域間令牌高效混合的目標(biāo)跟蹤框架,該框架為端到端方式. 首先,初始目標(biāo)模板大小設(shè)置為Ht×Wt×3,記憶存儲器中存儲的歷史目標(biāo)模板的幀數(shù)設(shè)置為T,搜索目標(biāo)區(qū)域的大小為Hs×Ws×3. 之后,將記憶存儲器內(nèi)所有目標(biāo)樣本和搜索區(qū)域?qū)?yīng)圖像樣本,切分成不重疊的、規(guī)格為τ×τ×3的圖像塊,這些圖像塊稱為令牌. 將這些令牌拼接起來,組成1 維令牌序列. 該序列包含目標(biāo)信息與搜索區(qū)域信息. 下面分2 步進(jìn)行模型的離線訓(xùn)練.

1) 針對預(yù)測目標(biāo)框分支進(jìn)行訓(xùn)練. 為了高效學(xué)習(xí)目標(biāo)與搜索區(qū)域令牌間的長程依賴關(guān)系,采用3階段網(wǎng)絡(luò)設(shè)計進(jìn)行令牌間混合. 在階段1 中,使用線性嵌入層將原始令牌投影為維度為C的令牌特征,再將這些令牌特征輸入至線性嵌入層和包含2 個FFT的令牌混合網(wǎng)絡(luò)層. 在階段2 中,為了擴大模型的感受野,通過線性合并層來減少令牌數(shù)量,并將其輸出特征維度設(shè)置為 2C,這一過程由線性合并層和3 個FFT 的令牌混合網(wǎng)絡(luò)層組成. 在階段3 中,繼續(xù)進(jìn)行線性合并,同時經(jīng)過6 個FFT 令牌混合網(wǎng)絡(luò)層,此時輸出的特征維度設(shè)置為 4C. 將在頻域空間中獲得的融合令牌信息進(jìn)行IFFT 運算,將頻域特征重新轉(zhuǎn)換為時域特征,并輸入由3 個Conv-BN-ReLU 網(wǎng)絡(luò)組成的預(yù)測頭網(wǎng)絡(luò)估計目標(biāo)位置.

2) 對跟蹤質(zhì)量評估分支進(jìn)行離線訓(xùn)練,受Stark[11]啟發(fā),跟蹤質(zhì)量評估分支由一個3 層MLP 網(wǎng)絡(luò)組成,用于評價當(dāng)前跟蹤質(zhì)量,以決定是否將當(dāng)前跟蹤結(jié)果更新到記憶存儲器中.

下面將詳細(xì)介紹基于FFT 的令牌混合網(wǎng)絡(luò)和基于跟蹤質(zhì)量評估的目標(biāo)模板動態(tài)記憶存儲機制.

2.1 基于FFT 的令牌混合網(wǎng)絡(luò)

如圖1 所示,提出的基于FFT 令牌混合網(wǎng)絡(luò)層將特征提取與融合進(jìn)行集成. 具體地,先利用圖像分塊操作將原始的2 維目標(biāo)模板和搜索區(qū)域樣本轉(zhuǎn)化為N個不重疊的τ×τ×3大小的令牌. 經(jīng)過裁剪等預(yù)處理后,得到一組特征矩陣P=(p0,p1,…,pN?1),pi∈R3τ2,i∈[0,N?1]. 之后,將P輸入至FFT 令牌混合網(wǎng)絡(luò),在頻域空間快速獲得目標(biāo)特征的多尺度交互及搜索區(qū)域與目標(biāo)之間的有效交互. 其中,F(xiàn)FT 令牌融合網(wǎng)絡(luò)層的結(jié)構(gòu)如圖2 所示,對于第i個令牌先將其映射成C維向量:

Fig. 2 Structure diagram of FFT tokens fusion network圖2 FFT 令牌融合網(wǎng)絡(luò)結(jié)構(gòu)圖

其中ω0∈R3τ2×C為每個令牌首層可學(xué)習(xí)權(quán)重,b0為首層權(quán)重位移參數(shù)向量,N為輸入令牌個數(shù).

FFT 令牌融合網(wǎng)絡(luò)層的輸入特征為X=(x0,x1,…,xN?1)∈RC×N,其中C為輸出通道數(shù). 然后采用式(2)將輸入的時域特征轉(zhuǎn)換為頻域特征X′:

其中,F(xiàn)FT 函數(shù)為F(·)用于獲得輸入特征的頻域表達(dá),W為輸入圖像的寬,H為輸入圖像的高.

FFT 令牌混合網(wǎng)絡(luò)層利用可學(xué)習(xí)的濾波器K∈CH×W×N學(xué)習(xí)X′的頻域特征X′′:

其中 ⊙為K中每一個元素與X′對應(yīng)位置元素間相乘[3].

最后,根據(jù)式(4)將頻域特征X′′轉(zhuǎn)換為時域特征X?,并更新令牌進(jìn)入下一層特征融合模塊.

其中F?1(·)為IFFT,用于將頻域特征轉(zhuǎn)化為時域特征.

參照Stark[11],本文采用一個3 層Conv-BN-ReLU預(yù)測頭網(wǎng)絡(luò)來估計目標(biāo)位置. 具體地,估計過程被建模為預(yù)測邊界框的左上角和右下角坐標(biāo)的概率值圖,并回歸概率值圖分布獲得預(yù)測目標(biāo)的最終坐標(biāo). 不同于Stark 的預(yù)測頭網(wǎng)絡(luò)高度依賴編碼器和解碼器,本文所提預(yù)測頭網(wǎng)絡(luò)由3 個簡單的全卷積網(wǎng)絡(luò)組成.離線訓(xùn)練預(yù)測頭位置分支的損失Lloc由L1損失和Lgiou損失組成,具體定義為:

其中 α為L1損失的權(quán)重系數(shù),設(shè)置α=5; β為Lgiou的權(quán)重系數(shù),設(shè)置β=2 .Bi為第i幀搜索區(qū)域的真實標(biāo)簽,Bpred為預(yù)測頭網(wǎng)絡(luò)輸入預(yù)測的目標(biāo)位置.

2.2 基于跟蹤質(zhì)量評估的目標(biāo)模板記憶存儲機制

為了提升跟蹤速度的同時規(guī)避跟蹤過程中引入的累計誤差,多數(shù)跟蹤算法僅采用第1 幀目標(biāo)模板進(jìn)行匹配. 然而在跟蹤過程中目標(biāo)表觀通常會出現(xiàn)劇烈變化,此時固定目標(biāo)模板的跟蹤方法容易產(chǎn)生漂移. 部分算法采用跟蹤響應(yīng)圖的統(tǒng)計特性來預(yù)測當(dāng)前跟蹤質(zhì)量,如使用峰旁比[28]、平均峰值相關(guān)能量[29]等. 然而基于上述統(tǒng)計數(shù)值判斷跟蹤質(zhì)量的做法在經(jīng)歷長期不穩(wěn)定的跟蹤后,容易導(dǎo)致不準(zhǔn)確的評分結(jié)果.

如果跟蹤算法可以及時預(yù)先獲取當(dāng)前跟蹤質(zhì)量,并將高質(zhì)量跟蹤結(jié)果放入記憶存儲器中,則能夠有效捕獲目標(biāo)在時序上的穩(wěn)定表觀信息變化,為目標(biāo)與搜索區(qū)域的令牌混合提供有效依據(jù).

因此,在預(yù)測頭網(wǎng)絡(luò)中添加了一個用于預(yù)測當(dāng)前跟蹤質(zhì)量的分支. 該分支的輸入為令牌融合網(wǎng)絡(luò)層最終輸出的令牌時域特征,輸出為2 個經(jīng)過softmax 函數(shù)處理過后的數(shù)值Si0與Si1. 其中Si0代表第i幀輸出的預(yù)測目標(biāo)位置不是目標(biāo),Si1表示當(dāng)前預(yù)測結(jié)果是目標(biāo).當(dāng)Si1>Si0時,表示當(dāng)前跟蹤質(zhì)量良好,可以將當(dāng)前跟蹤結(jié)果更新到記憶存儲器中,此時設(shè)置?i=1;當(dāng)Si1≤Si0時,表示當(dāng)前跟蹤質(zhì)量較弱,不適宜將跟蹤結(jié)果更新至記憶存儲器,同時設(shè)置?i=0 .?i表示預(yù)測當(dāng)前跟蹤質(zhì)量評估結(jié)果. 離線訓(xùn)練跟蹤質(zhì)量評價分支使用二值交叉熵?fù)p失評估,具體定義為:

其中l(wèi)i為第i幀樣本真實的標(biāo)簽,當(dāng)li=1時表示當(dāng)前搜索區(qū)域包含真實目標(biāo),當(dāng)li=0時表示當(dāng)前搜索區(qū)域不包含搜索目標(biāo).

記憶存儲器M定義為長度T的隊列,更新間隔設(shè)為TINR. 對應(yīng)的更新策略如算法1 所示,當(dāng)?shù)趇幀的質(zhì)量評估為跟蹤狀態(tài)良好時,即?i=1且符合提取間隔,則將當(dāng)前跟蹤結(jié)果加入記憶存儲隊列M. 若記憶存儲隊列M的長度超過T,則選擇刪除M隊列中首個元素M0. 當(dāng)跟蹤失敗或者跟蹤質(zhì)量較低時,所提基于跟蹤質(zhì)量評估的目標(biāo)記憶存儲機制,能夠有效緩解目標(biāo)模板產(chǎn)生誤差帶來的消極影響.

該機制的可視化展示如圖3 所示. 第1 幀給定初始目標(biāo),并將其存入記憶存儲器中. 記憶存儲器的長度T設(shè)置為5,根據(jù)跟蹤質(zhì)量評價結(jié)果,動態(tài)地將可靠的目標(biāo)模板存入M中. 第200 幀時,目標(biāo)被完全遮擋,此時質(zhì)量評估較差,不進(jìn)行更新存儲操作. 至此,M中的目標(biāo)模板分別來自第90 幀、第100 幀、第110 幀、第120 幀、第130 幀的跟蹤結(jié)果. 在第260 幀時目標(biāo)重新出現(xiàn),此時質(zhì)量評估良好,所以當(dāng)前M存儲的目標(biāo)模板調(diào)整為第120 幀、第130 幀、第240幀、第250 幀、第260 幀的跟蹤結(jié)果.

Fig. 3 Visualization of template memory storage algorithm based on quality assessment圖3 基于質(zhì)量評估的模板記憶存儲算法的可視化

算法1.基于跟蹤質(zhì)量評估的目標(biāo)模板記憶存儲.

3 實驗結(jié)果分析

3.1 模型訓(xùn)練設(shè)置

目標(biāo)模板大小為Ht×Wt×3,搜索區(qū)域的大小為Hs×Ws×3. 設(shè)置Ht,Wt兩者值均為128;Hs,Ws兩者值均為384.記憶存儲器長度T=5. 記憶器更新模板的間隔TINR=10. 圖像分塊操作中塊大小τ=4. 訓(xùn)練數(shù)據(jù)集為LaSOT[18],GOT-10k[30],TrackingNet[31].

考慮到定位和分類的聯(lián)合學(xué)習(xí)可能導(dǎo)致2 個任務(wù)存在次優(yōu)解[11]. 因此,借鑒Stark[11]和Mixformer[15]的訓(xùn)練方式,分2 步訓(xùn)練特征融合模型. 首先,進(jìn)行300 批次的預(yù)測目標(biāo)位置分支訓(xùn)練,采用Adam[32]損失優(yōu)化器將學(xué)習(xí)率設(shè)置為1E?4;其次,進(jìn)行100 批次的預(yù)測當(dāng)前跟蹤質(zhì)量的分支訓(xùn)練,學(xué)習(xí)率設(shè)置為1E?5. 軟件環(huán)境為Ubuntu20.04,Python3.6,Torch1.10.3,Cuda11.3.硬件環(huán)境為NVIDIA RTX3090 24 GB.

3.2 定量分析

在LaSOT[18],OTB100[19],UAV123[20]數(shù)據(jù)集上驗證本文方法的有效性. 評價指標(biāo)為成功率(success ratio)和精度圖(precision plot),其中成功率使用成功率曲線下面積(area under curve, AUC)作為排序依據(jù).

LaSOT[18]數(shù)據(jù)集包含1 400 個視頻序列,共計70類目標(biāo). 其中1 120 個視頻用于訓(xùn)練,280 個視頻用于測試. 視頻序列平均長度2 400 幀. 數(shù)據(jù)集包含視野外等14 種挑戰(zhàn).圖4 顯示本文算法與TrDiMP[13],TransT[12],Alpha-Refine[33],SiamR-CNN[34],PrDiMP[9],DiMP[8],SiamGAT[35],SiamBAN[36]8 種優(yōu)秀算法比較結(jié)果. 結(jié)果表明本文算法在成功率和精度圖中均處于領(lǐng)先水平. 精度圖方面比TransT 高3.3%,成功率比Alpha-Refine 高0.8%.圖5 展示本文算法與5 種先進(jìn)算法在不同挑戰(zhàn)下的實驗結(jié)果,可以看出本文算法在多數(shù)挑戰(zhàn)中均表現(xiàn)優(yōu)異.

Fig. 4 Comparison of success ratio and precision plot in our algorithm and other state-of-the-art algorithms on LaSOT dataset圖4 本文算法與其他最先進(jìn)算法在LaSOT 數(shù)據(jù)集上的成功率指標(biāo)與精度圖比較

Fig. 5 Score comparison of the indictors in success ratio and precision plot for different challenges on LaSOT dataset圖5 LaSOT 數(shù)據(jù)集上不同挑戰(zhàn)的成功率指標(biāo)和精度圖指標(biāo)得分比較

OTB100[19]數(shù)據(jù)集包含100 個視頻序列,涉及快速運動等11 種挑戰(zhàn).圖6 展示本文算法與TransT[12],SiamRPN++[5],SiamBAN[36],PrDiMP[9],DiMP[8],ECO[37],MDNet[38],ATOM[10]的比較結(jié)果. 本文方法取得最高的成功率值和精度圖值,分別比SiamRPN++ 提升0.2%和0.5%.

Fig. 6 Comparison of the success ratio and precision plot in our algorithm and other state-of-the-art algorithms on OTB100 dataset圖6 本文算法與其他最先進(jìn)算法在OTB100 數(shù)據(jù)集上的成功率與精度圖比較

UAV123[20]數(shù)據(jù)集由123 個無人機低空拍攝的視頻序列構(gòu)成. 小目標(biāo)和頻繁遮擋是該數(shù)據(jù)集的獨特挑戰(zhàn). 表1 顯示本文算法與TrDiMP[13],TransT[12],SiamR-CNN[34],SiamGAT[35],SiamBAN[36],PrDiMP[9],DiMP[8],SiamRPN++[5]的比較結(jié)果. 本文算法在成功率和精度圖評價指標(biāo)上均排名第一.

Table 1 Comparison of Our Algorithm and Other State-ofthe-art Algorithms on UAV123 Dataset表1 本文算法與其他先進(jìn)算法在UAV123 數(shù)據(jù)集上的比較

3.3 定性分析

本節(jié)用可視化展示本文算法與6 種優(yōu)秀算法在旋轉(zhuǎn)、快速移動、尺寸變換及遮擋等挑戰(zhàn)下的表現(xiàn).

圖7 展示LaSOT[18]數(shù)據(jù)集中bird-17 視頻序列的跟蹤結(jié)果. 該視頻序列具備快速移動、視野外等挑戰(zhàn). 目標(biāo)在148~156 幀快速向左移動至視野外,導(dǎo)致Alpha-Refine[33]和TrDiMP[13]發(fā)生跟蹤漂移. 在第184幀中目標(biāo)再次回歸視野內(nèi),只有本文算法可以準(zhǔn)確跟蹤目標(biāo). 由于目標(biāo)同時發(fā)生快速移動、運動模糊、旋轉(zhuǎn)等挑戰(zhàn),其他算法均跟蹤失敗. 而本文算法擁有記憶存儲器中的穩(wěn)定目標(biāo)模板,可以增強跟蹤器對目標(biāo)表觀的自適應(yīng)能力,并且在搜索目標(biāo)時可快速計算目標(biāo)模板和搜索區(qū)域之間的匹配關(guān)系,因此可以高效、穩(wěn)健地跟蹤目標(biāo).

Fig. 7 Tracking results of bird-17 video sequence in LaSOT dataset圖7 LaSOT 數(shù)據(jù)集中bird-17 視頻序列中的跟蹤結(jié)果

圖8 展示LaSOT[18]數(shù)據(jù)集中bicycle-18 視頻序列的跟蹤結(jié)果. 在此視頻中目標(biāo)受遮擋、旋轉(zhuǎn)等挑戰(zhàn)影響. 第344~400 幀目標(biāo)被巖石遮擋,導(dǎo)致TransT[12]和SiamGAT[35]丟失目標(biāo). 第437~517 幀目標(biāo)發(fā)生劇烈旋轉(zhuǎn),SiamGAT,TransT,PrDiMP[9]均無法快速應(yīng)對劇烈旋轉(zhuǎn)引起的外觀突變而發(fā)生漂移. 本文算法則依托令牌混合方案快速對目標(biāo)與搜索區(qū)域特征進(jìn)行交互,有效地獲取更加穩(wěn)健的時空特征,最終成功跟蹤目標(biāo).

Fig. 8 Tracking results of bicycle-18 video sequence in LaSOT dataset圖8 LaSOT 數(shù)據(jù)集中bicycle-18 視頻序列中的跟蹤結(jié)果

3.4 消融實驗

本節(jié)驗證本文算法中基于FFT 的令牌混合網(wǎng)絡(luò)和基于跟蹤質(zhì)量評估的目標(biāo)模板動態(tài)記憶存儲機制的有效性. 表2 展示不同變體在LaSOT[18]測試集上的成功率和精度圖得分.

Table 2 Results of the Ablation Experiments of Our Proposed algorithm on LaSOT Dataset表2 在LaSOT 數(shù)據(jù)集上本文算法的消融實驗結(jié)果

首先,探討基于FFT 的令牌混合網(wǎng)絡(luò)的有效性.表2 中變體1 采用基于CNN 融合目標(biāo)與搜索區(qū)域令牌的方法,并且僅利用第1 幀初始目標(biāo)區(qū)域作為目標(biāo)模板. 變體2 采用FFT 融合方法,同樣僅采用第1幀初始目標(biāo)區(qū)域作為目標(biāo)模板進(jìn)行匹配. 結(jié)果顯示,基于FFT 的融合方法比基于CNN 的融合方法的成功率和精度圖分別高1.3%和2.5%. 基于傳統(tǒng)CNN 的融合方式在訓(xùn)練時只能學(xué)習(xí)特征間的局部依賴關(guān)系,無法獲取全局長程依賴,且利用CNN 訓(xùn)練模型存在較大的歸納偏置. 為了更加充分融合目標(biāo)與搜索區(qū)域間的信息同時建立兩者間的長程依賴關(guān)系,本文提出利用FFT 進(jìn)行令牌間的高效融合. 可以觀察到在平均跟蹤速度上變體2 比變體1 提升近1 倍,結(jié)果證實基于FFT 令牌混合網(wǎng)絡(luò)的有效性.

其次,變體3 在變體2 的基礎(chǔ)上增加了基于質(zhì)量評估的目標(biāo)模板動態(tài)記憶存儲機制,用于獲得更新穩(wěn)定的目標(biāo)模板信息,從而自適應(yīng)目標(biāo)表觀變化. 由于記憶存儲機制增加了目標(biāo)模板數(shù)量,所以對平均跟蹤速度上有一定影響. 變體3 在測試時的平均跟蹤速度比變體2 降低了7 fps,但變體3 在成功率和精度圖上,分別比變體2 高出0.6% 和1.4%. 結(jié)果顯示基于跟蹤質(zhì)量評估的目標(biāo)模板動態(tài)記憶存儲機制有效.

此外,為了進(jìn)一步驗證本文方法具備高效的特征提取與融合能力. 在LaSOT 數(shù)據(jù)集上將本文方法與基于1 階段訓(xùn)練的Mixformer[15]和基于2 階段訓(xùn)練的TrDiMP[13]進(jìn)行對比,結(jié)果如表3 所示. 與采用2 階段訓(xùn)練的TrDiMP[13]相比,本文方法的成功率和精度圖分別提升2.7%和5.7%,同時平均跟蹤速度比TrDiMP[13]快8 fps.與基于1 階段訓(xùn)練的Mixformer[15]相比,雖然成功率和精度圖降低2.5%和2.4%,但是推理速度比Mixformer[15]高9 fps.實驗結(jié)果表明本文方法在準(zhǔn)確率和推理速度間的平衡能力更好,同時34 fps 的平均跟蹤速度達(dá)到跟蹤實時性[11]要求(>30 fps).

Table 3 Comparative Experimental Results of Reasoning Speed on LaSOT Dataset表3 LaSOT 數(shù)據(jù)集上推理速度的對比實驗結(jié)果

4 總 結(jié)

本文提出了一種端到端的基于傅里葉變換的高效混合目標(biāo)與搜索區(qū)域令牌的視覺目標(biāo)跟蹤方法.該方法將特征提取與融合相結(jié)合,利用傅里葉變換將令牌的時域特征轉(zhuǎn)換為頻域特征,以便快速學(xué)習(xí)搜索區(qū)域與目標(biāo)模板之間的長程依賴關(guān)系. 為了捕獲目標(biāo)在時序上的外觀變化,提出了一種基于跟蹤質(zhì)量評估的目標(biāo)模板動態(tài)記憶存儲機制,確保更新目標(biāo)外觀模板的合理性. 廣泛的實驗結(jié)果驗證了所提方法的有效性.

作者貢獻(xiàn)聲明:薛萬利提出論文整體思路并負(fù)責(zé)撰寫與修改論文;張智彬負(fù)責(zé)算法設(shè)計與實驗并撰寫論文;裴生雷負(fù)責(zé)算法設(shè)計及論文審核;張開華負(fù)責(zé)論文修改;陳勝勇參與了論文思路的討論及審核.

猜你喜歡
令牌模板記憶
鋁模板在高層建筑施工中的應(yīng)用
鋁模板在高層建筑施工中的應(yīng)用
稱金塊
基于路由和QoS令牌桶的集中式限速網(wǎng)關(guān)
動態(tài)令牌分配的TCSN多級令牌桶流量監(jiān)管算法
計算機工程(2018年8期)2018-08-17 00:26:54
記憶中的他們
兒時的記憶(四)
兒時的記憶(四)
記憶翻新
海外文摘(2016年4期)2016-04-15 22:28:55
鋁模板在高層建筑施工中的應(yīng)用
青河县| 鄂尔多斯市| 辉南县| 旬邑县| 鸡西市| 泰州市| 连云港市| 西吉县| 青岛市| 民勤县| 龙井市| 衡山县| 阿拉善盟| 全州县| 准格尔旗| 乐清市| 南昌市| 文登市| 若尔盖县| 合江县| 达孜县| 芦山县| 涪陵区| 冷水江市| 景德镇市| 余姚市| 房山区| 洛宁县| 镇宁| 佳木斯市| 尉犁县| 江阴市| 北海市| 长治市| 自贡市| 云林县| 永和县| 井冈山市| 云霄县| 秭归县| 吉首市|