戴楚舒,張選德,熊 靜
(陜西科技大學 電子信息與人工智能學院,陜西 西安 710021)
目標追蹤的概念在1955年被Wax[1]提出以來,經(jīng)過了七十多年的演變發(fā)展.單目標追蹤任務的基本過程是利用給定的視頻序列首幀圖像中追蹤目標的平面位置信息,通過對該目標的特征或目標與背景之間的關系進行分析后,利用所設計的追蹤算法在后續(xù)的每一幀中精確地預測出目標的位置信息和尺度信息,最后以邊界框框定目標的形式呈現(xiàn)出預測結果.對于單目標跟蹤問題,先驗知識是第一幀給定的矩形框.而這個框大多是利用目標檢測算法得到的結果[2].目標追蹤的相關技術在國防軍事領域和民用領域中均有著深入且廣泛的應用,例如:視頻人物監(jiān)控、無人駕駛、航空防御與不明飛行物追蹤等,其研究的意義是無法替代的[3].
當深度學習在視覺領域還未攻城掠地之前,傳統(tǒng)算法一直在目標追蹤算法的精度和實時性上占領了不可撼動的地位,其中基于相關濾波的目標追蹤算法便起到了中流砥柱的作用,如耳熟能詳?shù)腒CF[4]、SRDCF[5].隨著計算機算力提升和大數(shù)據(jù)潮流來襲,深度學習成為后起之秀,其主要的原因是深度特征比傳統(tǒng)手工特征更魯棒,滿足追蹤決策模型要具有魯棒性判別能力的特質[6].卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)強大的表征能力和高效的特征提取方式,使得CNN的應用領域不斷擴展,各種針對特定問題設計的CNN模型不斷被建立并成功地應用到各種圖像處理任務中[7].眾多性能頂尖的以CNN為框架的深度視覺追蹤算法的不斷涌現(xiàn),其有效性也已經(jīng)得到了充分的驗證.
現(xiàn)如今隨著卷積神經(jīng)網(wǎng)絡不斷加深和結構逐漸復雜化,一個流行的趨勢就是利用CNN特征作為目標的表示形式.一些基于CNN的追蹤器充分利用CNN出色的特征表示能力致力于強化目標的表示.Bertinetto等[8]提出了基于全卷積孿生網(wǎng)絡的目標追蹤算法(Fully-convolutional siamese Network for object tracking,SiamFC),該追蹤模型中的主干網(wǎng)絡由5個卷積層和2個池化層組成,模板圖像和搜索圖像經(jīng)過完全相同的網(wǎng)絡提出特征后,通過互相關計算得到相似度最高的位置,并反向推算出目標在原圖中的具體位置.
2017年,Guo等[9]提出DSiam追蹤算法,在訓練過程中引入循環(huán)卷積層和線性回歸正則化,并對模型進行在線更新操作來改善追蹤結果.2018年,He等[10]提出SASiam追蹤算法,利用訓練數(shù)據(jù)分別訓練兩個不同的網(wǎng)絡分支來學習不同的特征,整合得到相應的網(wǎng)絡模型.同年,Wang等[11]提出RASNet追蹤算法,引入了殘差注意力塊、通道注意力塊以及通用注意力塊三個模塊,使得整個網(wǎng)絡可以根據(jù)目標的變化而自適應的進行調整.Li等[12]在同年提出SiamRPN追蹤算法,引入1×1的卷積層來對網(wǎng)絡的通道進行升維處理,將RPN的思想應用到追蹤領域,在提速的同時提升了精度.由于SiamRPN追蹤算法取得了很好的追蹤結果,Li等[13]又提出Siam RPN++追蹤算法,去掉了ResNet中的兩個降采樣層,在卷積層后添加特殊的分類和回歸,并對網(wǎng)絡框架按次序進行訓練.2019年,Wang等[14]提出Siam Mask追蹤算法,通過Mask分支將目標的定位和目標與背景的分割兩個任務結合起來,達到了更好的效果.2021年,Dongyan G等[15]提出了基于圖注意力的跟蹤算法,該算法將圖注意力取代了互相關方式的相似性度量,也取得了頂尖效果.
綜上一系列基于孿生網(wǎng)絡的跟蹤算法的改進,使得基于孿生網(wǎng)絡的追蹤算法由此成為新興的主流追蹤框架,其優(yōu)異的表現(xiàn)是眾多研究人員趨之若鶩的原因.但是孿生網(wǎng)絡的追蹤決策模型的優(yōu)劣由提取特征的骨干網(wǎng)絡決定.為了能讓追蹤器更準確地跟蹤實例對象,那么就要求骨干網(wǎng)絡提取到的特征具有多樣表征能力,而注意力機制恰好起到了能讓追蹤決策模型重點關注目標區(qū)域的作用,注意力機制的本質就是避免對每一個特征圖和特征子空間等價地處理,要對重點區(qū)域采取不同的權重,能在目標姿態(tài)改變時依舊能動態(tài)鎖定目標位置.
本文中的規(guī)范化注意力機制(Normalization-based Attention Module,NAM)[16]區(qū)別于先前被提出來的眾多注意力機制,NAM不僅能像大部分注意力機制一樣突出顯著特征,并且能充分抑制不顯著特征,因此更有利于追蹤器重點關注目標不同于背景的獨特特征,從而能應對場景中突發(fā)的遮擋、光照變化、旋轉等情況.本文在基于孿生網(wǎng)絡的框架下對SiamFC算法進行改進,首次將NAM應用于孿生網(wǎng)絡框架中,配合精心設計的特征增強模塊(Feature Enhancement Module,FEM),優(yōu)化了追蹤決策模型,得到了基于規(guī)范化注意力機制的孿生網(wǎng)絡(Siamese networks based on normalization-attention mechanism,NAMSiamNet)視覺追蹤算法.在OTB2015[17]公開數(shù)據(jù)集上與基線算法相比性能得到了顯著提升.在大量消融實驗中驗證了本文所提特征增強模塊與規(guī)范化注意力機制結合的合理性和有效性,并且能夠在后續(xù)的研究中作為獨立的模塊應用在更先進的目標追蹤算法中,具有廣泛的推廣性.
所謂孿生網(wǎng)絡,顧名思義,即為成對的結構,具體來說就是該結構有兩個輸入,一個是作為基準的模板(template),另一個則是要選擇的候選樣本.而在單目標跟蹤任務中,作為基準的模板則是需要跟蹤的對象,通常選取的是視頻序列第一幀中的目標對象,而候選樣本則是之后每一幀中的圖像搜索區(qū)域(search image),孿生網(wǎng)絡要做的就是找到之后每一幀中與第一幀中的范本最相似的候選區(qū)域,便鎖定該候選區(qū)域為這一幀中的目標.這里需要注意,網(wǎng)絡最終生成的是一張響應圖.為了實現(xiàn)響應圖與搜索區(qū)域的映射關系,根據(jù)響應圖上的置信度分數(shù)確定好目標位置后,再對響應圖進行雙三次插值生成與搜索區(qū)域相同大小的圖像來確定物體的位置,從而實現(xiàn)對一個目標的跟蹤.
本文提出的基于規(guī)范化注意力機制的孿生網(wǎng)絡NAMSiamNet結構如圖1所示,網(wǎng)絡的兩個輸入分別為模板圖像z和搜索圖像x,z和x都是三通道的RGB圖像.整個網(wǎng)絡主要由模板分支和搜索分支兩部分組成,其中的骨干網(wǎng)絡φ是由精心設計的特征增強模塊、規(guī)范化注意力機制和五個卷積層(conv1~conv5)組成.
圖1 規(guī)范化注意力孿生網(wǎng)絡結構
模板分支的輸入是第一幀圖像中的目標框z,大小為127×127,接著對z進行φ變換提取特征,得到特征圖φ(z);搜索分支的輸入x是以上一幀預測框的中心為裁剪中心,裁剪出255×255大小的圖像,x經(jīng)過主干網(wǎng)絡φ后得到特征圖φ(x).提取了特征之后,再對提取的特征進行互相關操作(即求卷積),生成響應圖(heat map),互相關操作如下:
f(z,x)=φ(z)*φ(x)+b
(1)
式(1)中:b為每個位置對應的值,*為卷積運算,通過卷積運算提取x中與z最為相近的部分,卷積左邊對應的是目標z的特征圖,右邊為搜索區(qū)域x的特征圖(橙紫對應兩個候選區(qū)域),最終生成的是響應圖,響應值最高的位置就對應著z可能的位置,將最終得到的17×17的響應圖進行雙三次插值生成255×255的圖像來確定物體的位置.
注意力機制是近年來研究的熱點之一.之前的許多注意力機制都是通過抑制無關緊要的權值改善神經(jīng)網(wǎng)絡的性能,使神經(jīng)網(wǎng)絡能捕捉顯著特征.這些方法成功地利用了特征不同維度上的相關信息,然而,先前的注意力機制缺乏考慮權重的影響因素,會進一步抑制不重要的通道或像素.而Liu等[16]于NIPS 2021最新提出的基于規(guī)范化的注意力模塊,利用權重的影響因子來改進注意力機制,抑制不顯著性的權值,對注意力模塊應用一個權重稀疏懲罰,因此,能在保持高性能的同時提高計算效率.它使用批處理歸一化(Batch Normalization,BN)[18]的比例因子,讓標準差來表示權重的重要性,這樣可以避免添加參數(shù)量大的全連接層和卷積層.
規(guī)范化注意力模塊采用來自CBAM[19]的模塊集成,重新設計了通道和空間注意子模塊.然后,在每個網(wǎng)絡塊的末尾嵌入一個NAM模塊.對于殘差網(wǎng)絡,它嵌入在殘差結構的末尾.對于通道注意力子模塊,使用批歸一化中的縮放因子,如式(2)所示.比例因子衡量通道的方差并表明它們的重要性.
(2)
式(2)中:μB和σB分別是小批次樣本(mini batch)B的均值和標準差;γ和β是可訓練的仿射變換參數(shù)(尺度和位移).
通道注意力子模塊如圖2和式(3)所示:
圖2 通道注意力模塊
Mc=sigmoid(Wγ(BN(F1)))
(3)
將BN的比例因子應用于空間維度來衡量像素的重要性,并將其命名為像素歸一化(pixel normalization).對應的空間注意力子模塊如圖3和式(4)所示:
圖3 空間注意力模塊
MS=sigmoid(Wλ(BNs(F1)))
(4)
為了抑制不太顯著的權重,在損失函數(shù)中添加了一個正則化項,如式(5)所示:
Loss=∑(x,y)l(f(x,W),y)p∑(x,y)g(γ0)+
p∑(x,y)g(λ)
(5)
式(5)中:x表示輸入;y是輸出;W代表網(wǎng)絡權重;l(·)是損失函數(shù);g(·)是l1范數(shù)懲罰函數(shù);p是平衡g(λ)和g(γ)的懲罰.
本文在規(guī)范化注意力機制之前設計了一個特征增強模塊,是由一個分組卷積層(group convolution)構成.該分組卷積層起到了二次特征提取的作用,在保留上一層卷積層信息的同時,也能萃取不同通道中保存的有用特征信息進行整合.分組卷積最早在AlexNet中出現(xiàn),分組卷積的本質是把特征圖分成多個組進行處理,最后再把每組得到的結果進行連接,即進行concatenate操作[20].根據(jù)原理分析可知,本文所設計的分組卷積在進行實驗時的參數(shù)量會遠遠小于標準卷積,便能保證算法的高效性.
特征增強模塊輸出通道數(shù)與conv1的通道數(shù)一致,卷積核(kernel)大小為3,步長(stride)大小和填充(padding)大小都為1.因為孿生網(wǎng)絡最大的特點是權值共享,如果能通過特征增強模塊優(yōu)化網(wǎng)絡權值,有利于模板圖像z與搜索區(qū)域x之間通過相似性度量得到高質量的置信度分數(shù)圖.
為了驗證文中提出算法的有效性,進行了大量消融實驗,并充分驗證了本文提出的算法比基線算法魯棒性更強、精確度更高.
本文所提出的算法模型是在Pytorch1.0.1框架上進行訓練,實驗平臺為一臺配置了NVIDIA GeForce RTX 2080顯卡的Linux版本服務器.訓練時,每一輪迭代將50 000對樣本輸入網(wǎng)絡進行參數(shù)訓練,采用SGD優(yōu)化算法,一共迭代了50輪,迭代的初始學習率是10-2,最終學習率是10-5,權重衰減是5×10-4.
本文算法在被廣泛使用且大眾認可的公開測試基準集OTB2015上進行測試.OTB2015包括100個視頻序列,平均每個序列約有500幀,該數(shù)據(jù)集中充分包含11種追蹤過程中可能遇到的挑戰(zhàn)性問題.其中包含的屬性包括:背景物干擾(BC)、遮擋(OCC)、尺度變化(SV)、非剛性形變(DEF)、平面內(nèi)旋轉(IPR)、平面外旋轉(OPR)、光照變化(IV)、運動模糊(MB)、快速運動(FM)、超出視野(OV)以及低分辨率(LR).測試基準集OTB2015有兩個度量標準:成功率和精確率.成功率是指預測跟蹤框和標注跟蹤框交集區(qū)域像素個數(shù)和并集區(qū)域像素個數(shù)之比;精確率是指預測跟蹤框和標注跟蹤框的中心誤差小于某一個特定的閾值的視頻幀數(shù)占總幀數(shù)的百分比,本文算法評估采用的閾值為20.
為了進一步驗證本文算法NAMSiamNet中各模塊的有效性,設計了如表1和表2所示的消融實驗:c1e含義為在卷積層conv1之后設置了特征增強模塊,c1n含義是在conv1之后設置了規(guī)范化注意力模塊;c5n含義是在conv5之后設置了規(guī)范化注意力模塊.從表1實驗結果表明,各個模塊對算法的性能提升都起著積極作用,最佳的表現(xiàn)來自于兩個模塊的共同作用.
表1 NAMSiamNet子模塊組合實驗的精確率和成功率對比
表2為特征增強模塊和不同注意力模塊的組合實驗,實驗額外添加了一組深度可分離卷積(Depth-wise Separable Convolution)[21]層作為特征增強模塊與SE注意力機制[22]結合的對比實驗.c1d含義是在conv1之后加載了深度可分離卷積層;c1s含義是在conv1之后設置了SE注意力模塊.還有一組消融實驗為改變特征增強模塊與注意力模塊組合的先后順序,重新訓練模型進行測試.實驗結果表明,當特征增強模塊和規(guī)范化注意力模塊按先后順序串聯(lián)時效果最好,同時也驗證了算法模型設計的合理性.
表2 不同注意力機制模塊組合實驗的精確率和成功率對比
結合表1和表2可以看出,ours_c1e_c1n相對于基線算法成功率提高了2.3%,精確率提高了4%,而ours_c1d_c1s成功率、精確率分別只提高了1.3%、3.1%,說明了本文選取基于分組卷積的特征增強模塊與規(guī)范化注意力模塊級聯(lián)提升算法性能的效果遠高于基于深度可分離卷積的特征增強模塊與SE注意力機制級聯(lián),充分驗證在孿生網(wǎng)絡中添加基于分組卷積的特征增強模塊和NAM對目標追蹤是有極大幫助的.
首先用本文提出的基于規(guī)范化注意力的孿生網(wǎng)絡的視覺追蹤算法(NAMSiamNet)與基線算法(baseline)在公開測試基準集上得到成功率和精確率,分別如圖4(a)、(b)所示.無論是精確率還是成功率,NAMSiamNet相比于基線算法具有更好的結果,成功率提高了2.3%、精確率提高了4%,表明了本文提出算法在整體跟蹤性能相對提高不少.
圖4 NAMSiamNet與基線算法在數(shù)據(jù)集OTB2015上的成功率對比和精確率對比
隨后,選取了消融實驗中ours_c1e_c1n(也就是NAMSiamNet)、ours_c1e、ours_c1n_c1e、ours_c1d_c1s的四個算法結果與基線(baseline)算法對比下的成功率圖和精確率圖,如圖5(a)、(b)所示.
圖5 NAMSiamNet與部分消融實驗在數(shù)據(jù)集OTB-2015上的成功率對比和精確率對比
ours_c1e_c1n、ours_c1e分別相對于基線算法成功率提高了2.3%、0.9%,精確率分別提高了4%、2.7%,說明了添加規(guī)范化注意力機制(NAM)對目標追蹤算法的成功捕捉目標并準確跟蹤是十分有效的;NAMSiamNet、ours_c1n_c1e分別相對于基線算法成功率提高了2.3%、0.8%,精確率分別提高了4%、2.6%,說明了當特征增強模塊和規(guī)范化注意力模塊串聯(lián)時,串聯(lián)的先后順序也很重要,先加載特征增強模塊再加載規(guī)范化注意力模塊對算法的性能提升更高;NAMSiamNet、ours_c1d_c1s分別相對于基線算法成功率提高了2.3%、1.1%,精確率分別提高了4%、1.6%,說明NAMSiamNet算法中選擇的規(guī)范化注意力機制是比2018年提出的SE注意力機制更有利于目標追蹤的.
大量實驗結果表明,無論是添加本文提出的特征增強模塊還是規(guī)范化注意力機制,在基于視覺追蹤的孿生網(wǎng)絡體系結構中是十分有效的,不僅能提升算法準確捕捉目標對象位置的精確率,而且可以提高確定目標尺度的成功率.雖然改進算法目前只是基線算法上的性能提升,但是本文提出的特征增強模塊和規(guī)范化注意力機制是輕量級的、可遷移的,可以獨立應用于更先進的算法中,提升目標追蹤算法性能.
這里選取了NAMSiamNet與基線算法2種追蹤算法在OTB2015數(shù)據(jù)集中的3個具有代表性的視頻序列上的結果進行分析,分別是:Sylvester、Trellis、coke.這3個視頻序列涉及到光照變化、遮擋、快速運動、背景物干擾、尺度變化、平面內(nèi)/平面外旋轉等屬性.
如圖6所示,Sylvester視頻序列中,發(fā)生光照變化以及平面內(nèi)/外旋轉情況時,基線追蹤算法跟蹤框漂移,無法準確定位目標物體,但采用本文所提出的NAMSiamNet依舊能準確定位目標物體.這表明規(guī)范化注意力機制能通過抑制不顯著特征來突出顯著特征,當目標對象發(fā)生平面外旋轉時,NAMSiamNet還能根據(jù)目標物體的某些部位顯著特征鎖定對象,防止發(fā)生漂移.Trellis視頻序列以及Coke視頻序列的追蹤結果表明,目標物體在發(fā)生背景物干擾和遮擋的情況下,基線算法不能成功對目標準確框定,且存在很大的偏移.而本文所提出的NAMSiamNet追蹤算法,能更精準地定位目標的位置和框定目標所在位置的具體范圍.
圖6 NAMSiamNet與基線算法在3個視頻序列上的追蹤結果
圖7展示了NAMSiamNet、ours_c1e、ours_c1n_c1e、ours_c1d_c1s與基線算法這5種追蹤算法在Singer、jumping、bolt三個視頻序列上的追蹤結果.在Singer視頻序列中,因為追蹤結果相同,追蹤框重疊.追蹤結果表明,在基準算法SiamFC能準確定位目標,良好追蹤時,本文所提出的算法取得了和基線算法相同的結果.雖然五種追蹤器都能定位目標,但從jumping的第37幀、38幀、39幀可以看出,當跟蹤目標快速移動的時候,基線算法會出現(xiàn)跟蹤失敗的情況,但是本文提出的NAMSiamNet和其他算法都能準確跟蹤基線算法丟失的目標;以及bolt的第146幀、154幀可以看出,基線算法只能框住目標對象的身體某一部位,如跑步時伸長的腿.但NAMSiamNet不僅能框住目標物體的身體全部,且能在bolt的第340幀準確鎖定快速運動的目標,而此時基線算法的跟蹤框已漂移到背景干擾物上.
圖7 五種目標追蹤算法與基線算法在3個視頻序列上的追蹤結果
綜上,在6個視頻序列上的定性分析表明,本文提出的算法在保持了原始基線算法優(yōu)秀的追蹤結果的同時,改善了原始基線算法表現(xiàn)相對較弱的視頻序列上的結果.消融實驗對比結果更是突出得到具有魯棒性判別能力的追蹤決策模型的重要性,追蹤決策模型對追蹤算法性能的好壞起著決定性的作用,證明了引入特征增強模塊與規(guī)范化注意力機制的有效性.
本文算法是基于全卷積孿生網(wǎng)絡(SiamFC)目標追蹤算法的改進,通過引入本文提出的特征增強模塊使提取到的特征圖中原信號增強,并且降低圖像噪聲,使獲取到的特征信息更為有效、更有利于后續(xù)層捕捉有用的目標對象特征;引入最新提出的規(guī)范化注意力機制(NAM)來解決原算法中無法適應目標的變化和背景信息干擾的問題.實驗結果也表明,在OTB2015公開測試基準集上取得比基線算法更優(yōu)異的成績,提出的特征增強模塊與規(guī)范化注意力機制的結合在不影響追蹤速度的基礎上,提升了追蹤器的性能.所提出的網(wǎng)絡模型NAMSiamNet有望作為一個新型網(wǎng)絡框架應用在單目標視覺追蹤領域,具有廣泛的應用前景.