楊康 宋慧慧 張開華
摘 要:為了解決全卷積孿生網(wǎng)絡(luò)(SiamFC)跟蹤算法在跟蹤目標(biāo)經(jīng)歷劇烈的外觀變化時容易發(fā)生模型漂移從而導(dǎo)致跟蹤失敗的問題,提出了一種雙重注意力機制孿生網(wǎng)絡(luò)(DASiam)去調(diào)整網(wǎng)絡(luò)模型并且不需要在線更新。首先,主干網(wǎng)絡(luò)使用修改后表達能力更強的并適用于目標(biāo)跟蹤任務(wù)的VGG網(wǎng)絡(luò);然后,在網(wǎng)絡(luò)的中間層加入一個新的雙重注意力機制去動態(tài)地提取特征,這種機制由通道注意機制和空間注意機制組成,分別對特征圖的通道維度和空間維度進行變換得到雙重注意特征圖;最后,通過融合兩個注意機制的特征圖進一步提升模型的表征能力。在三個具有挑戰(zhàn)性的跟蹤基準(zhǔn)庫即OTB2013、OTB100和2017年視覺目標(biāo)跟蹤庫(VOT2017)實時挑戰(zhàn)上進行實驗,實驗結(jié)果表明,以40frame/s的速度運行時,所提算法在OTB2013和OTB100上的成功率指標(biāo)比基準(zhǔn)SiamFC分別高出3.5個百分點和3個百分點,并且在VOT2017實時挑戰(zhàn)上面超過了2017年的冠軍SiamFC,驗證了所提出算法的有效性。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);視覺跟蹤; 注意力機制; 孿生網(wǎng)絡(luò)
中圖分類號: TP391.4
文獻標(biāo)志碼:A
Abstract: In order to solve the problem that Fully-Convolutional Siamese network (SiamFC) tracking algorithm is prone to model drift and results in tracking failure when the tracking target suffers from dramatic appearance changes, a new Dual Attention Siamese network (DASiam) was proposed to adapt the network model without online updating. Firstly, a modified Visual Geometry Group (VGG) network which was more expressive and suitable for the target tracking task was used as the backbone network. Then, a novel dual attention mechanism was added to the middle layer of the network to dynamically extract features. This mechanism was consisted of a channel attention mechanism and a spatial attention mechanism. The channel dimension and the spatial dimension of the feature maps were transformed to obtain the double attention feature maps. Finally, the feature representation of the model was further improved by fusing the feature maps of the two attention mechanisms. The experiments were conducted on three challenging tracking benchmarks: OTB2013, OTB100 and 2017 Visual-Object-Tracking challenge (VOT2017) real-time challenges. The experimental results show that, running at the speed of 40frame/s, the proposed algorithm has higher success rates on OTB2013 and OTB100 than the baseline SiamFC by the margin of 3.5 percentage points and 3 percentage points respectively, and surpass the 2017 champion SiamFC in the VOT2017 real-time challenge, verifying the effectiveness of the proposed algorithm.
Key words: convolutional neural network; visual tracking; attention mechanism; siamese network
0 引言
視覺目標(biāo)跟蹤在計算機視覺領(lǐng)域是一個基礎(chǔ)性但充滿挑戰(zhàn)的研究方向,被應(yīng)用于各種視覺領(lǐng)域,比如無人駕駛、人機交互和視頻監(jiān)控等。由于存在目標(biāo)發(fā)生劇烈的外觀變化、目標(biāo)遮擋、光照變換等干擾因素,除此之外,還要考慮實時的因素,所以盡管最近幾年目標(biāo)跟蹤算法研究取得了顯著性的提升,但到目前為止仍然是一個極具挑戰(zhàn)性的任務(wù)。
基于相關(guān)濾波的跟蹤器可以通過一個循環(huán)矩陣在傅里葉域快速求解來實現(xiàn)快速目標(biāo)跟蹤,出現(xiàn)了很多速度快且簡單的跟蹤器[1-5]。最近幾年,深度卷積神經(jīng)網(wǎng)絡(luò)在計算機視覺領(lǐng)域取得了顯著的成功,比如分類任務(wù)、目標(biāo)檢測等任務(wù)。所以也有很多研究者將深度學(xué)習(xí)應(yīng)用到目標(biāo)跟蹤任務(wù)上去,其中取得突破性的且能夠達到實時要求的算法就是全卷積孿生網(wǎng)絡(luò)(Fully-Convolutional Siamese network, SiamFC)[5],SiamFC把目標(biāo)跟蹤任務(wù)當(dāng)作相似性匹配任務(wù),即利用外部訓(xùn)練數(shù)據(jù)訓(xùn)練一個修改后的AlexNet[6]卷積網(wǎng)絡(luò)作為通用的匹配函數(shù),再把匹配函數(shù)作為目標(biāo)跟蹤的圖像特征提取器,如果匹配函數(shù)能夠?qū)W習(xí)更好的特征表達能力,那么對于提升跟蹤器的性能是有幫助的。孿生實例搜索跟蹤(Siamese Instance Search Tracking, SINT)[7]將跟蹤任務(wù)看作是一個驗證任務(wù)并利用光流進一步提升性能表現(xiàn),但是速度只有4frame/s,很難應(yīng)用到現(xiàn)實場景中;提前停止跟蹤(Early-Stopping Tracker, EAST)[8]主要判斷低級的特征,如果能夠跟蹤到目標(biāo)時就停止特征提取進行加速;相關(guān)濾波網(wǎng)絡(luò)(Correlation Filter Network, CFNet)跟蹤[9]將相關(guān)濾波作為一個可微的層加入低層的網(wǎng)絡(luò)特征中去學(xué)習(xí)目標(biāo)變換,大大降低了網(wǎng)絡(luò)參數(shù)量的同時仍然保持很好的跟蹤性能。動態(tài)孿生網(wǎng)跟蹤(Dynamic Siamese Network,DSiam)[10]嘗試在線學(xué)習(xí)目標(biāo)的外觀變化去進一步提升孿生網(wǎng)絡(luò)的表征能力。
盡管基于孿生網(wǎng)絡(luò)的跟蹤算法取得了顯著的進步,但是這種孿生網(wǎng)絡(luò)框架仍然有一些問題沒有解決。首先,用于孿生網(wǎng)絡(luò)的框架一般都是比較淺層的AlexNet網(wǎng)絡(luò),在深度學(xué)習(xí)任務(wù)中,已經(jīng)證明了更深的網(wǎng)絡(luò)具有更強的信息表征能力[11];其次,在目標(biāo)發(fā)生劇烈的變化時,由于孿生網(wǎng)絡(luò)缺少動態(tài)的調(diào)節(jié)模型機制,只能等價地對待每一個特征圖和特征空間,沒有重點關(guān)注的目標(biāo)區(qū)域,這樣限制了模型豐富的表征能力。
針對基于孿生網(wǎng)絡(luò)的跟蹤器出現(xiàn)的上述問題,本文在SiamFC的跟蹤算法框架之下,把特征提取網(wǎng)絡(luò)換成了修改過的且適用于目標(biāo)跟蹤任務(wù)的VGG(Visual Geometry Group)[12]網(wǎng)絡(luò),在此基礎(chǔ)之上,為了進一步增強網(wǎng)絡(luò)模型的判別能力,提出了一種新的雙重注意力機制去調(diào)節(jié)模型。最后為了驗證該算法的有效性,在三個具有挑戰(zhàn)性的視頻庫上進行詳盡的實驗,并與幾個經(jīng)典的跟蹤算法進行比較,實驗結(jié)果表明所提方法得到了很有競爭力的結(jié)果。
1 雙重注意力孿生網(wǎng)絡(luò)算法
為了實現(xiàn)高效的視覺跟蹤任務(wù),本文提出了一種新的基于雙重注意孿生(Dual Attention Siamese network, DASiam)網(wǎng)絡(luò)的視覺跟蹤算法,如圖1所示。該算法由一個修改后的深度卷積神經(jīng)網(wǎng)絡(luò)VGG和一個雙重注意模塊組成,其中雙重注意模塊包括通道注意模塊和空間注意模塊,最后將提取到的模板圖像和搜索圖像的高維語義信息特征進行相關(guān)操作得到最終的目標(biāo)位置。
1.1 基于孿生網(wǎng)絡(luò)的跟蹤算法
最近幾年在目標(biāo)跟蹤領(lǐng)域的開創(chuàng)性工作是全卷積孿生網(wǎng)絡(luò)(SiamFC)目標(biāo)跟蹤算法,如圖1所示,孿生網(wǎng)絡(luò)的輸入是從視頻第一幀(目標(biāo))和后續(xù)幀進行裁剪的一堆圖像,分別用Z和X表示,其中Z∈RWt×Ht×3且X∈RWs×Hs×3,然后通過一個離線訓(xùn)練的匹配函數(shù)F(Z,X)在模板圖像Z和搜索圖像X進行相關(guān)運算得到一個相似性響應(yīng)得分圖,響應(yīng)得分最大的位置就是新的目標(biāo)位置,其中用于特征提取的卷積網(wǎng)絡(luò)關(guān)于搜索圖像X是全卷積的,這樣就可以輸入不同尺度大小的搜索圖像以便選擇合適的尺度作為新的預(yù)測框。相似性響應(yīng)得分圖可以由式(1)得到:
雖然SiamFC取得了很好的結(jié)果,但是與現(xiàn)有的相關(guān)濾波跟蹤器的結(jié)果有著很大的差距,這是因為SiamFC用于特征提取的全卷積網(wǎng)絡(luò)是使用修改后的AlexNet,由于AlexNet層數(shù)較淺,學(xué)到的特征表征能力有限,當(dāng)跟蹤目標(biāo)發(fā)生劇烈形變時模型容易發(fā)生漂移,導(dǎo)致跟蹤失敗。本文采用更深的修改后的適用于目標(biāo)跟蹤任務(wù)的VGG網(wǎng)絡(luò)模型作為新的特征提取網(wǎng)絡(luò),并在網(wǎng)絡(luò)中加入雙重注意力機制調(diào)整模型的特征提取過程,進而選擇性地強調(diào)有用的信息而抑制不太有用的信息,而不是等價地對待所有的特征信息。
1.2 雙重注意力孿生網(wǎng)絡(luò)框架
圖1展示了本文算法的基礎(chǔ)框架,由修改后的VGG網(wǎng)絡(luò)作為主干網(wǎng)絡(luò),除了最后一個卷積(Convolutional, Conv)層,每一層卷積之后立即加入批歸一化(Batch Normalization, BN)層,然后再經(jīng)過非線性激活函數(shù)(Rectified Linear Unit, ReLU)層,沒有填充,并且在網(wǎng)絡(luò)的第10層后面加入一個注意力調(diào)節(jié)機制,具體的網(wǎng)絡(luò)參數(shù)如表1所示。由于深度卷積網(wǎng)絡(luò)中高語義信息對于目標(biāo)的外觀變化具有很強的魯棒性,但是當(dāng)出現(xiàn)相似性目標(biāo)時,由于高級語義信息缺少判別性,就容易導(dǎo)致模型出現(xiàn)漂移。所以為了增強網(wǎng)絡(luò)的判別能力,在網(wǎng)絡(luò)的中間層加入一個動態(tài)的特征調(diào)節(jié)機制,這個機制由雙重注意力機制實現(xiàn),包括通道注意機制和空間注意機制,在后面將詳細(xì)介紹雙重注意力機制算法,所有的網(wǎng)絡(luò)參數(shù)在訓(xùn)練完成后都是固定的,不需要在線微調(diào)從而滿足實時性的要求。
1.3 雙重注意力機制算法
注意力機制在圖像領(lǐng)域取得了很大的成功,因為它參考了人類的一個習(xí)慣:當(dāng)我們看到一張圖片的時候并不是一次性能看到所有的信息,而是僅僅關(guān)注某個被選定的位置,然后再向四周蔓延。神經(jīng)網(wǎng)絡(luò)在處理圖像的時候,每次網(wǎng)絡(luò)的關(guān)注點可能只是圖像中的某個小部分,因此如果能在網(wǎng)絡(luò)模型關(guān)注圖像某個部分時都能夠強調(diào)這個部分的話,這樣對于模型的特征表達能力是有提升的。為此,本文設(shè)計了一種適用于目標(biāo)跟蹤任務(wù)的雙重注意力機制,當(dāng)目標(biāo)發(fā)生劇烈形變的時候,網(wǎng)絡(luò)能夠通過注意力機制關(guān)注目標(biāo)的主要部分,從而提升模型的魯棒性。
1.4 數(shù)據(jù)集和網(wǎng)絡(luò)訓(xùn)練細(xì)節(jié)
本文的網(wǎng)絡(luò)是在視頻目標(biāo)檢測數(shù)據(jù)集ILSVRC上使用彩色圖像離線訓(xùn)練的,其中包含了4500個視頻序列且有大約有130萬個人工標(biāo)注的邊界框,最近被廣泛應(yīng)用在跟蹤領(lǐng)域。采用動量為0.9的隨機梯度下降最優(yōu)化網(wǎng)絡(luò)并設(shè)置權(quán)重衰減為0.0005,學(xué)習(xí)率以指數(shù)衰減方式從10-2到10-5,訓(xùn)練周期大約為65個周期且每次小批量訓(xùn)練樣本數(shù)為16。最后為了解決尺度變換問題,在搜索圖像上采用三個不同的尺度縮放因子{qs|q=1.025,s=-1,0,1}去搜索圖像,通過一個因子為0.35的線性插值去更新當(dāng)前目標(biāo)的尺度。
本文所提出的網(wǎng)絡(luò)模型是在TensorFlow 1.4.1框架[14]上訓(xùn)練的,且實驗評估是在一臺配置為英特爾i7-8700K CPU 和顯卡GTX1080Ti電腦上進行的,平均幀率是40frame/s。
2 實驗結(jié)果及分析
為了評估本文所提算法的有效性,在三個具有挑戰(zhàn)性并且被廣泛使用的視頻基準(zhǔn)庫上進行實驗,分別是:OTB2013[15]、OTB100[16]、2017年視覺目標(biāo)跟蹤庫(2017 Visual-Object-Tracking challenge, VOT2017)[17]實時挑戰(zhàn),并且與基準(zhǔn)算法SiamFC和幾個經(jīng)典的算法進行對比實驗,實驗結(jié)果表明了本文算法能夠取得很有競爭性的性能表現(xiàn)。
在本文實驗中,選擇了三個具有代表性的跟蹤器進行對比,包括本文算法基準(zhǔn)SiamFC和經(jīng)典的相關(guān)濾波算法判別尺度空間跟蹤器(Discriminative Scale Space Tracker, DSST)[18]、核化相關(guān)濾波跟蹤(Kernelized Correlation Filter, KCF)[1]、空間正則判別相關(guān)濾波跟蹤(Spatially Regularized Discriminative Correlation Filter, SRDCF)[19]。
2.1 在OTB2013和OTB100上的評估
OTB2013和OTB100是視覺跟蹤領(lǐng)域廣泛使用的基準(zhǔn)庫,分別包含了51個和100個人工標(biāo)注的視頻幀,并且包含了11個不同的屬性,例如尺度變換、光照變化、平面內(nèi)旋轉(zhuǎn)、快速運動等。算法的性能由兩個性能指標(biāo)衡量:成功率和精確率。成功率表明重合率得分超過某個閾值的幀的個數(shù)占視頻總幀數(shù)的百分比,精確率表明了中心位置誤差在一個特定閾值內(nèi)的視頻幀數(shù)占總幀數(shù)的百分比。重合率計算如下:
2.2 基于OTB100屬性的分析
本文在OTB100上對所提出的跟蹤器進行了11種不同屬性的對比分析實驗。圖4(a)、4(b)分別展示了當(dāng)目標(biāo)經(jīng)歷了運動模糊和平面內(nèi)旋轉(zhuǎn)兩種屬性的成功率,這兩種屬性表明了跟蹤的目標(biāo)經(jīng)歷了比較大的外觀變化,與給定的第一幀的目標(biāo)外觀變化差別較大。由圖4可以看出,在運動模糊的屬性下本文算法取得了62.4%的得分,比基準(zhǔn)算法SiamFC高出7.4個百分點;同時,本文算法在平面內(nèi)旋轉(zhuǎn)的屬性下也取得了較好的表現(xiàn)。在目標(biāo)經(jīng)歷了運動模糊或者旋轉(zhuǎn)導(dǎo)致目標(biāo)外觀發(fā)生變化的時候,SiamFC的跟蹤成功率得分比較低,表明該算法的魯棒性較低;而本文的DASiam加入了雙重注意力機制能夠很好地建立通道和空間的聯(lián)系,充分利用目標(biāo)的有用信息而抑制周圍的干擾因素,從而提升了算法的魯棒性,并且充分利用深度網(wǎng)絡(luò)的優(yōu)勢進一步提取表達能力更強的特征。
2.3 在VOT2017實時挑戰(zhàn)上的結(jié)果
在VOT2017數(shù)據(jù)庫中包含了60個更精細(xì)的人工標(biāo)注的視頻序列并且更具有挑戰(zhàn)性,最近幾年在跟蹤領(lǐng)域中也被廣泛采用,除此之外,VOT2017還包含了一項新的實時實驗,要求所有的跟蹤器必須以超過實時的25frame/s的速度處理視頻流,這就意味著跟蹤器如果達不到實時,評估器將以上一幀的預(yù)測結(jié)果作為當(dāng)前幀的跟蹤結(jié)果,這就很容易導(dǎo)致跟蹤器跟蹤失敗。圖5給出了本文算法DASiam和其他5個實時的跟蹤器在VOT2017實時實驗上的排名,其中基準(zhǔn)SiamFC是2017年實時挑戰(zhàn)賽上的冠軍。
3 結(jié)語
本文在全卷積孿生網(wǎng)絡(luò)(SiamFC)跟蹤的基礎(chǔ)上改進了用于特征提取的卷積神經(jīng)網(wǎng)絡(luò),提出了雙重注意力機制孿生網(wǎng)絡(luò)跟蹤器(DASiam),通過在修改后的VGG網(wǎng)絡(luò)中嵌入了通道注意模塊和空間注意模塊提升網(wǎng)絡(luò)模型的判別能力,去解決目標(biāo)外觀變化等問題。本文方法能夠在跟蹤標(biāo)準(zhǔn)測試集OTB2013和OTB100上取得很有競爭力的實驗結(jié)果,在VOT2017實時挑戰(zhàn)上的性能表現(xiàn)甚至超過了2017年實時的冠軍SiamFC,表明本文方法能夠在實際場景中,如無人駕駛、智能安防等,可以實現(xiàn)更好的跟蹤效果以滿足實際要求。但是,本文方法對于強烈光照變化、尺度變化較大等其他干擾因素出現(xiàn)時,跟蹤結(jié)果不太理想,接下來將針對強烈光照變化、尺度變化較大等問題進行進一步研究改進。
參考文獻 (References)
[1] HENRIQUES J F, CASEIRO R, MARTINS P, et al. High-speed tracking with kernelized correlation filters [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583-596.
[2] 熊昌鎮(zhèn),車滿強,王潤玲.基于稀疏卷積特征和相關(guān)濾波的實時視覺跟蹤算法[J].計算機應(yīng)用,2018,38(8):2175-2179,2223.(XIONG C Z, CHE M Q, WANG R L. Real-time visual tracking algorithm based on correlation filters and sparse convolutional features [J]. Journal of Computer Applications, 2018, 38(8): 2175-2179, 2223.)
[3] 樊佳慶,宋慧慧,張開華.通道穩(wěn)定性加權(quán)補充學(xué)習(xí)的實時視覺跟蹤算法[J].計算機應(yīng)用,2018,38(6):1751-1754.(FAN J Q, SONG H H, ZHANG K H. Real-time visual tracking algorithm via channel stability weighted complementary learning [J]. Journal of Computer Applications, 2018, 38(6): 1751-1754.)
[4] 朱明敏,胡茂海.基于相關(guān)濾波器的長時視覺目標(biāo)跟蹤方法[J].計算機應(yīng)用,2017,37(5):1466-1470.(ZHU M M, HU M H. Long-term visual object tracking algorithm based on correlation filter [J]. Journal of Computer Applications, 2017, 37(5): 1466-1470.)
[5] BERTINETTO L, VALMADRE J, HENRIQUES J F, et al. Fully-convolutional Siamese networks for object tracking [C]// ECCV 2016: Proceedings of the 2016 European Conference on Computer Vision, LNCS 9914. Cham: Springer, 2016: 850-865.
[6] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]// NIPS 2012: Proceedings of the 25th International Conference on Neural Information Processing Systems. North Miami Beach, FL: Curran Associates Inc., 2012: 1097-1105.
[7] TAO R, GAVVES E, SMEULDERS A W M. Siamese instance search for tracking [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 1420-1429.
[8] HUANG C, LUCEY S, RAMANAN D. Learning policies for adaptive tracking with deep feature cascades [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2017: 105-114.
[9] VALMADRE J, BERTINETTO L, HENRIQUES J, et al. End-to-end representation learning for correlation filter based tracking [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 5000-5008.
[10] GUO Q, FENG W, ZHOU C, et al. Learning dynamic Siamese network for visual object tracking [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2017: 1781-1789.
[11] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 770-778.
[12] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. [2019-10-16]. http://www.cs.cmu.edu/~jeanoh/16-785/papers/simonyan-iclr2015-vgg.pdf.
[13] RUSSAKOVSKY O, DENG J, SU H, et al. ImageNet large scale visual recognition challenge [J]. International Journal of Computer Vision, 2015, 115(3): 211-252.
[14] ABADI M, BARHAM P, CHEN J M, et al. TensorFlow: a system for large-scale machine learning [C]// OSDI 2016: Proceedings of the 12th USENIX Conference on Operating Systems Design and Implementation. Berkeley, CA: USENIX Association, 2016: 265-283.
[15] WU Y, LIM J, YANG M H. Online object tracking: a benchmark [C]// CVPR 2013: Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2013: 2411-2418.
[16] WU Y, LIM J, YANG M H. Object tracking benchmark [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1834-1848.
[17] KRISTAN M, LEONARDIS A, MATAS J, et al. The visual object tracking VOT2017 challenge results [C]// ICCVW 2017: Proceedings of the 2017 IEEE International Conference on Computer Vision Workshop. Piscataway, NJ: IEEE, 2017: 1949-1972.
[18] DANELLJAN M, HGER G, KHAN F, et al. Accurate scale estimation for robust visual tracking [C]// Proceedings of the 2014 British Machine Vision Conference. Durham, UK: BMVA Press, 2014: 65.1-65.11.
[19] DANELLJAN M, HAGER G, KHAN F S, et al. Learning spatially regularized correlation filters for visual tracking [C]// ICCV 2015: Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2015: 4310-4318.