国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

高幀率的輕量級(jí)孿生網(wǎng)絡(luò)目標(biāo)跟蹤

2022-06-17 07:10:58李運(yùn)寰聞繼偉
計(jì)算機(jī)與生活 2022年6期
關(guān)鍵詞:跟蹤器注意力卷積

李運(yùn)寰,聞繼偉,彭 力

物聯(lián)網(wǎng)技術(shù)應(yīng)用教育部工程研究中心(江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院),江蘇 無(wú)錫 214122

目標(biāo)跟蹤作為計(jì)算機(jī)視覺(jué)的基本任務(wù)之一,在過(guò)去十年內(nèi)取得了重大的突破,已經(jīng)被廣泛用于視頻監(jiān)控、自動(dòng)駕駛、人機(jī)交互等眾多生活場(chǎng)景中。在實(shí)際應(yīng)用中追求跟蹤精度提升的同時(shí),跟蹤器的速度也相當(dāng)重要。

現(xiàn)代跟蹤器可以大致分為兩個(gè)分支。第一個(gè)分支是基于相關(guān)濾波的跟蹤算法,以核循環(huán)結(jié)構(gòu)算法(circulant structure kernels,CSK)、核相關(guān)濾波(kernelized correlation filter,KCF)為代表的傳統(tǒng)相關(guān)濾波算法,它可以在線跟蹤并同時(shí)有效地更新濾波器的權(quán)重。然而方向梯度直方圖(histogram of oriented gradient,HOG)等手工標(biāo)注的淺層特征在面對(duì)尺度變化、光照變換等挑戰(zhàn)時(shí)的表現(xiàn)顯得不那么穩(wěn)定可靠。近些年,卷積神經(jīng)網(wǎng)絡(luò)在其他計(jì)算機(jī)視覺(jué)任務(wù)中大放異彩,相關(guān)濾波類算法便開(kāi)始使用神經(jīng)網(wǎng)絡(luò)提取的特征代替那些手工標(biāo)注的特征,神經(jīng)網(wǎng)絡(luò)提取出的特征相比手工標(biāo)注的特征更具對(duì)跟蹤目標(biāo)特征的表達(dá)能力,準(zhǔn)確度得到一定的提高,但是在模型更新過(guò)程中極大地?fù)p害速度指標(biāo)。第二個(gè)分支以多域卷積網(wǎng)(multi-domain convolutional neural networks,MDNet)為代表旨在利用離線預(yù)訓(xùn)練的深度網(wǎng)絡(luò)進(jìn)行特征提取,提升目標(biāo)的特征表達(dá)能力,進(jìn)而大幅提升跟蹤精度,但是由于未使用特定域的信息,這類方法的效果始終不如基于相關(guān)濾波的算法的綜合效果好,并且該類使用的預(yù)訓(xùn)練網(wǎng)絡(luò)十分龐大,特征維度的升高直接影響跟蹤速度的大幅下降,多數(shù)算法即使在GPU 上的速度也只有個(gè)位數(shù),無(wú)法適應(yīng)現(xiàn)實(shí)應(yīng)用。

最近,遵循相似性度量策略的孿生網(wǎng)絡(luò)跟蹤算法由于其在精度和速度都取得良好的性能獲得極大的關(guān)注。全卷積孿生網(wǎng)絡(luò)(fully convolutional siamese networks,SiamFC)作為這類算法框架的開(kāi)創(chuàng)工作,首先對(duì)孿生網(wǎng)絡(luò)通過(guò)大規(guī)模且種類豐富的圖片對(duì)進(jìn)行離線訓(xùn)練,然后計(jì)算待搜索區(qū)域與模板圖片的相似度,響應(yīng)最高的位置為目標(biāo)的估計(jì)位置,且跟蹤過(guò)程中無(wú)需更新模型,因此十分高效。在此基礎(chǔ)上,為了增強(qiáng)SiamFC 算法的特征表征能力,陸續(xù)提出很多高效的跟蹤算法。SA-Siam(semantic and appearance siamese networks)構(gòu)建一個(gè)雙重孿生網(wǎng)絡(luò),提升了基礎(chǔ)算法的泛化能力。SiamVGG 使用VGG 網(wǎng)絡(luò)代替AlexNet,充分使用了深層網(wǎng)絡(luò)的特征提取能力,提高了基礎(chǔ)算法的精確度但是模型參數(shù)量的劇增導(dǎo)致跟蹤速度下降很多。

在保證算法參數(shù)量小,兼顧精度和速度都有大幅提升的前提下,本文以SiamFC 算法框架為基準(zhǔn),提出四點(diǎn)改進(jìn)策略。首先,使用輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò)MobileNetV1作為主干網(wǎng)絡(luò),比AlexNet更深的網(wǎng)絡(luò)發(fā)掘出的特征對(duì)目標(biāo)特征的表達(dá)能力更強(qiáng)。其次,逐層裁剪受到填充影響的特征圖,消除填充操作對(duì)特征圖的影響,提高跟蹤精度。緊接著,對(duì)選取的主干網(wǎng)絡(luò)進(jìn)行調(diào)整,選取網(wǎng)絡(luò)的前9 層,修改網(wǎng)絡(luò)總步長(zhǎng)為8,并且在特征提取層的最后增加通道降維操作。使得為分類問(wèn)題設(shè)計(jì)的MobileNetV1 適用于目標(biāo)跟蹤任務(wù)。最后,在孿生網(wǎng)絡(luò)的模板分支最后增加通道注意力模塊,加權(quán)突出目標(biāo)的重要信息,抑制無(wú)關(guān)或次要信息對(duì)特征的影響,進(jìn)一步增強(qiáng)模板分支對(duì)目標(biāo)語(yǔ)義信息的表達(dá)能力。

經(jīng)過(guò)本文提出的改進(jìn)策略,本文算法在OTB2015數(shù)據(jù)集和VOT2018 數(shù)據(jù)集上與基準(zhǔn)算法相比均有了顯著提升。在OTB2015 上,Precision(Prec)提升了5.4%,AUC 提升了4.8%;在VOT2018 上,平均重疊期望(expected average overlap,EAO)提升了26.6%,在精度提升的同時(shí)算法在NVIDIA GTX1080Ti 下的平均速度高達(dá)120 frame/s,速度提升了39.5%。并且本文算法模型十分輕量,在移動(dòng)端或嵌入式等算力相對(duì)不足的設(shè)備中更具競(jìng)爭(zhēng)力。

1 基于輕量級(jí)孿生網(wǎng)絡(luò)的高速目標(biāo)跟蹤

基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法的實(shí)施是將目標(biāo)跟蹤任務(wù)轉(zhuǎn)化為相似性度量問(wèn)題,如式(1)所示。

式中,f(,)是相似性度量函數(shù);是視頻序列的第一幀,即模板圖片;是視頻序列的后續(xù)幀,即待搜索圖片;φ(·)表示經(jīng)由參數(shù)為的卷積神經(jīng)網(wǎng)絡(luò)得到的特征圖;*表示互相關(guān)運(yùn)算;·1 表示在響應(yīng)圖中每個(gè)位置的取值。則跟蹤過(guò)程可以轉(zhuǎn)變成:模板圖片和搜索圖片送入孿生網(wǎng)絡(luò)中,對(duì)得到的兩個(gè)特征圖進(jìn)行互相關(guān)運(yùn)算即以模板分支最后的特征圖作為卷積核對(duì)搜索分支最后的特征圖進(jìn)行卷積,得到的結(jié)果就是得分響應(yīng)圖,得分越高的地方則越可能是待跟蹤對(duì)象出現(xiàn)的位置,反之得分越低的地方則越不可能出現(xiàn)待跟蹤目標(biāo),對(duì)得分最高的地方進(jìn)行多尺度變化回溯到原圖中。

本文算法框架如圖1 所示。相比于SiamFC,本文使用參數(shù)量更小、網(wǎng)絡(luò)更深、特征表達(dá)能力更強(qiáng)且便于在嵌入式設(shè)備中移植的輕量級(jí)網(wǎng)絡(luò)Mobile-NetV1 作為主干網(wǎng)絡(luò)。對(duì)在進(jìn)行前向傳播過(guò)程中受到填充影響的特征圖進(jìn)行裁剪,消除填充帶來(lái)的消極影響,修改網(wǎng)絡(luò)的總步長(zhǎng)為8,在特征提取層后添加通道降維操作,使其適用于跟蹤任務(wù)。在模板分支的最后添加通道注意力模塊(channel attention module,CAM),增強(qiáng)模板分支特征圖對(duì)待跟蹤目標(biāo)語(yǔ)義信息的表達(dá)能力。

圖1 輕量級(jí)孿生網(wǎng)絡(luò)框架Fig.1 Framework of light-weight siamese network

1.1 輕量級(jí)網(wǎng)絡(luò)MobileNetV1

SiamFC 算法由于其在速度和精度都達(dá)到較好的水準(zhǔn)而備受關(guān)注。然而SiamFC 的主干網(wǎng)絡(luò)使用的是相對(duì)較淺的AlexNet,較淺的網(wǎng)絡(luò)保證其參數(shù)量較小,因此SiamFC 的跟蹤速度在孿生網(wǎng)絡(luò)系列算法中占領(lǐng)先位置??墒禽^淺的神經(jīng)網(wǎng)絡(luò)不具備強(qiáng)大的特征提取能力,提取的特征對(duì)目標(biāo)特征的表達(dá)能力相對(duì)不足。置換更深的卷積神經(jīng)網(wǎng)絡(luò),伴隨而來(lái)的是結(jié)構(gòu)越加復(fù)雜,網(wǎng)絡(luò)體積逐漸增大,對(duì)硬件配置需求逐漸增多。大多神經(jīng)網(wǎng)絡(luò)都是在具有強(qiáng)大計(jì)算能力、性能優(yōu)越的服務(wù)器平臺(tái)上運(yùn)行,普通PC 設(shè)備不能完成如此龐大的計(jì)算任務(wù),那么算力更加不足的移動(dòng)端設(shè)備就更難以部署了。

為解決在提升主干網(wǎng)絡(luò)特征提取能力的同時(shí),參數(shù)量還能更小以保證跟蹤速度和滿足特定算力相對(duì)不足的場(chǎng)景,本文選用比AlexNet 更深,但是參數(shù)量更小的MobileNetV1 作為算法的主干網(wǎng)絡(luò)。更深的網(wǎng)絡(luò)保證輸出的特征圖具有強(qiáng)大的特征表示能力,同時(shí)更少的參數(shù)量可以保證跟蹤器的速度可以高幀率運(yùn)行。經(jīng)實(shí)驗(yàn)分析,算法的準(zhǔn)確度和速度都有了很大的提升。

MobileNetV1 是谷歌提出的一種輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò),如表1 所示,參數(shù)量和主流的其他神經(jīng)網(wǎng)絡(luò)相比十分小,因此可以在移動(dòng)端或嵌入式設(shè)備中應(yīng)用。不同于表中其他網(wǎng)絡(luò)的地方在于該網(wǎng)絡(luò)使用的卷積方式是深度可分離卷積,這是其在較深的網(wǎng)絡(luò)結(jié)構(gòu)下,參數(shù)量卻很小的關(guān)鍵。深度可分離卷積是分解卷積的一種形式,它將標(biāo)準(zhǔn)卷積分解為深度卷積和點(diǎn)卷積,點(diǎn)卷積就是卷積核的寬高都是1的標(biāo)準(zhǔn)卷積。

表1 各神經(jīng)網(wǎng)絡(luò)參數(shù)量對(duì)比Table 1 Parameters comparison of various neural networks

標(biāo)準(zhǔn)卷積運(yùn)算包含了卷積核的計(jì)算和合并計(jì)算,可直接將輸入變成一個(gè)新尺寸的輸出,如圖2 所示。

圖2 標(biāo)準(zhǔn)卷積Fig.2 Standard convolution

深度可分離卷積操作則分解為兩步,先是深度卷積(depthwise convolution,Dw Conv),然后是點(diǎn)卷積(pointwise convolution,Pw Conv)。深度卷積是對(duì)輸入的每一個(gè)通道都有一個(gè)卷積核,對(duì)每個(gè)通道單獨(dú)運(yùn)算,然后通過(guò)點(diǎn)卷積對(duì)深度卷積后的結(jié)果進(jìn)行1×1 的標(biāo)準(zhǔn)卷積運(yùn)算,合并出一個(gè)新尺寸的輸出,如圖3 所示。這種分解方式可以大大減少參數(shù)計(jì)算量和模型的大小。

圖2、圖3 中D表示輸入圖片的尺寸,D表示卷積核的尺寸,和表示輸入輸出的通道深度。

則一次標(biāo)準(zhǔn)卷積的計(jì)算量可表示為式(2):

圖3 深度可分離卷積Fig.3 Depthwise separable convolution

一次深度可分離卷積的計(jì)算量為深度卷積與點(diǎn)卷積的運(yùn)算量之和,可表示為式(3):

MobileNetV1 中D都是3,則兩個(gè)運(yùn)算量的比例可表示為式(4):

分析可得,理論上,一次標(biāo)準(zhǔn)卷積的運(yùn)算量是深度可分離卷積的運(yùn)算量的8 到9 倍。

相對(duì)于主流的卷積神經(jīng)網(wǎng)絡(luò)模型,MobileNetV1擁有更小的體積,更小的參數(shù)計(jì)算量,更高的精度,得益其諸多優(yōu)勢(shì),可以更好地在移動(dòng)端設(shè)備部署,因此本文選取MobileNetV1 作為孿生網(wǎng)絡(luò)的特征提取網(wǎng)絡(luò)。

1.2 裁剪特征圖

SiamFC 使用的特征提取網(wǎng)絡(luò)AlexNet 是不帶填充的全卷積神經(jīng)網(wǎng)絡(luò)。通過(guò)使用深層神經(jīng)網(wǎng)絡(luò)替換AlexNet 以提高提取的特征對(duì)目標(biāo)的表達(dá)能力,隨著網(wǎng)絡(luò)深度的增加,為了保證輸出特征的尺寸不會(huì)因卷積操作而越來(lái)越小,不可避免地在卷積層中引入填充(padding)操作。SiamDW中提及大量的填充操作會(huì)在模型訓(xùn)練時(shí)帶來(lái)潛在的位置偏差,從而導(dǎo)致跟蹤精度下降。例如當(dāng)目標(biāo)移動(dòng)至搜索圖片的邊界時(shí),跟蹤器很難得到一個(gè)精準(zhǔn)的位置預(yù)測(cè),如圖4所示。因此需要消除填充所帶來(lái)的消極影響。

圖4 填充的影響Fig.4 Padding influence

以O(shè)TB2015 中MotorRolling 序列為例,圖4 中間的是模板圖片的特征圖,′是帶有填充的模板圖片的特征圖,左邊是待搜索圖片的特征圖,右邊是移動(dòng)一定步幅后的目標(biāo)在邊界時(shí)的待搜索圖片的特征圖,紅色框的內(nèi)容與進(jìn)行互相關(guān)操作得到響應(yīng)RR,藍(lán)色框的內(nèi)容與′進(jìn)行互相關(guān)操作得到響應(yīng)RR。

在無(wú)填充的情況下,目標(biāo)運(yùn)動(dòng)到邊界時(shí),與的內(nèi)容一致,因此R=R。

在有填充的情況下,目標(biāo)運(yùn)動(dòng)到邊界時(shí),′與′的內(nèi)容不一致,′的邊緣包含了大量填充信息,因此RR。

分析這兩種情況可知,無(wú)填充時(shí),相同的物體移動(dòng)后在響應(yīng)圖中的響應(yīng)是相同的;有填充時(shí),相同的物體移動(dòng)后在響應(yīng)圖中的響應(yīng)是不同的。不同的響應(yīng)回溯到原圖中的位置必然不同,回歸框會(huì)在目標(biāo)周圍發(fā)生偏移,損害跟蹤精度。因此在保證得分響應(yīng)圖的大小在合理范圍的前提下,如表2 所示,對(duì)主干網(wǎng)絡(luò)的部分層后增加裁剪(crop)操作,消除填充對(duì)特征圖的消極影響,從而提升跟蹤精度。

1.3 調(diào)整網(wǎng)絡(luò)總步長(zhǎng)

原有的MobileNetV1 有5 個(gè)卷積步長(zhǎng)為2 的卷積層,網(wǎng)絡(luò)總步長(zhǎng)設(shè)置為32,如此大的網(wǎng)絡(luò)步長(zhǎng)會(huì)導(dǎo)致最后一層輸出的特征圖很小且空間分辨率較低,不能夠精準(zhǔn)地定位目標(biāo)。這與本文跟蹤任務(wù)旨在快速且精確地定位目標(biāo)位置相違背,因此為分類問(wèn)題而設(shè)計(jì)的MobileNetV1 并不適用于跟蹤任務(wù)。網(wǎng)絡(luò)總步長(zhǎng)決定了最后的輸出特征圖的大小,太大的特征圖對(duì)目標(biāo)的空間位置不敏感,太小的特征圖對(duì)物體的結(jié)構(gòu)信息不敏感。為了保證最后的輸出特征圖在合理的范圍內(nèi),本文將原有的網(wǎng)絡(luò)進(jìn)行調(diào)整,控制網(wǎng)絡(luò)的總步長(zhǎng)為8,模板分支輸出大小為7×7×256,搜索分支輸出大小為23×23×256,得分響應(yīng)圖的大小為17×17×1。主干網(wǎng)絡(luò)細(xì)節(jié)如表2 所示。表中Crop代表特征圖裁剪,Dw Conv 代表深度卷積,Pw Conv代表點(diǎn)卷積。

表2 基于MobileNetV1 的孿生網(wǎng)絡(luò)結(jié)構(gòu)Table 2 Architecture of siamese network based on MobileNetV1

1.4 融合通道注意力機(jī)制

基于孿生網(wǎng)絡(luò)的跟蹤算法采取離線訓(xùn)練、在線跟蹤的模式,不同于相關(guān)濾波算法的在線訓(xùn)練。這就要求網(wǎng)絡(luò)能夠?qū)δ繕?biāo)的細(xì)節(jié)有所提煉,對(duì)不同目標(biāo)的差異表現(xiàn)敏感。然而在互相關(guān)計(jì)算的過(guò)程中,不同通道和不同位置對(duì)于相似度計(jì)算的貢獻(xiàn)是平均的,限制了網(wǎng)絡(luò)的特征提取能力和對(duì)相似目標(biāo)的判別能力。

為了對(duì)跟蹤目標(biāo)特征圖中不同通道的重要性進(jìn)行突出,同時(shí)可以更好地利用輸入至網(wǎng)絡(luò)的圖片對(duì)的背景信息,例如噪聲大的背景可能導(dǎo)致跟蹤器的漂移。本文通過(guò)引入通道注意力模塊對(duì)目標(biāo)的重要信息進(jìn)行加權(quán)突出,不相關(guān)或無(wú)效的信息減小權(quán)重進(jìn)行抑制,提高網(wǎng)絡(luò)對(duì)目標(biāo)的重要特征的表達(dá)能力。通道注意力在改善卷積神經(jīng)網(wǎng)絡(luò)性能方面具有巨大潛力,大多數(shù)現(xiàn)有的方法如SE(squeeze and excitation)模塊、CBAM(convolutional block attention module)模塊等致力于開(kāi)發(fā)更復(fù)雜的注意力模塊以獲得更好的性能,不可避免地增加了計(jì)算負(fù)擔(dān)。

受ECA-Net 啟發(fā),為了契合主干網(wǎng)絡(luò)選取的輕量級(jí)神經(jīng)網(wǎng)絡(luò),本文選取超輕量級(jí)的注意力模塊,嵌入至搜索分支后,消融實(shí)驗(yàn)表明算法的性能有了顯著提升。

不同于SE 模塊通過(guò)全連接層建立一個(gè)通道與其他所有通道復(fù)雜關(guān)系導(dǎo)致模型的超高復(fù)雜度和計(jì)算量,本文通道間的交互則注重單個(gè)通道與相鄰?fù)ǖ赖慕换ド?,?jì)算量大幅減少。通道注意力模塊如圖5所示,首先將搜索分支提取的特征全局平均池化,然后在相鄰?fù)ǖ乐g進(jìn)行一維卷積,之后由一個(gè)Sigmoid 函數(shù)來(lái)計(jì)算出每個(gè)通道的權(quán)重w。將權(quán)重與原特征逐層相乘后再與原特征相加得到一個(gè)與原特征尺寸完全相同,但是對(duì)目標(biāo)特征表達(dá)能力更強(qiáng)的新特征′。新特征的各個(gè)層可由式(9)表述。

圖5 中GAP 代表全局平均池化,代表激活函數(shù)由式(10)表述,代表經(jīng)過(guò)一維卷積后1×1×的特征。

圖5 通道注意力模塊Fig.5 Channel attention module

2 實(shí)驗(yàn)與分析

2.1 實(shí)驗(yàn)平臺(tái)與參數(shù)配置

本文算法實(shí)驗(yàn)平臺(tái)配置:CPU 為IntelCorei5-8500,基礎(chǔ)頻率3.00 GHz,內(nèi)存16 GB,GPU 為NVIDIA GTX1080Ti,顯存11 GB。

訓(xùn)練集選用Got-10K,包含10 000 個(gè)視頻序列以及150 萬(wàn)個(gè)標(biāo)注的軸對(duì)齊的邊界框。訓(xùn)練過(guò)程中使用MobileNetV1 預(yù)訓(xùn)練模型初始化卷積層參數(shù),采用隨機(jī)梯度下降,訓(xùn)練時(shí)的學(xué)習(xí)率從指數(shù)10衰減至10,mini-batches 設(shè)置為8,整個(gè)訓(xùn)練共經(jīng)歷50 個(gè)階段,本文互相關(guān)操作的偏置為0。通道注意力模塊中一維卷積的卷積核大小為3,填充為1。

邏輯損失定義為式(11),表示得分圖中每個(gè)候選位置的得分,其中代表模板圖片和搜索圖片組成的圖片對(duì)的相似度得分,∈{+1,-1}代表真值標(biāo)簽。

不同的候選位置有著不同的得分,所有的候選位置構(gòu)成總得分響應(yīng)圖,代表得分響應(yīng)圖的所有位置。訓(xùn)練時(shí)采用所有候選位置的平均邏輯損失來(lái)表示損失函數(shù),由式(12)表示。圖6 給出訓(xùn)練階段損失函數(shù)的收斂曲線。

圖6 損失函數(shù)收斂曲線Fig.6 Loss function convergence curve

2.2 基于OTB2015 的實(shí)驗(yàn)

OTB2015 是一種被廣泛使用的跟蹤數(shù)據(jù)集,包含100 個(gè)完全注釋的序列,其中包含26 個(gè)灰色序列,76 個(gè)彩色序列,不同序列有著不同屬性的11 個(gè)跟蹤挑戰(zhàn)。其使用Prec 和AUC 得分作為主要的兩種評(píng)價(jià)指標(biāo)。前者指標(biāo)是中心位置偏差,是跟蹤框的中心位置和真值之間的歐式距離;后者指標(biāo)是跟蹤框與真值之間的交疊比。兩個(gè)指標(biāo)通過(guò)設(shè)定一定的閾值對(duì)跟蹤結(jié)果進(jìn)行判定。

為對(duì)比分析,本文挑選四個(gè)基于孿生網(wǎng)絡(luò)的算法,使用輕量級(jí)網(wǎng)絡(luò)的SiamSqueeze、SiamTri、Siam-FC、CFNet,三個(gè)基于相關(guān)濾波的方法SRDCF、Staple、fDSST,包括本文算法共計(jì)8 個(gè)跟蹤器,在OTB2015 數(shù)據(jù)集表現(xiàn)如表3、圖7 所示。本文算法在Prec.和AUC 兩項(xiàng)指標(biāo)上均達(dá)到最佳水平,并且在GPU 上運(yùn)行速度高達(dá)120 frame/s。相比于基準(zhǔn)算法SiamFC,Prec 提升了5.4%,AUC 提升了4.8%,速度提升了39.5%。

表3 各跟蹤器在OTB2015 上的性能對(duì)比Table 3 Performance comparison of each tracker on OTB2015

圖7 OTB2015 上的精度-成功率對(duì)比實(shí)驗(yàn)結(jié)果Fig.7 Precision-success rate comparison experiment results on OTB2015

與孿生網(wǎng)絡(luò)類方法相比,本文算法的跟蹤成功率和精度較高的原因在于,本文使用的網(wǎng)絡(luò)更深層,提取出的特征對(duì)目標(biāo)的語(yǔ)義表達(dá)能力更強(qiáng),經(jīng)過(guò)優(yōu)化策略后的網(wǎng)絡(luò)更適用于跟蹤任務(wù)。通道注意力機(jī)制的引入使得模板分支提煉的特征充分利用了待跟蹤目標(biāo)以及目標(biāo)背景的信息,對(duì)于目標(biāo)的光照變化和尺度變化具有一定的魯棒性。

與相關(guān)濾波類方法相比,除去跟蹤精度和成功率的大幅增長(zhǎng),跟蹤速度有了顯著的提升,本文算法的速度比Staple 和fDSST 提升了一倍多。相較于SRDCF,其較好的精度和成功率得益于跟蹤器的在線訓(xùn)練和實(shí)時(shí)更新,但是在線訓(xùn)練過(guò)程十分耗時(shí),因此它的速度只有4.3 frame/s,遠(yuǎn)達(dá)不到實(shí)時(shí)跟蹤需求。

本文算法高精度的跟蹤效果歸功于選用更深層的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,并且對(duì)主干網(wǎng)絡(luò)進(jìn)行了優(yōu)化。在高精度的同時(shí)保持高速運(yùn)行則是因?yàn)檫x取的輕量級(jí)網(wǎng)絡(luò)和輕量型注意力模塊,大幅減少算法的參數(shù)量。

為了與其他跟蹤算法進(jìn)行全面對(duì)比,本文使用OTB2015 數(shù)據(jù)集上的11 個(gè)帶注釋的屬性評(píng)估各跟蹤器。這11 個(gè)跟蹤難點(diǎn)分別是:(a)快速運(yùn)動(dòng)、(b)背景相似目標(biāo)遮擋、(c)運(yùn)動(dòng)模糊、(d)形變、(e)光照變化、(f)平面內(nèi)旋轉(zhuǎn)、(g)低分辨率、(h)遮擋、(i)平面外旋轉(zhuǎn)、(j)視野內(nèi)消失、(k)尺度變化。圖8、圖9 給出各個(gè)跟蹤器在每個(gè)跟蹤挑戰(zhàn)對(duì)應(yīng)序列上的Prec 和AUC指標(biāo)。本文算法在8 個(gè)跟蹤挑戰(zhàn)上表現(xiàn)都位列第一,在背景雜亂、形變兩個(gè)挑戰(zhàn)上位列第二。遮擋挑戰(zhàn)上位列第五。背景雜亂挑戰(zhàn)序列中,本文算法的AUC 是0.580,第一的SRDCF 是0.583。形變挑戰(zhàn)序列中,本文算法的AUC是0.548,第一的Staple是0.550,相差十分小。遮擋挑戰(zhàn)序列中,本文算法0.540,相較第一的0.559 有一定的差距。

在除去遮擋挑戰(zhàn)的10 個(gè)跟蹤挑戰(zhàn)的序列中選擇4 個(gè)具有代表性的序列,依次是Biker、Couple、Dragon-Baby、ironman,來(lái)評(píng)估跟蹤器在實(shí)際跟蹤中的性能表現(xiàn),跟蹤效果如圖10 所示。在4 個(gè)序列中,本文算法表現(xiàn)良好。

對(duì)于Biker 測(cè)試序列的跟蹤,其難點(diǎn)在于低分辨率、快速運(yùn)動(dòng)。在前65 幀,騎行者緩速前進(jìn)正對(duì)著攝像頭時(shí),各跟蹤器均能準(zhǔn)確跟蹤,在第21 幀目標(biāo)快速運(yùn)動(dòng)至空中,除了本文算法,SiamTri 和SiamSqueeze準(zhǔn)確地跟蹤到目標(biāo),其他跟蹤器全部丟失。但是SiamTri 和SiamSqueeze 有著一定程度的偏移,本文算法準(zhǔn)確地定位目標(biāo),分析可知引入特征圖裁剪操作消除了填充對(duì)跟蹤精度的影響。相對(duì)于SiamFC,得益于通道注意力機(jī)制的引入,使得特征對(duì)目標(biāo)的重要特征的語(yǔ)義表達(dá)能力更強(qiáng)。

對(duì)于Couple 測(cè)試序列的跟蹤,其難點(diǎn)在于背景雜亂以及目標(biāo)形變,基于孿生網(wǎng)絡(luò)類的算法表現(xiàn)都優(yōu)于基于相關(guān)濾波類算法。

對(duì)于DragonBaby 測(cè)試序列的跟蹤,其難點(diǎn)在于平面外旋轉(zhuǎn)、平面內(nèi)旋轉(zhuǎn)、運(yùn)動(dòng)模糊。序列中的小男孩旋轉(zhuǎn)兩次,并且快速運(yùn)動(dòng)導(dǎo)致形狀模糊。相對(duì)于基準(zhǔn)算法,SiamFC 在第一次旋轉(zhuǎn)過(guò)后第70 幀就丟失目標(biāo),而本文算法在兩次旋轉(zhuǎn)后都準(zhǔn)確地定位到目標(biāo)。深層網(wǎng)絡(luò)提取到的特征相較于淺層網(wǎng)絡(luò)更具有對(duì)目標(biāo)特征的表達(dá)能力。

對(duì)于ironman 測(cè)試序列的跟蹤,其難點(diǎn)在于光照變化、形變。序列中的光照變化十分劇烈,在第94幀,場(chǎng)景亮度變低,準(zhǔn)確定位到目標(biāo)的有本文算法、SiamTri 和SiamSqueeze,但是到第166 幀時(shí),亮度再次變高以及目標(biāo)的劇烈形變,只有本文算法準(zhǔn)確定位到目標(biāo),證明本文算法的良好性能。

圖8 OTB2015 各挑戰(zhàn)屬性的跟蹤精度對(duì)比結(jié)果Fig.8 Attribute-based precision comparison results on OTB2015

針對(duì)表現(xiàn)較差的遮擋挑戰(zhàn),選擇遮擋挑戰(zhàn)序列中的Bird1,該序列是一群鳥(niǎo)兒飛行,然后穿越云層,之后再次出現(xiàn),如圖11 所給出的三個(gè)階段。在一開(kāi)始鳥(niǎo)兒正常飛行的時(shí)候各跟蹤器均能準(zhǔn)確跟蹤鳥(niǎo)兒的飛行,在第165 幀鳥(niǎo)兒飛進(jìn)云層里,目標(biāo)完全丟失,第286 幀飛出云層。分析第286 幀發(fā)現(xiàn)只有在線更新模型的Staple 勉強(qiáng)跟蹤到鳥(niǎo)兒的邊緣,其他相關(guān)濾波類算法直接跟丟?;趯\生網(wǎng)絡(luò)類的跟蹤器CFNet、SiamFC、SiamTri、SiamSqueeze 以及本文算法,其中SiamFC、SiamTri 跟丟目標(biāo),本文算法和CFNet 漂移到鳥(niǎo)兒的翅膀或者其他鳥(niǎo)兒身上,這則表明基于相似性度量的跟蹤算法在面對(duì)同類不同個(gè)體及相似物上跟蹤效果不是很好。

圖9 OTB2015 各挑戰(zhàn)屬性的跟蹤成功率對(duì)比結(jié)果Fig.9 Attribute-based success rate comparison results on OTB2015

圖10 OTB2015 上跟蹤結(jié)果對(duì)比Fig.10 Comparison of tracking results on OTB2015

圖11 Bird1 序列上跟蹤結(jié)果對(duì)比Fig.11 Comparison of tracking results on Bird1 sequence

基于OTB2015 的實(shí)驗(yàn)表明,除去遮擋挑戰(zhàn)序列表現(xiàn)相對(duì)一般,本文算法在其余10 個(gè)挑戰(zhàn)上都有著良好的表現(xiàn)。

2.3 基于VOT2018 的實(shí)驗(yàn)

為了進(jìn)一步測(cè)試本文算法的通用性,在VOT2018數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。VOT2018 是更具挑戰(zhàn)性的數(shù)據(jù)集,其包含60 個(gè)彩色序列,每個(gè)序列的真值由旋轉(zhuǎn)的回歸框標(biāo)記。該測(cè)試集的評(píng)價(jià)指標(biāo)包含:精度(A),指跟蹤器在單個(gè)序列下的平均重疊率;魯棒性(R),指單個(gè)測(cè)試序列下的失敗次數(shù),當(dāng)重疊率為0 時(shí)視為失敗;以及最重要的評(píng)價(jià)指標(biāo)EAO,是結(jié)合了精度和魯棒性的綜合,EAO 指跟蹤器在一個(gè)短時(shí)圖像序列上的非重置重疊的期望值。

為了對(duì)比分析,挑選了6 個(gè)跟蹤器,分別是UNet-SiamFC、DSiam、DCFNet、DensSiam、Staple以及本文的基礎(chǔ)算法SiamFC。表4 列出了各跟蹤器在VOT2018 基準(zhǔn)測(cè)試的實(shí)驗(yàn)結(jié)果。在EAO 指標(biāo)方面,本文算法0.238 最優(yōu),相比于基礎(chǔ)算法SiamFC 的平均重疊期望是0.188,提升了26.6%。對(duì)比Staple 算法,雖然它的精度比本文高0.09,但是在平均重疊期望表現(xiàn)不如本文算法,本文算法優(yōu)于Staple 40.8%,魯棒性0.520 相比0.688 低很多,即失敗次數(shù)少,魯棒性也相對(duì)優(yōu)秀。圖12 給出在butterfly 序列上,本文算法結(jié)果與真值的對(duì)比。在蝴蝶飛舞過(guò)程中,劇烈形變,本文算法能夠準(zhǔn)確跟蹤到目標(biāo)。

表4 各跟蹤器在VOT2018 上的性能對(duì)比Table 4 Performance comparison of each tracker on VOT2018

圖12 Butterfly 序列上跟蹤結(jié)果對(duì)比Fig.12 Comparison of tracking results on butterfly sequence

2.4 算法有效性分析

為證實(shí)本文改進(jìn)策略的有效性,在OTB2015 上進(jìn)行了五組對(duì)照實(shí)驗(yàn)。如表5 所示,SiamFC 是本文的基準(zhǔn)算法,實(shí)驗(yàn)1 代表基準(zhǔn)算法加上通道注意力模塊,實(shí)驗(yàn)2 代表原MobileNetV1 直接應(yīng)用至目標(biāo)跟蹤任務(wù)中,實(shí)驗(yàn)3 代表主干網(wǎng)絡(luò)換成增加了特征圖裁剪和網(wǎng)絡(luò)總步長(zhǎng)調(diào)整兩個(gè)優(yōu)化策略改進(jìn)過(guò)的Mobile-NetV1,實(shí)驗(yàn)4 代表在實(shí)驗(yàn)3 的基礎(chǔ)上增加通道注意力機(jī)制后的算法,即本文提出的總體算法。

表5 本文方法與基準(zhǔn)算法在OTB2015 上的消融實(shí)驗(yàn)Table 5 Ablation experiment of proposed algorithm and benchmark algorithms on OTB2015

分析實(shí)驗(yàn)1,在基準(zhǔn)算法的基礎(chǔ)上在模板分支最后添加通道注意力模塊,基準(zhǔn)算法的跟蹤成功率從0.582 提升至0.592,驗(yàn)證了通道注意力模塊的引入可以提升算法的跟蹤精度。

分析實(shí)驗(yàn)2,直接使用原MobileNetV1 至目標(biāo)跟蹤任務(wù)中,其AUC 只有0.354,證明其不適用于跟蹤任務(wù)。對(duì)比分析SiamFC 和實(shí)驗(yàn)3,AUC 從0.582 提升至0.594,表明經(jīng)過(guò)特征圖裁剪和網(wǎng)絡(luò)總步長(zhǎng)調(diào)整后的算法有了一定的提升。對(duì)比實(shí)驗(yàn)3 和實(shí)驗(yàn)4,通道注意力機(jī)制的加入,算法的兩項(xiàng)指標(biāo)都有了提升,證明加入通道注意力機(jī)制增強(qiáng)了模板分支對(duì)目標(biāo)特征的表達(dá)能力。如圖13 所示,繪制通道注意力機(jī)制引入前后的輸出響應(yīng),分析可得通道注意力機(jī)制的引入確實(shí)增強(qiáng)了部分通道的響應(yīng),也抑制了部分通道的響應(yīng)。最后對(duì)比SiamFC 和實(shí)驗(yàn)4,經(jīng)過(guò)本文提出的優(yōu)化策略后,Prec 提升了5.4%,AUC 提升了4.8%,在精度提升的同時(shí)算法平均速度高達(dá)120 frame/s,速度提升了39.5%,參數(shù)量減少了59.8%。

圖13 有無(wú)注意力機(jī)制的每個(gè)通道的響應(yīng)Fig.13 Activation of each channel with attention mechanism or not

3 結(jié)論

本文提出了一種輕量級(jí)網(wǎng)絡(luò)MobileNetV1 作為特征提取主干網(wǎng)絡(luò),提出兩點(diǎn)針對(duì)主干網(wǎng)絡(luò)的優(yōu)化策略,融合超輕量級(jí)通道注意力機(jī)制的端到端的跟蹤算法。在OTB2015 和VOT2018 測(cè)試集上做了大量的實(shí)驗(yàn),證明了算法的良好效果。在OTB2015 測(cè)試集上的實(shí)驗(yàn)表明,本文算法成功率0.610,跟蹤精度達(dá)到0.813。在VOT2018 的EAO 可達(dá)0.238,且在較好的跟蹤精度下,在NVIDIA 1080Ti下的平均跟蹤速度可達(dá)120 frame/s。在保持良好的跟蹤性能同時(shí),超小的參數(shù)量在移動(dòng)端或嵌入式設(shè)備的應(yīng)用場(chǎng)景下相較其他主流算法具有很大的優(yōu)勢(shì)。

猜你喜歡
跟蹤器注意力卷積
讓注意力“飛”回來(lái)
光伏跟蹤器陣列跟蹤精度的測(cè)算方法研究
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
淺析一種風(fēng)光儲(chǔ)一體化跟蹤器
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
超長(zhǎng)待機(jī)的自行車位置跟蹤器
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
雙向多軌跡判定方法在目標(biāo)跟蹤中的應(yīng)用研究
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
A Beautiful Way Of Looking At Things
五台县| 容城县| 高清| 滨州市| 开化县| 蕉岭县| 盐源县| 柳林县| 中阳县| 庄浪县| 拉萨市| 安乡县| 馆陶县| 利津县| 哈巴河县| 黎平县| 呼伦贝尔市| 阿瓦提县| 徐州市| 叙永县| 沅陵县| 江北区| 阜城县| 阿拉善左旗| 娄底市| 宿松县| 磴口县| 旅游| 始兴县| 宁德市| 海伦市| 台东县| 安溪县| 中西区| 南昌县| 扎囊县| 屯留县| 获嘉县| 日喀则市| 琼结县| 呈贡县|