基于孿生網(wǎng)絡(luò)特征融合與閾值更新的跟蹤算法

2022-04-02 02:55楊小軍

計(jì)算機(jī)技術(shù)與發(fā)展 2022年3期

劉洋，楊小軍

(長(zhǎng)安大學(xué) 信息工程學(xué)院，陜西西安 710064)

0 引言

計(jì)算機(jī)視覺(jué)已經(jīng)發(fā)展了很多年，視頻目標(biāo)跟蹤作為其中十分火熱的課題之一，在現(xiàn)實(shí)生活中應(yīng)用廣泛[1]。其主要任務(wù)是通過(guò)第一幀中給出的目標(biāo)的初始信息(一般以矩形框表示)，在后續(xù)幀中自動(dòng)輸出目標(biāo)的參數(shù)信息[2]。在實(shí)際跟蹤過(guò)程中，仍存在著諸多難點(diǎn)，例如背景相似、光照變化、嚴(yán)重遮擋以及目標(biāo)姿態(tài)變化等，這些都會(huì)導(dǎo)致跟蹤精度下降[3]。早期目標(biāo)跟蹤領(lǐng)域采用的算法可歸結(jié)為傳統(tǒng)目標(biāo)跟蹤算法，它通常使用生成式模型，以卡爾曼濾波[4]、粒子濾波[5]、Meanshift算法[6]、Camshift[7]算法和光流法[8]等為代表。隨著相關(guān)濾波研究的發(fā)展，出現(xiàn)了基于相關(guān)濾波器的跟蹤算法，使傳統(tǒng)的時(shí)域計(jì)算變?yōu)轭l域計(jì)算，大大減少了計(jì)算量，有效提升了跟蹤速度。2010年，MOSSE利用目標(biāo)的特征來(lái)訓(xùn)練濾波器，對(duì)下一視頻幀濾波[9]。CSK在此基礎(chǔ)上加入了循環(huán)矩陣和核函數(shù)，大大提高了跟蹤速度[10]。隨后，KCF引入HOG特征(梯度顏色直方圖)來(lái)表征運(yùn)動(dòng)目標(biāo)的紋理特征和形狀特征[11]，成為相關(guān)濾波最為經(jīng)典的算法。2013年后，深度學(xué)習(xí)領(lǐng)域逐漸火熱，基于該領(lǐng)域的算法得到空前發(fā)展。DLT率先采用“預(yù)訓(xùn)練+微調(diào)”的方式，解決了訓(xùn)練樣本過(guò)少的問(wèn)題[12]。2016年，L.Bertinett等提出了十分具有代表性的SiamFC算法,該算法采用權(quán)值共享的兩條孿生結(jié)構(gòu)，通過(guò)度量相似性來(lái)進(jìn)行目標(biāo)跟蹤[13]，使得跟蹤速度得到空前提高。Li等人提出的SiameseRPN首次將RPN的思想融入目標(biāo)跟蹤，避免了SiamFC中多尺度測(cè)試的問(wèn)題，實(shí)現(xiàn)了非常高的跟蹤速度和精度[14]。之后，針對(duì)深層網(wǎng)絡(luò)會(huì)使得跟蹤精度下降的問(wèn)題，SiamRPN++通過(guò)實(shí)驗(yàn)表明其原因在于破壞了網(wǎng)絡(luò)的空間不變性，并通過(guò)引入均勻分布采樣這一策略，訓(xùn)練出了基于殘差網(wǎng)絡(luò)Resnet的追蹤器[15]。Wang等提出的SiamMask通過(guò)增加分割分支，使得普通的目標(biāo)跟蹤框架可實(shí)現(xiàn)實(shí)時(shí)分割[16]。雖然SiamFC顯著提高了深度學(xué)習(xí)方法跟蹤器的跟蹤速度，但在復(fù)雜場(chǎng)景下仍然無(wú)法較好地適應(yīng)目標(biāo)和背景信息的變化，當(dāng)目標(biāo)發(fā)生嚴(yán)重形變或者目標(biāo)附近出現(xiàn)干擾時(shí)，跟蹤的精度會(huì)大大降低。

針對(duì)以上問(wèn)題，該文提出一種基于注意力機(jī)制的融合特征跟蹤算法，并引入加權(quán)平均模塊和閾值模板更新模塊。該算法延續(xù)了SiamFC的基本框架，將淺層的AlexNet[17]替換為深層網(wǎng)絡(luò)MobileNetV2，在獲取更深層特征信息的同時(shí)，盡可能減少參數(shù)量。同時(shí)由深至淺進(jìn)行多層特征融合，使得語(yǔ)義特征與表觀特征進(jìn)行互補(bǔ)，解決復(fù)雜背景中目標(biāo)與背景相似以及目標(biāo)快速移動(dòng)所導(dǎo)致定位不足的問(wèn)題。模板分支的特征通過(guò)注意力機(jī)制模塊，突出目標(biāo)特征的重要信息。再將融合并通過(guò)注意力機(jī)制后的特征向量的互相關(guān)結(jié)果與原始提取的特征向量的互相關(guān)結(jié)果進(jìn)行加權(quán)平均獲得響應(yīng)圖，進(jìn)一步提升模型的魯棒性。最后，比較相似度分?jǐn)?shù)與設(shè)定的閾值大小來(lái)判斷是否需要模板更新，并通過(guò)實(shí)驗(yàn)找到了更新的最佳閾值。在OTB100數(shù)據(jù)集上的實(shí)驗(yàn)表明，該算法在面對(duì)各種具有挑戰(zhàn)因素的視頻序列時(shí)仍能取得較好的跟蹤效果，具有良好的魯棒性。

1 算法網(wǎng)絡(luò)架構(gòu)

1.1 算法框架概述

算法的整體框架如圖1所示。模板分支與搜索分支由兩條權(quán)值共享的卷積神經(jīng)網(wǎng)絡(luò)組成。使用改進(jìn)后的MobileNetV2作為特征提取網(wǎng)絡(luò)，并對(duì)第三、五、七個(gè)BottleNeck提取到的特征進(jìn)行自適應(yīng)融合，使得特征同時(shí)具備深層與淺層的信息。模板分支的特征通過(guò)注意力機(jī)制模塊，突出目標(biāo)的關(guān)鍵特征。引入加權(quán)平均模塊，將經(jīng)過(guò)融合與增強(qiáng)后的特征的卷積結(jié)果與原始的特征卷積結(jié)果進(jìn)行權(quán)值為u的加權(quán)平均，得到最終的響應(yīng)分?jǐn)?shù)圖。最后，比較相似度與閾值的大小，根據(jù)比較結(jié)果進(jìn)行模板更新，并利用重復(fù)實(shí)驗(yàn)的辦法，找到最優(yōu)的閾值。

圖1 算法整體結(jié)構(gòu)

1.2 特征提取網(wǎng)絡(luò)與特征融合

1.2.1 特征提取網(wǎng)絡(luò)

MobileNet是由谷歌提出的一系列輕量級(jí)的神經(jīng)網(wǎng)絡(luò)，采用深度可分離卷積操作(deep-wise)替代原來(lái)的傳統(tǒng)3D卷積，大大地減少了運(yùn)算量。該文使用MobileNetV2替換原先較淺的AlexNet，以獲得更深層的語(yǔ)義信息，并對(duì)網(wǎng)絡(luò)結(jié)構(gòu)做出改進(jìn)，平衡參數(shù)規(guī)模與特征豐富度，適應(yīng)該跟蹤任務(wù)。

MobileNetV2由三個(gè)卷積層、一個(gè)池化層和七個(gè)卷積區(qū)(BottleNeck)組成。針對(duì)目標(biāo)跟蹤的任務(wù)特點(diǎn)，去掉了最后一個(gè)卷積區(qū)后面的兩個(gè)卷積層和池化層，保留提取初級(jí)圖像特征的常規(guī)卷積層。

高維tensor可以獲取更豐富的特性信息，而低維tensor能帶來(lái)更小的計(jì)算量。MobileNetV2采用一種反向殘差結(jié)構(gòu)，以較小的計(jì)算量取得了較好的性能，很好地平衡了速度與精度的問(wèn)題，其結(jié)構(gòu)如圖2所示。首先，通過(guò)Expansion Layer層擴(kuò)張維度，之后進(jìn)行深度可分離卷積運(yùn)算，再由Projection Layer降維，使得網(wǎng)絡(luò)重新變小。使用Relu6作為激活函數(shù)是為了在低精度的計(jì)算下也能獲得高數(shù)值分辨率，而最后一層降維使用線(xiàn)性激活函數(shù)是為了防止小于0的元素經(jīng)特征提取后丟失信息。

1.2.2 特征融合

深層特征和淺層特征包含的信息是不同的。在對(duì)一些屬性相同但表現(xiàn)差異較大的目標(biāo)進(jìn)行跟蹤時(shí)，若僅采用深層特征，則會(huì)缺乏位置信息，導(dǎo)致對(duì)快速移動(dòng)的目標(biāo)定位能力不足，從而導(dǎo)致跟蹤精度下降。因此，為了提高算法的準(zhǔn)確性，該文抽取第三、五、七個(gè)BottleNeck的特征，由深至淺，采用雙線(xiàn)性插值公式，將深層提取的小分辨率特征圖進(jìn)行擴(kuò)大，逐步地完成特征融合。雙線(xiàn)性插值公式為：

(1)

1.3 注意力機(jī)制(CASA)

注意力機(jī)制的引入在計(jì)算機(jī)視覺(jué)領(lǐng)域大獲成功。該文參考由胡杰等人在2017年Image分類(lèi)比賽中提出的SENet(Squeeze and Excitation Net)模型，以及X.Wang等人提出的Non-Local模型，分別設(shè)計(jì)出通道注意力模塊與空間注意力模塊，對(duì)模板分支上的融合特征進(jìn)行空間和通道上的加權(quán)，進(jìn)一步提升模型的判別能力。由于搜索域含有大量無(wú)關(guān)信息，加入注意力模塊易導(dǎo)致模型對(duì)某些無(wú)關(guān)特征過(guò)度關(guān)注從而降低模型的普適性，故只在模板分支加入。

1.3.1 通道注意力

不同的通道是從不同的角度對(duì)目標(biāo)的信息構(gòu)建特征，因此各通道的重要程度并不相同。SENet算法提出一種壓縮激勵(lì)模型，使得各個(gè)通道之間產(chǎn)生依賴(lài)關(guān)系，網(wǎng)絡(luò)通過(guò)自適應(yīng)學(xué)習(xí)，對(duì)基于通道的特征響應(yīng)進(jìn)行重新校準(zhǔn)，提高了網(wǎng)絡(luò)的表達(dá)能力。參照這一模型，該文引入了一種通道注意力機(jī)制模塊，加強(qiáng)與目標(biāo)物體相關(guān)的特征通道權(quán)重，降低無(wú)關(guān)的特征通道權(quán)重，同時(shí)也改變了通道之間的依賴(lài)性。其結(jié)構(gòu)主要由全局池化層、激活層以及兩個(gè)全連接層構(gòu)成，如圖3所示。

圖3 通道注意力模塊

將融合后的特征圖的通道定義為：

A=[a1,a2,…,an]

(2)

式中，ak∈RH×W，k=1,2,…,n。

輸入特征經(jīng)過(guò)池化和FC得到壓縮，再由Relu激活獲得非線(xiàn)性的性質(zhì)，然后再通過(guò)第二個(gè)FC層恢復(fù)，最后由sigmoid激活。權(quán)值向量可以表示為：

α=[α1,α2,…,αn]

(3)

式中，αk∈RH×W，k=1,2,…,n。

將權(quán)重向量α與原來(lái)的特征向量A相乘，原始的特征向量通道便被賦予了不同的權(quán)重，表示為：

(4)

1.3.2 空間注意力

Non-Local的提出最先被應(yīng)用在圖像識(shí)別任務(wù)上，是一種空間注意力機(jī)制模型，它建立起特征圖上任意兩個(gè)位置之間的聯(lián)系，并且引入殘差連接，使得模型能夠十分方便地在任意一個(gè)預(yù)訓(xùn)練過(guò)的網(wǎng)絡(luò)中嵌入進(jìn)去而無(wú)需改變?cè)瓉?lái)的網(wǎng)絡(luò)結(jié)構(gòu)。在目標(biāo)跟蹤的過(guò)程中，只關(guān)心與跟蹤任務(wù)相關(guān)的區(qū)域，而不關(guān)心無(wú)關(guān)的區(qū)域。因此，不同空間區(qū)域應(yīng)該被賦予不同的權(quán)重。參考上述一模型，該文引入一種空間注意力模塊，首先通過(guò)加權(quán)求和，使得特征圖上的每一個(gè)位置都包含周?chē)形恢玫奶卣餍畔?，然后將原始特征與含有空間位置信息的特征相加，原始特征便被賦予了不同空間位置的權(quán)重，其結(jié)構(gòu)如圖4所示。

圖4 空間注意力模塊

首先，對(duì)輸入的特征圖分別使用三個(gè)1×1的卷積核進(jìn)行卷積。接著通過(guò)三個(gè)變換函數(shù)f(x)、g(x)、h(x)進(jìn)行轉(zhuǎn)換，其表達(dá)式為：

(5)

式中，W1、W2、W3分別表示f(x)、g(x)、h(x)的權(quán)重。將通過(guò)f(x)后的輸出轉(zhuǎn)置后與g(x)的輸出相乘，并用softmax函數(shù)進(jìn)行激活，得到空間注意力圖。它表示任意兩個(gè)位置的相關(guān)程度：

(6)

式中，a和b分別表示圖像上的第a個(gè)像素位置和第b個(gè)像素位置。再將此空間注意力圖與h(x)相乘，輸出結(jié)果乘以權(quán)重系數(shù)β再加上原先輸入的特征，即可得到經(jīng)過(guò)了空間注意力模塊調(diào)整過(guò)后的特征圖。計(jì)算公式為：

(7)

1.4 加權(quán)平均模塊

為進(jìn)一步提高魯棒性，避免模型過(guò)于關(guān)注某個(gè)局部的訓(xùn)練特征，該文采用加權(quán)平均的思想，將兩個(gè)分支的互相關(guān)結(jié)果進(jìn)行一次加權(quán)平均。其中分支一為經(jīng)過(guò)特征融合與注意力機(jī)制后的特征圖的互相關(guān)運(yùn)算結(jié)果，分支二為由MobileNetV2網(wǎng)絡(luò)提取的原始特征圖。計(jì)算公式如下：

f(p,q)=μfm(p,q)+(1-μ)fa(p,q)

(8)

式中，fm為經(jīng)過(guò)特征融合與注意力機(jī)制的互相關(guān)結(jié)果，fa為原始提取的特征互相關(guān)結(jié)果。μ為權(quán)重，文中μ=0.6。

1.5 閾值模板更新

與大多數(shù)的目標(biāo)跟蹤算法類(lèi)似，SiamFC在目標(biāo)的跟蹤過(guò)程中，始終采用第一幀作為模板而不進(jìn)行模板的更新。這是因?yàn)榈谝粠繕?biāo)最準(zhǔn)確的信息，同時(shí)也能大大提升跟蹤的速度。然而，隨著跟蹤時(shí)間的增長(zhǎng)，當(dāng)目標(biāo)因遮擋、光照、運(yùn)動(dòng)等因素出現(xiàn)較大的形變時(shí)，繼續(xù)使用第一幀作為模板則會(huì)導(dǎo)致跟蹤的精度下降，甚至跟蹤失敗。但如果每次都進(jìn)行更新，既增加了運(yùn)算量，降低了目標(biāo)的跟蹤速度，又容易引入噪聲等干擾因素。因此，該文采用一種閾值更新的方式，將得到最終響應(yīng)圖上的最大相似度值后，與設(shè)定閾值進(jìn)行對(duì)比判斷，以決定是否需要對(duì)模板進(jìn)行更新。具體而言，相似度高于閾值，則不進(jìn)行更新，仍采用當(dāng)前模板，繼續(xù)讀取下一幀的數(shù)據(jù)進(jìn)行跟蹤任務(wù)。相似度低于閾值，則進(jìn)行更新，更新方式為用當(dāng)前幀替換模板幀。為了確定合適的閾值，該文將閾值分別設(shè)定為95%、93%、91%、90%、89%、87%、85%并進(jìn)行重復(fù)實(shí)驗(yàn)，記錄相應(yīng)的精確度和成功率，如表1所示。

表1 不同閾值下的跟蹤精確度和成功率

可以看出，將閾值設(shè)定為90%時(shí)，獲得了最高的精確度與成功率。通過(guò)這一機(jī)制，即使目標(biāo)出現(xiàn)了遮擋或者較大的形變，算法依然能較好地跟蹤到目標(biāo)。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 實(shí)驗(yàn)環(huán)境及參數(shù)

該算法的軟件環(huán)境采用Ubuntu18.04搭載pycharm，采用pytorch編程框架驗(yàn)證算法的性能。實(shí)驗(yàn)平臺(tái)配置為Intel Core i7-9750 2.60 GHz CPU和GeForce GTX 2080Ti GPU。算法執(zhí)行的平均速率為32幀每秒，利用在ImageNet數(shù)據(jù)集上預(yù)先訓(xùn)練好的權(quán)重初始化網(wǎng)絡(luò)參數(shù)。

2.2 數(shù)據(jù)和評(píng)估方法

為驗(yàn)證算法的有效性，選取包含各種挑戰(zhàn)性因素的公開(kāi)標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集OTB100進(jìn)行實(shí)驗(yàn)。在測(cè)試序列中從第一幀的基礎(chǔ)真值位置初始化它們，采用距離精度(distance precision，DP)、成功率(success rate，SR)作為實(shí)驗(yàn)的主要評(píng)價(jià)指標(biāo)，計(jì)算公式如下所示。

DP=lDP(CLE≤T0)/l

(9)

式中，lDP表示中心位置誤差小于等于閾值的幀數(shù)，CLE表示預(yù)測(cè)目標(biāo)中心和實(shí)際目標(biāo)中心間的歐氏距離，T0表示閾值像素，一般設(shè)置為T(mén)0=20 px,l表示當(dāng)前視頻序列的總幀數(shù)。

另外，成功率圖曲線(xiàn)下方的面積(AUC)也可用于評(píng)估跟蹤的成功與否，該面積也可用于對(duì)目標(biāo)跟蹤算法進(jìn)行排序，公式如下。

(10)

2.3 定量比較

將該文提出的算法和一些現(xiàn)有算法在OTB100上進(jìn)行對(duì)比，對(duì)比的算法有MOSSE，SRDCF，MDNet，SiamFC，SiamRPN，DaSiamRPN，CFNet，Staple?？梢钥闯觯捎诩尤肓嘶谧⒁饬C(jī)制的特征融合算法以及加權(quán)平均模塊和閾值模板更新模塊，該文提出的算法取得了較好的結(jié)果。跟蹤結(jié)果精度和成功率如圖5所示。

圖5 精度和成功率對(duì)比

圖5顯示了所有比較算法在OTB100上的一遍驗(yàn)證(OPE)的測(cè)試結(jié)果?？梢钥闯?，該文提出的算法均取得了較好的跟蹤精度和成功率，和SiamRPN算法相比較，精度上提升了4.1%，成功率上提升了5.7%?？傮w來(lái)說(shuō)，提出的算法在精度和成功率上都比其他幾種算法優(yōu)越。

2.4 定性比較

為了更好地體現(xiàn)該跟蹤算法的優(yōu)異性能，再次在數(shù)據(jù)集OTB100中選取了一些代表性的視頻序列進(jìn)行測(cè)試，且與不同的算法進(jìn)行對(duì)比，結(jié)果如圖6所示。

綜合上述實(shí)驗(yàn)的對(duì)比結(jié)果，可知該算法對(duì)目標(biāo)在快速運(yùn)動(dòng)、尺度變化、平面內(nèi)旋轉(zhuǎn)以及低分辨率等方面，均展現(xiàn)出優(yōu)越的跟蹤性能。從圖6可以看出，在Human2視頻序列中，目標(biāo)存在運(yùn)動(dòng)模糊和旋轉(zhuǎn)的變化，該算法較其他算法能夠更加準(zhǔn)確地跟蹤目標(biāo)。在Panda視頻序列中可以看出，當(dāng)?shù)头直媛实哪繕?biāo)尺度發(fā)生變化時(shí)，從973幀開(kāi)始，其余算法已經(jīng)跟丟，而由于該文加入了基于注意力機(jī)制的特征融合策略以及閾值模板更新模塊，使得該算法始終能有效地完成跟蹤任務(wù)。

圖6 算法在不同視頻序列的跟蹤結(jié)果

3 結(jié)束語(yǔ)

該文提出的基于孿生網(wǎng)絡(luò)特征融合與閾值更新的跟蹤算法，通過(guò)對(duì)深層網(wǎng)絡(luò)提取到的特征進(jìn)行多層融合，并通過(guò)模板分支的空間與通道的聯(lián)合注意力機(jī)制，使得特征能夠具備多重有效信息，且能更好地關(guān)注于目標(biāo)的關(guān)鍵特征。通過(guò)加權(quán)平均模塊對(duì)分?jǐn)?shù)圖進(jìn)行融合，進(jìn)一步提升模型的性能。閾值模板更新機(jī)制既減少了頻繁更新帶來(lái)的計(jì)算量，又有效避免了跟蹤漂移問(wèn)題，通過(guò)選取不同的閾值進(jìn)行重復(fù)實(shí)驗(yàn)，確定了最優(yōu)閾值。實(shí)驗(yàn)結(jié)果表明，相對(duì)于一些已有算法，該算法在精確度、成功率上均有所提升，展現(xiàn)出了更強(qiáng)的魯棒性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡