劉 洋,楊小軍
(長(zhǎng)安大學(xué) 信息工程學(xué)院,陜西 西安 710064)
計(jì)算機(jī)視覺(jué)已經(jīng)發(fā)展了很多年,視頻目標(biāo)跟蹤作為其中十分火熱的課題之一,在現(xiàn)實(shí)生活中應(yīng)用廣泛[1]。其主要任務(wù)是通過(guò)第一幀中給出的目標(biāo)的初始信息(一般以矩形框表示),在后續(xù)幀中自動(dòng)輸出目標(biāo)的參數(shù)信息[2]。在實(shí)際跟蹤過(guò)程中,仍存在著諸多難點(diǎn),例如背景相似、光照變化、嚴(yán)重遮擋以及目標(biāo)姿態(tài)變化等,這些都會(huì)導(dǎo)致跟蹤精度下降[3]。早期目標(biāo)跟蹤領(lǐng)域采用的算法可歸結(jié)為傳統(tǒng)目標(biāo)跟蹤算法,它通常使用生成式模型,以卡爾曼濾波[4]、粒子濾波[5]、Meanshift算法[6]、Camshift[7]算法和光流法[8]等為代表。隨著相關(guān)濾波研究的發(fā)展,出現(xiàn)了基于相關(guān)濾波器的跟蹤算法,使傳統(tǒng)的時(shí)域計(jì)算變?yōu)轭l域計(jì)算,大大減少了計(jì)算量,有效提升了跟蹤速度。2010年,MOSSE利用目標(biāo)的特征來(lái)訓(xùn)練濾波器,對(duì)下一視頻幀濾波[9]。CSK在此基礎(chǔ)上加入了循環(huán)矩陣和核函數(shù),大大提高了跟蹤速度[10]。隨后,KCF引入HOG特征(梯度顏色直方圖)來(lái)表征運(yùn)動(dòng)目標(biāo)的紋理特征和形狀特征[11],成為相關(guān)濾波最為經(jīng)典的算法。2013年后,深度學(xué)習(xí)領(lǐng)域逐漸火熱,基于該領(lǐng)域的算法得到空前發(fā)展。DLT率先采用“預(yù)訓(xùn)練+微調(diào)”的方式,解決了訓(xùn)練樣本過(guò)少的問(wèn)題[12]。2016年,L.Bertinett等提出了十分具有代表性的SiamFC算法,該算法采用權(quán)值共享的兩條孿生結(jié)構(gòu),通過(guò)度量相似性來(lái)進(jìn)行目標(biāo)跟蹤[13],使得跟蹤速度得到空前提高。Li等人提出的SiameseRPN首次將RPN的思想融入目標(biāo)跟蹤,避免了SiamFC中多尺度測(cè)試的問(wèn)題,實(shí)現(xiàn)了非常高的跟蹤速度和精度[14]。之后,針對(duì)深層網(wǎng)絡(luò)會(huì)使得跟蹤精度下降的問(wèn)題,SiamRPN++通過(guò)實(shí)驗(yàn)表明其原因在于破壞了網(wǎng)絡(luò)的空間不變性,并通過(guò)引入均勻分布采樣這一策略,訓(xùn)練出了基于殘差網(wǎng)絡(luò)Resnet的追蹤器[15]。Wang等提出的SiamMask通過(guò)增加分割分支,使得普通的目標(biāo)跟蹤框架可實(shí)現(xiàn)實(shí)時(shí)分割[16]。雖然SiamFC顯著提高了深度學(xué)習(xí)方法跟蹤器的跟蹤速度,但在復(fù)雜場(chǎng)景下仍然無(wú)法較好地適應(yīng)目標(biāo)和背景信息的變化,當(dāng)目標(biāo)發(fā)生嚴(yán)重形變或者目標(biāo)附近出現(xiàn)干擾時(shí),跟蹤的精度會(huì)大大降低。
針對(duì)以上問(wèn)題,該文提出一種基于注意力機(jī)制的融合特征跟蹤算法,并引入加權(quán)平均模塊和閾值模板更新模塊。該算法延續(xù)了SiamFC的基本框架,將淺層的AlexNet[17]替換為深層網(wǎng)絡(luò)MobileNetV2,在獲取更深層特征信息的同時(shí),盡可能減少參數(shù)量。同時(shí)由深至淺進(jìn)行多層特征融合,使得語(yǔ)義特征與表觀特征進(jìn)行互補(bǔ),解決復(fù)雜背景中目標(biāo)與背景相似以及目標(biāo)快速移動(dòng)所導(dǎo)致定位不足的問(wèn)題。模板分支的特征通過(guò)注意力機(jī)制模塊,突出目標(biāo)特征的重要信息。再將融合并通過(guò)注意力機(jī)制后的特征向量的互相關(guān)結(jié)果與原始提取的特征向量的互相關(guān)結(jié)果進(jìn)行加權(quán)平均獲得響應(yīng)圖,進(jìn)一步提升模型的魯棒性。最后,比較相似度分?jǐn)?shù)與設(shè)定的閾值大小來(lái)判斷是否需要模板更新,并通過(guò)實(shí)驗(yàn)找到了更新的最佳閾值。在OTB100數(shù)據(jù)集上的實(shí)驗(yàn)表明,該算法在面對(duì)各種具有挑戰(zhàn)因素的視頻序列時(shí)仍能取得較好的跟蹤效果,具有良好的魯棒性。
算法的整體框架如圖1所示。模板分支與搜索分支由兩條權(quán)值共享的卷積神經(jīng)網(wǎng)絡(luò)組成。使用改進(jìn)后的MobileNetV2作為特征提取網(wǎng)絡(luò),并對(duì)第三、五、七個(gè)BottleNeck提取到的特征進(jìn)行自適應(yīng)融合,使得特征同時(shí)具備深層與淺層的信息。模板分支的特征通過(guò)注意力機(jī)制模塊,突出目標(biāo)的關(guān)鍵特征。引入加權(quán)平均模塊,將經(jīng)過(guò)融合與增強(qiáng)后的特征的卷積結(jié)果與原始的特征卷積結(jié)果進(jìn)行權(quán)值為u的加權(quán)平均,得到最終的響應(yīng)分?jǐn)?shù)圖。最后,比較相似度與閾值的大小,根據(jù)比較結(jié)果進(jìn)行模板更新,并利用重復(fù)實(shí)驗(yàn)的辦法,找到最優(yōu)的閾值。
圖1 算法整體結(jié)構(gòu)
1.2.1 特征提取網(wǎng)絡(luò)
MobileNet是由谷歌提出的一系列輕量級(jí)的神經(jīng)網(wǎng)絡(luò),采用深度可分離卷積操作(deep-wise)替代原來(lái)的傳統(tǒng)3D卷積,大大地減少了運(yùn)算量。該文使用MobileNetV2替換原先較淺的AlexNet,以獲得更深層的語(yǔ)義信息,并對(duì)網(wǎng)絡(luò)結(jié)構(gòu)做出改進(jìn),平衡參數(shù)規(guī)模與特征豐富度,適應(yīng)該跟蹤任務(wù)。
MobileNetV2由三個(gè)卷積層、一個(gè)池化層和七個(gè)卷積區(qū)(BottleNeck)組成。針對(duì)目標(biāo)跟蹤的任務(wù)特點(diǎn),去掉了最后一個(gè)卷積區(qū)后面的兩個(gè)卷積層和池化層,保留提取初級(jí)圖像特征的常規(guī)卷積層。
高維tensor可以獲取更豐富的特性信息,而低維tensor能帶來(lái)更小的計(jì)算量。MobileNetV2采用一種反向殘差結(jié)構(gòu),以較小的計(jì)算量取得了較好的性能,很好地平衡了速度與精度的問(wèn)題,其結(jié)構(gòu)如圖2所示。首先,通過(guò)Expansion Layer層擴(kuò)張維度,之后進(jìn)行深度可分離卷積運(yùn)算,再由Projection Layer降維,使得網(wǎng)絡(luò)重新變小。使用Relu6作為激活函數(shù)是為了在低精度的計(jì)算下也能獲得高數(shù)值分辨率,而最后一層降維使用線(xiàn)性激活函數(shù)是為了防止小于0的元素經(jīng)特征提取后丟失信息。
1.2.2 特征融合
深層特征和淺層特征包含的信息是不同的。在對(duì)一些屬性相同但表現(xiàn)差異較大的目標(biāo)進(jìn)行跟蹤時(shí),若僅采用深層特征,則會(huì)缺乏位置信息,導(dǎo)致對(duì)快速移動(dòng)的目標(biāo)定位能力不足,從而導(dǎo)致跟蹤精度下降。因此,為了提高算法的準(zhǔn)確性,該文抽取第三、五、七個(gè)BottleNeck的特征,由深至淺,采用雙線(xiàn)性插值公式,將深層提取的小分辨率特征圖進(jìn)行擴(kuò)大,逐步地完成特征融合。雙線(xiàn)性插值公式為:
(1)
注意力機(jī)制的引入在計(jì)算機(jī)視覺(jué)領(lǐng)域大獲成功。該文參考由胡杰等人在2017年Image分類(lèi)比賽中提出的SENet(Squeeze and Excitation Net)模型,以及X.Wang等人提出的Non-Local模型,分別設(shè)計(jì)出通道注意力模塊與空間注意力模塊,對(duì)模板分支上的融合特征進(jìn)行空間和通道上的加權(quán),進(jìn)一步提升模型的判別能力。由于搜索域含有大量無(wú)關(guān)信息,加入注意力模塊易導(dǎo)致模型對(duì)某些無(wú)關(guān)特征過(guò)度關(guān)注從而降低模型的普適性,故只在模板分支加入。
1.3.1 通道注意力
不同的通道是從不同的角度對(duì)目標(biāo)的信息構(gòu)建特征,因此各通道的重要程度并不相同。SENet算法提出一種壓縮激勵(lì)模型,使得各個(gè)通道之間產(chǎn)生依賴(lài)關(guān)系,網(wǎng)絡(luò)通過(guò)自適應(yīng)學(xué)習(xí),對(duì)基于通道的特征響應(yīng)進(jìn)行重新校準(zhǔn),提高了網(wǎng)絡(luò)的表達(dá)能力。參照這一模型,該文引入了一種通道注意力機(jī)制模塊,加強(qiáng)與目標(biāo)物體相關(guān)的特征通道權(quán)重,降低無(wú)關(guān)的特征通道權(quán)重,同時(shí)也改變了通道之間的依賴(lài)性。其結(jié)構(gòu)主要由全局池化層、激活層以及兩個(gè)全連接層構(gòu)成,如圖3所示。
圖3 通道注意力模塊
將融合后的特征圖的通道定義為:
A=[a1,a2,…,an]
(2)
式中,ak∈RH×W,k=1,2,…,n。
輸入特征經(jīng)過(guò)池化和FC得到壓縮,再由Relu激活獲得非線(xiàn)性的性質(zhì),然后再通過(guò)第二個(gè)FC層恢復(fù),最后由sigmoid激活。權(quán)值向量可以表示為:
α=[α1,α2,…,αn]
(3)
式中,αk∈RH×W,k=1,2,…,n。
將權(quán)重向量α與原來(lái)的特征向量A相乘,原始的特征向量通道便被賦予了不同的權(quán)重,表示為:
(4)
1.3.2 空間注意力
Non-Local的提出最先被應(yīng)用在圖像識(shí)別任務(wù)上,是一種空間注意力機(jī)制模型,它建立起特征圖上任意兩個(gè)位置之間的聯(lián)系,并且引入殘差連接,使得模型能夠十分方便地在任意一個(gè)預(yù)訓(xùn)練過(guò)的網(wǎng)絡(luò)中嵌入進(jìn)去而無(wú)需改變?cè)瓉?lái)的網(wǎng)絡(luò)結(jié)構(gòu)。在目標(biāo)跟蹤的過(guò)程中,只關(guān)心與跟蹤任務(wù)相關(guān)的區(qū)域,而不關(guān)心無(wú)關(guān)的區(qū)域。因此,不同空間區(qū)域應(yīng)該被賦予不同的權(quán)重。參考上述一模型,該文引入一種空間注意力模塊,首先通過(guò)加權(quán)求和,使得特征圖上的每一個(gè)位置都包含周?chē)形恢玫奶卣餍畔?,然后將原始特征與含有空間位置信息的特征相加,原始特征便被賦予了不同空間位置的權(quán)重,其結(jié)構(gòu)如圖4所示。
圖4 空間注意力模塊
首先,對(duì)輸入的特征圖分別使用三個(gè)1×1的卷積核進(jìn)行卷積。接著通過(guò)三個(gè)變換函數(shù)f(x)、g(x)、h(x)進(jìn)行轉(zhuǎn)換,其表達(dá)式為:
(5)
式中,W1、W2、W3分別表示f(x)、g(x)、h(x)的權(quán)重。將通過(guò)f(x)后的輸出轉(zhuǎn)置后與g(x)的輸出相乘,并用softmax函數(shù)進(jìn)行激活,得到空間注意力圖。它表示任意兩個(gè)位置的相關(guān)程度:
(6)
式中,a和b分別表示圖像上的第a個(gè)像素位置和第b個(gè)像素位置。再將此空間注意力圖與h(x)相乘,輸出結(jié)果乘以權(quán)重系數(shù)β再加上原先輸入的特征,即可得到經(jīng)過(guò)了空間注意力模塊調(diào)整過(guò)后的特征圖。計(jì)算公式為:
(7)
為進(jìn)一步提高魯棒性,避免模型過(guò)于關(guān)注某個(gè)局部的訓(xùn)練特征,該文采用加權(quán)平均的思想,將兩個(gè)分支的互相關(guān)結(jié)果進(jìn)行一次加權(quán)平均。其中分支一為經(jīng)過(guò)特征融合與注意力機(jī)制后的特征圖的互相關(guān)運(yùn)算結(jié)果,分支二為由MobileNetV2網(wǎng)絡(luò)提取的原始特征圖。計(jì)算公式如下:
f(p,q)=μfm(p,q)+(1-μ)fa(p,q)
(8)
式中,fm為經(jīng)過(guò)特征融合與注意力機(jī)制的互相關(guān)結(jié)果,fa為原始提取的特征互相關(guān)結(jié)果。μ為權(quán)重,文中μ=0.6。
與大多數(shù)的目標(biāo)跟蹤算法類(lèi)似,SiamFC在目標(biāo)的跟蹤過(guò)程中,始終采用第一幀作為模板而不進(jìn)行模板的更新。這是因?yàn)榈谝粠繕?biāo)最準(zhǔn)確的信息,同時(shí)也能大大提升跟蹤的速度。然而,隨著跟蹤時(shí)間的增長(zhǎng),當(dāng)目標(biāo)因遮擋、光照、運(yùn)動(dòng)等因素出現(xiàn)較大的形變時(shí),繼續(xù)使用第一幀作為模板則會(huì)導(dǎo)致跟蹤的精度下降,甚至跟蹤失敗。但如果每次都進(jìn)行更新,既增加了運(yùn)算量,降低了目標(biāo)的跟蹤速度,又容易引入噪聲等干擾因素。因此,該文采用一種閾值更新的方式,將得到最終響應(yīng)圖上的最大相似度值后,與設(shè)定閾值進(jìn)行對(duì)比判斷,以決定是否需要對(duì)模板進(jìn)行更新。具體而言,相似度高于閾值,則不進(jìn)行更新,仍采用當(dāng)前模板,繼續(xù)讀取下一幀的數(shù)據(jù)進(jìn)行跟蹤任務(wù)。相似度低于閾值,則進(jìn)行更新,更新方式為用當(dāng)前幀替換模板幀。為了確定合適的閾值,該文將閾值分別設(shè)定為95%、93%、91%、90%、89%、87%、85%并進(jìn)行重復(fù)實(shí)驗(yàn),記錄相應(yīng)的精確度和成功率,如表1所示。
表1 不同閾值下的跟蹤精確度和成功率
可以看出,將閾值設(shè)定為90%時(shí),獲得了最高的精確度與成功率。通過(guò)這一機(jī)制,即使目標(biāo)出現(xiàn)了遮擋或者較大的形變,算法依然能較好地跟蹤到目標(biāo)。
該算法的軟件環(huán)境采用Ubuntu18.04搭載pycharm,采用pytorch編程框架驗(yàn)證算法的性能。實(shí)驗(yàn)平臺(tái)配置為Intel Core i7-9750 2.60 GHz CPU和GeForce GTX 2080Ti GPU。算法執(zhí)行的平均速率為32幀每秒,利用在ImageNet數(shù)據(jù)集上預(yù)先訓(xùn)練好的權(quán)重初始化網(wǎng)絡(luò)參數(shù)。
為驗(yàn)證算法的有效性,選取包含各種挑戰(zhàn)性因素的公開(kāi)標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集OTB100進(jìn)行實(shí)驗(yàn)。在測(cè)試序列中從第一幀的基礎(chǔ)真值位置初始化它們,采用距離精度(distance precision,DP)、成功率(success rate,SR)作為實(shí)驗(yàn)的主要評(píng)價(jià)指標(biāo),計(jì)算公式如下所示。
DP=lDP(CLE≤T0)/l
(9)
式中,lDP表示中心位置誤差小于等于閾值的幀數(shù),CLE表示預(yù)測(cè)目標(biāo)中心和實(shí)際目標(biāo)中心間的歐氏距離,T0表示閾值像素,一般設(shè)置為T(mén)0=20 px,l表示當(dāng)前視頻序列的總幀數(shù)。
另外,成功率圖曲線(xiàn)下方的面積(AUC)也可用于評(píng)估跟蹤的成功與否,該面積也可用于對(duì)目標(biāo)跟蹤算法進(jìn)行排序,公式如下。
(10)
將該文提出的算法和一些現(xiàn)有算法在OTB100上進(jìn)行對(duì)比,對(duì)比的算法有MOSSE,SRDCF,MDNet,SiamFC,SiamRPN,DaSiamRPN,CFNet,Staple??梢钥闯觯捎诩尤肓嘶谧⒁饬C(jī)制的特征融合算法以及加權(quán)平均模塊和閾值模板更新模塊,該文提出的算法取得了較好的結(jié)果。跟蹤結(jié)果精度和成功率如圖5所示。
圖5 精度和成功率對(duì)比
圖5顯示了所有比較算法在OTB100上的一遍驗(yàn)證(OPE)的測(cè)試結(jié)果??梢钥闯?,該文提出的算法均取得了較好的跟蹤精度和成功率,和SiamRPN算法相比較,精度上提升了4.1%,成功率上提升了5.7%??傮w來(lái)說(shuō),提出的算法在精度和成功率上都比其他幾種算法優(yōu)越。
為了更好地體現(xiàn)該跟蹤算法的優(yōu)異性能,再次在數(shù)據(jù)集OTB100中選取了一些代表性的視頻序列進(jìn)行測(cè)試,且與不同的算法進(jìn)行對(duì)比,結(jié)果如圖6所示。
綜合上述實(shí)驗(yàn)的對(duì)比結(jié)果,可知該算法對(duì)目標(biāo)在快速運(yùn)動(dòng)、尺度變化、平面內(nèi)旋轉(zhuǎn)以及低分辨率等方面,均展現(xiàn)出優(yōu)越的跟蹤性能。從圖6可以看出,在Human2視頻序列中,目標(biāo)存在運(yùn)動(dòng)模糊和旋轉(zhuǎn)的變化,該算法較其他算法能夠更加準(zhǔn)確地跟蹤目標(biāo)。在Panda視頻序列中可以看出,當(dāng)?shù)头直媛实哪繕?biāo)尺度發(fā)生變化時(shí),從973幀開(kāi)始,其余算法已經(jīng)跟丟,而由于該文加入了基于注意力機(jī)制的特征融合策略以及閾值模板更新模塊,使得該算法始終能有效地完成跟蹤任務(wù)。
圖6 算法在不同視頻序列的跟蹤結(jié)果
該文提出的基于孿生網(wǎng)絡(luò)特征融合與閾值更新的跟蹤算法,通過(guò)對(duì)深層網(wǎng)絡(luò)提取到的特征進(jìn)行多層融合,并通過(guò)模板分支的空間與通道的聯(lián)合注意力機(jī)制,使得特征能夠具備多重有效信息,且能更好地關(guān)注于目標(biāo)的關(guān)鍵特征。通過(guò)加權(quán)平均模塊對(duì)分?jǐn)?shù)圖進(jìn)行融合,進(jìn)一步提升模型的性能。閾值模板更新機(jī)制既減少了頻繁更新帶來(lái)的計(jì)算量,又有效避免了跟蹤漂移問(wèn)題,通過(guò)選取不同的閾值進(jìn)行重復(fù)實(shí)驗(yàn),確定了最優(yōu)閾值。實(shí)驗(yàn)結(jié)果表明,相對(duì)于一些已有算法,該算法在精確度、成功率上均有所提升,展現(xiàn)出了更強(qiáng)的魯棒性。