徐 亮,張 江,張 晶,2,3,楊亞琦
1(昆明理工大學(xué) 信息工程與自動化學(xué)院,昆明 650500) 2(云南梟潤科技服務(wù)有限公司,昆明 650500) 3(昆明理工大學(xué) 云南省人工智能重點(diǎn)實(shí)驗室,昆明 650500) 4(中國船舶集團(tuán)有限公司第七〇五研究所昆明分部,昆明 650102) 5(云南省市場監(jiān)督管理局,昆明 650228)
目標(biāo)跟蹤在計算機(jī)視覺領(lǐng)域和信息物理融合系統(tǒng)感知層引起了越來越多的關(guān)注[1-3],目標(biāo)跟蹤的相關(guān)研究與機(jī)器學(xué)習(xí)[4]和深度學(xué)習(xí)[5]等學(xué)科有著緊密的聯(lián)系.目標(biāo)跟蹤過程中存在的各種干擾因素使得目標(biāo)跟蹤效果差強(qiáng)人意,為此學(xué)者提出了很多優(yōu)秀的目標(biāo)跟蹤算法,基于生成式模型算法計算后續(xù)幀輸入圖像中搜索區(qū)域圖像與上一幀輸入圖像中目標(biāo)區(qū)域圖像的相似度,搜索區(qū)域圖像中相似度最高的部分作為當(dāng)前幀輸入圖像目標(biāo)區(qū)域圖像,基于生成式模型算法有IVT[6]算法和CSK[7]算法等.基于判別式模型算法區(qū)分目標(biāo)圖像和背景圖像信息后來建立相關(guān)濾波器模板,其進(jìn)行目標(biāo)跟蹤時自適應(yīng)能力更強(qiáng)且跟蹤精度更高,基于判別式模式算法有TLD[8]算法和KCF[9]算法等,以上目標(biāo)跟蹤算法的提出為后續(xù)提高目標(biāo)跟蹤的精度和加快目標(biāo)跟蹤的速率打下了堅定的基礎(chǔ).
目標(biāo)跟蹤過程中由于鏡頭的拉伸或收縮使得跟蹤目標(biāo)的尺寸變大或縮小,就會導(dǎo)致對局部上下文區(qū)域圖像提取的特征圖中無法包含跟蹤目標(biāo)的全部信息,對此Danelljan提出DSST[10]算法,該算法對局部上下文區(qū)域圖像提取單一的HOG特征圖并加入33維度尺度池,解決了目標(biāo)跟蹤過程中跟蹤目標(biāo)尺寸變大或縮小時對局部上下文區(qū)域圖像提取的特征圖中無法包含跟蹤目標(biāo)的全部信息的問題;對局部上下文區(qū)域圖像提取的單一HOG特征圖在復(fù)雜環(huán)境下無法對跟蹤目標(biāo)的外觀信息進(jìn)行準(zhǔn)確描述,對此Li提出SAMF[11]算法,該算法對局部上下文區(qū)域圖像提取多個特征進(jìn)行加權(quán)融合同時加入7維度尺度池進(jìn)行目標(biāo)跟蹤,在大多數(shù)情況下都能對跟蹤目標(biāo)可以實(shí)現(xiàn)準(zhǔn)確的跟蹤.以上相關(guān)濾波目標(biāo)跟蹤算法在圖像模糊和目標(biāo)快速運(yùn)動等復(fù)雜條件下跟蹤效果不是很理想,為此基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)跟蹤算法開始發(fā)揮作用,例如Song提出VITAL[12]算法,該算法使用生成對抗式網(wǎng)絡(luò)獲得當(dāng)前幀輸入圖像中跟蹤目標(biāo)的最魯棒特征和使用高代價敏感損失函數(shù)減小當(dāng)前幀輸入圖像中負(fù)樣本的數(shù)量,從而使得當(dāng)前幀輸入圖像中相關(guān)跟蹤器更加準(zhǔn)確,跟蹤精度得到進(jìn)一步提高;Wang提出SiamMask[13]算法,該算法在孿生網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上加入了跟蹤目標(biāo)分割框架,從而在當(dāng)前幀輸入圖像中對目標(biāo)矩形框進(jìn)行更加準(zhǔn)確的預(yù)測,就可以在局部上下文區(qū)域圖像中對跟蹤目標(biāo)提取更加準(zhǔn)確的信息,目標(biāo)跟蹤精度來到一個新的高度.
相關(guān)濾波目標(biāo)跟蹤算法的跟蹤速率很快,使得目標(biāo)的實(shí)時跟蹤成為可能,但相關(guān)濾波目標(biāo)跟蹤算法的不足是在圖像模糊和跟蹤目標(biāo)快速運(yùn)動等復(fù)雜條件下跟蹤精度不高.通過卷積神經(jīng)網(wǎng)絡(luò)對輸入圖像提取的深度特征泛化能力強(qiáng),能夠很好的表示跟蹤目標(biāo)的外觀和類別,從而大大提高了目標(biāo)跟蹤的精度,但基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)跟蹤算法的不足是提取深度特征時計算復(fù)雜會導(dǎo)致跟蹤速率大大下降,為此本文提出核相關(guān)濾波與孿生網(wǎng)絡(luò)相結(jié)合的目標(biāo)跟蹤算法,核相關(guān)濾波目標(biāo)跟蹤算法對輸入圖像提取單一的HOG特征圖進(jìn)行目標(biāo)跟蹤,在大多數(shù)情況下能夠?qū)崿F(xiàn)對目標(biāo)的準(zhǔn)確跟蹤,同時具有非常高的跟蹤速率,因此若輸入圖像幀數(shù)不為5的倍數(shù)則使用仿射HOG特征圖進(jìn)行目標(biāo)跟蹤從而保證目標(biāo)跟蹤的速率;孿生網(wǎng)絡(luò)[14]對輸入圖像提取目標(biāo)區(qū)域圖像特征圖和搜索區(qū)域圖像特征圖具有很強(qiáng)的特征表達(dá)能力,因此若輸入圖像幀數(shù)為5的倍數(shù)則使用深度特征圖進(jìn)行目標(biāo)位置的更正從而保證目標(biāo)跟蹤的精度.
在卷積神經(jīng)網(wǎng)絡(luò)中全卷積孿生網(wǎng)絡(luò)是一種比較特殊的網(wǎng)絡(luò)結(jié)構(gòu),它由兩個網(wǎng)絡(luò)子結(jié)構(gòu)組成,目標(biāo)區(qū)域圖像對應(yīng)網(wǎng)絡(luò)結(jié)構(gòu)負(fù)責(zé)提取第一幀輸入圖像中目標(biāo)區(qū)域圖像特征,搜索區(qū)域圖像對應(yīng)網(wǎng)絡(luò)結(jié)構(gòu)負(fù)責(zé)提取每一幀輸入圖像中搜索區(qū)域圖像特征,這兩個網(wǎng)絡(luò)子結(jié)構(gòu)具有相同的權(quán)值向量和偏置向量,目標(biāo)區(qū)域圖像和搜索區(qū)域圖像對應(yīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示.
在全卷積孿生網(wǎng)絡(luò)中使用AlexNet網(wǎng)絡(luò)作為圖像特征提取網(wǎng)絡(luò),AlexNet網(wǎng)絡(luò)的具體結(jié)構(gòu)如表1所示.目標(biāo)跟蹤過程中不需要對跟蹤目標(biāo)進(jìn)行分類,也不需要對圖像提取非常深層的特征,如果目標(biāo)區(qū)域圖像在整個輸入圖像中所占比重非常小,對目標(biāo)區(qū)域圖像提取非常深層的特征會使得跟蹤目標(biāo)丟失,所以AlexNet網(wǎng)絡(luò)設(shè)計為五層.在AlexNet網(wǎng)絡(luò)中的第二層、第四層和第五層中將卷積核分為了兩組,卷積核分組的好處就是減少了AlexNet網(wǎng)絡(luò)中參數(shù)的個數(shù);采用最大池化操作來減小特征圖維度的同時提取關(guān)鍵特征,只在第一個和第二個卷積層后面存在最大池化層,因為最大池化層數(shù)量較多時會使得一些關(guān)鍵特征丟失,從而影響目標(biāo)跟蹤的精度;除第五個卷積層外在每一個卷積層后面采用ReLU激活函數(shù),對特征進(jìn)行非線性處理從而使其特征表達(dá)能力更強(qiáng).
圖1 目標(biāo)區(qū)域圖像和搜索區(qū)域圖像對應(yīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Target area image and search area image cresponding netwrok structure
表1 AlexNet網(wǎng)絡(luò)的具體結(jié)構(gòu)Table 1 Speific structure of the AlexNet network
相鄰幀輸入圖像之間具有高度的相關(guān)性,本文算法將跟蹤目標(biāo)在上一幀輸入圖像中的目標(biāo)位置作為先驗信息,人為給定第一幀輸入圖像中目標(biāo)區(qū)域圖像z并將其傳遞給孿生網(wǎng)絡(luò)后提取目標(biāo)區(qū)域圖像特征圖φ(z),后續(xù)幀輸入圖像由跟蹤目標(biāo)在上一幀輸入圖像中的目標(biāo)位置確定搜索區(qū)域圖像x并將其傳遞給全卷積孿生網(wǎng)絡(luò)提取搜索區(qū)域圖像特征圖φ(x),然后兩個特征圖通過相關(guān)卷積操作后得到最終的熱圖f(x,z),整個過程使用如下函數(shù)表達(dá)式表示:
f(x,z)=g(φ(x),φ(z))=φ(x)?φ(z)+b
(1)
上式中特征函數(shù)φ(·)表示使用已經(jīng)訓(xùn)練好的特征提取網(wǎng)絡(luò)對圖像提取深度特征,相似度量函數(shù)g(·)將相關(guān)濾波算法中二維特征圖的二維卷積操作轉(zhuǎn)換為卷積神經(jīng)網(wǎng)絡(luò)中三維特征圖的三維卷積操作,即目標(biāo)區(qū)域圖像特征圖φ(z)在搜索區(qū)域圖像特征圖φ(x)上進(jìn)行滑窗操作,熱圖即搜索區(qū)域圖像中每一個子窗口圖像與目標(biāo)區(qū)域圖像的相似度得分圖,在熱圖中得分越高的位置表明是目標(biāo)區(qū)域的概率越大,b是一個在訓(xùn)練過程中得到的二維矩陣,使得相似度量的結(jié)果更加準(zhǔn)確.
在全卷積孿生網(wǎng)絡(luò)中搜索區(qū)域圖像不需要與目標(biāo)區(qū)域圖像大小相同,可以提供一個更大的搜索區(qū)域圖像作為全卷積孿生網(wǎng)絡(luò)的輸入并計算所有子窗口圖像與目標(biāo)區(qū)域圖像的相似度.輸入大小為255×255的搜索區(qū)域圖像,經(jīng)過池化層的池化操作后得到特征圖的尺寸不斷縮小,與目標(biāo)區(qū)域圖像特征圖進(jìn)行三維卷積操作后最終得到熱圖的大小為17×17,則在當(dāng)前幀輸入圖像中無法獲得跟蹤目標(biāo)的準(zhǔn)確位置,將熱圖采用雙立方插值方式調(diào)整大小為輸入圖像大小從而求得跟蹤目標(biāo)在輸入圖像中的準(zhǔn)確位置.
對輸入圖像中局部上下文區(qū)域圖像進(jìn)行循環(huán)移位后提取HOG特征圖,在跟蹤目標(biāo)沒有發(fā)生尺度變化和旋轉(zhuǎn)變形等干擾因素下HOG特征圖能夠很好的表示跟蹤目標(biāo)的局部形狀信息,在大多數(shù)情況下能夠?qū)崿F(xiàn)對目標(biāo)的準(zhǔn)確跟蹤.但是在目標(biāo)跟蹤過程中跟蹤目標(biāo)發(fā)生尺度變化和旋轉(zhuǎn)變形時對輸入圖像提取的HOG特征泛化能力不強(qiáng)并且特征表達(dá)差異很大,模型和最終相關(guān)濾波器模板更新不準(zhǔn)確,通過HOG特征圖計算得到的目標(biāo)位置不準(zhǔn)確,誤差逐幀累積最終導(dǎo)致目標(biāo)跟蹤失敗,為此我們引入仿射變換以解決目標(biāo)在跟蹤過程中跟蹤目標(biāo)發(fā)生尺度變化和旋轉(zhuǎn)變形時對輸入圖像提取的HOG特征無法準(zhǔn)確描述跟蹤目標(biāo)外觀信息的問題,常用的仿射變換如圖2所示.
圖2 仿射變換示例圖Fig.2 Affine transformation example map
人為給定第一幀輸入圖像中目標(biāo)區(qū)域圖像,將目標(biāo)區(qū)域圖像寬度和高度同時放大2.5倍后的W×H作為局部上下文區(qū)域圖像的寬度和高度,然后對局部上下文區(qū)域圖像提取HOG特征圖并采用線性插值方式將其大小調(diào)整為W/4×H/4后建立第一幀輸入圖像中相關(guān)濾波器模板:
(2)
式(2)中y表示大小為W/4×H/4的高斯標(biāo)簽,x1表示第一幀輸入圖像中大小為W/4×H/4的HOG特征圖,k(x1,x1)表示第一幀輸入圖像中大小為W/4×H/4的HOG特征圖與其自身進(jìn)行核相關(guān)計算得到第一幀輸入圖像中核相關(guān)特征圖,G1表示第一幀輸入圖像中相關(guān)濾波器模板,λ表示正則化參數(shù).
后續(xù)幀輸入圖像中局部上下文區(qū)域圖像,目標(biāo)位置為上一幀輸入圖像中目標(biāo)位置,大小為W×H不變,為了解決目標(biāo)在跟蹤過程中跟蹤目標(biāo)發(fā)生尺度變化和旋轉(zhuǎn)變形時對輸入圖像提取的HOG特征圖無法準(zhǔn)確描述跟蹤目標(biāo)外觀信息的問題,首先對局部上下文區(qū)域圖像進(jìn)行仿射變換,具體仿射變換如下:左右旋轉(zhuǎn)8°、放大10%和縮小10%,在仿真實(shí)驗中發(fā)現(xiàn)進(jìn)行上述仿射變換后能夠很好的解決在目標(biāo)跟蹤過程中跟蹤目標(biāo)發(fā)生尺度變化和旋轉(zhuǎn)變形時這兩個干擾因素導(dǎo)致跟蹤失敗的問題;然后對經(jīng)過仿射變換后的局部上下文區(qū)域圖像提取HOG特征圖并采用線性插值方式將其大小調(diào)整為W/4×H/4后更新相關(guān)濾波器模板:
(3)
式(3)中xt表示當(dāng)前幀輸入圖像中大小為W/4×H/4的仿射變換HOG特征圖,k(xt,xt)表示當(dāng)前幀輸入圖像中大小為W/4×H/4的仿射變換特征圖與其自身進(jìn)行核相關(guān)計算后得到當(dāng)前幀輸入圖像中仿射變換核相關(guān)特征圖,Gt表示當(dāng)前幀輸入圖像中最終相關(guān)濾波器模板,如果為第一幀輸入圖像則相關(guān)濾波器模板即為最終相關(guān)濾波器模板,Gt-1表示上一幀輸入圖像中最終相關(guān)濾波器模板,ρ表示相關(guān)濾波器模板更新參數(shù).
相鄰幀輸入圖像之間具有高度的相關(guān)性,本文算法將跟蹤目標(biāo)在上一幀輸入圖像中的模型和相關(guān)濾波器模板作為先驗信息,第一幀輸入圖像中對局部上下文區(qū)域圖像提取HOG特征圖得到模型W1,后續(xù)幀輸入圖像中對局部上下文區(qū)域圖像提取仿射變換HOG特征圖并與上一幀輸入圖像中模型Wt-1進(jìn)行加權(quán)計算得到模型Wt,當(dāng)前幀輸入圖像中對局部上下文區(qū)域圖像提取的仿射變換HOG特征圖與上一幀輸入圖像中模型Wt-1進(jìn)行核相關(guān)計算得到核相關(guān)模型k(xt,Wt-1),當(dāng)前幀輸入圖像中核相關(guān)模型與上一幀輸入圖像中相關(guān)濾波器模板Gt-1進(jìn)行點(diǎn)乘運(yùn)算得到置信圖f(xt),對當(dāng)前幀輸入圖像中置信圖f(xt)求最大響應(yīng)得到當(dāng)前幀輸入圖像中目標(biāo)位置,整個過程使用如下函數(shù)表達(dá)式表示:
(4)
Wt=(1-ρ)Wt-1+ρxt
(5)
f(xt)=k(xt,Wt-1)·Gt-1
(6)
仿射變換HOG特征圖能夠很好的描述在目標(biāo)跟蹤過程中跟蹤目標(biāo)發(fā)生尺度變化和旋轉(zhuǎn)變形時跟蹤目標(biāo)的外觀信息,進(jìn)一步提高了目標(biāo)跟蹤的精度,但是在目標(biāo)跟蹤過程中當(dāng)跟蹤目標(biāo)被遮擋和目標(biāo)快速運(yùn)動等多種因素干擾時,仿射變換HOG特征圖無法準(zhǔn)確的描述跟蹤目標(biāo)的紋理、顏色和邊緣信息,導(dǎo)致模型和最終相關(guān)濾波器模板更新不準(zhǔn)確,最終獲取的目標(biāo)位置發(fā)生誤差,由于后續(xù)幀輸入圖像將上一幀輸入圖像中目標(biāo)位置作為先驗信息,導(dǎo)致后續(xù)幀輸入圖像中局部上下文區(qū)域圖像含有大量跟蹤目標(biāo)以外的信息,就會導(dǎo)致模型和最終相關(guān)濾波器模板更新越來越不準(zhǔn)確,誤差逐幀累積最終導(dǎo)致跟蹤失敗.
為此我們在目標(biāo)位置發(fā)生誤差時使用全卷積孿生網(wǎng)絡(luò)進(jìn)行目標(biāo)位置的更正,如果輸入圖像幀數(shù)為5的倍數(shù)則對局部上下文區(qū)域圖像采用線性插值方式將其大小調(diào)整為255×255后通過全卷積孿生網(wǎng)絡(luò)提取搜索區(qū)域圖像特征圖,搜索區(qū)域圖像特征圖φ(x)與第一幀輸入圖像中已經(jīng)提取的目標(biāo)區(qū)域圖像特征圖φ(z)進(jìn)行相關(guān)卷積操作后得到最終的熱圖f(x,z),將熱圖中得分最高的位置作為當(dāng)前幀輸入圖像目標(biāo)位置,在仿真實(shí)驗中發(fā)現(xiàn)圖像幀數(shù)每隔5幀使用一次全卷積孿生網(wǎng)絡(luò)進(jìn)行目標(biāo)位置的更正,在保證目標(biāo)跟蹤精度的前提下同時具有最高的跟蹤速率(Frame Per Second,F(xiàn)PS).
使用全卷積孿生網(wǎng)絡(luò)進(jìn)行目標(biāo)位置更正后,對后續(xù)幀輸入圖像中局部上下文區(qū)域圖像提取的仿射變換HOG特征圖含有跟蹤目標(biāo)的大部分信息,可以用其繼續(xù)進(jìn)行目標(biāo)跟蹤并具有較好的跟蹤效果.
目標(biāo)跟蹤過程中跟蹤目標(biāo)被遮擋都是從某一幀輸入圖像開始逐步遮擋的,當(dāng)跟蹤目標(biāo)被遮擋時對該幀輸入圖像中局部上下文區(qū)域圖像提取的仿射變換HOG特征圖含有遮擋物體的大部分信息,用其對模型和最終相關(guān)相關(guān)濾波器模板進(jìn)行更新會使得模型和最終相關(guān)濾波器模板被嚴(yán)重污染,在后續(xù)幀輸入圖像中無法再用其對目標(biāo)進(jìn)行準(zhǔn)確的跟蹤.
相鄰幀輸入圖像之間具有高度的相關(guān)性,對當(dāng)前幀輸入圖像中置信圖求最大響應(yīng)得到的最大響應(yīng)值反應(yīng)了上一幀輸入圖像中最終相關(guān)濾波器模板與當(dāng)前幀輸入圖像中局部上下文區(qū)域圖像的相似程度,如果相鄰兩幀輸入圖像中都沒有出現(xiàn)跟蹤目標(biāo)被遮擋的情況,那么在相鄰兩幀輸入圖像中最大響應(yīng)值變化不大,對當(dāng)前幀輸入圖像中局部上下文區(qū)域圖像提取仿射變換HOG特征圖進(jìn)行目標(biāo)位置的計算時可以以此判斷跟蹤目標(biāo)是否被遮擋:
Hr= Ht-Ht-1
(7)
式(7)中Ht表示當(dāng)前幀輸入圖像中最大響應(yīng)值,Ht-1表示上一幀輸入圖像中最大響應(yīng)值,Hr表示兩者的差值.
當(dāng)Hr≥0.2時表示當(dāng)前幀輸入圖像中跟蹤目標(biāo)很大可能被遮擋,對局部上下文區(qū)域圖像提取的仿射變換HOG特征圖含有大量跟蹤目標(biāo)以外的信息,通過對置信圖求最大響應(yīng)得到的目標(biāo)位置不可信,則將上一幀輸入圖像中目標(biāo)位置作為當(dāng)前幀輸入圖像中目標(biāo)位置,同時當(dāng)前幀輸入圖像中模型和最終相關(guān)濾波器模板不更新.
當(dāng)前幀輸入圖像中搜索區(qū)域圖像特征圖與第一幀輸入圖像中已經(jīng)提取好的目標(biāo)區(qū)域特征圖進(jìn)行相關(guān)卷積操作得到最終的熱圖,對當(dāng)前幀輸入圖像中局部上下文區(qū)域圖像提取搜索區(qū)域圖像特征圖進(jìn)行目標(biāo)位置的更正時可以根據(jù)熱圖中的最高分HS來判斷跟蹤目標(biāo)是否被遮擋,若HS≤0.2則表示當(dāng)前幀輸入圖像中搜索區(qū)域圖像中的每一個子窗口圖像與第一幀輸入圖像中的目標(biāo)區(qū)域圖像相似度都很低,那么跟蹤目標(biāo)很大可能被遮擋,通過對熱圖求最高分得到的目標(biāo)位置不可信,則將上一幀輸入圖像中目標(biāo)位置作為當(dāng)前幀輸入圖像中目標(biāo)位置.
本文算法整體流程如圖3所示.
1)人為給定第一幀輸入圖像中目標(biāo)區(qū)域圖像,然后確定局部上下文區(qū)域圖像后對其提取HOG特征圖并用其進(jìn)行相關(guān)濾波器模板的建立,同時采用線性插值方式將局部上下文區(qū)域圖像大小調(diào)整為127×127后作為目標(biāo)區(qū)域圖像傳遞給全卷積孿生網(wǎng)絡(luò)提取目標(biāo)區(qū)域圖像特征圖;
2)后續(xù)幀輸入圖像中將上一幀輸入圖像中目標(biāo)位置作為先驗信息,如果輸入圖像幀數(shù)不為5的倍數(shù)則對局部上下文圖像提取仿射變換HOG特征圖進(jìn)行目標(biāo)位置的計算,同時加入遮擋處理來自適應(yīng)獲得當(dāng)前幀輸入圖像目標(biāo)位置;如果輸入圖像幀數(shù)為5的倍數(shù)則采用線性插值方式將局部上下文區(qū)域圖像大小調(diào)整為255×255后作為搜索區(qū)域圖像傳遞給全卷積孿生網(wǎng)絡(luò)提取搜索區(qū)域圖像特征圖進(jìn)行目標(biāo)位置的更正,同時加入遮擋處理來自適應(yīng)獲得當(dāng)前幀輸入圖像目標(biāo)位置;
圖3 核相關(guān)濾波與孿生網(wǎng)絡(luò)相結(jié)合的目標(biāo)跟蹤算法流程圖Fig.3 Target tracking algorithm combining kernel correaltion filter and siamese network flow chart
3)根據(jù)遮擋處理的結(jié)果自適應(yīng)更新模型和最終相關(guān)濾波器模板;
4)重復(fù)步驟2和步驟3,直到最后一幀輸入圖像.
為了驗證本文算的跟蹤精度和跟蹤速率,本文算法與CSK算法、SAMF算法、TLD算法、DSST算法和KCF算法進(jìn)行對比分析.測試視頻序列為OBT50[15],實(shí)驗平臺為Windows 10操作系統(tǒng)、Matlab2016a、Visual Stadio 2015和CUDA9.0,使用Matconvnet工具包開發(fā)卷積神經(jīng)網(wǎng)絡(luò),硬件環(huán)境為GTX1060顯卡和i7-8750處理器,在Matlab2016a上完成代碼的編寫和仿真實(shí)驗.
為了全面評估本文算法的性能,本文使用距離誤差成功率、重疊度成功率和跟蹤速率作為跟蹤結(jié)果的評估指標(biāo).
1)距離誤差是跟蹤算法輸出目標(biāo)位置與人工給定目標(biāo)位置的距離,距離誤差成功率是距離誤差小于距離誤差閾值時在某一個視頻序列中的圖像數(shù)量與該視頻序列中所有圖像數(shù)量的比值.
2)重疊度是跟蹤算法輸出目標(biāo)區(qū)域和人工給定目標(biāo)區(qū)域的重疊面積與跟蹤算法輸出目標(biāo)區(qū)域和人工給定目標(biāo)區(qū)域的面積之和的比值,重疊度成功率是重疊度大于重疊度閾值時在某一個視頻序列中的的圖像數(shù)量與該視頻序列中所有圖像數(shù)量的的比值.
3)跟蹤速率是跟蹤算法在1秒內(nèi)可以跟蹤的圖像幀數(shù).
從圖4和圖5中可以看出本文算法對于跟蹤目標(biāo)在各種干擾因素下的跟蹤精度超過當(dāng)前主流相關(guān)濾波跟蹤算法,說明了圖像幀數(shù)每隔5幀使用一次全卷積孿生網(wǎng)絡(luò)進(jìn)行目標(biāo)位置的更正和根據(jù)遮擋處理的結(jié)果自適應(yīng)獲得當(dāng)前幀輸入圖像目標(biāo)位置并自適應(yīng)更新模型和最終相關(guān)濾波器模板的算法是有效的.
圖4 不同算法在OTB50數(shù)據(jù)集上距離誤差成功率曲線圖Fig.4 Distance error success rate graph of diffenent algorithm on OTB50 dataset
圖5 不同算法在OTB50數(shù)據(jù)集上重疊度成功率曲線圖Fig.5 Overlap success rate graph of diffenent algorithm on OTB50 dataset
在保證目標(biāo)跟蹤精度的前提下同時具有較高跟蹤速率的算法是優(yōu)秀的,表2是本文算法與對比算法在OTB50數(shù)據(jù)集上平均跟蹤速率,從表2和圖4以及圖5中數(shù)據(jù)我們知道CSK算法的平均跟蹤速率最快但跟蹤精度最低,說明CSK算法在某些干擾因素下無法對跟蹤目標(biāo)形成有效的跟蹤;KCF算法的平均跟蹤速率次之且在一定干擾因素下能夠準(zhǔn)確的跟蹤目標(biāo);由于本文算法要與其余5種相關(guān)濾波目標(biāo)跟蹤算法進(jìn)行對比,因此本文算法對輸入圖像幀數(shù)為{n|n∈[1,5]}的倍數(shù)局部上下文區(qū)域圖像提取搜索區(qū)域圖像特征圖進(jìn)行目標(biāo)位置的更正時跟蹤精度都是最高的,隨著n的增大跟蹤精度會下降,但跟蹤速率會加快;本文算法對輸入圖像幀數(shù)為{n|n≥6}的倍數(shù)局部上下文區(qū)域圖像提取搜索區(qū)域圖像特征圖進(jìn)行目標(biāo)位置的更正時跟蹤精度不再是最高的,所以本文算法選擇對輸入圖像幀數(shù)為5的倍數(shù)的局部上下文區(qū)域圖像提取搜索區(qū)域圖像特征圖進(jìn)行目標(biāo)位置的更正時平均跟蹤速率位于第三位但在各種干擾因素下的跟蹤精度最高.本文算法的平均跟蹤速率位于第三位但相比于剩余算法而言仍然很快,說明本文算法在各種干擾因素下能夠?qū)崿F(xiàn)對目標(biāo)的準(zhǔn)確跟蹤并且在保證目標(biāo)跟蹤精度的前提下具有滿足跟蹤目標(biāo)實(shí)時跟蹤要求的跟蹤速率.
表2 不同算法在OTB50數(shù)據(jù)集上的平均跟蹤速率(frame/s)Table 2 Average tracking rate of defferent algorithm on OTB50 dataset(frame/s)
圖6 不同算法在OTB50數(shù)據(jù)集上的部分視頻序列實(shí)驗結(jié)果Fig.6 Experimental results of partial video sequences of different algorithm on OTB50 dataset
圖6為本文算法與對比算法在OTB50數(shù)據(jù)集上部分測試視頻序列的實(shí)驗結(jié)果.針對目標(biāo)被遮擋我們選用圖6(a)視頻序列,在該視頻序列中被跟蹤目標(biāo)是一輛運(yùn)行的汽車,當(dāng)汽車被樹木遮擋后本文算法依然能夠準(zhǔn)確的跟蹤目標(biāo),說明本文算法中根據(jù)遮擋處理的結(jié)果自適應(yīng)獲得當(dāng)前幀輸入圖像目標(biāo)位置是有效的.針對跟蹤目標(biāo)尺寸變大或縮小我們選用圖6(b)視頻序列,在該視頻序列中被跟蹤目標(biāo)是一只玩具狗,當(dāng)玩具狗尺寸變大或縮小時本文算法可以對其進(jìn)行準(zhǔn)確的跟蹤,說明本文算法中對局部上下文區(qū)域圖像提取仿射變換HOG特征圖進(jìn)行目標(biāo)跟蹤的策略是可行的.針對目標(biāo)快速運(yùn)動我們選用圖6(c)視頻序列,在該視頻序列中被跟蹤目標(biāo)是一個正在跳繩的男孩,男孩在快速跳繩過程中本文算法始終能夠準(zhǔn)確追蹤到跳繩男孩的臉部,說明本文算法能夠很好的解決目標(biāo)快速運(yùn)動這一干擾因素.針對光照變化我們選用圖6(d)視頻序列,在該視頻序列中被跟蹤目標(biāo)是一位歌手,歌手在唱歌過程中光照強(qiáng)度發(fā)生變化后本文算法能夠?qū)庹諒?qiáng)度變化這一干擾因素進(jìn)行有效處理并準(zhǔn)確跟蹤到歌手的臉部.針對目標(biāo)旋轉(zhuǎn)我們選用圖6(e)視頻序列,在該視頻序列中被跟蹤目標(biāo)是一輛運(yùn)行的摩托車,摩托車在快速旋轉(zhuǎn)過程中其余算法無法準(zhǔn)確跟蹤摩托車,本文算法能夠?qū)焖傩D(zhuǎn)這一干擾因素進(jìn)行有效處理并對摩托車進(jìn)行準(zhǔn)確的跟蹤.
在目標(biāo)跟蹤過程中保證目標(biāo)跟蹤精度的同時加快跟蹤速率,本文提出了一種核相關(guān)濾波與孿生網(wǎng)絡(luò)相結(jié)合的目標(biāo)跟蹤算法,若輸入圖像幀數(shù)不為5的倍數(shù)則對局部上下文區(qū)域圖像提取仿射變換HOG特征圖進(jìn)行目標(biāo)位置的計算,同時加入遮擋處理來自適應(yīng)獲得當(dāng)前幀輸入圖像目標(biāo)位置;若輸入圖像幀數(shù)為5的倍數(shù)則對局部上下文區(qū)域圖像提取搜索區(qū)域圖像特征圖進(jìn)行目標(biāo)位置的更正,同時加入遮擋處理來自適應(yīng)獲得當(dāng)前幀輸入圖像目標(biāo)位置,針對遮擋處理的結(jié)果自適應(yīng)更新模型和最終相關(guān)濾波器模板.在仿真實(shí)驗中發(fā)現(xiàn)本文算法在各種干擾因素下能夠?qū)崿F(xiàn)對跟蹤目標(biāo)的準(zhǔn)確跟蹤,在保證目標(biāo)跟蹤精度的前提下具有滿足跟蹤目標(biāo)實(shí)時跟蹤要求的跟蹤速率,如何進(jìn)一步提高跟蹤速率是后面工作的重點(diǎn).