張騰飛,周書仁,彭 建
(長沙理工大學(xué) a.綜合交通運(yùn)輸大數(shù)據(jù)智能處理湖南省重點(diǎn)實(shí)驗(yàn)室; b.計(jì)算機(jī)與通信工程學(xué)院,長沙 410114)
目標(biāo)跟蹤是計(jì)算機(jī)視覺和模式識(shí)別領(lǐng)域的研究熱點(diǎn)之一,得到了廣泛關(guān)注與應(yīng)用。在智能交通系統(tǒng)中,相機(jī)與無人機(jī)的自動(dòng)跟蹤拍攝、人機(jī)智能交互系統(tǒng)都需要應(yīng)用目標(biāo)跟蹤方法。雖然近年來目標(biāo)跟蹤方法取得了快速的發(fā)展,但是物體被遮擋、目標(biāo)發(fā)生嚴(yán)重形變、目標(biāo)運(yùn)動(dòng)速度過快、光照尺度變化和背景干擾等因素導(dǎo)致的目標(biāo)跟蹤系統(tǒng)魯棒性低和實(shí)時(shí)性差等問題依然存在[1]。
現(xiàn)有目標(biāo)跟蹤方法可以分為生成模型方法和判別模型方法兩類[2]。生成模型方法在當(dāng)前幀對(duì)目標(biāo)區(qū)域進(jìn)行建模,運(yùn)用生成模型描述目標(biāo)區(qū)域的表觀特征,在后續(xù)幀中進(jìn)行目標(biāo)預(yù)測(cè),從而尋找到與目標(biāo)最為相似的區(qū)域。該類方法的典型代表有卡爾曼濾波[3]、粒子濾波[4]和Mean-Shift算法[5]等。判別模型方法通過訓(xùn)練分類器來區(qū)分背景和目標(biāo),這種方法也被稱作檢測(cè)跟蹤模型。判別模型由于旨在區(qū)分一幀中的目標(biāo)和背景,因此,其具有更強(qiáng)的魯棒性,得到了廣泛應(yīng)用。經(jīng)典的判別模型方法有CT[6]和TLD[7]等算法。文獻(xiàn)[8]通過多次連續(xù)蒙特卡羅采樣得到最優(yōu)目標(biāo)區(qū)域,利用子塊遮擋比例自適應(yīng)調(diào)節(jié)學(xué)習(xí)速率,從而解決了時(shí)空上下文跟蹤易漂移和遮擋敏感的問題。目前,多數(shù)基于深度學(xué)習(xí)的方法均在判別式框架的范疇內(nèi)。文獻(xiàn)[9]提出了全卷積的孿生網(wǎng)絡(luò)SiamFC。SiamFC的優(yōu)點(diǎn)在于將跟蹤任務(wù)轉(zhuǎn)化為檢測(cè)匹配的過程,通過比較目標(biāo)幀和模板幀圖片的相似度,計(jì)算出相似度最大的位置,從而得到目標(biāo)在模板幀中的位置。CFNet[10]通過為低級(jí)別的CNN引入相關(guān)濾波,將相關(guān)濾波看作CNN網(wǎng)絡(luò)中的一層,以提高跟蹤速度并保證跟蹤精度。文獻(xiàn)[11]提出的SINT結(jié)合光流信息,取得了更好的跟蹤性能,然而,其引入光流信息導(dǎo)致了跟蹤速度緩慢,不能達(dá)到實(shí)時(shí)的要求。文獻(xiàn)[12]提出的SA-Siam雙孿生網(wǎng)絡(luò),在SiamFC的基礎(chǔ)上加入了語義分支,其能夠提高跟蹤精度但降低了跟蹤的速度。
為進(jìn)一步提高跟蹤速度,本文提出一種基于雙孿生網(wǎng)絡(luò)的自適應(yīng)選擇跟蹤方法ASTS。系統(tǒng)自動(dòng)判斷目標(biāo)幀信息,在簡單幀中只運(yùn)用外觀信息進(jìn)行判斷,復(fù)雜幀權(quán)重確定則結(jié)合語義信息和外觀信息。在OTB2013/50/100[13]和VOT2017數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),以驗(yàn)證該方法的跟蹤性能與魯棒性。
全卷積孿生網(wǎng)絡(luò)的提出在跟蹤領(lǐng)域具有重大意義。孿生網(wǎng)絡(luò)在訓(xùn)練集ImageNet2015上進(jìn)行離線訓(xùn)練,得到相似度匹配函數(shù),在跟蹤過程中,通過模板相似度比較得到相似度最大的位置。具體地,以第1幀為模板圖像,用以在后續(xù)255×255的搜索圖像中匹配定位127×127的模板圖像z。通過離線訓(xùn)練出的相似度函數(shù)將模板圖像z與搜索圖像x中相同大小的候選區(qū)域進(jìn)行比較。經(jīng)過卷積得到最后的得分圖,其中,目標(biāo)區(qū)域會(huì)得到高分,非目標(biāo)區(qū)域會(huì)得到低分。相似度函數(shù)為:
Fl(z,x)=φl(z)*φl(x)+v
(1)
ASTS方法的總系統(tǒng)框圖如圖1所示。ASTS由外觀信息與語義信息2個(gè)分支組成。系統(tǒng)網(wǎng)絡(luò)的輸入是視頻第1幀經(jīng)人工標(biāo)記的目標(biāo)真實(shí)位置和當(dāng)前幀裁剪出的目標(biāo)搜索區(qū)域。其中,z和zg分別表示目標(biāo)和目標(biāo)周圍環(huán)境,x表示搜索區(qū)域。x和zg尺寸相同,都為Wg×Hg,z的尺寸為Wt×Ht×3,其中,Wt 圖1 基于雙孿生網(wǎng)絡(luò)的自適應(yīng)選擇跟蹤系統(tǒng) 系統(tǒng)外觀分支的輸入為目標(biāo)區(qū)域z和搜索區(qū)域x。系統(tǒng)外觀分支并非一個(gè)簡單的孿生網(wǎng)絡(luò),而是加入了深度Q學(xué)習(xí)網(wǎng)絡(luò)[14]。和EAST不同的是,外觀分支P中最后2層卷積層covn4和covn5沒有Q網(wǎng)絡(luò)則不會(huì)提前停止,原因是covn4和covn5層屬于深層的網(wǎng)絡(luò)信息,語義分支會(huì)較好地處理,因此,網(wǎng)絡(luò)不會(huì)在最后2層提前停止。 在外觀分支P中執(zhí)行提前停止的過程被認(rèn)為是一個(gè)馬爾可夫決策過程(Markov Decision Process,MDP)。本文通過深度強(qiáng)化學(xué)習(xí)訓(xùn)練一個(gè)有效的決策網(wǎng)絡(luò)(Agent)[15]。通過訓(xùn)練決策網(wǎng)絡(luò)能夠?qū)W習(xí)動(dòng)作(Action)和判斷狀態(tài)(State),得到提前停止標(biāo)準(zhǔn)從而提前停止網(wǎng)絡(luò)。決策網(wǎng)絡(luò)可以跨過特征層進(jìn)行一系列的操作,比如判斷將何時(shí)執(zhí)行停止或者進(jìn)入下一層,以及如何有效地對(duì)邊界框進(jìn)行變形。 在強(qiáng)化學(xué)習(xí)過程中,馬爾可夫決策過程分為一組動(dòng)作A、一組狀態(tài)S和獎(jiǎng)勵(lì)函數(shù)R。在第n(n<4)層,決策網(wǎng)絡(luò)檢查當(dāng)前狀態(tài)Sn,然后決定動(dòng)作An是停止并輸出還是對(duì)邊界框進(jìn)行移動(dòng)變形以進(jìn)入下一層,同時(shí)獲得正面或負(fù)面的反饋獎(jiǎng)勵(lì)并反映當(dāng)前框?qū)δ繕?biāo)的覆蓋程度,以及動(dòng)作停止前所執(zhí)行的步驟。 1)動(dòng)作:動(dòng)作集A通過驗(yàn)證設(shè)置為6個(gè)不同的縮放動(dòng)作和一個(gè)停止動(dòng)作,如圖2所示??s放動(dòng)作包括整體縮小和整體放大2個(gè)全局動(dòng)作變換以及4個(gè)改變寬高的局部動(dòng)作變換。每個(gè)邊界框由坐標(biāo)b=[x1,x2,y1,y2]表示,每次轉(zhuǎn)換動(dòng)作都會(huì)通過式(2)對(duì)邊界框進(jìn)行離散變換。 圖2 馬爾可夫決策中的動(dòng)作說明 αw=α*(x2-x1) αh=α*(y2-y1) (2) 通過對(duì)x坐標(biāo)(y坐標(biāo))加上或者減去αw(αh)來進(jìn)行變換,與文獻(xiàn)[15]相同,本文取α=0.2。 2)狀態(tài):狀態(tài)是當(dāng)前層的得分圖和歷史層得分圖的平均值Fn和采取動(dòng)作的歷史向量hn組成的二元組,這種結(jié)構(gòu)將會(huì)使系統(tǒng)更加魯棒。歷史向量跟蹤hn包含了3次歷史動(dòng)作,每個(gè)動(dòng)作又是7維的矢量,則h∈R21。 3)獎(jiǎng)勵(lì):獎(jiǎng)勵(lì)函數(shù)R在采取特定動(dòng)作后,該機(jī)制定位物體的提升為正反饋。所設(shè)定的提升標(biāo)準(zhǔn)通過計(jì)算預(yù)測(cè)的目標(biāo)矩形框與手動(dòng)標(biāo)記的目標(biāo)矩形框的交叉聯(lián)合(Intersection-over-Union,IoU)來衡量。IoU定義為: (3) 其中,b為預(yù)測(cè)的目標(biāo)框面積,Rg為目標(biāo)實(shí)際所在的位置。獎(jiǎng)勵(lì)函數(shù)通過一個(gè)狀態(tài)到另一個(gè)狀態(tài)的IoU差別來估計(jì),即當(dāng)決策網(wǎng)絡(luò)執(zhí)行動(dòng)作A、狀態(tài)從Sn轉(zhuǎn)到Sn+1時(shí),每個(gè)狀態(tài)S都有一個(gè)相關(guān)的矩形框b,則獎(jiǎng)勵(lì)函數(shù)為: R(Sn,Sn+1)=sign(IoU(bn+1,Rg)-IoU(bn,Rg)) (4) 從式(4)可以看出,若IoU變大,則獎(jiǎng)勵(lì)為正(+1);反之,獎(jiǎng)勵(lì)就為負(fù)(-1)。式(4)適用于所有轉(zhuǎn)換矩形框的動(dòng)作,通過這種方式獎(jiǎng)勵(lì)正向的變化,直到?jīng)]有更好的動(dòng)作來使定位更精確或者到達(dá)卷積層第3層。停止動(dòng)作擁有異于其他動(dòng)作的獎(jiǎng)勵(lì)函數(shù)。根據(jù)文獻(xiàn)[14]可得: (5) 最后,本文應(yīng)用文獻(xiàn)[14]的深度Q強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)來學(xué)習(xí)行動(dòng)值函數(shù)。 系統(tǒng)語義分支的輸入為目標(biāo)周圍環(huán)境zg和搜索區(qū)域x,本文直接使用在圖像分類任務(wù)中已經(jīng)訓(xùn)練好的AlexNet[16]作為語義分支,在訓(xùn)練和測(cè)試期間確定所有參數(shù)。網(wǎng)絡(luò)中用conv4和conv5最后2個(gè)卷積層的特征作為輸出,并在特征提取后插入一個(gè)1×1的卷積層進(jìn)行特征融合,這樣做的目的是使語義分支網(wǎng)絡(luò)能夠更好地進(jìn)行相關(guān)操作,并且提高跟蹤精度。外觀分支G的輸出表示為: Fg(zg,x)=corr(f(φg(zg)),f(φg(x))) (6) 其中,corr(·,·)表示相關(guān)操作,f(·)表示特征融合,φ(·)表示級(jí)聯(lián)的多層特征。 訓(xùn)練期間2個(gè)網(wǎng)絡(luò)完全單獨(dú)分開訓(xùn)練,互不干擾,跟蹤時(shí)才對(duì)2個(gè)網(wǎng)絡(luò)進(jìn)行選擇性疊加。跟蹤期間,在一串連續(xù)的跟蹤序列中,幀與幀之間存在大量的相似幀,相比目標(biāo)幀,這些幀圖片的目標(biāo)形變較小、周圍環(huán)境語義信息變換不明顯。這些幀只利用外觀分支較淺層的特征信息跟蹤器就能很好地對(duì)目標(biāo)進(jìn)行跟蹤,這時(shí)如果完全考慮2個(gè)分支,則會(huì)使跟蹤速度減慢,因此,針對(duì)變換不明顯語義信息的簡單幀,語義分支完全可以忽略。同時(shí)在較淺層的網(wǎng)絡(luò)中,空間的分辨率較高,但特征的語義信息較少,隨著網(wǎng)絡(luò)的加深,從深層網(wǎng)絡(luò)中提取到的特征語義信息會(huì)比較豐富,但是會(huì)導(dǎo)致空間的分辨率降低,不利于目標(biāo)定位與跟蹤。因此,在外觀分支上淺層的信息能夠更好地跟蹤目標(biāo),定位出目標(biāo)所在位置。 在外觀分支中,讓網(wǎng)絡(luò)通過訓(xùn)練好的深度強(qiáng)化學(xué)習(xí)Q網(wǎng)絡(luò)來選擇合適的停止層,既能夠增加跟蹤器的跟蹤速度,又能很好地利用淺層網(wǎng)絡(luò)空間分辨率高的特性定位出目標(biāo),提高跟蹤性能。在變化較大的復(fù)雜幀中,外觀分支不會(huì)提前停止,能夠提取到目標(biāo)更豐富的特征信息,得到的特征與語義分支提取到的特征進(jìn)行疊加能夠更準(zhǔn)確地定位出目標(biāo)的位置,使跟蹤器在速度與性能之間得到平衡。當(dāng)外觀網(wǎng)絡(luò)提前停止時(shí),則外觀分支對(duì)整體網(wǎng)絡(luò)作反饋,語義分支的占比為0,完全由外觀分支輸出;當(dāng)外觀網(wǎng)絡(luò)沒有提前停止時(shí),將上述2個(gè)網(wǎng)絡(luò)得到的相關(guān)系數(shù)得分圖按一定比例進(jìn)行疊加,即: (7) 其中,τ代表外觀分支對(duì)整體網(wǎng)絡(luò)的反饋,λ是平衡2個(gè)分支重要性的加權(quán)參數(shù),其可以通過實(shí)驗(yàn)來取值,F(zg,x)表示被跟蹤的目標(biāo)位置。 本文在MatConvNet庫[17]上進(jìn)行仿真,實(shí)驗(yàn)環(huán)境為Ubuntu 4.8.2 系統(tǒng),Intel(R) Xeon(R) CPU E5-2670 v3 @ 2.3 GHz四核處理器,配備有NVIDIA GeForce GTX TITAN X GPU,在OTB50、OTB100、OTB2013和VOT2017基準(zhǔn)上分別進(jìn)行實(shí)驗(yàn)。 采用2015年版Imagenet大規(guī)模視頻識(shí)別挑戰(zhàn)(ILSVRC)[18]的視頻數(shù)據(jù)集進(jìn)行訓(xùn)練,該數(shù)據(jù)集包含約4 500個(gè)視頻,接近一百萬個(gè)注釋幀。具體地,在訓(xùn)練過程中,隨機(jī)地從數(shù)據(jù)集同一個(gè)視頻中選取兩幀,對(duì)其中一幀裁剪出以z為中心的zg,從另一幀中裁剪出以人工標(biāo)注目標(biāo)為中心的x。目標(biāo)圖像z大小為127×127×3,對(duì)大小為255×255×3像素的搜索區(qū)域圖像x進(jìn)行搜索,并且外觀分支網(wǎng)絡(luò)的zg與x具有相同的大小,最終的輸出都為17×17維。學(xué)習(xí)率設(shè)定為10-4。經(jīng)過實(shí)驗(yàn)得出,當(dāng)外觀網(wǎng)絡(luò)沒有提前停止,即返回值τ為1時(shí),當(dāng)λ為0.36時(shí)系統(tǒng)性能最佳。 OTB包含OTB50、OTB100、OTB2013 3個(gè)數(shù)據(jù)集[13]。OTB數(shù)據(jù)集中的序列分為遮擋、比例變化、快速運(yùn)動(dòng)和平面內(nèi)旋轉(zhuǎn)等11個(gè)不同的注釋屬性,OTB一般有2個(gè)評(píng)估標(biāo)準(zhǔn),分別是成功率和精確度。對(duì)于每一幀,計(jì)算跟蹤矩形框與人工標(biāo)注的目標(biāo)框邊界的IoU以及它們中心位置的距離,采用跟蹤成功率與精確度來評(píng)估跟蹤器。 本文在OTB50、OTB100、OTB2013 3個(gè)基準(zhǔn)數(shù)據(jù)集上對(duì)SiamFC[9]、CFNet[10]、SINT[19]、Staple[20]、EAST[21]及本文系統(tǒng)6個(gè)跟蹤器進(jìn)行評(píng)估,結(jié)果如表1所示,最好的結(jié)果用加粗表示。從表1可以看出,在OTB2013基準(zhǔn)下,ASTS具有最佳的性能,其AUC(Area-Under-Curve)達(dá)到了0.657,超出孿生網(wǎng)絡(luò)SiamFC跟蹤器0.050。雖然SINT的AUC也達(dá)到了0.655,但是SINT并非一個(gè)實(shí)時(shí)的跟蹤器,其跟蹤速度只有4.0 FPS。在OTB50基準(zhǔn)下,EAST跟蹤器雖然達(dá)到了高速的148 FPS,ASTS的AUC也只比其高出0.001,但在OTB2013和OTB100中,ASTS跟蹤器的AUC分別高出EAST約0.019和0.013。OTB100是OTB50的擴(kuò)充,因此,其更具有挑戰(zhàn)性。本文ASTS跟蹤器在OTB100基準(zhǔn)中AUC依然保持在0.644,比OTB50基準(zhǔn)中更高。而在OTB2013中表現(xiàn)良好的SINT跟蹤器,在更多的測(cè)試中其AUC不夠穩(wěn)定。 表1 OTB基準(zhǔn)下的評(píng)估結(jié)果 VOT測(cè)試基準(zhǔn)擁有多個(gè)不同的版本,最新的版本有VOT2015[22]、VOT2016[23]和VOT2107[24]。VOT2015和VOT2016擁有相同的序列,但是VOT2016中的人工標(biāo)注標(biāo)簽比VOT2015更加準(zhǔn)確。由于VOT2016中的部分標(biāo)簽已經(jīng)能夠被多數(shù)跟蹤器準(zhǔn)確跟蹤,因此VOT2017將VOT2016中的10個(gè)序列替換為新的序列,但依然保持總體序列屬性分布不變。本文應(yīng)用VOT2017作為評(píng)測(cè)基準(zhǔn)。VOT基準(zhǔn)主要的評(píng)測(cè)指標(biāo)為平均重疊期望(Expected Average Overlap,EAO)、準(zhǔn)確率(Accuracy,A)、魯棒性(Robustness,R)。一個(gè)性能良好的跟蹤器應(yīng)該有較高的準(zhǔn)確率和平均重疊期望分?jǐn)?shù),但魯棒性較低。 在VOT2017基準(zhǔn)下對(duì)ECOhc[25]、Staple[20]、SiamFC[9]、SA-Siam[12]和ASTS進(jìn)行比較,結(jié)果如表2所示,其中量化展示了5個(gè)跟蹤器的平均重疊期望、準(zhǔn)確率、魯棒性和跟蹤速度。從表2可以看出,ASTS的平均重疊期望為0.227,略低于ECOhc,但ASTS具有速度優(yōu)勢(shì),準(zhǔn)確率達(dá)到0.527,高于ECOhc跟蹤器。在準(zhǔn)確率方面,ASTS跟蹤器表現(xiàn)最優(yōu)異,高于SA-Siam約0.02。在跟蹤速度方面,ASTS最高達(dá)到了97.0 FPS。在魯棒性方面,ASTS表現(xiàn)不如ECOhc,同樣是因?yàn)镋COhc在速度方面做出了巨大犧牲,但本文方法的魯棒性均優(yōu)于其他跟蹤器。 表2 VOT2017基準(zhǔn)下的評(píng)估結(jié)果 圖3所示為均值漂移算法[5]、SiamFC、CT、Staple和ASTS的跟蹤實(shí)驗(yàn)結(jié)果,可以看出,除本文ASTS方法外,其他方法都發(fā)生了不同程度的漂移現(xiàn)象。 圖3 5種跟蹤器的跟蹤結(jié)果比較 本文提出一種基于雙孿生網(wǎng)絡(luò)的自適應(yīng)選擇跟蹤方法ASTS。2個(gè)孿生網(wǎng)絡(luò)分別負(fù)責(zé)語義信息和外觀信息,在外觀分支上加入自動(dòng)停止操作,當(dāng)在簡單幀時(shí)自動(dòng)停止網(wǎng)絡(luò)向前傳播,此時(shí)不再與語義信息相結(jié)合從而提高跟蹤速度,在復(fù)雜幀時(shí),孿生網(wǎng)絡(luò)的速度優(yōu)勢(shì)使得ASTS方法同樣取得了較高的跟蹤速度。實(shí)驗(yàn)結(jié)果驗(yàn)證了ASTS方法的高效性與高準(zhǔn)確率。下一步將探究更好的注意力機(jī)制,并將深度特征與HOG特征進(jìn)行融合,以提高本文方法的跟蹤性能。2.1 系統(tǒng)外觀分支
2.2 系統(tǒng)語義分支
2.3 雙孿生自適應(yīng)網(wǎng)絡(luò)
3 實(shí)驗(yàn)結(jié)果與分析
3.1 OTB基準(zhǔn)實(shí)驗(yàn)
3.2 VOT基準(zhǔn)實(shí)驗(yàn)
4 結(jié)束語