秦琪 韓旭明 長(zhǎng)春工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院
計(jì)算機(jī)視覺是當(dāng)今人工智能研究的主要方向之一,其中的目標(biāo)跟蹤任務(wù)也由于其廣泛的應(yīng)用前景備受人們關(guān)注,在機(jī)器人視覺、超市防損、各種體育競(jìng)技等領(lǐng)域有廣泛的應(yīng)用。該任務(wù)需要在視頻的第一幀中確定目標(biāo)對(duì)象,在后續(xù)幀中使用跟蹤框描述目標(biāo)的位置。目標(biāo)跟蹤方法有最初的傳統(tǒng)光流法,相關(guān)濾波方法,和深度學(xué)習(xí)方法。其中,基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤方法一經(jīng)推出,便取得了遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)方法的效果。
孿生網(wǎng)絡(luò)是用來衡量?jī)蓚€(gè)輸入之間的相似程度,兩個(gè)輸入經(jīng)過完全相同的神經(jīng)網(wǎng)絡(luò),得到兩個(gè)新空間的表示。計(jì)算兩個(gè)特征的相似性,判斷跟蹤的正確性。
Bertinetto等提出的全卷積孿生網(wǎng)絡(luò)(Fully-Convolutional Siamese Networks for Object Tracking,SiamFC),把跟蹤問題轉(zhuǎn)化成一個(gè)匹配問題,離線訓(xùn)練了一個(gè)全卷積網(wǎng)絡(luò),使深度學(xué)習(xí)方法真正達(dá)到了實(shí)時(shí)效果。Li等提出的區(qū)域提議孿生網(wǎng)絡(luò)(High Performance Visual Tracking with Siamese Region Proposal Network,SiamRPN),在全卷積孿生網(wǎng)絡(luò)的基礎(chǔ)上,融合了檢測(cè)領(lǐng)域的區(qū)域推薦網(wǎng)絡(luò),在網(wǎng)絡(luò)的后面添加的RPN結(jié)構(gòu)可以回歸目標(biāo)的位置。Wang等提出的快速在線目標(biāo)跟蹤與分割(Fast Online Object Tracking and Segmentation: A Unifying Approach,SiamMask)方法,在原有的網(wǎng)絡(luò)基礎(chǔ)上添加了一個(gè)掩膜分支,進(jìn)一步提升了跟蹤的準(zhǔn)確性。
綜上所述,基于孿生網(wǎng)絡(luò)架構(gòu)的跟蹤方法能夠在離線訓(xùn)練的前提下,達(dá)到實(shí)時(shí)跟蹤的效果。但現(xiàn)有的方法還是需要在第一幀圖片里人工選取目標(biāo),這樣的操作不可避免得會(huì)將部分背景信息包含進(jìn)來,而這些背景信息又不能被神經(jīng)網(wǎng)絡(luò)充分利用,反而會(huì)對(duì)后續(xù)的跟蹤產(chǎn)生干擾。
針對(duì)基于孿生網(wǎng)絡(luò)架構(gòu)的跟蹤方法出現(xiàn)的上述問題,本文對(duì)快速在線目標(biāo)跟蹤與分割方法進(jìn)行了改進(jìn):在目標(biāo)模板圖像產(chǎn)生的過程中,添加一個(gè)圖像分割網(wǎng)絡(luò),將目標(biāo)對(duì)象分割出來,通過填充操作,生成新的目標(biāo)模板圖像用于跟蹤。為驗(yàn)證方法的有效性,在多個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示,背景消除對(duì)于跟蹤效果有很好的提升。
SiamFC網(wǎng)絡(luò)架構(gòu)共有兩個(gè)輸入分支:一個(gè)是模板圖像z,另一個(gè)是搜索圖像x。是用于提取圖像特征的卷積網(wǎng)絡(luò)。提取的特征經(jīng)過一次互相關(guān)操作,得到兩個(gè)輸入的相似度響應(yīng)圖,如公式1所示。
SiamRPN在SiamFC的基礎(chǔ)上,將模板圖像和搜索圖像的特征進(jìn)行升維操作,使網(wǎng)絡(luò)能夠從多個(gè)尺度對(duì)目標(biāo)圖像與搜索圖像進(jìn)行細(xì)粒度的匹配。并添加了一個(gè)回歸分支,通過對(duì)邊界框的回歸計(jì)算,得到更加精確的位置估計(jì)。
SiamMask方法重新定義了目標(biāo)跟蹤任務(wù),認(rèn)為跟蹤過程中的旋轉(zhuǎn)矩形框本質(zhì)上是目標(biāo)掩膜的一種近似,通過添加分割掩膜分支,相比于SiamFC和SiamRPN,SiamMask能夠更好的應(yīng)對(duì)物體旋轉(zhuǎn)等形變問題。
孿生網(wǎng)絡(luò)架構(gòu)中,模板圖片與搜索圖片分別產(chǎn)生各自對(duì)應(yīng)的特征,然后進(jìn)行互相關(guān)操作,生成目標(biāo)特征與搜索圖片特征的響應(yīng)圖,圖中最高值的位置即為目標(biāo)的位置。
SiamMask將跟蹤與分割任務(wù)統(tǒng)一,使用互相關(guān)操作后的響應(yīng)圖,做分類與分割兩個(gè)任務(wù)。針對(duì)目標(biāo)模板圖像包含背景信息的問題,在孿生網(wǎng)絡(luò)的框架基礎(chǔ)之上,添加了目標(biāo)模板的分割操作。通過一個(gè)分割網(wǎng)絡(luò),將目標(biāo)模板中的目標(biāo)與背景區(qū)分開來,使用單一顏色進(jìn)行填充背景,生成新的目標(biāo)模板參與孿生網(wǎng)絡(luò)的特征提取。
為了驗(yàn)證提前分割目標(biāo)模板圖像方法的有效性,在原有的SiamMask實(shí)驗(yàn)代碼基礎(chǔ)上,添加了分割網(wǎng)絡(luò)。網(wǎng)絡(luò)參數(shù)使用預(yù)訓(xùn)練好的模型參數(shù),數(shù)據(jù)集使用的是VOT2016和VOT2018標(biāo)準(zhǔn)數(shù)據(jù)集,并分別針對(duì)準(zhǔn)確度(Accuracy)和速度(speed)兩個(gè)指標(biāo)做了比較。實(shí)驗(yàn)結(jié)果如表1所示:
表1 添加分割操作前后測(cè)試結(jié)果對(duì)比
實(shí)驗(yàn)結(jié)果的對(duì)比顯示,加入分割模塊后,跟蹤的效果得到了較小的提升,這是因?yàn)榉指罹W(wǎng)絡(luò)也占據(jù)了部分計(jì)算過程。但是驗(yàn)證了方法的可行性,模板背景的消除確實(shí)起到了一定的積極作用。后續(xù)可以采用更快的分割網(wǎng)絡(luò),進(jìn)一步加快跟蹤的速度。
本文介紹了目標(biāo)跟蹤任務(wù)以及孿生網(wǎng)絡(luò)的跟蹤方法,針對(duì)背景干擾問題,采用圖像分割的方法,消除目標(biāo)圖像中的背景信息,加強(qiáng)在孿生網(wǎng)絡(luò)跟蹤過程中的效果。實(shí)驗(yàn)驗(yàn)證了方法的有效性和可行性。