梁浩東
摘要:目前針對(duì)端到端可訓(xùn)練計(jì)算機(jī)視覺(jué)系統(tǒng)的努力對(duì)視覺(jué)跟蹤的任務(wù)提出了重大挑戰(zhàn)。為了端到端的訓(xùn)練,因此需要將目標(biāo)模型的在線學(xué)習(xí)嵌入到跟蹤架構(gòu)本身中。由于這些困難,流行的孿生范例只是預(yù)測(cè)目標(biāo)特征模板。然而,由于無(wú)法整合背景信息,這種模型具有有限的辨別力。我們的架構(gòu)源于判別性學(xué)習(xí)損失,通過(guò)設(shè)計(jì)專門的優(yōu)化過(guò)程,只需幾次迭代即可預(yù)測(cè)強(qiáng)大的模型。
關(guān)鍵詞:判別模型;目標(biāo)跟蹤研究
中圖分類號(hào):TP391.1文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1672-9129(2020)14-0018-01
1引言
目前大多數(shù)方法通過(guò)構(gòu)建目標(biāo)模型來(lái)解決跟蹤問(wèn)題,能夠區(qū)分目標(biāo)和背景外觀。由于目標(biāo)特定信息僅在測(cè)試時(shí)可用,因此無(wú)法在離線訓(xùn)練階段學(xué)習(xí)目標(biāo)模型,例如物體檢測(cè)。相反,必須通過(guò)利用在測(cè)試時(shí)給出的目標(biāo)信息在推理階段本身構(gòu)建目標(biāo)模型。在追求端到端學(xué)習(xí)解決方案時(shí),視覺(jué)跟蹤問(wèn)題的這種非常規(guī)性質(zhì)帶來(lái)了重大挑戰(zhàn)。
上述問(wèn)題成功地通過(guò)孿生學(xué)習(xí)范式得到解決。這些方法首先學(xué)習(xí)特征嵌入,其中兩個(gè)圖像區(qū)域之間的相似性通過(guò)簡(jiǎn)單的互相關(guān)來(lái)計(jì)算。然后通過(guò)找到與目標(biāo)模板最相似的圖像區(qū)域來(lái)執(zhí)行跟蹤。在此設(shè)置中,目標(biāo)模型僅對(duì)應(yīng)于從目標(biāo)區(qū)域提取的模板特征。因此,可以使用成對(duì)的注釋圖像輕松地對(duì)端到端訓(xùn)練跟蹤器。本文方法集成了一個(gè)模塊,該模塊可以有效地初始化目標(biāo)模型。此外,通過(guò)學(xué)習(xí)判別損失本身,將極大的靈活性引入了最終架構(gòu)。
近年來(lái),隨著各種方法的發(fā)展,通用對(duì)象跟蹤經(jīng)歷了驚人的進(jìn)步。最近,基于Siamese網(wǎng)絡(luò)的方法由于其端到端的訓(xùn)練能力和高效率而備受關(guān)注。該名稱源于部署Siamese網(wǎng)絡(luò)架構(gòu)以學(xué)習(xí)相似性度量離線。
2方法
在這項(xiàng)工作中,我們開(kāi)發(fā)了一種用于視覺(jué)跟蹤的判別模型預(yù)測(cè)架構(gòu)。與Siamese跟蹤器一樣,我們的方法受益于端到端訓(xùn)練。但是,與Siamese不同,我們的架構(gòu)可以充分利用背景信息,并提供用新數(shù)據(jù)更新目標(biāo)模型的自然而強(qiáng)大的方法。我們的模型預(yù)測(cè)網(wǎng)絡(luò)源于兩個(gè)主要原則:(i)能夠?qū)W習(xí)可靠目標(biāo)模型的判別損失函數(shù);(ii)確??焖偈諗康膹?qiáng)大優(yōu)化策略。通過(guò)如此精心的設(shè)計(jì),我們的架構(gòu)僅需幾次迭代即可預(yù)測(cè)目標(biāo)模型,而不會(huì)損害其判別能力。
與最近的最新技術(shù)相似,我們的網(wǎng)絡(luò)由兩個(gè)分支組成:用于將目標(biāo)與背景區(qū)分開(kāi)的目標(biāo)分類分支,以及用于預(yù)測(cè)準(zhǔn)確目標(biāo)框的邊界框估計(jì)分支。兩個(gè)分支都從公共骨干網(wǎng)輸入深層功能。目標(biāo)分類分支包含一個(gè)卷積塊,提取卷積器在其上進(jìn)行操作的特征。給定一組訓(xùn)練樣本和相應(yīng)的目標(biāo)框,模型預(yù)測(cè)器將生成目標(biāo)分類器的權(quán)重。然后將這些權(quán)重應(yīng)用于從測(cè)試幀中提取的特征,以計(jì)算目標(biāo)置信度得分。對(duì)于邊界框估計(jì)分支,我們利用最近引入的基于重疊最大化的體系結(jié)構(gòu)。它預(yù)測(cè)目標(biāo)和一組建議框之間的聯(lián)合交叉(IoU)重疊。整個(gè)跟蹤網(wǎng)絡(luò),包括目標(biāo)分類,邊界框估計(jì)和骨干模塊,都在跟蹤數(shù)據(jù)集中進(jìn)行了離線學(xué)習(xí)。
2.1判別性學(xué)習(xí)損失。從基于最小二乘回歸的跟蹤問(wèn)題中汲取了靈感,該問(wèn)題的研究工作在最近幾年取得了巨大的成功。但是,在這項(xiàng)工作中,我們概括了應(yīng)用于多個(gè)方向跟蹤的常規(guī)最小二乘損失,使最終的跟蹤網(wǎng)絡(luò)可以從數(shù)據(jù)中學(xué)習(xí)最佳損失。然而,簡(jiǎn)單地在概括損失中求差將迫使模型對(duì)所有負(fù)樣本回歸校準(zhǔn)的置信度得分,通常為零。這需要大量的模型能力,需要學(xué)習(xí)將重點(diǎn)放在負(fù)面數(shù)據(jù)樣本上,而不是獲得最佳的判別能力。
為了減輕后一種數(shù)據(jù)不平衡的問(wèn)題,我們使用空間權(quán)重函數(shù)vc。下標(biāo)c表示對(duì)目標(biāo)中心位置的依賴性。為了解決第一個(gè)問(wèn)題,我們按照支持向量機(jī)的原理修改了損失,我們?cè)趓中采用了類似鉸鏈的損失,將背景區(qū)域中的分?jǐn)?shù)作為max(0,s)。因此,該模型可以自由地為背景中的簡(jiǎn)單樣本預(yù)測(cè)較大的負(fù)值,而不會(huì)增加損失。另一方面,對(duì)于目標(biāo)區(qū)域,發(fā)現(xiàn)添加類似的鉸鏈損耗max(0,1-s)是不利的。盡管是矛盾的,但這種行為可以歸因于目標(biāo)和背景類別之間的基本不對(duì)稱,部分原因是數(shù)值上的不平衡。而且,在跟蹤情況下,例如,精確校準(zhǔn)的目標(biāo)置信度確實(shí)是有利的。因此,我們希望在目標(biāo)鄰域中使用標(biāo)準(zhǔn)最小二乘回歸的特性。
2.2初始濾波器。為了進(jìn)一步減少所需的優(yōu)化遞歸次數(shù),引入了一個(gè)經(jīng)過(guò)訓(xùn)練以預(yù)測(cè)初始模型估計(jì)f(0)的小型網(wǎng)絡(luò)模塊。我們的初始化程序網(wǎng)絡(luò)由一個(gè)卷積層和一個(gè)精確的ROI池組成。后者從目標(biāo)區(qū)域中提取特征并將其合并到與目標(biāo)模型f相同的大小。然后將合并的特征圖對(duì)Strain中的所有樣本求平均,以獲得初始模型f(0)。在暹羅方法中,使用圖像對(duì)來(lái)訓(xùn)練網(wǎng)絡(luò),其中一個(gè)圖像用于預(yù)測(cè)目標(biāo)模板,另一個(gè)用于評(píng)估跟蹤器。此模型預(yù)測(cè)網(wǎng)絡(luò)D從序列中輸入一組包含多個(gè)數(shù)據(jù)樣本的Strain。
2.3在線跟蹤。給定帶有注釋的第一幀,采用數(shù)據(jù)增強(qiáng)策略來(lái)構(gòu)建包含15個(gè)樣本的初始集合Strain。然后使用我們的判別模型預(yù)測(cè)架構(gòu)f =D(Strain)獲得目標(biāo)模型。對(duì)于第一幀,在初始化模塊之后采用10個(gè)最陡峭的下降遞歸。只要有足夠的置信度來(lái)預(yù)測(cè)目標(biāo),此方法就可以通過(guò)向Strain添加新的訓(xùn)練樣本來(lái)輕松更新目標(biāo)模型。通過(guò)丟棄最初的樣本來(lái)確保最大內(nèi)存容量為50。在跟蹤過(guò)程中,通過(guò)每20幀執(zhí)行兩次優(yōu)化器遞歸,或在檢測(cè)到干擾波峰時(shí)執(zhí)行一次遞歸來(lái)細(xì)化目標(biāo)模型f。
3實(shí)驗(yàn)驗(yàn)證
在這里,通過(guò)一次次地添加判別性學(xué)習(xí)體系結(jié)構(gòu)的關(guān)鍵方面的影響來(lái)分析它們的影響。也就是說(shuō),類似于當(dāng)前的最新判別方法,我們不會(huì)對(duì)主干進(jìn)行微調(diào)。本方法沒(méi)有學(xué)習(xí)判別損失,而是在優(yōu)化器模塊中采用了回歸誤差。
我們?cè)诎?80個(gè)視頻的測(cè)試集上評(píng)估此方法。
4總結(jié)
本文提出了一種判別跟蹤方法,該方法以端到端的方式脫機(jī)訓(xùn)練。此方法是通過(guò)應(yīng)用迭代優(yōu)化程序從判別性學(xué)習(xí)損失中得出的。通過(guò)采用基于最速下降的優(yōu)化器和有效的模型初始化器,我們的方法僅需幾個(gè)優(yōu)化步驟就可以預(yù)測(cè)強(qiáng)大的判別模型。此外,此方法通過(guò)最小化看不見(jiàn)的測(cè)試幀上的預(yù)測(cè)誤差來(lái)學(xué)習(xí)離線訓(xùn)練期間的判別損失。
參考文獻(xiàn):
[1]黃齊.背景變化的多運(yùn)動(dòng)目標(biāo)實(shí)時(shí)在線跟蹤方法研究[D].電子科技大學(xué),2020.
[2]劉倩,侯建華,牟海軍,趙巍,笪邦友.聯(lián)合生成與判別模型的目標(biāo)檢測(cè)與跟蹤[J].中國(guó)圖象圖形學(xué)報(bào),2013,18(10):1293-1301.