国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

類孿生網(wǎng)絡(luò)目標跟蹤算法綜述

2022-02-07 14:03:00陳碩
計算機應(yīng)用文摘·觸控 2022年1期

關(guān)鍵詞:判別相關(guān)濾波;孿生網(wǎng)絡(luò);Transformer

中圖法分類號:TP242 文獻標識碼:A

作為計算機視覺領(lǐng)域的一項基礎(chǔ)任務(wù),視覺目標跟蹤仍存在挑戰(zhàn)性,其致力于從一個視頻序列的第一幀中給出目標信息,去定位視頻序列后續(xù)每幀中該目標的目標框。同其他計算機視覺任務(wù)一樣,目標跟蹤也面臨光照、遮擋和形變因素的挑戰(zhàn)。目標的尺度、外觀隨著時間變化增加了跟蹤的難度,導(dǎo)致目標跟蹤的精度下降,甚至跟蹤失敗。這些挑戰(zhàn)使得設(shè)計一個實時高精度的跟蹤器仍然十分困難。

近幾年,隨著卷積神經(jīng)網(wǎng)絡(luò)的興起,使用卷積神經(jīng)網(wǎng)絡(luò)提取深度特征再進行跟蹤相對于傳統(tǒng)使用手工提取特征的方法取得了巨大的進展。其中,基于模版匹配的方法因其分類和邊界框回歸上具有很強的魯棒性而脫穎而出。這種方法主要是通過分別從模版和搜索區(qū)域中提取特征,再在模版特征和搜索區(qū)域特征之間做相關(guān)操作來預(yù)測后續(xù)每一幀搜索區(qū)域上的目標在各個位置出現(xiàn)的概率,以此確定目標的位置信息。其主要分為判別相關(guān)濾波跟蹤器和孿生網(wǎng)絡(luò)跟蹤器。這兩種方法可以簡單描述為一個類孿生網(wǎng)絡(luò)的框架。

不過,無論是判別相關(guān)濾波跟蹤器還是孿生網(wǎng)絡(luò)跟蹤器,在處理一個視頻序列中每一幀的圖像時都是一個獨立的過程。在完成最后的跟蹤任務(wù)之前,并沒有通過某種方法去建立前后幀之間的關(guān)聯(lián),忽略了幀與幀之間豐富的時間、空間信息,這個局限導(dǎo)致類孿生跟蹤器的性能無法進一步提高。針對遠距離(全局)交互信息的建模問題,Transformer架構(gòu)具有天然的優(yōu)勢。Transformer在自然語言處理的任務(wù)以及語音處理中已經(jīng)取得了巨大的成功。研究者期望Transformer能在目標跟蹤任務(wù)中發(fā)揮自身優(yōu)勢,緩解上述幀與幀之間時間、空間信息被忽略的問題,Transformer開始被引入目標跟蹤任務(wù)中,相比傳統(tǒng)方法取得了巨大的進展。

本文從基于相關(guān)濾波的跟蹤器、基于孿生網(wǎng)絡(luò)的跟蹤器以及基于Transformer的跟蹤器等方面進行闡述。

1類孿生網(wǎng)絡(luò)跟蹤器

首先,簡單回顧主流的視覺跟蹤框架。一般大部分主流跟蹤器、相關(guān)濾波跟蹤器和孿生網(wǎng)絡(luò)跟蹤器可以簡單描述為類孿生網(wǎng)絡(luò)架構(gòu)。上半分支使用模版學(xué)習一個跟蹤模型,下半分支通過跟蹤模型在搜索區(qū)域進行模版匹配以確定目標的位置。

孿生網(wǎng)絡(luò)跟蹤器把模版t和搜索區(qū)域x作為卷積神經(jīng)網(wǎng)絡(luò)Ψ的輸入,它們通過以下卷積相關(guān)操作生成響應(yīng)置信圖:

r(t,x=Ψ(z)?Ψ(x)+b1 (1)

其中,?表示卷積相關(guān)操作,b1表示偏置項。孿生網(wǎng)絡(luò)跟蹤器依賴于通過模版學(xué)習到的卷積核Ψ(z)實現(xiàn)模版匹配。

在深度學(xué)習的判別相關(guān)濾波跟蹤器中,通過以下最小化嶺回歸學(xué)習一個濾波器f:

min‖f?Ψ(t)-y‖2+λ‖f‖2 (2)

其中,y表示以模版t中目標位置為中心的高斯分布,λ是正則項。當學(xué)習到濾波器f后,判別相關(guān)濾波跟蹤器用來區(qū)分目標和背景,通過r=f?Ψ(x)來生成響應(yīng),確定搜索區(qū)域中目標的位置。

2相關(guān)濾波跟蹤器和孿生網(wǎng)絡(luò)跟蹤器

2.1相關(guān)濾波跟蹤器

基于相關(guān)濾波的跟蹤方法核心思想是:在給定的第一幀中,通過解決最小化嶺回歸問題,根據(jù)MOSSE濾波器原理訓(xùn)練一個濾波器,利用該濾波器與搜索區(qū)域做相關(guān)運算,最大輸出響應(yīng)的位置即為當前幀的目標位置。為了增強濾波器的魯棒性,通常使用目標的多個樣本作為訓(xùn)練樣本。同時,通過在線更新模版的方法更新濾波器。這些方法可以判斷目標在當前幀的位置,但在估計目標的尺度問題上存在很大的困難,通常采用多尺度的策略應(yīng)對目標尺度變化的問題,然而對于目標的形變?nèi)匀粵]有太好的方法。近幾年,隨著深度學(xué)習的興起,通過解決最小化嶺回歸問題訓(xùn)練濾波器被證明可以通過深度學(xué)習網(wǎng)絡(luò)架構(gòu)解決,這些方法通過卷積神經(jīng)網(wǎng)絡(luò)學(xué)習一個判別卷積核作為目標分類網(wǎng)絡(luò),使用這個判別卷積核去和搜索區(qū)域做卷積相關(guān)操作以生成置信圖,以此判斷目標的位置,同時使用其他神經(jīng)網(wǎng)絡(luò)(例如IoUNet)去回歸目標的邊界框。ATOM把目標跟蹤分為:在線訓(xùn)練的目標分類網(wǎng)絡(luò)和離線訓(xùn)練的目標評價網(wǎng)絡(luò)。其中,目標估計網(wǎng)絡(luò)使用IoUNet的網(wǎng)絡(luò)結(jié)構(gòu);目標分類使用一個兩層的深度回歸網(wǎng)絡(luò)結(jié)構(gòu)。通過采用基于共軛梯度和牛頓高斯的方法加速分類網(wǎng)絡(luò)的訓(xùn)練。Prdimp方法從概率論的角度解決目標邊界框的回歸問題,主要是通過最小化網(wǎng)絡(luò)預(yù)測的目標概率分布和標簽分布之間的KL散度來訓(xùn)練網(wǎng)絡(luò)。

2.2孿生網(wǎng)絡(luò)跟蹤器

最近特別流行的追蹤方法是基于孿生網(wǎng)絡(luò)的方法,SiamFC是該方法的先驅(qū)者。通過使用同一個離線訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò),分別從模板和搜索區(qū)域提取深度特征,在模版特征和搜索區(qū)域特征之間做相關(guān)操作,以計算兩者的相似度來判斷目標在當前幀中的位置。同時,基于孿生網(wǎng)絡(luò)的跟蹤方法很受關(guān)注。SiamRPN把目標檢測器中RPN的方法遷移到目標跟蹤中,以此來實現(xiàn)邊界框的回歸。SiamRPN以端到端的方法來訓(xùn)練目標分類和邊界框的回歸,通過分類來判斷目標在當前幀中的位置,并通過回歸來確定邊界框的大小。SiamRPN++使用修改過的ResNet做為骨干網(wǎng)絡(luò)提取模版和搜索區(qū)域的特征,提取多個特征層的特征分別做分類和回歸,把最后的結(jié)果級聯(lián)獲得魯棒性更強的特征表示,再進行最終的目標分類和邊界框回歸。

3基于Transformer的跟蹤器

Transformer由谷歌大腦提出,應(yīng)用于機器翻譯任務(wù)。簡單來說,Transformer架構(gòu)分別由以注意力模塊為基本組件的Encoder和Decoder組成,通過Encoder和Decoder把一個輸入序列(sequence)轉(zhuǎn)換成另一個輸出序列(Sequence)。注意力模塊通過計算一個序列中元素之間的相似性作為權(quán)重,以加權(quán)求和的方式抽取信息,從而在一整個輸入序列中整合全局關(guān)系信息。交叉注意力模塊用來整合兩個不同序列之間的全局關(guān)系信息。得益于Transformer可以并行計算的特性,以及特別的記憶機制,其在自然語言處理和語音處理領(lǐng)域正在逐步取代循環(huán)卷積神經(jīng)網(wǎng)絡(luò)的地位。在目標跟蹤任務(wù)中,基于孿生網(wǎng)絡(luò)的跟蹤器和基于相關(guān)濾波的跟蹤器都在一定程度上忽略了幀與幀之間豐富的時間和空間信息,為了緩解該問題,Transformer開始被應(yīng)用到目標跟蹤任務(wù)中。

TrTr使用了經(jīng)典的Transformer中的Encoder?Decoder模塊取代了孿生網(wǎng)絡(luò)跟蹤器中的相關(guān)操作卷積層,使用該模塊融合模版特征和搜索區(qū)域特征,之后使用三個獨立的頭來處理Transformer模塊輸出的融合特征,其中一個用于分類,另外兩個用于邊界框的回歸。TrTr使用的Transformer模塊僅僅融合了第一幀模版特征和搜索區(qū)域特征,損失了歷史幀信息。STARK提出了一個基于Transformer的跟蹤框架,在骨干網(wǎng)絡(luò)提取搜索區(qū)域特征和模版特征之后,分別轉(zhuǎn)換成向量,然后拼接在一起輸入到一個類似DETR中的Encoder?Decoder模塊中,通過該模塊整合搜索區(qū)域和模版之間的全局信息,輸入到全卷積網(wǎng)絡(luò)來預(yù)測目標的邊界框。同時加入更新機制以及動態(tài)的更新模板,從而使Encoder?Decoder模塊在最大程度上利用幀與幀之間豐富的時間、空間信息。

除此之外,Trdimp使用類孿生網(wǎng)絡(luò)的架構(gòu),分為兩個分支,在DiMP的基礎(chǔ)上增加了一個TransformerEncoder?Decoder模塊去處理骨干網(wǎng)絡(luò)提取的特征。在上面的分支中,Encoder接受一組骨干網(wǎng)絡(luò)提取的模版特征作為輸入,產(chǎn)生編碼特征,用于學(xué)習判別卷積核的同時也作為Decoder的輸入;在下面的分支中,Decoder把編碼特征和當前搜索區(qū)域特征作為輸入,通過注意力機制融合模版特征和搜索區(qū)域特征輸出融合特征,最后使用判別卷積核對融合特征進行卷積生成響應(yīng)圖,以確定目標的位置。

Transformer在目標跟蹤中的應(yīng)用主要是作為特征增強模塊來整合視頻序列中幀與幀之間的時間、空間信息,緩解了傳統(tǒng)類孿生網(wǎng)絡(luò)跟蹤器忽略幀與幀之間時間、空間信息的問題。使得目標跟蹤的研究取得了長足的進步。

4結(jié)束語

本文總結(jié)了目標跟蹤領(lǐng)域的經(jīng)典方法,主要為基于相關(guān)濾波跟蹤器以及基于孿生網(wǎng)絡(luò)的跟蹤器。這兩種方法具有局限性——忽略了視頻序列中幀與幀之間的信息。Transformer在整合全局信息方面有著天然的優(yōu)勢,因此被引入目標跟蹤領(lǐng)域。Transofmer和傳統(tǒng)類孿生網(wǎng)絡(luò)跟蹤器進行整合,使得跟蹤器的性能取得了巨大的提高。目前,在目標跟蹤領(lǐng)域,Transformer還只是作為特征增強模塊來應(yīng)用,基于Transformer的類跟蹤器還依賴CNN作為骨干網(wǎng)絡(luò)進行特征提取。在未來,完全使用Transformer搭建一個目標跟蹤框架是一個十分有研究價值的問題。

作者簡介:

陳碩(1994—),碩士,研究生,研究方向:計算機視覺。

独山县| 尼玛县| 崇文区| 万山特区| 上蔡县| 辽中县| 班玛县| 瓦房店市| 青川县| 库尔勒市| 乌拉特中旗| 锦屏县| 读书| 临城县| 岢岚县| 新和县| 弥渡县| 怀集县| 邵东县| 嘉禾县| 松溪县| 青浦区| 青海省| 九龙县| 安图县| 三原县| 滨海县| 广元市| 清水河县| 镇雄县| 赤峰市| 海盐县| 汝阳县| 文山县| 西乌珠穆沁旗| 沙河市| 彭泽县| 长乐市| 巴林右旗| 温州市| 南涧|