国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Transformer和位置約束的端到端多目標(biāo)追蹤算法

2023-06-26 03:10:04雒江濤
關(guān)鍵詞:參考點(diǎn)特征向量外觀

吳 悅,雒江濤,張 攀,任 媛

(1.重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶 400065;2.重慶郵電大學(xué) 電子信息與網(wǎng)絡(luò)工程研究院,重慶 400065)

0 引 言

多目標(biāo)追蹤(multi-object tracking,MOT)是計(jì)算機(jī)視覺(jué)領(lǐng)域的一項(xiàng)關(guān)鍵任務(wù),廣泛應(yīng)用于公共安全、動(dòng)作識(shí)別、體育視頻分析、老年人護(hù)理和人機(jī)交互等領(lǐng)域。MOT的目的是檢測(cè)視頻中目標(biāo)的軌跡,如車輛、動(dòng)物和行人的軌跡等。一般來(lái)說(shuō),一個(gè)典型的MOT任務(wù)包括目標(biāo)檢測(cè)和數(shù)據(jù)關(guān)聯(lián)兩個(gè)階段。目標(biāo)檢測(cè)是為了檢測(cè)和定位對(duì)象,而數(shù)據(jù)關(guān)聯(lián)的目的是利用特征來(lái)關(guān)聯(lián)這些對(duì)象。由于特征的多樣性,如何為數(shù)據(jù)關(guān)聯(lián)提取更具代表性的特征對(duì)MOT系統(tǒng)來(lái)說(shuō)是一個(gè)挑戰(zhàn)。

最常用的特征是外觀特征。為了提取合適的外觀特征,有很多高精度但復(fù)雜的工作集中在采用重識(shí)別(re-identification,re-ID)網(wǎng)絡(luò)[1-4]學(xué)習(xí)外觀特征用于后期MOT任務(wù)中的目標(biāo)關(guān)聯(lián)[5-9]。另一種更簡(jiǎn)單的提取和利用外觀特征的方法是在一個(gè)聯(lián)合的網(wǎng)絡(luò)中共同學(xué)習(xí)檢測(cè)器分支和重識(shí)別分支[10-13]。根據(jù)文獻(xiàn)[11]所提出的工作,基于錨的檢測(cè)器[14-17]有多個(gè)相鄰的錨,只要它們檢測(cè)框的交并比(intersection over union,IoU)足夠大,就可能在re-ID分支中被估計(jì)為同一個(gè)ID,這為訓(xùn)練引入了嚴(yán)重的模糊性。因此,無(wú)錨檢測(cè)器[18-20]被引入作為聯(lián)合追蹤系統(tǒng)的檢測(cè)模塊。然而,這些在所謂的無(wú)錨方法中被提取的點(diǎn)依然可以被視為錨點(diǎn)。

Transformer架構(gòu)[21]在計(jì)算機(jī)視覺(jué)中被引入,因其有能力并行處理序列數(shù)據(jù),并且可以處理更大的感受野。DETR[22]提出了一個(gè)無(wú)錨的端到端目標(biāo)檢測(cè)系統(tǒng),文獻(xiàn)[23]提出了它的改進(jìn)模型,稱為可變形-DETR(deformable-DETR),在目標(biāo)檢測(cè)上得到了不錯(cuò)的效果。Transtrack[24]和Trackformer[25]使用時(shí)間特征和目標(biāo)查詢特征向量作為數(shù)據(jù)關(guān)聯(lián)的外觀特征,在MOT上取得了良好的效果。然而,查詢特征向量作為目標(biāo)檢測(cè)器DETR的一個(gè)組成部分,原本任務(wù)只是學(xué)習(xí)不同類別(如,貓和狗)之間的不同特征,而無(wú)法學(xué)習(xí)到同一類別(如,人和人)內(nèi)的相似特征的差異度,因此用查詢特征向量來(lái)關(guān)聯(lián)對(duì)象會(huì)使ID切換(ID switch,IDS)更大。

Transformer無(wú)法利用查詢特征向量直接代表目標(biāo)的外觀特征,而額外地引入重識(shí)別網(wǎng)絡(luò)提取外觀特征又不能真正利用到無(wú)錨Transformer的優(yōu)勢(shì),因此,本文提出了一個(gè)端到端的多目標(biāo)追蹤系統(tǒng)(tracker Transformer,TKTR)。TKTR利用從目標(biāo)查詢特征向量中學(xué)習(xí)到的參考點(diǎn)對(duì)目標(biāo)進(jìn)行空間位置約束,而不是利用目標(biāo)查詢特征向量直接代表外觀特征或另外引入一個(gè)re-ID網(wǎng)絡(luò)得到外觀特征。首先,檢測(cè)模塊采用可生成參考點(diǎn)的可變形Transformer。與原來(lái)的可變形-Transformer相比,改進(jìn)后的可變形Transformer在數(shù)據(jù)關(guān)聯(lián)模塊中為空間位置約束額外生成并輸出了二維參考點(diǎn)。其次,對(duì)于關(guān)聯(lián)模塊,參考點(diǎn)被用來(lái)識(shí)別目標(biāo)的中心點(diǎn),并利用中心點(diǎn)通過(guò)分類學(xué)習(xí)任務(wù)來(lái)約束目標(biāo)的空間位置。然后,IoU被用來(lái)進(jìn)一步約束候選目標(biāo)間的距離。最后,根據(jù)每一幀得到的目標(biāo)位置和對(duì)應(yīng)的ID,生成最終的目標(biāo)軌跡。

總的來(lái)看,本文提出的系統(tǒng)具有以下兩個(gè)特點(diǎn)。

1)端到端的網(wǎng)絡(luò)結(jié)構(gòu)。本文將目標(biāo)檢測(cè)器和特征提取器合并為一個(gè)統(tǒng)一的結(jié)構(gòu)。

2)簡(jiǎn)單但有效的空間位置約束。TKTR利用學(xué)習(xí)到的參考點(diǎn)去約束候選目標(biāo)的空間位置,從而有效地完成追蹤任務(wù)。

實(shí)驗(yàn)結(jié)果證明,TKTR利用Transformer的查詢特征向量對(duì)目標(biāo)進(jìn)行位置約束,提高了追蹤精度。與其他先進(jìn)方法相比,TKTR在多目標(biāo)追蹤準(zhǔn)確度(multi-object tracking accuracy,MOTA)指標(biāo)上取得了有競(jìng)爭(zhēng)力的結(jié)果。相較于其他利用目標(biāo)查詢特征向量來(lái)直接表示外觀特征的模型來(lái)說(shuō),TKTR在ID切換的指標(biāo)上有所降低。

1 可生成參考點(diǎn)的可變形Transformer

1.1 原始可變形Transformer

原始可變形Transformer架構(gòu)[23]由N個(gè)編碼器和M個(gè)解碼器組成。其中,編碼器對(duì)輸入的圖像特征進(jìn)行編碼以獲得編碼特征矩陣,解碼器則對(duì)編碼特征矩陣進(jìn)行解碼以獲得解碼特征。將此兩項(xiàng)通過(guò)前饋網(wǎng)絡(luò)后,即能計(jì)算出目標(biāo)的類別和檢測(cè)坐標(biāo)。

可變形注意力機(jī)制[23]被用來(lái)將全局特征圖轉(zhuǎn)化為只關(guān)注圖中稀疏而有意義的位置??勺冃巫⒁饬C(jī)制的具體過(guò)程可以寫為

(1)

1.2 可生成參考點(diǎn)的可變形Transformer

與原始可變形Transformer相比,改進(jìn)后的Transformer額外生成并輸出參考點(diǎn),這些參考點(diǎn)在后續(xù)的數(shù)據(jù)關(guān)聯(lián)模塊中被用來(lái)約束目標(biāo)的空間位置,如圖1所示。

圖1 可生成參考點(diǎn)的deformable Transformer結(jié)構(gòu)Fig.1 Illustration of the improved deformable Transformer architecture

查詢特征向量q經(jīng)過(guò)最后一層解碼器中的多尺度注意力以及多頭可變形注意力學(xué)習(xí)到了具有編碼特征意義的特征向量v,經(jīng)過(guò)多層感知機(jī)(multi-layer perceptron,MLP),從高維的隱層特征向量得到二維向量。然后,經(jīng)sigmoid激活函數(shù)生成代表目標(biāo)檢測(cè)框中心的二維參考點(diǎn)(xr,yr)。即:

(xr,yr)=sigmoid(MLP(v))

(2)

(2)式中:MLP代表由線性層和激活函數(shù)組成的多層感知機(jī),并且查詢特征向量通過(guò)最后一層線性層即被降維到二維參考點(diǎn)。在后續(xù)的數(shù)據(jù)關(guān)聯(lián)中,利用標(biāo)簽中的目標(biāo)ID信息作為監(jiān)督信號(hào)進(jìn)一步學(xué)習(xí)。

2 基于位置約束的追蹤方法

基于上述可生成參考點(diǎn)的可變形Transformer生成的參考點(diǎn),本文設(shè)計(jì)了基于參考點(diǎn)和位置約束追蹤方法TKTR,包括3個(gè)子模塊:提取特征的骨干網(wǎng)絡(luò)模塊、采用可生成參考點(diǎn)的可變形-Transformer結(jié)構(gòu)的檢測(cè)模塊,以及通過(guò)位置約束和IoU匹配目標(biāo)的數(shù)據(jù)關(guān)聯(lián)模塊。該模型的框架圖如圖2所示。

圖2 TKTR結(jié)構(gòu)圖Fig.2 Architecture of TKTR

2.1 骨干網(wǎng)絡(luò)模塊

根據(jù)DETR[22],本文利用ResNet-50[26]作為骨干網(wǎng)絡(luò),來(lái)提取初步的圖像幀特征。為了進(jìn)行多尺度檢測(cè),在輸入骨干網(wǎng)絡(luò)前,應(yīng)針對(duì)圖像幀進(jìn)行隨機(jī)尺度變換。因此,本文采用ResNet第3層到第5層的特征圖,并將第5層的特征經(jīng)過(guò)3×3卷積核的卷積運(yùn)算,步長(zhǎng)為2,從而通過(guò)特征金字塔獲得第4層的特征。即本文中的特征金字塔是由4層不同尺度的特征組成。

特征金字塔中有4層不同尺度的特征,為了區(qū)分不同特征層中具有相同坐標(biāo)的特征點(diǎn),本文通過(guò)網(wǎng)絡(luò)學(xué)習(xí)一個(gè)線性的位置編碼。用P表示特征點(diǎn)在特征圖上的位置,d表示位置編碼的維度。多尺度特征點(diǎn)的位置編碼可以描述為

(3)

(3)式中:2i代表奇數(shù)維度,2i+1代表偶數(shù)維度;vLE(·)表示學(xué)習(xí)到的第l層的層級(jí)特征向量,通過(guò)該層級(jí)特征向量便能區(qū)分特征金字塔中不同特征層上同一位置的特征點(diǎn);σ代表波長(zhǎng),值為10 000。

2.2 可生成參考點(diǎn)的可變形Transformer檢測(cè)模塊

檢測(cè)模塊利用1.2節(jié)提出的可生成參考點(diǎn)的可變形Transformer來(lái)檢測(cè)目標(biāo)。在優(yōu)化網(wǎng)絡(luò)參數(shù)的過(guò)程中,檢測(cè)損失Ldet的計(jì)算式為

Ldet=WbboxLbbox+WgIoULgIoU+WmaskLmask

(4)

(4)式中:Lbbox表示檢測(cè)檢測(cè)框損失;LgIoU表示廣義交并比(generalized intersection over union,GIoU)[27]損失;Lmask表示掩碼損失;Wbbox表示檢測(cè)框的系數(shù);WgIoU表示GIoU的系數(shù);Wmask表示掩碼的系數(shù)。

檢測(cè)框損失Lbbox定義為

(5)

損失LgIoU的計(jì)算方法為

(6)

掩碼損失Lmask由焦點(diǎn)損失計(jì)算,得

(7)

2.3 基于位置約束的數(shù)據(jù)關(guān)聯(lián)模塊

在基于檢測(cè)的追蹤算法中,檢測(cè)到每一幀的目標(biāo)后,正確地將其與前一幀和后一幀進(jìn)行關(guān)聯(lián),是數(shù)據(jù)關(guān)聯(lián)模塊的主要任務(wù)。本文利用位置約束和IOU來(lái)進(jìn)行數(shù)據(jù)關(guān)聯(lián)。其中,位置約束將相鄰兩幀中具有相同ID的目標(biāo)的參考點(diǎn)的距離盡可能縮小到最短。

訓(xùn)練階段中,TKTR作為端到端的多目標(biāo)追蹤系統(tǒng),由可生成參考點(diǎn)的可變形Transformer生成的參考點(diǎn)不僅在檢測(cè)模塊中利用損失函數(shù)進(jìn)行學(xué)習(xí),更在數(shù)據(jù)關(guān)聯(lián)模塊中利用目標(biāo)的真實(shí)ID進(jìn)行訓(xùn)練,以此得到具有ID特征的參考點(diǎn)特征。具體而言,由于行人行走的速度較為緩慢,故本文假設(shè),兩幀之間的參考點(diǎn)越近,則兩個(gè)目標(biāo)行人屬于同一個(gè)ID的可能性就越大。因此,在關(guān)聯(lián)模塊中,本文將ID分配問(wèn)題轉(zhuǎn)換為ID分類任務(wù),即利用標(biāo)簽中的ID號(hào)作為監(jiān)督信號(hào),通過(guò)學(xué)習(xí)分類任務(wù),將參考點(diǎn)映射到唯一的ID上。ID的損失Lid可計(jì)算為

(8)

TKTR系統(tǒng)的總損失L為

L=WdetLdet+WidLid

(9)

(9)式中:Ldet為檢測(cè)模塊損失;Lid為關(guān)聯(lián)模塊損失;Wdet和Wid表示檢測(cè)和關(guān)聯(lián)模塊的系數(shù)。

在推理階段,由于缺乏ID標(biāo)簽,本文沒(méi)有利用生成得到的ID直接作為目標(biāo)的ID,而是利用具有位置約束的空間特征來(lái)關(guān)聯(lián)目標(biāo)。通過(guò)由目標(biāo)查詢特征向量學(xué)到的參考點(diǎn)之間的余弦相似度來(lái)衡量參考點(diǎn)距離,得到第一次匹配結(jié)果Mmatch1。Mmatch1表達(dá)式為

Mmatch1=assign(cosθik)

(10)

(10)式中:i和k分別表示參考點(diǎn)在幀t和幀t+1的索引;θik表示參考點(diǎn)i和參考點(diǎn)k在映射到同一平面后的角度;assign(cosθ)表示利用匈牙利算法[28]通過(guò)余弦相似度分配對(duì)象。而后進(jìn)一步利用相鄰幀中兩個(gè)目標(biāo)檢測(cè)框的交并比進(jìn)行第二次匹配來(lái)得到空間特征相似度最大的匹配結(jié)果。

3 實(shí)驗(yàn)及分析

為了驗(yàn)證本文所提方法的有效性,本節(jié)首先將在3.1中簡(jiǎn)要介紹本文使用的數(shù)據(jù)集,然后在3.2中比較了本文所提方法與其他一些先進(jìn)方法,最后在3.3中進(jìn)行消融性研究。

3.1 數(shù)據(jù)集與實(shí)驗(yàn)細(xì)節(jié)

本文利用CrowdHuman[29]和前二分之一的MOT17[30]訓(xùn)練集作為訓(xùn)練集。

CrowdHuman包含15 000張圖像用于訓(xùn)練、4 370張圖像用于驗(yàn)證以及5 000張圖像用于測(cè)試。共有47萬(wàn)個(gè)人類實(shí)例,每張圖片有23個(gè)人。

MOT17包含7個(gè)訓(xùn)練序列和7個(gè)測(cè)試序列。由于該數(shù)據(jù)集沒(méi)有提供官方的驗(yàn)證集分割,所以本文將MOT17訓(xùn)練集分成兩部分:①用于訓(xùn)練;②用于驗(yàn)證,以測(cè)試本文提出的TKTR模型。

本文采用ResNet-50[26]作為主干。先使用CrowdHuman數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練60輪,以學(xué)習(xí)密集的人物特征;再使用前二分之一的MOT17訓(xùn)練集進(jìn)行25輪的訓(xùn)練。其中,注意力頭的數(shù)量設(shè)置為8,多層感知機(jī)的隱藏層數(shù)為1,前饋網(wǎng)絡(luò)由2層線性層以及Relu激活函數(shù)組成,學(xué)習(xí)率設(shè)置為1e-4,批量大小設(shè)置為4。

本文利用MOT指標(biāo)[31],包括多目標(biāo)追蹤精度(multi-object tracking accuracy,MOTA)、IDF1以及IDS,來(lái)衡量追蹤性能。MOTA是評(píng)估檢測(cè)和追蹤整體性能的主要指標(biāo),計(jì)算公式為

(11)

(11)式中:t為幀的索引;NGTt為幀t中的真實(shí)檢測(cè)框的數(shù)量;NFNt和NFPt分別表示假陰性的數(shù)量和假陽(yáng)性的數(shù)量;NIDSt表示ID切換次數(shù)。

3.2 方法對(duì)比

TKTR與各比較方法的細(xì)節(jié)如下。

1)Transtrack[24]:是一個(gè)基于查詢-鍵值機(jī)制的追蹤方法,利用前后兩幀提取到的外觀特征來(lái)關(guān)聯(lián)目標(biāo)。

2)Trackformer[25]:基于Transformer提出了一個(gè)時(shí)域拓?fù)?以此在數(shù)據(jù)關(guān)聯(lián)時(shí)通過(guò)追蹤查詢特征向量分配ID號(hào)關(guān)聯(lián)目標(biāo)。

3)ArTIST-C[32]:引入了一個(gè)概率自回歸生成模型,通過(guò)直接測(cè)量小軌道自然運(yùn)動(dòng)的可能性來(lái)對(duì)小軌道建議進(jìn)行評(píng)分。

4)TraDes-base[33]:在Centertrack[34]基礎(chǔ)上增加了一個(gè)額外的頭部分支,預(yù)測(cè)用于數(shù)據(jù)關(guān)聯(lián)的追蹤偏移。

5)CenterTrack[34]:是一個(gè)無(wú)錨追蹤方法,通過(guò)利用關(guān)鍵點(diǎn)估計(jì)來(lái)尋找中心點(diǎn)并回歸得到目標(biāo)的屬性。

6)TKTR:數(shù)據(jù)關(guān)聯(lián)時(shí)利用空間位置約束和IOU關(guān)聯(lián)目標(biāo)。

本文將所比較的方法分為兩組。第一組是基于Transformer的方法,包括Transtrack和Trackformer。第二組是最近的不含Transformer的方法,包括ArTIST-C、CenterTrack和TraDes-base。所有方法都使用CrowdHuamn以及前二分之一的MOT17訓(xùn)練集進(jìn)行訓(xùn)練,并使用后二分之一的MOT17訓(xùn)練集進(jìn)行驗(yàn)證。實(shí)驗(yàn)結(jié)果如表1—表2所示。

表1 與基于Transformer方法的比較結(jié)果Tab.1 Comparing with SOTA with Transformer

表2 與不含Transformer方法的比較結(jié)果Tab.2 Comparing with SOTA without Transformer

由表1可見(jiàn),TKTR在所有評(píng)價(jià)指標(biāo)上都優(yōu)于基于Transformer的方法。與Transtrack相比,TRTR可以在MOTA指標(biāo)上實(shí)現(xiàn)4.9%的提升,并且在ID切換上實(shí)現(xiàn)1.3%的提升;與Trackformer相比,TKTR在MOTA上有32.7%的提升,并且在IDF1上提高了15.1%。TKTR的優(yōu)越性在于利用了位置約束來(lái)約束ID候選區(qū)域的范圍,而非采用額外的re-ID模塊;Transtrack和Tranckformer主要采用相鄰幀的類間外觀特征,而非類內(nèi)外觀特征,使得同一類別(如行人)之間的差異并不顯著。

由表2可見(jiàn),與沒(méi)有Transformer的第二組相比,TKTR在MOTA方面優(yōu)勢(shì)明顯。與ArTIST-C相比,提升幅度可以達(dá)到約14.0%;與TraDes-base相比,提升幅度為5.2%;與CenterNet相比,提升幅度為3.2%。在IDF1和IDS方面,TKTR沒(méi)有比ArTIST-C和CenterTrack更好的性能。這是因?yàn)锳rTIST-C和CenterTrack不僅利用了運(yùn)動(dòng)特征,還利用到外觀特征進(jìn)行關(guān)聯(lián),而TKTR只是利用了位置約束。因此,當(dāng)有嚴(yán)重的遮擋時(shí),目標(biāo)的ID可能會(huì)被錯(cuò)誤地關(guān)聯(lián)起來(lái),這導(dǎo)致ID切換不如其他使用re-ID網(wǎng)絡(luò)的方法。

本文利用驗(yàn)證集的7個(gè)片段案例來(lái)證明TKTR在不同場(chǎng)景下的適應(yīng)能力。圖3顯示了TKTR隨機(jī)在MOT17驗(yàn)證集上選擇的結(jié)果可視化,每張圖左側(cè)的數(shù)字代表場(chǎng)景,每個(gè)物體由不同顏色檢測(cè)框和一個(gè)唯一的ID表示。其中,17-02、17-04為特別擁堵的場(chǎng)景,17-05和17-11為尺度變化較大的場(chǎng)景,17-10和17-13則為小尺度行人密集的場(chǎng)景。從17-05、17-02以及17-04可以看到,由于采用了位置約束,TKTR在擁擠的場(chǎng)景下表現(xiàn)良好。如17-02中,騎自行車的男孩在489幀中被檢測(cè)到,ID號(hào)為90,接著在第498幀丟失,而在第490幀又被準(zhǔn)確地追蹤到,并且ID被關(guān)聯(lián)為90。多尺度特征金字塔使得TKTR能夠在追蹤多尺度目標(biāo)時(shí)表現(xiàn)良好。17-05和17-11結(jié)果表明,該方法可以處理大尺度的變化;17-10和17-13的結(jié)果表明,方法同時(shí)可準(zhǔn)確地追蹤小尺度的行人。

圖3 MOT17驗(yàn)證集上結(jié)果可視化Fig.3 Examples randomly selected on the MOT17 validation set

3.3 消融實(shí)驗(yàn)

關(guān)于數(shù)據(jù)集的消融實(shí)驗(yàn)結(jié)果如表3所示。由表3可見(jiàn),由于CrowdHuman與MOT17的場(chǎng)景不同,僅使用CrowdHuman數(shù)據(jù)集進(jìn)行訓(xùn)練,會(huì)使得檢測(cè)器無(wú)法自適應(yīng)場(chǎng)景,因此導(dǎo)致檢測(cè)精度最低,也就使得MOTA以及IDS結(jié)果較差,并且由于CrowdHuman缺乏ID的標(biāo)注,無(wú)法利用ID標(biāo)注進(jìn)行訓(xùn)練,因此得到的有關(guān)追蹤的性能指標(biāo)IDF1也較低。另一方面,由于CrowdHuman中行人較為密集,經(jīng)過(guò)CrowdHuman的預(yù)訓(xùn)練,MOTA相較于沒(méi)有預(yù)訓(xùn)練的方法有所提高,提高比例約為3.6%。

表3 關(guān)于數(shù)據(jù)集的消融實(shí)驗(yàn)Tab.3 Ablation study on datasets

以3種方式來(lái)提取特征:能夠直接代表外觀特征的查詢特征向量、學(xué)習(xí)re-ID外觀特征向量的額外的re-ID網(wǎng)絡(luò)以及本文中使用代表目標(biāo)中心點(diǎn)參考點(diǎn)的位置約束。其中,查詢特征向量是利用可變形-DETR中的查詢特征向量不經(jīng)過(guò)任何處理得到;額外的re-ID外觀特征向量是通過(guò)骨干網(wǎng)絡(luò)得到的特征圖經(jīng)過(guò)全連接層,并根據(jù)ID標(biāo)簽作為監(jiān)督信號(hào),利用(9)式學(xué)習(xí)得到。結(jié)果如表4所示。

表4 關(guān)于特征提取方式的消融實(shí)驗(yàn)Tab.4 Ablation study on extracting features

由表4可見(jiàn),DETR中的查詢特征向量只用于對(duì)不同的類進(jìn)行分類和用來(lái)定位目標(biāo)的檢測(cè)框,它只能在不同的類之間學(xué)習(xí)特征,而不能在同一類內(nèi)學(xué)習(xí)特征的差異。與查詢特征向量相比,參考點(diǎn)是由查詢特征向量產(chǎn)生的,它可以將同一目標(biāo)的中心點(diǎn)約束在很短的距離內(nèi)。因此,使用位置約束作為關(guān)聯(lián)特征的結(jié)果要比直接使用查詢特征向量的效果好。由于CrowdHuman訓(xùn)練集沒(méi)有ID標(biāo)注,而MOT17訓(xùn)練集中也只有二分之一的標(biāo)注,因此re-ID網(wǎng)絡(luò)無(wú)法得到很好的訓(xùn)練,也就造成了提取到的特征無(wú)法代表目標(biāo)的外觀特征,所以引入額外的re-ID層的方法結(jié)果最差。

4 結(jié)束語(yǔ)

MOT領(lǐng)域普遍采用重識(shí)別的方法來(lái)提取目標(biāo)外觀特征以完成追蹤任務(wù),這實(shí)際上不是直接的追蹤方法,并且有錨的檢測(cè)器會(huì)為重識(shí)別網(wǎng)絡(luò)的訓(xùn)練帶來(lái)歧義。本文提出了一個(gè)僅采用可生成參考點(diǎn)的可變形Transformer結(jié)構(gòu)并基于空間位置約束即能完成追蹤任務(wù)的端到端多目標(biāo)追蹤系統(tǒng)TKTR。實(shí)驗(yàn)結(jié)果表明,TKTR在MOT17驗(yàn)證集上可取得68.2%MOTA的效果。由于預(yù)訓(xùn)練網(wǎng)絡(luò)學(xué)習(xí)到的是類間特征,導(dǎo)致TKTR缺乏更深層次的類內(nèi)外觀特征,因此,后續(xù)工作將專注于利用Transformer提取類內(nèi)的外觀特征。

猜你喜歡
參考點(diǎn)特征向量外觀
二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
外觀動(dòng)作自適應(yīng)目標(biāo)跟蹤方法
A Shopping Story to Remember
克羅內(nèi)克積的特征向量
不論外觀還是聲音,它都很美 Yamaha(雅馬哈)A-S3200合并功放
FANUC數(shù)控系統(tǒng)機(jī)床一鍵回參考點(diǎn)的方法
參考點(diǎn)對(duì)WiFi位置指紋算法的影響
一類特殊矩陣特征向量的求法
數(shù)控機(jī)床返回參考點(diǎn)故障維修
方外觀遺跡舊照
紫禁城(2017年6期)2017-08-07 09:22:52
吉林省| 隆子县| 台中市| 沙湾县| 精河县| 合山市| 宁武县| 怀化市| 隆尧县| 白玉县| 翼城县| 全州县| 察隅县| 正蓝旗| 福州市| 南乐县| 通许县| 宁化县| 罗山县| 额尔古纳市| 睢宁县| 怀安县| 临洮县| 崇州市| 永春县| 叶城县| 巫溪县| 大名县| 龙口市| 隆化县| 驻马店市| 内丘县| 蓬莱市| 威信县| 图们市| 类乌齐县| 中阳县| 航空| 施秉县| 正安县| 万州区|