席一帆,何立明,呂 悅
(長(zhǎng)安大學(xué) 信息工程學(xué)院,陜西 西安 7100064)
多目標(biāo)跟蹤最初源于雷達(dá)技術(shù)的研究。在軍事上,數(shù)據(jù)關(guān)聯(lián)算法利用目標(biāo)的位置和運(yùn)動(dòng)信息進(jìn)行軌跡和觀測(cè)目標(biāo)的匹配。近年來,隨著我國視頻監(jiān)控和無人駕駛行業(yè)的飛速發(fā)展,基于視頻的多目標(biāo)跟蹤技術(shù)顯得尤為重要。多目標(biāo)跟蹤根據(jù)初始化的方式劃分為基于檢測(cè)跟蹤的流程和基于人工初始化的跟蹤流程。由于基于人工初始化的跟蹤無法處理軌跡的生成和消亡,因此基于檢測(cè)的跟蹤為當(dāng)前的主流方式。基于檢測(cè)的跟蹤包括目標(biāo)檢測(cè)和數(shù)據(jù)關(guān)聯(lián),兩者功能相互獨(dú)立,但卻在關(guān)系上緊密聯(lián)系,良好的檢測(cè)器能為數(shù)據(jù)關(guān)聯(lián)提供較好的觀測(cè)結(jié)果。
早期的目標(biāo)檢測(cè)主要依靠人工設(shè)計(jì)的特征訓(xùn)練支持向量機(jī)進(jìn)行分類。2005 年,Dala[1]利用HOG 特征來訓(xùn)練分類器;2008 年,DPM[2]檢測(cè)器依據(jù)改進(jìn)HOG 特征,采用根濾波器和部件濾波器在多尺度金字塔上滑動(dòng)檢測(cè);2014 年,隨著深度學(xué)習(xí)的興起,傳統(tǒng)的目標(biāo)檢測(cè)方式被逐漸取代;R-CNN[3]在傳統(tǒng)目標(biāo)檢測(cè)方式的基礎(chǔ)上,以卷積神經(jīng)網(wǎng)絡(luò)作為特征提取器,訓(xùn)練支持向量機(jī);Fast-RCNN[4]是首個(gè)利用全卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的目標(biāo)檢測(cè)器。Faster-RCNN[5]提出區(qū)域建議網(wǎng)絡(luò),對(duì)任意尺度輸入的圖像都會(huì)生成一組后選框,首次引入錨框機(jī)制,速度比Fast-RCNN 快一個(gè)數(shù)量級(jí)。YOLO[6-9]系列框架主要基于錨框(Anchor)機(jī)制,將目標(biāo)的位置和尺寸視為回歸問題,該系列框架檢測(cè)速度快,但錨框機(jī)制存在正負(fù)樣本不均衡,超參數(shù)管理復(fù)雜等缺點(diǎn)。近些年,基于關(guān)鍵點(diǎn)的目標(biāo)檢測(cè)逐漸興起,Cornernet[10]通過利用目標(biāo)的左上角點(diǎn)和右下角點(diǎn)對(duì)目標(biāo)進(jìn)行定位。Centernet[11]通過中心點(diǎn)對(duì)目標(biāo)的尺寸、位置和中心點(diǎn)的偏移量進(jìn)行預(yù)測(cè),擁有更高的檢測(cè)效率。
數(shù)據(jù)關(guān)聯(lián)負(fù)責(zé)將目標(biāo)的軌跡與觀測(cè)目標(biāo)進(jìn)行匹配。數(shù)據(jù)關(guān)聯(lián)算法分為確定性優(yōu)化算法和概率推斷算法。確定性優(yōu)化算法將其建模成優(yōu)化問題,通過優(yōu)化算法解決匹配問題。二分圖匹配模型[12]、動(dòng)態(tài)規(guī)劃[13]、最小成本最大流網(wǎng)絡(luò)模型[14]、條件隨機(jī)場(chǎng)[15]和最大權(quán)值獨(dú)立集模型[16]屬于確定性的優(yōu)化模型。概率推斷模型基于現(xiàn)有的觀測(cè)狀態(tài)估計(jì)目標(biāo)狀態(tài)的概率分布。卡爾曼濾波[17]、擴(kuò)展卡爾曼濾波[18]和粒子濾波[19]屬于概率推斷模型。
端到端的多目標(biāo)跟蹤框架近些年飛速發(fā)展,將目標(biāo)檢測(cè)和數(shù)據(jù)關(guān)聯(lián)都用神經(jīng)網(wǎng)絡(luò)來處理,使得網(wǎng)絡(luò)的訓(xùn)練效率得到提升。DAN[20]跨幀提取特征,計(jì)算親和性矩陣,并用交并比信息作為掩模進(jìn)行匹配。DeepMOT[21]根據(jù)匈牙利算法不可微分的特點(diǎn),通過MOTA 和MOTP 的跟蹤指標(biāo)創(chuàng)建損失函數(shù),訓(xùn)練深度匈牙利網(wǎng)絡(luò)替代數(shù)據(jù)關(guān)聯(lián)。DMAN[22]提出空間注意力模塊和時(shí)間注意力模塊,空間注意力模塊匹配兩幅圖像空間相同區(qū)域,時(shí)間注意力模塊對(duì)歷史軌跡分配不同的權(quán)重,濾除不可靠的軌跡。本文基于檢測(cè)與數(shù)據(jù)關(guān)聯(lián)的Fairmot[23]框架,提出一種改進(jìn)算法,提高對(duì)目標(biāo)對(duì)象的跟蹤精度。
Fairmot 框架的目標(biāo)檢測(cè)部分包括主干網(wǎng)絡(luò)、目標(biāo)檢測(cè)分支和行人重識(shí)別分支。數(shù)據(jù)關(guān)聯(lián)部分采用DeepSort[24]框架進(jìn)行匹配。
Fairmot 框架采用改進(jìn)后深度聚合網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò),該特征提取網(wǎng)絡(luò)采用可變形卷積適應(yīng)不同尺度目標(biāo)。通過不同層級(jí)的跳級(jí)連接進(jìn)行語義信息和空間信息融合,使深度聚合網(wǎng)絡(luò)以目標(biāo)尺度、分辨率為關(guān)注點(diǎn)。
視頻幀經(jīng)過主干網(wǎng)絡(luò)會(huì)產(chǎn)生下采樣4 倍的特征圖,當(dāng)目標(biāo)的中心點(diǎn)預(yù)測(cè)結(jié)果映射回原圖時(shí)會(huì)產(chǎn)生4 個(gè)像素的誤差,因此通過中心點(diǎn)預(yù)測(cè)偏移
圖1 Fairmot 框架Fig.1 Fairmot framework
數(shù)據(jù)關(guān)聯(lián)部分采用DeepSort 框架。如圖2所示,DeepSort 首先通過級(jí)聯(lián)匹配得到最初的匹配軌跡集合、未匹配的檢測(cè)集合和未匹配的軌跡集合,然后將級(jí)聯(lián)匹配結(jié)果中的未匹配軌跡集合和未匹配檢測(cè)集合進(jìn)行IOU 匹配得到最終的匹配結(jié)果。
匹配的軌跡集合作為觀測(cè)結(jié)果進(jìn)行卡爾曼濾波更新,經(jīng)過IOU 匹配得到的未匹檢測(cè)框集合。如果連續(xù)3 幀都匹配上軌跡,則認(rèn)為是新的軌跡,然后進(jìn)行卡爾曼濾波更新。最終的未匹配集合依據(jù)狀態(tài)來判斷該軌跡是否消亡??柭鼮V波更新得到的軌跡若為確認(rèn)態(tài)則送入級(jí)聯(lián)匹配,否則送入IOU 匹配。圖2 右下角為部分視頻的兩次匹配結(jié)果。
圖2 數(shù)據(jù)關(guān)聯(lián)框架Fig.2 Data association framework
卡爾曼濾波主要分為兩個(gè)階段,分別為預(yù)測(cè)和更新階段??柭鼮V波的預(yù)測(cè)階段負(fù)責(zé)對(duì)目標(biāo)狀態(tài)均值和協(xié)方差進(jìn)行預(yù)測(cè),如式(7)和式(8)所示:
式(10)中K為卡爾曼濾波增益,x?k和Pk為經(jīng)過反饋調(diào)節(jié)后的最優(yōu)軌跡值和協(xié)方差。實(shí)驗(yàn)中使用的狀態(tài)變量為x=[u,v,r,h,u?,v?,r?,h?]T,(u,v)表示行人的中心點(diǎn)位置,r為框尺寸的長(zhǎng)寬比,h為高,其余4 個(gè)分量表示其速度分量,實(shí)驗(yàn)中的狀態(tài)轉(zhuǎn)移矩陣和觀測(cè)矩陣為:
各協(xié)方差的初始狀態(tài)設(shè)置為:
針對(duì)Fairmot 框架的主干網(wǎng)絡(luò)產(chǎn)生的高維信息缺乏維度之間的信息交互問題,采用三重注意力機(jī)制,提高對(duì)目標(biāo)中心點(diǎn)的定位能力和特征提取能力;且由于行人重識(shí)別分支的Softmax 損失函數(shù)優(yōu)化缺乏靈活性,采用Cirlce Loss 根據(jù)當(dāng)前的狀態(tài)選擇優(yōu)化程度,使其提取更為精確的身份嵌入向量。
針對(duì)深度聚合網(wǎng)絡(luò)后端高維信息缺乏維度間信息交互的問題,通過三重注意力機(jī)制[25](圖3)進(jìn)行維度間信息交互。該機(jī)制能分別從(C,H),(C,W),(H,W)維度捕捉信息產(chǎn)生注意力掩模。其中的Z-Pool 模塊通過最大池化和平均池化將特征圖的第0 維度的通道數(shù)降至2,使特征圖保持豐富語義信息的同時(shí),進(jìn)一步簡(jiǎn)化計(jì)算量。其公式如式(16)所示:
Z-Pool=[MaxPool0d(x),AvgPool0d(x)].(16)
第一條分支將輸入的特征圖(C×H×W)以H為軸進(jìn)行逆時(shí)針旋轉(zhuǎn)90°得到(W×H×C)的特征圖,首先通過Z-Pool 單元得到(2×H×C),再利用k×k的標(biāo)準(zhǔn)卷積層、批歸一化層和Sig?moid 激活函數(shù)層產(chǎn)生(1×H×C)的注意力掩模,然后通過殘差連接與(W×H×C)的特征圖元素相乘得到通道維度與空間高維度的注意力熱圖,再將特征圖進(jìn)行順時(shí)針旋轉(zhuǎn)90°得到(C×H×W),第二條分支與其類似。第三條分支只需捕捉空間維度的信息,無需旋轉(zhuǎn),得到空間注意力效果圖。最后通過將3 條分支的注意力熱圖進(jìn)行平均得到最終的注意力效果圖。圖3 分別給出了不同維度注意力掩膜作用后的注意效果圖,該效果圖是將四維張量在第1 維度壓縮可視化得到的,展示了不同維度信息交互的過程與結(jié)果。
圖3 三重注意力機(jī)制Fig.3 Triplet attention mechanism
深度學(xué)習(xí)的目標(biāo)是將類內(nèi)特征的相似度最大化,類間特征的相似度最小化,因此Circle Loss[26]概括出一個(gè)統(tǒng)一的損失函數(shù)表達(dá)式:
該損失函數(shù)對(duì)sn和sp優(yōu)化梯度相等,反向傳播時(shí)的懲罰項(xiàng)是一樣的,因此不利于尋找最優(yōu)點(diǎn),優(yōu)化方式缺乏靈活性。Cirlce Loss 提供一個(gè)能夠靈活優(yōu)化目標(biāo)的損失函數(shù),其公式如式(19)所示:
實(shí)驗(yàn)運(yùn)行環(huán)境為Ubuntu 16.04 操作系統(tǒng),GPU 型號(hào)為:2 塊NVIDIA GeForce GTX 1080TI(11G 顯存),基于Pytorch 1.3 深度學(xué)習(xí)框架。采用的數(shù)據(jù)集為MOT 數(shù)據(jù)集,MOT 數(shù)據(jù)集分為MOT15、MOT16 和MOT17,該數(shù)據(jù)集包含了靜止或者移動(dòng)拍攝、低中高角度拍攝以及黑夜等復(fù)雜的環(huán)境。實(shí)驗(yàn)首先在CrowedHuman 數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,然后通過MOT16 的訓(xùn)練集進(jìn)行訓(xùn)練,在MOT15 的訓(xùn)練集進(jìn)行消融實(shí)驗(yàn)。對(duì)比實(shí)驗(yàn)在MOT15 的訓(xùn)練集訓(xùn)練,通過MOT15 測(cè)試集測(cè)試。實(shí)驗(yàn)超參數(shù)設(shè)置如表1 所示,實(shí)驗(yàn)評(píng)價(jià)指標(biāo)如表2 所示。
表1 實(shí)驗(yàn)超參數(shù)設(shè)置Tab.1 Experimental hyperparameter settings
表2 多目標(biāo)跟蹤評(píng)價(jià)指標(biāo)Tab.2 Multi-target tracking evaluation index
對(duì)Fairmot 模型、采用注意力機(jī)制的Fairmot(Fairmot+A)模型和采用Circle Loss 和注意力機(jī)制的Fairmot(Fairmot+A+CL)模型進(jìn)行實(shí)驗(yàn),結(jié)果如表3 所示。
表3 3 種模型的消融實(shí)驗(yàn)在MOT15 訓(xùn)練集上的測(cè)試結(jié)果Tab.3 Ablation experiments of the three models tested on the MOT15 training set
采用三重注意力機(jī)制后,MOTA 得到了1.1%的提升,且身份切換次數(shù)明顯降低。注意力機(jī)制能夠提供更可靠的目標(biāo)檢測(cè),從而提升跟蹤精度。Fairmot+A+CL 在采用Circle Loss 后相比原模型在MOTA 上提升3.3%,且在MOTP、MT、ML、FM 等指標(biāo)上明顯優(yōu)于原模型。但Fair?mot+A+CL 模 型 與Fairmot+A 模 型 相 比,IDS指標(biāo)上升許多,可能采用Circle Loss 之后對(duì)多任務(wù)學(xué)習(xí)目標(biāo)檢測(cè)分支的性能產(chǎn)生影響,產(chǎn)生漏檢或虛檢現(xiàn)象,使改進(jìn)后的模型身份切換指標(biāo)上升。
圖4 展示了3 種模型的跟蹤能力對(duì)比。對(duì)于圖4(a)藍(lán)色箭頭所指的女士,F(xiàn)airmot 模型上只在第一個(gè)視頻幀中檢測(cè)到該女士,在后續(xù)的視頻幀中出現(xiàn)部分遮擋未檢測(cè)出該行人。待遮擋結(jié)束時(shí),行人身份發(fā)生切換。Fairmot+A 模型在前兩幅視頻幀中跟蹤到該女士,采用注意力機(jī)制能夠明顯提高其跟蹤精度,但在遮擋結(jié)束時(shí),行人的身份發(fā)生切換。Fairmot+A+CL 模型在全程視頻幀中均跟蹤到該女士。可見,引入Circle Loss 之后,增強(qiáng)了行人重識(shí)別分支的特征提取能力,使其能夠提取更精確的表觀特征。
圖4 3 種模型在MOT15 訓(xùn)練集上的測(cè)試結(jié)果Fig.4 Test results of the three models on the MOT15 training set
如表4 所示,改進(jìn)后的模型在MOTA、IDF1和MT 上要明顯優(yōu)于其他4 種模型。與原模型相比,MOTA 提升1.4%,MT 得到稍許提升。引入注意力機(jī)制和Cirle Loss 之后,提高了對(duì)目標(biāo)的定位能力和跟蹤能力,使得提取的表觀特征更具區(qū)分性。
表4 5 種模型在MOT15 測(cè)試集上的對(duì)比實(shí)驗(yàn)Tab.4 Comparative experiments of five models on the MOT15 test set
如圖5 所示,改進(jìn)模型在目標(biāo)檢測(cè)和跟蹤上明顯優(yōu)于其他4 種模型。對(duì)遠(yuǎn)處的小目標(biāo),改進(jìn)模型跟蹤效果最佳。在第195 幀中,改進(jìn)模型能準(zhǔn)確檢測(cè)出坐在左側(cè)的行人,而原模型卻未檢測(cè)出,表明三重注意力機(jī)制和Circle Loss 增強(qiáng)了對(duì)目標(biāo)的定位能力和表觀特征表達(dá)能力,產(chǎn)生了較好的跟蹤效果(圖6)。
圖5 5 種模型在MOT15 測(cè)試集上的對(duì)比效果圖Fig.5 Comparison of the five models on the MOT15 test set
圖6 軌跡跟蹤功能展示Fig.6 Display of trajectory tracking function
本文對(duì)Fairmot 框架提出兩種改進(jìn)措施,首先利用三重注意力機(jī)制提高對(duì)高維信息的維度交互能力,產(chǎn)生精確定位;然后通過Circle Loss損失函數(shù)優(yōu)化行人重識(shí)別分支,使其根據(jù)當(dāng)前距最優(yōu)點(diǎn)的距離選擇優(yōu)化目標(biāo)和程度,提取更精確的表觀特征。實(shí)驗(yàn)結(jié)果表明,本文所提模型明顯優(yōu)于其他模型,在MOT15 測(cè)試集上的跟蹤精度為62%,IDF1 提升至65.1%,身份切換降低68次。但是對(duì)于長(zhǎng)時(shí)間遮擋的目標(biāo),本文方法會(huì)發(fā)生身份切換,產(chǎn)生較多的軌跡碎片,未來將著重研究長(zhǎng)時(shí)遮擋問題以及模型壓縮問題。