張 瑤,盧煥章,張路平,胡謀法
國(guó)防科技大學(xué) 電子科學(xué)學(xué)院 自動(dòng)目標(biāo)識(shí)別重點(diǎn)實(shí)驗(yàn)室,長(zhǎng)沙410073
隨著人工智能技術(shù)的飛速發(fā)展,基于計(jì)算機(jī)視覺(jué)技術(shù)的智能監(jiān)控系統(tǒng)、自動(dòng)駕駛領(lǐng)域較以往取得了重大的突破,進(jìn)一步減少了人力資源的浪費(fèi),提高了安防和交通領(lǐng)域的安全性。視覺(jué)多目標(biāo)跟蹤技術(shù)是這些領(lǐng)域中的關(guān)鍵基礎(chǔ)性技術(shù)之一,視覺(jué)多目標(biāo)跟蹤算法的準(zhǔn)確魯棒性對(duì)于進(jìn)一步提升高層智能應(yīng)用的安全有效性具有重要意義。然而,當(dāng)前視覺(jué)多目標(biāo)跟蹤技術(shù)還面臨著較大的挑戰(zhàn),首先,視覺(jué)多目標(biāo)跟蹤需要解決單目標(biāo)跟蹤中存在的諸如目標(biāo)形變、場(chǎng)景環(huán)境變化等挑戰(zhàn)之外,還面臨著由于目標(biāo)數(shù)量不確定所帶來(lái)的實(shí)時(shí)目標(biāo)數(shù)量更新及維持目標(biāo)各自身份(Identity,ID)的任務(wù),因此視覺(jué)多目標(biāo)跟蹤還需要處理更為復(fù)雜關(guān)鍵的問(wèn)題諸如:目標(biāo)數(shù)量不確定、頻繁目標(biāo)遮擋、同類目標(biāo)的相似度區(qū)分等。具體來(lái)說(shuō),在安防監(jiān)控和自動(dòng)駕駛應(yīng)用中,目標(biāo)頻繁進(jìn)出視野是普遍且正常的行為,這就導(dǎo)致了多目標(biāo)跟蹤所面對(duì)的目標(biāo)數(shù)量是不確定的,這就要求多目標(biāo)跟蹤算法必須具備實(shí)時(shí)檢測(cè)定位場(chǎng)景中出現(xiàn)的感興趣目標(biāo)數(shù)量。在場(chǎng)景復(fù)雜的情況下,背景對(duì)于目標(biāo)的遮擋,以及目標(biāo)與目標(biāo)的遮擋會(huì)造成目標(biāo)遮擋再出現(xiàn)時(shí)目標(biāo)身份切換(ID switch,IDs),這就要求算法必須提取到魯棒的目標(biāo)特征,在短時(shí)和長(zhǎng)時(shí)的遮擋過(guò)后,保持遮擋前后目標(biāo)ID一致性。多目標(biāo)跟蹤任務(wù)要求維持同一目標(biāo)的ID,同類目標(biāo)表觀相似度較高且具備相似的行為,對(duì)穩(wěn)定維持正確目標(biāo)ID 帶來(lái)了進(jìn)一步的挑戰(zhàn),算法必須具備提取同類目標(biāo)可分性特征。
視覺(jué)多目標(biāo)跟蹤的目的是利用數(shù)字圖像處理技術(shù)穩(wěn)定跟蹤圖像序列中的多個(gè)感興趣目標(biāo),得到各個(gè)目標(biāo)在每一時(shí)刻正確位置。近幾年隨著基于深度學(xué)習(xí)檢測(cè)算法的精度較傳統(tǒng)算法性能大幅度提高,視覺(jué)多目標(biāo)跟蹤隨之取得了較大的突破?;谏疃葘W(xué)習(xí)的視覺(jué)多目標(biāo)跟蹤算法的應(yīng)用基本覆蓋了空海地多個(gè)典型場(chǎng)景[1-3],但較為詳細(xì)的關(guān)于視覺(jué)多目標(biāo)跟蹤綜述論文較少,已有的相關(guān)綜述[4-5]一部分是基于傳統(tǒng)方法的在雷達(dá)領(lǐng)域應(yīng)用較多且運(yùn)算比較復(fù)雜的數(shù)據(jù)關(guān)聯(lián)算法,與當(dāng)前主流的多目標(biāo)跟蹤方法存在較大的差異,另一部分較新的關(guān)注了基于深度學(xué)習(xí)的視覺(jué)多目標(biāo)跟蹤方法,重點(diǎn)是基于檢測(cè)的多目標(biāo)跟蹤方法[6-7]。本文根據(jù)視覺(jué)多目標(biāo)跟蹤框架的不同,將基于深度學(xué)習(xí)的視覺(jué)多目標(biāo)跟蹤方法分為DBT與JDT兩類算法展開(kāi)論述,闡述深度學(xué)習(xí)在兩種框架中的模塊功能及優(yōu)缺點(diǎn),結(jié)合公開(kāi)數(shù)據(jù)集對(duì)比分析基于深度學(xué)習(xí)的視覺(jué)多目標(biāo)跟蹤方法,通過(guò)進(jìn)一步提升檢測(cè)器性能、更好地在多目標(biāo)跟蹤任務(wù)中融合單目標(biāo)跟蹤、拓展基于深度學(xué)習(xí)的數(shù)據(jù)關(guān)聯(lián)等方面提升多目標(biāo)跟蹤的性能。
本文第1 章首先對(duì)基于深度學(xué)習(xí)的視覺(jué)多目標(biāo)跟蹤技術(shù)及相關(guān)數(shù)據(jù)集進(jìn)行總體概述,在第2 章和第3 章分別闡述基于深度學(xué)習(xí)的DBT與JDT兩種視覺(jué)多目標(biāo)跟蹤框架,第4章對(duì)近年來(lái)在公開(kāi)數(shù)據(jù)集中性能優(yōu)異的視覺(jué)多目標(biāo)跟蹤方法進(jìn)行實(shí)驗(yàn)比較分析,第5章基于前面的討論,對(duì)未來(lái)可能研究方向進(jìn)行展望。
基于深度學(xué)習(xí)的視覺(jué)多目標(biāo)跟蹤算法從不同的角度有不同的綜述方法,本文結(jié)合該領(lǐng)域最新技術(shù)的發(fā)展趨勢(shì),從算法分類、相關(guān)數(shù)據(jù)集、算法評(píng)價(jià)指標(biāo)三個(gè)方面對(duì)基于深度學(xué)習(xí)的視覺(jué)多目標(biāo)跟蹤進(jìn)行概述。
隨著深度學(xué)習(xí)技術(shù)在與視覺(jué)多目標(biāo)跟蹤相關(guān)任務(wù)中的應(yīng)用且取得的巨大成功,當(dāng)前基于深度學(xué)習(xí)的視覺(jué)多目標(biāo)跟蹤技術(shù)框架呈現(xiàn)較為兩階段模式,即基于目標(biāo)檢測(cè)結(jié)果進(jìn)行數(shù)據(jù)關(guān)聯(lián)實(shí)現(xiàn)多目標(biāo)跟蹤的DBT 模式。DBT 是當(dāng)前基于深度學(xué)習(xí)的視覺(jué)多目標(biāo)跟蹤中的主流方法,但是從深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)來(lái)看,DBT中的子模塊如特征提取等可以融合在目標(biāo)檢測(cè)網(wǎng)絡(luò)中,基于DBT中子模塊的融合,聯(lián)合檢測(cè)跟蹤,即JDT模式,用一個(gè)深度網(wǎng)絡(luò)框架實(shí)現(xiàn)視覺(jué)多目標(biāo)跟蹤是近兩年發(fā)展的新趨勢(shì)。
基于上述分析,本文將基于深度學(xué)習(xí)的視覺(jué)多目標(biāo)跟蹤技術(shù)分為基于深度學(xué)習(xí)的DBT與基于深度學(xué)習(xí)的JDT 模式,再具體分析兩種模式的結(jié)構(gòu),闡述深度學(xué)習(xí)在這兩種框架中實(shí)現(xiàn)的功能,具體分類結(jié)構(gòu)如圖1 所示。同時(shí)先將文中典型的基于深度學(xué)習(xí)的DBT算法及JDT 算法的特點(diǎn)、優(yōu)缺點(diǎn)等整理成表1[8-11]和表2[12-15]所示,后續(xù)在文中再對(duì)各個(gè)流派中的算法進(jìn)行詳細(xì)展開(kāi),拓展分析。
圖1 基于深度學(xué)習(xí)的視覺(jué)多目標(biāo)跟蹤算法分類
表1 基于深度學(xué)習(xí)的DBT算法
表2 基于深度學(xué)習(xí)的JDT算法
深度學(xué)習(xí)相較于傳統(tǒng)機(jī)器學(xué)習(xí)方法的優(yōu)勢(shì)在于自動(dòng)學(xué)習(xí)給定數(shù)據(jù)中適用于指定任務(wù)的特征,數(shù)據(jù)集對(duì)于基于深度學(xué)習(xí)的計(jì)算機(jī)視覺(jué)方法非常重要。因此,對(duì)當(dāng)前在視覺(jué)多目標(biāo)跟蹤任務(wù)中常用的數(shù)據(jù)集進(jìn)行搜集概述得到結(jié)果如表3 所示。當(dāng)前90%以上的視覺(jué)多目標(biāo)跟蹤算法應(yīng)用領(lǐng)域都集中在行人和車輛目標(biāo),行人和車輛多目標(biāo)跟蹤數(shù)據(jù)集成為主流,這也與近十年來(lái)視覺(jué)多目標(biāo)跟蹤算法數(shù)據(jù)集引用頻率結(jié)果相對(duì)應(yīng)。Multiobject Tracking(MOT)行人數(shù)據(jù)集[16-18]由于更新頻率高,數(shù)據(jù)集場(chǎng)景更貼合現(xiàn)實(shí)等因素,許多最新的性能表現(xiàn)優(yōu)秀的算法都在MOT數(shù)據(jù)集中進(jìn)行驗(yàn)證,MOT數(shù)據(jù)集已經(jīng)成為了視覺(jué)多目標(biāo)跟蹤領(lǐng)域最令人關(guān)注的數(shù)據(jù)集,因此,本文重點(diǎn)對(duì)MOT數(shù)據(jù)集進(jìn)行闡述。
表3 視覺(jué)多目標(biāo)跟蹤數(shù)據(jù)集總結(jié)
MOT 數(shù)據(jù)集源于MOTChellenge 多目標(biāo)跟蹤挑戰(zhàn)賽,針對(duì)目標(biāo)檢測(cè)器性能對(duì)最終評(píng)價(jià)指標(biāo)影響過(guò)大,將賽道分為基于公開(kāi)檢測(cè)的賽道和基于私人檢測(cè)的賽道,MOT數(shù)據(jù)集詳情如表4所示。其中MOT15是采集舊的數(shù)據(jù)集視頻進(jìn)行修正,而MOT16是全新的數(shù)據(jù)集,相對(duì)MOT15 行人密度更高、難度更大,MOT17 的視頻內(nèi)容與MOT16一致,但提供了3個(gè)檢測(cè)器檢測(cè)結(jié)果,MOT20是最新發(fā)布的MOT 數(shù)據(jù)集,增加了8 個(gè)全新的稠密人群視頻系列,行人密度進(jìn)一步增加。
表4 MOT數(shù)據(jù)集
為了客觀公平地比較視覺(jué)多目標(biāo)跟蹤算法的性能表現(xiàn),設(shè)置合理精確的評(píng)價(jià)指標(biāo)尤為重要。目前視覺(jué)多目標(biāo)跟蹤算法中使用的指標(biāo)有經(jīng)典的CLEAR MOT指標(biāo)[19]、較新的ID 指標(biāo)[20],再加上多數(shù)跟蹤正確軌跡(Mostly Tracked trajectories,MT)、多數(shù)跟蹤失敗軌跡(Mostly Lost trajectories,ML),其中CLEAR MOT 評(píng)價(jià)指標(biāo)是最為重要的體現(xiàn)算法性能的評(píng)價(jià)指標(biāo),下面對(duì)CLEAR MOT進(jìn)行介紹。
CLEAR MOT 根據(jù)目標(biāo)跟蹤框與觀測(cè)框IOU 閾值及目標(biāo)跟蹤的正確穩(wěn)定性,建立基礎(chǔ)的評(píng)估指標(biāo)如下所示。
錯(cuò)誤正樣本(False Positive,F(xiàn)P):整個(gè)視頻中被預(yù)測(cè)為正的負(fù)樣本數(shù)。
錯(cuò)誤負(fù)樣本(False Negatives,F(xiàn)N):整個(gè)視頻中被預(yù)測(cè)為負(fù)的正樣本數(shù)。
IDs:跟蹤過(guò)程中目標(biāo)ID切換總數(shù)。
基于這3個(gè)基礎(chǔ)性指標(biāo),構(gòu)建最常用的多目標(biāo)跟蹤準(zhǔn)確度(Multiple Object Ttacking Accuracy,MOTA)和多目標(biāo)跟蹤精度(Multiple Object Ttacking Precision,MOTP)如式(1)和(2)所示:
其中,GT是所有真實(shí)值的數(shù)目,dt,i和ct分別表示匹配對(duì)之間的距離度量和第t幀匹配成功的檢測(cè)框數(shù)目。MOTA基于FN、FP、IDs綜合判定跟蹤錯(cuò)誤次數(shù),體現(xiàn)跟蹤算法的準(zhǔn)確度,而MOTP 則更偏向于檢測(cè)器,主要根據(jù)目標(biāo)預(yù)測(cè)框和真實(shí)值的邊界框重疊度計(jì)算跟蹤精度。
DBT的一般流程圖如圖2所示,由于相似度分析與特征提取同步進(jìn)行,因此下面根據(jù)深度學(xué)習(xí)在目標(biāo)檢測(cè)、特征提取、數(shù)據(jù)關(guān)聯(lián)3 個(gè)主模塊中實(shí)現(xiàn)的功能和在多目標(biāo)跟蹤中提高的性能效果展開(kāi)論述。
圖2 DBT框架視覺(jué)多目標(biāo)跟蹤流程圖
隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Networks,CNN)模型不斷發(fā)展完善[21],深度學(xué)習(xí)在圖像分類任務(wù)的優(yōu)異表現(xiàn)甚至超過(guò)人類,基于CNN的目標(biāo)檢測(cè)算法也隨之取得了飛速的發(fā)展。從2014年至今,Region-based Convolutional Neural Networks(R-CNN)系列檢測(cè)器[22-24]、Single Shot MultiBox Detector[25](SSD)、You Only Look Once(YOLO)系列檢測(cè)器[26-29]等一批優(yōu)秀的開(kāi)源深度神經(jīng)網(wǎng)絡(luò),大幅度增強(qiáng)了目標(biāo)檢測(cè)能力?;趩螏瑘D像檢測(cè)能力的增強(qiáng),多目標(biāo)跟蹤任務(wù)呈現(xiàn)出從初始的關(guān)注計(jì)算量復(fù)雜的數(shù)據(jù)關(guān)聯(lián)優(yōu)化算法如聯(lián)合概率數(shù)據(jù)關(guān)聯(lián)[30](Joint Probabilistic Data Association,JPDA)和多假設(shè)跟蹤[31](Multiple Hypothesis Tracking,MHT)趨向于依賴于檢測(cè)結(jié)果的DBT框架。
SORT[9]是最早利用卷積神經(jīng)網(wǎng)絡(luò)檢測(cè)行人的多目標(biāo)跟蹤算法之一,該算法在傳統(tǒng)的匈牙利關(guān)聯(lián)算法基礎(chǔ)上,將Aggregate Channel Feature(ACF)檢測(cè)替換為Faster R-CNN 目標(biāo)檢測(cè)網(wǎng)絡(luò),在MOT15 行人數(shù)據(jù)集上取得了驚人的突破,將多目標(biāo)跟蹤準(zhǔn)確度提高了18.9%,算法的運(yùn)行速度高達(dá)60 Hz。該算法的突出表現(xiàn),引起了研究者的廣泛關(guān)注,但是該算法的數(shù)據(jù)關(guān)聯(lián)部分僅簡(jiǎn)單地依賴于檢測(cè)框的交并比(Intersetion over Union,IOU),造成對(duì)于目標(biāo)的相互遮擋適應(yīng)性不強(qiáng),密集行人的跟蹤效果較差,它的后續(xù)改良版本是DeepSort[10],與SORT相比,進(jìn)一步提取穩(wěn)定的表觀特征,提高了目標(biāo)遮擋情況下算法的表現(xiàn),但也大幅度降低了算法的運(yùn)行速度。針對(duì)Faster R-CNN檢測(cè)器帶來(lái)的復(fù)雜計(jì)算量以及檢測(cè)質(zhì)量不佳的問(wèn)題,Yu 等[32]通過(guò)去池化[33]和提取多尺度特征[34]技術(shù)改進(jìn)適用于多目標(biāo)跟蹤任務(wù)的Faster R-CNN,使得檢測(cè)模塊的精度和速度上進(jìn)一步提高,同時(shí)證明了在具備高質(zhì)量檢測(cè)結(jié)果后可以減少多目標(biāo)跟蹤數(shù)據(jù)關(guān)聯(lián)部分的復(fù)雜度而可以達(dá)到相近的多目標(biāo)跟蹤結(jié)果。
SSD、YOLO 等深度網(wǎng)絡(luò)檢測(cè)器同樣被一些學(xué)者引入視覺(jué)多目標(biāo)跟蹤。Zhang 等[35]、Lu 等[36]使用單階段的SSD作為檢測(cè)器,分別實(shí)現(xiàn)了對(duì)單類目標(biāo)和多類目標(biāo)的多目標(biāo)跟蹤任務(wù),由于YOLO 系列具有更快的檢測(cè)速度,后續(xù)的YOLO版本更是在目標(biāo)檢測(cè)精度與目標(biāo)速度上達(dá)到了均衡,也常被用為視覺(jué)多目標(biāo)跟蹤的檢測(cè)模塊。Kim 等[37]針對(duì)行人密集情況下進(jìn)行多目標(biāo)跟蹤的計(jì)算花銷過(guò)大,引入YOLO算法在檢測(cè)階段進(jìn)一步降低了計(jì)算量。高新聞等[38]將YOLO v3 作為檢測(cè)器,結(jié)合SORT 算法的框架,成功地將SORT 算法應(yīng)用于實(shí)際的交通異常監(jiān)控中,但是對(duì)于場(chǎng)景中目標(biāo)較多的情況下產(chǎn)生較多的IDs。
視覺(jué)多目標(biāo)跟蹤任務(wù)中,通常關(guān)注目標(biāo)的表觀特征和運(yùn)動(dòng)特征,下面分為基于深度學(xué)習(xí)的表觀特征提取和運(yùn)動(dòng)特征提取進(jìn)行展開(kāi)。
2.2.1 基于深度學(xué)習(xí)的表觀特征提取
面向目標(biāo)跟蹤任務(wù),基于深度學(xué)習(xí)的表觀特征提取的是目標(biāo)同類可分性特征,提取的表觀特征是更類似于視覺(jué)身份重識(shí)別(Re-identification,REID)領(lǐng)域所提取的特征。目前,基于行人的REID 已經(jīng)取得了較大的進(jìn)展[39],根據(jù)表觀特征提取網(wǎng)絡(luò)結(jié)構(gòu)可劃分為基于經(jīng)典的CNN和基于孿生網(wǎng)絡(luò)[40]兩類。
Wang等[41]首先提出了在多目標(biāo)跟蹤中使用深度學(xué)習(xí)提取表觀特征的方法,提出了一個(gè)自編碼器網(wǎng)絡(luò),用于改進(jìn)提取的視覺(jué)特征,將多目標(biāo)關(guān)聯(lián)任務(wù)轉(zhuǎn)換為最小生成樹(shù)問(wèn)題,提取到的特征大幅改善了多目標(biāo)跟蹤算法的性能,實(shí)驗(yàn)結(jié)果表明了基于深度學(xué)習(xí)的表觀特征提取對(duì)于視覺(jué)多目標(biāo)跟蹤性能的提升。受此啟發(fā),Kim 等[8]嘗試在傳統(tǒng)的數(shù)據(jù)關(guān)聯(lián)算法中基于深度學(xué)習(xí)方法提取表觀特征,使用預(yù)先訓(xùn)練的CNN 將提取的視覺(jué)特征嵌入到MHT算法中,實(shí)驗(yàn)表明傳統(tǒng)的MHT數(shù)據(jù)關(guān)聯(lián)算法MOTA 較之前提高了3 個(gè)百分點(diǎn),但是MHT 固有的隨目標(biāo)數(shù)量增加所帶來(lái)的復(fù)雜計(jì)算量仍限制其進(jìn)一步提升性能。受到深層骨干網(wǎng)絡(luò)對(duì)于圖像分類的加成作用啟發(fā),Yu等[32]使用改進(jìn)的GoogleNet[42]在大規(guī)模REID數(shù)據(jù)集中進(jìn)行預(yù)訓(xùn)練,將獲得的表觀特征與空間運(yùn)動(dòng)特征相結(jié)合獲得更為精確的代價(jià)矩陣。SORT 的改進(jìn)版是DeepSORT,其改進(jìn)在于加入了基于ResNet 網(wǎng)絡(luò)[43]提取的預(yù)訓(xùn)練表觀特征向量,將特征之間的余弦距離作為代價(jià)矩陣嵌入SORT 算法,較好地解決了SORT 算法中存在的明顯IDs 問(wèn)題。后續(xù)許多學(xué)者如Mahmoudi 等[44]、Bea等[45]、Fang等[46]、Sheng等[47]、Chen等[48]也都采用類似的GoogleNet、ResNet、InceptionNet[49]等CNN 網(wǎng)絡(luò),通過(guò)改變?nèi)蝿?wù)相關(guān)的訓(xùn)練數(shù)據(jù),改進(jìn)相關(guān)的損失函數(shù),學(xué)習(xí)得到具備同類目標(biāo)之間可區(qū)分的表觀特征,嘗試提取更為魯棒的表觀特征,但是特征提取骨干網(wǎng)絡(luò)的加深并未給多目標(biāo)跟蹤性能帶來(lái)進(jìn)一步突破性的提升。除了改善升級(jí)骨干網(wǎng)絡(luò)之外,候建華等[50]引進(jìn)視覺(jué)注意力機(jī)制,有效克服了遮擋問(wèn)題后,針對(duì)其在特征融合階段易丟失不同通道空域結(jié)構(gòu)信息的不足進(jìn)行了改進(jìn),提出用交并比代替加權(quán)池化進(jìn)行特征融合,提高了關(guān)聯(lián)精度。目前通過(guò)經(jīng)典CNN獲取目標(biāo)表觀特征效果最顯著的是文獻(xiàn)[51]提出的AP_HWDPL_p,它利用多個(gè)CNN 的特征融合得到目標(biāo)的表觀特征,同時(shí)為每個(gè)目標(biāo)對(duì)象保留歷史外觀模型,在MOT 數(shù)據(jù)集上的獲得了較為靠前的排名,但是設(shè)計(jì)的CNN結(jié)構(gòu)過(guò)于復(fù)雜,運(yùn)算量巨大。
除了經(jīng)典的CNN 網(wǎng)絡(luò)之外,孿生網(wǎng)絡(luò)是當(dāng)前提取同類目標(biāo)可區(qū)分表觀特征的代表性網(wǎng)絡(luò)。Kim 等[52]提出了使用對(duì)比損失進(jìn)行訓(xùn)練的孿生網(wǎng)絡(luò)如圖3所示,當(dāng)前獲取目標(biāo)REID 特征的主流方式是基于損失函數(shù)的REID算法,通過(guò)改進(jìn)損失函數(shù),獲取更具同類目標(biāo)區(qū)分度的表觀特征。其中,Zhang等[53]提出了一個(gè)損失函數(shù),稱為SymTriplet損失,獨(dú)特點(diǎn)在于這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)具有三條相同的CNN支路,訓(xùn)練階段輸入三個(gè)圖像目標(biāo),形成兩個(gè)正負(fù)對(duì),通過(guò)SymTriplet使得網(wǎng)絡(luò)學(xué)習(xí)到同一目標(biāo)獨(dú)特的表觀特征。Leal-Taixé 等[54]提出了一種Siamese CNN,輸入兩個(gè)包含目標(biāo)的圖像塊,輸出兩個(gè)圖像中目標(biāo)屬于同一目標(biāo)的概率,使用類似的輸出對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練以學(xué)習(xí)到最具代表性的表觀特征。Son等[55]提出了一種新的類孿生網(wǎng)絡(luò)體系結(jié)構(gòu),稱為Quad-CNN,該模型在三條CNN 支路的基礎(chǔ)上又增加了一條支路,采取類似的損失函數(shù)訓(xùn)練網(wǎng)絡(luò),網(wǎng)絡(luò)使用學(xué)習(xí)到的嵌入表觀特征進(jìn)行兩次檢測(cè),正確判決了檢測(cè)結(jié)果為同一目標(biāo)的概率。隨著孿生網(wǎng)絡(luò)結(jié)構(gòu)分支從兩個(gè)到四個(gè)的增加以及對(duì)應(yīng)損失函數(shù)的改進(jìn)結(jié)果表明了多支路的孿生網(wǎng)絡(luò)對(duì)于跟蹤任務(wù)具備更好的適用性。除了CNN 網(wǎng)絡(luò)外,魏穎等[56]嘗試用生成對(duì)抗網(wǎng)絡(luò)學(xué)習(xí)到目標(biāo)的主要特征與精細(xì)特征,并同樣用生成對(duì)抗網(wǎng)絡(luò)生成多目標(biāo)運(yùn)動(dòng)軌跡,實(shí)驗(yàn)表明該試驗(yàn)減少了IDs,但是準(zhǔn)確度的提升并不高。
圖3 孿生網(wǎng)絡(luò)結(jié)構(gòu)圖
2.2.2 基于深度學(xué)習(xí)的運(yùn)動(dòng)特征提取
除了表觀特征外,運(yùn)動(dòng)特征也是多目標(biāo)跟蹤中常提取的有效特征,但是通過(guò)深度學(xué)習(xí)提取運(yùn)動(dòng)特征通常網(wǎng)絡(luò)結(jié)構(gòu)更為復(fù)雜,計(jì)算量較大。因此,大多數(shù)的多目標(biāo)跟蹤算法中更趨向于基于深度學(xué)習(xí)提取更精確的表觀特征,采用較為簡(jiǎn)單的傳統(tǒng)方法提取運(yùn)動(dòng)特征作為輔助特征。
但為了解決在復(fù)雜場(chǎng)景下,表觀特征難以獲取的情況,僅利用運(yùn)動(dòng)特征完成跟蹤任務(wù)非常必要。一些學(xué)者利用深度學(xué)習(xí)方法進(jìn)行運(yùn)動(dòng)特征提取作了許多工作。Rosello等[57]在算法中用強(qiáng)化學(xué)習(xí)框架得到運(yùn)動(dòng)特征,沒(méi)有采用任何視覺(jué)信息,因此作者認(rèn)為該算法可以改善經(jīng)典算法性能受視覺(jué)特征影響很大的不足,但由于在訓(xùn)練數(shù)據(jù)集上進(jìn)行測(cè)試,因此實(shí)驗(yàn)結(jié)果并不可靠。此外,Babaee 等[58]提出了一種長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Shot Memory Network,LSTM),該LSTM學(xué)習(xí)圖像目標(biāo)序列過(guò)去的運(yùn)動(dòng)特征,再預(yù)測(cè)當(dāng)前目標(biāo)的運(yùn)動(dòng)特征,結(jié)合IOU使用貪婪算法得到多目標(biāo)跟蹤結(jié)果,由于網(wǎng)絡(luò)學(xué)習(xí)到了大量過(guò)去幀的目標(biāo)運(yùn)動(dòng),該方法有效地減少了目標(biāo)IDs頻率。
DBT模式中,優(yōu)化算法和關(guān)聯(lián)代價(jià)是數(shù)據(jù)關(guān)聯(lián)的兩大關(guān)鍵部分。目前,基于深度學(xué)習(xí)的數(shù)據(jù)關(guān)聯(lián)算法偏向于獲取有效的深度特征提升關(guān)聯(lián)度量部分,在優(yōu)化算法提升較少。
2.3.1 基于深度學(xué)習(xí)數(shù)據(jù)關(guān)聯(lián)DBT算法分析
當(dāng)前,基于深度學(xué)習(xí)的數(shù)據(jù)關(guān)聯(lián)方法更多的是設(shè)計(jì)合理的融合表觀特征和運(yùn)動(dòng)特征的代價(jià)矩陣,從而簡(jiǎn)單的進(jìn)行相鄰幀的匹配[59]。直接基于深度學(xué)習(xí)用于數(shù)據(jù)關(guān)聯(lián)算法執(zhí)行跟蹤算法仍處于起步階段,Xu 等[60]提出的TrctrD15 算法直接根據(jù)視覺(jué)多目標(biāo)跟蹤的評(píng)價(jià)指標(biāo)特性設(shè)置損失函數(shù),設(shè)計(jì)了一個(gè)深度匈牙利網(wǎng)絡(luò),輸入相鄰幀目標(biāo)之間的距離矩陣,直接輸出有利于提高評(píng)測(cè)指標(biāo)的代價(jià)矩陣,這種訓(xùn)練方式提升了多目標(biāo)跟蹤的性能指標(biāo),但是將匈牙利算法替換為深度匈牙利網(wǎng)絡(luò)帶來(lái)了更多的計(jì)算,影響算法的運(yùn)行速度。針對(duì)各種數(shù)據(jù)關(guān)聯(lián)階段計(jì)算量復(fù)雜的問(wèn)題,Pang 等[11]提出的TubeTK 克服了提取REID 特征帶來(lái)了計(jì)算量,直接通過(guò)對(duì)目標(biāo)的時(shí)空位置和局部移動(dòng)軌跡進(jìn)行編碼,一步到位跟蹤多個(gè)目標(biāo),不受外部檢測(cè)結(jié)果的影響,也得到了當(dāng)時(shí)最先進(jìn)的性能?;谏疃妊h(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)在運(yùn)動(dòng)預(yù)測(cè)和狀態(tài)更新任務(wù)上表現(xiàn)良好,使用RNN 網(wǎng)絡(luò)或其衍生網(wǎng)絡(luò)可以更好地保留歷史信息,得到更準(zhǔn)確的目標(biāo)關(guān)聯(lián)結(jié)果。Fang 等[61]提出的RAR15 在RNN 的基礎(chǔ)上,提出一個(gè)循環(huán)自回歸網(wǎng)絡(luò)(Recurrent Autoregressive Network,RAN),通過(guò)耦合內(nèi)外存儲(chǔ)結(jié)構(gòu)描述隨時(shí)間變化的多目標(biāo)表觀和運(yùn)動(dòng)狀態(tài)變化,通過(guò)RAN的外層記憶每個(gè)軌跡的先前輸入,而內(nèi)部存儲(chǔ)結(jié)構(gòu)處理外部存儲(chǔ)結(jié)構(gòu)學(xué)習(xí)總結(jié)長(zhǎng)期跟蹤軌跡并關(guān)聯(lián)檢測(cè),其有效性在MOT15及MOT16中高度擁擠和遮擋場(chǎng)景中得到驗(yàn)證,但RAN 結(jié)構(gòu)對(duì)于長(zhǎng)期跟蹤存在優(yōu)勢(shì),對(duì)于存在視野中時(shí)間較短的目標(biāo)跟蹤效果較差。Kim 等[62]針對(duì)結(jié)合長(zhǎng)期表觀模型也難以有效解決目標(biāo)嚴(yán)重遮擋和多次漏檢情況下的困境,提出一種新型的雙線型LSTM 改進(jìn)長(zhǎng)期表觀模型,改進(jìn)在于將傳統(tǒng)LSTM中的加性耦合改變?yōu)槌诵择詈?,跟蹤性能有部分提升,但沒(méi)有完全學(xué)習(xí)好目標(biāo)的時(shí)空特征。Milan等[63]、Yoon等[64]類似地利用RNN及其衍生網(wǎng)絡(luò)得到幀間目標(biāo)的關(guān)聯(lián)信息實(shí)現(xiàn)多目標(biāo)跟蹤數(shù)據(jù)關(guān)聯(lián)問(wèn)題。
楊博等[65]在基于紅外目標(biāo)特性的基礎(chǔ)上,由于目標(biāo)的特殊性,其采取兩層數(shù)據(jù)關(guān)聯(lián)的方式,在未借助深度學(xué)習(xí)的情況下獲得了更為精確的結(jié)果,提高了算法的抗干擾性能,但手工特征較差,效果有待進(jìn)一步加強(qiáng)?;谶@種策略,高燕[66]和方嵐等[67]在分層關(guān)聯(lián)策略基礎(chǔ)上,進(jìn)一步通過(guò)深度學(xué)習(xí)提高提取外觀特征的手段,改善了長(zhǎng)時(shí)多目標(biāo)跟蹤及遮擋情況下的跟蹤準(zhǔn)確度。
2.3.2 基于深度學(xué)習(xí)數(shù)據(jù)關(guān)聯(lián)算法輕量化分析
通過(guò)2.3.1小節(jié)基于深度學(xué)習(xí)的數(shù)據(jù)關(guān)聯(lián)方法研究距離現(xiàn)實(shí)應(yīng)用還存在一定距離,主要體現(xiàn)在算法進(jìn)行特征提取關(guān)聯(lián)度量的過(guò)程存在較為復(fù)雜的計(jì)算量,在實(shí)際算法進(jìn)行邊緣化設(shè)備部署時(shí)算法的性能往往不佳。
關(guān)聯(lián)度量過(guò)程的主要計(jì)算量來(lái)自于基于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的特征提取,因此通過(guò)對(duì)當(dāng)前神經(jīng)網(wǎng)絡(luò)主流輕量化方法列舉如表5 所示。主流的神經(jīng)網(wǎng)絡(luò)輕量化可以運(yùn)用到多目標(biāo)跟蹤的數(shù)據(jù)關(guān)聯(lián)部分,用以提升算法的運(yùn)行速度。
表5 主流神經(jīng)網(wǎng)絡(luò)輕量化趨勢(shì)
另一方面,從數(shù)據(jù)關(guān)聯(lián)DBT算法自身設(shè)計(jì)出發(fā),從SORT 中可知,通過(guò)單純引入簡(jiǎn)單的特征可以實(shí)現(xiàn)快速的檢測(cè)目標(biāo)數(shù)據(jù)關(guān)聯(lián),缺點(diǎn)在于存在較多的IDs,而此后的DBT類算法著重于提高多目標(biāo)跟蹤算法的跟蹤準(zhǔn)確度及減少I(mǎi)Ds,引入各種復(fù)雜的表觀特征根及運(yùn)動(dòng)特征,加之各種深度學(xué)習(xí)模塊技巧的堆疊,多目標(biāo)跟蹤算法設(shè)計(jì)得越來(lái)越臃腫。DBT類算法中,由于檢測(cè)模塊與數(shù)據(jù)關(guān)聯(lián)模塊的分離,使得兩個(gè)模塊之間的融合度較差,檢測(cè)模塊與數(shù)據(jù)關(guān)聯(lián)模塊中存在較多的冗余,因此,JDT類算法框架可以降低兩者間的冗余,通過(guò)共享同一網(wǎng)絡(luò)結(jié)構(gòu),降低算法復(fù)雜度的同時(shí)通過(guò)增加子模塊之間的耦合度還可以進(jìn)一步增加算法的準(zhǔn)確度。
近兩年興起的JDT類算法框架在減輕了DBT類框架復(fù)雜度的同時(shí),也提高了多目標(biāo)跟蹤的精度。它的策略是在DBT的基礎(chǔ)上對(duì)部分功能模塊進(jìn)行一定程度上的融合,降低分階段處理帶來(lái)的算法復(fù)雜性同時(shí)增加功能模塊之間的耦合度??傮w來(lái)說(shuō)有三個(gè)方向,首先結(jié)合深度神經(jīng)網(wǎng)絡(luò)的特性,改造檢測(cè)網(wǎng)絡(luò),將跟蹤任務(wù)融入進(jìn)檢測(cè)網(wǎng)絡(luò),使網(wǎng)絡(luò)學(xué)習(xí)到序列幀目標(biāo)之間的關(guān)聯(lián)概率;其次,利用單目標(biāo)跟蹤任務(wù)與多目標(biāo)跟蹤任務(wù)之間強(qiáng)烈的關(guān)聯(lián)性,融合單目標(biāo)跟蹤領(lǐng)域優(yōu)秀的算法;此外,在一個(gè)網(wǎng)絡(luò)中同時(shí)學(xué)習(xí)到表觀和運(yùn)動(dòng)特征,實(shí)現(xiàn)深度特征的融合。
從上述分析可知,多目標(biāo)跟蹤的結(jié)果對(duì)于前端的目標(biāo)檢測(cè)網(wǎng)絡(luò)依賴性很高,為了進(jìn)一步實(shí)現(xiàn)算法的簡(jiǎn)潔性,實(shí)現(xiàn)檢測(cè)跟蹤兩階段的權(quán)值共享,改進(jìn)高性能的目標(biāo)檢測(cè)網(wǎng)絡(luò)用以實(shí)現(xiàn)多目標(biāo)跟蹤算法成為了近年提高多目標(biāo)跟蹤評(píng)價(jià)指標(biāo)的研究熱點(diǎn)。
文獻(xiàn)[68]最先嘗試改進(jìn)目標(biāo)檢測(cè)網(wǎng)絡(luò)加入跟蹤分支,將兩階段的R-FCN[69]目標(biāo)檢測(cè)網(wǎng)絡(luò)的第一階段所獲得的多尺度特征圖進(jìn)行交互,第二階段增加了一個(gè)偏移量回歸的任務(wù),即將多目標(biāo)跟蹤任務(wù)轉(zhuǎn)換為相鄰兩幀圖像目標(biāo)位置的相對(duì)偏移量的匹配問(wèn)題,實(shí)驗(yàn)驗(yàn)證算法有效地提高了視覺(jué)多目標(biāo)跟蹤的精度和速度。但是實(shí)質(zhì)上仍然是兩階段的多目標(biāo)跟蹤算法,為了進(jìn)一步融合跟蹤模塊,Bergmann 等[12]提出全新的聯(lián)合檢測(cè)跟蹤Tracktor++框架,將類似Faster R-CNN中的RPN模塊用數(shù)據(jù)中的跟蹤框與真實(shí)框替代,利用簡(jiǎn)單輕量的數(shù)據(jù)關(guān)聯(lián)算法實(shí)現(xiàn)跟蹤框和觀測(cè)框的匹配,用一個(gè)深度檢測(cè)網(wǎng)絡(luò)生成整個(gè)跟蹤序列結(jié)果,在當(dāng)時(shí)MOT 挑戰(zhàn)賽排名居于前列,第一次將目標(biāo)檢測(cè)和數(shù)據(jù)關(guān)聯(lián)兩個(gè)模塊融合,融合之后檢測(cè)模塊對(duì)于最終的跟蹤結(jié)果更為關(guān)鍵。因此,受Tracktor++框架啟發(fā),Zhang 等[70]進(jìn)一步改進(jìn)檢測(cè)網(wǎng)絡(luò),增加預(yù)測(cè)光流特征模塊,學(xué)習(xí)相鄰幀偏移量。Huang 等[71]也在改進(jìn)運(yùn)動(dòng)模型、表觀模型和數(shù)據(jù)關(guān)聯(lián)部分后,進(jìn)一步提高了Tracktor++框架的性能表現(xiàn),這種模式的局限性還是在于功能模塊之間的融合度不高。因此,Peng 等[72]提出的CTrack 將目標(biāo)檢測(cè)、特征提取、相似度計(jì)算3個(gè)任務(wù)集成到同一個(gè)端對(duì)端的網(wǎng)絡(luò)結(jié)構(gòu)中,借助鏈?zhǔn)浇Y(jié)構(gòu)和成對(duì)注意力回歸技術(shù)使得CTrack變得簡(jiǎn)單快速有效。
針對(duì)Trackor++模式,上述改進(jìn)的不足在于,目標(biāo)檢測(cè)算法都是基于錨框,除了在檢測(cè)小目標(biāo)和目標(biāo)數(shù)量較多情景下效果不好之外,還帶來(lái)了更多的計(jì)算量。
Zhou 等[73]受到JDT 模式的啟發(fā),通過(guò)將Faster R-CNN變換為基于無(wú)錨框模式的CenterNet設(shè)計(jì)了一種多目標(biāo)跟蹤算法,即CenterTrack[15],將多目標(biāo)跟蹤問(wèn)題轉(zhuǎn)化為非常簡(jiǎn)單的基于目標(biāo)中心點(diǎn)的跟蹤,同時(shí)實(shí)現(xiàn)了二維和三維多目標(biāo)跟蹤,包括人和車輛,在MOT、KITTI等數(shù)據(jù)集上均取得了SOTA 的成績(jī)。但是其局限性在于CenterTrack 并未提取重識(shí)別特征,在目標(biāo)長(zhǎng)時(shí)丟失情況下IDs 情況較多。同時(shí)為了解決CenterTrack 對(duì)帶標(biāo)注數(shù)據(jù)的需求,Karthik等[74]提出的UnsupTrack采用無(wú)監(jiān)督的方式預(yù)測(cè)生成標(biāo)簽并結(jié)合CenterTrack,無(wú)需跟蹤監(jiān)督就在流行的公開(kāi)數(shù)據(jù)集上實(shí)現(xiàn)了最新的性能。
單目標(biāo)跟蹤任務(wù)與視覺(jué)多目標(biāo)跟蹤任務(wù)具有強(qiáng)相關(guān)性,單目標(biāo)跟蹤算法中具備單個(gè)目標(biāo)跟蹤所應(yīng)具備的運(yùn)動(dòng)與表觀特征,隨著單目標(biāo)跟蹤領(lǐng)域的快速發(fā)展,近年來(lái)融合單目標(biāo)跟蹤進(jìn)行多目標(biāo)跟蹤的算法也不斷出現(xiàn)。
Zhu 等[75]提出的DMAN 將基于改進(jìn)版ECO[76]的單目標(biāo)跟蹤模塊嵌入多目標(biāo)跟蹤的網(wǎng)絡(luò)結(jié)構(gòu)中,利用網(wǎng)絡(luò)中包含目標(biāo)定位和分類信息的響應(yīng)圖信息提取到目標(biāo)特征,實(shí)現(xiàn)了端對(duì)端的多目標(biāo)跟蹤。Chu 等[77]提出的FAMNet和Yin等[78]提出的UMA Tracker,類似地利用單目標(biāo)跟蹤中的孿生網(wǎng)絡(luò)模塊隱式獲得目標(biāo)特征,在數(shù)據(jù)關(guān)聯(lián)模塊分別采取時(shí)空注意力機(jī)制、降低多幀關(guān)聯(lián)復(fù)雜度等方式,得到了較好的跟蹤結(jié)果,但這種機(jī)制不可避免的在目標(biāo)較多及目標(biāo)隨意進(jìn)出的場(chǎng)景下效果不佳。此外,F(xiàn)eng 等[79]針對(duì)遮擋問(wèn)題導(dǎo)致的目標(biāo)軌跡碎片過(guò)多,提出了LSST,借鑒單目標(biāo)跟蹤領(lǐng)域中快速精確的SiamRPN 框架獲取短期的軌跡特征,結(jié)合基于REID 算法提取的表觀特征具備長(zhǎng)期穩(wěn)定的特點(diǎn),在抗遮擋性上算法表現(xiàn)良好。賀思遠(yuǎn)[80]基于馬爾科夫決策,針對(duì)交通道路場(chǎng)景將目標(biāo)檢測(cè)、單目標(biāo)跟蹤、數(shù)據(jù)關(guān)聯(lián)有效結(jié)合,借助快速相關(guān)濾波跟蹤及高性能神經(jīng)網(wǎng)絡(luò),使得算法在速度和精度上均有較好的表現(xiàn),但是缺乏在當(dāng)前主流數(shù)據(jù)集上的驗(yàn)證。Chu 等[13]提出的KCF 算法結(jié)構(gòu)比較復(fù)雜,設(shè)計(jì)了Instance-aware SOT,并對(duì)檢測(cè)結(jié)果進(jìn)行校正,及時(shí)更新模型等多種手段在MOT 挑戰(zhàn)賽上名列前茅,局限性還是體現(xiàn)在實(shí)際應(yīng)用上的算法速度不佳。
融合單目標(biāo)跟蹤融合任務(wù)的JDT 模式優(yōu)勢(shì)和劣勢(shì)都很明顯,當(dāng)場(chǎng)景中的目標(biāo)數(shù)量較少時(shí),基于單目標(biāo)跟蹤強(qiáng)大的特征提取和定位能力,對(duì)于目標(biāo)虛警漏警等問(wèn)題具備一定的魯棒性,同時(shí)可以有效減少常見(jiàn)的目標(biāo)遮擋問(wèn)題。但是基于單目標(biāo)跟蹤融合模式的多目標(biāo)跟蹤主要問(wèn)題在于當(dāng)目標(biāo)數(shù)量增加時(shí),對(duì)于每一個(gè)目標(biāo)都要添加一個(gè)單目標(biāo)跟蹤器,效率方面面臨的問(wèn)題極大,因此,如何更有效地融合單目標(biāo)跟蹤還需要進(jìn)一步研究。
基于DBT 算法的分析可知,在目標(biāo)檢測(cè)網(wǎng)絡(luò)中提取的深度特征和數(shù)據(jù)關(guān)聯(lián)所依賴的深度表觀特征存在差異性,為了增加神經(jīng)網(wǎng)絡(luò)的復(fù)用性以實(shí)現(xiàn)特征融合復(fù)用,一些學(xué)者研究在網(wǎng)絡(luò)中融合檢測(cè)相關(guān)深度特征和REID特征或融合表觀特征和運(yùn)動(dòng)特征。
Wang 等[14]提出了一個(gè)JDE 模型,在基于YOLO v3檢測(cè)算法的基礎(chǔ)上,將原本基于預(yù)訓(xùn)練模型得到的表觀特征提取網(wǎng)絡(luò)嵌入為深度檢測(cè)網(wǎng)絡(luò)中的一部分,實(shí)現(xiàn)端對(duì)端的視覺(jué)多目標(biāo)跟蹤。JDE 將表觀模型嵌入單階的目標(biāo)檢測(cè)網(wǎng)絡(luò)中共享網(wǎng)絡(luò)權(quán)值,以便模型可以同時(shí)輸出檢測(cè)結(jié)果及對(duì)應(yīng)的表觀特征,基于這種融合策略提高了多目標(biāo)跟蹤的準(zhǔn)確度和實(shí)時(shí)性。在JDE 初步將檢測(cè)框架與REID融合的基礎(chǔ)上,Zhang等[81]提出FairMot,由于JDE 錨框的存在,當(dāng)目標(biāo)密集度密集度較高時(shí),降低了多目標(biāo)跟蹤的準(zhǔn)確度,采用類似CenterTrack 的無(wú)錨框設(shè)計(jì),進(jìn)一步提高了算法的MOTA 及運(yùn)行速度。Liang等[82]分析視覺(jué)多目標(biāo)跟蹤任務(wù)與REID 中存在的差異,指出任務(wù)的差異導(dǎo)致了與任務(wù)相關(guān)的特征學(xué)習(xí)不準(zhǔn)確,提出一個(gè)互相關(guān)網(wǎng)絡(luò),有效促使各個(gè)分支學(xué)習(xí)與任務(wù)相關(guān)的表觀學(xué)習(xí),并將整個(gè)網(wǎng)絡(luò)集成為一個(gè)CSTrack跟蹤網(wǎng)絡(luò),這個(gè)端對(duì)端的網(wǎng)絡(luò)充分實(shí)現(xiàn)了模塊間的特征共享,有效提高了多目標(biāo)跟蹤的精度。
隨著圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Networks,GNN)不斷取得突破,GNN 開(kāi)始應(yīng)用于特征融合并在多目標(biāo)跟蹤中取得了較大的進(jìn)展。王亞新[83]將CNN與GNN融合于數(shù)據(jù)關(guān)聯(lián)模塊實(shí)現(xiàn)了端對(duì)端的多目標(biāo)跟蹤網(wǎng)絡(luò),改善了目標(biāo)遮擋和目標(biāo)之間相互遮擋時(shí)的跟蹤精度。Liu等[84]提出的GSMTracktor 設(shè)計(jì)一種新穎的圖形表示,既考慮單目標(biāo)的特性,又考慮目標(biāo)之間的關(guān)系,同時(shí)專門(mén)設(shè)計(jì)圖形匹配模塊以減輕不可靠關(guān)系的影響。Shan等[85]提出的FUFET 同樣利用GNN 解決目標(biāo)位置、外觀和歷史信息特性的融合,解決不同幀中同一目標(biāo)特征不一致的問(wèn)題。Wang等[86]提出的GSDT結(jié)合GNN在時(shí)間和空間域中對(duì)可變大小的目標(biāo)進(jìn)行建模,整體學(xué)習(xí)用于檢測(cè)和數(shù)據(jù)關(guān)聯(lián)的可區(qū)分特征,在MOT 系列數(shù)據(jù)集中進(jìn)行廣泛實(shí)驗(yàn)證明了基于GNN的JDT模式的有效性。
在一個(gè)網(wǎng)絡(luò)中生成多種深度特征并進(jìn)行相似度計(jì)算策略提高了多目標(biāo)跟蹤的準(zhǔn)確性和速度,但是不同特征之間融合比較的有效性還待改善?;贕NN的特征融合近年在多目標(biāo)跟蹤領(lǐng)域的應(yīng)用取得了較大的突破,但是網(wǎng)絡(luò)的復(fù)用和特征的融合生成難度較大,仍然有待進(jìn)一步研究。
為了對(duì)當(dāng)前基于深度學(xué)習(xí)的視覺(jué)多目標(biāo)跟蹤算法進(jìn)行比較分析,本章通過(guò)MOTChelleng挑戰(zhàn)賽結(jié)果進(jìn)行分析比對(duì),探究驗(yàn)證基于深度學(xué)習(xí)的視覺(jué)多目標(biāo)跟蹤算法性能表現(xiàn)。結(jié)合以下條件,設(shè)計(jì)實(shí)驗(yàn)分析表格如表6~9 所示。由第2 章介紹,MOTA 和MOTP 數(shù)值越大越好,F(xiàn)N、FP、IDs越小越好。
(1)由于MOT17 數(shù)據(jù)集內(nèi)容與MOT16 一致,MOT20 參與測(cè)試的算法還較少,因此選擇MOT15 和MOT16數(shù)據(jù)集分析算法。
(2)CLEAR MOT評(píng)價(jià)指標(biāo)雖然存在著過(guò)于依賴檢測(cè)器的表現(xiàn),但是研究表明這是當(dāng)前最為符合人類視覺(jué)判斷的參考指標(biāo)。
(3)由于基于公共檢測(cè)和基于私人檢測(cè)的算法差異性過(guò)大,因此分開(kāi)討論算法性能,由于現(xiàn)實(shí)中應(yīng)用場(chǎng)景更廣的是在線多目標(biāo)跟蹤算法,這里僅分析在線多目標(biāo)算法。
通過(guò)表6~9 列舉了不同多目標(biāo)跟蹤算法在MOT15和MOT16 上的CLEAR MOT 指標(biāo)分?jǐn)?shù),根據(jù)數(shù)據(jù)進(jìn)行總體分析如下:
表6 基于公共檢測(cè)多目標(biāo)跟蹤算法MOT15 CLEAR MOT評(píng)價(jià)指標(biāo)(按MOTA排序)
表7 基于私人檢測(cè)多目標(biāo)跟蹤算法MOT15 CLEAR MOT評(píng)價(jià)指標(biāo)(按MOTA排序)
表8 基于公共檢測(cè)多目標(biāo)跟蹤算法MOT16 CLEAR MOT評(píng)價(jià)指標(biāo)(按MOTA排序)
表9 基于私人檢測(cè)多目標(biāo)跟蹤算法MOT16 CLEAR MOT評(píng)價(jià)指標(biāo)(按MOTA排序)
(1)從基于公共檢測(cè)和私人檢測(cè)來(lái)看,基于私人檢測(cè)的多目標(biāo)跟蹤算法在準(zhǔn)確度和精度上大幅領(lǐng)先基于公共檢測(cè)的多目標(biāo)跟蹤算法,多目標(biāo)跟蹤對(duì)于前端的檢測(cè)算法依賴性很高,提高檢測(cè)器的性能對(duì)于提高多目標(biāo)跟蹤表現(xiàn)至關(guān)重要。
(2)從式(1)可知,MOTA 由FN、FP、IDs 共同決定,但在檢測(cè)結(jié)果中FN比FP和IDs相比往往多至少一個(gè)量級(jí),即使公共檢測(cè)的方法在一定程度上減少了FN,但是私人構(gòu)建和訓(xùn)練的檢測(cè)器在減少FN最有效。
(3)IDs 指標(biāo)對(duì)于多目標(biāo)跟蹤算法準(zhǔn)確度MOTA 影響相對(duì)較少,但在實(shí)際應(yīng)用中IDs的表現(xiàn)是考核算法的重要指標(biāo),大部分基于公共檢測(cè)的多目標(biāo)跟蹤算法重點(diǎn)工作即在減少I(mǎi)Ds綜合提高M(jìn)OTA,基于私人檢測(cè)的算法在得到了較好的檢測(cè),相對(duì)而言IDs表現(xiàn)并不令人滿意。
(4)Hz指標(biāo)受限于測(cè)試的硬件及軟件平臺(tái)不一致,不能作為絕對(duì)的算法速度判斷,但考慮到比賽挑戰(zhàn)者大多采用當(dāng)時(shí)性能最好的硬件做算法測(cè)試,因此,整體看來(lái),當(dāng)前的絕大部分多目標(biāo)跟蹤算法難以滿足實(shí)時(shí)多目標(biāo)跟蹤和邊緣設(shè)備部署的要求,難以落地。
(1)基于DBT算法
在MOT15 數(shù)據(jù)集中的公共檢測(cè)是基于傳統(tǒng)的DPM 行人檢測(cè)器,而基于私人檢測(cè)的多目標(biāo)跟蹤算法僅通過(guò)改進(jìn)檢測(cè)器為深度神經(jīng)網(wǎng)絡(luò)檢測(cè)器后,算法的準(zhǔn)確度大大提高,整體均優(yōu)于基于DPM的公共檢測(cè)算法,基于深度學(xué)習(xí)對(duì)于檢測(cè)器的加持對(duì)于跟蹤效果提升明顯?;谏疃葘W(xué)習(xí)進(jìn)行REID表觀特征提取或運(yùn)動(dòng)特征提取作為數(shù)據(jù)關(guān)聯(lián)的代價(jià)矩陣,可以得到更為穩(wěn)定魯棒的特征,增強(qiáng)算法數(shù)據(jù)關(guān)聯(lián)的準(zhǔn)確性,僅通過(guò)REID深度神經(jīng)網(wǎng)絡(luò)提取的表觀特征DeepSort 相比Sort 大大減少了IDs。當(dāng)前基于深度學(xué)習(xí)進(jìn)行數(shù)據(jù)關(guān)聯(lián)的算法還不能實(shí)時(shí)應(yīng)用,大部分算法就是在后端使用簡(jiǎn)單的匈牙利數(shù)據(jù)關(guān)聯(lián)算法,但是,基于深度匈牙利算法的TrctrD算法排名前列說(shuō)明了深度學(xué)習(xí)對(duì)于提升數(shù)據(jù)關(guān)聯(lián)階段的能力。
基于深度學(xué)習(xí)的DBT模式最明顯的劣勢(shì)還是在運(yùn)行速度方面,除了早期的Sort等僅利用IOU進(jìn)行數(shù)據(jù)關(guān)聯(lián)的多目標(biāo)跟蹤算法,算法處理過(guò)程簡(jiǎn)單,運(yùn)算速度極快,但是包括檢測(cè)效果和IDs 等表現(xiàn)都很差,基于DBT模式的多目標(biāo)跟蹤功能算法難以實(shí)現(xiàn)精度和速度均衡。
(2)基于JDT算法
JDT模式與DBT模式的最大不同就是在DBT四階段中基于深度神經(jīng)網(wǎng)絡(luò)進(jìn)行部分階段融合,Tracktor++直接將數(shù)據(jù)關(guān)聯(lián)階段用兩階段檢測(cè)網(wǎng)絡(luò)的RPN網(wǎng)絡(luò)替代,促進(jìn)了檢測(cè)與跟蹤的融合,提高跟蹤準(zhǔn)度?;贕NN 的多目標(biāo)跟蹤算法在榜單排名前列在于GNN 對(duì)于特征的融合效果更好,但是GNN 也帶來(lái)了更多的復(fù)雜計(jì)算。由于單目標(biāo)跟蹤領(lǐng)域的快速發(fā)展,出現(xiàn)了大量在精度和速度都表現(xiàn)優(yōu)異的算法,同時(shí)基于深度學(xué)習(xí)和相關(guān)濾波具有目標(biāo)的位置信息,運(yùn)動(dòng)信息及分類信息,基于單目標(biāo)跟蹤的KCF 在MOT15 和MOT16 都排名前列顯示了將單目標(biāo)跟蹤拓展至多目標(biāo)跟蹤的可能,但是,隨著場(chǎng)景內(nèi)目標(biāo)增多,勢(shì)必為多個(gè)目標(biāo)增加跟蹤器,算法的速度也會(huì)越來(lái)越慢。
本文概述了近年來(lái)基于深度學(xué)習(xí)的視覺(jué)多目標(biāo)跟蹤算法,分為DBT與JDT兩大類算法進(jìn)行分析,結(jié)合公開(kāi)數(shù)據(jù)集對(duì)算法進(jìn)行驗(yàn)證,發(fā)現(xiàn)DBT類算法結(jié)構(gòu)簡(jiǎn)單,可解釋較高,但是各子模塊之間關(guān)聯(lián)度較低,導(dǎo)致算法在跟蹤準(zhǔn)確度與速度上都有較大的提升空間,而JDT類算法通過(guò)融合多模塊聯(lián)合學(xué)習(xí),對(duì)跟蹤性能提升顯著。重點(diǎn)闡述了深度學(xué)習(xí)在DBT類與JDT類算法各子模塊所實(shí)現(xiàn)的功能與優(yōu)缺點(diǎn),分析顯示DBT 類算法通過(guò)在傳統(tǒng)子模塊中嵌入深度學(xué)習(xí)模塊使得目標(biāo)檢測(cè)、特征提取、數(shù)據(jù)關(guān)聯(lián)等模塊對(duì)于目標(biāo)跟蹤增益巨大,但隨之帶來(lái)了算法速度的損失;深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)是JDT類算法得以發(fā)展的關(guān)鍵,通過(guò)融合多模塊聯(lián)合學(xué)習(xí),實(shí)現(xiàn)了在線端對(duì)端的多目標(biāo)跟蹤算法,其中,檢測(cè)器性能對(duì)JDT類算法跟蹤表現(xiàn)起著關(guān)鍵作用,從公開(kāi)數(shù)據(jù)集的算法排名結(jié)果顯示當(dāng)前JDT類算法基本占據(jù)了榜前TOP5。通過(guò)以上對(duì)比分析與總結(jié),目前多目標(biāo)跟蹤總體是從DBT類算法向JDT發(fā)展,分階段實(shí)現(xiàn)算法的準(zhǔn)確度和速度的均衡。然而,當(dāng)前多目標(biāo)跟蹤還存在對(duì)多目標(biāo)頻繁遮擋、目標(biāo)數(shù)量較多等場(chǎng)景下算法表現(xiàn)不佳的問(wèn)題。未來(lái)可以開(kāi)展的工作包括以下幾個(gè)方面:
(1)數(shù)據(jù)集的制備與性能基準(zhǔn)的構(gòu)建。當(dāng)前視覺(jué)多目標(biāo)跟蹤公開(kāi)的數(shù)據(jù)集關(guān)注的場(chǎng)景絕大部分集中在場(chǎng)景相對(duì)簡(jiǎn)單的行人和車輛,在目標(biāo)類別更多樣、目標(biāo)更密集、氣候變化等復(fù)雜因素下進(jìn)行數(shù)據(jù)集獲取、清洗、標(biāo)注、深加工等是未來(lái)可繼續(xù)開(kāi)展的方向。此外,通過(guò)分析可知,當(dāng)前多目標(biāo)跟蹤的評(píng)價(jià)指標(biāo)過(guò)分依賴于檢測(cè)器,建立更有效的性能基準(zhǔn)以評(píng)測(cè)出層出不窮的多目標(biāo)跟蹤算法全面性能,為性能優(yōu)化和提升提供支持,也是未來(lái)值得研究的方向之一。
(2)多目標(biāo)跟蹤算法各個(gè)環(huán)節(jié)能力的提升。從文中分析結(jié)果可知,傳統(tǒng)的目標(biāo)檢測(cè)、特征提取、數(shù)據(jù)關(guān)聯(lián)等方法基于深度學(xué)習(xí)的改進(jìn)具有極大的性能提升,但隨之明顯損失了算法的性能。因此,傳統(tǒng)方法與深度學(xué)習(xí)類方法融合互補(bǔ)的再深入研究也是未來(lái)可推進(jìn)的工作,這一方面取決于深度學(xué)習(xí)可解釋性的研究推進(jìn),也取決于傳統(tǒng)方法的適應(yīng)性改進(jìn),從多目標(biāo)跟蹤算法解決實(shí)際問(wèn)題出發(fā)的視角尋求原理性的突破,例如新的網(wǎng)絡(luò)結(jié)構(gòu)、新的訓(xùn)練方法、新的代價(jià)函數(shù)等以解決密集多目標(biāo)跟蹤的不準(zhǔn)確、IDs頻繁等痛點(diǎn)問(wèn)題。
(3)多目標(biāo)跟蹤算法在具體場(chǎng)景中的落地。通過(guò)文中分析當(dāng)前絕大多數(shù)算法缺少落地可實(shí)現(xiàn)性,這一問(wèn)題未來(lái)可研究的方向有兩方面:一方面提升算法實(shí)現(xiàn)的實(shí)時(shí)性,包括輕量化網(wǎng)絡(luò)結(jié)構(gòu)及其實(shí)現(xiàn)、硬件平臺(tái)的適配優(yōu)化、硬件加速等技術(shù)的提升;另一方面,針對(duì)特定問(wèn)題的專用數(shù)據(jù)集的制備、針對(duì)性訓(xùn)練,提高泛化能力的針對(duì)性,深入研究遷移學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等方法,降低算法對(duì)專用數(shù)據(jù)集的依賴,提升算法的泛化能力。