陸平+鄧碩+李偉華
摘要:提出了一種基于深度學(xué)習(xí)的多目標(biāo)跟蹤算法。首先,通過(guò)GoogLeNet+長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)模型進(jìn)行目標(biāo)檢測(cè),以獲得準(zhǔn)確的目標(biāo)檢測(cè)結(jié)果;其次,直接根據(jù)目標(biāo)檢測(cè)的特征圖對(duì)檢測(cè)目標(biāo)進(jìn)行深度特征的提取,深度特征相比于傳統(tǒng)特征可以更準(zhǔn)確地反映檢測(cè)目標(biāo)的外觀特征,因此可以有效提高跟蹤的準(zhǔn)確性。此外,還在傳統(tǒng)數(shù)據(jù)驅(qū)動(dòng)馬爾科夫蒙特卡洛(DDMCMC)算法的基礎(chǔ)上,提出了層次的數(shù)據(jù)驅(qū)動(dòng)馬爾科夫蒙特卡洛(HDDMCMC)算法,可以進(jìn)一步提高多目標(biāo)跟蹤的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果證明了所提出算法的有效性。
關(guān)鍵詞: 多目標(biāo)跟蹤;深度學(xué)習(xí);目標(biāo)檢測(cè);MCMC算法
自從深度學(xué)習(xí)技術(shù)出現(xiàn)以來(lái),計(jì)算機(jī)視覺(jué)領(lǐng)域得到了快速發(fā)展,深度學(xué)習(xí)技術(shù)最先用于圖像分類問(wèn)題。近年來(lái),基于深度學(xué)習(xí)的多目標(biāo)跟蹤算法也取得了一定的突破。多目標(biāo)跟蹤是計(jì)算機(jī)視覺(jué)領(lǐng)域一個(gè)非常具有挑戰(zhàn)性的研究方向,且有著十分廣泛的現(xiàn)實(shí)應(yīng)用場(chǎng)景,例如:智能視頻監(jiān)測(cè)控制、異常行為分析、移動(dòng)機(jī)器人研究等。傳統(tǒng)的多目標(biāo)跟蹤算法往往由于目標(biāo)檢測(cè)效果較差,導(dǎo)致跟蹤效果不佳;而基于深度學(xué)習(xí)的檢測(cè)器可以獲得較好的目標(biāo)檢測(cè)效果,進(jìn)而提高目標(biāo)跟蹤的準(zhǔn)確度。
因此,文章中我們著重研究了基于深度學(xué)習(xí)的多目標(biāo)跟蹤算法。首先通過(guò)GoogLeNet[1]+長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)[2]模型進(jìn)行目標(biāo)檢測(cè),以獲得準(zhǔn)確的目標(biāo)檢測(cè)結(jié)果。在此基礎(chǔ)上,提出了直接根據(jù)目標(biāo)檢測(cè)的特征圖對(duì)檢測(cè)目標(biāo)進(jìn)行深度特征的提取的方法,深度特征相比于尺度不變特征變換(SIFT)[3]等傳統(tǒng)特征可以更準(zhǔn)確地反應(yīng)檢測(cè)目標(biāo)的外觀特征,因此可以提高目標(biāo)跟蹤算法的準(zhǔn)確性。此外,還在基于馬爾科夫蒙特卡洛(MCMC)算法的多目標(biāo)跟蹤算法的基礎(chǔ)上,提出了層次的數(shù)據(jù)驅(qū)動(dòng)馬爾科夫蒙特卡洛(HDDMCMC)算法。
1 基于深度學(xué)習(xí)的多目標(biāo)跟蹤算法的研究現(xiàn)狀
1.1 傳統(tǒng)多目標(biāo)跟蹤算法
MCMC算法是一種經(jīng)典的多目標(biāo)跟蹤算法,Yu等人在MCMC算法的基礎(chǔ)上提出了數(shù)據(jù)驅(qū)動(dòng)的馬爾科夫蒙特卡羅(DDMCMC)算法[4]。在使用該算法獲得檢測(cè)數(shù)據(jù)后,我們按照傳統(tǒng)的MCMC算法,對(duì)當(dāng)前軌跡中的檢測(cè)數(shù)據(jù)進(jìn)行位置和長(zhǎng)相特征的衡量,來(lái)計(jì)算當(dāng)前的后驗(yàn)概率大小,然后在迭代過(guò)程中不斷進(jìn)行不同狀態(tài)之間的轉(zhuǎn)移來(lái)進(jìn)行尋找全局最優(yōu)結(jié)果。
Tang等人提出了一種基于圖分割的多目標(biāo)跟蹤算法[5],通過(guò)在時(shí)間和空間上對(duì)邊界框進(jìn)行聚類來(lái)進(jìn)行軌跡匹配。Tang等人在用該算法解決軌跡匹配這一最優(yōu)化問(wèn)題時(shí),提出了一種基于KL(Kernighan-Lin)算法的近似解法,運(yùn)用該算法求得的結(jié)果與剪枝法求得的結(jié)果相比,準(zhǔn)確率略微下降,但是運(yùn)算速度有較大提高。
1.2 基于深度學(xué)習(xí)的多目標(biāo)跟蹤算法
Bing等人提出了一種聯(lián)合學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)(CNN)特征和時(shí)域約束度量的模型,通過(guò)這個(gè)訓(xùn)練模型結(jié)合相應(yīng)的損失函數(shù)可以構(gòu)建出軌跡親和力模型,再通過(guò)傳統(tǒng)的圖匹配方法將所有的軌跡進(jìn)行聯(lián)合,利用softassign算法求出軌跡匹配最優(yōu)解,得到最終結(jié)果。
Fengwei等人提出了一種基于深度學(xué)習(xí)的目標(biāo)檢測(cè)外觀特征,將這種特征應(yīng)用到多目標(biāo)跟蹤后,獲得了較高的跟蹤準(zhǔn)確度,但需要大量的訓(xùn)練數(shù)據(jù)和時(shí)間,且無(wú)法達(dá)到實(shí)時(shí)跟蹤的效果。
基于深度學(xué)習(xí)的多目標(biāo)跟蹤算法的跟蹤準(zhǔn)確度相對(duì)于傳統(tǒng)多目標(biāo)跟蹤算法有了較大提升,但仍需要大量的訓(xùn)練數(shù)據(jù)和時(shí)間,且實(shí)時(shí)性不足。針對(duì)這一問(wèn)題,我們?cè)诨谏疃葘W(xué)習(xí)的目標(biāo)檢測(cè)算法的基礎(chǔ)上,提出一種可直接利用目標(biāo)檢測(cè)的特征圖得到深度特征的多目標(biāo)跟蹤算法,并基于HDDMCMC算法得到跟蹤結(jié)果。
2 基于目標(biāo)檢測(cè)特征圖的多目標(biāo)跟蹤算法框架
我們提出的算法框架如圖1所示。算法整體上可以分為目標(biāo)檢測(cè)、特征提取、檢測(cè)目標(biāo)關(guān)聯(lián)這3個(gè)模塊。對(duì)于輸入視頻,首先通過(guò)GoogLeNet + LSTM模型進(jìn)行目標(biāo)檢測(cè),根據(jù)檢測(cè)模塊中的特征圖,對(duì)檢測(cè)目標(biāo)提取深度特征,利用深度特征可以計(jì)算外觀相似度,進(jìn)而通過(guò)DDMCMC算法對(duì)檢測(cè)目標(biāo)進(jìn)行匹配,形成完整的軌跡,得到跟蹤結(jié)果?;谀繕?biāo)檢測(cè)特征圖的特征提取模塊和基于HDDMCMC算法的檢測(cè)目標(biāo)關(guān)聯(lián)模塊是該算法的主要?jiǎng)?chuàng)新點(diǎn)。
3 基于GoogLeNet+LSTM的目標(biāo)檢測(cè)
目標(biāo)檢測(cè)是基于數(shù)據(jù)聯(lián)合的多目標(biāo)跟蹤算法的基礎(chǔ),針對(duì)在復(fù)雜場(chǎng)景下目標(biāo)過(guò)小和目標(biāo)遮擋等問(wèn)題,我們利用GoogLeNet + LSTM這一框架進(jìn)行目標(biāo)檢測(cè)。對(duì)于輸入視頻,我們首先使用GoogLeNet進(jìn)行卷積,在最后一層得到1×1 024×15×20的特征圖陣列,把它進(jìn)行轉(zhuǎn)置成為300×1 024的特征圖陣列。每個(gè)1 024維的向量對(duì)應(yīng)原圖中139×139的區(qū)域。
在利用GoogleNet進(jìn)行卷積以后可以得到300×1 024的特征圖陣列,然后通過(guò)LSTM子模塊并行處理每一個(gè)1 024維向量。對(duì)于每一個(gè)輸出的隱狀態(tài),經(jīng)過(guò)兩個(gè)不同的全連接層:一個(gè)直接輸出框的位置和寬高,一個(gè)再經(jīng)過(guò)softmax層輸出這個(gè)框的置信度。LSTM子模塊共有5個(gè)這樣的LSTM單元,即對(duì)于每個(gè)輸入預(yù)測(cè)5個(gè)可能的框和對(duì)應(yīng)的置信度,在訓(xùn)練中使得框的位置集中在感知區(qū)域中心的64×64的位置,置信度是從高到低排的。
每個(gè)1 024維的向量經(jīng)過(guò)LSTM陣列處理以后,可以得到對(duì)應(yīng)原圖中64×64小塊的5個(gè)檢測(cè)框以及對(duì)應(yīng)的置信度。因?yàn)長(zhǎng)STM是并行處理的,所以生成的對(duì)64×64區(qū)域的檢測(cè)結(jié)果是有重疊的。最后框處理子模塊需要對(duì)整個(gè)視頻幀的所有檢測(cè)框進(jìn)行篩選,然后再通過(guò)給定一個(gè)閾值去掉置信度低的框,并給出最終檢測(cè)結(jié)果。具體流程是:對(duì)于已經(jīng)確定的框,如果一個(gè)待選的框與它有相交,則去除這個(gè)框,限制一個(gè)已經(jīng)確定的框至多去除一個(gè)待選框。在上述匹配的時(shí)候代價(jià)用(m, d)衡量,m表示評(píng)估的二者是否相交,取值{0,1},d衡量評(píng)估的兩個(gè)框之間曼哈頓距離。m的重要性大于d,即對(duì)兩種匹配方案得到的結(jié)果,先比較m大小,如果不能得出結(jié)論,再比較d的大小。我們使用匈牙利算法來(lái)尋找代價(jià)最小的匹配方式,假設(shè)篩選的置信度閾值設(shè)為0.5,那么則去掉那些置信度低于0.5的框。
為有效對(duì)目標(biāo)檢測(cè)模型進(jìn)行訓(xùn)練,我們采用了如下訓(xùn)練方法:首先在LSTM子模塊得到較多待選框,但存在檢測(cè)錯(cuò)誤或誤差。錯(cuò)誤或誤差的情況有3種:
(1)把不是人頭尖的地方框出;
(2)預(yù)測(cè)框位置和真值框位置的差異;
(3)對(duì)同一個(gè)目標(biāo)產(chǎn)生了多個(gè)預(yù)測(cè)框。
對(duì)于情況(1),可通過(guò)賦予待選框較低的置信度來(lái)杜絕;對(duì)于情況(2),需要修正待選框和與之匹配的真值框之間的誤差;對(duì)于情況(3),可通過(guò)給同一個(gè)目標(biāo)后生成的預(yù)測(cè)框賦予較低的置信度來(lái)杜絕。
模型訓(xùn)練時(shí)的損失函數(shù)如公式(1)所示:
其中,G代表框的真值,C代表待選框,f代表匹配算法,代表真值框里面的第i個(gè)框,代表待選框里面第j個(gè)框,代表兩者之間的曼哈頓距離,是交叉熵?fù)p失,也就是對(duì)應(yīng)網(wǎng)絡(luò)里面的softmax損失。這個(gè)損失函數(shù)的前一項(xiàng)代表待選框和與之匹配的真值框的位置誤差,后一項(xiàng)代表待選框的置信度,調(diào)整這兩種損失之間的平衡。
匹配算法為匈牙利算法,其中用的比較函數(shù)如公式(2)所示:
其中,取值為{0,1},若待選框的中心落在真值框中,則為0,否則為1;為該待選框生成的序號(hào),目的是在匹配的時(shí)候,偏好先生成置信度比較高的框,故匹配同一個(gè)目標(biāo)時(shí),排序越靠前代價(jià)越低;是兩個(gè)框之間的距離,即距離誤差。
4 基于目標(biāo)檢測(cè)特征圖的深度特征提取
在檢測(cè)模塊中得到對(duì)應(yīng)框的位置時(shí),得到的是人頭的位置,按一定比例放大可以覆蓋全身。得到行人的框位置和大小后,我們進(jìn)一步利用GoogLeNet的最后一層卷積層得到的特征圖陣列去提取特征。我們使用的方法是快速-區(qū)域CNN(RCNN)[6]中提到的感興趣區(qū)域(ROI)池化,即根據(jù)特征圖陣列相對(duì)于輸入圖片的縮小比例,把原圖中的感興趣區(qū)域在特征圖陣列中對(duì)應(yīng)的感興趣區(qū)域池化成一個(gè)1 024維的向量。其中縮小比例為32倍,即得到框的位置按32倍比例縮小,并且為了減少背景影響,最大化池化這一池化類型更加有效。通過(guò)將檢測(cè)模塊中的特征圖進(jìn)行池化,可得到對(duì)檢測(cè)模塊中檢測(cè)到的每個(gè)目標(biāo)的深度特征,因?yàn)槊總€(gè)特征都是高度抽象的,可以很好地表征目標(biāo)的外觀特征。
文中,我們所提出算法的重要特點(diǎn)就是利用目標(biāo)檢測(cè)中的特征圖進(jìn)行池化來(lái)得到目標(biāo)跟蹤所需要的深度特征,而不需要重新進(jìn)行訓(xùn)練,因此可以在不犧牲目標(biāo)跟蹤算法的實(shí)時(shí)性的前提下,提高跟蹤準(zhǔn)確性。
5 基于HDDMCMC算法的目標(biāo)檢測(cè)關(guān)聯(lián)
5.1 傳統(tǒng)MCMC算法
為了對(duì)檢測(cè)數(shù)據(jù)進(jìn)行最優(yōu)關(guān)聯(lián),可利用MCMC算法進(jìn)行建模。傳統(tǒng)MCMC算法的計(jì)算過(guò)程為:在迭代過(guò)程中,均勻隨機(jī)選取一個(gè)轉(zhuǎn)移動(dòng)作(包括產(chǎn)生、消失、融合、分裂、擴(kuò)展、收縮和交換等),把當(dāng)前的行人軌跡按照此轉(zhuǎn)移動(dòng)作進(jìn)行轉(zhuǎn)換,即從狀態(tài)w轉(zhuǎn)移到狀態(tài)w。在此情況下,可以計(jì)算得到轉(zhuǎn)移前后的后驗(yàn)概率和,以及轉(zhuǎn)移概率和,從而可以計(jì)算得出此時(shí)的接收概率。將此接收概率與從均勻0~1分布中隨機(jī)抽取的值進(jìn)行比較,如果出現(xiàn),則接收當(dāng)前這個(gè)轉(zhuǎn)移,使得當(dāng)前狀態(tài)轉(zhuǎn)移為,即,否則不接受此轉(zhuǎn)移。為了得到最大后驗(yàn)概率,我們?cè)賹⑥D(zhuǎn)移后的狀態(tài)與當(dāng)前的最優(yōu)狀態(tài)進(jìn)行比較,如果轉(zhuǎn)移后的狀態(tài)優(yōu)于當(dāng)前的最優(yōu)狀態(tài),則對(duì)最優(yōu)狀態(tài)進(jìn)行更新,即。
在傳統(tǒng)MCMC算法的基礎(chǔ)上,我們提出了HDDMCMC算法,即把傳統(tǒng)的單層MCMC算法分為段內(nèi)MCMC算法和段間MCMC算法。如圖2所示,假設(shè)當(dāng)前處理的時(shí)間段是,我們首先對(duì)此段執(zhí)行段內(nèi)MCMC算法并得到相應(yīng)的段內(nèi)行人軌跡。在此之前,段和段內(nèi)的MCMC算法已執(zhí)行完成,并執(zhí)行了兩者之間的段間MCMC算法,從而得到對(duì)應(yīng)時(shí)間幀內(nèi)的行人軌跡;然后把其中已走出當(dāng)前區(qū)域的行人軌跡選擇出來(lái),再對(duì)段和段再執(zhí)行段間MCMC算法,得到當(dāng)前的行人軌跡。HDDMCMC算法即按照此種方式不斷執(zhí)行,直到視頻序列結(jié)束。
5.2 段內(nèi)MCMC算法
在多目標(biāo)跟蹤算法中,考慮到運(yùn)動(dòng)的穩(wěn)定性和連續(xù)性(即同一個(gè)目標(biāo)在前后幀視頻數(shù)據(jù)中,外觀特征不會(huì)發(fā)生劇烈變化),在段內(nèi)MCMC算法中,使用第4節(jié)中的深度特征對(duì)目標(biāo)軌跡的相似度進(jìn)行度量。
可以將每個(gè)檢測(cè)目標(biāo)看成一個(gè)節(jié)點(diǎn),以段內(nèi)時(shí)間來(lái)進(jìn)行敘述。假設(shè)視頻幀t內(nèi)的節(jié)點(diǎn)集合為,后驗(yàn)概率的設(shè)定如公式(3)所示:
其中,和分別代表第k條行人軌跡中第n+1個(gè)和第n個(gè)節(jié)點(diǎn),即為兩節(jié)點(diǎn)的相似度,可用兩節(jié)點(diǎn)深度特征的夾角余弦值來(lái)進(jìn)行計(jì)算。公式第2項(xiàng)中的代表的是不同軌跡的長(zhǎng)度,保證行人軌跡的完整;公式第3項(xiàng)中的代表的是虛警的個(gè)數(shù),保證虛警率較低。
圖3為MCMC算法中7種操作:產(chǎn)生和消失這兩個(gè)轉(zhuǎn)移動(dòng)作如圖3a)所示,其中,左邊黑色的點(diǎn)代表虛警集合中的點(diǎn),經(jīng)過(guò)產(chǎn)生操作后轉(zhuǎn)化為右邊紅色點(diǎn)所代表的行人軌跡,消失操作為反向順序;融合和分裂這兩個(gè)轉(zhuǎn)移動(dòng)作如圖3b)所示;擴(kuò)展和收縮這兩個(gè)轉(zhuǎn)移動(dòng)作如圖3c)所示,交換和轉(zhuǎn)移動(dòng)作如圖3d)所示,此操作前后互為逆操作。
5.3 段間MCMC算法
段間MCMC算法使用的數(shù)據(jù)主要是段內(nèi)MCMC算法生成的目標(biāo)軌跡。在段間MCMC算法中,主要采取的轉(zhuǎn)移動(dòng)作包括融合和分裂操作以及交換操作。因?yàn)?,在?jīng)過(guò)段內(nèi)MCMC算法之后,生成許多較為可靠的目標(biāo)軌跡。此時(shí)若存在同一目標(biāo)軌跡斷裂的情況,就是由于檢測(cè)數(shù)據(jù)不穩(wěn)定,對(duì)應(yīng)目標(biāo)碰撞或者遮擋導(dǎo)致對(duì)應(yīng)的漏檢幀數(shù)過(guò)多等原因造成的。因此,段間MCMC的目的是將兩個(gè)時(shí)間段的目標(biāo)軌跡數(shù)據(jù)做進(jìn)一步的數(shù)據(jù)聯(lián)合。當(dāng)前狀態(tài)下,后驗(yàn)概率項(xiàng)更新為公式(4)所示。
在公式(4)中,我們不再考慮虛警因素,因?yàn)榇颂幹饕菍?duì)目標(biāo)軌跡的劃分操作。由于已有之前較為可靠的兩個(gè)時(shí)間段內(nèi)的目標(biāo)軌跡數(shù)據(jù)作為輔助,因此可以在更加寬松的條件下進(jìn)行抽樣工作。對(duì)于融合操作,此時(shí)允許的時(shí)間間隔設(shè)定為,且兩個(gè)目標(biāo)的軌跡段與段之間連接處的幀差不能超過(guò)6。對(duì)于概率中的標(biāo)準(zhǔn)差的設(shè)定,此時(shí)為,即允許在理想位置周圍的變化幅度是一個(gè)當(dāng)前目標(biāo)的大小。對(duì)于分裂操作和交換操作,抽樣的時(shí)間節(jié)點(diǎn)在段與段連接處的時(shí)間幀為左右各6幀時(shí)間以內(nèi)。通過(guò)這種方式,可使得不同狀態(tài)之間進(jìn)行轉(zhuǎn)移的單位是之前已生成的較為完整的目標(biāo)軌跡片段。
在當(dāng)前的段間MCMC算法結(jié)合之后,把已走出視頻場(chǎng)景的目標(biāo)移除當(dāng)前數(shù)據(jù)集,此時(shí)的當(dāng)前數(shù)據(jù)集假設(shè)為。當(dāng)下一個(gè)段內(nèi)MCMC得到軌跡之后,通過(guò)段間MCMC算法與進(jìn)行匹配,即繼續(xù)在之前目標(biāo)數(shù)據(jù)的基礎(chǔ)之上,結(jié)合當(dāng)前的目標(biāo)數(shù)據(jù),做進(jìn)一步的數(shù)據(jù)聯(lián)合來(lái)優(yōu)化。整個(gè)算法按照這樣的滑動(dòng)方式不斷進(jìn)行。
6 實(shí)驗(yàn)結(jié)果及分析
6.1 MOT2015訓(xùn)練數(shù)據(jù)庫(kù)的實(shí)驗(yàn)結(jié)果
本小節(jié)中,我們介紹的是MOT2015訓(xùn)練數(shù)據(jù)庫(kù)[8]中的實(shí)驗(yàn)結(jié)果,此數(shù)據(jù)庫(kù)總共包括11個(gè)視頻,有固定視角、運(yùn)動(dòng)視角等場(chǎng)景,同時(shí)又有俯視視角、平時(shí)視角等場(chǎng)景,由于場(chǎng)景變化多樣,不同目標(biāo)之間的接觸和碰撞較多,挑戰(zhàn)性較大。
我們使用的衡量指標(biāo)[9]包括多目標(biāo)跟蹤的準(zhǔn)確度(MOTA)、多目標(biāo)跟蹤的精確度(MOTP)、漏檢數(shù)目(FN)、虛警數(shù)目(FP)等,其中MOTA指標(biāo)是用來(lái)衡量整體跟蹤準(zhǔn)確度,最具代表性。實(shí)驗(yàn)結(jié)果如表1所示,其中MOTA和MOTP是11個(gè)數(shù)據(jù)庫(kù)的平均值,F(xiàn)N、FP和ID Sw是11個(gè)數(shù)據(jù)庫(kù)的總和。
文章中,我們所提出算法的主要?jiǎng)?chuàng)新點(diǎn)為基于目標(biāo)檢測(cè)特征圖的特征提取模塊和基于層次的數(shù)據(jù)驅(qū)動(dòng)馬爾科夫蒙特卡洛算法的檢測(cè)目標(biāo)關(guān)聯(lián)模塊,為了驗(yàn)證這兩個(gè)創(chuàng)新點(diǎn)的有效性,我們分別用4種方法進(jìn)行了實(shí)驗(yàn):
(1)SIFT+MCMC,即用SIFT特征結(jié)合傳統(tǒng)MCMC算法。
(2)SIFT+HDDMCMC,即用傳統(tǒng)SIFT特征結(jié)合文中所提出的HDDMCMC算法。
(3)CNN+MCMC,即用文中提出的通過(guò)目標(biāo)檢測(cè)特征圖提取的深度特征結(jié)合傳統(tǒng)MCMC算法。
(4)CNN+HDDMCMC,即用通過(guò)目標(biāo)檢測(cè)特征圖提取的深度特征結(jié)合HDDMCMC算法,也即文中我們提出算法的完整版。
實(shí)驗(yàn)結(jié)果如表1所示,對(duì)比SIFT+MCMC和SIFT+HDDMCMC可知:我們提出的基于層次的HDDMCMC算法相比于傳統(tǒng)的MCMC算法可以在一定程度上提升跟蹤效果;對(duì)比SIFT+MCMC和CNN+MCMC可知:通過(guò)用目標(biāo)檢測(cè)特征圖提取的深度特征來(lái)代替?zhèn)鹘y(tǒng)的SIFT特征,可以在很大程度上提升跟蹤效果;CNN+HDDMCMC算法,即文中我們提出算法的完整版的各項(xiàng)檢測(cè)指標(biāo)都優(yōu)于其他方法,更進(jìn)一步證明了所提出算法的有效性。
圖4和圖5是兩張跟蹤效果的對(duì)比圖(為便于觀察,只顯示了要說(shuō)明的區(qū)域)。圖4中第1行是使用SIFT+HDDMCMC的實(shí)驗(yàn)結(jié)果,第2行是使用CNN+HDDMCMC的實(shí)驗(yàn)結(jié)果,每1行的3張圖片代表視頻中間的連續(xù)3幀(前后2幀之間間隔1幀)。第1行的第3張圖片在紅色箭頭標(biāo)識(shí)處出現(xiàn)了跟蹤錯(cuò)誤,這是由于目標(biāo)之間的遮擋且用SIFT特征求目標(biāo)之間的外觀相似度時(shí)并不十分準(zhǔn)確而產(chǎn)生的;第2行圖片中,由于深度特征能更準(zhǔn)確地反應(yīng)檢測(cè)目標(biāo)的外觀特征,沒(méi)有出現(xiàn)錯(cuò)誤。
圖5中第1行是使用CNN+MCMC的實(shí)驗(yàn)結(jié)果,第2行是使用CNN+HDDMCMC的實(shí)驗(yàn)結(jié)果。每1行的第2張圖片由于目標(biāo)之間的遮擋發(fā)生了漏檢,導(dǎo)致了軌跡斷裂,使得第1行中的第3張圖片在紅色箭頭標(biāo)識(shí)處出現(xiàn)了錯(cuò)誤;而在第2行圖片中,由于此處使用了HDDMCMC算法,通過(guò)段間MCMC算法對(duì)兩段軌跡進(jìn)行了匹配,從而避免了錯(cuò)誤。
基于此數(shù)據(jù)庫(kù)的對(duì)比實(shí)驗(yàn)可知:文中所提出的算法對(duì)于生成穩(wěn)定的目標(biāo)軌跡具有十分重要的作用。
6.2 MOT2015測(cè)試數(shù)據(jù)庫(kù)實(shí)驗(yàn)結(jié)果及其對(duì)比
本小節(jié)中,我們介紹的是MOT2015測(cè)試數(shù)據(jù)庫(kù)中的實(shí)驗(yàn)結(jié)果,此數(shù)據(jù)庫(kù)同樣包括11個(gè)視頻,我們將文中所提出算法的實(shí)驗(yàn)結(jié)果與其他算法進(jìn)行了對(duì)比,比較方法包括如下3種:
(1)結(jié)構(gòu)化支持向量機(jī)算法(LP_SSVM)[10],此算法是Shaofei等人提出的,主要思想是使用最小網(wǎng)絡(luò)流模式,此模型的參數(shù)通過(guò)結(jié)構(gòu)化支持向量機(jī)訓(xùn)練得到。
(2)近時(shí)多目標(biāo)跟蹤算法(NOMT)[11],此算法是由Wongun等人提出的,主要思想是通過(guò)建立一個(gè)聚合本地光流描述子來(lái)計(jì)算檢測(cè)目標(biāo)之間的相似度,實(shí)現(xiàn)了接近實(shí)時(shí)的多目標(biāo)跟蹤。
(3)子卷積神經(jīng)網(wǎng)絡(luò)算法(MDP_SubCNN)[12],此算法是由Yu等人提出的,主要思想是通過(guò)學(xué)習(xí)的策略來(lái)建立檢測(cè)目標(biāo)之間的相似度矩陣,并通過(guò)馬爾科夫決策過(guò)程建模。
實(shí)驗(yàn)結(jié)果如表2所示,其中Our表示的是文中我們提出的算法,與其他法對(duì)比可知:本算法的MOTA指標(biāo)最高,整體效果最好;FN值優(yōu)于其他算法;FP值相對(duì)于其他算法較低;MOTP值只略遜于MDP_SubCNN算法,總的來(lái)說(shuō),我們提出算法的效果較為理想。
7 結(jié)束語(yǔ)
多目標(biāo)跟蹤作為計(jì)算機(jī)視覺(jué)領(lǐng)域中的一個(gè)經(jīng)典問(wèn)題,有著十分廣泛的應(yīng)用前景。近年來(lái),隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于深度學(xué)習(xí)的多目標(biāo)跟蹤算法取得了一定的突破,獲得了高于傳統(tǒng)多目標(biāo)跟蹤算法的跟蹤準(zhǔn)確度。在文章中,我們提出了一種新的基于深度學(xué)習(xí)的多目標(biāo)跟蹤算法,通過(guò)用GoogLeNet + LSTM框架進(jìn)行目標(biāo)檢測(cè)的特征圖對(duì)檢測(cè)目標(biāo)深度特征的提取,以及對(duì)傳統(tǒng)MCMC算法的改進(jìn),有效地提高目標(biāo)跟蹤算法的準(zhǔn)確性和實(shí)時(shí)性。最后對(duì)文中所提出的算法進(jìn)行了實(shí)驗(yàn)驗(yàn)證,并與一些相關(guān)的多目標(biāo)跟蹤算法進(jìn)行了比較,得到了較為理想的結(jié)果。
參考文獻(xiàn)
[1] SZEGEDY C, LIU W, JIA Y, et al. Going Deeper with Convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. USA:IEEE, 2015: 1-9.DOI: 10.1109/CVPR.2015.7298594
[2] HOCHREITER S, SCHMIDUBER J. Long Short-Term Memory[J]. Neural Computation, 1997, 9(8): 1735-1780
[3] LOWER D G. Distinctive Image Features from Scale-Invariant Key Points[J]. International Journal of Computer Vision, 2004, 60(2): 91-110
[4] LOWE G D. Object Recognition from Local Scale-Invariant Features[C]// ICCV '99 Proceedings of the International Conference on Computer Vision. USA:IEEE, 1999
[5] OH S, RUSSELL S, SASTRY S. Markov Chain Monte Carlo Data Association for General Multiple-Target Tracking Problems[C]// Decision and Control, 2004. CDC. 43rd IEEE Conference on. USA:IEEE, 2004
[6] GIRSHICK R. Fast R-CNN[EB/OL].(2015-09-27)[2017-06-25]. https://arxiv.org/abs/1504.08083
[7] YU Q, MEDIONI G, COHEN I. Multiple Target Tracking Using Spatio-Temporal Markov Chain Monte Carlo data association [C]// Computer Vision and Pattern Recognition, 2007. CVPR '07. IEEE Conference on, 2007. USA:IEEE, 2007. DOI: 10.1109/CVPR.2007.382991
[8] Multiple Object Tracking Benchmark[EB/OL].[2017-06-25].https://motchallenge.net/
[9] BERNARDIN K, STIEFELHAGEN R. Evaluating Multiple Object Tracking Performance: the CLEAR MOT Metrics[J]. EURASIP Journal on Image and Video Processing, 2008, 2008(1): 1-10
[10] WANG S F, FOWLKES C C. Learning Optimal Parameters for Multi-target Tracking[EB/OL].(2016-10-05)[2017-06-25]. https://arxiv.org/abs/1610.01394
[11] CHOI W. Near-Online Multi-Target Tracking with Aggregated Local Flow Descriptor[C]//Proceedings of the IEEE International Conference on Computer Vision. USA:IEEE, 2015: 3029-3037
[12] XIANG Y, ALAHI A, SAVARESE S. Learning to Track: Online Multi-ObjectTracking by Decision Making[C]//Proceedings of the IEEE International Conference on Computer Vision. USA: IEEE, 2015: 4705-4713.DOI: 10.1109/ICCV.2015.534
[13] MILAN A, LEAL T L, SCHINDLER K, et al. Joint Tracking and Segmentation of Multiple Targets[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. USA:IEEE, 2015. DOI: 10.1109/CVPR.2015.7299178
[14] YOON J H, YANG M H, LIM JONGWOO, et al. Bayesian Multi-Object tracking Using Motion Context from Multiple Objects[C]//Applications of Computer Vision (WACV), 2015 IEEE Winter Conference on. USA:IEEE, 2015. DOI: 10.1109/WACV.2015.12
[15] MCLAUGHLIN N, RINCON J M D, MILLER P. Enhancing Linear Programming with Motion Modeling for Multi-target Tracking[C]// Applications of Computer Vision (WACV), 2015 IEEE Winter Conference on. USA:IEEE, 2015
[16] XIANG Y, ALAHI A, SAVARESE S, et al. Learning to Track: Online Multi-Object Tracking by Decision Making[C]// Computer Vision (ICCV), 2015 IEEE Conference on. USA:IEEE, 2015. DOI: 10.1109/ICCV.2015.534
[17] BEWLEY A, GE Z, OTT L, et al. Simple Online and Realtime Tracking[C]//Image Processing (ICIP), 2016 IEEE International Conference on. USA: IEEE, 2016: 3464-3468.DOI: 10.1109/ICIP.2016.7533003