基于深度學(xué)習(xí)的多目標(biāo)跟蹤算法研究

2017-09-07 15:33陸平鄧碩李偉華

中興通訊技術(shù) 2017年4期

陸平+鄧碩+李偉華

摘要：提出了一種基于深度學(xué)習(xí)的多目標(biāo)跟蹤算法。首先，通過(guò)GoogLeNet+長(zhǎng)短期記憶網(wǎng)絡(luò)（LSTM）模型進(jìn)行目標(biāo)檢測(cè)，以獲得準(zhǔn)確的目標(biāo)檢測(cè)結(jié)果；其次，直接根據(jù)目標(biāo)檢測(cè)的特征圖對(duì)檢測(cè)目標(biāo)進(jìn)行深度特征的提取，深度特征相比于傳統(tǒng)特征可以更準(zhǔn)確地反映檢測(cè)目標(biāo)的外觀特征，因此可以有效提高跟蹤的準(zhǔn)確性。此外，還在傳統(tǒng)數(shù)據(jù)驅(qū)動(dòng)馬爾科夫蒙特卡洛（DDMCMC）算法的基礎(chǔ)上，提出了層次的數(shù)據(jù)驅(qū)動(dòng)馬爾科夫蒙特卡洛（HDDMCMC）算法，可以進(jìn)一步提高多目標(biāo)跟蹤的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果證明了所提出算法的有效性。

關(guān)鍵詞：多目標(biāo)跟蹤；深度學(xué)習(xí)；目標(biāo)檢測(cè)；MCMC算法

自從深度學(xué)習(xí)技術(shù)出現(xiàn)以來(lái)，計(jì)算機(jī)視覺(jué)領(lǐng)域得到了快速發(fā)展，深度學(xué)習(xí)技術(shù)最先用于圖像分類問(wèn)題。近年來(lái)，基于深度學(xué)習(xí)的多目標(biāo)跟蹤算法也取得了一定的突破。多目標(biāo)跟蹤是計(jì)算機(jī)視覺(jué)領(lǐng)域一個(gè)非常具有挑戰(zhàn)性的研究方向，且有著十分廣泛的現(xiàn)實(shí)應(yīng)用場(chǎng)景，例如：智能視頻監(jiān)測(cè)控制、異常行為分析、移動(dòng)機(jī)器人研究等。傳統(tǒng)的多目標(biāo)跟蹤算法往往由于目標(biāo)檢測(cè)效果較差，導(dǎo)致跟蹤效果不佳；而基于深度學(xué)習(xí)的檢測(cè)器可以獲得較好的目標(biāo)檢測(cè)效果，進(jìn)而提高目標(biāo)跟蹤的準(zhǔn)確度。

因此，文章中我們著重研究了基于深度學(xué)習(xí)的多目標(biāo)跟蹤算法。首先通過(guò)GoogLeNet[1]+長(zhǎng)短期記憶網(wǎng)絡(luò)（LSTM）[2]模型進(jìn)行目標(biāo)檢測(cè)，以獲得準(zhǔn)確的目標(biāo)檢測(cè)結(jié)果。在此基礎(chǔ)上，提出了直接根據(jù)目標(biāo)檢測(cè)的特征圖對(duì)檢測(cè)目標(biāo)進(jìn)行深度特征的提取的方法，深度特征相比于尺度不變特征變換（SIFT）[3]等傳統(tǒng)特征可以更準(zhǔn)確地反應(yīng)檢測(cè)目標(biāo)的外觀特征，因此可以提高目標(biāo)跟蹤算法的準(zhǔn)確性。此外，還在基于馬爾科夫蒙特卡洛（MCMC）算法的多目標(biāo)跟蹤算法的基礎(chǔ)上，提出了層次的數(shù)據(jù)驅(qū)動(dòng)馬爾科夫蒙特卡洛（HDDMCMC）算法。

1 基于深度學(xué)習(xí)的多目標(biāo)跟蹤算法的研究現(xiàn)狀

1.1 傳統(tǒng)多目標(biāo)跟蹤算法

MCMC算法是一種經(jīng)典的多目標(biāo)跟蹤算法，Yu等人在MCMC算法的基礎(chǔ)上提出了數(shù)據(jù)驅(qū)動(dòng)的馬爾科夫蒙特卡羅（DDMCMC）算法[4]。在使用該算法獲得檢測(cè)數(shù)據(jù)后，我們按照傳統(tǒng)的MCMC算法，對(duì)當(dāng)前軌跡中的檢測(cè)數(shù)據(jù)進(jìn)行位置和長(zhǎng)相特征的衡量，來(lái)計(jì)算當(dāng)前的后驗(yàn)概率大小，然后在迭代過(guò)程中不斷進(jìn)行不同狀態(tài)之間的轉(zhuǎn)移來(lái)進(jìn)行尋找全局最優(yōu)結(jié)果。

Tang等人提出了一種基于圖分割的多目標(biāo)跟蹤算法[5]，通過(guò)在時(shí)間和空間上對(duì)邊界框進(jìn)行聚類來(lái)進(jìn)行軌跡匹配。Tang等人在用該算法解決軌跡匹配這一最優(yōu)化問(wèn)題時(shí)，提出了一種基于KL（Kernighan-Lin）算法的近似解法，運(yùn)用該算法求得的結(jié)果與剪枝法求得的結(jié)果相比，準(zhǔn)確率略微下降，但是運(yùn)算速度有較大提高。

1.2 基于深度學(xué)習(xí)的多目標(biāo)跟蹤算法

Bing等人提出了一種聯(lián)合學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)（CNN）特征和時(shí)域約束度量的模型，通過(guò)這個(gè)訓(xùn)練模型結(jié)合相應(yīng)的損失函數(shù)可以構(gòu)建出軌跡親和力模型，再通過(guò)傳統(tǒng)的圖匹配方法將所有的軌跡進(jìn)行聯(lián)合，利用softassign算法求出軌跡匹配最優(yōu)解，得到最終結(jié)果。

Fengwei等人提出了一種基于深度學(xué)習(xí)的目標(biāo)檢測(cè)外觀特征，將這種特征應(yīng)用到多目標(biāo)跟蹤后，獲得了較高的跟蹤準(zhǔn)確度，但需要大量的訓(xùn)練數(shù)據(jù)和時(shí)間，且無(wú)法達(dá)到實(shí)時(shí)跟蹤的效果。

基于深度學(xué)習(xí)的多目標(biāo)跟蹤算法的跟蹤準(zhǔn)確度相對(duì)于傳統(tǒng)多目標(biāo)跟蹤算法有了較大提升，但仍需要大量的訓(xùn)練數(shù)據(jù)和時(shí)間，且實(shí)時(shí)性不足。針對(duì)這一問(wèn)題，我們?cè)诨谏疃葘W(xué)習(xí)的目標(biāo)檢測(cè)算法的基礎(chǔ)上，提出一種可直接利用目標(biāo)檢測(cè)的特征圖得到深度特征的多目標(biāo)跟蹤算法，并基于HDDMCMC算法得到跟蹤結(jié)果。

2 基于目標(biāo)檢測(cè)特征圖的多目標(biāo)跟蹤算法框架

我們提出的算法框架如圖1所示。算法整體上可以分為目標(biāo)檢測(cè)、特征提取、檢測(cè)目標(biāo)關(guān)聯(lián)這3個(gè)模塊。對(duì)于輸入視頻，首先通過(guò)GoogLeNet + LSTM模型進(jìn)行目標(biāo)檢測(cè)，根據(jù)檢測(cè)模塊中的特征圖，對(duì)檢測(cè)目標(biāo)提取深度特征，利用深度特征可以計(jì)算外觀相似度，進(jìn)而通過(guò)DDMCMC算法對(duì)檢測(cè)目標(biāo)進(jìn)行匹配，形成完整的軌跡，得到跟蹤結(jié)果?；谀繕?biāo)檢測(cè)特征圖的特征提取模塊和基于HDDMCMC算法的檢測(cè)目標(biāo)關(guān)聯(lián)模塊是該算法的主要?jiǎng)?chuàng)新點(diǎn)。

3 基于GoogLeNet+LSTM的目標(biāo)檢測(cè)

目標(biāo)檢測(cè)是基于數(shù)據(jù)聯(lián)合的多目標(biāo)跟蹤算法的基礎(chǔ)，針對(duì)在復(fù)雜場(chǎng)景下目標(biāo)過(guò)小和目標(biāo)遮擋等問(wèn)題，我們利用GoogLeNet + LSTM這一框架進(jìn)行目標(biāo)檢測(cè)。對(duì)于輸入視頻，我們首先使用GoogLeNet進(jìn)行卷積，在最后一層得到1×1 024×15×20的特征圖陣列，把它進(jìn)行轉(zhuǎn)置成為300×1 024的特征圖陣列。每個(gè)1 024維的向量對(duì)應(yīng)原圖中139×139的區(qū)域。

在利用GoogleNet進(jìn)行卷積以后可以得到300×1 024的特征圖陣列，然后通過(guò)LSTM子模塊并行處理每一個(gè)1 024維向量。對(duì)于每一個(gè)輸出的隱狀態(tài)，經(jīng)過(guò)兩個(gè)不同的全連接層：一個(gè)直接輸出框的位置和寬高，一個(gè)再經(jīng)過(guò)softmax層輸出這個(gè)框的置信度。LSTM子模塊共有5個(gè)這樣的LSTM單元，即對(duì)于每個(gè)輸入預(yù)測(cè)5個(gè)可能的框和對(duì)應(yīng)的置信度，在訓(xùn)練中使得框的位置集中在感知區(qū)域中心的64×64的位置，置信度是從高到低排的。

每個(gè)1 024維的向量經(jīng)過(guò)LSTM陣列處理以后，可以得到對(duì)應(yīng)原圖中64×64小塊的5個(gè)檢測(cè)框以及對(duì)應(yīng)的置信度。因?yàn)長(zhǎng)STM是并行處理的，所以生成的對(duì)64×64區(qū)域的檢測(cè)結(jié)果是有重疊的。最后框處理子模塊需要對(duì)整個(gè)視頻幀的所有檢測(cè)框進(jìn)行篩選，然后再通過(guò)給定一個(gè)閾值去掉置信度低的框，并給出最終檢測(cè)結(jié)果。具體流程是：對(duì)于已經(jīng)確定的框，如果一個(gè)待選的框與它有相交，則去除這個(gè)框，限制一個(gè)已經(jīng)確定的框至多去除一個(gè)待選框。在上述匹配的時(shí)候代價(jià)用（m， d）衡量，m表示評(píng)估的二者是否相交，取值{0，1}，d衡量評(píng)估的兩個(gè)框之間曼哈頓距離。m的重要性大于d，即對(duì)兩種匹配方案得到的結(jié)果，先比較m大小，如果不能得出結(jié)論，再比較d的大小。我們使用匈牙利算法來(lái)尋找代價(jià)最小的匹配方式，假設(shè)篩選的置信度閾值設(shè)為0.5，那么則去掉那些置信度低于0.5的框。

為有效對(duì)目標(biāo)檢測(cè)模型進(jìn)行訓(xùn)練，我們采用了如下訓(xùn)練方法：首先在LSTM子模塊得到較多待選框，但存在檢測(cè)錯(cuò)誤或誤差。錯(cuò)誤或誤差的情況有3種：

（1）把不是人頭尖的地方框出；

（2）預(yù)測(cè)框位置和真值框位置的差異；

（3）對(duì)同一個(gè)目標(biāo)產(chǎn)生了多個(gè)預(yù)測(cè)框。

對(duì)于情況（1），可通過(guò)賦予待選框較低的置信度來(lái)杜絕；對(duì)于情況（2），需要修正待選框和與之匹配的真值框之間的誤差；對(duì)于情況（3），可通過(guò)給同一個(gè)目標(biāo)后生成的預(yù)測(cè)框賦予較低的置信度來(lái)杜絕。

模型訓(xùn)練時(shí)的損失函數(shù)如公式（1）所示：

其中，G代表框的真值，C代表待選框，f代表匹配算法，代表真值框里面的第i個(gè)框，代表待選框里面第j個(gè)框，代表兩者之間的曼哈頓距離，是交叉熵?fù)p失，也就是對(duì)應(yīng)網(wǎng)絡(luò)里面的softmax損失。這個(gè)損失函數(shù)的前一項(xiàng)代表待選框和與之匹配的真值框的位置誤差，后一項(xiàng)代表待選框的置信度，調(diào)整這兩種損失之間的平衡。

匹配算法為匈牙利算法，其中用的比較函數(shù)如公式（2）所示：

其中，取值為{0，1}，若待選框的中心落在真值框中，則為0，否則為1；為該待選框生成的序號(hào)，目的是在匹配的時(shí)候，偏好先生成置信度比較高的框，故匹配同一個(gè)目標(biāo)時(shí)，排序越靠前代價(jià)越低；是兩個(gè)框之間的距離，即距離誤差。

4 基于目標(biāo)檢測(cè)特征圖的深度特征提取

在檢測(cè)模塊中得到對(duì)應(yīng)框的位置時(shí)，得到的是人頭的位置，按一定比例放大可以覆蓋全身。得到行人的框位置和大小后，我們進(jìn)一步利用GoogLeNet的最后一層卷積層得到的特征圖陣列去提取特征。我們使用的方法是快速-區(qū)域CNN（RCNN）[6]中提到的感興趣區(qū)域（ROI）池化，即根據(jù)特征圖陣列相對(duì)于輸入圖片的縮小比例，把原圖中的感興趣區(qū)域在特征圖陣列中對(duì)應(yīng)的感興趣區(qū)域池化成一個(gè)1 024維的向量。其中縮小比例為32倍，即得到框的位置按32倍比例縮小，并且為了減少背景影響，最大化池化這一池化類型更加有效。通過(guò)將檢測(cè)模塊中的特征圖進(jìn)行池化，可得到對(duì)檢測(cè)模塊中檢測(cè)到的每個(gè)目標(biāo)的深度特征，因?yàn)槊總€(gè)特征都是高度抽象的，可以很好地表征目標(biāo)的外觀特征。

文中，我們所提出算法的重要特點(diǎn)就是利用目標(biāo)檢測(cè)中的特征圖進(jìn)行池化來(lái)得到目標(biāo)跟蹤所需要的深度特征，而不需要重新進(jìn)行訓(xùn)練，因此可以在不犧牲目標(biāo)跟蹤算法的實(shí)時(shí)性的前提下，提高跟蹤準(zhǔn)確性。

5 基于HDDMCMC算法的目標(biāo)檢測(cè)關(guān)聯(lián)

5.1 傳統(tǒng)MCMC算法

為了對(duì)檢測(cè)數(shù)據(jù)進(jìn)行最優(yōu)關(guān)聯(lián)，可利用MCMC算法進(jìn)行建模。傳統(tǒng)MCMC算法的計(jì)算過(guò)程為：在迭代過(guò)程中，均勻隨機(jī)選取一個(gè)轉(zhuǎn)移動(dòng)作（包括產(chǎn)生、消失、融合、分裂、擴(kuò)展、收縮和交換等），把當(dāng)前的行人軌跡按照此轉(zhuǎn)移動(dòng)作進(jìn)行轉(zhuǎn)換，即從狀態(tài)w轉(zhuǎn)移到狀態(tài)w。在此情況下，可以計(jì)算得到轉(zhuǎn)移前后的后驗(yàn)概率和，以及轉(zhuǎn)移概率和，從而可以計(jì)算得出此時(shí)的接收概率。將此接收概率與從均勻0～1分布中隨機(jī)抽取的值進(jìn)行比較，如果出現(xiàn)，則接收當(dāng)前這個(gè)轉(zhuǎn)移，使得當(dāng)前狀態(tài)轉(zhuǎn)移為，即，否則不接受此轉(zhuǎn)移。為了得到最大后驗(yàn)概率，我們?cè)賹⑥D(zhuǎn)移后的狀態(tài)與當(dāng)前的最優(yōu)狀態(tài)進(jìn)行比較，如果轉(zhuǎn)移后的狀態(tài)優(yōu)于當(dāng)前的最優(yōu)狀態(tài)，則對(duì)最優(yōu)狀態(tài)進(jìn)行更新，即。

在傳統(tǒng)MCMC算法的基礎(chǔ)上，我們提出了HDDMCMC算法，即把傳統(tǒng)的單層MCMC算法分為段內(nèi)MCMC算法和段間MCMC算法。如圖2所示，假設(shè)當(dāng)前處理的時(shí)間段是，我們首先對(duì)此段執(zhí)行段內(nèi)MCMC算法并得到相應(yīng)的段內(nèi)行人軌跡。在此之前，段和段內(nèi)的MCMC算法已執(zhí)行完成，并執(zhí)行了兩者之間的段間MCMC算法，從而得到對(duì)應(yīng)時(shí)間幀內(nèi)的行人軌跡；然后把其中已走出當(dāng)前區(qū)域的行人軌跡選擇出來(lái)，再對(duì)段和段再執(zhí)行段間MCMC算法，得到當(dāng)前的行人軌跡。HDDMCMC算法即按照此種方式不斷執(zhí)行，直到視頻序列結(jié)束。

5.2 段內(nèi)MCMC算法

在多目標(biāo)跟蹤算法中，考慮到運(yùn)動(dòng)的穩(wěn)定性和連續(xù)性（即同一個(gè)目標(biāo)在前后幀視頻數(shù)據(jù)中，外觀特征不會(huì)發(fā)生劇烈變化），在段內(nèi)MCMC算法中，使用第4節(jié)中的深度特征對(duì)目標(biāo)軌跡的相似度進(jìn)行度量。

可以將每個(gè)檢測(cè)目標(biāo)看成一個(gè)節(jié)點(diǎn)，以段內(nèi)時(shí)間來(lái)進(jìn)行敘述。假設(shè)視頻幀t內(nèi)的節(jié)點(diǎn)集合為，后驗(yàn)概率的設(shè)定如公式（3）所示：

其中，和分別代表第k條行人軌跡中第n+1個(gè)和第n個(gè)節(jié)點(diǎn)，即為兩節(jié)點(diǎn)的相似度，可用兩節(jié)點(diǎn)深度特征的夾角余弦值來(lái)進(jìn)行計(jì)算。公式第2項(xiàng)中的代表的是不同軌跡的長(zhǎng)度，保證行人軌跡的完整；公式第3項(xiàng)中的代表的是虛警的個(gè)數(shù)，保證虛警率較低。

圖3為MCMC算法中7種操作：產(chǎn)生和消失這兩個(gè)轉(zhuǎn)移動(dòng)作如圖3a）所示，其中，左邊黑色的點(diǎn)代表虛警集合中的點(diǎn)，經(jīng)過(guò)產(chǎn)生操作后轉(zhuǎn)化為右邊紅色點(diǎn)所代表的行人軌跡，消失操作為反向順序；融合和分裂這兩個(gè)轉(zhuǎn)移動(dòng)作如圖3b）所示；擴(kuò)展和收縮這兩個(gè)轉(zhuǎn)移動(dòng)作如圖3c）所示，交換和轉(zhuǎn)移動(dòng)作如圖3d）所示，此操作前后互為逆操作。

5.3 段間MCMC算法

段間MCMC算法使用的數(shù)據(jù)主要是段內(nèi)MCMC算法生成的目標(biāo)軌跡。在段間MCMC算法中，主要采取的轉(zhuǎn)移動(dòng)作包括融合和分裂操作以及交換操作。因?yàn)?，在?jīng)過(guò)段內(nèi)MCMC算法之后，生成許多較為可靠的目標(biāo)軌跡。此時(shí)若存在同一目標(biāo)軌跡斷裂的情況，就是由于檢測(cè)數(shù)據(jù)不穩(wěn)定，對(duì)應(yīng)目標(biāo)碰撞或者遮擋導(dǎo)致對(duì)應(yīng)的漏檢幀數(shù)過(guò)多等原因造成的。因此，段間MCMC的目的是將兩個(gè)時(shí)間段的目標(biāo)軌跡數(shù)據(jù)做進(jìn)一步的數(shù)據(jù)聯(lián)合。當(dāng)前狀態(tài)下，后驗(yàn)概率項(xiàng)更新為公式（4）所示。

在公式（4）中，我們不再考慮虛警因素，因?yàn)榇颂幹饕菍?duì)目標(biāo)軌跡的劃分操作。由于已有之前較為可靠的兩個(gè)時(shí)間段內(nèi)的目標(biāo)軌跡數(shù)據(jù)作為輔助，因此可以在更加寬松的條件下進(jìn)行抽樣工作。對(duì)于融合操作，此時(shí)允許的時(shí)間間隔設(shè)定為，且兩個(gè)目標(biāo)的軌跡段與段之間連接處的幀差不能超過(guò)6。對(duì)于概率中的標(biāo)準(zhǔn)差的設(shè)定，此時(shí)為，即允許在理想位置周圍的變化幅度是一個(gè)當(dāng)前目標(biāo)的大小。對(duì)于分裂操作和交換操作，抽樣的時(shí)間節(jié)點(diǎn)在段與段連接處的時(shí)間幀為左右各6幀時(shí)間以內(nèi)。通過(guò)這種方式，可使得不同狀態(tài)之間進(jìn)行轉(zhuǎn)移的單位是之前已生成的較為完整的目標(biāo)軌跡片段。

在當(dāng)前的段間MCMC算法結(jié)合之后，把已走出視頻場(chǎng)景的目標(biāo)移除當(dāng)前數(shù)據(jù)集，此時(shí)的當(dāng)前數(shù)據(jù)集假設(shè)為。當(dāng)下一個(gè)段內(nèi)MCMC得到軌跡之后，通過(guò)段間MCMC算法與進(jìn)行匹配，即繼續(xù)在之前目標(biāo)數(shù)據(jù)的基礎(chǔ)之上，結(jié)合當(dāng)前的目標(biāo)數(shù)據(jù)，做進(jìn)一步的數(shù)據(jù)聯(lián)合來(lái)優(yōu)化。整個(gè)算法按照這樣的滑動(dòng)方式不斷進(jìn)行。

6 實(shí)驗(yàn)結(jié)果及分析

6.1 MOT2015訓(xùn)練數(shù)據(jù)庫(kù)的實(shí)驗(yàn)結(jié)果

本小節(jié)中，我們介紹的是MOT2015訓(xùn)練數(shù)據(jù)庫(kù)[8]中的實(shí)驗(yàn)結(jié)果，此數(shù)據(jù)庫(kù)總共包括11個(gè)視頻，有固定視角、運(yùn)動(dòng)視角等場(chǎng)景，同時(shí)又有俯視視角、平時(shí)視角等場(chǎng)景，由于場(chǎng)景變化多樣，不同目標(biāo)之間的接觸和碰撞較多，挑戰(zhàn)性較大。

我們使用的衡量指標(biāo)[9]包括多目標(biāo)跟蹤的準(zhǔn)確度（MOTA）、多目標(biāo)跟蹤的精確度（MOTP）、漏檢數(shù)目（FN）、虛警數(shù)目（FP）等，其中MOTA指標(biāo)是用來(lái)衡量整體跟蹤準(zhǔn)確度，最具代表性。實(shí)驗(yàn)結(jié)果如表1所示，其中MOTA和MOTP是11個(gè)數(shù)據(jù)庫(kù)的平均值，F(xiàn)N、FP和ID Sw是11個(gè)數(shù)據(jù)庫(kù)的總和。

文章中，我們所提出算法的主要?jiǎng)?chuàng)新點(diǎn)為基于目標(biāo)檢測(cè)特征圖的特征提取模塊和基于層次的數(shù)據(jù)驅(qū)動(dòng)馬爾科夫蒙特卡洛算法的檢測(cè)目標(biāo)關(guān)聯(lián)模塊，為了驗(yàn)證這兩個(gè)創(chuàng)新點(diǎn)的有效性，我們分別用4種方法進(jìn)行了實(shí)驗(yàn)：

（1）SIFT+MCMC，即用SIFT特征結(jié)合傳統(tǒng)MCMC算法。

（2）SIFT+HDDMCMC，即用傳統(tǒng)SIFT特征結(jié)合文中所提出的HDDMCMC算法。

（3）CNN+MCMC，即用文中提出的通過(guò)目標(biāo)檢測(cè)特征圖提取的深度特征結(jié)合傳統(tǒng)MCMC算法。

（4）CNN+HDDMCMC，即用通過(guò)目標(biāo)檢測(cè)特征圖提取的深度特征結(jié)合HDDMCMC算法，也即文中我們提出算法的完整版。

實(shí)驗(yàn)結(jié)果如表1所示，對(duì)比SIFT+MCMC和SIFT+HDDMCMC可知：我們提出的基于層次的HDDMCMC算法相比于傳統(tǒng)的MCMC算法可以在一定程度上提升跟蹤效果；對(duì)比SIFT+MCMC和CNN+MCMC可知：通過(guò)用目標(biāo)檢測(cè)特征圖提取的深度特征來(lái)代替?zhèn)鹘y(tǒng)的SIFT特征，可以在很大程度上提升跟蹤效果；CNN+HDDMCMC算法，即文中我們提出算法的完整版的各項(xiàng)檢測(cè)指標(biāo)都優(yōu)于其他方法，更進(jìn)一步證明了所提出算法的有效性。

圖4和圖5是兩張跟蹤效果的對(duì)比圖（為便于觀察，只顯示了要說(shuō)明的區(qū)域）。圖4中第1行是使用SIFT+HDDMCMC的實(shí)驗(yàn)結(jié)果，第2行是使用CNN+HDDMCMC的實(shí)驗(yàn)結(jié)果，每1行的3張圖片代表視頻中間的連續(xù)3幀（前后2幀之間間隔1幀）。第1行的第3張圖片在紅色箭頭標(biāo)識(shí)處出現(xiàn)了跟蹤錯(cuò)誤，這是由于目標(biāo)之間的遮擋且用SIFT特征求目標(biāo)之間的外觀相似度時(shí)并不十分準(zhǔn)確而產(chǎn)生的；第2行圖片中，由于深度特征能更準(zhǔn)確地反應(yīng)檢測(cè)目標(biāo)的外觀特征，沒(méi)有出現(xiàn)錯(cuò)誤。

圖5中第1行是使用CNN+MCMC的實(shí)驗(yàn)結(jié)果，第2行是使用CNN+HDDMCMC的實(shí)驗(yàn)結(jié)果。每1行的第2張圖片由于目標(biāo)之間的遮擋發(fā)生了漏檢，導(dǎo)致了軌跡斷裂，使得第1行中的第3張圖片在紅色箭頭標(biāo)識(shí)處出現(xiàn)了錯(cuò)誤；而在第2行圖片中，由于此處使用了HDDMCMC算法，通過(guò)段間MCMC算法對(duì)兩段軌跡進(jìn)行了匹配，從而避免了錯(cuò)誤。

基于此數(shù)據(jù)庫(kù)的對(duì)比實(shí)驗(yàn)可知：文中所提出的算法對(duì)于生成穩(wěn)定的目標(biāo)軌跡具有十分重要的作用。

6.2 MOT2015測(cè)試數(shù)據(jù)庫(kù)實(shí)驗(yàn)結(jié)果及其對(duì)比

本小節(jié)中，我們介紹的是MOT2015測(cè)試數(shù)據(jù)庫(kù)中的實(shí)驗(yàn)結(jié)果，此數(shù)據(jù)庫(kù)同樣包括11個(gè)視頻，我們將文中所提出算法的實(shí)驗(yàn)結(jié)果與其他算法進(jìn)行了對(duì)比，比較方法包括如下3種：

（1）結(jié)構(gòu)化支持向量機(jī)算法（LP_SSVM）[10]，此算法是Shaofei等人提出的，主要思想是使用最小網(wǎng)絡(luò)流模式，此模型的參數(shù)通過(guò)結(jié)構(gòu)化支持向量機(jī)訓(xùn)練得到。

（2）近時(shí)多目標(biāo)跟蹤算法（NOMT）[11]，此算法是由Wongun等人提出的，主要思想是通過(guò)建立一個(gè)聚合本地光流描述子來(lái)計(jì)算檢測(cè)目標(biāo)之間的相似度，實(shí)現(xiàn)了接近實(shí)時(shí)的多目標(biāo)跟蹤。

（3）子卷積神經(jīng)網(wǎng)絡(luò)算法（MDP_SubCNN）[12]，此算法是由Yu等人提出的，主要思想是通過(guò)學(xué)習(xí)的策略來(lái)建立檢測(cè)目標(biāo)之間的相似度矩陣，并通過(guò)馬爾科夫決策過(guò)程建模。

實(shí)驗(yàn)結(jié)果如表2所示，其中Our表示的是文中我們提出的算法，與其他法對(duì)比可知：本算法的MOTA指標(biāo)最高，整體效果最好；FN值優(yōu)于其他算法；FP值相對(duì)于其他算法較低；MOTP值只略遜于MDP_SubCNN算法，總的來(lái)說(shuō)，我們提出算法的效果較為理想。

7 結(jié)束語(yǔ)

多目標(biāo)跟蹤作為計(jì)算機(jī)視覺(jué)領(lǐng)域中的一個(gè)經(jīng)典問(wèn)題，有著十分廣泛的應(yīng)用前景。近年來(lái)，隨著深度學(xué)習(xí)技術(shù)的發(fā)展，基于深度學(xué)習(xí)的多目標(biāo)跟蹤算法取得了一定的突破，獲得了高于傳統(tǒng)多目標(biāo)跟蹤算法的跟蹤準(zhǔn)確度。在文章中，我們提出了一種新的基于深度學(xué)習(xí)的多目標(biāo)跟蹤算法，通過(guò)用GoogLeNet + LSTM框架進(jìn)行目標(biāo)檢測(cè)的特征圖對(duì)檢測(cè)目標(biāo)深度特征的提取，以及對(duì)傳統(tǒng)MCMC算法的改進(jìn)，有效地提高目標(biāo)跟蹤算法的準(zhǔn)確性和實(shí)時(shí)性。最后對(duì)文中所提出的算法進(jìn)行了實(shí)驗(yàn)驗(yàn)證，并與一些相關(guān)的多目標(biāo)跟蹤算法進(jìn)行了比較，得到了較為理想的結(jié)果。

參考文獻(xiàn)

[1] SZEGEDY C， LIU W， JIA Y， et al. Going Deeper with Convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. USA：IEEE， 2015： 1-9.DOI： 10.1109/CVPR.2015.7298594

[2] HOCHREITER S， SCHMIDUBER J. Long Short-Term Memory[J]. Neural Computation， 1997， 9（8）： 1735-1780

[3] LOWER D G. Distinctive Image Features from Scale-Invariant Key Points[J]. International Journal of Computer Vision， 2004， 60（2）： 91-110

[4] LOWE G D. Object Recognition from Local Scale-Invariant Features[C]// ICCV '99 Proceedings of the International Conference on Computer Vision. USA：IEEE， 1999

[5] OH S， RUSSELL S， SASTRY S. Markov Chain Monte Carlo Data Association for General Multiple-Target Tracking Problems[C]// Decision and Control， 2004. CDC. 43rd IEEE Conference on. USA：IEEE， 2004

[6] GIRSHICK R. Fast R-CNN[EB/OL].（2015-09-27）[2017-06-25]. https：//arxiv.org/abs/1504.08083

[7] YU Q， MEDIONI G， COHEN I. Multiple Target Tracking Using Spatio-Temporal Markov Chain Monte Carlo data association [C]// Computer Vision and Pattern Recognition， 2007. CVPR '07. IEEE Conference on， 2007. USA：IEEE， 2007. DOI： 10.1109/CVPR.2007.382991

[8] Multiple Object Tracking Benchmark[EB/OL].[2017-06-25].https：//motchallenge.net/

[9] BERNARDIN K， STIEFELHAGEN R. Evaluating Multiple Object Tracking Performance： the CLEAR MOT Metrics[J]. EURASIP Journal on Image and Video Processing， 2008， 2008（1）： 1-10

[10] WANG S F， FOWLKES C C. Learning Optimal Parameters for Multi-target Tracking[EB/OL].（2016-10-05）[2017-06-25]. https：//arxiv.org/abs/1610.01394

[11] CHOI W. Near-Online Multi-Target Tracking with Aggregated Local Flow Descriptor[C]//Proceedings of the IEEE International Conference on Computer Vision. USA：IEEE， 2015： 3029-3037

[12] XIANG Y， ALAHI A， SAVARESE S. Learning to Track： Online Multi-ObjectTracking by Decision Making[C]//Proceedings of the IEEE International Conference on Computer Vision. USA： IEEE， 2015： 4705-4713.DOI： 10.1109/ICCV.2015.534

[13] MILAN A， LEAL T L， SCHINDLER K， et al. Joint Tracking and Segmentation of Multiple Targets[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. USA：IEEE， 2015. DOI： 10.1109/CVPR.2015.7299178

[14] YOON J H， YANG M H， LIM JONGWOO， et al. Bayesian Multi-Object tracking Using Motion Context from Multiple Objects[C]//Applications of Computer Vision （WACV）， 2015 IEEE Winter Conference on. USA：IEEE， 2015. DOI： 10.1109/WACV.2015.12

[15] MCLAUGHLIN N， RINCON J M D， MILLER P. Enhancing Linear Programming with Motion Modeling for Multi-target Tracking[C]// Applications of Computer Vision （WACV）， 2015 IEEE Winter Conference on. USA：IEEE， 2015

[16] XIANG Y， ALAHI A， SAVARESE S， et al. Learning to Track： Online Multi-Object Tracking by Decision Making[C]// Computer Vision （ICCV）， 2015 IEEE Conference on. USA：IEEE， 2015. DOI： 10.1109/ICCV.2015.534

[17] BEWLEY A， GE Z， OTT L， et al. Simple Online and Realtime Tracking[C]//Image Processing （ICIP）， 2016 IEEE International Conference on. USA： IEEE， 2016： 3464-3468.DOI： 10.1109/ICIP.2016.7533003

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于深度學(xué)習(xí)的多目標(biāo)跟蹤算法研究