基于航拍視頻的車輛目標(biāo)跟蹤方法*

2024-01-18 10:23:56呂艷輝賈旭東

火力與指揮控制 2023年12期

呂艷輝，賈旭東，李彬

（沈陽理工大學(xué)信息科學(xué)與工程學(xué)院，沈陽 110159）

0 引言

近年來，隨著無人機技術(shù)的逐漸成熟，無人機已被廣泛地應(yīng)用于各個領(lǐng)域。利用無人機航拍的視頻對目標(biāo)進(jìn)行跟蹤，無論是在軍事領(lǐng)域還是在民用領(lǐng)域，都發(fā)揮著巨大作用。目標(biāo)跟蹤任務(wù)可以分為兩類：一類是多目標(biāo)跟蹤［1］，另一類是單目標(biāo)跟蹤［2］。與多目標(biāo)跟蹤相比，更傾向于單目標(biāo)跟蹤，因為在視頻序列中，往往更專注于出現(xiàn)的某一個體的運動情況。目前，目標(biāo)跟蹤的研究方法主要分為兩類，一類是基于目標(biāo)檢測結(jié)果的目標(biāo)跟蹤方法［3-4］，另一類是基于孿生網(wǎng)絡(luò)［5］和相關(guān)濾波的目標(biāo)跟蹤方法，兩者各有優(yōu)點，前者精度更高，后者速度更快。

目標(biāo)檢測算法以2012 年的AlexNet 網(wǎng)絡(luò)為分界線［6］，之前的稱為傳統(tǒng)的目標(biāo)檢測算法，之后的稱為基于深度學(xué)習(xí)的目標(biāo)檢測算法。基于深度學(xué)習(xí)的目標(biāo)檢測算法主要分為兩類，即單階段和雙階段。其中，YOLO 和SSD 屬于單階段的目標(biāo)檢測算法［7-8］，R-CNN、Fast R-CNN 以及Faster R-CNN 均屬于雙階段的目標(biāo)檢測算法［9-11］。在雙階段目標(biāo)檢測算法中，以Faster R-CNN 最具代表性，但由于網(wǎng)絡(luò)模型本身的設(shè)計問題，對小目標(biāo)的檢測以及實時性方面都存在一定的不足。

在單階段的目標(biāo)檢測算法中，以YOLO 系列的算法最為成功。輕量化的網(wǎng)絡(luò)模型以及單階段天生優(yōu)秀的設(shè)計結(jié)構(gòu)使算法不斷刷新檢測速度和精度。以VOC07 數(shù)據(jù)集為例，YOLOv1 的mAP 僅為66.4，遠(yuǎn)低于雙階段檢測算法。而隨著YOLOv2 的提出，mAP 就達(dá)到了78.6，此時該精度已經(jīng)超過了雙階段的目標(biāo)檢測算法。YOLOv3 不但保持了精度，而且在檢測速度上比雙階段檢測算法R-CNN 快1 000 倍，比Fast R-CNN 快100 倍，既達(dá)到了雙階段的檢測精度，又使檢測速度得到大幅度提升［12］。

此外，在基于深度學(xué)習(xí)的單目標(biāo)跟蹤算法中，基于孿生網(wǎng)絡(luò)的SiamFC 是單目標(biāo)跟蹤中又一研究方向［5］，后續(xù)很多基于深度學(xué)習(xí)的單目標(biāo)跟蹤算法的提出都是以該算法為基礎(chǔ)。例如SiamMask，SiamRPN，Dimp 等［13-15］。雖然目前基于孿生網(wǎng)絡(luò)的單目標(biāo)跟蹤算法有著比較好的跟蹤效果，但是由于網(wǎng)絡(luò)得到的信息全部由第1 幀提供，得到的信息量實在太少。因當(dāng)前目標(biāo)跟蹤領(lǐng)域樣本不足導(dǎo)致精度不高，跟蹤速度難以滿足實時性要求。

單目標(biāo)跟蹤方法中，還有核相關(guān)濾波方法以及在此基礎(chǔ)上與深度學(xué)習(xí)相結(jié)合的算法。這類算法因為運算量大，要求設(shè)備算力高，很多都需要在線微調(diào)網(wǎng)絡(luò)參數(shù)，所以速度不是很理想，實際應(yīng)用中還有些局限性。

鑒于此，本文基于深度學(xué)習(xí)的目標(biāo)檢測網(wǎng)絡(luò)YOLOv4［16］，針對無人機航拍視頻中的某一車輛目標(biāo)，研究其目標(biāo)跟蹤方法。對于單目標(biāo)跟蹤，首先要檢測到該目標(biāo)并且知道該目標(biāo)的種類，然后通過將幀與幀之間同一個目標(biāo)關(guān)聯(lián)起來，并在它所屬的目標(biāo)類別中找到并標(biāo)注，來實現(xiàn)目標(biāo)跟蹤。所以，本文主要研究目標(biāo)預(yù)測算法、抗遮擋算法以及圖像匹配算法。

1 K 鄰域目標(biāo)預(yù)測算法的提出

K 鄰域搜索算法的不足是只能對當(dāng)前幀中目標(biāo)可能出現(xiàn)的位置區(qū)域進(jìn)行簡單估計，而不會將視頻前后幀該區(qū)域中出現(xiàn)的目標(biāo)檢測結(jié)果進(jìn)行關(guān)聯(lián)。這樣，如果有與跟蹤目標(biāo)外觀相同的目標(biāo)存在，就會產(chǎn)生干擾。

基于K 鄰域搜索算法，本文結(jié)合IoU 和中心點偏移思想，提出K 鄰域目標(biāo)預(yù)測算法，對跟蹤目標(biāo)進(jìn)行區(qū)域搜索及預(yù)測，該算法可以有效彌補K 鄰域搜索算法的不足?；贙鄰域的目標(biāo)預(yù)測算法的具體執(zhí)行過程如下。

Step 1 根據(jù)前一幀跟蹤框的大小，計算出k=2時該跟蹤框所對應(yīng)的K 鄰域范圍，并將當(dāng)前幀檢測范圍縮小至該K 鄰域內(nèi)。

Step 2 如果當(dāng)前幀在該K 鄰域內(nèi)只有一個目標(biāo)被檢測出來（目標(biāo)的檢測框至少有2/3 區(qū)域在K鄰域范圍內(nèi)），那么該目標(biāo)就是前一幀的目標(biāo)，繪制跟蹤框，繼續(xù)執(zhí)行Step 1；如果當(dāng)前幀在該K 鄰域內(nèi)出現(xiàn)兩個以上目標(biāo)，則執(zhí)行Step 3。

Step 3 將K 鄰域內(nèi)的目標(biāo)分別與跟蹤（模板）目標(biāo)進(jìn)行相似度計算，得到相似度得分，并進(jìn)行排序。

Step 4 將排好序的相似度得分所對應(yīng)的目標(biāo)檢測框與前一幀的跟蹤框做IoU 和中心點的歐氏距離；取歐氏距離最小的中心點對應(yīng)的檢測框，并和前面的圖像匹配所計算出的相似度以及最大的IoU 相結(jié)合，來判斷哪一個檢測框檢測的是跟蹤目標(biāo)，判斷順序為：先比較圖像的相似度，然后根據(jù)IoU 排除相似車輛，最后用中心點的歐氏距離選擇跟蹤目標(biāo)。

Step 5 接收下一幀并繼續(xù)執(zhí)行Step 1～Step 4，直到視頻結(jié)束。

IoU 的計算如式（1）所示。

其中，gt 是前一幀的跟蹤框；bb 是當(dāng)前幀在K 鄰域范圍內(nèi)出現(xiàn)的檢測框；用gt 和K 鄰域內(nèi)的檢測框分別進(jìn)行IoU 的計算，并選擇IoU 值最大的檢測框進(jìn)行保留，滿足式（2）：

其中，IoU（）為檢測框與前一幀跟蹤框的交并比；gt為前一幀的跟蹤框；bbn為當(dāng)前幀在K 鄰域內(nèi)出現(xiàn)的第n 個檢測框；n 為K 鄰域內(nèi)的檢測框總個數(shù)。

除了計算檢測框與跟蹤框的交并比之外，還應(yīng)該考慮前一幀的跟蹤框的中心點坐標(biāo)和當(dāng)前幀中K鄰域范圍內(nèi)的各個檢測框的中心點坐標(biāo)的歐氏距離。運動中的車輛無論是按照當(dāng)前的運動狀態(tài)保持直行，還是突然改變運動方向，跟蹤框與檢測框的中心點在圖像上的x，y 坐標(biāo)不會發(fā)生很大變化，則二者之間最近的歐氏距離所對應(yīng)的當(dāng)前幀檢測框檢測的就是上一幀目標(biāo)車輛。計算公式如式（3）所示。

其中，d 為兩點的歐氏距離；cgt為前一幀跟蹤框的中心點；cbb為當(dāng)前幀檢測框的中心點。取距離最小的中心點對應(yīng)的檢測框，并和前面的圖像匹配所計算出的相似度以及最大的IoU 相結(jié)合，來判斷哪一個檢測框檢測的是前一幀的跟蹤目標(biāo)。

在K 鄰域搜索算法中，如果在K 鄰域內(nèi)出現(xiàn)與模板車輛類型相同的車，若該車和模板的相似度更大，那么使用K 鄰域進(jìn)行篩選，就會導(dǎo)致跟蹤錯誤，如圖1 所示。

圖1 中，gt 為上一幀中的跟蹤框，綠色虛線矩形框為gt 的K 鄰域，當(dāng)前幀中的兩個檢測框bb1 和bb2 是兩輛相同的車，經(jīng)過篩選后，仍會產(chǎn)生干擾目標(biāo)。因為如果假設(shè)bb1 中的目標(biāo)是真正的跟蹤目標(biāo)，那么bb2 就是干擾目標(biāo)，若bb2 與gt 中的目標(biāo)相似度更大，那么就會誤認(rèn)為bb2 是跟蹤目標(biāo)，導(dǎo)致最終失去真正的目標(biāo)。

基于K 鄰域的目標(biāo)預(yù)測算法結(jié)合了IoU 以及跟蹤框與檢測框中心點偏移的思想，因此，該算法不僅縮小了檢測范圍，還將前一幀跟蹤框與當(dāng)前幀的檢測框關(guān)聯(lián)起來，通過比較它們之間的IoU 大小以及與中心點的歐氏距離，加強了限制條件，進(jìn)而提高了預(yù)測算法的準(zhǔn)確度，如圖2 所示。

圖2 基于K 鄰域的目標(biāo)預(yù)測算法示意圖Fig.2 Schematic diagram of target prediction algorithm based on K neighborhood

2 基于車輛運動狀態(tài)估計的抗遮擋算法的提出

在目標(biāo)跟蹤領(lǐng)域，對于跟蹤目標(biāo)被遮擋的情況一直都是該領(lǐng)域的一個難點。目標(biāo)一旦被遮擋，在其重新出現(xiàn)的時候能否準(zhǔn)確地找到該目標(biāo)是抗遮擋算法的關(guān)鍵，本文提出一種基于車輛運動狀態(tài)估計的抗遮擋算法。

本文研究的目標(biāo)跟蹤算法是基于YOLOv4 目標(biāo)檢測算法實現(xiàn)的，目標(biāo)跟蹤的前提是能檢測到該目標(biāo)，然后經(jīng)過預(yù)測算法及圖像匹配完成目標(biāo)跟蹤。當(dāng)目標(biāo)消失時，根據(jù)目標(biāo)消失之前的坐標(biāo)及前n 幀的運動狀態(tài)估計在遮擋期間目標(biāo)的運動狀態(tài)及坐標(biāo)，直到目標(biāo)出現(xiàn)。該算法的執(zhí)行步驟如下：

Step 1 基于YOLOv4 進(jìn)行目標(biāo)檢測，框選出要跟蹤的目標(biāo)車輛。

Step 2 跟蹤目標(biāo)是否發(fā)生遮擋，如果是，執(zhí)行Step 3；否則，在跟蹤開始后，每20 幀記錄一次車輛在視頻中移動的平均速度。

Step 3 跟蹤目標(biāo)被遮擋是否超過50 幀，如果是，執(zhí)行Step 4；否則，估計目標(biāo)在遮擋期間的移動軌跡及坐標(biāo)，同時獲取當(dāng)前估計位置的K 鄰域。如果車輛被重新檢測并且被K 鄰域捕獲到，則進(jìn)行目標(biāo)匹配，若匹配成功則繼續(xù)進(jìn)行跟蹤；否則，執(zhí)行Step 4。

Step 4 開啟全圖搜索和匹配。

Step 5 接收下一幀并繼續(xù)執(zhí)行Step 1～Step 4，直到視頻結(jié)束。

基于車輛運動狀態(tài)估計的抗遮擋算法在跟蹤開始超過20 幀之后，進(jìn)行每20 幀記錄一次車輛在視頻中移動的平均速度，依據(jù)此方式，當(dāng)目標(biāo)在視野中消失時，保存消失時的坐標(biāo)以及前20 幀的移動速度。如果目標(biāo)消失在50 幀以內(nèi)（大約3 s），根據(jù)消失前的跟蹤框生成一個估計框，估計在消失期間的移動軌跡及坐標(biāo)，讓這個估計框根據(jù)遮擋之前的車輛運動狀態(tài)而移動，同時根據(jù)估計框獲得一個K=2 的搜索范圍，保持監(jiān)聽，直到檢測到出現(xiàn)在該搜索范圍內(nèi)的目標(biāo)，再進(jìn)行匹配，若未匹配成功，則開啟全圖匹配，解除坐標(biāo)和運動速度的記錄，由圖像匹配算法自行尋找，繼續(xù)重復(fù)上述跟蹤方式。

3 多特征融合的圖像匹配算法的提出

在目標(biāo)跟蹤過程中，如果在K 鄰域內(nèi)有多個目標(biāo)被檢測出來，則需要找到與選定的跟蹤模板目標(biāo)最相似的目標(biāo)以更新當(dāng)前幀的跟蹤框。本文提出一種多特征融合的圖像匹配算法，該算法采用顏色直方圖特征和HOG 特征融合的方式，進(jìn)行模板與檢測目標(biāo)的相似度計算。多特征融合的圖像匹配算法的執(zhí)行步驟如下。

Step 1 框選完要跟蹤的目標(biāo)（模板）之后，對該模板進(jìn)行顏色直方圖特征和HOG 特征的提取，并將這兩種特征轉(zhuǎn)換為特征向量。

Step 2 在后續(xù)幀中，將檢測出的同類別目標(biāo)截取為圖片，同樣提取各個目標(biāo)的顏色直方圖特征和HOG 特征，并得到特征向量。

Step 3 分別計算跟蹤目標(biāo)和Step 2 中得到的所有目標(biāo)之間的顏色直方圖特征相似度與HOG 特征相似度，并進(jìn)行加權(quán)得分。

Step 4 將Step 3 中得分最多的目標(biāo)作為當(dāng)前幀匹配到的跟蹤目標(biāo)。

Step 5 進(jìn)行到下一幀并繼續(xù)執(zhí)行Step 1～Step 4，直到視頻結(jié)束。

其中，顏色直方圖特征的提取及相似度的計算方法如下。先對圖像尺寸進(jìn)行統(tǒng)一，然后統(tǒng)計每個R、G、B 原色在兩幅圖片中出現(xiàn)的次數(shù)，這樣就構(gòu)成了3 種原色在圖片中出現(xiàn)頻率的直方圖，這3 種顏色直方圖即為該幅圖像的直方圖特征，然后計算直方圖的余弦相似度。首先獲取直方圖的“指紋”信息，每種原色像素值的取值范圍是0～255，將這個范圍分成4 個范圍相等的區(qū)，即［0，63］（0 區(qū)），［64，127］（1 區(qū)），［128，191］（2 區(qū)），［192，255］（3區(qū)）。對于圖像中出現(xiàn)的任何一種顏色，一定屬于這4 個區(qū)中其中的一個，然后統(tǒng)計每個區(qū)出現(xiàn)的像素數(shù)，最后得到一個64 維的向量，即為該直方圖的指紋。得到待比較的兩幅圖像的指紋后，通過計算兩個向量之間的相似度，就可以得到兩幅圖像的相似度。假設(shè)P［P1，P2，…，Pn］和Q［Q1，Q2，…，Qn］是兩個n 維向量，則P 與Q 夾角θ 的余弦如式（4）所示。

HOG 特征的提取及相似度的計算方法如下。在得到HOG 特征描述子后，計算特征描述子之間的歐氏距離，距離越小，則兩幅圖片越相似。兩個HOG特征向量的歐氏距離公式如式（5）所示。

其中，xi、yi為HOG 特征向量的兩個坐標(biāo)值。

對每個篩選完畢參與計算的候選框，提取其特征與模板進(jìn)行顏色直方圖特征的余弦相似度計算和HOG 特征的歐式距離相似度計算后，分別乘以其對應(yīng)的權(quán)重，相加得到最后的相似度得分。如式（6）所示。

式中，Si為第i 個候選框中的圖像和跟蹤目標(biāo)的總相似度得分；W1為顏色直方圖特征相似度權(quán)重系數(shù)，值為1；W2為HOG 特征相似度權(quán)重系數(shù)，值為2；S 為括號內(nèi)參數(shù)的相似度計算函數(shù)；S（ci，ct）為第i 個候選框和跟蹤目標(biāo)t 的顏色直方圖特征相似度函數(shù)；ci為當(dāng)前幀檢測框的中心點；ct為前一幀跟蹤框的中心點；S（hi，ht）為第i 個候選框和跟蹤目標(biāo)t的HOG 特征相似度函數(shù)；hi為第i 個候選框的HOG特征；ht為跟蹤目標(biāo)的HOG 特征。最后，選擇相似度總得分最多的候選框更新為當(dāng)前幀的跟蹤框。

4 實驗結(jié)果與分析

本文實現(xiàn)目標(biāo)跟蹤方法的平臺是R740 服務(wù)器，該服務(wù)器的配置如下頁表1 所示。

表1 R740 服務(wù)器配置表Table 1 Configuration table of R740 server

本文使用的目標(biāo)檢測算法是AlexeyAB 發(fā)布的darknet-Yolov4 的C 語言版本，其權(quán)重yolov4.weights 由官方提供且已經(jīng)過訓(xùn)練。該模型的準(zhǔn)確度可以達(dá)到65.7% mAP@0.5 （43.5% AP@0.5：0.95），其檢測效果可以滿足本文的檢測要求。實驗選用無人機拍攝的幾個不同場景進(jìn)行測試。圖3～圖5 分別給出了城市公路場景、城市公路交通擁堵場景以及高速公路車輛全遮擋情況，其中，圖3 和圖5 來源于單目標(biāo)跟蹤測試集中的OTB 系列。在上述場景對跟蹤速度進(jìn)行測試，程序處理速度約為24.4 幀/s，能夠滿足實時性的要求。

圖3 城市公路場景Fig.3 Scenarios of urban roads

圖3 中第370 幀是無遮擋情況下的跟蹤效果，第400 幀和420 幀是交通燈對車輛有部分遮擋情況下的跟蹤效果。

由圖4 可以看出，利用多特征融合的圖像匹配算法結(jié)合K 鄰域目標(biāo)預(yù)測算法，即使在目標(biāo)車輛附近出現(xiàn)顏色相同外形相似的車輛，依然能夠很好地進(jìn)行跟蹤。

圖4 城市公路交通擁堵場景Fig.4 Traffic congestion scenarios of urban roads

如圖5 所示，第134 幀中車輛即將消失，第140 幀是車輛被完全遮擋時，抗遮擋算法對車輛的運動估計，第144 幀是當(dāng)車輛從遮擋物中駛出時，由估計框生成的K 鄰域?qū)⒃俅螜z測到的目標(biāo)捕獲，并與模板目標(biāo)進(jìn)行匹配?？梢钥闯觯拐趽跛惴ㄔ谝欢ǔ潭壬峡梢越鉀Q目標(biāo)的全遮擋問題。

圖5 高速公路車輛全遮擋情況Fig.5 Full occlusion of expressway vehicles

表2 給出了本文跟蹤算法在各場景中的跟蹤準(zhǔn)確率。

表2 各場景的跟蹤準(zhǔn)確率Table 2 Tracking accuracy of each scenario

由表2 可知，本文提出的目標(biāo)跟蹤算法對車輛跟蹤的平均準(zhǔn)確率為91.1%。表3 給出了本文算法與其他算法跟蹤準(zhǔn)確率對比。

表3 各算法的跟蹤準(zhǔn)確率對比Table 3 Comparison of tracking accuracy of each algorithm

由表3 可以看出，與傳統(tǒng)的TLD 算法和基于孿生網(wǎng)絡(luò)的單目標(biāo)跟蹤算法相比，本文跟蹤算法跟蹤精度平均提高了6.35%。

5 結(jié)論

本文從深度學(xué)習(xí)的目標(biāo)檢測網(wǎng)絡(luò)YOLOv4 出發(fā)，針對無人機航拍視頻中的某一車輛目標(biāo)研究其目標(biāo)跟蹤方法。分別提出K 鄰域目標(biāo)預(yù)測算法、基于車輛運動狀態(tài)估計的抗遮擋算法以及多特征融合的圖像匹配算法。通過將上述算法進(jìn)行結(jié)合，實現(xiàn)了基于檢測結(jié)果的單目標(biāo)跟蹤算法。通過在不同的拍攝場景下運行該算法，效果良好，平均準(zhǔn)確率達(dá)到91.1%，處理速度約為24.4 幀/s，準(zhǔn)確率較其他跟蹤算法提升了6.35%，且滿足實時性的要求。

本文提出的目標(biāo)跟蹤方法，能夠快速、準(zhǔn)確地在無人機拍攝的視頻中對某一車輛目標(biāo)進(jìn)行跟蹤，具有很好的通用性和可擴(kuò)展性。但是本算法仍具有一定的局限性，本文僅在幾種相對簡單場景中進(jìn)行了測試，未來還需要對更復(fù)雜的車輛運動行為進(jìn)行深入研究。