摘 要:點云和圖像的多模態(tài)特征具有很強的優(yōu)勢互補性,能夠有效提升三維多目標(biāo)跟蹤的性能。然而,由于跟蹤場景的復(fù)雜性和目標(biāo)狀態(tài)的不確定性,使得目標(biāo)跟蹤仍面臨許多挑戰(zhàn)?;诖?,提出多模態(tài)嵌入與軌跡修正的三維多目標(biāo)跟蹤算法。首先構(gòu)建多模態(tài)嵌入學(xué)習(xí)網(wǎng)絡(luò),通過多尺度語義特征學(xué)習(xí)與多模態(tài)再融合模塊,學(xué)習(xí)更具判別性的嵌入表示;其次,提出多特征綜合關(guān)聯(lián)模塊,聯(lián)合跟蹤嵌入和幾何信息,同時修正角度預(yù)測錯誤,實現(xiàn)更精確的數(shù)據(jù)關(guān)聯(lián);最后,提出雙流軌跡修正與管理算法,修正錯誤消失軌跡,以提升軌跡的準確性。在KITTI數(shù)據(jù)集上對提出的方法進行評估并與其他先進方法進行比較,該方法的HOTA指標(biāo)達到了77.72%,MOTA指標(biāo)達到了88.24%,整體體現(xiàn)出較好的跟蹤性能。實驗證明該方法有效地提升了跟蹤精度,并減少了跟蹤錯誤的發(fā)生,具有良好的跟蹤性能。
關(guān)鍵詞:多目標(biāo)跟蹤;多模態(tài)融合;跟蹤嵌入;軌跡修正
中圖分類號:TP391.4"" 文獻標(biāo)志碼:A
文章編號:1001-3695(2024)12-045-3859-07
doi: 10.19734/j.issn.1001-3695.2024.01.0066
3D multi-object tracking with multi-modal embedding and trajectory correction
Zhao Guowei1, Liu Hengyuan1, Li Hui1, Qin Xiugong2, Yang Haoran1, Tao Ye1
(1.School of Data Science, Qingdao University of Science amp; Technology, Qingdao Shandong 266061, China; 2. Beijing Research Institute of Automation for Machinery Industry Co., Ltd., Beijing 100120, China)
Abstract:The multi-modal features of point clouds and images have strong complementary advantages and can effectively improve the performance of three-dimensional multi-object tracking. However, object tracking still faces many challenges due to the complexity of the tracking scene and the uncertainty of the object state. Based on this, this paper proposed a three-dimensional multi-object tracking algorithm with multi-modal embedding and trajectory correction. Firstly, it constructed a multi-modal embedding learning network to learn more discriminative embedding representations through multi-scale semantic feature learning and multi-modal re-fusion modules. Secondly, it designed a multi-feature comprehensive correlation module to jointly track embedding and geometric information, while correcting angle prediction errors to achieve more accurate data correlation. Finally, it proposed a dual-stream trajectory correction and management algorithm to correct erroneous disappearing trajectories to improve trajectory accuracy. The proposed method was evaluated on the KITTI data set and compared with other advanced methods. The HOTA index of the proposed method reached 77.72%, and the MOTA index reached 88.24%, showing the best tracking performance overall. Experiments prove that the proposed method effectively improves tracking accuracy, reduces the occurrence of tracking errors, and has good tracking performance.
Key words:multi-object tracking; multi-modal fusion; track embedding; trajectory correction
0 引言
三維多目標(biāo)跟蹤是計算機視覺領(lǐng)域的重要研究方向之一,在自動駕駛[1]、智慧交通等領(lǐng)域都有著重要的研究意義與應(yīng)用價值,能夠幫助人們改善日常生活與工作體驗。其中,自動駕駛領(lǐng)域是三維多目標(biāo)跟蹤的重要應(yīng)用方向,通過在連續(xù)的時間序列中對目標(biāo)進行識別與跟蹤,同時對目標(biāo)運動方向、速度等屬性進行預(yù)測,幫助自動駕駛系統(tǒng)進行運動規(guī)劃,提升車輛在各種環(huán)境下的通行能力,并有效地防止發(fā)生危險事故。綜上,三維多目標(biāo)跟蹤的研究對于推動自動駕駛技術(shù)實現(xiàn)更高水平發(fā)展具有重要意義。
多目標(biāo)跟蹤任務(wù)主要分為檢測和跟蹤兩個子任務(wù)。檢測任務(wù)負責(zé)從視頻序列中對每一個有效目標(biāo)進行定位和分類[2,3];跟蹤任務(wù)負責(zé)匹配不同幀之間的同一目標(biāo)[4],組合得到軌跡序列。但在現(xiàn)實環(huán)境下,場景中目標(biāo)間的遮擋與檢測器的錯檢、漏檢問題導(dǎo)致跟蹤器有時并不能順利地連續(xù)跟蹤目標(biāo),難以避免地出現(xiàn)身份切換與軌跡碎片化問題,如圖1所示,因遮擋而消失的目標(biāo)在重新出現(xiàn)后被賦予了新的ID。由于3D場景不同于2D場景,3D空間下目標(biāo)的運動軌跡更為復(fù)雜,所以對跟蹤算法提出了更高的要求,當(dāng)前的3D多目標(biāo)跟蹤方法大多結(jié)合不同模態(tài)的數(shù)據(jù)進行跟蹤,這有效地提升了跟蹤性能,但仍存在以下問題:a)現(xiàn)有跟蹤方法多采用檢測分支特征構(gòu)建嵌入親和矩陣,沒有針對學(xué)習(xí)跟蹤嵌入,由于檢測與跟蹤兩者任務(wù)目標(biāo)的區(qū)別,導(dǎo)致此類嵌入親和矩陣不能有效地區(qū)分目標(biāo);b)大多數(shù)方法在數(shù)據(jù)關(guān)聯(lián)階段采用目標(biāo)的位置信息或采用目標(biāo)的外觀信息計算親和矩陣,忽略了3D空間中目標(biāo)的其他特征,親和矩陣的判別能力仍有提升空間;c)對于錯檢與漏檢造成的跟蹤錯誤,傳統(tǒng)的軌跡管理方法在處理的同時,仍然會發(fā)生軌跡缺失與軌跡碎片化問題,不能完全消除檢測錯誤對跟蹤造成的影響。針對上述問題,本文提出以下方法:
a)構(gòu)建多模態(tài)嵌入學(xué)習(xí)網(wǎng)絡(luò),使用多尺度語義特征學(xué)習(xí)與多模態(tài)再融合模塊,學(xué)習(xí)更具判別的嵌入表示,提升多目標(biāo)跟蹤性能。
b)提出多特征綜合關(guān)聯(lián)方法,聯(lián)合外觀特征和幾何信息綜合進行數(shù)據(jù)關(guān)聯(lián),修正角度預(yù)測錯誤,降低了錯誤匹配概率。
c)提出雙流軌跡修正與管理模塊,在管理軌跡匹配結(jié)果的同時修復(fù)缺陷軌跡。驗證初始化軌跡有效性,減少錯誤檢測初始化概率,提升軌跡的準確性。
1 相關(guān)工作
3D多目標(biāo)跟蹤技術(shù)作為自動駕駛領(lǐng)域的關(guān)鍵技術(shù)[5],通過對周邊環(huán)境目標(biāo)的感知與跟蹤,直接影響著自動駕駛系統(tǒng)的規(guī)劃與決策,根據(jù)輸入數(shù)據(jù)類型的不同,主要分為基于點云的多目標(biāo)跟蹤方法與基于多模態(tài)融合的多目標(biāo)跟蹤方法。通過激光雷達獲取的點云數(shù)據(jù),具有極高的空間信息豐富度,通過對點云特征的學(xué)習(xí),能夠準確地定位目標(biāo)在3D空間中的位置,在基于點云的多目標(biāo)跟蹤算法中,Wen等人[4]采用PointRCNN[6]作為3D檢測器,以3D IoU(intersection over union)計算親和矩陣,采用卡爾曼濾波與匈牙利算法預(yù)測并求解匹配結(jié)果,為3D多目標(biāo)跟蹤開創(chuàng)了一個新的基線算法。Yin等人[7]提出了一個兩階段的3D檢測跟蹤方法,將3D空間中目標(biāo)框視為目標(biāo)點,以目標(biāo)點與目標(biāo)點之間的歐氏距離作為數(shù)據(jù)關(guān)聯(lián)的親和矩陣,采用貪心算法求解軌跡與檢測的匹配關(guān)系,但在現(xiàn)實場景下僅僅采用幾何信息進行目標(biāo)關(guān)聯(lián),難以在各種復(fù)雜的環(huán)境中維持較高的跟蹤精度。Benbarka等人[8]認為將軌跡置信度更新為匹配檢測的置信度的方法并不能準確地表達軌跡的活躍性,提出采用置信度更新函數(shù)對軌跡的狀態(tài)進行描述,從而實現(xiàn)對軌跡更準確的管理。Pang等人[9]采用非極大值方法抑制替代傳統(tǒng)的閾值檢測篩選方法,并采用卡爾曼濾波對目標(biāo)的狀態(tài)進行預(yù)測,使用GIOU[10]計算親和矩陣,同樣取得了不錯的效果。Luo等人[11]構(gòu)建混合時間中心圖,同時預(yù)測目標(biāo)運動與邊界框大小,采用混合時間中心圖直接進行關(guān)聯(lián),進而得到軌跡序列。雖然基于點云的多目標(biāo)跟蹤方法已經(jīng)取得了優(yōu)異的結(jié)果,但由于點云本身存在的缺陷,限制了當(dāng)前算法的發(fā)展,點云在空間中分布稀疏且不均勻,其分布密度與激光雷達距離呈負相關(guān),即對于遠距離目標(biāo),往往不能實現(xiàn)精確的跟蹤目標(biāo)。同時,僅基于幾何信息的關(guān)聯(lián)在復(fù)雜環(huán)境下辨別性能較低,當(dāng)目標(biāo)被遮擋或者因為其他原因而沒有被檢測到時,容易導(dǎo)致目標(biāo)身份切換和軌跡碎片化問題。因此,基于單模態(tài)或僅采用單一特征進行數(shù)據(jù)關(guān)聯(lián)的多目標(biāo)跟蹤存在一定的局限性。
相較于點云,圖像數(shù)據(jù)具有更豐富的紋理特征,即使對較遠的目標(biāo)仍能獲取充足的語義特征,在一定程度上解決了點云對于遠距離目標(biāo)識別較差的問題。與基于點云的多目標(biāo)跟蹤方法對比,基于點云和圖像融合的跟蹤方法中,Zhang等人[12]分別使用VGG[13]模型處理圖像數(shù)據(jù),PointNet[14]模型處理點云數(shù)據(jù),融合并計算親和矩陣,并采用混合整數(shù)線性規(guī)劃進行數(shù)據(jù)關(guān)聯(lián),同樣取得了優(yōu)異的結(jié)果。Kim等人[15]使用不同的3D與2D檢測器作為基準檢測器,根據(jù)映射關(guān)系將2D檢測結(jié)果投影至3D空間,并按照投影結(jié)果進行兩階段匹配,一定程度上提升了跟蹤精度。Wang等人[16]在EagerMot方法的基礎(chǔ)上,提出四階段關(guān)聯(lián)方法進行軌跡的數(shù)據(jù)關(guān)聯(lián),取得了更加準確的結(jié)果。Wang等人[17]構(gòu)建點云-圖像融合框架,針對目標(biāo)被遮擋和錯檢的情況,采用遮擋頭,判斷并選擇目標(biāo)的最優(yōu)外觀特征,同時采用基于置信度分數(shù)的親和矩陣,提高了目標(biāo)匹配的精度。
現(xiàn)有的跟蹤方法多數(shù)依賴于幾何信息或者外觀特征進行數(shù)據(jù)關(guān)聯(lián),但針對外觀特征并沒有進行適應(yīng)跟蹤任務(wù)的學(xué)習(xí)。基于此,在復(fù)雜環(huán)境下很難實現(xiàn)魯棒的跟蹤,同時目標(biāo)檢測任務(wù)的準確度對跟蹤任務(wù)存在較大影響,出現(xiàn)錯誤時極易造成跟蹤任務(wù)同步出現(xiàn)錯誤,故本文分別針對嵌入學(xué)習(xí)網(wǎng)絡(luò)、親和矩陣計算、軌跡管理模塊幾個方面進行了研究,以提升網(wǎng)絡(luò)對目標(biāo)的跟蹤能力。
2 方法描述
本文方法的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,主要包含多模態(tài)嵌入學(xué)習(xí)網(wǎng)絡(luò)、多特征數(shù)據(jù)關(guān)聯(lián)模塊以及雙流軌跡修正與管理模塊三個部分。網(wǎng)絡(luò)以點云和圖像作為輸入,分別采用PointNet++[18]網(wǎng)絡(luò)與輕量卷積網(wǎng)絡(luò)學(xué)習(xí)點云與圖像特征,然后進行多模態(tài)特征融合,得到預(yù)測框和預(yù)測類別。多模態(tài)嵌入學(xué)習(xí)網(wǎng)絡(luò)與檢測網(wǎng)絡(luò)并行推理,對特征提取網(wǎng)絡(luò)中得到的多尺度圖像語義特征進行處理,并與融合特征進行多模態(tài)再融合,得到目標(biāo)嵌入表示,然后通過目標(biāo)關(guān)聯(lián)網(wǎng)絡(luò)計算目標(biāo)相關(guān)性。最終由數(shù)據(jù)關(guān)聯(lián)模塊求解目標(biāo)匹配關(guān)系,再經(jīng)過雙流軌跡修正與管理得到軌跡序列。
2.1 多模態(tài)嵌入學(xué)習(xí)網(wǎng)絡(luò)
跟蹤過程中,跟蹤嵌入作為親和矩陣的重要組成部分,其準確性對跟蹤精度有著重要的影響,本文的多模態(tài)嵌入學(xué)習(xí)網(wǎng)絡(luò)首先通過多尺度圖像語義特征增強網(wǎng)絡(luò)對不同尺度的圖像特征進行學(xué)習(xí),提升網(wǎng)絡(luò)對目標(biāo)特征的感知,并通過圖像坐標(biāo)信息與預(yù)測框中心信息增強嵌入的判別力,然后通過多模態(tài)再融合機制,結(jié)合融合特征與圖像特征的優(yōu)勢,進一步提升跟蹤嵌入的準確性。
2.1.1 多尺度圖像語義特征增強網(wǎng)絡(luò)
在嵌入學(xué)習(xí)網(wǎng)絡(luò)中,由于小目標(biāo)的信息量較少,傳統(tǒng)的卷積網(wǎng)絡(luò)難以充分學(xué)習(xí)該類特征,故需要設(shè)計專門的網(wǎng)絡(luò)結(jié)構(gòu)來學(xué)習(xí)不同尺度下的目標(biāo)特征。如圖3所示,首先采用特征金字塔結(jié)構(gòu)[19]與多尺度注意力網(wǎng)絡(luò),通過自注意力網(wǎng)絡(luò)增強并融合不同尺度下的圖像語義特征。
多尺度圖像語義特征增強網(wǎng)絡(luò)的輸入為檢測分支中不同尺度的圖像特征Fi(i=1,2,3,4),采用特征金字塔網(wǎng)絡(luò)對檢測分支圖像特征進行處理,增強對不同尺度目標(biāo)感知的同時得到更適宜跟蹤任務(wù)的圖像特征。首先利用雙線性插值實現(xiàn)對圖像特征的上采樣操作,再通過卷積核大小為1×1的卷積調(diào)整圖像特征通道,自上而下地將對應(yīng)的圖像特征進行處理,并與相鄰特征沿通道進行拼接操作,得到新的圖像特征。之后,利用卷積核大小為3×3的卷積對圖像進行下采樣操作,同樣采用卷積核大小為1×1的卷積調(diào)整圖像特征通道,自下而上地將對應(yīng)圖像特征進行處理,并與相鄰特征沿通道進行拼接操作,得到增強的圖像語義特征Fi′(i=1,2,3,4)。然后采用不同步幅的轉(zhuǎn)置卷積將增強后的特征恢復(fù)到原始圖像尺寸,并通過空間注意力機制對圖像特征進行自適應(yīng)增強,提升對于目標(biāo)的判別力,之后將增強后的圖像特征沿通道進行拼接,得到最終的圖像特征。計算公式為
Fi′=TransConvi(Fi′)(1)
Fi′=SpatialAtt(Fi′)×Fi′(2)
F=Cat(F1′,F(xiàn)2′,F(xiàn)3′,F(xiàn)4′)(3)
其中:TransConvi表示轉(zhuǎn)置卷積;SpatialAtt表示空間注意力;Cat表示拼接操作;F表示增強后的圖像特征。
之后利用攝像頭與激光雷達的內(nèi)參矩陣MT,將點云中每個點通過內(nèi)參矩陣映射到圖像坐標(biāo),由此構(gòu)建圖像與點云之間的映射關(guān)系,然后將增強后的圖像特征F映射到3D空間,獲得3D圖像特征F3D。但映射到3D空間的圖像特征丟失了圖像的坐標(biāo)信息,故通過原始圖像的位置信息,生成圖像位置信息Fpos∈RH×W×2,并經(jīng)由兩層卷積塊處理,其中卷積塊由卷積層與激活函數(shù)ReLu構(gòu)成。將處理后的2D圖像位置信息Fpos與圖像特征F沿通道維度拼接,并通過卷積核大小為1×1的卷積層調(diào)整通道數(shù),由此補充了映射過程中丟失的圖像坐標(biāo)信息。之后采用通道注意力模塊對圖像特征進行進一步處理,精細化每個通道對特征信息的表達,然后再將圖像特征轉(zhuǎn)換為3D圖像特征,基于此,使得3D圖像特征獲得了坐標(biāo)信息,提升了對后續(xù)關(guān)聯(lián)的魯棒性。最后,對3D圖像特征進行3D RoI(3D region of interest)池化操作,得到圖像區(qū)域提議特征。具體計算公式為
Fpos=ConvBlock(ConvBlock(Fpos))(4)
F=Conv(Cat(F,F(xiàn)pos))(5)
F=ChannelAtt(F)×F(6)
F3D=Maping(F,MT)(7)
FI=3DRoIPooling(F3D)(8)
其中:ConvBlock表示卷積塊;ChannelAtt表示通道注意力;Maping表示映射操作;FI表示圖像區(qū)域提議特征。
同時為了增加網(wǎng)絡(luò)對目標(biāo)的判別能力,將檢測網(wǎng)絡(luò)得到的3D預(yù)測框D3D投影至圖像坐標(biāo),得到2D預(yù)測框D2D,并生成預(yù)測框中心點信息Fcen∈RN×2,通過兩層全連接層對2D預(yù)測框中心點信息進行處理,將處理后的預(yù)測框中心點信息與圖像區(qū)域提議特征進行拼接,之后通過全連接層再進行處理,得到更具判別性的圖像特征。具體計算公式為
Fcen=fc(fc(Fcen))(9)
FI=fc(Cat(Fcen,F(xiàn)I))(10)
其中:fc表示全連接層;FI表示增強后的圖像區(qū)域提議特征。
2.1.2 多模態(tài)再融合
由于在嵌入學(xué)習(xí)網(wǎng)絡(luò)中只使用了圖像語義特征,但點云的空間特征對于數(shù)據(jù)關(guān)聯(lián)也是尤為重要的,為了彌補缺失的點云信息,同時避免重復(fù)計算,對檢測分支的融合區(qū)域提議特征與圖像提議特征進行多模態(tài)再融合,整體結(jié)構(gòu)如圖4所示。首先將融合提議特征和圖像提議特征分別使用全連接層進行處理,之后將兩者對應(yīng)元素相加,再次通過全連接層處理,采用sigmoid函數(shù)計算得到對應(yīng)的注意力權(quán)重,然后將對應(yīng)的權(quán)重分別與對應(yīng)的融合提議特征與圖像提議特征相乘,得到增強后的特征,最終將增強后的融合特征和圖像特征相加,獲得跟蹤嵌入表示。計算公式如下:
Ff=fc(FD)+fc(FI)(11)
Att=sigmoid(fc(tanh(Ff)))(12)
FB=(1-Att)×FD+(1+Att)×FI(13)
其中:FD與FI分別為融合特征與圖像特征;1-Att和1+Att分別表示融合特征與圖像特征的注意力掩碼;FB為最終得到的跟蹤嵌入。對于得到的邊框嵌入,采用目標(biāo)關(guān)聯(lián)網(wǎng)絡(luò)計算開始分數(shù),結(jié)束分數(shù)與特征相似度矩陣,然后通過多特征數(shù)據(jù)關(guān)聯(lián)模塊中進行數(shù)據(jù)關(guān)聯(lián)操作。
2.1.3 多特征數(shù)據(jù)關(guān)聯(lián)
數(shù)據(jù)關(guān)聯(lián)作為多目標(biāo)跟蹤算法中的關(guān)鍵算法,其目的是將當(dāng)前幀的檢測框與現(xiàn)有軌跡進行關(guān)聯(lián)。首先需要將現(xiàn)有軌跡通過算法預(yù)測其在當(dāng)前幀中的狀態(tài),同時利用各種特征構(gòu)建軌跡與檢測之間的親和矩陣,從而得到軌跡與檢測的匹配關(guān)系。本文提出多特征數(shù)據(jù)關(guān)聯(lián)模塊,通過聯(lián)合幾何與外觀的多種特征進行數(shù)據(jù)關(guān)聯(lián),減少軌跡與檢測的錯誤匹配,提升跟蹤精度。
關(guān)聯(lián)流程如圖5所示。首先將現(xiàn)有軌跡使用卡爾曼濾波預(yù)測其在當(dāng)前幀的位置,再采用運動補償將軌跡的坐標(biāo)系從上一幀轉(zhuǎn)換到當(dāng)前幀,以降低由于傳感器自身運動造成的誤差。之后采用跟蹤嵌入、IoU、距離、角度信息構(gòu)建幾何-外觀親和矩陣,由此提升關(guān)聯(lián)準確度,并提高算法在各種環(huán)境下的辨別力。跟蹤嵌入親和矩陣AME是將多模態(tài)嵌入學(xué)習(xí)網(wǎng)絡(luò)中得到的軌跡嵌入FT與檢測嵌入FD的差值的絕對值送入目標(biāo)關(guān)聯(lián)網(wǎng)絡(luò)處理得到的,其中軌跡與檢測的嵌入絕對差值代表了軌跡與檢測的外觀相似性。IoU親和矩陣AMI、距離親和矩陣AMD與角度親和矩陣AMA計算如下:
AMI=BT∩BDBT∪BD(14)
AMD=1-ρ(bT,bD)l(15)
AMA=cos(θT-θD)(16)
其中:BT表示軌跡預(yù)測框;BD表示檢測框;ρ表示歐氏距離;bT表示軌跡預(yù)測框中心點;bD表示檢測框中心點;θT表示軌跡目標(biāo)運動方向;θD表示檢測目標(biāo)運動方向。
圖5 多特征數(shù)據(jù)關(guān)聯(lián)模塊
Fig.5 Multi-feature data association module
在某些時候,檢測網(wǎng)絡(luò)會錯誤判斷目標(biāo)的運動方向,如圖6所示。檢測網(wǎng)絡(luò)對ID為3的車輛的角度在相近的兩幀內(nèi)給出不同的預(yù)測,出現(xiàn)了明顯的錯誤,在高幀率下,處于相鄰幀數(shù)的目標(biāo)的方向變化應(yīng)處于一定范圍內(nèi),對于相鄰的兩幀,如果同一目標(biāo)間出現(xiàn)超過90°的角度差,即認定出現(xiàn)角度預(yù)測錯誤。若此時仍采用原始角度信息繼續(xù)數(shù)據(jù)關(guān)聯(lián),則有可能發(fā)生錯誤關(guān)聯(lián),降低網(wǎng)絡(luò)跟蹤的精度,所以在數(shù)據(jù)關(guān)聯(lián)階段需要對檢測網(wǎng)絡(luò)預(yù)測的錯誤運動方向進行修復(fù)。在完成所有親和矩陣計算后,利用IoU親和矩陣修復(fù)角度親和矩陣中可能存在的錯誤并提升其判別性,具體過程如式(17)所示。
AMA(i,j)=0.95"""" AMI(i,j)gt;0.9amp;AMA(i,j)lt;-0.9AMA(i,j)-3" AMI(i,j)lt;0.3amp;AMA(i,j)lt;0AMA(i,j)-1" AMI(i,j)lt;0.3amp;AMA(i,j)gt;0AMA(i,j)"" others(17)
其中:AMA(i,j)為角度親和矩陣對應(yīng)值;AMI(i,j)為IoU親和矩陣對應(yīng)值。最終的親和矩陣采用四種親和矩陣按照一定系數(shù)組合得到,如式(18)所示。
AM=a1×AME+a2×AMI+a3×AMD+a4×AMA(18)
其中:a1、a2、a3、a4分別為對應(yīng)矩陣的系數(shù);AM為最終的親和矩陣。之后將AM與目標(biāo)關(guān)聯(lián)網(wǎng)絡(luò)得到的開始分數(shù)與結(jié)束分數(shù)以及目標(biāo)置信度送入到混合整型線性規(guī)劃模塊[20]中求解軌跡與檢測的匹配關(guān)系,混合整型線性規(guī)劃模塊計算方法與文獻[21]相同。
2.2 雙流軌跡修正與管理
目標(biāo)檢測任務(wù)作為跟蹤任務(wù)的前置任務(wù),如果發(fā)生了漏檢與錯檢錯誤,不可避免地會影響到目標(biāo)跟蹤的精度,出現(xiàn)類似于身份切換與軌跡碎片化等問題。針對上述問題,本文提出雙流軌跡修正和管理模塊,即數(shù)據(jù)關(guān)聯(lián)階段后,在管理軌跡的同時,利用軌跡歷史信息對錯誤軌跡進行修正。
數(shù)據(jù)關(guān)聯(lián)結(jié)束后,對匹配的軌跡檢測對利用卡爾曼濾波進行更新,同時將未匹配的檢測初始化為預(yù)備軌跡,此時預(yù)備軌跡中可能存在錯檢目標(biāo)。預(yù)備軌跡與正式軌跡一同參與后續(xù)的數(shù)據(jù)關(guān)聯(lián)計算,如果該軌跡能夠在τ幀中連續(xù)匹配檢測,證明該軌跡為正確檢出目標(biāo),將其轉(zhuǎn)換為正式軌跡,并恢復(fù)其過去τ幀軌跡。如果預(yù)備軌跡在τ幀未能連續(xù)匹配,代表該軌跡為錯檢目標(biāo),刪除該軌跡的同時,刪除保存的該軌跡的結(jié)果。
如果正式軌跡在關(guān)聯(lián)階段沒有與檢測匹配,該目標(biāo)可能是離開場景或者被其他目標(biāo)遮擋,導(dǎo)致跟蹤器無法對該軌跡繼續(xù)進行跟蹤。如圖7所示,本文將該類軌跡轉(zhuǎn)為消失軌跡,在一定幀數(shù)內(nèi),正常參與后續(xù)的數(shù)據(jù)關(guān)聯(lián)計算,同時保存其在消失期間的卡爾曼濾波預(yù)測的軌跡信息,即以未匹配的前一幀軌跡為起點,構(gòu)建正向的預(yù)測軌跡序列。同時,如果該軌跡在θ1幀內(nèi)與檢測匹配,則利用卡爾曼濾波以及當(dāng)前匹配的檢測預(yù)測框?qū)壽E信息進行更新,并將該軌跡恢復(fù)為正式軌跡,同時以當(dāng)前匹配檢測為終點,由此構(gòu)建反向卡爾曼濾波對該軌跡消失期間的軌跡信息進行反向預(yù)測,構(gòu)建反向的預(yù)測軌跡序列,然后將正向的預(yù)測軌跡與反向的預(yù)測軌跡融合,得到最終的預(yù)測軌跡,將該預(yù)測軌跡恢復(fù)至正式軌跡序列中,填補消失軌跡缺失的軌跡序列。缺陷軌跡修復(fù)流程如圖7所示。如果該軌跡未能在θ1幀內(nèi)與檢測匹配,則刪除其保存的軌跡信息,對該軌跡不進行修正操作。如果其在θ2(θ1lt;θ2)幀內(nèi)與檢測成功匹配,則在更新軌跡的同時將該軌跡恢復(fù)為正式軌跡,之后正常參與數(shù)據(jù)關(guān)聯(lián)。如果其在θ2幀內(nèi)未與檢測匹配,則將該軌跡刪除,不再參與數(shù)據(jù)關(guān)聯(lián)。
3 實驗
3.1 數(shù)據(jù)集
實驗采用KITTI[22]數(shù)據(jù)集,該數(shù)據(jù)集是三維多目標(biāo)跟蹤的標(biāo)準數(shù)據(jù)集之一,包括激光雷達和彩色相機得到的兩種傳感器數(shù)據(jù),同時針對多種任務(wù)做了標(biāo)注。數(shù)據(jù)集分為訓(xùn)練集與測試集,其中訓(xùn)練集有21個場景序列,測試集有29個場景序列,場景包含城市街道、高速公路、校園等。
3.2 實驗設(shè)置
本文方法使用PyTorch框架搭建,并在 Ubuntu 服務(wù)器上進行訓(xùn)練和測試,以EPNet作為預(yù)訓(xùn)練模型,訓(xùn)練輸入數(shù)據(jù)為兩幀的點云與圖像數(shù)據(jù),批處理大小為2,學(xué)習(xí)率設(shè)置為1E-3。
3.3 消融實驗
為了分析本文方法的有效性,設(shè)計了全局消融實驗、參數(shù)消融實驗,采用KITTI標(biāo)準進行評估,主要指標(biāo)為HOTA[23]、MOTA、FP、FN、IDSW與FRAG等。
3.3.1 全局消融實驗
全局消融實驗是在基線方法的基礎(chǔ)上分別添加多模態(tài)嵌入網(wǎng)絡(luò)、多特征關(guān)聯(lián)模塊、雙流軌跡修正與管理模塊,進行對比分析,研究本文方法對跟蹤精度的影響。如表1所示,基線方法的主要指標(biāo)HOTA和MOTA分別為76.66%和85.39%,F(xiàn)P和FN分別為964和1 360,在跟蹤過程中,由于檢測器造成的錯檢和漏檢干擾,并且網(wǎng)絡(luò)的跟蹤嵌入沒有得到較好的訓(xùn)練,不能精確地區(qū)別不同目標(biāo),從而導(dǎo)致跟蹤性能相對較差。
添加多模態(tài)嵌入學(xué)習(xí)網(wǎng)絡(luò)后,HOTA和MOTA分別為78.29%和86.12%,相對基線方法,分別提高1.63%和0.73%,同時FP與FN分別降低了305、307,說明本文提出的多模態(tài)嵌入網(wǎng)絡(luò)學(xué)習(xí)到更準確的跟蹤嵌入,有效提升了網(wǎng)絡(luò)的跟蹤性能。添加多特征關(guān)聯(lián)模塊后, HOTA和MOTA分別為78.57%和86.46%,與僅添加多模態(tài)嵌入學(xué)習(xí)網(wǎng)絡(luò)的方法對比分別提升了0.28%、2.67%。FP和FN分別為648和1 004,對應(yīng)降低了11和49。IDSW降低了2,有效證明了多模態(tài)嵌入網(wǎng)絡(luò)和多特征關(guān)聯(lián)的有效性,整體網(wǎng)絡(luò)更能區(qū)分相似目標(biāo),對于因遮擋而消失的軌跡,也能在數(shù)幀之后得到匹配。添加雙流軌跡修正與管理方法后,HOTA與MOTA分別為79.91%與89.13%,相較于添加多模態(tài)嵌入和多特征關(guān)聯(lián)的方法分別提高了1.34%與2.67%,并大幅度降低了IDSW與FRAG,通過修復(fù)缺陷軌跡,緩解了身份切換問題與軌跡碎片化問題。添加了上述三個部分的方法相較于基線方法,主要指標(biāo)HOTA和MOTA提升了3.25%和3.74%,F(xiàn)P和FN也存在不同程度的下降,充分證明了所提方法的有效性。
3.3.2 參數(shù)消融實驗
參數(shù)消融實驗分別為親和矩陣消融實驗、軌跡修復(fù)消融實驗,以及軌跡驗證消融實驗,在本文方法的基礎(chǔ)上,對特定參數(shù)進行測試分析。為了驗證通過嵌入提取網(wǎng)絡(luò)得到的跟蹤嵌入以及聯(lián)合幾何-外觀信息構(gòu)建親和矩陣的有效性,對親和矩陣進行消融實驗,分析不同親和矩陣計算方式對網(wǎng)絡(luò)跟蹤精度的影響。實驗結(jié)果如表2所示,本文提出的多特征關(guān)聯(lián)整體效果優(yōu)于其他親和矩陣方法,在綜合評定了IoU、距離、角度以及跟蹤嵌入的效果之后,HOTA達到79.91%,MOTA達到89.13%,證明在特征關(guān)聯(lián)階段,幾何信息與外觀信息都起到了至關(guān)重要的作用,在復(fù)雜的真實環(huán)境下,所提方法的效果更加顯著。同時對雙流軌跡修正與管理模塊中軌跡修正閾值以及軌跡驗證閾值進行消融實驗。從表3與4可以看出,當(dāng)軌跡修復(fù)閾值取8幀時,HOTA和MOTA達到了最優(yōu)的結(jié)果,當(dāng)軌跡驗證閾值取2幀時,HOTA和MOTA達到了最優(yōu)的結(jié)果。
3.4 實驗對比
3.4.1 定量結(jié)果分析
本文在KITTI跟蹤測試數(shù)據(jù)集進行實驗對比,關(guān)于“car”類別的評估結(jié)果如表5所示,本文方法的HOTA與MOTA指標(biāo)分別為77.72%、88.24%,AssA、AssPr、IDSW與FRAG指標(biāo)分別為81.31%、89.90%、71和210,與現(xiàn)有先進方法相比,本文方法在HOTA、AssA、MOTA與IDSW指標(biāo)上取得了最優(yōu)的結(jié)果,在AssPr、FP與FRAG指標(biāo)上取得前三的結(jié)果,整體體現(xiàn)出最好的跟蹤性能。
本文方法在HOTA與MOTA指標(biāo)上均優(yōu)于表中單模態(tài)方法,證明模型整體跟蹤效果優(yōu)于該類方法,同時說明了3D多目標(biāo)跟蹤方法中合理地使用多模態(tài)數(shù)據(jù)能夠有效地提升跟蹤性能。與使用多模態(tài)的EagerMOT方法比較,除了AssPr與FN指標(biāo)外,在其他指標(biāo)上,本文方法均優(yōu)于該方法,EagerMOT采用的多階段關(guān)聯(lián)方法結(jié)合了2D與3D檢測的優(yōu)勢,僅使用幾何信息進行關(guān)聯(lián),難以精確地關(guān)聯(lián)不同幀的目標(biāo)。與同樣使用圖像和點云的方法DeepFusionMOT相比,本文方法在FN指標(biāo)上略差于該方法,其使用了精度高的檢測器,在更準確定位目標(biāo)的同時,利用2D與3D信息進行多階段目標(biāo)關(guān)聯(lián),提高了跟蹤精度,但在多數(shù)指標(biāo)上均低于本文方法,整體性能不如本文方法。同時可以看到,本文方法的FPS為80幀/s,略低于部分其他方法,是由于多特征關(guān)聯(lián)模塊與軌跡修正模塊增加了計算量,一定程度上影響了網(wǎng)絡(luò)的推理速度。從表5可以看出,與其他先進方法對比,本文方法在大多數(shù)指標(biāo)上均有較好性能,其余指標(biāo)雖然不是最優(yōu),但也處于前列,證明了其有效性。
3.4.2 定性結(jié)果分析
為了驗證方法的有效性,在KITTI數(shù)據(jù)集上進行了可視化,如圖8所示。在第一個場景中,ID為17的目標(biāo)與ID為16、20、21的目標(biāo)分別發(fā)生了遮擋,同時在遮擋結(jié)束后網(wǎng)絡(luò)正確識別了被遮擋的目標(biāo),并持續(xù)跟蹤目標(biāo)直至其離開場景。第二個場景中,ID為28與ID為36的目標(biāo)與多輛車發(fā)生了遮擋,但在遮擋過程中與遮擋結(jié)束之后,跟蹤網(wǎng)絡(luò)都正確地跟蹤了每一個目標(biāo),證明了本文方法的有效性,能在跟蹤過程中保持良好的準確度,減少了身份切換錯誤和軌跡碎片化的發(fā)生。
同時對其他場景跟蹤結(jié)果進行可視化分析,并與基線算法進行對比。圖9為本文方法與基線算法跟蹤結(jié)果可視化對比圖,其中第一排為基線算法跟蹤結(jié)果,第二排為本文跟蹤結(jié)果??梢钥吹?,基線算法跟蹤結(jié)果出現(xiàn)身份切換錯誤、軌跡碎片化問題,同時還將錯誤目標(biāo)實例化為軌跡,而本文方法準確地跟蹤了ID為13的目標(biāo),未出現(xiàn)身份切換錯誤。
4 結(jié)束語
本文提出了多模態(tài)嵌入與軌跡修正的三維多目標(biāo)跟蹤,在基線模型的基礎(chǔ)上提出多模態(tài)嵌入學(xué)習(xí)網(wǎng)絡(luò),采用多尺度圖像特征增強網(wǎng)絡(luò)與多模態(tài)再融合模塊,構(gòu)建更高效的嵌入特征,同時采用多特征數(shù)據(jù)關(guān)聯(lián)算法,并修復(fù)錯誤的目標(biāo)方向,提升了特征關(guān)聯(lián)精度,并且在傳統(tǒng)跟蹤管理方法的基礎(chǔ)上增加了雙流軌跡修正模塊,減少了軌跡碎片化的發(fā)生。同時本文提出的三維多目標(biāo)跟蹤算法在KITTI數(shù)據(jù)集上取得了良好的實驗效果,證明了該方法的有效性。
參考文獻:
[1]劉旖菲, 胡學(xué)敏, 陳國文, 等. 視覺感知的端到端自動駕駛運動規(guī)劃綜述 [J]. 中國圖像圖形學(xué)報, 2021, 26 (1): 49-66. (Liu Yifei, Hu Xuemin, Chen Guowen, et al. Review of end-to-end motion planning for autonomous driving with visual perception [J]. Journal of Image and Graphics, 2021, 26 (1): 49-66.)
[2]趙筱楠, 申丹虹. 基于地面先驗的3D目標(biāo)檢測算法 [J]. 計算機應(yīng)用研究, 2022, 39 (1): 275-279. (Zhao Xiaonan, Shen Danhong. Ground-aware 3D object detection algorithm [J]. Application Research of Computers, 2022, 39 (1): 275-279.)
[3]汪明明, 陳慶奎, 付直兵. KPP3D: 基于關(guān)鍵點信息融合的3D目標(biāo)檢測模型 [J]. 計算機工程與應(yīng)用, 2023, 59 (17): 195-204. (Wang Mingming, Chen Qingkui, Fu Zhibing. KPP3D: key point painting for 3D object detection [J]. Computer Engineering and Applications, 2023, 59 (17): 195-204.)
[4]Weng Xinshuo, Wang Jianren, Held D, et al. 3D multi-object trac-king: a baseline and new evaluation metrics [C]// Proc of IEEE International Conference on Intelligent Robots and Systems. Piscataway, NJ: IEEE Press, 2020: 10359-10366.
[5]馬建紅, 王稀瑤, 陳永霞, 等. 自動駕駛中圖像與點云融合方法研究綜述 [J]. 鄭州大學(xué)學(xué)報: 理學(xué)版, 2022, 54 (6): 24-33. (Ma Jianhong, Wang Xiyao, Chen Yongxia, et al. A review of research on image and point cloud fusion methods in automatic driving [J]. Journal of Zhengzhou University: Natural Science Edition, 2022, 54 (6): 24-33.)
[6]Shi Shaoshuai, Wang Xiaogang, Li Hongsheng. PointRcnn: 3D object proposal generation and detection from point cloud [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2019: 770-779.
[7]Yin Tianwei, Zhou Xingqi, Krahenbuhl P. Center-based 3D object detection and tracking [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2021: 11784-11793.
[8]Benbarka N, Schroder J, Zell A. Score refinement for confidence-based 3D multi-object tracking [C]// Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems.Piscataway,NJ: IEEE Press, 2021: 8083-8090.
[9]Pang Ziqi, LiZhichao, Wang Naiyan. SimpleTrack: understanding and rethinking 3D multi-object tracking [C]// Proc of European Conference on Computer Vision. Berlin: Springer, 2022: 680-696.
[10]Rezatofighi H, Tsoi N, Gwak J Y, et al. Generalized intersection over union: a metric and a loss for bounding box regression [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2019: 658-666.
[11]Luo Chenxu, Yang Xiaodong, Yuille A. Exploring simple 3D multi-object tracking for autonomous driving [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press, 2021: 10488-10497.
[12]Zhang Wenwei, Zhou Hui, SunShuyang, et al. Robust multi-modalitymulti-object tracking [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press, 2019: 2365-2374.
[13]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition [C]// Proc of the 3rd International Conference on Learning Representations. 2015: 1-14.
[14]Charles R Q, Su Hao, Mo Kaichun , et al. PointNet: deep learning on point sets for 3D classification and segmentation [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press 2017: 652-660.
[15]Kim A,Osep A, Leal-Taixe L. EagerMOT: 3D multi-object tracking via sensor fusion [C]// Proc of IEEE International Conference on Robotics and Automation. Piscataway,NJ: IEEE Press, 2021: 11315-11321.
[16]Wang Xiyang, Fu Chunyun, Li Zhankun, et al. DeepFusionMOT: a 3D multi-object tracking framework based on camera-LiDAR fusion with deep association [J]. IEEE Robotics and Automation Letters, 2022, 7 (3): 8260-8267.
[17]Wang Li, Zhang Xinyu, QinWengyuan, et al. CAMO-MOT: combined appearance-motion optimization for 3D multi-object tracking with camera-lidar fusion [J]. IEEE Trans on Intelligent Transportation Systems, 2023, 24 (11): 11981-11996.
[18]Charles R Q, Yi Li, Su Hao, et al. PointNet++: deep hierarchical feature learning on point sets in a metric space [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2017: 77-85.
[19]Lin T Y,Dollár P, Girshick R, et al. Feature pyramid networks for object detection [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2017: 2117-2125.
[20]Vielma J P. Mixed integer linear programming formulation techniques [J]. SIAM Review, 2015, 57(1): 3-57.
[21]Huang Kemiao, Hao Qi. Joint multi-object detection and tracking with camera-lidar fusion for autonomous driving [C]// Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, NJ: IEEE Press, 2021: 6983-6989.
[22]Geiger A, Lenz P, Urtasun R. Arewe ready for autonomous driving? The KITTI vision benchmark suite [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2012: 3354-3361.
[23]Luiten J,Osep A, Dendorfer P, et al. HOTA: a higher order metric for evaluating multi-object tracking [J]. International Journal of Computer Vision, 2021, 129 (2): 548-578.
[24]Wang Gaoang, Gu Renshu, Liu Zuozhu, et al. Track without appea-rance: learn box and tracklet embedding with local and global motion patterns for vehicle tracking [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 9876-9886.
[25]Shenoi A, Patel M, Gwak J, et al. JRMOT: a real-time 3D multi-object tracker and a new large-scale dataset [C]// Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscata-way,NJ: IEEE Press, 2020: 10335-10342.
[26]Pang Jiangmiao, Qiu Liulu, Li Xia, et al. Quasi-dense similarity learning for multiple object tracking [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press, 2021: 164-173.
[27]Kim A,Braso G, Osep A, et al. PolarMOT: how far can geometric relations take us in 3D multi-object tracking? [C]// Proc of European Conference on Computer Vision. Berlin: Springer, 2022: 41-58.
[28]Liu Hao, Ma Yanni, Wang Hanyun, et al. AnchorPoint: query design for transformer-based 3D object detection and tracking [J]. IEEE Trans on Intelligent Transportation Systems, 2023, 24 (10): 10988-11000.
[29]Ma Yuanzhi, Zhang Jindong, Qin Guihe, et al. 3D multi-object trac-king based on dual-tracker and ds evidence theory [J]. IEEE Trans on Intelligent Vehicles, 2022, 8 (3): 2426-2436.