国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度霍夫優(yōu)化投票的三維時(shí)敏單目標(biāo)跟蹤

2022-05-18 10:47楊璽雷航錢偉中曾一芳王旭鵬
航空兵器 2022年2期
關(guān)鍵詞:目標(biāo)跟蹤深度學(xué)習(xí)人工智能

楊璽 雷航 錢偉中 曾一芳 王旭鵬

摘 要:????? 針對(duì)三維點(diǎn)云時(shí)敏單目標(biāo)跟蹤問(wèn)題,提出了一種基于深度霍夫優(yōu)化投票的深度學(xué)習(xí)算法。首先, 采用PointNet++網(wǎng)絡(luò)分別從模板點(diǎn)云和搜索點(diǎn)云中計(jì)算種子點(diǎn)、提取幾何特征,并通過(guò)面向目標(biāo)的特征提取方法將目標(biāo)模板信息編碼到搜索區(qū)域中。其次,通過(guò)種子點(diǎn)投票計(jì)算并篩選出具有高置信度的潛在目標(biāo)中心。最后,通過(guò)目標(biāo)中心點(diǎn)的采樣、聚集產(chǎn)生多個(gè)提議,選取具有最高得分的提議生成三維目標(biāo)框。該算法能夠有效避免耗時(shí)的三維全局搜索,且對(duì)點(diǎn)云的無(wú)序性、不規(guī)則性和稀疏性保持魯棒。為了驗(yàn)證該網(wǎng)絡(luò)的有效性,在公共數(shù)據(jù)集KITTI上進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果表明,該網(wǎng)絡(luò)相較于當(dāng)前最好的基于三維點(diǎn)云的方法,準(zhǔn)確度提高了約10%,并可以在單個(gè)NVIDIA2080S圖形處理器上以43.5 FPS運(yùn)行。

關(guān)鍵詞:???? 時(shí)敏目標(biāo);? 單目標(biāo);?? 目標(biāo)跟蹤; 點(diǎn)云數(shù)據(jù); 霍夫投票; 深度學(xué)習(xí); 人工智能

中圖分類號(hào):???? TJ760; TN911.73

文獻(xiàn)標(biāo)識(shí)碼:??? A

文章編號(hào):???? 1673-5048(2022)02-0045-07

DOI: 10.12132/ISSN.1673-5048.2020.0238

0 引? 言

基于點(diǎn)云數(shù)據(jù)的三維時(shí)敏單目標(biāo)跟蹤是自動(dòng)駕駛和機(jī)器人視覺(jué)等相關(guān)領(lǐng)域應(yīng)用的基礎(chǔ)[1-3]?,F(xiàn)有的三維目標(biāo)跟蹤算法[4-8]大都繼承二維目標(biāo)跟蹤的經(jīng)驗(yàn),對(duì)于RGB信息有很強(qiáng)的依賴性。但當(dāng)環(huán)境因素變化導(dǎo)致RGB信息退化時(shí),這些算法的性能會(huì)變得很差甚至失效。三維點(diǎn)云數(shù)據(jù)描述場(chǎng)景的幾何信息,其采集過(guò)程不受光照變化的影響,相較于RGB信息更適用于目標(biāo)跟蹤任務(wù)。然而,三維點(diǎn)云數(shù)據(jù)的不規(guī)則性、無(wú)序性和稀疏性,導(dǎo)致傳統(tǒng)二維目標(biāo)跟蹤算法(如基于孿生神經(jīng)網(wǎng)絡(luò)的算法[9])無(wú)法直接應(yīng)用,給三維時(shí)敏單目標(biāo)跟蹤帶來(lái)巨大的挑戰(zhàn)。

為了解決上述問(wèn)題,本文提出了一種基于深度霍夫優(yōu)化投票[10]的端到端時(shí)敏單目標(biāo)跟蹤算法。首先,從模板點(diǎn)云和搜索點(diǎn)云中提取種子點(diǎn),采用面向目標(biāo)的特征提取方法編碼目標(biāo)信息; 然后,通過(guò)投票和篩選生成高置信度的潛在目標(biāo)中心; 最后,執(zhí)行聯(lián)合提議和驗(yàn)證生成預(yù)測(cè)結(jié)果。通過(guò)在KITTI跟蹤數(shù)據(jù)集[11]上進(jìn)行實(shí)驗(yàn)驗(yàn)證,本文提出的算法在成功率和精準(zhǔn)度上都顯著優(yōu)于當(dāng)前最先進(jìn)的算法[12],且可在單個(gè)NVIDIA2080S圖形處理器上以43.5 FPS運(yùn)行。

1 基礎(chǔ)理論

1.1 三維目標(biāo)跟蹤

目前常用的目標(biāo)跟蹤算法[4-8,13]有RGB或RGB-D信息,對(duì)基于點(diǎn)云的三維目標(biāo)跟蹤算法的研究相對(duì)較少[10]。主要存在以下問(wèn)題: (1)過(guò)于依賴RGB信息,在光照變化劇烈或極端天氣情況下,RGB視覺(jué)信息的質(zhì)量變差甚至無(wú)法獲取,會(huì)極大地限制算法的性能。(2)除此之外,一些算法[6-8]專注于生成二維目標(biāo)框,相較于三維目標(biāo)框,由于缺少一個(gè)維度的信息無(wú)法精確地表示目標(biāo)在空間中的位置信息。基于形狀補(bǔ)全的三維孿生跟蹤[12]是目前唯一僅使用點(diǎn)云數(shù)據(jù)的三維目標(biāo)跟蹤算法,該算法通過(guò)在點(diǎn)云和三維目標(biāo)提議上進(jìn)行深度學(xué)習(xí),取得了三維目標(biāo)跟蹤的最好結(jié)果,但因?yàn)槠湓谌S全局進(jìn)行搜索,存在計(jì)算復(fù)雜度過(guò)高的問(wèn)題。

1.2 二維目標(biāo)跟蹤

許多先進(jìn)的二維目標(biāo)跟蹤算法[14-25]大都基于孿生神經(jīng)網(wǎng)絡(luò)。如圖1所示,孿生神經(jīng)網(wǎng)絡(luò)通常包含兩個(gè)分支,分別用于處理模板區(qū)域和搜索區(qū)域。其通過(guò)結(jié)構(gòu)相同且權(quán)重共享的兩個(gè)子網(wǎng)絡(luò), 輸出映射到高維度空間的

特征表示,用于比較兩個(gè)區(qū)域的相似程度。在此基礎(chǔ)上,

結(jié)合區(qū)域候選網(wǎng)絡(luò)可以實(shí)現(xiàn)高性能的二維目標(biāo)跟蹤[23]。后續(xù)許多研究[17,19-22]都建立在這套框架之上并取得了不錯(cuò)的性能。但是,上述算法均以二維卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),而點(diǎn)云的不規(guī)則性導(dǎo)致傳統(tǒng)二維的卷積操作無(wú)法直接應(yīng)用到點(diǎn)云數(shù)據(jù)。所以,本文的工作是以二維孿生跟蹤框架為基礎(chǔ),將其擴(kuò)展用于解決三維目標(biāo)跟蹤。

1.3 點(diǎn)云深度學(xué)習(xí)

目前,點(diǎn)云深度學(xué)習(xí)越來(lái)越受到大家的關(guān)注[26-27]。但由于點(diǎn)云的無(wú)序性、稀疏性和不規(guī)則性,許多在二維視覺(jué)中成熟的算法無(wú)法應(yīng)用到點(diǎn)云上。為此,許多學(xué)者在三維目標(biāo)識(shí)別[28-29]、三維目標(biāo)檢測(cè)[10,30-32]、三維目標(biāo)姿態(tài)估計(jì)[33-35]和三維目標(biāo)跟蹤[12]方向都進(jìn)行了相關(guān)研究,以解決在三維點(diǎn)云場(chǎng)景下的各類問(wèn)題。

基于形狀補(bǔ)全的三維孿生跟蹤算法[12]雖然取得了不錯(cuò)的結(jié)果,但該算法不能執(zhí)行端到端的訓(xùn)練,且在三維全局空間進(jìn)行搜索計(jì)算,復(fù)雜度較高。為解決這一問(wèn)題,本文提出了一種端到端的三維目標(biāo)跟蹤算法。

1.4 霍夫投票

霍夫投票[36]是基于廣義的霍夫變換[37],提出的一種學(xué)習(xí)物體形狀表示的方法,可以有效地將不同訓(xùn)練樣本上觀察到的信息結(jié)合在一起。基于這一思想,霍夫投票與深度學(xué)習(xí)相結(jié)合,提出了一個(gè)可訓(xùn)練的端到端深度網(wǎng)絡(luò)[10],用于解決點(diǎn)云中的三維目標(biāo)檢測(cè)問(wèn)題。該網(wǎng)絡(luò)通過(guò)聚合目標(biāo)的局部上下文信息進(jìn)行聯(lián)合提議和驗(yàn)證,取得了很好的結(jié)果。如何有效地結(jié)合霍夫投票和深度學(xué)習(xí)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)三維目標(biāo)跟蹤,同時(shí)進(jìn)一步優(yōu)化投票的選擇,是本文專注解決的問(wèn)題。

2 時(shí)敏單目標(biāo)跟蹤算法

給定目標(biāo)模板點(diǎn)云Ptemp={pi=(xi, yi, zi)}N1i=1和搜索空間點(diǎn)云Psea={si=(xi, yi, zi)}N2i=1,目標(biāo)跟蹤算法預(yù)測(cè)目標(biāo)在搜索空間中的位置信息Φ。其中: N1為模板點(diǎn)云中點(diǎn)的數(shù)量; N2為搜索點(diǎn)云中點(diǎn)的數(shù)量; Φ由目標(biāo)中心的坐標(biāo)以及X-Y平面的旋轉(zhuǎn)角度構(gòu)成。

本文提出的基于深度霍夫優(yōu)化投票[10]的時(shí)敏單目標(biāo)跟蹤算法以模板點(diǎn)云和搜索點(diǎn)云作為輸入,由面向目標(biāo)的特征提取、潛在目標(biāo)中心的生成、聯(lián)合提議和驗(yàn)證以及模板點(diǎn)云的更新四部分組成,如圖2所示。

面向目標(biāo)的特征提?。▓D2(a))使用PointNet++網(wǎng)絡(luò)[27]提取模板點(diǎn)云Ptemp和搜索點(diǎn)云Psea的幾何特征并生成模板種子點(diǎn)集Q和搜索種子點(diǎn)集R,通過(guò)計(jì)算Q和R的相似度矩陣T將目標(biāo)信息編碼到搜索空間中,生成編碼了目標(biāo)信息的搜索種子點(diǎn)集D; 潛在目標(biāo)中心的生成階段(圖2(b)),每個(gè)編碼后的搜索種子點(diǎn)dj通過(guò)投票產(chǎn)生對(duì)應(yīng)的潛在目標(biāo)中心點(diǎn)cj,并基于置信度得分B從潛在目標(biāo)中心C中篩選出具有高置信度的潛在目標(biāo)中心E; 聯(lián)合的提議和驗(yàn)證階段(圖2(c)),采樣和聚集高可信度的潛在目標(biāo)中心E,產(chǎn)生K個(gè)提議,具有最高得分的提議作為最終的預(yù)測(cè)結(jié)果Φ; 模板點(diǎn)云的更新階段(圖2(d))采用模板點(diǎn)云更新策略γ,基于前一幀目標(biāo)的預(yù)測(cè)結(jié)果更新模板點(diǎn)云Ptemp。該算法充分挖掘模板和搜索空間中目標(biāo)的相似性,有效應(yīng)對(duì)點(diǎn)云的無(wú)序性和不規(guī)則性以及目標(biāo)外觀變化,能夠高效穩(wěn)定地對(duì)場(chǎng)景中的時(shí)敏單目標(biāo)進(jìn)行持續(xù)跟蹤。

單個(gè)目標(biāo)表面的點(diǎn)可以直接生成目標(biāo)提議,但是由于單個(gè)目標(biāo)表面的點(diǎn)只捕獲了目標(biāo)的局部信息,無(wú)法有效地描述目標(biāo)的全局信息,所以無(wú)法得到目標(biāo)在三維空間中的精確位置。而本文提出的基于優(yōu)化的深度霍夫投票算法,先把目標(biāo)表面的每一個(gè)點(diǎn)回歸到物體中心,再聚集目標(biāo)的候選中心點(diǎn)生成提議,可以獲取目標(biāo)更多的全局信息,從而得到更加準(zhǔn)確的檢測(cè)結(jié)果。

3 實(shí)? 驗(yàn)

為了驗(yàn)證本文提出的基于深度霍夫優(yōu)化投票的三維時(shí)敏單目標(biāo)跟蹤算法,在KITTI跟蹤數(shù)據(jù)集[11](使用激光雷達(dá)掃描空間獲取點(diǎn)云)上進(jìn)行了一系列的實(shí)驗(yàn)。采用一次通過(guò)評(píng)估(OPE)[39]來(lái)評(píng)估不同方法的成功率和精準(zhǔn)率。成功率是目標(biāo)預(yù)測(cè)框和目標(biāo)真實(shí)框之間的IOU。精準(zhǔn)率是在0~2 m(目標(biāo)預(yù)測(cè)框中心和目標(biāo)真實(shí)框中心的距離)內(nèi)誤差的AUC。

3.1 實(shí)驗(yàn)配置

3.1.1 數(shù)據(jù)集

因?yàn)镵ITTI測(cè)試集[11]的真實(shí)值無(wú)法獲得,本文僅使用訓(xùn)練集來(lái)訓(xùn)練和測(cè)試本文提出的算法。該數(shù)據(jù)集包含21個(gè)室外場(chǎng)景和8種類型的目標(biāo)。由于KITTI數(shù)據(jù)集中汽車數(shù)據(jù)具有最高的質(zhì)量和多樣性,本文主要考慮汽車為目標(biāo)的跟蹤,并進(jìn)行了消融實(shí)驗(yàn)、定量實(shí)驗(yàn)以及定性實(shí)驗(yàn)。除此之外,為了進(jìn)一步驗(yàn)證算法的性能,還對(duì)其他3種目標(biāo)(如行人、貨車和自行車)進(jìn)行了實(shí)驗(yàn)。

本文為所有視頻中的目標(biāo)實(shí)例逐幀生成了軌跡,并將數(shù)據(jù)集分割如下: 場(chǎng)景0~16用于訓(xùn)練,場(chǎng)景17~18用于驗(yàn)證,場(chǎng)景19~20用于測(cè)試。

3.1.2 實(shí)施細(xì)節(jié)

對(duì)于模板點(diǎn)云和搜索點(diǎn)云,本文通過(guò)隨機(jī)放棄或復(fù)制的方式,把模板點(diǎn)云中的點(diǎn)的數(shù)量歸一化到N1=512,搜索點(diǎn)云中的點(diǎn)的數(shù)量歸一化到N2=512。本文采用PointNet++網(wǎng)絡(luò)[27]提取點(diǎn)云的幾何特征,網(wǎng)絡(luò)由3個(gè)下采樣層組成,每層的感知球半徑依次為0.3, 0.5, 0.7, 即每層都從當(dāng)前點(diǎn)集中采樣一半的點(diǎn),產(chǎn)生了M1=64個(gè)模板種子點(diǎn)和M2=128個(gè)搜索種子點(diǎn),輸出特征的維度為d1=256。本文的多層感知機(jī)包含3層,每層的大小均為256,即d2=256。對(duì)于采樣和聚集生成提議,采樣K=32個(gè)潛在目標(biāo)中心點(diǎn)并聚集在其R=0.3 m內(nèi)領(lǐng)域的點(diǎn)生成提議。

使用Adam優(yōu)化器[40]優(yōu)化模型參數(shù),batch大小為12,學(xué)習(xí)率最初為0.001,在訓(xùn)練集迭代10次后變?yōu)橹暗?.2。

在測(cè)試階段,使用訓(xùn)練后的網(wǎng)絡(luò)逐幀預(yù)測(cè)目標(biāo)位置信息生成三維目標(biāo)框,前一幀的預(yù)測(cè)結(jié)果放大2 m,作為后續(xù)搜索區(qū)域點(diǎn)云。

3.2 消融實(shí)驗(yàn)

3.2.1 特征提取方式

為了驗(yàn)證本文提出的面向目標(biāo)特征提取方式的有效性,將提出的算法和其他4種算法進(jìn)行對(duì)比,包括: 在合并相似度矩陣和模板種子點(diǎn)時(shí),分別移除模板種子點(diǎn)和搜索種子點(diǎn)的相似度特征、移除模板種子點(diǎn)的特征、移除模板種子的坐標(biāo)以及添加搜索種子點(diǎn)的特征。實(shí)驗(yàn)結(jié)果如表1所示。

從表1可看出,在移除相似度特征后,模型的成功率下降了4.6%,精準(zhǔn)率下降了3.7%; 在移除模板特征后,成功率下降了1.0%,精準(zhǔn)率下降了1.9%。這驗(yàn)證了這些部分在默認(rèn)設(shè)置中的作用。而在添加了搜索種子點(diǎn)的特征后并沒(méi)有對(duì)性能有太大的提升,甚至降低了精準(zhǔn)率。這表明,搜索種子點(diǎn)的特征只是捕獲了場(chǎng)景中的上下文信息而非目標(biāo)的信息,對(duì)于目標(biāo)跟蹤任務(wù)沒(méi)有幫助。而本文采用的方法編碼了模板中豐富的目標(biāo)信息,能夠產(chǎn)生更加可靠的提議,用于后續(xù)目標(biāo)的精準(zhǔn)定位。

3.2.2 對(duì)潛在目標(biāo)進(jìn)行篩選的有效性

根據(jù)潛在目標(biāo)中心的置信度得分,進(jìn)一步篩選出具有高置信度的潛在目標(biāo)中心,能夠產(chǎn)生更好的提議。本文通過(guò)刪除對(duì)潛在目標(biāo)進(jìn)行篩選,以驗(yàn)證該算法的有效性。實(shí)驗(yàn)結(jié)果如表2所示。

從表2中可以看出,對(duì)潛在目標(biāo)的篩選將模型的準(zhǔn)確率提升了2.2%,成功率增加了3.0%。這表明,對(duì)潛在目標(biāo)進(jìn)行篩選以提高提議的質(zhì)量,能夠顯著地提高時(shí)敏單目標(biāo)跟蹤的精確度

3.2.3 對(duì)不同提議數(shù)量的魯棒性

本文測(cè)試提出的算法和基于形狀補(bǔ)全的三維孿生跟蹤算法(SC3D)[12]在不同數(shù)量的提議下的成功率和精準(zhǔn)率如圖3所示??梢钥闯?,即使在只生成10個(gè)提議的情況下,本文提出的算法也獲得了令人滿意的表現(xiàn),但是SC3D[12]的性能隨著提議數(shù)量的減少急劇下降。這說(shuō)明本文提出的算法可以高效地生成高質(zhì)量的提議,使得在提議數(shù)量減少時(shí)仍然可以保持穩(wěn)定。

3.3 定量分析

SC3D[12]是當(dāng)前唯一一個(gè)基于點(diǎn)云的三維目標(biāo)跟蹤算法,將本文提出的算法與SC3D[12]在跟蹤汽車、行人、貨車和自行車上的表現(xiàn)進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表3所示。

從表3中可以看出,本文提出的算法與SC3D[12]相比,在成功率及精準(zhǔn)率上均高出了約10%,在數(shù)據(jù)豐富的汽車和行人數(shù)據(jù)集上具有十分明顯的優(yōu)勢(shì)。但是,在數(shù)據(jù)量較少的貨車和自行車上性能有所下降。這可能是因?yàn)樵摼W(wǎng)絡(luò)依賴于豐富的數(shù)據(jù)來(lái)學(xué)習(xí)更好的網(wǎng)絡(luò),特別是在生成潛在目標(biāo)中心時(shí)。相比之下,SC3D[12]只需要較少的數(shù)據(jù)就可以滿足兩個(gè)區(qū)域間的相似度測(cè)量。為了進(jìn)一步驗(yàn)證這種想法,使用在汽車數(shù)據(jù)上訓(xùn)練好的模型來(lái)測(cè)試貨車,因?yàn)槠嚭拓涇嚲哂休^高的相似性。如預(yù)期的一樣,模型的性能從原來(lái)的成功率/精準(zhǔn)率: 40.6%/48.1%變成了成功率/精準(zhǔn)率: 52.4%/62.8%,而SC3D從成功率/精準(zhǔn)率: 40.4%/47.0%變成了成功率/精準(zhǔn)率: 37.2%/45.9%。

3.4 定性分析

圖4展示了本文提出的算法在KITTI數(shù)據(jù)集上對(duì)單目標(biāo)即汽車的跟蹤過(guò)程,同時(shí),與當(dāng)前性能最好的SC3D算法進(jìn)行了對(duì)比。

從圖4中可以看出,本文提出的算法可以很好地對(duì)目標(biāo)進(jìn)行跟蹤,在連續(xù)多幀中都可以準(zhǔn)確地捕獲到目標(biāo)中心。同時(shí),可以看到,即使在第120幀目標(biāo)點(diǎn)云已經(jīng)十分稀疏時(shí),該算法仍然能夠得到滿意的結(jié)果。

3.5 復(fù)雜度分析

本文在KITTI測(cè)試集上跟蹤汽車目標(biāo)來(lái)驗(yàn)證提出算法的復(fù)雜度。具體而言,通過(guò)計(jì)算測(cè)試集所有幀汽車跟蹤的平均時(shí)間,來(lái)計(jì)算模型的運(yùn)行速度。

在NVIDIA2080S圖形處理器上,本文提出的模型以43.5 FPS運(yùn)行(包括處理點(diǎn)云的7.2 ms、模型計(jì)算14.7 ms以及后處理1.1 ms),相較而言SC3D以1.6 FPS運(yùn)行,本文提出的算法具有更低的計(jì)算復(fù)雜度。

4 結(jié)? 論

本文提出了一種基于深度霍夫投票的三維時(shí)敏單目標(biāo)跟蹤算法。主要貢獻(xiàn)如下:

(1) 提出了一個(gè)基于三維點(diǎn)云的端到端時(shí)敏單目標(biāo)跟蹤算法,該算法可以高效穩(wěn)定地對(duì)場(chǎng)景中的時(shí)敏單目標(biāo)進(jìn)行持續(xù)跟蹤,得到單目標(biāo)連續(xù)的運(yùn)動(dòng)軌跡。

(2) 提出了一種面向目標(biāo)的特征提取方法,該方法充分挖掘模板和搜索空間中目標(biāo)的相似性,將目標(biāo)模板中的信息有效地編碼到搜索空間中,為目標(biāo)跟蹤提供高鑒別力的特征信息,同時(shí)該方法對(duì)點(diǎn)云的無(wú)序性和不規(guī)則性保持魯棒。

(3) 提出了一個(gè)基于深度霍夫優(yōu)化投票的時(shí)敏單目標(biāo)跟蹤算法,該算法能夠篩選并編碼目標(biāo)局部信息,有效應(yīng)對(duì)點(diǎn)云的稀疏性和目標(biāo)運(yùn)動(dòng)過(guò)程中外觀變化。

(4) 提出的三維目標(biāo)跟蹤算法在KITTI數(shù)據(jù)集上取得當(dāng)前最好的性能,同時(shí)具有較低的計(jì)算復(fù)雜度。

后續(xù)工作考慮優(yōu)化霍夫投票算法,更加有效地提取目標(biāo)的局部信息,進(jìn)一步提高模型的性能,以應(yīng)對(duì)更加具有挑戰(zhàn)性的場(chǎng)景。

參考文獻(xiàn):

[1] Luo W J, Yang B, Urtasun R. Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion Forecasting with a Single Convolutional Net[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 3569-3577.

[2] Machida E, Cao M F, Murao T, et al. Human Motion Tracking of Mobile Robot with Kinect 3D Sensor[C]∥SICE Annual Conference (SICE), 2012: 2207-2211.

[3] Comport A I, Marchand E, Chaumette F. Robust Model-Based Tracking for Robot Vision[C]∥IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2004: 692-697.

[4] Asvadi A, Giro P, Peixoto P, et al. 3D Object Tracking Using RGB and LIDAR Data[C]∥IEEE 19th International Conference on Intelligent Transportation Systems, 2016: 1255-1260.

[5] Bibi A, Zhang T Z, Ghanem B. 3D Part-Based Sparse Tracker with Automatic Synchronization and Registration[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2016: 1439-1448.

[6] Liu Y, Jing X Y, Nie J H, et al. Context-Aware Three-Dimensional Mean-Shift with Occlusion Handling for Robust Object Tracking in RGB-D Videos[J]. IEEE Transactions on Multimedia, 2019, 21(3): 664-677.

[7] Kart U, Kmrinen J K,Matas J. How to Make an RGBD Tracker?[C]∥European Conference on Computer Vision (ECCV),2018.

[8] Kart U, Lukeicˇ A, Kristan M, et al. Object Tracking by Reconstruction with View-Specific Discriminative Correlation Filters[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019: 1339-1348.

[9] Bertinetto L, Valmadre J, Henriques J F, et al. Fully-Convolutional Siamese Networks for Object Tracking[C]∥European Conference on Computer Vision (ECCV), 2016.

[10] Qi C R, Litany O, He K M, et al. Deep Hough Voting for 3D Object Detection in Point Clouds[C]∥IEEE/CVF International Conference on Computer Vision (ICCV), 2019: 9276-9285.

[11] Geiger A, Lenz P, Urtasun R. Are We Ready for Autonomous Driving? The KITTI Vision Benchmark Suite[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2012: 3354-3361.

[12] Giancola S, Zarzar J, Ghanem B. Leveraging Shape Completion for 3D Siamese Tracking[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019: 1359-1368.

[13] Pieropan A, Bergstrm N, Ishikawa M, et al. Robust 3D Tracking of Unknown Objects[C]∥IEEE International Conference on Robotics and Automation, 2015: 2410-2417.

[14] Tao R, Gavves E, Smeulders A W M. Siamese Instance Search for Tracking[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2016: 1420-1429.

[15] Wang Q,Gao J,Xing J L,et al. DCFNet: Discriminant Correlation Filters Network for Visual Tracking[J].Computer Science,2017.

[16] Held D, Thrun S, Savarese S. Learning to Track at 100 FPS with Deep Regression Networks[C]∥European Conference on Computer Vision (ECCV), 2016.

[17] Zhu Z, Wang Q, Li B, et al. Distractor-Aware Siamese Networks for Visual Object Tracking[C]∥European Conference on Computer Vision (ECCV),2018.

[18] Wang Q, Teng Z, Xing J L, et al. Learning Attentions: Residual Attentional Siamese Network for High Performance Online Visual Tracking[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 4854-4863.

[19] Li B, Wu W, Wang Q, et al. SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019: 4277-4286.

[20] Fan H, Ling H B. Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019: 7944-7953.

[21] Zhang Z P, Peng H W. Deeper and Wider Siamese Networks for Real-Time Visual Tracking[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019: 4586-4595.

[22] Wang Q, Zhang L, Bertinetto L, et al. Fast Online Object Tracking and Segmentation: A Unifying Approach[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019: 1328-1338.

[23] Li B, Yan J J, Wu W, et al. High Performance Visual Tracking with Siamese Region Proposal Network[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 8971-8980.

[24] 王玲, 王家沛, 王鵬, 等. 融合注意力機(jī)制的孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2021, 57(8): 169-174.

Wang Ling, Wang Jiapei, Wang Peng, et al. Siamese Network Tracking Algorithms for Hierarchical Fusion of Attention Mechanism[J]. Computer Engineering and Applications, 2021, 57(8): 169-174.(in Chinese)

[25] 申亞麗. 基于特征融合的RGBT雙模態(tài)孿生跟蹤網(wǎng)絡(luò)[J]. 紅外與激光工程, 2021, 50(3): 236-242.

Shen Yali. RGBT Dual-Modal Siamese Tracking Network with Feature Fusion[J]. Infrared and Laser Engineering, 2021, 50(3): 236-242.(in Chinese)

[26] Charles R Q, Hao S, Mo K C, et al. PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2017: 77-85.

[27] Qi C R,Yi L,Su H,et al. PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metric Space[C]∥Advances in Neural Information Processing Systems (NIPS), 2017.

[28] Klokov R, Lempitsky V. Escape from Cells: Deep Kd-Networks for the Recognition of 3D Point Cloud Models[C]∥IEEE International Conference on Computer Vision, 2017: 863-872.

[29] Li Y Y,Bu R,Sun M C,et al. PointCNN: Convolution on X-Transformed Points[C]∥Advances in Neural Information Processing Systems (NIPS), 2018.

[30] Qi C R, Liu W, Wu C X, et al. Frustum PointNets for 3D Object Detection from RGB-D Data[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 918-927.

[31] Shi S S, Wang X G, Li H S. PointRCNN: 3D Object Proposal Generation and Detection from Point Cloud[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019: 770-779.

[32] Yang Z T, Sun Y N, Liu S, et al. STD: Sparse-to-Dense 3D Object Detector for Point Cloud[C]∥IEEE/CVF International Conference on Computer Vision(ICCV), 2019.

[33] Li S L, Lee D. Point-to-Pose Voting Based Hand Pose Estimation Using Residual Permutation Equivariant Layer[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019: 11919-11928.

[34] Ge L H, Cai Y J, Weng J W, et al. Hand PointNet: 3D Hand Pose Estimation Using Point Sets[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018: 8417-8426.

[35] Chen X H, Wang G J, Zhang C R, et al. SHPR-Net: Deep Semantic Hand Pose Regression from Point Clouds[J].IEEE Access, 2018, 6: 43425-43439.

[36] Leibe B, Leonardis A, Schiele B. Robust Object Detection with Interleaved Categorization and Segmentation[J].International Journal of Computer Vision, 2008, 77(1/2/3): 259-289.

[37] Ballard D H. Generalizing the Hough Transform to Detect Arbitrary Shapes[J].Pattern Recognition, 1981, 13(2): 111-122.

[38] Ren S Q, He K M, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[C]∥IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015: 1137-1149.

[39] Wu Y, Lim J, Yang M H. Online Object Tracking: A Benchmark[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2013: 2411-2418.

[40] Kingma D P, Ba J. Adam: A Method for Stochastic Optimization[C]∥International Conference on Learning Representations (ICLR), 2015.

Time-Sensitive 3D Single Target Tracking

Based on Deep Hough Optimized Voting

Yang Xi,Lei Hang,Qian Weizhong*,Zeng Yifang,Wang Xupeng

(University of Electronic Science and Technology of China,Chengdu 610054,China)

Abstract: Aiming at the problem of time-sensitive single target tracking in 3D point cloud,a deep learning algorithm based on deep Hough optimized voting is proposed. Firstly, the algorithm? uses PointNet++ network to calculate seed points and? extract geometric features from? template point cloud and? search point cloud.? A target-oriented feature extraction method is then used to encode the target information from the template into the search area. Secondly, potential target centers with? high confidence are calculated and screened by seed point voting. Finally,multiple proposals are generated through sampling and aggregation of the target center points,and the proposal with the highest score is selected to generate a 3D target box. The algorithm can effectively avoid the time-consuming 3D global search,? and is robust to the disorder,? irregularity and sparsity of? point cloud. In order to verify the effectiveness of the network,? experiments are conducted on the public KITTI dataset. Experimental results show that the accuracy of? the proposed network is improved by around 10%,compared to the current? method based? on 3D point clouds. At the same time, the method can run at 43.5 FPS on a single NVIDIA2080S graphics processor.

Key words: time-sensitive target; single target;? target tracking; point cloud; Hough voting; deep learning; artificial intelligence

猜你喜歡
目標(biāo)跟蹤深度學(xué)習(xí)人工智能
2019:人工智能
人工智能與就業(yè)
數(shù)讀人工智能
多視角目標(biāo)檢測(cè)與跟蹤技術(shù)的研究與實(shí)現(xiàn)
基于改進(jìn)連續(xù)自適應(yīng)均值漂移的視頻目標(biāo)跟蹤算法
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
下一幕,人工智能!