李 朝,蘭 海,魏 憲
(1.中國(guó)科學(xué)院海西研究院泉州裝備制造研究所,福建泉州 362216;2.中北大學(xué)電氣與控制工程學(xué)院,太原 036005)
車輛自動(dòng)駕駛的安全性依賴于對(duì)周圍環(huán)境的準(zhǔn)確感知。目前車輛采用的主要感知器有激光雷達(dá)、攝像頭和毫米波雷達(dá)。其中:激光雷達(dá)精度高,探測(cè)距離較遠(yuǎn),受天氣影響小,但數(shù)據(jù)較稀疏;攝像頭圖像則具有豐富的顏色信息,但受天氣和光照影響較大;毫米波雷達(dá)精度較低,但探測(cè)距離遠(yuǎn),受天氣影響極小,也存在數(shù)據(jù)稀疏的特點(diǎn)。目前有基于單個(gè)傳感器或多個(gè)傳感器融合的目標(biāo)檢測(cè),其中不同傳感器數(shù)據(jù)進(jìn)行融合能提高無(wú)人駕駛系統(tǒng)的魯棒性和冗余性。
在光照條件不友好的環(huán)境下,攝像頭難以發(fā)揮作用,激光雷達(dá)和毫米波雷達(dá)是車輛感知環(huán)境的主要手段。激光雷達(dá)與毫米波雷達(dá)所產(chǎn)生的傳感數(shù)據(jù)均以三維點(diǎn)云數(shù)據(jù)為主,兩者在數(shù)據(jù)形式上有著很高的相似性?;诩す饫走_(dá)點(diǎn)云數(shù)據(jù)的目標(biāo)檢測(cè)基本上還是解決數(shù)據(jù)的無(wú)序性和稀疏性問(wèn)題。文獻(xiàn)[1]中提出的PointNet 是具有開創(chuàng)性的工作,真正地實(shí)現(xiàn)了無(wú)序點(diǎn)云的端到端學(xué)習(xí)。PointNet 通過(guò)池化操作解決點(diǎn)的無(wú)序性問(wèn)題,通過(guò)數(shù)據(jù)對(duì)齊操作保證旋轉(zhuǎn)不變性。除了直接將無(wú)序點(diǎn)云輸送進(jìn)網(wǎng)絡(luò),還可以通過(guò)將點(diǎn)云數(shù)據(jù)先離散化處理再輸入檢測(cè)網(wǎng)絡(luò),例如文獻(xiàn)[2-3]中通過(guò)將無(wú)序的點(diǎn)云劃分到有序的空間體素的方法解決點(diǎn)云數(shù)據(jù)的無(wú)序性問(wèn)題,之后再通過(guò)3D 卷積提取特征,但3D 卷積計(jì)算量太大。AVOD 網(wǎng)絡(luò)[4]、MV3D 網(wǎng)絡(luò)[5]使用2D 卷積對(duì)點(diǎn)云鳥瞰圖進(jìn)行特征提取,提高了檢測(cè)速度。
毫米波雷達(dá)數(shù)據(jù)比激光雷達(dá)數(shù)據(jù)更稀疏,但信息比較豐富。文獻(xiàn)[6]中基于調(diào)頻連續(xù)波(Frequency Modulated Continuous Wave,F(xiàn)MCW)算法利用毫米波雷達(dá)檢測(cè)目標(biāo)的方位角、速度、距離,但是誤差較大,且無(wú)法檢測(cè)出目標(biāo)的屬性。文獻(xiàn)[7]中提出對(duì)毫米波雷達(dá)數(shù)據(jù)利用隨機(jī)森林分類器和長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)對(duì)目標(biāo)進(jìn)行分類。文獻(xiàn)[8]中則將整個(gè)原始雷達(dá)數(shù)據(jù)作為輸入,采用PointNet++[9]的基礎(chǔ)架構(gòu),得到了每一次毫米波雷達(dá)反射的各個(gè)類概率,不需要進(jìn)行聚類和人為地選擇特征。文獻(xiàn)[10]中認(rèn)為雖然毫米波雷達(dá)數(shù)據(jù)比激光雷達(dá)數(shù)據(jù)更稀疏,但與激光雷達(dá)單一坐標(biāo)和強(qiáng)度數(shù)據(jù)相比,還擁有多普勒速度和雷達(dá)截面積數(shù)據(jù),能檢測(cè)到激光檢測(cè)不到的弱目標(biāo)或遮擋目標(biāo),因此開創(chuàng)性地使用雷達(dá)數(shù)據(jù)的位置、速度和雷達(dá)截面積信息在PointNet框架上實(shí)現(xiàn)了車輛2D邊界框的檢測(cè)。
無(wú)論是基于激光雷達(dá)還是毫米波雷達(dá)的目標(biāo)檢測(cè)方法,單一傳感器的感知能力都是有限的,因此傳感器融合已經(jīng)成為目標(biāo)檢測(cè)的主要方法。傳感器融合主要分為數(shù)據(jù)級(jí)融合、特征級(jí)融合和目標(biāo)級(jí)融合。文獻(xiàn)[11-13]中結(jié)合激光雷達(dá)精度高、毫米波雷達(dá)能夠檢測(cè)車輛速度的優(yōu)點(diǎn)進(jìn)行車輛的檢測(cè)和跟蹤,提高了檢測(cè)范圍和跟蹤精度。文獻(xiàn)[14]中提出的RRPN(Radar Region Proposal Network)利用投影到圖像坐標(biāo)系中的毫米波雷達(dá)點(diǎn)生成預(yù)設(shè)置大小的錨框作為目標(biāo)感興趣區(qū)域,再通過(guò)檢測(cè)網(wǎng)絡(luò)進(jìn)行檢測(cè),減少了90%的錨框數(shù)量,提高了運(yùn)算速度。文獻(xiàn)[15]中將毫米波雷達(dá)投影到圖像坐標(biāo)系后變成二維圖像,使用卷積神經(jīng)網(wǎng)絡(luò)提取毫米波雷達(dá)和攝像頭圖像特征圖,并對(duì)特征圖對(duì)應(yīng)元素進(jìn)行相加融合,再對(duì)融合后的特征圖使用SSD(Single Shot multibox Detector)[16]框架進(jìn)行目標(biāo)檢測(cè)。與采取投影方法不同,文獻(xiàn)[17]中將毫米波雷達(dá)的距離、橫向速度和縱向速度分別轉(zhuǎn)換為圖像R、G、B 通道的真實(shí)像素值,再將轉(zhuǎn)換后的毫米波雷達(dá)和圖像相乘融合。文獻(xiàn)[18]中則提出了毫米波雷達(dá)和圖像融合網(wǎng)絡(luò)RVNet,該網(wǎng)絡(luò)是基于YOLO[19]檢測(cè)框架的特征圖拼接融合網(wǎng)絡(luò),并且為大目標(biāo)和小目標(biāo)分別設(shè)有兩個(gè)輸入分支和輸出分支以提高檢測(cè)精度。文獻(xiàn)[20]中提出了毫米波雷達(dá)和圖像融合的CRF-Net,在各個(gè)卷積網(wǎng)絡(luò)層進(jìn)行特征圖拼接融合,以學(xué)習(xí)在哪個(gè)層的融合目標(biāo)檢測(cè)效果更優(yōu),并提出了一種叫作BlackIn的訓(xùn)練策略以確保融合網(wǎng)絡(luò)收斂。
除了傳感器融合方法以外,注意力機(jī)制也被應(yīng)用到圖像領(lǐng)域并取得了巨大的進(jìn)展。注意力機(jī)制最早從人類的視覺原理中獲取靈感,并在自然語(yǔ)言處理中取得了很好的效果[21-22]。注意力機(jī)制通過(guò)捕捉數(shù)據(jù)點(diǎn)之間的相互影響,獲取數(shù)據(jù)間的上下文信息并以此作為權(quán)重輸出結(jié)果,是對(duì)深度學(xué)習(xí)模型的有力補(bǔ)充。文獻(xiàn)[23]中提出的兩級(jí)注意力模型應(yīng)用物體級(jí)和部位級(jí)兩種注意力,使用卷積網(wǎng)絡(luò)得到物體級(jí)信息,再使用聚類的方法得到重點(diǎn)局部區(qū)域,從而能更精確地利用多層次信息。文獻(xiàn)[24]中提出了通道注意力機(jī)制,認(rèn)為特征圖的不同通道的重要程度不同,網(wǎng)絡(luò)通過(guò)全局平均池化獲取特征圖每個(gè)通道的數(shù)值分布情況,增大有效特征圖通道的權(quán)重,利用激勵(lì)操作來(lái)獲取通道之間的依賴性,并以此作為權(quán)重輸出結(jié)果。除了利用通道注意力機(jī)制判斷不同通道之間的權(quán)重關(guān)系,另外就是像素點(diǎn)之間的注意力機(jī)制。文獻(xiàn)[25]中認(rèn)為卷積神經(jīng)網(wǎng)絡(luò)神經(jīng)只能關(guān)注卷積核感受野內(nèi)的像素點(diǎn)信息,無(wú)法學(xué)習(xí)全局信息對(duì)當(dāng)前區(qū)域的影響,因此通過(guò)特征圖之間矩陣相乘的方法確定每個(gè)像素和其他像素間的關(guān)系。
本文針對(duì)激光雷達(dá)進(jìn)行目標(biāo)檢測(cè)時(shí)對(duì)遮擋目標(biāo)、遠(yuǎn)距離目標(biāo)和復(fù)雜天氣場(chǎng)景中的目標(biāo)檢測(cè)能力弱的問(wèn)題,提出基于注意力機(jī)制的毫米波-激光雷達(dá)數(shù)據(jù)融合的目標(biāo)檢測(cè)方法。原因如下:1)毫米波雷達(dá)不受天氣光照影響,并且對(duì)車輛等金屬敏感,能夠穿透樹木草叢檢測(cè)出車輛,彌補(bǔ)激光雷達(dá)受到的干擾[10];2)激光雷達(dá)對(duì)遠(yuǎn)處的物體探測(cè)結(jié)果較為稀疏,難以實(shí)現(xiàn)遠(yuǎn)處物體的類別檢測(cè),而毫米波雷達(dá)探測(cè)距離遠(yuǎn),原理上探測(cè)距離的四次方與雷達(dá)散射面積成正比,兼具多普勒效應(yīng),能夠檢測(cè)速度,極大地增強(qiáng)了遠(yuǎn)處物體的檢測(cè)精度;3)注意力機(jī)制能夠有效提取數(shù)據(jù)間的上下文信息,利用數(shù)據(jù)點(diǎn)之間的權(quán)重關(guān)系輸出結(jié)果,十分適合毫米波-激光點(diǎn)云數(shù)據(jù)之間的融合,能夠充分發(fā)揮毫米波雷達(dá)和激光雷達(dá)各自的優(yōu)點(diǎn)。本文通過(guò)點(diǎn)云柱快速編碼網(wǎng)絡(luò)PointPillar[26]提取經(jīng)過(guò)空間對(duì)齊的激光雷達(dá)和毫米波雷達(dá)特征,然后將毫米波-激光雷達(dá)特征圖進(jìn)行融合,彌補(bǔ)單一雷達(dá)傳感器檢測(cè)上存在的不足,提高了算法模型對(duì)物體目標(biāo)的檢測(cè)精度,亦提高了惡劣天氣下算法表現(xiàn)的魯棒性。本文代碼公開在https://github.com/MVPRGroup/radar-lidar-fusion。
本章主要介紹激光雷達(dá)和毫米波雷達(dá)融合的方法,通過(guò)利用不同傳感器各自的優(yōu)勢(shì),彌補(bǔ)激光雷達(dá)存在的缺陷,提高網(wǎng)絡(luò)性能。文獻(xiàn)[10]的研究發(fā)現(xiàn),激光雷達(dá)在探測(cè)目標(biāo)時(shí),目標(biāo)距離越遠(yuǎn),返回的激光雷達(dá)點(diǎn)越少,強(qiáng)度越弱,易受雨霧、樹木遮擋;其次,毫米波雷達(dá)發(fā)送信號(hào)所使用波長(zhǎng)遠(yuǎn)大于激光雷達(dá),能夠穿透塑料、墻板和衣服等特定的材料,并且不受雨、霧、灰塵和雪等環(huán)境條件的干擾;另外毫米波雷達(dá)數(shù)據(jù)相對(duì)于激光雷達(dá)數(shù)據(jù)更稀疏,但毫米波雷達(dá)數(shù)據(jù)在目標(biāo)速度和雷達(dá)截面積(Radar Cross-Section,RCS)信息上具有很強(qiáng)的特征。例如,移動(dòng)的車輛具有較高的相對(duì)速度以及車身能夠產(chǎn)生高RCS值。所有這些特征對(duì)于目標(biāo)檢測(cè)都非常有用。本文設(shè)計(jì)了基于注意力機(jī)制的毫米波-激光雷達(dá)數(shù)據(jù)融合目標(biāo)檢測(cè)網(wǎng)絡(luò),如圖1 所示。該網(wǎng)絡(luò)包含四個(gè)模塊:點(diǎn)云柱快速編碼模塊、卷積特征提取模塊、注意力融合模塊和SSD檢測(cè)模塊。
圖1 傳感器注意力機(jī)制融合網(wǎng)絡(luò)框架Fig.1 Sensor attention mechanism fusion network framework
激光雷達(dá)和毫米波雷達(dá)都是無(wú)序的稀疏點(diǎn)云數(shù)據(jù)。為了使激光雷達(dá)和毫米波雷達(dá)能夠良好地融合,本文對(duì)激光雷達(dá)和毫米波雷達(dá)采取了點(diǎn)云柱快速編碼[26]方法。如圖2 所示,點(diǎn)云柱快速編碼方法首先以自身為中心,在100 m×100 m 的地平面范圍中均勻生成400×400 個(gè)立方柱體,即每個(gè)柱體的底面大小為0.25 m×0.25 m,高度限制為10 m;每個(gè)點(diǎn)云柱中的點(diǎn)數(shù)約束為N,多則采樣,少則補(bǔ)0,并對(duì)每個(gè)點(diǎn)進(jìn)行維度擴(kuò)展。將激光雷達(dá)點(diǎn)云原始數(shù)據(jù)的三維坐標(biāo).xl,yl,zl)和強(qiáng)度I加入.xc,yc,zc,xp,yp)5個(gè)額外維度。其中,.xc,yc,zc)為該點(diǎn)云柱中所有點(diǎn)的坐標(biāo)平均值,即所有點(diǎn)的聚類中心;(xp,yp)為各點(diǎn)到點(diǎn)云柱中心的x-y坐標(biāo)偏移量,此時(shí)點(diǎn)云柱中的每個(gè)點(diǎn)有9 個(gè)維度??紤]到點(diǎn)云數(shù)據(jù)的稀疏性,因此在單次訓(xùn)練樣本中的非空點(diǎn)云柱數(shù)目約束為P,并根據(jù)實(shí)際數(shù)量隨機(jī)采樣或補(bǔ)0。整個(gè)點(diǎn)云數(shù)據(jù)被編碼為形狀(D,P,N)的張量,D是點(diǎn)云柱特征維度,P是非空點(diǎn)云柱數(shù)量,N為單個(gè)點(diǎn)云柱中數(shù)據(jù)點(diǎn)的個(gè)數(shù)。(D,P,N)利用1×1 卷積操作進(jìn)行線性變換后得到張量(C,P,N),對(duì)每個(gè)點(diǎn)云柱中的所有點(diǎn)進(jìn)行最大池化操作得到特征矩陣(C,P)。最后將P個(gè)非空點(diǎn)云柱內(nèi)的點(diǎn)映射回檢測(cè)范圍內(nèi)的原始位置得到大小為(C,W,H)的二維點(diǎn)云偽圖像。
圖2 點(diǎn)云柱快速編碼Fig.2 Fast encode for PointPillar
毫米波雷達(dá)點(diǎn)云數(shù)據(jù)共有18 維(具體見3.1 章),與激光雷達(dá)只利用位置信息和強(qiáng)度信息不同,為了彌補(bǔ)激光雷達(dá)數(shù)據(jù)的不足,毫米波雷達(dá)保留其中的坐標(biāo).xrl,yrl,zrl)、補(bǔ)償速度.Vx_comp,Vy_comp)及目標(biāo)雷達(dá)截面積(IRCS)共6 個(gè)維度。相比激光雷達(dá)點(diǎn)的位置信息,毫米波雷達(dá)點(diǎn)的位置信息正樣本比例高,受距離因素、天氣因素影響?。幌啾燃す饫走_(dá)的反射強(qiáng)度信息,毫米波雷達(dá)RCS信息能夠直接反映出目標(biāo)的體積大小,尤其卡車、汽車和行人RCS特征差別明顯,起到了信息互補(bǔ)作用。除此之外毫米波雷達(dá)還能檢測(cè)出目標(biāo)的矢量速度信息來(lái)輔助檢測(cè)任務(wù)。
為更好地提取毫米波雷達(dá)的特征,本文對(duì)點(diǎn)云柱快速編碼方法做了改進(jìn)。由于所有毫米波雷達(dá)點(diǎn)云數(shù)據(jù)中的zr都為0,在對(duì)毫米波雷達(dá)雷達(dá)特征點(diǎn)云柱快速編碼過(guò)程中,去除了激光點(diǎn)云數(shù)據(jù).xc,yc,zc)中的zc項(xiàng)及(xp,yp)兩項(xiàng)。改進(jìn)后的毫米波雷達(dá)點(diǎn)云柱快速編碼網(wǎng)絡(luò)提取8 個(gè)特征(xrl,yrl,zrl,Vx_comp,Vy_comp,xc,yc,IRCS)。編碼后的毫米波雷達(dá)為形狀.Dr,P,N)的張量,之后根據(jù)柱體坐標(biāo)映射得到與激光雷達(dá)相同維度的二維點(diǎn)云偽圖像。
本文提出的基于注意力機(jī)制的毫米波-激光雷達(dá)數(shù)據(jù)融合方法如圖3 所示:首先采用注意力機(jī)制對(duì)卷積特征提取模塊輸出的毫米波與激光雷達(dá)特征圖進(jìn)行融合,如式(1)所示,其中:Xl∈RC×N表示激光雷達(dá)特征圖,Xr∈RC×N表示毫米波雷達(dá)特征圖,O表示注意力融合后的激光雷達(dá)特征圖。
圖3 激光雷達(dá)和毫米波雷達(dá)注意力融合Fig.3 Attention fusion of lidar and millimeter wave radar
注意力融合過(guò)程中,定義式(2):
如圖3 所示:激光雷達(dá)特征圖經(jīng)過(guò)1×1 卷積層和BatchNorm 層、RELU 激活層后得到Q和V;毫米波雷達(dá)特征圖經(jīng)過(guò)1×1 卷積層和BatchNorm 層、整流線性單位函數(shù)(Rectified Linear Unit,ReLU)激活層后得到K。使用點(diǎn)乘作為Q與K的內(nèi)積形式,并將結(jié)果利用Softmax 進(jìn)行歸一化,可計(jì)算出激光雷達(dá)特征圖所對(duì)應(yīng)的Q與毫米波雷達(dá)特征圖所對(duì)應(yīng)的K之間的關(guān)系權(quán)重矩陣A,A中各項(xiàng)aij計(jì)算如式(3)所示。
在得到毫米波-激光雷達(dá)點(diǎn)云數(shù)據(jù)間的關(guān)系權(quán)重矩陣A后,如式(4)所示,將優(yōu)化后的權(quán)重矩陣和激光雷達(dá)特征圖所對(duì)應(yīng)的V相乘,即得到融合結(jié)果O。
另外,借鑒殘差模塊的概念[27],如式(5)所示,將融合結(jié)果O乘上比例系數(shù)λ并加上激光雷達(dá)特征圖Xl,得到最終輸出結(jié)果y。λ初始值設(shè)為0,通過(guò)訓(xùn)練學(xué)習(xí)增大該權(quán)重系數(shù)。其物理含義可視為一開始注意力機(jī)制的影響為0,隨著訓(xùn)練的進(jìn)行逐漸增大注意力在輸出中的影響。
除了傳感器注意力融合方法,本文還與拼接融合、相乘融合和相加融合進(jìn)行了對(duì)比,各個(gè)方法在網(wǎng)絡(luò)中的融合位置相同。文獻(xiàn)[20]中進(jìn)行了傳感器特征圖拼接融合實(shí)驗(yàn)。本文對(duì)激光雷達(dá)和毫米波雷達(dá)特征圖通道維度進(jìn)行疊加,得到維度(2C×W×H)融合特征圖。融合后的特征圖通過(guò)1×1 卷積降維到原來(lái)的維度。
文獻(xiàn)[15]中進(jìn)行了特征圖相加融合實(shí)驗(yàn)。本文對(duì)激光雷達(dá)特征圖和毫米波雷達(dá)特征圖對(duì)應(yīng)元素相加融合。
文獻(xiàn)[17]中采用了特征圖相乘的融合方式。由于毫米波雷達(dá)的稀疏性毫米波雷達(dá)特征圖Xr比激光雷達(dá)特征圖Xl有更多的元素為0,因此對(duì)毫米波雷達(dá)特征圖為0的元素進(jìn)行加1 操作,如式(6)所示,得到毫米波特征圖;將毫米波-激光雷達(dá)特征圖相乘,如式(7)所示。加1 操作保證相乘融合時(shí)不會(huì)丟失激光雷達(dá)特征圖中包含的信息,但又能通過(guò)毫米波雷達(dá)強(qiáng)化相同位置激光雷達(dá)特征圖信息流。
本文使用PointPillar 點(diǎn)云快速編碼網(wǎng)絡(luò)框架作為基礎(chǔ)網(wǎng)絡(luò),并在此網(wǎng)絡(luò)模型上加入融合模塊進(jìn)行改進(jìn)。PointPillar 采用類似文獻(xiàn)[2]的主干網(wǎng)絡(luò)結(jié)構(gòu)。輸入數(shù)據(jù)在經(jīng)過(guò)點(diǎn)云柱快速編碼之后,生成點(diǎn)云偽圖像后進(jìn)入主干網(wǎng)絡(luò),主干網(wǎng)采用空間金字塔池化結(jié)構(gòu),包含兩個(gè)子網(wǎng)絡(luò):一個(gè)是自上向下的下采樣卷積網(wǎng)絡(luò)產(chǎn)生空間分辨率越來(lái)越小的特征;另一個(gè)卷積網(wǎng)絡(luò)分支將前面3 個(gè)卷積塊的輸出卷積成相同大小的特征圖,如圖4所示。提取出毫米波-激光雷達(dá)點(diǎn)云數(shù)據(jù)的特征之后,將兩者送入融合模塊,最終將融合結(jié)果送入檢測(cè)模塊,輸出結(jié)果。
圖4 卷積特征提取主干網(wǎng)絡(luò)Fig.4 Convolutional feature extraction backbone network
在激光雷達(dá)和毫米波雷達(dá)的點(diǎn)云柱快速編碼模塊中,每個(gè)點(diǎn)云柱中包含點(diǎn)數(shù)量N設(shè)置為60,非空點(diǎn)云柱數(shù)量P設(shè)置為30 000。編碼后得到維度為(C,W,H)的偽圖像,其中W和H等于400,C等于64。
通過(guò)點(diǎn)云柱編碼得到維度(C,W,H)的偽圖像后,為了檢測(cè)不同尺寸的目標(biāo),在卷積特征提取層設(shè)置了兩個(gè)子網(wǎng)絡(luò),它們的連接方式如圖4 所示。前子網(wǎng)絡(luò)的每個(gè)卷積塊第一層下采樣步長(zhǎng)為2,每個(gè)卷積后面都接一個(gè)BacthNorm 層和ReLU層。前子網(wǎng)絡(luò)卷積塊輸出作為同子網(wǎng)絡(luò)卷積塊和后子網(wǎng)絡(luò)卷積塊的輸入。每個(gè)卷積后的特征圖經(jīng)過(guò)1-1、2-1、3-1 子網(wǎng)絡(luò)卷積塊得到相同的維度為的特征圖,三個(gè)模塊拼接成維度的特征圖。
分別提取了激光雷達(dá)和毫米波雷達(dá)特征圖后,本文嘗試了注意力融合方法和另外三種融合方法:拼接融合、相加融合和相乘融合。通過(guò)上述的點(diǎn)云柱快速編碼模塊和卷積特征提取模塊后,激光雷達(dá)和毫米波雷達(dá)從無(wú)序的點(diǎn)云轉(zhuǎn)化為有序的偽圖像。兩者在空間上具有良好的對(duì)應(yīng)性,這對(duì)傳感器融合十分重要。nuScenes[28]數(shù)據(jù)集標(biāo)簽注釋的各類目標(biāo)物框內(nèi)的激光雷達(dá)點(diǎn)數(shù)量是毫米波雷達(dá)的4~10倍,這就意味著一個(gè)目標(biāo)物上有很少的毫米波雷達(dá)點(diǎn)。例如,一輛車的長(zhǎng)大約4.5 m,寬2 m,使用(0.25,0.25)的點(diǎn)云柱的條件下,車輛所占的激光雷達(dá)點(diǎn)云柱約有100 個(gè),而毫米波雷達(dá)只有幾個(gè)。如圖1 所示,通過(guò)將融合模塊放置在卷積特征提取層后,利用卷積特征提取操作來(lái)擴(kuò)大毫米波雷達(dá)感受野,增強(qiáng)網(wǎng)絡(luò)整體性能。將擴(kuò)大了感受野的毫米波雷達(dá)特征圖使用上述介紹的注意力融合方法進(jìn)行實(shí)驗(yàn),并在相同位置進(jìn)行另外三種融合方法對(duì)比。
經(jīng)過(guò)傳感器注意力后的特征圖使用SSD 檢測(cè)器進(jìn)行3D檢測(cè)。通過(guò)匹配設(shè)置的先驗(yàn)框和真實(shí)框的2D 平面重疊度交并比(Intersection over Union,IoU)進(jìn)行篩選。框的高度和距離地面的高度作為額外的回歸目標(biāo)。
本文通過(guò)3個(gè)1×1的卷積層實(shí)現(xiàn)分類、位置回歸和方向回歸。根據(jù)先驗(yàn)知識(shí)設(shè)置9 種大小的3D 框,每個(gè)類都設(shè)置不同的匹配和非匹配IoU 閾值。每個(gè)框有7 個(gè)維度(x,y,z,w,h,l,θ),分別代表著框的長(zhǎng)、寬、高、中心坐標(biāo)和方向。使用文獻(xiàn)[26]的損失函數(shù)計(jì)算損失。真實(shí)框和生成框之間的位置回歸殘差定義為式(8),尺寸回歸殘差定義為式(9),方向回歸定義為式(10)。
其中:上標(biāo)gt 表示真實(shí)值,上標(biāo)為a 表示預(yù)測(cè)值??偽恢脫p失函數(shù)的定義為式(11):
其中SmoothL1定義如下:
由于文獻(xiàn)[2]中定義的方向損失函數(shù)不能區(qū)分0°和180°旋轉(zhuǎn)的框,本文使用文獻(xiàn)[26]中的方向損失函數(shù),定義如式(13):
分類函數(shù)Lcls使用的是Focal loss[29]損失函數(shù),如式(14)所示。其中pa代表框的分類概率,α=0.25,γ=2。
總的損失函數(shù)定義為:
其中:Npos代表正樣本框的數(shù)量,即大于設(shè)定IoU 閾值的框的數(shù)量;設(shè)置λ1=2,λ2=1,λ3=0.2。
本文采用的是nuScenes 數(shù)據(jù)集,該數(shù)據(jù)集包含1 個(gè)32 線激光雷達(dá)、5 個(gè)毫米波雷達(dá)、5 個(gè)攝像頭的所有傳感數(shù)據(jù)。數(shù)據(jù)集提供的毫米波雷達(dá)數(shù)據(jù)是經(jīng)過(guò)聚類處理的雷達(dá)點(diǎn),每個(gè)雷達(dá)點(diǎn)有18 個(gè)維度,包含坐標(biāo)、速度、雷達(dá)散射面積、雷達(dá)動(dòng)態(tài)特性、多普勒迷糊解狀態(tài)、有效性狀態(tài)等,如表1 提供的部分信息所示??梢酝ㄟ^(guò)雷達(dá)狀態(tài)通道對(duì)雷達(dá)點(diǎn)進(jìn)行篩選的方法來(lái)濾除不相關(guān)雷達(dá)點(diǎn)。本文實(shí)驗(yàn)中對(duì)毫米波雷達(dá)濾波設(shè)置是保留多普勒模糊解:3 表示清楚的,以及點(diǎn)有效性狀態(tài):0 表示有效的和所有雷達(dá)動(dòng)態(tài)特性下的毫米波雷達(dá)點(diǎn)。濾波前和濾波后的毫米波圖像如圖5 所示,圖右上角為安裝在車頭處毫米波雷達(dá)數(shù)據(jù),雷達(dá)點(diǎn)上的線條表示速度方向和大小。
圖5 毫米波雷達(dá)點(diǎn)濾波前后圖像對(duì)比Fig.5 Image comparison of millimeter wave radar points before and after filtering
表1 毫米波雷達(dá)數(shù)據(jù)各個(gè)通道及其說(shuō)明Tab.1 Channels and channel descriptions of radar data
在本文中使用的是激光雷達(dá)的坐標(biāo)和強(qiáng)度信息,毫米波雷達(dá)的坐標(biāo)、RCS 和速度信息。激光雷達(dá)和毫米波雷達(dá)安裝在車輛的不同位置并使用不同坐標(biāo)系。以車輛的慣性測(cè)量單元(Inertial Measurement Unit,IMU)作為參考點(diǎn);激光雷達(dá)平移矩陣Tl,旋轉(zhuǎn)矩陣Rl,毫米波雷達(dá)雷達(dá)平移矩陣Tr,旋轉(zhuǎn)矩陣Rr,其中毫米波雷達(dá)轉(zhuǎn)換到激光雷達(dá)坐標(biāo)系的旋轉(zhuǎn)矩陣R=Rl·Rr,轉(zhuǎn)換到激光雷達(dá)安裝位置的平移矩陣T=Tl-Tr。通過(guò)式(16)可將毫米波雷達(dá)點(diǎn)云數(shù)據(jù)中的坐標(biāo)轉(zhuǎn)換到激光雷達(dá)空間,轉(zhuǎn)換后的毫米波雷達(dá)坐標(biāo)記為.xrl,yrl,zrl)。如圖6 所示,毫米波雷達(dá)的速度方向并不能反映物體的絕對(duì)速度V,而是表示與自身車輛的相對(duì)徑向速度Vr。該速度在x-y方向上的分量為(Vx,Vy)=.Vr· cosα,Vr· sinα),車輛自身速度(Vex,Vey),補(bǔ)償速度.Vx_comp,Vy_comp)=(Vx,Vy)-(Vex,Vey),利用式(17)將毫米波雷達(dá)坐標(biāo)系下的速度轉(zhuǎn)化為激光雷達(dá)坐標(biāo)系的速度.Vx_comp_1,Vy_comp_l)。
圖6 毫米波雷達(dá)點(diǎn)速度示意圖Fig.6 Schematic diagram of radar point velocity
雖然毫米波雷達(dá)數(shù)據(jù)缺乏相對(duì)切向速度,不能完全反映出物體的真實(shí)運(yùn)動(dòng)速度,但是通過(guò)結(jié)合其他信息對(duì)物體的運(yùn)動(dòng)狀態(tài)進(jìn)行粗略判斷也能夠在對(duì)障礙物檢測(cè)中發(fā)揮積極作用。
nuScenes 數(shù)據(jù)集包含了28 130 個(gè)訓(xùn)練樣本和6 019 個(gè)測(cè)試樣本。數(shù)據(jù)集的激光雷達(dá)掃描頻率是20 幀/秒(Frame Per Second,F(xiàn)PS),32線束,探測(cè)距離100 m,精度±0.02 m,每幀大約3 萬(wàn)個(gè)點(diǎn)。毫米波雷達(dá)是77 Hz 的調(diào)頻連續(xù)波(Frequency Modulated Continuous Wave,F(xiàn)MCW)雷達(dá),掃描頻率13 FPS,探測(cè)距離250 m,近距離精度±0.1 m,遠(yuǎn)距離精度±0.4 m,每幀掃描聚類后的點(diǎn)數(shù)最多125 個(gè)。因?yàn)闃?biāo)注樣本所占的比例是每秒2 幀,所以將全部掃描幀中連續(xù)10 幀激光雷達(dá)和連續(xù)5 幀毫米波雷達(dá)聚合到樣本幀進(jìn)行數(shù)據(jù)增強(qiáng)。本文中目標(biāo)檢測(cè)包含9 個(gè)目標(biāo)分類:汽車、卡車、客車、拖車、工程車輛、行人、摩托車、交通錐和柵欄。各個(gè)類在整個(gè)數(shù)據(jù)集所占比例如圖7 所示,以下實(shí)驗(yàn)均使用單個(gè)GPU 完成,由于數(shù)據(jù)集較大,訓(xùn)練完整數(shù)據(jù)集進(jìn)行耗時(shí)較長(zhǎng),所以使用1/2數(shù)據(jù)集即14 065個(gè)訓(xùn)練樣本進(jìn)行訓(xùn)練,測(cè)試樣本6 019個(gè)。
圖7 數(shù)據(jù)集各類實(shí)例所占百分比Fig.7 Percentages of various classes of instances in dataset
與訓(xùn)練一個(gè)網(wǎng)絡(luò)僅識(shí)別一類目標(biāo)不同,訓(xùn)練一個(gè)網(wǎng)絡(luò)同時(shí)進(jìn)行9類目標(biāo)的檢測(cè)。訓(xùn)練時(shí)批量大小設(shè)置為3,測(cè)試時(shí)為1,訓(xùn)練次數(shù)為30 個(gè)epoch(140 000 次迭代)。本文總共設(shè)置2 500個(gè)錨點(diǎn),每個(gè)點(diǎn)上18個(gè)3D框,即每個(gè)點(diǎn)上每個(gè)類兩個(gè)框方向分別設(shè)置為0°和90°。
在實(shí)驗(yàn)過(guò)程中進(jìn)行了多組對(duì)比實(shí)驗(yàn)。在毫米波-激光雷達(dá)融合方法上使用了注意力融合、拼接融合、相加融合和相乘融合,并和激光雷達(dá)單一傳感器的自注意力[25]進(jìn)行對(duì)比。實(shí)驗(yàn)平臺(tái)的操作系統(tǒng)為Centos7,并帶有型號(hào)為NVIDIA RTX Titan XP 的GPU和Intel Xeon Silver 4210的CPU。
首先,使用PointPillar點(diǎn)云快速編碼網(wǎng)絡(luò)框架作為基礎(chǔ)網(wǎng)絡(luò),并在基礎(chǔ)網(wǎng)絡(luò)上加入基于注意力機(jī)制的毫米波-激光雷達(dá)點(diǎn)云數(shù)據(jù)融合模塊進(jìn)行實(shí)驗(yàn)比對(duì),為證明實(shí)驗(yàn)結(jié)果的提升并非因?yàn)榫W(wǎng)絡(luò)參數(shù)的增加而導(dǎo)致,額外加入了擁有相同參數(shù)量的激光雷達(dá)點(diǎn)云數(shù)據(jù)的自注意力模塊作為參考。實(shí)驗(yàn)結(jié)果如表2所示,基于注意力機(jī)制的毫米波-激光雷達(dá)點(diǎn)云數(shù)據(jù)融合方法的目標(biāo)檢測(cè)準(zhǔn)確率與基礎(chǔ)網(wǎng)絡(luò)以及激光雷達(dá)的自注意力方法相比,取得了一定提升,基于注意力機(jī)制的數(shù)據(jù)融合方法的平均精度均值(mean Average Precision,mAP)高出基礎(chǔ)網(wǎng)絡(luò)0.62個(gè)百分點(diǎn),證明了本文中所提算法的有效性。
表2 基準(zhǔn)網(wǎng)絡(luò)、自注意網(wǎng)絡(luò)和注意力融合方法的AP與mAP對(duì) 單位:%Tab.2 AP and mAP comparison of baseline network,self-attention network and attention fusion method unit:%
另外,從實(shí)驗(yàn)中可以看出,激光雷達(dá)自注意方法實(shí)驗(yàn)準(zhǔn)確率比基礎(chǔ)網(wǎng)絡(luò)性能要低,初步推測(cè)是由于在點(diǎn)云柱快速編碼過(guò)程中,其中的最大池化操作將點(diǎn)云柱內(nèi)大量高相關(guān)性數(shù)據(jù)進(jìn)行了簡(jiǎn)化,之后的注意力機(jī)制僅能夠捕捉到點(diǎn)云柱間的上下文信息,因此,對(duì)于體積較大的目標(biāo),其所占點(diǎn)云柱數(shù)目較多,注意力機(jī)制能夠?qū)ζ錂z測(cè)性能加以提升,而體積較小的物體,所占點(diǎn)云柱數(shù)目較小,注意力機(jī)制無(wú)法捕捉該目標(biāo)的上下文信息從而影響了該類目標(biāo)的檢測(cè)結(jié)果。在未來(lái)的工作中,將考慮這一因素對(duì)點(diǎn)云柱的快速編碼模塊進(jìn)行優(yōu)化。
本節(jié)將基于注意力機(jī)制的融合方法與拼接、相加、相乘三種常見融合方法進(jìn)行相比,實(shí)驗(yàn)結(jié)果如圖8 所示,可見基于注意力機(jī)制的融合方法的性能明顯優(yōu)于其他方法。
圖8 注意力融合和拼接融合、相乘融合、相加融合的平均準(zhǔn)確率對(duì)比Fig.8 Average accuracy comparison of attention fusion,concatenation fusion,multiply fusion and add fusion
根據(jù)實(shí)驗(yàn)結(jié)果,基于注意力融合的目標(biāo)檢測(cè)方法性能優(yōu)于拼接、加和、相乘融合目標(biāo)檢測(cè)方法。通過(guò)分析可知:一方面聚類后的毫米波雷達(dá)點(diǎn)位置誤差較大,Nusence數(shù)據(jù)集中使用的ARS408型號(hào)毫米波雷達(dá)數(shù)據(jù)30 m 外誤差為0.4 m,因此部分與目標(biāo)關(guān)聯(lián)的毫米波雷達(dá)點(diǎn)并不在該目標(biāo)上,而可能在目標(biāo)周圍;另一方面一個(gè)目標(biāo)可能與多個(gè)毫米波雷達(dá)點(diǎn)相關(guān)聯(lián),使用拼接、加和、相乘融合只能融合對(duì)應(yīng)的局部位置信息,而注意力融合能夠通過(guò)全圖的來(lái)學(xué)習(xí)毫米波雷達(dá)目標(biāo)和激光雷達(dá)目標(biāo)之間的關(guān)聯(lián)。
本文對(duì)基礎(chǔ)網(wǎng)絡(luò)模型和注意力融合網(wǎng)絡(luò)模型的檢測(cè)效果進(jìn)行鳥瞰圖可視化,可視化范圍為前后左右各50 m 的x-y平面。如圖9 所示,圖中框表示檢測(cè)的目標(biāo)物,框的閉合方向表示目標(biāo)的方向。通過(guò)對(duì)比第一行第三列左上角,第二行第三列左上角,第三行第三列圖片右下角可以發(fā)現(xiàn),基礎(chǔ)網(wǎng)絡(luò)遺漏了部分的遠(yuǎn)處目標(biāo),而融合了毫米波雷達(dá)數(shù)據(jù)的網(wǎng)絡(luò)模型能夠很好地將其檢測(cè)出來(lái),說(shuō)明融合網(wǎng)絡(luò)成功地將毫米波對(duì)遠(yuǎn)處目標(biāo)的感知優(yōu)勢(shì)融入激光雷達(dá)特征圖中,彌補(bǔ)了激光雷達(dá)對(duì)遠(yuǎn)處目標(biāo)檢測(cè)點(diǎn)數(shù)稀疏而造成的漏檢。另外,在對(duì)比第一行和第二行圖片右下角可以發(fā)現(xiàn),當(dāng)目標(biāo)被樹木遮擋后基礎(chǔ)網(wǎng)絡(luò)的檢測(cè)效果不佳,出現(xiàn)漏檢及方向檢測(cè)錯(cuò)誤,而本文所提出的融合網(wǎng)絡(luò)能夠正確檢測(cè)被樹木遮擋的車輛,這是由于毫米波信號(hào)對(duì)樹木草叢等的穿透性增強(qiáng)了融合網(wǎng)絡(luò)對(duì)這類遮擋目標(biāo)檢測(cè)的性能。如第四行圖片所示,基礎(chǔ)網(wǎng)絡(luò)在雨霧天氣下由于空氣水滴反射干擾更容易出現(xiàn)錯(cuò)檢和漏檢,而由于毫米波雷達(dá)對(duì)極端天氣的魯棒性更強(qiáng),融合網(wǎng)絡(luò)在雨霧天氣下比基礎(chǔ)網(wǎng)絡(luò)也更為穩(wěn)定。通過(guò)實(shí)驗(yàn)結(jié)果圖對(duì)比可以發(fā)現(xiàn),傳感器注意力融合方法充分發(fā)揮了毫米波雷達(dá)可以穿透樹木草叢、不受天氣影響和探測(cè)距離遠(yuǎn)等特點(diǎn),能有效提高網(wǎng)絡(luò)檢測(cè)性能。
圖9 基礎(chǔ)網(wǎng)絡(luò)與毫米波-激光雷達(dá)注意力融合檢測(cè)結(jié)果對(duì)比Fig.9 Detection result comparison of basic network and millimeter wave radar-lidar attention fusion
本文在完整數(shù)據(jù)集下進(jìn)行訓(xùn)練后對(duì)大型車輛的檢測(cè)結(jié)果和目前數(shù)據(jù)集上公開的現(xiàn)有最先進(jìn)算法SARPNET[30]、MonoDIS[31]進(jìn)行比較。其中SARPNET 是基于激光雷達(dá)的目標(biāo)檢測(cè),MonoDIS 是基于攝像頭的目標(biāo)檢測(cè)。通過(guò)實(shí)驗(yàn)結(jié)果表3 可以發(fā)現(xiàn),本文融合方法對(duì)車輛的檢測(cè)準(zhǔn)確率高于其他兩種方法,在nuScenes數(shù)據(jù)集上取得了優(yōu)異的表現(xiàn)。
表3 nuScenes數(shù)據(jù)集上本文融合方法和SARPNET、MonoDIS的mAP對(duì) 單位:%Tab.3 mAP comparison of the proposed fusion method,SARPNET and MonoDIS on nuScenes dataset unit:%
本文在點(diǎn)云快速編碼網(wǎng)絡(luò)PointPillar的基礎(chǔ)上,提出了一種基于注意力機(jī)制的毫米波-激光雷達(dá)數(shù)據(jù)融合的目標(biāo)檢測(cè)方法,充分利用了毫米波雷達(dá)探測(cè)距離遠(yuǎn)、不受天氣影響、可穿透樹木和具有徑向速度探測(cè)等特點(diǎn),彌補(bǔ)了激光雷達(dá)的不足。本文的實(shí)驗(yàn)結(jié)果驗(yàn)證了所提方法的有效性,而且該方法也優(yōu)于其他融合方法和自注意力方法。
考慮到本文使用的nuScenes數(shù)據(jù)集目標(biāo)類的分布極不均勻,使得在一些類的檢測(cè)結(jié)果準(zhǔn)確率很低;另外本文毫米波雷達(dá)進(jìn)行濾波只根據(jù)單通道數(shù)值進(jìn)行過(guò)濾,而在毫米波雷達(dá)特征提取方法上借鑒的激光雷達(dá)特征提取方法,未充分考慮到毫米波雷達(dá)的稀疏性問(wèn)題;以及點(diǎn)云柱快速編碼過(guò)程中造成的小體積目標(biāo)上下文信息丟失等問(wèn)題,在未來(lái)的工作中將考慮利用數(shù)據(jù)增強(qiáng)及半監(jiān)督學(xué)習(xí)等方法解決類數(shù)量不平衡問(wèn)題,重新設(shè)計(jì)端對(duì)端的點(diǎn)云數(shù)據(jù)編碼-特征提取-檢測(cè)網(wǎng)絡(luò),從而進(jìn)一步提升算法性能。