王 海,劉明亮,蔡英鳳,陳 龍
(1.江蘇大學(xué) 汽車與交通工程學(xué)院,江蘇 鎮(zhèn)江 212013;2.鎮(zhèn)江市江蘇大學(xué)工程技術(shù)研究院,江蘇 鎮(zhèn)江 212013;3.江蘇大學(xué) 汽車工程研究院,江蘇 鎮(zhèn)江 212013)
無人駕駛主要由環(huán)境感知、路徑規(guī)劃和決策控制等部分組成.環(huán)境感知提供的信息越準(zhǔn)確對(duì)后續(xù)步驟越有利,環(huán)境感知的主要任務(wù)是識(shí)別無人車周邊障礙物信息,目標(biāo)檢測(cè)是其重要組成部分,對(duì)無人車自主行駛至關(guān)重要.
目前無人車目標(biāo)檢測(cè)所使用的傳感器主要包括攝像機(jī)、激光雷達(dá)、毫米波雷達(dá)和超聲波雷達(dá)等.每種類型傳感器都有各自優(yōu)缺點(diǎn),攝像頭傳感器成本較低,可以獲得目標(biāo)的形狀與色彩.隨著計(jì)算機(jī)視覺技術(shù)的發(fā)展,將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)應(yīng)用在圖像檢測(cè)上已經(jīng)較為普遍,且檢測(cè)效果顯著,比如YOLO(you only look once)[1]、SSD(single shot multibox detector)[2]、Fast R-CNN(fast region-CNN)系列[3],與此同時(shí),將基于卷積神經(jīng)網(wǎng)絡(luò)的檢測(cè)算法應(yīng)用于工程實(shí)踐也取得了較好的效果[4].然而,由于攝像頭缺少深度信息,且受外界光照條件影響較大,上述方法僅可以得到目標(biāo)的2D檢測(cè)框,無法探測(cè)目標(biāo)距離信息.激光雷達(dá)的引入可以彌補(bǔ)深度信息的缺失,激光雷達(dá)具有可以獲得距離信息和目標(biāo)形狀、探測(cè)距離較遠(yuǎn)、受外界條件影響較小等優(yōu)點(diǎn).因此,基于激光雷達(dá)點(diǎn)云的目標(biāo)檢測(cè)算法也一直是研究熱點(diǎn).常用的傳統(tǒng)檢測(cè)算法是基于原始點(diǎn)云建立柵格地圖并去除地面點(diǎn)[5],對(duì)障礙物點(diǎn)云進(jìn)行柵格聚類之后使用基于幾何形狀的目標(biāo)識(shí)別分類,但該方法受限于無人車周圍環(huán)境,當(dāng)出現(xiàn)灌木叢、地面崎嶇不平時(shí),會(huì)出現(xiàn)較大誤檢.伴隨著深度學(xué)習(xí)的不斷發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)也廣泛應(yīng)用于三維點(diǎn)云數(shù)據(jù)上,比如ZHOU Y.等[6]建立體素網(wǎng)絡(luò)結(jié)構(gòu),將點(diǎn)云劃分為三維體素再進(jìn)行特征提取,但此方法需要較高的計(jì)算量,且點(diǎn)云是稀疏三維數(shù)據(jù),其中存在較多無效空間點(diǎn).QI C.R.等[7-8]依據(jù)點(diǎn)云的無序性和變換不變性的特征設(shè)計(jì)網(wǎng)絡(luò)模型,網(wǎng)絡(luò)以點(diǎn)云為輸入并輸出點(diǎn)云類別標(biāo)簽,然而該網(wǎng)絡(luò)僅能處理局部小規(guī)模點(diǎn)云,難以在自動(dòng)駕駛等大規(guī)模點(diǎn)云場(chǎng)景上應(yīng)用.
目前,多傳感器融合的目標(biāo)檢測(cè)算法漸漸增多,譬如基于相機(jī)與激光雷達(dá)的檢測(cè)方案,具有代表性的如F-PointNet[9],該方法設(shè)計(jì)了視錐體,主體流程首先通過圖像檢測(cè)方法獲取目標(biāo)2D檢測(cè)框;之后通過傳感器標(biāo)定,將2D檢測(cè)框投影至點(diǎn)云生成視錐體;最后通過PointNet[7-8〗網(wǎng)絡(luò)生成精確目標(biāo)邊界框.但該方法檢測(cè)結(jié)果依賴于第1步2D檢測(cè)框的生成.CHEN X.Z.等[10]提出1個(gè)多視角的3D目標(biāo)識(shí)別網(wǎng)絡(luò),將點(diǎn)云的俯視圖和前視圖與攝像頭信息作為網(wǎng)絡(luò)輸入融合多視角特征完成目標(biāo)檢測(cè),但該方法輸入信息較多,會(huì)造成網(wǎng)絡(luò)運(yùn)行速度較慢、實(shí)時(shí)性較差.筆者提出將毫米波雷達(dá)和激光雷達(dá)數(shù)據(jù)融合的算法,首先將點(diǎn)云的高度信息做下采樣處理并加入點(diǎn)云強(qiáng)度信息,常見的特征提取網(wǎng)絡(luò)由于不斷下采樣導(dǎo)致車輛的有效信息不斷減少,因此引入特征金字塔結(jié)構(gòu)將高層特征圖與低層特征圖相結(jié)合,豐富最終特征層信息;之后根據(jù)毫米波雷達(dá)數(shù)據(jù)生成的預(yù)瞄框提供目標(biāo)感興趣區(qū)域?qū)崿F(xiàn)目標(biāo)快速定位;最后使用多任務(wù)分類回歸網(wǎng)絡(luò)實(shí)現(xiàn)目標(biāo)檢測(cè).在Nuscenes數(shù)據(jù)集上進(jìn)行訓(xùn)練及驗(yàn)證,同時(shí)將模型移入實(shí)車平臺(tái)進(jìn)行驗(yàn)證.
激光雷達(dá)數(shù)據(jù)每幀大約有130萬個(gè)點(diǎn),巨大的數(shù)據(jù)量為無人車描述周邊場(chǎng)景提供了幫助,通過感知算法可有效提取無人車周邊障礙物類型和距離信息,然而對(duì)巨大數(shù)據(jù)量的處理成為一個(gè)難題.針對(duì)上述問題,一種做法是使用體素化形成3D體素網(wǎng)格,但3維卷積計(jì)算代價(jià)昂貴,且激光雷達(dá)點(diǎn)云數(shù)據(jù)非常稀疏,以至于大多數(shù)體素網(wǎng)格單元都是空值,增加了網(wǎng)絡(luò)不必要的計(jì)算量.另一種做法是將三維點(diǎn)云降為二維數(shù)據(jù),通常將點(diǎn)云的x軸和反射強(qiáng)度轉(zhuǎn)化為顏色通道生成點(diǎn)云的前視圖,但此方法易丟失度量信息,且無法解決目標(biāo)遮擋問題.本研究通過將點(diǎn)云轉(zhuǎn)化為鳥瞰圖(bird′s eye view,BEV)視角,解決目標(biāo)遮擋問題,且保留車輛目標(biāo)特征信息;之后通過特征提取網(wǎng)絡(luò)和毫米波雷達(dá)數(shù)據(jù)生成的預(yù)瞄框提取目標(biāo)感興趣區(qū)域;再由多任務(wù)分類回歸網(wǎng)絡(luò)確定目標(biāo)精確位置.
圖1 模型網(wǎng)絡(luò)結(jié)構(gòu)圖
1.2.1殘差塊
目前在深度學(xué)習(xí)領(lǐng)域,特征提取一般會(huì)采用直線型的CNN網(wǎng)絡(luò),譬如VGG-Net[11],GoogleNet[12],AlexNet[13]等等,這種直線型網(wǎng)絡(luò)描述圖像的能力隨著卷積層數(shù)的增加而增加,但同時(shí)更深層的網(wǎng)絡(luò)也會(huì)導(dǎo)致準(zhǔn)確度出現(xiàn)飽和甚至下降現(xiàn)象,本研究使用ResNet[11]作為特征提取網(wǎng)絡(luò)可以規(guī)避這一缺陷.
為避免因?yàn)椴粩喽询B的卷積層導(dǎo)致深層網(wǎng)絡(luò)學(xué)習(xí)的特征出現(xiàn)退化,ResNet加入殘差單元,即當(dāng)輸入x期望特征輸出H(x)變?yōu)镠(x)=F(x)+x,具體網(wǎng)絡(luò)連接方式如圖1所示.使用3個(gè)殘差塊組成特征提取網(wǎng)絡(luò),每個(gè)殘差塊內(nèi)各包含3、8、8個(gè)殘差單元,并且在殘差學(xué)習(xí)單元的每層卷積使用量綱一化處理讓訓(xùn)練數(shù)據(jù)有相同分布以加快模型的收斂速度.
1.2.2特征金字塔網(wǎng)絡(luò)
通過殘差卷積塊提取的各層特征圖大小不一,低層特征圖語義信息較少,但目標(biāo)位置較為精確;高層特征圖語義信息多,但目標(biāo)位置較為模糊.因此,引入特征金字塔[2]結(jié)構(gòu),通過將高層的特征層與低層相結(jié)合的方式,既避免了檢測(cè)對(duì)象像素過小,也豐富了特征圖的表達(dá)能力.
特征金字塔網(wǎng)絡(luò)通過自左向右、自右向左和縱向連接的方法將特征圖進(jìn)行融合,以此獲得1個(gè)可以準(zhǔn)確描述目標(biāo)位置,且語義信息較為豐富的融合特征圖.自左向右的過程就是卷積網(wǎng)絡(luò)的前向傳播部分,在特征提取過程產(chǎn)生的特征圖命名為r1、r2、r3.對(duì)右端的r3,進(jìn)行卷積核為3*3、步長(zhǎng)為1的卷積運(yùn)算后得到特征金字塔的1層網(wǎng)絡(luò)結(jié)構(gòu)p3,之后采用上采樣并通過縱向連接將原先的自左向右生成的特征圖進(jìn)行相加操作,即p3的上采樣結(jié)果與對(duì)r2進(jìn)行卷積為1*1、步長(zhǎng)為1的卷積操作后的結(jié)果相加,然后進(jìn)行卷積核為3*3、步長(zhǎng)為1的卷積運(yùn)算得到特征金字塔的第2層網(wǎng)絡(luò)結(jié)構(gòu)p2,依次類推得到p1.建立多尺度的特征圖使金字塔每一層均可用于不同尺寸的目標(biāo)檢測(cè).
利用毫米波雷達(dá)檢測(cè)到的目標(biāo)生成感興趣區(qū)域,并為目標(biāo)對(duì)象提供精確的深度和速度信息.由于激光點(diǎn)云每1幀檢測(cè)范圍內(nèi)并不都是有效的檢測(cè)區(qū)域,在BEV視角下存在較多無效檢測(cè)區(qū)域,如果整體放入網(wǎng)絡(luò)會(huì)造成網(wǎng)絡(luò)速度下降,且一些無效點(diǎn)如路邊灌木叢會(huì)造成誤檢,通過使用毫米波雷達(dá)數(shù)據(jù)可有效去除一些潛在噪點(diǎn),加快網(wǎng)絡(luò)運(yùn)行速度.此外加入雷達(dá)數(shù)據(jù)也使得網(wǎng)絡(luò)的輸入更加多樣性,獲得更高的精度和可靠性.
通過激光雷達(dá)與毫米波雷達(dá)的坐標(biāo)轉(zhuǎn)換,可以粗略定位毫米波雷達(dá)探測(cè)對(duì)象在激光雷達(dá)坐標(biāo)系下的大致位置,之后將數(shù)據(jù)點(diǎn)轉(zhuǎn)為包圍框形成感興趣區(qū)域.采用LIU W.等[2]的方法設(shè)計(jì)包圍框,對(duì)于每個(gè)雷達(dá)檢測(cè)點(diǎn)生成不同尺寸和長(zhǎng)寬比的包圍框,設(shè)定的預(yù)瞄框大小對(duì)應(yīng)真實(shí)世界的長(zhǎng)度為3 m,預(yù)瞄框的長(zhǎng)寬尺寸比例分別為1 ∶1、1 ∶2、2 ∶1,如圖2所示.
圖2 毫米波雷達(dá)數(shù)據(jù)及預(yù)瞄框設(shè)置
多任務(wù)網(wǎng)絡(luò)主要由對(duì)象分類和方向定位組成.對(duì)象分類部分輸出1通道特征圖,方向定位任務(wù)分支輸出6通道特征圖,在多任務(wù)網(wǎng)絡(luò)中,使用共享權(quán)重的方法降低網(wǎng)絡(luò)參數(shù)數(shù)量.
在分類任務(wù)上僅預(yù)測(cè)車輛一類標(biāo)簽,類似于1個(gè)二分類問題.使用sigmoid激活函數(shù)計(jì)算分類的概率,并傳遞到損失函數(shù)計(jì)算損失值.在分類任務(wù)上設(shè)定網(wǎng)絡(luò)的閾值為50%,即當(dāng)預(yù)測(cè)框與真值框的交并比(IOU)大于50%時(shí)設(shè)定為正標(biāo)簽,小于50%時(shí)選取所有預(yù)測(cè)框與真值框交并比IOU最大值為正標(biāo)簽,其余為負(fù)標(biāo)簽.
由于檢測(cè)目標(biāo)相對(duì)較小,訓(xùn)練時(shí)易出現(xiàn)正負(fù)樣本分布不均的情況,無法進(jìn)一步提升網(wǎng)絡(luò)精度.針對(duì)樣本分布不均問題通過在交叉燏損失前加入?yún)?shù)α,交叉熵?fù)p失函數(shù)為
(1)
式中:pi為樣本i預(yù)測(cè)為正的概率值;yi為樣本i的標(biāo)簽,1為正標(biāo)簽,0為負(fù)標(biāo)簽.
然而α的引入不能解決難易樣本的不平衡,在實(shí)際情況中大多數(shù)目標(biāo)框都是易分樣本,易分樣本數(shù)量相對(duì)太多,最終會(huì)主導(dǎo)總損失函數(shù).因此引入focal-loss損失函數(shù)[14]平衡難易樣本,具體方式是對(duì)正樣本損失函數(shù)加入(1-pi)ε,當(dāng)p=0.9、ε=2時(shí),正樣本損失衰減了100倍,以此減小了樣本分布不均問題.focal-loss函數(shù)為
(2)
假設(shè)回歸網(wǎng)絡(luò)預(yù)測(cè)的每個(gè)2D檢測(cè)框用(xc,yc,w,l,θ)表示,如圖3所示,其中:θ為偏轉(zhuǎn)角,在[-π,π]之間;(xc,yc)為框的中心點(diǎn)c的坐標(biāo);w、l分別為框的寬度和長(zhǎng)度尺寸.在計(jì)算部分,偏轉(zhuǎn)角θ用cosθ、sinθ表示,通過計(jì)算BEV視角坐標(biāo)系下的真值框與預(yù)測(cè)的2D檢測(cè)框的差值獲得dx、dy、dw、dl、dθ.
圖3 2D檢測(cè)框示意圖
將SmoothL1損失函數(shù)用于2D檢測(cè)框回歸,回歸參數(shù)(dx、dy、dw、dl、dθ)中dx、dy、dθ如圖3所示,SmoothL1損失函數(shù)為
(3)
式中:xd為預(yù)測(cè)框與真值框之間的數(shù)值差值.
最終多任務(wù)網(wǎng)絡(luò)的損失函數(shù)為
F=Ffocal-loss+FSmoothL1.
(4)
訓(xùn)練使用的數(shù)據(jù)集為Nuscenes數(shù)據(jù)集.Nuscenes是1個(gè)自動(dòng)駕駛數(shù)據(jù)集,具有較為完整的傳感器套件的數(shù)據(jù)集,包含雷達(dá)、攝像機(jī)、激光雷達(dá)和GPS(global positioning system)共計(jì)12個(gè)傳感器的數(shù)據(jù)集.Nuscenes檢測(cè)類別共有23個(gè)類別,本研究?jī)H對(duì)車輛類別檢測(cè),所以單獨(dú)提取車輛類別進(jìn)行網(wǎng)絡(luò)的訓(xùn)練及驗(yàn)證.Nuscenes的數(shù)據(jù)集中的毫米波雷達(dá)共有5個(gè),分別為前雷達(dá)、左前雷達(dá)、右前雷達(dá)、左后雷達(dá)和右后雷達(dá),激光雷達(dá)僅有1個(gè)安裝在車頂部.使用前雷達(dá)和車頂激光雷達(dá)數(shù)據(jù)組成本次模型訓(xùn)練數(shù)據(jù)集,共計(jì)2.3萬個(gè)樣本,按8 ∶2的比例對(duì)數(shù)據(jù)集進(jìn)行劃分,分別用于訓(xùn)練和測(cè)試.Nuscenes數(shù)據(jù)集示例1、2分別如圖4、5所示.
圖4 Nuscenes數(shù)據(jù)集示例1
圖5 Nuscenes數(shù)據(jù)集示例2
試驗(yàn)平臺(tái)主要參數(shù)如下:處理器為Inter(R)core(TM)i5-8600K,主頻為3.60 GHz;內(nèi)存為64 GB;顯卡為NVIDIA GeForce GTX1080Ti.迭代訓(xùn)練40個(gè)訓(xùn)練周期,訓(xùn)練樣本數(shù)為6個(gè),初始學(xué)習(xí)率為0.001,每2 千次迭代以指數(shù)衰減,衰減指數(shù)為0.8.
將本算法與其他算法檢測(cè)結(jié)果進(jìn)行對(duì)比,結(jié)果如表1所示.其中:C1為單獨(dú)使用激光雷達(dá)點(diǎn)云目標(biāo)檢測(cè)算法;C2為單獨(dú)使用相機(jī)檢測(cè)算法;C3為毫米波雷達(dá)與激光雷達(dá)融合的目標(biāo)檢測(cè)算法;AP為車輛類別的檢測(cè)精度;AP50為IOU閾值設(shè)定在50%時(shí)的車輛類別的檢測(cè)精度;AP75為IOU閾值設(shè)定在75%時(shí)的車輛類別的檢測(cè)精度.
表1 本算法與其他算法檢測(cè)結(jié)果對(duì)比
從表1可以看出:基于毫米波雷達(dá)與激光雷達(dá)融合的目標(biāo)檢測(cè)算法在運(yùn)行時(shí)間上較單一的激光雷達(dá)檢測(cè)算法有所增加,但仍能滿足自動(dòng)駕駛的實(shí)時(shí)性要求,由于毫米波雷達(dá)數(shù)據(jù)的加入,在IOU設(shè)置為50%時(shí),檢測(cè)精度上與單一相機(jī)算法相比提升1.9%,與激光雷達(dá)算法相比提升3.3%,檢測(cè)精度可達(dá)60.5%,每幀點(diǎn)云檢測(cè)耗時(shí)為35 ms.
根據(jù)距離劃分了不同的檢測(cè)范圍,在IOU為50%的情況下以平均精度為評(píng)價(jià)指標(biāo),對(duì)本算法與單一傳感器算法做了比較,結(jié)果如表2所示.其中:d1為檢測(cè)距離0~20 m;d2為檢測(cè)距離20~50 m;d3為檢測(cè)距離50~80 m.
表2 不同檢測(cè)距離下的檢測(cè)精度對(duì)比 %
從表2可以看出:本算法在遠(yuǎn)距離范圍(50~80 m)內(nèi)比單一激光雷達(dá)檢測(cè)算法提升5.7%,比單一相機(jī)檢測(cè)算法提升2.3%.
部分試驗(yàn)場(chǎng)景的檢測(cè)效果如圖6-8所示.
圖6 場(chǎng)景1的檢測(cè)效果圖
圖7 場(chǎng)景2的檢測(cè)效果圖
圖8 場(chǎng)景3的檢測(cè)效果圖
將上面設(shè)計(jì)的檢測(cè)算法移植入實(shí)車平臺(tái),實(shí)車試驗(yàn)和激光雷達(dá)安裝平臺(tái)如圖9所示.
圖9 實(shí)車試驗(yàn)和激光雷達(dá)安裝平臺(tái)
實(shí)車平臺(tái)配置如下:工控機(jī)(顯卡2080Ti);速騰P3激光雷達(dá)系統(tǒng);德爾福毫米波雷達(dá)系統(tǒng).
實(shí)車軟件平臺(tái)為ROS系統(tǒng)(kinetic版本),算法語言為python.ROS系統(tǒng)的核心是一個(gè)分布式、低耦合的通訊機(jī)制,具有底層通信架構(gòu)完善、模塊化管理靈活和生態(tài)系統(tǒng)龐大的特點(diǎn).將車輛檢測(cè)模型移植入ROS系統(tǒng),將底層激光雷達(dá)和毫米波雷達(dá)程序發(fā)布的消息傳入自定義程序節(jié)點(diǎn),再根據(jù)車輛檢測(cè)模塊對(duì)數(shù)據(jù)進(jìn)行推理,最終實(shí)時(shí)發(fā)布檢測(cè)結(jié)果,并通過ROS系統(tǒng)的可視化組件RVIZ可視化檢測(cè)結(jié)果,最終檢測(cè)效果如圖10所示.其中,白色為標(biāo)定后的毫米波雷達(dá)數(shù)據(jù).由于毫米波雷達(dá)視場(chǎng)角較小,故對(duì)于超出視場(chǎng)角的障礙物仍使用單一激光雷達(dá)檢測(cè)算法檢測(cè).
圖10 檢測(cè)效果圖
提出了一種毫米波雷達(dá)與激光雷達(dá)融合的目標(biāo)檢測(cè)算法,該方法將龐大的激光雷達(dá)點(diǎn)云數(shù)據(jù)轉(zhuǎn)化為鳥瞰圖形式,設(shè)計(jì)了改進(jìn)的特征金字塔結(jié)構(gòu),其結(jié)合了低層特征圖目標(biāo)定位準(zhǔn)確和高層特征圖語義信息豐富的優(yōu)勢(shì),加入毫米波雷達(dá)數(shù)據(jù)點(diǎn)完成對(duì)目標(biāo)的感興趣區(qū)域提取;最后使用分類回歸網(wǎng)絡(luò)將感興趣區(qū)域特征細(xì)?;癁?D目標(biāo)框完成檢測(cè)任務(wù).在離線數(shù)據(jù)集和實(shí)車試驗(yàn)上,該網(wǎng)絡(luò)在保證檢測(cè)精度的前提下,檢測(cè)速度可滿足智能駕駛車輛對(duì)實(shí)時(shí)性的要求,具有實(shí)用價(jià)值.