陸慧敏, 楊 朔
(九州工業(yè)大學(xué)工學(xué)府, 福岡 804-8550, 日本)
近年來,隨著對人工智能技術(shù)的深入研究和激光雷達(dá)相機(jī)的廣泛應(yīng)用,針對點云數(shù)據(jù)的三維目標(biāo)檢測方法成為機(jī)器人控制技術(shù)和自動駕駛領(lǐng)域的研究熱點問題之一. 與普通相機(jī)拍攝的二維圖像相比,點云數(shù)據(jù)包含物體的深度與幾何信息,不僅可以幫助檢測類別和定位,還以有效給出物體的三維空間信息. 因此,在自動駕駛和機(jī)器人抓取等任務(wù)中,針對點云數(shù)據(jù)的三維目標(biāo)檢測方法是解決問題的關(guān)鍵[1-2]. 圖1展示了自動駕駛場景與場景點云數(shù)據(jù).
圖1 自動駕駛場景與三維點云數(shù)據(jù)示例Fig.1 Example for 3D point cloud and autonomous driving
在實際的應(yīng)用中,點云數(shù)據(jù)處理也面臨著大量問題,例如點云的稀疏性、無序性和數(shù)據(jù)處理量較大等. 傳統(tǒng)的檢測方法,如時間空間聚類和分類方法,在數(shù)據(jù)量和場景復(fù)雜度增加條件下,模型處理的點云數(shù)據(jù)量有限,且無法完成正常的運(yùn)行,也難以實現(xiàn)準(zhǔn)確的定位和分類. 因此,處理實際場景的點云數(shù)據(jù)實現(xiàn)物體檢測是一個具有挑戰(zhàn)性的問題.
隨著深度學(xué)習(xí)理論在二維檢測方法精度與速度上的突破,許多基于二維圖像的檢測方法被應(yīng)用在點云數(shù)據(jù)處理上,以實現(xiàn)三維目標(biāo)檢測. 這類方法采用基于學(xué)習(xí)的方式,構(gòu)造深度神經(jīng)網(wǎng)絡(luò)從原始點云中提取三維目標(biāo)特征,并采用區(qū)域生成方法實現(xiàn)三維目標(biāo)的分類與位置框定位. 典型的方法有基于體素轉(zhuǎn)換的方法[3]和基于點云學(xué)習(xí)的方法[4].
基于體素轉(zhuǎn)換的方法是將離散點云在三維空間中進(jìn)行體素化處理,構(gòu)造出規(guī)則的空間矩陣向量,經(jīng)過轉(zhuǎn)換后的數(shù)據(jù)可以應(yīng)用三維卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取. 其優(yōu)點在于構(gòu)造出全局特征可以有效提高分類和位置定位精度,問題在于轉(zhuǎn)換過程中會產(chǎn)生局部特征細(xì)節(jié)的損失. 基于點云學(xué)習(xí)的方法是通過構(gòu)造多層感知機(jī)網(wǎng)絡(luò),實現(xiàn)將點云直接輸入進(jìn)行學(xué)習(xí),并構(gòu)造出目標(biāo)特征. 其優(yōu)點在于點云之間的特征關(guān)系更加細(xì)化,對于局部特征可以有效抽出,問題在于輸入數(shù)據(jù)量會影響網(wǎng)絡(luò)處理速度,難以應(yīng)用到實際計算設(shè)備.
所以,本文針對上述方法問題,提出基于深度神經(jīng)網(wǎng)絡(luò)的自動駕駛場景三維目標(biāo)檢測算法. 通過將基于體素化卷積的特征提取網(wǎng)絡(luò)與點云學(xué)習(xí)網(wǎng)絡(luò)模型進(jìn)行特征融合,提高對三維點云目標(biāo)的表征能力,并采用基于候選區(qū)域生成的檢測框架完成對三維目標(biāo)的檢測任務(wù). 本文總體內(nèi)容可以總結(jié)如下.
1) 建立一個全新的基于三維點云的特征提取網(wǎng)絡(luò)模型,利用體素化卷積網(wǎng)絡(luò)完成全局特征的提取與表征,并使用點云學(xué)習(xí)網(wǎng)絡(luò)完成局部特征提取,融合2類特征以實現(xiàn)建立更優(yōu)的三維目標(biāo)特征模型.
2) 建立基于候選區(qū)域生成的檢測框架,利用K-means聚類方法從數(shù)據(jù)中計算候選框尺寸和數(shù)量,通過兩階段方式對候選區(qū)域進(jìn)行篩選和位置回歸,完成最終的分類與定位任務(wù). 通過實驗驗證,這種方法可以有效減少無效候選區(qū)域數(shù)量,并提高訓(xùn)練效率.
3) 更加優(yōu)化的數(shù)據(jù)訓(xùn)練方法,利用預(yù)訓(xùn)練模型策略和數(shù)據(jù)增廣方法(包括幾何變換與加噪),優(yōu)化三維目標(biāo)檢測的網(wǎng)絡(luò)訓(xùn)練過程.
由于軟件和硬件發(fā)展瓶頸的問題,自動駕駛場景中的三維目標(biāo)檢測算法很大程度上借鑒于二維目標(biāo)檢測算法. 傳統(tǒng)的檢測方法受限于模型泛化性和數(shù)據(jù)處理量有限的問題. 基于深度學(xué)習(xí)的二維目標(biāo)檢測方法研究已經(jīng)非常成熟,例如Faster R-CNN[5]、YOLO算法[6]等,均已被應(yīng)用到工業(yè)級的檢測中. 三維目標(biāo)檢測算法則借鑒了這2類經(jīng)典的二維檢測框架,隨著研究的深入,從最初利用多幅二維圖像進(jìn)行三維物體預(yù)測,到利用二維圖像和深度圖,再到利用點云數(shù)據(jù)直接完成物體位置和類別預(yù)測. 相比于二維圖像和深度圖像,點云對于三維物體的形狀和空間位置信息具有更好的刻畫. 因此,點云數(shù)據(jù)的處理與表征,是解決自動駕駛場景三維目標(biāo)檢測問題的關(guān)鍵研究內(nèi)容.
基于點云數(shù)據(jù)的三維目標(biāo)檢測任務(wù),在自動駕駛場景中的具體實現(xiàn)為:算法需要在三維點云數(shù)據(jù)上,建立目標(biāo)的特征模型,進(jìn)而確定目標(biāo)在場景中的位置(通常為三維矩形框區(qū)域)和語義類別. 根據(jù)不同方法所使用的特征區(qū)域不同,可以將目標(biāo)檢測任務(wù)劃分為2類:基于全局特征的目標(biāo)分類與姿態(tài)估計[7-9]和基于局部特征的目標(biāo)分類與姿態(tài)估計[10-12]. 兩者最大的區(qū)別在于,全局特征來自于點云對應(yīng)二維映射圖像或三維空間深度圖像,局部特征來自于局部點云與點云之間的距離特征關(guān)系.
針對全局特征的三維目標(biāo)檢測算法研究,是早期深度學(xué)習(xí)三維目標(biāo)檢測研究的重點方向,其解決了點云處理和直觀二維圖像的映射問題,例如基于體素化的方法和基于多視圖的方法. VoxelNet[13]是一個基于點云體素化的卷積神經(jīng)網(wǎng)絡(luò). 該模型利用體素化方法,使點云可以利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,并結(jié)合檢測框架進(jìn)行位置預(yù)測和類別估計. 對于多視圖的方法,如MV3D[14]使用點云和鳥瞰圖作為輸入.
在三維目標(biāo)檢測中,鳥瞰圖比前視圖/圖像平面有以下優(yōu)勢. 首先,物體在投射到鳥瞰圖時保持物理尺寸,因此有小的尺寸變化,這在前視圖/圖像平面不是這樣的情況. 其次,鳥瞰圖中的物體占據(jù)不同的空間,從而避免遮擋問題. 該方法用緊湊的多視圖表示對稀疏的三維點云進(jìn)行編碼,該網(wǎng)絡(luò)從三維點云的鳥瞰圖表示中生成三維候選框從而進(jìn)行目標(biāo)檢測. 但是,這2類模型的問題在于點云體素化或鳥瞰圖生成過程中,存在特征信息的丟失,影響網(wǎng)絡(luò)對尺寸較小物體的特征提取. 同時,模型依賴于人工設(shè)定的體素化和二維轉(zhuǎn)換采樣的體積和尺寸大小,易造成細(xì)節(jié)信息的損失,影響物體位置的估計[15].
針對局部特征的分類與姿態(tài)估計算法研究,是近年來三維目標(biāo)檢測任務(wù)探索的熱點方向[16]. 該類方法通過更加細(xì)化的局部點特征,估計目標(biāo)在三維空間中的位置,并且其不再使用復(fù)雜的多次數(shù)據(jù)處理操作,整體方法更加簡潔. 如PointNet++網(wǎng)絡(luò)[17]先將點云在空間上對齊,再通過多層感知機(jī)將其映射到高維的空間上. 這時對于每一個點,都有一個1 024維的向量表征,而這樣的向量表征對于一個三維的點云明顯是冗余的,因此這個時候引入最大池化操作(即對稱函數(shù),不改變點云的排列不變性),得到點云的局部關(guān)系,最后使用全連接層輸出預(yù)測結(jié)果. 但是,該類方法主要構(gòu)造局部點之間距離關(guān)系特征,忽略了目標(biāo)在空間中表現(xiàn)的紋理等特征信息,因此,總體的預(yù)測精度仍然難以滿足當(dāng)前的自動駕駛場景三維目標(biāo)檢測任務(wù)需求.
所以,本文將當(dāng)前的2類特征提取方法進(jìn)行有效結(jié)合,構(gòu)造一個統(tǒng)一的端到端檢測網(wǎng)絡(luò)實現(xiàn)自動駕駛場景目標(biāo)檢測任務(wù). 通過相關(guān)研究分析,這也是未來三維目標(biāo)檢測算法研究的重要方向.
主要介紹本文所提出的基于深度神經(jīng)網(wǎng)絡(luò)的三維目標(biāo)檢測算法模型結(jié)構(gòu). 本文為解決三維點云數(shù)據(jù)的表征問題,設(shè)計了一個將全局特征與局部特征融合的多模型表征網(wǎng)絡(luò). 該模型總體結(jié)構(gòu)可以分為3個部分:全局特征抽取與表征模型、局部特征抽取與表征模型和檢測模型. 本文算法的總體模型結(jié)構(gòu)如圖2所示.
1) 全局特征抽取模型,其主體結(jié)構(gòu)為體素化處理部分與三維卷積神經(jīng)網(wǎng)絡(luò). 為了提取三維目標(biāo)的語義特征以及上下文信息,三維卷積網(wǎng)絡(luò)可以提供更好的語義信息表達(dá),并且可用于候選區(qū)域框的生成. 但是,由于點云數(shù)據(jù)的離散特點,造成卷積網(wǎng)絡(luò)無法直接進(jìn)行計算. 因此,通過對點云進(jìn)行體素化處理,生成有規(guī)則的矩陣張量,再利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行全局特征抽取.
在分析當(dāng)前的三維卷積神經(jīng)網(wǎng)絡(luò)時,發(fā)現(xiàn)僅使用下采樣卷積,所獲得的特征圖對后續(xù)的檢測精度和分類精度都較低,特別是對于遠(yuǎn)處的小物體車輛難以檢出. 因此,本文提出基于跨層特征融合的三維卷積神經(jīng)網(wǎng)絡(luò),以提高特征提取網(wǎng)絡(luò)的表征穩(wěn)定性.
網(wǎng)絡(luò)均使用3×3卷積核為主體,由5層下采樣卷積與4層上采樣卷積構(gòu)成,其中上采樣卷積將淺層特征圖分別以2、4和8倍的尺寸進(jìn)行特征融合,融合方式為同一感受野特征圖上進(jìn)行通道組合的方式完成. 本文的全局特征提取網(wǎng)絡(luò)不僅通過加深網(wǎng)絡(luò)來改善語義分類錯誤,而且通過特征融合來提取細(xì)粒度特征改善對遠(yuǎn)處小物體車輛的檢測能力. 同時,最后大尺度的特征圖輸出可以給出更多候選區(qū)域框.
圖2 基于深度神經(jīng)網(wǎng)絡(luò)的自動駕駛場景三維目標(biāo)檢測算法模型結(jié)構(gòu)Fig.2 Module of 3D object detection algorithm for automatic driving based on deep neural networks
2) 局部特征抽取模型,其主體結(jié)構(gòu)為最遠(yuǎn)點采樣模塊和點云學(xué)習(xí)網(wǎng)絡(luò). 通常輸入點云的數(shù)量較為龐大,需要進(jìn)行一定的預(yù)處理,減少后續(xù)網(wǎng)絡(luò)冗余計算,因此,本文采用最遠(yuǎn)點采樣方法,對原始點云數(shù)據(jù)進(jìn)行有效的點數(shù)量篩減,降低網(wǎng)絡(luò)計算的內(nèi)存與運(yùn)算量. 點云學(xué)習(xí)網(wǎng)絡(luò)由多層感知機(jī)構(gòu)成,用于計算點云之間距離等關(guān)系的特征計算與抽取. 相比于卷積神經(jīng)網(wǎng)絡(luò),其在提取點云之間細(xì)節(jié)信息具有更好的表征能力. 因此,本文使用該模型對三維目標(biāo)的局部特征進(jìn)行抽取,并將其作為全局特征的細(xì)節(jié)信息補(bǔ)充.
為了與全局特征抽取模型進(jìn)行特征區(qū)域的對應(yīng),本文實現(xiàn)了卷積區(qū)域與點云學(xué)習(xí)網(wǎng)絡(luò)之間的對應(yīng)映射,以在后續(xù)進(jìn)行特征融合時,實現(xiàn)關(guān)鍵點特征可以有效放入正確的感受野區(qū)域,保證局部關(guān)鍵點特征有效補(bǔ)充全局特征.
3) 檢測模型,本文基于經(jīng)典兩階段檢測算法Faster R-CNN思想[5],構(gòu)造檢測框架. 但是,本文模型僅完成一次分類和候選框回歸計算,以提高整體模型的速度. 在檢測模型中,其主要完成特征模型融合、候選區(qū)域生成和分類與候選框回歸計算. 首先,對于特征模型融合,主要以第1部分全局特征抽取模型提供的特征圖為主體,將第2部分局部特征抽取模型的局部關(guān)鍵點特征與其進(jìn)行結(jié)合,通過映射相同感受野位置,將局部關(guān)鍵點特征融入全局特征中. 其次,通過前期對數(shù)據(jù)真值標(biāo)注框進(jìn)行統(tǒng)計,用K-means聚類方法設(shè)計候選框的寬高,并在融合的特征圖上進(jìn)行候選框生成. 通過設(shè)置真值與預(yù)測值的重疊比率,進(jìn)行有效的包圍框篩選. 最后,在得到初步篩選的候選框上,進(jìn)行分類與位置框回歸計算,得到精確的目標(biāo)類別與包圍框.
在對檢測模型的訓(xùn)練策略中,數(shù)據(jù)增廣是提高目標(biāo)分類和定位精度的有效方法. 對于二維檢測算法研究,數(shù)據(jù)增廣技術(shù)相對成熟,例如圖像旋轉(zhuǎn)、幾何變換、噪聲與圖像對比度變換等方法,這些方法均在一定程度上對深度學(xué)習(xí)模型的訓(xùn)練有效幫助,提高模型的魯棒性、訓(xùn)練效率和模型質(zhì)量. 數(shù)據(jù)增廣訓(xùn)練方法也被認(rèn)為是基于深度學(xué)習(xí)檢測算法訓(xùn)練的基本方式.
相比于二維圖像的數(shù)據(jù)增廣,基于點云的三維目標(biāo)檢測方法的數(shù)據(jù)增廣訓(xùn)練則具有一定的技術(shù)復(fù)雜性和難度. 其原因如下.
1) 點云的數(shù)據(jù)格式和特征與二維圖像在空間結(jié)構(gòu)、顏色特征等方面均存在顯著差異.
2) 點云的稀疏性和無序性對使用數(shù)據(jù)增廣訓(xùn)練方法有影響,幾何變換或加噪方法均會改變點云位置和結(jié)構(gòu),反而影響正確的網(wǎng)絡(luò)訓(xùn)練.
3) 可視化點云的方式多樣,不同的可視化方式對于點云z軸計算方式也不同,難以給出坐標(biāo)統(tǒng)一的數(shù)據(jù)增廣方法.
通過對上述問題的分析,本文提出使用在線數(shù)據(jù)增廣的幾何位置變換方法,來實現(xiàn)深度模型訓(xùn)練的數(shù)據(jù)增廣. 在線數(shù)據(jù)增廣,是在模型訓(xùn)練過程中,對輸入數(shù)據(jù)進(jìn)行調(diào)整,實現(xiàn)模型增廣訓(xùn)練.
該方式的優(yōu)點在于不需要占用大量的內(nèi)存,生成的數(shù)據(jù)不會存儲,僅在訓(xùn)練階段中使用,訓(xùn)練后內(nèi)存就會被釋放. 同時,在訓(xùn)練過程中進(jìn)行幾何位置變換,能夠?qū)崿F(xiàn)統(tǒng)一的坐標(biāo)系下實現(xiàn)三維點云目標(biāo)的位置變換,不會產(chǎn)生坐標(biāo)系轉(zhuǎn)換問題,更容易完成三維目標(biāo)檢測模型的訓(xùn)練操作. 此外,本文的數(shù)據(jù)增廣策略為端到端方式,不額外占用存儲空間,訓(xùn)練效率提升,也提高深度模型的應(yīng)用價值.
在三維目標(biāo)檢測中共需要完成2個任務(wù),目標(biāo)語義分類和三維包圍框定位. 因此,基于深度學(xué)習(xí)理論,使用多任務(wù)損失函數(shù)作為訓(xùn)練目標(biāo)函數(shù). 其中,對于語義分類部分,仍然采樣分類精度較好的Softmax交叉熵?fù)p失函數(shù)Lcls;對于包圍框的預(yù)測部分,為了減少計算量和維度,使用平滑的L1損失函數(shù)作為三維包圍框的回歸計算函數(shù)Lreg. 所以,本文多任務(wù)損失函數(shù)Lloss可以表示為
(1)
式中:y*、y分別為預(yù)測結(jié)果與真實值;Npos為正樣本數(shù)據(jù)量;三維包圍框的參數(shù)為(x,y,z,l,w,h,θ),其中,x、y、z為三維包圍框的中心坐標(biāo),l、w、h分別為三維包圍框的長度、寬度和高度,θ為三維包圍框在x、y平面中的旋轉(zhuǎn)角度.
此外,為了更加平衡回歸與分類任務(wù)學(xué)習(xí)偏差,本文使用α參數(shù)去自適應(yīng)調(diào)整模型訓(xùn)練過程中對于分類和回歸任務(wù)的學(xué)習(xí)比率.
本文分別在已公開的數(shù)據(jù)庫KITTI 3D目標(biāo)檢測數(shù)據(jù)庫[18]和Waymo 3D數(shù)據(jù)庫[19]上進(jìn)行了模型驗證與方法對比實驗.
KITTI 3D目標(biāo)檢測數(shù)據(jù)庫,由德國卡爾斯魯厄理工學(xué)院在自動駕駛場景中采集完成,數(shù)據(jù)集包含二維圖片和雷達(dá)點云三維數(shù)據(jù),該數(shù)據(jù)庫的三維目標(biāo)檢測部分共包含7 481個訓(xùn)練數(shù)據(jù)和7 518個測試數(shù)據(jù),分別屬于10個類別. 本文共對2個類別進(jìn)行了更加詳細(xì)的模型分析,分別為汽車和自行車,主要原因該2個類別在數(shù)據(jù)集的占比超過80%.
Waymo 3D數(shù)據(jù)庫由自動駕駛公司W(wǎng)aymo公布,整個數(shù)據(jù)集包含1 150個場景,每個場景均包含雷達(dá)點云數(shù)據(jù)和二維數(shù)據(jù)同步采集,整個數(shù)據(jù)庫包含約1 200萬個三維包圍框和二維包圍框. 根據(jù)其數(shù)據(jù)劃分,共分為1 000個場景為訓(xùn)練集、150個場景為測試集.
本文將在這2個公開數(shù)據(jù)庫上完成模型驗證,并選擇同樣使用點云數(shù)據(jù)作為唯一輸入的相關(guān)深度學(xué)習(xí)檢測方法作為對比方法. 由于許多檢測模型并未同時給出在2個數(shù)據(jù)集上的驗證結(jié)果,因此分別選取5個方法進(jìn)行模型對比實驗. 在KITTI數(shù)據(jù)庫上,本文選取的5個對比方法包括SECOND方法[20]、PointPillars方法[21]、Fast Point-RCNN方法[22]、Part-A2方法[23]和PV-RCNN方法[16]. 在Waymo數(shù)據(jù)庫上,本文選取的5個對比方法包括PointPillars方法[21]、MVF方法[24]、Pallar-OD方法[25]、PV-RCNN方法[16]、CenterPoint-Voxel方法[26]. 所有對比方法均為目前精度較好的方法.
在實驗環(huán)境中,本文所有實驗均在內(nèi)存125 GB、處理器為Intel Core i9-9940X的計算服務(wù)器中完成. 該服務(wù)器包含1塊型號為NVIDIA RTX2080 12GB的GPU.
本文按照二維目標(biāo)檢測算法評價精度的方法多類均值精度(mean average precision,mAP),將其應(yīng)用在評價三維目標(biāo)檢測算法. mAP方法為多類均值精度,對于單類均值精度(average precision,AP),其計算為precision查準(zhǔn)率和recall查全率構(gòu)成的曲線線下面積值. 因此,查準(zhǔn)率和查全率分別為
(2)
(3)
式中:TP(true positive)為真陽性,即對真值預(yù)測正確的結(jié)果;FP(false positive)為假陽性,對真值預(yù)測錯誤的結(jié)果;FN(false negative)為假陰性,對真值未能預(yù)測出來的結(jié)果.
相比于二維目標(biāo)檢測評價,在三維目標(biāo)檢測評價時,需要計算真值與預(yù)測包圍框的重疊比(intersection-over-union,IOU),即在三維空間中的包圍框進(jìn)行交并比計算. 通過設(shè)置該閾值結(jié)果,來調(diào)整AP與mAP的計算. 通常IOU閾值設(shè)置為0.5.
首先,本文模型與其他5個對比模型在KITTI測試集上的精度對比結(jié)果如表1所示. 本文在7 518幅測試數(shù)據(jù)集上進(jìn)行了定量結(jié)果輸出.
從表1中可知,在僅使用LiDAR點云數(shù)據(jù)作為輸入的條件下,本文模型的總體精度高于當(dāng)前主流的5類檢測模型,mAP值達(dá)到94.33%,相比于最優(yōu)精度模型PV-RCNN提升4.15%.
表1 KITTI 3D檢測數(shù)據(jù)庫模型對比實驗結(jié)果(1)
為了更加詳細(xì)地對比模型精度與模型速度,本文在汽車和自行車2個類別上進(jìn)行了AP與模型檢測速度的對比實驗,并選用數(shù)據(jù)庫提供的不同難度的數(shù)據(jù)進(jìn)行了模型對比實驗,如表2所示.
從表2中可知,本文模型方法在三維目標(biāo)檢測的精度與速度方面均優(yōu)于當(dāng)前主流的檢測模型,同時,本文模型更容易應(yīng)對場景更為簡單的目標(biāo)檢測任務(wù). 對于汽車類別,本文模型在3個不同的測試難度(簡單、中等和困難難度)上,相比于當(dāng)前最優(yōu)檢測模型分別提升4.24%、0.67%和0.19%的精度. 同時,在運(yùn)行速度上也取得一定的改進(jìn),單張圖像處理時間提升1 s. 對于尺寸更小的自行車類別,本文模型在3個不同測試難度上也取得一定的提升,總體模型在簡單、中等和困難難度的提升精度分別為1.38%、0.43%和0.59%. 但是,模型總體精度提升有限,特別是在中等和困難場景提升較小. 主要原因在于自行車類相比于汽車類,其圖占比更小,總體尺寸較小,且存在類別不平衡問題. 因此,在后續(xù)的小尺寸三維目標(biāo)研究中仍需對模型進(jìn)行進(jìn)一步改進(jìn).
表2 KITTI 3D檢測數(shù)據(jù)庫模型對比實驗結(jié)果(2)
首先驗證本文模型與對比方法在總體4個類別(車輛、行人、騎行者和指示牌)上的mAP. 本文依據(jù)數(shù)據(jù)集提供的150個測試場景,分幀得到測試集數(shù)據(jù)庫. 本文模型與對比方法在Waymo測試數(shù)據(jù)庫所有類別上的定量精度結(jié)果如表3所示.
從表3中可知,在仍然僅使用LiDAR點云數(shù)據(jù)為唯一輸入條件下,本文模型的總體mAP為58.9%,相比于其他模型,本文模型精度高于其他對比方法,總體提升0.3%. 由于Waymo數(shù)據(jù)集的場景復(fù)雜度較高,其中包含雨、雪等惡劣天氣條件,造成整體三維目標(biāo)檢測精度相比于KITTI數(shù)據(jù)集較低. 因此,在后續(xù)的研究中,仍然可以在模型上進(jìn)行改進(jìn),以應(yīng)對惡劣天氣條件的三維目標(biāo)檢測任務(wù). 為了進(jìn)一步對比模型檢測效果,仍然在Waymo數(shù)據(jù)庫上選取了2個類別(車輛和行人)進(jìn)行AP精度與檢測速度的對比實驗,如表4所示.
表3 Waymo檢測數(shù)據(jù)庫模型對比實驗結(jié)果(1)
從表4的結(jié)果可知,在車輛和行人2個類目標(biāo)的檢測精度上,相比于主流檢測框架,本文模型方法的總體精度更高,并且在速度上具有一定的優(yōu)勢. 對于車輛類別,相比于5個對比方法,本文模型精度提升1.2%. 可見,在更為復(fù)雜和規(guī)模更大的數(shù)據(jù)集上,對于尺寸較大車輛目標(biāo),本文模型仍然具有一定的魯棒性. 同時,在模型檢測速度上,也取得0.3 s的速度提升,可見模型融合并未帶來運(yùn)行速度降低,并且特征提取的并行方式,也帶來計算速度的提升. 對于行人類別,其依然具有小尺寸目標(biāo)的特點,總體圖占比較小,且行為變化更加多樣,在惡劣天氣環(huán)境下更難以有效檢測. 在檢測精度上,本文對行人類別實現(xiàn)0.4%的精度提升.
表4 Waymo檢測數(shù)據(jù)庫模型對比實驗結(jié)果(2)
通過在2個數(shù)據(jù)庫上的檢測結(jié)果,本文模型總體檢測精度具有一定的優(yōu)勢,并且在數(shù)量占比較大的類別上取得更好的檢測結(jié)果. 對于數(shù)量占比較小和尺寸較小的物體類別,本文模型可以保持一定的精度,但是仍然進(jìn)一步提升的空間. 因此,定量實驗結(jié)果證明本文檢測模型的魯棒性、精度與速度的平衡性.
為了進(jìn)一步驗證本文模型4個改進(jìn)方法的效果,探究所使用的不同改進(jìn)方案對檢測精度的提升效果,決定進(jìn)行模型消融實驗. 由于本文提出多個針對檢測模型的改進(jìn)方案,通過在數(shù)據(jù)集上的結(jié)果顯示,已證明精度提升效果. 但是,無法確認(rèn)不同改進(jìn)方案對模型精度的提升效果. 因此,利用控制變量方式,改進(jìn)方案逐步增加的驗證方法,探究改進(jìn)方法對模型精度的提升效果.
本文重要的改進(jìn)方法為:全局特征抽取模型、局部特征抽取模型、數(shù)據(jù)增廣與多任務(wù)損失函數(shù). 由于全局特征抽取模型是本文主干網(wǎng)絡(luò)模型,因此以該模型作為基礎(chǔ),逐步將其他3個改進(jìn)方案放入到模型中,進(jìn)行檢測精度驗證,進(jìn)而完成整個消融實驗過程. 本文使用mAP指標(biāo)作為精度衡量標(biāo)準(zhǔn),同時,使用KITTI 3D數(shù)據(jù)庫的測試集作為消融實驗的驗證數(shù)據(jù)集.
對于這4種改進(jìn)方法對檢測精度的影響效果,具體結(jié)果如表5所示.
表5 改進(jìn)方法的消融實驗
從表5中可以看出,增加局部特征抽取模型、數(shù)據(jù)增廣方案與多任務(wù)損失函數(shù)均可以對模型精度進(jìn)行有效提升. 根據(jù)實驗結(jié)果可知,融合全局特征抽取模型與局部特征抽取模型,更有助于對于三維點云目標(biāo)的檢測效果,其提升精度為1.79%;使用數(shù)據(jù)增廣與多任務(wù)損失函數(shù)對于模型精度提升效果有限,分別提升0.68%與0.28%. 通過消融實驗,可以看出數(shù)據(jù)增廣與損失函數(shù)修改對于三維目標(biāo)檢測方案提升效果有限,因此在之后的探究中,可以進(jìn)行進(jìn)一步的拓展與改進(jìn). 目前,更好地建立并抽取三維目標(biāo)特征,仍然是未來提升模型檢測精度的重要研究方向.
針對自動駕駛場景的三維目標(biāo)檢測任務(wù),本文提出基于深度神經(jīng)網(wǎng)絡(luò)的三維目標(biāo)檢測算法,以三維點云數(shù)據(jù)作為研究對象,構(gòu)造全局特征與局部點云特征相結(jié)合的特征提取網(wǎng)絡(luò),并利用候選框區(qū)域生成方式,完成對目標(biāo)語義類別和位置定位的任務(wù). 通過在KITTI 3D數(shù)據(jù)庫和Waymo數(shù)據(jù)庫上的驗證實驗,可以得到如下結(jié)論.
1) 與主流的基于深度神經(jīng)網(wǎng)絡(luò)的三維目標(biāo)檢測框架相比,本文模型在檢測精度與檢測速度上均具有一定的優(yōu)勢.
2) 在復(fù)雜、惡劣的天氣環(huán)境中,對于三維目標(biāo)檢測任務(wù),相比于其他方法,本文模型仍然具有一定的精度和速度優(yōu)勢.
3) 對于三維點云數(shù)據(jù),構(gòu)造一個將全局特征與局部特征相結(jié)合的特征提取網(wǎng)絡(luò),更能有效地提升檢測模型的分類與定位能力.
當(dāng)然,本文仍然也存在一定的問題,面對物體尺寸較小的類別時,模型的精度呈現(xiàn)下降. 同時,本文模型在檢測速度上仍有一定的提升空間,當(dāng)前模型檢測速度仍未能達(dá)到可以進(jìn)行實時檢測的目標(biāo). 因此,本文將在未來對小尺寸物體的三維實時檢測任務(wù)進(jìn)行更加深入的研究.