基于深度神經(jīng)網(wǎng)絡(luò)的自動駕駛場景三維目標(biāo)檢測算法

2022-06-12 05:58陸慧敏

北京工業(yè)大學(xué)學(xué)報 2022年6期

陸慧敏，楊朔

(九州工業(yè)大學(xué)工學(xué)府，福岡 804-8550，日本)

近年來，隨著對人工智能技術(shù)的深入研究和激光雷達(dá)相機(jī)的廣泛應(yīng)用，針對點云數(shù)據(jù)的三維目標(biāo)檢測方法成為機(jī)器人控制技術(shù)和自動駕駛領(lǐng)域的研究熱點問題之一. 與普通相機(jī)拍攝的二維圖像相比，點云數(shù)據(jù)包含物體的深度與幾何信息，不僅可以幫助檢測類別和定位，還以有效給出物體的三維空間信息. 因此，在自動駕駛和機(jī)器人抓取等任務(wù)中，針對點云數(shù)據(jù)的三維目標(biāo)檢測方法是解決問題的關(guān)鍵[1-2]. 圖1展示了自動駕駛場景與場景點云數(shù)據(jù).

圖1 自動駕駛場景與三維點云數(shù)據(jù)示例Fig.1 Example for 3D point cloud and autonomous driving

在實際的應(yīng)用中，點云數(shù)據(jù)處理也面臨著大量問題，例如點云的稀疏性、無序性和數(shù)據(jù)處理量較大等. 傳統(tǒng)的檢測方法，如時間空間聚類和分類方法，在數(shù)據(jù)量和場景復(fù)雜度增加條件下，模型處理的點云數(shù)據(jù)量有限，且無法完成正常的運(yùn)行，也難以實現(xiàn)準(zhǔn)確的定位和分類. 因此，處理實際場景的點云數(shù)據(jù)實現(xiàn)物體檢測是一個具有挑戰(zhàn)性的問題.

隨著深度學(xué)習(xí)理論在二維檢測方法精度與速度上的突破，許多基于二維圖像的檢測方法被應(yīng)用在點云數(shù)據(jù)處理上，以實現(xiàn)三維目標(biāo)檢測. 這類方法采用基于學(xué)習(xí)的方式，構(gòu)造深度神經(jīng)網(wǎng)絡(luò)從原始點云中提取三維目標(biāo)特征，并采用區(qū)域生成方法實現(xiàn)三維目標(biāo)的分類與位置框定位. 典型的方法有基于體素轉(zhuǎn)換的方法[3]和基于點云學(xué)習(xí)的方法[4].

基于體素轉(zhuǎn)換的方法是將離散點云在三維空間中進(jìn)行體素化處理，構(gòu)造出規(guī)則的空間矩陣向量，經(jīng)過轉(zhuǎn)換后的數(shù)據(jù)可以應(yīng)用三維卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取. 其優(yōu)點在于構(gòu)造出全局特征可以有效提高分類和位置定位精度，問題在于轉(zhuǎn)換過程中會產(chǎn)生局部特征細(xì)節(jié)的損失. 基于點云學(xué)習(xí)的方法是通過構(gòu)造多層感知機(jī)網(wǎng)絡(luò)，實現(xiàn)將點云直接輸入進(jìn)行學(xué)習(xí)，并構(gòu)造出目標(biāo)特征. 其優(yōu)點在于點云之間的特征關(guān)系更加細(xì)化，對于局部特征可以有效抽出，問題在于輸入數(shù)據(jù)量會影響網(wǎng)絡(luò)處理速度，難以應(yīng)用到實際計算設(shè)備.

所以，本文針對上述方法問題，提出基于深度神經(jīng)網(wǎng)絡(luò)的自動駕駛場景三維目標(biāo)檢測算法. 通過將基于體素化卷積的特征提取網(wǎng)絡(luò)與點云學(xué)習(xí)網(wǎng)絡(luò)模型進(jìn)行特征融合，提高對三維點云目標(biāo)的表征能力，并采用基于候選區(qū)域生成的檢測框架完成對三維目標(biāo)的檢測任務(wù). 本文總體內(nèi)容可以總結(jié)如下.

1) 建立一個全新的基于三維點云的特征提取網(wǎng)絡(luò)模型，利用體素化卷積網(wǎng)絡(luò)完成全局特征的提取與表征，并使用點云學(xué)習(xí)網(wǎng)絡(luò)完成局部特征提取，融合2類特征以實現(xiàn)建立更優(yōu)的三維目標(biāo)特征模型.

2) 建立基于候選區(qū)域生成的檢測框架，利用K-means聚類方法從數(shù)據(jù)中計算候選框尺寸和數(shù)量，通過兩階段方式對候選區(qū)域進(jìn)行篩選和位置回歸，完成最終的分類與定位任務(wù). 通過實驗驗證，這種方法可以有效減少無效候選區(qū)域數(shù)量，并提高訓(xùn)練效率.

3) 更加優(yōu)化的數(shù)據(jù)訓(xùn)練方法，利用預(yù)訓(xùn)練模型策略和數(shù)據(jù)增廣方法(包括幾何變換與加噪)，優(yōu)化三維目標(biāo)檢測的網(wǎng)絡(luò)訓(xùn)練過程.

1 相關(guān)研究

由于軟件和硬件發(fā)展瓶頸的問題，自動駕駛場景中的三維目標(biāo)檢測算法很大程度上借鑒于二維目標(biāo)檢測算法. 傳統(tǒng)的檢測方法受限于模型泛化性和數(shù)據(jù)處理量有限的問題. 基于深度學(xué)習(xí)的二維目標(biāo)檢測方法研究已經(jīng)非常成熟，例如Faster R-CNN[5]、YOLO算法[6]等，均已被應(yīng)用到工業(yè)級的檢測中. 三維目標(biāo)檢測算法則借鑒了這2類經(jīng)典的二維檢測框架，隨著研究的深入，從最初利用多幅二維圖像進(jìn)行三維物體預(yù)測，到利用二維圖像和深度圖，再到利用點云數(shù)據(jù)直接完成物體位置和類別預(yù)測. 相比于二維圖像和深度圖像，點云對于三維物體的形狀和空間位置信息具有更好的刻畫. 因此，點云數(shù)據(jù)的處理與表征，是解決自動駕駛場景三維目標(biāo)檢測問題的關(guān)鍵研究內(nèi)容.

基于點云數(shù)據(jù)的三維目標(biāo)檢測任務(wù)，在自動駕駛場景中的具體實現(xiàn)為：算法需要在三維點云數(shù)據(jù)上，建立目標(biāo)的特征模型，進(jìn)而確定目標(biāo)在場景中的位置(通常為三維矩形框區(qū)域)和語義類別. 根據(jù)不同方法所使用的特征區(qū)域不同，可以將目標(biāo)檢測任務(wù)劃分為2類：基于全局特征的目標(biāo)分類與姿態(tài)估計[7-9]和基于局部特征的目標(biāo)分類與姿態(tài)估計[10-12]. 兩者最大的區(qū)別在于，全局特征來自于點云對應(yīng)二維映射圖像或三維空間深度圖像，局部特征來自于局部點云與點云之間的距離特征關(guān)系.

針對全局特征的三維目標(biāo)檢測算法研究，是早期深度學(xué)習(xí)三維目標(biāo)檢測研究的重點方向，其解決了點云處理和直觀二維圖像的映射問題，例如基于體素化的方法和基于多視圖的方法. VoxelNet[13]是一個基于點云體素化的卷積神經(jīng)網(wǎng)絡(luò). 該模型利用體素化方法，使點云可以利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取，并結(jié)合檢測框架進(jìn)行位置預(yù)測和類別估計. 對于多視圖的方法，如MV3D[14]使用點云和鳥瞰圖作為輸入.

在三維目標(biāo)檢測中，鳥瞰圖比前視圖/圖像平面有以下優(yōu)勢. 首先，物體在投射到鳥瞰圖時保持物理尺寸，因此有小的尺寸變化，這在前視圖/圖像平面不是這樣的情況. 其次，鳥瞰圖中的物體占據(jù)不同的空間，從而避免遮擋問題. 該方法用緊湊的多視圖表示對稀疏的三維點云進(jìn)行編碼，該網(wǎng)絡(luò)從三維點云的鳥瞰圖表示中生成三維候選框從而進(jìn)行目標(biāo)檢測. 但是，這2類模型的問題在于點云體素化或鳥瞰圖生成過程中，存在特征信息的丟失，影響網(wǎng)絡(luò)對尺寸較小物體的特征提取. 同時，模型依賴于人工設(shè)定的體素化和二維轉(zhuǎn)換采樣的體積和尺寸大小，易造成細(xì)節(jié)信息的損失，影響物體位置的估計[15].

針對局部特征的分類與姿態(tài)估計算法研究，是近年來三維目標(biāo)檢測任務(wù)探索的熱點方向[16]. 該類方法通過更加細(xì)化的局部點特征，估計目標(biāo)在三維空間中的位置，并且其不再使用復(fù)雜的多次數(shù)據(jù)處理操作，整體方法更加簡潔. 如PointNet++網(wǎng)絡(luò)[17]先將點云在空間上對齊，再通過多層感知機(jī)將其映射到高維的空間上. 這時對于每一個點，都有一個1 024維的向量表征，而這樣的向量表征對于一個三維的點云明顯是冗余的，因此這個時候引入最大池化操作(即對稱函數(shù)，不改變點云的排列不變性)，得到點云的局部關(guān)系，最后使用全連接層輸出預(yù)測結(jié)果. 但是，該類方法主要構(gòu)造局部點之間距離關(guān)系特征，忽略了目標(biāo)在空間中表現(xiàn)的紋理等特征信息，因此，總體的預(yù)測精度仍然難以滿足當(dāng)前的自動駕駛場景三維目標(biāo)檢測任務(wù)需求.

所以，本文將當(dāng)前的2類特征提取方法進(jìn)行有效結(jié)合，構(gòu)造一個統(tǒng)一的端到端檢測網(wǎng)絡(luò)實現(xiàn)自動駕駛場景目標(biāo)檢測任務(wù). 通過相關(guān)研究分析，這也是未來三維目標(biāo)檢測算法研究的重要方向.

2 基于深度神經(jīng)網(wǎng)絡(luò)三維目標(biāo)檢測算法

2.1 模型結(jié)構(gòu)

主要介紹本文所提出的基于深度神經(jīng)網(wǎng)絡(luò)的三維目標(biāo)檢測算法模型結(jié)構(gòu). 本文為解決三維點云數(shù)據(jù)的表征問題，設(shè)計了一個將全局特征與局部特征融合的多模型表征網(wǎng)絡(luò). 該模型總體結(jié)構(gòu)可以分為3個部分：全局特征抽取與表征模型、局部特征抽取與表征模型和檢測模型. 本文算法的總體模型結(jié)構(gòu)如圖2所示.

1) 全局特征抽取模型，其主體結(jié)構(gòu)為體素化處理部分與三維卷積神經(jīng)網(wǎng)絡(luò). 為了提取三維目標(biāo)的語義特征以及上下文信息，三維卷積網(wǎng)絡(luò)可以提供更好的語義信息表達(dá)，并且可用于候選區(qū)域框的生成. 但是，由于點云數(shù)據(jù)的離散特點，造成卷積網(wǎng)絡(luò)無法直接進(jìn)行計算. 因此，通過對點云進(jìn)行體素化處理，生成有規(guī)則的矩陣張量，再利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行全局特征抽取.

在分析當(dāng)前的三維卷積神經(jīng)網(wǎng)絡(luò)時，發(fā)現(xiàn)僅使用下采樣卷積，所獲得的特征圖對后續(xù)的檢測精度和分類精度都較低，特別是對于遠(yuǎn)處的小物體車輛難以檢出. 因此，本文提出基于跨層特征融合的三維卷積神經(jīng)網(wǎng)絡(luò)，以提高特征提取網(wǎng)絡(luò)的表征穩(wěn)定性.

網(wǎng)絡(luò)均使用3×3卷積核為主體，由5層下采樣卷積與4層上采樣卷積構(gòu)成，其中上采樣卷積將淺層特征圖分別以2、4和8倍的尺寸進(jìn)行特征融合，融合方式為同一感受野特征圖上進(jìn)行通道組合的方式完成. 本文的全局特征提取網(wǎng)絡(luò)不僅通過加深網(wǎng)絡(luò)來改善語義分類錯誤，而且通過特征融合來提取細(xì)粒度特征改善對遠(yuǎn)處小物體車輛的檢測能力. 同時，最后大尺度的特征圖輸出可以給出更多候選區(qū)域框.

圖2 基于深度神經(jīng)網(wǎng)絡(luò)的自動駕駛場景三維目標(biāo)檢測算法模型結(jié)構(gòu)Fig.2 Module of 3D object detection algorithm for automatic driving based on deep neural networks

2) 局部特征抽取模型，其主體結(jié)構(gòu)為最遠(yuǎn)點采樣模塊和點云學(xué)習(xí)網(wǎng)絡(luò). 通常輸入點云的數(shù)量較為龐大，需要進(jìn)行一定的預(yù)處理，減少后續(xù)網(wǎng)絡(luò)冗余計算，因此，本文采用最遠(yuǎn)點采樣方法，對原始點云數(shù)據(jù)進(jìn)行有效的點數(shù)量篩減，降低網(wǎng)絡(luò)計算的內(nèi)存與運(yùn)算量. 點云學(xué)習(xí)網(wǎng)絡(luò)由多層感知機(jī)構(gòu)成，用于計算點云之間距離等關(guān)系的特征計算與抽取. 相比于卷積神經(jīng)網(wǎng)絡(luò)，其在提取點云之間細(xì)節(jié)信息具有更好的表征能力. 因此，本文使用該模型對三維目標(biāo)的局部特征進(jìn)行抽取，并將其作為全局特征的細(xì)節(jié)信息補(bǔ)充.

為了與全局特征抽取模型進(jìn)行特征區(qū)域的對應(yīng)，本文實現(xiàn)了卷積區(qū)域與點云學(xué)習(xí)網(wǎng)絡(luò)之間的對應(yīng)映射，以在后續(xù)進(jìn)行特征融合時，實現(xiàn)關(guān)鍵點特征可以有效放入正確的感受野區(qū)域，保證局部關(guān)鍵點特征有效補(bǔ)充全局特征.

3) 檢測模型，本文基于經(jīng)典兩階段檢測算法Faster R-CNN思想[5]，構(gòu)造檢測框架. 但是，本文模型僅完成一次分類和候選框回歸計算，以提高整體模型的速度. 在檢測模型中，其主要完成特征模型融合、候選區(qū)域生成和分類與候選框回歸計算. 首先，對于特征模型融合，主要以第1部分全局特征抽取模型提供的特征圖為主體，將第2部分局部特征抽取模型的局部關(guān)鍵點特征與其進(jìn)行結(jié)合，通過映射相同感受野位置，將局部關(guān)鍵點特征融入全局特征中. 其次，通過前期對數(shù)據(jù)真值標(biāo)注框進(jìn)行統(tǒng)計，用K-means聚類方法設(shè)計候選框的寬高，并在融合的特征圖上進(jìn)行候選框生成. 通過設(shè)置真值與預(yù)測值的重疊比率，進(jìn)行有效的包圍框篩選. 最后，在得到初步篩選的候選框上，進(jìn)行分類與位置框回歸計算，得到精確的目標(biāo)類別與包圍框.

2.2 數(shù)據(jù)增廣

在對檢測模型的訓(xùn)練策略中，數(shù)據(jù)增廣是提高目標(biāo)分類和定位精度的有效方法. 對于二維檢測算法研究，數(shù)據(jù)增廣技術(shù)相對成熟，例如圖像旋轉(zhuǎn)、幾何變換、噪聲與圖像對比度變換等方法，這些方法均在一定程度上對深度學(xué)習(xí)模型的訓(xùn)練有效幫助，提高模型的魯棒性、訓(xùn)練效率和模型質(zhì)量. 數(shù)據(jù)增廣訓(xùn)練方法也被認(rèn)為是基于深度學(xué)習(xí)檢測算法訓(xùn)練的基本方式.

相比于二維圖像的數(shù)據(jù)增廣，基于點云的三維目標(biāo)檢測方法的數(shù)據(jù)增廣訓(xùn)練則具有一定的技術(shù)復(fù)雜性和難度. 其原因如下.

1) 點云的數(shù)據(jù)格式和特征與二維圖像在空間結(jié)構(gòu)、顏色特征等方面均存在顯著差異.

2) 點云的稀疏性和無序性對使用數(shù)據(jù)增廣訓(xùn)練方法有影響，幾何變換或加噪方法均會改變點云位置和結(jié)構(gòu)，反而影響正確的網(wǎng)絡(luò)訓(xùn)練.

3) 可視化點云的方式多樣，不同的可視化方式對于點云z軸計算方式也不同，難以給出坐標(biāo)統(tǒng)一的數(shù)據(jù)增廣方法.

通過對上述問題的分析，本文提出使用在線數(shù)據(jù)增廣的幾何位置變換方法，來實現(xiàn)深度模型訓(xùn)練的數(shù)據(jù)增廣. 在線數(shù)據(jù)增廣，是在模型訓(xùn)練過程中，對輸入數(shù)據(jù)進(jìn)行調(diào)整，實現(xiàn)模型增廣訓(xùn)練.

該方式的優(yōu)點在于不需要占用大量的內(nèi)存，生成的數(shù)據(jù)不會存儲，僅在訓(xùn)練階段中使用，訓(xùn)練后內(nèi)存就會被釋放. 同時，在訓(xùn)練過程中進(jìn)行幾何位置變換，能夠?qū)崿F(xiàn)統(tǒng)一的坐標(biāo)系下實現(xiàn)三維點云目標(biāo)的位置變換，不會產(chǎn)生坐標(biāo)系轉(zhuǎn)換問題，更容易完成三維目標(biāo)檢測模型的訓(xùn)練操作. 此外，本文的數(shù)據(jù)增廣策略為端到端方式，不額外占用存儲空間，訓(xùn)練效率提升，也提高深度模型的應(yīng)用價值.

2.3 多任務(wù)損失函數(shù)

在三維目標(biāo)檢測中共需要完成2個任務(wù)，目標(biāo)語義分類和三維包圍框定位. 因此，基于深度學(xué)習(xí)理論，使用多任務(wù)損失函數(shù)作為訓(xùn)練目標(biāo)函數(shù). 其中，對于語義分類部分，仍然采樣分類精度較好的Softmax交叉熵?fù)p失函數(shù)Lcls；對于包圍框的預(yù)測部分，為了減少計算量和維度，使用平滑的L1損失函數(shù)作為三維包圍框的回歸計算函數(shù)Lreg. 所以，本文多任務(wù)損失函數(shù)Lloss可以表示為

(1)

式中：y*、y分別為預(yù)測結(jié)果與真實值；Npos為正樣本數(shù)據(jù)量；三維包圍框的參數(shù)為(x,y,z,l,w,h,θ)，其中，x、y、z為三維包圍框的中心坐標(biāo)，l、w、h分別為三維包圍框的長度、寬度和高度，θ為三維包圍框在x、y平面中的旋轉(zhuǎn)角度.

此外，為了更加平衡回歸與分類任務(wù)學(xué)習(xí)偏差，本文使用α參數(shù)去自適應(yīng)調(diào)整模型訓(xùn)練過程中對于分類和回歸任務(wù)的學(xué)習(xí)比率.

3 實驗驗證

3.1 數(shù)據(jù)庫與實驗環(huán)境簡介

本文分別在已公開的數(shù)據(jù)庫KITTI 3D目標(biāo)檢測數(shù)據(jù)庫[18]和Waymo 3D數(shù)據(jù)庫[19]上進(jìn)行了模型驗證與方法對比實驗.

KITTI 3D目標(biāo)檢測數(shù)據(jù)庫，由德國卡爾斯魯厄理工學(xué)院在自動駕駛場景中采集完成，數(shù)據(jù)集包含二維圖片和雷達(dá)點云三維數(shù)據(jù)，該數(shù)據(jù)庫的三維目標(biāo)檢測部分共包含7 481個訓(xùn)練數(shù)據(jù)和7 518個測試數(shù)據(jù)，分別屬于10個類別. 本文共對2個類別進(jìn)行了更加詳細(xì)的模型分析，分別為汽車和自行車，主要原因該2個類別在數(shù)據(jù)集的占比超過80%.

Waymo 3D數(shù)據(jù)庫由自動駕駛公司W(wǎng)aymo公布，整個數(shù)據(jù)集包含1 150個場景，每個場景均包含雷達(dá)點云數(shù)據(jù)和二維數(shù)據(jù)同步采集，整個數(shù)據(jù)庫包含約1 200萬個三維包圍框和二維包圍框. 根據(jù)其數(shù)據(jù)劃分，共分為1 000個場景為訓(xùn)練集、150個場景為測試集.

本文將在這2個公開數(shù)據(jù)庫上完成模型驗證，并選擇同樣使用點云數(shù)據(jù)作為唯一輸入的相關(guān)深度學(xué)習(xí)檢測方法作為對比方法. 由于許多檢測模型并未同時給出在2個數(shù)據(jù)集上的驗證結(jié)果，因此分別選取5個方法進(jìn)行模型對比實驗. 在KITTI數(shù)據(jù)庫上，本文選取的5個對比方法包括SECOND方法[20]、PointPillars方法[21]、Fast Point-RCNN方法[22]、Part-A2方法[23]和PV-RCNN方法[16]. 在Waymo數(shù)據(jù)庫上，本文選取的5個對比方法包括PointPillars方法[21]、MVF方法[24]、Pallar-OD方法[25]、PV-RCNN方法[16]、CenterPoint-Voxel方法[26]. 所有對比方法均為目前精度較好的方法.

在實驗環(huán)境中，本文所有實驗均在內(nèi)存125 GB、處理器為Intel Core i9-9940X的計算服務(wù)器中完成. 該服務(wù)器包含1塊型號為NVIDIA RTX2080 12GB的GPU.

3.2 評價指標(biāo)函數(shù)

本文按照二維目標(biāo)檢測算法評價精度的方法多類均值精度(mean average precision，mAP)，將其應(yīng)用在評價三維目標(biāo)檢測算法. mAP方法為多類均值精度，對于單類均值精度(average precision，AP)，其計算為precision查準(zhǔn)率和recall查全率構(gòu)成的曲線線下面積值. 因此，查準(zhǔn)率和查全率分別為

(2)

(3)

式中：TP(true positive)為真陽性，即對真值預(yù)測正確的結(jié)果；FP(false positive)為假陽性，對真值預(yù)測錯誤的結(jié)果；FN(false negative)為假陰性，對真值未能預(yù)測出來的結(jié)果.

相比于二維目標(biāo)檢測評價，在三維目標(biāo)檢測評價時，需要計算真值與預(yù)測包圍框的重疊比(intersection-over-union，IOU)，即在三維空間中的包圍框進(jìn)行交并比計算. 通過設(shè)置該閾值結(jié)果，來調(diào)整AP與mAP的計算. 通常IOU閾值設(shè)置為0.5.

3.3 KITTI數(shù)據(jù)集模型對比與驗證實驗

首先，本文模型與其他5個對比模型在KITTI測試集上的精度對比結(jié)果如表1所示. 本文在7 518幅測試數(shù)據(jù)集上進(jìn)行了定量結(jié)果輸出.

從表1中可知，在僅使用LiDAR點云數(shù)據(jù)作為輸入的條件下，本文模型的總體精度高于當(dāng)前主流的5類檢測模型，mAP值達(dá)到94.33%，相比于最優(yōu)精度模型PV-RCNN提升4.15%.

表1 KITTI 3D檢測數(shù)據(jù)庫模型對比實驗結(jié)果(1)

為了更加詳細(xì)地對比模型精度與模型速度，本文在汽車和自行車2個類別上進(jìn)行了AP與模型檢測速度的對比實驗，并選用數(shù)據(jù)庫提供的不同難度的數(shù)據(jù)進(jìn)行了模型對比實驗，如表2所示.

從表2中可知，本文模型方法在三維目標(biāo)檢測的精度與速度方面均優(yōu)于當(dāng)前主流的檢測模型，同時，本文模型更容易應(yīng)對場景更為簡單的目標(biāo)檢測任務(wù). 對于汽車類別，本文模型在3個不同的測試難度(簡單、中等和困難難度)上，相比于當(dāng)前最優(yōu)檢測模型分別提升4.24%、0.67%和0.19%的精度. 同時，在運(yùn)行速度上也取得一定的改進(jìn)，單張圖像處理時間提升1 s. 對于尺寸更小的自行車類別，本文模型在3個不同測試難度上也取得一定的提升，總體模型在簡單、中等和困難難度的提升精度分別為1.38%、0.43%和0.59%. 但是，模型總體精度提升有限，特別是在中等和困難場景提升較小. 主要原因在于自行車類相比于汽車類，其圖占比更小，總體尺寸較小，且存在類別不平衡問題. 因此，在后續(xù)的小尺寸三維目標(biāo)研究中仍需對模型進(jìn)行進(jìn)一步改進(jìn).

表2 KITTI 3D檢測數(shù)據(jù)庫模型對比實驗結(jié)果(2)

3.4 Waymo數(shù)據(jù)集模型對比與驗證實驗

首先驗證本文模型與對比方法在總體4個類別(車輛、行人、騎行者和指示牌)上的mAP. 本文依據(jù)數(shù)據(jù)集提供的150個測試場景，分幀得到測試集數(shù)據(jù)庫. 本文模型與對比方法在Waymo測試數(shù)據(jù)庫所有類別上的定量精度結(jié)果如表3所示.

從表3中可知，在仍然僅使用LiDAR點云數(shù)據(jù)為唯一輸入條件下，本文模型的總體mAP為58.9%，相比于其他模型，本文模型精度高于其他對比方法，總體提升0.3%. 由于Waymo數(shù)據(jù)集的場景復(fù)雜度較高，其中包含雨、雪等惡劣天氣條件，造成整體三維目標(biāo)檢測精度相比于KITTI數(shù)據(jù)集較低. 因此，在后續(xù)的研究中，仍然可以在模型上進(jìn)行改進(jìn)，以應(yīng)對惡劣天氣條件的三維目標(biāo)檢測任務(wù). 為了進(jìn)一步對比模型檢測效果，仍然在Waymo數(shù)據(jù)庫上選取了2個類別(車輛和行人)進(jìn)行AP精度與檢測速度的對比實驗，如表4所示.

表3 Waymo檢測數(shù)據(jù)庫模型對比實驗結(jié)果(1)

從表4的結(jié)果可知，在車輛和行人2個類目標(biāo)的檢測精度上，相比于主流檢測框架，本文模型方法的總體精度更高，并且在速度上具有一定的優(yōu)勢. 對于車輛類別，相比于5個對比方法，本文模型精度提升1.2%. 可見，在更為復(fù)雜和規(guī)模更大的數(shù)據(jù)集上，對于尺寸較大車輛目標(biāo)，本文模型仍然具有一定的魯棒性. 同時，在模型檢測速度上，也取得0.3 s的速度提升，可見模型融合并未帶來運(yùn)行速度降低，并且特征提取的并行方式，也帶來計算速度的提升. 對于行人類別，其依然具有小尺寸目標(biāo)的特點，總體圖占比較小，且行為變化更加多樣，在惡劣天氣環(huán)境下更難以有效檢測. 在檢測精度上，本文對行人類別實現(xiàn)0.4%的精度提升.

表4 Waymo檢測數(shù)據(jù)庫模型對比實驗結(jié)果(2)

通過在2個數(shù)據(jù)庫上的檢測結(jié)果，本文模型總體檢測精度具有一定的優(yōu)勢，并且在數(shù)量占比較大的類別上取得更好的檢測結(jié)果. 對于數(shù)量占比較小和尺寸較小的物體類別，本文模型可以保持一定的精度，但是仍然進(jìn)一步提升的空間. 因此，定量實驗結(jié)果證明本文檢測模型的魯棒性、精度與速度的平衡性.

3.5 模型消融實驗

為了進(jìn)一步驗證本文模型4個改進(jìn)方法的效果，探究所使用的不同改進(jìn)方案對檢測精度的提升效果，決定進(jìn)行模型消融實驗. 由于本文提出多個針對檢測模型的改進(jìn)方案，通過在數(shù)據(jù)集上的結(jié)果顯示，已證明精度提升效果. 但是，無法確認(rèn)不同改進(jìn)方案對模型精度的提升效果. 因此，利用控制變量方式，改進(jìn)方案逐步增加的驗證方法，探究改進(jìn)方法對模型精度的提升效果.

本文重要的改進(jìn)方法為：全局特征抽取模型、局部特征抽取模型、數(shù)據(jù)增廣與多任務(wù)損失函數(shù). 由于全局特征抽取模型是本文主干網(wǎng)絡(luò)模型，因此以該模型作為基礎(chǔ)，逐步將其他3個改進(jìn)方案放入到模型中，進(jìn)行檢測精度驗證，進(jìn)而完成整個消融實驗過程. 本文使用mAP指標(biāo)作為精度衡量標(biāo)準(zhǔn)，同時，使用KITTI 3D數(shù)據(jù)庫的測試集作為消融實驗的驗證數(shù)據(jù)集.

對于這4種改進(jìn)方法對檢測精度的影響效果，具體結(jié)果如表5所示.

表5 改進(jìn)方法的消融實驗

從表5中可以看出，增加局部特征抽取模型、數(shù)據(jù)增廣方案與多任務(wù)損失函數(shù)均可以對模型精度進(jìn)行有效提升. 根據(jù)實驗結(jié)果可知，融合全局特征抽取模型與局部特征抽取模型，更有助于對于三維點云目標(biāo)的檢測效果，其提升精度為1.79%；使用數(shù)據(jù)增廣與多任務(wù)損失函數(shù)對于模型精度提升效果有限，分別提升0.68%與0.28%. 通過消融實驗，可以看出數(shù)據(jù)增廣與損失函數(shù)修改對于三維目標(biāo)檢測方案提升效果有限，因此在之后的探究中，可以進(jìn)行進(jìn)一步的拓展與改進(jìn). 目前，更好地建立并抽取三維目標(biāo)特征，仍然是未來提升模型檢測精度的重要研究方向.

4 結(jié)論

針對自動駕駛場景的三維目標(biāo)檢測任務(wù)，本文提出基于深度神經(jīng)網(wǎng)絡(luò)的三維目標(biāo)檢測算法，以三維點云數(shù)據(jù)作為研究對象，構(gòu)造全局特征與局部點云特征相結(jié)合的特征提取網(wǎng)絡(luò)，并利用候選框區(qū)域生成方式，完成對目標(biāo)語義類別和位置定位的任務(wù). 通過在KITTI 3D數(shù)據(jù)庫和Waymo數(shù)據(jù)庫上的驗證實驗，可以得到如下結(jié)論.

1) 與主流的基于深度神經(jīng)網(wǎng)絡(luò)的三維目標(biāo)檢測框架相比，本文模型在檢測精度與檢測速度上均具有一定的優(yōu)勢.

2) 在復(fù)雜、惡劣的天氣環(huán)境中，對于三維目標(biāo)檢測任務(wù)，相比于其他方法，本文模型仍然具有一定的精度和速度優(yōu)勢.

3) 對于三維點云數(shù)據(jù)，構(gòu)造一個將全局特征與局部特征相結(jié)合的特征提取網(wǎng)絡(luò)，更能有效地提升檢測模型的分類與定位能力.

當(dāng)然，本文仍然也存在一定的問題，面對物體尺寸較小的類別時，模型的精度呈現(xiàn)下降. 同時，本文模型在檢測速度上仍有一定的提升空間，當(dāng)前模型檢測速度仍未能達(dá)到可以進(jìn)行實時檢測的目標(biāo). 因此，本文將在未來對小尺寸物體的三維實時檢測任務(wù)進(jìn)行更加深入的研究.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡