彭育輝 鄭瑋鴻 張劍鋒
(福州大學(xué),福州 350116)
有別于機(jī)器視覺(jué)傳感器,激光雷達(dá)傳感器具有受環(huán)境和天氣等因素影響小、測(cè)距精準(zhǔn)等優(yōu)點(diǎn)。隨著多線激光雷達(dá)傳感器價(jià)格的逐年下降,基于車載激光雷達(dá)進(jìn)行汽車外界環(huán)境感知成為實(shí)現(xiàn)汽車無(wú)人駕駛的主流技術(shù)方案,同時(shí)也是汽車無(wú)人駕駛領(lǐng)域的關(guān)鍵技術(shù)和研究熱點(diǎn)。
基于激光雷達(dá)實(shí)現(xiàn)車外環(huán)境信息的感知就是在汽車行駛過(guò)程中,通過(guò)車載激光雷達(dá)準(zhǔn)確地估計(jì)出車外不同三維目標(biāo)的類別和位置,即分類和定位[1-6]。車載激光雷達(dá)獲取的物體三維點(diǎn)云具有稀疏、分布不均、無(wú)序的特點(diǎn),從而衍生出不同的數(shù)據(jù)處理算法。其中,基于深度學(xué)習(xí)的點(diǎn)云處理方法因其優(yōu)秀的分類準(zhǔn)確性和實(shí)時(shí)性而受到國(guó)內(nèi)外學(xué)者的普遍關(guān)注。
深度學(xué)習(xí)的一般表現(xiàn)形式為一種深層神經(jīng)網(wǎng)絡(luò),具有很強(qiáng)的特征提取能力,在監(jiān)督式學(xué)習(xí)的目標(biāo)分類上取得了很好的結(jié)果。圖像是最早、最常用的視覺(jué)信息載體,攝像頭等設(shè)備采集的圖像信息大量使用,因此,圖像信息的處理十分重要。2010 年,F(xiàn)elzenszwalb 團(tuán)隊(duì)提出的可變形部件模型(Deformable Part Model,DPM)[7]使傳統(tǒng)的二維圖像目標(biāo)檢測(cè)與識(shí)別達(dá)到一定的高度,但是算法的效果并不令人滿意,梯度方向直方圖(Histogram of Oriented Gradients,HOG)特征提取存在的遮擋物影響問(wèn)題仍然比較突出。2013年,Girshick 等提出區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Region-based Convolutional Neural Network,R-CNN)[8],揭開(kāi)了基于深度學(xué)習(xí)的二維目標(biāo)檢測(cè)與識(shí)別的帷幕。目前,基于深度學(xué)習(xí)的二維圖像目標(biāo)檢測(cè)方法不斷完善[9-13],已廣泛應(yīng)用在人臉識(shí)別、交通管理、文字識(shí)別等方面[14-17],技術(shù)成熟可靠。
在處理激光雷達(dá)獲取的三維點(diǎn)云方面,借鑒二維圖像的目標(biāo)檢測(cè)成為一種重要的技術(shù)途徑。將三維點(diǎn)云數(shù)據(jù)降維后,利用圖像目標(biāo)檢測(cè)的方法進(jìn)行特征提取是初期的處理手段,算法耗時(shí)長(zhǎng)且精度不足,局限性明顯。隨著車載激光雷達(dá)和計(jì)算機(jī)硬件的不斷進(jìn)步,蘋果公司提出了VoxelNet[1]對(duì)三維點(diǎn)云進(jìn)行編碼處理,美國(guó)斯坦福大學(xué)于2017 年提出了PointNet[18],首次將原始點(diǎn)云數(shù)據(jù)投入深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的模型,清華大學(xué)與百度公司聯(lián)合開(kāi)發(fā)了MV3D(Multi-View 3D networks)[6],實(shí)現(xiàn)了點(diǎn)云多視圖融合圖像處理。上述方法都通過(guò)直接或融合處理點(diǎn)云的方式逐漸取代了間接的手段,成為三維目標(biāo)檢測(cè)方法的發(fā)展趨勢(shì)。
本文將在回顧二維目標(biāo)檢測(cè)方法的基礎(chǔ)上,對(duì)目前國(guó)內(nèi)外基于深度學(xué)習(xí)的三維目標(biāo)檢測(cè)方法進(jìn)行綜述,為車載激光雷達(dá)目標(biāo)檢測(cè)方法的選擇提供參考依據(jù)。
二維目標(biāo)檢測(cè)主要解決圖像中的目標(biāo)分類和定位問(wèn)題。由于圖像的像素具有十分豐富的目標(biāo)紋理信息,所以主流的方法是利用提取特征能力優(yōu)異的深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行目標(biāo)檢測(cè)。近10 年來(lái),隨著信息獲取技術(shù)的不斷進(jìn)步,出現(xiàn)的ImageNet、PASCAL VOC和COCO(Common Objects in Context)等數(shù)據(jù)集為深度神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練提供了可靠的數(shù)據(jù)來(lái)源,可以使模型減少不必要的誤差,快速地靠近最優(yōu)解,對(duì)模型的學(xué)習(xí)訓(xùn)練起到重要的作用。
2010年,F(xiàn)elzenszwalb 團(tuán)隊(duì)提出的DPM 是當(dāng)時(shí)檢測(cè)效果最好的模型。這種由人工選取特征的目標(biāo)檢測(cè)模型隨著信息量的增大呈現(xiàn)出很大的局限性,因此在目標(biāo)檢測(cè)上逐漸引入了深度學(xué)習(xí)方法。2013年,Girshick 等提出了R-CNN[8],使用區(qū)域候選的方式替代了滑動(dòng)窗口,再通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)提取候選目標(biāo)的特征。R-CNN 在每次特征提取時(shí)都要重新進(jìn)行CNN 的訓(xùn)練,增加了計(jì)算成本。2015年,Girshick 等對(duì)R-CNN 進(jìn)行改進(jìn),提出快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Fast Region-based CNN,F(xiàn)ast R-CNN)[9],采用將感興趣區(qū)域(Regions of Interest,RoI)與CNN結(jié)合的方式平行輸出分類和邊框回歸的結(jié)果。由于R-CNN 和Fast R-CNN 運(yùn)算量大且無(wú)法很好地使用圖形處理器(Graphics Processing Unit,GPU)進(jìn)行運(yùn)算,因此檢測(cè)速度很難提高。同年,Ren等提出了端到端的更快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Faster Region-based CNN,F(xiàn)aster RCNN)[10],目標(biāo)區(qū)域候選由區(qū)域候選網(wǎng)絡(luò)(Region Proposal Networks,RPN)來(lái)完成,所有運(yùn)算過(guò)程都可以在GPU 上運(yùn)行,檢測(cè)速度得到提高。受R-CNN 的啟發(fā),He 等提出了掩模區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Mask Regionbased CNN,Mask R-CNN)模型[19],Zhang等提出了局部-區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Part-based R-CNN)模型[20]等。
基于目標(biāo)區(qū)域候選的檢測(cè)算法都要先提取目標(biāo)候選區(qū)域,明顯增加了運(yùn)算的負(fù)荷。Redmon 提出了基于回歸的YOLO(You Only Look Once)模型[11],從圖像的輸入到檢測(cè)結(jié)果的輸出,只使用了1 個(gè)深度神經(jīng)網(wǎng)絡(luò)模型,把點(diǎn)云的處理當(dāng)作回歸問(wèn)題,精度低于Faster RCNN模型,但是檢測(cè)速度至少提高了5倍。繼YOLO模型之后,Liu 等提出了單發(fā)多框檢測(cè)器(Single Shot MultiBox Detector,SSD)模型[12],速度比YOLO 更快的同時(shí),可獲得與R-CNN相媲美的精度。YOLO和SSD高效的處理速度再次證明了深度神經(jīng)網(wǎng)絡(luò)在提取特征和分類任務(wù)上具有很強(qiáng)的性能,但是處理結(jié)果的精確度有待提高。YOLO 經(jīng)過(guò)不斷改善,出現(xiàn)了YOLOv2[13]和用于研究三維目標(biāo)檢測(cè)的YOLO3D[21]。對(duì)于目標(biāo)檢測(cè)的研究,算法的處理速度和精確度是相互矛盾的,若以保證處理速度為主,算法就會(huì)精簡(jiǎn),對(duì)特征的提取可能會(huì)變得簡(jiǎn)單。表1 所示為二維目標(biāo)檢測(cè)方法在PASCAL VOC 2007 數(shù)據(jù)集上測(cè)試的結(jié)果,其中,F(xiàn)aster R-CNN(VGG)是指以視覺(jué)幾何組(Visual Geometry Group,VGG)網(wǎng)絡(luò)為特征提取器的Faster R-CNN,SSD(300)是指輸入圖像尺寸大小為300×300 的SSD。由表1 可知,平均精度最高的是SSD(300),處理速度也達(dá)到了59 幀/s,相比最高速度的Fast YOLO模型,平均精度高21.6百分點(diǎn),檢測(cè)精確度和處理速度取得了一定的平衡。
表1 二維目標(biāo)檢測(cè)方法測(cè)試結(jié)果
本質(zhì)上,對(duì)目標(biāo)檢測(cè)方法的探索就是對(duì)深度神經(jīng)網(wǎng)絡(luò)的研究,二維目標(biāo)檢測(cè)的深度神經(jīng)網(wǎng)絡(luò)對(duì)三維目標(biāo)檢測(cè)方法研究具有啟發(fā)性的作用,如RPN 和基于回歸的YOLO設(shè)計(jì)等。
隨著近年車載激光雷達(dá)在汽車智能駕駛領(lǐng)域的廣泛應(yīng)用,由車載激光雷達(dá)獲取的三維點(diǎn)云數(shù)據(jù)逐漸成為國(guó)內(nèi)外研究的熱點(diǎn)。點(diǎn)云數(shù)據(jù)攜帶的信息主要是以激光雷達(dá)為原點(diǎn)的空間坐標(biāo)和反射強(qiáng)度。相繼出現(xiàn)的機(jī)器人三維掃描庫(kù)(Robotic 3D Scan Repository)、悉尼城市目標(biāo)數(shù)據(jù)集、KIITI 數(shù)據(jù)集[22]等多個(gè)開(kāi)源數(shù)據(jù)集為網(wǎng)絡(luò)的訓(xùn)練及驗(yàn)證提供了有效的數(shù)據(jù)支撐,由KITTI數(shù)據(jù)集節(jié)選出并經(jīng)過(guò)處理的點(diǎn)云和相對(duì)應(yīng)的高清圖片如圖1 所示?;谏疃葘W(xué)習(xí)的三維點(diǎn)云處理方法總體上可分為3 類,即間接處理、直接處理和融合處理。間接處理點(diǎn)云的方法主要是對(duì)點(diǎn)云進(jìn)行體素化或降維后再投入已有的深度神經(jīng)網(wǎng)絡(luò)進(jìn)行處理;直接處理點(diǎn)云的方法主要是重新設(shè)計(jì)針對(duì)三維點(diǎn)云數(shù)據(jù)的深度神經(jīng)網(wǎng)絡(luò)對(duì)點(diǎn)云進(jìn)行處理;融合處理點(diǎn)云的方法則是融合圖像和點(diǎn)云的檢測(cè)結(jié)果再進(jìn)一步處理。隨著圖像硬件的發(fā)展,融合處理點(diǎn)云的方法將是點(diǎn)云處理的主要技術(shù)。
圖1 KITTI數(shù)據(jù)集節(jié)選[22]
檢測(cè)的主要目標(biāo)有車輛、行人和騎行者,其中行人和騎行者的點(diǎn)云數(shù)據(jù)比車輛的點(diǎn)云數(shù)據(jù)稀疏,可提取的特征信息少,檢測(cè)難度大。目前的檢測(cè)算法都以車輛的檢測(cè)為主,兼容行人和騎行者的檢測(cè)。
間接處理點(diǎn)云的對(duì)象,最初主要有RealSense、Kinect 等三維智能傳感器采集的深度圖像(RGB-D)和經(jīng)過(guò)人工處理的CAD模型。間接處理點(diǎn)云的方法大都源自前期二維目標(biāo)檢測(cè)的深度神經(jīng)網(wǎng)絡(luò)模型,先利用統(tǒng)計(jì)的方法或者卷積網(wǎng)絡(luò)模型將點(diǎn)云數(shù)據(jù)轉(zhuǎn)化為體素網(wǎng)格的形式或其他二維特征,再利用深度神經(jīng)網(wǎng)絡(luò)模型進(jìn)行學(xué)習(xí)訓(xùn)練。
最初,人們并未對(duì)點(diǎn)云的性質(zhì)進(jìn)行深入研究,而是受圖像像素處理方法的啟迪,將點(diǎn)云和圖像一樣進(jìn)行“像素”的處理,即對(duì)點(diǎn)云進(jìn)行體素網(wǎng)格處理,再對(duì)體素網(wǎng)格進(jìn)行研究分析,初期主要的間接處理方法[4,23-26]特點(diǎn)如表2所示。
蘋果公司針對(duì)無(wú)人駕駛場(chǎng)景下的三維目標(biāo)檢測(cè)提出了一個(gè)端到端的深度神經(jīng)網(wǎng)絡(luò)——VoxelNet,實(shí)現(xiàn)對(duì)點(diǎn)云的逐點(diǎn)處理。其設(shè)計(jì)的特征學(xué)習(xí)網(wǎng)絡(luò)層(Feature Learning Network)對(duì)輸入的點(diǎn)云進(jìn)行體素分塊(Voxel Partition)、點(diǎn)云分組(Grouping)、隨機(jī)采樣(Random Sampling)、多層體素特征編碼(Stacked Voxel Feature Encoding)、稀疏張量表示(Sparse Tensor Representa?tion),經(jīng)過(guò)卷積網(wǎng)絡(luò)的壓縮提取后接入RPN 層進(jìn)行高效檢測(cè)。VoxelNet 模型僅利用車載激光雷達(dá)的點(diǎn)云數(shù)據(jù)輸入進(jìn)行模型訓(xùn)練,保證了點(diǎn)云的原始三維特征。重慶大學(xué)的Yan等受VoxelNet的啟發(fā),提出了稀疏嵌入式卷積檢測(cè)網(wǎng)絡(luò)(Sparsely Embedded Convolutional Detec?tion,SECOND)模型[27],采用2 個(gè)串聯(lián)的體素特征編碼(Voxel Feature Encoding,VFE)架構(gòu),采用稀疏卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行連接,利用RPN 完成目標(biāo)的檢測(cè)工作,如圖2所示[27]。SECOND 充分利用了點(diǎn)云的稀疏性,改善了VoxelNet中的特征提取效果。
表2 初期主要的間接處理方法比較
圖2 SECOND模型[27]
有別于體素網(wǎng)格處理方法,將點(diǎn)云的深度信息投至圖像而形成的融合深度圖像方法是另一種重要的點(diǎn)云間接處理途徑。受到Dolson[28]和Andreasson[29]等人的啟發(fā),2014年,Cristiano[30]指出了點(diǎn)云所具有的深度信息在行人檢測(cè)中起到重要的作用。緊接著,Alejandro結(jié)合深度圖一并考慮行人的朝向,提出了多視圖隨機(jī)森林(Multiview Random Forest)算法[31],并指出算法中的一些簡(jiǎn)易模塊可以使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征表示,檢測(cè)效果會(huì)進(jìn)一步提高。2016 年,斯坦福大學(xué)的Qi 等提出多視角卷積神經(jīng)網(wǎng)絡(luò)(Multi-View CNN,MVCNN)[32],利用一個(gè)神經(jīng)網(wǎng)絡(luò)輔助預(yù)測(cè)目標(biāo)分類,設(shè)計(jì)了非均質(zhì)的探測(cè)過(guò)濾器將三維數(shù)據(jù)投影至二維空間做目標(biāo)分類。在訓(xùn)練的過(guò)程中,做了數(shù)據(jù)擴(kuò)增,并根據(jù)三維物體設(shè)計(jì)了多方向池(Multi-Orientation Pooling)。該方法對(duì)Model?Net40 模型庫(kù)的檢測(cè)精度已經(jīng)達(dá)到了86.6%,超過(guò)了之前的所有檢測(cè)算法。百度公司的李波[5]將數(shù)據(jù)以二維點(diǎn)圖的形式表示,移植了圖像處理的端到端深度神經(jīng)網(wǎng)絡(luò),能夠同時(shí)預(yù)測(cè)目標(biāo)置信度和邊界框。
間接處理點(diǎn)云的方法借鑒二維目標(biāo)檢測(cè)的設(shè)計(jì),如數(shù)據(jù)預(yù)處理中的“體素化”或者合成深度圖,網(wǎng)絡(luò)模塊中的RPN 或者稀疏卷積神經(jīng)網(wǎng)絡(luò)等,都會(huì)導(dǎo)致網(wǎng)絡(luò)訓(xùn)練過(guò)程中失去一部分三維特征信息,甚至引入誤差。在網(wǎng)絡(luò)模塊的設(shè)計(jì)中可以加入池化(Pooling),大量的卷積運(yùn)算會(huì)使數(shù)據(jù)的提取產(chǎn)生偏移,池化不僅可以改善這種錯(cuò)誤,還可以減小過(guò)擬合并且提高模型的魯棒性。
隨著研究的不斷推進(jìn),學(xué)術(shù)界愈發(fā)重視點(diǎn)云數(shù)據(jù)本身的特性,如無(wú)序性、稀疏性和分布不均等。直接處理點(diǎn)云的方法是直接把原始的三維點(diǎn)云數(shù)據(jù)投入重新設(shè)計(jì)的深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并不對(duì)點(diǎn)云數(shù)據(jù)做任何預(yù)處理,而且深度神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)不受以往圖像檢測(cè)網(wǎng)絡(luò)設(shè)計(jì)的影響。
斯坦福大學(xué)的Qi 等提出了PointNet[18],直接從點(diǎn)云中學(xué)習(xí)點(diǎn)對(duì)點(diǎn)特征。PointNet 使用多層感知機(jī)(Multi-Layer Perceptron,MLP)提取單點(diǎn)特征,訓(xùn)練最大池化層作為對(duì)稱函數(shù),整合來(lái)自全局的點(diǎn)云信息并解決了點(diǎn)的無(wú)序性問(wèn)題,最后得到全局特征。其中,設(shè)計(jì)的空間變換網(wǎng)絡(luò)可保證輸入點(diǎn)云的不變性。PointNet 在三維物體檢測(cè)、三維物體部分分割和逐點(diǎn)語(yǔ)義分割任務(wù)中取得了良好效果。PointNet 解決了無(wú)序和不變性問(wèn)題,提取了全局特征,但是沒(méi)有考慮到全局信息的問(wèn)題,經(jīng)過(guò)改進(jìn),Qi等提出了PointNet++[33],該模型考慮了點(diǎn)與點(diǎn)之間的距離度量,通過(guò)層級(jí)結(jié)構(gòu)利用局部區(qū)域信息學(xué)習(xí)特征,還解決了采樣不均等問(wèn)題,使得網(wǎng)絡(luò)結(jié)構(gòu)魯棒性更好。PointNet和PointNet++的提出對(duì)三維目標(biāo)檢測(cè)技術(shù)具有深遠(yuǎn)的意義。香港大學(xué)的Shi等利用PointNet++模型提出了PointRCNN[34]。PointRCNN 主要分為2 個(gè)階段處理點(diǎn)云,先利用具有強(qiáng)大實(shí)例分割能力的PointNet++進(jìn)行點(diǎn)云的初步分割,提出目標(biāo)候選框,再進(jìn)行目標(biāo)候選框的精細(xì)化處理以精準(zhǔn)地檢測(cè)目標(biāo)。新加坡國(guó)立大學(xué)的Uy等成功地將PointNet模型和NetVLAD[35]結(jié)合,提出了端到端的PointNetVLAD[36],并使用度量學(xué)習(xí)[37]的訓(xùn)練方法,準(zhǔn)確地得到點(diǎn)云的全局描述信息特征,解決了基于點(diǎn)云檢索的位置識(shí)別問(wèn)題。香港大學(xué)的Yu等利用PointNet 的點(diǎn)特征聚合能力將點(diǎn)云的三維坐標(biāo)映射到特征空間,再結(jié)合特征擴(kuò)展組件[38]和全連接網(wǎng)絡(luò)完成點(diǎn)云的三維坐標(biāo)重建任務(wù)。德國(guó)慕尼黑工業(yè)大學(xué)的Deng等人提出PPFNet[39],使用多個(gè)PointNet 提取多個(gè)對(duì)應(yīng)面片區(qū)域的特征,再利用最大池化層聚合和融合,得到全局特征。PointNet 的提出起到了很大的啟發(fā)作用[40-48],其對(duì)點(diǎn)云特征提取的優(yōu)異效能得到了學(xué)者們的肯定和廣泛應(yīng)用。
德國(guó)的Valeo Schalter und Sensoren GmbH(簡(jiǎn)稱法雷奧公司)和德國(guó)伊爾曼諾理工大學(xué)借鑒YOLOv2提出Complex-YOLO[49],其繼承了YOLOv2 的網(wǎng)絡(luò)架構(gòu),將方向向量轉(zhuǎn)換為實(shí)值和虛值,并設(shè)計(jì)了歐氏區(qū)域建議網(wǎng)絡(luò)(Euler-Region-Proposal Network,E-RPN),在英偉達(dá)的Titan X顯卡上識(shí)別速度達(dá)到了50.4 幀/s,但是精確度有所偏差,而且忽略了小目標(biāo)物體,如行人和騎行者。因此,法雷奧公司又提出了YOLO3D[21],吸收了MV3D模型的數(shù)據(jù)處理方法,設(shè)計(jì)了雙輸入通道,修改YOLOv2 的架構(gòu),并優(yōu)化損失函數(shù),精度得到有效提高。
目前,主流的研究手段均基于PointNet 或者YOLOv2。基于PointNet 或之后的PointNet++的層級(jí)訓(xùn)練特點(diǎn)是能很好地得到點(diǎn)云的局部或者全局區(qū)域特征,基于YOLOv2 的方法繼承了YOLOv2 的高效識(shí)別速度。直接處理方法最大的難點(diǎn)在于設(shè)計(jì)的針對(duì)三維數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)架構(gòu)能否符合點(diǎn)云無(wú)序性、局部性和不變性等特點(diǎn),并且如何準(zhǔn)確地表征出來(lái)。
當(dāng)硬件計(jì)算速度足夠支撐算法的多維度計(jì)算時(shí),便產(chǎn)生了以圖像為輔助的融合處理點(diǎn)云方法。融合處理點(diǎn)云的方法主要著眼于融合圖像和點(diǎn)云檢測(cè)的結(jié)果,其中圖像的檢測(cè)利用已有的二維目標(biāo)檢測(cè)算法,點(diǎn)云的檢測(cè)利用以上提到的直接或者間接的處理方式得到檢測(cè)結(jié)果,再進(jìn)一步對(duì)兩者的結(jié)果進(jìn)行融合處理,得到最終檢測(cè)結(jié)果。融合處理點(diǎn)云的方法由于增加了高清圖像的輔助,在平均準(zhǔn)確度上有一定的優(yōu)勢(shì)。
清華大學(xué)和百度公司聯(lián)合提出MV3D[6],設(shè)計(jì)的三維候選網(wǎng)絡(luò)將點(diǎn)云的數(shù)據(jù)分成了鳥(niǎo)瞰和前視2個(gè)視圖,都利用卷積神經(jīng)網(wǎng)絡(luò)處理,以點(diǎn)云的前視圖處理作為輔助,主要處理鳥(niǎo)瞰視圖得到點(diǎn)云的坐標(biāo)及強(qiáng)度特征信息編碼,結(jié)合圖像(RGB)的初步卷積處理后,三者都經(jīng)過(guò)池化再進(jìn)行融合處理,結(jié)果接入基于區(qū)域的融合網(wǎng)絡(luò),得到分類和邊框回歸結(jié)果。針對(duì)PointNet,Qi等人提出了針對(duì)無(wú)人駕駛中障礙物檢測(cè)的Frustum PointNets[3],先對(duì)高清圖像進(jìn)行目標(biāo)的候選,給定目標(biāo)在圖像中的區(qū)域,然后用平截頭體框出對(duì)應(yīng)位置的點(diǎn)云,其中包含了其他非目標(biāo)的點(diǎn),最后利用PointNet精確地把目標(biāo)點(diǎn)云分割出來(lái),如圖3所示[3]。加拿大滑鐵盧大學(xué)的Jason Ku等人提出的AVOD[50]神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)使用改進(jìn)的RPN 分別對(duì)三維點(diǎn)云和RGB圖像中的目標(biāo)生成各自的三維候選區(qū)域并進(jìn)行融合處理,通過(guò)全連接神經(jīng)網(wǎng)絡(luò)層連接至第二階段檢測(cè)網(wǎng)絡(luò),進(jìn)行三維邊界框的精確回歸和分類,預(yù)測(cè)目標(biāo)障礙物。融合處理點(diǎn)云的算法模型,結(jié)合圖像RPN,使得融合后的處理效果得到明顯提升,其還有許多值得研究的融合算法,如深度連續(xù)融合算法[51]、針對(duì)車輛檢測(cè)的一般融合算法[52]等。
圖3 Frustum PointNets模型[3]
3種處理方法的優(yōu)、缺點(diǎn)如表3所示,融合處理在對(duì)行人和騎行者這類稀疏的三維點(diǎn)云數(shù)據(jù)的檢測(cè)上具有很好的效果。間接處理和直接處理的方法在車輛檢測(cè)上平均精度可達(dá)82%,但是在行人和騎行者的檢測(cè)平均精度為30%~60%;融合處理的方法得益于結(jié)合了圖像檢測(cè),不僅車輛的檢測(cè)精度超過(guò)85%,而且行人和騎行者的檢測(cè)平均精度已超過(guò)70%。
表3 不同處理方法的優(yōu)、缺點(diǎn)對(duì)比
硬件的發(fā)展必然使點(diǎn)云處理手段的重心偏向融合處理,點(diǎn)云的間接或直接處理最大化地利用了三維信息,但是對(duì)小目標(biāo)物體的識(shí)別能力很差,需要結(jié)合圖像的高精度識(shí)別才能使三維目標(biāo)檢測(cè)的結(jié)果更加準(zhǔn)確。Frustum PointNets 的融合方式過(guò)于依賴圖像的檢測(cè)結(jié)果,與MV3D或AVOD等將圖像和點(diǎn)云并行處理再融合的方式有明顯的差距,在同樣的KITTI 數(shù)據(jù)測(cè)試樣本中,F(xiàn)rustum PointNets、MV3D、AVOD 的 平均精度 為81.2%、89.05%、84.41%,圖像和點(diǎn)云并行處理再融合的方式優(yōu)勢(shì)突出,將是融合處理點(diǎn)云的主流設(shè)計(jì)方法,其攻克的重點(diǎn)在于如何設(shè)計(jì)融合算法,引入神經(jīng)網(wǎng)絡(luò)可增強(qiáng)融合處理算法的適應(yīng)性和智能化。
針對(duì)車載激光雷達(dá)獲取的三維點(diǎn)云的目標(biāo)檢測(cè)方法是實(shí)現(xiàn)汽車無(wú)人駕駛的關(guān)鍵技術(shù)。深度學(xué)習(xí)算法使得基于三維點(diǎn)云的目標(biāo)檢測(cè)取得了突破性進(jìn)展,但在訓(xùn)練大量樣本數(shù)據(jù)或在實(shí)際應(yīng)用場(chǎng)景下,仍會(huì)出現(xiàn)數(shù)據(jù)易失真、運(yùn)行效率低、識(shí)別精度不高等問(wèn)題。
綜合當(dāng)前基于深度學(xué)習(xí)的三維目標(biāo)檢測(cè)的研究現(xiàn)狀,本文對(duì)今后的研究提出以下建議:
a.必須有效地對(duì)原始點(diǎn)云進(jìn)行數(shù)據(jù)預(yù)處理,減少數(shù)據(jù)采集過(guò)程中因設(shè)備或者環(huán)境產(chǎn)生的誤差,以有效提高檢測(cè)的效率和精度。
b.采用線性的卡爾曼濾波算法或者非線性的深度神經(jīng)網(wǎng)絡(luò)改進(jìn)融合算法,是提高融合算法的學(xué)習(xí)性能、增強(qiáng)融合效果的有效途徑。
c.高清圖像的輔助可以有效彌補(bǔ)激光雷達(dá)點(diǎn)云數(shù)據(jù)稀疏的缺點(diǎn),所以圖像與三維點(diǎn)云的融合處理方法將成為三維目標(biāo)檢測(cè)的主要技術(shù)發(fā)展趨勢(shì)。