国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合稀疏點云補全的3D目標檢測算法

2021-04-10 05:56倪蓉蓉
圖學學報 2021年1期
關鍵詞:視錐解碼損失

徐 晨,倪蓉蓉,趙 耀

融合稀疏點云補全的3D目標檢測算法

徐 晨1,2,倪蓉蓉1,2,趙 耀1,2

(1. 北京交通大學信息科學研究所,北京 100044; 2.現(xiàn)代信息科學與網絡技術北京市重點實驗室,北京 100044)

基于雷達點云的3D目標檢測方法有效地解決了RGB圖像的2D目標檢測易受光照、天氣等因素影響的問題。但由于雷達的分辨率以及掃描距離等問題,激光雷達采集到的點云往往是稀疏的,這將會影響3D目標檢測精度。針對這個問題,提出一種融合稀疏點云補全的目標檢測算法,采用編碼、解碼機制構建點云補全網絡,由輸入的部分稀疏點云生成完整的密集點云,根據(jù)級聯(lián)解碼方式的特性,定義了一個新的復合損失函數(shù)。除了原有的折疊解碼階段的損失之外,還增加了全連接解碼階段存在的損失,以保證解碼網絡的總體誤差最小,從而使得點云補全網絡生成信息更完整的密集點云detail,并將補全的點云應用到3D目標檢測任務中。實驗結果表明,該算法能夠很好地將KITTI數(shù)據(jù)集中稀疏的汽車點云補全,并且有效地提升目標檢測的精度,特別是針對中等和困難等級的數(shù)據(jù)效果更佳,提升幅度分別達到6.81%和9.29%。

目標檢測;雷達點云;點云補全;復合損失函數(shù);KITTI

近年來,隨著硬件設備性能的飛速提升,目標識別、檢測、跟蹤、語義分割等在日常生活中的應用場景越來越廣泛,如自動駕駛、虛擬現(xiàn)實與增強現(xiàn)實、移動機器人、智能家居等。對于自動駕駛和機器人導航等對位置敏感的應用,在傳統(tǒng)的2D目標分類、檢測算法中,使用相機獲取的RGB圖像作為輸入,無法提供準確的3D位置信息。而3D目標檢測中使用的雷達點云數(shù)據(jù),與二維圖像相比,擁有更加豐富的深度信息,并且還具有抗干擾的優(yōu)勢,恰好可以解決2D圖像系統(tǒng)所面臨的挑戰(zhàn)。因此,3D目標檢測成為近幾年學術界和工程界的共同興趣所在。

對于3D目標檢測,使用何種數(shù)據(jù)類型作為輸入,以及如何處理數(shù)據(jù),成為研究的重點。最原始的3D目標檢測,僅僅使用圖像作為網絡輸入,將同一目標不同角度的圖像,作為神經網絡的輸入進行特征提取,其優(yōu)點為輸入單一,充分利用了相對成熟的2D目標檢測方法,但不足是2D模型向3D模型轉化時造成信息丟失,檢測精度極低;為了解決使用圖像進行3D目標檢測過程中精度低的問題,CHEN等[1]在2017年提出Multi-View方法,可使用RGB圖像、點云正視投影、點云俯視投影共同作為輸入,雖然檢測精度大大提高,但由于對點云進行了手工投影處理,造成了大量信息丟失,并且使用到了俯視投影,對小目標如行人、自行車等物體的檢測基本無效;為了解決信息丟失這一問題,ZHOU和TUZEL[2]于2018年提出了端到端的學習方法VoxelNet,直接將激光雷達獲取到的原始點云數(shù)據(jù)作為網絡輸入,無需進行任何投影等手工處理。由于空間中點云數(shù)據(jù)相當大,目標檢測搜索的范圍廣,且每一個點都是三維數(shù)據(jù),因此在神經網絡卷積層中涉及到了三維卷積,計算量極其龐大,不滿足用于自動駕駛場景中實時性檢測的要求;2019年SHI等[3]提出了PointRCNN的3D目標檢測方法,其同樣僅使用雷達點云作為網絡輸入,通過將點云分割為前景和背景對象來生成少量、高質量的3D提案,來自分割學習的點的代表不僅善于生成提案,還對后面的Box優(yōu)化也有所幫助;QI等[4]提出了VoteNet框架,是一個基于深度點集網絡和霍夫投票的端到端3D目標檢測網絡,不再依賴2D檢測器。這2種僅僅依賴雷達點云的目標算法,對于點云稀疏的情況并不理想。為同時解決精度、信息丟失、計算量、點云稀疏的問題,本文提出了F-PointNet[5]算法,即先利用發(fā)展相對成熟的2D目標檢測形成候選框,再根據(jù)相機和候選框的位置形成視錐,在視錐范圍內使用原始點云數(shù)據(jù)進行3D目標檢測,這既減小了空間點云的搜索范圍,也大大降低了計算量。

在實際應用場景中(如無人駕駛),由于激光雷達分辨率、掃描距離、遮擋問題等因素的限制,現(xiàn)實世界中的三維數(shù)據(jù)往往是不完整的[6]。如圖1所示,1號車輛為掃描到的較為完整的車輛信息;2號車輛由于相機與目標之間的位置關系存在一定的偏離,信息不完整;3號車輛由于距離相機位置較遠,也有一定的信息丟失,由于數(shù)據(jù)信息的丟失對于3D目標檢測是極其不利的。

因此,為了在進行3D目標檢測時得到更為準確的檢測結果,本文采用深度學習的方法對缺失的點云進行補全。

1 相關技術

F-PointNet算法是實現(xiàn)端到端學習的3D目標檢測網絡框架,如圖2所示。主要步驟如下:

(1) 2D目標檢測。以RGB圖像作為輸入,采用RPN網絡,生成二維候選框;

(2) 視錐生成。根據(jù)相機位置以及2D候選框,利用計算機圖形學中的方法生成視錐;

(3) 3D實例分割。為了去除視錐內的非感興趣點云,利用PointNet算法[7]將視錐內的檢測目標分割開;

(4) 3D框估計。對于分割出的目標點云,利用改進的PointNet算法輸出3D框參數(shù),完成3D目標檢測任務。

圖1 激光雷達實際掃描示意圖

圖2 F-PointNet整體框架[5]

2 融合稀疏點云補全的3D目標檢測算法

2.1 算法框架

目前基于雷達點云的3D目標檢測算法已成為學術界研究的熱點,但實際采集到的點云并不是完整的[8],遮擋問題、掃描距離、雷達分辨率都會造成采集到的點云丟失部分信息,這樣的數(shù)據(jù)殘缺會直接導致目標檢測算法的性能下降[9]。因此,本文提出了融合點云補全網絡(point-cloud completion network,PCN)的3D目標檢測算法,以達到優(yōu)化目標檢測算法的目的。圖3為PCN的目標檢測算法流程,包含5個部分,其中點云補全的效果直接影響了目標檢測的精度,因此需先對PCN進行改進,再應用至目標檢測任務中。

圖3 算法流程圖

2.2 基于復合損失的PCN網絡

2.2.1 PCN網絡

PCN是一個編碼、解碼機制的網絡,如圖4所示。編碼部分將信息不完整的點云作為輸入,假設共個點,通過2個PointNet網絡,輸出一個維特征向量。級聯(lián)解碼[8]部分接受這個特征向量,以全局特征向量作為輸入,解碼端首先通過全連接層,得到點較為稀疏的補全點云,再經過一個折疊機制的解碼層,以稀疏點云中的每個點為中心,在其周圍生成-1個點,可形成共計=×個密集點,完成稀疏點云補全工作。即解碼網絡先后生成一個粗略的輸出點云coarse和一個細密的輸出點云detail。

圖4 點云補全網絡

2.2.2 復合損失函數(shù)

損失函數(shù)測量輸出點云和Ground Truth點云之間的差異。由于2個點云都是無序的,因此損失需要對點的排列保持不變[10]。原PCN網絡采用倒角距離(chamfer distance,CD)進行衡量,即

由損失函數(shù)計算輸出點云1和Ground Truth點云2之間的平均最近點距離。和分別為點云1和點云1內的點,是一個三維坐標。在這個損失函數(shù)中第一項盡量使PCN網絡輸出點靠近Ground Truth點云,第二項確保Ground Truth點云被PCN網絡輸出點云覆蓋。

因此,為了減小網絡整體誤差,提升點云補全的效果,需重新定義了一個復合損失函數(shù),即

改進損失函數(shù)后,點云補全網絡的輸出與Ground Truth點云之間的CD將會變小,即輸出與Ground Truth更接近。但是3D目標檢測使用到的KITTI數(shù)據(jù)集為真實環(huán)境中采集到的數(shù)據(jù),而真實世界中并不存在完整的Ground Truth點云,因此,本文提出2個指標來驗證改進算法的有效性:

(1) 保真度誤差(fidelity error)[11]。從輸入中的每個點到其最接近的輸出點的平均距離。即輸入輸出之間的CD用來衡量在輸出點中,輸入點云的保存程度;

(2) 最小匹配距離(minimal matching distance,MMD)[11]。輸出點云與訓練數(shù)據(jù)集中最接近的汽車模型的CD,該指標衡量KITTI數(shù)據(jù)集經過補全后,是否保持了汽車模型的特征信息。

保真度誤差及MMD越小,表示點云補全的效果越好,越有利于3D目標檢測任務的進行[12]。表1為該算法在KITTI數(shù)據(jù)集上的客觀驗證效果,保真度誤差和MMD均值都有所減小,說明改進的損失函數(shù)使得輸出點云包含了更多輸入點云的形狀信息,以及更接近汽車模型的信息。

表1 KITTI數(shù)據(jù)集評估結果

為求得普遍性規(guī)律,圖5給出了KITTI數(shù)據(jù)集上2 483組輸入點云的保真度誤差和MMD的分布??捎^察到,改進損失函數(shù)之后對于大部分樣本,保真度誤差及MMD均減小,說明改進的算法對于沒有Ground Truth的點云也有較好的補全效果,能夠達到提升目標檢測精度的目的。

2.3 融合PCN的目標檢測算法

通過對PCN的改進,不難發(fā)現(xiàn)KITTI數(shù)據(jù)集中汽車點云補全的保真度誤差和MMD均減小,說明改進算法對于自動駕駛場景中的汽車點云有較好的補全效果。因此,接下來通過融合PCN至目標檢測算法中,對缺失部分信息的稀疏點云進行補全處理,可解決由于點云稀疏而給3D目標檢測帶來的精度低問題。

基于PCN改進的F-PointNet網絡,將F-PointNet網絡中3D實例分割后的稀疏點云補全之后,得到密集點云,再對3D框的參數(shù)進行回歸。對分割后的點云進行補全操作的原因主要有:①實際掃描的點云是稀疏的,若直接在不完整的點云上計算3D框的質心,將與Ground Truth有較大的差異;②對分割后的目標點云進行補全處理,而不是操作在采集到的原始點云上,如果將空間內所有的點云補全,由于背景、遮擋物等非感興趣目標點云的存在,會造成大量的嘈雜點云,這對目標檢測反而會帶來不利的影響。

改進的目標檢測算法如圖6所示。以RGB圖像和雷達點云共同作為網絡的輸入,先進行2D目標檢測并生成視錐,假設視錐內的點云數(shù)量為,那么網絡中視錐內的點云便由×3的矩陣來表示,為得到的目標類別;接著,由3D實例分割網絡判斷視錐內的每個點的類別是否屬于感興趣區(qū)域,分割出屬于感興趣區(qū)域點云的個稀疏點;而后經過PCN點云補全網絡,生成個密集點;最后經過3D框估計網絡,輸出立體框參數(shù),完成目標檢測。

圖6 改進的3D目標檢測網絡

3 實驗結果及分析

3.1 實驗數(shù)據(jù)集

在目標檢測過程中,使用的數(shù)據(jù)是自動駕駛場景中3D目標檢測一貫使用的三維KITTI數(shù)據(jù)集,包含訓練集3 712組數(shù)據(jù),驗證集3 769組數(shù)據(jù),每組數(shù)據(jù)包含RGB圖像、雷達點云數(shù)據(jù)和將兩者對應起來的投影參數(shù)。根據(jù)遮擋、截斷情況及點云稀疏程度等,將數(shù)據(jù)分為簡單、中等、困難3個等級。訓練和目標檢測雖然用的是不同的數(shù)據(jù)集,但是點云補全網絡的PN層是改進的PointNet網絡,其最大的優(yōu)勢是具有一定的自適應能力,T-Net結構是一種特殊類型的空間轉換網絡(spatial transformer network,STN)[13],可將不同尺度的輸入,轉換成最有利于模型的結果。這是當下很多點云處理網絡使用PointNet網絡的重要原因。

3.2 PCN改進前后的倒角距離

圖7 點云補全算法對比結果

除了以上的對比結果,表2還給出各種補全算法的最終輸出與Ground Truth之間的CD,發(fā)現(xiàn)本文方法最佳,CD為0.054 967,較改進之前降低了0.014 453,證明了本文方法的有效性,請注意,表2中的CD為各種方法在Shapenet數(shù)據(jù)集上257組驗證集的平均結果,而非某一組數(shù)據(jù)的CD。

表2 不同點云補全算法效果對比

3.3 3D目標檢測實驗結果

圖8為城市和高速公路2個場景中的點云補全前后,基于雷達點云的3D目標檢測的對比實驗結果,圖8(a)和(c)為真實場景中使用F-PointNet進行檢測的結果;圖8(b)和(d)為將3D實例分割的點云補全操作之后進行的3D目標檢測結果,其中紅框為Ground Truth,綠框為本文算法預測出來的立體框,可以觀察到,經過補全操作后,本文檢測結果更接近Ground Truth,對于遠處的目標,原算法并未檢測出來,圖中遠處僅有一個紅色的立體框,而經過補全之后,遠處目標也被檢測到,并且結果與Ground Truth極其相近。

以上為實驗的主觀結果,但要是衡量點云補全算法在目標檢測任務中的有效性,還需要從客觀的目標檢測結果的平均精度(average precision,AP)來分析。表3給出了在Nvidia GeForce 1060TiGPU,Ubuntu16.04,Python2.7,Tensorflow1.12實驗配置下,本文算法各個環(huán)節(jié)運行的平均時間。表4是不同算法對KITTI數(shù)據(jù)集中的車輛目標進行檢測的結果,結果中的簡單、中等、困難表示不同遮擋情況以及稀疏程度的點云。目標檢測的IOU閾值設定為0.7。

從對比實驗結果發(fā)現(xiàn),在未增加過多運行時間的前提下,可將F-PointNet算法3D分割后的稀疏點云進行補全操作,得到密集點云,再完成3D框的估計,觀察到實驗結果有了很大程度的提升。特別是針對中等和困難2個等級的數(shù)據(jù),分別提升了6.81%和9.29%,效果顯著。這是因為對稀疏點云加密后,更接近簡單等級的數(shù)據(jù),從而檢測效果有了明顯地提升。

表3 本文算法運行平均時間(ms)

表4 不同目標檢測算法實驗AP對比結果(%)

4 結 論

與RGB圖像相比,雖然雷達點云不易受到光照、天氣等外界因素的影響,但就雷達點云本身而言,會因為激光雷達的分辨率、距離等因素,造成點云的稀疏問題,特別是遠處的目標,采集到的點云數(shù)據(jù)更加稀疏。因此,本文提出一種融合稀疏點云補全的目標檢測算法,有效地提升了目標檢測精度。在解碼網絡,根據(jù)網絡采用全連接解碼與折疊解碼級聯(lián)的解碼方式的特性,定義了一個新的復合損失函數(shù)。復合損失函數(shù)中除了原有的折疊解碼階段的損失之外,還增加了全連接解碼階段存在的損失,以保證解碼網絡的總體誤差最小,從而使得點云補全網絡生成信息更完整的密集點云。最后,通過實驗證明,本文的改進對稀疏點云補全效果更好,并且應用到3D目標檢測任務中,檢測精度大大提升,特別是KITTI數(shù)據(jù)集中中等和困難級別的點云,3D目標檢測提升效果更好。

[1] CHEN X Z, MA H M, WAN J, et al. Multi-view 3D object detection network for autonomous driving[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 6526-6534.

[2] ZHOU Y, TUZEL O. VoxelNet: end-to-end learning for point cloud based 3D object detection[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 4490-4499.

[3] SHI S S, WANG X G, LI H S. PointRCNN: 3D object proposal generation and detection from point cloud[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 770-779.

[4] QI C R, LITANY O, HE K M, et al. Deep hough voting for 3D object detection in point clouds[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). New York: IEEE Press, 2019: 9276-9285.

[5] QI C R, LIU W, WU C X, et al. Frustum PointNets for 3D object detection from RGB-D data[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 918-927.

[6] THRUN S, WEGBREIT B. Shape from symmetry[C]//The10th IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2005: 1824-1831.

[7] CHARLES R Q, SU H, MO K C, et al. PointNet: deep learning on point sets for 3D classification and segmentation[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 77-85.

[8] CHEN L C, ZHU Y K, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[M]//Computer Vision – ECCV 2018. Cham: Springer International Publishing, 2018: 833-851.

[9] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[10] ARMENI I, SAX S, ZAMIR A R, et al.Joint 2D-3D-Semantic data for indoor scene understanding[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). New York: IEEE Press, 2017: 7126-7134.

[11] MASCI J, BOSCAINI D, BRONSTEIN M M, et al. Geodesic convolutional neural networks on Riemannian manifolds[C]//2015 IEEE International Conference on Computer Vision Workshop (ICCVW). New York: IEEE Press, 2015: 832-840.

[12] RUSU R B, BLODOW N, MARTON Z C, et al. Aligning point cloud views using persistent feature histograms[C]//2008 IEEE/RSJ International Conference on Intelligent Robots and Systems. New York: IEEE Press, 2008: 3384-3391.

[13] QI C R, YI L, SU H, et al. PointNet++: deep hierarchical feature learning on point sets in a metric space[C]//2017 Neural Information Processing Systems. New York: IEEE Press, 2017: 5099-5108.

[14] QI C R, SU H, NIE?NER M, et al. Volumetric and multi-view CNNs for object classification on 3D data[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 5648-5656.

[15] ACHLIOPTAS P, DIAMANTI O, MITLIAGKAS I, et al. Learning representations and generative models for 3D point clouds[C]//2018 International Conference on Machine Learning. New York: IEEE Press, 2018: 40-49.

[16] YANG Y Q, FENG C, SHEN Y R, et al. FoldingNet: point cloud auto-encoder via deep grid deformation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 206-215.

3D object detection algorithm combined with sparse point cloud completion

XU Chen1,2, NI Rong-rong1,2, ZHAO Yao1,2

(1. Institute of Information Science, Beijing Jiaotong University, Beijing 100044, China; 2. Beijing Key Laboratory of Modern Information Science and Network Technology, Beijing 100044, China)

The 3D object detection method based on radar point cloud effectively solves the problem that the 2D object detection based on RGB images is easily affected by such factors as light and weather. However, due to such issues as radar resolution and scanning distance, the point clouds collected by lidar are often sparse, which will undermine the accuracy of 3D object detection. To address this problem, an object detection algorithm fused with sparse point cloud completion was proposed. A point cloud completion network was constructed using encoding and decoding mechanisms. A complete dense point cloud was generated from the input partial sparse point cloud. According to the characteristics of the cascade decoder method, a new composite loss function was defined. In addition to the loss in the original folding-based decoder stage, the compound loss function also added the loss in the fully connected decoder stage to ensure that the total error of the decoder network was minimized. Thus, the point cloud completion network could generate dense points with more complete informationdetail, and apply the completed point cloud to the 3D object detection task. Experimental results show that the proposed algorithm can well complete the sparse car point cloud in the KITTI data set, and effectively improve the accuracy of object detection, especially for the data of moderate and high difficulty, with the improvement of 6.81% and 9.29%, respectively.

object detection; radar point clouds; point cloud completion; compound loss function; KITTI

TP 391

10.11996/JG.j.2095-302X.2021010037

A

2095-302X(2021)01-0037-07

2020-05-27;

27 May,2020;

2020-08-28

28 August,2020

國家重點研發(fā)計劃項目(2018YFB1201601);國家自然科學基金項目(61672090);中央高?;究蒲袠I(yè)務費專項資金(2018JBZ001)

:National Key Research and Development Program (2018YFB1201601); National Natural Science Foundation of China (61672090); Special Fund for Fundamental Research Funds for Central Universities (2018JBZ001)

徐 晨(1995–),男,河北張家口人,碩士研究生。主要研究方向為自動駕駛、目標檢測。E-mail:18125180@bjtu.edu.cn

XU Chen (1995–), male, master student. His main research interests cover autonomous driving and object detection. E-mail:18125180@bjtu.edu.cn

倪蓉蓉(1976–),女,安徽淮南人,教授,博士,博士生導師。主要研究方向為數(shù)字圖像處理與模式識別、數(shù)字水印與取證。E-mail:rrni_mepro@163.com

NI Rong-rong (1976–), female, professor, Ph.D. Her main research interests cover graphic image processing, pattern recognition,digital watermarking and forensics, etc. E-mail:rrni_mepro@163.com

猜你喜歡
視錐解碼損失
《解碼萬噸站》
胖胖損失了多少元
解碼eUCP2.0
眼睛是怎么看見各種顏色的?
NAD C368解碼/放大器一體機
Quad(國都)Vena解碼/放大器一體機
玉米抽穗前倒伏怎么辦?怎么減少損失?
為什么不直視,反而能看到暗淡的星星?
知否
菜燒好了應該盡量馬上吃