張浩鈞,郭建峰,張錦忠,柴博松,侯詩夢,張學(xué)成
(1.上海無線電設(shè)備研究所,上海 201109;2.西安郵電大學(xué) 經(jīng)濟(jì)與管理學(xué)院,陜西 西安 710061;3.西北工業(yè)大學(xué) 軟件學(xué)院,陜西 西安 710072;4.陸軍裝備部駐上海地區(qū)第三軍事代表室,上海 200032)
自動駕駛技術(shù)依靠環(huán)境感知、人工智能、視覺計算、雷達(dá)監(jiān)控等相關(guān)設(shè)備自動駕駛車輛。目前,自動駕駛的感知技術(shù)利用多傳感器,如相機(jī)、激光雷達(dá)和紅外雷達(dá)等獲取環(huán)境信息。在檢測任務(wù)中,傳感器所獲取的信息也被稱為模態(tài)數(shù)據(jù),不同的模態(tài)數(shù)據(jù)具備不同的特性。如何準(zhǔn)確檢測立體場景中的三維目標(biāo)逐漸成為目標(biāo)檢測任務(wù)的研究熱點(diǎn)。隨著激光雷達(dá)的廣泛應(yīng)用,點(diǎn)云數(shù)據(jù)能夠包含檢測對象的三維信息,可以得到更為準(zhǔn)確的物體空間信息,并且點(diǎn)云數(shù)據(jù)不受光照影響,立體目標(biāo)檢測任務(wù)可以使用激光雷達(dá)的點(diǎn)云數(shù)據(jù)進(jìn)行檢測。
在自動駕駛領(lǐng)域,進(jìn)行目標(biāo)檢測的算法主要有以下3種思路。
第一,利用圖像數(shù)據(jù)進(jìn)行檢測。例如,采用快速的基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(Fast Region-based Convolutional Network,Fast RCNN)、更快速的基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(Faster Region-based Convolutional Network,Faster RCNN)、統(tǒng)一實(shí)時目標(biāo)檢測(You Only Look Once,YOLO)、單次多邊框檢測(Single Shot MultiBox Detector,SSD)等目標(biāo)檢測算法[1-4]對圖像數(shù)據(jù)進(jìn)行檢測。目前,該類方法目標(biāo)檢測的精度和速度均不斷提高,但是,由于相機(jī)圖像數(shù)據(jù)為二維數(shù)據(jù),當(dāng)應(yīng)用于自動駕駛領(lǐng)域的檢測時,難以獲得三維目標(biāo)的空間定位。一種解決辦法是在3D單目(Monocular 3D,Mono3D)[5]網(wǎng)絡(luò)中依賴圖像數(shù)據(jù)生成深度信息,以補(bǔ)足二維圖像數(shù)據(jù)缺乏的維度信息,然后,憑借補(bǔ)足后的圖像數(shù)據(jù)和深度信息完成檢測任務(wù)。
第二,利用激光雷達(dá)數(shù)據(jù)進(jìn)行檢測。由于激光雷達(dá)數(shù)據(jù)具有豐富的三維信息,可以根據(jù)這點(diǎn)來進(jìn)行三維目標(biāo)檢測。端到端的點(diǎn)云目標(biāo)檢測網(wǎng)絡(luò)VoxelNe網(wǎng)絡(luò)[6]的提出將點(diǎn)云數(shù)據(jù)進(jìn)行體素化,根據(jù)體素中是否包含目標(biāo),將每個體素賦值為1或0,然后,將三維卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于體素網(wǎng)格。應(yīng)用于3D分類和分割的點(diǎn)集深度學(xué)習(xí)(Deep Learning on Point Sets for 3D Classification and Segmentation,PointNet)網(wǎng)絡(luò)、度量空間中點(diǎn)集的深度分層特征學(xué)習(xí)(Deep Hierarchical Feature Learning on Point Sets in a Metric Space,PointNet++)網(wǎng)絡(luò)、點(diǎn)云的3D目標(biāo)生成與檢測(3D Object Proposal Generation and Detection from Point Cloud, Point RCNN)網(wǎng)絡(luò)[7-9]等算法直接對點(diǎn)云進(jìn)行處理,并進(jìn)行點(diǎn)云分類。但是,這種方法更多適用于室內(nèi)環(huán)境等小場景,當(dāng)應(yīng)用于自動駕駛的復(fù)雜場景中時,檢測效果不夠理想。基于激光雷達(dá)點(diǎn)云的端到端實(shí)時三維物體邊界檢測YOLO 3D模型[10]借鑒二維目標(biāo)檢測思想,將激光雷達(dá)數(shù)據(jù)投影為點(diǎn)云俯視圖(Bird’s Eyes View,BEV),在俯視圖上進(jìn)行特征提取,然后,通過三維檢測框的方式進(jìn)行目標(biāo)分類和位置回歸,這種方法較VoxelNet檢測速度較快,但是,存在數(shù)據(jù)利用不充分的缺點(diǎn)。
第三,利用激光雷達(dá)數(shù)據(jù)和圖像數(shù)據(jù)進(jìn)行融合檢測。自動駕駛多模態(tài)的3D目標(biāo)檢測(Multi-view 3D Object Detection Network for Autonomous Driving,MV3D)網(wǎng)絡(luò)[11]首先將激光雷達(dá)數(shù)據(jù)投影為俯視圖與前視圖;其次,在BEV上生成候選區(qū)域,再將候選區(qū)域分別映射為3通道紅綠藍(lán)(Red Green Blue,RGB) 彩色圖像以及BEV與前視圖上,進(jìn)行感興趣區(qū)域的特征提取和特征融合;最后,利用檢測網(wǎng)絡(luò)進(jìn)行位置回歸和目標(biāo)分類?;谝晥D聚合的三維建議聯(lián)合生成和對象檢測(Joint 3D Proposal Generation and Object Detection from View Aggregation,AVOD)網(wǎng)絡(luò)[12]首先利用深度卷積網(wǎng)絡(luò)分別對三維點(diǎn)云數(shù)據(jù)的俯視圖與二維圖像進(jìn)行特征提取,然后,進(jìn)行目標(biāo)分類和位置回歸。在多傳感器三維目標(biāo)檢測的深度連續(xù)融合(Deep Continuous Fusion for Multi-Sensor 3D Object Detection,ContFuse)網(wǎng)絡(luò)[13]中,將三維點(diǎn)云數(shù)據(jù)的BEV與圖像數(shù)據(jù)通過連續(xù)卷積方式進(jìn)行融合,形成密集的鳥瞰圖數(shù)據(jù)。相較于MV3D方法,俯視圖包含更多信息,然后,針對密集俯視圖進(jìn)行位置回歸和目標(biāo)分類。文獻(xiàn)[14]提出點(diǎn)云網(wǎng)絡(luò)(Frustum Pointnets Network,F-PointNet),采用決策層融合進(jìn)行檢測。F-PointNet網(wǎng)絡(luò)利用二維目標(biāo)檢測算法對圖像數(shù)據(jù)進(jìn)行檢測,并根據(jù)圖像的二維檢測結(jié)果來確定視錐,進(jìn)而確定目標(biāo)在點(diǎn)云中的空間位置,回歸計算出目標(biāo)的位置及尺寸。
PointNet算法與PointNet++算法均對原始點(diǎn)云數(shù)據(jù)進(jìn)行檢測任務(wù),需要占用龐大的硬件計算資源和存儲資源,整體網(wǎng)絡(luò)的計算速度較慢。VoxelNet網(wǎng)絡(luò)對點(diǎn)云數(shù)據(jù)進(jìn)行體素編碼處理,檢測速度明顯優(yōu)于PointNet算法,然而,在計算過程中需要對空體素塊推算,計算速度相對YOLO3D算法較慢。
該文針對單點(diǎn)云數(shù)據(jù)的三維目標(biāo)檢測算法存在的特征缺失,當(dāng)存在遮擋目標(biāo)時,容易出現(xiàn)漏檢或誤檢的情況,以及多尺度目標(biāo)環(huán)境下小目標(biāo)檢測精度低等問題展開研究,擬提出一種基于多源數(shù)據(jù)融合的多尺度目標(biāo)檢測算法,對YOLO3D的主干網(wǎng)絡(luò)進(jìn)行改進(jìn),引入壓縮-解壓網(wǎng)絡(luò)(Squeeze-and-Excitation Networks,SeNet)方法[15],對圖像和BEV特征進(jìn)行提取并融合,構(gòu)建雙向特征金字塔處理(Feature Pyramid Network,FPN)融合帶來偏差的問題,從而達(dá)到對立體場景中的車輛等物體進(jìn)行有效檢測的目標(biāo)。
作為三維目標(biāo)檢測網(wǎng)絡(luò),YOLO 3D網(wǎng)絡(luò)學(xué)習(xí)二維目標(biāo)檢測YOLOv2網(wǎng)絡(luò),利用二維點(diǎn)云俯視圖進(jìn)行三維目標(biāo)檢測。由于點(diǎn)云數(shù)據(jù)在空間中不會受到景深的影響,因此,YOLO 3D網(wǎng)絡(luò)將點(diǎn)云數(shù)據(jù)投影映射為俯視圖,并根據(jù)YOLOv2算法的特征提取網(wǎng)絡(luò)結(jié)構(gòu),對俯視圖特征進(jìn)行提取,然后,根據(jù)三維立體檢測框?qū)Ω┮晥D特征進(jìn)行類別確定及位置回歸計算。BEV三維特征圖及合成圖示意如圖1所示。
圖1 BEV三維特征圖及合成圖示意
YOLO 3D網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖2所示,從左至右依次為數(shù)據(jù)輸入單元模塊、特征提取網(wǎng)絡(luò)模塊、檢測向量模塊和目標(biāo)回歸計算模塊。在特征提取網(wǎng)絡(luò)模塊中,包含特征提取單元卷積層、批量正則化和激活函數(shù)(Conv,Batch Normalization,Leaky Relu,CBL)結(jié)構(gòu)塊由卷積層Conv,標(biāo)準(zhǔn)化層(Batch Normalization,BN)和激活函數(shù)層(Rectified Linear Unit,ReLU)組成。YOLO 3D網(wǎng)絡(luò)首先計算出點(diǎn)云俯視圖的高度特征與密度特征,形成608×608×2的特征圖,并將特征圖輸入DarkNet特征提取網(wǎng)絡(luò)中,然后,將經(jīng)特征提取之后的參數(shù)轉(zhuǎn)換為38×38×33的檢測向量,最后在計算檢測向量的過程中,分別求取不同類別目標(biāo)的檢測框及概率。
圖2 3D目標(biāo)檢測網(wǎng)絡(luò)結(jié)構(gòu)示意圖
由于雷達(dá)點(diǎn)云數(shù)據(jù)對目標(biāo)的紋理判斷不準(zhǔn)確,在遇到遮擋目標(biāo)時不能夠準(zhǔn)確檢測目標(biāo)。針對此問題,對于YOLO 3D的單點(diǎn)云檢測算法進(jìn)行改進(jìn),構(gòu)建出一種基于激光點(diǎn)云與圖像數(shù)據(jù)融合,具有注意力殘差結(jié)構(gòu)的目標(biāo)檢測網(wǎng)絡(luò)(ContFuse-SE-ResNet-YOLO 3D,CFSR-YOLO 3D)。
CFSR-YOLO 3D網(wǎng)絡(luò)利用殘差網(wǎng)絡(luò)結(jié)構(gòu)ResNet[16],使得神經(jīng)網(wǎng)絡(luò)在進(jìn)行特征提取的過程中能夠逼近于特征提取前的參數(shù),以避免由于多層次卷積結(jié)構(gòu)所導(dǎo)致的數(shù)據(jù)丟失和過多參數(shù)導(dǎo)致的過擬合情況。采用的ResNet的網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖3所示。對于輸入的x,經(jīng)過兩層卷積層處理之后所得到的輸出結(jié)果為F(x),通過殘差結(jié)構(gòu)之后的輸出結(jié)果為F(x)+x。經(jīng)過殘差短接之后,下層的殘差網(wǎng)絡(luò)結(jié)構(gòu)輸入受上層的影響,能夠接收原始數(shù)據(jù)的增益,整體網(wǎng)絡(luò)在最終計算時,能夠綜合前向的數(shù)據(jù)傳遞,不會因?yàn)榻?jīng)激活函數(shù)之后的參數(shù)過量造成過擬合情況的發(fā)生,導(dǎo)致出現(xiàn)無法收斂的情況。
圖3 ResNet網(wǎng)絡(luò)結(jié)構(gòu)示意圖
使用殘差網(wǎng)絡(luò)結(jié)構(gòu)對原數(shù)據(jù)進(jìn)行提取,能夠得到特征處理前的參數(shù)回饋,從而改善網(wǎng)絡(luò)中對于數(shù)據(jù)的處理變換所造成丟失的情況,使得在神經(jīng)網(wǎng)絡(luò)在進(jìn)行特征提取的過程中,更加貼切所需要提取的數(shù)據(jù),以避免多層次的特征提取之后,喪失了對于原數(shù)據(jù)的特征表達(dá)。
在YOLO網(wǎng)絡(luò)中,采用卷積神經(jīng)網(wǎng)絡(luò)來進(jìn)行特征提取,在YOLOv2中采用DarkNet19來進(jìn)行檢測。在VGG16[17]、ResNet101和ResNet152方法中,多采用堆疊網(wǎng)絡(luò)深度來提高檢測效果,在YOLOv3中同樣采用了增加網(wǎng)絡(luò)深度的方式來提高檢測。為了提高檢測效果,同時,避免帶來龐大的計算資源消耗,采用SeNet網(wǎng)絡(luò)來替代YOLO 3D中卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取。SeNet是一種具有注意力機(jī)制的網(wǎng)絡(luò)。SeNet網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖4所示。圖中,x表示輸入,c表示網(wǎng)絡(luò)的通道數(shù),h表示網(wǎng)絡(luò)的高度,w表示網(wǎng)絡(luò)的寬度。對于輸入x,首先通過池化層(pooling);其次,經(jīng)過兩層全連接層(Full Connection);再次,通過一個S型(Sigmoid)激活函數(shù)獲得0~1之間的歸一化權(quán)重;最后,通過Scale操作將歸一化后的權(quán)重加權(quán)到每個通道的特征上。
圖4 SeNet網(wǎng)絡(luò)結(jié)構(gòu)示意圖
對于卷積神經(jīng)網(wǎng)絡(luò),卷積操作的計算核心為卷積算子,是利用卷積核從輸入特征圖中學(xué)習(xí)新特征圖的過程。從本質(zhì)上講,卷積是對一個局部區(qū)域進(jìn)行特征融合,包括從空間上(高度維度h和寬度維度w)以及通道上(通道數(shù)c維度)的特征融合。在網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)過程中,若未針對性地對特征進(jìn)行檢測,將會花費(fèi)大量無效的時間。在訓(xùn)練學(xué)習(xí),采用注意力機(jī)制能夠提高計算中對于相關(guān)資源的傾向性[18]。使用空間注意力機(jī)制和通道注意力機(jī)制[19-20],能夠提高神經(jīng)網(wǎng)絡(luò)對于有效特征的提取。
空間注意力機(jī)制典型網(wǎng)絡(luò)以空間變形器網(wǎng)絡(luò)(Spatial Transformer Networks,STN)[21]和動態(tài)容量網(wǎng)絡(luò)(Dynamic Capacity Networks,DCN)[22]代表。以STN為例,在經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)中,顯式學(xué)習(xí)空間中的平移具有不變性,但是,對于大尺度圖像而言,并不具備空間平移不變性。而在STN網(wǎng)絡(luò)中,通過給圖片特征施加仿射變換等方式,使得圖像特征能夠建立起平移不變性、旋轉(zhuǎn)不變性及縮放不變性。在SeNet網(wǎng)絡(luò)中,通過分配給每個卷積通道之間不同的資源,能夠提高有效資源的獲取效率。SeNet網(wǎng)絡(luò)顯式地建模特征通道之間的相互依賴關(guān)系,通過訓(xùn)練學(xué)習(xí)的方式來自動獲取每個特征通道的重要程度,然后,依照重要程度去增強(qiáng)有用的特征并抑制對當(dāng)前任務(wù)用處不大的特征,從而能夠減少整體網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)的錯誤率,并且提高檢測的準(zhǔn)確性。
由于ReLU函數(shù)的簡單性和直接性,目前的卷積神經(jīng)網(wǎng)絡(luò)中多采用ReLU函數(shù)作為激活函數(shù)來使用。當(dāng)堆疊深層網(wǎng)絡(luò)時,神經(jīng)元需要傳遞的參數(shù)較多,ReLU的門限函數(shù)使得當(dāng)前神經(jīng)元的值為負(fù)數(shù)時,梯度不再進(jìn)行傳遞,出現(xiàn)神經(jīng)元“死亡”的情況。而Swish函數(shù)具有無上界、有下界、平滑、非單調(diào)的特性,并且在深層次的網(wǎng)絡(luò)中不會出現(xiàn)ReLU函數(shù)的神經(jīng)元“死亡”情況。
針對ReLU激活函數(shù)在神經(jīng)網(wǎng)絡(luò)中易導(dǎo)致神經(jīng)元“死亡”的問題,使用Swish激活函數(shù)對通道注意力殘差網(wǎng)絡(luò)SE-ResNet中的ReLU函數(shù)進(jìn)行替換。盡管會因此加深網(wǎng)絡(luò)結(jié)構(gòu)深度,但是,在深層神經(jīng)網(wǎng)絡(luò)中使用Swish激活函數(shù)并不會發(fā)生神經(jīng)元“死亡”的情況。Swish函數(shù)中的超參數(shù)β可以通過網(wǎng)絡(luò)訓(xùn)練進(jìn)行自適應(yīng)學(xué)習(xí),能夠更加泛化地模擬神經(jīng)網(wǎng)絡(luò)的非線性情況,以提高網(wǎng)絡(luò)魯棒性。改進(jìn)激活函數(shù)后的通道注意力殘差網(wǎng)絡(luò)Swish-SE-ResNet網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖5所示。對于輸入的x經(jīng)過卷積操作(Conv)和標(biāo)準(zhǔn)化處理(Batch Normalization,BN)后分層處理,然后把處理后的結(jié)果進(jìn)行融合操作。
圖5 Swish-SE-ResNet網(wǎng)絡(luò)結(jié)構(gòu)示意圖
為了適應(yīng)在三維目標(biāo)檢測任務(wù)中多樣化的場景和多尺度目標(biāo),進(jìn)一步對改進(jìn)的YOLO 3D端到端目標(biāo)檢測網(wǎng)絡(luò)進(jìn)行調(diào)整,搭建CFSR-Bi-YOLO 3D多尺度數(shù)據(jù)融合目標(biāo)檢測網(wǎng)絡(luò)。根據(jù)不同大小和尺度目標(biāo)的檢測要求,將多源數(shù)據(jù)的融合過程進(jìn)行多層次增強(qiáng),并調(diào)整對不同尺度目標(biāo)的檢測框,通過分層檢測的方式檢測不同大小的目標(biāo)。
根據(jù)FPN的分層理念,檢測網(wǎng)絡(luò)對不同的目標(biāo)采用不同尺度的檢測,并綜合高維度與低維度的特征,將高維度的特征經(jīng)過上采樣之后融入低維度特征中,讓低維度特征在進(jìn)行檢測的同時接收到高緯度的語義信息,最終完成檢測任務(wù)。但是,FPN結(jié)構(gòu)僅采用了一次高維度向低維度的擴(kuò)張,并且在進(jìn)行不同維度特征間融合時,使用均值的方式進(jìn)行融合,這對不同特征而言,融合之后會帶來一定的偏差。
圖6 BiFPN網(wǎng)絡(luò)結(jié)構(gòu)示意圖
為應(yīng)對FPN的均值融合存在的問題,將不同維度特征在融合過程中施加不同的偏置,從而使得融合之后特征能夠根據(jù)檢測任務(wù)的重點(diǎn),學(xué)習(xí)對不同融合特征的傾向,以實(shí)現(xiàn)更高級的特征融合。以第5層特征圖為例,第5層特征金字塔中的特征融合結(jié)果和輸出特征圖的計算表示式分別為
(1)
(2)
(3)
(4)
提出的目標(biāo)檢測網(wǎng)絡(luò)所使用數(shù)據(jù)集為KITTI數(shù)據(jù)集[23-24]。該點(diǎn)云數(shù)據(jù)集通過激光照射到物體表面獲取對目標(biāo)的距離信息的坐標(biāo)以及反射強(qiáng)度值。對于數(shù)據(jù)進(jìn)行如下處理。
首先,將投影點(diǎn)云離散成一個分辨率為0.1 m/pixel的網(wǎng)格。對于每個單元格而言,高度特征被計算為該單元格點(diǎn)的最大高度,強(qiáng)度特征為每個單元中具有最大高度的點(diǎn)的反射率值,密度特征為每個單元中點(diǎn)的數(shù)量。然后,將高度特征、強(qiáng)度特征與密度特征合成為BEV圖像,高度特征、強(qiáng)度特征與密度特征分別為BEV圖像的不同通道,處理后的圖像示意圖如圖1所示。其中,高度特征為每個單元格中點(diǎn)云的最大高度值;強(qiáng)度特征是在每個單元格位置取得點(diǎn)云反射強(qiáng)度的最大值,并歸一化到0~255之間。
對密度特征而言,由于點(diǎn)云分布特點(diǎn)是近多遠(yuǎn)少,導(dǎo)致在近處單元格中點(diǎn)云數(shù)量分布較多,遠(yuǎn)處的單元格點(diǎn)云數(shù)量分布較少,需要采用歸一化處理,歸一化后的密度值為
(5)
式中,N為單元格中點(diǎn)云的數(shù)量。
在原YOLO 3D三維目標(biāo)檢測方法中,將點(diǎn)云數(shù)據(jù)投影為俯視圖。該處理方法對于數(shù)據(jù)的利用不夠充分,為了使得激光雷達(dá)數(shù)據(jù)與圖像數(shù)據(jù)有效融合,采用連續(xù)卷積融合方案,輸出信息數(shù)據(jù)更加豐富的俯視圖特征。
多源數(shù)據(jù)融合根據(jù)融合過程發(fā)生在不同的階段可分為特征層融合、決策層融合和混和階段融合等3種情況。由于激光雷達(dá)數(shù)據(jù)與圖像數(shù)據(jù)具有一定相關(guān)性,文中采用的融合策略為特征層融合。根據(jù)連續(xù)卷積融合方案,首先,構(gòu)建兩個學(xué)習(xí)流,采用SeNet網(wǎng)絡(luò)分別從圖像和BEV中提取特征;其次,通過深度參數(shù)連續(xù)卷積[25]將不同分辨率的圖像和BEV特征圖進(jìn)行融合;最后,利用改進(jìn)之后的YOLO網(wǎng)絡(luò)對融合后的特征進(jìn)行三維目標(biāo)檢測。整體網(wǎng)絡(luò)結(jié)構(gòu)及處理示意圖如圖7所示。
圖7 整體網(wǎng)絡(luò)結(jié)構(gòu)及處理示意圖
參數(shù)連續(xù)卷積是一種可以處理非網(wǎng)格結(jié)構(gòu)數(shù)據(jù)的深度學(xué)習(xí)網(wǎng)絡(luò)。參數(shù)連續(xù)卷積將標(biāo)準(zhǔn)的網(wǎng)格結(jié)構(gòu)的卷積擴(kuò)展到非網(wǎng)格結(jié)構(gòu)的數(shù)據(jù),同時保持高容量和低復(fù)雜度。其關(guān)鍵思想是利用多層感知器(Multi-Layer Perception,MPL)作為參數(shù)化核函數(shù)進(jìn)行連續(xù)卷積。該參數(shù)化核函數(shù)跨越了整個連續(xù)域。此外,利用有限數(shù)量的相鄰點(diǎn)上的加權(quán)求和來近似原本計算上禁止的連續(xù)卷積。
每個鄰居根據(jù)其關(guān)于目標(biāo)點(diǎn)的相對幾何偏移量進(jìn)行不同的加權(quán)。具體而言,假設(shè)點(diǎn)j在點(diǎn)i的鄰居上建立索引,則點(diǎn)i處的連續(xù)卷積特征可以表示為
(6)
式中:MPL(·)表示多層感知器操作,其計算點(diǎn)i每個鄰點(diǎn)處的卷積權(quán)值,對每個鄰點(diǎn)處的卷積權(quán)值進(jìn)行求和;xi表示點(diǎn)i的坐標(biāo)信息;xj表示點(diǎn)i相關(guān)聯(lián)的的鄰居點(diǎn)j的連續(xù)坐標(biāo)信息;fj表示點(diǎn)j的輸入圖像特征。
參數(shù)連續(xù)卷積的優(yōu)點(diǎn)是,利用標(biāo)準(zhǔn)卷積的概念從鄰近觀測中捕獲局部信息,而不需要可能導(dǎo)致幾何信息丟失的柵格化階段。對每個點(diǎn)云的點(diǎn)而言,MLP的輸入包含兩部分:一部分是通過將源激光雷達(dá)點(diǎn)投影到圖像平面上,提取出相應(yīng)的圖像特征,然后利用雙線性插值法得到了連續(xù)坐標(biāo)下的圖像特征;另一部分是激光雷達(dá)點(diǎn)和目標(biāo)像素之間的三維相鄰偏移??傮w而言,對于每個目標(biāo)像素,MLP操作通過對其所有相鄰像素的MLP操作的輸出進(jìn)行求加來輸出一個多維輸出特征。MLP的輸出特征通過元素方面的總和與前一層的BEV特征相結(jié)合,以融合多傳感器信息。可以將點(diǎn)i處的多維輸出特征可以表示為
(7)
式中,xi-xj為點(diǎn)j與目標(biāo)點(diǎn)i的三維偏移。
參數(shù)連續(xù)卷積融合計算過程示意圖如圖8所示。
圖8 參數(shù)連續(xù)卷積融合計算過程示意圖
圖8中,參數(shù)連續(xù)卷積融合計算的計算步驟如下。
步驟1針對BEV圖像的目標(biāo)像素,提取K個最近的雷達(dá)點(diǎn)。
步驟2將BEV圖像的目標(biāo)像素和K個近鄰點(diǎn)映射在三維空間中。
步驟3將三維空間的BEV圖像目標(biāo)像素與K個緊鄰點(diǎn),投影在圖像坐標(biāo)系下。
步驟4找到BEV圖像的目標(biāo)像素對應(yīng)的圖像特征及三維偏移。
步驟5將圖像特征與連續(xù)幾何偏移輸入MPL中,生成目標(biāo)像素特征。生成稀疏俯視圖和密集俯視圖對比如圖9所示??梢钥闯?密集俯視圖提取到更多細(xì)節(jié)目標(biāo)信息,目標(biāo)特征更加明顯。
圖9 稀疏俯視圖和密集俯視圖對比
利用通道注意力殘差提取單元SeNet對圖像特征和點(diǎn)云俯視圖特征進(jìn)行分流特征提取,提取后的特征向量為76×76×256維度、38×38×512維度和19×19×1 024維度等3種維度。將多源數(shù)據(jù)特征進(jìn)行多層次融合的步驟如下。
步驟1讀取KITTI數(shù)據(jù)集所提供的配準(zhǔn)文件中的坐標(biāo)系轉(zhuǎn)換矩陣與偏移矩陣。
步驟2計算投影矩陣。投影矩陣計算公式為
Pvelo_to_im g=Prect_02Rrect_00(R|T)velo_to cam
(8)
式中:Prect 02為3×4矩陣,表示投影矩陣,從矯正后的0號相機(jī)坐標(biāo)系投影到2號坐標(biāo)系的圖像平面;Rrect 00為3×3矩陣,表示矯正0號相機(jī)的偏移矩陣;(R|T)velo to cam為3×3矩陣,表示從雷達(dá)點(diǎn)云坐標(biāo)系向0號相機(jī)坐標(biāo)系的轉(zhuǎn)化矩陣。
(9)
式中,Pvelo_to_img表示3×3的點(diǎn)云投影圖像矩陣。
(10)
式中:n表示特征層層級數(shù);MLP操作表示多層感知器操作,即連續(xù)卷積網(wǎng)絡(luò)中的全連接的核函數(shù)計算過程,MLP操作將空間點(diǎn)所對應(yīng)圖像的特征相結(jié)合。
實(shí)驗(yàn)對為KITTI目標(biāo)檢測數(shù)據(jù)集。KITTI數(shù)據(jù)為激光雷達(dá)點(diǎn)云數(shù)據(jù)和圖像數(shù)據(jù),其中,點(diǎn)云數(shù)據(jù)集是由Velodyne 64線激光雷達(dá)獲取的點(diǎn)云數(shù)據(jù)集,共包含7 481個訓(xùn)練集數(shù)據(jù)和7 518個測試集數(shù)據(jù)。訓(xùn)練集中用作訓(xùn)練及評估的比例為80∶20,其中的20%用作訓(xùn)練過程中的評估驗(yàn)證。根據(jù)KITTI數(shù)據(jù)集中對于交并比(Intersection over Union,IoU)的規(guī)范,設(shè)定所屬目標(biāo)中汽車的IoU為0.7,行人和騎行者IoU為0.5。點(diǎn)云文件被裁減到以激光雷達(dá)為原點(diǎn),橫縱坐標(biāo)分別為[-40,-40]×[0,70] m的范圍內(nèi)。在三維目標(biāo)檢測任務(wù)中,KITTI數(shù)據(jù)集為每個場景中的每個可識別目標(biāo)提供了三維目標(biāo)檢測框的標(biāo)注。
實(shí)驗(yàn)使用Ubuntu 16.04系統(tǒng),采用Pytorch 1.3.0 深度學(xué)習(xí)框架,CPU為 Intel(R) Xeon(R) Silver 4110,GPU為Quadro P5000,開發(fā)工具為Pycharm+Anaconda,Python版本為3.6。訓(xùn)練階段初始學(xué)習(xí)率調(diào)整為0.01,訓(xùn)練迭代次數(shù)epoch設(shè)定為200次。
同場景下二維、三維及點(diǎn)云目標(biāo)檢測示意圖如圖10所示。其中,圖10(a)為檢測目標(biāo)在圖像中的二維檢測框位置;圖10(b)為檢測目標(biāo)在圖像中三維檢測框的位置;圖10(c)為檢測目標(biāo)在點(diǎn)云數(shù)據(jù)下的三維檢測框信息,圖10(c)中方框?yàn)楦鶕?jù)標(biāo)注信息所繪制??梢钥闯?點(diǎn)云目標(biāo)的空間信息更為準(zhǔn)確,且不易受透視遮擋的影響。
圖10 同場景下二維、三維及點(diǎn)云目標(biāo)檢測示意圖
目標(biāo)檢測的評價指標(biāo)為目標(biāo)三維檢測精度和目標(biāo)俯視圖檢測精度。評估檢測結(jié)果的指標(biāo)為平均精度(Average Precision,AP),AP值的計算方式為檢測網(wǎng)絡(luò)輸出的檢測準(zhǔn)確率與召回率曲線(Precision Recall,P-R)曲線與坐標(biāo)軸所構(gòu)成的積分值。準(zhǔn)確率的計算與樣本中所有檢測準(zhǔn)確的數(shù)量有關(guān)。召回率Recall與所有真實(shí)檢測物體的數(shù)量有關(guān)。準(zhǔn)確率PA和召回率PC的計算公式分別為
(11)
(12)
式中:PT表示檢測為正確,真實(shí)為正確的案例;PF表示檢測為正確,真實(shí)為錯誤的案例;NF表示檢測為錯誤,真實(shí)為正確的案例;NT表示檢測為錯誤,真實(shí)為錯誤的案例。
在將端到端的目標(biāo)檢測網(wǎng)絡(luò)延伸至三維目標(biāo)中,針對三維目標(biāo)檢測中不同尺度間目標(biāo)維度差別過大,小目標(biāo)難以檢測的問題,在網(wǎng)絡(luò)結(jié)構(gòu)中利用殘差網(wǎng)絡(luò)結(jié)構(gòu)與雙向特征金字塔結(jié)構(gòu)。將經(jīng)典的特征金字塔結(jié)構(gòu)網(wǎng)絡(luò)的單向數(shù)據(jù)流動方式改為雙向數(shù)據(jù)流動方式,構(gòu)建了CFSR-Bi-YOLO 3D網(wǎng)絡(luò)。為了驗(yàn)證所提網(wǎng)絡(luò)CFSR-Bi-YOLO 3D數(shù)據(jù)融合目標(biāo)檢測網(wǎng)絡(luò)中每個模塊的有效性,分別進(jìn)行消融實(shí)驗(yàn)對比,通過消融實(shí)驗(yàn)驗(yàn)證每一個模塊對于所提方法的貢獻(xiàn)。
記錄檢測網(wǎng)絡(luò)對汽車(Car)、騎行者(Cyclists) 和行人 (Pedestrians)等3類目標(biāo)不同模塊的3D平均精度和俯視圖平均檢測精度(不同模塊的三維目標(biāo)和俯視圖目標(biāo)的檢測平均精度,是指各類別精度的平均值),并統(tǒng)計檢測速率。不同模塊三維目標(biāo)檢測平均精度對比結(jié)果及不同模塊俯視圖目標(biāo)檢測平均精度對比結(jié)果分別如表1與表2所示。其中:“+Res”表示引入殘差結(jié)構(gòu);“+SE”表示引入通道注意力;“+BiFPN”表示引入BiFPN結(jié)構(gòu);“+Swish”表示引入Swish激活函數(shù);FPS表示每秒內(nèi)算法所能夠檢測幀的數(shù)量。
表1 不同模塊三維目標(biāo)檢測平均精度對比結(jié)果
表2 不同模塊俯視圖目標(biāo)檢測平均精度對比結(jié)果
從表1和表2可以看出,使用殘差結(jié)構(gòu)與BiFPN結(jié)構(gòu)可以提高三維目標(biāo)檢測網(wǎng)絡(luò)中小目標(biāo)檢測準(zhǔn)確率,三維目標(biāo)檢測的小目標(biāo)準(zhǔn)確率提升2%,俯視圖目標(biāo)檢測的小目標(biāo)準(zhǔn)確率提升1%。這是因?yàn)?采用該方法可以將圖像特征與點(diǎn)云特征進(jìn)行分流提取和分層融合,利用雙向特征金字塔結(jié)構(gòu)增強(qiáng)融合不同維度特征,并劃分不同單元對多尺度目標(biāo)進(jìn)行檢測。BiFPN結(jié)構(gòu)在不同維度下的特征相互傳遞過程中,將高維度特征的語義信息通過上采樣向低維度特征傳遞,將低維度的定位信息利用下采樣的方式傳遞給高維度特征,能夠在原單一維度特征基礎(chǔ)上,綜合來自不同維度的特征,讓圖像不同維度特征獲得更加豐富的表達(dá)。
在消融實(shí)驗(yàn)之后,采用不同方法對數(shù)據(jù)集中的二維目標(biāo)、三維目標(biāo)及點(diǎn)云目標(biāo)等3類目標(biāo)的立體檢測精度和俯視圖中目標(biāo)的檢測精度分別進(jìn)行試驗(yàn)對比。不同模塊的三維目標(biāo)和俯視圖目標(biāo)對比實(shí)驗(yàn)結(jié)果分別如表3和表4所示。
表3 不同方法三維目標(biāo)檢測平均精度對比結(jié)果
表4 不同方法俯視圖目標(biāo)檢測平均精度對比結(jié)果
由表3和表4可以看出,所構(gòu)建的CFSR-Bi-YOLO 3D數(shù)據(jù)融合目標(biāo)檢測網(wǎng)絡(luò),較YOLO 3D網(wǎng)絡(luò)的三維目標(biāo)檢測所有類別平均精度提升1.46%,俯視圖目標(biāo)檢測所有類別平均精度提升1.01%;較單圖像源Pseudo-LiDar檢測算法的三維目標(biāo)檢測所有類別平均精度提升13.9%,俯視圖目標(biāo)檢測所有類別平均精度提升18.29%。有效地改善了YOLO 3D網(wǎng)絡(luò)對遮擋目標(biāo)檢測困難的問題,這是因?yàn)?多源數(shù)據(jù)較單一源數(shù)據(jù)對目標(biāo)的表征更加豐富且準(zhǔn)確。
另外,采用MV3D、AVOD、VoxelNet、YOLO 3D和所提出的CFSR-Bi-YOLO 3D等5種不同方法對密集遮擋場景中的小目標(biāo)場景進(jìn)行檢測,其中,MV3D算法將點(diǎn)云數(shù)據(jù)與圖像數(shù)據(jù)進(jìn)行區(qū)域融合;AVOD算法對點(diǎn)云數(shù)據(jù)與圖像數(shù)據(jù)所形成不同特征流下的特征結(jié)果進(jìn)行融合;VoxelNet算法采用點(diǎn)云體素化端到端的檢測方式。不同方法對密集場景目標(biāo)檢測結(jié)果如圖11所示。
圖11 不同方法對密集場景目標(biāo)檢測結(jié)果
在圖11(a)、圖11(b)、圖11(c)、圖11(d)和圖11(e)中,左圖為點(diǎn)云場景的檢測結(jié)果,右圖為對應(yīng)的真實(shí)場景。圖11中的左圖矩形框表示根據(jù)目標(biāo)特征或分類信息,自動判斷該區(qū)域存在目標(biāo)。由圖11可以看出,所提出的CFSR-Bi-YOLO 3D算法可以檢測到更密集的目標(biāo),能夠準(zhǔn)確檢測出密集小目標(biāo)。與融合算法AVOD網(wǎng)絡(luò)及點(diǎn)云檢測網(wǎng)絡(luò)VoxelNet算法相比,設(shè)計的融合檢測算法,能夠更加準(zhǔn)確地檢測出密集小目標(biāo);與經(jīng)典YOLO3D網(wǎng)絡(luò)相比,所提方法利用多源信息融合多尺度實(shí)施檢測。能夠更好地檢測受遮擋小目標(biāo)。
提出一種CFSR-Bi-YOLO 3D數(shù)據(jù)融合目標(biāo)檢測網(wǎng)絡(luò)方法。該方法通過將激光雷達(dá)點(diǎn)云與圖像相結(jié)合,以減少單一數(shù)據(jù)源對目標(biāo)檢測準(zhǔn)確率造成的影響。在對不同尺度目標(biāo)檢測中,將圖像特征與點(diǎn)云特征進(jìn)行分流特征提取,形成多層次融合結(jié)構(gòu),以提高系統(tǒng)的可靠性。通過引入通道注意力,以及SeNet殘差網(wǎng)絡(luò),以提高網(wǎng)絡(luò)的特征提取能力。另外,通過設(shè)計了一種基于雙向金字塔結(jié)構(gòu)的多尺度的數(shù)據(jù)融合方式,根據(jù)分層結(jié)構(gòu)調(diào)整網(wǎng)絡(luò)的先驗(yàn)框,以滿足不同尺度目標(biāo)的檢測要求,相比于FPN結(jié)構(gòu)僅采用了一次高維度向低維度擴(kuò)張的方式,減少了不同特征融合之后帶的偏差。
實(shí)驗(yàn)結(jié)果表明,所提出多尺度目標(biāo)檢測算法,與MV3D算法、AVOD算法、VoxelNet,以及單點(diǎn)云檢測網(wǎng)絡(luò)YOLO 3D等檢測方法相比,對于三維目標(biāo)和俯視圖目標(biāo)的平均檢測準(zhǔn)確率均有所提高,說明提出的基于雙向特征金字塔的多尺度數(shù)據(jù)融合目標(biāo)檢測網(wǎng)絡(luò)能夠有效提升中小目標(biāo)的檢測準(zhǔn)確率。研究的結(jié)果可以為自動駕駛的目標(biāo)檢測任務(wù)提供借鑒。
但是,隨著卷積層數(shù)的增加,所提方法的計算量變大,導(dǎo)致模型的速度降低,不利于自動駕駛過程中對道路目標(biāo)的實(shí)時檢測。為此,在后續(xù)的過程中,還需要進(jìn)一步加強(qiáng)對更輕量級網(wǎng)絡(luò)的研究,以滿足自動駕駛目標(biāo)檢測對于準(zhǔn)確性和實(shí)時性的要求。