趙亞男,王顯才,高利,劉語佳,戴鈺
(1. 北京理工大學 機械與車輛學院,北京 100081;2. 天津航海儀器研究所,天津 300130)
環(huán)境感知是智能車輛關鍵性技術,通過車載傳感器獲取周圍環(huán)境信息,然后對信息做出分析反饋,主要任務之一是進行目標檢測. 目標檢測主要包含兩個階段:感興趣區(qū)域生成階段;三維包圍框回歸階段,主要進行感興趣區(qū)域提煉,劃分目標類別及尺寸[1?2].
目前普遍采用多傳感器融合的方式進行目標檢測,主要有決策級融合與特征級融合兩種方式. FpointNet[3]是一種典型的基于決策級融合二維區(qū)域建議網(wǎng)絡,從圖像中提取二維感興趣區(qū)域,投影到三維激光雷達點云中獲得三維視錐,之后輸送到Point-Net 為基礎的目標檢測網(wǎng)絡,進行三維包圍框預測.ASVADI[4]等利用YOLOv3 網(wǎng)絡,將RGB 圖像和點云深度圖與反射強度圖結合,進行特征層融合. 姚鉞等[5]利用Pointnet++提取特征并進行目標分類與包圍框回歸. VORA 等[6]提出了PointPainting 特征融合模式,將激光雷達點云數(shù)據(jù)投影到圖像坐標,將圖像上的分類關聯(lián)到激光雷達點云,被賦予分類權重的激光雷達點云作為不同目標檢測網(wǎng)絡(如Point RCNN[7],Second[8],VoxelNet[9],PointPillar[10]等)的輸入,增強分類性能.CHEN 等[11]提出一種多視圖多模態(tài)融合模型-MV3D 網(wǎng)絡,在激光雷達點云鳥瞰圖上提取三維區(qū)域建議,投影到激光雷達前視圖與圖像平面,提取感興趣特征,通過多次融合回歸得到目標類別與三維包圍框. SINDAGI 等[12]提出了MVX-Net 網(wǎng)絡,將激光雷達點云數(shù)據(jù)投影到圖像特征空間并體素化,非空的體素投影到圖像特征空間后獲得體素特征,輸入到VoxelNet 網(wǎng)絡中. SONG 等[13]將圖像顏色信息擴展到體素通道,引入3D 離散卷積神經網(wǎng)絡改進目標檢測網(wǎng)絡.
基于多傳感器的目標檢測方法雖然可以改善單一種類傳感器局限[14],但是當前檢測方法多集中于決策級融合,并且不同傳感器信息分支在訓練中容易退化,導致信息不能完全利用,并且對小尺度目標檢測精度都有待提升.
文中提出一種基于圖像和激光雷達點云數(shù)據(jù)的聯(lián)合多視角目標檢測方法,利用包含特征級和決策級融合的AVOD 網(wǎng)絡,通過對多視角信息標注損失函數(shù)的優(yōu)化,避免圖像分支網(wǎng)絡在訓練時退化. 通過互投影池化層對不同模態(tài)數(shù)據(jù)進行特征級融合,對網(wǎng)絡目標檢測性能有所提高,尤其對小尺度如行人和騎車人目標檢測精度提高顯著.
網(wǎng)絡使用來自激光雷達點云鳥瞰圖數(shù)據(jù)和相機前視圖RGB 圖像數(shù)據(jù),在兩個階段均進行融合操作,融合與檢測在網(wǎng)絡內不斷交替進行,是包含特征級和決策級融合的深度融合網(wǎng)絡. 文中整體框架如圖1 所示.
圖1 三維目標檢測網(wǎng)絡框架Fig.1 3D object detection network framework
聯(lián)合多視角目標檢測網(wǎng)絡(AVOD)利用激光雷達和圖像的信息進行融合,包括兩個階段:初始預測和檢測回歸. 分別包含數(shù)據(jù)預處理、特征提取、候選框推理、候選框融合、候選框篩選;候選框投影、特征融合、推理航向角、三維包圍框尺寸、目標類別.其框架如圖2 所示.
圖2 聯(lián)合多視角目標檢測深度融合網(wǎng)絡系統(tǒng)架構Fig.2 The architecture of deep fusion network system for joint multi-view target detection
AVOD 網(wǎng)絡第一階段由特征提取網(wǎng)絡和區(qū)域建議網(wǎng)絡組成,初步完成精度較低、召回率較高候選框的生成,盡量避免漏檢.
1.1.1 多尺度特征提取網(wǎng)絡
特征提取網(wǎng)絡綜合了VGG-16 網(wǎng)絡和特征金字塔網(wǎng)絡(FPN)結構[15]. 選定原型為VGG-16 的特征提取器,將各自模態(tài)信息進行特征提取. 網(wǎng)絡層數(shù)加深后,僅VGG-16 特征提取器得到的特征圖分辨率會越來越低,對于小尺度目標而言,其特征隨著不斷的下采樣而丟失,使得網(wǎng)絡丟失小尺度目標檢測能力,因此引入特征金字塔以解決多尺度目標特征提取問題.特征金字塔的結構可以獲得所需的深層次網(wǎng)絡蘊含的語義信息,同時保留淺層網(wǎng)絡蘊含的原始細節(jié)信息.
特征金字塔是編碼器加上解碼器結構,編碼由VGG-16 完成,解碼是一個通過逐步分層恢復分辨率的過程,利用反卷積對上一特征圖進行上采樣,保證提升分辨率的同時保留高層語義信息.
1.1.2 空間3D 候選框生成
首先進行空間3D 先驗框的構建. 先驗框是一系列被預設好具有不同尺寸、寬高比的框,旨于盡快對目標定位,提高召回率,引入3D 先驗框對激光雷達點云鳥瞰圖進行目標先驗框的處理. 通過K-means聚類得到樣本先驗框尺寸,以軸對齊的方式編碼獲得6 個參數(shù)(cx,cy,cz,dx,dy,dz)表示的先驗框,其中(cx,cy,cz) 為中心點坐標,(dx,dy,dz)為先驗框各維度尺寸. (cx,cz) 在x、z平面上采樣,間隔為0.5 m,cy取決于傳感器與地面垂向距離.
該網(wǎng)絡將車輛聚類為兩種尺寸,將行人與騎車人聚類為一種尺寸,每種尺寸設置兩個角度(0°、90°)的位姿,粗略表示目標的不同航向角. 需要篩選并移除稀疏激光雷達點云得到的空白先驗框,保證每幀數(shù)據(jù)10 k~100 k 個有效框. 根據(jù)空間3D 先驗框獲取不同模態(tài)下的特征圖區(qū)域,并將有效框通過坐標轉換分別投影到鳥瞰圖和RGB 圖像上,經過裁剪及雙邊濾波調整分辨率為3×3,便于進行區(qū)域融合.
對于復雜場景而言,先驗框數(shù)量可能保留到100 k,需要使用1×1 卷積核對特征圖降維以減輕后續(xù)網(wǎng)絡運算負擔,其作用體現(xiàn)在保留不同維度信息的同時大幅減少運算量,同時實現(xiàn)不同模態(tài)特征圖跨通道特征級融合. 拼接不同模態(tài)的同一先驗框中特征圖進行拼接,再利用1×1 卷積對新張量進行卷積運算.
式中: ωi為待學習的權重;fo為特征圖每個通道包含像素值;b為偏移量.
之后將融合后的特征圖送到兩個全連接層,進行前背景推理和三維包圍框回歸,得到規(guī)范化后的參數(shù)( ?tx,?ty,?tz,?dx,?dy,?dz) ,其中( ?tx,?ty,?tz)是規(guī)范化后的中心偏移量,( ?dx,?dy,?dz)為規(guī)范化后的尺寸縮放量.
損失函數(shù)計算采用Smooth L1 與交叉熵函數(shù)的多任務策略,對三維包圍框和目標二元分類分別進行計算,損失函數(shù)為
式中:i為先驗框序號;pi為此先驗框被判定為目標的概率;ti為 先驗框尺寸參數(shù)向量;Nobj為先驗框數(shù)目,個;Lobj為 交叉熵損失函數(shù);為先驗框正負樣本標志(1 為正樣本,0 為負樣本); λ為超參數(shù),是用于平衡二元分類任務和包圍框回歸任務權重的參數(shù),其值默認為 λ =5;Nreg為目標框數(shù)目;Lreg為Smooth L1損失函數(shù);是此先驗框對應樣本值.
對背景框判定,以鳥瞰圖先驗框和樣本2D 交并比(IoU)[16]為判據(jù),具體如表1 所示,被判定為背景框的先驗框不加入計算,既不是目標框也不是背景框的不參與訓練,達到初步篩選的目的. 利用二維非極大值抑制算法進一步剔除冗余目標,保留IoU 閾值為0.8 且最多不超過前1 024 個的目標框,以便提高召回率,降低漏檢.
表1 樣本2D IoU 判定指標Tab.1 Sample 2D IoU judgment indicators
在得到粗略估計的候選框三維尺寸之后,進行候選框尺寸的精細回歸,計算航向角與目標類別判斷,同時進行特征第二次融合.
對三維包圍框尺寸估計時首先考慮編碼方式.主要有兩種常用編碼方式:利用六面體的8 個頂點編碼和軸對齊方式編碼. 第一種方式能獲得準確的尺寸估計,但是所需參數(shù)量較多;第二種利用中心點坐標和沿3 個坐標軸的棱長編碼(第一階段使用),所需參數(shù)量較小,但是不能編碼航向角信息. 本階段采用新的編碼方式對三維包圍框尺寸編碼,使用底面4 點以及2 個高度值(底面、頂面與地平面高度)的方式編碼六面體,不僅可以獲得準確的尺寸估計,而且所需參數(shù)量較小,編碼方式如圖3 所示.
圖3 三維包圍框編碼方式Fig.3 Encoding method of 3D bounding box
回歸后的目標共10 個參數(shù),相比于8 個角點編碼方式所需的24 個參數(shù)大幅減少,回歸后10 個參數(shù)包 括8 個 角 點 偏 移 量 ?x,?y和 2 個 高 度 偏 移 量?h(?x1,···,?x4,?y1,···,?y4,?h1,?h2). 維護得到的角點,并約束4 個角點構成一個矩形,選擇各邊中點,將對邊中點連線,取較長邊作為坐標軸基準,具體實現(xiàn)如圖4.
圖4 4 個角點確定方法Fig.4 Determination method of four corner points
AVOD 網(wǎng)絡航向角編碼方式如圖5 所示,計算方法基于一個二元向量隱式表達航向角,即(xor,yor)=(cosθ ,sinθ ),使[? π,π]中的每一角度都有唯一單位向量相對應,保證航向角唯一性.
圖5 航向角編碼方式示意圖Fig.5 Schematic diagram of the heading angle coding method
損失函數(shù)由三維包圍框尺寸計算、航向角估計與目標類別三個任務損失函數(shù)構成. 使用原始的256 通道特征圖,將來自區(qū)域建議網(wǎng)絡的候選框投影到特征圖上獲得候選特征,對投影后的特征圖調整分辨率到7×7 像素,并對元素取平均后融合. 融合后的特征通過三個每層2 048 個節(jié)點的全連接層,分別輸出三維包圍框、航向角估計、目標類別,其中目標類別使用交叉熵代價函數(shù)來計算,其余兩個使用Smooth L1 損失函數(shù)計算. 最后對包圍框篩選,利用2D 非極大值抑制算法輸出檢測結果. 得到AVOD 網(wǎng)絡的損失函數(shù)計算式(5):
式中:Lcls為 交叉熵函數(shù);Lreg為3D 包圍框的Smooth L1 損失函數(shù);Lang為航向角估計的Smooth L1 損失函數(shù);Ncls為先驗框數(shù)目;Nreg為目標框總數(shù)目. 根據(jù)鳥瞰圖中IoU 來判別候選框類型,對于車輛目標,鳥瞰圖IoU>0.65 時為正樣本;對于行人和騎車人,IoU>0.55 為正樣本,并參與到計算之中.
優(yōu)化網(wǎng)絡檢測頭部分損失函數(shù)計算:將圖像前視圖與激光雷達點云鳥瞰特征圖作為兩個分支,以各模態(tài)樣本標注為基準監(jiān)督學習,計算各自損失函數(shù),針對性地優(yōu)化特征提取網(wǎng)絡,防止圖像特征提取網(wǎng)絡退化,框架如圖6 所示.
圖6 多視角標注信息聯(lián)合損失函數(shù)Fig.6 Joint loss function of multi-view annotation information
對不同模態(tài)信息處理中加入全連接層,首先進行包圍框尺寸和目標類別的預判,之后將預判結果與標注信息對比,計算各模態(tài)損失函數(shù).
式中:Lsub-cls為分類模塊損失函數(shù);Lsub-reg為包圍框尺寸計算損失函數(shù);N為目標框的總數(shù)量,為前視圖正樣本數(shù)量,為鳥瞰圖正樣本數(shù)量,單位(個);I為選出正樣本目標框的篩選函數(shù),為正值;、分別為圖像和鳥瞰圖分支對第i目標框的分類估計值;和為圖像和鳥瞰圖的標注信息;、為包圍框尺寸偏移量和伸縮量;和為對應的標注信息.
對于正樣本的判定,基于包圍框與標注信息框的交并比來劃分. 在鳥瞰圖中,車輛類別的交并比大于0.65 為正樣本,小于0.55 為負樣本,行人與騎車人類別的交并比大于0.45 為正樣本,小于0.4 為負樣本;在前視圖中,車輛類別的交并比大于0.7 為正樣本,小于0.5 為負樣本,行人和騎車人類別交并比大于0.6 為正樣本,小于0.4 為負樣本. 對于不屬于正負樣本的目標框來說,不參與損失函數(shù)統(tǒng)計. 最終得到多視角標注信息網(wǎng)絡的聯(lián)合損失函數(shù)AVOD-MLI(multi-view label information):
三維包圍框的尺寸偏移和航向角的損失函數(shù)利用Smooth L1 函數(shù)實現(xiàn),目標分類的損失函數(shù)利用交叉熵函數(shù)實現(xiàn), λ作為超參數(shù)來權衡各任務損失函數(shù)權重.
AVOD 網(wǎng)絡的數(shù)據(jù)融合發(fā)生在特征層,通過拼接后按元素求平均的方式進行融合,為了保證拼接時特征圖分辨率一致,經由池化層進行裁剪. 這種融合方式可能會使不同模態(tài)數(shù)據(jù)相互干擾,從而削弱特征.
文中通過加入互投影池化層來改進網(wǎng)絡的融合階段,改進后的網(wǎng)絡可以優(yōu)化不同模態(tài)數(shù)據(jù)特征融合,充分利用了激光雷達點云的稀疏性,將互投影池化層插入到VGG 特征提取網(wǎng)絡之后,即特征金字塔的編碼器之后,解碼器之前,改進后的網(wǎng)絡稱為AVOD-MPF(mutual projection fusion,MPF)網(wǎng)絡,局部網(wǎng)絡結構如圖7.
通過坐標互投影,將激光雷達點云變換到圖像前視圖,并將圖像變換到激光雷達點云鳥瞰圖,從而獲得激光雷達點云在前視圖的特征圖以及圖像在激光雷達點云鳥瞰圖上的特征圖,結構如圖8 所示. 通過相機與激光雷達的坐標轉換矩陣P∈R3×4進行前視圖與鳥瞰圖之間的轉換,如下式:
圖8 互投影池化層融合Fig.8 Mutual projection pooling layer fusion
式中:(x,y) 為鳥瞰圖像素坐標;(u,v)為圖像的像素坐標;f(x,y)和g(u,v)為 兩個特征圖;k(u,v)為運算核;X=[x y z1]T,P12是P前兩行的子矩陣.
通過上述轉換會造成一個(u,v) 對應多個(x,y)的狀況,并且多個(x,y) 點近似為直線( λx,λy),影響運算,因此依據(jù)激光雷達點云的稀疏性進行稀疏化,進行非齊次轉換. 假定前視圖尺寸Lf×Wf,鳥瞰圖尺寸Hb×Wb, 激光點云記為({xi,yi,zi),i=1,2,···N},則得到轉換方程式為
由多模態(tài)數(shù)據(jù)的對應性,可以將式(11)轉化為
其中,
多傳感器數(shù)據(jù)投影是雙向進行的,可以在不同視角下形成特征圖. 在拼接前對每一特征圖進行歸一化處理,利用批正則化層來實現(xiàn);將前視圖特征圖與稀疏矩陣相乘并與鳥瞰圖數(shù)據(jù)的特征圖相拼接融合,類似的鳥瞰圖的特征圖以同樣方式與前視圖特征圖相拼接融合. 其中稀疏矩陣X尺寸為LfWf×HbWb, 尺寸為Hb×Wb×A的特征圖轉化后為尺寸HbWb×A的矩陣F. 最終得到特征圖T=MF,其尺寸為LfWf×A.
KITTI 數(shù)據(jù)集[17]本身根據(jù)各種狀況將目標進行劃分,三種難度級別為:簡單(最小包圍框高度≥40像素,目標完全可見,截斷≤15%)、中等(最小包圍框高度≥25 像素,目標部分可見,截斷≤30%)、困難(困難:最小包圍框高度≥25 像素,目標難以看見,截斷≤50%),劃分依據(jù)主要是目標大小、遮擋以及截斷情況.
文中網(wǎng)絡主要針對車輛、行人、騎車人進行目標檢測,并在驗證集上統(tǒng)計標注樣本和目標檢測結果,利用三維平均精度AP3D來評價目標檢測網(wǎng)絡在三維尺度的檢測精度.
對于目標檢測任務,KITTI 數(shù)據(jù)集擁有大量的圖像和激光雷達點云數(shù)據(jù)用于訓練,針對不同尺度的目標訓練了兩種模型,分別對應車輛、行人以及騎車人,為了確保網(wǎng)絡改進結果的合理性與有效性,分別對原AVOD 網(wǎng)絡、AVOD-MLI 網(wǎng)絡、AVOD-MPF 網(wǎng)絡分別進行訓練并進行結果對比.
文中所用的訓練機配置為:32 GB 內存,11 G 顯存,Nvidia 1080Ti 顯卡,IntelCore i7-8700K @3.70 GHz ×12 的CPU,在Ubuntu 16.04 操作系統(tǒng)下進行,深度學習框架為Tensorflow.
3.3.1 AVOD 網(wǎng)絡訓練及結果
使用ADAM 優(yōu)化器對模型參數(shù)進行優(yōu)化,設定初始學習率為0.000 1,指數(shù)衰減,共120 k 次迭代訓練,每100 k 次訓練進行一次衰減,衰減系數(shù)定為0.1.全連接層引入dropout 方法,并利用批正則化方法.區(qū)域建議網(wǎng)絡中設定建議框樣本為512 個,第2 階段的檢測網(wǎng)絡1 024 個樣本,正負樣本各一半,并將此兩個網(wǎng)絡進行聯(lián)合訓練.
網(wǎng)絡訓練的總損失值由兩部分:檢測網(wǎng)絡損失(AVOD 損失)以及區(qū)域建議網(wǎng)絡損失(RPN 損失)構成,如圖9 (a)所示. 其中AVOD 損失包含AVOD 回歸損失與AVOD 分類損失,如圖9 (b)所示,回歸損失為主要影響要素,占據(jù)AVOD 損失極大比例,且趨勢與之相似. 對AVOD 回歸損失進行分析,如圖9 (c)所示,包含回歸定位損失與回歸航向角損失. 模型在訓練中損失值隨迭代次數(shù)增加而呈下降和收斂之勢,最后訓練損失到達0.615 2.
圖9 AVOD 網(wǎng)絡訓練過程中損失函數(shù)值的變化Fig.9 Changes in loss function values during AVOD network training
選取F-pointNet 網(wǎng)絡進行對比,結果如表2 所示.
表2 AVOD 網(wǎng)絡在驗證集上的AP3DTab.2 AP3D of AVOD network on validation set
表中可以看出AVOD 網(wǎng)絡具有更好的車輛目標檢測精度,對于困難和中等類別的車輛檢測精度分別提高了8.37%、5.34%,處理有遮擋和截斷目標的效果較好,但是對于小尺度目標的檢測精度較低.
3.3.2 AVOD-MLI 網(wǎng)絡訓練及結果
使用ADAM 優(yōu)化器,初始學習率0.000 1,指數(shù)衰減,每100 k 次迭代進行一次衰減,衰減因子0.1.使用最小批尺寸為1 的Xavier 對鳥瞰圖特征提取網(wǎng)絡初始化,圖像數(shù)據(jù)特征提取網(wǎng)絡加入預訓練的ImageNet 權重. 區(qū)域建議網(wǎng)絡仍設定512 個建議框樣本,第二階段的檢測網(wǎng)絡1 024 個樣本,正負樣本各一半.
AVOD-MLI 網(wǎng)絡訓練時損失值如圖10 所示.AVOD-MLI 網(wǎng)絡的AP3D,與AVOD 網(wǎng)絡對比如 表3 所示.
圖10 AVOD-MLI 網(wǎng)絡訓練損失值變化曲線Fig.10 AVOD-MLI network training loss value change curve
表3 AVOD-MLI 網(wǎng)絡在KITTI 數(shù)據(jù)集上的AP3DTab.3 AP3D of AVOD-MLI network on KITTI dataset
從表3 可以看出AVOD-MLI 網(wǎng)絡對于車輛目標效果不明顯,可能是由于對于車輛目標而言,較大的尺寸差異造成激光雷達點云特征圖的分支占據(jù)了較大比例,圖像分支未能帶來顯著提升. 對于小尺度目標來說,激光雷達點云特征反而被削弱,圖像特征能夠帶來更多的紋理信息,因此對于行人目標和騎車人目標而言,提升更為明顯,對于行人目標,不同難度目標分別提高了1.18%,1.79%,2.75%.
3.3.3 AVOD-MPF 網(wǎng)絡訓練及結果
引入ADAM 優(yōu)化器,初始學習率0.000 1,指數(shù)衰減,每30k 次迭代進行一次衰減,衰減因子0.8.使用最小批尺寸為1 的Xavier 對鳥瞰圖特征提取網(wǎng)絡初始化,圖像數(shù)據(jù)特征提取網(wǎng)絡加入預訓練的ImageNet 權重. 區(qū)域建議網(wǎng)絡仍設定512 個建議框樣本,第2 階段的檢測網(wǎng)絡1 024 個樣本,正負樣本各一半.
AVOD-MPF 網(wǎng)絡訓練時損失值如圖11 所示. 隨著迭代次數(shù)增加,網(wǎng)絡總損失逐漸收斂,終值為0.269 5,如圖10(a)所示,AVOD-MPF 檢測網(wǎng)絡變化值與AVOD-MPF 回歸損失分別如圖11(b)、11(c)所示,學習率如圖12 所示.
圖11 AVOD-MPF 網(wǎng)絡訓練損失值變化曲線Fig.11 AVOD-MPF network training loss value change curve
圖12 AVOD-MPF 網(wǎng)絡訓練學習率Fig.12 AVOD-MPF network training learning rate
行人和車輛檢測如圖13 和圖14 所示,其中13(a)和14(a)為最終3D 目標檢測結果;圖13(b)和14(b)為第1 階段網(wǎng)絡處理結果,實線框為建議框,虛線框為檢測框;圖13(c)和14(c)為整體網(wǎng)絡回歸結果,虛線框為標注框,實線框為檢測框.
圖13 行人檢測示例Fig.13 Example of pedestrian detection
圖14 車輛檢測示例Fig.14 Vehicle detection example
AVOD-MPF 網(wǎng)絡的AP3D與AVOD 網(wǎng)絡對比如表4 所示.
表3 和表4 數(shù)據(jù)顯示加入互投影池化層的 AVODMPF 網(wǎng)絡保留了AVOD 網(wǎng)絡本身對于車輛目標檢測的優(yōu)勢,相比于F-pointNet 網(wǎng)絡,對遮擋嚴重的車輛目標檢測精度提高了8.62%. 同時提高了AVOD 網(wǎng)絡對小尺度目標的檢測精度,對于中等難度目標來說,AVOD-MPF 網(wǎng)絡將行人檢測精度提高了2.03%,騎車人檢測精度提高了2.34%,說明加入的互投影池化層能夠提升網(wǎng)絡性能,改善了原AVOD 網(wǎng)絡小尺度目標檢測精度不高的問題.
表4 AVOD-MPF 網(wǎng)絡在KITTI 數(shù)據(jù)集上的AP3DTab.4 AP3D of AVOD-MPF network on KITTI dataset
提出一種基于視覺與激光雷達的多視角互投影融合的三維目標檢測方法,改進對車輛檢測精度較高的AVOD 網(wǎng)絡,通過互投影的方式加強不同模態(tài)信息數(shù)據(jù)關聯(lián)并進行特征級融合. 相比于其他算法以及原網(wǎng)絡來說,文中使用的AVOD-MPF 網(wǎng)絡方法具有明顯優(yōu)勢,實驗數(shù)據(jù)和結果表明,本方法不僅能夠實現(xiàn)三維目標檢測時特征級和決策級融合,而且在保留AVOD 網(wǎng)絡對車輛目標檢測優(yōu)勢的同時,也提升了對行人和騎車人等小尺度目標的檢測精度,對于有遮擋的目標復雜場景也有較好的適應性,為小尺度目標檢測提供了一種新的思路.