国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于體素網(wǎng)絡(luò)的道路場景多類目標(biāo)識(shí)別算法*

2021-05-12 02:51龔章鵬王國業(yè)
汽車工程 2021年4期
關(guān)鍵詞:先驗(yàn)邊框類別

龔章鵬,王國業(yè),于 是

(中國農(nóng)業(yè)大學(xué)工學(xué)院,北京 100083)

前言

激光雷達(dá)是無人駕駛中必不可少的感知設(shè)備,其數(shù)據(jù)穩(wěn)定性強(qiáng)、精度高、不受光照強(qiáng)度影響。然而,原始的激光點(diǎn)云數(shù)據(jù)具有無序性、稀疏性等特征[1],信息結(jié)構(gòu)單一等不足,使得基于激光雷達(dá)的三維目標(biāo)識(shí)別成為無人駕駛領(lǐng)域中的難點(diǎn)。

目前國內(nèi)研究多采用支持向量機(jī)(support vector machine,SVM)對(duì)點(diǎn)云特征建模[2-3]。SVM 模型簡單,易達(dá)到實(shí)時(shí)處理,但其本質(zhì)是弱分類器,特征信息不夠豐富,在非線性強(qiáng)的復(fù)雜場景下效果不佳。因此需要尋求更優(yōu)的點(diǎn)云特征建模方法。

PointNet[4]利用抽象集合處理點(diǎn)云數(shù)據(jù),實(shí)現(xiàn)了點(diǎn)云集合的特征向量化,有效解決了無序點(diǎn)云特征建模困難的問題。特征向量化后的點(diǎn)云場景與圖像具有相似的數(shù)據(jù)結(jié)構(gòu),能夠充分發(fā)揮卷積網(wǎng)絡(luò)實(shí)現(xiàn)語義信息提取的優(yōu)勢[5-6]。在PointNet 基礎(chǔ)框架上,針對(duì)點(diǎn)云級(jí)別語義信息提取的工作取得了一系列成果[7-8]。PointNet 采集場景內(nèi)點(diǎn)云數(shù)據(jù)的數(shù)目固定,實(shí)際場景點(diǎn)云數(shù)據(jù)存在隨機(jī)性,因此在實(shí)際應(yīng)用中受限制。并且簡單點(diǎn)級(jí)語義信息量級(jí)過大,不利于無人駕駛后續(xù)決策判斷。因此從點(diǎn)級(jí)特征中獲得物體尺寸回歸信息,還原目標(biāo)物體尺寸是目前的研究熱點(diǎn)。PointGNN[9]利用圖理論建立點(diǎn)與點(diǎn)之間的聯(lián)系,從點(diǎn)間拓?fù)潢P(guān)系中還原目標(biāo)尺寸信息,但圖神經(jīng)網(wǎng)絡(luò)的建立較為繁瑣。研究表明,利用場景體素化將場景轉(zhuǎn)化為一張規(guī)則的特征向量圖[10-12]識(shí)別效果較好,即運(yùn)用PointNet模組將1個(gè)體素內(nèi)點(diǎn)集轉(zhuǎn)化成特征向量。該方法提取的特征也稱為“體素特征”,后續(xù)操作為三維體素卷積,使之與PointNet 有所區(qū)別,兩者原理本質(zhì)相同。

為提高識(shí)別準(zhǔn)確率,PV?RCNN[11]提出將體素特征與關(guān)鍵點(diǎn)的點(diǎn)級(jí)特征融合,即全場景體素特征簡化成少量數(shù)目的關(guān)鍵點(diǎn)特征,以加快后續(xù)運(yùn)算。比較有效的關(guān)鍵點(diǎn)采集方法為PointNet++[13]的最遠(yuǎn)點(diǎn)采樣(furthest?point?sampling,F(xiàn)PS),其數(shù)據(jù)分布均勻,關(guān)鍵點(diǎn)特征能夠表征全場景信息??紤]到FPS在大場景下運(yùn)算耗時(shí)過多,RandLA?Net[14]用隨機(jī)采樣的方式替代FPS 并取得了十分高效的運(yùn)算結(jié)果。但隨機(jī)采樣所帶來的魯棒性問題不可忽視,該方法獲取的關(guān)鍵點(diǎn)是否具有代表性仍待進(jìn)一步驗(yàn)證。

綜上所述,將點(diǎn)云體素化是最接近實(shí)際運(yùn)用的點(diǎn)云特征建模方法。但目前基于體素網(wǎng)絡(luò)的目標(biāo)識(shí)別方法均基于單類物體識(shí)別,對(duì)多類別目標(biāo)識(shí)別任務(wù)沒有進(jìn)行深入討論。在點(diǎn)云場景下,對(duì)于單一類別物體,其尺寸是相似的,模型訓(xùn)練有可能“走捷徑”,即輸出偏向一個(gè)固定預(yù)測值,結(jié)果將總判定為正確。同時(shí)場景的單類物體識(shí)別難以滿足實(shí)際應(yīng)用要求,因此,一次前向傳播能夠?qū)崿F(xiàn)多類物體目標(biāo)識(shí)別研究具有重要意義。本文中在體素網(wǎng)絡(luò)基礎(chǔ)框架下,將其拓展為多類目標(biāo)物體識(shí)別,并測試其效果。考慮到多任務(wù)網(wǎng)絡(luò)能夠有效提高網(wǎng)絡(luò)魯棒性,利用多類物體數(shù)據(jù)參與訓(xùn)練,研究其對(duì)提高物體識(shí)別魯棒性的影響。

1 主體網(wǎng)絡(luò)結(jié)構(gòu)

1.1 點(diǎn)云預(yù)處理及體素化

需要分析的場景空間在X、Y、Z軸范圍分別為W、L、H,本文中取80、70.4、4,與VoxelNet[12]一致。設(shè)置3 個(gè)方向的體素分辨率分別為rW、rL、rH,本文中取0.2、0.2、0.4。將全場景體素化為(W/rW)×(L/rL)×(H/rH)個(gè)體素格子。對(duì)于給定的點(diǎn)云,將點(diǎn)云按其位置細(xì)分到對(duì)應(yīng)的體素格子中。對(duì)于每個(gè)非空體素,隨機(jī)采樣K個(gè)點(diǎn),不足K個(gè)點(diǎn)則重復(fù)采樣。取每個(gè)點(diǎn)位置坐標(biāo)x、y、z以及反射率rr作為特征值,再將每個(gè)體素中全部點(diǎn)的位置坐標(biāo)均值作為拓展特征值,最終每個(gè)非空體素轉(zhuǎn)換成尺寸為K×7 的特征向量。

1.2 特征初步提取

將全場景體素特征,通過多個(gè)體素特征編碼(voxel feature econding,VFE)[12]層后,使用最大池化得到全場景三維特征圖F3D。每個(gè)VFE 層包括全卷積、ReLu 激活函數(shù)、正則化(batch normalization,BN)[15]、最大池化和池化結(jié)果與卷積結(jié)果的合并。最大池化能有效提高旋轉(zhuǎn)一致性,并消除采樣時(shí)特征排布序列隨機(jī)性的影響。由于點(diǎn)云分布的稀疏性,其得到的非空體素也是稀疏的。利用稀疏卷積方法可僅對(duì)非空體素進(jìn)行運(yùn)算操作,能大幅降低內(nèi)存空間消耗。

1.3 鳥瞰圖映射

無人駕駛場景下,絕大部分物體位于地表平面上,Z軸方向信息屬于次要信息,因此將三維特征圖映射到二維鳥瞰圖上,不會(huì)損失過多有用信息,信息處理也更直觀、簡便。同時(shí),將三維存儲(chǔ)空間降維至二維空間,大幅降低了內(nèi)存空間消耗,這對(duì)大型場景下的目標(biāo)識(shí)別十分有必要。采用三維卷積Z軸方向降采樣合并Z軸方向信息并降維,最終得到二維特征圖F2D。

1.4 特征提取

本文中采用瀑布式網(wǎng)絡(luò)結(jié)構(gòu)[16]進(jìn)行特征提取。每個(gè)分支用降采樣得到多個(gè)不同分辨率下的特征圖分支,經(jīng)過多個(gè)卷積層后,用反卷積統(tǒng)一特征圖尺寸進(jìn)行融合,如圖1所示。

對(duì)F2D傳入深度128,卷積核3×3,滑步2×2 的卷積層實(shí)現(xiàn)降采樣。再經(jīng)過3個(gè)深度128,卷積核3×3,滑步1×1的卷積層,得到第一個(gè)特征分支FB1。FB1傳入深度128,卷積核3×3 的卷積層,滑步2×2 實(shí)現(xiàn)降采樣。再經(jīng)過5 個(gè)深度128,卷積核3×3,滑步1×1 的卷積層,得到第二個(gè)特征分支FB2。FB2傳入深度256,卷積核3×3 的卷積層,滑步2×2 實(shí)現(xiàn)降采樣。再經(jīng)過5 個(gè)深度256,卷積核3×3,滑步1×1 的卷積層,得到第三個(gè)特征分支FB3。FB1傳入深度256,卷積核3×3,滑步1×1 反卷積層做反卷積運(yùn)算,得到FD1。FB2傳入深度256,卷積核3×3,滑步2×2 反卷積層作反卷積運(yùn)算,實(shí)現(xiàn)2 倍上采樣,得到尺度統(tǒng)一后的特征分支FD2。FD2與FD1尺度一致。FB3傳入深度256,卷積核4×4,滑步4×4 反卷積層做反卷積運(yùn)算,實(shí)現(xiàn)4倍上采樣,得到FD3。FD3與FD1尺度一致。FD1、FD2、FD3融合后的特征圖記為FR,用于預(yù)測輸出。FR在尺寸上實(shí)現(xiàn)了對(duì)二維特征圖F2D的2倍降采樣。

圖1 分支網(wǎng)絡(luò)結(jié)構(gòu)

1.5 預(yù)測輸出

將網(wǎng)絡(luò)設(shè)計(jì)成3 部分輸出。第一部分為類別置信度輸出Cp,即對(duì)FR做深度為4的全卷積運(yùn)算,再使用softmax操作,如式(1)所示,得到5個(gè)[0,1]區(qū)間內(nèi)的概率值。本文中使用的訓(xùn)練集包含汽車、箱式貨車、行人、騎手4 類物體。假定每個(gè)柵格位置中,有且僅有1 類物體,概率值最大的序號(hào)即為該柵格位置物體所屬類別。第二部分為邊框回歸值Rp,即對(duì)FR做深度為7 的全卷積運(yùn)算。每個(gè)柵格位置上均有兩個(gè)先驗(yàn)候選邊框A,參數(shù)形式為[xa,ya,za,ha,wa,la,ra]T。xa、ya、za為柵格中心位置;ha、wa、la為數(shù)據(jù)集中該類目標(biāo)包圍邊框的高度、寬度、長度的統(tǒng)計(jì)平均值。數(shù)據(jù)集各類目標(biāo)的包圍邊框參數(shù)統(tǒng)計(jì)平均值如表1所示。默認(rèn)邊框中心繞X軸與Y軸無旋轉(zhuǎn)角度,ra為邊框中心繞Z軸旋轉(zhuǎn)角度。一個(gè)先驗(yàn)候選框的ra設(shè)置為0,表示邊框正置,另一個(gè)設(shè)置為π/2,表示邊框橫置。第三部分為柵格位置存在正置和橫置回歸正確邊框的置信度預(yù)測Pp,即對(duì)FR做深度為2 的全卷積運(yùn)算,再使用sigmoid 函數(shù),如式(2)所示,將值限定在[0,1]區(qū)間內(nèi)。允許同時(shí)出現(xiàn)正置與橫置兩個(gè)邊框,后續(xù)的非極大值抑制(non?maximum suppres?sion,NMS)可以去掉重疊邊框。

表1 數(shù)據(jù)集統(tǒng)計(jì)平均值

2 損失函數(shù)設(shè)計(jì)

2.1 損失函數(shù)

置信度損失值Lcof采用交叉熵計(jì)算,如式(3)~式(5)所示。由于對(duì)輸出結(jié)果使用了sigmoid 函數(shù),選用交叉熵做損失函數(shù)時(shí),梯度與誤差正相關(guān),在誤差較大時(shí),參數(shù)調(diào)整更快,收斂性優(yōu)于采用均方差作為損失函數(shù)。本文中的置信度預(yù)測、分類預(yù)測對(duì)邊框回歸值的最終輸出有很大影響,因此需要采用收斂更快的損失函數(shù)。

式中Pgt為置信度正樣本掩碼,即與其作運(yùn)算的算子(這里指Pp)尺寸相同,由0和1組成的矩陣。

由于深度學(xué)習(xí)是借助圖形處理器(graphics processing unit,GPU)實(shí)現(xiàn)矩陣并行計(jì)算,如果沒有特殊說明,矩陣間運(yùn)算為矩陣每個(gè)對(duì)應(yīng)位置上的元素作數(shù)學(xué)運(yùn)算。

式中:I為與Pp尺寸相同、全部由1組成的矩陣;Ngt為置信度負(fù)樣本掩碼,是與Pp尺寸相同,由0 和1 組成的矩陣。

式中α、β分別為正負(fù)樣本權(quán)重系數(shù)。

將標(biāo)簽類別轉(zhuǎn)換成1位有效編碼形式,記作Cgt,類別預(yù)測損失值Lcls同樣采用交叉熵計(jì)算,如式(6)和式(7)所示。

式中:Mcls為類別預(yù)測損失函數(shù)計(jì)算掩碼;max(x,n)為取x第n維的最大值;-1表示最后一維。

預(yù)測值在先驗(yàn)邊框基礎(chǔ)上回歸可以得到比較精確的預(yù)測邊框[5-6,17],本文中用回歸的方法預(yù)測邊框尺寸,如式(8)所示。在三維點(diǎn)云場景下物體尺寸均為實(shí)際尺寸,不存在透視效果,不需要設(shè)置多尺度先驗(yàn)候選框??紤]到不同類別間先驗(yàn)邊框尺寸上存在較大差異,利用歸一化處理不同類別的邊框回歸值。預(yù)測框X軸與Y軸方向的位置用先驗(yàn)框X軸與Y軸的偏置值除以先驗(yàn)框鳥瞰對(duì)角線長度來表示,如式(9)~式(11)所示,下標(biāo)“gt”表示標(biāo)簽中的真值。Z軸方向的偏置值除以先驗(yàn)框高度,如式(12)所示。預(yù)測框尺寸用先驗(yàn)框尺寸的對(duì)數(shù)來表示,如式(13)~式(15)所示。旋轉(zhuǎn)角度則直接使用標(biāo)簽值與先驗(yàn)值的差值來表示,如式(16)所示。

回歸損失值用smoothL1計(jì)算,如式(17)和式(18)所示。smoothL1梯度變化具有損失函數(shù)較小時(shí)與損失函數(shù)正相關(guān),損失函數(shù)很大時(shí)為常數(shù)的特性,魯棒性強(qiáng),在圖像目標(biāo)識(shí)別中被廣泛用于邊框參數(shù)的回歸。

式中Mreg為回歸值掩碼。

2.2 掩碼設(shè)定

模型是否能正常收斂,關(guān)鍵在于損失函數(shù)中掩碼Pgt、Mreg的正確設(shè)定。對(duì)于1 個(gè)分析場景,最終細(xì)分成200×176 的網(wǎng)格,1 個(gè)場景中通常會(huì)標(biāo)注2~7 個(gè)物體數(shù)據(jù)。對(duì)于置信度標(biāo)簽數(shù)據(jù),負(fù)樣本數(shù)量遠(yuǎn)遠(yuǎn)大于正樣本數(shù)量,因此兩者應(yīng)分開計(jì)算并進(jìn)行一定程度歸一化處理。數(shù)據(jù)標(biāo)簽邊框中心所在的網(wǎng)格為正樣本,遠(yuǎn)離中心的網(wǎng)格為負(fù)樣本。對(duì)于盒體中心所在網(wǎng)格周圍區(qū)域內(nèi)的網(wǎng)格,記為模糊區(qū)域AF,將其置“0”為絕對(duì)負(fù)樣本并不合適,置“1”為正樣本則需要確定合適的AF分界邊界。

先驗(yàn)候選邊框A包含網(wǎng)格位置×2個(gè)先驗(yàn)候選邊框,計(jì)算所有先驗(yàn)候選邊框與標(biāo)簽中的邊框重疊度(intersection over union,IoU),通過判斷重疊度與設(shè)定閾值的大小關(guān)系確定正負(fù)樣本。

為了簡化計(jì)算并消除Z 軸方向信息帶來的干擾,用鳥瞰二維邊框來替代盒體計(jì)算重疊度J。A中的先驗(yàn)候選邊框只存在繞Z軸0°與90°的旋轉(zhuǎn)角度。對(duì)于標(biāo)簽數(shù)據(jù)中其它旋轉(zhuǎn)角度的邊框用其正置的最小包圍等效邊框Bgt來代替計(jì)算。如圖2 所示,盒體底部平面為鳥瞰二維平面,獲取其最小包圍等效邊框后,分別與2 種先驗(yàn)候選邊框做重疊度計(jì)算。正樣本設(shè)定閾值為0.65,負(fù)樣本設(shè)定閾值為0.35。

圖2 等效邊框示意圖

對(duì)于多類預(yù)測網(wǎng)絡(luò),回歸值Rgt需要根據(jù)預(yù)測物體類別選取對(duì)應(yīng)參數(shù)作預(yù)處理,而AF處網(wǎng)格缺少相應(yīng)類別信息。本文中進(jìn)行如下處理,首先將標(biāo)簽盒體與AF中每類先驗(yàn)邊框分別計(jì)算單類重疊度Jc與該類參數(shù)下的回歸值Rc,取所有類別中最大的Jc作為該位置網(wǎng)格的候選框重疊度計(jì)算結(jié)果J,對(duì)應(yīng)的所屬類別作為AF的類別信息,對(duì)應(yīng)的Rc作為最終回歸值Rgt。至此,標(biāo)簽數(shù)據(jù)中的置信度、類別、回歸值之間均建立關(guān)聯(lián)。由于回歸值是在先驗(yàn)候選框基礎(chǔ)上進(jìn)行微調(diào),IoU 可同時(shí)反映回歸值的準(zhǔn)確性與置信度。不需要額外設(shè)定權(quán)值層去解決置信度與邊框回歸值不匹配的問題。類別預(yù)測將決定先驗(yàn)候選邊框的具體參數(shù),因此類別預(yù)測將會(huì)極大程度影響邊框預(yù)測的準(zhǔn)確性。對(duì)于類別預(yù)測,假設(shè)每個(gè)柵格位置均存在有且僅有一類目標(biāo)物體。標(biāo)簽邊框中心所在柵格位置上的類別標(biāo)簽是絕對(duì)準(zhǔn)確的,AF中的類別標(biāo)簽則取最鄰近的目標(biāo)物體類別。變相地增加樣本數(shù)量,以誘導(dǎo)模型向正確值輸出,保證魯棒性。遠(yuǎn)離目標(biāo)物體中心的網(wǎng)格基于IoU計(jì)算公式給定類別標(biāo)簽,為了避免邏輯上出現(xiàn)分歧,并沒有單獨(dú)設(shè)置背景類別,因此對(duì)于遠(yuǎn)離物體中心的網(wǎng)格,按此過程計(jì)算的分類標(biāo)簽一定是錯(cuò)誤的。在計(jì)算損失函數(shù)時(shí),由于標(biāo)簽損失函數(shù)中的掩碼是從置信度正樣本掩碼所得,摒棄了遠(yuǎn)離物體中心的網(wǎng)格區(qū)域,這部分錯(cuò)誤類別標(biāo)簽均不會(huì)計(jì)算在損失函數(shù)值中,從而不影響模型收斂。

標(biāo)簽數(shù)據(jù)預(yù)處理產(chǎn)生掩碼的偽代碼如表2 所示,輸入?yún)?shù)是大小為M×C×2×7的先驗(yàn)框參數(shù)A,其中M表示柵格總數(shù);C表示類別總數(shù);L為原始標(biāo)簽數(shù)據(jù);“:”表示所有內(nèi)容。

表2 生成掩碼的偽代碼

3 網(wǎng)絡(luò)訓(xùn)練及預(yù)測

3.1 KITTI數(shù)據(jù)集

KITTI[18]數(shù)據(jù)集是面向無人駕駛場景的公開數(shù)據(jù)集。本文中使用KITTI 數(shù)據(jù)集中三維物體識(shí)別數(shù)據(jù)進(jìn)行訓(xùn)練,每條完整數(shù)據(jù)包括激光雷達(dá)點(diǎn)云數(shù)據(jù)、場景中三維物體標(biāo)注標(biāo)簽和用于可視化的坐標(biāo)系標(biāo)定參數(shù)與左目圖像。整個(gè)數(shù)據(jù)集包含7 480 條完整數(shù)據(jù),取其中7 380條作為訓(xùn)練集參與訓(xùn)練模型,100條作為驗(yàn)證集檢驗(yàn)訓(xùn)練結(jié)果。

3.2 超參設(shè)置

正則化技術(shù)[15]能夠加快模型收斂,且能有效應(yīng)用在基于點(diǎn)云數(shù)據(jù)的物體識(shí)別中。因此模型除最后的輸出層外,層與層之間均添加了BN 層。由于BN層的存在,學(xué)習(xí)率可以設(shè)置得大一些,采用變學(xué)習(xí)率策略,保證模型更好地收斂。以訓(xùn)練集中所有數(shù)據(jù)參與訓(xùn)練記為1 個(gè)全周期(epoch),訓(xùn)練20 個(gè)全周期,前10 個(gè)全周期學(xué)習(xí)率采用10-3,11~15 個(gè)全周期學(xué)習(xí)率采用10-4,16~20 個(gè)全周期學(xué)習(xí)率采用10-5。在單塊1080 Ti GPU 設(shè)備上訓(xùn)練模型,批次大小設(shè)置為1,訓(xùn)練約55 h。每訓(xùn)練10 次,用1 組驗(yàn)證集數(shù)據(jù)做一次不更新模型參數(shù)的前向傳播,記錄驗(yàn)證集損失lossv的變化情況,以表示模型收斂效果。驗(yàn)證集損失函數(shù)變化曲線如圖3 所示,在訓(xùn)練過程末段曲線已經(jīng)趨于平穩(wěn)并維持在較低水平,表示模型已經(jīng)收斂。

圖3 驗(yàn)證集損失曲線

3.3 預(yù)測輸出

設(shè)定網(wǎng)格位置目標(biāo)物體存在的置信度閾值為0.96。篩選出目標(biāo)物體所在網(wǎng)格位置,得到該位置網(wǎng)格上的分類預(yù)測結(jié)果,取分類預(yù)測結(jié)果最大值的序號(hào)為物體類別預(yù)測。結(jié)合置信度中所含的候選框種類信息,可以確定先驗(yàn)框具體參數(shù),再結(jié)合預(yù)測邊框回歸值還原出物體包圍盒體,最后使用NMS 的方法,去除多余的重疊盒體。NMS 原理為計(jì)算兩個(gè)邊框的重疊度,如果重疊度大于設(shè)定閾值,則去除置信度較低的邊框。與圖像識(shí)別不同的是,點(diǎn)云場景幾乎不存在透視與遮擋問題,因此閾值要遠(yuǎn)遠(yuǎn)小于圖像識(shí)別中的NMS 閾值。圖像識(shí)別中閾值一般設(shè)置為0.7,這里設(shè)置為0.1。為了簡便計(jì)算,使用等效邊框來計(jì)算重疊度。

3.4 性能指標(biāo)

假定預(yù)測得到Np個(gè)物體,標(biāo)簽數(shù)據(jù)中標(biāo)注了Ngt個(gè)物體。首先需要將預(yù)測物體與標(biāo)簽物體進(jìn)行配對(duì)。本文中使用遍歷計(jì)算重疊度取最大的方法。以預(yù)測物體為基準(zhǔn),匹配其最大重疊度的標(biāo)簽物體,計(jì)算得到的指標(biāo)記為準(zhǔn)確率。以標(biāo)簽物體為基準(zhǔn),匹配其最大重疊度的預(yù)測物體,計(jì)算得到的指標(biāo)記為召回率。對(duì)于一組配對(duì)的預(yù)測物體與標(biāo)簽物體,如果重疊度大于設(shè)定閾值,則邊框預(yù)測正確。如果兩者分類結(jié)果一致,則類別預(yù)測正確。設(shè)定閾值為0.5 對(duì)應(yīng)體素網(wǎng)絡(luò)“easy”模式,指標(biāo)結(jié)果如表3 所示。設(shè)定閾值為0.7對(duì)應(yīng)“hard”模式,指標(biāo)結(jié)果如表4 所示。模型預(yù)測時(shí)會(huì)識(shí)別出與事實(shí)相符但標(biāo)簽中未標(biāo)注的目標(biāo)物體,在計(jì)算準(zhǔn)確率時(shí)會(huì)計(jì)入錯(cuò)誤,但不計(jì)入召回率中的錯(cuò)誤識(shí)別,因此以召回率指標(biāo)作為主要參考。在計(jì)算IoU 時(shí)采用向下取整的取值原則,即整體全部落于邊界包圍框內(nèi)的體素記為正確,按此原則計(jì)算的重疊度結(jié)果偏小,且目標(biāo)尺寸越小,偏小程度越嚴(yán)重。因此,經(jīng)綜合考慮,本文以“easy”模式召回率作為主要的綜合指標(biāo)。訓(xùn)練過程中每個(gè)epoch 結(jié)束均使用驗(yàn)證集對(duì)模型性能指標(biāo)進(jìn)行“easy”模式的評(píng)估,性能指標(biāo)變化情況如圖4 所示,訓(xùn)練至最后幾個(gè)epoch時(shí),各項(xiàng)性能指標(biāo)均已穩(wěn)定。

表3 “easy”模式下的準(zhǔn)確率與召回率 %

表4 “hard”模式下的準(zhǔn)確率與召回率 %

圖4 性能指標(biāo)變化圖

3.5 實(shí)時(shí)性提高措施及指標(biāo)

算法在實(shí)際應(yīng)用時(shí)分為3 個(gè)環(huán)節(jié):點(diǎn)云數(shù)據(jù)預(yù)處理、前向傳播和目標(biāo)包圍邊框參數(shù)提取。點(diǎn)云預(yù)處理包括對(duì)點(diǎn)云的直通濾波和體素化。使用numba庫中的“jit”修飾器可以極大加快點(diǎn)云預(yù)處理速度。測試顯示在不同的操作系統(tǒng)上numba庫執(zhí)行效率有明顯差別,linux 比win10 上函數(shù)運(yùn)行速度更快,因此算法速度測試在linux 系統(tǒng)上完成。前向傳播中使用稀疏卷積處理辦法,可以大幅降低前向傳播耗時(shí)。目標(biāo)包圍邊框參數(shù)提取耗時(shí)極小,因此不同場景下,目標(biāo)數(shù)目不同對(duì)算法執(zhí)行速度影響不大。不同環(huán)境場景尺寸對(duì)算法執(zhí)行速度影響很大。本文中感知場景使用了雷達(dá)左右40 m、前方70.4 m 的大尺寸場景,遠(yuǎn)遠(yuǎn)超過部分工況(如低速、園區(qū))使用要求。本文中對(duì)小尺寸場景(左右20 m,前方35.2 m)也進(jìn)行了速度測試。結(jié)果如表5所示。

表5 不同場景下的速度測試 ms

3.6 性能結(jié)果分析

將模型預(yù)測的目標(biāo)包圍邊框通過坐標(biāo)映射到左目圖像中,如圖5 所示;在點(diǎn)云鳥瞰圖中作投影,可觀察左目圖像中的遮擋部分以及包圍邊框?qū)嶋H尺寸位置,如圖6 所示。用青色粗實(shí)線標(biāo)注預(yù)測邊框,用品紅色細(xì)實(shí)線標(biāo)注標(biāo)簽邊框。點(diǎn)云鳥瞰圖使用雷達(dá)坐標(biāo),雷達(dá)坐標(biāo)與圖像坐標(biāo)左右方向顛倒。模型對(duì)車輛、行人等多類物體均有準(zhǔn)確的識(shí)別能力。

圖5 左目圖像表示預(yù)測效果

圖6 鳥瞰圖像表示預(yù)測效果

原始數(shù)據(jù)集中包含汽車、箱式貨車、貨車、行人、坐著的人、騎手、火車、混合、其它等9 類標(biāo)注目標(biāo)物體。本文中經(jīng)過統(tǒng)計(jì)分析,去除了標(biāo)注數(shù)目特別稀少的類別,如坐著的人、貨車,避免學(xué)習(xí)不到該類識(shí)別特征而影響識(shí)別結(jié)果;去除先驗(yàn)尺寸不確定的類別,如火車;去除定義模糊的類別,如混合、其它。在選取的類別目標(biāo)中,汽車是數(shù)目最大的標(biāo)注類別,行人次之。從訓(xùn)練結(jié)果上看,汽車的類別預(yù)測準(zhǔn)確率極高,回歸召回率也處在較高水平。

在結(jié)構(gòu)化特征明顯的街道場景中,預(yù)測效果較為出色,除能準(zhǔn)確預(yù)測標(biāo)簽中標(biāo)注的目標(biāo)包圍邊框外,還能預(yù)測標(biāo)簽中未標(biāo)注的目標(biāo),如圖7 紅色中箭頭所示。由于評(píng)價(jià)指標(biāo)需根據(jù)標(biāo)簽中的真值計(jì)算,這些未在標(biāo)簽中標(biāo)注的部分,在準(zhǔn)確率計(jì)算中會(huì)記為錯(cuò)誤,從而降低準(zhǔn)確率指標(biāo)。因此準(zhǔn)確率并非越高越好。

圖7 結(jié)構(gòu)化特征明顯的場景下的預(yù)測效果

算法對(duì)遠(yuǎn)處緊鄰?fù)?寇囕v識(shí)別效果不佳,如圖8 所示。在該場景下,對(duì)距離較遠(yuǎn)、部分遮擋且緊鄰的目標(biāo),雖檢測出遠(yuǎn)處車輛,但回歸邊框并不十分準(zhǔn)確。

圖8 遠(yuǎn)處緊鄰目標(biāo)的預(yù)測效果

在用NMS 去除重疊包圍邊框時(shí),本文中使用了極小的判斷閾值,在識(shí)別行人這類先驗(yàn)包圍邊框尺寸較小的目標(biāo)時(shí),少數(shù)行人距離過近時(shí),會(huì)出現(xiàn)漏檢,如圖9紅色箭頭所示。

圖9 行人距離過近造成的漏檢

用相同主體網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)建立基于體素網(wǎng)絡(luò)的單類目標(biāo)識(shí)別算法,以汽車為例,使用相同訓(xùn)練參數(shù)設(shè)置,進(jìn)行了單類目標(biāo)識(shí)別算法對(duì)比實(shí)驗(yàn)。用3.4節(jié)中提到的性能指標(biāo)進(jìn)行評(píng)價(jià),對(duì)比結(jié)果如表6 所示。結(jié)果表明用多類目標(biāo)數(shù)據(jù)參與整體訓(xùn)練,比單一類別目標(biāo)識(shí)別算法預(yù)測效果更好。其原因在于增設(shè)的類別輸入誘導(dǎo)模型訓(xùn)練學(xué)習(xí)分類特征,從而使網(wǎng)絡(luò)內(nèi)部學(xué)習(xí)到類似決策樹的特征提取結(jié)構(gòu),從而提高了預(yù)測正確率。

表6 單類與多類體素網(wǎng)絡(luò)性能指標(biāo)對(duì)比 %

4 結(jié)論

(1)本文中拓展體素網(wǎng)絡(luò)為多目標(biāo)識(shí)別網(wǎng)絡(luò)并測試其識(shí)別性能。

(2)本文中采用計(jì)算重疊度的方法創(chuàng)建標(biāo)簽分類信息、置信度信息和回歸信息,解決了3 項(xiàng)預(yù)測信息不匹配問題。

(3)用KITTI 數(shù)據(jù)集進(jìn)行訓(xùn)練,設(shè)計(jì)準(zhǔn)確率與召回率評(píng)價(jià)指標(biāo),準(zhǔn)確率用于輔助分析模型特征學(xué)習(xí)效果;召回率為性能評(píng)價(jià)指標(biāo)主要參考。模型邊框預(yù)測綜合召回率為84.8%,類別預(yù)測綜合召回率為88.6%。

(4)以汽車為例,建立對(duì)汽車單類目標(biāo)識(shí)別的體素網(wǎng)絡(luò),進(jìn)行了對(duì)比實(shí)驗(yàn),與本文中提出的多類物體識(shí)別網(wǎng)絡(luò)中對(duì)汽車單類目標(biāo)的預(yù)測結(jié)果作比較。多類識(shí)別網(wǎng)絡(luò)中汽車邊框預(yù)測召回率在“easy”和“hard”模式下分別為88.4%和82.5%,高于用單類物體識(shí)別網(wǎng)絡(luò)預(yù)測汽車的68.4%和63.4%。驗(yàn)證了多類物體識(shí)別網(wǎng)絡(luò)有助于增強(qiáng)網(wǎng)絡(luò)學(xué)習(xí)特征的能力。

猜你喜歡
先驗(yàn)邊框類別
康德定言命令的演繹是一種先驗(yàn)演繹嗎?——論純粹知性與實(shí)踐理性在先天原則證成方面之異同
基于暗通道先驗(yàn)的單幅圖像去霧算法研究與實(shí)現(xiàn)
先驗(yàn)想象力在范疇先驗(yàn)演繹中的定位研究
一起去圖書館吧
簡析基于概率預(yù)測的網(wǎng)絡(luò)數(shù)學(xué)模型建構(gòu)
外出玩
先驗(yàn)的風(fēng)
通過美工刀切分屏幕與邊框
用不上的磚塊
選相紙 打照片
马公市| 平邑县| 东乡族自治县| 彰武县| 马龙县| 墨江| 交口县| 屏东市| 晋宁县| 手游| 南靖县| 淮南市| 千阳县| 张家口市| 永善县| 略阳县| 浑源县| 嵊州市| 贡嘎县| 淳化县| 从江县| 韶山市| 潼南县| 乐昌市| 张家港市| 朝阳县| 左权县| 永仁县| 鄂州市| 时尚| 甘肃省| 石城县| 陵川县| 江北区| 五寨县| 新化县| 延吉市| 平武县| 波密县| 油尖旺区| 界首市|