国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于注意力機制的PointPillars+三維目標檢測

2020-06-17 01:36:58詹為欽倪蓉蓉
關鍵詞:注意力卷積特征

詹為欽,倪蓉蓉,楊 彪

(1.常州大學 信息科學與工程學院,江蘇 常州 213164;2.常州紡織服裝職業(yè)技術學院 能源管理科,江蘇 常州 213164)

深度神經(jīng)網(wǎng)絡在計算機視覺領域取得了突破性進展,以傳統(tǒng)機器學習算法為主導的二維目標檢測算法正被深度神經(jīng)網(wǎng)絡算法[1]所取代.基于深度神經(jīng)網(wǎng)絡的目標檢測算法在檢測精度和識別率方面都優(yōu)于傳統(tǒng)目標檢測算法.人們也在嘗試將深度神經(jīng)網(wǎng)絡應用在其他檢測領域.自動駕駛是三維目標檢測領域的前沿應用方向,車輛在自動駕駛過程中,需要對周圍的車輛、行人等目標進行檢測和行為預測.

傳統(tǒng)二維圖片檢測算法,使用車載相機作為數(shù)據(jù)來源,依賴外部光源,且無法精確定位目標車輛、人物的距離、位置、深度和角度等信息.由車載激光雷達所生成的三維點云數(shù)據(jù),則包含了目標對象的位置、距離、深度和角度等信息,數(shù)據(jù)構成更符合真實情況.車載激光雷達具有測距準、無需可見光等優(yōu)點.基于點云數(shù)據(jù)集的目標檢測算法可以為自動駕駛系統(tǒng)提供目標對象的準確空間方位、速度等信息.因此研究基于點云數(shù)據(jù)的三維目標檢測十分必要.

三維目標檢測算法可分為單步檢測算法和雙步檢測算法.單步檢測算法通過使用卷積神經(jīng)網(wǎng)絡對鳥瞰圖提取特征來實現(xiàn).具有實現(xiàn)簡單、檢測速度快等優(yōu)點.但在將點云數(shù)據(jù)轉化為鳥瞰圖時,會造成目標空間特征信息丟失.文獻[2]將點云數(shù)據(jù)劃分為一定數(shù)量的體素,使用體素特征編碼層提取局部特征,再使用三維卷積層和區(qū)域候選網(wǎng)絡對目標分類和回歸.文獻[3]通過在文獻[2]網(wǎng)絡中添加稀疏卷積層的方法,提高了網(wǎng)絡的整體檢測速度以及檢測效果.文獻[4]將檢測最小單元從文獻[2]中的體素改為柱,通過柱特征網(wǎng)絡提取柱內(nèi)點云特征并生成偽圖,最后通過區(qū)域候選網(wǎng)絡和單步多尺度檢測網(wǎng)絡實現(xiàn)目標檢測任務.單步檢測速度較快,精度適中,在車載嵌入式領域有廣泛的應用.文獻[5]對RGB圖像使用檢測算法以生成若干個目標建議區(qū),接著在對應點云數(shù)據(jù)上延軸線生成若干個截錐體塊,最后對每個截錐體塊采用文獻[6]的方法提取特征并輸出檢測結果.雙步檢測算法由于需要同時檢測RGB圖像和點云數(shù)據(jù),因此檢測速度通常慢于單步檢測算法,而檢測精度一般高于單步檢測算法.

注意力機制可以對網(wǎng)絡的輸入數(shù)據(jù)按不同部分賦予權重,抽取其中關鍵信息,抑制不重要信息.幫助網(wǎng)絡學習數(shù)據(jù)中的重要信息,以做出更加準確的判斷.注意力模塊計算要求低,不會給算法的訓練、運行、計算和存儲帶來太多額外開銷.文獻[7]對通道重新加權,模塊首先對輸入(H×W×C1)使用壓縮操作,輸出大小為(1×1×C1)的特征圖;接著使用提取操作,另參數(shù)ω學習C1個通道間的相關性,生成(1×1×C2)的特征圖;最后輸出堆疊后的特征圖(H×W×C2),C2即為加權后通道值.文獻[8]結合通道注意力和空間注意力2種注意力機制,重新加權通道和空間位置,并通過自主學習的方式學習每個特征空間的重要性程度.目前注意力模塊被廣泛應用于計算機視覺和自然語言處理等相關領域.

為進一步提取偽圖中特征信息,筆者在文獻[4]檢測算法基礎上提出一種基于注意力機制的PointPillars+三維目標檢測算法,算法引入空間注意力模塊及通道注意力模塊.使用卷積神經(jīng)網(wǎng)絡對注意力模塊輸出結果進行處理,并使用SSD (single shot multibox detector)[9]算法進行三維目標檢測.

1 檢測網(wǎng)絡模型

PointPillars+注意力模型如圖1所示,網(wǎng)絡輸入點云數(shù)據(jù)集,計算并得出目標的預測結果.網(wǎng)絡主要分為4個部分:① 柱特征網(wǎng)絡,在三維空間中對點云數(shù)據(jù)按等尺寸柱均勻劃分,并提取柱內(nèi)點云特征生成偽圖;② 注意力模塊,對偽圖特征數(shù)據(jù)更進一步加工(特征的放大和抑制);③ Backbone模塊,將經(jīng)過注意力模塊處理過的偽圖進行多尺度的特征提取;④ 檢測模塊,負責目標對象的檢測,三維邊界框的生成和回歸.

圖1 PointPillars+注意力模型

1.1 柱特征網(wǎng)絡

首先對點云數(shù)據(jù)進行劃分,點云數(shù)據(jù)中的點L用(x,y,z)表示.柱特征網(wǎng)絡將點云數(shù)據(jù)均勻分布在基于Oxy平面的網(wǎng)格中.由這些網(wǎng)格組成1組柱集合,即柱Pillars.柱Pillars在z軸上沒有高度限制.點L添加rf,xm,ym,zm,xp,yp信息來增強表示,rf為反射率;xm,ym,zm分別為點L到柱中所有點的算術平均值距離;xp,yp分別為點L距柱中心(x,y)的方向偏離.因此網(wǎng)絡中的1個點L由9維特征表示.點云數(shù)據(jù)集具有稀疏性,空間中大部分的柱都為空柱,少數(shù)非空柱也只有很少的點.點云數(shù)據(jù)使用0~97%的稀疏度,通過對每個樣本的非空柱數(shù)(P)和每個柱的點數(shù)(N)實施限制來利用這種稀疏度(D),以此產(chǎn)生尺度為(D,P,N)的疏密度張量.如果樣本或柱中保留過多數(shù)據(jù),則通過隨機采樣保留數(shù)據(jù)以適應張量.相反,如果樣本或柱中數(shù)據(jù)過少,則使用0填充張量.接著使用類似PointNet[6]的網(wǎng)絡,使每個點通過線性層、BatchNorm層和ReLU層,輸出大小為(C,P,N)的張量.對通道C使用最大化操作,得到大小為(C,P)的張量.線性層可以用卷積核為1×1的卷積層替代,這種替代方法可以提高計算效率.最后,特征被按照原始柱的位置組合堆積起來,形成大小為(C,H,W)的偽圖,其中,H和W分別為偽圖的高度和寬度.生成偽圖后,送入注意力模塊,對偽圖中特征進行處理.

1.2 注意力模塊

注意力模塊的主要功能:期望通過添加注意力機制來增加數(shù)據(jù)的表征能力,使網(wǎng)絡學習偽圖特征中的重要信息并抑制不重要的信息.注意力機制是受人的行為特點啟發(fā)所發(fā)明,當人們需要做出決定時,會有選擇性地使用數(shù)據(jù)中重要的部分作為判斷的主要依據(jù).與之類似,人工模型在處理問題時,不會平等地處理所有數(shù)據(jù),而是只關注其中重要數(shù)據(jù),這一過程稱為注意力機制.當處理的問題是輸入本身時,通常稱為自我注意力.自我注意力對于網(wǎng)絡學習給定任務十分有意義.例如,在分類任務下,自我注意力以關注信息特征的形式表現(xiàn)出來.假設輸入特征圖F∈RC×H×W,參考CBAM[8]注意力模型將F分為一維的通道注意力Mc∈RC×1×1和二維的空間注意力Ms∈R1×H×W.整個注意力處理過程如下:

F′=Mc(F)?F,

(1)

F″=Ms(F′)?F′,

(2)

式中:F′為經(jīng)過通道注意力加工后的數(shù)據(jù);F″為經(jīng)過空間注意力加工后的數(shù)據(jù);?為逐元素乘法.

1.2.1通道注意力

模塊采用通道內(nèi)部間的特征關系來產(chǎn)生通道注意力,如圖2所示.由于每個通道的特征圖都被看作特征探測器,因此通道注意力主要試圖找出輸入數(shù)據(jù)中“有意義”的部分.為了提高計算通道注意力的效率,對輸入數(shù)據(jù)的空間維度進行了壓縮.為了匯總空間信息,通道注意力同時采用了最大池化和平均池化來聚合特征圖的空間信息,分別用Fcmax,Fcavg表示.接著將上述信息轉入共享網(wǎng)絡中以產(chǎn)生通道注意力Mc∈RC×1×1.共享網(wǎng)絡由單隱層的多層感知機組成,為了減少參數(shù)開銷,隱藏層激活大小設置為R(C/r)×1×1,其中r為縮減比例.在這之后使用逐元素相加法,輸出合并后的特征向量.通道注意力[8]為

Mc(F)=σ{MLP[AvgPool(F)+MaxPool(F)]}=

σ{W1[W0(Fcavg)]+W1[W0(Fcmax)]},

(3)

式中:MLP為多層感知機;AvgPool為平均池化;MaxPool為最大池化;σ為sigmoid函數(shù);W0,W1均為多層感知機的可學習參數(shù),W0∈R(C/r)×C,W1∈RC×(C/r).

圖2 通道注意力

1.2.2空間注意力

模塊利用特征的內(nèi)部空間關系生成空間注意力,如圖3所示.與通道注意力不同,空間注意力更關注信息的具體位置,是對通道注意力的補充.為了計算空間注意力,在通道注意力之后依次進行平均池化和最大池化,通過2個池化操作,依次生成2個二維特征圖:Fsavg,Fsmax.接著將兩者連接起來輸入卷積層,生成Ms∈R1×H×W.

圖3 空間注意力

空間注意力[8]計算如下:

Ms(F)=σ{f7×7[AvgPool(F);MaxPool(F)]}=

σ{f7×7[Fsavg;Fsmax]},

(4)

式中:f7×7為7×7的卷積核卷積操作.

1.3 Backbone模塊

Backbone模塊分為下采樣網(wǎng)絡和上采樣連接網(wǎng)絡.下采樣網(wǎng)絡可由一系列(S,H,O)的塊表示,其中:S為步長;O為輸出通道數(shù);H為3×3的二維卷積層層數(shù).每個通道后都接有BatchNorm層和ReLU層,層內(nèi)的第1個卷積具有步幅S/Sin,以確保網(wǎng)絡層在接收到步長Sin的輸入后,仍保持為S.層中的后續(xù)卷積步長均為1,3層的通道數(shù)分別為64,128,256.下采樣網(wǎng)絡可以產(chǎn)生依次減小的空間分辨率.上采樣連接網(wǎng)絡Up(Sin,Sout,SF)從初始步幅Sin到最后步幅Sout并得到最終特征SF,和下采樣網(wǎng)絡相同,上采樣網(wǎng)絡后都接有BatchNorm層和ReLU層.最終輸出來自不同步長的所有模塊連接.

1.4 檢測模塊

檢測模塊采用了SSD進行目標檢測,SSD是典型的單步檢測算法,檢測速度快,精度高.SSD網(wǎng)絡中引入了錨的思想,可以適應多尺度的目標檢測任務,較為符合點云數(shù)據(jù)尺度變換較大的特點.SSD主要分為6個模塊,第1個模塊由VGG16的前5層Conv1-Conv5卷積層組成,接著將VGG16中的FC6,FC7全連接層轉變?yōu)镃onv6,Conv7卷積層為第2模塊,在此基礎上,又添加了Conv8,Conv9,Conv10和Conv11卷積層4個模塊,以此提取不同尺度下的目標信息,最后進行目標分類檢測和非極大值抑制回歸位置操作.非極大值抑制使用了二維IoU[10],將先驗邊界框與真實目標相匹配.提出的SSD檢測算法可以替換成其他檢測算法,如Faster R-CNN[1]等.

1.5 損失函數(shù)

參考文獻[4]設置損失函數(shù).真實目標的邊界框由(x,y,z,w,l,h,θ)表示,其中:x,y,z為邊界框中心坐標;w,l,h分別為邊界框的寬度、長度和高度;θ為邊界框繞z軸的偏航旋轉角度.目標和錨點之間的線性回歸殘差定義為

(5)

因此總的定位損失函數(shù)為

(6)

式中:SmoothL1為L1平滑函數(shù).

因為定位損失無法區(qū)分邊界框是否翻轉,因此使用Ldir在離散方向上學習邊界框方向.分類損失使用focalloss損失函數(shù),即

Lcls=-αa(1-Pa)γlogPa,

(7)

式中:Pa為錨點的概率值;αa=0.25;γ=2.

總的損失函數(shù)為

(8)

式中:Npos為正概率錨數(shù);βloc=2;βcls=1;βdir=0.2.

損失函數(shù)使用的是Adam優(yōu)化器,初始學習率為2×10-4,每15個周期衰變?yōu)楫斍皩W習率的0.8倍,試驗參數(shù)均來自文獻[4],并使用KITTI[11]官方點云數(shù)據(jù)集,通過兩折交叉驗證法證實參數(shù)有效性.

2 試驗相關

2.1 數(shù)據(jù)集

試驗數(shù)據(jù)來自KITTI[11]官網(wǎng),它是目前自動駕駛領域最重要的數(shù)據(jù)集之一.由德國卡爾斯魯厄理工學院和豐田美國技術研究院聯(lián)合建立.KITTI數(shù)據(jù)集包含點云和圖像數(shù)據(jù).數(shù)據(jù)集內(nèi)包含市區(qū)、鄉(xiāng)村和高速公路等真實駕駛場景的數(shù)據(jù)圖像.每張圖像中最多包括15輛車和30個行人,以及不同程度的遮擋物等.在訓練過程中只使用KITTI點云數(shù)據(jù).根據(jù)慣例,將數(shù)據(jù)集劃分為7 481個訓練集和7 518個測試集.在訓練過程中,又將訓練集分為3 712個訓練樣本和3 769個驗證樣本.

2.2 試驗細節(jié)

試驗環(huán)境為Ubuntu 16.04操作系統(tǒng),Python 3.7,Pytorch 1.1.處理器為Intel i5 CPU,顯卡為Nvidia 1080 GPU.默認參數(shù):柱的x,y分辨率都為0.16 m;最大柱數(shù)(P)為12 000 個;柱內(nèi)最大點數(shù)(N)為100 個.每個類的錨點由寬度、長度、高度和z中心組成,具有0°和90°這2個方向.二維IoU將錨點與真實目標匹配時,正匹配通常選擇標記值中最高的或大于正匹配閾值的.負匹配則選低于負閾值的.匹配時使用軸對齊的非最大抑制方法,重疊閾值為0.5倍IoU.汽車的x,y,z閾值分別為(0,70.4),(-40.0,40.0),(-3.0,1.0)m.錨寬、長度和高度分別為1.60,3.90,1.50 m,z中心為-1.00 m.匹配正負閾值為0.60和0.45.行人和騎行者的x,y,z閾值分別為(0,48.0),(-20.0,20.0),(-2.5,0.5)m.行人錨寬、長度和高度分別為0.60,0.80,1.73 m,騎行者錨寬、長度和高度分別為0.60,1.76,1.73 m,兩者z中心均為-0.60 m.

2.3 數(shù)據(jù)增強

數(shù)據(jù)增強通過增加數(shù)據(jù)樣本提高網(wǎng)絡的泛化能力及檢測效果.首先為所有類創(chuàng)建基于真實目標的三維邊界框查找表以及邊界框內(nèi)的點云.對每個樣本,采用隨機選擇15輛汽車及8位騎車者的真實樣本,將它們放入當前點云數(shù)據(jù)中參與網(wǎng)絡訓練.接下來逐個增加真實目標的邊界框,對每個邊界框分別旋轉[-π/20,π/20]以及平移操作,其中框的x,y,z坐標按N(0,0.25)的正態(tài)分布進行轉換,模型通過以上操作實現(xiàn)訓練樣本集數(shù)量的增加.最后,對所有邊界框沿x軸進行鏡像翻轉并按N(0,0.20) 的正態(tài)分布繪制x,y,z全局平移,模擬定位噪聲.

3 結果分析

3.1 定量分析

定量分析評測分為鳥瞰圖、二維、三維和平均方向相似性幾種方法.KITTI官方數(shù)據(jù)集分為簡單、中等和困難3種難度,KITTI官網(wǎng)排行榜按中等難度數(shù)據(jù)集排名.鳥瞰圖模式、三維模式、AOS模式驗證結果分別如表1-3所示,其中:mAP為平均均值精度;mAPm為汽車、行人以及騎行者中等難度下mAP的均值;檢測算法均為單步目標檢測算法.

表1 鳥瞰圖模式驗證結果

表2 三維模式驗證結果

表3 AOS模式驗證結果

從表1,2可以看出:PoinPillars+并行注意力在所有類檢測結果中均取得良好的結果,相對于PointPillars算法,鳥瞰圖下,mAPm從66.19增加到69.95,汽車的mAP從86.10增加到87.73;三維模式下,mAPm從59.20增加到62.55,汽車的mAP從74.99增加到76.25.除騎行者類中等難度以外,PoinPillars+并行注意力在鳥瞰圖和三維2種方法下,均優(yōu)于表中其他檢測模型,騎行者類中等難度檢測結果也與第1名相差不大.證明了PoinPillars+并行注意力模型的有效性,以及注意力機制的有效性.

從表3可以看出:行人和騎行者的mAP檢測結果略有下降,并不理想,考慮到平均方向相似性模式和三維模式的主要檢測區(qū)別在于是否判別目標方向,推測是模型在提高了檢測結果后,丟失了一部分的方向信息.通過觀察三維模式和鳥瞰圖模式中行人檢測結果的mAP大幅提升,可以說明這個問題.

3.2 定性分析

在訓練過程中僅使用點云數(shù)據(jù)集,為了便于研究、觀察和解釋說明,分別展示了鳥瞰圖和RGB圖像的邊界框預測結果.正例試驗結果如圖4所示.

圖4 正例試驗結果

從圖4可以看出:檢測結果具有緊密且定向的三維邊界框.汽車的預測結果也較準確,此外鳥瞰圖的三維邊界框與RGB圖像中的邊界框的對應關系也很明顯,沒有發(fā)現(xiàn)誤報、錯報等錯誤現(xiàn)象.反例試驗結果如圖5所示,所展示的為一些常見的檢測失敗結果.主要包括對困難樣本(部分遮擋或距離較遠)或相似類別(卡車與大型客車)誤報.此外檢測行人和騎行者更加困難,行人和騎自行車者通常被錯誤分類,行人和桌子組合被誤判為騎行者.此外,行人也容易被誤判為桿、樹干之類的物體,此處也更進一步說明了平均方向相似性模式下,模型行人檢測率較低的原因.

圖5 反例試驗結果

4 結 論

提出了一種基于注意力機制的PointPillars+注意力機制的目標檢測模型,用來檢測真實交通場景下的汽車、行人和騎行者檢測.將訓練的模型結果與以往模型的結果相比較可以發(fā)現(xiàn),PointPillars+并行注意力檢測模型在預測結果方面有較大優(yōu)勢.2組注意力機制對比結果表明:并行注意力機制更適用于本模型,注意力機制的內(nèi)部結構,也對模型檢測結果的準確率有十分重要的影響.

猜你喜歡
注意力卷積特征
讓注意力“飛”回來
基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
如何表達“特征”
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
基于傅里葉域卷積表示的目標跟蹤算法
抓住特征巧觀察
“揚眼”APP:讓注意力“變現(xiàn)”
傳媒評論(2017年3期)2017-06-13 09:18:10
A Beautiful Way Of Looking At Things
一種基于卷積神經(jīng)網(wǎng)絡的性別識別方法
電視技術(2014年19期)2014-03-11 15:38:20
南投县| 泽州县| 龙里县| 榆中县| 安丘市| 大兴区| 德江县| 仪征市| 桂林市| 浑源县| 龙海市| 泸水县| 博客| 朝阳市| 商城县| 旺苍县| 鹤庆县| 精河县| 麟游县| 仁布县| 广州市| 瑞昌市| 灌南县| 徐汇区| 景东| 远安县| 乌海市| 三穗县| 奉贤区| 洱源县| 舞钢市| 家居| 海门市| 三穗县| 武川县| 巴南区| 三都| 顺义区| 房山区| 新晃| 马龙县|