国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)合注意力機(jī)制的車型檢測算法

2022-01-09 06:26謝斌紅趙金朋張英俊
關(guān)鍵詞:精度注意力圖像

謝斌紅,趙金朋,張英俊

(太原科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山西 太原 030024)

0 引 言

隨著社會的發(fā)展,國內(nèi)的汽車數(shù)量不斷增加,種類也日益豐富,使用計(jì)算機(jī)技術(shù)對交通圖像中的車型進(jìn)行識別檢測已經(jīng)成為計(jì)算機(jī)視覺領(lǐng)域的一項(xiàng)重要應(yīng)用。在不同的場景中檢測不同的車型具有廣闊的應(yīng)用前景,例如:在無人駕駛領(lǐng)域,通過識別圖像中的車輛類型和位置,可以規(guī)避車輛的碰撞;在智能交通管理中,可以用于市區(qū)車輛的限行,也可以進(jìn)行更精準(zhǔn)的車流檢測等。

近年來,由于深度卷積神經(jīng)網(wǎng)絡(luò)(DCNNs)的發(fā)展和計(jì)算機(jī)計(jì)算能力的提升,基于深度學(xué)習(xí)的車型檢測技術(shù)引起了人們的廣泛研究。Sengar[1]等人采用一種基于雙向光流塊的運(yùn)動(dòng)目標(biāo)檢測算法,該算法實(shí)驗(yàn)效果較好,但是需要對比前后兩幀圖像,需要輸入視頻,不適用于靜態(tài)檢測。孫皓澤等人[2]提出使用MobileNet網(wǎng)絡(luò)對裝甲車進(jìn)行檢測識別,該方法適用于計(jì)算資源受限場景,但在檢測精度上仍有待提高。為了能夠直接檢測圖像中的車輛類型,提高實(shí)時(shí)檢測準(zhǔn)確率,該文提出將深度學(xué)習(xí)的目標(biāo)檢測方法用于實(shí)時(shí)車型檢測任務(wù)中,解決實(shí)際場景應(yīng)用中車型的檢測精度和速度問題。

目前,基于深度學(xué)習(xí)的目標(biāo)檢測方法主要分為兩類:基于候選區(qū)域的雙階段檢測器和基于回歸框的單階段檢測器。其中,雙階段檢測器的檢測過程分為兩個(gè)步驟,第一步從圖像中生成候選區(qū)域(可能存在目標(biāo)的區(qū)域),然后將候選區(qū)域作為輸入,輸入神經(jīng)網(wǎng)絡(luò)提取特征,進(jìn)行目標(biāo)的類別和回歸框位置的檢測,典型的網(wǎng)絡(luò)有R-CNN[3]、Fast R-CNN[4]、Mask R-CNN[5]、PANet[6]、TridentNet[7]。而單階段檢測器省去了候選區(qū)域的生成過程,將目標(biāo)檢測任務(wù)視為回歸任務(wù),直接對輸入的圖像進(jìn)行回歸預(yù)測并輸出結(jié)果,典型的網(wǎng)絡(luò)有SSD[8]、YOLO[9-11]、ConerNet[12]、FSAF[13]、FCOS[14]。

兩種方法相比較,雙階段檢測方法的精度略高于單階段檢測方法的精度,但是其在檢測速度方面表現(xiàn)不如單階段檢測方法,不足以滿足車型檢測的實(shí)時(shí)要求;而單階段檢測方法在檢測速度方面有著很好的表現(xiàn),故采用單階段的檢測方法進(jìn)行車型檢測。

現(xiàn)在主流的基于單階段的車型檢測方法在檢測速度和精度方面都有著較好的表現(xiàn),但大多數(shù)方法是基于Anchor框的,需要人為預(yù)先設(shè)置Anchor的一些大小和比例等超參數(shù)。

該方法存在以下不足:

(1)算法對預(yù)先設(shè)定的圖像的大小、Anchor框的長寬比和數(shù)量比較敏感;

(2)由于與Anchor相關(guān)的超參數(shù)是預(yù)先設(shè)定的,使得算法無法自適應(yīng)檢測目標(biāo)的大小,且對變形較大的目標(biāo)檢測效果不太理想;

(3)該類方法計(jì)算量和內(nèi)存開銷較大,因?yàn)樾枰驼鎸?shí)結(jié)果多次地計(jì)算IOU(intersection over union);

(4)該方法會使得數(shù)據(jù)集的正負(fù)樣本不平衡,為了獲得較高的召回率,需要在特征圖上密集地部署Anchor,而其中大部分是負(fù)樣本,會加劇正負(fù)樣本的不平衡。

針對上述不足,該文提出基于Anchor-Free的車型檢測方法。該方法減少了車型檢測模型的設(shè)計(jì)復(fù)雜度和超參數(shù)的設(shè)置難度,從而簡化訓(xùn)練過程,提升模型檢測速度;取消了Anchor的設(shè)置,在減少計(jì)算量的同時(shí)可以更好地適應(yīng)不同尺寸的車輛特征。同時(shí),為了解決車型檢測過程中對車輛關(guān)鍵特征提取能力不足的問題,在CenterNet[15]的基礎(chǔ)上引入了混合注意力機(jī)制;此外為了更好地提取不同尺寸的車型特征,將不同尺度的特征圖進(jìn)行了融合。在增加了極少參數(shù)量的同時(shí)提升了檢測精度。

1 相關(guān)工作

1.1 注意力機(jī)制

注意力機(jī)制(attention mechanism)源于人們對視覺的研究。人類視覺系統(tǒng)的一個(gè)重要特性是人們不會一次嘗試處理整個(gè)場景的信息,而是有選擇地聚焦于有重要特征信息的區(qū)域。Jaderberg等人[16]在Spatial Transformer Networks中提出了用于分類任務(wù)的空間注意力模塊,該模塊允許對特征數(shù)據(jù)進(jìn)行空間變換。Wang等[17]使用編碼器式注意模塊的殘差注意網(wǎng)絡(luò),通過細(xì)化特征圖,使得網(wǎng)絡(luò)在提升性能的同時(shí)增加了對噪聲的魯棒性。注意力機(jī)制已被廣泛地應(yīng)用于序列化標(biāo)注、圖像識別和目標(biāo)檢測等場景。使用注意力機(jī)制來提升卷積神經(jīng)網(wǎng)絡(luò)在大規(guī)模圖像分類、檢測任務(wù)中的效果,故該文使用注意力機(jī)制提升車型檢測效果。

1.2 網(wǎng)絡(luò)結(jié)構(gòu)

該方法是一種基于Anchor-Free的單階段目標(biāo)檢測算法,在速度和精度方面都有很好的表現(xiàn),并且在摒棄Anchor后,減少了人為設(shè)置超參的影響。本研究采用ResNet-34作為主干網(wǎng),其網(wǎng)絡(luò)結(jié)構(gòu)如表1所示,該網(wǎng)絡(luò)很好地解決了深度神經(jīng)網(wǎng)絡(luò)的退化問題。

表1 主干網(wǎng)的結(jié)構(gòu)

模型訓(xùn)練時(shí),首先使用ResNet-34進(jìn)行特征提取,然后對提取出來的特征經(jīng)過多層可變形卷積(deformable convolutional networks),將特征圖尺寸進(jìn)行四次下采樣,由512×512縮小到128×128,最后形成三個(gè)并行分支,分別預(yù)測車輛的類別損失Lk、邊框損失Lsize以及車輛中心偏移損失Loff。損失函數(shù)的計(jì)算公式如式(1)所示,其中λsize為0.1,λoff為1。

Ldet=Lk+λsizeLsize+λoffLoff

(1)

Lk=

(2)

在分類損失中,α為2,β為4,N為關(guān)鍵點(diǎn)個(gè)數(shù),該超參的選擇依據(jù)Law[18]等人的實(shí)驗(yàn)。

(3)

(4)

2 改進(jìn)網(wǎng)絡(luò)

2.1 注意力模塊

目前常見的注意力機(jī)制劃分方式有三種,按照關(guān)注區(qū)域可以分為軟注意力和硬注意力;按照輸入形式可以分為基于項(xiàng)的注意力和基于位置的注意力;如果按照注意力域(attention domain)分類,則包含三種注意力域:空間域(spatial domain)、通道域(channel domain)和混合域(mixed domain)。

通道注意力的作用是通過對特征圖的各個(gè)通道之間的依賴性進(jìn)行建模以提高對于重要特征的表征能力。目前生成通道注意力的方式有以下幾種:平均池化、最大池化、結(jié)合平局池化和最大池化、方差池化。其生成過程類似,首先通過在各層特征圖上的池化獲得各個(gè)通道的全局信息,然后使用全連接層進(jìn)行特征提取,ReLU進(jìn)行非線性激活,最后使用Sigmoid進(jìn)行權(quán)重歸一化,通過該過程自適應(yīng)地對各通道特征的相關(guān)程度進(jìn)行建模,最后再將原特征通道的信息與自適應(yīng)學(xué)習(xí)建模后的權(quán)重進(jìn)行加權(quán)處理,實(shí)現(xiàn)特征響應(yīng)及特征重校準(zhǔn)的效果。

使用注意力機(jī)制的網(wǎng)絡(luò)在前向傳播的過程中,重要的特征通道將會占有更大的比重,在最終所呈現(xiàn)的輸出圖像中也能更加明顯地表征車型檢測網(wǎng)絡(luò)所重點(diǎn)關(guān)注的部分,更加關(guān)注圖像的內(nèi)容特征,更好地分辨出車輛的類別。

空間注意力需要為特征圖生成一個(gè)空間注意力圖,用于增強(qiáng)或抑制不同位置的特征??臻g注意力的方式有兩種:最大池化和平均池化結(jié)合、標(biāo)準(zhǔn)卷積(1*1,S=1,不同卷積核大小)。通過空間注意力,能夠更好地展示網(wǎng)絡(luò)所要關(guān)注的重點(diǎn)位置,更加關(guān)注圖像的位置特征,更好地對車輛進(jìn)行定位。

混合注意力,顧名思義就是將圖像的通道特征和空間特征引入到特征提取的過程。Convolutional Block Attention Module (CBAM)[19]就是使用了混合注意力機(jī)制,同時(shí)關(guān)注通道和空間的特征,以此來提高神經(jīng)網(wǎng)絡(luò)在類別以及位置的表征能力。

本研究在ResNet[17]的殘差模塊中融入混合注意力機(jī)制,用于提升車型類別以及車輛位置的表征能力。圖1為引入注意力之后的殘差模塊結(jié)構(gòu)圖。從圖1可知,輸入圖像經(jīng)過卷積之后,首先將特征圖輸入到通道注意力模塊,經(jīng)過全局平均池化和全局最大池化操作后依次通過兩次全連接和Sigmoid;將通道注意力模塊輸出的特征圖輸入到空間注意力模塊中,經(jīng)過通道最大池化和通道平均池化后輸入到全連接和Sigmoid;最后再和殘差連接結(jié)合一并輸出。

圖1 引入注意力的殘差模塊

通道注意力輸入特征圖F∈Rc×h×w(c為通道數(shù),h、w為圖像的高寬),會生成一個(gè)一維的通道注意力圖Mc∈Rc×1×1。生成過程如圖2所示(圖中S代表Sigmoid)。具體注意力特征圖計(jì)算公式如式(5)所示。

圖2 通道注意力結(jié)構(gòu)

(5)

其中,全局平均池化輸出為Avgout,全局最大池化輸出為Maxout,F(xiàn)c為全連接,ReLU為激活函數(shù)。

空間注意力將通道注意力的輸出作為輸入,輸入到網(wǎng)絡(luò),運(yùn)算后生成一個(gè)二維的空間注意力圖Ms∈R1×h×w。具體注意力特征圖計(jì)算公式如式(6)所示,Avg為平均池化操作,Max為最大池化操作,Cat為張量拼接運(yùn)算。生成過程如圖3所示。

圖3 空間注意力結(jié)構(gòu)

F''=Ms(F')?F'

Ms(F')=Sigmoid(conv(Cat(Avg(F')+

Max(F'))))

(6)

2.2 特征融合

在特征提取過程中,ResNet-34進(jìn)行了四次下采樣,將圖像原始尺寸進(jìn)行了四次縮放,因此,圖像中的一些小目標(biāo)在進(jìn)行特征提取時(shí),其分辨率逐漸下降,在網(wǎng)絡(luò)的末端小目標(biāo)的特征信息可能就會丟失,從而影響小目標(biāo)的檢測精度。所以為了提高車輛目標(biāo)檢測效果,更好地提取圖像中車型的細(xì)粒度特征,通過引入特征融合,將可以更好地保留上層的特征,減少特征信息的損失,從而提升識別精度,具體過程如下。

首先,將殘差網(wǎng)絡(luò)中C3層的特征進(jìn)行下采樣操作,并通過1×1卷積改變通道數(shù),與C5層的特征進(jìn)行融合,然后將融合之后的特征一并進(jìn)行后續(xù)運(yùn)算。圖4為引入特征融合的整體網(wǎng)絡(luò)結(jié)構(gòu),加粗連接線為引入的特征融合。

圖4 網(wǎng)絡(luò)結(jié)構(gòu)

2.3 圖像增強(qiáng)

數(shù)據(jù)增強(qiáng)也稱為數(shù)據(jù)增廣,目的是增加數(shù)據(jù)集的規(guī)模,更好地訓(xùn)練模型,讓模型有更好的檢測能力,防止模型過擬合。為了提升車型檢測模型的泛化能力,提升檢測性能,從而更好地進(jìn)行車型檢測,該文首先對實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行了翻轉(zhuǎn)增強(qiáng),然后再使用增強(qiáng)后數(shù)據(jù)集進(jìn)行訓(xùn)練。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)集

文中使用的數(shù)據(jù)集為KITTI車型數(shù)據(jù)集和BIT-Vehicle數(shù)據(jù)集。其中,KITTI數(shù)據(jù)集是由豐田美國技術(shù)研究院同德國卡爾斯魯厄理工學(xué)院聯(lián)合創(chuàng)建,該數(shù)據(jù)集是目前國際上最大的數(shù)據(jù)集,主要用于自動(dòng)駕駛場景下的計(jì)算機(jī)視覺算法評測。

KITTI車型數(shù)據(jù)集一共有7 481張圖像,包含小汽車(Car)、廂式貨車(Van)、卡車(Truck)和電車(Tram)四種車型。實(shí)驗(yàn)中將數(shù)據(jù)集劃分為兩部分,其中5 000張作為訓(xùn)練集,2 481作為測試集,訓(xùn)練標(biāo)簽總共有17 637個(gè),測試標(biāo)簽有15 627個(gè),具體每類車型標(biāo)簽數(shù)如圖5所示。

圖5 KITTI數(shù)據(jù)集

另一個(gè)數(shù)據(jù)集是BIT-Vehicle車型數(shù)據(jù)集,它包含了公共汽車(Bus)、越野車(SUV)、轎車(Sedan)、小貨車(Minivan)、中巴(Microbus)和卡車(Truck)6種車型,共9 850張圖像。本次實(shí)驗(yàn)將數(shù)據(jù)集劃分為兩部分,6 000張用于訓(xùn)練,3 850張用于測試,詳細(xì)類別的標(biāo)簽數(shù)如圖6所示,該數(shù)據(jù)集中的圖像均采自于實(shí)際的交通高清攝像頭。

圖6 BIT-Vehicle數(shù)據(jù)集

實(shí)驗(yàn)中的數(shù)據(jù)集格式為COCO,所以需要對原始標(biāo)簽進(jìn)行數(shù)據(jù)格式的轉(zhuǎn)化。具體步驟如下:

(1)將KITTI轉(zhuǎn)化為txt格式;

(2)從txt中篩選車輛類別;

(3)txt格式標(biāo)簽轉(zhuǎn)化為XML格式;

(4)將XML格式標(biāo)簽轉(zhuǎn)化為Json格式用于訓(xùn)練和測試。

3.2 評價(jià)指標(biāo)

實(shí)驗(yàn)使用各車型類別AP的平均值(mean average precision,mAP)和每秒檢測幀數(shù)(frames per second,fps)作為評價(jià)指標(biāo)。mAP通過計(jì)算IOU=0.5時(shí)的精度precision和召回率recall得到每類車型的PR(precision-recall)曲線,然后計(jì)算PR曲線與其下的面積得到該類別的平均精度AP,最后,計(jì)算所有類別AP的平均值得到mAP。而fps則是首先通過計(jì)算出檢測一張圖片所消耗的時(shí)間,然后計(jì)算每秒可以檢測多少張圖計(jì)算而來。

3.3 實(shí)驗(yàn)設(shè)置

本研究中使用的實(shí)驗(yàn)配置如下:CPU:Inteli7 8700K;RAM:16 G;GPU加速庫:CUDA 10.0,CUDNN 7.5.0;GPU:Nvidia GTX1080Ti;實(shí)驗(yàn)平臺的操作系統(tǒng)為Ubuntu16.04,實(shí)驗(yàn)程序開發(fā)使用了基于Python機(jī)器學(xué)習(xí)庫的Pytorch框架。

網(wǎng)絡(luò)訓(xùn)練過程中,首先在ImageNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,然后在車型數(shù)據(jù)集上進(jìn)行微調(diào)。訓(xùn)練參數(shù)設(shè)置如下:batch_size為32,epoch為120,初始學(xué)習(xí)率0.000 125,并在第75個(gè)和100個(gè)epoch時(shí)分別下調(diào)學(xué)習(xí)率,每次下調(diào)為原來的1/10。

3.4 實(shí)驗(yàn)結(jié)果及分析

為驗(yàn)證文中方法的有效性,與現(xiàn)有的方法進(jìn)行對比,在BIT-Vehicle數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如圖7所示。

由圖7可知,文中方法與Yolov3相比,在Truck、SUV、Microbus三種車型數(shù)據(jù)集上識別精度有比較明顯的提升,同時(shí)速度也由35 fps提升至43 fps,能夠更好地應(yīng)用于實(shí)時(shí)車型檢測。

圖7 BIT-Vehicle數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

文中方法與其他方法在KITTI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表2所示。分析表中數(shù)據(jù)可知,文中方法與原CenterNet[15]方法相比mAP提升了2.3%,而檢測速度基本不受影響。這就說明混合注意力的引入能夠很好地提升車型檢測的精度;并且與現(xiàn)在主流的方法相比,能夠在速度與精度之間達(dá)到了一個(gè)很好的平衡。和DF-YOLOv3[22]相比,雖然速度慢了2 fps,但精度提升接近1%。

表2 KITTI數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

通過對上述實(shí)驗(yàn)結(jié)果的分析,證明了通過融入注意力模塊,對車輛的空間信息以及通道信息進(jìn)行權(quán)重劃分,同時(shí)進(jìn)一步融合了不同尺度的車型特征,雖然增加了模型參數(shù),但檢測速度不受較大影響,同時(shí)提升了車輛檢測的精度,從而驗(yàn)證了文中方法的有效性。

此外,為了更好地分析文中方法,對車型中心點(diǎn)檢測結(jié)果進(jìn)行可視化展示。圖8為該方法在BIT-Vehicle數(shù)據(jù)集上的檢測結(jié)果,其中第一行為原始輸入圖像,第二行為預(yù)測的關(guān)鍵點(diǎn)效果圖,最后一行為檢測結(jié)果圖。從圖中可以看出該方法能夠很好地預(yù)測車輛的中心位置。此外,通過觀察檢測結(jié)果發(fā)現(xiàn),在光照充足的情況下,圖像中會有車的陰影,這會一定程度上影響檢測效果。

圖8 檢測結(jié)果

4 結(jié)束語

針對當(dāng)前車型檢測方法存在精度、速度較低和數(shù)據(jù)集少的問題,首先使用圖像增強(qiáng)對車型數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng),為車型檢測模型提供了規(guī)模更大的數(shù)據(jù)集。同時(shí)為了適應(yīng)不同尺寸的車型以及多目標(biāo)檢測等情況,通過使用混合注意力模塊和特征融合對Centernet[15]進(jìn)行改進(jìn),最終得到混合注意力卷積神經(jīng)網(wǎng)絡(luò),提高了車型檢測精度。在KITTI數(shù)據(jù)集和BIT-Vehicle數(shù)據(jù)集上分別進(jìn)行實(shí)驗(yàn),其在測試集上的平均檢測精度分別達(dá)到了94.6%、95.5%,與現(xiàn)有的一些車型檢測算法對比結(jié)果顯示,該方法更適用于車型檢測任務(wù),能夠直接對圖像進(jìn)行車型檢測,并且能夠在速度和精確率上實(shí)現(xiàn)了一個(gè)很好的平衡。

在未來工作中,將探索更優(yōu)的注意力模塊,同時(shí)使用更好的圖像處理方法,來適應(yīng)復(fù)雜的應(yīng)用環(huán)境,促進(jìn)深度學(xué)習(xí)在車型檢測、自動(dòng)駕駛等任務(wù)上的應(yīng)用。

猜你喜歡
精度注意力圖像
基于不同快速星歷的GAMIT解算精度分析
數(shù)字化無模鑄造五軸精密成形機(jī)精度檢驗(yàn)項(xiàng)目分析與研究
讓注意力“飛”回來
A、B兩點(diǎn)漂流記
近似邊界精度信息熵的屬性約簡
A Beautiful Way Of Looking At Things
名人語錄的極簡圖像表達(dá)
一次函數(shù)圖像與性質(zhì)的重難點(diǎn)講析
趣味數(shù)獨(dú)等4則
淺談ProENGINEER精度設(shè)置及應(yīng)用