趙加坤 韓 睿 孫 俊 金 舉
(西安交通大學(xué)軟件學(xué)院 西安 710049)
隨著高速公路的迅速發(fā)展,ETC 通道車輛違規(guī)行為卻日漸嚴(yán)重,出現(xiàn)各種各樣的跟車闖關(guān)、大車小標(biāo)、偷換標(biāo)簽等情況[1],這些龐大數(shù)量的違規(guī)車輛不但造成收費(fèi)站重大的經(jīng)濟(jì)損失,而且也嚴(yán)重阻礙了我國(guó)智慧高速公路的健康發(fā)展。在這種情況下,傳統(tǒng)的車型管理方法慢慢被社會(huì)所淘汰,需要一種更智能化的、能夠基于車牌以外的其他車輛特征來對(duì)監(jiān)控視頻中的車輛進(jìn)行自動(dòng)、準(zhǔn)確地識(shí)別技術(shù)[2]。目前已有的車輛檢測(cè)算法大致可以分為兩類:基于車輛特征信息的傳統(tǒng)檢測(cè)算法和基于深度學(xué)習(xí)的檢測(cè)算法。傳統(tǒng)車輛實(shí)時(shí)檢測(cè)算法主要是依據(jù)車輛的邊緣和幾何特征來識(shí)別汽車,目前主流的算法主要分為光流法[3]、幀差法[4]、背景差分法[5]等。在實(shí)際的ETC應(yīng)用場(chǎng)景中,車輛的識(shí)別比較復(fù)雜,傳統(tǒng)車輛識(shí)別算法存在著很多局限性,例如:光流法很容易受到光源、噪聲等因素的影響而降低檢測(cè)率;幀差法不容易檢測(cè)到運(yùn)動(dòng)速度緩慢的車輛;背景差分法對(duì)場(chǎng)景變換比較敏感,而在ETC場(chǎng)景中存在天氣、光照等復(fù)雜多變的不同場(chǎng)景,這會(huì)在很大程度上影響檢測(cè)結(jié)果。
針對(duì)傳統(tǒng)檢測(cè)算法存在抗噪能力差,計(jì)算復(fù)雜,準(zhǔn)確率低等缺點(diǎn)。在大量的車輛檢測(cè)算法中,基于深度學(xué)習(xí)的車輛檢測(cè)算法引起了學(xué)者極大的關(guān)注并被廣泛使用。目前基于深度學(xué)習(xí)的車輛檢測(cè)算法主要有R-CNN[6]、Fast R-CNN[7]、SSD[8]、YOLOv3[9]。R-CNN 通過一些傳統(tǒng)圖像處理方法實(shí)現(xiàn)候選區(qū)域的選取,再通過卷積神經(jīng)網(wǎng)絡(luò)提取對(duì)應(yīng)的車輛特征向量,最后使用SVM[10]對(duì)區(qū)域進(jìn)行分類,使用線性回歸損失來校正邊界框,以實(shí)現(xiàn)車輛分類并得到車輛的檢測(cè)框。Fast R-CNN 在R-CNN 的基礎(chǔ)上進(jìn)行改進(jìn),取代R-CNN 原本的串行特征提取方式,直接采用一個(gè)卷積神經(jīng)網(wǎng)絡(luò)對(duì)全圖提取特征,同時(shí)利用金字塔池化層的思想[11],解決了R-CNN 輸入圖像尺寸固定的問題。相對(duì)傳統(tǒng)的目標(biāo)檢測(cè)算法,R-CNN 和Fast R-CNN 在車輛特征提取方面有了較大的提升,但是依舊存在計(jì)算量大,沒有實(shí)現(xiàn)端到端的訓(xùn)練與測(cè)試等問題,無法滿足在ETC 場(chǎng)景下車輛實(shí)時(shí)檢測(cè)的需求。SSD 基于VGG16[12]網(wǎng)絡(luò)融合不同卷積層的特征圖來增強(qiáng)系統(tǒng)的特征表征能力,在保證實(shí)時(shí)的同時(shí),大幅度提升檢測(cè)精度,但是SSD融合多個(gè)卷積特征時(shí)沒有考慮卷積層之間的相互關(guān)系,從而導(dǎo)致檢測(cè)精度并不是很高[13]。相比于SSD 和Fast R-CNN,YOLOv3 算法借鑒了殘差神經(jīng)網(wǎng)絡(luò)[14]的思想,并實(shí)現(xiàn)了多尺度預(yù)測(cè),在保證實(shí)時(shí)檢測(cè)的同時(shí)獲得了目前最好的檢測(cè)精度。
為了提高算法在車輛檢測(cè)方面的適用性和準(zhǔn)確性,我們采用GIOU[15]來替換邊框回歸損失函數(shù)的思想對(duì)YOLOv3 進(jìn)行改進(jìn),同時(shí)分析數(shù)據(jù)集中目標(biāo)的分布情況修正anchor box,使得anchor box更加符合目標(biāo)尺寸,增強(qiáng)收斂效果。通過ETC數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,可以發(fā)現(xiàn)改進(jìn)的YOLOv3 在達(dá)到實(shí)時(shí)性要求的同時(shí)依然能夠保持著較高的準(zhǔn)確度。
YOLOv3 借鑒了殘差網(wǎng)絡(luò)的思想,提出了全新的特征提取網(wǎng)絡(luò)Darknet53,作為骨干網(wǎng)絡(luò)提取車輛的特征。Darknet53 主要有卷積層和殘差層組成。殘差層如圖1 所示,其中帶加號(hào)的標(biāo)志是一個(gè)相加的操作,公式表示為
圖1 殘差網(wǎng)絡(luò)塊
其中xt和xt+1是第t 個(gè)殘差層的輸入與輸出向量,F(xiàn)t(xt)是xt經(jīng)過兩次卷積操作后得到的結(jié)果,兩次卷積操作的卷積核尺寸分別為1×1和3×3,步長(zhǎng)均為1。Darknet53 在每層卷積后都添加了批量歸一化層和線性單元的激活函數(shù),這樣組成的殘差網(wǎng)絡(luò)易于特征提取且更易于收斂。
通過特征提取網(wǎng)絡(luò)Darknet53的特征提取,YOLO 卷積層會(huì)得到大小為52×52、26×26、13×13 的特征圖,但是在特征圖預(yù)測(cè)結(jié)果之前,卷積層會(huì)將提取到的特征進(jìn)行特征融合,將淺層的低語義高分辨率特征與深層的高語義特征進(jìn)行結(jié)合,采用上采樣和融合的做法,融合了三個(gè)尺度(13*13、26*26 和52*52),在多個(gè)尺度的融合特征圖上分別獨(dú)立檢測(cè),最終使得高分辨的車輛特征也包含了豐富的語義信息。對(duì)于輸出預(yù)測(cè)的三個(gè)特征圖,特征圖上每個(gè)像素點(diǎn)格子預(yù)測(cè)三個(gè)框,每個(gè)框都預(yù)測(cè)中心點(diǎn)坐標(biāo)x、y,高寬h、w,存在物體的置信度p 和k 個(gè)類別的得分值。最終通過非極大抑制算法篩選出的預(yù)測(cè)框作為車輛的最終檢測(cè)框。
原始的YOLOv1 中,網(wǎng)絡(luò)會(huì)直接預(yù)測(cè)檢測(cè)目標(biāo)的中心點(diǎn)坐標(biāo)x,y 和檢測(cè)框的寬高w,h,但是預(yù)測(cè)結(jié)果的微小變換會(huì)導(dǎo)致檢測(cè)框的波動(dòng)較大,預(yù)測(cè)結(jié)果不準(zhǔn)確。YOLOv2 對(duì)預(yù)測(cè)值進(jìn)行了改進(jìn),其公式為
其中tx、ty、tw、th均為網(wǎng)絡(luò)預(yù)測(cè)值;cx、cy為當(dāng)前cell距離左上角的偏移量;pw,ph代表與真實(shí)框重合度最大的anchor box 的寬高;σ函數(shù)是sigmoid 函數(shù),其目的是將預(yù)測(cè)偏移量縮放到0~1之間。
損失函數(shù)作為神經(jīng)網(wǎng)絡(luò)用來評(píng)估模型的預(yù)測(cè)值與真實(shí)值之間的差異程度,可以在很大程度上影響模型收斂的效果。在YOLOv3 中,原始的損失函數(shù)Loss為[16]
主要的損失函數(shù)分為三大部分,坐標(biāo)損失,置信度損失及分類損失,λobj在預(yù)測(cè)框檢測(cè)到目標(biāo)車輛時(shí)為1,其他時(shí)候?yàn)?。
YOLOv3 的損失函數(shù)采用誤差平方和的計(jì)算方式,整合了預(yù)測(cè)框定位誤差、有無目標(biāo)的IOU 誤差以及分類誤差,其中預(yù)測(cè)框定位誤差的計(jì)算采用的都是邊框回歸損失的計(jì)算方式,這些計(jì)算損失值的方式都是檢測(cè)框的“代理屬性”——距離,而忽略了檢測(cè)框本身最顯著的性質(zhì)——IOU。
如圖2所示,在L1及L2范數(shù)取到相同的值時(shí),實(shí)際上檢測(cè)效果卻是差異巨大的,直接表現(xiàn)就是預(yù)測(cè)和真實(shí)檢測(cè)框的IOU 值變化較大,這說明L1 和L2 范數(shù)不能很好的反映檢測(cè)效果。但是直接用IOU 作為損失函數(shù)來反映預(yù)測(cè)檢測(cè)框與真實(shí)檢測(cè)框的檢測(cè)效果,我們會(huì)發(fā)現(xiàn)檢測(cè)框與真實(shí)框之間沒有重合時(shí),IOU為0。而在優(yōu)化損失函數(shù)時(shí),梯度為0,意味著無法優(yōu)化,且在檢測(cè)框與真實(shí)框之間IOU相同時(shí),檢測(cè)的效果也具有較大差異,如圖2所示。
圖2 同一L2范數(shù)的不同IOU,GIOU對(duì)比圖
基于IOU 的優(yōu)良特性和其作為損失函數(shù)時(shí)的缺點(diǎn),我們引入GIOU的概念:
假如現(xiàn)在有兩個(gè)任意性質(zhì)A,B,我們找到一個(gè)最小的封閉形狀C,讓C 可以把A,B 包含在內(nèi);計(jì)算C 中沒有覆蓋A 和B 的面積占C 總面積的比值;用A 與B 的IOU 減去這個(gè)比值;相比于IOU 會(huì)出現(xiàn)梯度為0 的問題,GIOU 引入了包含A,B 兩個(gè)形狀的C,所以當(dāng)A,B 不重合時(shí),依然可以進(jìn)行優(yōu)化,且以GIOU 為邊框回歸的損失函數(shù),可以直接反映模型的檢測(cè)效果。
1)計(jì)算BP的面積公式如下:
2)計(jì)算Bg的面積公式如下:
3)計(jì)算BP,Bg的重疊面積公式如下:
4)計(jì)算可以包含BP,Bg的最小邊框Bc公式如下:
5)計(jì)算Bc的面積公式如下:
6)計(jì)算IOU的公式如下:
7)計(jì)算GIOU的公式如下:
8)計(jì)算改進(jìn)的YOLOv3 邊界框損失函數(shù)公式如下:
YOLOv3 采用維度聚類的方法得到一般化的anchor box。即采用K-means[17]的方法在VOC 2007和COCO 數(shù)據(jù)集上得到9 個(gè)anchor box。每個(gè)尺度預(yù)測(cè)三個(gè)檢測(cè)框,與YOLOv2 相比,YOLOv3 采用了多個(gè)不同的尺度的特征圖,每一張?zhí)卣鲌D上均采用三個(gè)候選框。如圖3所示。
圖3 原始anchors尺寸圖
現(xiàn)有的YOLOv3采用的是COCO數(shù)據(jù)集上得到的9 種聚類結(jié)果:(10,13),(16,30),(33,23),(30,61),(62,45),(59,119),(116,90),(156,198),(373,326)。
根據(jù)高速公路車型的固有特點(diǎn),本文確定目標(biāo)先驗(yàn)框數(shù)量和對(duì)應(yīng)寬高值;其次根據(jù)聚類結(jié)果優(yōu)化網(wǎng)絡(luò)anchor 參數(shù),我們對(duì)anchors 的大小進(jìn)行了改進(jìn)?;贓TC 場(chǎng)景下的數(shù)據(jù)集,我們重新計(jì) 算 了anchors 的 聚 類 結(jié) 果:(162.66666667,96.53333333),(114,219.2),(84.6,86.4),(74.3,123.7),(133.6,304.),(87.6,170.6),(104.,123.7),(204.3,371.7),(57,62.9),為邊界框的預(yù)測(cè)提供更優(yōu)化的初始值,使訓(xùn)練網(wǎng)絡(luò)在車輛檢測(cè)和識(shí)別方面具有一定的針對(duì)性。
首先按照高速公路收費(fèi)標(biāo)準(zhǔn)對(duì)數(shù)據(jù)集類別進(jìn)行劃分:7 座以及7 座以下轎車為car1,8 座到19 座客車為car2,20 座到39 座客車為car3,40 座以及40座以上為car4,卡車為其他類別。其次由于訓(xùn)練模型需要大量的訓(xùn)練樣本,在數(shù)據(jù)集的收集過程中,通過ETC 收費(fèi)站的攝像頭視角收集到了可供定位和識(shí)別訓(xùn)練車輛圖片訓(xùn)練集數(shù)據(jù)共有規(guī)整圖片7984 張,車輛21204 輛。其中car1 類客車15030輛,car2 類客車1500 輛,car3 類客車160 輛,car4 類客車800 輛,卡車共3714 輛,涵蓋各種主要的場(chǎng)景(例如:夜晚,白天)車型條件(普通客車,大面包車,依維柯全順,柯斯達(dá),大型客車等),車輛品牌(東風(fēng),大眾,豐田,本田,寶馬,奔馳等),車身的遠(yuǎn)近視角,車身的平視視角和俯視視角,車身的傾斜程度等。
在實(shí)際的ETC 場(chǎng)景下,小型巴士(即20座到39座客車)的數(shù)據(jù)樣本較少,通過對(duì)小型巴士的樣本進(jìn)行隨機(jī)的旋轉(zhuǎn)、翻轉(zhuǎn)、裁剪、隨機(jī)設(shè)置圖片的亮度和對(duì)比度以及對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化(數(shù)據(jù)的均值為0,方差為1)[18],如圖4 所示。通過這些操作,可以獲得更多的圖片樣本,原來的一張圖片可以變?yōu)槎鄰垐D片,擴(kuò)大了樣本容量,對(duì)于提高模型的準(zhǔn)確率和提升模型的泛化能力非常有幫助。
圖4 原始數(shù)據(jù)和增強(qiáng)之后的樣本數(shù)據(jù)
實(shí)驗(yàn)主要在PC 端完成的。PC 主要配置為i5處理器,GPU(GTX-1080ti)和16G 內(nèi)存。SSD 和YOLOv3 使用了Pytorch 框架,使用的編程語言為Python。
本文使用改進(jìn)的YOLOv3可以得到如圖5所示的檢測(cè)結(jié)果。
圖5 檢測(cè)效果
我們使用均值平均精度(mAP)與傳輸速率兩項(xiàng)指標(biāo)作為評(píng)估標(biāo)注,結(jié)果如表1所示。
表1 實(shí)驗(yàn)結(jié)果對(duì)比
表1 顯示了目前主流的目標(biāo)檢測(cè)算法SSD、YOLOv3、YOLOv2、Fast R-CNN、R-CNN 與本文提出的改進(jìn)的YOLOv3 方法的實(shí)驗(yàn)結(jié)果。這些方法均使用本文收集的ETC 場(chǎng)景數(shù)據(jù)集進(jìn)行訓(xùn)練與測(cè)試。從表中可以看出,改進(jìn)的YOLOv3 獲得了90.2%的mAP,在精度方面優(yōu)于所有其他方法,并且以34f/s 的速度實(shí)現(xiàn)了ETC 場(chǎng)景下實(shí)時(shí)檢測(cè)。相比于基于回歸思想的SSD 與YOLO 系列,基于區(qū)域的目標(biāo)檢測(cè)算法的實(shí)時(shí)性太低,無法達(dá)到實(shí)時(shí)檢測(cè)的要求。YOLOv2 的檢測(cè)速度較快,但對(duì)于一些復(fù)雜場(chǎng)景車輛的特征提取較少,導(dǎo)致檢測(cè)精度有所欠缺。
1)為了驗(yàn)證改進(jìn)的YOLOv3相比于SSD在ETC場(chǎng)景下的車輛檢測(cè)更具有優(yōu)勢(shì),我們收集了五個(gè)車輛類別的mAP 數(shù)據(jù),如圖6 所示,我們將改進(jìn)的YOLOv3定義為G-YOLOv3。
圖6 各類別車輛mAP對(duì)比結(jié)果
從圖6中可以看出改進(jìn)的YOLOv3算法與目前主流的車輛識(shí)別算法SSD 相比,改進(jìn)的YOLOv3 算法對(duì)各種類別的車輛,有著更高的mAP。
通過對(duì)檢測(cè)結(jié)果的分析,我們發(fā)現(xiàn)對(duì)于近處的車輛,SSD 基本上可以滿足檢測(cè)的要求,但是對(duì)于遠(yuǎn)處的車輛略顯不足。相比于SSD,改進(jìn)的YOLOv3 通過借鑒特征金字塔的思想,采用多尺度對(duì)不同尺寸大小的車輛進(jìn)行檢測(cè),可以達(dá)到很好的檢測(cè)效果。
2)為了驗(yàn)證GIOU相比于原有的回歸損失在收斂速度方面所獲得的優(yōu)勢(shì),采取每個(gè)epochs保存一次模型的方式,收集了100 個(gè)epochs 的不同損失函數(shù)的數(shù)據(jù),如圖7、8所示。
圖7 原始YOLOv3在驗(yàn)證集上的收斂效果圖
與原始的YOLOv3 相比,改進(jìn)的YOLOv3 的邊界回歸損失函數(shù)、有無目標(biāo)的IOU損失函數(shù)的收斂速度更快,收斂的曲線也更加平緩。相對(duì)于原始YOLOv3而言,改進(jìn)的YOLOv3用GIOU 作為邊界回歸的損失函數(shù),生成的檢測(cè)框可以更好地適應(yīng)不同角度的車輛,在ETC復(fù)雜多變場(chǎng)景下的車輛識(shí)別也有著更好的檢測(cè)效果。
圖8 改進(jìn)的YOLOv3在驗(yàn)證集上的收斂效果圖
目前針對(duì)ETC場(chǎng)景下復(fù)雜多變的車輛視角,本文采用改進(jìn)的YOLOv3 實(shí)現(xiàn)車輛檢測(cè),取得了較高的檢測(cè)準(zhǔn)確率與實(shí)時(shí)的檢測(cè)速度,基本上達(dá)到了ETC 場(chǎng)景對(duì)車輛檢測(cè)的要求。對(duì)于擁堵場(chǎng)景導(dǎo)致的車輛遮擋問題以及夜晚?xiàng)l件下光照不足導(dǎo)致的車輛識(shí)別問題,會(huì)在后續(xù)的工作中繼續(xù)研究與改進(jìn)。