斯洪云,蘇盈盈,鄧圓圓,郭利霞,陳 鑫
(重慶科技學院 電氣工程學院,重慶 401331)
隨著中國道路交通的不斷發(fā)展,道路上行駛車輛的數(shù)量急劇增加,帶來了道路交通問題。比如交通違章、交通事故、停車難等,這些都是現(xiàn)代交通面臨的一些挑戰(zhàn)[1]。智能交通將信息技術(shù)和大數(shù)據(jù)有效地整合到交通管理系統(tǒng)中,構(gòu)建出一個準確、安全、高效的綜合交通系統(tǒng)。車型識別作為智能交通的重要組成部分,現(xiàn)階段,大多數(shù)的車型識別系統(tǒng)只能粗略地識別出汽車、公交車、貨車等車型信息[2]。所以對車輛的識別研究尤為重要,它可以解決諸多交通問題,并且提高效率實現(xiàn)車輛的有效監(jiān)控。經(jīng)過近十年的發(fā)展,在全世界的學者同心協(xié)力的研究下,目標檢測技術(shù)得到快速發(fā)展,各種優(yōu)秀的算法不斷出現(xiàn),算法性能不斷提高,深度學習也得到快速的深入發(fā)展,基于深度學習的目標檢測算法受到了人們追捧。
在CNN(Convolutional Neural Networks)被成功運用到圖像分類識別后,2014年,Ross Girshick[3]等人提出了R-CNN方法,并將其應用到目標檢測上,但是其精度還不夠高。2015年,Ross Girshick等人在R-CNN的基礎上提出了Fast R-CNN算法,不僅提高了識別率還降低了模型的計算量。2017年,桑軍[4]等人提出一種Faster R-CNN的車輛識別方法,對比此方法分別與其他三種不同的卷積神經(jīng)網(wǎng)絡相結(jié)合的準確率,將該算法應用到道路車輛的車型識別中。通過實驗得到,該算法的精度值達到了91.3%。2021年,陳立潮[5]等人提出了融合獨立組件的ResNet的方法,該算法進一步優(yōu)化了ResNet網(wǎng)絡,利用該算法對不同車型進行識別。實驗表明,該算法的精確值達到94.7%。
2019年,徐義鎏[6]等人提出一種改進的YOLOv3算法,用GIOU損失函數(shù)替換IOU損失函數(shù),并在邊界框置信度損失函數(shù)引入focal loss損失函數(shù)。最終實驗結(jié)果保持FPS在30幀/秒左右,mAP值增加了3.62%左右。2021年,萬浪[7]等人改進了YOLOv4目標檢測算法,來對不同車型進行識別。采用輕量級卷積神經(jīng)網(wǎng)絡MobileNetv3來替換原YOLOv4的主干網(wǎng)絡來削減模型的參數(shù)量;將SPPNet、PANet和Yolo Head里的3×3普通卷積替換成深度可分離卷積,降低YOLOv4模型參數(shù)量;為提升模型的識別精度,使用了K-means算法重設模型的先驗框。最終實驗表明,改進的車型識別模型mAP為96.17%,參數(shù)量為53.77MB,檢測速度較原YOLOv4提高了26%。
綜上所述,傳統(tǒng)檢測算法的準確度和速度還有一定的提升空間。研究通過把原YOLOv4的普通卷積換成深度可分離卷積來降低網(wǎng)絡模型參數(shù)量,同時加入CBAM注意力機制來增強對車輛識別的準確度,從而得到一個改進的YOLOv4網(wǎng)絡。通過實驗得出,改進后新的YOLOv4網(wǎng)絡的準確度與模型尺寸較原網(wǎng)絡都有一定的提高。
YOLOv4是YOLOv3的升級版,YOLOv4是將3代YOLO的特征提取網(wǎng)絡、激活函數(shù)等模塊進行更換[8]。YOLOv4的網(wǎng)絡結(jié)構(gòu)主要由CSPDarknet53、SPP、PANet和Yolo Head組成。
主干網(wǎng)絡CSPDarknet53是Darknet53的升級版,借助對CSPNet的相關(guān)研究,研究出了Backbone結(jié)構(gòu)。YOLOv4的主干網(wǎng)絡包含五個CSP模塊,它用于解決CNN網(wǎng)絡優(yōu)化中的梯度數(shù)據(jù)重疊問題,從而減少網(wǎng)絡模型的計算量,使得模型在單GPU上快速地訓練與測試,得到更好的檢測結(jié)果。PANet是接收來自主干網(wǎng)絡的兩個特征信息和一個來自SPP的特征信息,并對這三個特征信息進行上下采用,最后得到輸出結(jié)果Yolo Head。YOLOv4的網(wǎng)絡結(jié)構(gòu)如圖1所示。
圖1 YOLOv4網(wǎng)絡結(jié)構(gòu)圖
近年來,為了提高網(wǎng)絡模型識別的準確率,越來越多的人開始將可以提高準確率的模塊加入卷積神經(jīng)中。CBAM模塊[9]就是其中的代表之一,相比于其他的注意力機制模塊,CBAM注意力模塊可以取得更好的檢測結(jié)果。CBAM是一個輕量化的模塊,可以將它引用到所有的CNN框架內(nèi),將它集成到CNN內(nèi)對原模型還不會產(chǎn)生影響。因此,它可以與卷積神經(jīng)網(wǎng)絡一起進行模型訓練。CBAM模塊結(jié)構(gòu)如圖2所示。
圖2 CBAM注意力機制模塊
特征輸入后,經(jīng)過通道注意力模塊和空間注意力模塊處理后,可以增加特征提取信息的數(shù)量,但YOLOv4模型添加CBAM模塊后,網(wǎng)絡模型參數(shù)也會增加。通道注意力模塊、空間注意力模塊如圖3和圖4所示。當通道注意力機制模塊工作時,先經(jīng)過池化作用,將特征維度進行轉(zhuǎn)換,得到下一個模塊所需要的特征;在空間注意力模塊工作時,將前面獲得的特征進行池化作用獲取空間注意力特征;最后,輸出結(jié)果就可以獲取到更多的特征信息。
圖3 通道注意力機制模塊
圖4 空間注意力機制模塊
由圖1可知,在YOLOv4網(wǎng)絡模型的CSPDarknet53結(jié)構(gòu)里采用了大量的殘差塊,而在特征金字塔部分又不斷地進行特征提取和數(shù)據(jù)合并,由于模型參量過大,對存儲器占用較高,且運算效率很低,不利于安裝在攝像機等嵌入式設備上。因此對該網(wǎng)絡模型進行改進,盡可能在保持原始精度的情況下,降低模型參量,從而提高檢測效率??梢詫OLOv4的普通卷積替換成深度可分離卷積[10],深度可分離對輸入圖片進行卷積處理,然后調(diào)整通道數(shù)。深度可分離卷積結(jié)構(gòu)如圖5所示。
圖5 深度可分離卷積結(jié)構(gòu)
假設X和Y是普通卷積輸入和輸出的圖像特征,DK為卷積核尺寸,輸入通道數(shù)為C,輸出的通道數(shù)為N。普通卷積的計算量如式(1)所示。
(1)
同理深度可分離卷積的計算量如式(2)所示。
(2)
通過對比兩個卷積的計算量,發(fā)現(xiàn)后者可以大幅度降低計算量,計算量如式(3)所示。
(3)
損失函數(shù)通常用于分析和評估訓練模型實際值和預測值之間的差異,并與訓練模型的性能呈正相關(guān)。在目標檢測過程中,Anchor的回歸損失優(yōu)化不等同于IOU優(yōu)化,而且對物體的比例較敏感,因此IOU無法優(yōu)化未重疊部分,所以此次引入另一個損失函數(shù)CIOU,IOU以比值的形式存在,對檢測目標的scale不敏感,相比之下,CIOU更加符合Anchor Box回歸機制,使目標框回歸更加穩(wěn)健。具體如式(4)-式(7)所示。
(4)
(5)
(6)
(7)
最后,改進的YOLOv4網(wǎng)絡如圖6所示。
圖6 改進的YOLOv4網(wǎng)絡結(jié)構(gòu)
此次實驗,為了對模型的檢測效果進行評估,引入了相關(guān)的評價指標。主要包括:精準度(P)、召回率(R)、平均精準度(AP)、mAP和FPS。首先計算精準度(P)和召回率(R),計算公式如式(8)和式(9)所示。
(8)
(9)
式(8)和式(9)中,TP表示正確檢測的情況,FP表示錯誤檢測的情況,FN表示漏檢測的情況。
再對平均精準度AP和mAP進行計算,計算公式如式(10)和式(11)所示。
(10)
(11)
式(10)和式(11)中,N表示所有目標類別的數(shù)量,FPS就是檢測速度,是指目標檢測模型每秒傳輸幀數(shù)。
3.2.1 數(shù)據(jù)來源
此次訓練采用的是VOC2012數(shù)據(jù)集,此數(shù)據(jù)集常用來目標檢測、行為識別、圖像分割等任務,一共包含有20個目標類別。首先,從數(shù)據(jù)集中選擇有關(guān)車型的圖片,一共收集有3847張車型圖片;再利用標注工具labelIng進行車型標注,生成相關(guān)的文件;最后,按照7:2:1的比例分為訓練集2660張、測試集760張與驗證集380張。
3.2.2 實驗環(huán)境和訓練參數(shù)
此次實驗是用GPU來進行數(shù)據(jù)集的訓練與測試,實驗環(huán)境操作系統(tǒng)為Windows11(64位);CPU為Intel Core i7-11700F 2.50GHz;顯卡為NVIDIA GeForce RTX3060-12GB;內(nèi)存為32G;硬盤SSD512GB;程序語言為Python 3.8;深度學習框架為Torch1.8,CUDA版本11.3。
在正式訓練前,需要設置好相關(guān)的訓練參數(shù),由于引入了遷移學習,將對模型訓練100次,batch_size分別設置為8和4,并且使用多線程讀取數(shù)據(jù),從而加快數(shù)據(jù)讀取速度。
通過對原Yolov4、部分深度可分離卷積的Yolov4_dw、添加CBAM注意力機制模塊的Yolov4_cbam和最終模型Yolov4_dw_cbam在VOC數(shù)據(jù)集中進行識別測試。原模型與最終模型測試結(jié)果如圖7所示。
通過原Yolov4模型與改進的最終模型Yolov4_dw_cbam對車型的識別結(jié)果對比,發(fā)現(xiàn)最終模型Yolov4_dw_cbam的識別效果更好,最終模型Yolov4_dw_cbam在保證識別速度的前提下,對各種車型的識別精度高于原Yolov4模型,模型尺寸也有所降低。詳細實驗結(jié)果如表1所示。
表1 改進模型的性能評估
由表1可知,對比于原Yolov4模型,只添加注意力機制模塊會導致FPS降低,但會增加mAP值和Size值;把普通卷積更換成深度可分離卷積后會增加FPS的值,但mAP值會降低,模型參數(shù)量也會減小;同時更改普通卷積和添加注意力機制時,mAP值較原Yolov4模型會增加1.65%,FPS會增加1.07幀/秒,模型尺寸減小了82.21MB。原Yolov4網(wǎng)絡與改進的最終模型Yolov4_dw_cbam的測試結(jié)果如圖8和圖9所示。通過對比發(fā)現(xiàn)改進的最終模型在microbus、car、suv、jeep和sportscar車型的mAP有所提升,bus車型的mAP持平,而在truck車型的mAP有一點降低。
圖8 原Yolov4網(wǎng)絡模型mAP
圖9 Yolov4_dw_cbam網(wǎng)絡模型mAP
最后實驗可以分析出,原模型和更換普通卷積后的網(wǎng)絡模型對道路上的車型識別能力不夠;添加了CBAM注意力機制后,會提升識別精確度,但是由于增加了模型參數(shù)量,就會導致FPS降低;最終改進好的網(wǎng)絡模型mAP值達到96.80%,FPS為38.22幀/秒。因此,本文提出的改進YOLOv4網(wǎng)絡的提升效果還是比較明顯的,使識別的各項性能都有明顯的提升。
在現(xiàn)代交通中,車輛車型識別已經(jīng)成為不可或缺的一部分,研究通過對原來的Yolov4網(wǎng)絡進行改進,可以提高原網(wǎng)絡的檢測效率。在原網(wǎng)絡中添加CBAM注意力機制可以提高對車型的識別,使識別效果更明顯,把原來的部分普通卷積換成深度可分離卷積可以很大程度上降低網(wǎng)絡模擬參數(shù)量,對這兩個方面的改進構(gòu)成新的Yolov4_dw_cbam網(wǎng)絡。通過實驗證明,改進的Yolov4_dw_cbam網(wǎng)絡對車輛車型識別的精準度有一定的提升,但還需要在實際應用中對該網(wǎng)絡進行進一步優(yōu)化和提高。