基于YOLOv4神經(jīng)網(wǎng)絡(luò)的紅外圖像道路行人檢測*

2021-11-19 02:46劉怡帆王旭飛周鵬譚飛焦登寧

數(shù)字技術(shù)與應(yīng)用 2021年10期

劉怡帆王旭飛,2 周鵬譚飛焦登寧

1.陜西理工大學(xué)機械工程學(xué)院;2.陜西理工大學(xué)陜西省工業(yè)自動化重點實驗室

針對不良光照道路目標(biāo)檢測任務(wù)中識別行人目標(biāo)精度不高的問題,提出用行人特征先驗框的YOLOv4神經(jīng)網(wǎng)絡(luò)模型和增強型紅外圖像數(shù)據(jù)集來提高行人目標(biāo)檢測的精度。具體通過提取KAIST紅外視頻圖像作為數(shù)據(jù)集,利用CLAHE方法對圖像進行增強處理,然后使用KMeans++算法對行人特征進行先驗框聚類。通過訓(xùn)練和測試,檢測到mAP和mIoU分別達到98.42%和81.95%,具有良好的效果。

0 引言

在眾多的公共交通參與者中,行人作為最廣泛的群體是交通安全領(lǐng)域中重要的關(guān)注對象之一。目標(biāo)檢測是指利用計算機視覺技術(shù)在輸入的圖像或視頻中檢測是否含有目標(biāo),并輸出目標(biāo)的位置,其廣泛應(yīng)用于汽車輔助駕駛、智能安防等領(lǐng)域。

可見光成像設(shè)備可以捕獲豐富的色彩信息和紋理細節(jié),所以常見目標(biāo)檢測算法均基于可見光成像設(shè)備拍攝的圖像和視頻進行檢測。但可見光成像設(shè)備在夜間、雨霧等光照條件復(fù)雜的情況下成像效果較差,難以保證成像清晰。紅外成像設(shè)備可以很好的解決可見光設(shè)備遇到的問題[1]。人體體溫在37℃時輻射的波長約為9.3μm[2],所以使用長波紅外攝像機更容易捕捉到行人等目標(biāo),并且在面對強光、弱光等光照條件時魯棒性也更好。這為全天候的目標(biāo)檢測和處理提供了良好的數(shù)據(jù)源。

近年來,深度學(xué)習(xí)的方法受到多數(shù)學(xué)者的青睞。基于深度學(xué)習(xí)的方法通過構(gòu)建卷積運算的神經(jīng)網(wǎng)絡(luò),輸入大量訓(xùn)練樣本對其進行訓(xùn)練,并自動學(xué)習(xí)目標(biāo)的特征,相較于傳統(tǒng)算法提高了泛化能力和識別率。A.krizhevsky等人利用卷積神經(jīng)網(wǎng)絡(luò)[3]在行人檢測上取得了較好效果,之后又出現(xiàn)了R-CNN[4]、Fast R-CNN[5]、Faster R-CNN[6]等改進算法,但這些算法運算量大、運行速度慢,實時性低。

1 YOLOv4網(wǎng)絡(luò)模型

Redmon等人提出YOLO系列算法[7-8],Bochkovskiy等人在此基礎(chǔ)上提出了YOLOv4[9]模型,主干網(wǎng)絡(luò)借鑒CSPNet的網(wǎng)絡(luò)結(jié)構(gòu),構(gòu)建了基礎(chǔ)網(wǎng)絡(luò)模型CSPDarknet 53,引入了Mish激活函數(shù)、SPP、PANet等結(jié)構(gòu)增強了網(wǎng)絡(luò)的學(xué)習(xí)能力,同時在數(shù)據(jù)增強、損失函數(shù)等方面進行了優(yōu)化,降低了計算量,在檢測精度和檢測速度之間達到最佳平衡。本文使用的YOLOv4網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。

圖1 YOLOv4網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.1 YOLOv4 network model structure

2 數(shù)據(jù)集處理

2.1 數(shù)據(jù)集

KAIST數(shù)據(jù)集[10]是采用載有遠紅外攝像機的汽車在不同路況和不同時間段(白天、夜間)的道路上所采集的紅外視頻,包括Person、Cyclist和People三類目標(biāo),適合道路行人檢測研究。但是KAIST視頻中相鄰幀場景相似度較高,我們從視頻中每隔兩幀提取一張圖像,進行清洗,最終得到7600張圖片作為本次實驗的紅外數(shù)據(jù)集,其中隨機選取760張圖片作為測試集,其余6840張圖片作為訓(xùn)練集。

2.2 圖像增強預(yù)處理

原始KAIST數(shù)據(jù)集中紅外圖像的直方圖分布較為集中,圖像中行人目標(biāo)與背景區(qū)分不明顯,目標(biāo)輪廓模糊。采用限制對比度自適應(yīng)直方圖均衡化(CLAHE)的方法對圖像進行增強處理,使直方圖分布更加均勻,提升圖像對比度,從而獲取更多行人目標(biāo)特征,弱化不需要的背景信息[11]。原圖與增強后圖像對比如圖2所示。

圖2 圖像增強效果對比Fig.2 Comparison of image enhancement effects

2.3 K-Means++聚類

KAIST數(shù)據(jù)集圖像中行人目標(biāo)大部分是靜態(tài)站立和動態(tài)行走狀態(tài),所以行人對象特征的高寬比數(shù)值比較集中,利用這個特點,對圖像目標(biāo)采用聚類算法進行行人特征的先驗框聚類,可以提高行人目標(biāo)的檢測速度和精度。K-Means算法在先驗框的聚類中得到了廣泛的應(yīng)用,但其結(jié)果受制于初始點的選擇,采用K-Means++算法[12]可以有效防止K-Means算法因病態(tài)初始點而影響最終的聚類結(jié)果。聚類過程一般不使用歐氏距離,而采用先驗框與目標(biāo)框的交并比(IoU)計算距離,如公式(1)所示:

通過K-Means++算法對KAIST數(shù)據(jù)中的3類目標(biāo)進行聚類,如圖3所示,在權(quán)衡交并比和先驗框數(shù)量的關(guān)系后最終取9組先驗框參數(shù),分別為:[15,42,20,55,30,38,25,71,29,90,37,106,127,44,47,142,59,189]。

圖3 先驗框個數(shù)與平均交并比關(guān)系Fig.3 Relationship between the number of a priori frames and the average intersection union ratio

在KAIST數(shù)據(jù)集中計算K-Means++聚類后的先驗框與YOLOv4中原先驗框的平均交并比,結(jié)果如表1所示。

表1 不同先驗框的平均交并比Tab.1 Average intersection union ratio of different a priori frames

從表1看出,使用K-Means++算法聚類后的先驗框,可以使得平均交并比由65.59%提高到了84.49%,從而讓網(wǎng)絡(luò)模型對目標(biāo)的識別能力增強,提高檢測精度。

3 實驗與結(jié)果

3.1 實驗環(huán)境

實驗所使用處理器為i9 10900X、內(nèi)存64GB、操作系統(tǒng)為Windows 10并采用兩張NVIDIA RTX 3080 10G顯卡配合CUDA 11.1和CUDNN 8.0.4加速環(huán)境進行訓(xùn)練。

3.2 網(wǎng)絡(luò)訓(xùn)練

網(wǎng)絡(luò)訓(xùn)練以深度學(xué)習(xí)架構(gòu)Darknet為基礎(chǔ),為了保證較快的訓(xùn)練速度以及防止局部最優(yōu)的出現(xiàn),設(shè)置網(wǎng)絡(luò)超參數(shù)中的沖量常數(shù)為0.9,初始學(xué)習(xí)率為0.001,設(shè)置網(wǎng)絡(luò)最大迭代次數(shù)為12000次。網(wǎng)絡(luò)訓(xùn)練過程中的平均損失函數(shù)隨迭代次數(shù)的變化如圖4所示。

圖4 平均損失隨迭代次數(shù)的變化關(guān)系Fig.4 Variation of average loss with iteration times

圖4顯示,在網(wǎng)絡(luò)12000次迭代中,0到6000次迭代平均損失函數(shù)下降明顯,迭代次數(shù)超過10000次后平均損失函數(shù)值逐步穩(wěn)定,隨著訓(xùn)練的進行,最終平均損失函數(shù)收斂到1.0附近。

3.3 檢測結(jié)果

為了準(zhǔn)確評價網(wǎng)絡(luò)模型的性能,選取準(zhǔn)確率P、召回率R、F1分數(shù)、平均精度均值mAP、平均交并比mIoU、每秒傳輸幀數(shù)FPS作為評價指標(biāo)對模型進行評價。用行人特征先驗框的YOLOv4神經(jīng)網(wǎng)絡(luò)模型和增強型紅外圖像數(shù)據(jù)集進行訓(xùn)練后的權(quán)重文件,在建立的測試集上進行檢測,測試結(jié)果列于表2,其中平均精度均值mAP和平均交并比mIoU分別達到98.42%和81.95%。

為了進一步驗證本文方法的有效性,將YOLOv3、YOLOv4-tiny、原YOLOv4網(wǎng)絡(luò)也進行訓(xùn)練、測試,得到各項評價指標(biāo)也列于表2中。

由表2看出,YOLOv3、YOLOv4-tiny、原YOLOv4網(wǎng)絡(luò)的檢測結(jié)果中平均精度均值mAP和平均交并比mIoU均低于替換先驗框后的YOLOv4網(wǎng)絡(luò)。其他性能參數(shù),包括準(zhǔn)確率P、召回率R、F1分數(shù),替換先驗框后的YOLOv4網(wǎng)絡(luò)也大于或等于其他3種網(wǎng)絡(luò)模型。在檢測速度方面,YOLOv4-tiny網(wǎng)絡(luò)模型的每秒傳輸幀數(shù)是121.2FPS,幾乎是其他3種模型的2倍,本文方法的每秒傳輸幀數(shù)為63.4FPS。說明本文方法進一步提高了YOLOv4網(wǎng)絡(luò)模型的目標(biāo)檢測精度,也滿足目標(biāo)實時檢測的需求。

表2 多種神經(jīng)網(wǎng)絡(luò)模型檢測結(jié)果對比Tab.2 Comparison of test results of various neural network models

4 結(jié)語

通過使用YOLOv4網(wǎng)絡(luò)模型,選擇KAIST紅外視頻圖像作為數(shù)據(jù)集,以數(shù)據(jù)集中的行人、人群和騎車人為3類目標(biāo)對象。用CLAHE方法對紅外圖像數(shù)據(jù)集進行圖像增強,使用K-Means++算法對數(shù)據(jù)集圖像中的目標(biāo)對象進行先驗框聚類,并用具有行人特征的先驗框替換YOLOv4中原先驗框。實驗結(jié)果表明,YOLOv4網(wǎng)絡(luò)模型與其他3種網(wǎng)絡(luò)模型相比,在紅外圖像數(shù)據(jù)集中具有較好的檢測結(jié)果,在測試集上檢測到mAP和mIoU分別達到98.42%和81.95%。說明通過以上方法可以有效提高夜間等不良光照條件下目標(biāo)檢測精度及檢測速度,也可以用于實時的目標(biāo)檢測任務(wù),為汽車輔助駕駛提供幫助。

引用

[1] GengiK,Yin G.Using Deep Learning in Infrared Images to Enable Human Gesture Recognition for Autonomous Vehicles[J].IEEE Access,2020(99):1.

[2] St-Laurent L,Maldague X,Prévost D.Combination of colour and thermal sensors for enhanced object detection[C].2007 10thInternational Conference on Information Fusion.IEEE,2007:1-8.

[3] Alex Krizhevsky,Ilya Sutskever,Geoffrey E Hinton.ImageNet classification with deep convolutional neural networks[C].Proceedings of the 25thInternational Conference on Neural Information Processing Systems,2012:1097-1105.

[4] Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C].IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2014:580-588.

[5] Girshick R.Fast r-cnn[C].Proceedings of the IEEE international conference on computer vision,2015:1440-1448.

[6] Ren S,He K,Girshick R,et al.Faster r-cnn:Towards realtime object detection with region proposal networks[J].Advances in neural information processing systems,2015(28):91-99.

[7] Redmon J,Farhadi A.YOLO9000: Better,Faster,Stronger[C].Proceedings of the IEEE conference on Computer Vision and Pattern Recognition Washington D.C.,USA:IEEE Computer Society,2017:6517-6525．

[8] Redmon J,Farhadi A.Yolov3:An Incremental Improvement[C].IEEE Conference on Computer Vision and Pattern Recognition,2018．

[9] Bochkovskiy A,Wang C Y,Liao H Y M.YOLOv4:optimal speed and accuracy of object detection[J].Computer Vision and Pattern Recognition,2020,17(9):198-215.

[10] Hwang S,Park J,Kim N,et al.Multispectral pedestrian detection: Benchmark dataset and baseline[C].Proceedings of the IEEE conference on computer vision and pattern recognition,2015:1037-1045.

[11] 劉玉婷,陳崢,付占方,等.基于CLAHE的紅外圖像增強算法[J].激光與紅外,2016,46(10):1290-1294.

[12] Vassilvitskii S,Arthur D.k-means++:The advantages of careful seeding[C].Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms,2006:1027-1035.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡