李翔宇 王倩影
摘? 要:針對(duì)復(fù)雜路況背景下交通標(biāo)志檢測(cè)任務(wù)存在辨識(shí)度低、漏檢嚴(yán)重等問(wèn)題,提出一種基于改進(jìn)YOLOv5s的輕量級(jí)交通標(biāo)志檢測(cè)模型。首先,引入坐標(biāo)注意力模塊,增強(qiáng)重要特征關(guān)注度;其次,對(duì)損失函數(shù)進(jìn)行改進(jìn),降低邊框回歸時(shí)的自由度,加速網(wǎng)絡(luò)收斂;最后,在中國(guó)交通標(biāo)志檢測(cè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。結(jié)果表明,模型在保持原有YOLOv5s模型體量的情況下,mAP@0.5提高了2.7%,檢測(cè)速度達(dá)到91 FPS,對(duì)各種交通場(chǎng)景變化具有更好的魯棒性。
關(guān)鍵詞:交通標(biāo)志檢測(cè);YOLOv5;注意力機(jī)制;損失函數(shù)
中圖分類號(hào):TP391.4;TP18? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2023)10-0030-04
Abstract: Aiming at the problems of low recognition and serious leakage in traffic sign detection tasks in the context of complex road conditions, a lightweight traffic sign detection model based on improved YOLOv5s is proposed. Firstly, the coordinate attention module is introduced to enhance the attention of important features. Secondly, the loss function is improved to reduce the degree of freedom during border regression and accelerate network convergence. Finally, experiments are conducted on the Chinese traffic sign detection dataset. The results indicate that while maintaining the original YOLOv5s model volume, model's mAP@0.5 improves by 2.7%, with a detection speed of 91FPS, and it has better robustness to various traffic scene changes.
Keywords: traffic sign detection; YOLOv5; attention mechanism; loss function
0? 引? 言
隨著社會(huì)經(jīng)濟(jì)與信息技術(shù)的快速發(fā)展,無(wú)人駕駛技術(shù)也突飛猛進(jìn)。交通標(biāo)志作為交通系統(tǒng)的重要組成部分,對(duì)車輛的流量、流向起著重要的調(diào)節(jié)、疏導(dǎo)和控制作用,對(duì)人們出行與車輛行駛安全具有重要的保障作用。交通標(biāo)志檢測(cè)作為無(wú)人駕駛系統(tǒng)的重要一環(huán),受到越來(lái)越多的科研工作者的關(guān)注。傳統(tǒng)的交通標(biāo)志檢測(cè)方法,主要通過(guò)是顏色、邊緣信息、圖片形狀等進(jìn)行信息提取然后再結(jié)合機(jī)器學(xué)習(xí)方法進(jìn)行檢測(cè),其檢測(cè)精度與檢測(cè)速度往往不能令人滿意。隨著深度學(xué)習(xí)的興起,科研工作者開始將深度學(xué)習(xí)檢測(cè)算法應(yīng)用到交通標(biāo)志檢測(cè)任務(wù)中來(lái)。其中研究主要分為兩個(gè)方向,一類是以R-CNN[1]和Fast R-CNN[2]為代表的兩階段檢測(cè)算法,這類算法具有較高的精度,但檢測(cè)速度慢;一類是以SSD[3]與YOLO系列[4,5]為代表的單階段算法,這類算法的優(yōu)勢(shì)在于檢測(cè)速度快,可以更好地勝任實(shí)時(shí)檢測(cè)任務(wù)。
目前大部分研究是基于簡(jiǎn)單交通場(chǎng)景下標(biāo)志識(shí)別,無(wú)法滿足現(xiàn)實(shí)要求。僅有的一小部分針對(duì)復(fù)雜場(chǎng)景的識(shí)別算法也都是針對(duì)某種特定背景,不具有普適性。董天天等人[6]先采用小波分解技術(shù)減少特定雨雪場(chǎng)景對(duì)檢測(cè)任務(wù)造成的干擾,然后再采用改進(jìn)后的YOLOv3算法進(jìn)行交通標(biāo)志檢測(cè)。呂禾豐等人[7]對(duì)YOLOv5中的邊框回歸損失函數(shù)和非極大值抑制方法進(jìn)行改進(jìn),雖然檢測(cè)效果有一定提升,但后處理方式較為耗時(shí)。
為了更好地解決由于天氣、光照、遮擋等復(fù)雜路況背景造成的交通標(biāo)志識(shí)別度低、漏檢嚴(yán)重等問(wèn)題,本文提出了一種基于改進(jìn)YOLOv5s的輕量級(jí)檢測(cè)算法。改進(jìn)主要包括以下兩個(gè)方面:1)在主干網(wǎng)絡(luò)末端引入坐標(biāo)注意力模塊來(lái)應(yīng)對(duì)復(fù)雜背景下的其他干擾,增加模型對(duì)重要特征的關(guān)注度。2)對(duì)邊框回歸損失函數(shù)進(jìn)行改進(jìn),引入所需回歸之間的向量角度,減少預(yù)測(cè)框在收斂過(guò)程中的自由度,加速網(wǎng)絡(luò)收斂,提高檢測(cè)效果。
1? YOLOv5概述
YOLOv5是Ultralytics公司于2020年5月份開源的一種新型單階段目標(biāo)檢測(cè)器,集成了眾多先進(jìn)成果,本文采用的是最新的6.0版本,共包括四個(gè)模型,從小到大依次是YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x,模型越大代表參數(shù)量與計(jì)算量越大,模型越復(fù)雜,檢測(cè)精度也越高。為了保持模型的輕量化,本文在YOLOv5s的基礎(chǔ)上進(jìn)行改進(jìn)。YOLOv5的網(wǎng)絡(luò)結(jié)構(gòu)主中要包括輸入端、主干網(wǎng)絡(luò)(Backbone)、特征融合網(wǎng)絡(luò)(Neck)和輸出端四部分。輸入端主要包括Mosaic4數(shù)據(jù)增強(qiáng)、K-means聚類生成錨框以及圖片縮放等圖像預(yù)處理操作。6.0版本與之前版本相比在Backbone部位有些許改動(dòng),首先,用一個(gè)6×6卷積層替換了之前網(wǎng)絡(luò)第一層Focus模塊進(jìn)行下采樣操作,兩者在理論上是等價(jià)的,但是對(duì)于現(xiàn)有的一些GPU設(shè)備(以及相應(yīng)的優(yōu)化算法)使用6×6大小的卷積層比使用Focus模塊更加高效。其次,用SPPF層替換了之前的SPP層,之前的SPP層由尺寸大小分別為5×5、9×9、13×13的池化層并聯(lián)而成,現(xiàn)在的SPPF使用三個(gè)5×5的池化層進(jìn)行串聯(lián),兩者效果相同,但SPPF速度提升了兩倍。此外主干網(wǎng)絡(luò)還包括CBS復(fù)合模塊和C3模塊,CBS模塊中封裝了卷積層、批處理層與激活函數(shù)。Neck主要由基于FPN的PANnet特征融合網(wǎng)絡(luò)構(gòu)成,用來(lái)加強(qiáng)信息傳播。最后輸出端通過(guò)CIoU來(lái)計(jì)算邊界框回歸損失,并對(duì)3個(gè)不同尺度的特征圖進(jìn)行預(yù)測(cè)。
2? YOLOv5 改進(jìn)
2.1? 坐標(biāo)注意力機(jī)制
注意力機(jī)制是機(jī)器學(xué)習(xí)中的一種數(shù)據(jù)處理方法,可以顯著提高神經(jīng)網(wǎng)絡(luò)的特征提取能力,廣泛應(yīng)用在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等機(jī)器學(xué)習(xí)任務(wù)中。目前應(yīng)用范圍較廣的注意力機(jī)制都存在一些缺陷,比如壓縮-激勵(lì)模塊僅僅建模了通道間的關(guān)系來(lái)對(duì)每個(gè)通道加權(quán),并沒(méi)有考慮到空間結(jié)構(gòu)和位置信息。混合域卷積注意力模塊將通道注意力和空間注意力進(jìn)行串聯(lián),嘗試在降低通道數(shù)后通過(guò)卷積來(lái)提取位置注意力信息,但依靠卷積只能提取到局部信息,缺少了長(zhǎng)程依賴。
針對(duì)以上問(wèn)題,Hou等人[8]提出了一種新型坐標(biāo)注意力模塊(Coordinate Attention, CA),如圖1所示,為了緩解2D全局池化造成的位置信息丟失,CA將通道注意力分解為兩個(gè)沿著不同方向聚合特征的1D特征編碼過(guò)程,使得模塊可以沿著其中一個(gè)空間方向捕獲長(zhǎng)程依賴,沿著另一個(gè)空間方向保留精確的位置信息。然后,將生成的特征圖分別編碼,形成一對(duì)方向感知和位置敏感的特征圖,互補(bǔ)地應(yīng)用到輸入特征圖來(lái)增強(qiáng)感興趣的目標(biāo)的表示。經(jīng)試驗(yàn)證明,引入的CA模塊增強(qiáng)了網(wǎng)絡(luò)對(duì)目標(biāo)的精確定位能力,提高了模型對(duì)重要特征關(guān)注度,明顯改善了模型檢測(cè)效果。
2.2? 損失函數(shù)改進(jìn)
目標(biāo)檢測(cè)任務(wù)的有效性在很大程度上取決于損失函數(shù)的定義,YOLOv5中的CIoU雖然具有較好的寬高擬合效果與偏離趨勢(shì)度量能力,但沒(méi)有考慮到所需真實(shí)框與預(yù)測(cè)框之間不匹配的方向。這種不足導(dǎo)致收斂速度較慢且效率較低,因?yàn)轭A(yù)測(cè)框可能在訓(xùn)練過(guò)程中“四處游蕩”并最終產(chǎn)生更差的模型。為了彌補(bǔ)這種不足,本文使用SIoU[9]作為YOLOv5中的邊框損失函數(shù),SIoU考慮到了所需回歸之間的向量角度,并且重新定義了懲罰指標(biāo)。SIoU損失公式為:
其中θ表示一個(gè)超參數(shù),控制著對(duì)形狀損失的關(guān)注程度,ωw和ωh表示預(yù)測(cè)框和真值框之間的真實(shí)寬高比。
3? 實(shí)驗(yàn)結(jié)果與分析
3.1? 實(shí)驗(yàn)環(huán)境與參數(shù)設(shè)置
本文實(shí)驗(yàn)環(huán)境計(jì)算機(jī)硬件配置如下:CPU 為Intel(R) Xeon(R) Platinum 8255C CPU @ 2.50 GHz 45 GB,GPU 為RTX 2080 Ti 11 GB,采用 Ubuntu操作系統(tǒng)和PyTorch 1.10深度學(xué)習(xí)框架作為實(shí)驗(yàn)的運(yùn)行環(huán)境。
為保證對(duì)照實(shí)驗(yàn)結(jié)果的有效性,所有模型均采用相同的超參數(shù),其中,輸入圖像尺寸為640×640、初始學(xué)習(xí)率為0.01、動(dòng)量參數(shù)為0.937,最終學(xué)習(xí)率為0.1,BatchSize為32,在訓(xùn)練開始后進(jìn)行3輪預(yù)熱,后續(xù)采用余弦退火策略更新學(xué)習(xí)率,總共訓(xùn)練300個(gè)epoch。
3.2? 數(shù)據(jù)集準(zhǔn)備與數(shù)據(jù)增強(qiáng)
本文所采用的數(shù)據(jù)集為長(zhǎng)沙理工大學(xué)制作的中國(guó)交通場(chǎng)景數(shù)據(jù)集[10](CCTSDB-2021),為了面向更加真實(shí)全面的交通場(chǎng)景圖像,2022年開源的CCTSDB-2021數(shù)據(jù)集新增加了4 000張困難樣本,其中不僅包括高速、城市、鄉(xiāng)鎮(zhèn)等多種路況,還具有雨、雪、霧、夜晚弱光、晝夜強(qiáng)光等多種復(fù)雜天氣,大大提升了檢測(cè)難度。該數(shù)據(jù)集將交通標(biāo)志分為指示(mandatory)、禁止(prohibitory)、警告(warning)三大類。實(shí)驗(yàn)過(guò)程中,選取這4 000份困難樣本按3:1的比例劃分為訓(xùn)練集和測(cè)試集。使用的數(shù)據(jù)增強(qiáng)包括平移、左右翻轉(zhuǎn)、色調(diào)、飽和度、曝光度以及Mosaic4六方面。前五項(xiàng)的使用概率分別為0.5、0.1、0.015、0.7、0.4、Mosaic4是指在訓(xùn)練過(guò)程中隨機(jī)選取四張圖進(jìn)行拼接,來(lái)增強(qiáng)小目標(biāo)的檢測(cè)效果。
3.3? 評(píng)價(jià)指標(biāo)
為了從多個(gè)角度綜合的評(píng)價(jià)模型效果,本文選取了模型參數(shù)數(shù)量Params(M)、閾值為0.5時(shí)的平均精度mAP@0.5以及檢測(cè)速度(FPS)作為檢測(cè)算法衡量標(biāo)準(zhǔn)。mAP(mean Average Precision)是指各類別AP的平均值,計(jì)算公式為:
其中k表示類別數(shù),AP表示PR曲線下面積。
3.4? 消融實(shí)驗(yàn)
為了驗(yàn)證本文提出算法在復(fù)雜路況背景下對(duì)交通標(biāo)志的檢測(cè)效果,以及各項(xiàng)改進(jìn)的有效性,設(shè)計(jì)了4組消融實(shí)驗(yàn),如表1所示。在原YOLOv5基礎(chǔ)上引入CA模塊后模型mAP@0.5提升了1.0%,且?guī)缀醪粠?lái)額外計(jì)算開銷。在此基礎(chǔ)上繼續(xù)對(duì)損失函數(shù)進(jìn)行改進(jìn),在引入SIoU后,模型mAP@0.5提升了1.7%,與原YOLOv5模型相比,模型mAP@0.5提升了2.7%,在大幅提升檢測(cè)效果的同時(shí),保持了模型的輕量化。圖2展示了消融實(shí)驗(yàn)各階段改進(jìn)的檢測(cè)精度對(duì)比。其中橫坐標(biāo)表示訓(xùn)練輪次,縱坐標(biāo)表示IoU閾值為0.5時(shí)的平均精度。
3.5? 對(duì)比實(shí)驗(yàn)
為了進(jìn)一步驗(yàn)證本文改進(jìn)算法的有效性與先進(jìn)性,我們?cè)O(shè)計(jì)了6組對(duì)照實(shí)驗(yàn),與目前主流算法在本文數(shù)據(jù)集上進(jìn)行對(duì)比,如表2所示,我們分別從模型大小、檢測(cè)精度以及檢測(cè)速度三個(gè)維度對(duì)6個(gè)模型的檢測(cè)效果進(jìn)行比較,無(wú)論是在相同體量的模型中對(duì)比檢測(cè)精度,還是以檢測(cè)精度為基準(zhǔn)對(duì)比模型體量與檢測(cè)速度,均可以證明本文改進(jìn)算法的有效性與先進(jìn)性。
3.6? 定性評(píng)價(jià)
為了更加直觀展現(xiàn)算法改進(jìn)前后的檢測(cè)效果,在測(cè)試集中抽取了部分交通標(biāo)志檢測(cè)圖像進(jìn)行定性評(píng)價(jià),如圖3所示。左側(cè)圖像為雨夜道路伴有局部強(qiáng)光與反光,路況復(fù)雜、干擾嚴(yán)重,右側(cè)圖像為夜晚弱光道路目標(biāo)識(shí)別,能見度低。在兩組實(shí)驗(yàn)中,原YOLOv5(上面兩幅圖)均出現(xiàn)了漏檢,改進(jìn)后的算法(下面兩幅圖)不僅檢測(cè)到了所有正確目標(biāo),并且預(yù)測(cè)框的置信度得分普遍高于原模型,說(shuō)明改進(jìn)后的算法捕獲到了更加準(zhǔn)確的位置信號(hào)與語(yǔ)義信息,具有更強(qiáng)的檢測(cè)效果。
4? 結(jié)? 論
針對(duì)復(fù)雜路況背景下交通標(biāo)志識(shí)別度低、漏檢嚴(yán)重等問(wèn)題,本文提出了一種基于YOLOv5s的改進(jìn)算法。通過(guò)引入坐標(biāo)注意力來(lái)應(yīng)對(duì)復(fù)雜背景下的其他干擾,提高特征關(guān)注度;增加角度損失組件來(lái)減少預(yù)測(cè)框在收斂過(guò)程中的自由度,更快貼合真實(shí)目標(biāo),提高檢測(cè)效果。本文所提改進(jìn)算法與原YOLOv5相比mAP@0.5提高了2.7%,并且維持了原有的體量與檢測(cè)速度。與目前主流模型相比,本文模型在同等體量下檢測(cè)精度更高,在同等精度下體量更小、檢測(cè)速度更快,對(duì)各種場(chǎng)景變化具有更好的魯棒性。
參考文獻(xiàn):
[1] GIRSHICK R,DONAHUE J,DARRELL T,et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus:IEEE,2014:580-587.
[2] GIRSHICK R. Fast R-CNN [C]//2015 IEEE International Conference on Computer vision(ICCV).Santiago:IEEE,2015:1440-1448.
[3] LIU W,ANGUELOV D,ERHAN D,et al. SSD: Single Shot MultiBox Detector [J/OL].[2022-11-18].https://arxiv.org/pdf/1512.02325.pdf.
[4] REDMON J,DIVVALA S,GIRSHICK R,et al. You Only Look Once:Unified,Real-Time Object Detection [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas:IEEE,2016:779-788.
[5] BOCHKOVSKIY A,WANG C Y,LIAO H Y M. Yolov4: Optimalspeed and accuracy of object detection [J/OL].arXiv:2004.10934 [cs.CV].[2022-11-18].https://arxiv.org/abs/2004.10934.
[6] 董天天,曹海嘯,闞希,等.復(fù)雜天氣下交通場(chǎng)景多目標(biāo)識(shí)別方法研究 [J].信息通信,2020(11):72-74.
[7] 呂禾豐,陸華才.基于YOLOv5算法的交通標(biāo)志識(shí)別技術(shù)研究 [J].電子測(cè)量與儀器學(xué)報(bào),2021,35(10):137-144.
[8] HOU Q B,ZHOU D Q,F(xiàn)ENG J S. Coordinate Attention for Efficient Mobile Network Design [C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition,Nashville:IEEE,2021:13708-13717.
[9] GEVORGYAN Z. SIoU Loss: More Powerful Learning for Bounding Box Regression [J/OL].arXiv:2205.12740 [cs.CV].[2022-11-19].https://arxiv.org/abs/2205.12740.
[10] ZHANG J M,ZOU X,KUANG L D,et al. CCTSDB 2021: A More Comprehensive Traffic Sign Detection Benchmark [EB/OL].[2022-11-20].http://hcisj.com/articles/?HCIS202212023.
作者簡(jiǎn)介:李翔宇(1997—),男,漢族,河北石家莊人,碩士研究生在讀,研究方向:機(jī)器學(xué)習(xí)與大數(shù)據(jù)分析、目標(biāo)檢測(cè);王倩影(1984—),女,漢族,河北保定人,副教授,博士研究生,研究方向:深度學(xué)習(xí)。