彩朔 宋長(zhǎng)明
摘? 要:針對(duì)駕駛員手持手機(jī)行為檢測(cè)精度低問題,提出一種改進(jìn)的駕駛員手持手機(jī)行為檢測(cè)算法。首先,在YOLOv5骨干網(wǎng)絡(luò)中引入改進(jìn)的注意力機(jī)制模塊,更好地獲取上下文信息,提高小目標(biāo)檢測(cè)的精確度。其次,采用一種改進(jìn)的特征融合方法,提取三個(gè)尺度的特征,并對(duì)特征進(jìn)行融合,更好地提取局部信息。實(shí)驗(yàn)結(jié)果表明,與YOLOv5相比,該檢測(cè)算法在自制數(shù)據(jù)集上的精確度達(dá)到71.9%,提高了2.1%,對(duì)小目標(biāo)的檢測(cè)效果顯著。
關(guān)鍵詞:目標(biāo)檢測(cè);YOLOv5;殘差模塊;注意力機(jī)制
中圖分類號(hào):TP183;TP391.41 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2023)12-0066-04
Research on Driver Handheld Phone Detection Algorithm Based on Improved YOLOv5
CAI Shuo, SONG Changming
(College of Science, Zhongyuan University of Technology, Zhengzhou? 451191, China)
Abstract: An improved driver handheld phone behavior detection algorithm is proposed to address the issue of low accuracy in driver handheld phone behavior detection. First, an improved attention mechanism module is introduced into YOLOv5 backbone network to better obtain context information and improve the accuracy of small target detection. Secondly, an improved feature fusion method is adopted to extract features at three scales and fuse them to better extract local information. The experimental results show that compared with YOLOv5, the detection algorithm achieves an accuracy of 71.9% on the self-made dataset, get an improvement of 2.1%, which has a significant detection effect on small targets.
Keywords: target detection; YOLOv5; residual module; attention mechanism
0? 引? 言
汽車已經(jīng)成為生活中普遍使用的交通工具,駕駛員在駕駛過程中接、打電話等手持手機(jī)現(xiàn)象比較普遍,給交通安全帶來極大的隱患[1]。因此,對(duì)駕駛員手持手機(jī)行為進(jìn)行檢測(cè)具有重要意義。目前,駕駛員手持手機(jī)行為檢測(cè)算法分為:雙階段和單階段。雙階段包括:SPP NET[2]、R-CNN[3]、Fast R-CNN[4],F(xiàn)aster R-CNN等一系列改進(jìn)后,既保證了準(zhǔn)確度,同時(shí)也提高了檢測(cè)速度。單階段檢測(cè)算法:可通過端到端的方式直接得出檢測(cè)效果,相較于雙階段目標(biāo)檢測(cè)算法,單階段目標(biāo)檢測(cè)的速度更快。Redmon等最新提出了YOLO[5]、YOLOv2[6]、YOLOv3[7]、YOLOv4[8]一系列設(shè)計(jì)改進(jìn),得到的新模型檢測(cè)精度更高,檢測(cè)速度更快,但還存在檢測(cè)精度低的問題。在小目標(biāo)檢測(cè)任務(wù)中YOLOv4檢測(cè)精度還沒達(dá)到理想狀態(tài),YOLOv5更適合檢測(cè)小目標(biāo)物體。
1? 目標(biāo)檢測(cè)算法
1.1? 傳統(tǒng)的目標(biāo)檢測(cè)算法
駕駛員手持手機(jī)行為檢測(cè)算法主要分為信號(hào)檢測(cè)和機(jī)器視覺檢測(cè)?;谛盘?hào)檢測(cè)是通過定位手機(jī)信號(hào),通過手機(jī)信號(hào)來檢測(cè)駕駛員是否使用手機(jī)來接打電話。TRAMER[9]等提出使用手機(jī)信號(hào)來檢測(cè)是否在接打電話,該檢測(cè)方法很容易受信號(hào)的干擾,導(dǎo)致檢測(cè)準(zhǔn)確度低。魏民國(guó)[10]提出采用人臉與手機(jī)的特征點(diǎn),檢測(cè)駕駛員接打電話的行為,很容易受天氣的影響。后又提出了一種基于支持向量機(jī)的駕駛員接打電話行為檢測(cè)方法,進(jìn)而來判斷是否在手持手機(jī),但該方法需要大量的計(jì)算,需要較長(zhǎng)的時(shí)間來檢測(cè),導(dǎo)致檢測(cè)速度比較慢。
1.2? 卷積神經(jīng)網(wǎng)絡(luò)目標(biāo)檢測(cè)算法
隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)目標(biāo)檢測(cè)算法也得到了很大的提高。目標(biāo)檢測(cè)算法大致可以分為兩大類:一階段和兩階段。雙階段Fast R-CNN網(wǎng)絡(luò)是以VGG16為基礎(chǔ)進(jìn)行訓(xùn)練得出的模型。在2016年,Ren等在Fast R-CNN的基礎(chǔ)上提出Faster R-CNN網(wǎng)絡(luò)模型,該網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)了端到端的兩階段目標(biāo)檢測(cè),兩級(jí)檢測(cè)器很難實(shí)現(xiàn)實(shí)時(shí)推理。為了解決兩級(jí)檢測(cè)器的問題,Redmon等提出了YOLO系列檢測(cè)算法,得到的新模型檢測(cè)精確度更高,檢測(cè)速度更快,但對(duì)小目標(biāo)的檢測(cè)還存在不足。文獻(xiàn)[11]提出了用于特征增強(qiáng)的特征圖融合機(jī)制,融合得到檢測(cè)能力更強(qiáng)的特征圖來構(gòu)建特征金字塔來增強(qiáng)小目標(biāo)特征。YOLOv5增加了感受野彌補(bǔ)了YOLOv4對(duì)小目標(biāo)檢測(cè)的不足。TPH-YOLOv5[12]是基于YOLOv5的改進(jìn),該模塊在小目標(biāo)檢測(cè)上性能表現(xiàn)顯著。因此,在小目標(biāo)檢測(cè)任務(wù)上,YOLOv5在檢測(cè)速度和精度上都能取得顯著效果。
2? 改進(jìn)的YOLOv5的模型結(jié)構(gòu)
YOLOv5網(wǎng)絡(luò)的骨干網(wǎng)絡(luò)對(duì)特征提取不足,隨著深度網(wǎng)絡(luò)層次的不斷增加,小目標(biāo)會(huì)損失更多的語義信息,導(dǎo)致檢測(cè)精度低無法達(dá)到預(yù)想的結(jié)果。為了解決淺層特征語義信息不足而導(dǎo)致檢測(cè)小目標(biāo)物體精度低的問題。本文提出一種改進(jìn)的網(wǎng)絡(luò)結(jié)構(gòu),如圖1所示,通過在YOLOv5骨干網(wǎng)絡(luò)中引入改進(jìn)的注意力機(jī)制模塊,更好地獲取上下文信息,減少語義信息的損失,更好地提高小目標(biāo)檢測(cè)的精確度。其次,采用一種改進(jìn)的特征融合方法提取三個(gè)尺度的特征,并對(duì)特征進(jìn)行融合,以更好地提取局部信息。
2.1? 骨干增強(qiáng)網(wǎng)絡(luò)
根據(jù)檢測(cè)駕駛員手持手機(jī)行為目標(biāo)小、檢測(cè)距離比較遠(yuǎn)的問題,為了提高模型的提取能力和檢測(cè)精確度,本文在YOLOv5目標(biāo)檢測(cè)網(wǎng)絡(luò)模型不同特征提取層中分別添加坐標(biāo)注意力機(jī)、通道注意力機(jī)制、空間注意力機(jī)制,通過添加多注意力機(jī)制使得新的檢測(cè)模型能夠更好地檢測(cè)小目標(biāo),同時(shí)也提高了模型的檢測(cè)速度。首先輸入特征圖并進(jìn)行全局池化,得到(1×1×c)大小的特征圖。其次,把新的特征圖在進(jìn)行全連接層操作,接著進(jìn)行ReLU,再進(jìn)行一次全連接,把高維變到低維,并且可以增加非線性因子,把有用的信息保留下來,更好的提取上下文信息。最后,經(jīng)過Sigmoid激活函數(shù)得到(1×1×c)大小的權(quán)重比例,通過最后得到的權(quán)重值和原始特征圖(h, w, c)相乘得出結(jié)果。流程如圖2所示。
2.2? 改進(jìn)的特征融合模塊
為了解決小目標(biāo)物體檢測(cè)精度低的問題,本文通過不同特征層之間相互融合,再通過自上而下提取特征,最后將兩者進(jìn)行融合從而進(jìn)一步提高小目標(biāo)的檢測(cè)精度,增強(qiáng)了淺層的語義信息,特征金字塔是自上而下的特征融合方式,增強(qiáng)了淺層特征的語義信息,但還存在不足。淺層的語義信息會(huì)隨著網(wǎng)絡(luò)結(jié)構(gòu)層的增加而語義信息不斷減少,如何減少語義信息的損失,本文提出了一種改進(jìn)模型。特征金字塔只對(duì)相鄰兩個(gè)尺度的特征圖進(jìn)行融合,隨著網(wǎng)絡(luò)層次的加深,深層特征的會(huì)損失更多的信息,此時(shí)在融合相鄰特征層也不能達(dá)到理想的結(jié)果,影響特征融合的效果??梢酝ㄟ^提取后不同層級(jí)尺度的特征進(jìn)行融合,更充分地融合局部信息和全局信息。結(jié)構(gòu)如圖3所示,P2特征圖利用卷積提取局部信息;P3使用反卷積增強(qiáng)局部信息,進(jìn)而提高其分辨率;P4表示大小為1×1的特征圖,含有全局特征,通過通道注意力機(jī)制使P4的通道數(shù)和P2通道數(shù)相同,最后通過融合操作得到F1。F1中包含了局部信息和全局信息,從而使淺層的語義信息更豐富。
3? 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)流程圖如圖4所示。
3.1? 準(zhǔn)備工作
本實(shí)驗(yàn)采用自制的道路監(jiān)控拍攝的不同時(shí)間段、不同車型監(jiān)控圖像構(gòu)成的數(shù)據(jù)集。訓(xùn)練集圖像采用labelimg工具進(jìn)行標(biāo)注,共使用1 000個(gè)數(shù)據(jù),訓(xùn)練集、驗(yàn)證集、測(cè)試集劃分比例為7:2:1。實(shí)驗(yàn)環(huán)境為64位Windows 10專業(yè)系統(tǒng),GPU大小為12 GB的NVIDIA GeForce RTX 3060顯卡,處理器為Intel(R) Core(TM)i5-12490F。采用PyTorch深度學(xué)習(xí)網(wǎng)絡(luò)框架,在GPU上進(jìn)行實(shí)驗(yàn)。訓(xùn)練后的損失函數(shù)曲線如圖5所示。
圖5中縱軸代表損失值,橫軸代表訓(xùn)練次數(shù)。從圖中可以看出,隨著訓(xùn)練次數(shù)的增加,損失值逐漸收斂。
3.2? 評(píng)價(jià)指標(biāo)
本實(shí)驗(yàn)評(píng)價(jià)指標(biāo)采用準(zhǔn)確率(Accuracy, Acc)、精確率(Precisio, P)、召回率(Recall, R)、平均精度(Average Precision, AP)、平均精度均值(mean Average Precision, mAP)。
3.3? 實(shí)驗(yàn)結(jié)果與分析
為了檢驗(yàn)訓(xùn)練出目標(biāo)檢測(cè)模型的性能,實(shí)驗(yàn)對(duì)比了RetinaNet-50、YOLOv3、YOLOv4、YOLOv4-CA、YOLOv5-FIRI等算法,采用IoU閾值為0.5作為評(píng)價(jià)指標(biāo),實(shí)驗(yàn)結(jié)果如表1所示。
通過表1實(shí)驗(yàn)結(jié)果可以得出結(jié)論,本文改進(jìn)的YOLOv5算法的準(zhǔn)確度值達(dá)到了71.9%,與原先的算法相比,本文提出的改進(jìn)YOLOv5網(wǎng)絡(luò)模型,精度提升了2.1%,RetinaNet-50、YOLOv3、YOLOv4三個(gè)類別的平均精確度均有所提升,YOLOv-CA和YOLOv5-FIRI的mAP也有了明顯的提高,改進(jìn)的YOLOv5則在YOLOv-CA和YOLOv5-FIRI的基礎(chǔ)上mAP值仍有提高。這表明本文提出的改進(jìn)的算法是有效的。
為了進(jìn)一步驗(yàn)證方案的有效性,該算法也在不同類別上進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表2所示。
從表2可以得到,本文所提出的改進(jìn)算法模型相比于YOLOv5-FIRI在不同類別上的準(zhǔn)確率、精確率和召回率均有所提升。表明融合多注意力模塊后,改進(jìn)算法能增強(qiáng)對(duì)深層特征顯著區(qū)域的檢測(cè)性能,減少深層特征的位置信息在傳遞過程中丟失的問題,通過精確的位置信息增強(qiáng)模型對(duì)目標(biāo)感興趣區(qū)域的關(guān)注,有助于增強(qiáng)前景信息的學(xué)習(xí)同時(shí)抑制背景信息的干擾。
3.4? 消融實(shí)驗(yàn)
為了驗(yàn)證本文所提算法對(duì)各個(gè)模塊的作用,在自制的數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示。
由表3可知,通過在Darknet53主干網(wǎng)絡(luò)上加入改進(jìn)的特征金字塔模塊相比基準(zhǔn)網(wǎng)絡(luò)的平均精度均值(mAP)提升了2.8%、CSPDarknet53主干網(wǎng)絡(luò)上加入改進(jìn)的特征金字塔模塊相比基準(zhǔn)網(wǎng)絡(luò)的平均精度均值(mAP)提升了2.5%、Resnet18主干網(wǎng)絡(luò)上加入改進(jìn)的特征金字塔模塊相比基準(zhǔn)網(wǎng)絡(luò)的平均精度均值(mAP)提升了2.3%:證明了改進(jìn)的特征融合方法對(duì)不同層級(jí)的特征進(jìn)行了更好地融合,豐富深層了特征的語義信息。
3.5? 實(shí)驗(yàn)結(jié)果
為了驗(yàn)證模型的準(zhǔn)確度、可靠性、有效性,本實(shí)驗(yàn)采用自制的道路監(jiān)控拍攝的不同時(shí)間段、不同車型監(jiān)控圖像構(gòu)成的數(shù)據(jù)集進(jìn)行驗(yàn)證,實(shí)驗(yàn)效果如圖6所示。
4? 結(jié)? 論
針對(duì)駕駛員手持手機(jī)行為檢測(cè)過程中存在拍攝距離遠(yuǎn)、目標(biāo)較小等導(dǎo)致的檢測(cè)精度低問題,本文在YOLOv5的基礎(chǔ)上提出一種改進(jìn)的駕駛員手持手機(jī)行為檢測(cè)算法。在YOLOv5骨干網(wǎng)絡(luò)中引入改進(jìn)的注意力機(jī)制模塊,能夠更好地獲取上下文信息,從而提高小目標(biāo)檢測(cè)的精確度。其次,采用了一種改進(jìn)的特征融合方法,提取并融合三個(gè)尺度的特征,更好地提取局部信息。實(shí)驗(yàn)結(jié)果表明,該算法對(duì)于小目標(biāo)的檢測(cè)精度有很大的提高。
參考文獻(xiàn):
[1] 劉卓凡,付銳,馬勇,等.高速跟車狀態(tài)下駕駛?cè)俗畹鸵曈X注意力需求 [J].中國(guó)公路學(xué)報(bào),2018,31(4):28-35.
[2] HE K M,ZHANG X Y,REN S Q,et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(9):1904-1916.
[3] GIRSHICK R. Fast R-CNN [C]//2015 IEEE International Conference on Computer Vision(ICCV).Santiago:IEEE,2015:1440-1448.
[4] REN S Q,HE K M,GIRSHICK R,et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,39:1137-1149.
[5] REDMON J,DIVVALA S,GIRSHICK R,et al. You Only Look Once: Unified,Real-Time Object Detection [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Las Vegas:IEEE,2015:779-788.
[6] REDMON J,F(xiàn)ARHADI A. YOLO9000: Better, Faster, Stronger [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Honolulu:IEEE,2016:6517-6525.
[7] REDMON J,F(xiàn)ARHADI A. YOLOv3: An Incremental Improvement [J/OL].arXiv:1804.02767 [cs.CV].[2023-01-03].https://doi.org/10.48550/arXiv.1804.02767.
[8] 熊群芳,林軍,岳偉,等.基于深度學(xué)習(xí)的駕駛員打電話行為檢測(cè)方法 [J].控制與信息技術(shù),2019(6):53-56.
[9] TRAMER F,KURAKIN A,PAPERNOT N,et al. Ensemble Adversarial Training: Attacks and Defenses [J/OL].arXiv:1705.07204 [stat.ML].[2023-01-03].https://doi.org/10.48550/arXiv.1705.07204.
[10] 魏民國(guó).基于機(jī)器視覺的駕駛?cè)耸褂檬殖蛛娫捫袨闄z測(cè)方法 [D].北京:清華大學(xué),2014.
[11] 陳欣,萬敏杰,馬超,等.采用多尺度特征融合SSD的遙感圖像小目標(biāo)檢測(cè)[J].光學(xué)精密工程,2021,29(11):2672-2682.
[12] ZHU X K,LYU S C,WANG X,et al. TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for Object Detection on Drone-captured Scenarios [C]//2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW).Montreal:IEEE,2021:2778-2788.
作者簡(jiǎn)介:彩朔(1995—),男,漢族,河南周口人,碩士研究生在讀,主要研究方向:圖像處理;宋長(zhǎng)明(1965—),男,漢族,河南鄭州人,教授,中理學(xué)院院長(zhǎng),碩士研究生,主要研究方向:偏微分方程的理論及應(yīng)用、圖像處理及其教學(xué)。