基于優(yōu)化的YOLOv5模型的車輛檢測(cè)與分類研究

2022-11-07 05:35李佳昊陸錦泉

交通科技與管理 2022年20期

李佳昊,陸錦泉

（廣東省城鄉(xiāng)規(guī)劃設(shè)計(jì)研究院有限責(zé)任公司,廣東廣州 510290）

0 引言

卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法已經(jīng)在道路交通監(jiān)控領(lǐng)域得到廣泛應(yīng)用，YOLO系列算法是基于回歸的一階段法，不用產(chǎn)生候選區(qū)域，而是通過應(yīng)用算法來(lái)直接對(duì)圖像進(jìn)行定位與分類。為解決檢測(cè)實(shí)時(shí)性問題，F(xiàn)ukai Zhang等[1]對(duì)YOLOv3進(jìn)行了改進(jìn)，將不同大小的卷積特征圖和殘差網(wǎng)絡(luò)中對(duì)應(yīng)尺度的特征圖進(jìn)行融合，提高車輛檢測(cè)的精度及速度。2020年3月以來(lái)，YOLOv4及YOLOv5相繼被提出，對(duì)于這種具有更加優(yōu)秀檢測(cè)性能的網(wǎng)絡(luò)模型來(lái)說(shuō)，在車輛檢測(cè)領(lǐng)域?qū)⑹且粋€(gè)跨越式發(fā)展。

1 優(yōu)化方法

1.1 先驗(yàn)框機(jī)制的自適應(yīng)調(diào)整

先驗(yàn)框Anchor是一組預(yù)先設(shè)置好的目標(biāo)檢測(cè)候選框，實(shí)際的候選框是通過在其之上的調(diào)整而得出。Anchor設(shè)置的合理與否，極大地影響著最終模型檢測(cè)性能的好壞。

該文使用K-Means算法對(duì)數(shù)據(jù)集中標(biāo)注好的目標(biāo)檢測(cè)框的寬高進(jìn)行重新聚類，從而獲得適用于檢測(cè)小尺度目標(biāo)圖像的Anchor尺寸。其中聚類方法中距離公式見下式：

式中，centroid——簇的中心；box——標(biāo)注的邊框坐標(biāo)；IoU——交并比。選取合適的先驗(yàn)框k值可以使得在盡可能高IoU的情況下，模型復(fù)雜度也較低，取得一個(gè)較好的平衡。最終獲得了九組適用于本數(shù)據(jù)集的Anchor，大小分別為：[32,28]，[70,59]，[127,119]，[252,227]，[585,275]，[596,392]，[454,577]，[587,477]，[573,580]。

1.2 注意力機(jī)制的引入及卷積的替換

計(jì)算機(jī)視覺中的注意力機(jī)制的基本思想就是能使系統(tǒng)專注于某件事，能夠忽略無(wú)關(guān)信息而將注意力放在重點(diǎn)關(guān)注信息上。在車輛檢測(cè)過程中，為了進(jìn)一步提升檢測(cè)的專注力，引入SE模塊可以將檢測(cè)視野集中于所需檢測(cè)的目標(biāo)車輛上，這樣可以大大減少背景建筑物的干擾[1]。

在真實(shí)道路交通視頻檢測(cè)中，存在路段車輛較少的情況，此時(shí)，單張圖片的所檢測(cè)的車輛目標(biāo)個(gè)數(shù)少且所檢測(cè)的目標(biāo)尺寸偏小。因此，在網(wǎng)絡(luò)的Head部分中，在張量拼接操作及BCSP模塊之間加入了SE注意力模塊，讓網(wǎng)絡(luò)更加專注于所檢測(cè)的車輛[2]。

此外，為了減小原始YOLOv5的計(jì)算量，以提升檢測(cè)的速度，該文對(duì)結(jié)構(gòu)中的卷積層進(jìn)行了改進(jìn)。該文將Head里卷積層的部分普通卷積替換成了深度可分離卷積[3]，從而減少模型的參數(shù)量，使得檢測(cè)的速度有進(jìn)一步的提升。圖1為各部分修改完成之后與原模型對(duì)比示意圖。

圖1 優(yōu)化前后的Head部分示意圖

1.3 非極大值抑制的調(diào)整

在目標(biāo)檢測(cè)的過程中，通常在同一個(gè)物體的位置上會(huì)出現(xiàn)眾多的候選框，這些候選框兩兩之間存在相交的情況。當(dāng)遇到擁堵路段密集車輛的圖像時(shí)，如果不去除這種冗余的候選框，將會(huì)非常影響檢測(cè)和分類的準(zhǔn)確性。因此，針對(duì)這種重疊候選框的篩選，通常需要進(jìn)行非極大值抑制(nms)操作。YOLOv5中采用普通的IoU的計(jì)算方式。這種方式在抑制多余的檢測(cè)框時(shí)，因?yàn)閮H考慮了重疊區(qū)域，對(duì)于遮擋情況經(jīng)常產(chǎn)生錯(cuò)誤抑制。因此，使用DIoU作為非極大值抑制的標(biāo)準(zhǔn)，在考慮重疊區(qū)域面積的同時(shí)，還考慮了中心點(diǎn)距離。該文對(duì)YOLOv5模型的非極大值抑制進(jìn)行了調(diào)整，采用了DIoU的方法。DIoU在IoU基礎(chǔ)上引入了懲罰項(xiàng)R，目的是最小化兩個(gè)與預(yù)測(cè)框的中心點(diǎn)距離，因此比IoU速度快。對(duì)于包含兩個(gè)車輛交錯(cuò)重疊的情況，采用DIoU-nms的方式可以將其區(qū)分檢測(cè)出來(lái)，檢測(cè)效果有了進(jìn)一步改善。

2 實(shí)驗(yàn)及結(jié)果分析

2.1 數(shù)據(jù)集描述

為了能夠?qū)崿F(xiàn)對(duì)復(fù)雜道路情況下車輛的快速檢測(cè)，采集了實(shí)際道路交通視頻信息用于提取分類器訓(xùn)練的樣本。該文采用數(shù)據(jù)集如下，選出包含2 100張有清晰樣本的圖像，并將其分成三部分：1 680張圖像作為訓(xùn)練集，210張圖像作為驗(yàn)證集，210張圖像作為測(cè)試集。之后，將圖像尺寸統(tǒng)一設(shè)置為416*416，并進(jìn)行圖像標(biāo)注，將車輛分為五個(gè)類別標(biāo)簽：Car、Bus、Truck、 Bicycle和Motorcycle。各類型車型識(shí)別數(shù)據(jù)集見表1。

表1 車型識(shí)別數(shù)據(jù)集

2.2 訓(xùn)練過程

根據(jù)已搭建好的車輛圖像數(shù)據(jù)集及OP-YOLOv5網(wǎng)絡(luò)訓(xùn)練方法，執(zhí)行訓(xùn)練過程：將訓(xùn)練集中的1 680張圖片輸入到Y(jié)OLOv5和OP-YOLOv5網(wǎng)絡(luò)中，經(jīng)過訓(xùn)練后，學(xué)習(xí)到了各卷積層、BN層以及檢測(cè)層[4]的權(quán)重參數(shù)，最終得到車輛檢測(cè)模型。

在整個(gè)訓(xùn)練的過程中，設(shè)置參數(shù)批量為32，動(dòng)量為0.937，權(quán)重衰減配置為0.000 5，總迭代次數(shù)為200次，初始學(xué)習(xí)率lr=0.01。

2.3 實(shí)驗(yàn)結(jié)果及分析

在訓(xùn)練完成之后，將測(cè)試集中待檢測(cè)的圖片分別輸入以上5種模型中，得到檢測(cè)結(jié)果。

經(jīng)過試驗(yàn)，模型的三種損失都隨著訓(xùn)練次數(shù)的增加而逐漸下降，當(dāng)訓(xùn)練次數(shù)達(dá)50次左右時(shí)，模型的損失變化趨于平緩，基本達(dá)到收斂；當(dāng)訓(xùn)練次數(shù)達(dá)到200次時(shí)，改進(jìn)前后車輛檢測(cè)模型的損失均降到0.005以下，兩種模型的損失基本不再變化，此時(shí)終止訓(xùn)練即可獲得穩(wěn)定的模型權(quán)重。

該文通過均值平均精度（mAP）、檢測(cè)速率、查準(zhǔn)率和查全率四項(xiàng)指標(biāo)對(duì)不同模型檢測(cè)的結(jié)果進(jìn)行評(píng)價(jià)與分析[5]。表2是改進(jìn)前后的兩種網(wǎng)絡(luò)結(jié)構(gòu)經(jīng)過深度學(xué)習(xí)訓(xùn)練后，所得到的模型的平均精度（IoU≥0.5）和每秒幀數(shù)。

從表2中可以看出，基于YOLOv5模型平均檢測(cè)精度可達(dá)93.8%，傳輸速度為53.1 f/s，而改進(jìn)后的OPYOLOv5可以獲得高達(dá)95.7%的mAP，且傳輸速率也有了提升，可達(dá)到60.5 f/s。對(duì)于5種分類的車型而言，卡車和自行車的mAP效果提升最明顯，分別提高了7.0%和2.5%。其中，由于小轎車的車型樣式多樣，自行車騎行中行人的干擾，它們兩者的平均檢測(cè)精度相對(duì)其他種類來(lái)說(shuō)較低，但也能保持在90%以上的高準(zhǔn)確率，具有良好的檢測(cè)效果。圖2可以看出，相對(duì)于YOLOv5而言，OP-YOLOv5隨著迭代次數(shù)的增多，收斂效果更好，且速度也較快。當(dāng)?shù)螖?shù)達(dá)50次時(shí)，就可以獲得90%的mAP。該文提出的OP-YOLOv5方法不僅在平均檢測(cè)精度上較原有模型提高了近2%，檢測(cè)速度也有了提升，具有良好的檢測(cè)實(shí)時(shí)性。

表2 不同方法實(shí)驗(yàn)對(duì)比結(jié)果

圖2 優(yōu)化前后模型平均精度曲線對(duì)比圖

在此選取查準(zhǔn)率、查全率作為車輛分類模型的評(píng)價(jià)指標(biāo)來(lái)對(duì)5種類別車輛的分類檢測(cè)結(jié)果進(jìn)行進(jìn)一步分析，統(tǒng)計(jì)結(jié)果見表3。

由表3可以看出，改進(jìn)前后方法檢測(cè)公交車得到的查全率和查準(zhǔn)率在所有車型中是最高的，優(yōu)化后的方法檢測(cè)所得查全率和查準(zhǔn)率高達(dá)99%，具有很好的識(shí)別效果。而對(duì)于卡車和轎車來(lái)說(shuō)，查全率和查準(zhǔn)率略有下降，自行車的查全率和查準(zhǔn)率最低，但總的查準(zhǔn)率和查全率可分別達(dá)到92%、94%。相比之下，OP-YOLOv5比YOLOv5對(duì)不同車型的識(shí)別效果有了進(jìn)一步提升。

表3 查準(zhǔn)率與查全率統(tǒng)計(jì)表

YOLOv5和OP-YOLOv5車輛檢測(cè)模型的查準(zhǔn)率和查全率繪制出P-R曲線圖，如圖3所示。模型檢測(cè)的準(zhǔn)確性會(huì)隨著查全率的升高而降低，當(dāng)查全率約為90%時(shí)，查準(zhǔn)率約為90%，此時(shí)模型在具有較高的查全率的同時(shí)，又保證了較高的檢測(cè)精度。當(dāng)查準(zhǔn)率相等時(shí)，相對(duì)于YOLOv5來(lái)說(shuō)，OP-YOLOv5方法能夠取得更高的查全率，即可以將測(cè)試集中更多的車輛檢測(cè)出來(lái)。

圖3 P-R對(duì)比圖曲線

此外，從測(cè)試樣本集中選出小目標(biāo)車輛及重疊遮擋的車輛圖片進(jìn)行檢測(cè)試驗(yàn)，對(duì)比改進(jìn)YOLOv5模型前后的識(shí)別分類效果，如圖4所示，左側(cè)為原模型檢測(cè)效果圖，右側(cè)為改進(jìn)后模型檢測(cè)效果圖。在圖4（a）（b）中，測(cè)試樣本通過YOLOv5模型處理后，最終未能檢測(cè)出較遠(yuǎn)的小尺度車輛目標(biāo)，相比之下，OP-YOLOv5模型可以將視野中這個(gè)較遠(yuǎn)處的車輛檢測(cè)出來(lái)。圖4（c）（d）為車輛側(cè)面檢測(cè)效果，可以看出OP-YOLOv5不僅提高了檢測(cè)精度值，而且將原圖中錯(cuò)檢的摩托車，進(jìn)行了更正，降低了錯(cuò)檢率。在圖4（e）（f）中，YOLOv5模型僅識(shí)別出了前方的2個(gè)摩托車，而OP-YOLOv5模型對(duì)于后方被重疊遮擋的摩托車，也可以清晰地辨別出來(lái)。因此，OP-YOLOv5模型具有更高的查全率和查準(zhǔn)率，可以獲得更好的檢測(cè)效果。

圖4 車輛檢測(cè)分類效果對(duì)比圖

3 結(jié)束語(yǔ)

在計(jì)算機(jī)視覺技術(shù)迅速發(fā)展的今天，利用深度學(xué)習(xí)算法檢測(cè)車輛類型，可以為交通量的分類統(tǒng)計(jì)提供幫助，還可為交通事故和識(shí)別查證提供一定的有效信息。該文在YOLOv5的基礎(chǔ)上進(jìn)行了優(yōu)化，利用K-means聚類算法自適應(yīng)產(chǎn)生合適的錨框尺寸，更改部分卷積網(wǎng)絡(luò)，并在輸出端利用DIoU的方法進(jìn)行非極大值抑制，使得特征圖的表征能力進(jìn)一步提高，同時(shí)也提高了車輛識(shí)別的準(zhǔn)確性。OP-YOLOv5可以精準(zhǔn)地輸出每個(gè)車輛的預(yù)測(cè)框并判斷車輛的類型，如Car、Bus、Bicycle等。在后續(xù)工作中，筆者將對(duì)不同環(huán)境條件下（包括天氣、光線因素）的車輛檢測(cè)進(jìn)行研究，改進(jìn)檢測(cè)模型對(duì)不同環(huán)境的適應(yīng)能力，使其更好地為交通管理服務(wù)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡