李佳昊,陸錦泉
(廣東省城鄉(xiāng)規(guī)劃設(shè)計(jì)研究院有限責(zé)任公司,廣東 廣州 510290)
卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測(cè)算法已經(jīng)在道路交通監(jiān)控領(lǐng)域得到廣泛應(yīng)用,YOLO系列算法是基于回歸的一階段法,不用產(chǎn)生候選區(qū)域,而是通過應(yīng)用算法來(lái)直接對(duì)圖像進(jìn)行定位與分類。為解決檢測(cè)實(shí)時(shí)性問題,F(xiàn)ukai Zhang等[1]對(duì)YOLOv3進(jìn)行了改進(jìn),將不同大小的卷積特征圖和殘差網(wǎng)絡(luò)中對(duì)應(yīng)尺度的特征圖進(jìn)行融合,提高車輛檢測(cè)的精度及速度。2020年3月以來(lái),YOLOv4及YOLOv5相繼被提出,對(duì)于這種具有更加優(yōu)秀檢測(cè)性能的網(wǎng)絡(luò)模型來(lái)說(shuō),在車輛檢測(cè)領(lǐng)域?qū)⑹且粋€(gè)跨越式發(fā)展。
先驗(yàn)框Anchor是一組預(yù)先設(shè)置好的目標(biāo)檢測(cè)候選框,實(shí)際的候選框是通過在其之上的調(diào)整而得出。Anchor設(shè)置的合理與否,極大地影響著最終模型檢測(cè)性能的好壞。
該文使用K-Means算法對(duì)數(shù)據(jù)集中標(biāo)注好的目標(biāo)檢測(cè)框的寬高進(jìn)行重新聚類,從而獲得適用于檢測(cè)小尺度目標(biāo)圖像的Anchor尺寸。其中聚類方法中距離公式見下式:
式中,centroid——簇的中心;box——標(biāo)注的邊框坐標(biāo);IoU——交并比。選取合適的先驗(yàn)框k值可以使得在盡可能高IoU的情況下,模型復(fù)雜度也較低,取得一個(gè)較好的平衡。最終獲得了九組適用于本數(shù)據(jù)集的Anchor,大小分別為:[32,28],[70,59],[127,119],[252,227],[585,275],[596,392],[454,577],[587,477],[573,580]。
計(jì)算機(jī)視覺中的注意力機(jī)制的基本思想就是能使系統(tǒng)專注于某件事,能夠忽略無(wú)關(guān)信息而將注意力放在重點(diǎn)關(guān)注信息上。在車輛檢測(cè)過程中,為了進(jìn)一步提升檢測(cè)的專注力,引入SE模塊可以將檢測(cè)視野集中于所需檢測(cè)的目標(biāo)車輛上,這樣可以大大減少背景建筑物的干擾[1]。
在真實(shí)道路交通視頻檢測(cè)中,存在路段車輛較少的情況,此時(shí),單張圖片的所檢測(cè)的車輛目標(biāo)個(gè)數(shù)少且所檢測(cè)的目標(biāo)尺寸偏小。因此,在網(wǎng)絡(luò)的Head部分中,在張量拼接操作及BCSP模塊之間加入了SE注意力模塊,讓網(wǎng)絡(luò)更加專注于所檢測(cè)的車輛[2]。
此外,為了減小原始YOLOv5的計(jì)算量,以提升檢測(cè)的速度,該文對(duì)結(jié)構(gòu)中的卷積層進(jìn)行了改進(jìn)。該文將Head里卷積層的部分普通卷積替換成了深度可分離卷積[3],從而減少模型的參數(shù)量,使得檢測(cè)的速度有進(jìn)一步的提升。圖1為各部分修改完成之后與原模型對(duì)比示意圖。
圖1 優(yōu)化前后的Head部分示意圖
在目標(biāo)檢測(cè)的過程中,通常在同一個(gè)物體的位置上會(huì)出現(xiàn)眾多的候選框,這些候選框兩兩之間存在相交的情況。當(dāng)遇到擁堵路段密集車輛的圖像時(shí),如果不去除這種冗余的候選框,將會(huì)非常影響檢測(cè)和分類的準(zhǔn)確性。因此,針對(duì)這種重疊候選框的篩選,通常需要進(jìn)行非極大值抑制(nms)操作。YOLOv5中采用普通的IoU的計(jì)算方式。這種方式在抑制多余的檢測(cè)框時(shí),因?yàn)閮H考慮了重疊區(qū)域,對(duì)于遮擋情況經(jīng)常產(chǎn)生錯(cuò)誤抑制。因此,使用DIoU作為非極大值抑制的標(biāo)準(zhǔn),在考慮重疊區(qū)域面積的同時(shí),還考慮了中心點(diǎn)距離。該文對(duì)YOLOv5模型的非極大值抑制進(jìn)行了調(diào)整,采用了DIoU的方法。DIoU在IoU基礎(chǔ)上引入了懲罰項(xiàng)R,目的是最小化兩個(gè)與預(yù)測(cè)框的中心點(diǎn)距離,因此比IoU速度快。對(duì)于包含兩個(gè)車輛交錯(cuò)重疊的情況,采用DIoU-nms的方式可以將其區(qū)分檢測(cè)出來(lái),檢測(cè)效果有了進(jìn)一步改善。
為了能夠?qū)崿F(xiàn)對(duì)復(fù)雜道路情況下車輛的快速檢測(cè),采集了實(shí)際道路交通視頻信息用于提取分類器訓(xùn)練的樣本。該文采用數(shù)據(jù)集如下,選出包含2 100張有清晰樣本的圖像,并將其分成三部分:1 680張圖像作為訓(xùn)練集,210張圖像作為驗(yàn)證集,210張圖像作為測(cè)試集。之后,將圖像尺寸統(tǒng)一設(shè)置為416*416,并進(jìn)行圖像標(biāo)注,將車輛分為五個(gè)類別標(biāo)簽:Car、Bus、Truck、 Bicycle和Motorcycle。各類型車型識(shí)別數(shù)據(jù)集見表1。
表1 車型識(shí)別數(shù)據(jù)集
根據(jù)已搭建好的車輛圖像數(shù)據(jù)集及OP-YOLOv5網(wǎng)絡(luò)訓(xùn)練方法,執(zhí)行訓(xùn)練過程:將訓(xùn)練集中的1 680張圖片輸入到Y(jié)OLOv5和OP-YOLOv5網(wǎng)絡(luò)中,經(jīng)過訓(xùn)練后,學(xué)習(xí)到了各卷積層、BN層以及檢測(cè)層[4]的權(quán)重參數(shù),最終得到車輛檢測(cè)模型。
在整個(gè)訓(xùn)練的過程中,設(shè)置參數(shù)批量為32,動(dòng)量為0.937,權(quán)重衰減配置為0.000 5,總迭代次數(shù)為200次,初始學(xué)習(xí)率lr=0.01。
在訓(xùn)練完成之后,將測(cè)試集中待檢測(cè)的圖片分別輸入以上5種模型中,得到檢測(cè)結(jié)果。
經(jīng)過試驗(yàn),模型的三種損失都隨著訓(xùn)練次數(shù)的增加而逐漸下降,當(dāng)訓(xùn)練次數(shù)達(dá)50次左右時(shí),模型的損失變化趨于平緩,基本達(dá)到收斂;當(dāng)訓(xùn)練次數(shù)達(dá)到200次時(shí),改進(jìn)前后車輛檢測(cè)模型的損失均降到0.005以下,兩種模型的損失基本不再變化,此時(shí)終止訓(xùn)練即可獲得穩(wěn)定的模型權(quán)重。
該文通過均值平均精度(mAP)、檢測(cè)速率、查準(zhǔn)率和查全率四項(xiàng)指標(biāo)對(duì)不同模型檢測(cè)的結(jié)果進(jìn)行評(píng)價(jià)與分析[5]。表2是改進(jìn)前后的兩種網(wǎng)絡(luò)結(jié)構(gòu)經(jīng)過深度學(xué)習(xí)訓(xùn)練后,所得到的模型的平均精度(IoU≥0.5)和每秒幀數(shù)。
從表2中可以看出,基于YOLOv5模型平均檢測(cè)精度可達(dá)93.8%,傳輸速度為53.1 f/s,而改進(jìn)后的OPYOLOv5可以獲得高達(dá)95.7%的mAP,且傳輸速率也有了提升,可達(dá)到60.5 f/s。對(duì)于5種分類的車型而言,卡車和自行車的mAP效果提升最明顯,分別提高了7.0%和2.5%。其中,由于小轎車的車型樣式多樣,自行車騎行中行人的干擾,它們兩者的平均檢測(cè)精度相對(duì)其他種類來(lái)說(shuō)較低,但也能保持在90%以上的高準(zhǔn)確率,具有良好的檢測(cè)效果。圖2可以看出,相對(duì)于YOLOv5而言,OP-YOLOv5隨著迭代次數(shù)的增多,收斂效果更好,且速度也較快。當(dāng)?shù)螖?shù)達(dá)50次時(shí),就可以獲得90%的mAP。該文提出的OP-YOLOv5方法不僅在平均檢測(cè)精度上較原有模型提高了近2%,檢測(cè)速度也有了提升,具有良好的檢測(cè)實(shí)時(shí)性。
表2 不同方法實(shí)驗(yàn)對(duì)比結(jié)果
圖2 優(yōu)化前后模型平均精度曲線對(duì)比圖
在此選取查準(zhǔn)率、查全率作為車輛分類模型的評(píng)價(jià)指標(biāo)來(lái)對(duì)5種類別車輛的分類檢測(cè)結(jié)果進(jìn)行進(jìn)一步分析,統(tǒng)計(jì)結(jié)果見表3。
由表3可以看出,改進(jìn)前后方法檢測(cè)公交車得到的查全率和查準(zhǔn)率在所有車型中是最高的,優(yōu)化后的方法檢測(cè)所得查全率和查準(zhǔn)率高達(dá)99%,具有很好的識(shí)別效果。而對(duì)于卡車和轎車來(lái)說(shuō),查全率和查準(zhǔn)率略有下降,自行車的查全率和查準(zhǔn)率最低,但總的查準(zhǔn)率和查全率可分別達(dá)到92%、94%。相比之下,OP-YOLOv5比YOLOv5對(duì)不同車型的識(shí)別效果有了進(jìn)一步提升。
表3 查準(zhǔn)率與查全率統(tǒng)計(jì)表
YOLOv5和OP-YOLOv5車輛檢測(cè)模型的查準(zhǔn)率和查全率繪制出P-R曲線圖,如圖3所示。模型檢測(cè)的準(zhǔn)確性會(huì)隨著查全率的升高而降低,當(dāng)查全率約為90%時(shí),查準(zhǔn)率約為90%,此時(shí)模型在具有較高的查全率的同時(shí),又保證了較高的檢測(cè)精度。當(dāng)查準(zhǔn)率相等時(shí),相對(duì)于YOLOv5來(lái)說(shuō),OP-YOLOv5方法能夠取得更高的查全率,即可以將測(cè)試集中更多的車輛檢測(cè)出來(lái)。
圖3 P-R對(duì)比圖曲線
此外,從測(cè)試樣本集中選出小目標(biāo)車輛及重疊遮擋的車輛圖片進(jìn)行檢測(cè)試驗(yàn),對(duì)比改進(jìn)YOLOv5模型前后的識(shí)別分類效果,如圖4所示,左側(cè)為原模型檢測(cè)效果圖,右側(cè)為改進(jìn)后模型檢測(cè)效果圖。在圖4(a)(b)中,測(cè)試樣本通過YOLOv5模型處理后,最終未能檢測(cè)出較遠(yuǎn)的小尺度車輛目標(biāo),相比之下,OP-YOLOv5模型可以將視野中這個(gè)較遠(yuǎn)處的車輛檢測(cè)出來(lái)。圖4(c)(d)為車輛側(cè)面檢測(cè)效果,可以看出OP-YOLOv5不僅提高了檢測(cè)精度值,而且將原圖中錯(cuò)檢的摩托車,進(jìn)行了更正,降低了錯(cuò)檢率。在圖4(e)(f)中,YOLOv5模型僅識(shí)別出了前方的2個(gè)摩托車,而OP-YOLOv5模型對(duì)于后方被重疊遮擋的摩托車,也可以清晰地辨別出來(lái)。因此,OP-YOLOv5模型具有更高的查全率和查準(zhǔn)率,可以獲得更好的檢測(cè)效果。
圖4 車輛檢測(cè)分類效果對(duì)比圖
在計(jì)算機(jī)視覺技術(shù)迅速發(fā)展的今天,利用深度學(xué)習(xí)算法檢測(cè)車輛類型,可以為交通量的分類統(tǒng)計(jì)提供幫助,還可為交通事故和識(shí)別查證提供一定的有效信息。該文在YOLOv5的基礎(chǔ)上進(jìn)行了優(yōu)化,利用K-means聚類算法自適應(yīng)產(chǎn)生合適的錨框尺寸,更改部分卷積網(wǎng)絡(luò),并在輸出端利用DIoU的方法進(jìn)行非極大值抑制,使得特征圖的表征能力進(jìn)一步提高,同時(shí)也提高了車輛識(shí)別的準(zhǔn)確性。OP-YOLOv5可以精準(zhǔn)地輸出每個(gè)車輛的預(yù)測(cè)框并判斷車輛的類型,如Car、Bus、Bicycle等。在后續(xù)工作中,筆者將對(duì)不同環(huán)境條件下(包括天氣、光線因素)的車輛檢測(cè)進(jìn)行研究,改進(jìn)檢測(cè)模型對(duì)不同環(huán)境的適應(yīng)能力,使其更好地為交通管理服務(wù)。