王 鋒
(長(zhǎng)安大學(xué) 汽車學(xué)院,陜西 西安 710064)
伴隨著國(guó)內(nèi)外高等科學(xué)技術(shù)的急速發(fā)展,無(wú)人駕駛及智能網(wǎng)聯(lián)汽車的發(fā)展也是日新月異。目前在發(fā)展無(wú)人駕駛過(guò)程中,尚有一些技術(shù)還在探索及發(fā)展中,導(dǎo)致部分技術(shù)仍不成熟[1]。如今的自動(dòng)駕駛慢慢地延伸到智慧交通這個(gè)熱門領(lǐng)域中,從而發(fā)展的方向更加全面,其中環(huán)境的感知、行為的決策以及對(duì)車輛的運(yùn)動(dòng)控制主鍵是自動(dòng)駕駛的三個(gè)主要研究任務(wù)。在智慧交通的發(fā)展中,行駛道路上的車輛檢測(cè)是比較重要的環(huán)節(jié),該技術(shù)的大力發(fā)展到成熟會(huì)降低交通事故的發(fā)生率,以及提高車輛行駛的安全性和城市的車輛通行效率。但由于傳統(tǒng)的車輛目標(biāo)的檢測(cè)及追蹤是通過(guò)人工提取車輛特征來(lái)實(shí)現(xiàn)的,這樣的工序就會(huì)導(dǎo)致檢測(cè)精度較低、數(shù)據(jù)應(yīng)用規(guī)模不大且泛化能力較差,很難在復(fù)雜應(yīng)用場(chǎng)景中達(dá)到快速準(zhǔn)確檢測(cè)的效果,從而導(dǎo)致實(shí)時(shí)性不高[2]。
近年來(lái),隨著深度學(xué)習(xí)在自動(dòng)駕駛的目標(biāo)識(shí)別領(lǐng)域取得重大突破,其中,以深度學(xué)習(xí)為基礎(chǔ)的車輛檢測(cè)算法也逐漸成為該領(lǐng)域的熱門話題。本文旨在克服傳統(tǒng)檢測(cè)中難以檢測(cè)的場(chǎng)景問(wèn)題,同時(shí)也處理無(wú)人駕駛領(lǐng)域常見(jiàn)的不同天氣,光照變化較快,車輛目標(biāo)不清晰等場(chǎng)景,故提出一種基于深度學(xué)習(xí)在無(wú)人駕駛和智能網(wǎng)聯(lián)汽車領(lǐng)域的多目標(biāo)車輛檢車及追蹤方法,從而實(shí)現(xiàn)智能車輛高級(jí)輔助駕駛中多目標(biāo)車輛的實(shí)時(shí)檢測(cè)及追蹤。
本文共分為4章,章節(jié)內(nèi)容如下:
第1章,構(gòu)建車輛數(shù)據(jù)集。由于通過(guò)攝像機(jī)拍攝的照片會(huì)產(chǎn)生畸變,故需要對(duì)其進(jìn)行畸形矯正,再建立以UA-DETRAC格式的和自制的初始車輛數(shù)據(jù)集,接著對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注和格式的歸一化處理,為后續(xù)的檢驗(yàn)?zāi)P偷於ɑA(chǔ)。
第2章,構(gòu)建神經(jīng)網(wǎng)絡(luò)模型。首先是通過(guò)K- means聚類算法獲取檢測(cè)圖像的先驗(yàn)框,然后在以Darknet53的卷積YOLOv3為基礎(chǔ)加入空間金字塔池化結(jié)構(gòu)(Spatial Pyra-mid Pooling, SPP)模塊,用以提高模型預(yù)測(cè)結(jié)果的精確度。最后通過(guò)預(yù)測(cè)模型的結(jié)果篩選以非極大值擬制算法為主的最終預(yù)測(cè)結(jié)果。
第3章,模型的測(cè)試與評(píng)定。根據(jù)之前構(gòu)建的格式歸一化后的多目標(biāo)車輛數(shù)據(jù)集,通過(guò)搭建的預(yù)測(cè)模型進(jìn)行訓(xùn)練,接著驗(yàn)證,最后通過(guò)相應(yīng)的查準(zhǔn)率和查全率兩個(gè)指標(biāo)來(lái)判斷模型對(duì)車輛目標(biāo)檢測(cè)的準(zhǔn)確性和健全性的好壞評(píng)價(jià)。
第4章,結(jié)論?;谏疃葘W(xué)習(xí)為基礎(chǔ)的多目標(biāo)車輛檢測(cè)神經(jīng)網(wǎng)絡(luò)模型,它是可以在一定的距離范圍內(nèi)基本都能準(zhǔn)確地檢測(cè)出車輛。在不同的交通環(huán)境下能夠基本準(zhǔn)確地檢測(cè)出行駛的多目標(biāo)車輛,說(shuō)明該模型具有良好的實(shí)時(shí)性、準(zhǔn)確性、魯棒性和環(huán)境適應(yīng)性。
在構(gòu)建以機(jī)器視覺(jué)系統(tǒng)為基礎(chǔ)的圖像采集中,需要的圖像質(zhì)量應(yīng)該能夠確保機(jī)器視覺(jué)算法能夠快速、準(zhǔn)確地提取出所需要的圖像信息,以便系統(tǒng)能夠做出相關(guān)的抉擇。然而想要實(shí)現(xiàn)這樣的準(zhǔn)確推算、測(cè)量和提取,機(jī)器視覺(jué)系統(tǒng)就必須使用真實(shí)世界里的坐標(biāo)系和相關(guān)的測(cè)量單位。這意味著,要事先得到像素與真實(shí)世界坐標(biāo)系的映射關(guān)系,才能在后續(xù)過(guò)程中使用其進(jìn)行計(jì)算。在進(jìn)行該模型搭建的前期,需要使用攝像機(jī)進(jìn)行攝像取照,為后續(xù)模型做基礎(chǔ)。眾所周知,攝像機(jī)的成像過(guò)程本質(zhì)上就是攝像機(jī)坐標(biāo)系和真實(shí)世界的坐標(biāo)系之間的轉(zhuǎn)換。首先是將空間系中的散點(diǎn)通過(guò)“世界坐標(biāo)系”轉(zhuǎn)換到新的“攝像機(jī)坐標(biāo)系”中,然后通過(guò)光學(xué)元件將形成的投影轉(zhuǎn)化成平面圖像,最后再將平面上的圖像數(shù)據(jù)再轉(zhuǎn)換成圖像的像素坐標(biāo)系中的坐標(biāo)點(diǎn)。但是在轉(zhuǎn)換的過(guò)程中,由于光學(xué)元件的制造精度以及組裝的工藝精度的偏差會(huì)產(chǎn)生相應(yīng)的畸變,從而導(dǎo)致圖像會(huì)發(fā)生部分失真的現(xiàn)象。
由于鏡頭的畸變分為徑向畸變和切向畸變兩類,為了綜合處理該鏡頭的畸變影響,本文采用相片變化的單應(yīng)性變換方法。本文是采用棋盤格當(dāng)作標(biāo)定板來(lái)進(jìn)行攝像機(jī)的標(biāo)定和畸變矯正的處理。首先是找到圖片上畸變前后的點(diǎn)位置的對(duì)應(yīng)關(guān)系,利用多個(gè)視場(chǎng)計(jì)算多個(gè)單應(yīng)性矩陣的方法來(lái)求解攝像機(jī)內(nèi)參數(shù),可通過(guò)OpenCV工具庫(kù)的cv2.findChessBoardCorners()函數(shù)來(lái)完成,然后通過(guò)棋盤標(biāo)定圖紙校正攝像機(jī)的畸變,輸入攝像機(jī)拍攝的完整棋盤格圖像和交點(diǎn)在橫縱向上的數(shù)量,再則選用10~20張從不同的角度拍攝的棋盤格圖片,將所有的交點(diǎn)檢測(cè)結(jié)果保存并進(jìn)行畸變系數(shù)的計(jì)算,對(duì)攝像機(jī)拍攝到的實(shí)際路況進(jìn)行畸變修正處理,最終再利用OpenCV工具庫(kù)的cv2.drawChessboardCorners()函數(shù)繪制標(biāo)定結(jié)果,如圖1所示。
圖1 棋盤格檢測(cè)
本文所建立的多目標(biāo)車輛數(shù)據(jù)集主要采用兩部分來(lái)源的車輛數(shù)據(jù),一部分是網(wǎng)上開(kāi)源的車輛檢測(cè)數(shù)據(jù)集UA-DETRAC,主要包括北京和天津不同地方的不同場(chǎng)景,該圖像的錄幀率為25幀/s,每隔10幀取一張,共得到8200張;另一部分圖像數(shù)據(jù)集主要是選取自己在陜西省西安市南二環(huán)路段錄制的車輛數(shù)據(jù)視頻,每隔20幀抽取一張,共1100張。將這9300張圖片作為深度學(xué)習(xí)模型訓(xùn)練和測(cè)試的多目標(biāo)車輛數(shù)據(jù)集。本多目標(biāo)車輛數(shù)據(jù)集會(huì)包括晴天場(chǎng)景、雨天場(chǎng)景、白天場(chǎng)景、黑夜場(chǎng)景、不同車型的場(chǎng)景和不同遮擋的場(chǎng)景等各種交通場(chǎng)景。
本方采用LabelImg的方法對(duì)多目標(biāo)車輛數(shù)據(jù)集的車輛圖像群進(jìn)行標(biāo)注,然后將圖片中的多目標(biāo)車輛框起來(lái),并對(duì)車輛的類別進(jìn)行標(biāo)注,這里標(biāo)注格式為car,接著保存標(biāo)注好的內(nèi)容,生成以可擴(kuò)展標(biāo)記語(yǔ)言(Extensible Markup Language, XML)格式存儲(chǔ)的標(biāo)簽信息文件,如圖2(a)—圖2(c)所示。
圖2 xml文件內(nèi)容
本文采用python腳本批量處理的方式將xml文件批量轉(zhuǎn)換為txt文件,并對(duì)里面的xmin、ymin、xmax和ymax進(jìn)行歸一化處理。最終得到txt文件里的信息包括:車輛類別、x、y、框?qū)捄涂蚋?,如圖3所示。將這些制作好的標(biāo)簽文件按照8:1的比例通過(guò)python腳本進(jìn)行處理生成train和valid兩個(gè)txt文件,分別當(dāng)作為訓(xùn)練集和測(cè)試集。最終制作好的多目標(biāo)車輛數(shù)據(jù)集文件夾如圖4所示。在此文件夾里,主要是分為五個(gè)部分,其中Images文件夾是用來(lái)存儲(chǔ)該模型需要使用的全部多目標(biāo)車輛數(shù)據(jù)集的圖像,Labels文件夾是用來(lái)存放在Images文件夾里每張圖像所對(duì)應(yīng)并且被標(biāo)注好的以txt格式存放的多目標(biāo)車輛數(shù)據(jù)集的標(biāo)簽信息內(nèi)容,class.name文件是用來(lái)存儲(chǔ)汽車被標(biāo)注的類別名,最后的train和valid文件夾是用來(lái)存儲(chǔ)每張圖像的存儲(chǔ)路徑信息,可以憑借該路徑信息找到相應(yīng)的圖像。
圖3 txt文件信息
圖4 車輛數(shù)據(jù)集文件夾
YOLO(You Only Look Once)系列算法本質(zhì)上屬于一階段(one stage)算法。不同于以往快速區(qū)域建議卷積神經(jīng)網(wǎng)絡(luò)(Faster-Region proposals Convolutional Neural Networks, Faster-RCNN)等兩階段(two-stage)算法,one-stage算法通常推理速度較快,但是模型精度不高,不過(guò)模型精度在YOLOv3的提出之后有了很大提升。所以YOLOv3的精度可媲美那些不足1 fps的模型,同時(shí)自身可以達(dá)到30 fps甚至更快的速度。YOLO系列算法采用Darknet網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò),YOLOv2以Darknet-19為基礎(chǔ),Y-OLOv3是以Darknet-53為基礎(chǔ),其中Darknet-19長(zhǎng)得比較像視覺(jué)幾何群網(wǎng)絡(luò)(Visual Geometry Group network, VGGnet),Darknet-53是參考了殘差網(wǎng)絡(luò)(Residual Network, RN)后再大量使用殘差結(jié)構(gòu)從而使網(wǎng)絡(luò)可以在53層卷積層下能夠正常學(xué)習(xí),不會(huì)受到退化問(wèn)題的影響。在YOLOv3架構(gòu)中,Darknet-53舍棄了之前的池化層,并通過(guò)stride為2的卷積層實(shí)現(xiàn)池化層的功能。這一步的改變可為Darknet-53帶來(lái)速度與精度上的提升。
本文所使用的YOLOv3-SPP是在相對(duì)于普通版本的YOLOv3基礎(chǔ)上,在第五、六層卷積之間增加了一個(gè)超解(Ultralytics)版的SPP模塊,這個(gè)模塊主要是由不同的池化操作組成,如圖5所示。
圖5 SPP模塊
在以往的YOLO系列的網(wǎng)絡(luò)架構(gòu)中,都是采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks, CNN)網(wǎng)格架構(gòu),在最后的分類層通常是采用全連接組成,但是全連接有個(gè)明顯的局限性,就是它的特征數(shù)是固定不變的,這也就導(dǎo)致了圖像在輸入網(wǎng)格的時(shí)候,圖像的幾何尺寸是保持不變的,但是在實(shí)際的運(yùn)用過(guò)程中,圖像的大小都是多種多樣的。假如輸入的圖像尺寸不能滿足全連接的要求,就不能完成接下來(lái)的前向運(yùn)算。故為了得到固定尺寸的圖像,就必須對(duì)圖像進(jìn)行剪裁或拉伸變形等操作,但是這樣的后果就會(huì)導(dǎo)致圖像的失真,最終影響模型的精度。為了克服之前的缺陷,希望圖像在輸入的時(shí)候保持之前的幾何尺寸,就在YOLOv3的基礎(chǔ)上加入了SPP模塊,從而可以有效地保留圖像的原尺寸,避免之前的剪裁,變形及拉伸等操作帶來(lái)的圖像失真影響,也同時(shí)解決了卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像重復(fù)特征提取的問(wèn)題。
具體就是SPP模塊將特征層分別通過(guò)一個(gè)池化核大小為5 mm×5 mm、9 mm×9 mm、13 mm× 13 mm的最大池化層,然后在通道方向通過(guò)連接(concat)功能拼接再做進(jìn)一步融合,這樣能夠在一定程度上解決目標(biāo)多尺度問(wèn)題。如圖6所示。
圖6 SPP的功能
本神經(jīng)網(wǎng)絡(luò)架構(gòu)是采用K-means聚類算法為基礎(chǔ)通過(guò)自主學(xué)習(xí)獲取圖像的先驗(yàn)框。K-means算法又被稱為K均值算法,K代表的是聚類中K個(gè)聚類中心點(diǎn),means代表的是每一個(gè)聚類中心數(shù)據(jù)值的均值會(huì)作為該聚類中心的點(diǎn)的中心,即是每一個(gè)類的中心對(duì)該聚類中心進(jìn)行描述。其聚類算法的思想主要是先從樣本點(diǎn)里隨機(jī)選取K個(gè)樣本點(diǎn)作為聚類中心點(diǎn),然后計(jì)算所有除了聚類中心的樣本點(diǎn)到這些聚類中心點(diǎn)的幾何距離。對(duì)于每一個(gè)數(shù)據(jù)樣本,將其劃分到距離最近的聚類中心點(diǎn)中,然后不斷迭代,新的樣本點(diǎn)然后又劃分到新的聚類中心點(diǎn)里[3]。最后使用K-means聚類算法可以初步得到先驗(yàn)框的幾何尺寸和大小。
本模型構(gòu)建了一種基于Darknet53的卷積且以SPP模塊為衍生的神經(jīng)網(wǎng)絡(luò)架構(gòu),如圖7所示。這種網(wǎng)絡(luò)構(gòu)架主要是由一系列的3x3和1x1的卷積層組成的,并且在每個(gè)卷積層的后面會(huì)有一個(gè)批標(biāo)準(zhǔn)化(Batch Nor-malization, BN)層和有一個(gè)負(fù)反饋修正線性單元(Leaky Rectified Linear Unit, LeakyReLU)層。在大矩形框內(nèi)的模塊是Residual層,它是神經(jīng)網(wǎng)絡(luò)架構(gòu)的殘差模塊,借鑒Resnet的思想,是被用來(lái)防止梯度的損失。所以它只是用來(lái)求差,不會(huì)進(jìn)行任何其他的操作,這樣就可以保證輸入值和輸出值保持不變。在每個(gè)Residual層的后面會(huì)使用一個(gè)步長(zhǎng)為2的3x3的卷積層來(lái)進(jìn)行降解采樣壓縮,總共進(jìn)行五次這類操作,也就是相當(dāng)于進(jìn)行了5次的縮放過(guò)程,也就是特征圖的長(zhǎng)寬的尺寸會(huì)變成為原來(lái)的1/32,假如輸入的圖像尺寸是416 mm×416 mm,那么最后輸出的尺寸就是13 mm×13 mm。虛線框下面的部分就是三個(gè)不同尺寸的輸出分支[4]。在經(jīng)過(guò)5次的縮放過(guò)程后,會(huì)得到5種不同的圖像尺寸大小的特征圖,他們分別是208 mm×208 mm,104 mm×104 mm,52 mm×52 mm,26 mm×26 mm,13 mm×13 mm,如圖7(a)—圖7(c)所示。由于前面兩個(gè)的特征圖提取到的信息不是很精確,一般會(huì)舍去,然后選擇后三個(gè)特征圖作為預(yù)測(cè)圖像的主要預(yù)測(cè)目標(biāo)。它們就會(huì)分別成為小尺寸、中尺寸和大尺寸的預(yù)測(cè)框圖,用來(lái)檢驗(yàn)具有不同尺寸變化的目標(biāo)的位置信息、車輛類別信息和置信度信息。
圖7 YOLOv3-SPP部分網(wǎng)絡(luò)架構(gòu)
以YOLOv3-SPP搭建的神經(jīng)網(wǎng)絡(luò)模型,采用部分圖像增強(qiáng)的功能,它會(huì)將多張圖片拼接在一起輸入給網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以此就可以實(shí)現(xiàn)圖像數(shù)據(jù)的多樣性,進(jìn)而增加數(shù)據(jù)目標(biāo)的個(gè)數(shù)。以及BN能一次性統(tǒng)計(jì)多張圖片的參數(shù),實(shí)現(xiàn)拼接。同時(shí)BN層要求batchsize盡可能大一些,所求出來(lái)的均值方差就會(huì)盡可能的接近數(shù)據(jù)集,產(chǎn)生的效果就會(huì)更好。
由上述神經(jīng)網(wǎng)絡(luò)框架的輸出可以得到三個(gè)不同的預(yù)測(cè)結(jié)果,但每一個(gè)預(yù)測(cè)s結(jié)果實(shí)際都是一個(gè)偏移量offset[5]。又因offset 由模型輸出的四種類型數(shù)據(jù)組成,它們分別為tx,ty,tw,th。其與實(shí)際框的關(guān)系如圖8所示。
圖8 邊框預(yù)測(cè)示意圖
在該預(yù)測(cè)示意圖中,cx和cy它們分別表示中心點(diǎn)所在的單元格左上頂點(diǎn)的坐標(biāo);pw和ph分別表示先驗(yàn)框的寬和高;tx,ty,tw,th分別表示網(wǎng)絡(luò)輸出的預(yù)測(cè)值;σ(tx)和σ(ty)表示網(wǎng)絡(luò)輸出值tx和ty經(jīng)過(guò) sigmoid函數(shù)歸一化后得到的偏移量;bx,by,bw,bh則是預(yù)測(cè)框的坐標(biāo)。根據(jù)圖8的表示可以得出預(yù)測(cè)框的實(shí)際坐標(biāo)與網(wǎng)絡(luò)輸出預(yù)測(cè)值之間的轉(zhuǎn)換關(guān)系如下所示:
經(jīng)過(guò)上面公式的轉(zhuǎn)化及運(yùn)算,就可以得出網(wǎng)格訓(xùn)練后輸出的四個(gè)預(yù)測(cè)值,然后再對(duì)由K-means聚類算法確定的先驗(yàn)框進(jìn)行歸一化處理就會(huì)得到預(yù)測(cè)框的位置信息,從而在原有的基礎(chǔ)上提高神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)目標(biāo)的精度和穩(wěn)定性。
非極大值抑制算法(Non-maximum Suppres- sion, NMS)的本質(zhì)就是搜索數(shù)據(jù)局部的最大值,然后抑制那些非極大值的元素?cái)?shù)據(jù)值,從而就可以找到局部的最優(yōu)解[6]。非極大值抑制算法的算法流程圖如圖9所示。
圖9 NMS算法流程圖
綜上可知,非極大值抑制算法的目的就是消除冗余的數(shù)據(jù)點(diǎn)框,從而來(lái)確定最佳的目標(biāo)物體的檢測(cè)位置。在進(jìn)行目標(biāo)的檢測(cè)過(guò)程中,只會(huì)取最接近真實(shí)值的預(yù)測(cè)框作為表示符合特征圖的檢測(cè)窗口。所以非極大值擬制示意圖如圖10所示。
圖10 NMS車輛檢測(cè)示意圖
基于YOLOv3-SPP的多目標(biāo)車輛檢測(cè)神經(jīng)網(wǎng)絡(luò)模型是在Pytorch深度學(xué)習(xí)框架下完成的,使用深度學(xué)習(xí)里的training-Opyions容器指定網(wǎng)絡(luò)的訓(xùn)練參數(shù),將預(yù)處理后的驗(yàn)證數(shù)據(jù)設(shè)置為一個(gè)后續(xù)方便使用的變量名:“ValidationData”,同時(shí)設(shè)置一個(gè)臨時(shí)位置用來(lái)訓(xùn)練目標(biāo)檢測(cè)器的變量名:“CheckpointPath”,這樣能夠保證在訓(xùn)練過(guò)程中及時(shí)保存訓(xùn)練的結(jié)果。
本文是基于YOLOv3-SPP為網(wǎng)絡(luò)構(gòu)架的多目標(biāo)車輛檢測(cè)模型。本神經(jīng)網(wǎng)絡(luò)模型首先是通過(guò)查準(zhǔn)率(Precision)、查全率(Recall)和F1值來(lái)評(píng)價(jià)模型檢測(cè)車輛的性能[7]。由于本文的算法只是對(duì)車輛進(jìn)行檢測(cè),因此分類目標(biāo)就只有兩類:車和非車,也就是正樣(Right)和反樣(Wrong)。因此,可以得到4種不同的檢測(cè)結(jié)果,如表1所示。
表1 車輛檢測(cè)結(jié)果分類表
TR(True-Right):實(shí)際為正樣且被預(yù)測(cè)為正樣,即正確地將正樣判定為正樣的樣本數(shù)。
FR(False-Right):實(shí)際為反樣但被預(yù)測(cè)為正樣,錯(cuò)誤地將反樣判定為正樣的樣本數(shù)。
TW(True-Wrong):實(shí)際為正樣且被預(yù)測(cè)為反樣,即正確地將正樣判定為反樣的樣本數(shù)。
FW(False-Wrong):實(shí)際為反樣但被預(yù)測(cè)為反樣,即錯(cuò)誤地將反樣判定為反樣的樣本數(shù)。
通過(guò)上面四個(gè)數(shù)值就可以得到查準(zhǔn)率和查全率的計(jì)算公式如下:
查準(zhǔn)率表示能夠準(zhǔn)確檢測(cè)出車輛目標(biāo)的數(shù)量占被檢測(cè)的車輛總目標(biāo)數(shù)量的比值,查全率則表示能夠準(zhǔn)確檢測(cè)出車輛目標(biāo)的數(shù)量占整個(gè)車輛目標(biāo)數(shù)目的比值,它們分別作為該神經(jīng)網(wǎng)絡(luò)檢測(cè)模型對(duì)車輛目標(biāo)檢測(cè)的準(zhǔn)確性和健全性的好壞評(píng)價(jià)。它們都可以成為評(píng)價(jià)預(yù)測(cè)模型性能指標(biāo),并且查準(zhǔn)率和查全率數(shù)值越高越好。但有時(shí)候這兩個(gè)指標(biāo)會(huì)相互影響,呈現(xiàn)負(fù)相關(guān),不太好評(píng)價(jià)模型的性能。因此,為了兼顧查準(zhǔn)率和查全率,我們使用 F1值進(jìn)行綜合評(píng)價(jià),F(xiàn)1值越高,模型的檢測(cè)性能就越好。通過(guò)大量的實(shí)例驗(yàn)證,可以得出最終模型訓(xùn)練過(guò)程的Precision和Recall結(jié)果如圖11所示,該模型的平均查準(zhǔn)率為86%,查全率為95.4%,則表明模型的檢測(cè)性能很好。使用訓(xùn)練好的車輛檢測(cè)模型在驗(yàn)證集上進(jìn)行測(cè)試,經(jīng)過(guò)多次迭代可以得到模型的收斂情況如圖12所示,另外通過(guò)對(duì)檢測(cè)時(shí)間進(jìn)行統(tǒng)計(jì)計(jì)算,檢測(cè)速度可以達(dá)到45 fps,說(shuō)明實(shí)時(shí)性也較好。
圖11 PR曲線
圖12 多目標(biāo)車輛檢測(cè)模型的收斂情況
基于深度學(xué)習(xí)為基礎(chǔ)的多目標(biāo)車輛檢測(cè)神經(jīng)網(wǎng)絡(luò)模型,可以在一定的距離范圍內(nèi)基本都能準(zhǔn)確地檢測(cè)出車輛。從圖13(a)—圖13(d)和圖14(a)—圖14(d)可以看出,本文基于YOLOv3 SPP構(gòu)建的多目標(biāo)車輛檢測(cè)及追蹤神經(jīng)網(wǎng)絡(luò)模型能夠優(yōu)于傳統(tǒng)的檢測(cè)車輛目標(biāo)方法或者簡(jiǎn)單的多目標(biāo)車輛檢測(cè)神經(jīng)網(wǎng)絡(luò)模型,在它們的基礎(chǔ)上該模型可以在夜晚場(chǎng)景、白天場(chǎng)景、雨天場(chǎng)景、晴天場(chǎng)景、遮擋場(chǎng)景等不同的復(fù)雜場(chǎng)景下都能基本,準(zhǔn)確地檢測(cè)出行駛的多目標(biāo)車輛,整體的檢測(cè)精度相對(duì)于傳統(tǒng)的說(shuō)明該模型具有良好的實(shí)時(shí)性、準(zhǔn)確性、魯棒性和環(huán)境適應(yīng)性。綜上所述,本文搭建的車輛檢測(cè)神經(jīng)網(wǎng)絡(luò)模型在一定的距離范圍內(nèi)基本都能準(zhǔn)確的檢測(cè)出車輛,并且能夠適用在不同的場(chǎng)景下,魯棒性較強(qiáng),可以應(yīng)用在智能汽車的車輛檢測(cè)中。
圖13 UA-DETRAC數(shù)據(jù)集的車輛檢測(cè)結(jié)果
圖14 自采數(shù)據(jù)集的車輛檢測(cè)結(jié)果