于 曉,葉 健,湯計潔
(1.天津理工大學(xué) 電氣工程與自動化學(xué)院,天津 300384;2.郯城縣公安局警航大隊,山東 臨沂 276100)
目標檢測的主要任務(wù)是確定圖像中感興趣事物的位置和類別,其作為自動駕駛核心技術(shù)—環(huán)境感知的重要組成部分,可以快速準確地判斷周邊車輛和行人的位置,以便于車輛規(guī)劃行車路徑,保證行車安全。目前目標檢測已成為計算機視覺領(lǐng)域的熱門研究方向之一,在工業(yè)、醫(yī)學(xué)、安防等領(lǐng)域得到了大量應(yīng)用。
在深度學(xué)習(xí)網(wǎng)絡(luò)尚未廣泛應(yīng)用之前,圖像的目標檢測工作主要是基于傳統(tǒng)的機器學(xué)習(xí)方法,通常是手工提取特征后再使用分類器進行檢測,如梯度直方圖[1](HoG)、加速穩(wěn)健特征[2](SURF)、支持向量機(SVM)和形變目標識別[3](DPM)等,這些方法識別率低且難以滿足實時檢測要求。手工提取特征存在個人的主觀意識,且行人作為非剛性目標,形狀動作各不相同,這些都為行人車輛的目標檢測工作帶來了挑戰(zhàn)。
深度學(xué)習(xí)的發(fā)展使得目標檢測的問題迎刃而解,目標檢測的發(fā)展踏上快車道,基于深度學(xué)習(xí)的目標檢測算法主要有單階段和兩階段兩類。兩階段算法在R-CNN[4]的基礎(chǔ)上衍生出Fast R-CNN[5]、Faster R-CNN[6]和Mask R-CNN[7],兩階段算法的準確性較高,但是計算量大使得實時檢測能力較差。以YOLO[8]和SSD[9]為代表的單階段檢測算法檢測速度較快,YOLOv3算法在特征提取部分融合了FPN結(jié)構(gòu),平衡了精度和速度,突出了單階段算法的優(yōu)勢,因此比R-CNN更適合用于目標檢測。孫曉東等[10]將SSD算法引入到巡檢機器人視覺系統(tǒng),使得巡檢機器人能夠更好的識別目標物,從而達到避讓或者跟隨的效果。張修懿等[11]根據(jù)不同層次的卷積結(jié)構(gòu)和CSP模塊設(shè)計出具有較高提取能力的ACNet網(wǎng)絡(luò),并引入HSV域擾動提升了YOLO-DNF模型的泛化性。叢眸等[12]提出了一種改進YOLOv3的航拍車輛檢測方法,將空間金字塔池化模塊引入特征提取部分,并通過多個尺度的卷積特征金字塔進行融合,提高了檢測效果的查全率。劉毅等[13]提出了一種基于注意力機制的UAST-RCNN網(wǎng)絡(luò),使用Swin-Transformer模塊搭建骨干網(wǎng)絡(luò),通過改進特征金字塔調(diào)整特征圖的掛件信息,并引入了焦點損失函數(shù),滿足了遮擋行人場景的檢測要求。賈君霞等[14]提出了一種基于改進SSD的行人檢測算法,采用DBSCAN方法結(jié)合K-means算法確定聚類中心和規(guī)格適當?shù)腁ncher Box,并將特征信息進行尺度不變的卷積后得到的特征圖和原始特征圖進行特征融合,提高了道路行人檢測的精度。李剛等[15]借鑒FPN網(wǎng)絡(luò)的結(jié)構(gòu)特征,改進了特征金字塔,有效解決了頂層特征在不斷卷積池化中可能忽略丟失小目標信息的問題。李松江等[16]在YOLOv4的骨干網(wǎng)絡(luò)中殘差部分加入ECA模塊,并將特征提取部分輸出的深淺層特征信息融合,使得網(wǎng)絡(luò)能夠更好地進行車輛的檢測。
在現(xiàn)階段,復(fù)雜背景下的遮擋或者小目標的行人車輛檢測還存在很多挑戰(zhàn),基于上述文獻的思路,本文針對其中小目標和遮擋等問題提出了一種基于注意力機制的行人車輛檢測算法,使用CECA模塊替換YOLOv5中的C3模塊,并在Backbone結(jié)構(gòu)中添加CBAM注意力機制,使得網(wǎng)絡(luò)能夠提高關(guān)鍵特征信息的權(quán)重,降低其他信息的關(guān)注度,從而提升網(wǎng)絡(luò)對于小目標和遮擋部分的檢測能力。
隨著時代的發(fā)展,汽車數(shù)量得到了快速增長,行車環(huán)境越來越多樣,隨之帶來了交通擁堵、行車安全等一系列問題。深度學(xué)習(xí)的快速發(fā)展帶動了無人駕駛技術(shù)的發(fā)展,也為解決這些問題提供了新的思路[17]。通過車載攝像頭監(jiān)測道路上的行人和車輛相對于自身的位置,車輛系統(tǒng)可以根據(jù)采集到的實時信息控制當前的行車速度和行車軌道,并根據(jù)道路情況提前做出預(yù)判,減少事故發(fā)生的概率。因此在自動駕駛過程中,及時準確的檢測道路信息是非常重要的。
自動駕駛的核心技術(shù)主要包括環(huán)境感知、精準定位、決策與規(guī)劃、控制與執(zhí)行等。環(huán)境感知類似人類駕駛員“眼睛”“耳朵”,是實現(xiàn)自動駕駛的前提條件。感知系統(tǒng)的優(yōu)劣對于自動駕駛汽車合理決策及安全行駛有著重大意義,而運動目標識別是感知系統(tǒng)中最重要的內(nèi)容。
智能駕駛平臺的開放部署環(huán)境非常多樣化,對于場景自動分析的要求也更高。這給目標檢測算法帶來了很多新的挑戰(zhàn),例如如何應(yīng)對智能駕駛場景中物體的各種視覺外觀變化,例如遮擋、黑暗光照和小目標等,具體如圖1所示。
(a)遮擋
(b)黑暗光照
(c)小目標圖1 自動駕駛場景圖
YOLOv5-EC網(wǎng)絡(luò)結(jié)構(gòu)主要分為輸入端、Backbone、Neck和輸出端4個部分。在輸入端對圖像進行預(yù)處理,完成Mosaic數(shù)據(jù)增強、自動計算錨框和自適應(yīng)圖像縮放。Backbone由Conv、CECA、CBAM和SPPF等模塊組成,將輸入端得到的圖像輸入Backbone部分,CECA模塊在主干網(wǎng)絡(luò)中主要是用作局部跨通道融合,利用每層的特征信息獲取更加豐富的特征圖像,在局部跨通道融合的同時用一維卷積來實現(xiàn)局部跨通道交互,實現(xiàn)通道間的特征信息關(guān)聯(lián)。同時在SPPF模塊前加入CBAM注意力模塊,使得網(wǎng)絡(luò)能夠同時關(guān)注空間和通道兩方面的特征信息。Neck采用FPN和PAN相結(jié)合的特征金字塔結(jié)構(gòu),解決了多尺度的問題,通過上采樣層和C3模塊將高層的語義信息與底層的位置信息相融合,進而得到預(yù)測的特征圖像并將其輸入Head,其中上采樣采用的是雙線性插值。Head使用CIoU作為損失函數(shù),用于輸出不同尺度對象的特征信息,其輸出擁有3種尺寸的圖像信息,在特征生成預(yù)測框時,通過非極大值抑制保留每種類別置信度較高的預(yù)測框。具體網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,其中CBS是卷積層、批量標準化BN(batch normalization)和激活函數(shù)SiLU三層的結(jié)合。針對本文研究最后通過Up sample和Concat操作融合深層和淺層特征,輸出三個不同尺寸的特征圖。
圖2 YOLOv5-EC網(wǎng)絡(luò)結(jié)構(gòu)
當我們的輸入尺寸為640×640時,會得到3個不同尺度的輸出:80×80、40×40、20×20,即圖2中的Prediction部分。其中,80×80代表淺層的特征圖,包含較多的低層級信息,適合用于檢測較小的目標,所以這一特征圖所用的anchor尺度較小;同理,20×20代表深層的特征圖,包含更多高層級的信息,如輪廓、結(jié)構(gòu)等信息,適合用于較大目標的檢測,所以這一特征圖所用的anchor尺度較大;另外的40×40特征圖上就用介于這兩個尺度之間的anchor用來檢測中等大小的目標。不同特征圖使用不同尺度的anchor使得YOLOv5-EC能夠高效快速地檢測跨尺度目標。
CECA模塊結(jié)構(gòu)在原來C3模塊的基礎(chǔ)上加入了ECA模塊,ECA模塊結(jié)構(gòu)圖如圖3所示。ECA模塊是一種不需要降維的局部的跨通道交互機制,將C3模塊輸出的特征圖進行平均池化操作,然后進行1維卷積操作,并經(jīng)過Sigmoid激活函數(shù)得到各通道的權(quán)重,再將得到的權(quán)重與輸入特征圖的對應(yīng)元素進行相乘,輸出結(jié)果,CECA模塊結(jié)構(gòu)圖如圖4所示。
圖3 ECA結(jié)構(gòu)圖
圖4 CECA結(jié)構(gòu)圖
為了提高YOLOv5主干網(wǎng)絡(luò)的特征提取能力,本文采用一種注意力機制來進行局部特征增強。注意力機制可以根據(jù)關(guān)注目標信息的重要程度改變相應(yīng)的權(quán)重參數(shù),能夠增強待測圖像的特征信息,忽略無關(guān)信息。CBAM由通道(channel)和空間(spatial)兩種注意力機制組成,模塊主要有池化和特征融合等操作,無大量卷積操作,模型復(fù)雜度低,是一種輕量的注意力模塊,結(jié)構(gòu)如圖5所示。CBAM通過在channel和spatial兩個作用域上應(yīng)用注意力機制,可以實現(xiàn)先對通道進行注意力分配,然后再對空間進行注意力分配。通道注意力用于處理中間特征通道的分配關(guān)系,而空間注意力則使模型更加關(guān)注特征信息中對模型性能起決定作用的像素區(qū)域。通過對兩個作用域同時進行注意力分配,可以增強注意力機制對模型性能的提升效果[18]。
圖5 CBAM結(jié)構(gòu)圖
為了驗證YOLOv5-EC網(wǎng)絡(luò)在行人車輛檢測中的有效性和合理性,本實驗使用YOLOv5-EC、YOLOv5和同類型的其他算法在相同的數(shù)據(jù)集進行訓(xùn)練,并測試比較各算法的檢測精度。實驗所用的系統(tǒng)環(huán)境為Python3.9,Pytorch1.12框架,Windows10操作系統(tǒng),16GB RAM,AMD Ryzen 7 5800H CPU,Nvidia GeForce GTX 1650顯卡。
本實驗使用的是自制數(shù)據(jù)集,一共有6167張圖片,使用labeling庫對車輛和行人進行人工標注后得到xml格式的文件,然后轉(zhuǎn)化為txt文件。標注完成后,將數(shù)據(jù)大約按照8:1:1將數(shù)據(jù)集分成訓(xùn)練集、驗證集和測試集,其中訓(xùn)練集有5047張圖片,驗證集有560張圖片,測試集有560張圖片。
YOLOv5-EC和原始YOLOv5網(wǎng)絡(luò)對比實驗的可視化結(jié)果,如圖6所示。從圖6中可以明顯看出YOLOv5-EC算法的檢測效果要優(yōu)于YOLOv5算法。在第一張圖片中,YOLOv5-EC算法對行人車輛遮擋部分的檢測精度明顯高于YOLOv5算法;在第二、三張圖片中,YOLOv5算法因小目標或者是遮擋漏檢了車輛和行人的信息。可視化結(jié)果說明了基于注意力機制改進后的YOLOv5-EC算法有效解決了復(fù)雜背景下對的行人車輛小目標的檢測問題,證明了將注意力機制加入算法中確實具有一定的優(yōu)化效果。
(a)改進模型結(jié)果
(b)原模型結(jié)果
3.3.1 評價指標
在兩個或者多個目標的檢測中,對于每個類別都可以根據(jù)召回率(Recall)和準確率(Precision)繪制曲線,兩條曲線與坐標軸圍成的面積就是識別精度。在本文中mAP具體為行人(person)和車輛(car)兩個類別的AP均值,其中準確率、召回率和mAP的計算如式(1)-式(4)所示。
(1)
(2)
(3)
(4)
在目標檢測任務(wù)中,通過比較預(yù)測框和真實框之間的交并比(即交集與并集的比值)與閾值來確定TP、FP、FN和TN。具體而言,當交并比大于等于閾值時,該檢測框為TP;當交并比小于閾值時,該檢測框為FP;未被檢測到的真實標簽為FN,TN忽略不計。mAP@0.5是指IOU閾值取0.5時的值,mAP@0.5:0.95表示IOU閾值從0.5以0.05的增速增加到0.95時的mAP值的平均值。本文選用召回率(Recall)和mAP@0.5兩個評價指標。
3.3.2 結(jié)果分析
如圖7所示,可以看出本文網(wǎng)絡(luò)在訓(xùn)練初級階段就快速收斂,曲線于50次迭代時達到最小值附近,后續(xù)在一個小的范圍內(nèi)進行上下波動,并且本文網(wǎng)絡(luò)的損失曲線比其他網(wǎng)絡(luò)更快收斂。
圖7 損失下降曲線
根據(jù)選取的評價指標對實驗結(jié)果進行定量分析,召回率和mAP@0.5的評價結(jié)果如表1所示。實驗結(jié)果表明,YOLOv5-EC模型和原始的YOLOv5相比,召回率基本持平,mAP@0.5提升了1.12%。相比原始網(wǎng)絡(luò)與其他算法,本文算法在檢測行人車輛目標的能力上有明顯提升。
表1 改進前后算法和其他算法的評價結(jié)果
本文提出了一種基于YOLOv5改進的行人車輛檢測算法,使用CECA模塊替換YOLOv5中的C3模塊,并在Backbone結(jié)構(gòu)中添加CBAM注意力機制,使得網(wǎng)絡(luò)能夠提高關(guān)鍵特征信息的權(quán)重,從而提升網(wǎng)絡(luò)對于小目標和遮擋部分的檢測能力。經(jīng)過改進前后算法和其他同類型算法的實驗對比證明了本文算法的有效性和準確性,因此本文算法更適用于實際交通場景中的目標檢測任務(wù)中。但是在實際的交通場景中對檢測速度會有很高的要求,部分情況下的背景也會非常復(fù)雜,因此本文的下一步工作需要建立一個輕量化模型,在提高檢測速度的同時保證檢測精度,提高模型泛化性以便于更好的為智能駕駛技術(shù)提供支持。