譚舒月
(西南交通大學(xué)計(jì)算機(jī)與人工智能學(xué)院,成都 611756)
高速公路作為我國出行和交通運(yùn)輸?shù)闹匾ǖ?,近幾年來發(fā)展迅速。但由于高速公路存在路況復(fù)雜、車輛通行流量大等特點(diǎn),交通事故頻頻發(fā)生。大量研究表明,擁堵混行是導(dǎo)致交通事故發(fā)生的重要原因之一,然而擁堵混行與車輛的密集分布有直接聯(lián)系,因此研究高速公路擁堵場景的密集車輛檢測,對擁堵路況和行為異常進(jìn)行監(jiān)控和預(yù)警,不僅能降低交通事故發(fā)生的概率,保障人們的出行安全,同時(shí)也可對形成運(yùn)行高效、內(nèi)暢外達(dá)的高速公路基本路網(wǎng)產(chǎn)生促進(jìn)作用。
伴隨著人工智能技術(shù)水平的不斷提高,深度學(xué)習(xí)相關(guān)技術(shù)逐漸應(yīng)用于高速公路智能化日常監(jiān)測。然而,密集分布的車輛目標(biāo)常常由于攝像頭拍攝視角、光線等因素的影響,而出現(xiàn)目標(biāo)重疊或遮擋嚴(yán)重、目標(biāo)與背景融合度高等問題,導(dǎo)致提取車輛目標(biāo)的特征存在困難,從而出現(xiàn)目標(biāo)誤檢、漏檢等情況,因此如何利用深度學(xué)習(xí)相關(guān)的目標(biāo)檢測技術(shù)實(shí)現(xiàn)對擁堵場景車輛目標(biāo)的準(zhǔn)確檢測成為極具挑戰(zhàn)性的任務(wù)。
現(xiàn)有的通用目標(biāo)檢測方法大多并未考慮到密集車輛的分布特性,因此普遍對遮擋嚴(yán)重等車輛目標(biāo)檢測效果不佳。針對該問題,本文首先對已有目標(biāo)檢測算法和密集目標(biāo)檢測方法進(jìn)行簡要介紹,隨后結(jié)合密集車輛目標(biāo)的分布特性,提出多變化處理模塊和排斥力損失模塊,最后對實(shí)驗(yàn)相關(guān)結(jié)果進(jìn)行對比分析與總結(jié),結(jié)果表明本文方法對高速公路擁堵場景車輛目標(biāo)的檢測效果得到了提升。
目標(biāo)檢測,即對于輸入的圖像或視頻提取感興趣目標(biāo),并識別其所屬的類別,定位其所處位置窗口。相較于傳統(tǒng)目標(biāo)檢測方法,基于深度學(xué)習(xí)的目標(biāo)檢測方法能夠?qū)W習(xí)到更為豐富的層級特征,因此能獲得更多的特征表達(dá)能力。目前主流的深度學(xué)習(xí)目標(biāo)檢測算法主要分為兩類,一類是兩階段目標(biāo)檢測算法,該類算法首先對輸入圖像生成候選框,并基于候選框進(jìn)行精細(xì)修正,最終得到目標(biāo)檢測框結(jié)果和分類結(jié)果,其優(yōu)勢在于識別和定位的準(zhǔn)確性,典型算法包括R-CNN(Region-based Convolutional Neural Network)、Fast R-CNN(Fast Region-based Convolutional Neural Network)、Faster R-CNN(Faster Region-based Convolutional Neural Network)等;另一類是單階段目標(biāo)檢測算法,該類算法直接對圖像進(jìn)行計(jì)算得到目標(biāo)檢測框與分類結(jié)果,其優(yōu)勢在于推理速度較快,典型算法 包 括SSD(Single Shot MultiBox Detector)、YOLO(You Only Look Once)等。
目前對于密集場景的目標(biāo)檢測仍處于發(fā)展階段,大多密集目標(biāo)檢測被看作通用目標(biāo)檢測的特例,由于通用目標(biāo)檢測算法忽略了密集目標(biāo)所具備的目標(biāo)重疊、嚴(yán)重遮擋、光照變化等分布特點(diǎn),僅適用于普通稀疏分布的目標(biāo)場景,因此對密集目標(biāo)檢測精度不高,針對密集分布的目標(biāo)檢測任務(wù)還存在許多挑戰(zhàn)。Lin等經(jīng)過對圖像前景背景類別出現(xiàn)極端不平衡現(xiàn)象的分析,在標(biāo)準(zhǔn)交叉熵?fù)p失基礎(chǔ)上提出了焦點(diǎn)損失解決類別不平衡問題,同時(shí)實(shí)驗(yàn)表明對密集目標(biāo)的檢測效果也得到了一定的提升。Chu等提出對于每個(gè)目標(biāo)候選框,采用預(yù)測一組可能出現(xiàn)嚴(yán)重重疊情況的實(shí)例集合代替?zhèn)鹘y(tǒng)預(yù)測單個(gè)實(shí)例,并引入EMD損失和Set NMS后處理方法,改善了高度重疊的密集目標(biāo)的檢測效果。本文主要結(jié)合密集目標(biāo)自身分布屬性和數(shù)據(jù)特點(diǎn),對通用目標(biāo)檢測方法的不足之處進(jìn)行改進(jìn)。
本文方法基于Faster R-CNN目標(biāo)檢測網(wǎng)絡(luò),使用ResNet50作為骨干網(wǎng)絡(luò)提取圖片特征。在訓(xùn)練階段,每個(gè)原始圖像樣本通過多變化處理模塊后得到補(bǔ)充數(shù)據(jù),以增強(qiáng)檢測器對密集車輛場景檢測的泛化性,隨后將圖像依次輸入特征提取網(wǎng)絡(luò)和檢測網(wǎng)絡(luò),同時(shí)在檢測網(wǎng)絡(luò)原有損失的基礎(chǔ)上使用排斥力損失,防止預(yù)測邊界框向相鄰重疊目標(biāo)的偏移,提高對密集場景遮擋目標(biāo)的檢測性能,最終得到擁堵場景下密集車輛目標(biāo)的分類與定位結(jié)果。
Faster R-CNN作為經(jīng)典的兩階段目標(biāo)檢測算法,在識別和定位方面有較高的準(zhǔn)確率,同時(shí)Faster R-CNN將特征提取、候選框提取、目標(biāo)分類與邊界框回歸整合到同一個(gè)網(wǎng)絡(luò)中,實(shí)現(xiàn)了完全端到端的網(wǎng)絡(luò)結(jié)構(gòu)。Faster R-CNN網(wǎng)絡(luò)結(jié)構(gòu)分為兩部分:RPN(Region Proposal Network)候選區(qū)域生成網(wǎng)絡(luò)和Fast R-CNN檢測器,兩部分共享特征提取網(wǎng)絡(luò),提取得到的卷積特征圖分別輸入到RPN網(wǎng)絡(luò)和Fast R-CNN檢測器中,極大地減少了參數(shù)量的計(jì)算,實(shí)現(xiàn)參數(shù)共享,如圖1所示。
圖1 Faster R-CNN網(wǎng)絡(luò)結(jié)構(gòu)圖
RPN候選區(qū)域生成網(wǎng)絡(luò),替代了R-CNN和Fast R-CNN的Selective Search選擇性搜索方法,用來快速生成候選區(qū)域和區(qū)域得分。RPN網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,使用滑動窗口對特征圖進(jìn)行掃描后得到低維特征向量,同時(shí)計(jì)算出滑動窗口中心點(diǎn)對應(yīng)原始圖像上的中心點(diǎn),以此中心點(diǎn)為錨生成不同尺度和比例的個(gè)錨框。接著將低維特征向量分別輸入至分類層和回歸層,分類層計(jì)算得到錨框?qū)?yīng)候選區(qū)域?yàn)楸尘昂颓熬暗母怕?,回歸層則對候選區(qū)域進(jìn)行邊界框位置預(yù)測。RPN網(wǎng)絡(luò)大量節(jié)省了候選框計(jì)算時(shí)間,運(yùn)行速度得以加快。
圖2 RPN網(wǎng)絡(luò)結(jié)構(gòu)圖
Fast R-CNN檢測器將RPN網(wǎng)絡(luò)產(chǎn)生的候選區(qū)域投影到特征圖上獲得對應(yīng)特征矩陣,并通過ROI池化層將特征矩陣處理后分別送入分類回歸兩并行支路,從而計(jì)算得到分類與邊界框回歸預(yù)測結(jié)果。
由于輸入圖像數(shù)據(jù)常受輸入尺寸、角度位置等限制,導(dǎo)致訓(xùn)練得到的模型對相似但不相同場景的泛化能力較弱,針對該問題本文提出多變化處理模塊,在模型訓(xùn)練階段實(shí)現(xiàn)對輸入圖像的預(yù)處理,以提高模型對于新場景密集車輛的檢測效果。該模塊共包含以下六種對圖像的變化處理:
(1)圖像尺度縮放:盡可能減小目標(biāo)車輛的尺度差異。
(2)隨機(jī)翻轉(zhuǎn)、平移圖像區(qū)域:增加樣本視角和位置分布多樣性。
(3)調(diào)整圖像亮度、調(diào)整圖像對比度:降低光照對檢測效果的影響。
(4)添加圖像噪聲:進(jìn)一步提高模型的魯棒性。
對于每個(gè)輸入圖像,經(jīng)過多變化處理模塊后得到補(bǔ)充數(shù)據(jù),緊接著隨機(jī)對變化得到的新圖像進(jìn)行與當(dāng)前處理方式不同的疊加變化。如圖3所示。
圖3 多變化處理模塊示意圖
分析擁堵高速公路場景分布特點(diǎn),車輛的相互遮擋會對預(yù)測框定位造成較大干擾,預(yù)測框偏移導(dǎo)致檢測不準(zhǔn)確,因此本文基于Faster R-CNN原有損失函數(shù)增添排斥力損失,在約束預(yù)測框向目標(biāo)標(biāo)注框趨近的同時(shí)對周圍非目標(biāo)預(yù)測框和對應(yīng)標(biāo)注框進(jìn)行限制和排斥,從而增強(qiáng)模型整體對于遮擋類型密集車輛情景的適應(yīng)力,提高檢測器在密集場景的魯棒性。損失函數(shù)由一項(xiàng)吸引項(xiàng)和兩項(xiàng)排斥項(xiàng)組成,其定義如公式(1)所示:
其中L為吸引項(xiàng),表示Faster R-CNN原有損失函數(shù),即包括分類損失值和位置回歸損失值的多任務(wù)損失,L和L為排斥項(xiàng),L表示目標(biāo)預(yù)測框向周圍標(biāo)注框偏移的損失值,L表示目標(biāo)預(yù)測框向周圍其他預(yù)測框偏移的損失值,參數(shù)、用于對兩項(xiàng)排斥項(xiàng)進(jìn)行損失值的平衡,本文設(shè)置參數(shù)、兩值均為0.5。
排斥項(xiàng)損失L目的是防止預(yù)測框向相鄰非目標(biāo)標(biāo)注框偏移,其計(jì)算值與距離呈負(fù)相關(guān),預(yù)測框越向非目標(biāo)標(biāo)注框偏移,則會通過該損失對邊界框回歸器進(jìn)行約束和懲罰,具體定義如公式(2)所示:
其中為候選框,為由{}構(gòu)成的正樣本集合,B為預(yù)測邊界框,由候選框回歸得到,G為排斥目標(biāo)標(biāo)注框,定義為候選框除指定的真實(shí)目標(biāo)框外所形成最大交并比值IoU(Intersection over Union)的標(biāo)注框,定義如公式(3)所示:
其中G為候選框最大的所對應(yīng)的標(biāo)注目標(biāo)框。受定義的啟發(fā),以IoG(Intersection of Ground-truth)定義懲罰B和G之間的重疊區(qū)域,其定義如公式(4)所示:
排斥項(xiàng)損失L中為平滑ln函數(shù),其定義如公式(5)所示:
其中閾值的區(qū)間范圍為(0,1),用以調(diào)整對異常值的敏感程度。
非極大值抑制NMS(Non-maximum suppression)處理作為目標(biāo)檢測后處理的重要環(huán)節(jié),其能去除相近冗余的預(yù)測框,但由于NMS閾值設(shè)定較為敏感,若閾值設(shè)定過大,則會出現(xiàn)誤檢的情況;若設(shè)定太小,會造成漏檢。而通過排斥項(xiàng)損失L可在一定程度上降低這種敏感性,同時(shí)約束目標(biāo)不相同的兩個(gè)預(yù)測框之間的重疊面積,減少不同目標(biāo)的回歸預(yù)測框合二為一的情況,其具體定義如公式(6)所示:
其中1是一個(gè)恒等函數(shù),參數(shù)是一個(gè)數(shù)值很小的常數(shù),避免出現(xiàn)分母為零的情況。
目前對于高速公路密集場景的公開數(shù)據(jù)資源較少,本文利用高速公路視頻采集系統(tǒng)收集整理了一個(gè)高速公路擁堵場景數(shù)據(jù)集。該數(shù)據(jù)集涉及到的場景主要包括河南、廣東等省份的高速公路擁堵道路場景,同時(shí)涉及到四種天氣環(huán)境,包括晴天、雨天、霧天和雪天。通過對監(jiān)控視頻抽幀后,對稀疏車輛場景圖片進(jìn)行數(shù)據(jù)清洗,最終共篩選得到1300張圖片,其中包括訓(xùn)練集1000張,訓(xùn)練集300張。
通用目標(biāo)檢測評價(jià)指標(biāo)主要包括平均精度(AP,average precision)、平均精度均值(mAP,mena average precision)等,其由精確率(Precision)、召回率(Recall)等計(jì)算得到。表1所示為混淆矩陣,共定義TN(True Negative)、FP(False Positive)、FN(False Negative)、TP(True Positive)四項(xiàng)指標(biāo):
表1 混淆矩陣
其中表示真陰率,即正確預(yù)測負(fù)樣本為負(fù)類的數(shù)量;表示假陽率,即將負(fù)樣本錯(cuò)誤預(yù)測為正類的數(shù)量;表示假陰率,即將正樣本錯(cuò)誤預(yù)測為負(fù)類的數(shù)量;表示真陽率,即正確預(yù)測正樣本為正類的數(shù)量,在目標(biāo)檢測任務(wù)中,常通過設(shè)定預(yù)測框與標(biāo)注框之間的閾值來衡量是否屬于真陽性情況,若值超過設(shè)定閾值,則滿足真陽性情況。
通過以上四項(xiàng)指標(biāo),就可計(jì)算得到精確率與召回率的值。精確率表示在預(yù)測為正類的樣本中預(yù)測正確的比例,其計(jì)算過程如公式(7)所示:
召回率表示在真實(shí)正樣本中預(yù)測為正類的樣本比例,其計(jì)算過程如公式(8)所示:
通常目標(biāo)檢測會對精確率和召回率進(jìn)行綜合評估,依據(jù)其具體值畫出對應(yīng)P-R曲線,曲線下方所圍成的面積即為平均精度值。平均精度均值則常用于多分類目標(biāo)檢測,代表每類目標(biāo)的平均精度。本文由于車輛未進(jìn)行細(xì)分類,只包含車輛目標(biāo)一類,故值與值等價(jià),本文使用值作為密集車輛目標(biāo)檢測算法的評價(jià)指標(biāo)。
本文實(shí)驗(yàn)均基于TensorFlow深度學(xué)習(xí)框架實(shí)現(xiàn)對網(wǎng)絡(luò)模型的搭建和訓(xùn)練,實(shí)驗(yàn)平臺包括兩個(gè)NVIDIA TITAN X的GPU,實(shí)驗(yàn)系統(tǒng)為Linux操作系統(tǒng)。為證明本文算法的可行性,將本文算法的實(shí)驗(yàn)結(jié)果與主流目標(biāo)檢測算法結(jié)果進(jìn)行對比,參與對比的檢測方法包括SSD、YOLO V3和GANet(Guided Attention Network),結(jié)果如表2所示??梢钥闯?,本文提出的方法與現(xiàn)有方法相比,在該數(shù)據(jù)集上取得了最佳成績,平均精度達(dá)到85.1%。圖4為本文方法的主觀效果圖,本文方法對嚴(yán)重遮擋、部分遮擋的密集車輛檢測均有提升效果,一定程度上解決了視覺遮擋所引起的預(yù)測框偏移問題,減少了對相鄰車輛目標(biāo)漏檢和誤檢的情況。
圖4 本文方法主觀效果圖
表2 本文方法與其他主流方法的結(jié)果對比
為驗(yàn)證本文算法在高速公路擁堵場景下對密集車輛目標(biāo)檢測的有效性,本文設(shè)計(jì)了對于所提出的多變化處理模塊和排斥力損失的消融對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表3所示,可以看出,本文所提出的兩個(gè)模塊均對該模型檢測性能有一定的提升作用。在Baseline(Faster R-CNN)的網(wǎng)絡(luò)基礎(chǔ)上添加排斥力損失后,檢測精度提升1.6%,側(cè)面說明了排斥力損失的有效性,對相鄰車輛目標(biāo)的重疊區(qū)域進(jìn)行準(zhǔn)確分析,提高了遮擋目標(biāo)的檢測準(zhǔn)確度。在上述實(shí)驗(yàn)的基礎(chǔ)上添加多變化處理模塊,算法的整體檢測性能進(jìn)一步提高,充分說明在網(wǎng)絡(luò)訓(xùn)練過程中加入多變化處理模塊對輸入圖像進(jìn)行多種形式的變化擴(kuò)展,是行之有效的方式。
表3 消融實(shí)驗(yàn)結(jié)果
本文以高速公路擁堵場景為背景,以密集分布車輛為研究目標(biāo),從目標(biāo)自身特征入手,提出了一種新的密集車輛目標(biāo)檢測算法,提高了對密集車輛檢測的準(zhǔn)確率。基于Faster RCNN網(wǎng)絡(luò)結(jié)構(gòu),精準(zhǔn)把握通用目標(biāo)檢測方法的不足,結(jié)合多變化處理模塊與排斥力損失解決目標(biāo)重疊導(dǎo)致的檢測框偏移等問題,在所構(gòu)建的高速公路擁堵場景數(shù)據(jù)集上取得了超出通用目標(biāo)檢測算法的效果。該研究可應(yīng)用于擁堵交通道路場景中,實(shí)時(shí)監(jiān)測異常交通情況,盡量降低擁堵導(dǎo)致的高速公路危險(xiǎn)事故發(fā)生的概率,對實(shí)現(xiàn)高速公路安全的智能化監(jiān)測發(fā)揮重要的作用。