摘 要:基于深度學習技術的運動車輛檢測是交通和計算機學科當下的研究熱點.針對動態(tài)車輛檢測任務中多尺度、目標重疊、難以區(qū)分動態(tài)和靜態(tài)的車輛等難題,本文提出了一種多任務特征融合的CenterNet運動車輛檢測方法.首先向網(wǎng)絡中新增一支用于實現(xiàn)車輛分割的任務流,與原有目標檢測流共同組成雙流機制,然后使用恰當?shù)姆绞綄崿F(xiàn)雙流特征融合,輔助增強目標檢測流中的關鍵特征信息,此外,注意力機制的加入進一步優(yōu)化了模型精度.在以公共數(shù)據(jù)集UA-DETRAC為基礎所制作的測試集上,本文方法的平均精確率為70%,相比原始CenterNet模型提高了5.8%;幀率為30 f/s,在對比方法中具有最佳的速度與精度均衡性.大量實驗表明,本文方法能夠較好地勝任運動車輛的檢測任務.
關鍵詞:運動車輛檢測; 分割; CenterNet; 多任務學習; 特征融合
中圖分類號:TP183
文獻標志碼: A
Multi-task feature fusion for moving vehicle detection based on CenterNet
LI Xiao-han1, LIU Shi-jian1, ZOU Zheng2*, DAI Yu-chen1
(1.College of Computer Science and Mathematics, Fujian Provincial Key Laboratory of Big Data Mining and Applications, Fujian University of Technology, Fuzhou 350118, China; 2.College of Computer and Cyber Security, Fujian Normal University, Fuzhou 350117, China)
Abstract:Motion vehicle detection based on deep learning technology is currently a research hotspot in the intersection of traffic and computer science.To address challenges in dynamic vehicle detection tasks,such as multi-scale issues,overlapping targets,and the difficulty of distinguishing between dynamic and static vehicles,this paper proposes a multi-task feature fusion approach for CenterNet motion vehicle detection.Firstly,a task branch for vehicle segmentation is added to the network,forming a dual-stream mechanism along with the original object detection stream.Subsequently,an appropriate method is employed to achieve feature fusion between the two streams,assisting in enhancing critical feature information in the object detection stream.Additionally,the introduction of attention mechanisms further optimizes model accuracy.On a test set created based on the UA-DETRAC public dataset,our proposed method achieves an average precision of 70%,representing a 5.8% improvement compared to the original CenterNet model.With a frame rate of 30 frames per second,our method demonstrates the best balance between speed and accuracy compared to the contrastive methods.Extensive experiments indicate that our approach performs well in motion vehicle detection tasks.
Key words:moving vehicle detection; segmentation; CenterNet; multi-task learning; feature fusion
0 引言
本文以運動車輛目標檢測為研究內(nèi)容.作為計算機視覺領域的關鍵分支,運動車輛目標檢測是構建智慧交通的基礎,其對于提高道路安全、優(yōu)化交通流量、減少擁堵及提升城市智能化水平具有重要意義.近年來,隨著計算機和攝像機等設備性能的提升、大數(shù)據(jù)和人工智能等前沿技術的發(fā)展,這一課題受到學術界和產(chǎn)業(yè)界的廣泛關注,成為了交通和計算機學科當下的研究熱點.
傳統(tǒng)的車輛目標檢測方法采用簡單的特征提取算法,如基于HOG特征的SVM分類器[1]和基于Haar特征的級聯(lián)分類器[2]等.這些方法往往需要手動設計特征和閾值等參數(shù),容易受到復雜背景、遮擋和形變等問題的干擾,識別的魯棒性較差,且難以區(qū)分動態(tài)和靜態(tài)車輛目標.
隨著人工智能、大數(shù)據(jù)等技術發(fā)展,檢測技術獲得了較好的發(fā)展.目前主流的運動車輛檢測方法可分為基于視頻連續(xù)幀的時序特征的方法以及基于圖像的空間特征的方法.利用視頻連續(xù)幀的時序特征,經(jīng)典的計算機視覺方法:光流法[3],可以通過分析相鄰幀之間的像素強度變化來計算對象的運動矢量,獲取動態(tài)目標的運動特征.此外,基于循環(huán)神經(jīng)網(wǎng)絡(RNN)的檢測方法FG-BR Net[4]將背景減法融入到循環(huán)神經(jīng)網(wǎng)絡中,以高效地忽略非感興趣的區(qū)域,從而消除靜態(tài)假陽性;VOD-MT[5]提出通過逐幀加入注意力機制從當前幀和過去幀中收集更多的目標特征信息,提高對小尺寸目標的檢測能力;MEGA[6]提出在視頻中全局和局部地匯總特征圖來增加檢測精度;TFEN[7]一文則通過一次性計算過去的哪些幀應受到關注來快速收集和聚合特征,并達到了較高的速度-精度平衡.然而,這種策略的弊端在于對幀與幀之間的關聯(lián)度要求較高,需要按順序處理每個時間步,這可能導致計算效率較低,尤其是在需要快速響應的實時檢測任務中;此外,RNN模型的復雜性隨著序列長度的增加而增加,這可能導致模型體積較大,尤其是在處理大規(guī)模數(shù)據(jù)集時,因此難以嵌入移動設備進行實時檢測.
另一方面,基于圖像的空間特征,主流的車輛檢測方法又可分為基于錨框的方法和無錨框方法.錨框的概念最早可見于二階段檢測方法Faster R-CNN[8]中,然后逐漸被YOLO[9]、SSD[10]等一階段目標檢測方法廣泛采用.以二階段模型Faster R-CNN為基準的方法偏向于精度優(yōu)先,如Luo等[11]基于Faster R-CNN模型,通過神經(jīng)網(wǎng)絡結構搜索(Neural Architecture Search,NAS)和特征增強來優(yōu)化方法對多尺度目標的檢測性能;Wang等[12]通過應用不同的特征融合技術,從多個維度完成對運動車輛目標的特征提取,細化初始框,從而實現(xiàn)了檢測精度的提升;GP-FRCNN[13]一文提出通過粗略估計場景的幾何形態(tài)來重新排列通用的候選目標(Object Proposals),以在背景混亂的區(qū)域產(chǎn)生較少的假陽性,從而提升對運動車輛目標的檢測能力,此類方法往往能夠達到較高的檢測精度,但由于模型結構復雜,實時性效果較差.而基于一階段SSD的方法和各YOLO版本的方法,則偏向于速度優(yōu)先,并針對運動車輛檢測的難題對模型結構做出調(diào)整,如Hamzenejadi等[14]在YOLOv5中引入擠壓-激勵模塊(SE Module)[15],并使用更高分辨率的輸出特征圖,來提高小尺寸車輛目標的檢測準確性;Bie等[16]結合了Mobilenetv3[17],以降低計算復雜度并提高車輛檢測性能;Dong等[18]在YOLOv5主干網(wǎng)絡中引入卷積注意力模塊(Convolutional Block Attention Module,CBAM)[19]來選擇對車輛檢測任務至關重要的信息并抑制非關鍵信息,從而提高算法的檢測精度;Kang等[20]提出了一種基于模糊注意力的新型YOLO檢測器(YOLO-FA),通過引入Type-1模糊注意力(Type-1 Fuzzy Attention,T1FA),來減少因光照、遮擋、運動模糊等不確定性因素引起的車輛檢測誤差,同時將模型注意力更加集中到因運動而產(chǎn)生邊界模糊的目標車輛,此類一階段方法雖然解決了實時性問題,但檢測精度卻往往無法達到要求.
以上基于錨框的目標檢測方法難以面對車輛檢測任務中準確性和實時性的的雙重挑戰(zhàn).具體地,該類方法會生成大量冗余的候選框,影響系統(tǒng)效率,使用非極大值抑制(Non-Maximum Suppression,NMS)方法可消除部分冗余,這類完全依賴置信度的檢測框的排除法,因不容許高重疊對象并存,而造成漏檢,而在交通場景中,高密集高重疊的多目標情況是非常常見的,因此其不適用于車輛密集的交通場景.為了克服上述問題,2019年Zhou等[21]提出了基于熱力圖的目標檢測器CenterNet.該方法能夠直接預測目標的中心點和尺寸,避免錨框所帶來的弊端,因此能夠較好地平衡檢測速度和精度.通過前期工作[22]的驗證:CenterNet相比其他模型具有端到端的優(yōu)勢,更加簡單高效,因此更適用于復雜的交通場景.Yu等[23]基于CenterNet模型,應用所提出的自適應融合雙向特征金字塔網(wǎng)絡(AF-BiFPN)模塊來融合不同特征層的特征,提升模型對多尺度目標的擬合能力;Wang等[24]提出了CenterNet-Auto,在backbone之后添加特征金字塔和可變形卷積來融合不同尺度的特征,以準確檢測不同尺寸的物體,同時利用邊界特征信息來定位物體,以此解決駕駛場景中的遮擋問題.以上方法所針對的問題主要集中在交通場景下的多尺度和高遮擋率,這是由于CenterNet采用直接預測目標中心點的方式對運動車輛進行檢測,模型精確定位到目標中心點和回歸到檢測框尺寸的難度較大,尤其是在車輛密集遮擋、不同尺寸車輛較多的場景下,因此其對于運動車輛目標的檢測精度仍有待提高.
綜合上述對各類檢測方法的討論,運動車輛檢測任務仍面臨的核心問題如下:首先,在實際監(jiān)控圖像中,不同車輛間高度不等,實際高度大約在幾十像素到幾百像素之間,這類較大的尺度差異會增加識別的難度;其次,擁擠交通場景下往往存在大量車輛間的遮擋.監(jiān)控視頻中的車輛是二維的,呈現(xiàn)的形態(tài)信息有限,當車密集度增加時,因遮擋而丟失的信息會急劇增加,進而導致大量的漏識別;最后,本工作只關注行駛車輛,不關注靜態(tài)車輛,如停泊或等候交通信號燈等車輛.由于靜動態(tài)車輛都具有較為明顯的車輛共性特征,很容易造成目標混淆,導致較多的誤識別.以上因素都會在不同程度上降低識別精確度.
針對以上問題,本文提出一種多任務特征融合的CenterNet運動車輛檢測方法.本文的貢獻主要體現(xiàn)在以下方面:
(1)使用光流法生成分割流標簽,充分利用了視頻數(shù)據(jù)集獨有的特點:大量連續(xù)的幀包含了運動目標的動態(tài)特征.利用前后幀之間的關聯(lián)性為訓練集圖像生成光流圖作為分割流的真實標簽,不僅節(jié)省人工標注的時間,且標簽包含待檢測目標的動態(tài)特征,這是人工標記的分割標簽所不具備的.
(2)增加一支分割流來輔助增強目標檢測流中的關鍵點熱圖.由于分割流特征圖包含了當前場景下不同車輛的個體動態(tài)特征和紋理特征,這是以生成包圍盒為導向的關鍵點熱圖所不具備的,因此,分割流的加入使模型在關注車輛位置信息的同時,也能更好地區(qū)分密集區(qū)域下的不同車輛個體,有效緩解了高遮擋率、高密集場景下的目標漏檢問題和靜態(tài)車輛誤檢問題.
(3)在CenterNet主干網(wǎng)絡中嵌入坐標注意力機制.為了更好的融合CenterNet主干網(wǎng)絡中的深層、淺層特征圖,本文在其跨層連接的直接映射中引入坐標注意力(coordinate attention,CA)[25]機制,在對淺層特征圖去噪的同時,能夠在全局感受野下對語義較弱的小尺寸目標特征進行補充,使模型更加關注圖像中感興趣的目標區(qū)域,從而有效緩解了車輛檢測任務中多尺度的難題.
1 技術框架概述
1.1 核心思想
本文方法的核心思想在于:借助多任務特征融合的方式來提升系統(tǒng)性能.該思想的靈感來自深度學習經(jīng)典分割模型Mask R-CNN[26]中兼具目標識別和目標分割任務的啟發(fā).區(qū)別在于:Mask R-CNN中,分割任務是以目標檢測任務為基礎的,即先有目標檢測的結果—包圍盒區(qū)域,然后在包圍盒內(nèi)進行分割;本文方法中,兩者并無從屬關系,分割結果的準確性雖不是本文方法的目標,但將其用于輔助目標檢測任務,確實有利于提升系統(tǒng)性能(詳見本文方法及本文實驗部分).
上述思想的可行性在于以下兩點:首先,傳統(tǒng)目標檢測任務與分割任務具有一定相似性.兩者的相同點都是針對特定目標進行處理;不同之處在于前者只需要對目標進行框定并分類標記,而后者則需要對目標進行逐像素分類標記.這也是Mask R-CNN等傳統(tǒng)方法能將這兩類任務納入同一框架內(nèi),但又無法協(xié)同合作的原因.其次,基于熱力圖的目標檢測能夠與分割任務協(xié)同合作.CenterNet的輸出數(shù)據(jù)中包含用于標識目標中心點的熱力圖,其每個像素點表示屬于目標中心點的概率,這與用每個像素點來表示分割前景概率的分割問題具有一致性,因此將兩者進行逐像素融合在邏輯上是行得通的.
1.2 模型整體架構
基于多任務特征融合的思想,本文在CenterNet模型的基礎上,主要進行了如圖1所示三重改進,包括:(1)針對高遮擋率和難以區(qū)別動態(tài)、靜態(tài)車輛的難題,添加與原有目標檢測流(圖1中綠色虛線框所示)平行的分割流(圖1中紅色虛線框所示).被添加后的分割流以光流圖作為真實值標簽,由于光流圖的前景包含運動車輛目標的個體動態(tài)特征和紋理特征(詳見下述2.1節(jié)),因此分割流可用于監(jiān)督彌補原主干網(wǎng)絡輸出特征圖中對上述特征信息的缺失,使模型能夠更好地區(qū)分動態(tài)和靜態(tài)車輛以及密集區(qū)域中的多個車輛個體,提升模型對運動車輛目標的擬合性能;(2)為了強化關鍵點熱圖包含的目標動態(tài)和個體紋理特征信息,將分割流的輸出特征圖與目標檢測流的輸出關鍵點熱圖進行特征融合(圖1中藍色橢圓形所示).特征融合模塊被添加到模型的末端,用于強化目標檢測特征,彌補關鍵點熱圖中缺少的目標動態(tài)和個體紋理特征信息;(3)針對車輛目標多尺度的難題,在主干網(wǎng)絡中引入注意力提升模塊.注意力提升模塊被嵌入到主干網(wǎng)絡之中,用于將模型注意力集中到感興趣的區(qū)域,提升模型對不同尺寸特征圖的特征提取能力,減少小尺寸目標的特征損失.
2 數(shù)據(jù)集與方法
2.1 數(shù)據(jù)集及分割流標注
監(jiān)督學習離不開數(shù)據(jù)標注,然而雙流任務所需標注不盡相同.為了充分利用視頻數(shù)據(jù)集獨有的特點:大量連續(xù)的幀包含了運動目標的動態(tài)特征,此特點完全契合本文任務:只關注行駛車輛,不關注靜態(tài)車輛.因此,本文選擇使用光流法[3]獲取分割標簽,用以監(jiān)督分割流.
具體來說,首先確定數(shù)據(jù)集.本文實驗均運行于名為UA-DETRAC的公共數(shù)據(jù)集[27].該數(shù)據(jù)集采集自北京和天津兩座城市的交通路段,原始數(shù)據(jù)時長共約10小時,視頻幀率為25幀每秒(frame per second,fps).按照AVSS2017挑戰(zhàn)賽[28]的標準,以10幀為間隔,從中抽取幀圖片保存為數(shù)據(jù)集.
然后,通過光流算法獲取分割結果,如圖2所示.由于本文的任務是檢測運動中的車輛,而觀察圖2可知,光流法生成的前景恰好包含了待檢測目標的運動特征,同時包含了每個運動車輛的個體紋理特征,且前景中不包含停泊狀態(tài)的靜態(tài)車輛,因此,將光流圖經(jīng)過灰度化后作為分割流的分割標簽,不僅節(jié)省了人工標注的時間,還可以監(jiān)督彌補主干網(wǎng)絡輸出特征圖中的動態(tài)特征和個體紋理特征,提升模型檢測動態(tài)車輛和區(qū)分密集區(qū)域下不同車輛個體的能力.進一步地,將上述結果與目標檢測包圍盒標簽做相交處理,消除包圍盒外的假陽性數(shù)據(jù)(即分割結果是前景,但沒有在包圍盒范圍內(nèi),故實際為背景),以提升分割結果的準確性.
2.2 分割流與坐標注意力
原CenterNet包含三重輸出:(1)表示目標包圍盒中心點的熱力圖Oct;(2)表示包圍盒寬高的熱力圖Owh;(3)表示中心點修正量的熱力圖Oos.通過對這三個輸出進行學習監(jiān)督,能夠讓CenterNet模型具備目標檢測能力.本文將上述三重輸出統(tǒng)稱為目標檢測流,然后向網(wǎng)絡中新增一支用于實現(xiàn)車輛分割的任務流分支,兩者共同組成本文方法的雙流機制,雙流共享主干網(wǎng)絡的特征數(shù)據(jù)作為輸入.
圖1中分割流的細節(jié)如圖3(a)所示.首先,對輸入數(shù)據(jù)進行上采樣.這是因為輸入特征圖經(jīng)主干網(wǎng)絡處理,其尺寸已縮小為原來的1/4,為了使用原尺寸標注進行監(jiān)督,需要將其還原至原始大小.
值得注意的是,上述尺寸還原是分2次完成的:第一次上采樣之前,選擇3×3卷積(Conv)作為過渡;第二次上采樣前,使用坐標注意力模塊代替普通卷積操作,生成單通道的注意力圖作為上采樣的輸入,如圖3(b)所示.這是因為CA注意力模塊本身就具有一定的空間信息提取能力,它不僅可以獲取到通道之間的關聯(lián)信息,還可以獲取方向感知和位置敏感信息.因此,可將CA注意力模塊看作全局感受野的卷積模塊,完成空間信息的提取作用;將CA注意力模塊生成的單通道注意力圖經(jīng)第二次上采樣后直接作為分割流的最終輸出,更有利于將模型注意力集中到感興趣的目標區(qū)域,使輸出特征圖中目標區(qū)域的特征信息更加銳化和敏感,改善CenterNet模型召回率不足的局限性,同時更有利于其后續(xù)與目標檢測流中的關鍵點熱圖相融合,最大程度地補充關鍵點熱圖缺少的動態(tài)特征信息和目標個體的紋理特征信息.
最后,對輸出結果Oseg進行監(jiān)督學習.令N表示像素點的個數(shù),xi和yi分別表示第i(1≤i≤N)個點的分割預測結果和真實值,則分割流的損失函數(shù)Lseg由公式(1)給出:
Lseg=-1N∑Ni=1yi-log(sigmoid(xi))+(1-yi)-log(1-sigmoid(xi))(1)
2.3 雙流融合
使用分割任務來輔助目標檢測任務是本文方法的核心思想,雙流融合即實現(xiàn)該思想的關鍵之一.在進行特征融合時需要考慮以下幾個問題:(1)特征尺寸問題;(2)結合對象問題;(3)融合方式問題.
首先,對于特征尺寸問題:由于分割流中對數(shù)據(jù)進行上采樣,其輸出尺寸相對主干網(wǎng)絡的輸出產(chǎn)生了變化,而特征融合需要兩者尺寸一致.因此,本文選擇雙線性插值的方式來實現(xiàn)對分割輸出結果的下采樣[16],使其恢復128×128大小.
其次,目標檢測流有三個熱力圖輸出,分別為Oct、Owh和Oos.正如前文所述,由于與中的關鍵特征均集中在待檢測目標的位置區(qū)域,且Oseg可以補充相同位置區(qū)域中,Oct缺少的目標動態(tài)特征和紋理特征信息,因此Oct與Oseg的特征融合在邏輯上是可行的,但Owh與Oseg或Oos與Oseg的結合均缺乏邏輯上的支撐.因此,僅在Oct與Oseg之間進行特征融合.
最后,深度學習中常見的特征融合方式包括逐像素點融合和通道拼接.前者常見于注意力機制中,在這種情況下,Oseg將被視為Oct的特征權重.然而,Oseg中可能存在趨近于0的假陰性數(shù)據(jù)(即分割結果是背景,但實際為目標前景),將這些數(shù)據(jù)與Oct逐點相乘將會造成錯誤的學習引導.相比之下,實驗表明,通道拼接的方式則能有效實現(xiàn)多任務特征融合的目標.
拼接后的特征圖將通過1×1卷積處理,得到融合后的單通道特征圖Ofs.總的損失函數(shù)Ltot如公式(2)所示:
Ltot=Lct+0.1Lwh+Los+Lseg(2)
式(2)中:Lct、Lwh和LOS分別為中心點損失、寬高損失、以及中心點偏移量損失,其定義可參考文獻[20].Lseg的定義詳見公式(1).
2.4 主干網(wǎng)絡及注意力機制
原CenterNet所推薦的四種主干網(wǎng)絡分別是ResNet-18、ResNet-101、DLA-34以及Hourglass-104,文獻[20]指出,Hourglass架構能獲得最佳性能,但代價是網(wǎng)絡結構復雜,時空開銷大,無法做到實時檢測;而DLA-34網(wǎng)絡架構則實現(xiàn)了最佳的精度-速度平衡.因此本文選擇DLA-34作為此次工作的主干網(wǎng)絡加以改進.
改進后的主干網(wǎng)絡細節(jié)如圖4(a)所示,其中的Stage和聚合節(jié)點分別對應著編碼器和解碼器部分的特征圖.原DLA網(wǎng)絡中,淺層特征圖通過直接映射的方式與上采樣后的深層特征圖做跨層連接,跨層連接的主要目的是更好地結合不同尺度目標的特征:由于在編碼網(wǎng)絡中,淺層特征圖往往包含了更多小尺寸目標的特征信息,而隨著網(wǎng)絡層的加深,特征圖的尺寸往往以倍數(shù)遞減,因此,深層特征圖中包含語義信息變得更加深刻的同時,也會丟失大量小尺寸目標的特征信息.
為了更好地將深層、淺層特征圖相融合,本文向原DLA網(wǎng)絡跨層連接的直接映射中添加了坐標注意力(CA)機制,具體實現(xiàn)如圖4(b)所示.由于CA機制的感受野為整張圖像,可以使模型將注意力集中到感興趣的目標區(qū)域,忽略圖像中不相關的噪聲區(qū)域,因此,在對淺層特征圖去噪的同時,可以在全局感受野下對較弱語義的小尺寸目標特征進行補充,使其能夠更好地與深層特征相融合,強化最終特征圖所包含的多尺度信息,從而有效緩解車輛檢測任務中的多尺度難題.
3 實驗結果與分析
一系列實驗被用來驗證本文方法的有效性和性能.
3.1 實驗環(huán)境
如表1所示,實驗數(shù)據(jù)集一共包含10314張圖片,其中訓練集、驗證集、測試集分別為7856張、601張以及1857張.數(shù)據(jù)集依據(jù)場景的復雜性和挑戰(zhàn)性(例如遮擋、光照變化和交通繁忙程度等)被劃分為簡單、中等、困難三種難度,不同難度在測試集中的分布如表2所示.模型訓練所采用的學習率、迭代次數(shù)等主要超參數(shù)設置詳見表3所示.所有實驗均運行于一臺顯存容量為6GB,GPU型號為 Nvidia GeForce RTX 3060的筆記本電腦.
3.2 對比實驗
對比方法共分為兩類:4類經(jīng)典的通用檢測方法,和8類專門針對車輛檢測的主流方法,具體如表4所示.其中通用對比方法中,F(xiàn)aster R-CNN[8]、YOLOv5[29]是基于錨框的;CenterNet-DLA[20]、YOLOX[30]是無錨框的;專用方法包括YOLO-FA[19]等前沿方法.本實驗從精確度和效率兩方面評估,分別選用均值平均精度(Mean Average Precision,mAP)和幀率FPS.
在與通用方法對比中,根據(jù)遮擋和密集程度將測試數(shù)據(jù)換分成三類:簡單,中等和困難.在處理中等和困難模式時,本方法精確率表現(xiàn)最優(yōu),其mAP指標分別為73.78%和61.85%,且與次優(yōu)方法差距均超過3%以上,具體如表5所示;簡單模式下,F(xiàn)aster R-CNN精確率最高,本方法以微弱差距0.4%緊跟其后,但在時效性方面Faster R-CNN表現(xiàn)最差,僅有7 f/s的速度,本方法可達30 f/s.
與專用方法對比結果如圖5所示.圖5的水平軸為包含本方法在內(nèi)的9類方法,其順序從左至右按檢測速度遞減排列;圖5縱軸為各方法的精確度結果(黃柱)和速度結果(藍柱).若以30fps作為實時性優(yōu)秀的閾值(黑色橫線),則共有4類實時性較優(yōu)秀,即文獻[16]方法,文獻[18]方法,YOLO-FA方法,以及本方法,而在這4類方法中,本方法準確率最高,達到70%.
綜上所述,無論是通用方法還是專用方法的對比中,本實驗結果均證明本方法在保證準確率的前提下,最大程度地提高了檢測效率,展示了本方法優(yōu)越的檢測性能.
3.3 實驗結果可視化
為直觀展示本文方法檢測結果,并體現(xiàn)本文方法相比其他目標檢測方法的優(yōu)越性,從測試集中選取2張典型圖片,并在本文方法及CenterNet-DLA、YOLOv5、YOLOX模型上分別測試,將對比結果可視化展示如圖6所示,其中第一行圖片涵蓋了本研究任務中車輛目標多尺度、車輛密集分布導致的不同車輛之間遮擋的問題,第二行圖片主要體現(xiàn)了由于存在靜態(tài)車輛容易導致目標誤檢等動態(tài)車輛檢測難題.對比圖6所示各個方法檢測結果可以看出,相對CenterNet-DLA、YOLOv5、YOLOX出現(xiàn)的大量誤檢或漏檢問題,本文方法更易檢測到不同尺度、相互遮擋的車輛,并且更易識別到車輛是否為待檢測的動態(tài)目標.
3.4 消融實驗
為了說明本模型包含的各個模塊的有效性,本文針對不同模塊在UA-DETRAC的整體測試集上做了消融性實驗,以此來表明不同模塊對于模型性能的貢獻,實驗結果如表6所示.
觀察消融實驗對照表格可以發(fā)現(xiàn),本文提出的雙流及注意力模塊均對模型性能的提升做出了貢獻.具體分析如下:(1)雙流通過新增分割流分支,提升了模型對目標動態(tài)特征和個體紋理特征的學習能力,使其能夠更好地識別圖像中的動態(tài)車輛,同時更好地區(qū)分密集區(qū)域下相互遮擋、位置集中的多個車輛目標;(2)融合分割流輸出特征圖與目標檢測流中的關鍵點熱圖,補充、強化了關鍵點熱圖包含的目標特征信息,有效緩解了高密集場景下的目標漏檢問題和靜態(tài)車輛誤檢問題,因此貢獻了占比最多的性能;(3)注意力模塊通過將主干網(wǎng)絡中的直接映射替換為CA注意力模塊,提高了模型對不同階段特征圖的上下文感知能力,補充了淺層特征圖中小尺寸目標的特征信息,使得每一階段的特征圖都能更好地與后一階段的特征圖融合,因此也為模型的精度做出了可觀的貢獻.此外,各模塊的加入對檢測速度的影響較小.由此可見本文方法的有效性.
4 結論
面對運動車輛檢測中的各種挑戰(zhàn),本文提出一種基于多任務特征融合思想的CenterNet改進方法.其靈感來自Mask R-CNN中兼具分割和目標識別任務的啟發(fā),但在網(wǎng)絡結構、特征融合方式等方面與Mask R-CNN具有顯著的區(qū)別.所提方法不僅在邏輯上合理,在橫向對比及消融實驗等實際測試中也展現(xiàn)出良好的性能.在未來的研究中,將對模型的速度及準確率作進一步優(yōu)化,提升其在困難場景下的檢測性能.
參考文獻
[1]Felzenszwalb P F,Huttenlocher D P.Pictorial structures for object recognition[J].International Journal of Computer Vision,2005,61:55-79.
[2]Viola P,Jones,M J.Robust real-time face detection[J].International Journal of Computer Vision,2004,57(2):137-154.
[3]Farneb?ck G.Two-frame motion estimation based on polynomial expansion[C]//Image Analysis:13th Scandinavian Conference,SCIA 2003.Halmstad,Sweden:Springer Berlin Heidelberg,2003:363-370.
[4]Fu Z,Chen Y,Yong H,et al.Foreground gating and background refining network for surveillance object detection[J].IEEE Transactions on Image Processing,2019,28(12):6 077-6 090.
[5]Kim J,Koh J,Lee B,et al.Video object detection using object′s motion context and spatio-temporal feature aggregation[C]//2020 25th International Conference on Pattern Recognition (ICPR).Milan:IEEE,2021:1 604-1610.
[6]S T Charles P,Bilodeau G,Bergevin R.Universal background subtraction using word consensus models[J].IEEE Transactions on Image Processing,2016,25(10):4 768-4 781.
[7]Fujitake M,Sugimoto A.Temporal feature enhancement network with external memory for live-stream video object detection[J].Pattern Recognition,2022,131:108 847.
[8]Ren S ,He K ,Girshick R ,et al.Faster R-CNN:Towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis amp; Machine Intelligence,2017,39(6):1 137-1 149.
[9]Redmon J,Divvala S,Girshick R,et al.You only look once:Unified,real-time object detection [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas,USA:IEEE,2016:779-788.
[10]Liu W,Anguelov D,Erhan D,et al.SSD:Single shot multibox detector[C]// Computer Vision-ECCV 2016.Amsterdam Berlin:Springer,2016:21-37.
[11]Luo J,F(xiàn)ang H,Shao F,et al.Multi-scale traffic vehicle detection based on faster R-CNN with NAS optimization and feature enrichment[J].Defence Technology,2021,17(4):1 542-1 554.
[12]Wang L,Lu Y,Wang H,et al.Evolving boxes for fast vehicle detection[C]//2017 IEEE International Conference on Multimedia and Expo (ICME).Piscataway,NJ:IEEE,2017:1 135-1 140.
[13]Amin S,Galasso F.Geometric proposals for faster R-CNN[C]//2017 14th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS).Piscataway,NJ:IEEE,2017:1-6.
[14]Hamzenejadi M H,Mohseni H.Fine-tuned YOLOv5 for real-time vehicle detection in UAV imagery:Architectural improvements and performance boost[J].Expert Systems with Applications,2023,231:120 845.
[15]Hu J,Shen L,Sun G.Squeeze-and-excitation networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Salt Lake City,USA:IEEE,2018:7 132-7 141.
[16]Bie M,Liu Y,Li G,et al.Real-time vehicle detection algorithm based on a lightweight You-Only-Look-Once (YOLOv5n-L) approach[J].Expert Systems with Applications,2023,213:119 108.
[17]Howard A,Sandler M,Chu G,et al.Searching for mobilenetv3[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision.Long Beach,CA:IEEE,2019:1 314-1 324.
[18]Dong X,Yan S,Duan C.A lightweight vehicles detection network model based on YOLOv5[J]Engineering Applications of Artificial Intelligence,2022,113:104 914.
[19]Woo S,Park J,Lee J Y,et al.Cbam:Convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision (ECCV).Munich,Germany:Springer,2018:3-19.
[20]Kang L,Lu Z,Meng L,et al.YOLO-FA:Type-1 fuzzy attention based YOLO detector for vehicle detection[J].Expert Systems with Applications,2024,237:121 209.
[21]Zhou X,Wang D,Krahenbuhl P,et al.Objects as points[DB/OL].https://arxiv.org/abs/1904.07850,2019-04-25.
[22]黃品超,劉石堅,鄒 崢,等.關聯(lián)增強改進的CenterNet安全帽檢測方法[J].計算機工程與應用,2023,59(17):1-9.
[23]Yu P,Wang H,Zhao X,et al.An algorithm for target detection of engineering vehicles based on improved centerNet[J].Computers,Materials amp; Continua,2022,73(2):4 261-4 276.
[24]Wang H,Xu Y,Wang Z,et al.Centernet-auto:A multi-object visual detection algorithm for autonomous driving scenes based on improved centernet[J].IEEE Transactions on Emerging Topics in Computational Intelligence,2023,7(3):742-752.
[25]Hou Q,Zhou D,F(xiàn)eng J,et al.Coordinate attention for efficient mobile network design[C]//Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2021:13 713-13 722.
[26]He K,Gkioxari G,Dollar P,et al.Mask R-CNN[C]//IEEE Transactions on Pattern Analysis amp; Machine Intelligence.Piscataway,NJ:IEEE,2017:2 961-2 969.
[27]Wen L,Du D,Cai Z,et al.UA-DETRAC:A new benchmark and protocol for multi-object detection and tracking[J].Computer Vision and Image Understanding,2020,193:102 907.
[28]Lyu S,Chang M C,Du D,et al.UA-DETRAC 2017:Report of AVSS2017 amp; IWT4S challenge on advanced traffic monitoring[C]// 2017 14th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS).Piscataway,NJ:IEEE,2017:1-7.
[29]Jocher G,Chaurasia A,Stoken A,et al.Ultralytics/yolov5 [DB/OL].https://github.com/ultralytics/yolov5,2023-11-23.
[30]Ge Z,Liu S,Wang F,et al.Yolox:Exceeding yolo series in 2021[DB/OL].https://arxiv.org/abs/2107.08430,2021-08-06.
【責任編輯:蔣亞儒】