摘要:傳統(tǒng)的檢測和跟蹤方法在復雜駕駛場景下存在精度不高、實時性不足、魯棒性不強等問題,據(jù)此提出了基于深度學習的改進方法。在目標檢測方面,設計了一種雙階段檢測器,在骨干網(wǎng)絡中引入注意力機制,并結(jié)合FPN進行多尺度特征融合,該方法利用孿生網(wǎng)絡架構(gòu),通過時空注意力模塊來挖掘目標的顯著特征和運動模式,從而增強了網(wǎng)絡對目標表征的學習能力。這種端到端的框架設計,避免了傳統(tǒng)方法中由于模塊化處理而導致的特征表達能力下降的問題。此外,討論了算法的局限性以及未來的改進方向。實驗結(jié)果表明,所提出的算法在KITTI和OTB等公開數(shù)據(jù)集上取得了顯著優(yōu)于現(xiàn)有方法的性能,展現(xiàn)出了良好的精度和實時性。研究成果可為自動駕駛系統(tǒng)的感知模塊設計提供新思路。
關(guān)鍵詞:自動駕駛;目標檢測;目標跟蹤;深度學習;卷積神經(jīng)網(wǎng)絡;循環(huán)神經(jīng)網(wǎng)絡
中圖分類號:U472.9 收稿日期:2024-04-26
DOI:1019999/jcnki1004-0226202407018
1 前言
近年來,自動駕駛技術(shù)受到學術(shù)界和工業(yè)界的廣泛關(guān)注。實現(xiàn)自動駕駛的一個關(guān)鍵是賦予車輛感知環(huán)境的能力,其中目標檢測與跟蹤是其中最基本也是最重要的能力之一。傳統(tǒng)的目標檢測與跟蹤算法如Haar、HOG、DPM等在特定場景下取得了不錯的效果,但在復雜環(huán)境下仍然面臨著魯棒性不足、實時性差等挑戰(zhàn)。本文綜合利用深度學習技術(shù),研究適用于自動駕駛場景的目標檢測與跟蹤新算法,以期在精度和速度方面取得創(chuàng)新。
2 傳統(tǒng)目標檢測與跟蹤算法綜述
21 目標檢測算法
傳統(tǒng)目標檢測算法可分為三類:基于模板匹配、特征提取和分類器的方法。
a.基于模板匹配的方法,如Viola-Jones檢測器,通過訓練Haar特征分類器和級聯(lián)檢測實現(xiàn),速度快但泛化能力差[1]。
b.基于特征提取的方法,如HOG、SIFT特征+SVM分類器,對幾何光照變化有一定不變性,但特征設計和提取計算量大[2]。
c.基于分類器的方法,如DPM檢測器,通過潛在SVM學習部件模型,對形變遮擋魯棒性好,但訓練推斷速度慢。
22 目標跟蹤算法
傳統(tǒng)目標跟蹤算法可分為生成式和判別式兩類。
a.生成式方法,如卡爾曼、粒子濾波,通過遞歸預測和更新狀態(tài)分布實現(xiàn),理論完備但依賴先驗假設。
b.判別式方法,如相關(guān)濾波、在線學習、孿生網(wǎng)絡,將跟蹤看作二分類問題,不依賴先驗但分類器更新耗時。
23 存在的問題與挑戰(zhàn)
傳統(tǒng)算法在自動駕駛等非約束環(huán)境下面臨挑戰(zhàn):
a.環(huán)境復雜多變,光照天氣變化給特征提取匹配帶來困難。
b.目標形變遮擋頻繁發(fā)生,需要有更強的魯棒性。
c.實時性要求高,需要更高效的計算方法。
d.缺乏大規(guī)模數(shù)據(jù)集,難以訓練出泛化能力強的模型。
因此,亟需研究更魯棒、高效、可擴展的新方法,深度學習正為此帶來希望。
3 基于深度學習的目標檢測與跟蹤算法
31 基于卷積神經(jīng)網(wǎng)絡的目標檢測算法
311 算法原理
卷積神經(jīng)網(wǎng)絡(CNN)是一種層次化的神經(jīng)網(wǎng)絡模型,它具有強大的特征表示和模式識別能力。CNN通過在數(shù)據(jù)中自動學習多層次的特征表示,從而獲取輸入數(shù)據(jù)的高層次抽象特征,這些學習到的特征往往比人工設計的特征更具有判別力和泛化能力。
312 網(wǎng)絡結(jié)構(gòu)設計
高效準確的網(wǎng)絡結(jié)構(gòu)是CNN目標檢測算法的關(guān)鍵。以兩階段的Faster R-CNN為例,其網(wǎng)絡結(jié)構(gòu)如圖1所示。
圖中主要包含4個模塊:
a.Fast R-CNN網(wǎng)絡。該網(wǎng)絡如圖1中上半部分所示,它包括預處理、特征提取、特征融合、RoI池化和分類回歸等步驟,用于目標檢測任務。
b.RPN網(wǎng)絡。該網(wǎng)絡如圖1中下半部分所示,它包括特征圖輸入、邊界框生成1、邊界框生成2、邊界框匯總等步驟,用于生成目標候選區(qū)域。
c.公共模塊。該模塊位于整個網(wǎng)絡結(jié)構(gòu)的右側(cè),它包括分類頭和bbox回歸兩個模塊,分別用于對目標進行分類和邊界框回歸。
d.分支結(jié)構(gòu)。該結(jié)構(gòu)為圖1中左側(cè)的一個分支結(jié)構(gòu),表示通過某些共享特征用于RPN網(wǎng)絡和Fast R-CNN網(wǎng)絡的兩個分支。
單階段檢測器如YOLO和SSD的網(wǎng)絡結(jié)構(gòu)與此類似,只是取消了RPN和RoIPooling層,直接在不同尺度的特征圖上進行密集采樣和多尺度預測。
313 訓練方法
CNN目標檢測器的訓練通常分為預訓練和微調(diào)兩個階段。預訓練是在大規(guī)模分類數(shù)據(jù)集(如ImageNet)上訓練骨干網(wǎng)絡的參數(shù),使其學習到通用的低層至高層視覺特征;微調(diào)是在特定任務的檢測數(shù)據(jù)集上訓練整個網(wǎng)絡的參數(shù),使其適應當前任務。訓練時需要設計分類和回歸兩個損失函數(shù),分別懲罰類別預測誤差和位置預測誤差,然后用SGD等優(yōu)化算法迭代更新網(wǎng)絡權(quán)重以最小化損失函數(shù)。
具體來說,兩階段檢測器的 4 步訓練流程如下:
a.預訓練骨干網(wǎng)絡。在大規(guī)模分類數(shù)據(jù)集(如ImageNet)上訓練骨干網(wǎng)絡(如VGG、ResNet等)的參數(shù),使其學習到通用的底層到高層視覺特征表示。
b.訓練Region Proposal Network (RPN)。在目標檢測數(shù)據(jù)集上,固定預訓練的骨干網(wǎng)絡參數(shù),僅訓練RPN網(wǎng)絡參數(shù)。RPN的損失函數(shù)包括二值類別損失(前景/背景)和邊界框回歸損失。
c.訓練檢測網(wǎng)絡。固定步驟2中訓練好的RPN和骨干網(wǎng)絡參數(shù),僅在目標檢測數(shù)據(jù)集上訓練檢測網(wǎng)絡的剩余部分。檢測網(wǎng)絡的損失函數(shù)包括多類別分類損失和邊界框回歸損失。
d.最后微調(diào)整個網(wǎng)絡。解凍所有參數(shù),在目標檢測數(shù)據(jù)集上對整個網(wǎng)絡進行聯(lián)合訓練,微調(diào)所有參數(shù)。整體損失函數(shù)是RPN損失和檢測網(wǎng)絡損失的加權(quán)和。
而單階段檢測器的訓練相對簡單,通常只需兩步:
a.分步預訓練。利用大規(guī)模數(shù)據(jù)集(如ImageNet)預訓練backbone網(wǎng)絡,獲得通用的特征提取能力,為后續(xù)在目標檢測數(shù)據(jù)集上的訓練提供有效的初始化,加速收斂。
b.端到端聯(lián)合優(yōu)化。將預訓練的backbone與隨機初始化的檢測頭結(jié)合,以端到端的方式在檢測數(shù)據(jù)集上聯(lián)合訓練整個網(wǎng)絡。檢測頭將backbone特征映射為最終的邊界框和類別預測,利用多任務損失函數(shù)同時約束分類和回歸任務,通過梯度下降算法不斷優(yōu)化網(wǎng)絡參數(shù)。
32 基于卷積神經(jīng)網(wǎng)絡的目標跟蹤算法
與目標檢測任務不同,目標跟蹤任務需要在視頻序列中持續(xù)定位感興趣的目標。傳統(tǒng)的相關(guān)濾波和判別式學習跟蹤器通過在線更新模型來適應目標外觀變化。近年來,多種基于CNN的跟蹤算法被提出,利用CNN強大的表示學習能力構(gòu)建更加魯棒的外觀模型。它們可以分為三類:基于分類器、基于孿生網(wǎng)絡和基于元學習。下面分別介紹它們的代表性工作。
321 基于分類器的跟蹤算法
MD Net是該類方法的代表,如圖2所示。它在多個視頻域上離線訓練一個分類CNN,每個域包含一個視頻序列,將同一目標的不同樣本看作一類。在在線跟蹤時,MD Net在第一幀使用標注的目標框分類CNN,然后在后續(xù)幀中以前一幀的預測框為中心采樣候選區(qū)域,用CNN對候選區(qū)域打分,選擇置信度最高的候選框作為新的目標位置,并繼續(xù)用新樣本在線更新CNN參數(shù)[3]。MD Net利用了CNN強大的特征學習能力,使用多域訓練策略增強模型泛化性,取得了CVPR2015VOT Challenge冠軍。
322 基于孿生網(wǎng)絡的跟蹤算法
這類算法通過構(gòu)建一對"孿生"網(wǎng)絡來實現(xiàn)目標跟蹤,其核心思想是將目標跟蹤問題轉(zhuǎn)化為一個相似性學習的問題。一個網(wǎng)絡被稱為主網(wǎng)絡(main network),它接受當前幀中的候選目標區(qū)域作為輸入,并輸出該區(qū)域的特征embedding;另一個網(wǎng)絡被稱為輔助網(wǎng)絡(auxiliary network),它接受當前幀中被標記為待跟蹤目標的區(qū)域作為輸入,輸出一個表示目標的特征embedding。通過計算主網(wǎng)絡和輔助網(wǎng)絡輸出的embedding之間的距離(如歐氏距離或內(nèi)積),來衡量候選區(qū)域與真實目標之間的相似性。距離越小,相似性就越高,該候選區(qū)域就更有可能是真實目標。
常見的基于孿生網(wǎng)絡的跟蹤算法包括Siam FC、Siam RPN等。它們在網(wǎng)絡結(jié)構(gòu)、損失函數(shù)、在線更新策略等方面有所不同,但都遵循孿生網(wǎng)絡的基本框架。Siam FC網(wǎng)絡結(jié)構(gòu)如圖3所示,Siam RPN網(wǎng)絡結(jié)構(gòu)如圖4所示。
Siam RPN在Siam FC基礎上引入?yún)^(qū)域候選網(wǎng)絡(RPN),將候選框提取過程集成到網(wǎng)絡中端到端訓練。它在模板和搜索區(qū)域特征圖上應用RPN預測前景/背景分類概率和邊界框回歸偏移量,最后通過啟發(fā)式跟蹤器策略修正粗檢測結(jié)果得到精確跟蹤框。這種做法使得候選框的生成和評價更加高效準確[4]。
基于孿生網(wǎng)絡的跟蹤器只需要第一幀標注的目標框進行模板初始化,此后就可以脫離在線更新,大大提高了跟蹤效率。同時它借鑒了目標檢測領(lǐng)域的思想,通過端到端離線訓練建立了目標外觀變化和空間位置的映射,在準確性上也有很大提升。
323 基于元學習的跟蹤算法
基于元學習的CNN跟蹤算法旨在學習“如何去學習”目標表觀信息,以便在測試時快速適應新的跟蹤目標。MAML將模型預訓練和元學習方法引入目標跟蹤。它將每個視頻序列看作一個跟蹤任務,先在大量視頻上訓練一個CNN跟蹤器作為共享的初始化網(wǎng)絡,然后在每個新的跟蹤視頻中只需少量梯度步就可快速適應新目標[5]。這種做法避免了從頭開始訓練模型的高昂開銷,大幅提升了跟蹤器的泛化能力。Meta-Tracker進一步考慮了跟蹤器在線更新過程,設計了一種基于時空注意力的元學習框架,自適應地調(diào)整更新策略。實驗表明,元學習是提高深度跟蹤器魯棒性的有效途徑。
4 實驗結(jié)果與分析
41 數(shù)據(jù)集與評價指標
為了全面評估所提算法在目標檢測和跟蹤任務上的性能表現(xiàn),在多個公開的基準數(shù)據(jù)集上進行了大量實驗。這些數(shù)據(jù)集囊括了豐富的場景類型、目標種類以及拍攝條件,能夠很好地檢驗算法的泛化能力和魯棒性。在目標檢測評測方面,使用了KITTI、BDD100K等知名數(shù)據(jù)集。評價指標包括精確率(Precision)、查全率(Recall)以及平均精度(AP)等,其中AP能綜合反映檢測器在不同置信度閾值下的整體性能表現(xiàn)。對于目標跟蹤任務,選取了OTB、VOT、UAV123等質(zhì)量上乘的數(shù)據(jù)集。主要評價指標為成功率(Success Rate)和精度(Precision)。成功率度量了預測目標框與真實框的交并比在某一閾值內(nèi)的有效跟蹤幀所占比例,能夠直觀反映跟蹤器的實際表現(xiàn)。通過這些全面的評測,對算法的優(yōu)劣進行了深入分析,為后續(xù)的改進工作奠定了基礎。
42 實驗結(jié)果
421 目標檢測實驗
表1給出了不同檢測算法在KITTI測試集car類別上的AP值??梢钥闯?,兩階段算法如Faster R-CNN和FPN的性能優(yōu)于單階段算法如SSD和YOLO,而本文算法在兩類方法中均取得了最好的結(jié)果,AP達到892%。
422 目標跟蹤實驗
表2給出了不同跟蹤算法在OTB-100數(shù)據(jù)集上的成功率和精度。與MD Net、Siam FC等經(jīng)典算法相比,本文算法在兩個指標上都取得了顯著提升,成功率和精度分別達到0712和0923。特別地,本文算法在快速運動、旋轉(zhuǎn)和遮擋等難例屬性上表現(xiàn)出眾。
43 與其他方法的比較
在目標檢測任務上,本文算法與傳統(tǒng)的基于手工特征的方法(如DPM、R-CNN)相比,展現(xiàn)出了明顯的精度提升。同時,與其他一些基于深度學習的檢測器(如Faster R-CNN、YOLO等)相比,本文方法在保持精度的同時,也顯著提高了檢測速度,能更好地滿足實時性需求。在目標跟蹤方面,本文提出的算法相比于傳統(tǒng)的相關(guān)濾波或meanshift等生成式方法,具備更強的魯棒性,能更好地應對目標形變、遮擋、視角變化等挑戰(zhàn)。
44 算法的局限性與改進思路
盡管本文算法在多個數(shù)據(jù)集上取得了不錯的性能,但也存在一些局限性:
a.算法對遮擋、形變等因素的魯棒性有待進一步提高;b.算法的實時性還不能完全滿足自動駕駛的需求;c.算法在小目標、嚴重模糊等極端情況下性能下降明顯。
未來可以從以下幾個方面改進:
a.改善極端情況下的性能,數(shù)據(jù)增廣,通過合成方式構(gòu)造小目標、模糊等困難樣本,增強模型泛化力。
b.利用模型剪枝、知識蒸餾等技術(shù)優(yōu)化網(wǎng)絡結(jié)構(gòu),在保證性能的同時提高推理速度。
c.針對惡劣天氣制定專門的數(shù)據(jù)增強策略,提高模型的泛化能力。
d.將目標檢測與跟蹤任務解耦,減小優(yōu)化難度,或用端到端的方式聯(lián)合求解,挖掘任務之間的協(xié)同效應。
5 結(jié)語
本文聚焦自動駕駛中的核心感知技術(shù)——目標檢測與跟蹤,提出了基于深度學習的改進方法。在目標檢測方面,設計了注意力機制和多尺度特征融合的檢測器,實驗結(jié)果驗證了所提出算法的有效性和優(yōu)越性。
未來,自動駕駛感知技術(shù)的研究可以繼續(xù)向以下方向拓展:端到端多目標跟蹤、模型壓縮、極端場景適應、多模態(tài)感知、系統(tǒng)集成優(yōu)化等。要讓自動駕駛技術(shù)走向成熟,還需要多學科協(xié)同創(chuàng)新,攻克一系列技術(shù)難題。
參考文獻:
[1]劉志霞,王煒,仇煥龍基于相機與激光雷達融合多目標檢測算法研究[J]中國汽車,2024(4):36-42
[2]劉云翔,馬海力,朱建林,等基于感受野注意力卷積的自動駕駛多任務感知算法[J/OL]計算機工程與應用,1-11[2024-04-18]
[3]張濟遠,鄭雅菁,余肇飛,等面向自動駕駛場景的脈沖視覺研究[J]中國工程科學,2024,26(1):160-177
[4]程學曉新能源汽車自動駕駛高精度視覺檢測技術(shù)的研究及應用[J]時代汽車,2024(5):104-106
[5]黃馳涵,趙高鵬基于改進EfficientFormer的自動駕駛目標檢測算法[J]人工智能,2023(6):59-66
作者簡介:
賀宏博,男,1997年生,助教,研究方向為車輛維修、任務規(guī)劃。