【摘要】目標(biāo)檢測(cè)技術(shù)在現(xiàn)代社會(huì)中起著至關(guān)重要的作用,但單一傳感器方法通常難以應(yīng)對(duì)復(fù)雜多變的環(huán)境。為了提高系統(tǒng)的檢測(cè)精度和魯棒性,該文提出一種基于雷達(dá)和視頻融合的目標(biāo)檢測(cè)方法,該方法通過(guò)設(shè)計(jì)多模態(tài)特征提取網(wǎng)絡(luò),實(shí)現(xiàn)了雷達(dá)點(diǎn)云數(shù)據(jù)和視頻圖像的深度特征提取,利用跨模態(tài)注意力機(jī)制對(duì)兩個(gè)異構(gòu)數(shù)據(jù)的互補(bǔ)信息進(jìn)行有效整合,融合決策模塊輸出檢測(cè)結(jié)果,實(shí)驗(yàn)表明該方法在不同環(huán)境和場(chǎng)景下均具有優(yōu)異的檢測(cè)性能,為多傳感器融合目標(biāo)檢測(cè)領(lǐng)域提供了新的研究思路。
【關(guān)鍵詞】目標(biāo)檢測(cè)|雷達(dá)|視頻|數(shù)據(jù)融合|多模態(tài)|深度學(xué)習(xí)
作為計(jì)算機(jī)視覺(jué)的核心任務(wù)之一,目標(biāo)檢測(cè)在智能監(jiān)控、自動(dòng)駕駛、機(jī)器人等領(lǐng)域得到了廣泛的應(yīng)用,然而傳統(tǒng)的基于單一傳感器的檢測(cè)方法往往難以應(yīng)對(duì)復(fù)雜多變的實(shí)際環(huán)境。例如光學(xué)相機(jī)容易受到光線和天氣的影響,而雷達(dá)具有全天候工作的能力,但空間分辨率較低,因此融合多個(gè)異構(gòu)傳感器數(shù)據(jù)以提高目標(biāo)檢測(cè)的準(zhǔn)確性和魯棒性成為當(dāng)前的研究熱點(diǎn),該文提出一種將雷達(dá)和視頻數(shù)據(jù)相結(jié)合的融合目標(biāo)檢測(cè)方法,旨在通過(guò)深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)兩種模態(tài)數(shù)據(jù)的有效融合,克服單一傳感器的局限性。
一、相關(guān)工作
(一)基于深度學(xué)習(xí)的視覺(jué)目標(biāo)檢測(cè)
近年來(lái)深度學(xué)習(xí)技術(shù)在視覺(jué)目標(biāo)檢測(cè)領(lǐng)域取得了令人矚目的進(jìn)展,卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為深度學(xué)習(xí)的核心架構(gòu),已成為視覺(jué)目標(biāo)檢測(cè)的主流方法,典型的CNN目標(biāo)檢測(cè)模型包括R-CNN系列、YOLO系列、SSD系列等。這些模型通過(guò)多層卷積和池化操作提取圖像的多尺度特征,然后使用全連接層或卷積層進(jìn)行目標(biāo)分類和邊界盒回歸,為了提高檢測(cè)性能,研究人員提出了多種改進(jìn)策略,如特征金字塔網(wǎng)絡(luò)(FPN)、注意力機(jī)制和多尺度訓(xùn)練等,以應(yīng)對(duì)實(shí)際場(chǎng)景中復(fù)雜的背景和遮擋問(wèn)題,一些新的網(wǎng)絡(luò)結(jié)構(gòu)如互感器、圖神經(jīng)網(wǎng)絡(luò)等也被引入到視覺(jué)目標(biāo)檢測(cè)任務(wù)中,進(jìn)一步提高了檢測(cè)的準(zhǔn)確性和魯棒性[1]。
(二)毫米波雷達(dá)在目標(biāo)感知中的應(yīng)用
毫米波雷達(dá)憑借其全天候工作能力和精確測(cè)距的優(yōu)勢(shì),在目標(biāo)感知領(lǐng)域得到了廣泛的應(yīng)用,與傳統(tǒng)雷達(dá)相比,毫米波雷達(dá)具有更高的帶寬和分辨率,可以提供更詳細(xì)的目標(biāo)信息,在目標(biāo)檢測(cè)方面毫米波雷達(dá)可以通過(guò)處理多普勒頻移來(lái)定位和識(shí)別目標(biāo),反射信號(hào)的到達(dá)時(shí)間和到達(dá)角度。常用的信號(hào)處理方法包括常數(shù)虛警率檢測(cè)(CFAR)、定向角度估計(jì)(DOA)和聚類算法等,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于點(diǎn)云數(shù)據(jù)的三維目標(biāo)檢測(cè)算法如PointNet、VoxelNet等,也被應(yīng)用于毫米波雷達(dá)數(shù)據(jù)處理,進(jìn)一步提高了檢測(cè)精度,然而毫米波雷達(dá)在目標(biāo)識(shí)別和分類方面仍存在一定的局限性,這是當(dāng)前研究的重點(diǎn)方向之一。
二、系統(tǒng)架構(gòu)與數(shù)據(jù)預(yù)處理
(一)多傳感器數(shù)據(jù)采集平臺(tái)設(shè)計(jì)
多傳感器數(shù)據(jù)采集平臺(tái)的設(shè)計(jì)是實(shí)現(xiàn)雷達(dá)和視頻融合目標(biāo)檢測(cè)的基礎(chǔ),該平臺(tái)主要由毫米波雷達(dá)、高清攝像頭、數(shù)據(jù)同步模塊和中央處理器組成。毫米波雷達(dá)采用77GHz頻段,具有較高的距離分辨率和角度分辨率,可以提供準(zhǔn)確的目標(biāo)距離、速度和方向信息;高清攝像頭采用1920x1080分辨率和30fps幀率,確保視頻圖像清晰;數(shù)據(jù)同步模塊采用高精度GPS/IMU組合導(dǎo)航系統(tǒng),實(shí)現(xiàn)雷達(dá)和視頻數(shù)據(jù)的時(shí)間同步和空間配準(zhǔn);中央處理器采用高性能嵌入式計(jì)算平臺(tái),例如NVIDIAJetsonAGXXavier具有足夠的計(jì)算能力來(lái)處理多模態(tài)數(shù)據(jù)。
為了保證數(shù)據(jù)采集的穩(wěn)定性和準(zhǔn)確性,傳感器安裝位置經(jīng)過(guò)精心設(shè)計(jì),毫米波雷達(dá)安裝在平臺(tái)前部中央,保證360度無(wú)遮擋的探測(cè)范圍,高清攝像頭直接安裝在雷達(dá)上方,視場(chǎng)與雷達(dá)探測(cè)范圍重疊,方便后續(xù)的數(shù)據(jù)融合。GPS天線安裝在平臺(tái)頂部以獲得最佳的衛(wèi)星信號(hào),所有傳感器都通過(guò)高速以太網(wǎng)連接到中央處理器以確保實(shí)時(shí)數(shù)據(jù)傳輸,平臺(tái)還配備了大容量固態(tài)硬盤(pán),用于存儲(chǔ)原始數(shù)據(jù),方便離線分析和算法優(yōu)化,整個(gè)系統(tǒng)采用模塊化設(shè)計(jì),便于維護(hù)和升級(jí),考慮到防水、防塵、抗震等環(huán)境適應(yīng)性要求,確保在各種復(fù)雜環(huán)境下穩(wěn)定工作[2]。
(二)雷達(dá)點(diǎn)云和視頻圖像預(yù)處理流程
雷達(dá)點(diǎn)云和視頻圖像的預(yù)處理是融合檢測(cè)的關(guān)鍵步驟,旨在提高數(shù)據(jù)質(zhì)量,降低后續(xù)處理的計(jì)算復(fù)雜度,對(duì)于雷達(dá)點(diǎn)云數(shù)據(jù),預(yù)處理過(guò)程主要包括雜波濾波、數(shù)據(jù)下采樣和坐標(biāo)系統(tǒng)轉(zhuǎn)換。噪聲濾波采用改進(jìn)的CFAR算法,根據(jù)環(huán)境動(dòng)態(tài)調(diào)整檢測(cè)閾值,有效消除地面反射和靜態(tài)目標(biāo)的干擾,采用體素濾波方法進(jìn)行數(shù)據(jù)下采樣,將原始點(diǎn)云分割成大小相等的體素并用每個(gè)體素的中心點(diǎn)替換體素中的所有點(diǎn),大大減少了數(shù)據(jù)量,坐標(biāo)系轉(zhuǎn)換將雷達(dá)坐標(biāo)系下的點(diǎn)云數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的世界坐標(biāo)系,為后續(xù)與視頻數(shù)據(jù)的融合奠定了基礎(chǔ)。
視頻圖像預(yù)處理主要包括畸變校正、光線均衡和圖像增強(qiáng),畸變校正采用張正友棋盤(pán)法對(duì)相機(jī)進(jìn)行校準(zhǔn),消除鏡頭引起的徑向和切向畸變,光均衡采用自適應(yīng)直方圖均衡技術(shù),提高不同光照條件下圖像的對(duì)比度,改善圖像細(xì)節(jié),同時(shí)抑制噪點(diǎn)。為了提高處理效率,對(duì)原始圖像進(jìn)行縮放,分辨率降低到640x480,同時(shí)保持原始縱橫比,預(yù)處理圖像的色彩空間轉(zhuǎn)換是從RGB到Y(jié)UV格式進(jìn)行的,方便后續(xù)的特征提取,整個(gè)預(yù)處理過(guò)程在GPU上并行實(shí)現(xiàn)以確保實(shí)時(shí)性能,這些預(yù)處理步驟顯著提高了雷達(dá)點(diǎn)云和視頻圖像的質(zhì)量,為后續(xù)的多模態(tài)特征提取和融合奠定了堅(jiān)實(shí)的基礎(chǔ)。
三、多模態(tài)特征提取網(wǎng)絡(luò)
(一)三維卷積神經(jīng)網(wǎng)絡(luò)用于雷達(dá)特征提取
針對(duì)雷達(dá)點(diǎn)云數(shù)據(jù)的特征提取,設(shè)計(jì)了一種基于三維卷積神經(jīng)網(wǎng)絡(luò)的特征提取方法,網(wǎng)絡(luò)結(jié)構(gòu)由多層3D卷積層、3D池化層和批量歸一化層組成。能夠有效處理雷達(dá)點(diǎn)云的時(shí)空信息,網(wǎng)絡(luò)輸入為預(yù)處理后的雷達(dá)點(diǎn)云數(shù)據(jù),其大小為128x128x64x4,其中128x128表示空間分辨率,64表示時(shí)間幀數(shù),4表示每個(gè)點(diǎn)的特征維度(x、y、z坐標(biāo)和反射強(qiáng)度)。網(wǎng)絡(luò)的第一層使用32個(gè)3x3x3的3D卷積核,步長(zhǎng)為1,填充大小為1,其次是ReLU激活函數(shù)和3D最大池化層(池化核大小為2x2x2,步長(zhǎng)為2),后續(xù)層逐漸增加卷積核的數(shù)量,分別增加到64、128和256個(gè),同時(shí)降低了特征圖的時(shí)空分辨率,在網(wǎng)絡(luò)的最后一層使用1x1x1卷積核輸出256個(gè)通道的特征圖[3]。
為了捕獲不同尺度的目標(biāo)信息,在網(wǎng)絡(luò)中引入了膨脹卷積技術(shù),通過(guò)設(shè)置不同的膨脹率受體場(chǎng)得到擴(kuò)大,而參數(shù)的數(shù)量保持不變,具體來(lái)說(shuō),在中間層使用膨脹率為2和4的 3D腔體卷積有效提取大規(guī)模目標(biāo)的特征。為了增強(qiáng)網(wǎng)絡(luò)對(duì)目標(biāo)運(yùn)動(dòng)信息的感知,在特征提取過(guò)程中增加了時(shí)間序列注意力模塊,該模塊通過(guò)計(jì)算相鄰時(shí)間幀之間的相關(guān)性,自適應(yīng)調(diào)整每一幀的特征權(quán)重并突出運(yùn)動(dòng)目標(biāo)的特征表示,為了提高網(wǎng)絡(luò)的訓(xùn)練效率和泛化能力,該文采用殘差連接和特征金字塔結(jié)構(gòu),緩解了深度網(wǎng)絡(luò)的梯度消失問(wèn)題,同時(shí)特征金字塔結(jié)構(gòu)整合了不同層次的特征,提供了多尺度的特征表示,通過(guò)這些技術(shù)的綜合應(yīng)用,三維卷積神經(jīng)網(wǎng)絡(luò)可以從雷達(dá)點(diǎn)云數(shù)據(jù)中提取豐富而緊湊的特征表示,為后續(xù)的多模態(tài)融合奠定基礎(chǔ)。
(二)改進(jìn)型ResNet結(jié)構(gòu)實(shí)現(xiàn)視頻特征提取
針對(duì)視頻數(shù)據(jù)的特征提取問(wèn)題,本文提出一種基于改進(jìn)ResNet結(jié)構(gòu)的特征提取網(wǎng)絡(luò)。該網(wǎng)絡(luò)基于ResNet-50,為適應(yīng)視頻數(shù)據(jù)的時(shí)空特性,進(jìn)行了一系列改進(jìn),網(wǎng)絡(luò)輸入是16個(gè)連續(xù)幀的224x224分辨率RGB圖像,在網(wǎng)絡(luò)前端,采用(2+1)D卷積結(jié)構(gòu)代替?zhèn)鹘y(tǒng)的2D卷積,即將3D卷積分解為一系列的空間卷積和時(shí)間卷積,這種設(shè)計(jì)不僅減少了參數(shù)的數(shù)量而且提高了時(shí)間信息的建模能力。
為了增強(qiáng)網(wǎng)絡(luò)捕捉長(zhǎng)時(shí)間依賴關(guān)系的能力,在ResNet的每一階段后都增加了一個(gè)Non-local模塊,該模塊可以通過(guò)計(jì)算特征圖中所有位置的相關(guān)性來(lái)有效地建模長(zhǎng)距離依賴關(guān)系,特別適用于處理視頻中的運(yùn)動(dòng)信息,為了適應(yīng)不同尺度的目標(biāo),在網(wǎng)絡(luò)中引入了多尺度特征融合機(jī)制,具體方法是將SpatialPyramidPooling(SPP)應(yīng)用于不同階段的輸出特征圖,然后對(duì)不同尺度的特征進(jìn)行串聯(lián)和1x1卷積融合,這種設(shè)計(jì)使網(wǎng)絡(luò)能夠同時(shí)關(guān)注本地細(xì)節(jié)和全局語(yǔ)義信息。
考慮到實(shí)時(shí)性需求,對(duì)原有的ResNet結(jié)構(gòu)進(jìn)行了輕量化。主要策略包括:(1)在部分卷積層使用群卷積來(lái)減少參數(shù)數(shù)量,同時(shí)保持特征多樣性;(2)采用頻道洗牌操作,加強(qiáng)不同群體之間的信息交流;(3)引入深度可分離卷積,進(jìn)一步降低計(jì)算復(fù)雜度,通過(guò)這些改進(jìn)的網(wǎng)絡(luò)參數(shù)的數(shù)量和計(jì)算量顯著減少,同時(shí)保持了較高的特征提取能力,該網(wǎng)絡(luò)輸出2048維特征向量作為視頻數(shù)據(jù)的緊湊表示,這種改進(jìn)的ResNet結(jié)構(gòu)不僅能有效提取視頻的時(shí)空特征,而且具有良好的計(jì)算效率,為實(shí)時(shí)多模態(tài)融合目標(biāo)檢測(cè)系統(tǒng)提供了可靠的視覺(jué)特征。
四、跨模態(tài)注意力融合機(jī)制
(一)空間-時(shí)間注意力模塊設(shè)計(jì)
時(shí)空注意力模塊的設(shè)計(jì)旨在有效融合雷達(dá)和視頻特性并充分利用兩者模式的互補(bǔ)性,該模塊由空間注意力子模塊和時(shí)間注意力子模塊組成,通過(guò)自適應(yīng)學(xué)習(xí)的方式調(diào)整特征的重要性,計(jì)算雷達(dá)和視頻特征圖中每個(gè)位置與所有其他位置的相關(guān)性。在具體實(shí)現(xiàn)中,將雷達(dá)特征圖R∈R^(C×H×W)和視頻特征圖V∈R^(C×H×W)通過(guò)1×1卷積層映射到查詢(Q)、鍵(K)和值(V)空間,然后計(jì)算Q和K的點(diǎn)積,經(jīng)softmax歸一化后乘以V,得到注意力加權(quán)特征,這種操作使模型能夠?qū)W⒂诳缒J降目臻g相關(guān)性,有效地融合不同傳感器捕獲的空間信息,時(shí)間注意力子模塊側(cè)重于捕捉序列數(shù)據(jù)中的時(shí)間依賴性,利用自注意力機(jī)制對(duì)輸入的T幀特征序列進(jìn)行建模[4]。
(二)特征級(jí)聯(lián)與自適應(yīng)權(quán)重分配策略
特征級(jí)聯(lián)和自適應(yīng)權(quán)重分配策略是實(shí)現(xiàn)雷達(dá)和視頻特征融合有效的關(guān)鍵,該策略采用多層次特征融合模式,充分利用不同層次特征的互補(bǔ)性,融合網(wǎng)絡(luò)淺層、中間層和深層的特征以捕獲不同尺度和抽象層次的信息。為了更好地平衡雷達(dá)和視頻特征的貢獻(xiàn),該文引入一種自適應(yīng)權(quán)重分配機(jī)制,該機(jī)制通過(guò)可學(xué)習(xí)參數(shù)α動(dòng)態(tài)調(diào)整兩個(gè)模態(tài)特征的權(quán)重。融合特征F可以表示為:F=αf_radar+(1-α)F_video,其中α∈[0,1],α的值由小型神經(jīng)網(wǎng)絡(luò)根據(jù)輸入特征(如均值和方差)的統(tǒng)計(jì)量動(dòng)態(tài)生成,使模型可以根據(jù)不同的場(chǎng)景自適應(yīng)地調(diào)整融合策略,例如當(dāng)照明條件較差時(shí),它可能更多地依賴于雷達(dá)特性;當(dāng)目標(biāo)清晰可見(jiàn)時(shí),可以更多地利用視頻功能。為了增強(qiáng)模型對(duì)不同模態(tài)特征相關(guān)性的理解,引入跨模態(tài)注意力機(jī)制,計(jì)算雷達(dá)特征與視頻特征之間的相似性矩陣,然后基于該相似性矩陣對(duì)特征進(jìn)行加權(quán),這種設(shè)計(jì)使模型在融合過(guò)程中能夠關(guān)注交叉模式的相關(guān)信息,提高了特征融合的有效性,為了保證融合特征的表現(xiàn)力,采用了特征重新校準(zhǔn)技術(shù)。
五、融合決策與性能評(píng)估
(一)多尺度檢測(cè)頭和非極大值抑制
多尺度檢測(cè)頭設(shè)計(jì)用于高效處理不同尺寸和形狀的物體,探測(cè)頭由三個(gè)平行分支組成,分別對(duì)應(yīng)于小、中、大尺度目標(biāo),每個(gè)分支包含多個(gè)卷積層和上層采樣層以生成不同分辨率的特征圖。
為了融合不同尺度的預(yù)測(cè)結(jié)果,本文采用特征金字塔網(wǎng)絡(luò)(FPN)結(jié)構(gòu),F(xiàn)PN通過(guò)自上而下的路徑和水平連接,將高級(jí)語(yǔ)義信息與低級(jí)細(xì)粒度特征相結(jié)合,生成多尺度融合特征圖,這種設(shè)計(jì)使探測(cè)頭能夠在不同尺度上共享特征并提高了小目標(biāo)的探測(cè)性能,非極大值抑制(NMS)算法用于在生成最終檢測(cè)結(jié)果時(shí)消除重復(fù)檢測(cè)。NMS首先根據(jù)置信度對(duì)所有檢測(cè)框進(jìn)行排序,然后逐個(gè)處理每個(gè)檢測(cè)框并計(jì)算其與其他檢測(cè)框的交集比(IoU),如果IoU超過(guò)預(yù)設(shè)閾值(如0.5),則抑制重疊較大的低置信度檢測(cè)框,為了進(jìn)一步提高NMS的效果,引入了軟NMS技術(shù),置信度不是直接刪除重疊檢測(cè)框,而是根據(jù)IoU值動(dòng)態(tài)調(diào)整置信度,在處理密集目標(biāo)場(chǎng)景時(shí)效果更好[5]。
(二)實(shí)驗(yàn)設(shè)置與結(jié)果分析
實(shí)驗(yàn)采用自建的多模態(tài)目標(biāo)檢測(cè)數(shù)據(jù)集,包含同步采集的5000幀雷達(dá)點(diǎn)云和視頻圖像數(shù)據(jù),數(shù)據(jù)集涵蓋了不同的天氣條件(晴天、雨天、霧天)和不同的時(shí)間段(白天、黃昏、夜晚),保證了實(shí)驗(yàn)結(jié)果的代表性和魯棒性,目標(biāo)類別包括行人、汽車(chē)、自行車(chē)和摩托車(chē)。該實(shí)驗(yàn)平臺(tái)是使用NVIDIARTX3090GPU和PyTorch深度學(xué)習(xí)框架實(shí)現(xiàn)的,在訓(xùn)練過(guò)程中使用了Adam優(yōu)化器并將初始學(xué)習(xí)率設(shè)置為0.001,并采用退火策略來(lái)調(diào)整學(xué)習(xí)率,batchsize設(shè)置為16,訓(xùn)練輪總數(shù)為100,實(shí)驗(yàn)結(jié)果表明,所提出的融合方法在檢測(cè)各種目標(biāo)方面均優(yōu)于單模方法。
六、結(jié)語(yǔ)
基于雷達(dá)與視頻融合的目標(biāo)檢測(cè)方法,通過(guò)多模式特征提取、跨模注意力融合和融合決策模塊,實(shí)現(xiàn)雷達(dá)與視頻數(shù)據(jù)的有效融合,實(shí)驗(yàn)結(jié)果表明,該方法在復(fù)雜環(huán)境下表現(xiàn)出優(yōu)異的檢測(cè)性能和魯棒性,為多傳感器融合目標(biāo)檢測(cè)提供了新的研究思路,未來(lái)的工作將集中在優(yōu)化算法效率上,探索更多的傳感器融合策略以滿足實(shí)際應(yīng)用的需求,推動(dòng)智能感知技術(shù)的進(jìn)一步發(fā)展。中國(guó)軍轉(zhuǎn)民
參考文獻(xiàn)
[1]蔣文娟,劉經(jīng)天,邵開(kāi)麗.激光雷達(dá)融合機(jī)器視覺(jué)的物流分揀多目標(biāo)視頻跟蹤[J].激光雜志,2024,45(06):221-226.
[2]朱勇,黃永明,何幸.基于雷達(dá)和視頻融合的目標(biāo)檢測(cè)[J].電子科技,2024,37(08):1-7.
[3]孫景榮,劉思奇,張華,等.一種基于模糊理論的雷達(dá)與視頻融合交通目標(biāo)跟蹤方法[J].電訊技術(shù),2023,63(10):1567-1573.
[4]段濤偉,陳平.雷達(dá)與視頻融合的復(fù)雜環(huán)境目標(biāo)檢測(cè)方法[J].單片機(jī)與嵌入式系統(tǒng)應(yīng)用,2023,23(02):61-65.
[5]時(shí)亞麗,唐亮.融合雷達(dá)和視頻的目標(biāo)檢測(cè)系統(tǒng)[J].電子技術(shù)與軟件工程,2020(05):76-77.
(作者單位:王金全、楊波,中國(guó)人民解放軍66242部隊(duì);田長(zhǎng)超,和普威視光電股份有限公司)