基于雷達(dá)和視頻融合的目標(biāo)檢測(cè)

2024-12-31 00:00:00王金全田長(zhǎng)超楊波

中國(guó)軍轉(zhuǎn)民·下半月 2024年9期

【摘要】目標(biāo)檢測(cè)技術(shù)在現(xiàn)代社會(huì)中起著至關(guān)重要的作用，但單一傳感器方法通常難以應(yīng)對(duì)復(fù)雜多變的環(huán)境。為了提高系統(tǒng)的檢測(cè)精度和魯棒性，該文提出一種基于雷達(dá)和視頻融合的目標(biāo)檢測(cè)方法，該方法通過(guò)設(shè)計(jì)多模態(tài)特征提取網(wǎng)絡(luò)，實(shí)現(xiàn)了雷達(dá)點(diǎn)云數(shù)據(jù)和視頻圖像的深度特征提取，利用跨模態(tài)注意力機(jī)制對(duì)兩個(gè)異構(gòu)數(shù)據(jù)的互補(bǔ)信息進(jìn)行有效整合，融合決策模塊輸出檢測(cè)結(jié)果，實(shí)驗(yàn)表明該方法在不同環(huán)境和場(chǎng)景下均具有優(yōu)異的檢測(cè)性能，為多傳感器融合目標(biāo)檢測(cè)領(lǐng)域提供了新的研究思路。

作為計(jì)算機(jī)視覺(jué)的核心任務(wù)之一，目標(biāo)檢測(cè)在智能監(jiān)控、自動(dòng)駕駛、機(jī)器人等領(lǐng)域得到了廣泛的應(yīng)用，然而傳統(tǒng)的基于單一傳感器的檢測(cè)方法往往難以應(yīng)對(duì)復(fù)雜多變的實(shí)際環(huán)境。例如光學(xué)相機(jī)容易受到光線和天氣的影響，而雷達(dá)具有全天候工作的能力，但空間分辨率較低，因此融合多個(gè)異構(gòu)傳感器數(shù)據(jù)以提高目標(biāo)檢測(cè)的準(zhǔn)確性和魯棒性成為當(dāng)前的研究熱點(diǎn)，該文提出一種將雷達(dá)和視頻數(shù)據(jù)相結(jié)合的融合目標(biāo)檢測(cè)方法，旨在通過(guò)深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)兩種模態(tài)數(shù)據(jù)的有效融合，克服單一傳感器的局限性。

一、相關(guān)工作

（一）基于深度學(xué)習(xí)的視覺(jué)目標(biāo)檢測(cè)

近年來(lái)深度學(xué)習(xí)技術(shù)在視覺(jué)目標(biāo)檢測(cè)領(lǐng)域取得了令人矚目的進(jìn)展，卷積神經(jīng)網(wǎng)絡(luò)（CNN）作為深度學(xué)習(xí)的核心架構(gòu)，已成為視覺(jué)目標(biāo)檢測(cè)的主流方法，典型的CNN目標(biāo)檢測(cè)模型包括R-CNN系列、YOLO系列、SSD系列等。這些模型通過(guò)多層卷積和池化操作提取圖像的多尺度特征，然后使用全連接層或卷積層進(jìn)行目標(biāo)分類和邊界盒回歸，為了提高檢測(cè)性能，研究人員提出了多種改進(jìn)策略，如特征金字塔網(wǎng)絡(luò)（FPN）、注意力機(jī)制和多尺度訓(xùn)練等，以應(yīng)對(duì)實(shí)際場(chǎng)景中復(fù)雜的背景和遮擋問(wèn)題，一些新的網(wǎng)絡(luò)結(jié)構(gòu)如互感器、圖神經(jīng)網(wǎng)絡(luò)等也被引入到視覺(jué)目標(biāo)檢測(cè)任務(wù)中，進(jìn)一步提高了檢測(cè)的準(zhǔn)確性和魯棒性[1]。

（二）毫米波雷達(dá)在目標(biāo)感知中的應(yīng)用

毫米波雷達(dá)憑借其全天候工作能力和精確測(cè)距的優(yōu)勢(shì)，在目標(biāo)感知領(lǐng)域得到了廣泛的應(yīng)用，與傳統(tǒng)雷達(dá)相比，毫米波雷達(dá)具有更高的帶寬和分辨率，可以提供更詳細(xì)的目標(biāo)信息，在目標(biāo)檢測(cè)方面毫米波雷達(dá)可以通過(guò)處理多普勒頻移來(lái)定位和識(shí)別目標(biāo)，反射信號(hào)的到達(dá)時(shí)間和到達(dá)角度。常用的信號(hào)處理方法包括常數(shù)虛警率檢測(cè)（CFAR）、定向角度估計(jì)（DOA）和聚類算法等，隨著深度學(xué)習(xí)技術(shù)的發(fā)展，基于點(diǎn)云數(shù)據(jù)的三維目標(biāo)檢測(cè)算法如PointNet、VoxelNet等，也被應(yīng)用于毫米波雷達(dá)數(shù)據(jù)處理，進(jìn)一步提高了檢測(cè)精度，然而毫米波雷達(dá)在目標(biāo)識(shí)別和分類方面仍存在一定的局限性，這是當(dāng)前研究的重點(diǎn)方向之一。

二、系統(tǒng)架構(gòu)與數(shù)據(jù)預(yù)處理

（一）多傳感器數(shù)據(jù)采集平臺(tái)設(shè)計(jì)

多傳感器數(shù)據(jù)采集平臺(tái)的設(shè)計(jì)是實(shí)現(xiàn)雷達(dá)和視頻融合目標(biāo)檢測(cè)的基礎(chǔ)，該平臺(tái)主要由毫米波雷達(dá)、高清攝像頭、數(shù)據(jù)同步模塊和中央處理器組成。毫米波雷達(dá)采用77GHz頻段，具有較高的距離分辨率和角度分辨率，可以提供準(zhǔn)確的目標(biāo)距離、速度和方向信息；高清攝像頭采用1920x1080分辨率和30fps幀率，確保視頻圖像清晰；數(shù)據(jù)同步模塊采用高精度GPS/IMU組合導(dǎo)航系統(tǒng)，實(shí)現(xiàn)雷達(dá)和視頻數(shù)據(jù)的時(shí)間同步和空間配準(zhǔn)；中央處理器采用高性能嵌入式計(jì)算平臺(tái)，例如NVIDIAJetsonAGXXavier具有足夠的計(jì)算能力來(lái)處理多模態(tài)數(shù)據(jù)。

為了保證數(shù)據(jù)采集的穩(wěn)定性和準(zhǔn)確性，傳感器安裝位置經(jīng)過(guò)精心設(shè)計(jì)，毫米波雷達(dá)安裝在平臺(tái)前部中央，保證360度無(wú)遮擋的探測(cè)范圍，高清攝像頭直接安裝在雷達(dá)上方，視場(chǎng)與雷達(dá)探測(cè)范圍重疊，方便后續(xù)的數(shù)據(jù)融合。GPS天線安裝在平臺(tái)頂部以獲得最佳的衛(wèi)星信號(hào)，所有傳感器都通過(guò)高速以太網(wǎng)連接到中央處理器以確保實(shí)時(shí)數(shù)據(jù)傳輸，平臺(tái)還配備了大容量固態(tài)硬盤(pán)，用于存儲(chǔ)原始數(shù)據(jù)，方便離線分析和算法優(yōu)化，整個(gè)系統(tǒng)采用模塊化設(shè)計(jì)，便于維護(hù)和升級(jí)，考慮到防水、防塵、抗震等環(huán)境適應(yīng)性要求，確保在各種復(fù)雜環(huán)境下穩(wěn)定工作[2]。

（二）雷達(dá)點(diǎn)云和視頻圖像預(yù)處理流程

雷達(dá)點(diǎn)云和視頻圖像的預(yù)處理是融合檢測(cè)的關(guān)鍵步驟，旨在提高數(shù)據(jù)質(zhì)量，降低后續(xù)處理的計(jì)算復(fù)雜度，對(duì)于雷達(dá)點(diǎn)云數(shù)據(jù)，預(yù)處理過(guò)程主要包括雜波濾波、數(shù)據(jù)下采樣和坐標(biāo)系統(tǒng)轉(zhuǎn)換。噪聲濾波采用改進(jìn)的CFAR算法，根據(jù)環(huán)境動(dòng)態(tài)調(diào)整檢測(cè)閾值，有效消除地面反射和靜態(tài)目標(biāo)的干擾，采用體素濾波方法進(jìn)行數(shù)據(jù)下采樣，將原始點(diǎn)云分割成大小相等的體素并用每個(gè)體素的中心點(diǎn)替換體素中的所有點(diǎn)，大大減少了數(shù)據(jù)量，坐標(biāo)系轉(zhuǎn)換將雷達(dá)坐標(biāo)系下的點(diǎn)云數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的世界坐標(biāo)系，為后續(xù)與視頻數(shù)據(jù)的融合奠定了基礎(chǔ)。

視頻圖像預(yù)處理主要包括畸變校正、光線均衡和圖像增強(qiáng)，畸變校正采用張正友棋盤(pán)法對(duì)相機(jī)進(jìn)行校準(zhǔn)，消除鏡頭引起的徑向和切向畸變，光均衡采用自適應(yīng)直方圖均衡技術(shù)，提高不同光照條件下圖像的對(duì)比度，改善圖像細(xì)節(jié)，同時(shí)抑制噪點(diǎn)。為了提高處理效率，對(duì)原始圖像進(jìn)行縮放，分辨率降低到640x480，同時(shí)保持原始縱橫比，預(yù)處理圖像的色彩空間轉(zhuǎn)換是從RGB到Y(jié)UV格式進(jìn)行的，方便后續(xù)的特征提取，整個(gè)預(yù)處理過(guò)程在GPU上并行實(shí)現(xiàn)以確保實(shí)時(shí)性能，這些預(yù)處理步驟顯著提高了雷達(dá)點(diǎn)云和視頻圖像的質(zhì)量，為后續(xù)的多模態(tài)特征提取和融合奠定了堅(jiān)實(shí)的基礎(chǔ)。

三、多模態(tài)特征提取網(wǎng)絡(luò)

（一）三維卷積神經(jīng)網(wǎng)絡(luò)用于雷達(dá)特征提取

針對(duì)雷達(dá)點(diǎn)云數(shù)據(jù)的特征提取，設(shè)計(jì)了一種基于三維卷積神經(jīng)網(wǎng)絡(luò)的特征提取方法，網(wǎng)絡(luò)結(jié)構(gòu)由多層3D卷積層、3D池化層和批量歸一化層組成。能夠有效處理雷達(dá)點(diǎn)云的時(shí)空信息，網(wǎng)絡(luò)輸入為預(yù)處理后的雷達(dá)點(diǎn)云數(shù)據(jù)，其大小為128x128x64x4，其中128x128表示空間分辨率，64表示時(shí)間幀數(shù)，4表示每個(gè)點(diǎn)的特征維度（x、y、z坐標(biāo)和反射強(qiáng)度）。網(wǎng)絡(luò)的第一層使用32個(gè)3x3x3的3D卷積核，步長(zhǎng)為1，填充大小為1，其次是ReLU激活函數(shù)和3D最大池化層（池化核大小為2x2x2，步長(zhǎng)為2），后續(xù)層逐漸增加卷積核的數(shù)量，分別增加到64、128和256個(gè)，同時(shí)降低了特征圖的時(shí)空分辨率，在網(wǎng)絡(luò)的最后一層使用1x1x1卷積核輸出256個(gè)通道的特征圖[3]。

為了捕獲不同尺度的目標(biāo)信息，在網(wǎng)絡(luò)中引入了膨脹卷積技術(shù)，通過(guò)設(shè)置不同的膨脹率受體場(chǎng)得到擴(kuò)大，而參數(shù)的數(shù)量保持不變，具體來(lái)說(shuō)，在中間層使用膨脹率為2和4的 3D腔體卷積有效提取大規(guī)模目標(biāo)的特征。為了增強(qiáng)網(wǎng)絡(luò)對(duì)目標(biāo)運(yùn)動(dòng)信息的感知，在特征提取過(guò)程中增加了時(shí)間序列注意力模塊，該模塊通過(guò)計(jì)算相鄰時(shí)間幀之間的相關(guān)性，自適應(yīng)調(diào)整每一幀的特征權(quán)重并突出運(yùn)動(dòng)目標(biāo)的特征表示，為了提高網(wǎng)絡(luò)的訓(xùn)練效率和泛化能力，該文采用殘差連接和特征金字塔結(jié)構(gòu)，緩解了深度網(wǎng)絡(luò)的梯度消失問(wèn)題，同時(shí)特征金字塔結(jié)構(gòu)整合了不同層次的特征，提供了多尺度的特征表示，通過(guò)這些技術(shù)的綜合應(yīng)用，三維卷積神經(jīng)網(wǎng)絡(luò)可以從雷達(dá)點(diǎn)云數(shù)據(jù)中提取豐富而緊湊的特征表示，為后續(xù)的多模態(tài)融合奠定基礎(chǔ)。

（二）改進(jìn)型ResNet結(jié)構(gòu)實(shí)現(xiàn)視頻特征提取

針對(duì)視頻數(shù)據(jù)的特征提取問(wèn)題，本文提出一種基于改進(jìn)ResNet結(jié)構(gòu)的特征提取網(wǎng)絡(luò)。該網(wǎng)絡(luò)基于ResNet-50，為適應(yīng)視頻數(shù)據(jù)的時(shí)空特性，進(jìn)行了一系列改進(jìn)，網(wǎng)絡(luò)輸入是16個(gè)連續(xù)幀的224x224分辨率RGB圖像，在網(wǎng)絡(luò)前端，采用（2+1）D卷積結(jié)構(gòu)代替?zhèn)鹘y(tǒng)的2D卷積，即將3D卷積分解為一系列的空間卷積和時(shí)間卷積，這種設(shè)計(jì)不僅減少了參數(shù)的數(shù)量而且提高了時(shí)間信息的建模能力。

為了增強(qiáng)網(wǎng)絡(luò)捕捉長(zhǎng)時(shí)間依賴關(guān)系的能力，在ResNet的每一階段后都增加了一個(gè)Non-local模塊，該模塊可以通過(guò)計(jì)算特征圖中所有位置的相關(guān)性來(lái)有效地建模長(zhǎng)距離依賴關(guān)系，特別適用于處理視頻中的運(yùn)動(dòng)信息，為了適應(yīng)不同尺度的目標(biāo)，在網(wǎng)絡(luò)中引入了多尺度特征融合機(jī)制，具體方法是將SpatialPyramidPooling（SPP）應(yīng)用于不同階段的輸出特征圖，然后對(duì)不同尺度的特征進(jìn)行串聯(lián)和1x1卷積融合，這種設(shè)計(jì)使網(wǎng)絡(luò)能夠同時(shí)關(guān)注本地細(xì)節(jié)和全局語(yǔ)義信息。

考慮到實(shí)時(shí)性需求，對(duì)原有的ResNet結(jié)構(gòu)進(jìn)行了輕量化。主要策略包括：（1）在部分卷積層使用群卷積來(lái)減少參數(shù)數(shù)量，同時(shí)保持特征多樣性；（2）采用頻道洗牌操作，加強(qiáng)不同群體之間的信息交流；（3）引入深度可分離卷積，進(jìn)一步降低計(jì)算復(fù)雜度，通過(guò)這些改進(jìn)的網(wǎng)絡(luò)參數(shù)的數(shù)量和計(jì)算量顯著減少，同時(shí)保持了較高的特征提取能力，該網(wǎng)絡(luò)輸出2048維特征向量作為視頻數(shù)據(jù)的緊湊表示，這種改進(jìn)的ResNet結(jié)構(gòu)不僅能有效提取視頻的時(shí)空特征，而且具有良好的計(jì)算效率，為實(shí)時(shí)多模態(tài)融合目標(biāo)檢測(cè)系統(tǒng)提供了可靠的視覺(jué)特征。

四、跨模態(tài)注意力融合機(jī)制

（一）空間-時(shí)間注意力模塊設(shè)計(jì)

時(shí)空注意力模塊的設(shè)計(jì)旨在有效融合雷達(dá)和視頻特性并充分利用兩者模式的互補(bǔ)性，該模塊由空間注意力子模塊和時(shí)間注意力子模塊組成，通過(guò)自適應(yīng)學(xué)習(xí)的方式調(diào)整特征的重要性，計(jì)算雷達(dá)和視頻特征圖中每個(gè)位置與所有其他位置的相關(guān)性。在具體實(shí)現(xiàn)中，將雷達(dá)特征圖R∈R^（C×H×W）和視頻特征圖V∈R^（C×H×W）通過(guò)1×1卷積層映射到查詢（Q）、鍵（K）和值（V）空間，然后計(jì)算Q和K的點(diǎn)積，經(jīng)softmax歸一化后乘以V，得到注意力加權(quán)特征，這種操作使模型能夠?qū)Ｗ⒂诳缒Ｊ降目臻g相關(guān)性，有效地融合不同傳感器捕獲的空間信息，時(shí)間注意力子模塊側(cè)重于捕捉序列數(shù)據(jù)中的時(shí)間依賴性，利用自注意力機(jī)制對(duì)輸入的T幀特征序列進(jìn)行建模[4]。

（二）特征級(jí)聯(lián)與自適應(yīng)權(quán)重分配策略

特征級(jí)聯(lián)和自適應(yīng)權(quán)重分配策略是實(shí)現(xiàn)雷達(dá)和視頻特征融合有效的關(guān)鍵，該策略采用多層次特征融合模式，充分利用不同層次特征的互補(bǔ)性，融合網(wǎng)絡(luò)淺層、中間層和深層的特征以捕獲不同尺度和抽象層次的信息。為了更好地平衡雷達(dá)和視頻特征的貢獻(xiàn)，該文引入一種自適應(yīng)權(quán)重分配機(jī)制，該機(jī)制通過(guò)可學(xué)習(xí)參數(shù)α動(dòng)態(tài)調(diào)整兩個(gè)模態(tài)特征的權(quán)重。融合特征F可以表示為：F=αf_radar+（1-α）F_video，其中α∈[0，1]，α的值由小型神經(jīng)網(wǎng)絡(luò)根據(jù)輸入特征（如均值和方差）的統(tǒng)計(jì)量動(dòng)態(tài)生成，使模型可以根據(jù)不同的場(chǎng)景自適應(yīng)地調(diào)整融合策略，例如當(dāng)照明條件較差時(shí)，它可能更多地依賴于雷達(dá)特性；當(dāng)目標(biāo)清晰可見(jiàn)時(shí)，可以更多地利用視頻功能。為了增強(qiáng)模型對(duì)不同模態(tài)特征相關(guān)性的理解，引入跨模態(tài)注意力機(jī)制，計(jì)算雷達(dá)特征與視頻特征之間的相似性矩陣，然后基于該相似性矩陣對(duì)特征進(jìn)行加權(quán)，這種設(shè)計(jì)使模型在融合過(guò)程中能夠關(guān)注交叉模式的相關(guān)信息，提高了特征融合的有效性，為了保證融合特征的表現(xiàn)力，采用了特征重新校準(zhǔn)技術(shù)。

五、融合決策與性能評(píng)估

（一）多尺度檢測(cè)頭和非極大值抑制

多尺度檢測(cè)頭設(shè)計(jì)用于高效處理不同尺寸和形狀的物體，探測(cè)頭由三個(gè)平行分支組成，分別對(duì)應(yīng)于小、中、大尺度目標(biāo)，每個(gè)分支包含多個(gè)卷積層和上層采樣層以生成不同分辨率的特征圖。

為了融合不同尺度的預(yù)測(cè)結(jié)果，本文采用特征金字塔網(wǎng)絡(luò)（FPN）結(jié)構(gòu)，F(xiàn)PN通過(guò)自上而下的路徑和水平連接，將高級(jí)語(yǔ)義信息與低級(jí)細(xì)粒度特征相結(jié)合，生成多尺度融合特征圖，這種設(shè)計(jì)使探測(cè)頭能夠在不同尺度上共享特征并提高了小目標(biāo)的探測(cè)性能，非極大值抑制（NMS）算法用于在生成最終檢測(cè)結(jié)果時(shí)消除重復(fù)檢測(cè)。NMS首先根據(jù)置信度對(duì)所有檢測(cè)框進(jìn)行排序，然后逐個(gè)處理每個(gè)檢測(cè)框并計(jì)算其與其他檢測(cè)框的交集比（IoU），如果IoU超過(guò)預(yù)設(shè)閾值（如0.5），則抑制重疊較大的低置信度檢測(cè)框，為了進(jìn)一步提高NMS的效果，引入了軟NMS技術(shù)，置信度不是直接刪除重疊檢測(cè)框，而是根據(jù)IoU值動(dòng)態(tài)調(diào)整置信度，在處理密集目標(biāo)場(chǎng)景時(shí)效果更好[5]。

（二）實(shí)驗(yàn)設(shè)置與結(jié)果分析

實(shí)驗(yàn)采用自建的多模態(tài)目標(biāo)檢測(cè)數(shù)據(jù)集，包含同步采集的5000幀雷達(dá)點(diǎn)云和視頻圖像數(shù)據(jù)，數(shù)據(jù)集涵蓋了不同的天氣條件（晴天、雨天、霧天）和不同的時(shí)間段（白天、黃昏、夜晚），保證了實(shí)驗(yàn)結(jié)果的代表性和魯棒性，目標(biāo)類別包括行人、汽車(chē)、自行車(chē)和摩托車(chē)。該實(shí)驗(yàn)平臺(tái)是使用NVIDIARTX3090GPU和PyTorch深度學(xué)習(xí)框架實(shí)現(xiàn)的，在訓(xùn)練過(guò)程中使用了Adam優(yōu)化器并將初始學(xué)習(xí)率設(shè)置為0.001，并采用退火策略來(lái)調(diào)整學(xué)習(xí)率，batchsize設(shè)置為16，訓(xùn)練輪總數(shù)為100，實(shí)驗(yàn)結(jié)果表明，所提出的融合方法在檢測(cè)各種目標(biāo)方面均優(yōu)于單模方法。

六、結(jié)語(yǔ)

基于雷達(dá)與視頻融合的目標(biāo)檢測(cè)方法，通過(guò)多模式特征提取、跨模注意力融合和融合決策模塊，實(shí)現(xiàn)雷達(dá)與視頻數(shù)據(jù)的有效融合，實(shí)驗(yàn)結(jié)果表明，該方法在復(fù)雜環(huán)境下表現(xiàn)出優(yōu)異的檢測(cè)性能和魯棒性，為多傳感器融合目標(biāo)檢測(cè)提供了新的研究思路，未來(lái)的工作將集中在優(yōu)化算法效率上，探索更多的傳感器融合策略以滿足實(shí)際應(yīng)用的需求，推動(dòng)智能感知技術(shù)的進(jìn)一步發(fā)展。中國(guó)軍轉(zhuǎn)民

參考文獻(xiàn)

[1]蔣文娟，劉經(jīng)天，邵開(kāi)麗.激光雷達(dá)融合機(jī)器視覺(jué)的物流分揀多目標(biāo)視頻跟蹤[J].激光雜志，2024，45（06）：221-226.

[2]朱勇，黃永明，何幸.基于雷達(dá)和視頻融合的目標(biāo)檢測(cè)[J].電子科技，2024，37（08）：1-7.

[3]孫景榮，劉思奇，張華，等.一種基于模糊理論的雷達(dá)與視頻融合交通目標(biāo)跟蹤方法[J].電訊技術(shù)，2023，63（10）：1567-1573.

[4]段濤偉，陳平.雷達(dá)與視頻融合的復(fù)雜環(huán)境目標(biāo)檢測(cè)方法[J].單片機(jī)與嵌入式系統(tǒng)應(yīng)用，2023，23（02）：61-65.

[5]時(shí)亞麗，唐亮.融合雷達(dá)和視頻的目標(biāo)檢測(cè)系統(tǒng)[J].電子技術(shù)與軟件工程，2020（05）：76-77.

（作者單位：王金全、楊波，中國(guó)人民解放軍66242部隊(duì)；田長(zhǎng)超，和普威視光電股份有限公司）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于雷達(dá)和視頻融合的目標(biāo)檢測(cè)