何鴻添 陳晗 劉洋 周禮亮 張敏 雷印杰
摘 要:三維視覺理解旨在智能地感知和解釋三維場景,實現(xiàn)對物體、環(huán)境和動態(tài)變化的深入理解與分析。三維目標(biāo)檢測作為其核心技術(shù),發(fā)揮著不可或缺的作用。針對當(dāng)前的三維檢測算法對于遠(yuǎn)距離目標(biāo)和小目標(biāo)檢測精度較低的問題,提出了一種面向多模態(tài)交互式融合與漸進(jìn)式優(yōu)化的三維目標(biāo)檢測方法MIFPR。在特征提取階段,首先引入自適應(yīng)門控信息融合模塊。通過把點云的幾何特征融入圖像特征中,能夠獲取對光照變化更有辨別力的圖像表示。隨后提出基于體素質(zhì)心的可變形跨模態(tài)注意力模塊,以驅(qū)使圖像中豐富的語義特征和上下文信息融合到點云特征中。在目標(biāo)框優(yōu)化階段,提出漸進(jìn)式注意力模塊,通過學(xué)習(xí)、聚合不同階段的特征,不斷增強(qiáng)模型對于精細(xì)化特征的提取與建模能力,逐步優(yōu)化目標(biāo)框,以提升對于遠(yuǎn)距離、小目標(biāo)的檢測精度,進(jìn)而提高對于視覺場景理解的能力。在KITTI數(shù)據(jù)集上,所提方法對于pedestrian和cyclist等小目標(biāo)的檢測精度較最優(yōu)基線有明顯提升,證實了該方法的有效性。
關(guān)鍵詞:三維視覺理解; 多模態(tài); 交互式融合; 漸進(jìn)式注意力; 目標(biāo)檢測
中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A?文章編號:1001-3695(2024)05-039-1554-08
doi:10.19734/j.issn.1001-3695.2023.08.0383
3D visual understanding oriented towards multimodal interactivefusion and progressive refinement
Abstract:3D visual understanding aims to intelligently perceive and interpret 3D scenes, achieving a profound understanding and analysis of objects, environment, and dynamic changes. As its core technology, 3D object detection plays an indispensable role. For the problem of low detection accuracy of distant targets and small targets in current 3D detection algorithms, this paper proposed a 3D object detection method called MIFPR, which was oriented towards multimodal interactive fusion and progressive refinement. In the feature extraction stage, this algorithm introduced an adaptive gated information fusion module firstly. Incorporating the geometric features of the point cloud into the image features results in a more discriminative image representation for handling variations in lighting conditions. Subsequently, the proposed voxel centroid-based deformable cross-modal attention module was to drive the fusion of rich semantic features and contextual information from images into the point cloud features. During the proposal refinement stage, this algorithm introduced a progressive attention module. By learning and aggregating features from different stages, it continuously enhanced the models ability to extract and model fine-grained features, progressively refining bounding boxes. This gradual refinement of the proposal helps improve the detection accuracy of distant and small objects, thereby enhancing the overall capability of visual scene understanding. The proposed method shows significant improvement in the detection accuracy of small objects like pedestrian and cyclist on the KITTI dataset compared to the state-of-the-art baseline. This confirms the effectiveness of the proposed approach.
Key words:3D visual understanding; multimodal; interactive fusion; progressive attention; object detection
0 引言
三維視覺理解旨在讓機(jī)器能夠像人類一樣準(zhǔn)確地感知和理解三維世界。它通過分析傳感器數(shù)據(jù),獲取物體的位置、形狀、大小和類別等信息,構(gòu)建對真實場景的高維度認(rèn)知模型。在自動駕駛領(lǐng)域,三維視覺理解顯得尤為重要,因為它能賦予無人駕駛車輛靈敏的場景理解能力,使之能夠?qū)崟r準(zhǔn)確地感知交通參與者、行人、障礙物以及道路標(biāo)識等關(guān)鍵目標(biāo),從而提高駕駛的安全性和決策的效率。目標(biāo)檢測作為三維視覺理解的核心技術(shù),其對物體的識別與定位,以及后續(xù)的碰撞避免、路徑規(guī)劃、運動預(yù)測等有著重要指導(dǎo)作用[1],對于三維視覺場景的理解至關(guān)重要。
隨著深度學(xué)習(xí)與計算機(jī)視覺領(lǐng)域的飛速發(fā)展,研究和技術(shù)人員已經(jīng)在三維目標(biāo)檢測領(lǐng)域開展了廣泛的研究,提出了許多先進(jìn)的檢測方法,目標(biāo)檢測的精度也在不斷提升。由于僅采用激光雷達(dá)(LiDAR)點云的單模態(tài)三維目標(biāo)檢測方法缺乏紋理、色彩與上下文信息,且容易受到遮擋,導(dǎo)致在很多場景下的檢測精度不佳,所以目前主流的三維目標(biāo)檢測方法大多是基于點云與圖像的多模態(tài)融合的。
然而,現(xiàn)有的多模態(tài)三維目標(biāo)檢測算法中,普遍存在一個現(xiàn)象,即對于近處的大目標(biāo)檢測精確度較高,但是對于遠(yuǎn)距離的車輛(car),或者行人(pedestrian)、騎自行車的人(cyclist)等小目標(biāo)的檢測性能較差。考慮到行人和騎自行車的人是道路上的弱勢交通參與者,其行為的不可預(yù)測性比汽車高,且更容易受到周圍環(huán)境的影響,準(zhǔn)確地檢測和識別這些小目標(biāo),對于避免潛在的交通事故至關(guān)重要,尤其是在擁擠的城市街道和繁忙的路口。同樣地,正確地識別遠(yuǎn)距離目標(biāo)有助于提前預(yù)測交通流量和車輛行駛方向,從而作出更加智能的駕駛決策。在高速公路等場景中,遠(yuǎn)距離汽車的檢測對于合理的車道變換和超車決策起著重要作用,有助于減少事故風(fēng)險。
經(jīng)過深入的分析,導(dǎo)致以上現(xiàn)象主要是由于現(xiàn)在的多模態(tài)檢測算法存在以下問題:
a)目前主流的多模態(tài)檢測方法通常都只是利用圖像特征來增強(qiáng)點云特征,特征的單向流動可能會導(dǎo)致兩種模態(tài)特征交互的不完全,從而無法充分地利用不同傳感器信息的互補(bǔ)性[2]。
b)現(xiàn)有的多模態(tài)融合檢測方法大多是將圖像特征通過投影矩陣以逐點或逐體素的方式與點云特征進(jìn)行加權(quán)融合。這種融合方式雖然在像素級進(jìn)行了精細(xì)的特征聚合,但是會由于融合點的稀疏性而丟失圖像特征中的密集模式(即破壞了圖像特征的語義一致性),因為單一像素中包含的語義信息和特征較少,且無法建模與鄰域像素的關(guān)聯(lián)關(guān)系,最終多模態(tài)融合的效果不理想。
c)常見的兩階段三維目標(biāo)檢測方法在目標(biāo)框優(yōu)化(proposals refinement)階段都是使用的單個優(yōu)化網(wǎng)絡(luò)。然而LiDAR在掃描時,得到的點云質(zhì)量可能因為物體大小和距離的不同而有所差異。受掃描角度和距離等因素的影響,點云中不同物體的分布也存在較大差異,對于遮擋或較遠(yuǎn)的物體,點云可能會出現(xiàn)較多的缺失點。在這種復(fù)雜的場景下,目標(biāo)框優(yōu)化階段采用單個網(wǎng)絡(luò)來進(jìn)行預(yù)測和回歸,導(dǎo)致模型對于精細(xì)化特征的學(xué)習(xí)能力比較有限,無法較好地檢測出較小的目標(biāo)。
針對問題a)b),本文設(shè)計了多模態(tài)交互式融合網(wǎng)絡(luò),點云特征首先通過門控信息融合自適應(yīng)地對圖像進(jìn)行增強(qiáng),從而獲取更魯棒的圖像特征。接著提出了可變形跨模態(tài)注意力模塊,借助動態(tài)生成的采樣偏移,更好地聚合參考點周圍幾個關(guān)鍵點的特征,從而獲取更多的上下文信息和特征,實現(xiàn)更加充分的融合。通過雙向交互式的特征融合,實現(xiàn)了特征的雙向流動和相互轉(zhuǎn)換融合,解決了現(xiàn)有方法中特征單向流動所導(dǎo)致的不同模態(tài)特征交互不完全不充分的問題。針對問題c),在目標(biāo)框優(yōu)化階段,提出了漸進(jìn)式注意力模塊,通過逐步注入不同子優(yōu)化階段的特征,實現(xiàn)特征的聚合,進(jìn)一步提升模型對于精細(xì)化特征的提取能力,不斷優(yōu)化以生成高質(zhì)量的三維目標(biāo)框,從而提升對于小目標(biāo)的檢測精度。
本文主要貢獻(xiàn)如下:
a)在特征提取階段,提出了多模態(tài)交互式融合網(wǎng)絡(luò)(multimodal interactive fusion network,MIF-Net),通過自適應(yīng)門控信息融合(adaptive gated information fusion,AGIF)模塊與可變形跨模態(tài)注意力(deformable cross-modal attention,DCMA)模塊,實現(xiàn)了級聯(lián)的雙向特征交互,為三維目標(biāo)檢測提供了更全面更魯棒的特征表示。
b)在目標(biāo)框優(yōu)化階段,設(shè)計了漸進(jìn)式注意力模塊,利用多個子優(yōu)化階段的結(jié)構(gòu)來替代傳統(tǒng)的單個網(wǎng)絡(luò)結(jié)構(gòu),通過不斷學(xué)習(xí)、聚合不同階段的特征,增強(qiáng)模型對于細(xì)微特征的捕獲能力與建模能力。
c)在廣泛使用的KITTI公開數(shù)據(jù)集上定量、定性地評估了本文方法。在驗證集和測試集上,本文方法對于所有目標(biāo)的平均檢測精度(mean average precision,mAP)分別達(dá)到了80.54%和60.57% AP,均超過了現(xiàn)有的其他三維目標(biāo)檢測方法,尤其是對于遠(yuǎn)距離目標(biāo)和小目標(biāo),相比現(xiàn)有方法,檢測精度提升更明顯,充分證明了本文方法的有效性。
1 相關(guān)工作
三維視覺理解是利用三維場景中的信息進(jìn)行分析和推理,以實現(xiàn)對環(huán)境中三維目標(biāo)的智能感知與認(rèn)知,即實現(xiàn)三維目標(biāo)檢測與識別。本文將從基于點云的單模態(tài)三維目標(biāo)檢測方法、基于圖像-點云融合的多模態(tài)三維目標(biāo)檢測方法及基于多階段優(yōu)化的目標(biāo)檢測方法三個方面進(jìn)行概述。
1.1 基于點云的單模態(tài)三維目標(biāo)檢測
由于LiDAR點云能夠反映物體在三維空間中的位置,且不容易受光照變化的影響,相比相機(jī)圖像具有更高的穩(wěn)定性和可靠性,所以近年來基于點云的單模態(tài)三維目標(biāo)檢測技術(shù)受到了廣泛關(guān)注,大批研究人員進(jìn)行了深入研究,并取得了豐富的研究成果。Qi等人[3,4]率先提出的PointNet和PointNet++,通過使用原始點云數(shù)據(jù)作為輸入來處理點云的不規(guī)則性。Zhou等人[5]提出的VoxelNet,將點云劃分為體素(voxel),并使用堆疊的體素特征編碼層來提取體素特征。進(jìn)一步地,Zheng等人[6]提出了SE-SSD,模型包括一個教師網(wǎng)絡(luò)和一個學(xué)生網(wǎng)絡(luò),通過引入知識蒸餾的思想,在保持效率的同時,提升了檢測性能。 Shi等人[7]提出了直接使用點云進(jìn)行檢測的網(wǎng)絡(luò)模型PointRCNN,利用文獻(xiàn)[4]的網(wǎng)絡(luò)來學(xué)習(xí)與以自下而上的方式生成的三維目標(biāo)邊界框前景點相關(guān)的語義線索。同年,Shi等人[8]深度整合了三維稀疏卷積的有效性和類似于文獻(xiàn)[4]的集合抽象靈活的感受野,提出了PV-RCNN模型,以學(xué)習(xí)更多的判別語義;Sheng等人[9]提出的模型CT3D設(shè)計了一個區(qū)域到點的編碼,同時考慮到編碼點的全局和局部通道特性,采用了通道重加權(quán)的方法來增強(qiáng)標(biāo)準(zhǔn)Transformer解碼器,以擴(kuò)大特征解碼空間,從而提高目標(biāo)檢測的精度。
盡管點云包含了豐富的幾何信息,但是由于其是無序且非結(jié)構(gòu)化的[10],所以在不同物體相對傳感器的空間距離、位姿角度不同的情況下,物體表面的密度、點數(shù)和空間關(guān)系存在一定差異,存在固有的稀疏特性[11],造成了信息的不完整與數(shù)據(jù)密度的不均勻。相比之下,二維的圖像中的像素密集且布局緊湊,能夠提供更稠密、精細(xì)的紋理信息和語義特征,但受限于輸入模態(tài)的單一性,導(dǎo)致基于點云的單模態(tài)三維檢測方法對于遠(yuǎn)距離目標(biāo)和小目標(biāo)的檢測精度較低。
1.2 基于圖像-點云融合的多模態(tài)三維目標(biāo)檢測
考慮到不同傳感器之間往往存在互補(bǔ)性[12],研究人員考慮通過利用相機(jī)圖像和激光雷達(dá)點云的信息互補(bǔ)來提升檢測模型的精確度和魯棒性,進(jìn)行了大量研究和探索。迄今為止,已經(jīng)提出了一系列基于圖像與點云融合的多模態(tài)三維目標(biāo)檢測方法[13~20]。這些方法按照融合時機(jī)和位置的不同,可以分成早期融合(early fusion)、中期融合(middle fusion)和晚期融合(late fusion)三種。
基于早期融合的方法[13,14],指的是在點云進(jìn)入三維目標(biāo)檢測器之前,將圖像的知識整合到點云當(dāng)中。為了能夠充分利用原始表示,Qi等人[13]提出了F-PointNet模型,首先將圖像通過二維檢測器生成二維邊界框并擠壓成三維視錐體(frustum),然后將這些視錐區(qū)域應(yīng)用于激光雷達(dá)點云,減少了搜索范圍。Vora等人[14]提出的PointPainting模型,把圖像通過語義分割網(wǎng)絡(luò)獲得逐像素的語義標(biāo)簽,隨后通過投影將語義標(biāo)簽附加到三維點云上來豐富點云特征,從而提高檢測精度。
基于中期融合的方法[15~19]通常在三維目標(biāo)檢測器的骨干網(wǎng)絡(luò)、候選目標(biāo)框生成階段或RoI細(xì)化階段融合圖像特征和點云特征。文獻(xiàn)[15,16]先后提出了EPNet和EPNet++,以逐點的方式增強(qiáng)具有不同分辨率級別的圖像特征的點特征的語義信息。Chen等人[17]提出了網(wǎng)絡(luò)模型Focals,通過把體素的中心投影到圖像上,應(yīng)用焦點稀疏卷積(focal sparse convolution),對重要性大于閾值的體素融合對應(yīng)像素的圖像特征。Zhang等人[18]提出Faraway-Frustum,首先對相機(jī)圖像進(jìn)行實例分割,進(jìn)而通過轉(zhuǎn)換矩陣得到某個目標(biāo)對應(yīng)的視錐區(qū)域內(nèi)點云,通過聚類算法估計質(zhì)心,以獲取目標(biāo)的深度值,從而回歸三維目標(biāo)邊界框。Wang等人[19]提出了PA3DNet,設(shè)計了偽形狀分割,減少了多模態(tài)融合方法對不同傳感器標(biāo)簽的依賴。
基于晚期融合的方法[20]對來自三維目標(biāo)檢測器和基于圖像的二維目標(biāo)檢測器的輸出進(jìn)行操作。通過融合二維和三維邊界框融合以產(chǎn)生更準(zhǔn)確的三維檢測結(jié)果。Pang等人[20]提出CLOCs,通過引入一個包含成對的2D-3D邊界框的稀疏張量,并從這個稀疏張量中學(xué)習(xí)最終的目標(biāo)置信度分?jǐn)?shù)。
早期融合的方法通常以順序的方式進(jìn)行多模態(tài)融合和三維目標(biāo)檢測,且需要利用復(fù)雜的二維檢測或語義分割網(wǎng)絡(luò),從而造成了額外的推理延遲。晚期融合的方法側(cè)重于實例級聚合,只對不同模態(tài)的輸出進(jìn)行多模態(tài)融合,無法整合不同模態(tài)的深度特征和豐富的語義信息。中期融合的方法能夠更深入地聚合多模態(tài)的特征表示,從而更好地實現(xiàn)不同模態(tài)特征信息的互補(bǔ)。為了能夠更充分地利用更稠密、更細(xì)粒度的圖像特征,實現(xiàn)不同模態(tài)之間的融合增強(qiáng),本文方法采用中期融合的方法來實現(xiàn)圖像和點云的多模態(tài)特征融合。
1.3 基于多階段優(yōu)化的目標(biāo)檢測
受到分而治之(divide and conquer)哲學(xué)理論的啟發(fā),帶有級聯(lián)檢測器的多階段目標(biāo)檢測方法[21~23]引起了越來越多的關(guān)注。Cai等人[21]首先將這種思想運用于二維目標(biāo)檢測當(dāng)中,提出了Cascade R-CNN模型,設(shè)計了一系列用遞增IoU閾值訓(xùn)練的級聯(lián)檢測器,每個階段檢測器的輸出被饋送到下一階段,以迭代地細(xì)化邊界框。Wu等人[22]將多階段子網(wǎng)絡(luò)級聯(lián)的思想運用到三維目標(biāo)檢測當(dāng)中,提出了CasA,利用注意力機(jī)制來級聯(lián)多個子網(wǎng)絡(luò),從而逐步細(xì)化目標(biāo)框。Cai等人[23]以級聯(lián)范式分配多個基于體素化點云的檢測器,提出了3D Cascade RCNN,根據(jù)點的稀疏度級別重新加權(quán)每個目標(biāo)框的任務(wù)權(quán)重,以增強(qiáng)優(yōu)化網(wǎng)絡(luò)的學(xué)習(xí)能力。
多階段優(yōu)化的方法已經(jīng)被廣泛探索并證明在二維目標(biāo)檢測中是有效的,然而針對三維點云的研究仍處于起步發(fā)展階段。本文將在三維目標(biāo)檢測上開展多階段優(yōu)化方法的研究。
2 本文方法
在特征提取階段,為了解決現(xiàn)有方法中多模態(tài)特征的單向流動導(dǎo)致的不同傳感器信息交互不完全的問題,提出了多模態(tài)交互式融合網(wǎng)絡(luò)(multimodal interactive fusion network,MIF-Net)。首先對點云特征進(jìn)行投影,通過自適應(yīng)門控信息融合模塊計算相關(guān)權(quán)重,動態(tài)地將點云特征融合到圖像特征中,實現(xiàn)圖像特征的增強(qiáng)。隨后針對主流方法采用逐點/逐體素進(jìn)行特征融合時,由于點云稀疏性而導(dǎo)致圖像語義特征一致性被破壞的問題,提出了可變形跨模態(tài)注意力模塊,通過計算每個非空體素的質(zhì)心在圖像特征圖(feature map)上的參考點,學(xué)習(xí)自適應(yīng)的偏移和權(quán)重,靈活地感知參考點周圍不同像素的相關(guān)性,通過可變形跨模態(tài)注意力實現(xiàn)圖像特征與點云特征的深度融合。接下來,將融合特征通過候選區(qū)域生成網(wǎng)絡(luò)(region proposal network,RPN)生成3D候選目標(biāo)框,并送入目標(biāo)框優(yōu)化網(wǎng)絡(luò)(proposal refinement network,PRN)。
在目標(biāo)框優(yōu)化階段,為了解決傳統(tǒng)方法采用單個優(yōu)化網(wǎng)絡(luò)導(dǎo)致對于細(xì)微特征學(xué)習(xí)能力不足的問題,提出了漸進(jìn)式注意力模塊。通過逐步學(xué)習(xí)與聚合不同階段的特征,提升模型對于精細(xì)化特征的提取能力,不斷優(yōu)化3D邊界框,以生成最終準(zhǔn)確的3D邊界框預(yù)測。
2.1 多模態(tài)交互式融合
現(xiàn)有的多模態(tài)三維目標(biāo)檢測器[15,17,24,25]大多都是利用圖像特征以逐點、逐體素進(jìn)行通道融合或采取注意力的方式來增強(qiáng)點云特征。這些方法雖然能從圖像中提取出語義特征并聚合到點云特征中,但是不同模態(tài)特征的單向流動可能會導(dǎo)致信息交互的不完全,無法充分地利用不同傳感器信息的互補(bǔ)性。針對這個問題,在特征提取階段,本文設(shè)計了多模態(tài)交互式融合網(wǎng)絡(luò),主要包括兩個部分:自適應(yīng)門控信息融合模塊與可變形跨模態(tài)注意力模塊。通過從點云到圖像和從圖像到點云的雙向特征交互融合,有助于獲取對光照變化更有辨別力的圖像表示,同時增強(qiáng)后的圖像特征能夠給點云特征帶來更豐富、更魯棒的紋理、上下文信息與語義特征,從而增強(qiáng)目標(biāo)檢測的精確度。
2.1.1 自適應(yīng)門控信息融合
為了能夠把點云的幾何信息融入圖像特征中,實現(xiàn)圖像的增強(qiáng),從而獲取更魯棒的圖像特征,受文獻(xiàn)[26]啟發(fā),本文設(shè)計了一個自適應(yīng)門控信息融合模塊。具體結(jié)構(gòu)如圖2所示。
該模塊首先把經(jīng)3D骨干網(wǎng)絡(luò)提取的體素化點云特征投影到相機(jī)域中,得到點云投影特征Fv-cam。將其與經(jīng)2D骨干網(wǎng)絡(luò)提取的圖像特征Fc點乘后,分別通過兩個二維卷積層得到兩個權(quán)重wv和wc。將權(quán)重圖分別與Fv-cam和Fc逐元素相乘得到兩個模態(tài)的加權(quán)特征圖Fw-v和Fw-c,最后將兩者拼接后生成圖像增強(qiáng)特征圖Fc-enhanced。自適應(yīng)門控信息融合操作的公式如下:
2.1.2 可變形跨模態(tài)注意力
雖然通過逐點/逐體素來加權(quán)融合圖像對應(yīng)像素點特征的方法[15~17]計算相對簡單,但是單一像素中包含的信息和特征較少,且無法獲取鄰域像素的關(guān)聯(lián)關(guān)系,這對于遠(yuǎn)距離目標(biāo)和小目標(biāo)的學(xué)習(xí)很不友好。為了解決以上問題,受文獻(xiàn)[27,28]啟發(fā),本文提出了基于體素質(zhì)心的可變形跨模態(tài)注意力模塊,結(jié)構(gòu)如圖3所示。
經(jīng)3D骨干網(wǎng)絡(luò)提取的點云特征,選取其中的非空體素,通過計算體素的質(zhì)心Vicentroid來表示每個體素特征的位置,計算公式如下:
其中:n為非空體素內(nèi)的點數(shù)量。
隨后利用相機(jī)投影矩陣Euclid Math OneMApcam-lidar計算體素質(zhì)心在圖像平面的參考點Pi。
其中:RC為校準(zhǔn)旋轉(zhuǎn)矩陣和相機(jī)標(biāo)定矩陣的組合。
其中:Wm和W′m是可學(xué)習(xí)的權(quán)重值;M是自注意力的頭數(shù);K為參考點附近采樣點的個數(shù);ΔPmqk表示第m個注意力頭中第k個采樣點的采樣偏移量;Amqk是一個用于在聚合圖像特征上生成注意力分?jǐn)?shù)的多層感知機(jī)(multilayer perceptron,MLP),在本文中,與文獻(xiàn)[27]一致,k取為4。
通過可變形跨模態(tài)注意力模塊,可以增強(qiáng)點云特征對于參考點周圍像素的感知能力與建模能力,獲取更多上下文信息。經(jīng)圖像增強(qiáng)后的點云特征與原始點云特征拼接后得到最終的融合體素特征Fv-enhanced。遵循文獻(xiàn)[17,29]的操作,把Fv-enhanced送入RPN中進(jìn)行進(jìn)一步處理。首先把融合體素特征在Z軸方向進(jìn)行壓縮,通過2D特征提取網(wǎng)絡(luò)鳥瞰圖(birds eye view,BEV)特征圖,然后使用兩個預(yù)測頭來分別預(yù)測類別和回歸邊界框,以生成3D候選目標(biāo)框,用于后續(xù)的目標(biāo)框優(yōu)化。
2.2 漸進(jìn)式注意力優(yōu)化
目前大多數(shù)的兩階段三維目標(biāo)檢測器,在目標(biāo)框優(yōu)化階段均采用單個網(wǎng)絡(luò)對3D邊界框進(jìn)行一次回歸。在這種情況下,用低IoU閾值(如0.5)訓(xùn)練的目標(biāo)檢測器通常會產(chǎn)生噪聲檢測,并且隨著IoU閾值的提升,檢測器性能會呈下降趨勢,對于小目標(biāo)的學(xué)習(xí)能力會變?nèi)?,難以適應(yīng)較為復(fù)雜的場景。受文獻(xiàn)[22]的啟發(fā),本文設(shè)計了漸進(jìn)式注意力模塊(progressive attention module,PAM)來解決這個問題。
不同于現(xiàn)有的多級二維目標(biāo)檢測網(wǎng)絡(luò)[21]中,僅通過簡單的級聯(lián)結(jié)構(gòu)來聚合每個單獨子網(wǎng)絡(luò)進(jìn)而細(xì)化邊界框,漸進(jìn)式注意力模塊通過逐漸注入不同階段的特征,并利用注意力機(jī)制[30]來學(xué)習(xí)不同階段特征的重要性并不斷聚合,循序漸進(jìn)地優(yōu)化目標(biāo)框,以生成最終的3D目標(biāo)檢測,具體結(jié)構(gòu)如圖4所示。
其中:h為多頭注意力的頭數(shù);s∈{1,2,…,S}表示第s個子優(yōu)化階段;dk是一個縮放因子。
最后一個階段的特征分別經(jīng)過兩個全連接層來實現(xiàn)置信度預(yù)測和最終的目標(biāo)框回歸。
2.3 網(wǎng)絡(luò)訓(xùn)練與推理
其中:α是平衡不同損失的超參數(shù),在本文的實驗中設(shè)置為1。
與文獻(xiàn)[17,29]類似,本文將RPN損失設(shè)計為分類損失和候選目標(biāo)框回歸損失的組合:
在驗證階段,通過調(diào)用訓(xùn)練階段的最優(yōu)模型來進(jìn)行推理,以得到最終的3D預(yù)測結(jié)果。
3 實驗與結(jié)果分析
3.1 數(shù)據(jù)集與評價指標(biāo)
本文使用KITTI[31]公開數(shù)據(jù)集驗證所提模型的有效性。KITTI數(shù)據(jù)集是由德國卡爾斯魯厄理工學(xué)院和豐田工業(yè)大學(xué)芝加哥分校聯(lián)合贊助的用于自動駕駛領(lǐng)域研究的數(shù)據(jù)集,由一個64線的激光雷達(dá)和兩個攝像頭傳感器進(jìn)行采集,被廣泛應(yīng)用于三維目標(biāo)檢測任務(wù)。該數(shù)據(jù)集包括7 481個訓(xùn)練樣本和7 518個測試樣本,遵循與文獻(xiàn)[15~17,21,22]相同的數(shù)據(jù)集劃分規(guī)范,將7 481個訓(xùn)練樣本劃分為訓(xùn)練集(3 712個)和驗證集(3 769個)。由于7 518個測試樣本沒有公開的標(biāo)簽,所以,本文不僅在測試集上驗證了模型的性能,還通過KITTI官方,在測試集上進(jìn)行了評估。
沿用與先前方法[15~17,21,22]相同的評估指標(biāo),即計算40召回閾值(R40)下的平均精度AP3D。在該指標(biāo)中,car、pedestrian和cyclist的IoU閾值分別為0.7、0.5和0.5。
3.2 實驗環(huán)境與實施細(xì)節(jié)
本文實驗在Ubuntu 18.04系統(tǒng)下進(jìn)行,采用PyTorch 1.7深度學(xué)習(xí)框架,硬件配置為NVIDIA GeForce RTX 3090,24 GB顯存,Intel Xeon CPU E5-2630 v4 @ 2.20 GHz×40,256 GB RAM。
訓(xùn)練過程中參數(shù)設(shè)置如下:采用adam_onecycle優(yōu)化器,初始學(xué)習(xí)率0.01,權(quán)重衰減系數(shù)0.000 000 1,訓(xùn)練80個epoch,批量大小2。
本文選用文獻(xiàn)[17]作為baseline。點云的取值范圍沿X、Y、Z軸分別為(0,70.4)(-40,40)和(-3,1)。初始化階段進(jìn)行點云體素化,每個體素大小為0.05 m×0.05 m×0.05 m。在實驗訓(xùn)練和驗證推理階段,輸入圖像的大小為375×1242,使用在COCO數(shù)據(jù)集上預(yù)訓(xùn)練的DeepLabV3[32]骨干網(wǎng)絡(luò)來進(jìn)行圖像特征的提取。本文采用了三個子優(yōu)化階段(即三個漸進(jìn)式注意力模塊),其中多頭注意力的頭數(shù)為4。
在訓(xùn)練階段,對于car、pedestrian和cyclist目標(biāo), 前景和背景分類IoU thresholds在每個子優(yōu)化階段保持一致,θH設(shè)為u=0.75,0.65,0.65,θL設(shè)為u=0.25,0.15,0.15。邊界框回歸IoU thresholds隨著子優(yōu)化階段的增加而逐漸增大。對于car目標(biāo),θreg設(shè)置為u=0.5,0.55,0.6,對于pedestrian和cyclist目標(biāo),θreg均設(shè)置為u=0.45,0.5,0.55。
3.3 實驗結(jié)果分析
3.3.1 對比實驗
為了驗證本文方法的有效性,在KITTI數(shù)據(jù)集上與近幾年三維目標(biāo)檢測的一些SOTA算法進(jìn)行了比較。表1、2總結(jié)了在40召回率下,簡單(easy)、中等(moderate)和困難(hard)三種不同難度樣本的檢測精度,其中包括了基于點云的單模態(tài)方法和基于圖像-點云融合的多模態(tài)方法。其中modality中,L表示僅采用LiDAR點云作為輸入,L+I表示采用LiDAR點云與相機(jī)圖像作為輸入。
表1顯示了在KITTI驗證集上的檢測結(jié)果。本文方法對中等難度的car和cyclist的檢測精度分別比baseline(Focals)提升1.75%和4.55%,pedestrian類別的檢測精度更是提升了10.43%。pedestrian和cyclist兩個類別不同難度的樣本檢測精度均超過了其他SOTA算法。car類別的困難樣本檢測精度達(dá)到了最佳,簡單和中等樣本雖然沒有取得最高的精度,但是相對其他多模態(tài)方法,也有較好的檢測性能。在KITTI驗證集上,所有樣本的平均精度(mAP)比第二名的PA3DNet[18]高出了4.06%。表2顯示了在KITTI測試集上的檢測結(jié)果。本文方法對于car的簡單和困難樣本,檢測精度分別比baseline提升0.18%和0.31%,car所有樣本的平均精度(mAP)比baseline提升0.17%。與表現(xiàn)最好的方法EPNet++相比,本文方法對于car的困難樣本,pedestrian的簡單樣本以及cyclist的所有難度樣本的檢測精度分別超出1.19%、0.41%、4.21%、5.27%和6.73%,所有樣本的平均精度(mAP)達(dá)到了65.7%,比EPNet++高出1.47%。
可以看到,本文方法對于pedestrian和cyclist等小目標(biāo),以及car的困難目標(biāo)的精測精度提升比較明顯。提升主要來自于設(shè)計的多模態(tài)交互式融合網(wǎng)絡(luò)以及漸進(jìn)式注意力模塊,將點云的幾何特征與相機(jī)圖像語義、紋理、色彩信息充分融合的同時,在目標(biāo)框優(yōu)化階段增強(qiáng)了對于精細(xì)特征的提取能力,從而提升了對于遠(yuǎn)距離目標(biāo)和小目標(biāo)的學(xué)習(xí)能力以及對三維視覺場景的理解能力、感知能力。
此外,本文將部分實驗結(jié)果可視化,以進(jìn)一步展示模型的性能,如圖5所示。從圖5(a)可以發(fā)現(xiàn),對比同樣是采用多模態(tài)雙向特征融合的EPNet++,本文方法能夠檢測出EPNet++漏檢的遠(yuǎn)端的pedestrian目標(biāo)。這是由于提出的漸進(jìn)式注意力模塊能夠通過聚合多個子網(wǎng)絡(luò)的特征,不斷提升模型對于細(xì)微特征的提取能力和聚合能力,從而增強(qiáng)小目標(biāo)的檢測精度。
從圖5(b)(c)可以發(fā)現(xiàn),本文方法可以在光線較強(qiáng)或者較暗的情況下,檢測出Focals漏檢的遠(yuǎn)端的car目標(biāo)。這是由于自適應(yīng)門控信息融合模塊首先利用點云特征對圖像特征進(jìn)行了增強(qiáng),從而獲取了對光照變化更魯棒的圖像特征表示,同時增強(qiáng)后的圖像特征能給點云特征帶來更準(zhǔn)確、更有辨別力的語義特征。從圖5(d)可以發(fā)現(xiàn),本文方法能夠檢測出單模態(tài)方法PV-RCNN漏檢的car目標(biāo)。這是由于本文設(shè)計的多模態(tài)交互式融合網(wǎng)絡(luò),通過引入稠密的圖像特征來彌補(bǔ)單模態(tài)點云在遮擋比較嚴(yán)重的情況下,由于點云缺失或密度低而導(dǎo)致的漏檢問題。
由此可見,本文方法能夠充分利用圖像的語義信息來豐富點云特征,以獲取更深層次的語義信息和上下文信息,并在邊界框細(xì)化階段增強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)能力與建模能力,從而提升對于遠(yuǎn)距離目標(biāo)及小目標(biāo)的檢測性能。
3.3.2 消融實驗
1)不同模塊貢獻(xiàn)消融 本文針對AGIF、DCMA和PAM三個模塊,以AP3D (R40)作為評價指標(biāo),在KITTI驗證集上針對中等難度(moderate)樣本的檢測精度進(jìn)行了6組消融實驗,結(jié)果如表3所示。
由1、2組實驗和4、5組實驗分析可知,DCMA模塊通過有效地把圖像特征豐富的語義特征與紋理信息融合到點云特征中,從而提高檢測的性能;由2、3組實驗和5、6組實驗分析可知,僅采用DCMA模塊進(jìn)行多模態(tài)特征單向流動的特征融合,雖然能提升檢測精度,但是有點過于直接,AGIF模塊能夠在圖像特征融合到點云特征前,首先用點云特征自適應(yīng)地對圖像特征進(jìn)行增強(qiáng),從而產(chǎn)生更具有辨識力的圖像特征,進(jìn)而取得更佳的檢測效果;由1、3組實驗分析可知,PAM模塊能夠讓模型學(xué)習(xí)、聚合不同細(xì)化階段之間的特征,從而增強(qiáng)模型對于局部細(xì)節(jié)特征的建模能力,以提高檢測的準(zhǔn)確率。
2)不同距離目標(biāo)檢測消融 本文將KITTI驗證集的目標(biāo)劃分成四個距離區(qū)間(0~10 m)(10~20 m)(20~30 m)和(>30 m),對比本文方法與baseline對于不同類別的中等難度目標(biāo),在不同距離范圍內(nèi)的檢測精度及所有樣本的平均精度,如圖6所示。
由圖6可知,對于超過30 m的遠(yuǎn)距離car目標(biāo),檢測精度比baseline提升了6.27%;對于pedestrian和cyclist目標(biāo),在0~10 m,10~20 m,20~30 m和>30 m內(nèi),本文方法分別提升了9.76%、17.88%、9.71%、4.87%和4.36%、1.8%、4.39%、3.65%。
由此可見,本文方法對于car、pedestrian和cyclist,在不同距離范圍內(nèi)的檢測精度均有提升。尤其是對于pedestrian和cyclist等小目標(biāo)及遠(yuǎn)距離car目標(biāo)的檢測性能提升更為明顯。
3)子優(yōu)化階段數(shù)量消融 對于在邊界框細(xì)化階段選用多少個子優(yōu)化階段,本文在KITTI驗證集上進(jìn)行了消融實驗,如表4所示??梢园l(fā)現(xiàn),采用多個子優(yōu)化階段漸進(jìn)式地細(xì)化目標(biāo)框,能夠有效提升三維目標(biāo)檢測的性能,其中選用3個子優(yōu)化階段與4個子優(yōu)化階段,對于car和pedestrian的檢測性能非常接近,但是對于cyclist目標(biāo),采用3個子優(yōu)化階段的性能更佳,這可能是由于模型出現(xiàn)過擬合的結(jié)果。為了節(jié)省顯存與計算資源,獲得更高的三維目標(biāo)檢測精度,本文采用了3個子優(yōu)化階段。
4 結(jié)束語
本文提出了一種面向多模態(tài)交互式融合與漸進(jìn)式優(yōu)化的三維目標(biāo)檢測方法MIFPR,設(shè)計了一種從點云到圖像和從圖像到點云的多模態(tài)雙向交互式融合網(wǎng)絡(luò)。在特征提取階段,通過自適應(yīng)門控信息融合模塊來實現(xiàn)點云特征對于圖像特征的增強(qiáng);通過基于體素質(zhì)心的可變形跨模態(tài)注意力模塊來將圖像中的語義信息、紋理特征融合到點云特征中,使得點云的特征更加豐富,更具有泛化性。在目標(biāo)框優(yōu)化階段,通過漸進(jìn)式注意力模塊,能夠逐步增強(qiáng)模型對于精細(xì)化特征的提取能力,提升對于遠(yuǎn)距離目標(biāo)和小目標(biāo)的學(xué)習(xí)能力與檢測精度,從而提高對于三維視覺場景的理解與感知能力。為了驗證本文方法的有效性,在KITTI驗證集和測試集上分別與現(xiàn)有的SOTA檢測算法進(jìn)行對比實驗,實驗結(jié)果表明,本文方法在KITTI測試集上,所有目標(biāo)的平均檢測精度(mAP)達(dá)到了65.7%。在KITTI驗證集上,mAP達(dá)到了80.54%,尤其是針對pedestrian和cyclist等小目標(biāo),檢測指標(biāo)超過了現(xiàn)有的其他三維目標(biāo)檢測方法,證實了本文方法的有效性。
參考文獻(xiàn):
[1]Qian Rui, Lai Xin, Li Xirong. 3D object detection for autonomous driving:a survey[J]. Pattern Recognition, 2022,130: 108796.
[2]李佳男, 王澤, 許廷發(fā). 基于點云數(shù)據(jù)的三維目標(biāo)檢測技術(shù)研究進(jìn)展[J]. 光學(xué)學(xué)報, 2023,43(15):296-312. (Li Jianan, Wang Ze, Xu Tingfa. A survey on 3D object detection in point clouds[J]. Acta Optica Sinica, 2023,43(15):296-312.)
[3]Qi C R, Su Hao, Mo Kaichun, et al. PointNet: deep learning on point sets for 3D classification and segmentation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2017: 652-660.
[4]Qi C R, Yi Li, Su Hao, et al. PointNet+: deep hierarchical feature learning on point sets in a metric space[C]//Advances in Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc., 2017: 5099-5108.
[5]Zhou Yin, Tuzel O. VoxelNet: end-to-end learning for point cloud based 3D object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 4490-4499.
[6]Zheng Wu, Tang Weiliang, Jiang Li, et al. SE-SSD: self-ensembling single-stage object detector from point cloud[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 14494-14503.
[7]Shi Shaoshuai, Wang Xiaogang, Li Hongsheng. PointRCNN: 3D object proposal generation and detection from point cloud[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 770-779.
[8]Shi Shaoshuai, Guo Chaoxu, Jiang Li, et al. PV-RCNN: point-voxel feature set abstraction for 3D object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2020: 10529-10538.
[9]Sheng Hualian, Cai Sijia, Liu Yuan, et al. Improving 3D object detection with channel-wise transformer[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 2743-2752.
[10]霍威樂, 荊濤, 任爽. 面向自動駕駛的三維目標(biāo)檢測綜述[J]. 計算機(jī)科學(xué), 2023,50(7):107-118. (Huo Weile, Jing Tao, Ren Shuang. Review of 3D object detection for autonomous driving[J]. Computer Science, 2023,50(7): 107-118.)
[11]郭毅鋒, 吳帝浩, 魏青民. 基于深度學(xué)習(xí)的點云三維目標(biāo)檢測方法綜述[J]. 計算機(jī)應(yīng)用研究, 2023,40(1): 20-27. (Guo Yifeng, Wu Dihao, Wei Qingmin. Overview of single-sensor and multi-sensor point cloud 3D target detection methods[J]. Application Research of Computers, 2022,40(1): 20-27.)
[12]張新鈺, 鄒鎮(zhèn)洪, 李志偉, 等. 面向自動駕駛目標(biāo)檢測的深度多模態(tài)融合技術(shù)[J]. 智能系統(tǒng)學(xué)報, 2020,15(4): 758-771. (Zhang Xinyu, Zou Zhenhong, Li Zhiwei, et al. Deep multi-modal fusion in object detection for autonomous driving[J]. CAAI Trans on Intelligent Systems, 2020,15(4): 758-771.)
[13]Qi C R, Liu Wei, Wu Chenxia, et al. Frustum PointNets for 3D object detection from RGB-D data[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 918-927.
[14]Vora S, Lang A H, Helou B, et al. PointPainting: sequential fusion for 3D object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 4604-4612.
[15]Huang Tengteng, Liu Zhe, Chen Xiwu, et al. EPNet: enhancing point features with image semantics for 3D object detection[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2020: 35-52.
[16]Liu Zhe, Huang Tengeng, Li Bingling, et al. EPNet+: cascade bi-directional fusion for multi-modal 3D object detection[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2022,45(7): 8324-8341.
[17]Chen Yukang, Li Yanwei, Zhang Xiangyu, et al. Focal sparse convolutional networks for 3D object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 5428-5437.
[18]Zhang Haolin, Yang Dongfang, Yurtsever E, et al. Faraway-Frustum: dealing with lidar sparsity for 3D object detection using fusion[C]//Proc of IEEE International Intelligent Transportation Systems Conference. Piscataway, NJ: IEEE Press, 2021: 2646-2652.
[19]Wang Meiling, Zhao Lin, Yue Yufeng. PA3DNet: 3-D vehicle detection with pseudo shape segmentation and adaptive camera-LiDAR fusion[J]. IEEE Trans on Industrial Informatics, 2023,19(11): 10693-10703.
[20]Pang Su, Morris D, Radha H. CLOCs: camera-LiDAR object candidates fusion for 3D object detection[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, NJ: IEEE Press, 2020: 10386-10393.
[21]Cai Zhaowei, Vasconcelos N. Cascade R-CNN: delving into high quality object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 6154-6162.
[22]Wu Hai, Deng Jinhao, Wen Chenglu, et al. CasA: a cascade attention network for 3-D object detection from LiDAR point clouds[J]. IEEE Trans on Geoscience and Remote Sensing, 2022, 60:1-11.
[23]Cai Qi, Pan Yingwei, Yao Ting, et al. 3D cascade RCNN: high quality object detection in point clouds[J]. IEEE Trans on Image Processing, 2022,31: 5706-5719.
[24]Yoo J H, Kim Y, Kim J, et al. 3D-CVF: generating joint camera and LiDAR features using cross-view spatial feature fusion for 3D object detection[C]//Proc of the 16th European Conference on Computer Vision. Cham: Springer, 2020: 720-736.
[25]Zhang Zehan, Shen Yuxi, Li Hao, et al. Maff-Net: filter false positive for 3D vehicle detection with multi-modal adaptive feature fusion[C]//Proc of International Conference on Intelligent Transportation Systems. Piscataway, NJ: IEEE Press, 2022: 369-376.
[26]Kim J, Koh J, Kim Y, et al. Robust deep multi-modal learning based on gated information fusion network[C]//Proc of Asian Confe-rence on Computer Vision. Cham: Springer, 2018: 90-106.
[27]Chen Zehui, Li Zhenyu, Zhang Shiquan, et al. Autoalignv2: defor-mable feature aggregation for dynamic multi-modal 3D object detection[C]// Proc of European Conference on Computer Vision. Cham: Springer, 2022: 628-644.
[28]Zhu Xizhou, Su Weijie, Lu Lewei, et al. Deformable DETR: deformable transformers for end-to-end object detection[C]//Proc of International Conference on Learning Representations. 2020: 1-12.
[29]Deng Jiajun, Shi Shaoshuai, Li Peiwei, et al. Voxel R-CNN: towards high performance voxel-based 3D object detection[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2021: 1201-1209.
[30]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in Neural Information Processing Systems. Red Hook,NY: Curran Associates Inc., 2017: 5998-6008.
[31]Geiger A, Lenz P, Urtasun R. Are we ready for autonomous driving?The KITTI vision benchmark suite[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2012: 3354-3361.
[32]Chen L C, Zhu Yukun, Papandreou G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2018: 801-818.