錢 多,殷 俊
(上海海事大學(xué)信息工程學(xué)院,上海,201306)
實(shí)現(xiàn)自動(dòng)駕駛系統(tǒng)的必要條件是車輛能正確識(shí)別并檢測(cè)三維環(huán)境中的各個(gè)目標(biāo),攝像機(jī)和激光雷達(dá)是目前三維目標(biāo)檢測(cè)領(lǐng)域中使用最多的兩種傳感器,分別生成圖像數(shù)據(jù)和點(diǎn)云數(shù)據(jù).對(duì)于單模態(tài)數(shù)據(jù)方法,由于圖像缺少深度信息,難以獲取與目標(biāo)的距離,所以基于圖像的方法通常將圖像投影至俯視角平面[1],學(xué)習(xí)特征的深度信息[2]或檢測(cè)關(guān)鍵點(diǎn)[3],但這類方法獲取的深度信息受限于圖像視野,對(duì)遮擋或阻隔的物體難以檢測(cè).由于點(diǎn)云能獲取精準(zhǔn)的深度信息,所以基于激光雷達(dá)的方法能在三維空間中提取特征,SECOND[4]將點(diǎn)云先處理成體素形式,并提出稀疏三維卷積減少內(nèi)存使用.PointPillars[5]將點(diǎn)云信息投影至俯視圖平面,形成偽二維圖像.陸慧敏和楊朔[6]將體素全局特征和點(diǎn)云局部特征相結(jié)合.但這類方法受限于點(diǎn)云數(shù)據(jù)的分辨率,對(duì)遠(yuǎn)距離物體的識(shí)別較困難[7],而融合多模態(tài)數(shù)據(jù)能夠很好地彌補(bǔ)兩種數(shù)據(jù)的缺點(diǎn),基于多模態(tài)融合的方法中的數(shù)據(jù)之間能夠信息互補(bǔ),補(bǔ)充單模態(tài)數(shù)據(jù)獲取不到的信息[8].
Frustum PointNet[9]和Frustum ConvNet[10]使用成熟的二維檢測(cè)器生成二維候選框,再將該候選框轉(zhuǎn)變?yōu)槿S視錐框,最后對(duì)該三維框進(jìn)行估計(jì).該類方法非常依賴二維檢測(cè)器的性能,當(dāng)目標(biāo)在圖像視野內(nèi)無法觀察到,而點(diǎn)云視野能觀察到時(shí),該類方法即失效.MV3D(Multi-View 3D Object Detection Network )[11]首先將多視圖融合應(yīng)用到三維目標(biāo)檢測(cè),將原始點(diǎn)云投影到俯視圖和前視圖,并提出三維區(qū)域建議網(wǎng)絡(luò)在俯視圖特征中計(jì)算候選區(qū)域,將候選區(qū)域與點(diǎn)云俯視圖、點(diǎn)云前視圖和圖像特征進(jìn)行整合,最后將三者深度融合.AVOD(Aggregate View Object Detection )[12]在前者的基礎(chǔ)上舍棄MV3D 的前視圖點(diǎn)云信息,使用特征金字塔(Feature Pyramid Networks,F(xiàn)PN)[13]來提高小物體的檢測(cè)效果,但其總體性能低于純雷達(dá)方法,因?yàn)閷⒃键c(diǎn)云轉(zhuǎn)化為俯視角圖像時(shí)會(huì)丟失部分空間信息.BEV-Fusion[14]將點(diǎn)云特征直接按Z軸展平獲取俯視角特征,同時(shí)對(duì)相機(jī)圖像特征進(jìn)行深度估計(jì)[2],將其投影到俯視角平面與點(diǎn)云俯視角特征拼接融合.MMF(Multi-Task Multi-Sensor Fusion for 3D Object Detection)[15]用圖像信息增強(qiáng)雷達(dá)俯視角特征,融合多尺度圖像特征,再將融合后的圖像特征通過連續(xù)卷積層后與多尺度雷達(dá)俯視角特征融合,使圖像和點(diǎn)云俯視角特征圖之間有較準(zhǔn)確的對(duì)應(yīng)關(guān)系.CLOCs(Camera-LiDAR Object Candidates Fusion for 3D Object Detection)[16]與前幾種深度融合方法不同,屬于后期融合,利用檢測(cè)框的語(yǔ)義一致性,將圖像檢測(cè)器檢測(cè)到的二維框和點(diǎn)云檢測(cè)器得到的三維框進(jìn)行融合,其性能很大程度上依賴單模態(tài)檢測(cè)器的檢測(cè)性能.
上述研究在數(shù)據(jù)處理階段將點(diǎn)云數(shù)據(jù)處理成俯視圖形式,而圖像數(shù)據(jù)僅用二維編碼器提取特征[11-12,15],所以在融合階段多模態(tài)特征之間沒有很好的對(duì)應(yīng)關(guān)系,融合操作反而降低了三維目標(biāo)的檢測(cè)效果.將點(diǎn)云數(shù)據(jù)處理成俯視角特征是目前最有效的方式,如果能將圖像信息也處理至俯視角視圖,則融合時(shí)多模態(tài)特征之間會(huì)有較強(qiáng)的對(duì)應(yīng)關(guān)系,檢測(cè)效果會(huì)更優(yōu)秀.基于這種考慮,本文提出一種基于俯視角深度融合的多模態(tài)三維目標(biāo)檢測(cè)網(wǎng)絡(luò),主要貢獻(xiàn):(1)將不具備深度信息的圖像信息轉(zhuǎn)為俯視角,就能更好地利用跨模態(tài)信息;(2)在俯視圖視角下選擇較合理的深度特征來進(jìn)行融合操作.
基于俯視角深度融合的多模態(tài)三維目標(biāo)檢測(cè)網(wǎng)絡(luò)的總體結(jié)構(gòu)如圖1 所示.該網(wǎng)絡(luò)先將單模態(tài)數(shù)據(jù)用各自的特征提取網(wǎng)絡(luò)提取特征,對(duì)于點(diǎn)云數(shù)據(jù)使用SECOND(Sparsely Embedded Convolutional Detection)[4]網(wǎng)絡(luò)獲取俯視角下的點(diǎn)云體素特征,對(duì)于圖像數(shù)據(jù)使用ResNet[17]網(wǎng)絡(luò)并引入FPN[13]獲得多尺度圖像特征,再通過圖像稠密變換層轉(zhuǎn)化為圖像俯視角特征.在融合階段,將處理后的圖像俯視角特征與點(diǎn)云俯視角特征融合,最后交由三維區(qū)域建議網(wǎng)絡(luò)執(zhí)行三維目標(biāo)檢測(cè).
圖1 本文模型的網(wǎng)絡(luò)架構(gòu)Fig.1 The architecture of the proposed model
2.1 俯視圖特征轉(zhuǎn)變圖像特征通過圖像稠密變換層轉(zhuǎn)變?yōu)楦┮暯翘卣?,其轉(zhuǎn)變流程如圖2 所示.由于圖像特征缺乏深度信息,網(wǎng)絡(luò)需要大量的垂直信息來將特征映射到俯視圖,但在水平方向上可以使用簡(jiǎn)單的相機(jī)幾何體建立俯視圖位置和圖像位置之間的關(guān)系[1].二維檢測(cè)器給出了圖像特征(B×C×H×W),其中,B為批處理大小,C為圖像通道維度,H為圖像垂直維度,W為圖像水平維度.將圖像通道維度C和垂直維度H在圖像水平維度W展平得到(C×H×W)的一維沿水平軸特征,將其通過一維卷積并重塑成尺寸為(C×Z×W)的張量,其中,Z為深度維度.由于相機(jī)透視原因,該張量為相機(jī)坐標(biāo)系下的俯視角特征,在特征維度上二者相同,從H維度到Z維度的轉(zhuǎn)變可以更好地理解重塑的特征.在融合階段,將所得的俯視角特征用于增強(qiáng)點(diǎn)云特征,而不是直接用于三維目標(biāo)檢測(cè).此外,在多模態(tài)方法中可以將相機(jī)坐標(biāo)系中的特征與笛卡爾坐標(biāo)系中的點(diǎn)云特征進(jìn)行融合,無須將特征重新采樣至同一坐標(biāo)系[15],因?yàn)檎蛊讲僮鲿?huì)消耗大量系統(tǒng)資源,在設(shè)置參數(shù)時(shí)必須謹(jǐn)慎考慮,尤其對(duì)于高分辨率的特征圖,這種操作可能會(huì)導(dǎo)致內(nèi)存不足.因此,在進(jìn)行特征展平之前,可以通過卷積等方式來減少內(nèi)存消耗,同時(shí)盡量減少特征的信息損失.
圖2 俯視圖的特征轉(zhuǎn)變Fig.2 Feature transformation of Bird-Eye-View
2.2 多尺度2D 特征提取網(wǎng)絡(luò)與點(diǎn)云數(shù)據(jù)相比,RGB 圖像數(shù)據(jù)能獲取更豐富的環(huán)境信息.為了在二維特征提取網(wǎng)絡(luò)中獲取不同尺寸、不同距離的特征,需要轉(zhuǎn)化多個(gè)特征圖并進(jìn)行拼接.本文提出的網(wǎng)絡(luò)模型選擇ResNet50+FPN 為特征提取網(wǎng)絡(luò),將FPN 輸出的多尺寸特征圖轉(zhuǎn)變?yōu)楦┮暯翘卣鞑⑦M(jìn)行拼接,如圖3 所示,其中,P3,P4,P5,P6,P7 為FPN 使用的自頂向下及橫向連接的策略,最終得到五個(gè)輸出特征.
圖3 多尺度2D 特征提取網(wǎng)絡(luò)Fig.3 Multi-scale 2D feature extraction network
對(duì)于FPN 給出的多尺寸特征圖,其轉(zhuǎn)化得到的俯視角特征尺寸也不同.將多尺度特征通過圖像稠密變換層轉(zhuǎn)變?yōu)榫植扛┮暯翘卣?,該特征與三維檢測(cè)網(wǎng)絡(luò)輸出特征僅有通道數(shù)不同,再將其按大小在水平維度依次拼接,獲得全局圖像俯視角特征.對(duì)于不同分辨率的特征圖,其轉(zhuǎn)變至俯視圖的占比也不一樣,俯視圖占比與分辨率大小成正比,與FPN 下采樣因子成反比,如下所示:
其中,Sk為FPN 下采樣因子,k=0,1,2,3,4;Zk為第k個(gè)輸出層對(duì)應(yīng)的俯視圖的距離(單位:m);xmax為點(diǎn)云空間x維度的最大值,實(shí)驗(yàn)中取70.4 m.多尺度特征對(duì)應(yīng)的俯視圖占比如表1 所示.
表1 多尺度特征在俯視圖占比Table 1 Proportion of multi-scale features in Bird-Eye-View
2.3 多模態(tài)特征融合按照數(shù)據(jù)在處理過程中的不同階段可將融合方式分三種:(1)早期融合,即在特征提取前將多傳感器數(shù)據(jù)融合;(2)后期融合,即單模態(tài)數(shù)據(jù)單獨(dú)檢測(cè),在決策階段進(jìn)行融合;(3)深度融合,即將中間特征融合[8].早期融合是最容易理解的一種融合方式,但在操作時(shí)需注意多模態(tài)數(shù)據(jù)之間的差異,如數(shù)據(jù)表示方式、稀疏度、數(shù)據(jù)間是否對(duì)齊和同步等,這些差異不一定能依靠網(wǎng)絡(luò)解決,一般需要在數(shù)據(jù)處理階段解決.后期融合,對(duì)于單模態(tài)數(shù)據(jù)可以選擇比較成熟的檢測(cè)器,多模態(tài)數(shù)據(jù)之間無須考慮同步或?qū)R問題,只需要在融合階段校準(zhǔn)或標(biāo)記.深度融合是目前選擇最多的融合方式,是在處理過程中結(jié)合特征,可以針對(duì)不同的網(wǎng)絡(luò)需求選擇融合操作.
本文提出的網(wǎng)絡(luò)采用深度融合方法,將圖像和點(diǎn)云的俯視角特征進(jìn)行融合.對(duì)于圖像數(shù)據(jù),按2.1 和2.2 的方法獲取圖像全局俯視角特征;對(duì)于點(diǎn)云數(shù)據(jù),采用SECOND[4]獲取點(diǎn)云俯視角特征.SECOND 主要包括體素特征編碼層、稀疏卷積中間層和三維區(qū)域建議網(wǎng)絡(luò).體素特征編碼層對(duì)原始點(diǎn)云信息進(jìn)行編碼再轉(zhuǎn)化為體素信息.與VoxelNet[18]的直接三維卷積不同,SECOND在稀疏卷積中間層使用多個(gè)稀疏卷積進(jìn)行特征提取,并按Z軸將其壓縮為俯視角特征圖.將該俯視角特征圖與圖像俯視角特征圖進(jìn)行融合,對(duì)特征的融合操作分別采用拼接和元素平均,這兩種方法都廣泛用于多模態(tài)特征融合.基于圖像的特征融合多數(shù)傾向元素相加[11-12],基于俯視角圖像的特征融合更傾向于拼接[14].元素相加要求圖像特征和點(diǎn)云特征尺寸完全相同,其作用相當(dāng)于用圖像信息加強(qiáng)點(diǎn)云信息,融合后的特征仍然可以看作是點(diǎn)云特征,進(jìn)行后續(xù)的分類和回歸.拼接方法在尺寸方面可以有一個(gè)維度不同,通常為通道維度并按該維度拼接,融合后的特征不能看作點(diǎn)云特征,需要再通過卷積提取特征后繼續(xù)后續(xù)操作.融合后的特征交由SECOND 中的三維區(qū)域建議網(wǎng)絡(luò)執(zhí)行分類和三維框回歸,與Faster-RCNN[19]中的區(qū)域建議網(wǎng)絡(luò)相似,該網(wǎng)絡(luò)主要用于在主干網(wǎng)絡(luò)提取的特征中生成邊界框.
2.4 網(wǎng)絡(luò)細(xì)節(jié)特征提取階段,三維檢測(cè)網(wǎng)絡(luò)輸出特征的尺寸為[512,200,176],F(xiàn)PN 輸出多尺度特征通道數(shù)為256.在圖像俯視角特征轉(zhuǎn)變階段,為了減少顯存資源的消耗,將各尺寸特征通過卷積核為1×1 的二維卷積,使其維度下降至96 維并用組歸一化.對(duì)于卷積后的張量,將通道維度和垂直維度展平,通過卷積核為3 的一維卷積,其輸入通道為通道數(shù)和垂直維度相乘,輸出維度為通道數(shù)與特征在俯視圖占比,再將特征重塑至俯視角平面并將多尺度特征拼接為[256,200,176].與三維檢測(cè)網(wǎng)絡(luò)輸出特征僅有通道數(shù)不同,在融合階段,對(duì)于拼接操作,二者按照通道維度拼接得到[768,200,176]的特征,通過3×3 卷積核采樣至[512,200,176];對(duì)于元素相加方法,將圖像俯視角特征通過3×3 反卷積至512 維并按元素融合,最后也同樣得到尺寸為[512,200,176]的特征.
本節(jié)介紹實(shí)驗(yàn)的設(shè)置和結(jié)果,包括在KITTI數(shù)據(jù)集上對(duì)2D,3D 和俯視圖(Bird-Eye-View,BEV)的目標(biāo)檢測(cè),檢測(cè)了車輛、行人和騎行人三類的3D 檢測(cè)性能,并對(duì)車輛類進(jìn)一步檢測(cè)其2D和BEV 效果.實(shí)驗(yàn)結(jié)果證明,本文提出的網(wǎng)絡(luò)優(yōu)于其他流行的多模態(tài)三維目標(biāo)檢測(cè)算法.
3.1 數(shù)據(jù)集KITTI 數(shù)據(jù)集[20]包含激光點(diǎn)云數(shù)據(jù)和相機(jī)圖像數(shù)據(jù),包括7481 個(gè)訓(xùn)練樣本和7518個(gè)測(cè)試樣本,根據(jù)目標(biāo)大小、遮擋程度和截?cái)鄬?biāo)簽分為三個(gè)難度(簡(jiǎn)單,中等,困難).
使用兩個(gè)評(píng)價(jià)指標(biāo).通過精確-召回曲線計(jì)算得到的平均精度(Average Precision,AP)是一個(gè)綜合指標(biāo),可衡量檢測(cè)算法在不同置信度水平下的準(zhǔn)確度.IoU(Intersection over Union)反映預(yù)測(cè)模型和現(xiàn)有模型的相似性,被廣泛用來評(píng)估目標(biāo)識(shí)別技術(shù)的準(zhǔn)確性.對(duì)車輛的2D,3D 和BEV 評(píng)估,IoU的閾值為0.7;對(duì)行人和騎行人的3D 檢測(cè),IoU的閾值為0.5.
3.2 實(shí)驗(yàn)設(shè)置檢測(cè)車輛前方70.4 m、左右40 m 內(nèi)的物體,與點(diǎn)云的獲取范圍相同.設(shè)置點(diǎn)云體素大小為[0.05 m,0.05 m,0.1 m],點(diǎn)云體素化后將其輸入三維檢測(cè)網(wǎng)絡(luò),每個(gè)體素取五個(gè)點(diǎn)云的均值作為該體素的值,并取前16000 個(gè)體素作為卷積中間層的輸入.將圖像信息隨機(jī)重塑為(640×192)或(2560×768).在單張P100(16 GB)顯卡上部署實(shí)驗(yàn),測(cè)試檢測(cè)網(wǎng)絡(luò),設(shè)置批處理大小為1.網(wǎng)絡(luò)共訓(xùn)練40 個(gè)循環(huán),選用Adam 優(yōu)化器并設(shè)置其網(wǎng)絡(luò)初始學(xué)習(xí)率為0.0001,該學(xué)習(xí)率按循環(huán)數(shù)衰減.
3.3 實(shí)驗(yàn)結(jié)果與分析將本文提出的網(wǎng)絡(luò)與流行的多模態(tài)方法進(jìn)行比較,車輛3D 檢測(cè)結(jié)果如表2 所示,BEV 檢測(cè)結(jié)果如表3 所示,2D 檢測(cè)結(jié)果如表4 所示,表中黑體字表示結(jié)果最優(yōu).
表3 KITTI 車輛BEV 檢測(cè)結(jié)果的平均精度Table 3 Average Precision of BEV vehicle detection results on KITTI dataset
表4 KITTI 車輛2D 檢測(cè)結(jié)果的平均精度Table 4 Average Precision of 2D vehicle detection results on KITTI dataset
本文提出的網(wǎng)絡(luò)在車輛3D 檢測(cè)任務(wù)中表現(xiàn)出微弱優(yōu)勢(shì),雖然在困難子集中的表現(xiàn)顯著優(yōu)于先進(jìn)的MMF 網(wǎng)絡(luò),但在中等子集中表現(xiàn)較差,可能是因?yàn)橹械茸蛹械臉颖颈徊糠终趽酰瑢?dǎo)致各模態(tài)俯視圖的特征圖存在歧義.具體地,在點(diǎn)云俯視圖特征圖中能認(rèn)知到車輛,而在圖像俯視圖特征圖中由于視野有限,無法完整認(rèn)知到車輛,二者融合后導(dǎo)致最終的檢測(cè)框有偏移,使IoU降低.對(duì)于困難子集,由于樣本大部分被遮擋,所以在圖像俯視圖特征圖中幾乎不會(huì)認(rèn)知到該樣本,而在點(diǎn)云俯視圖特征圖中能被認(rèn)知,最終檢測(cè)框沒有發(fā)生偏移,因此在該子集中表現(xiàn)領(lǐng)先.與基準(zhǔn)的SECOND 網(wǎng)絡(luò)相比,拼接方法在簡(jiǎn)單子集中的檢測(cè)效果提升2.98%,在困難子集中提升3.70%.在車輛BEV 檢測(cè)中,本文提出的方法存在較明顯的優(yōu)勢(shì),在簡(jiǎn)單子集中領(lǐng)先2.43%,在困難子集中領(lǐng)先3.91%,在中等子集中略微落后,原因與3D 檢測(cè)中落后的原因一致.與SECOND 網(wǎng)絡(luò)相比,在簡(jiǎn)單子集中的檢測(cè)效果相差不大,但在困難子集中提升2.62%.在車輛2D 檢測(cè)任務(wù)中,本文提出的方法在簡(jiǎn)單子集中領(lǐng)先約4%,在其他子集中表現(xiàn)相差不大.對(duì)于特征融合方法的選擇,探討拼接和元素相加兩種方法,實(shí)驗(yàn)結(jié)果顯示差別不明顯,總體上拼接略優(yōu)于元素相加.拼接方法在拼接后對(duì)特征作卷積提取特征,而元素相加方法對(duì)點(diǎn)云數(shù)據(jù)的增強(qiáng)沒有進(jìn)一步提取特征,這可能是元素相加方法略遜的原因.
對(duì)行人和騎行人做3D 檢測(cè),結(jié)果如表5 和表6 所示,表中黑體字表示結(jié)果最優(yōu).對(duì)于行人,本文提出的網(wǎng)絡(luò)在簡(jiǎn)單子集中略微落后,但在中等和困難子集中領(lǐng)先2.11%和2.02%,原因是在點(diǎn)云特征轉(zhuǎn)變?yōu)楦┮暯翘卣鲿r(shí),行人在點(diǎn)云俯視角特征圖中僅占1~2 個(gè)體素,而融合圖像俯視角特征能提高對(duì)行人的檢測(cè)能力.騎行人的檢測(cè)結(jié)果比其他方法大幅落后,可能因?yàn)樵谧R(shí)別行人和騎行人這兩類小目標(biāo)時(shí),小目標(biāo)在點(diǎn)云數(shù)據(jù)中較稀疏,其檢測(cè)能力依賴二維目標(biāo)檢測(cè),而在二維檢測(cè)中圖像沒有被正確識(shí)別,融合特征的效果不佳.
表5 KITTI 行人3D 檢測(cè)結(jié)果的平均精度Table 5 Average Precision of 3D pedestrian detection results on KITTI dataset
表6 KITTI 騎行人3D 檢測(cè)結(jié)果的平均精度Table 6 Average Precision of 3D cyclist detection results on KITTI dataset
對(duì)檢測(cè)結(jié)果作可視化分析,圖4 展示了兩個(gè)樣本的最終檢測(cè)結(jié)果,圖中藍(lán)色框?yàn)轭A(yù)測(cè)框,橙色框?yàn)檎鎸?shí)框,每個(gè)樣本的上一張圖為三維檢測(cè)框在二維圖像中的投影,下一張圖為三維檢測(cè)框在點(diǎn)云視圖中的檢測(cè)情況.如圖4a 所示,本文提出的網(wǎng)絡(luò)對(duì)近距離和中距離目標(biāo)的檢測(cè)效果較好,真實(shí)框和預(yù)測(cè)框在很大程度上重合,但對(duì)遠(yuǎn)距離目標(biāo)的檢測(cè)效果較差,沒能檢測(cè)到遠(yuǎn)距離的轎車.原因可能是圖像信息對(duì)遠(yuǎn)距離目標(biāo)經(jīng)過特征提取后只有1~2 個(gè)像素,點(diǎn)云信息在俯視圖中僅有不到5 個(gè)體素,二者融合不能增強(qiáng)點(diǎn)云信息,也不能給點(diǎn)云作引導(dǎo)參考.圖4b 中,本文提出的網(wǎng)絡(luò)對(duì)近距離和中距離目標(biāo)的檢測(cè)果較好,圖4b 中左下角車輛目標(biāo)被大部分截?cái)啵材苷_識(shí)別.
圖4 三維目標(biāo)檢測(cè)結(jié)果的可視化Fig.4 Visualization of 3D object detection results
本文提出一種基于俯視角融合的多模態(tài)三維目標(biāo)檢測(cè)網(wǎng)絡(luò),充分利用多模態(tài)數(shù)據(jù),將圖像信息和點(diǎn)云信息轉(zhuǎn)變?yōu)楦┮暯翘卣鞑⑷诤?,使二者有更深層次的?lián)系,并利用多模態(tài)數(shù)據(jù)之間的信息互補(bǔ)來補(bǔ)充單模態(tài)數(shù)據(jù)獲取不到的信息.對(duì)融合方法的選擇,比較了元素相加和特征拼接兩種方法,證明特征拼接方法對(duì)俯視角特征融合能得到更好的結(jié)果.在KITTI 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出的網(wǎng)絡(luò)的車輛和行人檢測(cè)效果優(yōu)于其他流行的三維目標(biāo)檢測(cè)網(wǎng)絡(luò).
將多尺度圖像特征轉(zhuǎn)變?yōu)楦┮暯翘卣鞯姆椒ㄈ匀淮嬖跀?shù)據(jù)處理時(shí)間較長(zhǎng)和小目標(biāo)檢測(cè)效果不佳的問題,需要進(jìn)一步調(diào)整網(wǎng)絡(luò)來改進(jìn).此外,數(shù)據(jù)處理方面可以使用不同的圖像和點(diǎn)云特征提取方式,如原始點(diǎn)云或點(diǎn)柱方法;在俯視圖轉(zhuǎn)變方面,需要減少特征轉(zhuǎn)變的時(shí)間,如減少卷積和反卷積次數(shù);在融合方式方面,可以嘗試多種方法,如元素加權(quán)平均和深度多次融合等.