三維場景分割中多模態(tài)數(shù)據(jù)融合的2D-3D耦合網(wǎng)絡(luò)＊

2023-01-30 04:08李曉霞

計算機(jī)時代 2023年1期

李曉霞，陳強(qiáng)

(廣東第二師范學(xué)院計算機(jī)學(xué)院，廣東廣州 510303)

0 引言

場景分割，是計算機(jī)圖像處理的關(guān)鍵任務(wù)之一。由于場景遮擋和光照變化等因素的影響，對于復(fù)雜的場景，僅僅使用RGB 彩色圖像很難達(dá)到很高的分割精度。隨著三維傳感器技術(shù)的發(fā)展，三維數(shù)據(jù)逐漸應(yīng)用在計算機(jī)圖像處理領(lǐng)域。將二維數(shù)據(jù)和三維數(shù)據(jù)融合可以彌補(bǔ)各自的不足，使分割結(jié)果具有較高的精度和魯棒性。但是，多種模式的數(shù)據(jù)融合面臨著許多的技術(shù)挑戰(zhàn)，比如點云數(shù)據(jù)和圖像數(shù)據(jù)處理手段上差異巨大，直接將點云數(shù)據(jù)和圖像數(shù)據(jù)融合就不能很好地利用圖像數(shù)據(jù)提供的高分辨率信息。因此如何有效地融合RGB 二維數(shù)據(jù)和三維數(shù)據(jù)成為了三維場景分割的關(guān)鍵。

近些年，大量關(guān)于語義分割的研究中開始應(yīng)用多模態(tài)融合技術(shù)。多模態(tài)融合技術(shù)將來自不同傳感器的數(shù)據(jù)進(jìn)行多級特征融合，通過此方法可以提高三維場景的分割精度。文獻(xiàn)[1,2]將深度圖像作為附加通道，采用類似于RGB 語義分割的方法實現(xiàn)RGBD 語義分割。文獻(xiàn)[3]在RedNet網(wǎng)絡(luò)中設(shè)計了RGB 輸入和深度輸入兩種神經(jīng)網(wǎng)絡(luò)分支，并在采樣之前將其合并。然而，這些工作僅為顏色和深度通道建立了卷積神經(jīng)網(wǎng)絡(luò)模型，并將兩者簡單拼接在一起，由全卷積神經(jīng)網(wǎng)絡(luò)輸出結(jié)果。這種架構(gòu)忽略了顏色通道和深度通道之間存在較強(qiáng)相關(guān)性的事實，從而丟失了圖像的語義信息。

為了充分利用三維幾何信息和RGB 圖像信息，本文提出了一種基于多模態(tài)數(shù)據(jù)融合的2D-3D 耦合網(wǎng)絡(luò)。此網(wǎng)絡(luò)可以有效地利用空間和外觀信息從而較好地理解真實場景的語義信息。相比于之前那些更加關(guān)注不同模態(tài)數(shù)據(jù)的方法，本文采用平行的網(wǎng)絡(luò)架構(gòu)分別處理圖像數(shù)據(jù)和點云數(shù)據(jù)，并提取全局信息輔助兩種模態(tài)信息融合，從而提高了場景分割性能。

1 相關(guān)研究工作

近年來許多研究提出在場景中直接處理三維點云數(shù)據(jù)。點云數(shù)據(jù)主要包含結(jié)構(gòu)特征，提供的信息有限。比如對于表面形狀變化不大的物體，僅憑形狀數(shù)據(jù)很難區(qū)分。如若將RGB 圖像與點云融合，可以充分利用顏色信息和幾何信息，使模型具有更強(qiáng)的魯棒性。文獻(xiàn)[4]介紹了一種用于RGB-D 分割的雙流網(wǎng)絡(luò)，首先分別從RGB 和深度圖像中提取特征，然后使用變換網(wǎng)絡(luò)學(xué)習(xí)不同的模態(tài)特征。同樣地，F(xiàn)useNet網(wǎng)絡(luò)基于SegNet 網(wǎng)絡(luò)建立的兩個分支同時從深度和RGB 圖片提取特征[5]，然后將他們?nèi)诤显谝黄稹＿€有一些方法先將二維圖片信息映射到三維空間，然后與點云數(shù)據(jù)融合后再進(jìn)行特征提取[6]。

Luca Caltagirone 等[7]將三維數(shù)據(jù)映射到RGB 圖像平面并將其融合后提出了一種不同時期的融合策略。Dai 等[8]先從RGB 圖像中提取了二維特征，再將他們投射回三維體素。在這些方法中，雖然RGB 數(shù)據(jù)和點云數(shù)據(jù)可以用相似的格式表達(dá)，就像(R,G,B)和(X,Y,Z)，但他們具有不同的內(nèi)在屬性，表示了不同特征空間中的信息。這些方法不能充分利用RGB 圖像數(shù)據(jù)中豐富的外觀特征信息，導(dǎo)致提取的特征細(xì)節(jié)不夠充分，缺乏系統(tǒng)的特征融合。在大多數(shù)情況下，RGB 相機(jī)比三維傳感器具有更高的空間分辨率。在二維數(shù)據(jù)升級為三維數(shù)據(jù)之前，通過從高分辨率的圖像提取信息可以顯著提高融合算法的性能。

2 本文方法

本節(jié)介紹一種基于輸入的RGB 圖像和點云數(shù)據(jù)預(yù)測語義分割的新方法。雖然點云和RGB 圖像具有相似的輸入格式，但是處理方法卻非常不同的。點云數(shù)據(jù)是不規(guī)則的、無序的，而RGB 圖像則是規(guī)則的，有序的。如何有效地從兩種不同格式的數(shù)據(jù)中提取有用特征是非常關(guān)鍵的。本文提出了一個多模態(tài)數(shù)據(jù)融合的2D-3D 耦合網(wǎng)絡(luò)，有效地利用空間信息和外觀信息，更好地理解真實場景的三維信息。

本文設(shè)計了一個異構(gòu)雙流式結(jié)構(gòu)，如圖1所示，給出了網(wǎng)絡(luò)的總體框架。網(wǎng)絡(luò)主要包含三大部分：①二維分支，用來提取圖像特征；②三維分支，從原始的點云數(shù)據(jù)中提取特征信息；③特征融合，整合前兩個輸出的結(jié)果，預(yù)測最終結(jié)果。此結(jié)構(gòu)簡單、高效，充分利用了兩種數(shù)據(jù)源各自的優(yōu)點，并且在數(shù)據(jù)處理上不會引起偏差。

圖1 本文方法整體結(jié)構(gòu)圖

2.1 輕量級RGB特征提取路徑

與現(xiàn)有方法中直接將二維圖像和三維點云數(shù)據(jù)融合不同，本文采用并行的雙分支結(jié)構(gòu)來處理二維和三維數(shù)據(jù)，可幫助網(wǎng)絡(luò)更加充分的利用不同空間內(nèi)的數(shù)據(jù)信息。二維分支的功能是提取二維圖像的特征。通常，二維圖像相機(jī)具有更高的空間分辨率，因此對其進(jìn)行獨立特征提取可以獲得更詳細(xì)的信息。本文采用U-Net 模型對RGB 圖像特征進(jìn)行提取，因為UNet 簡單快速并有利于網(wǎng)絡(luò)對模型進(jìn)行端到端的聯(lián)合訓(xùn)練。設(shè)輸入圖像為I∈RH×W×3，其中H和W分別表示圖像的高度和寬度，圖像的通道數(shù)為3。通過U-Net提取到的圖像特征如下：

其中，Θ1∈RH×W×C，C代表了圖像特征的維度。

不同于傳統(tǒng)方法中的將3D 點云數(shù)據(jù)轉(zhuǎn)換成體素或映射為二維視圖，本文直接使用無序的點云作為三維點云分支的輸入，避免了數(shù)據(jù)轉(zhuǎn)換造成的信息丟失。對于輸入的點集x∈RN×3，N代表了點的數(shù)量。在三維點云分支中，為了提高模型的適用性，減少數(shù)據(jù)旋轉(zhuǎn)、轉(zhuǎn)換和其他更改的影響，本文采用PointNet中的T-Net網(wǎng)絡(luò)使數(shù)據(jù)與原點坐標(biāo)對齊。

2.2 特征融合

多模式特征學(xué)習(xí)的目標(biāo)是在不同模式之間以可控的方式傳遞和融合特征，使不同模式的信息相互補(bǔ)充，從而有效地提高方法的性能。為了整合二維和三維空間的特征，首先基于投影原理和相機(jī)內(nèi)外部參數(shù)建立RGB 特征空間到3D 特征空間的映射。設(shè)為原始圖像特征，θk∈為映射后的圖像特征，其中，NI≤H×W是采樣像素數(shù)。預(yù)測輸入點云是進(jìn)行語義識別和分割的必要步驟，因此建立了輸入點云相應(yīng)的RGB 特征。對于點云中的一點i，在θk域內(nèi)可找到n個相鄰點來提取新特征為：

首先，將RGB特征與點云特征點對點融合后，得到：

其中，θP為通過三維分支提取的特征，θF∈，C1和C2分別表示二維空間和三維空間的特征向量維度，Γ()表示串聯(lián)操作。

接著，從二維分支和三維分支中提取的全局特征為

最后，將融合后的特征進(jìn)行1×1 的卷積操作，以提高局部和全局特征的融合性并對不相關(guān)的噪聲信息進(jìn)行過濾。對于融合后的特征，采用MLP層來預(yù)測語義標(biāo)簽。MLP 層的通道數(shù)為512、128 和C，其中C是最終為點云中的每個點輸出語義標(biāo)簽的數(shù)量。

3 實驗與分析

3.1 數(shù)據(jù)集

本文的主要任務(wù)是基于三維點云數(shù)據(jù)和RGB 圖片數(shù)據(jù)進(jìn)行語義理解。因此，需要在數(shù)據(jù)采集過程中獲取攝像頭的參數(shù)。本文使用目前在2D和3D語義分割最具挑戰(zhàn)性的室內(nèi)場景數(shù)據(jù)集——Scannet 數(shù)據(jù)集[9]。該數(shù)據(jù)集主要基于辦公和居住場所，包含1513個室內(nèi)掃描場景數(shù)據(jù)，其中的1201 個場景用于訓(xùn)練，312 個用于測試。當(dāng)訓(xùn)練過程中整個場景的標(biāo)記點超過30%時，就從場景中隨機(jī)選取一個與地面平行的1.5m×1.5m區(qū)域，從該區(qū)域隨機(jī)采集8192點作為一個訓(xùn)練或者測試的輸入樣本。與此同時，為了增加訓(xùn)練樣本數(shù)可將整個區(qū)域沿著Z軸進(jìn)行隨機(jī)旋轉(zhuǎn)。

3.2 具體實現(xiàn)步驟

⑴訓(xùn)練過程

在訓(xùn)練過程中采用Adam 優(yōu)化算法。初始學(xué)習(xí)速率設(shè)置為10-3，批大小設(shè)置為6。本文提出的模型基于Python 3.6 和PyTorch 0.4.1 實現(xiàn)，以端到端的方式進(jìn)行訓(xùn)練，并利用帶權(quán)重的交叉熵?fù)p失解決樣本類別不均衡的問題。

⑵評價指標(biāo)

本文采用總體準(zhǔn)確度（OA）和平均交并比（mIoU）評價所提出模型的性能。在進(jìn)行語義分割中，OA表示每一類預(yù)測正確數(shù)量的占比，IoU 表示目標(biāo)類的分割域和真實路面語義類的交集率，平均IoU 級可以測量整個數(shù)據(jù)集中所有語義類的交并比。準(zhǔn)確度和交并比可表示為：

其中，變量TP,FP,TN,FN分別表示檢測對的正樣本、檢測錯的正樣本，檢測對的負(fù)樣本、檢測錯的負(fù)樣本。

3.3 結(jié)果

表1 給出了ScanNet 數(shù)據(jù)集中的模型采用不同方法計算得到的性能對比。由表1 可知，本文所提出方法的mIoU 值在大多數(shù)類別上要優(yōu)于基于點云的方法和基于數(shù)據(jù)融合的方法。這驗證了將二維圖像特征升級到三維空間進(jìn)行融合的有效性，對于椅子、桌子之類的具有平面特征的物體，效果更加明顯。采用本文方法可達(dá)到較好性能的原因在于：①本文模型直接使用三維點云數(shù)據(jù)，消除了數(shù)據(jù)轉(zhuǎn)化過程中存在的量化誤差；②本文在特征融合過程中利用了全局特征；③在進(jìn)行特征提取時，平行分支保留了兩種數(shù)據(jù)原有的維度。圖2給出了可視化結(jié)果，可以看出，該方法對大多數(shù)語義類都有很好的分割效果，比如沙發(fā)、門、地面、桌子、椅子等。

圖2 ScanNet數(shù)據(jù)集可視化結(jié)果

表1 ScanNet數(shù)據(jù)集中不同模型間的性能對比情況

4 結(jié)論

由于點云數(shù)據(jù)不受環(huán)境光的影響，使機(jī)器能夠較好地感知周圍信息，被廣泛應(yīng)用于各種智能系統(tǒng)中。但是點云數(shù)據(jù)中包含的信息極其有限，其中的幾何信息不能將復(fù)雜場景完全表達(dá)，而RGB 圖像中包含的顏色和紋理信息可以對點云信息進(jìn)行補(bǔ)償。為了能充分利用兩種類型的數(shù)據(jù)來提高算法的性能，本文提出了一個端到端的3D 的語義理解網(wǎng)絡(luò)，將點云和RGB圖像聯(lián)合輸入，用以預(yù)測三維場景中的稠密語義標(biāo)簽。首先，提出了一種平行的異步結(jié)構(gòu)分布處理圖像特征和點云特征，保留了數(shù)據(jù)的原始特征。然后，采用密集特征融合和全局特征融合相結(jié)合的方式，建立特征融合網(wǎng)絡(luò)，利用多模態(tài)數(shù)據(jù)實現(xiàn)場景語義分割。本文提出的方法能夠?qū)μ卣鬟M(jìn)行密集融合，有效地利用了整個場景中的二維圖像特征、幾何結(jié)構(gòu)和全局先驗信息。實驗結(jié)果表明，本文方法具有較好的精度，在ScanNet數(shù)據(jù)集的mIoU值達(dá)到了0.622。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡