郝雯,汪洋,魏海南
基于多特征融合的點(diǎn)云場景語義分割
郝雯*,汪洋,魏海南
(西安理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,西安 710048)( ? 通信作者電子郵箱haowensxsf@163.com)
為挖掘特征間的語義關(guān)系以及空間分布信息,并通過多特征增強(qiáng)進(jìn)一步改善點(diǎn)云語義分割的效果,提出一種基于多特征融合的點(diǎn)云場景語義分割網(wǎng)絡(luò)(MFF-Net)。所提網(wǎng)絡(luò)以點(diǎn)的三維坐標(biāo)和改進(jìn)后的邊特征作為輸入,首先,利用-近鄰(NN)算法搜尋點(diǎn)的近鄰點(diǎn),并在三維坐標(biāo)和近鄰點(diǎn)間坐標(biāo)差值的基礎(chǔ)上計(jì)算幾何偏移量,從而增強(qiáng)點(diǎn)的局部幾何特征表示;其次,將中心點(diǎn)與近鄰點(diǎn)間的距離作為權(quán)重信息更新邊特征,并引入空間注意力機(jī)制,獲取特征間的語義信息;再次,通過計(jì)算近鄰特征間的差值,利用均值池化操作進(jìn)一步提取特征間的空間分布信息;最后,利用注意力池化操作融合三邊特征。實(shí)驗(yàn)結(jié)果表明,所提網(wǎng)絡(luò)在S3DIS(Stanford 3D large-scale Indoor Spaces)數(shù)據(jù)集上的平均交并比(mIoU)達(dá)到了67.5%,總體準(zhǔn)確率(OA)達(dá)到了87.2%,相較于PointNet++分別提高10.2和3.4個(gè)百分點(diǎn),可見MFF-Net在大型室內(nèi)/室外場景均能獲得良好的分割效果。
點(diǎn)云;語義分割;空間注意力;注意力池化;特征融合
點(diǎn)云作為描述三維物體表面幾何信息的大量點(diǎn)的集合,在表達(dá)三維物體的空間位置以及物體間的拓?fù)潢P(guān)系上具有獨(dú)特的優(yōu)勢,目前點(diǎn)云數(shù)據(jù)已廣泛運(yùn)用在自動駕駛、地圖勘探、數(shù)字化城市等多個(gè)領(lǐng)域。針對點(diǎn)云的語義分割作為三維場景理解與重建的重要基礎(chǔ),是三維環(huán)境感知和機(jī)器視覺的重要組成部分。傳統(tǒng)的點(diǎn)云分割方法過分依賴人工設(shè)計(jì)特征,計(jì)算量大,難以滿足復(fù)雜點(diǎn)云場景的處理需求。隨著深度學(xué)習(xí)在圖像處理領(lǐng)域的廣泛應(yīng)用,基于深度學(xué)習(xí)的點(diǎn)云語義分割方法也獲得了長足的發(fā)展[1];然而,面對點(diǎn)云數(shù)據(jù)的無序性、海量性以及稠密不均性,利用深度學(xué)習(xí)技術(shù)從三維點(diǎn)云中提取穩(wěn)定的一致性特征,準(zhǔn)確完成點(diǎn)云數(shù)據(jù)的分割仍然是研究中的難點(diǎn)。
已有的基于深度學(xué)習(xí)的點(diǎn)云語義分割方法大致可以分為3類:基于多層感知機(jī)(MultiLayer Perceptron, MLP)的方法、基于圖卷積的方法以及基于注意力機(jī)制的方法。
基于MLP的方法是利用共享的MLP和池化操作提取點(diǎn)的特征。PointNet[2]是首個(gè)直接以原始點(diǎn)云數(shù)據(jù)作為輸入的深度學(xué)習(xí)網(wǎng)絡(luò),采用MLP提取每個(gè)點(diǎn)的特征,利用最大池化操作聚合點(diǎn)的信息,進(jìn)而獲取全局特征,但忽略了點(diǎn)間局部特征的提取。Qi等[3]在PointNet基礎(chǔ)上提出了PointNet++,該方法首先對輸入的點(diǎn)云數(shù)據(jù)進(jìn)行采樣和區(qū)域劃分,其次在各個(gè)小區(qū)域內(nèi)遞歸地利用PointNet進(jìn)行特征提取,最后融合點(diǎn)云的全局和局部特征;但與PointNet相似,PointNet++未考慮點(diǎn)與點(diǎn)之間的關(guān)系,如方向性等,對于局部特征的學(xué)習(xí)仍然不夠充分。RandLA-Net (Random sampling and an effective Local feature Aggregator Network)[4]利用隨機(jī)點(diǎn)采樣法對點(diǎn)云數(shù)據(jù)進(jìn)行采樣,并通過局部特征聚合模塊提取幾何特征;利用隨機(jī)點(diǎn)采樣法可以提升算法效率,但會造成關(guān)鍵點(diǎn)信息丟失。位置自適應(yīng)卷積(Position Adaptive Convolution, PAConv)[5]利用權(quán)重矩陣優(yōu)化卷積運(yùn)算,提高了網(wǎng)絡(luò)對點(diǎn)特征的感知能力,但存儲過多的權(quán)重矩陣可能會造成網(wǎng)絡(luò)冗余,帶來較大的內(nèi)存占用和計(jì)算負(fù)擔(dān)。
基于MLP的方法通常比較關(guān)注點(diǎn)的幾何特征的提取,缺乏捕捉點(diǎn)間語義特征的能力。
基于圖卷積的方法將卷積運(yùn)算與圖結(jié)構(gòu)進(jìn)行結(jié)合,構(gòu)成圖卷積神經(jīng)網(wǎng)絡(luò)。圖結(jié)構(gòu)將每個(gè)點(diǎn)作為圖的頂點(diǎn),同時(shí)構(gòu)造與鄰域點(diǎn)之間的有向邊,并在鄰域點(diǎn)上運(yùn)用卷積操作,結(jié)合池化操作聚合鄰域點(diǎn)信息,通過邊的權(quán)重傳遞更新頂點(diǎn)特征。動態(tài)圖卷積神經(jīng)網(wǎng)絡(luò)(Dynamic Graph Convolution Neural Network, DGCNN)[6]通過構(gòu)造局部特征鄰域圖,利用多層堆疊的方式動態(tài)更新特征。邊卷積(EdgeConv)在網(wǎng)絡(luò)的每一層通過動態(tài)構(gòu)建圖結(jié)構(gòu)計(jì)算邊特征,使用卷積操作提取局部幾何信息。DGCNN中的邊特征只關(guān)注中心點(diǎn)與近鄰點(diǎn)之間的關(guān)系,忽略了各個(gè)近鄰點(diǎn)之間的向量方向,導(dǎo)致?lián)p失一部分的局部結(jié)構(gòu)信息。因此,Zhang等[7]在DGCNN框架的基礎(chǔ)上,提出了LDGCNN(Linked DGCNN),它的核心在于提取來自不同動態(tài)圖的特征并進(jìn)行拼接,同時(shí)使用MLP代替轉(zhuǎn)換網(wǎng)絡(luò),有效解決了梯度消失的問題,但對于高維的全局語義特征提取不足。Chen等[8]提出一種融合點(diǎn)云方向與距離的圖卷積神經(jīng)網(wǎng)絡(luò),首先通過計(jì)算兩點(diǎn)間的余弦相似度,得到相似度矩陣;其次,選取相似度最高的個(gè)點(diǎn)構(gòu)建動態(tài)鄰域圖,提取兩點(diǎn)間的邊緣特征。該模型關(guān)注點(diǎn)間幾何特征的提取,忽略了點(diǎn)間的語義特征。Du等[9]提出了局部?全局圖卷積方法(Local-Global Graph Convolutional Method, LGGCM)。該方法通過構(gòu)造近鄰點(diǎn)的局部圖計(jì)算加權(quán)鄰接矩陣,更新和聚合點(diǎn)特征以獲得點(diǎn)云的局部空間幾何特征,并將空間幾何特征輸入帶有門控單元的全局空間注意力模塊,以提取點(diǎn)間的依賴關(guān)系;但對于點(diǎn)比較稀疏的物體類別分割效果較差。
基于圖卷積的方法能有效提取點(diǎn)的幾何特征,但由于缺少對全局語義特征的提取,使得網(wǎng)絡(luò)對特征的感知能力不足。
基于注意力機(jī)制的方法將有限的算力集中于重點(diǎn)信息,快速提取最有效的特征信息。基于圖注意力的點(diǎn)神經(jīng)網(wǎng)絡(luò)(Graph Attention based Point neural Network, GAPNet)[10]通過在MLP層中嵌入圖注意力機(jī)制,有效獲取局部幾何特征;但該網(wǎng)絡(luò)對全局特征提取不足,對邊界區(qū)域的分割效果較差。Chen等[11]提出雙重自注意力卷積網(wǎng)絡(luò),該網(wǎng)絡(luò)包括點(diǎn)注意力模塊和分組注意力模塊,分別用于提取點(diǎn)的幾何特征以及不同組之間的相關(guān)性。GA-NET(Guided Aggregation NET)[12]由點(diǎn)相關(guān)和點(diǎn)無關(guān)全局注意力模塊組成,其中:點(diǎn)相關(guān)全局注意力模塊利用兩個(gè)隨機(jī)抽樣子集自適應(yīng)聚合點(diǎn)的上下文信息;點(diǎn)無關(guān)注意力模塊用于共享所有點(diǎn)的全局注意圖,該網(wǎng)絡(luò)更關(guān)注全局特征的獲取,對局部特征的表征能力不足。Chen等[13]提出一種基于自注意的全局特征增強(qiáng)網(wǎng)絡(luò),該網(wǎng)絡(luò)包括下采樣模塊、全局特征自注意編碼模塊、加權(quán)語義映射模塊和上采樣模塊。通過全局自注意編碼模塊提取點(diǎn)的全局語義特征,并利用加權(quán)語義映射模塊增強(qiáng)特征;但該網(wǎng)絡(luò)上采樣與下采樣模塊采用線性連接結(jié)構(gòu),會導(dǎo)致特征提取過程中部分特征信息的丟失。
基于注意力機(jī)制的方法能有效提取點(diǎn)間的語義信息,但在局部細(xì)節(jié)特征的表達(dá)能力不足。
上述網(wǎng)絡(luò)模型主要關(guān)注點(diǎn)的全局或局部特征以及點(diǎn)間語義特征的提取,缺乏對特征間上下文關(guān)系的挖掘,導(dǎo)致特征提取不全面。因此,本文提出一種基于多特征融合的點(diǎn)云場景語義分割網(wǎng)絡(luò)(Multi-Feature Fusion based point cloud scene semantic segmentation Network, MFF-Net),該網(wǎng)絡(luò)以點(diǎn)的三維坐標(biāo)和改進(jìn)后的邊特征作為輸入,充分考慮點(diǎn)的幾何特征和特征間的語義關(guān)系,以獲得具有獨(dú)特性和魯棒性的特征。該網(wǎng)絡(luò)具有以下特點(diǎn):
1)利用點(diǎn)的坐標(biāo)信息改進(jìn)邊特征,充分考慮點(diǎn)本身的坐標(biāo)值以及該點(diǎn)與近鄰點(diǎn)間的關(guān)系,提高網(wǎng)絡(luò)的幾何特征表征能力。
2)基于中心點(diǎn)與近鄰點(diǎn)間的歐氏距離構(gòu)造權(quán)重模塊,將特征按權(quán)重融合,去除冗余信息,并引入空間注意力機(jī)制,以提取有效的局部語義特征。
3)計(jì)算特征與近鄰特征間的差值,利用均值池化操作,提取空間語義分布特征,提高網(wǎng)絡(luò)特征分布的捕捉能力。
經(jīng)過5層編碼,點(diǎn)的數(shù)量從逐步采樣到/512,每層輸出的特征維度分別為16、64、128、256和512。之后通過5層解碼層,利用最近鄰插值法對高維特征進(jìn)行上采樣(Up-Sample, US),并對融合后的特征進(jìn)行反卷積操作。最后,經(jīng)過3個(gè)全連接層(Fully Connected layer, FC),為點(diǎn)云場景中每個(gè)點(diǎn)分配類別標(biāo)簽,從而完成點(diǎn)云數(shù)據(jù)的語義分割任務(wù)。
圖1 MFF-Net的框架
融合每點(diǎn)的三維坐標(biāo)和改進(jìn)后的邊特征輸入MFF-Net。
圖2為多特征融合模塊的示意圖,該模塊分別提取點(diǎn)的幾何特征、特征間的語義信息和空間語義分布特征,并利用注意力池化操作聚合3個(gè)特征,以充分融合所獲取的特征信息,提高網(wǎng)絡(luò)的語義分割準(zhǔn)確率。
圖2 多特征融合模塊
1.3.1幾何特征提取
圖3 權(quán)重計(jì)算模塊
1.3.2局部語義特征提取
圖4 空間注意力模塊示意圖
1.3.3空間語義分布特征提取
為了進(jìn)一步提取特征在高維空間的分布情況,本文對邊特征及其近鄰邊特征間的差值應(yīng)用MLP,以提取語義特征的空間分布信息,提高網(wǎng)絡(luò)對語義特征的感知能力。
1.3.4特征融合
本文利用兩個(gè)公共的大規(guī)模三維場景數(shù)據(jù)集S3DIS(Stanford 3D large-scale Indoor Spaces)[14]和Sematic3D[15]測試MFF-Net的性能。S3DIS數(shù)據(jù)集由6個(gè)子區(qū)域共272個(gè)室內(nèi)場景數(shù)據(jù)組成,每個(gè)場景的點(diǎn)云數(shù)量從50萬到250萬不等,包括三維坐標(biāo)、顏色信息和歸一化的三維坐標(biāo),其中每個(gè)點(diǎn)都被標(biāo)記為13個(gè)類別中的某一類別。Semantic3D數(shù)據(jù)集由定點(diǎn)激光掃描儀獲得,共40多億個(gè)點(diǎn),包含廣場、市政廳和農(nóng)場等多個(gè)場景數(shù)據(jù),由15個(gè)訓(xùn)練集和15個(gè)測試集組成,該數(shù)據(jù)被標(biāo)記為8個(gè)類別,原始點(diǎn)云數(shù)據(jù)包含三維坐標(biāo)、顏色信息和強(qiáng)度信息。
本文實(shí)驗(yàn)運(yùn)行環(huán)境為64位Linux操作系統(tǒng),Intel i7 8700處理器、48 GB內(nèi)存、RTX2080顯卡。訓(xùn)練時(shí)batchsize設(shè)置為2,訓(xùn)練輪次(epoch)設(shè)置為100,損失函數(shù)選用為交叉熵函數(shù),采用Adam作為優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.01,每個(gè)epoch的衰減率為5%,全連接層中的dropout參數(shù)設(shè)置為0.5。
為了評估MFF-Net的有效性,本文采用平均交并比 (mean Intersection over Union, mIoU)、平均準(zhǔn)確率(mean Accuracy, mAcc)和總體準(zhǔn)確率(Overall Accuracy, OA)作為評估標(biāo)準(zhǔn)。計(jì)算公式分別為:
1)S3DIS數(shù)據(jù)集。
本文分別采用6折交叉驗(yàn)證和單獨(dú)將Area5作為測試數(shù)據(jù)對MFF-Net進(jìn)行評估,6折交叉驗(yàn)證是將數(shù)據(jù)分為6個(gè)部分,將每個(gè)部分的場景數(shù)據(jù)分別作為測試集進(jìn)行訓(xùn)練和測試,以體現(xiàn)網(wǎng)絡(luò)的泛化能力,由于Area5數(shù)據(jù)中包含的物體與其他5個(gè)區(qū)域存在差異,可評估網(wǎng)絡(luò)的可推廣性。
表1為不同網(wǎng)絡(luò)模型利用6折交叉驗(yàn)證在S3DIS數(shù)據(jù)集上的語義分割結(jié)果。
表1 在S3DIS數(shù)據(jù)集上的6折交叉驗(yàn)證語義分割結(jié)果 單位:%
從表1結(jié)果可以看出,對于mAcc,本文網(wǎng)絡(luò)模型比PointNet[2]高出13.8個(gè)百分點(diǎn),比RSNet(Recurrent Slice Network)[16]高出13.5個(gè)百分點(diǎn),比SPG(SuperPoint Graph)[17]高出7.0個(gè)百分點(diǎn),比PointWeb[18]、GFSOP-Net(Geometric Feature Sensing Of Point Network)[21]和BAAFNet(Bilateral Augmentation and Adaptive Fusion Network)[23]分別高3.8、9.0和0.6個(gè)百分點(diǎn);對于OA,本文網(wǎng)絡(luò)模型相較于PointNet提高了8.6個(gè)百分點(diǎn),比SPG高0.8個(gè)百分點(diǎn),比DGCNN[6]高2.9個(gè)百分點(diǎn),相較于MPNet(Memory-augmented Network)[19]和BAAFNet[23]提高了0.4和0.1個(gè)百分點(diǎn);對于mIoU,本文網(wǎng)絡(luò)模型比PointNet高19.9個(gè)百分點(diǎn),比Octant-CNN(Octant Convolutional Neural Network)[20]高9.2個(gè)百分點(diǎn),比AMFF-DGCNN(Attention based Multi-Feature Fusion DGCNN)[22]高7.6個(gè)百分點(diǎn),相較于其他模型提高0.8~11.0個(gè)百分點(diǎn)。表1中第5~17列分別代表不同類別物體(例如:桌子、椅子、沙發(fā)等)的分割準(zhǔn)確率,可以看出,MFF-Net在地板、柱、桌子、書柜、黑板和雜物這6類物體取得了最高的分割準(zhǔn)確率。
表2為MFF-Net將Area5作為測試集的語義分割結(jié)果。MFF-Net在mIoU上比PointNet高了21.91個(gè)百分點(diǎn),比SegCloud(Semantic segmentation of 3D point Clouds)高14.1個(gè)百分點(diǎn),比DGCNN、PointWeb和BAAFNet[23]分別高15.4、2.7和0.7個(gè)百分點(diǎn)。在OA方面,MFF-Net比DGCNN高3.8個(gè)百分點(diǎn),相較于其他網(wǎng)絡(luò)模型高出0.1~2.5個(gè)百分點(diǎn)。在mAcc指標(biāo)上,MFF-Net比PointWeb和BAAFNet分別高5.8和1.2個(gè)百分點(diǎn)(其中BAAFNet的實(shí)驗(yàn)結(jié)果是在相同硬件環(huán)境和參數(shù)下運(yùn)行得到的)。
表2 S3DIS數(shù)據(jù)集上的Area5語義分割結(jié)果 單位:%
圖5為MFF-Net與BAAFNet在S3DIS數(shù)據(jù)集上的可視化結(jié)果。在場景1中,MFF-Net分割得到的墻面黑板相較于BAAFNet更準(zhǔn)確,且桌腿也分割得更準(zhǔn)確;在場景2中,MFF-Net能夠較好地分割場景中的椅子,相較于BAAFNet,墻面和黑板的分割效果更完整;在場景3中,BAAFNet錯誤地將大區(qū)域墻面分類為其他物體,而MFF-Net則較完整地分割出了整塊的門板;在場景4中,BAAFNet錯誤地將大片的柜子和木板分為一類,MFF-Net則清晰地將兩者分開。相較于BAAFNet,MFF-Net在S3DIS數(shù)據(jù)集上能得到更好的分割效果,這主要得益于所提出的多特征提取模塊能較好地降低近鄰點(diǎn)的歧義信息影響。
2)Semantic3D數(shù)據(jù)集。
為了進(jìn)一步驗(yàn)證MFF-Net的有效性,將該網(wǎng)絡(luò)在Semantic3D數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試。由于實(shí)驗(yàn)設(shè)備的局限性,本文將輸入點(diǎn)數(shù)調(diào)整為28 672,batchsize設(shè)置為2。由表3可知,在同等參數(shù)的情況下,相較于BAAFNet,MFF-Net的OA和mIoU上分別提升了9.3和13.2個(gè)百分點(diǎn);對于除汽車外的其他7個(gè)類別的分割準(zhǔn)確率也都有所提升。實(shí)驗(yàn)結(jié)果表明,與BAAFNet相比,本文所提MFF-Net能更好地聚合特征信息,提升了網(wǎng)絡(luò)對大型點(diǎn)云場景的分割準(zhǔn)確率。
表3 Semantic3D(semantic-8)數(shù)據(jù)集上的語義分割結(jié)果 單位:%
圖6為利用BAAFNet與MFF-Net在Semantic3D數(shù)據(jù)集上分割結(jié)果對比。在場景5中,BAAFNet錯誤地將建筑物分割成人造景觀的黃色,且將樹木分割成了道路,而本文模型則很好地分割建筑物和樹木;在場景6中,BAAFNet將部分建筑的屋頂錯分為掃描偽影,而MFF-Net完整地識別出了建筑物;在場景7中,BAAFNet將汽車分割成了人造景觀,而MFF-Net將汽車正確分割成了代表汽車的紅色??梢钥闯?,相較于BAAFNet,MFF-Net能較好地分割室外點(diǎn)云場景。
為了驗(yàn)證不同模塊對網(wǎng)絡(luò)的重要性,本文在S3DIS數(shù)據(jù)集中的Area5數(shù)據(jù)上進(jìn)行消融實(shí)驗(yàn),針對改進(jìn)后的邊特征模塊、權(quán)重計(jì)算模塊、空間注意力模塊和空間語義分布特征模塊進(jìn)行實(shí)驗(yàn)驗(yàn)證,探究每個(gè)模塊對實(shí)驗(yàn)結(jié)果的影響(如表4所示)。
表4 消融實(shí)驗(yàn)結(jié)果
根據(jù)表4可知,加入改進(jìn)后邊特征模塊后,增加了幾何特征信息,解決了網(wǎng)絡(luò)的初始輸入特征的幾何信息不足的問題,mAcc達(dá)到了71.3%;加入鄰域權(quán)重計(jì)算模塊后,有效去除冗余信息,增加了顯著特征的比重,網(wǎng)絡(luò)模型的分割準(zhǔn)確率提升了0.3個(gè)百分點(diǎn);引入空間注意力機(jī)制后,有效提取了特征之間相關(guān)性,增強(qiáng)了網(wǎng)絡(luò)的全局特征表示,網(wǎng)絡(luò)模型的分割準(zhǔn)確率提升至72.2%。為了進(jìn)一步提高網(wǎng)絡(luò)對于語義特征的感知能力,融合空間語義分布特征模塊,網(wǎng)絡(luò)模型的分割準(zhǔn)確率達(dá)到72.4%。
圖5 S3DIS數(shù)據(jù)集上BAAFNet和MFF-Net的語義分割結(jié)果
圖6 Semantic3D數(shù)據(jù)集上BAAFNet和MFF-Net的語義分割效果
本文提出了一種基于多特征融合的點(diǎn)云場景語義分割網(wǎng)絡(luò)MFF-Net。在三維坐標(biāo)的基礎(chǔ)上,計(jì)算幾何偏移量強(qiáng)化局部幾何特征,提高網(wǎng)絡(luò)對幾何特征的表征能力;在計(jì)算邊特征的基礎(chǔ)上,構(gòu)造權(quán)重計(jì)算模塊,按權(quán)重信息融合邊特征,并引入空間注意力機(jī)制,提取特征間的全局依賴關(guān)系;在高維空間計(jì)算邊特征與鄰域邊特征間的差值,利用均值池化操作提取空間語義分布特征。實(shí)驗(yàn)結(jié)果表明,MFF-Net在室內(nèi)場景S3DIS和室外場景Sematic3D兩個(gè)數(shù)據(jù)集上均取得較好的語義分割效果。該網(wǎng)絡(luò)適用于處理大規(guī)模室內(nèi)/室外點(diǎn)云場景數(shù)據(jù),可以用于構(gòu)建環(huán)境語義地圖,為移動機(jī)器人提供用于理解周圍環(huán)境的高層語義信息,實(shí)現(xiàn)位置定位,提高移動機(jī)器人的場景理解能力。
然而,MFF-Net是在固定鄰域中計(jì)算點(diǎn)的幾何特征和空間語義分布特征,易受點(diǎn)云數(shù)據(jù)的密度影響,因此,根據(jù)點(diǎn)云數(shù)據(jù)的密度自動設(shè)定鄰域值,以提高點(diǎn)云分割的準(zhǔn)確率是下一步工作的重點(diǎn)。
[1] GUO Y, WANG H, HU Q, et al. Deep learning for 3D point clouds: a survey[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(12): 4338-4364.
[2] QI C R, SU H, MO K, et al. PointNet: deep learning on point sets for 3D classification and segmentation[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 77-85.
[3] QI C R, YI L, SU H, et al. PointNet++: deep hierarchical feature learning on point sets in a metric space[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 5105-5114.
[4] HU Q, YANG B, XIE L, et al. RandLA-Net: efficient semantic segmentation of large-scale point clouds[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 11105-11114.
[5] XU M, DING R, ZHAO H, et al. PAConv: position adaptive convolution with dynamic kernel assembling on point clouds[C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2021: 3172-3181.
[6] WANG Y, SUN Y, LIU Z, et al. Dynamic graph CNN for learning on point clouds[J]. ACM Transactions on Graphics, 2019, 38(5): No.146.
[7] ZHANG K, HAO M, WANG J, et al. Linked dynamic graph CNN: learning on point cloud via linking hierarchical features[EB/OL]. (2019-08-06)[2022-11-12].https://arxiv.org/pdf/1904.10014.pdf.
[8] CHEN L, ZHANG Q. DDGCN: graph convolution network based on direction and distance for point cloud learning[J]. The Visual Computer, 2023, 39(3): 863-873.
[9] DU Z, YE H, CAO F. A novel local-global graph convolutional method for point cloud semantic segmentation[J]. IEEE Transactions on Neural Networks and Learning Systems, 2022(Early Access): 1-15.
[10] CHEN C, FRAGONARA L Z, TSOURDOS A. GAPNet: graph attention based point neural network for exploiting local feature of point cloud[EB/OL]. (2019-05-21) [2022-11-12].https://arxiv.org/pdf/1905.08705.pdf.
[11] CHEN L, CHEN W, XU Z, et al. DAPnet: a double self-attention convolutional network for point cloud semantic labeling[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021, 14: 9680-9691.
[12] DENG S, DONG Q. GA-NET: global attention network for point cloud semantic segmentation[J]. IEEE Signal Processing Letters, 2021, 28: 1300-1304.
[13] CHEN Q, ZHANG Z, CHEN S, et al. A self-attention based global feature enhancing network for semantic segmentation of large-scale urban street-level point clouds[J]. International Journal of Applied Earth Observation and Geoinformation, 2022, 113: No.102974.
[14] ARMENI I, SENER O, ZAMIR A R, et al. 3D semantic parsing of large-scale indoor spaces[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 1534-1543.
[15] HACKEL T, SAVINOV N, LADICKY L, et al. Semantic3D.net: a new large-scale point cloud classification benchmark[J]. ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 2017, IV-1/W1: 91-98.
[16] HUANG Q, WANG W, NEUMANN U. Recurrent slice networks for 3D segmentation of point clouds[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 2626-2635.
[17] LANDRIEU L, SIMONOVSKY M. Large-scale point cloud semantic segmentation with superpoint graphs[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 4558-4567.
[18] ZHAO H, JIANG L, FU C W, et al. PointWeb: enhancing local neighborhood features for point cloud processing[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 5560-5568.
[19] HE T, GONG D, TIAN Z, et al. Learning and memorizing representative prototypes for 3D point cloud semantic and instance segmentation[C]// Proceedings of the 2020 European Conference on Computer Vision, LNCS 12363. Cham: Springer, 2020: 564-580.
[20] 許翔,帥惠,劉青山. 基于卦限卷積神經(jīng)網(wǎng)絡(luò)的3D點(diǎn)云分析[J]. 自動化學(xué)報(bào), 2021, 47(12):2791-2800.(XU X, SHUAI H, LIU Q S. Octant convolutional neural network for 3D point cloud analysis[J]. Acta Automatica Sinica, 2021, 47(12):2791-2800.)
[21] 魯斌,柳杰林. 基于特征增強(qiáng)的三維點(diǎn)云語義分割[J]. 計(jì)算機(jī)應(yīng)用, 2023, 43(6):1818-1825.(LU B, LIU J L. Semantic segmentation for 3D point clouds based on feature enhancement[J]. Journal of Computer Applications, 2023, 43(6):1818-1825.)
[22] 郝雯,王紅霄,汪洋. 結(jié)合空間注意力與形狀特征的三維點(diǎn)云語義分割[J]. 激光與光電子學(xué)進(jìn)展, 2022, 59(8): No.0828004.(HAO W, WANG H X, WANG Y. Semantic segmentation of three-dimensional point cloud based on spatial attention and shape feature[J]. Laser and Optoelectronics Progress, 2022, 59(8): No.0828004)
[23] QIU S, ANWAR S, BARNES N. Semantic segmentation for real point cloud scenes via bilateral augmentation and adaptive fusion[C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2021: 1757-1767.
[24] TCHAPMI L, CHOY C, ARMENI I, et al. SEGCloud: semantic segmentation of 3D point clouds[C]// Proceedings of the 2017 International Conference on 3D Vision. Piscataway: IEEE, 2017: 537-547.
Semantic segmentation of point cloud scenes based on multi-feature fusion
HAO Wen*, WANG Yang, WEI Hainan
(,’,’710048,)
In order to mine the semantic relationships and spatial distribution among features, and further improve the semantic segmentation results of point cloud through multi-feature enhancement, a Multi-Feature Fusion based point cloud scene semantic segmentation Network (MFF-Net) was proposed. In the proposed network, the 3D coordinates and improved edge features were used as input, firstly, the neighbor points of the point were searched by using-Nearest Neighbor (NN) algorithm, and the geometric offsets were calculated based on 3D coordinates and coordinate differences among neighbor points, which enhanced the local geometric feature representation of points. Secondly, the distance between the central point and its neighbor points were used to as weighting information to update the edge features, and the spatial attention mechanism was introduced to obtain the semantic information among features. Thirdly, the spatial distribution information among features was further extracted by calculating the differences among neighbor features and using mean pooling operation. Finally, the trilateral features were fused based on attention pooling. Experimental results demonstrate that on S3DIS (Stanford 3D large-scale Indoor Spaces) dataset, the mean Intersection over Union (mIoU) of the proposed network is 67.5%, and the Overall Accuracy (OA) of the proposed network is 87.2%. These two values are 10.2 and 3.4 percentage points higher than those of PointNet++ respectively. It can be seen that MFF-Net can achieve good segmentation results in both large indoor and outdoor scenes.
point cloud; semantic segmentation; spatial attention; attention pooling; feature fusion
This work is partially supported by National Natural Science Foundation of China (61602373), Natural Science Foundation of Shaanxi Province (2021JM-342), Xi’an BeiLin Science Research Plan (GX2242).
HAO Wen, born in 1986, Ph. D., associate professor. Her research interests include point cloud scene segmentation and recognition.
WANG Yang,born in 1998, M. S. candidate. His research interests include point cloud scene segmentation.
WEI Hainan, born in 1998, M. S. candidate. Her research interests include point cloud scene segmentation.
1001-9081(2023)10-3202-07
10.11772/j.issn.1001-9081.2023020119
2023?02?15;
2023?04?03;
國家自然科學(xué)基金資助項(xiàng)目(61602373);陜西省自然科學(xué)基金資助項(xiàng)目(2021JM-342);西安市碑林區(qū)研發(fā)項(xiàng)目(GX2242)。
郝雯(1986—),女,河南平頂山人,副教授,博士,CCF會員,主要研究方向:點(diǎn)云場景分割和識別; 汪洋(1998—),男,安徽合肥人,碩士研究生,主要研究方向:點(diǎn)云場景分割; 魏海南(1998—),女,河北承德人,碩士研究生,主要研究方向:點(diǎn)云場景分割。
P391.41
A
2023?04?07。