利滿雯,趙艷明,李紹彬,馮燕
(中國(guó)傳媒大學(xué) 信息與通信工程學(xué)院,北京 100024)
隨著三維傳感技術(shù)如LiDAR 等高精度傳感器的快速發(fā)展,物體的三維數(shù)據(jù)越來(lái)越容易獲取且應(yīng)用廣泛。其中,點(diǎn)云作為一種常見(jiàn)的三維模型數(shù)據(jù),具有非常強(qiáng)的空間表達(dá)能力,不僅能夠完美保留原始三維空間的幾何結(jié)構(gòu),而且能夠很好地刻畫(huà)物體表面特征以及其他深度信息,比如坐標(biāo)、向量等。但是,點(diǎn)云的空間分布不均及數(shù)據(jù)雜亂無(wú)序等特點(diǎn)給點(diǎn)云數(shù)據(jù)處理和應(yīng)用帶來(lái)了一定的挑戰(zhàn)。
點(diǎn)云作為最能表現(xiàn)物體三維特征的數(shù)據(jù),在自動(dòng)駕駛、三維重建、汽車焊裝、礦區(qū)沉陷監(jiān)測(cè)、建筑改造等方面得到廣泛應(yīng)用。點(diǎn)云研究前景巨大,點(diǎn)云分類是其中的研究熱點(diǎn)之一。點(diǎn)云分類是指將點(diǎn)云劃分到不同屬性的點(diǎn)云集合中,并為其分配語(yǔ)義標(biāo)簽。點(diǎn)云分類對(duì)點(diǎn)云分割及配準(zhǔn)等有極大的幫助。
目前,點(diǎn)云分類主要采用先對(duì)點(diǎn)云數(shù)據(jù)進(jìn)行特征提取,再利用特征進(jìn)行點(diǎn)云分類的基本思路。點(diǎn)云分類方法分為兩大類,即傳統(tǒng)的基于人工標(biāo)記的點(diǎn)云提取特征描述符和基于深度學(xué)習(xí)的點(diǎn)云分類方法。
傳統(tǒng)方法實(shí)現(xiàn)點(diǎn)云分類主要是基于人工標(biāo)記點(diǎn)云提取特征描述子,隨后選擇合適的分類器給點(diǎn)云分配標(biāo)簽,其中常見(jiàn)的分類器有支持向量機(jī)、隨機(jī)森林、AdaBoost 以及馬爾可夫隨機(jī)場(chǎng)等。傳統(tǒng)方法由于沒(méi)有考慮到點(diǎn)云之間的相關(guān)性,或者沒(méi)有聯(lián)系上下文信息而導(dǎo)致分類效率不高,且還會(huì)引入噪聲等干擾,從而降低點(diǎn)云分類的準(zhǔn)確率。2012 年以來(lái),深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域得到了廣泛的關(guān)注。近幾年,深度學(xué)習(xí)也被應(yīng)用到點(diǎn)云處理任務(wù),使點(diǎn)云分類的準(zhǔn)確率和魯棒性都得到了很大的提升。2017 年,斯坦福大學(xué)的QI 等人提出了PointNet網(wǎng)絡(luò)模型[1],通過(guò)仔細(xì)研究點(diǎn)云的結(jié)構(gòu)和特點(diǎn),提出了基于深度學(xué)習(xí)實(shí)現(xiàn)的面向原始點(diǎn)云的端到端網(wǎng)絡(luò)。PointNet 不僅在點(diǎn)云分類方面得到應(yīng)用,在點(diǎn)云分割等領(lǐng)域也實(shí)現(xiàn)了很大突破。后續(xù)很多團(tuán)隊(duì)在PointNet 基礎(chǔ)上進(jìn)行了各種嘗試,使點(diǎn)云分類的準(zhǔn)確率得到進(jìn)一步的提升。
目前已有一些對(duì)點(diǎn)云研究方向進(jìn)行總結(jié)的綜述性文章[2-5]。本文在前人工作的基礎(chǔ)上進(jìn)行完善和總結(jié),既分析了傳統(tǒng)的點(diǎn)云分類方法,也梳理了現(xiàn)有的基于深度學(xué)習(xí)實(shí)現(xiàn)點(diǎn)云分類的網(wǎng)絡(luò),對(duì)經(jīng)典的、前沿的點(diǎn)云分類方法進(jìn)行了闡述,對(duì)點(diǎn)云分類技術(shù)未來(lái)的發(fā)展做出了展望。
點(diǎn)云數(shù)據(jù)具有非結(jié)構(gòu)化、置換不變性、無(wú)序性以及相關(guān)性等特征。ModelNet 是一個(gè)混合模型,總共有662 種目標(biāo)分類,127 915 個(gè)CAD,其中包含了ModelNet10,ModelNet40 以及Aligned40 三個(gè)子集。最常用的數(shù)據(jù)集是ModelNet40,它是一個(gè)擁有40 個(gè)類別的CAD 點(diǎn)云模型。ScanObjectNN 這個(gè)模型包含用CAD 數(shù)據(jù)創(chuàng)建的室內(nèi)場(chǎng)景。Sydney Urban Objects 為悉尼城市目標(biāo)數(shù)據(jù)集,主要是通過(guò)掃描常見(jiàn)的城市道路對(duì)象(包括車輛、行人、樹(shù)木等)獲得的模型。
為了評(píng)價(jià)各類方法的效果,并使不同研究者之間能夠進(jìn)行性能比較,需要有統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn)。對(duì)于點(diǎn)云分類,一般采用的指標(biāo)有準(zhǔn)確率、召回率、精確率、基于召回率與精確率的調(diào)和平均等。本文選取總體精度(Overall Accuracy)和平均精度(Mean Accuracy)來(lái)分析對(duì)比不同的點(diǎn)云分類方法。
傳統(tǒng)的點(diǎn)云分類基本思路主要分兩步,首先人工對(duì)點(diǎn)云進(jìn)行標(biāo)記,獲得點(diǎn)云特征描述符,之后將特征描述符輸入分類器進(jìn)行分類,實(shí)現(xiàn)效果主要取決于分類器算法的性能。常見(jiàn)的分類器有支持向量機(jī)、隨機(jī)森林、AdaBoost 以及馬爾可夫隨機(jī)場(chǎng)等。
楊娜等人[6]基于支持向量機(jī)提出了一種面向?qū)ο蟮某菂^(qū)機(jī)載LiDAR 點(diǎn)云分類算法,并對(duì)初始分類結(jié)果進(jìn)行三維拓?fù)浞治鰞?yōu)化。
考慮到點(diǎn)云分類算法在提取依賴鄰域結(jié)構(gòu)的特征參數(shù)時(shí),面臨鄰域尺度選擇難、數(shù)據(jù)維度高、計(jì)算復(fù)雜等問(wèn)題,段廣明等人[7]提出了基于隨機(jī)森林的機(jī)載LiDAR 點(diǎn)云分類算法。隨機(jī)森林將每個(gè)輸入樣本都輸入到?jīng)Q策樹(shù)進(jìn)行分類,集成所有分類投票結(jié)果,將投票次數(shù)最多的類別指定為最終輸出。
周夢(mèng)蝶等人[8]提出的基于AdaBoost 實(shí)現(xiàn)的多分類模型,可以自動(dòng)為點(diǎn)云分配權(quán)重,適用于多類別點(diǎn)云分類。AdaBoost 利用迭代算法,對(duì)同一個(gè)訓(xùn)練集訓(xùn)練不同的分類器,然后將這些分類器集合起來(lái)從而構(gòu)成一個(gè)更強(qiáng)的分類器,分類精度較高但訓(xùn)練耗時(shí)。
傳統(tǒng)的點(diǎn)云分類方法需要利用各種機(jī)器學(xué)習(xí)的分類器對(duì)人工標(biāo)記點(diǎn)云提取的特征描述符進(jìn)行分類,通常會(huì)因無(wú)法充分聯(lián)系上下文信息而忽略點(diǎn)云數(shù)據(jù)之間的相關(guān)性,分類過(guò)程中容易產(chǎn)生噪聲,模型泛化能力較差,在真實(shí)場(chǎng)景中的應(yīng)用受到限制,點(diǎn)云分類效率和精度均不高。
近幾年,越來(lái)越多的研究人員將深度學(xué)習(xí)應(yīng)用于點(diǎn)云分類,分類效率和精度較傳統(tǒng)的點(diǎn)云分類算法有了很大提升?;谏疃葘W(xué)習(xí)實(shí)現(xiàn)點(diǎn)云分類的方法可分成兩大類,即基于結(jié)構(gòu)化點(diǎn)云的分類方法和基于原始點(diǎn)云的分類方法。
由于點(diǎn)云數(shù)據(jù)是一種不規(guī)則的數(shù)據(jù),在空間上和數(shù)量上可以任意分布,之前的研究者會(huì)先把點(diǎn)云轉(zhuǎn)換成規(guī)則數(shù)據(jù)再進(jìn)行處理任務(wù)[9-20],比如將點(diǎn)云轉(zhuǎn)換成柵格使其均勻分布,然后用3D-CNN 來(lái)處理柵格數(shù)據(jù)。對(duì)點(diǎn)云做結(jié)構(gòu)化處理的缺點(diǎn)是計(jì)算復(fù)雜度高,且會(huì)帶來(lái)量化噪聲,從而導(dǎo)致點(diǎn)云分類準(zhǔn)確率和效率不高。
由于原始點(diǎn)云具有無(wú)序性、稀疏性以及置換不變性等特點(diǎn),直接對(duì)原始點(diǎn)云處理,可以降低計(jì)算復(fù)雜度,同時(shí)充分考慮點(diǎn)云數(shù)據(jù)的特性。本文將對(duì)基于原始點(diǎn)云的分類方法進(jìn)行詳細(xì)綜述,將從以下4 個(gè)角度對(duì)該類方法進(jìn)行分析:基于感知機(jī)和特征池化的點(diǎn)云分類方法,基于卷積神經(jīng)網(wǎng)絡(luò)的點(diǎn)云分類方法,基于圖卷積的點(diǎn)云分類方法以及基于注意力機(jī)制的點(diǎn)云分類方法。
2.2.1 基于感知機(jī)和特征池化的點(diǎn)云分類方法
QI 等人[1]提出了PointNet 網(wǎng)絡(luò),這是第一個(gè)直接處理無(wú)序點(diǎn)云數(shù)據(jù)的深度神經(jīng)網(wǎng)絡(luò)。PointNet利用多層感知機(jī)將點(diǎn)云的坐標(biāo)空間升到高維特征空間,再根據(jù)點(diǎn)云的無(wú)序性和置換不變性,利用全局池化將信息聚合,獲得具有代表性的特征向量。PointNet 過(guò)分關(guān)注點(diǎn)云的全局特征,獲取局部特征能力較差。QI 等人[21]提出了PointNet++,這是一個(gè)分層網(wǎng)絡(luò)結(jié)構(gòu)。PointNet++的抽象層由采樣、分組以及PointNet 嵌套而成。PointNet++ 可以更好地獲取點(diǎn)云的局部特征。后續(xù)的研究人員基于PointNet++提出了多種點(diǎn)云分類網(wǎng)絡(luò),比如Momenet[22]、SO-Net[23]以 及PointWeb[24]等。受2D形狀描述符SIFT 的啟發(fā),JIANG 等人[25]設(shè)計(jì)了一個(gè)名為PointSIFT 的模塊。PointSIFT 可以對(duì)不同方向的信息進(jìn)行編碼并適應(yīng)形狀尺度。PointSIFT 可以集成到基于PointNet 的架構(gòu)中,從而提高網(wǎng)絡(luò)分類性能。
通過(guò)3D 傳感器獲取原始點(diǎn)云數(shù)據(jù),不可避免地會(huì)產(chǎn)生異常值或者噪聲,這會(huì)在一定程度上影響模型分類效果。針對(duì)這個(gè)問(wèn)題,YAN 等人[26]提出了PointASNL,它可以有效處理帶有噪聲的點(diǎn)云。PointASNL 的關(guān)鍵組件采用了自適應(yīng)(AS)模塊,通過(guò)對(duì)來(lái)自FPS 的初始采樣點(diǎn)重新加權(quán),從而實(shí)現(xiàn)了自適應(yīng)調(diào)整。PointASNL 在所有數(shù)據(jù)集上實(shí)現(xiàn)了分類和分割任務(wù)的魯棒性。
2020 年,WANG 等 人[27]提 出 了SoftpoolNet。SoftpoolNet 可以基于激活提取特征。與PointNet 相似的是,SoftpoolNet 也是利用感知機(jī)來(lái)獲得特征矩陣。不同的是,SoftpoolNet 利用軟池化來(lái)聚合特征,最終實(shí)現(xiàn)了較高的準(zhǔn)確率。
隨著研究的深入和點(diǎn)云數(shù)據(jù)規(guī)模增長(zhǎng),點(diǎn)云分類任務(wù)的計(jì)算需求也在增長(zhǎng),一種可能的解決方案是首先對(duì)點(diǎn)云進(jìn)行采樣。據(jù)此,LANG I 等人[28]提出了一種新的點(diǎn)云采樣方法,即SampleNet。SampleNet 采樣方法是可微的,采樣點(diǎn)近似為主要輸入點(diǎn)云的混合。SampleNet與PointNet等網(wǎng)絡(luò)結(jié)合,可以提升分類性能。
2.2.2 基于卷積神經(jīng)網(wǎng)絡(luò)的點(diǎn)云分類方法
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)是目前流行的深度學(xué)習(xí)網(wǎng)絡(luò)之一,在檢測(cè)、分割及物體識(shí)別等領(lǐng)域得到廣泛應(yīng)用。目前,卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)被應(yīng)用于點(diǎn)云分類任務(wù)處理,并且取得了不錯(cuò)的效果。KCNet[29]是一種類似CNN 的方法,可以從點(diǎn)云中提取局部信息。KCNet 可以利用卷積衡量輸入點(diǎn)云數(shù)據(jù)之間的相似性,使提取的局部點(diǎn)云特征更加具有代表性,從而提高點(diǎn)云分類準(zhǔn)確率。傳統(tǒng)的CNN 雖然可以利用空間局部相關(guān)性,但將其直接應(yīng)用于不規(guī)則點(diǎn)云處理,不但會(huì)丟失點(diǎn)云形狀信息,還會(huì)受到點(diǎn)云順序變化的影響。為了解決這個(gè)問(wèn)題,LI 等人[30]提出了X-transformation 并且結(jié)合傳統(tǒng)的卷積運(yùn)算,實(shí)現(xiàn)了PointCNN。PointCNN中的X-Conv 結(jié)構(gòu)在提取局部特征時(shí)比PointNet使用的最大池化表現(xiàn)更好。XU 等人[31]提出了SpiderCNN。SpiderCNN 由稱為SpiderConv 的單元組成,可以有效提取點(diǎn)云的幾何特征。SpiderCNN繼承了經(jīng)典CNN 的多尺度層次結(jié)構(gòu),同時(shí)濾波器被設(shè)計(jì)為捕獲局部信息的簡(jiǎn)單階躍函數(shù)和泰勒多項(xiàng)式的乘積。SpiderCNN 在標(biāo)準(zhǔn)測(cè)試集中的測(cè)試達(dá)到了92.4%的準(zhǔn)確率。TATARCHENKO M 等人[32]提出了一種基于切線的卷積方法,即TangentConv。TangentConv 直接對(duì)點(diǎn)云表面幾何進(jìn)行操作,可以應(yīng)用于具有挑戰(zhàn)性的室內(nèi)和室外3D 環(huán)境的真實(shí)世界數(shù)據(jù)集。蒙特卡洛卷積(MCCNN)[33]的亮點(diǎn)在于可以對(duì)抗點(diǎn)云非均勻的分布特性,將密度引入到卷積計(jì)算中,實(shí)現(xiàn)性能提升。
PointNet++[21]中有multiscale 的操作,對(duì)于信息量不多的局部點(diǎn)云會(huì)造成信息冗余,另外計(jì)算復(fù)雜度比較高。KOMARIICHEV A 等人[34]提出了環(huán)形卷積(A-CNN)。這種新的卷積算子可以通過(guò)在計(jì)算中指定環(huán)形結(jié)構(gòu)和方向,更好地捕獲每個(gè)點(diǎn)的局部幾何特征。Geo-CNN[35]為了更好地學(xué)習(xí)局部幾何結(jié)構(gòu),以某個(gè)中心點(diǎn)作坐標(biāo)系,把鄰域點(diǎn)投影到坐標(biāo)系上以向量表示,在坐標(biāo)系上利用權(quán)重進(jìn)行學(xué)習(xí)。KPConv[36]的卷積權(quán)重位于歐幾里得空間中,比固定網(wǎng)格卷積具有更大的靈活性,對(duì)于不同密度點(diǎn)云的分類工作很有效果。RS-CNN[37]將規(guī)則網(wǎng)絡(luò)CNN 擴(kuò)展到不規(guī)則網(wǎng)絡(luò)中,以進(jìn)行點(diǎn)云分類任務(wù)。RS-CNN 的關(guān)鍵在于從點(diǎn)之間的幾何拓?fù)浼s束關(guān)系學(xué)習(xí),可以用于開(kāi)發(fā)分層架構(gòu),實(shí)現(xiàn)點(diǎn)云的上下文形狀感知。
FPConv[38]通過(guò)自動(dòng)學(xué)習(xí)權(quán)重實(shí)現(xiàn)局部展平,以將周圍的點(diǎn)投影到2D 網(wǎng)格上,再進(jìn)行有效的特征學(xué)習(xí)。FPConv 可以輕松集成到各種網(wǎng)絡(luò)架構(gòu)中。PointConv[39]將卷積核視為由權(quán)重和密度函數(shù)組成的3D 點(diǎn)云局部坐標(biāo)的非線性函數(shù)。PointConv中的權(quán)重函數(shù)通過(guò)多層感知機(jī)網(wǎng)絡(luò)學(xué)習(xí),密度函數(shù)通過(guò)核密度估計(jì)來(lái)學(xué)習(xí)。建立在PointConv 上的卷積神經(jīng)網(wǎng)絡(luò)在點(diǎn)云分類工作中達(dá)到了先進(jìn)水平。ConvPoint[40]將CNN 泛化,以便通過(guò)連續(xù)卷積代替離散卷積來(lái)處理點(diǎn)云。ConvPoint 不僅靈活而且在分類、分割工作中都實(shí)現(xiàn)了較好的效果。
于2021 年提出的PAConv[41],即位置自適應(yīng)卷積,是一種用于3D 點(diǎn)云處理的通用卷積操作。PAConv 的關(guān)鍵是通過(guò)動(dòng)態(tài)組裝存儲(chǔ)在weight bank中的基本權(quán)重矩陣來(lái)構(gòu)造卷積核。這些權(quán)重矩陣的系數(shù)通過(guò)ScoreNet 從點(diǎn)位置進(jìn)行自適應(yīng)學(xué)習(xí)得到。將PAConv 集成到PointNet 網(wǎng)絡(luò)中,可以實(shí)現(xiàn)較好的點(diǎn)云分類效果。
2.2.3 基于圖卷積的點(diǎn)云分類方法
近年來(lái),深度學(xué)習(xí)在圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)領(lǐng)域得到廣泛應(yīng)用。基于深度學(xué)習(xí)實(shí)現(xiàn)的圖神經(jīng)網(wǎng)絡(luò)可以處理非結(jié)構(gòu)化數(shù)據(jù),在點(diǎn)云分類、點(diǎn)云分割方面取得了突破。SCHLICHTKRULL M 等人[42]提出了圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolution Network,GCN),通過(guò)提取圖數(shù)據(jù)特征進(jìn)行分類。現(xiàn)有的深度學(xué)習(xí)方法通常忽略了整個(gè)文本結(jié)構(gòu)的相關(guān)性,為解決這個(gè)問(wèn)題,CHEN 等人[43]提出了半監(jiān)督的循環(huán)圖卷積網(wǎng)絡(luò)(Rerrent Graph Convolution Network,RGCN)。 基于GCN 的半監(jiān)督圖分析方法已取得成功,ZHANG等人[44]將基于鄰域假設(shè)的局部分析方法應(yīng)用于GCN,提出了局部密度定義,稱為L(zhǎng)DGCN。LDGCN算法以平衡法和不平衡法處理輸入數(shù)據(jù),優(yōu)化后的輸入數(shù)據(jù)包含詳細(xì)的局部點(diǎn)云信息,在點(diǎn)云分類任務(wù)可以取得更好的性能。為了消耗更少的內(nèi)存以及更好地獲取點(diǎn)云局部特征,LIANG 等人[45]提出了分層深度圖卷積網(wǎng)絡(luò)(Hierarchical Depthwise Graph Convolution Network,HDGCN)。HDGCN 由 一 系列DGConv 塊使用分層結(jié)構(gòu)構(gòu)建,DGConv 塊可以實(shí)現(xiàn)逐點(diǎn)卷積提取局部特征,整個(gè)網(wǎng)絡(luò)可以提取點(diǎn)云的局部和全局特征。
大多數(shù)網(wǎng)絡(luò)依靠旋轉(zhuǎn)進(jìn)行點(diǎn)云數(shù)據(jù)增強(qiáng),但未考慮到點(diǎn)云的旋轉(zhuǎn)不變性。為了解決這個(gè)問(wèn)題,CHEN 等人[46]提出了深度層次聚類網(wǎng)絡(luò)ClusterNet。ClusterNet 采用層次聚類來(lái)探索和利用嵌入在層次結(jié)構(gòu)樹(shù)中的點(diǎn)云幾何結(jié)構(gòu),從根本上提高了旋轉(zhuǎn)變換的魯棒性。
Grid-GCN[47]可用于快速和可擴(kuò)展的點(diǎn)云學(xué)習(xí),包含感知網(wǎng)格查詢(Coverage-Aware Grid Query,CAGQ)。CAGQ 提高了空間覆蓋率,降低了理論實(shí)踐復(fù)雜度,與FPS 和Ball Query 相比實(shí)現(xiàn)了高達(dá)50 倍的加速。
為了實(shí)現(xiàn)3D 場(chǎng)景下對(duì)具有旋轉(zhuǎn)不變性的點(diǎn)云進(jìn)行特征提取,LEI 等人[48]提出了球形卷積操作,用于點(diǎn)云的有效圖卷積。為了提高計(jì)算效率,使用快速傅里葉變換(Fast Fourier Transform,F(xiàn)FT)來(lái)計(jì)算球形卷積。球形卷積可以保持平移不變性和旋轉(zhuǎn)不變性,有利于保證局部結(jié)構(gòu)之間的權(quán)重共享和幾何特征學(xué)習(xí)。但同時(shí)由于球形卷積使用了FFT,在轉(zhuǎn)換過(guò)程中會(huì)丟失一部分信息。
2021 年,ZHOU 等人[49]提出了位置自適應(yīng)圖卷積AdaptConv。AdaptConv 可以根據(jù)動(dòng)態(tài)學(xué)習(xí)到的特征對(duì)點(diǎn)云特征進(jìn)行自適應(yīng)調(diào)整,提高了圖卷積的靈活性,可以有效地捕獲來(lái)自不同語(yǔ)義部分的點(diǎn)云的各種關(guān)系。
2.2.4 基于注意力機(jī)制的點(diǎn)云分類方法
自注意力機(jī)制網(wǎng)絡(luò)廣泛應(yīng)用于自然語(yǔ)言處理,在圖像分類等分析任務(wù)中也得到了發(fā)展。注意力機(jī)制的原理是使系統(tǒng)關(guān)注主要信息,忽略次要信息。近年來(lái),研究人員將注意力機(jī)制應(yīng)用于點(diǎn)云分析任務(wù),通過(guò)注意力機(jī)制來(lái)增強(qiáng)點(diǎn)云之間的聯(lián)系,從而更好地進(jìn)行點(diǎn)云分析任務(wù)。
GAPNet[50]在堆疊的多層感知機(jī)層中嵌入圖注意力機(jī)制,來(lái)學(xué)習(xí)點(diǎn)云的局部幾何特征。GACNet[51]是一種能在點(diǎn)云上端到端地進(jìn)行分割和分類的深度網(wǎng)絡(luò)。GACNet 通過(guò)建立每個(gè)點(diǎn)與周圍點(diǎn)的圖結(jié)構(gòu),并引入注意力機(jī)制計(jì)算中心點(diǎn)與每一個(gè)鄰接點(diǎn)的邊緣權(quán)重,使網(wǎng)絡(luò)在點(diǎn)云分類任務(wù)中取得更好的效果。
目前,大部分網(wǎng)絡(luò)沒(méi)有充分考慮點(diǎn)云的空間分布,限制了感知細(xì)粒度的能力。為了解決這個(gè)問(wèn)題,CHEN 等人[52]提出了LSANet。LSANet 可以根據(jù)局部區(qū)域的空間關(guān)系生成空間分布權(quán)重(Spatial Distribution Weight,SDW),以進(jìn)行空間獨(dú)立操作。XUE 等人[53]提出了DANet,利用發(fā)散激活的方法,從差異角度進(jìn)行點(diǎn)云分類。在DANet 中,XUE 等人還設(shè)計(jì)了分層發(fā)散激活(HAD)和差異發(fā)散激活(DDA),以端到端的方式融合有區(qū)別的特征,從而提高點(diǎn)云分類性能。
YUAN 等 人[54]提 出 了 迭 代transformer 網(wǎng) 絡(luò)(IT-Net)。IT-Net 可以通過(guò)一系列迭代的方式預(yù)測(cè)3D 剛性變換,來(lái)規(guī)范部分點(diǎn)云的姿態(tài)。IT-Net在點(diǎn)云分類任務(wù)上的性能優(yōu)于3D transformer。
CUEVAS V H 等人[55]提出了創(chuàng)新的雙頭注意力層。這個(gè)注意力層可以結(jié)合點(diǎn)云表面的和潛在的特征,將3D 場(chǎng)景分割成有意義的子集。其中,每個(gè)頭部注意力層使用點(diǎn)云幾何或潛在特征來(lái)結(jié)合局部或者全局信息,并使用這些信息來(lái)更好地學(xué)習(xí)點(diǎn)云局部關(guān)系。
CpT[56]是對(duì)現(xiàn)有基于注意力機(jī)制對(duì)點(diǎn)云進(jìn)行處理的卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)transformer。CpT 通過(guò)卷積投影,創(chuàng)建基于注意力機(jī)制的點(diǎn)集embedding,來(lái)實(shí)現(xiàn)局部點(diǎn)集鄰域的動(dòng)態(tài)處理。點(diǎn)集embedding 對(duì)輸入點(diǎn)云的排列具有魯棒性。
YU 等人[57]提出的Point-BERT 是一種transformer的新范式,將雙向編碼器表征量(Bidirectional Encoder Representations from Transformers,BERT)的概念推廣到3D 點(diǎn)云領(lǐng)域。受BERT 的啟發(fā),YU 等人設(shè)計(jì)了一個(gè)掩蔽點(diǎn)建模(Masking Point Modeling,MPM)任務(wù)來(lái)訓(xùn)練點(diǎn)云transformer。MPM 首先將一個(gè)點(diǎn)云劃分為幾個(gè)局部點(diǎn)云patch,再隨機(jī)屏蔽一些輸入點(diǎn)云patch,并將它們輸入到主干transformer 中。BERT 式預(yù)訓(xùn)練策略可以提高標(biāo)準(zhǔn)點(diǎn)云transformer的性能。
本節(jié)匯總了基于深度學(xué)習(xí)的點(diǎn)云分類網(wǎng)絡(luò)在ModelNet40 數(shù)據(jù)集上的性能,如表1 所示。在常見(jiàn)的三維數(shù)據(jù)集中,ModelNet40 應(yīng)用最廣泛。表1 還總結(jié)了部分網(wǎng)絡(luò)在ScanObjectNN 這個(gè)數(shù)據(jù)集上的性能。
從表1 分析可知,部分網(wǎng)絡(luò)在ModelNet40 數(shù)據(jù)集上的性能要優(yōu)于在ScanObjectNN數(shù)據(jù)集上的性能。ScanObjectNN 數(shù)據(jù)集是掃描真實(shí)室內(nèi)場(chǎng)景所獲得的點(diǎn)云數(shù)據(jù)集,存在噪聲等干擾,會(huì)影響分類精度。
表1 基于深度學(xué)習(xí)實(shí)現(xiàn)的點(diǎn)云分類網(wǎng)絡(luò)性能對(duì)比
續(xù)表1
總體來(lái)看,直接對(duì)原始點(diǎn)云進(jìn)行處理的分類網(wǎng)絡(luò)性能要優(yōu)于對(duì)結(jié)構(gòu)化點(diǎn)云進(jìn)行處理的分類網(wǎng)絡(luò)。點(diǎn)云是無(wú)序的非結(jié)構(gòu)化數(shù)據(jù),將點(diǎn)云結(jié)構(gòu)化后再進(jìn)行特征提取,會(huì)造成信息的丟失,從而導(dǎo)致點(diǎn)云分類性能下降。而對(duì)原始點(diǎn)云數(shù)據(jù)進(jìn)行處理,可以最大程度地保留點(diǎn)云的信息。對(duì)表1 分析可知,基于卷積神經(jīng)網(wǎng)絡(luò)的點(diǎn)云分類方法和基于圖卷積的點(diǎn)云分類方法雖然計(jì)算復(fù)雜度較高、存儲(chǔ)開(kāi)銷較大,但具有較高的點(diǎn)云分類準(zhǔn)確率。
本文將點(diǎn)云分類方法分成傳統(tǒng)的基于人工標(biāo)記點(diǎn)云提取特征描述符的方法和基于深度學(xué)習(xí)的點(diǎn)云分類方法兩類。近幾年,深度學(xué)習(xí)在點(diǎn)云處理中得到廣泛應(yīng)用?;谏疃葘W(xué)習(xí)的點(diǎn)云分類方法根據(jù)處理點(diǎn)云的數(shù)據(jù)格式可以分為兩類,即處理結(jié)構(gòu)化點(diǎn)云數(shù)據(jù)的方法和處理原始點(diǎn)云數(shù)據(jù)的方法。處理結(jié)構(gòu)化點(diǎn)云數(shù)據(jù)在點(diǎn)云體素化過(guò)程中會(huì)損失大量的深度信息。直接處理原始的點(diǎn)云數(shù)據(jù),在卷積過(guò)程中雖然需要較高的成本,但可以有效提升分類精度。
大部分基于深度學(xué)習(xí)的點(diǎn)云分類方法在ModelNet40 數(shù)據(jù)集上表現(xiàn)優(yōu)越,但在ScanObjectNN數(shù)據(jù)集和Sydney urban Object 數(shù)據(jù)集上,分類準(zhǔn)確率不高。因?yàn)镸odelNet40 是一種理想的數(shù)據(jù)集,而ScanObjectNN 和Sydney urban Object 是通過(guò)掃描真實(shí)場(chǎng)景所獲得的數(shù)據(jù)集,點(diǎn)云數(shù)據(jù)存在噪聲干擾。在未來(lái)的點(diǎn)云分類任務(wù)研究中,研究人員要考慮在真實(shí)場(chǎng)景中網(wǎng)絡(luò)的分類效果,提高含噪聲點(diǎn)云分類網(wǎng)絡(luò)的性能。