国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于點(diǎn)云數(shù)據(jù)的三維目標(biāo)識(shí)別和模型分割方法

2019-05-14 07:36牛辰庚劉玉杰李宗民
圖學(xué)學(xué)報(bào) 2019年2期
關(guān)鍵詞:體素語(yǔ)義卷積

牛辰庚,劉玉杰,李宗民,李 華

?

基于點(diǎn)云數(shù)據(jù)的三維目標(biāo)識(shí)別和模型分割方法

牛辰庚1,劉玉杰1,李宗民1,李 華2,3

(1. 中國(guó)石油大學(xué)(華東)計(jì)算機(jī)與通信工程學(xué)院,山東 青島 266580; 2. 中國(guó)科學(xué)院計(jì)算技術(shù)研究所智能信息處理重點(diǎn)實(shí)驗(yàn)室,北京 100190; 3. 中國(guó)科學(xué)院大學(xué),北京 100190)

三維模型的深度特征表示是三維目標(biāo)識(shí)別和三維模型語(yǔ)義分割的關(guān)鍵和前提,在機(jī)器人、自動(dòng)駕駛、虛擬現(xiàn)實(shí)、遙感測(cè)繪等領(lǐng)域有著廣泛的應(yīng)用前景。然而傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)需要以規(guī)則化的數(shù)據(jù)作為輸入,對(duì)于點(diǎn)云數(shù)據(jù)需要轉(zhuǎn)換為視圖或體素網(wǎng)格來(lái)處理,過(guò)程復(fù)雜且損失了三維模型的幾何結(jié)構(gòu)信息。借助已有的可以直接處理點(diǎn)云數(shù)據(jù)的深度網(wǎng)絡(luò),針對(duì)產(chǎn)生的特征缺少局部拓?fù)湫畔?wèn)題進(jìn)行改進(jìn),提出一種利用雙對(duì)稱函數(shù)和空間轉(zhuǎn)換網(wǎng)絡(luò)獲得更魯棒、鑒別力更強(qiáng)的特征。實(shí)驗(yàn)表明,通過(guò)端到端的方式很好地解決缺少局部信息問(wèn)題,在三維目標(biāo)識(shí)別、三維場(chǎng)景語(yǔ)義分割任務(wù)上取得了更好的實(shí)驗(yàn)效果,并且相比于PointNet++在相同精度的情況下訓(xùn)練時(shí)間減少了20%。

點(diǎn)云;深度學(xué)習(xí);原始數(shù)據(jù);三維目標(biāo)識(shí)別;三維模型分割

近年來(lái),隨著三維成像技術(shù)的快速發(fā)展, 像微軟Kinect,英特爾的RealSense和谷歌的Tango等低成本小型化三維傳感器都可以很好的捕獲場(chǎng)景的三維信息,幫助智能設(shè)備更好的感知、理解世界的同時(shí)很大程度上也降低了人們以三維的方式獲取真實(shí)世界信息的門(mén)檻。另一方面,伴隨著GPU計(jì)算能力的迭代更新和大型三維模型數(shù)據(jù)的出現(xiàn),深度學(xué)習(xí)的思想在三維模型分類、檢索等任務(wù)范圍逐漸占據(jù)了絕對(duì)主導(dǎo)地位。這就使高效、準(zhǔn)確并且直接處理三維數(shù)據(jù)的技術(shù)成為廣泛的需求,并且成為自動(dòng)駕駛、虛擬現(xiàn)實(shí)以及遙感測(cè)繪發(fā)展的關(guān)鍵。

然而,通過(guò)便攜式三維掃描設(shè)備獲取的原始三維數(shù)據(jù)通常是點(diǎn)云的形式,區(qū)別于傳統(tǒng)的圖像和體素結(jié)構(gòu),屬于不規(guī)則的三維形狀數(shù)據(jù)結(jié)構(gòu)。深度學(xué)習(xí)中傳統(tǒng)卷積結(jié)構(gòu)為了實(shí)現(xiàn)權(quán)值共享和核函數(shù)優(yōu)化需要以規(guī)則化的數(shù)據(jù)結(jié)構(gòu)作為輸入,所以之前對(duì)于點(diǎn)云數(shù)據(jù)的處理通常轉(zhuǎn)換為多視圖或者體素的形式再輸入到深度網(wǎng)絡(luò)中去。但該數(shù)據(jù)處理形式的轉(zhuǎn)換往往會(huì)帶來(lái)幾何結(jié)構(gòu)損失、分辨率下降等問(wèn)題,由此產(chǎn)生識(shí)別精度低,模型錯(cuò)誤分割的實(shí)驗(yàn)結(jié)果。

之前利用深度學(xué)習(xí)在點(diǎn)云上提取特征的工作有PointNet[1]和PointNet++[2]。PointNet以記錄空間坐標(biāo)的原始點(diǎn)云數(shù)據(jù)直接作為網(wǎng)絡(luò)的輸入,學(xué)習(xí)點(diǎn)云模型的空間編碼后轉(zhuǎn)換為全局特征描述子用于目標(biāo)分類和模型分割任務(wù)。PointNet++為了學(xué)習(xí)到模型更多的局部結(jié)構(gòu)信息,首先通過(guò)最遠(yuǎn)點(diǎn)采樣和球查詢的方式提取包含模型局部結(jié)構(gòu)的點(diǎn)集,并利用PointNet學(xué)習(xí)帶有局部特征的點(diǎn)集串聯(lián)為全局特征用于模型分割任務(wù)。

本文方法在PointNet直接處理原始點(diǎn)云模型的深度網(wǎng)絡(luò)基礎(chǔ)上,以端到端的方式完成輸入到高層特征表示的映射。且利用多層感知機(jī)網(wǎng)絡(luò)單獨(dú)地提取每個(gè)點(diǎn)的深度特征,然后引入與二維圖像上處理仿射變換不變性的空間轉(zhuǎn)換網(wǎng)絡(luò)(spatial transformer networks,STN)[3]相似的結(jié)構(gòu)學(xué)習(xí)模型的拓?fù)浣Y(jié)構(gòu)信息,同時(shí)利用雙對(duì)稱函數(shù)對(duì)點(diǎn)集特征進(jìn)行編碼,消除點(diǎn)序?qū)θ痔卣鞯挠绊懖⑶疫M(jìn)一步產(chǎn)生更有鑒別力和穩(wěn)健性更強(qiáng)的深度特征。相比于PointNet,本文通過(guò)構(gòu)建端到端的深度網(wǎng)絡(luò)模型學(xué)習(xí)帶有模型拓?fù)浣Y(jié)構(gòu)的全局信息,以更小的時(shí)間代價(jià)達(dá)到了更高的目標(biāo)識(shí)別精度,網(wǎng)絡(luò)結(jié)構(gòu)更加簡(jiǎn)單并且易于訓(xùn)練。

本文直接處理點(diǎn)云數(shù)據(jù)的深度網(wǎng)絡(luò)關(guān)鍵在于轉(zhuǎn)換網(wǎng)絡(luò)和對(duì)稱函數(shù)的設(shè)計(jì),理論分析及實(shí)驗(yàn)證明本文方法產(chǎn)生的特征蘊(yùn)涵更多的模型信息以及具有更好的穩(wěn)健性,其充分解釋了網(wǎng)絡(luò)對(duì)于存在缺失和擾動(dòng)的點(diǎn)云模型具有一定魯棒性的原因。從函數(shù)逼近的角度看,由于避免了最遠(yuǎn)點(diǎn)采樣等提取局部結(jié)構(gòu)信息的模型預(yù)處理模塊,本文的網(wǎng)絡(luò)可以對(duì)任意連續(xù)的集合進(jìn)行函數(shù)逼近。

1 相關(guān)工作

基于點(diǎn)云模型的特征提取自上世紀(jì)90年代開(kāi)始至今已有20余年的發(fā)展,以2012年為分界線總體可以分為2個(gè)階段:手工設(shè)計(jì)特征階段和基于深度學(xué)習(xí)的特征階段。而基于深度學(xué)習(xí)的三維模型特征提取依據(jù)不同三維形狀數(shù)據(jù)的表示方法又可以分為:基于手工特征預(yù)處理的方法,基于投影圖的方法,基于體素的方法和基于原始數(shù)據(jù)的方法。

手工設(shè)計(jì)特征階段通常通過(guò)提取三維形狀的空間分布或直方圖統(tǒng)計(jì)等方法得到,典型代表如Spin Image、FPFH、HKS (heat kernel signature)、MsheHOG、RoPS等[4]。這類模型驅(qū)動(dòng)的方法在前一階段中占據(jù)著主導(dǎo)地位,但是依賴于研究者的領(lǐng)域知識(shí),并且獲取的特征在不同屬性數(shù)據(jù)集中的區(qū)分力、穩(wěn)定性和不變性都不容易得到保證,可拓展性差。

2012年普林斯頓大學(xué)建立了大型三維CAD模型庫(kù)項(xiàng)目ModelNet[5],伴隨著深度學(xué)習(xí)算法在圖像領(lǐng)域取得了巨大的成功,三維形狀數(shù)據(jù)結(jié)合深度網(wǎng)絡(luò)提取特征并應(yīng)用于目標(biāo)分類、模型分割、場(chǎng)景語(yǔ)義解析任務(wù)也取得了很好的結(jié)果,三維領(lǐng)域中數(shù)據(jù)驅(qū)動(dòng)方法開(kāi)始發(fā)展起來(lái)并逐漸在各項(xiàng)三維領(lǐng)域的任務(wù)中取得重要地位。

由于初期三維模型庫(kù)較小以及深度網(wǎng)絡(luò)由二維到三維的復(fù)雜性,最先發(fā)展起來(lái)的是基于手工特征預(yù)處理的方法。該方法首先在三維模型上提取手工特征,然后將手工特征作為深度網(wǎng)絡(luò)的輸入從而提取高層特征。典型的工作有BU等[6]首先在三維模型上提取熱核和平均測(cè)地距離特征,利用詞包轉(zhuǎn)換為中級(jí)特征輸入到深度置信網(wǎng)絡(luò)中提取高層特征。XIE等[7]首先提取三維模型的熱核特征構(gòu)建出多尺度直方圖,然后在每個(gè)尺度上訓(xùn)練一個(gè)自編碼機(jī)并將多個(gè)尺度隱含層的輸出串聯(lián)得到三維模型描述子,并在多個(gè)數(shù)據(jù)集上測(cè)試了該方法用于形狀檢索的有效性。KUANG等[8]利用嵌入空間下局部特征和全局特征融合的方法得到三維模型描述子,用來(lái)解決非剛體三維模型檢索任務(wù)。這類方法可以充分利用之前的領(lǐng)域內(nèi)知識(shí)作為先驗(yàn)指導(dǎo)并且能夠很好的展現(xiàn)手工特征和深度網(wǎng)絡(luò)各自的優(yōu)勢(shì)。但是依賴于手工特征的選擇和對(duì)模型參數(shù)的調(diào)整、優(yōu)化,一定程度上削弱了深度網(wǎng)絡(luò)高層特征的表達(dá)能力。

文獻(xiàn)[9]首先嘗試通過(guò)多視圖表示三維模型,然后輸入到深度網(wǎng)絡(luò)提取高層特征,在三維模型分類、檢索任務(wù)上取得了很好的表現(xiàn)。即給定視點(diǎn)和視距將三維模型投影為12或20幅視圖輸入到卷積神經(jīng)網(wǎng)絡(luò)提取每幅圖像的特征,然后經(jīng)過(guò)相同位置最大池化處理輸入到第二個(gè)卷積神經(jīng)網(wǎng)絡(luò)提取模型特征。文獻(xiàn)[10]充分考慮多視圖之間的關(guān)系,在輸入網(wǎng)絡(luò)前按照視點(diǎn)重要程度對(duì)相應(yīng)視圖進(jìn)行預(yù)排序。之后文獻(xiàn)[11]又提出沿三維模型主軸投影為全景圖并通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取深度特征的方法。該方法的優(yōu)點(diǎn)為可以充分利用二維圖像領(lǐng)域中成熟的深度網(wǎng)絡(luò)架構(gòu)及充足的圖像數(shù)據(jù)完成深度網(wǎng)絡(luò)的訓(xùn)練、調(diào)整。但是投影的方式損失了三維模型的幾何結(jié)構(gòu),一定程度上損失了特征的鑒別力,并且往往需要三維模型沿軸對(duì)齊。

基于體素的方法通過(guò)將三維模型體素化,仿照二維圖像上的卷積操作利用深度網(wǎng)絡(luò)直接在體素上提取深度特征。WU等[5]將三維模型用32×32×32的二值化體素表示,采用深度卷積置信網(wǎng)絡(luò)學(xué)習(xí)三維數(shù)據(jù)和標(biāo)簽之間的聯(lián)合概率分布。QI等[12]發(fā)現(xiàn)基于體素的深度網(wǎng)絡(luò)存在過(guò)擬合問(wèn)題,通過(guò)在網(wǎng)絡(luò)中加入用局部三維形狀信息預(yù)測(cè)類別標(biāo)簽的輔助任務(wù)很大程度上避免了過(guò)擬合問(wèn)題。但是文獻(xiàn)[13]指出,隨著體素分辨率的提高,數(shù)據(jù)稀疏性和計(jì)算復(fù)雜度問(wèn)題難以處理。由于傳統(tǒng)深度網(wǎng)絡(luò)只對(duì)模型邊緣體素信息敏感,文獻(xiàn)[14]提出用八叉樹(shù)的方式組織體素模型然后提取深度特征的O-CNN,在保證模型精度的前提下提高了數(shù)據(jù)利用率。

丟失幾何結(jié)構(gòu)信息和數(shù)據(jù)稀疏性問(wèn)題限制了基于多視圖和基于體素的深度網(wǎng)絡(luò)的發(fā)展,那么最優(yōu)的發(fā)展方向就是調(diào)整深度網(wǎng)絡(luò)適應(yīng)原始三維數(shù)據(jù)作為輸入[15]。文獻(xiàn)[16]提出基于面片的卷積受限波茲曼機(jī)(MCRBM),實(shí)現(xiàn)了三維形狀的無(wú)監(jiān)督特征學(xué)習(xí)。文獻(xiàn)[17]提出使用KD樹(shù)組織點(diǎn)云數(shù)據(jù),規(guī)則化深度網(wǎng)絡(luò)輸入結(jié)構(gòu)。文獻(xiàn)[18]將激光點(diǎn)云數(shù)據(jù)劃分為若干體素塊,然后利用體素特征編碼模塊(voxel feature encoding, VFE)進(jìn)行局部特征提取,并通過(guò)三維卷積實(shí)現(xiàn)高層特征的抽象。QI等[1-2]提出基于點(diǎn)云數(shù)據(jù)的深度網(wǎng)絡(luò)PointNet,通過(guò)多層感知機(jī)提取每個(gè)點(diǎn)的深度特征并利用對(duì)稱函數(shù)轉(zhuǎn)換為對(duì)點(diǎn)序不變的全局特征向量,在三維模型分類、語(yǔ)義分割任務(wù)上取得了很好的效果。之后借鑒于文獻(xiàn)[19]和文獻(xiàn)[20]中的方法,為了學(xué)習(xí)點(diǎn)云模型局部拓?fù)浣Y(jié)構(gòu)特征提出PointNet++,首先通過(guò)最遠(yuǎn)點(diǎn)采樣和球查詢聚集的方法對(duì)點(diǎn)云模型進(jìn)行處理,然后通過(guò)PointNet映射成帶有局部信息的高層特征。PointNet++進(jìn)一步拓展了PointNet獲得了更精細(xì)的模型局部特征,在模型分割和場(chǎng)景語(yǔ)義分割任務(wù)上取得了更高的精度。文獻(xiàn)[21]通過(guò)自組織映射(self-organizing map,SOM)聚類算法得到點(diǎn)云模型關(guān)鍵點(diǎn)并建立與周圍模型點(diǎn)的聯(lián)系,并使用PointNet模塊得到帶有空間信息的模型描述子。文獻(xiàn)[22]利用圖像目標(biāo)檢測(cè)方法將三維模型檢測(cè)范圍縮小到視錐中,然后利用PointNet提取深度特征用于目標(biāo)分類和包圍盒估計(jì)。

2 本文工作

本文通過(guò)設(shè)計(jì)直接處理點(diǎn)云數(shù)據(jù)的深度網(wǎng)絡(luò),提取三維模型深度特征應(yīng)用于三維模型識(shí)別和三維模型分割任務(wù)。提取模型全局特征的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示(卷積核大小除第1層為1×3,其余均為1×1,且步長(zhǎng)均為1,同層卷積權(quán)值共享。對(duì)于目標(biāo)識(shí)別任務(wù),輸入點(diǎn)云序列只記錄空間坐標(biāo)信息,大小為×3;對(duì)于三維模型語(yǔ)義分割任務(wù),輸入點(diǎn)云序列記錄空間坐標(biāo)、顏色、法向信息,大小為×9)。網(wǎng)絡(luò)以點(diǎn)云數(shù)據(jù)為輸入,經(jīng)過(guò)5個(gè)卷積層,差異性對(duì)稱函數(shù)和姿態(tài)變換子網(wǎng)絡(luò)處理,將池化特征和姿態(tài)特征串聯(lián)得到最終的全局特征。對(duì)于類三維目標(biāo)識(shí)別任務(wù),深度網(wǎng)絡(luò)以記錄空間信息{,,}的點(diǎn)云數(shù)據(jù)直接作為輸入,對(duì)每個(gè)模型上的點(diǎn)做單獨(dú)處理,輸出對(duì)應(yīng)所屬類別概率的維向量。對(duì)于有個(gè)語(yǔ)義標(biāo)簽的三維模型語(yǔ)義分割任務(wù),深度網(wǎng)絡(luò)以從每個(gè)場(chǎng)景目標(biāo)模型中采樣得到的個(gè)點(diǎn)的點(diǎn)云模型作為輸入,輸出對(duì)應(yīng)每個(gè)點(diǎn)語(yǔ)義標(biāo)簽的×維特征矩陣。本文所使用的深度網(wǎng)絡(luò)可以分為3個(gè)部分:深度卷積神經(jīng)網(wǎng)絡(luò)單獨(dú)提取每個(gè)點(diǎn)的深度信息,差異性雙對(duì)稱函數(shù)提取模型不同顯著性特征,空間轉(zhuǎn)換網(wǎng)絡(luò)預(yù)測(cè)出姿態(tài)變換矩陣融合為帶有局部信息的全局特征。

圖1 本文網(wǎng)絡(luò)結(jié)構(gòu)圖

2.1 深度卷積網(wǎng)絡(luò)

由于集合中的點(diǎn)以記錄空間坐標(biāo)信息、顏色和法向信息的點(diǎn)集形式存在,所以是一種不規(guī)則形式的三維數(shù)據(jù),不能直接輸入到傳統(tǒng)卷積深度神經(jīng)網(wǎng)絡(luò)。此外,在點(diǎn)云上提取模型特征時(shí)還需要考慮到點(diǎn)序?qū)ψ罱K特征的影響,避免模型在仿射變換之后產(chǎn)生錯(cuò)誤識(shí)別,或者模型上的點(diǎn)對(duì)應(yīng)的語(yǔ)義標(biāo)簽發(fā)生改變的情況。這里通過(guò)調(diào)整深度卷積網(wǎng)絡(luò)適應(yīng)點(diǎn)云數(shù)據(jù)的輸入形式,先對(duì)模型上的每個(gè)點(diǎn)進(jìn)行處理,然后在得到的特征層面進(jìn)行點(diǎn)序的處理。

深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)置類似于傳統(tǒng)的多層感知器網(wǎng)絡(luò),本文通過(guò)設(shè)置卷積核大小為1×1來(lái)實(shí)現(xiàn)對(duì)表示模型的點(diǎn)集的特征提取,即對(duì)于點(diǎn)云模型上記錄空間坐標(biāo)等信息的個(gè)點(diǎn),深度卷積網(wǎng)絡(luò)單獨(dú)將其每個(gè)點(diǎn)映射為中層特征,為接下來(lái)局部拓?fù)湫畔⑻幚砗腿痔卣魈崛∽鰷?zhǔn)備。實(shí)驗(yàn)表明,相比于模型表示形式的轉(zhuǎn)換和先對(duì)點(diǎn)集進(jìn)行排序預(yù)處理的方式,本文方法可以充分發(fā)揮點(diǎn)云數(shù)據(jù)本身的優(yōu)勢(shì),同時(shí)避免了排序預(yù)處理情況下需要考慮種不同的組合情況。

2.2 差異性對(duì)稱函數(shù)

其中,為點(diǎn)集映射得到的高層全局特征。用于分類任務(wù)的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,通過(guò)3個(gè)全連接層將得到的模型深度特征轉(zhuǎn)換為k維概率矩陣。其結(jié)果表明融入了更多不同顯著性信息的全局特征,在模型分類任務(wù)精度上相較于PointNet有一定的提高。

2.3 姿態(tài)對(duì)齊網(wǎng)絡(luò)

PointNet中使用模型全局特征和網(wǎng)絡(luò)中間層的點(diǎn)特征進(jìn)行串聯(lián)用于進(jìn)行后續(xù)的分割任務(wù),但是由于特征不夠精細(xì)且缺少局部上下文信息,容易產(chǎn)生失真的情況,并且在細(xì)粒度模式識(shí)別和復(fù)雜場(chǎng)景的識(shí)別問(wèn)題上效果不佳。后續(xù)的工作增加模型輸入到深度網(wǎng)絡(luò)前的預(yù)處理步驟來(lái)解決缺少局部上下文信息的問(wèn)題。但是重復(fù)進(jìn)行最遠(yuǎn)點(diǎn)采樣、采樣點(diǎn)聚集和調(diào)用PointNet網(wǎng)絡(luò)提取特征,一定程度上增大了問(wèn)題復(fù)雜度,同時(shí)在不同尺度、不同密度下非端到端地使用PointNet網(wǎng)絡(luò)提取高層特征也增加了時(shí)間開(kāi)銷。

其中,P為姿態(tài)對(duì)齊網(wǎng)絡(luò)輸出對(duì)齊矩陣。正交陣不會(huì)損失輸入信息,并且損失中增加正則項(xiàng)提高優(yōu)化速度的同時(shí)也帶來(lái)了一定程度上精度的提升。

圖4 全局特征用于模型語(yǔ)義分割任務(wù)網(wǎng)絡(luò)結(jié)構(gòu)圖

3 實(shí) 驗(yàn)

3.1 三維目標(biāo)識(shí)別任務(wù)實(shí)驗(yàn)

對(duì)于三維目標(biāo)識(shí)別任務(wù),本文方法充分利用端到端的深度網(wǎng)絡(luò)學(xué)習(xí)到具有不同顯著性的模型特征,并在ModelNet40模型分類數(shù)據(jù)集上進(jìn)行測(cè)試。ModelNet40模型庫(kù)包含40類12 311個(gè)CAD模型,其中訓(xùn)練集有9 843個(gè)模型,測(cè)試集有2 468個(gè)模型。2017年之前的大部分工作是轉(zhuǎn)換模型表達(dá)方式,以視圖或者體素化的三維模型作為處理對(duì)象,本文是基于點(diǎn)云數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。

本文對(duì)于所有模型在表面按照面積的不同均勻地采集1 024個(gè)點(diǎn),每個(gè)點(diǎn)記錄空間坐標(biāo)信息,且為了便于訓(xùn)練將所有點(diǎn)的坐標(biāo)標(biāo)準(zhǔn)化到單元球中。在訓(xùn)練階段,為了增強(qiáng)網(wǎng)絡(luò)對(duì)模型仿射變換的特征不變性以及增加訓(xùn)練數(shù)據(jù),對(duì)訓(xùn)練集模型進(jìn)行隨機(jī)角度的沿軸旋轉(zhuǎn)以及添加均值為零,方差0.03的高斯噪聲。實(shí)驗(yàn)中設(shè)置dropout參數(shù)為0.7,實(shí)驗(yàn)結(jié)果對(duì)比見(jiàn)表1。

表1 ModelNet40數(shù)據(jù)集目標(biāo)識(shí)別任務(wù)實(shí)驗(yàn)對(duì)比

本文方法同之前基于體素的基準(zhǔn)方法有了4.5%的精度提升,取得了最佳的結(jié)果。并且由于本文采用端到端的方式對(duì)模型進(jìn)行處理,網(wǎng)絡(luò)主要結(jié)構(gòu)為處理點(diǎn)云空間坐標(biāo)信息的卷積,雙對(duì)稱函數(shù)映射模塊和全連接,可以通過(guò)GPU進(jìn)行高效的并行計(jì)算。相比于在點(diǎn)云數(shù)據(jù)上提取手工特征(點(diǎn)云密度,測(cè)地線距離等)再利用多層感知器提取深度特征的方式(表1MLP方法)以及通過(guò)PointNet提取模型全局特征的方法,本文的方法取得了最佳的效果。

3.2 三維模型語(yǔ)義分割任務(wù)實(shí)驗(yàn)

相比于模型分類任務(wù),三維模型語(yǔ)義分割需要輸入更為精細(xì)的點(diǎn)特征,因此是一項(xiàng)更具有挑戰(zhàn)性的細(xì)粒度任務(wù)。本文方法中結(jié)合姿態(tài)估計(jì)網(wǎng)絡(luò)和多層感知器網(wǎng)絡(luò)對(duì)原始點(diǎn)云數(shù)據(jù)進(jìn)行處理,同目標(biāo)識(shí)別任務(wù)采用相似的方法在每個(gè)三維模型表面均勻地采集4 096個(gè)點(diǎn),并且將每個(gè)點(diǎn)對(duì)應(yīng)的RGB值和法向信息同空間坐標(biāo)統(tǒng)一作為本文深度網(wǎng)絡(luò)的輸入。

本文在斯坦福大學(xué)三維語(yǔ)義分割標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。該數(shù)據(jù)集包含了6個(gè)區(qū)域271個(gè)房間的Matterport掃描數(shù)據(jù),其中所有的點(diǎn)標(biāo)注為桌子、地板、墻壁等13個(gè)類別。在網(wǎng)絡(luò)訓(xùn)練階段,將所有點(diǎn)按照房間編號(hào)分開(kāi),并且將每個(gè)房間劃分為棱長(zhǎng)1 m的小區(qū)域。語(yǔ)義分割網(wǎng)絡(luò)將整個(gè)區(qū)域的點(diǎn)云數(shù)據(jù)作為輸入,輸出每個(gè)區(qū)域中點(diǎn)的類別信息。

將本文語(yǔ)義分割結(jié)果與其余3種方法分割結(jié)果通過(guò)平均交并比和整體精度的評(píng)價(jià)指標(biāo)進(jìn)行比較,見(jiàn)表2。其中MLP方法為首先在點(diǎn)云數(shù)據(jù)上提取手工特征,然后通過(guò)多層感知器網(wǎng)絡(luò)獲得語(yǔ)義分割特征。本文方法相比于MLP方法在平均交并比和整體分類精度指標(biāo)上產(chǎn)生了巨大的提升。并且相比于PointNet,由于更好的融入了局部拓?fù)湫畔?,精度提高?.64%。同PointNet++相比,由于本文采用端到端方式的處理,在訓(xùn)練時(shí)間上縮短了20%。

表2 語(yǔ)義分割任務(wù)結(jié)果比較

3.3 對(duì)比實(shí)驗(yàn)以及魯棒性測(cè)試

三維目標(biāo)識(shí)別任務(wù)中,差異性對(duì)稱函數(shù)的組合會(huì)影響最終全局特征的識(shí)別精度。為了達(dá)到深度網(wǎng)絡(luò)的最佳的性能,本文結(jié)合3種對(duì)稱函數(shù)進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見(jiàn)表3。

表3 差異性對(duì)稱函數(shù)組合比較

為了驗(yàn)證本文深度網(wǎng)絡(luò)對(duì)于模型采樣點(diǎn)個(gè)數(shù)的魯棒性,隨機(jī)丟棄測(cè)試集50%,75%,87.5%的采樣點(diǎn),最終在ModelNet40上測(cè)試結(jié)果如圖5所示。即在只保留256個(gè)采樣點(diǎn)的條件下本文深度網(wǎng)絡(luò)依然可以達(dá)到85.3%的識(shí)別精度。

圖5 深度網(wǎng)絡(luò)對(duì)采樣點(diǎn)個(gè)數(shù)魯棒性測(cè)試

3.4 可視化結(jié)果以及實(shí)驗(yàn)分析

為了定性分析實(shí)驗(yàn)結(jié)果以及通過(guò)實(shí)驗(yàn)效果分析本文方法,本文給出幾種典型的誤分類模型的可視化結(jié)果,以及部分空間語(yǔ)義分割結(jié)果。圖6模型為2種鏡子,網(wǎng)絡(luò)分類結(jié)果為書(shū)架。圖7中2種錯(cuò)誤情況為將沙發(fā)分類為床,XBOX模型分類為書(shū)架。由此可知,點(diǎn)云的稀疏性導(dǎo)致網(wǎng)絡(luò)單純的依靠空間坐標(biāo)信息不能很好的區(qū)分出幾何相似的模型。通過(guò)增加模型采樣點(diǎn)的法向信息以及RGB信息可以一定程度上解決此問(wèn)題。

圖6 誤分類情況模型可視化(鏡子模型)

圖7 誤分類情況模型可視化

圖8為4組空間語(yǔ)義分割結(jié)果可視化效果圖,不同顏色代表不同類別信息,左欄為人工標(biāo)注結(jié)果,右欄為網(wǎng)絡(luò)預(yù)測(cè)結(jié)果。

4 結(jié)束語(yǔ)

本文借助已有的可以直接處理點(diǎn)云數(shù)據(jù)的深度網(wǎng)絡(luò)進(jìn)行改進(jìn),針對(duì)產(chǎn)生的特征缺少局部拓?fù)湫畔?wèn)題,提出一種利用差異性雙對(duì)稱函數(shù)和空間轉(zhuǎn)換網(wǎng)絡(luò)來(lái)獲得更魯棒、鑒別力更強(qiáng)的特征。在ModelNet40數(shù)據(jù)集上分類任務(wù)以及在S3DIS數(shù)據(jù)集語(yǔ)義分割任務(wù)上實(shí)驗(yàn)表明,本文設(shè)計(jì)的網(wǎng)絡(luò)和對(duì)應(yīng)的特征有更好的表現(xiàn)。下一步工作重點(diǎn)是在點(diǎn)云模型全局特征中融入更多局部拓?fù)湫畔?,進(jìn)一步提升語(yǔ)義分割精度以及提高模型識(shí)別精度。

圖8 語(yǔ)義分割模型可視化

[1] QI C R, SU H, MO K, et al. Pointnet: Deep learning on point sets for 3D classification and segmentation [C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 77-85.

[2] QI C R, YI L, SU H, et al. Pointnet++: Deep hierarchical feature learning on point sets in a metric space [C]//The 24th Annual Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2017: 5105-5114.

[3] JADERBERG M, SIMONYAN K, ZISSERMAN A. Spatial transformer networks [C]//The 22th Annual Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2015: 2017-2025.

[4] GUO Y, BENNAMOUN M, SOHEL F, et al. 3D object recognition in cluttered scenes with local surface features: a survey [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(11): 2270-2287.

[5] WU Z, SONG S, KHOSLA A, et al. 3D shapenets: A deep representation for volumetric shapes [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 1912-1920.

[6] BU S H, LIU Z, HAN J, et al. Learning high-level feature by deep belief networks for 3-D model retrieval and recognition [J]. IEEE Transactions on Multimedia, 2014, 16(8): 2154-2167.

[7] XIE J, DAI G, ZHU F, et al. Deepshape: Deep-learned shape descriptor for 3D shape retrieval [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(7): 1335-1345.

[8] KUANG Z, LI Z, JIANG X, et al. Retrieval of non-rigid 3D shapes from multiple aspects [J]. Computer-Aided Design, 2015, 58: 13-23.

[9] SU H, MAJI S, KALOGERAKIS E, et al. Multi-view convolutional neural networks for 3D shape recognition [C]//2015 IEEE International Conference on Computer Vision. New York: IEEE Press, 2015: 945-953.

[10] LENG B, LIU Y, YU K, et al. 3D object understanding with 3D convolutional neural networks [J]. Information Sciences, 2016, 366: 188-201.

[11] SHI B G, BAI S, ZHOU Z, Et al. DeepPano: Deep panoramic representation for 3D shape recognition [J]. IEEE Signal Processing Letters, 2015, 22(12): 2339-2343.

[12] QI C R, SU H, NIE?NER M, et al. Volumetric and multi-view cnns for object classification on 3D data [C]// 2016 IEEE conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 5648-5656.

[13] LI Y, PIRK S, SU H, et al. FPNN: Field probing neural networks for 3D data [C]//The 23th Annual Conference on Neural Information Processing Systems. Cambridge: MIT Press,2016: 307-315.

[14] WANG P S, LIU Y, GUO Y X, et al. O-cnn: Octree-based convolutional neural networks for 3D shape analysis [J]. ACM Transactions on Graphics (TOG), 2017, 36(4): 72.

[15] VINYALS O. Order matters: Sequence to sequence for sets. (2015-05-05). [2019-03-21]. https://arxiv.org/abs/1506. 02025.

[16] HAN Z, LIU Z, HAN J, et al. Mesh convolutional restricted Boltzmann machines for unsupervised learning of features with structure preservation on 3D meshes [J]. IEEE Transactions on Neural Networks and Learning Systems, 2017, 28(10): 2268-2281.

[17] KLOKOV R, LEMPITSKY V. Escape from cells: Deep kd-networks for the recognition of 3D point cloud models [C]//2017 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2017: 863-872.

[18] MATURANA D, SCHERER S. Voxnet: A 3D convolutional neural network for real-time object recognition [C]//2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). New York: IEEE Press, 2015: 922-928.

[19] KAMOUSI P, LAZARD S, MAHESHWARI A, et al. Analysis of farthest point sampling for approximating geodesics in a graph [J]. Computational Geometry, 2016, 57: 1-7.

[20] RODOLà E, ALBARELLI A, CREMERS D, et al. A simple and effective relevance-based point sampling for 3D shapes [J]. Pattern Recognition Letters, 2015, 59: 41-47.

[21] LI J, CHEN B M, HEE LEE G. So-net: Self-organizing network for point cloud analysis [C]//2018 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 9397-9406.

[22] QI C R, LIU W, WU C, et al. Frustum pointnets for 3D object detection from rgb-d data [C]//2018 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018: 918-927.

3D Object Recognition and Model Segmentation Based on Point Cloud Data

NIU Chen-geng1, LIU Yu-jie1, LI Zong-min1, LI Hua2,3

(1. College of Computer and Communication Engineering, China University of Petroleum, Qingdao Shandong 266580, China; 2. Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China; 3. University of Chinese Academy of Sciences, Beijing 100190, China)

Deep representation of 3D model is the key and prerequisite for 3D object recognition and 3D model semantic segmentation, providing a wide range of applications ranging from robotics, automatic driving, virtual reality, to remote sensing and other fields. However, convolutional architectures require highly regular input data formats and most researchers typically transform point cloud data to regular 3D voxel grids or sets of images before feeding them to a deep net architecture. The process is complex and the 3D geometric structure information will be lost. In this paper, we make full use of the existing deep network which can deal with point cloud data directly, and propose a new algorithm that uses double symmetry function and space transformation network to obtain more robust and discriminating features. The local topology information is also incorporated into the final features. Experiments show that the proposed method solves the problem of lacking local information in an end-to-end way and achieves ideal results in the task of 3D object recognition and 3D scene semantic segmentation. Meanwhile, the method can save 20% training time compared to PointNet++ with the same precision.

point cloud; deep learning; raw data; 3D object recognition; 3D model segmentation

TP 391

10.11996/JG.j.2095-302X.2019020274

A

2095-302X(2019)02-0274-08

2018-09-03;

2018-10-10

中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金項(xiàng)目(18CX06049A);國(guó)家自然科學(xué)基金項(xiàng)目(61379106,61379082,61227802);山東省自然科學(xué)基金項(xiàng)目(ZR2015FM011,ZR2013FM036)

牛辰庚(1993-),男,河北衡水人,碩士研究生。主要研究方向?yàn)槿S目標(biāo)識(shí)別。E-mail:niuchengeng@foxmail.com

劉玉杰(1971-),男,遼寧沈陽(yáng)人,副教授,博士。主要研究方向?yàn)橛?jì)算機(jī)圖形圖像處理。E-mail:782716197@qq.com

猜你喜歡
體素語(yǔ)義卷積
真實(shí)場(chǎng)景水下語(yǔ)義分割方法及數(shù)據(jù)集
瘦體素決定肥瘦
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
Dividing cubes算法在數(shù)控仿真中的應(yīng)用
語(yǔ)言與語(yǔ)義
卷積神經(jīng)網(wǎng)絡(luò)的分析與設(shè)計(jì)
從濾波器理解卷積
基于距離場(chǎng)的網(wǎng)格模型骨架提取
基于體素格尺度不變特征變換的快速點(diǎn)云配準(zhǔn)方法
基于傅里葉域卷積表示的目標(biāo)跟蹤算法