国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學習的高精度點云補全算法

2023-04-21 13:10:32劉心維
計算機技術(shù)與發(fā)展 2023年4期
關(guān)鍵詞:特征向量注意力損失

黃 麗,劉心維,肖 建

(南京郵電大學 電子與光學工程學院、柔性電子學院,江蘇 南京 210046)

0 引 言

點云補全,顧名思義,就是將一個殘缺的點云,通過某個算法模型補全完整,它是三維視覺領(lǐng)域的一項基礎技術(shù)。在點云數(shù)據(jù)的采集過程中,由于采集設備本身以及外界因素等諸多原因?qū)е虏杉脑键c云數(shù)據(jù)不完整。點云模型形狀上的缺損,極大地限制了視覺和AI的感知能力。點云補全是獲得三維對象完整點云模型的必要步驟,是后續(xù)相關(guān)工作的基礎,對殘缺點云的補全直接影響著后續(xù)工作的效果,因此點云補全工作有著很重要的意義。

1 相關(guān)工作

點云補全的研究方法分為三大類,分別是基于幾何、基于對齊和基于學習的方法。Mitra、Sipiran和Sung[1-3]等人提出了一些基于幾何假設的方法,這些方法較為簡單但補全效果很大程度依賴輸入點云的質(zhì)量且泛化性較差。Han、Kalogeralfis[4-5]等人基于數(shù)據(jù)庫匹配的方法要求輸入的3D物體形狀中含有很小的噪聲,并且匹配和補全的準確性很依賴數(shù)據(jù)庫的大小規(guī)模以及豐富程度。基于學習的方法是通過構(gòu)建參數(shù)化模型[6-7]來學習輸入點云的特征,此方法分為兩個階段,最初出現(xiàn)的基于學習的方法大多是使用體素[8]來表示三維形狀,但是成本高且補全精度不理想,無法達到大多數(shù)點云補全任務的要求?!包c網(wǎng)絡”出現(xiàn)后,通過深度學習的方法進行點云補全開始被人們普遍使用。PointNet[9]作為首個可以直接處理點云數(shù)據(jù)的深度模型算法被提出,在此之后,很多學者在其基礎上提出新的改進算法[10-11]。PointNet通過一個簡單的對稱函數(shù)即最大池化對點云的每一個點進行獨立處理,通過獲得每個點的全局特征來消除數(shù)據(jù)順序的影響。Achlioptas等人[12]提出LGAN-AE(latent-space GAN autoencoder)網(wǎng)絡模型算法,這是首先使用深度學習實現(xiàn)三維點云補全的算法,證明深度學習對點云補全任務的有效性,但其解碼器在恢復稀有幾何結(jié)構(gòu)時效果較差。Yuan等人[13]提出PCN(Point Completion Network)網(wǎng)絡模型,直接對原始點云進行操作,沒有任何結(jié)構(gòu)假設或?qū)Φ讓有螤畹淖⑨?無法恢復精細的幾何細節(jié)。Hinton[14]提出3D-Capsule(3D Point Capsule Network)網(wǎng)絡模型,使用膠囊網(wǎng)絡處理點云數(shù)據(jù),局部特征提取效果取得了一定的提升。羅開乾[15]等人提出一種基于多分支結(jié)構(gòu)的點云補全網(wǎng)絡,采用編碼器對點云的全局特征和局部特征進行綜合提取。Huang等人[16]提出PF-Net(Point Fractal Network)網(wǎng)絡結(jié)構(gòu),創(chuàng)新性地設計了點云分形網(wǎng)絡,采用類似分形幾何的思想,同樣以不完整的點云作為輸入,僅輸出缺失部分點云,較好地保留物體的個體特征,但仍缺乏基于部分觀察的條件生成能力。Pan L等人[17]提出VRCNet,由概率模型網(wǎng)絡PMNet和關(guān)系增強網(wǎng)絡RENet兩個子網(wǎng)絡級聯(lián)構(gòu)成,可以基于觀測到的不同的殘缺點云結(jié)合關(guān)系性架構(gòu),從而推測生成合理的完整點云,但對局部細節(jié)特征補全仍存在缺限。

為了彌補基于深度學習的點云補全方法在局部特征提取上的欠缺,從而提高補全的精度,該文提出一種新的基于深度學習的點云補全算法。該算法創(chuàng)造性地在特征提取模塊引入卷積層DOConv,可以通過附加的深度卷積來增強卷積層,其中每個輸入通道都使用不同的二維內(nèi)核進行卷積,兩個卷積的組成構(gòu)成了過參數(shù)化卷積層,增加了可學習的參數(shù),同時生成的線性運算可以由單個卷積層表示,可提升特征提取模塊的特征提取能力,且不會增加計算復雜度。此外,還在特征融合模塊添加了結(jié)合空間注意力機制和通道注意力機制的雙重注意力機制,可以幫助解碼器更好地學到多種特征之間的相互關(guān)系,融合不同層次的特征,從而更好地表示這些特征信息,提高點云補全的精度。在大型開源數(shù)據(jù)集ShapeNet上進行了大量的實驗與性能評估,結(jié)果表明,與當前比較主流的點云補全算法相比,提出的點云補全算法具有更高的補全精度。

2 網(wǎng)絡模型基本原理

2.1 網(wǎng)絡整體框架

點云補全算法整體框架由多分辨率編碼器、金字塔解碼器和注意力鑒別器構(gòu)成。

整體網(wǎng)絡框架如圖1所示。

圖1 整體網(wǎng)絡框架示意圖

將最遠點采樣(FPS)生成的不同尺度的缺失點云作為網(wǎng)絡框架的整體輸入,最遠點采樣是Pointnet++[18]中應用的一種采樣策略,通過不斷迭代地選擇距離已有采樣點集合的最遠點,用于獲取一組骨架點。這可以更好地均勻表示點集的分布,并且不會破壞點云模型的結(jié)構(gòu),最遠點采樣效果如圖2所示。

圖2 最遠點采樣效果

再將輸入點云送入多分辨率編碼器進行特征提取,該算法在共享權(quán)重的多層感知機(MLP)中嵌入了深度過參數(shù)化卷積層DOConv,生成的特征向量為V1、V2、V3,且同時在特征融合部分引入結(jié)合空間注意力機制和通道注意力機制的雙重注意力機制,將融合后的特征向量V作為輸入送入金字塔解碼器,最終得到三個尺度的點云補全結(jié)果。損失函數(shù)包括生成損失和對抗損失兩部分,Fan等人[19]提出了兩種衡量兩個點云之間的差異指標:倒角距離CD(Chamfer Distance)和推土距離EMD(Earth Mover’s Distance),這里采用CD作為生成損失。對抗損失受生成對抗網(wǎng)絡[20](GAN)的啟發(fā),借鑒了GAN思想,由注意力鑒別器計算得到。

2.2 多分辨率編碼器

多分辨率編碼器的輸入是三個不同尺度的缺失點云,是由最遠點采樣(FPS)對完整點云進行操作得到,點的數(shù)量分別為N、N/K、N/K2,N取值2 048,K取值2。然后通過雙重注意力機制層,輸出注意力向量Va,最后通過多層感知機得到最終的特征向量V。

輸入點云通過嵌入DOConv的共享權(quán)重的多層感知機,將輸入點云的點的維度編碼為[64-128-256-512-1 024],得到多維的特征向量V1、V2、V3。DOConv在一個普通的卷積層中加入了額外的深度卷積操作,構(gòu)成一個過參數(shù)化(over-parameterized)的卷積層。DOConv首先將深度卷積核的參數(shù)和標準卷積核的參數(shù)相乘得到新的W'權(quán)重,再用權(quán)重W'對輸入特征P做傳統(tǒng)卷積操作,得到最終的卷積操作結(jié)果O。具體計算公式為:

W'=DT°W,O=W'*P

(1)

結(jié)構(gòu)如圖3所示,D為深度卷積核的權(quán)重張量,W為普通卷積核的權(quán)重張量,Cin為輸入特征通道數(shù),Cout為輸出特征通道數(shù),Dmul是深度倍增器,M、N為卷積核作用的窗口尺寸。DOConv的引入提升了網(wǎng)絡補全的性能,并且不會導致推理計算復雜性增加。至此,DOConv完成了其所有工作,它可以靈活地捕獲輸入特征局部區(qū)域的信息,輸出具有局部關(guān)聯(lián)性的特征。

圖3 DOConv結(jié)構(gòu)

然后將輸出的多維特征向量V1、V2、V3輸入結(jié)合空間注意力機制和通道注意力機制[21]的雙重注意力機制的特征融合模塊。如圖4所示,首先,使用空間注意力機制學習綜合局部特征和全局信息的1 024維抽象特征,實現(xiàn)空間維度上的特征聚焦,輸出加權(quán)后每個位置的特征。其次,使用通道注意力機制學習綜合局部特征和全局信息的1 024維抽象特征,捕獲任意兩個通道特征之間的映射關(guān)系,輸出加權(quán)后每個通道的特征。再以深度學習中的concatenate數(shù)組拼接操作將3個1×1 024維的抽象特征拼接成1個1×3 072維的特征,最后使用MLP將潛在特征映射整合到最終的特征向量V,維度為1 024。

圖4 雙重注意力機制示意圖

2.3 金字塔解碼器

金字塔解碼器由全連接層和重組層構(gòu)成,如圖5所示,這里借鑒了特征金字塔網(wǎng)絡[22](Feature Pyramid Network )的思想,按照從粗到細的步驟來完成缺失點云補全的操作,輸出也同樣是與之前對應的三個尺度的生成點云。金字塔點生成器的輸入是多分辨率編碼器的輸出特征向量V,通過全連接層得到三個不同分辨率的子特征向量U1、U2、U3,維度為1 024、512和256,然后按照U1、U2、U3的順序預測出P3、P2距離P3中心點的相對坐標、P1距離P2中心點的相對坐標,最終獲得補全的點云。

圖5 缺失點云補全過程

2.4 注意力鑒別器

注意力鑒別器模塊借鑒了生成對抗網(wǎng)絡的思想,模型主要通過框架中的生成模型和判別模型互相博弈學習來產(chǎn)生好的輸出。將生成點云與真實點云送入鑒別器,通過其中的自編碼器獲得維度為512的特征向量,再通過連續(xù)的全連接層降低維度[512-256-128-16-1],輸出最終fake或real的二值結(jié)果。

3 實驗結(jié)果與分析

3.1 數(shù)據(jù)集

為測試該算法的有效性,在大型開源的數(shù)據(jù)集ShapeNet上進行實驗,使用具有13個類別的ShapeNet數(shù)據(jù)集。該文采用的ShapeNet數(shù)據(jù)集是一個由對象的三維CAD模型表示的豐富注釋的,大規(guī)模的形狀存儲庫。ShapeNet包含來自多種語義類別的3D模型,并按照WordNet分類法組織它們。該數(shù)據(jù)集包含多種類別的點云模型,包括飛機、椅子、吉他、帽子、滑板和桌子等,數(shù)據(jù)量達到32 913個。同時將該算法與LGAN-AE、PCN、3D-CAPSULE、PF-Net等當前主流算法進行對比,LGAN-AE、PCN、3D-CAPSULE的各項測試性能指標參考文獻[16]中的數(shù)據(jù),而PF-Net以及文中算法的各項測試性能指標均在自己的電腦上實現(xiàn)。

3.2 環(huán)境及參數(shù)設置

訓練的硬件配置為Intel?CoreTMi9-9900kCPU@3.60 GHz和一塊NVIDIA GeForce RTX 2080 Ti GPU。實驗在Ubuntu18.04環(huán)境下運行,采用PyTorch1.4.0作為深度學習框架。

為保證實驗的科學性,設置了隨機種子,確保每次隨機生成的變換矩陣相同。所有輸入點云都是以原點為中心,坐標數(shù)值均被歸一化到區(qū)間[-1,1]。地面真實值的點云數(shù)據(jù)均通過在每個樣本上均勻采樣2 048個點創(chuàng)建,而不完整點云則通過在預設的多個視點中隨機選擇一個點作為中心,并從完整點云數(shù)據(jù)中去除一定半徑范圍內(nèi)的點來生成。采用Adam梯度下降優(yōu)化器用于網(wǎng)絡訓練,初始學習率為0.001,訓練集和測試集的批量大小均設置為16,共訓練200步。在多分辨率編碼器和GAN鑒別器中使用批處理歸一化和RELU激活函數(shù),在金字塔解碼器中只使用RELU激活函數(shù)。在多分辨率編碼器中,將采樣和領(lǐng)域聚合操作重復2次,雙重注意力層重復2次。在金字塔解碼器中,通過改變m來設置生成的點云的點數(shù),m1=512,m2=128,m3=64。

3.3 評價指標

該算法的損失函數(shù)包括兩個部分:生成損失和對抗損失。倒角距離CD計算生成點云和地面真實點云之間的平均最短點距離,其計算效率更高,計算公式為:

(2)

式中,CD計算了生成點云S1和真實點云S2之間的平均最近平方距離,由于最終的生成結(jié)果是三個不同尺度的生成點云P1、P2、P3,所以總損失也由三部分構(gòu)成,dCD1、dCD2、dCD3分別對應三個不同尺度生成點云的CD值,其中α表示生成損失中的求和權(quán)重。總損失表達式如下:

Lcom=dCD1(P1,P1gt)+αdCD2(P2,P2gt)+

2αdCD3(P3,P3gt)

(3)

式中,P1gt、P2gt、P3gt分別為三個不同尺度的生成點云所對應的真實點云。文中的對抗損失借鑒對抗性網(wǎng)絡GAN,計算公式如下:

G(E(D(xi))))

(4)

式中,yi和xi分別屬于原始殘缺點云和真實點云。E、D、G分別表示多尺度特征提取器、金字塔點生成器和注意力鑒別器。總損失是由生成損失和對抗損失共同構(gòu)成,計算公式如式(5)所示:

L=βLcom+λLadv

(5)

式中,Lcom和Ladv分別是完成損失和對抗性損失的權(quán)重,滿足以下條件:β+λ=1。β和λ分別表示總損失函數(shù)中的完成損失和對抗性損失的權(quán)重。同時,倒角距離CD也在文中作為測試補全性能的評估指標。

3.4 結(jié)果與分析

為了更好地評估該算法的性能,采用dCD(S1→S2)和dCD(S2→S1)來綜合衡量算法的補全性能。其中dCD(S1→S2)計算的是從生成點云中的每個點到其最接近的真實點云中的點的平均平方距離,它衡量的是生成點云與真實點云的差異程度;dCD(S2→S1)計算的是從真實點云中的每個點到其最接近的生成點云中的點的平均平方距離,它衡量的是真實點云被生成點云的覆蓋的程度。這些值越小,表示點云補全效果越好。在ShapeNet 數(shù)據(jù)集上的測試結(jié)果如表1和表2所示,以表1中的Airplane為例,0.229/0.176分別表示dCD(S1→S2)和dCD(S2→S1)的數(shù)值。表1是基于整體點云的補全效果,表2是基于缺失點云的補全效果,表中加粗字體為最優(yōu)值。

表1 整體點云的點云補全效果

表2 缺失點云的點云補全效果

從表1和表2可以看出,文中算法在整體效果平均值上優(yōu)于PF-Net等主流算法,與PF-Net算法相比,在整體點云補全和缺失點云補全結(jié)果上性能分別提升7.81%和4.60%。除了以上實驗結(jié)果,圖6還給出了文中算法與PF-Net算法在ShapeNet數(shù)據(jù)集上部分類別補全效果的可視化結(jié)果對比。

圖6 文中算法與PF-Net算法在ShapeNet數(shù)據(jù)集部分類別上的補全效果

從圖6可以看出,如飛機的機翼、椅子的腿及椅背、燈的燈罩等細節(jié)結(jié)構(gòu)處特征恢復較為完整,可以看出文中算法可以更有效地保持點云模型的精細結(jié)構(gòu)。此外,還針對25%、50%、75%的缺失比例,使用ShapeNet數(shù)據(jù)集進行三次訓練并將文中算法在不同缺失比例上的點云補全結(jié)果可視化,用以測試文中算法補全的穩(wěn)健性,可視化結(jié)果如圖7所示。

圖7 不同缺失比例點云補全效果

圖7中黑色部分點云為輸入的缺失模型,白色部分點云為文中算法補全的效果,可以看出在缺失比例為25%及50%時的模型補全效果相近且補全效果較好,即便是在缺失比例為75%時也可以將殘缺飛機形狀補全完整。可以看出,文中算法在點云補全任務中具有更高的穩(wěn)健性及更好的泛化性能。

4 結(jié)束語

為了彌補基于深度學習的點云補全方法在局部特征提取上的欠缺,提高補全的精度,提出了一種新的基于深度學習的高精度點云補全算法。實驗結(jié)果表明,該算法可以更靈活地提取點云局部細節(jié)特征。同時,與LGAN-AE、PCN、3D-Capusule、PF-Net這些同類主流算法相比,該算法在ShapeNet數(shù)據(jù)集上的點云補全效果取得了顯著提升,與PF-Net算法相比在基于整體點云補全效果和基于缺失點云的補全效果兩方面分別提升7.81%和4.60%,這證明該算法在點云補全任務中的有效性,且有更高的精度及泛化性能。但是該算法僅在特征提取階段做出了有效改進,如何更好地在關(guān)注全局特征的同時也不忽略局部特征以及如何使生成的點云更平滑,將成為接下來的主要研究方向之一。

猜你喜歡
特征向量注意力損失
二年制職教本科線性代數(shù)課程的幾何化教學設計——以特征值和特征向量為例
少問一句,損失千金
讓注意力“飛”回來
克羅內(nèi)克積的特征向量
胖胖損失了多少元
玉米抽穗前倒伏怎么辦?怎么減少損失?
一類特殊矩陣特征向量的求法
“揚眼”APP:讓注意力“變現(xiàn)”
傳媒評論(2017年3期)2017-06-13 09:18:10
EXCEL表格計算判斷矩陣近似特征向量在AHP法檢驗上的應用
中華建設(2017年1期)2017-06-07 02:56:14
A Beautiful Way Of Looking At Things
固镇县| 巩留县| 麻城市| 外汇| 海宁市| 集贤县| 阿尔山市| 泽州县| 资溪县| 内乡县| 天门市| 兴仁县| 兴山县| 盱眙县| 综艺| 惠来县| 沽源县| 平原县| 普定县| 太仆寺旗| 深泽县| 樟树市| 连州市| 阳原县| 望城县| 惠安县| 乐清市| 岳西县| 濮阳县| 诸城市| 永州市| 商河县| 淮北市| 城步| 和硕县| 三都| 罗田县| 康乐县| 开化县| 潢川县| 廊坊市|