張海博, 沈 洋,, 許 浩, 包艷霞,3, 劉 江
(1.浙江理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 浙江 杭州 310018;2.麗水學(xué)院工學(xué)院, 浙江 麗水 323000;3.浙江掌信傳媒科技有限公司, 浙江 麗水 323020)
三維點(diǎn)云近年來(lái)在不同領(lǐng)域的應(yīng)用越來(lái)越廣泛,如人臉識(shí)別、機(jī)器人技術(shù)和生成技術(shù)等[1-5],點(diǎn)云特征提取方法作為以上應(yīng)用開(kāi)發(fā)的技術(shù)基石具有重要的研究意義。點(diǎn)云是表示三維對(duì)象的點(diǎn)集,具有稀疏性、非結(jié)構(gòu)化、無(wú)序性等特性,在數(shù)據(jù)結(jié)構(gòu)上與結(jié)構(gòu)化的二維圖像不同,這使得在計(jì)算機(jī)視覺(jué)中已經(jīng)成熟的深度學(xué)習(xí)方法[6]無(wú)法直接適配到點(diǎn)云處理中。針對(duì)該問(wèn)題,近年來(lái)出現(xiàn)了各種關(guān)于點(diǎn)云的深度學(xué)習(xí)方法?;谕队暗姆椒╗7-8]使用點(diǎn)云的二維投影進(jìn)行推理預(yù)測(cè),這類方法會(huì)導(dǎo)致信息丟失,并且其性能因投影視點(diǎn)變化而產(chǎn)生差異?;隗w素的方法[9]將點(diǎn)云轉(zhuǎn)換為體素?cái)?shù)據(jù)結(jié)構(gòu),應(yīng)用卷積進(jìn)行處理,存在由于體素化而失去幾何細(xì)節(jié)的問(wèn)題?;邳c(diǎn)的方法[10-11]在點(diǎn)云原始數(shù)據(jù)上進(jìn)行研究,減少了信息的丟失?;赥ransformer(一種采用自注意力機(jī)制的深度學(xué)習(xí)模型)的方法[12-15]缺乏對(duì)點(diǎn)云局部結(jié)構(gòu)信息的利用,不能充分提取上下文語(yǔ)意特征且存在計(jì)算復(fù)雜度高的問(wèn)題。
Transformer作為集合運(yùn)算符,適合處理非結(jié)構(gòu)化的、無(wú)序的點(diǎn)集,具有很好地適配點(diǎn)云數(shù)據(jù)結(jié)構(gòu)的特點(diǎn)。因此,本文提出了一種用于點(diǎn)云處理的局部鄰域Transformer(LNT),該方法是對(duì)點(diǎn)云進(jìn)行鄰域劃分后,在局部鄰域內(nèi)計(jì)算自注意力,達(dá)到線性復(fù)雜度。此外,通過(guò)在自注意力計(jì)算過(guò)程中加入有效的相對(duì)位置編碼,在網(wǎng)絡(luò)構(gòu)建中使用多特征融合方法,進(jìn)一步提高模型性能。實(shí)驗(yàn)結(jié)果表明:LNT模型在ModelNet40數(shù)據(jù)集和ShapeNet數(shù)據(jù)集中表現(xiàn)出較好的性能優(yōu)勢(shì)。
Transformer能較好地提取全局特征,但缺乏對(duì)局部特征的學(xué)習(xí),因此研究人員針對(duì)點(diǎn)云數(shù)據(jù)結(jié)構(gòu)進(jìn)行改進(jìn),提出了一個(gè)用于三維點(diǎn)云處理的局部鄰域Transformer。在此基礎(chǔ)上,構(gòu)建了一種新的用于點(diǎn)云學(xué)習(xí)的局部鄰域Transformer網(wǎng)絡(luò)。LNT的關(guān)鍵思想是利用Transformer固有的置換不變性,避免需要定義點(diǎn)云數(shù)據(jù)的順序,引入局部鄰域化的思想,通過(guò)局部自注意力機(jī)制進(jìn)行特征學(xué)習(xí)。
局部鄰域Transformer網(wǎng)絡(luò)實(shí)現(xiàn)流程圖如圖1所示。首先通過(guò)最遠(yuǎn)點(diǎn)采樣算法和KNN算法對(duì)點(diǎn)云進(jìn)行鄰域分組,然后在每個(gè)局部鄰域內(nèi)使用自注意力機(jī)制得到特征向量。使用金字塔式的網(wǎng)絡(luò)結(jié)構(gòu),逐步形成全局特征表示。
圖1 網(wǎng)絡(luò)實(shí)現(xiàn)流程圖Fig.1 Network implementation flow chart
給定輸入為一個(gè)由N個(gè)點(diǎn)組成的點(diǎn)云P∈N×D,其中D表示特征維度。使用最遠(yuǎn)點(diǎn)采樣和KNN對(duì)點(diǎn)云P進(jìn)行鄰域劃分P={Ps∈K×D,s=1,2,3,…,S},S表示最遠(yuǎn)點(diǎn)采樣的采樣點(diǎn)數(shù),K表示KNN算法中鄰域內(nèi)點(diǎn)的個(gè)數(shù),此時(shí)P被分為S個(gè)不同的鄰域(每個(gè)鄰域內(nèi)有K個(gè)點(diǎn))。我們需要設(shè)置合理的K、S,使得不同的鄰域之間能夠有相互重疊的部分,進(jìn)一步加強(qiáng)鄰域間的關(guān)系。接下來(lái),需要對(duì)鄰域內(nèi)的點(diǎn)進(jìn)行自注意力的計(jì)算,由于點(diǎn)本身是三維坐標(biāo),減法更能表現(xiàn)出點(diǎn)與點(diǎn)之間的關(guān)系,并且研究人員通過(guò)實(shí)驗(yàn)測(cè)試了乘法和減法的效果(見(jiàn)本文“3.4.2”部分),最終選擇使用減法計(jì)算自注意力權(quán)重:
As=σ(Q(Ps)-K(Ps)+δ)⊙(VPs)+δ)
(1)
其中,s表示第s個(gè)鄰域,Q(·)、K(·)、V(·)是線性變換函數(shù),其計(jì)算方式如公式(2)至公式(4)所示。研究人員添加了相對(duì)位置編碼δ,用于補(bǔ)足模型對(duì)于點(diǎn)云結(jié)構(gòu)信息的學(xué)習(xí),σ為Softmax函數(shù)對(duì)權(quán)重進(jìn)行歸一化處理。
Q(Ps)=PsWq∈K×D′
(2)
K(Ps)=PsWk∈K×D′
(3)
V(Ps)=PsWv∈K×D′
(4)
其中,Wq、Wk、Wv為可學(xué)習(xí)的權(quán)重參數(shù)。
Fs=As+Ps
(5)
F=MLP(Stack(F1,F2,…,FS))∈S×D″
(6)
隨后,每個(gè)鄰域內(nèi)的注意力特征與輸入進(jìn)行殘差連接后,對(duì)所有鄰域的輸出特征(F1,F2,…,FS)進(jìn)行堆疊,再經(jīng)過(guò)多層感知器得到輸出特征F。局部鄰域Transformer結(jié)構(gòu)如圖2所示,其中,h表示對(duì)頭注意力的頭數(shù)。
圖2 局部鄰域TransformerFig.2 Local neighborhood Transformer
局部鄰域Transformer促進(jìn)了局部鄰域內(nèi)特征向量之間的信息交換,同時(shí)鄰域間的重疊區(qū)域也促進(jìn)了鄰域間的信息交換。最終,所有數(shù)據(jù)點(diǎn)產(chǎn)生新的特征向量作為輸出。其中,研究人員在注意力計(jì)算環(huán)節(jié)使用了多頭自注意力機(jī)制[12],這讓模型同時(shí)關(guān)注不同表示子空間的信息??偟膩?lái)說(shuō),為了使Transformer適合點(diǎn)云的處理,研究人員對(duì)它進(jìn)行了改進(jìn),構(gòu)造了一個(gè)核心為T(mén)ransformer的局部鄰域自注意力層。該層集成了采樣分組、局部自注意力、線性變換和一個(gè)殘差連接(緩解網(wǎng)絡(luò)退化問(wèn)題)。該層能夠減少特征數(shù)量,提升特征維度,為構(gòu)建金字塔式的網(wǎng)絡(luò)結(jié)構(gòu)做鋪墊。多層感知器中的Max Pooling運(yùn)算符解決了點(diǎn)云置換不變性的問(wèn)題。
在計(jì)算復(fù)雜度方面,由于注意力的計(jì)算集中在注意力權(quán)重分支,因此本文采用減法而非乘法,在單個(gè)鄰域內(nèi)的時(shí)間復(fù)雜度為O(KD),那么整體的時(shí)間復(fù)雜度則為O(SKD),優(yōu)于傳統(tǒng)注意力的二次時(shí)間復(fù)雜度,基本達(dá)到線性時(shí)間復(fù)雜度。
隨著網(wǎng)絡(luò)的深入,模型底層細(xì)節(jié)信息逐漸丟失,為了進(jìn)一步提高模型的性能,研究人員加入了多特征融合模塊。由于LNT能夠減少特征個(gè)數(shù)N,提升特征維度D,因此每層輸出的特征尺度都不相同,為了能夠進(jìn)行融合,首先需要將特征個(gè)數(shù)N進(jìn)行統(tǒng)一,然后對(duì)特征進(jìn)行合并。
第一方案是使用隨機(jī)下采樣的方式,使得所有底層(前兩層)輸出特征個(gè)數(shù)與第三層的輸出特征個(gè)數(shù)統(tǒng)一,然后對(duì)這些特征進(jìn)行合并,但模型精度并沒(méi)有提升,研究人員分析原因后發(fā)現(xiàn),精度與隨機(jī)下采樣和局部特征提取的方式有關(guān),這導(dǎo)致特征之間的關(guān)系并不對(duì)應(yīng),使合并后特征變得混亂,導(dǎo)致最終模型效果不好。
為了解決這一問(wèn)題,研究人員修改了下采樣的方式,將其改為對(duì)應(yīng)位置的下采樣,具體來(lái)說(shuō)就是由于LNT的注意力計(jì)算是將鄰域內(nèi)的特征聚合到中心點(diǎn)上的,保留了中心點(diǎn)的索引,因此可以通過(guò)高層的中心點(diǎn)索引在底層中找到對(duì)應(yīng)的點(diǎn),并在底層只保留這些點(diǎn)的特征,用于合并,多特征融合模塊如圖3所示。
圖3 多特征融合模塊Fig.3 Multi-featured fusion module
點(diǎn)云通過(guò)兩層LNT后,點(diǎn)的個(gè)數(shù)逐漸減少,特征維度逐漸增加,如圖3中右指向的箭頭(步驟1)。為了實(shí)現(xiàn)特征融合,通過(guò)已知高層中心點(diǎn)的索引,可以找到底層特征中對(duì)應(yīng)的點(diǎn)特征,并只保留白色的點(diǎn)特征(白色點(diǎn)),如圖3左指向箭頭(步驟2)。最終將每層的對(duì)應(yīng)點(diǎn)進(jìn)行合并,完成融合(步驟3)。
Transformer本質(zhì)上是集合算子,計(jì)算全局特征,缺乏對(duì)點(diǎn)云局部相對(duì)位置信息的利用。在使用自注意力處理圖像的任務(wù)中,位置編碼可以使得模型更好地利用數(shù)據(jù)的局部結(jié)構(gòu)信息。位置編碼方案很多是人工制定的,例如基于正弦和余弦函數(shù)或歸一化范圍值[12]。還有一些是通過(guò)學(xué)習(xí)得到的,例如在NAT[16]中,對(duì)窗口內(nèi)像素位置編號(hào)后,通過(guò)可學(xué)習(xí)的偏置將位置信息加入注意力權(quán)重中,其位置偏置用于規(guī)則二維網(wǎng)格圖像,不適用于處理離散的三維點(diǎn)云。
在點(diǎn)云處理中加入相對(duì)位置編碼,可以加強(qiáng)模型對(duì)于點(diǎn)云局部結(jié)構(gòu)的學(xué)習(xí),但編碼器太簡(jiǎn)單,不能充分學(xué)習(xí)結(jié)構(gòu)特征,也不可設(shè)計(jì)復(fù)雜造成過(guò)擬合。
本文提出的相對(duì)位置編碼,通過(guò)將兩點(diǎn)坐標(biāo)做差,引入可訓(xùn)練、參數(shù)化的多層感知器學(xué)習(xí)點(diǎn)之間的相對(duì)位置信息,使模型達(dá)到更好的效果,彌補(bǔ)了自注意力機(jī)制在點(diǎn)云處理中的缺點(diǎn),解決點(diǎn)云的旋轉(zhuǎn)不變性問(wèn)題。研究人員將位置編碼δ定義如下:
δ=MLP(Pi-Pj)
(7)
其中,Pi和Pj為兩個(gè)點(diǎn)的三維坐標(biāo)。編碼器是線性層和激活層組成的多層感知器。相對(duì)位置編碼可以強(qiáng)調(diào)模型更加注重提取點(diǎn)云三維結(jié)構(gòu)上的特征,這在實(shí)驗(yàn)中(表4)也得到了驗(yàn)證:添加相對(duì)位置編碼的模型與不添加的相比精度更高。因此,研究人員在公式(1)的兩個(gè)分支中都添加了可訓(xùn)練的相對(duì)位置編碼。
基于LNT,研究人員構(gòu)造了完整的用于三維點(diǎn)云處理的網(wǎng)絡(luò),如圖4所示。整個(gè)網(wǎng)絡(luò)模型根據(jù)任務(wù)不同(分類任務(wù)和分割任務(wù)),網(wǎng)絡(luò)后半段結(jié)構(gòu)有所不同,但編碼器的網(wǎng)絡(luò)結(jié)構(gòu)是一致的。
圖4 局部鄰域Transformer網(wǎng)絡(luò)架構(gòu)Fig.4 Local neighborhood Transformer network architecture
編碼器:LNT能將輸入點(diǎn)編碼為一個(gè)新的高維特征向量,同時(shí)降低特征的基數(shù)。我們將它作為編碼器的基礎(chǔ),以金字塔式的結(jié)構(gòu)構(gòu)建編碼器。K表示KNN算法中找到鄰近點(diǎn)的個(gè)數(shù)。將點(diǎn)云輸入3個(gè)堆疊的LNT中,在局部鄰域內(nèi)學(xué)習(xí)每個(gè)點(diǎn)豐富的語(yǔ)義特征表示,然后將3層LNT的輸出進(jìn)行多特征融合,再經(jīng)過(guò)一個(gè)全局Transformer層,最終生成輸出特征。在全局Transformer層中不進(jìn)行鄰域的劃分,因此K值設(shè)定為1。在局部鄰域Transformer網(wǎng)絡(luò)框架中,以輸入2 048個(gè)點(diǎn)為例,編碼階段每層降采樣目標(biāo)點(diǎn)數(shù)為(512,128,64,1),每層中K值設(shè)定為(16,16,32,1)。全局自注意力是N個(gè)點(diǎn)與其他N-1個(gè)點(diǎn)計(jì)算自注意力權(quán)重,因此其空間復(fù)雜度為O(N2),而本文的局部鄰域自注意力是N個(gè)點(diǎn)與其鄰域內(nèi)K個(gè)點(diǎn)計(jì)算自注意力權(quán)重,所以模型的參數(shù)量大幅減少,達(dá)到O(NK)。
分類:網(wǎng)絡(luò)的細(xì)節(jié)如圖4中的下分支所示。將點(diǎn)云數(shù)據(jù)分類為Nc個(gè)對(duì)象類別(如飛機(jī)、桌子、椅子)。將編碼器輸出的特征向量輸入兩個(gè)前饋神經(jīng)網(wǎng)絡(luò)LBRD(線性層、批歸一化層和Dropout層結(jié)合的模塊,其中Dropout率設(shè)定為0.5),最終由線性層預(yù)測(cè)最終分類分?jǐn)?shù),得分最高的類確定為類標(biāo)簽。
分割:網(wǎng)絡(luò)的細(xì)節(jié)如圖4中的上分支所示。將點(diǎn)云分割成Np個(gè)部件(如將飛機(jī)分割為機(jī)體、兩翼、尾翼等部件),研究人員需要預(yù)測(cè)每個(gè)點(diǎn)的部件標(biāo)簽。在分割任務(wù)中采用U-Net編碼器-解碼器網(wǎng)絡(luò)結(jié)構(gòu),分割網(wǎng)絡(luò)編碼器的架構(gòu)與分類網(wǎng)絡(luò)的架構(gòu)相同,編碼器和解碼器的基本結(jié)構(gòu)(網(wǎng)絡(luò)基數(shù)和特征維度相同)是對(duì)稱的,編碼層的特征通過(guò)橋接到解碼層輔助上采樣。
圖4中ULBR模塊包含上采樣層、線性層、歸一化層和激活層。上采樣層的主要功能是將特征從低分辨率的輸入點(diǎn)集映射到高分辨率的點(diǎn)集上。輸入特征經(jīng)過(guò)三線性插值將特征映射到更高分辨率的點(diǎn)集上,然后將插值后的特征,與橋接的編碼器階段的特征進(jìn)行結(jié)合,最終通過(guò)線性層、歸一化層和激活層得到輸出特征。
經(jīng)由4個(gè)ULBR模塊,再通過(guò)一個(gè)線性層,預(yù)測(cè)輸入點(diǎn)云的逐點(diǎn)分割分?jǐn)?shù),每個(gè)點(diǎn)的部件標(biāo)簽由具有最大分?jǐn)?shù)的部件標(biāo)簽確定,最終得到分割后的點(diǎn)云。
研究人員在點(diǎn)云分類和分割任務(wù)中評(píng)估了局部鄰域Transformer網(wǎng)絡(luò)設(shè)計(jì)的有效性,并與其他方法進(jìn)行了比較。針對(duì)點(diǎn)云形狀分類任務(wù),在ModelNet40數(shù)據(jù)集[17]上進(jìn)行測(cè)試。針對(duì)點(diǎn)云分割任務(wù),在ShapeNetPart數(shù)據(jù)集[18]進(jìn)行測(cè)試。
研究人員使用PyTorch實(shí)現(xiàn)了局部鄰域Transformer網(wǎng)絡(luò)。在實(shí)驗(yàn)過(guò)程中,均使用負(fù)對(duì)數(shù)似然損失函數(shù)和Adam優(yōu)化器進(jìn)行訓(xùn)練,初始學(xué)習(xí)率設(shè)置為0.001,權(quán)重衰減設(shè)置為0.000 1,訓(xùn)練了200個(gè)周期。
ModelNet40數(shù)據(jù)集包含40個(gè)類別共12 311個(gè)CAD模型,它被廣泛應(yīng)用于點(diǎn)云形狀分類模型的基準(zhǔn)測(cè)試。為保證公平性,研究人員使用官方設(shè)定的9 843個(gè)模型用于訓(xùn)練,2 468個(gè)模型用于測(cè)試,使用類平均精度(mAcc)和總體精度(OA)進(jìn)行評(píng)估。模型在兩張RTX3090顯卡(24 GB顯存)上運(yùn)行,mini-batchsize設(shè)定為32。實(shí)驗(yàn)中,除了使用重采樣的方式增強(qiáng)數(shù)據(jù),沒(méi)有使用別的方式增強(qiáng)數(shù)據(jù)。原則上如果附加其他訓(xùn)練技巧,訓(xùn)練精度還可以進(jìn)一步提升。
實(shí)驗(yàn)結(jié)果如表1所示。本文提出的局部鄰域Transformer在ModelNet40數(shù)據(jù)集上的總體精度(OA)為93.3%,類平均精度(mAcc)為92.0%,優(yōu)于其他模型。
表 1 在ModelNet40數(shù)據(jù)集上的形狀分類結(jié)果Tab.1 Shape classification results on ModelNet40 dataset
本文所提模型的類平均精度(mAcc)是最高的,達(dá)到92.0%,遠(yuǎn)超其他模型。這說(shuō)明對(duì)于個(gè)別訓(xùn)練集數(shù)量較小的類別,本文所提模型的訓(xùn)練效果也很好,模型泛化性強(qiáng),能夠提取到豐富的特征。
點(diǎn)云部件分割是一項(xiàng)具有挑戰(zhàn)性的任務(wù),旨在將三維模型分割為多個(gè)不同的部件。本文所提模型在ShapeNetPart數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)評(píng)估,該數(shù)據(jù)集由2 048個(gè)點(diǎn)的16 880個(gè)實(shí)例對(duì)象組成,共有16個(gè)類別和50個(gè)部件標(biāo)簽。訓(xùn)練中按照官方劃分,14 006個(gè)對(duì)象用于訓(xùn)練,另外2 874個(gè)對(duì)象用于測(cè)試,其中每個(gè)實(shí)例對(duì)象分割為2—6個(gè)部件。分割任務(wù)的模型中,批處理大小、訓(xùn)練周期和學(xué)習(xí)率均與分類任務(wù)中的訓(xùn)練設(shè)置相同。
研究人員使用總體平均交并比(mIoU)作為評(píng)估指標(biāo),并列舉出了每個(gè)類平均交并比。實(shí)驗(yàn)中,將本文所提模型與其他模型(如PointNet、PointNet++、M-Conv等)進(jìn)行了比較,每個(gè)類別中的最高精度用加粗字體標(biāo)識(shí)出來(lái),結(jié)果如表2所示。結(jié)果表明,LNT模型的總體分割精度實(shí)現(xiàn)了超越,類別精度在包、汽車、刀等7個(gè)類別上取得了最佳結(jié)果。圖5展示了分割效果可視化實(shí)例,第一行為未進(jìn)行分割處理的對(duì)象,第二行為L(zhǎng)NT模型分割預(yù)測(cè)的結(jié)果。
表 2 在ShapeNetPart數(shù)據(jù)集上的部件分割結(jié)果Tab.2 Part segmentation results on ShapeNetPart dataset
圖5 ShapeNet數(shù)據(jù)集分割可視化實(shí)例Fig.5 Example of ShapeNet dataset segmentation visualization
當(dāng)前,使用自注意力機(jī)制的其他模型大多使用的全局自注意力,導(dǎo)致這些模型在注意力部分的空間復(fù)雜度為O(N2)。相比之下,本文所提的LNT模型在局部鄰域內(nèi)計(jì)算自注意力,可以讓模型的參數(shù)量大幅減少,達(dá)到O(NK2),其中N為點(diǎn)的個(gè)數(shù),K為鄰域內(nèi)點(diǎn)的個(gè)數(shù)(K<32)。
表3以分割任務(wù)為例,展示了LNT模型的參數(shù)量,并與其他模型進(jìn)行了對(duì)比,表明LNT在空間復(fù)雜度上的優(yōu)勢(shì)。
表 3 模型參數(shù)量對(duì)比Tab.3 Comparison of model parameters
3.4.1 相對(duì)位置編碼的影響
通過(guò)引入可訓(xùn)練的、參數(shù)化的位置編碼器來(lái)學(xué)習(xí)點(diǎn)與點(diǎn)之間的相對(duì)位置信息,可以使得局部自注意力機(jī)制更好地利用點(diǎn)云的結(jié)構(gòu)信息;并以ModelNet40數(shù)據(jù)集上的分類任務(wù)為例,具體研究了相對(duì)位置編碼添加位置對(duì)模型的影響,結(jié)果如表4所示。
表 4 添加相對(duì)位置編碼的實(shí)驗(yàn)對(duì)比Tab.4 Experimental comparison of adding relative position coding
從表4中可以看到:如果沒(méi)有位置編碼,模型的精度就會(huì)顯著下降。采用相對(duì)位置編碼時(shí)的模型精度高于無(wú)位置編碼??梢?jiàn),相對(duì)位置編碼可以提高網(wǎng)絡(luò)模型的性能。當(dāng)相對(duì)位置編碼只添加到注意力權(quán)重計(jì)算分支或僅添加到特征轉(zhuǎn)換分支時(shí),模型精度會(huì)不如整體都添加時(shí)的模型精度??梢?jiàn),在兩個(gè)分支都添加相對(duì)位置編碼是很重要的。
3.4.2 自注意力計(jì)算方式的影響
Transformer中自注意力權(quán)重計(jì)算的計(jì)算方式有多種,如減法、乘法等,其中乘法(WqTWk)是Transformer通用的計(jì)算方式。但是,研究人員認(rèn)為減法的計(jì)算方式(Wq-Wk)要更適合點(diǎn)云自注意力的計(jì)算,因?yàn)辄c(diǎn)云本身是三維空間中的位置信息,減法能更好地提取點(diǎn)與點(diǎn)之間的位置關(guān)系,同時(shí)更能突出點(diǎn)與點(diǎn)之間的差異性,更有利于特征的學(xué)習(xí)。研究人員通過(guò)實(shí)驗(yàn)證明了這一點(diǎn),使用乘法計(jì)算注意力權(quán)重的總體精度為92.5%,與使用減法計(jì)算注意力權(quán)重的總體精度93.3%相比,低了0.8%。
3.4.3K值的設(shè)定
超參數(shù)K表示最近鄰采樣點(diǎn)的數(shù)量即鄰域的范圍大小,K值的合理設(shè)定是決定模型性能的重要一環(huán),研究人員需要設(shè)定合適的K值保證鄰域之間能夠有相互重疊的部分,以此進(jìn)一步加強(qiáng)鄰域間的關(guān)系。在網(wǎng)絡(luò)的底層,研究人員希望模型專注于低級(jí)特征的學(xué)習(xí),因此在前兩層設(shè)定的K值較小;在網(wǎng)絡(luò)的高層,設(shè)定較大的K值對(duì)特征進(jìn)行聚合,形成全局特征。
可以通過(guò)實(shí)驗(yàn)尋找每層合適的K值設(shè)定,結(jié)果見(jiàn)表5所示。最合理的每層K值設(shè)定為(16,16,32,1)。
表 5 K值的選擇Tab.5 Selection of K value
本文提出了一種用于點(diǎn)云特征提取的局部鄰域Transformer模型,該模型從點(diǎn)云數(shù)據(jù)結(jié)構(gòu)的特點(diǎn)出發(fā),利用Transformer自注意力機(jī)制在點(diǎn)云局部幾何結(jié)構(gòu)中學(xué)習(xí)特征,能夠充分提取上下文語(yǔ)意信息,提升特征提取能力,并達(dá)到線性計(jì)算復(fù)雜度。同時(shí),多特征融合方法能有效地利用模型底層特征,進(jìn)一步提升模型的性能。實(shí)驗(yàn)結(jié)果表明,LNT模型在ModelNet40數(shù)據(jù)集形狀分類任務(wù)中的總體精度可達(dá)到93.3%,類平均精度可達(dá)到92.0%,優(yōu)于現(xiàn)有其他模型,并且在分割任務(wù)中點(diǎn)云分割結(jié)果也是有效的。同時(shí),實(shí)驗(yàn)證明了模型中的相對(duì)位置編碼、局部自注意力計(jì)算方式及K值設(shè)定的合理性。未來(lái),研究人員會(huì)對(duì)模型的網(wǎng)絡(luò)架構(gòu)進(jìn)行改進(jìn),在點(diǎn)云分割、語(yǔ)義分割、點(diǎn)云生成等任務(wù)中做進(jìn)一步的擴(kuò)展應(yīng)用。