王太勇,孫浩文
基于關(guān)鍵點特征融合的六自由度位姿估計方法
王太勇1, 2,孫浩文1
(1. 天津大學(xué)機(jī)械工程學(xué)院,天津 300350;2. 天津仁愛學(xué)院,天津 301636)
針對單張RGB-D圖像進(jìn)行六自由度目標(biāo)位姿估計難以充分利用顏色信息與深度信息的問題,提出了一種基于多種網(wǎng)絡(luò)(金字塔池化網(wǎng)絡(luò)和PointNet++網(wǎng)絡(luò)結(jié)合特征融合網(wǎng)絡(luò))構(gòu)成的深度學(xué)習(xí)網(wǎng)絡(luò)框架.方法用于估計在高度雜亂場景下一組已知對象的六自由度位姿.首先對RGB圖像進(jìn)行語義識別,將每一個已知類別的對象掩膜應(yīng)用到深度圖中,按照掩膜的邊界框完成對彩色圖與深度圖進(jìn)行語義分割;其次,在獲取到的點云數(shù)據(jù)中采用FPS算法獲取關(guān)鍵點,映射到彩色圖像與深度圖像中進(jìn)行關(guān)鍵點特征提取,將RGB-D圖像中的顏色信息與深度信息視為異構(gòu)數(shù)據(jù),考慮關(guān)鍵點需要充分融合局部信息與全局信息,分別采用了金子塔池化網(wǎng)絡(luò)(pyramid scene parsing network,PSPNet)和PointNet++網(wǎng)絡(luò)提取顏色信息與深度信息;采用一種新型的關(guān)鍵點特征融合方法,深度融合提取到顏色信息與幾何信息的局部及全局特征,并嵌入到選定的特征點中;使用多層感知機(jī)(multilayer perceptron,MLP)輸出每一個像素點的六自由度位姿和置信度,利用每一個像素點的置信度,讓網(wǎng)絡(luò)自主選擇最優(yōu)的估計結(jié)果;最后,利用一種端到端的迭代位姿求精網(wǎng)絡(luò),進(jìn)一步提高六自由度位姿估計的準(zhǔn)確度.網(wǎng)絡(luò)在公開的數(shù)據(jù)集LineMOD和YCB-Video上進(jìn)行測試,實驗結(jié)果表明和現(xiàn)有同類型的六自由度位姿估計方法相比,本文所提出的模型預(yù)測的六自由度準(zhǔn)確度優(yōu)于現(xiàn)有的同類型方法,在采用相同的評價標(biāo)準(zhǔn)下,平均準(zhǔn)確度分別達(dá)到了97.2%和95.1%,分別提升了2.9%和3.9%.網(wǎng)絡(luò)同時滿足實時性要求,完成每一幀圖像的六自由度位姿預(yù)測僅需0.06s.
六自由度位姿估計;深度學(xué)習(xí);特征融合;機(jī)器視覺
六自由度位姿估計是指在標(biāo)準(zhǔn)坐標(biāo)系下識別物體的三維位置和姿態(tài),是機(jī)器人抓取和操縱[1-3]、自主駕駛[4-5]、增強(qiáng)現(xiàn)實[6]等應(yīng)用中的重要組成部分.理想情況下的解決方案可以處理形狀和紋理不同的對象,并在傳感器噪聲和變化的光照條件中表現(xiàn)出魯棒性,同時達(dá)到實時性要求.
傳統(tǒng)的方法如Papazov等[7]與Alvaro等[8]使用手工制作的特征來提取圖像和物體體素模型之間的對應(yīng)關(guān)系.這種依靠人類經(jīng)驗設(shè)計的特征在光照條件變化或嚴(yán)重遮擋的場景準(zhǔn)確度會大幅下降,導(dǎo)致傳統(tǒng)的方法很難應(yīng)用到實際中.
最近,隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的爆炸性增長,基于深度學(xué)習(xí)的方法被引入到這一任務(wù)中.Tekin等[9]與Tjaden等[10]提出直接使用深度卷積網(wǎng)絡(luò)回歸對象的旋轉(zhuǎn)和平移.然而,由于旋轉(zhuǎn)空間的非線性,這些方法通常具有較差的泛化能力.Peng等[11]提出了PVNet,通過霍夫投票得出關(guān)鍵點,并使用多點透視成像(perspective-n-point,PNP)算法計算對象的六自由度位姿,Park等[12]與Yu等[13]采用了類似的方法.雖然這兩個階段的方法表現(xiàn)更穩(wěn)定,但大多數(shù)都建立在物體的二維投影的基礎(chǔ)上.在真實的三維空間中,投影中較小的誤差會被放大,并伴隨投影重疊現(xiàn)象導(dǎo)致對象間難以區(qū)分.此外,剛性物體的幾何約束信息由于投影導(dǎo)致部分丟失.
另一方面,隨著廉價RGB-D傳感器的發(fā)展,越來越多的RGB-D數(shù)據(jù)集被提出.借助從深度相機(jī)中獲取額外的深度信息,許多優(yōu)秀的二維空間算法被擴(kuò)展到三維空間,如Xu等[14]提出了PointFusion、Qi?等[15]提出了Frustum PointNet和Chen等[16]提出了MVSNet++.傳統(tǒng)的方法如Teng等[17]直接將深度信息視作與顏色信息同構(gòu)的數(shù)據(jù),用相同的特征提取方法處理深度信息;Wang等[18]提出了DenseFusion網(wǎng)絡(luò)將深度信息利用已知的相機(jī)內(nèi)參轉(zhuǎn)換為點云數(shù)據(jù)采用PointNet模型來處理點云數(shù)據(jù)提取幾何特征,并進(jìn)行像素級特征融合實現(xiàn)了高準(zhǔn)確度的六自由度位姿估計;Deng等[6]利用自監(jiān)督學(xué)習(xí)與霍夫投票來進(jìn)行六自由度位姿的預(yù)測;Chen等[19]提出一種類別級的六自由度位姿預(yù)測方法,將目標(biāo)對象進(jìn)行三維空間上的歸一化再進(jìn)行位姿預(yù)測;Gao等[4]直接利用激光雷達(dá)獲取到的點云圖像完成六自由度位姿預(yù)測.
盡管Wang等[18]提出了DenseFusion網(wǎng)絡(luò)在處理公開數(shù)據(jù)集中達(dá)到了良好的效果,但是在處理深度圖像時采用了PointNet[20]方法,此方法只能提取采樣點的幾何特征,局部幾何特征的欠缺,提高了預(yù)測六自由度位姿的難度.此外在生成全局特征的提取中,直接對所有采樣點進(jìn)行平均池化,雖然平均池化函數(shù)作為對稱函數(shù)可以有效解決點云數(shù)據(jù)的無序性問題[20],但是沒有充分利用點云數(shù)據(jù)間的幾何關(guān)系和采樣點與二維圖像中像素點的映射關(guān)系.
Peng等[11]提出的PVNet已經(jīng)在2D圖像中證實選取存在于物體的幾何邊界處的關(guān)鍵點對于提高預(yù)測位姿的準(zhǔn)確度有較大的提升.本文提出了一種三維點云數(shù)據(jù)中基于關(guān)鍵點的新型網(wǎng)絡(luò)架構(gòu),在點云數(shù)據(jù)中利用最遠(yuǎn)特征點采樣算法(farthest point sampling,F(xiàn)PS)選取關(guān)鍵點,引入金字塔池化網(wǎng)絡(luò)和PointNet++網(wǎng)絡(luò)[21]來分別處理彩色圖像和深度圖像,采用點云上采樣和平均池化函數(shù)生成全局幾何特征,對關(guān)鍵點進(jìn)行像素級特征嵌入融合,提高模型的識別準(zhǔn)確度,實現(xiàn)高準(zhǔn)確度的六自由度位姿預(yù)測.
在實際的應(yīng)用場景中,六自由度位姿估計存在著物體相互遮擋、光線不佳等挑戰(zhàn),充分利用RGB-D圖像中的顏色信息和深度信息弱化外界環(huán)境的影響是當(dāng)下主流的解決方法.通過關(guān)鍵點進(jìn)行六自由度位姿估計可以弱化物體之間相互遮擋的影響,但是需要充分提取關(guān)鍵點的幾何信息與顏色信息.這兩種信息處于不同的空間之中,所以從異構(gòu)數(shù)據(jù)中提取特征并進(jìn)行嵌入融合是六自由度位姿估計領(lǐng)域的關(guān)鍵技術(shù)挑戰(zhàn).本文所設(shè)計的網(wǎng)絡(luò)首先通過兩種不同的方式處理顏色和深度信息來解決數(shù)據(jù)異構(gòu)的問題,之后利用顏色信息和深度信息在二維圖像中內(nèi)在的映射關(guān)系在預(yù)先選定的像素點中進(jìn)行特征嵌入融合,最后通過可微迭代求精模塊對估計位姿進(jìn)行求精.
本文所提出的網(wǎng)絡(luò)總體結(jié)構(gòu)如圖1所示.網(wǎng)絡(luò)模型包括兩個階段,第1階段以彩色圖像作為輸入對每個已知類別進(jìn)行語義分割,即提取出已知對象的掩膜,應(yīng)用到彩色圖像和深度圖像中生成邊界框以完成語義分割.語義分割網(wǎng)絡(luò)是一個編碼解碼結(jié)構(gòu),利用輸入的彩色圖像,生成+1個語義分割圖.每個分割圖描述個可能的已知類別中的對象.由于筆者工作的重點是設(shè)計一種六自由度估計方法,并為了保證實驗對比的公平性,筆者選取當(dāng)前主流方法使用的語義分割網(wǎng)絡(luò)[22].第2階段處理分割結(jié)果并估計對象的六自由度位姿,包括5個部分:關(guān)鍵點選取過程、基于PointNet++模型的深度信息提取網(wǎng)絡(luò)、像素級特征嵌入融合網(wǎng)絡(luò)、基于無監(jiān)督置信度評分的像素級六自由度位姿的估計、位姿求精網(wǎng)絡(luò).
圖1?六自由度位姿估計網(wǎng)絡(luò)總體結(jié)構(gòu)
利用待估計物體的幾何信息的關(guān)鍵點主要存在于物體的幾何邊界處這一先驗信息[11,20],在高度雜亂的場景下,相較于從圖像中隨機(jī)選取個點作為關(guān)鍵點來進(jìn)行位姿估計,預(yù)先選取幾何邊界處的采用點進(jìn)行特征提取可以提高幾何信息的提取效率,并且可以大幅降低需要的采樣點數(shù)量,提高算法實時性.在二維RGB圖像中,通過選取關(guān)鍵點來進(jìn)行六自由度位姿的估計是常用的方法,但是剛性物體會由于投影造成幾何信息的部分丟失,并且不同的關(guān)鍵點會由于投影而重疊,導(dǎo)致難以區(qū)分.在三維點云數(shù)據(jù)中,關(guān)鍵點通常選擇三維邊界框的8個角點,這些點是遠(yuǎn)離物體上的虛擬點,使得網(wǎng)絡(luò)很難聚合它們附近的顏色以及幾何信息,造成距離關(guān)鍵點越遠(yuǎn)的點的位姿估計的誤差越大,對于六自由度位姿估計的參數(shù)計算有一定的影響.
本文選用了最遠(yuǎn)特征點采樣算法(farthest point sampling,F(xiàn)PS)選取關(guān)鍵點.具體來說是將物體點云的中心點作為初始點添加入算法中來進(jìn)行選擇過程,每一次添加距離所選定關(guān)鍵點最遠(yuǎn)的點至關(guān)鍵點集中,將該點作為新的初始點進(jìn)行迭代,直到集合數(shù)量達(dá)到個關(guān)鍵點.通過提取這些關(guān)鍵點的特征作為六自由度位姿估計的依據(jù).LineMOD數(shù)據(jù)集中燈罩對象的關(guān)鍵點的選取如圖2所示,橙色點代表選取的關(guān)鍵點,從圖2(a)的點云關(guān)鍵點可以看出橙色點主要集中在圖像的邊緣處,圖2(b)將關(guān)鍵點投影回二維圖像,關(guān)鍵點產(chǎn)生了一定程度上的重疊.
圖2?LineMOD數(shù)據(jù)集燈罩關(guān)鍵點
1.3.1?顏色特征提取網(wǎng)絡(luò)
顏色特征提取網(wǎng)絡(luò)的目標(biāo)是提取每個像素的顏色特征,以便在三維點特征和圖像特征之間形成緊密的對應(yīng)關(guān)系.本文采用了由Zhao等[23]提出的基于深度卷積網(wǎng)絡(luò)的金字塔池化模型.該網(wǎng)絡(luò)通過挖掘顏色特征并聚合了基于不同區(qū)域的上下文信息,在場景解析領(lǐng)域取得了良好的效果.它將尺寸為××3的圖像映射到××rgb特征空間.每個像素嵌入了表示相應(yīng)位置處的輸入圖像的顏色信息的rgb維特征向量.
1.3.2?幾何特征提取網(wǎng)絡(luò)
通過FPS算法選定的關(guān)鍵點集中在物體的邊緣位置,為了能讓邊界點可以更好地預(yù)測六自由度,需要邊界點能夠充分地融合局部幾何信息和全局幾何信息.PointNet網(wǎng)絡(luò)只是單純地做了幾何特征維度上的擴(kuò)展,之后使用池化函數(shù)得到全局幾何特征,完全丟失了點的局部幾何特征.為了避免這一情況的發(fā)生,本文使用PointNet++來代替PointNet,利用PointNet++可以提取局部幾何特征這一特性讓關(guān)鍵點具有更加豐富的幾何信息.
首先使用已知的相機(jī)內(nèi)參將分割好的深度圖像轉(zhuǎn)換為3D點云數(shù)據(jù),之后使用類似PointNet++模型來提取幾何特征,PointNet與PointNet++提取幾何特征原理如圖3所示.從圖3(a)中可以看出,PointNet模型直接對點的三維坐標(biāo)特征進(jìn)行學(xué)習(xí),而忽略了點之間的幾何關(guān)系.所以Wang等[18]使用的PointNet雖然可以提取三維坐標(biāo)點的幾何特征,但是忽略了三維坐標(biāo)點之間的局部幾何特征.Qi等[20]提出了PointNet++模型,從圖3(b)中可以看出,模型將稀疏的點云進(jìn)行分割,在分割區(qū)域內(nèi)不斷地提取幾何特征作為局部特征,擴(kuò)大局部范圍繼續(xù)學(xué)習(xí)局部特征,直到獲得全局幾何特征.
圖3?幾何特征下采樣提取原理
為了更加充分地利用全局幾何特征,本文改進(jìn)了PointNet++模型,對提取出的點云全局特征進(jìn)行了上采樣,如圖4所示.二維圖像中的上采樣技術(shù)是將學(xué)習(xí)到的全局特征上采樣到每一個像素點,讓每一個像素點都獲取到全局特征.像素點根據(jù)全局特征預(yù)測所屬類別信息,已經(jīng)在二維圖像中的圖像分割領(lǐng)域取得了巨大的成功.利用點云三維數(shù)據(jù)與彩色圖像二維數(shù)據(jù)的內(nèi)在一一對應(yīng)關(guān)系,將點云數(shù)據(jù)進(jìn)行上采樣,每個選定的像素點將獲得geo維度的全局幾何特征.
圖4?幾何特征上采樣原理
為了減小由于語義分割誤差對特征提取階段的影響,特征融合階段沒有采用直接融合顏色特征與幾何特征的全局信息方法,而是設(shè)計了像素級特征融合網(wǎng)絡(luò).其核心是先進(jìn)行局部逐像素融合,再嵌入全局信息,以此增加每一關(guān)鍵點所攜帶的信息量.
由于像素點和三維點之間的映射是唯一的,所以融合過程首先利用已知的攝像頭的內(nèi)參,基于圖像平面上的投影,將每個點的幾何特征與其對應(yīng)的像素點的顏色特征關(guān)聯(lián)并進(jìn)行局部特征的融合.如圖5所示的特征融合階段,橙色方格代表的是每一個關(guān)鍵點對應(yīng)像素點的顏色特征,藍(lán)色方格代表的是每一個關(guān)鍵點的局部幾何特征,通過維度拼接的方式進(jìn)行特征融合,融合后代表每一個關(guān)鍵點的局部特征.產(chǎn)生局部特征后嵌入經(jīng)過點云上采樣的全局幾何特征,并送入多層感知機(jī)進(jìn)行學(xué)習(xí),為了消除點云無序性的影響加入了平均池化函數(shù),最終得到了代表全局信息的綠色方格.通過這種方式有效地結(jié)合了提取到的所有特征,關(guān)鍵點的局部信息保證每個選取的像素點都可以做出預(yù)測,嵌入全局特征可以豐富每個像素點的特征,以提供全局上下文信息,達(dá)到了最小化遮擋和噪聲影響的目的.最后將全局信息送入多層感知機(jī)進(jìn)行位姿估計.同時利用自監(jiān)督機(jī)制,讓網(wǎng)絡(luò)決定通過那個關(guān)鍵點可以得到最好的位姿預(yù)測,在輸出六自由度位姿估計的同時還輸出每個關(guān)鍵點的置信度分?jǐn)?shù).
本文的六自由度位姿估計的損失定義為真實位姿下物體模型上的關(guān)鍵點與預(yù)測姿態(tài)變換后的同一模型上對應(yīng)點之間的距離.每一個關(guān)鍵點的損失函數(shù)的公式為
式中代表在N個關(guān)鍵點中第個關(guān)鍵點.
式(1)只對非對稱物體有良好的效果,當(dāng)估計對象是對稱物體時會有多個正確的六自由度位姿,使用式(2)來計算估計模型上每個點和真實模型上的最近點的距離.
損失函數(shù)定義為每個關(guān)鍵點的損失綜合,本文所提出的網(wǎng)絡(luò)在輸出六自由度位姿的同時還輸出了每個關(guān)鍵點的置信度.關(guān)鍵點的置信度是根據(jù)每個關(guān)鍵點的上下文信息決定哪個位姿估計可能是最好的假設(shè),最終的損失函數(shù)定義為
迭代最近點(iterative closest point,ICP)算法是許多六自由度位姿估計方法使用的一種求精方法,雖然準(zhǔn)確度很高但是效率較低,無法滿足實時性要求.
LineMOD數(shù)據(jù)集由Hinterstoisser等收集提出,是一個包含13個低紋理對象視頻的視頻數(shù)據(jù).?dāng)?shù)據(jù)集中有標(biāo)注的真實六自由度位姿和實例的掩膜.這個數(shù)據(jù)集的主要挑戰(zhàn)是場景雜亂、存在低紋理物體和環(huán)境光照變化.它被經(jīng)典方法和基于學(xué)習(xí)的方法廣泛采用.本文沒有額外的合成數(shù)據(jù),挑選1214個關(guān)鍵幀作為訓(xùn)練集,1335個關(guān)鍵幀作為測試集.
YCB-Video數(shù)據(jù)集包含21個形狀和紋理各不相同的YCB對象.捕獲了92個對象子集的RGB-D視頻,每個視頻顯示不同室內(nèi)場景中21個對象的子集.這些視頻中包括六自由度位姿和實例語義分割產(chǎn)生的掩碼.?dāng)?shù)據(jù)集同樣具有多變的光照條件、顯著的圖像噪聲和遮擋等挑戰(zhàn).本文將數(shù)據(jù)集分割成80個視頻用于訓(xùn)練,從剩余的12個視頻中挑選2949個關(guān)鍵幀用于測試.
本文對深度學(xué)習(xí)模型和測試模型都是基于pytorch1.7環(huán)境,在一個具備6Gb的GTX 1660 顯卡的計算機(jī)上完成的.顏色特征提取中下采樣部分采用的是ResNet-18,金字塔池化模型采用4層結(jié)構(gòu),每一層的上采樣前特征圖尺寸為1×1、2×2、3×3、?6×6.深度信息提取選取1024個點進(jìn)行預(yù)處理,選取200個點作為關(guān)鍵點.每一個關(guān)鍵點在嵌入全局特征后包含1408維的特征向量.網(wǎng)絡(luò)的學(xué)習(xí)率為0.001,位姿迭代求精由4個全連接層組成,這些層直接輸出位姿的殘差,每一個實驗都采用了2次迭代求精.
在測試集中每一次輸入一幀圖像進(jìn)行六自由度位姿估計.在測試集中為了驗證位姿估計在整個物體上的準(zhǔn)確度,每一次在整個物體上隨機(jī)采樣500個點,通過計算ADD/ADD-S曲線下的面積,即計算500個采樣點在歐氏空間下的平均距離來評估預(yù)測結(jié)果.閾值設(shè)定為0.1m,平均距離小于0.1m視為對此幀圖像六自由度位姿估計成功.通過計算所有數(shù)據(jù)集下的平均準(zhǔn)確度對算法進(jìn)行評價.
2.4.1?LineMOD數(shù)據(jù)集實驗結(jié)果分析
在基于LineMOD數(shù)據(jù)集的實驗中,將本文提出的方法與Wang等[18]DenseFusion方法在訓(xùn)練過程中損失值的下降收斂情況進(jìn)行對比,如圖6所示.從圖6中可以看出本文提出方法的收斂速度高于DenseFusion方法.在進(jìn)行70次訓(xùn)練后本文方法的平均誤差達(dá)到0.608cm,而DenseFusion的平均損失為0.708cm.在測試中,同時對比分析了輸入為RGB圖像的方法:PoseCNN方法[22]和PVNet方法[11];與輸入為RGB-D圖像的方法:SSD方法[24]和DenseFusion方法[18],這些方法都與本文采用了同樣的評價標(biāo)準(zhǔn),測試結(jié)果如表1所示.
在表1通過4種方法進(jìn)行對比,列出了LinMOD數(shù)據(jù)集中每一個類別的ADD(S)準(zhǔn)確率,可以看出本文提出的方法在準(zhǔn)確率上高于現(xiàn)有的同類型方法.其中SSD方法將RGB-D圖像中的顏色圖像和深度圖像視為同構(gòu)數(shù)據(jù)采用了共享參數(shù)的多層感知機(jī)進(jìn)行特征提取,從最終的位姿預(yù)測的準(zhǔn)確度看出這種方法甚至遜于RGB圖像中的方法.本文將其視為異構(gòu)數(shù)據(jù),采用了不同方法處理兩種數(shù)據(jù),大幅提高了預(yù)測準(zhǔn)確度.相較于傳統(tǒng)的RGB圖像的方法,本文所提出的方法也更加具有優(yōu)勢.由于本文充分利用了關(guān)鍵點之間的幾何關(guān)系,并設(shè)計了新的像素級特征融合方法,較于目前最優(yōu)秀的位姿預(yù)測方法DenseFusion,平均預(yù)測準(zhǔn)確度提高了2.9%.對于LineMOD數(shù)據(jù)集訓(xùn)練結(jié)果的可視化如圖7(a)所示,可以看出將經(jīng)過變換后的點云投影到圖片上與RGB圖像重合度?較高.
圖6?LineMOD數(shù)據(jù)集損失值變化曲線
表1?LineMOD數(shù)據(jù)集實驗預(yù)測準(zhǔn)確度
Tab.1?6-DoF estimation result of the LineMOD dataset
圖7 LineMOD數(shù)據(jù)集與YCB-Video數(shù)據(jù)集中本文方法實驗結(jié)果效果
2.4.2?YCB-Video數(shù)據(jù)集實驗結(jié)果分析
在基于YCB-Video數(shù)據(jù)集的實驗中對比分析了PoseCNN方法[22]DenseFusion方法[18],兩種方法與本文采用了同樣的評價標(biāo)準(zhǔn),測試結(jié)果如表2所示.從表2中可以看出本文所提出的方法相較于當(dāng)前最優(yōu)秀的方法在ADD-S標(biāo)準(zhǔn)下提升了3.9%,在ADD(s)標(biāo)準(zhǔn)下提升了7.7%.
表2?YCB-Video數(shù)據(jù)集實驗結(jié)果
Tab.2?6-DoF estimation result of a YCB-Video dataset
在YCB-Video數(shù)據(jù)集主要的挑戰(zhàn)是存在物體之間大量的遮擋,因此按照Wang等[18]提出的方法分析了在不同的遮擋條件下,遮擋對六自由度位姿估計的影響,如圖8所示.從圖8中可以看出在遮擋條件下本文所提方法明顯優(yōu)于現(xiàn)有的方法.在高遮擋下仍然擁有較高的準(zhǔn)確度,說明本文所提出的基于關(guān)鍵點的特征融合算法在高度遮擋情況下仍然可以利用余下的關(guān)鍵點之間的幾何關(guān)系,達(dá)到較高的位姿估計準(zhǔn)確度,再次證明了關(guān)鍵點的選取在位姿估計中的重要作用.在YCB-Video的數(shù)據(jù)集上的具體實驗效果對如圖7(b)所示.
2.4.3?算法實時性
由于增加了提取關(guān)鍵點局部幾何特征的PointNet++網(wǎng)絡(luò),增加了網(wǎng)絡(luò)的復(fù)雜度.為了驗證方法的實時性,本文也計算了在測試環(huán)境下對數(shù)據(jù)集中每一幀圖像進(jìn)行六自由度位姿估計所需要的時間.實驗結(jié)果表明僅需要0.06s就可以完成一幀圖像的預(yù)測(16幀/s),滿足了實時性的要求.
圖8 在YCB-Video數(shù)據(jù)集上,不同方法在遮擋程度不斷增加的情況下的性能
2.4.4?六自由度參數(shù)誤差
網(wǎng)絡(luò)最終輸出為平移矩陣與旋轉(zhuǎn)矩陣,為了更加直觀地表達(dá)各個六自由度的預(yù)測誤差,將旋轉(zhuǎn)矩陣轉(zhuǎn)化為歐拉角,最終結(jié)果如表3所示.其中e、e、e分別代表在測試集中平移矩陣在、、方向平移分量的平均誤差.、、代表測試集中歐拉角表示下3個旋轉(zhuǎn)分量的平均誤差.從表3中可以看出網(wǎng)絡(luò)預(yù)測的平移分量的誤差較小,在歐拉角表示下的旋轉(zhuǎn)誤差由于一個旋轉(zhuǎn)矩陣是3個歐拉角共同作用的線性變換,誤差相較于平移分量偏大.
表3?六自由度位姿參數(shù)誤差
Tab.3?6-DoF estimation pose parameter error
2.4.5?消融實驗
為了驗證位姿求精環(huán)節(jié)的效果并得到進(jìn)行迭代的最優(yōu)次數(shù),設(shè)計了關(guān)于位姿求精網(wǎng)絡(luò)的消融實驗.將網(wǎng)絡(luò)設(shè)定為不進(jìn)行迭代求精,最終結(jié)果如表4所示.通過實驗可以看出,位姿求精環(huán)節(jié)可以提高最終的位姿預(yù)測準(zhǔn)確率,達(dá)到了網(wǎng)絡(luò)的設(shè)計目的.通過實驗結(jié)果的對比分析,在滿足六自由度位姿估計的實時性要求下,本文最終選擇在每次預(yù)測六自由度位姿后進(jìn)行兩次位姿迭代求精.
表4?消融實驗位姿估計結(jié)果
Tab.4?6-DoF estimation result of the ablation experiments
本文針對復(fù)雜環(huán)境下六自由度位姿估計問題,提出了基于關(guān)鍵點特征融合的六自由度位姿預(yù)測方法.網(wǎng)絡(luò)將RGB-D圖像作為輸入,相較于傳統(tǒng)的僅RGB圖像作為輸入的方法,弱化環(huán)境因素對位姿估計的影響,可以適用于光照條件不佳以及待檢測物體屬于低紋理物體等多種情況,具體可以應(yīng)用到機(jī)械臂抓取等場合.利用LineMOD數(shù)據(jù)集和YCB-Video數(shù)據(jù)集對所提出模型進(jìn)行了多方面的實驗與測試,實驗結(jié)果表明:
(1) 通過采用基于關(guān)鍵點的六自由度位姿估計網(wǎng)絡(luò),大幅減少了預(yù)測一幀圖像所需要的采樣點數(shù)量,同時提高了預(yù)測的準(zhǔn)確度.在增加幾何信息提取網(wǎng)絡(luò)層數(shù)時,滿足了實時性要求,達(dá)到了估計每幀圖像位姿只需要0.06s.證明了關(guān)鍵點選取在六自由度位姿估計中的重要性;
(2) 將顏色信息與深度信息視為異構(gòu)數(shù)據(jù),并將深度圖像轉(zhuǎn)換為點云數(shù)據(jù)可以更好地利用RGB-D圖像中的信息,使得網(wǎng)絡(luò)不需要去學(xué)習(xí)已知的轉(zhuǎn)換關(guān)系,提高了網(wǎng)絡(luò)的收斂速度;
(3) 通過PointNet++網(wǎng)絡(luò)從深度圖像中提取幾何信息的方法可以有效地提取出關(guān)鍵點之間的局部幾何信息和全局幾何信息,有利于關(guān)鍵點做出準(zhǔn)確的位姿估計;
(4) 通過像素級特征融合可以讓關(guān)鍵點更加充分地利用網(wǎng)絡(luò)學(xué)習(xí)到的顏色信息和幾何信息,可以讓每一個像素點都根據(jù)對應(yīng)信息做出位姿估計,提高了網(wǎng)絡(luò)在物體相互遮擋條件下物體的位姿識別準(zhǔn)確度;
(5) 利用端到端的神經(jīng)網(wǎng)絡(luò)來進(jìn)行位姿求精,可以加快預(yù)測速度,無需繁雜的迭代過程,可以更好地應(yīng)用到實際中去.
通過實驗也說明了筆者所提出模型仍存在優(yōu)化和提升的空間,未來的研究重點為進(jìn)一步簡化特征提取網(wǎng)絡(luò)、加快模型的訓(xùn)練速度和提高在復(fù)雜環(huán)境下模型的適應(yīng)能力.
[1] Cui S,Wang R,Wei J,et al. Grasp state assessment of deformable objects using visual-tactile fusion perception[C]//2020 IEEE International Conference on Robotics and Automation(ICRA). 2020:538-544.
[2] Zakharov S,Shugurov I,Ilic S. Dpod:6D pose object detector and refiner[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul,Korea,2019:1941-1950.
[3] Zeng A,Song S,Yu K T,et al. Robotic pick-and-place of novel objects in clutter with multi-affordance grasping and cross-domain image matching[C]//2018 IEEE International Conference on Robotics and Automation(ICRA). Brisbane,Australia,2018:3750-3757.
[4] Gao G,Lauri M,Wang Y,et al. 6D object pose regression via supervised learning on point clouds[C]// 2020 IEEE International Conference on Robotics and Automation(ICRA). 2020:3643-3649.
[5] Qi C R,Chen X,Litany O,et al. Imvotenet:Boosting 3D object detection in point clouds with image votes[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle,USA,2020:4404-4413.
[6] Deng X,Xiang Y,Mousavian A,et al. Self-supervised 6D object pose estimation for robot manipulation[C]// 2020 IEEE International Conference on Robotics and Automation(ICRA). 2020:3665-3671.
[7] Papazov C,Haddadin S,Parusel S,et al. Rigid 3D geometry matching for grasping of known objects in cluttered scenes[J]. International Journal of Robotics Research,2012,31(4):538-553.
[8] Alvaro C,Dmitry B,Siddhartha S S,et al. Object recognition and full pose registration from a single image for robotic manipulation[C]//2009 IEEE International Conference on Robotics and Automation. Kobe,Japan,2009:48-55.
[9] Tekin B,Sinha S N,F(xiàn)ua P. Real-time seamless single shot 6d object pose predition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City,USA,2018:292-301.
[10] Tjaden H,Schwanecke U,Schomer E. Real-time monocular pose estimation of 3D objects using temporally consistent local color historams[C]//Proceedings of the IEEE International Conference on Computer Vision. Venice,Italy,2017:124-132.
[11] Peng S,Liu Y,Huang Q,et al. PVNet:Pixel-wise voting network for 6DoF pose estimation[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Lone Beach,USA,2019:4561-4570.
[12] Park K,Patten T,Vincze M. Pix2pose:Pixel-wise coordinate regression of objects for 6D pose estimation[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul,Korea,2019:7668-7677.
[13] Yu X,Zhuang Z,Koniusz P,et al. 6DoF object pose estimation via differentiable proxy voting loss[EB/OL]. https://arxiv.org/abs/2002.03923,2020-05-04.
[14] Xu D,Anguelov D,Jain A. Pointfusion:Deep sensor fusion for 3D bounding box estimation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City,USA,2018:244-253.
[15] Qi C R,Liu W,Wu C,et al. Frustum pointnets for 3D object detection from RGB-D data[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City,USA,2018:918-927.
[16] Chen P H,Yang H C,Chen K W,et al. MVSNet++:Learning depth-based attention pyramid features for multi-view stereo[J]. IEEE Transactions on Image Processing,2020,29:7261-7273.
[17] Teng Z,Xiao J. Surface-based detection and 6-DoF pose estimation of 3-D objects in cluttered scenes[J]. IEEE Transactions on Robotics,2016,32(6):1347-1361.
[18] Wang C,Xu D,Zhu Y,et al. DenseFusion:6D object pose estimation by iterative dense fusion[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach,USA,2019:3343-3352.
[19] Chen X,Dong Z,Song J,et al. Category level object pose estimation via neural analysis-by-synthesis[C]// European Conference on Computer Vision. Glasgow,UK,2020:139-156.
[20] Qi C R,Su H,Mo K,et al. PointNet:Deep learning on point sets for 3D classification and segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Hawaii,USA,2017:652-660.
[21] Qi C R,Yi L,Su H,et al. Pointnet++:Deep hierarchical feature learning on point sets in a metric space[EB/OL]. https://arxiv.org/abs/1706.02413,2017-06-07.
[22] Xiang Y,Schmidt T,Narayanan V,et al. Posecnn:A convolutional neural network for 6D object pose estimation in cluttered scenes[EB/OL]. https://arxiv.org/abs/ 1711.00199,2018-05-26.
[23] Zhao H,Shi J,Qi X,et al. Pyramid scene parsing network[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Hawaii,USA,2017:2881-2890.
[24] Kehl W,Manhardt F,Tombari F,et al. SSD-6D:Making RGB-based 3D detection and 6D pose estimation great again[C]//Proceedings of the IEEE International Conference on Computer Vision. Venice,Italy,2017:1521-1529.
Six Degrees of Freedom Pose Estimation Based on Keypoints Feature Fusion
Wang Taiyong1, 2,Sun Haowen1
(1. School of Mechanical Engineering,Tianjin University,Tianjin 300350,China;2. Tianjin Ren’ai College,Tianjin 301636,China)
There exists a key technical challenge in performing six degrees of freedom(6-DoF)object pose estimation from a signal red,green,blue,and depth(RGB-D)image to fully leverage the color and depth information.To address this,we present a deep learning framework based on multiple networks pyramid scene parsing network(PSPNet)and PointNet++ combined with a feature fusion network.This method is used for estimating the 6-DoF pose of a set of known objects under a highly cluttered scene.The first stage involved taking colored images as input,performing semantic segmentation for each known object category,and feeding the masked depth pixels as well as an image patch cropped by the mask bounding box to the next stage.Second,point cloud data use the farthest point sampling algorithm to obtain the keypoints and map the keypoints to the color image and the depth image for feature extraction.Color and depth information in the RGB-D image are regarded as heterogeneous data.In the feature extraction process,the keypoints need to fully integrate the local and global information by regarding the color and depth information as heterogeneous data.The PSPNet module and PointNet++ module were used to extract color and geometric information for the RGB image and point cloud data,respectively.Then,a novel pixel-wise feature fu-sion was used to deeply fuse the local and global features of color and geometric information in the selected pix-els.Additionally,a multilayer perceptron was used to output the 6-DoF pose and confidence of each pixel.Finally,an end-to-end iterative pose refinement procedure further improved the pose estimation.Under the open dataset test,LineMOD and YCB-Video,the experimental results showed that compared with other similar existing methods,the proposed method has higher accuracy.Under the same evaluation metrics,the average precisions of the two datasets reach 97.2% and 95.1%,respectively,an increase of 2.9% and 3.9%.The network also meets real-time requirements,and it only takes 0.06s to complete the 6-DoF pose prediction of each image frame.
6-DoF pose estimation;deep learning;feature fusion;machine vision
10.11784/tdxbz202101024
TP391
A
0493-2137(2022)05-0543-09
2021-01-13;
2021-04-12.
王太勇(1962—??),男,博士,教授.
王太勇,tywang@tju.edu.cn.
國家自然科學(xué)基金資助項目(51975402);中國兵器工業(yè)集團(tuán)公司基礎(chǔ)性創(chuàng)新團(tuán)隊項目(2017CX031).
Supported by the National Natural Science Foundation of China(No. 51975402),the Basic Innovation Team Program of China North Industries Group Corporation Limited(No. 2017CX031).
(責(zé)任編輯:王曉燕)