摘? 要:基于RGBD的6D位姿估計方法的一個關(guān)鍵問題是如何進(jìn)行彩色特征信息和深度特征信息的融合。先前的工作采用密集融合的方法,主要關(guān)注的是局部特征和全連接層提取的全局特征,忽略了遠(yuǎn)距離像素間的位置依賴關(guān)系。文章提出通過捕獲像素間的位置關(guān)系,并將其與彩色特征圖和幾何特征圖進(jìn)行密集融合,最后逐像素預(yù)測物體的6D位姿。實驗結(jié)果表明,該文的方法相比其他方法在YCB-Video數(shù)據(jù)集上獲得更優(yōu)的結(jié)果。
關(guān)鍵詞:6D位姿估計;弱紋理;RGB-D;密集融合
中圖分類號:TP751? ? ? ?文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2020)22-0016-04
6D Pose Estimation Method Based on Position Dependent Dense Fusion
HUANG Rongbin
(Guangdong University of Technology,Guangzhou? 510006,China)
Abstract:One of the key problems of the 6D pose estimation method based on RGBD is how to fuse the color feature information and depth feature information. Previous work used dense fusion method,mainly focused on local features and global features extracted from fully connected layer,ignoring the position dependence between remote pixels. The article proposes that by capturing the positional relationship between pixels and intensively fusing it with the color feature map and geometric feature map,the 6D pose of the object is predicted pixel by pixel. Experimental results show that the proposed method achieves better results than other methods on YCB-Video dataset.
Keywords:6D pose estimation;weak texture;RGB-D;dense fusion
0? 引? 言
物體的6D姿態(tài)估計可以廣泛應(yīng)用于機器人抓取、虛擬現(xiàn)實、自動駕駛等領(lǐng)域。筆者實驗室致力于研究機器人的工業(yè)應(yīng)用,為將物體6D位姿估計應(yīng)用到機器人抓取或者工業(yè)焊接領(lǐng)域,需進(jìn)一步提高6D位姿估計算法的精度和魯棒性。為此,筆者提出將一種新的RGBD融合方法,以提高6D位姿估計的精度。
目前6D位姿估計的主要方法大致可以分為基于RGB的方法和基于RGBD的方法?;赗GB的方法主要有:傳統(tǒng)方法[1,2]、基于關(guān)鍵點的方法[3]和直接回歸[4]的方法。其中,基于關(guān)鍵點的方法主要通過獲取圖像的關(guān)鍵點,再利用PnP計算目標(biāo)物體位姿。直接回歸的方法是通過CNN直接回歸得到物體的位姿,由于缺乏深度信息,導(dǎo)致這類方法在使用時存在較大的困難[5]。
基于RGBD的主流方法有通過RGB獲取粗略的位姿,再利用深度信息細(xì)化位姿和通過融合RGB特征和深度特征獲取位姿。第一種方法實時性較低,第二種方法的典型代表是PointFusion[6]和DenseFusion[5]。PointFusion采用全局融合RGB特征和深度特征,進(jìn)而回歸得到物體的位姿。由于是基于全局特征回歸得到位姿,當(dāng)物體存在遮擋時,被遮擋部分將直接影響識別精度。DenseFusion采用逐像素密集融合的方法,通過每個融合的像素特征分別回歸得到位姿,再通過投票得到置信度最高的位姿。然而DenseFusion主要關(guān)注的是局部特征和通過多全連接層獲取的全局特征,忽略了像素之間的位置關(guān)系。受Non-local[7]的啟發(fā),本文提出逐像素融合物體像素之間的位置關(guān)系,進(jìn)一步豐富每個像素特征的信息,以提高每個像素的識別精度。
1? 算法介紹
基于RGBD的6D位姿估計問題是指給定目標(biāo)物體所在場景的彩色圖像和深度圖像,計算物體的旋轉(zhuǎn)矩陣R∈SO(3)和平移向量t∈3,為方便計算,通常統(tǒng)一為:
其中,T為齊次變換矩陣,SO(3)為特殊正交群,SE(3)為特殊歐式群。
1.1? 總體概述
受Non-local的啟發(fā),本文介紹了一種新的RGB數(shù)據(jù)和深度數(shù)據(jù)融合方法,主要應(yīng)用于物體的6D位姿估計。該方法是在DenseFusion的基礎(chǔ)上,通過自注意力機制獲取像素間的位置依賴,進(jìn)一步融合像素之間的位置依賴,以豐富每個像素的特征信息,提高位姿估計的精度。本文提出的方法的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,主要包含三個步驟,語義分割、位置依賴特征提取與逐像素融合,最后通過改進(jìn)的位姿細(xì)化網(wǎng)絡(luò)優(yōu)化得到的位姿。
1.2? 語義分割
第一步,采用語義分割網(wǎng)絡(luò)獲取彩色圖像中目標(biāo)對象的掩摸,然后利用掩摸從彩色圖像和深度數(shù)據(jù)中獲取只包含目標(biāo)對象的圖像塊和目標(biāo)對象的深度數(shù)據(jù),并將深度數(shù)據(jù)轉(zhuǎn)換為點云數(shù)據(jù)。在此為了更好的與已有的工作進(jìn)行對比,采用了PoseCNN[8]的語義分割結(jié)果。
1.3? 位置依賴特征提取與逐像素融合
第二步,從目標(biāo)對象的圖像塊和點云數(shù)據(jù)中分別提取彩色嵌入特征、幾何嵌入特征和位置依賴特征。在此,采用了DenseFusion中的Encoder-Decoder結(jié)構(gòu)的卷積神經(jīng)網(wǎng)路從圖像塊中提取彩色嵌入特征,采用PointNet[9]從點云數(shù)據(jù)中提取幾何嵌入特征。基于Non-local網(wǎng)絡(luò)提取位置依賴特征。
DenseFusion采用全連接層獲取全局特征。全連接層可定義為:
其中,i為輸入的位置索引,j為輸出的索引,x為輸入信號,w為權(quán)重,f為激活函數(shù),y為輸出信號。
全連接層的輸出僅考慮每個位置的響應(yīng)對于輸出的影響,而忽略了每個位置之間的依賴關(guān)系對于輸出的影響。受Non-local的啟發(fā),本文提出進(jìn)行逐像素融合時,考慮像素間的依賴關(guān)系,將像素間的依賴關(guān)系作為位置依賴特征與彩色嵌入特征和幾何嵌入特征進(jìn)行融合。位置依賴特征的定義為:
其中,g為計算i,j兩個位置間的依賴關(guān)系的函數(shù),C為歸一化因子。若函數(shù)g采用嵌入空間下的高斯函數(shù)或者點積相似函數(shù),那么可以采用矩陣乘法進(jìn)行替代計算[7]。在此選用嵌入空間下的高斯函數(shù)[7]:
因此,將式(3)轉(zhuǎn)成矩陣相乘,轉(zhuǎn)換成了圖1中位置依賴特征的提取模塊。通過該模塊獲取位置依賴特征圖,將彩色嵌入特征圖、幾何嵌入特征圖、位置依賴特征圖進(jìn)行逐像素融合。最后將融合的結(jié)果輸入位姿預(yù)測器中回歸得到每個像素的預(yù)測結(jié)果和對應(yīng)的置信度,將置信度最高的位姿作為最終的預(yù)測結(jié)果。
1.4? 位姿細(xì)化改進(jìn)模塊
由于采用ICP算法細(xì)化位姿的實時性較差,DenseFusion[5]提出了一個細(xì)化迭代網(wǎng)絡(luò),主要思想是采用預(yù)測的初始位姿渲染模型獲取點云數(shù)據(jù),并將其輸入PointNet[9]中獲取幾何嵌入特征,將得到的幾何嵌入特征和彩色嵌入特征圖融合獲取全局特征,并用于預(yù)測位姿殘差,生成新的位姿,再進(jìn)行下一次迭代。該網(wǎng)絡(luò)也沒有考慮像素間的位置關(guān)系。因此,本文提出通過提取像素間位置關(guān)系,與全局特征圖進(jìn)行融合,進(jìn)一步豐富特征信息,以提高精度。改進(jìn)后的位姿細(xì)化網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2所示。
1.5? 損失函數(shù)
損失函數(shù)采用ADD和ADD-S[8]。ADD是指計算真實位姿下的對象模型上的采樣點與預(yù)測位姿下的對象模型上的對應(yīng)點的距離。給定真實的旋轉(zhuǎn)矩陣R和平移向量t以及預(yù)測的旋轉(zhuǎn)矩陣? 和平移向量? 的情況下,損失函數(shù)Lu定義為:
其中,Lu為第u個像素預(yù)測的位姿的損失值,M為從三維點云模型任意選擇的點的數(shù)量,xv為M個點中的第v個點。
ADD對于非對稱性物體表現(xiàn)良好,ADD-S則是針對對稱物體,具體是指計算估計位姿下的對象模型的采樣點與真實位姿下的對象模型上最近點的距離,定義為:
其中,k為真實位姿下的對象模型上點的索引。
本文采用每個像素均預(yù)測一個位姿和置信度的方法,為使得網(wǎng)絡(luò)學(xué)習(xí)平衡每個像素的誤差和置信度,將整體的誤差定義為[5]:
其中,N為特征圖像素特征的數(shù)量,ω為平衡超參數(shù),cu為第u個像素預(yù)測的位姿對應(yīng)的置信度。
2? 實驗結(jié)果
本文采用YCB-Video數(shù)據(jù)集[8]評估本文提出的方法,并和其他方法進(jìn)行對比。評價指標(biāo)采用Yu Xiang等人[8]提出的ADD和ADD-S。
表1展示了本文提出的方法與其他方法的對比,可以看出進(jìn)行位姿細(xì)化的結(jié)果比其他方法更優(yōu),整體的平均AUC提升了1%,其中picher_base和wood_block兩個類別均提升了4%,extra_large_clamp更是提高了19%。當(dāng)然,也存在部分物體的精度下降了,其中scissors下降了17%,目前的判斷是因為該物體較小,當(dāng)使用圖像塊預(yù)測位姿時,物體所占的像素比例較小,導(dǎo)致像素之間的位置關(guān)系引進(jìn)了更多的噪聲,進(jìn)而導(dǎo)致識別精度較低,本文提出的方法對于體積較大的物體精度較高。但整體而言,如圖3所示,本文提出的方法在YCB-Video數(shù)據(jù)集上表現(xiàn)優(yōu)于目前的主流方法。
3? 結(jié)? 論
本文提出了一種基于位置依賴的逐像素融合的6D位姿估計網(wǎng)絡(luò)。在我們的方法中,通過提取像素間的位置依賴關(guān)系獲取位置依賴特征圖,將位置依賴特征圖逐像素融合進(jìn)位姿估計網(wǎng)絡(luò)中和位姿細(xì)化網(wǎng)絡(luò)中,以豐富每個像素的特征信息。在YCB-Video數(shù)據(jù)集中的實驗表明,與DenseFusion相比,我們的方法的性能得到了提升。
參考文獻(xiàn):
[1] LUCA V,VINCENT L,PASCAL F. Stable real-time 3D tracking using online and offline information [J].IEEE transactions on pattern analysis and machine intelligence,2004,26(10):1385-1391.
[2] LOWE D G. Object recognition from local scale-invariant features [C]//Proceedings of the Seventh IEEE International Conference on Computer Vision.Kerkyra:IEEE,1999:1150-1157.
[3] PENG S D,LIU Y,HUANG Q X,et al. PVNet:Pixel-wise Voting Network for 6DoF Object Pose Estimation [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Long Beach:IEEE,2019:4556-4565.
[4] KEHL W,MANHARDT F,TOMBARI F,et al. SSD-6D:Making RGB-Based 3D Detection and 6D Pose Estimation Great Again [C]//2017 IEEE International Conference on Computer Vision (ICCV).Venice:IEEE,2017:1530-1538.
[5] WANG C,XU D F,ZHU Y K,et al. DenseFusion:6D Object Pose Estimation by Iterative Dense Fusion [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach:IEEE,2019:3338-3347.
[6] XU D F,ANGUELOV D,JAIN A. PointFusion:Deep Sensor Fusion for 3D Bounding Box Estimation [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:244-253.
[7] WANG X L,GIRSHICK R,GUPTA A,et al. Non-local Neural Networks [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:7794-7803.
[8] XIANG Y,SCHMIDT T,NARAYANAN V,et al. PoseCNN:A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes [J/OL].arXiv:1711.00199 [cs.CV].(2017-11-01).https://arxiv.org/abs/1711.00199.
[9] QI C R,SU H,MO K C,et al. PointNet:Deep Learning on Point Sets for 3D Classification and Segmentation [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Honolulu:IEEE,2017:77-85.
作者簡介:黃榕彬(1995—),男,漢族,廣東揭陽人,碩士研究生在讀,研究方向:6D位姿估計。