洪倩倩,楊亮,曾碧
(1.廣東工業(yè)大學(xué),廣東 廣州 510006;2.電子科技大學(xué) 中山學(xué)院,廣東 中山 528402)
近些年來,伴機器人在各個領(lǐng)域得到廣泛應(yīng)用,例如精密醫(yī)療[1-3]、社會服務(wù)[4-5]、工業(yè)制造[6-7]、航空航天[8-9]等,抓取技術(shù)作為機器人控制核心之一也獲得了大量關(guān)注,但是在實際應(yīng)用環(huán)境中,機器人對未見過的新物體實時地決定一個合適的抓取位姿仍是一個較大的挑戰(zhàn)。
在先前的研究工作中,許多抓取方法基于手工特征[10]進(jìn)行抓取位姿推理,這些方法有工序繁重、耗時、對新物體泛化性弱等缺點。而隨著近年來深度學(xué)習(xí)技術(shù)的發(fā)展,基于深度學(xué)習(xí)的方法[11-15]在抓取領(lǐng)域上取得了顯著的進(jìn)展,其中包括基于分類的抓取檢測方法[16-18],此類方法在抓取位姿方面上取得一定改進(jìn),但是存在計算耗時長并要求較多計算資源的劣勢;還有基于回歸的檢測方法[19-20],該方法在抓取位姿檢測上有不錯的精度表現(xiàn),但是此類方法通?;跐撛诳赡艿淖ト∥蛔似骄殿A(yù)測實際的抓取位姿,有時會出現(xiàn)不合理的位姿推斷偏差。
為了解決上述問題,文中提出一種基于殘差注意力生成網(wǎng)絡(luò)的抓取位姿生成方法,通過在康奈爾公開抓取檢測數(shù)據(jù)集上進(jìn)行算法對比及消融實驗,比較不同方法對位姿生成精度的影響,進(jìn)而驗證文中方法的有效性。
文中提出的殘差注意力生成網(wǎng)絡(luò)主要由三個部分組成,分別是編碼器、聚合層、解碼器。殘差注意力生成網(wǎng)絡(luò)及生成結(jié)果圖如圖1 所示。
圖1 殘差注意力生成網(wǎng)絡(luò)及生成結(jié)果圖
相比原有抓取位姿生成研究,為了進(jìn)一步增強網(wǎng)絡(luò)的特征提取能力,編碼器部分采用殘差卷積模塊獲取更豐富的特征表示,通過特征向量的跨層傳遞,在訓(xùn)練中加速了網(wǎng)絡(luò)的收斂,避免出現(xiàn)梯度消失的問題。殘差卷積模塊采用較大的卷積核設(shè)定,進(jìn)而獲得更大的感受野。
為了解決殘差注意力生成網(wǎng)絡(luò)面對不同目標(biāo)尺寸波動時的檢測魯棒性問題,文中在聚合層引入了多尺度并行空洞卷積模塊。多尺度并行空洞卷積模塊采用瀑布結(jié)構(gòu),通過空洞卷積在保留圖像分辨率的情況下擴張圖像的感受野。文中方法針對每個分支,分別設(shè)置了不同的卷積核大小與擴張率,以有效獲取不同尺度下的上下文語義信息,強化殘差注意力生成網(wǎng)絡(luò)在面對不同尺寸大小目標(biāo)時的檢測魯棒性。另外,有針對性地在聚合層使用多尺度并行空洞卷積模塊策略,使文中方法在少量增加網(wǎng)絡(luò)訓(xùn)練量與模型參數(shù)的同時有效改善了網(wǎng)絡(luò)魯棒性與精度表現(xiàn)。多尺度并行空洞卷積模塊如圖2 所示。
圖2 多尺度并行空洞卷積模塊
不同于編碼器與聚合層主要關(guān)注于提升網(wǎng)絡(luò)的特征提取能力,解碼器部分更多聚焦于從已提取的特征中發(fā)掘更多有效信息。因此文中在解碼器部分融合了注意力模塊與對稱跳躍連接策略,其中對稱跳躍連接策略以將對應(yīng)編碼器模塊特征傳遞到對應(yīng)解碼器模塊中的連接方式,保留了不同層次的細(xì)粒度特征細(xì)節(jié),而注意力模塊通過將位置信息嵌入到通道注意力中,沿兩個不同空間方向進(jìn)行特征聚合,生成一對位置敏感與方向敏感的注意力參數(shù)Ch、Cw,并將這對參數(shù)互補地應(yīng)用于輸入特征,進(jìn)而增強對關(guān)注目標(biāo)的特征表示。注意力模塊的輸入輸出關(guān)系為:
文中研究對象為給出多模態(tài)圖像數(shù)據(jù)的新物體抓取位姿,采用已有研究提出的矩形度量方法[16-17]評估網(wǎng)絡(luò)生成的抓取位姿生成結(jié)果。文中將多模態(tài)圖像中的新物體抓取位姿定義為:
其中,pi代表了末端夾爪抓取中心點的二維坐標(biāo)(u,v),wi代表末端夾爪的張開寬度,θi代表末端夾爪旋轉(zhuǎn)角,范圍為[-2/π,2/π]。而qi代表基于像素級層面的末端抓取位姿的成功概率預(yù)測常量。圖3所示為抓取位姿示意圖。
圖3 抓取位姿示意圖
文中硬件環(huán)境使用的顯卡為Nvidia GeForce RTX 2080ti,實驗平臺與系統(tǒng)是Ubuntu16.04、Pytorch深度學(xué)習(xí)框架。
文中實驗基于公開的康奈爾抓取位姿檢測數(shù)據(jù)集展開,此數(shù)據(jù)集共包含240 種不同物體的885 張RGB-D 圖像與對應(yīng)圖像中物體的基準(zhǔn)夾取位置描述文件。
由于康奈爾數(shù)據(jù)集樣本量相對較小,因此在實驗中采用了隨機裁剪、隨機縮放和隨機旋轉(zhuǎn)等數(shù)據(jù)增強操作對康奈爾數(shù)據(jù)集進(jìn)行數(shù)據(jù)樣本數(shù)量的擴充。在實驗的訓(xùn)練與評估階段,將數(shù)據(jù)集按照9∶1的比例劃分為訓(xùn)練集與驗證集。
文中提出的殘差注意力生成網(wǎng)絡(luò)使用Xavier 正態(tài)分布作為網(wǎng)絡(luò)參數(shù)的初始化方法,使用Adam 方法作為網(wǎng)絡(luò)優(yōu)化算法,其中Adam 初始學(xué)習(xí)率設(shè)為0.000 1,文中提出的網(wǎng)絡(luò)結(jié)構(gòu)采用Huber Loss 作為損失函數(shù)。
為了驗證文中方法的有效性,選取了與已有研究方法相同的評測標(biāo)準(zhǔn),即當(dāng)網(wǎng)絡(luò)生成的抓取位姿符合下述兩個條件時視為一次成功的機械波末端抓取位姿,具體評價標(biāo)準(zhǔn)為:
1)文中方法的預(yù)測末端抓取框與數(shù)據(jù)集基準(zhǔn)抓取框的夾角小于或等于30°。
2)文中方法的預(yù)測末端抓取框與數(shù)據(jù)集基準(zhǔn)抓取框的交并比指數(shù)大于25%。
為驗證文中提出的殘差注意力生成網(wǎng)絡(luò)在新目標(biāo)抓取位姿生成問題上的有效性,在康奈爾抓取檢測數(shù)據(jù)集上進(jìn)行了實驗驗證,并設(shè)置了消融實驗用于評估不同模塊對于網(wǎng)絡(luò)檢測能力的影響。
3.5.1 康奈爾抓取檢測數(shù)據(jù)集結(jié)果
將文中提出方法的殘差注意力生成網(wǎng)絡(luò)與已有研究從兩個維度進(jìn)行比較,分別是檢測精度與檢測時間,在多模態(tài)數(shù)據(jù)下分別進(jìn)行了測試,如表1 所示。從表1中結(jié)果可發(fā)現(xiàn),得益于更豐富的特征信息,文中方法使用RGB-D 圖像在康奈爾數(shù)據(jù)集上獲得了96.6%的檢測精度與18 ms 的實時檢測時間,優(yōu)于其他相關(guān)研究方法的實驗結(jié)果,證明了文中所提方法的有效性。
表1 康奈爾抓取檢測數(shù)據(jù)集結(jié)果
3.5.2 消融實驗
為了增強殘差注意力生成面對新物體的泛化能力,文中提出的網(wǎng)絡(luò)結(jié)構(gòu)不僅采用殘差卷積模塊、多尺度并行空洞卷積模塊用于增強網(wǎng)絡(luò)的特征提取與表達(dá),還融合了對稱跳躍連接策略、注意力機制以強化目標(biāo)特征細(xì)節(jié)。因此文中基于康奈爾數(shù)據(jù)集的RGB-D 圖像數(shù)據(jù)進(jìn)行了消融對比實驗,以研究殘差注意力生成網(wǎng)絡(luò)結(jié)構(gòu)中使用不同模塊策略對檢測精度帶來的影響。實驗結(jié)果如表2 所示,其中實驗一采用了包含殘差卷積模塊與跳躍連接策略的基礎(chǔ)殘差注意力生成網(wǎng)絡(luò)結(jié)構(gòu),實驗二添加了多尺度并行空洞卷積模塊,實驗三添結(jié)構(gòu)加了注意力模塊,實驗四采用綜合所有策略的殘差注意力生成網(wǎng)絡(luò)結(jié)構(gòu)。
表2 消融實驗結(jié)果
實驗結(jié)果表明,文中所提出的融合注意力機制與對稱跳躍連接策略的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)得到了92.1%的精度表現(xiàn),證明了文中所提基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)的可行性。隨后,基于基礎(chǔ)網(wǎng)絡(luò)分別評估了添加多尺度并行空洞卷積模塊與注意力模塊對網(wǎng)絡(luò)精度表現(xiàn)的增益,實驗結(jié)果顯示,受益于特征信息豐富度的增加,使用這兩種策略分別令基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)取得了2.2%與0.9%的精度提升,而最后通過融合所有策略,文中最終提出的殘差注意力生成網(wǎng)絡(luò)結(jié)構(gòu)在康奈爾抓取檢測數(shù)據(jù)集上得到了96.6%的精度表現(xiàn)。
為了解決機器人面對未見過的新物體時實時有效地生成目標(biāo)抓取位姿的問題,文中創(chuàng)新地提出了一種殘差注意力生成神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),這種結(jié)構(gòu)融合了位置注意力機制、多尺度并行空洞卷積模塊與對稱跳躍連接策略,在抓取位姿生成問題的速度與精度上取得了一個較好平衡。實驗結(jié)果表明,在康奈爾數(shù)據(jù)集上,文中提出的方法在實時生成速度下獲得了不錯的抓取位姿生成精度,驗證了文中所提出方法的有效性。在后續(xù)的工作中,將主要著力于針對難樣本的檢測精度改善。