輕量化機(jī)器人抓取位姿實(shí)時(shí)檢測算法

2024-03-12 12:48:34宋明俊嚴(yán)文鄧益昭張俊然涂海燕

浙江大學(xué)學(xué)報(bào)（工學(xué)版） 2024年3期

宋明俊，嚴(yán)文，鄧益昭，張俊然，涂海燕

(四川大學(xué) 電氣工程學(xué)院，四川成都 610065)

機(jī)器人抓取是機(jī)器人與環(huán)境交互的一種重要手段，實(shí)現(xiàn)準(zhǔn)確、快速地抓取是機(jī)器人高質(zhì)量、高效率地完成抓取任務(wù)的前提.在結(jié)構(gòu)化環(huán)境(structured environment)中，待抓取物體的種類通常是十分單一的，并且物體的形狀和大小較為規(guī)則.在這種受控環(huán)境中，機(jī)器人可以充分利用待抓取物體的先驗(yàn)知識，來完成特定的抓取任務(wù).例如，在工業(yè)環(huán)境下的工業(yè)機(jī)器人可以通過事先學(xué)習(xí)和識別待抓取物體的特征，針對特定的物體準(zhǔn)備特定的抓取動作，從而有效地完成抓取任務(wù).然而，在非結(jié)構(gòu)化環(huán)境中，待抓取物體的形狀(2D或3D模型)、大小、種類、物理屬性等先驗(yàn)知識往往不能預(yù)先獲取[1-6]，并且待抓取物體的位置和姿態(tài)會發(fā)生變化[1,4,6]，實(shí)現(xiàn)機(jī)器人準(zhǔn)確、快速地抓取是一項(xiàng)具有挑戰(zhàn)性的任務(wù)[1,6-7].

近年來，基于深度學(xué)習(xí)的抓取方法憑借無需人工設(shè)計(jì)抓取特征[2-4,6]、特征提取能力強(qiáng)[1,6-7]、泛化性好[2,4,6-9]等優(yōu)點(diǎn)在機(jī)器人抓取領(lǐng)域獲得巨大成功.Jiang等[5]提出抓取矩形框，將機(jī)器人抓取問題轉(zhuǎn)變?yōu)樽ト∥蛔藱z測問題.Lenz等[6]首先將深度學(xué)習(xí)應(yīng)用于抓取檢測中，利用深度學(xué)習(xí)自動提取特征，從而無須耗時(shí)費(fèi)力地人工設(shè)計(jì)抓取特征.Redmon等[10]直接對抓取框參數(shù)進(jìn)行單階段回歸，有效減少了以往滑動窗口法[5]和兩階段候選[6]導(dǎo)致的檢測耗時(shí).Kumra等[11]使用深層網(wǎng)絡(luò)ResNet50[12]提取抓取特征，該方法表明使用深層網(wǎng)絡(luò)可提高抓取檢測準(zhǔn)確率.Guo等[13]將機(jī)器人抓取物體過程中的力矩?cái)?shù)據(jù)作為機(jī)器人抓取結(jié)果的反饋，使得抓取檢測網(wǎng)絡(luò)可以學(xué)習(xí)到更豐富的抓取特征.Chu等[14]將非抓取類標(biāo)簽作為角度分類標(biāo)簽的競爭項(xiàng)，利用該方法可對多個(gè)物體同時(shí)生成抓取檢測結(jié)果.Zhou等[15]提出旋轉(zhuǎn)錨框機(jī)制，該方法改進(jìn)Guo等[13]的定向錨框，增強(qiáng)了對抓取角度的約束.夏晶等[8]提出Angle-Net對抓取角度進(jìn)行精細(xì)估計(jì)，提高了抓取角度的檢測精度.喻群超等[9]提出3級級聯(lián)的卷積神經(jīng)網(wǎng)絡(luò)來逐級評估抓取檢測框，提高了抓取框的檢測準(zhǔn)確度.Morrison等[16]提出輕量化的GG-CNN，該方法對輸入深度圖像中每個(gè)像素點(diǎn)位置處的抓取參數(shù)進(jìn)行預(yù)測，使得網(wǎng)絡(luò)能夠生成像素級的抓取檢測結(jié)果.張?jiān)浦薜萚7]將多層級特征應(yīng)用于抓取檢測，該方法對尺度變化的物體表現(xiàn)出較好的檢測效果.Kumra等[17]將殘差模塊[12]引入到GG-CNN中，提高了網(wǎng)絡(luò)對抓取特征的提取能力.Cheng等[18]使用高斯函數(shù)對角度分類標(biāo)簽進(jìn)行平滑編碼，緩解了one-hot編碼角度方式存在的抓取角度分類損失的一致性問題.Wang等[19]在Morrison等[16]基礎(chǔ)上使用transformer結(jié)構(gòu)取代卷積神經(jīng)網(wǎng)絡(luò)作為特征提取主干網(wǎng)絡(luò)，利用transformer的自注意力機(jī)制對輸入圖像中的全局抓取信息進(jìn)行建模，實(shí)現(xiàn)了更好的抓取檢測效果.

上述抓取檢測算法[5-11,13-19]均未能較好地兼顧檢測準(zhǔn)確率和檢測速度2方面的性能.有些研究[15,18-19]在檢測準(zhǔn)確率上取得了比較可觀的結(jié)果，但檢測速度較慢，難以滿足機(jī)器人實(shí)時(shí)抓取檢測的需求；有些研究[7,16-17]在抓取速度上取得了不錯(cuò)的結(jié)果，但檢測準(zhǔn)確率不高，難以實(shí)現(xiàn)機(jī)器人對物體準(zhǔn)確的抓取檢測.實(shí)現(xiàn)機(jī)器人準(zhǔn)確、快速的抓取需要抓取檢測算法兼顧檢測準(zhǔn)確率和檢測速度2方面的性能.

針對上述問題，本研究提出輕量化的實(shí)時(shí)抓取檢測算法RTGN(real-time grasp net).為了解決深層網(wǎng)絡(luò)[8,11,14-15]帶來的檢測耗時(shí)長的問題，提出多尺度空洞卷積模塊以構(gòu)建輕量化的特征提取主干網(wǎng)絡(luò).設(shè)計(jì)混合注意力模塊，使網(wǎng)絡(luò)能夠直接關(guān)注于通道維度和空間維度上的重要抓取特征.引入金字塔池化模塊[20]對多層級特征中不同區(qū)域大小的局部特征進(jìn)行融合，增強(qiáng)網(wǎng)絡(luò)對抓取物體的上下文感知能力.綜上所述，RTGN能夠準(zhǔn)確、快速地實(shí)現(xiàn)對物體的抓取檢測，實(shí)現(xiàn)了檢測準(zhǔn)確率和檢測速度2方面性能的進(jìn)一步提升.

1 問題描述

在給定機(jī)器人抓取目標(biāo)場景的RGB圖像和深度圖像的情況下，須對水平工作臺上形狀、大小、種類等變化不一的未知物體進(jìn)行抓取檢測.其中，機(jī)器人二指抓取檢測問題可以描述為由五維抓取參數(shù) {u，v，w，h，θ} 構(gòu)成的旋轉(zhuǎn)矩形框[6]，如圖1所示.圖中，(u，v) 為矩形框中心在圖像像素坐標(biāo)系下的坐標(biāo)，w、h分別為矩形框的寬和高，θ 為矩形框相對于像素坐標(biāo)系下x軸正方向的旋轉(zhuǎn)角度.

圖1 五維抓取表示[6]示意圖Fig.1 Schematic diagram of five-dimensional grasp representation[6]

對于確定的末端夾持工具，五維抓取參數(shù)可簡化為四維抓取參數(shù) {u，v，w，θ}，Morrison等[16]以熱力圖形式將此四維抓取參數(shù)圖形化，如圖2所示.圖中，Q為表示抓取中心 (u，v) 的熱力圖，圖像中每一像素點(diǎn)的值表示該點(diǎn)為抓取中心的概率P；W為表示抓取寬度w的熱力圖，圖像中每一像素點(diǎn)的值表示該點(diǎn)對應(yīng)的抓取寬度；Φ 為表示抓取角度 θ 的熱力圖，圖像中每一像素點(diǎn)的值表示該點(diǎn)對應(yīng)的抓取角度，其取值范圍為[-π/2，π/2];Φcos、Φsin分別為抓取角度熱力圖Φ的余弦、正弦編碼，Φcos=cos(2Φ)、Φsin=sin(2Φ).通過這種方式，四維抓取參數(shù) {u，v，w，θ} 轉(zhuǎn)換為G={Q，W，Φcos，Φsin}的熱力圖抓取表示.Q，W，Φ，Φcos，Φsin∈RH×W，H、W分別為輸入圖像的高、寬.

圖2 四維抓取參數(shù)熱力圖表示[16]Fig.2 Four-dimensional grasp representation using heatmaps[16]

輸入圖像 (r，c) 位置處的抓取四維參數(shù)，可由如下公式給出：

式中：W(r，c)、Φ(r，c)、Φcos(r，c)、Φsin(r，c) 為抓取寬度熱力圖W、抓取角度熱力圖Φ、抓取角度余弦編碼熱力圖 Φcos、抓取角度正弦編碼熱力圖 Φsin在 (r，c) 位置處的值，分別表示該點(diǎn)的抓取寬度、抓取角度、抓取角度余弦編碼值、抓取角度正弦編碼值，r，c∈N 且有r≤W-1，c≤H-1.

通常，將抓取中心熱力圖Q中具有最大抓取概率值對應(yīng)的像素點(diǎn)選取為抓取中心 (u，v)，以輸出最優(yōu)抓取檢測結(jié)果：

式中：Q(r，c) 為抓取中心熱力圖Q在 (r，c) 位置處的值，表示該點(diǎn)為抓取中心的概率.

綜上，機(jī)器人抓取檢測問題變?yōu)槿缦潞瘮?shù) Γ的求解問題:

式中：I∈RC×H×W為輸入的視覺圖像，C為輸入圖像的通道數(shù).本研究提出RTGN抓取檢測算法通過監(jiān)督學(xué)習(xí)的方式來近似 Γ.

2 RTGN抓取檢測算法

本研究提出以抓取場景的RGB-D視覺數(shù)據(jù)為輸入的實(shí)時(shí)抓取檢測算法RTGN，算法整體結(jié)構(gòu)如圖3所示.RTGN主要包括4部分：多尺度空洞卷積模塊(multi-scale dilated convolution module，MDM)、混合注意力模塊(mixed attention module，MAM)、金字塔池化模塊[20](pyramid pool module，PPM)以及預(yù)測輸出頭(predict head).

圖3 RTGN抓取檢測算法整體結(jié)構(gòu)Fig.3 Overview architecture of RTGN grasp detection algorithm

如圖3所示，RTGN可看作由編碼器(encoder)和解碼器(decoder)2部分組成.編碼器主要由多尺度空洞卷積模塊MDM、混合注意力模塊MAM及金字塔池化模塊PPM組成，負(fù)責(zé)從輸入的RGB-D圖像中提取抓取特征；解碼器由預(yù)測輸出頭構(gòu)成，負(fù)責(zé)將編碼器提取的抓取特征解碼為熱力圖抓取表示.接下來對各個(gè)模塊作詳細(xì)介紹.

2.1 多尺度空洞卷積模塊

為了使網(wǎng)絡(luò)能夠從輸入圖像中提取更復(fù)雜、抽象的抓取特征，提高網(wǎng)絡(luò)的擬合能力，有些研究[8,11,14-15]使用深層網(wǎng)絡(luò)作為特征提取主干網(wǎng)絡(luò).雖然檢測準(zhǔn)確率有所提高，但深層網(wǎng)絡(luò)的使用卻使得檢測耗時(shí)嚴(yán)重，難以滿足實(shí)時(shí)性的要求.受Wang等[21]啟發(fā)，本研究提出多尺度空洞卷積模塊，用于構(gòu)建輕量化的特征提取主干網(wǎng)絡(luò)，以提升抓取檢測速度.

多尺度空洞卷積模塊的結(jié)構(gòu)如圖4所示，其主體部分由3個(gè)不同空洞率(dilation rate)的空洞卷積核串聯(lián)而成.圖中，空洞卷積的核心是向普通卷積核中進(jìn)行“插空”，從而可以在不增加參數(shù)量和計(jì)算量的情況下，擴(kuò)大卷積核的感受野[21].

圖4 多尺度空洞卷積模塊結(jié)構(gòu)圖Fig.4 Structure of multi-scale dilated convolution module

如圖5所示，以3×3大小的卷積核為例，當(dāng)空洞率為1時(shí)，空洞卷積核和普通卷積核并無區(qū)別，它們感受野大小相同；當(dāng)空洞率大于1時(shí)，空洞卷積核的感受野比普通卷積核更大.本研究通過將3個(gè)不同空洞率的空洞卷積進(jìn)行串聯(lián)，使得卷積核能夠逐漸感知更大區(qū)域的輸入特征信息，從而更好地捕捉全局抓取特征，實(shí)現(xiàn)高效的抓取特征提取.

圖5 不同空洞率下3×3大小的空洞卷積核Fig.5 3×3 dilated convolution kernels at different dilation rates

多尺度空洞卷積模塊中3個(gè)空洞卷積核的空洞率分別為1、2、5，大小為5×5，滑動步長為1.此外，采用殘差連接結(jié)構(gòu)[12]，將輸入特征經(jīng)過1×1卷積變換維度后與輸出特征進(jìn)行連接，以提高網(wǎng)絡(luò)訓(xùn)練過程中梯度傳播的穩(wěn)定性.同時(shí)，為了避免網(wǎng)絡(luò)在訓(xùn)練過程中發(fā)生過擬合，將Dropout[22]引入模塊中，以減少抓取特征之間的相互依賴性，從而提高網(wǎng)絡(luò)的泛化能力.

2.2 混合注意力模塊

在抓取檢測任務(wù)中，網(wǎng)絡(luò)提取到的抓取特征并非都對最終的檢測結(jié)果起關(guān)鍵作用.為了解決這個(gè)問題，將注意力機(jī)制引入檢測算法中，使網(wǎng)絡(luò)能夠有選擇性地關(guān)注重要的抓取特征并忽略其他無關(guān)的特征.注意力機(jī)制是網(wǎng)絡(luò)中額外的特殊結(jié)構(gòu)，它通過對輸入特征進(jìn)行加權(quán)處理，從而實(shí)現(xiàn)對重要特征的關(guān)注.

Woo等[23]提出CBAM注意力模塊，將通道注意力與空間注意力進(jìn)行結(jié)合，使得網(wǎng)絡(luò)能夠同時(shí)考慮通道和空間維度上的特征重要性[23].然而，CBAM[23]中的空間注意力機(jī)制通過卷積操作來感知空間維度上的特征，這使得CBAM[23]對空間維度上長距離特征的感知能力受限于卷積核的大小.

針對此問題，將坐標(biāo)注意力[24]引入CBAM[23]中，將坐標(biāo)注意力與CBAM中的通道注意力進(jìn)行聚合，形成混合注意力模塊.通道注意力可以使網(wǎng)絡(luò)關(guān)注于通道維度上的重要特征，坐標(biāo)注意力可以使網(wǎng)絡(luò)關(guān)注于空間維度上的重要特征.與CBAM中的空間注意力不同的是，坐標(biāo)注意力將空間特征分解為水平和垂直2個(gè)不同空間方向上的位置編碼，再由位置編碼組成空間注意力特征圖.通過空間位置分解，坐標(biāo)注意力可以提供準(zhǔn)確的空間位置編碼，使得網(wǎng)絡(luò)可以在空間維度上感知更長距離的抓取特征.

將兩者聚合后，混合注意力模塊可使網(wǎng)絡(luò)同時(shí)關(guān)注于不同通道和空間位置上的重要抓取特征，從而進(jìn)一步增強(qiáng)網(wǎng)絡(luò)對重要抓取特征的表達(dá)能力.

2.2.1 通道注意力模塊通道注意力模塊[23](channel attention module，CAM)通過學(xué)習(xí)輸入特征在每個(gè)通道的注意力權(quán)重，來自適應(yīng)地調(diào)整不同通道特征的重要程度，其結(jié)構(gòu)如圖6所示.首先，輸入特征在通道方向上經(jīng)過全局最大池化和全局平均池化操作，得到位置敏感和范圍敏感的2列通道注意力權(quán)值.然后，這2列通道注意力權(quán)值分別通過一個(gè)共享權(quán)重參數(shù)的多層感知機(jī)(multi-layer perceptron，MLP)進(jìn)行重組，以重新分配各通道的權(quán)重.最后，這2列通道注意力權(quán)值按元素相加并經(jīng)過sigmoid函數(shù)進(jìn)行激活，得到輸入特征在每個(gè)通道上的注意力權(quán)值.

2.2.2 坐標(biāo)注意力模塊坐標(biāo)注意力機(jī)制[24](coordinate attention module，CA)通過學(xué)習(xí)輸入特征在2個(gè)不同空間方向上的注意力權(quán)重，來自適應(yīng)地調(diào)整不同空間位置的重要程度，其結(jié)構(gòu)如圖7所示.首先，輸入特征經(jīng)過2個(gè)不同空間方向的池化操作，形成對空間方向敏感的權(quán)值張量.然后，將這2個(gè)權(quán)值張量拼接，并通過一個(gè)多層感知機(jī)進(jìn)行權(quán)值重組.最后，將重組后的權(quán)值張量進(jìn)行拆分并經(jīng)過sigmoid函數(shù)進(jìn)行激活，得到輸入特征在2個(gè)不同空間方向上的注意力權(quán)值.

圖7 坐標(biāo)注意力模塊結(jié)構(gòu)圖Fig.7 Structure of coordinate attention module

2.2.3 特征聚合模塊為了充分利用通道維度與空間維度中的特征信息，使檢測算法能夠直接關(guān)注于通道維度和空間維度上的重要抓取特征，將CAM模塊[23]與CA模塊[24]的輸出特征進(jìn)行融合，形成混合注意力模塊.此外，為了使混合注意力模塊能夠逐漸學(xué)習(xí)到重要的抓取特征，引入自適應(yīng)權(quán)值將模塊輸入特征與輸出增強(qiáng)特征進(jìn)行融合.整個(gè)混合注意力模塊的網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示，模塊的輸出特征TM表達(dá)式如下：

圖8 混合注意力模塊結(jié)構(gòu)圖Fig.8 Structure of mixed attention module

式中：TI、TM為混合注意力模塊的輸入、輸出特征；CA(·)、C AM(·) 為CA模塊、CAM模塊的計(jì)算輸出；· 表示矩陣按元素相乘；α 為自適應(yīng)權(quán)值，權(quán)值 α 初值為1.0，并在訓(xùn)練過程中自適應(yīng)調(diào)整權(quán)重.

2.3 金字塔池化模塊

淺層特征含有豐富的細(xì)節(jié)信息，有利于小尺度物體的抓取檢測；深層特征含有豐富的語義信息，適合大尺度物體的抓取檢測[7].為了提高算法對尺度大小變化的物體的檢測準(zhǔn)確率，將主干網(wǎng)絡(luò)提取到的3個(gè)不同層級位置的特征在通道維度進(jìn)行拼接形成多層級特征(見圖3)，將多層級特征用于抓取檢測.此外，為了實(shí)現(xiàn)更加準(zhǔn)確的抓取感知，同時(shí)又避免增加過多的復(fù)雜計(jì)算，在檢測算法中引入輕量化的金字塔池化模塊[20]來融合多層級特征的上下文抓取特征，以進(jìn)一步提升算法的性能.

金字塔池化模塊結(jié)構(gòu)如圖9所示.首先，將多層級特征作為模塊的輸入特征，經(jīng)過全局自適應(yīng)平均池化(global adaptive average pooling，GAP)操作，得到4個(gè)不同尺度大小的池化子區(qū)域特征.然后，使用1×1卷積對這些池化子區(qū)域特征進(jìn)行降維處理，再對降維后的特征進(jìn)行上采樣操作，使其尺寸與輸入特征相同.最后，將得到的池化子區(qū)域特征與輸入特征在通道維度進(jìn)行拼接，并再次使用1×1卷積對拼接特征進(jìn)行降維，得到最終的融合特征.多尺度池化子區(qū)域的尺寸分別為3×3、7×7、15×15、31×31，這些池化子區(qū)域特征聚合了輸入特征中不同區(qū)域的局部特征.通過融合這些多尺度池化子區(qū)域特征，可以將更廣泛的上下文抓取特征用于抓取檢測，從而盡可能避免抓取檢測算法陷入到局部最優(yōu)的檢測結(jié)果.

圖9 金字塔池化模塊結(jié)構(gòu)圖Fig.9 Structure of pyramid pool module

2.4 預(yù)測輸出頭

預(yù)測輸出頭結(jié)構(gòu)如圖10所示.預(yù)測輸出頭采用全卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，通過卷積和上采樣操作，將主干網(wǎng)絡(luò)提取的抓取特征以單階段回歸的方式解碼為與原始輸入圖像尺寸相同的抓取中心Q、抓取角度余弦編碼Φcos、抓取角度正弦編碼Φsin、抓取寬度W這4個(gè)抓取參數(shù)的熱力圖.通過這種方式，在對原始輸入圖像進(jìn)行像素級抓取檢測的同時(shí)，也在一定程度上解決了直接使用全連接層對特征圖進(jìn)行解碼所存在的參數(shù)量過大的問題.

圖10 預(yù)測輸出頭結(jié)構(gòu)圖Fig.10 Structure of predict head

2.5 損失函數(shù)

使用Huber loss函數(shù)L作為RTGN預(yù)測輸出Q、W、Φcos、Φsin的回歸損失函數(shù)，總的回歸損失Lobj為4部分損失各自的均值之和.

式中：G={Q，W，Φcos，Φsin} ；gp、gt分別表示預(yù)測抓取和抓取標(biāo)簽對應(yīng)的熱力圖，gp，gt∈RH×W;gp(r，c)、gt(r，c) 分別表示熱力圖gp、gt在(r，c)位置處的預(yù)測值、真值；mean(·) 表示對括號內(nèi)數(shù)據(jù)求均值；δ 為Huber loss函數(shù)中用來控制對異常值敏感程度的超參數(shù)，在本研究中設(shè)置 δ=1.0.

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)條件

RTGN的搭建和訓(xùn)練在Pytorch(1.13.0)深度學(xué)習(xí)框架下完成，編程語言為Python(3.9.15).實(shí)驗(yàn)所用計(jì)算機(jī)操作系統(tǒng)為Ubuntu 20.04，GPU為NVIDIA GeForce RTX 2080，處理器為Intel? CoreTMi9-9900K CPU @ 3.60GHz×16，運(yùn)行內(nèi)存為48 GB.訓(xùn)練時(shí)使用Adam參數(shù)優(yōu)化算法，權(quán)值衰減(weight decay)為 1.0×10-8，批量大小(batchsize)設(shè)置為8，epoch設(shè)置為250，每個(gè)epoch迭代訓(xùn)練200次，初始學(xué)習(xí)率設(shè)置為 1.8×10-4，訓(xùn)練時(shí)學(xué)習(xí)率每9個(gè)epoch衰減0.99.

3.2 數(shù)據(jù)集

在Cornell抓取數(shù)據(jù)集[6]上對RTGN進(jìn)行訓(xùn)練和評估.Cornell數(shù)據(jù)集包含240種真實(shí)物體在不同位置和姿態(tài)下的885張RGB圖像和深度圖像，每張圖像大小為640×480，該數(shù)據(jù)集在機(jī)器人二指平面抓取檢測研究中被廣泛使用[6-11,13-19].

由于RGB圖像和深度圖像的像素值數(shù)值范圍不一致，統(tǒng)一將其線性歸一化到[0，1.0]，并以0填充深度圖像中的缺省值.同時(shí)，對訓(xùn)練集圖像進(jìn)行數(shù)據(jù)增強(qiáng)來避免網(wǎng)絡(luò)在訓(xùn)練過程中出現(xiàn)過擬合.首先，將圖像按標(biāo)注抓取框中心進(jìn)行最大尺寸為360×360的隨機(jī)裁剪；然后，將圖像縮放到256×256，并按圖像中心在0～360°隨機(jī)旋轉(zhuǎn)；最后，將旋轉(zhuǎn)后的圖像再次縮放到256×256，并在水平、垂直方向上進(jìn)行隨機(jī)鏡像翻轉(zhuǎn).測試集圖像的增強(qiáng)在訓(xùn)練集圖像增強(qiáng)方式的基礎(chǔ)上將隨機(jī)裁剪變?yōu)楣潭?60×360裁剪，并將旋轉(zhuǎn)角度間隔調(diào)整為90°，每張測試圖像經(jīng)過增強(qiáng)后得到8張不同的圖像.

3.3 評估指標(biāo)

使用矩形度量評估方式[5-11,13-19]來評估RTGN的抓取檢測結(jié)果，其定義如下:若預(yù)測抓取框Gp和標(biāo)注抓取框Gt同時(shí)滿足以下2個(gè)條件，則認(rèn)為預(yù)測抓取框Gp為較好的抓取檢測結(jié)果.

1)預(yù)測抓取框Gp的抓取角度與標(biāo)注抓取框Gt的抓取角度之間的角度差小于30°；

2)預(yù)測抓取框Gp與標(biāo)注抓取框Gt的Jaccard系數(shù)大于0.25，其中Jaccard系數(shù)表達(dá)式如下:

3.4 實(shí)驗(yàn)結(jié)果

3.4.1 Cornell抓取數(shù)據(jù)集實(shí)驗(yàn)結(jié)果與之前的研究[6-11,13-19]相同，采用五折交叉驗(yàn)證方法對RTGN進(jìn)行評估，訓(xùn)練集與測試集的劃分比例為4∶1，評估結(jié)果為5次測試結(jié)果的平均值.同時(shí)，按照圖像拆分(image-wise split)和對象拆分(object-wise split)2種方式對數(shù)據(jù)集進(jìn)行劃分.圖像拆分方式可以較好地評估模型對已知物體位置和姿態(tài)變化的適應(yīng)性，對象拆分方式可以較好地評估模型對未知物體的泛化性[6-11,13-19].

RTGN為像素級的抓取檢測算法，因此會為輸入視覺圖像的每一像素點(diǎn)生成預(yù)測抓取框，在測試時(shí)只選取抓取中心概率最大的預(yù)測抓取框用來評估(見式（2）).在Cornell抓取數(shù)據(jù)集上，將RTGN與現(xiàn)有的一些代表性抓取檢測算法[5-11,13-19]進(jìn)行對比，實(shí)驗(yàn)結(jié)果如表1所示，其中最優(yōu)結(jié)果加粗顯示.表中，A為準(zhǔn)確率，v為檢測速度.

表1 Cornell抓取數(shù)據(jù)集上不同算法對比結(jié)果Tab.1 Comparison results of different algorithms on Cornell grasping dataset

如表1所示，RTGN在圖像拆分和對象拆分上分別取得了98.26%和97.65%的最高檢測準(zhǔn)確率，并且RTGN的平均檢測速度(7 ms)也超過了表1中其他的14種算法[5-11,13-19]，表明RTGN兼顧了檢測準(zhǔn)確率和檢測速度2方面性能的提升.在圖像拆分和對象拆分上的評估結(jié)果表明，RTGN不僅能夠較好地適應(yīng)抓取物體的位置和姿態(tài)變化，還對未參與訓(xùn)練的未知物體具有較強(qiáng)的泛化能力.與此同時(shí)，RTGN對每張圖像的平均抓取檢測耗時(shí)僅為7 ms，完全滿足抓取檢測的實(shí)時(shí)性要求.

在對象拆分方式下，將RTGN在Cornell數(shù)據(jù)集上的部分測試結(jié)果進(jìn)行可視化，如圖11所示.圖中，從左到右的每列圖像分別為抓取中心Q、抓取角度 Φ、抓取寬度W及抓取檢測結(jié)果，紅綠色為真值抓取框，品紅-青色為預(yù)測抓取框.如圖11所示，RTGN能夠?qū)π螤睢⒋笮?、種類等變化不一的未知物體生成可靠的預(yù)測熱力圖，從而生成準(zhǔn)確的抓取檢測結(jié)果.

圖11 RTGN在Cornell數(shù)據(jù)集上的抓取檢測可視化結(jié)果Fig.11 Visualization results of grasping detection on Cornell grasping dataset predicted by RTGN

值得注意的是，由于數(shù)據(jù)集的不完全標(biāo)注，在測試時(shí)RTGN的部分預(yù)測抓取矩形框并不滿足矩形度量評估條件，但這些預(yù)測結(jié)果仍然可行[18]，如圖12所示.參照Cheng等[18]，本研究將這類誤檢結(jié)果也計(jì)入正例.

圖12 Cornell數(shù)據(jù)集的不完全標(biāo)注Fig.12 Incomplete labelled ground truth of Cornell grasping dataset

3.4.2 消融實(shí)驗(yàn) 為了直觀理解各模塊對RTGN抓取檢測性能的影響，對MAM模塊和PPM模塊進(jìn)行消融實(shí)驗(yàn).同時(shí)，為了評估本研究設(shè)計(jì)的MAM模塊對檢測性能的影響，用已有的CBAM[23]模塊對MAM模塊進(jìn)行替換，并進(jìn)行檢測性能對比.實(shí)驗(yàn)環(huán)境和訓(xùn)練細(xì)節(jié)與上文一致，實(shí)驗(yàn)結(jié)果如表2所示.其中基線算法(MDM-Backbone)為在RTGN(見圖3)基礎(chǔ)上去掉MAM模塊，并以1×1卷積代替PPM模塊，基線算法可用于評估本研究所設(shè)計(jì)的輕量化特征提取主干網(wǎng)絡(luò)的檢測性能.實(shí)驗(yàn)結(jié)果表明，本研究所設(shè)計(jì)的輕量化特征提取主干網(wǎng)絡(luò)在檢測速度上優(yōu)勢明顯(5.29 ms)，并且MAM模塊和PPM模塊能夠有效地進(jìn)一步提升算法的抓取檢測準(zhǔn)確率.其次，相比于CBAM[23]模塊，無論是將MAM模塊單獨(dú)引入到網(wǎng)絡(luò)中或是與PPM模塊結(jié)合，都能夠更有效地提升檢測準(zhǔn)確率.將MAM模塊和PPM模塊結(jié)合后，算法在圖像拆分和對象拆分上的檢測準(zhǔn)確率有明顯提高，同時(shí)對算法的檢測速度影響較小，從而使得算法的整體性能得到進(jìn)一步提升.

表2 Cornell數(shù)據(jù)集上模塊消融實(shí)驗(yàn)對比結(jié)果Tab.2 Ablation experiments on Cornell grasping dataset

3.4.3 模型參數(shù)大小對比實(shí)驗(yàn) 本研究采用全卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，提出參數(shù)規(guī)模較小的輕量化實(shí)時(shí)抓取檢測算法RTGN.如表3所示為RTGN的模型性能和參數(shù)大小與已有方法[7-8,11,14-16]的對比.表中，P為模型的參數(shù)量，F(xiàn)為模型的浮點(diǎn)運(yùn)算次數(shù).

表3 不同方法的模型性能和參數(shù)大小對比結(jié)果Tab.3 Comparison results of network performance and size for different methods

現(xiàn)有方法難以同時(shí)滿足檢測準(zhǔn)確率和檢測速度的要求，Morrison等[16]具有較少的參數(shù)但準(zhǔn)確率較低，有些研究[8,11,14-15]的準(zhǔn)確率尚可但檢測速度較低且參數(shù)量較大.本研究提出的RTGN在參數(shù)規(guī)模為1.66 M的情況下，實(shí)現(xiàn)了檢測準(zhǔn)確率和檢測速度2方面性能的提升，使得模型具有輕量化的特性.

與使用知識蒸餾[25]來使模型輕量化的方法不同的是，RTGN的輕量化是通過設(shè)計(jì)更為簡單、輕量的網(wǎng)絡(luò)結(jié)構(gòu)來實(shí)現(xiàn)的.這使得RTGN不依賴于教師模型，從而可以避免額外的訓(xùn)練過程以及教師模型性能對學(xué)生模型性能的影響，使得RTGN能夠獨(dú)立地達(dá)到理想的性能.

3.4.4 單個(gè)未知物體抓取檢測實(shí)驗(yàn) 為了評估RTGN對真實(shí)環(huán)境下的未知物體的抓取檢測泛化性，從日常生活中選取69個(gè)形狀、大小、種類等變化不一的物體進(jìn)行抓取檢測實(shí)驗(yàn)，使用的相機(jī)為Intel RealSense L515 RGB-D相機(jī).須注意的是，所選取的物體都未參與到RTGN的訓(xùn)練過程，即實(shí)驗(yàn)中使用的物體對RTGN來說都是未知物體，這可以較好地評估RTGN的泛化能力.并且，與RTGN訓(xùn)練時(shí)所用的Cornell抓取數(shù)據(jù)集的白色背景不同，實(shí)際抓取場景下的光影變化、背景變化干擾更加明顯，這要求抓取檢測算法具有較好的魯棒性.在實(shí)驗(yàn)時(shí)每個(gè)物體按照不同的位置和姿態(tài)進(jìn)行擺放，然后由RTGN生成抓取檢測結(jié)果(https://www.bilibili.com/video/BV1Gm4y1h72F/?spm_id_from=333.999.0.0).

為了綜合評估RTGN在真實(shí)環(huán)境中對形狀、大小、種類等變化不一的未知物體的檢測效果，將RTGN與TF-Grasp[19]的抓取檢測效果進(jìn)行對比，如圖13所示.結(jié)果表明，當(dāng)未知物體存在大尺度變化、光影干擾、透明物體等情況時(shí)，RTGN也能生成準(zhǔn)確的抓取檢測框.相比于TF-Grasp[19]，RTGN對真實(shí)環(huán)境下形狀、大小、種類等變化不一的未知物體的抓取檢測具有更好的泛化性和魯棒性.

圖13 RTGN和TF-Grasp[19]對單個(gè)未知物體的抓取檢測對比結(jié)果Fig.13 Comparison results of RTGN and TF-Grasp[19] on grasping detection for single novel object

3.4.5 多個(gè)未知物體抓取檢測實(shí)驗(yàn) 在單個(gè)未知物體的抓取檢測實(shí)驗(yàn)基礎(chǔ)上，對多個(gè)未知物體進(jìn)行抓取檢測實(shí)驗(yàn).如圖14所示為RTGN對多個(gè)未知物體的抓取檢測的可視化結(jié)果.圖中，從上到下的每行圖像分別為抓取中心Q、抓取角度 Φ、抓取寬度W及抓取檢測結(jié)果.

圖14 RTGN對多個(gè)未知物體的抓取檢測可視化結(jié)果Fig.14 Visualization results of grasping detection for multiple novel objects predicted by RTGN

如圖14所示，盡管RTGN在訓(xùn)練時(shí)僅使用了單個(gè)物體，但在多個(gè)未知物體的抓取檢測任務(wù)中，RTGN仍能生成準(zhǔn)確的預(yù)測熱力圖，從而得出可靠的抓取檢測結(jié)果.該實(shí)驗(yàn)表明RTGN能夠較好地適應(yīng)多個(gè)未知物體的抓取檢測.

3.5 機(jī)器人抓取實(shí)驗(yàn)

為了進(jìn)一步評估RTGN抓取真實(shí)環(huán)境中的未知物體的應(yīng)用效果，搭建了如圖15所示的機(jī)器人抓取平臺.所使用的機(jī)器人為大象6自由度機(jī)械臂Pro600，圖中數(shù)字1～6代表其6個(gè)關(guān)節(jié)；相機(jī)為Intel RealSense L515 RGB-D相機(jī)，相機(jī)與機(jī)器人之間以eye-to-hand方式固定安裝；末端夾持工具為平行二指電動夾爪.

圖15 機(jī)器人抓取實(shí)驗(yàn)平臺Fig.15 Physical platform of robotic grasping experiment

機(jī)器人抓取實(shí)驗(yàn)所用物體為抓取檢測實(shí)驗(yàn)中選取的20個(gè)代表物體，如圖16所示.這些物體的形狀、大小、種類各不相同，并且都未參與到RTGN的訓(xùn)練過程，即抓取物體均為未知物體.

圖16 機(jī)器人抓取實(shí)驗(yàn)所用物體Fig.16 Objects used in robotic grasping experiment

在機(jī)器人抓取實(shí)驗(yàn)中，采用頂抓策略控制機(jī)械臂執(zhí)行抓取動作.首先，初始化機(jī)械臂位姿以及夾爪張開寬度，并將RTGN在圖像像素坐標(biāo)系下的抓取檢測結(jié)果轉(zhuǎn)換到機(jī)器人基座坐標(biāo)系，得到抓取點(diǎn)位置和抓取角度；然后，控制機(jī)械臂末端到達(dá)抓取點(diǎn)的正上方，并旋轉(zhuǎn)末端執(zhí)行器至對應(yīng)的抓取角度；最后，控制機(jī)械臂末端豎直向下移動(夾爪抓取深度應(yīng)盡可能大，以增大夾爪兩指與物體的接觸面積，避免物體滑動，同時(shí)也要考慮夾爪兩指抓取區(qū)域環(huán)境深度分布情況和夾爪兩指長度限制，以避免發(fā)生碰撞)，并使夾爪閉合，完成對物體的抓取.

RTGN的抓取檢測結(jié)果由圖像像素坐標(biāo)系下向機(jī)器人基底坐標(biāo)系下的轉(zhuǎn)換如下：

式中：z為像素坐標(biāo)系下 (u，v) 處的像素點(diǎn)在相機(jī)坐標(biāo)系下的Z軸坐標(biāo)值，可由深度圖像得到；K為相機(jī)的內(nèi)參矩陣，通過標(biāo)定相機(jī)內(nèi)部參數(shù)得到，K∈R3×4；R、T為機(jī)器人基座坐標(biāo)系與相機(jī)坐標(biāo)系之間的旋轉(zhuǎn)變換矩陣和平移變換矩陣，通過標(biāo)定相機(jī)外部參數(shù)得到，R∈R3×3，T∈R3×1；(X，Y，Z) 為像素坐標(biāo)系下 (u，v) 處的像素點(diǎn)在機(jī)器人基座坐標(biāo)系下的坐標(biāo).

機(jī)器人成功抓取的部分結(jié)果如圖17所示，圖像從左到右分別表示抓取位姿檢測、抓取位姿執(zhí)行、物體被抓起.抓取實(shí)驗(yàn)的統(tǒng)計(jì)結(jié)果如表4所示.表中，As為成功率.可以看出，在對20個(gè)未知物體的400次抓取中，機(jī)器人的平均抓取成功率為96%.該實(shí)驗(yàn)表明RTGN在真實(shí)環(huán)境中對于形狀、大小、種類等變化不一的未知物體的抓取具有較好的實(shí)用性.

表4 機(jī)器人抓取統(tǒng)計(jì)結(jié)果Tab.4 Statistic results of robotic grasping experiment

圖17 機(jī)器人對未知物體的抓取Fig.17 Robotic grasping of novel objects

4 結(jié)語

為了進(jìn)一步提升機(jī)器人對形狀、大小、種類等變化不一的未知物體的抓取檢測準(zhǔn)確率及檢測速度，本研究提出輕量化的抓取位姿實(shí)時(shí)檢測算法.算法以多尺度空洞卷積模塊為基礎(chǔ)來構(gòu)建輕量化的特征提取主干網(wǎng)絡(luò)，有效地提升了檢測速度.通過結(jié)合混合注意力模塊和金字塔池化模塊，增強(qiáng)了算法對重要抓取特征的表達(dá)能力以及對抓取物體的抓取感知能力，進(jìn)一步提升了檢測準(zhǔn)確率.實(shí)驗(yàn)結(jié)果表明，相比于現(xiàn)有算法，所提算法兼顧了檢測準(zhǔn)確率和檢測速度2方面性能的進(jìn)一步提升.在真實(shí)抓取場景中，所提算法對形狀、大小、種類等變化不一的未知物體表現(xiàn)出良好的抓取檢測效果，對多個(gè)未知物體的抓取檢測也有較好的適應(yīng)性.

盡管本研究所提方法取得了較好的準(zhǔn)確率與實(shí)時(shí)性，但仍然存在一些有待改進(jìn)的地方.由于所提算法在檢測時(shí)無須考慮抓取物體的種類，這可能導(dǎo)致機(jī)器人對多個(gè)物體進(jìn)行抓取時(shí)不能優(yōu)先抓取指定類別的物體.在未來的工作中可以將目標(biāo)檢測和語義分割方法進(jìn)行結(jié)合，避免抓取過程的無序性.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡