摘 要:針對(duì)在非結(jié)構(gòu)化抓取環(huán)境中機(jī)器人抓取成功率低和速度慢的問題,提出了一種基于SE-ResNet的生成殘差卷積神經(jīng)網(wǎng)絡(luò)模型。首先,該模型在生成殘差卷積神經(jīng)網(wǎng)絡(luò)(GR-ConvNet)模型的基礎(chǔ)上引入了擠壓和激勵(lì)模塊的殘差網(wǎng)絡(luò)來(lái)增強(qiáng)有效信息,抑制無(wú)效信息,并進(jìn)行了深層次特征提取,提高了神經(jīng)網(wǎng)絡(luò)對(duì)抓取姿態(tài)中心的敏感性;其次,引入多尺度并行空洞卷積模塊,用于提取不同尺度的特征,在不減少感受野的情況下提高了信息利用率,同時(shí),其并行結(jié)構(gòu)避免了多尺度特征之間的冗余;最后,針對(duì)單物體場(chǎng)景和多物體場(chǎng)景進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該方法可以幫助網(wǎng)絡(luò)為機(jī)器人抓取檢測(cè)任務(wù)學(xué)習(xí)更好的視覺特征。經(jīng)驗(yàn)證,該方法的抓取準(zhǔn)確率達(dá)98.3%,處理速度較快,滿足了實(shí)時(shí)性的要求。
關(guān)鍵詞:機(jī)器人;通道注意力機(jī)制;多尺度空洞卷積;抓取檢測(cè);殘差網(wǎng)絡(luò);感受野
中圖分類號(hào):TP242 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1302(2025)04-0-05
0 引 言
機(jī)器人對(duì)物體的抓取已經(jīng)得到了廣泛的研究,但它仍然是機(jī)器人領(lǐng)域中一個(gè)具有挑戰(zhàn)性的問題。人類會(huì)識(shí)別對(duì)物體的多種抓?。ǜ兄⒂?jì)劃如何拿起(計(jì)劃)與可靠抓?。刂疲1]。因此,當(dāng)前的機(jī)器人研究面臨著準(zhǔn)確的抓取檢測(cè)、軌跡規(guī)劃和可靠執(zhí)行等一系列具有挑戰(zhàn)性的任務(wù)。在這些任務(wù)中,快速、準(zhǔn)確地從圖像傳感器中檢測(cè)抓取物品是機(jī)器人實(shí)現(xiàn)成功抓取的關(guān)鍵。
關(guān)于機(jī)器人抓取檢測(cè)的研究有很多,但針對(duì)已知的、熟悉的或新事物,抓取過(guò)程一般分為分析和數(shù)據(jù)驅(qū)動(dòng)兩部分[2]。分析,即首先利用物體模型生成穩(wěn)定的抓取指令,然后根據(jù)物體在場(chǎng)景中的姿態(tài)進(jìn)行抓取。但由于難以建模,以及機(jī)械臂和物體之間的物理作用,往往不能很好地將設(shè)想實(shí)現(xiàn)。數(shù)據(jù)驅(qū)動(dòng)方法利用數(shù)據(jù)學(xué)習(xí)適合抓取的判別特征,并在生成抓取位置方面具備出色的性能。
機(jī)器人抓取經(jīng)歷了較長(zhǎng)的探索,而深度學(xué)習(xí)以其強(qiáng)大的特征提取能力,展現(xiàn)出了極強(qiáng)的抓取優(yōu)勢(shì)[3]。文獻(xiàn)[4]首次提出了基于深度學(xué)習(xí)分類器的機(jī)器人抓取檢測(cè)方法,在康奈爾數(shù)據(jù)集上,實(shí)現(xiàn)了高達(dá)73.9%(圖像方面)和75.6%(對(duì)象方面)的抓取檢測(cè)精度。但受滑動(dòng)窗口的影響,每張圖像的計(jì)算時(shí)間較慢(每張圖像13.5 s)。在不使用滑動(dòng)窗口的情況下,文獻(xiàn)[5]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的機(jī)器人抓取檢測(cè)方法,該方法具有較高的精確性和實(shí)時(shí)性,通過(guò)單階段回歸可抓取的邊界框?qū)崿F(xiàn)抓取檢測(cè),避免了模型參數(shù)過(guò)大的問題。文獻(xiàn)[6]開發(fā)了一種生成抓取卷積神經(jīng)網(wǎng)絡(luò)(GG-CNN),該網(wǎng)絡(luò)以圖像為輸入,輸出抓取姿勢(shì)和相應(yīng)的抓取質(zhì)量分?jǐn)?shù),且檢測(cè)穩(wěn)定抓取動(dòng)作時(shí)的數(shù)量級(jí)更小。針對(duì)訓(xùn)練數(shù)據(jù)不足、缺乏評(píng)價(jià)基準(zhǔn)的問題,文
獻(xiàn)[7]提供了一個(gè)具有統(tǒng)一評(píng)價(jià)系統(tǒng)的大規(guī)模抓取姿態(tài)檢測(cè)數(shù)據(jù)集。數(shù)據(jù)集有97 280張RGB-D圖像,包含超過(guò)10億個(gè)抓取姿勢(shì)。該文提出了一個(gè)給定點(diǎn)云輸入的端到端抓取姿態(tài)預(yù)測(cè)網(wǎng)絡(luò),其以解耦的方式學(xué)習(xí)接近方向和操作參數(shù)。最近,全卷積網(wǎng)絡(luò)(FCN)已被開發(fā)用于抓取檢測(cè)。然而,在標(biāo)記可抓取區(qū)域時(shí),這些方法對(duì)特征賦予了相同的權(quán)重,沒有強(qiáng)調(diào)抓取概率在中心點(diǎn)的重要性,極大地降低了當(dāng)前抓取姿勢(shì)檢測(cè)方法的速度和準(zhǔn)確性。
為了解決這個(gè)問題,本文在GR-ConvNet模型的基礎(chǔ)上,提出了一種基于注意力機(jī)制的實(shí)時(shí)抓取檢測(cè)算法。在GR-ConvNet模型上,引入通道注意力機(jī)制,以關(guān)注重要信息,抑制無(wú)用信息。此舉可以有效地區(qū)分可抓取區(qū)域和不可抓取區(qū)域,更準(zhǔn)確地檢測(cè)抓取矩形,同時(shí),為提取不同尺度的信息,引入了多尺度空洞卷積模塊,可以有效控制感受野。對(duì)此,在單對(duì)象和多對(duì)象數(shù)據(jù)集上進(jìn)行評(píng)估,發(fā)現(xiàn)抓取模型在推理速度和準(zhǔn)確率方面均取得了較好效果。
1 相關(guān)介紹
1.1 抓取在圖像空間中的表達(dá)式
在機(jī)器人抓取檢測(cè)中,文獻(xiàn)[8-9]基于五維抓取表示來(lái)生成抓取姿勢(shì):
(1)
式中:(x, y)為中心點(diǎn)坐標(biāo);θ為抓取矩形的方向;w、h分別為抓取矩形的寬度和高度。五維抓取表示如圖1所示。
矩形框在物體檢測(cè)中使用較多,但不適合抓取檢測(cè)任務(wù)。由于夾持器的尺寸通常是一個(gè)已知變量,因此文獻(xiàn)[10]引入了一種簡(jiǎn)化的表示方法,用于高精度、實(shí)時(shí)的機(jī)器人抓取,定義如下:
(2)
夾持器的位置和姿態(tài)可以用笛卡爾坐標(biāo)系中的中心點(diǎn)
p=(x, y, z)和繞z軸的旋轉(zhuǎn)角度φ以及開合距離w表示。然而,五維抓取表示缺少一個(gè)尺度因子來(lái)評(píng)估抓取質(zhì)量。為了解決這一問題,本文引入了一個(gè)新的尺度因子,用于衡量抓取成功的概率。新的空間抓取表示定義如下:
(3)
式中:=(u, v)表示圖像坐標(biāo)中的中心點(diǎn);表示相機(jī)幀內(nèi)的方向;和分別表示抓手的開閉距離和抓手質(zhì)量。當(dāng)知道抓取系統(tǒng)的標(biāo)定結(jié)果時(shí),可以通過(guò)矩陣運(yùn)算將抓握位姿轉(zhuǎn)換為世界坐標(biāo)g:
(4)
式中:TRC和TCI分別表示相機(jī)幀到世界幀和二維圖像空間到相機(jī)幀的變換矩陣。將圖像空間中的抓取映射記為:
(5)
式中:抓取圖Φ、W、Q中的每個(gè)像素都用相應(yīng)的、、值填充,以確保在后續(xù)推理過(guò)程中,通過(guò)搜索最大抓取質(zhì)量的像素值來(lái)找到中心點(diǎn)坐標(biāo),即:。
1.2 抓取檢測(cè)流程
相機(jī)采集到含有抓取物體的圖像,將圖像信息經(jīng)過(guò)數(shù)據(jù)增強(qiáng)、調(diào)整輸入大小等操作后輸入給抓取檢測(cè)網(wǎng)絡(luò),生成抓取框圖,機(jī)械臂根據(jù)網(wǎng)絡(luò)輸出信息定位抓取點(diǎn),完成抓取操作。抓取檢測(cè)流程如圖2所示。
1.3 注意力機(jī)制
注意力機(jī)制最早在神經(jīng)科學(xué)領(lǐng)域提出,如今已被廣泛應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域。文獻(xiàn)[11]提出了判別相關(guān)濾波器(DCF)的方法,該方法可以從通道和空間兩個(gè)方面對(duì)特征進(jìn)行調(diào)整。調(diào)整特征權(quán)重,注意力機(jī)制使神經(jīng)網(wǎng)絡(luò)更加關(guān)注重要的特征,從而提高神經(jīng)網(wǎng)絡(luò)的性能。
2 改進(jìn)的GR-Convnet模型
2.1 SE-ResNet
帶有擠壓和激勵(lì)模塊的殘差網(wǎng)絡(luò)(SE-ResNet)如圖3所示。SE-ResNet的第一部分由三個(gè)卷積層組成,其中卷積核的大小為3×3。第二部分是擠壓和激勵(lì)(SE)塊,其中減速比r設(shè)置為16。在擠壓部分,SE塊使用全局平均池化層來(lái)擠壓特征中包含的參數(shù);在激勵(lì)部分,SE塊包含兩個(gè)完全連接層和一個(gè)ReLU層。為了減少參數(shù)的數(shù)量并限制模型的復(fù)雜度,在第一個(gè)全連接層中設(shè)置了縮減率,在第二個(gè)全連接層中使用該縮減率將特征重新縮放到原始大小。最后,使用S形函數(shù)輸出每個(gè)通道的權(quán)重。
2.2 ASPP(多尺度空洞卷積模塊)
由于最大池化和網(wǎng)絡(luò)的深化,輸入數(shù)據(jù)的空間信息逐漸丟失。為了解決這個(gè)問題,引入多尺度空洞卷積模塊,通過(guò)空洞卷積操作,多尺度空洞卷積模塊可以在不減少感受野的同時(shí)減少信息丟失,并在不同尺度上對(duì)輸入特征圖進(jìn)行卷積操作,從而有效捕獲多尺度的語(yǔ)義信息,處理不同尺度的目標(biāo),以提高模型的泛化能力和對(duì)細(xì)節(jié)的感知能力。并行結(jié)構(gòu)避免了多尺度特征之間的冗余,如圖4所示。
2.3 網(wǎng)絡(luò)模型
本文模型在GR-ConvNet的基礎(chǔ)上進(jìn)行了改進(jìn),引入了通道注意力機(jī)制和多尺度空洞卷積模塊,如圖5所示。該模型由卷積層、殘差層、多尺度特征模塊、轉(zhuǎn)置層組成。卷積層從輸入圖像中提取特征,其精確度隨著層數(shù)的增加而增加,但是當(dāng)超過(guò)一定的層數(shù)時(shí),會(huì)導(dǎo)致梯度消失和維數(shù)誤差等問題,致使精度的飽和度退化。為了提高神經(jīng)網(wǎng)絡(luò)對(duì)抓取姿態(tài)的敏感性,本文進(jìn)一步開發(fā)了帶有SE模塊的殘差塊,即SE-ResNet,采用殘差層有助于網(wǎng)絡(luò)更好地學(xué)習(xí)深層特征。為了提取不同尺度的特征并有效調(diào)節(jié)感受野,本文使用多尺度并行空洞卷積模塊。為了方便對(duì)卷積運(yùn)算后圖像的空間特征進(jìn)行解釋和保留,利用卷積轉(zhuǎn)置運(yùn)算對(duì)圖像進(jìn)行上采樣。這樣的設(shè)計(jì)使得設(shè)計(jì)的模型能夠更好地控制感受野,并且保持圖像的空間特征。
2.4 損失函數(shù)
本文分析了網(wǎng)絡(luò)中各種損失函數(shù)的性能,在運(yùn)行了幾次實(shí)驗(yàn)后發(fā)現(xiàn)平滑L損失(也稱為Huber損失)效果最佳,為了處理爆炸梯度,將損失定義如下:
(6)
(7)
3 實(shí)驗(yàn)及結(jié)果分析
3.1 實(shí)驗(yàn)環(huán)境
本文采用中移九天深度學(xué)習(xí)平臺(tái),該平臺(tái)型號(hào)為NVIDIA V100,內(nèi)存為16 GB,模型使用PyTorch作為深度學(xué)習(xí)算法的框架,學(xué)習(xí)率設(shè)為0.000 1。在實(shí)驗(yàn)的訓(xùn)練與評(píng)估階段,將數(shù)據(jù)集按照9∶1的比例劃分為訓(xùn)練集與驗(yàn)證集,batch-size為8。
3.2 數(shù)據(jù)準(zhǔn)備
康奈爾數(shù)據(jù)集由244個(gè)不同物體的885張圖像組成(每個(gè)物體以不同的方向或姿勢(shì)拍攝幾張圖像),包含正向抓取5 110個(gè),負(fù)向抓取2 909個(gè)。圖6為康奈爾數(shù)據(jù)集部分圖像。
康奈爾數(shù)據(jù)集場(chǎng)景由一張圖像中的一個(gè)對(duì)象組成,多對(duì)象數(shù)據(jù)集用于評(píng)估多對(duì)象或多抓取情況。
圖7所示為多對(duì)象數(shù)據(jù)集的部分圖像。該數(shù)據(jù)集由96幅圖像組成,每幅圖像中有3~5個(gè)不同的對(duì)象,遵循與康奈爾數(shù)據(jù)集相同的數(shù)據(jù)結(jié)構(gòu),以不同的方向或姿勢(shì)為每組對(duì)象拍攝幾張圖像,每幅圖像中每個(gè)對(duì)象的多個(gè)真實(shí)抓取使用相同的方法定義并注釋。
3.3 結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)
為了驗(yàn)證文中方法的有效性,提出了矩形度量,當(dāng)抓取滿足以下兩個(gè)條件時(shí),認(rèn)為它是有效抓取,具體評(píng)價(jià)標(biāo)準(zhǔn)如下:
(1)預(yù)測(cè)抓取矩形的抓取方向與地面真實(shí)矩形的偏移小于30°。
(2)真實(shí)抓取矩形與預(yù)測(cè)抓取矩形的IoU大于25%,如式(8)所示:
(8)
式中:gpt為地面抓取矩形的面積;gp為預(yù)測(cè)抓取矩形的面積。
使用如下方式進(jìn)行評(píng)估:
按圖像分割(IW):隨機(jī)分割數(shù)據(jù)集,每個(gè)圖像都是等效的,用于測(cè)試對(duì)象處于不同姿態(tài)時(shí)模型的預(yù)測(cè)能力。
按對(duì)象拆分(OW):隨機(jī)拆分對(duì)象實(shí)例,且測(cè)試數(shù)據(jù)集中的對(duì)象在訓(xùn)練數(shù)據(jù)集中不可視,用于測(cè)試模型在遇到不同對(duì)象時(shí)的泛化能力。
3.4 實(shí)驗(yàn)結(jié)果
表1顯示了一些現(xiàn)有算法在康奈爾數(shù)據(jù)集上的檢測(cè)性能,為驗(yàn)證本文算法性能,在抓取檢測(cè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證。
由實(shí)驗(yàn)分析結(jié)果可知,由于注意力機(jī)制的使用,改進(jìn)的GR-ConvNet算法可以很好地將物體與背景區(qū)分開。利用殘差注意力模塊可以有效區(qū)分可抓取區(qū)域和不可抓取區(qū)域,更準(zhǔn)確地檢測(cè)抓取矩形,并給出適當(dāng)?shù)淖ト∽藙?shì)預(yù)測(cè)。通過(guò)引入多尺度空洞卷積模塊,可以進(jìn)一步提取不同的感受野和尺度特征,從而更高效地提取相關(guān)特征。與原GR-ConvNet相比,改進(jìn)的GR-ConvNet算法具有更高的質(zhì)量分?jǐn)?shù),能夠保證其實(shí)時(shí)應(yīng)用能力。實(shí)驗(yàn)表明,本文方法更有效。原GR-ConvNet與本文算法檢測(cè)效果如圖8、圖9所示。
考慮到機(jī)器人在實(shí)際抓取過(guò)程中通常需要抓取多個(gè)物體,模型也在擁有多個(gè)物體的場(chǎng)景中進(jìn)行了測(cè)試。測(cè)試效果如圖10、圖11所示。通過(guò)圖10、圖11發(fā)現(xiàn):GR-ConvNet不能很好地區(qū)分物體存在與否,只能聚焦于一個(gè)或兩個(gè)物體,而改進(jìn)后的GR-ConvNet算法更容易確定物體的中心范圍,意味著改進(jìn)后的算法可以很好地將對(duì)象與背景區(qū)分開來(lái)。
3.5 故障案例分析
在實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn),雖然本文算法具有較高的檢測(cè)精度,但在某些情況下仍會(huì)失效。圖12展示了一些失效實(shí)例。該模型不能很好地預(yù)測(cè)康奈爾數(shù)據(jù)集中較大物體的矩形方向,對(duì)于一些形狀較復(fù)雜的物體也缺乏較好的泛化能力。
然而,這些不足可以通過(guò)增加訓(xùn)練數(shù)據(jù)的數(shù)量和多樣性來(lái)彌補(bǔ)。
3.6 消融實(shí)驗(yàn)
為了更好地理解模型性能,進(jìn)行了消融實(shí)驗(yàn),在原始GR-ConvNet模型上進(jìn)行了相同的實(shí)驗(yàn),以確定哪個(gè)部分對(duì)模型的表現(xiàn)影響最大。消融實(shí)驗(yàn)結(jié)果見表2。
所有網(wǎng)絡(luò)都在康奈爾數(shù)據(jù)集中進(jìn)行訓(xùn)練和測(cè)試,可以觀察到原模型在圖像和對(duì)象上的分割精度分別為97.7%和96.8%,為殘差模型加入注意力機(jī)制和多尺度空洞卷積模塊后,精度分別提高至98.3%和97.2%。
4 結(jié) 語(yǔ)
為解決機(jī)器人抓取準(zhǔn)確率低和實(shí)時(shí)生成目標(biāo)抓取位姿的問題,在GR-ConvNet網(wǎng)絡(luò)的基礎(chǔ)上,整合注意力機(jī)制,可以進(jìn)一步抑制無(wú)效信息,進(jìn)行深層次特征提取,并通過(guò)加入多尺度并行空洞卷積模塊,融合不同尺度信息,進(jìn)一步提高了網(wǎng)絡(luò)性能。實(shí)驗(yàn)結(jié)果表明,整合注意力機(jī)制,加入多尺度并行空洞卷積模塊可以幫助神經(jīng)網(wǎng)絡(luò)更好地學(xué)習(xí)視覺特征,并且在網(wǎng)絡(luò)參數(shù)與計(jì)算時(shí)間之間進(jìn)行權(quán)衡。在未來(lái)的研究中,將在更大的數(shù)據(jù)集上訓(xùn)練模型,助力機(jī)器人實(shí)現(xiàn)物品的精確抓取。
參考文獻(xiàn)
[1] PARK D, SEO Y, CHUN S Y. Real-time, highly accurate robotic grasp detection using fully convolutional neural network with rotation ensemble module [C]// 2020 IEEE International Conference on Robotics and Automation (ICRA). Paris, France: IEEE, 2020: 9397-9403.
[2] PARK D, CHUN S Y. Classification based grasp detection using spatial transformer network [J]. arXiv. preprint: 1803.01356, 2018.
[3] VELA P A. Real-world multiobject, multigrasp detection [J]. IEEE robotics and automation letters, 2018, 3(4): 3355-3362.
[4] LENZ I, LEE H, SAXENA A. Deep learning for detecting robotic grasps [J]. The international journal of robotics research, 2013, 34(4/5).
[5] REDMON J, ANGELOVA A. Real-time grasp detection using convolutional neural networks [C]// 2015 IEEE International Conference On Robotics And Automation (ICRA). Seattle, WA, USA: IEEE, 2015: 1316-1322.
[6] MORRISON D, CORKE P, LEITNER J. Closing the loop for robotic grasping: A real-time, generative grasp synthesis approach [J]. arXiv preprint: 1804.05172, 2018.
[7] FANG H S, WANG C, GOU M, et al. Graspnet-1billion: A large-scale benchmark for general object grasping [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, WA, USA: IEEE, 2020: 11444-11453.
[8] CHU F, XU R, VELA P A. Deep grasp: detection and localization of grasps with deep neural networks [J]. arXiv preprint: 1802.00520.v2.
[9] GUO D, SUN F, LIU H, et al. A hybrid deep architecture for robotic grasp detection [C]// in 2017 IEEE International Conference on Robotics and Automation (ICRA). Singapore: IEEE, 2017: 1609-1614.
[10] MORRISON D, CORKE P, LEITNER J. Learning robust, real-time, reactive robotic grasping [J]. The international journal of robotics research, 2020, 39(2): 183-201.
[11] LUKEZIC A, VOJIR T, CEHOVIN Z L, et al. Discriminative correlation filter with channel and spatial reliability [C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu, HI, USA: IEEE, 2017: 6309-6318.