基于Inception-ConCat-GraspNet神經(jīng)網(wǎng)絡(luò)的二維機器人抓取算法設(shè)計與實現(xiàn)

2023-01-07 03:09李佳城陳智強通信作者

信息記錄材料 2022年11期

李佳城，陳智強（通信作者），王碩

（1 遼寧工程技術(shù)大學(xué)測繪與地理科學(xué)學(xué)院遼寧阜新 123000）

（2 遼寧科技大學(xué)電子信息與工程學(xué)院遼寧鞍山 114051）

0 引言

工業(yè)機器人在使用上面臨著感知能力不強、無法適應(yīng)周圍環(huán)境的問題。通過三維視覺獲取場景三維信息，在三維信息引導(dǎo)下計算機器人末端運動軌跡，使得機器人在視覺引導(dǎo)下更好地適應(yīng)周圍環(huán)境，這是機器人行業(yè)要解決的核心問題。近幾年國內(nèi)對于改進機器人抓取問題的方法在不斷發(fā)展，在2011年時，張森彥等[1]采用矩形框表示物體抓取位置來替代之前的點抓取法，而采用這種矩形框表達(dá)的抓取方法是機器人抓取的新應(yīng)用，可達(dá)到比較理想的效果。隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展，神經(jīng)網(wǎng)絡(luò)的應(yīng)用似乎無處不在，在2019年，曹雛清等[2]也設(shè)計了一種新的深度神經(jīng)網(wǎng)絡(luò)算法，該算法完成機器人對物體的判斷和針對判斷而形成的位置。隨著不同的神經(jīng)網(wǎng)絡(luò)方法在機器人抓取問題的嘗試，卷積神經(jīng)網(wǎng)絡(luò)也被設(shè)計出來解決機器人物體抓取的問題，而李傳浩[3]、王斌[4]、黃家才等[5]、李秀智等[6]、李鵬飛[7]采用隨機森林方法、循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)合并使用ICP 算法，進一步提高抓取的效果。陳盟等[8]采用層次網(wǎng)絡(luò)構(gòu)建抓取姿態(tài)的算法，上述抓取位置的構(gòu)造效果和取得的抓取效率都在逐漸進步。

本文設(shè)計了一種輕量級卷積模塊Inception-ConCat，該模塊將圖像用卷積方式構(gòu)建特征信息，這個過程是信息編碼過程，該過程結(jié)束后，再采用GRU 網(wǎng)絡(luò)對物體進行姿態(tài)識別，從而控制機械臂運動，形成抓取動作，成功抓住物體。為了驗證效果，算法首先在康奈爾數(shù)據(jù)集上驗證，之后在實際工作環(huán)境中，使用具有視覺抓取能力的KUKA 機械臂上進行驗證，結(jié)果表明研究人員所設(shè)計的抓取網(wǎng)絡(luò)運算速度快，抓取準(zhǔn)確度高（綜合抓取成功率達(dá)到96.1%），相對于之前的抓取網(wǎng)絡(luò)[8]，取得良好改善效果。

1 抓取網(wǎng)絡(luò)設(shè)計

1.1 抓取位置表示

要實現(xiàn)機器人對于目標(biāo)檢測的目標(biāo)，最重要的一點是要對機器人抓取目標(biāo)的位置進行正確的標(biāo)定，通常研究人員用雙指抓手來實現(xiàn)物體抓取，如圖1所示，圖中的機械手是研究人員自己設(shè)計制造的機械手。機器人結(jié)構(gòu)中，其上端是一個三維獲取視覺，整個手眼結(jié)構(gòu)為典型的“眼在手上”（Eyes On Hand）結(jié)構(gòu)。

圖1 視覺引導(dǎo)雙指機械抓手

機器人一般是在現(xiàn)實空間里進行抓取的，需要為機器人提供在三維空間的信息，而三維空間信息有3 個維度的位置信息，包括：機器人機械手的三維位置坐標(biāo)、抓手的三維旋轉(zhuǎn)方向和抓手兩指張開的長度。在相機像素坐標(biāo)下的表示的三維抓取信息需要通過轉(zhuǎn)移矩陣轉(zhuǎn)移到機器人抓手位置的三維坐標(biāo)：

其中Tci是機器人使用的相機的內(nèi)部參數(shù)矩陣，包括相機的焦距和像素大小等，Trc是把相機內(nèi)參矩陣轉(zhuǎn)為機器人空間坐標(biāo)的矩陣。研究人員可以應(yīng)用矩形框檢測的方法來實現(xiàn)抓取：在檢測目標(biāo)上生成一個矩形框來表示抓手的抓取范圍。

如圖2所示為抓取檢測網(wǎng)絡(luò)生成的矩形框。

圖2 二維抓取網(wǎng)絡(luò)參數(shù)表達(dá)

圖中，θ表示檢測矩形框與水平位置的夾角，（x,y）表示檢測矩形框的中心，H表示檢測矩形框的高，W表示檢測矩形框的寬。

1.2 優(yōu)化的Inception-ConCat 卷積模塊

采用傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)來表達(dá)被抓取物體，其表達(dá)要么表達(dá)能力有限，要么網(wǎng)絡(luò)太繁瑣，為此研究人員設(shè)計了Inception-ConCat 模塊進行堆疊，并且利用殘差機制防止網(wǎng)絡(luò)退化。研究人員在卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上增加Inception 機制，并且結(jié)合殘差機制防止網(wǎng)絡(luò)退化，從而給研究人員的網(wǎng)絡(luò)命名為Inception-ConCat 網(wǎng)絡(luò)。在此基礎(chǔ)上，研究人員基于所提出的Inception-ConCat 模塊又改進新的殘差結(jié)構(gòu)網(wǎng)絡(luò)Inception-ConCat-ResNet，結(jié)構(gòu)如圖3所示：

圖3 Inception-ConCat-ResNet 模塊

1.3 編碼解碼結(jié)構(gòu)的抓取網(wǎng)絡(luò)

結(jié)合前部分提出的自主設(shè)計的網(wǎng)絡(luò)模塊，最終設(shè)計了一個抓取網(wǎng)絡(luò)Inception-ConCat GraspNet，這個網(wǎng)絡(luò)主要是對被抓取物體進行編碼，在編碼后，對編碼結(jié)構(gòu)設(shè)計GRU 循環(huán)網(wǎng)絡(luò)進行解碼，在解碼過程中不斷控制機器人各個關(guān)節(jié)運動，使之最后成功抓取被測物。

抓取網(wǎng)絡(luò)的工作過程一般分兩個階段進行，第一個階段是預(yù)測出所有可能的抓取位置，第二階段是對這些可能的抓取位置進行投票，得分最高者就作為最終的抓取位置。這兩個階段的實現(xiàn)需要對應(yīng)兩種不同的神經(jīng)網(wǎng)絡(luò)。與一般抓取網(wǎng)絡(luò)不同的是，Inception-ConCat-GraspNet 是一個端到端的單階段抓取網(wǎng)絡(luò)，網(wǎng)絡(luò)執(zhí)行一次即可得到結(jié)果，本文設(shè)計的抓取網(wǎng)絡(luò)整體框架如圖4所示。

在上述結(jié)構(gòu)中，網(wǎng)絡(luò)由2 個卷積層核心3×3 卷積層、4 個自主設(shè)計的 Inception-ConCat-ResNet 模塊、全連接層所組成，F(xiàn)C1 隱藏的節(jié)點數(shù)為1 024，F(xiàn)C2 隱藏的節(jié)點數(shù)為256，在依次通過這三種網(wǎng)絡(luò)模塊后，可以得到檢測目標(biāo)的矩形框和其他信息。

2 實驗結(jié)果

實驗中采用了兩個步驟驗證抓取網(wǎng)絡(luò)的效果，首先用康奈爾數(shù)據(jù)集進行基于圖片的抓取效果，然后使用自主設(shè)計的具有三維視覺抓取功能的實際視覺機器人驗證抓取效果，最后結(jié)果證明抓取網(wǎng)絡(luò)實現(xiàn)的效果理想，總精度達(dá)到95.1%，實際應(yīng)用效果理想。

在下述實驗中，研究人員始終采用Jaccard 指數(shù)作為驗證標(biāo)準(zhǔn)。為了使實驗結(jié)果能與其他抓取網(wǎng)絡(luò)做橫向的比較，選擇在機器人抓取領(lǐng)域比較公認(rèn)的康奈爾數(shù)據(jù)集作為實驗對象。該數(shù)據(jù)集提供900 幅的被抓取物體的圖像，這些樣本像都帶有矩形框，共有5 000 多個用于抓取物體的矩形框和將近3 000 個不可用于抓取的矩形框。

為了驗證本文所提算法的實際應(yīng)用價值，研究人員采用實驗室自主設(shè)計的基于KUKA 機械臂的三維視覺抓取機構(gòu)驗證抓取網(wǎng)絡(luò)效果，抓取機器人結(jié)構(gòu)如前圖1所示。該視覺抓取機器人，研究人員自主設(shè)計了帶有深度信息的三維環(huán)境獲取傳感器，在三維視覺傳感器下方設(shè)計了兩個手指的抓手，并且將其設(shè)計為“眼在手上”結(jié)構(gòu)，經(jīng)過機械臂視覺標(biāo)定后，三維視覺抓取機械臂的抓取精度在3 mm以內(nèi)，完全滿足實驗中抓取的需求。

2.1 康奈爾數(shù)據(jù)集樣本預(yù)處理

康奈爾抓取數(shù)據(jù)集是驗證抓取效果的公共數(shù)據(jù)集，為了使用該數(shù)據(jù)集要擴充康奈爾數(shù)據(jù)集提供的數(shù)據(jù)信息。先在圖像的中心選取480×480 大小的像素尺寸進行裁剪，然后隨機角度旋轉(zhuǎn)，在x軸和y軸方向上隨機最多平移20個像素，將其進行裁剪獲得480×480 的圖像。通過康奈爾數(shù)據(jù)集進行抓取框選擇，最后數(shù)據(jù)集上的實驗結(jié)果如表1所示：

抓取網(wǎng)絡(luò)檢測的部分抓取框結(jié)果如圖5所示：

圖5 康奈爾數(shù)據(jù)集的抓取框結(jié)果

2.2 現(xiàn)場實際抓取效果

如表2所示：為了驗證本文設(shè)計的機器人抓取檢測算法的實際效果，實驗結(jié)果表明，機器人抓取未知物體平均成功率為97.3%，其中抓取圓柱的準(zhǔn)確率稍高，抓取圓筒的準(zhǔn)確率稍低（96.7%），這個可能與被抓取物體的摩擦效果不同有關(guān)。上述結(jié)構(gòu)已經(jīng)充分說明本次設(shè)計的抓取網(wǎng)絡(luò)Inception-ConCat-GraspNe 在實際應(yīng)用中具有重要的實用價值和意義，抓取過程如下圖6所示。

圖6 實際機器人的抓取效果

表2 視覺機器臂實際抓取效果統(tǒng)計

3 結(jié)論

本文設(shè)計了一種新穎的卷積模塊Inception-ConCat 模塊并加強為Inception-ConCat-GraspNe 模塊，在此基礎(chǔ)上采用編碼解碼結(jié)構(gòu)設(shè)計整個深度神經(jīng)網(wǎng)絡(luò)。為了驗證實驗效果，在康奈爾公開數(shù)據(jù)集和實際的三維視覺機器人上進行實驗，結(jié)果表明設(shè)計的抓取網(wǎng)絡(luò)算法，其抓取準(zhǔn)確率達(dá)到97.3%，在實際的機器人抓取實驗中也取得了95.1%的實際精度，本次設(shè)計的機器人抓取算法有明顯的優(yōu)越性，具有重要意義和推廣價值。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡