李佳城,陳智強(通信作者),王 碩
(1 遼寧工程技術(shù)大學(xué)測繪與地理科學(xué)學(xué)院 遼寧 阜新 123000)
(2 遼寧科技大學(xué)電子信息與工程學(xué)院 遼寧 鞍山 114051)
工業(yè)機器人在使用上面臨著感知能力不強、無法適應(yīng)周圍環(huán)境的問題。通過三維視覺獲取場景三維信息,在三維信息引導(dǎo)下計算機器人末端運動軌跡,使得機器人在視覺引導(dǎo)下更好地適應(yīng)周圍環(huán)境,這是機器人行業(yè)要解決的核心問題。近幾年國內(nèi)對于改進機器人抓取問題的方法在不斷發(fā)展,在2011年時,張森彥等[1]采用矩形框表示物體抓取位置來替代之前的點抓取法,而采用這種矩形框表達(dá)的抓取方法是機器人抓取的新應(yīng)用,可達(dá)到比較理想的效果。隨著深度神經(jīng)網(wǎng)絡(luò)的發(fā)展,神經(jīng)網(wǎng)絡(luò)的應(yīng)用似乎無處不在,在2019年,曹雛清等[2]也設(shè)計了一種新的深度神經(jīng)網(wǎng)絡(luò)算法,該算法完成機器人對物體的判斷和針對判斷而形成的位置。隨著不同的神經(jīng)網(wǎng)絡(luò)方法在機器人抓取問題的嘗試,卷積神經(jīng)網(wǎng)絡(luò)也被設(shè)計出來解決機器人物體抓取的問題,而李傳浩[3]、王斌[4]、黃家才等[5]、李秀智等[6]、李鵬飛[7]采用隨機森林方法、循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)合并使用ICP 算法,進一步提高抓取的效果。陳盟等[8]采用層次網(wǎng)絡(luò)構(gòu)建抓取姿態(tài)的算法,上述抓取位置的構(gòu)造效果和取得的抓取效率都在逐漸進步。
本文設(shè)計了一種輕量級卷積模塊Inception-ConCat,該模塊將圖像用卷積方式構(gòu)建特征信息,這個過程是信息編碼過程,該過程結(jié)束后,再采用GRU 網(wǎng)絡(luò)對物體進行姿態(tài)識別,從而控制機械臂運動,形成抓取動作,成功抓住物體。為了驗證效果,算法首先在康奈爾數(shù)據(jù)集上驗證,之后在實際工作環(huán)境中,使用具有視覺抓取能力的KUKA 機械臂上進行驗證,結(jié)果表明研究人員所設(shè)計的抓取網(wǎng)絡(luò)運算速度快,抓取準(zhǔn)確度高(綜合抓取成功率達(dá)到96.1%),相對于之前的抓取網(wǎng)絡(luò)[8],取得良好改善效果。
要實現(xiàn)機器人對于目標(biāo)檢測的目標(biāo),最重要的一點是要對機器人抓取目標(biāo)的位置進行正確的標(biāo)定,通常研究人員用雙指抓手來實現(xiàn)物體抓取,如圖1所示,圖中的機械手是研究人員自己設(shè)計制造的機械手。機器人結(jié)構(gòu)中,其上端是一個三維獲取視覺,整個手眼結(jié)構(gòu)為典型的“眼在手上”(Eyes On Hand)結(jié)構(gòu)。
圖1 視覺引導(dǎo)雙指機械抓手
機器人一般是在現(xiàn)實空間里進行抓取的,需要為機器人提供在三維空間的信息,而三維空間信息有3 個維度的位置信息,包括:機器人機械手的三維位置坐標(biāo)、抓手的三維旋轉(zhuǎn)方向和抓手兩指張開的長度。在相機像素坐標(biāo)下的表示的三維抓取信息需要通過轉(zhuǎn)移矩陣轉(zhuǎn)移到機器人抓手位置的三維坐標(biāo):
其中Tci是機器人使用的相機的內(nèi)部參數(shù)矩陣,包括相機的焦距和像素大小等,Trc是把相機內(nèi)參矩陣轉(zhuǎn)為機器人空間坐標(biāo)的矩陣。研究人員可以應(yīng)用矩形框檢測的方法來實現(xiàn)抓取:在檢測目標(biāo)上生成一個矩形框來表示抓手的抓取范圍。
如圖2所示為抓取檢測網(wǎng)絡(luò)生成的矩形框。
圖2 二維抓取網(wǎng)絡(luò)參數(shù)表達(dá)
圖中,θ表示檢測矩形框與水平位置的夾角,(x,y)表示檢測矩形框的中心,H表示檢測矩形框的高,W表示檢測矩形框的寬。
采用傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)來表達(dá)被抓取物體,其表達(dá)要么表達(dá)能力有限,要么網(wǎng)絡(luò)太繁瑣,為此研究人員設(shè)計了Inception-ConCat 模塊進行堆疊,并且利用殘差機制防止網(wǎng)絡(luò)退化。研究人員在卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上增加Inception 機制,并且結(jié)合殘差機制防止網(wǎng)絡(luò)退化,從而給研究人員的網(wǎng)絡(luò)命名為Inception-ConCat 網(wǎng)絡(luò)。在此基礎(chǔ)上,研究人員基于所提出的Inception-ConCat 模塊又改進新的殘差結(jié)構(gòu)網(wǎng)絡(luò)Inception-ConCat-ResNet,結(jié)構(gòu)如圖3所示:
圖3 Inception-ConCat-ResNet 模塊
結(jié)合前部分提出的自主設(shè)計的網(wǎng)絡(luò)模塊,最終設(shè)計了一個抓取網(wǎng)絡(luò)Inception-ConCat GraspNet,這個網(wǎng)絡(luò)主要是對被抓取物體進行編碼,在編碼后,對編碼結(jié)構(gòu)設(shè)計GRU 循環(huán)網(wǎng)絡(luò)進行解碼,在解碼過程中不斷控制機器人各個關(guān)節(jié)運動,使之最后成功抓取被測物。
抓取網(wǎng)絡(luò)的工作過程一般分兩個階段進行,第一個階段是預(yù)測出所有可能的抓取位置,第二階段是對這些可能的抓取位置進行投票,得分最高者就作為最終的抓取位置。這兩個階段的實現(xiàn)需要對應(yīng)兩種不同的神經(jīng)網(wǎng)絡(luò)。與一般抓取網(wǎng)絡(luò)不同的是,Inception-ConCat-GraspNet 是一個端到端的單階段抓取網(wǎng)絡(luò),網(wǎng)絡(luò)執(zhí)行一次即可得到結(jié)果,本文設(shè)計的抓取網(wǎng)絡(luò)整體框架如圖4所示。
在上述結(jié)構(gòu)中,網(wǎng)絡(luò)由2 個卷積層核心3×3 卷積層、4 個自主設(shè)計的 Inception-ConCat-ResNet 模塊、全連接層所組成,F(xiàn)C1 隱藏的節(jié)點數(shù)為1 024,F(xiàn)C2 隱藏的節(jié)點數(shù)為256,在依次通過這三種網(wǎng)絡(luò)模塊后,可以得到檢測目標(biāo)的矩形框和其他信息。
實驗中采用了兩個步驟驗證抓取網(wǎng)絡(luò)的效果,首先用康奈爾數(shù)據(jù)集進行基于圖片的抓取效果,然后使用自主設(shè)計的具有三維視覺抓取功能的實際視覺機器人驗證抓取效果,最后結(jié)果證明抓取網(wǎng)絡(luò)實現(xiàn)的效果理想,總精度達(dá)到95.1%,實際應(yīng)用效果理想。
在下述實驗中,研究人員始終采用Jaccard 指數(shù)作為驗證標(biāo)準(zhǔn)。為了使實驗結(jié)果能與其他抓取網(wǎng)絡(luò)做橫向的比較,選擇在機器人抓取領(lǐng)域比較公認(rèn)的康奈爾數(shù)據(jù)集作為實驗對象。該數(shù)據(jù)集提供900 幅的被抓取物體的圖像,這些樣本像都帶有矩形框,共有5 000 多個用于抓取物體的矩形框和將近3 000 個不可用于抓取的矩形框。
為了驗證本文所提算法的實際應(yīng)用價值,研究人員采用實驗室自主設(shè)計的基于KUKA 機械臂的三維視覺抓取機構(gòu)驗證抓取網(wǎng)絡(luò)效果,抓取機器人結(jié)構(gòu)如前圖1所示。該視覺抓取機器人,研究人員自主設(shè)計了帶有深度信息的三維環(huán)境獲取傳感器,在三維視覺傳感器下方設(shè)計了兩個手指的抓手,并且將其設(shè)計為“眼在手上”結(jié)構(gòu),經(jīng)過機械臂視覺標(biāo)定后,三維視覺抓取機械臂的抓取精度在3 mm以內(nèi),完全滿足實驗中抓取的需求。
康奈爾抓取數(shù)據(jù)集是驗證抓取效果的公共數(shù)據(jù)集,為了使用該數(shù)據(jù)集要擴充康奈爾數(shù)據(jù)集提供的數(shù)據(jù)信息。先在圖像的中心選取480×480 大小的像素尺寸進行裁剪,然后隨機角度旋轉(zhuǎn),在x軸和y軸方向上隨機最多平移20個像素,將其進行裁剪獲得480×480 的圖像。通過康奈爾數(shù)據(jù)集進行抓取框選擇,最后數(shù)據(jù)集上的實驗結(jié)果如表1所示:
抓取網(wǎng)絡(luò)檢測的部分抓取框結(jié)果如圖5所示:
圖5 康奈爾數(shù)據(jù)集的抓取框結(jié)果
如表2所示:為了驗證本文設(shè)計的機器人抓取檢測算法的實際效果,實驗結(jié)果表明,機器人抓取未知物體平均成功率為97.3%,其中抓取圓柱的準(zhǔn)確率稍高,抓取圓筒的準(zhǔn)確率稍低(96.7%),這個可能與被抓取物體的摩擦效果不同有關(guān)。上述結(jié)構(gòu)已經(jīng)充分說明本次設(shè)計的抓取網(wǎng)絡(luò)Inception-ConCat-GraspNe 在實際應(yīng)用中具有重要的實用價值和意義,抓取過程如下圖6所示。
圖6 實際機器人的抓取效果
表2 視覺機器臂實際抓取效果統(tǒng)計
本文設(shè)計了一種新穎的卷積模塊Inception-ConCat 模塊并加強為Inception-ConCat-GraspNe 模塊,在此基礎(chǔ)上采用編碼解碼結(jié)構(gòu)設(shè)計整個深度神經(jīng)網(wǎng)絡(luò)。為了驗證實驗效果,在康奈爾公開數(shù)據(jù)集和實際的三維視覺機器人上進行實驗,結(jié)果表明設(shè)計的抓取網(wǎng)絡(luò)算法,其抓取準(zhǔn)確率達(dá)到97.3%,在實際的機器人抓取實驗中也取得了95.1%的實際精度,本次設(shè)計的機器人抓取算法有明顯的優(yōu)越性,具有重要意義和推廣價值。