馬世超, 孫 磊, 何 宏, 郭延華
(天津理工大學(xué)電氣電子工程學(xué)院,天津 300384)
智能機器人的基礎(chǔ)研究和產(chǎn)業(yè)化近年來發(fā)展迅速,在工業(yè)分揀、農(nóng)業(yè)采摘等[1-3]方面機器人抓取技術(shù)具有較高的應(yīng)用價值,能否抓取成功會受多方面因素的影響,因此機器人的抓取是一個非常具有挑戰(zhàn)性的研究。
傳統(tǒng)的一般采用人工示教的抓取方式實現(xiàn)對位置確定的單一物體抓取,由于抓取位姿憑靠的是記憶且機械臂本身沒有對外物的感知能力,所以在實施抓取操作時易受到來自外界不確定因素的干擾,為了實現(xiàn)在自然環(huán)境下機械臂能夠自主抓取物體,計算機視覺技術(shù)與機器人技術(shù)的結(jié)合成為研究的熱點。文獻(xiàn)[4]提出單目立體匹配的機器人抓取方法,主要建立3D模板庫,最優(yōu)搜索確定檢測位姿實現(xiàn)抓取,但其主要是在單物體下實現(xiàn)的,不能應(yīng)對多目標(biāo)環(huán)境。文獻(xiàn)[5]提出了一種基于雅克比矩陣估計的視覺伺服控制方案。文獻(xiàn)[6]利用雙目視覺對盤類零件上料物體的位置形狀識別,實現(xiàn)對零件的定位,但光照過強過弱都會使效果下降,其對環(huán)境的適應(yīng)性差。文獻(xiàn)[7]利用深度傳感器并結(jié)合顏色信息,通過目標(biāo)三維重建獲得位姿,雖然其在目標(biāo)所占比例大的情況下效果好,但由于三維重建耗時長,故實用性不強。以上研究均是基于視覺的。
受Hubel等的生物研究影響,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network)被提出,并在目標(biāo)識別檢測等方面作出突出貢獻(xiàn),此后深度學(xué)習(xí)技術(shù)逐漸應(yīng)用到機器人抓取領(lǐng)域。文獻(xiàn)[8]利用神經(jīng)網(wǎng)絡(luò),對目標(biāo)物體位置與機器人末端的映射關(guān)系進(jìn)行訓(xùn)練完成抓取;文獻(xiàn)[9]提出被抓取目標(biāo)物體在未知姿態(tài)下,利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)抓取函數(shù),雖然此方法適應(yīng)性強,能夠很好地適應(yīng)新物體,但也只針對單個物體情況;文獻(xiàn)[10]提出基于深度學(xué)習(xí)的多視圖、自監(jiān)督方法來估計物體6D位姿,能夠在復(fù)雜環(huán)境下實現(xiàn)抓取,但其抓取精度依舊不高;文獻(xiàn)[11]提出基于Faster RCNN目標(biāo)檢測的機器人抓取方法,雖然其滿足多目標(biāo)的識別并且精度較高,但是識別速度要比YOLOV3慢很多,會影響實時檢測。
針對多目標(biāo)、目標(biāo)物體大小不一的情況,提出一種基于感興趣區(qū)域的機器人抓取方法。對物體識別定位及機器人抓取進(jìn)行了研究,利用Kinect V2采集場景信息,通過張正友標(biāo)定法[12]獲得深度傳感器的內(nèi)外參數(shù),實現(xiàn)二維圖像與三維空間之間的映射,計算目標(biāo)物體的坐標(biāo)信息,建立目標(biāo)數(shù)據(jù)庫進(jìn)行訓(xùn)練,為了滿足目標(biāo)實時檢測的需求,選用改進(jìn)的YOLOV3模型進(jìn)行識別。最后,通過控制機器人各個關(guān)節(jié),實現(xiàn)對目標(biāo)物體的抓取。
物體抓取系統(tǒng)如圖1所示,共包含目標(biāo)的識別、定位及抓取3部分。Kinect V2架于實驗臺0.5 m的位置,aubo_i5機械臂固定在實驗臺上,相機不隨機械臂運動,GPU選用NVIDIA GTX 1080Ti,操作系統(tǒng)選用Ubuntu16.04,深度學(xué)習(xí)框架為TensorFlow。物體檢測系統(tǒng)采用YOLOV3深度學(xué)習(xí)的方法,采集5種目標(biāo)物體,對其標(biāo)記訓(xùn)練得到適合本系統(tǒng)的權(quán)重。YOLOV3調(diào)用Kinect V2相機實時采集場景中的圖像信息,同時利用訓(xùn)練好的改進(jìn)YOLOV3模型檢測出目標(biāo)物體,并且得到其類別、二維包絡(luò)框和置信度等信息。目標(biāo)物體的定位系統(tǒng)能夠得到目標(biāo)的圖像點的像素坐標(biāo)值和深度值,然后利用手眼轉(zhuǎn)換,得到目標(biāo)物在機械臂基坐標(biāo)系下對應(yīng)的位置信息;機械臂抓取系統(tǒng)通過求取逆解,得到aubo_i5機械臂6個關(guān)節(jié)轉(zhuǎn)動角度值,最終通過對機械臂控制完成抓取任務(wù)。
圖1 抓取系統(tǒng)簡圖Fig.1 Schematic diagram of the grasping system
Kinect v2按照物體不同位置、不同種類,采集500張物體圖像信息,對圖像中目標(biāo)物體類別進(jìn)行標(biāo)注,然后將標(biāo)注信息與原始圖像信息作為訓(xùn)練樣本,在YOLOV3網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,得到權(quán)重信息,完成目標(biāo)物的識別。
實驗中采集了包括水瓶蘋果等共5種待識別的目標(biāo)。為了識別準(zhǔn)確,作為訓(xùn)練的物體圖像信息既要包含目標(biāo)物的不同類別,還要包含目標(biāo)物體不同位置和姿態(tài)下的信息;同時,為了快速得到這些信息,實驗中在相機采集的500張圖像的基礎(chǔ)上來增大訓(xùn)練的數(shù)據(jù)集,所以對原圖添加高斯噪聲,并且將原圖與噪聲處理后的圖像分別進(jìn)行順逆時針各轉(zhuǎn)10°操作,如圖2所示。此時一幅圖像可擴展成6幅,數(shù)據(jù)集共500×6=3 000幅圖像。
圖2 原圖的增強效果Fig.2 Enhanced effect diagram of the original
快速卷積神經(jīng)網(wǎng)絡(luò)模型的平均精度比YOLOV3高一些,但是其對視頻實時檢測耗費的時間要比YOLOV3長很多。正因為YOLOV3檢測快,能夠滿足視頻的實時處理,因此選用YOLOV3訓(xùn)練模型并在此模型基礎(chǔ)上完成改進(jìn)。YOLOV3網(wǎng)絡(luò)[13-14]是一個基于回歸的單級檢測器,主干網(wǎng)絡(luò)由Darknet-53特征提取器和YOLO交互層構(gòu)成,損失函數(shù)采用交叉熵函數(shù)。Darknet-53是一個全卷積網(wǎng)絡(luò),其融合了Darknet網(wǎng)絡(luò)和殘差連接方式,并且采用了53個3×3、1×1卷積核的卷積層,通過跳躍性的連接方式構(gòu)成res層。其中DBL包括二維卷積操作(conv2D)、BN層和局部響應(yīng)歸一化(Leaky relu)。對圖像進(jìn)行特征提取,輸出3個不同尺度的特征圖,將其與YOLO交互層進(jìn)行特征融合構(gòu)建特征金字塔網(wǎng)絡(luò),提取目標(biāo)深層語義信息,輸出目標(biāo)的位置信息、類別及置信度。YOLOV3網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
對其損失函數(shù)進(jìn)行改進(jìn),使用焦點函數(shù)(FL)代替?zhèn)鹘y(tǒng)的交叉熵函數(shù),得到改進(jìn)YOLOV3新型回歸單級檢測器,通過物體識別將其與YOLOV3模型進(jìn)行實驗對比分析,驗證模型的有效性及可靠性。傳統(tǒng)的交叉熵函數(shù)整理之后可得:
圖3 YOLOV3網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 YOLOV3 network structure
(1)
式(1)中:n的值是正1或負(fù)1;m是標(biāo)簽(label)等于1時預(yù)測的概率,其值范圍為0到1,為方便計算,用nt代替n,公式為
(2)
對交叉熵的改進(jìn),增加了一個系數(shù)αt,跟nt的定義類似,當(dāng)label=1的時候,αt=α;當(dāng)label=-1的時候,αt=1-α,α的范圍是0到1,公式為
L(nt)=-αtln(nt)
(3)
在大量數(shù)據(jù)訓(xùn)練過程中,容易分類的負(fù)樣本占據(jù)損失值的大部分,雖然αt能夠平衡正負(fù)樣本,但是對于難(易)樣本分類仍具有一定難度,提出在交叉熵函數(shù)中加入調(diào)制函數(shù)(1-nt)γ,γ具有平滑曲線的作用,當(dāng)γ>0時,則樣本類別失衡,此時nt值為極小值,調(diào)制系數(shù)趨于1,交叉熵函變化很?。划?dāng)nt趨向于1時(類別正確),調(diào)制系數(shù)趨于0,對總損失值影響較??;當(dāng)γ=0時,焦點損失函數(shù)就是傳統(tǒng)的交叉熵,當(dāng)γ增加時,調(diào)制函數(shù)也會相應(yīng)的增加。一般而言當(dāng)γ增加的時候,α需要減小一點。
最終損失函數(shù)公式為
FL(nt)=-αt(1-nt)γln(nt)
(4)
焦點損失函數(shù)既能調(diào)整正負(fù)樣本的權(quán)重,又能提高識別精度及穩(wěn)定性,將改進(jìn)后的損失函數(shù)應(yīng)用到網(wǎng)絡(luò)模型中。
改進(jìn)YOLOV3結(jié)合深度傳感器能夠?qū)崟r檢測目標(biāo)物體,基于改進(jìn)YOLOV3模型的物體檢測技術(shù)屬于監(jiān)督學(xué)習(xí),因此需要得到目標(biāo)類別及其二維包絡(luò)框像素位置等標(biāo)注信息。對得到的3 000幅圖像完成標(biāo)注之后,為了測試模型的精度,這里將80%的圖像與其相對應(yīng)標(biāo)注后得到的.yaml文件作為訓(xùn)練集,剩余的20%作為驗證集。在目標(biāo)識別中,對模型參數(shù)進(jìn)行設(shè)置,學(xué)習(xí)率設(shè)置為0.000 1,批量大小設(shè)置為64,subdivisions設(shè)置為16,并將其迭代25 000次,隨著訓(xùn)練次數(shù)增加,損失函數(shù)值無限趨于0。最后,使用驗證集測試訓(xùn)練得到改進(jìn)YOLOV3模型。
物體的三維坐標(biāo)與圖像坐標(biāo)存在線性關(guān)系,其中世界、圖像、相機、像素坐標(biāo)系的關(guān)系[15]如圖4所示。一個現(xiàn)實世界中的物體點在世界坐標(biāo)系下的坐標(biāo)為P(X,Y,Z),經(jīng)過相機拍攝得到圖片,在圖片上的像素坐標(biāo)為m(u,v)。相機的相對位置用(XC,YC,ZC)坐標(biāo)表示,C即(Cx,Cy),圖像坐標(biāo)系的坐標(biāo)值用(x,y)來表示,像素坐標(biāo)系的坐標(biāo)值用(u,v)表示,焦距用f表示。
圖4 坐標(biāo)系的關(guān)系Fig.4 Relation of coordinate
相機坐標(biāo)系到圖像坐標(biāo)系之間的轉(zhuǎn)換實際上是將三維空間點轉(zhuǎn)化為二維平面點,如圖4所示,根據(jù)三角形法,得到目標(biāo)物體在圖像坐標(biāo)系的轉(zhuǎn)換關(guān)系為
(5)
由圖4知,圖像和像素兩坐標(biāo)系的轉(zhuǎn)換關(guān)系為
(6)
式(6)中:dx和dy分別為在x軸方向和y軸方向上的尺寸變化;(u0,v0)為在像素坐標(biāo)系下的坐標(biāo)值。式(6)齊次變換用公式表示為
(7)
由式(5)、式(7)可得相機坐標(biāo)系到像素坐標(biāo)系的轉(zhuǎn)換關(guān)系為
(8)
式(8)中:K為相機內(nèi)參;X為目標(biāo)物在相機坐標(biāo)系的坐標(biāo)。
在對Kinect V2標(biāo)定時,設(shè)世界坐標(biāo)系與{e}保持一致,即要測得的目標(biāo)在世界坐標(biāo)系下的坐標(biāo)值為Xe=(Xe,Ye,Ze),同時設(shè)相機坐標(biāo)系為{c},基坐標(biāo)系為{0},則{e}到{c}的變換關(guān)系表示為
(9)
式(9)中:R為3行3列的正交旋轉(zhuǎn)矩陣;t為平移向量。將式(9)代入式(8)可得:
(10)
(11)
由式(10)、式(11)得,像素坐標(biāo)系到{0}的轉(zhuǎn)換為
(12)
(13)
假設(shè){c}在{0}中的位姿表示為0Pc=(Pcx,Pcy,Pcz,θcx,θcy,θcz)T,可得{c}到{0}的齊次變換矩陣為
(14)
使用aubo_i5六自由度的機械臂完成抓取操作,機械臂各關(guān)節(jié)及其坐標(biāo)系展示在圖5中。機械臂共6個轉(zhuǎn)動關(guān)節(jié),其中關(guān)節(jié)1~6分別對應(yīng)坐標(biāo)系{1}~{6},通過基座與底座連接,可以通過控制1~6關(guān)節(jié)轉(zhuǎn)動,使機械臂末端工具移動到不同的位置。由于aubo_i5的結(jié)構(gòu)特點,2、3、4關(guān)節(jié)軸線符合三軸平行構(gòu)型,因此機器人擁有逆運動學(xué)封閉解。
圖5 機械臂關(guān)節(jié)及各坐標(biāo)系簡圖Fig.5 Schematic diagram of mechanical arm joints and each coordinate system
EZGripper機器人夾持器(圖6)通過連接法蘭固定在aubo_i5機械臂的末端,通過機器人操作系統(tǒng)(robot operating system,ROS)上的Python來控制夾持器的張合動作。
圖6 夾持器Fig.6 Gripper
根據(jù)aubo_i5機械臂各個關(guān)節(jié)坐標(biāo)系的位置及姿態(tài),定義機器人的初始零位位姿與圖5一致,得到機器人的參數(shù)如表1所示。表中,i表示關(guān)節(jié)的序號,ai-1表示前一個連桿長度,αi-1表示連桿i相對于連桿i-1的轉(zhuǎn)角,di表示第i個關(guān)節(jié)的偏置距離,θi表示第i個關(guān)節(jié)的轉(zhuǎn)角范圍,零位θi時的值分別為[0 -90 0 -90 0 0]。
(15)
(16)
式(6)中:Screwx(αi-1,αi-1)為繞Xi-1軸旋轉(zhuǎn)αi-1,并且再沿Xi-1軸平移了αi-1;Screwz(di,θi)為繞Z軸旋轉(zhuǎn)了θi,并且再沿Z軸平移了di。在D-H參數(shù)中,θi作為關(guān)節(jié)變量,其余值均是已知量,將D-H參數(shù)中的參數(shù)分別代入式(15)和式(16)即得到aubo_i5正向運動學(xué)解。
當(dāng)夾持器安裝在機械臂末端時,為實現(xiàn)手抓到達(dá)指定的目標(biāo)位姿,因此需要求得這一位姿所對應(yīng)的6個關(guān)節(jié)的轉(zhuǎn)角值,即逆運動學(xué)解[17-18]。由于aubo_i5機器人2~4關(guān)節(jié)軸線符合三軸平行結(jié)構(gòu),所以此機器人具有封閉解。逆解可能不存在,也可能不唯一。對6自由度的遨博機械臂,采用牛頓迭代法來求取逆解,先構(gòu)造非線性方程組,其公式如下:
F(θ)=0
(17)
F(θ)=(f1,f2,…,fn)T
(18)
θ=(θ1,θ2,…,θn)T
(19)
(20)
其展開式為
(21)
(22)
用牛頓迭代求解方程組表示為
θi+1=θi-J-1F(θi)
(23)
(24)
通過式(24)求解六自由度空間機械臂的逆運學(xué)。
采用5 m×7 m×0.03 m的標(biāo)準(zhǔn)棋盤,為保證其穩(wěn)定,將相機固定。共采集了上、下、左、右、前、后等不同方位的40張用于彩色圖像和深度圖像的校正圖像,提取其棋盤角點,根據(jù)采集后圖像的圖像坐標(biāo)與棋盤角點的世界坐標(biāo)系關(guān)系,求解Kinect V2的內(nèi)外參數(shù),最終完成相機標(biāo)定(圖7)。其彩色相機內(nèi)參(Krgb)、紅外相機內(nèi)參(Kir)矩陣為
相機外參旋轉(zhuǎn)矩陣R和平移向量t分別為
t=[-0.04709 0.00004 0.00302]
計算得到{c}到{0}的齊次變換為
圖7 點云配準(zhǔn)前后對比Fig.7 Comparison before and after point cloud registration
圖7(a)展示相機的RGB圖像和Depth圖像是沒有進(jìn)行配準(zhǔn)的圖像,可知道其點云圖在其邊緣位置存在明顯的錯位現(xiàn)象。圖7(b)展示配準(zhǔn)后相機下的點云圖像,可以看出,矯正后,其三維點云圖的邊緣輪廓完好對齊,很好地去除在模型之間的位置偏差問題,從而使得到的相機下的同一個三維物體模型具有一定的完整性和一致性。
收集3 000張包含香蕉、蘋果、杯子、書、鼠標(biāo)等圖像制作數(shù)據(jù)集MAC,訓(xùn)練并測試,隨機選取2 400張圖像作為訓(xùn)練時的數(shù)據(jù)集,剩余600張作為驗證集。采用Darknet53基礎(chǔ)網(wǎng)絡(luò)在MAC數(shù)據(jù)集上訓(xùn)練,將其迭代25 000次,經(jīng)訓(xùn)練得到的權(quán)重作為測試的權(quán)重,再利用驗證集評估模型精度。為了驗證模型權(quán)重的有效性和可靠性,圖8(a)顯示訓(xùn)練的迭代次數(shù)改進(jìn)前后的平均損失曲線,通過曲線圖可以看出,隨著訓(xùn)練次數(shù)的增多,雖然二者的平均損失值逐漸趨于平穩(wěn),最終基本保持不變,但是改進(jìn)后模型比改進(jìn)前下降快,說明在訓(xùn)練過程中模型具有很快的收斂性。圖8(b)所示為精確率召回率曲線對比,從曲線圖中看出,在保持高精度的條件下,改進(jìn)后模型的召回率可以達(dá)到90%,而當(dāng)召回率為90%時,精確率仍然能夠達(dá)到80%,改進(jìn)前召回率為90%時,其精確率已經(jīng)下降到60%,說明改進(jìn)YOLOV3模型的性能高。
圖8 平均損失曲線和P-R曲線Fig.8 Average loss curve and P-R urve
分別用YOLOV3和改進(jìn)YOLOV3對Kinect拍攝的場景物體進(jìn)行實時測試,得到物體的類別、準(zhǔn)確率及邊框位置信息。其識別結(jié)果如圖9、圖10所示,每種物體識別的正確率如表2所示。
由圖9可以看出,圖9(a)沒能識別出蘋果和鼠標(biāo),而圖9(b)將場景下的5種物體全部正確識別。所測場景中的物體具有遮擋的特點(鼠標(biāo)與香蕉特征遮擋),導(dǎo)致識別信息重疊,減少可區(qū)分性,增大了識別難度。經(jīng)實驗結(jié)果得出,改進(jìn)YOLOV3解決了由于遮擋造成的不能有效識別的問題。
圖9 遮擋環(huán)境下物體識別對比試驗Fig.9 Comparative test of object recognition under occlusion environment
圖10 改變物體位置的情況下識別對比Fig.10 Recognition and contrast under changing object position
改變物體位置的情況下,分別再用YOLOV3和改進(jìn)YOLOV3對Kinect場景下的物體進(jìn)行檢測,分別提取第57幀和163幀進(jìn)行測試,如圖10所示,可以看出,當(dāng)物體位姿發(fā)生變化時,用YOLOV3和改進(jìn)的模型測試結(jié)果差別很多,對于視頻中不同的幀,YOLOV3檢測出的物體總是在發(fā)生變化,有時能檢測出,有時則需要晃動目標(biāo)物體才能檢測到,而改進(jìn)后的YOLOV3能夠穩(wěn)定地檢測出物體,對環(huán)境變化的適應(yīng)性強。在57幀時,如圖10(a)所示,只識別出了鼠標(biāo),在163幀時,如圖10(c)所示,識別出鼠標(biāo)和蘋果;而圖10(b)、圖10(d)在57幀和163幀時,全部正確識別。從實驗結(jié)果中能夠得出,改進(jìn)的YOLOV3有效提升了物體識別的穩(wěn)定性。
表2 測試結(jié)果識別的正確率Table 2 The accuracy of test result recognition
由表2可知,改進(jìn)前識別到香蕉的正確率為78.3%,而改進(jìn)后香蕉的識別正確率達(dá)到79.6%,與模型改進(jìn)前相比提升了1.3%,改進(jìn)前識別到蘋果的正確率為54.2%,而改進(jìn)后識別其正確率達(dá)到55.4%,與改進(jìn)前相比正確率提升了1.3%,改進(jìn)前識別到杯子的正確率為65.1%,改進(jìn)后較改進(jìn)前提升了3%,對于書、鼠標(biāo),改進(jìn)前識別正確率分別為80.2%和57.6%,二者相比于改進(jìn)前分別提升了5.1%和1.2%。根據(jù)表中數(shù)據(jù)得出改進(jìn)YOLOV3模型與YOLOV3模型的平均精度相比,改進(jìn)YOLOV3模型平均精度大約提升了2.36%,其模型性能優(yōu)于改進(jìn)前。
根據(jù)理想相機成像的原理,通過坐標(biāo)系之間的變換剖析了物體三維坐標(biāo)計算的全過程,Kinect V2傳感器根據(jù)其發(fā)出紅外光線的飛行時間來計算其相應(yīng)的深度信息,計算某一點處的深度值為Z,其他參數(shù)已經(jīng)由相機標(biāo)定獲得,代入下式計算:
實驗中利用改進(jìn)YOLOV3識別到5種目標(biāo)物體,其可視化采集點如圖11所示,分別計算1~5的中心位置(圖中紅點標(biāo)記的位置),并在表3中展示得到的像素坐標(biāo)數(shù)據(jù)。通過表3可以看出,所測得的坐標(biāo)值在0.5~1.5金字塔視場,其深度誤差較小,深度誤差平均絕對值為0.010 8,精度較高。
圖11 目標(biāo)物可視化Fig.11 Target visualization
表3 圖像點的像素坐標(biāo)值和深度值Table 3 Pixel coordinate values and depth values of image points
實驗中抓取系統(tǒng)采用眼在手外模式,在光照充足的條件下進(jìn)行物體抓取實驗,一共選取了5種物體,并且其位置和姿態(tài)不同,對每種物體分別進(jìn)行抓取15次測試,總抓取75次。實驗中分別用YOLOV3和改進(jìn)YOLOV3模型對物體進(jìn)行識別,程序計算物體中心點的位置對其實施抓取,實驗抓取過程如圖12所示。
圖12 物體抓取過程Fig.12 Object grasping process
抓取實驗結(jié)果如表4所示。改進(jìn)前由于抓取過程中不能有效地識別出目標(biāo)物體,所以易造成抓取失敗的情況。其中蘋果、杯子和鼠標(biāo)3個物體的抓取成功率分別為87%、93%、80%,而應(yīng)用改進(jìn)YOLOV3能穩(wěn)定地識別到物體,抓取成功率均能達(dá)到100%。然而書的抓取成功率比較低,由于其材質(zhì)影響,造成抓取過程容易脫落,改進(jìn)前為73%,改進(jìn)后為80%,而香蕉抓取成功率改進(jìn)前為67%,改進(jìn)后成功率達(dá)到87%,其改進(jìn)后未成功抓取的原因主要是香蕉中間形狀不規(guī)則導(dǎo)致相機在對其進(jìn)行測量時得到的深度信息不準(zhǔn)確,造成定位時香蕉的位置出現(xiàn)了偏差。75次抓取實驗中,改進(jìn)前共成功抓取60次,改進(jìn)后則成功抓取70次,改進(jìn)前平均成功抓取率為80%,改進(jìn)后成功率達(dá)到93.4%。實驗結(jié)果可以看出,改進(jìn)YOLOV3應(yīng)用在物體識別中并根據(jù)坐標(biāo)系轉(zhuǎn)換實現(xiàn)抓取的方法是有效的,且抓取成功率較改進(jìn)前提升了13.4%。
表4 物體抓取實驗結(jié)果Table 4 Experimental results of object capture
基于感興趣區(qū)域的機器人抓取系統(tǒng)采用張正友標(biāo)定法完成深度傳感器的標(biāo)定,消除了模型在邊緣處存在的錯位問題,然后利用深度學(xué)習(xí)方法實現(xiàn)目標(biāo)物體的檢測,依據(jù)相機成像原理實現(xiàn)定位,最后根據(jù)坐標(biāo)系轉(zhuǎn)換及機器人逆運動學(xué)求解完成抓取任務(wù),得到以下結(jié)論。
(1)基于感興趣區(qū)域的機器人抓取系統(tǒng)將深度傳感器、深度學(xué)習(xí)方法與抓取檢測問題結(jié)合在一起,實現(xiàn)對檢測待抓取目標(biāo)物體端到端實時檢測。
(2)針對識別準(zhǔn)確率問題,對YOLOV3進(jìn)行改進(jìn),將傳統(tǒng)的交叉熵函數(shù)替換成焦點函數(shù),并通過圖像增強及圖片正負(fù)旋轉(zhuǎn)10°處理來擴充數(shù)據(jù)集。改進(jìn)后較改進(jìn)前模型的平均精度值大約提升了2.36%,在一定程度上提高了識別的準(zhǔn)確率。
(3)依據(jù)相機三維定位理論,計算三維坐標(biāo),所測得的坐標(biāo)值在0.5~1.5金字塔視場之間,且深度誤差較小,深度誤差平均絕對值為0.010 8,能很好地對改進(jìn)YOLOV3識別到的物體的中心進(jìn)行定位。
(4)結(jié)合(2)和(3)及參照機器人D-H參數(shù),通過坐標(biāo)坐標(biāo)系變化及運動學(xué)解控制機器人完成抓取,機器人抓取實驗驗證改進(jìn)后較改進(jìn)前提升了13.4%。實驗結(jié)果證明,改進(jìn)的YOLOV3能夠有效提高抓取成功率,基于感興趣區(qū)域的機器人抓取系統(tǒng)可以對多目標(biāo)實時可靠的抓取任務(wù)。