韓 冬,黃攀峰,齊志剛
(1.西北工業(yè)大學(xué)航天學(xué)院智能機(jī)器人研究中心,西安710072;2.西北工業(yè)大學(xué)航天飛行動(dòng)力學(xué)技術(shù)重點(diǎn)實(shí)驗(yàn)室,西安710072;3.山西師范大學(xué)物理與信息工程學(xué)院,臨汾041000)
隨著載人航天技術(shù)的不斷發(fā)展與太空探索的不斷深入,航天員的空間作業(yè)任務(wù)也不斷增加,如空間站的在軌維護(hù)、空間實(shí)驗(yàn)的有效開(kāi)展以及艙外設(shè)備的安裝與巡檢等。航天員完成這類(lèi)操作固然效率較高,但代價(jià)昂貴且安全性也無(wú)法有效保障,采用空間機(jī)器人代替航天員完成各種復(fù)雜任務(wù)成為各國(guó)研究的熱點(diǎn)[1-2]。目前的空間機(jī)器人尚不具備完全自主能力,通過(guò)操作者在地面進(jìn)行遙操作完成復(fù)雜作業(yè)是當(dāng)前的主要形式。時(shí)延是影響遙操作系統(tǒng)穩(wěn)定性、透明性的關(guān)鍵因素,空間機(jī)器人遙操作面臨著大時(shí)延與有限帶寬問(wèn)題[3],因此采用操作者給出操作目標(biāo),機(jī)器人在視覺(jué)引導(dǎo)下進(jìn)行局部自主遙操作成為解決該問(wèn)題的有效途徑[4]。
不同于機(jī)器人的自主操作,局部自主遙操作需要人機(jī)合作完成任務(wù),因此既需要完成目標(biāo)的檢測(cè)與標(biāo)定為人提供操作依據(jù),又要識(shí)別抓取構(gòu)型為機(jī)器人完成抓取任務(wù)提供必要條件。抓取構(gòu)型的選取可分為分析法和經(jīng)驗(yàn)法[5]。分析法包含力閉合法[6]和形閉合法[7],聚焦于如何穩(wěn)定的抓住目標(biāo),但其無(wú)法完成對(duì)目標(biāo)的標(biāo)定。自2014年后,由于人工智能的發(fā)展,經(jīng)驗(yàn)法迅速發(fā)展起來(lái),其中深度學(xué)習(xí)發(fā)展尤為迅速,深度學(xué)習(xí)方法可以學(xué)習(xí)大量抓捕經(jīng)驗(yàn),從而訓(xùn)練出來(lái)一組模型參數(shù),但由于魯棒性差且需采取離線(xiàn)訓(xùn)練的方法,因此不適合空間機(jī)器人遙操作。
針對(duì)這些問(wèn)題,國(guó)內(nèi)外學(xué)者提出通過(guò)圖像識(shí)別來(lái)實(shí)現(xiàn)目標(biāo)檢測(cè)與標(biāo)定并確定抓取構(gòu)型的方法[8]。皮思遠(yuǎn)等[9]提出了改進(jìn)的全卷積深度學(xué)習(xí)模型用于可抓取物品識(shí)別,應(yīng)用插值方式進(jìn)行反池化操作,提高了分類(lèi)結(jié)果的準(zhǔn)確率。但該方法將特征提取與分類(lèi)采用了分層方法,特征提取不全面,耗時(shí)較長(zhǎng)。Saxena等[10]采用降維處理算法,利用二維圖像數(shù)據(jù)信息學(xué)習(xí)“好的抓取點(diǎn)”與“壞的抓取點(diǎn)”,并通過(guò)實(shí)驗(yàn)驗(yàn)證該方法的有效性,但由于獲得圖像信息的非完整性,在實(shí)際場(chǎng)合應(yīng)用比較困難。Rusu等[11]采用視角區(qū)域特征直方圖法識(shí)別抓取構(gòu)型。Papazov等[12]利用RGB-D傳感器在復(fù)雜場(chǎng)景下獲得物體的三維信息,對(duì)抓取區(qū)域進(jìn)行重構(gòu)。Kumra等[13]利用深度卷積神經(jīng)網(wǎng)絡(luò)在RGB-D圖片中提取特征,并采用淺卷積神經(jīng)網(wǎng)絡(luò)對(duì)感興趣的物體進(jìn)行抓取構(gòu)型解算。以上方法由于圖像處理網(wǎng)絡(luò)與識(shí)別網(wǎng)絡(luò)信息不共享,導(dǎo)致其處理速度較慢,在大時(shí)延多任務(wù)條件下可能造成系統(tǒng)不穩(wěn)定。
針對(duì)上述方法存在的識(shí)別目標(biāo)速度慢、準(zhǔn)確性低的問(wèn)題,本文提出一種基于改進(jìn)Faster RCNN[14]的目標(biāo)檢測(cè)與抓取構(gòu)型識(shí)別方法。為滿(mǎn)足識(shí)別要求,對(duì)抓取構(gòu)型進(jìn)行參數(shù)化處理,提出最優(yōu)的五維參數(shù)描述。在深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)目標(biāo)區(qū)域進(jìn)行特征提取的基礎(chǔ)上,通過(guò)區(qū)域生成網(wǎng)絡(luò)(Regional Proposal Network,RPN)進(jìn)行目標(biāo)檢測(cè),利用Anchor法完成抓取構(gòu)型參數(shù)提取,最后通過(guò)線(xiàn)性回歸與分類(lèi)網(wǎng)絡(luò)實(shí)現(xiàn)修正,進(jìn)一步提高目標(biāo)檢測(cè)與構(gòu)型識(shí)別的準(zhǔn)確性。
為實(shí)現(xiàn)目標(biāo)的成功抓取,需要估計(jì)出目標(biāo)位姿并轉(zhuǎn)換為機(jī)械臂末端的抓取構(gòu)型。不失一般性,設(shè)計(jì)抓取位置為物體頂部,因此可以簡(jiǎn)化Jiang等[15]的七維參數(shù)抓取構(gòu)型方法,采用五維參數(shù)描述,具體如圖1所示。該圖可以表示抓取構(gòu)型在圖像中的位置和機(jī)械臂末端夾持器的狀態(tài),綠色邊框代表夾持器二指的位置,并且二指與綠邊平行,藍(lán)色邊長(zhǎng)度代表夾持器張開(kāi)的長(zhǎng)度,藍(lán)邊與水平方向的夾角代表夾持器旋轉(zhuǎn)的角度,矩形框的中心為夾持器抓取的位置,本文用g表示機(jī)器人成功抓取物體的抓取構(gòu)型參數(shù),表達(dá)式見(jiàn)式(1)。
式中(x,y)代表抓取構(gòu)型的中心位置,(w,h)分別代表抓取構(gòu)型的寬和高,θ代表矩形框相對(duì)于水平方向旋轉(zhuǎn)的角度,設(shè)定順時(shí)針旋轉(zhuǎn)為負(fù),逆時(shí)針旋轉(zhuǎn)為正,由于方向的對(duì)稱(chēng)性,抓取角度區(qū)間取 [-90°,90°]。
為了使目標(biāo)抓取具備更強(qiáng)的魯棒性,將抓取角度參數(shù)θ的取值分為20種,因夾持器為二指構(gòu)型,因此其旋轉(zhuǎn)正負(fù)90°后構(gòu)型相同,每個(gè)抓取角對(duì)應(yīng)的區(qū)間如表1所示。
圖1 抓取構(gòu)型示意圖Fig.1 Schematic diagram of grasp configuration
表1 抓取角度對(duì)應(yīng)區(qū)間Table 1 Corresponding regions of grasp angle
目標(biāo)檢測(cè)是在圖像中檢測(cè)并識(shí)別目標(biāo),從而為操作者提供指示并確定機(jī)械臂末端抓取構(gòu)型。本文在Faster R-CNN的基礎(chǔ)上,利用RPN對(duì)目標(biāo)進(jìn)行識(shí)別,通過(guò)滑動(dòng)窗口和Anchor機(jī)制先確定抓取構(gòu)型的(x,y,w,h)參數(shù),然后將對(duì)應(yīng)的區(qū)域特征輸入到全連接層,得到的目標(biāo)識(shí)別結(jié)果輸出到線(xiàn)性回歸網(wǎng)絡(luò)和分類(lèi)網(wǎng)絡(luò),線(xiàn)性回歸網(wǎng)絡(luò)進(jìn)一步對(duì)抓取構(gòu)型進(jìn)行修正,提高抓取構(gòu)型的精度。分類(lèi)網(wǎng)絡(luò)根據(jù)抓取區(qū)域特征確定抓取構(gòu)型參數(shù)θ的大小,確定抓取角度。
本算法的神經(jīng)網(wǎng)絡(luò)框架如圖2所示,該框架是由3部分組成:第1部分完成圖像特征提取,第2部分實(shí)現(xiàn)抓取構(gòu)型中與目標(biāo)位姿相關(guān)參數(shù)的識(shí)別,第3部分對(duì)參數(shù)進(jìn)行修正并確定抓取角度。
圖2 抓取構(gòu)型識(shí)別算法流程圖Fig.2 Flow chart of recognition algorithm for grasp configuration
第1部分是由特征提取網(wǎng)絡(luò)構(gòu)成,采用經(jīng)典的VGG16網(wǎng)絡(luò)[16],該網(wǎng)絡(luò)是 Image Net ILSVRC 2014競(jìng)賽模型,其網(wǎng)絡(luò)層比常用網(wǎng)絡(luò)結(jié)構(gòu)擴(kuò)展了2倍,對(duì)特征提取更加豐富,為后期的目標(biāo)檢測(cè)和抓取構(gòu)型估計(jì)提供輸入。該部分與Faster R-CNN算法所采用的特征提取網(wǎng)絡(luò)一致,首先輸入高為H、寬為W像素的圖像,然后采用VGG16神經(jīng)網(wǎng)絡(luò)架構(gòu)進(jìn)行特征提取,得到的特征圖像高寬分別為H/16、W/16。 在卷積層,采用卷積核為3×3,步長(zhǎng)為1,填充(Padding)參數(shù)為補(bǔ)零(SAME)的卷積方式,輸出特征圖。
第2部分是由RPN網(wǎng)絡(luò)組成,該部分采用上一部分輸出的特征圖,通過(guò)Anchor方法檢測(cè)到目標(biāo),識(shí)別目標(biāo)位姿,并用修正邊界框標(biāo)識(shí),網(wǎng)絡(luò)輸出修正邊界框與抓取概率。
第3部分完成抓取構(gòu)型識(shí)別,通過(guò)將修正邊界框的特征值輸入到全連接層,然后分別輸出抓取構(gòu)型對(duì)應(yīng)20種角度的抓取概率。
2.2.1 生成修正邊界框
1)特征提取。通過(guò)512通道,3×3卷積核將特征提取后得到的特征圖像進(jìn)行卷積,輸出為(512,H/16,W/16)大小的特征圖像,再通過(guò) 2 個(gè)并行的1×1卷積核進(jìn)行卷積,通道數(shù)分別為18和36。輸出特征圖像保持高、寬不變。
2)參考邊界框提取。以特征圖像的每個(gè)像素為中心,按不同尺度和長(zhǎng)寬比產(chǎn)生矩形框,由于夾持器張開(kāi)角度限制,尺度選取應(yīng)適當(dāng)。為滿(mǎn)足識(shí)別出不同尺度不同形狀的目標(biāo),選取尺度為[2,4,8],長(zhǎng)寬比采用[1 ∶2,1 ∶1,2 ∶1]的 3 種比率,共9個(gè)區(qū)域。由于尺度選取對(duì)應(yīng)的是特征圖像,實(shí)際操作中需把參考邊界框映射到原始圖像,考慮到基礎(chǔ)尺度為16,因此映射到原始圖像后,每個(gè)參考邊界框的尺度為[322,642,1282],每個(gè)尺度對(duì)應(yīng)的長(zhǎng)寬比率如圖3所示。
圖3 特征圖與參考邊界框Fig.3 Feature maps and bounding boxes with reference
為了解決參考邊界框重疊問(wèn)題,采用了非極大值抑制(Non-maximum suppression)方法,通過(guò)利用不同的尺寸和比例將產(chǎn)生的所有參考候選框與已標(biāo)定的真實(shí)抓取構(gòu)型進(jìn)行比較,把與標(biāo)定抓取構(gòu)型的交并比(Io U)大于設(shè)定閾值的邊界框定義為參考邊界框,交并比的計(jì)算方法見(jiàn)式(2)。
式中,A∩G代表真實(shí)抓取構(gòu)型與預(yù)測(cè)抓取構(gòu)型面積的交集,A∪G代表真實(shí)抓取構(gòu)型與預(yù)測(cè)抓取構(gòu)型面積的并集,如圖4所示。
3)RPN網(wǎng)絡(luò)回歸。由卷積核(36,1,1)卷積得到(36,H/16,W/16)預(yù)測(cè)偏移值,其中每一個(gè)位置對(duì)應(yīng)36通道,每4個(gè)通道的數(shù)值對(duì)應(yīng)每個(gè)參考邊界框的中心位置(x,y)和高寬(H,W)的偏移值,由于每個(gè)位置對(duì)應(yīng)9個(gè)參考邊界框,因此每個(gè)位置有36通道,分別對(duì)應(yīng)9個(gè)參考邊界框的偏移值,然后通過(guò)Reshape函數(shù)將預(yù)測(cè)偏移值轉(zhuǎn)換成為(9×H/16×W/16,4)結(jié)構(gòu)的邊界框偏移值。
圖4 交并比示意圖Fig.4 Schematic diagram of Io U
4)修正邊界框生成。將生成為(9×H/16×W/16,4)的邊界框偏移值與參考邊界框相加,即可得到修正邊界框??紤]到抓取構(gòu)型與目標(biāo)姿態(tài)有關(guān),為了使修正邊界框滿(mǎn)足抓取要求,采用2次線(xiàn)性回歸方法, A=(Ax,Ay,Aw,Ah) 代表 Anchor的中心位置與長(zhǎng)寬參數(shù), G=(Gx,Gy,Gw,Gh) 代表目標(biāo)在圖像中的真實(shí)區(qū)域, G′=(G′x,G′y,G′w,G′h)代表經(jīng)過(guò)線(xiàn)性回歸所得到的區(qū)域,可得G′≈G。根據(jù)泰勒展開(kāi)定理,當(dāng)Anchor區(qū)域與目標(biāo)真實(shí)區(qū)域相距較近時(shí),兩者的關(guān)系可近似表示為線(xiàn)性關(guān)系,該線(xiàn)性關(guān)系可表示為式(3):
式中,φ(A)為特征向量,w為待學(xué)習(xí)的權(quán)重參數(shù), d(A)= [dx(A),dy(A),dw(A),dh(A)]為線(xiàn)性關(guān)系表達(dá)式,具體表示為式(4):
為了使回歸后的區(qū)域值與真實(shí)區(qū)域值偏差最小,設(shè)計(jì)修正網(wǎng)絡(luò)損失函數(shù)為式(5):
式中, t= [tx,ty,tw,th], 各分量表示為式(6):
修正邊界框到抓取構(gòu)型的回歸過(guò)程如圖5所示。其中紅色為修正邊界框,藍(lán)色為對(duì)修正邊界框線(xiàn)性回歸后的結(jié)果,在對(duì)其進(jìn)行角度修正后,可獲得目標(biāo)的抓取構(gòu)型。
圖5 修正邊界框線(xiàn)性回歸過(guò)程Fig.5 Linear regression of bounding boxes with revise
5)修正邊界框篩選。舍去超出圖像的修正邊界框和長(zhǎng)寬比太小的修正邊界框;根據(jù)每個(gè)修正邊界框的抓取分?jǐn)?shù),選取前6000個(gè)高分?jǐn)?shù)修正邊界框;利用非最大值抑制(Non-Maximum Suppression)方法,從6000個(gè)修正邊界框中選出300個(gè)修正邊界框。
2.2.2 生成邊界框抓取概率
1)將RPN網(wǎng)絡(luò)生成的特征圖通過(guò)二分類(lèi)網(wǎng)絡(luò)由卷積核(18,1,1)卷積得到(18, H/16,W/16)結(jié)構(gòu)的特征圖,由于每一個(gè)位置對(duì)應(yīng)9個(gè)候選邊界框,因此其通過(guò)卷積得到的18通道分別對(duì)應(yīng)每個(gè)候選邊界框的可抓取分?jǐn)?shù)和不可抓取分?jǐn)?shù)。
2)將得到每個(gè)區(qū)域的得分通過(guò)非線(xiàn)性映射函數(shù)Softmax映射到[0,1]區(qū)間,得到每個(gè)候選邊界框可抓取概率和不可抓取概率,然后得到每個(gè)修正邊界框的抓取概率。
2.2.3 生成抓取構(gòu)型參數(shù)
將2.2.1節(jié)步驟5中篩選出來(lái)的300個(gè)修正邊界框進(jìn)行區(qū)域池化(RoI Pooling)處理,生成固定大小為(7,7,512)的特征值,輸入到全連接層,預(yù)測(cè)出每個(gè)修正邊界框?qū)?yīng)每個(gè)抓取角度的概率,同時(shí)對(duì)位置和大小進(jìn)一步進(jìn)行修正,最后得到抓取構(gòu)型參數(shù)。
2.2.4 設(shè)計(jì)損失函數(shù)
考慮到抓取任務(wù)的需求,按照多任務(wù)要求設(shè)計(jì)最小化損失函數(shù),如式(7)所示。
式中,g代表參考抓取構(gòu)型的可抓取分?jǐn)?shù),a代表旋轉(zhuǎn)角度類(lèi)別,t代表參考抓取構(gòu)型線(xiàn)性回歸參數(shù),當(dāng)修正邊界框與標(biāo)定的真實(shí)抓取構(gòu)型交并比超過(guò)設(shè)定閾值時(shí),值取1,否則值取0,為預(yù)測(cè)抓取構(gòu)型參數(shù)A與真實(shí)抓取構(gòu)型參數(shù)G的差值,λ1、λ2為平衡參數(shù),Lgrp,Lang采用Softmax損失函數(shù),Lreg采用L1損失函數(shù)。采用L1損失函數(shù),可以有效的使訓(xùn)練模型收斂,提高訓(xùn)練效率[17]。
神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練采用了隨機(jī)梯度下降法,在損失函數(shù)收斂后,完成神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練。
在訓(xùn)練模型過(guò)程中,訓(xùn)練數(shù)據(jù)的準(zhǔn)備、超參數(shù)的選取對(duì)訓(xùn)練的模型至關(guān)重要,其對(duì)訓(xùn)練模型的精度和魯棒性起決定性作用。
首先讀取Cornell Grasp Detection數(shù)據(jù)集的pcdxxxxcpos.txt文件,根據(jù)每4行數(shù)據(jù),計(jì)算標(biāo)注的抓取構(gòu)型參數(shù),利用前2行位置坐標(biāo)計(jì)算抓取構(gòu)型參數(shù)(h,θ),其中h為兩點(diǎn)之間的距離,θ為兩點(diǎn)直線(xiàn)與水平線(xiàn)之間的夾角,利用表1找到對(duì)應(yīng)區(qū)間的代表角度,并將標(biāo)注抓取構(gòu)型標(biāo)記為對(duì)應(yīng)類(lèi)型θ,最后根據(jù)位置坐標(biāo)計(jì)算出抓取構(gòu)型的中心位置(x,y)。 為提供較多的特征數(shù)據(jù)和訓(xùn)練數(shù)據(jù)的魯棒性,把覆蓋標(biāo)注的抓取構(gòu)型最小區(qū)域設(shè)置為前景,稱(chēng)其為“抓取構(gòu)型前景”,前景區(qū)域如圖6所示,其中實(shí)線(xiàn)矩形代表抓取物體,虛線(xiàn)矩形代表標(biāo)注抓取構(gòu)型,點(diǎn)畫(huà)線(xiàn)矩形代表“抓取構(gòu)型前景”。采用標(biāo)注抓取構(gòu)型參數(shù)與預(yù)測(cè)候選框的參數(shù)差值進(jìn)行線(xiàn)性回歸,將與前景區(qū)域交并比大于0.7的預(yù)測(cè)候選框設(shè)置為正樣本,小于0.3的預(yù)測(cè)候選框設(shè)置為負(fù)樣本,其他情況的舍去,不參與模型訓(xùn)練。通過(guò)篩選,每張圖片中的正負(fù)樣本總共個(gè)數(shù)為256個(gè)。
將原始圖像根據(jù)縮放比例k進(jìn)行放大,其中k值計(jì)算方法見(jiàn)式(8),將圖像去中心化,即每個(gè)像素3通道值減去[102,115,122],得到去中心化的圖像數(shù)據(jù)作為訓(xùn)練樣本,為提高訓(xùn)練出來(lái)模型的魯棒性,通過(guò)水平翻轉(zhuǎn)的方法將訓(xùn)練數(shù)據(jù)量擴(kuò)展到1倍。
圖6 前景區(qū)域示意圖Fig.6 Schematic diagram of foreground region
在訓(xùn)練模型時(shí),采用整體訓(xùn)練的方法,同時(shí)利用ImageNet訓(xùn)練好的參數(shù)進(jìn)行初始化網(wǎng)絡(luò)參數(shù)。Epochs參數(shù)為1000,學(xué)習(xí)率為 0.001,Weight Decay參數(shù)設(shè)置為0.0001,Minibatch參數(shù)選擇為1,即每一張圖片作為一個(gè)Batch進(jìn)行訓(xùn)練;在將RoI區(qū)域向全連接層輸入特征時(shí),采用的固定尺寸為(7,7),并在訓(xùn)練時(shí),全連接層失活率(Dropout)采用0.5。
經(jīng)過(guò) Fine-Tuning訓(xùn)練后,通過(guò) Tensorboard得到的損失函數(shù)收斂過(guò)程如圖7所示,從結(jié)果可知,損失函數(shù)收斂。
圖7 損失函數(shù)收斂過(guò)程Fig.7 Convergence process of loss function
將訓(xùn)練得到模型用于測(cè)試,測(cè)試時(shí)每張圖片得到300個(gè)抓取構(gòu)型,每個(gè)構(gòu)型對(duì)應(yīng)20種類(lèi)別得分,即20種角度得分,每種類(lèi)別對(duì)應(yīng)4個(gè)抓取構(gòu)型修正參數(shù)[tx,ty,tw,th]。 把每個(gè)構(gòu)型最高分對(duì)應(yīng)的類(lèi)別作為構(gòu)型抓取角度,通過(guò)采用非極大值抑制方法得到若干個(gè)抓取構(gòu)型,經(jīng)過(guò)排序后,把最高得分的構(gòu)型視為抓取構(gòu)型。若檢測(cè)得抓取構(gòu)型與標(biāo)注的抓取構(gòu)型交并比大于設(shè)定閾值,則視為抓取構(gòu)型檢測(cè)成功。
對(duì)多目標(biāo)抓取構(gòu)型檢測(cè)結(jié)果如圖 8所示。每個(gè)目標(biāo)標(biāo)識(shí)前3個(gè)概率最大的抓取構(gòu)型,其中綠色邊框?yàn)閵A持器的兩指所在位置,紅色邊框長(zhǎng)度為夾持器張開(kāi)寬度,紅色邊框與水平線(xiàn)的夾角為抓取構(gòu)型相對(duì)于水平面旋轉(zhuǎn)角度,每個(gè)抓取構(gòu)型標(biāo)有序號(hào),序號(hào)越小代表預(yù)測(cè)的抓取構(gòu)型概率越高,即抓取物體成功率越高。
圖8 多目標(biāo)抓取構(gòu)型檢測(cè)結(jié)果示意圖Fig.8 Grasp configuration detection of multiple objects
利用Cornell Grasp Detection測(cè)試數(shù)據(jù)對(duì)訓(xùn)練得到的模型進(jìn)行測(cè)試,測(cè)試集共有圖片1034張,統(tǒng)一像素為640×480,訓(xùn)練文件為9個(gè),測(cè)試文件為1個(gè),神經(jīng)網(wǎng)絡(luò)訓(xùn)練框架為tensorflow,GPU為GTX2080Ti。相同測(cè)試條件下,與4種已有識(shí)別方法準(zhǔn)確率比較如表2所示。Jiang等[15]改進(jìn)抓取點(diǎn)檢測(cè)為抓取矩形區(qū)域檢測(cè)并提出搜索空間分割算法,提高了檢測(cè)速度,但由于空間的分割使得特征提取不完整,因此降低了檢測(cè)準(zhǔn)確率。Lenz等[18]為解決多目標(biāo)檢測(cè)問(wèn)題,提出了二階級(jí)聯(lián)網(wǎng)絡(luò)方法,特征提取通過(guò)多級(jí)網(wǎng)絡(luò)完成,提高了檢測(cè)速度,但初級(jí)特征提取選擇了淺層網(wǎng)絡(luò),導(dǎo)致準(zhǔn)確率較低。針對(duì)單個(gè)目標(biāo)的多邊界框選取問(wèn)題,Redmon等[19]提出了局部預(yù)測(cè)方法,對(duì)多邊界框給出了抓捕成功率的預(yù)測(cè)值,提高了抓捕成功率,但其采用了單次回歸方法,導(dǎo)致邊界框的修正不夠精確。Guo等[20]采用了深度卷積網(wǎng)絡(luò)對(duì)抓捕構(gòu)型進(jìn)行識(shí)別,并建立了具有觸覺(jué)傳感器的機(jī)器人實(shí)驗(yàn)平臺(tái),證實(shí)了抓捕構(gòu)型識(shí)別的準(zhǔn)確性。
表2 識(shí)別準(zhǔn)確率比較Table 2 Comparison of recognition accuracy
改進(jìn)區(qū)域卷積網(wǎng)絡(luò)算法采用級(jí)聯(lián)深度卷積網(wǎng)絡(luò),由表2可知,本文提出的算法識(shí)別準(zhǔn)確率高于其他方法,識(shí)別準(zhǔn)確率為96.4%,這源于算法在以下3方面的改進(jìn):
1)采用VGG16深層網(wǎng)絡(luò)進(jìn)行特征提取,比常用的網(wǎng)絡(luò)結(jié)構(gòu)擴(kuò)展了2倍,其他幾種算法采用6層淺層網(wǎng)絡(luò)進(jìn)行特征提取,本文算法提取特征信息更加豐富,與其他算法相比具有一定的優(yōu)越性;
2)采用2次線(xiàn)性回歸的方法對(duì)抓取構(gòu)型進(jìn)行修正,在有限時(shí)間增加的條件下,顯著提高了識(shí)別準(zhǔn)確率;
3)優(yōu)化了特征區(qū)域選取方法,將覆蓋抓取構(gòu)型的最小矩形區(qū)域設(shè)為前景進(jìn)行學(xué)習(xí),這樣可以更加充分的學(xué)習(xí)抓取構(gòu)型區(qū)域特征,提高識(shí)別準(zhǔn)確率。
在抓取構(gòu)型識(shí)別的同時(shí),為給操作者提供必要的指示信息,算法會(huì)將抓取構(gòu)型進(jìn)行編號(hào),并提供不同構(gòu)型抓取成功概率,操作者可以根據(jù)信息輔助操作與決策。標(biāo)記結(jié)果如圖9所示,其中圖片上方標(biāo)注16組數(shù)據(jù),每組數(shù)據(jù)對(duì)應(yīng)圖片中每個(gè)抓取構(gòu)型參數(shù),由豎線(xiàn)分隔。第1列代表抓取構(gòu)型標(biāo)號(hào),其與檢測(cè)候選框標(biāo)號(hào)一一對(duì)應(yīng);第2列代表抓取構(gòu)型相對(duì)于水平面旋轉(zhuǎn)角度;第3列代表對(duì)應(yīng)抓取構(gòu)型的抓取成功概率,根據(jù)抓取成功概率的不同,選擇適當(dāng)?shù)淖ト?gòu)型以及抓取位置。
為驗(yàn)證算法的有效性與準(zhǔn)確性,設(shè)計(jì)了機(jī)器人試驗(yàn)平臺(tái),該平臺(tái)由包含二指結(jié)構(gòu)夾持器的ABB14000機(jī)器人以及圖像獲取設(shè)備Kinect構(gòu)成,Kinect可以準(zhǔn)確檢測(cè)目標(biāo)的深度信息,如圖10所示。圖像信息由的Kinect傳感器采集,通過(guò)網(wǎng)絡(luò)傳輸?shù)綑C(jī)器人中控計(jì)算機(jī)進(jìn)行處理,在識(shí)別出抓捕構(gòu)型后,機(jī)械臂按參數(shù)(x,y)運(yùn)動(dòng)到目標(biāo)上方,通過(guò)機(jī)器人末端關(guān)節(jié)旋轉(zhuǎn)來(lái)調(diào)整夾持角度θ,夾持器張開(kāi)長(zhǎng)度由參數(shù)w給出,機(jī)械臂根據(jù)深度信息向下運(yùn)動(dòng)h距離。
圖9 復(fù)雜幾何體抓取構(gòu)型檢測(cè)結(jié)果示意圖Fig.9 Grasp configuration detection of complicated geometrical bodies
圖10 算法驗(yàn)證試驗(yàn)平臺(tái)Fig.10 Fabricated setup for verification experiments
圖11 展示了試驗(yàn)過(guò)程的4個(gè)階段,分別為機(jī)械臂水平運(yùn)動(dòng)到抓取位置上方,旋轉(zhuǎn)機(jī)械臂末端關(guān)節(jié)角并張開(kāi)夾持器,垂直運(yùn)動(dòng)到目標(biāo)物體上方并完成夾持,轉(zhuǎn)移物體到放置盒內(nèi)。通過(guò)機(jī)械臂夾持物體試驗(yàn)驗(yàn)證了本文算法對(duì)抓取構(gòu)型識(shí)別的準(zhǔn)確性。
圖11 驗(yàn)證試驗(yàn)4個(gè)階段Fig.11 Four snapshots of the verification experiment
本文針對(duì)局部自主遙操作過(guò)程中識(shí)別目標(biāo)速度慢、準(zhǔn)確率低的問(wèn)題,提出了一種基于改進(jìn)快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(faster R-CNN)的抓取構(gòu)型識(shí)別方法。該算法采用VGG16深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行特征提取,2次線(xiàn)性回歸的方法進(jìn)行修正,并改進(jìn)了前景特征區(qū)域的選取,使抓取構(gòu)型更加精確,進(jìn)一步提高識(shí)別的準(zhǔn)確率??紤]到末端夾持器的特點(diǎn),提出了復(fù)合損失函數(shù),提高了訓(xùn)練效率。通過(guò)Cornell Grasp Detection測(cè)試數(shù)據(jù)對(duì)訓(xùn)練得到的模型進(jìn)行測(cè)試,算法識(shí)別準(zhǔn)確率測(cè)試結(jié)果為96.4%,性能優(yōu)于同類(lèi)相關(guān)算法。機(jī)器人試驗(yàn)平臺(tái)測(cè)試結(jié)果表明,在簡(jiǎn)單場(chǎng)景下,通過(guò)該方法可以完成機(jī)器人對(duì)目標(biāo)的抓取任務(wù)。