国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度強化學習的混雜場景目標物體推抓協(xié)同策略

2025-02-12 00:00:00胡楷雄宋遠航周勇李衛(wèi)東
中國機械工程 2025年1期
關(guān)鍵詞:深度強化學習

摘要:為提高機器人在混雜場景中抓取被遮擋目標物體的成功率和效率,提出一種基于深度強化學習的“推動”和“抓取”協(xié)同推抓策略。該策略利用兩個深度Q網(wǎng)絡,以RGB-D圖像為輸入來確定推動或抓取動作,并通過推動改變物體排列以優(yōu)化抓取條件。該網(wǎng)絡使用“抓-推-抓”三階段模型訓練方法顯著提高了抓取能力?;趫D像形態(tài)處理的方法識別并過濾低質(zhì)量抓取動作,從而提高成功率和效率。實驗結(jié)果表明,該方法有效提高了目標物體的抓取成功率和效率。

關(guān)鍵詞:機器人抓?。换祀s場景;深度強化學習;多動作協(xié)同

中圖分類號:TG54;TP242.2

DOI:10.3969/j.issn.1004-132X.2025.01.014

開放科學(資源服務)標識碼(OSID):

A Cooperative Strategy for Pushing and Grasping Target Object in Cluttered

Scenes Based on Deep Reinforcement Learning

HU Kaixiong1"SONG Yuanhang1"ZHOU Yong1*"LI Weidong2

1.School of Transportation and Logistics Engineering,Wuhan University of Technology,

Wuhan,430063

2.School of Mechanical Engineering,Shanghai University of Technology,Shanghai,200093

Abstract: To improve the success rate and efficiency of robotic grasping for occluded target objects in cluttered scenes, a collaborative push-grasp strategy was proposed based on deep reinforcement learning. The strategy employed 2 deep Q networks and used RGB-D images as inputs to determine push or grasp actions, which optimized object arrangement for better grasping conditions. A “grab-push-grab” three-stage training method was introduced in the model to enhance grasping capabilities significantly. An image morphology-based assessment method effectively identified and filtered low-quality grasp actions to increase successful rates and efficiency. Experimental results confirm that this method significantly enhances the successful rate and efficiency of grasping target objects.

Key words: robot grasping; cluttered scene; deep reinforcement learning; multi-action collaboration

0"引言

機器人抓取物體的靈活性和熟練度是實現(xiàn)復雜操作任務的關(guān)鍵[1]。通常的抓取方法可分為基于分析的方法和數(shù)據(jù)驅(qū)動的方法[2-3]?;诜治龅姆椒ㄍㄟ^對目標物體形狀的精確解析來規(guī)劃合理的抓取姿態(tài)。這種方法需要已知物體的3D模型,且在尋找穩(wěn)定的力閉合點時,往往依賴手工設計的特征,這限制了其應用[4-6]。相比之下,數(shù)據(jù)驅(qū)動的方法允許機器人利用學習到的場景圖像和深度信息執(zhí)行抓取動作,無需明確的對象知識?;谏疃葟娀瘜W習的抓取策略能通過自我監(jiān)督構(gòu)建訓練數(shù)據(jù),具有更高的靈活性,因此在抓取領(lǐng)域得到廣泛應用[7-11]。

在混雜抓取場景中,物體可能相互堆疊或緊密排列,這增加了抓取操作的復雜性。在這種情況下,基于深度強化學習的抓取方法面臨的如下兩個核心問題成為機器人技術(shù)在復雜工業(yè)場景中應用的主要障礙:

1)抓取成功率不高。僅依賴單一抓取動作往往難以有效抓取物體[12]。為解決這一問題,一些研究引入改變物體排列的操作,如推動或吸取物體。ZENG等[13]提出了一種深度Q學習框架,通過學習推抓策略,實現(xiàn)推動與抓取動作的協(xié)調(diào)。DENG等[14]設計的復合機械手先通過吸盤從雜亂環(huán)境中吸起物體,再用夾爪抓住物體。TANG等[15]通過自我監(jiān)督訓練使機器人學習平面推動與六自由度抓取策略。上述研究擴展了抓取動作空間,并使機器人能處理各種雜亂物體場景,但主要面向所有物體的抓取,無法針對特定對象,且多動作協(xié)調(diào)機制存在不足,抓取時機選擇不夠精準。

2)混雜場景中的動作效率低下。動作效率主要體現(xiàn)在成功抓取指定物體所需的動作次數(shù),如YANG等[16]將抓取被遮擋目標物體的問題分為兩個子任務,并結(jié)合貝葉斯策略和相關(guān)領(lǐng)域知識,利用二元分類神經(jīng)網(wǎng)絡輸出抓取或推動動作的方法整體傾向于輸出抓取動作,導致抓取動作過多。XU等[17]在面向目標的抓取任務中,采用全卷積神經(jīng)網(wǎng)絡(fully convolutional networks, FCN)計算各像素的Q值,并通過判斷最大Q值是否達到閾值來決定動作類型。這種方法受Q值不準確的影響,容易導致抓取失敗,增加動作次數(shù)。

上述兩個問題影響了機器人在混雜場景中高效抓取目標物體的能力,亟需進一步的研究與改進。為解決混雜工作場景中目標物體的抓取問題,本文提出一種基于深度強化學習的“推動”和“抓取”協(xié)同推抓策略。將深度相機獲取的RGB-D圖像作為輸入,輸出相應的推動或抓取動作。提出一種“抓-推-抓”三階段訓練方法,使網(wǎng)絡逐漸學習到混雜場景有效抓取的策略,從而提高抓取能力?;趫D像形態(tài)處理的方法可有效識別和過濾質(zhì)量較差的抓取動作,提高成功率與動作效率。相較于其他方法,本文考慮了Q值在評估抓取動作優(yōu)劣時的局限性,不再單純依賴Q值確定動作類型,而是綜合考慮抓取位置選擇、物體干擾等多個狀態(tài)信息來優(yōu)化動作協(xié)同策略。

1"算法原理

1.1"策略整體架構(gòu)

將面向目標的推送抓取問題建模為一個馬爾可夫決策過程(MDP)。MDP的狀態(tài)空間為s,動作空間為a,獎勵為r。圖1所示為協(xié)同策略整體架構(gòu)。

工作場景中,通過固定在斜上方的一個相機捕捉RGB-D圖像,然后利用原始的RGB-D圖像構(gòu)建正交投影來表示時刻t的狀態(tài)st。動作空間定義為元組a=(ψ,xt,yt,zt,θt),其中,ψ∈{grasp, push}表示機器人的抓取動作(grasp)和推動動作(push);(xt,yt,zt) 為夾持器的空間坐標;θt為夾持器繞Z軸旋轉(zhuǎn)的角度。夾持器每次旋轉(zhuǎn)的角度相同,均為22.5°。動作定義中,“推動”動作包括兩個要素即起始位置和推動方向,而推動的長度是固定的?!白ト 眲幼靼▋蓚€要素即抓手平行爪的中間位置和方向,而夾爪張開的寬度是固定的。模型采用2個相同的神經(jīng)網(wǎng)絡架構(gòu)分支來預測“推動”動作和“抓取”動作。將獲得的彩色高度圖和深度圖分別旋轉(zhuǎn)16個角度(每個角度為22.5°)后,輸入2個全卷積網(wǎng)絡。這2個全卷積網(wǎng)絡的輸出是與原始輸入圖像具有相同尺寸和分辨率的Q值密集像素映射,每個圖像像素的Q值表示在對應3D位置執(zhí)行動作的預期回報。隨后,通過顏色識別獲取目標物體的掩碼。將該掩碼與抓取網(wǎng)絡和推送網(wǎng)絡輸出得到的32個Q值像素圖進行Hadamard乘積處理,以篩選出有效的Q值。掩碼與抓取網(wǎng)絡相乘可得目標掩碼(大小可根據(jù)需要靈活設計),掩碼與推動網(wǎng)絡相乘可得目標擴張掩碼。上述兩個操作有助于過濾掉非目標物體,消除不相關(guān)的像素Q值,規(guī)劃機器人不同動作的執(zhí)行范圍。

系統(tǒng)由推送網(wǎng)絡和抓取網(wǎng)絡構(gòu)成,輸出包括推送動作和抓取動作。給定狀態(tài)st時,機器人決定選擇動作類型,以及在哪個位置和方向執(zhí)行動作是至關(guān)重要的。本文從圖像形態(tài)處理的角度入手,構(gòu)建包含評估判斷方法的協(xié)調(diào)決策框架,輸出執(zhí)行動作。協(xié)調(diào)決策at的數(shù)學公式為

at=push""Qgmaxlt;β

graspQgmax≥β且評估條件滿足(1)

其中,β為設定的閾值。目標物體最大抓取Q值Qgmaxlt;β說明抓取動作質(zhì)量不佳,此時抓取目標物體成功的概率較低,因此,協(xié)調(diào)策略直接選擇推送動作。目標物體Qgmax≥β表示目標物體有較大的概率抓取成功,但目標物體Qgmax的預測并不完全準確,需要對抓取動作進行評估判斷,評估判斷方法見1.3節(jié)。如果評估條件滿足,則在目標物體處于最大Q值Qgmax時執(zhí)行抓取動作,否則執(zhí)行推送動作,以篩除質(zhì)量較差的抓取動作。

1.2"“抓-推-抓”三階段模型訓練

模型的訓練有3個階段:①抓取網(wǎng)絡的初步訓練,以訓練基本的抓取能力;②推動網(wǎng)絡的訓練,以擴展操作策略;③抓取網(wǎng)絡的進階訓練。上述三個階段的訓練使模型從簡單樣本逐步深入到復雜樣本。

1)抓取網(wǎng)絡的初步訓練。此階段是在稀疏場景下初步訓練抓取網(wǎng)絡,抓取目標物體相對容易。模型學習處理簡單情境中的抓取任務,建立基本的抓取能力。在這個階段只放置5個對象來隨機生成稀疏場景,機器人只執(zhí)行抓取動作,每次抓取對應一個回合。系統(tǒng)將目標物體掩碼中Q值最大的像素點作為抓取位置。定義抓取獎勵函數(shù)為

Rg1=0""抓取失敗1抓取成功(2)

2)推送網(wǎng)絡訓練。抓取網(wǎng)絡的參數(shù)在此階段不變,以使模型專注于學習推送動作。這個階段的目標是提高機器人在場景中調(diào)整和移動物體的能力。系統(tǒng)推送目標物體擴張掩碼中Q值最大的像素點位置。推送動作提高了抓取網(wǎng)絡預測的Q值,將會獲得獎勵。定義推送獎勵函數(shù)為

Rp=0.5""ΔQggt;0.1和ΔRbgt;0.01

0其他(3)

式中:ΔQg為推送動作前后的目標物體最大抓取Q值之差;ΔRb為推送動作前后的目標物體周圍空間被占用率的差值。

目標物體周圍空間的被占用率通過以下方法獲得:首先構(gòu)建目標物體掩碼擴張前(圖2a)和擴張后(圖2b)差值的外圍輪廓掩碼(圖2c的紅色區(qū)域);然后利用外圍輪廓掩碼中高于工作面的像素比例來衡量目標物體周圍空間的擁擠程度。

為提高推送網(wǎng)絡訓練效率,將每一回合的推送動作數(shù)限制在5以內(nèi),并在最后附加一個抓取動作。如果目標掩碼內(nèi)的最大Q值大于設定的閾值,則機器人立即執(zhí)行抓取動作。

3)抓取網(wǎng)絡的進階訓練。此階段是在復雜的場景中繼續(xù)訓練抓取網(wǎng)絡,與第一階段相比,場景中的物體從10個逐步增加到30個,抓取難度逐漸加大。利用第一階段抓取網(wǎng)絡的初步訓練和第二階段推送網(wǎng)絡訓練的成果,提高機器人在密集環(huán)境中抓取物體的能力。通過逐漸提高訓練難度,更好適應真實工作環(huán)境中的復雜抓取任務。抓取動作的獎勵函數(shù)設置為

Rg2=-1""抓取失敗1.5抓取成功(4)

在本階段,固定推送網(wǎng)絡參數(shù),每一回合的推送數(shù)量仍限制在5以內(nèi)。目標掩碼內(nèi)的最大Q值超過閾值時執(zhí)行抓取動作。整體訓練過程如圖3所示,場景中的綠色物體為目標物體。

4)訓練細節(jié)。本文使用2個121層的DenseNets[18]在ImageNet[19]上進行預訓練,提取視覺特征。這些特征表示饋入全卷積網(wǎng)絡(包含2個1×1的卷積核和整流線性單元(ReLU)激活函數(shù)[20])并進行批歸一化處理[21]。最后,對全卷積網(wǎng)絡進行雙線性上采樣來生成逐像素的預測。協(xié)同模型使用Adam優(yōu)化器進行網(wǎng)絡訓練[22],學習率固定值為10-4,權(quán)值衰減為2-4。服務器的硬件包括Ryzen Threaddripper 3960X CPU和GeForce RTX 3080Ti顯卡。

1.3"評估判斷方法

夾爪的簡化三維模型(尺寸已知)如圖4a所示。執(zhí)行具有最大Q值的抓取動作之前,已預先確定抓取點的精確坐標及抓取動作的具體方向,因此可以確定在執(zhí)行該抓取動作時夾爪在工作場景中的正向投影,如圖4b所示。

通過計算夾爪兩端投影范圍(圖4b中兩個L1×L2的藍色矩形區(qū)域)內(nèi)的深度來評估夾爪在執(zhí)行抓取操作時是否具有足夠的空間進行插入,進而判斷是否存在與物體碰撞的風險,避免抓取失敗。此外,計算夾爪完全展開后所覆蓋區(qū)域(圖4b中的橙色區(qū)域)的高度,并減去目標物體在投影區(qū)域的深度,有助于判斷夾爪閉合時是否僅捕獲目標物體,還是可能同時夾取多個物體。如果Qgmax≥β且夾爪兩端有足夠的插入空間(見圖5),則執(zhí)行抓取動作;反之,則存在其他物體的潛在干擾,需要靈活調(diào)整策略,將執(zhí)行抓取動作改為執(zhí)行推動動作,防止夾爪在展開下落過程中與物體發(fā)生碰撞,避免抓取失敗。推送動作能有效分散目標抓取物體,為后續(xù)的抓取操作創(chuàng)造更理想的環(huán)境和條件。通過評估判斷方法,系統(tǒng)可在執(zhí)行抓取動作前進行評估判斷,及時規(guī)避不合適的抓取動作,從而提高抓取動作的準確性和成功率。

仿真實驗發(fā)現(xiàn),抓取網(wǎng)絡對不同方向的抓取動作的Q值不敏感,這導致Qgmax對應的抓取方向可能并非最優(yōu),較小Q值對應的抓取方向更可能成功。如果僅依據(jù)當前選擇的抓取動作進行判斷,可能會錯過其他成功的抓取機會。因此,當最初選擇的具有最大抓取Q值的抓取動作不滿足判斷條件時,在剩余的不同抓取方向中選擇Q值最大的抓取動作進行評估判斷,機器人根據(jù)動作是否滿足判斷條件來決定執(zhí)行抓取動作還是推送動作,如圖6所示。該處理方式擴大了有效的評估樣本,避免了過早舍棄可能成功的抓取動作。然而,在選擇剩余不同方向的抓取動作樣本時,由于抓取動作的Q值較小,滿足判斷條件的可能性較低,這會增加計算時間,降低系統(tǒng)的實時性和效率。此外,較大偏差對應的抓取方向容易導致抓取失敗,不利于提高抓取成功率和動作效率。

2"實驗分析

為評估本文所提方法,在仿真環(huán)境和現(xiàn)實環(huán)境中進行了一系列的實驗,以驗證本文方法的優(yōu)越性。

2.1"仿真實驗及結(jié)果分析

為驗證模型效果,將本文所提策略與Grasping the Invisible(GI)[16]、Efficient Push-grasping(EPG)[17]進行比較。比較過程中,仿真實驗環(huán)境和評估指標與對比方法均保持一致,以確保公正性和準確性。比較采用以下3個實驗評估指標。

1)完成率即所有有效測試運行中成功完成任務的百分比均值。如果機器人在一輪測試中能成功抓起目標物體且沒有連續(xù)10次抓取失敗,則該任務被視為完成。完成率RC的計算公式為

RC=1Tvalid∑Tvalidi=1ni(5)

Tvalid=T-Tnonvalid(6)

ni=1""抓取完成0抓取未完成 (7)

式中:ni表示在第i輪測試中是否抓取完成;T為總的測試輪數(shù);Tvalid為有效的測試輪數(shù),即抓取動作次數(shù)大于0的測試次數(shù);Tnonvalid為無效的測試輪數(shù),即抓取動作次數(shù)為0的測試次數(shù)。

2)抓取成功率。所有有效測試運行中目標物體的抓取成功率為

RGS=1Tvalid∑Tvalidi=1mi(8)

mi=1/gi""ni=10ni=0(9)

式中:mi、gi分別為第i輪測試中的抓取成功率和抓取次數(shù)。

3)動作數(shù)量,即有效測試運行中機器人執(zhí)行推動和抓取操作的平均次數(shù),它反映機器人動作的效率,以獲得較小值為目標。動作數(shù)量NM的計算公式為

NM=1Tvalid∑Tvalidi=1ki(10)

ki=gi+pi(11)

式中:ki為第i輪測試中的動作次數(shù),包括推動次數(shù)與抓取次數(shù);pi為第i輪測試中的推動次數(shù)。

為評估抓取網(wǎng)絡的抓取效果,分別在場景中隨機放置3個、5個、8個物體,測試30回合,統(tǒng)計僅通過一個抓取動作就能成功抓取目標物體的成功率,如表1所示,本文方法在一個抓取動作的成功率最大,超過了GI和EPG。

本文方法在訓練完抓取網(wǎng)絡和推送網(wǎng)絡后,采用固定推送網(wǎng)絡參數(shù)的方法對抓取網(wǎng)絡進行進階訓練。進階訓練階段的場景設置更復雜,物體數(shù)量從10逐步遞增至30,抓取難度逐步提高。借助抓取網(wǎng)絡第一階段的訓練成果和推動動作的協(xié)同作用,機器人已具備在更密集復雜的環(huán)境中進行抓取訓練的能力。相對于EPG中固定10個物體的簡單訓練場景,本文方法通過漸進提高訓練難度,使機器人能更好地適應復雜多變的工作環(huán)境,從而顯著提升其抓取網(wǎng)絡的性能。

為全面評估所提方法,在2個不同測試場景中進行實驗。第一個測試場景是結(jié)構(gòu)化場景,其中所有物體的排列方式均提前設定好,如圖7所示,目標物體(綠色物體)被其他物體緊緊包圍,直接抓取目標不可行,因此,機器人必須通過推送動作將目標物體從場景中分離出來才能進行抓取。這對機器人的推抓協(xié)同配合能力提出了較高要求。每個測試場景都進行30次測試,然后求取10個案例的平均值,實驗結(jié)果見表2。

10個結(jié)構(gòu)化測試場景中,本文方法的完成率達到100%。 GI與EPG的完成率稍低的主要原因在于,部分測試案例中,GI與EPG在嘗試抓取目標物體失敗后會將抓取目標推出工作場景,導致抓取任務未能完成,從而降低整體的完成率。

盡管本文方法也存在將目標物體推出工作場景的問題,但在此之前規(guī)避了不合適的抓取動作,相應的抓取動作次數(shù)為0。根據(jù)評估指標的定義,該輪測試視為無效測試,不納入完成率的計算。因此,本文方法的完成率達到100%。此外,本文方法的抓取成功率為95%,在3種方法中最高,同時動作數(shù)最小,進一步表明本文方法的優(yōu)越性。在執(zhí)行推動或抓取動作時, GI的機器學習模型輸入的相關(guān)參數(shù)與動作類型之間的關(guān)系不夠明確,因此抓取成功率最低。目標物體抓取問題涉及目標物體的相對位置、周圍環(huán)境的擁擠程度、物體的分布狀態(tài)等因素,不能簡單依賴某些參數(shù)的數(shù)值來確定動作類型。GI在目標物體很難直接抓取的情況下仍然傾向于選擇抓取動作。EPG抓取成功率較低的原因在于,盡管一些抓取動作的Q值達到閾值,但夾爪落點受物體干擾,導致抓取失敗。這表明抓取動作的Q值在一定范圍內(nèi)波動并不能準確反映抓取動作的優(yōu)劣。對于具有不同Q值的抓取動作,不能簡單認為Q值較大的動作必然比Q值較小的動作更利于成功抓取目標。直接依據(jù)Q值大小選擇并執(zhí)行抓取動作可能導致抓取任務的失敗。因此,在選擇執(zhí)行抓取動作時,除了考慮Q值大小,還需綜合考慮抓取位置的選擇、環(huán)境干擾等因素。

第二種測試場景是隨機場景,如圖8所示,依次在場景中隨機放置30個位置和角度都隨機生成的物體,其中,綠色物體為目標物體。30次測試結(jié)果的均值見表3。

隨機測試場景中,本文方法在各項評價指標上仍然是最優(yōu)的。GI的抓取成功率和完成率最低,表明其系統(tǒng)對高度混亂的場景適應能力較差。本文方法通過評估判斷篩選與排除質(zhì)量較差的抓取動作,及時選擇推送動作,減少了抓取失敗帶來的冗余動作。EPG的動作數(shù)量遠遠高于本文方法,這是因為隨機測試場景中的物體過于密集,抓取難度較大,需要較多推動使物體的Qgmax達到抓取閾值。本文方法對抓取動作進行了篩選評估,抓取閾值較EPG的設置值小。這樣既可以剔除質(zhì)量較差的抓取動作,又不會錯過抓取Q值較小但適合抓取的動作,能顯著提高動作效率。

最后通過消融實驗探討評估判斷方法能否提高抓取成功率和動作效率。如表4所示,與無評估判斷方法相比,本文方法在所有指標上都更好,完成率達到100%,抓取成功率提高到95.0%,動作數(shù)量減少到2.55,這說明引入評估判斷的方法有助于提高系統(tǒng)的抓取成功率和動作效率。

2.2"真實環(huán)境實驗及結(jié)果分析

為測試模型在現(xiàn)實環(huán)境中的工作效果,在真實的環(huán)境中搭建了抓取實驗平臺,如圖9所示。該抓取實驗平臺使用1個UR5機器人和1個大寰AG95二指夾爪,并通過斜上方的Kinect V2相機獲取RGB-D圖像。

4種測試案例如圖10所示,目標物體通過黃色星號標記。每個測試案列進行了15次測試,并計算平均值。

從表5所示的實驗結(jié)果看,與其他方法相比,本文方法在各項評價指標上都表現(xiàn)出最優(yōu)的性能,這表明本文方法在實際環(huán)境中能有效地完成目標物體抓取任務。

圖11展示了案例1的一次完整實驗過程。初始狀態(tài)下,機器人首先通過對場景的判斷選擇執(zhí)行推動動作,將目標物體(紅色物塊)推到一側(cè),為抓取創(chuàng)造條件。隨后,機器人對打亂的場景再次進行判斷,選擇執(zhí)行抓取動作,即在合適的抓取位置和抓取方向上成功抓取目標物體。僅僅通過兩步動作,機器人就把被緊緊包圍的目標物體成功抓取出來。

3"結(jié)語

本文提出一種基于深度強化學習的“推動”和“抓取”協(xié)同推抓策略。該策略通過2個深度Q網(wǎng)絡算法實現(xiàn)推動和抓取的相互配合。通過對抓取網(wǎng)絡進行“抓-推-抓”分階段訓練,提高抓取網(wǎng)絡的抓取能力,同時提出一種基于圖像形態(tài)處理的評估判斷方法來篩除質(zhì)量較差的抓取動作。該方法在結(jié)構(gòu)化測試場景中的完成率達到100%,抓取成功率達到95.0%,所用動作數(shù)量為2.55;在隨機化測試場景中的完成率達到100%,抓取成功率達到95.3%,所用動作數(shù)量為2.48。與典型方法GI(Grasping the Invisible)、EPG(Efficient Push-grasping)相比,本文方法的各項指標均最優(yōu),有效提高了目標物體的抓取成功率和動作效率。但本文中的抓取對象結(jié)構(gòu)相對規(guī)整簡單,后續(xù)工作將考慮使用更多種類和形狀更復雜的物體進行實驗,以擴展模型的適用場景,并驗證其泛化性。

參考文獻:

[1]"DUAN Haonan, WANG Peng, HUANG Yayu, et al. Robotics Dexterous Grasping:the Methods Based on Point Cloud and Deep Learning[J]. Frontiers in Neurorobotics, 2021, 15:658280.

[2]"BOHG J, MORALES A, ASFOUR T, et al. Data-driven Grasp Synthesis—a Survey[J]. IEEE Transactions on Robotics, 2014, 30(2):289-309.

[3]"SAHBANI A, EL-KHOURY S, BIDAUD P. An Overview of 3D Object Grasp Synthesis Algorithms[J]. Robotics and Autonomous Systems, 2012, 60(3):326-336.

[4]"LIANG Hongzhuo, MA Xiaojian, LI Shuang, et al. PointNetGPD:Detecting Grasp Configurations from Point Sets[C]∥2019 International Conference on Robotics and Automation(ICRA). Montreal, 2019:3629-3635.

[5]"RODRIGUEZ A, MASON M T, FERRY S. From Caging to Grasping[J]. The International Journal of Robotics Research, 2012, 31(7):886-900.

[6]"賀輝騰, 周勇, 胡楷雄, 等. 基于深度強化學習的機器人多動作協(xié)同抓取策略[J]. 計算機集成制造系統(tǒng),2024,30(5):1789-1797.

HE Huiteng, ZHOU Yong, HU Kaixiong, et al. Robot "Multi-action Cooperative Grasping Strategy Based on Deep Reinforcement Learning[J]. Computer Integrated Manufacturing Systems,2024,30(5):1789-1797.

[7]"張勝文, 周曦, 李濱城, 等. 基于圖像深度學習的零件加工特征信息提取方法[J]. 中國機械工程, 2022, 33(3):348-355.

ZHANG Shengwen, ZHOU Xi, LI Bincheng, et al. Information Extraction Method of Part Machining Features Based on Image Deep Learning[J]. China Mechanical Engineering, 2022, 33(3):348-355.

[8]"王勇, 陳薈西, 馮雨齊. 基于改進 CenterNet 的機械臂抓取檢測[J]. 中南大學學報(自然科學版), 2021, 52(9):3242-3250.

WANG Yong, CHEN Huixi, FENG Yuqi. Robotic Grasping Detection Based on Improved CenterNet[J]. Journal of Central South University(Science and Technology), 2021, 52(9):3242-3250.

[9]"張翰博, 蘭旭光, 周欣文, 等. 基于視覺推理的機器人多物體堆疊場景抓取方法[J]. 中國科學(技術(shù)科學), 2018, 48(12):1341-1356.

ZHANG Hanbo, LAN Xuguang, ZHOU Xinwen, et al. Robotic Grasping in Multi-object Stacking Scenes Based on Visual Reasoning[J]. Scientia Sinica(Technologica), 2018, 48(12):1341-1356.

[10]"孫先濤, 唐思宇, 陳文杰, 等. 復雜環(huán)境下基于推抓協(xié)同操作的目標物體抓?。跩]. 控制理論與應用,2023,40(10):1713-1720.

SUN Xiantao, TANG Siyu, CHEN Wenjie, et al. Target Object Grasp Based on Push-grasp Cooperative Operation in Complex Environment[J]. Control Theory amp; Applications, 2023,40(10):1713-1720.

[11]"李鑫, 沈捷, 曹愷, 等. 深度強化學習的機械臂密集場景多物體抓取方法[J/OL]. 計算機工程與應用,2019:1-9[2023-10-23].http:∥kns.cnki.net/kcms/detail/11.2127.TP.20231008.1644.008.html.

LI Xin, SHEN Jie, CAO Kai, et al. Deep Reinforcement Learning for Manipulator Multi-object Grasping in Dense Scenes[J/OL]. Computer Engineering and Applications, 2019:1-9[2023-10-23].http:∥kns.cnki.net/kcms/detail/11.2127.TP.20231008.1644.008.html.

[12]"TEN PAS A, PLATT R. Using Geometry to Detect Grasp Poses in 3D Point Clouds[M]∥Robotics Research. Cham:Springer, 2018:307-324.

[13]"ZENG A, SONG Shuran, WELKER S, et al. Learning Synergies between Pushing and Grasping with Self-supervised Deep Reinforcement Learning[C]∥2018 IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS). Madrid, 2018:4238-4245.

[14]"DENG Yuhong, GUO Xiaofeng, WEI Yixuan, et al. Deep Reinforcement Learning for Robotic Pushing and Picking in Cluttered Environment[C]∥2019 IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS). Macau, 2019:619-626.

[15]"TANG Bingjie, CORSARO M, KONIDARIS G, et al. Learning Collaborative Pushing and Grasping Policies in Dense Clutter[C]∥2021 IEEE International Conference on Robotics and Automation(ICRA). Xian, 2021:6177-6184.

[16]"YANG Yang, LIANG Hengyue, CHOI C. A Deep Learning Approach to Grasping the Invisible[J]. IEEE Robotics and Automation Letters, 2020, 5(2):2232-2239.

[17]"XU Kechun, YU Hongxiang, LAI Qianen, et al. Efficient Learning of Goal-oriented Push-grasping Synergy in Clutter[J]. IEEE Robotics and Automation Letters, 2021, 6(4):6337-6344.

[18]"HUANG Gao, LIU Zhuang,van der MAATEN L, et al. Densely Connected Convolutional Networks[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Honolulu, 2017:2261-2269.

[19]"DENG Jia, DONG Wei, SOCHER R, et al. ImageNet:a Large-scale Hierarchical Image Database[C]∥2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, 2009:248-255.

[20]"NAIR V, HINTON G E. Rectified Linear Units Improve Restricted Boltzmann Machines[C]∥Proceedings of the 27th International Conference on Machine Learning(ICML-10). Haifa,2010:807-814.

[21]"IOFFE S, SZEGEDY C. Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shift[J]. 32nd International Conference on Machine Learning. Lille, 2015:448-456.

[22]"KINGMA D P, BA J. Adam:a Method for Stochastic Optimization[EB/OL]. 2014:arXiv:1412.6980. http:∥arxiv.org/abs/1412.6980

(編輯"張"洋)

作者簡介:

胡楷雄,男,1985年生,副教授。研究方向為智能制造。發(fā)表論文20余篇。E-mail:kaixiong.hu@whut.edu.cn。

周"勇*(通信作者),男,1973年生,副教授、博士研究生導師。研究方向為機器人技術(shù)及應用、物流裝備協(xié)同作業(yè)調(diào)度與智能化。發(fā)表論文50余篇。E-mail:zhoyo@163.com。

本文引用格式:

胡楷雄,宋遠航,周勇,等.基于深度強化學習的混雜場景目標物體推抓協(xié)同策略[J]. 中國機械工程,2025,36(1):133-140.

HU Kaixiong, SONG Yuanhang, ZHOU Yong, et al. A Cooperative Strategy for Pushing and Grasping Target Object in Cluttered Scenes Based on Deep Reinforcement Learning[J]. China Mechanical Engineering, 2025, 36(1):133-140.

收稿日期:2023-12-09

基金項目:國家自然科學基金(51975444)

猜你喜歡
深度強化學習
基于DDPG算法的路徑規(guī)劃研究
基于深度強化學習的木材缺陷圖像重構(gòu)及質(zhì)量評價模型研究
基于深度強化學習與圖像智能識別的輸電線路在線監(jiān)測系統(tǒng)
基于云控制的業(yè)務服務機器人系統(tǒng)設計
人工智能深度強化學習的原理與核心技術(shù)探究
基于人工智能的無人機區(qū)域偵察方法研究現(xiàn)狀與發(fā)展
基于策略梯度算法的工作量證明中挖礦困境研究
計算機應用(2019年5期)2019-08-01 01:48:57
基于深度強化學習的圖像修復算法設計
關(guān)于人工智能阿法元綜述
商情(2019年14期)2019-06-15 10:20:13
深度強化學習研究進展
任丘市| 通辽市| 博白县| 驻马店市| 九龙坡区| 清新县| 绥棱县| 精河县| 陇川县| 齐河县| 游戏| 高唐县| 昭觉县| 盐津县| 阿勒泰市| 辉南县| 定陶县| 赤壁市| 含山县| 大洼县| 繁峙县| 大庆市| 元氏县| 尼勒克县| 大竹县| 宁海县| 屏东市| 邹城市| 铜陵市| 彭水| 封丘县| 涿州市| 贡嘎县| 塔河县| 遵义市| 兰坪| 勃利县| 义马市| 龙口市| 东平县| 溧阳市|