国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于分步遷移策略的蘋果采摘機械臂軌跡規(guī)劃方法

2020-02-02 04:07鄭嫦娥GANHao趙燕東
農(nóng)業(yè)機械學(xué)報 2020年12期
關(guān)鍵詞:軌跡障礙機械

鄭嫦娥 高 坡 GAN Hao 田 野 趙燕東

(1.北京林業(yè)大學(xué)工學(xué)院, 北京 100083; 2.田納西大學(xué)生物系統(tǒng)工程及土壤科學(xué)系, 諾克斯維爾 TN37996)

0 引言

在果園果實采摘中,以多自由度機械臂作為采摘裝置、通過果實識別與軌跡規(guī)劃進行的果實自動采摘是農(nóng)業(yè)現(xiàn)代化的需求。不同于工業(yè)機械臂的結(jié)構(gòu)化工作環(huán)境,果實采摘是在非結(jié)構(gòu)化的自然環(huán)境中進行,自然生長的枝干以及未成熟果實等障礙物都給機械臂的采摘帶來了困難。因此,非結(jié)構(gòu)化自然環(huán)境下的采摘軌跡動態(tài)規(guī)劃是果實采摘機械臂的重要研究內(nèi)容[1-3]。

多自由度機械臂采摘軌跡規(guī)劃在多維狀態(tài)空間中進行,以采摘果實為目標,在避障的前提下規(guī)劃出一條最佳的采摘軌跡。關(guān)于軌跡規(guī)劃研究人員已經(jīng)提出了多種規(guī)劃算法,如A*算法[4-5]、蟻群算法[6-8]、柵格法[9]、人工勢場法[10-11]等。這些算法大多依賴于機械臂和環(huán)境的實時建模,其計算復(fù)雜度隨機械臂自由度的增加呈指數(shù)增加,由于采摘環(huán)境多變,很難對環(huán)境進行精確建模。深度強化學(xué)習(xí)是在與環(huán)境發(fā)生交互的過程中通過獎懲函數(shù)進行自我學(xué)習(xí)推理、最終在自我探索的過程中解決問題的一種方法[12]。由于深度強化學(xué)習(xí)不需要進行環(huán)境建模,因此在復(fù)雜的采摘環(huán)境中,利用深度強化學(xué)習(xí)求解多自由度采摘機械臂的軌跡具有更好的魯棒性[13-15]。

在采摘過程中,采摘機械臂的運動可以描述為高維空間中連續(xù)的狀態(tài)-動作模型,而深度強化學(xué)習(xí)中的深度確定性策略梯度算法(Deep deterministic policy gradient,DDPG)可以用于連續(xù)行為的控制。但是,非結(jié)構(gòu)化自然環(huán)境中采摘目標位置的復(fù)雜性和無序性使得DDPG算法在訓(xùn)練過程中網(wǎng)絡(luò)收斂難度大,存在較多無效搜索,樣本采樣效率低,有效獎勵稀疏,使得訓(xùn)練時間過長。為了提高基于深度強化學(xué)習(xí)(Deep reinforcement learning,DRL)的機器人軌跡規(guī)劃方法在有障礙物的非結(jié)構(gòu)化工作環(huán)境中的網(wǎng)絡(luò)訓(xùn)練效率,XIE等[16]基于獎勵塑形的思想,提出了一種新的密集獎勵函數(shù),該函數(shù)包括方位獎勵函數(shù)和子任務(wù)級的獎勵函數(shù),方位獎勵函數(shù)提高了局部軌跡規(guī)劃效率,子任務(wù)級的獎勵函數(shù)減少了全局上的無效搜索。

DDPG算法在訓(xùn)練時,算法初始參數(shù)是隨機的,且智能體的行為沒有先驗知識的指導(dǎo),非結(jié)構(gòu)化自然環(huán)境中障礙的復(fù)雜性使得隨機初始化參數(shù)帶來的訓(xùn)練速度低、收斂難的問題更為突出。針對此問題,遷移學(xué)習(xí)顯示出巨大的優(yōu)勢,該方法可以從過去學(xué)習(xí)的相關(guān)任務(wù)中獲得知識,從而加速訓(xùn)練過程[17]。胡曉東等[18]在利用深度強化學(xué)習(xí)算法求解動態(tài)環(huán)境下空間機器人的路徑規(guī)劃問題時,設(shè)計了一種適應(yīng)動態(tài)環(huán)境的快速路徑規(guī)劃器,首先在靜態(tài)環(huán)境下對網(wǎng)絡(luò)模型進行預(yù)訓(xùn)練,然后將靜態(tài)模型的網(wǎng)絡(luò)參數(shù)遷移到動態(tài)模型中,再經(jīng)過動態(tài)環(huán)境下的訓(xùn)練進行參數(shù)微調(diào),實驗表明,該方法在保證規(guī)劃路徑準確率的前提下顯著提高了訓(xùn)練速度。為了解決DDPG算法在訓(xùn)練機器人任務(wù)規(guī)劃中存在時間長、收斂慢的問題,陳建華[19]基于遷移學(xué)習(xí)思想將NAO機器人右臂位姿規(guī)劃策略在實際NAO機器人上進行了不同目標物體在不同位姿下的規(guī)劃抓取實驗。

本文以果園喬砧大冠稀植蘋果為研究對象,基于深度強化學(xué)習(xí)方法進行多自由度采摘機械臂的軌跡規(guī)劃研究。針對深度強化學(xué)習(xí)在非結(jié)構(gòu)化自然環(huán)境中訓(xùn)練效率低的問題,提出兩種解決方法:針對采摘目標位置無序性引起收斂困難的問題,提出一種漸進空間約束的分步訓(xùn)練策略;針對果實障礙和枝干障礙的復(fù)雜性引起收斂困難的問題,提出基于遷移學(xué)習(xí)的DDPG算法(TL+DDPG)。通過仿真實驗驗證兩種方法的有效性。

1 原理

1.1 采摘軌跡規(guī)劃

1.1.1DDPG算法

DDPG算法是基于AC策略梯度架構(gòu)的深度強化學(xué)習(xí)算法,既有策略網(wǎng)絡(luò)也有價值網(wǎng)絡(luò)[20]。圖1為DDPG算法的網(wǎng)絡(luò)結(jié)構(gòu)圖,它借鑒了Double DQN的思想,包含4個神經(jīng)網(wǎng)絡(luò),分別為:actor網(wǎng)絡(luò)、actor target網(wǎng)絡(luò)、critic網(wǎng)絡(luò)和critic target網(wǎng)絡(luò)。

圖1 DDPG算法網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Network diagram of DDPG algorithm

網(wǎng)絡(luò)以采摘機械臂的當前狀態(tài)si為輸入,其中si包括機械臂各關(guān)節(jié)角度、角速度等信息,以采摘機械臂關(guān)節(jié)動作值ai為輸出,環(huán)境根據(jù)機械臂末端當前位置e與目標位置y的相對距離反饋即時獎勵ri。機械臂通過不斷地與環(huán)境進行交互,執(zhí)行相應(yīng)動作,從而完成對采摘機械臂的軌跡規(guī)劃。當前動作在以下情況會終止:①采摘機械臂末端到達目標點。②機械臂碰到障礙或者與環(huán)境交互的步數(shù)到達上限。

采摘機械臂的軌跡規(guī)劃算法如下:

(1)初始化機械臂姿態(tài)、記憶庫R、仿真環(huán)境。

(2)初始化critic和actor網(wǎng)絡(luò)參數(shù)θQ、θμ。

(3)循環(huán)執(zhí)行以下步驟:

①獲取采摘機械臂的當前狀態(tài)si。

②網(wǎng)絡(luò)輸入當前狀態(tài)si,輸出機械臂的關(guān)節(jié)動作值ai=μ(si|θμ)。

③機械臂執(zhí)行動作ai,返回獎勵ri,并獲取采摘機械臂的新狀態(tài)si+1。

④將樣本(si,ai,ri,si+1)存入記憶庫R中。

⑤從記憶庫R中隨機采樣64個訓(xùn)練樣本(si,ai,ri,si+1),分別更新actor、critic網(wǎng)絡(luò)參數(shù)θμ和θQ。

⑥每隔100步,更新actor target、critic target網(wǎng)絡(luò)參數(shù)

θ′μ′←τθμ+(1-τ)θ′μ′
θ′Q′←τθQ+(1-τ)θ′Q′

τ為更新系數(shù)。

⑦如果si+1為終止狀態(tài),則當前迭代結(jié)束,否則轉(zhuǎn)到步驟②,結(jié)束循環(huán)。

1.1.2基于DDPG算法的漸進空間約束分步訓(xùn)練策略

基于DDPG算法的果實采摘軌跡規(guī)劃中存在的主要問題是,采摘目標位置的復(fù)雜性和無序性,使得訓(xùn)練過程中網(wǎng)絡(luò)收斂難度大,導(dǎo)致訓(xùn)練效率低。通過引入平面約束,降低環(huán)境復(fù)雜度,可以有效減小網(wǎng)絡(luò)維度,加快模型學(xué)習(xí)速度。引入平面約束前后,DDPG算法的網(wǎng)絡(luò)模型結(jié)構(gòu)保持一致,使得基于平面約束的模型訓(xùn)練參數(shù)可以為不引入平面約束的采摘軌跡規(guī)劃模型提供有效的初始化參數(shù),在縮短訓(xùn)練時間的同時增加模型的有效性。因此,為了加速訓(xùn)練過程,提高訓(xùn)練效率,本文提出一種基于DDPG算法的漸進空間約束分步訓(xùn)練策略。

分步訓(xùn)練策略是:與直接求解軌跡規(guī)劃不同,該方法通過引入空間約束,如圖2a所示,簡化求解過程,漸進獲得最終規(guī)劃軌跡,其實現(xiàn)過程如圖3所示。首先通過施加平面約束,將軌跡規(guī)劃限定在采摘平面上[21],通過對網(wǎng)絡(luò)進行訓(xùn)練,得到該平面約束下的最優(yōu)模型參數(shù)。圖2a中的紅色平面設(shè)定為目標果實所在的采摘平面;其次,在實際采摘環(huán)境中,進一步對平面約束下獲得的網(wǎng)絡(luò)進行訓(xùn)練,對網(wǎng)絡(luò)參數(shù)進行微調(diào),從而加速實際采摘場景的訓(xùn)練速度。圖2b中綠框為采摘機械臂的實際采摘空間,目標果實可以出現(xiàn)在綠框中的任意位置。

圖2 漸進空間約束分步訓(xùn)練場景Fig.2 Progressive spatially constrained stepwise training scene

圖3 漸進空間約束分步訓(xùn)練策略流程圖Fig.3 Flow chart of progressive spatially constrained stepwise training strategy

1.1.3基于遷移學(xué)習(xí)的DDPG算法

在采摘環(huán)境有障礙場景中,不僅需要考慮目標的位置,還要避開障礙,以保護果實和機械臂的安全[11]。因此,本節(jié)針對非結(jié)構(gòu)化自然環(huán)境中的復(fù)雜障礙所帶來的訓(xùn)練時間長的問題,利用遷移學(xué)習(xí)思想將無障礙場景下學(xué)習(xí)到的最優(yōu)策略向單一障礙場景進行遷移,并將單一障礙場景學(xué)習(xí)到的策略遷移用于指導(dǎo)混雜障礙場景下的軌跡規(guī)劃任務(wù),流程圖如圖4所示。在本文所研究的采摘場景下,以無障礙和單一障礙場景下采摘機械臂的軌跡規(guī)劃為源域,將它的軌跡規(guī)劃策略遷移到目標域,目標域分別為單一和混雜障礙場景下采摘機械臂的軌跡規(guī)劃。

圖4 策略遷移流程圖Fig.4 Flow chart of strategy migration

進行策略遷移首先需要完成狀態(tài)和動作信息從源域到目標域的映射,即完成ssource=η(starget)和atarget=φ(asource)的過程,其中η和φ分別為狀態(tài)和動作信息的映射函數(shù),ssource表示源域中的狀態(tài)信息,asource表示源域中的動作信息,starget表示目標域中的狀態(tài)信息,atarget表示目標域中的動作信息。具體狀態(tài)和動作信息如表1所示。

目標域中的狀態(tài)信息與源域中的狀態(tài)信息的映射關(guān)系為

(1)

式中wij——狀態(tài)與動作轉(zhuǎn)換系數(shù)

J——目標域中狀態(tài)信息的個數(shù)

其中,當目標域中的狀態(tài)信息與源域中的狀態(tài)信息相互對應(yīng)時,wij取1;當目標域中的狀態(tài)信息與源域中的狀態(tài)信息不一致時,則wij取0。源域中的動作向目標域中的動作映射時同理。這樣就解決了源域中的狀態(tài)和動作到目標域中的狀態(tài)和動作的映射問題。

在完成狀態(tài)和動作信息之間的映射后,還需要解決狀態(tài)值函數(shù)的遷移,因為狀態(tài)值函數(shù)在網(wǎng)絡(luò)參數(shù)更新中起到?jīng)Q定誤差的作用。策略遷移后的整體狀態(tài)值函數(shù)為

Q(s,a)=Qsource(η(starget),asource)+

Qtarget(starget,φ(asource))

(2)

式中Q(s,a)——整體狀態(tài)值函數(shù)

Qsource——源域的狀態(tài)值函數(shù)

Qtarget——目標域的狀態(tài)值函數(shù)

模型網(wǎng)絡(luò)參數(shù)更新時,對于源域的狀態(tài)值函數(shù)Qsource(η(starget),asource)的神經(jīng)網(wǎng)絡(luò)參數(shù)不需要更新,需要更新的是目標域中的狀態(tài)值函數(shù)Qtarget(starget,φ(asource))的神經(jīng)網(wǎng)絡(luò)參數(shù)。圖5為基于遷移學(xué)習(xí)的DDPG算法的參數(shù)更新示意圖。

圖5 基于遷移學(xué)習(xí)的DDPG算法參數(shù)更新示意圖Fig.5 Parameter update diagram of DDPG algorithm based on transfer learning

2 實驗與分析

利用Cinema 4D和CoppeliaSim軟件搭建仿真采摘環(huán)境,進行多自由度采摘機械臂的運動仿真測試,如圖6所示。本實驗在Ubuntu16.04操作系統(tǒng)平臺上完成,其硬件配置為Intel Core i7處理器、NVidia GTX 1060顯卡、16 GB內(nèi)存。編程語言為Python、Matlab。

圖6 采摘環(huán)景仿真圖Fig.6 Picking scene simulation diagram

2.1 機械臂運動學(xué)模型與障礙模型

2.1.1機械臂運動學(xué)模型

仿真實驗使用的是Franka 7-DOF機械臂,圖7為機械臂的整體結(jié)構(gòu)示意圖。所有關(guān)節(jié)都是轉(zhuǎn)動關(guān)節(jié),關(guān)節(jié)7連接末端執(zhí)行手爪以抓取目標。機械臂關(guān)節(jié)角信息如表2所示。

圖7 采摘機械臂整體結(jié)構(gòu)示意圖Fig.7 Schematic of picking manipulator structure

2.1.2障礙模型簡化

在蘋果采摘過程中,不同栽培方式下所遇到的障礙主要是枝干、樹葉以及非目標果實,由于樹葉柔曲,對機械臂采摘作業(yè)的影響很小,可以忽略不計,所以主要考慮枝干障礙和非目標果實障礙。

針對本文障礙的外形特點,使用包絡(luò)法對障礙進行近似描述[22-24]。如圖8所示,用球體表示非目標果實障礙,圓柱體表示枝干障礙。

圖8 障礙模型Fig.8 Obstacle models

由圖可得,使用包絡(luò)法進行建模雖然擴大了障礙區(qū)域,但簡化了計算,提高了可靠性,有效地提高了軌跡規(guī)劃效率,同時也保證了機械臂和果樹的安全性。

2.2 分步訓(xùn)練策略實驗與分析

DDPG算法的網(wǎng)絡(luò)參數(shù)如表3所示。

表3 DDPG算法的網(wǎng)絡(luò)參數(shù)Tab.3 Parameters for DDPG algorithm

圖10 獎勵值變化曲線Fig.10 Reward value change curves

仿真環(huán)境中設(shè)定的采摘空間以(0.25 m,0 m, 1.002 m)為中心,尺寸為0.5 m×0.8 m×0.5 m,如圖9所示。蘋果生長期間果農(nóng)通常以間距0.2、0.25、0.3 m進行疏花疏果操作[25],以保證蘋果品質(zhì)與產(chǎn)量??紤]到蘋果結(jié)果間距以及采摘空間,本文以0.2 m為間距沿y方向在0~0.4 m范圍內(nèi)均勻引入3個約束平面(平面1、平面2、平面3)作為采摘平面進行對照實驗,以觀察不同約束平面對空間范圍內(nèi)軌跡規(guī)劃的影響。3個平面具體位置為:平面1(藍色)方程為y=0(0≤x≤0.5 m,0.752 m≤z≤1.252 m),平面2(綠色)方程為y=0.2 m(0≤x≤0.5 m,0.752 m≤z≤1.252 m),平面3(紅色)方程為y=0.4 m(0≤x≤0.5 m,0.752 m≤z≤1.252 m)。

圖9 采摘空間示意圖Fig.9 Simulation scene

按照漸進空間約束分步訓(xùn)練策略,分別在3個采摘平面上進行訓(xùn)練,得到3組網(wǎng)絡(luò)模型,并在這3組網(wǎng)絡(luò)模型的基礎(chǔ)上,進一步在實際采摘環(huán)境下進行軌跡規(guī)劃網(wǎng)絡(luò)的訓(xùn)練,觀察不同位置的采摘平面對實際環(huán)境的泛化性。共進行5 000次迭代訓(xùn)練,圖10為訓(xùn)練期間獎勵值的變化情況。

由圖10a可知,隨著迭代次數(shù)的增加,采摘機械臂所獲獎勵逐漸變大,最終達到收斂狀態(tài)。由圖10b可知,隨著迭代次數(shù)的增加,采摘機械臂所獲獎勵逐漸變大,最終達到收斂狀態(tài)。訓(xùn)練開始時基準模型的曲線獎勵值起點在-1.30附近,而經(jīng)過預(yù)訓(xùn)練的獎勵曲線起點在-1.00附近,這表明經(jīng)過預(yù)訓(xùn)練,采摘機械臂的動作策略獲得了一些先驗知識,具有較好的初始假設(shè),減少了無效探索,相對于隨機初始化性能有較為明顯的提升。表4統(tǒng)計了迭代中4 000~5 000次的獎勵值均值以及訓(xùn)練期間收斂所用迭代次數(shù),其中基準模型為直接在三維空間中訓(xùn)練所得模型。

表4 訓(xùn)練結(jié)果對比Tab.4 Comparison of training results

由表4可知,在收斂速度方面,基于約束平面的模型收斂所需迭代次數(shù)分別為1 100、1 800、2 000,而基準模型經(jīng)過3 000次迭代達到收斂,基于約束平面1、2、3的分步訓(xùn)練網(wǎng)絡(luò)收斂速度分別比基準模型提升了63.33%、40%和33.33%。這表明引入約束平面后,由于網(wǎng)絡(luò)初始參數(shù)是通過預(yù)訓(xùn)練得到,訓(xùn)練初期策略的盲目性大大減少,使基于約束平面的模型減少了學(xué)習(xí)時間,在三維采摘空間上訓(xùn)練的收斂速度明顯加快。

同時,由表4可知,基于約束平面1的分步訓(xùn)練策略在提升模型性能方面最為顯著:獎勵值初值為-0.70,收斂后其獎勵值均值穩(wěn)定在-0.25,相比于基準模型,獎勵值初值和均值分別提升了46.15%和45.65%,表明基于約束平面1的訓(xùn)練策略在網(wǎng)絡(luò)性能上提升效果明顯。由于約束平面1位于采摘空間的中心位置,因此,基于約束平面1得到的模型相比于其他約束平面得到的模型,在后續(xù)訓(xùn)練上其動作策略的空間泛化性和空間適應(yīng)性更強。

為了測試模型的效果,本文分別統(tǒng)計得出基準模型和基于約束平面1的訓(xùn)練模型成功采摘100次所需時間為320、260 s。

由以上實驗結(jié)果可知,基于分步訓(xùn)練策略模型在收斂速度和性能上都得到了大幅度提升,說明采摘機械臂利用漸進空間約束分步訓(xùn)練策略進行軌跡規(guī)劃能顯著加速訓(xùn)練過程和提升模型性能。

2.3 基于遷移學(xué)習(xí)的DDPG算法實驗與分析

根據(jù)真實的采摘場景,本文設(shè)計了3種有障礙場景,如圖11所示,分別是模擬非目標果實障礙場景 (場景A)、枝干障礙場景 (場景B)、混雜障礙場景 (場景C)。場景中紅色蘋果為目標果實,綠色蘋果為非目標果實障礙,藍色枝干為障礙。場景A和場景B分別針對的是單一障礙場景,場景C為混雜障礙場景。圖12為不同場景下訓(xùn)練時的獎勵值變化曲線。

圖11 3種場景示意圖Fig.11 Simulation scenes

圖12 不同場景下訓(xùn)練時的獎勵值變化曲線Fig.12 Reward value changing curves of training in different scenarios

實驗共執(zhí)行了10 000次迭代訓(xùn)練,由圖12可以看出,隨著迭代次數(shù)的增加,在各場景下采摘機械臂所獲獎勵逐漸變大,并最終達到收斂狀態(tài)。

表5為場景A和場景B訓(xùn)練迭代8 000~10 000次的獎勵值均值以及訓(xùn)練期間收斂所用迭代次數(shù)。

表5 實驗結(jié)果對比Tab.5 Comparison of experimental results

由圖12和表5可以看出,與DDPG算法訓(xùn)練相比,在場景A和場景B中基于遷移學(xué)習(xí)的DDPG算法訓(xùn)練收斂所需迭代次數(shù)從3 500和3 900分別縮短到2 000和2 600,收斂速度分別提升了42.86%和33.33%。說明機械臂在無障礙場景下的軌跡規(guī)劃策略能夠為單一障礙場景的軌跡規(guī)劃提供指導(dǎo),可以有效縮短訓(xùn)練時間。

同時,由表5可知,在場景A和場景B中基于遷移學(xué)習(xí)的DDPG算法在開始階段獎勵值初值分別為-0.62和-1.35,比DDPG算法訓(xùn)練分別提升了32.61%和15.63%。并且,在場景A中該方法收斂后獎勵值均值穩(wěn)定在-0.15,相較于直接訓(xùn)練提升了44.44%。而在場景B中兩種方法的獎勵值均值相差不大,TL+DDPG算法的獎勵值均值略低于DDPG算法,說明從無障礙場景向單一障礙場景進行遷移時,源任務(wù)策略在訓(xùn)練前期能夠指導(dǎo)機械臂快速接近目標,該策略向較為簡單的場景A進行避障遷移適應(yīng)性強于較為復(fù)雜的場景B。

實際采摘環(huán)境通常存在多種障礙,為了觀察采摘機械臂在面對混雜障礙時,單一障礙場景下獲得的策略能否為采摘任務(wù)提供合適的指導(dǎo),將場景C設(shè)計成混雜障礙場景,并分別遷移場景A和場景B的策略來指導(dǎo)采摘機械臂在場景C下進行軌跡規(guī)劃任務(wù)。表6為場景C下應(yīng)用不同策略訓(xùn)練迭代8 000~10 000次的獎勵值均值以及訓(xùn)練期間收斂所用迭代次數(shù)。圖13為混雜障礙場景下的收斂所需迭代次數(shù)。

由表6可知,遷移場景A和場景B的策略來指導(dǎo)采摘機械臂在場景C下進行軌跡規(guī)劃任務(wù),其收斂所需迭代次數(shù)分別為3 600和2 200,相比較DDPG算法訓(xùn)練,收斂速度分別提升了43.75%和65.63%。以上結(jié)果表明基于單一障礙場景下的遷移訓(xùn)練相較于基于DDPG算法的直接訓(xùn)練,任務(wù)收斂速度有大幅度提升。如圖13所示,當考慮源策略訓(xùn)練次數(shù)時,遷移場景A和場景B策略的總收斂迭代次數(shù)分別為7 100和6 100,表明在混雜障礙場景中遷移場景B的策略更有助于提升訓(xùn)練速度。

表6 混雜場景下不同策略訓(xùn)練結(jié)果對比Tab.6 Comparison of training results in complex scenarios

圖13 混雜障礙場景下收斂所需迭代次數(shù)Fig.13 Number of converging rounds

同時,由表6可知,遷移場景A策略和遷移場景B策略模型的獎勵值初值分別為-1.00和-1.30,比DDPG算法分別提升了34.21%和14.47%;其在模型收斂后獎勵值均值分別穩(wěn)定在-0.45和-0.35,與DDPG算法相比,遷移場景B策略的獎勵值均值略大。這表明在蘋果采摘中,從場景A和場景B向混雜障礙場景遷移時,均可以提供較好的模型初始化參數(shù);同時,在面對混雜障礙場景時,源任務(wù)中障礙環(huán)境較為復(fù)雜,更利于提高混雜障礙場景下的模型性能。

圖14是在不同場景下采摘機械臂的避障軌跡。紅色蘋果為目標位置,藍色樹枝為障礙,綠色未成熟蘋果為果實障礙。黃線為DDPG算法為采摘機械臂規(guī)劃出的軌跡,紅線為基于遷移學(xué)習(xí)的DDPG算法為采摘機械臂規(guī)劃出的軌跡??梢钥吹剑珼DPG算法在進行避障軌跡規(guī)劃時得到的軌跡比基于遷移學(xué)習(xí)的DDPG算法得到的軌跡更長一些。

3 結(jié)束語

基于深度強化學(xué)習(xí)方法進行了采摘機械臂軌跡規(guī)劃,為提高無障礙環(huán)境下模型的網(wǎng)絡(luò)收斂速度和性能,提出了漸進空間約束的分步訓(xùn)練策略。對分步訓(xùn)練策略進行了仿真實驗驗證,與直接訓(xùn)練相比,利用漸進空間約束的分步訓(xùn)練策略對獎勵值初值最大提升幅度為46.15%,對網(wǎng)絡(luò)收斂速度最大提升幅度為63.33%。針對復(fù)雜障礙環(huán)境,提出了基于遷移學(xué)習(xí)的DDPG算法,將軌跡規(guī)劃的最優(yōu)策略由無障礙場景遷移到單一障礙場景、由單一障礙場景遷移到混雜障礙場景中。仿真實驗表明,將無障礙場景策略遷移到單一障礙場景中時,獎勵值初值提升幅度為32.61%,網(wǎng)絡(luò)收斂速度最大提升幅度為42.86%;將單一障礙場景策略遷移到混雜障礙場景中時,獎勵值初值最大提升幅度為34.21%,網(wǎng)絡(luò)收斂速度最大提升幅度為65.63%。

猜你喜歡
軌跡障礙機械
為何中年婚姻障礙多
解析幾何中的軌跡方程的常用求法
軌跡
軌跡
調(diào)試機械臂
跟蹤導(dǎo)練(四)2
內(nèi)向并不是一種障礙
簡單機械
按摩機械臂
家庭教育過于執(zhí)著是孩子成長的障礙