国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

好奇心驅(qū)動(dòng)的深度強(qiáng)化學(xué)習(xí)機(jī)器人路徑規(guī)劃算法

2022-10-13 04:20:28張永梅趙家瑞吳愛(ài)燕
科學(xué)技術(shù)與工程 2022年25期
關(guān)鍵詞:梯度深度機(jī)器人

張永梅, 趙家瑞, 吳愛(ài)燕

(北方工業(yè)大學(xué)信息學(xué)院, 北京 100144)

路徑規(guī)劃是指機(jī)器人根據(jù)對(duì)環(huán)境的感知自主選擇一條從起點(diǎn)到終點(diǎn)的無(wú)碰撞路徑。路徑規(guī)劃技術(shù)是機(jī)器人完成其他復(fù)雜任務(wù)的技術(shù)前提。常見(jiàn)的路徑規(guī)劃算法包括非智能算法(如A*、D*及其改進(jìn)算法[1])以及智能算法(如蟻群算法)。

非智能算法在復(fù)雜環(huán)境中無(wú)法處理復(fù)雜高維環(huán)境信息,或者容易陷入局部最優(yōu)[2]。昝新宇等[3]根據(jù)多因素綜合指標(biāo)改進(jìn)了蟻群算法,在全局搜索能力和收斂速度上有了較大提升。此外,智能算法還包括遺傳算法、強(qiáng)化學(xué)習(xí)算法等。其中,強(qiáng)化學(xué)習(xí)算法與人類(lèi)學(xué)習(xí)經(jīng)驗(yàn)試錯(cuò)過(guò)程最為相似。非智能算法通常將路徑規(guī)劃任務(wù)視為搜索問(wèn)題,智能路徑規(guī)劃算法更加強(qiáng)調(diào)優(yōu)化,對(duì)實(shí)時(shí)性要求不高?;趶?qiáng)化學(xué)習(xí)的機(jī)器人路徑規(guī)劃算法可不過(guò)多依賴(lài)環(huán)境,實(shí)時(shí)性強(qiáng)。強(qiáng)化學(xué)習(xí)算法通過(guò)最大智能體從環(huán)境中獲得累計(jì)獎(jiǎng)勵(lì)學(xué)習(xí)到完成目標(biāo)的最優(yōu)策略,將強(qiáng)化學(xué)習(xí)用于機(jī)器人路徑規(guī)劃問(wèn)題,近年來(lái)受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,強(qiáng)化學(xué)習(xí)是目前機(jī)器人運(yùn)動(dòng)規(guī)劃的研究熱點(diǎn)[4-5]。

典型的強(qiáng)化學(xué)習(xí)算法為Q學(xué)習(xí),該算法將獎(jiǎng)勵(lì)設(shè)為固定值或隨機(jī)值,使算法收斂緩慢。當(dāng)狀態(tài)空間集合不再離散或離散后維數(shù)較大時(shí),如機(jī)器人感知到多維度環(huán)境信息時(shí),Q-learning算法將無(wú)法維護(hù)Q表。此時(shí),需結(jié)合深度神經(jīng)網(wǎng)絡(luò)等非線性近似表示值函數(shù)或策略。使用Q學(xué)習(xí)的機(jī)器人運(yùn)動(dòng)規(guī)劃方法無(wú)法處理高維輸入[6]。

傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法受到動(dòng)作空間和樣本空間維數(shù)的限制,難以適應(yīng)更接近實(shí)際的復(fù)雜問(wèn)題情況,而深度學(xué)習(xí)具有較強(qiáng)的感知能力,能夠更加適應(yīng)復(fù)雜問(wèn)題,但是缺乏一定的決策能力。因此,谷歌大腦將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)結(jié)合,得到深度強(qiáng)化學(xué)習(xí),為移動(dòng)機(jī)器人復(fù)雜環(huán)境中的運(yùn)動(dòng)規(guī)劃提供了新的思路和方向。深度強(qiáng)化學(xué)習(xí)具有深度學(xué)習(xí)強(qiáng)大的感知能力和強(qiáng)化學(xué)習(xí)智能的決策能力,在面對(duì)復(fù)雜環(huán)境和任務(wù)時(shí)表現(xiàn)突出,有助于機(jī)器人的自主學(xué)習(xí)和避障規(guī)劃[7]。

Mnih等[8]于2013年提出深度Q網(wǎng)絡(luò)(deep Q-learning,DQN),采用Q學(xué)習(xí)的一種變種訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),是深度強(qiáng)化學(xué)習(xí)領(lǐng)域的開(kāi)創(chuàng)性工作。DQN是結(jié)合深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí),實(shí)現(xiàn)從感知到動(dòng)作的端對(duì)端學(xué)習(xí)的一種全新算法。Nguyen等[9]提出改進(jìn)經(jīng)驗(yàn)回放機(jī)制的DQN機(jī)器人路徑規(guī)劃方法,通過(guò)計(jì)算經(jīng)驗(yàn)數(shù)據(jù)間的相似性來(lái)決定是否存儲(chǔ),但該方法需更多訓(xùn)練次數(shù)來(lái)滿(mǎn)足環(huán)境的探索程度。DQN依賴(lài)于在每一次最優(yōu)迭代中尋找動(dòng)作值函數(shù)的最大值,只能處理離散低維的動(dòng)作空間。針對(duì)連續(xù)動(dòng)作空間,DQN無(wú)法輸出各動(dòng)作的值函數(shù)。目前機(jī)器人強(qiáng)化學(xué)習(xí)路徑規(guī)劃采用離散型動(dòng)作輸出算法(將角速度[-2,2]區(qū)間離散為集合{-2,1,0,-1,2})的研究占大多數(shù),離散變化的動(dòng)作取值與真實(shí)場(chǎng)景路徑規(guī)劃時(shí)連續(xù)速度的情景存在較大差異。

深度確定性策略梯度(deep deterministic strategy gradient,DDPG)算法適用于連續(xù)動(dòng)作空間的控制任務(wù),DDPG解決了DQN難以對(duì)連續(xù)動(dòng)作估計(jì)Q值的問(wèn)題。DDPG[10]根據(jù)環(huán)境狀態(tài)得到連續(xù)動(dòng)作,例如給定區(qū)間內(nèi)連續(xù)值。Kenzo等[11]提出基于DDPG的雙足機(jī)器人導(dǎo)航方法,通過(guò)輸入圖像到卷積神經(jīng)網(wǎng)絡(luò),端到端映射為機(jī)器人動(dòng)作。Hu等[12]提出基于DDPG的空間機(jī)器人路徑規(guī)劃方法,引入多重約束獎(jiǎng)勵(lì)機(jī)制,使獎(jiǎng)勵(lì)更加合理。Sampedro等[13]提出基于DDPG的多翼機(jī)器人伺服控制方法,將圖像狀態(tài)信息映射為飛行機(jī)器人的線性速度,并運(yùn)用于目標(biāo)跟蹤。

在基于深度強(qiáng)化學(xué)習(xí)的機(jī)器人運(yùn)動(dòng)規(guī)劃方法中,訓(xùn)練時(shí)會(huì)出現(xiàn)稀疏獎(jiǎng)勵(lì)問(wèn)題,在對(duì)環(huán)境的探索中,獎(jiǎng)勵(lì)在智能體學(xué)習(xí)中起著至關(guān)重要的作用,但在路徑規(guī)劃問(wèn)題中獎(jiǎng)勵(lì)信號(hào)十分稀疏,導(dǎo)致智能體難以從與環(huán)境的交互中學(xué)習(xí)到最優(yōu)策略,模型將因稀疏獎(jiǎng)勵(lì)問(wèn)題而難以收斂。

稀疏獎(jiǎng)勵(lì)問(wèn)題是深度強(qiáng)化學(xué)習(xí)解決實(shí)際問(wèn)題面臨的核心問(wèn)題,在強(qiáng)化學(xué)習(xí)機(jī)器人路徑規(guī)劃方法中,智能體要在到達(dá)目標(biāo)點(diǎn)或發(fā)生碰撞后才能獲得獎(jiǎng)勵(lì)。在學(xué)習(xí)初始階段,獎(jiǎng)勵(lì)通常依靠隨機(jī)動(dòng)作獲取,難以獲得獎(jiǎng)勵(lì),且只有完成有利于實(shí)現(xiàn)任務(wù)的動(dòng)作才可獲得正向反饋,而這一過(guò)程在隨機(jī)性的影響下較難完成。

稀疏獎(jiǎng)勵(lì)問(wèn)題影響算法整體收斂效果和訓(xùn)練時(shí)間。稀疏獎(jiǎng)勵(lì)問(wèn)題會(huì)導(dǎo)致強(qiáng)化學(xué)習(xí)算法迭代緩慢,甚至難以收斂[14]。解決稀疏獎(jiǎng)勵(lì)問(wèn)題有利于提高樣本的利用效率,主要研究包括經(jīng)驗(yàn)回放機(jī)制、探索與利用和多目標(biāo)學(xué)習(xí)等。其中,探索與利用根據(jù)內(nèi)在獎(jiǎng)勵(lì)計(jì)算方式可以分為計(jì)數(shù)法和內(nèi)在獎(jiǎng)勵(lì)法。內(nèi)在獎(jiǎng)勵(lì)法通過(guò)學(xué)習(xí)環(huán)境的狀態(tài)轉(zhuǎn)移,利用預(yù)測(cè)誤差作為內(nèi)在獎(jiǎng)勵(lì),降低環(huán)境動(dòng)態(tài)的不確定性。

Bellemare等[15]提出一種將偽計(jì)數(shù)轉(zhuǎn)為內(nèi)在獎(jiǎng)勵(lì)的方法,通過(guò)擬合密度生成模型比較狀態(tài)相似性,但在擬合模型的選擇時(shí)難度較大。Stadie等[16]提出基于環(huán)境模型判斷狀態(tài)探索度的內(nèi)在獎(jiǎng)勵(lì)方法,通過(guò)狀態(tài)和動(dòng)作預(yù)測(cè)新?tīng)顟B(tài),但環(huán)境模型難以建立。Pathak等[17]提出基于內(nèi)部好奇心模塊的獎(jiǎng)勵(lì)生成方法,模型使用前后時(shí)刻狀態(tài)和動(dòng)作作為訓(xùn)練數(shù)據(jù),以預(yù)測(cè)狀態(tài)與下一時(shí)刻狀態(tài)誤差作為內(nèi)在獎(jiǎng)勵(lì)。

現(xiàn)分析深度強(qiáng)化學(xué)習(xí)算法稀疏獎(jiǎng)勵(lì)問(wèn)題產(chǎn)生的原因,提出好奇心驅(qū)動(dòng)的深度確定性策略梯度,在行動(dòng)者網(wǎng)絡(luò)前增加好奇心模塊提升獎(jiǎng)勵(lì)獲取來(lái)源,在機(jī)器人運(yùn)動(dòng)規(guī)劃訓(xùn)練前期獎(jiǎng)勵(lì)獲取有一定提升,更充分利用狀態(tài)信息。深度確定性策略梯度可處理高維數(shù)據(jù),并且輸出的是連續(xù)動(dòng)作,相比深度Q網(wǎng)絡(luò)更加平滑。

1 深度確定性策略梯度和好奇心算法

1.1 深度確定性策略梯度

深度強(qiáng)化學(xué)習(xí)是一種端到端的感知與控制算法,通過(guò)深度學(xué)習(xí)感知每個(gè)時(shí)刻智能體感知環(huán)境的高維度交互信息,得到具體的狀態(tài)空間,按照某種策略從狀態(tài)得到動(dòng)作,并基于預(yù)期回報(bào)來(lái)評(píng)價(jià)各動(dòng)作的價(jià)值,并將感知環(huán)境對(duì)動(dòng)作的反應(yīng),不斷循環(huán)該過(guò)程得到最優(yōu)策略[18],深度強(qiáng)化學(xué)習(xí)基本框架如圖1所示。

圖1 深度強(qiáng)化學(xué)習(xí)基本框架Fig.1 Basic framework of deep reinforcement learning

因DQN只能處理離散和低維的動(dòng)作空間,故對(duì)于連續(xù)控制任務(wù)無(wú)法應(yīng)用。可通過(guò)離散化動(dòng)作空間的方式使用,如將[0,1]動(dòng)作空間離散為(0, 0.25, 0.5, 0.75, 1),但該方式在應(yīng)對(duì)大范圍動(dòng)作空間時(shí)會(huì)損失一定動(dòng)作結(jié)構(gòu)信息,而且如何界定動(dòng)作數(shù)量劃分標(biāo)準(zhǔn)會(huì)導(dǎo)致訓(xùn)練難度增大。

基于值函數(shù)的深度強(qiáng)化學(xué)習(xí)算法,如DQN,可解決離散動(dòng)作空間的任務(wù)。而對(duì)于連續(xù)動(dòng)作空間的任務(wù),采用基于策略梯度的深度強(qiáng)化學(xué)習(xí)算法可以獲得更好的決策效果。策略梯度通過(guò)不斷計(jì)算策略的總獎(jiǎng)勵(lì)期望值關(guān)于策略參數(shù)的梯度來(lái)更新參數(shù),得到最優(yōu)策略。

DDPG作為一種基于策略梯度的深度強(qiáng)化學(xué)習(xí)算法,由Actor網(wǎng)絡(luò)μ(s|θμ)、Critic網(wǎng)絡(luò)Q(s,a|θQ)和Actor目標(biāo)網(wǎng)絡(luò)μ(s|θμ′)以及Critic目標(biāo)網(wǎng)絡(luò)(Target-Critic)Q(s,a|θQ′)組成,隨機(jī)噪聲和經(jīng)驗(yàn)回放以離線策略的方式供網(wǎng)絡(luò)訓(xùn)練[19]。

DDPG分別采用參數(shù)為θμ和θQ的深度神經(jīng)網(wǎng)絡(luò)來(lái)表示確定性策略a=πμ(s|θμ)和值函數(shù)Q(s,a|θQ)。策略網(wǎng)絡(luò)用來(lái)更新策略,對(duì)應(yīng)Actor-Critic框架的Actor。值網(wǎng)絡(luò)用來(lái)逼近狀態(tài)動(dòng)作對(duì)的值函數(shù),并提供梯度信息,對(duì)應(yīng)Actor-Critic框架的Critic。在DDPG中,定義目標(biāo)函數(shù)為帶折扣的獎(jiǎng)賞和,表達(dá)式為

J(θμ)=Eθμ(r1+γr2+γ2r3+…)

(1)

式(1)中:r1、r2、r3、…為第一、二、三、…時(shí)刻的獎(jiǎng)賞;γ為獎(jiǎng)賞折扣。

采用隨機(jī)梯度下降方法來(lái)對(duì)目標(biāo)函數(shù)進(jìn)行端對(duì)端的優(yōu)化。目標(biāo)函數(shù)關(guān)于θμ的梯度等價(jià)于Q值函數(shù)關(guān)于θμ的期望梯度。

(2)

根據(jù)策略性梯度a=πμ(s|θμ)可得

(3)

通過(guò)DQN中更新值函數(shù)的方法來(lái)更新評(píng)論家網(wǎng)絡(luò),此時(shí)梯度信息為

(4)

1.2 好奇心算法

強(qiáng)化學(xué)習(xí)作為一種依靠與環(huán)境交互試錯(cuò)來(lái)求解最優(yōu)策略的算法,在該過(guò)程中,只有在任務(wù)成功或失敗時(shí)才會(huì)得到獎(jiǎng)勵(lì),在探索環(huán)境初期完全依靠隨機(jī)性可能減慢尋找最優(yōu)解速度而出現(xiàn)稀疏獎(jiǎng)勵(lì)問(wèn)題。

好奇心驅(qū)動(dòng)是一類(lèi)使用內(nèi)在獎(jiǎng)勵(lì)引導(dǎo)智能體探索環(huán)境的方法,高效探索能夠更快地獲得外在獎(jiǎng)勵(lì),同時(shí)能夠降低環(huán)境的獎(jiǎng)勵(lì)、狀態(tài)轉(zhuǎn)移的不確定性,平衡探索與利用,因此好奇心驅(qū)動(dòng)可以解決稀疏獎(jiǎng)勵(lì)問(wèn)題帶來(lái)的稀疏性和不可靠性問(wèn)題[20]。圖2為內(nèi)在好奇心模塊(intrinsic curiosity module,ICM)結(jié)構(gòu),作為一種預(yù)測(cè)差法,包括正向模型和逆向模型。

圖2 好奇心模塊結(jié)構(gòu)Fig.2 Curiosity module structure

正向模型來(lái)預(yù)測(cè)下一步的狀態(tài)為

(5)

t時(shí)刻的內(nèi)在好奇心獎(jiǎng)勵(lì)為實(shí)際狀態(tài)表示和正向模型的誤差。

(6)

式(6)中:η為控制內(nèi)在好奇心獎(jiǎng)勵(lì)的比例參數(shù),η>0。

(7)

2 改進(jìn)的深度確定性策略梯度路徑規(guī)劃算法

2.1 加速前期訓(xùn)練的內(nèi)在好奇心模塊設(shè)計(jì)

在訓(xùn)練深度強(qiáng)化學(xué)習(xí)模型時(shí),樣本的獲取過(guò)程需要耗費(fèi)大量時(shí)間,特別是訓(xùn)練前期使用隨機(jī)策略探索環(huán)境時(shí),可能訓(xùn)練幾百回合也無(wú)法得到第一次正向獎(jiǎng)勵(lì)。造成該問(wèn)題的主要原因是稀疏獎(jiǎng)勵(lì)問(wèn)題,智能體與環(huán)境交互后無(wú)法獲得獎(jiǎng)勵(lì),則該條樣本對(duì)于智能體習(xí)得最優(yōu)策略的貢獻(xiàn)較小。若能縮短訓(xùn)練前期探索環(huán)境這一過(guò)程,即可加速學(xué)習(xí)過(guò)程,加快深度強(qiáng)化學(xué)習(xí)算法收斂。在實(shí)際機(jī)器人運(yùn)動(dòng)規(guī)劃時(shí),交互過(guò)程不僅耗時(shí)且與環(huán)境交互可能對(duì)硬件設(shè)備造成損耗,如碰撞和激光雷達(dá)壽命。

圖3 內(nèi)在好奇心模塊具體設(shè)計(jì)Fig.3 Specific design of the intrinsic curiosity module

2.2 好奇心驅(qū)動(dòng)的深度確定性策略梯度機(jī)器人路徑規(guī)劃算法

好奇心驅(qū)動(dòng)的深度確定性策略梯度(intrinsic curiosity deep deterministic strategy gradient, ICDDPG)滿(mǎn)足自身運(yùn)動(dòng)模型和環(huán)境約束條件,可在連續(xù)的動(dòng)作空間中找到最優(yōu)策略,通過(guò)評(píng)估到達(dá)目標(biāo)點(diǎn)。算法的優(yōu)化目標(biāo)為利用當(dāng)前機(jī)器人自身狀態(tài)以及環(huán)境信息直接控制機(jī)器人動(dòng)作(線速度、角速度)到達(dá)目標(biāo)點(diǎn),Actor網(wǎng)絡(luò)與Target-Actor網(wǎng)絡(luò)輸出動(dòng)作,Critic網(wǎng)絡(luò)與Target-Critic網(wǎng)絡(luò)負(fù)責(zé)估計(jì)動(dòng)作Q值,ICM模塊預(yù)測(cè)下一時(shí)刻狀態(tài)給出內(nèi)在獎(jiǎng)勵(lì),經(jīng)驗(yàn)回放池負(fù)責(zé)存儲(chǔ)探索數(shù)據(jù),Gazebo為仿真交互環(huán)境,獎(jiǎng)勵(lì)包括內(nèi)在好奇心獎(jiǎng)勵(lì)和外部任務(wù)獎(jiǎng)勵(lì)。

如圖5所示,網(wǎng)絡(luò)訓(xùn)練時(shí),通過(guò)在經(jīng)驗(yàn)回放池中取得樣本S,更新Actor網(wǎng)絡(luò)參數(shù)以獲取更高獎(jiǎng)勵(lì)。Actor目標(biāo)網(wǎng)絡(luò)根據(jù)采樣的S′預(yù)估動(dòng)作A′,將S′和A′傳給Critic目標(biāo)網(wǎng)絡(luò),得到下一狀態(tài)的Q值,同時(shí)Critic網(wǎng)絡(luò)計(jì)算當(dāng)前狀態(tài)Q值,通過(guò)最小化損失函數(shù)更新Critic網(wǎng)絡(luò)參數(shù)。

圖4 加入內(nèi)在獎(jiǎng)勵(lì)更新ActorFig.4 Adding intrinsic rewards to update Actor

圖5 好奇心驅(qū)動(dòng)的深度確定性策略梯度算法流程圖Fig.5 The flow chart of the curiosity-driven deep deterministic strategy gradient algorithm

3 實(shí)驗(yàn)結(jié)果對(duì)比與分析

按照提出ICDDPG進(jìn)行移動(dòng)機(jī)器人路徑規(guī)劃,在仿真場(chǎng)景內(nèi)不斷地學(xué)習(xí)探索,一旦機(jī)器人最大步數(shù)未碰撞、未到達(dá)目標(biāo)點(diǎn)或發(fā)生碰撞,則復(fù)位整個(gè)場(chǎng)景;若到達(dá)目標(biāo)點(diǎn),則重新隨機(jī)生成目標(biāo)點(diǎn),機(jī)器人將以上一個(gè)目標(biāo)點(diǎn)作為起點(diǎn)進(jìn)行路徑規(guī)劃。

Gazebo仿真場(chǎng)景如圖6、圖7和圖8所示,仿真機(jī)器人為T(mén)urtlebot3-Burger,如圖9所示。仿真場(chǎng)景1和2大小均為4.5 m×4.5 m,目標(biāo)點(diǎn)位置從[-1.5, -0.5, 0.5, 1.5]隨機(jī)生成,[1,1]、[-1,1]、[1,-1]、[-1,-1]為障礙物。仿真場(chǎng)景3大小為20 m×20 m,包括靜態(tài)障礙物和動(dòng)態(tài)障礙物,目標(biāo)點(diǎn)位置在圍墻內(nèi)隨機(jī)生成,設(shè)置動(dòng)態(tài)障礙物在隨機(jī)運(yùn)動(dòng)時(shí)只能與仿真機(jī)器人發(fā)生碰撞。在矢量空間中,機(jī)器人的動(dòng)作主要由線速度和角速度進(jìn)行控制,線速度約束為0~1 m/s,角速度約束為-0.5~0.5 rad/s,且均為連續(xù)值。仿真機(jī)器人為T(mén)urtlebot3-Burger,其自身與環(huán)境交互參數(shù)如表1所示。

圖6 Gazebo仿真場(chǎng)景1Fig.6 Simulation scene 1 for Gazebo

圖7 Gazebo仿真場(chǎng)景2Fig.7 Simulation scene 2 for Gazebo

圖8 仿真場(chǎng)景3Fig.8 Simulation scene 3 for Gazebo

圖9 仿真機(jī)器人Fig.9 Simulation robot

表1 仿真機(jī)器人參數(shù)Table 1 Simulation robot parameters

DDPG選取策略為ε-greedy,訓(xùn)練初始階段依靠隨機(jī)性探索環(huán)境,經(jīng)一定步數(shù)后,選擇隨機(jī)性概率以0.992衰減,根據(jù)網(wǎng)絡(luò)生成動(dòng)作概率增加。Actor與Critic網(wǎng)絡(luò)隱藏層的激活函數(shù)均為relu,Actor輸出層線速度和角速度,激活函數(shù)分別為sigmoid和tanh。網(wǎng)絡(luò)模型的具體超參數(shù)見(jiàn)表2,其中網(wǎng)絡(luò)神經(jīng)元考慮了移植到真實(shí)硬件環(huán)境時(shí),使用神經(jīng)元數(shù)相對(duì)較少,因此將每批次經(jīng)驗(yàn)條數(shù)設(shè)置為128。

機(jī)器人路徑規(guī)劃仿真實(shí)驗(yàn)共設(shè)置200個(gè)回合,經(jīng)一定回合,經(jīng)驗(yàn)回放池滿(mǎn)足儲(chǔ)存3 000條數(shù)據(jù)樣本,開(kāi)始供Actor、Critic和ICM訓(xùn)練并更新目標(biāo)網(wǎng)絡(luò),并繼續(xù)完成其余回合任務(wù)。機(jī)器人路徑規(guī)劃到達(dá)目標(biāo)點(diǎn)獎(jiǎng)勵(lì)為150,發(fā)生碰撞為-200。獎(jiǎng)勵(lì)函數(shù)設(shè)置為

(8)

式(8)中:Dscan為激光雷達(dá)感知到的距離;Dgoal為機(jī)器人到達(dá)目標(biāo)點(diǎn)的最小距離;Dmin為機(jī)器人與墻壁或障礙物的最小碰撞距離;α、β為機(jī)器人在最大步數(shù)未碰撞而結(jié)束回合時(shí)的獎(jiǎng)勵(lì)因子,為了平衡任務(wù)回合獎(jiǎng)懲,將其設(shè)置為0.1和0.2;Dir和Dis分別為回合結(jié)束時(shí)機(jī)器人與目標(biāo)點(diǎn)朝向角差值和距離。

表2 超參數(shù)Table 2 Hyper-parameters

通過(guò)表3可得出,訓(xùn)練前期因采用ε-greedy策略,處于探索環(huán)境階段時(shí)隨機(jī)性較大,DQN算法每回合所獲得的獎(jiǎng)勵(lì)幾乎全部為負(fù)值,在只有少量樣本的情景下難以收斂,DDPG算法和ICDDPG算法的平均獎(jiǎng)勵(lì)呈上升趨勢(shì),而ICDDPG算法所得獎(jiǎng)勵(lì)明顯高于DDPG算法,表明內(nèi)在好奇心模塊可在一定程度上加速獎(jiǎng)勵(lì)的獲取。

在以上200個(gè)回合的仿真實(shí)驗(yàn)中,如圖10、圖11所示。DQN、DDPG和提出的ICDDPG在仿真場(chǎng)景1中的平均獎(jiǎng)勵(lì)分別為-188.2、-18.2和4.2,在仿真場(chǎng)景2中的平均獎(jiǎng)勵(lì)為-184.8、-15.8和2.2。在200個(gè)回合訓(xùn)練中,ICDDPG算法在兩個(gè)仿真環(huán)境中目標(biāo)點(diǎn)到達(dá)次數(shù)分別為33次和36次,DDPG為10次和18次,DQN為16次和20次。

ICDDPG算法可以通過(guò)感知的狀態(tài)信息獲得額外獎(jiǎng)勵(lì),有利于前期隨機(jī)性較高時(shí)的訓(xùn)練。隨著訓(xùn)練回合的深入,隨機(jī)性降低,而動(dòng)作通過(guò)算法得到的概率增加,機(jī)器人進(jìn)入利用知識(shí)階段,到達(dá)目標(biāo)點(diǎn)次數(shù)增加,每次訓(xùn)練獲得的獎(jiǎng)勵(lì)值不斷增加,即機(jī)器人能夠較好地利用學(xué)到的知識(shí)到達(dá)目標(biāo)點(diǎn)。

如圖10、圖11所示,仿真場(chǎng)景3的實(shí)驗(yàn)結(jié)果表明加入ICM后,訓(xùn)練前期獎(jiǎng)勵(lì)獲取有一定提升,ICDDPG相比于DQN所得獎(jiǎng)勵(lì)有明顯提升,與DDPG相比大多數(shù)回合的獎(jiǎng)勵(lì)更高,DQN、DDPG和ICDDPG的目標(biāo)點(diǎn)到達(dá)次數(shù)分別為2、13和19次。本文算法能夠更充分利用狀態(tài)信息,好奇心模塊能夠加速前期訓(xùn)練,使得算法能更快收斂。

在訓(xùn)練更多回合算法所得獎(jiǎng)勵(lì)穩(wěn)定時(shí),使用該模型在實(shí)際場(chǎng)景下進(jìn)行了無(wú)障礙、靜態(tài)和動(dòng)態(tài)障礙實(shí)驗(yàn),圖12為機(jī)器人硬件平臺(tái)ARTrobot在真實(shí)環(huán)境中情景。

表3 每40回合平均獎(jiǎng)勵(lì)Table 3 Average rewards for every 40 rounds

圖10 在仿真場(chǎng)景3中DQN和ICDDPG平均獎(jiǎng)勵(lì)對(duì)比圖Fig.10 Mean reward comparison chart of DQN and ICDDPG in simulation scene 3

圖11 在仿真場(chǎng)景3中DDPG和ICDDPG平均獎(jiǎng)勵(lì)對(duì)比圖Fig.11 Mean reward comparison chart of DDPG and ICDDPG in simulation scene 3

圖12 ARTrobot 機(jī)器人Fig.12 ARTrobot robot

在圖13的無(wú)障礙場(chǎng)景下進(jìn)行實(shí)驗(yàn)時(shí),由于在訓(xùn)練前期使用ε-greedy策略,給定的是隨機(jī)動(dòng)作,并受到墻壁影響是非直線,但最終成功到達(dá)目標(biāo)點(diǎn)。

在圖14的靜態(tài)障礙地圖中,目標(biāo)點(diǎn)為障礙后方,機(jī)器人與目標(biāo)點(diǎn)間連線有一個(gè)靜態(tài)障礙,機(jī)器人在與障礙的距離大于碰撞距離時(shí),按照直線進(jìn)行運(yùn)動(dòng)規(guī)劃,小于碰撞距離時(shí),機(jī)器人受到碰撞影響較大,進(jìn)行避障,并到達(dá)目標(biāo)點(diǎn)。

圖13 無(wú)障礙路徑規(guī)劃Fig.13 Accessible path planning

圖14 靜態(tài)障礙路徑規(guī)劃Fig.14 Static obstacle path planning

在圖15以人為動(dòng)態(tài)障礙,以柱子為靜態(tài)障礙的場(chǎng)景中。當(dāng)機(jī)器人靠近時(shí),刻意去往機(jī)器人路徑規(guī)劃的方向,由于機(jī)器人根據(jù)激光雷達(dá)發(fā)布動(dòng)作,成功進(jìn)行避讓?zhuān)⒗^續(xù)靠近目標(biāo)點(diǎn),在給機(jī)器人留有可達(dá)路線的余地后,可成功到達(dá)。對(duì)于本文算法的真實(shí)環(huán)境實(shí)驗(yàn),在以上目標(biāo)設(shè)置中,在某些情況下可以達(dá)到近似最佳路徑。

圖15 動(dòng)態(tài)障礙路徑規(guī)劃Fig.15 Dynamic obstacle path planning

4 結(jié)論

分析了深度強(qiáng)化學(xué)習(xí)算法稀疏獎(jiǎng)勵(lì)問(wèn)題產(chǎn)生的原因,提出了一種基于好奇心驅(qū)動(dòng)的深度確定性策略梯度路徑規(guī)劃算法,將激光雷達(dá)、目標(biāo)點(diǎn)距離及自身位置信息作為狀態(tài)樣本,以連續(xù)的線速度與角速度作為動(dòng)作輸出,加入內(nèi)在好奇心模塊提升獎(jiǎng)勵(lì)獲取來(lái)源,提高感知信息的利用率?;谏疃却_定性策略梯度算法在Gazebo中設(shè)計(jì)了仿真實(shí)驗(yàn)訓(xùn)練,驗(yàn)證了內(nèi)在好奇心模塊有利于解決深度強(qiáng)化學(xué)習(xí)算法訓(xùn)練初期隨機(jī)性高而獎(jiǎng)勵(lì)較難獲取的問(wèn)題。在實(shí)際場(chǎng)景中進(jìn)行了實(shí)驗(yàn),驗(yàn)證了本文算法的有效性。

猜你喜歡
梯度深度機(jī)器人
一個(gè)改進(jìn)的WYL型三項(xiàng)共軛梯度法
深度理解一元一次方程
一種自適應(yīng)Dai-Liao共軛梯度法
深度觀察
深度觀察
一類(lèi)扭積形式的梯度近Ricci孤立子
深度觀察
機(jī)器人來(lái)幫你
認(rèn)識(shí)機(jī)器人
機(jī)器人來(lái)啦
黄大仙区| 丹棱县| 临夏市| 河池市| 巴中市| 清水河县| 太白县| 阳江市| 五寨县| 金阳县| 上饶县| 高碑店市| 渭源县| 西峡县| 龙陵县| 阿拉善左旗| 容城县| 吉水县| 青神县| 甘德县| 曲阳县| 道真| 江津市| 苍山县| 东港市| 白银市| 商洛市| 且末县| 称多县| 阿坝县| 修武县| 武宁县| 阜新| 建德市| 玛纳斯县| 台江县| 阳城县| 崇阳县| 旬邑县| 侯马市| 平湖市|