国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

未知環(huán)境下移動(dòng)機(jī)器人自主避障算法的研究

2021-05-21 04:58:50問澤藤溫淑慧
燕山大學(xué)學(xué)報(bào) 2021年3期
關(guān)鍵詞:移動(dòng)機(jī)器人障礙物神經(jīng)網(wǎng)絡(luò)

問澤藤,溫淑慧,*,張 迪

(1.燕山大學(xué) 智能控制系統(tǒng)與智能裝備教育部工程研究中心,河北 秦皇島 066004; 2.燕山大學(xué) 工業(yè)計(jì)算機(jī)控制工程河北省重點(diǎn)實(shí)驗(yàn)室,河北 秦皇島 066004)

0 引言

自主避障能力是移動(dòng)機(jī)器人進(jìn)行路徑規(guī)劃必不可少的基本能力之一,研究早期的大部分學(xué)者致力于研究靜態(tài)的、單個(gè)障礙物的簡單情形[1-2],并取得了不錯(cuò)的成果,然而現(xiàn)實(shí)生活環(huán)境是非結(jié)構(gòu)化且未知的,機(jī)器人對周圍環(huán)境的感知會(huì)因?yàn)楦鞣N干擾存在不確定性,如何在未知的非結(jié)構(gòu)化環(huán)境中實(shí)現(xiàn)機(jī)器人高效的自主避障與目標(biāo)導(dǎo)航,至今仍是一個(gè)研究熱點(diǎn)與難點(diǎn)。

隨著人工智能技術(shù)逐漸地發(fā)展,一種基于深度學(xué)習(xí)的避障算法被研究出來。這種算法旨在使機(jī)器人通過深度神經(jīng)網(wǎng)絡(luò)來感知傳感器的傳輸數(shù)據(jù),以學(xué)習(xí)控制策略。根據(jù)學(xué)者們的研究成果,可以將基于學(xué)習(xí)的避障算法歸結(jié)為兩類。第一類是通過智能學(xué)習(xí)訓(xùn)練機(jī)器人學(xué)習(xí)控制策略。該類方法一般使用深度神經(jīng)網(wǎng)絡(luò)對機(jī)器人避障問題進(jìn)行建模,并通過大型數(shù)據(jù)集對其進(jìn)行訓(xùn)練[3-5]。但是這種方法在很大程度上依賴于大量涵蓋各種場景的訓(xùn)練數(shù)據(jù),并且它對環(huán)境變化的泛化能力較弱。第二種方法是使用端到端的深度強(qiáng)化學(xué)習(xí)(DRL)框架。ZHU等人[6]基于預(yù)訓(xùn)練的ResNet構(gòu)建了一個(gè)結(jié)合深度學(xué)習(xí)的Actor-Critic模型,實(shí)現(xiàn)離散三維環(huán)境中的機(jī)器人導(dǎo)航。TAI等人[7]通過連續(xù)的DRL算法訓(xùn)練了一個(gè)端到端的策略,通過將10維激光數(shù)據(jù)和相對的目標(biāo)位置作為輸入狀態(tài)來解決無先驗(yàn)地圖信息的導(dǎo)航問題。XIE等人[8]建立了一個(gè)基于double DQN和dueling DQN機(jī)制的D3QN模型用于自主避障。KHAN等人[9]使用了帶有輔助獎(jiǎng)勵(lì)和內(nèi)存增強(qiáng)網(wǎng)絡(luò)的自我監(jiān)督策略梯度架構(gòu)來幫助機(jī)器人導(dǎo)航到目標(biāo)位置。文獻(xiàn)[10]和[11]通過深度強(qiáng)化學(xué)習(xí)解決了機(jī)器人導(dǎo)航問題,并設(shè)計(jì)了具有長期短期記憶(LSTM)的神經(jīng)網(wǎng)絡(luò)架構(gòu)來記憶環(huán)境。然而深度強(qiáng)化學(xué)習(xí)算法在訓(xùn)練時(shí)普遍存在收斂速度較慢問題,容易產(chǎn)生訓(xùn)練失敗結(jié)果。

本文基于深度強(qiáng)化學(xué)習(xí),對機(jī)器人的避障和導(dǎo)航問題進(jìn)行了研究。針對基于全連接神經(jīng)網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)算法在訓(xùn)練機(jī)器人避障時(shí)收斂速度較慢的問題,提出了基于長短期記憶網(wǎng)絡(luò)的近端策略優(yōu)化避障算法。結(jié)合所設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和獎(jiǎng)勵(lì)函數(shù)進(jìn)行端到端的模型訓(xùn)練,將二維雷達(dá)傳感器的感知數(shù)據(jù)、機(jī)器人的位置及期望目標(biāo)位置等信息直接映射為機(jī)器人的連續(xù)動(dòng)作指令,并設(shè)計(jì)有效的獎(jiǎng)勵(lì)函數(shù)對動(dòng)作指令進(jìn)行評價(jià),實(shí)現(xiàn)無先驗(yàn)地圖信息情況下機(jī)器人在非結(jié)構(gòu)化環(huán)境中的自主避障。

1 靜動(dòng)態(tài)環(huán)境下避障算法研究

1.1 移動(dòng)機(jī)器人建模

本節(jié)以非完整輪式差分驅(qū)動(dòng)機(jī)器人Turtlebot3 Waffle Pi為研究對象,在具有靜動(dòng)態(tài)障礙物的歐幾里得平面上,進(jìn)行了機(jī)器人自主避障問題的研究。問題可描述如下:在t時(shí)刻,處于未知復(fù)雜的非結(jié)構(gòu)化場景中的機(jī)器人通過雷達(dá)感知到部分環(huán)境狀態(tài)st,并試圖獨(dú)立探索安全穩(wěn)健的策略πθ(at|st),進(jìn)而計(jì)算出一個(gè)無碰撞可能性的動(dòng)作at,最終規(guī)劃出不與任何障礙物碰撞的最佳軌跡,使其在更短的時(shí)間內(nèi)從當(dāng)前位置到達(dá)指定的目標(biāo)位置g,并且不與行走途中的障礙物發(fā)生沖突,其中θ是策略參數(shù)。

1.2 端到端的深度強(qiáng)化學(xué)習(xí)框架

本文所設(shè)計(jì)的端到端深度強(qiáng)化學(xué)習(xí)框架主要由以下三部分組成:

1) 狀態(tài)空間:移動(dòng)機(jī)器人通過二維的激光雷達(dá)實(shí)現(xiàn)與周圍環(huán)境之間的交互。機(jī)器人的狀態(tài)向量st由傳感器所獲得的二維激光數(shù)據(jù)、當(dāng)前位置的坐標(biāo)、目標(biāo)位置的坐標(biāo)、當(dāng)前的速度(包括線速度和角速度)和機(jī)器人的半徑組成,可表示為[lt,ct,g,vt,wt,R]。

2) 動(dòng)作空間:機(jī)器人的動(dòng)作空間包括線速度和旋轉(zhuǎn)速度,表示為運(yùn)動(dòng)命令at=[vt,wt]。在本研究中,考慮到機(jī)器人運(yùn)動(dòng)學(xué)和現(xiàn)實(shí)應(yīng)用需求,對線速度和角速度范圍進(jìn)行歸一化處理,將機(jī)器人線速度的范圍限定為vt∈[0,0.5],角速度的范圍限定為wt∈[0,0.5]。

3) 獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì):獎(jiǎng)勵(lì)函數(shù)是決定一個(gè)強(qiáng)化學(xué)習(xí)算法是否可以成功收斂的關(guān)鍵。本文的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)如下[12]:

(1)

1.3 基于長短期記憶網(wǎng)絡(luò)的近端策略優(yōu)化避障算法

1.3.1 近端策略優(yōu)化算法

近端策略優(yōu)化算法(Proximal Policy Optimization,PPO)[13]是一種基于策略-評價(jià)架構(gòu)(結(jié)構(gòu)圖如圖1所示)的新型的深度強(qiáng)化學(xué)習(xí)算法,可以在多個(gè)訓(xùn)練步數(shù)中實(shí)現(xiàn)小批量更新,解決了策略梯度問題中步長難以確定的問題,可以被用于離散和連續(xù)動(dòng)作控制。本節(jié)選擇基于PPO算法來生成移動(dòng)機(jī)器人自主避障和目標(biāo)導(dǎo)航問題的最優(yōu)控制策略。

圖1 策略-評價(jià)算法結(jié)構(gòu)示意圖Fig1 Structure diagram of Actor-Critic algorithm

基于策略-評價(jià)算法框架的策略梯度計(jì)算方法為[14]

(2)

(3)

其中,θ代表更新前的策略參數(shù),θ′代表更新后的策略參數(shù),α表示新舊策略之間的參數(shù)更新步長。策略梯度算法對步長α十分敏感,如果α過大,則易發(fā)散;如果α太小,則訓(xùn)練過程將會(huì)非常緩慢,算法將不易收斂。所以,不合適的步長α將會(huì)使算法將會(huì)難以學(xué)習(xí)到合適的策略。為了解決上面的問題,Shulman博士等人[14]提出信賴區(qū)域策略優(yōu)化(Trust Region Policy Optimization,TRPO)算法。

TRPO算法為使累積獎(jiǎng)勵(lì)單調(diào)不減,將參數(shù)更新后策略所對應(yīng)的累積獎(jiǎng)勵(lì)函數(shù)轉(zhuǎn)換為參數(shù)更新前策略所對應(yīng)的累積獎(jiǎng)勵(lì)函數(shù)與參數(shù)更新前后策略的獎(jiǎng)勵(lì)差值之和的表示方法,當(dāng)策略更新前后的參數(shù)變化很小時(shí),參數(shù)更新后狀態(tài)分布的變化可忽略。算法使用了參數(shù)更新前策略對應(yīng)的狀態(tài)分布代替了更新后策略對應(yīng)的狀態(tài)分布,則可得到目標(biāo)函數(shù)[14]:

(4)

TRPO算法需要更新策略來最大化目標(biāo)函數(shù),為了避免策略更新時(shí)步長過大或者過小問題,對新策略和舊策略之間的KL散度施加約束[14]:

(5)

(6)

(7)

1.3.2 神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

圖2是針對移動(dòng)機(jī)器人自主避障問題設(shè)計(jì)的深度神經(jīng)網(wǎng)絡(luò)控制策略結(jié)構(gòu)圖。整個(gè)神經(jīng)網(wǎng)絡(luò)具有兩個(gè)分支,策略網(wǎng)絡(luò)分支和評價(jià)網(wǎng)絡(luò)分支。兩個(gè)分支除輸出層外,其他均保持有相同的結(jié)構(gòu)。

圖2 移動(dòng)機(jī)器人自主避障系統(tǒng)全連接神經(jīng)網(wǎng)絡(luò)控制策略結(jié)構(gòu)圖Fig.2 Structure diagram of fully connected neural network control strategy for mobile robot autonomous obstacle avoidance system

將由機(jī)器人的狀態(tài)組成的一系列序列信息作為輸入向量,表示為st,輸入到第一隱藏層中進(jìn)行特征提取。第一、第二、第四隱藏層均為全連接層,其中一二連接層使用ReLU非線性函數(shù)作為激活函數(shù)。為了使神經(jīng)網(wǎng)絡(luò)可以做出更好的決策,在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中引入了長短期記憶網(wǎng)絡(luò)[15](Long Short Term Memory network, LSTM)作為第三隱藏層來更好地提取輸入向量的特征。利用LSTM的編碼和存儲(chǔ)功能來獲取一系列與時(shí)間相關(guān)的信息,使網(wǎng)絡(luò)可以考慮歷史的機(jī)器人狀態(tài)特征,從而可以探索出更適應(yīng)于當(dāng)前所處環(huán)境的策略。最后將第四隱藏層提取的特征輸入到輸出層。

策略網(wǎng)絡(luò)分支輸出當(dāng)前策略估計(jì)的均值μθ和方差σθ,分別使用Tanh函數(shù)和Sigmoid函數(shù)作為激活函數(shù),通過高斯分布N=(μθ,σθ)采樣, 獲得移動(dòng)機(jī)器人的此時(shí)最優(yōu)的線速度指令vt和角速度指令wt。評價(jià)網(wǎng)絡(luò)分支的輸出層只有一個(gè)神經(jīng)元,輸出狀態(tài)值估計(jì)Vφ(st)。

2 仿真及實(shí)驗(yàn)研究

2.1 仿真實(shí)驗(yàn)條件

本文仿真實(shí)驗(yàn)所用的系統(tǒng)環(huán)境為64位Ubuntu 16.04,采用機(jī)器人操作系統(tǒng)(Robot Operation System,ROS)中的Gazebo模擬器[8]搭建仿真環(huán)境,選擇Turtlebot3 Waffle Pi作為避障仿真研究所用的機(jī)器人模型。利用二維激光雷達(dá)獲取環(huán)境狀態(tài),通過里程計(jì)獲取自身的位姿,計(jì)算當(dāng)前所在位置的坐標(biāo)。

整個(gè)訓(xùn)練流程可分為兩個(gè)階段,階段一是通過執(zhí)行策略來收集樣本數(shù)據(jù),階段二是使用采集的樣本數(shù)據(jù)來更新策略參數(shù),整個(gè)訓(xùn)練過程在兩個(gè)階段之間交替進(jìn)行。首先在樣本采集期間,機(jī)器人通過傳感器獲得輸入觀察狀態(tài),利用神經(jīng)網(wǎng)絡(luò)提取狀態(tài)特征并最終輸出策略,使用該策略可以獲得機(jī)器人當(dāng)前時(shí)刻的動(dòng)作指令并執(zhí)行,環(huán)境產(chǎn)生新的變化,并通過對機(jī)器人反饋獎(jiǎng)勵(lì)值,來刺激機(jī)器人通過新的輸入狀態(tài)生成下一個(gè)動(dòng)作指令,將采集的樣本存儲(chǔ)到經(jīng)驗(yàn)集合中。使用神經(jīng)網(wǎng)絡(luò)作為非線性函數(shù)逼近器獲得狀態(tài)值函數(shù),用來估計(jì)優(yōu)勢函數(shù)。循環(huán)執(zhí)行上述過程直至訓(xùn)練步數(shù)達(dá)到設(shè)置的策略更新最小批量值,訓(xùn)練進(jìn)入策略參數(shù)更新階段,利用經(jīng)驗(yàn)集合中的K個(gè)樣本更新參數(shù),設(shè)置策略更新最小批量值的原因是為了更好地確定神經(jīng)網(wǎng)絡(luò)策略梯度的下降方向。一次性采集K個(gè)樣本輸入到神經(jīng)網(wǎng)絡(luò)的做法可以降低某單個(gè)錯(cuò)誤的樣本對于策略梯度下降方向的影響,同時(shí)提高算法的抗干擾性,最終致使計(jì)算出的策略梯度下降方向能夠更加接近理想值,算法盡快地實(shí)現(xiàn)收斂。

迭代更新網(wǎng)絡(luò)的過程如下,首先將訓(xùn)練樣本輸入至評價(jià)網(wǎng)絡(luò),利用Adam優(yōu)化器對損失函數(shù)進(jìn)行優(yōu)化,以更新評價(jià)網(wǎng)絡(luò)的參數(shù)。之后將訓(xùn)練樣本輸入到策略網(wǎng)絡(luò)中,同樣利用Adam優(yōu)化器去更新策略網(wǎng)絡(luò)的參數(shù)。表1為訓(xùn)練算法時(shí)算法所設(shè)置的超參數(shù)。

表1 超參數(shù)設(shè)置表Tab.1 Settings of hyperparameter value

本文主要針對無障礙場景以及多個(gè)動(dòng)態(tài)障礙物場景進(jìn)行模型訓(xùn)練,考慮到在實(shí)際應(yīng)用中,存在障礙物為不規(guī)則形狀的情況,設(shè)置了其他形狀障礙物來測試算法性能。

2.2 無障礙場景

首先,無障礙場景仿真環(huán)境如圖3所示,四周部分為4 m×4 m的墻體,左上角方形部分為目標(biāo)點(diǎn)。在進(jìn)行機(jī)器人訓(xùn)練的過程中,若機(jī)器人到達(dá)目標(biāo)位置后,目標(biāo)位置將會(huì)隨機(jī)改變,機(jī)器人將會(huì)向新的目標(biāo)位置繼續(xù)探索。

圖3 Gazebo移動(dòng)機(jī)器人無障礙仿真環(huán)境Fig3 Robot obstacle-free simulation in Gazebo

分別使用引入LSTM[15]前后的神經(jīng)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練。如圖4(a)為使用基于全連接神經(jīng)網(wǎng)絡(luò)的避障算法訓(xùn)練移動(dòng)機(jī)器人在無障礙物環(huán)境中實(shí)現(xiàn)目標(biāo)導(dǎo)航時(shí),每個(gè)回合的累積獎(jiǎng)勵(lì)的收斂曲線,圖4(b)為使用基于LSTM的神經(jīng)網(wǎng)絡(luò)的避障算法訓(xùn)練結(jié)果。隨著訓(xùn)練步數(shù)的增長,獎(jiǎng)勵(lì)值逐漸上升,在圖4(a)中,訓(xùn)練到1 200步左右時(shí),獎(jiǎng)勵(lì)值達(dá)到平穩(wěn),算法逐漸收斂,在圖4(b)中,訓(xùn)練500步左右時(shí),算法逐漸收斂。結(jié)果表明引入LSTM可以使避障算法加快收斂。

圖4 無障礙場景下獎(jiǎng)勵(lì)值曲線圖Fig.4 Curve of rewards in obstacle-free scene

在算法收斂后,為了測試訓(xùn)練出的模型的性能,在場景中隨機(jī)設(shè)置了幾個(gè)目標(biāo)點(diǎn)(用圓圈表示,其中序號(hào)代表目標(biāo)點(diǎn)順序),使用訓(xùn)練出的模型控制機(jī)器人來實(shí)現(xiàn)在無障礙訓(xùn)練場景中的自主行走。圖5(a)為機(jī)器人在Gazebo模擬器中進(jìn)行路徑規(guī)劃生成的軌跡圖,可以看出機(jī)器人成功到達(dá)了所設(shè)置的目標(biāo)點(diǎn)且沒有與墻體發(fā)生碰撞。

基于本文進(jìn)行的研究,可以與SLAM建圖算法進(jìn)行融合,實(shí)現(xiàn)對未知環(huán)境的自主建圖。圖5(b)為機(jī)器人在進(jìn)行路徑規(guī)劃的同時(shí)對環(huán)境構(gòu)建的地圖,將Gmapping算法與本章的自主避障算法整合為一個(gè)框架,使處于未知環(huán)境的機(jī)器人實(shí)現(xiàn)目標(biāo)導(dǎo)航并且同時(shí)自主完成對環(huán)境地圖的構(gòu)建。

圖5 無障礙場景下的移動(dòng)機(jī)器人軌跡圖Fig.5 Robot trajectory diagram in obstacle-free scene

2.3 有障礙場景

圖6(a)為只具有靜態(tài)障礙物的仿真環(huán)境,其中,四周部分為4 m×4 m的墻體,4個(gè)圓柱為靜態(tài)障礙物,左上角正方形為機(jī)器人的目標(biāo)點(diǎn)。圖6(b)為具有動(dòng)態(tài)障礙物的仿真環(huán)境,其中,墻體內(nèi)使用4個(gè)順時(shí)針旋轉(zhuǎn)的圓柱作為動(dòng)態(tài)障礙物,同樣正方形為目標(biāo)點(diǎn)。本節(jié)使用基于LSTM神經(jīng)網(wǎng)絡(luò)的近端策略優(yōu)化算法進(jìn)行訓(xùn)練。

圖6 Gazebo機(jī)器人有障礙物仿真環(huán)境Fig.6 Simulation environment with obstacles in Gazebo

不同于無障礙物環(huán)境下的機(jī)器人訓(xùn)練過程,此環(huán)境中增添了靜動(dòng)態(tài)障礙物,當(dāng)機(jī)器人與障礙物最短距離小于某一固定閾值時(shí),即該次訓(xùn)練迭代結(jié)束,進(jìn)入下一次迭代。并且在路徑規(guī)劃過程中同時(shí)利用Gmapping建圖算法進(jìn)行周圍環(huán)境地圖的構(gòu)建,實(shí)現(xiàn)機(jī)器人的自主建圖。

如圖7(a)所示,不規(guī)則曲線即為機(jī)器人的行走軌跡,在路徑規(guī)劃過程中,成功避開了圓柱狀的靜態(tài)障礙物,并且依次到達(dá)了隨機(jī)設(shè)置的幾個(gè)目標(biāo)位置。同時(shí),在具有靜態(tài)障礙物的未知環(huán)境下,通過將Gmapping算法與本章的自主避障算法整合,同樣可以使機(jī)器人在進(jìn)行路徑規(guī)劃的同時(shí)實(shí)現(xiàn)對環(huán)境的自主建圖。圖7(b)展示了機(jī)器人行進(jìn)的軌跡和自主對環(huán)境構(gòu)建的地圖。

圖7 具有靜態(tài)障礙物的場景下移動(dòng)機(jī)器人的軌跡圖Fig.7 Trajectory diagram of the mobile robot in scene with static obstacles

將圖6(a)所示環(huán)境中訓(xùn)練完成的模型遷移到如圖6(b)所示的動(dòng)態(tài)仿真環(huán)境中繼續(xù)訓(xùn)練,則經(jīng)過少量迭代步驟之后,機(jī)器人便可以在動(dòng)態(tài)環(huán)境中實(shí)現(xiàn)自主避障及目標(biāo)導(dǎo)航。如圖8(a)所示,機(jī)器人可逐次到達(dá)每個(gè)目標(biāo)點(diǎn)。圖8(b)為機(jī)器人在規(guī)劃路徑到達(dá)各個(gè)目標(biāo)位置的過程中,同時(shí)利用Gmapping算法構(gòu)建的某時(shí)刻的二維環(huán)境地圖。

圖8 具有動(dòng)態(tài)障礙物的場景下移動(dòng)機(jī)器人的軌跡圖Fig.8 Trajectory diagram of the mobile robot in scene with dynamic obstacles

處理形狀多樣性的障礙物的能力是評估避障策略性能的重要指標(biāo)。為驗(yàn)證所提算法對于其他形狀障礙物的避障能力,將學(xué)習(xí)到的策略應(yīng)用于其他情形。在Gazebo模擬器中設(shè)計(jì)了如圖9(a)所示的靜態(tài)仿真環(huán)境和圖9(b)所示的動(dòng)態(tài)仿真環(huán)境,圓柱是動(dòng)態(tài)障礙物,按照虛線的箭頭方向移動(dòng),其他形狀物體為靜態(tài)障礙物,包括方形木塊、長條墻體、圓桶等,并且在環(huán)境中隨機(jī)設(shè)置了幾個(gè)目標(biāo)位置。通過圖中呈現(xiàn)的實(shí)線軌跡,展示了機(jī)器人最終成功規(guī)劃路徑依次到達(dá)了目標(biāo)位置,而不曾與障礙物發(fā)生沖突,這表明通過所提算法學(xué)習(xí)到的策略具有避開其他形狀障礙物的能力。

圖9 具有其他形狀障礙物的仿真環(huán)境下移動(dòng)機(jī)器人的軌跡圖Fig.9 Trajectory diagram of mobile robot in simulation environment with obstacles of other shapes

2.4 對比實(shí)驗(yàn)

為更好地展現(xiàn)所提出的算法性能,將其與基于D3QN[8]的避障算法進(jìn)行對比。

首先在圖3的無障礙環(huán)境中進(jìn)行對比訓(xùn)練,可得如圖10的變化曲線。根據(jù)圖10可以看出, D3QN算法在約200回合時(shí)獎(jiǎng)勵(lì)值上升,直至450回合時(shí)不再有上升趨勢,但是獎(jiǎng)勵(lì)值上升過程中,會(huì)有許多突然下降的情況,這表示機(jī)器人發(fā)生碰撞。由此可以看出,相比于基于PPO[13]的算法,基于D3QN的算法可以使機(jī)器人實(shí)現(xiàn)目標(biāo)導(dǎo)航,但難以學(xué)到穩(wěn)定有效的避障策略。

圖10 無障礙環(huán)境下基于D3QN算法和基于PPO算法訓(xùn)練機(jī)器人時(shí)的獎(jiǎng)勵(lì)值變化曲線對比圖Fig.10 Comparison of the change curve of reward value based on D3QN algorithm and PPO algorithm in the obstacle-free environment

在圖9(a)中的仿真環(huán)境中對兩種算法進(jìn)行了訓(xùn)練,繪制每回合累計(jì)獎(jiǎng)勵(lì)值曲線,結(jié)果如圖11所示。從圖11可以看出,D3QN算法的獎(jiǎng)勵(lì)值在1 400回合左右有上升趨勢,但仍存在較多負(fù)獎(jiǎng)勵(lì)值,說明D3QN算法可以使機(jī)器人到達(dá)指定目標(biāo)位置,但無法保證不發(fā)生碰撞,而改進(jìn)后的PPO算法在2 000回合左右實(shí)現(xiàn)收斂,可以使機(jī)器人學(xué)會(huì)躲避障礙物,安全導(dǎo)航至目標(biāo)位置。

使用Turtlebot2機(jī)器人對本文提出的避障算法進(jìn)行了實(shí)驗(yàn)驗(yàn)證。圖12為Turtlebot2在具有靜態(tài)障礙物的場景下進(jìn)行自主避障的過程。

圖12(a)中將長方形紙箱作為靜態(tài)障礙物,圖12(b)中將人作為靜態(tài)障礙物。結(jié)果顯示機(jī)器人可以通過改進(jìn)后的PPO算法模型實(shí)現(xiàn)自主避障。

如圖13所示,是動(dòng)態(tài)環(huán)境下移動(dòng)機(jī)器人的自主避障過程,分別將人、紙箱和人依次作為動(dòng)態(tài)障礙物,從圖中可以看出當(dāng)動(dòng)態(tài)障礙物出現(xiàn)在機(jī)器人感知范圍內(nèi),機(jī)器人能避開障礙物繼續(xù)行走。

圖11 有障礙環(huán)境下基于D3QN算法和基于PPO算法訓(xùn)練機(jī)器人時(shí)的獎(jiǎng)勵(lì)值變化曲線對比圖Fig.11 Comparison of the curve of reward value based on D3QN algorithm and PPO algorithm in the obstacle environment

圖12 Turtlebot2機(jī)器人靜態(tài)環(huán)境下的避障實(shí)驗(yàn)Fig.12 Obstacle avoidance experiment of Turtlebot2 robot in static environment

3 結(jié)論

本文針對移動(dòng)機(jī)器人在具有動(dòng)靜態(tài)障礙物的環(huán)境下的自主避障問題,提出了基于LSTM網(wǎng)絡(luò)的近端策略優(yōu)化避障算法。根據(jù)機(jī)器人自主避障運(yùn)動(dòng)學(xué)模型設(shè)計(jì)端到端的深度強(qiáng)化學(xué)習(xí)框架,進(jìn)一步引入長短期記憶網(wǎng)絡(luò)到全連接神經(jīng)網(wǎng)絡(luò)中,使機(jī)器人更快地學(xué)習(xí)到有效的策略。仿真結(jié)果表明,引入LSTM的近端策略優(yōu)化避障算法具有更快的收斂速度,并且比基于D3QN的避障算法成功率更高。最后在機(jī)器人平臺(tái)Turtlebot2上對所提出的避障算法進(jìn)行了實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)結(jié)果表明在靜動(dòng)態(tài)環(huán)境中可以實(shí)現(xiàn)機(jī)器人無碰撞行走并到達(dá)指定的目標(biāo)位置。

圖13 Turtlebot2機(jī)器人動(dòng)態(tài)環(huán)境下的避障實(shí)驗(yàn)Fig.13 Obstacle avoidance experiment of Turtlebot2 robot in dynamic environment

猜你喜歡
移動(dòng)機(jī)器人障礙物神經(jīng)網(wǎng)絡(luò)
移動(dòng)機(jī)器人自主動(dòng)態(tài)避障方法
高低翻越
SelTrac?CBTC系統(tǒng)中非通信障礙物的設(shè)計(jì)和處理
神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
電子制作(2019年19期)2019-11-23 08:42:00
基于Twincat的移動(dòng)機(jī)器人制孔系統(tǒng)
基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
極坐標(biāo)系下移動(dòng)機(jī)器人的點(diǎn)鎮(zhèn)定
基于引導(dǎo)角的非完整移動(dòng)機(jī)器人軌跡跟蹤控制
清水县| 兴和县| 梁平县| 石景山区| 绵竹市| 威远县| 龙口市| 浮山县| 汪清县| 新源县| 安阳县| 巴林左旗| 贺州市| 奇台县| 岱山县| 林周县| 灵宝市| 儋州市| 普宁市| 襄城县| 青岛市| 焦作市| 保康县| 佛冈县| 老河口市| 丹阳市| 峨边| 米林县| 富民县| 高要市| 玉环县| 贡觉县| 阿尔山市| 霍城县| 临武县| 女性| 汉川市| 葵青区| 辽阳县| 齐河县| 吉首市|