李忠偉 劉偉鵬 羅偲
摘 要:針對在雜亂、障礙物密集的復雜環(huán)境下移動機器人使用深度強化學習進行自主導航所面臨的探索困難,進而導致學習效率低下的問題,提出了一種基于軌跡引導的導航策略優(yōu)化(TGNPO)算法。首先,使用模仿學習的方法為移動機器人訓練一個能夠同時提供專家示范行為與導航軌跡預測功能的專家策略,旨在全面指導深度強化學習訓練;其次,將專家策略預測的導航軌跡與當前時刻移動機器人所感知的實時圖像進行融合,并結(jié)合坐標注意力機制提取對移動機器人未來導航起引導作用的特征區(qū)域,提高導航模型的學習性能;最后,使用專家策略預測的導航軌跡對移動機器人的策略軌跡進行約束,降低導航過程中的無效探索和錯誤決策。通過在仿真和物理平臺上部署所提算法,實驗結(jié)果表明,相較于現(xiàn)有的先進方法,所提算法在導航的學習效率和軌跡平滑方面取得了顯著的優(yōu)勢。這充分證明了該算法能夠高效、安全地執(zhí)行機器人導航任務。
關鍵詞:移動機器人自主導航;軌跡預測;軌跡-圖像融合;軌跡約束;深度強化學習
中圖分類號:TP242.6?? 文獻標志碼:A??? 文章編號:1001-3695(2024)05-025-1456-06
doi: 10.19734/j.issn.1001-3695.2023.09.0422
Autonomous navigation? policy optimization algorithm for mobile robots based on trajectory guidance
Abstract:Addressing the exploration challenges faced by mobile robots using deep reinforcement learning for autonomous navi-gation in cluttered, obstacle-dense complex environments, this paper proposed the trajectory-guided navigation policy optimization (TGNPO) algorithm. Firstly, it employed an imitation learning approach to train an expert policy? for a mobile robot, which could provide both expert demonstration behavior and navigation trajectory prediction and aimed to comprehensively guide the training of deep reinforcement learning. Secondly, it fused the predicted navigation trajectory from the expert policy with real-time images perceived by the mobile robot at the current moment. Combining the coordinate attention mechanism, it extracted feature regions which would guide the robots future navigation, thereby enhancing the learning performance of the navigation model. Finally, it utilized the navigation trajectory predicted by the expert policy to constrain the policy trajectory of the mobile robot, mitigating ineffective exploration and erroneous decision-making during navigation process By deploying the proposed algorithm on both simulation and physical platforms, experimental results demonstrated significant advantages in navigation learning efficiency and trajectory smoothness compared to existing state-of-the-art methods which fully proves the proposed algorithms capability to efficiently and safely execute robot navigation tasks.
Key words:autonomous navigation of mobile robots; trajectory prediction; trajectory-image fusion; trajectory constraint; deep reinforcement learning
0 引言
在移動機器人領域,自主導航被視為最為普遍的任務之一。特別是在雜亂、擁擠的環(huán)境下,機器人需要有效地解決避障、軌跡平滑以及避免次優(yōu)解等問題,這增加了自主導航過程的復雜性和挑戰(zhàn)性。
當面臨復雜環(huán)境時,大多數(shù)傳統(tǒng)基于地圖的方法[1,2]的實現(xiàn)將變得困難。盡管已經(jīng)有一些研究[3,4]在導航過程中可以無須地圖信息,但是傳統(tǒng)方法在應對復雜環(huán)境時緩慢的計算速度和對原始傳感器數(shù)據(jù)中的噪聲敏感性,降低了自主導航的效率。
近年來,為了解決傳統(tǒng)算法在自主導航問題中的不足,已經(jīng)提出了許多基于學習的方法[5~7]。其中一種稱為模仿學習(imitation learning,IL)的方法[8~10]在移動機器人導航任務中實現(xiàn)了快速推理。這些方法基于深度神經(jīng)網(wǎng)絡強大的表示能力,直接將原始高維感官數(shù)據(jù)(如RGB圖像和激光雷達點云)作為輸入,并輸出低級控制命令(如轉(zhuǎn)向和油門)。然而,雖然IL可以高效地從專家演示中提取導航知識,但面臨一個常見問題是分布不匹配,即模型在訓練數(shù)據(jù)上表現(xiàn)良好,但在實際執(zhí)行中的數(shù)據(jù)上可能表現(xiàn)不佳,這是因為訓練數(shù)據(jù)和實際執(zhí)行數(shù)據(jù)之間存在差異。
另一種基于深度強化學習(deep reinforcement learning, DRL)[11]的方法在移動機器人自主導航領域得到廣泛應用[12~14]。DRL方法使移動機器人與環(huán)境互動學習,根據(jù)試錯和獎勵來改善其行為,其中一類被稱為無模型的深度強化學習(model-free DRL)[15~18]。盡管無模型的深度強化學習在某些情況下表現(xiàn)出色,但在復雜環(huán)境中,狀態(tài)空間可能變得極其龐大,包含大量不同的變量和可能的取值組合,這使得深度強化學習算法需要花費大量時間和資源來探索這個龐大的狀態(tài)空間,以學習出適當?shù)牟呗?,從而導致學習效率低下。
為了提高移動機器人的學習效率,一些研究[19,20]提出模仿學習與深度強化學習相結(jié)合的方法。這些方法利用僅包含專家示范行為的專家策略來指導智能體(移動機器人)學習,通過衡量每一時刻專家策略與DRL策略之間的差距來決定采取哪種策略,雖然一定程度上可以降低智能體的自主探索率,但是可能導致專家策略對智能體的學習產(chǎn)生過多干預。
針對上述問題,本文使用模仿學習與深度強化學習結(jié)合的框架,并受Cimurs等人[21]提出的從環(huán)境中獲得可能導航方向的興趣點(PoI)這一觀點的啟發(fā),提出了一種基于軌跡引導的移動機器人導航策略優(yōu)化方法,下文敘述中DRL策略等同于導航策略。TGNPO中的專家策略考慮了專家示范行為和導航軌跡預測。專家策略的導航軌跡預測具備對導航中的關鍵特征區(qū)域的了解,將這些預測軌跡與機器人實時感知的圖像融合,可以幫助導航策略模型更快地識別并了解這些特征區(qū)域,提高自主探索時模型的學習性能。同時,TGNPO中的軌跡約束的關鍵在于在自主探索和專家干預之間建立平衡。機器人首先有機會自主探索環(huán)境,這有助于了解環(huán)境和積累經(jīng)驗。然而,當自主探索的距離大于約束距離時,專家干預將確保機器人不會遠離安全范圍,從而降低了進一步探索的風險。這種平衡有助于提高學習效率,因為它允許機器人在探索和專家干預之間取得良好的折中。本文的主要貢獻如下:
a)針對目前模仿學習中的專家策略都是只輸出專家示范行為,忽略專家軌跡對導航策略的影響這一問題,提出在每一時刻可以同時提供專家示范行為與導航軌跡預測功能的專家策略,更全面地指導移動機器人導航策略優(yōu)化。
b)提出一種新穎的軌跡-圖像融合的方法,以迅速識別圖像中對移動機器人未來導航具有指導意義的特征區(qū)域,提高導航模型性能。
c)提出一個新的基于軌跡約束的決策標準,用于移動機器人在特定時刻決定執(zhí)行專家示范行為還是DRL策略,以在不同情境下優(yōu)化決策。
e)提出一種適用于連續(xù)環(huán)境的懲罰-獎勵機制,以提升DRL策略在模仿專家示范行為的準確性。
1 問題構(gòu)建
本文討論移動機器人在連續(xù)空間中學習自主導航,并將深度強化學習問題定義為馬爾可夫決策過程(Markov decision process,MDP)中的策略搜索。MDP由狀態(tài)空間Euclid Math OneSAp、動作空間Euclid Math OneAAp、轉(zhuǎn)移概率Euclid Math OnePAp、獎勵函數(shù)Euclid Math OneRAp:Euclid Math OneSAp×Euclid Math OneAApEuclid ExtraaApEuclid ExtraaBp,以及折扣因子γ組成。假設移動機器人處于狀態(tài)st,依據(jù)DRL策略π選擇動作at,π:Euclid Math OneSApEuclid ExtraaApEuclid Math OneAAp;基于選擇的動作,移動機器人從環(huán)境中獲得獎勵rt,依據(jù)轉(zhuǎn)移概率p(st+1|st,at)到達下一個狀態(tài)st+1;重復此過程形成一條導航路徑τ=(st,st+1,…,sT)。
1.1 狀態(tài)空間
移動機器人自主導航的狀態(tài)空間由元組(sp,sl,sg,sd)組成。其中,sp為當前時刻的RGB圖像數(shù)據(jù),sl為激光雷達數(shù)據(jù),sg 為導航目標位置,sd為移動機器人實時方向角。圖像數(shù)據(jù)捕捉視覺特征,激光雷達數(shù)據(jù)提供障礙物和距離信息,目標點位置和方向角則有助于移動機器人進行導航和位置定位。這些多模態(tài)數(shù)據(jù)類型可以提供豐富的環(huán)境信息,從而增強移動機器人的環(huán)境感知能力。
1.2 動作空間
移動機器人的動作空間包括連續(xù)的線性速度v和角速度w。經(jīng)過一系列仿真測試,設置v∈[0,0.6]和w∈[-1,1]。動作空間范圍的設定經(jīng)過系統(tǒng)的分析和綜合評估,旨在深入理解移動機器人在復雜環(huán)境中的運動行為。
1.3 獎勵函數(shù)
獎勵函數(shù)對于指導移動機器人在環(huán)境中學習和優(yōu)化導航策略具有重要影響。本文構(gòu)建了包含碰撞情況、導航目標點、機器人方向角與偏航角在內(nèi)的多維狀態(tài)信息的獎勵函數(shù),以引導機器人學習適應性的自主導航策略。具體的計算公式為
R(st)=Rg(st)+Rc(st)+Rh(st)+Rd(st)(1)
其中:Rg(st)為移動機器人到達目標點的獎勵函數(shù),其值為rgoal;Rc(st)為碰撞獎勵函數(shù),值為rcollision;Rh(st)為關于方向角與偏航角的獎勵函數(shù),如式(2)所示。
其中:式(2)中的h為移動機器人的方向角與偏航角之間的差值,用來表示移動機器人當前朝向與其期望朝向之間的偏差,其計算如式(3)所示;h0與h1為偏差閾值,在其范圍內(nèi),h越小,移動機器人獲得的獎勵越高。
其中:a tan2(yg-y,xg-x)為反正切函數(shù),用來計算移動機器人的方向角;yaw為偏航角;a tan2(yg-y,xg-x)-yaw 為方向角與偏航角差值,記為h*;(x,y)為移動機器人當前時刻的坐標;(xg,yg)為導航目標點坐標。
式(1)中的Rd表示移動機器人在當前時刻相對于前一時刻與目標點的距離的變化量,其計算公式如式(4)所示。
Rd(st)=‖ct-cg‖-‖ct-1-cg‖(4)
其中:ct為移動機器人在t時刻的坐標,cg為導航的目標點。
2 軌跡引導策略優(yōu)化
本文提出的TGPON算法框架如圖1所示,主要由四個模塊構(gòu)成,即專家策略模塊、軌跡-圖像融合模塊、DRL模塊、軌跡約束模塊。專家策略模塊在處理輸入時僅考慮了RGB圖像這一信息源。相比之下,DRL模塊具有更豐富的信息輸入,包括RGB圖像、激光雷達數(shù)據(jù)、導航目標位置和方向角等多個數(shù)據(jù)維度。這種多維信息的融合使得DRL模塊具備更全面的環(huán)境感知和任務理解能力,有助于更智能地制定導航?jīng)Q策和學習適應不同情況的策略。TGNPO通過軌跡-圖像融合的方法改進DRL模塊的價值與策略網(wǎng)絡,顯著提升了模型的學習性能,使模型更深入地理解環(huán)境。此外,該算法對移動機器人在深度強化學習策略下生成的導航軌跡進行了約束,以使機器人在處理復雜環(huán)境時表現(xiàn)得更加出色。算法流程如算法1所示。
算法1 TGNPO算法
2.1 專家策略模塊
專家策略在自主導航中發(fā)揮了關鍵作用,其對DRL策略的學習過程進行了指導。本文通過對以往專家策略的改進,使其在每一時刻不僅能夠輸出當前的專家示范行為,還能夠預測未來I個時間步的專家導航軌跡。這樣的改進使得專家策略成為一個更為強大和全面的引導器,能夠提供更長遠的指引信息,指導DRL策略在未來的一系列時間步中作出更優(yōu)的決策。
專家策略模塊主要采用了監(jiān)督學習的方法,將專家數(shù)據(jù)(st,(aEt,wEt,…,wEt+I))中的st看作樣本輸入,此時的st僅為RGB圖像數(shù)據(jù)。(aEt,wEt,…,wEt+I)為標簽,其中aEt為專家示范行為,(wEt,…,wEt+I)為未來I個時間步的專家導航軌跡,學習的目標為
其中:Euclid Math OneLAp(πEψ(s),(a,w))為損失函數(shù),采用適用于回歸任務的MSE。πEψ(s)為要學習的專家策略網(wǎng)絡,采用一種計算量小、參數(shù)少、輕量級的神經(jīng)網(wǎng)絡架構(gòu)MobileNet-v3[22]。
2.2 軌跡-圖像融合模塊
移動機器人當前時刻所感知到的圖像中蘊涵著未來導航軌跡的重要線索,而移動機器人在自主導航中對位置信息極為敏感,準確的定位對其至關重要。坐標注意力機制(coordinate attention)[23]不僅能夠捕獲跨通道信息,還捕獲方向感知和位置信息,這有助于模型更準確地定位和識別感興趣的對象。因此,本文提出將當前時刻的未來I個時間步的專家導航軌跡與當前時刻移動機器人所感知的實時圖像狀態(tài)融合,結(jié)合坐標注意力機制提取導航所需要關注的圖像中的重點區(qū)域。
上述步驟實現(xiàn)了軌跡與圖像的初步融合,在F上引入坐標注意力機制對其分配注意力權(quán)重,以便模型能夠重點關注對導航起引導作用的特征區(qū)域。
對ZHN、ZWN進行合并,然后使用1×1卷積變換函數(shù)F1對其進行變換:
f=δ(F1([ZHN,ZWN]))(11)
上述方法將未來專家導航軌跡的特征表達FHM與FWM融合到圖像特征中,捕捉不同特征之間的關聯(lián),豐富了特征圖F的表達能力,自動地突出那些在未來導航中起關鍵作用的特征區(qū)域,提高移動機器人學習導航策略的效率。
2.3 DRL模塊
TGNPO算法框架可以與廣泛的深度強化學習算法協(xié)同工作,用于訓練導航策略。本文選用了一種先進的離線策略方法,即soft actor-critic(SAC)[25]算法,來作為DRL的訓練框架。該方法利用兩個神經(jīng)網(wǎng)絡,包括估計狀態(tài)-動作價值的Q網(wǎng)絡Q,和策略網(wǎng)絡πθ,和θ都是參數(shù)。在每一輪訓練迭代中,算法通過交替執(zhí)行策略評估和策略改進來進行訓練。策略評估過程通過最小化熵正則化TD誤差的L2范數(shù)來更新估計的Q函數(shù):
圖3展示了策略網(wǎng)絡的結(jié)構(gòu)示意圖,而價值網(wǎng)絡的結(jié)構(gòu)與其類似。該模塊首先對激光雷達數(shù)據(jù)、導航目標點位置以及方向角進行特征提取得到特征向量FM1;然后,從軌跡-圖像融合模塊得到F*并將其映射成特征向量FM2;最后,將FM1與FM2進行堆疊得到特征向量F′,再經(jīng)過幾層MLP后得到DRL策略aπ。該模塊方法將不同傳感器獲取的信息進行堆疊,可以融合多個數(shù)據(jù)源的信息,從而獲得更全面、多樣化的特征表示。這有助于提升DRL策略網(wǎng)絡的感知能力和決策質(zhì)量。
2.4 軌跡約束模塊
在復雜場景中,移動機器人面臨巨大的探索空間,其中包含許多無效的行動路徑,這給學習自主導航策略帶來了挑戰(zhàn)。TGNPO將未來專家導航軌跡與移動機器人自主探索軌跡之間的距離作為約束標準,在特定時間步通過模仿專家示范行為來引導移動機器人在復雜場景中進行探索學習。兩條軌跡間的角度距離突出了軌跡的方向特征,歐拉距離突出了軌跡的空間分布特征。因此,本文結(jié)合方向與空間兩個維度來計算距離d。
本文將移動機器人向前自主探索的步長等于專家策略預測的導航軌跡時間步長I。隨后,通過計算這I個時間步長內(nèi)移動機器人軌跡與專家軌跡的距離d,判斷是否超過了預設的距離閾值η,其計算公式如式(18)所示。
其中:d_angle為兩條軌跡的角度距離;d_euler為兩條軌跡的歐拉距離;λ1與λ2分別為角度距離與歐拉距離的權(quán)重;tr_π為移動機器人自主探索的軌跡;tr_e為未來專家導航軌跡。tr_π·tr_e為兩條軌跡的點積;‖tr_π‖×‖tr_e‖表示分別求兩條軌跡的范數(shù)再相乘。
如果d<η,移動機器人將在下一個時間步采取DRL策略;否則,將在下一個時間步長引入專家策略進行干預,具體如圖4所示。圖5中,I=5并且d>η,在下一時刻專家將進行干預,移動機器人執(zhí)行專家行為aE。
在此情景下,本文的目標是通過使用專家策略的指導,讓移動機器人在執(zhí)行任務時更加趨向于模仿專家的行為。為了實現(xiàn)這一目標, 本文借鑒Dey等人[26]提出構(gòu)造轉(zhuǎn)移元組(st,aπt,rpt,st+1)的方法,并且改進文獻[27]中的非平滑的懲罰獎勵函數(shù),如式(19)所示,提出了一種基于雙曲正切函數(shù)的連續(xù)平滑的懲罰獎勵函數(shù),如式(20)所示。
rpt=r-l(19)
rpt=r-|r|·tanh(‖aE-aπ‖/σ2)(20)
其中:r為正常的獎勵值;l為懲罰常數(shù)項。式(20)中超參數(shù)σ用來控制模仿專家示范行為的精度,從而使移動機器人在執(zhí)行任務時更加符合專家的行為模式。
3 實驗分析
本章將通過對比實驗來驗證本文提出的TGNPO算法在導航性能方面的卓越表現(xiàn),同時旨在通過消融實驗來找到最佳導航軌跡。
在對比實驗中,TGNPO與目前深度強化學習先進的SAC[25]、JIRL[26]和SAC-Lag[28]算法進行比較。在消融實驗中,本文測試了軌跡-圖像融合模塊中的未來專家導航軌跡步長I與軌跡約束模塊中的軌跡距離η這兩個超參數(shù)對導航策略優(yōu)化的影響。
下述指標用于評估TGNPO與其他方法之間的性能差異:
a)平均回報(average return,AR):移動機器人從起點到導航目標點所獲的平均獎勵總和。
b)平均軌跡長度(average trajectory length,ATL):移動機器人從起點到目標點的平均導航軌跡長度。
c)平均導航時間(average navigation time,ANT):移動機器人從起點到目標點的平均導航時間成本。
d)平均完成率(average completion rate,ACR):移動機器人從初始出發(fā)點到達碰撞點的距離與從初始出發(fā)點到導航目標點的距離之比,ACR∈[0.97,0.99]。
3.1 仿真對比實驗環(huán)境
本文在Gazebo仿真平臺中構(gòu)建了一個雜亂、障礙物密集的復雜環(huán)境,該環(huán)境劃分簡單和復雜區(qū)域,如圖5所示。仿真移動機器人為搭載激光雷達、深度相機和控制器插件的LIMO智能車,如圖6所示。深度相機拍攝的RGB圖像大小為96×64,數(shù)據(jù)隨后通過ROS(機器人操作系統(tǒng))進行獲取、傳輸。通過在這個具有挑戰(zhàn)性的環(huán)境中進行實驗,能夠更全面地評估所提出的基于軌跡引導的移動機器人導航策略優(yōu)化方法在面對復雜情況時的性能和適應能力。
本文實驗使用一臺配置有NVIDIA GTX 3090顯卡、128 GB RAM以及Intel Xeon Silver 4216 CPU的計算機上訓練導航策略。為了保證結(jié)果的穩(wěn)定性和可靠性,所有實驗使用了不同的隨機種子來重復實驗,共進行了5次訓練。在訓練中,移動機器人會在以下情況之一發(fā)生時終止訓練:到達導航任務目標、發(fā)生碰撞,或執(zhí)行了T個時間步。
表1列出實驗所用到的超參數(shù)的值。
本文提出的TGNPO算法以及其他對比算法每次訓練進行500個迭代。如圖7(a)(b)所示,TGNPO在經(jīng)過200個迭代的訓練后迅速達到了收斂狀態(tài),其學得的導航策略能夠生成獎勵最高的導航軌跡。相比之下,JIRL與SAC-Lag算法也最終學得了導航策略,但所獲得的獎勵相對較低。SAC算法在經(jīng)過320個迭代的訓練后,獎勵值和完成率保持了穩(wěn)定,沒有出現(xiàn)明顯的變化,這表明其陷入了局部困難,無法完成導航任務。
實驗采用SLAM(simultaneous localization and mapping) 算法來構(gòu)建仿真環(huán)境的占據(jù)柵格地圖,并將移動機器人的導航軌跡在地圖上進行了可視化展示。根據(jù)圖8的結(jié)果顯示,在簡單區(qū)域中,所有算法都能找到可行的導航路徑。在復雜、擁擠的雜亂區(qū)域中,TGNPO算法學習到最安全的導航策略,使移動機器人用最少的時間步到達導航目標點,并生成平滑、最高獎勵的導航軌跡,部分導航拍攝的圖像狀態(tài)如圖9所示。與之相比,SAC-Lag和JIRL方法在面對障礙物時,線速度與角速度曲線波動較大,且未能作出更好的避障選擇,需要大量資源來探索其他成功率較低、風險較高的可行解決方案。
表2顯示了不同方法下機器人導航任務的詳細比較結(jié)果。在整個地圖中,SAC方法因為復雜的障礙物未能導航到目標位置。在導航軌跡長度方面, TGNPO算法在圖5所示的復雜環(huán)境區(qū)域表現(xiàn)更為出色,相對較短的導航軌跡表明了導航策略的高效性,而SAC-Lag或JIRL在同樣的環(huán)境中表現(xiàn)不佳。盡管SAC-Lag、JIRL和TGNPO最終都能夠完成導航任務,但是可以發(fā)現(xiàn)TGNPO達到目標花費的時間顯明更少。這表明TGNPO在導航任務中具有更高的效率,移動機器人能夠更快地到達目標位置,從而提高了任務執(zhí)行的速度。
3.2 現(xiàn)實場景對比實驗
實驗設置了兩個現(xiàn)實場景來驗證TGNPO的算法性能。實驗采用搭載RPlidar A2激光雷達、ORBBEC@Dabai深度相機、Jetson Nano控制器與IMU的LIMO移動機器人,如圖10所示。移動機器人的車長為322 mm,車寬為220 mm,軸距為200 mm,阿克曼最小轉(zhuǎn)彎半徑為0.4 m。實驗基于ROS(開源機器人操作系統(tǒng))平臺進行數(shù)據(jù)交互。
在真實場景實驗中將本文算法與JIRL、TGNPO算法進行對比,部分實驗屏幕截圖及其相應的軌跡如圖11所示,TGNPO算法部分導航圖像如圖12所示。根據(jù)仿真實驗的結(jié)果發(fā)現(xiàn),JIRL算法在實際環(huán)境中表現(xiàn)出一些局限性,在一些情境下沒有作出最優(yōu)的決策,盡管在一些危險情況下可以進行及時修正,但相比于TGNPO算法,它生成的軌跡更長,導致了更高的時間成本;相反,TGNPO算法在面對障礙物時能夠作出更加明智的決策,生成的導航軌跡更加安全、平滑。
3.3 消融實驗
本文進行了一系列的消融研究,旨在研究軌跡-圖像融合模塊I和軌跡約束模塊η對TGNPO導航策略的影響。TGNPO算法的參數(shù)在每次調(diào)整后都需要進行300個迭代的訓練。表3記錄了所有的測試數(shù)據(jù)??傮w來看,當I=5,η=0.6導航策略的綜合效果最佳。雖然當I=5,η=0.4時,平均軌跡長度最短且平均耗時最少,但專家策略干預度過高,這顯然會限制移動機器人的探索性。實驗結(jié)果發(fā)現(xiàn),當I>5時,導航效果相對次優(yōu),這是因為在一些復雜且障礙物密集的區(qū)域,過長的軌跡信息無法完全反映在當前圖像中,會對移動機器人導航產(chǎn)生偏差引導。而當I<5時,由于圖像狀態(tài)中包含的軌跡指引信息不足,導致導航效果同樣次優(yōu)。當η>0.6時,機器人的自主探索權(quán)過大,導致其在一些無效區(qū)域進行探索,進而產(chǎn)生較長的導航軌跡。相反,如果η越小,整個訓練過程專家示范行為的控制比例越大,這將導致移動機器人的導航軌跡更加趨近于專家導航軌跡。
4 結(jié)束語
本文討論了在雜亂、障礙物密集的復雜環(huán)境下移動機器人自主導航的問題,提出了基于軌跡引導的移動機器人導航策略優(yōu)化(TGNPO)算法。該算法以深度強化學習為基礎框架,同時引入了專家策略模塊、軌跡-圖像融合模塊以及軌跡約束模塊,以提高導航模型性能與移動機器人的探索效率。實驗結(jié)果表明,TGNPO相對其他對比方法顯著減少了導航策略的學習時間。同時,該算法所學到的導航策略產(chǎn)生了平滑、安全且高獎勵的導航軌跡,這意味著移動機器人能夠更快速地適應復雜環(huán)境,確保了導航的高效性。本文研究的是單目標點導航問題,未來將深入研究移動機器人在多目標點導航任務中的應用。
參考文獻:
[1]Khan M S A,Hussian D,Ali Y,et al. Multi-sensor SLAM for efficient navigation of a mobile robot [C]// Proc of the 4th International Conference on Computing & Information Sciences. Piscataway,NJ:IEEE Press,2021: 1-5.
[2]Matsui N,Jayarathne I,Kageyama H,et al. Local and global path planning for autonomous mobile robots using hierarchized maps [J]. Journal of Robotics and Mechatronics,2022,34(1): 86-100.
[3]Missura M,Bennewitz M. Predictive collision avoidance for the dynamic window approach [C]// Proc of International Conference on Robotics and Automation. Piscataway,NJ:IEEE Press,2019: 8620-8626.
[4]Ali M A H,Shanono I H. Path planning methods for mobile robots: a systematic and bibliometric review [J]. ELEKTRIKA-Journal of Electrical Engineering,2020,19(3): 14-34.
[5]Patel U,Kumar N K S,Sathyamoorthy A J,et al. DWA-RL: dynamically feasible deep reinforcement learning policy for robot navigation among mobile obstacles [C]// Proc of International Conference on Robotics and Automation. Piscataway,NJ:IEEE Press,2021: 6057-6063.
[6]Fan Tingxiang,Long Pinxin,Liu Wenxi,et al. Distributed multi-robot collision avoidance via deep reinforcement learning for navigation in complex scenarios [J]. The International Journal of Robotics Research,2020,39(7): 856-892.
[7]Sartoretti G,Kerr J,Shi Yunfei,et al. Primal: pathfinding via reinforcement and imitation multi-agent learning [J]. IEEE Robotics and Automation Letters,2019,4(3): 2378-2385.
[8]Codevilla F,Müller M,López A,et al. End-to-end driving via conditional imitation learning [C]//Proc of International conference on robotics and automation. Piscataway,NJ:IEEE Press,2018: 4693-4700.
[9]Cai Peide,Wang Sukai,Sun Yuxiang,et al. Probabilistic end-to-end vehicle navigation in complex dynamic environments with multimodal sensor fusion [J]. IEEE Robotics and Automation Letters,2020,5(3): 4218-4224.
[10]Pan Yunpeng,Cheng C A,Saigol K,et al. Imitation learning for agile autonomous driving [J]. The International Journal of Robotics Research,2020,39(2-3): 286-302.
[11]Sutton R S,Barto A G. Reinforcement learning: an introduction [M]. [S.l.]:MIT Press,2018.
[12]許宏鑫,吳志周,梁韻逸. 基于強化學習的自動駕駛汽車路徑規(guī)劃方法研究綜述[J]. 計算機應用研究,2023,40(11): 3211-3217. (Xu Hongxin,Wu Zhizhou,Liang Yunyi. Review of research on path planning methods for autonomous vehicles based on reinforcement learning [J]. Application Research of Computers,2023,40(11): 3211-3217.)
[13]張目,唐俊,楊友波,等. 基于時空感知增強的深度Q網(wǎng)絡無人水面艇局部路徑規(guī)劃 [J]. 計算機應用研究,2023,40(5): 1330-1334. (Zhang Mu,Tang Jun,Yang Youbo,et al. Deep Q-network-based local path planning for unmanned surface vehicles enhanced with spatiotemporal perception [J]. Application Research of Computers,2023,40(5): 1330-1334.)
[14]賀雪梅,匡胤,楊志鵬,等. 基于深度強化學習的AGV智能導航系統(tǒng)設計 [J]. 計算機應用研究,2022,39(5): 1501-1504,1509. (He Xuemei,Kuang Yin,Yang Zhipeng,et al. Design of AGV intel-ligent navigation system based on deep reinforcement learning [J]. Application Research of Computers,2022,39(5):1501-1504,1509.)
[15]Francis A,F(xiàn)aust A,Chiang H T L,et al. Long-range indoor navigation with PRM-RL [J]. IEEE Trans on Robotics,2020,36(4): 1115-1134.
[16]Ruan Xiaogang,Lin Chenliang,Huang Jing,et al. Obstacle avoidance navigation method for robot based on deep reinforcement learning [C]//Proc of the 6th Information Technology and Mechatronics Engineering Conference. Piscataway,NJ:IEEE Press,2022: 1633-1637.
[17]Andrychowicz O A I M,Baker B,Chociej M,et al. Learning dexterous in-hand manipulation [J]. The International Journal of Robotics Research,2020,39(1): 3-20.
[18]Cai Peide,Wang Hengli,Huang Huaiyang,et al. Vision-based autonomous car racing using deep imitative reinforcement learning [J]. IEEE Robotics and Automation Letters,2021,6(4): 7262-7269.
[19]Menda K,Driggs-Campbell K,Kochenderfer M J. EnsembleDAgger:a Bayesian approach to safe imitation learning [C]// Proc of International Conference on Intelligent Robots and Systems. Piscataway,NJ:IEEE Press,2019:5041-5048.
[20]Liu Haochen,Huang Zhiyu,Wu Jingda,et al. Improved deep reinforcement learning with expert demonstrations for urban autonomous driving [C]//Proc of IEEE Intelligent Vehicles Symposium. Pisca-taway,NJ:IEEE Press,2022: 921-928.
[21]Cimurs R,Suh I H,Lee J H. Goal-driven autonomous exploration through deep reinforcement learning [J]. IEEE Robotics and Automation Letters,2021,7(2): 730-737.
[22]Howard A,Sandler M,Chu G,et al. Searching for MobileNetV3 [C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ:IEEE Press,2019: 1314-1324.
[23]Hou Qibin,Zhou Daquan,F(xiàn)eng Jiashi. Coordinate attention for ef-ficient mobile network design [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2021: 13713-13722.
[24]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al. Deep residual learning for image recognition [C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2016: 770-778.
[25]Haarnoja T,Zhou A,Hartikainen K,et al. Soft actor-critic algorithms and applications [EB/OL]. (2018).https://arxiv.org/abs/1812.05905.
[26]Dey S,Pendurkar S,Sharon G,et al. A joint imitation-reinforcement learning framework for reduced baseline regret [C]// Proc of International Conference on Intelligent Robots and Systems. Piscataway,NJ:IEEE Press,2021:3485-3491.
[27]Hester T,Vecerik M,Pietquin O,et al. Deep Q-learning from demonstrations [C]// Proc of AAAI Conference on Artificial Intelligence. 2018.
[28]Ha S,Xu Peng,Tan Zhenyu,et al. Learning to walk in the real world with minimal human effort[EB/OL]. (2020). https://arxiv.org/abs/2002.08550.