国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度Q網(wǎng)絡(luò)的無(wú)人車偵察路徑規(guī)劃

2024-11-27 00:00:00夏雨奇黃炎焱陳恰
關(guān)鍵詞:無(wú)人深度規(guī)劃

摘 要:

在城市戰(zhàn)場(chǎng)環(huán)境下,無(wú)人偵察車有助于指揮部更好地了解目標(biāo)地區(qū)情況,提升決策準(zhǔn)確性,降低軍事行動(dòng)的威脅。目前,無(wú)人偵察車多采用阿克曼轉(zhuǎn)向結(jié)構(gòu),傳統(tǒng)算法規(guī)劃的路徑不符合無(wú)人偵察車的運(yùn)動(dòng)學(xué)模型。對(duì)此,將自行車運(yùn)動(dòng)模型和深度Q網(wǎng)絡(luò)相結(jié)合,通過(guò)端到端的方式生成無(wú)人偵察車的運(yùn)動(dòng)軌跡。針對(duì)深度Q網(wǎng)絡(luò)學(xué)習(xí)速度慢、泛化能力差的問(wèn)題,根據(jù)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練特點(diǎn)提出基于經(jīng)驗(yàn)分類的深度Q網(wǎng)絡(luò),并提出具有一定泛化能力的狀態(tài)空間。仿真實(shí)驗(yàn)結(jié)果表明,相較于傳統(tǒng)路徑規(guī)劃算法,所提算法規(guī)劃出的路徑更符合無(wú)人偵察車的運(yùn)動(dòng)軌跡并提升無(wú)人偵察車的學(xué)習(xí)效率和泛化能力。

關(guān)鍵詞:

深度強(qiáng)化學(xué)習(xí); 無(wú)人偵察車; 路徑規(guī)劃; 深度Q網(wǎng)絡(luò)

中圖分類號(hào):

TP 242

文獻(xiàn)標(biāo)志碼: A""" DOI:10.12305/j.issn.1001-506X.2024.09.19

Path planning for unmanned vehicle reconnaissance based on deep Q-network

XIA Yuqi, HUANG Yanyan*, CHEN Qia

(School of Automation, Nanjing University of Science and Technology, Nanjing 210094, China)

Abstract:

In urban battlefield environments, unmanned reconnaissance vehicles help command centers better understand the situation in target areas, enhance decision-making accuracy, and reduce the threat of military operations. At present, unmanned reconnaissance vehicles mostly use Ackermann steering geometry. The path planned by the traditional algorithms does not conform to the kinematic model of the unmanned reconnaissance vehicle. Thus, the combination of bicycle motion model and deep Q-network are proposed to generate the motion trajectory of unmanned reconnaissance vehicles in an end-to-end manner. In order to solve the problems of slow learning speed and poor generalizing of deep Q-network, a deep Q-network based on experience classification according to the training characteristics of neural network and a state space with certain generalization ability are proposed. The simulation experiment results show that compared with the traditional path planning algorithms, the path planned by proposed algorithm is more in line with the movement trajectory of the unmanned reconnaissance vehicle, and which improve the learning efficiency and generalization ability of the unmanned reconnaissance vehicle.

Keywords:

deep reinforcement learning; unmanned reconnaissance vehicle; path planning; deep Q-network

0 引 言

軍事行動(dòng)中,無(wú)人偵察車作為一種新型智能設(shè)備,具有機(jī)動(dòng)性高、靈活性強(qiáng)、結(jié)構(gòu)簡(jiǎn)單、價(jià)格低廉、隱蔽性好[1-2]等特點(diǎn),在作戰(zhàn)領(lǐng)域中發(fā)揮了重要的作用。這些無(wú)人偵察車通過(guò)搭載不同功能的傳感器來(lái)代替人類完成繁瑣或危險(xiǎn)的任務(wù)[3-4]。在城市作戰(zhàn)背景下,前線情報(bào)的收集十分危險(xiǎn),使用無(wú)人偵察車可以承擔(dān)高風(fēng)險(xiǎn)任務(wù),進(jìn)入未知區(qū)域進(jìn)行偵察,有效減少士兵的傷亡。無(wú)人偵察車通常搭配了先進(jìn)的偵察設(shè)備,如高清攝像頭、熱成像儀、激光雷達(dá)等設(shè)備,這些設(shè)備可以為指揮官提供實(shí)時(shí)監(jiān)測(cè)和反饋,幫助指揮官迅速做出反應(yīng),提升決策多樣性和準(zhǔn)確性,降低作戰(zhàn)風(fēng)險(xiǎn),提高打擊效能。

目前,無(wú)人偵察車具有各式各樣功能進(jìn)行偵察工作。其中,路徑規(guī)劃能力保證了其任務(wù)能夠順利的完成。針對(duì)移動(dòng)無(wú)人偵察車的路徑規(guī)劃問(wèn)題,已有大量的學(xué)者進(jìn)行了探索[5-6]。傳統(tǒng)的路徑規(guī)劃算法主要有A*算法[7-8]、快速搜索隨機(jī)樹(shù)法[9-10]、蟻群算法[11-12]、人工勢(shì)場(chǎng)法[13-15]、粒子群優(yōu)化算法[16]等,此類路徑規(guī)劃算法在進(jìn)行路徑規(guī)劃之前需要將環(huán)境進(jìn)行建模。但在實(shí)際戰(zhàn)場(chǎng)偵察環(huán)境中,無(wú)人偵察車往往無(wú)法完整獲取全局環(huán)境信息,這種情況下使用環(huán)境完全已知的路徑規(guī)劃方法是不可行的。因此,基于環(huán)境未知或部分環(huán)境未知的實(shí)際情況設(shè)計(jì)符合偵察任務(wù)需求的路徑規(guī)劃方法更具實(shí)際意義。

除此之外,常見(jiàn)的無(wú)人偵察車為基于阿克曼轉(zhuǎn)向輪的四輪無(wú)人偵察車,傳統(tǒng)算法規(guī)劃的路徑不符合無(wú)人偵察車的車輛運(yùn)動(dòng)學(xué)模型[17],使無(wú)人偵察車無(wú)法成功地跟蹤其路徑。因此,傳統(tǒng)路徑規(guī)劃算法規(guī)劃出的路徑需要額外使用B樣條曲線或多項(xiàng)式曲線[18-19]的方式生成適合無(wú)人偵察車行進(jìn)的路線。

隨著機(jī)器學(xué)習(xí)算法的發(fā)展,強(qiáng)化學(xué)習(xí)逐漸用于解決無(wú)人偵察車路徑規(guī)劃問(wèn)題。強(qiáng)化學(xué)習(xí)方法可以根據(jù)無(wú)人偵察車在環(huán)境中的狀態(tài)中進(jìn)行訓(xùn)練和學(xué)習(xí),通過(guò)端到端的方式學(xué)習(xí)策略,最終實(shí)現(xiàn)智能體從起始位置到目標(biāo)位置的路徑規(guī)劃。

目前,強(qiáng)化學(xué)習(xí)中最具有代表性的算法是Q-learning算法[20],該算法能在與環(huán)境的互動(dòng)過(guò)程中學(xué)習(xí)環(huán)境中各狀態(tài)的Q值,根據(jù)Q值得出最優(yōu)策略。在狀態(tài)空間較小路徑規(guī)劃環(huán)境中,Q-learning算法能夠在一段時(shí)間的學(xué)習(xí)后,規(guī)劃出合適的路徑。但現(xiàn)實(shí)生活中無(wú)人偵察車處于一個(gè)連續(xù)的空間,此時(shí)狀態(tài)空間無(wú)窮大,Q-learning算法面臨維度爆炸的窘境。針對(duì)這種情況,Sutton等[21]提出函數(shù)逼近的強(qiáng)化學(xué)習(xí)方法,此方法將環(huán)境抽象成一個(gè)特征,通過(guò)函數(shù)擬合Q表數(shù)據(jù),其雖能夠一定程度上緩解維度爆炸帶來(lái)的問(wèn)題,但對(duì)于不同的環(huán)境需要設(shè)計(jì)不同的函數(shù)進(jìn)行擬合,遷移性較差。隨著深度學(xué)習(xí)的發(fā)展,Mnih等[22-23]將深度神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)結(jié)合提出深度Q網(wǎng)絡(luò) (deep Q-network, DQN) 算法,DQN算法運(yùn)用在Atari2600中處理高維感知決策問(wèn)題,并在多個(gè)游戲中比分超過(guò)人類專家。因此,DQN算法相較于之前的強(qiáng)化學(xué)習(xí)算法具有更廣泛的應(yīng)用前景。

基于深度強(qiáng)化學(xué)習(xí)的路徑規(guī)劃的研究中,Wang等[24]提出的tow-steam Q網(wǎng)絡(luò),其將前后兩個(gè)觀測(cè)的激光掃描的差值輸入DQN中,提升智能體在部分可觀測(cè)環(huán)境下的路徑規(guī)劃能力。Devo等[25]在深度強(qiáng)化學(xué)習(xí)中設(shè)計(jì)目標(biāo)定位網(wǎng)絡(luò)與導(dǎo)航網(wǎng)絡(luò)共同協(xié)作的方式,降低狀態(tài)空間的大小,提升學(xué)習(xí)的速度。Li等[26]使用改進(jìn)后的深度策略梯度強(qiáng)化學(xué)習(xí)訓(xùn)練無(wú)人機(jī)對(duì)目標(biāo)進(jìn)行跟蹤任務(wù),取得良好的成果。Lei等[27]使用深度雙Q網(wǎng)絡(luò) (double deep Q-network, DDQN) 算法在訓(xùn)練智能體,使得其能夠在動(dòng)態(tài)的環(huán)境中進(jìn)行路徑規(guī)劃并躲避障礙物。周彬等[28]基于導(dǎo)向強(qiáng)化Q學(xué)習(xí)進(jìn)行無(wú)人機(jī)路徑規(guī)劃任務(wù),其通過(guò)接受信號(hào)的強(qiáng)度提升強(qiáng)化Q學(xué)習(xí)的學(xué)習(xí)速度。楊清清等[29]設(shè)計(jì)基于深度強(qiáng)化學(xué)習(xí)的海上戰(zhàn)場(chǎng)目標(biāo)搜尋的路徑規(guī)劃任務(wù),建立海上目標(biāo)搜尋場(chǎng)景數(shù)學(xué)模型,驗(yàn)證所提方法的可行性。由此可見(jiàn),DQN算法解決了狀態(tài)空間維度爆炸的問(wèn)題,但在無(wú)人偵察領(lǐng)域,無(wú)人偵察車多為基于阿克曼轉(zhuǎn)向輪的四輪無(wú)人偵察車。將目前基于深度強(qiáng)化學(xué)習(xí)的路徑規(guī)劃算法運(yùn)用于四輪無(wú)人偵察車主要有以下兩個(gè)問(wèn)題。

(1) 四輪無(wú)人偵察車存在一定的轉(zhuǎn)彎半徑,以上算法規(guī)劃出的路徑多為柵格環(huán)境下離散點(diǎn),無(wú)法規(guī)劃出適合四輪無(wú)人偵察車實(shí)際運(yùn)行的路徑。

(2) 以上基于深度強(qiáng)化學(xué)習(xí)方法的學(xué)習(xí)速度慢,并且在不同的地圖中需要重新進(jìn)行訓(xùn)練,泛化能力低。

因此,為規(guī)劃出符合基于阿克曼轉(zhuǎn)向輪無(wú)人偵察車的路徑,本文提出一種自行車運(yùn)動(dòng)模型[30]下基于改進(jìn)DQN的無(wú)人偵察車路徑規(guī)劃方法,該方法可以在環(huán)境部分可知的情況下運(yùn)用控制無(wú)人偵察車在仿真環(huán)境中進(jìn)行探索和學(xué)習(xí),最終規(guī)劃出從任意起點(diǎn)到目標(biāo)點(diǎn)的路徑。

本文主要的貢獻(xiàn)如下。

(1) 用自行車運(yùn)動(dòng)模型建立符合阿克曼轉(zhuǎn)向原理的無(wú)人偵察車運(yùn)動(dòng)模型,結(jié)合運(yùn)動(dòng)模型與深度強(qiáng)化學(xué)習(xí)算法生成符合四輪無(wú)人偵察車的路徑。

(2) 結(jié)合實(shí)際無(wú)人偵察車的傳感器,設(shè)計(jì)了加入激光傳感器數(shù)據(jù)的狀態(tài)空間,提升深度強(qiáng)化學(xué)習(xí)的泛化能力以及四輪無(wú)人偵察車在不同環(huán)境下持續(xù)學(xué)習(xí)的能力。

(3) 提出經(jīng)驗(yàn)分類的方法,將無(wú)人偵察車通過(guò)深度Q學(xué)習(xí)得到的數(shù)據(jù)進(jìn)行多分類,提升強(qiáng)化學(xué)習(xí)的訓(xùn)練速度。

本文組成如下所示,第1節(jié)主要介紹DQN算法、自行車運(yùn)動(dòng)模型、環(huán)境信息的基礎(chǔ)知識(shí);第2節(jié)主要介紹無(wú)人偵察車系統(tǒng)中的狀態(tài)空間,動(dòng)作空間以及提出改進(jìn)后基于經(jīng)驗(yàn)分類的DQN算法;第3節(jié)給出算法中的網(wǎng)絡(luò)結(jié)構(gòu),系統(tǒng)中的仿真參數(shù)以及算法結(jié)果展示;第4節(jié)總結(jié)本文內(nèi)容和未來(lái)主要工作。

1 DQN算法及無(wú)人偵察車運(yùn)動(dòng)模型構(gòu)建

1.1 DQN

在強(qiáng)化學(xué)習(xí)中,智能體通過(guò)與環(huán)境交互的方式不斷學(xué)習(xí),最終達(dá)到任務(wù)目標(biāo),這一交互的過(guò)程一般用馬爾可夫決策過(guò)程 (Markov decision process, MDP) 描述。一個(gè)標(biāo)準(zhǔn)的MDP可以用一個(gè)五元組表示〈S,A,P,R,γ〉[31]。其中,S表示表示狀態(tài)空間,A表示動(dòng)作空間,P:S×A→S′表示狀態(tài)轉(zhuǎn)移矩陣,R:S×A×S′→r表示即時(shí)獎(jiǎng)勵(lì)函數(shù),γ∈[0,1] 表示折扣因子。在MDP中,任意時(shí)刻智能體的狀態(tài)為st(st∈S),根據(jù)策略選擇的動(dòng)作為at(at∈A),選擇動(dòng)作后智能體的狀態(tài)st根據(jù)轉(zhuǎn)移矩陣P轉(zhuǎn)移到st+1(st+1∈S),根據(jù)即時(shí)獎(jiǎng)勵(lì)函數(shù)得到回報(bào)rt(rt∈S′)。在路徑規(guī)劃過(guò)程中,移動(dòng)機(jī)器人不斷進(jìn)行MDP直到到達(dá)目標(biāo)位置為止。

Q-learning[17]是一種基于值函數(shù)的表格型強(qiáng)化學(xué)習(xí)算法,但是當(dāng)強(qiáng)化學(xué)習(xí)任務(wù)中的狀態(tài)空間和動(dòng)作空間維度很大的時(shí)候,表格型的Q-learning算法就會(huì)出現(xiàn)維度災(zāi)難這樣的問(wèn)題。所以,文獻(xiàn)[22] 中提出了使用神經(jīng)網(wǎng)絡(luò)來(lái)擬合Q表的方法,其中的DQN算法的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

2.3 基于經(jīng)驗(yàn)分類的DQN算法

經(jīng)典的DQN算法在處理無(wú)人偵察車的路徑規(guī)劃問(wèn)題時(shí),存在經(jīng)驗(yàn)池中數(shù)據(jù)存儲(chǔ)不均勻的問(wèn)題。在無(wú)人偵察車訓(xùn)練前期,靠近目標(biāo)與遠(yuǎn)離目標(biāo)的經(jīng)驗(yàn)數(shù)據(jù)數(shù)量相差較大,致使神經(jīng)網(wǎng)絡(luò)的訓(xùn)練結(jié)果向數(shù)據(jù)多的一方傾斜,最終導(dǎo)致學(xué)習(xí)速度更加緩慢。針對(duì)這一問(wèn)題,本文提出了基于經(jīng)驗(yàn)分類的DQN (classified replay memory DQN, CRMDQN) 方法,該方法將無(wú)人偵察車在環(huán)境中探索得到的數(shù)據(jù)分類后存儲(chǔ),不同類別的數(shù)據(jù)占據(jù)相同的比例。其可以在不增加額外存儲(chǔ)空間和計(jì)算量的情況下提升神經(jīng)網(wǎng)絡(luò)訓(xùn)練效率,加快智能體的學(xué)習(xí)速度,降低智能體陷入局部最優(yōu)的可能性。

CRMDQN算法經(jīng)驗(yàn)池的結(jié)構(gòu)如圖5所示。

在本文中,主要將經(jīng)驗(yàn)分為4個(gè)類別:① 靠近目標(biāo)且激光傳感器未檢測(cè)到障礙物;② 靠近目標(biāo)且激光傳感器檢測(cè)到障礙物;③ 遠(yuǎn)離目標(biāo)且激光傳感器未檢測(cè)到障礙物;④ 遠(yuǎn)離目標(biāo)且激光傳感器檢測(cè)到障礙物。

相比經(jīng)典DQN算法,CRMDQN算法在經(jīng)驗(yàn)池中加入了經(jīng)驗(yàn)分類器。這一方法將經(jīng)驗(yàn)池劃分為若干部分,每部分存儲(chǔ)不同類型的數(shù)據(jù)。

CRMDQN算法網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。

相比起經(jīng)典DQN算法,CRMDQN算法在原本的基礎(chǔ)上加入經(jīng)驗(yàn)分類器對(duì)經(jīng)驗(yàn)進(jìn)行分類,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的時(shí)候從不同類別的經(jīng)驗(yàn)中抽取等量的樣本混合后進(jìn)行訓(xùn)練,從而提升DQN的學(xué)習(xí)效率。

CRMDQN算法流程如算法1所示。

3 仿真實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證本文算法在無(wú)人偵察車城市環(huán)境路徑規(guī)劃的合理性,本文通過(guò)python語(yǔ)言設(shè)計(jì)了仿真物理環(huán)境,無(wú)人偵察車在仿真物理環(huán)境中可以根據(jù)自行車運(yùn)動(dòng)模型生成運(yùn)動(dòng)軌跡,并使用python-opencv庫(kù)用于展示仿真環(huán)境。在本環(huán)境中使用A*算法、快速搜索隨機(jī)樹(shù) (rapidly-exploring radom tree, RRT) 算法、DQN算法與CRMDQN算法進(jìn)行比較,驗(yàn)證基于自行車運(yùn)動(dòng)模型的CRMDQN算法在無(wú)人偵察車路徑規(guī)劃中的可行性及其優(yōu)勢(shì)。

3.1 實(shí)驗(yàn)參數(shù)設(shè)計(jì)

如圖7所示,環(huán)境中有許多障礙物和目標(biāo),圖7中左下角的圓形表示無(wú)人偵察車安全運(yùn)行范圍;無(wú)人偵察車外圍的線段表示激光探測(cè)器發(fā)射出來(lái)的激光;無(wú)人偵察車右側(cè)小箭頭表示小車當(dāng)前的前進(jìn)方向;圖紙黑色的方塊表示障礙物,右上角的圓形表示目標(biāo)所在位置。

本次實(shí)驗(yàn)采用的仿真物理環(huán)境大小為50 m×50 m的矩形區(qū)域,無(wú)人偵察車的初始位置和目標(biāo)的位置隨地圖的不同而改變,本次仿真物理環(huán)境參數(shù)設(shè)計(jì)如表1所示。CRMDQN算法參數(shù)設(shè)計(jì)如表2所示。

其中,方向回報(bào)參數(shù)λ1lt;λ2表示智能體靠近目標(biāo)給予的獎(jiǎng)勵(lì)小于智能體遠(yuǎn)離目標(biāo)時(shí)給的懲罰,保證智能體不會(huì)出現(xiàn)為避免發(fā)生碰撞而原地打轉(zhuǎn)。碰撞回報(bào)rcollision和目標(biāo)回報(bào)raim設(shè)定為一個(gè)較大值保證智能體能順利收斂。設(shè)定強(qiáng)化學(xué)習(xí)的折扣系數(shù)和貪婪因子保證智能體在學(xué)習(xí)的同時(shí)具有一定探索能力。設(shè)定Q網(wǎng)絡(luò)的學(xué)習(xí)率、學(xué)習(xí)間隔、目標(biāo)網(wǎng)絡(luò)賦值間隔、訓(xùn)練抽取的樣本數(shù)目、經(jīng)驗(yàn)池大小保證Q網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性。設(shè)定初始隨機(jī)步數(shù)保證智能體在訓(xùn)練初期對(duì)環(huán)境的探索,設(shè)定最大訓(xùn)練回合數(shù)目和最大運(yùn)行步數(shù)保證當(dāng)前回合遇到死循環(huán)時(shí)能終止當(dāng)前回合的訓(xùn)練。

CRMDQN算法中的評(píng)估網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)均采用全連接網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行連接,結(jié)構(gòu)如圖8所示。其中,每個(gè)隱層采用Relu函數(shù)作為激活函數(shù)。

3.2 仿真實(shí)驗(yàn)結(jié)果與分析

根據(jù)上述無(wú)人偵察車物理參數(shù)和CRMDQN算法參數(shù)在不同的地圖中做的相應(yīng)的仿真,得到不同算法的路線如圖9~圖12所示。

在傳統(tǒng)A*算法和RRT算法的對(duì)比中,本研究采用的結(jié)合自行車運(yùn)動(dòng)模型與DQN算法結(jié)合方法所規(guī)劃出的路徑表現(xiàn)得更加平滑,符合基于阿克曼轉(zhuǎn)向輪的無(wú)人偵察車的路徑規(guī)劃需求。與傳統(tǒng)的DQN算法相比,本文提出的CRMDQN算法在相同的訓(xùn)練時(shí)長(zhǎng)內(nèi)能夠規(guī)劃出更為高效的路徑。

不同算法規(guī)劃出來(lái)的路徑長(zhǎng)度如表3所示。

在以上4種仿真環(huán)境下,DQN算法規(guī)劃出的路徑平均長(zhǎng)度為81.05 m,而CRMDQN算法規(guī)劃出的路徑平均長(zhǎng)度為68.425 m,均小于DQN算法規(guī)劃出的路徑長(zhǎng)度。在部分環(huán)境下,CRMDQN算法規(guī)劃出來(lái)的路徑長(zhǎng)度最短。驗(yàn)證了CRMDQN算法不僅能夠規(guī)劃出更加適合無(wú)人偵察車運(yùn)動(dòng)的路線,并且能夠提高效偵察路線的效率。

DQN算法和CRMDQN算法在環(huán)境1~環(huán)境4中的訓(xùn)練過(guò)程如圖13~圖16所示。

其中,由于DQN算法和CRMDQN算法在訓(xùn)練過(guò)程中存在一定的隨機(jī)性,所以本次實(shí)驗(yàn)的訓(xùn)練數(shù)據(jù)是在同一張地圖中運(yùn)行DQN算法和CRMDQN算法各5次求平均后得到的結(jié)果。

由DQN算法和CRMDQN算法的訓(xùn)練數(shù)據(jù)可知,CRMDQN算法在無(wú)人偵察車的訓(xùn)練前期可以提升無(wú)人偵察車的訓(xùn)練速度,使其每回合的平均成功率、平均回報(bào)快速上升。DQN算法和CRMDQN算法在各環(huán)境下平均成功率達(dá)到80%所需的回合數(shù)目如表4所示。

從表4中可知,在各環(huán)境下,CRMDQN算法平均成功率達(dá)到80%所需的回合數(shù)均小于DQN算法所需的回合數(shù)目。本文提出的CRMDQN算法具有更快的學(xué)習(xí)速度。

DQN算法與CRMDQN算法在環(huán)境1到環(huán)境4中的平均成功率和平均回報(bào)值如表5所示。

由表5可知,CRMDQN算法在各個(gè)環(huán)境中訓(xùn)練得到的平均成功率和平均回報(bào)均大于DQN算法,并且CRMDQN算法在大多圖中的整體訓(xùn)練步長(zhǎng)均小于DQN算法,因此其整體的訓(xùn)練速度和最終效果都要優(yōu)于DQN算法。

3.3 泛化能力實(shí)驗(yàn)結(jié)果與分析

為驗(yàn)證本提出的方法具備一定的泛化能力,本文使用環(huán)境1訓(xùn)練后的CRMDQN算法用于環(huán)境2的訓(xùn)練,得到的訓(xùn)練效果如圖17和圖18所示。

通過(guò)實(shí)驗(yàn)得到使用CRMDQN算法在環(huán)境2中進(jìn)行訓(xùn)練達(dá)到80%的成功率所需訓(xùn)練回合數(shù)目為344。而載入環(huán)境1 Q網(wǎng)絡(luò)參數(shù)后,CRMDQN算法在環(huán)境2中進(jìn)行訓(xùn)練達(dá)到80%的成功率所需訓(xùn)練回合數(shù)目為40。由此可見(jiàn),通過(guò)載入其他模型神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)訓(xùn)練新的環(huán)境所需要的訓(xùn)練時(shí)間將大大縮減。本實(shí)驗(yàn)驗(yàn)證了本文設(shè)計(jì)的狀態(tài)空間和動(dòng)作空間可使無(wú)人偵察車在訓(xùn)練過(guò)程中具有一定的泛化能力,使得無(wú)人偵察車在新環(huán)境中可以載入不同環(huán)境下訓(xùn)練后的參數(shù),提升在新環(huán)境中訓(xùn)練的速度。

4 結(jié)束語(yǔ)

為解決針對(duì)無(wú)人偵察車路徑規(guī)劃的問(wèn)題。本文提出了一種適用于無(wú)人偵察車路徑規(guī)劃的DQN算法——CRMDQN算法,結(jié)合自行車運(yùn)動(dòng)模型與CRMDQN算法生成適合無(wú)人偵察車行駛的路徑,并最終使用python搭建仿真環(huán)境用于本文提出方法的可行性,相比起A*和RRT算法,CRMDQN算法能規(guī)劃出符合無(wú)人偵察車所跟隨的路徑,提升基于阿克曼轉(zhuǎn)向輪的無(wú)人偵察車的運(yùn)行效率,且具有一定的泛化能力。相比起DQN算法,CRMDQN算法在原本的基礎(chǔ)上提出了經(jīng)驗(yàn)分類的結(jié)構(gòu),將獲取得到的經(jīng)驗(yàn)進(jìn)行有效的分類,大大提升DQN中神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)速度和最終學(xué)習(xí)效果表現(xiàn),在路徑規(guī)劃的過(guò)程中能夠更快且更高效的規(guī)劃路徑。

盡管在本研究取得了一定的提升,但仍有幾個(gè)方面可以提升:

(1) 模仿學(xué)習(xí)。雖然無(wú)人偵察車可以在環(huán)境部分已知的條件下進(jìn)行學(xué)習(xí),但整個(gè)學(xué)習(xí)過(guò)程仍需要一定的時(shí)間,在此過(guò)程中引入模仿學(xué)習(xí)通過(guò)模仿人類專家的來(lái)提升學(xué)習(xí)的速度。

(2) 終身學(xué)習(xí)。每當(dāng)無(wú)人偵察車進(jìn)入一個(gè)新環(huán)境的時(shí)需要重新學(xué)習(xí)。但是,這一過(guò)程十分浪費(fèi)算力。因?yàn)槁窂揭?guī)劃的過(guò)程之間具有相似性,可以通過(guò)引入終身學(xué)習(xí)的方式使無(wú)人偵察車在不同的環(huán)境中可以繼續(xù)進(jìn)行學(xué)習(xí)。最終達(dá)到在不同地圖中持續(xù)進(jìn)行路徑規(guī)劃。

參考文獻(xiàn)

[1] WANG X C, WANG X L, WILKES D M. Machine learning-based natural scene recognition for mobile robot localization in an unknown environment[M]. Berlin: Springer, 2019.

[2] PANDA M, DAS B, SUBUDHI B, et al. A comprehensive review of path planning algorithms for autonomous underwater vehicles[J]. International Journal of Automation and Computing, 2020, 17(3): 321-352.

[3] PATLE B K, PANDEY A, PARHI D R K, et al. A review: on path planning strategies for navigation of mobile robot[J]. Defence Technology, 2019, 15(4): 582-606.

[4] SANCHEZ-IBANEZ J R, PEREZ-DEL-PULGAR C J, GARCA-CEREZO A. Path planning for autonomous mobile robots: a review[J]. Sensors, 2021, 21(23): 7898.

[5] WAHAB A W M, NEFTI-MEZIANI S, ATYABI A. A comparative review on mobile robot path planning: classical or meta-heuristic methods?[J]. Annual Reviews in Control, 2020, 50: 233-252.

[6] WANG B, LIU Z, LI Q B, et al. Mobile robot path planning in dynamic environments through globally guided reinforcement learning[J]. IEEE Robotics and Automation Letters, 2020, 5(4): 6932-6939.

[7] 張浩杰, 張玉東, 梁榮敏, 等. 改進(jìn)A*算法的機(jī)器人能耗最優(yōu)路徑規(guī)劃方法[J]. 系統(tǒng)工程與電子技術(shù), 2023, 45(2): 513-520.

ZHANG H J, ZHANG Y D, LIANG R M, et al. Energy-efficient path planning method for robots based on improved A* algorithm[J]. Systems Engineering and Electronics, 2023, 45(2): 513-520.

[8] 李文剛, 汪流江, 方德翔, 等. 聯(lián)合A*與動(dòng)態(tài)窗口法的路徑規(guī)劃算法[J]. 系統(tǒng)工程與電子技術(shù), 2021, 43(12): 3694-3702.

LI W G, WANG L J, FANG D X, et al. Path planning algorithm combining A* with DWA[J]. Systems Engineering and Electronics, 2021, 43(12): 3694-3702.

[9] KOTHARI M, POSTLETHWAITE I. A probabilistically robust path planning algorithm for UAVs using rapidly-exploring random trees[J]. Journal of Intelligent amp; Robotic Systems, 2013, 71(2): 231-253.

[10] SHI Y Y, LI Q Q, BU S Q, et al. Research on intelligent vehicle path planning based on rapidly-exploring random tree[J]. Mathematical Problems in Engineering, 2020, 2020(1): 5910503.

[11] KONATOWSKI S, PAWLOWSKI P. Ant colony optimization algorithm for UAV path planning[C]∥Proc.of the 14th International Conference on Advanced Trends in Radioelecrtronics, 2018: 177-182.

[12] LIANG Y, WANG L D. Applying genetic algorithm and ant colony optimization algorithm into marine investigation path planning model[J]. Soft Computing, 2020, 24(11): 8199-8210.

[13] LI W H. An improved artificial potential field method based on chaos theory for UAV route planning[C]∥Proc.of the 34rd Youth Academic Annual Conference of Chinese Association of Automation, 2019: 47-51.

[14] 孫鵬耀, 黃炎焱, 潘堯. 基于改進(jìn)勢(shì)場(chǎng)法的移動(dòng)機(jī)器人路徑規(guī)劃[J]. 兵工學(xué)報(bào), 2020, 41(10): 2106-2121.

SUN P Y, HUANG Y Y, PAN Y. Path planning of mobile robots based on improved potential field algorithm[J]. Acta Armamentarii, 2020, 41(10): 2106 – 2121.

[15] 田洪清, 王建強(qiáng), 黃荷葉, 等. 越野環(huán)境下基于勢(shì)能場(chǎng)模型的智能車概率圖路徑規(guī)劃方法[J]. 兵工學(xué)報(bào), 2021, 42(7): 1496-1505.

TIAN H Q, WANG J Q, HUANG H Y, et al. Probabilistic roadmap method for path planning of intelligent vehicle based on artificial potential field model in off-road environment[J]. Acta Armamentarii, 2021, 42(7): 1496-1505.

[16] SALAMAT B, TONELLO A M. A modelling approach to gene-rate representative UAV trajectories using PSO[C]∥Proc.of the 27th European Signal Processing Conference, 2019.

[17] KARNOPP D. Vehicle dynamics, stability, and control[M]. Florida: CRC Press, 2013.

[18] WU Z C, SU W Z, LI J H. Multi-robot path planning based on improved artificial potential field and B-spline curve optimization[C]∥Proc.of the Chinese Control Conference, 2019: 4691-4696.

[19] ESHTEHARDIAN S A, KHODAYGAN S. A continuous RRT*-based path planning method for non-holonomic mobile robots using B-spline curves[J]. Journal of Ambient Intelligence and Humanized Computing, 2023, 14(7): 8693-8702.

[20] WATKINS C J C H, DAYAN P. Q-learning[J]. Machine Learning, 1992, 8: 279-292.

[21] SUTTON R S, BARTO A G. Reinforcement learning: an introduction[M]. Cambridge: MIT press, 2018.

[22] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Playing atari with deep reinforcement learning[EB/OL]. [2023-07-01]. http:∥doi.org/10.48550/arXiv.1312.5602.

[23] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529-533.

[24] WANG Y D, HE H B, SUN C Y. Learning to navigate through complex dynamic environment with modular deep reinforcement learning[J]. IEEE Trans.on Games, 2018, 10(4): 400-412.

[25] DEVO A, MEZZETTI G, COSTANTE G, et al. Towards generalization in target-driven visual navigation by using deep reinforcement learning[J]. IEEE Trans.on Robotics, 2020, 36(5): 1546-1561.

[26] LI B H, WU Y J. Path planning for UAV ground target tracking via deep reinforcement learning[J]. IEEE Access, 2020, 8: 29064-29074.

[27] LEI X Y, ZHANG Z A, DONG P F. Dynamic path planning of unknown environment based on deep reinforcement learning[J]. Journal of Robotics, 2018, 2018(1): 5781591.

[28] 周彬, 郭艷, 李寧, 等. 基于導(dǎo)向強(qiáng)化Q學(xué)習(xí)的無(wú)人機(jī)路徑規(guī)劃[J]. 航空學(xué)報(bào), 2021, 42(9): 498-505.

ZHOU B, GUO Y, LI N, et al. Path planning of UAV using guided enhancement Q-learning algorithm[J]. Acta Aeronautica et Astronautica Sinica, 2021, 42(9): 498-505.

[29] 楊清清, 高盈盈, 郭玙, 等. 基于深度強(qiáng)化學(xué)習(xí)的海戰(zhàn)場(chǎng)目標(biāo)搜尋路徑規(guī)劃[J]. 系統(tǒng)工程與電子技術(shù), 2022, 44(11): 3486-3495.

YANG Q Q, GAO Y Y, GUO Y, et al. Target search path planning for naval battle field based on deep reinforcement learning[J].Systems Engineering and Electronics,2022, 44(11): 3486-3495.

[30] RAJAMANI R. Vehicle dynamics and control[M]. Berlin:Springer Science amp; Business Media, 2011.

[31] OTTERLO M, WIERING M. Reinforcement learning and Markov decision processes[M]∥Reinforcement Learning. Berlin:Springer, 2012.

[32] SNIDER J M. Automatic steering methods for autonomous automobile path tracking[R]. Pittsburgh:Robotics Institute, Carnegie Mellon University, 2009.

作者簡(jiǎn)介

夏雨奇(1997—),男,博士研究生,主要研究方向?yàn)闄C(jī)器人控制。

黃炎焱(1973—),男,教授,博士,主要研究方向?yàn)橛?無(wú)人系統(tǒng)協(xié)同規(guī)劃與控制。

陳 ?。?000—),男,碩士研究生,主要研究方向?yàn)橄到y(tǒng)建模與仿真。

猜你喜歡
無(wú)人深度規(guī)劃
深度理解一元一次方程
無(wú)人戰(zhàn)士無(wú)人車
反擊無(wú)人機(jī)
深度觀察
深度觀察
深度觀察
規(guī)劃引領(lǐng)把握未來(lái)
快遞業(yè)十三五規(guī)劃發(fā)布
商周刊(2017年5期)2017-08-22 03:35:26
詩(shī)到無(wú)人愛(ài)處工
無(wú)人超市會(huì)流行起來(lái)嗎?
湖南省| 南和县| 深水埗区| 九龙坡区| 龙井市| 宁晋县| 监利县| 胶州市| 望奎县| 凯里市| 化隆| 平舆县| 古蔺县| 达拉特旗| 从江县| 班玛县| 原平市| 马鞍山市| 西平县| 永泰县| 荆州市| 沂源县| 宜昌市| 万州区| 象州县| 阳东县| 临桂县| 临泉县| 化德县| 庆阳市| 醴陵市| 塔河县| 宁南县| 临泉县| 甘洛县| 运城市| 宜春市| 津市市| 津南区| 新巴尔虎左旗| 尼勒克县|