国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合動(dòng)態(tài)獎(jiǎng)勵(lì)策略的無人機(jī)編隊(duì)路徑規(guī)劃方法

2024-11-22 00:00:00唐恒孫偉呂磊賀若飛吳建軍孫昌浩孫田野
關(guān)鍵詞:強(qiáng)化學(xué)習(xí)路徑規(guī)劃無人機(jī)

摘 要:針對(duì)未知?jiǎng)討B(tài)環(huán)境下無人機(jī)(unmanned aerial vehicle, UAV)編隊(duì)路徑規(guī)劃問題,提出融合動(dòng)態(tài)編隊(duì)獎(jiǎng)勵(lì)函數(shù)的多智能體雙延遲深度確定性策略梯度(multi-agent twin delayed deep deterministic strategy gradient algorithm incorporating dynamic formation reward function, MATD3-IDFRF)算法的UAV編隊(duì)智能決策方案。首先,針對(duì)無障礙物環(huán)境,拓展稀疏性獎(jiǎng)勵(lì)函數(shù)。然后,深入分析UAV編隊(duì)路徑規(guī)劃中重點(diǎn)關(guān)注的動(dòng)態(tài)編隊(duì)問題,即UAV編隊(duì)以穩(wěn)定的結(jié)構(gòu)飛行并根據(jù)周圍環(huán)境微調(diào)隊(duì)形,其本質(zhì)為每?jī)杉躑AV間距保持相對(duì)穩(wěn)定,同時(shí)也依據(jù)外界環(huán)境而微調(diào)。為此,設(shè)計(jì)基于每?jī)膳_(tái)UAV之間最佳間距和當(dāng)前間距的獎(jiǎng)勵(lì)函數(shù),在此基礎(chǔ)上提出動(dòng)態(tài)編隊(duì)獎(jiǎng)勵(lì)函數(shù),并結(jié)合多智能體雙延遲深度確定性(multi-agent twin delayed deep deterministic, MATD3)算法提出MATD3-IDFRF算法。最后,設(shè)計(jì)對(duì)比實(shí)驗(yàn),在復(fù)合障礙物環(huán)境中,所提動(dòng)態(tài)編隊(duì)獎(jiǎng)勵(lì)函數(shù)能將算法成功率提升6.8%,將收斂后的獎(jiǎng)勵(lì)平均值提升2.3%,將編隊(duì)變形率降低97%。

關(guān)鍵詞: 強(qiáng)化學(xué)習(xí); 獎(jiǎng)勵(lì)函數(shù); 無人機(jī); 動(dòng)態(tài)編隊(duì); 路徑規(guī)劃

中圖分類號(hào): TP 181 文獻(xiàn)標(biāo)志碼: A""" DOI:10.12305/j.issn.1001-506X.2024.10.27

UAV formation path planning approach incorporating dynamic reward strategy

TANG Heng SUN Wei LYU Lei HE Ruofei WU Jianjun3, SUN Changhao4, SUN Tianye1

(1. School of Aerospace Science and Technology, Xidian University, Xi’an 710118, China;

2. The 365th Research Institute, Northwestern Polytechnical University, Xi’an 71007 China;

3. Xi’an ASN UAV Technology Co. Ltd, Xi’an 710065, China; 4. Qian Xuesen Laboratory of Space

Technology, China Academy of Space Technology, Beijing 100094, China)

Abstract: For the unmanned aerial vehicle (UAV) formation path planning problem in unknown dynamic environment, an intelligent decision scheme for UAV formation based on multi-agent twin delayed deep deterministic strategy gradient algorithm incorporating dynamic formation reward function (MATD3-IDFRF) algorithm is proposed. Firstly, the sparsity reward function is extended for the obstacle-free environment. Then, the dynamic formation problem, which is the focus of attention in UAV formation path planning, is analyzed in depth. It is described as a UAV formation flying in a stable formation structure and a fine-tuning of the formation in time according to the surrounding environment. The essence of the analysis is that the spacing between each two UAVs remains relatively stable, while it is also fine-tuned by the external environment. A reward function based on the optimal distance and current distance between each pair of UAVs is designed, leading to the proposal of a dynamic formation reward function, and which is then combined with the multi-agent twin delayed deep deterministic (MATD3) algorithm to propose the MATD3-IDFRF algorithm. Finally, comparison experiments are designed, and the dynamic formation reward function presented in this paper can improve the algorithm success rate by 6.8%, while improving the converged reward average by 2.3% and reducing the formation deformation rate by 97% in the complex obstacle environment.

Keywords: reinforcement learning (RL); reward function; unmanned aerial vehicle (UAV); dynamic formation; path planning

0 引 言

無人機(jī)是一種可以自主飛行或需外界操控的非載人飛行設(shè)備,隨著技術(shù)快速發(fā)展,無人機(jī)在許多領(lǐng)域發(fā)揮著重要作用13。單架無人機(jī)具備較高的操作性和便捷性,但是也存在著有效載荷能力受限、抗干擾能力弱等突出缺點(diǎn),難以滿足復(fù)雜任務(wù)要求。為彌補(bǔ)單架無人機(jī)在性能方面的不足,將多架無人機(jī)組成編隊(duì)執(zhí)行任務(wù)能夠顯著提高任務(wù)的成功率和抗突發(fā)事件的能力46。因此,近年來無人機(jī)編隊(duì)飛行備受關(guān)注,成為了一個(gè)多學(xué)科交叉的新研究領(lǐng)域。

路徑規(guī)劃是無人機(jī)編隊(duì)飛行的關(guān)鍵技術(shù)之一,指綜合兼顧任務(wù)需求、多機(jī)協(xié)同關(guān)系、障礙規(guī)避等約束,為無人機(jī)編隊(duì)規(guī)劃出時(shí)間、空間和任務(wù)協(xié)同的飛行軌跡79。已有的無人機(jī)路徑規(guī)劃方法大致分為3類:傳統(tǒng)方法、啟發(fā)式方法和強(qiáng)化學(xué)習(xí)(reinforcement learning, RL)方法。傳統(tǒng)的路徑規(guī)劃算法依賴于工作空間數(shù)學(xué)模型中的環(huán)境信息,如A*算法、D*算法、人工勢(shì)場(chǎng)法等。文獻(xiàn)[10]將無人機(jī)的姿態(tài)角信息和預(yù)測(cè)控制集成到A*算法中,實(shí)現(xiàn)隱身無人機(jī)在3D復(fù)雜環(huán)境中的實(shí)時(shí)航跡規(guī)劃。啟發(fā)式算法具有規(guī)劃速度快、易于協(xié)同以及全局探索能力很強(qiáng)等特點(diǎn),包括粒子群優(yōu)化算法、蟻群算法、灰狼算法等1113。傳統(tǒng)方法和啟發(fā)式方法都依賴于已知環(huán)境,所以僅能應(yīng)對(duì)提前獲取障礙信息的簡(jiǎn)單環(huán)境,這使得這類算法應(yīng)用范圍受限。

與傳統(tǒng)路徑規(guī)劃方法相比,基于RL的路徑規(guī)劃方法不依賴已知環(huán)境,而且具備較強(qiáng)的泛化能力和魯棒性1417。RL方法主要由智能體、環(huán)境、動(dòng)作、狀態(tài)和獎(jiǎng)勵(lì)5個(gè)部分組成。RL方法中,智能體具有自主決策能力,智能體通過與環(huán)境不斷進(jìn)行交互來優(yōu)化決策、進(jìn)行學(xué)習(xí),并學(xué)會(huì)在環(huán)境中采取最佳方法完成任務(wù)1820。在路徑規(guī)劃問題中,RL方法表現(xiàn)出一定程度的優(yōu)越性。周治國(guó)等21在深度Q網(wǎng)絡(luò)(deep Q network, DQN)基礎(chǔ)上提出一種基于閾值的DQN運(yùn)動(dòng)規(guī)劃算法,該算法使得智能體快速收斂到最優(yōu)路徑。Yan等22 提出一種改進(jìn)的決斗雙DQN算法,用于在有潛在威脅的動(dòng)態(tài)環(huán)境中進(jìn)行無人機(jī)路徑規(guī)劃。楊秀霞等23基于逆向RL提出一種融合專家演示軌跡的無人機(jī)路徑規(guī)劃算法,解決復(fù)雜任務(wù)中獎(jiǎng)勵(lì)函數(shù)設(shè)置困難的問題。在多智能體路徑規(guī)劃的問題上,近年來有不少學(xué)者利用RL進(jìn)行了研究。Qie等24基于多智能體深度確定性策略梯度(multi-agent deep deterministic policy gradient, MADDPG)算法設(shè)計(jì)一套訓(xùn)練系統(tǒng),解決多無人機(jī)的目標(biāo)分配和路徑規(guī)劃問題。Li等16針對(duì)人群疏散路徑規(guī)劃問題,結(jié)合學(xué)習(xí)曲線對(duì)MADDPG算法的經(jīng)驗(yàn)池進(jìn)行改進(jìn),提高了人群疏散效率。Zhou等25基于多智能體雙延遲深度確定性(multi-agent twin delayed deep deterministic, MATD3)策略梯度算法對(duì)障礙物區(qū)域和無障礙物區(qū)域設(shè)計(jì)不同的隊(duì)形保持策略,解決機(jī)器人編隊(duì)的路徑規(guī)劃問題。

無人機(jī)編隊(duì)控制根據(jù)編隊(duì)執(zhí)行任務(wù)的需求,在整個(gè)飛行過程中控制編隊(duì)隊(duì)形盡量保持不變2628。針對(duì)編隊(duì)控制問題,王錦錦等29通過一致性控制協(xié)議對(duì)多臺(tái)無人機(jī)快速組建編隊(duì)的問題進(jìn)行研究,但對(duì)于編隊(duì)的協(xié)同避障問題還需借助其他算法;Tang30提出一種基于模型預(yù)測(cè)的快速擴(kuò)展隨機(jī)樹(rapidly exploring random tree, RRT)算法實(shí)現(xiàn)編隊(duì)的避障,但沒有考慮編隊(duì)內(nèi)的碰撞問題;Liu等31將長(zhǎng)機(jī)僚機(jī)法引入到編隊(duì)控制中,實(shí)現(xiàn)5臺(tái)無人機(jī)的編隊(duì)控制和路徑規(guī)劃問題,但是僅僅考慮了無障礙物的環(huán)境;Pan等32將分布式的編隊(duì)控制方法與基于模型的RL方法結(jié)合,解決一字型編隊(duì)在復(fù)雜環(huán)境中的避障問題,但是未考慮其他更復(fù)雜的編隊(duì)結(jié)構(gòu)。以上編隊(duì)控制方法,存在以下問題:① 現(xiàn)有方法一般將編隊(duì)控制問題分解為編隊(duì)保持和編隊(duì)調(diào)整,然后分別采用不同的方法進(jìn)行處理,這會(huì)使得算法復(fù)雜度過高,不利于算法快速收斂;② 現(xiàn)有方法非常依賴于先驗(yàn)環(huán)境,同時(shí)對(duì)環(huán)境和編隊(duì)的各自情況考慮得比較簡(jiǎn)單,無法對(duì)環(huán)境中的突發(fā)威脅及時(shí)進(jìn)行規(guī)避。

針對(duì)上述問題,本文借助RL的思想,深入分析無人機(jī)編隊(duì)路徑規(guī)劃問題,從獎(jiǎng)勵(lì)函數(shù)的角度來解決編隊(duì)保持和實(shí)時(shí)的編隊(duì)隊(duì)形調(diào)整,設(shè)計(jì)動(dòng)態(tài)編隊(duì)獎(jiǎng)勵(lì)函數(shù)。在此基礎(chǔ)上,結(jié)合MATD3算法提出一種融合動(dòng)態(tài)編隊(duì)獎(jiǎng)勵(lì)函數(shù)的MATD3算法(MATD3 algorithm incorporating dynamic formation reward function, MATD3-IDFRF)。本文的主要貢獻(xiàn)包括:

(1) 在單架無人機(jī)路徑規(guī)劃的基礎(chǔ)上拓展稀疏性獎(jiǎng)勵(lì),針對(duì)無障礙物環(huán)境設(shè)計(jì)引導(dǎo)性獎(jiǎng)勵(lì),并針對(duì)復(fù)合障礙物環(huán)境改進(jìn)飛行角獎(jiǎng)勵(lì)函數(shù)和距離目的地獎(jiǎng)勵(lì)函數(shù);

(2) 提出MATD3-IDFRF算法,通過設(shè)計(jì)的動(dòng)態(tài)編隊(duì)獎(jiǎng)勵(lì)函數(shù)實(shí)現(xiàn)了無人機(jī)編隊(duì)結(jié)構(gòu)的穩(wěn)定性和隊(duì)形變換的自主性,提升無人機(jī)編隊(duì)在未知?jiǎng)討B(tài)環(huán)境下應(yīng)對(duì)突發(fā)威脅的能力;

(3) 通過設(shè)計(jì)仿真實(shí)驗(yàn),對(duì)比各種算法的指標(biāo)結(jié)果,驗(yàn)證本文所提算法在無人機(jī)編隊(duì)路徑規(guī)劃方面的優(yōu)越性。

1 問題描述與建模

在本文的研究中,考慮兩種無人機(jī)的飛行場(chǎng)景,分別為無障礙物環(huán)境和復(fù)合障礙物環(huán)境。在無障礙物環(huán)境下,可以認(rèn)為在整個(gè)飛行場(chǎng)景中只有無人機(jī)(比如空曠的環(huán)境),因此不需要考慮避開障礙物等一系列情況,是理想的飛行場(chǎng)景。針對(duì)不同的飛行場(chǎng)景和所需要執(zhí)行的任務(wù),障礙物也有所區(qū)別,本文將障礙物分為兩個(gè)大類,即靜態(tài)障礙物和動(dòng)態(tài)障礙物,靜態(tài)障礙物模擬無人機(jī)飛行環(huán)境中的樓宇、樹林等場(chǎng)景,動(dòng)態(tài)障礙物模擬無人機(jī)飛行環(huán)境中可能遭遇的敵機(jī)、飛鳥等突發(fā)威脅。當(dāng)無人機(jī)的飛行場(chǎng)景中同時(shí)存在靜態(tài)障礙物和動(dòng)態(tài)障礙物時(shí),就可以將其看作復(fù)合障礙物環(huán)境。

1.1 無人機(jī)編隊(duì)路徑規(guī)劃問題

無人機(jī)編隊(duì)路徑規(guī)劃問題描述為在有限的區(qū)域內(nèi),多臺(tái)無人機(jī)從各自的起點(diǎn)出發(fā),組成特定的編隊(duì)隊(duì)形,避開若干障礙物,最終到達(dá)終點(diǎn)。在編隊(duì)運(yùn)動(dòng)過程中,對(duì)于以原有隊(duì)形無法避開的障礙物,要盡可能小地改變其原有隊(duì)形,如圖1所示。圖1中,3條藍(lán)色實(shí)線代表3臺(tái)無人機(jī)的飛行路線,由紅色實(shí)心點(diǎn)和紅色虛線組成的三角形代表無人機(jī)組成的編隊(duì),可以看出編隊(duì)隊(duì)形會(huì)發(fā)生一些微調(diào)。

下面對(duì)無人機(jī)編隊(duì)路徑規(guī)劃問題進(jìn)行分解,如圖2所示。初期,零散的無人機(jī)從各自的起點(diǎn)開始移動(dòng),生成特定的編隊(duì)隊(duì)形;中期,無人機(jī)保持特定的編隊(duì)隊(duì)形,向終點(diǎn)進(jìn)行移動(dòng)。若碰到障礙物,則編隊(duì)隊(duì)形需要進(jìn)行微調(diào)以躲避障礙物,待躲避障礙物之后再恢復(fù)成初始隊(duì)形;末期,無人機(jī)編隊(duì)到達(dá)目的地附近,再打破編隊(duì)結(jié)構(gòu)抵達(dá)各自的目的地,完成編隊(duì)的路徑規(guī)劃。為此,無人機(jī)編隊(duì)的路徑規(guī)劃包含兩個(gè)突出問題,即不斷調(diào)整的編隊(duì)隊(duì)形和貫穿始終的路徑規(guī)劃。

1.2 無人機(jī)運(yùn)動(dòng)學(xué)模型

(1) 狀態(tài)空間

本文考慮N架無人機(jī)的編隊(duì)路徑規(guī)劃。每架無人機(jī)的狀態(tài)包含兩個(gè)部分:第一部分為其自身的橫縱坐標(biāo)、飛行角、速度大小等;第二部分為無人機(jī)與其他無人機(jī)之間的距離。通過第二部分解決動(dòng)態(tài)編隊(duì)的問題,使得無人機(jī)編隊(duì)保持一定的隊(duì)形,并在遇到障礙物時(shí)將隊(duì)形進(jìn)行微調(diào)。以第i架無人機(jī)為例,定義無人機(jī)的狀態(tài)空間為

si=[xi,yi,i,vi,di], i=1,2,…,N(1)

式中:xi,yi,i,vi分別代表第i架無人機(jī)的橫坐標(biāo)、縱坐標(biāo)、航向角、速度大小;di是一個(gè)N-1維數(shù)組,數(shù)組中各元素表示第i架無人機(jī)與編隊(duì)中其他無人機(jī)的歐式距離。

無人機(jī)的狀態(tài)滿足一些約束條件:

xmin≤xi≤xmax

ymin≤yi≤ymax

0≤i≤2π

0≤vi≤vimax(2)

式中:xmin,xmax,ymin,ymax定義了無人機(jī)飛行環(huán)境的邊界,無人機(jī)的飛行角范圍為0°~360°;vimax表示第i架無人機(jī)的最大速度。

(2) 動(dòng)作空間

無人機(jī)的動(dòng)作空間也屬于RL問題的要素之一,本文所研究的無人機(jī)動(dòng)作空間包括無人機(jī)的角速度和加速度,用于改變無人機(jī)的飛行角和飛行速度。令ωi和ai作為無人機(jī)的控制量,分別表示為第i架無人機(jī)的角速度和加速度,動(dòng)作空間定義為

Ai=[ωi,ai], i=1,2,…,N(3)

-ωimax≤ωi≤ωimax

-aimax≤ai≤aimax(4)

式中:ωimax表示第i架無人機(jī)的最大角速度;aimax表示第i架無人機(jī)的最大加速度。

(3) 運(yùn)動(dòng)學(xué)方程

無人機(jī)編隊(duì)路徑規(guī)劃中各架無人機(jī)的運(yùn)動(dòng)學(xué)模型相同,其運(yùn)動(dòng)學(xué)方程可表示為

i=vicos i

i=visin i

·ii

i=ai(5)

假設(shè)第i架無人機(jī)在時(shí)刻t的狀態(tài)是[xti,yti,ti,vti],經(jīng)過時(shí)間步長(zhǎng)ΔT,下一時(shí)刻的狀態(tài)變?yōu)椋踴t+1i,yt+1i,t+1i,vt+1i],計(jì)算公式為

xt+1i=xti+vti·ΔT·cos ti

yt+1i=yti+vti·ΔT·sin ti

t+1i=tii·ΔT

vt+1i=vti+ai·ΔT(6)

2 基于MATD3-IDFRF的無人機(jī)編隊(duì)路徑規(guī)劃決策設(shè)計(jì)

2.1 MATD3算法

MADDPG算法33是深度確定性策略梯度(deep deterministic policy gradient, DDPG)算法在多智能體領(lǐng)域的拓展,但是沒有改變動(dòng)作值函數(shù)高估的問題。MATD3算法是目前業(yè)界最先進(jìn)的多智能體RL算法,其借鑒雙延遲深度確定性(twin delayed deep deterministic, TD3)策略梯度算法的雙Q學(xué)習(xí),結(jié)合MADDPG算法中的“集中式訓(xùn)練,分布式學(xué)習(xí)”的網(wǎng)絡(luò)框架,使其適用于環(huán)境不穩(wěn)定的情況。MATD3算法結(jié)構(gòu)如圖3和圖4所示。

如圖3和圖4所示,每個(gè)智能體包含6個(gè)網(wǎng)絡(luò):當(dāng)前的策略網(wǎng)絡(luò)μ(0i,θi),目標(biāo)策略網(wǎng)絡(luò)μ(0i,θ′i),當(dāng)前的第1個(gè)評(píng)估網(wǎng)絡(luò)q(0,a;wi,1),第1個(gè)目標(biāo)評(píng)估網(wǎng)絡(luò)q(0,a;w′i,1),當(dāng)前的第2個(gè)評(píng)估網(wǎng)絡(luò)q(0,a;wi,2),第2個(gè)目標(biāo)評(píng)估網(wǎng)絡(luò)q(0,a;w′i,2)。策略網(wǎng)絡(luò)采用分布式執(zhí)行方式,輸入智能體自身的狀態(tài)信息,輸出其決策的動(dòng)作;兩個(gè)Critic網(wǎng)絡(luò)采用集中式訓(xùn)練方式,輸入所有智能體的狀態(tài)和動(dòng)作,輸出兩個(gè)近似于真值的Q值,然后選擇其中較小的目標(biāo)Q值指導(dǎo)策略網(wǎng)絡(luò)的參數(shù)更新。

定義智能體i的目標(biāo)Q值為

yi=ri+γminj=1,2 q(o,a;w′i,j)(7)

式中:γ為折扣因子;o={o1,o2,…,oN}表示智能體的聯(lián)合觀測(cè)量,oi表示智能體i的觀測(cè)量;a={a1,a2,…,aN}表示智能體的聯(lián)合動(dòng)作,ai表示智能體i的動(dòng)作。與TD3算法類似,評(píng)估網(wǎng)絡(luò)的更新頻率要高于策略網(wǎng)絡(luò)。評(píng)估網(wǎng)絡(luò)依據(jù)最小化函數(shù)L(wi,j)進(jìn)行參數(shù)更新:

L(wi,j)=1N∑Ni=1(yi-q(o,a;wi,j)) j=1,2,…(8)

策略網(wǎng)絡(luò)采用梯度上升更新策略,其梯度計(jì)算公式為

ΔθiL(θi)=1N∑Ni=1Δaq(o,a;wi,j)|a=μ(o;θi)Δμ(o)(9)

對(duì)于上述提到的6個(gè)神經(jīng)網(wǎng)絡(luò)(包括3個(gè)主網(wǎng)絡(luò)和3個(gè)目標(biāo)網(wǎng)絡(luò)),3個(gè)主網(wǎng)絡(luò)參數(shù)每次進(jìn)行梯度下降時(shí)完全更新,3個(gè)目標(biāo)網(wǎng)絡(luò)參數(shù)則會(huì)選擇軟更新,即進(jìn)行微小更新,更新公式為

θ′i=τθ′i+(1-τ)θ′i(10)

w′i,1=τw′i,1+(1-τ)w′i,1

w′i,2=τw′i,2+(1-τ)w′i,2(11)

2.2 不考慮動(dòng)態(tài)編隊(duì)的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

根據(jù)第2.1節(jié)對(duì)無人機(jī)編隊(duì)路徑規(guī)劃問題的分析,將問題分解為動(dòng)態(tài)編隊(duì)和路徑規(guī)劃。本節(jié)不考慮無人機(jī)的動(dòng)態(tài)編隊(duì)問題,考慮各架無人機(jī)進(jìn)行各自的路徑規(guī)劃。

2.2.1 無障礙物環(huán)境的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

對(duì)于無障礙物環(huán)境,無人機(jī)執(zhí)行動(dòng)作只有一個(gè)目標(biāo),即每次狀態(tài)轉(zhuǎn)移都更靠近目標(biāo),盡可能使得無人機(jī)以直線抵達(dá)目的地。為了加快學(xué)習(xí)效率,本文結(jié)合了稀疏性獎(jiǎng)勵(lì)和引導(dǎo)性獎(jiǎng)勵(lì),各架無人機(jī)的獎(jiǎng)勵(lì)函數(shù)定義相同,以第i架無人機(jī)為例,在無障礙物環(huán)境中,其定義為

Ri1r12r23r34r45r5(12)

式中:a1,a2,a3,a4,a5為系數(shù),本文均取1;r1和r2為稀疏性獎(jiǎng)勵(lì);r3,r4,r5為引導(dǎo)性獎(jiǎng)勵(lì),各獎(jiǎng)勵(lì)定義如下。

(1) 抵達(dá)目的地的正向獎(jiǎng)勵(lì)

無人機(jī)的最終目標(biāo)是抵達(dá)目的地,所以如果無人機(jī)抵達(dá)目的地,將獲得一個(gè)正向的獎(jiǎng)勵(lì):

r1=100, Δd≤d1;Δθ≤2.5

50, Δd≤d1;2.5lt;Δθ≤5

10, Δd≤d1;Δθgt;5

0, Δdgt;d1;Δθgt;5(13)

式中:Δd代表無人機(jī)與目的地之間的歐式距離;d1為距離閾值;Δθ為無人機(jī)飛行角度和無人機(jī)與目的地所成角度的差值。

(2) 撞擊障礙物的負(fù)向獎(jiǎng)勵(lì)

無人機(jī)在運(yùn)動(dòng)過程中如果撞擊障礙物,則設(shè)定一個(gè)負(fù)向的獎(jiǎng)勵(lì),本文設(shè)定為

r2=-10(14)

(3) 距離目的地遠(yuǎn)近程度的獎(jiǎng)勵(lì)函數(shù)

由于目的地的坐標(biāo)和無人機(jī)的實(shí)時(shí)坐標(biāo)都已知,為了降低探索的盲目性,本文依據(jù)無人機(jī)距離目的地的遠(yuǎn)近程度設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù):

r3=k·(dt1-dt)(15)

式中:k為從距離度量到獎(jiǎng)勵(lì)度量的系數(shù),本文設(shè)定為1/200(無人機(jī)最大飛行速度的倒數(shù));dt1是上一時(shí)刻無人機(jī)與目的地的距離;dt是當(dāng)前時(shí)刻無人機(jī)與目的地的距離。

(4) 與目的地相對(duì)角度的獎(jiǎng)勵(lì)函數(shù)

無人機(jī)在時(shí)刻t的飛行角度可以通過計(jì)算得到,為進(jìn)一步降低探索的盲目性,根據(jù)無人機(jī)的飛行角度和無人機(jī)與目的地所成角度設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。無人機(jī)飛行角示意圖如圖5所示。

圖5中,θ1為無人機(jī)與目的地所成角度,θ2為無人機(jī)在時(shí)刻t的飛行角度。當(dāng)角度差|θ2-θ1|小于5°時(shí),執(zhí)行動(dòng)作at,無人機(jī)獲得一個(gè)正向獎(jiǎng)勵(lì);當(dāng)角度差在5°和30°之間,無人機(jī)獲得的獎(jiǎng)勵(lì)值為0;如果角度差大于30°,認(rèn)為當(dāng)前動(dòng)作不利于無人機(jī)抵達(dá)目的地,獲得負(fù)獎(jiǎng)勵(lì)。獎(jiǎng)勵(lì)函數(shù)r4如下:

r4= |θ1-θ2|lt;5°

0, 5°≤|θ1-θ2|lt;30°

- 其他(16)

(5) 每走一步的負(fù)向獎(jiǎng)勵(lì)

為了避免無人機(jī)進(jìn)行過多無用的探索,規(guī)定無人機(jī)每走一步就獲得一個(gè)負(fù)向獎(jiǎng)勵(lì),模擬無人機(jī)行駛過程中所消耗的能量。獎(jiǎng)勵(lì)函數(shù)r5如下:

r5=-1(17)

2.2.2 復(fù)合障礙物環(huán)境的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

對(duì)于復(fù)合障礙物環(huán)境,無人機(jī)需要避開障礙物,所以無障礙環(huán)境下的部分獎(jiǎng)勵(lì)函數(shù)失效。在此基礎(chǔ)上,提出改進(jìn)的角度獎(jiǎng)勵(lì)函數(shù)r6和改進(jìn)的距離獎(jiǎng)勵(lì)函數(shù)r7

(1) 復(fù)合障礙物環(huán)境下的角度獎(jiǎng)勵(lì)函數(shù)

對(duì)于復(fù)合障礙物環(huán)境,當(dāng)無人機(jī)與目的地連線中間存在障礙物時(shí),無人機(jī)的飛行方向和無人機(jī)與終點(diǎn)連線之間需要存在一定夾角。為此,提出第一個(gè)針對(duì)夾角的改進(jìn)獎(jiǎng)勵(lì)函數(shù)。對(duì)無人機(jī)、障礙物、目的地三者的位置關(guān)系進(jìn)行分類討論,其位置關(guān)系分為如下4種:無人機(jī)和障礙物分別位于目的地的左下方、左上方、右上方以及右下方。4種位置關(guān)系如圖6所示。

首先說明本文所討論的無人機(jī)飛行角范圍為0°~360°。以圖6(a)為例,無人機(jī)通過機(jī)載雷達(dá)觀測(cè)到前方的障礙物,并且測(cè)得障礙物邊沿切線L1和L3的方向角。由于終點(diǎn)位置已知,可以計(jì)算角度θ1和θ2。在當(dāng)前位置時(shí),θ2小于θ1,則選擇L3切線下方為最佳的飛行方向,最佳的飛行角度θbest定義為

θbestL3-θε(18)

若θ1小于θ2,則最佳飛行角度θbest

θbestL1ε(19)

式中:θε為偏離切線方向的角度差,本文取2°。

根據(jù)最佳飛行角與實(shí)際飛行角的偏離程度設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)r6,當(dāng)角度差小于5°時(shí)給予正向獎(jiǎng)勵(lì)2;當(dāng)角度差在5°和30°之間時(shí)給予獎(jiǎng)勵(lì)0,其他情況給予獎(jiǎng)勵(lì)-2?;诟倪M(jìn)的飛行角獎(jiǎng)勵(lì),使得無人機(jī)的飛行角更貼近最佳飛行角,有利于無人機(jī)更快地避開障礙物,抵達(dá)目的地。改進(jìn)的角度獎(jiǎng)勵(lì)函數(shù)r6設(shè)計(jì)如下:

r6= |θactbest|≤5°

0, 5°lt;|θactbest|≤30°

- 其他(20)

式中:θact表示實(shí)際飛行角度。

(2) 復(fù)合障礙物環(huán)境下的距離獎(jiǎng)勵(lì)函數(shù)

圖7展示了在無人機(jī)避障過程中,無人機(jī)可能短暫遠(yuǎn)離終點(diǎn),為了加快算法收斂速度,這種情況是可以容忍的,為此提出針對(duì)距離目的地遠(yuǎn)近程度的改進(jìn)獎(jiǎng)勵(lì)函數(shù)r7

r7=k(dt1-dt), dt4,dt3,…,dt單調(diào)變化

0, dt4,dt3,…,dt非單調(diào)變化(21)

無人機(jī)在連續(xù)5個(gè)時(shí)刻都靠近終點(diǎn),則獲得一個(gè)正向獎(jiǎng)勵(lì);無人機(jī)在連續(xù)5個(gè)時(shí)刻都遠(yuǎn)離終點(diǎn),則獲得一個(gè)負(fù)向獎(jiǎng)勵(lì),以此增強(qiáng)算法的魯棒性,加快收斂速度。在具體算法實(shí)現(xiàn)過程中,會(huì)借助隊(duì)列這種數(shù)據(jù)結(jié)構(gòu)。隊(duì)列是一種先進(jìn)先出的線性結(jié)構(gòu),一端進(jìn)行入隊(duì),另外一端進(jìn)行出隊(duì),其基本結(jié)構(gòu)如圖8所示。在t時(shí)刻,元素dt入隊(duì),dt5出隊(duì),判斷元素dt,dt1,dt2,dt3,dt4是否是單調(diào)變化的,再通過計(jì)算得到獎(jiǎng)勵(lì)值。下一時(shí)刻再循環(huán)往復(fù),借助隊(duì)列這種一端入隊(duì)、一端出隊(duì)的結(jié)構(gòu)進(jìn)行數(shù)據(jù)存儲(chǔ),可以很好地對(duì)連續(xù)5個(gè)時(shí)刻的距離進(jìn)行更新,然后進(jìn)行獎(jiǎng)勵(lì)的計(jì)算,有助于降低算法的時(shí)間復(fù)雜度。

對(duì)于多架無人機(jī)路徑規(guī)劃問題,考慮加入無人機(jī)間碰撞獎(jiǎng)勵(lì)r8,定義為無人機(jī)之間發(fā)生碰撞產(chǎn)生的負(fù)向獎(jiǎng)勵(lì),本文設(shè)置為-10。定義機(jī)間碰撞獎(jiǎng)勵(lì)函數(shù)r8如下:

r8=-10, 無人機(jī)之間發(fā)生撞擊

0, 其他情況(22)

綜上,設(shè)計(jì)復(fù)合障礙物環(huán)境下各架無人機(jī)的獎(jiǎng)勵(lì)函數(shù)為

Ri1r12r25r56r67r78r8(23)

式中:α6,α7,α8為系數(shù),本文均取1。

2.3 MATD3-IDFRF算法

本文第2.2節(jié)研究了多無人機(jī)的路徑規(guī)劃問題,本節(jié)考慮多無人機(jī)飛行過程中的動(dòng)態(tài)編隊(duì)問題。本節(jié)中依據(jù)每?jī)杉軣o人機(jī)之間最優(yōu)間距和當(dāng)前間距設(shè)計(jì)動(dòng)態(tài)編隊(duì)獎(jiǎng)勵(lì)函數(shù),以保證每?jī)杉軣o人機(jī)之間的間距保持相對(duì)穩(wěn)定,從而引導(dǎo)編隊(duì)保持在特定隊(duì)形。同時(shí),結(jié)合第2.2節(jié)中所定義的獎(jiǎng)勵(lì)函數(shù),使得無人機(jī)編隊(duì)在即將碰撞到障礙物時(shí)能夠進(jìn)行自主編隊(duì)變換。在此基礎(chǔ)上,將本節(jié)中設(shè)計(jì)的動(dòng)態(tài)編隊(duì)獎(jiǎng)勵(lì)函數(shù)與MATD3算法進(jìn)行結(jié)合,提出MATD3-IDFRF。

在進(jìn)行編隊(duì)飛行時(shí),會(huì)對(duì)編隊(duì)隊(duì)形進(jìn)行一定的設(shè)置,即將每?jī)杉軣o人機(jī)之間的距離穩(wěn)定在一個(gè)合理的值附近。為此,以距離為突破口,設(shè)置一條關(guān)于無人機(jī)i和無人機(jī)j之間實(shí)際距離與最優(yōu)距離的獎(jiǎng)勵(lì)函數(shù):

rd,ij=-100di(j)dopt,ij-1.1di(j)dopt,ij-0.9(24)

式中:di(j)為無人機(jī)i和無人機(jī)j的實(shí)際距離;dopt,ij為無人機(jī)i和無人機(jī)j之間的最優(yōu)距離。該獎(jiǎng)勵(lì)函數(shù)的示意圖如圖9所示,可以看出獎(jiǎng)勵(lì)值與di(j)/dopt,ij呈二次函數(shù)關(guān)系。當(dāng)di(j)/dopt,ij為1時(shí),二次函數(shù)取得最大值1,即無人機(jī)i和無人機(jī)j的實(shí)際距離和最優(yōu)距離相等時(shí),獎(jiǎng)勵(lì)值最大為1;di(j)/dopt,ij與1偏離越遠(yuǎn),即無人機(jī)i和無人機(jī)j的實(shí)際距離與最優(yōu)距離偏離越遠(yuǎn),獎(jiǎng)勵(lì)值越小。

對(duì)于無人機(jī)i的動(dòng)態(tài)編隊(duì)獎(jiǎng)勵(lì),考慮其與編隊(duì)中其他各架無人機(jī)的rd,ij,表達(dá)式為

r9=∑Nj=1,j≠ird,ij(25)

根據(jù)以上推導(dǎo)過程,考慮無人機(jī)動(dòng)態(tài)編隊(duì)時(shí),結(jié)合第2.2節(jié)中的內(nèi)容,在無障礙物環(huán)境中,無人機(jī)i的總獎(jiǎng)勵(lì)定義為

Ri1r12r23r34r45r58r89r9(26)

復(fù)合障礙物環(huán)境中,無人機(jī)i的總獎(jiǎng)勵(lì)為

Ri1r12r25r56r67r78r89r9(27)

式中:α9為系數(shù),取為1;其他變量的定義與第2.2節(jié)相同。

2.4 訓(xùn)練算法設(shè)計(jì)流程

基于MATD3-IDFRF算法的無人機(jī)編隊(duì)路徑規(guī)劃算法流程如算法1所示。

算法 1 基于MATD3-IDFRF的無人機(jī)編隊(duì)路徑規(guī)劃算法

輸入 回合數(shù)MaxEpisode,每回合最大時(shí)間步MaxStep,批樣本數(shù)m,獎(jiǎng)勵(lì)加權(quán)系數(shù)α,折扣因子γ,延遲更新頻率C,軟更新系數(shù)τ,高斯噪聲σ

1. 隨機(jī)初始化各架無人機(jī)i的Critic網(wǎng)絡(luò)參數(shù)wi,1、wi,2,Actor網(wǎng)絡(luò)參數(shù)θi及對(duì)應(yīng)的目標(biāo)網(wǎng)絡(luò)參數(shù)

2. For episode=1 to MaxEpisode do:

3." 各架無人機(jī)獲取自身觀測(cè)狀態(tài)o1,1,o1,2,…,o1,N

4." For t=1 to MaxStep do:

5." For i=1 to N do:

6." 對(duì)于每架無人機(jī)執(zhí)行動(dòng)作

at,i=fclip(μ(ot,i;θ)+N),并通過獎(jiǎng)勵(lì)函數(shù)得到獎(jiǎng)勵(lì)值rt,i,根據(jù)式(6)得到無人機(jī)的下一時(shí)刻狀態(tài)o(t+1),i,判斷是否為本episode終止?fàn)顟B(tài)

7." End for

8." 對(duì)樣本數(shù)據(jù)

{ot,1,ot,2,…,ot,N,at,1,at,2,…,at,N,rt,1,rt,2,…,rt,N,o(t+1),1,o(t+1),2,…,o(t+1),N}

進(jìn)行經(jīng)驗(yàn)存儲(chǔ)。

9." If StartTrain Do:

10."" 從經(jīng)驗(yàn)池中隨機(jī)抽取m條樣本數(shù)據(jù)

11."" For i=1 to N do:

12."" 將m條樣本數(shù)據(jù)分別輸入Critic網(wǎng)絡(luò)和Critic目標(biāo)網(wǎng)絡(luò)得到兩組Q值,根據(jù)式(7)得到無人機(jī)i的目標(biāo)Q

13."" 根據(jù)式(8)最小化函數(shù)L(wi,j)進(jìn)行Critic網(wǎng)絡(luò)的參數(shù)更新

14."" 根據(jù)式(11)對(duì)Critic目標(biāo)網(wǎng)絡(luò)的參數(shù)進(jìn)行更新

15."" 每隔C步根據(jù)式(9)進(jìn)行梯度上升,更新Actor網(wǎng)絡(luò)參數(shù),根據(jù)式(10)進(jìn)行Actor目標(biāo)網(wǎng)絡(luò)的參數(shù)更新

16."" End For

17." End If

18. End for

19.End for

3 仿真實(shí)驗(yàn)

3.1 實(shí)驗(yàn)環(huán)境設(shè)計(jì)

在實(shí)驗(yàn)環(huán)境設(shè)計(jì)中考慮兩個(gè)方面:第一個(gè)是無人機(jī)的飛行環(huán)境設(shè)計(jì);第二個(gè)是無人機(jī)編隊(duì)隊(duì)形設(shè)計(jì)。在飛行環(huán)境部分,設(shè)計(jì)了復(fù)合障礙物環(huán)境,如圖10所示。仿真中,設(shè)置無人機(jī)編隊(duì)包含5架無人機(jī),藍(lán)色實(shí)心點(diǎn)表示無人機(jī)各自的起點(diǎn),紅色叉號(hào)表示無人機(jī)各自的目的地;不帶箭頭的深灰色圓圈表示靜態(tài)障礙物,帶箭頭的深灰色圓圈表示動(dòng)態(tài)障礙物的初始位置,帶箭頭的淺灰色圓圈表示動(dòng)態(tài)障礙物的終止位置。

在無人機(jī)編隊(duì)隊(duì)形設(shè)計(jì)中,本文選擇楔形隊(duì)形模式,如圖11所示,編隊(duì)的參數(shù)設(shè)置如表1所示。

由以上所設(shè)定的無人機(jī)編隊(duì)隊(duì)形,可以計(jì)算得到各架無人機(jī)之間的最佳間距,從而確定第2.4節(jié)中設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)相關(guān)參數(shù)。

本實(shí)驗(yàn)分別采用MADDPG算法、MATD3算法及本文所提出的MATD3-IDFRF算法對(duì)上述構(gòu)建的無人機(jī)編隊(duì)路徑規(guī)劃智能決策問題展開研究,3種算法均基于Actor-Critic框架和多智能體強(qiáng)化學(xué)習(xí)(multi-agent reinforcement learning, MARL)架構(gòu)。3種算法中每架無人機(jī)的Actor網(wǎng)絡(luò)結(jié)構(gòu)、輸入、輸出相同,Critic網(wǎng)絡(luò)輸入所有無人機(jī)的狀態(tài)和動(dòng)作,輸出對(duì)應(yīng)的Q值。各個(gè)網(wǎng)絡(luò)采用的超參數(shù)如表2所示。

3.2 實(shí)驗(yàn)結(jié)果與分析

根據(jù)第3.1節(jié)所創(chuàng)建的仿真環(huán)境和楔形編隊(duì),并基于第2.4節(jié)的算法流程進(jìn)行訓(xùn)練,分別從路徑圖、編隊(duì)變形率、每回合平均獎(jiǎng)勵(lì)、探索成功率、獎(jiǎng)勵(lì)函數(shù)收斂區(qū)間及獎(jiǎng)勵(lì)函數(shù)收斂后的平均獎(jiǎng)勵(lì)等指標(biāo)對(duì)比3種算法的優(yōu)劣。

在復(fù)合障礙物環(huán)境中,MADDPG算法和MATD3算法依據(jù)的獎(jiǎng)勵(lì)函數(shù)見式(23),MATD3-IDFRF算法依據(jù)的獎(jiǎng)勵(lì)函數(shù)見式(27),算法收斂后無人機(jī)探索的路徑如圖12所示,指標(biāo)結(jié)果如圖13~圖15和表3所示。

3.2.1 路徑圖

圖12(a)和圖12(b)分別展示了MADDPG算法、MATD3算法的規(guī)劃路徑,圖12(c)~圖12(f)分別為MATD3-IDFRF算法中無人機(jī)在第0 s、15 s、30 s、58 s時(shí)刻的路徑。3種算法中各架無人機(jī)均能避開靜態(tài)、動(dòng)態(tài)障礙物、其他無人機(jī),成功抵達(dá)各自的目的地。

MADDPG算法中存在一些多余的路徑,無人機(jī)經(jīng)過較多的繞飛徘徊再抵達(dá)目的地;MATD3算法中各架無人機(jī)路徑更短,繞飛徘徊的情況較少,但是各架無人機(jī)依舊孤立地完成各自的路徑規(guī)劃;MATD3-IDFRF算法中各架無人機(jī)由初始位置出發(fā),然后很快地組成編隊(duì)結(jié)構(gòu),在中途飛行過程中以整體編隊(duì)的結(jié)構(gòu)進(jìn)行避障和路徑規(guī)劃,在特定情況時(shí)對(duì)隊(duì)形結(jié)構(gòu)進(jìn)行微調(diào),在抵達(dá)目的地附近時(shí),無人機(jī)能夠打破編隊(duì)結(jié)構(gòu),抵達(dá)各自的目的地。

3.2.2 編隊(duì)變形率

設(shè)計(jì)動(dòng)態(tài)編隊(duì)獎(jiǎng)勵(lì)函數(shù)的目的是保證無人機(jī)編隊(duì)在復(fù)雜的飛行場(chǎng)景中保持編隊(duì)隊(duì)形,為此定義編隊(duì)變形率以衡量編隊(duì)隊(duì)形相較于原編隊(duì)隊(duì)形的變化情況,可表示為

Deformation_rate=∑ni=1offseti(28)

式中:offseti為無人機(jī)i的距離相對(duì)偏移量,定義如下:

offseti=∑nj=1|di(j)-dopt,ij|dopt,ij(29)

繪制3種算法所規(guī)劃的無人機(jī)編隊(duì)路徑的變形率曲線如圖13所示。初期,3種算法的編隊(duì)變形率都維持在較低水平;隨后,MATD3-IDFRF算法所指導(dǎo)的無人機(jī)編隊(duì)快速集結(jié)成特定編隊(duì),編隊(duì)變形率降低,而其他算法并未指導(dǎo)無人機(jī)編隊(duì)集結(jié),所以編隊(duì)變形率快速上升;運(yùn)動(dòng)中期,MATD3-IDFRF算法指導(dǎo)的無人機(jī)編隊(duì)始終保持特定編隊(duì)隊(duì)形,所以其編隊(duì)變形率近似為0;在運(yùn)動(dòng)末期,各架無人機(jī)抵達(dá)各自目的地,3種算法的編隊(duì)變形率又大致相同。由此可知,本文所提出的動(dòng)態(tài)編隊(duì)在復(fù)合障礙物環(huán)境中能夠幫助無人機(jī)編隊(duì)實(shí)現(xiàn)編隊(duì)結(jié)構(gòu)的穩(wěn)定性和隊(duì)形變換的自主性,增強(qiáng)了其抵抗突發(fā)威脅的能力。

3.2.3 每回合的平均獎(jiǎng)勵(lì)變化

在RL任務(wù)中,訓(xùn)練結(jié)果的評(píng)價(jià)指標(biāo)可用回合的平均獎(jiǎng)勵(lì)值來進(jìn)行評(píng)估?;睾系钠骄?jiǎng)勵(lì)值是智能體最近回合所得獎(jiǎng)勵(lì)的平均值,是智能體訓(xùn)練所得的獎(jiǎng)勵(lì)值隨回合變化的曲線,獎(jiǎng)勵(lì)值上升越快,獎(jiǎng)勵(lì)值收斂時(shí)越平穩(wěn),算法訓(xùn)練的效果越好。在本實(shí)驗(yàn)中,使用最近200回合的平均獎(jiǎng)勵(lì)作為最終的回合平均獎(jiǎng)勵(lì)值,并且考慮到MATD3-IDFRF算法與兩種對(duì)比算法使用的獎(jiǎng)勵(lì)函數(shù)并不同,使用歸一化的手段來消除不同獎(jiǎng)勵(lì)函數(shù)在數(shù)值上的差異,對(duì)3種算法獎(jiǎng)勵(lì)值的收斂效果進(jìn)行對(duì)比。在本實(shí)驗(yàn)中,將編隊(duì)中的5架無人機(jī)獎(jiǎng)勵(lì)取平均值,對(duì)3種算法歸一化后的獎(jiǎng)勵(lì)值隨訓(xùn)練回合數(shù)的滑動(dòng)均值曲線繪制在同一坐標(biāo)軸內(nèi),如圖14所示。

根據(jù)圖14可知,經(jīng)過9 000回合的訓(xùn)練,3種算法最終都達(dá)到了收斂的結(jié)果,但是3種算法在性能表現(xiàn)上有所差異。經(jīng)過比較,MATD3-IDFRF算法的收斂速度最快,在大約4 000回合時(shí),無人機(jī)已經(jīng)找到了最優(yōu)決策,此后其平均獎(jiǎng)勵(lì)值快速收斂于穩(wěn)定區(qū)間,而其他方案收斂效率明顯更低。同時(shí),相較于兩種對(duì)比算法,MATD3-IDFRF算法在收斂后能夠保持較好的穩(wěn)定性能,表明本文所提出的動(dòng)態(tài)編隊(duì)獎(jiǎng)勵(lì)能夠幫助無人機(jī)編隊(duì)輸出更穩(wěn)定的策略。

3.2.4 對(duì)比指標(biāo)

3種算法的對(duì)比指標(biāo)如表3所示。3種算法所規(guī)劃的無人機(jī)平均路徑大致相當(dāng),但是編隊(duì)變形率差異較大,MATD3-IDFRF算法的編隊(duì)變形率最小,其相較于MATD3算法降低了97%。在6 000回合之后,獎(jiǎng)勵(lì)函數(shù)趨于收斂,考慮到MATD3-IDFRF算法依據(jù)動(dòng)態(tài)編隊(duì)的獎(jiǎng)勵(lì)函數(shù),在復(fù)合障礙物環(huán)境中其對(duì)每輪的獎(jiǎng)勵(lì)會(huì)造成大約350的增益,因此需減去這部分的增益。可以看出,MATD3-IDFRF算法收斂時(shí)的獎(jiǎng)勵(lì)平均值最大,其相較于MATD3算法提升了2.3%,且區(qū)間范圍最小,顯示本文所提出的改進(jìn)算法的優(yōu)勢(shì),其可幫助無人機(jī)編隊(duì)更快、更穩(wěn)定地完成任務(wù)執(zhí)行。MATD3-IDFRF算法指導(dǎo)無人機(jī)編隊(duì)在第4 338回合獲得了最優(yōu)的路徑,而其他算法在整個(gè)訓(xùn)練過程中均未獲得最優(yōu)路徑。

3.2.5 成功率

無人機(jī)在每回合訓(xùn)練中有成功和失敗兩種情況,成功意味著無人機(jī)順利避開障礙物,在規(guī)定步數(shù)內(nèi)抵達(dá)目的地,失敗則是指無人機(jī)碰到障礙物或步數(shù)超過最大步數(shù)MaxStep。為了對(duì)比不同算法的收斂速度,定義第n回合的成功率指標(biāo)如下:

success_rate(n)=En(30)

式中:E表示前n回合成功數(shù)。圖15展示了3種算法的成功率曲線。由圖15可見,訓(xùn)練初期,3種算法的成功率均為0,表明無人機(jī)編隊(duì)未抵達(dá)終點(diǎn)。此后,MATD3-IDFRF算法的成功率率先大于0,表明無人機(jī)編隊(duì)首次抵達(dá)終點(diǎn)。在訓(xùn)練中期,3種算法的曲線快速上升,其中MATD3-IDFRF算法的曲線上升速度最快,表明其學(xué)習(xí)效率更高。在訓(xùn)練后期,3種算法的曲線都比較平滑,表明無人機(jī)編隊(duì)每次訓(xùn)練都能夠抵達(dá)終點(diǎn)。在訓(xùn)練結(jié)束之后,MATD3-IDFRF算法的成功率相較于MATD3算法提升了6.8%。在整個(gè)訓(xùn)練過程中,MATD3-IDFRF算法的成功率普遍大于另外兩種算法。

以上各類指標(biāo)均反映出MATD3-IDFRF算法在指導(dǎo)無人機(jī)編隊(duì)進(jìn)行路徑規(guī)劃時(shí),引導(dǎo)其形成穩(wěn)定的編隊(duì)結(jié)構(gòu),當(dāng)編隊(duì)將要碰到障礙物或者抵達(dá)目的地時(shí)進(jìn)行隊(duì)形調(diào)整,同時(shí)能夠更高效、穩(wěn)定地尋求到最優(yōu)決策,顯示了本文所提出的動(dòng)態(tài)編隊(duì)獎(jiǎng)勵(lì)的優(yōu)勢(shì)。

接下來將本文提出的編隊(duì)方法與傳統(tǒng)編隊(duì)方法進(jìn)行對(duì)比,對(duì)比算法為孫田野等34提出的改進(jìn)Quatre(improved Quatre, IQuatre)算法多無人機(jī)編隊(duì)方法進(jìn)行航跡規(guī)劃,無人機(jī)的路徑如圖16所示。不難發(fā)現(xiàn),與本文所提出的編隊(duì)算法相比,這種方法在無人機(jī)編隊(duì)過程中路徑不夠平滑且無人機(jī)在飛行中不能夠一直保持很好的編隊(duì)效果,穩(wěn)定性較差,從而進(jìn)一步表明了本文所提算法在無人機(jī)編隊(duì)路徑規(guī)劃問題中的優(yōu)勢(shì)。

3.3 測(cè)試結(jié)果對(duì)比

為了測(cè)試算法的泛化能力,針對(duì)第3.1節(jié)中的復(fù)合障礙物環(huán)境下的3種算法重新設(shè)計(jì)實(shí)驗(yàn)環(huán)境。動(dòng)態(tài)障礙物分別從[3 000,2 500]m、[7 000,7 500]m移動(dòng)到[3 000,7 960]m、[7 000,2 300]m,移動(dòng)速度為分別為105 m/s和100 m/s。各無人機(jī)從起點(diǎn)出發(fā)抵達(dá)目的地,3種算法的測(cè)試結(jié)果如圖17所示。根據(jù)仿真結(jié)果,3種算法均能指導(dǎo)各架無人機(jī)成功抵達(dá)目的地。對(duì)比MADDPG算法和MATD3算法的路徑,后者要明顯優(yōu)于前者,各架無人機(jī)所規(guī)劃的路徑更短,說明MATD3算法在處理無人機(jī)編隊(duì)路徑規(guī)劃問題上更有效。對(duì)比MATD3算法和MATD3-IDFRF算法,MATD3-IDFRF算法中各架無人機(jī)從起點(diǎn)出發(fā),迅速向中間靠攏,形成穩(wěn)定的編隊(duì)結(jié)構(gòu),以編隊(duì)的形式向目的地方向移動(dòng),同時(shí)在編隊(duì)將碰到障礙物和編隊(duì)抵達(dá)目的地時(shí)能很好地進(jìn)行編隊(duì)調(diào)整,進(jìn)一步證明了本文所提出的動(dòng)態(tài)編隊(duì)獎(jiǎng)勵(lì)的優(yōu)越性。

4 結(jié) 論

本文針對(duì)無人機(jī)編隊(duì)路徑規(guī)劃問題,建立無人機(jī)編隊(duì)的運(yùn)動(dòng)學(xué)模型,并提出基于MATD3-IDFRF算法的無人機(jī)編隊(duì)路徑規(guī)劃智能決策方案。首先,設(shè)計(jì)了不考慮動(dòng)態(tài)編隊(duì)的獎(jiǎng)勵(lì)函數(shù),即將無人機(jī)編隊(duì)路徑規(guī)劃分解為多個(gè)單無人機(jī)路徑規(guī)劃。同時(shí),為了發(fā)揮編隊(duì)的優(yōu)勢(shì),提升編隊(duì)變換的自主性和編隊(duì)結(jié)構(gòu)的穩(wěn)定性,設(shè)計(jì)基于每?jī)杉軣o人機(jī)之間當(dāng)前間距和最優(yōu)間距的獎(jiǎng)勵(lì)函數(shù),并在此基礎(chǔ)上提出MATD3-IDFRF算法。在實(shí)驗(yàn)部分,設(shè)計(jì)復(fù)合障礙物環(huán)境,通過對(duì)比所規(guī)劃的路徑、編隊(duì)變形率、每回合累計(jì)獎(jiǎng)勵(lì)、成功率、輸出最佳決策的時(shí)間等指標(biāo),驗(yàn)證本文提出的基于MATD3-IDFRF算法的智能決策方案的優(yōu)勢(shì),顯示本文所提出的動(dòng)態(tài)編隊(duì)獎(jiǎng)勵(lì)能有效提升編隊(duì)結(jié)構(gòu)的穩(wěn)定性和編隊(duì)變換的自主性,提升無人機(jī)編隊(duì)在未知?jiǎng)討B(tài)環(huán)境下應(yīng)對(duì)突發(fā)威脅的能力。

參考文獻(xiàn)

[1] 賈永楠, 田似營(yíng), 李擎. 無人機(jī)集群研究進(jìn)展綜述[J]. 航空學(xué)報(bào), 2020, 41(S1): 414.

JIA Y N, TIAN S Y, LI Q. Recent development of unmanned aerial vehicle swarms[J]. Acta Aeronauticaet Astronautica Sinica, 2020, 41(S1): 414.

[2] AL-HILO A, SAMIR M, ASSI C, et al. UAV-assisted content delivery in intelligent transportation systems-joint trajectory planning and cache management[J]. IEEE Trans.on Intelligent Transportation Systems, 2020, 22(8): 51555167.

[3] ERDELJ M, NATALIZIO E, CHOWDHURY K R, et al. Help from the sky: leveraging UAVs for disaster management[J]. IEEE Pervasive Computing, 2017, 16(1): 2432.

[4] 宗群, 王丹丹, 邵士凱, 等. 多無人機(jī)協(xié)同編隊(duì)飛行控制研究現(xiàn)狀及發(fā)展[J]. 哈爾濱工業(yè)大學(xué)學(xué)報(bào), 2017, 49(3): 114.

ZONG Q, WANG D D, SHAO S K, et al. Research status and development of multi UAV coordinated formation flight control[J]. Journal of Harbin Institute of Technology, 2017, 49(3): 114.

[5] SHAO X L, LIU H C, ZHANG W D, et al. Path driven formation-containment control of multiple UAVs: a path-following framework[J]. Aerospace Science and Technology, 2023, 135: 108168.

[6] CHEN L, DUAN H B. Collision-free formation-containment control for a group of UAVs with unknown disturbances[J]. Aerospace Science and Technology, 202 126: 107618.

[7] SHAO S K, PENG Y, HE C L, et al. Efficient path planning for UAV formation via comprehensively improved particle swarm optimization[J]. ISA Transactions, 2020, 97: 415430.

[8] WU Y, GOU J Z, HU X T, et al. A new consensus theory-based method for formation control and obstacle avoidance of UAVs[J]. Aerospace Science and Technology, 2020, 107: 106332.

[9] QU C Z, GAI W D, ZHONG M Y, et al. A novel reinforcement learning based grey wolf optimizer algorithm for unmanned aerial vehicles (UAVs) path planning[J]. Applied Soft Computing, 2020, 89: 106099.

[10] ZHANG Z, WU J, DAI J Y, et al. A novel real-time penetration path planning algorithm for stealth UAV in 3D complex dynamic environment[J]. IEEE Access, 2020, 8: 122757122771.

[11] 吳文海, 郭曉峰, 周思羽. 基于改進(jìn)約束差分進(jìn)化算法的動(dòng)態(tài)航跡規(guī)劃[J]. 控制與決策, 2020, 35(10): 23812390.

WU W H, GUO X F, ZHOU S Y. Dynamic route planning based on improved constrained differential evolution algorithm[J]. Control and Decision, 2020, 35(10): 23812390.

[12] YU X B, JIANG N J, WANG X M, et al. A hybrid algorithm based on grey wolf optimizer and differential evolution for UAV path planning[J]. Expert Systems with Applications, 2023, 215: 119327.

[13] XU L, CAO X B, DU W B, et al. Cooperative path planning optimization for multiple UAVs with communication constraints[J]. Knowledge-Based Systems, 2023, 260: 110164.

[14] SILVA J A G, SANTOS D H, NEGREIROS A P F, et al. High-level path planning for an autonomous sailboat robot using Q-Learning[J]. Sensors, 2020, 20(6): 1550.

[15] 孫輝輝, 胡春鶴, 張軍國(guó). 移動(dòng)機(jī)器人運(yùn)動(dòng)規(guī)劃中的深度強(qiáng)化學(xué)習(xí)方法[J]. 控制與決策, 202 36(6): 12811292.

SUN H H, HU C H, ZHANG J G. Deep reinforcement learning for motion planning of mobile robots[J]. Control and Decision, 202 36(6): 12811292.

[16] LI X J, LIU H, LI J Q, et al. Deep deterministic policy gradient algorithm for crowd-evacuation path planning[J]. Computers amp; Industrial Engineering, 202 161: 107621.

[17] ZHANG S T, LI Y B, DONG Q. Autonomous navigation of UAV in multi-obstacle environments based on a deep reinforcement learning approach[J]. Applied Soft Computing, 202 115: 108194.

[18] POLYDOROS A S, NALPANTIDIS L. Survey of model-based reinforcement learning: applications on robotics[J]. Journal of Intelligent amp; Robotic Systems, 2017, 86(2): 153173.

[19] ZHANG F J, LI J, LI Z. A TD3-based multi-agent deep reinforcement learning method in mixed cooperation-competition environment[J]. Neurocomputing, 2020, 411: 206215.

[20] SUI D, XU W P, ZHANG K. Study on the resolution of multi-aircraft flight conflicts based on an IDQN[J]. Chinese Journal of Aeronautics, 202 35(2): 195213.

[21] 周治國(guó), 余思雨, 于家寶, 等. 面向無人艇的T-DQN智能避障算法研究[J]. 自動(dòng)化學(xué)報(bào), 2023, 49(8): 16451655.

ZHOU Z G, YU S Y, YU J B, et al. Research on T-DQN intelligent obstacle avoidance algorithm of unmanned surface vehicle[J]. Acta Automatica Sinica, 2023, 49(8): 16451655.

[22] YAN C, XIANG X J, WANG C. Towards real-time path planning through deep reinforcement learning for a UAV in dynamic environments[J]. Journal of Intelligent amp; Robotic Systems, 2020, 98: 297309.

[23] 楊秀霞, 王晨蕾, 張毅, 等. 基于逆向強(qiáng)化學(xué)習(xí)的無人機(jī)路徑規(guī)劃[J]. 電光與控制, 2023, 30(8): 17.

YANG X X, WANG C L, ZHANG Y, et al. UAV path planning based on reverse reinforcement learning[J]. Electronics Optics amp; Control, 2023, 30(8): 17.

[24] QIE H, SHI D X, SHEN T L, et al. Joint optimization of multi-UAV target assignment and path planning based on multi-agent reinforcement learning[J]. IEEE Access, 2019, 7: 146264146272.

[25] ZHOU C H, LI J X, SHI Y J, et al. Research on multi-robot formation control based on MATD3 algorithm[J]. Applied Sciences, 2023, 13(3): 1874.

[26] WU Y, GOU J Z, JI H L, et al. Hierarchical mission replanning for multiple UAV formations performing tasks in dynamic situation[J]. Computer Communications, 2023, 200: 132148.

[27] PAN Z H, ZHANG C X, XIA Y Q, et al. An improved artificial potential field method for path planning and formation control of the multi-UAV systems[J]. IEEE Trans.on Circuits and Systems II: Express Briefs, 202 69(3): 11291133.

[28] TAHIR A, BOLING J M, HAGHBAYAN M H, et al. Comparison of linear and nonlinear methods for distributed control of a hierarchical formation of UAVs[J]. IEEE Access, 2020, 8: 9566795680.

[29] 王錦錦, 祁圣君, 鐘海, 等. 基于Dubins曲線的一致性編隊(duì)集結(jié)控制[J]. 計(jì)算機(jī)仿真, 202 38(7): 4044.

WANG J J, QI S J, ZHONG H, et al. Consistent formation aggregation control based on dubins curve[J]. Computer Simulation, 202 38(7): 4044.

[30] TANG J. Analysis and improvement of traffic alert and collision avoidance system[J]. IEEE Access, 2017, 5: 2141921429.

[31] LIU H, PENG F C, MODARES H, et al. Heterogeneous formation control of multiple rotorcrafts with unknown dynamics by reinforcement learning[J]. Information Sciences, 202 558: 194207.

[32] PAN C, PENG Z H, LIU L, et al. Data-driven distributed formation control of under-actuated unmanned surface vehicles with collision avoidance via model-based deep reinforcement learning[J]. Ocean Engineering, 2023, 267: 113166.

[33] ZHANG Y, MOU Z Y, GAO F F, et al. UAV-enabled secure communications by multi-agent deep reinforcement learning[J]. IEEE Trans.on Vehicular Technology, 2020, 69(10): 1159911611.

[34] 孫田野, 孫偉, 吳建軍. 改進(jìn)Quatre算法的無人機(jī)編隊(duì)快速集結(jié)方法[J]. 系統(tǒng)工程與電子技術(shù), 202 44(9): 28402848.

SUN T Y, SUN W, WU J J. UAV formation rapid assembly method based on improved Quatre algorithm[J]. Systems Engineering and Electronics, 202 44(9): 28402848.

作者簡(jiǎn)介

唐 恒(1998—),男,碩士研究生,主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、無人機(jī)編隊(duì)路徑規(guī)劃。

孫 偉(1980—),男,教授,博士,主要研究方向?yàn)殚_放環(huán)境中不確定條件下的感知與行為的機(jī)器理解、復(fù)雜任務(wù)規(guī)劃與推理。

呂 磊(1995—),男,博士研究生,主要研究方向?yàn)槎酂o人機(jī)協(xié)同控制、航跡規(guī)劃。

賀若飛(1982—),男,副研究員,博士,主要研究方向?yàn)闊o人機(jī)系統(tǒng)工程與總體設(shè)計(jì)、智能無人機(jī)協(xié)同控制。

吳建軍(1972—),男,副研究員,博士,主要研究方向?yàn)闊o人機(jī)系統(tǒng)飛控及總體設(shè)計(jì)。

孫昌浩(1987—),男,高級(jí)工程師,博士,主要研究方向?yàn)椴┺膶W(xué)習(xí)、分布式協(xié)同決策理論與應(yīng)用。

孫田野(1995—),男,博士研究生,主要研究方向?yàn)槎酂o人機(jī)系統(tǒng)與無人機(jī)路徑規(guī)劃。

猜你喜歡
強(qiáng)化學(xué)習(xí)路徑規(guī)劃無人機(jī)
基于強(qiáng)化學(xué)習(xí)的在線訂單配送時(shí)隙運(yùn)能分配
論“以讀促寫”在初中英語寫作教學(xué)中的應(yīng)用
智能交通車流自動(dòng)導(dǎo)引系統(tǒng)
清掃機(jī)器人的新型田埂式路徑規(guī)劃方法
自適應(yīng)的智能搬運(yùn)路徑規(guī)劃算法
科技視界(2016年26期)2016-12-17 15:53:57
分布式系統(tǒng)中基于非合作博弈的調(diào)度算法
基于B樣條曲線的無人車路徑規(guī)劃算法
高職院校新開設(shè)無人機(jī)專業(yè)的探討
人間(2016年26期)2016-11-03 17:52:40
利用無人機(jī)進(jìn)行航測(cè)工作的方式方法
一種適用于輸電線路跨線牽引無人機(jī)的飛行方案設(shè)計(jì)
科技視界(2016年22期)2016-10-18 14:30:27
张家川| 英吉沙县| 招远市| 浙江省| 蕲春县| 深水埗区| 丹棱县| 资阳市| 运城市| 河北区| 会东县| 通河县| 萨嘎县| 洪泽县| 九江市| 安丘市| 新宁县| 九龙县| 夏河县| 苗栗县| 泾阳县| 左云县| 迁西县| 绥江县| 富平县| 禄丰县| 菏泽市| 临猗县| 镇平县| 格尔木市| 彭泽县| 嵩明县| 昌乐县| 两当县| 盘山县| 辉县市| 华宁县| 正宁县| 师宗县| 清镇市| 城固县|