高敬鵬,胡欣瑜,江志燁
1.電子信息系統(tǒng)復(fù)雜電磁環(huán)境效應(yīng)國家重點實驗室,河南 洛陽 471003
2.哈爾濱工程大學 信息與通信工程學院,哈爾濱 150001
3.北京航天長征飛行器研究所 試驗物理與計算數(shù)學國家級重點實驗室,北京 100076
航跡規(guī)劃是無人機(unmanned aerial vehicle,UAV)完成電子對抗作戰(zhàn)任務(wù)的有效技術(shù)手段。面對地形及敵方雷達威脅,UAV飛行時亟需合理的規(guī)劃算法獲取航跡以規(guī)避危險并完成任務(wù)。實際飛行過程存在未知動態(tài)威脅,更要求UAV具備實時決策能力[1],因此在未知威脅環(huán)境如何實時規(guī)劃UAV航跡是亟待解決的難題。
群智能算法是當前規(guī)劃航跡的主要手段,結(jié)合約束條件,設(shè)計目標函數(shù),利用迭代技術(shù)解算最優(yōu)航跡。文獻[2]提出一種自適應(yīng)遺傳算法實現(xiàn)UAV低空三維航跡規(guī)劃,可以有效適用于靜態(tài)地形威脅環(huán)境,然而其忽略了未知威脅對實際飛行過程的影響。文獻[3]提出一種基于改進蟻群的UAV三維航跡重規(guī)劃算法,相較其他算法,減少了規(guī)劃時間,然而隨著威脅數(shù)目增多,算法迭代計算復(fù)雜度升高,處理速度下降,難以滿足無人機飛行航跡實時控制的需求。另外,若以離散航點兩兩連接形成的直線段為航跡,無人機在航點切換處飛行,不符合自身飛行動力學原理,將導(dǎo)致飛行誤差,故在航跡規(guī)劃的基礎(chǔ)上,利用航跡優(yōu)化技術(shù)將離散航點優(yōu)化為一條滿足無人機運動約束的飛行航跡[4]。文獻[5]利用改進A*算法完成離散航跡點的規(guī)劃,并通過插值平均處理優(yōu)化航跡,卻也增大了解算航跡的時間成本。文獻[6]提出一種改進RRT航跡規(guī)劃算法,在得到航跡節(jié)點的基礎(chǔ)上,采用B樣條曲線平滑方法生成曲率連續(xù)的航跡,也造成整體耗時增多。雖然傳統(tǒng)以及基于群智能優(yōu)化的航跡規(guī)劃算法均能夠獲得最優(yōu)航跡,但依賴于航跡優(yōu)化技術(shù)配合且解算目標函數(shù)速度慢加大了實時規(guī)劃難度。因此現(xiàn)階段選擇高效算法對于實現(xiàn)UAV航跡實時規(guī)劃尤為重要。
近年來,隨著機器學習的發(fā)展,深度強化學習因其出色的泛化性和適配性被成功應(yīng)用于規(guī)劃領(lǐng)域[7]。2013年,DeepMind團隊[8]提出基于深度Q網(wǎng)絡(luò)(deep Q-network,DQN)的深度強化學習(deep reinforcement learning,DRL)方法,利用神經(jīng)網(wǎng)絡(luò)擬合Q值函數(shù),能夠解決高維狀態(tài)空間的離散動作決策問題。文獻[9]設(shè)計一種改進DQN算法,在三維空間規(guī)劃移動機器人路徑,控制智能體輸出離散動作,但無人機實際飛行是需要連續(xù)精準控制的,故其方法無法拓展至航跡規(guī)劃領(lǐng)域。2015年,Lillicrap等人[10]提出基于連續(xù)控制模型的深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法,使智能體能在復(fù)雜環(huán)境根據(jù)自身狀態(tài)決策輸出連續(xù)動作。文獻[11]利用DDPG算法決策無人機機動著陸的連續(xù)動作,這與航跡規(guī)劃中無人機連續(xù)飛行需求不謀而合,故DDPG算法可用于無人機航跡規(guī)劃。然而DDPG算法收斂性能受網(wǎng)絡(luò)權(quán)重參數(shù)影響較大[12],適配網(wǎng)絡(luò)參數(shù)及優(yōu)化模型將導(dǎo)致訓(xùn)練耗時長。文獻[13]提出混合噪聲優(yōu)化DDPG算法實現(xiàn)無人機對機動目標的連續(xù)跟蹤,DDPG算法收斂性能得以提升,但仍存在訓(xùn)練耗時長的弊端。因此實際應(yīng)用中如何降低網(wǎng)絡(luò)訓(xùn)練時間成本成為DDPG算法仍待解決的問題。
為解決在未知威脅環(huán)境無人機難以實時規(guī)劃航跡且模型訓(xùn)練機制冗余的問題,本文提出一種改進DDPG無人機航跡規(guī)劃算法。結(jié)合實際環(huán)境,搭建飛行場景模型,將DRL方法引入航跡規(guī)劃領(lǐng)域,根據(jù)任務(wù)和飛行需求,設(shè)計狀態(tài)空間、動作空間和獎勵函數(shù),利用人工蜂群改進DDPG算法,更新網(wǎng)絡(luò)模型參數(shù),訓(xùn)練并應(yīng)用改進DDPG網(wǎng)絡(luò)模型,實現(xiàn)無人機航跡實時規(guī)劃。
為完成無人機航跡實時控制,并提升DDPG算法訓(xùn)練效率,本文提出改進DDPG無人機航跡規(guī)劃算法,其系統(tǒng)模型如圖1所示。首先,構(gòu)建環(huán)境空間,包括靜態(tài)地形以及雷達探測威脅。其次,設(shè)計航跡規(guī)劃問題的強化學習要素,根據(jù)無人機運動模型設(shè)計狀態(tài)空間,依據(jù)飛行動力學理論設(shè)計動作空間,結(jié)合非稀疏化思想,考慮無人機與環(huán)境的交互情況設(shè)計獎勵函數(shù)。隨后,結(jié)合所設(shè)計的強化學習要素,構(gòu)成經(jīng)驗數(shù)組,利用人工蜂群算法,優(yōu)化DDPG算法網(wǎng)絡(luò)參數(shù)更新機制,訓(xùn)練改進DDPG無人機航跡規(guī)劃網(wǎng)絡(luò)模型。最后,應(yīng)用改進DDPG算法,實現(xiàn)無人機從實時飛行狀態(tài)到實時飛行動作的決策映射,形成航跡。
圖1 無人機航跡規(guī)劃系統(tǒng)模型Fig.1 Model of UAV track planning system
無人機與環(huán)境發(fā)生交互得到飛行動作的航跡規(guī)劃過程可以視為序列決策過程,使用馬爾科夫決策過程可以對其建模,利用強化學習算法能夠?qū)ζ淝蠼狻?/p>
馬爾科夫決策過程中每個t時刻狀態(tài)的變化都只與t-1時刻狀態(tài)和動作有關(guān),與t-1時刻之前的狀態(tài)和動作無關(guān),其定義為一個四元組集合:
式中,S表示智能體在環(huán)境中的所有狀態(tài)集合,A表示智能體在對應(yīng)狀態(tài)下可執(zhí)行的動作集合,P表示智能體的狀態(tài)轉(zhuǎn)移概率矩陣,R表示智能體得到的獎勵回報集合,r t(st,at,st+1)∈R表示智能體通過動作at,從狀態(tài)st轉(zhuǎn)移至狀態(tài)st+1獲得獎勵回報值。
為更好地模擬無人機實際飛行,本節(jié)設(shè)定規(guī)劃空間,搭建空間中靜態(tài)地形和雷達威脅模型,將其作為無人機執(zhí)行任務(wù)應(yīng)考慮的威脅因素,為無人機飛行構(gòu)建環(huán)境基礎(chǔ)。
2.2.1規(guī)劃空間
在規(guī)劃空間中,無人機以原點為起點,依據(jù)實時規(guī)劃的航跡,避開地形威脅和雷達探測威脅,到達任務(wù)目的地。設(shè)定無人機在三維飛行空間的位置坐標(x,y,z),x和y分別表示無人機在經(jīng)緯方向的坐標點,z表示其在空間的海拔高度,則無人機的三維規(guī)劃空間數(shù)學模型C可表示為:
式中,x m和ym分別為無人機在經(jīng)緯方向最大飛行范圍,zmin和zmax分別為其在空間中最小和最大飛行高度。
2.2.2地形和雷達威脅
考慮到無人機實際飛行環(huán)境存在地形威脅和未知位置雷達探測威脅,所以需要模擬靜態(tài)地形以及不同位置的雷達威脅數(shù)學模型。靜態(tài)地形模型可表示為:
式中,H(x,y)為地形起伏高度,x和y表示地面水平方向的點坐標,υ、κ、χ、δ是模型的常系數(shù),通過改變這些系數(shù)數(shù)值大小即能模擬起伏地貌的實際地形。
威脅輻射源的探測范圍決定了其對無人機的威脅程度,常用的方法通過計算威脅高度數(shù)據(jù),將其等效為地形模型[14]。雷達對不同距離的目標有不同的探測能力,因而在建立雷達威脅模型時,應(yīng)將雷達與目標間距離D和檢測概率Pd納入考慮范圍?;诖?,本文結(jié)合雷達原理,依據(jù)文獻[15]推導(dǎo)目標和雷達間任意距離與檢測概率的關(guān)系Pd(D)為:
式中,Dmax表示雷達最大探測距離,Pf表示虛警概率。
利用上述將威脅源等效為地形模型的方法,把雷達威脅范圍處理為地形高程數(shù)據(jù)后數(shù)學表達式為:
式中,Hradar(x,y)為整合后的雷達威脅高程,K r表示與雷達相關(guān)的性能系數(shù),Dmax為雷達的最大作用半徑,(x0,y0)為雷達中心坐標。最后,將靜態(tài)地形和雷達威脅模型疊加后得:
式中,H′(x,y)表示整體高程數(shù)據(jù)。
無人機航跡規(guī)劃問題的強化學習基本要素主要體現(xiàn)為其在飛行空間的狀態(tài),由一個狀態(tài)轉(zhuǎn)換到下一狀態(tài)對應(yīng)的動作以及執(zhí)行動作后與環(huán)境交互所得獎勵。
2.3.1狀態(tài)空間
無人機在飛行時,應(yīng)具有實時感知環(huán)境信息并決策航跡的能力,從而避開地形和未知雷達威脅??紤]到以上需求,利用無人機能夠根據(jù)傳感器和情報等途徑獲取飛行信息的特點,本文設(shè)計無人機當前位置、相對威脅距離和飛行速度方向三方面信息為狀態(tài),將其在任意時刻狀態(tài)信息聯(lián)合,用公式表示為:
式中,pu,t和pt,t分別為終點和無人機位置,vu,t為無人機速度,[x u,t,yu,t,zu,t]為t時刻無人機在飛行空間的坐標位置,[dx t,dyt,dzt]為無人機和終點的相對距離,[vx,t,vy,t,vz,t]為無人機飛行時三個方向的分速度。
2.3.2動作空間
從無人機飛行動力學角度出發(fā),為避開地形和雷達威脅并安全到達終點,其需要在飛行時改變速度方向。本文設(shè)定無人機按照恒定速率飛行,因而調(diào)整其飛行角度即可改變速度方向,并規(guī)定飛行角度精度,以期形成平滑的航跡,滿足飛行動力學要求。所以將其在任意時刻的動作信息聯(lián)合,用公式表示為:
式中,φt和?t分別表示無人機飛行的方向角和俯仰角。
2.3.3獎勵函數(shù)
強化學習算法的收斂性依賴于合理的獎勵設(shè)置,本文結(jié)合非稀疏思想設(shè)計獎勵函數(shù),使無人機執(zhí)行每一步到達終點的趨勢更加明顯。無人機在規(guī)劃空間內(nèi)飛行的首要目的是到達任務(wù)終點,其航程受到自身攜帶燃料限制,同時飛行過程要避免被雷達探測,因此本文獎勵函數(shù)的設(shè)計主要考慮以下3個方面。
(1)到達正獎勵rappr。無人機航跡規(guī)劃的首要任務(wù)是成功到達任務(wù)目的地,因而當任務(wù)終點在無人機的探測范圍內(nèi)時,系統(tǒng)反饋正獎勵以使到達趨勢更加明顯,具體表示為:
式中,N^(·)表示歸一化,‖‖·表示取模長,ρmax為無人機最大探測距離。
(2)航程負獎勵rpath。實際飛行時,無人機飛行航程受到燃料等能源限制,所以設(shè)置航程負獎勵rpath,使無人機經(jīng)歷越短的航程便能到達終點,具體表示為:式中,d表示無人機已經(jīng)飛過的航程,Lmax表示無人機攜帶燃料對應(yīng)的最大飛行航程。
(3)威脅負獎勵rthreat。依據(jù)前文建立的威脅模型,若無人機進入雷達威脅區(qū)域則視為被敵方雷達發(fā)現(xiàn),因此設(shè)置威脅負獎勵rthreat,以降低無人機進入雷達探測區(qū)域的概率,具體表示為:
式中,pr,t表示雷達位置坐標,Dr,max表示雷達最大探測距離。
將任意時刻獎勵綜合表示為:
綜上所述,本文結(jié)合無人機實際飛行需求,設(shè)計基于航跡規(guī)劃問題的強化學習基本要素,為構(gòu)建網(wǎng)絡(luò)訓(xùn)練經(jīng)驗集奠定基礎(chǔ)。
在眾多強化學習算法中,DDPG算法因其能在連續(xù)動作空間確定性選擇唯一動作的優(yōu)點受到青睞。又由前文設(shè)計的強化學習基本要素可知,航跡規(guī)劃問題是基于高維狀態(tài)空間以及連續(xù)動作決策的,因此采用DDPG算法可以很好地完成無人機航跡決策。
DDPG網(wǎng)絡(luò)中包含Actor策略網(wǎng)絡(luò)和Critic值函數(shù)網(wǎng)絡(luò)。Actor網(wǎng)絡(luò)用來擬合策略函數(shù),進而提取可執(zhí)行的動作,其網(wǎng)絡(luò)權(quán)重參數(shù)為θ,輸入為狀態(tài)st,輸出為動作at;Critic網(wǎng)絡(luò)通過內(nèi)部的值函數(shù)信息估計Actor策略網(wǎng)絡(luò)中對應(yīng)梯度更新的方向,其網(wǎng)絡(luò)權(quán)重參數(shù)為ω,輸入為狀態(tài)st和動作at,輸出為評估值Q。
Actor網(wǎng)絡(luò)更新采用策略梯度下降法,具體表示為:
式中,m為經(jīng)驗數(shù)據(jù)(s,a,r,s′)的采樣個數(shù)。Critic網(wǎng)絡(luò)采用均方誤差損失函數(shù)進行參數(shù)更新:
式中,γ為獎勵折扣因子。
另外,DDPG算法分別復(fù)制Actor策略網(wǎng)絡(luò)和Critic值函數(shù)網(wǎng)絡(luò)作為目標網(wǎng)絡(luò),使智能體對任務(wù)策略進行穩(wěn)定學習,其網(wǎng)絡(luò)權(quán)重參數(shù)分別表示為θ′和ω′。結(jié)合軟迭代思想,緩慢更新目標網(wǎng)絡(luò),使智能體在訓(xùn)練時,學習過程穩(wěn)定性大幅度增強。Actor目標網(wǎng)絡(luò)具體更新方式為:
式中,τ用來控制Actor目標網(wǎng)絡(luò)權(quán)重θ′的更新速度。同樣,利用式(15)的方式更新Critic目標網(wǎng)絡(luò)參數(shù)ω′。
此外,DDPG算法利用隨機噪聲,增加Actor策略網(wǎng)絡(luò)在連續(xù)動作空間的探索能力,形成策略映射μ′:
式中,N為該噪聲隨機過程。
本文設(shè)計Actor策略網(wǎng)絡(luò)和Critic值函數(shù)網(wǎng)絡(luò)均由兩個全連接層FC構(gòu)成,網(wǎng)絡(luò)結(jié)構(gòu)簡單且運算方便,時間復(fù)雜度低。故結(jié)合Actor網(wǎng)絡(luò)輸入狀態(tài),輸出動作,Critic網(wǎng)絡(luò)輸入狀態(tài)和動作,輸出Q值的特點,根據(jù)上文選定的9維狀態(tài)和2維動作,設(shè)計DDPG網(wǎng)絡(luò)結(jié)構(gòu)如表1所示。表中ReLu和tanh為神經(jīng)網(wǎng)絡(luò)常用的兩種非線性激活函數(shù)。
表1 DDPG網(wǎng)絡(luò)結(jié)構(gòu)Table 1 Network structure of DDPG
依據(jù)DDPG網(wǎng)絡(luò)訓(xùn)練原理,采用表1設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu),根據(jù)式(13)至式(16),訓(xùn)練DDPG網(wǎng)絡(luò)。訓(xùn)練完成后,獲取從飛行狀態(tài)到飛行動作端到端的決策映射,其Actor在線網(wǎng)絡(luò)策略映射公式如下:
式中,μθ(·)為已訓(xùn)練Actor在線網(wǎng)絡(luò)的策略映射關(guān)系,θ是其網(wǎng)絡(luò)權(quán)重參數(shù),st為無人機實時飛行狀態(tài),at即為由映射關(guān)系μθ(·)得到的實時飛行動作。
在實際應(yīng)用中,無人機實時采集飛行狀態(tài),遷移已訓(xùn)練Actor在線網(wǎng)絡(luò),即可得到實時飛行動作,實現(xiàn)航跡規(guī)劃。
DDPG網(wǎng)絡(luò)訓(xùn)練過程中,學習率的改變會直接影響網(wǎng)絡(luò)收斂性能,傳統(tǒng)方法通過調(diào)試學習率,直至網(wǎng)絡(luò)具有較好的收斂效果,但調(diào)整至合適的學習率將會耗費大量時間成本。群智能算法通過不斷迭代更新求解適應(yīng)度函數(shù)最優(yōu)值的思想,與神經(jīng)網(wǎng)絡(luò)優(yōu)化權(quán)重參數(shù)的思想異曲同工,因此結(jié)合群智能算法尋優(yōu)DDPG網(wǎng)絡(luò)權(quán)重參數(shù)能夠避免學習率對網(wǎng)絡(luò)收斂性能的影響,最終解決網(wǎng)絡(luò)訓(xùn)練時間長的問題。
人工蜂群(artificial bee colony,ABC)算法具備尋優(yōu)能力強以及收斂速度快等優(yōu)點,故本文采用ABC算法優(yōu)化DDPG網(wǎng)絡(luò)更新機制。但直接采用ABC算法需在一次完整DDPG網(wǎng)絡(luò)訓(xùn)練中,利用不同的蜂群尋優(yōu)策略和值函數(shù)兩類網(wǎng)絡(luò)的最佳更新方式,必然導(dǎo)致計算冗余。為彌補該缺陷,本文設(shè)計一種二維人工蜂群(two dimensional artificial bee colony,2D-ABC)算法,改進初始解和位置更新公式,共享種群行為機制,減少計算復(fù)雜度,提升訓(xùn)練效率。
2D-ABC算法將蜂群分為二維開采蜂、二維隨從蜂和二維偵察蜂,二維蜜源每一維位置分別對應(yīng)兩個優(yōu)化問題可能解,每一維蜜源花粉量分別對應(yīng)兩個解的適應(yīng)度。二維蜂群采蜜的行為機制有以下三種,
(1)初始化種群。蜜蜂群體派出SN個二維開采蜂,開采蜂和隨從蜂各占蜂群總數(shù)的一半,蜜源數(shù)與開采蜂相同,依據(jù)式(18)隨機產(chǎn)生SN個二維初始解:
式中,φk為第k維中區(qū)間[0,1]的隨機數(shù)。
(3)隨從蜂采蜜。二維隨從蜂根據(jù)對應(yīng)維蜜源花蜜量的多少選擇每一維較優(yōu)的標記蜜源,并在其附近按照式(20)探索第k維新蜜源,選擇概率表達式為:
本文提出2D-ABC算法流程如圖2所示,其改進DDPG算法具體步驟描述如下:
圖2 2D-ABC算法流程圖Fig.2 Flow chart of 2D-ABC algorithm
步驟1初始化二維蜜源和二維蜂群。根據(jù)式(18),在M維空間隨機初始化SN個二維蜜源位置,第一維和第二維蜜源位置分別代表Actor在線網(wǎng)絡(luò)和Critic在線網(wǎng)絡(luò)權(quán)重參數(shù)。同時,設(shè)置開采蜂和隨從蜂數(shù)目均為2×SN,第一維和第二維蜂群的工作對象分別為第一維和第二維蜜源。
步驟2計算二維適應(yīng)度。將Critic在線網(wǎng)絡(luò)權(quán)重更新的均方誤差損失函數(shù),即式(14)作為第一維適應(yīng)度函數(shù),得到第一維蜜源評價值;將Actor在線網(wǎng)絡(luò)權(quán)重更新的策略梯度下降函數(shù),即式(13)作為第二維適應(yīng)度函數(shù),得到第二維蜜源評價值。
步驟3二維開采蜂開采蜜源。根據(jù)式(19),開采蜂分別在每一維蜜源位置附近開采,獲得新蜜源位置。
步驟4根據(jù)式(13)和式(14),再次分別計算每一維新位置蜜源評價值,并與原位置蜜源評價值相比較,進行貪婪選擇,保留更優(yōu)的二維蜜源。
步驟5隨從蜂選擇蜜源。二維隨從蜂依據(jù)式(20)得到的概率,選擇每一維新蜜源。
步驟6再次執(zhí)行步驟4。
步驟7在Limit次蜜源位置更新后,若每一維有放棄的蜜源則利用觀察蜂替換開采蜂,并隨機選擇新蜜源,若無則從已保留的優(yōu)質(zhì)蜜源得到每一維最優(yōu)蜜源位置,即最優(yōu)的Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)權(quán)重參數(shù)。
本文融合2D-ABC算法尋優(yōu)與DDPG算法模型更新機制,將Actor在線網(wǎng)絡(luò)權(quán)重更新的策略梯度下降函數(shù)和Critic在線網(wǎng)絡(luò)權(quán)重更新的均方誤差損失函數(shù)作為適應(yīng)度函數(shù),利用2D-ABC算法分別尋優(yōu)每一回合DDPG算法Actor和Critic在線網(wǎng)絡(luò)權(quán)重參數(shù),完成改進DDPG算法模型的訓(xùn)練,從而提升網(wǎng)絡(luò)訓(xùn)練效率,降低總體的訓(xùn)練時間成本。改進DDPG算法模型訓(xùn)練及應(yīng)用結(jié)構(gòu)框圖如圖3所示,具體訓(xùn)練步驟如下:
圖3 改進DDPG算法模型訓(xùn)練及應(yīng)用結(jié)構(gòu)框圖Fig.3 Training and application structure diagram of improved DDPG algorithm model
步驟1結(jié)合式(7)至式(12),設(shè)計航跡規(guī)劃問題的強化學習要素。
步驟2初始化狀態(tài)s,清空經(jīng)驗回放池。
步驟3根據(jù)狀態(tài)s,Actor在線網(wǎng)絡(luò)得到對應(yīng)動作a,智能體執(zhí)行動作a,并得到新狀態(tài)s′以及與環(huán)境交互后的獎勵r。
步驟4將經(jīng)驗數(shù)組存入經(jīng)驗回放池,并從經(jīng)驗回放池中采樣m個經(jīng)驗數(shù)組,送入Critic值函數(shù)網(wǎng)絡(luò),計算得在線Q值Qω(s,a)和目標Q值Qω′(s′,a′)。
步驟5根據(jù)式(13)和式(14),結(jié)合Critic值函數(shù)網(wǎng)絡(luò)的在線Q值和目標Q值,利用2D-ABC算法求得最優(yōu)Actor網(wǎng)絡(luò)權(quán)重參數(shù)和最優(yōu)Critic網(wǎng)絡(luò)權(quán)重參數(shù)。
步驟6根據(jù)式(15),通過軟迭代更新Actor網(wǎng)絡(luò)以及Critic網(wǎng)絡(luò)權(quán)重參數(shù)。
步驟7判斷是否滿足DDPG網(wǎng)絡(luò)訓(xùn)練結(jié)束條件,結(jié)束訓(xùn)練。
最后,與改進前方法相同,無人機實時采集飛行狀態(tài),根據(jù)式(17),獲取該狀態(tài)下的決策映射,執(zhí)行飛行動作,實現(xiàn)航跡規(guī)劃。
對本文提出的改進DDPG無人機航跡規(guī)劃算法進行仿真分析,無人機飛行約束參數(shù)、相關(guān)威脅仿真參數(shù)和改進DDPG算法參數(shù)分別如表2、表3和表4所示。本文設(shè)定無人機航跡規(guī)劃空間大小為15 km×15 km×7.5 km,且假設(shè)無人機飛行恒定速率,同時設(shè)置算法測試500次,另外忽略自然環(huán)境干擾因素影響。本文涉及仿真的實驗設(shè)備及環(huán)境滿足:Intel?CoreTMi7-9700k CPU,32 GB雙通道內(nèi)存,Windows 10 64位操作系統(tǒng),Python 3.5,TensorFlow 1.7.0。
表2 無人機飛行約束參數(shù)Table 2 Fight constraint parameters of UAV
表3 相關(guān)威脅仿真參數(shù)Table 3 Simulation parameters of related threat
表4 改進DDPG算法參數(shù)Table 4 Parameters of improved DDPG
為驗證改進DDPG算法有效性和在未知環(huán)境的適應(yīng)性,本文選取網(wǎng)絡(luò)訓(xùn)練時長、測試成功率和航跡偏差率為評估指標,評估算法的訓(xùn)練和測試結(jié)果。其中,網(wǎng)絡(luò)訓(xùn)練時長用于評估算法訓(xùn)練效率,測試成功率用于評估無人機滿足航程約束情況下依照航跡決策順利達到終點的能力,其計算公式為:
航跡偏差率TE用于評估無人機在成功到達終點前提下的航跡質(zhì)量,其計算公式為:
式中,F(xiàn)為測試次數(shù),αi和βi分別為設(shè)定相同條件下用智能算法解算得第i條航跡長度和改進DDPG算法決策得第i條航跡長度,航跡偏差率越低航跡質(zhì)量越高,本文設(shè)定航跡偏差率低于7.5%時航跡質(zhì)量達標。
由于訓(xùn)練次數(shù)多,且算法隨機波動較大,直接顯示所有訓(xùn)練回合獎勵收斂曲線效果不佳,為更好展示算法訓(xùn)練效果,本文將每20個訓(xùn)練回合所得獎勵和取平均并作歸一化處理,將10 000次迭代收斂曲線等效處理為500次迭代收斂曲線。圖4和表5分別給出了在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置如表1,超參數(shù)設(shè)置如表4,設(shè)定4組不同Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)學習率情況下,DDPG算法的獎勵收斂曲線和訓(xùn)練時長表。
圖4 四種不同學習率情況下DDPG算法的獎勵收斂曲線Fig.4 Reward convergence curve of DDPG under four different learning rates
表5 四種不同學習率情況下DDPG網(wǎng)絡(luò)訓(xùn)練時長Table 5 Network training duration under four different learning rates
由圖4可知,隨著學習率的增大,DDPG算法收斂速度明顯加快,當Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)學習率分別為2×10-5和10-4時,歸一化獎勵值在5 600次訓(xùn)練回合左右才趨于穩(wěn)定,而當Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)學習率分別為4×10-5和4×10-4時,歸一化獎勵值在3 800次訓(xùn)練回合左右即逐漸收斂。另外,不同學習率情況下,歸一化獎勵最終收斂值也不同,當Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)學習率分別為2×10-5和2×10-4時,歸一化獎勵值在0.8上下波動,而當Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)學習率分別為4×10-5和4×10-4時,歸一化獎勵值在0.6上下浮動,且浮動幅度較大。這是因為學習率是強化學習算法學習能力的數(shù)值體現(xiàn),過高會導(dǎo)致算法早期樣本過擬合,過低會導(dǎo)致樣本利用率低使算法收斂慢,因此降低學習率對網(wǎng)絡(luò)性能的影響尤為重要。
由表5可知,僅調(diào)試4組學習率情況下網(wǎng)絡(luò)總訓(xùn)練時間累計140 h 34 min 44 s,訓(xùn)練耗時長,而調(diào)整至合適的學習率需要大量的訓(xùn)練時間,本文提出改進DDPG算法優(yōu)化網(wǎng)絡(luò)更新機制,提升算法訓(xùn)練效率。
圖5給出了網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)設(shè)置分別如表1和表4情況下改進DDPG算法歸一化獎勵收斂曲線。
圖5 改進DDPG算法獎勵收斂曲線Fig.5 Reward convergence curve of improved DDPG
由圖5可知,改進DDPG算法歸一化獎勵值在4 400次訓(xùn)練回合左右即趨于收斂,且穩(wěn)定在0.9左右。另外,記錄其經(jīng)歷10 000次訓(xùn)練回合耗費時長為69 h 40 min 34 s,對比表5結(jié)果可知,改進DDPG算法整體訓(xùn)練時長僅為原算法在表5所設(shè)4組學習率情況下平均訓(xùn)練時長的1.98倍。這是因為所提算法每個訓(xùn)練回合內(nèi)利用ABC算法迭代更新尋優(yōu)網(wǎng)絡(luò)參數(shù),導(dǎo)致網(wǎng)絡(luò)訓(xùn)練復(fù)雜度增加,引起單個訓(xùn)練回合耗時增長的代價。得益于改進DDPG算法網(wǎng)絡(luò)訓(xùn)練不依賴于學習率的優(yōu)勢,僅一次訓(xùn)練就能完成對模型權(quán)重參數(shù)的尋優(yōu),因此總體上網(wǎng)絡(luò)訓(xùn)練時長大幅度減少,所提算法具有一定的有效性。
圖6給出了在無人機仿真參數(shù)設(shè)置如表2,威脅模型仿真參數(shù)設(shè)置如表3的情況下,在兩種隨機位置多雷達環(huán)境中,無人機利用改進DDPG算法航跡規(guī)劃測試效果圖。
圖6 改進DDPG算法航跡規(guī)劃效果圖Fig.6 Track planning effect chart by using improved DDPG
由圖6可知,無人機能以連續(xù)平滑的航跡飛行,有效避開實際環(huán)境地形和不同位置未知雷達探測威脅,成功到達任務(wù)終點,驗證了所提算法應(yīng)用的可行性。
盡管智能算法解算航跡速率慢導(dǎo)致測試成功率不盡如人意,但迭代計算的特點決定了其能在不限時間內(nèi)得到更優(yōu)航跡。本文以智能算法在測試回合內(nèi)解得航跡為參照,用航跡偏差率評估改進DDPG算法每次測試形成航跡的質(zhì)量。蟻群算法具有啟發(fā)式概率搜索特點,易于找到全局最優(yōu)解,在規(guī)劃領(lǐng)域廣泛應(yīng)用,因此選擇蟻群算法作為對比算法。表6給出在相同飛行環(huán)境內(nèi)無人機利用改進DDPG算法進行航跡決策和用蟻群算法解算航跡的測試結(jié)果對比。其中蟻群算法種群數(shù)量為40,全局信息素濃度更新率為0.5,局部信息素濃度更新率為0.4,信息素濃度重要程度因子為1.5,啟發(fā)值重要程度因子為5。
表6 不同算法航跡規(guī)劃測試結(jié)果Table 6 Test results of different algorithms for track planning %
由表6可知,500次測試中,用蟻群算法解算航跡無人機測試成功率僅48.2%,而改進DDPG算法成功率高達97.2%。這是由于大量的訓(xùn)練增強了改進DDPG算法學習能力,能夠?qū)崟r決策無人機飛行航跡,獲得較高飛行成功率。同時,以蟻群算法獲得最優(yōu)航跡為參照,改進DDPG算法所得航跡偏差率僅為3.78%,其原因是所提算法采取的航跡決策使無人機飛行航跡有效且平滑,形成的航跡滿足航跡質(zhì)量需求,進一步驗證了所提算法在工程應(yīng)用的可行性。
本文提出一種改進DDPG無人機航跡規(guī)劃算法,解決了用傳統(tǒng)算法解算航跡速度慢的問題,同時優(yōu)化了DDPG網(wǎng)絡(luò)權(quán)重參數(shù)更新過程。所提算法將深度強化學習應(yīng)用于航跡規(guī)劃領(lǐng)域,為無人機飛行提供連續(xù)確定性動作決策,并設(shè)計2D-ABC算法,改進DDPG算法模型更新機制。仿真結(jié)果表明,所提算法無需調(diào)整學習率的過程,提升了無人機在未知威脅環(huán)境飛行的實時反應(yīng)能力,降低了訓(xùn)練的時間成本,且在達到97.2%飛行成功率前提下,保證了航跡質(zhì)量。忽略自然干擾因素影響,所提算法相比典型智能算法,憑借連續(xù)飛行動作輸出和實時航跡決策的優(yōu)勢,在無人機航跡規(guī)劃領(lǐng)域更具可行性。面對實際環(huán)境天氣、風力和氣流等變化影響,可聯(lián)合卡爾曼濾波等技術(shù)完善飛行動作,使得所提算法在自然環(huán)境應(yīng)用可行。下一步工作,本團隊將研究所提算法的優(yōu)化技術(shù),同時探討超參數(shù)對于深度強化學習網(wǎng)絡(luò)模型性能的影響。