国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于PPO算法的無人機(jī)近距空戰(zhàn)自主引導(dǎo)方法

2023-02-13 03:45趙寶奇劉仲凱
電光與控制 2023年1期
關(guān)鍵詞:敵我空戰(zhàn)坐標(biāo)系

邱 妍, 趙寶奇, 鄒 杰, 劉仲凱

(1.光電控制技術(shù)重點實驗室,河南 洛陽 471000; 2.中國航空工業(yè)集團(tuán)公司洛陽電光設(shè)備研究所,河南 洛陽 471000;3.空裝駐洛陽地區(qū)第二軍事代表室,河南 洛陽 471000)

0 引言

在近距空戰(zhàn)中,戰(zhàn)場環(huán)境復(fù)雜多變,機(jī)動決策存在高度實時性和不確定性,這些現(xiàn)象分散了飛行員做出關(guān)鍵決策的注意力,可能導(dǎo)致飛行員無法做出正確機(jī)動。相比于有人機(jī),無人機(jī)具有尺寸小、隱身性能好、制造成本低、可以在危險環(huán)境下作戰(zhàn)等優(yōu)點,因此,裝備自主空戰(zhàn)決策系統(tǒng)的無人機(jī)將逐漸登上空戰(zhàn)的“舞臺”。

國內(nèi)外學(xué)者對智能空戰(zhàn)決策方法已進(jìn)行了一定的研究。文獻(xiàn)[1]建立了無人機(jī)六自由度的簡化模型,采用微分對策法對無人機(jī)的追逃模型進(jìn)行了研究;文獻(xiàn)[2]提出了隨機(jī)機(jī)動決策模型和基于影響圖博弈的機(jī)動決策模型,給出了模型的求解方案,驗證了影響圖博弈法可用于解決一對一空戰(zhàn)機(jī)動決策的問題,但微分對策、影響圖博弈等博弈論方法難以解析求解且無法適用于復(fù)雜空戰(zhàn)環(huán)境;文獻(xiàn)[3]采用變權(quán)重自適應(yīng)并行遺傳算法并結(jié)合滾動時域的思想將空戰(zhàn)過程分時段離散化,小規(guī)模地求解最優(yōu)值,解決了敵我雙機(jī)空戰(zhàn)的問題;文獻(xiàn)[4]對近似動態(tài)規(guī)劃算法進(jìn)行改進(jìn),提出了懲罰因子,解決了一對一空戰(zhàn)中自主攻擊占位問題。但遺傳算法、動態(tài)規(guī)劃等優(yōu)化理論方法不具有仿真實時性。文獻(xiàn)[5]采用滾動時域與專家系統(tǒng)結(jié)合的方法,保證了在專家系統(tǒng)方法失效的情況下我機(jī)仍能快速做出機(jī)動決策,但專家系統(tǒng)依賴于飛行員提供的空戰(zhàn)經(jīng)驗,難以訓(xùn)練出決策能力超越飛行員的模型,因此,很難解決態(tài)勢變化劇烈的近距格斗問題,由于深度強化學(xué)習(xí)不需要依靠飛行員空戰(zhàn)經(jīng)驗以及大量的態(tài)勢數(shù)據(jù)支撐,因此該方法被越來越多地應(yīng)用于智能空戰(zhàn)項目;文獻(xiàn)[6]使用深度確定性策略梯度(DDPG)算法實現(xiàn)了二維空間下無人機(jī)在不同初始狀態(tài)下向固定目標(biāo)點的自主飛行;文獻(xiàn)[7]基于深度Q學(xué)習(xí)(DQN)算法構(gòu)建了無人機(jī)近距空戰(zhàn)的機(jī)動決策模型,將訓(xùn)練過程分為基礎(chǔ)訓(xùn)練和對抗訓(xùn)練,此方法提高了模型訓(xùn)練的速度;文獻(xiàn)[8]結(jié)合了長短時記憶(LSTM)網(wǎng)絡(luò)和基于競爭網(wǎng)絡(luò)的深度強化學(xué)習(xí)(Dueling DQN)算法,加強了智能體的記憶功能,加快了智能體的收斂速度,實現(xiàn)了無人機(jī)一對一的對抗;文獻(xiàn)[9]提出了獎勵重塑PPO算法,將飛行器從任一點引導(dǎo)至移動目標(biāo)位置。

本文以無人機(jī)近距空戰(zhàn)為背景,采用標(biāo)準(zhǔn)PPO算法和改進(jìn)PPO算法構(gòu)建無人機(jī)自主引導(dǎo)模型,并設(shè)計合理的獎勵函數(shù),仿真實現(xiàn)了地球坐標(biāo)系下無人機(jī)向機(jī)動目標(biāo)區(qū)域的引導(dǎo),驗證了本文所提的改進(jìn)PPO算法解決近距空戰(zhàn)中無人機(jī)自主引導(dǎo)問題的可行性。

1 無人機(jī)機(jī)動模型建立

1.1 坐標(biāo)系及其轉(zhuǎn)換關(guān)系

本文建立了3個坐標(biāo)系,分別為地球坐標(biāo)系Oexeyeze、地理坐標(biāo)系Ogxgygzg和速度坐標(biāo)系Ovxvyvzv。其中:地球坐標(biāo)系用來求解無人機(jī)的運動方程;速度坐標(biāo)系用來構(gòu)建深度強化學(xué)習(xí)中的狀態(tài)和動作;地理坐標(biāo)系則是二者之間的轉(zhuǎn)換途徑。

地球坐標(biāo)系原點Oe在地心,Oexe軸指向北極,Oeye軸指向北緯0°東經(jīng)0°,Oeze軸按右手定則確定;地理坐標(biāo)系原點Og在無人機(jī)處,Ogxg軸指向北極,Ogyg軸指向天,Ogzg軸指向東,地理坐標(biāo)系由地球坐標(biāo)系按照X-Z-Y旋轉(zhuǎn)L-(-B)-0得到,其中,L和B分別為無人機(jī)的經(jīng)度和緯度,地球坐標(biāo)系到地理坐標(biāo)系的轉(zhuǎn)換矩陣記為Tg,e;速度坐標(biāo)系原點Ov在無人機(jī)處,Ovzv軸指向無人機(jī)速度矢量VvU的方向,速度坐標(biāo)系的3個坐標(biāo)軸由地理坐標(biāo)系Ogxgygzg按照Y-X-Z方式旋轉(zhuǎn)φ-(-θ)-0得到,其中,φ為Ogzg軸到速度矢量VvU在Ogxgzg平面上的投影的角度,即速度偏轉(zhuǎn)角,而θ為該投影到速度矢量VvU的角度,即速度傾斜角,地理坐標(biāo)系到速度坐標(biāo)系的轉(zhuǎn)換矩陣記為Tv,g。

1.2 無人機(jī)的運動模型

本文研究重點是無人機(jī)的機(jī)動決策方式,可以忽略無人機(jī)姿態(tài)的變化,因此構(gòu)建無人機(jī)三自由度運動模型。

圖1所示為速度坐標(biāo)系下敵我雙方的相對狀態(tài)。

圖1 速度坐標(biāo)系下敵我雙方相對狀態(tài)Fig.1 Relative state of two sides in the velocity coordinate system

如圖 1所示,無人機(jī)的控制指令a=[φ,ny,nz]T,其中,φ為滾轉(zhuǎn)角,即無人機(jī)機(jī)翼與Ovxv軸的夾角,ny為法向過載,垂直于機(jī)背方向,nz為切向過載,沿著速度方向。在速度坐標(biāo)系下,控制指令a產(chǎn)生的加速度矢量坐標(biāo)av與控制指令的關(guān)系為

av=[-gnysinφ,gnycosφ,gnz]T

(1)

無人機(jī)在地球坐標(biāo)系下的運動方程為

(2)

1.3 雙機(jī)相對態(tài)勢模型

在空戰(zhàn)決策過程中,需要知道敵我雙方的相對態(tài)勢,圖1則表示了速度坐標(biāo)系下敵我雙方相對位置、速度及角度關(guān)系,其中,VvU,VvT分別為無人機(jī)和目標(biāo)的速度矢量,PvTU為目標(biāo)相對無人機(jī)的位置矢量,φU為無人機(jī)的方位角,即無人機(jī)速度VvU與相對位置PvTU的夾角,qT為目標(biāo)的進(jìn)入角,即目標(biāo)速度VvT與相對位置PvTU的夾角。另外,記VvTU為目標(biāo)相對無人機(jī)的速度矢量。

PvTU,VvTU,φU,qT的表達(dá)式分別為

PvTU=PvT-PvU

(3)

VvTU=VvT-VvU

(4)

(5)

(6)

式中:PvU,PvT分別為無人機(jī)和目標(biāo)在速度坐標(biāo)系下的位置矢量;|PvTU|,|VvU|,|VvT|分別為矢量PvTU,VvU,VvT的模長。

2 PPO算法介紹

2.1 基本概念

令S為決策的輸入,稱作狀態(tài),令A(yù)為決策的輸出,稱作動作。通過與環(huán)境互動,在t=0時刻的狀態(tài)S0上采取動作A0,會生成下一個狀態(tài)S1,同時獲得單步獎勵r0,通過不斷與環(huán)境交互,生成的狀態(tài)和動作可形成如下的序列,稱作軌道,記作τ,即

τ={S0,A0,r0,S1,A1,r1,…,St,At,rt,…}。

記Gt為軌道τ的累積回報,其表達(dá)式為

(7)

式中,γ為折扣因子,表示越往后的獎勵對當(dāng)前時刻的Gt所產(chǎn)生的影響越小。

從狀態(tài)S出發(fā)的所有軌道累積回報的期望稱作狀態(tài)S的價值,記作V(S),即

V(S)=E[Gt|St=S]=E[rt+γrt+1+…|St=S]=
E[rt+γGt+1|St=S]

(8)

由式(8)可得前后兩個狀態(tài)的價值有如下的關(guān)系,稱作貝爾曼方程,即

V(St)=rt+γV(St+1)。

(9)

2.2 Critic網(wǎng)絡(luò)

在實際應(yīng)用中,通過式(8)計算價值V(S)是不現(xiàn)實的,通常構(gòu)建一個狀態(tài)S和價值V(S)之間的神經(jīng)網(wǎng)絡(luò),稱作Critic網(wǎng)絡(luò),用于對價值V(S)進(jìn)行預(yù)測,將預(yù)測價值記為Vpred(S)。

而在強化學(xué)習(xí)中,價值的“真實值”即樣本值,是通過與環(huán)境互動后遞推計算出來的。設(shè)τ={S0,A0,r0,S1,A1,r1,…,ST-1,AT-1,rT-1}為一段長度為T的軌道片段,將此片段上的最后一個狀態(tài)ST-1輸入Critic網(wǎng)絡(luò)獲得預(yù)測價值Vpred(ST-1),可根據(jù)

(10)

遞推出該片段上每個狀態(tài)的價值。

圖2所示為全連接Critic/Actor網(wǎng)絡(luò)結(jié)構(gòu)。

圖2 全連接Critic/Actor網(wǎng)絡(luò)結(jié)構(gòu)

如圖2所示,Critic網(wǎng)絡(luò)的構(gòu)建方式為

(11)

式中:li為第i層神經(jīng)網(wǎng)絡(luò)的輸出矢量;FC表示網(wǎng)絡(luò)的連接方式為全連接(Fully Connected);Nli為第i層網(wǎng)絡(luò)的節(jié)點數(shù);ReLU為激活函數(shù);n為該Critic網(wǎng)絡(luò)的層數(shù)。

Critic網(wǎng)絡(luò)的訓(xùn)練方向就是讓預(yù)測值Vpred(S)盡量接近樣本值Vsamp(S),因此其損失函數(shù)定義為

(12)

2.3 Actor網(wǎng)絡(luò)

狀態(tài)S和動作A之間也構(gòu)建了一個神經(jīng)網(wǎng)絡(luò),稱作Actor網(wǎng)絡(luò),該網(wǎng)絡(luò)輸出一個概率分布,稱作策略π,然后依照π進(jìn)行隨機(jī)采樣,生成A。本文中的策略采用多元正態(tài)分布,并假設(shè)各元之間獨立,記μ和σ分別為π的均值向量和標(biāo)準(zhǔn)差向量。而A的生成方式為A~π(S)=Ν(μ,σ2),即A服從正態(tài)分布。

如圖2所示,Actor網(wǎng)絡(luò)的構(gòu)建方式為

(13)

Actor網(wǎng)絡(luò)的訓(xùn)練方向就是使得狀態(tài)價值V(S)盡可能增大,則Actor網(wǎng)絡(luò)的損失函數(shù)可定義為

LA=-V(St)=-E[Gτ|S=S0]。

(14)

在實際應(yīng)用中,使用了近似表達(dá)式,若從S0出發(fā),按照策略不斷生成動作,得到如下的軌道片段τ={S0,A0,r0,S1,A1,r1,…,ST-1,AT-1,rT-1},則損失函數(shù)為

(15)

另外,為了避免因某些動作未被采樣而導(dǎo)致的該動作概率下降的情況出現(xiàn),對Actor網(wǎng)絡(luò)的損失函數(shù)做一些改進(jìn),即

(16)

記FAdv=Vsamp(St)-Vpred(St),稱作優(yōu)勢函數(shù)。

2.4 標(biāo)準(zhǔn)PPO算法

PPO算法訓(xùn)練上述兩個網(wǎng)絡(luò)時采用的優(yōu)化器是AdaDelta,相比于傳統(tǒng)的梯度下降方法,該優(yōu)化器能夠自適應(yīng)地調(diào)節(jié)學(xué)習(xí)率。兩個網(wǎng)絡(luò)的目標(biāo)函數(shù)LC和LA分別代表各自的損失函數(shù)。

Actor網(wǎng)絡(luò)訓(xùn)練過程中通過與環(huán)境互動采樣生成一條軌道片段(即樣本),計算損失函數(shù),更新網(wǎng)絡(luò)參數(shù),再按照新的網(wǎng)絡(luò)參數(shù)重復(fù)如上步驟,完成網(wǎng)絡(luò)訓(xùn)練??梢?,網(wǎng)絡(luò)采集的樣本只能使用一次。為了重復(fù)利用這些樣本,采用重要性采樣的方法,引入策略πold和πnew,πold用來采樣,采集的樣本用來訓(xùn)練πnew,結(jié)合重要性采樣方法后的Actor網(wǎng)絡(luò)的損失函數(shù)LA可表示為

(17)

為了保證決策過程平穩(wěn)進(jìn)行,網(wǎng)絡(luò)更新前后的策略πold和πnew不能相差太大,因此需要對策略πnew做一些限幅處理,此算法稱作近端策略優(yōu)化,即PPO算法[10]。

PPO算法中策略限幅的方法為

(18)

式中,ε決定限幅的程度,一般取值為0.2。

2.5 改進(jìn)PPO算法

標(biāo)準(zhǔn)的PPO算法采用全連接神經(jīng)網(wǎng)絡(luò),隨著網(wǎng)絡(luò)規(guī)模的增大,訓(xùn)練時極易發(fā)生梯度爆炸和梯度消失的情況,導(dǎo)致訓(xùn)練崩潰或無效。另外,全連接神經(jīng)網(wǎng)絡(luò)只能處理單個時間點上的輸入,前后兩個時間點上的輸入是完全沒有關(guān)系的,如圖3所示,但是在空戰(zhàn)中,態(tài)勢數(shù)據(jù)有強烈的時序相關(guān)性。

圖3 標(biāo)準(zhǔn)PPO算法下的Critic/Actor網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Critic/Actor network structure based onstandard PPO algorithm

文獻(xiàn)[11]提出的長短時記憶(LSTM)網(wǎng)絡(luò)可以解決梯度爆炸和梯度消失的現(xiàn)象,而且對于處理這種與時間序列高度相關(guān)的任務(wù)十分有效。LSTM由一個輸入門、一個遺忘門和一個輸出門組成,如圖4所示。

圖4 LSTM的基本結(jié)構(gòu)Fig.4 Basic structure of LSTM

圖4中,xt為當(dāng)前時刻的輸入,ct-1,ht-1分別為上一時刻的細(xì)胞狀態(tài)和輸出,ct,ht分別代表當(dāng)前時刻的細(xì)胞狀態(tài)和輸出,sig為Sigmoid激活函數(shù),tanh為tanh激活函數(shù)。特殊的門結(jié)構(gòu)使其輸出不僅與當(dāng)前時刻的輸入和上一時刻的輸出有關(guān),還與上一時刻的細(xì)胞狀態(tài)有關(guān)。

本文將Critic和Actor網(wǎng)絡(luò)的全連接神經(jīng)網(wǎng)絡(luò)替換成LSTM神經(jīng)網(wǎng)絡(luò),改進(jìn)后的Critic和Actor網(wǎng)絡(luò)如圖5所示,橫向按照空間維度展開,n代表LSTM的隱藏層數(shù),縱向按照時間維度展開。

圖5 改進(jìn)PPO算法下的Critic/Actor網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Critic/Actor network structure based on the improved PPO algorithm

3 無人機(jī)自主引導(dǎo)模型建立

3.1 狀態(tài)和動作

在本文中,狀態(tài)S為速度坐標(biāo)系下敵我雙方當(dāng)前時刻位置、速度、角度等相對態(tài)勢,其表達(dá)式為

S=[PvTU,VvTU,φU,qT]T

(19)

狀態(tài)S包含8個變量。

動作A為滾轉(zhuǎn)角、法向過載、切向過載3個控制指令,即

A=a=[φ,ny,nz]T

(20)

動作A包含3個變量。

3.2 下一時刻狀態(tài)

在地球坐標(biāo)系下,利用式(2)求解無人機(jī)的運動方程,計算出無人機(jī)下一時刻位置P′eU和速度V′eU,采用勻速直線運動公式求解目標(biāo)下一時刻位置P′eT和速度VP′eT。同時計算無人機(jī)的經(jīng)緯度,即L,B,以及地球坐標(biāo)系下目標(biāo)下一時刻相對無人機(jī)的位置P′eTU和速度V′eTU。

通過坐標(biāo)系轉(zhuǎn)換,將P′eU,V′eU,P′eT,VP′eT,P′eTU,V′eTU投影到速度坐標(biāo)系上,并利用式(5)、式(6)計算出下一時刻的φ′U,q′U,獲得下一時刻的狀態(tài)S′。

3.3 獎勵函數(shù)

1) 距離獎勵函數(shù)。

為使無人機(jī)盡快靠近目標(biāo),應(yīng)使下一時刻的敵我距離小于當(dāng)前時刻的距離,則設(shè)置距離獎勵為

(21)

式中:vmax為本機(jī)最大速度;vmaxΔt用于將距離獎勵歸一化。

2) 速度獎勵函數(shù)。

為使無人機(jī)盡快到達(dá)目標(biāo)區(qū)域,目標(biāo)相對無人機(jī)速度在目標(biāo)相對位置矢量上的投影應(yīng)當(dāng)盡可能為負(fù)值,則設(shè)置速度獎勵為

(22)

vmax用于將速度獎勵歸一化。

3)角度獎勵函數(shù)。

引導(dǎo)過程中,當(dāng)無人機(jī)的方位角φU及目標(biāo)的進(jìn)入角qT趨近于0°時,無人機(jī)在目標(biāo)尾后,無人機(jī)處于優(yōu)勢,當(dāng)無人機(jī)的方位角φU趨近于180°時,無人機(jī)與目標(biāo)背向飛行或在目標(biāo)尾后,此時無人機(jī)處于劣勢,設(shè)置角度獎勵為

(23)

4) 任務(wù)約束獎勵函數(shù)。

當(dāng)敵我距離小于完成任務(wù)的最小距離dmin時,引導(dǎo)成功,獲得正獎勵,而當(dāng)敵我距離超出空戰(zhàn)范圍dmax時,引導(dǎo)失敗,獲得負(fù)獎勵,則設(shè)置任務(wù)約束獎勵為

(24)

5) 綜合單步獎勵。

綜上,本文建立的訓(xùn)練模型總獎勵函數(shù)為各個獎勵函數(shù)的加權(quán)和,即

r=ω1r1+ω2r2+ω3r3+r4

(25)

式中,ω1,ω2,ω3分別為距離、速度、角度獎勵函數(shù)的權(quán)重,ω1+ω2+ω3=1??紤]到不同態(tài)勢下幾種因素產(chǎn)生的影響不同,應(yīng)合理地分配各個權(quán)重,當(dāng)敵我距離較大時,我機(jī)應(yīng)適量提高速度、縮短距離以接近敵機(jī),此時應(yīng)增大距離權(quán)重ω1和速度權(quán)重ω2;當(dāng)敵我距離較小時,應(yīng)著重考慮角度獎勵函數(shù),使無人機(jī)方位角φU和目標(biāo)的進(jìn)入角qT盡可能小,從而使敵機(jī)落入我機(jī)正前方區(qū)域,此時應(yīng)增大角度權(quán)重ω3;任務(wù)約束獎勵r4與上述3個獎勵不同,不受敵我態(tài)勢的影響,因此權(quán)重設(shè)置為1。

3.4 無人機(jī)自主引導(dǎo)模型訓(xùn)練流程

無人機(jī)自主引導(dǎo)模型涉及兩個模塊,如圖6所示,一個是PPO算法單元,與仿真環(huán)境交互生成決策指令,一個是仿真訓(xùn)練環(huán)境,負(fù)責(zé)響應(yīng)決策指令,生成戰(zhàn)場態(tài)勢數(shù)據(jù)。

圖6 無人機(jī)自主引導(dǎo)模型訓(xùn)練流程Fig.6 Flow chart of UAV autonomous guidance model training

訓(xùn)練流程如下所述:在仿真環(huán)境中,首先初始化敵我的運動參數(shù),在一定范圍內(nèi)隨機(jī)生成我機(jī)和敵機(jī)的經(jīng)緯度及速度坐標(biāo)系下的速度,計算出敵我相對位置、速度、角度,經(jīng)過一系列坐標(biāo)轉(zhuǎn)換獲得當(dāng)前時刻速度坐標(biāo)系下敵我相對狀態(tài)S,將狀態(tài)輸入至PPO算法單元,PPO算法單元輸出無人機(jī)控制指令A(yù)并反饋給仿真訓(xùn)練環(huán)境,無人機(jī)通過控制指令A(yù)控制無人機(jī)機(jī)動,得到無人機(jī)下一時刻在地球坐標(biāo)系下的位置和速度,同時,敵機(jī)根據(jù)初始化的速度更新運動參數(shù),進(jìn)而計算出下一時刻敵我相對狀態(tài)S′以及即時獎勵r,并將S′和r反饋給PPO算法單元,然后重復(fù)上述步驟;當(dāng)PPO算法單元存儲一定長度的軌道片段{S0,A0,r0,S1,A1,r1,…,ST-1,AT-1,rT-1}時,分別計算Actor和Critic網(wǎng)絡(luò)的損失函數(shù),并對網(wǎng)絡(luò)參數(shù)進(jìn)行更新,利用更新后的網(wǎng)絡(luò)繼續(xù)與仿真環(huán)境交互,更新敵我的運動參數(shù);直至滿足或破壞任務(wù)約束條件時,即引導(dǎo)成功或超出空戰(zhàn)范圍,此次訓(xùn)練結(jié)束。

4 仿真驗證

假設(shè)敵我雙方的空戰(zhàn)在10 km×10 km×10 km的三維空域內(nèi)進(jìn)行,訓(xùn)練回合數(shù)Pmax=30 000,無人機(jī)決策周期Δt=0.05 s,單回合內(nèi)最大決策次數(shù)PLen=3000。將切向過載nz和法向過載ny的取值范圍設(shè)置為[-9g,9g],將滾轉(zhuǎn)角φ的取值范圍設(shè)置為[-180°,180°],以保證無人機(jī)機(jī)動模型的機(jī)動方式更接近真實無人機(jī)的機(jī)動方式。

本文完成了標(biāo)準(zhǔn)PPO算法和改進(jìn)PPO算法模型的訓(xùn)練。訓(xùn)練過程中記錄每個回合的總獎勵,分別生成了兩種算法模型的獎勵函數(shù)曲線,如圖7所示。

圖7 獎勵函數(shù)曲線對比圖Fig.7 Comparison of reward function curves

由圖7可以看出,經(jīng)過一定回合的訓(xùn)練,兩種算法模型均能從環(huán)境中獲得正獎勵,決策能力逐漸增強,標(biāo)準(zhǔn)PPO算法模型大約經(jīng)過16 000次的訓(xùn)練之后,獎勵函數(shù)的值開始收斂并穩(wěn)定在4左右;改進(jìn)PPO算法模型大約經(jīng)過11 000次的訓(xùn)練之后,獎勵函數(shù)的值開始收斂并穩(wěn)定在6左右。由此可見,結(jié)合了LSTM網(wǎng)絡(luò)的PPO算法模型學(xué)習(xí)能力更強,收斂速度較快。

訓(xùn)練完成后分別對兩種算法模型進(jìn)行了測試,測試結(jié)果如下。

1) 標(biāo)準(zhǔn)PPO算法模型仿真測試。

本次測試的敵我雙方初始化態(tài)勢:無人機(jī)在地球坐標(biāo)系下初始坐標(biāo)為(3 185 500.21 m,4 504 977.22 m,3 185 499.98 m),速度坐標(biāo)系下的初始速度大小為135.27 m/s。目標(biāo)在地球坐標(biāo)系下的初始坐標(biāo)為(3 185 621.32 m,4 505 988.49 m,3 185 852.52 m),速度坐標(biāo)系下的初始速度大小為104.32 m/s。

該態(tài)勢下仿真測試結(jié)果如圖8(a)所示,標(biāo)準(zhǔn)PPO算法下的智能體成功地將無人機(jī)引導(dǎo)至勻速運動的目標(biāo)區(qū)域?;睾祥_始時,無人機(jī)的高度低于目標(biāo)高度,其采取盤旋加爬升的方式追蹤目標(biāo),但此次引導(dǎo)過程中無人機(jī)也做了一些無用的動作,經(jīng)歷了多次盤旋,而且其運動軌跡不夠平滑。

圖8 敵我雙方運動軌跡Fig.8 Trajectories of two sides

2) 改進(jìn)PPO算法模型仿真測試。

本次測試的敵我雙方初始化態(tài)勢:無人機(jī)在地球坐標(biāo)系下初始坐標(biāo)為(3 185 500.00 m,4 504 977.14 m,3 185 499.83 m),速度坐標(biāo)系下的初始速度為194.27 m/s。目標(biāo)在地球坐標(biāo)系下的初始坐標(biāo)為(3 185 350.11 m,4 504 389.25 m,3 186 907.54 m),速度坐標(biāo)系下的初始速度為125.46 m/s。

該態(tài)勢下仿真測試結(jié)果如圖8(b)所示,當(dāng)無人機(jī)航向偏離目標(biāo),智能體從仿真環(huán)境中獲取距離負(fù)獎勵,然后及時選擇合適的機(jī)動動作來改變無人機(jī)的航向,無人機(jī)采取右轉(zhuǎn)彎加俯沖的方式向靠近目標(biāo)的方向飛行,直至從目標(biāo)尾后追上目標(biāo),完成了作戰(zhàn)任務(wù),可見,該算法下的智能體經(jīng)過訓(xùn)練之后學(xué)會了選擇合理有效的機(jī)動動作。

5 結(jié)論

本文提出了基于改進(jìn)PPO算法的無人機(jī)自主引導(dǎo)方法,并針對敵我距離、角度、速度以及任務(wù)約束等因素設(shè)計了合適的獎勵函數(shù)。通過仿真測試結(jié)果可得:1)該方法決策一次動作的時間為0.05 s,可以進(jìn)行實時有效的機(jī)動決策;2)對于任何初始狀態(tài)的無人機(jī)和目標(biāo),該方法均可實現(xiàn)無人機(jī)向機(jī)動目標(biāo)區(qū)域的引導(dǎo),具有泛化性;3)該方法結(jié)合了LSTM與強化學(xué)習(xí),相比于標(biāo)準(zhǔn)PPO算法,提升了模型的收斂速度,增強了無人機(jī)機(jī)動的靈活性,提高了無人機(jī)的運動軌跡平滑度。

本文的研究對無人機(jī)自主近距空戰(zhàn)具有重要意義,但與實際空戰(zhàn)仍有一定差距,下一步的工作將針對實現(xiàn)導(dǎo)彈攻擊條件的問題進(jìn)行研究。

猜你喜歡
敵我空戰(zhàn)坐標(biāo)系
挪威軍方將接收升級版敵我識別系統(tǒng)
最強空戰(zhàn)王
獨立坐標(biāo)系橢球變換與坐標(biāo)換算
解密坐標(biāo)系中的平移變換
坐標(biāo)系背后的故事
空戰(zhàn)之城
意大利的“臺風(fēng)”戰(zhàn)機(jī)演示模式—5反向敵我識別系統(tǒng)的空地識別能力
“85:0”的敘以空戰(zhàn)
極坐標(biāo)系下移動機(jī)器人的點鎮(zhèn)定
漫36計 走為上
凤山市| 股票| 灌阳县| 永川市| 阜平县| 新营市| 安阳县| 贵德县| 郑州市| 伊吾县| 金坛市| 福海县| 婺源县| 白玉县| 普安县| 拉孜县| 盈江县| 三原县| 云浮市| 江西省| 固镇县| 黄浦区| 五原县| 依兰县| 安龙县| 九江市| 滦南县| 永川市| 信丰县| 吉木乃县| 梧州市| 翁牛特旗| 贵州省| 金山区| 江门市| 宁夏| 永平县| 绥芬河市| 南乐县| 仙桃市| 桐城市|