李 波,白雙霞,孟波波,梁詩(shī)陽(yáng),李曾琳
(1.西北工業(yè)大學(xué)電子信息學(xué)院,陜西 西安 710129;2.西安現(xiàn)代控制技術(shù)研究所,陜西 西安 710065;3.洛陽(yáng)電光設(shè)備研究所,河南 洛陽(yáng) 471000)
現(xiàn)代戰(zhàn)爭(zhēng)中,無(wú)人機(jī)作為作戰(zhàn)主力的一部分,在情報(bào)、監(jiān)視和偵察等領(lǐng)域具有突出優(yōu)勢(shì),但無(wú)人機(jī)不能自主決策的特點(diǎn)限制了其作戰(zhàn)能力。因此,無(wú)人機(jī)空戰(zhàn)過(guò)程智能化是實(shí)現(xiàn)未來(lái)空戰(zhàn)的關(guān)鍵途徑。近年來(lái),各種控制理論為無(wú)人機(jī)在空戰(zhàn)過(guò)程中的自主決策提供了解決方案,其中包括直覺(jué)模糊、博弈論、動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)、影響圖等方法。但是直覺(jué)模糊、博弈論、影響圖等方法需要對(duì)空戰(zhàn)過(guò)程進(jìn)行精確建模,而動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)難以適應(yīng)未知情況,這些都導(dǎo)致無(wú)人機(jī)在空戰(zhàn)過(guò)程中的自主性大為降低,難以滿足未來(lái)無(wú)人機(jī)智能化作戰(zhàn)需求。
目前,以機(jī)器學(xué)習(xí)為代表的人工智能技術(shù)在眾多領(lǐng)域大放光芒。其中,深度學(xué)習(xí)可以在龐大的數(shù)據(jù)中發(fā)現(xiàn)規(guī)則并用于預(yù)測(cè)和分類,是特征表示與學(xué)習(xí)二合一的算法。但在數(shù)據(jù)不足的情況下,深度學(xué)習(xí)模型效果差強(qiáng)人意。強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的范式之一,智能體在與環(huán)境的交互過(guò)程中學(xué)習(xí)策略,智能體選擇的動(dòng)作可以令自身達(dá)到最優(yōu)狀態(tài),達(dá)到?jīng)Q策目標(biāo)。
深度強(qiáng)化學(xué)習(xí)將二者的優(yōu)勢(shì)結(jié)合,具有解析狀態(tài)數(shù)據(jù)實(shí)現(xiàn)自主決策的能力,比較接近人類決策的思維方式,十分適用于實(shí)現(xiàn)空戰(zhàn)的智能化過(guò)程。但現(xiàn)有的基于深度強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)空戰(zhàn)研究以確定性強(qiáng)化學(xué)習(xí)策略為主,較少考慮非確定性策略。而非確定性策略將探索和改進(jìn)集成到一個(gè)策略中,適用于解決需要大范圍探索優(yōu)秀經(jīng)驗(yàn)的問(wèn)題,在解決無(wú)人機(jī)空戰(zhàn)過(guò)程中的自主決策問(wèn)題方面具有較大優(yōu)勢(shì)。
考慮實(shí)際的作戰(zhàn)空間較大,比較考驗(yàn)強(qiáng)化學(xué)習(xí)算法的探索能力,本文引入非確定性策略Soft Actor Critic(SAC)算法來(lái)實(shí)現(xiàn)作戰(zhàn)中的無(wú)人機(jī)自主機(jī)動(dòng)決策過(guò)程。首先,以無(wú)人機(jī)1v1攻防為背景建立了無(wú)人機(jī)近距空戰(zhàn)模型;然后基于Markov決策過(guò)程建立了無(wú)人機(jī)自主機(jī)動(dòng)模型,提出基于SAC的無(wú)人機(jī)空戰(zhàn)決策算法;最后,設(shè)計(jì)仿真實(shí)驗(yàn),驗(yàn)證該方法在解決無(wú)人機(jī)在不同空戰(zhàn)態(tài)勢(shì)下的機(jī)動(dòng)決策問(wèn)題上的有效性和優(yōu)越性,并與雙延遲深度確定性策略梯度(Twin Delayed Deep Deterministic policy gradient algorithm,TD3)算法進(jìn)行了比較。
本文研究的問(wèn)題以無(wú)人機(jī)1v1攻防為背景,在給定作戰(zhàn)環(huán)境和初始作戰(zhàn)條件的情況下,己方無(wú)人機(jī)能通過(guò)當(dāng)前戰(zhàn)場(chǎng)環(huán)境及作戰(zhàn)雙方相對(duì)態(tài)勢(shì)信息進(jìn)行自主決策,使得己方無(wú)人機(jī)可以率先鎖定敵方無(wú)人機(jī),使敵方無(wú)人機(jī)進(jìn)入己方攻擊區(qū)并成功打擊。通過(guò)深度強(qiáng)化學(xué)習(xí)的方法,完成對(duì)機(jī)動(dòng)決策的求解。
整個(gè)作戰(zhàn)過(guò)程主要包括三部分:作戰(zhàn)態(tài)勢(shì)接收模塊、機(jī)動(dòng)決策模塊和運(yùn)動(dòng)模塊。三個(gè)模塊的交互過(guò)程如圖1所示。其中,作戰(zhàn)態(tài)勢(shì)接收模塊可依據(jù)戰(zhàn)場(chǎng)環(huán)境計(jì)算相應(yīng)態(tài)勢(shì),并提供給機(jī)動(dòng)決策模塊用于決策;機(jī)動(dòng)決策模塊采用深度強(qiáng)化學(xué)習(xí)方法生成己方機(jī)動(dòng)控制量,并提供給運(yùn)動(dòng)模塊控制己方機(jī)動(dòng);運(yùn)動(dòng)模塊通過(guò)無(wú)人機(jī)運(yùn)動(dòng)方程更新己方位置和姿態(tài)信息,實(shí)現(xiàn)機(jī)動(dòng),并更新戰(zhàn)場(chǎng)環(huán)境,提供給作戰(zhàn)態(tài)勢(shì)接收模塊更新態(tài)勢(shì)信息,進(jìn)入迭代。整個(gè)過(guò)程的目標(biāo)是使無(wú)人機(jī)在作戰(zhàn)過(guò)程中找到最佳機(jī)動(dòng)方式,可以快速、有效地打擊敵機(jī)。
圖1 作戰(zhàn)模塊交互過(guò)程
為研究方便做出如下假設(shè):
1)戰(zhàn)場(chǎng)環(huán)境完全可見(jiàn),不考慮探測(cè)、干擾等環(huán)節(jié);
2)達(dá)到毀傷條件時(shí)認(rèn)為目標(biāo)被擊毀;
3)敵我態(tài)勢(shì)信息透明。
以無(wú)人機(jī)1v1攻防為背景建立無(wú)人機(jī)近距空戰(zhàn)模型,如圖2所示。紅色無(wú)人機(jī)為己方無(wú)人機(jī),藍(lán)色無(wú)人機(jī)為敵方無(wú)人機(jī)。坐標(biāo)系為無(wú)人機(jī)所在的三維空間坐標(biāo)系,其中,原點(diǎn)表示作戰(zhàn)區(qū)域中心,軸正方向?yàn)檎?軸正方向?yàn)檎龞|,軸正方向?yàn)榇怪毕蛏稀?/p>
圖2 無(wú)人機(jī)近距空戰(zhàn)模型
(1)
(2)
(3)
無(wú)人機(jī)的作戰(zhàn)能力受到空空導(dǎo)彈性能的約束。空空導(dǎo)彈的發(fā)射區(qū)范圍由空空導(dǎo)彈的最大射擊距離、最小射擊距離及最大離軸發(fā)射角共同決定。假設(shè)無(wú)人機(jī)的火控系統(tǒng)探測(cè)到目標(biāo),獲得目標(biāo)的位置、速度等數(shù)據(jù),計(jì)算出導(dǎo)彈射擊諸元,并且將數(shù)據(jù)對(duì)導(dǎo)彈裝載后,導(dǎo)彈才滿足發(fā)射條件。因此,空空導(dǎo)彈需要一定的目標(biāo)鎖定時(shí)間才可以發(fā)射。設(shè)敵方連續(xù)處于我方導(dǎo)彈發(fā)射區(qū)的時(shí)間為,當(dāng)滿足式(4)時(shí),認(rèn)為我方導(dǎo)彈發(fā)射成功,且敵方被我方導(dǎo)彈摧毀,我方作戰(zhàn)成功。
(4)
當(dāng)作戰(zhàn)區(qū)域較大時(shí),策略難以通過(guò)常規(guī)探索獲得環(huán)境提供的正面反饋,使其優(yōu)化變得尤其困難。當(dāng)算法未能探索到可能存在的最優(yōu)解時(shí),策略無(wú)法改進(jìn),容易陷入局部最優(yōu)。因此,增強(qiáng)策略的探索極為重要。TD3算法的探索策略使用了高斯噪聲,即在當(dāng)前學(xué)習(xí)到的策略基礎(chǔ)上添加隨機(jī)無(wú)向噪聲,在最優(yōu)動(dòng)作的鄰域內(nèi)隨機(jī)探索,稱為抖動(dòng)策略。然而,由于抖動(dòng)策略未考慮每次探索動(dòng)作的價(jià)值,存在數(shù)據(jù)利用率低、時(shí)間長(zhǎng)等不足。針對(duì)這一問(wèn)題,相關(guān)學(xué)者提出了SAC算法。因此,本文基于SAC算法研究無(wú)人機(jī)空戰(zhàn)決策問(wèn)題。
1)無(wú)人機(jī)運(yùn)動(dòng)模型
在考察無(wú)人機(jī)運(yùn)動(dòng)時(shí),將其視為質(zhì)點(diǎn)。依據(jù)積分原理,建立具有三自由度的無(wú)人機(jī)運(yùn)動(dòng)方程,即
(5)
其中,、、分別表示我方無(wú)人機(jī)在三個(gè)坐標(biāo)軸的位置分量,表示己方無(wú)人機(jī)的速度,表示己方無(wú)人機(jī)的俯仰角,表示己方無(wú)人機(jī)的航向角,表示敵我雙方的距離,表示相對(duì)方位角,表示積分步長(zhǎng),表示加速度大小,表示俯仰角變化量,表示航向角變化量。
2)無(wú)人機(jī)飛行動(dòng)作空間
無(wú)人機(jī)運(yùn)動(dòng)方程表明,通過(guò)在有效積分步長(zhǎng)內(nèi)對(duì)、、進(jìn)行設(shè)定,無(wú)人機(jī)可在三維空間實(shí)現(xiàn)一系列的機(jī)動(dòng)過(guò)程。因此,可以得到無(wú)人機(jī)飛行動(dòng)作空間,即
={,,}
(6)
3)無(wú)人機(jī)飛行狀態(tài)空間
根據(jù)己方無(wú)人機(jī)狀態(tài)量以及敵方無(wú)人機(jī)狀態(tài)量計(jì)算戰(zhàn)場(chǎng)態(tài)勢(shì)信息作為無(wú)人機(jī)的飛行狀態(tài)空間,即
={,,,,,,,}
(7)
4)作戰(zhàn)效果評(píng)價(jià)獎(jiǎng)勵(lì)函數(shù)
根據(jù)式(4),將獎(jiǎng)勵(lì)劃分為距離獎(jiǎng)勵(lì)和角度獎(jiǎng)勵(lì),得到相應(yīng)的獎(jiǎng)勵(lì)函數(shù),即:
(,)=·+·
(8)
(9)
(10)
(11)
其中,′和″是達(dá)到限制條件時(shí)的稀疏獎(jiǎng)勵(lì),當(dāng)無(wú)人機(jī)探索到一個(gè)較好的策略時(shí)獲得激勵(lì),保留已探索到的策略。、為距離獎(jiǎng)勵(lì)與角度獎(jiǎng)勵(lì)的權(quán)重。本文設(shè)定==05。
圖3所示為基于SAC算法的無(wú)人機(jī)空戰(zhàn)決策框架,SAC算法通過(guò)神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)時(shí),共包含一個(gè)策略網(wǎng)絡(luò)、兩個(gè)Soft網(wǎng)絡(luò)和、兩個(gè)Target Soft網(wǎng)絡(luò)′和′。其中,、、、′,′均表示對(duì)應(yīng)網(wǎng)絡(luò)的參數(shù)。
圖3 基于SAC算法的空戰(zhàn)決策框架
框架流程如下:
1)作戰(zhàn)態(tài)勢(shì)接收模塊將從戰(zhàn)場(chǎng)環(huán)境中獲取的態(tài)勢(shì)信息進(jìn)行處理,將其作為智能體的狀態(tài)∈傳遞到SAC算法模塊。
2)策略網(wǎng)絡(luò)輸出動(dòng)作∈。動(dòng)作的產(chǎn)生由策略網(wǎng)絡(luò)和噪聲共同決定。其中,策略網(wǎng)絡(luò)根據(jù)輸入狀態(tài),計(jì)算動(dòng)作的均值和方差,并從正態(tài)分布采樣得到,最后輸出動(dòng)作∈,如下所示:
,=()
(12)
=(,)=+*
(13)
可得出
=tanh()
(14)
3)運(yùn)動(dòng)模塊執(zhí)行動(dòng)作,戰(zhàn)場(chǎng)狀態(tài)信息更新為+1∈,并反饋獎(jiǎng)勵(lì)=(,)。同時(shí)將狀態(tài)轉(zhuǎn)移量(,,,+1)存儲(chǔ)到經(jīng)驗(yàn)存儲(chǔ)模塊,用于SAC算法中網(wǎng)絡(luò)的更新。
智能體的策略在優(yōu)化過(guò)程中,要求同時(shí)最大化環(huán)境反饋值和策略的探索程度。SAC算法添加了最大熵模型來(lái)實(shí)現(xiàn)策略隨機(jī)化,使輸出的每個(gè)動(dòng)作的概率盡可能分散,而非集中在同一個(gè)動(dòng)作上,以增強(qiáng)策略的探索。策略服從某一分布,策略(·|)的隨機(jī)性由策略的熵((·|))衡量。為了最大化策略的熵,SAC算法將熵引入期望函數(shù)中。SAC算法的累計(jì)獎(jiǎng)勵(lì)為
(15)
(16)
SAC算法中的Soft函數(shù)定義為
(,)+(+1,+1)[(+1,+1)-
log(π(+1|+1))]
(17)
在更新策略網(wǎng)絡(luò)時(shí),策略網(wǎng)絡(luò)的損失函數(shù)()為
()=~,~[log(|)-(,)]
(18)
在更新網(wǎng)絡(luò)的參數(shù)時(shí),損失函數(shù)()為
(19)
為了防止值的過(guò)估計(jì),目標(biāo)最優(yōu)值定義為
′(+1,+1)=min(′(+1,+1),′(+1,+1))
(20)
算法訓(xùn)練過(guò)程中,前期需要大量的探索來(lái)保證策略獲取不同價(jià)值的樣本并進(jìn)行優(yōu)化;后期穩(wěn)定后,需要相對(duì)小的探索來(lái)使得策略趨于穩(wěn)定。當(dāng)設(shè)定為固定值時(shí),不能同時(shí)滿足前期和后期的探索需求。所以,SAC算法中的需要調(diào)整和優(yōu)化,使得策略的熵在獎(jiǎng)勵(lì)函數(shù)中占據(jù)不同的權(quán)重。
的自適應(yīng)損失函數(shù)為
()=[-log(|)-]
(21)
其中,為目標(biāo)熵值。
本節(jié)通過(guò)設(shè)計(jì)仿真實(shí)驗(yàn),實(shí)現(xiàn)了基于SAC算法的無(wú)人機(jī)空戰(zhàn)決策算法,并與TD3算法進(jìn)行了對(duì)比。實(shí)驗(yàn)時(shí),紅方為采用深度強(qiáng)化學(xué)習(xí)算法的智能體,藍(lán)方為非智能體,做固定機(jī)動(dòng)。實(shí)驗(yàn)過(guò)程中,分別統(tǒng)計(jì)兩種算法的訓(xùn)練結(jié)果,從是否作戰(zhàn)成功、作戰(zhàn)成功步長(zhǎng)、最大獎(jiǎng)勵(lì)、獎(jiǎng)勵(lì)收斂回合等方面評(píng)估機(jī)動(dòng)決策任務(wù)的完成情況并對(duì)比兩種算法的優(yōu)劣。其中,作戰(zhàn)成功代表在作戰(zhàn)過(guò)程中我方擊敗敵方;作戰(zhàn)成功步長(zhǎng)代表我方擊敗敵方所消耗的時(shí)間,限制無(wú)人機(jī)最大作戰(zhàn)步長(zhǎng)為600。
為比較TD3算法與SAC算法的訓(xùn)練效果,本文設(shè)計(jì)了三個(gè)不同的作戰(zhàn)環(huán)境,不同的作戰(zhàn)環(huán)境中紅藍(lán)雙方具有不同的初始態(tài)勢(shì)。作戰(zhàn)環(huán)境設(shè)置如表1所示。
表1 紅藍(lán)雙方初始態(tài)勢(shì)設(shè)置
環(huán)境1中紅藍(lán)雙方初始距離與初始相對(duì)方位角較為適中,環(huán)境2中雙方初始相對(duì)方位角較大,環(huán)境3中雙方的初始距離較大。在不同作戰(zhàn)環(huán)境下對(duì)兩種算法進(jìn)行訓(xùn)練,并比較訓(xùn)練結(jié)果。兩種算法的訓(xùn)練結(jié)果如表2所示。
表2 算法訓(xùn)練結(jié)果
由表2可以看出,在環(huán)境1、2中,兩種算法均能完成訓(xùn)練,實(shí)現(xiàn)無(wú)人機(jī)機(jī)動(dòng)決策過(guò)程,使得紅方無(wú)人機(jī)成功鎖定敵方無(wú)人機(jī)并完成打擊任務(wù)。相較于TD3算法,SAC算法的收斂速度更快,并且可以獲得更高的獎(jiǎng)勵(lì)值,能夠通過(guò)更少的步長(zhǎng)完成任務(wù)。在環(huán)境3中,由于初始環(huán)境較為苛刻,TD3算法未能完成訓(xùn)練和作戰(zhàn)任務(wù)。SAC算法較好地完成了訓(xùn)練,并且成功完成任務(wù)。
為了更好地評(píng)估算法收斂速度,在實(shí)驗(yàn)過(guò)程中記錄每一回合我方獲得的總獎(jiǎng)勵(lì)值,并以此判定獎(jiǎng)勵(lì)值是否收斂。圖4分別顯示了三種環(huán)境下,2000個(gè)訓(xùn)練回合中SAC算法和TD3算法總獎(jiǎng)勵(lì)值的變化曲線。
圖4 獎(jiǎng)勵(lì)值曲線對(duì)比圖
圖4表明,SAC算法和TD3算法最終均能收斂,但SAC算法的收斂速度更快,且最終收斂到更高的獎(jiǎng)勵(lì)值。從實(shí)驗(yàn)結(jié)果來(lái)看,受初始距離和初始相對(duì)方位角的影響,TD3算法未能在每個(gè)環(huán)境中全部完成訓(xùn)練,而SAC算法均能在有限回合內(nèi)快速收斂并完成任務(wù)。SAC算法相對(duì)于TD3算法具有更快的訓(xùn)練速度與更好的訓(xùn)練結(jié)果,表明基于SAC算法的無(wú)人機(jī)空戰(zhàn)決策算法的探索性能更強(qiáng),更易于探索到有意義的經(jīng)驗(yàn),當(dāng)被局限于局部最優(yōu)解時(shí)也能夠持續(xù)探索并最終實(shí)現(xiàn)全局收斂。
在環(huán)境2中,對(duì)兩種算法進(jìn)行對(duì)比測(cè)試,比較紅方作戰(zhàn)軌跡、飛行姿態(tài)(俯仰角、航向角和速度),以及紅藍(lán)雙方相對(duì)距離與相對(duì)方位角變化過(guò)程,進(jìn)一步體現(xiàn)算法的差異。環(huán)境2中紅藍(lán)雙方的初始信息如表3所示。
表3 環(huán)境2中作戰(zhàn)雙方的初始信息
圖5展示了不同平面內(nèi),無(wú)人機(jī)接近敵方并滿足發(fā)射條件的作戰(zhàn)過(guò)程。圖5 1)顯示無(wú)人機(jī)在水平面的作戰(zhàn)軌跡。從圖中可以看出,作戰(zhàn)開始后,無(wú)攻擊能力的藍(lán)方做隨機(jī)運(yùn)動(dòng),相對(duì)于紅方無(wú)人機(jī)的相對(duì)方位角與距離較大。紅方為了令藍(lán)方進(jìn)入自身的導(dǎo)彈發(fā)射區(qū),首先快速轉(zhuǎn)換航向,縮減相對(duì)方位角,對(duì)藍(lán)方呈尾后攻擊態(tài)勢(shì)。之后紅方快速調(diào)整速度,縮短與藍(lán)方之間的距離。
圖5 無(wú)人機(jī)作戰(zhàn)軌跡對(duì)比圖
圖5 2)顯示作戰(zhàn)時(shí)無(wú)人機(jī)的高度變化。圖中可以看出,在紅藍(lán)雙方具有高度差,且藍(lán)方高于紅方的初始態(tài)勢(shì)下,基于SAC算法的紅方在運(yùn)動(dòng)過(guò)程中逐漸減小高度差異,并最終與敵方保持在同一高度,而基于TD3算法的紅方并沒(méi)有消除高度差異,始終處于藍(lán)方高度之下。
兩種算法的決策過(guò)程均為首先改變方向,減小相對(duì)方位角,然后縮短距離,最終均滿足導(dǎo)彈發(fā)射條件。然而,對(duì)比圖5 1)與圖5 2)可以看出,基于SAC算法的紅方中前期轉(zhuǎn)彎半徑更小,更快地減小了相對(duì)方位角,且最終滿足發(fā)射條件時(shí),相對(duì)方位角更小,更接近敵方。同時(shí),基于SAC算法做出機(jī)動(dòng)決策的紅方消除了高度差異,更符合真實(shí)作戰(zhàn)中作戰(zhàn)方需避免處于敵方高度以下,從而無(wú)法掌握主動(dòng)權(quán)的情況。
綜合對(duì)比作戰(zhàn)軌跡,相對(duì)于TD3算法,SAC算法產(chǎn)生的機(jī)動(dòng)策略能令紅方更快地滿足發(fā)射條件,實(shí)現(xiàn)成功作戰(zhàn),且更具備真實(shí)作戰(zhàn)的合理性。
從圖6可以看出,相對(duì)于TD3算法,在0~180步內(nèi),SAC算法令無(wú)人機(jī)的相對(duì)方位角減小更快,距離增加較少。在180步以后,SAC算法中作戰(zhàn)距離縮減更快,最終早于14個(gè)步長(zhǎng)滿足導(dǎo)彈發(fā)射條件。此外,實(shí)現(xiàn)目標(biāo)鎖定時(shí),SAC算法的敵我距離和相對(duì)方位角更小,更有利于對(duì)目標(biāo)的摧毀。
圖6 敵我相對(duì)態(tài)勢(shì)變化曲線
為了體現(xiàn)無(wú)人機(jī)在飛行過(guò)程中的姿態(tài)變化,記錄了無(wú)人機(jī)在作戰(zhàn)過(guò)程中的俯仰角、航向角和速度變化,如圖7所示。
圖7 紅方無(wú)人機(jī)姿態(tài)變化曲線
圖7 1)可以看出,在SAC算法中,無(wú)人機(jī)的俯仰角范圍為(-5°,25°),在前期有大幅度上升過(guò)程,說(shuō)明無(wú)人機(jī)通過(guò)機(jī)動(dòng)消除了高度差異。而TD3算法中,無(wú)人機(jī)俯仰角范圍為(-7°,7°),且均在0°附近大幅度波動(dòng),因此未能消除高度差異。圖7 2)可以看出,在作戰(zhàn)前期,兩種算法中無(wú)人機(jī)的航向角變化量大小相同。但在后期,基于TD3算法決策的無(wú)人機(jī)航向角更小,使得其與目標(biāo)的航向偏差更大,因此相對(duì)方位角更大。圖7 3)可以看出,在作戰(zhàn)前期,紅方轉(zhuǎn)變航向角,基于SAC算法決策的無(wú)人機(jī)的速度更小,無(wú)人機(jī)轉(zhuǎn)彎半徑更小。在作戰(zhàn)中期,兩種算法中的無(wú)人機(jī)均增大速度來(lái)縮減距離,直至無(wú)人機(jī)達(dá)到最大速度。在作戰(zhàn)后期,敵我相對(duì)距離仍大于導(dǎo)彈的最大發(fā)射距離,TD3算法卻令無(wú)人機(jī)逐漸減速,這導(dǎo)致其作戰(zhàn)距離減小更慢,增大了兩種算法的作戰(zhàn)距離差異。
經(jīng)分析可知,兩種算法的俯仰角、航向角、速度變化符合真實(shí)作戰(zhàn),且與作戰(zhàn)軌跡相符合。其中,基于SAC的無(wú)人機(jī)空戰(zhàn)決策算法對(duì)俯仰角、航向角和速度具有更好的控制能力,使得作戰(zhàn)效果更加優(yōu)異。
本文針對(duì)1v1空戰(zhàn)過(guò)程中的無(wú)人機(jī)自主決策問(wèn)題,采用Markov決策過(guò)程建立了無(wú)人機(jī)自主機(jī)動(dòng)模型,設(shè)計(jì)了無(wú)人機(jī)飛行狀態(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù),提出了基于SAC的無(wú)人機(jī)空戰(zhàn)決策算法,并建立了對(duì)應(yīng)的作戰(zhàn)環(huán)境,進(jìn)行仿真驗(yàn)證。仿真結(jié)果表明,本算法可實(shí)現(xiàn)無(wú)人機(jī)在空戰(zhàn)環(huán)境中的自主決策過(guò)程,實(shí)現(xiàn)對(duì)敵方無(wú)人機(jī)的率先鎖定和攻擊。并且從仿真結(jié)果可以看出,相較于TD3算法,本算法訓(xùn)練所需時(shí)間更短,成功率更高,能更好地控制無(wú)人機(jī)的飛行姿態(tài),使無(wú)人機(jī)的飛行過(guò)程更加符合真實(shí)作戰(zhàn)場(chǎng)景。