姜龍亭,寇雅楠,王 棟,張彬超,胡 濤
(1.空軍工程大學航空工程學院,西安710038;2.解放軍95974部隊,河北 滄州061000;3.解放軍95356部隊,湖南 耒陽421800)
近年來,無人機技術發(fā)展迅猛,已經在經濟和軍事領域有了一定的應用。目前,大多數(shù)的空戰(zhàn)任務主要是由有人機來完成。但是由于近距空戰(zhàn)激烈的對抗性和動態(tài)特性,人在回路的無人機以及有人機在面臨復雜的戰(zhàn)場情況時,常常因為誤判態(tài)勢造成空戰(zhàn)失利。同時,由于自主決策系統(tǒng)能將飛行員從緊張、激烈的對抗任務中解脫出來,對武器裝備的發(fā)展以及人類的發(fā)展進步都具有深遠的意義。因此,研究具有自主機動決策的無人機成為各軍事強國爭先發(fā)展的重點。
自主空戰(zhàn)決策[1]是指對抗過程中,為了實現(xiàn)優(yōu)勢態(tài)勢和最小化我機面臨的危險,實時地計算出無人機的最優(yōu)機動策略。目前,學者們針對無人機自主決策問題提出了許多方法。主要有微分對策法、影響圖法、專家系統(tǒng)法和強化學習法?;谖⒎謱Σ叻ǎ?-4]的決策系統(tǒng)由于受限于具體的數(shù)學模型,可移植性較差;影響圖法[5]在一定程度上對空戰(zhàn)給出了合理的決策行為,但是沒有通過全局的戰(zhàn)場態(tài)勢信息構建決策模型,無法滿足高強度的空戰(zhàn)需要,很難應用到實戰(zhàn)中;專家系統(tǒng)法[6-7]通過建立態(tài)勢與機動策略的映射關系來模擬飛行員的決策過程,但是專家系統(tǒng)難以構建完備的規(guī)則模型,并且通用性較差;神經網絡法[8-9]求解得到的機動決策無法從模型本身進行合理解釋,并且需要大量的實戰(zhàn)訓練樣本數(shù)據(jù)。
本文主要針對空戰(zhàn)過程的攻擊占位決策問題進行研究。由于近似動態(tài)規(guī)劃法[10-14]具有良好的泛化能力和在線學習能力,本文在前期研究的基礎上,通過對戰(zhàn)場環(huán)境和戰(zhàn)術使用原則的分析,建立基于近似動態(tài)規(guī)劃的空戰(zhàn)機動決策模型。文獻[10]通過對近似動態(tài)規(guī)劃法的研究,解決了航模的追逃問題,但是真實的空戰(zhàn)過程有著不同與航模的高機動性的特點。文獻[13]雖然通過近似動態(tài)規(guī)劃法對水平飛行的空戰(zhàn)接敵問題進行了研究,但是在占位決策過程中,由于未考慮飛機的過沖問題,智能體在機動決策后容易進入敵方攻擊區(qū)內。針對上述存在的不足,本文通過對空戰(zhàn)過程分析,提出懲罰因子對近似動態(tài)法進行改進,建立改進的近似動態(tài)規(guī)劃模型,避免了攻擊占位過程中的“過沖”現(xiàn)象。
正如著名軍事理論家杜黑所言:空戰(zhàn)就是以奪取制空權為最終目的對抗過程。作戰(zhàn)雙方的作戰(zhàn)目的就是在避免被對方擊落的情況下,占據(jù)攻擊對方的戰(zhàn)術優(yōu)勢位置。這種戰(zhàn)術優(yōu)勢位置隨著敵我雙方的相對位置在空間里連續(xù)變化。為了清晰描述態(tài)勢的動態(tài)變化過程,某一時刻紅藍雙方的幾何占位態(tài)勢信息如圖1所示。
圖1 紅藍雙方幾何占位態(tài)勢圖
算法1:狀態(tài)轉移函數(shù)計算方法
初始化:
For i=1:5(仿真步長為Δt=0.375 s)
算法1中,st為當前時刻輸入的狀態(tài)信息,根據(jù)狀態(tài)轉移方程求解,st+1即為下一時刻的狀態(tài)信息。
求解自主攻擊的占位決策問題實質上是一個序列決策問題。即基于當前的態(tài)勢信息給出一種最優(yōu)的機動決策序列,也即求解空間狀態(tài)與機動行為之間的一種映射,使得飛機快速朝著攻擊的優(yōu)勢位置飛行,最終完成攻擊敵機的任務。
由于動態(tài)規(guī)劃法具有良好的泛化和在線學習能力,在解決序列決策問題上有著很大的優(yōu)勢。利用動態(tài)規(guī)劃法求解序列決策問題時,需要建立長期收益與狀態(tài)之間的映射關系。對于離散的低維度狀態(tài)空間,各個狀態(tài)的長期收益可以保存在查詢表內。但是,隨著戰(zhàn)場環(huán)境和空戰(zhàn)任務的日益復雜,基于查詢表式的長期收益顯得捉襟見肘。尤其是在解決具有連續(xù)性狀態(tài)空間的空戰(zhàn)決策問題更是容易出現(xiàn)“維數(shù)災難”。為了解決狀態(tài)維數(shù)高造成的問題,近似動態(tài)規(guī)劃法基于函數(shù)擬合的思想,以連續(xù)函數(shù)逼近長期收益的狀態(tài)值函數(shù)。通過嚴密的數(shù)學推導,對長期收益值函數(shù)進行逼近優(yōu)化,由此獲得狀態(tài)空間與長期收益值之間的映射關系。
則近似值函數(shù)可作為線性回歸的觀測值,即
為了清楚地對空戰(zhàn)狀態(tài)進行描述,采樣狀態(tài)的特征集合記為:
其中,M為狀態(tài)特征的數(shù)目。
基于函數(shù)擬合的思想,采樣狀態(tài)和近似值函數(shù)可以抽象為一個多元線性回歸問題,即
使用標準最小二乘估計進行計算,
由此可得,第i次迭代后的長期收益值函數(shù)為:
空戰(zhàn)過程中,紅藍雙方在各自的戰(zhàn)術策略下首先隱蔽接敵,然后攻擊占位。通過控制飛機快速進入敵方的尾后區(qū)域,并截獲跟蹤目標,直至發(fā)射導彈。為了準確控制飛機快速占據(jù)攻擊敵方的優(yōu)勢位置,本文從空戰(zhàn)的隱蔽接敵和攻擊占位兩個階段對上述提出的獎勵函數(shù)進行定義。因此,獎勵函數(shù)R(s)包括即時獎勵函數(shù)G(s)和態(tài)勢獎勵函數(shù)A(s)兩部分。
一是即時獎勵函數(shù)。即將敵方的尾后區(qū)域定義為占位的目標區(qū)域,通過獎勵進入占位目標區(qū)域的狀態(tài)引導飛機進入攻擊位置。目標區(qū)域(見圖2)往往與飛機的性能密切相關。在本文中,主要考慮飛機的提前角ATA、進入角AA和雙方的相對距離r。因此,依據(jù)文獻[10]的分析,即時獎勵函數(shù)G(s)定義為:
圖2 藍方攻擊優(yōu)勢區(qū)域示意圖
圖2所示虛線區(qū)域表示當藍方飛機的進入角小于60°,提前角小于30°,兩機距離在武器系統(tǒng)的作用范圍內時,無論藍方采取何種機動,藍方都占據(jù)優(yōu)勢地位,并且可以以較高的命中率發(fā)射導彈。近似動態(tài)規(guī)劃法通過即時獎勵函數(shù)G(s)對優(yōu)勢攻擊位置獎勵,將引導藍方飛機快速進入定義的優(yōu)勢攻擊位置。
二是態(tài)勢獎勵函數(shù)。即當飛機在隱蔽接敵過程中對空戰(zhàn)態(tài)勢優(yōu)勢的獎勵。飛機在空戰(zhàn)過程中可以通過態(tài)勢獎勵函數(shù)引導飛機向空戰(zhàn)區(qū)域機動。態(tài)勢獎勵函數(shù)A(s)的定義將彌補即時獎勵函數(shù)不連續(xù)性的缺點。由于本文只考慮平面等高度下的空戰(zhàn)對抗,且雙方速度假設恒定,因此,態(tài)勢獎勵函數(shù)主要與敵我雙方的相對角度和距離相關。態(tài)勢獎勵函數(shù)A(s)定義為:
結合即時獎勵函數(shù)和態(tài)勢獎勵函數(shù),近似動態(tài)規(guī)劃法中的獎勵函數(shù)R(s)定義為:
其中,wr為即時獎勵函數(shù)與態(tài)勢獎勵函數(shù)之間的權重因子。即時獎勵函數(shù)引導飛機進入攻擊占位優(yōu)勢區(qū)域;態(tài)勢獎勵函數(shù)在整個狀態(tài)空間發(fā)揮作用,在空戰(zhàn)過程中,引導飛機朝著優(yōu)勢區(qū)域飛行。
理想的空戰(zhàn)決策問題需要在獲得獎勵的同時也要平衡在機動過程中存在的風險。由于近似動態(tài)規(guī)劃法在機動決策時,僅考慮了如何將飛機引導至己方優(yōu)勢區(qū)域,依據(jù)幾何關系定義了優(yōu)勢函數(shù),未對飛機的危險區(qū)域進行定義,并且因為策略搜索算法有限的前瞻性,較短的搜索范圍也容易陷入局部最優(yōu),仿真分析和飛行機動決策過程中容易造成“過沖”,使得飛機處于敵方的優(yōu)勢區(qū)域內。當藍方處于紅方的優(yōu)勢區(qū)域時間越長,相對距離越近,藍方被紅方擊中的幾率也就越大。為了克服上述存在的不足,本文針對“過沖”問題和距離太近引起的“碰撞”問題,結合空戰(zhàn)實際問題,定義了與獎勵函數(shù)對應的懲罰函數(shù)P(s)。
空戰(zhàn)過程中,進入敵方攻擊區(qū)的概率也是隨機的,為了描述這種隨機性,定義了風險概率pt(s):
為了避免距離太近引起的兩機相撞問題,對pt進一步改進,改進后的風險概率P(s)為:
例如,當飛機的相對距離小于武器的最小發(fā)射距離,AA=180°時,危險概率P=0.1。也就是說在現(xiàn)實世界中飛機進入敵方飛機的攻擊區(qū)域,被敵方攻擊的概率是0.1。隨著雙機距離逐漸接近,危險概率P(s)越來越大。危險概率P(s)將阻止藍方飛機進入紅方的攻擊區(qū)域。
為了防止飛機在飛行過程中因“過沖”進入敵方的攻擊區(qū)域,本文基于懲罰函數(shù)對長期收益值函數(shù)式(9)進行了修正:
如果當前狀態(tài)P(s)>0時,則表示藍方飛機處于敵方的攻擊區(qū)域內。通過減小長期收益值,引導藍方飛機進行快速擺脫。也即藍方飛機一旦進入敵方的優(yōu)勢區(qū)域內,將快速機動至敵方的攻擊優(yōu)勢區(qū)域外。
改進后的近似值函數(shù)計算如算法2:
算法2:改進的近似值函數(shù)計算
近似動態(tài)規(guī)劃法逼近長期收益值,需要對空戰(zhàn)博弈的狀態(tài)空間進行采樣。采樣稀疏對近似值函數(shù)Jappr(s)與值函數(shù)J*(s)的誤差有著至關重要的影響。只有最大限度地減小最優(yōu)值函數(shù)與值函數(shù)的誤差,求解的機動策略才最接近最優(yōu)的機動策略。從這個角度出發(fā),高密度的采樣將比低密度的采樣更接近最優(yōu)解,但是采樣數(shù)的增多必然帶來計算量指數(shù)增加。并且,采樣數(shù)目的增多,執(zhí)行貝爾曼迭代所需要的時間也大幅增加,必然會對機動決策的實時性產生很大的影響。從這個角度出發(fā),采樣的狀態(tài)數(shù)目應該是越少越好,低密度的采樣將會使得智能體的運算速度較快,決策的實時性將得到提升。因此,為了平衡機動策略的誤差與決策實時性這一對矛盾,必須合理地選擇采樣點。在重要的狀態(tài)空間區(qū)域,有必要進行精細的狀態(tài)采樣;在很小幾率出現(xiàn)的狀態(tài)空間區(qū)域,則沒必要劃分太精細。為了確??諔?zhàn)過程中最有可能出現(xiàn)的區(qū)域得到充分的采樣,本文對飛機空戰(zhàn)過程進行軌跡采樣[10]。
在紅藍雙方仿真對抗過程中,紅方采取最大最小策略進行機動決策,藍方采取近似動態(tài)規(guī)劃方法進行機動決策。則藍方的機動策略為:
算法3:機動策略提取
輸入:si
基于改進的近似動態(tài)規(guī)劃法可以依據(jù)最優(yōu)的長期收益值進行決策,而不是通過有限的前瞻策略進行決策,并且以懲罰函數(shù)對收益值函數(shù)進行修正。因此,基于ADP的機動決策不僅能反映空戰(zhàn)全局的最優(yōu)決策,而且還能有效避免“過沖”問題和“碰撞”問題。
仿真1假設紅方飛機未能有效感知戰(zhàn)場態(tài)勢,依然保持初始航向和初始機動策略飛行。藍方飛機根據(jù)所處戰(zhàn)場態(tài)勢,使用基于ADP的機動策略。紅藍雙方初始狀態(tài)信息見表1。
表1 紅藍雙方初始態(tài)勢信息表
仿真如下頁圖3所示。
圖3 仿真驗證1結果
從圖3可以看出,在紅方保持機動方向不變的情況下,藍方通過ADP機動策略能夠很快機動至紅方的尾后攻擊區(qū)域,有效占據(jù)攻擊優(yōu)勢。
仿真2假設紅方飛機能有效感知戰(zhàn)場態(tài)勢,并且根據(jù)戰(zhàn)場態(tài)勢以最大最小的機動策略與藍方飛機進行對抗。藍方飛機根據(jù)所處的戰(zhàn)場態(tài)勢,使用基于ADP的策略進行機動決策。紅藍雙方初始初始狀態(tài)信息見表1。
仿真如圖4所示。
圖4 仿真驗證2結果
從圖4可以看出,在紅方采取最大最小策略進行機動,藍方通過ADP機動策略能夠很快機動至紅方的尾后攻擊區(qū)域,有效占據(jù)攻擊優(yōu)勢。
仿真3假設紅方飛機能有效感知戰(zhàn)場態(tài)勢,并且根據(jù)戰(zhàn)場態(tài)勢以最大最小的策略進行機動決策,藍方飛機根據(jù)所處的戰(zhàn)場態(tài)勢,在使用基于ADP的策略與紅方飛機對抗時存在“過沖”機動,于是使用改進的ADP策略確保不處于紅方的優(yōu)勢區(qū)域,并且快速占據(jù)優(yōu)勢攻擊位置。紅藍雙方初始狀態(tài)信息如表2所示。
表2 紅藍雙方初始態(tài)勢信息
仿真如圖5所示。
從圖5中可以看出,當紅方采取最大最小策略,藍方采取ADP策略時,藍方由于提前采取左轉機動,在第4次機動決策后,造成“過沖”現(xiàn)象,此時紅方呈尾追態(tài)勢,若鎖定目標,即可對藍方實施攻擊。在同樣的初始條件下,藍方依舊采取最大最小策略,紅方采用改進之后的ADP策略時,最優(yōu)機動決策則是先維持初始航向,然后再采取左轉盤旋機動。通過仿真可以發(fā)現(xiàn),藍方在第5次機動決策后,占據(jù)尾追攻擊的優(yōu)勢態(tài)勢,有效避免了“過沖”問題。
圖5 仿真驗證3結果
本文基于近似動態(tài)規(guī)劃法理論對水平飛行、定速、一對一空戰(zhàn)自主攻擊占位決策方法進行了研究?;诮苿討B(tài)規(guī)劃理論建立了空戰(zhàn)自主攻擊占位的決策框架。針對空戰(zhàn)環(huán)境的高維度狀態(tài)空間,基于函數(shù)擬合的思路構建近似值函數(shù),對空戰(zhàn)過程的長期收益逼近優(yōu)化,給出了自主攻擊占位決策的策略學習方法;對傳統(tǒng)的近似動態(tài)規(guī)劃決策方法存在的“過沖”和“碰撞”問題,提出了懲罰因子對近似動態(tài)規(guī)劃法進行改進。仿真結果表明,改進的近似動態(tài)規(guī)劃法在自主攻擊占位決策中,可以有效避免發(fā)生“過沖”和“碰撞”問題。
基于改進的近似動態(tài)規(guī)劃法在自主攻擊占位決策時,近似值函數(shù)的優(yōu)劣對策略學習有著至關重要的影響。確定合理的長期收益值函數(shù)將能逼近最優(yōu)的值函數(shù),進而得到最優(yōu)的機動策略。同時,在進行策略學習時,藍方機動策略的優(yōu)越性依賴于紅方飛機的智能化水平。紅方的智能化水平越高,藍方學習到的機動策略將更具魯棒性和智能性。因此,在后續(xù)的研究中,提高藍方飛機機動策略的智能性以及逼近最優(yōu)的值函數(shù),將進一步提升飛機的自主空戰(zhàn)能力。