吳 傲,楊任農(nóng),梁曉龍,張佳強(qiáng)
(1.空軍工程大學(xué)航空集群技術(shù)與作戰(zhàn)運(yùn)用實(shí)驗(yàn)室,西安 710051;2.陜西省電子信息系統(tǒng)綜合集成重點(diǎn)實(shí)驗(yàn)室,西安 710051;3.空軍工程大學(xué)空管領(lǐng)航學(xué)院,西安 710051)
自主決策能力是無(wú)人戰(zhàn)斗機(jī)(Unmanned combat aerial vehicle,UCAV)發(fā)揮作戰(zhàn)效能的關(guān)鍵[1-3]。自主空戰(zhàn)是UCAV參與空戰(zhàn)的最終形式,而機(jī)動(dòng)決策對(duì)于正在到來(lái)的無(wú)人空戰(zhàn)時(shí)代則是必不可少的研究?jī)?nèi)容[4]。
空戰(zhàn)機(jī)動(dòng)決策是指:基于數(shù)學(xué)優(yōu)化、人工智能等方法,模擬各種空戰(zhàn)態(tài)勢(shì)下飛行員的決策,自動(dòng)生成對(duì)飛行器控制指令的決策過(guò)程[5]。文獻(xiàn)[6]將目前的空戰(zhàn)機(jī)動(dòng)決策分為基于對(duì)策方法和基于人工智能方法。基于對(duì)策的方法主要有矩陣對(duì)策[4,7-8]、影 響 圖[9-11]等。矩 陣 對(duì) 策 法 往 往 以 博 弈論[7]為基礎(chǔ),能充分考慮敵我雙方的對(duì)抗關(guān)系,但是納什均衡的求解較為煩瑣,并且在決策過(guò)程中難以加入對(duì)敵方意圖的推斷;影響圖[9-11]能很好地反映飛行員決策的過(guò)程,能引入環(huán)境的不確定性和飛行員的決策偏好,但其建模復(fù)雜,求解計(jì)算量大,難以滿(mǎn)足決策的實(shí)時(shí)性要求?;谌斯ぶ悄艿姆椒ㄖ饕袑?zhuān)家系統(tǒng)法[12]、遺傳算法[8]以及強(qiáng)化學(xué)習(xí)方法等。專(zhuān)家系統(tǒng)法主要依靠人為設(shè)定機(jī)動(dòng)動(dòng)作庫(kù),決策的結(jié)果是離散的機(jī)動(dòng)動(dòng)作序列,計(jì)算量小,適合空戰(zhàn)實(shí)時(shí)決策,但也往往受到專(zhuān)家經(jīng)驗(yàn)的限制,同時(shí)文獻(xiàn)[13-14]的機(jī)動(dòng)動(dòng)作庫(kù)均采用了最大過(guò)載的機(jī)動(dòng)動(dòng)作,并不能很好地反映真實(shí)的飛行過(guò)程;遺傳算法[8]等智能算法可以將UCAV的控制量生成連續(xù)的控制序列,極大地提升了UCAV的可控性,但是連續(xù)控制量的求解規(guī)模較大;以神經(jīng)網(wǎng)絡(luò)[15-17]為基礎(chǔ)的強(qiáng)化學(xué)習(xí)算法是目前解決UCAV機(jī)動(dòng)決策的熱點(diǎn),但是對(duì)算法的訓(xùn)練要求較高。
上述方法在求解簡(jiǎn)單的機(jī)動(dòng)決策方面具有一定的優(yōu)勢(shì),但當(dāng)UAV機(jī)動(dòng)方式較為復(fù)雜時(shí)容易出現(xiàn)維數(shù)災(zāi)難、依賴(lài)人的主觀性以及規(guī)則漏洞等現(xiàn)實(shí)問(wèn)題。為克服上述方法的不足,潘耀宗等[18]將深度強(qiáng)化學(xué)習(xí)(Deep reinforcement learning)引入U(xiǎn)AV自主空戰(zhàn)機(jī)動(dòng)決策研究中,提出了一種基于深度Q網(wǎng)絡(luò)(Deep Q-network)的雙網(wǎng)絡(luò)智能決策方法,有效解決了UAV向己方攻擊區(qū)自主機(jī)動(dòng)的決策問(wèn)題。馮志峰等[19]為了克服無(wú)人機(jī)在通信中斷情形下無(wú)法有效執(zhí)行作戰(zhàn)任務(wù)的問(wèn)題,提出一種基于規(guī)則推理的UAV自主決策方法。該方法采用事實(shí)與作戰(zhàn)規(guī)則對(duì)比匹配的方法,推理得到對(duì)應(yīng)的決策策略。任天助等[20]通過(guò)模擬人的情感決策過(guò)程提出了一種基于情感智能的決策方法,并將該方法應(yīng)用于求解無(wú)人機(jī)航路規(guī)劃和威脅規(guī)避的自主決策問(wèn)題。但該方法考慮的模型較為簡(jiǎn)單,在實(shí)際應(yīng)用中還有待提高。另外,在進(jìn)行Q學(xué)習(xí)的數(shù)據(jù)樣本設(shè)計(jì)過(guò)于理想化,使得學(xué)習(xí)出來(lái)的經(jīng)驗(yàn)不具有普適性。李維等[21]以構(gòu)建規(guī)則庫(kù)的形式,提出了一種基于知識(shí)庫(kù)的自主決策方法。該方法借助貝葉斯網(wǎng)絡(luò)模擬人態(tài)勢(shì)的認(rèn)知,借助規(guī)則進(jìn)行決策,并利用實(shí)體的狀態(tài)變遷來(lái)控制流程,從而實(shí)現(xiàn)無(wú)人機(jī)的自主決策。
空戰(zhàn)機(jī)動(dòng)決策的最終決策量往往為當(dāng)前或未來(lái)一段時(shí)間內(nèi)空戰(zhàn)態(tài)勢(shì)下最優(yōu)的機(jī)動(dòng)動(dòng)作控制量,因此空戰(zhàn)態(tài)勢(shì)評(píng)估是UCAV機(jī)動(dòng)決策的基礎(chǔ),在空戰(zhàn)中將為UCAV的機(jī)動(dòng)決策提供重要信息支撐。但是空戰(zhàn)態(tài)勢(shì)信息具有高度的抽象性、模糊性以及難解釋性[22-23],因此合理的表達(dá)態(tài)勢(shì)信息是關(guān)鍵。文獻(xiàn)[24-25]利用貝葉斯推理的方法將空戰(zhàn)態(tài)勢(shì)劃分為4種,基于態(tài)勢(shì)評(píng)分結(jié)果給出了變權(quán)重的機(jī)動(dòng)決策函數(shù),但是在態(tài)勢(shì)評(píng)估過(guò)程中卻沒(méi)有考慮高度和速度因素。文獻(xiàn)[26]提出一種基于決策樹(shù)模型的空戰(zhàn)態(tài)勢(shì)評(píng)估方法,能夠快速對(duì)空戰(zhàn)態(tài)勢(shì)進(jìn)行分類(lèi),但是決策樹(shù)中節(jié)點(diǎn)屬性的排序受樣本影響較大。由于模糊推理在描述模糊信息時(shí)具有獨(dú)特的優(yōu)勢(shì)[14,22-23],通過(guò)設(shè)計(jì)推理規(guī)則,能夠?qū)⒛:摹㈦y以描述的空戰(zhàn)態(tài)勢(shì)信息轉(zhuǎn)化為確定性的推理結(jié)果,因此本文提出了一種基于模糊推理的視距空戰(zhàn)機(jī)動(dòng)決策方法。
現(xiàn)代空戰(zhàn)由感知和攻擊兩個(gè)重要部分組成,感知主要是指獲取敵機(jī)及戰(zhàn)場(chǎng)態(tài)勢(shì)信息,解決的是“看”的問(wèn)題;攻擊是指對(duì)敵機(jī)發(fā)射空空導(dǎo)彈,解決的是“打”的問(wèn)題,因此空戰(zhàn)機(jī)動(dòng)決策是一個(gè)“邊看邊打”的過(guò)程,即感知和攻擊相互耦合。機(jī)動(dòng)決策屬于攻擊范疇,但很大程度上依賴(lài)于戰(zhàn)場(chǎng)態(tài)勢(shì)信息和目標(biāo)信息的感知結(jié)果。本文的空戰(zhàn)場(chǎng)景為1vs.1近距格斗空戰(zhàn),在近距格斗場(chǎng)景下假設(shè)戰(zhàn)場(chǎng)態(tài)勢(shì)感知等級(jí)為全局透明態(tài)勢(shì),即空戰(zhàn)雙方均可以獲取對(duì)手高精度、高刷新率的態(tài)勢(shì)信息,依據(jù)透明的態(tài)勢(shì)信息可以輔助UCAV對(duì)敵機(jī)的意圖及位置做出預(yù)測(cè)??諔?zhàn)雙方為紅藍(lán)UCAV,紅方代表我機(jī),藍(lán)方代表敵機(jī),雙機(jī)攜載相同類(lèi)型的近距空空導(dǎo)彈。空戰(zhàn)雙方做出合理的機(jī)動(dòng)決策盡可能構(gòu)成發(fā)射條件同時(shí)避免落入對(duì)手的導(dǎo)彈不可逃逸區(qū)??諔?zhàn)場(chǎng)景如圖1所示。
圖1 空戰(zhàn)場(chǎng)景示意圖Fig.1 Diagram of an air combat scene
UCAV利用感知能力獲取空戰(zhàn)態(tài)勢(shì)信息和敵機(jī)狀態(tài)信息。通過(guò)態(tài)勢(shì)信息,計(jì)算角度、距離、速度及高度的優(yōu)勢(shì)因子;同時(shí)根據(jù)模糊規(guī)則,對(duì)空戰(zhàn)態(tài)勢(shì)進(jìn)行評(píng)估,將空戰(zhàn)態(tài)勢(shì)輸入模糊推理機(jī),從而自適應(yīng)地調(diào)整優(yōu)勢(shì)函數(shù)中各因子的權(quán)重。優(yōu)勢(shì)因子與自適應(yīng)權(quán)值相結(jié)合構(gòu)成機(jī)動(dòng)決策的目標(biāo)函數(shù)。在機(jī)動(dòng)決策時(shí),利用決策機(jī)動(dòng)、序列機(jī)動(dòng)和慣性機(jī)動(dòng)相結(jié)合的方法預(yù)測(cè)敵機(jī)位置。最后根據(jù)決策算法,選擇使空戰(zhàn)優(yōu)勢(shì)函數(shù)最大化的機(jī)動(dòng)動(dòng)作,完成機(jī)動(dòng)決策,并更新空戰(zhàn)態(tài)勢(shì)??諔?zhàn)機(jī)動(dòng)決策流程如圖2所示。
圖2 空戰(zhàn)機(jī)動(dòng)決策流程Fig.2 Air combat maneuver decision process
在本文中,UCAV指具有自動(dòng)駕駛儀的固定翼無(wú)人機(jī),在慣性坐標(biāo)系中建立飛機(jī)三自由度運(yùn)動(dòng)模型[25],并用質(zhì)點(diǎn)模型描述UCAV的運(yùn)動(dòng)學(xué)方程為
為了簡(jiǎn)化,假設(shè)飛機(jī)在無(wú)側(cè)滑中飛行,同時(shí)推力矢量方向、速度矢量方向及機(jī)頭指向3者始終保持一致,則在航跡坐標(biāo)系中UCAV的動(dòng)力學(xué)方程為
式中:x、y、z分別為無(wú)人機(jī)的質(zhì)心在慣性坐標(biāo)系中的坐標(biāo);V為機(jī)體坐標(biāo)系中無(wú)人機(jī)的速度大??;θ、ψ分別為慣性坐標(biāo)系中無(wú)人機(jī)的俯仰角、偏航角;g為無(wú)人機(jī)的重力加速度;nx、ny、γ分別為切向過(guò)載、法向過(guò)載以及由升降舵和副翼耦合控制的滾轉(zhuǎn)角。切向過(guò)載與無(wú)人機(jī)的阻力和油門(mén)控制的發(fā)動(dòng)機(jī)的推力有關(guān),其方向?yàn)闄C(jī)頭方向;法向過(guò)載與升力有關(guān),其方向?yàn)闄C(jī)身對(duì)稱(chēng)面內(nèi)垂直于機(jī)頭方向。因此控制模型的狀態(tài)向量為S=[x,y,z,V,θ,ψ],控制向量為C=[nx,ny,γ]。本文中定義姿態(tài)角的取值范圍均為[-π,π],其中偏航角右偏為正,滾轉(zhuǎn)角右滾為正,俯仰角抬頭為正,法向過(guò)載機(jī)身對(duì)稱(chēng)面內(nèi)向上為正,切向過(guò)載機(jī)頭方向?yàn)檎?。UCAV的動(dòng)力學(xué)模型如圖3所示。
圖3 UCAV動(dòng)力學(xué)模型示意圖Fig.3 Schematic diagram of UCAV dynamics model
在已知飛機(jī)初始狀態(tài)和控制向量的情況下,根據(jù)四階龍格庫(kù)塔方程,即可求解式(1,2)中的微分方程,從而得到飛機(jī)的運(yùn)動(dòng)狀態(tài)。為了保證UCAV在飛行過(guò)程中的可靠性,狀態(tài)量和控制量必須滿(mǎn)足如下限制
根據(jù)UCAV的飛行狀態(tài),文獻(xiàn)[13-14]提出了7種基本機(jī)動(dòng)動(dòng)作,組成UCAV的機(jī)動(dòng)動(dòng)作庫(kù),分別為勻速平飛、最大過(guò)載加速、最大過(guò)載減速、最大過(guò)載爬升、最大過(guò)載俯沖、最大過(guò)載左轉(zhuǎn)彎、最大過(guò)載右轉(zhuǎn)彎。但是這與實(shí)際的UCAV飛行并不完全相符,UCAV難以持續(xù)采用最大過(guò)載飛行。因此,為了更真實(shí)地反應(yīng)UCAV的機(jī)動(dòng)動(dòng)作,本文將平飛、爬升、俯沖、左轉(zhuǎn)彎、右轉(zhuǎn)彎5種基本機(jī)動(dòng)動(dòng)作豐富為勻速、加速、減速機(jī)動(dòng),最終機(jī)動(dòng)動(dòng)作庫(kù)被擴(kuò)充為15種。在空戰(zhàn)過(guò)程中,UCAV的復(fù)雜機(jī)動(dòng)動(dòng)作如螺旋爬升,蛇形機(jī)動(dòng)、眼鏡蛇機(jī)動(dòng)等均可由15種基本機(jī)動(dòng)動(dòng)作組合而成。機(jī)動(dòng)動(dòng)作庫(kù)的名稱(chēng)及控制向量如表1所示。
表1 機(jī)動(dòng)動(dòng)作庫(kù)Table1 Names and control vectors of maneuver action library
在空戰(zhàn)機(jī)動(dòng)決策中,對(duì)敵機(jī)位置的預(yù)測(cè)將對(duì)空戰(zhàn)結(jié)果產(chǎn)生重要影響??諔?zhàn)戰(zhàn)場(chǎng)瞬息萬(wàn)變,更加強(qiáng)調(diào)空戰(zhàn)決策的實(shí)時(shí)性,同時(shí)機(jī)動(dòng)決策要有一定的前瞻性,因此需要UCAV能夠快速準(zhǔn)確地預(yù)測(cè)敵機(jī)可能到達(dá)的位置。為了降低敵機(jī)位置預(yù)測(cè)模型的復(fù)雜度,本文在文獻(xiàn)[25]的預(yù)測(cè)模型上進(jìn)行改進(jìn),將敵機(jī)的機(jī)動(dòng)視為3部分組成,分別是決策機(jī)動(dòng)、序列機(jī)動(dòng)和慣性機(jī)動(dòng)。決策機(jī)動(dòng)是指當(dāng)前態(tài)勢(shì)下敵機(jī)具有一定的智能,自主決策對(duì)我機(jī)優(yōu)勢(shì)最大的機(jī)動(dòng)動(dòng)作。序列機(jī)動(dòng)是指控制向量保持不變的機(jī)動(dòng)動(dòng)作。機(jī)動(dòng)動(dòng)作在一段時(shí)間序列內(nèi)可以認(rèn)為是恒定的,在一個(gè)完整的機(jī)動(dòng)動(dòng)作中UCAV不傾向于突然的改變機(jī)動(dòng)動(dòng)作,如盤(pán)旋機(jī)動(dòng)可視為連續(xù)的轉(zhuǎn)彎?rùn)C(jī)動(dòng),筋斗機(jī)動(dòng)可視為連續(xù)的爬升機(jī)動(dòng)等。慣性機(jī)動(dòng)是指UCAV在慣性作用下不施加任何控制量,即UCAV有保持慣性的傾向,可將其視為平飛機(jī)動(dòng)。UCAV在飛行過(guò)程中平飛占比最大,2個(gè)機(jī)動(dòng)動(dòng)作之間需要有平飛機(jī)動(dòng)作為銜接,只有當(dāng)戰(zhàn)術(shù)需要時(shí)才會(huì)改成平飛狀態(tài)。在敵方飛機(jī)的機(jī)動(dòng)決策上,本文認(rèn)為決策機(jī)動(dòng)在3種機(jī)動(dòng)中占比最高,敵方總傾向于選擇當(dāng)前態(tài)勢(shì)下最有利于增加優(yōu)勢(shì)的機(jī)動(dòng)動(dòng)作?;谝陨戏治?,得到敵機(jī)的預(yù)測(cè)位置為
式中:pe為敵機(jī)的預(yù)測(cè)位置;p1代表敵機(jī)做慣性機(jī)動(dòng)后的位置,控制量為平飛機(jī)動(dòng);pk代表敵機(jī)做序列機(jī)動(dòng)后的位置,控制量與敵機(jī)的上一機(jī)動(dòng)動(dòng)作保持相同;ps代表敵機(jī)做決策機(jī)動(dòng)后的位置;ω1、ωk、ωs代表對(duì)應(yīng)機(jī)動(dòng)動(dòng)作的權(quán)重系數(shù)。因?yàn)閜s代表決策機(jī)動(dòng),所以ωs的權(quán)重要比ω1、ωk更大。
在空戰(zhàn)中UCAV根據(jù)獲取的戰(zhàn)場(chǎng)態(tài)勢(shì)信息來(lái)做出機(jī)動(dòng)決策,因此對(duì)戰(zhàn)場(chǎng)態(tài)勢(shì)信息進(jìn)行合理的建模將對(duì)決策結(jié)果產(chǎn)生重要影響。空戰(zhàn)態(tài)勢(shì)信息可以用態(tài)勢(shì)向量Θ表示,Θ=(A,R,V,Δz)。A指代敵我方位,R指代由敵方位置坐標(biāo)指向我方位置坐標(biāo)的距離矢量,V代指UCAV的速度,Δz表示高度差,具體指紅方高度減藍(lán)方高度。其中敵我方位信息A由兩部分組成,分別是目標(biāo)方位角α1和目標(biāo)進(jìn)入角α2。α1指以R為基準(zhǔn)到敵機(jī)(藍(lán)方)速度矢量Vb的夾角,α2指以R為基準(zhǔn)到我機(jī)(紅方)速度矢量Vr的夾角。本文規(guī)定α1和α2均取正角度,其取值范圍為[0,π]。態(tài)勢(shì)向量Θ如圖4所示。
圖4 空戰(zhàn)態(tài)勢(shì)向量Fig.4 Air combat situation vector
2.1.1 角度優(yōu)勢(shì)因子
設(shè)角度優(yōu)勢(shì)因子為μA(α),表達(dá)式為
式中:下標(biāo)為r的代表我機(jī)參數(shù),下標(biāo)為b的代表敵機(jī)參數(shù)。從式(5)可以看出,當(dāng)我機(jī)處于敵機(jī)尾后攻擊態(tài)勢(shì)時(shí),角度優(yōu)勢(shì)取得最大值1;當(dāng)我機(jī)處于被敵機(jī)咬尾態(tài)勢(shì)時(shí),角度優(yōu)勢(shì)取得最小值0。圖5顯示了角度優(yōu)勢(shì)為0和1時(shí)的空戰(zhàn)場(chǎng)景示意圖。
圖5 角度優(yōu)勢(shì)為0和1時(shí)空戰(zhàn)場(chǎng)景示意圖Fig.5 Schematic of the air combat scenario when the angle advantage is0and1
2.1.2 距離優(yōu)勢(shì)因子
設(shè)距離優(yōu)勢(shì)因子為μR(|R|)。假設(shè)UCAV的不可逃逸區(qū) 為[Rmin,Rmax],Rmin代 表不可逃逸區(qū)距離下界,Rmax代表上界,只有當(dāng)兩機(jī)距離|R|∈[Rmin,Rmax]時(shí)導(dǎo)彈才有可能擊中目標(biāo)。因此,設(shè)定距離優(yōu)勢(shì)因子為
當(dāng)敵機(jī)處于我機(jī)導(dǎo)彈不可逃逸區(qū)之內(nèi)時(shí),距離優(yōu)勢(shì)取得最大值1,當(dāng)超出導(dǎo)彈不可逃逸區(qū)時(shí)距離優(yōu)勢(shì)關(guān)于兩機(jī)距離呈正態(tài)分布。
2.1.3 速度優(yōu)勢(shì)因子
設(shè)速度優(yōu)勢(shì)因子為μV(|V|)。在定義速度優(yōu)勢(shì)因子前首先需要定義UCAV最佳攻擊速度|V*|,當(dāng)敵機(jī)處于我機(jī)導(dǎo)彈不可逃逸區(qū)之內(nèi)時(shí),最佳攻擊速度|V*|取敵機(jī)速度|Vb|,當(dāng)敵機(jī)處于導(dǎo)彈不可逃逸區(qū)之外時(shí)應(yīng)進(jìn)行加速或者減速來(lái)使敵機(jī)盡快進(jìn)入不可逃逸區(qū),因此|V*|表示為
則速度優(yōu)勢(shì)因子μV(|V|)可以表示為
2.1.4 高度優(yōu)勢(shì)因子
設(shè)高度優(yōu)勢(shì)因子為μH(Δz),設(shè)敵我雙方UCAV高度差為
為了占據(jù)發(fā)射導(dǎo)彈時(shí)的高度優(yōu)勢(shì),我機(jī)必然要提升Δz,設(shè)定最佳高度差是一段區(qū)間[h*,h*+σh],當(dāng)Δz處于該區(qū)間時(shí)高度優(yōu)勢(shì)因子均取得最大值1。因此,高度優(yōu)勢(shì)因子表達(dá)式為
綜上,綜合分析角度、距離、速度、高度4種優(yōu)勢(shì)因子,UCAV的空戰(zhàn)綜合優(yōu)勢(shì)為
式(15)被稱(chēng)為UCAV空戰(zhàn)優(yōu)勢(shì)函數(shù),式中ωA、ωR、ωV、ωH分別代表角度、距離、速度、高度4種優(yōu)勢(shì)因子的權(quán)重。傳統(tǒng)的空戰(zhàn)態(tài)勢(shì)評(píng)估研究中,更多的是比較敵機(jī)優(yōu)勢(shì)值μb和我機(jī)優(yōu)勢(shì)值μr的大小,通過(guò)兩者的差值μr-μb來(lái)反應(yīng)我機(jī)空戰(zhàn)優(yōu)勢(shì)的大小。但是當(dāng)兩機(jī)優(yōu)勢(shì)值都非常小時(shí)用差值很難真實(shí)地體現(xiàn)兩機(jī)優(yōu)勢(shì)的差距,因此選用兩機(jī)優(yōu)勢(shì)函數(shù)的比值μ′來(lái)反映我機(jī)對(duì)敵機(jī)的優(yōu)勢(shì),表達(dá)式為
式(16)被稱(chēng)之為機(jī)動(dòng)決策函數(shù)。就紅方而言,式中μr代表紅方每個(gè)機(jī)動(dòng)動(dòng)作對(duì)藍(lán)方預(yù)測(cè)機(jī)動(dòng)的優(yōu)勢(shì),μb代表藍(lán)方的預(yù)測(cè)機(jī)動(dòng)對(duì)紅方每個(gè)機(jī)動(dòng)動(dòng)作的優(yōu)勢(shì)。式(16)的物理意義就是紅方UCAV從機(jī)動(dòng)動(dòng)作庫(kù)中選擇下一個(gè)決策時(shí)刻機(jī)動(dòng)決策函數(shù)最大的機(jī)動(dòng)動(dòng)作。
式(15)中優(yōu)勢(shì)函數(shù)的權(quán)重因子隨空戰(zhàn)態(tài)勢(shì)的變化而發(fā)生變化,目的是建立一個(gè)隨空戰(zhàn)態(tài)勢(shì)而變的動(dòng)態(tài)優(yōu)勢(shì)函數(shù),從而更好地指導(dǎo)UCAV做出機(jī)動(dòng)決策??諔?zhàn)是一個(gè)高對(duì)抗性、高復(fù)雜性的過(guò)程,文獻(xiàn)[25]將空戰(zhàn)態(tài)勢(shì)劃分為我方優(yōu)勢(shì)、我方劣勢(shì)、共同安全和共同危險(xiǎn)4種,并在4種空戰(zhàn)態(tài)勢(shì)下設(shè)計(jì)了不同的變權(quán)重優(yōu)勢(shì)函數(shù)。但是空戰(zhàn)態(tài)勢(shì)反映的是敵我關(guān)系,往往是充滿(mǎn)模糊性、動(dòng)態(tài)化、多樣化的,因此文獻(xiàn)[25]中的4種空戰(zhàn)態(tài)勢(shì)難以全面地描述戰(zhàn)場(chǎng)態(tài)勢(shì),并且在態(tài)勢(shì)劃分時(shí)只考慮了角度和距離因素。
模糊決策是對(duì)受多種因素影響的事物做出全面評(píng)價(jià)的一種十分有效的多因素決策方法,其特點(diǎn)是評(píng)價(jià)結(jié)果不是絕對(duì)地肯定或否定,而是以一個(gè)模糊集合來(lái)表示。同時(shí),模糊決策可以根據(jù)專(zhuān)家控制經(jīng)驗(yàn)制定相應(yīng)的決策規(guī)則,決策過(guò)程中輸出參數(shù)可隨輸入的變化在一定范圍內(nèi)動(dòng)態(tài)調(diào)整,具有更好的多樣性、動(dòng)態(tài)性和適用性。因此本文用模糊決策的方法來(lái)確定變權(quán)重優(yōu)勢(shì)函數(shù)中的權(quán)重因子。完整的模糊決策流程通常由輸入輸出變量模糊化、設(shè)計(jì)隸屬度函數(shù)、建立模糊規(guī)則庫(kù)及解模糊等步驟組成。
(1)輸入輸出模糊化及隸屬度函數(shù)設(shè)計(jì)
基于空戰(zhàn)態(tài)勢(shì)的模糊推理機(jī)共有4個(gè)輸入,4個(gè)輸出,輸入為角度、距離、速度、高度優(yōu)勢(shì)因子,輸出為角度、距離、速度、高度權(quán)重因子。依據(jù)專(zhuān)家經(jīng)驗(yàn),各輸入輸出的模糊語(yǔ)言子集如下所列。
①角度模糊優(yōu)勢(shì)因子
②距離模糊優(yōu)勢(shì)因子
③速度模糊優(yōu)勢(shì)因子
④高度模糊優(yōu)勢(shì)因子
⑤角度、距離、速度、高度權(quán)重因子
式中:PB、PM、M、NM、NB、IN、OUT、P、N均為模糊語(yǔ)言,代表對(duì)應(yīng)輸入輸出的模糊化表示;下標(biāo)i分別代表A、R、V、E;ωi代表解模糊后的精確輸出量;ωˉi代表模糊輸出量,EA、ER、EV、EH分別代表模糊化后的輸入量。式(17~21)中既包含了各輸入輸出的模糊量,又包含了各模糊量的隸屬度函數(shù)。本文全部采用矩形隸屬度函數(shù)和單點(diǎn)隸屬度函數(shù),即各輸入量對(duì)應(yīng)某一模糊量下的隸屬度僅為0或1,且同一輸入量的各隸屬度函數(shù)之間無(wú)交集,這樣做是為了降低模糊推理計(jì)算的復(fù)雜度,便于根據(jù)模糊規(guī)則快速進(jìn)行輸入到輸出的映射,符合空戰(zhàn)實(shí)時(shí)性的要求。
(2)模糊推理規(guī)則設(shè)計(jì)
依據(jù)專(zhuān)家經(jīng)驗(yàn),得到樹(shù)狀的模糊推理規(guī)則如圖6所示,其中共包含32條推理規(guī)則,依次編號(hào)為Wi(i=1,2,…,32),下標(biāo)i表示第i條規(guī)則,同樣對(duì)應(yīng)32種空戰(zhàn)態(tài)勢(shì)。
圖6 模糊規(guī)則樹(shù)Fig.6 Fuzzy rule tree
模糊規(guī)則的制定遵循了如下專(zhuān)家經(jīng)驗(yàn):①當(dāng)我方UCAV在某一模糊優(yōu)勢(shì)因子上出現(xiàn)了明顯短板時(shí)要盡可能地選擇彌補(bǔ)該短板的機(jī)動(dòng)動(dòng)作來(lái)迅速增加我方優(yōu)勢(shì)。如態(tài)勢(shì)W2下,我方UCAV在角度、距離、速度上均占據(jù)優(yōu)勢(shì),但是高度上卻處于劣勢(shì),因此在進(jìn)行機(jī)動(dòng)決策時(shí)應(yīng)該增加高度優(yōu)勢(shì)的權(quán)重。②當(dāng)角度優(yōu)勢(shì)較大時(shí)應(yīng)該持續(xù)增加角度優(yōu)勢(shì),以希望迅速構(gòu)成空空導(dǎo)彈的發(fā)射條件。如態(tài)勢(shì)W10下,我方UCAV角度優(yōu)勢(shì)較大,同時(shí)高度處于劣勢(shì),因此在進(jìn)行機(jī)動(dòng)決策時(shí)不只要迅速提升高度,更要增加角度優(yōu)勢(shì),希望我方UCAV在角度上能夠達(dá)到較大優(yōu)勢(shì)。③當(dāng)我方UCAV角度優(yōu)勢(shì)小或較小時(shí),應(yīng)該采取逃逸策略,盡可能地增加高度優(yōu)勢(shì),減小距離優(yōu)勢(shì),目的是增大與敵方UCAV的距離,從而逃離敵方的導(dǎo)彈不可逃逸區(qū)。如態(tài)勢(shì)W20下,我方UCAV角度不占優(yōu)勢(shì),同時(shí)有距離優(yōu)勢(shì),這時(shí)的機(jī)動(dòng)決策應(yīng)該擯棄距離優(yōu)勢(shì),轉(zhuǎn)而增加高度和速度優(yōu)勢(shì)。
(3)解模糊得到優(yōu)勢(shì)函數(shù)權(quán)重因子
根據(jù)模糊規(guī)則,輸出的模糊量需要去模糊化轉(zhuǎn)換為精確量,本文采用重心法去模糊化[27],表達(dá)式為
式中:μ(z)為輸出量z所在模糊集合的隸屬度函數(shù);z0為模糊推理得到的精確量。z0的范圍可能和實(shí)際輸出的數(shù)值范圍不一致,還需要進(jìn)行論域變換,如式(11)所示。
式中:k=(umax-umin)/(zmax-zmin)為比例分子;[umin,umax]為實(shí)際控制量的變化范圍;[zmin,zmax]為z0的變化范圍。
綜上,從模糊推理機(jī)的輸入量得到輸出量的具體過(guò)程如下:
步驟1根據(jù)式(17~21)中的隸屬度函數(shù)將精確輸入量轉(zhuǎn)化為模糊輸入量。
步驟2根據(jù)圖5模糊規(guī)則樹(shù)中包含的32條規(guī)則,將模糊輸入量映射為模糊輸出量;由于本文所設(shè)計(jì)的各輸入的不同模糊量隸屬度函數(shù)間并無(wú)交集,因此無(wú)需進(jìn)行復(fù)雜的模糊蘊(yùn)含關(guān)系計(jì)算即可由模糊輸入量映射得到模糊輸出量。
步驟3根據(jù)式(22~23),計(jì)算解模糊后的精確輸出量,得到當(dāng)前空戰(zhàn)態(tài)勢(shì)下的優(yōu)勢(shì)函數(shù)權(quán)重因子ω,表達(dá)式為
式中優(yōu)勢(shì)函數(shù)權(quán)重因子ω的物理意義為UCAV選擇機(jī)動(dòng)動(dòng)作的傾向性。
機(jī)動(dòng)決策時(shí)采用試探機(jī)動(dòng)的方法,即基于敵機(jī)的位置預(yù)測(cè)和態(tài)勢(shì)評(píng)估模型,我方UCAV依次遍歷機(jī)動(dòng)動(dòng)作庫(kù),并對(duì)機(jī)動(dòng)動(dòng)作執(zhí)預(yù)行之后的機(jī)動(dòng)決策函數(shù)進(jìn)行計(jì)算,選取決策函數(shù)值最大的機(jī)動(dòng)動(dòng)作,將其作為當(dāng)前時(shí)刻的決策機(jī)動(dòng)。敵方UCAV采用同樣的決策算法,但是敵方UCAV選擇決策機(jī)動(dòng)的概率為1.4 小節(jié)中的ωs,同時(shí)還分別有ω1、ωk的概率選擇慣性機(jī)動(dòng)和序列機(jī)動(dòng)。
為了衡量紅藍(lán)雙方的空戰(zhàn)優(yōu)勢(shì),本文設(shè)計(jì)了一個(gè)空戰(zhàn)裁判系統(tǒng),根據(jù)裁判函數(shù)μc來(lái)判斷紅藍(lán)雙方的勝負(fù)。μc代表了UCAV4種優(yōu)勢(shì)因子的總和,表達(dá)式為
不同于式(15)中的UCAV空戰(zhàn)優(yōu)勢(shì)函數(shù),由于UCAV要根據(jù)當(dāng)前空戰(zhàn)態(tài)勢(shì)適應(yīng)性地做出最有利于己方的機(jī)動(dòng)動(dòng)作,因此UCAV空戰(zhàn)優(yōu)勢(shì)函數(shù)中優(yōu)勢(shì)因子的權(quán)重應(yīng)隨態(tài)勢(shì)變化。但是就裁判系統(tǒng)而言,紅藍(lán)雙方綜合優(yōu)勢(shì)的評(píng)判標(biāo)準(zhǔn)在各種空戰(zhàn)態(tài)勢(shì)下應(yīng)保持統(tǒng)一,因此將裁判函數(shù)中各優(yōu)勢(shì)因子設(shè)置為等值定權(quán)重。同時(shí),本文將裁判函數(shù)作為空戰(zhàn)結(jié)束的中斷條件,當(dāng)有一方UCAV的綜合優(yōu)勢(shì)達(dá)到指定閾值c時(shí)空戰(zhàn)結(jié)束,代表該UCAV獲勝。
機(jī)動(dòng)決策算法的偽代碼如下。
(1)初始化任務(wù)參數(shù)
(2)foriin range(total_step):
(4) 空戰(zhàn)結(jié)束
(5)else:空戰(zhàn)未結(jié)束(式(23))
(6) 根據(jù)當(dāng)前空戰(zhàn)態(tài)勢(shì),利用模糊推理機(jī),計(jì)算紅藍(lán)UCAV優(yōu)勢(shì)函數(shù)中的權(quán)重因子
(7) 紅 方UCAV位 置 預(yù)測(cè),藍(lán)方UCAV位 置預(yù)測(cè)(式(4))
(8) 紅方UCAV計(jì)算試探機(jī)動(dòng)后空戰(zhàn)態(tài)勢(shì),藍(lán)方UCAV計(jì)算試探機(jī)動(dòng)后空戰(zhàn)態(tài)勢(shì)(式(15))
(9) 紅方UCAV選擇機(jī)動(dòng)動(dòng)作,藍(lán)方UCAV選擇機(jī)動(dòng)動(dòng)作(式(16))
(10) 紅方UCAV執(zhí)行機(jī)動(dòng)動(dòng)作,藍(lán)方UCAV執(zhí)行機(jī)動(dòng)動(dòng)作(式(1,2))
(11) 空戰(zhàn)狀態(tài)更新(式(1,2))
(12)i+=k
在偽代碼中,i代表空戰(zhàn)時(shí)長(zhǎng),k代表UCAV的機(jī)動(dòng)動(dòng)作執(zhí)行時(shí)長(zhǎng),total_step代表設(shè)定的空戰(zhàn)總時(shí)長(zhǎng),和代表紅藍(lán)UCAV的空戰(zhàn)綜合優(yōu)勢(shì),c代表空戰(zhàn)結(jié)束的綜合優(yōu)勢(shì)閾值。
為了驗(yàn)證本文方法的有效性,本節(jié)對(duì)其進(jìn)行仿真驗(yàn)證。仿真環(huán)境為AMD-RYZEN5,主頻2.60 GHz,16GB內(nèi)存,基于Python3.7 為平臺(tái)進(jìn)行仿真實(shí)驗(yàn)。實(shí)驗(yàn)初始化參數(shù)如表2所示。
表2 空戰(zhàn)仿真實(shí)驗(yàn)初始化參數(shù)Table2 Initialized parameters of air combat simulation experiment
在仿真實(shí)驗(yàn)中,紅藍(lán)雙方UCAV戰(zhàn)場(chǎng)信息的感知能力、武器性能及飛機(jī)機(jī)動(dòng)性能均相同。
本實(shí)驗(yàn)為了比較機(jī)動(dòng)動(dòng)作庫(kù)對(duì)UCAV空戰(zhàn)能力的影響,紅方UCAV采用本文設(shè)計(jì)的機(jī)動(dòng)動(dòng)作庫(kù),包含15種機(jī)動(dòng)動(dòng)作,藍(lán)方UCAV采用文獻(xiàn)[13]的機(jī)動(dòng)動(dòng)作庫(kù),包含7種機(jī)動(dòng)動(dòng)作。紅方UCAV的 初 始 狀 態(tài) 向 量Sr=[0,0,7000,200,0,-π/2],即初始位置坐標(biāo)為(0,0,7000),初始速度200m/s,初始俯仰角為0,初始航向角為-π/2。藍(lán)方UCAV的初始狀態(tài)向量Sb=[0,5000,7800,200,0,-π/2],即初始位置坐標(biāo)為(0,5000,7800),初始速度200m/s,初始俯仰角為0,初始航向角為-π/2??諔?zhàn)軌跡如圖7所示。
圖7 場(chǎng)景1空戰(zhàn)軌跡圖Fig.7 Air combat trajectory diagram of scenario1
初始狀態(tài)紅藍(lán)UCAV處于均勢(shì)狀態(tài),但是藍(lán)方UCAV高度上占優(yōu),因此紅方UCAV選擇爬升,迅速?gòu)浹a(bǔ)高度上的劣勢(shì),藍(lán)方UCAV采用左轉(zhuǎn)彎并進(jìn)行俯沖,期望將高度優(yōu)勢(shì)轉(zhuǎn)化為速度優(yōu)勢(shì)。緊接著紅方UCAV向藍(lán)方UCAV一側(cè)斜拉起并進(jìn)行小半徑右轉(zhuǎn)彎,迅速將機(jī)頭對(duì)準(zhǔn)敵機(jī)獲取角度優(yōu)勢(shì)并進(jìn)行俯沖,保持角度優(yōu)勢(shì)的同時(shí)增加速度優(yōu)勢(shì),而藍(lán)方UCAV的轉(zhuǎn)彎半徑較大,航向調(diào)整較慢,最終紅方UCAV的綜合優(yōu)勢(shì)率先達(dá)到閾值,紅方取得空戰(zhàn)勝利。整個(gè)空戰(zhàn)過(guò)程中紅藍(lán)UCAV綜合優(yōu)勢(shì)的變化圖如圖8所示。
圖8 場(chǎng)景1紅藍(lán)UCAV空戰(zhàn)綜合優(yōu)勢(shì)變化圖Fig.8 Graph of red and blue UCAV air combat comprehensive advantage of scenario1
仿真實(shí)驗(yàn)結(jié)果表明,采用擴(kuò)充后的機(jī)動(dòng)動(dòng)作庫(kù)能夠增加UCAV在空戰(zhàn)中的機(jī)動(dòng)性,從而根據(jù)空戰(zhàn)態(tài)勢(shì)迅速地達(dá)到優(yōu)勢(shì)占位,達(dá)到先敵制勝。
本實(shí)驗(yàn)為了驗(yàn)證本文態(tài)勢(shì)評(píng)估模型在機(jī)動(dòng)決策中的有效性,紅方UCAV采用本文提出的基于模糊推理的態(tài)勢(shì)評(píng)估模型,藍(lán)方UCAV采用文獻(xiàn)[21]提出的基于貝葉斯網(wǎng)絡(luò)的態(tài)勢(shì)評(píng)估模型。紅方UCAV的優(yōu)勢(shì)函數(shù)共有32種動(dòng)態(tài)權(quán)值,藍(lán)方UCAV的優(yōu)勢(shì)函數(shù)共有4種動(dòng)態(tài)權(quán)值。紅藍(lán)雙方的機(jī)動(dòng)動(dòng)作庫(kù)中均包含15種機(jī)動(dòng)動(dòng)作。
設(shè)計(jì)兩輪仿真實(shí)驗(yàn)。第1輪令紅方UCAV初始時(shí)刻處于被藍(lán)方UCAV咬尾的劣勢(shì)狀態(tài)。紅方UCAV的初始狀態(tài)向量Sr=[3000,0,6500,200,0,-π/2],即初始位置坐標(biāo)為(3000,0,6500),初始速度300m/s,初始俯仰角為0,初始航向角為-π/2。藍(lán)方UCAV的初始狀態(tài) 向 量Sb=[5000,5000,6500,100,0,-3π/4],即初始位置坐標(biāo)為(5000,5000,6500),初始速度100m/s,初始俯仰角為0,初始航向角為-3π/4??諔?zhàn)軌跡如圖9所示。
圖9 場(chǎng)景2空戰(zhàn)軌跡圖Fig.9 Air combat trajectory diagram of scenario2
從空戰(zhàn)軌跡中看出,初始時(shí)刻紅方UCAV被藍(lán)方UCAV咬尾,但是由于紅方速度較快,藍(lán)方速度較慢,所以藍(lán)方雖占據(jù)優(yōu)勢(shì)但是達(dá)不到空戰(zhàn)結(jié)束條件。在被動(dòng)態(tài)勢(shì)下,紅方首先選擇做加速平飛機(jī)動(dòng)進(jìn)行逃逸,目的是迅速增大和藍(lán)方的距離,脫離對(duì)手的導(dǎo)彈射程,而藍(lán)方選擇繼續(xù)尾隨紅方,試圖保持現(xiàn)有優(yōu)勢(shì)。但是紅方占據(jù)速度上的優(yōu)勢(shì),因此在脫離藍(lán)方的導(dǎo)彈最大射程后選擇進(jìn)攻型機(jī)動(dòng),迅速爬升,緊接著做出了半筋斗翻轉(zhuǎn)機(jī)動(dòng),并對(duì)準(zhǔn)敵機(jī)進(jìn)行俯沖將高度優(yōu)勢(shì)轉(zhuǎn)化為速度優(yōu)勢(shì),而藍(lán)方UCAV做出的機(jī)動(dòng)決策明顯要滯后于紅方UCAV,面對(duì)對(duì)手的進(jìn)攻沒(méi)有做出及時(shí)的機(jī)動(dòng)決策,也同樣進(jìn)行俯沖希望彌補(bǔ)初始狀態(tài)時(shí)速度上的劣勢(shì),最終紅方UCAV的綜合優(yōu)勢(shì)率先到達(dá)閾值,空戰(zhàn)以紅方的勝利而告終。整個(gè)空戰(zhàn)過(guò)程中紅藍(lán)UCAV綜合優(yōu)勢(shì)的變化圖如圖10所示。
圖10 場(chǎng)景2紅藍(lán)UCAV空戰(zhàn)綜合優(yōu)勢(shì)變化圖Fig.10 Graph of red and blue UCAV air combat comprehensive advantage of scenario2
第2輪令藍(lán)方UCAV初始時(shí)刻處于被紅方UCAV咬尾的被動(dòng)狀態(tài)。紅方UCAV的初始狀態(tài)向量Sr=[0,3000,7000,100,0,3π/4],即初始位置坐標(biāo)為(0,3000,7000),初始速度100m/s,初始角為0,初始航向角為3π/4。藍(lán)方UCAV的初始狀態(tài)向量Sb=[5000,1000,7000,300,0,π],即初始位置坐標(biāo)為(5000,1000,7000),初始速度300m/s,初始俯仰角為0,初始航向角為π??諔?zhàn)軌跡如圖11所示。
圖11 場(chǎng)景3空戰(zhàn)軌跡圖Fig.11 Air combat trajectory diagram of scenario3
在藍(lán)方UCAV初始狀態(tài)處于劣勢(shì)的情況下選擇了采取右轉(zhuǎn)彎加俯沖的機(jī)動(dòng)動(dòng)作,而紅方UCAV由于初始速度慢因此選擇加速平飛機(jī)動(dòng),試圖增加速度優(yōu)勢(shì)來(lái)達(dá)到全面優(yōu)勢(shì)。藍(lán)方UCAV雖然企圖逃逸,但是目的性不強(qiáng),所做出的機(jī)動(dòng)反應(yīng)沒(méi)有很好地達(dá)到逃逸效果,最終紅方UCAV的綜合優(yōu)勢(shì)率先達(dá)到閾值,空戰(zhàn)以紅方UCAV的勝利而告終。整個(gè)空戰(zhàn)過(guò)程中紅藍(lán)UCAV綜合優(yōu)勢(shì)的變化如圖12所示。
圖12 場(chǎng)景3紅藍(lán)UCAV空戰(zhàn)綜合優(yōu)勢(shì)變化圖Fig.12 Graph of red and blue UCAV air combat comprehensive advantage of scenario3
通過(guò)對(duì)實(shí)驗(yàn)二中2輪仿真結(jié)果的對(duì)比可得,基于模糊推理的態(tài)勢(shì)評(píng)估模型與基于貝葉斯網(wǎng)絡(luò)的抗戰(zhàn)態(tài)勢(shì)評(píng)估模型相比更能提升UCAV的機(jī)動(dòng)決策能力。因?yàn)榍罢吣P椭泻w的空戰(zhàn)態(tài)勢(shì)種類(lèi)更多,更能全面地反應(yīng)實(shí)時(shí)的戰(zhàn)場(chǎng)態(tài)勢(shì),從而有助于指導(dǎo)UCAV做出更加具有針對(duì)性的機(jī)動(dòng)決策。
(1)通過(guò)對(duì)UCAV的機(jī)動(dòng)決策進(jìn)行建模,設(shè)計(jì)機(jī)動(dòng)動(dòng)作庫(kù),引入敵機(jī)位置預(yù)測(cè)模塊,并利用模糊推理機(jī)從角度、距離、速度、高度4個(gè)方面對(duì)空戰(zhàn)態(tài)勢(shì)進(jìn)行評(píng)估,實(shí)現(xiàn)了UCAV在近距空戰(zhàn)場(chǎng)景下的自主機(jī)動(dòng)決策;
(2)改進(jìn)后的機(jī)動(dòng)動(dòng)作庫(kù)與傳統(tǒng)機(jī)動(dòng)動(dòng)作庫(kù)相比,能夠增加UCAV在近距空戰(zhàn)中的機(jī)動(dòng)性能,使機(jī)動(dòng)決策能力提升;
(3)利用基于模糊推理的態(tài)勢(shì)評(píng)估模型,設(shè)計(jì)了32種優(yōu)勢(shì)函數(shù)動(dòng)態(tài)權(quán)重,更加全面地描述空戰(zhàn)態(tài)勢(shì),指導(dǎo)UCAV做出更有針對(duì)性的決策,提升了自主空戰(zhàn)能力。
同時(shí),本文還有以下不足:(1)空戰(zhàn)模型未對(duì)UCAV空空導(dǎo)彈不可逃逸區(qū)進(jìn)行建模,沒(méi)有考慮真實(shí)的導(dǎo)彈不可逃逸區(qū)對(duì)UCAV空戰(zhàn)能力的影響;(2)在敵機(jī)的意圖推斷方面僅僅考慮了位置預(yù)測(cè),而在真實(shí)空戰(zhàn)中敵機(jī)的意圖可能包含欺騙、干擾、戰(zhàn)術(shù)協(xié)同等更高級(jí)的行為,因此與真實(shí)的UCAV空
戰(zhàn)還有一定差距;(3)在機(jī)動(dòng)過(guò)程中未考慮考慮舵機(jī)、作動(dòng)器的位置及速率限制等約束條件。在后續(xù)研究中,應(yīng)該引入導(dǎo)彈不可逃逸區(qū)和更加高級(jí)的敵機(jī)意圖推斷,增加空戰(zhàn)模型的真實(shí)性,同時(shí)應(yīng)該考慮從單機(jī)機(jī)動(dòng)決策向多機(jī)協(xié)同戰(zhàn)術(shù)決策轉(zhuǎn)變。