車競(jìng), 鄭鳳麒
(中國(guó)空氣動(dòng)力研究與發(fā)展中心 計(jì)算空氣動(dòng)力研究所, 四川 綿陽(yáng) 621000)
微分對(duì)策理論是研究利益相互制約的雙方策略選擇的理性行為及相應(yīng)結(jié)局的學(xué)科。1971年,美國(guó)科學(xué)家Friedman采用了兩個(gè)近似離散對(duì)策序列精確定義了微分對(duì)策,建立了微分對(duì)策與鞍點(diǎn)存在性理論,從而奠定了微分對(duì)策理論的數(shù)學(xué)基礎(chǔ)。
由于理論上的最優(yōu)性,微分對(duì)策已廣泛應(yīng)用于戰(zhàn)術(shù)導(dǎo)彈的制導(dǎo)律設(shè)計(jì)。Tahk等人[1]利用梯度法求解了微分對(duì)策制導(dǎo)的數(shù)值解,但模型非常復(fù)雜。Basar等[2]設(shè)計(jì)了離線的神經(jīng)網(wǎng)絡(luò)微分制導(dǎo)律。湯善同[3]利用微分對(duì)策強(qiáng)迫奇異攝動(dòng)方法設(shè)計(jì)了零階組合反饋制導(dǎo)律。羅生等[4]采用伴隨理論求解了終端控制的微分對(duì)策最優(yōu)制導(dǎo)問題??諔?zhàn)決策方面,“一對(duì)一”空戰(zhàn)通常可比擬為二人零和定量微分對(duì)策問題。梅丹等[5]利用微分對(duì)策方法建立了以捕獲時(shí)間tf為性能指標(biāo)的二維單機(jī)追逃空戰(zhàn)的決策模型。王發(fā)坤等[6]建立了三維空間追逃問題的定性微分對(duì)策模型。由于微分對(duì)策模型是典型的兩點(diǎn)邊值問題,數(shù)值求解通常采用梯度迭代法。黃力偉[7]提出了將梯度法和靜態(tài)優(yōu)化算法相結(jié)合的一類數(shù)值解法。泮斌峰等[8]通過終端時(shí)刻調(diào)節(jié)算法求解了終端時(shí)刻tf自由的兩點(diǎn)邊值問題。
本文應(yīng)用微分對(duì)策理論,對(duì)縱向平面內(nèi)導(dǎo)彈-飛機(jī)的追逃問題進(jìn)行了研究,建立了數(shù)學(xué)模型,對(duì)于終端時(shí)刻tf自由的情況,通過內(nèi)外環(huán)兩次迭代得到了數(shù)值解,針對(duì)有控制能量最小要求和無控制能量最小要求兩類性能指標(biāo)下的微分對(duì)策模型,在雙方不同的最大機(jī)動(dòng)能力條件下進(jìn)行了數(shù)值仿真,其模型和仿真結(jié)果可用于空戰(zhàn)雙方武器性能、制導(dǎo)控制設(shè)計(jì)評(píng)估,以及最優(yōu)空戰(zhàn)決策研究。
對(duì)于攻防對(duì)抗的A和B雙方,組成n維系統(tǒng)[8]:
(1)
式中,u(t),v(t)分別為A,B雙方的控制向量。微分對(duì)策即要求解u(t)和v(t),使得在系統(tǒng)滿足終端目標(biāo)集ψ(tf,X(tf))=0的情況下,對(duì)于A方,達(dá)到性能指標(biāo)J最小;對(duì)于B方,達(dá)到性能指標(biāo)J最大。性能指標(biāo)通常采用如下形式:
(2)
(3)
相應(yīng)地,J*稱為最優(yōu)對(duì)策值,X*(t)稱為最優(yōu)跡線。
上述微分對(duì)策問題通常采用極小值原理進(jìn)行求解,首先構(gòu)造哈密頓函數(shù):
H(X,λ,u,v,t)=L+λTf
(4)
式中,λ為哈密頓乘子,求解下述正則方程組可得到問題的最優(yōu)解:
(5)
(6)
若終端時(shí)刻tf不固定,則還必須通過下述條件自然確定tf:
dJ/dt|tf=H(X*,λ*,u*,v*,t)|tf+?φ/?t|tf=0
(7)
(1)置迭代步數(shù)i=0,j=0;
(3)任意選擇uj(t),vj(t)作為初始策略;
(8)更新控制量uj+1(t)=uj(t)-αgu(t),vj+1(t)=vj(t)+βgv(t)(α,β為無限小正數(shù),由一維搜索算法確定),置j=j+1,返回步驟(4);
(10)檢查收斂:當(dāng)dtf≤ε2時(shí),終端時(shí)刻迭代收斂,算法結(jié)束,否則置i=i+1,返回步驟(3)。
考慮一個(gè)縱向平面內(nèi)的導(dǎo)彈-飛機(jī)追逃問題,雙方速度大小不變,速度方向的改變量為控制量,追逐方(導(dǎo)彈,用下標(biāo)D表示)運(yùn)動(dòng)方程為:
(8)
式中,xD,yD,vD,θD分別為導(dǎo)彈的縱橫坐標(biāo)、速度和傾角。逃避方(目標(biāo),用下標(biāo)M表示)運(yùn)動(dòng)方程為:
(9)
式中,xM,yM,vM,θM分別為目標(biāo)的縱橫坐標(biāo)、速度和傾角。令:
(10)
得到雙方縱向平面內(nèi)追逃系統(tǒng)的狀態(tài)方程為:
(11)
設(shè)性能指標(biāo)(支付函數(shù))為:
(12)
圖1 追逃問題的微分對(duì)策仿真結(jié)果1Fig.1 The first differential game simulation results of the pursuit-evasion resistance
在上述性能指標(biāo)中減去控制能量約束,即:
(13)
采用相同的設(shè)置,追逐方(導(dǎo)彈)的最大機(jī)動(dòng)能力是逃避方(目標(biāo))的4倍、1倍、2/3和1/3,雙方軌跡如圖2所示。對(duì)策時(shí)間分別為73.42 s,54.92 s,40.62 s,31.43 s。
圖2 追逃問題的微分對(duì)策仿真結(jié)果2Fig.2 The second differential game results of pursuit-evasion resistance
本文建立了縱向平面內(nèi)空戰(zhàn)雙方追逃對(duì)抗的微分對(duì)策數(shù)學(xué)模型,采用極小值原理和梯度迭代法對(duì)飛機(jī)-導(dǎo)彈縱向平面內(nèi)的追逃問題進(jìn)行了數(shù)值仿真,得到了雙方不同機(jī)動(dòng)能力下的追逃仿真結(jié)果。從仿真結(jié)果可以看出,追逃雙方均以最大機(jī)動(dòng)能力機(jī)動(dòng),當(dāng)雙方最大機(jī)動(dòng)能力之比不同時(shí),得到捕獲、接近或擺脫幾種對(duì)策結(jié)果。微分對(duì)策中,當(dāng)tf自由時(shí),其迭代計(jì)算耗時(shí)遠(yuǎn)大于tf固定的情況,難以在空戰(zhàn)中應(yīng)用以實(shí)時(shí)在線生成航跡,因此在實(shí)時(shí)空戰(zhàn)仿真中,可將整個(gè)對(duì)抗過程分為若干段,在每一時(shí)間段內(nèi)進(jìn)行微分對(duì)策,即可滿足實(shí)時(shí)在線航跡生成的要求。本文的研究成果可用于防空導(dǎo)彈作戰(zhàn)效能評(píng)估、一對(duì)一空戰(zhàn)對(duì)抗雙方的最優(yōu)決策研究。
參考文獻(xiàn):
[1] Tahk Min-Jea,Ryu Hyeok,Kim Je-Gyum.An iterative numerical method for a class of quantitative pursuit-evasion games[R].AIAA-98-4118,1998.
[2] Basar T,Olsder G J.Dynamic noncooperative game theory[M].New York:Academic Press,1995.
[3] 湯善同.微分對(duì)策制導(dǎo)規(guī)律與改進(jìn)的比例導(dǎo)引制導(dǎo)規(guī)律性能比較[J].宇航學(xué)報(bào),2002,23(6):38-42.
[4] 羅生,宋龍.微分對(duì)策制導(dǎo)[J].航空科學(xué)技術(shù),2011,(3):68-70.
[5] 梅丹,吳文海,徐家義.現(xiàn)代戰(zhàn)機(jī)空戰(zhàn)對(duì)策模型研究[J].飛機(jī)設(shè)計(jì),2007,27(2):69-73.
[6] 王發(fā)坤,秦艷琳.三維空間中追逃對(duì)抗定性微分對(duì)策模型研究[J].船舶電子工程,2008,28(7):8-10,175.
[7] 黃力偉.求解微分對(duì)策問題的混合法[J].火力與指揮控制, 2011,36(1):50-52.
[8] 泮斌峰,唐碩.吸氣式空天飛行器閉環(huán)上升制導(dǎo)研究[J].飛行力學(xué),2010,28(6):48-51.