劉昊天, 王玉惠, 陳 謀, 張逸航
(南京航空航天大學(xué)自動化學(xué)院,南京 211000)
近年來,無人機(jī)因擁有低風(fēng)險、低成本、高性價比、高過載以及優(yōu)越的隱身性能和靈活性等優(yōu)點而備受青睞,在戰(zhàn)場上發(fā)揮的重要作用也日益凸顯[1-2]。為進(jìn)一步提升無人機(jī)的空戰(zhàn)性能,在建立精確的空戰(zhàn)模型的基礎(chǔ)上研究先進(jìn)的空戰(zhàn)決策方法對于保證無人機(jī)空戰(zhàn)的優(yōu)勢具有重要意義。
無人機(jī)作為未來空中戰(zhàn)場的主要作戰(zhàn)單元,攻防決策是其作戰(zhàn)必備的功能之一,相關(guān)的研究成果促進(jìn)了空戰(zhàn)態(tài)勢評估與決策的進(jìn)一步發(fā)展[3-6]。文獻(xiàn)[4]針對戰(zhàn)斗機(jī)的超視距協(xié)同空戰(zhàn)建立了改進(jìn)的非參量法的態(tài)勢評估模型,然后將各種威脅函數(shù)加權(quán)求和得到總體威脅態(tài)勢函數(shù),為無人機(jī)空戰(zhàn)決策提供技術(shù)參考;文獻(xiàn)[5]建立了超視距空戰(zhàn)能力層次結(jié)構(gòu)體系模型,根據(jù)空戰(zhàn)目標(biāo)分配模型通過遺傳算法解得決策結(jié)果;文獻(xiàn)[6]以多機(jī)協(xié)同空戰(zhàn)的目標(biāo)分配問題為研究對象,構(gòu)建攻擊優(yōu)勢矩陣,建立整體優(yōu)勢函數(shù),進(jìn)行目標(biāo)均衡和任務(wù)均衡分配,提出了一種改進(jìn)的遺傳算法用于解決協(xié)同空戰(zhàn)的目標(biāo)分配并進(jìn)行決策。近年來,在上述研究成果[3-6]的基礎(chǔ)上,為進(jìn)一步提升決策性能,很多學(xué)者考慮引入博弈論來開展無人機(jī)空戰(zhàn)決策研究[7-9],其基本思想是綜合考慮敵我雙方的態(tài)勢通過博弈得出納什均衡值,從而使得決策結(jié)果更加符合實際的空戰(zhàn)。文獻(xiàn)[7]建立了多無人機(jī)空戰(zhàn)博弈模型,給出了博弈支付矩陣,并且利用量子粒子群算法解出了空戰(zhàn)博弈的納什均衡解;文獻(xiàn)[8]利用區(qū)間數(shù)研究不確定信息下的無人機(jī)攻防博弈,根據(jù)敵我雙方各個作戰(zhàn)參數(shù)的區(qū)間信息,建立不確定敵我雙方攻防對抗的博弈模型,利用區(qū)間可能度公式,采用線性規(guī)劃法求解納什均衡值;文獻(xiàn)[9]將粒子群算法與區(qū)間數(shù)多屬性排序方法相結(jié)合,給出基于不確定信息下博弈納什均衡求解方法。目前,這些關(guān)于多無人機(jī)空戰(zhàn)博弈決策問題的研究雖然已經(jīng)取得了一些成果[7-9],但未能充分體現(xiàn)博弈雙方的對抗,另外,所采取的尋優(yōu)算法,如遺傳算法,粒子群算法等,都有易陷入局部最優(yōu)等問題亟待解決。
綜上分析,本文基于對局迭代針對多無人機(jī)協(xié)同空戰(zhàn)博弈決策問題開展研究。首先,通過敵我雙方作戰(zhàn)態(tài)勢和效能參數(shù)信息,利用矩陣對策法建立敵我雙方對抗支付博弈模型與支付矩陣;然后,利用對局迭代求解空戰(zhàn)博弈混合策略的納什均衡解;最后,通過實例仿真驗證了所提方法的有效性。
在空戰(zhàn)中,無人機(jī)通過機(jī)載目標(biāo)探測傳感器和接收到的其他無人機(jī)、預(yù)警機(jī)或地面站等探測到的目標(biāo)信息[10]對敵方目標(biāo)進(jìn)行定位與識別。
為便于分析,以我方a機(jī)與敵方b機(jī)為例給出單對單對抗的空戰(zhàn)態(tài)勢如圖1所示。
圖1 無人機(jī)單對單對抗態(tài)勢圖Fig.1 The confrontation situation of a single UAV vs a single UAV
圖1中:rab為我方第a架無人機(jī)與敵方第b架無人機(jī)之間的距離;va和vb分別為我機(jī)和敵機(jī)速度;ha和hb分別為我機(jī)和敵機(jī)的高度;φab為我方第a架無人機(jī)相對敵方第b架無人機(jī)的提前角;qab為敵方第b架無人機(jī)相對我方第a架無人機(jī)的進(jìn)入角。
角度優(yōu)勢Waab表示為[11]
(1)
由式(1)可知,當(dāng)我方無人機(jī)尾隨敵方無人機(jī)時,我方的角度優(yōu)勢最大,當(dāng)敵方無人機(jī)尾隨我方無人機(jī)時,我方角度優(yōu)勢最小,符合實際空戰(zhàn)情況。
速度優(yōu)勢Wvab表示為[7]
(2)
當(dāng)無人機(jī)速度快于對方時,會獲得速度優(yōu)勢。
距離優(yōu)勢Wrab表示為[7]
Wrab=e-((rab-R0)/σ)2
(3)
高度優(yōu)勢Whab表示為[11]
(4)
式中,hab是我方無人機(jī)與敵方無人機(jī)的高度差,我方無人機(jī)在敵方無人機(jī)上方時將獲得高度優(yōu)勢,與實際情況相符。
綜合角度、速度、距離和高度優(yōu)勢函數(shù),每架無人機(jī)空戰(zhàn)整體態(tài)勢優(yōu)勢函數(shù)Wsab可表示為
Wsab=k1Waab+k2Wvab+k3Wrab+k4Whab
(5)
式中,k1~k4為加權(quán)系數(shù),且k1+k2+k3+k4=1。
無人機(jī)空對空作戰(zhàn)效能優(yōu)勢指數(shù)C主要選用5個因素來衡量無人機(jī)的空對空作戰(zhàn)能力,其算式為
C=[ln(∑A1+1)+ln(∑A2)]ε1ε2ε3
(6)
式中:A1為武器殺傷力參數(shù);A2為探測能力參數(shù);ε1為生存力系數(shù);ε2為航程系數(shù);ε3為電子對抗系數(shù)。由于式(6)計算出的空戰(zhàn)效能指數(shù)與之前得出的空戰(zhàn)態(tài)勢指數(shù)量級差別較大,需要進(jìn)一步處理。為使空戰(zhàn)效能指數(shù)的值處于[0,1]區(qū)間內(nèi),重新定義空戰(zhàn)效能優(yōu)勢函數(shù)WCab為
(7)
式中,Ca和Cb分別為我機(jī)和敵機(jī)的空對空效能指數(shù)。
每架無人機(jī)空戰(zhàn)綜合優(yōu)勢函數(shù)可表示為空戰(zhàn)態(tài)勢優(yōu)勢函數(shù)Wsab與空戰(zhàn)效能優(yōu)勢函數(shù)WCab的加權(quán)和。我方每架無人機(jī)空戰(zhàn)的綜合優(yōu)勢函數(shù)u1ab表示為
u1ab=l1Wsab+l2WCab
(8)
式中,l1和l2為加權(quán)系數(shù),且l1+l2=1。同理可得敵方空戰(zhàn)總體優(yōu)勢函數(shù)u2ba。
多無人機(jī)空戰(zhàn)博弈支付矩陣A定義如下
(9)
式中:ai j為我方無人機(jī)采取αi策略且敵方無人機(jī)采取βj策略時我方無人機(jī)的收益;m和n分別為我方無人機(jī)策略數(shù)量與敵方無人機(jī)策略數(shù)量。
當(dāng)我方選取策略αi時,我方獲得收益gi為
(10)
當(dāng)敵方選取策略βj時,敵方獲得收益tj為
(11)
所以我方無人機(jī)獲得總收益ai j為
ai j=gi-tj
(12)
其中:p為我方無人機(jī)數(shù)量;l為敵方無人機(jī)數(shù)量;xab,yba分別為二值決策變量,xab=1表示我方第a架無人機(jī)攻擊敵方第b架無人機(jī),xab=0表示我方第a架無人機(jī)沒有攻擊敵方第b架無人機(jī),yba=1表示敵方第b架無人機(jī)攻擊我方第a架無人機(jī),yba=0表示敵方第b架無人機(jī)沒有攻擊我方第a架無人機(jī);xabαi,ybaβj分別為當(dāng)我方選取策略αi、敵方選取策略βj時xab與yba的具體取值。
本文僅討論無人機(jī)空戰(zhàn)博弈策略集。
在敵我雙方空戰(zhàn)中,將我方和敵方無人機(jī)分別看作博弈對抗的兩個局中人[12-13],多無人機(jī)空戰(zhàn)博弈模型矩陣對策Q可表示為
Q=(S1,S2;A)
(13)
式中:S1={α1,α2,…,αm},為我方無人機(jī)的純策略集;S2={β1,β2,…,βn},為敵方無人機(jī)的純策略集;A=(ai j)m×n,為博弈支付矩陣。在純策略博弈的情況下,往往不存在一個雙方均可接受的平衡局勢,所以在情況復(fù)雜的空戰(zhàn)環(huán)境下研究空戰(zhàn)博弈問題只使用純策略集往往無法求出納什均衡解,為此引入混合策略集[14-15]。
在博弈中,若不存在一個雙方均可接受的平衡局勢,可以給出一個選取策略的概率分布,我方無人機(jī)以概率{x1,x2,…,xm}選取純策略{α1,α2,…,αm},敵方無人機(jī)以概率{y1,y2,…,yn}選取純策略{β1,β2,…,βn}。記
(14)
(15)
(16)
式中,E(x,y)為我方無人機(jī)的期望支付函數(shù),此時的矩陣對策記成
(17)
式中,Q*為Q的混合擴(kuò)充。
由式(17)可知,Q*是我方和敵方無人機(jī)的一個混合策略,如果兩個局中人均按照“從最不利的情形中選取最有利的結(jié)果”的原則[16],則我方無人機(jī)可保證自己的支付的期望值不少于
(18)
敵方無人機(jī)可保證所失的期望值至多是
(19)
Q*存在納什均衡解的充分必要條件為
(20)
式中,VG為博弈Q*的值。則稱滿足式(20)的(x*,y*)為Q*在此混合策略中的納什均衡解。
E(x,y*)≤E(x*,y*)≤E(x*,y)。
(21)
當(dāng)我方無人機(jī)取純策略αi、敵方無人機(jī)取混合策略y時,記我方相應(yīng)的支付函數(shù)可表示為
(22)
同理,當(dāng)我方無人機(jī)取混合策略x,敵方無人機(jī)取純策略βj時,我方相應(yīng)支付函數(shù)為
(23)
綜合式(22)~(23),可得
(24)
E(i,y*)≤E(x*,y*)≤E(x*,j)
i=1,2,…,m,j=1,2,…,n。
(25)
這樣就可以把要驗證無限個(不可數(shù))不等式的問題轉(zhuǎn)化為只需要驗證有限個不等式的問題,從而使后面的研究大大簡化。
相應(yīng)地,此時博弈Q*的值VG還可表示為
(26)
基于對局迭代的博弈納什均衡值求解過程如圖2所示。
圖2 對局迭代整體流程圖Fig.2 Flow chart of game iteration
對局迭代法是求解博弈問題納什均衡值的一種有效方法,其基本思想是:多次博弈時,在每局博弈中,我方無人機(jī)和敵方無人機(jī)都選取一個使對方獲得最不利結(jié)果的純策略[17],即在第t+1局中,我方無人機(jī)選取純策略使得敵方無人機(jī)前t局的累計所失為最多,而敵方無人機(jī)選取純策略使前t局我方無人機(jī)的累計所得為最少。
具體做法是:在第一局博弈中,我方無人機(jī)和敵方無人機(jī)都任意選取一個策略,設(shè)我方無人機(jī)選取策略αi1,敵方無人機(jī)選取策略βj1,假設(shè)博弈已經(jīng)進(jìn)行了t局,k=1,2,…,t,這時,我方無人機(jī)已經(jīng)選取的策略序列是αi1,αi2,…,αit,敵方無人機(jī)已經(jīng)選取的策略序列是βi1,βi2,…,βit,在第t+1局中,我方無人機(jī)將選取策略αit+1,使得
(27)
敵方無人機(jī)選取策略βjt+1,使得
(28)
(29)
(30)
當(dāng)局?jǐn)?shù)t足夠大時,序列{xt}的每個點都是我方無人機(jī)的最優(yōu)策略,序列{yt}的每個點都是敵方無人機(jī)的最優(yōu)策略。
根據(jù)式(26),(25),(22)和(23),從而有
(31)
(32)
所以有
(33)
(34)
因此,若記
(35)
(36)
綜上所述,xt和yt可分別作為我方無人機(jī)和敵方無人機(jī)的近似最優(yōu)策略,而vt可作為VG的近似值。
對局迭代的終止準(zhǔn)則有兩個:
1) 給定迭代次數(shù)t;
假設(shè)以敵我雙方3對2無人機(jī)空戰(zhàn)為例,即我方有2架無人機(jī)(U1,U2),速度均為vi=225 m/s,空對空效能指數(shù)0.80。敵方有3架無人機(jī)(N1,N2,N3),速度均為vj=200 m/s,空對空效能指數(shù)0.75。敵我雙方雷達(dá)最大跟蹤距離均為Rr=70 km,導(dǎo)彈最大射程均為Rmax=60 km,導(dǎo)彈最小射程均為Rmin=1 km,取k1=0.39,k2=0.15,k3=0.26,k4=0.2,l1=0.6,l2=0.4。假設(shè)敵我雙方無人機(jī)每次攻擊時只能攻擊一個目標(biāo)。敵我雙方無人機(jī)空戰(zhàn)態(tài)勢由表1給出,雙方無人機(jī)空戰(zhàn)策略集由表2給出,表中φi j,qi j,ri j含義見1.1節(jié)。
表1 空戰(zhàn)雙方態(tài)勢信息表Table 1 Situation information of both sides of air combat
表2 敵我雙方無人機(jī)空戰(zhàn)策略集Table 2 The strategy set of air combat
由式(1)~(12)以及敵我雙方空戰(zhàn)參數(shù),可以求出敵我雙方無人機(jī)空戰(zhàn)博弈支付矩陣A=
博弈支付矩陣A中每行的元素表示我方無人機(jī)的作戰(zhàn)策略,每列元素表示敵方無人機(jī)的作戰(zhàn)策略。其中,(αi,βj)表示我方無人機(jī)采取αi策略、敵方無人機(jī)采取βj策略時我方無人機(jī)獲得的收益。
通過對局迭代對此種情況下的空戰(zhàn)博弈納什均衡值進(jìn)行求解,在Matlab平臺上進(jìn)行仿真驗證。
圖3 允許誤差Fig.3 Allowable error
在敵我雙方無人機(jī)25局博弈中,我方無人機(jī)選取1次策略α3,剩下24次都選取策略α2,敵方無人機(jī)選取1次策略β3和1次策略β7,剩下23次都選取策略β1。根據(jù)式(29)~(30)可知,我方無人機(jī)的近似最優(yōu)策略x25為(0,24/25,1/25,0,0,0,0,0,0) ,同理可知,敵方無人機(jī)的近似最優(yōu)策略y25為(23/25,0,1/25,0,0,0,0,1/25,0),可以認(rèn)為混合策略博弈Q*的納什均衡解(x*,y*)近似等于上述(x25,y25)。即我方無人機(jī)以24/25的概率選取策略α2,以1/25的概率選取策略α3;敵方無人機(jī)以23/25的概率選取策略β1,以1/25的概率選取策略β3,以1/25的概率選取策略β7時可以得到納什均衡。
從仿真結(jié)果可以看出,利用對局迭代能夠得到敵我雙方無人機(jī)空戰(zhàn)的混合策略納什均衡值,敵我雙方可以達(dá)到一種平衡狀態(tài),如果任何一方破壞這種平衡狀態(tài)都會使自己的收益減小。這樣,敵我雙方在考慮對方選取最優(yōu)策略時能夠找到一種對己方最有利的作戰(zhàn)策略,從而實現(xiàn)無人機(jī)空戰(zhàn)博弈,符合實際空戰(zhàn)的情形。
對局迭代法與遺傳算法對比見表3。
表3 對局迭代法與遺傳算法對比Table 3 Comparison between game iteration method and genetic algorithm
由表3可以看出,求解相同情況下的空戰(zhàn)博弈納什均衡時,對局迭代法相對于遺傳算法收斂更快,并且沒有陷入局部最優(yōu)值的風(fēng)險。
本文針對多無人機(jī)空戰(zhàn)博弈問題進(jìn)行了研究。根據(jù)敵我雙方空戰(zhàn)態(tài)勢和效能參數(shù)信息建立敵我雙方無人機(jī)空戰(zhàn)博弈模型,給出了混合策略納什均衡的推導(dǎo)步驟,利用對局迭代在Matlab平臺進(jìn)行仿真求解出了博弈的納什均衡值,完成在雙方博弈時考慮敵方策略的同時選取最有利己方的策略,符合空戰(zhàn)情形,并且與遺傳算法等方法相比,此種方法不存在陷入局部最優(yōu)值等問題,是一種在空戰(zhàn)博弈中求解納什均衡值較為科學(xué)的方法。