基于對局迭代的無人機(jī)空戰(zhàn)博弈研究

2022-02-22 05:39劉昊天王玉惠張逸航

電光與控制 2022年2期

劉昊天，王玉惠，陳謀，張逸航

(南京航空航天大學(xué)自動化學(xué)院，南京 211000)

0 引言

近年來，無人機(jī)因擁有低風(fēng)險、低成本、高性價比、高過載以及優(yōu)越的隱身性能和靈活性等優(yōu)點而備受青睞，在戰(zhàn)場上發(fā)揮的重要作用也日益凸顯[1-2]。為進(jìn)一步提升無人機(jī)的空戰(zhàn)性能，在建立精確的空戰(zhàn)模型的基礎(chǔ)上研究先進(jìn)的空戰(zhàn)決策方法對于保證無人機(jī)空戰(zhàn)的優(yōu)勢具有重要意義。

無人機(jī)作為未來空中戰(zhàn)場的主要作戰(zhàn)單元，攻防決策是其作戰(zhàn)必備的功能之一，相關(guān)的研究成果促進(jìn)了空戰(zhàn)態(tài)勢評估與決策的進(jìn)一步發(fā)展[3-6]。文獻(xiàn)[4]針對戰(zhàn)斗機(jī)的超視距協(xié)同空戰(zhàn)建立了改進(jìn)的非參量法的態(tài)勢評估模型，然后將各種威脅函數(shù)加權(quán)求和得到總體威脅態(tài)勢函數(shù)，為無人機(jī)空戰(zhàn)決策提供技術(shù)參考；文獻(xiàn)[5]建立了超視距空戰(zhàn)能力層次結(jié)構(gòu)體系模型，根據(jù)空戰(zhàn)目標(biāo)分配模型通過遺傳算法解得決策結(jié)果；文獻(xiàn)[6]以多機(jī)協(xié)同空戰(zhàn)的目標(biāo)分配問題為研究對象，構(gòu)建攻擊優(yōu)勢矩陣，建立整體優(yōu)勢函數(shù)，進(jìn)行目標(biāo)均衡和任務(wù)均衡分配，提出了一種改進(jìn)的遺傳算法用于解決協(xié)同空戰(zhàn)的目標(biāo)分配并進(jìn)行決策。近年來，在上述研究成果[3-6]的基礎(chǔ)上，為進(jìn)一步提升決策性能，很多學(xué)者考慮引入博弈論來開展無人機(jī)空戰(zhàn)決策研究[7-9]，其基本思想是綜合考慮敵我雙方的態(tài)勢通過博弈得出納什均衡值，從而使得決策結(jié)果更加符合實際的空戰(zhàn)。文獻(xiàn)[7]建立了多無人機(jī)空戰(zhàn)博弈模型，給出了博弈支付矩陣，并且利用量子粒子群算法解出了空戰(zhàn)博弈的納什均衡解；文獻(xiàn)[8]利用區(qū)間數(shù)研究不確定信息下的無人機(jī)攻防博弈，根據(jù)敵我雙方各個作戰(zhàn)參數(shù)的區(qū)間信息，建立不確定敵我雙方攻防對抗的博弈模型，利用區(qū)間可能度公式，采用線性規(guī)劃法求解納什均衡值；文獻(xiàn)[9]將粒子群算法與區(qū)間數(shù)多屬性排序方法相結(jié)合，給出基于不確定信息下博弈納什均衡求解方法。目前，這些關(guān)于多無人機(jī)空戰(zhàn)博弈決策問題的研究雖然已經(jīng)取得了一些成果[7-9]，但未能充分體現(xiàn)博弈雙方的對抗，另外，所采取的尋優(yōu)算法，如遺傳算法，粒子群算法等，都有易陷入局部最優(yōu)等問題亟待解決。

綜上分析，本文基于對局迭代針對多無人機(jī)協(xié)同空戰(zhàn)博弈決策問題開展研究。首先，通過敵我雙方作戰(zhàn)態(tài)勢和效能參數(shù)信息，利用矩陣對策法建立敵我雙方對抗支付博弈模型與支付矩陣；然后，利用對局迭代求解空戰(zhàn)博弈混合策略的納什均衡解；最后，通過實例仿真驗證了所提方法的有效性。

1 無人機(jī)空戰(zhàn)優(yōu)勢函數(shù)

1.1 無人機(jī)空戰(zhàn)態(tài)勢優(yōu)勢函數(shù)

在空戰(zhàn)中，無人機(jī)通過機(jī)載目標(biāo)探測傳感器和接收到的其他無人機(jī)、預(yù)警機(jī)或地面站等探測到的目標(biāo)信息[10]對敵方目標(biāo)進(jìn)行定位與識別。

為便于分析，以我方a機(jī)與敵方b機(jī)為例給出單對單對抗的空戰(zhàn)態(tài)勢如圖1所示。

圖1 無人機(jī)單對單對抗態(tài)勢圖Fig.1 The confrontation situation of a single UAV vs a single UAV

圖1中：rab為我方第a架無人機(jī)與敵方第b架無人機(jī)之間的距離；va和vb分別為我機(jī)和敵機(jī)速度；ha和hb分別為我機(jī)和敵機(jī)的高度；φab為我方第a架無人機(jī)相對敵方第b架無人機(jī)的提前角；qab為敵方第b架無人機(jī)相對我方第a架無人機(jī)的進(jìn)入角。

角度優(yōu)勢Waab表示為[11]

(1)

由式(1)可知，當(dāng)我方無人機(jī)尾隨敵方無人機(jī)時，我方的角度優(yōu)勢最大，當(dāng)敵方無人機(jī)尾隨我方無人機(jī)時，我方角度優(yōu)勢最小，符合實際空戰(zhàn)情況。

速度優(yōu)勢Wvab表示為[7]

(2)

當(dāng)無人機(jī)速度快于對方時，會獲得速度優(yōu)勢。

距離優(yōu)勢Wrab表示為[7]

Wrab=e-((rab-R0)/σ)2

(3)

高度優(yōu)勢Whab表示為[11]

(4)

式中，hab是我方無人機(jī)與敵方無人機(jī)的高度差，我方無人機(jī)在敵方無人機(jī)上方時將獲得高度優(yōu)勢，與實際情況相符。

綜合角度、速度、距離和高度優(yōu)勢函數(shù)，每架無人機(jī)空戰(zhàn)整體態(tài)勢優(yōu)勢函數(shù)Wsab可表示為

Wsab=k1Waab+k2Wvab+k3Wrab+k4Whab

(5)

式中，k1～k4為加權(quán)系數(shù)，且k1+k2+k3+k4=1。

1.2 無人機(jī)空戰(zhàn)效能優(yōu)勢函數(shù)

無人機(jī)空對空作戰(zhàn)效能優(yōu)勢指數(shù)C主要選用5個因素來衡量無人機(jī)的空對空作戰(zhàn)能力，其算式為

C=[ln(∑A1+1)+ln(∑A2)]ε1ε2ε3

(6)

式中：A1為武器殺傷力參數(shù)；A2為探測能力參數(shù)；ε1為生存力系數(shù)；ε2為航程系數(shù)；ε3為電子對抗系數(shù)。由于式(6)計算出的空戰(zhàn)效能指數(shù)與之前得出的空戰(zhàn)態(tài)勢指數(shù)量級差別較大，需要進(jìn)一步處理。為使空戰(zhàn)效能指數(shù)的值處于[0,1]區(qū)間內(nèi)，重新定義空戰(zhàn)效能優(yōu)勢函數(shù)WCab為

(7)

式中，Ca和Cb分別為我機(jī)和敵機(jī)的空對空效能指數(shù)。

1.3 無人機(jī)空戰(zhàn)支付矩陣

每架無人機(jī)空戰(zhàn)綜合優(yōu)勢函數(shù)可表示為空戰(zhàn)態(tài)勢優(yōu)勢函數(shù)Wsab與空戰(zhàn)效能優(yōu)勢函數(shù)WCab的加權(quán)和。我方每架無人機(jī)空戰(zhàn)的綜合優(yōu)勢函數(shù)u1ab表示為

u1ab=l1Wsab+l2WCab

(8)

式中，l1和l2為加權(quán)系數(shù)，且l1+l2=1。同理可得敵方空戰(zhàn)總體優(yōu)勢函數(shù)u2ba。

多無人機(jī)空戰(zhàn)博弈支付矩陣A定義如下

(9)

式中:ai j為我方無人機(jī)采取αi策略且敵方無人機(jī)采取βj策略時我方無人機(jī)的收益;m和n分別為我方無人機(jī)策略數(shù)量與敵方無人機(jī)策略數(shù)量。

當(dāng)我方選取策略αi時，我方獲得收益gi為

(10)

當(dāng)敵方選取策略βj時，敵方獲得收益tj為

(11)

所以我方無人機(jī)獲得總收益ai j為

ai j=gi-tj

(12)

其中:p為我方無人機(jī)數(shù)量;l為敵方無人機(jī)數(shù)量;xab，yba分別為二值決策變量，xab=1表示我方第a架無人機(jī)攻擊敵方第b架無人機(jī)，xab=0表示我方第a架無人機(jī)沒有攻擊敵方第b架無人機(jī)，yba=1表示敵方第b架無人機(jī)攻擊我方第a架無人機(jī)，yba=0表示敵方第b架無人機(jī)沒有攻擊我方第a架無人機(jī)；xabαi，ybaβj分別為當(dāng)我方選取策略αi、敵方選取策略βj時xab與yba的具體取值。

2 多無人機(jī)空戰(zhàn)博弈模型

本文僅討論無人機(jī)空戰(zhàn)博弈策略集。

2.1 無人機(jī)空戰(zhàn)博弈純策略集

在敵我雙方空戰(zhàn)中，將我方和敵方無人機(jī)分別看作博弈對抗的兩個局中人[12-13]，多無人機(jī)空戰(zhàn)博弈模型矩陣對策Q可表示為

Q=(S1,S2;A)

(13)

式中：S1={α1,α2,…,αm}，為我方無人機(jī)的純策略集；S2={β1,β2,…,βn}，為敵方無人機(jī)的純策略集；A=(ai j)m×n，為博弈支付矩陣。在純策略博弈的情況下，往往不存在一個雙方均可接受的平衡局勢，所以在情況復(fù)雜的空戰(zhàn)環(huán)境下研究空戰(zhàn)博弈問題只使用純策略集往往無法求出納什均衡解，為此引入混合策略集[14-15]。

2.2 無人機(jī)空戰(zhàn)博弈混合策略集

在博弈中，若不存在一個雙方均可接受的平衡局勢，可以給出一個選取策略的概率分布，我方無人機(jī)以概率{x1,x2,…，xm}選取純策略{α1,α2,…,αm}，敵方無人機(jī)以概率{y1,y2,…，yn}選取純策略{β1,β2,…,βn}。記

(14)

(15)

(16)

式中，E(x,y)為我方無人機(jī)的期望支付函數(shù)，此時的矩陣對策記成

(17)

式中，Q*為Q的混合擴(kuò)充。

3 無人機(jī)空戰(zhàn)博弈求解

3.1 混合策略納什均衡

由式(17)可知，Q*是我方和敵方無人機(jī)的一個混合策略，如果兩個局中人均按照“從最不利的情形中選取最有利的結(jié)果”的原則[16]，則我方無人機(jī)可保證自己的支付的期望值不少于

(18)

敵方無人機(jī)可保證所失的期望值至多是

(19)

Q*存在納什均衡解的充分必要條件為

(20)

式中，VG為博弈Q*的值。則稱滿足式(20)的(x*,y*)為Q*在此混合策略中的納什均衡解。

E(x,y*)≤E(x*,y*)≤E(x*,y)。

(21)

當(dāng)我方無人機(jī)取純策略αi、敵方無人機(jī)取混合策略y時，記我方相應(yīng)的支付函數(shù)可表示為

(22)

同理，當(dāng)我方無人機(jī)取混合策略x，敵方無人機(jī)取純策略βj時，我方相應(yīng)支付函數(shù)為

(23)

綜合式(22)～(23)，可得

(24)

E(i,y*)≤E(x*,y*)≤E(x*,j)

i=1,2,…，m，j=1,2,…,n。

(25)

這樣就可以把要驗證無限個(不可數(shù))不等式的問題轉(zhuǎn)化為只需要驗證有限個不等式的問題，從而使后面的研究大大簡化。

相應(yīng)地，此時博弈Q*的值VG還可表示為

(26)

3.2 基于對局迭代的博弈納什均衡值求解

基于對局迭代的博弈納什均衡值求解過程如圖2所示。

圖2 對局迭代整體流程圖Fig.2 Flow chart of game iteration

對局迭代法是求解博弈問題納什均衡值的一種有效方法，其基本思想是：多次博弈時，在每局博弈中，我方無人機(jī)和敵方無人機(jī)都選取一個使對方獲得最不利結(jié)果的純策略[17]，即在第t+1局中，我方無人機(jī)選取純策略使得敵方無人機(jī)前t局的累計所失為最多，而敵方無人機(jī)選取純策略使前t局我方無人機(jī)的累計所得為最少。

具體做法是：在第一局博弈中，我方無人機(jī)和敵方無人機(jī)都任意選取一個策略，設(shè)我方無人機(jī)選取策略αi1，敵方無人機(jī)選取策略βj1，假設(shè)博弈已經(jīng)進(jìn)行了t局，k=1,2,…,t，這時,我方無人機(jī)已經(jīng)選取的策略序列是αi1,αi2,…,αit，敵方無人機(jī)已經(jīng)選取的策略序列是βi1,βi2,…,βit，在第t+1局中，我方無人機(jī)將選取策略αit+1，使得

(27)

敵方無人機(jī)選取策略βjt+1，使得

(28)

(29)

(30)

當(dāng)局?jǐn)?shù)t足夠大時，序列{xt}的每個點都是我方無人機(jī)的最優(yōu)策略，序列{yt}的每個點都是敵方無人機(jī)的最優(yōu)策略。

根據(jù)式(26)，(25)，(22)和(23)，從而有

(31)

(32)

所以有

(33)

(34)

因此，若記

(35)

(36)

綜上所述，xt和yt可分別作為我方無人機(jī)和敵方無人機(jī)的近似最優(yōu)策略，而vt可作為VG的近似值。

對局迭代的終止準(zhǔn)則有兩個：

1) 給定迭代次數(shù)t；

4 空戰(zhàn)仿真實例研究

假設(shè)以敵我雙方3對2無人機(jī)空戰(zhàn)為例，即我方有2架無人機(jī)(U1,U2)，速度均為vi=225 m/s，空對空效能指數(shù)0.80。敵方有3架無人機(jī)(N1,N2,N3)，速度均為vj=200 m/s，空對空效能指數(shù)0.75。敵我雙方雷達(dá)最大跟蹤距離均為Rr=70 km，導(dǎo)彈最大射程均為Rmax=60 km，導(dǎo)彈最小射程均為Rmin=1 km，取k1=0.39，k2=0.15，k3=0.26，k4=0.2，l1=0.6，l2=0.4。假設(shè)敵我雙方無人機(jī)每次攻擊時只能攻擊一個目標(biāo)。敵我雙方無人機(jī)空戰(zhàn)態(tài)勢由表1給出，雙方無人機(jī)空戰(zhàn)策略集由表2給出，表中φi j，qi j,ri j含義見1.1節(jié)。

表1 空戰(zhàn)雙方態(tài)勢信息表Table 1 Situation information of both sides of air combat

表2 敵我雙方無人機(jī)空戰(zhàn)策略集Table 2 The strategy set of air combat

由式(1)～(12)以及敵我雙方空戰(zhàn)參數(shù)，可以求出敵我雙方無人機(jī)空戰(zhàn)博弈支付矩陣A=

博弈支付矩陣A中每行的元素表示我方無人機(jī)的作戰(zhàn)策略，每列元素表示敵方無人機(jī)的作戰(zhàn)策略。其中，(αi,βj)表示我方無人機(jī)采取αi策略、敵方無人機(jī)采取βj策略時我方無人機(jī)獲得的收益。

通過對局迭代對此種情況下的空戰(zhàn)博弈納什均衡值進(jìn)行求解，在Matlab平臺上進(jìn)行仿真驗證。

圖3 允許誤差Fig.3 Allowable error

在敵我雙方無人機(jī)25局博弈中，我方無人機(jī)選取1次策略α3，剩下24次都選取策略α2，敵方無人機(jī)選取1次策略β3和1次策略β7，剩下23次都選取策略β1。根據(jù)式(29)～(30)可知，我方無人機(jī)的近似最優(yōu)策略x25為(0,24/25,1/25,0,0,0,0,0,0) ，同理可知，敵方無人機(jī)的近似最優(yōu)策略y25為(23/25,0,1/25,0,0,0,0,1/25,0)，可以認(rèn)為混合策略博弈Q*的納什均衡解(x*,y*)近似等于上述(x25,y25)。即我方無人機(jī)以24/25的概率選取策略α2，以1/25的概率選取策略α3；敵方無人機(jī)以23/25的概率選取策略β1，以1/25的概率選取策略β3，以1/25的概率選取策略β7時可以得到納什均衡。

從仿真結(jié)果可以看出，利用對局迭代能夠得到敵我雙方無人機(jī)空戰(zhàn)的混合策略納什均衡值，敵我雙方可以達(dá)到一種平衡狀態(tài)，如果任何一方破壞這種平衡狀態(tài)都會使自己的收益減小。這樣，敵我雙方在考慮對方選取最優(yōu)策略時能夠找到一種對己方最有利的作戰(zhàn)策略，從而實現(xiàn)無人機(jī)空戰(zhàn)博弈，符合實際空戰(zhàn)的情形。

對局迭代法與遺傳算法對比見表3。

表3 對局迭代法與遺傳算法對比Table 3 Comparison between game iteration method and genetic algorithm

由表3可以看出，求解相同情況下的空戰(zhàn)博弈納什均衡時，對局迭代法相對于遺傳算法收斂更快，并且沒有陷入局部最優(yōu)值的風(fēng)險。

5 結(jié)論

本文針對多無人機(jī)空戰(zhàn)博弈問題進(jìn)行了研究。根據(jù)敵我雙方空戰(zhàn)態(tài)勢和效能參數(shù)信息建立敵我雙方無人機(jī)空戰(zhàn)博弈模型，給出了混合策略納什均衡的推導(dǎo)步驟，利用對局迭代在Matlab平臺進(jìn)行仿真求解出了博弈的納什均衡值，完成在雙方博弈時考慮敵方策略的同時選取最有利己方的策略，符合空戰(zhàn)情形，并且與遺傳算法等方法相比，此種方法不存在陷入局部最優(yōu)值等問題，是一種在空戰(zhàn)博弈中求解納什均衡值較為科學(xué)的方法。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡