姜廣勝,史憲銘,陳 靜,趙 美,劉昊邦
(1. 陸軍工程大學(xué)石家莊校區(qū),河北 石家莊 050000;2. 陸軍步兵學(xué)院石家莊校區(qū),河北 石家莊 050083)
武器目標(biāo)分配(Weapon Target Assignment,WTA)是作戰(zhàn)指揮決策的基礎(chǔ),獲得合理、科學(xué)的分配策略是打贏現(xiàn)代化戰(zhàn)爭(zhēng)的關(guān)鍵。為了獲得最優(yōu)的分配策略,國(guó)內(nèi)外學(xué)者做了大量研究,其中包括蟻群算法、拍賣(mài)算法、粒子群算法等,但大部分把敵方看作無(wú)對(duì)抗能力的防御對(duì)象,僅考慮我方的分配對(duì)策,沒(méi)有考慮敵方的分配對(duì)策對(duì)我方分配對(duì)策產(chǎn)生的影響,忽略了實(shí)際作戰(zhàn)的動(dòng)態(tài)博弈性。敵我雙方的戰(zhàn)場(chǎng)態(tài)勢(shì)一直處于變化之中,作戰(zhàn)過(guò)程實(shí)際上就是一場(chǎng)博弈。博弈論是一門(mén)完整的科學(xué)理論,在古代田忌賽馬中就已經(jīng)靈活運(yùn)用,在現(xiàn)代也廣泛應(yīng)用于經(jīng)濟(jì)、政治、軍事等具有競(jìng)爭(zhēng)性、沖突性和對(duì)抗性的領(lǐng)域,其在軍事領(lǐng)域,不僅被應(yīng)用于武器目標(biāo)分配,還可以應(yīng)用于無(wú)人機(jī)編隊(duì)、艦艇對(duì)抗等。
因此,本文充分考慮敵我雙方的戰(zhàn)場(chǎng)態(tài)勢(shì)變化、毀傷效能評(píng)估等因素,以博弈論為基礎(chǔ),建立一種不完全信息的動(dòng)態(tài)武器目標(biāo)分配模型,并利用遺傳算法模擬動(dòng)態(tài)作戰(zhàn)過(guò)程,縮小決策點(diǎn)范圍,有效提高我方武器作戰(zhàn)中對(duì)未知信息的推理能力。
合成分隊(duì)中的武器包括步兵戰(zhàn)車(chē)、自動(dòng)炮、坦克等,這些作戰(zhàn)力量的價(jià)值和打擊能力各不相同,由于戰(zhàn)場(chǎng)情況瞬息萬(wàn)變,常常包含不確定、動(dòng)態(tài)的復(fù)雜因素,敵我雙方武器裝備的價(jià)值和打擊能力也隨機(jī)變化,即各武器裝備的價(jià)值和打擊能力具有隨機(jī)性和不確定性。因此,作戰(zhàn)一方很難獲取另外一方武器裝備的價(jià)值和打擊能力等信息,也就是說(shuō),敵我雙方在作戰(zhàn)過(guò)程中掌握的信息是不對(duì)稱(chēng)的。如何在敵我雙方掌握信息不對(duì)稱(chēng)的情況下,科學(xué)合理地確定我方用哪些武器打擊敵方哪些目標(biāo)的打擊方案,以期用最小的打擊成本獲得最大的毀傷效果是動(dòng)態(tài)武器目標(biāo)分配要解決的關(guān)鍵問(wèn)題。因此,利用不完全信息動(dòng)態(tài)博弈模型可以更加合理地對(duì)多武器多目標(biāo)分配問(wèn)題進(jìn)行建模,將合成分隊(duì)的動(dòng)態(tài)武器目標(biāo)分配問(wèn)題轉(zhuǎn)化為在不完全信息動(dòng)態(tài)博弈中求解打擊策略納什均衡解的過(guò)程。納什均衡為一個(gè)策略組合,是博弈雙方的一種均衡狀態(tài),通過(guò)求解納什均衡解有助于科學(xué)選擇打擊方案,提高作戰(zhàn)效能。
合成分隊(duì)的武器目標(biāo)分配中,將敵我雙方分別看作博弈的兩個(gè)局中人,利用階段動(dòng)態(tài)博弈展開(kāi)作戰(zhàn),如圖1所示。
圖1 敵我雙方k階段作戰(zhàn)動(dòng)態(tài)博弈樹(shù)
一般情況下,動(dòng)態(tài)博弈包括以下要素:一是局中人,指的是參與博弈的主體,即我方武器和敵方目標(biāo);二是策略集,指的是博弈雙方有順序選擇的策略集合;三是贏得函數(shù),指的是博弈雙方根據(jù)選擇的策略獲得的收益值;四是均衡解,指的是博弈雙方最優(yōu)策略的組合。多武器多目標(biāo)分配問(wèn)題可以建模為一個(gè)雙矩陣博弈模型=(,,),具體為:
1)={1,2}為博弈中的兩個(gè)局中人,=1代表我方,=2代表敵方;
3)=((,),(,))為博弈中兩個(gè)局中人選擇某種行動(dòng)的支付函數(shù)。
不完全信息指的是博弈的兩個(gè)局中人沒(méi)有完全掌握對(duì)方的事前信息,另一局中人的策略和選擇是不確定的。動(dòng)態(tài)博弈中,我方的目的是在保護(hù)自身不被敵方攻擊的同時(shí)對(duì)敵方實(shí)施打擊,敵方的目的是在保護(hù)自身不被我方打擊的同時(shí)對(duì)我方實(shí)施攻擊,這存在于整個(gè)博弈的過(guò)程。由于動(dòng)態(tài)博弈存在多變性、隨機(jī)性等特點(diǎn),使兩個(gè)局中人無(wú)法掌握博弈中的全部信息,其中,最突出的就是武器目標(biāo)的殺傷威力不同導(dǎo)致敵我雙方的毀傷評(píng)估結(jié)果具有不完全性,求解最優(yōu)策略時(shí)必須考慮這一因素。
由于模型中只存在兩個(gè)局中人,一個(gè)局中人的支付等于另一個(gè)局中人的收益,博弈雙方的支付和收益的和永遠(yuǎn)為零,因此可以將模型看作基于不完全信息的兩人零和非合作博弈。
假設(shè)我方有個(gè)武器參與作戰(zhàn),敵方有個(gè)目標(biāo)參與作戰(zhàn),敵我雙方武器目標(biāo)的價(jià)值集合分別為和。
={,,…,,…,}
(1)
其中,表示第個(gè)武器的價(jià)值。
={,,…,,…,}
(2)
其中,表示第個(gè)武器的價(jià)值。
假設(shè)我方的第個(gè)武器命中敵方的第個(gè)目標(biāo)的概率為,我方的第個(gè)武器被敵方的第個(gè)目標(biāo)命中的概率為,我方的第個(gè)武器打擊敵方的第個(gè)目標(biāo)的支付值為
=(max)*
(3)
我方的第個(gè)武器打擊敵方的第個(gè)目標(biāo)、第個(gè)武器打擊敵方的第個(gè)目標(biāo)的融合支付值為
(4)
敵方的第個(gè)目標(biāo)打擊我方的第個(gè)武器的支付函數(shù)為
=(max)*
(5)
敵方的第個(gè)目標(biāo)打擊我方的第個(gè)武器、敵方的第個(gè)目標(biāo)打擊我方的第個(gè)武器的融合支付值為
(6)
多武器多目標(biāo)分配動(dòng)態(tài)博弈的支付函數(shù)為
(7)
其中,和都有0、1兩個(gè)取值。=1代表我方的第個(gè)武器打擊敵方的第個(gè)目標(biāo),=0代表我方的第個(gè)武器沒(méi)有打擊敵方第個(gè)目標(biāo);=1代表敵方的第個(gè)目標(biāo)打擊我方的第個(gè)武器,=0代表敵方的第個(gè)目標(biāo)沒(méi)有打擊我方的第個(gè)武器。
根據(jù)式(3)和式(5),可得敵我雙方的支付矩陣為。
(8)
(9)
在這個(gè)策略組合中,一方的策略都是針對(duì)另一方策略的最優(yōu)反應(yīng)。
求解納什均衡解的過(guò)程是一項(xiàng)復(fù)雜的工程問(wèn)題,為了提高求解速度,常常借助一些智能算法,比如神經(jīng)網(wǎng)絡(luò)算法、粒子群算法和遺傳算法等。遺傳算法是由Holland提出的一種快速搜索算法,利用生物進(jìn)化中的編碼現(xiàn)象和遺傳機(jī)制能自動(dòng)獲取和調(diào)整搜索空間,具有較好的全局尋優(yōu)能力,被廣泛應(yīng)用于機(jī)器學(xué)習(xí)、信號(hào)處理、打擊博弈等問(wèn)題中。因此,本文在構(gòu)建多武器多目標(biāo)分配的博弈模型基礎(chǔ)上,利用遺傳算法求解納什均衡。
3.2.1 編碼
編碼主要模仿生物的染色體, 針對(duì)最優(yōu)策略問(wèn)題, 需要將其變量按照某種編碼方式構(gòu)建一種編碼規(guī)則,實(shí)現(xiàn)由工程問(wèn)題向遺傳問(wèn)題的轉(zhuǎn)化。根據(jù)動(dòng)態(tài)博弈的相關(guān)特性,分別對(duì)敵我雙方的武器目標(biāo)分配策略進(jìn)行編碼。
我方武器分配策略的編碼采用十進(jìn)制整數(shù)編碼方式,編碼長(zhǎng)度為*,染色體編碼為()*,其中的約束條件為公式(10)。
≤
(10)
敵方目標(biāo)分配策略的編碼采用二進(jìn)制編碼方式,=1表示第個(gè)目標(biāo)是我方武器的打擊對(duì)象,=0表示第個(gè)目標(biāo)不是我方武器的打擊對(duì)象。
3.2.2 適應(yīng)度函數(shù)
針對(duì)每個(gè)染色體,分別計(jì)算到達(dá)所有基因位時(shí)的支付函數(shù)||,找到||最大值所在的基因位,根據(jù)基因位的參與者來(lái)選擇最優(yōu)策略,若=1,>0,表示選擇該染色體對(duì)我方有利;若=2,<0,表示選擇該染色體對(duì)敵方有利。因此,染色體適應(yīng)度函數(shù)可以用支付函數(shù)來(lái)表示。
3.2.2 交叉
交叉是遺傳算法中非常重要的一環(huán),利用交叉可以獲得兩個(gè)群體的新一代個(gè)體,新一代個(gè)體的特性與父輩的特性息息相關(guān)。在武器目標(biāo)分配問(wèn)題中,常常采用的是單點(diǎn)交叉方法。
其中,為一個(gè)隨機(jī)常數(shù),取值區(qū)間為0≤≤1。
3.2.3 變異
變異是產(chǎn)生新個(gè)體的輔助操作,通過(guò)設(shè)定變異概率可以改變某個(gè)或某些個(gè)體的基因值,決定算法的局部搜索能力。為了防止算法陷入局部最優(yōu)的困境,變異概率一般較低,采用單點(diǎn)隨機(jī)定位的運(yùn)算來(lái)確定。
其中,為一個(gè)隨機(jī)常數(shù),取值區(qū)間為0≤≤1。
3.2.4 終止策略
如果每個(gè)種群迭代的代數(shù)均已達(dá)到規(guī)定的迭代次數(shù),并且某染色體的適應(yīng)度值在若干代內(nèi)不再改變,則算法終止,此時(shí)適應(yīng)度值在若干代不再改變的染色體為最優(yōu)分配方案,即納什均衡解;否則,繼續(xù)迭代,直到出現(xiàn)最優(yōu)解。
3.2.5 求解算法步驟
求解算法步驟詳見(jiàn)圖2所示。
圖2 遺傳算法求解納什均衡解的流程圖
為了證明本文提出的基于不完全信息博弈的動(dòng)態(tài)武器目標(biāo)分配模型及求解算法的有效性,采用案例分析和軟件仿真相結(jié)合的方式進(jìn)行驗(yàn)證。
1)={,},為雙矩陣博弈的兩個(gè)局中人;
表1 W方和D方武器目標(biāo)分配的策略集合
表2 敵我雙方的策略集合
3)計(jì)算敵我雙方策略集的支付值,如表3所示。
表3 敵我雙方策略集的支付值
為了驗(yàn)證本文提出的多武器多目標(biāo)博弈模型的合理性和求解算法的高效性,將遺傳算法求解不完全信息博弈納什均衡的時(shí)間與神經(jīng)網(wǎng)絡(luò)算法(BP)和粒子群算法(PSO)求解同一模型納什均衡的時(shí)間進(jìn)行對(duì)比,利用軟件進(jìn)行仿真試驗(yàn)。假設(shè)敵我雙方武器目標(biāo)數(shù)量分別是2、3、4、5、6、7、8、9、10、11個(gè),武器目標(biāo)的價(jià)值={(,),∈(0,100),∈(0,100)} ,打擊概率∈(0,1)。借助軟件計(jì)算不同作戰(zhàn)規(guī)模下三種算法求解納什均衡解的時(shí)間,如表4所示。
表4 求解納什均衡的時(shí)間表
通過(guò)表4能夠清楚看到不同規(guī)模下,使用神經(jīng)網(wǎng)絡(luò)算法、粒子群算法和遺傳算法求解納什均衡的時(shí)間。不同算法的求解時(shí)間結(jié)果對(duì)比圖,如圖3所示。
通過(guò)圖3可以看出,神經(jīng)網(wǎng)絡(luò)算法求解納什均衡解的時(shí)間明顯長(zhǎng)于遺傳算法的求解時(shí)間,而粒子群算法在作戰(zhàn)規(guī)模較小的時(shí)候運(yùn)算時(shí)間短于遺傳算法,而一旦網(wǎng)絡(luò)規(guī)模增大,它的運(yùn)算時(shí)間會(huì)長(zhǎng)于遺傳算法的求解時(shí)間,考慮實(shí)際作戰(zhàn)規(guī)模的影響,應(yīng)該優(yōu)先選擇遺傳算法求解納什均衡。因此,通過(guò)對(duì)比,進(jìn)一步驗(yàn)證了所構(gòu)建模型的合理性和算法的可行性,為解決合成分隊(duì)動(dòng)態(tài)武器目標(biāo)分配問(wèn)題提供一定支撐。
圖3 仿真結(jié)果圖
合成分隊(duì)敵我雙方的攻防過(guò)程實(shí)際上就是一場(chǎng)動(dòng)態(tài)博弈過(guò)程,考慮實(shí)際作戰(zhàn)存在許多不完全信息,提出了一種基于不完全信息的多武器多目標(biāo)博弈模型,將動(dòng)態(tài)武器目標(biāo)分配問(wèn)題轉(zhuǎn)化為求解納什均衡的過(guò)程,借助遺傳算法給出了求解思路,利用仿真證明了本文構(gòu)建的模型和求解算法的有效性,可以提高指揮決策的科學(xué)性。在后續(xù)研究中,將進(jìn)一步考慮武器資源是否正常供應(yīng)、戰(zhàn)場(chǎng)態(tài)勢(shì)等因素,對(duì)合成分隊(duì)的多武器多目標(biāo)分配問(wèn)題進(jìn)行研究,提高均衡解的精確性和適用范圍。