陳 健,趙建印,紀 紅
(海軍航空大學(xué),山東 煙臺 264001)
現(xiàn)代兵棋是一種“兩方或多方指揮員直接參與,依據(jù)一定數(shù)據(jù)、 規(guī)則,通過一系列對抗與裁決的過程,實現(xiàn)對行動過程模擬、邏輯研究、評估論證的工具”[1]。隨著現(xiàn)代計算機技術(shù)與兵棋推演系統(tǒng)的融合發(fā)展,兵棋推演系統(tǒng)中的行為實體、行動過程、行為決策都會隨著實際發(fā)展態(tài)勢展現(xiàn)出不可預(yù)知的變化[2]。但是,現(xiàn)代兵棋推演系統(tǒng)在提高真實性的同時,也帶來了另一個問題,即在推演過程中實施指揮決策的人員(指揮員),不得不面對更復(fù)雜的實體構(gòu)成和更不確定的推演環(huán)境,以及龐大的異構(gòu)實體狀態(tài)空間和行為空間。這使得在兵棋推演過程中,確定一個囊括己方所有實體的最優(yōu)行動方案變得非常困難。加上信息技術(shù)的融合使用,模糊了傳統(tǒng)兵棋回合制的概念,更快的推演節(jié)奏,要求雙方指揮員在有限的時間內(nèi)做出科學(xué)合理的決策部署。因此,構(gòu)建一個相對通用、合理簡化、反應(yīng)迅速且具有較高準確性的快速決策框架,并基于該框架和具體的推演想定,實現(xiàn)推演的快速輔助決策系統(tǒng),用來在復(fù)雜的推演環(huán)境中輔助指揮員優(yōu)化各個階段的行動策略,具有較高的現(xiàn)實意義。
目前,對兵棋推演中的輔助決策框架和決策系統(tǒng)有過很多研究。文獻[3]將關(guān)注點聚焦在計算機兵棋博弈系統(tǒng)上,將知識規(guī)則與知識庫作為核心,避免因為兵棋規(guī)則復(fù)雜而造成的決策困難,同時引入推理機構(gòu)輔助知識推理,搭建了智能決策支持系統(tǒng)。文獻[4]利用規(guī)則推理對具體類別的推演實體行為進行規(guī)劃,將規(guī)劃結(jié)果表示為行為樹的節(jié)點,從而完成了實體行為樹框架的搭建,實現(xiàn)動態(tài)決策。文獻[5]提出了分層智能規(guī)劃方法并搭建了完整模型。文獻[6]同樣使用行為樹方法,研究了實體模型的外部自主決策過程。文獻[7]在決策過程中引入了博弈的概念和機器學(xué)習(xí)中的決策樹算法,建立了兵棋推演中的決策模型。上述研究存在兩個共同的問題:一是決策模型(算法)大多較為復(fù)雜,適用于大型兵棋推演系統(tǒng),但很難滿足上文提出的合理簡化和反應(yīng)迅速的要求;二是大部分決策模型考慮的對象是計算機生成實體(CGF)或完全由計算機控制的智能體(Agent),而不是兵棋推演過程中的指揮員。
本文基于一般的決策和規(guī)劃流程,提出了一個快速決策框架(Rapid Military Decision Framework,RMDF),該框架針對異構(gòu)實體模型和動態(tài)推演環(huán)境,基于一致性包算法實現(xiàn)任務(wù)分配,生成備選行動策略,通過簡化的作用效果熱圖和概率模型實現(xiàn)行動策略的快速評估和決策輔助,能夠在推演之前或推演期間,根據(jù)成功概率、生存能力提供行動方案的快速評估,可以有效地輔助兵棋推演指揮人員進行復(fù)雜態(tài)勢下的兵棋推演。
本文提出的快速決策框架邏輯如圖1所示。
圖1 快速決策框架邏輯圖
任務(wù)分配是制定行動方案的基礎(chǔ)。任務(wù)分配指根據(jù)總的任務(wù)目標(biāo),將兵棋推演想定中的B方實體分配給A方實體(A、B互為對手)的過程,是一個典型的多實體任務(wù)分配問題。依據(jù)文獻[8]提出的分類法,多實體協(xié)同任務(wù)分配問題等同于交叉調(diào)度的單任務(wù)多智能體時間 擴 展 任 務(wù) 分 配 問 題 (cross-schedule Dependent Single Task Multi-Robot Time-extended task Allocation,XDSTMRTA),其中交叉調(diào)度是指想定中的實體是否執(zhí)行某個任務(wù)受其他實體任務(wù)執(zhí)行情況影響;單任務(wù)是指推演實體一次只能執(zhí)行一個任務(wù);時間擴展是指推演實體在執(zhí)行任務(wù)之前需要預(yù)先進行任務(wù)規(guī)劃。對于XDSTMRTA問題,常見的任務(wù)分配算法有集中式和分布式兩類,相比集中式分配算法存在中央節(jié)點負荷大、系統(tǒng)魯棒性差等缺點[9],分布式算法可提供更好的穩(wěn)健性以及負荷的均衡性,是目前廣為采用的分配算法[10]。本文采用Choi等人提出的一致性包算法 (Consensus Based Bundle Algorithm,CBBA)作為推演實體任務(wù)分配算法。CBBA算法的特點是去中心化,同時可以很好地應(yīng)用于異構(gòu)實體模型和動態(tài)推演環(huán)境。文獻[11]證明了CBBA算法可收斂到納什均衡(Nash equilibrium)但非帕累托最優(yōu)(Pareto optimal) 解,同時指出 CBBA算法可為單智能體單任務(wù)分配問題 (Single-Robot Single Task Task Allocation,SRSTTA)提供次優(yōu)解決方案。當(dāng)CBBA算法非負評分機制滿足邊際增益遞減 (Diminishing Marginal Gain,DMG)的收斂特性時,CBBA算法相對于最優(yōu)目標(biāo)值可達到至少50%的最優(yōu)性[12],同時,由于CBBA算法運行時間為多項式時間,當(dāng)推演實體和任務(wù)數(shù)量增多時,CBBA算法的可擴展性保證了其在實時動態(tài)環(huán)境下的適用性和快捷性[13]。
CBBA算法由任務(wù)包構(gòu)建、沖突解決兩個階段構(gòu)成,這兩個階段循環(huán)迭代直到完成任務(wù)分配,如圖2所示。第一階段采用基于市場的分布式拍賣策略作為任務(wù)選擇機制,第二階段使用基于局部通信的一致性策略作為沖突解決機制,結(jié)合分布式拍賣算法和一致性算法的優(yōu)勢,實現(xiàn)快速產(chǎn)生無沖突的可行解決方案。
圖2 CBBA算法框圖
2.1.1 任務(wù)構(gòu)建
在RMDF框架中,推演實體采用貪婪的方式進行局部任務(wù)包的構(gòu)建。每個推演實體綁定四個向量,分別是任務(wù)包bi,任務(wù)執(zhí)行路徑列表pi,獲勝者列表zi以及獲勝者出價列表yi。對于所有未分配的任務(wù),推演實體將其連續(xù)添加到自身任務(wù)包中,并隨著分配過程的進行不斷更新上述四個向量,直到推演實體無法添加任務(wù)或任務(wù)全部分配完畢為止。
新任務(wù)添加到任務(wù)包中的方式為:計算各個推演實體執(zhí)行各個任務(wù)的收益,從中選取收益最大的任務(wù)作為目標(biāo)任務(wù),相對應(yīng)的推演實體作為目標(biāo)實體。將目標(biāo)任務(wù)的收益值與當(dāng)前獲勝者出價列表yi中對應(yīng)的收益值進行對比,若目標(biāo)任務(wù)的收益值更大,則將目標(biāo)任務(wù)添加至目標(biāo)實體的任務(wù)包中,并更新目標(biāo)實體的四個向量。
(1)
邊緣收益值是根據(jù)其添加到推演實體的任務(wù)包前后,推演實體的總收益值之差得到的。單個推演實體aj在tj時間完成任務(wù)j時的收益Jj(aj,tj)根據(jù)下式計算:
Jj(aj,tj)=e-λ·tjRj(aj)
(2)
其中λ為演實體aj的收益折扣因子??紤]到框架的便捷性,折扣因子可以根據(jù)推演實體的類型統(tǒng)一設(shè)置。
2.1.2 沖突解決
各推演實體完成自身任務(wù)包的構(gòu)建后,進入CBBA算法的沖突解決階段。在這個階段中,推演實體通過局部通信共享各自的任務(wù)信息,實現(xiàn)任務(wù)沖突解決。相鄰?fù)蒲輰嶓w的共享向量包括:獲勝者列表zi,獲勝者出價列表yi以及新引入的時間戳集合si。
si表示推演實體i最后一次更新信息的時間,時間戳更新公式如下:
(3)
其中,τr是消息接收時間。
當(dāng)同一任務(wù)出現(xiàn)在多個實體的任務(wù)包中時,收益值最高的實體競拍到此任務(wù),其余實體任務(wù)包的對應(yīng)任務(wù)失效,同時獲得目標(biāo)任務(wù)的實體更新自身信息結(jié)構(gòu),即該推演實體會釋放在目標(biāo)任務(wù)之后添加的任務(wù),并作為新任務(wù)由推演實體再次競拍。
在本階段,當(dāng)實體i收到另一個實體k的zk、yk、sk時,實體i會根據(jù)自身zi和si來確定任務(wù)的最新信息。對任務(wù)i,實體i有三種可能的處理方式,決策規(guī)則如表1所示。
表1 推演實體沖突解決策規(guī)則表
快速決策框架事實上是一個簡化的推演評估系統(tǒng)原型。為提高框架的可擴展性和易修改性,本文采用了模塊化的設(shè)計思想,根據(jù)決策流程特點和一般兵棋推演評估流程,將框架分為四個子模塊,分別是:引擎模塊、環(huán)境模塊、實體模型模塊和視圖模塊。
(1)引擎模塊:引擎模塊的核心作用是實現(xiàn)推演評估的驅(qū)動,包含推演流程控制、任務(wù)分配、路徑控制、基礎(chǔ)策略等將模擬過程向前推進的關(guān)鍵方法。其中任務(wù)分配使用上文介紹的CBBA算法。
(2)環(huán)境模塊:環(huán)境模塊包含一個經(jīng)過簡化的推演環(huán)境對象,為了支持快速決策,框架將復(fù)雜的推演環(huán)境簡化為空中、地面、海上三個不同的環(huán)境層,每一層以環(huán)境網(wǎng)格的方式表示,同時在網(wǎng)格內(nèi)附加任務(wù)、地形、敵方實體等信息。
(3)實體模型模塊:實體模型模塊包含有關(guān)兵棋推演期間使用的推演實體和任務(wù)的必要信息。為了創(chuàng)建異構(gòu)的推演實體,框架支持包括地面實體(UGV)、水面實體(USV)、空中實體(UAV)和防空實體(CAD)等多種異構(gòu)推演實體。
(4)視圖模塊負責(zé)以快速推演過程的可視化表示。
快速決策框架的總體框架如圖3所示。
圖3 快速決策模型總體框架
2.2.1 折扣因子與實體配置
實體配置是推演決策過程中的重要環(huán)節(jié),推演實體配置與CBBA算法的收益函數(shù)密切相關(guān),如上文所述,CBBA算法的收益函數(shù)如下:
Jj(aj,tj)=e-λ·tjRj(aj)
(4)
其中給出了推演實體aj在tj時間完成任務(wù)j時的收益。收益由兩部分構(gòu)成,第一部分是任務(wù)的標(biāo)準收益Rj(aj),該收益是一個與推演實體索引aj相關(guān)的函數(shù);第二部分是折扣收益,它是任務(wù)j完成時間t的函數(shù),考慮到在實際情況中,完成給定任務(wù)的收益與完成任務(wù)的時間具有負相關(guān)性,為了更貼近實際,在目標(biāo)收益中引入了折扣因子-λ·tj,用于表示目標(biāo)收益隨時間遞減的特性。
由于折扣因子是任務(wù)完成時間t的函數(shù),因此,在設(shè)定折扣因子時,需要考慮推演想定中行動范圍(地圖)的大小,并據(jù)此設(shè)定合適的折扣因子或折扣因子取值區(qū)間。當(dāng)折扣因子的區(qū)間確定后,可以通過CBBA算法來優(yōu)化不同階段的推演實體配置,提出了如圖4所示的優(yōu)化結(jié)構(gòu),從而基于折扣因子獲得優(yōu)化后的推演實體配置。
圖4 基于折扣因子的實體配置優(yōu)化
2.2.2 環(huán)境層與殺傷率
在模擬環(huán)境中,框架基于核密度估計(KDE)算法,通過估計地圖上給定點相對于對手實體位置的危險級別(即對手實體單位的有效性級別),將指定區(qū)域內(nèi)對手實體的作用要素。在本文提出的快速決策框架中,假定推演實體的作用效果分布與其作用距離相關(guān),采用Epanechnikov函數(shù)作為核函數(shù)。
(5)
(6)
其中d是推演實體與地圖上指定點之間的距離。d=0時,推演實體的殺傷率取分布的最大值1。
首先,在地面層,空中實體、地面實體、水面實體和防空實體都可以在特定的作用區(qū)域?qū)方構(gòu)成有效威脅。第二,在海上環(huán)境層,水面實體是主要威脅,但空中實體、地面實體和防空實體也作為有效的敵方實體加以考慮。第三,在空中環(huán)境層,A方的威脅主要來自于B方的空中實體和防空實體,如果在該區(qū)域存在B方的防空力量,則在該區(qū)域的作用效果上,將體現(xiàn)出對A方的重大威脅。
2.2.3 簡化的行動模型與行動評估
行動建模抽象并簡化了實體的行為和相互關(guān)系,本文提出的框架基于概率對行動模型進行簡化,以健康度Hp、作用效果L、命中概率PH、探測概率PD、瞄準系統(tǒng)可靠性PT、設(shè)備可靠性PW和層效能系數(shù)EL作為HL系統(tǒng)F的影響因子。
F=Hp·L·PH·PD·PT·PW·EL
(7)
除此之外,推演實體的損傷效果建模對行動模型也非常重要,框架通過損傷矩陣定義推演實體在交戰(zhàn)中對抗對手的有效性。在模擬環(huán)境中,框架采用如表2所示的作用矩陣。
表2 不同環(huán)境層的推演實體作用系數(shù)
推演實體的能力按照下列公式給出的方式進行簡化建模。
Fk=Fk-1-Fok
(8)
Mk=Mk-1-Mok
(9)
其中,F(xiàn)k、Mk分別是k時刻推演實體的HL和機動性。Fok是時間k時對手實體的HL。
框架以雙方推演實體的平均機動性和平均HL能力作為行動評估指標(biāo),平均機動性和平均HL能力的計算公式如下所示。
(10)
(11)
其中x表示A方和B方,t表示資產(chǎn)對應(yīng)的環(huán)境層,F(xiàn)、M是推演實體交戰(zhàn)后的機動性和HL能力,n是對抗后的幸存的推演實體數(shù)量。
為了驗證本文所提出的快速決策框架的可行性和準確性,在試驗環(huán)境中構(gòu)建一個簡單的推演系統(tǒng)對框架進行仿真。
在驗證框架所使用的推演想定中,雙方的實體是異構(gòu)的,可用推演實體包括了無人飛行器、地面車輛和水面船只。無人飛行器建模時考慮了其中高空長航程能力;地面車輛基于通用運輸車的性能進行建模,同時假設(shè)該地面車輛具有在任何地形下移動的能力;水面船只基于小型無人船的特點建模。由于推演實體的載油量和油耗特點對于任務(wù)的分配至關(guān)重要,因此這些參數(shù)在建模時予以特別考慮。異構(gòu)實體模型的參數(shù)如表3所示。
表3 推演實體建模的核心參數(shù)
推演環(huán)境設(shè)定為一個小型的100×100的網(wǎng)格環(huán)境,推演任務(wù)是A方需要穿越B方防守區(qū)域,并竟可能多地消滅B方實體。初始的A方推演實體為2架無人飛行器,B方的推演實體為不同網(wǎng)格環(huán)境中的不同位置的1輛地面車輛以及2架無人飛行器。推演結(jié)果如表4所示。
表4 第一次推演結(jié)果
從表4數(shù)據(jù)中,可以看到即使選擇了適宜的折扣因子λ,A方仍然沒有能夠完成任務(wù)。由于B方的空中實體仍然幸存,因此A方對推演實體的配置進行更新,針對B方空中存在幸存實體,增加A方的空中力量,即在相同的想定下,A方無人飛行器由2架增加到3架。B方實體部署不變。推演結(jié)果如表5所示。
表5 第一次推演結(jié)果
可以看出,在同樣的場景中,A方通過調(diào)整決策,即調(diào)整A方的實體配置,確保了任務(wù)的完成。
本文提出了一種面向兵棋推演的快速決策框架,來加速推演過程中的行動方案分析和決策優(yōu)化。通過分層的網(wǎng)格環(huán)境來簡化表示復(fù)雜的推演環(huán)境,通過推演實體的核心參數(shù)來確定其性能模型和行為模型。敵方實體的作用效果,簡化為地面、海上和空中三個網(wǎng)格環(huán)境層次上的作用效果。通過一致性包算法實現(xiàn)推演實體的自動任務(wù)分配,通過快速仿真實現(xiàn)推演策略的優(yōu)化。仿真表明,該框架具有較高的可行性和執(zhí)行效率。
在確保效率的前提下,對一致性包算法進行改進,使其適應(yīng)多實體聯(lián)合任務(wù)分配是下一步的研究內(nèi)容。在確保準確性的前提下,通過引入更多的隨機分布,如增加實體間通信的不確定性、態(tài)勢感知的不確定性來更好的模擬現(xiàn)實,也是下一步的重點研究內(nèi)容。