一種用于輔助兵棋推演的快速決策框架研究

2024-04-10 10:32:00趙建印

網(wǎng)絡(luò)安全與數(shù)據(jù)管理 2024年3期

陳健，趙建印，紀紅

(海軍航空大學(xué)，山東煙臺 264001)

0 引言

現(xiàn)代兵棋是一種“兩方或多方指揮員直接參與，依據(jù)一定數(shù)據(jù)、規(guī)則，通過一系列對抗與裁決的過程，實現(xiàn)對行動過程模擬、邏輯研究、評估論證的工具”[1]。隨著現(xiàn)代計算機技術(shù)與兵棋推演系統(tǒng)的融合發(fā)展，兵棋推演系統(tǒng)中的行為實體、行動過程、行為決策都會隨著實際發(fā)展態(tài)勢展現(xiàn)出不可預(yù)知的變化[2]。但是，現(xiàn)代兵棋推演系統(tǒng)在提高真實性的同時，也帶來了另一個問題，即在推演過程中實施指揮決策的人員(指揮員)，不得不面對更復(fù)雜的實體構(gòu)成和更不確定的推演環(huán)境，以及龐大的異構(gòu)實體狀態(tài)空間和行為空間。這使得在兵棋推演過程中，確定一個囊括己方所有實體的最優(yōu)行動方案變得非常困難。加上信息技術(shù)的融合使用，模糊了傳統(tǒng)兵棋回合制的概念，更快的推演節(jié)奏，要求雙方指揮員在有限的時間內(nèi)做出科學(xué)合理的決策部署。因此，構(gòu)建一個相對通用、合理簡化、反應(yīng)迅速且具有較高準確性的快速決策框架，并基于該框架和具體的推演想定，實現(xiàn)推演的快速輔助決策系統(tǒng)，用來在復(fù)雜的推演環(huán)境中輔助指揮員優(yōu)化各個階段的行動策略，具有較高的現(xiàn)實意義。

1 研究現(xiàn)狀及存在問題

目前，對兵棋推演中的輔助決策框架和決策系統(tǒng)有過很多研究。文獻[3]將關(guān)注點聚焦在計算機兵棋博弈系統(tǒng)上，將知識規(guī)則與知識庫作為核心，避免因為兵棋規(guī)則復(fù)雜而造成的決策困難，同時引入推理機構(gòu)輔助知識推理，搭建了智能決策支持系統(tǒng)。文獻[4]利用規(guī)則推理對具體類別的推演實體行為進行規(guī)劃，將規(guī)劃結(jié)果表示為行為樹的節(jié)點，從而完成了實體行為樹框架的搭建，實現(xiàn)動態(tài)決策。文獻[5]提出了分層智能規(guī)劃方法并搭建了完整模型。文獻[6]同樣使用行為樹方法，研究了實體模型的外部自主決策過程。文獻[7]在決策過程中引入了博弈的概念和機器學(xué)習(xí)中的決策樹算法，建立了兵棋推演中的決策模型。上述研究存在兩個共同的問題：一是決策模型(算法)大多較為復(fù)雜，適用于大型兵棋推演系統(tǒng)，但很難滿足上文提出的合理簡化和反應(yīng)迅速的要求；二是大部分決策模型考慮的對象是計算機生成實體(CGF)或完全由計算機控制的智能體(Agent)，而不是兵棋推演過程中的指揮員。

2 快速決策框架設(shè)計

本文基于一般的決策和規(guī)劃流程，提出了一個快速決策框架(Rapid Military Decision Framework，RMDF)，該框架針對異構(gòu)實體模型和動態(tài)推演環(huán)境，基于一致性包算法實現(xiàn)任務(wù)分配，生成備選行動策略，通過簡化的作用效果熱圖和概率模型實現(xiàn)行動策略的快速評估和決策輔助，能夠在推演之前或推演期間，根據(jù)成功概率、生存能力提供行動方案的快速評估，可以有效地輔助兵棋推演指揮人員進行復(fù)雜態(tài)勢下的兵棋推演。

本文提出的快速決策框架邏輯如圖1所示。

圖1 快速決策框架邏輯圖

2.1 基于一致性包算法的任務(wù)分配策略

任務(wù)分配是制定行動方案的基礎(chǔ)。任務(wù)分配指根據(jù)總的任務(wù)目標(biāo)，將兵棋推演想定中的B方實體分配給A方實體(A、B互為對手)的過程，是一個典型的多實體任務(wù)分配問題。依據(jù)文獻[8]提出的分類法，多實體協(xié)同任務(wù)分配問題等同于交叉調(diào)度的單任務(wù)多智能體時間擴展任務(wù) 分配問題 (cross-schedule Dependent Single Task Multi-Robot Time-extended task Allocation，XDSTMRTA)，其中交叉調(diào)度是指想定中的實體是否執(zhí)行某個任務(wù)受其他實體任務(wù)執(zhí)行情況影響；單任務(wù)是指推演實體一次只能執(zhí)行一個任務(wù)；時間擴展是指推演實體在執(zhí)行任務(wù)之前需要預(yù)先進行任務(wù)規(guī)劃。對于XDSTMRTA問題，常見的任務(wù)分配算法有集中式和分布式兩類，相比集中式分配算法存在中央節(jié)點負荷大、系統(tǒng)魯棒性差等缺點[9]，分布式算法可提供更好的穩(wěn)健性以及負荷的均衡性，是目前廣為采用的分配算法[10]。本文采用Choi等人提出的一致性包算法 (Consensus Based Bundle Algorithm，CBBA)作為推演實體任務(wù)分配算法。CBBA算法的特點是去中心化，同時可以很好地應(yīng)用于異構(gòu)實體模型和動態(tài)推演環(huán)境。文獻[11]證明了CBBA算法可收斂到納什均衡(Nash equilibrium)但非帕累托最優(yōu)(Pareto optimal) 解，同時指出 CBBA算法可為單智能體單任務(wù)分配問題 (Single-Robot Single Task Task Allocation，SRSTTA)提供次優(yōu)解決方案。當(dāng)CBBA算法非負評分機制滿足邊際增益遞減 (Diminishing Marginal Gain，DMG)的收斂特性時，CBBA算法相對于最優(yōu)目標(biāo)值可達到至少50%的最優(yōu)性[12]，同時，由于CBBA算法運行時間為多項式時間，當(dāng)推演實體和任務(wù)數(shù)量增多時，CBBA算法的可擴展性保證了其在實時動態(tài)環(huán)境下的適用性和快捷性[13]。

CBBA算法由任務(wù)包構(gòu)建、沖突解決兩個階段構(gòu)成，這兩個階段循環(huán)迭代直到完成任務(wù)分配，如圖2所示。第一階段采用基于市場的分布式拍賣策略作為任務(wù)選擇機制，第二階段使用基于局部通信的一致性策略作為沖突解決機制，結(jié)合分布式拍賣算法和一致性算法的優(yōu)勢，實現(xiàn)快速產(chǎn)生無沖突的可行解決方案。

圖2 CBBA算法框圖

2.1.1 任務(wù)構(gòu)建

在RMDF框架中，推演實體采用貪婪的方式進行局部任務(wù)包的構(gòu)建。每個推演實體綁定四個向量，分別是任務(wù)包bi，任務(wù)執(zhí)行路徑列表pi，獲勝者列表zi以及獲勝者出價列表yi。對于所有未分配的任務(wù)，推演實體將其連續(xù)添加到自身任務(wù)包中，并隨著分配過程的進行不斷更新上述四個向量，直到推演實體無法添加任務(wù)或任務(wù)全部分配完畢為止。

新任務(wù)添加到任務(wù)包中的方式為：計算各個推演實體執(zhí)行各個任務(wù)的收益，從中選取收益最大的任務(wù)作為目標(biāo)任務(wù)，相對應(yīng)的推演實體作為目標(biāo)實體。將目標(biāo)任務(wù)的收益值與當(dāng)前獲勝者出價列表yi中對應(yīng)的收益值進行對比，若目標(biāo)任務(wù)的收益值更大，則將目標(biāo)任務(wù)添加至目標(biāo)實體的任務(wù)包中，并更新目標(biāo)實體的四個向量。

(1)

邊緣收益值是根據(jù)其添加到推演實體的任務(wù)包前后，推演實體的總收益值之差得到的。單個推演實體aj在tj時間完成任務(wù)j時的收益Jj(aj，tj)根據(jù)下式計算：

Jj(aj，tj)=e-λ·tjRj(aj)

(2)

其中λ為演實體aj的收益折扣因子?？紤]到框架的便捷性，折扣因子可以根據(jù)推演實體的類型統(tǒng)一設(shè)置。

2.1.2 沖突解決

各推演實體完成自身任務(wù)包的構(gòu)建后，進入CBBA算法的沖突解決階段。在這個階段中，推演實體通過局部通信共享各自的任務(wù)信息，實現(xiàn)任務(wù)沖突解決。相鄰?fù)蒲輰嶓w的共享向量包括：獲勝者列表zi，獲勝者出價列表yi以及新引入的時間戳集合si。

si表示推演實體i最后一次更新信息的時間，時間戳更新公式如下：

(3)

其中，τr是消息接收時間。

當(dāng)同一任務(wù)出現(xiàn)在多個實體的任務(wù)包中時，收益值最高的實體競拍到此任務(wù)，其余實體任務(wù)包的對應(yīng)任務(wù)失效，同時獲得目標(biāo)任務(wù)的實體更新自身信息結(jié)構(gòu)，即該推演實體會釋放在目標(biāo)任務(wù)之后添加的任務(wù)，并作為新任務(wù)由推演實體再次競拍。

在本階段，當(dāng)實體i收到另一個實體k的zk、yk、sk時，實體i會根據(jù)自身zi和si來確定任務(wù)的最新信息。對任務(wù)i，實體i有三種可能的處理方式，決策規(guī)則如表1所示。

表1 推演實體沖突解決策規(guī)則表

2.2 評估決策

快速決策框架事實上是一個簡化的推演評估系統(tǒng)原型。為提高框架的可擴展性和易修改性，本文采用了模塊化的設(shè)計思想，根據(jù)決策流程特點和一般兵棋推演評估流程，將框架分為四個子模塊，分別是：引擎模塊、環(huán)境模塊、實體模型模塊和視圖模塊。

(1)引擎模塊：引擎模塊的核心作用是實現(xiàn)推演評估的驅(qū)動，包含推演流程控制、任務(wù)分配、路徑控制、基礎(chǔ)策略等將模擬過程向前推進的關(guān)鍵方法。其中任務(wù)分配使用上文介紹的CBBA算法。

(2)環(huán)境模塊：環(huán)境模塊包含一個經(jīng)過簡化的推演環(huán)境對象，為了支持快速決策，框架將復(fù)雜的推演環(huán)境簡化為空中、地面、海上三個不同的環(huán)境層，每一層以環(huán)境網(wǎng)格的方式表示，同時在網(wǎng)格內(nèi)附加任務(wù)、地形、敵方實體等信息。

(3)實體模型模塊：實體模型模塊包含有關(guān)兵棋推演期間使用的推演實體和任務(wù)的必要信息。為了創(chuàng)建異構(gòu)的推演實體，框架支持包括地面實體(UGV)、水面實體(USV)、空中實體(UAV)和防空實體(CAD)等多種異構(gòu)推演實體。

(4)視圖模塊負責(zé)以快速推演過程的可視化表示。

快速決策框架的總體框架如圖3所示。

圖3 快速決策模型總體框架

2.2.1 折扣因子與實體配置

實體配置是推演決策過程中的重要環(huán)節(jié)，推演實體配置與CBBA算法的收益函數(shù)密切相關(guān)，如上文所述，CBBA算法的收益函數(shù)如下：

Jj(aj，tj)=e-λ·tjRj(aj)

(4)

其中給出了推演實體aj在tj時間完成任務(wù)j時的收益。收益由兩部分構(gòu)成，第一部分是任務(wù)的標(biāo)準收益Rj(aj)，該收益是一個與推演實體索引aj相關(guān)的函數(shù)；第二部分是折扣收益，它是任務(wù)j完成時間t的函數(shù)，考慮到在實際情況中，完成給定任務(wù)的收益與完成任務(wù)的時間具有負相關(guān)性，為了更貼近實際，在目標(biāo)收益中引入了折扣因子-λ·tj，用于表示目標(biāo)收益隨時間遞減的特性。

由于折扣因子是任務(wù)完成時間t的函數(shù)，因此，在設(shè)定折扣因子時，需要考慮推演想定中行動范圍(地圖)的大小，并據(jù)此設(shè)定合適的折扣因子或折扣因子取值區(qū)間。當(dāng)折扣因子的區(qū)間確定后，可以通過CBBA算法來優(yōu)化不同階段的推演實體配置，提出了如圖4所示的優(yōu)化結(jié)構(gòu)，從而基于折扣因子獲得優(yōu)化后的推演實體配置。

圖4 基于折扣因子的實體配置優(yōu)化

2.2.2 環(huán)境層與殺傷率

在模擬環(huán)境中，框架基于核密度估計(KDE)算法，通過估計地圖上給定點相對于對手實體位置的危險級別(即對手實體單位的有效性級別)，將指定區(qū)域內(nèi)對手實體的作用要素。在本文提出的快速決策框架中，假定推演實體的作用效果分布與其作用距離相關(guān)，采用Epanechnikov函數(shù)作為核函數(shù)。

(5)

(6)

其中d是推演實體與地圖上指定點之間的距離。d=0時，推演實體的殺傷率取分布的最大值1。

首先，在地面層，空中實體、地面實體、水面實體和防空實體都可以在特定的作用區(qū)域?qū)方構(gòu)成有效威脅。第二，在海上環(huán)境層，水面實體是主要威脅，但空中實體、地面實體和防空實體也作為有效的敵方實體加以考慮。第三，在空中環(huán)境層，A方的威脅主要來自于B方的空中實體和防空實體，如果在該區(qū)域存在B方的防空力量，則在該區(qū)域的作用效果上，將體現(xiàn)出對A方的重大威脅。

2.2.3 簡化的行動模型與行動評估

行動建模抽象并簡化了實體的行為和相互關(guān)系，本文提出的框架基于概率對行動模型進行簡化，以健康度Hp、作用效果L、命中概率PH、探測概率PD、瞄準系統(tǒng)可靠性PT、設(shè)備可靠性PW和層效能系數(shù)EL作為HL系統(tǒng)F的影響因子。

F=Hp·L·PH·PD·PT·PW·EL

(7)

除此之外，推演實體的損傷效果建模對行動模型也非常重要，框架通過損傷矩陣定義推演實體在交戰(zhàn)中對抗對手的有效性。在模擬環(huán)境中，框架采用如表2所示的作用矩陣。

表2 不同環(huán)境層的推演實體作用系數(shù)

推演實體的能力按照下列公式給出的方式進行簡化建模。

Fk=Fk-1-Fok

(8)

Mk=Mk-1-Mok

(9)

其中，F(xiàn)k、Mk分別是k時刻推演實體的HL和機動性。Fok是時間k時對手實體的HL。

框架以雙方推演實體的平均機動性和平均HL能力作為行動評估指標(biāo)，平均機動性和平均HL能力的計算公式如下所示。

(10)

(11)

其中x表示A方和B方，t表示資產(chǎn)對應(yīng)的環(huán)境層，F(xiàn)、M是推演實體交戰(zhàn)后的機動性和HL能力，n是對抗后的幸存的推演實體數(shù)量。

3 仿真驗證

為了驗證本文所提出的快速決策框架的可行性和準確性，在試驗環(huán)境中構(gòu)建一個簡單的推演系統(tǒng)對框架進行仿真。

在驗證框架所使用的推演想定中，雙方的實體是異構(gòu)的，可用推演實體包括了無人飛行器、地面車輛和水面船只。無人飛行器建模時考慮了其中高空長航程能力；地面車輛基于通用運輸車的性能進行建模，同時假設(shè)該地面車輛具有在任何地形下移動的能力；水面船只基于小型無人船的特點建模。由于推演實體的載油量和油耗特點對于任務(wù)的分配至關(guān)重要，因此這些參數(shù)在建模時予以特別考慮。異構(gòu)實體模型的參數(shù)如表3所示。

表3 推演實體建模的核心參數(shù)

推演環(huán)境設(shè)定為一個小型的100×100的網(wǎng)格環(huán)境，推演任務(wù)是A方需要穿越B方防守區(qū)域，并竟可能多地消滅B方實體。初始的A方推演實體為2架無人飛行器，B方的推演實體為不同網(wǎng)格環(huán)境中的不同位置的1輛地面車輛以及2架無人飛行器。推演結(jié)果如表4所示。

表4 第一次推演結(jié)果

從表4數(shù)據(jù)中，可以看到即使選擇了適宜的折扣因子λ，A方仍然沒有能夠完成任務(wù)。由于B方的空中實體仍然幸存，因此A方對推演實體的配置進行更新，針對B方空中存在幸存實體，增加A方的空中力量，即在相同的想定下，A方無人飛行器由2架增加到3架。B方實體部署不變。推演結(jié)果如表5所示。

表5 第一次推演結(jié)果

可以看出，在同樣的場景中，A方通過調(diào)整決策，即調(diào)整A方的實體配置，確保了任務(wù)的完成。

4 結(jié)論

本文提出了一種面向兵棋推演的快速決策框架，來加速推演過程中的行動方案分析和決策優(yōu)化。通過分層的網(wǎng)格環(huán)境來簡化表示復(fù)雜的推演環(huán)境，通過推演實體的核心參數(shù)來確定其性能模型和行為模型。敵方實體的作用效果，簡化為地面、海上和空中三個網(wǎng)格環(huán)境層次上的作用效果。通過一致性包算法實現(xiàn)推演實體的自動任務(wù)分配，通過快速仿真實現(xiàn)推演策略的優(yōu)化。仿真表明，該框架具有較高的可行性和執(zhí)行效率。

在確保效率的前提下，對一致性包算法進行改進，使其適應(yīng)多實體聯(lián)合任務(wù)分配是下一步的研究內(nèi)容。在確保準確性的前提下，通過引入更多的隨機分布，如增加實體間通信的不確定性、態(tài)勢感知的不確定性來更好的模擬現(xiàn)實，也是下一步的重點研究內(nèi)容。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡