国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種用于輔助兵棋推演的快速決策框架研究

2024-04-10 10:32:00趙建印
關(guān)鍵詞:兵棋實體框架

陳 健,趙建印,紀 紅

(海軍航空大學(xué),山東 煙臺 264001)

0 引言

現(xiàn)代兵棋是一種“兩方或多方指揮員直接參與,依據(jù)一定數(shù)據(jù)、 規(guī)則,通過一系列對抗與裁決的過程,實現(xiàn)對行動過程模擬、邏輯研究、評估論證的工具”[1]。隨著現(xiàn)代計算機技術(shù)與兵棋推演系統(tǒng)的融合發(fā)展,兵棋推演系統(tǒng)中的行為實體、行動過程、行為決策都會隨著實際發(fā)展態(tài)勢展現(xiàn)出不可預(yù)知的變化[2]。但是,現(xiàn)代兵棋推演系統(tǒng)在提高真實性的同時,也帶來了另一個問題,即在推演過程中實施指揮決策的人員(指揮員),不得不面對更復(fù)雜的實體構(gòu)成和更不確定的推演環(huán)境,以及龐大的異構(gòu)實體狀態(tài)空間和行為空間。這使得在兵棋推演過程中,確定一個囊括己方所有實體的最優(yōu)行動方案變得非常困難。加上信息技術(shù)的融合使用,模糊了傳統(tǒng)兵棋回合制的概念,更快的推演節(jié)奏,要求雙方指揮員在有限的時間內(nèi)做出科學(xué)合理的決策部署。因此,構(gòu)建一個相對通用、合理簡化、反應(yīng)迅速且具有較高準確性的快速決策框架,并基于該框架和具體的推演想定,實現(xiàn)推演的快速輔助決策系統(tǒng),用來在復(fù)雜的推演環(huán)境中輔助指揮員優(yōu)化各個階段的行動策略,具有較高的現(xiàn)實意義。

1 研究現(xiàn)狀及存在問題

目前,對兵棋推演中的輔助決策框架和決策系統(tǒng)有過很多研究。文獻[3]將關(guān)注點聚焦在計算機兵棋博弈系統(tǒng)上,將知識規(guī)則與知識庫作為核心,避免因為兵棋規(guī)則復(fù)雜而造成的決策困難,同時引入推理機構(gòu)輔助知識推理,搭建了智能決策支持系統(tǒng)。文獻[4]利用規(guī)則推理對具體類別的推演實體行為進行規(guī)劃,將規(guī)劃結(jié)果表示為行為樹的節(jié)點,從而完成了實體行為樹框架的搭建,實現(xiàn)動態(tài)決策。文獻[5]提出了分層智能規(guī)劃方法并搭建了完整模型。文獻[6]同樣使用行為樹方法,研究了實體模型的外部自主決策過程。文獻[7]在決策過程中引入了博弈的概念和機器學(xué)習(xí)中的決策樹算法,建立了兵棋推演中的決策模型。上述研究存在兩個共同的問題:一是決策模型(算法)大多較為復(fù)雜,適用于大型兵棋推演系統(tǒng),但很難滿足上文提出的合理簡化和反應(yīng)迅速的要求;二是大部分決策模型考慮的對象是計算機生成實體(CGF)或完全由計算機控制的智能體(Agent),而不是兵棋推演過程中的指揮員。

2 快速決策框架設(shè)計

本文基于一般的決策和規(guī)劃流程,提出了一個快速決策框架(Rapid Military Decision Framework,RMDF),該框架針對異構(gòu)實體模型和動態(tài)推演環(huán)境,基于一致性包算法實現(xiàn)任務(wù)分配,生成備選行動策略,通過簡化的作用效果熱圖和概率模型實現(xiàn)行動策略的快速評估和決策輔助,能夠在推演之前或推演期間,根據(jù)成功概率、生存能力提供行動方案的快速評估,可以有效地輔助兵棋推演指揮人員進行復(fù)雜態(tài)勢下的兵棋推演。

本文提出的快速決策框架邏輯如圖1所示。

圖1 快速決策框架邏輯圖

2.1 基于一致性包算法的任務(wù)分配策略

任務(wù)分配是制定行動方案的基礎(chǔ)。任務(wù)分配指根據(jù)總的任務(wù)目標(biāo),將兵棋推演想定中的B方實體分配給A方實體(A、B互為對手)的過程,是一個典型的多實體任務(wù)分配問題。依據(jù)文獻[8]提出的分類法,多實體協(xié)同任務(wù)分配問題等同于交叉調(diào)度的單任務(wù)多智能體時間 擴 展 任 務(wù) 分 配 問 題 (cross-schedule Dependent Single Task Multi-Robot Time-extended task Allocation,XDSTMRTA),其中交叉調(diào)度是指想定中的實體是否執(zhí)行某個任務(wù)受其他實體任務(wù)執(zhí)行情況影響;單任務(wù)是指推演實體一次只能執(zhí)行一個任務(wù);時間擴展是指推演實體在執(zhí)行任務(wù)之前需要預(yù)先進行任務(wù)規(guī)劃。對于XDSTMRTA問題,常見的任務(wù)分配算法有集中式和分布式兩類,相比集中式分配算法存在中央節(jié)點負荷大、系統(tǒng)魯棒性差等缺點[9],分布式算法可提供更好的穩(wěn)健性以及負荷的均衡性,是目前廣為采用的分配算法[10]。本文采用Choi等人提出的一致性包算法 (Consensus Based Bundle Algorithm,CBBA)作為推演實體任務(wù)分配算法。CBBA算法的特點是去中心化,同時可以很好地應(yīng)用于異構(gòu)實體模型和動態(tài)推演環(huán)境。文獻[11]證明了CBBA算法可收斂到納什均衡(Nash equilibrium)但非帕累托最優(yōu)(Pareto optimal) 解,同時指出 CBBA算法可為單智能體單任務(wù)分配問題 (Single-Robot Single Task Task Allocation,SRSTTA)提供次優(yōu)解決方案。當(dāng)CBBA算法非負評分機制滿足邊際增益遞減 (Diminishing Marginal Gain,DMG)的收斂特性時,CBBA算法相對于最優(yōu)目標(biāo)值可達到至少50%的最優(yōu)性[12],同時,由于CBBA算法運行時間為多項式時間,當(dāng)推演實體和任務(wù)數(shù)量增多時,CBBA算法的可擴展性保證了其在實時動態(tài)環(huán)境下的適用性和快捷性[13]。

CBBA算法由任務(wù)包構(gòu)建、沖突解決兩個階段構(gòu)成,這兩個階段循環(huán)迭代直到完成任務(wù)分配,如圖2所示。第一階段采用基于市場的分布式拍賣策略作為任務(wù)選擇機制,第二階段使用基于局部通信的一致性策略作為沖突解決機制,結(jié)合分布式拍賣算法和一致性算法的優(yōu)勢,實現(xiàn)快速產(chǎn)生無沖突的可行解決方案。

圖2 CBBA算法框圖

2.1.1 任務(wù)構(gòu)建

在RMDF框架中,推演實體采用貪婪的方式進行局部任務(wù)包的構(gòu)建。每個推演實體綁定四個向量,分別是任務(wù)包bi,任務(wù)執(zhí)行路徑列表pi,獲勝者列表zi以及獲勝者出價列表yi。對于所有未分配的任務(wù),推演實體將其連續(xù)添加到自身任務(wù)包中,并隨著分配過程的進行不斷更新上述四個向量,直到推演實體無法添加任務(wù)或任務(wù)全部分配完畢為止。

新任務(wù)添加到任務(wù)包中的方式為:計算各個推演實體執(zhí)行各個任務(wù)的收益,從中選取收益最大的任務(wù)作為目標(biāo)任務(wù),相對應(yīng)的推演實體作為目標(biāo)實體。將目標(biāo)任務(wù)的收益值與當(dāng)前獲勝者出價列表yi中對應(yīng)的收益值進行對比,若目標(biāo)任務(wù)的收益值更大,則將目標(biāo)任務(wù)添加至目標(biāo)實體的任務(wù)包中,并更新目標(biāo)實體的四個向量。

(1)

邊緣收益值是根據(jù)其添加到推演實體的任務(wù)包前后,推演實體的總收益值之差得到的。單個推演實體aj在tj時間完成任務(wù)j時的收益Jj(aj,tj)根據(jù)下式計算:

Jj(aj,tj)=e-λ·tjRj(aj)

(2)

其中λ為演實體aj的收益折扣因子??紤]到框架的便捷性,折扣因子可以根據(jù)推演實體的類型統(tǒng)一設(shè)置。

2.1.2 沖突解決

各推演實體完成自身任務(wù)包的構(gòu)建后,進入CBBA算法的沖突解決階段。在這個階段中,推演實體通過局部通信共享各自的任務(wù)信息,實現(xiàn)任務(wù)沖突解決。相鄰?fù)蒲輰嶓w的共享向量包括:獲勝者列表zi,獲勝者出價列表yi以及新引入的時間戳集合si。

si表示推演實體i最后一次更新信息的時間,時間戳更新公式如下:

(3)

其中,τr是消息接收時間。

當(dāng)同一任務(wù)出現(xiàn)在多個實體的任務(wù)包中時,收益值最高的實體競拍到此任務(wù),其余實體任務(wù)包的對應(yīng)任務(wù)失效,同時獲得目標(biāo)任務(wù)的實體更新自身信息結(jié)構(gòu),即該推演實體會釋放在目標(biāo)任務(wù)之后添加的任務(wù),并作為新任務(wù)由推演實體再次競拍。

在本階段,當(dāng)實體i收到另一個實體k的zk、yk、sk時,實體i會根據(jù)自身zi和si來確定任務(wù)的最新信息。對任務(wù)i,實體i有三種可能的處理方式,決策規(guī)則如表1所示。

表1 推演實體沖突解決策規(guī)則表

2.2 評估決策

快速決策框架事實上是一個簡化的推演評估系統(tǒng)原型。為提高框架的可擴展性和易修改性,本文采用了模塊化的設(shè)計思想,根據(jù)決策流程特點和一般兵棋推演評估流程,將框架分為四個子模塊,分別是:引擎模塊、環(huán)境模塊、實體模型模塊和視圖模塊。

(1)引擎模塊:引擎模塊的核心作用是實現(xiàn)推演評估的驅(qū)動,包含推演流程控制、任務(wù)分配、路徑控制、基礎(chǔ)策略等將模擬過程向前推進的關(guān)鍵方法。其中任務(wù)分配使用上文介紹的CBBA算法。

(2)環(huán)境模塊:環(huán)境模塊包含一個經(jīng)過簡化的推演環(huán)境對象,為了支持快速決策,框架將復(fù)雜的推演環(huán)境簡化為空中、地面、海上三個不同的環(huán)境層,每一層以環(huán)境網(wǎng)格的方式表示,同時在網(wǎng)格內(nèi)附加任務(wù)、地形、敵方實體等信息。

(3)實體模型模塊:實體模型模塊包含有關(guān)兵棋推演期間使用的推演實體和任務(wù)的必要信息。為了創(chuàng)建異構(gòu)的推演實體,框架支持包括地面實體(UGV)、水面實體(USV)、空中實體(UAV)和防空實體(CAD)等多種異構(gòu)推演實體。

(4)視圖模塊負責(zé)以快速推演過程的可視化表示。

快速決策框架的總體框架如圖3所示。

圖3 快速決策模型總體框架

2.2.1 折扣因子與實體配置

實體配置是推演決策過程中的重要環(huán)節(jié),推演實體配置與CBBA算法的收益函數(shù)密切相關(guān),如上文所述,CBBA算法的收益函數(shù)如下:

Jj(aj,tj)=e-λ·tjRj(aj)

(4)

其中給出了推演實體aj在tj時間完成任務(wù)j時的收益。收益由兩部分構(gòu)成,第一部分是任務(wù)的標(biāo)準收益Rj(aj),該收益是一個與推演實體索引aj相關(guān)的函數(shù);第二部分是折扣收益,它是任務(wù)j完成時間t的函數(shù),考慮到在實際情況中,完成給定任務(wù)的收益與完成任務(wù)的時間具有負相關(guān)性,為了更貼近實際,在目標(biāo)收益中引入了折扣因子-λ·tj,用于表示目標(biāo)收益隨時間遞減的特性。

由于折扣因子是任務(wù)完成時間t的函數(shù),因此,在設(shè)定折扣因子時,需要考慮推演想定中行動范圍(地圖)的大小,并據(jù)此設(shè)定合適的折扣因子或折扣因子取值區(qū)間。當(dāng)折扣因子的區(qū)間確定后,可以通過CBBA算法來優(yōu)化不同階段的推演實體配置,提出了如圖4所示的優(yōu)化結(jié)構(gòu),從而基于折扣因子獲得優(yōu)化后的推演實體配置。

圖4 基于折扣因子的實體配置優(yōu)化

2.2.2 環(huán)境層與殺傷率

在模擬環(huán)境中,框架基于核密度估計(KDE)算法,通過估計地圖上給定點相對于對手實體位置的危險級別(即對手實體單位的有效性級別),將指定區(qū)域內(nèi)對手實體的作用要素。在本文提出的快速決策框架中,假定推演實體的作用效果分布與其作用距離相關(guān),采用Epanechnikov函數(shù)作為核函數(shù)。

(5)

(6)

其中d是推演實體與地圖上指定點之間的距離。d=0時,推演實體的殺傷率取分布的最大值1。

首先,在地面層,空中實體、地面實體、水面實體和防空實體都可以在特定的作用區(qū)域?qū)方構(gòu)成有效威脅。第二,在海上環(huán)境層,水面實體是主要威脅,但空中實體、地面實體和防空實體也作為有效的敵方實體加以考慮。第三,在空中環(huán)境層,A方的威脅主要來自于B方的空中實體和防空實體,如果在該區(qū)域存在B方的防空力量,則在該區(qū)域的作用效果上,將體現(xiàn)出對A方的重大威脅。

2.2.3 簡化的行動模型與行動評估

行動建模抽象并簡化了實體的行為和相互關(guān)系,本文提出的框架基于概率對行動模型進行簡化,以健康度Hp、作用效果L、命中概率PH、探測概率PD、瞄準系統(tǒng)可靠性PT、設(shè)備可靠性PW和層效能系數(shù)EL作為HL系統(tǒng)F的影響因子。

F=Hp·L·PH·PD·PT·PW·EL

(7)

除此之外,推演實體的損傷效果建模對行動模型也非常重要,框架通過損傷矩陣定義推演實體在交戰(zhàn)中對抗對手的有效性。在模擬環(huán)境中,框架采用如表2所示的作用矩陣。

表2 不同環(huán)境層的推演實體作用系數(shù)

推演實體的能力按照下列公式給出的方式進行簡化建模。

Fk=Fk-1-Fok

(8)

Mk=Mk-1-Mok

(9)

其中,F(xiàn)k、Mk分別是k時刻推演實體的HL和機動性。Fok是時間k時對手實體的HL。

框架以雙方推演實體的平均機動性和平均HL能力作為行動評估指標(biāo),平均機動性和平均HL能力的計算公式如下所示。

(10)

(11)

其中x表示A方和B方,t表示資產(chǎn)對應(yīng)的環(huán)境層,F(xiàn)、M是推演實體交戰(zhàn)后的機動性和HL能力,n是對抗后的幸存的推演實體數(shù)量。

3 仿真驗證

為了驗證本文所提出的快速決策框架的可行性和準確性,在試驗環(huán)境中構(gòu)建一個簡單的推演系統(tǒng)對框架進行仿真。

在驗證框架所使用的推演想定中,雙方的實體是異構(gòu)的,可用推演實體包括了無人飛行器、地面車輛和水面船只。無人飛行器建模時考慮了其中高空長航程能力;地面車輛基于通用運輸車的性能進行建模,同時假設(shè)該地面車輛具有在任何地形下移動的能力;水面船只基于小型無人船的特點建模。由于推演實體的載油量和油耗特點對于任務(wù)的分配至關(guān)重要,因此這些參數(shù)在建模時予以特別考慮。異構(gòu)實體模型的參數(shù)如表3所示。

表3 推演實體建模的核心參數(shù)

推演環(huán)境設(shè)定為一個小型的100×100的網(wǎng)格環(huán)境,推演任務(wù)是A方需要穿越B方防守區(qū)域,并竟可能多地消滅B方實體。初始的A方推演實體為2架無人飛行器,B方的推演實體為不同網(wǎng)格環(huán)境中的不同位置的1輛地面車輛以及2架無人飛行器。推演結(jié)果如表4所示。

表4 第一次推演結(jié)果

從表4數(shù)據(jù)中,可以看到即使選擇了適宜的折扣因子λ,A方仍然沒有能夠完成任務(wù)。由于B方的空中實體仍然幸存,因此A方對推演實體的配置進行更新,針對B方空中存在幸存實體,增加A方的空中力量,即在相同的想定下,A方無人飛行器由2架增加到3架。B方實體部署不變。推演結(jié)果如表5所示。

表5 第一次推演結(jié)果

可以看出,在同樣的場景中,A方通過調(diào)整決策,即調(diào)整A方的實體配置,確保了任務(wù)的完成。

4 結(jié)論

本文提出了一種面向兵棋推演的快速決策框架,來加速推演過程中的行動方案分析和決策優(yōu)化。通過分層的網(wǎng)格環(huán)境來簡化表示復(fù)雜的推演環(huán)境,通過推演實體的核心參數(shù)來確定其性能模型和行為模型。敵方實體的作用效果,簡化為地面、海上和空中三個網(wǎng)格環(huán)境層次上的作用效果。通過一致性包算法實現(xiàn)推演實體的自動任務(wù)分配,通過快速仿真實現(xiàn)推演策略的優(yōu)化。仿真表明,該框架具有較高的可行性和執(zhí)行效率。

在確保效率的前提下,對一致性包算法進行改進,使其適應(yīng)多實體聯(lián)合任務(wù)分配是下一步的研究內(nèi)容。在確保準確性的前提下,通過引入更多的隨機分布,如增加實體間通信的不確定性、態(tài)勢感知的不確定性來更好的模擬現(xiàn)實,也是下一步的重點研究內(nèi)容。

猜你喜歡
兵棋實體框架
框架
兵棋推演:未來戰(zhàn)爭的水晶球
軍事文摘(2020年19期)2020-10-13 12:29:28
廣義框架的不相交性
前海自貿(mào)區(qū):金融服務(wù)實體
中國外匯(2019年18期)2019-11-25 01:41:54
基于兵棋推演實驗的綜合評估指標(biāo)度量方法
基于深度學(xué)習(xí)的兵棋實體決策效果智能評估模型
基于混合Beta分布的兵棋推演可信度評估方法研究
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
振興實體經(jīng)濟地方如何“釘釘子”
兩會進行時:緊扣實體經(jīng)濟“釘釘子”
海兴县| 开化县| 怀仁县| 灵璧县| 诸城市| 泽库县| 洪江市| 尼勒克县| 铁力市| 灌阳县| 柯坪县| 深水埗区| 穆棱市| 福清市| 安乡县| 惠水县| 元谋县| 澄江县| 绵阳市| 赤壁市| 隆尧县| 南部县| 兴安县| 托克托县| 嘉峪关市| 禹城市| 海原县| 文山县| 桦川县| 津市市| 凤翔县| 杨浦区| 黔江区| 建昌县| 天门市| 平乐县| 勐海县| 米林县| 彭山县| 延长县| 忻城县|