融合三支多屬性決策與SAC的兵棋推演智能決策技術(shù)

2024-11-21 00:00:00彭莉莎孫宇祥薛宇凡周獻(xiàn)中

系統(tǒng)工程與電子技術(shù) 2024年7期

摘" 要：

近年來，將深度強(qiáng)化學(xué)習(xí)技術(shù)用于兵棋推演的智能對抗策略生成受到廣泛關(guān)注。針對強(qiáng)化學(xué)習(xí)決策模型采樣率低、訓(xùn)練收斂慢以及智能體博弈勝率低的問題，提出一種融合三支多屬性決策（three-way multiple attribute decision making， TWMADM）與強(qiáng)化學(xué)習(xí)的智能決策技術(shù)?；诮?jīng)典軟表演者批評家（soft actor-critic，SAC）算法開發(fā)兵棋智能體，利用TWMADM方法評估對方算子的威脅情況，并將該威脅評估結(jié)果以先驗知識的形式引入到SAC算法中規(guī)劃戰(zhàn)術(shù)決策。在典型兵棋推演系統(tǒng)中開展博弈對抗實(shí)驗，結(jié)果顯示所提算法可有效加快訓(xùn)練收斂速度，提升智能體的對抗策略生成效率和博弈勝率。

關(guān)鍵詞：

兵棋推演; 三支多屬性決策; 軟表演者批評家; 強(qiáng)化學(xué)習(xí); 智能決策

中圖分類號：

TN 95

TP 181; E 91

文獻(xiàn)標(biāo)志碼： A""" DOI：10.12305/j.issn.1001-506X.2024.07.15

Intelligent decision-making technology for wargame by integrating

three-way multiple attribute decision-making and SAC

PENG Lisha1，2， SUN Yuxiang1，*， XUE Yufan1， ZHOU Xianzhong1，3

（1. School of Engineering Management， Nanjing University， Nanjing 210008， China; 2. School of Information

Technology amp; Artificial Intelligence， Zhejiang University of Finance amp; Economics， Hangzhou 310018， China;

3. Research Center for New Technology in Intelligent Equipment， Nanjing University， Nanjing 210008， China）

Abstract：

In recent years， the generation of intelligent confrontation strategies using deep reinforcement learning technology for wargaming has attracted widespread attention. Aiming at the problems of low sampling rate， slow training convergence of reinforcement learning decision model and low game winning rate of agents， an intelligent decision-making technology integrating three-way multiple attribute decision making （TWMADM） and reinforcement learning is proposed. Based on the classical soft actor-critic （SAC） algorithm， the wargaming agent is developed， and the threat situation of the opposing operator is evaluated by using TWMADM method， and the threat assessment results are introduced into the SAC algorithm in the form of prior knowledge to plan tactical decisions. A game confrontation experiment is conducted in a typical wargame system， and the results shows that the proposed algorithm can effectively speed up the training convergence， improve the efficiency of generating adversarial strategies and the game winning rate for agents.

Keywords：

wargame; three-way multiple attribute decision making （TWMADM）; soft actor-critic （SAC）; reinforcement learning （RL）; intelligent decision

0" 引" 言

兵棋推演是基于實(shí)戰(zhàn)化規(guī)則的作戰(zhàn)模擬系統(tǒng)［1］，用棋盤描述戰(zhàn)場地形地貌，用棋子/算子及其動態(tài)變化描述作戰(zhàn)實(shí)體和戰(zhàn)斗事件，基于作戰(zhàn)經(jīng)驗和時間對作戰(zhàn)雙方的對抗過程進(jìn)行仿真推演。如今，計算機(jī)兵棋推演已成為現(xiàn)代戰(zhàn)爭模擬訓(xùn)練的有效手段之一，對研究信息化和智能化戰(zhàn)爭有重要價值。

近年來，一些代表性的棋類和游戲人工智能（artificial intelligence， AI）的成功研發(fā)為兵棋推演的智能化發(fā)展奠定了基礎(chǔ)，為兵棋智能體的研發(fā)提供了新的思路。2016年，DeepMind公司開發(fā)的AlphaGo［2］在人機(jī)圍棋大戰(zhàn)中以絕對優(yōu)勢戰(zhàn)勝了世界冠軍，成為了AI發(fā)展史上的里程碑節(jié)點(diǎn)。AlphaGo的突破為兵棋推演中態(tài)勢智能認(rèn)知和自主決策等關(guān)鍵問題提供了解決思路［3］。之后，機(jī)器學(xué)習(xí)技術(shù)繼續(xù)在各類人機(jī)博弈場景中取得突破，Libratus、OpenAI Five、AlphaStar等相繼在德州撲克、Dota2角色扮演游戲、星際爭霸II等即時策略游戲領(lǐng)域中擊敗人類頂級職業(yè)選手［4］。在即時策略游戲（real-time strategy game， RTS）方面，Silver等［5］介紹了一種不依賴人類數(shù)據(jù)和領(lǐng)域知識的純深度強(qiáng)化學(xué)習(xí)（deep reinforcement learning， DRL）算法，實(shí)現(xiàn)了更高質(zhì)量的移動選擇和自我博弈，其構(gòu)造的AlphaGo Zero以100660戰(zhàn)勝了AlphaGo。Espeholt等［6］提出IMPALA（importance weighted actor-learner architectwre）算法實(shí)現(xiàn)離策略分布式強(qiáng)化學(xué)習(xí)（reinforcemert learning， RL）并成功用于奪旗對抗，目前以IMPALA為代表的分布式RL算法也常被用于智能兵棋訓(xùn)練。Barriga等［7］利用深度卷積神經(jīng)網(wǎng)絡(luò)在RTS視頻游戲中進(jìn)行抽象動作選擇，用深度Q網(wǎng)絡(luò)（deep-Q networks， DQN）和異步A3C（asynchronaie advantage actor critic）學(xué)習(xí)復(fù)雜協(xié)作策略以改進(jìn)戰(zhàn)術(shù)多智能體AI，實(shí)現(xiàn)了在中等規(guī)模游戲中擊敗高難度的內(nèi)置AI。Ye等［8］基于雙剪輯近端策略優(yōu)化（proximal policy optimization， PPO）和actor-critic網(wǎng)絡(luò)訓(xùn)練出了可擊敗頂級職業(yè)玩家的《王者榮耀》游戲AI。

對智能體的研發(fā)是兵棋推演研究體系中的重要課題，相關(guān)研究主要包括知識（規(guī)則）驅(qū)動的、數(shù)據(jù)驅(qū)動的和知識數(shù)據(jù)混合驅(qū)動的智能體這3大類［910］。① 知識驅(qū)動的智能體主要利用高水平人類的專業(yè)推演的知識經(jīng)驗和戰(zhàn)法規(guī)律，通過行為樹［11］和自動機(jī)［12］等框架研發(fā)而成?，F(xiàn)有作戰(zhàn)仿真推演系統(tǒng)主要還是基于經(jīng)驗規(guī)則實(shí)現(xiàn)決策，例如“兵棋分隊級AI-微風(fēng)1.0”和“兵棋群隊級AI-紫冬智劍2.0” 等［10］。② 數(shù)據(jù)驅(qū)動的智能體多數(shù)基于DRL研發(fā)而成，智能體通過與環(huán)境交互收集狀態(tài)、動作和獎勵數(shù)據(jù)進(jìn)行訓(xùn)練，從而學(xué)習(xí)到面向特定任務(wù)的行動策略［10］。例如，李琛等［1］結(jié)合actor-critic框架與產(chǎn)生式規(guī)則提出一種面向回合制六角格兵棋推演的多智能體決策方法，提升了行動策略生成的高效性和穩(wěn)定性。施偉等［13］通過改進(jìn)PPO算法提升了多機(jī)協(xié)同空戰(zhàn)場景下DRL的學(xué)習(xí)效果。Chen等［14］結(jié)合對比預(yù)測編碼模型、可變長短期記憶網(wǎng)絡(luò)模型和注意力權(quán)重分配器提出一種深度學(xué)習(xí)架構(gòu)，用于提升不完全信息兵棋環(huán)境下在線意圖識別的穩(wěn)定性和準(zhǔn)確率。張振等［15］提出了基于監(jiān)督學(xué)習(xí)和PPO的智能決策算法，并結(jié)合額外獎勵設(shè)置使智能體的收斂速度和勝率得到穩(wěn)步提升。Sun等［16］利用RL多智能體深度確定性策略梯度算法（deep deterministic policy gradient， DDPG）實(shí)現(xiàn)游戲AI的動態(tài)決策，并利用深度學(xué)習(xí)和自然語言處理技術(shù)將兵棋推演情景圖轉(zhuǎn)化為語義文本。③ 知識數(shù)據(jù)混合驅(qū)動的智能體通過在學(xué)習(xí)模型中引入先驗知識實(shí)現(xiàn)更快收斂。例如，Rueden等［17］提出的融入先驗知識的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)―知信機(jī)器學(xué)習(xí)可實(shí)現(xiàn)對各種方法的結(jié)構(gòu)化分類。Sun等［18］提出的融入先驗知識的DQN算法的策略生成穩(wěn)定性和收斂速度優(yōu)于傳統(tǒng)DQN算法，且可擊敗高級規(guī)則驅(qū)動的算子。Xue等［19］結(jié)合多屬性決策（multiple attribute decision making，MADM）方法和PPO算法進(jìn)行智能體訓(xùn)練，仿真實(shí)驗顯示該智能體的綜合博弈效果和勝率相比基于純PPO和純規(guī)則的智能體得到提升。

總體而言，知識驅(qū)動的智能體可解釋性強(qiáng)，但強(qiáng)依賴于人類推演經(jīng)驗，缺乏對不同對抗場景的適應(yīng)能力;數(shù)據(jù)驅(qū)動的智能體具有高度的探索多樣性和環(huán)境適應(yīng)性，但依賴于訓(xùn)練數(shù)據(jù)和深度神經(jīng)網(wǎng)絡(luò)，訓(xùn)練難度大且可解釋性不強(qiáng)。而混合驅(qū)動的智能體的相關(guān)研究尚處于起步階段。目前，基于DRL的智能體采樣率低、訓(xùn)練收斂困難、即時策略產(chǎn)出緩慢，以及對抗特定規(guī)則時勝率低仍是主要挑戰(zhàn)。為此，結(jié)合三支MADM（three-way MADM， TWMADM）模型與經(jīng)典的軟表演者批評家（soft actor-critic， SAC）算法，提出一種混合驅(qū)動的智能決策技術(shù)簡稱為TMSAC，用于提高智能體的訓(xùn)練收斂速度和博弈勝率。

TWMADM是MADM［20］與三支決策（three-way decisions， TWD）［21］的融合模型。本質(zhì)上講，TWMADM融合了MADM對有序信息系統(tǒng)的排序功能，以及 TWD對不確定信息的處理功能和對論域（有限對象或個體的集合）的分類功能，故TWMADM常被用于解決不確定信息環(huán)境下對論域有同步分類和排序需求的MADM問題，如項目投資選擇［2223］、目標(biāo)威脅評估［2425］等，但就目前而言還未發(fā)現(xiàn)TWMADM在兵棋推演智能決策方面的應(yīng)用研究。SAC算法是Haarnoja等［26］提出的一種非策略最大熵DRL算法。該算法在保持熵最大化和穩(wěn)定性的同時能夠進(jìn)行高效的樣本學(xué)習(xí)，獎勵的增加使智能體趨于選擇最優(yōu)動作，而熵增使智能體可通過探索更多情況而避免陷入局部最優(yōu)，兩者的結(jié)合使策略收斂速度大幅增長。目前，已有學(xué)者探究了SAC算法的應(yīng)用價值，包括機(jī)器人路徑規(guī)劃［2728］、無人機(jī)空戰(zhàn)多維決策［29］、智能車應(yīng)急救援［30］等。夏琳［31］結(jié)合后驗經(jīng)驗回放技術(shù)和SAC 算法，用于訓(xùn)練Mujoco 平臺機(jī)械臂抓取任務(wù)，之后又結(jié)合注意力機(jī)制，將 SAC 擴(kuò)展到多智能體環(huán)境，通過GridWorld訓(xùn)練環(huán)境和作戰(zhàn)仿真推演系統(tǒng)驗證了算法的性能和勝率得到有效提升。

基于TWMADM和SAC的特點(diǎn)和優(yōu)勢，本文提出TMSAC算法用于提升兵棋智能體的決策高效性和高勝率。主要利用經(jīng)典SAC算法訓(xùn)練智能體，并利用TWMADM方法獲取兵棋推演系統(tǒng)中對方算子的威脅評估結(jié)果，將其引入到SAC的策略學(xué)習(xí)框架中作為先驗知識引導(dǎo)獎勵動態(tài)更新，從而提升算法采樣率和收斂速度，以及智能體的行動效率和準(zhǔn)確性。在典型兵棋推演智能博弈系統(tǒng)中開展仿真對比實(shí)驗，驗證了TMSAC智能決策算法的綜合性能和優(yōu)勢。

1" 預(yù)備知識介紹

TWMADM是基于TWD和MADM的融合決策方法/模型，用于在有序信息系統(tǒng)中實(shí)現(xiàn)對備選方案的同步分類和排序。文獻(xiàn)［2324］面向此類完備信息系統(tǒng)提出了一種基于ELECTRE（elimination et choice translating reality）-I的TWMADM方法。鑒于該方法中ELECTRE-I可以構(gòu)造方案間嚴(yán)謹(jǐn)?shù)膬?yōu)勢關(guān)系，且相對更易于計算和理解、涉及參數(shù)更少，基于ELECTRE-I的TWMADM方法實(shí)現(xiàn)完全信息環(huán)境下兵棋推演系統(tǒng)中的算子威脅評估。SAC算法可在大型連續(xù)任務(wù)空間中進(jìn)行策略學(xué)習(xí)，且在系列連續(xù)控制任務(wù)中優(yōu)于PPO和DDPG等無模型DRL算法。因此，本文采用SAC算法對兵棋推演中的智能體進(jìn)行訓(xùn)練。下面，簡要回顧基于ELECTRE-I的TWMADM方法［2324］和經(jīng)典SAC算法［26］。

1.1" TWMADM

給定一個包含m個對象和n個屬性的信息系統(tǒng)，用四元組S=〈U，C，W，V〉表示。論域U代表對象集{o1，o2，…，om}，C代表屬性集{c1，c2，…，cn}，V代表屬性值集V=∪vik（i=1，2，…，m;k=1，2，…，n），vik代表對象oi在屬性ck上的屬性值。

首先，利用ELECTRE-I獲取論域U中任意對象oi的優(yōu)勢集合：［oi］s={oj|oiRoj∧oi，oj∈U}（R表示優(yōu)勢關(guān)系）;然后，計算給定狀態(tài)集Ω={X，

瘙綈 X}下oi關(guān)于X的條件概率P（X|［oi］R）=∑oj∈［oi］RX（oj）|［oi］R|=∑oj∈［oi］R∑nk=1wkv′jk|［oi］R|其中，wk代表屬性ck的權(quán)重。根據(jù)表1的轉(zhuǎn)化機(jī)制客觀計算基于vjk的決策損失函數(shù)λΔ

SymbolQC@ （Δ=P，B，N;

SymbolQC@ =P，N），其中為延遲決策厭惡系數(shù)，{λPP，λBP，λNP}{λPN，λBN，λNN}分別表示當(dāng)oi屬于X、不屬于X時，將oi劃分到X的正域（positive region， POS）、邊界域（boundary region， BND）和負(fù)域（negative region， NEG）的決策損失。

之后，計算將oi劃分到X的POS、BND和NEG所產(chǎn)生的貝葉斯期望決策損失L（aΔ|［oi］R）（Δ=P，B，N）為

L（aΔ|［oi］R）=λΔPP（X|［oi］R）+λΔNP（

瘙綈 X|［oi］R）（1）

根據(jù)貝葉斯期望決策損失最小化目標(biāo)制定分類規(guī)則：

（P′）L（aP|［oi］R）=minΔ=P，B，N（L（aΔ|［oi］R））oi∈POS（X）

（B′）L（aB|［oi］R）=minΔ=P，B，N（L（aΔ|［oi］R））oi∈BND（X）

（N′）L（aN|［oi］R）=minΔ=P，B，N（L（aΔ|［oi］R））oi∈NEG（X）

AL（oi）=L（aP|［oi］R）， oi∈POS（X）

L（aB|［oi］R）， oi∈BND（X）

L（aN|［oi］R）， oi∈NEG（X）（2）

其中，AL表示關(guān)聯(lián)損失。最后，在上述分類基礎(chǔ)上設(shè)置排序規(guī)則，構(gòu)建基于決策損失最小化的TWMADM模型。全局排序規(guī)則：對不同域中的對象，POS中的對象排在邊界域中的對象前面，而NEG中的對象排在最后，即對oi，oj，ol∈U，若oi∈POS（X），oj∈BND（X），ol∈NEG（X），則oifojfol。局部排序規(guī)則：對于同一個域中的對象，關(guān)聯(lián)損失更低的對象排序越靠前，即對于oi，oj∈U，若oi，oj∈POS（X）∨BND（X）∨NEG（X）且AL（oi）lt;AL（oj），則 oifoj。

如引言所述，TMSAC中的威脅評估模塊將通過TWMADM實(shí)現(xiàn)，即將推演系統(tǒng)中坦克算子的威脅評估問題視為MADM問題進(jìn)行處理，將坦克算子視為評估對象oi，將算子威脅指標(biāo)視為屬性ck，則可通過上述TWMADM模型獲得對方坦克算子的威脅等級分類和排序結(jié)果，作為提升TMSAC模型訓(xùn)練效率的先驗知識。

1.2" DRL-SAC算法

PPO等on-policy算法在每次策略更新時都需要重新采樣大量樣本，采樣需求大、復(fù)雜度高。而DDPG/D4PG等離線策略off-policy算法盡管解決了樣本效率低的問題，但策略與Q值相互耦合導(dǎo)致穩(wěn)定性和收斂性不好，尤其在連續(xù)狀態(tài)和動作空間中的穩(wěn)定性和收斂性更差，此外DDPG還存在脆弱性和超參數(shù)敏感性問題。為彌補(bǔ)這些DRL算法的缺陷，Haarnoja等［26］提出一種最大熵DRL算法——SAC算法。

SAC算法的理論基礎(chǔ)是馬爾可夫決策過程（Markov decision process， MDP）。MDP通過狀態(tài)、動作和獎勵描述智能體與環(huán)境的交互過程，表征為四元組〈S，A，p，r〉。S和A分別代表智能體的連續(xù)狀態(tài)空間和動作空間;p：S·S·A→［0，

SymboleB@ ）為狀態(tài)轉(zhuǎn)移概率，表示給定當(dāng)前狀態(tài)st∈S和動作at∈A時，智能體執(zhí)行新動作并轉(zhuǎn)移到下一狀態(tài)st+1∈S的概率密度函數(shù);r：S·A→［rmin，rmax）表示環(huán)境針對每次狀態(tài)轉(zhuǎn)移給出的有界獎勵；ρπ（st）和ρπ（st，at）表示π生成的軌跡分布的所有狀態(tài)和所有狀態(tài)―動作集合。

SAC包含3個關(guān)鍵要素：滿足訓(xùn)練探索性和穩(wěn)定性的最大熵模型、具有獨(dú)立策略和價值網(wǎng)絡(luò)的actor-critic框架、能夠通過重用歷史數(shù)據(jù)提高學(xué)習(xí)效率的off-policy范式。下面從這3個方面簡要介紹SAC的基本概念。

（1）最大熵模型：以同時最大化獎勵r（st，at）和H（π（·|st））為優(yōu)化目標(biāo)，獲得最優(yōu)策略π，如下所示：

J（π）=∑Tt=0E（st，at）～ρπ［r（st，at）+αH（π（·|st））］（3）

式中：r和E分別為當(dāng)前狀態(tài)的獎勵和獎勵期望總值;H為當(dāng)前動作的熵;溫度參數(shù)α決定熵項對于獎勵項的相對重要性，從而控制了最優(yōu)策略的隨機(jī)性。當(dāng)α→0，最大熵優(yōu)化目標(biāo)恢復(fù)到標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)的最大期望獎勵優(yōu)化目標(biāo)。該最大熵優(yōu)化目標(biāo)有兩個優(yōu)勢：一是增強(qiáng)探索性的同時使智能體放棄獎勵明顯不多的動作。二是捕獲多個近最優(yōu)動作，并對這些動作設(shè)置相同的概率，從而加速訓(xùn)練過程。

（2） actor-critic框架：在最大熵框架下，軟策略迭代在策略評估和策略更新之間交替進(jìn)行。actor網(wǎng)絡(luò)負(fù)責(zé)學(xué)習(xí)和更新策略，輸出每個狀態(tài)下的策略，并根據(jù)Kullback-Leibler散度進(jìn)行更新。critic網(wǎng)絡(luò)負(fù)責(zé)策略評估，輸出每個狀態(tài)下的策略值函數(shù)。對于任意固定策略π，從任意函數(shù)Q：S×A→R開始，用修正貝爾曼輔助算子Tπ迭代計算π的軟Q值。SAC通過兩個 critic 網(wǎng)絡(luò)（雙Q-函數(shù)）降低過高估計Q值的風(fēng)險。SAC對Q函數(shù)和策略使用函數(shù)逼近器，并交替使用隨機(jī)梯度下降優(yōu)化這兩個網(wǎng)絡(luò)。

（3） off-policy范式：采用行動策略和目標(biāo)策略，分別用于智能體訓(xùn)練軌跡樣本數(shù)據(jù)的生成和智能體策略學(xué)習(xí)，基于歷史狀態(tài)和動作的分布數(shù)據(jù)持續(xù)更新并優(yōu)化目標(biāo)策略，最終生成最優(yōu)策略。

2" 威脅指標(biāo)量化建模

在基于TWMADM與SAC的融合模型TMSAC中，TWMADM模型被用于評估兵棋推演系統(tǒng)中算子的威脅等級分類和綜合威脅排序結(jié)果，為提升SAC的算法收斂速度和策略學(xué)習(xí)效率提供先驗知識。為確保TWMADM的威脅評估準(zhǔn)確性，需預(yù)先構(gòu)建威脅指標(biāo)體系和威脅指標(biāo)量化模型，并根據(jù)實(shí)時獲取的系統(tǒng)中算子的指標(biāo)威脅數(shù)據(jù)準(zhǔn)確計算算子的綜合威脅隸屬度（后文簡稱威脅度），之后統(tǒng)一表征為二維威脅評估信息系統(tǒng)，以此作為TWMADM進(jìn)行威脅評估的數(shù)據(jù)來源。

現(xiàn)有關(guān)于坦克威脅評估的文獻(xiàn)因研究的想定和側(cè)重點(diǎn)不同，所構(gòu)建的威脅指標(biāo)體系及其量化方法存在差異。本文參考相關(guān)文獻(xiàn)［19，3233］，在一般性坦克威脅指標(biāo)基礎(chǔ)上，針對典型的戰(zhàn)術(shù)級智能兵棋推演系統(tǒng)“先勝1號”［34］，主要考慮3類威脅指標(biāo)，如表2所示，本文統(tǒng)一規(guī)定，雙方都稱為算子，對方為藍(lán)方算子，我方為紅方算子。一是由算子自身軟硬件性能決定的靜態(tài)型威脅指標(biāo)：攻擊能力、防御能力;二是關(guān)系到算子攻擊能力的動態(tài)型威脅指標(biāo)：距離、速度、角度;三是與算子所處地理因素相關(guān)的威脅指標(biāo)：地形通視、所處環(huán)境。

接下來，給出針對上述7項威脅指標(biāo)的數(shù)學(xué)量化模型。如圖1所示，常量r代表藍(lán)方坦克算子oi的有效打擊距離，即射程。坦克的射程分為3 km、5 km、9 km等，第4節(jié)仿真實(shí)驗中設(shè)置r=3 km。變量l代表算子之間的直線距離;向量v代表藍(lán)方算子的行進(jìn)方向和速度大小。

（1）距離威脅指標(biāo)量化

距離威脅由雙方攻擊距離威脅T1dis和藍(lán)方算子與奪控點(diǎn)之間的奪控距離威脅T2dis綜合決定。T1dis與攻擊距離l和射程r有關(guān)，雙方直線距離l越近，對方攻擊意圖越大，威脅越大，當(dāng)l足夠小時，T1dis趨于1，而當(dāng)l超出r時，T1dis趨于0，T1dis與l負(fù)相關(guān)。T2dis由奪控距離l′決定，若藍(lán)方越靠近奪控點(diǎn)，勝率越大，相對而言對紅方威脅也越大，T2dis與l′負(fù)相關(guān)。綜上，將距離威脅Tdis計算為

Tdis=（T1dis+T2dis）2=121－lr+dd′·1l′， l≤r

12dd′·1l′， lgt;r（4）

式中：d和d′分別代表藍(lán)方通過普通地形（如平原、草地等）和特殊地形（如森林、一級公路、二級公路、城鎮(zhèn)居民地等）的損耗系數(shù)，通常dlt;d′。在相同奪控距離l′下，藍(lán)方在普通地形上損耗更少，能更快達(dá)到奪控點(diǎn)，對紅方的毀傷率也更大，故設(shè)置威脅度與d正相關(guān)。反過來，藍(lán)方在特殊地形上消耗更多，對紅方威脅更小，故設(shè)置威脅度與d′反相關(guān)。

（2）速度威脅指標(biāo)量化。

情形 1" 對戰(zhàn)斗機(jī)而言，速度越快，威脅越大，但對坦克而言則相反。根據(jù)文獻(xiàn)［32］，在對抗?fàn)顟B(tài)時，靜止的坦克可能有較強(qiáng)的攻擊意圖，命中率也最高，威脅度為1；當(dāng)坦克速度較低時，威脅度較高，趨于1；當(dāng)坦克加速運(yùn)動時，其對紅方打擊意圖較弱，命中率逐漸下降，當(dāng)速度超出其準(zhǔn)確射擊速度閾值V時，命中率幾乎為0，故此時的速度威脅為0。假設(shè)|v|代表算子的行進(jìn)速度大小，則將行進(jìn)速度威脅T1vel量化為

T1vel=1-|v|Ve2，|v|≤V

0，|v|gt;V（5）

情形 2" 算子的速度威脅還與雙方相對速度（雙方在單位時間內(nèi)相對位移的大小）有關(guān)。已知坦克在靜止時命中率最高，但隨著速度加快會逐漸降低。因此，藍(lán)方相對于紅方速度越快，威脅越小，屬于反相關(guān)，而紅方相對于藍(lán)方的速度越快，受到的威脅越大，屬于正相關(guān)。令|v|和|v′|分別代表藍(lán)方和紅方的行進(jìn)速度大小，則將藍(lán)方的相對速度威脅量化為

T2vel=|v′||v|（6）

綜合考慮①和②兩種情況構(gòu)建速度威脅量化函數(shù)，其中dV=|v|-|v′|：

Tvel=f（T1vel，T2vel）=1-dVV2， dV≤V

0， dVgt;V（7）

當(dāng)雙方相對速度差超出射擊閾值時，某一方對另一方的速度威脅都為0，而當(dāng)相對速度在射擊閾值范圍內(nèi)時，不論藍(lán)方行進(jìn)速度是高于還是低于紅方速度，式（7）都滿足其速度越快，威脅越低的實(shí)際情形，即考慮了雙方相對速度的式（7）是科學(xué)合理的。

（3）角度威脅量化

通常，坦克的角度威脅與攻擊角和防御角有關(guān)，但針對不處于同一水平面的坦克算子，應(yīng)從立體空間考慮，故基于各自所處的高程度量角度威脅，如圖2所示。垂直攻擊角度是0°到90°之間，故可由雙方水平距離l″與藍(lán)方相對于紅方的高程差決定角度威脅函數(shù)，如下所示：

Tang=arctanl″90（8）

（4）攻擊能力威脅量化

綜合7項參數(shù)計算坦克算子的攻擊能力威脅度［19］：機(jī)動能力Cap1、武器系統(tǒng)攻擊能力Cap2（攜帶不同類型彈藥的打擊能力）、偵察能力Cap3、操縱效能系數(shù)ρ1、載彈系數(shù)ρ2、行程系數(shù)ρ3、電子對抗系數(shù)ρ4。各項參數(shù)可根據(jù)實(shí)際情況進(jìn)行設(shè)置或調(diào)整，第4節(jié)仿真實(shí)驗中設(shè)置：Cap1=6、Cap2=Cap3={1，0.5，3}、ρ1=ρ2=ρ4=1、ρ2=3。

Tatt=ln Cap1+ln∑Cap2+1+

ln ∑Cap3ρ1ρ2ρ3ρ4（9）

（5）防御能力威脅量化

不同類型的裝甲在裝甲防護(hù)、形體防護(hù)、偽裝防護(hù)、主動防護(hù)、防后效、三防等性能上存在差異，即防御能力由裝甲類型決定。簡便起見，此處直接根據(jù)裝甲類型量化防御能力進(jìn)行量化：復(fù)合裝甲：Tdef=1;重型裝甲：Tdef=0.7;中型裝甲：Tdef=0.5;輕型裝甲：Tdef=0.3;無裝甲：Tdef=0。

（6）地形通視威脅量化

坦克是直瞄武器，藍(lán)方高程、紅方高程、以及雙方之間的地形高程關(guān)系到雙方能否通視，并直接影響到藍(lán)方能否打擊到紅方，以及對紅方打擊所造成的毀傷程度，因此地形通視是坦克威脅評估的重要因素之一。

在直瞄射擊時，令藍(lán)方高程為h，紅方高程為h′，雙方中間地形的最高高程為H，給定兩個通視威脅參數(shù)t1，t2∈［0，1］，且t1lt;t2，后續(xù)第4節(jié)的仿真實(shí)驗中設(shè)置：t1=0，t2=0.2。分析4種通視情況：① 當(dāng)H≥h∧H≥h′時，雙方不能通視，通視威脅為0;② 當(dāng)H≥h∧H≤h′時，雙方可通視，具備一定威脅，但紅方高程高于藍(lán)方，故威脅度較小，視為［0，t1］;③ 當(dāng)H≤h∧H≤h′時，雙方可通視，對紅方威脅較大，視為［t2，1］;④ 當(dāng)H≤h∧H≥h′時，雙方可通視，且藍(lán)方高程大于紅方高程，此時極具威脅，視為1。便于理解，給出這4種通視情況說明簡圖，如圖3所示。

當(dāng)雙方不處于同一直線時，紅方可能遭受間瞄射擊，此時不受地形通視影響，視為［t1，t2］。綜上分析，地形通視威脅指數(shù)如下：

Tele=

0， H≥h∧H≥h′

［0，t1］， h≤Hlt;h′

［t1， t2］，間瞄射擊

［t2，1］， Hlt;h∧Hlt;h′

1， h′≤Hlt;h（10）

（7）所處環(huán)境指標(biāo)威脅量化

城市作戰(zhàn)中，坦克可在平坦公路快速行進(jìn)，也可在建筑物、綠化帶周圍進(jìn)行隱蔽。本文討論的兵棋推演系統(tǒng)中包括一級公路、二級公路、城鎮(zhèn)居民區(qū)。公路級別越高，算子移動越快，能更快到達(dá)奪控點(diǎn)，威脅越大，且若藍(lán)方隱蔽，既不利于攻擊，也可更準(zhǔn)確地實(shí)施打擊，威脅度明顯增強(qiáng)。為此，

綜合3種地形條件定義所處環(huán)境威脅指數(shù)如下：

Tenv=w1h1+w2h2+w3r（11）

其中，w1、w2、w3是一級公路、二級公路和城鎮(zhèn)居民的環(huán)境威脅系數(shù)，第4節(jié)仿真實(shí)驗中設(shè)置：w1=0.25，w2=0.35，w3=0.4，h1、h2、r是用于表示藍(lán)方是否位于一級公路、二級公路或城鎮(zhèn)居民區(qū)的布爾型變量，若檢測到藍(lán)方處于對應(yīng)環(huán)境，則賦值為1，否則為0。比如，若藍(lán)方位于一級公路，則Tenv=1×0.25+0×0.35+0×0.4=0.25。

3" TWSAC智能決策技術(shù)

3.1" TWMADM與SAC的融合機(jī)制

針對知識驅(qū)動的智能體的弱靈活性和對歷史推演經(jīng)驗的強(qiáng)依賴性，以及傳統(tǒng)RL算法驅(qū)動的智能體樣本效率低和收斂速度慢的問題，構(gòu)建TWMADM與SAC的融合智能決策模型，如圖4所示。該融合模型的關(guān)鍵是在SAC策略學(xué)習(xí)框架中充分利用TWMADM獲得的威脅度評估結(jié)果。包括：① 預(yù)先對威脅等級越高的算子設(shè)置更高的獎勵回報，使SAC訓(xùn)練過程中獲得的獎勵根據(jù)威脅排序結(jié)果動態(tài)更新，以此加快策略收斂速度，提高智能體的行動有效性和最終勝率;② 將威脅等級劃分結(jié)果作為SAC學(xué)習(xí)到射擊動作后系統(tǒng)選擇射擊算子的依據(jù)，減少TWMADM模塊的執(zhí)行頻次，使全局博弈時長進(jìn)一步縮短。下面，以SAC單輪學(xué)習(xí)為例，簡要闡述威脅評估模塊和智能融合模塊的運(yùn)作機(jī)制。

（1）基于TWMADM的威脅評估模塊：首先，從各角度獲取兵棋推演環(huán)境中藍(lán)方算子的距離、速度、角度、高度、厚度等各項性能指標(biāo)及其所處環(huán)境等對紅方算子具有威脅的原始數(shù)據(jù)。然后，對這些數(shù)據(jù)進(jìn)行歸類、表征和表格化預(yù)處理，再利用第2節(jié)給出的各個威脅指標(biāo)量化模型計算藍(lán)方算子的距離威脅度等7項威脅指標(biāo)量化值，并構(gòu)建二維威脅評估信息系統(tǒng)。之后，利用TWMADM對該信息系統(tǒng)進(jìn)行處理和計算，輸出藍(lán)方算子的3類威脅等級劃分結(jié)果和綜合威脅排序結(jié)果，并存儲到經(jīng)驗數(shù)據(jù)緩存池，作為系統(tǒng)選擇射擊目標(biāo)和SAC策略學(xué)習(xí)過程中更新動作獎勵的主要依據(jù)。

（2） TWMADM和SAC的融合模塊：在當(dāng)前時間步驟中，SAC根據(jù)緩存池中的先驗知識和獎勵更新規(guī)則進(jìn)行策略學(xué)習(xí)，輸出智能體的行動策略，智能體執(zhí)行完動作后引發(fā)環(huán)境變化，此時再根據(jù)環(huán)境更新狀態(tài)和獎勵更新規(guī)則更新當(dāng)前動作生成的獎勵，該獎勵指引SAC在下一個時間步驟中的策略生成。由于獎勵更新規(guī)則中預(yù)設(shè)了射擊威脅度越高的算子得到的獎勵會越高，因此當(dāng)SAC學(xué)習(xí)到射擊動作時，智能體會優(yōu)先射擊威脅度最高的算子。而又由于正域中的算子的威脅度最高，故在若干個時間步驟中，設(shè)置智能體直接按照緩存池中TWMADM獲得的局部威脅排序結(jié)果對正域中的算子進(jìn)行依次射擊，直至正域中的算子都被射擊完畢再重新啟動TWMADM模塊，如此可避免在每個時間步驟中都運(yùn)行TWMADM，從而提升融合算法的執(zhí)行效率。

為更清晰地展示SAC在融合模型的主要作用，給出以強(qiáng)化學(xué)習(xí)SAC框架為主的融合模型，如圖5所示，包含融合TWMADM的SAC預(yù)訓(xùn)練經(jīng)驗存儲模塊、actor策略網(wǎng)絡(luò)更新模塊、critic評估網(wǎng)絡(luò)更新模塊。其中，預(yù)訓(xùn)練模塊已在圖4及其相應(yīng)文字中有詳細(xì)描述，此處不再贅述，僅簡要介紹actor和critic網(wǎng)絡(luò)更新模塊。

在critic網(wǎng)絡(luò)的動作價值評估模塊中，兩個critic目標(biāo)網(wǎng)絡(luò)評估actor網(wǎng)絡(luò)生成動作at+1的價值，并輸出其中的最小值，根據(jù)該最小動作價值和actor網(wǎng)絡(luò)計算動作熵，利用修正貝爾曼輔助算子計算狀態(tài)價值V（st+1），再結(jié)合折扣因子γ和動作獎勵r（st，at）計算軟Q值Qs，該值類似于監(jiān)督學(xué)習(xí)中的標(biāo)簽。與此同時，兩個critic網(wǎng)絡(luò)根據(jù)原環(huán)境和原動作at估計動作價值，輸出Q1和Q2，并與Qs對比，計算誤差值Qs1和Qs2，以該最小化差值為優(yōu)化目標(biāo)進(jìn)行訓(xùn)練，穩(wěn)定迭代更新critic網(wǎng)絡(luò)。在actor網(wǎng)絡(luò)的策略更新模塊中，actor根據(jù)環(huán)境狀態(tài)和獎勵更新規(guī)則生成相應(yīng)動作，同步計算動作熵，持續(xù)更新的critic網(wǎng)絡(luò)使動作價值估計逐漸收斂并接近于Qs，因而可利用KL散度評估actor網(wǎng)絡(luò)輸出的策略損失，從而反向更新actor網(wǎng)絡(luò)輸出下一個時間步驟的新動作。

3.2" TWSAC算法

TWMADM與SAC的融合模型利用威脅等級分類的先驗知識降低局部模塊運(yùn)行頻次，以提高融合模型的運(yùn)行效率，利用威脅排序的先驗知識不斷更新動作獎勵，以提高SAC的收斂速率和動作選擇準(zhǔn)確率，通過這兩個操作縮短全局博弈時長，提升智能體博弈勝率。算法1給出了融合TWMADM和SAC的智能決策算法偽碼，超參設(shè)置情況如表3所示。CR用于存儲TWMADM評估藍(lán)方算子的威脅等級分類結(jié)果{POS（X），BND（X），NEG（X）}和威脅排序結(jié)果Rank。

算法1" 融合TWMADM和SAC的智能決策算法TMSAC

Begin

For oi∈U，ck∈C do

計算{Tdis，Tvel，Tang，Tatt，Tdef，Tele，Tenv}

計算［oi］R、P（X|［oi］R）和λiΔ

SymbolQC@

End for

For oi∈U do

計算L（aP|［oi］R）

If L（aP|［oi］R）=minΔ=P，B，N（L（aΔ|［oi］R））Then oi∈POS（X）

Else If L（aB|［oi］R）=minΔ=P，B，N（L（aΔ|［oi］R））Then oi∈BND（X）

Else oi∈NEG（X）

End if

End for

For oi，oj∈U ck∈C do

If oi，oj∈POS（X）or BND（X）or NEG（X） and AL（oi）≥AL（oj） Then oifoj

Else If oi∈POS（X） or（oi∈BND（X） and oj∈NEG（X）） Then oifoj

Else oipoj

End if

End for

Rank←oifojf…fol

CR←POS（X），BND（X），NEG（X），Rank

初始化參數(shù)向量，-，θ，，CR

For 每次迭代 do

For 每個環(huán)境步驟 do

at～π（at|st）

st+1～p（st+1|st，at）

D←D∪{st，at，r（st，at），st+1}

End for

For 每個梯度步驟 do

←－λV

SymbolQC@ ︿JV（）

θi←θi－λQ

SymbolQC@ ︿θiJQ（θi） for i={1，2}

←－λπ

SymbolQC@ ︿φJ(rèn)π（）

-←τ+（1－τ）-

End for

Update rt（CR）

End for

End

表3" SAC的超參設(shè)置

Table 3" Hyperparameter settings for SAC

超參

取值

GAMMA

0.997

S_DIM

A_DIM

MINI_ENTROPY

0.1

BATCH_SIZE

LEARNING_RATE

0.001

DECAY

0.995

4" 實(shí)驗評估與比較

4.1" 實(shí)驗環(huán)境和獎勵函數(shù)設(shè)計

（1）實(shí)驗環(huán)境介紹

兵棋推演系統(tǒng)是一類典型的智能博弈仿真平臺，通常包括算子、地圖、規(guī)則和想定4個基本組成要素。選擇典型的戰(zhàn)術(shù)級智能兵棋推演系統(tǒng)“先勝1號”作為實(shí)驗環(huán)境。該系統(tǒng)針對陸戰(zhàn)場裝甲合成（部）分隊紅藍(lán)博弈對抗進(jìn)行功能設(shè)計，為規(guī)則驅(qū)動的和基于強(qiáng)化學(xué)習(xí)的智能體的研發(fā)提供支撐環(huán)境［19，34］。系統(tǒng)涵蓋地圖編輯、算子管理、規(guī)則編輯、想定編輯、推演設(shè)置、數(shù)據(jù)分析和系統(tǒng)功能模塊，可實(shí)現(xiàn)對作戰(zhàn)行動序列自動生成與智能指揮官模型算法的效能評估。

實(shí)驗想定：在“先勝1號”推演平臺中進(jìn)行仿真實(shí)驗，平臺主界面（主戰(zhàn)區(qū)域）為如圖6所示的正六邊形網(wǎng)格城鎮(zhèn)居民地地圖（網(wǎng)格數(shù)目：66×51），博弈雙方為紅方和受藍(lán)方各10個坦克算子，每個算子代表陸軍裝甲合成營的最小作戰(zhàn)單元，雙方算子在區(qū)域內(nèi)進(jìn)行博弈對抗，一方任意一個算子率先搶占奪控點(diǎn)或者一方擊毀另一方全部算子的為勝利方。詳情：① 各網(wǎng)格上方標(biāo)有位置坐標(biāo)，坐標(biāo)為1 224（“12”代表橫坐標(biāo)，“24”代表縱坐標(biāo)）且用紅旗標(biāo)注的網(wǎng)格為唯一主奪控點(diǎn)。② 各網(wǎng)格下方標(biāo)有高程信息，不同網(wǎng)格顏色代表不同高程，顏色越深代表高程越高，相鄰色塊高程相差10 m。③ 有房子圖標(biāo)的網(wǎng)格代表城鎮(zhèn)居民地，用于算子隱蔽和防御。④ 黑色和紅色線條分別代表一級公路和二級公路。⑤ 系統(tǒng)設(shè)置了每個算子的初始油量，算子每移動一格消耗一定油量，且高程越大，油耗越多。⑥ 針對六宮格地形，算子態(tài)勢信息包括狀態(tài)空間（位置坐標(biāo)和實(shí)時狀態(tài)）和動作空間（機(jī)動狀態(tài)和射擊狀態(tài)）。實(shí)時狀態(tài)包括機(jī)動、靜止和射擊;機(jī)動狀態(tài)包括向“東、西、東北、西北、東南、西南”方向移動，外加靜止?fàn)顟B(tài)共7種，用0～6表示;射擊狀態(tài)包括射擊和未射擊，用0和1表示。⑦ 算子瞄準(zhǔn)射擊時，被瞄準(zhǔn)算子上方呈現(xiàn)十字符號，若算子被擊毀則在地圖上消失。

（2）獎勵函數(shù)設(shè)置

在智能體的策略優(yōu)化訓(xùn)練過程中，獎勵起到十分重要的監(jiān)督和引導(dǎo)作用。以往系統(tǒng)只在雙方達(dá)到勝利或失敗條件時設(shè)置獎勵，而在訓(xùn)練過程中未設(shè)置任何獎勵，存在稀疏獎勵問題，影響算法收斂速度。為此，預(yù)先設(shè)置獎勵更新規(guī)則，如表4所示。表中r代表上一動作的獎勵;T代表被擊中算子的綜合威脅度，即TWMADM獲得的對方算子的威脅排列序號，取值為1，2，3，…，9，10。該規(guī)則對Agent在獲勝之前每多探索一個回合都設(shè)置負(fù)向獎勵，以防止Agent在探索過程中陷入局部最優(yōu)。訓(xùn)練過程中，算法會根據(jù)雙方算子實(shí)時狀態(tài)、與奪控點(diǎn)之間的距離狀態(tài)、以及藍(lán)方算子的威脅情況不斷更新動作獎勵［16，19］，引導(dǎo)智能體優(yōu)先選擇威脅度最高的算子進(jìn)行射擊，從而實(shí)現(xiàn)快速收斂的同時更快地取勝。

4.2" 實(shí)驗驗證與比較

在兵棋推演系統(tǒng)中開展博弈對抗實(shí)驗，對基于TMSAC融合算法的和基于其他6種RL相關(guān)算法的智能體的綜合表現(xiàn)進(jìn)行分析和對比。簡要介紹參與對比的7種AI算法：① TWMADM與SAC的融合算法（簡稱為TMSAC）;② TWMADM與當(dāng)前流行的PPO的融合算法（簡稱為TMPPO）;③ 未利用TWMADM中分類結(jié)果的退化版TMSAC算法（簡稱為M1SAC）;④ 文獻(xiàn)［19］提出的MADM與SAC的融合算法（簡稱為M2SAC）;⑤ MADM與PPO的融合算法［19］（簡稱為M2PPO）;⑥ 純強(qiáng)化學(xué)習(xí)SAC算法（簡稱為SAC）;⑦ 純強(qiáng)化學(xué)習(xí)PPO算法（簡稱為PPO）。實(shí)驗運(yùn)行環(huán)境為：Win10，AMD Ryzen，CPU R7-4800H 2.90 GHz和16.0 GB內(nèi)存，Python編程語言，開發(fā)平臺為Pycharm 2020.2.3（Community Edition）。為保證實(shí)驗公平性，所有AI算法均利用熵權(quán)法［19］計算威脅指標(biāo)權(quán)重，再通過式（4）～式（11）計算各指標(biāo)的威脅度，且均先在兵棋推演系統(tǒng)中與基于規(guī)則的AI進(jìn)行700局博弈對抗訓(xùn)練。

4.2.1" 算法訓(xùn)練收斂速度比較

訓(xùn)練效果對比如圖7所示。結(jié)果顯示，TMSAC比其他AI算法更快收斂，大約在第200局～第250局時基本達(dá)到穩(wěn)定狀態(tài)（紅方每局能夠獲勝的最高獎勵值在33附近，獎勵值的計算如表4所示。其他算法收斂更加滯后，收斂最慢的是純強(qiáng)化學(xué)習(xí)SAC和PPO算法，收斂速率排序情況大致如下：TMSACfTMPPOfM2PPOfM1SAC≈M2SACfSACfPPO。據(jù)此可知，在SAC算法中融入TMMADM獲得的先驗知識可有效提升樣本利用率和智能體的訓(xùn)練收斂速度。

4.2.2" 算法綜合性能比較

在推演系統(tǒng)中將基于上述7個AI算法的紅方智能體分別與基于規(guī)則的藍(lán)方進(jìn)行200局的博弈對抗，并通過以下6項指標(biāo)展示這些AI算法的博弈效果和綜合性能：① 勝率：紅方獲勝局?jǐn)?shù)在當(dāng)前累計博弈局?jǐn)?shù)中的占比，比如（10，90）表示在當(dāng)前10局中紅方勝率是90%，即紅方獲勝9局。② 獲勝局?jǐn)?shù)：當(dāng)前累計局?jǐn)?shù)中紅方獲勝的總局?jǐn)?shù)，比如（10，9）表示當(dāng)前10局中紅方獲勝9局。③ 總得分：當(dāng)前累計博弈局中紅方獲勝的總得分。分?jǐn)?shù)判定規(guī)則：每局結(jié)束后，若紅方獲勝，則根據(jù)藍(lán)方傷亡數(shù)量分“多”“適量”“少”3個等級判定紅方得分分別為70分、60分和50分，若紅方未獲勝則不得分。④ 擊殺得分：當(dāng)前累計博弈局中紅方擊殺藍(lán)方一定數(shù)量獲得的總得分。分?jǐn)?shù)判定規(guī)則：每局結(jié)束后，不論紅方是否獲勝都統(tǒng)計擊殺藍(lán)方的數(shù)量，根據(jù)該數(shù)量判定得分，擊殺1個、2個、3個分別得5分、10分、15分，4個及以上得20分。⑤ 存活得分：當(dāng)前累計博弈局中紅方存活一定數(shù)量獲得的總得分。分?jǐn)?shù)判定規(guī)則：每局結(jié)束后，不論紅方是否獲勝都統(tǒng)計紅方存活的數(shù)量，根據(jù)該數(shù)量判定得分，存活10個、9個、8個分別得30分、25分、20分，7個及以下得15分。⑥ 博弈時長：200個博弈局的總時長。用二維表導(dǎo)出上述指標(biāo)的實(shí)驗結(jié)果，再繪制折線圖（指標(biāo)①～⑤見圖8，指標(biāo)⑥見表5）。各算法用不同顏色實(shí)線和不同類型節(jié)點(diǎn)表示，其中用紅色實(shí)線和五角星節(jié)點(diǎn)標(biāo)記的是TMSAC融合算法的實(shí)驗結(jié)果。

（1）定性分析

分析圖8中各子圖可總結(jié)出以下結(jié)論：由圖8（a）可知，各AI算法在大約前50局的勝率波動較大，之后穩(wěn)定在50%到80%之間，而全局上看，TMSAC的勝率明顯高于其他AI算法，大致排序為：TMSACfTMPPOfM1SAC≈M2SAC≈M2PPOfSACfPPO。由圖8（b）和圖8（c）可知，這個排序情況同樣也體現(xiàn)在獲勝局?jǐn)?shù)和總得分上，這與上述勝率、獲勝局?jǐn)?shù)和總得分的設(shè)置規(guī)則相吻合。此外，在圖8（a）中，需要說明的是由于首局累積獲勝次數(shù)為1次或0次，故勝率只有1或0兩種結(jié)果。

從圖8（d）看出，各算法在不同階段的相對表現(xiàn)不同，可分3個階段概括：前期階段（約前50局），各算法累計下來的得分相差很小;中期階段（約50局～120局），隨著局?jǐn)?shù)增多，各算法差異逐漸明顯，總體趨勢為：TMSACfTMPPOfM2PPOfM1SAC≈M2SACfSACfPPO;后期階段，個別算法之間的差異相較于中期階段又變得模糊，大致趨勢如下：TMSACfTMPPOfM2PPO≈M1SAC≈M2SACf" SAC≈PPO。

從圖8（e）來看，各算法在整個博弈過程的相對表現(xiàn)差異不大，但根據(jù)實(shí)驗結(jié)果數(shù)據(jù)并放大圖8（e），也可分3個階段進(jìn)行比較：前期階段（約前50局），各算法的累計存活得分相差非常小;中期階段（約50局～140局），總體表現(xiàn)為：TMSACfTMPPO≈M2PPOfM1SACfM2SAC≈SACf PPO;后期階段（140局到200局），總體表現(xiàn)如下：TMSACf TMPPO≈M2PPO≈M1SAC≈M2SACfSACfPPO。

根據(jù)上述實(shí)驗結(jié)果可得出下幾點(diǎn)結(jié)論：第一，本文所提算法TMSAC在勝率、獲勝次數(shù)、總得分、存活得分以及擊殺得分這5個方面的表現(xiàn)都明顯優(yōu)于其他算法，這也說明TWMADM模型的融入切實(shí)提升了基于SAC的智能體的博弈對抗能力。第二，能夠同步獲得對方算子威脅分類和排序先驗知識的TWMADM和強(qiáng)化學(xué)習(xí)的融合算法性能最優(yōu)，只能獲得威脅排序先驗知識的MADM與強(qiáng)化學(xué)習(xí)的融合算法次之，而既未融入MADM又未融入TWMADM的純強(qiáng)化學(xué)習(xí)算法最不理想。第三，M1SAC和M2SAC在各項指標(biāo)上的表現(xiàn)都不相上下，這說明未利用分類結(jié)果的退化版TWMADM與文獻(xiàn)［19］提出只能排序的MADM對算法的影響相差不多，也間接說明退化版TWMADM和MADM的威脅評估能力相當(dāng)，這一點(diǎn)與兩個模型的作用特點(diǎn)相吻合。

（2）定量分析

考慮實(shí)驗結(jié)果數(shù)據(jù)較多，從200個博弈局中以10為步長提取10個節(jié)點(diǎn)的勝率展示在表5中，同時也將各算法完成200個博弈局所耗費(fèi)的總時長展示在表6中。

由表5可知：① TMSAC在博弈中途的10個節(jié)點(diǎn)處的勝率普遍接近或超過80%，且相對穩(wěn)定，平均勝率達(dá)到81%，斷層式高于位居第二的TMPPO及其他算法，這再次說明了TMSAC的算法優(yōu)越性，也說明了TWMADM與SAC融合優(yōu)勢要比與PPO的融合優(yōu)勢更高。② 從變化過程看，隨著博弈局?jǐn)?shù)的增加，TMPPO與其他M1SAC、M2SAC、M2PPO的勝率差距逐漸拉開，這再次說明RL與TWMADM的融合算法要比與MADM的融合模型表現(xiàn)更好。③ 總體上，TWMADM、MADM與RL的融合算法的勝率普遍達(dá)到70%以上，而純RL算法只在50%～60%左右徘徊，說明利用了先驗知識的融合算法比純RL算法更優(yōu)。不過，仔細(xì)觀察發(fā)現(xiàn)，SAC和PPO分別在大約80局和60局之后呈穩(wěn)步上升趨勢，由此推測，隨著局?jǐn)?shù)的增多，純RL算法的學(xué)習(xí)能力漸增，與融合算法的差距也逐漸縮小。

從表6得出結(jié)論：① TMSAC完成200局的總博弈時長要略少于其他算法，說明TMSAC在獲得較高勝率的同時相對也能更快取勝。② 前5種融合算法的博弈時長普遍低于后兩種純強(qiáng)化學(xué)習(xí)算法約6～10 min，原因是融合算法有效利用了TWMADM或MADM獲得的藍(lán)方算子的威脅評估結(jié)果這些先驗知識，從而提高了樣本利用率，減少了智能體的探索次數(shù)和訓(xùn)練時間，縮短了整體博弈時長。③ 未利用威脅分類結(jié)果的退化版TMSAC，即M1SAC，其博弈總時長比利用了威脅分類結(jié)果的TMSAC和TMPPO多2 min左右，說明威脅等級分類結(jié)果這一先驗知識的利用可以有效提升博弈效率。

本節(jié)實(shí)驗展示了TMSAC在典型兵棋推演系統(tǒng)中的應(yīng)用效果，并證明了TMSAC算法相比于其他融合算法和純強(qiáng)化學(xué)習(xí)算法的優(yōu)越性，這歸功于TWMADM與SAC的有效融合。實(shí)驗也說明TWMADM獲得的威脅評估信息能夠改善SAC的獎勵稀疏問題，提升算法的訓(xùn)練收斂速度和智能體的博弈對抗勝率。

5" 結(jié)束語

首次構(gòu)建TWMADM與強(qiáng)化學(xué)習(xí)相融合的智能決策模型，利用TWMADM模型獲得的先驗知識指導(dǎo)SAC在學(xué)習(xí)過程中的獎勵更新，提出了TMSAC智能決策算法，并將其應(yīng)用于典型兵棋推演系統(tǒng)中智能體的開發(fā)，有效提升了算法的訓(xùn)練收斂速度和智能體的博弈勝率，并縮短了整體博弈時長。相比于已有的MADM與RL的融合算法和純RL算法，充分利用了威脅等級分類和綜合威脅排序先驗知識的TMSAC在博弈過程中的綜合性能更優(yōu)。未來，將進(jìn)一步考慮將不完備混合信息系統(tǒng)的改進(jìn)版TWMADM與RL算法相結(jié)合，探究其在非完全信息環(huán)境下的兵棋推演等智能博弈場景的應(yīng)用效果。

參考文獻(xiàn)

［1］" 李琛，黃炎焱，張永亮，等. Actor-Critic框架下的多智能體決策方法及其在兵棋上的應(yīng)用［J］. 系統(tǒng)工程與電子技術(shù)， 2021， 43（3）： 755762.

LI C， HUANG Y Y， ZHANG Y L， et al. Multi-agent decision-making method based on Actor-Critic framework and its application in wargame［J］. Systems Engineering and Electronics， 2021， 43（3）： 755762.

［2］ SILVER D， HUANG A， MADDISON C J， et al. Mastering the game of Go with deep neural networks and tree search［J］. Nature， 2016， 529（7587）： 484489.

［3］胡曉峰，賀筱媛，陶九陽. AlphaGo的突破與兵棋推演的挑戰(zhàn)［J］. 科技導(dǎo)報， 2017， 35（21）： 4960.

HU X F， HE X Y， TAO J Y. AlphaGo’s breakthrough and challenges of wargaming［J］. Science amp; Technology Review， 2017， 35（21）： 4960.

［4］孫宇祥，彭益輝，李斌，等. 智能博弈綜述：游戲AI對作戰(zhàn)推演的啟示［J］. 智能科學(xué)與技術(shù)學(xué)報， 2022， 4（2）： 157173.

SUN Y X， PENG Y H， LI B， et al. Overview of intelligent game： enlightenment of game AI to combat deduction［J］. Chinese Journal of Intelligent Science and Technology， 2022， 4（2）： 157173.

［5］ SILVER D， SCHRITTWIESER J， SIMONYAN K， et al. Mastering the game of go without human knowledge［J］. Nature， 2017， 550（7676）： 354359.

［6］ ESPEHOLT L， SOYER H， MUNOS R， et al. IMPALA： scalable distributed deep-RL with importance weighted actor-learner architectures［C］∥Proc.of the 35th International Conference on Machine Learning， 2018： 14071416.

［7］ BARRIGA N A， STANESCU M， BESOAIN F， et al. Improving RTS game AI by supervised policy learning， tactical search， and deep reinforcement learning［J］. IEEE Computational Intelligence Magazine， 2019， 14（3）： 818.

［8］ YE D H， LIU Z， SUN M F， et al. Mastering complex control in MOBA games with deep reinforcement learning［C］∥Proc.of the 34th AAAI Conference on Artificial Intelligence， 2020， 34（4）： 66726679.

［9］ JADERBERG M， CZARNECKI W M， DUNNING I， et al. Human-level performance in 3D multiplayer games with population-based reinforcement learning［J］. Science， 2019， 364（6443）： 859865.

［10］尹奇躍，趙美靜，倪晚成，等. 兵棋推演的智能決策技術(shù)與挑戰(zhàn)［J］. 自動化學(xué)報， 2023， 49（5）： 913928.

YIN Q Y， ZHAO M Q， NI W C， et al. Intelligent decision making technology andchallenge of wargame［J］. Acta Automatica Sinica， 2023， 49（5）： 913928.

［11］ NICOLAU M， PEREZ-LIEBANA D， O’NEI-LL M， et al. Evolutionary behavior tree approaches for navigating platform games［J］. IEEE Trans.on Computational Intelligence and AI in Games， 2017， 9（3）： 227238.

［12］ NAJAM-UL-LSLAM M， ZAHRA F T， JAFRI A R， et al. Auto implementation of parallel hardware architecture for Aho-Corasick algorithm［J］. Design Automation for Embbedded System， 2022， 26（1）： 2953.

［13］施偉，馮旸赫，程光權(quán)，等. 基于深度強(qiáng)化學(xué)習(xí)的多機(jī)協(xié)同空戰(zhàn)方法研究［J］. 自動化學(xué)報， 2021， 47（7）： 16101623.

SHI W， FENG Y H， CHENG G Q， et al. Research on multi-aircraft cooperative air combat method based on deep reinforcement learning［J］. Acta Automatica Sinica， 2021， 47（7）： 16101623.

［14］ CHEN L， LIANG X X， FENG Y H， et al. Online intention recognition with incomplete information based on a weighted contrastive predictive coding model in wargame［J］. IEEE Trans.on Neural Networks and Learning Systems， 2023， 34（10）： 75157528.

［15］張振，黃炎焱，張永亮，等. 基于近端策略優(yōu)化的作戰(zhàn)實(shí)體博弈對抗算法［J］. 南京理工大學(xué)學(xué)報， 2021， 45（1）： 7783.

ZHANG Z， HUANG Y Y， ZHANG Y L， et al. Battle entity confrontation algorithm based on proximal policy optimization［J］. Journal of Nanjing University of Science and Technology， 2021， 45（1）： 7783.

［16］ SUN Y X， YUAN B， ZHOU X Z， et al. Intelligent decision-making and human language communication based on deep reinforcement learning in a Wargame environment［J］. IEEE Trans.on Human-Machine Systems， 2023， 53（1）： 201214.

［17］ RUEDEN L V， MAYER S， BECKH K， et al. Informed machine learning： a taxonomy and survey of integrating prior knowledge into learning systems［J］. IEEE Trans.on Know-ledge and Data Engineering， 2021， 35（1）： 614633.

［18］ SUN Y X， YUAN B， ZHANG T， et al， Research andimplementation of intelligent decision based on a priori knowledge and DQN algorithms in wargame environment［J］. Electronics， 2020， 9（10）： 1668.

［19］ XUE Y F， SUN Y X， ZHOU J W， et al. Multi-attribute decision-making in wargames leveraging the entropy-weight method with deep reinforcement learning［J］. IEEE Trans.on Games， 2024， 16（1）： 151161.

［20］ YOON P K， HWANG C L， YOON K. Multiple attribute decision making： an introduction［M］. New York： Thousand Oaks Sage Publications， 1995.

［21］ YAO Y Y. The superiority of three-way decisions in probabilistic rough set models［J］. Information Sciences， 2011， 181（6）： 10801096.

［22］ WANG W J， ZHAN J M， ZHANG C， et al. A regret-theory-based three-way decision method with a priori probability tole-rance dominance relation in fuzzy incomplete information systems［J］. Information Fusion， 2023， 89： 382396.

［23］ ZHAN J M， JIANG H B， YAO Y Y. Three-way multi-attri-bute decision-making based on outranking relations［J］. IEEE Trans.on Fuzzy Systems， 2021， 29（10）： 28442858.

［24］ PENG L S， ZHANG T， ZHANG X Y， et al. Threat assessment for aerial targets based on three-way multi-criteria decision making［C］∥Proc.of the IEEE International Conference on Networking， Sensing and Control， 2021.

［25］ PENG L S， ZHOU X Z， ZHAO J J， et al. Three-way multi-attribute decision making under incomplete mixed environments using probabilistic similarity［J］. Information Science， 2022， 614： 432463.

［26］ HAARNOJA T， ZHOU A， ABBEEL P， et al. Soft Actor-Critic： off-policy maximum entropy deep reinforcement learning with a stochastic actor［C］∥Proc.of the 35th International Conference on Machine Learning， 2018.

［27］ DE JESUS J C， KICH V A， KOLLING A H， et al. Soft actor-critic for navigation of mobile robots［J］. Journal of Intelligent amp; Robotic Systems， 2021， 102（2）： 3142.

［28］楊來義，畢敬，苑海濤. 基于SAC算法的移動機(jī)器人智能路徑規(guī)劃［J］. 系統(tǒng)仿真學(xué)報， 2023， 35（8）： 17261736.

YANG L Y， BI J， YUAN H T. Intelligent path planning for mobile robots based on soft actor-critic algorithm［J］. Journal of System Simulation， 2023， 35（8）： 17261736.

［29］張建東，王鼎涵，楊啟明，等. 基于分層強(qiáng)化學(xué)習(xí)的無人機(jī)空戰(zhàn)多維決策［J］. 兵工學(xué)報， 2023， 44（6）： 15471563.

ZHANG J D， WANG D H， YANG Q M， et al. Multi-dimensional decision-making for UAV air combat based on hierarchical rein-forcement learning［J］. Acta Armamentarii， 2023， 44（6）： 15471563.

［30］單麒源，張智豪，張耀心，等. 基于SAC算法的礦山應(yīng)急救援智能車快速避障控制［J］. 黑龍江科技大學(xué)學(xué)報， 2021， 31（1）： 1420.

SHAN Q Y， ZHANG Z H， ZHANG Y X， et al. High speed obstacle avoidance control of mine emergency rescue intelligent vehicle based on SAC algorithm［J］. Journal of Heilongjiang University of Science and Technology， 2021， 31（1）： 1420.

［31］夏琳. 基于深度強(qiáng)化學(xué)習(xí)的海上作戰(zhàn)仿真推演決策方法研究［D］. 北京：中國艦船研究院， 2023.

XIA L. Research ondecision making method of maritime combat simulation based on deep reinforcement learning［D］. Beijing： Chinese Journal of Ship Research， 2023.

［32］趙燁南，杜偉偉，陳鐵健，等. 基于集對分析的坦克多目標(biāo)威脅評估方法［J］. 火力與指揮控制， 2020， 45（6）： 108112.

ZHAO Y N， DU W W， CHEN T J， et al. Multi-target threat assessment method of tank based on set pair analysis［J］. Fire Control amp; Command Control， 2020， 45（6）： 108112.

［33］張曉南，王德泉，楊俊峰. 坦克戰(zhàn)場目標(biāo)威脅評估方法［J］. 指揮信息系統(tǒng)與技術(shù)， 2015， 6（1）： 4548.

ZHANG X N， WANG D Q， YANG J F. Battlefield target threat assessment for tank［J］. Command Information System and Technology， 2015， 6（1）： 4548.

［34］孫宇祥，李原白，周勝，等. 對抗環(huán)境下的智能兵棋系統(tǒng)設(shè)計及其關(guān)鍵技術(shù)［J］. 火力與指揮控制， 2024， 49（2）： 3341.

SUN Y X， LI Y B， ZHOU S， et al. Design anel key technology of intelligent wargame system in adversary environment［J］. Fire Control amp; Command Control， 2024， 49（2）： 3341.

作者簡介

彭莉莎（1994―），女，博士，講師，主要研究方向為智能信息處理與智能決策、三支決策。

孫宇祥（1990―），男，助理研究員，博士，主要研究方向為智能博弈與決策。

薛宇凡（1998―），男，碩士，主要研究方向為智能兵棋推演。

周獻(xiàn)中（1962―），男，教授，博士，主要研究方向為C2 系統(tǒng)理論與技術(shù)、智能信息處理、智能人機(jī)交互。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

融合三支多屬性決策與SAC的兵棋推演智能決策技術(shù)