王成飛,董亞卓,蘇千葉,張祥林
(中國人民解放軍91977部隊,北京 100000)
作戰(zhàn)體系仿真技術(shù)是軍事仿真領(lǐng)域的重要研究方向之一,在作戰(zhàn)方案推演、作戰(zhàn)模擬訓(xùn)練、武器裝備體系論證等多個軍事領(lǐng)域都有應(yīng)用。美軍是作戰(zhàn)體系仿真技術(shù)的先驅(qū)者,建有一大批成熟的作戰(zhàn)體系仿真系統(tǒng),如聯(lián)合作戰(zhàn)模擬系統(tǒng)(Joint Warfare System,JWARS/JAS)、戰(zhàn)區(qū)級聯(lián)合作戰(zhàn)模擬系統(tǒng)(Joint Theater Level Simulation,JTLS)、海軍仿真系統(tǒng)(Navy Simulation System,NSS)、聯(lián)合建模與仿真系統(tǒng)(Joint Modeling and Simulation System,JMASS)等,覆蓋戰(zhàn)區(qū)、軍種、作戰(zhàn)方向、海上編隊、單平臺等多個作戰(zhàn)域,涉及聯(lián)合戰(zhàn)場多層級指揮、復(fù)雜通信網(wǎng)絡(luò)、多域協(xié)同戰(zhàn)術(shù)戰(zhàn)法等諸多模型算法,架構(gòu)十分復(fù)雜。作戰(zhàn)體系仿真技術(shù)主要包括離散事件仿真引擎、并行計算、多分辨率建模、組合化建模、戰(zhàn)場行為建模等。其中,自主的戰(zhàn)場對抗行為建模一直是體系仿真的研究熱點和焦點,吸引大量研究人員孜孜不倦的創(chuàng)新和探索。
近幾年,隨著人工智能技術(shù)突飛猛進的發(fā)展,采用機器學(xué)習(xí)技術(shù)開展戰(zhàn)場行為建模的方法成為前沿?zé)狳c,事實也證明,這是一條十分可行的途徑,例如,在美軍聯(lián)合作戰(zhàn)模擬系統(tǒng)(JWARS/JAS)中實現(xiàn)了利用深度強化學(xué)習(xí)來構(gòu)建戰(zhàn)場智能體模型。國內(nèi)組織了各類兵棋比賽,極大促進了智能行為建模的發(fā)展,但目前還處于探索階段,特別是在海上方向,缺少成熟的網(wǎng)絡(luò)模型、算法框架等。
本文從典型的戰(zhàn)場行為建模方法分析入手研究,對規(guī)則推理和機器學(xué)習(xí)兩種行為建模技術(shù)進行研究,并給出了相應(yīng)的模型算法。
戰(zhàn)場行為決策建模主要指戰(zhàn)場上的決策單元能夠根據(jù)實時態(tài)勢自動生成動作指令,本質(zhì)上是模擬了一個具備指揮功能的決策實體,類似于指揮官、艦長模型。通??疾煨袨闆Q策模型有以下幾個指標(biāo):認(rèn)知水平、可重復(fù)性、計算成本、可解釋性、統(tǒng)計性等,本節(jié)將從這幾個方面對典型的戰(zhàn)場行為決策建模方法進行分析。
1)人在回路決策
由人工干預(yù)來實現(xiàn)決策指揮行為,當(dāng)模型執(zhí)行達(dá)到必須執(zhí)行其中一個已識別決策時刻,仿真通過一個顯示機制暫停并顯示足夠的狀態(tài)信息給人類決策者,后者通過從可能的響應(yīng)列表或其他選擇機制中進行選擇來做出決策。人在環(huán)的方法以犧牲可重復(fù)性、計算成本、統(tǒng)計性等為代價實現(xiàn)了高水平的決策。
2)基于腳本的決策
作戰(zhàn)體系仿真中,所有作戰(zhàn)單元的行動被預(yù)先以腳本的形式確定,這種方法在給定輸入的情況下評估作戰(zhàn)結(jié)果,沒有自主決策,缺少統(tǒng)計學(xué)意義。
3)基于規(guī)則的決策
所有指揮官的決策類型都以一組有限的觸發(fā)條件和決策響應(yīng)的形式來描述。觸發(fā)條件可以依賴于每次決策時決策實體的狀態(tài)。這一方法的缺點是要求預(yù)先知道每種決策類型的所有觸發(fā)條件和響應(yīng)??赡軣o法很好地適應(yīng)需要有許多觸發(fā)器和響應(yīng)的情況。相當(dāng)于低至中等認(rèn)知水平,在可重復(fù)性、計算成本、透明度和統(tǒng)計顯著性方面優(yōu)勢明顯。
4)戰(zhàn)術(shù)算法決策
戰(zhàn)術(shù)算法決策過程是指在代碼中直接編碼決策算法,這些算法可能出現(xiàn)在各種聯(lián)合或方面作戰(zhàn)行動中,例如空中作戰(zhàn)巡邏中的飛機機動,其與基于規(guī)則的決策方法類似。
5)價值驅(qū)動決策
在這種方法下,存在這樣一種方案,即當(dāng)決策時機出現(xiàn)時,自動生成多個決策策略,而無須用戶干預(yù),并通過預(yù)測(模擬)每個策略和評估每個策略的結(jié)果來對其進行評估,選擇具有最高排名結(jié)果的策略,典型如蒙特卡洛搜索樹算法,這是一種潛在的中高級自主決策方法,但要犧牲計算成本和設(shè)置復(fù)雜性。
6)學(xué)習(xí)算法決策
該方法是價值驅(qū)動方法的一種擴展,它不僅通過預(yù)測(模擬)和評估結(jié)果來對策略進行評分,而且還通過考慮在模擬運行之前發(fā)生的“類似”情況下的實際模擬結(jié)果,即允許根據(jù)當(dāng)前時間預(yù)測加上過往的經(jīng)驗對備用決策策略進行評估。這是更高層次的認(rèn)知決策,會增加計算成本和設(shè)置復(fù)雜度,在透明度方面會有很大損失。
7)優(yōu)化決策
該方法非常類似于具有額外特征的值驅(qū)動方法利用優(yōu)化技術(shù)(如線性規(guī)劃、遺傳算法)有效地搜索可能的指揮決策空間。因此,這與價值驅(qū)動方法有大致相同的優(yōu)點和缺點,并且,可能降低計算成本。
在這些方法中,最為成熟的是基于規(guī)則和戰(zhàn)術(shù)算法的行為建模方法,已普遍應(yīng)用于國內(nèi)外各大仿真系統(tǒng)中,最前沿的是學(xué)習(xí)算法、優(yōu)化決策等行為建模方法,本文主要針對這兩類方法給出建模思路和基本實現(xiàn)方法。
作戰(zhàn)規(guī)則主要描述了滿足何種條件時采取何種應(yīng)對方法,采用典型ECA方法構(gòu)建作戰(zhàn)規(guī)則推理模型如圖1所示。主要要素包括觸發(fā)時機(準(zhǔn)則)、條件和響應(yīng)動作三個方面。觸發(fā)時機是指判斷什么時候作戰(zhàn)規(guī)則是否適用;條件指的是戰(zhàn)術(shù)態(tài)勢必須滿足什么條件作戰(zhàn)規(guī)則才能適用;響應(yīng)則是指執(zhí)行此作戰(zhàn)規(guī)則的兵力應(yīng)采取何種行動方式。
圖1 規(guī)則推理模型原理
當(dāng)態(tài)勢發(fā)生變化時,觸發(fā)規(guī)則匹配模型,即將兵力的態(tài)勢內(nèi)容與其搭載的規(guī)則的條件進行匹配,當(dāng)態(tài)勢目標(biāo)與規(guī)則條件匹配時便執(zhí)行該條規(guī)則所規(guī)定的響應(yīng)動作。典型的規(guī)則描述見表1。
表1 戰(zhàn)術(shù)規(guī)則模板
以美軍航母作戰(zhàn)指揮為例,作戰(zhàn)指揮官可分為編群層、任務(wù)層和平臺層,其中,編群層、任務(wù)層主要側(cè)重兵力協(xié)同規(guī)則,平臺層主要偏重單兵力作戰(zhàn)規(guī)則,如圖2所示。
圖2 作戰(zhàn)規(guī)則按指揮層級分類
基于模板的作戰(zhàn)規(guī)則建模實現(xiàn)了對戰(zhàn)術(shù)條件、戰(zhàn)術(shù)響應(yīng)的描述和量化,形成條目化的條件模板和響應(yīng)模板。戰(zhàn)術(shù)條件包括目標(biāo)屬性、時間、空間、探測、狀態(tài)等;戰(zhàn)術(shù)響應(yīng)包括平臺運動、探測、報告、通訊、電子戰(zhàn)、通訊干擾、軟打擊和打擊等行為。在此基礎(chǔ)上,通過不同條件及響應(yīng)的組合形成了靈活多樣的戰(zhàn)術(shù)規(guī)則模型。
行動條例建模是一種基于戰(zhàn)術(shù)算法的行為建模方法,即將行動條例以代碼內(nèi)嵌的形式與指控模型統(tǒng)一構(gòu)建,從而實現(xiàn)了宏觀動作的自主決策。
行動條例是指一些特定的作戰(zhàn)樣式的行動流程、準(zhǔn)則、要求、約束等。以美軍為例,其??章?lián)合作戰(zhàn)行動樣式,可分為空中作戰(zhàn)、打擊作戰(zhàn)、水面作戰(zhàn)、水下作戰(zhàn)、兩棲作戰(zhàn)、特種作戰(zhàn)等。美軍航空母艦編隊對空/對海的典型作戰(zhàn)流程如圖3所示。
圖3 美軍航空母艦編隊對空作戰(zhàn)流程圖
美軍航空母艦對空/對海的作戰(zhàn)流程復(fù)雜,考慮的因素和涉及的兵種較多,但是作戰(zhàn)行動的共性特點是:指定一定數(shù)量飛機在指定空域進行警戒、巡邏、偵察、監(jiān)視和搜索任務(wù),對其作戰(zhàn)流程中主要過程進行提煉,可從“出動、指控、任務(wù)、電磁、接替、打擊”六個方面進行行動條例描述,如表2所示。
表2 行動條例模型描述要素
在對規(guī)則和條例等知識進行了格式化表述后,結(jié)合規(guī)則匹配和行動條例開展對抗過程中作戰(zhàn)行動生成的研究。
規(guī)則和條例都是廣泛意義的作戰(zhàn)領(lǐng)域知識,作戰(zhàn)仿真領(lǐng)域知識主要包括作戰(zhàn)計劃、戰(zhàn)術(shù)規(guī)則、行動條例三類。作戰(zhàn)計劃包含兵力編成、部署、指揮關(guān)系、作戰(zhàn)任務(wù)等;戰(zhàn)術(shù)規(guī)則用于描述戰(zhàn)場實體應(yīng)對戰(zhàn)場態(tài)勢的處置對策,如態(tài)勢目標(biāo)威脅意圖判定、態(tài)勢目標(biāo)可攻擊范圍確定等;行動條例是對典型作戰(zhàn)行動要領(lǐng)的概括,如直升機反潛、艦艇編隊導(dǎo)攻等,三者之間互相關(guān)聯(lián)、互為依賴。構(gòu)建三者之間的共生、共存環(huán)境,通過構(gòu)建各仿真模型實體與三者之間的自作用模型,實現(xiàn)戰(zhàn)場仿真的智能演進。
以行動條例、作戰(zhàn)計劃、戰(zhàn)術(shù)規(guī)則三者交互關(guān)系為基礎(chǔ),構(gòu)建基于OODA控制流的模型體系動態(tài)演化機制,如圖4所示。
圖4 戰(zhàn)場仿真實體智能演進原理
模型演化的目的是形成時域上的模型生成、調(diào)度序列。作戰(zhàn)計劃主要用于在時域上創(chuàng)建模型演化的基準(zhǔn)序列;行動條例可以在時域上創(chuàng)建典型作戰(zhàn)行動序列;戰(zhàn)術(shù)規(guī)則用于將每個兵力的實時態(tài)勢進行匹配響應(yīng),從而產(chǎn)生新的行動序列。這種動靜結(jié)合的作戰(zhàn)序列生成機制,可以實現(xiàn)戰(zhàn)場仿真的全過程動態(tài)演化,其主要流程為:
1)仿真開始前,作戰(zhàn)計劃和行動條例相互作用生成基準(zhǔn)行為序列;
2)仿真開始后,各仿真模型按基準(zhǔn)行為序列演化;
3)戰(zhàn)術(shù)規(guī)則和行動條例根據(jù)兵力態(tài)勢進行推理,動態(tài)地調(diào)整、變更行動序列。
深度學(xué)習(xí)(Deep Learning)(也稱深度結(jié)構(gòu)學(xué)習(xí)、層次學(xué)習(xí)或者深度機器學(xué)習(xí))是一類算法集合,是機器學(xué)習(xí)的一個分支。與人工神經(jīng)網(wǎng)絡(luò)的區(qū)別是它可以有許多隱含層,主要網(wǎng)絡(luò)結(jié)構(gòu)包含為深度前饋網(wǎng)路、卷積網(wǎng)絡(luò)和遞歸經(jīng)神網(wǎng)絡(luò),深度學(xué)習(xí)是基于多層網(wǎng)絡(luò)結(jié)構(gòu)的一種機器學(xué)習(xí)方法,它逐層提取抽象特征,通過多層非線性傳輸,完成復(fù)雜的目標(biāo)函數(shù)系統(tǒng)逼近。
強化學(xué)習(xí)是指通過構(gòu)建一個環(huán)境、獎勵、動作、狀態(tài)的求解器來求解各類復(fù)雜博弈問題,如果復(fù)雜博弈問題用深度神經(jīng)網(wǎng)絡(luò)來描述,則強化學(xué)習(xí)可以理解為一種求解深度神經(jīng)網(wǎng)絡(luò)模型的算法,當(dāng)然,實際情況遠(yuǎn)比此復(fù)雜,二者是相互依賴的關(guān)系。
隨著AlphaGo的大獲成功,以棋牌類游戲為代表的序貫博弈問題基本得到了解決,戰(zhàn)場博弈是典型的實時策略的同步博弈問題(Simultaneous Games),也將是人工智能攻占的下一個制高點。與序貫博弈不同,戰(zhàn)場博弈對戰(zhàn)雙方同時采取行動,實時性強,雙方控制的單位數(shù)目不確定、不對稱,進而導(dǎo)致動作空間規(guī)模隨單位數(shù)量的增加而呈指數(shù)性增長,大大增加了問題的求解難度,目前,各種同步博弈的解決方案已經(jīng)在星際爭霸II(StarCarft II)、Dota2等即時策略游戲中得到探索和試驗,是目前多智能體決策問題研究的一大主流方向。
在作戰(zhàn)體系仿真中,戰(zhàn)場上的水面艦艇、潛艇、飛機、陸上車輛等都是具有指揮決策功能的實體,可以用智能體模型來描述。智能體模型在軍事戰(zhàn)場上的輸入主要是全局或局部的作戰(zhàn)態(tài)勢,輸出是智能體的各類戰(zhàn)術(shù)動作,如機動、打擊等。在以聯(lián)合作戰(zhàn)為主的現(xiàn)代戰(zhàn)爭中,戰(zhàn)場智能決策實體通常是多層、多類、多方面的,不同的決策實體擔(dān)負(fù)不同的作戰(zhàn)任務(wù),指揮不同的作戰(zhàn)單元。考慮目前人工智能在多層智能體求解方面還存在諸多瓶頸問題,本文將簡化智能體的指揮層級關(guān)系,構(gòu)建智能體的神經(jīng)網(wǎng)絡(luò)模型如圖5所示。
圖5 智能體神經(jīng)網(wǎng)絡(luò)模型
接收敵方兵力局部態(tài)勢、全局態(tài)勢和我方兵力局部態(tài)勢,在分別經(jīng)過三個卷積網(wǎng)絡(luò)處理后,進入AC框架的動作預(yù)測網(wǎng)絡(luò)和態(tài)勢估計網(wǎng)絡(luò),最后由后端網(wǎng)絡(luò)輸出多維向量,輸出內(nèi)容分別表示目標(biāo)選擇、指令選擇、擴展參數(shù)和我方兵力選擇等,例如,我方某艦艇對敵方某空中目標(biāo)發(fā)射艦空導(dǎo)彈進行打擊。
前端卷積網(wǎng)絡(luò)采用深度殘差網(wǎng)絡(luò)ResNet,網(wǎng)絡(luò)層1000層以上,可以解決態(tài)勢映射時精度隨網(wǎng)絡(luò)深度增加會導(dǎo)致劇烈下降的問題;動作預(yù)測網(wǎng)絡(luò)為策略網(wǎng)絡(luò),輸出當(dāng)前狀態(tài)下決策動作的概率,態(tài)勢估計網(wǎng)絡(luò)為價值網(wǎng)絡(luò),輸出當(dāng)前狀態(tài)下每個決策動作的估值,二者均可使用雙向循環(huán)網(wǎng)絡(luò)LSTM來實現(xiàn),甚至可以使用同一個網(wǎng)絡(luò)模型,雙向的遞歸機制可以使多智能體之間進行交流,并且具備本地記憶,具體網(wǎng)絡(luò)模型要結(jié)合訓(xùn)練算法來探索和設(shè)計;后端網(wǎng)絡(luò)根據(jù)具體動作不同而不同,可以是全連接網(wǎng)、卷積網(wǎng)、循環(huán)神經(jīng)網(wǎng)絡(luò)等,但規(guī)模通常小一些。
智能體神經(jīng)模型線下學(xué)習(xí)和在線對戰(zhàn)通常有所區(qū)別,在線學(xué)習(xí)的流程如圖6所示。
圖6 在線學(xué)習(xí)流程
多智能體學(xué)習(xí)流程根據(jù)選擇的網(wǎng)絡(luò)模型、用到的強化學(xué)習(xí)算法、樣本生成方法等的不同會有所區(qū)別,但總體上存在以下四個步驟:
1)通過基于規(guī)則推理的行為生成方法在仿真環(huán)境中進行紅藍(lán)對抗生成大量的初始樣本;
2)對冷啟動樣本進行評價引導(dǎo),即設(shè)計單步獎勵值,通常過程動作的獎勵是比較稀疏的,可以將最后一步的勝負(fù)作為一個大獎勵;
3)用深度強化學(xué)習(xí)算法遍歷所有樣本,求解深度網(wǎng)絡(luò)的參數(shù)值,進而形成初始版本的紅藍(lán)智能體模型;
4)紅藍(lán)智能體依托于仿真系統(tǒng)進行自博弈對抗,產(chǎn)生大量的自博弈樣本,然后重復(fù)步驟3),直到訓(xùn)練出能夠戰(zhàn)勝人類的智能體模型。
在上述流程中重點有四項內(nèi)容需要研究:冷啟動樣本生成、決策評價引導(dǎo)體系、深度強化學(xué)習(xí)訓(xùn)練和自博弈對抗演化方法。
在典型強化學(xué)習(xí)方法中,DQN(深度Q學(xué)習(xí))、DPG(確定策略梯度)等無法解決多智能體博弈問題,目前AC框架的相關(guān)算法是解決該類問題的唯一途徑,而在典型AC框架算法中,MADDPG、PPO、A3C等是目前應(yīng)用最多、最有效的方法。
MADDPG針對每個智能體訓(xùn)練一個需要全局信息的Critic以及一個需要局部信息的Actor,每個智能體有自己的獎勵函數(shù),可用于合作任務(wù)、對抗任務(wù),空間可連續(xù)。
PPO提出了新的目標(biāo)函數(shù),可以學(xué)習(xí)自己環(huán)境下的經(jīng)驗也可以獲得其他環(huán)境的經(jīng)驗,最新提出了ACKTR算法,已在Dota2中成功應(yīng)用。
多智能體演化方式是指在構(gòu)建好智能體網(wǎng)絡(luò)模型基礎(chǔ)上,通過各種博弈方式不斷地培育、提升智能體的智能性,達(dá)到預(yù)期的效果,多智能體演化方式主要有以下幾種。
1)模仿學(xué)習(xí)
通過已有的知識規(guī)則數(shù)據(jù)或人類對抗數(shù)據(jù)作為樣本來訓(xùn)練智能體。
2)自博弈訓(xùn)練
通過智能體自博弈產(chǎn)生樣本數(shù)據(jù)來訓(xùn)練智能體,通常需要一個動作選擇機制或構(gòu)建初始的策略網(wǎng)。
3)不對稱交替訓(xùn)練
非對稱場景時,交替訓(xùn)練紅藍(lán)雙方智能體,用勝率來確定訓(xùn)練結(jié)束,使紅藍(lán)方智能體在交替博弈過程中逐步提升對戰(zhàn)勝率。
4)課程學(xué)習(xí)訓(xùn)練
智能體依次解決場景中設(shè)置的不同子任務(wù)來提高智能性,子任務(wù)通常由易到難。
5)智能體聯(lián)賽
鏡像多個異步智能體,通過相互對抗、優(yōu)勝劣汰的方式同時訓(xùn)練多個智能體,使智能體集群逐步演化。
在多智能體培育過程中,通常是多種方法結(jié)合使用的,比如,Alpha Go先采用模仿學(xué)習(xí)的方法學(xué)習(xí)人類職業(yè)棋手的棋譜,形成初始的策略網(wǎng),再通過自博弈訓(xùn)練產(chǎn)生強化學(xué)習(xí)樣本進一步提升智力水平,Alpha Star則是采用模仿學(xué)習(xí)、課程學(xué)習(xí)和智能體聯(lián)賽三種方式結(jié)合來演化訓(xùn)練的。
在復(fù)雜多樣的海上作戰(zhàn)中,航母編隊作戰(zhàn)基本涵蓋了大多數(shù)的海戰(zhàn)對抗行為,為此本文在已有的海戰(zhàn)推演平臺上,設(shè)計了航母作戰(zhàn)想定,利用規(guī)則和條令推理以及深度強化學(xué)習(xí)兩種方法,進行智能對抗行為建模。
紅藍(lán)雙方航母編隊在相距1 000 km的某海域上對峙,雙方的兵力配置相同,各有一艘航母、兩艘護衛(wèi)艦、兩艘驅(qū)逐艦、一艘核潛艇,航母上都載有三十架戰(zhàn)斗機、兩架預(yù)警機和兩架反潛直升機,擊沉對方一艘水面艦艇即勝利,其中,紅方航母編隊模型如圖7所示,與藍(lán)方航母編隊模型相同。
圖7 紅方航母編隊模型
在航母編隊作戰(zhàn)想定中,可以將移動速度較慢的水面艦艇和潛艇以及在編隊周圍負(fù)責(zé)警戒探測的飛機,利用相應(yīng)作戰(zhàn)單位的作戰(zhàn)規(guī)則和行動條例,構(gòu)建基于OODA控制流的水面艦艇、潛艇和飛機的體系動態(tài)演化機制,實現(xiàn)各模型單位在面對不同態(tài)勢時執(zhí)行既定的作戰(zhàn)行動。
1)水面艦艇作戰(zhàn)模型
紅藍(lán)雙方五艘水面艦艇各構(gòu)成一個航母編隊陣型,編群級的作戰(zhàn)指揮決策為航母編隊沿固定航線前行,同時開啟對空和對海探測,若發(fā)現(xiàn)敵方來襲飛機和導(dǎo)彈目標(biāo),執(zhí)行編隊自主防空的作戰(zhàn)任務(wù),按照作戰(zhàn)規(guī)則和行動條例,給各艦艇單位分配防空攔截導(dǎo)彈發(fā)射的行動序列。
2)潛艇作戰(zhàn)模型
潛艇在航母編隊前方,按照規(guī)劃的路線進行反潛探測,若發(fā)現(xiàn)敵方潛艇或水面艦艇目標(biāo),通過指揮通信鏈路上報給航母編隊,若目標(biāo)在攻擊范圍內(nèi)則實施打擊行動。
3)警戒飛機作戰(zhàn)模型
在航母編隊的兩個斜側(cè)方向上,各派出兩架戰(zhàn)斗機編隊在固定區(qū)域進行巡航,發(fā)現(xiàn)敵機后執(zhí)行攔截行動并上報指揮所。在航母編隊兩側(cè),各派出一架反潛直升機進行反潛探測,發(fā)現(xiàn)潛艇后上報跟蹤。
在海戰(zhàn)仿真推演對抗中,艦載戰(zhàn)斗機編隊執(zhí)行對敵探測和打擊任務(wù)時,面臨的態(tài)勢信息不確定性大,需要飛機單位根據(jù)當(dāng)前的態(tài)勢信息不斷調(diào)整作戰(zhàn)行為,而傳統(tǒng)的建模方法難以滿足實時性需求,且在戰(zhàn)術(shù)行動上需要預(yù)先進行設(shè)計不夠靈活,為此可以利用深度強化學(xué)習(xí)的方法,構(gòu)建戰(zhàn)斗機智能體模型,根據(jù)本文介紹的在線學(xué)習(xí)方法,對智能體仿真對抗數(shù)據(jù)進行深度強化學(xué)習(xí)訓(xùn)練,最終使戰(zhàn)斗機智能體模型具備較強的空戰(zhàn)能力和突襲打擊敵水面艦艇的能力。
本文對戰(zhàn)斗機多智能體模型的訓(xùn)練采用了自博弈對抗技術(shù),根據(jù)多智能體訓(xùn)練算法的四個步驟,設(shè)計了紅藍(lán)雙方飛機對抗的規(guī)則推理模型用于產(chǎn)生大量的初始樣本,采用PPO算法和循環(huán)神經(jīng)網(wǎng)絡(luò)、長短時記憶神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)網(wǎng)絡(luò),對樣本數(shù)據(jù)進行深度強化學(xué)習(xí),形成初始版本的紅藍(lán)智能體模型,隨后紅藍(lán)雙方進行自博弈對抗,產(chǎn)生大量的樣本數(shù)據(jù)繼續(xù)進行深度強化學(xué)習(xí),通過不斷地更新迭代,生成可以協(xié)同作戰(zhàn)、打擊敵方飛機和水面艦艇的戰(zhàn)斗機編隊多智能體模型。
采用深度強化學(xué)習(xí)方法構(gòu)建的戰(zhàn)斗機多智能體模型,設(shè)計獎勵函數(shù)如表3所示。
表3 獎勵函數(shù)設(shè)計
其中,Δ與Δ是當(dāng)前戰(zhàn)斗機編隊中心的經(jīng)緯度值減去上一步的經(jīng)緯度值,為常數(shù),目的是讓戰(zhàn)斗機編隊向敵方艦艇方向移動。
在自博弈對抗過程中,藍(lán)方采用規(guī)則推理模型,記錄紅方戰(zhàn)斗機每10輪對戰(zhàn)獎勵的平均值,紅藍(lán)雙方共進行4 000輪對戰(zhàn),紅方的訓(xùn)練過程曲線如圖8所示。
圖8 紅方平均獎勵值和決策步數(shù)曲線圖
從圖8曲線中可以看出,在第600輪后,紅方平均獎勵變?yōu)檎?開始逐漸取得勝利,在1 000輪后開始趨于收斂,并且獎勵值在緩慢地增加。而智能體平均每回合對戰(zhàn)的決策步數(shù),一直在平穩(wěn)地緩慢下降,在經(jīng)過4 000輪的訓(xùn)練后,紅方智能體的獎勵值收斂于14分左右,決策步數(shù)收斂于340步左右,紅方智能體可以最小代價快速地取得勝利。
本次實驗構(gòu)建的航母編隊模型,驗證了規(guī)則推理與深度強化學(xué)習(xí)兩種方法相結(jié)合,可以實現(xiàn)對海戰(zhàn)智能對抗行為的建模,并且在經(jīng)過大量訓(xùn)練后,紅方航母編隊可以具備較強的智能作戰(zhàn)能力。
規(guī)則推理的行為建模具有應(yīng)用廣泛、實用度高、可解釋性好等特點,受作戰(zhàn)指揮系統(tǒng)設(shè)計人員所青睞,深度強化學(xué)習(xí)的行為建模方法技術(shù)先進,潛力巨大,是未來智能化作戰(zhàn)一個重要研究方向,唯一不足之處是可解釋方面亟待提升,本文從典型海戰(zhàn)場行為建模方法分析入手,提出了規(guī)則推理與深度強化學(xué)習(xí)的模型算法框架,對于未來智能化軍事應(yīng)用具有借鑒意義。