高 昂, 郭齊勝,*, 董志明, 楊紹卿
(1. 陸軍裝甲兵學(xué)院演訓(xùn)中心, 北京 100072; 2. 國防科技創(chuàng)新研究院, 北京 100071)
無人作戰(zhàn)系統(tǒng)通過優(yōu)異的戰(zhàn)場表現(xiàn)獲得了巨大的發(fā)展動力,無人作戰(zhàn)開始步入戰(zhàn)爭舞臺[1]。美陸軍首套下一代戰(zhàn)車由6臺試驗原型機組成,于2019年底交付,2020年初開始試驗,2028~2035年之間實現(xiàn)下一代戰(zhàn)車的正式應(yīng)用[2]。美國陸軍認為,下一代戰(zhàn)車在與實力相當(dāng)?shù)膶κ珠_展的近戰(zhàn)中必須具有優(yōu)勢和決定性殺傷力。為達到這一目的,美軍開始運用人工智能技術(shù)發(fā)展戰(zhàn)車自主能力,不僅要求作戰(zhàn)人員遙控駕駛戰(zhàn)車向目標(biāo)實施火力打擊,同時要求戰(zhàn)車具備優(yōu)秀的自主作戰(zhàn)能力。多無人車(multi unmanned ground vehicle,MUGV) 協(xié)同作戰(zhàn)具有增加信息感知量、提高任務(wù)完成率、縮短任務(wù)完成時間等優(yōu)勢,將成為未來作戰(zhàn)的主要樣式[3]。效能是武器裝備體系在特定作戰(zhàn)約束條件(包括作戰(zhàn)環(huán)境、作戰(zhàn)條件、作戰(zhàn)威脅等)下,完成規(guī)定作戰(zhàn)使命任務(wù)效果的度量,對應(yīng)的是其能力的匹配程度。能力描述的是體系固有的本領(lǐng),是靜態(tài)的概念,效能是能力發(fā)揮出來的效果。體系效能與作戰(zhàn)過程有關(guān),具有整體性、動態(tài)性、對抗性,是體系在對抗條件下完成具體任務(wù)的效能[4-5]。武器裝備需求論證是為裝備發(fā)展提供決策依據(jù)的研究工作,研究對象是未來要發(fā)展的裝備要求,輸入是作戰(zhàn)單元的使命任務(wù),輸出是滿足使命任務(wù)需求的裝備需求方案。武器裝備體系效能評估是基于對抗進行武器裝備體系論證研究的核心問題。本文基于未來作戰(zhàn)場景設(shè)想,開展近戰(zhàn)場景下的MUGV要點奪控、定點清剿等進攻戰(zhàn)斗任務(wù)體系效能評估問題研究。
體系效能評估方法包括分為數(shù)學(xué)解析、不確定性推理、復(fù)雜網(wǎng)絡(luò)、作戰(zhàn)環(huán)、探索性分析、建模仿真等方法[6],表1為6類典型評估方法對比。近戰(zhàn)場景下的MUGV要點奪控、定點清剿等進攻戰(zhàn)斗任務(wù)屬于高動態(tài)、交互復(fù)雜、狀態(tài)空間與動作空間維度高的體系對抗問題,以上方法難以適用。
表1 體系效能評估方法對比
探索性分析仿真(exploratory analysis simulation,EAS)是將探索性分析與建模仿真相結(jié)合的方法,是基于計算機仿真實驗最大限度的模擬體系作戰(zhàn)對抗?fàn)顟B(tài),利用大樣本空間和定性/定量分析方法探索裝備體系作戰(zhàn)效能的方法[7],為MUGV體系效能評估提供了可行途徑。虛擬實體行為建模方法可分為兩大類,一是將戰(zhàn)術(shù)對抗復(fù)雜系統(tǒng)運行規(guī)律的理解模型化,并使用公式將各種因素綜合權(quán)衡的傳統(tǒng)方法[8-9],二是直接對戰(zhàn)術(shù)對抗復(fù)雜系統(tǒng)運行規(guī)律的認知進行建模的自主學(xué)習(xí)方法,該方法以多智能體深度強化學(xué)習(xí)類(multi agent deep reinforcement learning,MADRL)方法為代表,構(gòu)建認知智能體,讓智能體自動學(xué)習(xí)和獲取復(fù)雜系統(tǒng)深層次的規(guī)律,相較于傳統(tǒng)方法更能體現(xiàn)體系的整體性、動態(tài)性、對抗性等特點[10]。
體系效能的發(fā)揮不僅與裝備性能和裝備在作戰(zhàn)環(huán)境中的可用性、可靠性相關(guān),而且與裝備作戰(zhàn)過程中使用的策略、完成使命任務(wù)所涉及的作戰(zhàn)環(huán)境、作戰(zhàn)對手密切相關(guān),作戰(zhàn)對手又包括敵方兵力部署、裝備性能、作戰(zhàn)使用的策略等。MADRL方法是將MUGV作戰(zhàn)過程看作為多個智能體在多種狀態(tài)下進行的動態(tài)博弈,將MUGV體系置于作戰(zhàn)仿真環(huán)境中,使用隨機博弈(stochastic game,SG)框架來形式化多智能體與環(huán)境的交互。由于戰(zhàn)爭的不可重復(fù)性,不同的作戰(zhàn)過程、體系效能會有所變化,智能體通過與環(huán)境交互探索,演化出大量不同的作戰(zhàn)過程,從中學(xué)習(xí)MUGV最優(yōu)聯(lián)合策略,最大化多智能體累積聯(lián)合獎勵,探索體系能夠發(fā)揮出的最大效能。
如圖1所示,本文基于探索性仿真分析框架,以自主學(xué)習(xí)方法為基礎(chǔ),提出EAS+MADRL的MUGV體系效能評估方法。該方法以MUGV最大體系效能為學(xué)習(xí)對象,以體系效能度量因素確定條件下,MUGV最優(yōu)聯(lián)合策略為學(xué)習(xí)目標(biāo),最大化累積聯(lián)合獎勵。通過設(shè)計獎勵函數(shù),使最大化累積聯(lián)合獎勵與體系效能成正相關(guān)關(guān)系,考察在輸入因素不確定條件下體系效能的變化情況,發(fā)現(xiàn)體系效能與輸入因素之間的重要關(guān)系,探索滿足約束條件時各因素的變化情況,探索MUGV最大體系效能。
圖1 ESA+MADRL方法思路圖Fig.1 Thought diagram of ESA+MADRL method
EAS+MADRL方法步驟如圖2所示,從待評估的武器裝備體系入手,明確問題背景,武器裝備具體應(yīng)用,建立體系效能指標(biāo),構(gòu)建探索性分析模型,進行仿真實驗與探索計算,最后對仿真數(shù)據(jù)分析,得出高價值評估結(jié)論,建立更可信、可用的體系效能評估方法。
圖2 ESA+MADRL方法框架Fig.2 ESA+MADRL method framework
圖3 隨機博弈過程示意圖Fig.3 Schematic diagram of stochastic game process
S為當(dāng)前博弈的狀態(tài)空間;Ai為藍方UGVi的動作空間,A=A1×A2×…×Am表示藍方m個UGV聯(lián)合動作空間,i∈[1,m];Bi為紅方UGVi的動作空間,B=Bm+1×Bm+2×…×Bn表示紅方n-m個UGV聯(lián)合動作空間,i∈[m+1,n];動作是指UGV在戰(zhàn)斗行動中,為完成任務(wù)而在一段時間內(nèi)持續(xù)進行的最小操作,是UGV狀態(tài)轉(zhuǎn)換中分辨率最高、最基本的行為要素。這里動作均指戰(zhàn)術(shù)動作??臻g是由向量組成的一個非空集合。動作空間是一個用來表示UGV戰(zhàn)術(shù)動作的向量的集合,通過向量間的組合,可以表示出UGV的任何戰(zhàn)術(shù)動作。聯(lián)合動作空間是一個用來表示MUGV聯(lián)合戰(zhàn)術(shù)動作的向量的集合,通過向量間的組合,可以表示出MUGV的任何聯(lián)合戰(zhàn)術(shù)動作。
P∶S×A×B→Δ(S),為狀態(tài)轉(zhuǎn)移函數(shù),決定了給定任意聯(lián)合動作a∈A,b∈B,從任意狀態(tài)s∈S到任意狀態(tài)s′∈S的狀態(tài)轉(zhuǎn)移概率。在對抗過程中,P是未知的;ri∶S×A×B→R,為UGVi的獎勵函數(shù),定義了當(dāng)UGV在狀態(tài)s下,藍方UGV執(zhí)行動作a,紅方UGV執(zhí)行動作b,狀態(tài)s被轉(zhuǎn)換為s′時,獲得的瞬時獎勵。在t時刻,UGVi根據(jù)狀態(tài)st執(zhí)行動作ai,t(i∈[1,m])或bi,t(i∈[m+1,n]),系統(tǒng)狀態(tài)轉(zhuǎn)移至st+1,UGVi獲得獎勵值ri(st,a(t),b(t)),a(t)=(a1t,a2t,…,ant),b(t)=(bm+1,t,bm+2,t,…,bn,t)。UGVi的目標(biāo)都是通過找到一個策略πi∶S→Δ(Ai),即ai,t~πi(·|st),來最優(yōu)化自己的長期獎勵。隨機博弈中的多個UGV需要選擇動作,形成聯(lián)合動作,并且下一個狀態(tài)和獎勵取決于該聯(lián)合動作,每輛UGV有自己獨立的獎勵函數(shù)。
MUGV的聯(lián)合狀態(tài)空間S應(yīng)包括戰(zhàn)場環(huán)境、紅藍雙方兵力數(shù)量、狀態(tài)等信息,需要從中選擇有限維數(shù)的關(guān)鍵狀態(tài)作為S的元素。MUGV保持較好的位置關(guān)系并根據(jù)對方情況適時進行隊形變換、進攻、防御,隨時保持在相對于對方最佳的位置進行戰(zhàn)斗,方能發(fā)揮體系的最大作戰(zhàn)效能。因此,將S分為共享狀態(tài)空間Sshared和局部狀態(tài)空間Slocal兩部分,即S={Sshared,Slocal}。Sshared在UGVS間共享,使得每輛UGV具有全局視野,具體包含表2所示信息。
表2 MUGV共享狀態(tài)空間設(shè)計
Slocal通過UGV探測感知得到,輔助UGV具體動作實施、調(diào)整,以UGVi為例,包含表3所示信息。其中,i=1,2,…,m,j=1,2,…,n。
表3 MUGV局部狀態(tài)空間設(shè)計
以上元素值需要進一步規(guī)范化,使得聯(lián)合狀態(tài)值在合理范圍內(nèi)變動。
UGV的動作主要是機動和射擊兩類,細化為單位時間步長內(nèi)機動的方向和距離,射擊瞄準(zhǔn)點的方向和距離。因此,UGV動作空間采用[-1,1]的連續(xù)實數(shù)變量描述,Ai={p,θ,ρ},p表示執(zhí)行攻擊或移動動作的概率,θ,ρ分別表示執(zhí)行動作的角度和距離,θ,ρ用極坐標(biāo)形式表示,用來描述UGV從當(dāng)前位置執(zhí)行射擊或機動動作的目標(biāo)點,如圖4所示。
圖4 動作空間設(shè)計思路圖Fig.4 Action space design idea diagram
以UGVi為例,具體表述如表4所示。
表4 UGV動作空間設(shè)計
在執(zhí)行攻擊動作時,選擇離目標(biāo)點最近的紅方UGV作為藍方UGV的攻擊目標(biāo)進行攻擊。MUGV聯(lián)合戰(zhàn)術(shù)動作包括隊形展開、發(fā)起沖擊、集火射擊等,為了避免動作空間過大,動作空間設(shè)計的原則是用盡可能少的向量參數(shù),表示出盡可能多的戰(zhàn)術(shù)動作。圖5(a)所示為MUGV隊形展開戰(zhàn)術(shù)動作,ρ1,ρ2,ρ3均小于1,說明MUGV此時處于一個較小的范圍內(nèi);p1,p2,p3均小于0,說明UGV處于機動狀態(tài);θ1=30°,θ2=90°,θ3=150°表示車體角度為3個不同的方向。因此,聯(lián)合動作(a1,a2,a3)表示MUGV正在隊形展開。同理可知圖5(b)所示為MUGV集火射擊動作。
圖5 聯(lián)合戰(zhàn)術(shù)動作空間設(shè)計思路圖Fig.5 Diagram of joint tactical action space design
定義藍方時變?nèi)知剟詈瘮?shù)如下所示:
(1)
本節(jié)分別對MUGV作戰(zhàn)效能評估探索性算法原理進行分析和設(shè)計。
(2)
式中:π-i=[π1,…,πi-1,πi+1,…,πn]表示除去i之外的UGV的聯(lián)合策略。在NE,每個UGV的策略是其他UGV聯(lián)合策略下的最優(yōu)策略。MUGV控制本質(zhì)上可以看作是尋找對整個體系的最優(yōu)控制策略。通過探索不同紅方MUGV規(guī)模條件下,藍方MUGV ZSG模型的NE解,以及分析NE條件下參戰(zhàn)雙方戰(zhàn)損比、作戰(zhàn)時長等約束,完成MUGV體系效能評估,圖6所示為體系效能評估探索性算法步驟圖。
圖6 體系效能評估探索性算法步驟圖Fig.6 Exploratory algorithm step diagram for system effectiveness evaluation
零和隨機博弈屬于隨機博弈,同時,零和隨機博弈的所有狀態(tài)必須定義為一個零和矩陣博弈。隨機博弈的解,可以描述為一組關(guān)聯(lián)特定狀態(tài)矩陣博弈中的NE策略,零和博弈的NE是一種最大化值函數(shù)策略。因此,在每個特定狀態(tài)矩陣博弈的NE策略的集合為零和隨機博弈最優(yōu)策略[14-15]。圖7所示為零和隨機博弈最優(yōu)策略求解思路圖,通過強化學(xué)習(xí)方法架起多智能體系統(tǒng)與尋找NE的橋梁。
圖7 零和隨機博弈最優(yōu)策略求解思路圖Fig.7 Optimal strategy solution diagram of zero sum stochastic game
(3)
(4)
步驟 1初始化紅方UGVS規(guī)模,藍方UGVS Actor網(wǎng)絡(luò)θ和Critic網(wǎng)絡(luò)ξ,目標(biāo)Actor網(wǎng)絡(luò)θ′←θ和Critic網(wǎng)絡(luò)ξ′←ξ,經(jīng)驗緩存池D。設(shè)置最大探索批次(maxepoch),每批次(epoch)包括N次作戰(zhàn)過程演化,每次作戰(zhàn)過程最大仿真步長T。
步驟 2針對每次作戰(zhàn)過程演化,執(zhí)行以下操作:
步驟 2.2初始化隨機過程μ用于動作探索;
步驟 2.3接收初始觀察空間s1;
步驟 2.4針對每個仿真步長t,執(zhí)行以下操作:
步驟 2.4.1針對每輛UGV,選擇和執(zhí)行動作ai,t=ai,θ(st)+μt;
步驟 2.4.4從D中隨機采樣M個狀態(tài)轉(zhuǎn)換過程;
步驟 2.4.5使用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)計算每個轉(zhuǎn)換過程中每個智能體的目標(biāo)值,對M個狀態(tài)轉(zhuǎn)換過程,執(zhí)行下式操作:
(5)
步驟 2.5計算UGVCritic網(wǎng)絡(luò)梯度估計,如下所示:
(6)
步驟 2.6計算UGV Actor網(wǎng)絡(luò)梯度估計,并采用Critic網(wǎng)絡(luò)梯度估計代替Q值,如下所示:
(7)
步驟 2.7采用Δξ,Δθ梯度估計和Adam方法更新UGV Actor、Critic網(wǎng)絡(luò)。
步驟 2.8更新UGV目標(biāo)網(wǎng)絡(luò),如下所示:
ξ′=γξ+(1-γ)ξ′,θ′=γθ+(1-γ)θ′
(8)
步驟 3紅方UGVS是否被完全擊毀,如果是,轉(zhuǎn)入步驟4,否則,調(diào)整UGVS規(guī)模,轉(zhuǎn)入步驟1。
步驟 4輸出作戰(zhàn)效能指標(biāo)。
如圖8所示,場景設(shè)想在2030年,美俄爭霸在敘利亞地區(qū)沖突再起,雙方將大量新型武器投入戰(zhàn)場。在美國的支援下,反政府武裝(藍軍)占領(lǐng)了敘利亞政府廣場,宣告勝利,并操控?zé)o人戰(zhàn)車(6臺)組成了嚴(yán)密的火力網(wǎng)。政府軍(紅方)在俄羅斯的支援下,決定整建制使用自主作戰(zhàn)無人戰(zhàn)車連進行攻堅戰(zhàn),目的是消滅藍軍戰(zhàn)車,奪回藍軍占領(lǐng)要點?,F(xiàn)要求論證紅方無人戰(zhàn)車連在未來場景設(shè)想下的UGV規(guī)模。
圖8 MUGV對抗場景示意圖Fig.8 Schematic diagram of MUGV confrontation scene
(9)
表 5 UAV屬性值設(shè)置
圖9 距離要素量化示意圖Fig.9 Distance element quantification schematic diagram
體系效能是針對對手裝備體系及其采用的策略μ來說的,是一個相對量。設(shè)置藍方的策略μ為“就近攻擊”,即在每次行動決策時,總是操控UGV選擇離其最近的目標(biāo)先敵開火,單位時間步長內(nèi)最多可同時控制6臺UGV。
由epoch=150,N=20可知,總共進行了3 000次作戰(zhàn)過程的演化探索,其中圖10~圖12所示分別為紅方體系效能區(qū)間分布、紅方勝率區(qū)間分布、紅方最大體系效能值隨其UGV規(guī)模變化情況。通過對實驗結(jié)果分析,可得出以下結(jié)論。
(1) 體系效能更可能服從一個分布,而不是一個固定值。復(fù)雜系統(tǒng)結(jié)構(gòu)動態(tài)可變,過程涌現(xiàn)不可預(yù)測,結(jié)果不重復(fù),但又表現(xiàn)出總體的規(guī)律性,不以人的意志為轉(zhuǎn)移。給體系效能指標(biāo)一個最終量化值可能無法完全概括體系的性能,或者無法完全說明問題,體系效能的指標(biāo)量化更有可能是從推演產(chǎn)生的數(shù)據(jù)中得出的一個概率分布。由于基于自主學(xué)習(xí)的虛擬實體具有作戰(zhàn)能力等級,并且產(chǎn)生的行動序列具有多樣性,因此可以模擬出復(fù)雜系統(tǒng)的適應(yīng)性、涌現(xiàn)性、不確定性,進而產(chǎn)生的數(shù)據(jù)更貼近復(fù)雜系統(tǒng)運行規(guī)律?;谝?guī)則的虛擬實體生成方法,作戰(zhàn)行動序列較為固定,能力等級不明確,因此,產(chǎn)生的數(shù)據(jù)無法很好反應(yīng)復(fù)雜系統(tǒng)規(guī)律。
(2) 體系中并是不裝備的數(shù)量越多越好,隨著裝備數(shù)量的增加,體系能力增強,同時也意味著更多戰(zhàn)損,指控難度增加。由圖10可以看出,當(dāng)UGV數(shù)量為6時,釋放的體系效能值大部分在[20,30)區(qū)間,當(dāng)UGV數(shù)量為7時,釋放的體系效能值大部分在[0,10)區(qū)間。同時,由圖11可知,當(dāng)UGV數(shù)量為6時,落在[0.8,1]勝率區(qū)間有80個批次,UGV數(shù)量為7時有50個批次,圖10與圖11相互印證。
圖10 紅方體系效能區(qū)間分布圖Fig.10 Distribution diagram of efficiency interval of the red side
圖11 紅方勝率區(qū)間分布圖Fig.11 Distribution diagram of winning rate interval of the red side
(3) 最大體系效能值隨UGV數(shù)量呈非線性變化,當(dāng)UGV達到一定數(shù)量時,釋放的最大體系效能會發(fā)生由量變到質(zhì)變的變化。由圖12可知,當(dāng)UGV數(shù)量由4輛增加至5輛時,釋放的最大體系效能增加4.27,當(dāng)UGV數(shù)量由5輛增加至6輛時,釋放的最大體系效能增加25.57,此時,最大體系效能發(fā)生了驟增,1輛UGV之差,最大體系效能增加至約是原來的3.12倍。當(dāng)UGV數(shù)量由6輛增加至7輛時,釋放的最大體系效能增加1.87,最大體系效能達到了“瓶頸期”,沒有發(fā)生太大變化。
圖12 紅方最大體系效能變化圖Fig.12 Changes of maximum system efficacy of the red side
圖13為UGV數(shù)量為5時的一些典型戰(zhàn)斗場景,圖13(a)為MUGV集火攻擊戰(zhàn)術(shù)場景,圖13(b)為MUGV邊打邊撤的游擊戰(zhàn)術(shù)場景,無論哪種戰(zhàn)術(shù),釋放的體系效能都無法戰(zhàn)勝對手MUGV體系。這與圖10紅方勝率區(qū)間分布圖中,UGV數(shù)量為5時,勝率分布全部在[0,0.2)區(qū)間相互印證。圖14為UGV數(shù)量為6時的集火攻擊戰(zhàn)術(shù)典型戰(zhàn)斗場景,圖15為UGV數(shù)量為7時的包圍戰(zhàn)術(shù)典型戰(zhàn)斗場景,可以看出,此時釋放的體系效能完全可以戰(zhàn)勝對手MUGV體系。
圖13 UGV數(shù)量為5時的戰(zhàn)斗場景Fig.13 Combat scene when UGV number is 5
圖14 UGV數(shù)量為6時的集火攻擊戰(zhàn)術(shù)戰(zhàn)斗場景Fig.14 Concentrated fire attack tactical combat scene when UGV number is 6
圖15 UGV數(shù)量為7時的包圍戰(zhàn)術(shù)Fig.15 Surrounding tactical combat scene when UGV number is 7
綜上分析可知,紅方UGV連在未來場景設(shè)想中,藍軍遙控遠程6輛M型UGV,采用矩陣隊形進攻,以及就近攻擊策略條件下,規(guī)模為6輛M型UGV。
本文針對MUGV體系效能評估問題,建立了一套以自主學(xué)習(xí)方法為基礎(chǔ)的探索性仿真分析方法。由于方法以零和隨機博弈模型為基礎(chǔ),雙方UGV為完全競爭對抗關(guān)系,因此,方法適用于未來UGV要點奪控、定點清剿等進攻戰(zhàn)斗近戰(zhàn)場景下的體系效能評估問題。通過探索不同UGV規(guī)模條件下,模型一方的NE解,以及分析納什均衡條件下參戰(zhàn)雙方戰(zhàn)損比,作戰(zhàn)時長等約束,完成MUGV體系效能分析。由于是探索模型一方的NE解,因此,假想敵一方的策略需要服從固定分布。這要求在裝備體系論證過程中,對假想敵UGV的技術(shù)路線、作戰(zhàn)條令等有所了解,從而對策略做出合理假設(shè),例如假想敵的UGV采用就近攻擊、先敵開火的作戰(zhàn)條令原則,或UGV是采用了某種算法。由于實際作戰(zhàn)過程是非完全信息博弈,本文采用的模型假設(shè)作戰(zhàn)過程是完全信息博弈,雙方裝備對抗體系已知,因此,方法主要面向裝備論證領(lǐng)域,不適用于實際作戰(zhàn)領(lǐng)域。