郭洪宇,初 陽,劉 志,周玉芳
(江蘇自動(dòng)化研究所,江蘇 連云港 222061)
近年來,AlphaGo、Alpha Star等智能體在圍棋、“星際爭霸”等各類游戲中不斷戰(zhàn)勝人類的頂尖選手,人工智能技術(shù)的迅猛發(fā)展和廣泛應(yīng)用,已經(jīng)成為新一輪科技革命的主導(dǎo)因素,世界主要的軍事大國紛紛制定人工智能發(fā)展戰(zhàn)略與規(guī)劃,加快軍事智能化的發(fā)展。在戰(zhàn)術(shù)層面的決策博弈領(lǐng)域,由于作戰(zhàn)環(huán)境、對(duì)手、目標(biāo)、手段、方式都相對(duì)確定,通過人工智能技術(shù)能夠逐步實(shí)現(xiàn)作戰(zhàn)智能指揮決策,給指揮員在復(fù)雜現(xiàn)代戰(zhàn)爭中的指揮決策提供建議,幫助指揮員做出更好的決策判斷。
與作戰(zhàn)智能指揮決策過程具有一定相似性的是“星際爭霸”游戲的決策問題。“星際爭霸”智能體的訓(xùn)練技術(shù)可以在戰(zhàn)場數(shù)據(jù)生成機(jī)理、戰(zhàn)略戰(zhàn)術(shù)算法開發(fā)和驗(yàn)證方面,為作戰(zhàn)指揮決策智能體的構(gòu)建提供理論指導(dǎo)和技術(shù)支撐。目前,人們對(duì)深度強(qiáng)化學(xué)習(xí)算法在軍事智能決策上的應(yīng)用進(jìn)行了廣泛的探索。文獻(xiàn)[3]針對(duì)高度復(fù)雜且行為連續(xù)的戰(zhàn)場環(huán)境,提出了一種改進(jìn)的深度確定策略梯度(DDPG)算法, 提高算法收斂速度,設(shè)計(jì)了一種混合雙噪聲的探索策略,從而實(shí)現(xiàn)復(fù)雜且連續(xù)的軍事決策控制行為;文獻(xiàn)[4]針對(duì)多機(jī)協(xié)同空戰(zhàn),研究利用深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)多機(jī)協(xié)同的方法,提出了集中式訓(xùn)練-分布式執(zhí)行架構(gòu),并對(duì)近端策略優(yōu)化算法設(shè)計(jì)了四種算法增強(qiáng)機(jī)制,利用兵棋推演平臺(tái)進(jìn)行了驗(yàn)證;文獻(xiàn)[5]針對(duì)作戰(zhàn)仿真推演系統(tǒng),提出了一種基于深度強(qiáng)化學(xué)習(xí)技術(shù)的智能決策模型,建立了以actor-critic體系為基礎(chǔ)的智能體訓(xùn)練網(wǎng)絡(luò),根據(jù)反潛作戰(zhàn)想定,利用SAC算法訓(xùn)練智能體實(shí)現(xiàn)自主決策;文獻(xiàn)[6]針對(duì)作戰(zhàn)實(shí)體間的博弈對(duì)抗,提出了一種監(jiān)督學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)相結(jié)合的算法,利用近端策略優(yōu)化(Proximal Policy Optimization,PPO)算法和改進(jìn)的額外獎(jiǎng)勵(lì),提升智能體的作戰(zhàn)決策能力。
本文針對(duì)潛艇與水面艦艇反潛編隊(duì)間的對(duì)抗,研究利用人工智能技術(shù)實(shí)現(xiàn)潛艇的智能指揮決策,設(shè)計(jì)了基于深度強(qiáng)化學(xué)習(xí)的分布式訓(xùn)練方法,構(gòu)建了潛艇智能體決策模型和艦艇及其艦載反潛直升機(jī)的協(xié)同反潛規(guī)則體模型,利用互博弈對(duì)抗的方式訓(xùn)練得到潛艇決策智能體模型。根據(jù)文獻(xiàn)[7]對(duì)各深度強(qiáng)化學(xué)習(xí)算法在海戰(zhàn)場中應(yīng)用的分析。本文選取了PPO算法進(jìn)行研究,并提出了兩種增強(qiáng)改進(jìn)機(jī)制,針對(duì)性地提高潛艇攻防對(duì)抗場景下深度強(qiáng)化學(xué)習(xí)算法的效果。最后,在兵棋推演平臺(tái)上設(shè)計(jì)潛艦機(jī)攻防對(duì)抗想定,對(duì)本文提出的訓(xùn)練方法和算法改進(jìn)效果進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果證明了本文所用方法的實(shí)用性和有效性。
強(qiáng)化學(xué)習(xí)的基本思想是智能體在與環(huán)境交互的過程中根據(jù)環(huán)境反饋得到的獎(jiǎng)勵(lì)不斷調(diào)整自身的策略以實(shí)現(xiàn)最佳決策,主要用來解決決策優(yōu)化類的問題。深度學(xué)習(xí)是通過學(xué)習(xí)一種深層的非線性網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)復(fù)雜函數(shù)的逼近,能夠?qū)τ?xùn)練數(shù)據(jù)的本質(zhì)特征進(jìn)行學(xué)習(xí),具有較強(qiáng)的無監(jiān)督特征提取能力。
對(duì)強(qiáng)化學(xué)習(xí)過程的描述通常為如圖1所示的馬爾科夫決策過程,基本要素有策略、獎(jiǎng)勵(lì)函數(shù)、值函數(shù)和環(huán)境狀態(tài)。
圖1 強(qiáng)化學(xué)習(xí)基本學(xué)習(xí)模型
深度強(qiáng)化學(xué)習(xí)是將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合,融合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的優(yōu)點(diǎn),實(shí)現(xiàn)了從環(huán)境中獲取狀態(tài)信息通過學(xué)習(xí)得到當(dāng)前最優(yōu)動(dòng)作。
目前,深度強(qiáng)化學(xué)習(xí)在棋類博弈、即時(shí)策略游戲和兵棋推演等智能決策領(lǐng)域不斷取得重大突破,顯示出了深度強(qiáng)化學(xué)習(xí)在認(rèn)知決策方面具有巨大的潛力和獨(dú)特的優(yōu)勢,使智能體在高動(dòng)態(tài)性、高復(fù)雜性的戰(zhàn)場環(huán)境下具有作戰(zhàn)決策能力成為可能。
PPO算法是Schulman等人在提出置信區(qū)域策略優(yōu)化(Trust Region Policy Optimization,TRPO)算法保證策略更新穩(wěn)定的基礎(chǔ)上,進(jìn)一步提出的一種改進(jìn)后的策略梯度算法,通過截?cái)嗷蛳拗芀L散度的方式,避免策略出現(xiàn)突變的情況,增強(qiáng)了訓(xùn)練的效果。策略梯度算法的主要目標(biāo)是找到一個(gè)可以讓帶有折扣的未來期望的收益達(dá)到最大的策略,因此,PPO算法的網(wǎng)絡(luò)參數(shù)更新的目標(biāo)函數(shù)為
(1)
(2)
()為新舊策略的比值:
(3)
網(wǎng)絡(luò)參數(shù)的更新為
(4)
此外,為截?cái)喑?shù),其取值為一個(gè)經(jīng)驗(yàn)值,表示新舊策略的最大差值;函數(shù)為截?cái)嗪瘮?shù),將()的值限定在1-和1+之間,表示新策略不會(huì)因?yàn)檫h(yuǎn)離舊策略而獲益。
因此,PPO算法的描述如下:
初始化策略參數(shù)θ,θold重復(fù)每輪更新 重復(fù)每個(gè)Actor 重復(fù)T步 每步使用舊的策略參數(shù)產(chǎn)生θold決策 計(jì)算每一步中的優(yōu)勢函數(shù)估計(jì)A 迭代K步 求解累積期望回報(bào)函數(shù)的策略梯度,每次使用小批量數(shù)據(jù) 用策略梯度θ更新策略參數(shù)將新的策略參數(shù)更新至θold
目前,潛艇攻防對(duì)抗缺少歷史仿真數(shù)據(jù),且潛艇和主流的艦機(jī)協(xié)同反潛兵力屬于非對(duì)稱性的博弈對(duì)抗,為此本文研究構(gòu)建潛艇智能體模型和反潛規(guī)則體模型,利用互博弈對(duì)抗的方式進(jìn)行深度強(qiáng)化學(xué)習(xí)訓(xùn)練,其訓(xùn)練流程的總體框架如圖2所示,主要的研究內(nèi)容是深度強(qiáng)化學(xué)習(xí)訓(xùn)練和兩類模型的構(gòu)建。
圖2 智能體訓(xùn)練總體框架圖
為了獲取大量互博弈對(duì)抗數(shù)據(jù),提高智能體的訓(xùn)練速度,本文參考Alpha Star的訓(xùn)練,設(shè)計(jì)了基于深度強(qiáng)化學(xué)習(xí)的分布式訓(xùn)練方法,如圖3所示,該訓(xùn)練方法由數(shù)據(jù)采樣、分布式學(xué)習(xí)和預(yù)測推斷三部分組成。
圖3 基于深度強(qiáng)化學(xué)習(xí)的分布式訓(xùn)練流程
1)數(shù)據(jù)采樣
數(shù)據(jù)采樣利用CPU集群采用并行方式同時(shí)與多個(gè)仿真環(huán)境進(jìn)行交互,每個(gè)仿真環(huán)境開啟一局對(duì)戰(zhàn),利用數(shù)據(jù)采樣器(CPU)采集每一步潛艇智能體的狀態(tài)數(shù)據(jù),其數(shù)據(jù)格式為(state,action,reward)三元組形式,經(jīng)過樣本處理、獎(jiǎng)勵(lì)計(jì)算,將采集的數(shù)據(jù)送入樣本數(shù)據(jù)庫(Sample Buffer)。此外,數(shù)據(jù)采樣器通過與智能體的交互,獲得下一步需要執(zhí)行的動(dòng)作(Action),并利用動(dòng)作指令解碼器將動(dòng)作轉(zhuǎn)化為仿真環(huán)境可以接受執(zhí)行的指令。經(jīng)過大量對(duì)戰(zhàn)數(shù)據(jù)的積累,樣本數(shù)據(jù)庫可為強(qiáng)化學(xué)習(xí)提供大量的樣本數(shù)據(jù)。
2)分布式學(xué)習(xí)
分布式學(xué)習(xí)利用多個(gè)學(xué)習(xí)器Leaner(GPU)采用了Tensor Flow的開源模塊,對(duì)采集的數(shù)據(jù)進(jìn)行消費(fèi)。當(dāng)樣本數(shù)據(jù)庫采集的數(shù)據(jù)滿足一批的數(shù)量后,Leaner讀取這些樣本數(shù)據(jù),輸入神經(jīng)網(wǎng)絡(luò)中進(jìn)行前向計(jì)算,調(diào)用強(qiáng)化學(xué)習(xí)算法,根據(jù)算法的優(yōu)化目標(biāo)計(jì)算損失函數(shù)值,進(jìn)而計(jì)算得到梯度的更新值,持續(xù)穩(wěn)定輸出多層神經(jīng)網(wǎng)絡(luò)的參數(shù),生成針對(duì)潛艇突防任務(wù)的潛艇智能體。通過獲得仿真環(huán)境中指令的執(zhí)行結(jié)果對(duì)其進(jìn)行評(píng)價(jià),評(píng)價(jià)結(jié)果反饋給智能體模型,通過反復(fù)迭代,實(shí)現(xiàn)智能體模型參數(shù)優(yōu)化。
3)預(yù)測推斷
預(yù)測推斷是基于當(dāng)前智能體的狀態(tài)信息,運(yùn)用分布式學(xué)習(xí)中提供的智能體(神經(jīng)網(wǎng)絡(luò))實(shí)施前向推斷,輸出決策序列。預(yù)測推斷模塊,可以將智能體模型通過對(duì)環(huán)境態(tài)勢預(yù)測得到的動(dòng)作指令集分發(fā)到各個(gè)仿真環(huán)境,同一個(gè)智能體模型可指揮多個(gè)仿真環(huán)境內(nèi)的對(duì)戰(zhàn)。其中,前向推斷采用Tensor RT庫,該庫是一個(gè)高性能的深度學(xué)習(xí)推理(Inference)優(yōu)化器,可以為深度學(xué)習(xí)應(yīng)用提供低延遲、高吞吐率的部署推理。
在深度強(qiáng)化學(xué)習(xí)訓(xùn)練框架中,智能體通過分布式學(xué)習(xí)中的學(xué)習(xí)器對(duì)樣本數(shù)據(jù)進(jìn)行學(xué)習(xí),根據(jù)環(huán)境狀態(tài)做出動(dòng)作決策,智能體的決策模型結(jié)構(gòu)如圖4所示。
圖4 智能體決策模型結(jié)構(gòu)圖
智能體決策模型采用Actor-Critic機(jī)制,Actor網(wǎng)絡(luò)用于輸出潛艇采取的動(dòng)作,Critic網(wǎng)絡(luò)用于評(píng)價(jià)智能體決策的優(yōu)劣,引導(dǎo)策略進(jìn)化。因?yàn)镻PO算法具有較好的收斂性和穩(wěn)定性,使用clip函數(shù)的方法操作相對(duì)簡單且魯棒性好,適用于在兵棋仿真推演平臺(tái)上進(jìn)行潛艇攻防對(duì)抗實(shí)驗(yàn),所以,選取PPO算法進(jìn)行實(shí)驗(yàn)驗(yàn)證;考慮戰(zhàn)場態(tài)勢信息部分可觀測,智能體需要根據(jù)歷史上的觀察動(dòng)作來進(jìn)行連續(xù)決策,因此,神經(jīng)網(wǎng)絡(luò)模型的主體采用雙向循環(huán)神經(jīng)網(wǎng)絡(luò),同時(shí)利用長短時(shí)記憶網(wǎng)絡(luò)(Long short-term memory,LSTM)結(jié)構(gòu)來解決長序列訓(xùn)練中出現(xiàn)的梯度消失和梯度爆炸問題;由于戰(zhàn)場態(tài)勢信息維度高、關(guān)聯(lián)性不強(qiáng),為了提高訓(xùn)練效率,引入注意力機(jī)制,使用Softmax回歸函數(shù)對(duì)輸入態(tài)勢信息的重要性進(jìn)行歸一化處理,得到各參數(shù)信息的相對(duì)重要性,實(shí)現(xiàn)對(duì)敵我局部態(tài)勢信息的聚焦;神經(jīng)網(wǎng)絡(luò)輸出智能體的決策指令形式多種多樣,有連續(xù)型、離散型、數(shù)值型等,需要在神經(jīng)網(wǎng)絡(luò)末端針對(duì)每種輸出形式增加一個(gè)全連接網(wǎng)實(shí)現(xiàn)連接,并加入解碼模塊,將決策指令轉(zhuǎn)為平臺(tái)可接受的操作指令。
為了防止規(guī)則體智能體出現(xiàn)行動(dòng)決策變化少、泛化能力弱等問題,不利用紅藍(lán)雙方博弈對(duì)抗產(chǎn)生大量不同的數(shù)據(jù)。為此,本文根據(jù)反潛作戰(zhàn)的典型戰(zhàn)術(shù)規(guī)則和行動(dòng)方案,探索了一種基于多決策行動(dòng)方案的規(guī)則體構(gòu)建方法,利用反潛的戰(zhàn)術(shù)規(guī)則和行動(dòng)方案,給每個(gè)實(shí)體單位設(shè)計(jì)了規(guī)則推理模型,在代碼層面實(shí)現(xiàn)協(xié)同反潛規(guī)則體可以根據(jù)戰(zhàn)場態(tài)勢信息觸發(fā)不同的作戰(zhàn)任務(wù)和決策指令,使規(guī)則體在反潛過程中具有多種戰(zhàn)術(shù)變化,其設(shè)計(jì)方案如圖5所示。
圖5 規(guī)則體設(shè)計(jì)方案
構(gòu)建的規(guī)則體模型,具有多種決策行動(dòng)方案,在互博弈對(duì)抗中,使?jié)撏е悄荏w面對(duì)不同的戰(zhàn)術(shù)戰(zhàn)法,獲得更加豐富的樣本數(shù)據(jù)。此外,還可以通過觀察智能體訓(xùn)練過程中反潛規(guī)則體的表現(xiàn)是否符合預(yù)期要求,以及智能體和人類進(jìn)行人機(jī)對(duì)戰(zhàn)中人類選手戰(zhàn)勝潛艇智能體所用的戰(zhàn)術(shù)戰(zhàn)法,對(duì)反潛規(guī)則體的決策進(jìn)行調(diào)整改進(jìn),繼續(xù)進(jìn)行對(duì)抗訓(xùn)練。
為了加快算法的收斂速度,提高算法的穩(wěn)定性,本文提出了兩種算法的增強(qiáng)改進(jìn)機(jī)制,對(duì)于損失函數(shù)引入了值函數(shù)截?cái)鄼C(jī)制來加快算法收斂速度,提高訓(xùn)練的穩(wěn)定性;對(duì)于獎(jiǎng)勵(lì)函數(shù)引入決策引導(dǎo)和專家經(jīng)驗(yàn)獎(jiǎng)勵(lì)機(jī)制,建立完善的決策引導(dǎo)體系,來提高智能體的作戰(zhàn)效率,使智能體可以探索更多的戰(zhàn)術(shù)戰(zhàn)法。
損失函數(shù)決定了智能體的學(xué)習(xí)能力,在潛艇智能體決策模型中,對(duì)于策略網(wǎng)絡(luò)的策略梯度計(jì)算,本文采用了PPO算法,其損失函數(shù)為了保證策略更新的安全性,引入了截?cái)鄼C(jī)制。但是,在復(fù)雜的攻防對(duì)抗場景下,每次采樣軌跡的獎(jiǎng)勵(lì)存在很大的波動(dòng),單純地將策略更新限定在一定范圍,智能體會(huì)出現(xiàn)很多無效的動(dòng)作,并且,策略梯度的截?cái)鄷?huì)導(dǎo)致與值函數(shù)的畸形發(fā)展,很難找到最優(yōu)策略。
為了解決這個(gè)問題,本文將價(jià)值網(wǎng)絡(luò)的輸出使用泛化優(yōu)勢估計(jì)(Generalized Advantage Estimation,GAE)來構(gòu)造PPO算法的優(yōu)勢函數(shù),保障策略向更好的方向更新快速找到最優(yōu)策略,另外針對(duì)價(jià)值網(wǎng)絡(luò),還設(shè)計(jì)了一種值函數(shù)的截?cái)鄼C(jī)制,將每一輪動(dòng)作值函數(shù)的更新同樣限定在一定的閾值內(nèi)。
對(duì)于價(jià)值網(wǎng)絡(luò)的損失函數(shù)采用均方誤差(mean squared error, MSE)擬合目標(biāo)的獎(jiǎng)勵(lì)期望,并對(duì)其進(jìn)行截?cái)嗵幚?
Loss()=max((,),
(+(-,-,),))
(5)
其中,表示更新之前的價(jià)值估計(jì),用于限定本輪更新的范圍;表示更新的目標(biāo)價(jià)值,在訓(xùn)練階段由價(jià)值網(wǎng)絡(luò)的輸出基于反事實(shí)基線(Counterfactual Baseline)構(gòu)造,即智能體采取了一個(gè)動(dòng)作,在對(duì)其進(jìn)行評(píng)價(jià)時(shí)要基于所有可能采取的動(dòng)作進(jìn)行分析;表示價(jià)值網(wǎng)絡(luò)當(dāng)前的輸出,采用均方誤差(Mean Squared Error,MSE)對(duì)目標(biāo)價(jià)值的獎(jiǎng)勵(lì)期望進(jìn)行擬合。
使用截?cái)嗪瘮?shù)可以減少值函數(shù)受到估計(jì)偏差以及軌跡采樣方差的影響,防止更新的目標(biāo)價(jià)值出現(xiàn)錯(cuò)誤,保障了值函數(shù)更新的穩(wěn)定性,使價(jià)值網(wǎng)絡(luò)更新匹配策略網(wǎng)絡(luò),保障了智能體動(dòng)作的有效性。
決策引導(dǎo)的實(shí)現(xiàn)是通過構(gòu)建獎(jiǎng)勵(lì)函數(shù)對(duì)強(qiáng)化學(xué)習(xí)決策動(dòng)作進(jìn)行評(píng)價(jià),獎(jiǎng)勵(lì)函數(shù)的優(yōu)劣直接影響智能體的訓(xùn)練是否能夠收斂以及收斂的方向,是智能體訓(xùn)練的關(guān)鍵。
在一局對(duì)戰(zhàn)過程中,獎(jiǎng)勵(lì)函數(shù)可以分為兩個(gè)部分,即過程獎(jiǎng)勵(lì)和終局獎(jiǎng)勵(lì)。其中,終局獎(jiǎng)勵(lì)占比較大,反映了智能體最終能否取得勝利;過程獎(jiǎng)勵(lì)雖然占比較小,但是可以對(duì)智能體進(jìn)行決策引導(dǎo)并加速收斂,在訓(xùn)練過程中十分重要。因此,獎(jiǎng)勵(lì)函數(shù)通常設(shè)計(jì)為終局獎(jiǎng)勵(lì)和過程獎(jiǎng)勵(lì)之和:
(6)
其中,為過程獎(jiǎng)勵(lì),引導(dǎo)智能體前進(jìn);為終局獎(jiǎng)勵(lì),對(duì)最終結(jié)果進(jìn)行評(píng)價(jià);Δ為當(dāng)前經(jīng)度與上一步經(jīng)度的差值;Δ為當(dāng)前緯度與上一步緯度的差值;、為權(quán)重系數(shù),用于調(diào)整智能體的前進(jìn)方向,使智能體不斷靠近目標(biāo)地點(diǎn);為智能體勝負(fù)的獎(jiǎng)勵(lì);為智能體自身損耗的評(píng)價(jià)獎(jiǎng)勵(lì),損耗包括武器彈藥消耗量和自身戰(zhàn)損情況;、為權(quán)重系數(shù),要保證勝負(fù)獎(jiǎng)勵(lì)占據(jù)主導(dǎo)地位。
但是,這種方式會(huì)導(dǎo)致智能體機(jī)動(dòng)性差,決策步數(shù)多、決策時(shí)間長的問題,為了解決這一問題,本文對(duì)終局獎(jiǎng)勵(lì)和過程獎(jiǎng)勵(lì)進(jìn)行改進(jìn),引入專家經(jīng)驗(yàn)獎(jiǎng)勵(lì)完善決策引導(dǎo)體系:
(7)
其中,為想定運(yùn)行到設(shè)定的結(jié)束時(shí)間時(shí),智能體可進(jìn)行的最大決策步數(shù);為一局對(duì)戰(zhàn)結(jié)束時(shí)智能體進(jìn)行的決策步數(shù);為智能體進(jìn)行某些行為動(dòng)作或處于某些狀態(tài)的額外獎(jiǎng)勵(lì)。
在終局獎(jiǎng)勵(lì)中,增加決策步數(shù)的比值,即來降低決策步數(shù),引導(dǎo)智能體快速向目標(biāo)區(qū)域前進(jìn),提高智能體的作戰(zhàn)效率;在過程獎(jiǎng)勵(lì)中,增加額外的專家經(jīng)驗(yàn)獎(jiǎng)勵(lì)來增強(qiáng)智能體的機(jī)動(dòng)性和攻擊性,使智能體探索更多的戰(zhàn)術(shù)戰(zhàn)法。
強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)函數(shù)需要針對(duì)不同的訓(xùn)練場景進(jìn)行設(shè)計(jì),本文在原有的獎(jiǎng)勵(lì)函數(shù)基礎(chǔ)上,加入決策引導(dǎo)和經(jīng)驗(yàn)獎(jiǎng)勵(lì)機(jī)制對(duì)獎(jiǎng)勵(lì)函數(shù)進(jìn)行改進(jìn),在上述決策引導(dǎo)體系的應(yīng)用中,還需要根據(jù)實(shí)際情況進(jìn)行具體分析和改進(jìn)。
本文利用中國船舶集團(tuán)公司第七一六所研發(fā)的悟空·海上智能博弈平臺(tái),編寫潛艇攻防對(duì)抗作戰(zhàn)想定,實(shí)現(xiàn)數(shù)據(jù)采集和潛艇智能體驗(yàn)證。該兵棋推演平臺(tái)具有艦艇、潛艇、飛機(jī)、導(dǎo)彈、各種傳感器等多種武器裝備模型,可以實(shí)現(xiàn)到達(dá)指定區(qū)域、沿航線運(yùn)動(dòng)、飛機(jī)起飛降落、開火、放置浮標(biāo)等多種操作,具備實(shí)時(shí)觀察智能體訓(xùn)練場景的能力,可以進(jìn)行人人對(duì)戰(zhàn)和人機(jī)對(duì)戰(zhàn)。
實(shí)驗(yàn)想定如圖6所示,該想定紅方包含三艘水面艦艇,即兩艘攜帶反潛直升機(jī)的護(hù)衛(wèi)艦和一艘驅(qū)逐艦,藍(lán)方為一艘核潛艇。想定區(qū)域?yàn)殚L140 km、寬140 km的海上矩形區(qū)域,想定時(shí)長為5個(gè)小時(shí)。三艘紅方艦艇在固定海域范圍巡航,艦艇間相距30 km,藍(lán)方潛艇在水面艦艇側(cè)方距離50 km處準(zhǔn)備穿越紅方艦艇搜索區(qū)域到達(dá)另一側(cè)的指定區(qū)域。潛艇的勝利條件為在規(guī)定時(shí)間內(nèi)到達(dá)指定區(qū)域。紅藍(lán)雙方的兵力編成如表 1所示。
圖6 想定示意圖
表1 兵力編成
利用悟空·海上智能博弈平臺(tái)建立各實(shí)體單位模型并配置搭載的武器和傳感器等信息,實(shí)現(xiàn)想定編輯。根據(jù)智能體訓(xùn)練流程,構(gòu)建潛艇智能體決策模型和多決策行動(dòng)方案規(guī)則體模型,對(duì)模型的要素信息進(jìn)行如下定義。
1)狀態(tài)空間設(shè)計(jì)
狀態(tài)空間包含戰(zhàn)場上敵我雙方的實(shí)體信息,我方實(shí)體信息包含潛艇、魚雷和誘餌的信息,敵方實(shí)體信息包含敵方艦艇、直升機(jī)、魚雷、誘餌和浮標(biāo)等信息。由于戰(zhàn)爭迷霧的存在,潛艇獲取的敵方信息只有通過傳感器探測到的敵方艦艇位置和來襲魚雷的信息,無法探測得到直升機(jī)和浮標(biāo)信息。各實(shí)體單位的狀態(tài)空間信息見表 2。
表2 狀態(tài)空間信息
2)動(dòng)作空間設(shè)計(jì)
潛艦機(jī)攻防對(duì)抗的作戰(zhàn)決策包含航向、航速、高度、開火距離、投放誘餌方向和投放浮標(biāo)等。其中,艦艇高度保持不變,只有直升機(jī)可以投放浮標(biāo),魚雷耗盡后開火動(dòng)作無效。為了降低動(dòng)作空間維度,本文對(duì)實(shí)體的航向、航速、高度、開火距離和投放誘餌方向進(jìn)行了離散化處理,見表 3。
表3 動(dòng)作空間信息
3)決策引導(dǎo)體系設(shè)計(jì)
本實(shí)驗(yàn)的決策引導(dǎo)體系設(shè)計(jì)參考公式(6)和(7),根據(jù)想定內(nèi)容對(duì)潛艇決策智能體的獎(jiǎng)勵(lì)參數(shù)值的設(shè)置見表 4。
表4 潛艇智能體獎(jiǎng)勵(lì)設(shè)計(jì)
4)智能體訓(xùn)練參數(shù)設(shè)計(jì)
根據(jù)本次實(shí)驗(yàn)想定場景大小,訓(xùn)練過程中可同時(shí)進(jìn)行30局對(duì)戰(zhàn),對(duì)智能體訓(xùn)練過程所涉及的參數(shù)配置見表 5。
表5 訓(xùn)練參數(shù)配置
5)規(guī)則體設(shè)計(jì)
反潛規(guī)則體的設(shè)計(jì)如圖7所示。其中,反潛直升機(jī)可以選擇攜帶聲吶和浮標(biāo)進(jìn)行探測或者選擇攜帶一枚魚雷進(jìn)行攻擊;當(dāng)實(shí)體的誘餌和魚雷消耗殆盡時(shí),投放誘餌和發(fā)射魚雷的操作無效。
圖7 艦機(jī)協(xié)同反潛規(guī)則體決策圖
記錄智能體訓(xùn)練過程中每輪30局對(duì)戰(zhàn)的平均獎(jiǎng)勵(lì)值和平均決策步數(shù),并進(jìn)行可視化處理,其中,一輪為30局對(duì)戰(zhàn)數(shù)據(jù)。本文獎(jiǎng)勵(lì)函數(shù)值的設(shè)置是經(jīng)過多次實(shí)驗(yàn)確定潛艇決策智能體效果較好的數(shù)值,由于調(diào)整獎(jiǎng)勵(lì)值的實(shí)驗(yàn)變量較多,在此不做比較。此外,本文還進(jìn)行了三組獎(jiǎng)勵(lì)函數(shù)相同的對(duì)比驗(yàn)證實(shí)驗(yàn),共產(chǎn)生45 000局左右的互博弈對(duì)抗數(shù)據(jù)。三組實(shí)驗(yàn)分別是損失函數(shù)改進(jìn)實(shí)驗(yàn)、損失函數(shù)未改進(jìn)實(shí)驗(yàn)以及增強(qiáng)反潛規(guī)則體繼承實(shí)驗(yàn),其中,繼承實(shí)驗(yàn)采用損失函數(shù)改進(jìn)實(shí)驗(yàn)中第390輪產(chǎn)生的智能體模型,潛艇決策智能體的訓(xùn)練效果如圖8和圖9所示。
圖8 獎(jiǎng)勵(lì)值曲線
圖9 決策步數(shù)曲線
從圖中的三組曲線可以看出,三組實(shí)驗(yàn)潛艇決策智能體在相同的決策引導(dǎo)體系下,每輪的平均獎(jiǎng)勵(lì)值和決策步數(shù)最終都可以收斂。對(duì)比兩圖中損失函數(shù)改進(jìn)前后的兩組實(shí)驗(yàn)曲線,改進(jìn)后智能體在230輪訓(xùn)練后就開始逐步收斂并緩慢增加,曲線的波動(dòng)幅度較小,訓(xùn)練過程中潛艇智能體的決策行為穩(wěn)步增強(qiáng),而損失函數(shù)改進(jìn)前潛艇決策智能體雖然總體上是趨于收斂的,但收斂效果并不好,獎(jiǎng)勵(lì)曲線波動(dòng)較大,在340輪之后才不會(huì)出現(xiàn)平均獎(jiǎng)勵(lì)值變?yōu)樨?fù)數(shù)的情況,通過兩組實(shí)驗(yàn)的對(duì)比,損失函數(shù)的改進(jìn)可以將平均獎(jiǎng)勵(lì)值提高18%左右,決策步數(shù)下降10%左右,潛艇智能體對(duì)反潛規(guī)則體的勝率提高了27%左右。
從圖8和圖9中增強(qiáng)反潛規(guī)則體繼承實(shí)驗(yàn)的曲線可以看出,智能體經(jīng)過200輪的訓(xùn)練后,逐漸穩(wěn)定收斂,獎(jiǎng)勵(lì)值穩(wěn)定在14分左右,相比于繼承前的損失函數(shù)改進(jìn)實(shí)驗(yàn)第390輪模型,獎(jiǎng)勵(lì)值提高18%,決策步數(shù)下降9%,智能體的攻擊性得到加強(qiáng),與規(guī)則體對(duì)戰(zhàn)的勝率達(dá)到90%以上,實(shí)現(xiàn)了對(duì)潛艇智能體決策模型的進(jìn)一步優(yōu)化。
本文針對(duì)潛艦機(jī)攻防對(duì)抗非對(duì)稱性的特點(diǎn),構(gòu)建了潛艇智能體決策模型和多決策行動(dòng)方案的協(xié)同反潛規(guī)則體模型,提出的兩種PPO算法增強(qiáng)改進(jìn)機(jī)制,通過潛艇決策智能體和協(xié)同反潛規(guī)則體間的互博弈對(duì)抗,利用深度強(qiáng)化學(xué)習(xí)分布式訓(xùn)練框架實(shí)現(xiàn)了潛艇的智能指揮決策。通過仿真實(shí)驗(yàn),驗(yàn)證了潛艇決策智能體培育方法和決策引導(dǎo)體系的有效性;在對(duì)比實(shí)驗(yàn)中,驗(yàn)證了損失函數(shù)的改進(jìn)能夠加快算法的收斂速度,提高訓(xùn)練的穩(wěn)定性,增強(qiáng)潛艇智能體的指揮決策能力;在繼承實(shí)驗(yàn)中,證實(shí)了經(jīng)過對(duì)反潛規(guī)則體的增強(qiáng)和對(duì)潛艇智能體的繼承實(shí)現(xiàn),可以培育具有更高智能決策能力的潛艇智能指揮決策模型,為軍事智能體的培育和潛艇作戰(zhàn)輔助決策提供了技術(shù)參考。