国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

獎(jiǎng)勵(lì)引導(dǎo)的輔助防空反導(dǎo)自主作戰(zhàn)決策研究

2021-07-27 06:13韓興豪曹志敏劉家祺李旭輝
艦船電子對(duì)抗 2021年3期
關(guān)鍵詞:敵方武器決策

韓興豪,曹志敏,劉家祺,李旭輝

(江蘇自動(dòng)化研究所,江蘇 連云港 222061)

0 引 言

目前,在軍事作戰(zhàn)中主要靠指揮員以自己的直覺(jué)和經(jīng)驗(yàn)做出實(shí)時(shí)決策。然而現(xiàn)代作戰(zhàn)態(tài)勢(shì)愈加復(fù)雜,場(chǎng)面瞬息萬(wàn)變,獨(dú)以人力很難在短時(shí)間內(nèi)根據(jù)復(fù)雜的戰(zhàn)場(chǎng)信息完成最優(yōu)決策。而現(xiàn)有的輔助決策技術(shù)效率低,決策質(zhì)量差強(qiáng)人意,智能輔助決策水平亟待提高。為突破基于流程和規(guī)則的分層決策空間和基于決策樹(shù)的分支推演技術(shù),深度強(qiáng)化學(xué)習(xí)為現(xiàn)代作戰(zhàn)智能決策技術(shù)的升級(jí)換代提供了強(qiáng)有力的理論與技術(shù)支持。

近年來(lái)深度網(wǎng)絡(luò)在各個(gè)領(lǐng)域的廣泛應(yīng)用及卓越成效為強(qiáng)化學(xué)習(xí)的發(fā)展提供了又一次機(jī)遇,它針對(duì)強(qiáng)化學(xué)習(xí)的價(jià)值函數(shù)逼近問(wèn)題提供了有效的解決方案,讓強(qiáng)化學(xué)習(xí)重新煥發(fā)了生命力。深度強(qiáng)化學(xué)習(xí)在很多應(yīng)用方面經(jīng)過(guò)一系列發(fā)展已經(jīng)可以交出一份讓人滿(mǎn)意的答卷,比如在A(yíng)tari環(huán)境、三維虛擬環(huán)境、機(jī)器人控制等領(lǐng)域的應(yīng)用取得了相當(dāng)卓越的成果。但這些環(huán)境在復(fù)雜度上相比一些實(shí)際問(wèn)題仍有著云泥之別。比如在海面作戰(zhàn)環(huán)境中,就包括數(shù)十種作戰(zhàn)單位,每種平臺(tái)對(duì)應(yīng)一種智能體,如何在同一環(huán)境下快速有效地學(xué)習(xí)自主決策是個(gè)極大的挑戰(zhàn)。

現(xiàn)代全域作戰(zhàn)態(tài)勢(shì)復(fù)雜度過(guò)高,利用深度強(qiáng)化學(xué)習(xí)為指揮員在作戰(zhàn)中提供輔助決策,將指揮員從一部分作戰(zhàn)決策中解放出來(lái),使其聚焦于戰(zhàn)場(chǎng)調(diào)度等更重要的決策,是目前軍事智能化的一大前景。但是,若想將每個(gè)作戰(zhàn)平臺(tái)同時(shí)實(shí)現(xiàn)智能化決策,其難度堪比大海撈針;另一方面,若僅在簡(jiǎn)單對(duì)戰(zhàn)場(chǎng)景中構(gòu)建深度強(qiáng)化學(xué)習(xí)智能體,例如空戰(zhàn)1V1,其態(tài)勢(shì)特征太過(guò)簡(jiǎn)單,對(duì)實(shí)戰(zhàn)的參考價(jià)值十分有限,而且無(wú)法體現(xiàn)出深度網(wǎng)絡(luò)提取態(tài)勢(shì)特征的優(yōu)勢(shì)?;谝陨?個(gè)原因,本文將復(fù)雜的戰(zhàn)場(chǎng)態(tài)勢(shì)在智能決策方面進(jìn)行簡(jiǎn)化,在其他作戰(zhàn)平臺(tái)皆基于規(guī)則進(jìn)行決策的仿真推演環(huán)境中,為執(zhí)行輔助防空反導(dǎo)任務(wù)的殲擊機(jī)構(gòu)建智能體進(jìn)行強(qiáng)化學(xué)習(xí),探索逐步為現(xiàn)代多域作戰(zhàn)全面實(shí)現(xiàn)智能化的道路。

然而強(qiáng)化學(xué)習(xí)在實(shí)際應(yīng)用中,需要很久的訓(xùn)練時(shí)間,甚至可能不收斂。另一方面,仿真推演中可以明確地觸發(fā)收益的“狀態(tài)-動(dòng)作”二元組很少,相互之間相隔時(shí)間步很遠(yuǎn),且表示向目標(biāo)靠近的收益更加稀缺,智能體可能會(huì)長(zhǎng)期沒(méi)有目的地漫游,即強(qiáng)化學(xué)習(xí)中所謂“高原問(wèn)題”。良好的獎(jiǎng)勵(lì)函數(shù)可以有效縮短智能體學(xué)習(xí)時(shí)間,讓算法更快地收斂。

解決稀疏獎(jiǎng)勵(lì)問(wèn)題的典型方法是利用逆向強(qiáng)化學(xué)習(xí),從專(zhuān)家樣本中進(jìn)行學(xué)習(xí),逆推出獎(jiǎng)勵(lì)函數(shù),但是這一方法對(duì)具有較強(qiáng)隨機(jī)性的高維問(wèn)題卻無(wú)能為力。本文采用獎(jiǎng)勵(lì)重塑的方法,加入好奇心機(jī)制,可以在一定程度上解決稀疏獎(jiǎng)勵(lì),激勵(lì)智能體在環(huán)境中進(jìn)行有效探索以獲得最大累積獎(jiǎng)勵(lì)。

1 實(shí)驗(yàn)環(huán)境及預(yù)處理

本文實(shí)驗(yàn)環(huán)境為某戰(zhàn)役級(jí)仿真平臺(tái),支持聯(lián)合作戰(zhàn)模擬的戰(zhàn)役戰(zhàn)術(shù)一體化仿真推演。對(duì)戰(zhàn)雙方控制各自兵力進(jìn)行對(duì)抗,包括進(jìn)行機(jī)動(dòng)、開(kāi)關(guān)傳感器、武器發(fā)射等,從而做出探測(cè)、跟蹤、打擊等命令,最終決出勝負(fù)。模型庫(kù)中包括實(shí)際作戰(zhàn)中的多種平臺(tái)的仿真模型,比如飛機(jī)、水面艦艇、機(jī)場(chǎng)等,每個(gè)平臺(tái)的指令類(lèi)型可以是任務(wù)驅(qū)動(dòng)(包括巡邏任務(wù)、打擊任務(wù)、伴機(jī)/艦飛行等),也可以由實(shí)時(shí)指令驅(qū)動(dòng)(如航線(xiàn)規(guī)劃、目標(biāo)打擊等)。仿真環(huán)境中的單位可以按照已編輯好的想定過(guò)程和規(guī)則進(jìn)行決策動(dòng)作,并且內(nèi)置裁決系統(tǒng),每一局對(duì)戰(zhàn)結(jié)束后,可以統(tǒng)計(jì)彈藥消耗與平臺(tái)毀傷程度,根據(jù)每個(gè)平臺(tái)的價(jià)值,計(jì)算對(duì)戰(zhàn)雙方得分,從而判定勝負(fù)。進(jìn)行多次推演,每局對(duì)戰(zhàn)訓(xùn)練流程如圖1所示,對(duì)勝負(fù)次數(shù)加以統(tǒng)計(jì),評(píng)價(jià)智能體自主決策效果。

圖1 對(duì)戰(zhàn)訓(xùn)練流程

本實(shí)驗(yàn)重點(diǎn)研究海面全域作戰(zhàn)中殲擊機(jī)在輔助防空反導(dǎo)任務(wù)中的自主決策水平,目前僅構(gòu)建殲擊機(jī)的強(qiáng)化學(xué)習(xí)智能體,在仿真環(huán)境的基礎(chǔ)上對(duì)態(tài)勢(shì)信息進(jìn)行提取與封裝,便于算法實(shí)現(xiàn)與智能體構(gòu)建。圖2為對(duì)戰(zhàn)訓(xùn)練框架。

圖2 對(duì)戰(zhàn)訓(xùn)練框架

1.1 確定輸出動(dòng)作空間

為了便于強(qiáng)化學(xué)習(xí)建模與訓(xùn)練,決策模型采用指令集合,將多維輸出映射到指令集中。對(duì)戰(zhàn)訓(xùn)練框架如圖2所示,將殲擊機(jī)指令模型化為探測(cè)、突擊、攔截等。指令參數(shù)包括以下幾種:(1)是否選擇敵方單位作為打擊目標(biāo),用0~1表示;(2)目標(biāo)選擇,包括敵方預(yù)警機(jī)、戰(zhàn)斗機(jī)及敵方發(fā)射的反艦、防空導(dǎo)彈等,用敵方單位編號(hào)表示;(3)傳感器開(kāi)關(guān),為發(fā)現(xiàn)、跟蹤敵方單位并防止自己被敵方探測(cè)或跟蹤;(4)突擊方向,即相對(duì)正北方向角度,順時(shí)針最大360°;(5)武器選擇,一方面針對(duì)不同運(yùn)動(dòng)介質(zhì)中的平臺(tái)分配不同類(lèi)型的武器,包括反艦導(dǎo)彈、空空導(dǎo)彈等,另一方面根據(jù)武器的打擊范圍與毀傷能力進(jìn)行部署;(6)武器齊射數(shù)量,根據(jù)武器的打擊能力與目標(biāo)平臺(tái)的毀傷程度分配適量的武器,盡量避免武器的浪費(fèi)或打擊不充分;(7)武器發(fā)射距離與最大射程百分比,當(dāng)前武器發(fā)射與目標(biāo)平臺(tái)的距離與武器最大打擊距離的比例,比值越小命中率越高。

1.2 態(tài)勢(shì)信息構(gòu)建和預(yù)處理

智能體依靠態(tài)勢(shì)信息進(jìn)行決策,如何在海量復(fù)雜的態(tài)勢(shì)中提取出對(duì)決策有用的信息,需要人為對(duì)仿真過(guò)程中產(chǎn)生的數(shù)據(jù)進(jìn)行處理。仿真推演過(guò)程中可以獲取每個(gè)單位的狀態(tài)信息,包括經(jīng)緯度、高度、剩余油量、機(jī)動(dòng)速度、運(yùn)動(dòng)航向等,對(duì)不同類(lèi)型的平臺(tái)還需要針對(duì)性地收集信息,例如飛機(jī)、水面艦艇需收集所載傳感器類(lèi)型和探測(cè)距離、搭載武器的種類(lèi)及數(shù)量、平臺(tái)毀傷程度等,對(duì)這些態(tài)勢(shì)數(shù)據(jù)進(jìn)行提取和格式化處理作為強(qiáng)化學(xué)習(xí)的狀態(tài)輸入。取

n

個(gè)時(shí)刻的態(tài)勢(shì)作為第一維,智能體的數(shù)量作為第二維,每個(gè)智能體的態(tài)勢(shì)信息作為第三維,組成仿真環(huán)境的狀態(tài)空間,作為智能體的決策依據(jù)。

2 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

在復(fù)雜的作戰(zhàn)仿真環(huán)境中,收益稀疏的問(wèn)題愈發(fā)顯著。及時(shí)提供非零收益讓智能體逐步實(shí)現(xiàn)目標(biāo),已經(jīng)是一個(gè)十分困難的挑戰(zhàn),而讓智能體高效地從各種各樣的初始狀態(tài)下進(jìn)行學(xué)習(xí)無(wú)疑難上加難。本章節(jié)探討完成獎(jiǎng)勵(lì)計(jì)算模塊,根據(jù)態(tài)勢(shì)信息計(jì)算獎(jiǎng)勵(lì),作為決策動(dòng)作的反饋,嵌入仿真環(huán)境中與智能體進(jìn)行交互。

如何設(shè)計(jì)并重塑一個(gè)適用于一般作戰(zhàn)想定的獎(jiǎng)勵(lì)函數(shù),獲得較為顯著的訓(xùn)練效果,提高決策質(zhì)量,是本文研究的創(chuàng)新點(diǎn)和重點(diǎn)。作戰(zhàn)過(guò)程一般會(huì)持續(xù)比較久的時(shí)間,期間每次決策獎(jiǎng)勵(lì)的延遲時(shí)間也長(zhǎng)短不一,所設(shè)計(jì)的獎(jiǎng)勵(lì)函數(shù)要能夠在一定程度上體現(xiàn)出每次決策的效果。本文主要為執(zhí)行輔助防空反導(dǎo)作戰(zhàn)任務(wù)的殲擊機(jī)重塑獎(jiǎng)勵(lì)函數(shù)。

2.1 動(dòng)作獎(jiǎng)勵(lì)

單個(gè)平臺(tái)每做出一次決策,即選擇一個(gè)動(dòng)作,或機(jī)動(dòng)到指定點(diǎn),或選擇武器進(jìn)行攻擊,或開(kāi)關(guān)傳感器等,都會(huì)從環(huán)境獲得獎(jiǎng)勵(lì)。

2.1.1 機(jī)動(dòng)指令獎(jiǎng)勵(lì)

提出一種基于相對(duì)方向與相對(duì)位置的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)方法,以敵方每個(gè)平臺(tái)對(duì)我方智能體的威脅系數(shù)為權(quán)值,對(duì)距離進(jìn)行加權(quán)求和。采取機(jī)動(dòng)指令會(huì)根據(jù)該平臺(tái)方位的變化所帶來(lái)的影響來(lái)計(jì)算獎(jiǎng)勵(lì),獎(jiǎng)勵(lì)的大小由以下因素決定:

(1) 與己方單位的平均距離

D

。該指標(biāo)在一定程度上可以體現(xiàn)出其安全系數(shù),與己方單位距離較近時(shí),方便互相之間進(jìn)行協(xié)同,能夠快速形成以多打少的局面,避免出現(xiàn)孤立無(wú)援的情況,存活率較高,獎(jiǎng)勵(lì)值會(huì)相對(duì)較大。采用加權(quán)距離

D

,計(jì)算方式如下:

D

=

w

1

d

1+

w

2

d

2+…+

w

d

(1)

式中:

w

d

表示平臺(tái)1~

n

的重要性系數(shù)及其與智能體的距離。(2) 與敵方單位的平均距離

D

。該指標(biāo)可以體現(xiàn)出平臺(tái)受威脅系數(shù)。一方面避免孤軍深入;另一方面為防止仿真作戰(zhàn)過(guò)程中,智能體一直游離在戰(zhàn)場(chǎng)環(huán)境之外,在廣泛的時(shí)空域中反復(fù)進(jìn)行無(wú)效的探索,需要利用獎(jiǎng)勵(lì)函數(shù)引導(dǎo)作戰(zhàn)單位與敵方拉近距離進(jìn)行對(duì)戰(zhàn)。

D

=

w

1

d

1+

w

2

d

2+…+

w

d

(2)

式中:

w

d

分別表示敵方平臺(tái)的威脅系數(shù)及其相對(duì)我方智能體的距離。

為防止我方平臺(tái)進(jìn)入敵方單位集火范圍,應(yīng)盡量與敵方某一落單目標(biāo)拉近距離,而與其他平臺(tái)保持距離。

(3) 是否在敵方單位的武器打擊范圍內(nèi)。充分發(fā)揮武器射程優(yōu)勢(shì),盡量保持在敵方攻擊范圍之外,保證己方安全又使敵方單位在我武器打擊范圍之內(nèi),對(duì)敵方單位進(jìn)行“風(fēng)箏”式攻擊。

對(duì)這些因素進(jìn)行加權(quán)求和,在單位采樣步長(zhǎng)的變化值即為機(jī)動(dòng)指令獎(jiǎng)勵(lì)值

r

。

2.1.2 武器發(fā)射獎(jiǎng)勵(lì)

發(fā)射武器首先會(huì)反饋比較小的負(fù)獎(jiǎng)勵(lì),不同的武器根據(jù)成本和威力大小對(duì)應(yīng)不同的獎(jiǎng)勵(lì)值。武器發(fā)射一方面表示彈藥消耗,會(huì)從環(huán)境獲得即時(shí)的負(fù)獎(jiǎng)勵(lì)。另一方面預(yù)示著可能給敵方平臺(tái)帶來(lái)?yè)p傷,即命中獎(jiǎng)勵(lì),將此部分歸結(jié)為武器命中事件,屬于事件獎(jiǎng)勵(lì),將在后續(xù)進(jìn)行介紹。

2.2 狀態(tài)獎(jiǎng)勵(lì)

在作戰(zhàn)推演過(guò)程中,所有平臺(tái)的狀態(tài)處于不斷變化中,包括油量、毀傷程度等。油量的變化主要由機(jī)動(dòng)和加油引起,機(jī)動(dòng)過(guò)程引起油量的降低會(huì)獲得負(fù)獎(jiǎng)勵(lì);在油量越低的情況下進(jìn)行加油獲取的獎(jiǎng)勵(lì)越大。毀傷情況分為不同平臺(tái)、不同部位的毀傷,根據(jù)命中目標(biāo)的不同,獲取不同的獎(jiǎng)勵(lì),從導(dǎo)彈、轟炸機(jī)到殲擊機(jī)獎(jiǎng)勵(lì)逐漸增大。對(duì)敵方平臺(tái),按照其威脅程度,威脅越大的目標(biāo)受損時(shí)獲得的獎(jiǎng)勵(lì)越大;對(duì)我方平臺(tái),按照重要性升序,越重要的平臺(tái)受損獲得越大的負(fù)獎(jiǎng)勵(lì)。

2.3 事件獎(jiǎng)勵(lì)

現(xiàn)代戰(zhàn)場(chǎng)可以說(shuō)是信息的較量,誰(shuí)在作戰(zhàn)中掌握了更多信息,誰(shuí)就掌握了戰(zhàn)場(chǎng)的主動(dòng)權(quán),對(duì)取得作戰(zhàn)勝利起著至關(guān)重要的作用。將信息表征為各種關(guān)鍵事件的發(fā)生,將事件類(lèi)型分為:(1)探測(cè)事件,包括捕獲目標(biāo)、捕獲目標(biāo)消失、目標(biāo)識(shí)別、目標(biāo)跟蹤等;(2)武器系統(tǒng)事件,包括發(fā)射失敗、彈藥耗盡、武器命中、超出武器射程、目標(biāo)跟蹤丟失等,其中命中事件的觸發(fā)需要武器發(fā)射后相當(dāng)一段時(shí)間才能進(jìn)行判定,因此該動(dòng)作獎(jiǎng)勵(lì)有較大的延遲問(wèn)題。本文采用長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)對(duì)一段時(shí)間內(nèi)的狀態(tài)、動(dòng)作進(jìn)行記憶與傳遞,間接反映出決策的優(yōu)劣,進(jìn)而對(duì)后續(xù)動(dòng)作產(chǎn)生影響;(3)干擾事件,包括遭受干擾、受干擾結(jié)束等;(4)通信事件,包括數(shù)據(jù)鏈建鏈、數(shù)據(jù)鏈結(jié)束、網(wǎng)絡(luò)開(kāi)通、收發(fā)、網(wǎng)絡(luò)結(jié)束等。多數(shù)時(shí)候純以動(dòng)作的獎(jiǎng)勵(lì)無(wú)法反映出這些事件所帶來(lái)的影響,因此需要為這些事件單獨(dú)設(shè)計(jì)獎(jiǎng)勵(lì),從態(tài)勢(shì)中獲取事件信息,觸發(fā)獎(jiǎng)勵(lì)。

3 實(shí)驗(yàn)仿真

初步確定超參數(shù),包括仿真回合數(shù)、仿真速度、決策間隔、最大決策步數(shù)、學(xué)習(xí)速率等。引入Pytorch深度學(xué)習(xí)框架實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),利用Python語(yǔ)言搭建智能體構(gòu)成Agents模塊,實(shí)現(xiàn)以下功能:重置智能體、計(jì)算動(dòng)作狀態(tài)價(jià)值、計(jì)算損失函數(shù)、計(jì)算優(yōu)勢(shì)函數(shù)、動(dòng)作選取與價(jià)值評(píng)論等。

3.1 智能體神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)

深度網(wǎng)絡(luò)對(duì)數(shù)據(jù)有更強(qiáng)的信息提取能力,本文采用卷積與循環(huán)神經(jīng)網(wǎng)絡(luò)(CRN)。網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)相似,它由一系列帶有權(quán)重與偏置的神經(jīng)元組成,每個(gè)神經(jīng)元從上一層接受輸入,先進(jìn)行矩陣運(yùn)算,再利用激活函數(shù)進(jìn)行非線(xiàn)性處理。將當(dāng)前連續(xù)時(shí)刻的狀態(tài)數(shù)據(jù)進(jìn)行堆疊作為網(wǎng)絡(luò)的輸入,卷積網(wǎng)絡(luò)(CNN)能夠取代傳統(tǒng)的人工,更高效地對(duì)態(tài)勢(shì)環(huán)境進(jìn)行特征提取。但這增加了網(wǎng)絡(luò)的存儲(chǔ)和計(jì)算難度,因此插入循環(huán)神經(jīng)網(wǎng)絡(luò)(LSTM),對(duì)時(shí)間軸上的歷史狀態(tài)信息進(jìn)行提取與記憶,做出優(yōu)化決策。經(jīng)驗(yàn)表明,在部分可觀(guān)測(cè)模型中,CRN網(wǎng)絡(luò)結(jié)構(gòu)表現(xiàn)出比其他網(wǎng)絡(luò)更好的性能,也更適用于作戰(zhàn)仿真中復(fù)雜任務(wù)的訓(xùn)練。各神經(jīng)網(wǎng)絡(luò)模塊功能見(jiàn)表1。

圖3 網(wǎng)絡(luò)結(jié)構(gòu)

表1 網(wǎng)絡(luò)模塊說(shuō)明

3.2 智能體學(xué)習(xí)訓(xùn)練算法實(shí)現(xiàn)

根據(jù)馬爾可夫決策過(guò)程(MDP)進(jìn)行建模,仿真推演過(guò)程中,智能體(Agent)與作戰(zhàn)環(huán)境之間進(jìn)行數(shù)據(jù)交互,在每個(gè)時(shí)間步

t

,智能體從環(huán)境中獲取狀態(tài)數(shù)據(jù)

s

,然后根據(jù)策略和約束條件從動(dòng)作空間中選取可執(zhí)行的動(dòng)作

a

,再?gòu)沫h(huán)境獲取獎(jiǎng)勵(lì)

r

,直到環(huán)境的終止?fàn)顟B(tài)。訓(xùn)練目的是獲得一個(gè)策略函數(shù)(即從狀態(tài)

s

到動(dòng)作

a

的映射),使智能體采取一系列動(dòng)作之后所獲取的累積獎(jiǎng)勵(lì)最大。由于仿真環(huán)境中戰(zhàn)爭(zhēng)迷霧的存在,使典型的局部可觀(guān)測(cè)馬爾可夫決策過(guò)程(POMDP)。本文中MDP包括無(wú)限的狀態(tài)空間與有限的動(dòng)作空間,以及獎(jiǎng)勵(lì)函數(shù)

r

:×→,表示智能體在狀態(tài)

s

下采取動(dòng)作

a

獲得的期望獎(jiǎng)勵(lì),策略

p

:→表示從狀態(tài)到動(dòng)作的映射。智能體在

t

時(shí)刻獲取到帶有獎(jiǎng)勵(lì)

r

與動(dòng)作

a

的狀態(tài)觀(guān)測(cè)

o

,態(tài)勢(shì)狀態(tài)為

s

,那么

t

時(shí)刻的獎(jiǎng)勵(lì)

R

:+定義為累積折扣獎(jiǎng)勵(lì):

(3)

式中:

γ

為折扣系數(shù)。

算法的目標(biāo)就是將累積獎(jiǎng)勵(lì)最大化。加入并行機(jī)制,即在一臺(tái)計(jì)算機(jī)上使用多個(gè)線(xiàn)程進(jìn)行訓(xùn)練,每個(gè)線(xiàn)程單獨(dú)與環(huán)境進(jìn)行交互并計(jì)算梯度。這種方法可以免去發(fā)送梯度參數(shù)的通信消耗。各線(xiàn)程中使用不同的探索策略,平行地運(yùn)行多個(gè)動(dòng)作-評(píng)論網(wǎng)絡(luò)可以更快速有效地對(duì)環(huán)境中的各個(gè)部分進(jìn)行探索。將多個(gè)線(xiàn)程結(jié)合在一起,進(jìn)一步減弱了探索事件的相關(guān)性,利于程序的收斂。

本文采用強(qiáng)化學(xué)習(xí)的典型算法異步優(yōu)勢(shì)行動(dòng)者-評(píng)論者算法。A3C算法是由行動(dòng)-評(píng)論者(Actor-Critic)算法發(fā)展進(jìn)化而來(lái),智能體包括兩部分:行動(dòng)者和評(píng)論者,通過(guò)對(duì)環(huán)境的探索與利用來(lái)獲得兩者更好的表現(xiàn)。訓(xùn)練流程如圖4所示。行動(dòng)者用策略函數(shù)

p

(

a

|

s

;θ)表示,評(píng)論者用價(jià)值函數(shù)V(

s

,

θ

)表示,用深度神經(jīng)網(wǎng)絡(luò)對(duì)策略與價(jià)值函數(shù)進(jìn)行近似與逼近。狀態(tài)

s

的狀態(tài)價(jià)值為:

圖4 A3C算法流程圖

V

(

s

)=

E

(

R

:∞|

s

=

s

,

p

)=

E

()(

r

+

γV

(

s

′))

(4)

式中:

E

表示在狀態(tài)

s

下采用策略

p

的期望;

s

′為

s

的后繼狀態(tài)。

狀態(tài)-動(dòng)作價(jià)值函數(shù)為:

Q

(

s

|

a

)=

E

(

R

:∞|

s

=

s

,

a

=

a

,

p

)=

r

+

γV

(

s

′)

(5)

利用時(shí)間差分將Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)連接起來(lái),計(jì)算時(shí)序差分(TD)誤差為:

δ

=

Q

(

s

,

a

)-

V

(

s

)=

r

+

γV

(

s

′)-

V

(

s

)

(6)

定義優(yōu)勢(shì)函數(shù):

A

(

s

,

a

)=

Q

(

s

,

a

)-

V

(

s

)

(7)

在異步算法中,將優(yōu)勢(shì)函數(shù)進(jìn)一步細(xì)化為:

γ

V

(

s

+,

θ

)-

V

(

s

;

θ

)

(8)

式中:

k

表示時(shí)間步長(zhǎng),最大不超過(guò)

t

。為了評(píng)估策略的優(yōu)劣,定義目標(biāo)函數(shù)

J

(

p

),表示從初始狀態(tài)開(kāi)始得到的所有狀態(tài)價(jià)值的平均值:

J

(

p

)=

E

[

V

(

s

)]

(9)

根據(jù)策略梯度定理,得到其梯度:

J

(

p

)=

E

,~()[

A

(

s

,

a

)·▽lg

p

(

a

|

s

)]

(10)

嘗試最大化目標(biāo)函數(shù)。采用異步并行訓(xùn)練方式,其算法架構(gòu)如圖5所示,策略函數(shù)與價(jià)值函數(shù)每經(jīng)過(guò)

t

時(shí)間步或到達(dá)終止?fàn)顟B(tài)后進(jìn)行參數(shù)更新。將每個(gè)線(xiàn)程中的運(yùn)行結(jié)果反饋給主網(wǎng)絡(luò),同時(shí)從主網(wǎng)絡(luò)獲取最新的參數(shù)更新,最終達(dá)到優(yōu)化網(wǎng)絡(luò)參數(shù)的目的。

圖5 A3C異步架構(gòu)圖

3.3 結(jié)果分析

在基于規(guī)則的仿真環(huán)境中加入紅方殲擊機(jī)智能體進(jìn)行推演與學(xué)習(xí),訓(xùn)練前,智能體決策質(zhì)量差,而且經(jīng)常會(huì)游離在主戰(zhàn)場(chǎng)之外,導(dǎo)致紅方勝率很低。但經(jīng)初步仿真訓(xùn)練,在多次推演迭代后,反復(fù)更新智能體策略網(wǎng)絡(luò)參數(shù)。對(duì)每百次實(shí)驗(yàn)結(jié)果進(jìn)行記錄,并統(tǒng)計(jì)紅方勝率,可以發(fā)現(xiàn)紅方勝率有明顯提升。雖然現(xiàn)階段智能決策水平相比基于規(guī)則的決策方法尚有差距,但其發(fā)展空間很大,隨著迭代次數(shù)與技術(shù)水平的提高,達(dá)到超越人類(lèi)專(zhuān)家的決策水平的目標(biāo)已不再遙不可及。

4 結(jié)束語(yǔ)

現(xiàn)在國(guó)際局勢(shì)撲朔迷離,瞬息萬(wàn)變,但有一點(diǎn)毋庸置疑,于我不利。小規(guī)模沖突不斷,雖然發(fā)生大規(guī)模作戰(zhàn)的概率不高,但仍需我軍提高警惕,時(shí)刻準(zhǔn)備作戰(zhàn)。實(shí)現(xiàn)軍事決策智能化對(duì)我軍實(shí)現(xiàn)戰(zhàn)術(shù)升級(jí)、減小損耗、降低傷亡有著重要意義。本文探索了一條實(shí)現(xiàn)現(xiàn)代作戰(zhàn)智能化的道路,對(duì)模型相似的作戰(zhàn)單位構(gòu)建智能體進(jìn)行學(xué)習(xí),未來(lái)逐步實(shí)現(xiàn)預(yù)警機(jī)、護(hù)衛(wèi)艦等作戰(zhàn)平臺(tái)的智能體,為護(hù)國(guó)強(qiáng)軍保駕護(hù)航。

猜你喜歡
敵方武器決策
少林韋陀十八手
決策大數(shù)據(jù)
決策大數(shù)據(jù)
決策大數(shù)據(jù)
水果大作戰(zhàn)
諸葛亮隆中決策
一張圖看懂武器發(fā)展史
小羅漢拳技擊術(shù)(上)
請(qǐng)放下你的武器
退役武器去哪兒了?
扎兰屯市| 宣恩县| 铜陵市| 翁源县| 大方县| 怀宁县| 柞水县| 安福县| 昌吉市| 洪泽县| 松潘县| 阿城市| 贡嘎县| 大宁县| 呈贡县| 克山县| 团风县| 临猗县| 盘锦市| 张北县| 启东市| 锡林浩特市| 台前县| 舞阳县| 安远县| 漳平市| 安泽县| 临夏市| 茶陵县| 拜泉县| 万山特区| 宁化县| 阜康市| 怀化市| 特克斯县| 宾阳县| 东城区| 延寿县| 万载县| 茌平县| 上犹县|