基于MA2IDDPG算法的異構(gòu)多無人機(jī)協(xié)同突防方法

2022-08-05 10:08李艷斌杜宇峰劉東輝

河北工業(yè)科技 2022年4期

暢鑫，李艷斌，趙研，杜宇峰,2，劉東輝

(1.中國電子科技集團(tuán)公司第五十四研究所，河北石家莊 050081;2.河北省電磁頻譜認(rèn)知與管控重點(diǎn)實(shí)驗(yàn)室，河北石家莊 050081;3.石家莊鐵道大學(xué)經(jīng)濟(jì)管理學(xué)院，河北石家莊 050043)

異構(gòu)無人機(jī)突防是指揮控制決策體系博弈中的重要策略組成部分[1-5]。在指揮控制博弈中，功能不同的無人機(jī)將依據(jù)突防任務(wù)安排編組為異構(gòu)多無人機(jī)群。異構(gòu)多無人機(jī)如何智能化地產(chǎn)生博弈策略，對于提高指揮控制體系博弈具有關(guān)鍵作用[6]。因此，異構(gòu)多無人機(jī)智能化協(xié)同突防方法的研究對于指揮控制決策領(lǐng)域具有重要的研究意義。

當(dāng)前，國內(nèi)外協(xié)同突防博弈策略產(chǎn)生和優(yōu)化問題可以分為自動化、自適應(yīng)化和智能化3個階段?；谂袛噙壿嬍侄螌?shí)現(xiàn)系統(tǒng)自動化，能夠按照預(yù)設(shè)任務(wù)等信息，不考慮與環(huán)境的交互，靜態(tài)的實(shí)現(xiàn)任務(wù)。基于專家經(jīng)驗(yàn)知識，考慮環(huán)境變化的影響，人工梳理和構(gòu)建完成任務(wù)需求的目標(biāo)函數(shù)和約束函數(shù)，實(shí)現(xiàn)動態(tài)自適應(yīng)化的系統(tǒng)，如國內(nèi)外研究中的經(jīng)典算法包括動態(tài)規(guī)劃方法、最速下降法、牛頓法、共軛梯度法、擬牛頓法、信賴域方法、最小二乘法和最優(yōu)控制法等。上述方法存在共同的缺點(diǎn)，面對不同任務(wù)，需要分別人工提煉任務(wù)目標(biāo)函數(shù)和約束函數(shù)，且通常要求目標(biāo)函數(shù)連續(xù)可導(dǎo)。為了解決該問題，引入啟發(fā)式尋優(yōu)等方法改進(jìn)，使得突防效果提升。但是該思路依然需要人工構(gòu)建目標(biāo)函數(shù)和約束函數(shù)，且多目標(biāo)優(yōu)化問題始終是元啟發(fā)算法的重難點(diǎn)問題，如多目標(biāo)進(jìn)化計(jì)算。為了提高自動化程度，并且降低人工參與對于系統(tǒng)性能的影響，終極目標(biāo)是通過機(jī)器學(xué)習(xí)等智能手段，構(gòu)建通用框架,從環(huán)境中提取特征，并且隨著在環(huán)境中不斷地探索和學(xué)習(xí)，從博弈狀態(tài)中提取特征，并迭代出最優(yōu)或者多個次優(yōu)策略，不斷提升任務(wù)達(dá)成效果。在當(dāng)前國內(nèi)外無人機(jī)協(xié)同突防的研究中，強(qiáng)化學(xué)習(xí)在博弈策略的智能化產(chǎn)生問題上具有良好表現(xiàn)。

強(qiáng)化學(xué)習(xí)可以分為值函數(shù)方法和策略梯度方法。Q-learning方法是值函數(shù)方法中最具代表性的方法[7]。該算法的特點(diǎn)在于基于“狀態(tài)-動作”配對的價(jià)值選擇最優(yōu)動作，具有魯棒性強(qiáng)、收斂速度快等特點(diǎn)，廣泛應(yīng)用于無人機(jī)自動控制領(lǐng)域。但是，由于需要通過查表的方式進(jìn)行策略訓(xùn)練，在高維狀態(tài)空間中存在維度爆炸的問題。針對這一問題，深度Q網(wǎng)絡(luò)(deep Q network，DQN)算法結(jié)合深度學(xué)習(xí)和Q-learning，利用深度神經(jīng)網(wǎng)絡(luò)對狀態(tài)空間的特征提取能力，將Q表保存在神經(jīng)網(wǎng)絡(luò)中，解決了維度爆炸的問題。除此之外，依據(jù)經(jīng)驗(yàn)的重要性對重放次數(shù)進(jìn)行加權(quán)，提高學(xué)習(xí)效率。進(jìn)一步通過算法引入優(yōu)勢函數(shù)等數(shù)學(xué)模型，改進(jìn)傳統(tǒng)DQN的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，提出了多種不同神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)DQN算法，如Dueling DQN，Noisy DQN，Distributed DQN，Rainbow等算法[8]。除此之外，在多智能體強(qiáng)化學(xué)習(xí)領(lǐng)域中也出現(xiàn)了Independent Q-Learning，Value-Decomposition Networks，QMIX等優(yōu)秀的值函數(shù)強(qiáng)化學(xué)習(xí)算法?；谥岛瘮?shù)的深度強(qiáng)化學(xué)習(xí)的最大缺點(diǎn)表現(xiàn)在對于連續(xù)動作空間的處理?；谥岛瘮?shù)的深度強(qiáng)化學(xué)習(xí)的本質(zhì)是采用深度學(xué)習(xí)的分類網(wǎng)絡(luò)，使用離散的動作空間。在連續(xù)的動作空間中，需要對動作空間進(jìn)行采樣，將會導(dǎo)致動作空間爆炸的問題。對此，以Actor-Critic算法為代表的策略梯度方法在連續(xù)控制問題上表現(xiàn)出了巨大優(yōu)勢。Actor-Critic算法分別構(gòu)建用于連續(xù)動作選擇和時(shí)域離散估計(jì)價(jià)值神經(jīng)網(wǎng)絡(luò)，將值函數(shù)和策略梯度方法相結(jié)合，解決了連續(xù)動作空間的決策問題。Advantage Actor-Critic算法引入了基線提高算法的性能。Asynchronous Advantage Actor-Critic提出了多線程并行訓(xùn)練框架，有效地解決了強(qiáng)化學(xué)習(xí)在環(huán)境中交互經(jīng)驗(yàn)利用效率低的問題。為了進(jìn)一步解決AC算法收斂難的問題，利用DQN算法的經(jīng)驗(yàn)回放和雙網(wǎng)絡(luò)估值的思路，提出了深度確定性策略梯度(deep deterministic policy gradient，DDPG)方法[9-11]。DDPG方法與MADDPG方法廣泛應(yīng)用于無人機(jī)追擊、路徑尋優(yōu)、圍捕等問題，在自動控制領(lǐng)域表現(xiàn)出了巨大的生命力[12-17]。在上述指揮控制問題中，深度強(qiáng)化學(xué)習(xí)的落地關(guān)鍵在于提高數(shù)據(jù)的利用率。除此之外，獎賞函數(shù)的設(shè)計(jì)也將影響智能水平。如果獎賞函數(shù)描述的過于微觀，將導(dǎo)致智能體的探索受限，而獎賞函數(shù)描述的過于宏觀，智能體將陷入局部最優(yōu)。

為了智能化產(chǎn)生異構(gòu)多無人機(jī)協(xié)同突防策略，提出多智能體異步模仿深度確定性策略梯度算法(multi-agent asynchronous imitative deep deterministic policy gradient,MA2IDDPG)的異構(gòu)多無人機(jī)協(xié)同突防方法，后文中簡稱MA2IDDPG方法。圍繞方法創(chuàng)新，構(gòu)建異構(gòu)多無人機(jī)協(xié)同突防策略優(yōu)化和生成優(yōu)化框架，實(shí)現(xiàn)智能突防。本文的關(guān)鍵貢獻(xiàn)和主要創(chuàng)新在于：首先，面對異構(gòu)多無人機(jī)協(xié)同突防策略生成和優(yōu)化問題，采用異步并行框架改進(jìn)DDPG算法，提高協(xié)同突防經(jīng)驗(yàn)數(shù)據(jù)的收集效率；然后，構(gòu)建共享經(jīng)驗(yàn)池，增加經(jīng)驗(yàn)數(shù)據(jù)的多樣性，提高異構(gòu)多無人機(jī)智能體的學(xué)習(xí)效率；其次，構(gòu)建基于專家經(jīng)驗(yàn)知識的牽引性獎賞函數(shù)和基于異構(gòu)無人機(jī)任務(wù)結(jié)果的描述性獎賞函數(shù)，分階段使用兩種獎賞函數(shù)對異構(gòu)無人機(jī)智能體進(jìn)行訓(xùn)練，使得異構(gòu)多無人機(jī)智能體在快速達(dá)到專家知識水平后，進(jìn)一步提高智能水平，最后，在詳述算法原理的基礎(chǔ)上，給出了算法流程。在異構(gòu)無人機(jī)協(xié)同突防環(huán)境下，從任務(wù)達(dá)成度的角度對改進(jìn)算法進(jìn)行了對比驗(yàn)證。實(shí)驗(yàn)結(jié)果表明，改進(jìn)算法能夠有效產(chǎn)生異構(gòu)多無人機(jī)協(xié)同突防策略。

1 異構(gòu)多無人機(jī)協(xié)同突防問題描述與建模

1.1 博弈環(huán)境

多無人機(jī)協(xié)同突防博弈環(huán)境的特點(diǎn)在于無人機(jī)具有異構(gòu)性，即為了貼近實(shí)戰(zhàn)，博弈環(huán)境中實(shí)體的功能各不相同。除此之外，被突防方非靜止，同樣具有智能水平，以此充實(shí)樣本的多樣性。在突防方和被突防方相互動態(tài)博弈的過程中，不斷提高智能水平。

在圖1所示的博弈環(huán)境中，紅方作為防守方，通過紅方攔截智能體攔截藍(lán)方攻擊智能體，達(dá)到保護(hù)紅方基地的目標(biāo)。而藍(lán)方作為突防方，通過藍(lán)方攔截智能體和藍(lán)方攻擊智能體的相互配合，達(dá)到突防攻擊紅方基地的目標(biāo)。

圖1 博弈環(huán)境Fig.1 Game environment

通過分析場景可知，智能體之間通過不斷與博弈環(huán)境進(jìn)行交互形成動態(tài)博弈，提升異構(gòu)多無人機(jī)系統(tǒng)突防的智能水平，故適合采用深度強(qiáng)化學(xué)習(xí)方法產(chǎn)生博弈策略。

1.2 馬爾可夫決策過程模型

采用深度強(qiáng)化學(xué)習(xí)的前提是需要將博弈環(huán)境梳理為馬爾可夫決策過程。抽象要素為智能體位置信息組成的狀態(tài)空間，與引起狀態(tài)轉(zhuǎn)移的動作空間和博弈過程得到獎勵。智能體通過基于狀態(tài)選擇動作，然后與博弈環(huán)境交互進(jìn)行博弈訓(xùn)練。

狀態(tài)st可以表示為

st=[x1,y1,x2,y2,x3,y3,x4,y4]，

(1)

式中：st∈S，S是狀態(tài)空間；x為智能體的橫坐標(biāo)；y為智能體的縱坐標(biāo)；1代表基地坐標(biāo)；2代表紅方攔截智能體；3代表藍(lán)方攻擊智能體；4代表藍(lán)方攔截智能體。

動作a可以表示為

a=[ax,ay]，

(2)

式中：a∈A，A是狀態(tài)空間；ax和ay分別為智能體沿橫坐標(biāo)和縱坐標(biāo)的動作，取值范圍為[-amax,amax]，amax表示最大速度。

2 基于MA2IDDPG算法的異構(gòu)多無人機(jī)協(xié)同突防方法原理

2.1 異步并行框架與共享經(jīng)驗(yàn)池

MA2IDDPG方法框架如圖2所示，其核心是通過聯(lián)合獎賞產(chǎn)生多智能體的協(xié)同策略。博弈場景由博弈環(huán)境和多個DDPG算法框架組成。借鑒遷移學(xué)習(xí)和課程學(xué)習(xí)的理念，博弈場景分為2個類型，分別為牽引性訓(xùn)練場景和描述性遷移場景。首先，多智能體在基于經(jīng)驗(yàn)知識的牽引性訓(xùn)練場景中進(jìn)行自博弈[18]，產(chǎn)生牽引性聯(lián)合經(jīng)驗(yàn)存入共享經(jīng)驗(yàn)池，通過批經(jīng)驗(yàn)更新生成策略；然后，進(jìn)一步在描述性訓(xùn)練場景中進(jìn)行探索，生成超越經(jīng)驗(yàn)知識的博弈策略；最后，通過與典型規(guī)則進(jìn)行對戰(zhàn)，針對性訓(xùn)練智能體，使其產(chǎn)生針對性的博弈策略。

圖2 算法框架Fig.2 Algorithm framework

2.2 獎賞函數(shù)設(shè)計(jì)

獎賞函數(shù)的設(shè)計(jì)分為基于專家經(jīng)驗(yàn)知識的牽引性設(shè)計(jì)方法和基于任務(wù)結(jié)果的描述性設(shè)計(jì)方法，分別對應(yīng)牽引性獎賞函數(shù)和描述性獎賞函數(shù)。

對于抽象后的博弈環(huán)境而言，紅方攔截智能體的任務(wù)是攔截藍(lán)方攻擊智能體對重要目標(biāo)的進(jìn)攻。從博弈過程角度分析，可知紅方攔截智能體越靠近藍(lán)方攻擊智能體，則有效攔截藍(lán)方攻擊智能體的效果越好。定義紅方攔截智能體與藍(lán)方攻擊智能體的距離d1為

(3)

故利用紅方攔截智能體與藍(lán)方攻擊智能體位置的距離，得到牽引性獎勵函數(shù)r1，表示紅方攔截智能體在當(dāng)前狀態(tài)下選取動作所獲得的反饋值:

(4)

同理，藍(lán)方攔截智能體越靠近紅方攔截智能體，則有效攔截紅方攻擊智能體的效果越好。定義紅方攔截智能體與藍(lán)方攔截智能體的距離d2為

(5)

利用藍(lán)方攔截智能體與紅方攔截智能體位置的距離，得到牽引性獎勵函數(shù)r2，表示藍(lán)方攔截智能體在當(dāng)前狀態(tài)下選取動作所獲得的反饋值：

(6)

同理，紅方攻擊智能體越靠近藍(lán)方重點(diǎn)目標(biāo)，則攻擊效果越好。定義藍(lán)方攻擊智能體與紅方基地的距離d3為

(7)

利用藍(lán)方攻擊智能體與紅方基地位置的距離，得到牽引性獎勵函數(shù)r3，表示藍(lán)方攻擊智能體在當(dāng)前狀態(tài)下選取動作所獲得的反饋值：

(8)

利用牽引性獎賞函數(shù)能夠使得智能體經(jīng)過少量訓(xùn)練能快速達(dá)到基于專家知識的自動化水平。為了智能體能夠通過不斷訓(xùn)練達(dá)到超過專家知識的智能化水平，本算法首先利用遷移性獎賞函數(shù)達(dá)到基于專家知識的自動化水平，然后設(shè)置描述性獎賞函數(shù)，取消專家經(jīng)驗(yàn)知識對智能體的限制，使得智能體能夠以專家經(jīng)驗(yàn)知識為基礎(chǔ)，進(jìn)一步探索獲得更優(yōu)的博弈策略，從而不斷提高博弈效果。

描述性獎賞函數(shù)直接將博弈取勝的結(jié)果通過公式化表述為獎賞。

(9)

(10)

式中ε為判定距離。

在沒有得到結(jié)果的回合中，為了促進(jìn)智能的探索，每個回合獎賞都為-1。

描述性獎勵除可以用于訓(xùn)練智能體外，也將用于評估智能體的對戰(zhàn)勝率。

2.3 智能體算法模型

在博弈系統(tǒng)中的智能單體使用DDPG算法框架[19]，為藍(lán)方在突防過程中不斷提供多樣化的經(jīng)驗(yàn)，促進(jìn)智能體的智能水平。

DDPG算法的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包含策略神經(jīng)網(wǎng)絡(luò)Actor和值函數(shù)神經(jīng)網(wǎng)絡(luò)Critic。Actor擬合策略函數(shù)μ，完成狀態(tài)st到動作a的映射。除此之外，將動作和隨機(jī)噪聲相疊加，能夠提高智能體對于未知動作和狀態(tài)的探索概率。

a=μ(st)。

(11)

Critic擬合價(jià)值函數(shù)，輸入狀態(tài)s到動作a，擬合價(jià)值Q。Actor采用策略梯度下降法更新神經(jīng)網(wǎng)絡(luò)參數(shù)θ：

(12)

Critic采用均方誤差損失函數(shù)更新神經(jīng)網(wǎng)絡(luò)參數(shù)ω：

ri-Q(si,ai|ω)]2，

(13)

式中：γ為獎勵折扣；μ′為目標(biāo)策略神經(jīng)網(wǎng)絡(luò)Actor，μ′的參數(shù)權(quán)重為θ′；Q′為目標(biāo)值函數(shù)神經(jīng)網(wǎng)絡(luò)Critic，Q′的參數(shù)權(quán)重為ω′。

為了提高學(xué)習(xí)的穩(wěn)定性，對神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行軟更新。

(14)

式中τ為軟更新比例系數(shù)。

2.4 規(guī)則算法模型

規(guī)則算法針對特定任務(wù)設(shè)置，用于驗(yàn)證MA2IDDPG算法的性能和效果。在智能體完成牽引性訓(xùn)練場景和描述性遷移場景泛化訓(xùn)練后，基于遷移學(xué)習(xí)的理念，針對特定任務(wù)進(jìn)行特異性任務(wù)的訓(xùn)練，使得智能體能夠更有針對性的產(chǎn)生博弈策略。具體到本博弈場景中的紅方規(guī)則算法可以描述為

(15)

式中mod表示取余。

2.5 算法模型訓(xùn)練流程

算法訓(xùn)練流程具體分為3個階段。其中前2個階段為訓(xùn)練階段，包含牽引性訓(xùn)練和描述性訓(xùn)練，最后1個階段為評估階段。

第1階段為牽引性訓(xùn)練。利用牽引性獎賞對紅藍(lán)方智能體進(jìn)行牽引訓(xùn)練，以專家經(jīng)驗(yàn)初始化神經(jīng)網(wǎng)絡(luò)參數(shù)收斂趨勢，且不進(jìn)行勝率評估。第2階段為描述性訓(xùn)練，利用描述性獎賞使得紅藍(lán)方智能體進(jìn)行自博弈，使得神經(jīng)網(wǎng)絡(luò)關(guān)聯(lián)長時(shí)間跨度下的狀態(tài)、動作和獎賞，進(jìn)一步泛化神經(jīng)網(wǎng)絡(luò)擬合得到的策略。第3階段為評估階段，將完成訓(xùn)練后的藍(lán)方多智能體與紅方規(guī)則算法在同場景下進(jìn)行博弈，評估智能體訓(xùn)練效果。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 參數(shù)配置和實(shí)驗(yàn)步驟

本文實(shí)驗(yàn)博弈場景中，紅藍(lán)方實(shí)體數(shù)量為4個，包括紅方基地、紅方攔截智能體、藍(lán)方攔截智能體和藍(lán)方攻擊智能體。

實(shí)驗(yàn)訓(xùn)練階段：設(shè)置1 000輪博弈訓(xùn)練，每輪博弈回合數(shù)為1 000步。其中牽引性訓(xùn)練500輪，描述性訓(xùn)練500輪。評估階段設(shè)置100輪博弈。

在牽引性訓(xùn)練階段中，紅方攔截智能體采用DDPG算法，由藍(lán)方攔截智能體和藍(lán)方攻擊智能體構(gòu)成的藍(lán)方異構(gòu)多無人機(jī)群采用MA2IDDPG算法，采用牽引性獎賞函數(shù)進(jìn)行訓(xùn)練；在描述性訓(xùn)練階段，紅方攔截智能體采用DDPG算法，由藍(lán)方攔截智能體和藍(lán)方攻擊智能體構(gòu)成的藍(lán)方異構(gòu)多無人機(jī)群采用MA2IDDPG方法，用描述性獎賞函數(shù)進(jìn)行訓(xùn)練；在評估階段，紅方攔截智能體采用規(guī)則算法模型，由藍(lán)方攔截智能體和藍(lán)方攻擊智能體構(gòu)成的藍(lán)方異構(gòu)多無人機(jī)群采用MA2IDDPG算法。

在仿真實(shí)驗(yàn)中，通過本文提出的MA2IDDPG方法與典型DDPG方法進(jìn)行對比，表明本文提出算法的創(chuàng)新性。

神經(jīng)網(wǎng)絡(luò)模型架構(gòu)參數(shù)配置如表1所示。

表1 神經(jīng)網(wǎng)絡(luò)模型架構(gòu)參數(shù)配置

訓(xùn)練參數(shù)配置如表2所示。

表2 訓(xùn)練參數(shù)配置

3.2 實(shí)驗(yàn)結(jié)果與討論

在1 000輪博弈訓(xùn)練過程中，本文方法和DDPG方法的累計(jì)回報(bào)獎賞如圖3所示。由圖3可知，在算法訓(xùn)練的過程中，回報(bào)獎賞不斷提高。MA2IDDPG方法相比于DDPG方法，累計(jì)回報(bào)獎賞增長更為穩(wěn)定。

圖3 回報(bào)獎賞Fig.3 Reward

在博弈評估下，描述性訓(xùn)練500輪如圖4所示。描述性訓(xùn)練500輪的自博弈過程中，MA2IDDPG方法勝率最終達(dá)到76%，而DDPG方法勝率達(dá)到58%?？梢奙A2IDDPG方法在描述性訓(xùn)練階段的表現(xiàn)優(yōu)于DDPG方法。

圖4 訓(xùn)練勝率Fig.4 Training win rate

在評估階段中，采用2.4節(jié)中的規(guī)則方法，對DDPG方法和MA2IDDPG方法進(jìn)行對比驗(yàn)證。評估回報(bào)獎賞如圖5所示。

圖5 評估勝率Fig.5 Evaluated win rate

通過分析圖5可知，經(jīng)過訓(xùn)練后，MA2IDDPG方法和經(jīng)典DDPG方法評估勝率一致，表明均能夠有效戰(zhàn)勝基于規(guī)則算法的紅方。但是結(jié)合訓(xùn)練實(shí)驗(yàn)結(jié)果表明，MA2IDDPG算法不但能夠有效產(chǎn)生博弈對抗策略，而且在訓(xùn)練階段的穩(wěn)定性和效果上均優(yōu)于經(jīng)典DDPG方法。

圖6 典型博弈過程Fig.6 Typical game process

在整個博弈過程中，典型博弈過程如圖6所示。通過分析可知，在場景給定的獎賞趨勢下，藍(lán)方攔截智能體趨向于對藍(lán)方攔截智能體進(jìn)行保護(hù)，即通過對于藍(lán)方攻擊智能體策略擬合，形成聯(lián)合策略，在保護(hù)藍(lán)方攻擊智能體的過程中，對紅方攻擊智能體進(jìn)行攔截，從而達(dá)成對于藍(lán)方基地的進(jìn)攻。

4 結(jié) 語

為了能夠智能化產(chǎn)生超過基于專家經(jīng)驗(yàn)知識的異構(gòu)多無人機(jī)協(xié)同突防策略，基于MA2IDDPG算法提出了異構(gòu)多無人機(jī)協(xié)同突防方法。

首先，基于經(jīng)典DDPG方法框架，通過采用異步并行的方法對其進(jìn)行改進(jìn)，得到了MA2IDDPG方法框架，能有效提高經(jīng)驗(yàn)數(shù)據(jù)的收集效率。然后，構(gòu)建共享經(jīng)驗(yàn)池，將不同獎賞下獲得的經(jīng)驗(yàn)同時(shí)存儲，增加經(jīng)驗(yàn)數(shù)據(jù)的多樣性。其次，為了解決用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的優(yōu)質(zhì)樣本問題，構(gòu)建基于專家經(jīng)驗(yàn)知識的牽引性獎賞函數(shù)。在牽引性獎賞函數(shù)的反饋下，異構(gòu)多無人機(jī)能夠快速生成達(dá)到領(lǐng)域?qū)＜宜降牟呗?。再次，為了解決異構(gòu)無人機(jī)智能遷移性的問題，構(gòu)建基于博弈結(jié)果的描述性獎賞函數(shù)。最后，借鑒遷移學(xué)習(xí)和課程學(xué)習(xí)的理念，分別采用牽引性獎賞和描述性獎賞，將訓(xùn)練階段分成為牽引性訓(xùn)練階段和描述性訓(xùn)練階段，分階段對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，使得神經(jīng)網(wǎng)絡(luò)能夠在快速達(dá)到專家知識水平后，進(jìn)一步提高產(chǎn)生的策略水平。在仿真實(shí)驗(yàn)中，構(gòu)建了異構(gòu)多無人機(jī)協(xié)同突防環(huán)境，將MA2IDDPG方法與典型DDPG方法進(jìn)行了對比驗(yàn)證。實(shí)驗(yàn)結(jié)果表明，MA2IDDPG方法在訓(xùn)練過程中更穩(wěn)定，對抗效果更優(yōu)。

研究受限于場景的逼真度，將在后續(xù)研究中進(jìn)一步考慮攔截概率對多智能體策略的影響。當(dāng)前研究的關(guān)鍵在于深度神經(jīng)網(wǎng)絡(luò)的可解釋性，當(dāng)前改善多從超參數(shù)調(diào)整和神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)調(diào)整等外因方面入手，需要深入研究深度神經(jīng)網(wǎng)絡(luò)的解釋性，從而實(shí)現(xiàn)對算力、訓(xùn)練時(shí)間和對抗效果之間的預(yù)測。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡