暢 鑫,李艷斌,趙 研,杜宇峰,2,劉東輝
(1.中國電子科技集團(tuán)公司第五十四研究所,河北石家莊 050081;2.河北省電磁頻譜認(rèn)知與管控重點(diǎn)實(shí)驗(yàn)室,河北石家莊 050081;3.石家莊鐵道大學(xué)經(jīng)濟(jì)管理學(xué)院,河北石家莊 050043)
異構(gòu)無人機(jī)突防是指揮控制決策體系博弈中的重要策略組成部分[1-5]。在指揮控制博弈中,功能不同的無人機(jī)將依據(jù)突防任務(wù)安排編組為異構(gòu)多無人機(jī)群。異構(gòu)多無人機(jī)如何智能化地產(chǎn)生博弈策略,對于提高指揮控制體系博弈具有關(guān)鍵作用[6]。因此,異構(gòu)多無人機(jī)智能化協(xié)同突防方法的研究對于指揮控制決策領(lǐng)域具有重要的研究意義。
當(dāng)前,國內(nèi)外協(xié)同突防博弈策略產(chǎn)生和優(yōu)化問題可以分為自動化、自適應(yīng)化和智能化3個階段?;谂袛噙壿嬍侄螌?shí)現(xiàn)系統(tǒng)自動化,能夠按照預(yù)設(shè)任務(wù)等信息,不考慮與環(huán)境的交互,靜態(tài)的實(shí)現(xiàn)任務(wù)。基于專家經(jīng)驗(yàn)知識,考慮環(huán)境變化的影響,人工梳理和構(gòu)建完成任務(wù)需求的目標(biāo)函數(shù)和約束函數(shù),實(shí)現(xiàn)動態(tài)自適應(yīng)化的系統(tǒng),如國內(nèi)外研究中的經(jīng)典算法包括動態(tài)規(guī)劃方法、最速下降法、牛頓法、共軛梯度法、擬牛頓法、信賴域方法、最小二乘法和最優(yōu)控制法等。上述方法存在共同的缺點(diǎn),面對不同任務(wù),需要分別人工提煉任務(wù)目標(biāo)函數(shù)和約束函數(shù),且通常要求目標(biāo)函數(shù)連續(xù)可導(dǎo)。為了解決該問題,引入啟發(fā)式尋優(yōu)等方法改進(jìn),使得突防效果提升。但是該思路依然需要人工構(gòu)建目標(biāo)函數(shù)和約束函數(shù),且多目標(biāo)優(yōu)化問題始終是元啟發(fā)算法的重難點(diǎn)問題,如多目標(biāo)進(jìn)化計(jì)算。為了提高自動化程度,并且降低人工參與對于系統(tǒng)性能的影響,終極目標(biāo)是通過機(jī)器學(xué)習(xí)等智能手段,構(gòu)建通用框架,從環(huán)境中提取特征,并且隨著在環(huán)境中不斷地探索和學(xué)習(xí),從博弈狀態(tài)中提取特征,并迭代出最優(yōu)或者多個次優(yōu)策略,不斷提升任務(wù)達(dá)成效果。在當(dāng)前國內(nèi)外無人機(jī)協(xié)同突防的研究中,強(qiáng)化學(xué)習(xí)在博弈策略的智能化產(chǎn)生問題上具有良好表現(xiàn)。
強(qiáng)化學(xué)習(xí)可以分為值函數(shù)方法和策略梯度方法。Q-learning方法是值函數(shù)方法中最具代表性的方法[7]。該算法的特點(diǎn)在于基于“狀態(tài)-動作”配對的價(jià)值選擇最優(yōu)動作,具有魯棒性強(qiáng)、收斂速度快等特點(diǎn),廣泛應(yīng)用于無人機(jī)自動控制領(lǐng)域。但是,由于需要通過查表的方式進(jìn)行策略訓(xùn)練,在高維狀態(tài)空間中存在維度爆炸的問題。針對這一問題,深度Q網(wǎng)絡(luò)(deep Q network,DQN)算法結(jié)合深度學(xué)習(xí)和Q-learning,利用深度神經(jīng)網(wǎng)絡(luò)對狀態(tài)空間的特征提取能力,將Q表保存在神經(jīng)網(wǎng)絡(luò)中,解決了維度爆炸的問題。除此之外,依據(jù)經(jīng)驗(yàn)的重要性對重放次數(shù)進(jìn)行加權(quán),提高學(xué)習(xí)效率。進(jìn)一步通過算法引入優(yōu)勢函數(shù)等數(shù)學(xué)模型,改進(jìn)傳統(tǒng)DQN的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),提出了多種不同神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)DQN算法,如Dueling DQN,Noisy DQN,Distributed DQN,Rainbow等算法[8]。除此之外,在多智能體強(qiáng)化學(xué)習(xí)領(lǐng)域中也出現(xiàn)了Independent Q-Learning,Value-Decomposition Networks,QMIX等優(yōu)秀的值函數(shù)強(qiáng)化學(xué)習(xí)算法?;谥岛瘮?shù)的深度強(qiáng)化學(xué)習(xí)的最大缺點(diǎn)表現(xiàn)在對于連續(xù)動作空間的處理?;谥岛瘮?shù)的深度強(qiáng)化學(xué)習(xí)的本質(zhì)是采用深度學(xué)習(xí)的分類網(wǎng)絡(luò),使用離散的動作空間。在連續(xù)的動作空間中,需要對動作空間進(jìn)行采樣,將會導(dǎo)致動作空間爆炸的問題。對此,以Actor-Critic算法為代表的策略梯度方法在連續(xù)控制問題上表現(xiàn)出了巨大優(yōu)勢。Actor-Critic算法分別構(gòu)建用于連續(xù)動作選擇和時(shí)域離散估計(jì)價(jià)值神經(jīng)網(wǎng)絡(luò),將值函數(shù)和策略梯度方法相結(jié)合,解決了連續(xù)動作空間的決策問題。Advantage Actor-Critic算法引入了基線提高算法的性能。Asynchronous Advantage Actor-Critic提出了多線程并行訓(xùn)練框架,有效地解決了強(qiáng)化學(xué)習(xí)在環(huán)境中交互經(jīng)驗(yàn)利用效率低的問題。為了進(jìn)一步解決AC算法收斂難的問題,利用DQN算法的經(jīng)驗(yàn)回放和雙網(wǎng)絡(luò)估值的思路,提出了深度確定性策略梯度(deep deterministic policy gradient,DDPG)方法[9-11]。DDPG方法與MADDPG方法廣泛應(yīng)用于無人機(jī)追擊、路徑尋優(yōu)、圍捕等問題,在自動控制領(lǐng)域表現(xiàn)出了巨大的生命力[12-17]。在上述指揮控制問題中,深度強(qiáng)化學(xué)習(xí)的落地關(guān)鍵在于提高數(shù)據(jù)的利用率。除此之外,獎賞函數(shù)的設(shè)計(jì)也將影響智能水平。如果獎賞函數(shù)描述的過于微觀,將導(dǎo)致智能體的探索受限,而獎賞函數(shù)描述的過于宏觀,智能體將陷入局部最優(yōu)。
為了智能化產(chǎn)生異構(gòu)多無人機(jī)協(xié)同突防策略,提出多智能體異步模仿深度確定性策略梯度算法(multi-agent asynchronous imitative deep deterministic policy gradient,MA2IDDPG)的異構(gòu)多無人機(jī)協(xié)同突防方法,后文中簡稱MA2IDDPG方法。圍繞方法創(chuàng)新,構(gòu)建異構(gòu)多無人機(jī)協(xié)同突防策略優(yōu)化和生成優(yōu)化框架,實(shí)現(xiàn)智能突防。本文的關(guān)鍵貢獻(xiàn)和主要創(chuàng)新在于:首先,面對異構(gòu)多無人機(jī)協(xié)同突防策略生成和優(yōu)化問題,采用異步并行框架改進(jìn)DDPG算法,提高協(xié)同突防經(jīng)驗(yàn)數(shù)據(jù)的收集效率;然后,構(gòu)建共享經(jīng)驗(yàn)池,增加經(jīng)驗(yàn)數(shù)據(jù)的多樣性,提高異構(gòu)多無人機(jī)智能體的學(xué)習(xí)效率;其次,構(gòu)建基于專家經(jīng)驗(yàn)知識的牽引性獎賞函數(shù)和基于異構(gòu)無人機(jī)任務(wù)結(jié)果的描述性獎賞函數(shù),分階段使用兩種獎賞函數(shù)對異構(gòu)無人機(jī)智能體進(jìn)行訓(xùn)練,使得異構(gòu)多無人機(jī)智能體在快速達(dá)到專家知識水平后,進(jìn)一步提高智能水平,最后,在詳述算法原理的基礎(chǔ)上,給出了算法流程。在異構(gòu)無人機(jī)協(xié)同突防環(huán)境下,從任務(wù)達(dá)成度的角度對改進(jìn)算法進(jìn)行了對比驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,改進(jìn)算法能夠有效產(chǎn)生異構(gòu)多無人機(jī)協(xié)同突防策略。
多無人機(jī)協(xié)同突防博弈環(huán)境的特點(diǎn)在于無人機(jī)具有異構(gòu)性,即為了貼近實(shí)戰(zhàn),博弈環(huán)境中實(shí)體的功能各不相同。除此之外,被突防方非靜止,同樣具有智能水平,以此充實(shí)樣本的多樣性。在突防方和被突防方相互動態(tài)博弈的過程中,不斷提高智能水平。
在圖1所示的博弈環(huán)境中,紅方作為防守方,通過紅方攔截智能體攔截藍(lán)方攻擊智能體,達(dá)到保護(hù)紅方基地的目標(biāo)。而藍(lán)方作為突防方,通過藍(lán)方攔截智能體和藍(lán)方攻擊智能體的相互配合,達(dá)到突防攻擊紅方基地的目標(biāo)。
圖1 博弈環(huán)境Fig.1 Game environment
通過分析場景可知,智能體之間通過不斷與博弈環(huán)境進(jìn)行交互形成動態(tài)博弈,提升異構(gòu)多無人機(jī)系統(tǒng)突防的智能水平,故適合采用深度強(qiáng)化學(xué)習(xí)方法產(chǎn)生博弈策略。
采用深度強(qiáng)化學(xué)習(xí)的前提是需要將博弈環(huán)境梳理為馬爾可夫決策過程。抽象要素為智能體位置信息組成的狀態(tài)空間,與引起狀態(tài)轉(zhuǎn)移的動作空間和博弈過程得到獎勵。智能體通過基于狀態(tài)選擇動作,然后與博弈環(huán)境交互進(jìn)行博弈訓(xùn)練。
狀態(tài)st可以表示為
st=[x1,y1,x2,y2,x3,y3,x4,y4],
(1)
式中:st∈S,S是狀態(tài)空間;x為智能體的橫坐標(biāo);y為智能體的縱坐標(biāo);1代表基地坐標(biāo);2代表紅方攔截智能體;3代表藍(lán)方攻擊智能體;4代表藍(lán)方攔截智能體。
動作a可以表示為
a=[ax,ay],
(2)
式中:a∈A,A是狀態(tài)空間;ax和ay分別為智能體沿橫坐標(biāo)和縱坐標(biāo)的動作,取值范圍為[-amax,amax],amax表示最大速度。
MA2IDDPG方法框架如圖2所示,其核心是通過聯(lián)合獎賞產(chǎn)生多智能體的協(xié)同策略。博弈場景由博弈環(huán)境和多個DDPG算法框架組成。借鑒遷移學(xué)習(xí)和課程學(xué)習(xí)的理念,博弈場景分為2個類型,分別為牽引性訓(xùn)練場景和描述性遷移場景。首先,多智能體在基于經(jīng)驗(yàn)知識的牽引性訓(xùn)練場景中進(jìn)行自博弈[18],產(chǎn)生牽引性聯(lián)合經(jīng)驗(yàn)存入共享經(jīng)驗(yàn)池,通過批經(jīng)驗(yàn)更新生成策略;然后,進(jìn)一步在描述性訓(xùn)練場景中進(jìn)行探索,生成超越經(jīng)驗(yàn)知識的博弈策略;最后,通過與典型規(guī)則進(jìn)行對戰(zhàn),針對性訓(xùn)練智能體,使其產(chǎn)生針對性的博弈策略。
圖2 算法框架Fig.2 Algorithm framework
獎賞函數(shù)的設(shè)計(jì)分為基于專家經(jīng)驗(yàn)知識的牽引性設(shè)計(jì)方法和基于任務(wù)結(jié)果的描述性設(shè)計(jì)方法,分別對應(yīng)牽引性獎賞函數(shù)和描述性獎賞函數(shù)。
對于抽象后的博弈環(huán)境而言,紅方攔截智能體的任務(wù)是攔截藍(lán)方攻擊智能體對重要目標(biāo)的進(jìn)攻。從博弈過程角度分析,可知紅方攔截智能體越靠近藍(lán)方攻擊智能體,則有效攔截藍(lán)方攻擊智能體的效果越好。定義紅方攔截智能體與藍(lán)方攻擊智能體的距離d1為
(3)
故利用紅方攔截智能體與藍(lán)方攻擊智能體位置的距離,得到牽引性獎勵函數(shù)r1,表示紅方攔截智能體在當(dāng)前狀態(tài)下選取動作所獲得的反饋值:
(4)
同理,藍(lán)方攔截智能體越靠近紅方攔截智能體,則有效攔截紅方攻擊智能體的效果越好。定義紅方攔截智能體與藍(lán)方攔截智能體的距離d2為
(5)
利用藍(lán)方攔截智能體與紅方攔截智能體位置的距離,得到牽引性獎勵函數(shù)r2,表示藍(lán)方攔截智能體在當(dāng)前狀態(tài)下選取動作所獲得的反饋值:
(6)
同理,紅方攻擊智能體越靠近藍(lán)方重點(diǎn)目標(biāo),則攻擊效果越好。定義藍(lán)方攻擊智能體與紅方基地的距離d3為
(7)
利用藍(lán)方攻擊智能體與紅方基地位置的距離,得到牽引性獎勵函數(shù)r3,表示藍(lán)方攻擊智能體在當(dāng)前狀態(tài)下選取動作所獲得的反饋值:
(8)
利用牽引性獎賞函數(shù)能夠使得智能體經(jīng)過少量訓(xùn)練能快速達(dá)到基于專家知識的自動化水平。為了智能體能夠通過不斷訓(xùn)練達(dá)到超過專家知識的智能化水平,本算法首先利用遷移性獎賞函數(shù)達(dá)到基于專家知識的自動化水平,然后設(shè)置描述性獎賞函數(shù),取消專家經(jīng)驗(yàn)知識對智能體的限制,使得智能體能夠以專家經(jīng)驗(yàn)知識為基礎(chǔ),進(jìn)一步探索獲得更優(yōu)的博弈策略,從而不斷提高博弈效果。
描述性獎賞函數(shù)直接將博弈取勝的結(jié)果通過公式化表述為獎賞。
(9)
(10)
式中ε為判定距離。
在沒有得到結(jié)果的回合中,為了促進(jìn)智能的探索,每個回合獎賞都為-1。
描述性獎勵除可以用于訓(xùn)練智能體外,也將用于評估智能體的對戰(zhàn)勝率。
在博弈系統(tǒng)中的智能單體使用DDPG算法框架[19],為藍(lán)方在突防過程中不斷提供多樣化的經(jīng)驗(yàn),促進(jìn)智能體的智能水平。
DDPG算法的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包含策略神經(jīng)網(wǎng)絡(luò)Actor和值函數(shù)神經(jīng)網(wǎng)絡(luò)Critic。Actor擬合策略函數(shù)μ,完成狀態(tài)st到動作a的映射。除此之外,將動作和隨機(jī)噪聲相疊加,能夠提高智能體對于未知動作和狀態(tài)的探索概率。
a=μ(st)。
(11)
Critic擬合價(jià)值函數(shù),輸入狀態(tài)s到動作a,擬合價(jià)值Q。Actor采用策略梯度下降法更新神經(jīng)網(wǎng)絡(luò)參數(shù)θ:
(12)
Critic采用均方誤差損失函數(shù)更新神經(jīng)網(wǎng)絡(luò)參數(shù)ω:
ri-Q(si,ai|ω)]2,
(13)
式中:γ為獎勵折扣;μ′為目標(biāo)策略神經(jīng)網(wǎng)絡(luò)Actor,μ′的參數(shù)權(quán)重為θ′;Q′為目標(biāo)值函數(shù)神經(jīng)網(wǎng)絡(luò)Critic,Q′的參數(shù)權(quán)重為ω′。
為了提高學(xué)習(xí)的穩(wěn)定性,對神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行軟更新。
(14)
式中τ為軟更新比例系數(shù)。
規(guī)則算法針對特定任務(wù)設(shè)置,用于驗(yàn)證MA2IDDPG算法的性能和效果。在智能體完成牽引性訓(xùn)練場景和描述性遷移場景泛化訓(xùn)練后,基于遷移學(xué)習(xí)的理念,針對特定任務(wù)進(jìn)行特異性任務(wù)的訓(xùn)練,使得智能體能夠更有針對性的產(chǎn)生博弈策略。具體到本博弈場景中的紅方規(guī)則算法可以描述為
(15)
式中mod表示取余。
算法訓(xùn)練流程具體分為3個階段。其中前2個階段為訓(xùn)練階段,包含牽引性訓(xùn)練和描述性訓(xùn)練,最后1個階段為評估階段。
第1階段為牽引性訓(xùn)練。利用牽引性獎賞對紅藍(lán)方智能體進(jìn)行牽引訓(xùn)練,以專家經(jīng)驗(yàn)初始化神經(jīng)網(wǎng)絡(luò)參數(shù)收斂趨勢,且不進(jìn)行勝率評估。第2階段為描述性訓(xùn)練,利用描述性獎賞使得紅藍(lán)方智能體進(jìn)行自博弈,使得神經(jīng)網(wǎng)絡(luò)關(guān)聯(lián)長時(shí)間跨度下的狀態(tài)、動作和獎賞,進(jìn)一步泛化神經(jīng)網(wǎng)絡(luò)擬合得到的策略。第3階段為評估階段,將完成訓(xùn)練后的藍(lán)方多智能體與紅方規(guī)則算法在同場景下進(jìn)行博弈,評估智能體訓(xùn)練效果。
本文實(shí)驗(yàn)博弈場景中,紅藍(lán)方實(shí)體數(shù)量為4個,包括紅方基地、紅方攔截智能體、藍(lán)方攔截智能體和藍(lán)方攻擊智能體。
實(shí)驗(yàn)訓(xùn)練階段:設(shè)置1 000輪博弈訓(xùn)練,每輪博弈回合數(shù)為1 000步。其中牽引性訓(xùn)練500輪,描述性訓(xùn)練500輪。評估階段設(shè)置100輪博弈。
在牽引性訓(xùn)練階段中,紅方攔截智能體采用DDPG算法,由藍(lán)方攔截智能體和藍(lán)方攻擊智能體構(gòu)成的藍(lán)方異構(gòu)多無人機(jī)群采用MA2IDDPG算法,采用牽引性獎賞函數(shù)進(jìn)行訓(xùn)練;在描述性訓(xùn)練階段,紅方攔截智能體采用DDPG算法,由藍(lán)方攔截智能體和藍(lán)方攻擊智能體構(gòu)成的藍(lán)方異構(gòu)多無人機(jī)群采用MA2IDDPG方法,用描述性獎賞函數(shù)進(jìn)行訓(xùn)練;在評估階段,紅方攔截智能體采用規(guī)則算法模型,由藍(lán)方攔截智能體和藍(lán)方攻擊智能體構(gòu)成的藍(lán)方異構(gòu)多無人機(jī)群采用MA2IDDPG算法。
在仿真實(shí)驗(yàn)中,通過本文提出的MA2IDDPG方法與典型DDPG方法進(jìn)行對比,表明本文提出算法的創(chuàng)新性。
神經(jīng)網(wǎng)絡(luò)模型架構(gòu)參數(shù)配置如表1所示。
表1 神經(jīng)網(wǎng)絡(luò)模型架構(gòu)參數(shù)配置
訓(xùn)練參數(shù)配置如表2所示。
表2 訓(xùn)練參數(shù)配置
在1 000輪博弈訓(xùn)練過程中,本文方法和DDPG方法的累計(jì)回報(bào)獎賞如圖3所示。由圖3可知,在算法訓(xùn)練的過程中,回報(bào)獎賞不斷提高。MA2IDDPG方法相比于DDPG方法,累計(jì)回報(bào)獎賞增長更為穩(wěn)定。
圖3 回報(bào)獎賞Fig.3 Reward
在博弈評估下,描述性訓(xùn)練500輪如圖4所示。描述性訓(xùn)練500輪的自博弈過程中,MA2IDDPG方法勝率最終達(dá)到76%,而DDPG方法勝率達(dá)到58%??梢奙A2IDDPG方法在描述性訓(xùn)練階段的表現(xiàn)優(yōu)于DDPG方法。
圖4 訓(xùn)練勝率Fig.4 Training win rate
在評估階段中,采用2.4節(jié)中的規(guī)則方法,對DDPG方法和MA2IDDPG方法進(jìn)行對比驗(yàn)證。評估回報(bào)獎賞如圖5所示。
圖5 評估勝率Fig.5 Evaluated win rate
通過分析圖5可知,經(jīng)過訓(xùn)練后,MA2IDDPG方法和經(jīng)典DDPG方法評估勝率一致,表明均能夠有效戰(zhàn)勝基于規(guī)則算法的紅方。但是結(jié)合訓(xùn)練實(shí)驗(yàn)結(jié)果表明,MA2IDDPG算法不但能夠有效產(chǎn)生博弈對抗策略,而且在訓(xùn)練階段的穩(wěn)定性和效果上均優(yōu)于經(jīng)典DDPG方法。
圖6 典型博弈過程Fig.6 Typical game process
在整個博弈過程中,典型博弈過程如圖6所示。通過分析可知,在場景給定的獎賞趨勢下,藍(lán)方攔截智能體趨向于對藍(lán)方攔截智能體進(jìn)行保護(hù),即通過對于藍(lán)方攻擊智能體策略擬合,形成聯(lián)合策略,在保護(hù)藍(lán)方攻擊智能體的過程中,對紅方攻擊智能體進(jìn)行攔截,從而達(dá)成對于藍(lán)方基地的進(jìn)攻。
為了能夠智能化產(chǎn)生超過基于專家經(jīng)驗(yàn)知識的異構(gòu)多無人機(jī)協(xié)同突防策略,基于MA2IDDPG算法提出了異構(gòu)多無人機(jī)協(xié)同突防方法。
首先,基于經(jīng)典DDPG方法框架,通過采用異步并行的方法對其進(jìn)行改進(jìn),得到了MA2IDDPG方法框架,能有效提高經(jīng)驗(yàn)數(shù)據(jù)的收集效率。然后,構(gòu)建共享經(jīng)驗(yàn)池,將不同獎賞下獲得的經(jīng)驗(yàn)同時(shí)存儲,增加經(jīng)驗(yàn)數(shù)據(jù)的多樣性。其次,為了解決用于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的優(yōu)質(zhì)樣本問題,構(gòu)建基于專家經(jīng)驗(yàn)知識的牽引性獎賞函數(shù)。在牽引性獎賞函數(shù)的反饋下,異構(gòu)多無人機(jī)能夠快速生成達(dá)到領(lǐng)域?qū)<宜降牟呗?。再次,為了解決異構(gòu)無人機(jī)智能遷移性的問題,構(gòu)建基于博弈結(jié)果的描述性獎賞函數(shù)。最后,借鑒遷移學(xué)習(xí)和課程學(xué)習(xí)的理念,分別采用牽引性獎賞和描述性獎賞,將訓(xùn)練階段分成為牽引性訓(xùn)練階段和描述性訓(xùn)練階段,分階段對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使得神經(jīng)網(wǎng)絡(luò)能夠在快速達(dá)到專家知識水平后,進(jìn)一步提高產(chǎn)生的策略水平。在仿真實(shí)驗(yàn)中,構(gòu)建了異構(gòu)多無人機(jī)協(xié)同突防環(huán)境,將MA2IDDPG方法與典型DDPG方法進(jìn)行了對比驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,MA2IDDPG方法在訓(xùn)練過程中更穩(wěn)定,對抗效果更優(yōu)。
研究受限于場景的逼真度,將在后續(xù)研究中進(jìn)一步考慮攔截概率對多智能體策略的影響。當(dāng)前研究的關(guān)鍵在于深度神經(jīng)網(wǎng)絡(luò)的可解釋性,當(dāng)前改善多從超參數(shù)調(diào)整和神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)調(diào)整等外因方面入手,需要深入研究深度神經(jīng)網(wǎng)絡(luò)的解釋性,從而實(shí)現(xiàn)對算力、訓(xùn)練時(shí)間和對抗效果之間的預(yù)測。