国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

規(guī)則耦合下的多異構(gòu)子網(wǎng)絡(luò)MADDPG博弈對(duì)抗算法

2024-04-09 01:42:14張鈺欣趙恩嬌趙玉新
智能系統(tǒng)學(xué)報(bào) 2024年1期
關(guān)鍵詞:勢(shì)函數(shù)耦合經(jīng)驗(yàn)

張鈺欣,趙恩嬌,趙玉新

(哈爾濱工程大學(xué) 智能科學(xué)與工程學(xué)院, 黑龍江 哈爾濱 150001)

隨著現(xiàn)代戰(zhàn)爭(zhēng)的復(fù)雜性日益提升,智能化空戰(zhàn)對(duì)無(wú)人機(jī)自主決策的需求日漸迫切。在多無(wú)人機(jī)博弈對(duì)抗過(guò)程中,無(wú)人機(jī)的自主決策方法已成為空戰(zhàn)對(duì)抗問(wèn)題中的重要研究課題。多無(wú)人機(jī)博弈對(duì)抗是指在博弈區(qū)域內(nèi)的兩方無(wú)人機(jī)以一對(duì)多或多對(duì)多的形式針對(duì)敵方無(wú)人機(jī)進(jìn)行打擊、協(xié)同圍捕或逃逸敵方無(wú)人機(jī)的圍捕。參與博弈對(duì)抗的無(wú)人機(jī)通常需要根據(jù)觀測(cè)信息進(jìn)行決策,使無(wú)人機(jī)群在盡可能保證組內(nèi)個(gè)體存活的同時(shí)完成對(duì)敵方無(wú)人機(jī)的協(xié)同圍捕或擊毀[1]。基于多智能體深度強(qiáng)化學(xué)習(xí)(multi-agent deep reinforcement learning, MADRL)的智能算法在上述多無(wú)人機(jī)博弈對(duì)抗過(guò)程中的應(yīng)用能夠?qū)Q策機(jī)制起到有效的輔助作用,使無(wú)人機(jī)在動(dòng)態(tài)環(huán)境中的機(jī)動(dòng)能力大幅提升,并為智能空戰(zhàn)中的策略應(yīng)用提供參考。因此,開(kāi)展基于MADRL的多無(wú)人機(jī)博弈對(duì)抗算法的研究具有重要的工程意義。本文選取多個(gè)具有相同打擊能力、防御能力、探測(cè)能力及機(jī)動(dòng)性能的無(wú)人機(jī)組成參與博弈的雙方并在有限區(qū)域內(nèi)進(jìn)行對(duì)抗。通過(guò)對(duì)上述博弈問(wèn)題的研究,設(shè)計(jì)基于MADRL的多無(wú)人機(jī)博弈對(duì)抗算法以提升無(wú)人機(jī)的對(duì)抗性能。

目前,學(xué)者們針對(duì)基于MADRL的多無(wú)人機(jī)博弈對(duì)抗問(wèn)題提出了多種研究方法并取得了大量的研究成果,依據(jù)其核心內(nèi)容的不同,主要分為觀測(cè)信息預(yù)處理、網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)、目標(biāo)函數(shù)設(shè)置、獎(jiǎng)勵(lì)機(jī)制細(xì)化、經(jīng)驗(yàn)采樣和先驗(yàn)知識(shí)開(kāi)發(fā)利用6個(gè)方向。

在觀測(cè)信息預(yù)處理方面,由于博弈環(huán)境的高度復(fù)雜性,環(huán)境信息通常是不可完全觀測(cè)的,若直接將所有無(wú)人機(jī)的觀測(cè)信息作為共享信息全部輸入網(wǎng)絡(luò)則會(huì)為網(wǎng)絡(luò)輸入端引入大量冗余信息。針對(duì)觀測(cè)信息冗余問(wèn)題,研究者通常會(huì)基于觀測(cè)信息序列為網(wǎng)絡(luò)設(shè)計(jì)注意力機(jī)制以提取特征信息;針對(duì)觀測(cè)信息缺失問(wèn)題,研究者通常會(huì)為網(wǎng)絡(luò)設(shè)計(jì)信息共享機(jī)制以生成局部觀測(cè)信息從而彌補(bǔ)缺失信息[2-5]。

在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)方面,經(jīng)典的Actor-Critic網(wǎng)絡(luò)框架雖然能夠解決多種復(fù)雜問(wèn)題,但在某些特殊情況下仍然無(wú)法做出合理的決策。在傳統(tǒng)的網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上引入額外的輔助網(wǎng)絡(luò)或豐富傳統(tǒng)網(wǎng)絡(luò)的層次結(jié)構(gòu)可以對(duì)網(wǎng)絡(luò)輸出進(jìn)行有效的約束,在提高網(wǎng)絡(luò)魯棒性的同時(shí)強(qiáng)化網(wǎng)絡(luò)性能[6-7]。

在目標(biāo)函數(shù)設(shè)置方面,目標(biāo)函數(shù)是網(wǎng)絡(luò)參數(shù)更新的基礎(chǔ),由于網(wǎng)絡(luò)參數(shù)以目標(biāo)函數(shù)梯度進(jìn)行更新迭代從而逼近最優(yōu)解,合理的目標(biāo)函數(shù)設(shè)置方法不僅能夠提升網(wǎng)絡(luò)學(xué)習(xí)的收斂速度,還能在一定程度上避免過(guò)擬合問(wèn)題[8-9],如將交叉熵項(xiàng)引入目標(biāo)函數(shù)可以在提高網(wǎng)絡(luò)泛化能力的同時(shí)強(qiáng)化網(wǎng)絡(luò)在干擾環(huán)境中的自我調(diào)整能力。

在獎(jiǎng)勵(lì)機(jī)制細(xì)化方面,稀疏獎(jiǎng)勵(lì)問(wèn)題是網(wǎng)絡(luò)學(xué)習(xí)過(guò)程中需要解決的重點(diǎn)問(wèn)題之一,存儲(chǔ)經(jīng)驗(yàn)的獎(jiǎng)勵(lì)值分布稀疏通常會(huì)導(dǎo)致網(wǎng)絡(luò)學(xué)習(xí)效率低下,由于參數(shù)更新迭代缺乏合理的引導(dǎo),網(wǎng)絡(luò)參數(shù)始終無(wú)法逼近最優(yōu)解。為博弈問(wèn)題設(shè)計(jì)細(xì)化的獎(jiǎng)勵(lì)機(jī)制能夠有效避免稀疏獎(jiǎng)勵(lì)問(wèn)題,對(duì)網(wǎng)絡(luò)參數(shù)的更新以及決策也起到了一定的指導(dǎo)作用[10-11]。

在經(jīng)驗(yàn)采樣方面,傳統(tǒng)的經(jīng)驗(yàn)抽取通常以均勻采樣的方式抽取一個(gè)批次的樣本,由于優(yōu)勢(shì)經(jīng)驗(yàn)數(shù)量較少,對(duì)經(jīng)驗(yàn)進(jìn)行等概率隨機(jī)采樣通常會(huì)導(dǎo)致網(wǎng)絡(luò)學(xué)習(xí)效率低下,網(wǎng)絡(luò)難以學(xué)習(xí)優(yōu)秀的成功經(jīng)驗(yàn)。針對(duì)上述問(wèn)題,研究者通常會(huì)對(duì)經(jīng)驗(yàn)生成、存儲(chǔ)和采樣機(jī)制進(jìn)行優(yōu)化設(shè)計(jì)以提升對(duì)優(yōu)勢(shì)經(jīng)驗(yàn)的利用效率[12-13]。

在先驗(yàn)知識(shí)開(kāi)發(fā)利用方面,完全依靠自主探索積累經(jīng)驗(yàn)的學(xué)習(xí)方式雖然能夠達(dá)到預(yù)期的學(xué)習(xí)目標(biāo),但完全摒棄了對(duì)先驗(yàn)知識(shí)的利用。專(zhuān)家經(jīng)驗(yàn)對(duì)網(wǎng)絡(luò)學(xué)習(xí)能夠起到良好的指導(dǎo)作用從而提升網(wǎng)絡(luò)學(xué)習(xí)效率[14-15]。部分學(xué)者在網(wǎng)絡(luò)學(xué)習(xí)過(guò)程中引入專(zhuān)家經(jīng)驗(yàn)對(duì)其進(jìn)行指導(dǎo),如建立專(zhuān)家經(jīng)驗(yàn)庫(kù)以輔助決策或生成成功的偽經(jīng)驗(yàn)以輔助訓(xùn)練。實(shí)驗(yàn)表明,上述方法在網(wǎng)絡(luò)訓(xùn)練和決策階段均能夠起到良好的輔助作用。

隨著MADRL算法的發(fā)展,學(xué)者們開(kāi)始將其應(yīng)用于多無(wú)人機(jī)博弈對(duì)抗問(wèn)題的研究中。傳統(tǒng)的多無(wú)人機(jī)博弈對(duì)抗方法以基于統(tǒng)計(jì)決策和知識(shí)推理進(jìn)行決策或基于最優(yōu)決策方法在解空間內(nèi)進(jìn)行迭代尋優(yōu)為核心思想,上述傳統(tǒng)方法雖然使無(wú)人機(jī)具有一定的決策能力,但其靈活性、適應(yīng)性和魯棒性等性能仍有待提升,在具有連續(xù)狀態(tài)、動(dòng)作空間的復(fù)雜環(huán)境中難以取得優(yōu)秀的表現(xiàn)。基于MADRL的決策方法賦予無(wú)人機(jī)自我學(xué)習(xí)和擴(kuò)展的能力,為智能無(wú)人機(jī)博弈對(duì)抗決策研究的發(fā)展帶來(lái)新契機(jī)?;旌螿值(QMIX)算法是一種基于價(jià)值學(xué)習(xí)的早期MADRL算法,可以以集中的端到端方式訓(xùn)練分散策略,算法基于局部觀測(cè)將聯(lián)合動(dòng)作值估計(jì)為每個(gè)無(wú)人機(jī)Q值的復(fù)雜非線性組合。多智能體深度Q學(xué)習(xí)網(wǎng)絡(luò)(multi-agent deep Q-learning network, MADQN)將深度Q網(wǎng)絡(luò)(deep Q-learning network, DQN)算法擴(kuò)展至多智能體領(lǐng)域,為每個(gè)無(wú)人機(jī)分配了一套獨(dú)立的DQN,無(wú)人機(jī)個(gè)體以獲取最優(yōu)Q函數(shù)為學(xué)習(xí)目標(biāo)。雖然QMIX算法和MADQN算法在對(duì)多無(wú)人機(jī)博弈對(duì)抗的研究中已經(jīng)取得了一定的成果,但是從任一單無(wú)人機(jī)的角度來(lái)看,由于其他個(gè)體策略的未知性導(dǎo)致環(huán)境不穩(wěn)定,狀態(tài)轉(zhuǎn)換受到影響,從而違反了馬爾科夫決策標(biāo)準(zhǔn),同時(shí)該問(wèn)題還會(huì)導(dǎo)致經(jīng)驗(yàn)回放在逼近狀態(tài)對(duì)概率進(jìn)行轉(zhuǎn)換時(shí)變的不準(zhǔn)確。MADDPG算法以“集中評(píng)價(jià)-分布執(zhí)行”為框架以適應(yīng)多無(wú)人機(jī)博弈對(duì)抗過(guò)程的復(fù)雜環(huán)境,算法在“捕食者-獵物”(predator-prey)問(wèn)題的研究中取得了初步的成果,但上述問(wèn)題中無(wú)人機(jī)群主要以協(xié)同圍捕作為主要目標(biāo)而非對(duì)抗[16]。針對(duì)無(wú)人機(jī)群博弈對(duì)抗過(guò)程的特點(diǎn),通信多智能體深度確定性策略梯度(communication multi-agent deep deterministic policy gradient, COM-MADDPG)算法對(duì)經(jīng)典的MADDPG算法進(jìn)行改進(jìn),使無(wú)人機(jī)群能夠完成協(xié)同圍捕和打擊任務(wù),但無(wú)人機(jī)仍以粒子的形式參與博弈對(duì)抗任務(wù),并未對(duì)無(wú)人機(jī)進(jìn)行具體的建模[17]。在博弈對(duì)抗過(guò)程中無(wú)人機(jī)所處環(huán)境通常具有高度復(fù)雜性而其自身也受到一定的約束,同步目標(biāo)分配路徑規(guī)劃(simultaneous target assignment and path planning, STAPP)算法對(duì)參與博弈的無(wú)人機(jī)進(jìn)行簡(jiǎn)單建模并構(gòu)建了具有威脅區(qū)的復(fù)雜博弈環(huán)境以解決多無(wú)人機(jī)目標(biāo)分配和路徑規(guī)劃問(wèn)題(multi-UAV target assignment and path planning, MUTAPP),但任務(wù)的高度復(fù)雜性使無(wú)效經(jīng)驗(yàn)的比例大幅度提升,降低了網(wǎng)絡(luò)模型的學(xué)習(xí)效率[18];獎(jiǎng)勵(lì)生成多智能體深度確定性策略梯度(reward shaping multi-agent deep deterministic policy gradient, RS-MADDPG)算法對(duì)無(wú)人機(jī)進(jìn)行完整建模并提出了相應(yīng)的約束條件以增加任務(wù)復(fù)雜性和真實(shí)性,同時(shí)算法對(duì)獎(jiǎng)勵(lì)機(jī)制進(jìn)行優(yōu)化設(shè)計(jì)以指導(dǎo)網(wǎng)絡(luò)參數(shù)的更新方向,但所設(shè)計(jì)的獎(jiǎng)勵(lì)機(jī)制更加適用于近距離打擊任務(wù)而非完整的博弈任務(wù)[19]。雖然大部分基于MADRL的智能算法在多無(wú)人機(jī)博弈對(duì)抗過(guò)程中已經(jīng)取得了良好的表現(xiàn),但無(wú)人機(jī)完全依賴(lài)自身對(duì)環(huán)境的探索以積累經(jīng)驗(yàn)的學(xué)習(xí)方式通常不具有較高的學(xué)習(xí)效率,與在環(huán)境中進(jìn)行試錯(cuò)學(xué)習(xí)的純基于算法的學(xué)習(xí)方式相比,以合理的規(guī)則輔助決策可以減少無(wú)效的探索操作,并提升決策能力?;谝?guī)則的MADDPG算法將先驗(yàn)知識(shí)與MADDPG算法結(jié)合,在保留博弈環(huán)境復(fù)雜性和無(wú)人機(jī)自身約束的同時(shí),為算法制定規(guī)則集以指導(dǎo)無(wú)人機(jī)在特殊情況下進(jìn)行決策,雖然規(guī)則集在決策階段起到了有效的指導(dǎo)作用,但決策網(wǎng)絡(luò)的性能并未得到顯著提升且并未考慮到無(wú)人機(jī)數(shù)量衰減這一實(shí)際問(wèn)題[20]。

綜上所述,現(xiàn)有研究成果均利用MADRL算法對(duì)各自提出的問(wèn)題進(jìn)行研究并改進(jìn)了原始的MADDPG算法。然而環(huán)境的非平穩(wěn)性、狀態(tài)空間和動(dòng)作空間的連續(xù)性會(huì)導(dǎo)致訓(xùn)練效率低下且學(xué)習(xí)階段過(guò)于漫長(zhǎng);對(duì)有效經(jīng)驗(yàn)的利用率不高會(huì)導(dǎo)致學(xué)習(xí)的策略與最優(yōu)策略相差甚遠(yuǎn)。部分算法雖然對(duì)上述問(wèn)題進(jìn)行了研究和改進(jìn),但涉及到真實(shí)博弈場(chǎng)景中多無(wú)人機(jī)博弈對(duì)抗問(wèn)題的研究實(shí)則較少,無(wú)人機(jī)的有限打擊能力和有限防御能力等特性極大地提高了博弈問(wèn)題的復(fù)雜性且參與博弈的無(wú)人機(jī)數(shù)量的動(dòng)態(tài)衰減問(wèn)題為網(wǎng)絡(luò)決策增添了冗余信息。因此,將基于MADRL的博弈對(duì)抗算法應(yīng)用于多無(wú)人機(jī)空戰(zhàn)問(wèn)題時(shí),算法的網(wǎng)絡(luò)結(jié)構(gòu)、有效經(jīng)驗(yàn)利用以及獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)等方面仍存在許多值得探索和研究的內(nèi)容,如何在經(jīng)典MADDPG算法的基礎(chǔ)上進(jìn)行研究并針對(duì)特定博弈場(chǎng)景進(jìn)行改進(jìn)以提升算法的學(xué)習(xí)效率、收斂速度和穩(wěn)定性是本文研究的核心目標(biāo)。

本文主要針對(duì)有限區(qū)域內(nèi)的多無(wú)人機(jī)博弈對(duì)抗問(wèn)題,在考慮無(wú)人機(jī)有限打擊能力和有限防御能力等約束條件的同時(shí),利用MADRL算法對(duì)無(wú)人機(jī)攻擊、逃逸的機(jī)動(dòng)決策方案進(jìn)行研究。根據(jù)MADDPG算法“狀態(tài)評(píng)估-自主決策-環(huán)境反饋-網(wǎng)絡(luò)訓(xùn)練”的自舉博弈及訓(xùn)練方法在多無(wú)人機(jī)博弈對(duì)抗問(wèn)題的應(yīng)用中存在的無(wú)人機(jī)數(shù)量衰減問(wèn)題、先驗(yàn)知識(shí)利用問(wèn)題、稀疏獎(jiǎng)勵(lì)問(wèn)題和有效經(jīng)驗(yàn)抽取問(wèn)題,對(duì)原始算法的網(wǎng)絡(luò)結(jié)構(gòu)、獎(jiǎng)勵(lì)機(jī)制、決策機(jī)制及經(jīng)驗(yàn)采樣方法進(jìn)行改進(jìn)并提出了基于規(guī)則耦合的多異構(gòu)子網(wǎng)絡(luò)MADDPG算法;為了提升算法的收斂速度和穩(wěn)定性,提出了各子網(wǎng)絡(luò)在遷移場(chǎng)景中獨(dú)立訓(xùn)練、在目標(biāo)場(chǎng)景中聯(lián)合訓(xùn)練的場(chǎng)景遷移訓(xùn)練方法。

1 無(wú)人機(jī)群博弈對(duì)抗問(wèn)題描述與建模

1.1 多無(wú)人機(jī)博弈對(duì)抗問(wèn)題

本文基于2-vs-2多無(wú)人機(jī)博弈對(duì)抗問(wèn)題對(duì)實(shí)驗(yàn)環(huán)境進(jìn)行構(gòu)建,如圖1所示。

圖1 無(wú)人機(jī)群對(duì)抗場(chǎng)景Fig.1 UAVs game confrontation scenario

在300 m × 300 m的有限博弈區(qū)域內(nèi),紅、藍(lán)兩方各有2架作戰(zhàn)無(wú)人機(jī)參與博弈。與某一無(wú)人機(jī)距離最近的敵方無(wú)人機(jī)稱(chēng)為目標(biāo)無(wú)人機(jī),無(wú)人機(jī)可以通過(guò)機(jī)載雷達(dá)、電子陀螺儀等裝置對(duì)環(huán)境進(jìn)行觀測(cè)以獲取自身的絕對(duì)位置信息以及與目標(biāo)無(wú)人機(jī)間的相對(duì)位置信息。無(wú)人機(jī)通過(guò)機(jī)載通信裝置實(shí)現(xiàn)主體與友方的觀測(cè)信息共享,使無(wú)人機(jī)群具有一定的協(xié)同能力,但受限于通信能力,無(wú)人機(jī)群只能在博弈區(qū)域內(nèi)進(jìn)行信息共享。若無(wú)人機(jī)被擊毀或離開(kāi)博弈區(qū)域則無(wú)法參與后續(xù)的對(duì)抗任務(wù)且由于通信范圍受限,被擊毀或離開(kāi)博弈區(qū)域的無(wú)人機(jī)將停止與己方無(wú)人機(jī)的信息共享。參與博弈的無(wú)人機(jī)需要在博弈區(qū)域內(nèi)根據(jù)融合后的共享觀測(cè)信息對(duì)目標(biāo)無(wú)人機(jī)進(jìn)行攻擊或逃離目標(biāo)無(wú)人機(jī)的攻擊區(qū)域。綜上所述,本文的研究?jī)?nèi)容與真實(shí)的空戰(zhàn)場(chǎng)景更加接近。

每個(gè)無(wú)人機(jī)的單體狀態(tài)so為

式中:(x,y)為無(wú)人機(jī)在區(qū)域內(nèi)的位置坐標(biāo),m;(vx,vy)為無(wú)人機(jī)沿x軸正方向和y軸正方向的分速度,m/s;d為目標(biāo)無(wú)人機(jī)與當(dāng)前無(wú)人機(jī)的相對(duì)距離,m;ψ為當(dāng)前無(wú)人機(jī)的天線列角(antenna train angle, ATA),rad;δ為目標(biāo)無(wú)人機(jī)相對(duì)當(dāng)前無(wú)人機(jī)的方位角(aspect angle, AA),rad。

無(wú)人機(jī)i的狀態(tài)序列中,目標(biāo)無(wú)人機(jī)j相對(duì)于無(wú)人機(jī)i的距離d(i,j)、無(wú)人機(jī)i針對(duì)目標(biāo)無(wú)人機(jī)j的天線列角ψ(i,j)和目標(biāo)無(wú)人機(jī)j的方位角δ(i,j)為

式中:wixj、wiyj分別為無(wú)人機(jī)i與目標(biāo)無(wú)人機(jī)j在x方向和y方向上的相對(duì)距離,vix、viy分別為無(wú)人機(jī)i在x方向和y方向上的分速度,vxj、vyj分別為目標(biāo)無(wú)人機(jī)j在x方向和y方向上的分速度,vi、vj分別為無(wú)人機(jī)i和目標(biāo)無(wú)人機(jī)j的絕對(duì)速度,其關(guān)系為

對(duì)于作戰(zhàn)無(wú)人機(jī)來(lái)說(shuō),其搭載的自行火炮打擊能力通常會(huì)受到武器射程的限制,機(jī)載武器的搭載方式和機(jī)械結(jié)構(gòu)對(duì)火炮轉(zhuǎn)角也起到約束作用,而無(wú)人機(jī)的防御能力通常會(huì)受到自身機(jī)動(dòng)能性能的約束[21]。無(wú)人機(jī)的攻防約束條件如圖2所示。

圖2 無(wú)人機(jī)攻防約束條件Fig.2 UAV attack and defense constrains

在本文中,每個(gè)無(wú)人機(jī)的最大攻擊距離為datt,m;在以datt為半徑的圓形區(qū)域內(nèi),無(wú)人機(jī)的攻擊范圍被限制在一個(gè)扇形區(qū)域內(nèi),該區(qū)域位于無(wú)人機(jī)前端,其左右邊界與無(wú)人機(jī)主軸的夾角為±θatt/2,rad;而無(wú)人機(jī)的受威脅范圍同樣也被限制在一個(gè)扇形區(qū)域內(nèi),該區(qū)域位于無(wú)人機(jī)的尾端,其左右邊界與無(wú)人機(jī)主軸的夾角為±θdef/2,rad;當(dāng)敵方無(wú)人機(jī)的方位角δ大于|θdef/2|時(shí),無(wú)人機(jī)可以有效躲避敵方無(wú)人機(jī)的攻擊以避免被擊毀。

當(dāng)某一無(wú)人機(jī)探測(cè)到目標(biāo)無(wú)人機(jī)時(shí),只有其狀態(tài)序列滿(mǎn)足以下3個(gè)條件時(shí)才能判定為成功將目標(biāo)無(wú)人機(jī)擊毀:

1) 攻擊者i與目標(biāo)j之間的距離小于攻擊距離datt;

2) 目標(biāo)j位于攻擊者i的攻擊區(qū)域內(nèi);

3) 攻擊者i位于目標(biāo)j的受威脅區(qū)內(nèi)。

上述擊毀條件可描述為

1.2 無(wú)人機(jī)數(shù)學(xué)模型

每個(gè)無(wú)人機(jī)個(gè)體的動(dòng)作序列ao為

式中:ax為無(wú)人機(jī)沿x軸正方向加速度,m/s2;ay為無(wú)人機(jī)沿y軸正方向加速度,m/s2。無(wú)人機(jī)的動(dòng)作序列直接決定了其狀態(tài)空間中的(x,y,vx,vy)元組,其關(guān)系為

在執(zhí)行過(guò)程中,各無(wú)人機(jī)僅能以己方共享的狀態(tài)信息和動(dòng)作信息作為決策依據(jù)并生成動(dòng)作序列ao。每一組編隊(duì)中的無(wú)人機(jī)均通過(guò)控制機(jī)體沿各方向的加速度以實(shí)現(xiàn)對(duì)博弈區(qū)域這一未知環(huán)境的邊界探索;在未跨越博弈區(qū)域邊界的情況下,對(duì)各自鎖定的目標(biāo)無(wú)人機(jī)進(jìn)行追捕、打擊;在編隊(duì)中的無(wú)人機(jī)鎖定了相同的目標(biāo)無(wú)人機(jī)時(shí),對(duì)目標(biāo)無(wú)人機(jī)進(jìn)行協(xié)同圍捕。

2 基于MADRL的多無(wú)人機(jī)博弈模型

2.1 馬爾可夫博弈

在MADRL領(lǐng)域中,各個(gè)智能體通過(guò)與環(huán)境的交互來(lái)改進(jìn)自身的策略模型,而智能體本身僅能獲取自身的信息或團(tuán)隊(duì)的信息,敵方的策略對(duì)其來(lái)說(shuō)則是未知的,這也導(dǎo)致了每個(gè)智能體所處的環(huán)境對(duì)其本身來(lái)說(shuō)是極度復(fù)雜多變的。

多智能體博弈對(duì)抗的過(guò)程被稱(chēng)為馬爾可夫博弈(Markov game)或隨機(jī)博弈(stochastic game)。N個(gè)智能體的博弈通常以元組(N,S,A,O,R,P,γ)表示。其中S為全局環(huán)境狀態(tài)序列空間,s∈S;動(dòng)作序列空間集合A為

式中:Ai為智能體i的動(dòng)作序列空間,ai∈Ai;智能體觀測(cè)狀態(tài)序列空間集合O為

式中:Oi為智能體i的觀測(cè)序列空間,oi∈Oi;智能體的獎(jiǎng)勵(lì)集合R為

式中:Ri:S×A→R為智能體i的獎(jiǎng)勵(lì)函數(shù),所有智能體在全局環(huán)境狀態(tài)s下執(zhí)行聯(lián)合動(dòng)作a后智能體i獲得的獎(jiǎng)勵(lì)值ri為

獎(jiǎng)勵(lì)值的大小不僅取決于自身的動(dòng)作序列,還受到其他智能體的動(dòng)作序列影響;P為智能體在環(huán)境中的狀態(tài)轉(zhuǎn)移概率函數(shù),即P:S×A×S→[0,1]表示所有智能體在全局環(huán)境狀態(tài)s下執(zhí)行聯(lián)合動(dòng)作a后全局環(huán)境狀態(tài)轉(zhuǎn)移到s′的概率分布;γ∈[0,1]為累積獎(jiǎng)勵(lì)值的衰減因子。多智能體與環(huán)境交互的過(guò)程如圖3所示。

圖3 智能體與環(huán)境交互過(guò)程Fig.3 Interaction between agent and environment

在馬爾可夫博弈中,智能體i的確定性策略對(duì)應(yīng)的概率密度函數(shù)為

式中:μ為智能體i的策略網(wǎng)絡(luò),θi為策略網(wǎng)絡(luò)參數(shù)。由于網(wǎng)絡(luò)輸出確定性策略,故執(zhí)行策略網(wǎng)絡(luò)輸出的動(dòng)作序列的概率為1。智能體i的累積折扣獎(jiǎng)勵(lì)為

式中:rit為智能體在時(shí)刻t獲得的即時(shí)獎(jiǎng)勵(lì)。智能體i的累積期望獎(jiǎng)勵(lì)為

2.2 MADDPG算法

MADDPG算法是一種適用于多智能體博弈對(duì)抗問(wèn)題的經(jīng)典算法[22],算法框架如圖4所示。

圖4 MADDPG算法框架Fig.4 MADDPG algorithm framework

算法采用的“集中式訓(xùn)練-分布式執(zhí)行”方式使智能體能夠在訓(xùn)練時(shí)通過(guò)Critic網(wǎng)絡(luò)對(duì)全局狀態(tài)進(jìn)行評(píng)價(jià)以適應(yīng)不穩(wěn)定的環(huán)境,而在決策時(shí)通過(guò)Actor網(wǎng)絡(luò)依據(jù)本地信息生成動(dòng)作序列。

對(duì)于參與博弈的N個(gè)智能體,每一個(gè)智能體的決策核心由2個(gè)網(wǎng)絡(luò)組成,即Critic評(píng)價(jià)網(wǎng)絡(luò)和Actor策略網(wǎng)絡(luò)。智能體i的Online Critic網(wǎng)絡(luò)參數(shù)為θi,Online Actor網(wǎng)絡(luò)參數(shù)為wi,為了使訓(xùn)練具有良好的穩(wěn)定性,算法額外引入了Target Critic網(wǎng)絡(luò)和Target Actor網(wǎng)絡(luò),其網(wǎng)絡(luò)參數(shù)為和wi′。智能體的Critic網(wǎng)絡(luò)將全局信息sgl和agl作為輸入,表示為

式中:so、ao為當(dāng)前進(jìn)行網(wǎng)絡(luò)參數(shù)更新的智能體(待更新智能體)的狀態(tài)序列和動(dòng)作序列,stm、atm為待更新智能體的全部友方智能體的聯(lián)合狀態(tài)序列和聯(lián)合動(dòng)作序列,sen、aen為待更新智能體的全部敵方智能體的聯(lián)合狀態(tài)序列和聯(lián)合動(dòng)作序列。智能體的Actor網(wǎng)絡(luò)則將局部信息slo作為輸入,表示為

網(wǎng)絡(luò)的輸入和輸出關(guān)系為

原始MADDPG算法的Actor-Critic網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。

圖5 Critic網(wǎng)絡(luò)和Actor網(wǎng)絡(luò)Fig.5 Critic network and actor network

分析網(wǎng)絡(luò)輸入、輸出可知,Critic網(wǎng)絡(luò)利用全局觀測(cè)信息對(duì)當(dāng)前智能體的狀態(tài)-動(dòng)作價(jià)值評(píng)價(jià),即“集中評(píng)價(jià)”,Actor網(wǎng)絡(luò)僅利用本地觀測(cè)信息進(jìn)行決策,即“分布執(zhí)行”,該框架適用于多無(wú)人機(jī)博弈對(duì)抗問(wèn)題。

網(wǎng)絡(luò)參數(shù)的訓(xùn)練采用經(jīng)驗(yàn)回放機(jī)制,即為網(wǎng)絡(luò)設(shè)置經(jīng)驗(yàn)池D 以存儲(chǔ)經(jīng)驗(yàn)(oj,aj,rj,o′j),每一步博弈結(jié)束后,智能體會(huì)從經(jīng)驗(yàn)池D中抽取一定數(shù)量的經(jīng)驗(yàn)分別訓(xùn)練Critic網(wǎng)絡(luò)和Actor網(wǎng)絡(luò)。

對(duì)于智能體i的Online Critic網(wǎng)絡(luò),其梯度更新為

對(duì)于智能體i的Online Actor網(wǎng)絡(luò),其梯度更新為

所有智能體的Target網(wǎng)絡(luò)則不依據(jù)梯度進(jìn)行更新,而是采用軟更新的方式進(jìn)行參數(shù)迭代。因此Online Critic網(wǎng)絡(luò)和Target Critic網(wǎng)絡(luò)參數(shù)的更新為

Online Actor網(wǎng)絡(luò)和Target Actor網(wǎng)絡(luò)參數(shù)的更新公式為

式中:βCritic為Online Critic網(wǎng)絡(luò)學(xué)習(xí)率,αActor為Online Actor網(wǎng)絡(luò)學(xué)習(xí)率,τ∈[0,1]為軟更新系數(shù)。

3 基于規(guī)則耦合方法的多異構(gòu)子網(wǎng)絡(luò)改進(jìn)MADDPG算法

3.1 狀態(tài)評(píng)估-基于博弈無(wú)人機(jī)數(shù)量衰減問(wèn)題構(gòu)造異構(gòu)子網(wǎng)絡(luò)

傳統(tǒng)的MADDPG算法中,無(wú)人機(jī)的Actor網(wǎng)絡(luò)輸入己方所有無(wú)人機(jī)的聯(lián)合狀態(tài),即局部狀態(tài)slo,Critic網(wǎng)絡(luò)輸入雙方無(wú)人機(jī)的聯(lián)合狀態(tài),即全局狀態(tài)sgl。在多無(wú)人機(jī)博弈對(duì)抗問(wèn)題中,若某一個(gè)無(wú)人機(jī)被擊毀,而其友方無(wú)人機(jī)仍然存活,則該無(wú)人機(jī)在后續(xù)博弈中的狀態(tài)難以定義且由于團(tuán)隊(duì)獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì),被擊毀的無(wú)人機(jī)會(huì)因?yàn)橛逊降牧己帽憩F(xiàn)而獲得額外的獎(jiǎng)勵(lì)。上述情況會(huì)導(dǎo)致“Lazy無(wú)人機(jī)”出現(xiàn),造成學(xué)習(xí)效率低下,因?yàn)闊o(wú)人機(jī)在擊毀狀態(tài)下是沒(méi)有必要進(jìn)行狀態(tài)-動(dòng)作價(jià)值評(píng)估的,而且在該狀態(tài)下無(wú)人機(jī)的任何決策都是無(wú)效的。在基于MADRL的多無(wú)人機(jī)博弈對(duì)抗問(wèn)題中,若無(wú)人機(jī)數(shù)量衰減,保留學(xué)習(xí)效果較好的無(wú)人機(jī)使其繼續(xù)參與博弈同時(shí)舍棄學(xué)習(xí)效果較差的無(wú)人機(jī)并重新定義其信息序列一直是一項(xiàng)挑戰(zhàn)[23]。

本文基于2-vs-2的小規(guī)模多無(wú)人機(jī)博弈對(duì)抗問(wèn)題,為3種可能出現(xiàn)的博弈場(chǎng)景設(shè)置了4個(gè)不同結(jié)構(gòu)的子網(wǎng)絡(luò),即2-vs-2子網(wǎng)絡(luò)、2-vs-1子網(wǎng)絡(luò)、1-vs-2子網(wǎng)絡(luò)和1-vs-1子網(wǎng)絡(luò),在每個(gè)博弈場(chǎng)景下只需要為對(duì)應(yīng)的子網(wǎng)絡(luò)輸入存活無(wú)人機(jī)的狀態(tài)序列和動(dòng)作序列并將任意一架無(wú)人機(jī)被擊毀時(shí)對(duì)應(yīng)的狀態(tài)作為博弈的終止?fàn)顟B(tài)即可。若某一個(gè)博弈場(chǎng)景結(jié)束訓(xùn)練則直接切換至下一個(gè)博弈場(chǎng)景以繼續(xù)訓(xùn)練對(duì)應(yīng)的子網(wǎng)絡(luò),上述方法不僅可以提升網(wǎng)絡(luò)的學(xué)習(xí)效率,還能夠使所有無(wú)人機(jī)的狀態(tài)在下一個(gè)場(chǎng)景中得到繼承以積累更多的有價(jià)值經(jīng)驗(yàn)。在博弈對(duì)抗中,所有無(wú)人機(jī)的任務(wù)目標(biāo)相同,因此兩方無(wú)人機(jī)群的網(wǎng)絡(luò)參數(shù)可以實(shí)現(xiàn)共享。公共網(wǎng)絡(luò)參數(shù)的共享使參與博弈的無(wú)人機(jī)具備相同的觀測(cè)信息轉(zhuǎn)化能力,可將其視為一種公共知識(shí)[24]。公共知識(shí)能夠使系統(tǒng)更快地從環(huán)境狀態(tài)的突發(fā)性改變中恢復(fù)過(guò)來(lái),網(wǎng)絡(luò)參數(shù)更新所需的計(jì)算量也會(huì)更小。各場(chǎng)景對(duì)應(yīng)的子網(wǎng)絡(luò)結(jié)構(gòu)如圖6~9所示。

圖6 2-vs-2 Critic網(wǎng)絡(luò)和Actor網(wǎng)絡(luò)Fig.6 2-vs-2 Critic network and actor network

圖7 2-vs-1 Critic網(wǎng)絡(luò)和Actor網(wǎng)絡(luò)Fig.7 2-vs-1 Critic network and actor network

圖8 1-vs-2 Critic網(wǎng)絡(luò)和Actor網(wǎng)絡(luò)Fig.8 1-vs-2 Critic network and actor network

圖9 1-vs-1 Critic網(wǎng)絡(luò)和Actor網(wǎng)絡(luò)Fig.9 1-vs-1 Critic network and actor network

每個(gè)無(wú)人機(jī)單體在訓(xùn)練時(shí)只需要對(duì)全局觀測(cè)序列進(jìn)行初等變換以組成專(zhuān)屬的全局觀測(cè)序列和局部觀測(cè)序列并將信息序列輸入網(wǎng)絡(luò)即可。無(wú)人機(jī)的Critic網(wǎng)絡(luò)需要根據(jù)全局觀測(cè)序列對(duì)其狀態(tài)-動(dòng)作價(jià)值進(jìn)行評(píng)估,故輸入網(wǎng)絡(luò)的全局狀態(tài)序列和聯(lián)合動(dòng)作序列[sglagl]為

無(wú)人機(jī)的Actor網(wǎng)絡(luò)需要根據(jù)局部觀測(cè)序列計(jì)算動(dòng)作序列,故輸入網(wǎng)絡(luò)的局部狀態(tài)序列slo為

如果Actor網(wǎng)絡(luò)直接輸出執(zhí)行動(dòng)作序列[axay],通常會(huì)產(chǎn)生嚴(yán)重的過(guò)擬合問(wèn)題,導(dǎo)致策略模型的穩(wěn)定性較差[25]。本文中,Actor網(wǎng)絡(luò)輸出的動(dòng)作序列由5個(gè)基本動(dòng)作對(duì)應(yīng)的動(dòng)作價(jià)值組成:

式中:ql為無(wú)人機(jī)沿x軸負(fù)方向的加速度價(jià)值,qr為無(wú)人機(jī)沿x軸正方向的加速度價(jià)值,qu為無(wú)人機(jī)沿y軸正方向的加速度價(jià)值,qd為無(wú)人機(jī)沿y軸負(fù)方向的加速度價(jià)值,qs將無(wú)人機(jī)的加速度限制在一定范圍內(nèi)。對(duì)Actor網(wǎng)絡(luò)輸出的價(jià)值序列ao進(jìn)行Softmax處理后得到基本動(dòng)作序列ab為

式中:Setb為基本動(dòng)作(無(wú)人機(jī)加速度方向)集合{left,right,up,down,stay},該集合可縮寫(xiě)為{l,r,u,d,s};qi、qj分別為Actor網(wǎng)絡(luò)輸出的動(dòng)作價(jià)值序列中與基本動(dòng)作i、j相對(duì)應(yīng)的輸出值;ai為無(wú)人機(jī)沿方向i的加速度。無(wú)人機(jī)的5個(gè)基本動(dòng)作和執(zhí)行動(dòng)作的關(guān)系為

3.2 環(huán)境反饋-基于勢(shì)函數(shù)的獎(jiǎng)勵(lì)機(jī)制優(yōu)化設(shè)計(jì)方法

強(qiáng)化學(xué)習(xí)問(wèn)題中,獎(jiǎng)勵(lì)函數(shù)是一種環(huán)境反饋信息,實(shí)現(xiàn)了環(huán)境與算法之間的溝通以及對(duì)學(xué)習(xí)目標(biāo)的數(shù)學(xué)化描述,因此獎(jiǎng)勵(lì)機(jī)制設(shè)計(jì)的合理性對(duì)于策略的學(xué)習(xí)至關(guān)重要[26]。本文中,參與博弈的無(wú)人機(jī)具有相同的任務(wù)目標(biāo),故所有無(wú)人機(jī)獎(jiǎng)勵(lì)機(jī)制相同。無(wú)人機(jī)的團(tuán)隊(duì)獎(jiǎng)勵(lì)機(jī)制以離散獎(jiǎng)勵(lì)函數(shù)對(duì)成功打擊目標(biāo)、離開(kāi)博弈區(qū)域等基本任務(wù)節(jié)點(diǎn)對(duì)無(wú)人機(jī)的獎(jiǎng)勵(lì)函數(shù)進(jìn)行設(shè)置,其目的是引導(dǎo)無(wú)人機(jī)團(tuán)隊(duì)學(xué)習(xí)簡(jiǎn)單的競(jìng)爭(zhēng)、合作策略。無(wú)人機(jī)基本任務(wù)節(jié)點(diǎn)的團(tuán)隊(duì)離散獎(jiǎng)勵(lì)函數(shù)rb設(shè)置為

如果在博弈對(duì)抗過(guò)程中,無(wú)人機(jī)只有在完成基本任務(wù)時(shí)才能獲得獎(jiǎng)勵(lì),則會(huì)導(dǎo)致訓(xùn)練過(guò)程缺乏環(huán)境反饋引導(dǎo)[27]。由于在一次博弈中,無(wú)人機(jī)需要在開(kāi)始階段對(duì)區(qū)域進(jìn)行探索,而探索環(huán)境的無(wú)人機(jī)很難完成基本任務(wù),故幾乎不會(huì)獲得獎(jiǎng)勵(lì),即稀疏獎(jiǎng)勵(lì)問(wèn)題。獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)不合理導(dǎo)致的稀疏獎(jiǎng)勵(lì)問(wèn)題可能會(huì)延長(zhǎng)算法的收斂時(shí)間或增大學(xué)習(xí)策略與最優(yōu)策略的偏差,甚至?xí)?dǎo)致學(xué)習(xí)策略永遠(yuǎn)無(wú)法達(dá)到預(yù)期目標(biāo)[28-29]。

本文中,為避免稀疏獎(jiǎng)勵(lì)問(wèn)題且使無(wú)人機(jī)能夠?qū)W習(xí)如何接近目標(biāo)無(wú)人機(jī)的受威脅區(qū)域,對(duì)基于勢(shì)函數(shù)的個(gè)體連續(xù)獎(jiǎng)勵(lì)機(jī)制進(jìn)行設(shè)計(jì)。該機(jī)制為無(wú)人機(jī)的每一步動(dòng)作計(jì)算獎(jiǎng)勵(lì)值,在原有的基本任務(wù)節(jié)點(diǎn)獎(jiǎng)勵(lì)函數(shù)的基礎(chǔ)上,額外增加了基于勢(shì)函數(shù)構(gòu)造的獎(jiǎng)勵(lì)函數(shù)Rpo。綜合獎(jiǎng)勵(lì)勢(shì)函數(shù)?(s)由常規(guī)獎(jiǎng)勵(lì)勢(shì)函數(shù)?no(s)和特殊獎(jiǎng)勵(lì)勢(shì)函數(shù)?sp(s)組成。常規(guī)獎(jiǎng)勵(lì)勢(shì)函數(shù)?no(s)由3項(xiàng)基于狀態(tài)的子獎(jiǎng)勵(lì)勢(shì)函數(shù)組成,即角度獎(jiǎng)勵(lì)勢(shì)函數(shù)?0(s)、距離獎(jiǎng)勵(lì)勢(shì)函數(shù)?dis(s)和速度獎(jiǎng)勵(lì)勢(shì)函數(shù)?vel(s),其作用為引導(dǎo)當(dāng)前無(wú)人機(jī)對(duì)目標(biāo)無(wú)人機(jī)進(jìn)行打擊;特殊獎(jiǎng)勵(lì)勢(shì)函數(shù)?sp(s)由2項(xiàng)基于狀態(tài)的子獎(jiǎng)勵(lì)勢(shì)函數(shù)組成,即邊界安全獎(jiǎng)勵(lì)勢(shì)函數(shù)?bou(s)和逃避追擊獎(jiǎng)勵(lì)勢(shì)函數(shù)?esp(s),二者僅在無(wú)人機(jī)狀態(tài)滿(mǎn)足特定條件時(shí)有效且由于該狀態(tài)下的無(wú)人機(jī)以保證個(gè)體存活為優(yōu)先任務(wù),常規(guī)獎(jiǎng)勵(lì)勢(shì)函數(shù)在該狀態(tài)下無(wú)效。

角度獎(jiǎng)勵(lì)勢(shì)函數(shù)?0(s)根據(jù)當(dāng)前無(wú)人機(jī)的速度矢量與目標(biāo)線的夾角ψo(hù)(s)(rad)和目標(biāo)無(wú)人機(jī)的速度矢量與目標(biāo)線的夾角δt(s)(rad)進(jìn)行設(shè)置為

距離獎(jiǎng)勵(lì)勢(shì)函數(shù)?dis(s)在?0(s)基礎(chǔ)上額外考慮到了無(wú)人機(jī)間的距離為

式中:De為最適合無(wú)人機(jī)攻擊的距離且滿(mǎn)足0<De<datt,m;D(s)為當(dāng)前無(wú)人機(jī)與目標(biāo)無(wú)人機(jī)間的距離,m;kdis∈[0,1]為相對(duì)距離系數(shù)。

速度獎(jiǎng)勵(lì)勢(shì)函數(shù)?vel(s)則在?0(s)基礎(chǔ)上額外考慮到了無(wú)人機(jī)間的速度差值:

式中:vo為當(dāng)前無(wú)人機(jī)速度,m/s;vt為目標(biāo)無(wú)人機(jī)速度,m/s;kvel∈[0,1]為相對(duì)速度系數(shù)。

邊界安全獎(jiǎng)勵(lì)勢(shì)函數(shù)?bou(s)在當(dāng)前無(wú)人機(jī)距戰(zhàn)場(chǎng)邊界距離小于安全距離dbou(m)時(shí)有效:

式中:Dbou(s)為無(wú)人機(jī)距邊界的最小距離,m;kbou∈[0,1]為邊界距離系數(shù)。

逃避追擊獎(jiǎng)勵(lì)勢(shì)函數(shù)?esp(s)在當(dāng)前無(wú)人機(jī)與敵方無(wú)人機(jī)距離小于危險(xiǎn)距離ddan(m)且敵方無(wú)人機(jī)的速度矢量與目標(biāo)線夾角ψen(s)(rad)和當(dāng)前無(wú)人機(jī)的速度矢量與敵方無(wú)人機(jī)目標(biāo)線夾角δo(s)(rad)滿(mǎn)足攻擊條件時(shí)有效:

稱(chēng)滿(mǎn)足式(32)條件的敵方無(wú)人機(jī)為威脅無(wú)人機(jī),則式(32)中Desp(s)為當(dāng)前無(wú)人機(jī)與威脅無(wú)人機(jī)的距離,m;kesp∈[0,1]為威脅距離系數(shù)。

綜合獎(jiǎng)勵(lì)勢(shì)函數(shù)?(s)由上述各項(xiàng)子獎(jiǎng)勵(lì)勢(shì)函數(shù)組成,無(wú)人機(jī)的獎(jiǎng)勵(lì)機(jī)制根據(jù)每個(gè)無(wú)人機(jī)的當(dāng)前狀態(tài)序列s選擇對(duì)應(yīng)的子獎(jiǎng)勵(lì)勢(shì)函數(shù)并生成獎(jiǎng)勵(lì)值。最終得到的綜合獎(jiǎng)勵(lì)勢(shì)函數(shù)(個(gè)體連續(xù)獎(jiǎng)勵(lì)函數(shù))?(s)為

由式(27)~(32)可知,組成綜合獎(jiǎng)勵(lì)勢(shì)函數(shù)的子獎(jiǎng)勵(lì)勢(shì)函數(shù)的取值均被限制在一定范圍內(nèi)且具有一定差異。各項(xiàng)子獎(jiǎng)勵(lì)勢(shì)函數(shù)取值范圍如表1所示。

表1 子獎(jiǎng)勵(lì)勢(shì)函數(shù)取值范圍Table 1 Value range of sub incentive potential function

由表1中數(shù)據(jù)可知,組合后的常規(guī)獎(jiǎng)勵(lì)勢(shì)函數(shù)?no(s)∈[-3,3],而組合后的特殊獎(jiǎng)勵(lì)勢(shì)函數(shù)?sp(s)∈[-1,1]。綜上所述,若要將綜合獎(jiǎng)勵(lì)勢(shì)函數(shù)與基本任務(wù)節(jié)點(diǎn)的獎(jiǎng)勵(lì)函數(shù)rb相結(jié)合且盡可能避免網(wǎng)絡(luò)學(xué)習(xí)過(guò)程中出現(xiàn)振蕩等不穩(wěn)定現(xiàn)象,需要根據(jù)離散獎(jiǎng)勵(lì)值的大小對(duì)?(s)進(jìn)行標(biāo)準(zhǔn)化處理,最終獎(jiǎng)勵(lì)值Rfin為

式中:w?為獎(jiǎng)勵(lì)函數(shù)歸一化參數(shù),其作用為平衡個(gè)體競(jìng)爭(zhēng)經(jīng)驗(yàn)和團(tuán)隊(duì)合作經(jīng)驗(yàn)對(duì)策略模型學(xué)習(xí)的影響,避免獎(jiǎng)勵(lì)值差異導(dǎo)致網(wǎng)絡(luò)學(xué)習(xí)收斂至次優(yōu)解。

3.3 自主決策-規(guī)則耦合模塊構(gòu)造

僅基于客觀事實(shí)對(duì)獎(jiǎng)勵(lì)函數(shù)進(jìn)行優(yōu)化設(shè)計(jì)以學(xué)習(xí)最優(yōu)策略的方法對(duì)于多無(wú)人機(jī)博弈對(duì)抗問(wèn)題來(lái)說(shuō)是不現(xiàn)實(shí)的,與完全基于算法在環(huán)境中不斷進(jìn)行試錯(cuò)學(xué)習(xí)的策略相比,使用某些已經(jīng)由人類(lèi)總結(jié)出來(lái)的規(guī)則作為輔助的策略可以減少無(wú)人機(jī)的無(wú)效探索并在某些情況下做出更加合理的決策。本文建立了一個(gè)基于專(zhuān)家經(jīng)驗(yàn)的規(guī)則耦合模塊并與Actor網(wǎng)絡(luò)相互耦合,規(guī)則耦合模塊參與博弈的過(guò)程如圖10所示。

圖10 規(guī)則耦合模塊參與博弈過(guò)程Fig.10 Game process with rule coupling

在決策階段,根據(jù)無(wú)人機(jī)在環(huán)境中的狀態(tài)對(duì)算法輸出的動(dòng)作序列和規(guī)則耦合模塊輸出的動(dòng)作序列進(jìn)行評(píng)估以選擇實(shí)際動(dòng)作序列的方法在網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程中通常能夠起到較好的指導(dǎo)作用[30]。

轉(zhuǎn)移狀態(tài)預(yù)測(cè)模塊基于無(wú)人機(jī)當(dāng)前的局部狀態(tài)對(duì)執(zhí)行規(guī)則耦合模塊輸出的基本動(dòng)作序列aRule和Actor網(wǎng)絡(luò)輸出的基本動(dòng)作序列aActor后的轉(zhuǎn)移狀態(tài)進(jìn)行預(yù)測(cè);動(dòng)作選擇模塊則基于預(yù)測(cè)轉(zhuǎn)移狀態(tài)的獎(jiǎng)勵(lì)勢(shì)函數(shù)和對(duì)進(jìn)行采樣以生成執(zhí)行動(dòng)作序列aExe,對(duì)基本動(dòng)作序列的采樣概率為

式中:P(aRule)、P(aActor)為規(guī)則耦合模塊和Actor網(wǎng)絡(luò)輸出基本動(dòng)作序列的采樣概率,由動(dòng)作選擇模塊計(jì)算;λe為模塊依賴(lài)參數(shù),其值隨著網(wǎng)絡(luò)訓(xùn)練幕數(shù)p的增加而逐漸衰減。動(dòng)作采樣概率表明,在網(wǎng)絡(luò)模型的訓(xùn)練過(guò)程中,無(wú)人機(jī)對(duì)規(guī)則耦合模塊的依賴(lài)程度降低,決策機(jī)制逐漸放棄對(duì)保守策略的依賴(lài)并開(kāi)始對(duì)復(fù)雜度更高的戰(zhàn)術(shù)性策略進(jìn)行探索,即網(wǎng)絡(luò)學(xué)習(xí)對(duì)“搜索”策略和“開(kāi)發(fā)”策略的平衡。

規(guī)則耦合模塊中集成的約束規(guī)則觸發(fā)條件如圖11所示。

圖11 約束規(guī)則觸發(fā)條件示意Fig.11 Diagram of constraint trigger conditions

規(guī)則耦合模塊針對(duì)出界、追蹤、逃逸和鎖定4種情況制定了約束規(guī)則。當(dāng)無(wú)人機(jī)與邊界的距離小于邊界安全距離dbou(m)時(shí),規(guī)則耦合模塊的出界約束參與規(guī)則耦合,模塊輸出的動(dòng)作序列使無(wú)人機(jī)沿遠(yuǎn)離邊界方向以最大加速度運(yùn)動(dòng);當(dāng)無(wú)人機(jī)與目標(biāo)無(wú)人機(jī)的距離大于探索距離dexp(m)時(shí),無(wú)人機(jī)執(zhí)行未完成訓(xùn)練的Actor網(wǎng)絡(luò)輸出的動(dòng)作序列通常會(huì)導(dǎo)致無(wú)價(jià)值經(jīng)驗(yàn)增加,此時(shí)規(guī)則耦合模塊的追蹤約束參與規(guī)則耦合,模塊輸出的動(dòng)作序列使無(wú)人機(jī)直接向目標(biāo)無(wú)人機(jī)靠近;當(dāng)無(wú)人機(jī)與任一敵方無(wú)人機(jī)距離小于危險(xiǎn)距離ddan(m)且敵方無(wú)人機(jī)位于當(dāng)前無(wú)人機(jī)的受威脅區(qū)時(shí),規(guī)則耦合模塊的逃逸約束參與規(guī)則耦合,模塊輸出的動(dòng)作序列使無(wú)人機(jī)向遠(yuǎn)離構(gòu)成威脅的敵方無(wú)人機(jī)的方向以最大加速度運(yùn)動(dòng);當(dāng)無(wú)人機(jī)與目標(biāo)無(wú)人機(jī)的距離小于攻擊距離datt時(shí),規(guī)則耦合模塊的鎖定約束參與規(guī)則耦合,模塊輸出的動(dòng)作序列使無(wú)人機(jī)的速度矢量、目標(biāo)線和目標(biāo)無(wú)人機(jī)的速度矢量盡可能位于同一直線。

3.4 網(wǎng)絡(luò)訓(xùn)練-重要性權(quán)重耦合的經(jīng)驗(yàn)優(yōu)先回放采樣

原始的經(jīng)驗(yàn)回放機(jī)制可以解釋為將每一步博弈產(chǎn)生的經(jīng)驗(yàn)元組存入經(jīng)驗(yàn)池,而在網(wǎng)絡(luò)參數(shù)更新時(shí)則以均勻采樣的方式隨機(jī)抽取多個(gè)訓(xùn)練元組進(jìn)行策略改進(jìn)。經(jīng)驗(yàn)回放機(jī)制的引入,在提高經(jīng)驗(yàn)利用率的同時(shí)降低了經(jīng)驗(yàn)池中各經(jīng)驗(yàn)元組間的關(guān)聯(lián)度,進(jìn)而提升了網(wǎng)絡(luò)訓(xùn)練效率[31]。

為了讓無(wú)人機(jī)的網(wǎng)絡(luò)模型能夠?qū)Τ晒魵撤綗o(wú)人機(jī)的優(yōu)質(zhì)經(jīng)驗(yàn)進(jìn)行優(yōu)先學(xué)習(xí),優(yōu)先經(jīng)驗(yàn)回放機(jī)制(prioritized experience replay, PER)根據(jù)每個(gè)經(jīng)驗(yàn)元組的TD-Error絕對(duì)值|δk|的大小為其分配優(yōu)先級(jí),TD-Error為

TD-Error可以隱含地反映智能體從經(jīng)驗(yàn)中學(xué)習(xí)的程度,從而使網(wǎng)絡(luò)評(píng)估結(jié)果更符合未來(lái)數(shù)據(jù)的趨勢(shì)。較大的TD-Error表明Target網(wǎng)絡(luò)的評(píng)估值與該狀態(tài)的實(shí)際價(jià)值之間存在顯著差異,因此算法需要增加對(duì)該經(jīng)驗(yàn)元組的采樣頻率,以盡快更新Target網(wǎng)絡(luò)和Online網(wǎng)絡(luò)的參數(shù)從而達(dá)到最佳訓(xùn)練效果。根據(jù)PER機(jī)制定義的經(jīng)驗(yàn)抽取概率為

式中:rank(ek)為所有經(jīng)驗(yàn)根據(jù)其TD-Error絕對(duì)值進(jìn)行由大到小排序后經(jīng)驗(yàn)ek對(duì)應(yīng)的序號(hào),參數(shù)α∈[0,1]決定采樣依賴(lài)優(yōu)先級(jí)的程度,當(dāng)α=0時(shí),經(jīng)驗(yàn)回放將完全采用均勻采樣的方式抽取經(jīng)驗(yàn)。從采樣概率的定義可以看出,即使是TD-Error絕對(duì)值較小的經(jīng)驗(yàn)也可能會(huì)被抽取,這種非零的概率分布確保了采樣經(jīng)驗(yàn)的多樣性,防止網(wǎng)絡(luò)訓(xùn)練產(chǎn)生過(guò)擬合問(wèn)題。

雖然根據(jù)PER機(jī)制抽取經(jīng)驗(yàn)?zāi)軌驗(yàn)樗薪?jīng)驗(yàn)分配合適的抽取概率,但TD-Error絕對(duì)值較高的經(jīng)驗(yàn)通常會(huì)被更頻繁地抽取,即各個(gè)經(jīng)驗(yàn)被采樣的頻率會(huì)產(chǎn)生嚴(yán)重的不均衡問(wèn)題,這不僅會(huì)導(dǎo)致訓(xùn)練過(guò)程出現(xiàn)振蕩或發(fā)散的不穩(wěn)定問(wèn)題,甚至仍無(wú)法避免網(wǎng)絡(luò)的訓(xùn)練產(chǎn)生過(guò)擬合問(wèn)題或陷入局部最優(yōu)問(wèn)題[32-33]。

本文中,在PER的基礎(chǔ)上,為每條經(jīng)驗(yàn)分配一個(gè)重要性權(quán)重wk,使網(wǎng)絡(luò)在訓(xùn)練階段的經(jīng)驗(yàn)抽取更加偏向于有較大的學(xué)習(xí)價(jià)值的經(jīng)驗(yàn)而又不完全舍棄無(wú)效的探索經(jīng)驗(yàn),重要性權(quán)重為

式中:S為經(jīng)驗(yàn)池的大??;參數(shù)β∈[0,1]用于控制經(jīng)驗(yàn)ek的重要性權(quán)重wk對(duì)網(wǎng)絡(luò)學(xué)習(xí)的影響,隨著β的增加,經(jīng)驗(yàn)池中高優(yōu)先級(jí)經(jīng)驗(yàn)的重要性權(quán)重幾乎不變,而低優(yōu)先級(jí)經(jīng)驗(yàn)的重要性權(quán)重則會(huì)大幅增長(zhǎng);p為仿真博弈的幕數(shù);參數(shù)η∈[0,1]用于控制規(guī)則耦合模塊生成的偽經(jīng)驗(yàn)的重要性權(quán)重對(duì)網(wǎng)絡(luò)學(xué)習(xí)的影響;pk為ek的偽經(jīng)驗(yàn)標(biāo)志位,若ek來(lái)自規(guī)則耦合模塊則pk為1,否則pk為0,隨著p的增加,偽經(jīng)驗(yàn)的重要性權(quán)重將逐漸減小,即網(wǎng)絡(luò)學(xué)習(xí)對(duì)偽經(jīng)驗(yàn)的依賴(lài)程度將逐漸降低。在完成一個(gè)樣本批次(one batch)的抽取后,算法會(huì)計(jì)算批次中所有經(jīng)驗(yàn)的重要性權(quán)重并對(duì)其進(jìn)行歸一化處理,最終根據(jù)采樣經(jīng)驗(yàn)及其重要性權(quán)重對(duì)用于Critic網(wǎng)絡(luò)更新的損失函數(shù)進(jìn)行計(jì)算,重要性權(quán)重耦合的損失函數(shù)為

式中:K為一個(gè)樣本批次所抽取的經(jīng)驗(yàn)數(shù)(batch size),為歸一化重要性權(quán)重。

如果在每次采樣時(shí)均對(duì)經(jīng)驗(yàn)池中所有經(jīng)驗(yàn)的抽取概率進(jìn)行計(jì)算,則需要消耗巨大的計(jì)算量,導(dǎo)致訓(xùn)練速度大幅降低。本文中,改進(jìn)算法使用小批量抽取并逐漸累積經(jīng)驗(yàn)的方法進(jìn)行經(jīng)驗(yàn)抽取以減少每次訓(xùn)練網(wǎng)絡(luò)所需的計(jì)算量。每一輪從經(jīng)驗(yàn)池中僅抽取M條經(jīng)驗(yàn)并計(jì)算其抽取概率,依據(jù)概率進(jìn)行經(jīng)驗(yàn)抽取后,若累積抽取經(jīng)驗(yàn)數(shù)已經(jīng)達(dá)到一個(gè)樣本批次的經(jīng)驗(yàn)數(shù),則停止采樣,否則繼續(xù)下一輪采樣。每存儲(chǔ)一條經(jīng)驗(yàn)的同時(shí),算法還會(huì)計(jì)算其重要性權(quán)重wk并將其與經(jīng)驗(yàn)元組一同存入本次采樣的樣本批次中。經(jīng)驗(yàn)采樣過(guò)程如圖12所示。

圖12 重要性權(quán)重耦合的經(jīng)驗(yàn)采樣流程Fig.12 Experience sampling process based on importance weights

3.5 算法流程設(shè)計(jì)

在本實(shí)驗(yàn)初始階段,算法運(yùn)行子博弈場(chǎng)景以進(jìn)行子網(wǎng)絡(luò)的預(yù)訓(xùn)練,子網(wǎng)絡(luò)完成在3個(gè)子博弈場(chǎng)景中的預(yù)訓(xùn)練后即可被遷移至完整的目標(biāo)博弈場(chǎng)景中以進(jìn)行進(jìn)一步的網(wǎng)絡(luò)訓(xùn)練。本文中,當(dāng)無(wú)人機(jī)數(shù)量衰減時(shí),用于決策的子網(wǎng)絡(luò)也需要同時(shí)切換。無(wú)模型的MADRL算法通常需要大量的訓(xùn)練已學(xué)習(xí)最優(yōu)策略,而無(wú)人機(jī)通常需要耗費(fèi)大量的時(shí)間對(duì)具有高維狀態(tài)-動(dòng)作空間的復(fù)雜環(huán)境進(jìn)行探索,導(dǎo)致訓(xùn)練效果難以得到有效提升。直接在目標(biāo)場(chǎng)景中對(duì)所有子網(wǎng)絡(luò)進(jìn)行串行訓(xùn)練的方法通常會(huì)導(dǎo)致子博弈場(chǎng)景過(guò)早結(jié)束,難以積累有效的學(xué)習(xí)經(jīng)驗(yàn)?;谏鲜鰡?wèn)題,子網(wǎng)絡(luò)的訓(xùn)練將采用“子場(chǎng)景遷移訓(xùn)練-目標(biāo)場(chǎng)景聯(lián)合訓(xùn)練”的訓(xùn)練優(yōu)化方法。遷移學(xué)習(xí)的核心思想是將智能體針對(duì)簡(jiǎn)單任務(wù)的學(xué)習(xí)所獲得的知識(shí)應(yīng)用到對(duì)相關(guān)性較高的復(fù)雜任務(wù)的學(xué)習(xí)中[34]。本文中,各個(gè)子網(wǎng)絡(luò)分別在其對(duì)應(yīng)的博弈場(chǎng)景中進(jìn)行訓(xùn)練屬于簡(jiǎn)單任務(wù),所有子網(wǎng)絡(luò)在相互銜接的博弈場(chǎng)景中進(jìn)行訓(xùn)練則屬于復(fù)雜任務(wù),2個(gè)學(xué)習(xí)任務(wù)雖然有所差異卻具有較高的相似性,因此相比于直接訓(xùn)練由2-vs-2博弈場(chǎng)景開(kāi)始直到某一方無(wú)人機(jī)被全部擊毀的復(fù)雜任務(wù),將各個(gè)博弈場(chǎng)景作為遷移場(chǎng)景分別進(jìn)行訓(xùn)練并逐漸過(guò)渡到目標(biāo)場(chǎng)景訓(xùn)練,即簡(jiǎn)單任務(wù)向復(fù)雜任務(wù)遷移訓(xùn)練的方式能夠?qū)崿F(xiàn)知識(shí)的繼承,從而取得更好的訓(xùn)練效果。訓(xùn)練子網(wǎng)絡(luò)由遷移場(chǎng)景向目標(biāo)場(chǎng)景過(guò)渡的流程如圖13所示。

圖13 遷移場(chǎng)景訓(xùn)練流程Fig.13 Migration scenario training process

4 實(shí)驗(yàn)設(shè)置

本文實(shí)驗(yàn)中的環(huán)境參數(shù)如表2所示,算法的超參數(shù)設(shè)置如表3所示。當(dāng)無(wú)人機(jī)的位置超出博弈區(qū)域時(shí),無(wú)人機(jī)被判定為出界。當(dāng)無(wú)人機(jī)的動(dòng)作序列使其絕對(duì)速度超出上限時(shí),無(wú)人機(jī)的絕對(duì)速度大小將會(huì)被限制在最大值而僅按照vx和vy的比例改變方向。

表2 環(huán)境參數(shù)設(shè)置Table 2 Environment parameter settings

表3 超參數(shù)設(shè)置Table 3 Hyperparameter settings

各個(gè)子網(wǎng)絡(luò)模型的Critic網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)如表4所示,Actor網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)如表5所示。

表4 Critic子網(wǎng)絡(luò)結(jié)構(gòu)Table 4 Critic subnetwork structure

表5 Actor子網(wǎng)絡(luò)結(jié)構(gòu)Table 5 Actor subnetwork structure

5 仿真實(shí)驗(yàn)

5.1 訓(xùn)練過(guò)程

基于MADRL的多無(wú)人機(jī)博弈對(duì)抗算法以最大化參與博弈的無(wú)人機(jī)獲得的累積獎(jiǎng)勵(lì)值為學(xué)習(xí)目標(biāo)。平均獎(jiǎng)勵(lì)是一幕博弈的每一步所獲得獎(jiǎng)勵(lì)的平均值,平均獎(jiǎng)勵(lì)收斂速度越快、收斂平穩(wěn)性越好說(shuō)明網(wǎng)絡(luò)的訓(xùn)練效果越好。在本實(shí)驗(yàn)中,每完成100幕網(wǎng)絡(luò)訓(xùn)練即運(yùn)行一幕測(cè)試博弈,并計(jì)算測(cè)試環(huán)境中無(wú)人機(jī)的平均獎(jiǎng)勵(lì)。

在3.1節(jié)中提出的3個(gè)遷移場(chǎng)景中,分別使用本文提出的改進(jìn)MADDPG算法、基于獎(jiǎng)勵(lì)勢(shì)函數(shù)的MADDPG算法(MADDPG-I)、基于規(guī)則耦合方法的MADDPG算法(MADDPG-II)、重要性權(quán)重耦合的PER-MADDPG算法(MADDPG-III)和原始的MADDPG算法對(duì)場(chǎng)景中的子網(wǎng)絡(luò)進(jìn)行訓(xùn)練并通過(guò)對(duì)比無(wú)人機(jī)的平均獎(jiǎng)勵(lì)曲線以驗(yàn)證各改進(jìn)方法的有效性。與上述5種算法對(duì)應(yīng)的平均獎(jiǎng)勵(lì)曲線如圖14所示。

圖14 改進(jìn)方案平均獎(jiǎng)勵(lì)曲線Fig.14 Average reward curve of plans

分析圖14中數(shù)據(jù)可知,上述3種改進(jìn)方案均能夠提升原始MADDPG算法的網(wǎng)絡(luò)訓(xùn)練效率,但是算法的性能無(wú)法得到顯著的提升。聯(lián)合3種方案的改進(jìn)算法則能夠通過(guò)改進(jìn)方案的相互輔助以大幅提升算法的性能。

在3個(gè)遷移場(chǎng)景中,分別使用傳統(tǒng)的MADDPG算法、PER-MADDPG算法、H-MADDPG算法和改進(jìn)MADDPG算法對(duì)場(chǎng)景中的子網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練并繪制4種算法的平均獎(jiǎng)勵(lì)曲線以驗(yàn)證改進(jìn)算法的性能。上述4種算法中,PER-MADDPG算法將PER機(jī)制與傳統(tǒng)的MADDPG算法結(jié)合以提升網(wǎng)絡(luò)學(xué)習(xí)效率[35];H-MADDPG算法將線性獎(jiǎng)勵(lì)函數(shù)和“后知后覺(jué)單元”引入MADDPG算法,線性獎(jiǎng)勵(lì)函數(shù)為訓(xùn)練經(jīng)驗(yàn)引入了連續(xù)獎(jiǎng)勵(lì)值,一定程度上解決了稀疏獎(jiǎng)勵(lì)問(wèn)題,提升了網(wǎng)絡(luò)訓(xùn)練效率,“后知后覺(jué)單元”則在一幕仿真結(jié)束后對(duì)經(jīng)驗(yàn)序列進(jìn)行分析并生成相對(duì)成功的偽經(jīng)驗(yàn),偽經(jīng)驗(yàn)與真實(shí)經(jīng)驗(yàn)同時(shí)被存入經(jīng)驗(yàn)池并參與經(jīng)驗(yàn)回放,提升了算法對(duì)先驗(yàn)知識(shí)的利用率;改進(jìn)MADDPG算法在原始算法的基礎(chǔ)上引入規(guī)則耦合模塊并基于勢(shì)函數(shù)對(duì)算法的獎(jiǎng)勵(lì)機(jī)制進(jìn)行設(shè)計(jì),同時(shí)采用重要性權(quán)重耦合的PER方法對(duì)原始算法進(jìn)行改進(jìn)。子網(wǎng)絡(luò)在各個(gè)子博弈場(chǎng)景中的訓(xùn)練效果如圖15所示。

圖15 改進(jìn)算法平均獎(jiǎng)勵(lì)曲線Fig.15 Average reward curve of algorithms

對(duì)平均獎(jiǎng)勵(lì)曲線的信息進(jìn)行分析,計(jì)算各算法的評(píng)價(jià)指標(biāo),各算法的收斂均值和收斂時(shí)間如表6所示。

表6 算法收斂情況Table 6 Algorithm convergence

聯(lián)合分析圖15和表6中的數(shù)據(jù)可知,相比于3個(gè)對(duì)比算法,改進(jìn)算法具有更高的優(yōu)越性。在1-vs-1子博弈場(chǎng)景和2-vs-2子博弈場(chǎng)景中,與改進(jìn)算法對(duì)應(yīng)的平均獎(jiǎng)勵(lì)曲線收斂更快且曲線收斂后具有更加良好的平穩(wěn)性,其平均獎(jiǎng)勵(lì)值基準(zhǔn)線始終保持在與對(duì)比算法對(duì)應(yīng)的平均獎(jiǎng)勵(lì)值基準(zhǔn)線之上。

5.2 測(cè)試結(jié)果

在無(wú)人機(jī)的策略模型收斂后,為研究與改進(jìn)對(duì)應(yīng)的策略模型在博弈對(duì)抗中的表現(xiàn),以進(jìn)一步驗(yàn)證基于規(guī)則耦合的多異構(gòu)子網(wǎng)絡(luò)MADDPG算法在多無(wú)人機(jī)博弈對(duì)抗問(wèn)題中的優(yōu)勢(shì),實(shí)驗(yàn)將在測(cè)試環(huán)境中運(yùn)行150幕完整的博弈對(duì)抗場(chǎng)景以相對(duì)直觀地表明根據(jù)改進(jìn)算法進(jìn)行訓(xùn)練的Actor網(wǎng)絡(luò)的優(yōu)越性。本文從大量無(wú)人機(jī)博弈軌跡圖中選擇了一組具有代表性的軌跡數(shù)據(jù)進(jìn)行分析,如圖16所示。

圖16 目標(biāo)博弈場(chǎng)景博弈軌跡Fig.16 Game curves in target game scenarios

測(cè)試博弈場(chǎng)景中,紅方無(wú)人機(jī)使用以改進(jìn)算法進(jìn)行訓(xùn)練的Actor網(wǎng)絡(luò)作為決策網(wǎng)絡(luò)且引入規(guī)則耦合模塊輔助網(wǎng)絡(luò)決策而藍(lán)方無(wú)人機(jī)分別使用以傳統(tǒng)的MADDPG算法、H-MADDPG算法、PERMADDPG算法和RS-MADDPG算法進(jìn)行訓(xùn)練的Actor網(wǎng)絡(luò)作為決策網(wǎng)絡(luò)且不引入任何輔助模塊。如引言所述,RS-MADDPG算法對(duì)無(wú)人機(jī)博弈對(duì)抗環(huán)境進(jìn)行了完整的建模并引入了優(yōu)化獎(jiǎng)勵(lì)機(jī)制以提升網(wǎng)絡(luò)的訓(xùn)練效率和無(wú)人機(jī)Actor網(wǎng)絡(luò)的決策能力。

初步分析無(wú)人機(jī)軌跡可知,以改進(jìn)算法進(jìn)行訓(xùn)練的網(wǎng)絡(luò)模型能夠使無(wú)人機(jī)有效避免出界問(wèn)題,模型具有一定的智能性且無(wú)人機(jī)在分工、合作等方面均表現(xiàn)出了良好的決策能力。在目標(biāo)博弈場(chǎng)景01和目標(biāo)博弈場(chǎng)景04中,紅方無(wú)人機(jī)具有相同的目標(biāo)無(wú)人機(jī),故團(tuán)隊(duì)以合作的方式對(duì)藍(lán)方無(wú)人機(jī)實(shí)施打擊;在目標(biāo)博弈場(chǎng)景02和目標(biāo)博弈場(chǎng)景03中,紅方無(wú)人機(jī)的目標(biāo)無(wú)人機(jī)不同,故團(tuán)隊(duì)以分工的方式分別對(duì)各自的目標(biāo)無(wú)人機(jī)實(shí)施打擊;在目標(biāo)博弈場(chǎng)景05和目標(biāo)博弈場(chǎng)景06中,紅方無(wú)人機(jī)則利用環(huán)境因素,將藍(lán)方無(wú)人機(jī)驅(qū)趕至邊界以完成對(duì)抗任務(wù),即將目標(biāo)無(wú)人機(jī)逼入絕境。在目標(biāo)博弈場(chǎng)景07和目標(biāo)博弈場(chǎng)景08中,紅方無(wú)人機(jī)則展現(xiàn)出了更加智能靈活的博弈策略,無(wú)人機(jī)通過(guò)學(xué)習(xí)已經(jīng)能夠?qū)⒎止?、合作以及圍捕等基礎(chǔ)策略進(jìn)行結(jié)合并應(yīng)用于部分目標(biāo)場(chǎng)景中。

為了研究策略模型在收斂后的表現(xiàn),進(jìn)一步驗(yàn)證以改進(jìn)算法訓(xùn)練的網(wǎng)絡(luò)模型在多無(wú)人機(jī)博弈對(duì)抗問(wèn)題中的決策優(yōu)勢(shì),實(shí)驗(yàn)對(duì)150幕完整博弈過(guò)程中紅、藍(lán)兩方無(wú)人機(jī)的仿真對(duì)抗數(shù)據(jù)進(jìn)行統(tǒng)計(jì)。

測(cè)試實(shí)驗(yàn)中,博弈場(chǎng)景中紅方無(wú)人機(jī)使用以改進(jìn)算法進(jìn)行訓(xùn)練的Actor網(wǎng)絡(luò)作為決策網(wǎng)絡(luò),且引入規(guī)則耦合模塊輔助網(wǎng)絡(luò)決策,而藍(lán)方無(wú)人機(jī)分別使用以傳統(tǒng)的MADDPG算法、PER-MADDPG算法、H-MADDPG算法和RS-MADDPG算法進(jìn)行訓(xùn)練的Actor網(wǎng)絡(luò)作為決策網(wǎng)絡(luò)且不引入任何輔助模塊。雙方在2-vs-1子博弈場(chǎng)景、1-vs-2子博弈場(chǎng)景和目標(biāo)博弈場(chǎng)景中的對(duì)抗結(jié)果見(jiàn)圖17~19。

圖17 2-vs-1子博弈場(chǎng)景對(duì)抗數(shù)據(jù)統(tǒng)計(jì)Fig.17 Statistical data in 2-vs-1 scenarios

圖18 1-vs-2子博弈場(chǎng)景對(duì)抗數(shù)據(jù)統(tǒng)計(jì)Fig.18 Statistical data in 1-vs-2 scenarios

綜合分析圖17~19中的數(shù)據(jù)和仿真軌跡圖可知,使用以改進(jìn)算法進(jìn)行訓(xùn)練的策略模型進(jìn)行決策的紅方無(wú)人機(jī)在博弈過(guò)程中的出界次數(shù)較少且具有更強(qiáng)的追蹤打擊能力和安全逃逸能力,即使紅方無(wú)人機(jī)處于1-vs-2的劣勢(shì)下,其策略模型仍然能夠?qū)俾士刂圃?0%左右,而使用以原始算法進(jìn)行訓(xùn)練的策略模型進(jìn)行決策的藍(lán)方無(wú)人機(jī)的博弈對(duì)抗能力相對(duì)較弱且出界次數(shù)較多,以其他對(duì)比算法進(jìn)行訓(xùn)練的策略模型的博弈對(duì)抗能力雖然優(yōu)于以原始的MADDPG算法進(jìn)行訓(xùn)練的策略模型但仍然無(wú)法完全超越以改進(jìn)MADDPG算法進(jìn)行訓(xùn)練的策略模型。

6 結(jié)束語(yǔ)

本文針對(duì)基于MADRL的多無(wú)人機(jī)博弈對(duì)抗問(wèn)題進(jìn)行研究,建立了與真實(shí)空戰(zhàn)場(chǎng)景相似度較高的2-vs-2無(wú)人機(jī)博弈對(duì)抗場(chǎng)景。首先,對(duì)經(jīng)典的MADDPG算法進(jìn)行介紹并提出了算法在多無(wú)人機(jī)博弈對(duì)抗環(huán)境應(yīng)用中存在的問(wèn)題。其次,針對(duì)文中提出的問(wèn)題對(duì)MADDPG算法進(jìn)行改進(jìn),為算法設(shè)計(jì)異構(gòu)子網(wǎng)絡(luò)和規(guī)則耦合模塊并引入獎(jiǎng)勵(lì)勢(shì)函數(shù)以生成優(yōu)質(zhì)經(jīng)驗(yàn),同時(shí)設(shè)計(jì)了重要性權(quán)重耦合的PER方法以提高優(yōu)勢(shì)經(jīng)驗(yàn)的利用率。最后,仿真實(shí)驗(yàn)結(jié)果表明:

1) 規(guī)則耦合模塊能夠?yàn)樗惴ㄒ敫鼉?yōu)質(zhì)的經(jīng)驗(yàn),提升了網(wǎng)絡(luò)模型的收斂速度和決策能力。在無(wú)人機(jī)的決策過(guò)程中,模塊也能夠起到良好的輔助作用。

2) 對(duì)博弈任務(wù)進(jìn)行分解并引入子網(wǎng)絡(luò)的方法能夠在不增加網(wǎng)絡(luò)學(xué)習(xí)所需計(jì)算量的同時(shí)解決無(wú)人機(jī)團(tuán)隊(duì)在博弈過(guò)程中的團(tuán)隊(duì)成員數(shù)量動(dòng)態(tài)衰減問(wèn)題,可以滿(mǎn)足小規(guī)模無(wú)人機(jī)團(tuán)隊(duì)博弈對(duì)抗任務(wù)的需求且不會(huì)引入冗余信息或丟失特征信息。

3) 以勢(shì)函數(shù)構(gòu)建的獎(jiǎng)勵(lì)機(jī)制解決了網(wǎng)絡(luò)模型學(xué)習(xí)過(guò)程中的稀疏獎(jiǎng)勵(lì)問(wèn)題,對(duì)網(wǎng)絡(luò)參數(shù)迭代能夠起到良好的指導(dǎo)作用。

4) 重要性權(quán)重耦合的PER機(jī)制使算法能夠優(yōu)先抽取TD-Error較大的經(jīng)驗(yàn)以對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練且未完全放棄對(duì)探索經(jīng)驗(yàn)的參考,隨著學(xué)習(xí)時(shí)間的增加,重要性權(quán)重使網(wǎng)絡(luò)學(xué)習(xí)對(duì)規(guī)則耦合模塊的依賴(lài)程度逐漸降低,提升了網(wǎng)絡(luò)學(xué)習(xí)效率。

雖然算法在多無(wú)人機(jī)博弈對(duì)抗問(wèn)題中取得了良好的學(xué)習(xí)效果,但當(dāng)無(wú)人機(jī)數(shù)量增加時(shí)異構(gòu)子網(wǎng)絡(luò)的數(shù)量也會(huì)大幅增加。如果將大型無(wú)人機(jī)編隊(duì)劃分為多個(gè)小型編隊(duì)并為若干小型編隊(duì)分配相同的專(zhuān)屬任務(wù),則可以使一個(gè)或多個(gè)小型編隊(duì)專(zhuān)注于完成全局任務(wù)的一部分即專(zhuān)注于完成子任務(wù)。在訓(xùn)練階段,算法需要為具有相同子任務(wù)的小型編隊(duì)設(shè)置局部Critic網(wǎng)絡(luò)并為全體無(wú)人機(jī)構(gòu)成的大型無(wú)人機(jī)編隊(duì)設(shè)計(jì)全局Critic網(wǎng)絡(luò),而不需要對(duì)小型編隊(duì)內(nèi)無(wú)人機(jī)的Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)進(jìn)行額外的修改。在今后的研究中將基于上述方案對(duì)算法進(jìn)行進(jìn)一步優(yōu)化以使其適用于更大規(guī)模的多無(wú)人機(jī)博弈對(duì)抗任務(wù)。

猜你喜歡
勢(shì)函數(shù)耦合經(jīng)驗(yàn)
航天器姿態(tài)受限的協(xié)同勢(shì)函數(shù)族設(shè)計(jì)方法
非Lipschitz條件下超前帶跳倒向耦合隨機(jī)微分方程的Wong-Zakai逼近
數(shù)學(xué)理論與應(yīng)用(2022年1期)2022-04-15 09:03:32
2021年第20期“最值得推廣的經(jīng)驗(yàn)”評(píng)選
黨課參考(2021年20期)2021-11-04 09:39:46
金屬鎢級(jí)聯(lián)碰撞中勢(shì)函數(shù)的影響
經(jīng)驗(yàn)
2018年第20期“最值得推廣的經(jīng)驗(yàn)”評(píng)選
黨課參考(2018年20期)2018-11-09 08:52:36
SOME RESULTS OF WEAKLY f-STATIONARY MAPS WITH POTENTIAL
基于“殼-固”耦合方法模擬焊接裝配
大型鑄鍛件(2015年5期)2015-12-16 11:43:20
當(dāng)你遇見(jiàn)了“零經(jīng)驗(yàn)”的他
都市麗人(2015年4期)2015-03-20 13:33:22
内丘县| 拉萨市| 奉贤区| 九台市| 芒康县| 萨迦县| 永安市| 南木林县| 太康县| 黑龙江省| 青海省| 南陵县| 青铜峡市| 绍兴县| 仙居县| 锦州市| 兰考县| 沅江市| 中山市| 菏泽市| 辽源市| 托克逊县| 安塞县| 佛山市| 桦甸市| 宾川县| 荣成市| 邵武市| 兴仁县| 溧阳市| 徐闻县| 工布江达县| 团风县| 竹北市| 临澧县| 巴彦淖尔市| 潮州市| 长寿区| 改则县| 揭西县| 上杭县|