摘 要:典型基于深度強(qiáng)化學(xué)習(xí)的多智能體對抗策略生成方法采用“分總” 框架,各智能體基于部分可觀測信息生成策略并進(jìn)行決策,缺乏從整體角度生成對抗策略的能力,大大限制了決策能力。為了解決該問題,基于分層強(qiáng)化學(xué)習(xí)提出改進(jìn)的多智能體博弈策略生成方法?;诜謱訌?qiáng)化學(xué)習(xí)構(gòu)建觀測信息到整體價(jià)值的決策映射,以最大化整體價(jià)值作為目標(biāo)構(gòu)建優(yōu)化問題,并推導(dǎo)了策略優(yōu)化過程,為后續(xù)框架結(jié)構(gòu)和方法實(shí)現(xiàn)的設(shè)計(jì)提供了理論依據(jù);基于決策映射與優(yōu)化問題構(gòu)建,采用神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)了模型框架,詳細(xì)闡述了頂層策略控制模型和個(gè)體策略執(zhí)行模型;基于策略優(yōu)化方法,給出詳細(xì)訓(xùn)練流程和算法流程;采用星際爭霸多智能體對抗(StarCraft Multi-Agent Challenge,SMAC)環(huán)境,與典型多智能體方法進(jìn)行性能對比。實(shí)驗(yàn)結(jié)果表明,該方法能夠有效生成對抗策略,控制異構(gòu)多智能體戰(zhàn)勝預(yù)設(shè)對手策略,相比典型多智能體強(qiáng)化學(xué)習(xí)方法性能提升明顯。
關(guān)鍵詞:分層強(qiáng)化學(xué)習(xí);多智能體博弈;深度神經(jīng)網(wǎng)絡(luò)
中圖分類號:TN929. 5 文獻(xiàn)標(biāo)志碼:A 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
文章編號:1003-3106(2024)06-1361-07
0 引言
策略生成技術(shù)是指通過計(jì)算或?qū)W習(xí),生成用于指導(dǎo)決策策略的方法和技術(shù)。隨著人工智能技術(shù)的不斷發(fā)展,策略生成技術(shù)被廣泛應(yīng)用于解決各種復(fù)雜的問題。策略通常是一個(gè)映射,將環(huán)境的狀態(tài)映射到可能的行動(dòng)或決策,以最大化某種目標(biāo)函數(shù)(如累積獎(jiǎng)勵(lì)、成功率等)。相比于利用并且依靠專家經(jīng)驗(yàn)和領(lǐng)域知識的策略生成方法,基于海量數(shù)據(jù)的智能決策降低了知識門檻,并且過程更加客觀,避免主觀因素影響[1],特別是在零和對抗場景中[2-3]。因此,當(dāng)前智能博弈策略生成技術(shù)已經(jīng)廣泛應(yīng)用于無人機(jī)協(xié)同對抗[4]、通信智能抗干擾[5]和智能協(xié)同欺騙[6]等電磁頻譜作戰(zhàn)任務(wù)中。
當(dāng)前,主流策略生成技術(shù)采用深度強(qiáng)化學(xué)習(xí)方法[7],根據(jù)方法結(jié)構(gòu)和應(yīng)對受控體數(shù)量,可以分為集中式方法和分布式方法。集中式方法統(tǒng)一匯集觀測信息并完成所有受控實(shí)體的動(dòng)作映射。特別是基于Deep QNetwork (DQN)方法的集中式方法在電磁頻譜規(guī)劃等場景中獲得良好表現(xiàn)[8-10],得益于結(jié)構(gòu)良好的可擴(kuò)展和改進(jìn)性,能夠適應(yīng)多種狀態(tài)形式的觀測數(shù)據(jù),如圖形化的頻譜瀑布圖[11]、長短時(shí)高維數(shù)據(jù)[12]等。但是,隨著受控?cái)?shù)量的增加,集中式方法神經(jīng)網(wǎng)絡(luò)的神經(jīng)元數(shù)量將成指數(shù)上升,使得參數(shù)優(yōu)化效率變慢,策略生成性能變差,并且資源需求量大幅增加。
針對該缺點(diǎn),“集中式訓(xùn)練,分布式執(zhí)行”成為解決當(dāng)前問題的主流理念。分布式方法分別構(gòu)建對應(yīng)受控個(gè)體的觀測到動(dòng)作的映射網(wǎng)絡(luò),再構(gòu)建擬合網(wǎng)絡(luò)用于擬合個(gè)體動(dòng)作價(jià)值到整體價(jià)值的映射。將整體“大網(wǎng)絡(luò)”拆分成多個(gè)“小網(wǎng)絡(luò)”,避免了維度爆炸。但是,該方法的難點(diǎn)在于由個(gè)體動(dòng)作價(jià)值擬合整體價(jià)值。作為經(jīng)典方法Value-Decomposition Net-works(VDN)直接將個(gè)體動(dòng)作價(jià)值相加得到對整體價(jià)值。但是,并非所有個(gè)體都具有相同權(quán)重的動(dòng)作價(jià)值。特別是在異構(gòu)博弈對抗環(huán)境中,由于受控個(gè)體能力不同,權(quán)重必然不同。文獻(xiàn)[13]中,“QMIX”多智能體強(qiáng)化學(xué)習(xí)方法采用超神經(jīng)網(wǎng)絡(luò)的方法對于整體價(jià)值進(jìn)行了估計(jì),使得個(gè)體動(dòng)作價(jià)值到整體價(jià)值的映射具有非線性特性,有利于對整體價(jià)值的估計(jì)。文獻(xiàn)[14]中,“Qtran”方法在此改進(jìn)思路上進(jìn)一步延伸,通過構(gòu)建等價(jià)函數(shù)、改進(jìn)值分解等方法,提高了方法的適應(yīng)性,獲得更優(yōu)的效果。但是,該思路在全局信息的利用上存在缺點(diǎn)。個(gè)體只采用部分可觀察信息決策,協(xié)同能力是在訓(xùn)練過程中由整體價(jià)值分解得到的,以損失反饋的形式對各個(gè)體策略施加影響。在執(zhí)行過程中,難以實(shí)時(shí)利用全局信息或者由各實(shí)體觀測信息整合得到融合信息,影響決策性能。
針對該缺點(diǎn),以分層強(qiáng)化學(xué)習(xí)為核心的博弈策略生成方法成為研究重點(diǎn)[15]。該思路通過構(gòu)建頂層控制單元和個(gè)體執(zhí)行單元形成層級支配控制。頂層控制單元匯總個(gè)體信息并產(chǎn)生控制信息,控制個(gè)體基于部分可觀測信息決策。相比于典型多智能體深度強(qiáng)化學(xué)習(xí)方法,分層強(qiáng)化學(xué)習(xí)通過任務(wù)分配和組合形成整體策略。智能體在訓(xùn)練過程中能夠避免智能體策略同時(shí)更新,使得單一個(gè)體對于體系內(nèi)其他個(gè)體的策略擬合效率更高。文獻(xiàn)[16]在通信抗干擾領(lǐng)域中采用了該思想。首先,頂層控制模塊識別出當(dāng)前通信干擾樣式,再針對性調(diào)用抗干擾樣式。但是個(gè)體策略的抗干擾樣式需要提前人為設(shè)計(jì)。文獻(xiàn)[17]頂層控制單元和個(gè)體執(zhí)行單元均采用神經(jīng)網(wǎng)絡(luò),個(gè)體策略也由數(shù)據(jù)訓(xùn)練得到。上述2 種方法主要解決單一受控個(gè)體面對多任務(wù)情況下的策略生成問題,針對異構(gòu)多智能體問題需要對策略生成框架改造。
基于分層強(qiáng)化學(xué)習(xí),本文提出改進(jìn)的多智能體博弈策略生成方法。首先,基于深度神經(jīng)網(wǎng)絡(luò),構(gòu)造融合觀測信息的頂層策略控制模型,完成控制信息的生成。在結(jié)構(gòu)上,具有根據(jù)全局信息產(chǎn)生控制信息的能力。在訓(xùn)練過程中,能夠引導(dǎo)個(gè)體決策模型的生成。然后,將個(gè)體的部分觀察信息和控制信息映射為個(gè)體動(dòng)作價(jià)值。最后,融合個(gè)體動(dòng)作價(jià)值形成全局價(jià)值,并利用獎(jiǎng)賞函數(shù)對整個(gè)神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行優(yōu)化,達(dá)到博弈策略優(yōu)化的目的。
后續(xù)研究思路如下。首先,基于分層強(qiáng)化學(xué)習(xí)構(gòu)建觀測信息到整體價(jià)值的決策映射,以最大化整體價(jià)值作為目標(biāo)構(gòu)建優(yōu)化問題,并推導(dǎo)了策略優(yōu)化過程,為后續(xù)框架結(jié)構(gòu)和方法實(shí)現(xiàn)的設(shè)計(jì)提供了理論依據(jù);然后,基于決策映射與優(yōu)化問題構(gòu)建,采用神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)了模型框架,詳細(xì)闡述了頂層策略控制模型和個(gè)體策略執(zhí)行模型;再次,基于策略優(yōu)化方法,給出詳細(xì)訓(xùn)練流程和算法流程;最后,采用典型星際爭霸多智能體對抗(StarCraft Multi-Agent Chal-lenge,SMAC)環(huán)境,與典型多智能體方法進(jìn)行性能對比,驗(yàn)證方法性能,并總結(jié)全文。
1 策略生成原理
博弈對抗策略的實(shí)質(zhì)是完成觀測信息到動(dòng)作空間的影射,影射過程即為策略,而利用該過程得到動(dòng)作即為決策。基于深度神經(jīng)網(wǎng)絡(luò)的策略生成方法中的策略具象化是神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)絡(luò)參數(shù)。本文網(wǎng)絡(luò)結(jié)構(gòu)具體分為策略控制網(wǎng)絡(luò)和策略執(zhí)行網(wǎng)絡(luò)。在網(wǎng)絡(luò)結(jié)構(gòu)確定的情況下,對網(wǎng)絡(luò)參數(shù)進(jìn)行優(yōu)化即對策略優(yōu)化?;诖死砟睿竟?jié)詳細(xì)推導(dǎo)策略映射、優(yōu)化問題構(gòu)建和策略優(yōu)化方法。
1. 1 決策映射與優(yōu)化問題構(gòu)建
通過全局信息生成控制信息,并以控制信息對各智能體的策略形成過程施加影響,提高各智能體之間的協(xié)同能力。對于策略控制網(wǎng)絡(luò)模型f0 用于完成融合信息o0 到控制信息I 的映射:
I = f0,θ0(o0 ), (1)
式中:I = {In},n∈[1,N]表示擬合得到的控制信息,In 表示對應(yīng)N 個(gè)受控智能體;o0 表示各個(gè)智能體整合得到的全局信息,是多維矩陣形式[o1 ,…,on,…,oN],on 表示各智能體的觀測空間,即部分可觀測空間,n∈[1,N];θ0 表示深度神經(jīng)策略控制網(wǎng)絡(luò)參數(shù)。
在控制信息的影響下,能夠降低智能體對其他智能體策略估計(jì)的難度,降低了個(gè)體策略生成的難度。對于策略執(zhí)行網(wǎng)絡(luò)fn 用于實(shí)現(xiàn)控制信息I 和部分可觀測空間on 到離散動(dòng)作價(jià)值Qn 的影射。為了協(xié)同能力的提升,各個(gè)智能體均均等的拿到所有控制信息。
Qn = fn,θn(I,on ), (2)
式中:Qn 表示第n 個(gè)智能體離散動(dòng)作價(jià)值的集合{qa1 ,qa2 ,…,qam },θn 表示深度神經(jīng)策略執(zhí)行網(wǎng)絡(luò)參數(shù)。θ0 和θn 構(gòu)成整個(gè)模型的網(wǎng)絡(luò)參數(shù)θ。
從Qn 中選擇最大值所對應(yīng)的離散動(dòng)作am′[18]:
am′ = argmax m Qn , (3)
式中:m∈[1,M],M 為離散動(dòng)作數(shù)量。
1. 2 策略優(yōu)化方法
面對多智能體策略生成問題,整體價(jià)值最大化是策略生成與優(yōu)化的目標(biāo)。多智能體整體價(jià)值Qtotal 表示各個(gè)智能體價(jià)值的累加[19]:
Qtotal = ΣNn = 1Qn,am′ , (4)
式中:Qn,am′ 為第n 個(gè)智能體對應(yīng)的最大離散動(dòng)作價(jià)值。
在各智能體動(dòng)作在博弈環(huán)境中與對手策略交互之后,獲得的全局獎(jiǎng)賞值為r。采用時(shí)序差分方法對離散動(dòng)作價(jià)值進(jìn)行更新:
Qtotal(O,a)← Qtotal(O,a)+ α[r + max a′∈A Qtotal(O′,a′)- Qtotal(O,a)],(5)
式中:α 表示折扣系數(shù),Qtotal(O,a)表示在當(dāng)前t 時(shí)刻觀測空間O 和各智能體所選動(dòng)作對應(yīng)的整體價(jià)值,max a′∈A Qtotal(O′,a′)表示在后續(xù)t+1 時(shí)刻觀測空間O′下各智能體對應(yīng)的離散動(dòng)作價(jià)值中的最大值求和得到整體價(jià)值。
用于網(wǎng)絡(luò)參數(shù)θ 更新的目標(biāo)損失函數(shù)L 定義為:
進(jìn)行K 次決策后,將每次差值求取平均值得到目標(biāo)損失函數(shù)。通過最小化目標(biāo)損失函數(shù)更新網(wǎng)絡(luò)參數(shù)θ。
2 框架結(jié)構(gòu)
本節(jié)給出基于分層強(qiáng)化學(xué)習(xí)的模型框架,并逐層詳細(xì)闡述控制模型。
2. 1 基于分層強(qiáng)化學(xué)習(xí)的模型框架
基于策略生成原理,基于分層強(qiáng)化學(xué)習(xí)的模型框架如圖1 所示。
根據(jù)模型框架的結(jié)構(gòu),其計(jì)算過程可以闡述如下:
首先,頂層控制模型產(chǎn)生控制信息。全局信息由個(gè)體部分可觀察信息組成,頂層策略控制模型基于全局信息產(chǎn)生控制信息,對應(yīng)式(1)。
然后,個(gè)體策略執(zhí)行模型產(chǎn)生個(gè)體動(dòng)作價(jià)值。執(zhí)行模型依據(jù)個(gè)體信息給出對應(yīng)離散動(dòng)作的動(dòng)作價(jià)值,使得框架可以根據(jù)動(dòng)作價(jià)值的最大值選擇需要執(zhí)行的動(dòng)作,對應(yīng)式(2)和式(3)。
最后,根據(jù)個(gè)體動(dòng)作價(jià)值形成整體價(jià)值。對執(zhí)行模型產(chǎn)生的所有個(gè)體的最大動(dòng)作價(jià)值進(jìn)行累加,形成整體價(jià)值,對應(yīng)式(4)。通過對整體價(jià)值的迭代優(yōu)化實(shí)現(xiàn)策略優(yōu)化,對應(yīng)式(5)和式(6)。
2. 2 頂層策略控制模型
頂層策略控制模型采用深度神經(jīng)網(wǎng)絡(luò),包含輸入層、隱藏層和輸出層三部分。為了不失一般性并且突出本框架能力,觀測信息和離散動(dòng)作空間結(jié)構(gòu)采用一維矩陣,頂層策略控制模型中各層均采用全連接神經(jīng)網(wǎng)絡(luò),并采用ReLU 作為激活函數(shù)。特別需要說明,本文核心在于闡述并驗(yàn)證改進(jìn)方法的優(yōu)秀性能,弱化了特征工程,如觀測信息為高維數(shù)據(jù)矩陣等形式,可針對實(shí)際工程需求的特異性采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、長短期記憶(Long Short Term Memory,LSTM )網(wǎng)絡(luò)和Transform 等神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),對本框架進(jìn)一步改造。頂層策略控制模型如圖2 所示。
全局信息由個(gè)體觀測信息拼接組成,形成一維矩陣。全局信息矩陣維度為N×odim,其中odim 為個(gè)體觀測信息維度。輸入層的維度與全局信息維度一致。隱藏層用于將全局信息映射為原始控制信息。輸出層用于將原始控制信息按照控制信息維度要求進(jìn)行特征提取,用于控制個(gè)體策略執(zhí)行模型??刂菩畔橐痪S矩陣,維度為N×Idim,其中Idim 為對應(yīng)各個(gè)體的控制信息維度。
2. 3 個(gè)體策略執(zhí)行模型
個(gè)體策略執(zhí)行模型的構(gòu)建邏輯與頂層策略控制模型一致,均采用全連接神經(jīng)網(wǎng)絡(luò),并采用ReLU 作為激活函數(shù),同樣包含輸入層、隱藏層和輸出層三部分。個(gè)體策略執(zhí)行模型如圖3 所示。
該模型輸入分為兩部分,分別是控制信息和融合標(biāo)志位的個(gè)體信息。融合標(biāo)志位的個(gè)體信息由個(gè)體標(biāo)志位n 和部分可觀測信息on 構(gòu)成。加入個(gè)體標(biāo)志位目的是明確區(qū)分當(dāng)前單體,有助于從控制信息中明確自己對應(yīng)的信息特征??刂菩畔⒑蛡€(gè)體信息經(jīng)過輸入層后,隱藏層提取輸入信息中包含的特征,用于支撐輸出層生成對應(yīng)離散動(dòng)作的動(dòng)作價(jià)值,維度為M。
3 方法實(shí)現(xiàn)
本節(jié)基于訓(xùn)練流程和算法流程詳細(xì)描述了方法實(shí)現(xiàn)。
3. 1 訓(xùn)練流程
訓(xùn)練流程采用環(huán)形結(jié)構(gòu),不斷迭代優(yōu)化博弈策略。除了優(yōu)化過程,還不斷對策略性能進(jìn)行評估,并保存最優(yōu)參數(shù)作為最優(yōu)博弈策略。具體而言,環(huán)形訓(xùn)練流程包括5 個(gè)階段,分別為決策、交互、訓(xùn)練、評估和更新,如圖4 所示。
在決策階段,基于分層強(qiáng)化學(xué)習(xí)的模型,輸入觀測信息,得到動(dòng)作價(jià)值,并選擇最大動(dòng)作價(jià)值對應(yīng)的離散動(dòng)作。
在交互階段,在博弈環(huán)境中,利用得到的離散動(dòng)作與對手策略進(jìn)行交互。通過交互獲得下一步觀測信息和當(dāng)前獎(jiǎng)賞,構(gòu)建包含當(dāng)前觀測數(shù)據(jù)、執(zhí)行動(dòng)作、當(dāng)前獎(jiǎng)賞和動(dòng)作執(zhí)行后得到的下一步觀測信息,將上述4 個(gè)元素保存為經(jīng)驗(yàn),并存儲(chǔ)在內(nèi)存空間中,命名為經(jīng)驗(yàn)池R。
在訓(xùn)練階段,隨機(jī)從經(jīng)驗(yàn)池中抽取多條經(jīng)驗(yàn)數(shù)據(jù),采用目標(biāo)損失函數(shù)計(jì)算損失誤差,并且采用累加求和的方法估計(jì)誤差,使得參數(shù)尋優(yōu)的過程相對穩(wěn)定。
在評估階段,將對當(dāng)前得到的策略參數(shù)進(jìn)行蒙特卡洛測試驗(yàn)證。通過與對手策略進(jìn)行多輪對抗,得到平均總獎(jiǎng)賞。除此之外,如果當(dāng)前訓(xùn)練得到的策略參數(shù)所對應(yīng)的平均總獎(jiǎng)賞優(yōu)于歷史最優(yōu)參數(shù),可以將當(dāng)前參數(shù)保留,作為最優(yōu)策略。
在更新階段,將訓(xùn)練階段得到的策略參數(shù)裝載于基于分層強(qiáng)化學(xué)習(xí)的模型框架,用于在下一次迭代過程中進(jìn)行決策并與環(huán)境進(jìn)行交互。
3. 2 算法流程
基于訓(xùn)練流程,本文提出了如算法1 所示的基于分層強(qiáng)化學(xué)習(xí)的多智能體博弈策略生成訓(xùn)練算法。
4 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)結(jié)果與分析由實(shí)驗(yàn)場景、實(shí)驗(yàn)過程、參數(shù)設(shè)置和結(jié)果分析四部分組成。
4. 1 實(shí)驗(yàn)場景
本文采用OpenAI 和暴雪公司基于“星際爭霸2”構(gòu)造的SMAC 環(huán)境中名為“3Z2S”的場景開展實(shí)驗(yàn)[20]。SMAC 是一個(gè)用于研究多智能體強(qiáng)化學(xué)習(xí)的環(huán)境。這個(gè)環(huán)境基于即時(shí)戰(zhàn)略游戲“星際爭霸2”提供了一個(gè)多智能體競技場,可以用來評估和比較不同的多智能體強(qiáng)化學(xué)習(xí)算法。SMAC 環(huán)境提供了豐富的地圖和任務(wù),涵蓋了多種不同的游戲場景和挑戰(zhàn),旨在推動(dòng)多智能體強(qiáng)化學(xué)習(xí)技術(shù)的發(fā)展,并且為研究人員提供一個(gè)標(biāo)準(zhǔn)化的評測平臺(tái)。在“3Z2S”場景中,本文方法與基線策略方法分別控制5 個(gè)異構(gòu)Agent 對抗,在對抗中SMAC 環(huán)境將給出對應(yīng)獎(jiǎng)賞值并自動(dòng)評判是否獲勝。
除此之外,本實(shí)驗(yàn)在Windows 10 操作系統(tǒng)開展,采用的主要設(shè)備為處理器、內(nèi)存和圖像處理器。處理器規(guī)格為Intel(R)Core(TM)i710700K,機(jī)帶內(nèi)存容量為80 GB,圖像處理器為RTX 2070 SUPER。
4. 2 實(shí)驗(yàn)過程
本文實(shí)驗(yàn)過程與經(jīng)典多智能體強(qiáng)化學(xué)習(xí)方法驗(yàn)證實(shí)驗(yàn)的過程保持一致[13-14]。
在實(shí)驗(yàn)中,共設(shè)置了106 步的訓(xùn)練周期,每5 000 步為一個(gè)周期,分為訓(xùn)練階段和評估階段。在訓(xùn)練階段,共進(jìn)行了5 000 步訓(xùn)練,期間進(jìn)行了神經(jīng)網(wǎng)絡(luò)參數(shù)的優(yōu)化更新。每當(dāng)完成了5 000 步的訓(xùn)練,即進(jìn)行一次性能評估。在性能評估階段,與基線策略進(jìn)行了24 回合的對抗。
在評估指標(biāo)方面,使用了勝率和平均獎(jiǎng)賞。對于勝率,統(tǒng)計(jì)了與“3Z2S”場景的基線策略進(jìn)行對抗獲勝的次數(shù),然后除以總回合數(shù)24,得到了勝率。而對于平均獎(jiǎng)賞,則是累加了24 回合對抗中SMAC給出的獎(jiǎng)賞,再除以總回合數(shù)24,得到了平均獎(jiǎng)賞。
除此之外,在實(shí)驗(yàn)過程中,將QMIX 和VDN 方法作為對照組,在“3Z2S”場景中分別計(jì)算了它們的勝率和平均獎(jiǎng)賞。以驗(yàn)證本方法在性能方面的表現(xiàn),并與已有的方法進(jìn)行比較。
4. 3 參數(shù)設(shè)置
方法參數(shù)分為2 類:一類為在策略優(yōu)化過程的學(xué)習(xí)參數(shù);另一類為構(gòu)成模型的深度神經(jīng)網(wǎng)絡(luò)參數(shù)。學(xué)習(xí)參數(shù)包括獎(jiǎng)賞折扣參數(shù)、學(xué)習(xí)率和批量大小,分別設(shè)置為0. 99、5×10-4 和32。模型的深度神經(jīng)網(wǎng)絡(luò)參數(shù)如表1 所示。
4. 4 結(jié)果分析
勝率曲線如圖5 所示。通過圖中對比可以直觀發(fā)現(xiàn),在初始階段,本方法可獲得高于QMIX 和VDN 的勝率。二者較慢的原因是由于全局信息間接反饋,并且初始階段數(shù)據(jù)量較少,個(gè)體策略無法穩(wěn)定生成,從而其他個(gè)體也無法有效通過估計(jì)其他個(gè)體的策略生成協(xié)同策略。除此之外,本文方法相比于2 種典型方法能夠更快達(dá)到勝率穩(wěn)態(tài),更高效地形成博弈對抗策略。
平均獎(jiǎng)賞曲線如圖6 所示。通過圖中曲線對比可以看出,平均獎(jiǎng)賞曲線圖與勝率曲線圖的趨勢近似,本文方法在效率上明顯超過典型方法。
為了客觀評估本方法,給出與2 種典型方法的指標(biāo)評估,指標(biāo)包括勝率均值、勝率方差、勝率最大值、平均獎(jiǎng)賞均值、平均獎(jiǎng)賞方差和平均獎(jiǎng)賞最大值。評估結(jié)果如表2 所示。
對于勝率,本文方法能夠獲得最大勝率均值。雖然勝率方差低于VDN 方法,但是能夠獲得最大勝率。對于平均獎(jiǎng)賞,對比均值和方差,本文方法的均值最高并且方差最低,充分說明了本文方法的穩(wěn)定性。除此之外,在勝率和平均獎(jiǎng)賞上,本文方法的最大值均為三者之中最高,有效地說明了本文方法的高效性。
5 結(jié)束語
針對典型多智能體深度強(qiáng)化學(xué)習(xí)方法對于全局信息利用不重復(fù)導(dǎo)致個(gè)體策略生成慢的問題,本文提出了一種基于分層強(qiáng)化學(xué)習(xí)的多智能體博弈策略生成方法,通過構(gòu)建頂層策略控制模型,完成全局信息的提取和控制信息的映射,從而實(shí)現(xiàn)層次化分解策略。個(gè)體策略執(zhí)行模型在控制信息的引導(dǎo)下,完成部分可觀測信息到動(dòng)作價(jià)值函數(shù)映射。將典型方法被動(dòng)優(yōu)化群體值函數(shù)的擬合參數(shù)轉(zhuǎn)化為主動(dòng)將群體策略分解為個(gè)體策略,便于快速生成協(xié)同策略的目標(biāo)。實(shí)驗(yàn)驗(yàn)證表明,本文所提方法在于基線策略對抗勝率達(dá)到100% ,相較典型方法VDN 和QMIX,本文方法勝率最高且方差較低。本文所提方法結(jié)構(gòu)簡潔、可解釋性強(qiáng),能夠針多受控體有效、高效地生成并優(yōu)化博弈策略。本方法采用個(gè)體離散動(dòng)作價(jià)值相累加的方法估計(jì)整體價(jià)值。雖然結(jié)構(gòu)簡單且計(jì)算復(fù)雜度低,但是對于各智能體的特性能力缺少較多關(guān)注,限制了整體能力。然而,利用超神經(jīng)網(wǎng)絡(luò)估計(jì)整體價(jià)值的計(jì)算復(fù)雜度高,并且給策略生成效率帶來了挑戰(zhàn)。在后續(xù)研究中,重點(diǎn)應(yīng)放在從個(gè)體價(jià)值相整體價(jià)值的估計(jì)上,給出能夠平衡計(jì)算復(fù)雜度和策略效果的估計(jì)方法。
參考文獻(xiàn)
[1] FENG S,SUN H W,YAN X T,et al. Dense ReinforcementLearning for Safety Validation of Autonomous Vehicles[J]. Nature,2023,615:620-627.
[2] MNIH V,KAVUKCUOGLU K,SILVER D,et al. Humanlevel Control Through Deep Reinforcement Learning[J].Nature,2015,518:529-533.
[3] VINYALS O,BABUSCHKIN I,CZARNECKI W M,et al.Grandmaster Level in StarCraft II Using Multiagent Reinforcement Learning[J]. Nature,2019,575:350-354.
[4] 暢鑫,李艷斌,趙研,等. 基于MA2IDDPG 算法的異構(gòu)多無人機(jī)協(xié)同突防方法[J]. 河北工業(yè)科技,2022,39(4):328-334.
[5] CHANG X,LI Y B,ZHAO Y,et al. An Improved Antijamming Method Based on Deep Reinforcement Learningand Feature Engineering [J]. IEEE Access,2022,10:69992-70000.
[6] CHANG X,LI Y B,ZHAO Y,et al. A MultiplejammerDeceptive Jamming Method Based on Particle Swarm Optimization Against Threechannel SAR GMTI [J]. IEEEAccess,2021,9:138385-138393.
[7] MNIH V,KAVUKCUOGLU K,SILVER D,et al. PlayingAtari with Deep Reinforcement Learning [EB / OL ].(2013-12-19)[2024-01-06]. https:∥arxiv. org / abs /1312. 5602.
[8] HASSELT H V,GUEZ A,SILVER D. Deep ReinforcementLearning with Double Qlearning[C]∥Proceedings of theThirtieth AAAI Conference on Artificial Intelligence. Phoenix:AAAI,2016:2094-2100.
[9] SCHAUL T,QUAN J,ANTONOGLOU I,et al. PrioritizedExperience Replay[EB / OL]. (2015 - 11 - 18 )[2024 -01-06]. https:∥arxiv. org / abs / 1511. 05952.
[10] WANG Z Y,SCHAUL T,HESSEL M,et al. DuelingNetwork Architectures for Deep Reinforcement Learning[C]∥ Proceedings of the 33rd International Conferenceon International Conference on Machine Learning. NewYork:JMLR,2016:1995-2003.
[11] LIU X,XU Y H,JIA L L,et al. Antijamming Communications Using Spectrum Waterfall:A Deep ReinforcementLearning Approach [J]. IEEE Communications Letters,2018,22(5):998-1001.
[12] NAPARSTEK O,COHEN K. Deep Multiuser Reinforcement Learning for Distributed Dynamic Spectrum Access[J]. IEEE Transactions on Wireless Communications,2019,18(1):310-323.
[13] RASHID T,SAMVELYAN M,WITT C S D,et al. Monotonic Value Function Factorisation for Deep MultiagentReinforcement Learning[J]. Journal of Machine LearningResearch,2020,21(1):7234-7284.
[14] SON K,KIM D,KANG W J,et al. Learning to Factorizewith Transformation for Cooperative Multiagent Reinforcement Learning [EB / OL]. (2019 - 05 - 14)[2024 -01-06]. http:∥arxiv. org / abs / 1905. 05408.
[15] SHI W S,LI J L,WU H Q,et al. Dronecell TrajectoryPlanning and Resource Allocation for Highly Mobile Networks:A Hierarchical DRL Approach[J]. IEEE Internetof Things Journal,2020,8(12):9800-9813.
[16] LIU S Y,XU Y F,CHEN X Q,et al. Patternaware Intelligent Antijamming Communication:A Sequential DeepReinforcement Learning Approach [J ]. IEEE Access,2019,7:169204-169216.
[17] KULKARNI T D,NARASIMHAN K R,SAEEDI A,et al.Hierarchical Deep Reinforcement Learning:IntegratingTemporal Abstraction and Intrinsic Motivation[C]∥Proceedings of the 30th International Conference on NeuralInformation Processing Systems. Barcelona:Curran Associates Inc. ,2016:3682-3690.
[18] NOCEDAL J,WRIGHT S J. Numerical Optimization[M].New York:Springer,2006.
[19] SUTTON R S,BARTO A G. Reinforcement Learning:AnIntroduction[M]. Cambridge:MIT Press,1998.
[20] SAMVELYAN M,RASHID T,WITT C S D,et al. TheStarCraft Multiagent Challenge. [EB / OL]. (2019 - 02 -11)[2024-01-06]. http:∥arxiv. org / abs / 1902. 04043.
作者簡介
暢 鑫 男,(1990—),博士,高級工程師。
劉東輝 女,(1990—),博士,講師。主要研究方向:復(fù)雜系統(tǒng)管理、策略優(yōu)化等。
基金項(xiàng)目:中國博士后科學(xué)基金(2021M693002);國家自然科學(xué)基金(71991485,71991481,71991480)