基于分層強(qiáng)化學(xué)習(xí)的多智能體博弈策略生成方法

2024-09-19 00:00:00暢鑫李艷斌劉東輝

無線電工程 2024年6期

摘要：典型基于深度強(qiáng)化學(xué)習(xí)的多智能體對抗策略生成方法采用“分總” 框架，各智能體基于部分可觀測信息生成策略并進(jìn)行決策，缺乏從整體角度生成對抗策略的能力，大大限制了決策能力。為了解決該問題，基于分層強(qiáng)化學(xué)習(xí)提出改進(jìn)的多智能體博弈策略生成方法?；诜謱訌?qiáng)化學(xué)習(xí)構(gòu)建觀測信息到整體價(jià)值的決策映射，以最大化整體價(jià)值作為目標(biāo)構(gòu)建優(yōu)化問題，并推導(dǎo)了策略優(yōu)化過程，為后續(xù)框架結(jié)構(gòu)和方法實(shí)現(xiàn)的設(shè)計(jì)提供了理論依據(jù)；基于決策映射與優(yōu)化問題構(gòu)建，采用神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)了模型框架，詳細(xì)闡述了頂層策略控制模型和個(gè)體策略執(zhí)行模型；基于策略優(yōu)化方法，給出詳細(xì)訓(xùn)練流程和算法流程；采用星際爭霸多智能體對抗（ＳｔａｒＣｒａｆｔＭｕｌｔｉ-ＡｇｅｎｔＣｈａｌｌｅｎｇｅ，ＳＭＡＣ）環(huán)境，與典型多智能體方法進(jìn)行性能對比。實(shí)驗(yàn)結(jié)果表明，該方法能夠有效生成對抗策略，控制異構(gòu)多智能體戰(zhàn)勝預(yù)設(shè)對手策略，相比典型多智能體強(qiáng)化學(xué)習(xí)方法性能提升明顯。

關(guān)鍵詞：分層強(qiáng)化學(xué)習(xí)；多智能體博弈；深度神經(jīng)網(wǎng)絡(luò)

中圖分類號：ＴＮ９２９．５文獻(xiàn)標(biāo)志碼：Ａ開放科學(xué)（資源服務(wù)）標(biāo)識碼（ＯＳＩＤ）：

文章編號：１００３－３１０６（２０２４）０６－１３６１－０７

０引言

策略生成技術(shù)是指通過計(jì)算或?qū)W習(xí)，生成用于指導(dǎo)決策策略的方法和技術(shù)。隨著人工智能技術(shù)的不斷發(fā)展，策略生成技術(shù)被廣泛應(yīng)用于解決各種復(fù)雜的問題。策略通常是一個(gè)映射，將環(huán)境的狀態(tài)映射到可能的行動(dòng)或決策，以最大化某種目標(biāo)函數(shù)（如累積獎(jiǎng)勵(lì)、成功率等）。相比于利用并且依靠專家經(jīng)驗(yàn)和領(lǐng)域知識的策略生成方法，基于海量數(shù)據(jù)的智能決策降低了知識門檻，并且過程更加客觀，避免主觀因素影響［１］，特別是在零和對抗場景中［２－３］。因此，當(dāng)前智能博弈策略生成技術(shù)已經(jīng)廣泛應(yīng)用于無人機(jī)協(xié)同對抗［４］、通信智能抗干擾［５］和智能協(xié)同欺騙［６］等電磁頻譜作戰(zhàn)任務(wù)中。

當(dāng)前，主流策略生成技術(shù)采用深度強(qiáng)化學(xué)習(xí)方法［７］，根據(jù)方法結(jié)構(gòu)和應(yīng)對受控體數(shù)量，可以分為集中式方法和分布式方法。集中式方法統(tǒng)一匯集觀測信息并完成所有受控實(shí)體的動(dòng)作映射。特別是基于ＤｅｅｐＱＮｅｔｗｏｒｋ（ＤＱＮ）方法的集中式方法在電磁頻譜規(guī)劃等場景中獲得良好表現(xiàn)［８－１０］，得益于結(jié)構(gòu)良好的可擴(kuò)展和改進(jìn)性，能夠適應(yīng)多種狀態(tài)形式的觀測數(shù)據(jù)，如圖形化的頻譜瀑布圖［１１］、長短時(shí)高維數(shù)據(jù)［１２］等。但是，隨著受控?cái)?shù)量的增加，集中式方法神經(jīng)網(wǎng)絡(luò)的神經(jīng)元數(shù)量將成指數(shù)上升，使得參數(shù)優(yōu)化效率變慢，策略生成性能變差，并且資源需求量大幅增加。

針對該缺點(diǎn)，“集中式訓(xùn)練，分布式執(zhí)行”成為解決當(dāng)前問題的主流理念。分布式方法分別構(gòu)建對應(yīng)受控個(gè)體的觀測到動(dòng)作的映射網(wǎng)絡(luò)，再構(gòu)建擬合網(wǎng)絡(luò)用于擬合個(gè)體動(dòng)作價(jià)值到整體價(jià)值的映射。將整體“大網(wǎng)絡(luò)”拆分成多個(gè)“小網(wǎng)絡(luò)”，避免了維度爆炸。但是，該方法的難點(diǎn)在于由個(gè)體動(dòng)作價(jià)值擬合整體價(jià)值。作為經(jīng)典方法Ｖａｌｕｅ-ＤｅｃｏｍｐｏｓｉｔｉｏｎＮｅｔ-ｗｏｒｋｓ（ＶＤＮ）直接將個(gè)體動(dòng)作價(jià)值相加得到對整體價(jià)值。但是，并非所有個(gè)體都具有相同權(quán)重的動(dòng)作價(jià)值。特別是在異構(gòu)博弈對抗環(huán)境中，由于受控個(gè)體能力不同，權(quán)重必然不同。文獻(xiàn)［１３］中，“ＱＭＩＸ”多智能體強(qiáng)化學(xué)習(xí)方法采用超神經(jīng)網(wǎng)絡(luò)的方法對于整體價(jià)值進(jìn)行了估計(jì)，使得個(gè)體動(dòng)作價(jià)值到整體價(jià)值的映射具有非線性特性，有利于對整體價(jià)值的估計(jì)。文獻(xiàn)［１４］中，“Ｑｔｒａｎ”方法在此改進(jìn)思路上進(jìn)一步延伸，通過構(gòu)建等價(jià)函數(shù)、改進(jìn)值分解等方法，提高了方法的適應(yīng)性，獲得更優(yōu)的效果。但是，該思路在全局信息的利用上存在缺點(diǎn)。個(gè)體只采用部分可觀察信息決策，協(xié)同能力是在訓(xùn)練過程中由整體價(jià)值分解得到的，以損失反饋的形式對各個(gè)體策略施加影響。在執(zhí)行過程中，難以實(shí)時(shí)利用全局信息或者由各實(shí)體觀測信息整合得到融合信息，影響決策性能。

針對該缺點(diǎn)，以分層強(qiáng)化學(xué)習(xí)為核心的博弈策略生成方法成為研究重點(diǎn)［１５］。該思路通過構(gòu)建頂層控制單元和個(gè)體執(zhí)行單元形成層級支配控制。頂層控制單元匯總個(gè)體信息并產(chǎn)生控制信息，控制個(gè)體基于部分可觀測信息決策。相比于典型多智能體深度強(qiáng)化學(xué)習(xí)方法，分層強(qiáng)化學(xué)習(xí)通過任務(wù)分配和組合形成整體策略。智能體在訓(xùn)練過程中能夠避免智能體策略同時(shí)更新，使得單一個(gè)體對于體系內(nèi)其他個(gè)體的策略擬合效率更高。文獻(xiàn)［１６］在通信抗干擾領(lǐng)域中采用了該思想。首先，頂層控制模塊識別出當(dāng)前通信干擾樣式，再針對性調(diào)用抗干擾樣式。但是個(gè)體策略的抗干擾樣式需要提前人為設(shè)計(jì)。文獻(xiàn)［１７］頂層控制單元和個(gè)體執(zhí)行單元均采用神經(jīng)網(wǎng)絡(luò)，個(gè)體策略也由數(shù)據(jù)訓(xùn)練得到。上述２種方法主要解決單一受控個(gè)體面對多任務(wù)情況下的策略生成問題，針對異構(gòu)多智能體問題需要對策略生成框架改造。

基于分層強(qiáng)化學(xué)習(xí)，本文提出改進(jìn)的多智能體博弈策略生成方法。首先，基于深度神經(jīng)網(wǎng)絡(luò)，構(gòu)造融合觀測信息的頂層策略控制模型，完成控制信息的生成。在結(jié)構(gòu)上，具有根據(jù)全局信息產(chǎn)生控制信息的能力。在訓(xùn)練過程中，能夠引導(dǎo)個(gè)體決策模型的生成。然后，將個(gè)體的部分觀察信息和控制信息映射為個(gè)體動(dòng)作價(jià)值。最后，融合個(gè)體動(dòng)作價(jià)值形成全局價(jià)值，并利用獎(jiǎng)賞函數(shù)對整個(gè)神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行優(yōu)化，達(dá)到博弈策略優(yōu)化的目的。

后續(xù)研究思路如下。首先，基于分層強(qiáng)化學(xué)習(xí)構(gòu)建觀測信息到整體價(jià)值的決策映射，以最大化整體價(jià)值作為目標(biāo)構(gòu)建優(yōu)化問題，并推導(dǎo)了策略優(yōu)化過程，為后續(xù)框架結(jié)構(gòu)和方法實(shí)現(xiàn)的設(shè)計(jì)提供了理論依據(jù)；然后，基于決策映射與優(yōu)化問題構(gòu)建，采用神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)了模型框架，詳細(xì)闡述了頂層策略控制模型和個(gè)體策略執(zhí)行模型；再次，基于策略優(yōu)化方法，給出詳細(xì)訓(xùn)練流程和算法流程；最后，采用典型星際爭霸多智能體對抗（ＳｔａｒＣｒａｆｔＭｕｌｔｉ-ＡｇｅｎｔＣｈａｌ-ｌｅｎｇｅ，ＳＭＡＣ）環(huán)境，與典型多智能體方法進(jìn)行性能對比，驗(yàn)證方法性能，并總結(jié)全文。

１策略生成原理

博弈對抗策略的實(shí)質(zhì)是完成觀測信息到動(dòng)作空間的影射，影射過程即為策略，而利用該過程得到動(dòng)作即為決策。基于深度神經(jīng)網(wǎng)絡(luò)的策略生成方法中的策略具象化是神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)絡(luò)參數(shù)。本文網(wǎng)絡(luò)結(jié)構(gòu)具體分為策略控制網(wǎng)絡(luò)和策略執(zhí)行網(wǎng)絡(luò)。在網(wǎng)絡(luò)結(jié)構(gòu)確定的情況下，對網(wǎng)絡(luò)參數(shù)進(jìn)行優(yōu)化即對策略優(yōu)化?；诖死砟睿竟?jié)詳細(xì)推導(dǎo)策略映射、優(yōu)化問題構(gòu)建和策略優(yōu)化方法。

１．１決策映射與優(yōu)化問題構(gòu)建

通過全局信息生成控制信息，并以控制信息對各智能體的策略形成過程施加影響，提高各智能體之間的協(xié)同能力。對于策略控制網(wǎng)絡(luò)模型ｆ０用于完成融合信息ｏ０到控制信息Ｉ的映射：

Ｉ＝ｆ０，θ０（ｏ０），（１）

式中：Ｉ＝｛Ｉｎ｝，ｎ∈［１，Ｎ］表示擬合得到的控制信息，Ｉｎ表示對應(yīng)Ｎ個(gè)受控智能體；ｏ０表示各個(gè)智能體整合得到的全局信息，是多維矩陣形式［ｏ１，…，ｏｎ，…，ｏＮ］，ｏｎ表示各智能體的觀測空間，即部分可觀測空間，ｎ∈［１，Ｎ］；θ０表示深度神經(jīng)策略控制網(wǎng)絡(luò)參數(shù)。

在控制信息的影響下，能夠降低智能體對其他智能體策略估計(jì)的難度，降低了個(gè)體策略生成的難度。對于策略執(zhí)行網(wǎng)絡(luò)ｆｎ用于實(shí)現(xiàn)控制信息Ｉ和部分可觀測空間ｏｎ到離散動(dòng)作價(jià)值Ｑｎ的影射。為了協(xié)同能力的提升，各個(gè)智能體均均等的拿到所有控制信息。

Ｑｎ＝ｆｎ，θｎ（Ｉ，ｏｎ），（２）

式中：Ｑｎ表示第ｎ個(gè)智能體離散動(dòng)作價(jià)值的集合｛ｑａ１，ｑａ２，…，ｑａｍ｝，θｎ表示深度神經(jīng)策略執(zhí)行網(wǎng)絡(luò)參數(shù)。θ０和θｎ構(gòu)成整個(gè)模型的網(wǎng)絡(luò)參數(shù)θ。

從Ｑｎ中選擇最大值所對應(yīng)的離散動(dòng)作ａｍ′［１８］：

ａｍ′ ＝ａｒｇｍａｘｍＱｎ，（３）

式中：ｍ∈［１，Ｍ］，Ｍ為離散動(dòng)作數(shù)量。

１．２策略優(yōu)化方法

面對多智能體策略生成問題，整體價(jià)值最大化是策略生成與優(yōu)化的目標(biāo)。多智能體整體價(jià)值Ｑｔｏｔａｌ表示各個(gè)智能體價(jià)值的累加［１９］：

Ｑｔｏｔａｌ＝ ΣＮｎ＝１Ｑｎ，ａｍ′ ，（４）

式中：Ｑｎ，ａｍ′ 為第ｎ個(gè)智能體對應(yīng)的最大離散動(dòng)作價(jià)值。

在各智能體動(dòng)作在博弈環(huán)境中與對手策略交互之后，獲得的全局獎(jiǎng)賞值為ｒ。采用時(shí)序差分方法對離散動(dòng)作價(jià)值進(jìn)行更新：

Ｑｔｏｔａｌ（Ｏ，ａ）← Ｑｔｏｔａｌ（Ｏ，ａ）＋ α［ｒ＋ｍａｘａ′∈ＡＱｔｏｔａｌ（Ｏ′，ａ′）－Ｑｔｏｔａｌ（Ｏ，ａ）］，（５）

式中：α 表示折扣系數(shù)，Ｑｔｏｔａｌ（Ｏ，ａ）表示在當(dāng)前ｔ時(shí)刻觀測空間Ｏ和各智能體所選動(dòng)作對應(yīng)的整體價(jià)值，ｍａｘａ′∈ＡＱｔｏｔａｌ（Ｏ′，ａ′）表示在后續(xù)ｔ＋１時(shí)刻觀測空間Ｏ′下各智能體對應(yīng)的離散動(dòng)作價(jià)值中的最大值求和得到整體價(jià)值。

用于網(wǎng)絡(luò)參數(shù)θ 更新的目標(biāo)損失函數(shù)Ｌ定義為：

進(jìn)行Ｋ次決策后，將每次差值求取平均值得到目標(biāo)損失函數(shù)。通過最小化目標(biāo)損失函數(shù)更新網(wǎng)絡(luò)參數(shù)θ。

２框架結(jié)構(gòu)

本節(jié)給出基于分層強(qiáng)化學(xué)習(xí)的模型框架，并逐層詳細(xì)闡述控制模型。

２．１基于分層強(qiáng)化學(xué)習(xí)的模型框架

基于策略生成原理，基于分層強(qiáng)化學(xué)習(xí)的模型框架如圖１所示。

根據(jù)模型框架的結(jié)構(gòu)，其計(jì)算過程可以闡述如下：

首先，頂層控制模型產(chǎn)生控制信息。全局信息由個(gè)體部分可觀察信息組成，頂層策略控制模型基于全局信息產(chǎn)生控制信息，對應(yīng)式（１）。

然后，個(gè)體策略執(zhí)行模型產(chǎn)生個(gè)體動(dòng)作價(jià)值。執(zhí)行模型依據(jù)個(gè)體信息給出對應(yīng)離散動(dòng)作的動(dòng)作價(jià)值，使得框架可以根據(jù)動(dòng)作價(jià)值的最大值選擇需要執(zhí)行的動(dòng)作，對應(yīng)式（２）和式（３）。

最后，根據(jù)個(gè)體動(dòng)作價(jià)值形成整體價(jià)值。對執(zhí)行模型產(chǎn)生的所有個(gè)體的最大動(dòng)作價(jià)值進(jìn)行累加，形成整體價(jià)值，對應(yīng)式（４）。通過對整體價(jià)值的迭代優(yōu)化實(shí)現(xiàn)策略優(yōu)化，對應(yīng)式（５）和式（６）。

２．２頂層策略控制模型

頂層策略控制模型采用深度神經(jīng)網(wǎng)絡(luò)，包含輸入層、隱藏層和輸出層三部分。為了不失一般性并且突出本框架能力，觀測信息和離散動(dòng)作空間結(jié)構(gòu)采用一維矩陣，頂層策略控制模型中各層均采用全連接神經(jīng)網(wǎng)絡(luò)，并采用ＲｅＬＵ作為激活函數(shù)。特別需要說明，本文核心在于闡述并驗(yàn)證改進(jìn)方法的優(yōu)秀性能，弱化了特征工程，如觀測信息為高維數(shù)據(jù)矩陣等形式，可針對實(shí)際工程需求的特異性采用卷積神經(jīng)網(wǎng)絡(luò)（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ，ＣＮＮ）、長短期記憶（ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ，ＬＳＴＭ）網(wǎng)絡(luò)和Ｔｒａｎｓｆｏｒｍ等神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，對本框架進(jìn)一步改造。頂層策略控制模型如圖２所示。

全局信息由個(gè)體觀測信息拼接組成，形成一維矩陣。全局信息矩陣維度為Ｎ×ｏｄｉｍ，其中ｏｄｉｍ為個(gè)體觀測信息維度。輸入層的維度與全局信息維度一致。隱藏層用于將全局信息映射為原始控制信息。輸出層用于將原始控制信息按照控制信息維度要求進(jìn)行特征提取，用于控制個(gè)體策略執(zhí)行模型?？刂菩畔橐痪S矩陣，維度為Ｎ×Ｉｄｉｍ，其中Ｉｄｉｍ為對應(yīng)各個(gè)體的控制信息維度。

２．３個(gè)體策略執(zhí)行模型

個(gè)體策略執(zhí)行模型的構(gòu)建邏輯與頂層策略控制模型一致，均采用全連接神經(jīng)網(wǎng)絡(luò)，并采用ＲｅＬＵ作為激活函數(shù)，同樣包含輸入層、隱藏層和輸出層三部分。個(gè)體策略執(zhí)行模型如圖３所示。

該模型輸入分為兩部分，分別是控制信息和融合標(biāo)志位的個(gè)體信息。融合標(biāo)志位的個(gè)體信息由個(gè)體標(biāo)志位ｎ和部分可觀測信息ｏｎ構(gòu)成。加入個(gè)體標(biāo)志位目的是明確區(qū)分當(dāng)前單體，有助于從控制信息中明確自己對應(yīng)的信息特征?？刂菩畔⒑蛡€(gè)體信息經(jīng)過輸入層后，隱藏層提取輸入信息中包含的特征，用于支撐輸出層生成對應(yīng)離散動(dòng)作的動(dòng)作價(jià)值，維度為Ｍ。

３方法實(shí)現(xiàn)

本節(jié)基于訓(xùn)練流程和算法流程詳細(xì)描述了方法實(shí)現(xiàn)。

３．１訓(xùn)練流程

訓(xùn)練流程采用環(huán)形結(jié)構(gòu)，不斷迭代優(yōu)化博弈策略。除了優(yōu)化過程，還不斷對策略性能進(jìn)行評估，并保存最優(yōu)參數(shù)作為最優(yōu)博弈策略。具體而言，環(huán)形訓(xùn)練流程包括５個(gè)階段，分別為決策、交互、訓(xùn)練、評估和更新，如圖４所示。

在決策階段，基于分層強(qiáng)化學(xué)習(xí)的模型，輸入觀測信息，得到動(dòng)作價(jià)值，并選擇最大動(dòng)作價(jià)值對應(yīng)的離散動(dòng)作。

在交互階段，在博弈環(huán)境中，利用得到的離散動(dòng)作與對手策略進(jìn)行交互。通過交互獲得下一步觀測信息和當(dāng)前獎(jiǎng)賞，構(gòu)建包含當(dāng)前觀測數(shù)據(jù)、執(zhí)行動(dòng)作、當(dāng)前獎(jiǎng)賞和動(dòng)作執(zhí)行后得到的下一步觀測信息，將上述４個(gè)元素保存為經(jīng)驗(yàn)，并存儲(chǔ)在內(nèi)存空間中，命名為經(jīng)驗(yàn)池Ｒ。

在訓(xùn)練階段，隨機(jī)從經(jīng)驗(yàn)池中抽取多條經(jīng)驗(yàn)數(shù)據(jù)，采用目標(biāo)損失函數(shù)計(jì)算損失誤差，并且采用累加求和的方法估計(jì)誤差，使得參數(shù)尋優(yōu)的過程相對穩(wěn)定。

在評估階段，將對當(dāng)前得到的策略參數(shù)進(jìn)行蒙特卡洛測試驗(yàn)證。通過與對手策略進(jìn)行多輪對抗，得到平均總獎(jiǎng)賞。除此之外，如果當(dāng)前訓(xùn)練得到的策略參數(shù)所對應(yīng)的平均總獎(jiǎng)賞優(yōu)于歷史最優(yōu)參數(shù)，可以將當(dāng)前參數(shù)保留，作為最優(yōu)策略。

在更新階段，將訓(xùn)練階段得到的策略參數(shù)裝載于基于分層強(qiáng)化學(xué)習(xí)的模型框架，用于在下一次迭代過程中進(jìn)行決策并與環(huán)境進(jìn)行交互。

３．２算法流程

基于訓(xùn)練流程，本文提出了如算法１所示的基于分層強(qiáng)化學(xué)習(xí)的多智能體博弈策略生成訓(xùn)練算法。

４實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)結(jié)果與分析由實(shí)驗(yàn)場景、實(shí)驗(yàn)過程、參數(shù)設(shè)置和結(jié)果分析四部分組成。

４．１實(shí)驗(yàn)場景

本文采用ＯｐｅｎＡＩ和暴雪公司基于“星際爭霸２”構(gòu)造的ＳＭＡＣ環(huán)境中名為“３Ｚ２Ｓ”的場景開展實(shí)驗(yàn)［２０］。ＳＭＡＣ是一個(gè)用于研究多智能體強(qiáng)化學(xué)習(xí)的環(huán)境。這個(gè)環(huán)境基于即時(shí)戰(zhàn)略游戲“星際爭霸２”提供了一個(gè)多智能體競技場，可以用來評估和比較不同的多智能體強(qiáng)化學(xué)習(xí)算法。ＳＭＡＣ環(huán)境提供了豐富的地圖和任務(wù)，涵蓋了多種不同的游戲場景和挑戰(zhàn)，旨在推動(dòng)多智能體強(qiáng)化學(xué)習(xí)技術(shù)的發(fā)展，并且為研究人員提供一個(gè)標(biāo)準(zhǔn)化的評測平臺(tái)。在“３Ｚ２Ｓ”場景中，本文方法與基線策略方法分別控制５個(gè)異構(gòu)Ａｇｅｎｔ對抗，在對抗中ＳＭＡＣ環(huán)境將給出對應(yīng)獎(jiǎng)賞值并自動(dòng)評判是否獲勝。

除此之外，本實(shí)驗(yàn)在Ｗｉｎｄｏｗｓ１０操作系統(tǒng)開展，采用的主要設(shè)備為處理器、內(nèi)存和圖像處理器。處理器規(guī)格為Ｉｎｔｅｌ（Ｒ）Ｃｏｒｅ（ＴＭ）ｉ７１０７００Ｋ，機(jī)帶內(nèi)存容量為８０ＧＢ，圖像處理器為ＲＴＸ２０７０ＳＵＰＥＲ。

４．２實(shí)驗(yàn)過程

本文實(shí)驗(yàn)過程與經(jīng)典多智能體強(qiáng)化學(xué)習(xí)方法驗(yàn)證實(shí)驗(yàn)的過程保持一致［１３－１４］。

在實(shí)驗(yàn)中，共設(shè)置了１０６步的訓(xùn)練周期，每５０００步為一個(gè)周期，分為訓(xùn)練階段和評估階段。在訓(xùn)練階段，共進(jìn)行了５０００步訓(xùn)練，期間進(jìn)行了神經(jīng)網(wǎng)絡(luò)參數(shù)的優(yōu)化更新。每當(dāng)完成了５０００步的訓(xùn)練，即進(jìn)行一次性能評估。在性能評估階段，與基線策略進(jìn)行了２４回合的對抗。

在評估指標(biāo)方面，使用了勝率和平均獎(jiǎng)賞。對于勝率，統(tǒng)計(jì)了與“３Ｚ２Ｓ”場景的基線策略進(jìn)行對抗獲勝的次數(shù)，然后除以總回合數(shù)２４，得到了勝率。而對于平均獎(jiǎng)賞，則是累加了２４回合對抗中ＳＭＡＣ給出的獎(jiǎng)賞，再除以總回合數(shù)２４，得到了平均獎(jiǎng)賞。

除此之外，在實(shí)驗(yàn)過程中，將ＱＭＩＸ和ＶＤＮ方法作為對照組，在“３Ｚ２Ｓ”場景中分別計(jì)算了它們的勝率和平均獎(jiǎng)賞。以驗(yàn)證本方法在性能方面的表現(xiàn)，并與已有的方法進(jìn)行比較。

４．３參數(shù)設(shè)置

方法參數(shù)分為２類：一類為在策略優(yōu)化過程的學(xué)習(xí)參數(shù)；另一類為構(gòu)成模型的深度神經(jīng)網(wǎng)絡(luò)參數(shù)。學(xué)習(xí)參數(shù)包括獎(jiǎng)賞折扣參數(shù)、學(xué)習(xí)率和批量大小，分別設(shè)置為０．９９、５×１０－４和３２。模型的深度神經(jīng)網(wǎng)絡(luò)參數(shù)如表１所示。

４．４結(jié)果分析

勝率曲線如圖５所示。通過圖中對比可以直觀發(fā)現(xiàn)，在初始階段，本方法可獲得高于ＱＭＩＸ和ＶＤＮ的勝率。二者較慢的原因是由于全局信息間接反饋，并且初始階段數(shù)據(jù)量較少，個(gè)體策略無法穩(wěn)定生成，從而其他個(gè)體也無法有效通過估計(jì)其他個(gè)體的策略生成協(xié)同策略。除此之外，本文方法相比于２種典型方法能夠更快達(dá)到勝率穩(wěn)態(tài)，更高效地形成博弈對抗策略。

平均獎(jiǎng)賞曲線如圖６所示。通過圖中曲線對比可以看出，平均獎(jiǎng)賞曲線圖與勝率曲線圖的趨勢近似，本文方法在效率上明顯超過典型方法。

為了客觀評估本方法，給出與２種典型方法的指標(biāo)評估，指標(biāo)包括勝率均值、勝率方差、勝率最大值、平均獎(jiǎng)賞均值、平均獎(jiǎng)賞方差和平均獎(jiǎng)賞最大值。評估結(jié)果如表２所示。

對于勝率，本文方法能夠獲得最大勝率均值。雖然勝率方差低于ＶＤＮ方法，但是能夠獲得最大勝率。對于平均獎(jiǎng)賞，對比均值和方差，本文方法的均值最高并且方差最低，充分說明了本文方法的穩(wěn)定性。除此之外，在勝率和平均獎(jiǎng)賞上，本文方法的最大值均為三者之中最高，有效地說明了本文方法的高效性。

５結(jié)束語

針對典型多智能體深度強(qiáng)化學(xué)習(xí)方法對于全局信息利用不重復(fù)導(dǎo)致個(gè)體策略生成慢的問題，本文提出了一種基于分層強(qiáng)化學(xué)習(xí)的多智能體博弈策略生成方法，通過構(gòu)建頂層策略控制模型，完成全局信息的提取和控制信息的映射，從而實(shí)現(xiàn)層次化分解策略。個(gè)體策略執(zhí)行模型在控制信息的引導(dǎo)下，完成部分可觀測信息到動(dòng)作價(jià)值函數(shù)映射。將典型方法被動(dòng)優(yōu)化群體值函數(shù)的擬合參數(shù)轉(zhuǎn)化為主動(dòng)將群體策略分解為個(gè)體策略，便于快速生成協(xié)同策略的目標(biāo)。實(shí)驗(yàn)驗(yàn)證表明，本文所提方法在于基線策略對抗勝率達(dá)到１００％，相較典型方法ＶＤＮ和ＱＭＩＸ，本文方法勝率最高且方差較低。本文所提方法結(jié)構(gòu)簡潔、可解釋性強(qiáng)，能夠針多受控體有效、高效地生成并優(yōu)化博弈策略。本方法采用個(gè)體離散動(dòng)作價(jià)值相累加的方法估計(jì)整體價(jià)值。雖然結(jié)構(gòu)簡單且計(jì)算復(fù)雜度低，但是對于各智能體的特性能力缺少較多關(guān)注，限制了整體能力。然而，利用超神經(jīng)網(wǎng)絡(luò)估計(jì)整體價(jià)值的計(jì)算復(fù)雜度高，并且給策略生成效率帶來了挑戰(zhàn)。在后續(xù)研究中，重點(diǎn)應(yīng)放在從個(gè)體價(jià)值相整體價(jià)值的估計(jì)上，給出能夠平衡計(jì)算復(fù)雜度和策略效果的估計(jì)方法。

參考文獻(xiàn)

［１］ＦＥＮＧＳ，ＳＵＮＨＷ，ＹＡＮＸＴ，ｅｔａｌ．ＤｅｎｓｅＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇｆｏｒＳａｆｅｔｙＶａｌｉｄａｔｉｏｎｏｆＡｕｔｏｎｏｍｏｕｓＶｅｈｉｃｌｅｓ［Ｊ］．Ｎａｔｕｒｅ，２０２３，６１５：６２０－６２７．

［２］ＭＮＩＨＶ，ＫＡＶＵＫＣＵＯＧＬＵＫ，ＳＩＬＶＥＲＤ，ｅｔａｌ．ＨｕｍａｎｌｅｖｅｌＣｏｎｔｒｏｌＴｈｒｏｕｇｈＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ［Ｊ］．Ｎａｔｕｒｅ，２０１５，５１８：５２９－５３３．

［３］ＶＩＮＹＡＬＳＯ，ＢＡＢＵＳＣＨＫＩＮＩ，ＣＺＡＲＮＥＣＫＩＷＭ，ｅｔａｌ．ＧｒａｎｄｍａｓｔｅｒＬｅｖｅｌｉｎＳｔａｒＣｒａｆｔＩＩＵｓｉｎｇＭｕｌｔｉａｇｅｎｔＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ［Ｊ］．Ｎａｔｕｒｅ，２０１９，５７５：３５０－３５４．

［４］暢鑫，李艷斌，趙研，等．基于ＭＡ２ＩＤＤＰＧ算法的異構(gòu)多無人機(jī)協(xié)同突防方法［Ｊ］．河北工業(yè)科技，２０２２，３９（４）：３２８－３３４．

［５］ＣＨＡＮＧＸ，ＬＩＹＢ，ＺＨＡＯＹ，ｅｔａｌ．ＡｎＩｍｐｒｏｖｅｄＡｎｔｉｊａｍｍｉｎｇＭｅｔｈｏｄＢａｓｅｄｏｎＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇａｎｄＦｅａｔｕｒｅＥｎｇｉｎｅｅｒｉｎｇ［Ｊ］．ＩＥＥＥＡｃｃｅｓｓ，２０２２，１０：６９９９２－７００００．

［６］ＣＨＡＮＧＸ，ＬＩＹＢ，ＺＨＡＯＹ，ｅｔａｌ．ＡＭｕｌｔｉｐｌｅｊａｍｍｅｒＤｅｃｅｐｔｉｖｅＪａｍｍｉｎｇＭｅｔｈｏｄＢａｓｅｄｏｎＰａｒｔｉｃｌｅＳｗａｒｍＯｐｔｉｍｉｚａｔｉｏｎＡｇａｉｎｓｔＴｈｒｅｅｃｈａｎｎｅｌＳＡＲＧＭＴＩ［Ｊ］．ＩＥＥＥＡｃｃｅｓｓ，２０２１，９：１３８３８５－１３８３９３．

［７］ＭＮＩＨＶ，ＫＡＶＵＫＣＵＯＧＬＵＫ，ＳＩＬＶＥＲＤ，ｅｔａｌ．ＰｌａｙｉｎｇＡｔａｒｉｗｉｔｈＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ［ＥＢ／ＯＬ］．（２０１３－１２－１９）［２０２４－０１－０６］．ｈｔｔｐｓ：∥ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１３１２．５６０２．

［８］ＨＡＳＳＥＬＴＨＶ，ＧＵＥＺＡ，ＳＩＬＶＥＲＤ．ＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇｗｉｔｈＤｏｕｂｌｅＱｌｅａｒｎｉｎｇ［Ｃ］∥ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＴｈｉｒｔｉｅｔｈＡＡＡＩＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．Ｐｈｏｅｎｉｘ：ＡＡＡＩ，２０１６：２０９４－２１００．

［９］ＳＣＨＡＵＬＴ，ＱＵＡＮＪ，ＡＮＴＯＮＯＧＬＯＵＩ，ｅｔａｌ．ＰｒｉｏｒｉｔｉｚｅｄＥｘｐｅｒｉｅｎｃｅＲｅｐｌａｙ［ＥＢ／ＯＬ］．（２０１５－１１－１８）［２０２４－０１－０６］．ｈｔｔｐｓ：∥ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１５１１．０５９５２．

［１０］ＷＡＮＧＺＹ，ＳＣＨＡＵＬＴ，ＨＥＳＳＥＬＭ，ｅｔａｌ．ＤｕｅｌｉｎｇＮｅｔｗｏｒｋＡｒｃｈｉｔｅｃｔｕｒｅｓｆｏｒＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ［Ｃ］∥ Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３３ｒｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．ＮｅｗＹｏｒｋ：ＪＭＬＲ，２０１６：１９９５－２００３．

［１１］ＬＩＵＸ，ＸＵＹＨ，ＪＩＡＬＬ，ｅｔａｌ．ＡｎｔｉｊａｍｍｉｎｇＣｏｍｍｕｎｉｃａｔｉｏｎｓＵｓｉｎｇＳｐｅｃｔｒｕｍＷａｔｅｒｆａｌｌ：ＡＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇＡｐｐｒｏａｃｈ［Ｊ］．ＩＥＥＥＣｏｍｍｕｎｉｃａｔｉｏｎｓＬｅｔｔｅｒｓ，２０１８，２２（５）：９９８－１００１．

［１２］ＮＡＰＡＲＳＴＥＫＯ，ＣＯＨＥＮＫ．ＤｅｅｐＭｕｌｔｉｕｓｅｒＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇｆｏｒＤｉｓｔｒｉｂｕｔｅｄＤｙｎａｍｉｃＳｐｅｃｔｒｕｍＡｃｃｅｓｓ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＷｉｒｅｌｅｓｓＣｏｍｍｕｎｉｃａｔｉｏｎｓ，２０１９，１８（１）：３１０－３２３．

［１３］ＲＡＳＨＩＤＴ，ＳＡＭＶＥＬＹＡＮＭ，ＷＩＴＴＣＳＤ，ｅｔａｌ．ＭｏｎｏｔｏｎｉｃＶａｌｕｅＦｕｎｃｔｉｏｎＦａｃｔｏｒｉｓａｔｉｏｎｆｏｒＤｅｅｐＭｕｌｔｉａｇｅｎｔＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ［Ｊ］．ＪｏｕｒｎａｌｏｆＭａｃｈｉｎｅＬｅａｒｎｉｎｇＲｅｓｅａｒｃｈ，２０２０，２１（１）：７２３４－７２８４．

［１４］ＳＯＮＫ，ＫＩＭＤ，ＫＡＮＧＷＪ，ｅｔａｌ．ＬｅａｒｎｉｎｇｔｏＦａｃｔｏｒｉｚｅｗｉｔｈＴｒａｎｓｆｏｒｍａｔｉｏｎｆｏｒＣｏｏｐｅｒａｔｉｖｅＭｕｌｔｉａｇｅｎｔＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ［ＥＢ／ＯＬ］．（２０１９－０５－１４）［２０２４－０１－０６］．ｈｔｔｐ：∥ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１９０５．０５４０８．

［１５］ＳＨＩＷＳ，ＬＩＪＬ，ＷＵＨＱ，ｅｔａｌ．ＤｒｏｎｅｃｅｌｌＴｒａｊｅｃｔｏｒｙＰｌａｎｎｉｎｇａｎｄＲｅｓｏｕｒｃｅＡｌｌｏｃａｔｉｏｎｆｏｒＨｉｇｈｌｙＭｏｂｉｌｅＮｅｔｗｏｒｋｓ：ＡＨｉｅｒａｒｃｈｉｃａｌＤＲＬＡｐｐｒｏａｃｈ［Ｊ］．ＩＥＥＥＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓＪｏｕｒｎａｌ，２０２０，８（１２）：９８００－９８１３．

［１６］ＬＩＵＳＹ，ＸＵＹＦ，ＣＨＥＮＸＱ，ｅｔａｌ．ＰａｔｔｅｒｎａｗａｒｅＩｎｔｅｌｌｉｇｅｎｔＡｎｔｉｊａｍｍｉｎｇＣｏｍｍｕｎｉｃａｔｉｏｎ：ＡＳｅｑｕｅｎｔｉａｌＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇＡｐｐｒｏａｃｈ［Ｊ］．ＩＥＥＥＡｃｃｅｓｓ，２０１９，７：１６９２０４－１６９２１６．

［１７］ＫＵＬＫＡＲＮＩＴＤ，ＮＡＲＡＳＩＭＨＡＮＫＲ，ＳＡＥＥＤＩＡ，ｅｔａｌ．ＨｉｅｒａｒｃｈｉｃａｌＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ：ＩｎｔｅｇｒａｔｉｎｇＴｅｍｐｏｒａｌＡｂｓｔｒａｃｔｉｏｎａｎｄＩｎｔｒｉｎｓｉｃＭｏｔｉｖａｔｉｏｎ［Ｃ］∥Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３０ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ．Ｂａｒｃｅｌｏｎａ：ＣｕｒｒａｎＡｓｓｏｃｉａｔｅｓＩｎｃ．，２０１６：３６８２－３６９０．

［１８］ＮＯＣＥＤＡＬＪ，ＷＲＩＧＨＴＳＪ．ＮｕｍｅｒｉｃａｌＯｐｔｉｍｉｚａｔｉｏｎ［Ｍ］．ＮｅｗＹｏｒｋ：Ｓｐｒｉｎｇｅｒ，２００６．

［１９］ＳＵＴＴＯＮＲＳ，ＢＡＲＴＯＡＧ．ＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ：ＡｎＩｎｔｒｏｄｕｃｔｉｏｎ［Ｍ］．Ｃａｍｂｒｉｄｇｅ：ＭＩＴＰｒｅｓｓ，１９９８．

［２０］ＳＡＭＶＥＬＹＡＮＭ，ＲＡＳＨＩＤＴ，ＷＩＴＴＣＳＤ，ｅｔａｌ．ＴｈｅＳｔａｒＣｒａｆｔＭｕｌｔｉａｇｅｎｔＣｈａｌｌｅｎｇｅ．［ＥＢ／ＯＬ］．（２０１９－０２－１１）［２０２４－０１－０６］．ｈｔｔｐ：∥ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１９０２．０４０４３．

作者簡介

暢鑫男，（１９９０—），博士，高級工程師。

劉東輝女，（１９９０—），博士，講師。主要研究方向：復(fù)雜系統(tǒng)管理、策略優(yōu)化等。

基金項(xiàng)目：中國博士后科學(xué)基金（２０２１Ｍ６９３００２）；國家自然科學(xué)基金（７１９９１４８５，７１９９１４８１，７１９９１４８０）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于分層強(qiáng)化學(xué)習(xí)的多智能體博弈策略生成方法