国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于靜態(tài)博弈和遺傳算法的多智能體博弈策略生成方法

2024-09-19 00:00:00劉東輝鄭贏營(yíng)暢鑫李艷斌
無(wú)線電工程 2024年6期
關(guān)鍵詞:遺傳算法

摘 要:在多智能體協(xié)同對(duì)抗策略生成的過(guò)程中,獎(jiǎng)勵(lì)稀疏和神經(jīng)網(wǎng)絡(luò)參數(shù)多易導(dǎo)致策略生成速度慢。針對(duì)特定場(chǎng)景如何快速產(chǎn)生對(duì)抗策略這一問(wèn)題,提出了一種基于靜態(tài)博弈和遺傳算法的多智能體博弈策略生成方法?;陟o態(tài)博弈理念,對(duì)馬爾科夫決策過(guò)程演化,將策略映射為一串動(dòng)作組成,簡(jiǎn)化策略映射原理;對(duì)策略?xún)?yōu)化問(wèn)題數(shù)學(xué)建模。以對(duì)抗結(jié)果作為目標(biāo)函數(shù),基于動(dòng)作集合優(yōu)化目標(biāo)函數(shù),通過(guò)優(yōu)化的方法能夠獲得對(duì)抗結(jié)果最優(yōu)的策略;給出策略?xún)?yōu)化框架,并改進(jìn)遺傳算法實(shí)現(xiàn)對(duì)于多智能體博弈策略的快速并行尋優(yōu)。實(shí)驗(yàn)結(jié)果表明,相比于經(jīng)典多智能體強(qiáng)化學(xué)習(xí)方法,所提方法能夠高效產(chǎn)生多智能體博弈策略。

關(guān)鍵詞:靜態(tài)博弈;遺傳算法;策略生成

中圖分類(lèi)號(hào):TN929. 5 文獻(xiàn)標(biāo)志碼:A 開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

文章編號(hào):1003-3106(2024)06-1355-06

0 引言

隨著人工智能技術(shù)的發(fā)展,近年來(lái)在各控制領(lǐng)域不斷取得亮眼表現(xiàn),如人機(jī)博弈[1]、無(wú)人駕駛[2]和智慧醫(yī)療[3-4]等。特別是對(duì)于多智能體協(xié)同管控的現(xiàn)實(shí)客觀需求,使得智能策略生成和優(yōu)化技術(shù)快速發(fā)展,多智能體博弈策略生成方法成為當(dāng)前的研究熱點(diǎn)。

在實(shí)踐過(guò)程中,面臨的典型問(wèn)題為:對(duì)手策略或者環(huán)境較為固定的情況下,如何快速生成對(duì)抗策略。傳統(tǒng)方法采用強(qiáng)化學(xué)習(xí)方法通過(guò)估計(jì)當(dāng)前狀態(tài)的狀態(tài)轉(zhuǎn)移過(guò)程和動(dòng)作分布從而估計(jì)出得到最大值獎(jiǎng)賞值的策略[5-10],如深度Q 網(wǎng)絡(luò)(Deep Qnetwork,DQN)、Soft ActorCritic (SAC)。但是,隨著實(shí)體個(gè)數(shù)的增加導(dǎo)致部分可觀測(cè)信息和狀態(tài)信息的維度增加,神經(jīng)網(wǎng)絡(luò)維度增加,進(jìn)一步引起神經(jīng)元參數(shù)收斂困難,從而導(dǎo)致神經(jīng)網(wǎng)絡(luò)難訓(xùn)練引起策略生成和優(yōu)化失敗。多智能深度強(qiáng)化學(xué)習(xí)方法被提出用以解決該問(wèn)題,具有代表性的方法是QMIX[11]和Qtran[12]等。除此之外,強(qiáng)化學(xué)習(xí)需要?jiǎng)幼骶哂辛己玫姆答?,但是在工程落地過(guò)程中,存在中間態(tài)指標(biāo)多維度高難以最終結(jié)果作為目標(biāo)進(jìn)行擬合,從而引起在強(qiáng)化學(xué)習(xí)領(lǐng)域中較難處理的“回報(bào)稀疏”問(wèn)題[13-14],但是從對(duì)抗結(jié)果衡量策略效果較易實(shí)現(xiàn)。如在文獻(xiàn)[15]中,任務(wù)是否成功可以直接通過(guò)判斷無(wú)人機(jī)是否達(dá)到指定位置,但是僅依靠終局結(jié)果很難對(duì)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,所以基于課程學(xué)習(xí)思路引入了遷移性評(píng)估指標(biāo)對(duì)獎(jiǎng)賞空間在數(shù)學(xué)表征上進(jìn)行稠密化[16]。但是該方法并不通用,原因在于需要對(duì)領(lǐng)域知識(shí)的深刻理解形成專(zhuān)家知識(shí)牽引智能模型進(jìn)行訓(xùn)練。故針對(duì)特定策略產(chǎn)生對(duì)抗策略的關(guān)鍵問(wèn)題在于如何在稀疏獎(jiǎng)賞的引導(dǎo)下生成對(duì)抗策略。文獻(xiàn)[17]在雷達(dá)探測(cè)策略假定的情況下,梳理出智能干擾設(shè)備可調(diào)整的干擾參數(shù)?;谌蝿?wù)目標(biāo)構(gòu)建目標(biāo)函數(shù)和約束函數(shù),采用元啟發(fā)算法對(duì)參數(shù)進(jìn)行優(yōu)化,從而產(chǎn)生最優(yōu)對(duì)抗策略。該方法對(duì)博弈過(guò)程采用靜態(tài)建模,在整個(gè)過(guò)程中,雷達(dá)在特定模式下初始參數(shù)和行為模型固定,所以干擾參數(shù)數(shù)值求解,并形成靜態(tài)對(duì)抗策略。但是,在動(dòng)態(tài)博弈過(guò)程中,需要通過(guò)動(dòng)作組成策略。策略?xún)?nèi)的動(dòng)作間會(huì)變化,需要針對(duì)動(dòng)態(tài)場(chǎng)景進(jìn)行改進(jìn)[18]。

針對(duì)該不足,基于靜態(tài)博弈理論[19],提出面向動(dòng)態(tài)場(chǎng)景的多智能體博弈策略生成方法。對(duì)馬爾科夫決策過(guò)程演化,將策略映射為一串動(dòng)作組成,簡(jiǎn)化策略映射原理。將策略?xún)?yōu)化問(wèn)題轉(zhuǎn)化為數(shù)學(xué)尋優(yōu)問(wèn)題。以對(duì)抗結(jié)果作為目標(biāo)函數(shù),基于動(dòng)作集合優(yōu)化目標(biāo)函數(shù),獲得對(duì)抗結(jié)果最優(yōu)的策略。除此之外,構(gòu)建并行優(yōu)化框架,改進(jìn)遺傳算法實(shí)現(xiàn)對(duì)于多智能體博弈策略的快速并行尋優(yōu)[20]。實(shí)驗(yàn)結(jié)果表明,相比于經(jīng)典多智能體強(qiáng)化學(xué)習(xí)方法,本方法能夠高效產(chǎn)生多智能體博弈策略。

本文余下內(nèi)容結(jié)構(gòu)組織如下:第1 節(jié)詳細(xì)推導(dǎo)并闡述基于靜態(tài)博弈理論的策略?xún)?yōu)化模型,為后續(xù)第2 節(jié)提出的方法奠定了基礎(chǔ),并在第3 節(jié)通過(guò)實(shí)驗(yàn)驗(yàn)證本方法的有效性,最后總結(jié)全文。

1 基于靜態(tài)博弈理論的策略?xún)?yōu)化模型

基于博弈論,策略π 是由一系列動(dòng)作a 構(gòu)成的。

馬爾科夫決策過(guò)程的本質(zhì)也是在數(shù)學(xué)上尋找到由狀態(tài)st 到at 的映射過(guò)程,其中st ∈S,S 為狀態(tài)空間;at∈A,A 為動(dòng)作空間。在針對(duì)特定策略這一假設(shè)前提下,對(duì)手策略的狀態(tài)動(dòng)作映射較為固定。對(duì)手策略的狀態(tài)動(dòng)作映射可以弱化為策略標(biāo)簽,用于區(qū)分不同對(duì)手策略。進(jìn)一步,可以弱化對(duì)于對(duì)手狀態(tài)st 的特征提取過(guò)程,使策略π 直接施加于對(duì)手策略上,通過(guò)對(duì)抗結(jié)果進(jìn)行反饋。上述演進(jìn)過(guò)程如圖1 所示。

從最優(yōu)化角度分析可知,對(duì)手策略和博弈環(huán)境可以固定為博弈函數(shù)f,策略博弈產(chǎn)生結(jié)果的過(guò)程可以表述為:

Rtotal = f(π), (1)

式中:Rtotal 為總獎(jiǎng)賞。

Rtotal = ΣTt = 1rt。(2)

在典型對(duì)抗環(huán)境中,中間獎(jiǎng)賞較難獲得,需要通過(guò)獎(jiǎng)賞塑形等大量的專(zhuān)業(yè)領(lǐng)域才能構(gòu)成,所以最直觀為采用最終結(jié)果作為獎(jiǎng)賞:

Rtotal = rT 。(3)

最優(yōu)策略即為使得博弈函數(shù)最大的策略,即優(yōu)化目標(biāo)為:

π* = argmax π f(π), (4)

式中:π 為由一系列動(dòng)作構(gòu)成的策略,π 為所有可能的動(dòng)作組合成的策略集合,π 為最優(yōu)策略。

該模型的優(yōu)勢(shì)在于能夠有效地解決獎(jiǎng)賞稀疏的問(wèn)題。在智能決策應(yīng)用場(chǎng)景中,通過(guò)結(jié)果設(shè)計(jì)獎(jiǎng)賞函數(shù)較為容易,如將目標(biāo)擊毀個(gè)數(shù)轉(zhuǎn)化為獎(jiǎng)賞分值[15]。但是,在博弈過(guò)程中,通過(guò)結(jié)果設(shè)計(jì)獎(jiǎng)賞會(huì)使得大部分時(shí)間沒(méi)有獎(jiǎng)賞值,無(wú)法預(yù)測(cè)獎(jiǎng)賞值出現(xiàn)時(shí)間,無(wú)法準(zhǔn)確評(píng)估動(dòng)作的有效性,指引策略的收斂方向。而采用領(lǐng)域知識(shí)可以使得獎(jiǎng)賞稠密,如將智能體與目標(biāo)之間的距離或者將抗干擾跳頻時(shí)選擇的信道間隔轉(zhuǎn)化為獎(jiǎng)賞值[15,18],有助于策略加速收斂。但是,需要領(lǐng)域?qū)<腋鶕?jù)場(chǎng)景需求設(shè)計(jì),容易引入主觀因素導(dǎo)致收斂在局部最優(yōu)策略。所以,針對(duì)上述矛盾,依據(jù)靜態(tài)博弈理論,在獎(jiǎng)賞稀疏的假設(shè)前提條件下,將馬爾科夫決策過(guò)程演化為靜態(tài)優(yōu)化問(wèn)題,明確目標(biāo)函數(shù),將策略?xún)?yōu)化問(wèn)題完全數(shù)學(xué)化表征,使得策略可以通過(guò)數(shù)學(xué)優(yōu)化方法進(jìn)行求解,規(guī)避了馬爾科夫決策過(guò)程在獎(jiǎng)賞稀疏條件下策略生成困難的弊端。

2 基于遺傳算法的策略生成方法

得益于在理論層面將動(dòng)態(tài)博弈問(wèn)題簡(jiǎn)化為了優(yōu)化問(wèn)題,使得采用遺傳算法能夠快速找出博弈過(guò)程中的最優(yōu)動(dòng)作排序,并將其映射為策略,從而實(shí)現(xiàn)針對(duì)特定策略的快速生成。但是,對(duì)于遺傳算法而言,其計(jì)算量大且耗時(shí)的部分在于需要計(jì)算種群中每個(gè)個(gè)體的適應(yīng)度,故提出并行優(yōu)化框架對(duì)方法進(jìn)行加速。后續(xù)本節(jié)分為兩部分,詳細(xì)闡述基于遺傳算法的策略生成方法,分別為并行求解框架和優(yōu)化方法。

2. 1 并行優(yōu)化框架

并行優(yōu)化框架如圖2 所示。整個(gè)并行優(yōu)化過(guò)程闡述如下:首先,構(gòu)建由一系列動(dòng)作作為基因組成策略個(gè)體,再將多個(gè)策略個(gè)體組成策略種群。在該階段,需要根據(jù)對(duì)抗時(shí)長(zhǎng)和受控體的個(gè)數(shù)相乘得到策略個(gè)體中包含的動(dòng)作基因個(gè)數(shù)。然后,每一個(gè)策略個(gè)體在博弈場(chǎng)景中與對(duì)手策略對(duì)抗,將獎(jiǎng)賞作為每個(gè)策略個(gè)體的適應(yīng)值返回。在此過(guò)程中,利用并行進(jìn)行多個(gè)策略個(gè)體的對(duì)抗,能夠快速獲得。最后,將策略種群和個(gè)體依次對(duì)應(yīng)的獎(jiǎng)賞適應(yīng)值傳入優(yōu)化方法。優(yōu)化方法過(guò)濾并生成新的策略種群,并進(jìn)入下一次策略?xún)?yōu)化環(huán)路。由基于靜態(tài)博弈理論的策略生成數(shù)學(xué)優(yōu)化模型一節(jié)的數(shù)學(xué)分析過(guò)程可以看出,作為核心理論,其在實(shí)施層面具有良好的并行化能力,從而使得并行化框架的構(gòu)建成為可能,并將結(jié)合硬件算力大幅度提升策略?xún)?yōu)化的性能。

2. 2 優(yōu)化方法

在優(yōu)化過(guò)程中,需要完成策略的數(shù)學(xué)化表達(dá)。假設(shè)在多智能體對(duì)抗環(huán)境中,智能體個(gè)數(shù)為N,在博弈期間需要執(zhí)行動(dòng)作次數(shù)為T,每次執(zhí)行離散動(dòng)作。故策略個(gè)體π 由N×T 個(gè)動(dòng)作基因組成,即:

π = [a1 ,a2 ,…,aT ]NT 。(5)

當(dāng)策略種群由M 個(gè)策略個(gè)體組成時(shí),策略種群π 可以表示為:

π = [π1 ,π2 ,…,πM ]M ×NT 。(6)

構(gòu)建多個(gè)線程L,線程之間相互獨(dú)立。針對(duì)不同策略個(gè)體的開(kāi)展K 次博弈對(duì)抗,得到與個(gè)體相對(duì)應(yīng)的獎(jiǎng)賞適應(yīng)值:

當(dāng)所有策略個(gè)體對(duì)應(yīng)的獎(jiǎng)賞適應(yīng)值計(jì)算運(yùn)行完成后,按照獎(jiǎng)賞適應(yīng)度由高到低,對(duì)策略種群π 中的策略個(gè)體π 排序。

根據(jù)策略種群π 獎(jiǎng)賞適應(yīng)值進(jìn)行個(gè)體獎(jiǎng)賞適應(yīng)值的歸一化,對(duì)于第m 個(gè)策略個(gè)體π,其種群選擇概率為:

根據(jù)個(gè)體策略的獎(jiǎng)賞適應(yīng)值對(duì)種群進(jìn)行過(guò)濾,保留指定數(shù)量M′個(gè)獎(jiǎng)賞適應(yīng)值排名靠前的策略個(gè)體。除此之外,在剩余策略個(gè)體中,隨機(jī)抽取2 個(gè)策略個(gè)體進(jìn)行拼接形成新策略個(gè)體并放回種群中,該過(guò)程可以通過(guò)數(shù)學(xué)表達(dá)為:

π′1 = [π1 [1:t′],π2 [t′ + 1:T]], (9)

π′2 = [π2 [1:t′],π1 [t′ + 1:T]], (10)

式中:π1 和 π2 為隨機(jī)抽取出的策略個(gè)體,π1′和 π2′為拼接后的策略個(gè)體,t′為隨機(jī)生成的拼接位置,t′∈NT,隨機(jī)概率門(mén)限為ε1 。

為了進(jìn)一步提高策略種群的搜索能力,對(duì)種群中的個(gè)體進(jìn)行動(dòng)作基因突變操作。遍歷新生成策略種群中每個(gè)動(dòng)作基因,以概率門(mén)限為ε2 為基礎(chǔ)進(jìn)行隨機(jī)變異。當(dāng)超過(guò)變異門(mén)限時(shí),從可選動(dòng)作范圍內(nèi)隨機(jī)選擇一個(gè)離散動(dòng)作進(jìn)行替換。

經(jīng)過(guò)上述過(guò)程的迭代,最終即可獲得最優(yōu)策略個(gè)體和其對(duì)應(yīng)的最優(yōu)獎(jiǎng)賞適應(yīng)值。

3 實(shí)驗(yàn)驗(yàn)證

實(shí)驗(yàn)驗(yàn)證由實(shí)驗(yàn)場(chǎng)景、實(shí)驗(yàn)設(shè)計(jì)、參數(shù)設(shè)置和結(jié)果分析四部分組成。

3. 1 實(shí)驗(yàn)場(chǎng)景

為了能夠有效驗(yàn)證本方法的有效性,采用DeepMind 和暴雪公司開(kāi)發(fā)的基于“星際爭(zhēng)霸2”的多智能體對(duì)抗環(huán)境(StarCraft MultiAgent Challenge,SMAC)進(jìn)行實(shí)驗(yàn)[21]。SMAC 內(nèi)置基線對(duì)抗策略,用于驗(yàn)證策略效果。除此之外,由于典型用于多智能體策略對(duì)抗的深度強(qiáng)化學(xué)習(xí)需要對(duì)應(yīng)場(chǎng)景進(jìn)行超參數(shù)調(diào)整,該典型場(chǎng)景公認(rèn)性較高,故均基于此環(huán)境進(jìn)行開(kāi)發(fā)和調(diào)試,其對(duì)照算法的超參數(shù)可以直接獲得。采用SMAC 環(huán)境中名稱(chēng)為“3m”的多智能體同構(gòu)場(chǎng)景進(jìn)行驗(yàn)證。

3. 2 實(shí)驗(yàn)設(shè)計(jì)

實(shí)驗(yàn)過(guò)程共設(shè)置步長(zhǎng)為106 ,分為訓(xùn)練階段和評(píng)估階段,以5 000 步為周期循環(huán)。在訓(xùn)練階段,設(shè)置種群訓(xùn)練門(mén)限為5 000 步。在該階段內(nèi),對(duì)種群內(nèi)個(gè)體進(jìn)行適應(yīng)度并行計(jì)算和交叉變異。當(dāng)每種群運(yùn)行步數(shù)超過(guò)5 000 步進(jìn)行一次性能評(píng)估。在性能評(píng)估階段,與基線策略對(duì)抗24 回合。衡量對(duì)抗策略的有效性,最根本在于評(píng)估勝率,故在實(shí)驗(yàn)中用勝率作為評(píng)估指標(biāo)。對(duì)于勝率而言,計(jì)算24 回合內(nèi)與“3m”場(chǎng)景的基線策略對(duì)抗獲勝的次數(shù),再除以總回合數(shù)得到勝率。除此之外,在實(shí)驗(yàn)過(guò)程中,將QMIX和ValueDecomposition Networks (VDN )方法在“3m”場(chǎng)景中的勝率和平均獎(jiǎng)賞作為對(duì)照組,驗(yàn)證本方法的性能。除此之外,VDN 和QMIX 方法分別使用以結(jié)果作為獎(jiǎng)賞的非獎(jiǎng)賞塑形和SMAC 環(huán)境提供的獎(jiǎng)賞塑形。在判斷勝負(fù)的基礎(chǔ)上,SMAC 環(huán)境提供的塑形獎(jiǎng)賞通過(guò)受控體之間的位置關(guān)系和生命值等特征構(gòu)建了獎(jiǎng)賞函數(shù)。通過(guò)設(shè)置對(duì)照實(shí)驗(yàn),用于展示獎(jiǎng)賞稀疏對(duì)于典型算法的影響,突出該問(wèn)題解決的必要性,并驗(yàn)證了本方法在解決該問(wèn)題上的有效性。

3. 3 參數(shù)設(shè)置

本文實(shí)驗(yàn)所用到的算法參數(shù)如下表1 所示。

3. 4 結(jié)果分析

策略效果如圖3 所示,展示了本方法、VDN 和QMIX 隨訓(xùn)練步長(zhǎng)增加的勝率變化趨勢(shì)。在圖3中,“VDN-獎(jiǎng)賞塑形”和“QMIX-獎(jiǎng)賞塑形”表示采用SMAC 提供的獎(jiǎng)賞塑形進(jìn)行訓(xùn)練得到的博弈策略,而VDN 和QMIX 表示僅通過(guò)勝負(fù)關(guān)系構(gòu)建獎(jiǎng)賞得到的博弈策略。從對(duì)比采用獎(jiǎng)賞塑形和非獎(jiǎng)賞塑形的2 種方法可以看出,采用獎(jiǎng)賞塑形的方法勝率提升趨勢(shì)較為穩(wěn)定,而采用非獎(jiǎng)賞塑形的由于獎(jiǎng)賞反饋稀疏,在實(shí)驗(yàn)初期勝率提升較慢,且在實(shí)驗(yàn)中后期出現(xiàn)明顯的勝率衰退現(xiàn)象。雖然通過(guò)保存最大勝率對(duì)應(yīng)的神經(jīng)網(wǎng)絡(luò)參數(shù)的方法使其不至于出現(xiàn)嚴(yán)重衰退,但是勝率無(wú)法與塑形獎(jiǎng)賞相比。相比之下,雖然本文方法、“VDN -獎(jiǎng)賞塑形”和“QMIX -獎(jiǎng)賞塑形”都能夠達(dá)到最大勝率,但是本文方法速度快且穩(wěn)定,且能夠有效避免由于獎(jiǎng)賞稀疏導(dǎo)致的性能衰退。

為了進(jìn)一步量化對(duì)比方法性能,對(duì)5 種方法的勝率求取均值和最大值,如表2 所示。5 種方法均能夠達(dá)到最大勝率,但是通過(guò)勝率均值可以發(fā)現(xiàn),本文方法相比于其他方法的勝率均值最大,表明本文方法相對(duì)穩(wěn)定。

綜合圖3 和表2 的勝率趨勢(shì)和量化勝率,可見(jiàn)本文方法在針對(duì)特定對(duì)手策略時(shí),在獎(jiǎng)賞稀疏的情況下,能夠快速且穩(wěn)定地生成對(duì)抗策略。

4 結(jié)束語(yǔ)

針對(duì)特定策略如何快速產(chǎn)生對(duì)抗策略這一問(wèn)題,結(jié)合博弈論中的靜態(tài)博弈理論和遺傳算法,提出了一種改進(jìn)的多智能體博弈策略生成方法。在理論層面,基于靜態(tài)博弈理念,對(duì)馬爾科夫決策過(guò)程演化,將策略映射為一串動(dòng)作組成,簡(jiǎn)化策略映射原理。在理論基礎(chǔ)上,對(duì)策略?xún)?yōu)化問(wèn)題數(shù)學(xué)建模。以對(duì)抗結(jié)果作為目標(biāo)函數(shù),基于動(dòng)作集合優(yōu)化目標(biāo)函數(shù),通過(guò)優(yōu)化的方法能夠獲得對(duì)抗結(jié)果最優(yōu)的策略。在實(shí)現(xiàn)層面,設(shè)計(jì)策略?xún)?yōu)化框架,并改進(jìn)遺傳算法實(shí)現(xiàn)對(duì)于多智能體博弈策略的快速并行尋優(yōu)。在實(shí)驗(yàn)中,將典型多智能體強(qiáng)化學(xué)習(xí)方法作為基線,通過(guò)與基線方法對(duì)比,表明了本方法產(chǎn)生策略的高效性,并且展現(xiàn)了本文方法基于并行方法能夠有效提高策略生成與優(yōu)化速度。

參考文獻(xiàn)

[1] MNIH V,KAVUKCUOGLU K,SILVER D,et al. HumanLevel Control through Deep Reinforcement Learning[J].Nature,2015,518:529-533.

[2] FENG S,SUN H W,YAN X T,et al. Dense ReinforcementLearning for Safety Validation of Autonomous Vehicles[J]. Nature,2023,615:620-627.

[3] ZHU Y,LIANG X F,WANG T T,et al. MultiinformationFusion Fault Diagnosis of Bogie Bearing under Small Samples via Unsupervised Representation Alignment Deep Qlearning [J]. IEEE Transactions on Instrumentation andMeasurement,2022,72:3503315.

[4] ZHU M X,ZHU H G. Learning a Diagnostic Strategy onMedical Data with Deep Reinforcement Learning [J ].IEEE Access,2021,9:84122-84133.

[5] MNIH V,KAVUKCUOGLU K,SILVER D,et al. PlayingAtari with Deep ReinforcementLearning [EB / OL ].(2013-12-19)[2024-03-06]. https:∥arxiv. org / abs /1312. 5602.

[6] HASSELT H V,GUEZ A,SILVER D. Deep ReinforcementLearning with Double Qlearning [C]∥ Proceding of theThirtieth AAAI Conference on Artifical Intelligence. Phoenix:AAAI Press,2016:2094-2100.

[7] SCHAUL T,QUAN J,ANTONOGLOU I,et al. PrioritizedExperience Replay[EB / OL]. (2015 - 11 - 18 )[2024 -03-06]. https:∥arxiv. org / abs / 1511. 05952.

[8] HAARNOJA T,ZHOU A,ABBEEl P,et al. Soft Actorcritic:Offpolicy Maximum Entropy Deep ReinforcementLearning with a Stochastic Actor[EB / OL]. (2018 - 01 -04)[2024-03-06]. https:∥arXiv:1801. 01290v2.

[9] HAARNOJA T,ZHOU A,HARTIKAINEN K,et al. SoftActorcritic Algorithms and Applications[EB/ OL]. (2018-12-13)[2023-09-06]. https:∥ arXiv:1707. 06347v2.

[10] WANG Z Y,SCHAUL T,HESSEL M,et al. Dueling NetworkArchitectures for Deep Reinforcement Learning [C]∥Proceeding of the 33rd International Conference on MachineLearning. New York:JMLR. org,2016:1995-2003.

[11]RASHID T,SAMVELYAN M,WITT C S D,et al. MonotonicValue Function Factorisation for Deep Multiagent Reinforcement Learning [J]. Journal of Machine Learning Research,2020,21(1):7234-7284.

[12]SON K,KIM D,KANG W J,et al. QTRAN:Learning to Factorize with Transformation for Cooperative Multiagent Reinforcement Learning [EB/ OL]. (2019 -05 -14)[2024 -03 -06]. http:∥arXiv. org/ abs/ 1905. 05408.

[13]WANG X,CHEN Y D,ZHU W W. A Survey on CurriculumLearning [J]. IEEE Transactions on Pattern Analysis andMachine Intelligence,2022,44(9):4555-4576.

[14] OKUDO T,YAMADA S. Learning Potential in Subgoalbased Reward Shaping [J ]. IEEE Access,2023,11:17116-17137.

[15] 暢鑫,李艷斌,趙研,等. 基于MA2IDDPG 算法的異構(gòu)多無(wú)人機(jī)協(xié)同突防方法[J]. 河北工業(yè)科技,2022,39(4):328-334.

[16] YIN H,GUO S X,LI A,et al. A Deep ReinforcementLearningbased Decentralized Hierarchical Motion ControlStrategy for Multiple Amphibious Spherical Robot Systemswith Tilting Thrusters [J]. IEEE Sensors Journal,2024,24(1):769-779.

[17] CHANG X,LI Y B,ZHAO Y,et al. A MultiplejammerDeceptive Jamming Method Based on Particle Swarm Optimization against Threechannel SAR GMTI [J]. IEEEAccess,2021,9:138385-138393.

[18] LIU S Y,XU Y F,CHEN X Q,et al. Patternaware Intelligent Antijamming Communication:A Sequential DeepReinforcement Learning Approach [J ]. IEEE Access,2019,7:169204-169216.

[19] 阿維亞德·海菲茲. 博弈論[M]. 劉勇,譯. 上海:上海人民出版社,2015.

[20] ENGELBRECHTA P. Computational Intelligence:An Introduction[M]. New Jersey:Wiley,2007.

[21] SAMVELYAN M,RASHID T,WITT C S D,et al. TheStarCraft Multiagent Challenge[C]∥ Proceedings of the18th International Conference on Autonomous Agents andMulti Agent Systems. Montreal:International Foundutionfor Autonomous Agents and Multiagent Systems,2019:2186-2188.

作者簡(jiǎn)介

劉東輝 女,(1990—),博士,講師。主要研究方向:復(fù)雜系統(tǒng)管理、策略?xún)?yōu)化等。

鄭贏營(yíng) 女,(1998—),碩士研究生。主要研究方向:復(fù)雜系統(tǒng)管理。

暢 鑫 男,(1990—),博士,高級(jí)工程師。

基金項(xiàng)目:國(guó)家自然科學(xué)基金(71991485,71991481,71991480);中國(guó)博士后科學(xué)基金(2021M693002)

猜你喜歡
遺傳算法
遺傳算法對(duì)CMAC與PID并行勵(lì)磁控制的優(yōu)化
基于自適應(yīng)遺傳算法的CSAMT一維反演
基于遺傳算法的建筑物沉降回歸分析
一種基于遺傳算法的聚類(lèi)分析方法在DNA序列比較中的應(yīng)用
基于遺傳算法和LS-SVM的財(cái)務(wù)危機(jī)預(yù)測(cè)
遺傳算法識(shí)別模型在水污染源辨識(shí)中的應(yīng)用
協(xié)同進(jìn)化在遺傳算法中的應(yīng)用研究
軟件發(fā)布規(guī)劃的遺傳算法實(shí)現(xiàn)與解釋
基于遺傳算法的三體船快速性仿真分析
基于改進(jìn)的遺傳算法的模糊聚類(lèi)算法
定日县| 遵义市| 黑河市| 通江县| 鲁山县| 南平市| 蒙自县| 宁津县| 错那县| 江山市| 曲松县| 满洲里市| 威宁| 常州市| 芦山县| 太原市| 宜春市| 古田县| 泽库县| 台中县| 吴川市| 静宁县| 南涧| 隆化县| 格尔木市| 都安| 余庆县| 昌邑市| 涞源县| 安西县| 方城县| 东山县| 霍州市| 凭祥市| 积石山| 周宁县| 彰化市| 奉新县| 从化市| 天峨县| 浦北县|