国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多智能體深度強(qiáng)化學(xué)習(xí)研究綜述

2020-03-11 13:53陳希亮徐志雄
關(guān)鍵詞:函數(shù)智能算法

孫 彧,曹 雷,陳希亮,徐志雄,賴 俊

1.陸軍工程大學(xué) 指揮控制工程學(xué)院,南京210007

2.中國人民解放軍31102部隊(duì)

1 引言

多智能體系統(tǒng)(Multi-Agent System,MAS)[1]是在同一個(gè)環(huán)境中由多個(gè)交互智能體組成的系統(tǒng),該系統(tǒng)常用于解決獨(dú)立智能體以及單層系統(tǒng)難以解決的問題,其中的智能可以由方法、函數(shù)、過程,算法或強(qiáng)化學(xué)習(xí)來實(shí)現(xiàn)[2]。多智能體系統(tǒng)因其較強(qiáng)的實(shí)用性和擴(kuò)展性,在機(jī)器人合作、分布式控制[3]、資源管理、協(xié)同決策支持系統(tǒng)、自主化作戰(zhàn)系統(tǒng)、數(shù)據(jù)挖掘等領(lǐng)域都得到了廣泛的應(yīng)用。

強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)[4]是機(jī)器學(xué)習(xí)的一個(gè)重要分支,其本質(zhì)是描述和解決智能體在與環(huán)境的交互過程中學(xué)習(xí)策略以最大化回報(bào)或?qū)崿F(xiàn)特定目標(biāo)的問題。與監(jiān)督學(xué)習(xí)不同,強(qiáng)化學(xué)習(xí)并不告訴智能體如何產(chǎn)生正確的動(dòng)作,它只對動(dòng)作的好壞做出評(píng)價(jià)并根據(jù)反饋信號(hào)修正動(dòng)作選擇和策略,所以強(qiáng)化學(xué)習(xí)的回報(bào)函數(shù)所需的信息量更少,也更容易設(shè)計(jì),適合解決較為復(fù)雜的決策問題。近來,隨著深度學(xué)習(xí)(Deep Learning,DL)[5]技術(shù)的興起及其在諸多領(lǐng)域取得輝煌的成就,融合深度神經(jīng)網(wǎng)絡(luò)和RL 的深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)[6]成為各方研究的熱點(diǎn),并在計(jì)算機(jī)視覺、機(jī)器人控制、大型即時(shí)戰(zhàn)略游戲等領(lǐng)域取得了較大的突破。

DRL 的巨大成功促使研究人員將目光轉(zhuǎn)向多智能體領(lǐng)域,他們大膽地嘗試將DRL方法融入到MAS中,意圖完成多智能體環(huán)境中的眾多復(fù)雜任務(wù),這就催生了多智能體深度強(qiáng)化學(xué)習(xí)(Multi-agent Deep Reinforcement Learning,MDRL)[7],經(jīng)過數(shù)年的發(fā)展創(chuàng)新,MDRL 誕生了眾多算法、規(guī)則、框架,并已廣泛應(yīng)用于各類現(xiàn)實(shí)領(lǐng)域。從單到多、從簡單到復(fù)雜、從低維到高維的發(fā)展脈絡(luò)表明,MDRL 正逐漸成為機(jī)器學(xué)習(xí)乃至人工智能領(lǐng)域最火熱的研究和應(yīng)用方向,具有極高的研究價(jià)值和意義。

2 多智能體深度強(qiáng)化學(xué)習(xí)基本理論

2.1 單智能體強(qiáng)化學(xué)習(xí)

單智能體強(qiáng)化學(xué)習(xí)(Single Agent Reinforcement Learning,SARL)中智能體與環(huán)境的交互遵循馬爾可夫決策過程(Markov Decision Process,MDP)[8]。圖1 表示單智能體強(qiáng)化學(xué)習(xí)的基本框架。

圖1 單智能體強(qiáng)化學(xué)習(xí)基本框架

MDP 一般由多元組 S,A,R,f,γ 表示,其中S 和A 分別代表智能體的狀態(tài)和動(dòng)作空間,智能體的狀態(tài)轉(zhuǎn)移函數(shù)可表示為:

它決定了在給定動(dòng)作a ∈A 的情況下,由狀態(tài)s ∈S轉(zhuǎn)移到下一個(gè)狀態(tài)s′∈S 的概率分布,回報(bào)函數(shù)為:

其定義了智能體通過動(dòng)作a 從狀態(tài)s 轉(zhuǎn)移到狀態(tài)s′所得到的環(huán)境瞬時(shí)回報(bào)。從開始時(shí)刻t 到T 時(shí)刻交互結(jié)束時(shí),環(huán)境的總回報(bào)可表示為:

其中γ ∈[0 ,1] 為折扣系數(shù),它用于平衡智能體的瞬時(shí)回報(bào)和長期回報(bào)對總回報(bào)的影響。智能體的學(xué)習(xí)策略可表示為狀態(tài)到動(dòng)作的映射π:S →A,MDP 的求解目標(biāo)是找到期望回報(bào)值最大的最優(yōu)策略π*,一般用最優(yōu)狀態(tài)動(dòng)作值函數(shù)(Q 函數(shù))形式化表征期望回報(bào):

其遵循最優(yōu)貝爾曼方程(Bellman Equation):

幾乎所有強(qiáng)化學(xué)習(xí)的方法都采用迭代貝爾曼方程[9]的形式求解Q 函數(shù),隨著迭代次數(shù)不斷增加,Q 函數(shù)最終得以收斂,進(jìn)而得到最優(yōu)策略:

Q 學(xué)習(xí)(Q-Learning)[10]是最經(jīng)典的RL算法,它使用表格存儲(chǔ)智能體的Q 值,其Q 表的更新方式如下所示:

算法通過不斷迭代更新Q 函數(shù)的方式求得最優(yōu)解。

與上述基于值函數(shù)(Value Based,VB)的RL方法不同,基于策略梯度(Policy Gradient,PG)[11]的方法用參數(shù)化的策略θ 代替Q 函數(shù),并利用梯度下降的方法逼近求解最優(yōu)策略,該類方法可以用來求解連續(xù)動(dòng)作空間的問題,其代表性算法有REINFORCE[12]、PG[11]、DPG[13]等。

2.2 深度強(qiáng)化學(xué)習(xí)

傳統(tǒng)RL方法有較多局限性,如學(xué)習(xí)速率慢、泛化性差、需要手動(dòng)對狀態(tài)特征進(jìn)行建模、無法應(yīng)對高維空間等。為了解決此類問題,研究人員利用深度神經(jīng)網(wǎng)絡(luò)對Q 函數(shù)和策略進(jìn)行近似,這就是深度強(qiáng)化學(xué)習(xí)方法,DRL不僅讓智能體能夠面對高維的狀態(tài)空間,而且解決了狀態(tài)特征難以建模的問題,下面簡要介紹DRL 及其典型算法。

2.2.1 基于值函數(shù)的方法

深度Q 網(wǎng)絡(luò)(Deep Q-Network,DQN)結(jié)合了深度神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)RL算法Q-Learning的優(yōu)點(diǎn),它使用神經(jīng)網(wǎng)絡(luò)對值函數(shù)進(jìn)行近似,與Q 學(xué)習(xí)等傳統(tǒng)RL算法不同,DQN放棄了以表格形式記錄智能體Q 值的方式,而采用經(jīng)驗(yàn)庫(Experience Replay Buffer)[14]將環(huán)境探索得到的數(shù)據(jù)以記憶單元 s,a,r,s′ 的形式儲(chǔ)存起來,然后利用隨機(jī)小樣本采樣的方法更新和訓(xùn)練神經(jīng)網(wǎng)絡(luò)參數(shù)。另外DQN還引入雙網(wǎng)絡(luò)結(jié)構(gòu)(Fixed Q-targets),即同時(shí)使用Q 網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)訓(xùn)練模型,其中Q 網(wǎng)絡(luò)參數(shù)θ 隨訓(xùn)練過程實(shí)時(shí)更新,而目標(biāo)網(wǎng)絡(luò)的參數(shù)θ-是每經(jīng)過一定次數(shù)迭代后Q 網(wǎng)絡(luò)參數(shù)的復(fù)制值,DQN 在每輪迭代i 中的目標(biāo)為最小化Q 網(wǎng)絡(luò)及其目標(biāo)網(wǎng)絡(luò)之間的損失函數(shù)。

在經(jīng)驗(yàn)庫機(jī)制和雙網(wǎng)絡(luò)結(jié)構(gòu)的共同作用下,DQN有效解決了數(shù)據(jù)高相關(guān)性的問題,提升了神經(jīng)網(wǎng)絡(luò)更新效率和算法收斂效果,在實(shí)際應(yīng)用中,DQN能夠在多種策略游戲中戰(zhàn)勝高水平人類玩家。研究人員圍繞DQN在多個(gè)方面也進(jìn)行了改進(jìn)和拓展,如文獻(xiàn)[15]采用雙函數(shù)近似解決了過估計(jì)問題;文獻(xiàn)[16]利用優(yōu)勢函數(shù)(Advantage Function)將Q 函數(shù)進(jìn)行分解和整合,提升了動(dòng)作輸出的確定性;文獻(xiàn)[17]使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)和長短時(shí)記憶單元(Long Short Temporal Memory,LSTM)代替?zhèn)鹘y(tǒng)的神經(jīng)網(wǎng)絡(luò),強(qiáng)化了算法應(yīng)對不同環(huán)境的魯棒性;文獻(xiàn)[18]則優(yōu)化了DQN 的經(jīng)驗(yàn)庫機(jī)制,提高了算法訓(xùn)練的效率和效果。

2.2.2 基于策略梯度的方法

與以DQN 為代表的VB 方法相比,PG 方法具有能夠勝任連續(xù)且高維的動(dòng)作空間的優(yōu)點(diǎn)。其代表算法為深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)[19]。DDPG基于演員評(píng)論家(Actor-Critic,AC)框架[20];在輸入方面,其通過在Actor網(wǎng)絡(luò)引入隨機(jī)噪聲的方式產(chǎn)生探索策略;在動(dòng)作輸出方面采用神經(jīng)網(wǎng)絡(luò)來擬合策略函數(shù),并直接輸出動(dòng)作以應(yīng)對連續(xù)動(dòng)作空間;在參數(shù)更新方面,與DQN中直接參數(shù)復(fù)制的方法不同,該算法采用緩慢更新參數(shù)的方法提升穩(wěn)定性;DDPG還引入了批正則化(Batch Normalization)方法保證其對多種任務(wù)的泛化能力。除了DDPG 外,AC 框架與PG方法相融合衍生出多種DRL算法,如使用多CPU線程進(jìn)行分布式學(xué)習(xí)的異步優(yōu)勢演員評(píng)論家(Asynchronous Advantage Actor-Critic,A3C)算法[21];增強(qiáng)策略梯度穩(wěn)定性的信賴域策略優(yōu)化(Trust Region Policy Optimization,TRPO)[22]和近端策略優(yōu)化(Proximal Policy Optimization,PPO)算法[23]等。

DRL 的成功表明,RL 和神經(jīng)網(wǎng)絡(luò)的融合在單智能體領(lǐng)域已較為普遍,并產(chǎn)生了大量成熟的算法,這為MDRL的突破指明了方向并提供了開闊的思路。

2.3 多智能體強(qiáng)化學(xué)習(xí)

與單智能體RL 不同,多智能體強(qiáng)化學(xué)習(xí)(Multi-Agent Reinforcement Learning,MARL)遵循隨機(jī)博弈(Stochastic Game,SG)[24]過程。圖2描述了多智能體強(qiáng)化學(xué)習(xí)的基本框架。

圖2 多智能體強(qiáng)化學(xué)習(xí)基本框架

SG 可由多元組 S,A1,A2,…,An,R1,R2,…,Rn,f,γ 表示,其中n 為環(huán)境中智能體的數(shù)量,S 為環(huán)境的狀態(tài)空間,Ai( )

i=1,2,…,n 為每個(gè)智能體的動(dòng)作空間,A=A1×A2×…×An為所有智能體的聯(lián)合動(dòng)作空間,聯(lián)合狀態(tài)轉(zhuǎn)移函數(shù)可表示為:

它決定了在執(zhí)行聯(lián)合動(dòng)作a ∈A 的情況下,由狀態(tài)s ∈S 轉(zhuǎn)移到下一個(gè)狀態(tài)s ∈S′的概率分布,每個(gè)智能體的回報(bào)函數(shù)可表示為:

在多智能體環(huán)境中,狀態(tài)轉(zhuǎn)移是所有智能體共同作用的結(jié)果:

每個(gè)智能體的個(gè)體策略為:

它們共同構(gòu)成聯(lián)合策略π 。由于智能體的回報(bào)ri,k+1取決于聯(lián)合動(dòng)作,所以總回報(bào)取決于聯(lián)合策略:

每個(gè)智能體的Q 函數(shù)則取決于聯(lián)合動(dòng)作Qπi:S×A →R,求解方式為:

MARL 的算法根據(jù)其回報(bào)函數(shù)的不同可以分為完全合作型(Fully Cooperative)[25]、完全競爭型(Fully Competitive)[25]和混合型(Mixed)[25]三種任務(wù)類型,完全合作型算法中智能體的回報(bào)函數(shù)是相同的,即R1=R2=…=Rn,表示所有智能體都在為實(shí)現(xiàn)共同的目標(biāo)而努力,其代表算法有團(tuán)隊(duì)Q 學(xué)習(xí)(Team Q-learning)[26]、分布式Q 學(xué)習(xí)(Distributed Q-learning)[27]等;完全競爭型算法中智能體的回報(bào)函數(shù)是相反的,環(huán)境通常存在兩個(gè)完全敵對的智能體,它們遵循SG原則,即R1=-R2,智能體的目標(biāo)是最大化自身的回報(bào),同時(shí)盡可能最小化對方回報(bào),其代表算法為Minimax-Q[28];混合型任務(wù)中智能體的回報(bào)函數(shù)并無確定性正負(fù)關(guān)系,該模型適合自利型(Self-interested)智能體,一般來說此類任務(wù)的求解大都與博弈論中均衡解的概念相關(guān),即當(dāng)環(huán)境中的一個(gè)狀態(tài)存在多個(gè)均衡時(shí),智能體需要一致選擇同一個(gè)均衡。該類算法主要面向靜態(tài)任務(wù),比較典型的有納什Q學(xué)習(xí)(Nash Q-learning)[29]、相關(guān)Q 學(xué)習(xí)(Correlated Qlearning)[30]、朋友或敵人Q 學(xué)習(xí)(Friend or Foe Qlearning)[31]等。表1對多智能體強(qiáng)化學(xué)習(xí)的算法進(jìn)行了簡要匯總。

表1 多智能體強(qiáng)化學(xué)習(xí)算法匯總

總的來看,傳統(tǒng)MARL 方法有很多優(yōu)點(diǎn),如合作型智能體間可以互相配合完成高復(fù)雜度的任務(wù);多個(gè)智能體可以通過并行計(jì)算提升算法的效率;競爭型智能體間也可以通過博弈互相學(xué)習(xí)對手的策略,這都是SARL所不具備的。當(dāng)然MARL也有較多缺陷,如RL固有的探索利用矛盾(Explore and Exploit)和維度災(zāi)難(Curse of Dimensionality);多智能體環(huán)境非平穩(wěn)性(Nonestationary)問題;多智能體信度分配(Multiagent Credit Assignment)[32]問題;最優(yōu)均衡解問題;學(xué)習(xí)目標(biāo)選擇問題等。

3 多智能體深度強(qiáng)化學(xué)習(xí)及其經(jīng)典方法

由于傳統(tǒng)MARL 方法存在諸多缺點(diǎn)和局限,其只適用于解決小型環(huán)境中的簡單確定性問題,研究如何將深度神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)MARL 相融合的MDRL 方法具有很大的現(xiàn)實(shí)意義和迫切性。本章將分類介紹主流的MDRL 方法并對每類方法的優(yōu)缺點(diǎn)進(jìn)行比較。按照智能體之間的通聯(lián)方式,大致將當(dāng)前的MDRL 方法分為:無關(guān)聯(lián)型、通信規(guī)則型、互相協(xié)作型和建模學(xué)習(xí)型

4 大類。

3.1 無關(guān)聯(lián)型

此類方法并不從算法創(chuàng)新本身入手,而是將單智能體DRL 算法直接擴(kuò)展到多智能體環(huán)境中,每個(gè)智能體獨(dú)立地與環(huán)境進(jìn)行交互并自發(fā)地形成行為策略,互相之間不存在通信關(guān)聯(lián),其最初多用于測試單智能體DRL方法在多智能體環(huán)境中的適應(yīng)性。

Tampuu[33]、Leibo[34]、Peysakhovich[35]等人最早將DQN算法分別應(yīng)用到Atari乒乓球游戲等多種簡單博弈場景中,他們在算法中引入了自博弈(Self-play)[36]機(jī)制和兩套不同的回報(bào)函數(shù)以保證算法收斂,實(shí)驗(yàn)表明,DQN算法在這些簡單多智能體場景中能夠保證智能體之間的合作和競爭行為;Bansal等人[37]將PPO算法應(yīng)用到競爭型多智能體模擬環(huán)境MuJoCo中,他們引入了探索回報(bào)(Exploration Rewards)[38]和對手采樣(Opponent Sampling)[39]兩種技術(shù)保證智能體形成自發(fā)性對抗策略,探索回報(bào)引導(dǎo)智能體在訓(xùn)練的前期學(xué)習(xí)到非對抗性的策略,以增加學(xué)習(xí)策略的維度;對手采樣則引導(dǎo)智能體同時(shí)對新舊兩種對手智能體進(jìn)行采樣,以增加學(xué)習(xí)策略的廣度;Raghu 等人[40]則嘗試使用DQN、A3C、PPO 等多種單智能體DRL 算法解決了雙人零和博弈問題,實(shí)驗(yàn)結(jié)果表明算法可以根據(jù)博弈問題的難易程度形成不同的行為策略;Gupta等人[41]將DQN、TRPO、DDPG等算法與循環(huán)神經(jīng)網(wǎng)絡(luò)相結(jié)合,應(yīng)用到多智能體環(huán)境中,為了提升算法在多智能體環(huán)境中的可擴(kuò)展性,他們引入了參數(shù)共享和課程學(xué)習(xí)機(jī)制,算法在多種場景中都取得了不錯(cuò)的效果。由于無關(guān)聯(lián)型方法屬于早期對多智能體學(xué)習(xí)環(huán)境的勇敢嘗試,國內(nèi)研究團(tuán)隊(duì)相對來說較為滯后,理論和實(shí)驗(yàn)貢獻(xiàn)較為有限。表2總結(jié)分析了無關(guān)聯(lián)型方法。

表2 無關(guān)聯(lián)型方法總結(jié)分析

無關(guān)聯(lián)型方法較易實(shí)現(xiàn),算法無需在智能體之間構(gòu)建通信規(guī)則,每個(gè)智能體獨(dú)立與環(huán)境交互并完成訓(xùn)練過程,該類方法能夠有效地規(guī)避維度災(zāi)難帶來的影響,且在可擴(kuò)展性方面有先天性的優(yōu)勢。但它的局限性也十分明顯,由于智能體之間互不通聯(lián),每個(gè)智能體將其他智能體看作環(huán)境的一部分,從個(gè)體的角度上看,環(huán)境是處在不斷變化中的,這種環(huán)境非平穩(wěn)性嚴(yán)重影響了學(xué)習(xí)策略的穩(wěn)定和收斂,另外該類方法的學(xué)習(xí)效率和速率都十分低下。

3.2 通信規(guī)則型

此類方法在智能體間建立顯式的通信機(jī)制(如通信方式、通信時(shí)間、通信對象等),并在學(xué)習(xí)過程中逐漸確定和完善該通信機(jī)制,訓(xùn)練結(jié)束后,每個(gè)智能體需要根據(jù)其他智能體所傳遞的信息進(jìn)行行為決策,此類方法多應(yīng)用于完全合作型任務(wù)和非完全觀測環(huán)境(詳見4.2節(jié))。

強(qiáng)化互學(xué)習(xí)(Reinforced Inter-Agent Learning,RIAL)[42]和差分互學(xué)習(xí)(Differentiable Inter-Agent Learning,DIAL)[42]是比較有代表性的通信規(guī)則型算法,它們遵循集中訓(xùn)練分散執(zhí)行框架,都使用中心化的Q網(wǎng)絡(luò)在智能體之間進(jìn)行信息傳遞,該網(wǎng)絡(luò)的輸出不僅包含Q 值,還包括在智能體之間交互的信息,其中RIAL使用雙網(wǎng)絡(luò)結(jié)構(gòu)分別輸出動(dòng)作和離散信息以降低動(dòng)作空間的維度,而DIAL 則建立了專門的通信通道實(shí)現(xiàn)信息端到端的雙向傳遞,相比RIAL,DIAL 在通信效率上更具優(yōu)勢。

RIAL和DIAL算法只能傳遞離散化的信息,這就限制了智能體之間通信的信息量和實(shí)時(shí)度。為了解決這一問題,Sukhbaatar 等人提出了通信網(wǎng)(CommNet)算法[43],該算法在智能體之間構(gòu)建了一個(gè)具備傳輸連續(xù)信息能力的通信通道,它確保環(huán)境中任何一個(gè)智能體都可以實(shí)時(shí)傳遞信息,該通信機(jī)制具有兩個(gè)顯著特點(diǎn):(1)每個(gè)時(shí)間步都允許所有的智能體自由通信;(2)采用廣播的方式進(jìn)行信息傳遞,智能體可以根據(jù)需求選擇接受信息的范圍。這樣每個(gè)智能體都可以根據(jù)需要選擇和了解環(huán)境的全局信息。實(shí)驗(yàn)表明,CommNet 在合作型非完全觀測(詳見4.2節(jié))環(huán)境中的表現(xiàn)優(yōu)于多種無通信算法和基線算法。

國內(nèi)對于通信規(guī)則型的MDRL 研究也取得了不小的進(jìn)展,其中最著名的有阿里巴巴團(tuán)隊(duì)提出的多智能體雙向協(xié)同網(wǎng)絡(luò)(Bidirectionally-Coordinated Nets,BiCNet)[44],該方法旨在完成即時(shí)策略類游戲星際爭霸2中的微觀管理任務(wù),即實(shí)現(xiàn)對低級(jí)別、短時(shí)間交戰(zhàn)環(huán)境中己方的單位控制。算法基于AC框架和雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bidirectional Recurrent Neural Network,Bi-RNN),前者使得每個(gè)智能體在獨(dú)立做出行動(dòng)決策的同時(shí)又能與其他智能體共享信息,后者不僅可以保證智能體之間連續(xù)互相通信,還可以存儲(chǔ)本地信息。該方法的核心思路是將復(fù)雜的交戰(zhàn)過程簡化為雙人零和博弈問題,由以下元組表示:

其中,S 為所有智能體共享的全局狀態(tài),M 、N 和A、B 分別為敵對雙方智能體的數(shù)量和動(dòng)作空間,全局狀態(tài)轉(zhuǎn)移概率為:

第i 個(gè)智能體收到的環(huán)境回報(bào)為:

其中一方的全局回報(bào)函數(shù)為:

對于敵我雙方智能體來說,學(xué)習(xí)目標(biāo)分別為最大化和最小化這一全局期望累計(jì)回報(bào),二者遵循Minimax原則,最優(yōu)Q 值可表示為:

算法假設(shè)敵方策略不變,SG過程可被簡化為MDP過程進(jìn)行求解:

經(jīng)過充分訓(xùn)練,BiCNet 算法可以讓游戲中的單位成功實(shí)現(xiàn)如進(jìn)攻、撤退、掩護(hù)、集火攻擊、異構(gòu)單位配合等多種智能協(xié)作策略。

近來,通信規(guī)則型MDRL方法的研究成果主要側(cè)重于改進(jìn)智能體之間的通信模型以提升通信效率,如北京大學(xué)多智能體團(tuán)隊(duì)[45]提出了一個(gè)基于注意力機(jī)制(ATOC Architecture)的通信模型,讓智能體具備自主選擇通信對象的能力;Kim等人[46]將通信領(lǐng)域的介質(zhì)訪問控制(Medium Access Control)方法引入到MDRL 中,提出了規(guī)劃通信(Schedule Communication)模型,優(yōu)化了信息的傳輸模式,讓智能體具備全時(shí)段通信能力。表3總結(jié)了通信規(guī)則型方法。

表3 通信規(guī)則型方法總結(jié)分析

總的來說,通信規(guī)則型方法優(yōu)勢在于算法在智能體之間建立的顯式的信道可以使得智能體學(xué)習(xí)到更好的集體策略,但其缺點(diǎn)主要是由于信道的建立所需參數(shù)較多,算法的設(shè)計(jì)架構(gòu)一般較為復(fù)雜。

3.3 互相協(xié)作型

此類方法并不直接在多智能體間建立顯式的通信規(guī)則,而是使用傳統(tǒng)MARL中的一些理論使智能體學(xué)習(xí)到合作型策略。

值函數(shù)分解網(wǎng)(Value Decomposition Networks,VDN)[47]及其改進(jìn)型QMIX[48]和QTRAN[49]等將環(huán)境的全局回報(bào)按照每個(gè)智能體對環(huán)境做出的貢獻(xiàn)進(jìn)行拆分,具體是根據(jù)每個(gè)智能體對環(huán)境的聯(lián)合回報(bào)的貢獻(xiàn)大小將全局Q 函數(shù)分解為與智能體一一對應(yīng)的本地Q 函數(shù),經(jīng)過分解后每個(gè)Q 函數(shù)只和智能體自身的歷史狀態(tài)和動(dòng)作有關(guān),上述三種算法的區(qū)別在于Q 函數(shù)分解的方式不同,VDN 才采用簡單的線性方式進(jìn)行分解,而QMIX和QTRAN則采用非線性的矩陣分解方式,另外,QTRAN 在具有更加復(fù)雜的Q 函數(shù)網(wǎng)絡(luò)結(jié)構(gòu)。該值函數(shù)分解思想有效地提升了多智能體環(huán)境中的學(xué)習(xí)效果。

多智能體深度確定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)[50]是一種基于AC框架的算法,且遵循集中訓(xùn)練分散執(zhí)行原則。算法中每個(gè)智能體都存在一個(gè)中心化的Critic接收其他智能體的信息(如動(dòng)作和觀測等),即(o1,a1,o2,a2,…,oN,aN),同時(shí)每個(gè)智能體的Actor 網(wǎng)絡(luò)只根據(jù)自己的部分觀測執(zhí)行策略ai=μθi( )oi,每個(gè)智能體Critic 網(wǎng)絡(luò)的梯度遵循:

算法通過不斷優(yōu)化損失函數(shù)得到最優(yōu)策略:

該算法無需建立顯示的通信規(guī)則,同時(shí)適用合作型、競爭型、混合型等多種環(huán)境,能夠很好地解決多智能體環(huán)境非平穩(wěn)問題。

反事實(shí)多智能體策略梯度(Counterfactual Multi-Agent Policy Gradients,COMA)[51]是另一種基于AC 框架的合作型算法。該算法采用完全集中的學(xué)習(xí)方式,主要解決多智能體信度分配問題,也就是如何在只能得到全局回報(bào)的合作型環(huán)境中給每個(gè)智能體分配回報(bào)值,該算法的解決方式是假設(shè)一個(gè)反事實(shí)基線(Counterfactual Baseline),即在其他智能體的動(dòng)作保持不變的情況下去掉其中一個(gè)智能體的動(dòng)作,然后計(jì)算當(dāng)前Q 值和反事實(shí)Q 值的差值得到優(yōu)勢函數(shù),并進(jìn)一步得出每個(gè)智能體的回報(bào),COMA 不受環(huán)境的非平穩(wěn)性帶來的影響,但其可擴(kuò)展性相對較差。

Pham等人將參數(shù)共享(Parameter Sharing,PS)[52]框架與多種DRL算法結(jié)合應(yīng)用于多智能體環(huán)境。PS框架的核心思想是利用一個(gè)全局的神經(jīng)網(wǎng)絡(luò)收集所有智能體的各類參數(shù)進(jìn)行訓(xùn)練。但在執(zhí)行階段仍然保持各個(gè)智能體的獨(dú)立,相應(yīng)的算法有PS-DQN、PS-DDPG、PS-TRPO等。

國內(nèi)的多智能體協(xié)作型算法研究也有不小的進(jìn)展,天津大學(xué)的郝建業(yè)等人提出了加權(quán)雙深度Q 網(wǎng)絡(luò)(Weighted Double Deep Q -Network,WDDQN)算法,該方法將雙Q 網(wǎng)絡(luò)結(jié)構(gòu)和寬大回報(bào)(Lenient Reward)理論加入到經(jīng)典算法DQN 中[53],前者主要解決深度強(qiáng)化學(xué)習(xí)算法固有的過估計(jì)問題,后者則側(cè)重于提升合作型多智能體環(huán)境隨機(jī)策略更新能力,此外作者還改變了DQN中的經(jīng)驗(yàn)庫抽取機(jī)制以提升樣本學(xué)習(xí)質(zhì)量。實(shí)驗(yàn)結(jié)果顯示該方法在平均回報(bào)和收斂速率上都超過了多種基線算法。表4總結(jié)了互相協(xié)作型方法。

表4 互相協(xié)作型方法總結(jié)分析

互相協(xié)作型方法雖然不需要復(fù)雜的通信建模過程,但由于在訓(xùn)練過程中融入了傳統(tǒng)多智能體算法的規(guī)則(如值函數(shù)分解、參數(shù)共享、納什均衡等),兼具易實(shí)現(xiàn)性和高效性,且此類方法應(yīng)對不同學(xué)習(xí)場景的通用性也很強(qiáng),其缺點(diǎn)是適用環(huán)境較為單一(無法應(yīng)對完全對抗型環(huán)境)。

3.4 建模學(xué)習(xí)型

在此類方法中,智能體主要通過為其他智能體建模的方式分析并預(yù)測行為,深度循環(huán)對手網(wǎng)絡(luò)(Deep Recurrent Opponent Network,DRON)[17]是早期比較有代表性的建模學(xué)習(xí)型算法。它的核心思想是建立兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò),一個(gè)用來評(píng)估Q 值,另一個(gè)用來學(xué)習(xí)對手智能體的策略,該算法還使用多個(gè)專家網(wǎng)絡(luò)分別表征對手智能體的所有策略以提升學(xué)習(xí)能力。與DRON 根據(jù)對手智能體特征進(jìn)行建模的方式不同,深度策略推理Q 網(wǎng)絡(luò)(Deep Policy Inference Q-Network,DPIQN)[54]則完全依靠其他智能體的原始觀測進(jìn)行建模,該算法通過一些附屬任務(wù)(Auxiliary Task)學(xué)習(xí)對方智能體的策略,附屬任務(wù)完成的情況直接影響算法的損失函數(shù),這樣就將學(xué)習(xí)智能體的Q 函數(shù)和對方智能體的策略特征聯(lián)系起來,并降低了環(huán)境的非平穩(wěn)性對智能體學(xué)習(xí)過程的影響,該算法還引入自適應(yīng)訓(xùn)練流程讓智能體在學(xué)習(xí)對手策略和最大化Q 值之間保持平衡,這表明DPIQN可同時(shí)適用于敵方和己方智能體。自預(yù)測建模(Self Other Modeling,SOM)[55]算法使用智能體自身的策略預(yù)測對方智能體的行為,它也有兩個(gè)網(wǎng)絡(luò),只不過另一個(gè)網(wǎng)絡(luò)不學(xué)習(xí)其他智能體的策略而是對它們的目標(biāo)進(jìn)行預(yù)測,SOM適用于多目標(biāo)場景。

此外,博弈論和MARL的結(jié)合也是該類方法的重要組成部分,如神經(jīng)虛擬自學(xué)習(xí)(Neural Fictitious Self-Play,NFSP)[56],算法設(shè)置了兩個(gè)網(wǎng)絡(luò)模擬兩個(gè)智能體互相博弈的過程,智能體的目標(biāo)是找到近似納什均衡,該算法適用于不完美信息博弈對抗,如德州撲克。Minimax原則也是博弈論中的重要理論,清華大學(xué)多智能體團(tuán)隊(duì)將其與MADDPG 算法相結(jié)合并提出了M3DDPG 算法[57],其中Minimax原則用于估計(jì)環(huán)境中所有智能體的行為都完全敵對情況下的最壞結(jié)局,而智能體策略按照所估計(jì)的最壞結(jié)局不斷更新,這就提升了智能體學(xué)習(xí)策略的魯棒性,保證了學(xué)習(xí)的有效性。表5對建模學(xué)習(xí)型方法進(jìn)行了總結(jié)分析。

表5 建模學(xué)習(xí)型方法總結(jié)分析

建模學(xué)習(xí)型方法旨在對手或隊(duì)友策略不可知的情況下以智能體建模的方式對行為進(jìn)行預(yù)測,這類算法一般魯棒性較強(qiáng),可以應(yīng)對多種不同的場景,但計(jì)算和建模的復(fù)雜度較高,無法適應(yīng)大型復(fù)雜的多智能體系統(tǒng),所以實(shí)際應(yīng)用較少。表6 對多智能體強(qiáng)化學(xué)習(xí)方法的分類進(jìn)行了對比分析。

表6 多智能體強(qiáng)化學(xué)習(xí)方法分類對比分析

4 多智能體深度強(qiáng)化學(xué)習(xí)的關(guān)鍵問題

盡管MDRL 方法在理論、框架、應(yīng)用等層面都有不小的進(jìn)展,但該領(lǐng)域的探索還處在起步階段,與單智能體的諸多方法相同,MDRL方法在實(shí)驗(yàn)及應(yīng)用層面也面臨許多問題和挑戰(zhàn),本章對MDRL方法所面臨的關(guān)鍵問題和現(xiàn)行解決方案及發(fā)展方向進(jìn)行總結(jié)。

4.1 環(huán)境的非平穩(wěn)性問題

與單智能體環(huán)境不同,在多智能體環(huán)境中,每個(gè)智能體不僅要考慮自己動(dòng)作及回報(bào),還要綜合考慮其他智能體的行為,這種錯(cuò)綜復(fù)雜的交互和聯(lián)系過程使得環(huán)境不斷地動(dòng)態(tài)變化。在非平穩(wěn)的環(huán)境中,智能體間動(dòng)作及策略的選擇是相互影響的,這使得回報(bào)函數(shù)的準(zhǔn)確性降低,一個(gè)良好的策略會(huì)隨著學(xué)習(xí)過程的推進(jìn)不斷變差。環(huán)境的非平穩(wěn)性大大增加算法的收斂難度,降低算法的穩(wěn)定性,并且打破智能體的探索和利用平衡。為解決環(huán)境非平穩(wěn)問題,研究人員從不同角度對現(xiàn)有方法進(jìn)行了改進(jìn),Castaneda[58]提出了兩種基于DQN的改進(jìn)方法,它們分別通過改變值函數(shù)和回報(bào)函數(shù)的方式增加智能體之間的關(guān)聯(lián)性;Diallo 等人[59]則將并行運(yùn)算機(jī)制引入到DQN中,加速多智能體在非平穩(wěn)環(huán)境中的收斂;Foerster等人[42]則致力于通過改進(jìn)經(jīng)驗(yàn)庫機(jī)制讓算法適用于不斷變化的非平穩(wěn)環(huán)境,為此他提出了兩種方法:(1)為經(jīng)驗(yàn)庫中的數(shù)據(jù)設(shè)置重要性標(biāo)記,丟棄先前產(chǎn)生而不適應(yīng)當(dāng)前環(huán)境的數(shù)據(jù);(2)使用“指紋”為每個(gè)從經(jīng)驗(yàn)庫中取出的樣本單元做時(shí)間標(biāo)定,以提升訓(xùn)練數(shù)據(jù)的質(zhì)量。目前針對環(huán)境非平穩(wěn)性的解決方案較多,也是未來MDRL領(lǐng)域?qū)W術(shù)研究的熱門方向。

4.2 非完全觀測問題

在大部分多智能體系統(tǒng)中,智能體在交互過程中無法了解環(huán)境的完整信息,它們只能根據(jù)所能觀測到的部分信息做出相對最優(yōu)決策,這就是部分可觀測馬爾可夫決策過程(Partially Observable Markov Decison Process,POMDP),POMDP 是MDP 在多智能體環(huán)境中的擴(kuò)展,它可由多元組G= S,A,T,R,Q,O,γ,N 表示,其中S 和A 分別表示智能體的狀態(tài)和動(dòng)作集合,T和R 則表示狀態(tài)轉(zhuǎn)移方程和回報(bào)函數(shù),Q 和O 則為每個(gè)智能體Q 值和部分觀測值,每個(gè)智能體并不知道環(huán)境的全局狀態(tài)s ∈S,只能將自己的部分觀測值當(dāng)作全局狀態(tài),即:

并以此為根據(jù)做出決策:

得到一個(gè)關(guān)于狀態(tài)動(dòng)作的回報(bào)值:

之后智能體轉(zhuǎn)移到了下一個(gè)狀態(tài):

每個(gè)智能體的目標(biāo)都是最大化自己的總回報(bào):

4.3 多智能體環(huán)境訓(xùn)練模式問題

早期的大部分MDRL 算法都采用集中式或分散式兩種訓(xùn)練模式,前者使用一個(gè)單獨(dú)的訓(xùn)練網(wǎng)絡(luò)總攬整個(gè)學(xué)習(xí)過程,算法很容易過擬合且計(jì)算負(fù)荷太大;后者采用多個(gè)訓(xùn)練網(wǎng)絡(luò),每個(gè)智能體之間完全獨(dú)立,算法由于不存在中心化的目標(biāo)函數(shù),往往難以收斂。所以兩種訓(xùn)練模式只支持少量智能體的小型系統(tǒng)。集中訓(xùn)練和分散執(zhí)行(Centralized Learning and Decentralized Execution,CLDE)[50]融合了以上兩種模式的特點(diǎn),智能體一方面在互相通信的基礎(chǔ)上獲取全局信息進(jìn)行集中式訓(xùn)練,然后根據(jù)各自的部分觀測值獨(dú)立分散執(zhí)行策略,該模式最大的優(yōu)點(diǎn)是允許在訓(xùn)練時(shí)加入額外的信息(如環(huán)境的全局狀態(tài)、動(dòng)作或者回報(bào)),在執(zhí)行階段這些信息又可被忽略,這有利于實(shí)時(shí)掌控和引導(dǎo)智能體的學(xué)習(xí)過程。近來采用CLDE 訓(xùn)練模式的MDRL 算法不斷增加。以上述三種基本模式為基礎(chǔ),研究人員不斷探索出新的多智能體訓(xùn)練模式,它們各有優(yōu)長,可應(yīng)用于不同的多智能體環(huán)境,限于篇幅原因本文就不做贅述。

4.4 多智能體信度分配問題

在合作型多智能體環(huán)境中,智能體的個(gè)體回報(bào)和全局回報(bào)都可以用來表征學(xué)習(xí)進(jìn)程,但個(gè)體回報(bào)一般難以獲得,所以大部分實(shí)驗(yàn)都使用全局回報(bào)計(jì)算回報(bào)函數(shù)。如何將全局回報(bào)分配給每個(gè)智能體,使其能夠精準(zhǔn)地反映智能體對整體行為的貢獻(xiàn),這就是信度分配問題。早起的方法如回報(bào)等分在實(shí)驗(yàn)中的效果很差。差分回報(bào)(Difference Rewards)[60]是一個(gè)比較有效的方法,其核心是將每個(gè)智能體對整個(gè)系統(tǒng)的貢獻(xiàn)值進(jìn)行量化,但這種方法的缺點(diǎn)是很難找到普適的量化標(biāo)準(zhǔn),另外該方法容易加劇智能體間信度分配的不平衡性。COMA[51]中優(yōu)勢函數(shù)(Advantage Function)思想也是基于智能體的貢獻(xiàn)大小進(jìn)行信度分配,算法通常使用神經(jīng)網(wǎng)絡(luò)擬合優(yōu)勢函數(shù),該方法無論是在分配效果還是效率上都好于一般方法??傊哦确峙涫荕DRL算法必須面臨的重要問題,如何精確高效地進(jìn)行信度分配直接關(guān)系到多智能體系統(tǒng)的成敗,這也是近來多智能體領(lǐng)域研究的重點(diǎn)。

4.5 過擬合問題

過擬合最早出現(xiàn)在監(jiān)督學(xué)習(xí)算法中,指的是算法只能在特定數(shù)據(jù)集中取得很好的效果,而泛化能力很弱。多智能體環(huán)境中同樣存在過擬合問題,比如在學(xué)習(xí)過程中其中一個(gè)智能體的策略陷入局部最優(yōu),學(xué)習(xí)策略只適用于其他智能體的當(dāng)前策略和當(dāng)前環(huán)境。目前有3種比較成熟的解決方法:(1)策略集成(Policy Emsemble)[50]機(jī)制,即讓智能體綜合應(yīng)對多種策略以提升適應(yīng)性;(2)極小極大(Minimax)[57]機(jī)制,即讓智能體學(xué)習(xí)最壞情況下的策略以增強(qiáng)算法的魯棒性;(3)消息失活(Message Dropout)[61]機(jī)制,即在訓(xùn)練時(shí)隨機(jī)將神經(jīng)網(wǎng)絡(luò)中特定節(jié)點(diǎn)進(jìn)行失活處理以提升智能體策略的魯棒性和泛化能力。

5 多智能體深度強(qiáng)化學(xué)習(xí)的測試平臺(tái)

許多標(biāo)準(zhǔn)化的平臺(tái)如OpenAI Gym 已經(jīng)支持在模擬環(huán)境中測試經(jīng)典DRL 和MARL 算法,但由于MDRL起步較晚,目前來看還是一個(gè)較為新穎的領(lǐng)域,所以其配套測試平臺(tái)還有待進(jìn)一步發(fā)展完善。當(dāng)前已有一些研究機(jī)構(gòu)或個(gè)人開發(fā)了一部分開源的模擬器和測試平臺(tái)用于MDRL 算法的分析和測試,它們各有特點(diǎn),且面向不同類型的環(huán)境,本章將進(jìn)行簡單介紹。

Bu?oniu等人開發(fā)出一種基于matlab的多智能體物體運(yùn)輸(Coordinated Multi-agent Object Transportation,CMOT)環(huán)境[25],其本質(zhì)上是一個(gè)2D 網(wǎng)格雙智能體環(huán)境,Palmer 等人在該環(huán)境原始版本的基礎(chǔ)上進(jìn)行了擴(kuò)展,使其支持隨機(jī)回報(bào)和噪聲觀測等復(fù)雜條件,該平臺(tái)面向傳統(tǒng)MARL 合作型算法的測試工作(http://www.dcsc.tudelft.nl/);炸彈人游戲(Pommerman)是由Facebook AI實(shí)驗(yàn)室和Google AI聯(lián)合贊助的多智能體環(huán)境測試平臺(tái),它同樣也是一個(gè)二維網(wǎng)格環(huán)境,最多可以容納四個(gè)智能體,支持合作型、競爭型、混合型等多種多智能體算法的測試,并且還支持非完全觀測環(huán)境和智能體的通信建模,測試人員依托該平臺(tái)不僅可以將自己的改進(jìn)算法和基線算法進(jìn)行對比,還可以與其他測試人員的算法實(shí)時(shí)對抗。另外該平臺(tái)還支持python、Java等多語言編寫(https://www.pommerman.com/);MuJoCo 最早是由華盛頓大學(xué)運(yùn)動(dòng)控制實(shí)驗(yàn)室開發(fā)的物理仿真引擎,可應(yīng)用于具有豐富接觸行為的復(fù)雜動(dòng)態(tài)系統(tǒng),平臺(tái)支持多種可視化的多智能體環(huán)境,研究人員目前已將多智能體足球游戲(Multi-agent Soccer Game)應(yīng)用到該引擎中,讓環(huán)境模擬2對2比賽,該平臺(tái)的優(yōu)點(diǎn)是可支持三維動(dòng)作空間;谷歌DeepMind 和Blizzard 公司聯(lián)合開發(fā)了一個(gè)基于即時(shí)策略類游戲星際爭霸2 的DRL 平臺(tái)SC2LE,該平臺(tái)提供基于Python的開源接口來與游戲引擎進(jìn)行通信,其中的多智能體測試主要針對小型場景的微觀管理,場景中的每個(gè)單位都由一個(gè)獨(dú)立的智能體控制,該智能體基于自己的部分觀測做出動(dòng)作,該平臺(tái)已經(jīng)成功應(yīng)用多種MDRL 算法,如QMIX[48]、COMA[51]等;基于3D沙盒游戲《我的世界》的Malmo平臺(tái)可用于完成多場景合作型任務(wù),并支持多種開源項(xiàng)目,具備實(shí)時(shí)調(diào)試的功能;以卡牌類游戲Hanabi為背景的學(xué)習(xí)平臺(tái)支持多玩家多任務(wù)競爭,該游戲的主要特點(diǎn)是玩家不僅分析自己手中的牌,同時(shí)也知曉其他玩家的部分信息,所以非常適合針對POMDP問題算法的測試;競技場(Arena)是一個(gè)基于Unity 引擎的多智能體搜索平臺(tái),該平臺(tái)的支持多種經(jīng)典多智能體場景(如社會(huì)難題、多智能體搬運(yùn)等),并支持在智能體之間通信規(guī)則的搭建,目前該平臺(tái)已能夠?qū)崿F(xiàn)如IDQN[41]、ITRPO[41]、IPPO[41]等幾種簡單的MDRL算法。

6 多智能體深度強(qiáng)化學(xué)習(xí)的實(shí)際應(yīng)用及前景展望

6.1 多智能體深度強(qiáng)化學(xué)習(xí)的實(shí)際應(yīng)用

MARL的實(shí)際應(yīng)用領(lǐng)域十分廣泛,涉及領(lǐng)域包括自動(dòng)駕駛、能源分配、編隊(duì)控制、航跡規(guī)劃、路由規(guī)劃、社會(huì)難題等,下文對此進(jìn)行簡要的介紹。

Prasad和Dusparic[62]將MDRL模型應(yīng)用到能源分配領(lǐng)域,模擬場景為一個(gè)由數(shù)幢樓房組成的社區(qū),并假定該社區(qū)中的每幢樓房每年消耗的能源不高于產(chǎn)生的能源,在該場景中,樓房由智能體表示,它們通過學(xué)習(xí)適當(dāng)?shù)亩嘀悄荏w策略優(yōu)化能源在建筑物間的分配方式,環(huán)境中的全局回報(bào)由社區(qū)中的能源總量來表示,即:

其中c( hi)和g( hi)分別表示第i 幢樓房的能源消耗和能源產(chǎn)出,另外環(huán)境中設(shè)置一個(gè)控制智能體主導(dǎo)智能體數(shù)量的增減和能源的實(shí)時(shí)分配,實(shí)驗(yàn)表明該模型在保持樓房能源平衡的表現(xiàn)好于隨機(jī)策略模型。但該模型的缺點(diǎn)為訓(xùn)練中不能實(shí)時(shí)觀察智能體的行為,另外該模型也不能適用于大型環(huán)境(樓房數(shù)量的上限為10),模型的架構(gòu)也有待完善(未能考慮能源分類等更為復(fù)雜的情況)。

Leibo 等人[34]提出了解決貫序社會(huì)難題(Sequential Social Dilemmas,SSD)的模型,它用于解決POMDP 環(huán)境下多智能體環(huán)境中的合作問題。Hüttenrauch 等人[63]則嘗試控制大量的智能體完成復(fù)雜的任務(wù),該應(yīng)用也被稱為群體智能系統(tǒng)。系統(tǒng)使用的方法基于演員評(píng)論家框架,利用全局狀態(tài)信息學(xué)習(xí)每個(gè)智能體的Q 函數(shù),研究人員還截取環(huán)境的實(shí)時(shí)圖像用于收集分析智能群體的狀態(tài)信息。該群體智能系統(tǒng)可以完成如搜索救援、分布式組裝等多種復(fù)雜合作型任務(wù)。Calvo 和Dusparic[64]則在群體智能系統(tǒng)中加入了多種對抗型MDRL 算法使系統(tǒng)中的不同智能體獨(dú)立并發(fā)的訓(xùn)練,改進(jìn)后的系統(tǒng)能夠勝任如城市交通信號(hào)控制等多種類型的任務(wù)。

通信規(guī)則型算法在實(shí)際問題中的應(yīng)用較為廣泛。Nguyen 等[65]在智能體之間構(gòu)建了一種特殊的通信通道以圖片形式傳輸人類知識(shí),場景使用A3C算法,其優(yōu)點(diǎn)是支持異構(gòu)型智能體間的合作;Noureddine 等[66]基于合作型DRL算法構(gòu)建了一套松耦合的分布式多智能體環(huán)境,環(huán)境中的智能體可以像人類團(tuán)隊(duì)一樣互幫互助,適用于解決資源和任務(wù)的分配問題;CommNet 算法因其強(qiáng)大的通信能力也多被用于高復(fù)雜度的大型任務(wù)分配問題并取得了不錯(cuò)的效果,但它也有計(jì)算復(fù)雜度高、通信開銷大等缺點(diǎn)。

互相合作型算法主要在編隊(duì)控制、交通規(guī)劃、數(shù)據(jù)分析[67]等方面有所應(yīng)用。其中Lin等人[68]將多種合作型算法應(yīng)用在大型編隊(duì)控制問題上,他們的方法聚焦于如何平衡分配交通資源以提升交通效率,減少擁堵,該方法使用參數(shù)共享機(jī)制保證多個(gè)車輛間的協(xié)同。Schmid等人[69]則將經(jīng)濟(jì)學(xué)中的交易規(guī)則引入到多智能體系統(tǒng)中,在該系統(tǒng)中,智能體的動(dòng)作、狀態(tài)、回報(bào)等參數(shù)都被看成可以互相交易的資源。該方法有效地抑制了每個(gè)獨(dú)立智能體的貪婪行為,從而利于達(dá)到系統(tǒng)回報(bào)的最大化,該系統(tǒng)在社會(huì)福利分配等經(jīng)濟(jì)學(xué)問題中有可觀的應(yīng)用。

6.2 多智能體深度強(qiáng)化學(xué)習(xí)的前景展望

MDRL雖然在眾多領(lǐng)域都有實(shí)際應(yīng)用,但由于起步時(shí)間較晚,理論成熟度較低,其發(fā)展?jié)摿κ志薮螅熬跋喈?dāng)可觀。

現(xiàn)有的MDRL算法大部分采用無模型的結(jié)構(gòu),雖然簡化了算法的復(fù)雜度,并且適用于復(fù)雜問題求解,但該類方法需要海量的樣本數(shù)據(jù)和較長的訓(xùn)練時(shí)間為支撐,基于模型的方法則具有數(shù)據(jù)利用效率高、訓(xùn)練時(shí)間短、泛化性強(qiáng)等優(yōu)點(diǎn),基于模型的強(qiáng)化學(xué)習(xí)算法在單智能體領(lǐng)域取得了較多進(jìn)展,其必然是MDRL 未來的重點(diǎn)研究方向[70];模仿學(xué)習(xí)(Imitation Learning)[71]、逆向強(qiáng)化學(xué)習(xí)(Inverse Reinforcement Learning)[72]、元學(xué)習(xí)(Meta Learning)[73]等新興概念在單智能體領(lǐng)域已經(jīng)有了不小的成果,解決了不少現(xiàn)實(shí)問題,其在多智能體領(lǐng)域的應(yīng)用前景將相當(dāng)可觀;在城市交通信號(hào)控制、電子游戲競技等實(shí)際應(yīng)用中,同構(gòu)型的智能體擁有如行為、目標(biāo)和領(lǐng)域知識(shí)等較多的共性特點(diǎn),可以通過集中訓(xùn)練的方式提升學(xué)習(xí)的效率和速率,但當(dāng)環(huán)境是由大量異構(gòu)型智能體組成時(shí),如何學(xué)習(xí)到有效的協(xié)同策略并得到最優(yōu)解成為了一大難題,這其中需要解決如異構(gòu)型智能體信度分配、過估計(jì)、可擴(kuò)展性等多種實(shí)質(zhì)問題,總之大型異構(gòu)多智能體系統(tǒng)也是一個(gè)非常有前景的研究方向[74];人機(jī)交互這個(gè)詞正不斷地被大眾所接受,文獻(xiàn)[75-77]中人機(jī)智能交互是MDRL 未來的發(fā)展方向。因?yàn)樵趶?fù)雜環(huán)境中人類無法單獨(dú)處理海量數(shù)據(jù),而機(jī)器則難以解決非形式化的隱性問題,所以人類智慧與機(jī)器智慧的結(jié)合至關(guān)重要。近來,研究人員已經(jīng)在嘗試將人在回路(Human-On-The-Loop)[76]框架融合到MDRL算法中,即人類和智能體合作解決復(fù)雜問題,在傳統(tǒng)的“人在回路”設(shè)定中,智能體自動(dòng)地完成其所分配的任務(wù),然后等待人類指揮員做出決策并繼續(xù)自己的任務(wù)。未來將實(shí)現(xiàn)從“人在回路”到“人控回路”的飛躍,即從機(jī)器完成任務(wù)和人做決策的傳統(tǒng)時(shí)序框架到機(jī)器與人智能化協(xié)作共同完成任務(wù)的新體系,人作為終極掌控者將會(huì)在多智能體領(lǐng)域中扮演愈發(fā)重要的角色。

7 結(jié)語

本文對按照由淺入深的次序?qū)Χ嘀悄荏w深度強(qiáng)化學(xué)習(xí)進(jìn)行了分析,介紹了包括MDRL 的相關(guān)概念、經(jīng)典算法、主要挑戰(zhàn)、實(shí)際應(yīng)用和發(fā)展方向等。本文首先在引言部分簡要介紹了MDRL的背景知識(shí),隨后按照從單智能體到多智能體的發(fā)展順序簡述了傳統(tǒng)MARL 的基本框架,并按照回報(bào)函數(shù)的不同將MDRL 分為合作型、競爭型和混合型三類,接著對DRL 及其代表算法進(jìn)行了簡要的概括,由此引入MDRL 的概念,之后根據(jù)多智能體間的關(guān)聯(lián)方式的不同將MDRL算法分為無關(guān)聯(lián)型、通信規(guī)則型、互相協(xié)作型和建模學(xué)習(xí)型四大類,并分別對各類別的主要算法進(jìn)行介紹和對比分析,最后對MDRL 算法的測試平臺(tái)、主要挑戰(zhàn)、實(shí)際應(yīng)用和未來展望進(jìn)行簡要的闡述。通過本文可以得出結(jié)論:多智能體深度強(qiáng)化學(xué)習(xí)是個(gè)新興的、充滿創(chuàng)新點(diǎn)的、快速發(fā)展的領(lǐng)域,無論是學(xué)術(shù)研究還是工程運(yùn)用方面都較多空間亟待拓展,相信隨著研究的不斷深入,將會(huì)誕生更多方法解決各類復(fù)雜的問題,實(shí)現(xiàn)人工智能更美好的未來。

猜你喜歡
函數(shù)智能算法
二次函數(shù)
第3講 “函數(shù)”復(fù)習(xí)精講
二次函數(shù)
函數(shù)備考精講
基于MapReduce的改進(jìn)Eclat算法
Travellng thg World Full—time for Rree
智能前沿
進(jìn)位加法的兩種算法
智能前沿
智能前沿
乌兰察布市| 子长县| 凤凰县| 湘潭县| 海盐县| 特克斯县| 南川市| 扬中市| 陆丰市| 岑巩县| 福海县| 宣武区| 静安区| 和顺县| 白沙| 宽城| 和龙市| 五常市| 浙江省| 深州市| 库车县| 大荔县| 郧西县| 洪泽县| 长阳| 邵阳县| 连山| 信丰县| 石河子市| 平阴县| 故城县| 吉安市| 株洲市| 阿合奇县| 逊克县| 泰安市| 县级市| 富源县| 桃源县| 上饶市| 巴彦淖尔市|