宋健,王子磊
(中國科學技術大學自動化系,合肥 230027)
隨著深度學習技術的發(fā)展,強化學習方法的聚焦問題逐步從單智能體領域轉(zhuǎn)移到多智能體領域。在現(xiàn)實世界中,許多需要多個智能體協(xié)作的場景都是多目標多智能體決策問題:每個智能體都需要實現(xiàn)自己的目標,但是只有當智能體協(xié)作并允許其他智能體成功時,才能獲得所有智能體成功的全局最優(yōu)解[1]。例如:在自動駕駛中,當多輛車的目標位置和預計軌跡發(fā)生沖突時,它們必須執(zhí)行協(xié)同機動;在社交環(huán)境中,人們相互合作一般可以獲得更高的全局回報,只局限于自身利益而不顧大局的個體往往成為害群之馬,適得其反。一個環(huán)境即便只涉及合作任務,即所有個體目標是一致的,環(huán)境仍可以被表述為多目標場景。例如在星際爭霸2 中,一個收集資源的單位也需要小心行動,以免暴露正在執(zhí)行秘密偵查任務的單位。
多智能體強化學習廣泛應用了深度學習方法,且被使用在各種復雜場景中,但多目標多智能體場景中的最優(yōu)決策仍面臨重大挑戰(zhàn)。文獻[2]提出的IQL(Independent Q-Learning)假設場景中的各智能體是相互獨立的,其決策是互不影響的,分別使用Q-Learning 方法訓練每個智能體;文獻[3]提出的MADDPG(Multi-Agent Deep Deterministic Policy Gradient)和文獻[4]提出的M3DDPG(Multi-Agent Minmax Deep Deterministic Policy Gradient)考慮到了具有不同獎勵、不同目標的多智能體場景;文獻[5]提出的QMIX(Q-Mixer Network)模型將全局動作值函數(shù)分解為每個智能體的動作值總和。然而,多目標多智能體場景中往往涉及合作和競爭并存的混合關系,這些模型只考慮了全局獎勵或動作值函數(shù)由所有智能體共同作用而成,卻沒有充分探究智能體之間的關系,不能區(qū)分合作和競爭動作,也就不能精準地衡量各智能體對全局獎勵的貢獻高低。
為提高強化學習方法在混合關系場景中的性能,本文針對多目標多智能體場景,提出一種多目標值分解強化學習方法MG-QMIX(Multi-Goal QMixer Network)。將智能體的目標信息引入單調(diào)性值分解方法,提出并實現(xiàn)一種二級分解方法,在目標完成度-智能體動作值融合階段使用注意力機制分析智能體的群體影響力,并選取一些代表性的實驗場景,使用MG-QMIX 和其他主流的多智能體強化學習方法分別訓練各場景的智能體,以證明MGQMIX 方法在多目標多智能體場景的有效性。
文獻[2-6]主要研究一些具有離散狀態(tài)和動作空間場景,這些較為簡單的場景一般可以建模為單智能體的馬爾可夫最優(yōu)決策過程。其中的智能體可以獲得環(huán)境的全部狀態(tài)信息,并且環(huán)境的狀態(tài)轉(zhuǎn)移一般只受到智能體自身決策的影響,也即環(huán)境的狀態(tài)以及狀態(tài)的變換在智能體的角度看來是相對穩(wěn)定、可學習的,那么使用馬爾可夫過程建模是恰當?shù)摹=诘难芯浚?-8]則逐漸將視角轉(zhuǎn)移到一些更復雜的場景上,這些場景具有更高維的信息和更復雜的智能體交互。
多智能體合作問題是當前領域內(nèi)的熱點課題。在場景中,每個時刻都存在智能體與環(huán)境、智能體與智能體之間的交互。文獻[9]指出,為了獲得全局的成功,可以使用分布式智能體框架學習協(xié)作策略。但如果假設所有智能體相互獨立,在理論上可以直接對每個智能體應用單智能體算法。這樣的假設讓每個智能體把其他智能體視作了環(huán)境的一部分,環(huán)境也就失去了穩(wěn)定性,不符合之前提到的馬爾可夫過程的建模前提,與單智能體強化學習方法相矛盾。但是在實際應用中,這樣的方法有時也是可行的,文獻[2]提出的IQL 方法使用了Q-Learning 獨立地訓練了每個智能體,文獻[7]在此基礎上運用了文獻[10]提出的DQN(Deep Q-Network)模型。這種方法有著明顯的收斂問題,所以文獻[11-12]也針對性地提出了一些加速收斂的方法。
在理論上,集中式地學習各智能體的聯(lián)合動作策略,既可以保證環(huán)境穩(wěn)定性,也可以從源頭實現(xiàn)合作的決策。但是集中式學習意味著聯(lián)合動作空間會隨著智能體數(shù)量增長呈指數(shù)增長,不易實現(xiàn)。文獻[13]提出了集中式學習的經(jīng)典方法Co-Graph(Coordination Graphs),將全局獎勵函數(shù)分解為智能體局部項的總和。文獻[14]使用了一種拓撲的Q-Learning 合作方法,它僅在需要決策的狀態(tài)下學習一組合作動作,并將這些依賴項編碼在Co-Graph中。但上述方法都需要預先提供或?qū)W習智能體之間的依賴關系。
如果可以從環(huán)境中獲取每個智能體的個體回報值,就可以使用這個回報值作為個體對環(huán)境的貢獻,那么以上提到的問題就可以使用貢獻分配方法來解決[15]。貢獻分配是指在復雜的學習系統(tǒng)中如何分配系統(tǒng)內(nèi)部成員對結(jié)果的貢獻。然而,文獻[16]指出,在完全合作的場景中,智能體只基于個體回報學習的策略不盡如人意,反而是基于其他智能體的回報學習的策略會實現(xiàn)得分更高的全局回報。因此,貢獻分配的依據(jù)不能只從個體回報值出發(fā),還需考慮到個體與環(huán)境、個體與個體之間的利害關系。
最近的研究則使用集中式學習、分布式執(zhí)行的結(jié)構。文獻[17]提出的模型COMA(Counterfactual Multi-Agent Policy Gradients)使用集中式的評判網(wǎng)絡來評價分布式執(zhí)行的策略網(wǎng)絡,為每個智能體估計了一個基于“反事實基線”的優(yōu)勢函數(shù),以解決多智能體貢獻分配問題。類似地,文獻[18]提出一種對應于每個智能體的多評判網(wǎng)絡的集中式演員評論算法,該算法可以隨著智能體數(shù)量的增加而擴展,但降低了集中式方法的優(yōu)勢。文獻[3]為每個智能體學習了一個集中的評判網(wǎng)絡,并將其應用于具有連續(xù)動作空間的競爭性游戲。這些方法使用策略梯度學習方法,樣本學習效率低,容易陷入次優(yōu)局部極小。
如果將全局目標視作所有個體目標的總和,那么可以使用值分解方法優(yōu)化集中式的評判函數(shù),同時保持分布式執(zhí)行。文獻[19]提出一種價值分解網(wǎng)絡(Value Decomposition Network,VDN),該網(wǎng)絡同樣使用了集中價值函數(shù)的學習和分散執(zhí)行的框架,將全局狀態(tài)動作值函數(shù)視為每個智能體的動作值的線性加和。這種方法類似退化的、完全斷開的協(xié)調(diào)圖,但該模型在訓練期間不使用額外的全局狀態(tài)信息,沒有利用集中式學習的優(yōu)勢,線性加和的分解形式對動作值函數(shù)的刻畫能力也有限。文獻[5]提出的QMIX 方法針對上述問題,在分解中加入非線性度,并在集中式學習過程中使用全局狀態(tài)信息,提升了模型性能。但使用的單調(diào)性值分解方法仍然限制在完全合作的場景中,對具有混合關系的多目標場景性能不佳。
對于智能體目標存在差異的場景,雖然文獻[3]提出的MADDPG 和文獻[4]提出的M3DDPG 適用于具有不同獎勵的智能體,但智能體從根本上無法區(qū)分合作和競爭動作,不能解決多目標合作問題。文獻[20]提出一種多目標多智能體強化學習方法,并分析了完全分布式訓練網(wǎng)絡的收斂性。文獻[1]設計的CM3(Cooperative Multi-Goal Multi-Stage Multi-Agent Reinforcement Learning)模型類比動作值方程,提出一種目標-動作值方程,根據(jù)該方程實現(xiàn)了一種多目標多智能體貢獻分配方法,并使用了分散執(zhí)行、集中訓練框架[21]。盡管這些方法或多或少地考慮到了智能體的目標差異,但它們的貢獻分配仍然是以智能體個體回報或個體目標為依據(jù)的。如何在不穩(wěn)定的環(huán)境狀態(tài)下評估每個智能體對于環(huán)境及其他智能體的影響,是多目標多智能體合作場景的一大難題。
類比于一般的馬爾可夫決策過程以及狀態(tài)部分可觀測的馬爾科夫決策過程[22],本文將多目標多智能體強化學習場景建模為多目標馬爾可夫決策過程[1]。每個智能體基于有限的觀測值和源于一個有限集合的目標獨立決策,總體上與其他智能體相互合作獲得全局的成功。多目標馬爾可夫決策過程可以用式(1)的元組描述:
建模以狀態(tài)部分可觀測為前提,即每個智能體會根據(jù)一個觀測方程得到個體觀測值,再合并該智能體的歷史決策動作序列,兩者記為τ∈(O×U)。
本文模型采用集中式學習分布式執(zhí)行的網(wǎng)絡結(jié)構。該網(wǎng)絡結(jié)構一般由集中式的評判網(wǎng)絡和分布式的策略網(wǎng)絡構成。評判網(wǎng)絡可以使用完整的全局動作、狀態(tài)信息以加快訓練收斂速度,但是策略網(wǎng)絡只能使用智能體的自身局部信息,以還原真實場景的限制因素。
文獻[10]提出的深度Q 網(wǎng)絡(DQN)方法通過神經(jīng)網(wǎng)絡來學習Q-Learning 中的動作價值函數(shù),并且使用了經(jīng)驗回放池策略和target 網(wǎng)絡軟更新策略。經(jīng)驗回放池策略可以減弱樣本之間的相關性,具體操作是將歷史的環(huán)境交互<s,u,r,s′>存入緩存池中,其中s′是采取動作u后的轉(zhuǎn)移狀態(tài)。模型在訓練過程中使用從緩存池中采樣的若干批次數(shù)據(jù)樣本,通過最小化式(2)的TD(Time Difference)誤差函數(shù)來學習最優(yōu)策略。
式(3)中的yDQN是基于target 網(wǎng)絡生成的動作值,θ-是該網(wǎng)絡參數(shù)?;趖arget 網(wǎng)絡的更新方式將target 網(wǎng)絡擬合的動作值作為“真實”值,相較于一般的更新方式,參數(shù)更新更加平滑,提升了收斂性能,可稱為軟更新。
在部分可觀測的前提下,智能體往往能從一些歷史動作和觀測信息中學習到更多的特征。文獻[23]提出的DRQN(Deep Recurrent Q-Learning Network)利用RNN(Recurrent Neural Networks)[24]試圖從歷史信息中提取特征。在一些時間序列較長的場景中可以使用文獻[25]提出的LSTM(Long Short-Term Memory)或文獻[26]提出的GRU(Gated Recurrent Units)網(wǎng)絡。
文獻[19]提出的VDN 通過使用值分解方法優(yōu)化集中式的動作值函數(shù),同時使用分布式執(zhí)行的框架。該方法將全局目標視作所有個體目標的總和,學習式(4)的聯(lián)合動作值函數(shù)。
聯(lián)合動作值是每個智能體的動作值的總和。狀態(tài)部分可觀測和分布式執(zhí)行框架要求每個智能體的動作值只依賴于其個人的動作與觀測值的歷史序列。
VDN 的值分解采用了線性加和的方式,這樣的分解形式使其使用場景有著極大的限制。文獻[5]提出的QMIX 為解決該問題,在分解過程中引入了非線性成分。具體是用一個融合網(wǎng)絡將各智能體的動作值融合為全局動作值,將非線性度引入融合過程,聯(lián)合動作值函數(shù)如式(5)所示:
注意力機制經(jīng)常用來提取輸入特征中的關鍵信息,有很多不同的變種和可選的網(wǎng)絡形式。鍵值對注意力機制用鍵值對格式來表示輸入信息,其中,“鍵”用來計算注意力分布,“值”用來生成選擇的信息。多頭注意力是利用多個查詢來平行地計算從輸入信息中選取多個信息。每個注意力關注輸入信息的不同部分,硬注意力即基于注意力分布的所有輸入信息的期望,結(jié)構化注意力要從輸入信息中選取出和任務相關的信息,主動注意力是在所有輸入信息上的多項分布,是一種扁平結(jié)構。如果輸入信息本身具有層次結(jié)構,比如文本分為詞、句子、段落、篇章等不同粒度的層次,可以使用層次化的注意力來進行更好的信息選擇。此外,還可以假設注意力上下文相關的兩項分布,用一種圖模型來構建更復雜的結(jié)構化注意力分布。
本文提出一種基于QMIX 和注意力機制的多目標注意力動作值分解與融合的方法MG-QMIX。該方法相比于QMIX,加入了目標信息,擴展了動作值方程的擬合方式,并使用注意力機制分析智能體群體影響力,提升模型對復雜的多智能體交互關系的理解能力與動作值估計的精度。
將環(huán)境各智能體的目標信息引入到動作值函數(shù)和融合過程中,是本文模型的關鍵思想之一,也是模型能夠應對更為復雜的多智能體場景關系的數(shù)據(jù)基礎。基于值分解方法的多智能體強化學習模型,從VDN 到QMIX,基本是以全局的獎勵可以視作所有個體貢獻價值的總和為前提的,這樣的前提從根本上忽略了各智能體之間的相互影響。所以,QMIX可以在一些完全合作的場景中發(fā)揮作用,但在一些涉及多智能體協(xié)作與利益沖突并存的混合關系場景中性能受限。
本文的值分解方法可以分為動作值融合和多目標融合兩個階段。在一個時刻下,多目標融合是將所有智能體目標完成程度融合為全局的回報值Qtot,如式(6)所示:
一個目標gi的完成程度可以視作所有智能體對這一目標貢獻的融合,也即動作值融合,如式(7)所示:
其中:Q1~Qk代表以gi為目標的智能體(下文稱為主體智能體)的動作值;Qk+1~Qn則是其余的智能體(下文稱為他體智能體)的動作值;τj、uj分別表示相應智能體的動作-觀測值歷史紀錄和當前時刻決策動作,滿足uj∈,?j=1,2,…,k。
這樣的區(qū)分主要是因為一個智能體aj只需根據(jù)自身目標gi,依據(jù)貪心策略選取使Qj(τj,uj,gi)值最大的動作決策,然后再用這個決策動作計算其他目標下的動作值,所以式(7)中的Qk+1~Qn并不涉及最大值選擇。這也意味著一個智能體在策略決策階段只需要自己的歷史紀錄和觀測信息,不需要全局的狀態(tài),保證了分布式?jīng)Q策執(zhí)行的框架實現(xiàn)。但同時,使用到的貪心策略要求模型必須采用離線學習方式。
另外,為了限制分解關系的單調(diào)性,需要滿足式(8):
文獻[27]證明了這樣的限制條件允許融合網(wǎng)絡擬合某種單調(diào)函數(shù)。需要注意的是,單調(diào)性在融合過程中是局部的,只在多目標融合階段體現(xiàn)。在動作值融合階段,不同目標的智能體之間需要考慮到競爭關系的影響,那么對于融合過程中的他體智能體,其影響權重的正負應由該智能體的群體影響力決定。所謂的群體影響力是指他體智能體的決策趨勢是否會對主體智能體基于自身目標的最優(yōu)決策產(chǎn)生正面或負面的影響,以及影響的大小,可以從主體智能體狀態(tài)smain和所有智能體全局狀態(tài)s的比較分析中計算得出。目標信息和群體影響力兩者的作用是相輔相成的,群體影響力的生成需要借助目標信息,而由目標信息引入的第一階段的融合需要群體影響力引導生成融合權重。
在多目標融合階段,各目標完成程度對于全局的回報值Qtot的貢獻則可以通過全局狀態(tài)s分析計算得出。
上述的QMIX等分解方法由圖1所示的MG-QMIX模型實現(xiàn),模型由策略網(wǎng)絡和融合網(wǎng)絡兩部分構成。
圖1 MG-QMIX 模型結(jié)構Fig.1 Structure of MG-QMIX model
一個策略網(wǎng)絡學習了一個智能體a的多目標動作值函數(shù){Qa(τa,·,gi)|i=1,2,…,m}。如圖1 所示,網(wǎng)絡采用DRQN 結(jié)構,以智能體當前時刻觀測值oa,t和上一時刻歷史動作ua,t-1為輸入,輸出的中間特征za,t與不同的目標向量{gi|i=1,2,…,m}結(jié)合后通過后續(xù)的全連接層生成對應目標下的動作值{Qa(τa,·,gi)|i=1,2,…,m}。智能體會基于自身目標ga下的動作值Qa(τa,·,ga),以貪心策略選取使動作值最大的動作ua,t,并輸出最優(yōu)動作下的多目標動作值{Qa(τa,ua,t,gi)|i=1,2,…,m}。需要指出的是,在訓練過程中,智能體并不會直接選擇最優(yōu)動作ua,t,而是以一個自適應的?概率選擇隨機動作,目的是增強訓練過程中策略的探索能力。
具有注意力的超網(wǎng)絡為融合過程提供相應的融合權重和偏置,如圖2 所示。因為考慮到無論在動作值融合階段還是多目標融合階段,融合方程的非線性度并不強,融合關系是有跡可循的,所以沒有直接用融合網(wǎng)絡完成兩階段的融合過程。另外,如果直接將全局狀態(tài)s和策略網(wǎng)絡輸出的多目標動作值交由一個神經(jīng)網(wǎng)絡處理,無疑會增加學習難度,甚至出現(xiàn)欠擬合的情況,故而選擇借助超網(wǎng)絡生成融合參數(shù)。超網(wǎng)絡可以使用神經(jīng)網(wǎng)絡處理狀態(tài)信息并輸出相應的融合參數(shù),可以對融合參數(shù)選擇性地做一些額外處理,比如通過絕對值激活實現(xiàn)單調(diào)性限制,或者在融合中加入線性成分。
圖2 融合網(wǎng)絡框架Fig.2 Framework of converged network
在動作值融合階段,融合參數(shù)需要衡量主體智能體和他體智能體對融合目標的影響,MG-QMIX模型采用注意力機制。如3.1 節(jié)所述,群體影響力是指他體智能體的決策趨勢是否會對主體智能體基于自身目標的最優(yōu)決策產(chǎn)生正面或負面的影響,以及影響的大小。全局狀態(tài)包含了所有智能體的當前狀態(tài)(包含目標)和環(huán)境狀態(tài),狀態(tài)和目標信息其實也蘊含了智能體在整體環(huán)境中所處地位、決策趨勢等關鍵信息,將主體智能體狀態(tài)與全局狀態(tài)各部分作比較分析,在理論上可以評估每個他體智能體對于主體智能體決策的影響。注意力機制經(jīng)常用來提取輸入特征中的關鍵信息。群體影響力可以看作依據(jù)主體智能體的狀態(tài),提取全局狀態(tài)中的對主體智能體行動影響較大的部分,以相關性權重輸出。在合成過程中,大小不一的權重表示了各智能體對當前目標的貢獻程度。與鍵值對注意力機制相吻合,全局狀態(tài)和主體智能體狀態(tài)分別視作“鍵”和“值”,用鍵值對格式來表示輸入信息,其中“鍵”用來計算注意力分布,“值”用來生成選擇的信息。融合網(wǎng)絡對比了主體智能體狀態(tài)smain和所有智能體全局狀態(tài)s之間的關聯(lián)程度,如式(9)所示計算得到aattention向量:
然后利用aattention計算權重和偏置,模型使用了兩對參數(shù)(W11,b11)、(W12,b12)提高融合刻畫能力和精度。如式(10)所示,將aattention分別輸入到一個全連接層得到這些參數(shù),b12需要額外經(jīng)過一層ReLu 激活函數(shù)和另一層全連接層。
之后利用這組參數(shù)完成各目標下動作值{Qa(τa,ua,t,gi)|i=1,2,…,m,a=1,2,…,n}到目標完成度的融合。為引入一定的非線性度,第1 組參數(shù)計算的結(jié)果經(jīng)過一層ELU 激活函數(shù),再利用第2 組參數(shù)計算得到最終的目標完成度,如式(11)所示:
在多目標融合階段,融合參數(shù)(W21,b21)、(W22,b22)直接由全局狀態(tài)s生成,計算方式與第1 階段相似,但是需要額外滿足單調(diào)性要求,所以對兩個權重取絕對值激活,如式(12)所示:
類似地,模型利用這組參數(shù)完成各目標完成度{Qgi(τ,u,gi)|i=1,2,…,m}到全局的回報值Qtot(τ,u)的融合,如式(13)所示:
模型整體是端到端訓練的,最小化如式(14)所示的損失函數(shù):
算法1MG-QMIX 算法
為驗證本文模型的性能效果和魯棒性,在一些具有離散動作狀態(tài)場景上進行數(shù)組實驗。第1 部分是在單目標、純粹合作場景星際爭霸2 平臺選取若干個對抗模式,訓練紅方多個單位對抗電腦固定策略,主要是驗證本文模型是否保留了QMIX 模型對于合作關系的學習能力;第2 部分是一些多目標、混合關系場景,選取了checker、多粒子導航場景,主要是驗證本文模型在多目標混合場景中的性能。
4.1.1 星際爭霸2
強化學習領域常使用即時策略游戲作為實驗平臺,星際爭霸2 是目前最常使用的即時策略游戲平臺之一。通過對地圖、部隊兵種等的設置,可以滿足合作、競爭、多智能等多種環(huán)境需求。游戲中的作戰(zhàn)單位擁有龐大且復雜的微觀動作空間,多個智能體的環(huán)境交互也足夠復雜。本文選取了由文獻[29]提出的星際爭霸2 微觀操控平臺作為本文的實驗平臺。
具體地,本文使用該平臺的一些分布式微觀操控場景。場景中有紅藍兩方隊伍,通過操控紅方的各個作戰(zhàn)單位與藍方對抗攻擊。按照模型的分布式策略方法,每個智能體操控紅方中的一個單位。場景中所有單位無論歸屬紅藍何方,其兵種決定了它的動作空間和狀態(tài)屬性,即同一個種類的單位具有一樣的動作和狀態(tài)。藍方的隊伍的單位數(shù)量和單位種類與紅方保持一致,并且由平臺的AI 策略操控,共有7 種難度等級,由低到高代表了藍方AI 的智能等級從低到高,本文選取了等級3 的難度。具體場景包含“3 個槍手(3m)”“8 個槍手(8m)”和“2 個獵人3 個狂熱者(2s3z)”,以上均為游戲內(nèi)的作戰(zhàn)單位種類名稱。
環(huán)境建模方面類似于文獻[17]的實驗部分。智能體微觀動作操控可以概括為移動-攻擊模式。每個智能體的動作包含移動、攻擊、停止和無動作。其中,移動動作需要給出東南西北四個方向之一的參數(shù),攻擊動作需要給出在其攻擊范圍內(nèi)的敵方單位編號。需要注意的是,場景并不會讓智能體自動攻擊范圍內(nèi)的敵方單位,而是強迫智能體學習攻擊策略,自行選擇攻擊的對象和時機。環(huán)境的狀態(tài)空間對于每個智能體是部分可觀測的,其狀態(tài)觀測值取決于智能體的視力范圍。對于視力范圍之外的單位,無論是友方還是敵方,智能體都無法知曉其任何狀態(tài)。環(huán)境的獎勵值由我方造成傷害和敵方傷亡情況兩部分構成。每個回合,我方造成的傷害值的總和作為獎勵的第1 個部分;如果當前回合造成一名敵方陣亡,則有10 得分,如果使得全部敵方陣亡還會額外獲得200 得分,這是獎勵值的第2 個部分。每個回合的獎勵值都會歸一化得到一個0~20 范圍的分值。
與原平臺不同,本文模型需要一個目標信息來表示每個智能體的關注點。在星際爭霸2 平臺上,由于我方的每個單位的目標都是統(tǒng)一的對抗敵方,不存在內(nèi)部的資源等的競爭,因此是一個單純合作的場景。實驗中將所有智能體的目標都設置為同一個特征向量,即單目標場景。這組實驗的目的也是為了與QMIX 表現(xiàn)較好的實驗平臺上做直觀的對比。
4.1.2 棋盤游戲
棋盤游戲環(huán)境來自文獻[1],是一種目標信息比較關鍵的場景。如圖3 所示,場景包含兩個智能體,要在分布著紅藍點的棋盤上移動,每次只能移動一格,且不能移動到棋盤外或者被其他智能體占領的棋盤格。每當一個智能體移動到一個具有紅點或者藍點的格子上時,便會吃掉該點并獲得相應的得分,但是其中一個智能體吃掉紅點會獲得更多的得分,另一個智能體則是吃掉藍點會獲得更多的得分。場景的總體獎勵由兩方得分的和構成。所以,若要獲得盡可能高的總體得分,兩智能體需要相互配合,盡可能只吃自己獲益更多的得分點,并且要為另一個智能體向目標點移動清除途中的低分障礙。場景的狀態(tài)同樣是部分可觀測的,一個智能體只能獲取自身的狀態(tài)信息和周圍指定格數(shù)的棋盤信息,以及視野內(nèi)的另一智能體位置信息。
圖3 棋盤游戲樣式Fig.3 Board game style
4.1.3 多粒子運動環(huán)境
多粒子環(huán)境由文獻[8]提出,可以在二維空間中模擬操控具有碰撞體積的粒子上下左右移動,并根據(jù)不同的任務目標設立了一系列的地圖。本文使用了變道(merge)和交叉(cross)兩種地圖,如圖4 所示。較大的粒子代表粒子的初始位置,同花紋的較小粒子代表了操控該粒子移動的期望目標位置。不同的粒子由不同的智能體策略操控,動作空間共有上下左右四個固定速度的移動和停止等指令,環(huán)境同樣是狀態(tài)部分可觀測的,各智能體的觀測狀態(tài)包括自身的位置、運動和目標信息,以及觀測范圍的其他粒子的位置信息。場景的總體獎勵反饋分為兩部分:一部分是根據(jù)每個智能體相對于目標位置的距離設定的,為一個負值;另一部分是根據(jù)粒子之間的碰撞次數(shù)生成的懲罰。因此,整體的獎勵值始終是負數(shù),值越大代表策略性能越好。
圖4 多粒子運動環(huán)境Fig.4 Multi-particle motion environment
4.1.4 目標信息設置
在各個場景中,目標信息的形式可以分為兩種:一是與環(huán)境狀態(tài)相關的特征量,比如位置、ID 標識、速度等;二是抽象為獨熱編碼形式。在星際爭霸2的各地圖中,所有智能體的目標是相同的,所以用“1”指代,這是因為這部分實驗設置是為了驗證本文模型是否保留了QMIX 模型對合作關系的學習能力。在棋盤場景中,兩個智能體分別對紅藍點敏感,所以其目標設置為二維的獨熱編碼“01”和“10”。在多粒子運動場景中,每個智能體要從起始位置移動到終點位置,所以目標信息可以設置為終點位置的二維坐標數(shù)據(jù)。
為驗證本文方法和模型使用的幾種關鍵技術對模型性能的影響,在實驗設置中加入了兩組消融實驗。
首先,在融合網(wǎng)絡中,模型使用ReLU、ELU 等激活函數(shù)實現(xiàn)非線性的值融合。在理論上,場景中各智能體對于各目標的貢獻,以及各目標對全局動作值的貢獻分配是較復雜的映射關系,非線性的擬合方式在理論上會提升網(wǎng)絡對于各變量之間的關系的刻畫能力。因此,基于線性融合方式的模型可以作為一組消融實驗,即去掉原模型的融合網(wǎng)絡中的非線性激活函數(shù),并在多粒子運動環(huán)境中的merge 地圖上訓練該模型。
其次,在動作值融合階段,模型使用注意力機制學習智能體的群體影響力,為后續(xù)的融合參數(shù)的生成提供了更為豐富的特征信息。為證明注意力機制對于動作值融合階段的關鍵性作用,不使用注意力機制的模型作為另一組消融實驗,即在值融合網(wǎng)絡的第一階段中,全局狀態(tài)st不經(jīng)過注意力模塊,直接作為超網(wǎng)絡的輸入。同樣地,這組消融實驗也在多粒子運動環(huán)境中的merge 地圖上訓練了該模型。
為了驗證MG-QMIX 的各種性能,本文在星際爭霸2 微觀操控平臺、棋盤游戲和多粒子運動環(huán)境分別訓練、測試了模型,并將結(jié)果與文獻[5]提出的QMIX 模型和文獻[17]提出的COMA 模型進行對比。在每個場景中,每種模型獨立訓練10 次,圖5 所示的訓練曲線是10 次獨立訓練的平均值結(jié)果,每種模型訓練完成后的100 局測試實驗的平均得分如表1 所示(粗體表示結(jié)果最優(yōu))。從綜合結(jié)果可以看出:本文模型在星際爭霸2 這樣的單純合作場景中與QMIX 的得分持平,比COMA 性能更好;在具有混合關系的場景中,MG-QMIX 得分最高,性能優(yōu)于QMIX 與COMA。
圖5 3 種模型在各場景的訓練得分曲線Fig.5 Training score curves of the three models in each scenarios
表1 3 種模型在各場景中的測試平均得分Table 1 Average test scores of the three models in each scenarios
在星際爭霸2 微觀操控平臺中,由于我方每個單位的目標都是統(tǒng)一的對抗敵方,不存在內(nèi)部資源的競爭,因此是一個單純合作的場景。實驗中將所有智能體的目標都設置為同一個特征向量,也就是單目標場景。QMIX 模型是目前在該平臺性能最好的強化學習模型之一。各模型訓練超參數(shù)設置如表2 所示,在3m、8m、2s3z 地圖的勝率對比結(jié)果見圖5。在智能體構成較為簡單的3m、8m 地圖中,MG-QMIX 和QMIX 模型都表現(xiàn)出較好的性能,兩者勝率基本持平。在智能體數(shù)量略多的8m 地圖中,各模型的策略穩(wěn)定性相比3m 地圖有所降低。COMA模型在兩個地圖中勝率略差一些。在智能體種類有較大的差異的2s3z 地圖中,COMA 模型無法學習得到一個成功的模型。MG-QMIX 和QMIX 仍有較好的表現(xiàn),穩(wěn)定性上QMIX 更好一些,因為MG-QMIX的網(wǎng)絡要比QMIX 更為復雜。
表2 各模型在星際爭霸2 微觀操控平臺中的訓練超參數(shù)Table 2 The training hyper parameters of each models in the StarCraft 2 micro-control platform
星際爭霸2 平臺的實驗結(jié)果表明,MG-QMIX 相比QMIX 使用的目標主導的值分解方法對于多智能體合作場景依舊適用,且有優(yōu)秀表現(xiàn)。
在棋盤游戲中,各模型訓練超參數(shù)設置如表3所示,3 種模型的得分對比結(jié)果見圖5。MG-QMIX在訓練中學習到了最高24 分的策略,而QMIX 和COMA 模型不能在10 次獨立訓練中每次都學習到最優(yōu)策略。實驗結(jié)果表明了MG-QMIX 在處理混合關系的多目標多智能體合作場景中的優(yōu)勢,可以有效利用各智能體目標信息獲得更優(yōu)的全局成功。
表3 各模型在棋盤游戲中的訓練超參數(shù)Table 3 Training hyper parameters of each models in board game
在多粒子運動環(huán)境中,各模型訓練超參數(shù)設置如表4 所示,由于cross 地圖的環(huán)境更為復雜,為得到更直觀的結(jié)果,延長了訓練回合數(shù)。各模型在merge和cross 地圖上的得分比較結(jié)果見圖5。在較為簡單的merge 地圖中,3 種模型都學習到了較高得分的穩(wěn)定策略,MG-QMIX 的得分最高,并且收斂速度也是最快的。在更為復雜的cross 地圖中,COMA 模型的得分表現(xiàn)較差,QMIX 模型得分略好但穩(wěn)定性較差,MG-QMIX 在得分和穩(wěn)定性方面都是表現(xiàn)最好的。實驗結(jié)果體現(xiàn)了MG-QMIX 模型基于目標和注意力機制的值分解方法可以更好地應對多目標多智能體合作場景。
表4 各模型在多粒子運動環(huán)境中的訓練超參數(shù)Table 4 Training hyper parameters of each models in multi-particle motion environment
為驗證本文方法和模型使用的關鍵技術的有效性,設置兩組消融模型,線性(Linear)模型和無注意力(No Attention)模型。消融模型和本文MG-QMIX在多粒子運動環(huán)境merge 地圖中的得分對比結(jié)果如圖6 所示。相較于本文提出的模型,兩組消融模型都沒有可觀的性能表現(xiàn)。
圖6 不同模型在多粒子運動環(huán)境merge 地圖的訓練得分曲線Fig.6 Training score curves of different models on merge map in multi-particle motion environment
本文模型的非線性融合方式擴展了對智能體之間的關系模式,提高了值分解的精確程度。然而,線性模型對于智能體關系和值分解的刻畫能力有限,只能收斂到一個較低得分的策略,遠低于MGQMIX的收斂得分。
本文模型的注意力機制主要用來提取群體影響力特征,該特征在利用目標信息以及完成第一階段值融合中起到了關鍵性的引導作用。從無注意力模型的訓練曲線中可以看出,智能體策略始終沒有收斂,這說明無注意力模型沒有群體影響力的引導,無法完成值融合網(wǎng)絡中的動作值融合階段,證明了群體影響力對于值融合的關鍵作用,也說明了本文選取的鍵值對于注意力網(wǎng)絡可以有效地提取群體影響力這一特征。
上述兩組消融實驗證明了模型的非線性分解形式和注意力機制對于模型性能的正面作用和必要性。
本文提出一種基于目標信息和注意力機制的多智能體值分解強化學習方法MG-QMIX。為提升強化學習方法在多目標多智能體場景中的性能,采用集中式學習、分布式策略的框架,利用智能體的目標信息實現(xiàn)兩階段的值分解方法,并通過注意力機制提取智能體群體影響力特征,促使網(wǎng)絡訓練學習。在星際爭霸2、棋盤游戲和多粒子運動環(huán)境等6 種場景地圖上對比了該模型與其他多智能體強化學習方法的表現(xiàn),結(jié)果表明,MG-QMIX不僅保留了QMIX在合作場景中的優(yōu)勢,而且在具有混合關系的多目標場景中仍有優(yōu)秀性能,消融實驗結(jié)果也證明了該方法非線性分解和注意力機制的有效性。下一步將考慮增強該方法在更多智能體數(shù)量的場景中的拓展性,探索適用于無顯式目標或動態(tài)目標環(huán)境中的強化學習方法。