摘 要:現(xiàn)有的基于通信學(xué)習(xí)的多智能體路徑規(guī)劃(multi-agent path finding,MAPF)方法大多可擴(kuò)展性較差或者聚合了過多冗余信息,導(dǎo)致通信低效。為解決以上問題,提出干擾者鑒別通信機(jī)制(DIC),通過判斷視場(field of view,F(xiàn)OV)中央智能體的決策是否因鄰居的存在而改變來學(xué)習(xí)排除非干擾者的簡潔通信,成功過濾了冗余信息。同時(shí)進(jìn)一步實(shí)例化DIC,開發(fā)了一種新的高度可擴(kuò)展的分布式MAPF求解器,基于強(qiáng)化和模仿學(xué)習(xí)的干擾者鑒別通信算法(disruptor identifiable communication based on reinforcement and imitation learning algorithm,DICRIA)。首先,由干擾者鑒別器配合DICRIA的策略輸出層識別出干擾者;其次,在兩輪通信中分別完成對干擾者與通信意愿發(fā)送方的信息更新;最后,DICRIA根據(jù)各模塊的編碼結(jié)果輸出最終決策。實(shí)驗(yàn)結(jié)果表明,DICRIA的性能幾乎在所有環(huán)境設(shè)置下都優(yōu)于其他同類求解器,且相比基線求解器,成功率平均提高了5.2%。尤其在大尺寸地圖的密集型問題實(shí)例下,DICRIA的成功率相比基線求解器甚至提高了44.5%。
關(guān)鍵詞:多智能體; 路徑規(guī)劃; 強(qiáng)化學(xué)習(xí); 模仿學(xué)習(xí); 干擾者鑒別通信
中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A
文章編號:1001-3695(2024)08-032-2474-07
doi:10.19734/j.issn.1001-3695.2023.11.0555
Disruptor identifiable communication based on reinforcement and
imitation learning for multi-agent path finding
Li Mengtian1a,1b, Xiang Yingcen1a, Xie Zhifeng1a,1b, Ma Lizhuang1b,2
(1.a.Dept. of Film & Television Engineering, b. Shanghai Film Special Effects Engineering Technology Research Center, Shanghai University, Shanghai 200072, China; 2.Dept. of Computer Science & Engineering, Shanghai Jiao Tong University, Shanghai 200240, China)
Abstract:Most of the existing MAPF methods based on communication learning have poor scalability or aggregate too much redundant information, resulting in inefficient communication. To solve these problems, this paper proposed disruptor identifiable communication(DIC), which learned concise communication excluding non-disruptors by judging whether the agent in the center of the field of view would change its decision-making due to the presence of neighbors, and successfully filtered out redundant information. At the same time, this paper further instantiated DIC and developed a new highly scalable distributed MAPF solver: disruptor identifiable communication based on reinforcement and imitation learning algorithm(DICRIA). Firstly, the disruptor discriminator and the policy output layer of DICRIA identified the disruptor. Secondly, the algorithm updated the information of the disruptor and the communication wish sender in two rounds of communication respectively. Finally, DICRIA output the final policy according to the coding results of each module. Experimental results show that DICRIA’s performance is better than other similar solvers in almost all environment settings, and the algorithm increases the success rate by 5.2% on average compared to the baseline solver. Especially in dense problem instances with large-size maps, the algorithm even increases the success rate of DICRIA by 44.5% compared to the baseline solver.
Key words:multi-agent; path finding; reinforcement learning; imitation learning; disruptor identifiable communication(DIC)
0 引言
多智能體路徑規(guī)劃(MAPF)是為多個(gè)智能體尋找從起始位置到目標(biāo)位置的無沖突路徑集合的問題。MAPF在許多領(lǐng)域都有著廣泛的應(yīng)用,如城市道路網(wǎng)絡(luò)[1]、火車調(diào)度[2]、多機(jī)器人系統(tǒng)[3]等。
按照規(guī)劃方式不同,MAPF算法分為集中式規(guī)劃算法和分布式執(zhí)行算法。集中式規(guī)劃算法是經(jīng)典的MAPF算法,主要分為基于A*搜索[4~8]、基于沖突搜索[9~13]、基于代價(jià)增長樹[14~16]和基于規(guī)約[17,18]四種。然而,這些集中式規(guī)劃方法的局限性在于它們通常無法在保持高質(zhì)量解決方案的同時(shí)擴(kuò)展到更大的問題規(guī)模(更大的地圖、更多的智能體),且由于計(jì)算成本較高,往往無法滿足實(shí)際應(yīng)用中的頻繁實(shí)時(shí)重新規(guī)劃的需求。關(guān)于傳統(tǒng)集中式規(guī)劃算法的詳細(xì)介紹可參考文獻(xiàn)[19]。
分布式執(zhí)行算法是人工智能領(lǐng)域興起的基于學(xué)習(xí)的MAPF算法,由于采取部分可觀測性下的去中心化規(guī)劃,而在解決實(shí)際部署中的頻繁重規(guī)劃問題上表現(xiàn)出了較大的潛力,近年來引起了越來越多的關(guān)注。僅依賴局部觀測的去中心化規(guī)劃能夠讓MAPF問題輕松地?cái)U(kuò)展到任意的世界大小(地圖尺寸),但也嚴(yán)重限制了智能體可用的信息量,使它們難以完成需要高度協(xié)作的密集型MAPF任務(wù)。部分學(xué)者將強(qiáng)化學(xué)習(xí)與模仿學(xué)習(xí)相結(jié)合,采用傳統(tǒng)集中式規(guī)劃算法作為專家算法為強(qiáng)化學(xué)習(xí)提供指導(dǎo)[20,21],但由專家演示提供的著眼全局的指導(dǎo)信息不足以使智能體學(xué)會高效合作。另一部分學(xué)者則通過引入可學(xué)習(xí)的通信方法[22~25],允許智能體共享其信息,以彌補(bǔ)局部觀測信息量受限的缺陷。這相當(dāng)于間接擴(kuò)大了FOV的范圍,使智能體能夠獲取到其他智能體FOV內(nèi)的觀測信息,從而增加單個(gè)智能體可用的信息量并促進(jìn)團(tuán)隊(duì)合作。但大多數(shù)采用通信的基于學(xué)習(xí)的MAPF方法的可擴(kuò)展性都非常有限,通常無法在大小為40×40的地圖上解決包含超過64個(gè)智能體的問題實(shí)例。先進(jìn)的SCRIMP[26]通過基于改進(jìn)Transformer的全局通信來聚合上一個(gè)時(shí)間步所有智能體的消息,雖然有效緩解了可擴(kuò)展性的問題,卻也造成了通信冗余,而這會在一定程度上損害智能體間的合作。并且,通信過去的消息(上一個(gè)時(shí)間步的消息)還存在滯后性的問題。因此,為多智能體路徑規(guī)劃設(shè)計(jì)一個(gè)能夠解決以上問題的通信機(jī)制十分重要且必要。
針對上述方法的局限性,本文提出干擾者鑒別通信機(jī)制DIC,并進(jìn)一步將其實(shí)例化,開發(fā)了一個(gè)新的基于強(qiáng)化和模仿學(xué)習(xí)的MAPF求解器DICRIA。DIC通過忽略其他鄰居,只與那些對自身決策有影響的干擾者鄰居進(jìn)行通信,有效避免了聚合不相關(guān)的信息,從而避免了通信冗余問題;同時(shí)降低了通信頻率,能夠提高多智能體規(guī)劃任務(wù)中的通信效率,幫助智能體更好地學(xué)會合作。具體地,其核心組件干擾者鑒別器將原始局部觀測與掩蔽局部觀測編碼后的結(jié)果輸入到DICRIA的策略輸出層,根據(jù)決策差異識別出對中央智能體實(shí)際有影響的干擾者鄰居。而后通信將分為發(fā)送通信意愿與給予反饋的兩輪過程。首輪過程中,智能體向干擾者發(fā)送攜帶有自身信息的通信意愿,干擾者根據(jù)接收到的通信意愿更新信息并反饋更新后的結(jié)果。在第二輪中,完成對意愿發(fā)送方信息的更新。DICRIA結(jié)合兩輪通信所聚合的信息與其他組成部分的編碼結(jié)果,并據(jù)此輸出最終的決策。實(shí)驗(yàn)結(jié)果表明,本文新MAPF求解器幾乎在所有環(huán)境下,均在規(guī)劃平均所耗時(shí)間步數(shù)、沖突率及成功率上優(yōu)于其他最先進(jìn)的同類求解器,并通過消融實(shí)驗(yàn)證明了本文提出的通信機(jī)制的有效性。本文的主要貢獻(xiàn)總結(jié)如下:
a)提出一種適用于MAPF問題的新通信機(jī)制:干擾者鑒別通信,簡稱DIC。其核心組件是干擾者鑒別器。在通信之前,由干擾者鑒別器為每個(gè)智能體鑒別其FOV內(nèi)的干擾者,通過只與干擾者進(jìn)行通信,DIC有效避免了通信冗余。并且,DIC可與任意集中訓(xùn)練分散執(zhí)行的強(qiáng)化學(xué)習(xí)框架兼容。
b)實(shí)例化DIC,開發(fā)了一種新的高度可擴(kuò)展的分布式MAPF求解器:基于強(qiáng)化和模仿學(xué)習(xí)的干擾者鑒別通信算法DICRIA。智能體根據(jù)其視場內(nèi)的局部觀測及由DIC聚合的干擾者信息獨(dú)立做決策。
c)本文在一系列具有不同團(tuán)隊(duì)規(guī)模、環(huán)境規(guī)模、障礙物密度的問題實(shí)例中進(jìn)行了多方面的對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果證明了DICRIA在三項(xiàng)標(biāo)準(zhǔn)MAPF指標(biāo)上的性能普遍優(yōu)于其他先進(jìn)的同類求解器。最突出的是,DICRIA成功地將基線求解器的成功率平均提高了5.2%,在密集型環(huán)境下,甚至提高了44.5%。
1 問題定義
1.1 MAPF問題定義
經(jīng)典的MAPF以無向圖G=(V,E)和智能體集合A={a1,…,an}作為輸入,A中包含n個(gè)智能體。V為可通行的位置頂點(diǎn)集合,E為V中相鄰點(diǎn)間的連通邊的集合。每一個(gè)ai∈A都有一個(gè)唯一的起始頂點(diǎn)si∈V和一個(gè)唯一的目標(biāo)頂點(diǎn)gi∈V。時(shí)間被離散化為時(shí)間步,在每一個(gè)時(shí)間步長上,智能體可以移動到相鄰的頂點(diǎn),也可以在當(dāng)前位置頂點(diǎn)等待。智能體的路徑是從si開始,到gi結(jié)束的由相鄰(表示移動動作)或相同(表示等待動作)的頂點(diǎn)組成的序列。通常假設(shè)智能體到達(dá)目標(biāo)后便永遠(yuǎn)停留在目標(biāo)位置上。路徑的長度計(jì)算為智能體向目標(biāo)移動的過程中執(zhí)行的動作總數(shù)(包括移動和等待兩種動作),即其消耗的時(shí)間步數(shù)。智能體必須避免頂點(diǎn)沖突和交換沖突。當(dāng)兩個(gè)智能體在同一個(gè)時(shí)間步上占據(jù)相同的頂點(diǎn)將發(fā)生頂點(diǎn)沖突,以相反的方向穿過同一條邊時(shí)將發(fā)生交換沖突。MAPF的解決方案是一組無沖突的路徑,由n個(gè)智能體的路徑組成。目標(biāo)通常是最小化路徑成本總和,即所有智能體到達(dá)其目標(biāo)所消耗的時(shí)間步數(shù)之和。有關(guān)MAPF問題更全面的定義可參考文獻(xiàn)[27]。
1.2 RL環(huán)境設(shè)置
與上述經(jīng)典MAPF問題一致,本文將RL環(huán)境設(shè)置為離散的2D四鄰域網(wǎng)格環(huán)境,其中智能體、目標(biāo)和障礙物各自占據(jù)一個(gè)網(wǎng)格單元。環(huán)境地圖是一個(gè)L×L的矩陣,其中0代表空單元格,1代表障礙物,地圖邊界之外的所有點(diǎn)均被視為障礙。每個(gè)問題實(shí)例中,本文在環(huán)境地圖上為n個(gè)智能體從空單元格中隨機(jī)選擇非重復(fù)的起始位置和相應(yīng)的目標(biāo)位置,并且確保每對起始-目標(biāo)位置之間的連通性。動作空間的大小設(shè)置為5,包括原地等待和上下左右四個(gè)方向的移動動作。在每個(gè)時(shí)間步上執(zhí)行決策動作之前,先檢查動作是否會導(dǎo)致沖突,若存在沖突則觸發(fā)沖突處理機(jī)制(將在第3章闡述)對動作進(jìn)行調(diào)整,并允許智能體同時(shí)執(zhí)行調(diào)整后的動作。當(dāng)所有智能體均到達(dá)目標(biāo),或達(dá)到預(yù)定義的時(shí)間限制時(shí)(256個(gè)時(shí)間步),終止對問題實(shí)例的求解。本文假設(shè)通信不受障礙物阻礙。
MAPF環(huán)境被設(shè)置為部分可觀察,這更符合現(xiàn)實(shí)應(yīng)用中機(jī)器人視野受限的實(shí)際情況。每個(gè)智能體只能訪問其視場(FOV)內(nèi)的信息,F(xiàn)OV的大小為l×l,本文實(shí)驗(yàn)中將l設(shè)置為奇數(shù),以確保智能體位于FOV的中心。
本文獎勵(lì)設(shè)計(jì)同SCRIMP[26],如表1所示。對除了位于目標(biāo)位置之外的所有狀態(tài)都給予負(fù)獎勵(lì)以促進(jìn)目標(biāo)的達(dá)成。
2 干擾者鑒別通信機(jī)制DIC
受I2C[28]的啟發(fā),本文提出了一種新的通信機(jī)制,稱為干擾者鑒別通信機(jī)制DIC。DIC有效彌補(bǔ)了現(xiàn)有MAPF求解器通信機(jī)制的缺陷,避免了聚合過多無用信息而造成通信冗余、降低通信效率的問題。
I2C通過兩個(gè)決策概率(考慮影響者時(shí),被影響者的決策概率;掩蔽影響者時(shí),被影響者的決策概率)之間的KL散度來度量一個(gè)智能體對另一個(gè)智能體決策的影響程度。當(dāng)KL散度很小時(shí),被影響的智能體選擇不與影響者通信;當(dāng)KL散度較大,超過預(yù)定義的閾值時(shí),則進(jìn)行通信。然而,I2C的局限性在于KL散度閾值的設(shè)置高度依賴于經(jīng)驗(yàn)實(shí)驗(yàn),且在不同的問題中差異較大,具有偶然性。此外,I2C還需要已知所有其他智能體的聯(lián)合觀測和動作,而在現(xiàn)實(shí)的MAPF問題中,具有局部觀測性的智能體通常只能觀察到有限范圍內(nèi)其他智能體的存在,且無法預(yù)測它們的動作。為此,本文提出DIC,其不依賴聯(lián)合觀測和動作,更適用于MAPF問題。
DIC的核心思想是,在訓(xùn)練和執(zhí)行期間有選擇的與部分鄰居進(jìn)行通信。本文認(rèn)為,距離較近的智能體彼此之間并不總是相關(guān)的,并不是所有鄰居都能提供有效信息。如果對鄰居的信息不作篩選和判斷,同SCRIMP一樣全盤接收,容易獲取到來自其他智能體的不相關(guān)且冗余的信息,聚合過多無用信息會間接降低實(shí)際有效的信息的正向指導(dǎo)效力,甚至?xí)`導(dǎo)模型,從而導(dǎo)致不明智的決策,損害智能體之間的合作。因此,有必要在通信之前對鄰居的信息進(jìn)行篩選,為每個(gè)智能體找出那些能夠?yàn)槠錄Q策提供有效信息的相關(guān)鄰居,只與它們進(jìn)行通信,能有效過濾冗余信息,降低通信成本,且有助于智能體更好地學(xué)習(xí)合作。而只有當(dāng)鄰居智能體的存在引起FOV中央智能體的決策調(diào)整時(shí),DIC才確定該鄰居是相關(guān)的和有影響力的。本文將那些會對中央智能體的決策產(chǎn)生影響的鄰居稱為干擾者(disruptor)。對干擾者的判斷僅基于智能體的局部觀測來學(xué)習(xí),因此能夠在大規(guī)模的多智能體規(guī)劃問題中通過分散執(zhí)行的方式有效部署。
DIC對干擾者的判斷由干擾者鑒別器來完成,圖1顯示了鑒別器的結(jié)構(gòu)與完整的鑒別流程。在3×3的FOV中,灰色方格代表障礙物,彩色方格代表智能體,紅色的“×”表示從智能體i的局部觀測中掩蔽掉智能體j(參見電子版)。以簡單的局部場景為例,假設(shè)智能體i的FOV內(nèi)只有一個(gè)鄰居智能體j。智能體i的局部觀測表示為oi(原始局部觀測),從oi中掩蔽掉智能體j,得到i的掩蔽局部觀測oi-j。通過在oi中將j對應(yīng)位置處的信息設(shè)置為某個(gè)特殊的值(例如0)來實(shí)現(xiàn)這種掩蔽。然后,智能體i分別基于oi和oi-j,使用決策模型(跳過通信塊)計(jì)算出兩個(gè)臨時(shí)的決策,對應(yīng)生成兩個(gè)臨時(shí)的動作。具體地,利用本文決策模型中觀測編碼器的第一個(gè)分支(將在第3.1節(jié)闡述),oi和oi-j作為其輸入值,將該分支的輸出結(jié)果經(jīng)過一個(gè)全連接(FC)層處理后直接輸入到策略輸出頭(將在第3.4節(jié)闡述),為i的兩種局部觀測分別計(jì)算出對應(yīng)動作空間中所有動作的概率分布,并將概率最大的動作確定為最終的臨時(shí)動作aitemp和ai-jtemp。如果aitemp和ai-jtemp相互匹配,則意味著智能體j的存在不會影響i的決策,即j與i不相關(guān),不是i的干擾者,i不與j通信;否則,j確定為i的干擾者,i需要與j進(jìn)行通信。
當(dāng)為智能體i鑒別出所有干擾者j之后,DIC的通信將分兩輪進(jìn)行。本文將這兩輪的通信過程形象化地描述為智能體之間發(fā)送通信意愿(wish)以及給予反饋(feedback)的信息交流過程。在第一輪中,智能體i向其所有干擾者j發(fā)送wish,wish中包含自身信息以及鄰居的相對位置。干擾者可能收到來自不同意愿發(fā)送者的wish,并根據(jù)收到的所有wish更新自身的信息。在第二輪中,所有干擾者j將feedback回復(fù)給智能體i,feedback中包含更新后的自身信息及鄰居的相對位置。智能體i根據(jù)接收到的feedback完成信息的更新。
3 MAPF求解算法DICRIA
本文參考SCRIMP[26],為解決 MAPF問題開發(fā)了一種新的求解器:DICRIA,其實(shí)例化了在第2章詳細(xì)介紹的新通信機(jī)制。DICRIA的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,由觀測編碼器(綠色)、干擾者鑒別器(黃色)、通信模塊(紫色)和輸出頭(藍(lán)色)四個(gè)主要部分組成(參見電子版)。干擾者鑒別器的詳情如圖1所示。FOV內(nèi)8通道的局部觀測以3×3的網(wǎng)格示例,其中彩色方塊表示智能體,彩色圓形表示顏色對應(yīng)的智能體的目標(biāo),灰色方塊表示障礙物。本章將分別描述這四個(gè)組成部分。
3.1 觀測編碼器
觀測編碼器由7個(gè)卷積層、2個(gè)最大池化層、3個(gè)全連接(FC)層和1個(gè)LSTM單元組成。在LSTM單元之前,被分成了兩條并行的分支,分別處理當(dāng)前時(shí)間步智能體的局部觀測和智能體的觀測向量兩個(gè)不同的輸入值。
分支1的輸入,即當(dāng)前時(shí)間步智能體的局部觀測oti(i=1,…,n)的形狀為l×l×8,由8個(gè)二進(jìn)制矩陣組成。前四個(gè)是DHC[23]提出的啟發(fā)式通道,分別對應(yīng)上下左右四個(gè)移動動作,當(dāng)且僅當(dāng)智能體通過采取該動作更接近其目標(biāo)時(shí),對應(yīng)通道上的相應(yīng)位置被標(biāo)記為1,以此編碼單智能體最短路徑的多種選擇。其余四個(gè)通道分別表示智能體的位置、中心智能體自己的目標(biāo)位置(如果在FOV內(nèi))、FOV內(nèi)其他智能體目標(biāo)的投影位置以及FOV內(nèi)的障礙物。分支2的輸入是智能體的觀測向量ti,包含7個(gè)分量:智能體當(dāng)前位置與其目標(biāo)沿x軸的歸一化距離dxti、沿y軸的歸一化距離dyti、總歐氏距離dti、外在獎勵(lì)ret-1i、內(nèi)在獎勵(lì)rit-1i、智能體上一個(gè)時(shí)間步的位置與其在緩沖區(qū)中存儲的歷史位置間的最小歐氏距離dmint-1i(均在第3.4節(jié)介紹)以及上一個(gè)時(shí)間步的動作at-1i。
智能體i的局部觀測oti首先通過分支1被編碼為ti,具體經(jīng)過了兩個(gè)相同的子模塊(3個(gè)卷積和1個(gè)最大池化層)和一個(gè)單獨(dú)的卷積層。同時(shí),長度為7的觀測向量ti在分支2中由一個(gè)FC層獨(dú)立編碼,然后將分支2的輸出與ti串連得到o=ti。接著,o=ti與其自身經(jīng)過兩個(gè)FC層編碼后的結(jié)果相加,并和上一個(gè)時(shí)間步LSTM的輸出ht-1i一起輸入LSTM單元,從而賦予了智能體跨時(shí)間步聚合過去信息的能力。
3.2 干擾者鑒別器
該鑒別器需要當(dāng)前時(shí)間步智能體的局部觀測oti和當(dāng)前位置pti作為輸入,根據(jù)oti計(jì)算出掩蔽局部觀測oti-j(j∈Ni,Ni是i的FOV內(nèi)所有鄰居智能體的集合),根據(jù)pti計(jì)算鄰居智能體在FOV內(nèi)的相對位置eti。然后,按照第2章中描述的鑒別流程,為每個(gè)智能體找出各自的干擾者,由此確定t時(shí)刻,i的通信范圍為Ci={j|aitemp≠ai-jtemp}j∈Ni,aitemp和ai-jtemp為第2章中描述的臨時(shí)動作。Ci最終被編碼為通信掩膜,并和eti一起作為干擾者鑒別器的輸出值饋入通信模塊。
3.3 通信模塊
通信模塊由兩個(gè)相同的計(jì)算塊組成,分別對應(yīng)兩輪通信。通信采用圖卷積,以多頭點(diǎn)積注意力[29]作為卷積核,后跟一個(gè)GRU。本文將兩輪通信描述為智能體之間發(fā)送通信意愿(wish)和給予反饋(feedback)的過程。
在第一輪中,智能體i向所有的干擾者j∈Ci發(fā)送wish,wish中包含自身信息,即oti和ti經(jīng)過觀測編碼器處理后的輸出信息mti∈mt(mt是LSTM單元的輸出值),以及鄰居智能體的相對位置eti。干擾者可能收到來自不同意愿發(fā)送者的多條wish,由此干擾者j的wish接收范圍可表示為C~j={i|j∈Ci}。然后,干擾者j根據(jù)收到的所有wish使用多頭點(diǎn)積注意力更新自身信息mtj∈mt,同時(shí)保持意愿發(fā)送方i的信息在本輪不變,得到第一輪通信的輸出結(jié)果t。具體地,在每個(gè)獨(dú)立的注意力頭h中,首先將i∈j的自身信息mti通過矩陣WhQ映射為query,再將mti與eti的串連分別通過矩陣WhK和WhV映射為key和value。干擾者j與i∈j在第h個(gè)注意力頭中的關(guān)系則可以計(jì)算為
whji=softmax(WhQmtj·(WhK[mti,eti])TdK)(1)
其中:dK是keys的維度。在每個(gè)注意力頭h中,以whji為權(quán)重對value進(jìn)行加權(quán)求和,并將所有頭的輸出串連后通過一個(gè)神經(jīng)網(wǎng)絡(luò)層fnn,得到干擾者j的注意力輸出值tj:
tj=fnn(concat(∑i∈jwhjiWhV[mti,eti],h∈Euclid Math OneHAp))(2)
最后,將干擾者j計(jì)算注意力前的自身信息mtj與tj經(jīng)過GRU聚合,得到最終更新后的信息tj。
在第二輪中,所有干擾者j將feedback回復(fù)給智能體i,feedback中包含更新后j的自身信息(j的第一輪通信結(jié)果tj)及etj。同理,意愿發(fā)送方i根據(jù)收到的所有feedback(來自j∈Ci)完成對自身信息的更新,更新方法與第一輪相同。與此同時(shí),干擾者的信息在本輪保持不變。經(jīng)過兩輪通信之后,通信模塊的最終輸出為m=t。
3.4 輸出頭
輸出頭由5個(gè)全連接(FC)層組成。其中,一個(gè)是公共FC層,用于編碼LSTM單元的輸入(不包括ht-1i),LSTM單元的輸出mt以及通信模塊的輸出m=t三者的串連。余下的FC層用于將公共FC層的輸出分別編碼成策略(policy)、外在獎勵(lì)的預(yù)測狀態(tài)值(extrinsic value)、內(nèi)在獎勵(lì)的預(yù)測狀態(tài)值(intrinsic value)及可學(xué)習(xí)的阻塞預(yù)測值(blocking)四個(gè)不同的輸出值。
policy是模型的決策,即當(dāng)前時(shí)間步智能體的策略。具體為動作空間中每個(gè)動作的概率值,概率值最大的動作便是模型為智能體選出的在當(dāng)前時(shí)間步的最佳動作。
本文采用了SCRIMP對沖突決策的處理機(jī)制和用于鼓勵(lì)探索的內(nèi)在獎勵(lì)設(shè)計(jì)。當(dāng)模型輸出的決策將導(dǎo)致沖突時(shí),則會觸發(fā)沖突處理機(jī)制。該機(jī)制以使未來收益最大化為準(zhǔn)則,進(jìn)行比較判斷,選出一個(gè)勝者智能體來執(zhí)行其首選動作,與之沖突的其他智能體則重新選擇一個(gè)新動作,以此來解決智能體間的沖突。當(dāng)與障礙物沖突時(shí),則使智能體停留在原地并給予懲罰。而內(nèi)在獎勵(lì)是指遠(yuǎn)離熟悉的區(qū)域所獲得的獎勵(lì),相對地,執(zhí)行動作空間中的動作而獲得的獎勵(lì)被稱為外在獎勵(lì)。當(dāng)智能體的當(dāng)前位置與其歷史位置間的距離超過一個(gè)閾值時(shí),便給予內(nèi)在獎勵(lì),以此鼓勵(lì)探索,從而增大其到達(dá)目標(biāo)的可能性。外在和內(nèi)在獎勵(lì)的預(yù)測狀態(tài)值便是模型對當(dāng)前時(shí)間步所能獲得的真實(shí)外在和內(nèi)在獎勵(lì)的估計(jì),這兩個(gè)輸出值同時(shí)也在沖突處理機(jī)制中用于打破對稱性,幫助選擇最終被允許執(zhí)行首選動作的勝者智能體。
最后,blocking用于指示一個(gè)智能體是否阻礙其他智能體更早到達(dá)其目標(biāo),并隱式地幫助智能體理解它們可能受到的額外阻塞懲罰(表1)。
關(guān)于沖突處理機(jī)制和內(nèi)在獎勵(lì)的詳細(xì)介紹、兩個(gè)預(yù)測狀態(tài)值和blocking更具體的用法及作用請參見SCRIMP[26]。訓(xùn)練使用的損失函數(shù)及超參數(shù)的設(shè)置均同SCRIMP,具體見下一節(jié)。
3.5 訓(xùn)練設(shè)置
在MAPF問題中,一個(gè)問題實(shí)例的完整求解過程被稱為一個(gè)episode。設(shè)置一個(gè)episode的最大求解時(shí)間為256個(gè)時(shí)間步,超過時(shí)限仍未完成求解的問題實(shí)例被判定為求解失敗。訓(xùn)練的截止時(shí)間為3×107個(gè)時(shí)間步,由外層while循環(huán)來判斷是否達(dá)到訓(xùn)練的終止條件。在每一輪while循環(huán)開始之前,根據(jù)預(yù)定的比例隨機(jī)選擇網(wǎng)絡(luò)是通過IL還是RL進(jìn)行訓(xùn)練,IL被選中的概率設(shè)置為0.1。在每一輪while循環(huán)中,本文借助Ray 1.2.0使用16個(gè)進(jìn)程并行收集數(shù)據(jù),并將epoch設(shè)置為10,batch size設(shè)置為1 024。優(yōu)化器選用Adam優(yōu)化器,lr為10-5。策略優(yōu)化的損失函數(shù)如下:
Lπ(θ)=1T1n∑Tt=1∑ni=1min(rti(θ)AtiEuclid ExtravBp,clip(rti(θ),1-,1+)AtiEuclid ExtravBp)(3)
rti(θ)=πθi(ati∣oti,ti,ht-1i,mt1,…,mtn)πθoldi(ati∣oti,ti,ht-1i,mt1,…,mtn)(4)
其中:θ表示神經(jīng)網(wǎng)絡(luò)的參數(shù);rti(θ)是裁剪概率比;πθi和πθoldi分別是智能體i的新舊策略;是裁剪超參數(shù),值為0.2;AtiEuclid ExtravBp是優(yōu)勢函數(shù)的截?cái)喟妗?/p>
4 實(shí)驗(yàn)評估
本文模型在第1章描述的環(huán)境中進(jìn)行訓(xùn)練和測試。訓(xùn)練時(shí),每個(gè)問題實(shí)例中環(huán)境地圖的尺寸被隨機(jī)確定為10、25或40,障礙物的密度從0~0.5的三角分布中隨機(jī)采樣,峰值為0.33(與基線算法相同),且智能體個(gè)數(shù)固定為8。本文為測試設(shè)置了5種不同的地圖尺寸和智能體個(gè)數(shù)的組合:{[8,10],[16,20],[32,30],[64,40],[128,40]},前者是智能體個(gè)數(shù),并將每種組合的障礙物密度固定為0、0.15和0.3(DHC[23]和PICO[25]的最高測試密度)。為每種組合的每個(gè)障礙物密度各隨機(jī)生成100個(gè)問題實(shí)例,總共在100×3×5=1500個(gè)問題實(shí)例上進(jìn)行了實(shí)驗(yàn)評估。除非特別說明,在訓(xùn)練和測試階段FOV的大小均被設(shè)置為3×3。
本文使用PyTorch 1.11.0編寫代碼,Python版本為3.7。全部實(shí)驗(yàn)在配備有兩個(gè)NVIDIA GeForce RTX 4090 GPUs和一個(gè)Intel Xeon Gold 6133 CPU @ 2.50 GHz(80核,160線程)的服務(wù)器上運(yùn)行,系統(tǒng)環(huán)境為Ubuntu 20.04。
4.1 與基線求解器比較
本文測試了DICRIA與基線求解器SCRIMP在EL、CR和SR三項(xiàng)指標(biāo)上的性能。其中:EL表示求解一個(gè)問題實(shí)例所消耗的時(shí)間步數(shù)(最晚到達(dá)目標(biāo)的智能體的路徑長度);CR表示與包括地圖邊界的靜態(tài)障礙物的沖突率,計(jì)算方式為式(5);SR表示成功求解(所有智能體均在時(shí)限內(nèi)到達(dá)目標(biāo))的實(shí)例在全部測試實(shí)例中的占比,衡量在給定時(shí)限內(nèi)完成MAPF任務(wù)的能力。EL和CR越小代表策略越好,SR越大越好。SCRIMP的FOV大小設(shè)置為其原工作中的3×3,與本文設(shè)置相同。
CR=沖突數(shù)EL×智能體數(shù)×100%(5)
表2展示了在各項(xiàng)指標(biāo)上的比較結(jié)果。在不同環(huán)境配置中,智能體個(gè)數(shù)在8、16、32、64和128之間變動;地圖大小在10~40變動;障礙物密度在0、0.15和0.3之間變動。所有數(shù)據(jù)均為相應(yīng)環(huán)境配置下隨機(jī)生成的100個(gè)問題實(shí)例上測試結(jié)果的平均值。表中,EL的計(jì)算排除了求解失敗的情況(超過256個(gè)時(shí)間步);“—”表示無有效結(jié)果。每種環(huán)境配置下,各項(xiàng)指標(biāo)最好的結(jié)果以粗體顯示。
如表2所示,在EL和SR這兩項(xiàng)指標(biāo)上,DICRIA在所有情況下均優(yōu)于SCRIMP。在其無法解決的環(huán)境配置下,DICRIA仍然具有相當(dāng)?shù)某晒β省S绕湓诘貓D大小為40×40,障礙物密度為0.15,包含128個(gè)智能體的密集型實(shí)例下,本文求解器的成功率是91%,而SCRIMP僅為2%,DICRIA的成功率相比SCRIMP甚至提高了44.5%。在地圖尺寸(40×40)和智能體個(gè)數(shù)(128)保持不變時(shí),將障礙物的密度從0.15增加到0.3,SCRIMP將無法完成任何任務(wù),成功率為0%,而DICRIA仍然具有34%的成功率。這主要是因?yàn)镾CRIMP采用全局通信機(jī)制,無論距離遠(yuǎn)近,無論是否相關(guān),每個(gè)智能體都會與環(huán)境中的所有其他智能體進(jìn)行通信,而這顯然會聚合大量冗余信息。雖然其通信機(jī)制中的可學(xué)習(xí)權(quán)重能夠區(qū)分信息的重要性,在一定程度上緩解這一問題,但在全局通信所引入的大量無關(guān)信息面前,這一點(diǎn)補(bǔ)救措施所起的作用十分有限。尤其在此密集型的問題實(shí)例下,SCRIMP全局通信機(jī)制的缺陷更是加倍體現(xiàn)了出來,最終導(dǎo)致了0%成功率這一糟糕的結(jié)果。與之相反,全局通信的劣勢正是本文新通信機(jī)制的優(yōu)勢所在。DIC在局部FOV內(nèi)篩選通信對象,只與實(shí)際相關(guān)的干擾者鄰居交換信息。不僅從距離上摒除了“遠(yuǎn)房親戚”無關(guān)信息的干擾,而且還會對近鄰是否影響自身決策作進(jìn)一步的判斷,故而能夠有效過濾冗余信息,并以顯著的優(yōu)勢超越全局通信機(jī)制,獲得可觀的成功率。統(tǒng)計(jì)結(jié)果顯示,本文成功將基線求解器的SR平均提高了5.2%。
在CR方面,DICRIA在絕大多數(shù)情況下優(yōu)于SCRIMP,但在[128,40,0.15]和[128,40,0.3]的環(huán)境配置下略高于SCRIMP的CR值。造成這種情況的一個(gè)可能的原因是,在密集型環(huán)境中,大量智能體試圖搶占有限的可移動的位置節(jié)點(diǎn),導(dǎo)致彼此的決策具有較強(qiáng)的相關(guān)性,SCRIMP通過全局通信而引入的更完備的信息將更有利于智能體在此環(huán)境下進(jìn)行全局范圍內(nèi)的協(xié)調(diào),而DICRIA基于局部FOV的通信機(jī)制卻不可避免地具有一定程度上的局部最優(yōu)性問題。但這種差異僅在個(gè)別情況下存在,且微乎其微,并不影響最終的成功率。
4.2 與其他MAPF求解器比較
本文將DICRIA與其他先進(jìn)的基于學(xué)習(xí)的MAPF求解器進(jìn)行了比較,包括DHC[23]、PICO[25]以及SCRIMP-local[26]。其中,DHC和PICO的實(shí)現(xiàn)來自各自的文獻(xiàn),且FOV的大小均保留其工作中的原始設(shè)置,分別為9×9和11×11。SCRIMP-local是本文通過限制通信范圍得到的SCRIMP的擴(kuò)展版本,規(guī)定只與歐氏距離不超過5的鄰居進(jìn)行通信,其FOV大小同SCRIMP,為3×3。此外,本文還額外測試了傳統(tǒng)集中式算法ODrM*[6],作為性能參考。
表3顯示了在不同環(huán)境配置的問題實(shí)例下,不同算法的三項(xiàng)標(biāo)準(zhǔn)MAPF指標(biāo)的平均性能。與表2相同,EL的計(jì)算排除了求解失敗的情況(基于學(xué)習(xí)的方法超過256個(gè)時(shí)間步,ODrM*超過5 min未完成求解);“—”表示無有效結(jié)果。除了ODrM*,其他算法在各項(xiàng)指標(biāo)上的最好結(jié)果以粗體顯示??傮w而言,DICRIA幾乎在所有情況下都具有最低的EL值,這意味著相比其他求解器,DICRIA獲得了路徑最短即質(zhì)量最高的解。
關(guān)于CR,DICRIA的CR始終低于SCRIMP-local,但大多數(shù)情況下還是高于DHC和PICO的。這可能是因?yàn)楸疚牡膬?nèi)在獎勵(lì)設(shè)置鼓勵(lì)智能體探索新的區(qū)域,在此過程中遇到障礙的可能性會不可避免地增加。相比之下,DHC和PICO傾向于讓智能體留在熟悉的區(qū)域,以此逃避探索未知可能帶來的懲罰,因?yàn)殚L期停留在安全區(qū)會具有更低的CR值。然而,在成功率上DICRIA完勝DHC與PICO。尤其當(dāng)智能體增加到32個(gè)以上,環(huán)境規(guī)模擴(kuò)大到30×30時(shí),DHC與PICO表現(xiàn)出了明顯的性能下降,PICO幾乎無法完成任何實(shí)例的求解。
本文注意到在[128,40,0.15]和[128,40,0.3]的環(huán)境配置下,DICRIA的SR低于SCRIMP-local。本文懷疑這是因?yàn)樵诿芗铜h(huán)境中,由于智能體決策的強(qiáng)相關(guān)性,個(gè)體的決策對更遠(yuǎn)處的其他智能體仍會造成影響。DICRIA依靠3×3的FOV范圍來篩選通信對象,可能并沒有覆蓋到全部潛在的干擾者,所能獲取到的信息量在該情況下也顯得不夠充分,不足以支持智能體學(xué)會良好的配合。而SCRIMP-local由于額外設(shè)置了更大的通信范圍(歐氏距離不超過5),更能滿足密集環(huán)境下的通信需求,又因?yàn)闇p輕了原版SCRIMP全局通信冗余的問題,從而獲得了更高的成功率。在第4.3節(jié)中,當(dāng)FOV的大小調(diào)整為5×5時(shí),在同樣的環(huán)境配置(128個(gè)智能體,地圖大小40×40,障礙物密度0.15和0.3)下, DICRIA的SR分別為99%和55%,均超越了SCRIMP-local(98%和45%),驗(yàn)證了這一猜想。
此外,DICRIA在大多數(shù)情況下與傳統(tǒng)算法ODrM*具有相似的性能。特別是在需要智能體高度協(xié)作的最困難任務(wù)中(128個(gè)智能體,地圖大小40×40,障礙物密度0.3),DICRIA的成功率(34%)明顯超越了ODrM*(20%)。
4.3 FOV大小的影響
本文進(jìn)一步測試了不同F(xiàn)OV的大小對模型性能的影響。根據(jù)測試結(jié)果發(fā)現(xiàn),相較于SR,改變FOV的大小對EL和CR的影響并不明顯,因此圖3只展示了在SR上的對比結(jié)果。圖中,8、16、32、64、128是智能體個(gè)數(shù),括號中為對應(yīng)的環(huán)境地圖的尺寸。圖3(a)~(c)分別是障礙物密度為0、0.15和0.3時(shí)的結(jié)果。如圖3所示,當(dāng)FOV的大小為5×5時(shí),DICRIA實(shí)現(xiàn)了最佳性能。值得注意的是,隨著FOV尺寸的增大,訓(xùn)練和測試時(shí)間也明顯增長,因此需要在模型性能與時(shí)間成本之間有所權(quán)衡。
4.4 通信的消融
為了驗(yàn)證本文通信機(jī)制的有效性,通過完全刪除干擾者鑒別器及通信模塊,開發(fā)了DICRIA的無通信版本——DICRIA-withoutComm。同時(shí)為了提高訓(xùn)練和評估的速度,仍然將FOV的大小設(shè)置為3×3(與訓(xùn)練原始DICRIA的設(shè)置相同),而不是采用在第4.3節(jié)確定的性能最佳的5×5。圖4只展示在對比最明顯且最重要的指標(biāo)SR上的結(jié)果。障礙物密度固定為0.3。顯然,在智能體分布較密集的大型環(huán)境中,DICRIA-withoutComm表現(xiàn)出了性能的急劇下降,該結(jié)果充分證明了DIC的有效性。
5 結(jié)束語
在基于RL或IL的MAPF求解方案中引入通信的學(xué)習(xí)被證明是一種有效的方法,可以解決部分可觀測性下完全去中心化規(guī)劃導(dǎo)致的可用信息量受限的問題。本文考慮到現(xiàn)有基于學(xué)習(xí)的MAPF求解器通信方法的局限性,提出干擾者鑒別通信機(jī)制DIC。DIC憑借由干擾者鑒別器根據(jù)原始局部觀測與掩蔽局部觀測求得的決策差異來識別FOV內(nèi)的干擾者,通過排除非干擾者的簡潔通信過程而有效過濾掉了不相關(guān)的信息,避免了通信冗余。本文又進(jìn)一步實(shí)例化了DIC,開發(fā)了一種新的基于強(qiáng)化和模仿學(xué)習(xí)的MAPF求解器:DICRIA,既保留了DIC能夠?qū)崿F(xiàn)高效通信的優(yōu)點(diǎn),還具有較高的可擴(kuò)展性。在一系列具有不同環(huán)境配置的問題實(shí)例上的實(shí)驗(yàn)結(jié)果表明,DICRIA在三項(xiàng)標(biāo)準(zhǔn)MAPF指標(biāo)上的性能普遍優(yōu)于其他最先進(jìn)的同類求解器。幾乎在所有環(huán)境配置中,本文模型具有比基線求解器及其擴(kuò)展版本更低的CR值。這說明通過篩選和收集相關(guān)的、實(shí)際有影響力的干擾者的信息進(jìn)行通信,DICRIA有效加強(qiáng)了智能體間的合作,使得它們能夠以更協(xié)調(diào)的方式完成任務(wù)。本文還成功地將基線求解器的SR平均提高了5.2%。特別在大尺寸地圖的密集型問題實(shí)例下,DICRIA的成功率相比基線求解器,提升高達(dá)44.5%。此外,對通信機(jī)制的消融實(shí)驗(yàn)充分證明了DIC的有效性。
最后,需要說明的一點(diǎn)是,雖然本文的干擾者鑒別通信機(jī)制給模型帶來了實(shí)際的性能提升,且具有諸多上述優(yōu)點(diǎn),但干擾者鑒別器篩選通信對象、過濾冗余信息的過程也將產(chǎn)生額外的計(jì)算成本。將在未來的工作中,探尋能夠更好地平衡成本與性能的優(yōu)化方案。
參考文獻(xiàn):
[1]Choudhury S, Solovery K, Kochenderfer M,et al. Coordinated multi-agent pathfinding for drones and trucks over road networks[C]//Proc of the 21st International Conference on Autonomous Agents and Multiagent Systems. London: AAMAS Press, 2022: 272-280.
[2]Mohanty S, Nygren E, Laurent F, et al. Flatland-RL: multi-agent reinforcement learning on trains[EB/OL]. (2020-12-11). https://arxiv.org/abs/2012.05893.
[3]Cartucho J, Ventura R, Veloso M. Robust object recognition through symbiotic deep learning in mobile robots[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, NJ: IEEE Press, 2018: 2336-2341.
[4]Ferguson D, Likhachev M, Stentz A. A guide to heuristic-based path planning[C]//Proc of International Workshop on Planningunder Uncertainty for Autonomous Systems: International Conference on Automated Planning and Scheduling. Palo Alto, CA: AAAI Press, 2005: 9-18.
[5]Standley T. Finding optimal solutions to cooperative pathfinding problems[C]//Proc of the 24th AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press, 2010: 173-178.
[6]Wagner G, Choset H. Subdimensional expansion for multirobot path planning[J]. Artificial Intelligence, 2015, 219(2): 1-24.
[7]Ren Zhongqiang, Rathinam S, Likhachev M, et al. Enhanced multi-objective A* using balanced binary search trees[C]// Proc of the 15th International Symposium on Combinatorial Search. Palo Alto, CA: AAAI Press, 2022: 162-170.
[8]Ren Zhongqiang, Rathinam S, Choset H. Loosely synchronized search for multi-agent path finding with asynchronous actions[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, NJ: IEEE Press, 2021: 9714-9719.
[9]Sharon G, Stern R, Felner A,et al. Conflict-based search for optimal multi-agent pathfinding[J]. Artificial Intelligence, 2015, 219(2): 40-66.
[10]Barer M, Sharon G, Stern R,et al. Suboptimal variants of the conflict-based search algorithm for the multi-agent pathfinding problem[C]//Proc of the 21st European Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2014: 961-962.
[11]Rahman M, Alam M A, Islam M M,et al. An adaptive agent-specific sub-optimal bounding approach for multi-agent path finding[J]. IEEE Access, 2022, 10: 22226-22237.
[12]Li Jiaoyang, Ruml W, Koening S. EECBS: a bounded-suboptimal search for multi-agent path finding[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto: AAAI Press, 2021: 12353-12362.
[13]Andreychuk A, Yakovlev K, Surynek P,et al. Multi-agent pathfin-ding with continuous time[J]. Artificial Intelligence, 2022, 305: 103662.
[14]Shaaron G, Stern R, Goldenberg M,et al. The increasing cost tree search for optimal multi-agent pathfinding[J]. Artificial Intelligence, 2013, 195: 470-495.
[15]Walker T T, Sturtevant N R, Felner A. Extended increasing cost tree search for non-unit cost domains[C]//Proc of the 27th International Joint Conference on Artificial Intelligence.Palo Alto, CA: AAAI Press, 2018: 534-540.
[16]Walker T T, Sturtevant N R,F(xiàn)elner A, et al. Conflict-based increa-sing cost search[C]//Proc of the 31st International Conference on Automated Planning and Scheduling. Palo Alto, CA: AAAI Press, 2021: 385-395.
[17]Yu Jingjin, LaValle S M. Planning optimal paths for multiple robots on graphs[C]//Proc of International Conference on Robotics and Automation.Piscataway, NJ: IEEE Press, 2013: 3612-3617.
[18]Surynek P, Felner A, Stern R,et al. Efficient SAT approach to multi-agent path finding under the sum of costs objective[C]//Proc of the 22nd European Conference on Artificial Intelligence. [S.l.]: IOS Press, 2016: 810-818.
[19]劉志飛, 曹雷, 賴俊, 等. 多智能體路徑規(guī)劃綜述[J]. 計(jì)算機(jī)工程與應(yīng)用, 2022, 58(20): 43-62. (Liu Zhifei, Cao Lei, Lai Jun, et al. Summary of multi-agent path planning[J]. Computer Engineering and Applications, 2022, 58(20): 43-62.)
[20]Sartoretti G, Kerr J, Shi Yunfei, et al. PRIMAL: pathfinding via reinforcement and imitation multi-agent learning[J]. IEEE Robotics and Automation Letters, 2019,4(3): 2378-2385.
[21]Lin Chen, Wang Yaonan, Yang Mo,et al. Multi-agent path finding using deep reinforcement learning coupled with hot supervision con-trastive loss[J]. IEEE Trans on Industrial Electronics, 2023, 70(7): 7032-7040.
[22]Li Qingbiao, Lin Weizhe, Liu Zhe,et al. Message-aware graph attention networks for large-scale multi-robot path planning[J]. IEEE Robotics and Automation Letters, 2021, 6(3): 5533-5540.
[23]Ma Ziyuan, Luo Yudong, Ma Hang. Distributed heuristic multi-agent path finding with communication[C]//Proc of IEEE International Conference on Robotics and Automation. Piscataway, NJ: IEEE Press, 2021: 8699-8705.
[24]Ma Ziyuan, Luo Yudong, Pan Jia. Learning selective communication for multi-agent path finding[J]. IEEE Robotics and Automation Letters, 2021,7(2): 1455-1462.
[25]Li Wenhao, Chen Hongjun, Jin Bo,et al. Multi-agent path finding with prioritized communication learning[C]//Proc of International Conference on Robotics and Automation. Piscataway, NJ: IEEE Press, 2022: 10695-10701.
[26]Wang Yutong, Xiang Bairan, Huang Shinan,et al. SCRIMP: scalable communication for reinforcement and imitation learning based multi-agent pathfinding[C]//Proc of International Conference on Autonomous Agents and Multiagent Systems. London: AAMAS Press, 2023: 2598-2600.
[27]Stern R, Sturtevant N, Felner A,et al. Multi-agent pathfinding: definitions, variants, and benchmarks[C]//Proc of the 12th Annual Symposium on Combinatorial Search. Palo Alto, CA: AAAI Press, 2019: 151-159.
[28]Ding Ziluo, Huang Tiejun, Lu Zongqing. Learning individually inferred communication for multi-agent cooperation[C]//Proc of the 34th Annual Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2020: 22069-22079.
[29]Vaswani A, Shazeer N, Parmar N,et al. Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2017: 5998-6008.