摘" 要:
針對典型的端到端通信策略不能決定通信間隔時間,只能在固定頻率下通信的問題,提出一種基于深度強(qiáng)化學(xué)習(xí)方法的事件觸發(fā)變頻率通信策略,以解決多無人車協(xié)同最小通信問題。首先建立事件觸發(fā)架構(gòu),主要包含計(jì)算通信的控制器,并給出觸發(fā)條件,保證滿足條件時多無人車間進(jìn)行通信,大幅度減少通信總量。其次,基于多智能體深度確定性策略梯度(multiple agent deep deterministic policy gradient, MADDPG)算法對觸發(fā)機(jī)制進(jìn)行優(yōu)化,提高算法收斂速度。仿真和實(shí)車實(shí)驗(yàn)表明,隨著迭代次數(shù)的增加,在完成協(xié)同任務(wù)的前提下,多無人車系統(tǒng)中通信數(shù)據(jù)量降低了55.74%,驗(yàn)證了所提出策略的有效性。
關(guān)鍵詞:
事件觸發(fā)通信; 深度強(qiáng)化學(xué)習(xí); 協(xié)同圍捕; 多無人車
中圖分類號:
T 249
文獻(xiàn)標(biāo)志碼: A""" DOI:10.12305/j.issn.1001-506X.2024.07.35
Event-triggered communication of multiple unmanned ground vehicles
collaborative based on MADDPG
GUO Hongda, LOU Jingtao, XU Youchun, YE Peng, LI Yongle*, CHEN Jinsheng
(Army Military Transportation University, Tianjin 300161, China)
Abstract:
In response to the problem of typical end-to-end communication strategies that cannot determine the communication interval and can only communicate at fixed frequencies, an event-triggered communication strategy is proposed based on deep reinforcement learning to solve the minimal communication problem in multi-unmanned ground vehicles collaboration. Firstly, an event-triggered architecture is established, which mainly includes a communication controller and provides trigger conditions. This ensures that communication occurs among multiple unmanned ground vehicle only when the conditions are met, significantly reducing the overall commu-nication volume. Secondly, the trigger mechanism is optimized using the multiple agent deep deterministic policy gradient (MADDPG) algorithm, which improves the convergence speed of the algorithm. Simulation and real vehicle experiments show that with increasing iterations, the amount of communication data in the multiple unmanned ground vehicle system is reduced by 55.74% while still accomplishing the collaborative tasks, thus validating the effecti-veness of the proposed strategy.
Keywords:
event-triggered communication; deep reinforcement learning; collaborative pursuit; multiple unmanned ground vehicles
0" 引" 言
多無人車協(xié)同是多智能體系統(tǒng)研究的重要方向,被廣泛應(yīng)用于軍事作戰(zhàn)、安保維穩(wěn)等領(lǐng)域[1]。尤其在大規(guī)模無人作戰(zhàn)場景中,相比單無人車,多無人車系統(tǒng)具備諸多優(yōu)勢,如可擴(kuò)展性、靈活性以及對單個無人車故障的容錯性等[2]。
多無人車協(xié)同的研究涉及多個方向,包括協(xié)同運(yùn)輸、多車協(xié)同操控和人車協(xié)同等,其中在無人車協(xié)同操控方面,發(fā)展尤為迅速[34]。雖然現(xiàn)有算法在實(shí)驗(yàn)中取得了一定的成效,但前提是必須具備高帶寬和低丟包率的持續(xù)穩(wěn)定無線通信系統(tǒng),實(shí)時共享無人車信息,以確保整個系統(tǒng)能夠進(jìn)行最優(yōu)決策和控制。然而,由于無人車之間的相互作用和信息不對稱、通信設(shè)備帶寬不足等原因,導(dǎo)致通信效率低下,甚至?xí)霈F(xiàn)通信失敗的情況。目前主要通過減少通信數(shù)據(jù)量的方法來優(yōu)化通信策略,以達(dá)到提高通信性能的目標(biāo)。具體方法包括降低通信頻率[5]、減少通信智能體數(shù)量和單包數(shù)據(jù)量[6]等。這些方法通常假定無人車數(shù)量是固定的,且適用于簡單任務(wù)或基于強(qiáng)假設(shè)的任務(wù),并推導(dǎo)出適宜的通信拓?fù)浣Y(jié)構(gòu)[7]。然而,在實(shí)際場景中,隨著電池電量逐漸耗盡,無人車數(shù)量會逐漸減少,或者為了快速完成任務(wù),引入額外的無人車,這使得實(shí)驗(yàn)條件很難滿足。此外,對于一般環(huán)境中的最小通信策略,也很少有通用的方法可供選擇[8]。
為了解決減少通信量的問題,研究人員主要提出了兩種策略。首先是研究無通信情況下的狀態(tài)估計(jì)。多無人車在沒有通信的情況下協(xié)同完成任務(wù)的能力被稱為無通信協(xié)同能力[9]。這種能力可以通過基于狀態(tài)的觸發(fā)器來實(shí)現(xiàn),即每個無人車根據(jù)自身狀態(tài)信息來觸發(fā)動作,從而實(shí)現(xiàn)協(xié)同任務(wù)的完成。鄧甲等[10]提出了一種分布式控制策略,用于對未知目標(biāo)進(jìn)行估計(jì),而無需通信或無人車數(shù)量的先驗(yàn)知識。黃兵等[11]提出了一種分布式自適應(yīng)控制策略,用于在無參數(shù)估計(jì)的情況下協(xié)同圍捕未知目標(biāo)。該控制策略不需要智能體之間的通信,使得系統(tǒng)狀態(tài)能夠漸進(jìn)地收斂到期望狀態(tài),并通過李亞普諾夫函數(shù)進(jìn)行了理論證明。
另一種策略是采用可變頻率通信來減少通信總量。多無人車在協(xié)同完成任務(wù)時,根據(jù)任務(wù)需求和環(huán)境特點(diǎn)動態(tài)調(diào)整通信頻率的能力稱為可變頻率通信能力[12]
。這種能力可以提高無人車系統(tǒng)的效率和魯棒性,減少通信帶寬的占用。Hirche[13]
提出了一種具有事件觸發(fā)結(jié)構(gòu)的新方法,通過這種方法,每個智能體可以最大程度地降低接收相鄰智能體位置、速度等信息的頻率。然而,該方法需要一個動力學(xué)模型來設(shè)計(jì)控制器。文獻(xiàn)[1416]提出了帶有事件觸發(fā)通信的分布式控制策略,根據(jù)實(shí)際觀察值和估計(jì)之間的誤差來確定時間和傳輸數(shù)據(jù)。這些方法不僅可以完成操控任務(wù),還能最大限度地減少從相鄰智能體接收位置和速度信息的頻率。雖然該策略可以大幅度降低通信頻率,但觸發(fā)時機(jī)難以確定,難以自適應(yīng)調(diào)整頻率,而且方法實(shí)現(xiàn)難度較大。
為解決事件觸發(fā)可變頻率通信存在的問題,研究人員提出了多種傳統(tǒng)方法和深度強(qiáng)化學(xué)習(xí)方法。傳統(tǒng)方法包括基于協(xié)議、基于中繼和基于圖論等方法[17]
。基于協(xié)議的方法通常定義協(xié)議來規(guī)定無人車之間的通信方式和內(nèi)容[18]?;谥欣^的方法通過引入中繼來提高通信效率,協(xié)調(diào)無人車之間的通信[19]?;趫D論的方法則通過建立圖模型來描述智能體之間的關(guān)系和通信,以實(shí)現(xiàn)無人車之間的協(xié)同[20]。
基于深度強(qiáng)化學(xué)習(xí)的方法主要通過引入深度神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)無人車之間的通信策略。這種方法通過定義和更新狀態(tài)空間、動作空間、獎勵函數(shù)和轉(zhuǎn)移函數(shù)等,設(shè)計(jì)和訓(xùn)練觸發(fā)器,從而實(shí)現(xiàn)智能體之間的通信。具體來說,觸發(fā)器通過深度強(qiáng)化學(xué)習(xí)算法訓(xùn)練,能夠根據(jù)當(dāng)前狀態(tài)和獎勵信號選擇最優(yōu)的動作,從而實(shí)現(xiàn)無人車之間的通信。在多無人車環(huán)境中,多智能體深度強(qiáng)化學(xué)習(xí)算法具有不需要建立動力學(xué)模型的優(yōu)勢[21],但算法本身存在一個缺陷,即系統(tǒng)內(nèi)的智能體策略發(fā)生變化時,估計(jì)策略的方差會增加。為了解決這個問題,Lowe等[22]提出了集中式訓(xùn)練分布式執(zhí)行的學(xué)習(xí)框架,評估多智能體學(xué)習(xí)效果,通過每個智能體的觀察結(jié)果得出分散策略。Funk等[23]提出使用深度強(qiáng)化學(xué)習(xí)方法同時學(xué)習(xí)通信和控制策略,在執(zhí)行多個控制任務(wù)的同時,減少智能體控制器與執(zhí)行器之間的控制信號。該策略模型方便在多智能體環(huán)境中擴(kuò)展,可達(dá)到降低傳輸總數(shù)據(jù)量的效果。Jakob等[24]提出通過學(xué)習(xí)來改善事件觸發(fā)的狀態(tài)估計(jì)的通信行為,主要通過模型學(xué)習(xí)來提高狀態(tài)預(yù)測的準(zhǔn)確性,引入了第二個事件觸發(fā)器,嚴(yán)格觸發(fā)條件。然而,這些方法只在固定頻率的通信中發(fā)揮了作用,未曾應(yīng)用于變頻率通信。
鑒于事件觸發(fā)通信存在的缺陷,針對多無人車協(xié)同通信策略的問題,本文基于可變頻率通信策略,將事件觸發(fā)通信作為切入點(diǎn)進(jìn)行研究,解決多無人車協(xié)同最小通信問題。首先,建立多無人車通信策略模型,明確基于學(xué)習(xí)觸發(fā)的研究內(nèi)容。然后,針對學(xué)習(xí)觸發(fā),引入多智能體深度確定性策略梯度(multiple agent deep deterministic policy gradient, MADDPG)算法,構(gòu)建事件觸發(fā)通信學(xué)習(xí)框架,設(shè)計(jì)獎勵函數(shù)。最后,設(shè)計(jì)了包含多個無人車和單個目標(biāo)的協(xié)同圍捕任務(wù),通過仿真和實(shí)車實(shí)驗(yàn),驗(yàn)證了提出框架的有效性和通用性。
本文提出了一種基于MADDPG的事件觸發(fā)通信框架,創(chuàng)新之處在于:① 提出的策略模型使無人車能夠建立全局信息協(xié)議,并且無人車數(shù)量可以根據(jù)需求進(jìn)行調(diào)整;② 提出了一個學(xué)習(xí)框架,利用事件觸發(fā)通信的方式,平衡了性能控制和通信量減少的關(guān)系。
1" 通信模型建立
多無人車事件觸發(fā)通信的一個重要應(yīng)用是協(xié)同圍捕[2526],難點(diǎn)在于預(yù)估目標(biāo)運(yùn)動狀態(tài)和其他無人車通信狀態(tài),目的是在完成圍捕任務(wù)的前提下,減少時間步中通信無人車數(shù)量以及通信總數(shù)據(jù)量。本文從多無人車協(xié)同圍捕入手,建立通信模型,解決最小通信問題。
1.1" 問題概述
基于狀態(tài)觸發(fā)器是一種常用的解決多智能體事件觸發(fā)通信問題的方法,通常與機(jī)器學(xué)習(xí)結(jié)合使用[27],主要通過定義和更新狀態(tài),設(shè)計(jì)和訓(xùn)練觸發(fā)器來實(shí)現(xiàn)智能體之間的通信。具體而言,基于狀態(tài)觸發(fā)器需要定義狀態(tài)空間、動作空間、獎勵函數(shù)和轉(zhuǎn)移函數(shù)等,然后利用深度強(qiáng)化學(xué)習(xí)算法來訓(xùn)練觸發(fā)器。訓(xùn)練過程中,觸發(fā)器根據(jù)當(dāng)前狀態(tài)和獎勵信號來選擇最優(yōu)的動作,從而實(shí)現(xiàn)智能體之間的通信。下面針對所研究的多無人車協(xié)同通信問題,從定義和更新狀態(tài)、設(shè)計(jì)和訓(xùn)練觸發(fā)器兩個方面對基于狀態(tài)觸發(fā)器進(jìn)行分析。
定義和更新狀態(tài)方面:狀態(tài)是指無人車當(dāng)前的狀態(tài),包括自身狀態(tài)和其他智能體狀態(tài)[28]。在定義狀態(tài)時,需要考慮哪些狀態(tài)對于無人車之間的通信是重要的,例如位置、速度、方向等。本文考慮二維無障礙環(huán)境中N個無人車的協(xié)同圍捕,狀態(tài)為無人車在全局坐標(biāo)中的位置、航向角、速度、角速度和期望位置,分別用(x,y)∈R2,θ∈R,v∈R2,ω∈R,(x,y)∈R2 表示;無人車 i 對于無人車 j 的觀察值和無人車 i 對于所有無人車的觀察值可表示為oji=[oj1i,oj2i,…,ojLi]∈RL和Oi=[o1i,o2i,…,oi-1i,oi+1i,…,oji]∈R(N-1)×L。在更新狀態(tài)時,需要考慮如何獲取其他無人車的狀態(tài)信息,例如通過傳感器或通信等方式,本文主要通過車間通信的方式獲得。
設(shè)計(jì)和訓(xùn)練觸發(fā)器方面:觸發(fā)器是指根據(jù)當(dāng)前狀態(tài)和獎勵信號來選擇最優(yōu)動作的模型[29]。在設(shè)計(jì)觸發(fā)器時,本文主要通過神經(jīng)網(wǎng)絡(luò)的方式,將狀態(tài)映射到動作空間,基于MADDPG深度強(qiáng)化學(xué)習(xí)算法,對觸發(fā)器進(jìn)行訓(xùn)練。對于學(xué)習(xí)型無人車,通過不斷與周圍環(huán)境進(jìn)行交互,反復(fù)試錯來學(xué)習(xí)最優(yōu)控制和通信策略。無人車i在其局部觀察值下根據(jù)策略πi選擇動作ai,并獲得獎勵rt,獎勵值由無人車的當(dāng)前狀態(tài)和期望狀態(tài)之間的誤差以及通信定義。當(dāng)N個無人車選擇了當(dāng)前動作[a1,a2,…,aN]后,狀態(tài)[s1,s2,…,sN]過渡到下一個狀態(tài)[s′1,s′2,…,s′N]。無人車i通過最大化預(yù)期獎勵E[rt]=E[∑T-1k=0γkrt+k]更新策略,其中γ∈[0,1]是折扣系數(shù),T是每回合步數(shù)。
為便于運(yùn)算,該問題設(shè)置條件如下:
(1) 已知無人車的質(zhì)量,并可通過車載傳感器獲得自身狀態(tài)數(shù)據(jù)(x,y)和θi;
(2) 無人車可以確定自身發(fā)送的數(shù)據(jù),也可控制通信的時間;
(3) 無人車已知期望位置(x,y)。
1.2" 一致性問題
多智能體系統(tǒng)的一致性是指通過信息交換和相互協(xié)同,使所有智能體的狀態(tài)趨于一致的過程。在多智能體系統(tǒng)中,一致性通信問題主要關(guān)注收發(fā)端的同步,即確保發(fā)出信息的同時,接收端也能夠及時接收到信息。通過有效解決一致性通信問題,可以保證通信的可靠性等性能,提高多智能體系統(tǒng)的整體性能和協(xié)同效果。
根據(jù)圖論與通信拓?fù)涠x如下:
(1) 若無人車之間的通信是雙向的,則通信拓?fù)錇闊o向的,否則通信拓?fù)錇橛邢虻?
(2) 若從任何無人車開始都可與相鄰無人車進(jìn)行通信,則通信拓?fù)涫沁B通的,否則通信是斷開的。通常如果滿足以下條件,通信拓?fù)浣Y(jié)構(gòu)可判定為連通的[30]:
rank(L)=N-1(1)
式中:L=D-A是拉普拉斯矩陣;A和D分別為鄰接矩陣和程度矩陣。
無人車i從無人車j是否接收數(shù)據(jù)用一個二元變量γij定義,具體為如果無人車i從無人車j接收數(shù)據(jù),γij=1,否則,γij=0。
鄰接矩陣A∈RN×N,矩陣元素Aij(i,j∈{1,2,…,N})可表示為
Aij=1, γij=1
0, 其他(2)
程度矩陣D∈RN×N是一個對角矩陣,矩陣元素Dij(i,j∈{1,2,…,N})可表示為
Dij=di, i=j
0, 其他(3)
式中:di表示與無人車i通信無人車的總數(shù)。
對于N個無人車,定義由聯(lián)合策略得出、用于控制觸發(fā)器的值為通信向量,用c=[c1,c2,…,cN]表示,ci表示無人車i的通信向量。為了使N個通信向量收斂到相同的值,實(shí)現(xiàn)一致性,常用拉普拉斯平均法來平均N個無人車的估計(jì)值。
通過與最近無人車進(jìn)行通信,c可以通過以下方式進(jìn)行估計(jì):
c[t+Δt]=c[t]-kLc[t](4)
式中:Δt為通信周期,k是一個正常數(shù)。在控制周期ΔT中,無人車i在時間Δt后更新ci。式(4)中Δt小于ΔT,該過程中所需的頻率通信較高,通信成本可能會增加。本文引入的事件觸發(fā)架構(gòu)就是為了解決這個問題,在控制無人車狀態(tài)的同時確定與鄰接無人車通信的時間。
基于式(4)可以得出c在時間s收斂,表示為
limm→
SymboleB@" c[s+m]=c′[s](5)
式中:c′為系統(tǒng)穩(wěn)定后的通信向量。
保證式(5)的一致性成立,需滿足的條件為
(1) 通信拓?fù)浣Y(jié)構(gòu)是無向和連通的;
(2) 0lt;klt;2/N。
1.3" 策略模型建立
圖1為多無人車協(xié)同事件觸發(fā)通信的策略模型,采用分布式架構(gòu),利用局部觀察和一致性估計(jì)來計(jì)算通信輸入。
無人車i編組在總數(shù)為N的多無人車系統(tǒng)中。為確保擴(kuò)展到每輛無人車,模型采用鄰近無人車的運(yùn)動狀態(tài)估計(jì)結(jié)果?;谝恢滦运惴ǎ瑹o人車i利用通信從無人車j獲得位置坐標(biāo)、航向角及速度等信息來估計(jì)本車加速度和轉(zhuǎn)向角速度。事件觸發(fā)通信決定了在每個控制周期中何時與無人車j進(jìn)行通信,是本文所要研究的重點(diǎn)。使用局部觀察oi=[e,v,ω,xi,yi,θi]T,其中e=[x-x,y-y,θ-θ]是誤差向量,策略πi計(jì)算通信輸出αi∈R和控制輸出ui∈R2。
ai=πi(αi,ui)(6)
由于策略模型在局部觀察和鄰接無人車運(yùn)動狀態(tài)估計(jì)值下計(jì)算通信和控制輸入,因此本策略模型可適用于測試環(huán)境與訓(xùn)練環(huán)境無人車數(shù)量不同的情況。
2" 事件觸發(fā)通信設(shè)計(jì)
本節(jié)從MADDPG的環(huán)境設(shè)定入手,介紹提出的學(xué)習(xí)框架,解決多無人車協(xié)同過程中通信策略的學(xué)習(xí)問題。
2.1" 學(xué)習(xí)框架設(shè)計(jì)
在多無人車通信過程中,本文提出了一個基于事件觸發(fā)通信的協(xié)同學(xué)習(xí)框架。該框架主要由一個控制通信輸出的觸發(fā)器組成,以狀態(tài)觸發(fā)為基礎(chǔ),融合通信和控制的聯(lián)合策略,用來控制多無人車網(wǎng)絡(luò)中的數(shù)據(jù)信號。通過在多無人車環(huán)境中應(yīng)用該框架,可以實(shí)現(xiàn)降低通信頻率、減少通信并發(fā)量以及減少無線網(wǎng)絡(luò)中的數(shù)據(jù)量的目標(biāo)。
事件觸發(fā)的通信架構(gòu)以協(xié)同的方式對鄰接無人車的運(yùn)動狀態(tài)進(jìn)行估計(jì)。每個無人車可以自主決定每個通信周期需要發(fā)出數(shù)據(jù)的時機(jī),如圖2所示。在該架構(gòu)中,無人車計(jì)算當(dāng)前控制周期的控制輸出和下一個通信周期的通信輸出。無人車之間的通信頻率可以根據(jù)實(shí)際需要進(jìn)行動態(tài)調(diào)整,避免不必要的通信,從而降低了通信的負(fù)擔(dān)。此外,通過協(xié)同學(xué)習(xí)框架,無人車之間可以共享自身的狀態(tài)信息,以便其他無人車做出更好的決策。通過融合通信和控制的聯(lián)合策略,無人車可以更加智能地進(jìn)行通信,提高整個系統(tǒng)的性能和效率。
為了驗(yàn)證提出架構(gòu)的有效性,本文進(jìn)行了無人車協(xié)同圍捕的仿真和實(shí)車實(shí)驗(yàn)。在該實(shí)驗(yàn)中,將各無人車作為系統(tǒng)通信拓?fù)涞墓?jié)點(diǎn),通過分析可以得出最小通信拓?fù)浣Y(jié)構(gòu),同時,通過協(xié)同圍捕的實(shí)驗(yàn),驗(yàn)證該架構(gòu)的通用性。實(shí)驗(yàn)基于無人車的協(xié)同學(xué)習(xí)框架進(jìn)行通信和協(xié)作,實(shí)現(xiàn)圍捕目標(biāo)的任務(wù),并且有效地控制通信頻率和數(shù)據(jù)量,提高無人車之間的協(xié)同效率,適應(yīng)不同的圍捕場景和環(huán)境。
2.2" 通信策略設(shè)計(jì)
事件觸發(fā)策略模型通過學(xué)習(xí)決定無人車的網(wǎng)絡(luò)控制器發(fā)給其他無人車信息的時機(jī)。定義變量wij為無人車i是否給無人車j發(fā)送信息。將變量引入事件觸發(fā)機(jī)制,具體值由下式給出
wij=1, cij(Oi)gt;0
0, 其他(7)
式中:cij∈R為通信值,表示控制無人車i與無人車j之間根據(jù)通信輸出和局部觀察計(jì)算的觸發(fā)通信的值,j=1,2,…,i-1,i+1,…,N。
另外設(shè)計(jì)了通信和控制的聯(lián)合策略,具體如下:
πi(acti|Oi)=πi(ui,ci|Oi)(8)
式中:ci=[ci1,ci2,…,ciN]T∈RN表示無人車i的通信向量。式(8)中的聯(lián)合策略是由深度神經(jīng)網(wǎng)絡(luò)計(jì)算得出,并在下一個控制周期中更新觀察值,在圖2中由c′i表示。
在學(xué)習(xí)過程中,本文采用MADDPG算法[22]來優(yōu)化多智能體系統(tǒng)的策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)。MADDPG算法是深度actor-critic算法的一種變體,用于解決在部分可觀察環(huán)境中策略變化引起的方差問題。MADDPG算法采用了“集中式訓(xùn)練、分布式執(zhí)行”的策略,在訓(xùn)練過程中,使用所有無人車的觀察和動作來接近最佳的Q值函數(shù)。每個無人車的策略網(wǎng)絡(luò)使用策略梯度方法進(jìn)行優(yōu)化,同時,每個價值網(wǎng)絡(luò)能夠訪問各自的觀察和動作。訓(xùn)練完成后,每個價值網(wǎng)絡(luò)能夠根據(jù)局部觀察計(jì)算出相應(yīng)的動作。
通過將MADDPG算法與前文提出的框架結(jié)合使用,可以很好地解決多無人車事件觸發(fā)的問題。該策略使方差得到有效控制,從而提高了協(xié)同學(xué)習(xí)效果。
2.3" 獎勵設(shè)計(jì)
本文提出的基于MADDPG的多無人車事件觸發(fā)框架可以應(yīng)用于不同數(shù)量無人車的圍捕。為了平衡控制性能和減少通信量,設(shè)計(jì)了無人車i的獎勵函數(shù),如下所示:
ri=-(x,y)-(x,y)2-λwi1(9)
式中:λgt;0;·1和·2分別代表L1和L2范數(shù)。第二項(xiàng)中使用的L1范數(shù)旨在最大限度地減少每個控制周期中需要通信的無人車數(shù)量和需要發(fā)出的數(shù)據(jù)量。
通過該獎勵函數(shù),無人車i的目標(biāo)是將其當(dāng)前位置與目標(biāo)位置之間的歐氏距離最小化,并且通過L1范式對是否通信進(jìn)行懲罰。這樣設(shè)計(jì)的獎勵函數(shù)可以在保持控制性能的同時,大幅度降低通信頻率,從而達(dá)到減少通信總量的需求。
綜上所述,在多無人車協(xié)同事件觸發(fā)通信框架中,各無人車通過車間通信獲取其他無人車的狀態(tài)信息,并利用MADDPG算法計(jì)算出下一通信周期的通信向量,以控制與其他無人車的通信情況,具體過程如下。首先,對多無人車進(jìn)行分組,找出鄰接的無人車,即在空間上相互接近的無人車。然后,根據(jù)確定無人車是否與其他無人車通信的規(guī)則,確定通信目標(biāo),并基于一致性通信原則對通信向量進(jìn)行更新,確保無人車之間的通信行為一致。接著,計(jì)算下一時刻的通信向量,以確定無人車在下一周期中與其他無人車的通信情況。最后,利用MADDPG算法輸出下一時刻的通信動作及運(yùn)動策略,以實(shí)現(xiàn)無人車之間的通信和協(xié)同控制,具體步驟如算法1所示。
算法 1" 基于MADDPG的事件觸發(fā)通信
1: 初始化(xi,yi),θi,(xi,yi)(i=1,2,…,N)
2: for t=1 to T do
3:" for i=1 to N do
4:""" /*對無人車進(jìn)行分組*/
5:""" 在N個無人車中計(jì)算出K個鄰接無人車
6:""" /*事件觸發(fā)通信*/
7:""" 利用式(7)確定無人車通信
8:""" /*基于一致性通信*/
9:""" 更新通信向量ci
10:" for s=t to t+ΔT do
11:""" 利用式(4)估計(jì)ci
12:" end for
13:" 利用式(6)計(jì)算ui和ci
14:" end for
15: end for
3" 實(shí)驗(yàn)與驗(yàn)證
為了驗(yàn)證所提出策略的有效性,本文對圍捕進(jìn)行了多次實(shí)驗(yàn),分別在正常情況下和出現(xiàn)故障車情況下進(jìn)行仿真,以及在正常情況下實(shí)車實(shí)驗(yàn),驗(yàn)證所提出的算法具有平衡性能和降低通信總量的能力。
3.1" 正常條件下協(xié)同圍捕
多無人車協(xié)同主要利用車間通信設(shè)備進(jìn)行車與車之間的信息交互,無人車在車間通信正常的情況下按照控制器輸出,運(yùn)動到期望位置,并將當(dāng)前和期望位置廣播給其他無人車。
3.1.1" 環(huán)境參數(shù)
仿真實(shí)驗(yàn)主要研究二維協(xié)同圍捕問題,多無人車外形簡化為一個圓形,半徑為0.1。無人車i的控制輸入是ui=[ai,ωi],通信向量是ci,其中ai和ωi分別表示無人車在坐標(biāo)系中的加速度和角速度。
表1列出了MADDPG算法的參數(shù),方法中使用的參數(shù)是通過反復(fù)實(shí)驗(yàn)得到的。在相同的仿真條件下,本實(shí)驗(yàn)共進(jìn)行10次訓(xùn)練。
將無人車之間的通信數(shù)據(jù)設(shè)定為位置、速度和航向角。無人車i的觀察、動作和獎勵由oi=[ei,b], acti=[ui,ci],ri=-(x,y)-(x,y)2-λwi1表示,其中b=[xi,yi,vi,xi,yi,θi]表示無人車i向其他無人車廣播的其他信號。在式(9)中通過反復(fù)試錯設(shè)定λ=0.2。
3.1.2" 實(shí)驗(yàn)結(jié)果
圍捕成功的條件是,無人車根據(jù)一定的通信策略從其他車獲得狀態(tài)數(shù)據(jù),結(jié)合控制策略從現(xiàn)在所處位置運(yùn)動到預(yù)期圍捕位置,完成圍捕任務(wù)。
圖3顯示了基于固定通信頻率策略和基于事件觸發(fā)通信策略的平均獎勵。結(jié)果表明,基于事件觸發(fā)通信的最終平均獎勵值幾乎收斂到與固定頻率通信相同,不同的是基于事件觸發(fā)通信策略趨于穩(wěn)定的速度較固定頻率通信策略緩慢。經(jīng)過多次訓(xùn)練后,應(yīng)用兩種方法時,無人車均可以行駛到期望位置,如圖4所示。
此外,圖5顯示了無人車1在0~10 s內(nèi)通信時間及通信間隔,其中橫軸表示每次通信的時間點(diǎn),縱軸表示連續(xù)通信兩次的時間間隔。結(jié)果顯示,在10 s內(nèi)固定頻率策略累計(jì)通信200次,而事件觸發(fā)策略累計(jì)通信75次,較固定頻率通信策略減少了62.5%,說明本文提出策略的通信量要遠(yuǎn)小于固定頻率的通信量,應(yīng)用事件觸發(fā)通信時,即使每個無人車較少收到其他無人車的位置、速度或航向角等狀態(tài)信息,多無人車仍能正常完成任務(wù)。
3.2" 故障條件下的圍捕
本節(jié)通過無人車在發(fā)生故障條件下的協(xié)同圍捕來證實(shí)框架的可靠性。
3.2.1" 環(huán)境參數(shù)
考慮二維環(huán)境中多無人車協(xié)同圍捕,其中無人車1由于執(zhí)行器故障而停止。無人車的形狀為圓形,半徑設(shè)定為0.1。無人車i的控制輸入[ai,ωi]??紤]到實(shí)驗(yàn)中使用的無人車,設(shè)定|ai|≤0.2,|ωi|≤0.5。通過設(shè)置無人車1的a1=0.0,ω1=0.0,使無人車1在3 s后停止。需要注意的是,因?yàn)槊看蔚墓收蠒r間均隨機(jī),其他無人車不能預(yù)先知道故障的時間和無人車1所處的位置。
仿真中的參數(shù)如表2所示。層數(shù)、單元數(shù)、激活函數(shù)和折扣系數(shù)與表1參數(shù)相同,此節(jié)省略。通過設(shè)置無人車的初始偏航角-π/8≤θ≤π/8,同時隨機(jī)設(shè)置無人車的初始位置,進(jìn)行了3次訓(xùn)練。
此外,仿真中設(shè)定的通信數(shù)據(jù)包括位置、航向角、速度。觀察、動作和獎勵由oi=[xi,yi,vi,θi],ai=[ui,ci],ri=-(x,y)-(x,y)2-λwi1,無人車信號被廣播給其他無人車。此外,式(9)中通過試錯設(shè)定λ=0.01。
3.2.2" 實(shí)驗(yàn)結(jié)果
基于事件觸發(fā)算法在訓(xùn)練后測試圍捕的路徑如圖6所示。無人車1的執(zhí)行器發(fā)生故障后,其他無人車收到了來自無人車1的速度輸入,并快速改變了運(yùn)動的位置。這一結(jié)果表明,其他無人車根據(jù)無人車1的速度輸入知道故障發(fā)生,從而確定本身動作。此外,當(dāng)任務(wù)結(jié)束時,無人車3、無人車4即時收到了無人車1的速度輸入,其試圖收斂到期望的位置與無人車1未發(fā)生故障時差別也不大。
為了證實(shí)算法的有效性,我們將提出的算法與以下幾種通信拓?fù)浣Y(jié)構(gòu)進(jìn)行了比較。
(1) 高固定頻率通信:每個無人車以10 Hz的頻率發(fā)送數(shù)據(jù),其與控制周期相同。
(2) 低固定頻率通信:每個無人車以1 Hz的頻率為周期發(fā)送數(shù)據(jù)。
(3) 無通信:每個無人車在整個過程中沒有收到其他無人車的數(shù)據(jù)。
為了定量比較4種通信拓?fù)浣Y(jié)構(gòu),我們執(zhí)行了100次訓(xùn)練,并評估了多無人車圍捕成功率。根據(jù)結(jié)果,基于事件觸發(fā)通信實(shí)現(xiàn)了與高固定頻率通信一樣高的成功率,如表3所示。
3.3" 實(shí)車條件下的圍捕
本節(jié)通過實(shí)車在越野條件下對移動目標(biāo)的協(xié)同圍捕來證實(shí)框架的有效性。
3.3.1" 設(shè)備參數(shù)
實(shí)驗(yàn)利用團(tuán)隊(duì)自主研發(fā)的4臺無人車(見圖7)進(jìn)行實(shí)車驗(yàn)證。無人車上裝有感知設(shè)備(激光雷達(dá),感知無人車周圍環(huán)境)、慣性導(dǎo)航設(shè)備(全球定位系統(tǒng)、北斗,定位無人車位置,輸出無人車速度、加速度、航向角、角速度等狀態(tài)信息)、車間通信設(shè)備(無線局域網(wǎng),構(gòu)建無人車之間的通信網(wǎng)絡(luò))、計(jì)算設(shè)備(工控機(jī),運(yùn)行無人車的感知、規(guī)劃決策、控制等程序)等。4輛無人車需要在場景中完成對動態(tài)目標(biāo)圍捕的任務(wù)。
3.3.2" 實(shí)驗(yàn)結(jié)果
圖8為基于固定頻率通信策略和基于事件觸發(fā)通信策略進(jìn)行圍捕任務(wù)的路徑示意圖,表4對使用本文提出的通信策略與固定頻率通信做比較,證明算法的有效性。
由表4可以看出,本文提出的算法在圍捕平均耗時上與固定頻率通信的耗時相近,在總路徑長度上,基于事件觸發(fā)通信策略與固定頻率通信策略相差不大,但在車間通信的數(shù)據(jù)量上,本文提出的策略卻遠(yuǎn)低于固定頻率通信,相較固定頻率通信減少了55.74%,由此可證實(shí)本文提出算法的有效性。
綜上,本文提出的框架可以實(shí)現(xiàn)比其他通信拓?fù)浣Y(jié)構(gòu)節(jié)省更多的通信量,同時保持與高固定頻率通信相同的傳輸性能,即使對于一個復(fù)雜的任務(wù),也能達(dá)到最優(yōu)效果。
4" 結(jié)束語
本文提出了一個多無人車通信框架,以平衡協(xié)同性能和節(jié)省通信量。所提出的方法通過使用多個無人車在隨機(jī)初始位置和圍捕位置的條件下完成協(xié)同圍捕任務(wù),實(shí)現(xiàn)了與固定頻率通信一樣性能,同時節(jié)省了通信消耗。此外,對于有無人車發(fā)生故障條件下的協(xié)同圍捕,本文提出的方法比其他通信拓?fù)浣Y(jié)構(gòu)實(shí)現(xiàn)節(jié)省更多的通信量,同時保持與高固定頻率通信同樣的可靠性。
在下一步的研究中,為進(jìn)一步提高算法的性能,可以從以下兩個方面進(jìn)行考慮:① 結(jié)合其他觸發(fā)器,例如基于規(guī)則的觸發(fā)器或基于獎勵的觸發(fā)器,來提高性能和穩(wěn)定性;② 使用自適應(yīng)方法來調(diào)整觸發(fā)器的參數(shù)和權(quán)重,例如使用強(qiáng)化學(xué)習(xí)算法來自適應(yīng)地調(diào)整觸發(fā)器的閾值和激活函數(shù)等。
參考文獻(xiàn)
[1] 張夢鈺, 豆亞杰, 陳子夷, 等. 深度強(qiáng)化學(xué)習(xí)及其在軍事領(lǐng)域中的應(yīng)用綜述[J]. 系統(tǒng)工程與電子技術(shù), 2024, 46(4): 12971308.
ZHANG M Y, DOU Y J, CHEN Z Y, et al. Deep reinforcement learning and its applications in military field[J].Systems Engineering and Electronics, 2024, 46(4): 12971308.
[2] 費(fèi)博雯, 包衛(wèi)東, 劉大千, 等. 面向動態(tài)目標(biāo)搜索與打擊的空地協(xié)同自主任務(wù)分配方法[EB/OL]. [20230511].http:∥kns.cnki.net/kcms/detail/11.2422.TN.20221228.1702.020.html.
FEI B W,BAO W D,LIU D Q, et al. Air-ground cooperative autonomous task allocation method for dynamic target search and strike[EB/OL]. [20230511].http:∥kns.cnki. net/kcms/detail/11.2422.TN.20221228.1702.020.html.
[3] ZHANG Z, WANG X H, ZHANG Q R, et al. Multi-robot cooperative pursuit via potential field-enhanced reinforcement learning[C]∥Proc.of the International Conference on Robotics and Automation, 2022: 88088814.
[4] OLSEN T, STIFFLER N M, O’KANE J M. Rapid recovery from robot failures in multi-robot visibility-based pursuit-evasion[C]∥Proc.of the IEEE/RSJ International Conference on Intelligent Robots and Systems, 2021: 97349741.
[5] BAUMANN D, ZHU J J, MARTIUS G, et al. Deep reinforcement learning for event-triggered control[C]∥Proc.of the IEEE Conference on Decision and Control, 2018: 943950.
[6] HU G Z, ZHU Y H, ZHAO D B, et al. Event-triggered communication network with limited-bandwidth constraint for multi-agent reinforcement learning[J]. IEEE Trans.on Neural Networks and Learning Systems, 2021, 34(8): 39663978.
[7] OTTE M, KUHLMAN M, SOFGE D. Competitive target search with multi-agent teams: symmetric and asymmetric communication constraints[J]. Autonomous Robots, 2018, 42(6): 12071230.
[8] DENG C, WEN C Y, WANG W, et al. Distributed adaptive tracking control for high-order nonlinea multiagent systems over event-triggered communication[J]. IEEE Trans.on Automatic Control, 2023, 68(2): 11761183.
[9] WANG Z J, YANG G, SU X S, et al. Ouijabots: omnidirectional robots for cooperative object transport with rotation control using no communication[J]. Distributed Autonomous Robotic Systems, 2018, 6: 117131.
[10] 鄧甲, 王付永, 劉忠信, 等. 動態(tài)事件觸發(fā)機(jī)制下二階多智能體系統(tǒng)完全分布式控制[J]. 控制理論與應(yīng)用, 2023, 41(1): 1120.
DENG J, WANG F Y, LIU Z X, et al. Fully distributed control for second-order multi-agent systems under dynamic event-triggered mechanism[J]. Control Theory amp; Applications, 2023, 41(1): 1120.
[11] 黃兵, 肖云飛, 馮元, 等. 無人艇全分布式動態(tài)事件觸發(fā)編隊(duì)控制[J]. 控制理論與應(yīng)用, 2023, 40(8): 14791487.
HUANG B, XIAO Y F, FENG Y, et al. Fully distributed dyna-mic event-triggered formation control for multiple unmanned surface vehicles[J]. Control Theory amp; Applications, 2023, 40(8): 14791487.
[12] ZUO R W, LI Y H, LYU M. Learning-based distributed containment control for hfv swarms under event-triggered communication[J]. IEEE Trans.on Aerospace and Electronic Systems, 2023, 59(1): 568579.
[13] HIRCHE S. Distributed control for cooperative manipulation with event-triggered communication[J]. IEEE Trans.on Robotics, 2020, 36(4): 10381052.
[14] 周托, 劉全利, 王東, 等. 積分事件觸發(fā)策略下的線性多智能體系統(tǒng)領(lǐng)導(dǎo)跟隨一致性[J]. 控制與決策, 2022, 37(5): 12581266.
ZHOU T, LIU Q L, WANG D, et al. Leader-following consensus for linear multi-agent systems based on integral-type event-triggered strategy[J]. Control and Decision, 2022, 37(5): 12581266.
[15] 王浩亮, 柴亞星, 王丹, 等. 基于事件觸發(fā)機(jī)制的多自主水下航行器協(xié)同路徑跟蹤控制[J]. 自動化學(xué)報, 2022, 45(2): 10011011.
WANG H L, CHAI Y X, WANG D, et al. Event-triggered cooperative path following of multiple autonomous underwater vehicles[J]. Acta Automatica Sinica, 2022, 45(2): 10011011.
[16] 陳世明, 邵賽, 姜根蘭. 基于事件觸發(fā)二階多智能體系統(tǒng)的固定時間比例一致性[J]. 自動化學(xué)報, 2022, 48(1): 261270.
CHEN S M, SHANG S, JIANG G L. Distributed event-triggered fixed-time scaled consensus control for second-order multi-agent systems[J]. Acta Automatica Sinica, 2022, 48(1): 261270.
[17] PENG C, LI F Q. A survey on recent advances in event-triggered communication and control[J].Information Sciences, 2018, 457(8): 113125.
[18] HUTTENRAUCH M, SOSIC A, NEUMANN G. Deep reinforcement learning for swarm systems[J]. Journal of Machine Learning Research, 2019, 20(54): 131.
[19] WANG Z F, GAO Y B, LIU Y F, et al. Distributed dynamic event-triggered communication and control for multi-agent consensus: a hybrid system approach[J]. Information Sciences, 2022, 618(12): 191208.
[20] RYU H C, SHIN H Y, PARK J K. Multi-agent actor-critic with hierarchical graph attention network[C]∥Proc.of the 34th AAAI Conferenceon Articial Intelligence, 2020: 72367243.
[21] ZHU X D, ZHANG F, LI H. Swarm deep reinforcement learning for robotic manipulation[J]. Procedia Computer Science, 2022, 198(12): 472479.
[22] LOWE R, WU Y, TAMAR A, et al. Multi-agent actor-critic for mixed cooperative-competitive environments[C]∥Proc.of the 31st International Conference on Neural Information Processing Systems, 2017: 63826393.
[23] FUNK N, BAUMANN D, BERENZ V, et al. Learning event-triggered control from data through joint optimization[J]. IFAC Journal of Systems and Control, 2021, 16(6): 100144100161.
[24] FOERSTER J, FARQUHAR G, AFOURAS T, et al. Counterfactual multi-agent policy gradients[C]∥Proc.of the AAAI Conference on Artificial Intelligence, 2018: 29742982.
[25] MIYAZAKI K, MATSUNAGA N, MURATA K, et al. Formation path learning for cooperative transportation of multiple robots using[C]∥Proc.of the 21st International Conference on Control, Automation and Systems, 2021: 16191623.
[26] GONZLEZ-SIERRA J, FLORES-MONTES D, HERNANDEZ-MARTINEZ E G, et al. Robust circumnavigation of a heterogeneous multi-agent system[J]. Autonomous Robots, 2021, 45(2): 265281.
[27] CHEN Z Y, NIU B, ZHANG L, et al. Command filtering-based adaptive neural network control for uncertain switched nonlinear systems using event-triggered communication[J]. International Journal Robust Nonlinear Control, 2022, 32(11): 65076522.
[28] MEISTER D, DRR F, ALLGOWER F. Shared network effects in time-versus event-triggered consensus of a single-integrator multi-agent system[J]. IFAC-Papers Online, 2023, 56(2): 59755980.
[29] HUA M, ZHANG C F, LI Z, et al. Multi-agent deep reinforcement learning for charge-sustaining control of multi-mode hybrid vehicles[EB/OL]. [20230511]. https:∥arxiv.org/abs/2209.02633.
[30] OLFATI-SABER R, FAX J A, MURRAY R M. Consensus and cooperation in networked multi-agent systems[J]. Proceedings of the IEEE, 2007, 95(1): 215233.
作者簡介
郭宏達(dá)(1989—),男,助理工程師,博士研究生,主要方向?yàn)闊o人車集群協(xié)同、車間通信。
婁靜濤(1984—),男,工程師,博士,主要研究方向?yàn)橹悄軣o人系統(tǒng)。
徐友春(1972—),男,教授,博士,主要研究方向?yàn)闊o人車架構(gòu)、智能無人系統(tǒng)。
葉" 鵬(1979—),男,高級工程師,碩士,主要研究方向?yàn)橹悄軣o人系統(tǒng)。
李永樂(1984—),男,工程師,博士,主要研究方向?yàn)闄C(jī)器視覺。
陳晉生(1994—),男,助理工程師,博士研究生,主要研究方向?yàn)闄C(jī)械臂控制。