許旭升,黨朝輝,宋 斌,袁秋帆,肖余之
(1.上海宇航系統(tǒng)工程研究所,上海 201109;2.西北工業(yè)大學(xué) 航天學(xué)院,陜西 西安 710109)
近年來,隨著空間領(lǐng)域科學(xué)技術(shù)的迅猛發(fā)展,越來越多的國家開始發(fā)射自己的衛(wèi)星。雖然宇航科學(xué)造福的范圍越來越大,但是太空中存在的太空垃圾和失效航天器也越來越多。這些失效航天器大多以第一宇宙速度繼續(xù)在軌。若在軌航天器與這些失效航天器的軌道相交或者重合時(shí),來不及躲避將會產(chǎn)生猛烈的撞擊,嚴(yán)重威脅到一些高價(jià)值衛(wèi)星和重要空間資源。于是,針對失效航天器的“在軌服務(wù)”也開始逐漸在一些航天國家得到重視。美國等國家已經(jīng)開展了針對非合作目標(biāo)的在軌服務(wù)的研究,并進(jìn)行了一系列實(shí)驗(yàn)。
在非合作目標(biāo)的在軌服務(wù)研究中,有一類較為重要的問題就是具有機(jī)動能力的非合作目標(biāo)的交會問題。由于非合作目標(biāo)的機(jī)動能力未知,而太空中航天器燃料有限,所以將此類問題可以轉(zhuǎn)換為航天器的追逃博弈問題,逃逸者即為失效航天器,追捕者則為在軌服務(wù)衛(wèi)星。在這類問題中考慮到多個(gè)衛(wèi)星協(xié)同工作,共同實(shí)施對非合作目標(biāo)的捕獲,因此成為多對一軌道追逃博弈問題。
針對衛(wèi)星追逃博弈問題,國內(nèi)外學(xué)者已經(jīng)進(jìn)行了深入而廣泛的研究。目前主要以微分對策求解的方法為主。文獻(xiàn)[6]通過將追逃博弈問題轉(zhuǎn)換為高維時(shí)變非線性兩點(diǎn)邊值問題,再進(jìn)行數(shù)值求解的方式得到追逃策略。文獻(xiàn)[7]利用半直接配點(diǎn)法對微分對策博弈過程進(jìn)行求解,得到相應(yīng)的數(shù)值解。文獻(xiàn)[8]利用最優(yōu)控制方法,通過求解微分對策的鞍點(diǎn)得到追逃博弈策略。集群追逃博弈問題中,僅知自身狀態(tài)和非合作目標(biāo)有限狀態(tài),未知非合作目標(biāo)的未來機(jī)動信息和行為策略,且在集群衛(wèi)星之間也難以形成完全狀態(tài)的交流,利用微分博弈的數(shù)值方法求解比較復(fù)雜。
近年來,隨著深度強(qiáng)化學(xué)習(xí)的興起,有些學(xué)者找到了另外一種解決博弈問題的途徑,即利用深度學(xué)習(xí)的方法對環(huán)境進(jìn)行建模,然后不斷訓(xùn)練策略,直至獎勵值達(dá)到最優(yōu),完成最優(yōu)博弈策略的求解。以深度強(qiáng)化學(xué)習(xí)為主的智能算法開始逐漸應(yīng)用于求解這類復(fù)雜問題的過程中,文獻(xiàn)[10]通過構(gòu)建模糊推理模型,將多組并行神經(jīng)網(wǎng)絡(luò)的分支深度強(qiáng)化學(xué)習(xí)架構(gòu)引入到非合作目標(biāo)追逃博弈策略求解的過程中。文獻(xiàn)[11]利用深度Q網(wǎng)絡(luò)(Deep Q-Networks,DQN)和最大最小(MiniMax)算法求取了近距空戰(zhàn)中的最優(yōu)機(jī)動策略。文獻(xiàn)[12]將平均場理論與多智能體強(qiáng)化學(xué)習(xí)算法(Multi-Agent Reinforcement Learning,MARL)相結(jié)合,對無人機(jī)集群進(jìn)行了細(xì)粒度任務(wù)規(guī)劃。符小衛(wèi)等利用改進(jìn)的分布式多智能體深度確定性策略梯度算法(Multi-intelligent Deep Deterministic Policy Gradient,MADDPG),驗(yàn)證了在多無人機(jī)協(xié)同對抗快速目標(biāo)的追逃博弈問題中的協(xié)同圍捕效果。深度學(xué)習(xí)由于其強(qiáng)大的擬合能力,被廣泛應(yīng)用于各類追逃博弈問題中。本文將利用MADDPG 算法,對追逃博弈問題展開研究。
假設(shè)有這樣一類場景,集群衛(wèi)星編隊(duì)在正常運(yùn)行,在相對軌道上有一個(gè)非合作目標(biāo),該目標(biāo)對編隊(duì)衛(wèi)星構(gòu)成了嚴(yán)重的威脅,需要集群衛(wèi)星協(xié)同與該非合作目標(biāo)進(jìn)行博弈,最終將其抓捕。而這個(gè)過程中就涉及一類博弈問題,即集群衛(wèi)星追逃博弈問題。傳統(tǒng)的方法通常是考慮博弈過程中的時(shí)間或燃料消耗,將其轉(zhuǎn)換為非合作目標(biāo)的最優(yōu)交會問題,或者是利用微分博弈的方法,在假設(shè)對方策略是理性的前提下進(jìn)行自身最優(yōu)博弈策略的求解。
本文研究的多對一衛(wèi)星追逃博弈是個(gè)動態(tài)的過程,博弈參與者被定義為追捕衛(wèi)星和逃逸衛(wèi)星,博弈雙方具有相反的博弈目標(biāo),即追捕衛(wèi)星需要盡力追擊和捕獲逃逸衛(wèi)星,而逃逸衛(wèi)星則需要盡可能地避開和遠(yuǎn)離追捕衛(wèi)星。而在這個(gè)過程中,涉及衛(wèi)星的許多真實(shí)約束,比如追捕衛(wèi)星之間需要協(xié)同好策略,避免相撞,優(yōu)化相互之間的策略,使得燃料消耗等指標(biāo)實(shí)現(xiàn)最優(yōu)。多對一衛(wèi)星博弈場景如圖1所示。
圖1 多對一衛(wèi)星追逃博弈場景Fig.1 Many-to-one satellite pursuit-evasion game scenario
圖1 中,P(=1,2,…,)為追捕衛(wèi)星。為方便距離和速度的確定,假設(shè)有一個(gè)虛擬衛(wèi)星,此衛(wèi)星的軌道根數(shù)為在博弈開始前的追捕衛(wèi)星的平均軌道根數(shù)。在此衛(wèi)星的相對軌道坐標(biāo)系下,追捕衛(wèi)星和逃逸衛(wèi)星之間進(jìn)行博弈,轉(zhuǎn)換為數(shù)學(xué)模型如圖2 所示。
圖2 博弈場景軌道坐標(biāo)系Fig.2 Orbital coordinate system of the pursuit-evasion game scenario
在圖2的軌道坐標(biāo)系下,為逃逸衛(wèi)星的位置,r,r,…,r為個(gè)追捕衛(wèi)星的位 置,為逃 逸衛(wèi)星的速度,v,v,…,v為個(gè)追捕衛(wèi)星的速度。本文針對以上多星追逃博弈問題,構(gòu)造出了集群衛(wèi)星追逃博弈數(shù)學(xué)模型。
在本文研究的追逃博弈問題中,追捕衛(wèi)星需優(yōu)化策略去追擊和捕獲逃逸衛(wèi)星,而逃逸衛(wèi)星則也需要不斷優(yōu)化策略去避開和遠(yuǎn)離追捕衛(wèi)星,雙方的博弈構(gòu)成了零和微分博弈問題。但是,在追捕衛(wèi)星之間需要協(xié)調(diào)和配合完成一定的博弈目的,每個(gè)追捕衛(wèi)星又相當(dāng)于一個(gè)合作博弈問題,通過對博弈模型建模,利用數(shù)學(xué)模型對雙方的博弈策略進(jìn)行表示。雙方的博弈策略數(shù)學(xué)模型如下:
式中:、J為參與博弈的衛(wèi)星的機(jī)動策略代價(jià)函數(shù)。
參與博弈的逃逸衛(wèi)星和每一個(gè)追捕衛(wèi)星都根據(jù)代價(jià)函數(shù)優(yōu)化自己的策略,目的是使得自己對應(yīng)的代價(jià)函數(shù)最小。由于每一個(gè)博弈參與者的博弈策略都會影響到最后的博弈結(jié)果,而在博弈過程中博弈雙方必然需要優(yōu)化自己的策略到達(dá)最優(yōu)。因此在進(jìn)行博弈時(shí),假設(shè)雙方為理性,最終策略將形成納什均衡條件,即:若在博弈過程中有一方策略不是最優(yōu),則另一方博弈成功的概率將會增大。這個(gè)過程數(shù)學(xué)描述為
在式(2)中,當(dāng)一方的衛(wèi)星采用了納什均衡策略下的動作,而對方為非理性策略,即采用納什均衡策略以外的動作,都將使得對方的目標(biāo)函數(shù)無法取得最優(yōu)。
因此,在衛(wèi)星追逃博弈模型中,通過求解以上最優(yōu)化問題得到納什均衡策略,從而實(shí)現(xiàn)追逃博弈的最優(yōu)機(jī)動。
在空間多衛(wèi)星追逃博弈過程中,忽略攝動因素,衛(wèi)星滿足基本的二體軌道動力學(xué)。在軌道坐標(biāo)系下,假設(shè)博弈開始前追捕衛(wèi)星圍繞著一顆虛擬參考星運(yùn)行,而與非合作目標(biāo)的相對距離遠(yuǎn)遠(yuǎn)小于參考星軌道運(yùn)行半徑,由于衛(wèi)星在相對軌道坐標(biāo)系下運(yùn)動,所以其動力學(xué)模型忽略3階以上小量,可描述為
衛(wèi)星的機(jī)動加速度約束公式如下:
式中:、為追捕衛(wèi)星和逃逸衛(wèi)星的機(jī)動加速度;、為機(jī)動能力約束。
通常情況下,根據(jù)博弈的平衡性考慮,當(dāng)參加博弈的雙方數(shù)量有差異時(shí),需要在機(jī)動能力上平衡,即當(dāng)>時(shí),<。
由于本文假定整個(gè)追逃博弈過程均在可觀測的參考系軌道下,因此,規(guī)定追捕衛(wèi)星和逃逸衛(wèi)星的博弈機(jī)動范圍為
同時(shí),對博弈結(jié)果也進(jìn)行相應(yīng)的定義,由于在追逃博弈問題中,雙方的博弈目的是追捕和逃逸,考慮到衛(wèi)星間交會時(shí)速度與位置必須同時(shí)一致,否則將會進(jìn)行碰撞產(chǎn)生損壞,因此,定義博弈中追捕成功的條件為
式中:第1 部分為追捕衛(wèi)星中的某一顆衛(wèi)星與逃逸衛(wèi)星之間的距離小于等于一定的距離閾值;第2部分為當(dāng)其中一顆衛(wèi)星與逃逸衛(wèi)星距離最近時(shí),相對速度也小于等于一定的速度閾值。當(dāng)兩部分同時(shí)滿足時(shí),則定義為追捕博弈行為成功;否則,則為逃逸博弈行為成功。
在本文的多對一衛(wèi)星追逃博弈模型中,將每個(gè)衛(wèi)星看作為一個(gè)智能體,利用強(qiáng)化學(xué)習(xí)的方法優(yōu)化策略,最終追捕衛(wèi)星和逃逸衛(wèi)星各自得到其最優(yōu)策略,達(dá)到納什均衡狀態(tài)。
在強(qiáng)化學(xué)習(xí)模型中,智能體通常通過“感知信息—執(zhí)行動作—獲得獎勵”的方式與環(huán)境進(jìn)行交互,在這個(gè)不斷迭代的過程中進(jìn)行策略的優(yōu)化學(xué)習(xí)和訓(xùn)練。首先,智能體通過接受環(huán)境的信號輸入即環(huán)境狀態(tài);之后根據(jù)狀態(tài)利用自身的策略轉(zhuǎn)化輸出動作a,該動作與環(huán)境交互,產(chǎn)生獎勵r,智能體接受該獎勵并根據(jù)獎勵的值進(jìn)行調(diào)整自身的策略,以獲得的獎勵值最大為目標(biāo),不斷進(jìn)行迭代;最終優(yōu)化得到自身對于環(huán)境最優(yōu)的策略。
MARL 是一類基于馬爾可夫決策過程的隨機(jī)博弈算法,本質(zhì)過程與單智能體強(qiáng)化學(xué)習(xí)算法一樣,都是通過不斷地感知信息、輸出動作,獲得獎勵反饋,不斷迭代優(yōu)化的過程,但是MARL 中由于多個(gè)智能體共同作用于環(huán)境,因此利用馬爾可夫博弈描述如下:
式中:為追捕智能體;為逃逸智能體;為模型的環(huán)境狀態(tài)空間;{U}為智能體的動作空間;:××→[0,1]為狀態(tài)轉(zhuǎn)移概率分布;{ρ}:××→R,∈為獎勵函數(shù);為獎勵衰減系數(shù)。
多智能體算法可以由不同任務(wù)進(jìn)行設(shè)計(jì),比如完全合作、不完全合作、合作對抗等。本文模型中假設(shè)追捕衛(wèi)星和逃逸衛(wèi)星均為智能體,雙方都參與策略的優(yōu)化,追捕衛(wèi)星之間為完全合作,與逃逸衛(wèi)星之間為對抗關(guān)系。
由于在多智能強(qiáng)化學(xué)習(xí)算法中,每個(gè)智能體在訓(xùn)練學(xué)習(xí)策略的時(shí)候,其他智能體的動作未知,將導(dǎo)致環(huán)境非平穩(wěn),因此,當(dāng)智能體數(shù)量變多時(shí)策略往往難以收斂。MADDPG 是一種在多智能體強(qiáng)化學(xué)習(xí)領(lǐng)域十分受歡迎的算法,各個(gè)智能體采用DDPG 的結(jié)構(gòu),同時(shí)利用一個(gè)全局的“演員-評論家”(Actor-Critic)架構(gòu),使得各個(gè)智能體利用“集中訓(xùn)練,分散執(zhí)行”的方法,尋找到最優(yōu)的聯(lián)合策略。通過這種方式,充分考慮到每個(gè)智能體的策略,集中訓(xùn)練時(shí)作為整體進(jìn)行優(yōu)化,在執(zhí)行的時(shí)候各個(gè)智能體僅僅利用觀測到的信息進(jìn)行預(yù)測,解決了環(huán)境不平穩(wěn)的問題。
MADDPG 算法的核心是“集中訓(xùn)練”的“演員-評論家”結(jié)構(gòu),考慮有個(gè)智能體,每個(gè)智能體對應(yīng)有自己的決策網(wǎng)絡(luò),這個(gè)決策網(wǎng)絡(luò)的輸出就是對應(yīng)智能體的策略輸出。在進(jìn)行集中訓(xùn)練時(shí),各個(gè)智能體利用觀測信息通過決策網(wǎng)絡(luò)后進(jìn)行策略輸出對應(yīng)的動作(π),同時(shí)每個(gè)智能體利用一個(gè)能夠接收全局信息的評價(jià)網(wǎng)絡(luò),對智能體決策網(wǎng)絡(luò)的輸出進(jìn)行評估,得到每一個(gè)智能體輸出動作對應(yīng)的值函數(shù)Q。智能體的決策網(wǎng)絡(luò)接收該評價(jià)信號,進(jìn)行自身策略π的調(diào)整和優(yōu)化。通過這種方式,每一個(gè)智能體的Actor 網(wǎng)絡(luò)雖然接收局部觀測信息輸出動作,但是在全局的評價(jià)網(wǎng)絡(luò)評價(jià)校正下,每一個(gè)智能體的策略都是將其他智能體考慮在內(nèi)的全局最優(yōu)策略。因此,在訓(xùn)練完畢最后執(zhí)行的時(shí)候,智能體僅僅通過局部觀測信息,而不需要其他智能體的策略就能夠輸出考慮到全局的策略動作,以此達(dá)到了分散執(zhí)行時(shí)整體最優(yōu)的效果。MADDPG 算法原理如圖3 所示。
圖3 MADDPG 算法原理圖Fig.3 Schematic diagram of the MADDPG algorithm
MADDPG作為一種“演員-評論家”(Actor-Critic)結(jié)構(gòu)的MARL,在訓(xùn)練優(yōu)化參數(shù)時(shí),主要有2 部分組成,一部分是全局Critic 網(wǎng)絡(luò)的更新,另一部分是各個(gè)智能體決策網(wǎng)絡(luò)參數(shù)的優(yōu)化更新。MADDPG 在訓(xùn)練的時(shí)候,每一條經(jīng)驗(yàn)池中的樣本數(shù)據(jù)包括<,s,,…,a,,…,r>,即當(dāng)前全局狀態(tài)、動作后全局的狀態(tài)、各智能體的動作與相應(yīng)的獎勵。
評價(jià)網(wǎng)絡(luò)輸入為全局信息的觀測,輸出為各智能體輸出動作的評估,值的計(jì)算可以表示為=(s,,…,a,θ),利用獎勵值對評價(jià)網(wǎng)絡(luò)進(jìn)行更新如下:
動作值函數(shù)利用當(dāng)前時(shí)刻估值和動作后獎勵校正后估值的均方差的方式進(jìn)行更新,相當(dāng)于全局的中心評價(jià)網(wǎng)絡(luò),有效地解決了環(huán)境不平穩(wěn)的問題。
每個(gè)智能體擁有一個(gè)接收環(huán)境中狀態(tài)信息輸出動作的策略網(wǎng)絡(luò),在進(jìn)行訓(xùn)練時(shí),根據(jù)評價(jià)網(wǎng)絡(luò)輸出的動作值函數(shù)得到累積期望收益的梯度進(jìn)行策略參數(shù)的更新??紤]到整體博弈策略是由個(gè)智能體的參數(shù)={,,…,θ}形成的策略={,,…,π}組成的,在進(jìn)行集中訓(xùn)練時(shí),根據(jù)貝爾曼方程在隨機(jī)策略下,每個(gè)智能體的累積期望收益(θ)及其梯度? J(θ)為
由于采用MADDPG 的確定性策略梯度,因此其更新的策略梯度如下:
通過上述更新過程,在訓(xùn)練過程中決策網(wǎng)絡(luò)和評價(jià)網(wǎng)絡(luò)同時(shí)更新,抽取經(jīng)驗(yàn)池中的數(shù)據(jù)。當(dāng)然在算法設(shè)計(jì)過程中,雙網(wǎng)絡(luò)參數(shù)差分更新等方法不再贅述,最終完成網(wǎng)絡(luò)的更新。
在軌道追逃博弈過程中,為使得博弈策略完整真實(shí),追捕衛(wèi)星和逃逸衛(wèi)星均可看作為智能體,共同在環(huán)境中進(jìn)行追逃博弈訓(xùn)練,最終優(yōu)化得到的策略將能夠充分考慮到對方的策略和機(jī)動輸出,實(shí)現(xiàn)最優(yōu)的博弈目的。本文基于多智能體深度確定性策略梯度的方法,利用決策-評價(jià)網(wǎng)絡(luò)結(jié)構(gòu)得到最優(yōu)多個(gè)追捕衛(wèi)星的協(xié)同策略,同時(shí),逃逸衛(wèi)星也在訓(xùn)練中博弈迭代,實(shí)現(xiàn)最優(yōu)逃逸策略的求解。而每一個(gè)智能體按照相應(yīng)的指標(biāo)將優(yōu)化得到其最優(yōu)的策略,相互之間達(dá)到了納什均衡。
最后在實(shí)施抓捕目標(biāo)衛(wèi)星時(shí),只要目標(biāo)衛(wèi)星的機(jī)動方法不是最優(yōu)的策略,將得到更好的博弈效果。
追逃博弈算法整體方案如圖4 所示。為達(dá)到博弈目的,訓(xùn)練前需要對每個(gè)智能體進(jìn)行獎勵塑造(Reward Shaping)。根據(jù)博弈目的和方法的區(qū)別,分為追捕衛(wèi)星博弈獎勵函數(shù)和逃逸衛(wèi)星博弈獎勵函數(shù)。
圖4 軌道追逃博弈方法實(shí)現(xiàn)原理Fig.4 Method of the orbital pursuit-evasion game method
首先是追捕衛(wèi)星捕獲成功時(shí)的獎勵函數(shù)設(shè)計(jì),規(guī)定捕獲的成功條件為
式中:第1 部分為追捕衛(wèi)星中的某一顆衛(wèi)星與逃逸衛(wèi)星之間的距離小于等于一定的距離閾值;第2部分為當(dāng)其中一顆衛(wèi)星與逃逸衛(wèi)星距離最近時(shí),相對速度也小于等于一定的速度閾值,當(dāng)兩部分同時(shí)滿足時(shí),則定義為追捕博弈行為成功。
為當(dāng)有其中一個(gè)衛(wèi)星捕獲逃逸衛(wèi)星時(shí)獲得任務(wù)正向獎勵;=-||Δ||為對衛(wèi)星在追捕過程中燃料消耗的懲罰,為了防止追捕時(shí)間過長,在獎勵函數(shù)中加入了<0,將時(shí)間作為懲罰,讓追捕衛(wèi)星能夠以更快的速度捕獲到逃逸衛(wèi)星,考慮到集群衛(wèi)星在追捕過程中要避免碰撞;
為當(dāng)集群衛(wèi)星中相互碰撞后進(jìn)行負(fù)獎勵作為懲罰;同時(shí),由于稀疏獎勵可能產(chǎn)生不容易收斂的問題,利用強(qiáng)化學(xué)習(xí)獎勵塑造的方法,在博弈過程中增加引導(dǎo)性獎勵;
為多個(gè)智能體衛(wèi)星與逃逸衛(wèi)星的整體距離越小,則獎勵越大;、、、、為各獎勵的權(quán)重系數(shù),可根據(jù)具體任務(wù)調(diào)整大小。
逃逸衛(wèi)星的目的是能夠最大限度地避免被追捕衛(wèi)星捕獲,因此在環(huán)境交互訓(xùn)練中,逃逸衛(wèi)星每一步的獎勵函數(shù)設(shè)計(jì)如下:
為被捕獲后的懲罰;由于只通過目標(biāo)獎勵容易造成稀疏獎勵無法收斂,因此根據(jù)強(qiáng)化學(xué)習(xí)獎勵塑造中目標(biāo)一致的原則,加入引導(dǎo)獎勵
隨著與捕獲智能體愈近,給予逃逸衛(wèi)星更大的懲罰;同時(shí)加入了時(shí)間獎勵>0,表示博弈持續(xù)時(shí)間越長,智能體衛(wèi)星得到的獎勵越大;、、分別為捕獲懲罰、引導(dǎo)獎勵、時(shí)間懲罰的權(quán)重系數(shù),可針對不同任務(wù)進(jìn)行調(diào)整。
本文實(shí)驗(yàn)針對同步軌道的集群衛(wèi)星追逃博弈場景進(jìn)行了設(shè)計(jì)。假設(shè)有一個(gè)3 衛(wèi)星編隊(duì)在軌道高度為42 249 137 m 附近運(yùn)行(7.270 1×10),在相對坐標(biāo)系500 m×500 m×500 m 空間內(nèi)(訓(xùn)練時(shí)位置速度隨機(jī)設(shè)定)遇到了軌道根數(shù)相似的一顆非合作目標(biāo)衛(wèi)星,實(shí)施追逃博弈方案。
為了使實(shí)驗(yàn)更具可操作性,設(shè)定逃逸衛(wèi)星機(jī)動能力比追捕衛(wèi)星機(jī)動能力大,即/=1.2,同時(shí),規(guī)定=10 m,=0.5 m/s 為距離和速度的安全約束,當(dāng)其中有一個(gè)追捕衛(wèi)星靠近了逃逸衛(wèi)星該距離和速度的約束值內(nèi)時(shí),博弈結(jié)束,追捕成功,每次博弈時(shí)間上限為1 000 s。由于在相對軌道系下進(jìn)行博弈訓(xùn)練,因此在忽略高階項(xiàng)后系統(tǒng)環(huán)境滿足C-W 方程,而在C-W 方程中,耦合較為緊密的是、軸,這也是系統(tǒng)的復(fù)雜點(diǎn),為加快收斂,忽略軸的動力學(xué)模型。假設(shè)追捕衛(wèi)星和逃逸衛(wèi)星均在一個(gè)軌道面運(yùn)行,得到一個(gè)軌道面內(nèi)二維的博弈場景。
本文實(shí)驗(yàn)平臺:CPU 為intel-10500,內(nèi)存8 GB×2,顯卡為GTX1660。針對以上場景進(jìn)行訓(xùn)練。
通過以上的實(shí)驗(yàn)設(shè)計(jì),在合理調(diào)整獎勵函數(shù)的權(quán)重值,針對簡化后追逃博弈模型進(jìn)行訓(xùn)練后,算法達(dá)到了收斂。追捕衛(wèi)星整體的獎勵收斂過程效果如圖5 所示。
圖5 追逃博弈訓(xùn)練獎勵收斂過程效果Fig.5 Results of the reward convergence process of pursuit-evasion game training
在圖5 中,隨著博弈的進(jìn)行和追逃博弈雙方策略的不斷優(yōu)化,獎勵值有3 個(gè)階段的變化趨勢與特點(diǎn):在一開始,博弈雙方策略均未能生成,可以理解為隨機(jī)進(jìn)行博弈獎勵,由于追捕智能體具有數(shù)量優(yōu)勢,因此先找到了一定的聯(lián)合策略進(jìn)行優(yōu)化,此階段使得追捕智能體獎勵值保持增加;隨著回合的增加,逃逸智能體逐漸利用到了機(jī)動性能的優(yōu)勢,開始生成一定的逃逸策略,由于追捕智能體生成的“初級協(xié)同策略”開始失效,使得追捕智能體獎勵函數(shù)值持續(xù)下降;隨著博弈的繼續(xù)進(jìn)行,追捕智能體逐漸開始針對逃逸智能體優(yōu)化其協(xié)同追捕策略,而逃逸智能體也利用自身機(jī)動優(yōu)勢針對追捕智能體的追捕策略進(jìn)行逃逸策略的優(yōu)化,因此獎勵值在不斷的波動中。最后,雙方的策略在一定范圍內(nèi)實(shí)現(xiàn)動態(tài)平衡,得到最優(yōu)或者次最優(yōu)的追捕和逃逸策略。
各個(gè)智能體完成了集中訓(xùn)練,分散開始執(zhí)行策略時(shí),博弈策略驗(yàn)證時(shí)“涌現(xiàn)”出來了一系列的智能協(xié)同追逃博弈現(xiàn)象,主要有以下4 類,如圖6 所示。
圖6 “涌現(xiàn)”的智能博弈行為Fig.6 Emergent intelligent pursuit-evasion game behaviors
1)協(xié)同圍捕?!皡f(xié)同圍捕”現(xiàn)象在驗(yàn)證時(shí)最為常見,典型特點(diǎn)為多個(gè)追捕智能體按照不同方向靠近逃逸智能體,實(shí)現(xiàn)對逃逸智能體的“包圍”,通過縮小范圍完成追捕策略。
2)智能攔截?!爸悄軘r截”的現(xiàn)象多出現(xiàn)在當(dāng)逃逸智能體在一個(gè)方向逃逸機(jī)動時(shí),追捕智能體協(xié)同運(yùn)動至其逃逸方向上,實(shí)現(xiàn)攔截,當(dāng)位置速度小于閾值時(shí)使得追捕博弈成功。
3)合作追逐。“合作追逐”的場景更具可觀賞性,追捕智能體并不是單單從距離上靠近實(shí)現(xiàn)協(xié)同追捕,而是有計(jì)劃地在逃逸智能體的其他方向上進(jìn)行運(yùn)動干擾,參與追捕博弈的智能體也不單單只是實(shí)現(xiàn)追捕的目的,有些智能體是以合作者的身份進(jìn)行博弈,最終完成協(xié)同追捕任務(wù)。
4)預(yù)測潛伏。“預(yù)測潛伏”為這樣一類場景和策略:當(dāng)逃逸智能體試圖通過機(jī)動優(yōu)勢“飛掠”過追捕智能體時(shí),追捕智能體采取應(yīng)對策略,先偽裝成其他方向的機(jī)動,當(dāng)逃逸智能體靠近以后,再改變機(jī)動方向,實(shí)現(xiàn)預(yù)測和潛伏的行為,最終實(shí)現(xiàn)追捕博弈。
本文面向空間多對一非合作目標(biāo)追逃博弈場景進(jìn)行了調(diào)研和分析,通過對博弈場景進(jìn)行建模,在考慮最短時(shí)間、最優(yōu)燃料以及碰撞規(guī)避的情形下進(jìn)行獎勵函數(shù)的塑造和改進(jìn),利用MADDPG 的方法進(jìn)行集中訓(xùn)練,得到各個(gè)追捕衛(wèi)星和逃逸衛(wèi)星的最優(yōu)追逃策略參數(shù);然后分布式執(zhí)行,使得多個(gè)追捕衛(wèi)星和逃逸衛(wèi)星之間能夠完成追逃博弈。仿真結(jié)果表明,該方法能夠完成集群衛(wèi)星對非合作目標(biāo)的追逃博弈,且能夠利用數(shù)量優(yōu)勢有效地彌補(bǔ)速度劣勢,涌現(xiàn)出“攔截”“圍捕”“潛伏”“捕 獲”等一系列智能博弈行為,有效地實(shí)現(xiàn)了博弈的目的,為衛(wèi)星實(shí)施多對一非合作目標(biāo)軌道追逃博弈的方法提供了一定的參考意義。