苗峻,涂歆瀅,殷建豐,彭靖,李海津,陳子勻
1.中國空間技術(shù)研究院 錢學(xué)森空間技術(shù)實(shí)驗(yàn)室,北京 100094
2.中國空間技術(shù)研究院 北京空間飛行器總體設(shè)計(jì)部,北京 100094
3.中國人民解放軍66136部隊(duì),北京 100042
衛(wèi)星編隊(duì)通過彼此協(xié)同工作可以完成單一衛(wèi)星難以完成的空間任務(wù),具有靈活性高、功能多和容錯(cuò)性強(qiáng)的特點(diǎn)[1-2],而高精度的衛(wèi)星編隊(duì)可以大幅提高對地觀測的精度,可廣泛應(yīng)用于地球重力場觀測、地磁觀測等需要超高精度對地觀測的科學(xué)任務(wù)中[3]。由于高度集成化和自動(dòng)化技術(shù)快速發(fā)展,衛(wèi)星市場需求量不斷擴(kuò)大,大規(guī)模衛(wèi)星編隊(duì)的研發(fā)和部署掀起前所未有的熱潮[4]。
目前針對高精度編隊(duì)控制算法,常見的方法有模型預(yù)測控制[5]、模糊控制、滑??刂埔约癓QR控制等[6],然而現(xiàn)有研究主要集中在針對較小規(guī)模衛(wèi)星的高精度編隊(duì)方法進(jìn)行研究。文獻(xiàn)[7]提出了一種基于非線性干擾觀測器和人工勢函數(shù)的分布性協(xié)同控制方法,對4星組網(wǎng)衛(wèi)星編隊(duì)控制進(jìn)行了仿真驗(yàn)證。文獻(xiàn)[8]在考慮避障的情況下,基于特殊的人工勢能函數(shù)設(shè)計(jì)了一種航天器編隊(duì)自適應(yīng)協(xié)同控制律,以1顆主星3顆從星的4星組網(wǎng)航天器編隊(duì)為例進(jìn)行了分析仿真;文獻(xiàn)[9]提出一種基于Lyapunov 方法的自適應(yīng)控制器,可以消除初始編隊(duì)構(gòu)型誤差補(bǔ)償外界擾動(dòng),維持編隊(duì)期望構(gòu)型,并在雙星編隊(duì)中進(jìn)行了仿真驗(yàn)證;文獻(xiàn)[10]提出了一種自適應(yīng)滑模變結(jié)構(gòu)連續(xù)控制方法,并在雙星編隊(duì)上進(jìn)行了驗(yàn)證;文獻(xiàn)[11]針對“一主三從”的4星靜止軌道衛(wèi)星編隊(duì)構(gòu)型保持,提出了一種管道模型預(yù)測控制方法,實(shí)現(xiàn)了衛(wèi)星編隊(duì)的魯棒控制;文獻(xiàn)[12]提出了一種網(wǎng)絡(luò)李雅普諾夫算法,并在“一主三從”的4星編隊(duì)上取得了良好的閉環(huán)控制效果;文獻(xiàn)[13]基于隨機(jī)矩陣?yán)碚?針對4星多智能體衛(wèi)星編隊(duì)設(shè)計(jì)了一種分布式無模型自適應(yīng)迭代學(xué)習(xí)控制算法,將衛(wèi)星編隊(duì)控制在期望誤差內(nèi);文獻(xiàn)[14]針對雙星編隊(duì)提出了一種最優(yōu)控制策略;文獻(xiàn)[15]提出了一種編隊(duì)彈性控制策略,以減少編隊(duì)控制的能耗,延長編隊(duì)壽命,并應(yīng)用于10顆衛(wèi)星的較大規(guī)模編隊(duì)。通過對近期相關(guān)文獻(xiàn)的分析可以看出,目前在衛(wèi)星大規(guī)模高精度編隊(duì)控制方面的研究還不夠完善,所涉及問題的規(guī)模都比較小。
近年來,深度強(qiáng)化學(xué)習(xí)結(jié)合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)(RL)優(yōu)點(diǎn),大大提高了RL的性能。更進(jìn)一步的,為了提高算法解決復(fù)雜問題的能力,2016年DeepMind團(tuán)隊(duì)提出了基于actor-critic 雙重網(wǎng)絡(luò)框架的深度確定性策略梯度算法(deep deterministic policy gradient,DDPG)[16]。DDPG結(jié)合了DQN(deep Q networks)算法的特點(diǎn),構(gòu)造非常簡單,僅需要一個(gè)基本的 actor-critic 框架和只需要進(jìn)行微調(diào)的學(xué)習(xí)算法,就能提高訓(xùn)練效率,較好地完成在高維連續(xù)動(dòng)作空間中的行為決策[17],因此被引入到導(dǎo)彈制導(dǎo)一體化控制[18]、無人機(jī)控制[19-20]、艦船自動(dòng)控制[21]等多種領(lǐng)域。但相關(guān)技術(shù)在衛(wèi)星編隊(duì)控制領(lǐng)域研究較少[22-23]。
現(xiàn)有的文獻(xiàn)很少研究較大規(guī)模衛(wèi)星編隊(duì),傳統(tǒng)方法直接應(yīng)用于大規(guī)模編隊(duì)控制器太復(fù)雜,精度不高或者控制策略較難以大規(guī)模應(yīng)用,而深度強(qiáng)化學(xué)習(xí)方法在連續(xù)動(dòng)作的控制上表現(xiàn)優(yōu)異,可以很好地解決類似編隊(duì)衛(wèi)星的連續(xù)控制。本文首次提出了一種基于吸引法則的深度確定性策略梯度ADDPG編隊(duì)控制算法,旨在探索一條新的可用于大規(guī)模衛(wèi)星高精度編隊(duì)控制方法。通過充分挖掘利用已有信息,利用深度強(qiáng)化學(xué)習(xí)簡單結(jié)構(gòu)網(wǎng)絡(luò)延展解決復(fù)雜問題的能力,設(shè)計(jì)了基于虛擬中心的編隊(duì)控制獎(jiǎng)勵(lì)函數(shù)、狀態(tài)空間、動(dòng)作空間,在滿足高精度編隊(duì)需求的同時(shí),盡可能減少編隊(duì)衛(wèi)星能量消耗,實(shí)現(xiàn)大規(guī)模高精度衛(wèi)星編隊(duì)“又精又省”控制,為未來地球重力場觀測、地磁觀測等需要超高精度對地觀測的科學(xué)任務(wù)進(jìn)行技術(shù)儲備。
理想的網(wǎng)絡(luò)拓?fù)渚哂袑ΨQ性高、容錯(cuò)性好等特點(diǎn),與其它的網(wǎng)絡(luò)模型相比,超立方體拓?fù)浣Y(jié)構(gòu)具有結(jié)構(gòu)簡單、連通度高、容錯(cuò)性和擴(kuò)展性強(qiáng)等諸多優(yōu)越性質(zhì),便于實(shí)現(xiàn)衛(wèi)星大規(guī)模物理組網(wǎng)。針對超立方體的拓?fù)浣Y(jié)構(gòu)可以減少大規(guī)模編隊(duì)通信時(shí)間延遲,大幅度提高編隊(duì)衛(wèi)星間通信效率。
超立方體編隊(duì)衛(wèi)星之間的拓?fù)湫畔㈥P(guān)系使用加權(quán)無向圖來表示。加權(quán)無向圖G=(V,E,A)由節(jié)點(diǎn)集V={υ1,…,υn},邊集E?V×V和n維加權(quán)鄰接矩陣A=[αij]組成。若圖G中的每個(gè)節(jié)點(diǎn)的度都為k,則稱圖G為k正則。
n維超立方體(記為Wn)是一個(gè)無向圖,可以定義為:Wn=
超立方體W1、W2和W3如圖1所示,4維超立方體W4如圖2所示。Wn是正則的,共有2n個(gè)節(jié)點(diǎn)和n2n-1條邊,每個(gè)節(jié)點(diǎn)都有n個(gè)鄰接點(diǎn)。
圖1 超立方體示意
圖2 四維超立方體示意
在大規(guī)模衛(wèi)星編隊(duì)系統(tǒng)中,超立方體拓?fù)浣Y(jié)構(gòu)具有高度冗余通信鏈路和擴(kuò)展的能力。
1)容錯(cuò)性。在大規(guī)模的衛(wèi)星編隊(duì)中,每當(dāng)有節(jié)點(diǎn)衛(wèi)星或通信鏈路出現(xiàn)故障,就有可能會導(dǎo)致整個(gè)衛(wèi)星系統(tǒng)任務(wù)失敗。在n維超立方體拓?fù)浣Y(jié)構(gòu)中,網(wǎng)絡(luò)中任意兩個(gè)不同節(jié)點(diǎn)之間均有n條不相交的平行路徑。
2)擴(kuò)展性。例如兩個(gè)9維超立方體網(wǎng)絡(luò)W9之間僅通過增加一條鏈路,就可以形成10維超立方體網(wǎng)絡(luò)W10,可以通過低維超立方體網(wǎng)絡(luò)不斷組成更高維超立方體。因此可以通過節(jié)點(diǎn)衛(wèi)星構(gòu)建子超立方體網(wǎng)絡(luò),后續(xù)再逐級構(gòu)建不同等級規(guī)模的衛(wèi)星編隊(duì)網(wǎng)絡(luò),具有良好的嵌入性和擴(kuò)展性。
衛(wèi)星編隊(duì)的空間相對運(yùn)動(dòng)使用Hill坐標(biāo)系,如圖3所示,Ti表示第i顆衛(wèi)星的位置,定義x軸指向衛(wèi)星的運(yùn)動(dòng)方向,y軸垂直于軌道平面,z軸指向地心。經(jīng)過推導(dǎo)可以得到衛(wèi)星運(yùn)動(dòng)的C-W方程:
圖3 衛(wèi)星運(yùn)動(dòng)示意
(1)
式(1)易于求出近似解析解,得到衛(wèi)星相對運(yùn)動(dòng)軌跡,是本文構(gòu)型設(shè)計(jì)的基礎(chǔ)。通過設(shè)計(jì)合理初值,可得衛(wèi)星編隊(duì)的構(gòu)型,可應(yīng)用于圓軌道或近圓軌道,編隊(duì)半徑為幾百米到幾十千米的編隊(duì)半徑遠(yuǎn)小于軌道半徑的編隊(duì)。
式中:
大規(guī)模衛(wèi)星組網(wǎng)編隊(duì)控制的目的分為對編隊(duì)衛(wèi)星構(gòu)型整體相對于預(yù)期軌道的控制,以及組網(wǎng)編隊(duì)中各子衛(wèi)星的軌道保持。為了反映編隊(duì)整體的運(yùn)動(dòng)狀態(tài)和趨勢,保證編隊(duì)整體不會“ 漂移”,結(jié)合傳統(tǒng)多智能體控制中領(lǐng)航-跟隨者和虛擬結(jié)構(gòu)兩種思想,設(shè)計(jì)編隊(duì)“虛擬中心”去衡量編隊(duì)的整體狀態(tài),為基于ADDPG的控制策略設(shè)計(jì)奠定基礎(chǔ)。
在超立方體衛(wèi)星編隊(duì)中節(jié)點(diǎn)集V={υ1,…,υn}中每一個(gè)節(jié)點(diǎn)代表一顆小衛(wèi)星,根據(jù)一致性理論,多智能體衛(wèi)星編隊(duì)中節(jié)點(diǎn)數(shù)目有限,若其中任意互為鄰域節(jié)點(diǎn)的兩個(gè)節(jié)點(diǎn)信息達(dá)成一致,則多智能體衛(wèi)星編隊(duì)達(dá)成一致。信息一致性的過程具有空間Markov性,而Markov隨機(jī)場等同于Gibbs隨機(jī)場,故事件節(jié)點(diǎn)υ1取得狀態(tài)ηi的概率可寫為Gibbs分布:
式中:T是分布中熵的度量,在編隊(duì)系統(tǒng)中可用勢能的均方差表示編隊(duì)的失衡程度。
U(ηi)是一個(gè)能量函數(shù),定義為:
U(ηi)=D1(ηi)+∑D2(ηi,ηj)
式中:D1為單節(jié)點(diǎn)勢能函數(shù);D2為雙節(jié)點(diǎn)勢能函數(shù)。
D1(ηi)=(‖ηi-〈ηc〉i‖-dic)2
D2(ηi,ηj)=(‖ηi-ηj‖-dij)2
式中:dic為連通圖的直徑。根據(jù)平均場理論,某一特定節(jié)點(diǎn)受鄰域內(nèi)其他所有節(jié)點(diǎn)的影響,可以用一個(gè)平均作用近似獲取,則節(jié)點(diǎn)υ1及其鄰域的虛擬中心〈ηR〉i可以定義為:
如圖4所示,以4維超立方拓?fù)錇槔?16顆衛(wèi)星分為4個(gè)子方形編隊(duì),即圖中藍(lán)色方形。通過虛擬中心設(shè)計(jì)確定每個(gè)子編隊(duì)的虛擬中心的目標(biāo)點(diǎn)和路徑,其中每個(gè)藍(lán)色方形編隊(duì)的虛擬中心,即為藍(lán)色大方形的頂點(diǎn),此處不設(shè)置實(shí)際衛(wèi)星。4維20星超立方體衛(wèi)星編隊(duì)可以用于對地重點(diǎn)目標(biāo)高精度立體觀測、多個(gè)密集重點(diǎn)目標(biāo)多重觀測以及陸地海洋快速運(yùn)動(dòng)目標(biāo)的高精度識別確認(rèn)和預(yù)警。
圖4 超立方體拓?fù)浣Y(jié)構(gòu)編隊(duì)
設(shè)計(jì)好的衛(wèi)星編隊(duì)構(gòu)型會受到模型誤差、空間攝動(dòng)力以及隨機(jī)干擾等各種因素影響,要保證穩(wěn)定的構(gòu)型以順利完成任務(wù),需要進(jìn)行編隊(duì)控制使得編隊(duì)衛(wèi)星的狀態(tài)偏離保持在任務(wù)允許的誤差范圍內(nèi)。
DDPG 算法是一種融合了基于值迭代和策略迭代的深度強(qiáng)化學(xué)習(xí)算法[24]??梢葬槍θ我獯笮〉臓顟B(tài)空間和行為空間進(jìn)行最優(yōu)策略的學(xué)習(xí),在與環(huán)境的交互過程中,根據(jù)環(huán)境狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)得到最優(yōu)策略,使衛(wèi)星編隊(duì)具有更好的性能表現(xiàn)。
DDPG網(wǎng)絡(luò)架構(gòu)由在線動(dòng)作網(wǎng)絡(luò)、目標(biāo)動(dòng)作網(wǎng)絡(luò)、在線評價(jià)網(wǎng)絡(luò)、目標(biāo)評價(jià)網(wǎng)絡(luò)4個(gè)網(wǎng)絡(luò)組成。將策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)分別拷貝一份作為目標(biāo)網(wǎng)絡(luò),實(shí)時(shí)與環(huán)境交互的網(wǎng)絡(luò)稱為在線網(wǎng)絡(luò)?;贒DPG算法的編隊(duì)控制問題可以用(s,a,p,r)框架形式進(jìn)行表示。其中s為狀態(tài)集;a為動(dòng)作集,是編隊(duì)衛(wèi)星執(zhí)行機(jī)構(gòu)行動(dòng)空間的集合;p為狀態(tài)轉(zhuǎn)移概率;r為獎(jiǎng)勵(lì)函數(shù)。
狀態(tài)集s由編隊(duì)內(nèi)各衛(wèi)星的三軸方向的位置和速度組成。狀態(tài)空間s如下:
s={(ux,uy,uz)i,(vx,vy,vz)i}
(2)
動(dòng)作空間:衛(wèi)星的軌道控制通過裝在各衛(wèi)星上的軌道推力器提供沖量實(shí)現(xiàn)。
定義動(dòng)作空間a={ax,ay,az},其中
強(qiáng)化學(xué)習(xí)過程是智能體在與環(huán)境交互過程中獲得最大獎(jiǎng)勵(lì)的過程。滿足編隊(duì)構(gòu)型精度要求的基礎(chǔ)上考慮能耗。引入一致性協(xié)調(diào)控制的相關(guān)思想,將位置、速度誤差結(jié)合成為一致誤差,定義編隊(duì)綜合誤差為:
(3)
從航天器編隊(duì)的功能屬性本質(zhì)要求分析,其一方面應(yīng)滿足編隊(duì)的構(gòu)型任務(wù)要求,另一方面應(yīng)盡可能滿足構(gòu)型保持過程中的能耗。
獎(jiǎng)勵(lì)函數(shù)是各編隊(duì)衛(wèi)星在環(huán)境中執(zhí)行動(dòng)作得到的獎(jiǎng)懲反饋信號,獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)如下:
r(s,a)=∑γ1ei+∑γ2ai
(4)
式中:γi(i=1,2)為各成分在獎(jiǎng)勵(lì)函數(shù)中的權(quán)重;ei為編隊(duì)綜合誤差(負(fù));ai為當(dāng)前狀態(tài)下采取的行動(dòng),即衛(wèi)星控制力。關(guān)于γi(i=1,2)的選取參考如下。
γ1:訓(xùn)練首先要保證編隊(duì)的整體期望構(gòu)型和個(gè)體期望狀態(tài),γ1選取比較小的數(shù)值,當(dāng)訓(xùn)練結(jié)果保證編隊(duì)精度后可以適當(dāng)增大取值。
γ2:類似終端獎(jiǎng)勵(lì),初始可以設(shè)置較大的值,參數(shù)值過大可能無法到達(dá)控制目標(biāo),參數(shù)取值過小有可能導(dǎo)致控制能耗過高。
在DDPG中,每個(gè)狀態(tài)-動(dòng)作對都有相對應(yīng)的一個(gè)Q值,通過反復(fù)迭代學(xué)習(xí)計(jì)算選擇執(zhí)行狀態(tài)對應(yīng)的最大Q值下的動(dòng)作,并獲得按該行動(dòng)策略執(zhí)行下的回報(bào)值,不斷嘗試各狀態(tài)可能執(zhí)行的動(dòng)作,使Q值不斷趨向于最優(yōu)。要取得較高的回報(bào),行動(dòng)策略應(yīng)按最大Q值所對應(yīng)的動(dòng)作執(zhí)行,然而,當(dāng)算法處于初期,在不斷學(xué)習(xí)迭代的過程中,Q值存在一定波動(dòng),不能完全精準(zhǔn)地評估狀態(tài)-動(dòng)作對的回報(bào)。當(dāng)算法處于學(xué)習(xí)中期階段時(shí),完全執(zhí)行最高Q值對應(yīng)的動(dòng)作,即算法一直處于擴(kuò)張狀態(tài),可能使得算法陷入局部最優(yōu)。探索是尋找并執(zhí)行即使當(dāng)前評價(jià)不是最優(yōu),但從長期來看回報(bào)最大的動(dòng)作,可以給出幫助算法跳出局部最優(yōu)的策略,然而如果算法一直處于探索狀態(tài),將會大幅降低系統(tǒng)的學(xué)習(xí)效率。
為提高DDPG的學(xué)習(xí)效率,本文提出ε-吸引策略,采用ε-attraction動(dòng)作選擇策略平衡探索與擴(kuò)張。吸引策略,是指編隊(duì)內(nèi)衛(wèi)星會被精度比它高的其他衛(wèi)星吸引,模仿精度比他優(yōu)異的其他衛(wèi)星的狀態(tài)和動(dòng)作,并參考其狀態(tài)更新自己的動(dòng)作。
考慮隨著衛(wèi)星i距離衛(wèi)星j越遠(yuǎn),其面對的環(huán)境對衛(wèi)星j的參考性越弱,定義ψij為編隊(duì)衛(wèi)星i與衛(wèi)星j的相對距離,則衛(wèi)星i與衛(wèi)星j的吸引力βij(ψij)表示為:
(5)
式中:β0為最大吸引力,通常取β0=1;ζ∈[0.01,100]為吸引系數(shù),標(biāo)志吸引力變化。
ADDPG充分融入已學(xué)習(xí)信息進(jìn)行探索,通過引入探索率ε使系統(tǒng)以概率ε進(jìn)行探索,以1-ε選擇當(dāng)前Q值最高對應(yīng)的動(dòng)作。
當(dāng)編隊(duì)衛(wèi)星以ε的概率從動(dòng)作集合選擇動(dòng)作時(shí),衛(wèi)星參考優(yōu)異的編隊(duì)衛(wèi)星的狀態(tài)信息和選擇動(dòng)作,而不是盲目地隨機(jī)選擇。ε-attraction動(dòng)作策略a*表示為:
(6)
式中:?為常數(shù),一般取?∈[0,1];arg maxQ(Q(s,a′))為狀態(tài)s下選擇最大Q值的動(dòng)作;ζi為高斯分布的隨機(jī)數(shù);p為探索擴(kuò)張概率,p∈[0,1]。
采用ADDPG 算法實(shí)現(xiàn)超立方體衛(wèi)星編隊(duì)控制,編隊(duì)衛(wèi)星在與環(huán)境的不斷交互控制中學(xué)習(xí)控制策略,更新網(wǎng)絡(luò)參數(shù)。同時(shí)根據(jù)ε-attraction動(dòng)作選擇策略調(diào)整動(dòng)作a,得到回報(bào)函數(shù)值r和下一時(shí)刻系統(tǒng)狀態(tài)s′。交互過程中所產(chǎn)生的信息(s,a,r,s′)均被保持到經(jīng)驗(yàn)池中。
其中,在線動(dòng)作網(wǎng)絡(luò)更新策略梯度為:
?θμJ≈Est~ρβ{?θμQ(s,a∣θQ)∣s=st,a=μ(st∣θμ)}=
Est~ρβ{?aQ(s,a∣θQ)∣s=st,a=μ(st)·
?θμμ(s∣θμ)∣s=st}
式中:?θμQ(s,a∣θQ)∣s=st,a=μ(st∣θμ)為策略網(wǎng)絡(luò)對動(dòng)作a的梯度值;θμ為在線策略網(wǎng)絡(luò)的參數(shù)。在線評價(jià)網(wǎng)絡(luò)采用最小化損失函數(shù)完成更新過程,損失函數(shù)L定義為:
式中:yi=ri+γiQ′(si+1,μ′(si+1|θμ′)θQ′)。
在線網(wǎng)絡(luò)定期將學(xué)習(xí)好的權(quán)重參數(shù)復(fù)制給對應(yīng)的目標(biāo)網(wǎng)絡(luò),通過軟更新的方式更新目標(biāo)網(wǎng)絡(luò)參數(shù)。
目標(biāo)動(dòng)作網(wǎng)絡(luò)為:
θμ′=λθμ+(1-λ)θμ′
式中:θμ′為目標(biāo)策略網(wǎng)絡(luò)的參數(shù);λ為軟更新率。
目標(biāo)評價(jià)網(wǎng)絡(luò)更新方式為:
θQ′=λθQ+(1-λ)θQ′
式中:θQ為在線價(jià)值網(wǎng)絡(luò)的參數(shù);θQ′為目標(biāo)價(jià)值網(wǎng)絡(luò)的參數(shù);式中λ為遠(yuǎn)小于1的參數(shù),由于是采取“軟更新”的方式,可以實(shí)現(xiàn)目標(biāo)網(wǎng)絡(luò)的參數(shù)循序更新,增強(qiáng)網(wǎng)絡(luò)的穩(wěn)定性,保證ADDPG 算法穩(wěn)定性提升。
編隊(duì)衛(wèi)星參數(shù):長20cm、質(zhì)量1kg的立方體衛(wèi)星,仿真實(shí)飛環(huán)境考慮地球扁率、大氣阻力、太陽光壓、日月引力等攝動(dòng)干擾。編隊(duì)構(gòu)型整體在太陽同步軌道上運(yùn)動(dòng),利用編隊(duì)間的穩(wěn)定幾何關(guān)系,實(shí)現(xiàn)高精度對地觀測等任務(wù)。
衛(wèi)星初始位置的軌道根數(shù)分別為:半長軸7078.137km,偏心率e=0.0010441,軌道傾角i=98.1880°,近地點(diǎn)幅角ω=90°,升交點(diǎn)赤經(jīng)Ω=0°。
編隊(duì)中內(nèi)部小方形邊長1000m,即編隊(duì)半徑707m;外部子編隊(duì)虛擬中心應(yīng)處于3000m邊長方形上,即編隊(duì)半徑2121m;外部子編隊(duì)為邊長1000m方形,即相對于子編隊(duì)自身虛擬中心編隊(duì)半徑707m;衛(wèi)星編隊(duì)構(gòu)型同圖4,ADDPG算法參數(shù)設(shè)置見表1。
表1 ADDPG算法參數(shù)設(shè)置
20顆衛(wèi)星進(jìn)行組網(wǎng)和編隊(duì)保持的位置誤差變化、速度誤差變化以及控制加速度分別如圖5~9所示,圖5和圖6分別為采用ADDPG方法編隊(duì)中4個(gè)子編隊(duì)中各衛(wèi)星的位置誤差以及內(nèi)部正方形編隊(duì)和虛擬中心的速度誤差,圖7和圖8分別為采用4個(gè)子編隊(duì)中各衛(wèi)星的速度誤差以及內(nèi)部正方形編隊(duì)和虛擬中心的速度誤差。圖中藍(lán)、紅、橙、紫線分別代表該子編隊(duì)內(nèi)序號1到4的組網(wǎng)衛(wèi)星狀態(tài)信息。圖10描述了20顆組網(wǎng)衛(wèi)星的三維相對位置。
圖5 各子編隊(duì)內(nèi)各組網(wǎng)衛(wèi)星位置誤差
圖6 內(nèi)部正方形編隊(duì)及虛擬中心位置誤差
圖7 子編隊(duì)內(nèi)各組網(wǎng)衛(wèi)星速度誤差
圖9 各組網(wǎng)編隊(duì)控制加速度
圖10 超立方體組網(wǎng)拓?fù)浣Y(jié)構(gòu)編隊(duì)相對運(yùn)動(dòng)三維圖
在使用本文提出的ADDPG策略下,編隊(duì)能夠在1500s以內(nèi)的時(shí)間完成高精度重構(gòu);在軌道保持階段內(nèi)部正方形編隊(duì)位置誤差可保持在0.3m以下,外圍各子編隊(duì)位置誤差可保持在0.8m以下;內(nèi)部正方形編隊(duì)速度誤差可保持在0.0015m/s以下,外圍各子編隊(duì)速度誤差可保持在0.004m/s以下,能夠較精確地完成控制任務(wù)。
將本文提出ADDPG算法和傳統(tǒng)DDPG算法進(jìn)行比較,結(jié)果如圖11所示,圖中紅線表示基于DDPG算法得到的各編隊(duì)以及虛擬中心的綜合位置誤差,藍(lán)線表示基于ADDPG算法得到的各編隊(duì)以及虛擬中心的綜合位置誤差。
圖11 DDPG和ADDPG對比
從圖11可以清晰看到,ADDPG算法能較快地降低誤差,ADDPG平均耗時(shí)1073s可達(dá)到收斂,DDPG算法平均耗時(shí)1271,使用ADDPG算法可以提高收斂速度14.79%。
同時(shí),為進(jìn)一步驗(yàn)證算法的有效性,采用本文方法和近兩年在衛(wèi)星編隊(duì)方面國際上較權(quán)威的LMM[25]、RFFC[26]方法進(jìn)行對比。為了公平方便地對比,相關(guān)主要參數(shù)與對應(yīng)文獻(xiàn)一致,結(jié)果如圖12所示。
圖12 誤差對比
圖12中藍(lán)線、紅線和青色曲線分別代表采用本文方法、 LMM方法、RFFC算法得到各編隊(duì)以及虛擬中心誤差。從圖12可以看出,3種方法最終都能達(dá)到較高精度的穩(wěn)定控制,其中ADDPG算法實(shí)現(xiàn)了最快收斂穩(wěn)定,RFFC次之,LMM收斂較慢,RFFC雖然在子編隊(duì)控制中較快達(dá)到了較高精度的比編隊(duì)構(gòu)型,但由于其設(shè)計(jì)的非線性控制器增強(qiáng)了對未知不確定性的估計(jì)控制,導(dǎo)致系統(tǒng)震蕩較大,收斂時(shí)間較慢,但收斂后能達(dá)到較高的控制精度。
表2反映了3種策略條件下超立方體衛(wèi)星編隊(duì)內(nèi)各衛(wèi)星平均位置誤差及衛(wèi)星能耗對比。
表2 超立方體衛(wèi)星編隊(duì)保持階段仿真結(jié)果
由表2可以看出,采用基于ADDPG策略的衛(wèi)星編隊(duì)管理策略相比采用LMM方法、RFFC算法通過和環(huán)境交互學(xué)習(xí),不斷優(yōu)化,平均誤差相比LMM和RFFC分別減少10.43%,5.09%,同時(shí)采用ADDPG算法,能耗減少32.56%和7.3%,可實(shí)現(xiàn)在高精度編隊(duì)位置保持的同時(shí)減少控制消耗,提高編隊(duì)在軌壽命。
本文針對大規(guī)模衛(wèi)星編隊(duì)控制,設(shè)計(jì)了基于ε-attraction動(dòng)作選擇的DDPG策略應(yīng)用于衛(wèi)星編隊(duì)協(xié)同控制,主要結(jié)論如下:
1)超立方體拓?fù)浣Y(jié)構(gòu)對稱、構(gòu)型簡單,良好的連通性和很強(qiáng)的擴(kuò)展性適合大規(guī)模衛(wèi)星編隊(duì)系統(tǒng)組網(wǎng)設(shè)計(jì)。
2)通過建立編隊(duì)動(dòng)力學(xué)模型和超立方體拓?fù)鋱D論理論,通過基于虛擬中心建立了編隊(duì)整體漂移模型,有效實(shí)現(xiàn)了對衛(wèi)星編隊(duì)狀態(tài)的衡量。
3)基于虛擬中心的獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì),既考慮了編隊(duì)整體漂移控制,又考慮了各子編隊(duì)衛(wèi)星個(gè)體控制,將個(gè)體和整體進(jìn)行協(xié)調(diào)控制,使算法規(guī)劃出的編隊(duì)綜合代價(jià)最小。
4)基于ε-吸引策略在平衡算法探索和擴(kuò)張的同時(shí)通過參考其他優(yōu)異的編隊(duì)衛(wèi)星的狀態(tài)信息和選擇動(dòng)作,降低學(xué)習(xí)模型初期探索過程中的盲目試錯(cuò),提高了算法的收斂速度。以20星組網(wǎng)編隊(duì)為例,仿真結(jié)果表明ADDPG策略可以用更低的能耗達(dá)到更高的精度,平均誤差相比LMM和RFFC可以減少10.43%,5.09%,同時(shí)能耗可以減少32.56%和7.3%,算法在大規(guī)模衛(wèi)星集群的智能控制發(fā)展方向上具有較大的應(yīng)用前景。