席超,楊博,王記榮,*,李公,朱睿杰,楊肖
1.航天恒星科技有限公司,西安 710000 2.鄭州大學(xué),鄭州 450001
衛(wèi)星通信系統(tǒng)正朝著低軌道、大規(guī)模、星座組網(wǎng)和多載荷多功能一體化趨勢發(fā)展。以美國SpaceX公司為代表的技術(shù)先驅(qū)已率先全面啟動(dòng)天基互聯(lián)網(wǎng)建設(shè)。全球計(jì)劃部署巨型低軌星座數(shù)量多達(dá)18個(gè)以上。全球范圍聚焦、聚力、搶占低軌星座市場。中國也正在規(guī)劃、部署和建設(shè)相應(yīng)的低軌巨型星座系統(tǒng)。航天測控技術(shù)是一種對航天飛行任務(wù)目標(biāo)跟蹤測量和控制的綜合技術(shù),通過網(wǎng)絡(luò)通信技術(shù)完成運(yùn)載火箭和衛(wèi)星等航天器的跟蹤測軌、遙測信號(hào)接收處理、遙控信號(hào)發(fā)送等任務(wù),巨型星座測控屬于航天測控范疇,面向的航天器是低軌巨型星座中的衛(wèi)星,是實(shí)現(xiàn)低軌星座系統(tǒng)可靠運(yùn)轉(zhuǎn)和有序工作的關(guān)鍵。巨型星座測控涉及衛(wèi)星全生命周期管控,管控節(jié)點(diǎn)多,周期長,對象廣,階段多,過程頻繁復(fù)雜,同時(shí)管控效率要求高,現(xiàn)有的測控模式和設(shè)施無法滿足供需平衡。要實(shí)現(xiàn)對低軌巨型星座系統(tǒng)高效運(yùn)維管控,必須要擺脫對傳統(tǒng)人工運(yùn)維的高依賴,深化人工智能等新技術(shù)與測控技術(shù)多點(diǎn)融合,突破巨型星座系統(tǒng)測運(yùn)控主要環(huán)節(jié)的高效運(yùn)維管控技術(shù)。低軌星座衛(wèi)星和地面測控站相對高動(dòng)態(tài)運(yùn)動(dòng),星地測控窗口動(dòng)態(tài)多變,且存在單星多站和單站多星測控窗口規(guī)劃選擇問題。星地測控鏈路規(guī)劃是執(zhí)行對衛(wèi)星跟蹤測軌、遙測信號(hào)接收和遙控信號(hào)發(fā)送的關(guān)鍵和前提[1-3]。國內(nèi)外對低軌巨型星座測運(yùn)控相關(guān)研究較少。文獻(xiàn)[4]構(gòu)建了上行注入任務(wù)調(diào)度問題的多目標(biāo)混合整數(shù)規(guī)劃模型,并設(shè)計(jì)了基于規(guī)則的啟發(fā)式算法進(jìn)行求解;文獻(xiàn)[5]提出了基于改進(jìn)蟻群算法設(shè)計(jì)的敏捷衛(wèi)星調(diào)度方法;文獻(xiàn)[6]面向具有星間鏈路的衛(wèi)星導(dǎo)航系統(tǒng)設(shè)計(jì)了啟發(fā)式規(guī)劃調(diào)度方法;文獻(xiàn)[7]設(shè)計(jì)了基于遺傳算法的規(guī)劃方法,考慮了最大任務(wù)數(shù)和最小切換次數(shù);文獻(xiàn)[8]基于拉格朗日啟發(fā)式方法設(shè)計(jì)了規(guī)劃算法;文獻(xiàn)[9]提出了改進(jìn)的遺傳算法。
上述方法大多采用傳統(tǒng)的啟發(fā)式方法,并且面向的是小規(guī)模的衛(wèi)星系統(tǒng),對測控站的資源也考慮有限。當(dāng)應(yīng)用在更為復(fù)雜的巨型星座系統(tǒng)中時(shí),這些方法的性能和魯棒性等都面臨挑戰(zhàn)。對于復(fù)雜的序列決策型問題,深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)展示出了強(qiáng)大的決策優(yōu)化能力。通過智能體對系統(tǒng)環(huán)境進(jìn)行“探索與評(píng)價(jià)”,利用深度學(xué)習(xí)的強(qiáng)大感知能力,構(gòu)建深度神經(jīng)網(wǎng)絡(luò)模型對復(fù)雜環(huán)境進(jìn)行特征提取,并結(jié)合強(qiáng)化學(xué)習(xí)的決策能力做出動(dòng)作選擇,并根據(jù)獎(jiǎng)懲機(jī)制進(jìn)行策略優(yōu)化,現(xiàn)已成為解決復(fù)雜系統(tǒng)的感知-決策問題的重要手段[10]。本文結(jié)合衛(wèi)星測運(yùn)控工程經(jīng)驗(yàn)和對低軌星座系統(tǒng)深入研究,將深度Q學(xué)習(xí)網(wǎng)絡(luò)(deep Q-network,DQN)強(qiáng)化學(xué)習(xí)算法[11-15]技術(shù)與測控技術(shù)進(jìn)行了融合,提出了一種面向未來巨型星座的高效星地測控鏈路組網(wǎng)規(guī)劃算法,可為中國星座系統(tǒng)的建設(shè)提供相應(yīng)的技術(shù)解決方案。
DQN算法的網(wǎng)絡(luò)框架如圖1所示,采用了雙神經(jīng)網(wǎng)絡(luò)架構(gòu),一個(gè)為評(píng)估網(wǎng)絡(luò),用來計(jì)算Q值,另一個(gè)為目標(biāo)網(wǎng)絡(luò),用來計(jì)算目標(biāo)Q值。兩個(gè)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和初始權(quán)重值都是一樣的,區(qū)別在于每次迭代訓(xùn)練中,評(píng)估網(wǎng)絡(luò)每次都更新參數(shù),而目標(biāo)網(wǎng)絡(luò)則隔一段時(shí)間才會(huì)更新參數(shù)。由于模型參數(shù)的頻繁更新,容易出現(xiàn)震蕩發(fā)散、難以收斂的現(xiàn)象,而目標(biāo)神經(jīng)網(wǎng)絡(luò)的引入可以輔助穩(wěn)定目標(biāo)值,降低當(dāng)前Q值和目標(biāo)Q值的相關(guān)性,加快模型收斂,提升算法的穩(wěn)定性。DQN的損失函數(shù)表示為目標(biāo)Q值和當(dāng)前Q值的均方差,智能體會(huì)使用梯度下降的方法來更新參數(shù),損失函數(shù)的定義如下:
圖1 DQN算法框架Fig.1 Framework diagram of DQN algorithm
Loss(θ)=E[(QTarget-Q(s,a;θ))2]
(1)
(2)
式中:θ為網(wǎng)絡(luò)參數(shù);γ為折扣因子;r為獎(jiǎng)勵(lì)值;s為當(dāng)前環(huán)境狀態(tài);a為狀態(tài)s下所采取的動(dòng)作;s′為智能體做出動(dòng)作更新后的環(huán)境狀態(tài);a′為狀態(tài)s′下所采取的動(dòng)作。
同時(shí),DQN還引入了經(jīng)驗(yàn)池的概念,用來存放環(huán)境、狀態(tài)和獎(jiǎng)勵(lì)的相關(guān)數(shù)據(jù),即(s,a,r,s′),在智能體學(xué)習(xí)過程中會(huì)從中抽取批次數(shù)據(jù)訓(xùn)練評(píng)估網(wǎng)絡(luò)。這一機(jī)制可以有效地切斷輸入樣本之間的相關(guān)性,同時(shí)也提升樣本數(shù)據(jù)的利用率。
為了更好地解決大規(guī)模星座星地傳輸規(guī)劃問題,將問題解耦到每個(gè)離散時(shí)間片內(nèi)的星地規(guī)劃問題。在每個(gè)時(shí)間片內(nèi),每個(gè)測控站的初始狀態(tài)都是一致的,都有相同的天線資源,但在不同的時(shí)間片內(nèi),測控站的可見衛(wèi)星序列是不一致的,因此,在進(jìn)行環(huán)境狀態(tài)設(shè)計(jì)中,重點(diǎn)考慮衛(wèi)星的狀態(tài)。對于同一時(shí)間片內(nèi),如果一顆衛(wèi)星被多個(gè)測控站可見,該衛(wèi)星記為競爭衛(wèi)星,對于某個(gè)測控站,衛(wèi)星的狀態(tài)情況如表1所示。
表1 環(huán)境狀態(tài)描述Table 1 Environment status description
State={F(s1),F(s2),…,F(sl),F(s1′),
F(s2′),…,F(sL-l′)}
(3)
式中:F(s1)表示可視衛(wèi)星s1的狀態(tài),F(s1)∈[0,5],可視衛(wèi)星序列長度為l;F(s1′)表示填充衛(wèi)星s1′的狀態(tài),F(s1′)=0,填充衛(wèi)星序列長度為L-l。
DQN智能體在進(jìn)行動(dòng)作選擇時(shí),采用了“探索與利用”的思想,即ε-貪心策略。傳統(tǒng)的貪婪策略只會(huì)采用具有最大Q值的動(dòng)作a=argmaxaiQ(s,ai),這種策略會(huì)導(dǎo)致智能體無法對環(huán)境信息進(jìn)行更多的探索,容易陷入局部最優(yōu)解。而ε-貪心策略是以ε的概率隨機(jī)選取動(dòng)作,以1-ε的概率選擇具有最大Q值的動(dòng)作,這樣就增加了智能體對環(huán)境信息有更為全面的認(rèn)知與掌握,不易局限于已知的局部信息之中,從而可以積累更多的經(jīng)驗(yàn),并逐步優(yōu)化策略以獲得最大化的獎(jiǎng)勵(lì)值。
在時(shí)間片tk,測控站gi∈G的動(dòng)作空間大小與環(huán)境狀態(tài)空間一致,定義如下:
Action={s1,s2,…,sl,s1′,s2′,…,sL-l′}
(4)
獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)影響著智能體的動(dòng)作選擇和策略優(yōu)化。從提升資源利用率和減少天線切換方面考慮,智能體應(yīng)當(dāng)盡可能地多選擇非競爭衛(wèi)星和在上一個(gè)時(shí)間片就連接到該測控站的衛(wèi)星。因此,選中狀態(tài)5到狀態(tài)2的衛(wèi)星對應(yīng)的策略優(yōu)級(jí)依次下降,而選中狀態(tài)0和狀態(tài)1的衛(wèi)星均屬于最差策略,因?yàn)檫@兩種狀態(tài)下的衛(wèi)星都是無法建立星地鏈路。
基于上述分析,獎(jiǎng)勵(lì)函數(shù)的定義如下:
(5)
式中:R為基本獎(jiǎng)勵(lì),設(shè)為20;PW為懲罰權(quán)重,設(shè)為-5;F(s)表示選擇的衛(wèi)星s的狀態(tài)。選擇的衛(wèi)星狀態(tài)級(jí)別越低時(shí),所獲得的獎(jiǎng)勵(lì)也越低,但對于選擇狀態(tài)0和狀態(tài)1的衛(wèi)星則直接給予負(fù)獎(jiǎng)勵(lì)值,因?yàn)檫@兩種狀態(tài)下的衛(wèi)星是無法建立連接的。
本算法流程如下,對于每個(gè)時(shí)間片,智能體依次為各個(gè)測控站進(jìn)行衛(wèi)星分配。
1 初始化評(píng)估網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)權(quán)重參數(shù)
2 while iter≤最大迭代次數(shù):
3 fortkin iter≤:
4 forgiinG={g1,g2,…,gM}:
6 根據(jù)s,評(píng)估網(wǎng)絡(luò)生成動(dòng)作空間對應(yīng)Q值序列;
7 forbwinBi={b1,b2,…,bW}:
8 根據(jù)Q值序列和ε-貪心策略選擇動(dòng)作a,為天線bw分配衛(wèi)星;
9 計(jì)算獎(jiǎng)勵(lì)值r,環(huán)境狀態(tài)更新為s′;
10 將(s,a,r,s′)存進(jìn)經(jīng)驗(yàn)池,記錄分配方案;
11 learn_count += 1;
12 if learn_count % 學(xué)習(xí)步長 == 0:
13 從經(jīng)驗(yàn)池中抽取批次樣本進(jìn)行網(wǎng)絡(luò)訓(xùn)練;
14 if update_count % 更新步長 == 0:
15 將評(píng)估網(wǎng)絡(luò)參數(shù)復(fù)制給目標(biāo)網(wǎng)絡(luò);
16 目標(biāo)網(wǎng)絡(luò)計(jì)算出目標(biāo)Q值;
17 計(jì)算損失函數(shù),采用梯度下降更新網(wǎng)絡(luò);
18 update_count += 1;
19 計(jì)算資源利用率、天線切換次數(shù);
20 end while;
21 輸出最優(yōu)分配方案;
在本文的仿真場景中,空間段是由768顆衛(wèi)星構(gòu)成的大規(guī)模星座網(wǎng)絡(luò),采用極軌星座構(gòu)型,共有16個(gè)軌道平面,每個(gè)軌道分布48顆衛(wèi)星節(jié)點(diǎn),軌道高度為1200km,軌道傾角為86°,軌道偏心率為0。地面段由23個(gè)測控站組成,隨機(jī)分布在全球的各個(gè)大洲,每個(gè)測控站配有8根天線,天線的最低仰角為10°。規(guī)劃周期時(shí)長設(shè)為24h,劃分成1440個(gè)時(shí)間片,每個(gè)時(shí)間片為60s。
DQN算法所使用的評(píng)估網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)架構(gòu)一致,均設(shè)置3層隱藏層,各層的神經(jīng)單元數(shù)量依次為1024、512和256,采用sigmoid激活函數(shù)。智能體的學(xué)習(xí)率設(shè)為0.01,學(xué)習(xí)步長為10,參數(shù)更新步長為200,經(jīng)驗(yàn)池大小設(shè)為500,采樣大小設(shè)為100,獎(jiǎng)勵(lì)折扣因子設(shè)為0.9,總的訓(xùn)練迭代次數(shù)為10000,采用24h的歷史TLE數(shù)據(jù)計(jì)算出的可視時(shí)間窗口進(jìn)行訓(xùn)練。
圖2~4展示了DQN算法在訓(xùn)練過程中的測控站天線的平均利用率、平均切換次數(shù)和智能體獲取的累計(jì)獎(jiǎng)勵(lì)值的變化情況??梢钥闯鲋悄荏w通過不斷學(xué)習(xí)與優(yōu)化策略,獲得的獎(jiǎng)勵(lì)值不斷提高,可以將測控站的天線利用率提升到98%以上,并有效降低天線的切換次數(shù)。
圖2 測控站天線的平均資源利用率Fig.2 The average resource utilization of the antenna in TT&C station
圖3 測控站天線的平均切換次數(shù)Fig.3 The average switching times of the antenna in TT&C station
圖4 DQN智能體獲取的獎(jiǎng)勵(lì)值Fig.4 Reward values obtained by the DQN agent
圖5和圖6為訓(xùn)練好的DQN算法模型和遺傳算法、隨機(jī)算法對未來5天內(nèi)的星地鏈路規(guī)劃方案的性能比較結(jié)果,表2為DQN算法和遺傳算法方案生成的耗時(shí)對比。從結(jié)果中可以看出DQN算法具有很好的魯棒性和高效性。
圖5 DQN算法、遺傳算法和隨機(jī)算法的測控站平均資源利用率對比結(jié)果Fig.5 Comparison results of average resource utilization of TT&C stations by DQN algorithm,genetic algorithm and random algorithm
圖6 DQN算法、遺傳算法和隨機(jī)算法的測控站平均切換次數(shù)對比結(jié)果Fig.6 Comparison results of average switching times of TT&C stations of DQN algorithm,genetic algorithm and random algorithm
表2 DQN、遺傳算法和隨機(jī)算法方案生成耗時(shí)對比Table 2 Comparison of generation time of DQN algorithm,genetic algorithm and random algorithm
本文針對巨型星座系統(tǒng)中星地測控鏈路規(guī)劃這一關(guān)鍵性問題,引入深度強(qiáng)化學(xué)習(xí)方法DQN進(jìn)行策略優(yōu)化。相比于傳統(tǒng)的啟發(fā)式算法,本文設(shè)計(jì)的算法對巨型星座有很強(qiáng)的適應(yīng)性,利用智能體與環(huán)境進(jìn)行信息交互,結(jié)合獎(jiǎng)懲機(jī)制自動(dòng)優(yōu)化衛(wèi)星選擇策略。仿真實(shí)驗(yàn)表明,該算法可以將測控站天線資源率提升到98%以上,同時(shí)有效減少天線的切換次數(shù)。此外,訓(xùn)練好的模型可以根據(jù)未來時(shí)刻的星地可視窗口,在30s內(nèi)快速生成規(guī)劃方案,效率遠(yuǎn)遠(yuǎn)高于傳統(tǒng)的蟻群算法。