邱鵬鵬 張易誠 曹海濤 鄭君錚
關(guān)鍵詞:變軌控制;相對運動;目標軌道;深度強化學(xué)習(xí)
中圖分類號:TP183 文獻標識碼:A 文章編號:1006-8228(2023)11-90-04
0 引言
近年來,隨著航天技術(shù)的發(fā)展,航天器相對距離控制已成為一個活躍的研究領(lǐng)域,被廣泛應(yīng)用于衛(wèi)星在軌維護、衛(wèi)星組裝[1],以及空間碎片捕獲[2]等多個場景,航天器相對距離控制要求衛(wèi)星能夠自主、安全地接近后者到達目標位置。通常,相對距離控制可分為近程控制和遠程控制。近程控制一般要求探索衛(wèi)星從幾十公里內(nèi)直接開始搜索目標[3],而遠程控制一般需要協(xié)調(diào)地面站,獲取目標位置,從而引導(dǎo)探索衛(wèi)星變軌到近程軌道。解決遠程相對距離控制問題需要制定合理的變軌策略,然而這往往面臨著許多困難。由于空間飛行環(huán)境多變且復(fù)雜,因此任務(wù)實現(xiàn)難度異常艱巨,代價巨大。傳統(tǒng)的基于優(yōu)化控制的方法,其有效性取決于動態(tài)模型的準確性,如果因環(huán)境不穩(wěn)定等因素導(dǎo)致的引導(dǎo)模型的精準度不足,那么飛行任務(wù)則極易失敗。因此,需要使用健壯且具有較強自適應(yīng)能力的策略以應(yīng)對各類空間飛行問題。
深度強化學(xué)習(xí)(DRL)是機器學(xué)習(xí)領(lǐng)域的一個熱門研究課題。智能體根據(jù)自身狀態(tài)及其他已知信息做出相應(yīng)的動作,通過與環(huán)境的交互作用來獲取獎勵,不斷優(yōu)化策略指引智能體向獎勵高的方向行動,直到獲得最優(yōu)策略。因此,一方面DRL 代理能夠降低計算頻率,這使得其廣泛應(yīng)用于具有有限計算能力的衛(wèi)星上;另一方面通過減少代理自主性對優(yōu)化方法的依賴從而降低行為間相關(guān)聯(lián)性。
針對以上方法及問題,提出一種基于深度強化學(xué)習(xí)雙延遲深度確定性策略梯度算法(Twin DelayedDeep Deterministic Policy Gradient Algorithm,TD3),從而解決在復(fù)雜多變的連續(xù)空間環(huán)境下的變軌任務(wù)。具體來說,通過引入合適的數(shù)據(jù)處理方式、設(shè)置合理的獎勵函數(shù),令衛(wèi)星與環(huán)境不斷進行交互,進而引導(dǎo)衛(wèi)星做出點火決策的同時更新策略,并最終從高軌道逐步變軌到達目標軌道附近。最后,利用可視化方法驗證TD3 算法解決衛(wèi)星相對距離控制問題的有效性。本文的貢獻是:①考慮衛(wèi)星真實情況下間斷性點火特性,解決了在算法控制與狀態(tài)變化不同頻率狀況下的衛(wèi)星橢圓軌道變軌控制;②引入軌道動力學(xué)模型,采用動態(tài)Z-score 數(shù)據(jù)處理方法,提出了一種TD3 控制算法,,有效地解決了高軌道、高維度下衛(wèi)星變軌問題。
1 背景及現(xiàn)狀
隨著航天技術(shù)的快速發(fā)展,衛(wèi)星變軌控制引起越來越多的學(xué)者關(guān)注,這使得變軌飛行可行性和關(guān)鍵性技術(shù)被充分挖掘,許多方案都取得了良好的效果。
衛(wèi)星變軌到達目標軌道的問題,本質(zhì)上是一種相對距離協(xié)調(diào)控制問題,國際上目前常見的衛(wèi)星相對距離飛行控制方法包括系繩法、庫侖力法[4]、人工勢函數(shù)法[5]、李亞普諾夫函數(shù)法等。在庫侖力衛(wèi)星控制中,采用一定的技術(shù)手段使得衛(wèi)星帶電(正電荷或負電荷),通過控制衛(wèi)星帶電量來控制衛(wèi)星受力大小及方向,進而實現(xiàn)衛(wèi)星變軌到達目標軌道。庫侖力法解決了衛(wèi)星近距離相對距離控制時設(shè)定衛(wèi)星同性電荷從而避免發(fā)生碰撞。然而,庫侖力法受到衛(wèi)星間的間距限制,它無法支持遠程衛(wèi)星引導(dǎo)控制。
深度強化學(xué)習(xí)在解決復(fù)雜的非線性控制問題方面具有很大的優(yōu)勢,因此常被用于處理航天領(lǐng)域的相關(guān)研究。為了實現(xiàn)衛(wèi)星的交會對接,作者引入近端策略優(yōu)化算法(Proximal Policy Optimization,PPO),設(shè)定防碰撞區(qū)域以及安全區(qū)域,結(jié)合相對軌道的動力學(xué)方法[6]。為了解決近距離的航天器對接問題,介紹了一種能夠在真實航天器平臺上使用的基于分布式深度確定性策略梯度的算法[7] (Distributed DistributionalDeep Deterministic Policy Gradient,D4PG),用于擬合出最佳制導(dǎo)軌跡從而反饋到常規(guī)控制器上以進行衛(wèi)星軌跡跟蹤。然而,上述基于深度強化學(xué)習(xí)的衛(wèi)星變軌控制策略大都基于衛(wèi)星間距僅為幾千米的范圍,目前針對衛(wèi)星遠程相對控制的文章少之又少。因此,本文將采用TD3 算法來解決衛(wèi)星在橢圓軌道變軌下到達目標軌道問題。
4 仿真實驗及結(jié)果分析
4.1 實驗環(huán)境及參數(shù)
實驗中,衛(wèi)星和地球的半徑分別90km、6371km,質(zhì)量分別為4474kg、5.965E24kg。
衛(wèi)星軌道根數(shù)半長軸、偏心率、軌道傾角、近地點幅角、升交點赤經(jīng)取值范圍分別為[6.371E3,3.6E7]、[0,1]、[0,π]、[0,π]、[0,2π]。初始化目標軌道和探索衛(wèi)星的軌道六根數(shù)如表1 所示。設(shè)定衛(wèi)星初始真近點角為0,則可以計算出衛(wèi)星的初始位置矢量和速度矢量分別為:(3.02E7,0,1.91E7)、(0,2798.17,1615.52);同時,可以計算出目標軌道加速度和速度大小分別為:0.34m/s^2、3403.32m/s。我們設(shè)定衛(wèi)星點火作用時間為一秒鐘,依據(jù)網(wǎng)絡(luò)輸出的動作,可計算出相應(yīng)的速度變化量和位置變化量。同時,在下一次點火動作到來之前,衛(wèi)星受萬有引力作用自由飛行五分鐘。
定義神經(jīng)網(wǎng)絡(luò)為三層全連接層,即5*128*128*3。神經(jīng)網(wǎng)絡(luò)狀態(tài)輸入為衛(wèi)星軌道根數(shù),網(wǎng)絡(luò)輸出為三軸方向的加速度,其取值范圍為[?10m/s^2,10m/s^2]。同時,TD3 算法中參數(shù)具體設(shè)置如表2 其中,ε表示高斯噪聲的均方誤差,λ 表示式⑺中的目標函數(shù)折扣因子,alr 和clr 分別表示Actor 網(wǎng)絡(luò)與Critic 網(wǎng)絡(luò)的學(xué)習(xí)率。minibacth 表示從replaybuffer 采樣的最小單元。同時將噪聲切割的上下限c 設(shè)置大小為5。
在獎勵設(shè)置中,獎勵系數(shù)α1,α2,α3,γ1,γ2分別為20,10,10,100,100, 而βi = 15, i = 1…5。獎勵函數(shù)設(shè)計為偏差的一次反比例函數(shù)。
4.2 結(jié)果分析
在本文中,我們設(shè)定衛(wèi)星距離目標軌道500 米以內(nèi)即判定系統(tǒng)收斂。經(jīng)過TD3 算法引導(dǎo),系統(tǒng)產(chǎn)生的獎勵與軌跡圖分別如圖1 和圖2 所示。從圖1 中看出系統(tǒng)在約300 步左右就收斂,系統(tǒng)獎勵值收斂在-1E-5附近。從圖2 中可以看出衛(wèi)星從開始位置逐漸變軌到終點位置從而到達目標軌道(更淺色的圓)附近。
我們同樣利用TD3 算法與DDPG 算法進行實驗,如圖3 所示。對比圖3(a)可以看出,經(jīng)過了Z-score 數(shù)據(jù)處理過的網(wǎng)絡(luò)更加穩(wěn)定,也更加適用于處理像衛(wèi)星這樣各數(shù)據(jù)量級不在同一量級上的問題;而對比圖1與圖3(b)易看出,我們所提出的基于Z-score 的TD3算法相較DDPG 算法具有更快的收斂特性。
5 總結(jié)
本文提出在深度強化學(xué)習(xí)下的TD3 控制算法,來處理衛(wèi)星通過遠程變軌到達指定目標軌道的問題。實驗結(jié)果表明,該算法能夠有效解決衛(wèi)星變軌到達目標軌道的控制問題。然而在本算法中,并未考慮多顆衛(wèi)星情況,真實空間任務(wù)多是基于多衛(wèi)星完成的,接下來考慮多個衛(wèi)星在強化學(xué)習(xí)作用完成到達目標軌道任務(wù)。