趙 毓
(哈爾濱工業(yè)大學(xué)航天學(xué)院,哈爾濱 150001)
隨著人類對空間環(huán)境的探索和開發(fā),空間碎片的數(shù)量快速增長,對在軌運(yùn)行的空間飛行器危害日益增長[1]。軌道機(jī)動(dòng)避障技術(shù)是空間在軌服務(wù)等關(guān)鍵技術(shù)開展的基礎(chǔ)[2],以美國為首的各航天大國均已進(jìn)行了多項(xiàng)研究[3-5],相關(guān)研究計(jì)劃包括美國國家航空航天局(NASA)的LEGEND[6]、法國的MEDEE[7]等。國內(nèi)錢宇等[8-9]對軌道規(guī)避進(jìn)行了研究,構(gòu)造了規(guī)避體系和基礎(chǔ)框架,但并未給出詳細(xì)的控制決策算法。晉小偉給出了基于軌道根數(shù)的有限推力軌道動(dòng)力學(xué)模型,并結(jié)合空間飛行器姿態(tài)控制對有限推力軌道機(jī)動(dòng)進(jìn)行仿真分析,利用高斯偽譜法對有限推力軌道規(guī)劃問題離散化獲得能量最優(yōu)解[10]。蘇飛等[11]對軌道面內(nèi)規(guī)避機(jī)動(dòng)進(jìn)行了最優(yōu)脈沖分析。上述學(xué)者的研究分別在空間避障和有限推力軌道轉(zhuǎn)移方向取得了一定成果,但傳統(tǒng)高斯偽譜法求解速度無法滿足飛行器在軌實(shí)時(shí)避障決策需求,工程上也很難為空間飛行器提供瞬時(shí)大推力,所以有必要對有限推力空間飛行器在軌實(shí)時(shí)避障機(jī)動(dòng)決策進(jìn)行研究。
本文針對有限推力避障場景建立了J2000地心慣性坐標(biāo)系下軌道動(dòng)力學(xué)模型,在此基礎(chǔ)上將新興自學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)技術(shù)與有限推力軌道快速機(jī)動(dòng)技術(shù)相結(jié)合[12-13],使空間飛行器在軌運(yùn)行期間具備自主避障能力。區(qū)別于傳統(tǒng)離線軌道機(jī)動(dòng)規(guī)劃技術(shù)[14-15],本文應(yīng)用強(qiáng)化學(xué)習(xí)理論設(shè)計(jì)了一種針對空間飛行器避障機(jī)動(dòng)問題的自學(xué)習(xí)仿真架構(gòu),通過離線神經(jīng)網(wǎng)絡(luò)訓(xùn)練實(shí)現(xiàn)航天器有限推力變軌時(shí)機(jī)在線自主決策能力,軌跡規(guī)劃結(jié)果相近情況下,規(guī)劃時(shí)間比傳統(tǒng)高斯偽譜法更優(yōu)。該自學(xué)習(xí)仿真架構(gòu)中以地心慣性系有限推力軌道轉(zhuǎn)移動(dòng)力學(xué)為基礎(chǔ),建立了以軌道轉(zhuǎn)移時(shí)間為訓(xùn)練回報(bào)函數(shù)參數(shù)的評(píng)價(jià)機(jī)制。通過仿真給出特定約束條件下空間飛行器能量最優(yōu)有限推力軌道轉(zhuǎn)移避障機(jī)動(dòng)方法,仿真結(jié)果與傳統(tǒng)高斯偽譜法離線軌跡優(yōu)化所得結(jié)果進(jìn)行對比,可得本文所述算法得到的軌跡規(guī)劃時(shí)間更短,軌道轉(zhuǎn)移機(jī)動(dòng)耗時(shí)、耗能較優(yōu)。
傳統(tǒng)的空間飛行器軌道問題研究,動(dòng)力學(xué)方程通常是在發(fā)射系或軌道系中給出。此類動(dòng)力學(xué)方程參數(shù)可以方便地與空間飛行器本體坐標(biāo)系轉(zhuǎn)換,從而便于對制導(dǎo)控制系統(tǒng)進(jìn)行簡化。本文所研究空間避障問題的障礙物可以是非合作目標(biāo),其相關(guān)參數(shù)需要通過遙測等方法給出,不宜使用上述坐標(biāo)系對其進(jìn)行描述。針對空間交會(huì)問題的C-W方程既未考慮攝動(dòng)影響,又存在運(yùn)算資源消耗大的問題,亦不適于本文對在軌實(shí)時(shí)決策的研究。所以,本文建立了基于J2000地心慣性坐標(biāo)系的空間飛行器、障礙物軌道動(dòng)力學(xué)方程,該方法可以直接使用空間位置和速度來描述空間物體在軌狀態(tài),可以更為直觀和簡便的在自學(xué)習(xí)系統(tǒng)中進(jìn)行運(yùn)算,進(jìn)而提高系統(tǒng)的解算速度。
在地球引力與發(fā)動(dòng)機(jī)推力,以及地球引力攝動(dòng)、日月引力攝動(dòng)和大氣阻力攝動(dòng)作用下,航天器對地心的相對運(yùn)動(dòng)方程一般矢量形式為:
其中,r是航天器空間位置矢量;μ為地球引力常數(shù),其值為3.986×105km3/s2;T為發(fā)動(dòng)機(jī)推力大??;m是航天器瞬時(shí)質(zhì)量;u為發(fā)動(dòng)機(jī)推力方向單位矢量;fp是作用在航天器上的攝動(dòng)加速度矢量。由此航天器在地心慣性坐標(biāo)系中的運(yùn)動(dòng)可以描述為:
其中,x,y,z分別為航天器位置矢量沿J2000坐標(biāo)系坐標(biāo)軸的分量;vx,vy,vz分別為航天器速度矢量沿三維坐標(biāo)軸的分量;ux,uy,uz分別為推力方向單位矢量沿J2000坐標(biāo)軸的分量;T在前文中已給出;fpx,fpy,fpz為攝動(dòng)加速度沿三維坐標(biāo)軸的分量,為本文軌道機(jī)動(dòng)控制方法主要控制量。
本文所用推力模型為0.01≤T/m0<2。該模型為空間飛行器推力模型中普適性最高的模型,發(fā)動(dòng)機(jī)推力較小且作用時(shí)間較長。對于常值比沖發(fā)動(dòng)機(jī),其質(zhì)量變化率表示為:
其中,T與前文定義相同;Ve為發(fā)動(dòng)機(jī)排氣速度;Isp為發(fā)動(dòng)機(jī)比沖;g0為海平面處地球重力加速度,本文所采用發(fā)動(dòng)機(jī)均為常比沖發(fā)動(dòng)機(jī)。
如前文所述,諸多學(xué)者對空間飛行器有限推力軌跡規(guī)劃問題進(jìn)行了詳細(xì)的研究,但其研究方法多是基于數(shù)值分析和力學(xué)推演等形式。此類方法如果更換問題條件或初始狀態(tài)變化過大,就需重新進(jìn)行數(shù)學(xué)推導(dǎo)和設(shè)計(jì),對實(shí)際工程問題的適應(yīng)性較差。本文采用基于神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)架構(gòu)對自主避障決策訓(xùn)練系統(tǒng)進(jìn)行設(shè)計(jì),可以很大程度上彌補(bǔ)傳統(tǒng)方法適應(yīng)性不足的問題。
考慮到空間環(huán)境中飛行器和障礙物可移動(dòng)范圍較大導(dǎo)致變量連續(xù)取值范圍過大的情況,傳統(tǒng)強(qiáng)化學(xué)習(xí)方法是基于環(huán)境交互試錯(cuò)的形式,容易產(chǎn)生運(yùn)算量指數(shù)極限上升。且傳統(tǒng)強(qiáng)化學(xué)習(xí)方法泛化性能差,實(shí)際工程應(yīng)用中不能僅使用有限離散求解問題,易產(chǎn)生組合爆炸。所以本文對自主避障問題的強(qiáng)化學(xué)習(xí)框架進(jìn)行了修改和優(yōu)化,使其具備解決空間有限推力決策問題的泛化能力。
自學(xué)習(xí)系統(tǒng)的目標(biāo)是通過模擬訓(xùn)練和學(xué)習(xí)初始參數(shù)與避障參數(shù)之間的變化關(guān)系,對有限推力避障參數(shù)進(jìn)行Q值評(píng)價(jià),從而取得優(yōu)化的避障機(jī)動(dòng)能力。在空間有限推力軌跡規(guī)劃問題中可供分析使用的參量較多,避障場景又引入障礙物相關(guān)參數(shù),不利于在線實(shí)時(shí)運(yùn)算。為了決策系統(tǒng)具備泛化能力,本文選取飛行器和空間障礙物在慣性系下各三自由度位置、速度參數(shù)做為強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)系統(tǒng)的輸入?yún)?shù),共計(jì)12個(gè)輸入節(jié)點(diǎn),并在運(yùn)算過程中采取參數(shù)歸一化的方法。
神經(jīng)網(wǎng)絡(luò)針對非線性問題有強(qiáng)大的逼近功能,本文使用多層誤差反向傳播神經(jīng)網(wǎng)絡(luò)對避障決策問題進(jìn)行研究。設(shè)計(jì)了一種包含兩個(gè)隱層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),輸入變量是十二維的,輸出變量是三維的,輸出變量分別對應(yīng)于機(jī)動(dòng)起始時(shí)刻、總機(jī)動(dòng)時(shí)間和飛行器與障礙物間最短距離。利用神經(jīng)網(wǎng)絡(luò)的泛化功能,可以使強(qiáng)化學(xué)習(xí)環(huán)境狀態(tài)和動(dòng)作取得連續(xù)值。
本文采用了Q學(xué)習(xí)與案例學(xué)習(xí)相結(jié)合的方法實(shí)現(xiàn)航天器對避障環(huán)境進(jìn)行變軌機(jī)動(dòng)學(xué)習(xí)。學(xué)習(xí)系統(tǒng)結(jié)構(gòu)如圖1所示。
圖1 學(xué)習(xí)系統(tǒng)的結(jié)構(gòu)Fig.1 The structure of self-learning system
航天器決策系統(tǒng)學(xué)習(xí)的結(jié)果以案例形式保存在案例庫中,使得航天器與環(huán)境交互時(shí)的經(jīng)驗(yàn)?zāi)軌蛴行Ю茫煌瑫r(shí)相關(guān)案例反過來指導(dǎo)航天器對新場景繼續(xù)學(xué)習(xí)。案例庫隨著學(xué)習(xí)的進(jìn)行得到動(dòng)態(tài)更新,確保學(xué)習(xí)是以增量的方式進(jìn)行。通過預(yù)置先驗(yàn)案例(非最優(yōu))也可以避免航天器在與環(huán)境交互時(shí)產(chǎn)生錯(cuò)誤行為。
神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)和Q值學(xué)習(xí)是同步進(jìn)行的,且存在交互。首先使用評(píng)價(jià)函數(shù)算法更新Q值,使神經(jīng)網(wǎng)絡(luò)能夠逼近最優(yōu)的Q函數(shù)。同時(shí)用神經(jīng)網(wǎng)絡(luò)算法更新網(wǎng)絡(luò)權(quán)值以逼近問題最優(yōu)解。只要Q函數(shù)沒達(dá)到閾值范圍,兩個(gè)學(xué)習(xí)過程就會(huì)不斷更新網(wǎng)絡(luò)權(quán)值達(dá)到學(xué)習(xí)的目的。Q學(xué)習(xí)提供神經(jīng)網(wǎng)絡(luò)所需的參考值,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過程不斷逼近Q函數(shù),使Q函數(shù)提供的參考值更加接近最優(yōu)。
結(jié)合案例庫進(jìn)行Q值強(qiáng)化學(xué)習(xí),強(qiáng)化學(xué)習(xí)過程中部分使用當(dāng)前的生成案例,部分基于過去的案例。一旦算法探索到最優(yōu)目標(biāo)狀態(tài)獎(jiǎng)勵(lì)空間,案例庫中就會(huì)形成一致性很好的學(xué)習(xí)案例集。案例庫更新原理如圖2所示。
圖2 案例庫更新規(guī)則示意圖Fig.2 Diagram of case base updating rules
前文中已簡要給出自學(xué)習(xí)系統(tǒng)中神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù),下面將對仿真系統(tǒng)中其他環(huán)節(jié)進(jìn)行分析設(shè)計(jì)。仿真系統(tǒng)流程示意圖如圖3所示。
圖3 自學(xué)習(xí)系統(tǒng)的運(yùn)行流程示意圖Fig.3 Diagram of self-learning system operation process
本文采用誤差反饋神經(jīng)網(wǎng)絡(luò)做有限推力避障自決策網(wǎng)絡(luò)。該網(wǎng)絡(luò)有四層節(jié)點(diǎn),輸入層為12個(gè)節(jié)點(diǎn),第一隱層為15個(gè)節(jié)點(diǎn),第二隱層為6個(gè)節(jié)點(diǎn),輸出層為3個(gè)節(jié)點(diǎn)。輸入層和輸出層參數(shù)物理意義已在前文給出。
學(xué)習(xí)結(jié)果評(píng)價(jià)Q值函數(shù)如下:
其中,Tst為初始有限推力機(jī)動(dòng)時(shí)刻,toff為機(jī)動(dòng)總耗時(shí),Pdt為機(jī)動(dòng)過程中飛行器與障礙物距離評(píng)價(jià)值。仿真開始時(shí),可根據(jù)飛行器集合外形設(shè)定Pdt參數(shù)的評(píng)價(jià)區(qū)間,飛行器與障礙物的距離過近或過遠(yuǎn)都將影響該值。因此,所得評(píng)價(jià)Q值越小的方案性能越優(yōu)。
為了提高系統(tǒng)的訓(xùn)練速度,設(shè)定在一系列案例學(xué)習(xí)過程中,當(dāng)Q值滿足特定閾值范圍時(shí)即終止學(xué)習(xí)過程,此時(shí)認(rèn)為神經(jīng)網(wǎng)絡(luò)決策系統(tǒng)已經(jīng)訓(xùn)練成型。隨后將訓(xùn)練成型的神經(jīng)網(wǎng)絡(luò)進(jìn)行固化操作,使用其對特定場景進(jìn)行有限推力避障決策,并與傳統(tǒng)有限推力規(guī)劃方法進(jìn)行比較分析。
在自學(xué)習(xí)系統(tǒng)訓(xùn)練過程中,更改仿真參數(shù)是以增量規(guī)則進(jìn)行的。同一組輸入?yún)?shù)可以被多次訓(xùn)練,但不應(yīng)超過限定次數(shù),否則會(huì)過多占用學(xué)習(xí)資源。本文中將同一輸入最大出現(xiàn)次數(shù)設(shè)定為1000次,該次數(shù)可根據(jù)飛行器與障礙物交會(huì)時(shí)間近似確定。自學(xué)習(xí)系統(tǒng)對某一組參數(shù)訓(xùn)練達(dá)到Q值閾值或最大次數(shù)時(shí),將不再對此組參數(shù)進(jìn)行學(xué)習(xí),改變輸入條件將會(huì)進(jìn)行新的仿真學(xué)習(xí)。
利用文中所述自學(xué)習(xí)系統(tǒng)對特定場景空間飛行器有限推力自主避障問題進(jìn)行仿真研究??臻g飛行器初始時(shí)刻的質(zhì)量為450kg,其中主推進(jìn)劑質(zhì)量為50kg,發(fā)動(dòng)機(jī)推力為400N。 為了簡化計(jì)算,設(shè)定理想化空間飛行器和障礙物的初始軌道參數(shù)參見表1。
表1 飛行器和障礙物初始軌道參數(shù)表Table 1 Initial orbital parameters table for aircraft and obstacles
初始時(shí)刻飛行器和障礙物的位置、速度參數(shù)參見表2。
表2 飛行器和障礙物初始位置速度參數(shù)Table 2 Initial position and velocity parameters of aircraft and obstacles
有限推力避障機(jī)動(dòng)時(shí)間取值范圍為初始時(shí)刻到無機(jī)動(dòng)飛行器與障礙物碰撞時(shí)刻之間,本算例中近似100 s。在軌跡動(dòng)力學(xué)推演過程中,取仿真步長為0.1s。
自學(xué)習(xí)系統(tǒng)相關(guān)參數(shù)已在3.3節(jié)中給出。
應(yīng)用本文所述方法對上述空間飛行器避障機(jī)動(dòng)方法進(jìn)行軌跡設(shè)計(jì)。神經(jīng)網(wǎng)絡(luò)訓(xùn)練狀態(tài)如圖4所示。
圖4 神經(jīng)網(wǎng)絡(luò)訓(xùn)練狀態(tài)Fig.4 Training state of neural network
得到飛行器軌跡仿真結(jié)果如圖5和圖6所示。
圖5 有限推力軌道機(jī)動(dòng)圖Fig.5 Diagram of orbital maneuver with finite-thrust
圖6 飛行器與障礙物距離圖Fig.6 Distance between spacecraft and obstacles
由圖5、圖6可知,應(yīng)用本文所述方法可以有效地解決有限推力空間飛行器避障問題。為了對比分析,又使用傳統(tǒng)高斯偽譜法對本仿真算例進(jìn)行推導(dǎo)計(jì)算。通過高斯偽譜法規(guī)劃所得轉(zhuǎn)移軌跡中施加推力所耗時(shí)間為63.244s,規(guī)劃過程計(jì)算耗時(shí)約為4.4s;通過本文所述強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)決策系統(tǒng)進(jìn)行轉(zhuǎn)移軌跡規(guī)劃,所得軌跡中施加推力時(shí)間為63.2s,決策過程耗時(shí)約為0.42s。由此可見本文所述方法相比高斯偽譜法所得轉(zhuǎn)移時(shí)間更短,軌跡規(guī)劃計(jì)算過程耗時(shí)更短,且占用較少計(jì)算資源??捎糜陲w行器在線自主避障機(jī)動(dòng),能夠得到較優(yōu)結(jié)果。
本文針對有限推力空間飛行器自主避障問題,根據(jù)自學(xué)習(xí)框架需求,推導(dǎo)了地心慣性坐標(biāo)系下空間飛行器動(dòng)力學(xué)方程。然后設(shè)計(jì)了基于Q值與案例學(xué)習(xí)的強(qiáng)化學(xué)習(xí)仿真框架,并根據(jù)給定案例進(jìn)行了數(shù)值仿真,通過與傳統(tǒng)方法的對比分析,證實(shí)了本決策仿真系統(tǒng)的正確性和有效性。得出了以下主要結(jié)論:
(1) 本文在傳統(tǒng)軌跡規(guī)劃方法的基礎(chǔ)上,為有限推力空間飛行器的避障機(jī)動(dòng)問題提供了新的求解方法;
(2)應(yīng)用本文方法可以快速對有限推力避障軌跡進(jìn)行規(guī)劃和處理,相比傳統(tǒng)高斯偽譜法規(guī)劃耗時(shí)更短,求得能耗與高斯偽譜法近似;
(3)本方法計(jì)算量更小,通過訓(xùn)練形成的神經(jīng)網(wǎng)絡(luò)可以提供實(shí)時(shí)軌跡規(guī)劃能力。