張陽(yáng)康,孫 晨,泮斌峰
(1.西北工業(yè)大學(xué) 航天學(xué)院·西安·710072;2. 航天飛行動(dòng)力學(xué)技術(shù)國(guó)家級(jí)重點(diǎn)實(shí)驗(yàn)室·西安·710072)
行星表面軟著陸是人類登陸外行星、探索太陽(yáng)系的關(guān)鍵技術(shù)之一。過(guò)去十年間,眾多國(guó)家和地區(qū)針對(duì)行星表面軟著陸提出了具體可行的研究計(jì)劃和技術(shù)方案[1-2]。行星表面軟著陸從設(shè)想到實(shí)現(xiàn)、從控制到自主、從無(wú)人到有人的逐步發(fā)展的過(guò)程,對(duì)著陸過(guò)程的精確度、自主性和魯棒性均有嚴(yán)格的任務(wù)要求。
動(dòng)力下降制導(dǎo)是解決行星表面軟著陸問(wèn)題的重要技術(shù)之一[3]。動(dòng)力下降是指著陸器在下降過(guò)程中通過(guò)變化的推力實(shí)現(xiàn)控制,保證最終能到達(dá)目標(biāo)著陸點(diǎn)。經(jīng)典的阿波羅制導(dǎo)律及其變種被成功地應(yīng)用于月面和火星著陸的動(dòng)力下降階段[4-5],但其因?yàn)榫_度和燃料消耗上的缺點(diǎn)還在不斷地改善。除此之外,Lu[6]將用于求解兩點(diǎn)邊值問(wèn)題的龐特里亞金最小值原理(Pontryagin Minimum Principle, PMP)優(yōu)化方法應(yīng)用在了軟著陸問(wèn)題當(dāng)中,發(fā)展了三維燃料最優(yōu)的制導(dǎo)律。Lu還提出了一種通用的動(dòng)力下降方法,該方法提供一種間接方法的魯棒形式,具有簡(jiǎn)便靈活的優(yōu)點(diǎn)[7]。應(yīng)用在動(dòng)力下降段的另一種制導(dǎo)方式是基于軌跡優(yōu)化的跟蹤制導(dǎo)。該方法將燃料最優(yōu)問(wèn)題轉(zhuǎn)化成了可確保收斂存在全局最優(yōu)解的凸優(yōu)化問(wèn)題[8-9],也有著廣泛的應(yīng)用。
除了上述單一求解的方法,眾多學(xué)者將人工智能的一些方法應(yīng)用到了行星軟著陸問(wèn)題中,以克服一般求解方法自主性差、容錯(cuò)率低的缺點(diǎn)。Cheng[10]在結(jié)合深度神經(jīng)網(wǎng)絡(luò)近似行星不規(guī)則重力場(chǎng)的基礎(chǔ)上,利用多個(gè)深度神經(jīng)網(wǎng)絡(luò)發(fā)展了一種實(shí)時(shí)優(yōu)化控制制導(dǎo)律。Furfaro[11]則將強(qiáng)化學(xué)習(xí)算法當(dāng)中經(jīng)典的Q學(xué)習(xí)與零誤差損失-零速度損失制導(dǎo)律(Zero-Effort-Miss/Zero-Effort-Velocity, ZEM/ZEV)相結(jié)合,發(fā)展出了基于開環(huán)燃料最優(yōu)軌跡點(diǎn)的ZEM/ZEV反饋制導(dǎo)律,由Q學(xué)習(xí)算法選擇出最優(yōu)的軌跡點(diǎn),由ZEM/ZEV制導(dǎo)律制導(dǎo)著陸器進(jìn)行軌跡點(diǎn)間的轉(zhuǎn)移,以實(shí)現(xiàn)在著陸初始點(diǎn)發(fā)生變動(dòng)時(shí),著陸器仍能以較高的精度著陸到指定位置。著陸問(wèn)題的高維度、連續(xù)性決定了離散的Q學(xué)習(xí)較難獲得擴(kuò)展應(yīng)用,因此Furfaro[12]又提出了結(jié)合深度強(qiáng)化學(xué)習(xí)與ZEM/ZEV的自適應(yīng)廣義制導(dǎo)律,大大擴(kuò)展了ZEM/ZEV反饋制導(dǎo)律的應(yīng)用范圍。與此不同,也有一些學(xué)者嘗試將在強(qiáng)化學(xué)習(xí)領(lǐng)域表現(xiàn)較好的算法直接應(yīng)用在著陸問(wèn)題中,如Chen[13]將近端策略優(yōu)化(Proximal Policy Optimization, PPO)算法應(yīng)用在了垂直起降的可重復(fù)使用火箭模型上,也取得了較好的效果。
目前,強(qiáng)化學(xué)習(xí)算法在制導(dǎo)領(lǐng)域中的應(yīng)用主要可分為兩個(gè)思路,一種思路是將著陸問(wèn)題離散化、抽象化為強(qiáng)化學(xué)習(xí)算法適合應(yīng)用的問(wèn)題,例如將整個(gè)制導(dǎo)過(guò)程分階段離散化[14-15]、將制導(dǎo)過(guò)程中的部分控制量分離出來(lái)并利用強(qiáng)化學(xué)習(xí)進(jìn)行求解[16];另外一種思路是直接將強(qiáng)化學(xué)習(xí)領(lǐng)域的優(yōu)質(zhì)算法套用在著陸制導(dǎo)問(wèn)題上,該思路也能取得不錯(cuò)的結(jié)果[17]。但著陸制導(dǎo)本身是個(gè)連續(xù)、非線性的復(fù)雜問(wèn)題,離散化勢(shì)必會(huì)使問(wèn)題過(guò)于簡(jiǎn)化,導(dǎo)致結(jié)果的精度較低,造成現(xiàn)實(shí)不可行。同時(shí),上述兩種思路都保留了一些強(qiáng)化學(xué)習(xí)算法的固有缺陷,即數(shù)據(jù)利用率低、需要與環(huán)境進(jìn)行大量交互、在現(xiàn)實(shí)中難以應(yīng)用等。
針對(duì)以上問(wèn)題,本文提出了基于引導(dǎo)策略搜索(Guided Policy Search, GPS)算法[18]的有模型強(qiáng)化學(xué)習(xí)著陸制導(dǎo)方法。該方法具有容錯(cuò)性強(qiáng)、數(shù)據(jù)利用率高、計(jì)算成本低等優(yōu)點(diǎn)。本文第1部分建立了行星軟著陸問(wèn)題的動(dòng)力學(xué)模型,第2部分介紹了基于GPS有模型強(qiáng)化學(xué)習(xí)的制導(dǎo)方法,第3部分給出了實(shí)驗(yàn)仿真結(jié)果,并進(jìn)行了分析總結(jié)。
本文以行星表面軟著陸為例,為了簡(jiǎn)化實(shí)驗(yàn),便于驗(yàn)證算法,用3自由度二維仿真模型替代著陸器動(dòng)力學(xué)模型,并作出如下假定:
(1)多數(shù)行星表面大氣稀薄,氣動(dòng)摩擦力、空氣阻力、氣動(dòng)力等可忽略不計(jì);
(2)在動(dòng)力學(xué)下降段,著陸器距火星表面的距離為數(shù)千米,相對(duì)速度在百米/秒以內(nèi),因此可假定重力加速度為常值,重力加速度保持不變;
(3)過(guò)程中,著陸器消耗的燃料質(zhì)量遠(yuǎn)遠(yuǎn)小于著陸器本身的質(zhì)量;
(4)忽略著陸過(guò)程中產(chǎn)生的攝動(dòng)加速度,以及由于建模不精確而產(chǎn)生的誤差。
在上述假設(shè)前提下,整個(gè)著陸過(guò)程滿足的動(dòng)力學(xué)方程為[19]
(1)
其中,r和v表示著陸的位置和速度向量;ac表示器載發(fā)動(dòng)力產(chǎn)生的加速度向量;T表示推力矢量;m表示著陸器質(zhì)量;Isp表示推進(jìn)系統(tǒng)的比沖;p是由攝動(dòng)和未建模的動(dòng)力學(xué)而產(chǎn)生的加速度,此處可忽略不計(jì);g是行星表面的重力加速度,在著陸任務(wù)中可視為常值。
圖1為行星表面無(wú)旋轉(zhuǎn)的固連坐標(biāo)系,這里將其作為參考坐標(biāo)系。該坐標(biāo)系的原點(diǎn)位于目標(biāo)著陸點(diǎn),從著陸點(diǎn)到目標(biāo)點(diǎn)的連線為x軸橫程水平方向,從行星表面豎直向上為y軸縱程方向。
圖1 行星表面二維參考坐標(biāo)系示意圖
問(wèn)題可描述為在著陸器滿足約束條件的前提下,一方面要求著陸器達(dá)到目標(biāo)著陸點(diǎn)時(shí)位置和速度誤差盡可能小,另一方面在整個(gè)過(guò)程中燃料消耗為最優(yōu)或次優(yōu),性能指標(biāo)為
(2)
該性能指標(biāo)表示終端時(shí)刻tF的燃料剩余最多,也即著陸過(guò)程的燃料消耗最少。其中,m(tF) 表示著陸器終端時(shí)刻的剩余質(zhì)量;T表示著陸過(guò)程的推力。一方面,T需要滿足式(2)的動(dòng)力學(xué)約束;另一方面,T還要滿足推力過(guò)程約束和終端約束。
(3)
(4)
m(t0)=m0
(5)
其中,Tmin、Tmax表示推力的最小值和最大值;式(4)表示初始時(shí)刻t0和終端時(shí)刻tF的位置和速度約束;式(5)表示初始質(zhì)量約束。
引導(dǎo)策略搜索算法[20]在分類上屬于策略搜索算法的一種,其同時(shí)也是基于模型的強(qiáng)化學(xué)習(xí)方法的一種。與無(wú)模型強(qiáng)化學(xué)習(xí)方法直接與環(huán)境交互產(chǎn)生數(shù)據(jù)不同,引導(dǎo)策略搜索算法利用策略網(wǎng)絡(luò)與控制器交互產(chǎn)生的數(shù)據(jù),以及逐漸優(yōu)化迭代的控制器產(chǎn)生的數(shù)據(jù)進(jìn)行學(xué)習(xí)。圖2展示了無(wú)模型強(qiáng)化學(xué)習(xí)、有模型強(qiáng)化學(xué)習(xí)以及引導(dǎo)策略搜索算法之間的原理圖[21]。
(a)無(wú)模型強(qiáng)化學(xué)習(xí)
引導(dǎo)策略搜索算法可以分為控制相和監(jiān)督相兩部分。在控制相部分中,利用與環(huán)境交互的數(shù)據(jù)建立模型,可以根據(jù)模型進(jìn)行推算,因此樣本的利用效率高,收斂速度快。在訓(xùn)練過(guò)程中,最優(yōu)控制與監(jiān)督學(xué)習(xí)的結(jié)合使得訓(xùn)練效果更好。同時(shí),由于該算法最終得到的是一個(gè)優(yōu)化后的策略,因此在測(cè)試時(shí)無(wú)需重新進(jìn)行訓(xùn)練,求解速度較快[17]。過(guò)程中的狀態(tài)轉(zhuǎn)移方程可表示為
(6)
其中,xt+1表示在t+1時(shí)刻的狀態(tài);xt表示在t時(shí)刻的狀態(tài);ut表示在t時(shí)刻的動(dòng)作;函數(shù)f為狀態(tài)轉(zhuǎn)移函數(shù)。即時(shí)獎(jiǎng)勵(lì)函數(shù)記為c(xt,ut),表示在每一個(gè)狀態(tài)下以及采取一個(gè)動(dòng)作之后都會(huì)獲得一個(gè)獎(jiǎng)勵(lì)。引導(dǎo)策略搜索算法最終獲得的是代表策略的一組策略參數(shù),也就是在t時(shí)刻下從狀態(tài)到動(dòng)作的映射函數(shù)關(guān)系,可記為ut=πθ(xt)。一組完整的狀態(tài)和動(dòng)作集記為τ=x1,u1,x2,u2,…,xT,uT。
引導(dǎo)策略搜索算法的原理流程圖如圖3所示。首先,通過(guò)示教或者隨機(jī)獲取數(shù)據(jù)集D=τi,τi=x1i,u1i,x2i,u2i,…,xTi,uTi,然后再利用該數(shù)據(jù)集擬合出動(dòng)力學(xué)模型。在整個(gè)算法中,最主要的兩部分是最優(yōu)控制求解和訓(xùn)練策略更新。
圖3 引導(dǎo)策略搜索算法原理流程圖
引導(dǎo)策略算法的求解思路,可以表示為在軌跡優(yōu)化問(wèn)題的基礎(chǔ)上,加上狀態(tài)轉(zhuǎn)移過(guò)程和策略網(wǎng)絡(luò)的約束條件,結(jié)合差分動(dòng)態(tài)規(guī)劃[22]以及隨機(jī)梯度下降等方法求解最優(yōu)策略的過(guò)程[23]
(7)
其中,式(7)第一行表示軌跡優(yōu)化問(wèn)題的性能指標(biāo),即在整個(gè)時(shí)域范圍內(nèi),最小化策略τ的總代價(jià),同時(shí)要滿足后兩行的策略約束和狀態(tài)轉(zhuǎn)移過(guò)程約束。其中,π表示選取動(dòng)作值的神經(jīng)網(wǎng)絡(luò);θ表示其參數(shù);xt-1表示t-1時(shí)刻的狀態(tài)值;ut-1表示t-1時(shí)刻的動(dòng)作值;f表示狀態(tài)轉(zhuǎn)移方程;xt表示通過(guò)f求得的下一時(shí)刻t的狀態(tài)值。
本文提出的著陸制導(dǎo)方法是在第1部分提出的動(dòng)力學(xué)模型的基礎(chǔ)上,利用引導(dǎo)策略搜索基本原理實(shí)現(xiàn)的。偽代碼流程如表1所示[22]。
表1 GPS著陸制導(dǎo)律設(shè)計(jì)
圖4 GPS算法訓(xùn)練和測(cè)試流程圖
針對(duì)該著陸問(wèn)題,為方便處理終端和約束條件,將狀態(tài)表示為包含位置(x,y)、速度(vx,vy)和質(zhì)量mass的一個(gè)五維的向量,分別表示為著陸器的橫縱坐標(biāo)、水平垂直速度以及質(zhì)量
state=[x,y,vx,vy,mass]
(8)
將動(dòng)作表示為二維的向量,為了方便處理推力大小的約束,將該二維向量處理為包含兩個(gè)角度的向量。第一維的角度用來(lái)決定推力的大小,第二維的角度用來(lái)表示推力與速度方向的夾角,用來(lái)決定推力方向的公式如式(9)所示
action=[Theta_1,Theta_2]
(9)
產(chǎn)生的推力和加速度分量可以通過(guò)推力最大值、最小值以及質(zhì)量表示為
(10)
(11)
獎(jiǎng)勵(lì)函數(shù)由過(guò)程獎(jiǎng)勵(lì)函數(shù)和終端獎(jiǎng)勵(lì)函數(shù)兩部分組成
r(xt,ut)=lf(x)+l(x)+l(u)
(12)
l(x)=δ1(z(x,px)+z(y,py))+δ2(z(vx,pvx)+z(vy,pvy))
(13)
(14)
lf(x)=z(x,px)+z(y,py)+
z(vx,pvx)+z(vy,pvy)
(15)
獎(jiǎng)勵(lì)函數(shù)中各個(gè)獎(jiǎng)勵(lì)項(xiàng)存在重要程度和難易程度的差別,需要考慮添加權(quán)重系數(shù)和補(bǔ)償項(xiàng)進(jìn)行平衡。式中各權(quán)值及補(bǔ)償系數(shù)取值分別為δ1=0.0001,δ2=0.0001,ω1=0.01,ω2=0.0001,px=py=0.01,pvx=pvy=1。由于速度項(xiàng)比位置項(xiàng)更難滿足,因此速度項(xiàng)對(duì)應(yīng)的p值更大。
為驗(yàn)證算法的有效性,選取火星進(jìn)行行星軟著陸制導(dǎo)試驗(yàn)仿真驗(yàn)證。其中,動(dòng)力學(xué)及環(huán)境模型的各個(gè)參數(shù)設(shè)置如表2所示。
表2 著陸制導(dǎo)問(wèn)題中的參數(shù)設(shè)置
結(jié)合動(dòng)力學(xué)方程以及獎(jiǎng)勵(lì)函數(shù),利用上述原理在MATLAB平臺(tái)下進(jìn)行iLQR仿真求解。取時(shí)域長(zhǎng)度為T=1100,步長(zhǎng)h=0.03,可得到各狀態(tài)量隨時(shí)域步數(shù)的變化曲線,結(jié)果如圖5所示。
圖5 iLQR求解著陸制導(dǎo)問(wèn)題狀態(tài)量變化曲線
iLQR是一種經(jīng)典的差分動(dòng)態(tài)規(guī)劃方法,屬于非線性最小二乘優(yōu)化的高斯-牛頓法[21]。由于iLQR可以考慮著陸過(guò)程中的過(guò)程獎(jiǎng)勵(lì)和終端獎(jiǎng)勵(lì),其可以很方便地與其他方法進(jìn)行結(jié)合。該方法是時(shí)變的,僅僅在單一軌跡附近有效。針對(duì)著陸制導(dǎo)問(wèn)題,也有很多不同的方法可以得到比較好的結(jié)果。圖6是同倫方法[24]、ZEM/ZEV反饋算法以及iLQR方法的結(jié)果之間的對(duì)比。
圖6 不同方法求解著陸制導(dǎo)問(wèn)題的結(jié)果對(duì)比
圖6對(duì)幾種不同方法求解著陸制導(dǎo)問(wèn)題的結(jié)果進(jìn)行了對(duì)比。ZEM/ZEV是指用傳統(tǒng)ZEM/ZEV反饋制導(dǎo)律[25]獲得的結(jié)果;ZEM/ZEV_based是指針對(duì)傳統(tǒng)ZEM/ZEV方法可能存在的著陸器觸及地面的缺點(diǎn),增加加速度基準(zhǔn)項(xiàng)改善后得到的結(jié)果[26];Fuel_Optimum是指利用同倫法求得的燃料最優(yōu)解。從對(duì)比圖圖6可以明顯地看出:
(1)單從各個(gè)制導(dǎo)律的著陸軌跡來(lái)看,利用iLQR獲得的結(jié)果與利用同倫方法獲得的結(jié)果基本相似,具有較優(yōu)的彈道曲線和較好的全局特性。
(2)由于iLQR算法通過(guò)獎(jiǎng)勵(lì)函數(shù)進(jìn)行了更新和改善,其根據(jù)任務(wù)需求可以比較方便地添加過(guò)程約束和終端約束,從而能夠更好地與智能算法進(jìn)行結(jié)合,具有更廣的適用性和更高的可擴(kuò)展性。
因此,本文采用iLQR方法作為引導(dǎo)策略搜索算法中的優(yōu)化控制器。由于iLQR方法在求解過(guò)程中會(huì)考慮系統(tǒng)模型,這也就決定了引導(dǎo)策略搜索算法是一種基于模型的強(qiáng)化學(xué)習(xí)方法。
本文的目的是將引導(dǎo)策略搜索算法應(yīng)用在火星表面著陸問(wèn)題中,計(jì)劃實(shí)現(xiàn)在實(shí)際著陸過(guò)程中,當(dāng)出現(xiàn)初始著陸位置擾動(dòng)時(shí),著陸器仍能以一定的精度軟著陸在指定位置。在離線訓(xùn)練部分,優(yōu)化控制器部分采用iLQR算法,策略更新部分利用深度神經(jīng)網(wǎng)絡(luò)。其中,在更新求解策略參數(shù)θ時(shí),采用了四層神經(jīng)網(wǎng)絡(luò):一個(gè)輸入層、兩個(gè)隱藏層,以及一個(gè)輸出層。將五維狀態(tài)值作為輸入,二維動(dòng)作值作為輸出。中間隱藏層的神經(jīng)元個(gè)數(shù)均為64,激活函數(shù)均采用Tanh函數(shù),利用隨機(jī)梯度下降算法進(jìn)行更新。Tanh是神經(jīng)網(wǎng)絡(luò)常用的激活函數(shù),可將輸入轉(zhuǎn)化到良好的輸出范圍內(nèi),其數(shù)學(xué)表達(dá)式如式(16)所示。在回合更新求解權(quán)值乘子λ的過(guò)程中,將λ值作為權(quán)重值進(jìn)行處理,采用Adam優(yōu)化求解器。
(16)
首先,在引導(dǎo)策略搜索算法中,訓(xùn)練過(guò)程的初始位置為x0=[-500m,1500m,75m/s,-75m/s,1905kg]。取整體循環(huán)次數(shù)K=5,時(shí)域長(zhǎng)度T=1100。策略參數(shù)更新循環(huán)次數(shù)loop=10000,回合單次權(quán)重值更新循環(huán)次數(shù)loop=4。在這里,令循環(huán)次數(shù)較小的原因是防止權(quán)重值更新過(guò)快,導(dǎo)致沒有學(xué)習(xí)到原始軌跡附近的區(qū)域,進(jìn)而可能造成最終得到的策略網(wǎng)絡(luò)結(jié)果發(fā)散而不可信。在測(cè)試過(guò)程中,假設(shè)著陸器初始水平位置出現(xiàn)隨機(jī)變動(dòng),本文以初始位置橫坐標(biāo)滿足均值mu=-500、方差sigma=5的正態(tài)分布為前提,如圖7所示,進(jìn)行100次重復(fù)試驗(yàn),得到在不同初始位置的著陸軌跡結(jié)果如圖8所示。每次循環(huán)的結(jié)束包括以下三種情況:
圖7 依據(jù)均值mu=-500、方差sigma=5的正態(tài)分布隨機(jī)選取100個(gè)初始著陸點(diǎn)的橫坐標(biāo)分布圖
圖8 利用引導(dǎo)策略搜索算法實(shí)現(xiàn)的正態(tài)分布下不同初始位置下的著陸軌跡
(1) 在給定時(shí)域長(zhǎng)度數(shù)內(nèi),仍未滿足精度要求,則該次循環(huán)結(jié)束;
(2) 著陸器縱坐標(biāo)小于0,即表示現(xiàn)實(shí)中著陸器觸及行星表面,則該次循環(huán)結(jié)束;
(3) 著陸器位置向量的二范數(shù)小于5,速度向量的二范數(shù)小于10,即表示成功著陸,則該次循環(huán)結(jié)束。
可以看出,在初始著陸位置隨機(jī)變化時(shí),利用引導(dǎo)策略搜索算法訓(xùn)練的策略神經(jīng)網(wǎng)絡(luò),可以很好地實(shí)現(xiàn)快速著陸。所有的著陸軌跡均滿足約束條件,最終的著陸點(diǎn)也符合理想著陸的精度要求。同時(shí),整個(gè)學(xué)習(xí)過(guò)程只需要數(shù)次循環(huán)即可實(shí)現(xiàn)。相比之下,無(wú)模型強(qiáng)化學(xué)習(xí)方法近端策略優(yōu)化需要20萬(wàn)次循環(huán)、1500萬(wàn)步來(lái)進(jìn)行學(xué)習(xí)[13],行動(dòng)者-評(píng)論家(actor-critic)方法需要上千次訓(xùn)練[12],引導(dǎo)策略搜索算法具有明顯的時(shí)間和代價(jià)優(yōu)勢(shì)。另外,選取初始位置橫坐標(biāo)為-505m,進(jìn)行10次重復(fù)試驗(yàn)。圖9展示的是某次指導(dǎo)著陸器進(jìn)行著陸時(shí)的狀態(tài)量變化曲線。對(duì)10次重復(fù)試驗(yàn)的結(jié)果取平均值,得到的各個(gè)方向的著陸精度如表3所示。
表3 初始位置為-505m時(shí),利用引導(dǎo)策略搜索算法指導(dǎo)著陸結(jié)果誤差
圖9 利用引導(dǎo)策略搜索算法實(shí)現(xiàn)的在初始位置變動(dòng)時(shí)的著陸過(guò)程狀態(tài)變化曲線
為了測(cè)試算法的魯棒性,在上述初始狀態(tài)值的基礎(chǔ)上,在每一維狀態(tài)值上添加均值為0、方差為0.3的高斯噪聲干擾,重復(fù)試驗(yàn)100次,將著陸誤差分布繪制在圖10當(dāng)中。從圖10可以看出,各個(gè)分量的最終著陸誤差都很好地保持在了一定的誤差范圍內(nèi)。除受循環(huán)退出條件影響明顯的著陸點(diǎn)橫坐標(biāo)受噪聲干擾而波動(dòng)范圍略大外,其他狀態(tài)量受初始噪聲擾動(dòng)的影響很小,這證明了該制導(dǎo)方法具有較好的魯棒性。
圖10 初始狀態(tài)值在高斯噪聲影響下的著陸誤差分布
結(jié)合上述仿真試驗(yàn),基于引導(dǎo)策略搜索算法,提出了適應(yīng)初始位置變動(dòng)、具有更好魯棒性的著陸制導(dǎo)律。但與此同時(shí),最終的著陸精度也存在一定損失。這里在區(qū)間[-520m,-490m]內(nèi)每隔2m選取一個(gè)初始位置,作為初始橫坐標(biāo)位置,以均勻分布來(lái)取樣,共有16種初始位置??紤]對(duì)每種初始位置進(jìn)行10次重復(fù)試驗(yàn),將著陸結(jié)果的誤差反映在圖11所示的誤差圖中。
圖11表示的是在不同的初始著陸位置下,著陸終點(diǎn)的位置和速度誤差分布。橫坐標(biāo)軸代表的是著陸初始點(diǎn)的水平位置,縱坐標(biāo)軸代表的是著陸終端的位置和各個(gè)速度狀態(tài)量的終端誤差值。圖中的點(diǎn)代表10次重復(fù)試驗(yàn)的均值,線的底端和頂端分別代表多次重復(fù)試驗(yàn)的最小值和最大值,用來(lái)反映結(jié)果的方差。從圖11中可以看出,較好的著陸精度僅僅在一定的初始著陸位置區(qū)間內(nèi)可取得。初始橫坐標(biāo)在區(qū)間[-508m,-500m]范圍內(nèi)變化時(shí),著陸終端的位置和速度能夠較好地滿足精度要求;而偏離這個(gè)區(qū)間范圍時(shí),則會(huì)出現(xiàn)一定的精度損失。
圖11 利用引導(dǎo)策略搜索算法實(shí)現(xiàn)的在不同初始位置下的著陸誤差變化曲線
本文通過(guò)對(duì)傳統(tǒng)行星表面軟著陸制導(dǎo)算法進(jìn)行改進(jìn),結(jié)合有模型強(qiáng)化學(xué)習(xí)方法,發(fā)展了基于引導(dǎo)策略搜索算法的著陸制導(dǎo)策略,解決了著陸器在初始位置擾動(dòng)情況下的自主智能著陸問(wèn)題,無(wú)需重規(guī)劃即可獲取較優(yōu)的著陸彈道,實(shí)現(xiàn)了初始著陸位置小范圍變動(dòng)情況下的快速著陸。通過(guò)行星表面軟著陸的仿真驗(yàn)證,可以得到如下兩點(diǎn)結(jié)論:
(1)結(jié)合強(qiáng)化學(xué)習(xí)方法的著陸制導(dǎo)策略,面對(duì)擾動(dòng)時(shí)無(wú)需重規(guī)劃,通過(guò)策略可直接獲取著陸軌跡,具有更高的容錯(cuò)率和更強(qiáng)的魯棒性,整個(gè)著陸制導(dǎo)過(guò)程更加自主,更加智能;
(2)相比于無(wú)模型方法,有模型強(qiáng)化學(xué)習(xí)方法具有更高的數(shù)據(jù)利用率以及更小的時(shí)間代價(jià),對(duì)于環(huán)境復(fù)雜多變、環(huán)境交互代價(jià)大的行星表面軟著陸等問(wèn)題具有更大的應(yīng)用價(jià)值。