惠俊鵬,汪韌,郭繼峰
1.哈爾濱工業(yè)大學(xué) 航天學(xué)院,哈爾濱 150006
2.中國航天科技創(chuàng)新研究院,北京 100176
高速飛行器因臨近空間的復(fù)雜不確定性,滑翔段制導(dǎo)技術(shù)的研究面臨諸多挑戰(zhàn)[1]。隨著臨近空間飛行任務(wù)的多樣化,飛行器不僅需要滿足一般的過程約束和終端約束等要求,還需要滿足規(guī)避禁飛區(qū)的要求。禁飛區(qū)指飛行器飛行過程中不允許通過的位置區(qū)域,例如地緣政治禁止通過的區(qū)域等。禁飛區(qū)繞飛制導(dǎo)技術(shù)的研究主要分為2 類:一是離線軌跡規(guī)劃;文獻(xiàn)[2-4]基于優(yōu)化理論,將飛行器禁飛區(qū)繞飛問題轉(zhuǎn)化為軌跡優(yōu)化問題,可實(shí)現(xiàn)全局軌跡的優(yōu)化求解以及最優(yōu)繞飛策略的生成。文獻(xiàn)[5]提出一種基于改進(jìn)稀疏A*算法的禁飛區(qū)繞飛軌跡規(guī)劃方法,該方法基于最小轉(zhuǎn)彎半徑約束進(jìn)行節(jié)點(diǎn)拓展,有效提高了搜索效率,能夠成功完成繞飛軌跡規(guī)劃。二是在線禁飛區(qū)繞飛制導(dǎo),趙江[6]、Liang[7]和Zhang[8]等提出了一種考慮禁飛區(qū)規(guī)避的預(yù)測校正制導(dǎo)方法,縱向制導(dǎo)采用落點(diǎn)誤差預(yù)測與指令校正相結(jié)合的方式更新傾側(cè)角的幅值,側(cè)向制導(dǎo)設(shè)計(jì)了一種傾側(cè)角反轉(zhuǎn)邏輯的切換機(jī)制,利用航向角誤差走廊和航向角導(dǎo)向區(qū)域控制飛行器的側(cè)向運(yùn)動(dòng)。趙亮博等[9]開展了基于虛擬目標(biāo)導(dǎo)引的高速飛行器禁飛區(qū)規(guī)避制導(dǎo)方法研究,結(jié)合Dubins 曲線軌跡規(guī)劃方法與比例導(dǎo)引方法實(shí)時(shí)跟蹤虛擬目標(biāo),實(shí)現(xiàn)飛行器對禁飛區(qū)的規(guī)避制導(dǎo)。章吉力等[10-11]對禁飛區(qū)影響下的空天飛機(jī)可達(dá)區(qū)域計(jì)算方法進(jìn)行了研究,從極限繞飛軌跡與禁飛區(qū)的切點(diǎn)出發(fā),提出繞過禁飛區(qū)后的可達(dá)區(qū)域計(jì)算方法,并研究一種考慮禁飛區(qū)規(guī)避的分段預(yù)測校正制導(dǎo)方法。文獻(xiàn)[12-13]提出了一種基于虛擬多觸角探測的航路點(diǎn)規(guī)劃機(jī)動(dòng)制導(dǎo)策略,通過飛行器最大轉(zhuǎn)彎軌跡計(jì)算速度-剩余地面距離-航向角約束,并采取雙模式多觸角探測反饋的方法進(jìn)行機(jī)動(dòng)制導(dǎo)策略的設(shè)計(jì),可有效地解決機(jī)動(dòng)制導(dǎo)過程中的多約束問題。文獻(xiàn)[14]提出基于人工勢場的側(cè)向制導(dǎo)方法,適用于處理航路點(diǎn)約束和禁飛區(qū)約束問題。Yu 等[15]設(shè)計(jì)了一個(gè)復(fù)雜但嚴(yán)格的框架,獲得擬平衡滑翔條件下禁飛區(qū)繞飛的解析制導(dǎo)指令,并通過仿真驗(yàn)證了該方法可處理多個(gè)禁飛區(qū)的繞飛任務(wù)。
近年來,隨著人工智能的快速發(fā)展,強(qiáng)化學(xué)習(xí)技術(shù)大量應(yīng)用于解決智能體的決策問題[16],具有代表性的強(qiáng)化學(xué)習(xí)算法有深度Q 網(wǎng)絡(luò)(Deep Q Network,DQN)[17]、深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)[18]、軟動(dòng)作-評價(jià)(Soft Actor-Critic,SAC)[19]和近端策略優(yōu)化(Proximal Policy Optimization,PPO)[20]。強(qiáng)化學(xué)習(xí)技術(shù)在制導(dǎo)控制領(lǐng)域的應(yīng)用尚處于初步階段。文獻(xiàn)[21-27]研究了基于DDPG、DQN 和PPO 等算法的智能制導(dǎo)技術(shù),在縱向制導(dǎo)中計(jì)算傾側(cè)角幅值,抽象橫向制導(dǎo)傾側(cè)角反轉(zhuǎn)邏輯為馬爾可夫決策問題,使得飛行器初步具備了自主決策能力。在姿態(tài)控制方面,文獻(xiàn)[28-31]在傳統(tǒng)控制的基礎(chǔ)上,進(jìn)一步利用強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)了從飛行器位置、速度和姿態(tài)角等信息到控制量的端到端飛行控制。
傳統(tǒng)高速飛行器禁飛區(qū)繞飛方法存在2 方面的不足:一是優(yōu)化類方法存在迭代計(jì)算量大、收斂速度慢等問題,難以滿足在線應(yīng)用的實(shí)時(shí)性要求;二是預(yù)測校正制導(dǎo)方法在縱向制導(dǎo)中僅以中末交班點(diǎn)信息校正傾側(cè)角的幅值,未綜合考慮禁飛區(qū)的位置信息和中末交班點(diǎn)信息,在橫向制導(dǎo)中需要基于人工經(jīng)驗(yàn)設(shè)計(jì)飛行走廊參數(shù),對于突現(xiàn)的禁飛區(qū)適應(yīng)能力差,影響高速飛行器在不確定飛行環(huán)境中完成任務(wù)的成功率。
針對高速飛行器禁飛區(qū)繞飛問題,通過智能技術(shù)的賦能,提升高速飛行器對不確定禁飛區(qū)繞飛的適應(yīng)能力。具體問題為:
1)參數(shù)設(shè)置
飛行器的再入初始點(diǎn)參數(shù)和禁飛區(qū)的位置參數(shù)在合理的范圍內(nèi)隨機(jī)設(shè)置,中末交班點(diǎn)的位置固定,目的是希望以隨機(jī)的再入初始點(diǎn)為起滑點(diǎn),成功繞飛隨機(jī)位置的禁飛區(qū),且能精確到達(dá)固定的中末交班點(diǎn)。
2)飛行器的飛行軌跡可分為如下3段:
第1 段,飛行器從再入初始點(diǎn)開始并不清楚前方是否有禁飛區(qū),在尚未發(fā)現(xiàn)禁飛區(qū)時(shí),以中末交班點(diǎn)為滑翔段目標(biāo)點(diǎn),基于預(yù)測校正制導(dǎo)方法實(shí)時(shí)解算制導(dǎo)指令;第2 段,當(dāng)飛行器與禁飛區(qū)中心點(diǎn)的距離小于禁飛區(qū)半徑的2.5 倍時(shí),飛行器探測到前方有禁飛區(qū),開始實(shí)施機(jī)動(dòng)繞飛,該段采用智能制導(dǎo)方法,以飛行器相對禁飛區(qū)和中末交班點(diǎn)的狀態(tài)信息為輸入變量,利用訓(xùn)練的智能制導(dǎo)模型實(shí)時(shí)輸出繞飛時(shí)的制導(dǎo)指令;第3 段,當(dāng)飛行器與中末交班點(diǎn)的距離小于禁飛區(qū)中心點(diǎn)與中末交班點(diǎn)的距離時(shí),認(rèn)為禁飛區(qū)繞飛結(jié)束,繞飛結(jié)束后繼續(xù)采用預(yù)測校正制導(dǎo)方法控制飛行器精確到達(dá)中末交班點(diǎn)。
本文的立意主要體現(xiàn)在以下2 個(gè)方面:
1)提出“預(yù)測校正制導(dǎo)—基于監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練傾側(cè)角制導(dǎo)模型—基于強(qiáng)化學(xué)習(xí)進(jìn)一步升級傾側(cè)角制導(dǎo)模型”逐級遞進(jìn)的禁飛區(qū)繞飛智能制導(dǎo)研究框架。首先,設(shè)置高速飛行器合適的初始點(diǎn)和禁飛區(qū)的參數(shù)范圍,基于傳統(tǒng)預(yù)測校正制導(dǎo)方法,生成大量的禁飛區(qū)繞飛樣本軌跡;其次,利用監(jiān)督學(xué)習(xí)方法和生成的樣本軌跡對傾側(cè)角制導(dǎo)模型進(jìn)行預(yù)訓(xùn)練,其目的是通過領(lǐng)域知識引導(dǎo)繞飛策略的搜索,使得基于監(jiān)督學(xué)習(xí)方法訓(xùn)練出的制導(dǎo)模型對禁飛區(qū)的繞飛效果最大程度逼近基于預(yù)測校正制導(dǎo)的繞飛效果。
2)在監(jiān)督學(xué)習(xí)的基礎(chǔ)上,進(jìn)一步利用強(qiáng)化學(xué)習(xí)技術(shù)在智能決策方面的天然優(yōu)勢,擺脫傳統(tǒng)預(yù)測校正制導(dǎo)方法對傾側(cè)角解空間的約束,通過飛行器與環(huán)境大量交互“試錯(cuò)”,并借鑒人類基于反饋來調(diào)整學(xué)習(xí)策略的思想,設(shè)置有效的獎(jiǎng)勵(lì)(反饋)引導(dǎo),利用強(qiáng)化學(xué)習(xí)中PPO 算法進(jìn)一步升級禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型。一方面利用智能技術(shù)充分挖掘高升阻比飛行器強(qiáng)大的橫向機(jī)動(dòng)能力,在不同傾側(cè)角下其橫向機(jī)動(dòng)距離可以從幾百公里跨越到上千公里,利用智能制導(dǎo)模型將傾側(cè)角的幅值和符號一并輸出,具有更大的探索空間,期望產(chǎn)生更優(yōu)的繞飛策略;另一方面受飛行器的能量約束,在繞飛時(shí)需綜合考慮禁飛區(qū)約束和滑翔終端約束,確保繞飛后具備足夠的能量精確到達(dá)中末交班點(diǎn),從而滿足未來飛行器智能決策系統(tǒng)對不確定場景的適應(yīng)性需求。
圍繞基于強(qiáng)化學(xué)習(xí)的禁飛區(qū)繞飛智能制導(dǎo)技術(shù)開展研究,第1 節(jié)建立了高速飛行器的動(dòng)力學(xué)模型;第2 節(jié)研究了禁飛區(qū)繞飛智能制導(dǎo)模型的設(shè)計(jì);第3 節(jié)深入研究基于監(jiān)督學(xué)習(xí)的禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型的訓(xùn)練;第4 節(jié)在第3 節(jié)研究的基礎(chǔ)上,進(jìn)一步深入研究基于強(qiáng)化學(xué)習(xí)的禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型的升級訓(xùn)練;第5 節(jié)給出仿真、對比與結(jié)果分析;第6 節(jié)為結(jié)論。
高速飛行器三自由度動(dòng)力學(xué)方程為
式中:r為地心距;θ和?分別表示飛行器的經(jīng)緯度;V為飛行速度;γ和ψ分別表示飛行器的航跡角和航向角;σ表示傾側(cè)角;m為飛行器的質(zhì)量;g為重力加速度;L和D分別表示飛行器受到的升力和阻力[32]。
高速飛行器在飛行過程中需滿足多種約束條件,主要包括:
1)硬約束條件
硬約束條件是指飛行器飛行過程中需要滿足的熱流率、過載和動(dòng)壓等約束條件,其表達(dá)式為
2)中末交班點(diǎn)約束條件
中末交班點(diǎn)約束是指滑翔段和末制導(dǎo)段的交班點(diǎn)滿足高度、速度、經(jīng)緯度等約束,可表示為
式中:tf、rf、Vf、θf和?f分別表示中末交班點(diǎn)的時(shí)刻、地心距、速度、經(jīng)度和緯度,tf不固定,rf、Vf、θf和?f是預(yù)先設(shè)置的。
3)禁飛區(qū)約束條件
一般采用無限高的圓柱模型來描述禁飛區(qū)約束,再入飛行軌跡不能與該圓柱相交。禁飛區(qū)約束可建模為
式中:R0為地球半徑;θNFZ、?NFZ和rNFZ分別表示禁飛區(qū)中心的經(jīng)度、緯度和半徑。
本文借鑒Alpha Go[33]的思想,將監(jiān)督學(xué)習(xí)技術(shù)和強(qiáng)化學(xué)習(xí)技術(shù)融合應(yīng)用于禁飛區(qū)繞飛制導(dǎo)中,主要包括3 個(gè)步驟,如圖1 所示。
圖1 高速飛行器禁飛區(qū)繞飛智能制導(dǎo)研究框架Fig.1 Research framework of intelligent guidance of re‐entry vehicles for avoiding no-fly zone
步驟1預(yù)測校正制導(dǎo)
設(shè)置飛行器再入初始點(diǎn)和禁飛區(qū)的參數(shù)范圍,基于傳統(tǒng)預(yù)測校正制導(dǎo)方法,生成大量的繞飛樣本軌跡。
步驟2監(jiān)督學(xué)習(xí)
建立禁飛區(qū)繞飛傾側(cè)角智能制導(dǎo)模型,利用監(jiān)督學(xué)習(xí)中帶有動(dòng)量的隨機(jī)梯度下降(Stochas‐tic Gradient Descent with Momentum,SGDM)算法[34]和步驟1 產(chǎn)生的繞飛樣本軌跡,訓(xùn)練傾側(cè)角智能制導(dǎo)模型。
步驟3強(qiáng)化學(xué)習(xí)
在步驟2 基于監(jiān)督學(xué)習(xí)訓(xùn)練出的禁飛區(qū)繞飛傾側(cè)角智能制導(dǎo)模型的基礎(chǔ)上,利用強(qiáng)化學(xué)習(xí)在智能決策方面的優(yōu)勢,在禁飛區(qū)約束、終端約束、過程約束下通過飛行器與環(huán)境進(jìn)行大量交互,并借鑒人類基于反饋來調(diào)整學(xué)習(xí)策略的思想,設(shè)置有效的獎(jiǎng)勵(lì)(反饋),利用強(qiáng)化學(xué)習(xí)中PPO 算法[20]進(jìn)一步訓(xùn)練禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型,實(shí)現(xiàn)飛行器基于實(shí)時(shí)的狀態(tài)信息在線決策禁飛區(qū)繞飛所需的傾側(cè)角幅值和符號指令。該方法一方面充分挖掘高升阻比飛行器強(qiáng)大的橫向機(jī)動(dòng)能力,另一方面受飛行器的能量約束,確保繞飛后具備足夠的能量精確到達(dá)中末交班點(diǎn)。
禁飛區(qū)繞飛示意圖如圖2 所示。其中,C是高速飛行器的當(dāng)前位置;T為中末交班點(diǎn)的位置;Z為禁飛區(qū)的中心;M為C點(diǎn)與禁飛區(qū)切線的交點(diǎn)。過C點(diǎn)作禁飛區(qū)的切線CM和CN,CM與北向的夾角為ψM。
圖2 禁飛區(qū)繞飛示意圖Fig.2 Diagram of avoiding no-fly zone
禁飛區(qū)繞飛傾側(cè)角智能制導(dǎo)模型如圖3 所示,其中制導(dǎo)模型的輸入為飛行器的狀態(tài)向量,定義狀態(tài)向量為
圖3 基于LSTM 的禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型Fig.3 Bank angle guidance model avoiding no-fly zone based on LSTM
式中:Δr=r?rf表示t時(shí)刻的地心距與中末交班點(diǎn)地心距的差;ΔV=V?Vf表示t時(shí)刻的速度與中末交班點(diǎn)速度的差;Ltogo表示t時(shí)刻飛行器距離中末交班點(diǎn)的剩余航程:
s(t)的后2 個(gè)變量(ψMCV,ψTCZ)為飛行器相對禁飛區(qū)的狀態(tài)變量。由圖2 可以看出,在禁飛區(qū)繞飛時(shí)需要考慮:
1)判斷從哪一側(cè)規(guī)避禁飛區(qū),ψTCZ=ψT?ψZ表示CT與北向的夾角ψT與CZ與北向的夾角ψZ的差。當(dāng)ψTCZ<0 時(shí),從禁飛區(qū)左側(cè)繞飛;當(dāng)ψTCZ>0 時(shí),從禁飛區(qū)右側(cè)繞飛。
2)判斷速度V的方向是否指向禁飛區(qū),ψMCV=ψM?ψ表示CM與北向的夾角ψM與飛行器航向角ψ的差。當(dāng)飛行器速度方向指向禁飛區(qū)外側(cè)時(shí),ψMCV>0;當(dāng)飛行器速度方向指向禁飛區(qū)時(shí),ψMCV<0。
禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型的隱層為長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)模型[35],隱層的節(jié)點(diǎn)數(shù)為64 個(gè),隱層到輸出層是全連接,輸出為傾側(cè)角σ。
從智能決策的角度來說,飛行器繞飛決策屬于典型的序貫決策問題,每一時(shí)刻決策傾側(cè)角時(shí)不僅取決于飛行器當(dāng)前時(shí)刻的狀態(tài),還與上一時(shí)刻的傾側(cè)角有關(guān)。因而在決策傾側(cè)角時(shí)需要考慮相鄰時(shí)刻間的狀態(tài)關(guān)系,而這也恰好是LSTM 所具有的獨(dú)特優(yōu)勢,是解決序貫決策的經(jīng)典模型,因而選擇基于LSTM 構(gòu)建禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型。
基于LSTM 模型輸出禁飛區(qū)繞飛的傾側(cè)角需滿足再入過程的硬約束條件。文獻(xiàn)[32]將再入過程的硬約束條件轉(zhuǎn)化為對傾側(cè)角幅值的約束:
式中:CL和CD分別為升力系數(shù)和阻力系數(shù);S為特征面積;分別為熱流率、過載和動(dòng)壓約束下飛行器傾側(cè)角的上界。在基于LSTM 模型輸出禁飛區(qū)繞飛傾側(cè)角幅值的基礎(chǔ)上,進(jìn)一步利用式(7)對傾側(cè)角進(jìn)行限制,使其滿足硬約束條件。
訓(xùn)練過程分為2 步:一是禁飛區(qū)繞飛訓(xùn)練樣本的生成;二是禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型的訓(xùn)練。
選取美國通用航空飛行器CAV-H 為研究對象,基于預(yù)測校正制導(dǎo)方法產(chǎn)生禁飛區(qū)繞飛的樣本數(shù)據(jù)。參數(shù)設(shè)置如下[36]:
1)飛行器參數(shù)
質(zhì)量m=907.20 kg,特征面積S=0.483 9 m2,過程約束中最大允許熱流率,最大允許過載nmax=3g,最大允許動(dòng)壓qmax=100 kPa。
2)中末交班點(diǎn)參數(shù)
高度hf=23 km,經(jīng)度θf=50°,緯度?f=0°,速度。
3)攻角剖面
4)飛行器再入初始點(diǎn)和禁飛區(qū)的狀態(tài)參數(shù)設(shè)置如表1 所示。
表1 飛行器再入初始點(diǎn)和禁飛區(qū)的參數(shù)Table 1 Parameters of initial state and no?fly zone of flight vehicle
在上述參數(shù)范圍內(nèi)隨機(jī)設(shè)置飛行器的再入初始點(diǎn)和禁飛區(qū)參數(shù),在預(yù)測校正制導(dǎo)下可以獲得大量的繞飛軌跡數(shù)據(jù)。在打靶試驗(yàn)后,總計(jì)生成2 048 條飛行軌跡,從禁飛區(qū)左側(cè)和從右側(cè)規(guī)避的飛行軌跡各1 024 條。符合中末交班點(diǎn)約束和禁飛區(qū)約束的飛行軌跡共1 309 條,其中從左側(cè)規(guī)避彈道623 條,從右側(cè)規(guī)避彈道686 條,如圖4 所示。從1 309 條飛行軌跡數(shù)據(jù)中,隨機(jī)抽取1 200 條飛行軌跡數(shù)據(jù)組成樣本集,其中840 條飛行軌跡用作監(jiān)督學(xué)習(xí)時(shí)的訓(xùn)練集,180 條飛行軌跡用作驗(yàn)證集,剩下的180條飛行軌跡用作測試集。
圖4 通用航空飛行器H 從左右兩側(cè)規(guī)避禁飛區(qū)的繞飛軌跡Fig.4 Subsatellite track formed by common aero vehicle-H avoiding no-fly zone from left and right side
需要說明的是,圖4 中的每條飛行軌跡分為3 段,其中第1、3 段在圖中用虛線表示,中間第2 段用實(shí)線表示。第1 段為尚未發(fā)現(xiàn)禁飛區(qū)時(shí)以中末交班點(diǎn)為目標(biāo)點(diǎn)的飛行軌跡;當(dāng)飛行器與禁飛區(qū)中心點(diǎn)的距離小于禁飛區(qū)半徑的2.5 倍時(shí),認(rèn)為飛行器探測到前方的禁飛區(qū),開始繞飛,即用實(shí)線表示的第2 段繞飛軌跡;當(dāng)飛行器與中末交班點(diǎn)距離,小于禁飛區(qū)中心點(diǎn)與中末交班點(diǎn)距離時(shí),認(rèn)為禁飛區(qū)繞飛結(jié)束,進(jìn)入虛線表示的第3 段飛行軌跡。在訓(xùn)練時(shí)截取第2 段禁飛區(qū)繞飛的樣本數(shù)據(jù)訓(xùn)練傾側(cè)角智能制導(dǎo)模型。
將840 條訓(xùn)練飛行軌跡數(shù)據(jù)輸入圖3 基于LSTM 的禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型中,基于監(jiān)督學(xué)習(xí)的思想,選取均方根誤差(Root Mean Square Error,RMSE)作為評價(jià)指標(biāo),其定義為
式中:N表示軌跡的數(shù)目;R表示每一條軌跡的樣本點(diǎn)數(shù)。
訓(xùn)練結(jié)果如圖5 所示,可以看出,均方根誤差隨著訓(xùn)練迭代次數(shù)的增加逐漸減小且趨于收斂。
圖5 均方根誤差隨迭代次數(shù)的變化曲線Fig.5 RMSE-epoch variation curve
在第3 節(jié)基于監(jiān)督學(xué)習(xí)的禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型訓(xùn)練的基礎(chǔ)上,進(jìn)一步將強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用于禁飛區(qū)繞飛制導(dǎo)中,在禁飛區(qū)約束、中末交班點(diǎn)約束和硬約束條件下通過飛行器與環(huán)境進(jìn)行大量交互,在“試錯(cuò)”的過程中設(shè)置有效的獎(jiǎng)勵(lì)(反饋),并利用PPO 算法訓(xùn)練傾側(cè)角制導(dǎo)模型,進(jìn)一步提升對不確定禁飛區(qū)的適應(yīng)性。
基于強(qiáng)化學(xué)習(xí)研究飛行器禁飛區(qū)繞飛制導(dǎo)律,需首先利用馬爾科夫決策過程對禁飛區(qū)繞飛制導(dǎo)問題進(jìn)行建模,主要包括3 部分:禁飛區(qū)繞飛時(shí)的狀態(tài)空間、繞飛決策的動(dòng)作空間和繞飛獎(jiǎng)勵(lì)的設(shè)計(jì)。
1)禁飛區(qū)繞飛時(shí)的狀態(tài)空間
飛行器的狀態(tài)空間如式(5)所示,即s(t)=[Δr,ΔV,ψ,Ltogo,ψMCV,ψTCZ]T。
2)禁飛區(qū)繞飛時(shí)的動(dòng)作空間
飛行器的動(dòng)作空間A為傾側(cè)角σ,包括傾側(cè)角的幅值和符號:
3)禁飛區(qū)繞飛時(shí)的獎(jiǎng)勵(lì)設(shè)計(jì)
獎(jiǎng)勵(lì)根據(jù)任務(wù)需求進(jìn)行設(shè)計(jì),以引導(dǎo)飛行器在對禁飛區(qū)繞飛的同時(shí),具備良好的能量和交班管理。獎(jiǎng)勵(lì)的設(shè)計(jì)包括過程獎(jiǎng)勵(lì)和終端獎(jiǎng)勵(lì)。除了終端獎(jiǎng)勵(lì),設(shè)計(jì)過程獎(jiǎng)勵(lì)的目的是避免出現(xiàn)稀疏獎(jiǎng)勵(lì)問題,稀疏獎(jiǎng)勵(lì)容易使訓(xùn)練難以收斂。
過程獎(jiǎng)勵(lì)分為2 部分:
1)利用傳統(tǒng)的預(yù)測校正制導(dǎo)引導(dǎo)禁飛區(qū)繞飛時(shí)的策略搜索,即強(qiáng)化學(xué)習(xí)算法的“利用”(Ex‐ploit)性質(zhì);同時(shí)需增加飛行器與環(huán)境交互過程中的探索性,期望其能夠探索出比傳統(tǒng)制導(dǎo)方法更優(yōu)、適應(yīng)范圍更廣的智能制導(dǎo)方法,即強(qiáng)化學(xué)習(xí)算法的“探索”(Explore)性質(zhì)。該獎(jiǎng)勵(lì)定義為
式中:kcomd>0 為常數(shù);σtra為當(dāng)前狀態(tài)下預(yù)測校正制導(dǎo)給出的傾側(cè)角指令;σt為智能制導(dǎo)模型探索出的傾側(cè)角指令。通過設(shè)計(jì)有效的Δσ域,以提供飛行器傾側(cè)角指令合理的探索空間。
2)在繞飛過程中需要引導(dǎo)飛行器持續(xù)飛向中末交班點(diǎn),該獎(jiǎng)勵(lì)定義為
式中:kgoto>0 為常數(shù);dexit為判定禁飛區(qū)繞飛結(jié)束時(shí)的條件距離;dt為當(dāng)前剩余航程,飛行器越接近繞飛結(jié)束點(diǎn),該項(xiàng)獎(jiǎng)勵(lì)越大。
終端獎(jiǎng)勵(lì)分為2 部分:
1)負(fù)責(zé)對不合理情況進(jìn)行當(dāng)前局終止,并給出終局獎(jiǎng)勵(lì)ravoid。不合理情況的判斷條件為
式中:cavoid為條件判斷符,用于判斷是否出現(xiàn)不合理情況,取布爾值0 或1,滿足條件取1,觸發(fā)結(jié)束當(dāng)前局條件;Et表示飛行器的能量,其表達(dá)式為,EJB為中末交班點(diǎn)能量,Et 式中:aavoid>0 為常數(shù)。 2)飛行器精確到達(dá)中末交班點(diǎn)的獎(jiǎng)勵(lì)rJB,其定義為 以CAV-H 為研究對象,參數(shù)設(shè)置見3.1 節(jié),比較3 種不同制導(dǎo)方法對禁飛區(qū)的繞飛效果:①預(yù)測校正制導(dǎo)方法;②第3 節(jié)基于監(jiān)督學(xué)習(xí)中SGDM 算法訓(xùn)練禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型的方法(圖中記為“LSTM 模型+SGDM 算法”);③第4 節(jié)中基于強(qiáng)化學(xué)習(xí)中PPO 算法訓(xùn)練禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型的方法(記為“LSTM 模型+PPO 算法”),對比結(jié)果如圖6~圖10 所示。 圖6 橫向繞飛軌跡對比Fig.6 Comparison of horizontal trajectory for avoiding no-fly zone 圖7 高度-速度對比Fig.7 Comparison of height-velocity 圖8 傾側(cè)角-時(shí)間對比Fig.8 Comparison of bank angle-time 圖9 航跡角-時(shí)間對比Fig.9 Comparison of flight path angle-time 圖10 航向角-時(shí)間對比Fig.10 Comparison of heading angle-time 由圖6~圖10 可以看出,“預(yù)測校正制導(dǎo)”與“LSTM 模型+SGDM 算法”2 種制導(dǎo)方式下的禁飛區(qū)繞飛的軌跡基本重合,這是由于利用監(jiān)督學(xué)習(xí)訓(xùn)練傾側(cè)角制導(dǎo)模型時(shí),選取的禁飛區(qū)繞飛樣本軌跡是基于預(yù)測校正制導(dǎo)方法產(chǎn)生,該訓(xùn)練過程可理解為對預(yù)測校正制導(dǎo)的擬合過程。由圖6 可以看出,該方法雖然能成功繞飛禁飛區(qū),但由于對禁飛區(qū)規(guī)避機(jī)動(dòng)過大而導(dǎo)致能量損失過多,在繞飛后無法精確到達(dá)中末交班點(diǎn)?!癓STM模型+PPO 算法”制導(dǎo)下的繞飛軌跡明顯不同于預(yù)測校正制導(dǎo)下的飛行軌跡,在過程獎(jiǎng)勵(lì)和終端獎(jiǎng)勵(lì)的引導(dǎo)下,探索出比傳統(tǒng)制導(dǎo)方法更優(yōu)的智能制導(dǎo)方法,不僅能夠?qū)崿F(xiàn)對禁飛區(qū)的成功繞飛,且在繞飛后精確到達(dá)中末交班點(diǎn)。 為驗(yàn)證“LSTM 模型+PPO 算法”制導(dǎo)方法的魯棒性和對參數(shù)偏差的適應(yīng)性,對飛行器再入初始狀態(tài)、氣動(dòng)參數(shù)進(jìn)行拉偏仿真分析。 在如表2 所示的再入初始狀態(tài)擾動(dòng)和氣動(dòng)偏差的條件下,基于“LSTM 模型+PPO 算法”制導(dǎo)方法進(jìn)行729 組的Monte Carlo 仿真,落點(diǎn)經(jīng)緯度的散布圖如圖11 所示,可以看出中末交班點(diǎn)的經(jīng)緯度均勻分布在θf=50°、?f=0°周圍,且最大落點(diǎn)偏差控制在±0.1°的范圍內(nèi)。 表2 飛行器再入初始狀態(tài)和氣動(dòng)參數(shù)偏差Table 2 Initial state error and aerodynamic parameter perturbation 圖11 初始狀態(tài)和氣動(dòng)參數(shù)擾動(dòng)下落點(diǎn)經(jīng)緯度的散布圖Fig.11 Scatter of longitude and latitude of setting point under initial state error and aerodynamic param‐eter perturbation 為進(jìn)一步對比傳統(tǒng)預(yù)測校正制導(dǎo)與“LSTM模型+PPO 算法”制導(dǎo)方法對禁飛區(qū)的繞飛效果,對比結(jié)果如圖12 所示,每個(gè)格子代表不同的起始點(diǎn)經(jīng)度、緯度、速度和高度,其中經(jīng)度變化范圍為[4.8°,5.2°],緯度變化范圍為[?0.2°,0.2°],步長為0.05°;高度變化范圍為[48,50] km;速度變化范圍為[5 550,5 600] km/s。可以看出,在初始參數(shù)擾動(dòng)情況下,“LSTM 模型+PPO 算法”制導(dǎo)方法相比于預(yù)測校正制導(dǎo)具有更高的繞飛成功率,其原因在于基于LSTM 的智能制導(dǎo)模型具有天然的泛化能力,因而對于參數(shù)的偏差具有更強(qiáng)的魯棒性。 圖12 預(yù)測校正制導(dǎo)與“LSTM 模型+PPO 算法”制導(dǎo)方法對比Fig.12 Comparison of predictor-corrector guidance and “LSTM model+PPO algorithm” guidance method 進(jìn)一步分析“LSTM 模型+PPO 算法”制導(dǎo)方法在實(shí)時(shí)性方面的性能。在Monte Carlo 仿真中,基于“LSTM 模型+PPO 算法”制導(dǎo)方法完成一次禁飛區(qū)繞飛時(shí)傾側(cè)角指令解算的平均時(shí)長為3.61 s,其具體分布如圖13 所示,其中基于LSTM 模型生成傾側(cè)角的時(shí)長為2.26 s,龍格庫塔RK-4 積分時(shí)長為1.23 s。 圖13 計(jì)算實(shí)時(shí)性對比分析Fig.13 Comparison of computing time analysis 與之對比,在Monte Carlo 仿真中,基于預(yù)測校正制導(dǎo)方法完成一次禁飛區(qū)繞飛時(shí)傾側(cè)角指令解算的平均時(shí)長為18.49 s,其中縱向制導(dǎo)的平均時(shí)長為17.18 s,橫向制導(dǎo)過程占其中的1.23 s。這是因?yàn)樵诳v向制導(dǎo)中,對動(dòng)力學(xué)方程進(jìn)行積分的預(yù)測過程和基于割線法求解傾側(cè)角的校正過程計(jì)算量較大,占用的時(shí)間較長。而基于LSTM 模型的禁飛區(qū)繞飛傾側(cè)角指令的解算沒有“預(yù)測”環(huán)節(jié)和“積分”環(huán)節(jié),大大減少了計(jì)算量,提高了計(jì)算速度。因而,在實(shí)時(shí)性方面,基于“LSTM 模型+PPO 算法”制導(dǎo)方法相比于傳統(tǒng)預(yù)測校正制導(dǎo)具有明顯的優(yōu)勢。 針對傳統(tǒng)基于優(yōu)化類方法解決禁飛區(qū)繞飛存在計(jì)算量大、難以收斂的問題,基于預(yù)測校正的制導(dǎo)方法在縱向制導(dǎo)中僅以中末交班點(diǎn)信息校正傾側(cè)角的幅值,未綜合考慮禁飛區(qū)的位置信息和中末交班點(diǎn)信息,在橫向制導(dǎo)中需要基于人工經(jīng)驗(yàn)設(shè)計(jì)飛行走廊參數(shù),對于突現(xiàn)的禁飛區(qū)適應(yīng)能力差。利用強(qiáng)化學(xué)習(xí)技術(shù)在智能決策方面的天然優(yōu)勢,通過飛行器與環(huán)境大量交互“試錯(cuò)”,并借鑒人類基于反饋來調(diào)整學(xué)習(xí)策略的思想,基于有效的獎(jiǎng)勵(lì)(反饋)引導(dǎo)和強(qiáng)化學(xué)習(xí)中PPO 算法訓(xùn)練禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型。該智能制導(dǎo)模型將傾側(cè)角的幅值和符號一并輸出,能夠充分挖掘高升阻比飛行器強(qiáng)大的橫向機(jī)動(dòng)能力,以產(chǎn)生更優(yōu)的繞飛策略。同時(shí)本文在繞飛時(shí)綜合考慮禁飛區(qū)約束和再入終端約束,確保繞飛后具備足夠的能量精確到達(dá)中末交班點(diǎn)。 盡管基于強(qiáng)化學(xué)習(xí)的智能制導(dǎo)技術(shù)能夠充分挖掘飛行器的寬域飛行優(yōu)勢,且具備非線性映射能力和實(shí)時(shí)性方面的天然優(yōu)勢,但目前的智能制導(dǎo)技術(shù)存在難以回避的缺點(diǎn):一是基于強(qiáng)化學(xué)習(xí)的智能制導(dǎo)技術(shù)本質(zhì)上還是純數(shù)據(jù)驅(qū)動(dòng)的模式,需要飛行器與環(huán)境交互產(chǎn)生大量樣本數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,但在航天領(lǐng)域,真實(shí)的飛行數(shù)據(jù)往往難以獲取,只能在仿真環(huán)境下獲取,存在仿真環(huán)境與實(shí)際飛行環(huán)境不一致的問題;二是目前的人工智能仍然處于計(jì)算智能階段,神經(jīng)網(wǎng)絡(luò)模型只能在訓(xùn)練樣本數(shù)據(jù)集覆蓋的范圍內(nèi)有效,依然不具備較強(qiáng)的泛化能力,實(shí)際飛行中若出現(xiàn)數(shù)據(jù)集范圍外的情況,神經(jīng)網(wǎng)絡(luò)的性能將難以保證。智能制導(dǎo)技術(shù)與傳統(tǒng)制導(dǎo)技術(shù)不是簡單的替代關(guān)系,傳統(tǒng)制導(dǎo)技術(shù)可以在關(guān)鍵點(diǎn)上吸納人工智能技術(shù)在記憶、推理、擬合等方面的優(yōu)勢,2 種技術(shù)的交叉融合是飛行器制導(dǎo)控制的熱門研究方向。5 仿真與分析
5.1 不同制導(dǎo)方法對比分析
5.2 Monte Carlo 仿真分析
5.3 實(shí)時(shí)性分析
6 結(jié)論