基于強(qiáng)化學(xué)習(xí)的禁飛區(qū)繞飛智能制導(dǎo)技術(shù)

2023-07-29 03:04惠俊鵬汪韌郭繼峰

航空學(xué)報(bào) 2023年11期

惠俊鵬，汪韌，郭繼峰

1.哈爾濱工業(yè)大學(xué) 航天學(xué)院，哈爾濱 150006

2.中國航天科技創(chuàng)新研究院，北京 100176

高速飛行器因臨近空間的復(fù)雜不確定性，滑翔段制導(dǎo)技術(shù)的研究面臨諸多挑戰(zhàn)［1］。隨著臨近空間飛行任務(wù)的多樣化，飛行器不僅需要滿足一般的過程約束和終端約束等要求，還需要滿足規(guī)避禁飛區(qū)的要求。禁飛區(qū)指飛行器飛行過程中不允許通過的位置區(qū)域，例如地緣政治禁止通過的區(qū)域等。禁飛區(qū)繞飛制導(dǎo)技術(shù)的研究主要分為2 類：一是離線軌跡規(guī)劃；文獻(xiàn)［2-4］基于優(yōu)化理論，將飛行器禁飛區(qū)繞飛問題轉(zhuǎn)化為軌跡優(yōu)化問題，可實(shí)現(xiàn)全局軌跡的優(yōu)化求解以及最優(yōu)繞飛策略的生成。文獻(xiàn)［5］提出一種基于改進(jìn)稀疏A＊算法的禁飛區(qū)繞飛軌跡規(guī)劃方法，該方法基于最小轉(zhuǎn)彎半徑約束進(jìn)行節(jié)點(diǎn)拓展，有效提高了搜索效率，能夠成功完成繞飛軌跡規(guī)劃。二是在線禁飛區(qū)繞飛制導(dǎo)，趙江［6］、Liang［7］和Zhang［8］等提出了一種考慮禁飛區(qū)規(guī)避的預(yù)測校正制導(dǎo)方法，縱向制導(dǎo)采用落點(diǎn)誤差預(yù)測與指令校正相結(jié)合的方式更新傾側(cè)角的幅值，側(cè)向制導(dǎo)設(shè)計(jì)了一種傾側(cè)角反轉(zhuǎn)邏輯的切換機(jī)制，利用航向角誤差走廊和航向角導(dǎo)向區(qū)域控制飛行器的側(cè)向運(yùn)動(dòng)。趙亮博等［9］開展了基于虛擬目標(biāo)導(dǎo)引的高速飛行器禁飛區(qū)規(guī)避制導(dǎo)方法研究，結(jié)合Dubins 曲線軌跡規(guī)劃方法與比例導(dǎo)引方法實(shí)時(shí)跟蹤虛擬目標(biāo)，實(shí)現(xiàn)飛行器對禁飛區(qū)的規(guī)避制導(dǎo)。章吉力等［10-11］對禁飛區(qū)影響下的空天飛機(jī)可達(dá)區(qū)域計(jì)算方法進(jìn)行了研究，從極限繞飛軌跡與禁飛區(qū)的切點(diǎn)出發(fā)，提出繞過禁飛區(qū)后的可達(dá)區(qū)域計(jì)算方法，并研究一種考慮禁飛區(qū)規(guī)避的分段預(yù)測校正制導(dǎo)方法。文獻(xiàn)［12-13］提出了一種基于虛擬多觸角探測的航路點(diǎn)規(guī)劃機(jī)動(dòng)制導(dǎo)策略，通過飛行器最大轉(zhuǎn)彎軌跡計(jì)算速度-剩余地面距離-航向角約束，并采取雙模式多觸角探測反饋的方法進(jìn)行機(jī)動(dòng)制導(dǎo)策略的設(shè)計(jì)，可有效地解決機(jī)動(dòng)制導(dǎo)過程中的多約束問題。文獻(xiàn)［14］提出基于人工勢場的側(cè)向制導(dǎo)方法，適用于處理航路點(diǎn)約束和禁飛區(qū)約束問題。Yu 等［15］設(shè)計(jì)了一個(gè)復(fù)雜但嚴(yán)格的框架，獲得擬平衡滑翔條件下禁飛區(qū)繞飛的解析制導(dǎo)指令，并通過仿真驗(yàn)證了該方法可處理多個(gè)禁飛區(qū)的繞飛任務(wù)。

近年來，隨著人工智能的快速發(fā)展，強(qiáng)化學(xué)習(xí)技術(shù)大量應(yīng)用于解決智能體的決策問題［16］，具有代表性的強(qiáng)化學(xué)習(xí)算法有深度Q 網(wǎng)絡(luò)（Deep Q Network，DQN）［17］、深度確定性策略梯度（Deep Deterministic Policy Gradient，DDPG）［18］、軟動(dòng)作-評價(jià)（Soft Actor-Critic，SAC）［19］和近端策略優(yōu)化（Proximal Policy Optimization，PPO）［20］。強(qiáng)化學(xué)習(xí)技術(shù)在制導(dǎo)控制領(lǐng)域的應(yīng)用尚處于初步階段。文獻(xiàn)［21-27］研究了基于DDPG、DQN 和PPO 等算法的智能制導(dǎo)技術(shù)，在縱向制導(dǎo)中計(jì)算傾側(cè)角幅值，抽象橫向制導(dǎo)傾側(cè)角反轉(zhuǎn)邏輯為馬爾可夫決策問題，使得飛行器初步具備了自主決策能力。在姿態(tài)控制方面，文獻(xiàn)［28-31］在傳統(tǒng)控制的基礎(chǔ)上，進(jìn)一步利用強(qiáng)化學(xué)習(xí)算法實(shí)現(xiàn)了從飛行器位置、速度和姿態(tài)角等信息到控制量的端到端飛行控制。

傳統(tǒng)高速飛行器禁飛區(qū)繞飛方法存在2 方面的不足：一是優(yōu)化類方法存在迭代計(jì)算量大、收斂速度慢等問題，難以滿足在線應(yīng)用的實(shí)時(shí)性要求；二是預(yù)測校正制導(dǎo)方法在縱向制導(dǎo)中僅以中末交班點(diǎn)信息校正傾側(cè)角的幅值，未綜合考慮禁飛區(qū)的位置信息和中末交班點(diǎn)信息，在橫向制導(dǎo)中需要基于人工經(jīng)驗(yàn)設(shè)計(jì)飛行走廊參數(shù)，對于突現(xiàn)的禁飛區(qū)適應(yīng)能力差，影響高速飛行器在不確定飛行環(huán)境中完成任務(wù)的成功率。

針對高速飛行器禁飛區(qū)繞飛問題，通過智能技術(shù)的賦能，提升高速飛行器對不確定禁飛區(qū)繞飛的適應(yīng)能力。具體問題為：

1）參數(shù)設(shè)置

飛行器的再入初始點(diǎn)參數(shù)和禁飛區(qū)的位置參數(shù)在合理的范圍內(nèi)隨機(jī)設(shè)置，中末交班點(diǎn)的位置固定，目的是希望以隨機(jī)的再入初始點(diǎn)為起滑點(diǎn)，成功繞飛隨機(jī)位置的禁飛區(qū)，且能精確到達(dá)固定的中末交班點(diǎn)。

2）飛行器的飛行軌跡可分為如下3段：

第1 段，飛行器從再入初始點(diǎn)開始并不清楚前方是否有禁飛區(qū)，在尚未發(fā)現(xiàn)禁飛區(qū)時(shí)，以中末交班點(diǎn)為滑翔段目標(biāo)點(diǎn)，基于預(yù)測校正制導(dǎo)方法實(shí)時(shí)解算制導(dǎo)指令；第2 段，當(dāng)飛行器與禁飛區(qū)中心點(diǎn)的距離小于禁飛區(qū)半徑的2.5 倍時(shí)，飛行器探測到前方有禁飛區(qū)，開始實(shí)施機(jī)動(dòng)繞飛，該段采用智能制導(dǎo)方法，以飛行器相對禁飛區(qū)和中末交班點(diǎn)的狀態(tài)信息為輸入變量，利用訓(xùn)練的智能制導(dǎo)模型實(shí)時(shí)輸出繞飛時(shí)的制導(dǎo)指令；第3 段，當(dāng)飛行器與中末交班點(diǎn)的距離小于禁飛區(qū)中心點(diǎn)與中末交班點(diǎn)的距離時(shí)，認(rèn)為禁飛區(qū)繞飛結(jié)束，繞飛結(jié)束后繼續(xù)采用預(yù)測校正制導(dǎo)方法控制飛行器精確到達(dá)中末交班點(diǎn)。

本文的立意主要體現(xiàn)在以下2 個(gè)方面：

1）提出“預(yù)測校正制導(dǎo)—基于監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練傾側(cè)角制導(dǎo)模型—基于強(qiáng)化學(xué)習(xí)進(jìn)一步升級傾側(cè)角制導(dǎo)模型”逐級遞進(jìn)的禁飛區(qū)繞飛智能制導(dǎo)研究框架。首先，設(shè)置高速飛行器合適的初始點(diǎn)和禁飛區(qū)的參數(shù)范圍，基于傳統(tǒng)預(yù)測校正制導(dǎo)方法，生成大量的禁飛區(qū)繞飛樣本軌跡；其次，利用監(jiān)督學(xué)習(xí)方法和生成的樣本軌跡對傾側(cè)角制導(dǎo)模型進(jìn)行預(yù)訓(xùn)練，其目的是通過領(lǐng)域知識引導(dǎo)繞飛策略的搜索，使得基于監(jiān)督學(xué)習(xí)方法訓(xùn)練出的制導(dǎo)模型對禁飛區(qū)的繞飛效果最大程度逼近基于預(yù)測校正制導(dǎo)的繞飛效果。

2）在監(jiān)督學(xué)習(xí)的基礎(chǔ)上，進(jìn)一步利用強(qiáng)化學(xué)習(xí)技術(shù)在智能決策方面的天然優(yōu)勢，擺脫傳統(tǒng)預(yù)測校正制導(dǎo)方法對傾側(cè)角解空間的約束，通過飛行器與環(huán)境大量交互“試錯(cuò)”，并借鑒人類基于反饋來調(diào)整學(xué)習(xí)策略的思想，設(shè)置有效的獎(jiǎng)勵(lì)（反饋）引導(dǎo)，利用強(qiáng)化學(xué)習(xí)中PPO 算法進(jìn)一步升級禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型。一方面利用智能技術(shù)充分挖掘高升阻比飛行器強(qiáng)大的橫向機(jī)動(dòng)能力，在不同傾側(cè)角下其橫向機(jī)動(dòng)距離可以從幾百公里跨越到上千公里，利用智能制導(dǎo)模型將傾側(cè)角的幅值和符號一并輸出，具有更大的探索空間，期望產(chǎn)生更優(yōu)的繞飛策略；另一方面受飛行器的能量約束，在繞飛時(shí)需綜合考慮禁飛區(qū)約束和滑翔終端約束，確保繞飛后具備足夠的能量精確到達(dá)中末交班點(diǎn)，從而滿足未來飛行器智能決策系統(tǒng)對不確定場景的適應(yīng)性需求。

圍繞基于強(qiáng)化學(xué)習(xí)的禁飛區(qū)繞飛智能制導(dǎo)技術(shù)開展研究，第1 節(jié)建立了高速飛行器的動(dòng)力學(xué)模型；第2 節(jié)研究了禁飛區(qū)繞飛智能制導(dǎo)模型的設(shè)計(jì)；第3 節(jié)深入研究基于監(jiān)督學(xué)習(xí)的禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型的訓(xùn)練；第4 節(jié)在第3 節(jié)研究的基礎(chǔ)上，進(jìn)一步深入研究基于強(qiáng)化學(xué)習(xí)的禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型的升級訓(xùn)練；第5 節(jié)給出仿真、對比與結(jié)果分析；第6 節(jié)為結(jié)論。

1 高速飛行器動(dòng)力學(xué)建模

1.1 高速飛行器運(yùn)動(dòng)模型

高速飛行器三自由度動(dòng)力學(xué)方程為

式中：r為地心距；θ和?分別表示飛行器的經(jīng)緯度；V為飛行速度；γ和ψ分別表示飛行器的航跡角和航向角；σ表示傾側(cè)角；m為飛行器的質(zhì)量；g為重力加速度；L和D分別表示飛行器受到的升力和阻力［32］。

1.2 再入制導(dǎo)約束

高速飛行器在飛行過程中需滿足多種約束條件，主要包括：

1）硬約束條件

硬約束條件是指飛行器飛行過程中需要滿足的熱流率、過載和動(dòng)壓等約束條件，其表達(dá)式為

2）中末交班點(diǎn)約束條件

中末交班點(diǎn)約束是指滑翔段和末制導(dǎo)段的交班點(diǎn)滿足高度、速度、經(jīng)緯度等約束，可表示為

式中：tf、rf、Vf、θf和?f分別表示中末交班點(diǎn)的時(shí)刻、地心距、速度、經(jīng)度和緯度，tf不固定，rf、Vf、θf和?f是預(yù)先設(shè)置的。

3）禁飛區(qū)約束條件

一般采用無限高的圓柱模型來描述禁飛區(qū)約束，再入飛行軌跡不能與該圓柱相交。禁飛區(qū)約束可建模為

式中：R0為地球半徑；θNFZ、?NFZ和rNFZ分別表示禁飛區(qū)中心的經(jīng)度、緯度和半徑。

2 禁飛區(qū)繞飛智能制導(dǎo)模型的設(shè)計(jì)

2.1 研究框架

本文借鑒Alpha Go［33］的思想，將監(jiān)督學(xué)習(xí)技術(shù)和強(qiáng)化學(xué)習(xí)技術(shù)融合應(yīng)用于禁飛區(qū)繞飛制導(dǎo)中，主要包括3 個(gè)步驟，如圖1 所示。

圖1 高速飛行器禁飛區(qū)繞飛智能制導(dǎo)研究框架Fig.1 Research framework of intelligent guidance of re‐entry vehicles for avoiding no-fly zone

步驟1預(yù)測校正制導(dǎo)

設(shè)置飛行器再入初始點(diǎn)和禁飛區(qū)的參數(shù)范圍，基于傳統(tǒng)預(yù)測校正制導(dǎo)方法，生成大量的繞飛樣本軌跡。

步驟2監(jiān)督學(xué)習(xí)

建立禁飛區(qū)繞飛傾側(cè)角智能制導(dǎo)模型，利用監(jiān)督學(xué)習(xí)中帶有動(dòng)量的隨機(jī)梯度下降（Stochas‐tic Gradient Descent with Momentum，SGDM）算法［34］和步驟1 產(chǎn)生的繞飛樣本軌跡，訓(xùn)練傾側(cè)角智能制導(dǎo)模型。

步驟3強(qiáng)化學(xué)習(xí)

在步驟2 基于監(jiān)督學(xué)習(xí)訓(xùn)練出的禁飛區(qū)繞飛傾側(cè)角智能制導(dǎo)模型的基礎(chǔ)上，利用強(qiáng)化學(xué)習(xí)在智能決策方面的優(yōu)勢，在禁飛區(qū)約束、終端約束、過程約束下通過飛行器與環(huán)境進(jìn)行大量交互，并借鑒人類基于反饋來調(diào)整學(xué)習(xí)策略的思想，設(shè)置有效的獎(jiǎng)勵(lì)（反饋），利用強(qiáng)化學(xué)習(xí)中PPO 算法［20］進(jìn)一步訓(xùn)練禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型，實(shí)現(xiàn)飛行器基于實(shí)時(shí)的狀態(tài)信息在線決策禁飛區(qū)繞飛所需的傾側(cè)角幅值和符號指令。該方法一方面充分挖掘高升阻比飛行器強(qiáng)大的橫向機(jī)動(dòng)能力，另一方面受飛行器的能量約束，確保繞飛后具備足夠的能量精確到達(dá)中末交班點(diǎn)。

2.2 禁飛區(qū)繞飛傾側(cè)角智能制導(dǎo)模型

禁飛區(qū)繞飛示意圖如圖2 所示。其中，C是高速飛行器的當(dāng)前位置；T為中末交班點(diǎn)的位置；Z為禁飛區(qū)的中心；M為C點(diǎn)與禁飛區(qū)切線的交點(diǎn)。過C點(diǎn)作禁飛區(qū)的切線CM和CN，CM與北向的夾角為ψM。

圖2 禁飛區(qū)繞飛示意圖Fig.2 Diagram of avoiding no-fly zone

禁飛區(qū)繞飛傾側(cè)角智能制導(dǎo)模型如圖3 所示，其中制導(dǎo)模型的輸入為飛行器的狀態(tài)向量，定義狀態(tài)向量為

圖3 基于LSTM 的禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型Fig.3 Bank angle guidance model avoiding no-fly zone based on LSTM

式中：Δr=r?rf表示t時(shí)刻的地心距與中末交班點(diǎn)地心距的差；ΔV=V?Vf表示t時(shí)刻的速度與中末交班點(diǎn)速度的差；Ltogo表示t時(shí)刻飛行器距離中末交班點(diǎn)的剩余航程：

s(t)的后2 個(gè)變量（ψMCV，ψTCZ）為飛行器相對禁飛區(qū)的狀態(tài)變量。由圖2 可以看出，在禁飛區(qū)繞飛時(shí)需要考慮：

1）判斷從哪一側(cè)規(guī)避禁飛區(qū)，ψTCZ=ψT?ψZ表示CT與北向的夾角ψT與CZ與北向的夾角ψZ的差。當(dāng)ψTCZ<0 時(shí)，從禁飛區(qū)左側(cè)繞飛；當(dāng)ψTCZ>0 時(shí)，從禁飛區(qū)右側(cè)繞飛。

2）判斷速度V的方向是否指向禁飛區(qū)，ψMCV=ψM?ψ表示CM與北向的夾角ψM與飛行器航向角ψ的差。當(dāng)飛行器速度方向指向禁飛區(qū)外側(cè)時(shí)，ψMCV>0；當(dāng)飛行器速度方向指向禁飛區(qū)時(shí)，ψMCV<0。

禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型的隱層為長短期記憶網(wǎng)絡(luò)（Long Short-Term Memory，LSTM）模型［35］，隱層的節(jié)點(diǎn)數(shù)為64 個(gè)，隱層到輸出層是全連接，輸出為傾側(cè)角σ。

從智能決策的角度來說，飛行器繞飛決策屬于典型的序貫決策問題，每一時(shí)刻決策傾側(cè)角時(shí)不僅取決于飛行器當(dāng)前時(shí)刻的狀態(tài)，還與上一時(shí)刻的傾側(cè)角有關(guān)。因而在決策傾側(cè)角時(shí)需要考慮相鄰時(shí)刻間的狀態(tài)關(guān)系，而這也恰好是LSTM 所具有的獨(dú)特優(yōu)勢，是解決序貫決策的經(jīng)典模型，因而選擇基于LSTM 構(gòu)建禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型。

2.3 傾側(cè)角幅值的約束

基于LSTM 模型輸出禁飛區(qū)繞飛的傾側(cè)角需滿足再入過程的硬約束條件。文獻(xiàn)［32］將再入過程的硬約束條件轉(zhuǎn)化為對傾側(cè)角幅值的約束：

式中：CL和CD分別為升力系數(shù)和阻力系數(shù)；S為特征面積；分別為熱流率、過載和動(dòng)壓約束下飛行器傾側(cè)角的上界。在基于LSTM 模型輸出禁飛區(qū)繞飛傾側(cè)角幅值的基礎(chǔ)上，進(jìn)一步利用式（7）對傾側(cè)角進(jìn)行限制，使其滿足硬約束條件。

3 基于監(jiān)督學(xué)習(xí)的禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型的訓(xùn)練

訓(xùn)練過程分為2 步：一是禁飛區(qū)繞飛訓(xùn)練樣本的生成；二是禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型的訓(xùn)練。

3.1 訓(xùn)練樣本的生成

選取美國通用航空飛行器CAV-H 為研究對象，基于預(yù)測校正制導(dǎo)方法產(chǎn)生禁飛區(qū)繞飛的樣本數(shù)據(jù)。參數(shù)設(shè)置如下［36］：

1）飛行器參數(shù)

質(zhì)量m=907.20 kg，特征面積S=0.483 9 m2，過程約束中最大允許熱流率，最大允許過載nmax=3g，最大允許動(dòng)壓qmax=100 kPa。

2）中末交班點(diǎn)參數(shù)

高度hf=23 km，經(jīng)度θf=50°，緯度?f=0°，速度。

3）攻角剖面

4）飛行器再入初始點(diǎn)和禁飛區(qū)的狀態(tài)參數(shù)設(shè)置如表1 所示。

表1 飛行器再入初始點(diǎn)和禁飛區(qū)的參數(shù)Table 1 Parameters of initial state and no?fly zone of flight vehicle

在上述參數(shù)范圍內(nèi)隨機(jī)設(shè)置飛行器的再入初始點(diǎn)和禁飛區(qū)參數(shù)，在預(yù)測校正制導(dǎo)下可以獲得大量的繞飛軌跡數(shù)據(jù)。在打靶試驗(yàn)后，總計(jì)生成2 048 條飛行軌跡，從禁飛區(qū)左側(cè)和從右側(cè)規(guī)避的飛行軌跡各1 024 條。符合中末交班點(diǎn)約束和禁飛區(qū)約束的飛行軌跡共1 309 條，其中從左側(cè)規(guī)避彈道623 條，從右側(cè)規(guī)避彈道686 條，如圖4 所示。從1 309 條飛行軌跡數(shù)據(jù)中，隨機(jī)抽取1 200 條飛行軌跡數(shù)據(jù)組成樣本集，其中840 條飛行軌跡用作監(jiān)督學(xué)習(xí)時(shí)的訓(xùn)練集，180 條飛行軌跡用作驗(yàn)證集，剩下的180條飛行軌跡用作測試集。

圖4 通用航空飛行器H 從左右兩側(cè)規(guī)避禁飛區(qū)的繞飛軌跡Fig.4 Subsatellite track formed by common aero vehicle-H avoiding no-fly zone from left and right side

需要說明的是，圖4 中的每條飛行軌跡分為3 段，其中第1、3 段在圖中用虛線表示，中間第2 段用實(shí)線表示。第1 段為尚未發(fā)現(xiàn)禁飛區(qū)時(shí)以中末交班點(diǎn)為目標(biāo)點(diǎn)的飛行軌跡；當(dāng)飛行器與禁飛區(qū)中心點(diǎn)的距離小于禁飛區(qū)半徑的2.5 倍時(shí)，認(rèn)為飛行器探測到前方的禁飛區(qū)，開始繞飛，即用實(shí)線表示的第2 段繞飛軌跡；當(dāng)飛行器與中末交班點(diǎn)距離，小于禁飛區(qū)中心點(diǎn)與中末交班點(diǎn)距離時(shí)，認(rèn)為禁飛區(qū)繞飛結(jié)束，進(jìn)入虛線表示的第3 段飛行軌跡。在訓(xùn)練時(shí)截取第2 段禁飛區(qū)繞飛的樣本數(shù)據(jù)訓(xùn)練傾側(cè)角智能制導(dǎo)模型。

3.2 傾側(cè)角智能制導(dǎo)模型的訓(xùn)練

將840 條訓(xùn)練飛行軌跡數(shù)據(jù)輸入圖3 基于LSTM 的禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型中，基于監(jiān)督學(xué)習(xí)的思想，選取均方根誤差（Root Mean Square Error，RMSE）作為評價(jià)指標(biāo)，其定義為

式中：N表示軌跡的數(shù)目；R表示每一條軌跡的樣本點(diǎn)數(shù)。

訓(xùn)練結(jié)果如圖5 所示，可以看出，均方根誤差隨著訓(xùn)練迭代次數(shù)的增加逐漸減小且趨于收斂。

圖5 均方根誤差隨迭代次數(shù)的變化曲線Fig.5 RMSE-epoch variation curve

4 基于強(qiáng)化學(xué)習(xí)的禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型的訓(xùn)練

在第3 節(jié)基于監(jiān)督學(xué)習(xí)的禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型訓(xùn)練的基礎(chǔ)上，進(jìn)一步將強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用于禁飛區(qū)繞飛制導(dǎo)中，在禁飛區(qū)約束、中末交班點(diǎn)約束和硬約束條件下通過飛行器與環(huán)境進(jìn)行大量交互，在“試錯(cuò)”的過程中設(shè)置有效的獎(jiǎng)勵(lì)（反饋），并利用PPO 算法訓(xùn)練傾側(cè)角制導(dǎo)模型，進(jìn)一步提升對不確定禁飛區(qū)的適應(yīng)性。

基于強(qiáng)化學(xué)習(xí)研究飛行器禁飛區(qū)繞飛制導(dǎo)律，需首先利用馬爾科夫決策過程對禁飛區(qū)繞飛制導(dǎo)問題進(jìn)行建模，主要包括3 部分：禁飛區(qū)繞飛時(shí)的狀態(tài)空間、繞飛決策的動(dòng)作空間和繞飛獎(jiǎng)勵(lì)的設(shè)計(jì)。

1）禁飛區(qū)繞飛時(shí)的狀態(tài)空間

飛行器的狀態(tài)空間如式（5）所示，即s(t)=[Δr，ΔV，ψ，Ltogo，ψMCV，ψTCZ]T。

2）禁飛區(qū)繞飛時(shí)的動(dòng)作空間

飛行器的動(dòng)作空間A為傾側(cè)角σ，包括傾側(cè)角的幅值和符號：

3）禁飛區(qū)繞飛時(shí)的獎(jiǎng)勵(lì)設(shè)計(jì)

獎(jiǎng)勵(lì)根據(jù)任務(wù)需求進(jìn)行設(shè)計(jì)，以引導(dǎo)飛行器在對禁飛區(qū)繞飛的同時(shí)，具備良好的能量和交班管理。獎(jiǎng)勵(lì)的設(shè)計(jì)包括過程獎(jiǎng)勵(lì)和終端獎(jiǎng)勵(lì)。除了終端獎(jiǎng)勵(lì)，設(shè)計(jì)過程獎(jiǎng)勵(lì)的目的是避免出現(xiàn)稀疏獎(jiǎng)勵(lì)問題，稀疏獎(jiǎng)勵(lì)容易使訓(xùn)練難以收斂。

4.1 過程獎(jiǎng)勵(lì)

過程獎(jiǎng)勵(lì)分為2 部分：

1）利用傳統(tǒng)的預(yù)測校正制導(dǎo)引導(dǎo)禁飛區(qū)繞飛時(shí)的策略搜索，即強(qiáng)化學(xué)習(xí)算法的“利用”（Ex‐ploit）性質(zhì)；同時(shí)需增加飛行器與環(huán)境交互過程中的探索性，期望其能夠探索出比傳統(tǒng)制導(dǎo)方法更優(yōu)、適應(yīng)范圍更廣的智能制導(dǎo)方法，即強(qiáng)化學(xué)習(xí)算法的“探索”（Explore）性質(zhì)。該獎(jiǎng)勵(lì)定義為

式中：kcomd>0 為常數(shù)；σtra為當(dāng)前狀態(tài)下預(yù)測校正制導(dǎo)給出的傾側(cè)角指令；σt為智能制導(dǎo)模型探索出的傾側(cè)角指令。通過設(shè)計(jì)有效的Δσ域，以提供飛行器傾側(cè)角指令合理的探索空間。

2）在繞飛過程中需要引導(dǎo)飛行器持續(xù)飛向中末交班點(diǎn)，該獎(jiǎng)勵(lì)定義為

式中：kgoto>0 為常數(shù)；dexit為判定禁飛區(qū)繞飛結(jié)束時(shí)的條件距離；dt為當(dāng)前剩余航程，飛行器越接近繞飛結(jié)束點(diǎn)，該項(xiàng)獎(jiǎng)勵(lì)越大。

4.2 終端獎(jiǎng)勵(lì)

終端獎(jiǎng)勵(lì)分為2 部分：

1）負(fù)責(zé)對不合理情況進(jìn)行當(dāng)前局終止，并給出終局獎(jiǎng)勵(lì)ravoid。不合理情況的判斷條件為

式中：cavoid為條件判斷符，用于判斷是否出現(xiàn)不合理情況，取布爾值0 或1，滿足條件取1，觸發(fā)結(jié)束當(dāng)前局條件；Et表示飛行器的能量，其表達(dá)式為，EJB為中末交班點(diǎn)能量，Et

式中：aavoid>0 為常數(shù)。

2）飛行器精確到達(dá)中末交班點(diǎn)的獎(jiǎng)勵(lì)rJB，其定義為

5 仿真與分析

5.1 不同制導(dǎo)方法對比分析

以CAV-H 為研究對象，參數(shù)設(shè)置見3.1 節(jié)，比較3 種不同制導(dǎo)方法對禁飛區(qū)的繞飛效果：①預(yù)測校正制導(dǎo)方法；②第3 節(jié)基于監(jiān)督學(xué)習(xí)中SGDM 算法訓(xùn)練禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型的方法（圖中記為“LSTM 模型+SGDM 算法”）；③第4 節(jié)中基于強(qiáng)化學(xué)習(xí)中PPO 算法訓(xùn)練禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型的方法（記為“LSTM 模型+PPO 算法”），對比結(jié)果如圖6～圖10 所示。

圖6 橫向繞飛軌跡對比Fig.6 Comparison of horizontal trajectory for avoiding no-fly zone

圖7 高度-速度對比Fig.7 Comparison of height-velocity

圖8 傾側(cè)角-時(shí)間對比Fig.8 Comparison of bank angle-time

圖9 航跡角-時(shí)間對比Fig.9 Comparison of flight path angle-time

圖10 航向角-時(shí)間對比Fig.10 Comparison of heading angle-time

由圖6～圖10 可以看出，“預(yù)測校正制導(dǎo)”與“LSTM 模型+SGDM 算法”2 種制導(dǎo)方式下的禁飛區(qū)繞飛的軌跡基本重合，這是由于利用監(jiān)督學(xué)習(xí)訓(xùn)練傾側(cè)角制導(dǎo)模型時(shí)，選取的禁飛區(qū)繞飛樣本軌跡是基于預(yù)測校正制導(dǎo)方法產(chǎn)生，該訓(xùn)練過程可理解為對預(yù)測校正制導(dǎo)的擬合過程。由圖6 可以看出，該方法雖然能成功繞飛禁飛區(qū)，但由于對禁飛區(qū)規(guī)避機(jī)動(dòng)過大而導(dǎo)致能量損失過多，在繞飛后無法精確到達(dá)中末交班點(diǎn)?！癓STM模型+PPO 算法”制導(dǎo)下的繞飛軌跡明顯不同于預(yù)測校正制導(dǎo)下的飛行軌跡，在過程獎(jiǎng)勵(lì)和終端獎(jiǎng)勵(lì)的引導(dǎo)下，探索出比傳統(tǒng)制導(dǎo)方法更優(yōu)的智能制導(dǎo)方法，不僅能夠?qū)崿F(xiàn)對禁飛區(qū)的成功繞飛，且在繞飛后精確到達(dá)中末交班點(diǎn)。

5.2 Monte Carlo 仿真分析

為驗(yàn)證“LSTM 模型+PPO 算法”制導(dǎo)方法的魯棒性和對參數(shù)偏差的適應(yīng)性，對飛行器再入初始狀態(tài)、氣動(dòng)參數(shù)進(jìn)行拉偏仿真分析。

在如表2 所示的再入初始狀態(tài)擾動(dòng)和氣動(dòng)偏差的條件下，基于“LSTM 模型+PPO 算法”制導(dǎo)方法進(jìn)行729 組的Monte Carlo 仿真，落點(diǎn)經(jīng)緯度的散布圖如圖11 所示，可以看出中末交班點(diǎn)的經(jīng)緯度均勻分布在θf=50°、?f=0°周圍，且最大落點(diǎn)偏差控制在±0.1°的范圍內(nèi)。

表2 飛行器再入初始狀態(tài)和氣動(dòng)參數(shù)偏差Table 2 Initial state error and aerodynamic parameter perturbation

圖11 初始狀態(tài)和氣動(dòng)參數(shù)擾動(dòng)下落點(diǎn)經(jīng)緯度的散布圖Fig.11 Scatter of longitude and latitude of setting point under initial state error and aerodynamic param‐eter perturbation

為進(jìn)一步對比傳統(tǒng)預(yù)測校正制導(dǎo)與“LSTM模型+PPO 算法”制導(dǎo)方法對禁飛區(qū)的繞飛效果，對比結(jié)果如圖12 所示，每個(gè)格子代表不同的起始點(diǎn)經(jīng)度、緯度、速度和高度，其中經(jīng)度變化范圍為[4.8°，5.2°]，緯度變化范圍為[?0.2°，0.2°]，步長為0.05°；高度變化范圍為[48，50] km；速度變化范圍為[5 550，5 600] km/s。可以看出，在初始參數(shù)擾動(dòng)情況下，“LSTM 模型+PPO 算法”制導(dǎo)方法相比于預(yù)測校正制導(dǎo)具有更高的繞飛成功率，其原因在于基于LSTM 的智能制導(dǎo)模型具有天然的泛化能力，因而對于參數(shù)的偏差具有更強(qiáng)的魯棒性。

圖12 預(yù)測校正制導(dǎo)與“LSTM 模型+PPO 算法”制導(dǎo)方法對比Fig.12 Comparison of predictor-corrector guidance and “LSTM model+PPO algorithm” guidance method

5.3 實(shí)時(shí)性分析

進(jìn)一步分析“LSTM 模型+PPO 算法”制導(dǎo)方法在實(shí)時(shí)性方面的性能。在Monte Carlo 仿真中，基于“LSTM 模型+PPO 算法”制導(dǎo)方法完成一次禁飛區(qū)繞飛時(shí)傾側(cè)角指令解算的平均時(shí)長為3.61 s，其具體分布如圖13 所示，其中基于LSTM 模型生成傾側(cè)角的時(shí)長為2.26 s，龍格庫塔RK-4 積分時(shí)長為1.23 s。

圖13 計(jì)算實(shí)時(shí)性對比分析Fig.13 Comparison of computing time analysis

與之對比，在Monte Carlo 仿真中，基于預(yù)測校正制導(dǎo)方法完成一次禁飛區(qū)繞飛時(shí)傾側(cè)角指令解算的平均時(shí)長為18.49 s，其中縱向制導(dǎo)的平均時(shí)長為17.18 s，橫向制導(dǎo)過程占其中的1.23 s。這是因?yàn)樵诳v向制導(dǎo)中，對動(dòng)力學(xué)方程進(jìn)行積分的預(yù)測過程和基于割線法求解傾側(cè)角的校正過程計(jì)算量較大，占用的時(shí)間較長。而基于LSTM 模型的禁飛區(qū)繞飛傾側(cè)角指令的解算沒有“預(yù)測”環(huán)節(jié)和“積分”環(huán)節(jié)，大大減少了計(jì)算量，提高了計(jì)算速度。因而，在實(shí)時(shí)性方面，基于“LSTM 模型+PPO 算法”制導(dǎo)方法相比于傳統(tǒng)預(yù)測校正制導(dǎo)具有明顯的優(yōu)勢。

6 結(jié)論

針對傳統(tǒng)基于優(yōu)化類方法解決禁飛區(qū)繞飛存在計(jì)算量大、難以收斂的問題，基于預(yù)測校正的制導(dǎo)方法在縱向制導(dǎo)中僅以中末交班點(diǎn)信息校正傾側(cè)角的幅值，未綜合考慮禁飛區(qū)的位置信息和中末交班點(diǎn)信息，在橫向制導(dǎo)中需要基于人工經(jīng)驗(yàn)設(shè)計(jì)飛行走廊參數(shù)，對于突現(xiàn)的禁飛區(qū)適應(yīng)能力差。利用強(qiáng)化學(xué)習(xí)技術(shù)在智能決策方面的天然優(yōu)勢，通過飛行器與環(huán)境大量交互“試錯(cuò)”，并借鑒人類基于反饋來調(diào)整學(xué)習(xí)策略的思想，基于有效的獎(jiǎng)勵(lì)（反饋）引導(dǎo)和強(qiáng)化學(xué)習(xí)中PPO 算法訓(xùn)練禁飛區(qū)繞飛傾側(cè)角制導(dǎo)模型。該智能制導(dǎo)模型將傾側(cè)角的幅值和符號一并輸出，能夠充分挖掘高升阻比飛行器強(qiáng)大的橫向機(jī)動(dòng)能力，以產(chǎn)生更優(yōu)的繞飛策略。同時(shí)本文在繞飛時(shí)綜合考慮禁飛區(qū)約束和再入終端約束，確保繞飛后具備足夠的能量精確到達(dá)中末交班點(diǎn)。

盡管基于強(qiáng)化學(xué)習(xí)的智能制導(dǎo)技術(shù)能夠充分挖掘飛行器的寬域飛行優(yōu)勢，且具備非線性映射能力和實(shí)時(shí)性方面的天然優(yōu)勢，但目前的智能制導(dǎo)技術(shù)存在難以回避的缺點(diǎn)：一是基于強(qiáng)化學(xué)習(xí)的智能制導(dǎo)技術(shù)本質(zhì)上還是純數(shù)據(jù)驅(qū)動(dòng)的模式，需要飛行器與環(huán)境交互產(chǎn)生大量樣本數(shù)據(jù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型，但在航天領(lǐng)域，真實(shí)的飛行數(shù)據(jù)往往難以獲取，只能在仿真環(huán)境下獲取，存在仿真環(huán)境與實(shí)際飛行環(huán)境不一致的問題；二是目前的人工智能仍然處于計(jì)算智能階段，神經(jīng)網(wǎng)絡(luò)模型只能在訓(xùn)練樣本數(shù)據(jù)集覆蓋的范圍內(nèi)有效，依然不具備較強(qiáng)的泛化能力，實(shí)際飛行中若出現(xiàn)數(shù)據(jù)集范圍外的情況，神經(jīng)網(wǎng)絡(luò)的性能將難以保證。智能制導(dǎo)技術(shù)與傳統(tǒng)制導(dǎo)技術(shù)不是簡單的替代關(guān)系，傳統(tǒng)制導(dǎo)技術(shù)可以在關(guān)鍵點(diǎn)上吸納人工智能技術(shù)在記憶、推理、擬合等方面的優(yōu)勢，2 種技術(shù)的交叉融合是飛行器制導(dǎo)控制的熱門研究方向。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡