利用強(qiáng)化學(xué)習(xí)開(kāi)展比例導(dǎo)引律的導(dǎo)航比設(shè)計(jì)

2023-01-05 10:48李慶波李芳董瑞星樊瑞山謝文龍

兵工學(xué)報(bào) 2022年12期

李慶波，李芳，董瑞星，樊瑞山，謝文龍

(上海機(jī)電工程研究所，上海 201109)

0 引言

制導(dǎo)規(guī)律是指根據(jù)導(dǎo)彈和目標(biāo)的相對(duì)運(yùn)動(dòng)關(guān)系，導(dǎo)引導(dǎo)彈按一定的飛行軌跡對(duì)目標(biāo)實(shí)施精確打擊攔截。制導(dǎo)規(guī)律是導(dǎo)彈精確制導(dǎo)的技術(shù)核心，制導(dǎo)規(guī)律的研究是精確制導(dǎo)武器研究的關(guān)鍵。

國(guó)內(nèi)外關(guān)于末制導(dǎo)規(guī)律的研究目前已有大量的理論成果，例如基于最優(yōu)控制理論的最優(yōu)制導(dǎo)律[1]、將最優(yōu)控制理論與微分對(duì)策理論相結(jié)合的微分對(duì)策制導(dǎo)律[2]、基于模糊控制理論的模糊制導(dǎo)律[3]、神經(jīng)網(wǎng)絡(luò)末制導(dǎo)律[4]以及被廣泛研究的變結(jié)構(gòu)制導(dǎo)規(guī)律[5-6]。盡管制導(dǎo)規(guī)律的理論成果眾多，但受制于工程實(shí)現(xiàn)條件，目前在導(dǎo)彈制導(dǎo)中應(yīng)用最廣泛的仍是比例導(dǎo)引末制導(dǎo)律。

由于比例導(dǎo)引規(guī)律實(shí)現(xiàn)簡(jiǎn)單、工程易用性強(qiáng)，許多專家學(xué)者開(kāi)展了基于比例導(dǎo)引的進(jìn)一步研究。李新三等[7]基于模型靜態(tài)預(yù)測(cè)規(guī)劃方法設(shè)計(jì)了一種協(xié)同比例制導(dǎo)律；閆梁等[8]從普適性制導(dǎo)律的角度出發(fā)，設(shè)計(jì)了一種末端碰撞角約束限制的偏置比例制導(dǎo)律；李波等[9]提出一種基于遺傳算法的模糊比例導(dǎo)引規(guī)律；李轅等[10]設(shè)計(jì)了針對(duì)高速目標(biāo)攔截特點(diǎn)的三維聯(lián)合比例制導(dǎo)律；白國(guó)玉等[11]提出一種自動(dòng)選擇攔截模式并調(diào)整攔截彈速度，兼具順、逆軌攔截能力的全向真比例制導(dǎo)律；秦瀟等[12]考慮用擴(kuò)張狀態(tài)觀測(cè)器對(duì)目標(biāo)的機(jī)動(dòng)形式進(jìn)行在線估計(jì)，設(shè)計(jì)了一種帶有目標(biāo)機(jī)動(dòng)補(bǔ)償?shù)姆幢壤茖?dǎo)律；Su等[13]設(shè)計(jì)了一種考慮零控脫靶以及飛行器間安全距離的偏置比例導(dǎo)引律；王榮剛等[14]提出一種攔截高速運(yùn)動(dòng)目標(biāo)廣義相對(duì)偏置比例制導(dǎo)律。

關(guān)于比例導(dǎo)引規(guī)律的擴(kuò)展研究通常是在傳統(tǒng)比例導(dǎo)引的基礎(chǔ)上增加修正項(xiàng)，如重力補(bǔ)償、導(dǎo)彈軸向加速度補(bǔ)償、目標(biāo)機(jī)動(dòng)補(bǔ)償及碰撞角約束等環(huán)節(jié)。因此無(wú)論對(duì)于何種比例導(dǎo)引，都無(wú)法避開(kāi)傳統(tǒng)比例導(dǎo)引中以視線角速度為輸入量的導(dǎo)航比設(shè)計(jì)過(guò)程。文獻(xiàn)[15]建議導(dǎo)航比范圍為2～6之間，然而這是一個(gè)相對(duì)寬泛的取值區(qū)間，在此范圍內(nèi)的不同取值對(duì)導(dǎo)彈制導(dǎo)攔截性能具有顯著的影響。

導(dǎo)彈制導(dǎo)攔截的過(guò)程實(shí)際上是導(dǎo)彈與目標(biāo)的博弈過(guò)程，而導(dǎo)航比的選取問(wèn)題就是這個(gè)博弈過(guò)程中制導(dǎo)控制的決策過(guò)程。強(qiáng)化學(xué)習(xí)利用試錯(cuò)法不斷與環(huán)境交互來(lái)改善自己的行為，從而優(yōu)化自身的應(yīng)對(duì)策略，同時(shí)強(qiáng)化學(xué)習(xí)具有對(duì)環(huán)境的先驗(yàn)知識(shí)要求低的優(yōu)點(diǎn)，是一種可以應(yīng)用到實(shí)時(shí)環(huán)境中的學(xué)習(xí)方式[16-17]。

近些年，強(qiáng)化學(xué)習(xí)在導(dǎo)彈制導(dǎo)中的應(yīng)用開(kāi)始引起學(xué)者關(guān)注，陳中原等[18]提出基于強(qiáng)化學(xué)習(xí)的多彈協(xié)同攻擊智能制導(dǎo)律，用以降低脫靶量和攻擊時(shí)間誤差。梁晨等[19]針對(duì)執(zhí)行機(jī)構(gòu)部分失效條件下導(dǎo)彈對(duì)機(jī)動(dòng)目標(biāo)的攔截問(wèn)題，提出一種基于深度強(qiáng)化元學(xué)習(xí)和剩余飛行時(shí)間感知邏輯函數(shù)的攻擊角度約束三維制導(dǎo)律。

本文采用強(qiáng)化學(xué)習(xí)的方法開(kāi)展導(dǎo)航比的設(shè)計(jì)，嘗試?yán)么髷?shù)據(jù)決策替代傳統(tǒng)的經(jīng)驗(yàn)取值設(shè)計(jì)，解決比例導(dǎo)引規(guī)律設(shè)計(jì)過(guò)程中的共性問(wèn)題，盡可能提升導(dǎo)彈對(duì)目標(biāo)的打擊攔截能力。

1 基本設(shè)計(jì)思路

1.1 比例導(dǎo)引規(guī)律

(1)

式中：K為待設(shè)計(jì)的系數(shù)。

導(dǎo)彈和目標(biāo)的相對(duì)運(yùn)動(dòng)關(guān)系如圖1所示。圖1中,M表示導(dǎo)彈，T表示目標(biāo)，v表示導(dǎo)彈速度，vT表示目標(biāo)速度，η表示導(dǎo)彈速度軸與視線軸的夾角，ηT表示目標(biāo)速度軸與視線軸的夾角，θ表示導(dǎo)彈速度傾角，q表示彈目視線角，xM為水平方向。

圖1 導(dǎo)彈和目標(biāo)相對(duì)運(yùn)動(dòng)關(guān)系Fig.1 Relative motion diagram of missile and target

(2)

從(2)式可以看出，為保證系統(tǒng)穩(wěn)定，則要求有效導(dǎo)航比N>2。

在工程應(yīng)用中，近似認(rèn)為cosη，可將(1)式改寫為

(3)

式中：nc為導(dǎo)彈的過(guò)載指令；g為重力加速度。

從(3)式可知，比例導(dǎo)引規(guī)律算法簡(jiǎn)單，且僅需要外部提供彈目相對(duì)速度及視線角速度信息，這是比例導(dǎo)引規(guī)律能夠在工程中獲得廣泛應(yīng)用的根本原因。為保證本文的算法具備工程易用性，本文將在比例導(dǎo)引規(guī)律的基礎(chǔ)上開(kāi)展設(shè)計(jì)。

1.2 強(qiáng)化學(xué)習(xí)基本理論

強(qiáng)化學(xué)習(xí)任務(wù)通常使用馬爾可夫決策過(guò)程來(lái)描述[20]：機(jī)器處于環(huán)境E中，狀態(tài)空間為S，其中每個(gè)狀態(tài)為機(jī)器感知到的環(huán)境的描述，機(jī)器能采取的動(dòng)作構(gòu)成了動(dòng)作空間A，若某個(gè)動(dòng)作a∈A作用在當(dāng)前狀態(tài)s上，則潛在的轉(zhuǎn)移函數(shù)P將使得環(huán)境從當(dāng)前狀態(tài)按照某種概率轉(zhuǎn)移到另一個(gè)狀態(tài)，在轉(zhuǎn)移到另一個(gè)狀態(tài)的同時(shí)，環(huán)境會(huì)根據(jù)潛在的“獎(jiǎng)賞”函數(shù)R反饋給機(jī)器一個(gè)獎(jiǎng)賞。綜合起來(lái)，強(qiáng)化學(xué)習(xí)任務(wù)對(duì)應(yīng)了四元組E=〈S,A,P,R〉。圖2所示為強(qiáng)化學(xué)習(xí)原理示意圖。

圖2 強(qiáng)化學(xué)習(xí)原理示意圖Fig.2 Schematic diagram of reinforcement learning

強(qiáng)化學(xué)習(xí)的目標(biāo)是給定一個(gè)馬爾可夫決策過(guò)程，尋找最優(yōu)策略。所謂策略是指狀態(tài)到動(dòng)作的映射，策略常用符號(hào)π表示，它是指給定狀態(tài)s時(shí)，動(dòng)作集上的一個(gè)分布，即

π(a|s)=P[At=a|St=s]

(4)

式中：St表示在t時(shí)刻或階段所處的狀態(tài)；At表示在t時(shí)刻或階段所執(zhí)行的動(dòng)作。

策略的定義是通過(guò)條件概率給出的，即在狀態(tài)為s的條件下執(zhí)行動(dòng)作a的概率。策略的優(yōu)劣取決于長(zhǎng)期執(zhí)行這一策略后得到的累積獎(jiǎng)勵(lì)，累積獎(jiǎng)勵(lì)越高，說(shuō)明策略越好。在強(qiáng)化學(xué)習(xí)任務(wù)中，學(xué)習(xí)的目的就是找到能使長(zhǎng)期積累獎(jiǎng)勵(lì)最大化的策略。

1.3 利用強(qiáng)化學(xué)習(xí)開(kāi)展導(dǎo)航比設(shè)計(jì)的基本思路

為利用強(qiáng)化學(xué)習(xí)解決導(dǎo)彈制導(dǎo)規(guī)律設(shè)計(jì)問(wèn)題，首先需將制導(dǎo)規(guī)律設(shè)計(jì)過(guò)程轉(zhuǎn)化為典型的馬爾可夫決策過(guò)程。為不增加工程實(shí)現(xiàn)的復(fù)雜度，本文在比例導(dǎo)引的基礎(chǔ)上，利用強(qiáng)化學(xué)習(xí)對(duì)導(dǎo)航比進(jìn)行設(shè)計(jì)。對(duì)照馬爾可夫決策過(guò)程的四元組，建立導(dǎo)航比取值決策過(guò)程模型如圖3所示。

圖3 導(dǎo)航比取值決策問(wèn)題模型關(guān)系示意圖Fig.3 Schematic diagram of navigation ratio decision model

利用強(qiáng)化學(xué)習(xí)開(kāi)展導(dǎo)航比的設(shè)計(jì)過(guò)程可概述為：通過(guò)全空域大量典型彈道的仿真計(jì)算，評(píng)估導(dǎo)彈在不同飛行狀態(tài)下執(zhí)行不同導(dǎo)航比策略后的制導(dǎo)效果，按照一定的方法尋求能夠獲得最佳制導(dǎo)效果的導(dǎo)航比策略。

強(qiáng)化學(xué)習(xí)多采用ε-貪心或Softmax策略，其目的是在多次采樣過(guò)程中，既能獲得最優(yōu)的策略，同時(shí)也能在采樣過(guò)程中盡可能獲得較大的獎(jiǎng)賞。但在進(jìn)行導(dǎo)航比設(shè)計(jì)過(guò)程中，只關(guān)心最終獲得最優(yōu)的導(dǎo)航比策略，希望在采樣過(guò)程中盡可能獲得豐富的樣本，而不關(guān)心在采樣過(guò)程中獲得的實(shí)際獎(jiǎng)賞。因此本文中的兩種方法均采用“僅探索”的策略開(kāi)展導(dǎo)航比設(shè)計(jì)。

2 蒙特卡洛強(qiáng)化學(xué)習(xí)導(dǎo)引律設(shè)計(jì)

對(duì)標(biāo)工程實(shí)際中廣泛應(yīng)用的比例導(dǎo)引規(guī)律，力求設(shè)計(jì)一種工程應(yīng)用簡(jiǎn)單，制導(dǎo)精度更高的導(dǎo)引規(guī)律。為盡可能簡(jiǎn)化算法設(shè)計(jì)，采用蒙特卡洛強(qiáng)化學(xué)習(xí)方法。

蒙特卡洛強(qiáng)化學(xué)習(xí)的基本思想[20]是：進(jìn)行大量不同策略或不同條件的試驗(yàn)，通過(guò)求取每種策略的平均積累獎(jiǎng)勵(lì)作為期望積累獎(jiǎng)勵(lì)的近似，從而完成對(duì)策略優(yōu)劣的評(píng)估和策略的迭代。

2.1 四要素的確定與設(shè)計(jì)

對(duì)照強(qiáng)化學(xué)習(xí)的要素，具體策略求解模型如下：

1)環(huán)境E。整個(gè)導(dǎo)彈制導(dǎo)仿真模型。具體包含大氣模型、基于氣動(dòng)吹風(fēng)及飛行試驗(yàn)辨識(shí)獲得的氣動(dòng)參數(shù)、發(fā)動(dòng)機(jī)推力參數(shù)、質(zhì)量和重心參數(shù)、理論彈道模型、控制系統(tǒng)模型、導(dǎo)引頭和控制艙等要素。

2)狀態(tài)S。本節(jié)主要考慮工程實(shí)際應(yīng)用，設(shè)計(jì)一種模型簡(jiǎn)單、工程實(shí)現(xiàn)性強(qiáng)的導(dǎo)航比算法，為此將整個(gè)制導(dǎo)的狀態(tài)進(jìn)行簡(jiǎn)化，僅考慮飛行時(shí)間和目標(biāo)攻擊方式兩個(gè)狀態(tài)。

目標(biāo)攻擊狀態(tài)集合為{迎攻，尾追}；

飛行時(shí)間分段離散化集合為{1，2，3，4}，具體分段方式如圖4所示。圖4中，ts為基于飛行時(shí)間的分段序號(hào)，Tqk為起控時(shí)間，Tmz為裝定或計(jì)算的預(yù)計(jì)遭遇時(shí)間。

圖4 飛行時(shí)間分段離散化Fig.4 Flight time piecewise discretization

3)動(dòng)作A。在不同狀態(tài)條件下，導(dǎo)航比的取值。將導(dǎo)航比離散化為

N∈[2∶0.2∶6]

(5)

即存在21種導(dǎo)航比的取值。

4)獎(jiǎng)賞R。本文的設(shè)計(jì)是以視線角速度收斂的程度和最終的脫靶量來(lái)評(píng)估導(dǎo)航比策略的優(yōu)劣，具體獎(jiǎng)賞策略如下：

①視線角速度獎(jiǎng)賞策略。將視線角速度進(jìn)行離散化處理，離散化分段如圖5所示。

圖5 視線角速度分段離散化Fig.5 LOS rate piecewise discretization

在進(jìn)行狀態(tài)切換時(shí)，視線角速度由低狀態(tài)(分段序號(hào)較小值)向高狀態(tài)(分段序號(hào)較大值)變化，對(duì)上一個(gè)狀態(tài)- 動(dòng)作對(duì)進(jìn)行懲罰，即給予該狀態(tài)- 動(dòng)作對(duì)負(fù)向獎(jiǎng)勵(lì)；相反，如果視線角速度反向變化，則對(duì)上一個(gè)狀態(tài)- 動(dòng)作對(duì)進(jìn)行獎(jiǎng)勵(lì)，即給予該狀態(tài)- 動(dòng)作對(duì)正向獎(jiǎng)勵(lì)；如果視線角速度在狀態(tài)切換過(guò)程中仍保持在當(dāng)前分段，則不進(jìn)行獎(jiǎng)勵(lì)和懲罰。本文在計(jì)算過(guò)程中具體采用的關(guān)于視線角速度的獎(jiǎng)賞算法如圖6所示。

圖6 視線角速度獎(jiǎng)賞策略流程圖Fig.6 Flow chart of LOS rate reward strategy

圖6中：ss表示執(zhí)行的彈道序號(hào)，共計(jì)n條彈道；Dqstate(Sts)表示在Sts狀態(tài)時(shí)，視線角速度分段序號(hào)；記錄(Tmz-0.3)時(shí)刻的視線角速度狀態(tài)為Dqstate(S5)；Rdq(Sts,Nts)表示在Sts狀態(tài)時(shí)，導(dǎo)航比采用Nts所獲得的視線角速度獎(jiǎng)賞。

②脫靶量獎(jiǎng)賞策略。將脫靶量進(jìn)行離散化并設(shè)置對(duì)應(yīng)的獎(jiǎng)勵(lì)如圖7所示。

圖7 脫靶量獎(jiǎng)賞策略示意圖Fig.7 Flow chart of miss distance reward strategy

需補(bǔ)充說(shuō)明地是，為便于描述，本節(jié)中的飛行分段、動(dòng)作集合及視線角速度分段是以某防空導(dǎo)彈為背景的實(shí)例化設(shè)計(jì)，在方法推廣過(guò)程中需結(jié)合應(yīng)用對(duì)象的特性對(duì)飛行分段等進(jìn)行適應(yīng)性調(diào)整，后續(xù)章節(jié)中的具體分段劃分及參數(shù)設(shè)計(jì)也需結(jié)合應(yīng)用對(duì)象的特征進(jìn)行調(diào)整。

2.2 策略評(píng)估及求解

2.2.1 狀態(tài)動(dòng)作值函數(shù)計(jì)算

強(qiáng)化學(xué)習(xí)使用狀態(tài)動(dòng)作值函數(shù)來(lái)評(píng)估策略的優(yōu)劣。狀態(tài)動(dòng)作值函數(shù)用Q(Sts,Nts)表示，表征在狀態(tài)Sts條件下，導(dǎo)航比采用Nts所取得的平均積累獎(jiǎng)勵(lì)。Q(Sts,Nts)值越大，表明策略越好。

本文利用折扣積累獎(jiǎng)賞γ計(jì)算不同狀態(tài)- 動(dòng)作對(duì)的平均積累獎(jiǎng)勵(lì)，以此近似估計(jì)狀態(tài)動(dòng)作值函數(shù)Q(Sts,Nts)。算法實(shí)現(xiàn)過(guò)程如圖8所示。圖8中，Rmd(Sts,Nts)表示在Sts狀態(tài)時(shí)，導(dǎo)航比采用Nts所獲得的脫靶量獎(jiǎng)賞，γ為折扣系數(shù)，在本文的實(shí)現(xiàn)中，令γ=0.5。

圖8 狀態(tài)動(dòng)作值函數(shù)算法流程圖Fig.8 Flow chart of state-action value function algorithm

2.2.2 逐段求解最優(yōu)導(dǎo)航比

在算法的實(shí)際操作中，本文結(jié)合導(dǎo)彈制導(dǎo)這一特殊問(wèn)題，本文設(shè)計(jì)了一種逐段求取最佳導(dǎo)航比的方法，具體方法如下：

1)將飛行段1、2和3的導(dǎo)航比設(shè)定為2～6之間的隨機(jī)值，通過(guò)大量不同彈道，分別計(jì)算在飛行段4中不同導(dǎo)航比對(duì)應(yīng)的平均積累獎(jiǎng)勵(lì)R4，其中R4最大時(shí)對(duì)應(yīng)的導(dǎo)航比為飛行段4的最佳導(dǎo)航比N4；

2)將飛行段4的導(dǎo)航比設(shè)置為最佳導(dǎo)航比，飛行段1和2的導(dǎo)航比設(shè)定為2～6之間的隨機(jī)值，過(guò)大量不同彈道，分別計(jì)算在飛行段3中不同導(dǎo)航比對(duì)應(yīng)的平均積累獎(jiǎng)勵(lì)R3，其中R3最大時(shí)對(duì)應(yīng)的導(dǎo)航比為飛行段3的最佳導(dǎo)航比N3；

3)按照同樣的方法獲取飛行段2和飛行段1的最佳導(dǎo)航比。具體過(guò)程如圖9所示。

圖9 導(dǎo)航比逐段求解示意圖Fig.9 Diagram of navigation ratio piecewise solution

3 基于Q-learning強(qiáng)化學(xué)習(xí)的多狀態(tài)自適應(yīng)導(dǎo)航比設(shè)計(jì)

第2節(jié)中，在進(jìn)行導(dǎo)航比設(shè)計(jì)過(guò)程中，僅考慮了目標(biāo)的攻擊方式和制導(dǎo)的飛行分段兩個(gè)方面的狀態(tài)，在實(shí)際制導(dǎo)過(guò)程中，涉及的飛行狀態(tài)遠(yuǎn)不止以上兩方面內(nèi)容。本節(jié)將進(jìn)一步增加對(duì)環(huán)境的狀態(tài)描述，最終目的是設(shè)計(jì)一種能夠根據(jù)復(fù)雜飛行狀態(tài)自適應(yīng)調(diào)整的導(dǎo)航比，由于狀態(tài)變量的增加，導(dǎo)航比設(shè)計(jì)過(guò)程中需要采集更多的樣本，進(jìn)行更大數(shù)量級(jí)的彈道仿真。為進(jìn)一步提升學(xué)習(xí)效率，本節(jié)采用Q-learning算法開(kāi)展導(dǎo)航比的設(shè)計(jì)。

3.1 四要素的確定與設(shè)計(jì)

四要素中的環(huán)境E和動(dòng)作A的對(duì)應(yīng)關(guān)系與2.1節(jié)的設(shè)計(jì)一致，此處不再贅述：

1)狀態(tài)S。在本節(jié)中，除了對(duì)飛行時(shí)間進(jìn)行分段以外，進(jìn)一步細(xì)化了初始裝定的目標(biāo)初始裝定速度的大小，將視線角速度狀態(tài)和遭遇時(shí)間也作為對(duì)環(huán)境的狀態(tài)描述。首先是對(duì)狀態(tài)進(jìn)行離散化分段，本文中對(duì)各狀態(tài)的分段方法如圖10所示。圖10中，ts(Sts)、Dqstate(Sts)、Tmzstate(Sts)、vt0state(Sts)分別表示在狀態(tài)Sts條件下離散化的飛行時(shí)間、視線角速度、預(yù)計(jì)遭遇時(shí)間和目標(biāo)初始速度的分段值。

圖10 制導(dǎo)狀態(tài)分段Fig.10 Diagram of guidance state segments

2)獎(jiǎng)賞R。由于狀態(tài)的細(xì)分，必須對(duì)獎(jiǎng)勵(lì)算法進(jìn)行相應(yīng)的細(xì)分，否則難以在同一狀態(tài)下有效區(qū)分不同策略的優(yōu)劣。

視線角速度獎(jiǎng)賞策略為

(6)

脫靶量獎(jiǎng)賞策略為

Rmd=8e-0.47md-5

(7)

式中：md為最終的脫靶量。

脫靶量獎(jiǎng)賞值隨脫靶量的大小的變化關(guān)系如圖11所示。

圖11 脫靶量獎(jiǎng)賞函數(shù)曲線Fig.11 Curve of miss distance reward function

3.2 策略評(píng)估算法

采用Q-learning強(qiáng)化學(xué)習(xí)算法進(jìn)行策略評(píng)估，具體算法如圖12所示。

圖12 策略評(píng)估算法流程圖Fig.12 Flow chart of strategy evaluation algorithm

圖12中：Q(Sts,Nts)表示在Sts狀態(tài)時(shí)，導(dǎo)航比采用Nts所獲得的平均積累獎(jiǎng)勵(lì)；Num(Sts,Nts)表示狀態(tài)Sts和動(dòng)作Nts所發(fā)生的次數(shù)；N′為基于平均概率分布的隨機(jī)導(dǎo)航比取值，且滿足N′∈[2∶0.2∶6]。

4 仿真對(duì)比

基于某型防空導(dǎo)彈，分別利用蒙特卡洛和Q-learning強(qiáng)化學(xué)習(xí)開(kāi)展導(dǎo)航比設(shè)計(jì)，蒙特卡洛強(qiáng)化學(xué)習(xí)設(shè)計(jì)結(jié)果如表1所示。

通過(guò)以上設(shè)計(jì)結(jié)果可知，蒙特卡洛強(qiáng)化學(xué)習(xí)方法設(shè)計(jì)實(shí)現(xiàn)的導(dǎo)航比算法簡(jiǎn)單，工程易用性強(qiáng)。

根據(jù)Q-learning強(qiáng)化學(xué)習(xí)最終獲得的導(dǎo)航比與狀態(tài)集合一一對(duì)應(yīng)，限于篇幅，本文未列出具體的參數(shù)結(jié)果。

本文通過(guò)從批量彈道中，任意抽取一定數(shù)目的彈道，利用3種導(dǎo)航比設(shè)計(jì)方法開(kāi)展數(shù)字彈道仿真計(jì)算，對(duì)比不同設(shè)計(jì)方法下的脫靶量分布情況。

表1 導(dǎo)航比策略表Table 1 Navigation ratio strategies

3種設(shè)計(jì)方法依次為傳統(tǒng)經(jīng)驗(yàn)設(shè)計(jì)比例導(dǎo)引規(guī)律(APN)、利用蒙特卡洛強(qiáng)化學(xué)習(xí)設(shè)計(jì)的比例導(dǎo)引規(guī)律(MTPN)和利用Q-learning強(qiáng)化學(xué)習(xí)設(shè)計(jì)的比例導(dǎo)引規(guī)律(QLPN)，其中APN的設(shè)計(jì)結(jié)果涉及到裝備技術(shù)狀態(tài)，此處不進(jìn)行描述。

為避免單次抽取可能存在的偶然性，本文開(kāi)展了彈道抽樣，分別統(tǒng)計(jì)每次抽樣彈道的脫靶量情況。第1次抽取是從4 789條彈道(受制于篇幅限制，彈道不一一列出)中，每間隔17條彈道抽取一條，共計(jì)282條彈道，第2次抽取是從4 789條彈道中，每間隔13條彈道抽取一條，共計(jì)369條彈道。選取兩個(gè)質(zhì)數(shù)(17和13)進(jìn)行等間隔抽取，可使得兩次彈道抽取的重復(fù)率較低。

兩次基于脫靶量md的彈道計(jì)數(shù)統(tǒng)計(jì)結(jié)果分別如表2和表3所示。

表2 第1次不同脫靶量下的彈道計(jì)數(shù)Table 2 Trajectory number under different miss distances in the first simulation

表3 第2次不同脫靶量下的彈道計(jì)數(shù)Table 3 Trajectory number under different miss distances in the second simulation

以其中一條彈道為例，對(duì)比3種狀態(tài)下的視線角速度變化曲線如圖13所示。

圖13 視線角速度對(duì)比曲線Fig.13 Line-of-sight rate comparison

從脫靶量的統(tǒng)計(jì)結(jié)果可知，MTPN比APN在制導(dǎo)過(guò)程中具有較為明顯的優(yōu)勢(shì)，能夠有效提升導(dǎo)彈制導(dǎo)精度；而QLPN由于使用了更多的狀態(tài)對(duì)環(huán)境進(jìn)行描述，比MTPN在減小脫靶量方面有進(jìn)一步提升；從視線角速度曲線對(duì)比來(lái)看，MTPN和QLPN比APN的視線角速度收斂更快，且在末端發(fā)散更晚，同時(shí)QLPN略優(yōu)于MTPN。

5 結(jié)論

本文在比例導(dǎo)引的基礎(chǔ)上，提出了利用強(qiáng)化學(xué)習(xí)方法開(kāi)展導(dǎo)航比設(shè)計(jì)的思路，通過(guò)大數(shù)據(jù)統(tǒng)計(jì)與決策替代傳統(tǒng)的經(jīng)驗(yàn)設(shè)計(jì)。在此基礎(chǔ)上分別采用蒙特卡洛強(qiáng)化學(xué)習(xí)方法和Q-learning強(qiáng)化學(xué)習(xí)方法開(kāi)展了導(dǎo)航比的設(shè)計(jì)與仿真對(duì)比驗(yàn)證。得出以下主要結(jié)論：

1)利用蒙特卡洛強(qiáng)化學(xué)習(xí)的設(shè)計(jì)方法僅考慮極少的飛行要素，對(duì)信息測(cè)量的維度和精度要求與工程在用的比例導(dǎo)引規(guī)律完全一致，因此具有算法簡(jiǎn)單，工程應(yīng)用性強(qiáng)的突出優(yōu)點(diǎn)，同時(shí)在制導(dǎo)精度上相比傳統(tǒng)的制導(dǎo)律設(shè)計(jì)具有顯著的提升。

2)利用Q-learning強(qiáng)化學(xué)習(xí)的設(shè)計(jì)方法考慮了更多的飛行要素，相比于蒙特卡洛強(qiáng)化學(xué)習(xí)的方法具有更好的制導(dǎo)性能。但描述環(huán)境的狀態(tài)越多，相應(yīng)的狀態(tài)維度就越高，在工程應(yīng)用中，可根據(jù)復(fù)雜度的考慮，對(duì)描述環(huán)境的狀態(tài)進(jìn)行刪減。

在工程實(shí)踐中，導(dǎo)引規(guī)律的設(shè)計(jì)還受到一些現(xiàn)實(shí)條件的約束，例如雷達(dá)導(dǎo)引頭視線角速度精度隨距離的增加而降低，因此在遠(yuǎn)距時(shí)需限制導(dǎo)航比的取值。本文設(shè)計(jì)初衷是實(shí)現(xiàn)工程化，后續(xù)將近一步考慮各種實(shí)際約束，實(shí)現(xiàn)算法的工程應(yīng)用與推廣。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡