李慶波, 李芳, 董瑞星, 樊瑞山, 謝文龍
(上海機(jī)電工程研究所, 上海 201109)
制導(dǎo)規(guī)律是指根據(jù)導(dǎo)彈和目標(biāo)的相對(duì)運(yùn)動(dòng)關(guān)系,導(dǎo)引導(dǎo)彈按一定的飛行軌跡對(duì)目標(biāo)實(shí)施精確打擊攔截。制導(dǎo)規(guī)律是導(dǎo)彈精確制導(dǎo)的技術(shù)核心,制導(dǎo)規(guī)律的研究是精確制導(dǎo)武器研究的關(guān)鍵。
國(guó)內(nèi)外關(guān)于末制導(dǎo)規(guī)律的研究目前已有大量的理論成果,例如基于最優(yōu)控制理論的最優(yōu)制導(dǎo)律[1]、將最優(yōu)控制理論與微分對(duì)策理論相結(jié)合的微分對(duì)策制導(dǎo)律[2]、基于模糊控制理論的模糊制導(dǎo)律[3]、神經(jīng)網(wǎng)絡(luò)末制導(dǎo)律[4]以及被廣泛研究的變結(jié)構(gòu)制導(dǎo)規(guī)律[5-6]。盡管制導(dǎo)規(guī)律的理論成果眾多,但受制于工程實(shí)現(xiàn)條件,目前在導(dǎo)彈制導(dǎo)中應(yīng)用最廣泛的仍是比例導(dǎo)引末制導(dǎo)律。
由于比例導(dǎo)引規(guī)律實(shí)現(xiàn)簡(jiǎn)單、工程易用性強(qiáng),許多專家學(xué)者開(kāi)展了基于比例導(dǎo)引的進(jìn)一步研究。李新三等[7]基于模型靜態(tài)預(yù)測(cè)規(guī)劃方法設(shè)計(jì)了一種協(xié)同比例制導(dǎo)律;閆梁等[8]從普適性制導(dǎo)律的角度出發(fā),設(shè)計(jì)了一種末端碰撞角約束限制的偏置比例制導(dǎo)律;李波等[9]提出一種基于遺傳算法的模糊比例導(dǎo)引規(guī)律;李轅等[10]設(shè)計(jì)了針對(duì)高速目標(biāo)攔截特點(diǎn)的三維聯(lián)合比例制導(dǎo)律;白國(guó)玉等[11]提出一種自動(dòng)選擇攔截模式并調(diào)整攔截彈速度,兼具順、逆軌攔截能力的全向真比例制導(dǎo)律;秦瀟等[12]考慮用擴(kuò)張狀態(tài)觀測(cè)器對(duì)目標(biāo)的機(jī)動(dòng)形式進(jìn)行在線估計(jì),設(shè)計(jì)了一種帶有目標(biāo)機(jī)動(dòng)補(bǔ)償?shù)姆幢壤茖?dǎo)律;Su等[13]設(shè)計(jì)了一種考慮零控脫靶以及飛行器間安全距離的偏置比例導(dǎo)引律;王榮剛等[14]提出一種攔截高速運(yùn)動(dòng)目標(biāo)廣義相對(duì)偏置比例制導(dǎo)律。
關(guān)于比例導(dǎo)引規(guī)律的擴(kuò)展研究通常是在傳統(tǒng)比例導(dǎo)引的基礎(chǔ)上增加修正項(xiàng),如重力補(bǔ)償、導(dǎo)彈軸向加速度補(bǔ)償、目標(biāo)機(jī)動(dòng)補(bǔ)償及碰撞角約束等環(huán)節(jié)。因此無(wú)論對(duì)于何種比例導(dǎo)引,都無(wú)法避開(kāi)傳統(tǒng)比例導(dǎo)引中以視線角速度為輸入量的導(dǎo)航比設(shè)計(jì)過(guò)程。文獻(xiàn)[15]建議導(dǎo)航比范圍為2~6之間,然而這是一個(gè)相對(duì)寬泛的取值區(qū)間,在此范圍內(nèi)的不同取值對(duì)導(dǎo)彈制導(dǎo)攔截性能具有顯著的影響。
導(dǎo)彈制導(dǎo)攔截的過(guò)程實(shí)際上是導(dǎo)彈與目標(biāo)的博弈過(guò)程,而導(dǎo)航比的選取問(wèn)題就是這個(gè)博弈過(guò)程中制導(dǎo)控制的決策過(guò)程。強(qiáng)化學(xué)習(xí)利用試錯(cuò)法不斷與環(huán)境交互來(lái)改善自己的行為,從而優(yōu)化自身的應(yīng)對(duì)策略,同時(shí)強(qiáng)化學(xué)習(xí)具有對(duì)環(huán)境的先驗(yàn)知識(shí)要求低的優(yōu)點(diǎn),是一種可以應(yīng)用到實(shí)時(shí)環(huán)境中的學(xué)習(xí)方式[16-17]。
近些年,強(qiáng)化學(xué)習(xí)在導(dǎo)彈制導(dǎo)中的應(yīng)用開(kāi)始引起學(xué)者關(guān)注,陳中原等[18]提出基于強(qiáng)化學(xué)習(xí)的多彈協(xié)同攻擊智能制導(dǎo)律,用以降低脫靶量和攻擊時(shí)間誤差。梁晨等[19]針對(duì)執(zhí)行機(jī)構(gòu)部分失效條件下導(dǎo)彈對(duì)機(jī)動(dòng)目標(biāo)的攔截問(wèn)題,提出一種基于深度強(qiáng)化元學(xué)習(xí)和剩余飛行時(shí)間感知邏輯函數(shù)的攻擊角度約束三維制導(dǎo)律。
本文采用強(qiáng)化學(xué)習(xí)的方法開(kāi)展導(dǎo)航比的設(shè)計(jì),嘗試?yán)么髷?shù)據(jù)決策替代傳統(tǒng)的經(jīng)驗(yàn)取值設(shè)計(jì),解決比例導(dǎo)引規(guī)律設(shè)計(jì)過(guò)程中的共性問(wèn)題,盡可能提升導(dǎo)彈對(duì)目標(biāo)的打擊攔截能力。
(1)
式中:K為待設(shè)計(jì)的系數(shù)。
導(dǎo)彈和目標(biāo)的相對(duì)運(yùn)動(dòng)關(guān)系如圖1所示。圖1中,M表示導(dǎo)彈,T表示目標(biāo),v表示導(dǎo)彈速度,vT表示目標(biāo)速度,η表示導(dǎo)彈速度軸與視線軸的夾角,ηT表示目標(biāo)速度軸與視線軸的夾角,θ表示導(dǎo)彈速度傾角,q表示彈目視線角,xM為水平方向。
圖1 導(dǎo)彈和目標(biāo)相對(duì)運(yùn)動(dòng)關(guān)系Fig.1 Relative motion diagram of missile and target
(2)
從(2)式可以看出,為保證系統(tǒng)穩(wěn)定,則要求有效導(dǎo)航比N>2。
在工程應(yīng)用中,近似認(rèn)為cosη,可將(1)式改寫為
(3)
式中:nc為導(dǎo)彈的過(guò)載指令;g為重力加速度。
從(3)式可知,比例導(dǎo)引規(guī)律算法簡(jiǎn)單,且僅需要外部提供彈目相對(duì)速度及視線角速度信息,這是比例導(dǎo)引規(guī)律能夠在工程中獲得廣泛應(yīng)用的根本原因。為保證本文的算法具備工程易用性,本文將在比例導(dǎo)引規(guī)律的基礎(chǔ)上開(kāi)展設(shè)計(jì)。
強(qiáng)化學(xué)習(xí)任務(wù)通常使用馬爾可夫決策過(guò)程來(lái)描述[20]:機(jī)器處于環(huán)境E中,狀態(tài)空間為S,其中每個(gè)狀態(tài)為機(jī)器感知到的環(huán)境的描述,機(jī)器能采取的動(dòng)作構(gòu)成了動(dòng)作空間A,若某個(gè)動(dòng)作a∈A作用在當(dāng)前狀態(tài)s上,則潛在的轉(zhuǎn)移函數(shù)P將使得環(huán)境從當(dāng)前狀態(tài)按照某種概率轉(zhuǎn)移到另一個(gè)狀態(tài),在轉(zhuǎn)移到另一個(gè)狀態(tài)的同時(shí),環(huán)境會(huì)根據(jù)潛在的“獎(jiǎng)賞”函數(shù)R反饋給機(jī)器一個(gè)獎(jiǎng)賞。綜合起來(lái),強(qiáng)化學(xué)習(xí)任務(wù)對(duì)應(yīng)了四元組E=〈S,A,P,R〉。圖2所示為強(qiáng)化學(xué)習(xí)原理示意圖。
圖2 強(qiáng)化學(xué)習(xí)原理示意圖Fig.2 Schematic diagram of reinforcement learning
強(qiáng)化學(xué)習(xí)的目標(biāo)是給定一個(gè)馬爾可夫決策過(guò)程,尋找最優(yōu)策略。所謂策略是指狀態(tài)到動(dòng)作的映射,策略常用符號(hào)π表示,它是指給定狀態(tài)s時(shí),動(dòng)作集上的一個(gè)分布,即
π(a|s)=P[At=a|St=s]
(4)
式中:St表示在t時(shí)刻或階段所處的狀態(tài);At表示在t時(shí)刻或階段所執(zhí)行的動(dòng)作。
策略的定義是通過(guò)條件概率給出的,即在狀態(tài)為s的條件下執(zhí)行動(dòng)作a的概率。策略的優(yōu)劣取決于長(zhǎng)期執(zhí)行這一策略后得到的累積獎(jiǎng)勵(lì),累積獎(jiǎng)勵(lì)越高,說(shuō)明策略越好。在強(qiáng)化學(xué)習(xí)任務(wù)中,學(xué)習(xí)的目的就是找到能使長(zhǎng)期積累獎(jiǎng)勵(lì)最大化的策略。
為利用強(qiáng)化學(xué)習(xí)解決導(dǎo)彈制導(dǎo)規(guī)律設(shè)計(jì)問(wèn)題,首先需將制導(dǎo)規(guī)律設(shè)計(jì)過(guò)程轉(zhuǎn)化為典型的馬爾可夫決策過(guò)程。為不增加工程實(shí)現(xiàn)的復(fù)雜度,本文在比例導(dǎo)引的基礎(chǔ)上,利用強(qiáng)化學(xué)習(xí)對(duì)導(dǎo)航比進(jìn)行設(shè)計(jì)。對(duì)照馬爾可夫決策過(guò)程的四元組,建立導(dǎo)航比取值決策過(guò)程模型如圖3所示。
圖3 導(dǎo)航比取值決策問(wèn)題模型關(guān)系示意圖Fig.3 Schematic diagram of navigation ratio decision model
利用強(qiáng)化學(xué)習(xí)開(kāi)展導(dǎo)航比的設(shè)計(jì)過(guò)程可概述為:通過(guò)全空域大量典型彈道的仿真計(jì)算,評(píng)估導(dǎo)彈在不同飛行狀態(tài)下執(zhí)行不同導(dǎo)航比策略后的制導(dǎo)效果,按照一定的方法尋求能夠獲得最佳制導(dǎo)效果的導(dǎo)航比策略。
強(qiáng)化學(xué)習(xí)多采用ε-貪心或Softmax策略,其目的是在多次采樣過(guò)程中,既能獲得最優(yōu)的策略,同時(shí)也能在采樣過(guò)程中盡可能獲得較大的獎(jiǎng)賞。但在進(jìn)行導(dǎo)航比設(shè)計(jì)過(guò)程中,只關(guān)心最終獲得最優(yōu)的導(dǎo)航比策略,希望在采樣過(guò)程中盡可能獲得豐富的樣本,而不關(guān)心在采樣過(guò)程中獲得的實(shí)際獎(jiǎng)賞。因此本文中的兩種方法均采用“僅探索”的策略開(kāi)展導(dǎo)航比設(shè)計(jì)。
對(duì)標(biāo)工程實(shí)際中廣泛應(yīng)用的比例導(dǎo)引規(guī)律,力求設(shè)計(jì)一種工程應(yīng)用簡(jiǎn)單,制導(dǎo)精度更高的導(dǎo)引規(guī)律。為盡可能簡(jiǎn)化算法設(shè)計(jì),采用蒙特卡洛強(qiáng)化學(xué)習(xí)方法。
蒙特卡洛強(qiáng)化學(xué)習(xí)的基本思想[20]是:進(jìn)行大量不同策略或不同條件的試驗(yàn),通過(guò)求取每種策略的平均積累獎(jiǎng)勵(lì)作為期望積累獎(jiǎng)勵(lì)的近似,從而完成對(duì)策略優(yōu)劣的評(píng)估和策略的迭代。
對(duì)照強(qiáng)化學(xué)習(xí)的要素,具體策略求解模型如下:
1)環(huán)境E。整個(gè)導(dǎo)彈制導(dǎo)仿真模型。具體包含大氣模型、基于氣動(dòng)吹風(fēng)及飛行試驗(yàn)辨識(shí)獲得的氣動(dòng)參數(shù)、發(fā)動(dòng)機(jī)推力參數(shù)、質(zhì)量和重心參數(shù)、理論彈道模型、控制系統(tǒng)模型、導(dǎo)引頭和控制艙等要素。
2)狀態(tài)S。本節(jié)主要考慮工程實(shí)際應(yīng)用,設(shè)計(jì)一種模型簡(jiǎn)單、工程實(shí)現(xiàn)性強(qiáng)的導(dǎo)航比算法,為此將整個(gè)制導(dǎo)的狀態(tài)進(jìn)行簡(jiǎn)化,僅考慮飛行時(shí)間和目標(biāo)攻擊方式兩個(gè)狀態(tài)。
目標(biāo)攻擊狀態(tài)集合為{迎攻,尾追};
飛行時(shí)間分段離散化集合為{1,2,3,4},具體分段方式如圖4所示。圖4中,ts為基于飛行時(shí)間的分段序號(hào),Tqk為起控時(shí)間,Tmz為裝定或計(jì)算的預(yù)計(jì)遭遇時(shí)間。
圖4 飛行時(shí)間分段離散化Fig.4 Flight time piecewise discretization
3)動(dòng)作A。在不同狀態(tài)條件下,導(dǎo)航比的取值。將導(dǎo)航比離散化為
N∈[2∶0.2∶6]
(5)
即存在21種導(dǎo)航比的取值。
4)獎(jiǎng)賞R。本文的設(shè)計(jì)是以視線角速度收斂的程度和最終的脫靶量來(lái)評(píng)估導(dǎo)航比策略的優(yōu)劣,具體獎(jiǎng)賞策略如下:
①視線角速度獎(jiǎng)賞策略。將視線角速度進(jìn)行離散化處理,離散化分段如圖5所示。
圖5 視線角速度分段離散化Fig.5 LOS rate piecewise discretization
在進(jìn)行狀態(tài)切換時(shí),視線角速度由低狀態(tài)(分段序號(hào)較小值)向高狀態(tài)(分段序號(hào)較大值)變化,對(duì)上一個(gè)狀態(tài)- 動(dòng)作對(duì)進(jìn)行懲罰,即給予該狀態(tài)- 動(dòng)作對(duì)負(fù)向獎(jiǎng)勵(lì);相反,如果視線角速度反向變化,則對(duì)上一個(gè)狀態(tài)- 動(dòng)作對(duì)進(jìn)行獎(jiǎng)勵(lì),即給予該狀態(tài)- 動(dòng)作對(duì)正向獎(jiǎng)勵(lì);如果視線角速度在狀態(tài)切換過(guò)程中仍保持在當(dāng)前分段,則不進(jìn)行獎(jiǎng)勵(lì)和懲罰。本文在計(jì)算過(guò)程中具體采用的關(guān)于視線角速度的獎(jiǎng)賞算法如圖6所示。
圖6 視線角速度獎(jiǎng)賞策略流程圖Fig.6 Flow chart of LOS rate reward strategy
圖6中:ss表示執(zhí)行的彈道序號(hào),共計(jì)n條彈道;Dqstate(Sts)表示在Sts狀態(tài)時(shí),視線角速度分段序號(hào);記錄(Tmz-0.3)時(shí)刻的視線角速度狀態(tài)為Dqstate(S5);Rdq(Sts,Nts)表示在Sts狀態(tài)時(shí),導(dǎo)航比采用Nts所獲得的視線角速度獎(jiǎng)賞。
②脫靶量獎(jiǎng)賞策略。將脫靶量進(jìn)行離散化并設(shè)置對(duì)應(yīng)的獎(jiǎng)勵(lì)如圖7所示。
圖7 脫靶量獎(jiǎng)賞策略示意圖Fig.7 Flow chart of miss distance reward strategy
需補(bǔ)充說(shuō)明地是,為便于描述,本節(jié)中的飛行分段、動(dòng)作集合及視線角速度分段是以某防空導(dǎo)彈為背景的實(shí)例化設(shè)計(jì),在方法推廣過(guò)程中需結(jié)合應(yīng)用對(duì)象的特性對(duì)飛行分段等進(jìn)行適應(yīng)性調(diào)整,后續(xù)章節(jié)中的具體分段劃分及參數(shù)設(shè)計(jì)也需結(jié)合應(yīng)用對(duì)象的特征進(jìn)行調(diào)整。
2.2.1 狀態(tài)動(dòng)作值函數(shù)計(jì)算
強(qiáng)化學(xué)習(xí)使用狀態(tài)動(dòng)作值函數(shù)來(lái)評(píng)估策略的優(yōu)劣。狀態(tài)動(dòng)作值函數(shù)用Q(Sts,Nts)表示,表征在狀態(tài)Sts條件下,導(dǎo)航比采用Nts所取得的平均積累獎(jiǎng)勵(lì)。Q(Sts,Nts)值越大,表明策略越好。
本文利用折扣積累獎(jiǎng)賞γ計(jì)算不同狀態(tài)- 動(dòng)作對(duì)的平均積累獎(jiǎng)勵(lì),以此近似估計(jì)狀態(tài)動(dòng)作值函數(shù)Q(Sts,Nts)。算法實(shí)現(xiàn)過(guò)程如圖8所示。圖8中,Rmd(Sts,Nts)表示在Sts狀態(tài)時(shí),導(dǎo)航比采用Nts所獲得的脫靶量獎(jiǎng)賞,γ為折扣系數(shù),在本文的實(shí)現(xiàn)中,令γ=0.5。
圖8 狀態(tài)動(dòng)作值函數(shù)算法流程圖Fig.8 Flow chart of state-action value function algorithm
2.2.2 逐段求解最優(yōu)導(dǎo)航比
在算法的實(shí)際操作中,本文結(jié)合導(dǎo)彈制導(dǎo)這一特殊問(wèn)題,本文設(shè)計(jì)了一種逐段求取最佳導(dǎo)航比的方法,具體方法如下:
1)將飛行段1、2和3的導(dǎo)航比設(shè)定為2~6之間的隨機(jī)值,通過(guò)大量不同彈道,分別計(jì)算在飛行段4中不同導(dǎo)航比對(duì)應(yīng)的平均積累獎(jiǎng)勵(lì)R4,其中R4最大時(shí)對(duì)應(yīng)的導(dǎo)航比為飛行段4的最佳導(dǎo)航比N4;
2)將飛行段4的導(dǎo)航比設(shè)置為最佳導(dǎo)航比,飛行段1和2的導(dǎo)航比設(shè)定為2~6之間的隨機(jī)值,過(guò)大量不同彈道,分別計(jì)算在飛行段3中不同導(dǎo)航比對(duì)應(yīng)的平均積累獎(jiǎng)勵(lì)R3,其中R3最大時(shí)對(duì)應(yīng)的導(dǎo)航比為飛行段3的最佳導(dǎo)航比N3;
3)按照同樣的方法獲取飛行段2和飛行段1的最佳導(dǎo)航比。具體過(guò)程如圖9所示。
圖9 導(dǎo)航比逐段求解示意圖Fig.9 Diagram of navigation ratio piecewise solution
第2節(jié)中,在進(jìn)行導(dǎo)航比設(shè)計(jì)過(guò)程中,僅考慮了目標(biāo)的攻擊方式和制導(dǎo)的飛行分段兩個(gè)方面的狀態(tài),在實(shí)際制導(dǎo)過(guò)程中,涉及的飛行狀態(tài)遠(yuǎn)不止以上兩方面內(nèi)容。本節(jié)將進(jìn)一步增加對(duì)環(huán)境的狀態(tài)描述,最終目的是設(shè)計(jì)一種能夠根據(jù)復(fù)雜飛行狀態(tài)自適應(yīng)調(diào)整的導(dǎo)航比,由于狀態(tài)變量的增加,導(dǎo)航比設(shè)計(jì)過(guò)程中需要采集更多的樣本,進(jìn)行更大數(shù)量級(jí)的彈道仿真。為進(jìn)一步提升學(xué)習(xí)效率,本節(jié)采用Q-learning算法開(kāi)展導(dǎo)航比的設(shè)計(jì)。
四要素中的環(huán)境E和動(dòng)作A的對(duì)應(yīng)關(guān)系與2.1節(jié)的設(shè)計(jì)一致,此處不再贅述:
1)狀態(tài)S。在本節(jié)中,除了對(duì)飛行時(shí)間進(jìn)行分段以外,進(jìn)一步細(xì)化了初始裝定的目標(biāo)初始裝定速度的大小,將視線角速度狀態(tài)和遭遇時(shí)間也作為對(duì)環(huán)境的狀態(tài)描述。首先是對(duì)狀態(tài)進(jìn)行離散化分段,本文中對(duì)各狀態(tài)的分段方法如圖10所示。圖10中,ts(Sts)、Dqstate(Sts)、Tmzstate(Sts)、vt0state(Sts)分別表示在狀態(tài)Sts條件下離散化的飛行時(shí)間、視線角速度、預(yù)計(jì)遭遇時(shí)間和目標(biāo)初始速度的分段值。
圖10 制導(dǎo)狀態(tài)分段Fig.10 Diagram of guidance state segments
2)獎(jiǎng)賞R。由于狀態(tài)的細(xì)分,必須對(duì)獎(jiǎng)勵(lì)算法進(jìn)行相應(yīng)的細(xì)分,否則難以在同一狀態(tài)下有效區(qū)分不同策略的優(yōu)劣。
視線角速度獎(jiǎng)賞策略為
(6)
脫靶量獎(jiǎng)賞策略為
Rmd=8e-0.47md-5
(7)
式中:md為最終的脫靶量。
脫靶量獎(jiǎng)賞值隨脫靶量的大小的變化關(guān)系如圖11所示。
圖11 脫靶量獎(jiǎng)賞函數(shù)曲線Fig.11 Curve of miss distance reward function
采用Q-learning強(qiáng)化學(xué)習(xí)算法進(jìn)行策略評(píng)估,具體算法如圖12所示。
圖12 策略評(píng)估算法流程圖Fig.12 Flow chart of strategy evaluation algorithm
圖12中:Q(Sts,Nts)表示在Sts狀態(tài)時(shí),導(dǎo)航比采用Nts所獲得的平均積累獎(jiǎng)勵(lì);Num(Sts,Nts)表示狀態(tài)Sts和動(dòng)作Nts所發(fā)生的次數(shù);N′為基于平均概率分布的隨機(jī)導(dǎo)航比取值,且滿足N′∈[2∶0.2∶6]。
基于某型防空導(dǎo)彈,分別利用蒙特卡洛和Q-learning強(qiáng)化學(xué)習(xí)開(kāi)展導(dǎo)航比設(shè)計(jì),蒙特卡洛強(qiáng)化學(xué)習(xí)設(shè)計(jì)結(jié)果如表1所示。
通過(guò)以上設(shè)計(jì)結(jié)果可知,蒙特卡洛強(qiáng)化學(xué)習(xí)方法設(shè)計(jì)實(shí)現(xiàn)的導(dǎo)航比算法簡(jiǎn)單,工程易用性強(qiáng)。
根據(jù)Q-learning強(qiáng)化學(xué)習(xí)最終獲得的導(dǎo)航比與狀態(tài)集合一一對(duì)應(yīng),限于篇幅,本文未列出具體的參數(shù)結(jié)果。
本文通過(guò)從批量彈道中,任意抽取一定數(shù)目的彈道,利用3種導(dǎo)航比設(shè)計(jì)方法開(kāi)展數(shù)字彈道仿真計(jì)算,對(duì)比不同設(shè)計(jì)方法下的脫靶量分布情況。
表1 導(dǎo)航比策略表Table 1 Navigation ratio strategies
3種設(shè)計(jì)方法依次為傳統(tǒng)經(jīng)驗(yàn)設(shè)計(jì)比例導(dǎo)引規(guī)律(APN)、利用蒙特卡洛強(qiáng)化學(xué)習(xí)設(shè)計(jì)的比例導(dǎo)引規(guī)律(MTPN)和利用Q-learning強(qiáng)化學(xué)習(xí)設(shè)計(jì)的比例導(dǎo)引規(guī)律(QLPN),其中APN的設(shè)計(jì)結(jié)果涉及到裝備技術(shù)狀態(tài),此處不進(jìn)行描述。
為避免單次抽取可能存在的偶然性,本文開(kāi)展了彈道抽樣,分別統(tǒng)計(jì)每次抽樣彈道的脫靶量情況。第1次抽取是從4 789條彈道(受制于篇幅限制,彈道不一一列出)中,每間隔17條彈道抽取一條,共計(jì)282條彈道,第2次抽取是從4 789條彈道中,每間隔13條彈道抽取一條,共計(jì)369條彈道。選取兩個(gè)質(zhì)數(shù)(17和13)進(jìn)行等間隔抽取,可使得兩次彈道抽取的重復(fù)率較低。
兩次基于脫靶量md的彈道計(jì)數(shù)統(tǒng)計(jì)結(jié)果分別如表2和表3所示。
表2 第1次不同脫靶量下的彈道計(jì)數(shù)Table 2 Trajectory number under different miss distances in the first simulation
表3 第2次不同脫靶量下的彈道計(jì)數(shù)Table 3 Trajectory number under different miss distances in the second simulation
以其中一條彈道為例,對(duì)比3種狀態(tài)下的視線角速度變化曲線如圖13所示。
圖13 視線角速度對(duì)比曲線Fig.13 Line-of-sight rate comparison
從脫靶量的統(tǒng)計(jì)結(jié)果可知,MTPN比APN在制導(dǎo)過(guò)程中具有較為明顯的優(yōu)勢(shì),能夠有效提升導(dǎo)彈制導(dǎo)精度;而QLPN由于使用了更多的狀態(tài)對(duì)環(huán)境進(jìn)行描述,比MTPN在減小脫靶量方面有進(jìn)一步提升;從視線角速度曲線對(duì)比來(lái)看,MTPN和QLPN比APN的視線角速度收斂更快,且在末端發(fā)散更晚,同時(shí)QLPN略優(yōu)于MTPN。
本文在比例導(dǎo)引的基礎(chǔ)上,提出了利用強(qiáng)化學(xué)習(xí)方法開(kāi)展導(dǎo)航比設(shè)計(jì)的思路,通過(guò)大數(shù)據(jù)統(tǒng)計(jì)與決策替代傳統(tǒng)的經(jīng)驗(yàn)設(shè)計(jì)。在此基礎(chǔ)上分別采用蒙特卡洛強(qiáng)化學(xué)習(xí)方法和Q-learning強(qiáng)化學(xué)習(xí)方法開(kāi)展了導(dǎo)航比的設(shè)計(jì)與仿真對(duì)比驗(yàn)證。得出以下主要結(jié)論:
1)利用蒙特卡洛強(qiáng)化學(xué)習(xí)的設(shè)計(jì)方法僅考慮極少的飛行要素,對(duì)信息測(cè)量的維度和精度要求與工程在用的比例導(dǎo)引規(guī)律完全一致,因此具有算法簡(jiǎn)單,工程應(yīng)用性強(qiáng)的突出優(yōu)點(diǎn),同時(shí)在制導(dǎo)精度上相比傳統(tǒng)的制導(dǎo)律設(shè)計(jì)具有顯著的提升。
2)利用Q-learning強(qiáng)化學(xué)習(xí)的設(shè)計(jì)方法考慮了更多的飛行要素,相比于蒙特卡洛強(qiáng)化學(xué)習(xí)的方法具有更好的制導(dǎo)性能。但描述環(huán)境的狀態(tài)越多,相應(yīng)的狀態(tài)維度就越高,在工程應(yīng)用中,可根據(jù)復(fù)雜度的考慮,對(duì)描述環(huán)境的狀態(tài)進(jìn)行刪減。
在工程實(shí)踐中,導(dǎo)引規(guī)律的設(shè)計(jì)還受到一些現(xiàn)實(shí)條件的約束,例如雷達(dá)導(dǎo)引頭視線角速度精度隨距離的增加而降低,因此在遠(yuǎn)距時(shí)需限制導(dǎo)航比的取值。本文設(shè)計(jì)初衷是實(shí)現(xiàn)工程化,后續(xù)將近一步考慮各種實(shí)際約束,實(shí)現(xiàn)算法的工程應(yīng)用與推廣。