王金強,蘇日新,劉 莉,劉玉祥,龍永松
(江南機電設(shè)計研究所,貴陽 550025)
隨著飛行器技術(shù)的不斷發(fā)展,現(xiàn)代戰(zhàn)爭呈現(xiàn)出智能化、信息化、多樣化的特點,體系與體系的對抗將貫穿戰(zhàn)爭始終,尤其是以精確制導(dǎo)武器為主的攻擊體系和以地空艦導(dǎo)彈為主的防御體系之間的對抗,在上述情況下,傳統(tǒng)的單導(dǎo)彈作戰(zhàn)模式已難以滿足實際作戰(zhàn)需求。彈群協(xié)同作戰(zhàn)是將所有參戰(zhàn)導(dǎo)彈組成一個作戰(zhàn)網(wǎng)絡(luò),在指揮中心的調(diào)控下,實現(xiàn)彈間信息通信和共享,具有更高的作戰(zhàn)效能,是未來智能導(dǎo)彈的重點發(fā)展方向。
I.Jeon等在制導(dǎo)律設(shè)計中引入時間約束,提出了一種可變攻擊時間的協(xié)同制導(dǎo)律,并通過數(shù)值仿真驗證了算法的有效性。Chen Y. 等在時間控制的基礎(chǔ)上,進一步考慮了存在末端攻擊角度約束的情況。李強針對協(xié)同制導(dǎo)問題,分別在視線方向和視線法向設(shè)計了有限時間收斂滑模制導(dǎo)律。H. B. Oza等為提高運算效率,設(shè)計了考慮末端多約束的模型預(yù)測靜態(tài)規(guī)劃制導(dǎo)律。Liu X. 等為處理制導(dǎo)過程中存在的不確定性,基于李雅普諾夫穩(wěn)定性理論,提出了一種自適應(yīng)滑模協(xié)同制導(dǎo)律,但該方法存在系統(tǒng)抖振的問題。宋俊紅等基于超螺旋滑??刂扑惴ǎO(shè)計了一種雙層協(xié)同制導(dǎo)律,有效改善了制導(dǎo)控制系統(tǒng)的暫態(tài)特性。肖惟等研究了多枚過載受限的弱機動導(dǎo)彈攔截強機動目標(biāo)的協(xié)同攔截問題,提出了基于標(biāo)準(zhǔn)彈道的分布式協(xié)同攔截策略設(shè)計方法。Zhai C. 等為提高協(xié)同攔截的成功率,設(shè)計了一種基于覆蓋的攔截算法。雖然上述算法具有良好的控制效果,但在設(shè)計過程中均需預(yù)先指定期望攻擊時間,各枚導(dǎo)彈間沒有信息交互,并沒有實現(xiàn)真正意義的智能協(xié)同作戰(zhàn)。
隨著人工智能領(lǐng)域的迅猛發(fā)展,強化學(xué)習(xí)算法作為一種智能決策算法,在導(dǎo)彈制導(dǎo)控制、智能任務(wù)規(guī)劃和故障診斷等方面取得了顯著成果。B. Gaudet等為提高制導(dǎo)律魯棒性,基于神經(jīng)網(wǎng)絡(luò)設(shè)計了一種強化元學(xué)習(xí)制導(dǎo)律。張秦浩等基于Q-learn-ing強化學(xué)習(xí)算法設(shè)計了最優(yōu)攔截制導(dǎo)律。南英等則對傳統(tǒng)Q網(wǎng)絡(luò)進行改進,提出了一種基于Markov決策過程的制導(dǎo)律,且不需要訓(xùn)練樣本,可自主搜索獎勵值最大的動作并完成訓(xùn)練。陳中原等提出了一種基于深度確定性策略梯度的強化學(xué)習(xí)協(xié)同制導(dǎo)律,引入Actor和Critic網(wǎng)絡(luò)選取動作和獎勵值的逼近。上述算法雖然使導(dǎo)彈具有自主決策能力,但運算量大,現(xiàn)有的彈載計算機難以滿足要求。
為解決上述問題,本文以傳統(tǒng)比例制導(dǎo)律為基礎(chǔ),引入智能決策,提出了一種Q-learning強化學(xué)習(xí)協(xié)同攔截制導(dǎo)律,并通過數(shù)值仿真驗證了算法的有效性和優(yōu)越性。
圖1給出了導(dǎo)彈平面攔截幾何,其中為慣性系,M和T分別代表導(dǎo)彈和目標(biāo),表示速度,表示彈道傾角,表示視線角,表示前置角,表示法向角速度,表示彈目相對距離。
圖1 導(dǎo)彈攔截平面幾何Fig.1 Planar interception geometry of missile
基于坐標(biāo)轉(zhuǎn)換得到導(dǎo)彈與目標(biāo)的非線性相對運動方程為
(1)
隨后,建立導(dǎo)彈非線性協(xié)同攔截模型,其示意圖如圖2所示,其中M,表示第枚導(dǎo)彈的最大機動區(qū)域,為目標(biāo)的最大機動逃逸區(qū)域,記為逃逸域,為導(dǎo)彈最大機動過載,表示目標(biāo)的逃逸加速度,定義為=+,其中為標(biāo)準(zhǔn)攔截彈道下目標(biāo)期望逃逸加速度,為小量,且||越大,攔截彈道越彎曲。為簡化非線性模型,便于數(shù)學(xué)處理,此處假設(shè)為常值。因此,基于文獻[16]中標(biāo)準(zhǔn)彈道的思想和逃逸域理論,彈群協(xié)同攔截模型的構(gòu)建過程如下:
圖2 彈群協(xié)同攔截策略Fig.2 Cooperative interception strategy of multiple missiles
本章將結(jié)合Q-learning強化學(xué)習(xí)算法進行協(xié)同制導(dǎo)律設(shè)計。首先,基于標(biāo)準(zhǔn)彈道的思想,以導(dǎo)彈的最大機動區(qū)域M,中的標(biāo)準(zhǔn)彈道攔截機動的目標(biāo),以非標(biāo)準(zhǔn)彈道攔截+機動的目標(biāo),則協(xié)同制導(dǎo)律M,可設(shè)計為
(2)
隨后,定義導(dǎo)彈與目標(biāo)飛行過程中的零控脫靶量為
(3)
同理,導(dǎo)彈以標(biāo)準(zhǔn)彈道攔截機動目標(biāo)過程中的零控脫靶量,s定義為
(4)
式中,為一個小量,且>0,用于避免求解式(5)中,s,,s和M,,s時發(fā)生奇異。
(5)
則偏置項自適應(yīng)調(diào)節(jié)律可設(shè)為
(+1)=
(6)
式中,,0為預(yù)先設(shè)定偏置項;為偏置系數(shù),定義為=exp(-,s);為一個小量,且>0,Δ=exp(-,s)。
(7)
式中,為導(dǎo)彈終止時刻彈目相對距離;為導(dǎo)彈命中目標(biāo)所需最小彈目距離,常取=1,即表示在攔截過程中,獎勵值隨彈目距離的減小而增大,若最終命中目標(biāo),則得到一個更大的獎勵,若沒有命中目標(biāo)則獎勵值為0。
綜上,基于Q-learning強化學(xué)習(xí)算法的目標(biāo)策略設(shè)為
(,)]+(,)
(8)
行為策略為-greedy策略,即
(9)
式中,為學(xué)習(xí)效率參數(shù);為折扣率參數(shù);?為策略參數(shù),即導(dǎo)彈以?的概率在動作空間中進行隨機選擇,則以1-?的概率會選擇得到最大值的動作。Q-learning強化學(xué)習(xí)算法流程如圖3所示。
圖3 Q-learning強化學(xué)習(xí)算法流程Fig.3 Flow chart of Q-learning algorithm
本章基于逃逸域覆蓋理論進行多彈攔截區(qū)域分配算法設(shè)計。為方便推導(dǎo),定義歸一化的目標(biāo)加速度為=,導(dǎo)彈覆蓋區(qū)域M,和目標(biāo)逃逸域可分別歸一化為[,low,,up]和[-1,1]。
所設(shè)計攔截區(qū)域分配策略如圖4所示,導(dǎo)彈1的攔截區(qū)域左邊界與目標(biāo)逃逸域左邊界對齊,導(dǎo)彈攔截區(qū)域M,右邊界與目標(biāo)逃逸域右邊界對齊,每枚導(dǎo)彈覆蓋范圍相同。
圖4 攔截區(qū)域分配模式Fig.4 Allocation modes of intercept area
為實現(xiàn)上述分配策略,首先求解個導(dǎo)彈的攔截區(qū)域{M,|=1,2,3,…,},其中的左邊界與-1對齊,M,的右邊界與1對齊,M,-1和M,不重疊相接,M,-1與M,可重疊相交,即=-1,,up=1,-1,up=,low,-1,up-,low≥0。同時,為使每枚導(dǎo)彈攔截覆蓋區(qū)域均勻分布,此處將重疊區(qū)域[,low,-1,up]均勻分配到其余子區(qū)域上,即將覆蓋區(qū)域~M,-1分別向左移動(-1)(-1)× (-1,up-,low)長度,算法具體偽代碼如表1所示。
表1 攔截區(qū)域分配的實現(xiàn)算法
本章分別針對多彈齊射(模式1)和子母彈分離發(fā)射(模式2)兩種作戰(zhàn)模式,對上述協(xié)同制導(dǎo)律的有效性進行數(shù)值仿真驗證。在多彈齊射作戰(zhàn)模式下,假設(shè)導(dǎo)彈速度方向與軸線重合,即攻角、側(cè)滑角和前置角均為0,因此其初始陣位約束為
(10)
子母彈分離作戰(zhàn)模式下,忽略子彈和母彈間的動態(tài)過程,并假設(shè)初始時刻目標(biāo)前置角和彈目的距離相同,因此其初始陣位約束為
(11)
仿真環(huán)境下假設(shè)導(dǎo)彈數(shù)目為3,分別記為、和,彈目初始相對距離設(shè)為60km,導(dǎo)彈速度為7,最大機動過載3,目標(biāo)速度為6,最大機動過載5,有效導(dǎo)航比由Q-learning算法在線計算,學(xué)習(xí)率參數(shù)設(shè)為0.01,折扣率參數(shù)則設(shè)為0.99。
針對目標(biāo)最大正機動(=1)、不機動(=0)和最大負(fù)機動(=-1)的協(xié)同攔截仿真結(jié)果如圖5~圖10所示。圖5和圖7所示分別為兩種作戰(zhàn)模式下的攔截軌跡,從中可知,針對上述三種目標(biāo)機動形式,本文所提協(xié)同制導(dǎo)律可確保至少有一枚導(dǎo)彈成功命中目標(biāo),證明了算法的有效性。圖6和圖8所示分別為兩種作戰(zhàn)模式下的導(dǎo)彈過載曲線。圖9和圖10所示分別為導(dǎo)彈1最大負(fù)機動(=-1)條件下的有效導(dǎo)航比曲線和均值曲線,從中可知,在制導(dǎo)過程中有效導(dǎo)航比可進行自適應(yīng)調(diào)節(jié),且隨著訓(xùn)練的進行,均值逐漸收斂。
圖5 作戰(zhàn)模式1的攔截彈道Fig.5 Interception trajectory under mode 1
圖6 作戰(zhàn)模式1的導(dǎo)彈過載Fig.6 Acceleration of missile under mode 1
圖7 作戰(zhàn)模式2的攔截彈道Fig.7 Interception trajectory under mode 2
圖8 作戰(zhàn)模式2的導(dǎo)彈過載Fig.8 Acceleration of missile under mode 2
圖9 有效導(dǎo)航比N曲線Fig.9 Curve of effective navigation ratio N
圖10 Q均值收斂曲線Fig.10 Convergence curve of the mean of Q
針對目標(biāo)做=-sign(sin(π/2))蛇形機動的仿真結(jié)果如圖11~圖14所示。圖11和圖12所示分別為兩種作戰(zhàn)模式下的攔截軌跡,從中可知,引入偏置項可使導(dǎo)彈在攔截過程中更加接近目標(biāo),有效提升了攔截效果。圖13和圖14所示為零控脫靶量曲線,可以看出,與傳統(tǒng)比例制導(dǎo)律相比,本文設(shè)計的協(xié)同制導(dǎo)律零控脫靶量更低,具有更強的工程實用價值。
圖11 作戰(zhàn)模式1的攔截彈道Fig.11 Interception trajectory under mode 1
圖12 作戰(zhàn)模式2的攔截彈道Fig.12 Interception trajectory under mode 2
圖13 作戰(zhàn)模式1的零控脫靶量Fig.13 Zero effort miss under mode 1
圖14 作戰(zhàn)模式2的零控脫靶量Fig.14 Zero effort miss under mode 2
本文研究了多彈協(xié)同攔截機動目標(biāo)問題,具體結(jié)論如下:
1)基于逃逸域覆蓋理論、比例制導(dǎo)律和Q-learning算法提出了一種強化學(xué)習(xí)協(xié)同制導(dǎo)律。
2)針對多彈齊射和子母彈分離發(fā)射兩種作戰(zhàn)模式進行了數(shù)值仿真,結(jié)果驗證了所提算法的有效性和優(yōu)越性。
3)后續(xù)工作可進一步研究三維空間中存在攻擊角約束、能量約束、避障和避撞等因素的協(xié)同攔截問題,為實現(xiàn)多約束條件下的智能協(xié)同制導(dǎo)奠定基礎(chǔ)。