李博皓,安旭曼,楊曉飛,吳云潔,李國飛
(1. 北京航空航天大學虛擬現(xiàn)實技術與系統(tǒng)國家重點實驗室,北京 100191;2. 北京航空航天大學大學自動化科學與電氣工程學院,北京 100191;3. 飛行器控制一體化技術重點實驗室,北京 100191;4. 西北工業(yè)大學航天學院,西安 710072)
現(xiàn)代戰(zhàn)爭中,若目標為具有重大軍事價值的目標,如核設施、艦船、導彈發(fā)射基地和重要軍事建筑物等,此時,不僅需要彈頭落地時能保證打擊精度,而且還需要以一定的攻擊角度命中目標,從而獲得最大限度的毀傷效果。因此,研究帶有攻擊角度約束的制導方法設計問題非常必要。
為了能夠以期望落角擊中目標,文獻[7]基于變參數(shù)滑模調節(jié)和視線偏差設計了比例導引加偏置項的末制導律,在不失制導精度的條件下,具有更小的落角偏差和末端攻角。文獻[8]提出了一種非奇異自適應增益滑模制導律,用于攔截具有攻擊角約束的目標。分析了制導律的穩(wěn)定性和收斂性,當存在未知干擾的情況下,系統(tǒng)的加速度抖振可以得到有效抑制。文獻[9]在縱向平面上建立了導彈與目標的相對運動方程,并構造了積分滑模面,設計了一種積分滑模制導律,解決了傳統(tǒng)滑模制導律中存在的穩(wěn)態(tài)誤差問題。
深度強化學習制導技術研究主要是依靠人工智能算法強大的特征表示能力和控制決策性能,根據(jù)飛行環(huán)境的變化對戰(zhàn)場態(tài)勢做出實時的分析判斷,輸出相應的制導指令,驅動飛行器完成既定目標任務。深度強化學習制導技術具有更顯著的自主決策與規(guī)劃能力,可有效提高不確定戰(zhàn)場環(huán)境下的作戰(zhàn)效能。
近年來,部分學者已開展了深度強化學習制導方面的研究工作。針對再入飛行器制導方法,李天任等利用Q學習訓練橫向決策器,自適應調整制導參數(shù),獲得了較快的收斂速度和打靶成功率。文獻[19]以深度確定性策略梯度(Deep deterministic policy gradient, DDPG)算法為基礎,將視線角速率作為輸入,訓練得到了比傳統(tǒng)比例導引方法具有更小脫靶量的強化學習制導模型。文獻[20]以傳統(tǒng)的比例制導律為基礎,提出基于強化學習的比例導引系數(shù)優(yōu)化算法。該算法以視線角速率作為狀態(tài),依據(jù)脫靶量設計獎勵函數(shù),設計離散化的動作空間,為導彈選擇正確的制導指令。針對攻擊角度約束下的制導問題,文獻[21]以視線角及視線角速率為觀測狀態(tài),利用元強化學習進行訓練,得到的制導模型可以輸出導彈轉向推力指令,用以對移動目標進行攔截。文獻[22]進一步利用元強化學習結合遞歸神經(jīng)網(wǎng)絡設計了一種新的自適應制導系統(tǒng),相較傳統(tǒng)制導策略和普通強化學習方法在發(fā)動機隨機故障且動力學環(huán)境未知的情況下獲得了更好的制導效果。文獻[23]將強化學習與模型積分預測控制結合,將深度神經(jīng)網(wǎng)絡作為預測模型,提出了一種時變攻擊角度約束下的元強化學習制導律。
然而以上方法考慮的約束條件較為單一,且部分方法的加速度抖振較為劇烈,對制導系統(tǒng)不利。此外,算法的探索效率偏低,訓練速度較慢,容易出現(xiàn)局部最優(yōu)解問題。鑒于上述不足,本文面向實際多約束任務需求,研究攻擊角度、視場角以及控制輸入飽和等限制條件下的深度強化學習制導方法。將固定攻擊角度約束問題轉化為期望視線角度下的攻擊問題。以深度強化學習中的DDPG算法為基礎,根據(jù)所給約束條件建立不同的獎懲機制,充分考慮環(huán)境約束,提高制導算法的自適應能力。此外,提出分布式探索策略以提高導彈對環(huán)境的探索效率,防止過擬合的同時增強模型的泛化能力。
彈-目碰撞幾何結構如圖1所示,其中和分別表示導彈與目標,和表示導彈與目標的速度矢量,與表示導彈與目標速度矢量與參考線的夾角。
圖1 彈-目碰撞幾何結構Fig.1 Geometry of missile-target collision
定義為制導結束時刻,攻擊角度表示為結束時刻,導彈速度矢量和目標速度矢量之間的夾角:
=-
(1)
導彈期望的攻擊角度設為,攻擊角度約束制導問題是指在制導結束時刻,導彈保證脫靶量要求的同時能以期望的攻擊角度擊中目標,即滿足:
(2)
()-()=
(3)
(4)
其中,為視線角,式(2)和(3)分別代表脫靶量和攻擊角度收斂,式(4)代表導彈在視場范圍內擊中目標。當導彈與目標處于碰撞幾何三角形上時,可以認為目標與導彈相對速度沿著垂直于視線方向上的分量為零,于是:
sin(()-)=sin(()-)
(5)
其中,為期望視線角。根據(jù)式(5)可以將導彈與目標速度之間的夾角轉化為視線角,通過控制實現(xiàn)角視線對目標的攔截。對于具體攻擊任務的導彈,期望攻擊角度為定值,如果目標運動的速度偏角()已知時,由可知導彈在制導結束時刻的速度偏角()也可以確定。再由式(5)即可得期望終端視線角的值。
已知水平面內彈-目運動模型為:
(6)
(7)
(8)
(9)
對式(7)求導并代入式(6),考慮到目標法向加速度為零,得:
(10)
取狀態(tài)變量:
(11)
制導模型可進一步描述為:
(12)
深度確定性策略梯度算法
深度確定性策略梯度算法DDPG是深度強化學習中一種可以用來解決連續(xù)動作空間問題的典型算法,可以根據(jù)學習到的策略直接輸出動作。
對于DDPG算法而言,和[]分別由策略網(wǎng)絡和價值網(wǎng)絡表示。其中策略網(wǎng)絡可以表示為如下形式:
=(;)
(13)
其中,表示策略網(wǎng)絡的參數(shù),表示策略網(wǎng)絡輸出的動作,表示當前時刻的環(huán)境狀態(tài)。價值網(wǎng)絡可以表示為:
(,;)=[|=,=]
(14)
其中,表示按照策略網(wǎng)絡選取的動作,表示價值網(wǎng)絡的參數(shù)。策略網(wǎng)絡和價值網(wǎng)絡的更新流程如圖2所示。
圖2 DDPG算法流程Fig.2 Flow chart of DDPG algorithm
策略網(wǎng)絡驅動智能體與環(huán)境交互,同時在每個時刻將{,,,+1}存儲入經(jīng)驗池中。在網(wǎng)絡更新過程中,會從經(jīng)驗池隨機抽取批量數(shù)據(jù)來對參數(shù)進行訓練。為了獲得更穩(wěn)定的更新結果,DDPG在常規(guī)策略網(wǎng)絡和價值網(wǎng)絡之外再使用了目標策略網(wǎng)絡和目標價值網(wǎng)絡輔助進行更新。
價值網(wǎng)絡參數(shù)更新方式如下:
(15)
其中,
(16)
式中:′和′分別表示目標價值網(wǎng)絡和目標策略網(wǎng)絡的參數(shù)。
策略網(wǎng)絡參數(shù)的更新方式如下:
(17)
式中:和分別表示價值網(wǎng)絡和策略網(wǎng)絡的學習率。在策略網(wǎng)絡和價值網(wǎng)絡完成更新以后,再采用如下方式對目標網(wǎng)絡進行更新:
′←+(1-)′
(18)
′←+(1-)′
(19)
式中:表示目標網(wǎng)絡的學習率。
連續(xù)動作空間下的強化學習制導策略
導彈和機動目標的二維運動學模型可表述為:
(20)
其中,表示導彈-目標距離,表示速度,表示速度偏角,表示視線角,和分別表示導彈和目標及其相關變量。速度偏角和法向加速度之間的關系定義為:
(21)
由于目標的控制量很難被觀測,因此在制導方法的設計過程中,本文假設目標以恒定速度進行機動,即=0。
強化學習導引方法動作空間為導彈法向加速度=,狀態(tài)空間設置為:
(22)
其中,為導彈-目標初始距離。
將觀測值狀態(tài)∈輸入深度強化學習的策略網(wǎng)絡,策略網(wǎng)絡輸出導彈的控制量∈。在速度恒定的假設條件下,即為導彈的法向加速度。對導彈施加控制量后,更新導彈動力學方程,可獲得新的狀態(tài)觀測值。根據(jù)狀態(tài)觀測值生成獎勵值,并利用獎勵值更新深度強化學習策略網(wǎng)絡的參數(shù),使得深度強化學習模型在一次次的交互訓練中學習到精確制導的能力。強化學習導彈制導策略的總體結構如圖3所示。使用DDPG強化學習算法,產(chǎn)生連續(xù)的法向加速度指令,控制導彈在二維平面內進行機動,完成對目標的精準打擊。
圖3 強化學習制導流程Fig.3 Flow chart of reinforcement learning guidance
獎勵函數(shù)設計
制導方法設計所考慮的主要角度約束包括攻擊角度約束和視場角約束。前者的主要任務是保證導彈以一定的視線角命中目標,這種方法在打擊特定目標時可以加強導彈對目標的殺傷力。后者主要為了保證導彈對目標的觀測能力,保證視場角在整個飛行過程中處于給定的范圍之內。
為了保證視線角收斂到期望值,設計獎勵:
=exp(-|-|)
(23)
其中,獎勵不僅保證了視線角收斂到期望值,也在一定程度上抑制了視線角速率的變化,因此不再專門設置獎勵對視線角速率進行約束。
為了保證視場角約束,設置獎勵:
(24)
綜上所述,得到最終的獎勵函數(shù):
=+
(25)
其中,和表示兩個為正的權重參數(shù)。
分布式強化學習算法
強化學習神經(jīng)網(wǎng)絡模型的訓練結果與探索和積累的歷史數(shù)據(jù)息息相關。設計分布式探索策略如圖4所示,可以增加歷史數(shù)據(jù)的多樣性,防止數(shù)據(jù)過擬合,提高強化學習的泛化能力。
圖4 分布式強化學習制導流程Fig.4 Flow chart of the distributed reinforcement learning guidance method
由圖4可知,分布式探索架構擁有多個執(zhí)行機構對環(huán)境進行探索,每個執(zhí)行機構中的網(wǎng)絡用于選擇執(zhí)行動作。此外,分布式探索架構擁有一個共享經(jīng)驗池儲存歷史經(jīng)驗,擁有一個共享學習機構用于對執(zhí)行機構中的網(wǎng)絡進行更新。各執(zhí)行機構基于自身環(huán)境生成執(zhí)行動作并接收獎勵函數(shù),探索得到的數(shù)據(jù)會被添加到共享經(jīng)驗池中。學習機構從經(jīng)驗池中采樣進行學習訓練,執(zhí)行機構內的神經(jīng)網(wǎng)絡周期性地接收學習機構網(wǎng)絡中的參數(shù)。
通過引入分布式技術,強化學習的求解效率得到了提升。讓每一個導彈執(zhí)行不同的動作策略,可以更高效地探索環(huán)境,更全面地尋找最優(yōu)軌跡,有效地防止數(shù)據(jù)過擬合和局部最優(yōu)解。攻擊角度約束下分布式制導方法訓練流程如下:
1) 初始化經(jīng)驗池、價值網(wǎng)絡(,;)、策略網(wǎng)絡(;)、執(zhí)行網(wǎng)絡(;)、目標價值網(wǎng)絡(,;′)、目標策略網(wǎng)絡(;′),其中′=,′=,為導彈編號,對每個導彈執(zhí)行以下步驟;
2) 初始化導彈狀態(tài);
3) 輸入當前狀態(tài)利用策略網(wǎng)絡生成法向加速度;
4) 對施加噪聲并更新導彈動力學模型,獲取新的狀態(tài)′,接收動作獎勵;
5) 存儲樣本{,,,′}到經(jīng)驗池;
6) 從經(jīng)驗池中隨機采樣小批量存儲樣本,對價值網(wǎng)絡進行時序差分更新,通過式(15)和式(17)對策略網(wǎng)絡進行策略梯度更新;
7) 通過式(18)和式(19)更新目標網(wǎng)絡,每隔步更新=;
8) 判斷是否達到終止條件,如果沒有達到令=′,返回3),否則返回2)。
設置制導飛行仿真實驗環(huán)境,分別對靜止目標和機動目標進行彈道仿真驗證。導彈飛行速度為=600 m/s,采樣間隔Δ=0.1 s,動作范圍[-20 g, 20 g]。設置獎勵函數(shù)參數(shù)=1,=1,=100,=π4。經(jīng)驗池中存儲的歷史數(shù)據(jù)最多為3000。每個訓練批次的最小訓練數(shù)為64,優(yōu)化器選擇Adam,策略網(wǎng)絡學習率為0.0001,價值網(wǎng)絡學習率為0.001,折扣系數(shù)為0.99。訓練回合數(shù)為200,每回合最大仿真時長為20 s。訓練過程如圖5所示:
圖5 強化學習模型訓練過程Fig.5 Training process of the reinforcement learning model
為了驗證所設計制導方法有效性和正確性,以空空攔截背景進行仿真驗證,分別針對靜止、勻速及機動目標的打擊情況展開分析。為了體現(xiàn)制導性能,將本文所設計的分布式深度確定性策略梯度制導方法與文獻[8]中提出的滑模(Sliding mode, SM)制導方法,如公式(26)所示,進行對比。兩種制導方法的仿真曲線分別標記為DDPG和SM,導彈和目標的初始位置、速度及加速度限幅列于表1,其中為重力加速度。
表1 導彈與目標參數(shù)Table 1 Missile and target parameters
(26)
1) 靜止目標
設定期望視線角為0,由圖6(a)和圖6(b)可以看出,在不同的導引方法下,盡管飛行軌跡不同,導彈都能在給定的場角范圍內命中目標,其中分布式制導方法的脫靶量為10.64 m,SM制導方法的脫靶量為11.04 m。導彈在兩種導引方法下都能達到期望的視線角附近,如圖6(c)所示,兩種制導方法的視線角分別收斂到0.67°和1.41°。分布式制導方法擁有比SM制導方法更平滑的視線角收斂曲線。此外在SM制導方法中,視線角的變化曲線存在超調現(xiàn)象,而分布式制導方法的仿真結果更加穩(wěn)定,避免了超調現(xiàn)象的發(fā)生。從圖6(d)的變化曲線也可以看出,分布式制導方法的法向加速度更加穩(wěn)定,特別是在制導的末端。法向加速度曲線在制導末端的變化范圍較小,有利于導彈在制導末端獲得更光滑的彈道軌跡,視線角的變化也可以得到顯著的抑制。
圖6 靜止目標打擊結果Fig.6 Attacking results for stationary targets
2) 機動目標(=200 m/s,=200 m/s)
針對機動飛行目標的仿真結果如圖7所示,SM算法脫靶量為13.66 m,分布式制導算法脫靶量為13.19 m。為滿足攻擊角度約束的要求,分布式制導方法在導彈初始階段產(chǎn)生較大機動,末端彈道軌跡更加平滑。而SM制導算法在制導末端執(zhí)行機構達到飽和,彈道不平滑。在圖7(c)中,分布式制導算法視線角收斂到5.03°,能夠有效實施對機動目標的攔截。SM制導方法則存在較大的攻擊角度誤差,視線角度收斂到-9.9°,目標的機動性一定程度上影響了其視線角收斂。圖7(d)所示法向加速度仿真曲線顯示,相比SM制導律,分布式制導方法能更快地調整視線角,因此制導末端的法向加速度的波動性也更小。因此可以在保持脫靶量近乎不變的同時獲得更高的視線角精度。
圖7 機動目標打擊結果Fig.7 Attacking results for maneuvering targets
3) 蒙特卡羅仿真
為了驗證本節(jié)提出的制導律在不同初始條件下的穩(wěn)定性,并展示制導律的統(tǒng)計特性,針對機動目標進行蒙特卡羅仿真,在不同初始條件下進行了共100次仿真。初始條件如表2所示,其中unif表示平均分布,表示初始視線角。通過對此范圍內的不同初始條件進行仿真,顯示制導律在不同初始條件下的穩(wěn)定性與魯棒性。
表2 蒙特卡洛仿真參數(shù)Table 2 Monte Carlo simulation parameters
蒙特卡洛仿真結果如圖8所示。圖8(a)展示了仿真中導彈和目標的空間運動軌跡,圖中多色線為不同初始條件下的導彈運動軌跡,黑色線為目標運動軌跡。其顯示出所有仿真均成功擊中了目標,其平均脫靶量為9.26 m。圖8(b)為視場角曲線,其顯示出視場角取值基本滿足訓練所規(guī)定的范圍。圖8(c)展示了視線角收斂的過程,顯示了攻擊角度約束的完成,其終端平均視線角誤差為1.63°。圖8(d)顯示了較為平滑的法向加速度曲線。圖8說明所提分布式制導方法可以更快地完成視線角的收斂,防止制導末端控制量達到飽和。
圖8 蒙特卡洛仿真結果Fig.8 Attacking results of Monte Carlo simulation
本文對攻擊角度約束下的深度強化學習制導問題展開研究,提出了一種分布式強化學習制導方法。對獎勵函數(shù)做出改進,確保制導過程中視線角和視場角滿足約束要求,從而有效抑制了制導末端視線角速率變化。設計了分布式探索策略,提高了深度強化學習模型的泛化能力,改善了局部最優(yōu)解問題。通過對比仿真和不同初始狀態(tài)下的蒙特卡洛仿真驗證了所提改進制導方法的有效性和正確性。