針對(duì)集群攻擊的飛行器智能協(xié)同攔截策略

2023-10-17 04:01:26高樹一林德福鄭多胡馨予

航空學(xué)報(bào) 2023年18期

高樹一，林德福，鄭多，*，胡馨予

1.北京理工大學(xué) 宇航學(xué)院，北京 100081

2.北京理工大學(xué) 徐特立學(xué)院，北京 100081

隨著現(xiàn)代作戰(zhàn)理念向體系轉(zhuǎn)變，單體武器裝備發(fā)揮的作戰(zhàn)效能正變得愈加有限，未來智能化戰(zhàn)爭(zhēng)將是多智能體間的協(xié)同作戰(zhàn)，群體間的博弈對(duì)抗將貫穿戰(zhàn)爭(zhēng)始末。針對(duì)復(fù)雜作戰(zhàn)環(huán)境中的集群目標(biāo)攔截問題，需要考慮集群目標(biāo)可能的突防手段，研究立體化多層次的智能協(xié)同攔截策略，以提升攔截成功率和任務(wù)效能。

集群目標(biāo)的協(xié)同攔截可以分為2個(gè)子問題：一是多目標(biāo)攔截的目標(biāo)分配問題；二是攔截方集群協(xié)同打擊問題。針對(duì)以上2個(gè)問題，國(guó)內(nèi)外相關(guān)研究人員已開展了一定的研究工作。多目標(biāo)攔截的目標(biāo)分配問題屬于任務(wù)分配問題，文獻(xiàn)［1］利用脫靶距離和視線角速率構(gòu)造了適合于多對(duì)多作戰(zhàn)的攔截概率函數(shù)，提出了一種具有固定和自適應(yīng)分組約束的任務(wù)分配方法，簡(jiǎn)化分配過程進(jìn)而提升了作戰(zhàn)效能。文獻(xiàn)［2］通過攻防雙方作戰(zhàn)態(tài)勢(shì)設(shè)計(jì)評(píng)估模型，進(jìn)而結(jié)合強(qiáng)化學(xué)習(xí)算法提出了一種智能任務(wù)分配方法，合理的評(píng)估模型搭配強(qiáng)化學(xué)習(xí)智能算法不僅簡(jiǎn)化了分配問題，同時(shí)賦予分配算法智能屬性。文獻(xiàn)［3］提出了一種協(xié)作的滾動(dòng)優(yōu)化控制器，所提出的控制器通過在規(guī)劃范圍內(nèi)估計(jì)可收集的獎(jiǎng)勵(lì)來順序地解決優(yōu)化問題，并對(duì)行動(dòng)范圍執(zhí)行控制，從而實(shí)現(xiàn)攔截任務(wù)分配。文獻(xiàn)［4］提出了一種預(yù)測(cè)規(guī)劃攔截的方法，該方法允許在檢測(cè)到目標(biāo)軌跡變化時(shí)重新規(guī)劃攔截路徑，可以高效的解決協(xié)同攔截問題。文獻(xiàn)［5］提出了一種基于動(dòng)態(tài)態(tài)勢(shì)評(píng)估的多目標(biāo)任務(wù)分配方法，該方法綜合考慮攔截集群的協(xié)作能力，并采用遺傳算法對(duì)攔截目標(biāo)分配策略進(jìn)行優(yōu)化，通過仿真驗(yàn)證了算法的有效性。文獻(xiàn)［6］結(jié)合路徑長(zhǎng)度成本以及集群機(jī)動(dòng)成本提出了一種目標(biāo)分配方案，并通過創(chuàng)建Delaunay加權(quán)樹并在樹中搜索最優(yōu)路徑，實(shí)現(xiàn)了基于航路點(diǎn)的作戰(zhàn)路徑規(guī)劃，該文獻(xiàn)將目標(biāo)分配問題表述為基于多約束問題的路徑搜索問題，進(jìn)而優(yōu)化目標(biāo)分配策略。上述文獻(xiàn)在群目標(biāo)任務(wù)分配方面具有較好的實(shí)踐意義，在協(xié)同攔截作戰(zhàn)中預(yù)先制定的目標(biāo)分配策略雖然能夠簡(jiǎn)化攔截問題，但是所消耗的時(shí)間于戰(zhàn)爭(zhēng)是不利的，未來戰(zhàn)場(chǎng)迫切需要將分配方法融合在協(xié)同打擊中，進(jìn)而提高作戰(zhàn)效率。

在協(xié)同攔截機(jī)動(dòng)策略方面，目前開展的研究主要包括打擊時(shí)間協(xié)同、角度約束協(xié)同和智能協(xié)同3種攔截方式。關(guān)于基于打擊時(shí)間協(xié)同的集群攔截策略，國(guó)內(nèi)外相關(guān)學(xué)者進(jìn)行了大量的研究。文獻(xiàn)［7］通過分析多飛行器指定時(shí)間和預(yù)估飛行時(shí)間的誤差作為反饋，提出了系數(shù)隨時(shí)間變化的多飛行器協(xié)同攔截方法，該方法具有一定的自適應(yīng)性，能夠結(jié)合制導(dǎo)控制的不同階段實(shí)時(shí)調(diào)整系數(shù)，進(jìn)而提升攔截精度。文獻(xiàn)［8］基于協(xié)同控制理論，設(shè)計(jì)了一種結(jié)合空間協(xié)同和時(shí)間協(xié)同的攔截制導(dǎo)律模型，實(shí)現(xiàn)多飛行器間視線角在規(guī)定時(shí)間內(nèi)收斂到期望值，該方法綜合考慮時(shí)間空間約束，在此基礎(chǔ)上設(shè)計(jì)相應(yīng)的策略模型。文獻(xiàn)［9］基于超螺旋控制方法提出了攻擊時(shí)間控制協(xié)同攔截制導(dǎo)方法，該方法基于滑膜控制設(shè)計(jì)攔截策略，在考慮攻擊時(shí)間約束的前提下提升制導(dǎo)精度，具有較強(qiáng)的工程實(shí)用性。文獻(xiàn)［10］提出了一種能夠依據(jù)當(dāng)前作戰(zhàn)態(tài)勢(shì)實(shí)時(shí)調(diào)節(jié)攻擊時(shí)間的協(xié)同攔截策略，并且通過仿真實(shí)驗(yàn)驗(yàn)證了算法有效性。有關(guān)時(shí)間協(xié)同的方法是協(xié)同作戰(zhàn)的研究重點(diǎn)，但區(qū)別于不同的戰(zhàn)場(chǎng)情況，與角度有關(guān)的協(xié)同方法有時(shí)更為重要。關(guān)于基于角度約束協(xié)同的集群攔截策略，相關(guān)研究人員開展了一定的研究。文獻(xiàn)［11］基于最優(yōu)控制的方法設(shè)計(jì)了帶有角度約束的協(xié)同制導(dǎo)策略，通過為飛行器預(yù)先設(shè)定攔截角度進(jìn)而控制集群以指定的角度構(gòu)型攔截目標(biāo)，該方法綜合考慮角度約束和制導(dǎo)精度，具有一定的工程實(shí)用性。文獻(xiàn)［12］將前置角和彈目距離綜合考慮，設(shè)計(jì)出一種領(lǐng)從式協(xié)同攔截方法，該方法依據(jù)前置角變化設(shè)計(jì)制導(dǎo)率，同時(shí)融合領(lǐng)從式協(xié)同策略，對(duì)攔截效能有較為積極的作用。文獻(xiàn)［13］在考慮落角約束的基礎(chǔ)上設(shè)計(jì)了自適應(yīng)的協(xié)同攔截制導(dǎo)方法，該方法能夠結(jié)合作戰(zhàn)場(chǎng)景的變化調(diào)節(jié)協(xié)同制導(dǎo)策略，進(jìn)而實(shí)現(xiàn)飽和攻擊。文獻(xiàn)［14］提出了一種將視線角速率與二階滑模技術(shù)相結(jié)合的角度約束協(xié)同制導(dǎo)方法，具有較強(qiáng)的工程實(shí)用性。文獻(xiàn)［15］基于非奇異終端滑模控制理論設(shè)計(jì)出一種能夠以期望撞擊角攔截機(jī)動(dòng)目標(biāo)的協(xié)同制導(dǎo)方法，該方法作為滑膜控制的變體，較好的適用于協(xié)同作戰(zhàn)中，具有良好的工程實(shí)用性。文獻(xiàn)［16］研究了具有無向通信拓?fù)浣Y(jié)構(gòu)的協(xié)同制導(dǎo)問題，提出了一種分布式協(xié)同制導(dǎo)策略，以實(shí)現(xiàn)具有碰撞角約束的協(xié)同打擊。文獻(xiàn)［17］基于非線性問題轉(zhuǎn)化為線性二次微分的方法，提出了一種考慮碰撞角和時(shí)間約束的次優(yōu)制導(dǎo)方法，仿真結(jié)果表明該方法適用于導(dǎo)彈齊射發(fā)射作戰(zhàn)場(chǎng)景。上述角度協(xié)同方法考慮落角約束、視線角約束等限制，對(duì)制導(dǎo)控制方法進(jìn)行了理論推導(dǎo)。綜合分析時(shí)間和角度協(xié)同2種方法，由于復(fù)雜戰(zhàn)場(chǎng)中狀態(tài)空間維數(shù)的上升，傳統(tǒng)的基于最優(yōu)控制、非線性控制等的制導(dǎo)方法將難以適應(yīng)。

近年來人工智能技術(shù)發(fā)展迅速，部分學(xué)者針對(duì)基于智能算法的協(xié)同攔截策略設(shè)計(jì)問題展開相關(guān)研究。文獻(xiàn)［18］將飛行器對(duì)抗任務(wù)離散化后，提出了一種能夠應(yīng)對(duì)復(fù)雜環(huán)境的智能對(duì)抗策略，該方法采用分層強(qiáng)化學(xué)習(xí)的方法，有效的提升了模型訓(xùn)練的收斂速度，解決了群體對(duì)抗中的稀疏獎(jiǎng)勵(lì)問題。文獻(xiàn)［19］基于多智能體強(qiáng)化學(xué)習(xí)理論設(shè)計(jì)了一種多飛行器攻防對(duì)抗自主決策算法，在無人飛行器集群協(xié)同對(duì)抗環(huán)境中進(jìn)行了仿真驗(yàn)證。文獻(xiàn)［20］利用粒子群算法，基于協(xié)同博弈理論求解了多飛行器博弈過程的納什均衡，該方法在不使用任何線性化近似的情況下，使問題的基本收益最大化，從而顯著提升導(dǎo)彈性能。文獻(xiàn)［21］基于強(qiáng)化學(xué)習(xí)算法提出了一種適應(yīng)于多智能體博弈的狼群優(yōu)化算法，該方法中學(xué)習(xí)率可以根據(jù)環(huán)境變化自主調(diào)整，通過仿真實(shí)驗(yàn)表明狼群優(yōu)化算法在多智能體隨機(jī)博弈中的合理性。文獻(xiàn)［22］基于啟發(fā)式蟻群算法提出了一種多飛行器的協(xié)同攔截過程中的路徑規(guī)劃方法，該算法通過求解友機(jī)對(duì)目標(biāo)的最優(yōu)分配來確定機(jī)動(dòng)策略，仿真實(shí)驗(yàn)表明該方法優(yōu)于普通的蟻群算法，是一種適用于協(xié)同作戰(zhàn)的高效算法。文獻(xiàn)［23］基于深度確定性策略梯度（Deep Deterministic Policy Gradient，DDPG）算法設(shè)計(jì)了一種飛行器的制導(dǎo)控制一體化方法，該方法綜合考慮飛行器的運(yùn)動(dòng)學(xué)和動(dòng)力學(xué)特性，將強(qiáng)化學(xué)習(xí)算法與制導(dǎo)控制原理相結(jié)合，提升機(jī)動(dòng)策略的作戰(zhàn)效能。文獻(xiàn)［24］結(jié)合協(xié)同進(jìn)化算法和模型預(yù)測(cè)控制方法設(shè)計(jì)了一種飛行器軌跡規(guī)劃方法，該方法用于處理飛行器編隊(duì)控制問題，相比于傳統(tǒng)的模型預(yù)測(cè)控制方法提升了算法漸進(jìn)穩(wěn)定性。文獻(xiàn)［25］研究了一種基于障礙維數(shù)的連續(xù)粒子群優(yōu)化算法來優(yōu)化攔截入侵者的防御路徑，相比于傳統(tǒng)的粒子群算法，該方法更適應(yīng)于攔截作戰(zhàn)中狀態(tài)空間維數(shù)大的仿真場(chǎng)景。文獻(xiàn)［26］采用深度確定性策略梯度算法建立了飛行器模型，并利用多飛行器的協(xié)同參數(shù)構(gòu)造獎(jiǎng)勵(lì)函數(shù)，從而引導(dǎo)飛行器進(jìn)行協(xié)同作戰(zhàn)。

隨著來襲飛行器性能和突防策略的多元化發(fā)展，未來戰(zhàn)場(chǎng)中飛行器間的攻防對(duì)抗將以集群博弈的方式出現(xiàn)?，F(xiàn)有的協(xié)同攔截方法雖然具備一定的攔截能力，但較難適用于動(dòng)態(tài)博弈條件下的群目標(biāo)攔截任務(wù)。因此將智能理論與攔截策略相結(jié)合賦予攔截器協(xié)同博弈能力是未來打贏高對(duì)抗戰(zhàn)爭(zhēng)的迫切需求。

本文面向未來集群目標(biāo)協(xié)同攔截的任務(wù)需求，基于強(qiáng)化學(xué)習(xí)原理研究提出了一種多飛行器攔截博弈對(duì)抗策略自學(xué)習(xí)智能方法。針對(duì)傳統(tǒng)方法中難以應(yīng)對(duì)高維連續(xù)狀態(tài)動(dòng)作空間的問題，將傳統(tǒng)的多智能體強(qiáng)化學(xué)習(xí)方法與近端策略優(yōu)化思想相結(jié)合，采用集中式評(píng)判-分布式執(zhí)行的算法架構(gòu)，提出了一種適用于飛行器集群目標(biāo)攔截作戰(zhàn)環(huán)境的智能對(duì)抗算法。研究提出的智能攔截博弈對(duì)抗算法具有以下優(yōu)勢(shì)：

1）將近端策略優(yōu)化方法融入到多智能體環(huán)境中，有效解決了強(qiáng)化學(xué)習(xí)訓(xùn)練中步長(zhǎng)難以確定的問題。

2）基于集中-分布式算法框架，將廣義優(yōu)勢(shì)函數(shù)結(jié)合到價(jià)值函數(shù)設(shè)計(jì)中，引入梯度更新限幅機(jī)制，一定程度上提升了算法的收斂性。

3）將攔截目標(biāo)分配過程與協(xié)同攔截策略一體化設(shè)計(jì)，研究提出了具有自主進(jìn)化能力的多目標(biāo)智能協(xié)同攔截策略，提高群目標(biāo)攔截效能。

1 集群飛行器攔截博弈對(duì)抗

1.1 問題描述

在飛行器攔截博弈對(duì)抗中，對(duì)抗雙方可分別描述為進(jìn)攻飛行器群體與攔截飛行器群體。進(jìn)攻飛行器群體需要打擊高價(jià)值目標(biāo)區(qū)域，飛行方向指向目標(biāo)區(qū)域位置，并保證一定的精度。防御飛行器群體則需要實(shí)現(xiàn)對(duì)高價(jià)值目標(biāo)區(qū)域的防御，攔截進(jìn)攻飛行器。本文重點(diǎn)研究攻防雙方對(duì)抗過程中防御方集群的協(xié)同攔截策略，提升防御方集群博弈對(duì)抗能力，立足于集群作戰(zhàn)中的多目標(biāo)協(xié)同攔截，從而實(shí)現(xiàn)防御方集群對(duì)進(jìn)攻方集群飛行器的飽和攻擊，進(jìn)而實(shí)現(xiàn)對(duì)高價(jià)值目標(biāo)區(qū)域的防御作戰(zhàn)目的。飛行器在飛行過程中通過機(jī)載設(shè)備，可以感知作戰(zhàn)信息。在博弈對(duì)抗中，防御飛行器相對(duì)于入侵飛行器的態(tài)勢(shì)關(guān)系主要從博弈雙方關(guān)于相對(duì)運(yùn)動(dòng)關(guān)系的態(tài)勢(shì)進(jìn)行描述，作戰(zhàn)博弈對(duì)抗必須同時(shí)滿足位置要求和角度要求。如圖1所示，環(huán)境中包括目標(biāo)區(qū)域、進(jìn)攻飛行器、防御飛行器，其中，(xi，yi)|i=1，2，…n為飛行器的位置坐標(biāo)。

圖1 多飛行器攔截博弈問題Fig.1 Multi-aircraft interception game problem

1.2 飛行器運(yùn)動(dòng)學(xué)模型

本文以某固定翼飛行器為研究對(duì)象，考慮一個(gè)二維平面協(xié)同攔截場(chǎng)景，如圖2所示。其中，下標(biāo)M和T分別表示防御方飛行器和進(jìn)攻方飛行器；x，y為二維空間中飛行器的位置坐標(biāo)；q和r分別表示飛行器間的視線角和相對(duì)距離；γ為飛行器速度方向與x軸的夾角，即航向角；V和a分別表示飛行器的速度大小和側(cè)向加速度大小。

圖2 二維平面協(xié)同攔截場(chǎng)景Fig.2 2D plane collaborative interception scenario

某單體飛行器的二維空間運(yùn)動(dòng)學(xué)模型可以簡(jiǎn)化描述為

執(zhí)行攔截任務(wù)過程中，描述攻防雙方飛行器的相對(duì)運(yùn)動(dòng)關(guān)系方程可以表示為

式中：r為二維空間中飛行器之間的距離；q為飛行器之間的視線角大??；VT為進(jìn)攻飛行器的速度大??；VM為進(jìn)攻飛行器的速度大小；γT為進(jìn)攻飛行器的速度航向角；γM為攔截飛行器的速度航向角；定義沿著視線和垂直視線方向的相對(duì)速度分別為Vr=˙，Vq=˙。

對(duì)Vr和Vq求導(dǎo)可得

式中：aTr=aTsin(q-γT)，aTq=aTcos(q-γT)為進(jìn)攻方飛行器沿視線方向和垂直于視線方向的加速度；aMr=aMsin(q-γM)，aMq=aMcos(q-γM)為防御方飛行器沿著視線和垂直于視線方向的加速度。

飛行器速度航向角和過載之間存在著以下關(guān)系：

式中：nM為防御飛行器的法向過載指令；nT是進(jìn)攻飛行器的法向過載指令；g為重力加速度。

本文考慮了實(shí)際飛行中飛行器能力限制，設(shè)定飛行器的最大飛行速度Vmax和過載的范圍限制，攻防雙方飛行器最大速度為Vmax=45 m/s，最大過載為nmax=1。

2 多飛行器攔截博弈對(duì)抗智能機(jī)動(dòng)決策

針對(duì)群體目標(biāo)智能化攔截問題，本節(jié)基于多智能體深度強(qiáng)化學(xué)習(xí)算法提出了一種多飛行器群體攔截博弈對(duì)抗的智能決策方法，通過感知到的作戰(zhàn)環(huán)境和敵我態(tài)勢(shì)信息，自主學(xué)習(xí)攔截策略，體現(xiàn)智能系統(tǒng)的自學(xué)習(xí)和自進(jìn)化屬性。

2.1 近端策略優(yōu)化算法模型

在面對(duì)多飛行器作戰(zhàn)環(huán)境時(shí)，傳統(tǒng)的策略梯度算法會(huì)出現(xiàn)訓(xùn)練過程中策略更新步長(zhǎng)難以確定的問題。因此本文采取了近端策略優(yōu)化算法，在面對(duì)復(fù)雜的多飛行器攔截博弈對(duì)抗作戰(zhàn)環(huán)境中提出了新的目標(biāo)函數(shù)，可以在算法訓(xùn)練的過程中實(shí)現(xiàn)小批量更新，避免訓(xùn)練結(jié)果發(fā)散。

不同于傳統(tǒng)強(qiáng)化學(xué)習(xí)算法中使用所執(zhí)行動(dòng)作的對(duì)數(shù)概率梯度，近端策略優(yōu)化算法依據(jù)新舊策略之間的比率進(jìn)而提出新目標(biāo)，即

式中：πθ(a|s)當(dāng)前策略函數(shù)；πθold(a|s)為更新前的策略函數(shù)；A為優(yōu)勢(shì)函數(shù)。

本文將近端策略優(yōu)化算法與廣義優(yōu)勢(shì)函數(shù)估計(jì)方法相結(jié)合，同時(shí)融合clip算法以限制策略更新幅度。定義評(píng)估飛行器行為策略的目標(biāo)函數(shù)：

式中：clip算法的作用是將新舊策略之間的比率限制在[1-ε，1+ε]之內(nèi)，根據(jù)廣義優(yōu)勢(shì)估計(jì)函數(shù)At的不同取值，clip算法可以分為2種情況，如圖3所示。圖中紅線表示Jclipθ的取值，從而防止訓(xùn)練過程中策略的大幅更新，估計(jì)形式為式（7）所示。

圖3 clip算法模型Fig.3 clip algorithm model

式中：σt=rt+γV(st+1)-V(st)；r為獎(jiǎng) 勵(lì) 值；γ為衰減因子；V(st)為此時(shí)刻的價(jià)值函數(shù)。

2.2 多智能體強(qiáng)化學(xué)習(xí)策略優(yōu)化算法

本文將多飛行器攔截博弈對(duì)抗作戰(zhàn)場(chǎng)景描述為一個(gè)合作的多智能體強(qiáng)化學(xué)習(xí)問題，采用集中式評(píng)判分布式執(zhí)行算法架構(gòu)，該方法模型如圖4所示，仿真環(huán)境中多智能體圍繞共同目標(biāo)進(jìn)行分工與協(xié)作，涌現(xiàn)群體智能。

圖4 集中式評(píng)價(jià)分布式執(zhí)行算法框架Fig.4 Centralized evaluation distributed execution algorithm framework

為適應(yīng)多飛行器對(duì)抗作戰(zhàn)場(chǎng)景，本文將近端策略優(yōu)化算法和集中式評(píng)價(jià)分布式執(zhí)行框架相結(jié)合，提出了一種適用于集群對(duì)抗的多智能體強(qiáng)化學(xué)習(xí)算法。為應(yīng)對(duì)復(fù)雜作戰(zhàn)環(huán)境下值函數(shù)以及策略梯度計(jì)算復(fù)雜的問題，引入深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)去擬合強(qiáng)化學(xué)習(xí)中的評(píng)判函數(shù)以及策略函數(shù)。多智能體深度強(qiáng)化學(xué)習(xí)算法模型如圖5所示。

圖5 多智能體深度強(qiáng)化學(xué)習(xí)算法模型Fig.5 Multi-agent deep reinforcement learning algorithm model

飛行器攔截策略訓(xùn)練過程分為評(píng)判和執(zhí)行2個(gè)部分，單體飛行器同時(shí)具有攻防對(duì)抗策略π和策略的評(píng)判模塊Q，本文用神經(jīng)網(wǎng)絡(luò)擬合評(píng)判函數(shù)以及策略函數(shù)，如圖6所示。并引入經(jīng)驗(yàn)回放機(jī)制，使訓(xùn)練數(shù)據(jù)通過經(jīng)驗(yàn)回放機(jī)制中的重要性采樣獲得，從而在一定程度上改善了算法的收斂性。

圖6 算法架構(gòu)Fig.6 Algorithm architecture

1）評(píng)判模塊

神經(jīng)網(wǎng)絡(luò)具有替代非線性函數(shù)的能力，因此本文使用多層循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）來近似評(píng)價(jià)策略的值函數(shù)。相比于傳統(tǒng)的全連接網(wǎng)絡(luò)，RNN增加了前后時(shí)序的關(guān)系，在訓(xùn)練過程中將前序信息應(yīng)用于當(dāng)前輸出的計(jì)算中，提升神經(jīng)網(wǎng)絡(luò)訓(xùn)練的收斂性能。

評(píng)判模塊通過計(jì)算狀態(tài)價(jià)值函數(shù)V(st)和Vtarget(st)更新神經(jīng)網(wǎng)絡(luò)參數(shù)ω，Critic評(píng)判網(wǎng)絡(luò)優(yōu)化的損失函數(shù)如式（8）所示：

用于擬合值函數(shù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示，基于時(shí)間差分算法優(yōu)化損失函數(shù)進(jìn)而更新神經(jīng)網(wǎng)絡(luò)參數(shù)。

圖7 值函數(shù)神經(jīng)網(wǎng)絡(luò)Fig.7 Value function neural network

2）執(zhí)行模塊

在集中式訓(xùn)練和分布式執(zhí)行的框架下，策略神經(jīng)網(wǎng)絡(luò)在執(zhí)行時(shí)只利用飛行器自身的觀測(cè)狀態(tài)生成飛行器的機(jī)動(dòng)策略。本文使用神經(jīng)網(wǎng)絡(luò)擬合策略函數(shù)，如圖8所示。定義每架單體飛行器的參數(shù)化機(jī)動(dòng)策略為πθi，θ是機(jī)動(dòng)策略的參數(shù)，同時(shí)為Actor執(zhí)行模塊定義一個(gè)策略優(yōu)化目標(biāo)函數(shù)：

圖8 策略神經(jīng)網(wǎng)絡(luò)Fig.8 Strategic neural network

式中：θ為策略網(wǎng)絡(luò)參數(shù)；At為評(píng)判網(wǎng)絡(luò)估計(jì)的優(yōu)勢(shì)函數(shù)；πθold(at|st)代表收集經(jīng)驗(yàn)的原始網(wǎng)絡(luò)，πθ(at|st)為利用更新后的策略；clip函數(shù)將概率比限制在一個(gè)合理的范圍；ε為一個(gè)超參數(shù)。以At作為優(yōu)化目標(biāo)，At＞0時(shí)增加πθ(at∣St)的概率，反之At≤0則減小πθ(at∣St)的概率。

2.3 飛行器博弈智能對(duì)抗算法建模

將飛行器間的對(duì)抗作戰(zhàn)任務(wù)建模為部分可觀馬爾科夫決策過程，如圖9所示。將飛行器群體構(gòu)成一個(gè)整體智能無人系統(tǒng)，對(duì)智能無人系統(tǒng)中的相關(guān)變量定義如下：i=1，2，…，n表示各個(gè)飛行器的編號(hào)，n為飛行器的總數(shù)量；所有飛行器的聯(lián)合動(dòng)作空間為A；所有飛行器的聯(lián)合動(dòng)作為at；所有飛行器下一時(shí)刻的聯(lián)合動(dòng)作為at+1；飛行器的聯(lián)合狀態(tài)空間為S，聯(lián)合狀態(tài)為st；每架飛行器的感知信息為oti∈st；各個(gè)飛行器的獎(jiǎng)勵(lì)為rti。

圖9 作戰(zhàn)場(chǎng)景馬爾可夫建模Fig.9 Markov modeling of operational scenario

在算法訓(xùn)練過程中，飛行器接受環(huán)境觀測(cè)信息產(chǎn)生機(jī)動(dòng)策略，通過值函數(shù)對(duì)策略進(jìn)行評(píng)估優(yōu)化，直到訓(xùn)練生成最優(yōu)值函數(shù)Q*(s，ai)和最優(yōu)策略π*。算法中局部觀測(cè)信息和全局觀測(cè)信息交匯融合提升了多智能體群體博弈的對(duì)抗性能。作戰(zhàn)過程中算法流程如圖10所示，其中TD表示時(shí)序差分方法（Temporal Difference，TD）。

圖10 強(qiáng)化學(xué)習(xí)過程Fig.10 Reinforcement learning process

3 強(qiáng)化學(xué)習(xí)算法建模設(shè)計(jì)

第2節(jié)基于深度強(qiáng)化學(xué)習(xí)方法，建立了多飛行器智能攔截博弈對(duì)抗作戰(zhàn)模型，本節(jié)對(duì)模型中的觀測(cè)空間和獎(jiǎng)勵(lì)函數(shù)進(jìn)行設(shè)計(jì)。

3.1 觀測(cè)空間設(shè)計(jì)

多智能體深度強(qiáng)化學(xué)習(xí)模型訓(xùn)練過程中，單個(gè)智能體的局部觀測(cè)值以及輸入給評(píng)價(jià)網(wǎng)絡(luò)的整體觀測(cè)值都對(duì)模型訓(xùn)練具有較大影響。強(qiáng)化學(xué)習(xí)算法的核心在于與環(huán)境交互，每個(gè)智能體觀測(cè)到的信息都對(duì)策略的學(xué)習(xí)有著較大影響。本文中單個(gè)飛行器與環(huán)境交互過程中觀測(cè)的環(huán)境信息包括3部分，可表述為

在式（10）中，與視線角速率相關(guān)的觀測(cè)信息為

式中：V為攔截飛行器的速度；λ˙為攔截飛行器i與環(huán)境中其他入侵飛行器的視線角速率。

在式（10）中，表示距離的觀測(cè)信息為

式中：進(jìn)攻飛行器和防御飛行器的相對(duì)距離使用(pt，pm)=‖pt-pm‖來表示，其中，pt為進(jìn)攻飛行器的位置，pm為防御飛行器的位置。

在式（10）中，表示速度矢量前置角的觀測(cè)信息為

式中：γm為攔截飛行器的速度航向角；是攔截飛行器和入侵飛行器的視線角。

3.2 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

在多飛行器攔截博弈對(duì)抗作戰(zhàn)場(chǎng)景中，防御方飛行器的作戰(zhàn)目標(biāo)是以較小耗能逼近進(jìn)攻飛行器，從而實(shí)現(xiàn)攔截打擊。深度強(qiáng)化學(xué)習(xí)理論中獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)對(duì)博弈策略的學(xué)習(xí)尤為重要，針對(duì)多飛行器攔截博弈對(duì)抗任務(wù)場(chǎng)景，如果僅使用終端攔截回報(bào)會(huì)使獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)稀疏，從而導(dǎo)致策略學(xué)習(xí)過程缺乏反饋引導(dǎo)，導(dǎo)致飛行器博弈策略訓(xùn)練緩慢。本文結(jié)合作戰(zhàn)任務(wù)場(chǎng)景攔截過程中飛行器間的距離關(guān)系和角度關(guān)系設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)，下面對(duì)己方攔截飛行器的獎(jiǎng)勵(lì)函數(shù)進(jìn)行描述。

攔截飛行器的獎(jiǎng)勵(lì)函數(shù)包括4部分。分別是基于飛行器間相對(duì)距離的獎(jiǎng)勵(lì)、基于飛行器間前置角的獎(jiǎng)勵(lì)，攔截成功的單體獎(jiǎng)勵(lì)和集群終端獎(jiǎng)勵(lì)，可描述為

單體飛行器攔截終端獎(jiǎng)勵(lì)S表示為

式中：Z為攔截飛行器的集合；fm為布爾變量，當(dāng)攔截飛行器成功攔截入侵飛行器時(shí)為1，否則為0；經(jīng)過仿真驗(yàn)證設(shè)置超參數(shù)為K1=800。

集群攔截終端獎(jiǎng)勵(lì)P1表示為

式中：fB為布爾變量，當(dāng)進(jìn)攻集群全部被攔截時(shí)為1，否則為0；經(jīng)過仿真驗(yàn)證設(shè)置超參數(shù)為K2=4×103。

基于飛行器相對(duì)距離獎(jiǎng)勵(lì)P2表示為

式中：U為進(jìn)攻飛行器的集合；經(jīng)過仿真驗(yàn)證設(shè)置超參數(shù)K3=0.5。

基于飛行器間前置角的獎(jiǎng)勵(lì)P3表示為

式中：經(jīng)過仿真驗(yàn)證設(shè)置超參數(shù)為K4=0.65，K5=0.3。

4 仿真結(jié)果及分析

為驗(yàn)證算法在多飛行器智能攔截場(chǎng)景中的有效性，本文設(shè)計(jì)了多飛行器攔截博弈對(duì)抗仿真環(huán)境，基于不同的任務(wù)類型以及飛行器的分布情況設(shè)置了作戰(zhàn)仿真實(shí)例進(jìn)行仿真實(shí)驗(yàn)。

4.1 仿真參數(shù)

在仿真實(shí)驗(yàn)中，程序運(yùn)行的服務(wù)器采用Ubuntu18.04系統(tǒng)，搭載Intel Core i7 9700F處理器，顯卡型號(hào)為Nvidia GeForce GTX 3090。模型訓(xùn)練采用并行計(jì)算方法，設(shè)定進(jìn)程數(shù)為64，仿真環(huán)境步長(zhǎng)為0.06 s。

4.2 算法訓(xùn)練

使用5架飛行器構(gòu)成防御集群進(jìn)行訓(xùn)練，仿真程序?qū)崿F(xiàn)流程如圖11所示。

圖11 算法訓(xùn)練流程圖Fig.11 Algorithm training flow chart

多飛行器智能攔截博弈對(duì)抗作戰(zhàn)環(huán)境中防御方飛行器策略訓(xùn)練算法使用的訓(xùn)練參數(shù)如表1所示。

表1 算法訓(xùn)練參數(shù)設(shè)置Table 1 Setting of algorithm training parameters

為了便于觀察算法訓(xùn)練狀態(tài)，防止訓(xùn)練過程中出現(xiàn)梯度消失等現(xiàn)象，對(duì)算法獎(jiǎng)勵(lì)值的收斂性能進(jìn)行了監(jiān)測(cè)。以3架飛行器協(xié)同攻擊目標(biāo)作戰(zhàn)場(chǎng)景為例，算法訓(xùn)練過程獎(jiǎng)勵(lì)曲線如圖12所示；在相同條件下使用多智能體深度確定性策略梯度下降算法（Multi-Agent Deep Deterministic Policy Gradient，MADDPG）進(jìn)行策略訓(xùn)練時(shí)，得到獎(jiǎng)勵(lì)曲線如圖13所示。

圖12 本文算法獎(jiǎng)勵(lì)函數(shù)曲線Fig.12 Reward function curve of our algorithm

圖13 MADDPG獎(jiǎng)勵(lì)函數(shù)曲線Fig.13 Reward function curve of MADDPG

根據(jù)獎(jiǎng)勵(lì)函數(shù)曲線（圖12）可知，在算法訓(xùn)練過程中，飛行器集群的行為獎(jiǎng)勵(lì)收益值保持比較平穩(wěn)的狀態(tài)緩慢增加，在訓(xùn)練回合數(shù)到達(dá)12.5×104次之后獎(jiǎng)勵(lì)函數(shù)曲線逐漸收斂；根據(jù)獎(jiǎng)勵(lì)函數(shù)曲線（圖13）分析可知，MADDPG算法訓(xùn)練回合數(shù)到達(dá)17.5×104后才開始收斂。相比于傳統(tǒng)算法而言，本文所提智能算法收斂所需的回合數(shù)更少，收斂更加穩(wěn)定。仿真結(jié)果表明，在集群攔截任務(wù)中智能對(duì)抗算法收斂較快，獎(jiǎng)勵(lì)曲線較為光滑。

4.3 驗(yàn)證與分析

為了驗(yàn)證研究提出的飛行器智能對(duì)抗博弈算法，本文根據(jù)進(jìn)攻飛行器的數(shù)量不同設(shè)定了4種典型作戰(zhàn)場(chǎng)景，針對(duì)不同場(chǎng)景分別訓(xùn)練飛行器集群攔截作戰(zhàn)策略模型。4種典型作戰(zhàn)場(chǎng)景情況如表2所示，攻防雙方初始化階段隨機(jī)性條件設(shè)置如下，防御集群生成的初始位置與目標(biāo)區(qū)域的距離RM0∈[0，100] m，防御集群的初始速度VM0∈[15，25] m/s，初始速度方向隨機(jī)。進(jìn)攻集群隨機(jī)生成的初始位置與目標(biāo)區(qū)域的距離RT0∈[500，600] m，進(jìn) 攻集群的初始速度VT0∈[15，45] m/s，初始速度方向與彈目連線的夾角＜30°。

表2 作戰(zhàn)場(chǎng)景設(shè)置Table 2 Operational scenario setting

本文針對(duì)訓(xùn)練得到的4種場(chǎng)景下的機(jī)動(dòng)策略模型分別進(jìn)行仿真測(cè)試，驗(yàn)證算法的有效性。仿真場(chǎng)景中，防護(hù)目標(biāo)被隨機(jī)設(shè)置在固定位置，5架防御飛行器在防護(hù)目標(biāo)區(qū)域附近隨機(jī)地部署。進(jìn)攻飛行器的位置在一定的限制范圍內(nèi)隨機(jī)生成，每個(gè)飛行器的能力約束包括飛行速度限制、過載能力限制等。設(shè)定作戰(zhàn)場(chǎng)景中攔截成功的判定方法為脫靶量＜5 m。4種典型作戰(zhàn)場(chǎng)景的初始參數(shù)如表3所示。

表3 仿真環(huán)境參數(shù)Table 3 Simulation environment parameters

1）5架防御vs 1架進(jìn)攻

針對(duì)1架進(jìn)攻飛行器攻擊防護(hù)目標(biāo)的情況，仿真環(huán)境初始參數(shù)如表3所示，其中進(jìn)攻方采取的機(jī)動(dòng)策略為比例導(dǎo)引法，則飛行器集群攔截任務(wù)的仿真結(jié)果如圖14所示，其中，D-UAV表示防御飛行器，A-UAV表示進(jìn)攻飛行器。由位置曲線（圖14（a））分析可知，基于近端策略優(yōu)化的多智能體強(qiáng)化學(xué)習(xí)算法訓(xùn)練得到的機(jī)動(dòng)策略模型能夠?qū)?架進(jìn)攻飛行器來襲實(shí)施成功攔截。由法向過載曲線（圖14（b））可知，機(jī)動(dòng)策略模型輸出的法向過載指令在限制范圍內(nèi)，指令變化平滑，航向角變化平穩(wěn)，適于飛行器跟蹤控制。軸向過載曲線（圖14（c））表明，為了快速實(shí)現(xiàn)攔截任務(wù)，神經(jīng)網(wǎng)絡(luò)輸出相應(yīng)的軸向過載指令，提升飛行器的速度，使得防御方飛行器群體更加高效快速的實(shí)現(xiàn)攔截任務(wù)。

圖14 5架防御vs1架進(jìn)攻協(xié)同攔截仿真結(jié)果Fig.14 5 defense vs 1 attack cooperative intercept countermeasure simulation results

從位置曲線（圖13（a））可以看出，防御方飛行器各自采取較為平滑的飛行路線去攔截進(jìn)攻方，在保證成功率的同時(shí)縮短攔截路程，減少作戰(zhàn)耗能。

仿真結(jié)果表明，采用本文所提的智能協(xié)同策略可以對(duì)單體進(jìn)攻飛行器進(jìn)行有效攔截，實(shí)現(xiàn)高精準(zhǔn)度打擊。針對(duì)多對(duì)一攔截問題，相比于按照自身能力約束分別對(duì)目標(biāo)進(jìn)行攔截的方法，智能協(xié)同策略能夠利用飛行器間的協(xié)作機(jī)制執(zhí)行任務(wù)，具有一定的實(shí)際應(yīng)用價(jià)值。

2）5架防御vs2架進(jìn)攻

針對(duì)2架進(jìn)攻飛行器攻擊防護(hù)目標(biāo)的情況，仿真環(huán)境初始參數(shù)如表3所示，其中進(jìn)攻方采取的機(jī)動(dòng)策略為比例導(dǎo)引法，防御方采取智能機(jī)動(dòng)策略，作戰(zhàn)仿真情況如圖15所示。由位置曲線（圖15（a））分析可知，強(qiáng)化學(xué)習(xí)方法訓(xùn)練得到的智能機(jī)動(dòng)策略能夠?qū)崿F(xiàn)智能打擊任務(wù)分配，在面對(duì)兩架進(jìn)攻飛行器時(shí)，機(jī)動(dòng)策略模型綜合考慮防御飛行器和進(jìn)攻飛行器的距離優(yōu)勢(shì)和角度優(yōu)勢(shì)進(jìn)行智能分配，提升了攔截效率。

圖15 5架防御vs 2架進(jìn)攻協(xié)同攔截仿真結(jié)果Fig.15 5 defense vs 2 attack cooperative intercept countermeasure simulation results

由法向過載曲線（圖15（b））可知，防御方飛行器過載變化較為平滑，并且保持在過載約束范圍內(nèi)。由軸向過載曲線（圖15（c））可知，在飛行器發(fā)動(dòng)機(jī)推力作用下，攔截方飛行器加速飛行，提升攔截方速度優(yōu)勢(shì)，縮短攔截時(shí)間提升攔截效率。在攔截進(jìn)攻飛行器2時(shí)，防御集群通過多個(gè)打擊角度攔截進(jìn)攻飛行器，在攔截進(jìn)攻飛行器1時(shí)，防御飛行器1作為主要攔截器迎擊進(jìn)攻飛行器，防御飛行器2作為防御飛行器1的補(bǔ)充打擊確保攔截成功。

仿真結(jié)果表明，集群協(xié)同條件下防御方可以更好發(fā)揮動(dòng)態(tài)博弈優(yōu)勢(shì)，提高攔截成功率，最大化對(duì)抗收益。多對(duì)多攔截體現(xiàn)了本文所提的智能機(jī)動(dòng)策略具有良好的任務(wù)分配能力，通過與環(huán)境的不斷交互，神經(jīng)網(wǎng)絡(luò)可以根據(jù)不同的作戰(zhàn)場(chǎng)景訓(xùn)練得到對(duì)應(yīng)的協(xié)同打擊策略。

3）5架防御vs 3架進(jìn)攻

針對(duì)3架進(jìn)攻飛行器攻擊防護(hù)目標(biāo)的情況，仿真環(huán)境初始參數(shù)如表3所示，其中進(jìn)攻方采取的機(jī)動(dòng)策略為比例導(dǎo)引法，防御方采取智能機(jī)動(dòng)策略，仿真結(jié)果如圖16所示。由位置曲線（圖16（a））分析可知，強(qiáng)化學(xué)習(xí)智能機(jī)動(dòng)策略不僅可以引導(dǎo)飛行器精準(zhǔn)打擊目標(biāo)，同時(shí)可以根據(jù)進(jìn)攻飛行器的飛行狀態(tài)實(shí)現(xiàn)合理的攔截任務(wù)分配，機(jī)動(dòng)策略模型產(chǎn)生的智能任務(wù)分配如表4所示，以使得防御集群以合理的方式完成攔截任務(wù)，精準(zhǔn)打擊目標(biāo)。由過載曲線（圖16（b）和圖16（c））分析可知，防御方飛行器集群采用的智能策略綜合考慮攔截耗能和過載限制等因素，提升了多飛行器攔截效能。由航向角曲線（圖16（d））分析可知，攔截過程中飛行器航向角變化平穩(wěn)，適用飛行器控制。由速度曲線（圖16（e））分析可知，攔截過程中飛行器均勻加速至約束限制，提升攔截速率。

表4 任務(wù)分配情況Table 4 Task allocation

圖16 5架防御vs 3架進(jìn)攻協(xié)同攔截仿真結(jié)果Fig.16 5 defense vs 3 attack cooperative intercept countermeasure simulation results

由于各飛行器初始位置及指向均隨機(jī)，為了能夠更好的攔截進(jìn)攻飛行器，防御方在初始階段采取較大過載將飛行方向偏向進(jìn)攻飛行器，從而減少攔截時(shí)間。具有相同攔截目標(biāo)的飛行器之間具有一定的合作效能，防御飛行器2和5從2個(gè)方向逼近進(jìn)攻飛行器2，保證攔截成功的同時(shí)縮短打擊時(shí)間。

仿真結(jié)果表明，通過在進(jìn)攻方飛行器兩側(cè)構(gòu)建合適的圍捕態(tài)勢(shì)，使得目標(biāo)難以逃逸，同時(shí)也能保證攔截方飛行軌跡平滑，防止機(jī)動(dòng)指令過大。在集群對(duì)抗過程中，本文所提機(jī)動(dòng)策略模型可以對(duì)進(jìn)攻飛行器集群進(jìn)行有效攔截，隨著目標(biāo)數(shù)量的增多，機(jī)動(dòng)策略生成的任務(wù)分配方案使整體攔截效能顯著提升。

4）5架防御vs 4架進(jìn)攻

針對(duì)4架進(jìn)攻飛行器攻擊防護(hù)目標(biāo)情況，仿真環(huán)境初始參數(shù)如表3所示，其中進(jìn)攻方采取的機(jī)動(dòng)策略為比例導(dǎo)引法，防御方采取智能機(jī)動(dòng)策略，仿真結(jié)果如圖17所示。隨著進(jìn)攻方飛行器數(shù)量的增多，智能機(jī)動(dòng)策略模型生成的目標(biāo)分配策略展現(xiàn)出較強(qiáng)的優(yōu)勢(shì)，分配結(jié)果如表4所示，在保證充分?jǐn)r截的前提下合理的分配火力，提升攔截效率，更加精準(zhǔn)全面地完成攔截任務(wù)。

圖17 5架防御vs 4架進(jìn)攻協(xié)同攔截仿真結(jié)果Fig.17 5 Defense vs 4 attack cooperative intercept countermeasure simulation resultsTask allocation

由仿真結(jié)果中的位置曲線（圖17（a））以及過載曲線（圖17（b）和圖17（c））分析可知，攔截過程中防御集群綜合考慮戰(zhàn)場(chǎng)因素，不僅將過載限定在規(guī)定范圍內(nèi)，同時(shí)減少作戰(zhàn)耗能，便于實(shí)現(xiàn)精準(zhǔn)打擊。由位置曲線（圖17（a））可以看出在攔截初始階段智能模型對(duì)作戰(zhàn)任務(wù)進(jìn)行了合理分配，防御飛行器1和防御飛行器2協(xié)同攔截進(jìn)攻飛行器1，其余的3架防御飛行器分別攔截剩余目標(biāo)。在面對(duì)4架進(jìn)攻飛行器時(shí)，防御方飛行器基于各自的位置速度進(jìn)行目標(biāo)的最優(yōu)分配，在相互通訊的基礎(chǔ)之上，防御方群體能夠以較為平滑的軌跡運(yùn)動(dòng)，同時(shí)實(shí)現(xiàn)自主協(xié)同全面攔截。

本仿真示例中進(jìn)攻飛行器數(shù)量較多，防御方集群采用本文所設(shè)計(jì)的智能策略能夠以高成功率完成攔截任務(wù)，驗(yàn)證了研究提出的協(xié)同智能攔截策略的有效性。

通過上述仿真的分析可知，基于近端策略優(yōu)化的多智能體深度強(qiáng)化學(xué)習(xí)算法訓(xùn)練得到的機(jī)動(dòng)策略模型在攔截任務(wù)中有較好的表現(xiàn)。為了驗(yàn)證算法效能，針對(duì)4種作戰(zhàn)情況，采用訓(xùn)練得到的強(qiáng)化學(xué)習(xí)策略模型進(jìn)行1 000次仿真測(cè)試實(shí)驗(yàn)，統(tǒng)計(jì)仿真結(jié)果如表5所示。

表5 1 000次作戰(zhàn)仿真結(jié)果統(tǒng)計(jì)Table 5 1 000 battle simulation results statistics

上述仿真結(jié)果表明，基于5架飛行器訓(xùn)練得到的智能協(xié)同攔截模型可以很好的應(yīng)用于多架進(jìn)攻飛行器的攔截任務(wù)中，基于近端策略優(yōu)化的多智能體深度強(qiáng)化學(xué)習(xí)算法對(duì)飛行器集群的行為決策具有良好的適應(yīng)能力和泛化能力。由1架進(jìn)攻飛行器的仿真結(jié)果可以看出，對(duì)于數(shù)量較少的來襲目標(biāo)，飛行器集群可以很好的完成預(yù)定的攔截任務(wù)。其他作戰(zhàn)情況中，來襲的進(jìn)攻飛行器數(shù)量增多，強(qiáng)化學(xué)習(xí)模型輸出的智能攔截策略能夠?qū)崿F(xiàn)智能任務(wù)分配，同時(shí)保證作戰(zhàn)過程中的全面打擊。在多架來襲進(jìn)攻飛行器的作戰(zhàn)情況分析中，5架飛行器在飛行過程中依據(jù)強(qiáng)化學(xué)習(xí)策略模型智能生成任務(wù)分配模型，實(shí)現(xiàn)了多飛行器集群的智能攔截。

綜上所述，深度強(qiáng)化學(xué)習(xí)為飛行器集群去中心化、自主化和自治化提供一種智能化解決途徑，將強(qiáng)化學(xué)習(xí)算法應(yīng)用在飛行器集群攔截作戰(zhàn)任務(wù)中可以在一定程度上提升裝備的智能水平和能力，具有一定的現(xiàn)實(shí)意義。

5 結(jié) 論

在集群作戰(zhàn)環(huán)境中給飛行器賦予智能，從而實(shí)現(xiàn)作戰(zhàn)過程中的智能決策，是一個(gè)非常有挑戰(zhàn)性的任務(wù)。本文針對(duì)來襲群體目標(biāo)的智能協(xié)同攔截機(jī)動(dòng)策略問題，研究了多智能體深度強(qiáng)化學(xué)習(xí)在飛行器攻防對(duì)抗中的創(chuàng)新應(yīng)用，提出了基于近端策略優(yōu)化算法的智能協(xié)同攔截機(jī)動(dòng)策略，仿真結(jié)果表明本文研究提出的智能協(xié)同攔截可以提升群體目標(biāo)攔截的效能和智能化水平。主要結(jié)論如下所示。

1）研究提出的智能協(xié)同攔截算法可以有效實(shí)現(xiàn)飛行器以合理的打擊分配策略攔截進(jìn)攻集群。通過強(qiáng)化學(xué)習(xí)訓(xùn)練過程中的高效探索和自學(xué)習(xí)進(jìn)化，提升了攔截任務(wù)分配的效率和智能化水平，節(jié)省了前期任務(wù)分配時(shí)間，增加攔截效能。

2））與現(xiàn)有執(zhí)行攔截任務(wù)需獲提供大量額外復(fù)雜的戰(zhàn)場(chǎng)環(huán)境信息不同，提出的協(xié)同攔截策略通過對(duì)作戰(zhàn)場(chǎng)景針對(duì)性的分析，可以僅用可感知的部分作戰(zhàn)環(huán)境信息制定高效協(xié)同攔截策略，減少對(duì)群里目標(biāo)攔截中態(tài)勢(shì)信息數(shù)量和維度的感知要求，降低信息感知難度。

3）提出的基于近端策略優(yōu)化算法的多智能體深度強(qiáng)化學(xué)習(xí)算法提出應(yīng)用了小批量更新、集中式訓(xùn)練-分布式執(zhí)行等方法提升算法訓(xùn)練效率，同時(shí)提升了算法的適應(yīng)性，降低了訓(xùn)練的數(shù)據(jù)需求，減少了時(shí)間成本，提升智能協(xié)同攔截算法的訓(xùn)練效率。

4）提出的多飛行器智能攔截博弈對(duì)抗策略采取集中式訓(xùn)練-分布式執(zhí)行的方法，既提升了訓(xùn)練效率，又在執(zhí)行中采取分布式架構(gòu)，降低了對(duì)群體協(xié)同信息交互的要求，對(duì)實(shí)際工程應(yīng)用具有一定的參考價(jià)值。

5）提出的智能協(xié)同攔截策略既借鑒了現(xiàn)有解析制導(dǎo)律來進(jìn)行觀測(cè)空間的設(shè)計(jì)，又利用強(qiáng)化學(xué)習(xí)賦予了協(xié)同攔截策略自學(xué)習(xí)、自優(yōu)化的屬性，提升收斂性的同時(shí)又增加了自學(xué)習(xí)智能屬性，對(duì)群體博弈對(duì)抗作戰(zhàn)場(chǎng)景具有一定的實(shí)際和借鑒意義。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡