基于PPO算法的集群多目標(biāo)火力規(guī)劃方法

2024-11-25 00:00:00秦湖程黃炎焱陳天德張寒

系統(tǒng)工程與電子技術(shù) 2024年11期

摘要：針對高動態(tài)戰(zhàn)場態(tài)勢下防御作戰(zhàn)場景中的多目標(biāo)火力規(guī)劃問題，提出一種基于近端策略優(yōu)化算法的火力規(guī)劃方法，以最大化作戰(zhàn)效能為目標(biāo)，從彈藥消耗、作戰(zhàn)效果、作戰(zhàn)成本及作戰(zhàn)時間4個方面設(shè)計強化學(xué)習(xí)獎勵函數(shù)?？紤]歷史決策序列對當(dāng)前規(guī)劃的影響，以長短期記憶網(wǎng)絡(luò)（long short-term memory， LSTM）為核心，基于Actor-Critic框架設(shè)計神經(jīng)網(wǎng)絡(luò)，使用近端策略優(yōu)化算法訓(xùn)練網(wǎng)絡(luò)，利用訓(xùn)練好的強化學(xué)習(xí)智能體進行序貫決策，根據(jù)多個決策階段的態(tài)勢實時生成一系列連貫火力規(guī)劃方案。仿真結(jié)果表明，智能體能夠?qū)崿F(xiàn)高動態(tài)態(tài)勢下多目標(biāo)火力規(guī)劃，其計算效率相對于其他算法具有更明顯的優(yōu)勢。

關(guān)鍵詞：多目標(biāo)火力規(guī)劃; 近端策略優(yōu)化算法; 長短期記憶網(wǎng)絡(luò); 序貫決策

中圖分類號： TP 273

文獻標(biāo)志碼： A

DOI：10.12305/j.issn.1001-506X.2024.11.18

Cluster multi-target fire planning method based on PPO algorithm

QIN Hucheng， HUANG Yanyan^*， CHEN Tiande， ZHANG Han

（School of Automation， Nanjing University of Science and Technology， Nanjing 210094， China）

Abstract： To solve the problem of multi-target firepower planning in defensive combat scenarios under high dynamic battlefield situation， a firepower planning method based on the proximal strategy optimization algorithm is proposed. With the goal of maximizing combat effectiveness， the reinforcement learning reward function is designed from four aspects： ammunition consumption， combat effect， combat cost and combat time. Considering the influence of historical decision sequence on the current planning， the neural network is designed based on the Actor-Critic framework with the long short-term memory network （LSTM） as the core. The network is trained by the proximal strategy optimization algorithm， and the trained reinforcement learning agent is used for sequential decision-making. A series of coherent fire planning schemes are generated in real time according to the situation of multiple decision-making stages. Simulation results show that the agent can realize multi-target firepower planning under high dynamic situation， and its computational efficiency has more obvious advantages than other algorithms.

Keywords： multi-target firepower planning; proximal strategy optimization algorithm; long short-term memory network （LSTM）; sequential decision-making

0 引言

近年來，隨著無人機在續(xù)航、超視距通信、小型化、低成本化等方面持續(xù)取得進展，無人機技術(shù)及戰(zhàn)術(shù)的應(yīng)用對現(xiàn)代戰(zhàn)爭產(chǎn)生了越來越重要的影響^［1-2^］。同時，隨著集群技術(shù)、協(xié)同技術(shù)等智能化技術(shù)在無人機上的應(yīng)用，無人機集群在智能化戰(zhàn)場逐漸展現(xiàn)出不容小覷的作戰(zhàn)能力^［3^］。因此，提升反無人機集群作戰(zhàn)能力變得尤為迫切。如何通過合理利用現(xiàn)有裝備和理論研發(fā)新的反無人機集群系統(tǒng)，實現(xiàn)對無人機集群的壓制，提升反無人集群作戰(zhàn)能力成為重要研究課題^［4-5^］。

反無人機集群作戰(zhàn)系統(tǒng)由偵察探測、可靠通信、決策評估、對抗處置等分系統(tǒng)組成。作為反無人機集群系統(tǒng)的重要組成部分，決策評估系統(tǒng)需要根據(jù)戰(zhàn)場態(tài)勢的實時變化，及時準(zhǔn)確地制定和調(diào)整作戰(zhàn)火力規(guī)劃，實現(xiàn)自主動態(tài)決策。在復(fù)雜多變的作戰(zhàn)態(tài)勢下，快速準(zhǔn)確及科學(xué)地選擇合適的武器裝備及彈藥，執(zhí)行對相匹配目標(biāo)的火力打擊是提升反無人機集群決策評估系統(tǒng)作戰(zhàn)能力的關(guān)鍵。

針對火力規(guī)劃這種帶約束組合優(yōu)化問題，目前主要使用的求解方法有蟻群算法^［6-7^］、遺傳算法^［^8-10^］、粒子群優(yōu)化算法^［^11-12^］、遺傳模擬退火算法^［¹³^］、布谷鳥搜索算法^［^14-15^］等智能算法。這類算法不僅易于實現(xiàn)，且具有計算復(fù)雜度低、性能優(yōu)越等優(yōu)點，但尋優(yōu)速度難以用于實時性要求高的戰(zhàn)場環(huán)境。相較上述算法，基于深度神經(jīng)網(wǎng)絡(luò)模型的智能決策方法無需搜索就能輸出問題解，求解速度快，模型一旦訓(xùn)練完成，即使戰(zhàn)場態(tài)勢改變，也不需要重新訓(xùn)練，模型具有很強的泛化能力^［16^］。因此，利用深度強化學(xué)習(xí)方法解決動態(tài)火力規(guī)劃問題是一個很好的選擇。近年來，隨著人工智能技術(shù)的發(fā)展，深度強化學(xué)習(xí)已在很多領(lǐng)域取得突破性進展，目前已廣泛應(yīng)用于游戲^［17-18^］、機器人^［^19-20^］、對話系統(tǒng)^［^21-22^］、交通信號燈控制^［^23-24^］、自動駕駛^［^25-26^］、無線電^［^27-28^］等領(lǐng)域。同時，越來越多的研究人員將深度強化學(xué)習(xí)用于火力規(guī)劃。文獻［29］通過構(gòu)建基于強化學(xué)習(xí)的多目標(biāo)決策架構(gòu)，利用Q學(xué)習(xí)算法對協(xié)同攻擊方案進行智能決策，但在目標(biāo)很多的情況下，查找和存儲Q表都需要消耗大量的時間和空間。文獻［30］利用深度Q學(xué)習(xí)算法對任務(wù)規(guī)劃問題進行初期決策，之后采用進化算法對決策結(jié)果進行優(yōu)化，但目標(biāo)數(shù)量很多時進化算法尋優(yōu)速度難以滿足決策時效性的要求。

由于反無人機集群作戰(zhàn)對規(guī)劃時間具有很高的要求，當(dāng)戰(zhàn)場態(tài)勢改變時，需要根據(jù)新態(tài)勢快速生成火力規(guī)劃方案。在上述研究的基礎(chǔ)上，本文利用馬爾可夫決策過程（Markov decision process， MDP）實現(xiàn)對強化學(xué)習(xí)決策過程的建模，以最大化火力規(guī)劃作戰(zhàn)效能為目標(biāo)，從彈藥消耗、作戰(zhàn)效果、作戰(zhàn)成本及作戰(zhàn)時間4個方面設(shè)計強化學(xué)習(xí)獎勵函數(shù)。在此基礎(chǔ)上構(gòu)建強化學(xué)習(xí)交互環(huán)境，以長短期記憶（long short-term memory， LSTM）網(wǎng)絡(luò)^［31^］為核心構(gòu)建深度強化學(xué)習(xí)智能體。而后使用近端策略優(yōu)化（proximal policy optimization， PPO）算法^［32^］訓(xùn)練，利用訓(xùn)練好的智能體進行智能決策。通過離散化連續(xù)的作戰(zhàn)時間，智能體進行序貫決策，根據(jù)多個決策階段的態(tài)勢實時生成一系列連貫火力規(guī)劃方案。在此過程中，對智能體的決策效果進行詳盡的仿真實驗和深入分析。本文創(chuàng)新如下：

（1）根據(jù)反無人機作戰(zhàn)特點，從彈藥消耗、作戰(zhàn)效果、作戰(zhàn)成本及作戰(zhàn)時間4個方面設(shè)計強化學(xué)習(xí)獎勵函數(shù)，使得基于獎勵值訓(xùn)練的智能體策略更貼近真實作戰(zhàn)場景;

（2）通過將目標(biāo)規(guī)劃動作拆分，目標(biāo)注意力機制（target attention mechanism， TAM）^［33^］、動作掩碼、偽獎勵的引入及門控線性單元（gated linear unit， GLU）的設(shè)計，實現(xiàn)智能體策略的快速收斂。

（3）基于Actor-Critic網(wǎng)絡(luò)框架，以LSTM網(wǎng)絡(luò)為核心構(gòu)建的智能體網(wǎng)絡(luò)，其策略能考慮各決策序列間的聯(lián)系和相互影響作用。相比現(xiàn)有方法，在規(guī)劃結(jié)果不差的情況下，規(guī)劃速度大幅提升，適用于大規(guī)模、長時段連續(xù)火力規(guī)劃應(yīng)用場景。

1 系統(tǒng)建模

對反無人機集群作戰(zhàn)作如下假設(shè)：① 某次反無人機集群作戰(zhàn)中，反無人機裝備共有h類，裝備總數(shù)為m，并且每個裝備只裝備一種彈藥;來襲無人機集群為混合型無人機集群，有l(wèi)類無人機，無人機總數(shù)為n，決策評估系統(tǒng)使用m個反無人機裝備對n個目標(biāo)進行分配;② 各作戰(zhàn)裝備部署已經(jīng)確定，且處于戰(zhàn)斗準(zhǔn)備狀態(tài)，彈藥儲備量有限，各類作戰(zhàn)裝備有效作戰(zhàn)區(qū)域及其對各類無人機的殺傷概率確定;③ 為了保證攔截裝備間的協(xié)同效果，已在適當(dāng)位置部署多種、多套攔截裝備;④ 決策評估系統(tǒng)基于強化學(xué)習(xí)智能體進行火力規(guī)劃，智能體每次決策得到單個裝備-目標(biāo)分配方案，當(dāng)所有目標(biāo)均被分配時，單輪規(guī)劃結(jié)束，得到火力規(guī)劃方案，而后各裝備依據(jù)規(guī)劃方案執(zhí)行作戰(zhàn)任務(wù)。同時，智能體根據(jù)新戰(zhàn)場態(tài)勢再次生成規(guī)劃方案。

1.1 反無人機系統(tǒng)MDP決策模型

反無人機集群作戰(zhàn)過程可以認(rèn)為是一個序貫決策的過程，紅方通常采用的是多批次飽和攻擊模式，防御方需針對連續(xù)決策階段戰(zhàn)場態(tài)勢的變化，考慮對未來戰(zhàn)場局勢的影響，連續(xù)做出最優(yōu)分配決策。

通過離散化連續(xù)的作戰(zhàn)時間，作戰(zhàn)過程可分為Γ={1，2，…，T}個決策階段，在每個決策階段內(nèi)基于態(tài)勢信息進行一輪火力規(guī)劃。每個決策階段內(nèi)的規(guī)劃可視為靜態(tài)目標(biāo)分配，是序貫決策中的一個規(guī)劃步，這個規(guī)劃步形成的決策所帶來的態(tài)勢變化將影響后續(xù)規(guī)劃步的決策。

強化學(xué)習(xí)是機器學(xué)習(xí)中熱門領(lǐng)域之一，主要被用來解決序貫決策問題。其目標(biāo)是使智能體通過與環(huán)境不斷交互來修正自己的策略以最大化累積獎勵。

如果按照真實的交互過程來建模，當(dāng)前狀態(tài)轉(zhuǎn)換到下一個狀態(tài)的概率、智能體的策略、價值函數(shù)等不僅與上一個狀態(tài)有關(guān)，還與前面一系列狀態(tài)相關(guān)，這將導(dǎo)致模型復(fù)雜度高，難以建模。假設(shè)交互過程轉(zhuǎn)化的馬爾可夫性可以簡化交互模型，即MDP可實現(xiàn)整個強化學(xué)習(xí)的決策過程建模。

通常MDP包含4個要素，分別是狀態(tài)、動作、狀態(tài)轉(zhuǎn)移規(guī)則、獎勵，本文的MDP可定義為四元組（S，A，P，R）。S表示環(huán)境狀態(tài)，環(huán)境狀態(tài)空間由所有反無人機裝備及無人機目標(biāo)的信息確定，分別包括裝備編號、類別、彈藥類型、彈藥數(shù)量、彈藥價值、發(fā)射準(zhǔn)備時間、單發(fā)彈藥發(fā)射時間、目標(biāo)編號、作戰(zhàn)價值、期望毀傷概率等屬性。A表示智能體的動作，本文將智能體動作拆分為3個部分：選擇目標(biāo)編號、根據(jù)所選目標(biāo)編號的類型選擇合適彈藥類別、最后根據(jù)彈藥類別選擇合適的裝備編號。P表示狀態(tài)間的轉(zhuǎn)移規(guī)則。R表示智能體在狀態(tài)S下執(zhí)行動作A對應(yīng)的獎勵值。

智能體決策優(yōu)化過程如圖1所示。根據(jù)戰(zhàn)場態(tài)勢初始化環(huán)境狀態(tài)信息，智能體與環(huán)境交互，通過某種策略將當(dāng)前狀態(tài)映射為相應(yīng)的動作，環(huán)境對此動作及戰(zhàn)場態(tài)勢信息做出反應(yīng)?；贛DP模型更新狀態(tài)信息及獎勵值，并將二者反饋給智能體，通過環(huán)境反饋的獎勵值來修正策略。通過不斷循環(huán)以上過程，最終實現(xiàn)目標(biāo)策略。

1.2 決策獎勵設(shè)計

在強化學(xué)習(xí)任務(wù)中，智能體根據(jù)探索過程中來自環(huán)境的反饋信號持續(xù)改進策略，這些反饋信號稱為獎勵值。獎勵值讓任務(wù)目標(biāo)具體化和數(shù)值化，起到人與算法溝通的橋梁作用。

對于反無人機集群作戰(zhàn)，主要考慮彈藥消耗量最少、作戰(zhàn)效果最佳、作戰(zhàn)成本最低和作戰(zhàn)時間最短這4個指標(biāo)，本節(jié)通過對不同作戰(zhàn)指標(biāo)及其數(shù)學(xué)模型的分析，構(gòu)建強化學(xué)習(xí)智能體策略的獎勵函數(shù)，引導(dǎo)智能體進行策略的優(yōu)化和修正。

為方便分析，令x_ij為決策變量，x_ij=1表示第i個裝備打擊第j個目標(biāo)，否則x_ij=0。根據(jù)軍事戰(zhàn)術(shù)基本原則及作戰(zhàn)經(jīng)驗，在火力打擊作戰(zhàn)中單個裝備最多只能打擊一個目標(biāo)，即

0≤∑nj=1x_ij≤1， x_ij∈{0，1}（1）

如何在保證完成作戰(zhàn)任務(wù)的前提下，使彈藥消耗量最少，是確保反無人集群系統(tǒng)持續(xù)作戰(zhàn)能力的關(guān)鍵。

假設(shè)每個裝備對各目標(biāo)單發(fā)毀傷概率矩陣為

式中：c_ij表示第i個裝備對第j個目標(biāo)的毀傷概率。

各裝備對各目標(biāo)射擊達到期望毀傷下界所需的彈藥消耗量如下：

式中：s_ij為第i個裝備對第j個目標(biāo)射擊達到期望毀傷概率所需的彈藥量。

s_ij=ceil

ln（1－h(huán)_j）ln（1－c_ij）

=ln（1－h(huán)_j）ln（1－c_ij）（4）

式中：ceil表示向上取整; 為向上取整運算;h_j為對目標(biāo)j的期望毀傷概率。彈藥消耗模型可表示為

f₁=∑mi=1∑nj=1s_ij·x_ij（5）

打擊效果指在特定條件下，裝備所能發(fā)揮的最大打擊能力，本文以目標(biāo)毀傷概率度量射擊效果。若目標(biāo)j作戰(zhàn)價值為v_j，則對目標(biāo)的作戰(zhàn)效果評估模型可表示為

f₂=∑mi=1∑nj=1x_ij·v_j·［1－（1－c_ij）^s_ij］（6）

如果考慮指揮員的心理因素，認(rèn)為指揮員不希望在回合結(jié)束時該類彈藥剩余數(shù)為0。按彈藥補給時的不補線（消耗量為攜帶量的1/3以內(nèi)）、視補線（消耗量為攜帶量的1/3，但不足2/3）、急補線（消耗量大于攜帶量的2/3以上）的要求，如果某種彈藥的消耗數(shù)量達到其攜行量的2/3（以急補線1/3基數(shù)為基本依據(jù)）且未得到補充，那么該種彈藥所對應(yīng)的戰(zhàn)斗力指數(shù)將隨彈藥進一步的消耗而下降。將裝備i能夠發(fā)揮正常作戰(zhàn)效果的剩余彈藥量F_i定為攜行量X_i的1/3，即如果某裝備針對某目標(biāo)的彈藥剩余量不少于1/3攜行量，則認(rèn)為該裝備對該目標(biāo)的等效作戰(zhàn)效果為原值，并隨著剩余彈藥數(shù)的減少而降低，其降低規(guī)律暫時簡單地按指數(shù)規(guī)律判定，則有

在打擊大量低成本、多載荷小型無人機組成的無人機集群時，不僅要考慮對紅方目標(biāo)的打擊效果，同時還需考慮對紅方火力打擊的成本，在完成預(yù)期目標(biāo)毀傷的情況下盡可能地降低作戰(zhàn)成本。作戰(zhàn)成本模型可表示為

f₃=∑nj=1∑mi=1cos t_i·s_i，j·x_ij（8）

式中：cost_i為裝備i單發(fā)炮彈的成本。

作戰(zhàn)時間短的裝備，在相同時間內(nèi)能打擊的目標(biāo)越多，在陣地上執(zhí)行射擊任務(wù)的時間越短，被紅方打擊和毀傷的可能性也就越小。因此，在完成預(yù)定打擊任務(wù)的前提下，應(yīng)進行合理規(guī)劃，保證反無人機裝備的作戰(zhàn)時間盡可能短。

裝備i作戰(zhàn)時間為其從接到攻擊指令到完成攻擊所需時間，由發(fā)射準(zhǔn)備時間及發(fā)射s_ij發(fā)炮彈所需時間組成。二者均為區(qū)間數(shù)，利用連續(xù)有序加權(quán)平均算子法^［34^］將其轉(zhuǎn)換為精確數(shù)。假設(shè)作戰(zhàn)時間為t^r_ij=［t^L_ij，t^U_ij］，可得

t_ij=f_ρ（t^r_ij）=∫¹₀dρ（y）dy［t^L_ij－y（t^L_ij－t^U_ij）］dy（9）

式中：t_ij為轉(zhuǎn)換后的精確數(shù);函數(shù)ρ（y）是一個在ρ：［0，1］→［0，1］映射上的基本單位區(qū)間單調(diào)函數(shù)，滿足以下性質(zhì)：① ρ（y）=0;② ρ（1）=1;③ 如果x≥y，則有ρ（x）≥ρ（y）。通常取ρ（y）=y^t。令t=1，則

t_ij=f_ρ（t^r_ij）=t^U_ij+t^L_ij2（10）

于是，作戰(zhàn)時間模型可表示為

f₄=∑mi=1∑nj=1t_ij·x_ij·s_ij（11）

由于對整體規(guī)劃方案進行優(yōu)化評估，需要將不同類型的量化指標(biāo)規(guī)范化處理為統(tǒng)一的效率指標(biāo)：設(shè)e^max_ij，e^min_ij分別為指標(biāo)e_ij的最大值與最小值，則指標(biāo)e_ij規(guī)范化后值為

e′_ij=e_ij－e^min_ije^max_ij－e^min_ij（12）

無人集群作戰(zhàn)火力規(guī)劃目標(biāo)是使彈藥消耗最少、打擊效果最優(yōu)、作戰(zhàn)成本最低、作戰(zhàn)時間最短，因此智能體動作獎勵值可表示為

R=－ω₁f₁+ω₂f′₂－ω₃f₃－ω₄f₄（13）

式中：f₁、f₂、f₃、f₄各指標(biāo)均已規(guī)范化，其權(quán)值大小ω₁、ω₂、ω₃、ω₄可通過詢問多個不同專家得到各目標(biāo)權(quán)重，利用層次分析法和熵權(quán)法的組合賦權(quán)確定最終權(quán)重，分別取0.1、0.75、0.05、0.1。

同時，智能體每一時刻決策動作需滿足以下約束條件：

s.t. ∑mi=1∑nj=1x_ij≤m

∑nj=1x_ij≤1

2 基于PPO算法的火力規(guī)劃

本節(jié)通過交互環(huán)境構(gòu)建、智能體網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計及訓(xùn)練方法的選取和優(yōu)化，實現(xiàn)智能體對火力規(guī)劃任務(wù)的快速、有效求解。

2.1 強化學(xué)習(xí)交互環(huán)境設(shè)計

交互環(huán)境的核心是交互函數(shù)step（），其輸入是當(dāng)前狀態(tài)S_t，當(dāng)前動作A_t;輸出是下一狀態(tài)S_t+1，當(dāng)前動作對應(yīng)獎勵R，是否結(jié)束交互done及調(diào)試項info，該函數(shù)描述了智能體與環(huán)境交互的所有信息。step（）函數(shù)主要包括3個部分。

（1）獲取環(huán)境下一個狀態(tài)

系統(tǒng)的狀態(tài)主要是由反無人機裝備數(shù)量，彈藥數(shù)量，無人機目標(biāo)數(shù)量，各目標(biāo)作戰(zhàn)價值、期望毀傷程度等組成。

當(dāng)需規(guī)劃的目標(biāo)數(shù)量小于等于裝備數(shù)量時，為滿足約束條件，在單次決策時，裝備及目標(biāo)編號被選中后，通過動作掩碼避免其編號被再次選中。

以裝備選擇動作為例，其可選擇動作空間表示為［1，1，…，1］，為m維行向量。如果第2個裝備被選中，在動作空間相應(yīng)位置換成一個絕對值很大的負(fù)數(shù)（本文取-10⁸），動作空間變?yōu)椋?，-10⁸，…，1］，經(jīng)過分類函數(shù)以后第二個裝備的選擇概率就變成0。

當(dāng)需規(guī)劃的目標(biāo)數(shù)量超過裝備數(shù)量時，分多波次進行規(guī)劃。每一波次規(guī)劃優(yōu)先選擇與裝備數(shù)量相等的作戰(zhàn)價值最高目標(biāo)進行規(guī)劃，規(guī)劃過程中同樣利用動作掩碼避免重復(fù)選擇裝備或目標(biāo)。但每一波次規(guī)劃結(jié)束后，重新初始化裝備編號對應(yīng)動作掩碼，將所有裝備編號設(shè)為可選擇狀態(tài)，繼續(xù)選擇高價值目標(biāo)優(yōu)先規(guī)劃，直至所有目標(biāo)均被分配。

智能體單次決策時并不會更新態(tài)勢信息，當(dāng)所有目標(biāo)均被分配，單輪規(guī)劃結(jié)束，更新態(tài)勢信息。為體現(xiàn)集群對抗的動態(tài)特性，狀態(tài)更新時0～m 個裝備有0.01的概率被擊毀。對反無人機裝備而言，如其被無人機擊毀，則將其從環(huán)境狀態(tài)中移除?？紤]到真實作戰(zhàn)場景中難以實現(xiàn)打擊即毀傷的目標(biāo)，本文假設(shè)被打擊無人機有0.4的概率未被毀傷。對無人機而言，若其被選中為打擊目標(biāo)，其將被從環(huán)境狀態(tài)中移除。同時，以0.1的概率生成1～10個新的反無人機裝備，以0.2的概率對各裝備補充數(shù)量10～100枚單一類型彈藥，彈藥類型為該裝備可使用的彈藥類型，每種彈藥選擇概率相同。同時，以0.5的概率隨機生成1～10個新的無人機目標(biāo)。

（2）獲取動作獎勵

智能體通過最大化每輪規(guī)劃的累積獎勵為優(yōu)化目標(biāo)修正策略。訓(xùn)練時智能體的決策動作（即選擇攜帶第k種彈藥的第i個裝備打擊第j個目標(biāo)）得到的真實獎勵值R根據(jù)式（13）計算得到。同時，為保證訓(xùn)練過程中獎勵值大于0，避免訓(xùn)練初期智能體收到大量負(fù)反饋，導(dǎo)致智能體對其策略的不自信，難以確定策略優(yōu)化方向，從而使算法陷入局部最優(yōu)或難以收斂。設(shè)置偽獎勵，每一step智能體將獲得值為1的偽獎勵。

（3）獲取交互終止信號

設(shè)置最大交互次數(shù)，當(dāng)環(huán)境狀態(tài)中所有目標(biāo)信息被移除或達到最大交互次數(shù)時，done=True，交互結(jié)束。否則，done=False，表示系統(tǒng)繼續(xù)進行訓(xùn)練，直至達成終止條件。而后，根據(jù)新戰(zhàn)場態(tài)勢重新初始化狀態(tài)信息，進行下一輪交互。

2.2 網(wǎng)絡(luò)設(shè)計

Actor-Critic算法框架被廣泛應(yīng)用于實際強化學(xué)習(xí)算法中，該框架集成了值函數(shù)估計算法和策略搜索算法，是解決實際問題時?？紤]的框架。Actor-Critic包括兩部分，Actor和Critic。Actor即策略網(wǎng)絡(luò)負(fù)責(zé)生成動作并與環(huán)境交互，Critic即價值網(wǎng)絡(luò)負(fù)責(zé)評估策略網(wǎng)絡(luò)的表現(xiàn)并指導(dǎo)策略網(wǎng)絡(luò)下一階段的動作。價值網(wǎng)絡(luò)通過計算狀態(tài)價值v_t，策略網(wǎng)絡(luò)利用v_t迭代更新策略網(wǎng)絡(luò)的參數(shù)θ，進而選擇動作，并得到獎勵和新的狀態(tài)，價值網(wǎng)絡(luò)基于獎勵值、當(dāng)前狀態(tài)價值及下一狀態(tài)價值更新網(wǎng)絡(luò)參數(shù)。為實現(xiàn)動態(tài)火力規(guī)劃，考慮戰(zhàn)場態(tài)勢的變化對任務(wù)分配決策具有重要的影響，且掌握一定程度的戰(zhàn)場態(tài)勢的變化有利于智能體應(yīng)對“戰(zhàn)爭迷霧”，因此智能體在處理當(dāng)前戰(zhàn)場態(tài)勢的同時，應(yīng)能兼顧之前的態(tài)勢。為此，本文基于Actor-Critic網(wǎng)絡(luò)框架，以LSTM網(wǎng)絡(luò)為核心構(gòu)建智能體網(wǎng)絡(luò)，網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。Softmax用于多分類過程中，它將多個神經(jīng)元的輸出，映射到（0，1）區(qū)間內(nèi)，從而實現(xiàn)多分類。

網(wǎng)絡(luò)輸入反無人機裝備及地方無人機對應(yīng)狀態(tài)信息，輸入狀態(tài)信息維度分別為［batch_size×512×6］，［batch_size×512×3］，其中batch_size為批處理數(shù)量，為一次訓(xùn)練所抓取的樣本數(shù)量。512為網(wǎng)絡(luò)能處理的最多裝備及目標(biāo)數(shù)量，當(dāng)裝備或目標(biāo)數(shù)量不足512時，其對應(yīng)狀態(tài)向量填充10^-8。裝備狀態(tài)最后一維表示反無人機裝備的6個屬性：裝備類型、其裝備的彈藥類型、彈藥數(shù)量、單發(fā)彈藥價值、發(fā)射準(zhǔn)備時間、單發(fā)彈藥發(fā)射時間。無人機目標(biāo)狀態(tài)最后一維包含3個屬性：目標(biāo)類型、作戰(zhàn)價值及期望毀傷概率。

網(wǎng)絡(luò)輸出包含4個部分：策略網(wǎng)絡(luò)輸出選中的目標(biāo)對應(yīng)索引、彈藥類型對應(yīng)索引、選中裝備對應(yīng)索引和價值網(wǎng)絡(luò)輸出網(wǎng)絡(luò)策略對應(yīng)狀態(tài)價值。

Transformer編碼器結(jié)構(gòu)如圖3所示。編碼器由N個相同的層組成，每層有兩個子層。第一個是多頭自注意力機制，第二個是簡單的全連接前饋網(wǎng)絡(luò)。在兩個子層中使用殘差連接，然后進行層歸一化。Attention可以描述為將查詢和一組鍵值對映射到輸出，輸出為值的加權(quán)和，其中規(guī)劃給每個值的權(quán)重由查詢與相應(yīng)健值的相似度確定。Transformer模型使用縮放點積注意力計算單個注意力值，即隨機初始化W^Q，W^K，W^V這3個矩陣，將輸入矩陣X分別與這3個矩陣相乘得到query（Q）、key（K）、value（V）矩陣，根據(jù)下式得到輸出矩陣Z：

式中：d_k表示K矩陣列數(shù)。同時，在Transformer編碼器中利用多頭注意力機制，使得網(wǎng)絡(luò)能同時關(guān)注來自不同位置的不同表示子空間的信息，有助于網(wǎng)絡(luò)捕捉到更豐富的特征信息。

為有效訓(xùn)練圖2網(wǎng)絡(luò)，提出以下3個策略。① 將目標(biāo)規(guī)劃動作拆分3個層級。在每次目標(biāo)規(guī)劃時，依次選擇目標(biāo)單元、彈藥類型、裝備。② 在網(wǎng)絡(luò)中引入TAM實現(xiàn)目標(biāo)及裝備的選擇。③ 引入動作掩碼，用于指導(dǎo)強化過程中的探索，減少對無效動作的探索，加快網(wǎng)絡(luò)收斂。最后，設(shè)計一個GLU，基于動作掩碼和Transformer編碼器輸出控制藍方目標(biāo)的選擇。

首先，利用獨熱碼對狀態(tài)信息（反無人機裝備信息和無人機目標(biāo)單元信息）預(yù)處理，其中反無人機裝備信息預(yù)處理后分成兩部分：表示裝備及彈藥類型信息的獨熱碼r_p和s_o。利用Transformer編碼器提取預(yù)處理的反無人機裝備信息r_p及無人機目標(biāo)信息b_p的特征信息r_e、b_e。

然后，利用TAM選擇目標(biāo)：分別以LSTM網(wǎng)絡(luò)輸出、b_e為輸入，利用MLP生成Q矩陣和K矩陣。

目標(biāo)注意力計算如下：

P（S|a）=Soft max（K，Q^T）（15）

式中：P（S|a）為目標(biāo)單元的注意力分布，其維度與無人機目標(biāo)數(shù)量相同，P（S|a）即為各目標(biāo)單元被選中的概率。紅方裝備及彈藥類型的選擇過程與目標(biāo)單元選擇類似，但二者Q矩陣生成過程不同。

GLU生成Q矩陣過程如下：分別以s_o、r_e作為GLU的輸入，綜合LSTM網(wǎng)絡(luò)輸出和所有先前智能體動作輸出的信息編碼作為GLU門控信號gate，即可得到Q矩陣。

gate=sigmoid（autogressive_embedding）（16）

Q_s=FC（gate⊙s_o）（17）

Q_e=FC（gate⊙r_e）（18）

式中：⊙表示矩陣哈德瑪乘積。

2.3 網(wǎng)絡(luò)訓(xùn)練

PPO算法是一種新型的策略梯度（policy gradient， PG）算法，策略梯度算法對步長十分敏感，但是又難以選擇合適的步長，在訓(xùn)練過程中新舊策略的變化差異如果過大則不利于學(xué)習(xí)。而PPO算法可以在多個訓(xùn)練步驟實現(xiàn)小批量的更新，解決策略梯度算法中步長難以確定的問題，適用于更普遍的環(huán)境，并且具有更好的整體性能。

PPO算法具有3個網(wǎng)絡(luò)，各網(wǎng)絡(luò)功能如下。

（1）策略網(wǎng)絡(luò)副本θ_old

與環(huán)境交互采樣批量數(shù)據(jù)用于策略網(wǎng)絡(luò)參數(shù)θ的迭代更新。與環(huán)境交互，根據(jù)當(dāng)前狀態(tài)S選擇動作A，得到獎勵值R;S，A，R存入經(jīng)驗回放池。網(wǎng)絡(luò)參數(shù)θ_old定期從θ復(fù)制。

（2）策略網(wǎng)絡(luò)：根據(jù)經(jīng)驗回放池中的數(shù)據(jù)多次更新網(wǎng)絡(luò)參數(shù)θ。

（3）價值網(wǎng)絡(luò)：評估狀態(tài)價值，估計優(yōu)勢函數(shù)。

算法損失函數(shù)可表示為

L_t（θ）=E^_t［L^CLIP_t（θ）－c₁L^VF_t（θ）+c₂entropy［π_θ］（S_t）］（19）

式中：E^_t（·）為均值函數(shù)，計算策略網(wǎng)絡(luò)所有動作的損失函數(shù)的均值;π_θ表示策略網(wǎng)絡(luò)參數(shù)為θ的策略，即神經(jīng)網(wǎng)絡(luò)參數(shù)為θ時的網(wǎng)絡(luò)輸出值，對應(yīng)于選擇每個目標(biāo)編號、每類武器類型和每個武器編號的概率分布;entropy［π_θ］（S_t）表示狀態(tài)為S_t時，策略網(wǎng)絡(luò)參數(shù)為θ時其策略π_θ的熵獎勵。L^CLIP_t（θ）計算如下：

式中：γ為表減因子；λ為加權(quán)因子。V（S_t）表示狀態(tài)為S_t時Critic網(wǎng)絡(luò)輸出值。L^VF_t（θ）計算如下：

式中：j表示采樣的裝備、彈藥類型或目標(biāo)編號;prob_j表示其選擇概率；n為裝備數(shù)量、彈藥類型總數(shù)或目標(biāo)數(shù)量。

為了讓策略網(wǎng)絡(luò)更新更合適，對值函數(shù)進行裁切，防止更新前后狀態(tài)價值差距過大。

L^VF_t（θ）=max［（V（S_t）－G（t））²，

（clamp（V（S_t）－V（S_t_－1），－ε，+ε）－G（t））²］（26）

式中：ε為裁減值;clamp表示限制V（S_t）－V（S_t-1）取值范圍在（-ε，ε）之間。

根據(jù)上述內(nèi)容，本文算法總體實現(xiàn)流程如算法1所示。首先，初始化策略網(wǎng)絡(luò)和價值網(wǎng)絡(luò)及經(jīng)驗回放集合D。采取經(jīng)驗回放的技巧，把智能體與環(huán)境交互的數(shù)據(jù)存儲到經(jīng)驗回放集合D中。隨后，從回放集中采樣數(shù)據(jù)多次更新價值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)。在參數(shù)更新上，利用價值網(wǎng)絡(luò)計算狀態(tài)價值，估計優(yōu)勢函數(shù)，構(gòu)造均方誤差損失函數(shù)對價值網(wǎng)絡(luò)進行梯度更新，基于確定性策略梯度更新策略網(wǎng)絡(luò)，每更新一定次數(shù)后更新策略網(wǎng)絡(luò)副本。

3 仿真驗證

3.1 實驗設(shè)置

由于真實戰(zhàn)場數(shù)據(jù)的特殊性，根據(jù)本文的作戰(zhàn)想定設(shè)計一個訓(xùn)練數(shù)據(jù)生成程序來生成不同的訓(xùn)練數(shù)據(jù)。假設(shè)共有5類無人機目標(biāo)（bt₁，bt₂，…，bt₅），6類反無人機裝備（ω₁，ω₂，…，ω₆），6類彈藥（s₁，s₂，…，s₆），每類裝備可使用至少一類彈藥。各類反無人機裝備可使用的彈藥類型如表1所示。

第a類裝備使用第k類彈藥對第b類無人機目標(biāo)的單發(fā)射擊效果p_akb、作戰(zhàn)時間t_akb、裝備各類彈藥數(shù)量、各類無人機目標(biāo)的威脅度、各類無人機目標(biāo)期望毀傷下界參數(shù)配置如表2所示。

不同類型裝備使用不同類型彈藥對不同類型目標(biāo)的單發(fā)毀傷概率如表3所示。

3.2 實驗結(jié)果比較分析

為了驗證算法是否收斂，設(shè)置一個測試數(shù)據(jù)集，數(shù)據(jù)集中包含12個反無人機裝備和12個無人機目標(biāo)，涵蓋所有類型的反無人機裝備、彈藥和無人機目標(biāo)。每輪規(guī)劃最大決策次數(shù)為512，當(dāng)所有無人機目標(biāo)規(guī)劃完成時，本輪決策結(jié)束。每輪決策利用策略網(wǎng)絡(luò)對測試集中的數(shù)據(jù)進行火力規(guī)劃，并記錄規(guī)劃結(jié)果的平均獎勵及平均有效規(guī)劃次數(shù)。有效規(guī)劃即策略網(wǎng)絡(luò)在火力規(guī)劃時，選擇的裝備及無人機目標(biāo)均為真實實體，選擇的彈藥類型均為可用。在訓(xùn)練過程中，當(dāng)平均獎勵及有效規(guī)劃次數(shù)沒有明顯變化時，可以認(rèn)為算法收斂。

為充分評估本文提出算法在反無人機集群火力打擊作戰(zhàn)場景下的規(guī)劃效果，采用數(shù)值仿真的方法對火力規(guī)劃結(jié)果進行驗證，設(shè)計對比實驗，比較使用LSTM網(wǎng)絡(luò)及動作掩碼、偽獎勵的有效性。對比實驗定義如下：

（1）基于圖2網(wǎng)絡(luò)的火力規(guī)劃網(wǎng)絡(luò)模型;

（2）基于圖2網(wǎng)絡(luò)的火力規(guī)劃網(wǎng)絡(luò)模型，但將LSTM網(wǎng)絡(luò)換成MLP網(wǎng)絡(luò);

（3）基于圖2網(wǎng)絡(luò)的火力規(guī)劃網(wǎng)絡(luò)模型，不使用動作掩碼;

（4）基于圖2網(wǎng)絡(luò)的火力規(guī)劃網(wǎng)絡(luò)模型，不使用偽獎勵;

（5）基于圖2網(wǎng)絡(luò)的火力規(guī)劃網(wǎng)絡(luò)模型，不使用動作掩碼及偽獎勵。

上述模型在實驗中使用的超參數(shù)如表4所示。

實驗結(jié)果如圖4所示。使用LSTM和多層感知機（multi-layer perceptron， MLP）網(wǎng)絡(luò)平均獎勵及有效動作逐漸收斂，策略網(wǎng)絡(luò)策略逐漸穩(wěn)定。但由于MLP網(wǎng)絡(luò)缺乏記憶功能，其策略難以考慮各決策序列間的聯(lián)系和相互影響作用，在訓(xùn)練過程中熵值出現(xiàn)增加的情況，表明策略網(wǎng)絡(luò)對習(xí)得的決策序列的相互聯(lián)系和影響知識的不自信。但隨著訓(xùn)練次數(shù)的增加，在足量訓(xùn)練數(shù)據(jù)的支撐下，智能體逐漸修正其策略，在保持隨機探索的同時其策略逐漸穩(wěn)定，最終其策略逐漸穩(wěn)定，但規(guī)劃效果仍不及LSTM網(wǎng)絡(luò)。動作掩碼及偽獎勵對算法收斂有重要的影響，二者缺一不可。

利用訓(xùn)練好的策略網(wǎng)絡(luò)對測試集進行火力規(guī)劃，得到具體的裝備-彈藥-目標(biāo)規(guī)劃方案，由于測試集樣本數(shù)量較多，為方便描述，僅從中選取7個裝備和7個目標(biāo)進行火力規(guī)劃，具體規(guī)劃結(jié)果如表5所示。

此外，為驗證本文方法與其他火力規(guī)劃方法在求解速度及求解質(zhì)量上的差異，設(shè)計對比實驗，將本文方法與文獻［29］和文獻［30］方法及拍賣算法進行對比分析。

本文方法與文獻［29］方法、文獻［30］方法、遺傳算法和拍賣算法執(zhí)行不同數(shù)量火力分配任務(wù)時的計算效能如表6所示。使用上述算法的耗時對比如表7所示。

雖然文獻［29］規(guī)劃時間與本文方法相差不大，但其僅適用固定目標(biāo)數(shù)量的火力規(guī)劃，當(dāng)目標(biāo)數(shù)量改變時需要重新訓(xùn)練，訓(xùn)練時間隨目標(biāo)數(shù)量變化迅速增加，模型泛化性不強。文獻［30］方法將每個裝備視為一個智能體進行規(guī)劃，確定每個裝備能打擊的目標(biāo)，利用規(guī)劃結(jié)果，初始化遺傳算法，其收斂速度比傳統(tǒng)遺傳算法更快。但隨著目標(biāo)數(shù)量的增加，算法尋優(yōu)時間迅速增加，當(dāng)目標(biāo)數(shù)量超過500時，其規(guī)劃時間難以適用于高動態(tài)的戰(zhàn)場環(huán)境。與本文方法相比，文獻［29］、文獻［30］算法及遺傳算法規(guī)劃質(zhì)量更高，但耗時較長，并且任務(wù)規(guī)模越大，本文方法求解速度優(yōu)勢越明顯。但本文方法解的質(zhì)量與上述算法相比仍有較大提升空間。與拍賣算法相比，本文算法規(guī)劃質(zhì)量更高，并且規(guī)劃目標(biāo)數(shù)量超過500時，規(guī)劃速度也有很大的優(yōu)勢。

4 結(jié)束語

本文針對高動態(tài)作戰(zhàn)態(tài)勢下反無人機集群火力規(guī)劃問題，提出一種基于PPO算法的火力規(guī)劃方法。以最大化火力規(guī)劃作戰(zhàn)效能為目標(biāo)，從彈藥消耗、作戰(zhàn)效果、作戰(zhàn)成本及作戰(zhàn)時間4個方面建立反無人機集群火力規(guī)劃模型，用于計算強化學(xué)習(xí)策略的獎勵值?？紤]之前決策序列對當(dāng)前規(guī)劃的影響，以LSTM網(wǎng)絡(luò)為核心構(gòu)建深度強化學(xué)習(xí)智能體，基于Actor-Critic框架設(shè)計智能體網(wǎng)絡(luò)。為確保智能體動態(tài)火力規(guī)劃在軍事上的可操作性、應(yīng)用性，根據(jù)各裝備的作戰(zhàn)反應(yīng)時間，設(shè)定態(tài)勢更新時間間隔，在此時間間隔內(nèi)，通過離散化連續(xù)的決策時間，每個決策時刻智能體與環(huán)境交互，使用PPO算法訓(xùn)練網(wǎng)絡(luò)，利用訓(xùn)練好的智能體進行智能決策，智能體經(jīng)過一系列連續(xù)決策，動態(tài)生成一個可行火力規(guī)劃方案。通過對仿真結(jié)果的比較分析，得到以下結(jié)論：

本文提出的方法可以用于解決高動態(tài)戰(zhàn)場態(tài)勢下反無人機集群火力打擊作戰(zhàn)中的火力規(guī)劃問題，可以隨著態(tài)勢的更新快速生成較為合理的動態(tài)規(guī)劃方案。同時，本文也驗證了LSTM模型在序貫決策中的適用性，擴展了深度學(xué)習(xí)技術(shù)的應(yīng)用范疇。

基于目前的工作，后續(xù)可以展開進一步研究：比如在不降低規(guī)劃效果的情況下減少網(wǎng)絡(luò)層數(shù)，降低訓(xùn)練時間及智能體決策時間;或者從算法性能優(yōu)化入手，提高算法規(guī)劃效果。

參考文獻

［1］CHENG X， SHI W P， CAI W L， et al. Communication-efficient coordinated RSS-based distributed passive localization via drone cluster［J］. IEEE Trans.on Vehicular Technology， 2022， 71（1）： 1072-1076.

［2］張陽，司光亞，王艷正. 無人機集群網(wǎng)電攻擊行動協(xié)同目標(biāo)分配建模［J］. 系統(tǒng)工程與電子技術(shù)， 2019， 41（9）： 2025-2033.

ZHANG Y， SI G Y， WANG Y Z. Modeling of cooperative target allocation of the UAV swarm cyberspace attack action［J］. Systems Engineering and Electronics， 2019， 41（9）： 2025-2033.

［3］柳強，何明，劉錦濤，等. 無人機“蜂群”的蜂擁涌現(xiàn)行為識別與抑制機理［J］. 電子學(xué)報， 2019， 47（2）： 374-381.

LIU Q， HE M， LIU J T， et al. A mechanism for identifying and suppressing the emergent flocking behaviors of UAV swarms［J］. Acta Electonica Sinica， 2019， 47（2）： 374-381.

［4］WANG H C， DING G R， CHEN J， et al. UAV anti-jamming communications with power and mobility control［J］. IEEE Trans.on Wireless Communications， 2023， 22（7）： 4729-4744.

［5］GAO N， QIN Z J， JING X J， et al. Anti-intelligent UAV jamming strategy via deep Q-networks［J］. IEEE Trans.on Communications， 2020， 68（1）： 569-581.

［6］LAYEB A， BENAYAD， ZEYNEB. A novel firefly algorithm based ant colony optimization for solving combinatorial optimization problems［J］. International Journal of Computer Science and Applications， 2014， 11（2）： 19-37.

［7］GHORBANI M K， AFSHAR A， HAMIDIFAR H， et al. A fuzzy multi-objective multiple-pollutant model for rivers using an ant colony algorithm［J］. Proceedings of the Institution of Civil Engineers： Water Management， 2022， 175（4）： 190-205.

［8］ARRAM A， AYOB M. A novel multi-parent order crossover in genetic algorithm for combinatorial optimization problems［J］. Compu-ters and Industrial Engineering， 2019， 133（8）： 267-274.

［9］ZHANG H G， LIU Y A， ZHOU J. Balanced-evolution genetic algorithm for combinatorial optimization problems： the general outline and implementation of balanced-evolution strategy based on linear diversity index［J］. Natural Computing， 2018， 17（3）： 611-639.

［10］KIM J W， KIM S K. Fitness switching genetic algorithm for solving combinatorial optimization problems with rare feasible solutions［J］. Journal of Supercomputing， 2016， 72（9）： 235-248.

［11］HSIEH F S， GUO Y H. A discrete cooperatively coevolving particle swarm optimization algorithm for combinatorial double auctions［J］. Applied Intelligence， 2019， 49（11）： 3845-3863.

［12］GENG R M， JI R X， ZI S J. Research on task allocation of UAV cluster based on particle swarm quantization algorithm［J］. Mathematical Biosciences and Engineering， 2023， 20（1）： 18-33.

［13］汪民樂，范陽濤. 基于效果的常規(guī)導(dǎo)彈火力規(guī)劃模型智能求解算法［J］. 系統(tǒng)工程與電子技術(shù)， 2017， 39（11）： 2509-2514.

WANG M L， FAN Y T. Intelligent solving algorithm for effects-based firepower allocation model of conventional missiles［J］. Systems Engineering and Electronics， 2017， 39（11）： 2509-2514.

［14］孫海文，謝曉方，孫濤，等. 改進型布谷鳥搜索算法的防空火力優(yōu)化規(guī)劃模型求解［J］. 兵工學(xué)報， 2019， 40（1）： 189-197.

SUN H W， XIE X F， SUN T， et al. Improved cuckoo search algorithm for solving antiaircraft weapon-target optimal assignment model［J］. Acta Armamentarii， 2019， 40（1）： 189-197.

［15］孫海文，謝曉方，龐威，等. 基于改進火力規(guī)劃模型的綜合防空火力智能優(yōu)化規(guī)劃［J］. 控制與決策， 2020， 35（5）： 1102-1112.

SUN H W， XIE X F， PANG W， et al. Integrated air defense firepower intelligence optimal assignment based on improved firepower assignment model［J］. Control and Decision， 2020， 35（5）： 1102-1112.

［16］KALLESTAD J， HASIBI R， HEMMATI A， et al. A general deep reinforcement learning hyper heuristic framework for solving combinatorial optimization problems［J］. European Journal of Operational Research， 2023， 309（1）： 446-468.

［17］WANG H L， WU H J， LAI G M. WagerWin： an efficient reinforcement learning framework for gambling games［J］. IEEE Trans.on Games， 2023， 15（3）： 483-491.

［18］INSEOK O， SEUNGEUN M， SANGBIN M， et al. Creating pro-level AI for a real-time fighting game using deep reinforcement learning［J］. IEEE Trans.on Games， 2022， 14（2）： 212-220.

［19］LI X J， LIU H S， DONG M H. A general framework of motion planning for redundant robot manipulator based on deep reinforcement learning［J］. IEEE Trans.on Industrial Informa-tics， 2022， 18（8）： 5253-5263.

［20］FAN F， XU G L， FENG N， et al. Spatiotemporal path tracking via deep reinforcement learning of robot for manufacturing internal logistics［J］. Journal of Manufacturing Systems， 2023， 69（31）： 150-169.

［21］DENG Y， LI Y L， DING B L， et al. Leveraging long short-term user preference in conversational recommendation via multi-agent reinforcement learning［J］. IEEE Trans.on Know-ledge and Data Engineering， 2023， 35（11）： 11541-11555.

［22］YANG Y C， CHRN C T， LU T Y， et al. Hierarchical reinforcement learning for conversational recommendation with knowledge graph reasoning and heterogeneous questions［J］. IEEE Trans.on Services Computing， 2023， 16（5）： 3439-3452.

［23］OUNOUGHI C， OUNOUGHI D， BEN Y S. EcoLight+： a novel multi-modal data fusion for enhanced eco-friendly traffic signal control driven by urban traffic noise prediction［J］. Knowledge and Information Systems， 2023， 65（12）： 5309-5329.

［24］HOU Y P， HE H S， JIANG X F， et al. Deep-reinforcement-learning-aided loss-tolerant congestion control for 6LoWPAN networks［J］. IEEE Internet of Things Journal， 2023， 10（21）： 19125-19140.

［25］WU Y Q， LIAO S Q， LIU X， et al. Deep reinforcement learning on autonomous driving policy with auxiliary critic network［J］. IEEE Trans.on Neural Networks and Learning Systems， 2023， 34（7）： 2680-3690.

［26］CUI J P， YUAN L， HE L， et al. Multi-input autonomous driving based on deep reinforcement learning with double bias experience replay［J］. IEEE Sensors Journal， 2023， 23（11）： 11253-11261.

［27］LIEN S Y， DENG D J. Intelligent session management for URLLC in 5G open radio access network： a deep reinforcement learning approach［J］. IEEE Trans.on Industrial Informatics， 2023， 19（2）：1844-1853.

［28］ZANGOOEI M， SAHA N， GOLKARIFARD M， et al. Reinforcement learning for radio resource management in RAN slicing： a survey［J］. IEEE Communications Magazine， 2023， 61（2）： 118-124.

［29］朱建文，趙長見，李小平，等. 基于強化學(xué)習(xí)的集群多目標(biāo)分配與智能決策方法［J］. 兵工學(xué)報， 2021， 42（9）： 2040-2048.

ZHU J W， ZHAO C J， LI X P， et al. Multi-target assignment and intelligent decision based on reinforcement learning［J］. 2021， 42（9）： 2040-2048.

［30］黃亭飛，程光權(quán)，黃魁華，等. 基于DQN的多類型攔截裝備復(fù)合式反無人機任務(wù)分配方法［J］. 控制與決策， 2022， 37（1）： 142-150.

HUANG T F， CHENG G Q， HUANG K H， et al. Task assignment method of compound anti-drone based on DQN for multi type interception equipment［J］. Control and Decision， 2022， 37（1）： 142-150.

［31］SHOAIB M， UMAR M S. Phishing detection model using feline finch optimisation-based LSTM classifier［J］. International Journal of Sensor Networks， 2023， 42（4）： 205-220.

［32］XIE G L， ZHANG W， HU Z， et al. Upper confident bound advantage function proximal policy optimization［J］. Cluster Computing， 2023， 26（3）： 2001-2010.

［33］TAO C Q， LIN K， HUANG Z Q， et al. CRAM： code recommendation with programming context based on self-attention mechanism［J］.IEEETrans.onReliability，2023，72（1）：302-316.

［34］LIOU T S， WANG M J. Ranking fuzzy numbers with integral value［J］. Fuzzy Sets and Systems， 1992， 50（3）： 247-255.

作者簡介

秦湖程（1996—），男，博士研究生，主要研究方向為智能規(guī)劃、決策控制及優(yōu)化。

黃炎焱（1973—），男，教授，博士，主要研究方向為裝備系統(tǒng)論證與系統(tǒng)效能分析、作戰(zhàn)效能評估、兵棋推演技術(shù)、指揮控制信息系統(tǒng)、應(yīng)急管理、系統(tǒng)建模與仿真。

陳天德（1994—），男，博士研究生，主要研究方向為智能規(guī)劃、決策控制及優(yōu)化。

張寒（1994—），男，博士研究生，主要研究方向為指揮控制、協(xié)同決策、應(yīng)急服務(wù)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于PPO算法的集群多目標(biāo)火力規(guī)劃方法