面向無人機(jī)集群察打場景的PPO 算法設(shè)計(jì)

2024-04-16 12:18李俊慧張振華聶天常車博山

火力與指揮控制 2024年3期

李俊慧，張振華，邊疆，聶天常，車博山

（北方自動(dòng)控制技術(shù)研究所，太原 030006）

0 引言

軍事作戰(zhàn)概念從“軍種聯(lián)合”到“跨域”，再到“全域作戰(zhàn)”的演變過程中，無人機(jī)集群充當(dāng)至關(guān)重要的角色［1］。無人機(jī)集群作為新的作戰(zhàn)力量，在未來戰(zhàn)場上發(fā)揮重要價(jià)值［2］。無人機(jī)集群通常執(zhí)行偵察、打擊等任務(wù)。執(zhí)行偵察打擊任務(wù)需要進(jìn)行合理決策，將任務(wù)分配給不同的無人機(jī)，并規(guī)劃它們的行動(dòng)路徑，使其能夠高效地完成任務(wù)。目前，無人機(jī)集群的任務(wù)分配與運(yùn)動(dòng)規(guī)劃方法主要可分為規(guī)則算法、啟發(fā)式算法與深度強(qiáng)化學(xué)習(xí)算法3 類。其中，規(guī)則算法和啟發(fā)式算法受高維非線性、局部最優(yōu)、先驗(yàn)知識(shí)依賴問題的限制。與此同時(shí)，由于戰(zhàn)場環(huán)境的不確定性、復(fù)雜性和動(dòng)態(tài)性，規(guī)則和啟發(fā)式方法效果不佳。深度強(qiáng)化學(xué)習(xí)是一種激勵(lì)學(xué)習(xí)，通過獎(jiǎng)勵(lì)或懲罰引導(dǎo)智能體學(xué)習(xí)從狀態(tài)空間到動(dòng)作空間的映射，在激勵(lì)中不斷試錯(cuò)糾正，甚至探索創(chuàng)新行為，最終根據(jù)可獲取的狀態(tài)給出最優(yōu)的策略。該算法能夠處理高維非線性問題，不需要對狀態(tài)進(jìn)行預(yù)測，不顯性建模行動(dòng)和環(huán)境的相互影響，也可以不依賴先驗(yàn)信息，是解決復(fù)雜不確定條件下自主學(xué)習(xí)的有效手段［3］。因此，本文選用深度強(qiáng)化學(xué)習(xí)算法應(yīng)用到無人機(jī)集群任務(wù)分配和路徑規(guī)劃研究中。采用DRL 方法進(jìn)行無人機(jī)集群任務(wù)分配與運(yùn)動(dòng)規(guī)劃的研究已經(jīng)取得一定的進(jìn)展。文獻(xiàn)［4］采用Actor-Critic 強(qiáng)化學(xué)習(xí)結(jié)構(gòu)，網(wǎng)絡(luò)以NRBF 神經(jīng)網(wǎng)絡(luò)擬合，通過控制3 個(gè)變量實(shí)現(xiàn)了無人機(jī)的機(jī)動(dòng)決策；文獻(xiàn)［5］選用軟行動(dòng)者-評(píng)論家算法（soft actor-critic，SAC）結(jié)構(gòu)，價(jià)值策略網(wǎng)絡(luò)均選用多層感知機(jī)擬合，通過控制前進(jìn)后退力度與朝向控制坦克的速度。文獻(xiàn)［4-5］控制的作戰(zhàn)單元少，決策的量少，任務(wù)復(fù)雜度低。文獻(xiàn)［6］通過多智能體近端策略優(yōu)化方法研究了實(shí)戰(zhàn)中常見的動(dòng)態(tài)火力分配的決策問題。文獻(xiàn)中毀傷概率僅與來襲目標(biāo)相關(guān)，忽略了戰(zhàn)場其他因素的影響。文獻(xiàn)［7］研究了不清楚威脅數(shù)量、位置和策略的條件下巡飛彈的突防問題，通過深度確定性策略梯度算法，巡飛彈實(shí)現(xiàn)了以同一高度固定速度進(jìn)行自主躲避藍(lán)方火力。該文獻(xiàn)一定程度證明了在動(dòng)態(tài)對抗環(huán)境下的運(yùn)動(dòng)自主性。在現(xiàn)實(shí)作戰(zhàn)中，更具實(shí)際意義的決策問題往往具有復(fù)雜性、動(dòng)態(tài)性、不確定性等特點(diǎn)［3］。偵察打擊作戰(zhàn)中，通常包含多個(gè)單元移動(dòng)、偵察、打擊、規(guī)避等決策點(diǎn)，同時(shí)由于天氣的隨機(jī)性和藍(lán)方兵力部署的不確定等因素的影響，偵察概率與毀傷概率往往動(dòng)態(tài)變化，任務(wù)難度大。

綜上所述，如何在動(dòng)態(tài)復(fù)雜不確定條件下進(jìn)行集群的任務(wù)分配與運(yùn)動(dòng)規(guī)劃仍然是研究的難點(diǎn)和熱點(diǎn)。本文以無人機(jī)集群在不清楚藍(lán)方數(shù)量和位置的區(qū)域內(nèi)執(zhí)行偵察打擊任務(wù)為想定場景，主要的貢獻(xiàn)和創(chuàng)新點(diǎn)總結(jié)如下：

1）為更真實(shí)反映戰(zhàn)場環(huán)境的不確定性，主要包括自然環(huán)境的隨機(jī)性和藍(lán)方兵力部署的未知性，通過在仿真平臺(tái)對戰(zhàn)場自然環(huán)境如天氣、地勢等進(jìn)行參數(shù)化建模，同時(shí)主要建模了環(huán)境對無人機(jī)傳感器偵察的影響，另外通過仿真平臺(tái)作戰(zhàn)規(guī)則模擬了藍(lán)方兵力部署的未知性，實(shí)現(xiàn)較大程度模擬了真實(shí)作戰(zhàn)場景。

2）針對集群在不確定察打?qū)弓h(huán)境中的復(fù)雜決策問題，提出了較為通用的狀態(tài)空間、獎(jiǎng)勵(lì)函數(shù)、動(dòng)作空間與策略網(wǎng)絡(luò)設(shè)計(jì)方法，實(shí)現(xiàn)了基于PPO 的集群察打智能體的有效學(xué)習(xí)訓(xùn)練，解決了決策的復(fù)雜性。狀態(tài)空間從多個(gè)角度設(shè)計(jì)并提取特征，捕捉多維度戰(zhàn)場態(tài)勢信息，具有靈活性與可擴(kuò)展性；獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)緊密結(jié)合察打任務(wù)的作戰(zhàn)效果指標(biāo)，以實(shí)現(xiàn)察打任務(wù)最優(yōu)化；動(dòng)作策略采取主謂賓的形式，以更好地表達(dá)無人機(jī)集群的復(fù)雜決策動(dòng)作；策略網(wǎng)絡(luò)選用編碼器-時(shí)序聚合- 注意力機(jī)制- 解碼器結(jié)構(gòu)，降低優(yōu)化問題的復(fù)雜性，促進(jìn)訓(xùn)練收斂。

3）在構(gòu)建的典型察打任務(wù)場景中，通過大規(guī)模并行仿真推演生成的數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí)，賦予了無人機(jī)集群運(yùn)動(dòng)規(guī)劃和任務(wù)分配的智能性。通過實(shí)驗(yàn)驗(yàn)證了面對未知威脅時(shí)自主規(guī)避的運(yùn)動(dòng)規(guī)劃的智能性與面向最大化毀傷能力的任務(wù)分配的智能性。

1 復(fù)雜不確定性分析

為構(gòu)建典型集群察打想定場景，使用了支持戰(zhàn)場環(huán)境模型參數(shù)化建模的仿真推演平臺(tái)。戰(zhàn)場環(huán)境模型主要指仿真模型庫和推演引擎中各種用于模擬實(shí)戰(zhàn)而建立的數(shù)學(xué)模型。該仿真推演平臺(tái)具備一定程度專業(yè)的可參數(shù)化戰(zhàn)場環(huán)境模型，能夠還原出實(shí)戰(zhàn)任務(wù)中決策的復(fù)雜性。

1.1 戰(zhàn)場環(huán)境模型參數(shù)化設(shè)計(jì)

仿真模型庫中包含實(shí)體模型和組件模型，其中實(shí)體模型有飛機(jī)、戰(zhàn)場設(shè)施、武器等，組件模型有傳感器、推進(jìn)系統(tǒng)、戰(zhàn)斗部、掛載方案等。對于實(shí)體模型，該平臺(tái)支持物理屬性和運(yùn)動(dòng)與動(dòng)力學(xué)的建模。其次，作戰(zhàn)實(shí)體模型通常配備各種傳感器和掛載方案，可通過參數(shù)化建模模擬組件的性能和配備效果。另外，仿真中涉及的作戰(zhàn)實(shí)體可模擬損傷和恢復(fù)過程。平臺(tái)還模擬了環(huán)境模型，環(huán)境因素對作戰(zhàn)實(shí)體的性能和行為都會(huì)產(chǎn)生影響。通過準(zhǔn)確建模仿真模型庫，可以使仿真平臺(tái)更真實(shí)地模擬作戰(zhàn)場景，并為實(shí)際作戰(zhàn)提供有價(jià)值的參考和決策支持。

模型的真實(shí)性促使眾多因素互相影響，偵察打擊任務(wù)面臨著復(fù)雜不確定性的挑戰(zhàn)。其中，引起偵察任務(wù)中不確定性的因素涉及了傳感器模型、目標(biāo)類型以及天氣條件等方面，這些因素導(dǎo)致目標(biāo)的探測和識(shí)別概率變化不定，增加了任務(wù)的挑戰(zhàn)性。為在不同環(huán)境條件下獲得更全面的感知能力，紅方使用了雷達(dá)和光電傳感器模型，雷達(dá)模型負(fù)責(zé)長距離、受天氣影響小的目標(biāo)探測，而光電模型則在近距離和良好光照條件下提供更高分辨率的目標(biāo)信息。同樣地，打擊任務(wù)影響因素有武器效能和精度、火力密度、目標(biāo)類型、打擊時(shí)間以及藍(lán)方反應(yīng)等，這些因素造成任務(wù)中紅方執(zhí)行能力的不確定與藍(lán)方反擊的不確定，從而打擊的毀傷概率不確定。

這里挑選了4 種典型的不同類型的戰(zhàn)場環(huán)境模型，并展示了其可參數(shù)化建模的關(guān)鍵屬性，如表1所示。

表1 模型參數(shù)Table 1 Model parameters

為更真實(shí)模擬實(shí)際戰(zhàn)場的復(fù)雜性和不確定性，每回合隨機(jī)設(shè)定天氣、藍(lán)方單元位置部署和藍(lán)方實(shí)力。通過這種方式增加了博弈對抗因素，提升智能體面對未知和不確定性的應(yīng)對能力，使訓(xùn)練出來的智能體更具有實(shí)戰(zhàn)價(jià)值。

1.2 想定場景介紹

紅方派出數(shù)架無人機(jī)前往某區(qū)域范圍內(nèi)執(zhí)行偵察打擊任務(wù)，且收到的情報(bào)中沒有關(guān)于藍(lán)方的兵力部署情況。具體的任務(wù)內(nèi)容如下：無人機(jī)進(jìn)入?yún)^(qū)域后對藍(lán)方目標(biāo)進(jìn)行搜索，明確目標(biāo)位置與類型。此外，無人機(jī)需要完成對特定目標(biāo)的打擊毀傷。任務(wù)執(zhí)行過程中，若遭遇藍(lán)方防空火力的襲擊，無人機(jī)需要快速規(guī)避，避免被擊落。因此，無人機(jī)集群需要進(jìn)行有效及時(shí)的智能決策，任務(wù)復(fù)雜度高。

2 深度強(qiáng)化學(xué)習(xí)決策算法設(shè)計(jì)

2.1 狀態(tài)空間設(shè)計(jì)

深度強(qiáng)化學(xué)習(xí)狀態(tài)空間的設(shè)計(jì)力求簡潔、高效。因此，狀態(tài)信息的篩選尤為重要。在訓(xùn)練過程中，深度神經(jīng)網(wǎng)絡(luò)需要從狀態(tài)信息中提煉出與長期回報(bào)高度關(guān)聯(lián)的特征。狀態(tài)信息的變化對獎(jiǎng)勵(lì)的反饋越及時(shí)越容易建立決策相關(guān)性［8］。因此，需要選擇盡可能與獎(jiǎng)勵(lì)即時(shí)聯(lián)動(dòng)的信息。同時(shí)為了更好地幫助智能體全面建模和理解實(shí)體、任務(wù)、環(huán)境，以及它們相互之間的關(guān)系等信息，需要構(gòu)建多元的狀態(tài)信息，且要提升信息表達(dá)的通用泛化性。

首先，每個(gè)作戰(zhàn)單元有自己的獨(dú)立屬性，多個(gè)單元的屬性特征建模為序列（sequence）特征。序列特征除了紅方單元外，也需要包含偵察到的藍(lán)方單元狀態(tài)信息。此外，在推演中由于毀傷的原因，單元的數(shù)量可變，因此，該序列特征長度可變。本文紅方單元屬性狀態(tài)變量包含經(jīng)緯高度、速度、毀傷情況、彈藥裝載量、執(zhí)行任務(wù)類型。藍(lán)方單元屬性變量有經(jīng)緯度、類別和毀傷情況。

其次，任務(wù)通常在三維空間中執(zhí)行，在涉及空間決策的任務(wù)中，空間信息的缺失可能導(dǎo)致智能體在環(huán)境中無法準(zhǔn)確地執(zhí)行任務(wù)。本文建立了空間三維狀態(tài)信息，在柵格化空間區(qū)域累計(jì)紅方被擊中和被毀傷的次數(shù)以標(biāo)記威脅程度，幫助紅方更好地實(shí)現(xiàn)規(guī)避。

本文還采用一維特征用于捕捉任務(wù)環(huán)境中的一些重要變量，如時(shí)間、天氣條件、任務(wù)進(jìn)度等。這些變量作為決策的依據(jù)，影響智能體的策略選擇。

同時(shí)，為提高狀態(tài)空間的靈活性與可擴(kuò)展性，對狀態(tài)信息進(jìn)行歸一化。常用的歸一化方法有Min-Max 歸一化、Z-Score 歸一化、范圍放縮法等。這里選用了Min-Max 歸一化如式（1），將狀態(tài)信息映射到［0，1］。

2.2 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)需要圍繞察打作戰(zhàn)業(yè)務(wù)指標(biāo)設(shè)計(jì)，從而最優(yōu)化作戰(zhàn)效能。這里考慮的作戰(zhàn)效能主要包括偵察任務(wù)完成度、毀傷任務(wù)完成度、時(shí)間效率以及己方損失。獎(jiǎng)勵(lì)的設(shè)計(jì)包含即時(shí)獎(jiǎng)勵(lì)和任務(wù)完成獎(jiǎng)勵(lì)。

任務(wù)執(zhí)行過程中的即時(shí)獎(jiǎng)勵(lì)為探索方向提供指導(dǎo)。即時(shí)獎(jiǎng)勵(lì)統(tǒng)一采用范圍縮放法進(jìn)行歸一化，如式（2），將獎(jiǎng)勵(lì)映射到［-1，1］，避免不同類型獎(jiǎng)勵(lì)差異過大。

這里的即時(shí)獎(jiǎng)勵(lì)主要有3 個(gè)，發(fā)現(xiàn)藍(lán)方目標(biāo)時(shí)給予正向獎(jiǎng)勵(lì)、無人機(jī)被擊落時(shí)給予懲罰獎(jiǎng)勵(lì)，以及造成藍(lán)方目標(biāo)毀傷時(shí)給予正向獎(jiǎng)勵(lì)。

式中，rd、B，b（t）、wd分別為偵察獎(jiǎng)勵(lì)、藍(lán)方總數(shù)量、t時(shí)刻以前共識(shí)別目標(biāo)的數(shù)量和偵察獎(jiǎng)勵(lì)權(quán)重。

式中，ru、N、dn（t）、wu分別為無人機(jī)躲避獎(jiǎng)勵(lì)、紅方無人機(jī)總數(shù)量、t 時(shí)刻第n 架無人機(jī)的損傷程度和無人機(jī)躲避獎(jiǎng)勵(lì)權(quán)重。

式中，ra、M、Omax、om（t）、wa分別為打擊獎(jiǎng)勵(lì)、需要打擊目標(biāo)的總數(shù)量、目標(biāo)最大毀傷點(diǎn)、t 時(shí)刻打擊目標(biāo)m的毀傷點(diǎn)以及打擊獎(jiǎng)勵(lì)權(quán)重。

式中，rt、t、ts、tduration、wt分別為任務(wù)結(jié)束時(shí)間獎(jiǎng)勵(lì)、仿真當(dāng)前時(shí)間、仿真開始時(shí)間、仿真持續(xù)時(shí)間和任務(wù)結(jié)束時(shí)間獎(jiǎng)勵(lì)權(quán)重。

任務(wù)成功完成后給予較大額度的獎(jiǎng)勵(lì)，保證智能體的行為向著主線任務(wù)完成的趨勢靠近。

式中，r 為所有即時(shí)獎(jiǎng)勵(lì)與任務(wù)完成獎(jiǎng)勵(lì)之和，其中re1和re2分別表示偵察任務(wù)和打擊任務(wù)完成時(shí)給予的獎(jiǎng)勵(lì)。

2.3 動(dòng)作空間設(shè)計(jì)

動(dòng)作空間的設(shè)計(jì)原則包含功能完備、高效性設(shè)計(jì)以及合法性設(shè)計(jì)。

本文設(shè)計(jì)了“指揮官模式”的智能體，通過該智能體下達(dá)命令使紅方作戰(zhàn)單元完成任務(wù)?，F(xiàn)實(shí)中指揮官在任務(wù)分配時(shí)需綜合考慮任務(wù)執(zhí)行者、動(dòng)作類型和作用對象等因素。為使上述智能體動(dòng)作空間具備現(xiàn)實(shí)指揮官的全部能力，同時(shí)使決策具有更好的可解釋性和表達(dá)復(fù)雜動(dòng)作的能力，本文將動(dòng)作輸出表示為自然語言結(jié)構(gòu)，輸出設(shè)計(jì)采用主謂賓的形式，即執(zhí)行者、動(dòng)作類型和作用對象。這里執(zhí)行者是紅方無人機(jī)，動(dòng)作類型分為偵察與打擊，當(dāng)動(dòng)作為偵察時(shí)，作用對象為無人機(jī)所需偵察的經(jīng)緯度和移動(dòng)時(shí)的高度速度；當(dāng)動(dòng)作為打擊時(shí)，作用對象為打擊目標(biāo)，以及無人機(jī)釋放彈藥所需到達(dá)的經(jīng)緯度和投彈高度速度。其中，執(zhí)行者和打擊目標(biāo)屬于離散的動(dòng)作指令，而位置如經(jīng)緯高以及速度屬于連續(xù)的動(dòng)作指令。連續(xù)空間擬合難度大，過細(xì)的動(dòng)作粒度通常是冗余無必要的，文獻(xiàn)［9］表明離散化動(dòng)作空間以解決連續(xù)控制問題是一種簡單而強(qiáng)大的策略優(yōu)化技術(shù)。因此，將連續(xù)的動(dòng)作進(jìn)行離散化，同時(shí)選擇的離散化粒度需要平衡控制精度與解空間探索效率。

實(shí)戰(zhàn)任務(wù)是在一系列作戰(zhàn)規(guī)則約束下進(jìn)行的。本文采用作戰(zhàn)規(guī)則和深度強(qiáng)化學(xué)習(xí)相結(jié)合的決策方式。無人機(jī)在三維戰(zhàn)場空間的運(yùn)動(dòng)軌跡是在深度強(qiáng)化學(xué)習(xí)和規(guī)則兩者作用下生成。將三維經(jīng)緯高空間轉(zhuǎn)化為xyz 軸的三維空間，在研究中，深度強(qiáng)化學(xué)習(xí)決策無人機(jī)的動(dòng)作包括經(jīng)度、緯度、高度和速度大小，這些因素對作戰(zhàn)效能起到關(guān)鍵影響，而具體無人機(jī)的運(yùn)動(dòng)軌跡通常使用運(yùn)動(dòng)規(guī)劃技術(shù)實(shí)現(xiàn)，并結(jié)合自帶的飛行控制器進(jìn)行跟蹤，這里運(yùn)動(dòng)規(guī)劃采用5 次多項(xiàng)式曲線插值，使得實(shí)際運(yùn)動(dòng)的速度和加速度平滑連續(xù)，易于跟蹤。飛控使用常見的設(shè)定三維位置點(diǎn)和速度的控制接口。其中，x 軸分量的運(yùn)動(dòng)軌跡設(shè)為式（8），方程組（9）利用路徑點(diǎn)約束和最小二乘方法求解x 軸運(yùn)動(dòng)軌跡。

圖1 多項(xiàng)式求解運(yùn)動(dòng)軌跡示意圖Fig.1 Schematic diagram of polynomial solution for motion trajectory

圖2 運(yùn)動(dòng)軌跡xy 平面投影圖Fig.2 Planar projection of motion trajectory xy

無人機(jī)運(yùn)動(dòng)軌跡描述：當(dāng)無人機(jī)處于盤旋狀態(tài)，接收到指揮官智能體的指令，首先在xy 平面繼續(xù)順時(shí)針盤旋，調(diào)整無人機(jī)朝向，計(jì)算起始位置與終點(diǎn)位置的盤旋圓在二維的公共切線，當(dāng)無人機(jī)朝向與切線方向一致，無人機(jī)沿切線方向進(jìn)入飛行狀態(tài)，到達(dá)目標(biāo)位置后以智能體給定的速度大小進(jìn)行順時(shí)針盤旋。當(dāng)無人機(jī)正處于飛向某目標(biāo)點(diǎn)的狀態(tài)時(shí)接收到臨機(jī)指令，無人機(jī)以當(dāng)前速度轉(zhuǎn)為盤旋狀態(tài)，然后按照無人機(jī)處于盤旋狀態(tài)的軌跡進(jìn)行變化。

另外，有些規(guī)則由仿真平臺(tái)交戰(zhàn)設(shè)置。圖3 中傳感器開關(guān)狀態(tài)由作戰(zhàn)電磁管控模塊負(fù)責(zé)，作戰(zhàn)任務(wù)所需雷達(dá)一直處于開啟狀態(tài)。圖4 設(shè)置紅方對地目標(biāo)確認(rèn)為藍(lán)方目標(biāo)后，紅方無人機(jī)才能開火。

圖3 傳感器設(shè)置Fig.3 Setting of sensors

圖4 開火規(guī)則Fig.4 Firing rules

2.4 策略網(wǎng)絡(luò)架構(gòu)

整體的策略網(wǎng)絡(luò)結(jié)構(gòu)如下頁圖5 所示。策略網(wǎng)絡(luò)結(jié)構(gòu)選用編碼器-時(shí)序聚合- 注意力機(jī)制- 解碼器結(jié)構(gòu)。策略網(wǎng)絡(luò)結(jié)構(gòu)中各模塊功能與整體工作流程如下：

圖5 策略網(wǎng)絡(luò)Fig.5 Strategy network

1）編碼器將狀態(tài)值進(jìn)行特征提取和降維轉(zhuǎn)換。其中，作戰(zhàn)單元序列特征通過全連接神經(jīng)網(wǎng)絡(luò)（FC）和池化層（pooling）來提取特征和除去冗余信息；全局一維信息如天氣信息、任務(wù)進(jìn)度等經(jīng)過全連接神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提??；空間特征如威脅分布經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)（ANN）進(jìn)行特征提取與選擇。然后使用拼接操作（concat）得到一個(gè)高維特征表示，從而更好地學(xué)習(xí)與融合任務(wù)環(huán)境與實(shí)體等多元特征；

2）時(shí)序聚合是通過將上述融合的高級(jí)特征輸入門控神經(jīng)網(wǎng)絡(luò)（GRU），挖掘長期依賴性，從而建模歷史信息對當(dāng)前作戰(zhàn)任務(wù)的影響；

3）執(zhí)行者和作用對象的獲取需要使用注意力機(jī)制（attention）模塊，動(dòng)態(tài)地分配注意力，使網(wǎng)絡(luò)注意力集中在重要性更高的信息上［10］，從而選擇性地關(guān)注那些在當(dāng)前任務(wù)中更適合的無人機(jī)和當(dāng)前更適合的打擊目標(biāo)等；

4）解碼器將注意力機(jī)制的輸出表示和時(shí)序聚合產(chǎn)生的特征表示轉(zhuǎn)換回到動(dòng)作空間。注意力機(jī)制的輸出經(jīng)過激活函數(shù)（sigmoid）和概率采樣（sample）獲取執(zhí)行者（主語）和作用對象（賓語），時(shí)序聚合的輸出經(jīng)過全連接、激活函數(shù)和采樣得到?jīng)Q策的動(dòng)作類型（謂語）。

3 基于近端策略優(yōu)化的求解方法

本次研究選用了深度強(qiáng)化學(xué)習(xí)中的近端策略優(yōu)化算法。PPO 在2017 年由SCHULMAN J 等提出，是一種基于策略梯度的強(qiáng)化學(xué)習(xí)算法，旨在解決深度強(qiáng)化學(xué)習(xí)中的穩(wěn)定性問題［11］。PPO 引入剪切系數(shù)可以確保策略更新不會(huì)過于劇烈，不會(huì)引起策略不穩(wěn)定，可以更好地適應(yīng)環(huán)境的變化，符合無人機(jī)集群由于行動(dòng)前不清楚藍(lán)方目標(biāo)的位置和類型而需要頻繁地調(diào)整策略。

值網(wǎng)絡(luò)損失函數(shù)用于優(yōu)化值網(wǎng)絡(luò)估計(jì)值與真實(shí)累積獎(jiǎng)勵(lì)之間的誤差。PPO 利用式（14）作為值網(wǎng)絡(luò)損失函數(shù)計(jì)算梯度，更新值網(wǎng)絡(luò)參數(shù)，優(yōu)化值網(wǎng)絡(luò)的評(píng)價(jià)能力。

基于近端策略優(yōu)化算法的無人機(jī)集群執(zhí)行偵察打擊任務(wù)的決策算法，如算法1 所示。

算法1 無人機(jī)集群執(zhí)行偵察打擊任務(wù)的決策算法1）初始化新舊actor 網(wǎng)絡(luò)參數(shù)θπ、θπold，critic 網(wǎng)絡(luò)參數(shù)θQ 2）采樣部分將狀態(tài)信息輸入到新actor 網(wǎng)絡(luò)輸出action，采樣獲取一個(gè)action，輸入環(huán)境中獲取r 與下一個(gè)狀態(tài)s，以此循環(huán)存儲(chǔ)episode 3）訓(xùn)練部分①從存儲(chǔ)的樣本中獲取一個(gè)batchsize 大小的樣本量將每個(gè)樣本中的狀態(tài)s 輸入到critic 網(wǎng)絡(luò)中輸出v 值，計(jì)算優(yōu)勢函數(shù)如式（12）、式（13）②使用優(yōu)勢函數(shù)計(jì)算值網(wǎng)絡(luò)損失如式（14），通過反向傳播更新值網(wǎng)絡(luò)參數(shù)θQ③計(jì)算當(dāng)前策略與舊策略的比值如式（11）④計(jì)算策略網(wǎng)絡(luò)損失如式（10），反向傳播更新新actor網(wǎng)絡(luò)參數(shù)θπ，從而更新舊actor 網(wǎng)絡(luò)參數(shù)θπold，

4 仿真實(shí)驗(yàn)

4.1 實(shí)驗(yàn)場景參數(shù)設(shè)置

實(shí)驗(yàn)場景中對抗主體為紅方無人機(jī)集群和藍(lán)方地面設(shè)施。其中，紅方共16 架無人機(jī)，藍(lán)方有7種類型，共13 個(gè)地面設(shè)施。具體類型和數(shù)量如下頁表2 所示。其中，無人機(jī)速度范圍為0～300 km/h，調(diào)整高度范圍為0～8 km。其中，雷達(dá)察打無人機(jī)的偵察范圍為15 km，光電察打無人機(jī)的偵察范圍為10 km，無人機(jī)最大攻擊距離為5 km。藍(lán)方SAM 地空導(dǎo)彈的最大攻擊距離是10 km，復(fù)仇者防空導(dǎo)彈的最大攻擊距離為10 km。

表2 對抗雙方兵力情況Table 2 The forces situation of opposing sides

下頁圖6 是上帝視角下的作戰(zhàn)雙方兵力分布情況。雙方作戰(zhàn)的區(qū)域長約79 km，寬約88 km。區(qū)域內(nèi)環(huán)境因素考慮了平均氣溫、降水量、云量和風(fēng)力/海況。任務(wù)完成需要偵察到大于80%的藍(lán)方目標(biāo)數(shù)量，同時(shí)對特定目標(biāo)跑道1、跑道2 和航空汽油油箱場站進(jìn)行毀傷。

圖6 偵察打擊想定示意圖（上帝視角）Fig.6 Schematic diagram of reconnaissance and strike scenarios（god perspective）

本次仿真基于ubuntu 系統(tǒng)完成了仿真推演和智能體訓(xùn)練。仿真基礎(chǔ)條件設(shè)置：想定推演速度為1 s，即仿真推演時(shí)間與實(shí)際時(shí)間一致；每輪仿真訓(xùn)練時(shí)長上限為2 h；每輪訓(xùn)練以規(guī)定時(shí)間內(nèi)紅方完成任務(wù)或規(guī)定時(shí)間內(nèi)未完成任務(wù)或達(dá)到仿真上限時(shí)間3 種情況結(jié)束；仿真每50 s 進(jìn)行一步?jīng)Q策。網(wǎng)絡(luò)超參數(shù)設(shè)置：單次采樣樣本量batch_size=1 024，策略熵?fù)p失系數(shù)entropy_coef=0.1，學(xué)習(xí)率lr=2e-4，剪切系數(shù)ε 采用原PPO 論文建議的數(shù)值0.2［11］，優(yōu)勢函數(shù)gae 的時(shí)間步長gae_ length=128。具體的仿真的運(yùn)行流程如圖7 所示。

圖7 仿真運(yùn)行流程圖Fig.7 Simulation running flow chart

首先從仿真環(huán)境加載預(yù)定義的想定場景，并從仿真環(huán)境中實(shí)時(shí)獲取數(shù)據(jù)。篩選狀態(tài)空間變量，構(gòu)建獎(jiǎng)勵(lì)函數(shù)，優(yōu)化強(qiáng)化學(xué)習(xí)模型的參數(shù)，使模型朝著紅方累積獎(jiǎng)勵(lì)最大化的方向優(yōu)化。模型包括一個(gè)用于輸出動(dòng)作的策略網(wǎng)絡(luò)（動(dòng)作輸出網(wǎng)絡(luò)）和一個(gè)用于評(píng)估狀態(tài)值的價(jià)值網(wǎng)絡(luò)（動(dòng)作評(píng)價(jià)網(wǎng)絡(luò)）。右虛線方框是智能體輸出與作戰(zhàn)規(guī)則結(jié)合的具體流程。方框中輸入量為智能體輸出的紅方無人機(jī)ID（主語）、打擊目標(biāo)ID（賓語）、任務(wù)類型（謂語）、經(jīng)緯高度（謂語）和速度（謂語）。中間過程是對主謂賓分配進(jìn)行作戰(zhàn)規(guī)則限制，其中，設(shè)置每個(gè)狀態(tài)結(jié)束后即飛到目的地，在沒有新的命令情況下，無人機(jī)進(jìn)入原地盤旋狀態(tài)等待。輸出量是DRL 與作戰(zhàn)規(guī)則結(jié)合的任務(wù)分配與運(yùn)動(dòng)規(guī)劃。

4.2 仿真結(jié)果分析

實(shí)驗(yàn)從算法設(shè)計(jì)的合理性和作戰(zhàn)任務(wù)指標(biāo)兩方面進(jìn)行分析。曲線圖的橫坐標(biāo)均是訓(xùn)練步數(shù)（learning step），縱坐標(biāo)是相應(yīng)的算法或任務(wù)監(jiān)控指標(biāo)。訓(xùn)練基于分布式架構(gòu)，因此，算法類指標(biāo)曲線圖8～圖10 呈現(xiàn)多曲線，表示不同訓(xùn)練容器生成的趨勢；而作戰(zhàn)任務(wù)指標(biāo)呈現(xiàn)單曲線，是計(jì)算總體獲取的平均值，如圖11～圖14。

圖8 優(yōu)勢函數(shù)曲線Fig.8 Advantage function curve

4.2.1 算法設(shè)計(jì)合理性分析

圖8 是優(yōu)勢函數(shù)曲線，可以看出曲線整體呈現(xiàn)逐漸上升的趨勢，說明新策略比舊策略好。到訓(xùn)練后期，增加逐漸趨于緩慢，說明此時(shí)策略已經(jīng)相對穩(wěn)定。圖9 中可以看出，策略損失網(wǎng)絡(luò)隨訓(xùn)練進(jìn)行，逐漸維持在一個(gè)較小的范圍內(nèi)，說明策略在逐步優(yōu)化并趨于穩(wěn)定。圖10 是值網(wǎng)絡(luò)損失函數(shù)曲線，該曲線用于衡量值函數(shù)估計(jì)與真實(shí)累積獎(jiǎng)勵(lì)之間的誤差。曲線呈現(xiàn)下降趨勢，損失函數(shù)的值逐漸減小，說明值函數(shù)估計(jì)逐漸逼近真實(shí)累積獎(jiǎng)勵(lì)。

圖9 策略損失函數(shù)曲線Fig.9 Strategy loss function curve

圖10 值網(wǎng)絡(luò)損失函數(shù)曲線Fig.10 Value network loss function curve

4.2.2 作戰(zhàn)任務(wù)指標(biāo)分析

從以下3 個(gè)指標(biāo)的曲線變化情況可知，隨著學(xué)習(xí)次數(shù)的持續(xù)增加，所訓(xùn)練模型在執(zhí)行任務(wù)時(shí)的指標(biāo)不斷得到優(yōu)化，最后保持穩(wěn)定。

圖11 是無人機(jī)集群執(zhí)行偵察打擊任務(wù)的總獎(jiǎng)勵(lì)曲線?？偑?jiǎng)勵(lì)整體呈現(xiàn)上升趨勢，最后訓(xùn)練穩(wěn)定收斂。

圖11 總獎(jiǎng)勵(lì)函數(shù)曲線Fig.11 Total reward function curve

下頁圖12 是目標(biāo)數(shù)量曲線。起初發(fā)現(xiàn)的目標(biāo)數(shù)量大致為7，這是由于不具備反制行為的目標(biāo)總數(shù)量為7，容易被偵察到，而剩余地面設(shè)施均有反制能力，無人機(jī)接近后易被擊落，導(dǎo)致無人機(jī)不易偵察到目標(biāo)。從曲線中可以看出隨著訓(xùn)練的進(jìn)行，偵察到的數(shù)量從7 增加到11 左右，說明無人機(jī)的偵察能力有所提升。

圖12 目標(biāo)數(shù)量曲線Fig.12 Target quantity curve

圖13 是無人機(jī)損失數(shù)量曲線。曲線中無人機(jī)折損的初始數(shù)量為8，說明剛開始無人機(jī)面臨突發(fā)的威脅不具備自主躲避火力攻擊的能力。隨著訓(xùn)練的進(jìn)行，曲線呈現(xiàn)下降趨勢達(dá)到3，說明無人機(jī)學(xué)到了快速偵察并撤離的策略，在盡快完成目標(biāo)偵察后，通過調(diào)整速度、航向、高度等動(dòng)作空間中關(guān)鍵動(dòng)作立即撤離目標(biāo)區(qū)域，體現(xiàn)了運(yùn)動(dòng)規(guī)劃的智能性。

圖13 無人機(jī)損失數(shù)量曲線Fig.13 Loss quantity curve of UAVs

圖14 是目標(biāo)毀傷分?jǐn)?shù)。從曲線可以看出毀傷分?jǐn)?shù)從160 上升到260。經(jīng)過智能訓(xùn)練，在執(zhí)行毀傷任務(wù)時(shí)，通過改變無人機(jī)打擊時(shí)的速度高度航向，目標(biāo)分配的合理性等關(guān)鍵影響因素，學(xué)習(xí)到了最大化毀傷的任務(wù)分配的智能性。

圖14 目標(biāo)毀傷分?jǐn)?shù)Fig.14 Target damage scores

4.3 仿真結(jié)果驗(yàn)證

仿真訓(xùn)練設(shè)定訓(xùn)練步數(shù)learning step 每增加200，生成用于本地計(jì)算機(jī)執(zhí)行的模型參數(shù)文本。仿真驗(yàn)證選用了learning step=1、1 000 和2 000 的訓(xùn)練模型，分別對三者仿真步長step=140。即仿真推演接近設(shè)定的作戰(zhàn)結(jié)束時(shí)間2 h 進(jìn)行了可視化界面展示，如圖15～圖17 所示。圖中每個(gè)作戰(zhàn)單元有對應(yīng)血量顯示，表現(xiàn)為單元附近的窄方塊。

圖15 Learning step=1Fig.15 Learning step=1

圖15 中紅方無人機(jī)偵察到藍(lán)方6 個(gè)目標(biāo)，重度毀傷了跑道1（血量顏色為紅色），此時(shí)紅方剩余3 架無人機(jī)；圖16 中偵察到藍(lán)方7 個(gè)目標(biāo)，重度毀傷了跑道1，輕度毀傷了跑道2（血量顏色為黃色），無人機(jī)剩余9 架；圖17 中紅方無人機(jī)偵察到藍(lán)方11 個(gè)目標(biāo)，一架無人機(jī)正對藍(lán)方航空汽油油箱場站進(jìn)行完全摧毀，重度毀傷了跑道1，中度毀傷了跑道2（血量顏色為橙色），自身剩余無人機(jī)10 架。

圖16 Learning step=1 000Fig.16 Learning step=1 000

圖17 Learning step=2 000Fig.17 Learning step=2 000

通過上述可視化界面可知，藍(lán)方兵力部署具有對抗性。初始階段的訓(xùn)練模型，紅方無人機(jī)偵察藍(lán)方目標(biāo)數(shù)量少，且自身損毀數(shù)量多；后期穩(wěn)定階段的訓(xùn)練模型，紅方無人機(jī)不但可以躲避藍(lán)方的防空火力，而且可以偵察到較多數(shù)量的目標(biāo)，并對目標(biāo)的毀傷也大幅提高。由此可見，基于近端策略優(yōu)化算法和規(guī)則的決策模型在無人機(jī)集群偵察場景中具有一定有效性。

5 結(jié)論

本文針對復(fù)雜不確定條件下構(gòu)建的無人機(jī)集群典型偵察打擊任務(wù)想定，通過設(shè)計(jì)狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù)和策略網(wǎng)絡(luò)，搭建了基于PPO 的深度強(qiáng)化學(xué)習(xí)框架。通過仿真實(shí)驗(yàn)結(jié)果表明，實(shí)現(xiàn)了察打任務(wù)的作戰(zhàn)效能最優(yōu)，體現(xiàn)了無人機(jī)集群運(yùn)動(dòng)規(guī)劃和任務(wù)分配的智能性。該方法可為復(fù)雜不確定條件下大規(guī)模無人集群決策提供技術(shù)借鑒，同時(shí)該方法可以進(jìn)一步豐富和接入更專業(yè)的武器裝備參數(shù)和數(shù)據(jù)，對實(shí)戰(zhàn)化環(huán)境中的無人機(jī)集群察打指揮決策具有重要意義。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡