李俊慧,張振華,邊 疆,聶天常,車博山
(北方自動(dòng)控制技術(shù)研究所,太原 030006)
軍事作戰(zhàn)概念從“軍種聯(lián)合”到“跨域”,再到“全域作戰(zhàn)”的演變過程中,無人機(jī)集群充當(dāng)至關(guān)重要的角色[1]。無人機(jī)集群作為新的作戰(zhàn)力量,在未來戰(zhàn)場上發(fā)揮重要價(jià)值[2]。無人機(jī)集群通常執(zhí)行偵察、打擊等任務(wù)。執(zhí)行偵察打擊任務(wù)需要進(jìn)行合理決策,將任務(wù)分配給不同的無人機(jī),并規(guī)劃它們的行動(dòng)路徑,使其能夠高效地完成任務(wù)。目前,無人機(jī)集群的任務(wù)分配與運(yùn)動(dòng)規(guī)劃方法主要可分為規(guī)則算法、啟發(fā)式算法與深度強(qiáng)化學(xué)習(xí)算法3 類。其中,規(guī)則算法和啟發(fā)式算法受高維非線性、局部最優(yōu)、先驗(yàn)知識(shí)依賴問題的限制。與此同時(shí),由于戰(zhàn)場環(huán)境的不確定性、復(fù)雜性和動(dòng)態(tài)性,規(guī)則和啟發(fā)式方法效果不佳。深度強(qiáng)化學(xué)習(xí)是一種激勵(lì)學(xué)習(xí),通過獎(jiǎng)勵(lì)或懲罰引導(dǎo)智能體學(xué)習(xí)從狀態(tài)空間到動(dòng)作空間的映射,在激勵(lì)中不斷試錯(cuò)糾正,甚至探索創(chuàng)新行為,最終根據(jù)可獲取的狀態(tài)給出最優(yōu)的策略。該算法能夠處理高維非線性問題,不需要對狀態(tài)進(jìn)行預(yù)測,不顯性建模行動(dòng)和環(huán)境的相互影響,也可以不依賴先驗(yàn)信息,是解決復(fù)雜不確定條件下自主學(xué)習(xí)的有效手段[3]。因此,本文選用深度強(qiáng)化學(xué)習(xí)算法應(yīng)用到無人機(jī)集群任務(wù)分配和路徑規(guī)劃研究中。采用DRL 方法進(jìn)行無人機(jī)集群任務(wù)分配與運(yùn)動(dòng)規(guī)劃的研究已經(jīng)取得一定的進(jìn)展。文獻(xiàn)[4]采用Actor-Critic 強(qiáng)化學(xué)習(xí)結(jié)構(gòu),網(wǎng)絡(luò)以NRBF 神經(jīng)網(wǎng)絡(luò)擬合,通過控制3 個(gè)變量實(shí)現(xiàn)了無人機(jī)的機(jī)動(dòng)決策;文獻(xiàn)[5]選用軟行動(dòng)者-評(píng)論家算法(soft actor-critic,SAC)結(jié)構(gòu),價(jià)值策略網(wǎng)絡(luò)均選用多層感知機(jī)擬合,通過控制前進(jìn)后退力度與朝向控制坦克的速度。文獻(xiàn)[4-5]控制的作戰(zhàn)單元少,決策的量少,任務(wù)復(fù)雜度低。文獻(xiàn)[6]通過多智能體近端策略優(yōu)化方法研究了實(shí)戰(zhàn)中常見的動(dòng)態(tài)火力分配的決策問題。文獻(xiàn)中毀傷概率僅與來襲目標(biāo)相關(guān),忽略了戰(zhàn)場其他因素的影響。文獻(xiàn)[7]研究了不清楚威脅數(shù)量、位置和策略的條件下巡飛彈的突防問題,通過深度確定性策略梯度算法,巡飛彈實(shí)現(xiàn)了以同一高度固定速度進(jìn)行自主躲避藍(lán)方火力。該文獻(xiàn)一定程度證明了在動(dòng)態(tài)對抗環(huán)境下的運(yùn)動(dòng)自主性。在現(xiàn)實(shí)作戰(zhàn)中,更具實(shí)際意義的決策問題往往具有復(fù)雜性、動(dòng)態(tài)性、不確定性等特點(diǎn)[3]。偵察打擊作戰(zhàn)中,通常包含多個(gè)單元移動(dòng)、偵察、打擊、規(guī)避等決策點(diǎn),同時(shí)由于天氣的隨機(jī)性和藍(lán)方兵力部署的不確定等因素的影響,偵察概率與毀傷概率往往動(dòng)態(tài)變化,任務(wù)難度大。
綜上所述,如何在動(dòng)態(tài)復(fù)雜不確定條件下進(jìn)行集群的任務(wù)分配與運(yùn)動(dòng)規(guī)劃仍然是研究的難點(diǎn)和熱點(diǎn)。本文以無人機(jī)集群在不清楚藍(lán)方數(shù)量和位置的區(qū)域內(nèi)執(zhí)行偵察打擊任務(wù)為想定場景,主要的貢獻(xiàn)和創(chuàng)新點(diǎn)總結(jié)如下:
1)為更真實(shí)反映戰(zhàn)場環(huán)境的不確定性,主要包括自然環(huán)境的隨機(jī)性和藍(lán)方兵力部署的未知性,通過在仿真平臺(tái)對戰(zhàn)場自然環(huán)境如天氣、地勢等進(jìn)行參數(shù)化建模,同時(shí)主要建模了環(huán)境對無人機(jī)傳感器偵察的影響,另外通過仿真平臺(tái)作戰(zhàn)規(guī)則模擬了藍(lán)方兵力部署的未知性,實(shí)現(xiàn)較大程度模擬了真實(shí)作戰(zhàn)場景。
2)針對集群在不確定察打?qū)弓h(huán)境中的復(fù)雜決策問題,提出了較為通用的狀態(tài)空間、獎(jiǎng)勵(lì)函數(shù)、動(dòng)作空間與策略網(wǎng)絡(luò)設(shè)計(jì)方法,實(shí)現(xiàn)了基于PPO 的集群察打智能體的有效學(xué)習(xí)訓(xùn)練,解決了決策的復(fù)雜性。狀態(tài)空間從多個(gè)角度設(shè)計(jì)并提取特征,捕捉多維度戰(zhàn)場態(tài)勢信息,具有靈活性與可擴(kuò)展性;獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)緊密結(jié)合察打任務(wù)的作戰(zhàn)效果指標(biāo),以實(shí)現(xiàn)察打任務(wù)最優(yōu)化;動(dòng)作策略采取主謂賓的形式,以更好地表達(dá)無人機(jī)集群的復(fù)雜決策動(dòng)作;策略網(wǎng)絡(luò)選用編碼器-時(shí)序聚合- 注意力機(jī)制- 解碼器結(jié)構(gòu),降低優(yōu)化問題的復(fù)雜性,促進(jìn)訓(xùn)練收斂。
3)在構(gòu)建的典型察打任務(wù)場景中,通過大規(guī)模并行仿真推演生成的數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí),賦予了無人機(jī)集群運(yùn)動(dòng)規(guī)劃和任務(wù)分配的智能性。通過實(shí)驗(yàn)驗(yàn)證了面對未知威脅時(shí)自主規(guī)避的運(yùn)動(dòng)規(guī)劃的智能性與面向最大化毀傷能力的任務(wù)分配的智能性。
為構(gòu)建典型集群察打想定場景,使用了支持戰(zhàn)場環(huán)境模型參數(shù)化建模的仿真推演平臺(tái)。戰(zhàn)場環(huán)境模型主要指仿真模型庫和推演引擎中各種用于模擬實(shí)戰(zhàn)而建立的數(shù)學(xué)模型。該仿真推演平臺(tái)具備一定程度專業(yè)的可參數(shù)化戰(zhàn)場環(huán)境模型,能夠還原出實(shí)戰(zhàn)任務(wù)中決策的復(fù)雜性。
仿真模型庫中包含實(shí)體模型和組件模型,其中實(shí)體模型有飛機(jī)、戰(zhàn)場設(shè)施、武器等,組件模型有傳感器、推進(jìn)系統(tǒng)、戰(zhàn)斗部、掛載方案等。對于實(shí)體模型,該平臺(tái)支持物理屬性和運(yùn)動(dòng)與動(dòng)力學(xué)的建模。其次,作戰(zhàn)實(shí)體模型通常配備各種傳感器和掛載方案,可通過參數(shù)化建模模擬組件的性能和配備效果。另外,仿真中涉及的作戰(zhàn)實(shí)體可模擬損傷和恢復(fù)過程。平臺(tái)還模擬了環(huán)境模型,環(huán)境因素對作戰(zhàn)實(shí)體的性能和行為都會(huì)產(chǎn)生影響。通過準(zhǔn)確建模仿真模型庫,可以使仿真平臺(tái)更真實(shí)地模擬作戰(zhàn)場景,并為實(shí)際作戰(zhàn)提供有價(jià)值的參考和決策支持。
模型的真實(shí)性促使眾多因素互相影響,偵察打擊任務(wù)面臨著復(fù)雜不確定性的挑戰(zhàn)。其中,引起偵察任務(wù)中不確定性的因素涉及了傳感器模型、目標(biāo)類型以及天氣條件等方面,這些因素導(dǎo)致目標(biāo)的探測和識(shí)別概率變化不定,增加了任務(wù)的挑戰(zhàn)性。為在不同環(huán)境條件下獲得更全面的感知能力,紅方使用了雷達(dá)和光電傳感器模型,雷達(dá)模型負(fù)責(zé)長距離、受天氣影響小的目標(biāo)探測,而光電模型則在近距離和良好光照條件下提供更高分辨率的目標(biāo)信息。同樣地,打擊任務(wù)影響因素有武器效能和精度、火力密度、目標(biāo)類型、打擊時(shí)間以及藍(lán)方反應(yīng)等,這些因素造成任務(wù)中紅方執(zhí)行能力的不確定與藍(lán)方反擊的不確定,從而打擊的毀傷概率不確定。
這里挑選了4 種典型的不同類型的戰(zhàn)場環(huán)境模型,并展示了其可參數(shù)化建模的關(guān)鍵屬性,如表1所示。
表1 模型參數(shù)Table 1 Model parameters
為更真實(shí)模擬實(shí)際戰(zhàn)場的復(fù)雜性和不確定性,每回合隨機(jī)設(shè)定天氣、藍(lán)方單元位置部署和藍(lán)方實(shí)力。通過這種方式增加了博弈對抗因素,提升智能體面對未知和不確定性的應(yīng)對能力,使訓(xùn)練出來的智能體更具有實(shí)戰(zhàn)價(jià)值。
紅方派出數(shù)架無人機(jī)前往某區(qū)域范圍內(nèi)執(zhí)行偵察打擊任務(wù),且收到的情報(bào)中沒有關(guān)于藍(lán)方的兵力部署情況。具體的任務(wù)內(nèi)容如下:無人機(jī)進(jìn)入?yún)^(qū)域后對藍(lán)方目標(biāo)進(jìn)行搜索,明確目標(biāo)位置與類型。此外,無人機(jī)需要完成對特定目標(biāo)的打擊毀傷。任務(wù)執(zhí)行過程中,若遭遇藍(lán)方防空火力的襲擊,無人機(jī)需要快速規(guī)避,避免被擊落。因此,無人機(jī)集群需要進(jìn)行有效及時(shí)的智能決策,任務(wù)復(fù)雜度高。
深度強(qiáng)化學(xué)習(xí)狀態(tài)空間的設(shè)計(jì)力求簡潔、高效。因此,狀態(tài)信息的篩選尤為重要。在訓(xùn)練過程中,深度神經(jīng)網(wǎng)絡(luò)需要從狀態(tài)信息中提煉出與長期回報(bào)高度關(guān)聯(lián)的特征。狀態(tài)信息的變化對獎(jiǎng)勵(lì)的反饋越及時(shí)越容易建立決策相關(guān)性[8]。因此,需要選擇盡可能與獎(jiǎng)勵(lì)即時(shí)聯(lián)動(dòng)的信息。同時(shí)為了更好地幫助智能體全面建模和理解實(shí)體、任務(wù)、環(huán)境,以及它們相互之間的關(guān)系等信息,需要構(gòu)建多元的狀態(tài)信息,且要提升信息表達(dá)的通用泛化性。
首先,每個(gè)作戰(zhàn)單元有自己的獨(dú)立屬性,多個(gè)單元的屬性特征建模為序列(sequence)特征。序列特征除了紅方單元外,也需要包含偵察到的藍(lán)方單元狀態(tài)信息。此外,在推演中由于毀傷的原因,單元的數(shù)量可變,因此,該序列特征長度可變。本文紅方單元屬性狀態(tài)變量包含經(jīng)緯高度、速度、毀傷情況、彈藥裝載量、執(zhí)行任務(wù)類型。藍(lán)方單元屬性變量有經(jīng)緯度、類別和毀傷情況。
其次,任務(wù)通常在三維空間中執(zhí)行,在涉及空間決策的任務(wù)中,空間信息的缺失可能導(dǎo)致智能體在環(huán)境中無法準(zhǔn)確地執(zhí)行任務(wù)。本文建立了空間三維狀態(tài)信息,在柵格化空間區(qū)域累計(jì)紅方被擊中和被毀傷的次數(shù)以標(biāo)記威脅程度,幫助紅方更好地實(shí)現(xiàn)規(guī)避。
本文還采用一維特征用于捕捉任務(wù)環(huán)境中的一些重要變量,如時(shí)間、天氣條件、任務(wù)進(jìn)度等。這些變量作為決策的依據(jù),影響智能體的策略選擇。
同時(shí),為提高狀態(tài)空間的靈活性與可擴(kuò)展性,對狀態(tài)信息進(jìn)行歸一化。常用的歸一化方法有Min-Max 歸一化、Z-Score 歸一化、范圍放縮法等。這里選用了Min-Max 歸一化如式(1),將狀態(tài)信息映射到[0,1]。
獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)需要圍繞察打作戰(zhàn)業(yè)務(wù)指標(biāo)設(shè)計(jì),從而最優(yōu)化作戰(zhàn)效能。這里考慮的作戰(zhàn)效能主要包括偵察任務(wù)完成度、毀傷任務(wù)完成度、時(shí)間效率以及己方損失。獎(jiǎng)勵(lì)的設(shè)計(jì)包含即時(shí)獎(jiǎng)勵(lì)和任務(wù)完成獎(jiǎng)勵(lì)。
任務(wù)執(zhí)行過程中的即時(shí)獎(jiǎng)勵(lì)為探索方向提供指導(dǎo)。即時(shí)獎(jiǎng)勵(lì)統(tǒng)一采用范圍縮放法進(jìn)行歸一化,如式(2),將獎(jiǎng)勵(lì)映射到[-1,1],避免不同類型獎(jiǎng)勵(lì)差異過大。
這里的即時(shí)獎(jiǎng)勵(lì)主要有3 個(gè),發(fā)現(xiàn)藍(lán)方目標(biāo)時(shí)給予正向獎(jiǎng)勵(lì)、無人機(jī)被擊落時(shí)給予懲罰獎(jiǎng)勵(lì),以及造成藍(lán)方目標(biāo)毀傷時(shí)給予正向獎(jiǎng)勵(lì)。
式中,rd、B,b(t)、wd分別為偵察獎(jiǎng)勵(lì)、藍(lán)方總數(shù)量、t時(shí)刻以前共識(shí)別目標(biāo)的數(shù)量和偵察獎(jiǎng)勵(lì)權(quán)重。
式中,ru、N、dn(t)、wu分別為無人機(jī)躲避獎(jiǎng)勵(lì)、紅方無人機(jī)總數(shù)量、t 時(shí)刻第n 架無人機(jī)的損傷程度和無人機(jī)躲避獎(jiǎng)勵(lì)權(quán)重。
式中,ra、M、Omax、om(t)、wa分別為打擊獎(jiǎng)勵(lì)、需要打擊目標(biāo)的總數(shù)量、目標(biāo)最大毀傷點(diǎn)、t 時(shí)刻打擊目標(biāo)m的毀傷點(diǎn)以及打擊獎(jiǎng)勵(lì)權(quán)重。
式中,rt、t、ts、tduration、wt分別為任務(wù)結(jié)束時(shí)間獎(jiǎng)勵(lì)、仿真當(dāng)前時(shí)間、仿真開始時(shí)間、仿真持續(xù)時(shí)間和任務(wù)結(jié)束時(shí)間獎(jiǎng)勵(lì)權(quán)重。
任務(wù)成功完成后給予較大額度的獎(jiǎng)勵(lì),保證智能體的行為向著主線任務(wù)完成的趨勢靠近。
式中,r 為所有即時(shí)獎(jiǎng)勵(lì)與任務(wù)完成獎(jiǎng)勵(lì)之和,其中re1和re2分別表示偵察任務(wù)和打擊任務(wù)完成時(shí)給予的獎(jiǎng)勵(lì)。
動(dòng)作空間的設(shè)計(jì)原則包含功能完備、高效性設(shè)計(jì)以及合法性設(shè)計(jì)。
本文設(shè)計(jì)了“指揮官模式”的智能體,通過該智能體下達(dá)命令使紅方作戰(zhàn)單元完成任務(wù)?,F(xiàn)實(shí)中指揮官在任務(wù)分配時(shí)需綜合考慮任務(wù)執(zhí)行者、動(dòng)作類型和作用對象等因素。為使上述智能體動(dòng)作空間具備現(xiàn)實(shí)指揮官的全部能力,同時(shí)使決策具有更好的可解釋性和表達(dá)復(fù)雜動(dòng)作的能力,本文將動(dòng)作輸出表示為自然語言結(jié)構(gòu),輸出設(shè)計(jì)采用主謂賓的形式,即執(zhí)行者、動(dòng)作類型和作用對象。這里執(zhí)行者是紅方無人機(jī),動(dòng)作類型分為偵察與打擊,當(dāng)動(dòng)作為偵察時(shí),作用對象為無人機(jī)所需偵察的經(jīng)緯度和移動(dòng)時(shí)的高度速度;當(dāng)動(dòng)作為打擊時(shí),作用對象為打擊目標(biāo),以及無人機(jī)釋放彈藥所需到達(dá)的經(jīng)緯度和投彈高度速度。其中,執(zhí)行者和打擊目標(biāo)屬于離散的動(dòng)作指令,而位置如經(jīng)緯高以及速度屬于連續(xù)的動(dòng)作指令。連續(xù)空間擬合難度大,過細(xì)的動(dòng)作粒度通常是冗余無必要的,文獻(xiàn)[9]表明離散化動(dòng)作空間以解決連續(xù)控制問題是一種簡單而強(qiáng)大的策略優(yōu)化技術(shù)。因此,將連續(xù)的動(dòng)作進(jìn)行離散化,同時(shí)選擇的離散化粒度需要平衡控制精度與解空間探索效率。
實(shí)戰(zhàn)任務(wù)是在一系列作戰(zhàn)規(guī)則約束下進(jìn)行的。本文采用作戰(zhàn)規(guī)則和深度強(qiáng)化學(xué)習(xí)相結(jié)合的決策方式。無人機(jī)在三維戰(zhàn)場空間的運(yùn)動(dòng)軌跡是在深度強(qiáng)化學(xué)習(xí)和規(guī)則兩者作用下生成。將三維經(jīng)緯高空間轉(zhuǎn)化為xyz 軸的三維空間,在研究中,深度強(qiáng)化學(xué)習(xí)決策無人機(jī)的動(dòng)作包括經(jīng)度、緯度、高度和速度大小,這些因素對作戰(zhàn)效能起到關(guān)鍵影響,而具體無人機(jī)的運(yùn)動(dòng)軌跡通常使用運(yùn)動(dòng)規(guī)劃技術(shù)實(shí)現(xiàn),并結(jié)合自帶的飛行控制器進(jìn)行跟蹤,這里運(yùn)動(dòng)規(guī)劃采用5 次多項(xiàng)式曲線插值,使得實(shí)際運(yùn)動(dòng)的速度和加速度平滑連續(xù),易于跟蹤。飛控使用常見的設(shè)定三維位置點(diǎn)和速度的控制接口。其中,x 軸分量的運(yùn)動(dòng)軌跡設(shè)為式(8),方程組(9)利用路徑點(diǎn)約束和最小二乘方法求解x 軸運(yùn)動(dòng)軌跡。
圖1 多項(xiàng)式求解運(yùn)動(dòng)軌跡示意圖Fig.1 Schematic diagram of polynomial solution for motion trajectory
圖2 運(yùn)動(dòng)軌跡xy 平面投影圖Fig.2 Planar projection of motion trajectory xy
無人機(jī)運(yùn)動(dòng)軌跡描述:當(dāng)無人機(jī)處于盤旋狀態(tài),接收到指揮官智能體的指令,首先在xy 平面繼續(xù)順時(shí)針盤旋,調(diào)整無人機(jī)朝向,計(jì)算起始位置與終點(diǎn)位置的盤旋圓在二維的公共切線,當(dāng)無人機(jī)朝向與切線方向一致,無人機(jī)沿切線方向進(jìn)入飛行狀態(tài),到達(dá)目標(biāo)位置后以智能體給定的速度大小進(jìn)行順時(shí)針盤旋。當(dāng)無人機(jī)正處于飛向某目標(biāo)點(diǎn)的狀態(tài)時(shí)接收到臨機(jī)指令,無人機(jī)以當(dāng)前速度轉(zhuǎn)為盤旋狀態(tài),然后按照無人機(jī)處于盤旋狀態(tài)的軌跡進(jìn)行變化。
另外,有些規(guī)則由仿真平臺(tái)交戰(zhàn)設(shè)置。圖3 中傳感器開關(guān)狀態(tài)由作戰(zhàn)電磁管控模塊負(fù)責(zé),作戰(zhàn)任務(wù)所需雷達(dá)一直處于開啟狀態(tài)。圖4 設(shè)置紅方對地目標(biāo)確認(rèn)為藍(lán)方目標(biāo)后,紅方無人機(jī)才能開火。
圖3 傳感器設(shè)置Fig.3 Setting of sensors
圖4 開火規(guī)則Fig.4 Firing rules
整體的策略網(wǎng)絡(luò)結(jié)構(gòu)如下頁圖5 所示。策略網(wǎng)絡(luò)結(jié)構(gòu)選用編碼器-時(shí)序聚合- 注意力機(jī)制- 解碼器結(jié)構(gòu)。策略網(wǎng)絡(luò)結(jié)構(gòu)中各模塊功能與整體工作流程如下:
圖5 策略網(wǎng)絡(luò)Fig.5 Strategy network
1)編碼器將狀態(tài)值進(jìn)行特征提取和降維轉(zhuǎn)換。其中,作戰(zhàn)單元序列特征通過全連接神經(jīng)網(wǎng)絡(luò)(FC)和池化層(pooling)來提取特征和除去冗余信息;全局一維信息如天氣信息、任務(wù)進(jìn)度等經(jīng)過全連接神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提??;空間特征如威脅分布經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)(ANN)進(jìn)行特征提取與選擇。然后使用拼接操作(concat)得到一個(gè)高維特征表示,從而更好地學(xué)習(xí)與融合任務(wù)環(huán)境與實(shí)體等多元特征;
2)時(shí)序聚合是通過將上述融合的高級(jí)特征輸入門控神經(jīng)網(wǎng)絡(luò)(GRU),挖掘長期依賴性,從而建模歷史信息對當(dāng)前作戰(zhàn)任務(wù)的影響;
3)執(zhí)行者和作用對象的獲取需要使用注意力機(jī)制(attention)模塊,動(dòng)態(tài)地分配注意力,使網(wǎng)絡(luò)注意力集中在重要性更高的信息上[10],從而選擇性地關(guān)注那些在當(dāng)前任務(wù)中更適合的無人機(jī)和當(dāng)前更適合的打擊目標(biāo)等;
4)解碼器將注意力機(jī)制的輸出表示和時(shí)序聚合產(chǎn)生的特征表示轉(zhuǎn)換回到動(dòng)作空間。注意力機(jī)制的輸出經(jīng)過激活函數(shù)(sigmoid)和概率采樣(sample)獲取執(zhí)行者(主語)和作用對象(賓語),時(shí)序聚合的輸出經(jīng)過全連接、激活函數(shù)和采樣得到?jīng)Q策的動(dòng)作類型(謂語)。
本次研究選用了深度強(qiáng)化學(xué)習(xí)中的近端策略優(yōu)化算法。PPO 在2017 年由SCHULMAN J 等提出,是一種基于策略梯度的強(qiáng)化學(xué)習(xí)算法,旨在解決深度強(qiáng)化學(xué)習(xí)中的穩(wěn)定性問題[11]。PPO 引入剪切系數(shù)可以確保策略更新不會(huì)過于劇烈,不會(huì)引起策略不穩(wěn)定,可以更好地適應(yīng)環(huán)境的變化,符合無人機(jī)集群由于行動(dòng)前不清楚藍(lán)方目標(biāo)的位置和類型而需要頻繁地調(diào)整策略。
值網(wǎng)絡(luò)損失函數(shù)用于優(yōu)化值網(wǎng)絡(luò)估計(jì)值與真實(shí)累積獎(jiǎng)勵(lì)之間的誤差。PPO 利用式(14)作為值網(wǎng)絡(luò)損失函數(shù)計(jì)算梯度,更新值網(wǎng)絡(luò)參數(shù),優(yōu)化值網(wǎng)絡(luò)的評(píng)價(jià)能力。
基于近端策略優(yōu)化算法的無人機(jī)集群執(zhí)行偵察打擊任務(wù)的決策算法,如算法1 所示。
算法1 無人機(jī)集群執(zhí)行偵察打擊任務(wù)的決策算法1)初始化新舊actor 網(wǎng)絡(luò)參數(shù)θπ、θπold,critic 網(wǎng)絡(luò)參數(shù)θQ 2)采樣部分將狀態(tài)信息輸入到新actor 網(wǎng)絡(luò)輸出action,采樣獲取一個(gè)action,輸入環(huán)境中獲取r 與下一個(gè)狀態(tài)s,以此循環(huán)存儲(chǔ)episode 3)訓(xùn)練部分①從存儲(chǔ)的樣本中獲取一個(gè)batchsize 大小的樣本量將每個(gè)樣本中的狀態(tài)s 輸入到critic 網(wǎng)絡(luò)中輸出v 值,計(jì)算優(yōu)勢函數(shù)如式(12)、式(13)②使用優(yōu)勢函數(shù)計(jì)算值網(wǎng)絡(luò)損失如式(14),通過反向傳播更新值網(wǎng)絡(luò)參數(shù)θQ③計(jì)算當(dāng)前策略與舊策略的比值如式(11)④計(jì)算策略網(wǎng)絡(luò)損失如式(10),反向傳播更新新actor網(wǎng)絡(luò)參數(shù)θπ,從而更新舊actor 網(wǎng)絡(luò)參數(shù)θπold,
實(shí)驗(yàn)場景中對抗主體為紅方無人機(jī)集群和藍(lán)方地面設(shè)施。其中,紅方共16 架無人機(jī),藍(lán)方有7種類型,共13 個(gè)地面設(shè)施。具體類型和數(shù)量如下頁表2 所示。其中,無人機(jī)速度范圍為0~300 km/h,調(diào)整高度范圍為0~8 km。其中,雷達(dá)察打無人機(jī)的偵察范圍為15 km,光電察打無人機(jī)的偵察范圍為10 km,無人機(jī)最大攻擊距離為5 km。藍(lán)方SAM 地空導(dǎo)彈的最大攻擊距離是10 km,復(fù)仇者防空導(dǎo)彈的最大攻擊距離為10 km。
表2 對抗雙方兵力情況Table 2 The forces situation of opposing sides
下頁圖6 是上帝視角下的作戰(zhàn)雙方兵力分布情況。雙方作戰(zhàn)的區(qū)域長約79 km,寬約88 km。區(qū)域內(nèi)環(huán)境因素考慮了平均氣溫、降水量、云量和風(fēng)力/海況。任務(wù)完成需要偵察到大于80%的藍(lán)方目標(biāo)數(shù)量,同時(shí)對特定目標(biāo)跑道1、跑道2 和航空汽油油箱場站進(jìn)行毀傷。
圖6 偵察打擊想定示意圖(上帝視角)Fig.6 Schematic diagram of reconnaissance and strike scenarios(god perspective)
本次仿真基于ubuntu 系統(tǒng)完成了仿真推演和智能體訓(xùn)練。仿真基礎(chǔ)條件設(shè)置:想定推演速度為1 s,即仿真推演時(shí)間與實(shí)際時(shí)間一致;每輪仿真訓(xùn)練時(shí)長上限為2 h;每輪訓(xùn)練以規(guī)定時(shí)間內(nèi)紅方完成任務(wù)或規(guī)定時(shí)間內(nèi)未完成任務(wù)或達(dá)到仿真上限時(shí)間3 種情況結(jié)束;仿真每50 s 進(jìn)行一步?jīng)Q策。網(wǎng)絡(luò)超參數(shù)設(shè)置:單次采樣樣本量batch_size=1 024,策略熵?fù)p失系數(shù)entropy_coef=0.1,學(xué)習(xí)率lr=2e-4,剪切系數(shù)ε 采用原PPO 論文建議的數(shù)值0.2[11],優(yōu)勢函數(shù)gae 的時(shí)間步長gae_ length=128。具體的仿真的運(yùn)行流程如圖7 所示。
圖7 仿真運(yùn)行流程圖Fig.7 Simulation running flow chart
首先從仿真環(huán)境加載預(yù)定義的想定場景,并從仿真環(huán)境中實(shí)時(shí)獲取數(shù)據(jù)。篩選狀態(tài)空間變量,構(gòu)建獎(jiǎng)勵(lì)函數(shù),優(yōu)化強(qiáng)化學(xué)習(xí)模型的參數(shù),使模型朝著紅方累積獎(jiǎng)勵(lì)最大化的方向優(yōu)化。模型包括一個(gè)用于輸出動(dòng)作的策略網(wǎng)絡(luò)(動(dòng)作輸出網(wǎng)絡(luò))和一個(gè)用于評(píng)估狀態(tài)值的價(jià)值網(wǎng)絡(luò)(動(dòng)作評(píng)價(jià)網(wǎng)絡(luò))。右虛線方框是智能體輸出與作戰(zhàn)規(guī)則結(jié)合的具體流程。方框中輸入量為智能體輸出的紅方無人機(jī)ID(主語)、打擊目標(biāo)ID(賓語)、任務(wù)類型(謂語)、經(jīng)緯高度(謂語)和速度(謂語)。中間過程是對主謂賓分配進(jìn)行作戰(zhàn)規(guī)則限制,其中,設(shè)置每個(gè)狀態(tài)結(jié)束后即飛到目的地,在沒有新的命令情況下,無人機(jī)進(jìn)入原地盤旋狀態(tài)等待。輸出量是DRL 與作戰(zhàn)規(guī)則結(jié)合的任務(wù)分配與運(yùn)動(dòng)規(guī)劃。
實(shí)驗(yàn)從算法設(shè)計(jì)的合理性和作戰(zhàn)任務(wù)指標(biāo)兩方面進(jìn)行分析。曲線圖的橫坐標(biāo)均是訓(xùn)練步數(shù)(learning step),縱坐標(biāo)是相應(yīng)的算法或任務(wù)監(jiān)控指標(biāo)。訓(xùn)練基于分布式架構(gòu),因此,算法類指標(biāo)曲線圖8~圖10 呈現(xiàn)多曲線,表示不同訓(xùn)練容器生成的趨勢;而作戰(zhàn)任務(wù)指標(biāo)呈現(xiàn)單曲線,是計(jì)算總體獲取的平均值,如圖11~圖14。
圖8 優(yōu)勢函數(shù)曲線Fig.8 Advantage function curve
4.2.1 算法設(shè)計(jì)合理性分析
圖8 是優(yōu)勢函數(shù)曲線,可以看出曲線整體呈現(xiàn)逐漸上升的趨勢,說明新策略比舊策略好。到訓(xùn)練后期,增加逐漸趨于緩慢,說明此時(shí)策略已經(jīng)相對穩(wěn)定。圖9 中可以看出,策略損失網(wǎng)絡(luò)隨訓(xùn)練進(jìn)行,逐漸維持在一個(gè)較小的范圍內(nèi),說明策略在逐步優(yōu)化并趨于穩(wěn)定。圖10 是值網(wǎng)絡(luò)損失函數(shù)曲線,該曲線用于衡量值函數(shù)估計(jì)與真實(shí)累積獎(jiǎng)勵(lì)之間的誤差。曲線呈現(xiàn)下降趨勢,損失函數(shù)的值逐漸減小,說明值函數(shù)估計(jì)逐漸逼近真實(shí)累積獎(jiǎng)勵(lì)。
圖9 策略損失函數(shù)曲線Fig.9 Strategy loss function curve
圖10 值網(wǎng)絡(luò)損失函數(shù)曲線Fig.10 Value network loss function curve
4.2.2 作戰(zhàn)任務(wù)指標(biāo)分析
從以下3 個(gè)指標(biāo)的曲線變化情況可知,隨著學(xué)習(xí)次數(shù)的持續(xù)增加,所訓(xùn)練模型在執(zhí)行任務(wù)時(shí)的指標(biāo)不斷得到優(yōu)化,最后保持穩(wěn)定。
圖11 是無人機(jī)集群執(zhí)行偵察打擊任務(wù)的總獎(jiǎng)勵(lì)曲線??偑?jiǎng)勵(lì)整體呈現(xiàn)上升趨勢,最后訓(xùn)練穩(wěn)定收斂。
圖11 總獎(jiǎng)勵(lì)函數(shù)曲線Fig.11 Total reward function curve
下頁圖12 是目標(biāo)數(shù)量曲線。起初發(fā)現(xiàn)的目標(biāo)數(shù)量大致為7,這是由于不具備反制行為的目標(biāo)總數(shù)量為7,容易被偵察到,而剩余地面設(shè)施均有反制能力,無人機(jī)接近后易被擊落,導(dǎo)致無人機(jī)不易偵察到目標(biāo)。從曲線中可以看出隨著訓(xùn)練的進(jìn)行,偵察到的數(shù)量從7 增加到11 左右,說明無人機(jī)的偵察能力有所提升。
圖12 目標(biāo)數(shù)量曲線Fig.12 Target quantity curve
圖13 是無人機(jī)損失數(shù)量曲線。曲線中無人機(jī)折損的初始數(shù)量為8,說明剛開始無人機(jī)面臨突發(fā)的威脅不具備自主躲避火力攻擊的能力。隨著訓(xùn)練的進(jìn)行,曲線呈現(xiàn)下降趨勢達(dá)到3,說明無人機(jī)學(xué)到了快速偵察并撤離的策略,在盡快完成目標(biāo)偵察后,通過調(diào)整速度、航向、高度等動(dòng)作空間中關(guān)鍵動(dòng)作立即撤離目標(biāo)區(qū)域,體現(xiàn)了運(yùn)動(dòng)規(guī)劃的智能性。
圖13 無人機(jī)損失數(shù)量曲線Fig.13 Loss quantity curve of UAVs
圖14 是目標(biāo)毀傷分?jǐn)?shù)。從曲線可以看出毀傷分?jǐn)?shù)從160 上升到260。經(jīng)過智能訓(xùn)練,在執(zhí)行毀傷任務(wù)時(shí),通過改變無人機(jī)打擊時(shí)的速度高度航向,目標(biāo)分配的合理性等關(guān)鍵影響因素,學(xué)習(xí)到了最大化毀傷的任務(wù)分配的智能性。
圖14 目標(biāo)毀傷分?jǐn)?shù)Fig.14 Target damage scores
仿真訓(xùn)練設(shè)定訓(xùn)練步數(shù)learning step 每增加200,生成用于本地計(jì)算機(jī)執(zhí)行的模型參數(shù)文本。仿真驗(yàn)證選用了learning step=1、1 000 和2 000 的訓(xùn)練模型,分別對三者仿真步長step=140。即仿真推演接近設(shè)定的作戰(zhàn)結(jié)束時(shí)間2 h 進(jìn)行了可視化界面展示,如圖15~圖17 所示。圖中每個(gè)作戰(zhàn)單元有對應(yīng)血量顯示,表現(xiàn)為單元附近的窄方塊。
圖15 Learning step=1Fig.15 Learning step=1
圖15 中紅方無人機(jī)偵察到藍(lán)方6 個(gè)目標(biāo),重度毀傷了跑道1(血量顏色為紅色),此時(shí)紅方剩余3 架無人機(jī);圖16 中偵察到藍(lán)方7 個(gè)目標(biāo),重度毀傷了跑道1,輕度毀傷了跑道2(血量顏色為黃色),無人機(jī)剩余9 架;圖17 中紅方無人機(jī)偵察到藍(lán)方11 個(gè)目標(biāo),一架無人機(jī)正對藍(lán)方航空汽油油箱場站進(jìn)行完全摧毀,重度毀傷了跑道1,中度毀傷了跑道2(血量顏色為橙色),自身剩余無人機(jī)10 架。
圖16 Learning step=1 000Fig.16 Learning step=1 000
圖17 Learning step=2 000Fig.17 Learning step=2 000
通過上述可視化界面可知,藍(lán)方兵力部署具有對抗性。初始階段的訓(xùn)練模型,紅方無人機(jī)偵察藍(lán)方目標(biāo)數(shù)量少,且自身損毀數(shù)量多;后期穩(wěn)定階段的訓(xùn)練模型,紅方無人機(jī)不但可以躲避藍(lán)方的防空火力,而且可以偵察到較多數(shù)量的目標(biāo),并對目標(biāo)的毀傷也大幅提高。由此可見,基于近端策略優(yōu)化算法和規(guī)則的決策模型在無人機(jī)集群偵察場景中具有一定有效性。
本文針對復(fù)雜不確定條件下構(gòu)建的無人機(jī)集群典型偵察打擊任務(wù)想定,通過設(shè)計(jì)狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù)和策略網(wǎng)絡(luò),搭建了基于PPO 的深度強(qiáng)化學(xué)習(xí)框架。通過仿真實(shí)驗(yàn)結(jié)果表明,實(shí)現(xiàn)了察打任務(wù)的作戰(zhàn)效能最優(yōu),體現(xiàn)了無人機(jī)集群運(yùn)動(dòng)規(guī)劃和任務(wù)分配的智能性。該方法可為復(fù)雜不確定條件下大規(guī)模無人集群決策提供技術(shù)借鑒,同時(shí)該方法可以進(jìn)一步豐富和接入更專業(yè)的武器裝備參數(shù)和數(shù)據(jù),對實(shí)戰(zhàn)化環(huán)境中的無人機(jī)集群察打指揮決策具有重要意義。