国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進DDPG的空戰(zhàn)行為決策方法

2022-02-25 05:09殷宇維胡劍秋
指揮控制與仿真 2022年1期
關(guān)鍵詞:空戰(zhàn)框架決策

殷宇維,王 凡,吳 奎,胡劍秋

(江蘇自動化研究所,江蘇 連云港 222061)

空戰(zhàn)行為決策是指我機根據(jù)戰(zhàn)場實時態(tài)勢采取行為策略以對敵方構(gòu)成作戰(zhàn)威脅、實施有效打擊。在戰(zhàn)機性能快速提升,空戰(zhàn)對抗異常激烈的現(xiàn)代戰(zhàn)場環(huán)境中,飛行員很難根據(jù)急劇變化和充滿不確定性的戰(zhàn)場態(tài)勢進行快速有效的自主決策。因此,研究能根據(jù)戰(zhàn)場實時態(tài)勢進行智能決策的空戰(zhàn)行為決策方法具有重大意義。

目前,空戰(zhàn)決策方法主要分為數(shù)學(xué)推算、機器搜索和數(shù)據(jù)驅(qū)動三類。第一類基于數(shù)學(xué)推算的決策方法主要有微分對策法、最優(yōu)控制等,雖然該方法具有可解釋性強的優(yōu)點,但其需要嚴謹?shù)臄?shù)學(xué)邏輯證明,且僅能對追逐、規(guī)避這類簡單的空戰(zhàn)形式進行有效建模,因此,在實際工程中實現(xiàn)困難,適用范圍有限。第二類基于機器搜索的決策方法主要有影響圖、蒙特卡洛搜索、決策樹和近似動態(tài)規(guī)劃等。這些方法主要邏輯為根據(jù)設(shè)計的態(tài)勢評估函數(shù)對當前戰(zhàn)場態(tài)勢進行評估,然后,使用優(yōu)化算法對最優(yōu)策略進行搜索,但是這類方法存在的問題是:空戰(zhàn)戰(zhàn)場態(tài)勢復(fù)雜,存在大量不確定性因素,態(tài)勢評估函數(shù)設(shè)計困難,與此同時,空戰(zhàn)節(jié)奏快,低效率的優(yōu)化算法搜索難以滿足根據(jù)實時態(tài)勢進行快速決策的需求。第三類基于數(shù)據(jù)驅(qū)動的決策方法與機器搜索無本質(zhì)上的區(qū)別,例如文獻[12],雖然提到了強化學(xué)習(xí)的概念,但實質(zhì)上僅利用神經(jīng)網(wǎng)絡(luò)的預(yù)測能力,為最優(yōu)策略的搜索提供啟發(fā)式經(jīng)驗。

與上述方法相比,深度強化學(xué)習(xí)方法能夠基于深度神經(jīng)網(wǎng)絡(luò)實現(xiàn)從感知到?jīng)Q策控制的端到端自學(xué)習(xí),在具有高度復(fù)雜性和不確定性的空戰(zhàn)環(huán)境中能根據(jù)實時更新的戰(zhàn)場態(tài)勢進行行為決策。與上述方法相比,其不需要構(gòu)建復(fù)雜的模型,且泛化能力更強。但采用深度強化學(xué)習(xí)的決策方法對獎勵函數(shù)的設(shè)計十分敏感,而現(xiàn)有的獎勵函數(shù)設(shè)計存在獎勵信號過于稀疏,造成算法收斂緩慢甚至無法收斂,以及只適用于靜態(tài)目標等問題。這種情況下也可采用專家系統(tǒng)來引導(dǎo)強化學(xué)習(xí)算法進行有效探索學(xué)習(xí),但在充滿隨機性、對抗激烈的戰(zhàn)場上,如何正確對戰(zhàn)術(shù)動作進行抉擇,是對專家系統(tǒng)的極大挑戰(zhàn);而且戰(zhàn)場態(tài)勢變化極其劇烈且復(fù)雜,沒有重復(fù)的制勝法則,如果貿(mào)然引入專家干預(yù),可能會導(dǎo)致算法越學(xué)越壞甚至無法收斂。

本文提出一種基于改進DDPG(Deep Deterministic Policy Gradient)的空戰(zhàn)行為決策框架,在框架中設(shè)計一種針對動態(tài)目標的嵌入式人工經(jīng)驗獎勵機制以解決上述獎勵函數(shù)設(shè)置稀疏導(dǎo)致的收斂問題;同時針對現(xiàn)有的DDPG算法框架中Critic網(wǎng)絡(luò)未得到充分訓(xùn)練,就急于更新Actor網(wǎng)絡(luò)導(dǎo)致訓(xùn)練不穩(wěn)定這一問題提出改進;并在框架中采用優(yōu)先采樣機制提高訓(xùn)練價值高的經(jīng)驗樣本的利用率。最后通過實驗驗證了本文提出決策框架的有效性和優(yōu)越性。

1 空戰(zhàn)行為決策框架設(shè)計

1.1 總體框架設(shè)計

圖1所示為基于改進DDPG的空戰(zhàn)行為決策框架,整個框架包括態(tài)勢信息處理模塊、深度強化學(xué)習(xí)模塊、經(jīng)驗存儲模塊、策略解碼模塊。

圖1 基于改進DDPG算法的空戰(zhàn)行為決策框架

決策框架流程如下:首先,框架中的態(tài)勢信息處理模塊將從戰(zhàn)場環(huán)境中獲取的態(tài)勢信息數(shù)據(jù)進行歸一化處理,將其作為智能體的狀態(tài)送入深度強化學(xué)習(xí)模塊;然后,深度強化學(xué)習(xí)模塊中DDPG算法的策略網(wǎng)絡(luò)根據(jù)狀態(tài)輸出策略;接著,策略解碼模塊根據(jù)其輸出的策略添加噪聲得到動作并執(zhí)行;同時將狀態(tài)、執(zhí)行的動作、獲得的獎勵以及執(zhí)行動作后的狀態(tài)存入經(jīng)驗存儲模塊??蚣苡?xùn)練時,依據(jù)優(yōu)先采樣機制從經(jīng)驗池中進行采樣,將其送入DDPG算法框架對策略網(wǎng)絡(luò)進行更新,同時采用軟更新的方式對目標網(wǎng)絡(luò)進行更新。

1.2 DDPG算法模型

DDPG算法是一種基于執(zhí)行者-評論者(Actor-Critic,AC)框架的深度強化學(xué)習(xí)算法。AC框架的原理是利用Actor網(wǎng)絡(luò)輸出策略得到動作并執(zhí)行,獲得獎勵計算回報得到狀態(tài)的值,并以值得到目標函數(shù)用于Critic網(wǎng)絡(luò)的訓(xùn)練,不斷提高其對值評估的準確性,然后用Critic網(wǎng)絡(luò)的輸出代替總回報,計算策略梯度以更新Actor策略網(wǎng)絡(luò),由此不斷改進策略。

本文采用的DDPG算法模型結(jié)構(gòu)如圖2所示,其采用策略-目標雙網(wǎng)絡(luò)結(jié)構(gòu)以緩解自舉和過估計的影響。模型中分別使用參數(shù)為的Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)來輸出確定性策略=π(|)和動作價值函數(shù)(,|)。其中,Actor網(wǎng)絡(luò)根據(jù)當前狀態(tài),直接輸出智能體采取的策略,而Critic網(wǎng)絡(luò)用于對智能體當前策略進行評估,得到(,|)。

圖2 深度確定性策略梯度算法模型示意圖

在得到AC網(wǎng)絡(luò)的輸入輸出后,需依據(jù)損失函數(shù)對這兩個網(wǎng)絡(luò)的權(quán)值進行更新,DDPG的損失函數(shù)與DQN類似,其輸入來源于Critic網(wǎng)絡(luò)輸出的值,其損失函數(shù)為

=(-(,|))

(1)

(2)

式(2)中,是目標網(wǎng)絡(luò)中的Critic網(wǎng)絡(luò)的參數(shù),是目標網(wǎng)絡(luò)中的Actor網(wǎng)絡(luò)參數(shù),而′表示目標網(wǎng)絡(luò)中的Actor網(wǎng)絡(luò)對狀態(tài)+1下對動作的預(yù)測。

策略網(wǎng)絡(luò)中Critic網(wǎng)絡(luò)和Actor網(wǎng)絡(luò)的更新則依據(jù)于損失函數(shù)的梯度,公式如(3)所示:

(3)

目標網(wǎng)絡(luò)的更新則采用軟更新方式,如公式(4)所示,即每隔一段時間保留一部分微小量的同時疊加復(fù)制策略網(wǎng)絡(luò)的參數(shù)。

(4)

1.3 Actor-Critic框架中網(wǎng)絡(luò)結(jié)構(gòu)

本文AC框架中Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)的結(jié)構(gòu)如圖3所示,其中,上半部分為Actor網(wǎng)絡(luò),下半部分為Critic網(wǎng)絡(luò)。

圖3 AC框架中Actor和Critic網(wǎng)絡(luò)結(jié)構(gòu)

Actor網(wǎng)絡(luò)的輸入狀態(tài)為1和2,分別包含全局位置態(tài)勢信息和戰(zhàn)機自身狀態(tài)信息。全局位置態(tài)勢信息為前五個采樣時刻雷達觀測到的敵我雙方智能體的位置場景;局部狀態(tài)信息則主要為當前采樣時刻戰(zhàn)機朝向、航速、遠近程導(dǎo)彈的剩余量、敵方戰(zhàn)機經(jīng)緯度等具體的戰(zhàn)機自身狀態(tài)信息。通過卷積神經(jīng)網(wǎng)絡(luò)可對獲取的位置場景進行特征提取,再與通過全連接層的戰(zhàn)機自身狀態(tài)信息進行拼接,作為送入Actor網(wǎng)絡(luò)的狀態(tài)。Actor網(wǎng)絡(luò)的輸出為該網(wǎng)絡(luò)根據(jù)當前狀態(tài)得到的確定性策略。

Critic網(wǎng)絡(luò)的輸入與Actor網(wǎng)絡(luò)相比,增加了Actor網(wǎng)絡(luò)輸出的策略,輸出則為Critic網(wǎng)絡(luò)對該策略的評估,即值。

1.4 Actor網(wǎng)絡(luò)延遲更新機制

根據(jù)DDPG算法模型可知,模型中 Actor網(wǎng)絡(luò)的更新依據(jù)是Critic網(wǎng)絡(luò)輸出的值;但如果Critic網(wǎng)絡(luò)未得到一定的訓(xùn)練,評估效果差時,其輸出的值具有很大的不可靠性,此時更新Actor網(wǎng)絡(luò),非但不能對其改進,反而會造成輸出策略不穩(wěn)定,影響到 Critic網(wǎng)絡(luò)的訓(xùn)練。

因此,可延遲Actor網(wǎng)絡(luò)的更新,即每次訓(xùn)練時都對Critic網(wǎng)絡(luò)進行更新,但每隔輪才會對Actor網(wǎng)絡(luò)更新一次,此處的為超參數(shù),在實驗中進行調(diào)整。

1.5 基于動態(tài)目標的人工經(jīng)驗獎勵機制

強化學(xué)習(xí)算法的訓(xùn)練對獎勵函數(shù)的設(shè)置極其敏感,在本文的空戰(zhàn)環(huán)境中,如果基于傳統(tǒng)的獎勵函數(shù),智能體只有達到特定的狀態(tài)(例如戰(zhàn)機擊毀敵方和被敵方擊毀)才能得到獎勵,這種狀態(tài)空間巨大、獎勵過于稀疏的情況會導(dǎo)致算法收斂緩慢甚至完全無法收斂的情況。

為解決這一問題,可引進人工經(jīng)驗對獎勵函數(shù)進行改進,即當智能體向目標靠近時,會收到除傳統(tǒng)獎勵之外的額外獎勵項。

=-

(5)

其中,表示前一時刻智能體與目標的距離,則表示當前時刻智能體與目標的距離。

但本文實驗通過實驗發(fā)現(xiàn)上述獎勵函數(shù)的設(shè)置并不適合動態(tài)目標,已知額外獎勵項與智能體和目標間的距離變化有關(guān),當目標為動態(tài)時,兩者間的距離變化不僅與智能體采取的動作相關(guān),動態(tài)目標的位置變化也會對其產(chǎn)生影響;這種情況下,即使智能體采取了遠離目標的動作,其仍有可能獲得正的額外獎勵項,這顯然與獎勵函數(shù)的設(shè)置應(yīng)引導(dǎo)智能體選擇恰當?shù)膭幼鬟@一原則相悖。

圖4 基于動態(tài)目標的人工經(jīng)驗引導(dǎo)獎勵設(shè)置

(6)

經(jīng)過改進后的獎勵函數(shù)為:

=(1-)*+*

(7)

=*0995

(8)

將獎勵函數(shù)改進后,訓(xùn)練初期獲得的獎勵主要為額外獎勵,即引導(dǎo)戰(zhàn)機主動追尋敵機,而隨著訓(xùn)練迭代次數(shù)的疊加,傳統(tǒng)獎勵開始占據(jù)主導(dǎo),此時主要探索戰(zhàn)機的空戰(zhàn)行為策略。這種嵌入人工經(jīng)驗引導(dǎo)的額外獎勵機制可使原本稀疏的獎勵變得稠密,以達到加快算法收斂的目的。

1.6 優(yōu)先采樣機制

強化學(xué)習(xí)算法一般通過設(shè)置經(jīng)驗池,隨機均勻采樣的方法消除樣本的數(shù)據(jù)關(guān)聯(lián)性。但是訓(xùn)練過程中存入經(jīng)驗池中的絕大多數(shù)都是訓(xùn)練價值很低的經(jīng)驗樣本,而價值高的經(jīng)驗樣本卻占比很小;這種情況下,采用隨機均勻采樣會使得價值高的經(jīng)驗樣本沒有被高效利用。因此,應(yīng)設(shè)置一種優(yōu)先采樣的機制,確保價值高的經(jīng)驗樣本會被優(yōu)先采樣。

本文中首先定義經(jīng)驗樣本價值高低的衡量標準,已知強化學(xué)習(xí)算法中網(wǎng)絡(luò)訓(xùn)練的目標為降低損失函數(shù)的值,因此,損失函數(shù)的值越大,對網(wǎng)絡(luò)的訓(xùn)練所起作用就越大。而損失函數(shù)一般是Td-error的均方。因此可依據(jù)經(jīng)驗樣本的Td-error絕對值大小進行排序,并據(jù)此采樣。公式如下:

(9)

其中,表示樣本總個數(shù),表示第個經(jīng)驗樣本在所有樣本中排序的位數(shù),則該經(jīng)驗樣本被采樣到的概率為其倒數(shù)除以所有樣本位數(shù)倒數(shù)之和,即Td-error絕對值越大,其在所有經(jīng)驗樣本中排序就越靠前,被采樣的概率越大。

1.7 算法決策框架流程

參數(shù)輸入:狀態(tài)空間S,動作空間A,折扣率γ,學(xué)習(xí)率α,目標網(wǎng)絡(luò)更新軟參數(shù)τ初始化經(jīng)驗池和經(jīng)驗池大小初始化策略Critic網(wǎng)絡(luò)參數(shù)θQ和策略Actor網(wǎng)絡(luò)參數(shù)θμ初始化目標Critic網(wǎng)絡(luò)參數(shù)θQ→θQ'和目標Actor網(wǎng)絡(luò)參數(shù)θμ→θμ'

repeat:起始狀態(tài)S0repeat: 處于狀態(tài)St時,依據(jù)策略Actor網(wǎng)絡(luò)輸出選擇動作at=π(st| θμ)+Nt(添加噪聲,鼓勵探索)戰(zhàn)機執(zhí)行動作at,與環(huán)境交互,得到獎勵Rt+1以及新的狀態(tài)St+1計算St,at,Rt+1,St+1的TD誤差大小,按大小排序存入經(jīng)驗池D中依據(jù)經(jīng)驗排序從經(jīng)驗池中進行優(yōu)先抽樣得到S,a,R,S'依據(jù)目標Q網(wǎng)絡(luò)得到更新目標:yt=rt st+1=s終止rt+γQ'(st+1,μ'(st+1| θμ')|θQ') st+1≠s終止 損失函數(shù)為L=1N∑i(yt-Q(st,at| θQ))2以損失函數(shù)對策略Q網(wǎng)絡(luò)進行更新策略Q網(wǎng)絡(luò)每更新k次,策略Actor網(wǎng)絡(luò)更新一次狀態(tài)轉(zhuǎn)移St+1→St對目標AC網(wǎng)絡(luò)的參數(shù)進行軟更新:θQ'=τθQ+(1-τ)θQ'θμ'=τθμ+(1-τ)θμ' 當St+1為終止狀態(tài)時,跳出循環(huán)訓(xùn)練結(jié)束,退出循環(huán)

2 仿真實驗結(jié)果

2.1 實驗仿真環(huán)境

本文的實驗環(huán)境基于中電集團開發(fā)的MaCA平臺,實驗想定如圖5所示,紅藍雙方各一架配置相同的戰(zhàn)機,想定范圍為1000 km*1 000 km的區(qū)域。

圖5 實驗仿真場景設(shè)定示意圖

2.2 模型構(gòu)建

根據(jù)前文所述的改進DDPG算法構(gòu)建強化學(xué)習(xí)智能體,并對智能體的狀態(tài)、動作和獎勵函數(shù)進行設(shè)計,同時在實驗中調(diào)整超參數(shù)。

戰(zhàn)機狀態(tài)信息主要為根據(jù)雷達觀測構(gòu)建的全局位置態(tài)勢以及朝向、航速、遠近程導(dǎo)彈的剩余量等這類戰(zhàn)機自身狀態(tài)信息。

戰(zhàn)機動作信息則主要為戰(zhàn)機航向、雷達開關(guān)及頻點、干擾設(shè)備及頻點、遠近程導(dǎo)彈發(fā)射。

獎勵函數(shù)則按照上節(jié)中所述方法進行設(shè)計。 而實驗中超參數(shù)的設(shè)置見表1。

表1 超參數(shù)設(shè)置

2.3 實驗結(jié)果分析

為檢驗本文提出的基于改進DDPG的空戰(zhàn)行為決策框架(Air Combat Behavior Decision-making Framework on Improve DDPG,ACBDF_DDPG)的有效性和優(yōu)越性,同時為分別研究算法框架中優(yōu)先采樣、Actor網(wǎng)絡(luò)延遲更新和基于動態(tài)目標的嵌入式人工經(jīng)驗獎勵這些改進機制對算法實驗效果的影響,在ACBDF_DDPG框架基礎(chǔ)上減去這些改進機制進行消融對比實驗。消融實驗的設(shè)置如表2所示。

表2 消融對比實驗設(shè)置

消融對比實驗的結(jié)果和性能對比圖分別如表3和圖6所示,可以看出,隨著訓(xùn)練次數(shù)的增加,ACBDF_DDPG模型的勝率逐漸上升,大約在6500輪開始收斂,收斂后勝率穩(wěn)定在83.1%左右。

圖6 消融實驗性能對比圖

表3 消融對比實驗結(jié)果數(shù)據(jù)

同時,從結(jié)果可以看出框架中的三種改進機制對于模型的實驗性能均有一定的提升,但由于作用機制存在差異,提升程度并不相同。例如,優(yōu)先采樣機制對于模型的收斂速度和收斂后的性能提升就比較小,剔除優(yōu)先采樣機制的ACBDF_DDPG _A模型大約在7000輪開始收斂,穩(wěn)定后勝率保持在81.3%左右,其與ACBDF_DDPG模型相比差距并不大。而Actor延遲更新機制和嵌入式人工經(jīng)驗獎勵機制的采用均很大程度上提升了算法框架收斂穩(wěn)定性和實驗性能。其中,嵌入式人工經(jīng)驗獎勵機制的提升效果最為明顯,其作用在于初期能對框架模型進行一定的引導(dǎo),減少由于傳統(tǒng)獎勵稀疏造成的盲目性,如此不僅大大提升了算法框架的收斂速度,也給收斂后算法框架性能帶來顯著提升——由實驗結(jié)果可知當剔除該機制時,ACBDF_DDPG _C模型直到13 600輪才開始收斂,而且收斂后的勝率僅維持在57.0%左右。Actor延遲更新機制的改進主要在于多次更新Critic網(wǎng)絡(luò),使其評估效果較好后再更新Actor網(wǎng)絡(luò);通過實驗結(jié)果對比可知,未采用該機制的ACBDF_DDPG_B模型在訓(xùn)練中尤其是訓(xùn)練初期,穩(wěn)定性較差,性能曲線出現(xiàn)了大幅震蕩,而且收斂速度變慢,大約在11 300輪才開始收斂,收斂后的勝率穩(wěn)定在72.1%,與ACBDF_DDPG模型的結(jié)果83.1%相比也存在一定的差距。

3 結(jié)束語

針對空戰(zhàn)行為決策這一背景,本文主要提出了一種基于改進DDPG算法的空戰(zhàn)行為決策框架。在框架設(shè)計的過程中分析了現(xiàn)有獎勵函數(shù)設(shè)置稀疏會導(dǎo)致算法收斂慢甚至不收斂,針對這一問題在框架中增加了嵌入式人工經(jīng)驗獎勵機制,同時對其只適用于靜態(tài)目標這一缺點進行改進;另外,在框架中采用Actor網(wǎng)絡(luò)延遲更新機制以緩解現(xiàn)有DDPG算法模型中AC網(wǎng)絡(luò)更新方式導(dǎo)致的訓(xùn)練不穩(wěn)定和算法模型性能較差等問題;最后,在框架中采用優(yōu)先采樣機制確保訓(xùn)練過程中訓(xùn)練價值高的經(jīng)驗樣本得到充分利用。最后,在仿真實驗平臺上開展仿真實驗對比,驗證了本文提出算法框架的有效性和優(yōu)越性。

猜你喜歡
空戰(zhàn)框架決策
1937年筧橋空戰(zhàn)戰(zhàn)果之謎
框架
未來空戰(zhàn)怎么打
做決策也有最佳時間段
淺談框架網(wǎng)頁的學(xué)習(xí)
決策大數(shù)據(jù)
諸葛亮隆中決策
基于Jmeter對Node框架性能的測試研究
第三帝國的興亡之六 大不列顛空戰(zhàn)(下)
《管理就是決策:第一次就把決策做對》
巴彦县| 崇明县| 上虞市| 安远县| 宁城县| 灵石县| 社旗县| 女性| 韶关市| 安达市| 中超| 闽侯县| 融水| 龙胜| 玛纳斯县| 锦州市| 都江堰市| 宁夏| 错那县| 阿瓦提县| 喀喇沁旗| 扎赉特旗| 五家渠市| 潞城市| 轮台县| 阿瓦提县| 乐昌市| 和顺县| 六盘水市| 弋阳县| 腾冲县| 鸡西市| 牟定县| 尤溪县| 曲水县| 文水县| 元阳县| 阜城县| 克拉玛依市| 牡丹江市| 宿松县|