国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度強(qiáng)化學(xué)習(xí)的干擾資源分配方法

2023-12-08 06:06:48李健濤王軻昕張?zhí)熨t
現(xiàn)代雷達(dá) 2023年10期
關(guān)鍵詞:干擾機(jī)資源分配波束

李健濤,王軻昕,劉 凱,張?zhí)熨t

(電子科技大學(xué) 信息與通信工程學(xué)院, 四川 成都 611731)

0 引 言

在突防場(chǎng)景中,組網(wǎng)雷達(dá)系統(tǒng)通過(guò)數(shù)據(jù)融合和信息融合等協(xié)同處理方法極大的提高了作戰(zhàn)性能,對(duì)我方突防編隊(duì)產(chǎn)生了巨大的威脅[1-2]。伴隨干擾機(jī)群通常被用于對(duì)抗敵方組網(wǎng)雷達(dá)系統(tǒng),使其無(wú)法準(zhǔn)確地探測(cè)目標(biāo),從而掩護(hù)我方突防飛機(jī)完成既定任務(wù)[3-4]。在日益復(fù)雜的電磁環(huán)境中,如何合理地分配干擾資源,以達(dá)到對(duì)組網(wǎng)雷達(dá)最大的干擾效能,是近年來(lái)國(guó)內(nèi)外學(xué)者研究的熱點(diǎn)問(wèn)題。

目前,突防場(chǎng)景下干擾資源分配問(wèn)題被廣泛研究。文獻(xiàn)[5]綜合考慮突防飛機(jī)在整個(gè)突防過(guò)程中位置變化時(shí)的干擾效益,利用概率加權(quán)法建立目標(biāo)函數(shù),并采用蟻群算法求解出干擾資源分配策略。文獻(xiàn)[6]研究了不同干擾樣式在不同恒虛警檢測(cè)器中的干擾效果差異,提出了一種基于二維整數(shù)編碼的改進(jìn)布谷鳥(niǎo)(ICS)算法來(lái)提高收斂速度和尋優(yōu)能力。文獻(xiàn)[7]考慮到組網(wǎng)雷達(dá)系統(tǒng)工作參數(shù)不確定性帶來(lái)的檢測(cè)概率誤差,建立了干擾資源穩(wěn)健優(yōu)化分配模型,并利用粒子群(PSO)算法對(duì)模型進(jìn)行求解。然而,這些研究采用的算法仍基于傳統(tǒng)群智能算法,都采用逐幀優(yōu)化的方法,運(yùn)行效率低且穩(wěn)定性較差。

深度強(qiáng)化學(xué)習(xí)(DRL)是機(jī)器學(xué)習(xí)的一個(gè)分支,其利用智能體與環(huán)境交互過(guò)程中的經(jīng)驗(yàn)來(lái)學(xué)習(xí)使回報(bào)最大化的策略,為復(fù)雜系統(tǒng)的感知決策問(wèn)題提供了一種有效的解決方案。近年來(lái),深度強(qiáng)化學(xué)習(xí)被廣泛應(yīng)用于各種熱門(mén)領(lǐng)域中,如自動(dòng)駕駛、游戲AI、機(jī)器人控制等。2014年起,谷歌DeepMind團(tuán)隊(duì)將深度強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用于Atari游戲中,經(jīng)過(guò)訓(xùn)練的游戲AI超越了人類玩家的最高水平[8]。深度強(qiáng)化學(xué)習(xí)也被應(yīng)用于自然語(yǔ)言處理中,極大地提高了其語(yǔ)義關(guān)聯(lián)、邏輯推理和句式生成等能力[9]。因此,將深度強(qiáng)化學(xué)習(xí)技術(shù)基于到干擾資源分配問(wèn)題中是一個(gè)值得研究的方向。

本文提出了一個(gè)基于深度強(qiáng)化學(xué)習(xí)的干擾資源分配方法。首先,建立一個(gè)突防場(chǎng)景下的干擾資源分配模型;其次,將干擾資源分配模型描述為一個(gè)馬爾可夫決策過(guò)程,設(shè)計(jì)相應(yīng)的狀態(tài)空間、動(dòng)作空間和回報(bào)函數(shù);最后,針對(duì)模型在多維約束情況下難以求解的問(wèn)題,提出了基于動(dòng)作密鑰編碼的雙延遲深度確定性策略梯度網(wǎng)絡(luò)訓(xùn)練算法,將混合整數(shù)優(yōu)化問(wèn)題轉(zhuǎn)化為連續(xù)變量?jī)?yōu)化問(wèn)題。仿真結(jié)果表明,本文所提的干擾資源分配方法能夠?qū)M網(wǎng)雷達(dá)實(shí)施有效的干擾,且具備出色的穩(wěn)定性。

1 系統(tǒng)模型

1.1 突防場(chǎng)景模型

在突防組網(wǎng)雷達(dá)場(chǎng)景中,干擾機(jī)群在突防飛機(jī)周圍伴隨飛行并對(duì)組網(wǎng)雷達(dá)進(jìn)行聯(lián)合壓制干擾,使組網(wǎng)雷達(dá)探測(cè)性能下降,進(jìn)而掩護(hù)我方突防飛機(jī)完成突防打擊任務(wù),如圖1所示。突防編隊(duì)由W個(gè)突防飛機(jī)和M個(gè)干擾機(jī)組成,組網(wǎng)雷達(dá)系統(tǒng)由N個(gè)雷達(dá)組成。

圖1 突防組網(wǎng)雷達(dá)場(chǎng)景示意圖Fig.1 Schematic diagram of penetration netted radar

1.2 干擾資源分配模型

假設(shè)干擾機(jī)可以發(fā)射多個(gè)干擾波束,每個(gè)波束只能夠干擾一部雷達(dá),并且所有雷達(dá)都可以受到多個(gè)干擾波束的干擾。定義干擾機(jī)群在第k時(shí)刻的波束分配矩陣為

(1)

(2)

且每架干擾機(jī)最多產(chǎn)生L個(gè)波束,即

(3)

在本文的干擾模型中,每個(gè)干擾波束的發(fā)射功率是可控的,定義干擾機(jī)群在第k時(shí)刻的干擾功率分配矩陣為

(4)

(5)

1.3 雷達(dá)探測(cè)模型

雷達(dá)通過(guò)發(fā)射脈沖信號(hào)和接收目標(biāo)回波信號(hào)來(lái)探測(cè)我方突防飛機(jī),假設(shè)每個(gè)雷達(dá)的發(fā)射功率、天線增益、載頻等工作參數(shù)相同,則雷達(dá)n接收到突防飛機(jī)w的回波信號(hào)功率為

(6)

在干擾機(jī)群發(fā)射壓制干擾信號(hào)時(shí),雷達(dá)n接收到干擾機(jī)m的干擾信號(hào)功率為

(7)

圖2 突防飛機(jī)、干擾和雷達(dá)相對(duì)空間位置Fig.2 Relative geometry position of the surprise aircraft, jammer and radar

(8)

式中:θ3 dB為雷達(dá)的3 dB波束寬度;常數(shù)α為天線增益系數(shù)。

1.4 協(xié)同干擾組網(wǎng)雷達(dá)檢測(cè)概率模型

本文采用組網(wǎng)雷達(dá)對(duì)多目標(biāo)的聯(lián)合檢測(cè)概率作為協(xié)同干擾的效能指標(biāo),假設(shè)組網(wǎng)雷達(dá)的部分工作參數(shù)、工作模式被我方電子偵察系統(tǒng)提前獲取。

首先考慮組網(wǎng)雷達(dá)n探測(cè)突防飛機(jī)w時(shí)受到壓制干擾,其接收機(jī)的信干噪比為

(9)

(10)

根據(jù)Swerling Ⅰ檢測(cè)模型[10-11],雷達(dá)單脈沖檢測(cè)概率可以表示為

(11)

式中:y0為檢測(cè)門(mén)限。

組網(wǎng)雷達(dá)一般通過(guò)數(shù)據(jù)融合和信息融合的方法對(duì)目標(biāo)進(jìn)行聯(lián)合探測(cè),本文考慮組網(wǎng)雷達(dá)檢測(cè)概率采用秩K準(zhǔn)則進(jìn)行融合。假設(shè)雷達(dá)n的局部判決為dn∈{0,1},其中dn=1或dn=0表示是否發(fā)現(xiàn)目標(biāo)。融合中心根據(jù)這些局部判決產(chǎn)生全局判決向量D=[d1,d2,…,dN],有2N個(gè)組合。定義全局判決規(guī)則R(D),組網(wǎng)雷達(dá)中有K部及以上雷達(dá)檢測(cè)到目標(biāo),那么判定為發(fā)現(xiàn)目標(biāo),否則判定未發(fā)現(xiàn)目標(biāo),即

(12)

根據(jù)秩K準(zhǔn)則得到的第k時(shí)刻組網(wǎng)雷達(dá)對(duì)突防飛機(jī)w的檢測(cè)概率為[12]

(13)

式中:S0表示全局判決向量Di(i=1,2,…,2N)中判決為未發(fā)現(xiàn)目標(biāo)的集合;S1表示Di中判決為發(fā)現(xiàn)目標(biāo)的集合。

組網(wǎng)雷達(dá)對(duì)W個(gè)突防飛機(jī)的檢測(cè)概率向量為

(14)

考慮到實(shí)際突防場(chǎng)景中,突防飛機(jī)對(duì)組網(wǎng)雷達(dá)的威脅程度可能不同,因此分配給突防飛機(jī)的檢測(cè)概率的權(quán)重也會(huì)有差異。突防飛機(jī)的檢測(cè)概率權(quán)重向量為

(15)

為了評(píng)估干擾機(jī)群對(duì)組網(wǎng)雷達(dá)的協(xié)同干擾性能,定義了一個(gè)全局代價(jià)函數(shù)為

J(Pdk,ωk)=ωk(Pdk)T

(16)

接下來(lái)基于深度強(qiáng)化學(xué)習(xí)的干擾資源分配方法中將參考式(16)設(shè)計(jì)回報(bào)函數(shù)。

2 基于深度強(qiáng)化學(xué)習(xí)的干擾資源分配方法

2.1 馬爾可夫決策過(guò)程

馬爾可夫決策過(guò)程(MDP)是一種用于描述深度強(qiáng)化學(xué)習(xí)中智能體貫序決策的數(shù)學(xué)模型,其具有馬爾可夫性,即當(dāng)前狀態(tài)和回報(bào)只與上一時(shí)刻狀態(tài)和動(dòng)作有關(guān),與之前的狀態(tài)和動(dòng)作無(wú)關(guān)。本文將突防場(chǎng)景下干擾資源分配建模為一個(gè)馬爾可夫決策過(guò)程,并設(shè)計(jì)相應(yīng)的狀態(tài)空間、動(dòng)作空間和回報(bào)函數(shù)。

2.1.1 狀態(tài)空間

突防場(chǎng)景下的干擾資源分配是一個(gè)時(shí)間序列優(yōu)化問(wèn)題,我們假設(shè)敵方組網(wǎng)雷達(dá)的位置固定,且突防飛機(jī)對(duì)組網(wǎng)雷達(dá)的威脅程度不變。當(dāng)突防飛機(jī)和干擾機(jī)相對(duì)于組網(wǎng)雷達(dá)的位置發(fā)生變化時(shí),組網(wǎng)雷達(dá)接收突防飛機(jī)的回波信號(hào)功率和干擾機(jī)的干擾信號(hào)功率也發(fā)生變化。本文將突防編隊(duì)的位置信息作為狀態(tài)空間,即

(17)

2.1.2 動(dòng)作空間

在不考慮突防編隊(duì)動(dòng)力學(xué)控制的情況下,我們假設(shè)其按照既定的飛行航跡執(zhí)行突防任務(wù)。根據(jù)干擾資源分配模型,本文將干擾機(jī)群的波束分配策略和功率分配策略作為動(dòng)作空間,即

A={uk,Pk}

(18)

2.1.3 回報(bào)函數(shù)

突防場(chǎng)景下,干擾機(jī)群的目標(biāo)是降低組網(wǎng)雷達(dá)對(duì)突防飛機(jī)的檢測(cè)性能,因此本文將突防過(guò)程中每一時(shí)刻的全局代價(jià)函數(shù)的相反數(shù)作為回報(bào)函數(shù),即

R=-J(Pdk,ωk)

(19)

在突防過(guò)程中,突防編隊(duì)的空間位置會(huì)發(fā)生變化,導(dǎo)致最優(yōu)的回報(bào)值也隨之變化。為了評(píng)估干擾機(jī)群在整個(gè)突防過(guò)程中的總體干擾效能,之后的仿真驗(yàn)證環(huán)節(jié)中我們把所有時(shí)刻的回報(bào)之和作為算法比較的指標(biāo)依據(jù)之一。

2.2 基于動(dòng)作密鑰編碼的雙延遲深度確定性策略梯度算法

深度強(qiáng)化學(xué)習(xí)(DRL)是一種將深度學(xué)習(xí)的感知能力和強(qiáng)化學(xué)習(xí)的決策能力結(jié)合在一起的人工智能算法,常被用于解決復(fù)雜系統(tǒng)的貫序決策問(wèn)題。深度強(qiáng)化學(xué)習(xí)的原理框架如圖3所示,在每個(gè)時(shí)刻智能體與環(huán)境進(jìn)行交互,得到當(dāng)前環(huán)境下的狀態(tài)信息和回報(bào);之后基于預(yù)期的回報(bào)評(píng)估各個(gè)動(dòng)作的價(jià)值,通過(guò)某種策略將當(dāng)前狀態(tài)映射為相應(yīng)的動(dòng)作并執(zhí)行;環(huán)境對(duì)智能體的動(dòng)作做出反應(yīng)并更新環(huán)境參數(shù)。

圖3 深度強(qiáng)化學(xué)習(xí)原理框圖Fig.3 Deep reinforcement learning schematic

對(duì)突防場(chǎng)景下協(xié)同干擾組網(wǎng)雷達(dá)模型進(jìn)行分析可以看出,干擾資源的分配本質(zhì)上是一個(gè)多約束條件下的非線性混合整數(shù)規(guī)劃問(wèn)題,這類問(wèn)題的求解難度大。為了提高智能體的尋優(yōu)能力和收斂效率,本文提出了一種基于動(dòng)作密鑰編碼的雙延遲深度確定性策略梯度算法,將混合整數(shù)規(guī)劃問(wèn)題轉(zhuǎn)換為連續(xù)規(guī)劃問(wèn)題,緩解了變量約束對(duì)的影響,有效地解決了雙延遲深度確定性策略梯度算法可行性的問(wèn)題。

借鑒文獻(xiàn)[13]中的方法,將干擾波束分配矩陣和干擾功率分配矩陣進(jìn)行密鑰編碼,該編碼采用實(shí)數(shù)碼的形式,由整數(shù)部分和小數(shù)部分組成如表1所示。

表1 動(dòng)作密鑰編碼Tab.1 Action key encoding

表中編碼的順序值表示干擾波束的編號(hào),編碼的整數(shù)部分表示為干擾波束選擇干擾的雷達(dá),小數(shù)部分表示干擾波束的功率分配比例。其中,干擾波束1和2、3和4、5和6分別來(lái)自三個(gè)不同干擾機(jī)。如果多個(gè)干擾波束來(lái)自于同一架干擾機(jī),則通過(guò)歸一化的方式重新分配波束的功率比例。

雙延遲深度確定性策略梯度是一種基于AC(Actor-Critic)框架的無(wú)模型、異策略深度強(qiáng)化學(xué)習(xí)算法[14],可用于解決連續(xù)動(dòng)作問(wèn)題。TD3算法相較于深度確定性策略梯度(DDPG)算法有三點(diǎn)改進(jìn):第一,同時(shí)學(xué)習(xí)兩個(gè)價(jià)值網(wǎng)絡(luò),每次選取較小Q值進(jìn)行網(wǎng)絡(luò)參數(shù)的更新,有效地緩解高估偏差的問(wèn)題;第二,給目標(biāo)策略網(wǎng)絡(luò)基于平滑機(jī)制,在動(dòng)作中加入隨機(jī)噪聲,減小目標(biāo)策略受函數(shù)近似誤差引起的不準(zhǔn)確影響;第三,降低策略網(wǎng)絡(luò)和三個(gè)目標(biāo)網(wǎng)絡(luò)的更新頻率,提高算法的穩(wěn)定性。

本文提出的基于動(dòng)作密鑰編碼的雙延遲深度確定性策略梯度算法可以用任意的行為策略收集經(jīng)驗(yàn),再通過(guò)經(jīng)驗(yàn)回放訓(xùn)練策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)。其中,智能體輸出密鑰編碼動(dòng)作與環(huán)境交互,環(huán)境將動(dòng)作解碼并返回下一時(shí)刻的狀態(tài)和回報(bào),其算法流程如下。

步驟1 設(shè)置環(huán)境參數(shù),包括組網(wǎng)雷達(dá)和突防編隊(duì)的位置信息、組網(wǎng)雷達(dá)的工作參數(shù)。

步驟3 對(duì)于每個(gè)輪,循環(huán)執(zhí)行以下操作。

1)初始化狀態(tài)s0。

2)根據(jù)當(dāng)前狀態(tài)s,策略網(wǎng)絡(luò)πω輸出帶噪聲的編碼動(dòng)作a:a←πω(s′)+ε,ε~N(0,σ)。其中,ε表示服從均值為0、方差為σ的高斯噪聲。

3)智能體執(zhí)行編碼動(dòng)作a與環(huán)境進(jìn)行交互,環(huán)境對(duì)動(dòng)作解碼,得到回報(bào)r和下一時(shí)刻狀態(tài)s′。

4)將智能體與環(huán)境交互的數(shù)據(jù)(s,a,r,s′)存儲(chǔ)到經(jīng)驗(yàn)池中。

5)若突防編隊(duì)沒(méi)有達(dá)到終點(diǎn),則重復(fù)2)~4),否則開(kāi)始執(zhí)行以下步驟:

(1) 策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)及各自的目標(biāo)網(wǎng)絡(luò)從經(jīng)驗(yàn)池B中隨機(jī)抽取Nb個(gè)樣本。

步驟4 保存網(wǎng)絡(luò)模型,結(jié)束輪循環(huán)。

3 仿真結(jié)果與分析

本節(jié)將通過(guò)仿真實(shí)驗(yàn)來(lái)分析和驗(yàn)證基于深度強(qiáng)化學(xué)習(xí)的干擾資源分配算法的可行性、有效性和穩(wěn)定性。

考慮在仿真實(shí)驗(yàn)中,突防場(chǎng)景下有W=2架突防飛機(jī)突防組網(wǎng)雷達(dá),M=3架干擾機(jī)執(zhí)行伴隨干擾;組網(wǎng)雷達(dá)系統(tǒng)由N=6部雷達(dá)組成,并采用秩4準(zhǔn)則進(jìn)行數(shù)據(jù)融合。突防編隊(duì)的飛機(jī)軌跡和組網(wǎng)雷達(dá)的空間位置如圖4所示。

圖4 突防場(chǎng)景仿真示意圖Fig.4 The simulation scenario of penetration netted radar

表2 干擾機(jī)工作參數(shù)Tab.2 The working parameters of the jammer

表3 雷達(dá)工作參數(shù)Tab.3 The working parameters of the radar

利用基于動(dòng)作密鑰編碼的雙延遲深度確定性策略梯度算法進(jìn)行仿真訓(xùn)練時(shí),相關(guān)參數(shù)設(shè)置:最大訓(xùn)練輪數(shù)400 000,記憶池大小4 000,軟更新參數(shù)τ=0.1,獎(jiǎng)勵(lì)衰減因子γ=0.99,初始探索噪聲方差1,探索噪聲衰減因子0.999 9,單次訓(xùn)練batch-size采樣數(shù)64,策略網(wǎng)絡(luò)學(xué)習(xí)率0.001,價(jià)值網(wǎng)絡(luò)學(xué)習(xí)率0.002,動(dòng)作輸出限制范圍[0,7)。TD3中策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的參數(shù)與各自對(duì)應(yīng)的目標(biāo)網(wǎng)絡(luò)相同,價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)模型如圖5所示。

圖5 策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)模型Fig.5 Actor network and critic network models

利用PSO算法和本文所提的AKE-TD3算法對(duì)上述場(chǎng)景問(wèn)題進(jìn)行仿真實(shí)驗(yàn),得到不同算法在整個(gè)干擾過(guò)程中(每一幀)的全局代價(jià)函數(shù)性能曲線如圖6所示??梢钥闯?相比于PSO算法,AKE-TD3算法的全局代價(jià)函數(shù)值在前幾幀時(shí)基本相同,但在之后都表現(xiàn)出更出色的干擾性能。總體來(lái)說(shuō),AKE-TD3算法的干擾資源分配策略比PSO算法更好,初步驗(yàn)證了本文所提方法的有效性。

圖6 單次仿真下不同算法全局代價(jià)函數(shù)對(duì)比Fig.6 Comparison of global cost functions of algorithms under single simulation

與圖6中結(jié)果相對(duì)應(yīng)的干擾資源分配結(jié)果分別如圖7和圖8所示。圖中的顏色深淺表示干擾功率的大小,深藍(lán)色的部分表示無(wú)干擾波束被分配。由于初始化的隨機(jī)種群對(duì)PSO算法的性能有很大影響,因此每次收斂的結(jié)果具有波動(dòng)性,且需要迭代多次才能得到較好的結(jié)果。因此可以明顯地看出,在作戰(zhàn)場(chǎng)景態(tài)勢(shì)緩慢變化的情況下,基于PSO算法的干擾波束分配策略頻繁變化,而基于AKE-TD3算法的干擾波束分配策略一直保持穩(wěn)定,初步證明了本文所提方法的穩(wěn)定性。

圖7 基于PSO算法干擾資源分配結(jié)果Fig.7 The results of resource allocation achieved by PSO algorithm

圖8 基于AKE-TD3算法干擾資源分配結(jié)果Fig.8 The results of resource allocation achieved by AKE-TD3 algorithm

為了進(jìn)一步分析PSO算法和AKE-TD3算法的干擾性能和穩(wěn)定性。本文使用PSO算法進(jìn)行100次蒙特卡洛仿真實(shí)驗(yàn),并使用AKE-TD3算法在10個(gè)隨機(jī)種子下進(jìn)行仿真實(shí)驗(yàn)。得到不同算法全局代價(jià)函數(shù)在單次仿真全過(guò)程中(每一幀)的最大值、最小值和平均值,如圖9所示。對(duì)不同算法的總?cè)执鷥r(jià)函數(shù)和分配策略平均變化次數(shù)進(jìn)行數(shù)值統(tǒng)計(jì)分析,如表4所示。可以看出,本文所提算法的全局代價(jià)函數(shù)值和分配策略變化次數(shù)都比PSO算法小。因此其干擾能力更強(qiáng),且在緩慢變化的戰(zhàn)場(chǎng)態(tài)勢(shì)中不會(huì)頻繁的變換策略。進(jìn)一步驗(yàn)證了本文所提算法的有效性和穩(wěn)定性。

圖9 不同算法全局代價(jià)函數(shù)對(duì)比Fig.9 Comparison of global cost functions for different algorithms

表4 算法的總體性能對(duì)比Tab.3 Comparison of overall performance of algorithms

本文每隔100輪取消動(dòng)作噪聲,將整個(gè)突防過(guò)程中所有時(shí)刻的干擾效能之和作為總回報(bào)。設(shè)置10個(gè)隨機(jī)種子,統(tǒng)計(jì)平均總回報(bào)的收斂曲線如圖10所示。深色的線代表回報(bào)的平均值,淺色的部分代表不同隨機(jī)種子下回報(bào)值的分布情況。可以看出,在訓(xùn)練前期,總回報(bào)值一直在波動(dòng);隨著訓(xùn)練的進(jìn)行,曲線逐漸上升直至收斂。收斂曲線結(jié)果證明了AKE-TD3算法的可行性。值得注意的是,深度強(qiáng)化學(xué)習(xí)需要大量的時(shí)間訓(xùn)練,AKE-TD3算法平均單次訓(xùn)練時(shí)間約為6 h。但可以通過(guò)在不同場(chǎng)景下進(jìn)行訓(xùn)練將泛化性的策略保存到神經(jīng)網(wǎng)絡(luò)中,使其具備較高的實(shí)時(shí)性,這也是深度強(qiáng)化學(xué)習(xí)的特點(diǎn)和優(yōu)勢(shì)。

圖10 TD3算法回報(bào)函數(shù)收斂曲線Fig.10 Convergence curve of the AKE-TD3 algorithm reward function

4 結(jié)束語(yǔ)

本文針對(duì)干擾機(jī)群掩護(hù)目標(biāo)突防組網(wǎng)雷達(dá)的場(chǎng)景,提出了一種基于深度強(qiáng)化學(xué)習(xí)的干擾資源分配方法。將干擾資源分配建模為一個(gè)馬爾可夫決策過(guò)程,提出基于動(dòng)作密鑰編碼的雙延遲深度確定性策略梯度算法對(duì)模型進(jìn)行求解。仿真結(jié)果表明,本文所設(shè)計(jì)的算法在多約束復(fù)雜干擾問(wèn)題中,可以通過(guò)模擬智能體與環(huán)境之間的交互來(lái)探索干擾策略。相較于傳統(tǒng)智能優(yōu)化方法,干擾效能得到提升,且能夠滿足穩(wěn)定性的要求。值得注意的是,深度強(qiáng)化學(xué)習(xí)具有出色的泛化能力。通過(guò)隨機(jī)模擬突防場(chǎng)景對(duì)智能體進(jìn)行訓(xùn)練,可以使其具備在未知環(huán)境下的作戰(zhàn)能力,這將是后續(xù)工作的重點(diǎn)。

猜你喜歡
干擾機(jī)資源分配波束
新研究揭示新冠疫情對(duì)資源分配的影響 精讀
雷聲公司交付首套中頻段下一代干擾機(jī)
毫米波大規(guī)模陣列天線波束掃描研究*
一種基于價(jià)格競(jìng)爭(zhēng)的D2D通信資源分配算法
圓陣多波束測(cè)角探究
基于壓縮感知的單脈沖雷達(dá)欺騙干擾機(jī)研究
Helix陣匹配場(chǎng)三維波束形成
空襲遠(yuǎn)距離支援干擾機(jī)陣位選擇及航線規(guī)劃
美國(guó)海軍將研制新一代干擾機(jī)
基于非正交變換的局域波束空時(shí)自適應(yīng)處理
屏东市| 九龙坡区| 紫云| 舟曲县| 精河县| 雅江县| 海安县| 土默特右旗| 江华| 义马市| 西宁市| 兴隆县| 永春县| 石渠县| 秦安县| 太保市| 利辛县| 博白县| 远安县| 禹城市| 福安市| 仙居县| 阳高县| 建宁县| 通州区| 旅游| 克山县| 怀仁县| 江津市| 安达市| 旬阳县| 木里| 洪泽县| 临湘市| 山西省| 民权县| 旬阳县| 中西区| 平塘县| 汉阴县| 昭平县|