国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于A3C的多功能雷達(dá)認(rèn)知干擾決策方法

2023-02-10 12:29鄒瑋琦牛朝陽(yáng)高歐陽(yáng)張浩波
關(guān)鍵詞:干擾機(jī)樣式線程

鄒瑋琦, 牛朝陽(yáng), 劉 偉, 高歐陽(yáng), 張浩波

(信息工程大學(xué)數(shù)據(jù)與目標(biāo)工程學(xué)院, 河南 鄭州 450000)

0 引 言

電子對(duì)抗是作戰(zhàn)雙方為保障己方優(yōu)勢(shì),削弱對(duì)方實(shí)力而采取的各種電子措施和行動(dòng)。在現(xiàn)代戰(zhàn)場(chǎng)中,針對(duì)雷達(dá)的電子對(duì)抗扮演著越來(lái)越重要的角色,而干擾決策是雷達(dá)電子對(duì)抗領(lǐng)域的關(guān)鍵技術(shù),其任務(wù)是對(duì)偵察環(huán)節(jié)所獲取的威脅數(shù)據(jù)進(jìn)行分析,快速準(zhǔn)確地確定干擾決策,并通過(guò)評(píng)估環(huán)節(jié)不斷調(diào)整干擾決策,有效完成干擾任務(wù),極大減少對(duì)方雷達(dá)的威脅。

隨著雷達(dá)發(fā)展趨于多功能與智能化[1-2],抗干擾能力增強(qiáng),依賴(lài)于“匹配”以及“人為試錯(cuò)”思想的傳統(tǒng)干擾決策方法[3-4]決策效率低、準(zhǔn)確率不高的缺點(diǎn)愈發(fā)明顯。為了滿(mǎn)足雷達(dá)電子對(duì)抗的需求,進(jìn)行具有認(rèn)知能力的干擾決策方法研究具有重要意義。為此,文獻(xiàn)[5]將強(qiáng)化學(xué)習(xí)[6]中的Q-learning方法引入到雷達(dá)干擾決策中,使干擾系統(tǒng)能夠通過(guò)自主學(xué)習(xí)確定最佳的干擾策略,但該方案僅適用于雷達(dá)工作模式數(shù)目已知的情況。因此,文獻(xiàn)[7]針對(duì)雷達(dá)工作模式數(shù)目未知條件完成了智能雷達(dá)對(duì)抗設(shè)計(jì)過(guò)程,提高了雷達(dá)干擾系統(tǒng)的實(shí)時(shí)性與自適應(yīng)性。在此基礎(chǔ)上,文獻(xiàn)[8]通過(guò)分析多功能雷達(dá)工作狀態(tài)及對(duì)應(yīng)干擾樣式構(gòu)建雷達(dá)狀態(tài)轉(zhuǎn)移圖,仿真分析了各參數(shù)對(duì)干擾決策性能的影響,以及在新?tīng)顟B(tài)加入下的決策過(guò)程、轉(zhuǎn)移概率對(duì)決策路徑的影響。由于文獻(xiàn)[7]和文獻(xiàn)[8]所提方法隨著多功能雷達(dá)可執(zhí)行任務(wù)個(gè)數(shù)增多而時(shí)間效率逐漸下降,文獻(xiàn)[9]將深度Q網(wǎng)絡(luò)(deep Q network, DQN)引入到多功能雷達(dá)干擾決策中,DQN是Q-learning算法與深度學(xué)習(xí)的結(jié)合,直接使用神經(jīng)網(wǎng)絡(luò)替代傳統(tǒng)表格生成 Q 值,在處理大量狀態(tài)空間和動(dòng)作空間時(shí)具有明顯優(yōu)勢(shì),從而提高了多功能雷達(dá)認(rèn)知干擾決策的時(shí)間效率。在干擾決策整體過(guò)程中偵察環(huán)節(jié)、決策環(huán)節(jié)以及評(píng)估環(huán)節(jié)都需要時(shí)間,然而目標(biāo)方雷達(dá)執(zhí)行任務(wù)時(shí)間是有限的,雙方的對(duì)抗稍縱即逝,因此提高時(shí)間效率依舊是認(rèn)知干擾決策的關(guān)鍵。文獻(xiàn)[9]在雷達(dá)任務(wù)數(shù)量為25的條件下循環(huán)200次的決策完成時(shí)間約為40 s,仍然難以滿(mǎn)足雷達(dá)對(duì)抗決策的高實(shí)時(shí)性要求。針對(duì)此問(wèn)題,在充分研究多功能雷達(dá)工作模式和任務(wù)轉(zhuǎn)換關(guān)系的基礎(chǔ)上,本文提出了一種基于異步優(yōu)勢(shì)行動(dòng)者-評(píng)論家(asynchronous advantage actor-critic, A3C)的認(rèn)知干擾決策方法,設(shè)計(jì)了包括干擾機(jī)模型、環(huán)境模型(目標(biāo)方多功能雷達(dá))及其交互機(jī)制的認(rèn)知干擾決策整體框架,制定了干擾決策流程。

1 A3C基本原理

A3C算法[10]是Mnih等在異步強(qiáng)化學(xué)習(xí)(asynchronous reinforcement learning, ARL)理論基礎(chǔ)上提出的一種輕量級(jí)深度強(qiáng)化學(xué)習(xí)算法。該算法引入多線程的概念,使得多個(gè)智能體同時(shí)進(jìn)行訓(xùn)練,極大加快了訓(xùn)練速度,同時(shí)利用異步的方式,確保每個(gè)線程的初始狀態(tài)和探索方向不同,使得各個(gè)線程中樣本相關(guān)性降低,從而穩(wěn)定算法,使得該算法在一些領(lǐng)域有著較好表現(xiàn)[11-12]。

A3C算法在各個(gè)線程中延用行動(dòng)者-評(píng)論家[13](actor-critic, AC)算法與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合構(gòu)成的AC網(wǎng)絡(luò)(AC network, ACN),利用深度神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)使其有利于處理大規(guī)模狀態(tài)空間和動(dòng)作空間的任務(wù),具體結(jié)構(gòu)圖如圖1所示。

圖1 ACN結(jié)構(gòu)圖Fig.1 ACN structure diagram

ACN利用策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)分別表示策略函數(shù)和值函數(shù):

(1) 策略網(wǎng)絡(luò)π(at|st;θ)是用來(lái)更新學(xué)習(xí)模型的策略,計(jì)算在狀態(tài)st所采取動(dòng)作的概率分布,即行動(dòng)者部分。其中,θ為策略網(wǎng)絡(luò)參數(shù)。

(2) 價(jià)值網(wǎng)絡(luò)V(st;θv)用來(lái)評(píng)價(jià)在狀態(tài)st執(zhí)行動(dòng)作at的優(yōu)劣,即評(píng)論家部分。其中,θv為價(jià)值網(wǎng)絡(luò)參數(shù)。

ACN在進(jìn)行策略更新的時(shí)候,平等對(duì)待每一個(gè)狀態(tài)動(dòng)作對(duì),然而在訓(xùn)練過(guò)程中,每一個(gè)狀態(tài)動(dòng)作對(duì)的重要性是不一樣的。針對(duì)此問(wèn)題,A3C算法在ACN結(jié)構(gòu)基礎(chǔ)上引入優(yōu)勢(shì)函數(shù)用于評(píng)價(jià)當(dāng)前狀態(tài)動(dòng)作對(duì)的優(yōu)勢(shì)。優(yōu)勢(shì)函數(shù)公式如下:

(1)

式中:rt+i表示即時(shí)獎(jiǎng)賞;γ∈[0,1]為折扣因子,代表未來(lái)獎(jiǎng)賞對(duì)于累計(jì)獎(jiǎng)賞的重要程度,當(dāng)n=1時(shí),其為1步回報(bào)優(yōu)勢(shì)函數(shù),當(dāng)n=k時(shí),其為k步回報(bào)優(yōu)勢(shì)函數(shù)。該算法策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的損失函數(shù)如下所示:

(2)

(3)

式中:R表示智能體在當(dāng)前狀態(tài)下依據(jù)策略選擇動(dòng)作所獲得的回報(bào)值;V(st;θv)表示該狀態(tài)下的值函數(shù)。

為防止過(guò)早收斂到局部最優(yōu),A3C算法將策略交叉熵加入到策略網(wǎng)絡(luò)損失函數(shù)aloss中,保證策略進(jìn)行廣泛搜索。

(4)

式中:H(π(st,θ)),為策略交叉熵;c為熵系數(shù),用于控制熵的正則化強(qiáng)度。

2 基于A3C的認(rèn)知干擾決策方法

由于A3C算法有利于處理大規(guī)模狀態(tài)空間的任務(wù),并且具有多線程處理能力,計(jì)算速度快。本文將A3C強(qiáng)化學(xué)習(xí)算法應(yīng)用于認(rèn)知干擾決策領(lǐng)域,設(shè)計(jì)了認(rèn)知干擾決策整體框架,具體如圖2所示。其主要包括全局網(wǎng)絡(luò)以及多個(gè)干擾線程。全局網(wǎng)絡(luò)相當(dāng)于是一個(gè)中央大腦,將各個(gè)干擾線程網(wǎng)絡(luò)參數(shù)進(jìn)行匯總分發(fā)。干擾線程包括干擾機(jī)模型、環(huán)境模型(目標(biāo)方多功能雷達(dá))以及交互機(jī)制,干擾機(jī)模型通過(guò)干擾樣式選取、雷達(dá)任務(wù)狀態(tài)描述以及干擾樣式有效性評(píng)估3個(gè)途徑與環(huán)境進(jìn)行交互訓(xùn)練。

圖2 認(rèn)知干擾決策整體框架Fig.2 Cognitive jamming decision-making overall framework

2.1 全局網(wǎng)絡(luò)

全局網(wǎng)絡(luò)由兩部分組成,一是策略網(wǎng)絡(luò),其功能是在當(dāng)前雷達(dá)任務(wù)狀態(tài)st下,計(jì)算所采取的干擾樣式at;二是價(jià)值網(wǎng)絡(luò),其功能是對(duì)當(dāng)前雷達(dá)任務(wù)狀態(tài)st下所采取的干擾樣式at進(jìn)行評(píng)估。全局網(wǎng)絡(luò)與各線程網(wǎng)絡(luò)具有相同結(jié)構(gòu),但全局網(wǎng)絡(luò)自身不進(jìn)行訓(xùn)練,依托于各個(gè)線程中的干擾機(jī)模型獨(dú)立與環(huán)境交互進(jìn)行訓(xùn)練,其僅存儲(chǔ)各個(gè)線程中干擾機(jī)模型策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù),同時(shí)將自身的網(wǎng)絡(luò)參數(shù)同步至各個(gè)線程中的干擾機(jī)模型。

2.2 干擾線程

如圖2所示,干擾線程主要包括干擾機(jī)模型、環(huán)境模型(目標(biāo)方多功能雷達(dá))及其交互機(jī)制。

2.2.1 干擾機(jī)模型

干擾機(jī)模型包括價(jià)值網(wǎng)絡(luò)和策略網(wǎng)絡(luò)。價(jià)值網(wǎng)絡(luò)的輸入為雷達(dá)任務(wù)狀態(tài),輸出為采取干擾樣式的值函數(shù),并依據(jù)值函數(shù)與對(duì)應(yīng)回報(bào)值得到優(yōu)勢(shì)函數(shù)。策略網(wǎng)絡(luò)的輸入為多功能雷達(dá)某時(shí)刻所執(zhí)行的雷達(dá)任務(wù)狀態(tài)以及優(yōu)勢(shì)函數(shù),輸出為干擾機(jī)所采取的干擾樣式。策略網(wǎng)絡(luò)基于概率采取相應(yīng)干擾樣式,然后價(jià)值網(wǎng)絡(luò)判斷策略網(wǎng)絡(luò)采取干擾樣式的好壞,策略網(wǎng)絡(luò)再依據(jù)評(píng)價(jià)值調(diào)整網(wǎng)絡(luò)參數(shù)。

2.2.2 環(huán)境模型(目標(biāo)方多功能雷達(dá))

環(huán)境模型描述目標(biāo)方多功能雷達(dá)被策略網(wǎng)絡(luò)輸出的干擾樣式干擾后,雷達(dá)任務(wù)的變化情況。當(dāng)干擾機(jī)模型實(shí)施選定的干擾樣式后,雷達(dá)任務(wù)狀態(tài)便發(fā)生了相應(yīng)的變化,為更有效表明干擾前后雷達(dá)任務(wù)狀態(tài)的變化情況,本文采用文獻(xiàn)[9]中雷達(dá)任務(wù)關(guān)系轉(zhuǎn)換表的方式建立環(huán)境模型。

2.2.3 干擾機(jī)模型與環(huán)境交互機(jī)制

各個(gè)線程內(nèi)干擾機(jī)模型與環(huán)境之間的交互機(jī)制主要包括干擾樣式選取、雷達(dá)任務(wù)狀態(tài)描述和干擾樣式有效性評(píng)估3個(gè)途徑。

(1) 干擾樣式選取

干擾機(jī)所采取的干擾樣式來(lái)源于干擾信息庫(kù),其基本結(jié)構(gòu)如圖3所示。干擾信息庫(kù)主要包括雷達(dá)威脅數(shù)據(jù)以及干擾機(jī)干擾數(shù)據(jù),其中雷達(dá)威脅數(shù)據(jù)部分主要依據(jù)多功能雷達(dá)信號(hào)層級(jí)模型[14-15],包括雷達(dá)功能層、雷達(dá)任務(wù)層以及相應(yīng)波形單元特征向量,負(fù)責(zé)提供目標(biāo)多功能雷達(dá)的威脅信息。由于當(dāng)雷達(dá)處于不同功能不同任務(wù)時(shí),其波形單元不相同,干擾機(jī)所采取的干擾樣式不盡相同,因此干擾數(shù)據(jù)部分為雷達(dá)的具體功能和任務(wù)下對(duì)應(yīng)的有效干擾樣式集合。

圖3 干擾信息庫(kù)基本結(jié)構(gòu)Fig.3 Basic structure of jamming information library

(2) 雷達(dá)任務(wù)狀態(tài)描述

依據(jù)多功能雷達(dá)信號(hào)層級(jí)模型構(gòu)建雷達(dá)任務(wù)關(guān)系表,如表1所示。

表1 雷達(dá)任務(wù)關(guān)系表

當(dāng)偵測(cè)到多功能雷達(dá)某時(shí)刻執(zhí)行雷達(dá)任務(wù)狀態(tài),獲取該狀態(tài)下功能層對(duì)應(yīng)的數(shù)值(即x值)以及任務(wù)層對(duì)應(yīng)的數(shù)值(即y值),得到其當(dāng)前狀態(tài)坐標(biāo)值(x,y),并利用當(dāng)前狀態(tài)坐標(biāo)值與目標(biāo)狀態(tài)(雷達(dá)威脅等級(jí)最低)坐標(biāo)值的差值描述雷達(dá)任務(wù)狀態(tài)st。

(3) 干擾樣式有效性評(píng)估

文獻(xiàn)[9]利用雷達(dá)任務(wù)的轉(zhuǎn)換關(guān)系來(lái)對(duì)干擾樣式進(jìn)行有效性分析。對(duì)于多功能雷達(dá)而言,其雷達(dá)任務(wù)有著一定的優(yōu)先級(jí)排序,雷達(dá)任務(wù)的優(yōu)先級(jí)越高,則意味著其對(duì)乙方的威脅等級(jí)越高。如果干擾機(jī)實(shí)施選定的干擾樣式后雷達(dá)任務(wù)的優(yōu)先級(jí)(即威脅等級(jí))降低,則選定的干擾樣式有效;如果雷達(dá)任務(wù)的威脅等級(jí)未發(fā)生變化或者升高,則選定的干擾樣式無(wú)效。

文獻(xiàn)[9]獎(jiǎng)勵(lì)函數(shù)僅將雷達(dá)威脅等級(jí)變化設(shè)置為上升和下降兩種狀態(tài),未考慮威脅等級(jí)數(shù)變化不同的情況,因此本文對(duì)獎(jiǎng)勵(lì)函數(shù)進(jìn)行修正,將變化的威脅等級(jí)數(shù)與對(duì)應(yīng)的獎(jiǎng)賞值相對(duì)應(yīng),使得獎(jiǎng)勵(lì)函數(shù)的設(shè)置更加準(zhǔn)確,能夠更有效體現(xiàn)采取干擾樣式的有效程度。具體設(shè)置如下:

(5)

式中:Tn→Tend表示雷達(dá)威脅等級(jí)轉(zhuǎn)變至最低的狀態(tài);Tn→Tn表示雷達(dá)威脅等級(jí)維持不變;Tn→Tn-i表示雷達(dá)威脅等級(jí)升高i個(gè)等級(jí);Tn→Tn+i則表示雷達(dá)威脅等級(jí)降低i個(gè)等級(jí)。

(4) 交互機(jī)制

綜合上述3個(gè)途徑,任意干擾線程內(nèi)干擾機(jī)模型與環(huán)境交互機(jī)制具體如下所示。

算法 1 基于A3C的認(rèn)知干擾決策輸入 干擾樣式合集J,全局共享的迭代次數(shù)T,全局最大迭代次數(shù)Tmax, 干擾線程內(nèi)迭代次數(shù)t,干擾線程內(nèi)迭代最大次數(shù)tmax,學(xué)習(xí)率η,衰減因子γ,熵系數(shù)c步驟 1 t←1,T←0;步驟 2 重置策略網(wǎng)絡(luò)和價(jià)值網(wǎng)絡(luò)的梯度更新量:dθ←0、dθv←0,并將全局網(wǎng)絡(luò)同步參數(shù)到本線程干擾機(jī)模型的神經(jīng)網(wǎng)絡(luò):θ′=θ,θ′v=θv;步驟 3 初始化雷達(dá)任務(wù)狀態(tài)st,即雷達(dá)威脅等級(jí)最高狀態(tài),并記錄該狀態(tài)下線程內(nèi)迭代次數(shù)tstart=t;步驟 4 基于策略π(at|st;θ′)得到干擾樣式概率分布,選取干擾樣式at;步驟 5 針對(duì)目標(biāo)方雷達(dá)采取干擾樣式at,并獲取新雷達(dá)任務(wù)狀態(tài)st+1;步驟 6 獎(jiǎng)賞rt依據(jù)變化前后雷達(dá)任務(wù)狀態(tài)st,st+1,對(duì)照式(5)獎(jiǎng)勵(lì)函數(shù)得到即時(shí)獎(jiǎng)勵(lì)rt;步驟 7 t←t+1,T←T+1;步驟 8 如果st+1對(duì)應(yīng)雷達(dá)威脅等級(jí)最低狀態(tài),或者t-tstart,則進(jìn)入步驟9,否則回到步驟5;步驟 9 對(duì)照步驟8中進(jìn)入步驟9的兩個(gè)條件計(jì)算最后一次迭代狀態(tài)st的對(duì)應(yīng)的R:R=0, 終止?fàn)顟B(tài) stV(st,θv), 非終止?fàn)顟B(tài) st {步驟 10 for i∈{t-1,t-2,…,tstart}: (1) 計(jì)算每個(gè)時(shí)刻的R:R←ri+γR (2) 累計(jì)策略網(wǎng)絡(luò)的本地梯度更新:dθ←dθ+Δθ′ln π (ai|si;θ′)(R-V(si;θ′v))+Δθ′H(π (si,θ′)) (3) 累計(jì)價(jià)值網(wǎng)絡(luò)的本地梯度更新: dθv←dθv+?(R-V(si;θ′v))2?θ′v步驟 11 更新全局神經(jīng)網(wǎng)絡(luò)的模型參數(shù):θ=θ-ηdθ, θv=θv-ηdθv步驟 12 如果T>Tmax,則算法結(jié)束,否則進(jìn)入步驟2。

上述基于A3C的認(rèn)知干擾決策方法能夠形成一個(gè)實(shí)時(shí)的閉環(huán)結(jié)構(gòu),干擾機(jī)模型能夠與環(huán)境模型進(jìn)行自主交互并形成有效干擾決策,表明該方法具有可靠性。同時(shí),該方法為提升時(shí)間效率采用了異步的思想,每個(gè)干擾線程中干擾機(jī)模型的初始狀態(tài)和探索方向不同,通過(guò)共同探索并行計(jì)算策略梯度,對(duì)參數(shù)進(jìn)行更新,能夠最大化探索多樣性,確保該方法的穩(wěn)定性。

3 仿真實(shí)驗(yàn)

本文仿真實(shí)驗(yàn)環(huán)境在個(gè)人計(jì)算機(jī)上搭建,其處理器為Inter(R)Core(TM) i7-10875H CPU@2.30 GHz,擁有8個(gè)內(nèi)核以及16個(gè)邏輯處理器;GPU為NVIDIA GeForce RTX 2080,算法采用Python語(yǔ)言和PyTorch深度學(xué)習(xí)框架進(jìn)行編寫(xiě)。

本文基于A3C的認(rèn)知干擾決策方法采用自適應(yīng)矩估計(jì)(adaptive moment estimation, Adam)梯度下降法來(lái)進(jìn)行網(wǎng)絡(luò)參數(shù)更新,具體參數(shù)設(shè)置如下:學(xué)習(xí)率η=0.01、一階矩估計(jì)衰減率β1=0.9,二階矩估計(jì)衰減率β2=0.99、超參數(shù)ε=10-8,折扣因子γ=0.9。該方法的異步更新方式如下:實(shí)驗(yàn)利用16個(gè)線程加速訓(xùn)練,每10步或者當(dāng)前回合結(jié)束更新一次網(wǎng)絡(luò)參數(shù)?;贒QN的認(rèn)知干擾決策方法設(shè)置學(xué)習(xí)率為η=0.01,折扣因子γ=0.9,記憶庫(kù)總量為2 000,每隔200步估計(jì)值網(wǎng)絡(luò)的參數(shù)并傳遞至真實(shí)值網(wǎng)絡(luò)。Double DQN和Prioritized Replay DQN是DQN的兩種改進(jìn)算法,依據(jù)文獻(xiàn)[9]的思路將其應(yīng)用至多功能雷達(dá)對(duì)抗的認(rèn)知干擾決策中,作為本文新方法的對(duì)比對(duì)象,參數(shù)設(shè)置與基于DQN的認(rèn)知干擾決策方法一致。

為討論本文所提方法在雷達(dá)任務(wù)復(fù)雜情況下的決策性能,將文獻(xiàn)[9]的雷達(dá)任務(wù)轉(zhuǎn)換關(guān)系表的雷達(dá)威脅等級(jí)由11個(gè)擴(kuò)充至15個(gè),如表2所示。依據(jù)該表進(jìn)行10次獨(dú)立實(shí)驗(yàn),每次實(shí)驗(yàn)?zāi)M5 000個(gè)回合,并對(duì)比分析本文所提方法和基于DQN的認(rèn)知干擾決策系列方法(DQN、Double DQN和Prioritized Replay DQN)的模型訓(xùn)練時(shí)間和移動(dòng)平均獎(jiǎng)賞相對(duì)值。

表2 雷達(dá)任務(wù)轉(zhuǎn)換關(guān)系表

3.1 模型訓(xùn)練時(shí)間

表3數(shù)據(jù)為不同方法的平均每回合所用時(shí)間,圖4為不同方法的5 000回合模型訓(xùn)練時(shí)間對(duì)比圖,其中圖4(a)為平均每回合時(shí)間,圖4(b)為累計(jì)時(shí)間。

表3 平均每回合所用時(shí)間比較

圖4 模型訓(xùn)練時(shí)間對(duì)比圖Fig.4 Comparison diagram of model training time

從表3中可以看出,相較于基于DQN的認(rèn)知干擾決策方法,其他3種認(rèn)知干擾決策方法的平均每回合所用時(shí)間均有一定的降低,其中本文所提方法優(yōu)勢(shì)最明顯,將平均每回合所用時(shí)間降低約40%。

從圖4(a)可以看出,基于A3C的認(rèn)知干擾決策方法從一開(kāi)始平均每回合時(shí)間便大幅度低于基于DQN的認(rèn)知干擾決策系列方法,并在整個(gè)階段保持明顯優(yōu)勢(shì)。分析原因,基于A3C的認(rèn)知干擾決策方法具有多線程處理能力,相當(dāng)于多個(gè)干擾機(jī)模型并行工作,相較于單線程方法而言?xún)?yōu)勢(shì)更加明顯,能極大提高時(shí)間效率。并由圖4(b)局部放大的小圖可以看出,該時(shí)間曲線并不是線性的,與基于DQN的認(rèn)知干擾決策系列方法相似,都是類(lèi)似對(duì)數(shù)的變化趨勢(shì),干擾機(jī)模型在工作過(guò)程中隨著回合數(shù)的增加,所獲得經(jīng)驗(yàn)不斷積累,每回合所采取的有效干擾樣式逐漸減少,相應(yīng)每回合所用時(shí)間不斷降低。

綜上所述,本文所提方法在雷達(dá)任務(wù)復(fù)雜情況下極大提高了時(shí)間效率,更能夠滿(mǎn)足雷達(dá)對(duì)抗高實(shí)時(shí)性要求。

3.2 移動(dòng)平均獎(jiǎng)賞相對(duì)值

定義移動(dòng)平均獎(jiǎng)賞如下:

Ri=βRi-1+(1-β)ri

(6)

式中:Ri為當(dāng)前回合移動(dòng)平均獎(jiǎng)賞;Ri-1為上一回合移動(dòng)平均獎(jiǎng)賞;ri為當(dāng)前回合獎(jiǎng)賞值;β為權(quán)重因子,此處取0.99。為使移動(dòng)平均獎(jiǎng)賞能夠更直觀呈現(xiàn),本文采取移動(dòng)平均獎(jiǎng)賞相對(duì)值,其定義如下:

Rrv-i=Ri/Rmax

(7)

其中,Rrv-i為當(dāng)前回合移動(dòng)平均獎(jiǎng)賞相對(duì)值;Rmax表示單次回合獎(jiǎng)賞的理論最大值。移動(dòng)平均獎(jiǎng)賞相對(duì)值越高,表示干擾機(jī)模型每回合在進(jìn)行決策的過(guò)程中有效干擾樣式更多,表示其決策準(zhǔn)確度更高。

由于在訓(xùn)練的過(guò)程中,網(wǎng)絡(luò)參數(shù)不斷更新,非常小的變化都可能導(dǎo)致下一階段的決策產(chǎn)生大的變動(dòng),導(dǎo)致移動(dòng)平均獎(jiǎng)賞相對(duì)值在不同回合階段會(huì)出現(xiàn)不同程度的波動(dòng),因此本文采取進(jìn)行10次單獨(dú)實(shí)驗(yàn)最后取平均的方式來(lái)反映總體趨勢(shì)。

圖5為不同方法的移動(dòng)平均獎(jiǎng)賞相對(duì)值曲線圖。由圖5可得,在1 500回合之內(nèi),本文所提方法相較于其他方法而言有著大幅度的優(yōu)勢(shì),在1 500回合之后,兩種改進(jìn)的DQN認(rèn)知干擾決策方法逐漸靠近本文所提方法,但基于DQN的認(rèn)知干擾決策方法效果依舊不理想。分析原因,由于DQN算法存在訓(xùn)練效率低、過(guò)估計(jì)以及記憶能力有限等缺陷,導(dǎo)致相應(yīng)方法在雷達(dá)任務(wù)復(fù)雜情況下效果不理想。Double DQN和Prioritized Replay DQN在DQN算法的基礎(chǔ)上進(jìn)行改進(jìn),效果有著一定的提升,本文所提方法則在引入優(yōu)勢(shì)函數(shù)以及策略交叉熵的同時(shí),利用異步的方式確保每個(gè)線程的初始狀態(tài)和探索方向不同,最大化干擾機(jī)模型探索環(huán)境的多樣性,并且能夠降低數(shù)據(jù)的相關(guān)性,提升該方法的穩(wěn)定性,使得決策準(zhǔn)確度有明顯提高。

圖5 移動(dòng)平均獎(jiǎng)賞相對(duì)值對(duì)比圖Fig.5 Comparison diagram of moving average reward relative value

綜上所述,在雷達(dá)任務(wù)復(fù)雜情況下,本文所提方法有著更好的決策準(zhǔn)確度。

從綜合模型訓(xùn)練時(shí)間以及移動(dòng)平均獎(jiǎng)賞相對(duì)值的對(duì)比可以看出,在雷達(dá)任務(wù)轉(zhuǎn)換關(guān)系表擴(kuò)充條件下,本文方法與基于DQN的認(rèn)知干擾決策系列方法相比,極大地提高了時(shí)間效率,平均決策時(shí)間降低30倍以上,同時(shí)在移動(dòng)平均獎(jiǎng)賞相對(duì)值中所展現(xiàn)的決策準(zhǔn)確度上也有明顯優(yōu)勢(shì)。由此可以看出,在雷達(dá)發(fā)展趨于多功能化以及雷達(dá)對(duì)抗趨于智能化的背景下,本文所提方法更能夠適應(yīng)高實(shí)時(shí)性的復(fù)雜雷達(dá)對(duì)抗環(huán)境。

4 結(jié)束語(yǔ)

在雷達(dá)對(duì)抗領(lǐng)域,雷達(dá)越來(lái)越趨于多功能化和智能化,對(duì)認(rèn)知干擾決策的時(shí)間效率和決策準(zhǔn)確度要求更高。對(duì)此,本文提出一種基于A3C的認(rèn)知干擾決策方法。研究表明,該方法能夠在雷達(dá)任務(wù)數(shù)量更為復(fù)雜的情況下,極大地提高時(shí)間效率,并在決策準(zhǔn)確度上有著明顯優(yōu)勢(shì)。

在認(rèn)知干擾決策領(lǐng)域,進(jìn)一步提高實(shí)時(shí)性、縮短對(duì)抗時(shí)間是關(guān)鍵所在,同時(shí)針對(duì)雷達(dá)態(tài)勢(shì)識(shí)別和干擾效能評(píng)估也是下一步的研究重點(diǎn)。

猜你喜歡
干擾機(jī)樣式線程
CPMF-I 取樣式多相流分離計(jì)量裝置
CPMF-I 取樣式多相流分離計(jì)量裝置
基于C#線程實(shí)驗(yàn)探究
取樣式多相流分離計(jì)量裝置
基于國(guó)產(chǎn)化環(huán)境的線程池模型研究與實(shí)現(xiàn)
雷聲公司交付首套中頻段下一代干擾機(jī)
線程池調(diào)度對(duì)服務(wù)器性能影響的研究*
基于壓縮感知的單脈沖雷達(dá)欺騙干擾機(jī)研究
空襲遠(yuǎn)距離支援干擾機(jī)陣位選擇及航線規(guī)劃
美國(guó)海軍將研制新一代干擾機(jī)
马鞍山市| 宜宾市| 灵石县| 吴忠市| 泾阳县| 临邑县| 隆化县| 武陟县| 霍城县| 阜新市| 绍兴县| 安丘市| 福泉市| 丹凤县| 庄浪县| 民和| 安新县| 娄底市| 兴安县| 屏东县| 天津市| 无极县| 榆中县| 广元市| 莲花县| 香港| 南充市| 焦作市| 延庆县| 肇庆市| 柏乡县| 会东县| 东阳市| 苍梧县| 马公市| 凤阳县| 衡东县| 武汉市| 云霄县| 高淳县| 长岭县|