国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于優(yōu)勢(shì)行動(dòng)-評(píng)論的雷達(dá)自主干擾決策方法

2023-12-07 03:32:12曹育維
航天電子對(duì)抗 2023年5期
關(guān)鍵詞:雷達(dá)決策狀態(tài)

梁 猛,王 衛(wèi),余 波,陳 飛,曹育維

(中國(guó)航天科工集團(tuán)8511 研究所,江蘇 南京 210007)

0 引言

面對(duì)日益復(fù)雜的電磁環(huán)境,電子對(duì)抗雙方充分感知并分析環(huán)境中的各種信息,自適應(yīng)地調(diào)整作戰(zhàn)狀態(tài)和智能地實(shí)施干擾決策是未來(lái)電子戰(zhàn)的主要發(fā)展趨勢(shì)[1]。在現(xiàn)代電子戰(zhàn)裝備作戰(zhàn)中,雷達(dá)作為電子對(duì)抗的主要載體,是對(duì)抗雙方奪取“制電磁權(quán)”的主要戰(zhàn)場(chǎng)之一。隨著技術(shù)的進(jìn)步,雷達(dá)從傳統(tǒng)體制發(fā)展到現(xiàn)在的多功能新體制雷達(dá)。傳統(tǒng)雷達(dá)工作模式簡(jiǎn)單,干擾樣式粗放控制,其相對(duì)固定的干擾策略面對(duì)敵雷達(dá)復(fù)雜多變的工作模式與眾多抗干擾措施,干擾效果有限[2]。而現(xiàn)代新體制雷達(dá)干擾信號(hào)樣式、干擾手段多樣,具有優(yōu)秀的抗工作模式識(shí)別、抗干擾能力[3]。特別是在智能化方法的運(yùn)用下,新體制雷達(dá)有了更高的感知能力和快速應(yīng)變能力,使得敵方雷達(dá)識(shí)別困難,難以獲取己方工作模式的轉(zhuǎn)變情況,從而達(dá)到敵方利用基于知識(shí)庫(kù)匹配等技術(shù)無(wú)法快速實(shí)施有效干擾。

認(rèn)知電子戰(zhàn)系統(tǒng)通常由認(rèn)知偵察、認(rèn)知干擾、作戰(zhàn)評(píng)估和動(dòng)態(tài)規(guī)則庫(kù)4 個(gè)組成,其中認(rèn)知干擾決策環(huán)節(jié)是認(rèn)知電子戰(zhàn)系統(tǒng)的關(guān)鍵之一。國(guó)內(nèi)方面,認(rèn)知干擾決策有關(guān)領(lǐng)域的研究逐漸增多,包括干擾資源分配、干擾樣式選擇、干擾參數(shù)尋優(yōu)[4-7]等。這些方法通常建立在充分或部分先驗(yàn)知識(shí)的基礎(chǔ)之上,需構(gòu)建雷達(dá)干擾與抗干擾對(duì)策矩陣來(lái)指導(dǎo)干擾方進(jìn)行干擾決策,以期在對(duì)抗過(guò)程中獲得最高的干擾得益。

隨著深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)理論的突破,機(jī)器學(xué)習(xí)得益于深度學(xué)習(xí)的高維抽象學(xué)習(xí)與強(qiáng)化學(xué)習(xí)的智能學(xué)習(xí)決策特點(diǎn),算法受到認(rèn)知電子戰(zhàn)技術(shù)研究者的青睞,無(wú)先驗(yàn)信息條件下的干擾決策問(wèn)題也有了新的解決方案[8]。本文在分析強(qiáng)化學(xué)習(xí)與認(rèn)知干擾決策基本原理的基礎(chǔ)上,將其應(yīng)用在非合作環(huán)境下對(duì)敵方雷達(dá)干擾決策中,構(gòu)建了雷達(dá)智能干擾決策模型,提出了基于優(yōu)勢(shì)行動(dòng)-評(píng)論的雷達(dá)自主干擾決策方法,可支撐電子戰(zhàn)背景下雷達(dá)智能干擾決策,提高干擾決策效率和準(zhǔn)確率。

1 基本原理

1.1 認(rèn)知干擾決策原理

認(rèn)知電子戰(zhàn)是在傳統(tǒng)電子戰(zhàn)的基礎(chǔ)上,結(jié)合OODA環(huán)(感知、識(shí)別、決策、動(dòng)作)的閉環(huán)學(xué)習(xí)過(guò)程所提出的新型智能化作戰(zhàn)理論。認(rèn)知電子戰(zhàn)系統(tǒng)通常具有認(rèn)知偵察、認(rèn)知干擾、智能評(píng)估以及干擾知識(shí)庫(kù)[1]等能力。其中認(rèn)知干擾決策功能是認(rèn)知作戰(zhàn)的關(guān)鍵環(huán)節(jié),負(fù)責(zé)根據(jù)認(rèn)知偵察的結(jié)果,結(jié)合干擾知識(shí)庫(kù)實(shí)施自主干擾決策。

強(qiáng)化學(xué)習(xí)智能體通過(guò)與環(huán)境交互來(lái)獲得序貫問(wèn)題的最優(yōu)解[9]。本文是在雷達(dá)偵察信息的基礎(chǔ)上研究智能干擾決策方法,通過(guò)對(duì)戰(zhàn)場(chǎng)環(huán)境態(tài)勢(shì)的分析判斷,然后分配干擾任務(wù)、選擇干擾目標(biāo),并根據(jù)雷達(dá)的工作狀態(tài)實(shí)施合適的干擾策略。該過(guò)程映射到認(rèn)知雷達(dá)干擾系統(tǒng)中,需要通過(guò)觀察敵方雷達(dá)的工作狀態(tài),經(jīng)過(guò)干擾激勵(lì)和行為學(xué)習(xí)過(guò)程,建立目標(biāo)雷達(dá)的工作狀態(tài)與已有干擾樣式之間的最佳映射關(guān)系,從而針對(duì)靈活變化的雷達(dá)狀態(tài)實(shí)現(xiàn)干擾的快速響應(yīng),最終達(dá)到最優(yōu)的干擾效果。而深度強(qiáng)化學(xué)習(xí)具有強(qiáng)大的環(huán)境感知能力和在與環(huán)境的交互中學(xué)習(xí)決策的能力,這與智能干擾決策的OODA 過(guò)程非常契合。

1.2 面向干擾決策的深度強(qiáng)化學(xué)習(xí)算法分析與選擇

雷達(dá)干擾決策過(guò)程是一個(gè)個(gè)OODA 環(huán),本質(zhì)上是一個(gè)序貫決策過(guò)程,對(duì)于這類問(wèn)題的求解,強(qiáng)化學(xué)習(xí)算法成為研究的熱點(diǎn),其中基于策略梯度的強(qiáng)化學(xué)習(xí)算法直接搜索最佳策略,如REINFORCE 算法[10]利用蒙特卡洛方法估計(jì)梯度策略,具有較好的穩(wěn)定性,但樣本的利用效率較低,容易陷入局部最優(yōu)的困境?;趦r(jià)值函數(shù)的強(qiáng)化學(xué)習(xí)算法通過(guò)獲取最優(yōu)價(jià)值函數(shù)來(lái)隱式地構(gòu)建最優(yōu)策略,如張柏開(kāi)[8]利用Q-Learning算法實(shí)現(xiàn)多功能雷達(dá)干擾任務(wù)自主決策與策略尋優(yōu),但該策略主要適用于少數(shù)雷達(dá)任務(wù)。為解決決策效率隨可執(zhí)行任務(wù)增多而明顯下降的問(wèn)題,張柏開(kāi)[11]利用深度Q 學(xué)習(xí)(DQN)算法[12]將應(yīng)用范圍拓展到高維度和連續(xù)空間,但算法存在訓(xùn)練時(shí)間長(zhǎng)、效率低的缺點(diǎn),無(wú)法很好地滿足對(duì)抗的實(shí)時(shí)性。

行動(dòng)-評(píng)論(AC)算法結(jié)合上述2 種方法的優(yōu)點(diǎn),分別由動(dòng)作選擇網(wǎng)絡(luò)和動(dòng)作評(píng)價(jià)網(wǎng)絡(luò)同時(shí)學(xué)習(xí)策略和價(jià)值函數(shù)[13],結(jié)構(gòu)如圖1 所示。為解決AC 算法容易過(guò)擬合和收斂性差的問(wèn)題,發(fā)展出了A2C 算法,該算法繼承了DQN 的目標(biāo)網(wǎng)絡(luò),采用異步策略的Critic估計(jì)策略梯度,使訓(xùn)練更加穩(wěn)定簡(jiǎn)單[14]。因此,本文選用A2C 算法應(yīng)用于雷達(dá)多任務(wù)自主干擾決策。算法中Actor 網(wǎng)絡(luò)學(xué)習(xí)策略,根據(jù)當(dāng)前策略θ和狀態(tài)s選擇動(dòng)作作用于環(huán)境;Critic 網(wǎng)絡(luò)評(píng)價(jià)Actor 網(wǎng)絡(luò)的動(dòng)作,并使用TD 算法學(xué)習(xí)Actor 網(wǎng)絡(luò)當(dāng)前策略下的狀態(tài)值函數(shù)。通過(guò)TD 誤差用于反饋并更新Actor 網(wǎng)絡(luò)的策略參數(shù)。算法實(shí)現(xiàn)了動(dòng)作價(jià)值評(píng)估和策略更新過(guò)程的相對(duì)獨(dú)立,Actor 可以對(duì)當(dāng)前環(huán)境進(jìn)行充分探索并進(jìn)行策略更新,Critic 只需要負(fù)責(zé)評(píng)價(jià)策略的好壞,從而降低訓(xùn)練樣本的相關(guān)性, 提升了采樣效率和訓(xùn)練速度。策略梯度更新的目的是學(xué)習(xí)一個(gè)使得期望累計(jì)獎(jiǎng)勵(lì)值最大化的策略。A2C 算法的Critic 網(wǎng)絡(luò)和Actor 網(wǎng)絡(luò)更新方式如下。

圖1 Actor-Critic 算法架構(gòu)

其中TD 誤差采用均方誤差損失函數(shù)來(lái)計(jì)算,則Critic 網(wǎng)絡(luò)的損失函數(shù)為:

式中,Gt=Rt+1+γRt+2+…+γn-1Rt+n+γt+nV(st+n)為累積獎(jiǎng)勵(lì),Gt-V(st)為優(yōu)勢(shì)函數(shù)A。則Actor 的優(yōu)化目標(biāo)函數(shù)可以由式(2)給出。

式中,π*為最優(yōu)策略,該公式的含義為當(dāng)TD 大于0 時(shí)增強(qiáng)該動(dòng)作的選擇概率,反之亦然,所以目標(biāo)為最小化損失函數(shù)-La。

2 基于優(yōu)勢(shì)行動(dòng)-評(píng)論的雷達(dá)自主干擾決策方法

2.1 雷達(dá)自主干擾決策模型

如圖2 所示,基于優(yōu)勢(shì)行動(dòng)-評(píng)論的雷達(dá)自主干擾決策模型可用四元組抽象表示,即S,A,P,R,其中,S表示敵方雷達(dá)的工作狀態(tài)空間,假設(shè)雷達(dá)有N種工作狀態(tài),則S={s1,s2,…,sN},狀態(tài)可以是雷達(dá)的工作模式,如搜索、跟蹤等;A表示干擾智能體的可采取動(dòng)作空間,動(dòng)作空間是可執(zhí)行的干擾樣式等,假設(shè)智能 體 可 采 取 的 干 擾 樣 式 有M種 ,則A={a1,a2,…,aM};P為狀態(tài)轉(zhuǎn)移概率,即干擾智能體在一個(gè)狀態(tài)下采取一個(gè)動(dòng)作a后達(dá)到下一個(gè)狀態(tài)的概率,記為P(s′|s,a);R為獎(jiǎng)勵(lì)函數(shù),指干擾智能體在一個(gè)狀態(tài)完成一個(gè)動(dòng)作后的獎(jiǎng)勵(lì),記為即時(shí)回報(bào)r(s,a),獎(jiǎng)勵(lì)是干擾方的干擾收益。該模型的核心問(wèn)題是為決策者找到一個(gè)最優(yōu)的策略:函數(shù)π(s)表示當(dāng)前狀態(tài)下的動(dòng)作。目標(biāo)是最大化該策略的累積獎(jiǎng)勵(lì)函數(shù),即π*(s)=arg maxa∈AQ*(s,a),其中,π*(s)為最優(yōu)策略,Q*(s,a)為當(dāng)前狀態(tài)下選擇動(dòng)作的最優(yōu)狀態(tài)-動(dòng)作值函數(shù)。

圖2 基于A2C 算法的雷達(dá)干擾決策模型

干擾知識(shí)庫(kù)中預(yù)存儲(chǔ)雷達(dá)的工作狀態(tài)參數(shù)、干擾樣式及其對(duì)應(yīng)的干擾效果等知識(shí),干擾知識(shí)庫(kù)一方面為干擾決策提供先驗(yàn)知識(shí),另一方面也不斷在新的決策過(guò)程中修正知識(shí)庫(kù)中已有經(jīng)驗(yàn)和更新知識(shí)。理想情況下,假設(shè)先驗(yàn)經(jīng)驗(yàn)充足且完善,雷達(dá)自主干擾決策僅需要從干擾知識(shí)庫(kù)中獲取知識(shí)即可。

2.2 基于優(yōu)勢(shì)行動(dòng)-評(píng)論的雷達(dá)干擾決策過(guò)程

文中雷達(dá)是非合作式目標(biāo),干擾方不能直接獲得雷達(dá)工作的各項(xiàng)參數(shù),只能通過(guò)偵查手段對(duì)雷達(dá)的工作狀態(tài)和行為特征進(jìn)行辨識(shí),實(shí)現(xiàn)雷達(dá)威脅信號(hào)的感知。假設(shè)雷達(dá)的工作狀態(tài)(本文以工作模式為狀態(tài))有N種,狀態(tài)集合表示為S={s1,s2,…,sN};干擾智能體可采取的干擾樣式動(dòng)作假設(shè)有M種,動(dòng)作集合可表示為A={a1,a2,…,aM};在當(dāng)前時(shí)刻t,工作狀態(tài)為st,干擾方會(huì)根據(jù)偵查到的敵方雷達(dá)信號(hào)信息,識(shí)別出雷達(dá)的工作狀態(tài)。首先,對(duì)于該狀態(tài)從干擾知識(shí)庫(kù)橫向比較各干擾樣式參數(shù)得到與雷達(dá)干擾效果相關(guān)的參數(shù),作為選擇下一步干擾動(dòng)作的依據(jù)。同時(shí),保留一定的探索新?tīng)顟B(tài)的行為概率。當(dāng)Actor 網(wǎng)絡(luò)根據(jù)知識(shí)及其當(dāng)前策略選擇干擾動(dòng)作后作用于敵方雷達(dá),Critic網(wǎng)絡(luò)根據(jù)反饋信息對(duì)選擇的動(dòng)作進(jìn)行評(píng)價(jià),指導(dǎo)actor網(wǎng)絡(luò)的更新。此時(shí),完成一次“觀察-學(xué)習(xí)-反饋-再觀察”的訓(xùn)練,并且A2C 學(xué)習(xí)模型獲得一次經(jīng)驗(yàn)樣本,即st,at,rt,Rt,st+1,其中rt是一次動(dòng)作的即時(shí)獎(jiǎng)勵(lì),Rt是執(zhí)行該動(dòng)作后的累積獎(jiǎng)勵(lì)期望。

此外,經(jīng)驗(yàn)樣本是存儲(chǔ)用于訓(xùn)練當(dāng)前評(píng)價(jià)網(wǎng)絡(luò)的輸入樣本,使用經(jīng)驗(yàn)樣本融合了模仿學(xué)習(xí)和經(jīng)驗(yàn)回放的思路,一方面,先驗(yàn)知識(shí)作為經(jīng)驗(yàn)加速訓(xùn)練網(wǎng)絡(luò)的效率,另一方面產(chǎn)生新的樣本可以存入并更新到知識(shí)庫(kù)中。在算法訓(xùn)練階段可從經(jīng)驗(yàn)知識(shí)庫(kù)隨機(jī)抽樣樣本供策略網(wǎng)絡(luò)學(xué)習(xí),這有助于減小學(xué)習(xí)樣本之間的相關(guān)性,提高樣本的利用效率。仿真實(shí)驗(yàn)證明,先驗(yàn)知識(shí)的加入能夠有效提升算法的學(xué)習(xí)效率。

本文假設(shè)雷達(dá)通過(guò)工作模式的轉(zhuǎn)變體現(xiàn)抗干擾,且雷達(dá)工作模式的轉(zhuǎn)變是由于干擾引起的,因此干擾方的干擾收益可以通過(guò)雷達(dá)工作模式的轉(zhuǎn)移評(píng)估得到。假設(shè)雷達(dá)的工作模式轉(zhuǎn)變服從以馬爾科夫決策過(guò)程,雷達(dá)有N種工作模式,記為S={s1,s2,…,sN}。以pij表示雷達(dá)從第i種工作模式轉(zhuǎn)移到第j種工作模式的概率。干擾方通過(guò)偵查設(shè)備統(tǒng)計(jì)一段時(shí)間的雷達(dá)工作模式,然后根據(jù)統(tǒng)計(jì)的方式計(jì)算工作模式的轉(zhuǎn)移概率,如:

進(jìn)而可得到總的工作模式轉(zhuǎn)移概率矩陣,如:

假設(shè)干擾方可以實(shí)施的干擾樣式有M種,記為J={j1,j2,…,jM},針對(duì)不同的干擾樣式,雷達(dá)工作模式轉(zhuǎn)移的概率不同,若將雷達(dá)受到第k種干擾時(shí),雷達(dá)的工作狀態(tài)由i轉(zhuǎn)變到j(luò)的概率記為,則可以得到此時(shí)狀態(tài)的轉(zhuǎn)移概率為:

在實(shí)施干擾后,可能導(dǎo)致雷達(dá)的工作狀態(tài)發(fā)生變化,干擾方則根據(jù)干擾效果進(jìn)行評(píng)估得到工作模式的轉(zhuǎn)移獎(jiǎng)勵(lì)。不同的干擾樣式對(duì)雷達(dá)不同的工作狀態(tài)影響也不一樣,以各工作體制雷達(dá)為例,壓制干擾在雷達(dá)搜索模式效果好,在跟蹤模式時(shí),欺騙干擾通常比噪聲干擾的效果更好。

通過(guò)上述分析,有效的干擾決策使得干擾更具有主動(dòng)性和針對(duì)性,大幅提升干擾效能。為了計(jì)算雷達(dá)工作狀態(tài)轉(zhuǎn)換所反饋的干擾效果,借鑒文獻(xiàn)[11]中對(duì)不同工作模式進(jìn)行威脅等級(jí)劃分的方法,定義雷達(dá)工作模式轉(zhuǎn)換的3 種情況:高威脅模式轉(zhuǎn)換到低威脅模式、低威脅模式轉(zhuǎn)換到高威脅模式以及威脅等級(jí)不變。那么受到第k干擾后,雷達(dá)從工作模式i轉(zhuǎn)移到模式j(luò)的獎(jiǎng)勵(lì)函數(shù)設(shè)為有效的干擾動(dòng)作會(huì)使得雷達(dá)的工作模式轉(zhuǎn)變且威脅等級(jí)下降。因此,在算法學(xué)習(xí)的過(guò)程中,干擾智能體的目的是使得雷達(dá)的威脅程度在最少的時(shí)間內(nèi)達(dá)到最低。

雷達(dá)自主干擾決策流程主要分為5 個(gè)步驟,如圖3所示。

圖3 A2C 干擾決策方法流程圖

1) 初始化算法網(wǎng)絡(luò)參數(shù)包括評(píng)價(jià)網(wǎng)絡(luò)參數(shù)w,策略網(wǎng)絡(luò)參數(shù)θ;初始化學(xué)習(xí)率α,折扣因子γ,動(dòng)作探索貪婪策略因子ε;初始化干擾知識(shí)庫(kù)。

2) 設(shè)置策略收斂條件,最大訓(xùn)練回合數(shù),每回合最大訓(xùn)練迭代次數(shù)。

3) 根據(jù)輸入的雷達(dá)干擾任務(wù),干擾智能體通過(guò)偵查方分析環(huán)境得到雷達(dá)工作狀態(tài)st,Actor 網(wǎng)絡(luò)依據(jù)策略π 或分析經(jīng)驗(yàn)知識(shí)選擇動(dòng)作at,基于該動(dòng)作得到新的狀態(tài)st+1和獎(jiǎng)勵(lì)rt,Critic 網(wǎng)絡(luò)輸入當(dāng)前狀態(tài)與動(dòng)作,輸出動(dòng)作價(jià)值函數(shù)Vt;并保存和更新經(jīng)驗(yàn)知識(shí)st,at,rt,Rt,st+1到知識(shí)庫(kù)中。

4) 計(jì)算優(yōu)勢(shì)函數(shù)A,更新Critic 網(wǎng)絡(luò),更新Actor網(wǎng)絡(luò)。

5) 達(dá)到單回合最大迭代次數(shù)結(jié)束該回合,或達(dá)到最大訓(xùn)練回合數(shù)結(jié)束訓(xùn)練,或算法達(dá)到收斂狀態(tài)結(jié)束訓(xùn)練。

3 仿真實(shí)驗(yàn)分析

為驗(yàn)證本文提出算法的可行性和有效性,本文以某多功能相陣控雷達(dá)為例,該雷達(dá)在工作過(guò)程中,可以自主完成搜索、跟蹤、識(shí)別和制導(dǎo)等任務(wù)。圍繞雷達(dá)工作的全過(guò)程,假設(shè)實(shí)驗(yàn)中雷達(dá)工作模式有5 種,即關(guān)機(jī)、搜索、跟蹤(單目標(biāo)跟蹤、多目標(biāo)跟蹤)、綜合(邊搜索邊跟蹤)、制導(dǎo),即{s0,s1,s2,s3,s4,s5,s6}。其中威脅等級(jí)依次上升,分別為0,1,2,3,4,5,6。動(dòng)作為無(wú)干擾、壓制干擾(噪聲調(diào)制、射頻噪聲干擾、梳狀譜干擾)、欺騙干擾(假目標(biāo)干擾、距速拖引干擾、靈巧噪聲干擾)7 種,記為{a0,a1,a2,a3,a4,a5,a6}。

DQN 算法是經(jīng)典的深度強(qiáng)化學(xué)習(xí)算法,可解決未知對(duì)抗環(huán)境下對(duì)多功能雷達(dá)的干擾最優(yōu)決策問(wèn)題[11]。因此仿真實(shí)驗(yàn)分別采用DQN 算法和A2C 算法進(jìn)行對(duì)比測(cè)試,其中設(shè)置折扣因子γ=0.9,學(xué)習(xí)率為α=0.01,動(dòng)作的初始探索率為ε=0.9,隨著訓(xùn)練次數(shù)的增加,探索因子逐漸變小。

3.1 算法性能比較

實(shí)驗(yàn)1 中,DQN 算法和A2C 算法的訓(xùn)練回合數(shù)為800,記錄每回合訓(xùn)練的平均動(dòng)作值和平均損失誤差,結(jié)果如圖4 和圖5 所示。圖中顯示的是2 種算法的網(wǎng)絡(luò)模型策略隨著訓(xùn)練次數(shù)增加的關(guān)系,可以看出隨著訓(xùn)練次數(shù)的增加,DQN 算法和A2C 算法的平均動(dòng)作值逐漸增加,且平均誤差逐漸減小,且相比于DQN 算法,A2C 算法收斂的速度更快,學(xué)習(xí)效率更高。當(dāng)訓(xùn)練回合數(shù)在0~200 之間,A2C 算法的平均動(dòng)作價(jià)值迅速增加,損失函數(shù)減少但波動(dòng)比較明顯,表明智能體在探索動(dòng)作的過(guò)程中有明顯的學(xué)習(xí)過(guò)程。200 回合以后,損失函數(shù)穩(wěn)定減小,表明A2C 智能體策略達(dá)到穩(wěn)定的收斂狀態(tài)。而DQN 算法則在400 回合以后,智能體策略達(dá)到相對(duì)穩(wěn)定的收斂狀態(tài)。

圖4 每回合平均動(dòng)作值

圖5 每回合損失誤差

3.2 先驗(yàn)知識(shí)對(duì)算法的影響

為驗(yàn)證先驗(yàn)知識(shí)對(duì)算法模型的學(xué)習(xí)存在的影響關(guān)系,實(shí)驗(yàn)2 中分別設(shè)置100、200、400 條先驗(yàn)經(jīng)驗(yàn)來(lái)預(yù)訓(xùn)練智能體模型,得到的算法訓(xùn)練結(jié)果如圖6 所示。可以看出,先驗(yàn)知識(shí)對(duì)智能體的訓(xùn)練和學(xué)習(xí)存在正向的促進(jìn)關(guān)系,且隨著先驗(yàn)知識(shí)的增多,智能體模型的學(xué)習(xí)效率更高,收斂速度更快。這表明,在特定的知識(shí)領(lǐng)域,專家知識(shí)對(duì)強(qiáng)化學(xué)習(xí)算法模型的學(xué)習(xí)具有巨大的輔助支撐作用。

圖6 先驗(yàn)知識(shí)對(duì)算法學(xué)習(xí)效率的影響

4 結(jié)束語(yǔ)

智能干擾決策算法的關(guān)鍵是在相應(yīng)的狀態(tài)下提供有效的干擾策略,本質(zhì)上等效為一個(gè)序貫決策問(wèn)題。本文在雷達(dá)干擾原理及深度強(qiáng)化學(xué)習(xí)算法分析的基礎(chǔ)上,提出了基于優(yōu)勢(shì)行動(dòng)-評(píng)論的自主干擾決策算法來(lái)解決不同雷達(dá)狀態(tài)下的自主干擾決策問(wèn)題。仿真結(jié)果表明,在智能體通過(guò)大量的干擾策略動(dòng)作與雷達(dá)環(huán)境狀態(tài)進(jìn)行交互后,其能夠快速學(xué)習(xí)到最優(yōu)的干擾策略,且在智能干擾算法的學(xué)習(xí)中,先驗(yàn)知識(shí)能夠加快算法的學(xué)習(xí)效率,可為認(rèn)知干擾決策的研究提供一定的理論支撐和指導(dǎo)意義。但是,干擾策略的決策還需進(jìn)一步考慮干擾參數(shù)如干信比、占空比、假目標(biāo)數(shù)量等參數(shù)的最佳選擇與適配,后續(xù)研究可根據(jù)典型的干擾樣式及其干擾參數(shù)的分析,結(jié)合具體的機(jī)器學(xué)習(xí)算法來(lái)實(shí)現(xiàn)更智能和深入的干擾決策應(yīng)用。

猜你喜歡
雷達(dá)決策狀態(tài)
有雷達(dá)
大自然探索(2023年7期)2023-08-15 00:48:21
為可持續(xù)決策提供依據(jù)
狀態(tài)聯(lián)想
決策為什么失誤了
雷達(dá)
生命的另一種狀態(tài)
熱圖
家庭百事通(2016年3期)2016-03-14 08:07:17
堅(jiān)持是成功前的狀態(tài)
山東青年(2016年3期)2016-02-28 14:25:52
基于空時(shí)二維隨機(jī)輻射場(chǎng)的彈載雷達(dá)前視成像
現(xiàn)代“千里眼”——雷達(dá)
阆中市| 海林市| 县级市| 阿城市| 四平市| 津南区| 临漳县| 马尔康县| 平湖市| 裕民县| 德化县| 威宁| 遂宁市| 金平| 嵊州市| 子长县| 鄂伦春自治旗| 永胜县| 额尔古纳市| 泸西县| 文山县| 石泉县| 昌平区| 宁武县| 台中县| 安龙县| 湖南省| 梓潼县| 井冈山市| 光山县| 增城市| 明水县| 崇明县| 申扎县| 旌德县| 东乡族自治县| 玉林市| 北川| 泊头市| 望都县| 肇东市|