一種通信對(duì)抗干擾資源分配智能決策算法

2021-12-02 10:08宋佰霖史蘊(yùn)豪

電子與信息學(xué)報(bào) 2021年11期

許華宋佰霖蔣磊饒寧史蘊(yùn)豪

(空軍工程大學(xué)信息與導(dǎo)航學(xué)院西安 710077)

1 引言

在通信對(duì)抗作戰(zhàn)過(guò)程中，干擾決策是核心環(huán)節(jié)，選擇最優(yōu)的干擾策略能夠節(jié)省干擾資源，提高干擾成功率。一些基于博弈論[1]、遺傳算法[2]等方法的干擾決策研究相繼取得成果，這些研究主要從干擾樣式、目標(biāo)、功率等方面入手，通過(guò)建立通信方與干擾方的對(duì)抗模型，尋找最優(yōu)干擾策略。此類方法在解決小規(guī)模決策問(wèn)題上理論成熟，具有一定優(yōu)勢(shì)，但很難用于解決戰(zhàn)場(chǎng)條件下多維度、大空間、小樣本決策問(wèn)題。

隨著人工智能技術(shù)的蓬勃發(fā)展，結(jié)合人工智能技術(shù)的認(rèn)知電子戰(zhàn)相關(guān)研究取得較大進(jìn)展[3]。在認(rèn)知電子戰(zhàn)系統(tǒng)的智能決策環(huán)節(jié)，多采用強(qiáng)化學(xué)習(xí)相關(guān)方法，能夠?yàn)橹笓]員快速、準(zhǔn)確提供輔助決策。強(qiáng)化學(xué)習(xí)是一種無(wú)需先驗(yàn)知識(shí)，智能體通過(guò)與環(huán)境交互訓(xùn)練，使數(shù)值化收益值最大的一種機(jī)器學(xué)習(xí)理論，廣泛應(yīng)用于智能決策與控制[4]、自動(dòng)駕駛[5]、組合優(yōu)化[6]以及資源分配[7]等領(lǐng)域中?；趶?qiáng)化學(xué)習(xí)的干擾決策方法研究近年來(lái)取得較大突破，文獻(xiàn)[8]建立多臂賭博機(jī)干擾模型，對(duì)物理層中信號(hào)體制、功率等級(jí)等參數(shù)進(jìn)行優(yōu)化，以獲得功率最優(yōu)分配的干擾策略；文獻(xiàn)[9]在一種延遲信息場(chǎng)景下，從信息狀態(tài)轉(zhuǎn)移中獲取獎(jiǎng)勵(lì)，針對(duì)802.11機(jī)制無(wú)線網(wǎng)絡(luò)決策最優(yōu)干擾策略；文獻(xiàn)[10]采用雙層強(qiáng)化學(xué)習(xí)方法，能夠在未知通信協(xié)議情況下以犧牲交互時(shí)間為代價(jià)學(xué)習(xí)到最佳干擾策略；文獻(xiàn)[11]通過(guò)學(xué)習(xí)最佳干擾信號(hào)的同相分量和正交分量，得到最優(yōu)干擾參數(shù)和最佳干擾樣式。然而大部分基于強(qiáng)化學(xué)習(xí)的干擾決策方法研究是關(guān)于干擾樣式、功率、物理層參數(shù)的，而幾乎沒(méi)有關(guān)于干擾資源分配問(wèn)題的?，F(xiàn)如今在電磁頻譜作戰(zhàn)中，頻譜管控、資源分配是關(guān)鍵一環(huán)，最優(yōu)化分配干擾資源能夠在取得最好干擾效果的同時(shí)使用較少的干擾力量，并且不過(guò)多占用電磁頻譜資源，保證己方通信正常進(jìn)行，所以針對(duì)資源分配的干擾決策研究是至關(guān)重要的。

文獻(xiàn)[12]提出一種分層深度強(qiáng)化學(xué)習(xí)抗干擾(Hierarchical Deep Reinforcement Learning antijamming algorithm, HDRL)頻率決策算法，該算法在分層強(qiáng)化學(xué)習(xí)模型下分級(jí)決策通信頻率，可以在干擾樣式未知的條件下有效躲避干擾并減小計(jì)算量。雖然HDRL算法應(yīng)用于通信抗干擾決策場(chǎng)景，但其分層決策結(jié)構(gòu)具有較強(qiáng)適用性，也能夠應(yīng)用于干擾資源分配決策場(chǎng)景。

常用的抗干擾通信手段中，跳頻通信應(yīng)用最為廣泛。本文針對(duì)在跳頻干擾中干擾資源分配決策難題，提出一種基于自舉專家軌跡分層強(qiáng)化學(xué)習(xí)的干擾資源分配決策算法(Bootstrapped expert trajectory memory replay - Hierarchical reinforcement learning - Jamming resources distribution decision -Making algorithm, BHJM)，按照偵察到的所有跳頻頻點(diǎn)分布劃分子頻段，分層決策干擾頻段及干擾帶寬，并利用本文設(shè)計(jì)的基于自舉專家軌跡的經(jīng)驗(yàn)回放 (Bootstrapped Expert Trajectory Memory Replay, BETMR)機(jī)制采樣、訓(xùn)練算法，使算法能夠在現(xiàn)有干擾資源條件下，按照目標(biāo)干擾優(yōu)先級(jí)順序，使用盡可能小的干擾帶寬實(shí)現(xiàn)最優(yōu)干擾效果。

2 系統(tǒng)模型

跳頻通信電臺(tái)通常使用頻分方式進(jìn)行組網(wǎng)，即在全頻段內(nèi)選擇頻點(diǎn)規(guī)劃跳頻頻率集，不同的頻率集之間通常無(wú)相同頻點(diǎn)。針對(duì)跳頻通信常使用跟蹤式干擾、攔阻式干擾等手段，隨著跳頻速率不斷增加，在每一跳上的駐留時(shí)間越來(lái)越短，最基本的跟蹤式干擾很難完成干擾任務(wù)。攔阻式干擾通過(guò)對(duì)某一頻段范圍內(nèi)干擾信號(hào)實(shí)施壓制性干擾，只要頻段內(nèi)包含目標(biāo)頻點(diǎn)，且干擾功率滿足干信比條件，即可使干擾奏效。忽略收發(fā)天線不同帶來(lái)的極化損失，干信比計(jì)算方法可用式(1)表示

其中，PJ為干擾機(jī)的發(fā)射功率，PS為信號(hào)發(fā)射機(jī)的發(fā)射功率；HJ為干擾機(jī)發(fā)射天線與信號(hào)接收天線增益之積，HS為信號(hào)發(fā)射機(jī)天線增益與接收天線增益之積；LJ和LS分別為干擾機(jī)信號(hào)和通信信號(hào)傳輸?shù)目臻g損耗，用式(2)表示，R為信號(hào)傳播距離

將式(2)代入式(1)中，可得到干信比的一般計(jì)算表示方法，如式(3)所示

如圖1所示為一個(gè)典型的干擾場(chǎng)景，在一個(gè)較小區(qū)域內(nèi)部署了多個(gè)地面通信干擾站，其干擾空域相同，通過(guò)偵察發(fā)現(xiàn)干擾空域內(nèi)有多個(gè)跳頻通信網(wǎng)。在實(shí)際中需要按照某些復(fù)雜規(guī)則來(lái)劃分通信網(wǎng)的威脅系數(shù)，本文為簡(jiǎn)便起見(jiàn)僅考慮距離因素，按照每個(gè)通信網(wǎng)與干擾方的距離不同劃分威脅系數(shù)，距離越近威脅系數(shù)越高。如表1所示，由于N1距離干擾站最近，所以其威脅系數(shù)最高為6；而N6距離干擾站最遠(yuǎn)，其威脅系數(shù)最小為1。干擾資源分配決策一般從通信目標(biāo)的威脅系數(shù)入手，威脅系數(shù)越高，對(duì)其干擾的優(yōu)先級(jí)也就越高。

圖1 典型干擾場(chǎng)景

表1 目標(biāo)屬性

假設(shè)現(xiàn)有通信網(wǎng)目標(biāo)均為超短波信號(hào)，每個(gè)干擾站均采用寬帶攔阻式干擾，每個(gè)頻譜帶寬內(nèi)具有均勻相等的頻譜分量，且各站干擾發(fā)射功率相同。干擾空域內(nèi)共有M個(gè)通信網(wǎng)目標(biāo)，W個(gè)干擾站；通信網(wǎng)內(nèi)作戰(zhàn)飛機(jī)間的信號(hào)傳輸距離用RS表示，干擾距離用RJ表示。以通信網(wǎng)N1為例，對(duì)其干擾的干信比可用式(4)表示，當(dāng)干信比大于壓制系數(shù)KN1并且干擾該目標(biāo)頻率集1/3以上頻點(diǎn)時(shí)，干擾有效，通信網(wǎng)N1的通信被阻斷

在干擾站偵收到跳頻信號(hào)后，通常對(duì)其中混合的多個(gè)跳頻信號(hào)進(jìn)行分選。首先利用短時(shí)傅里葉變換、小波變換、譜圖變換等時(shí)頻分析方法分析估計(jì)跳頻頻率集、跳頻周期等特征參數(shù)，再基于時(shí)空頻信息將不同通信網(wǎng)的信號(hào)分開(kāi)，實(shí)現(xiàn)對(duì)目標(biāo)的精準(zhǔn)干擾。

如圖2所示為某時(shí)刻經(jīng)過(guò)網(wǎng)臺(tái)分選后跳頻目標(biāo)的頻點(diǎn)分布情況，在200～400 MHz內(nèi)共有6個(gè)目標(biāo)，每個(gè)目標(biāo)規(guī)劃有一個(gè)頻率集。圖2中藍(lán)色虛線方框所在頻段的頻點(diǎn)較為密集，在一個(gè)頻段內(nèi)有多個(gè)目標(biāo)的跳頻頻點(diǎn)，并且不同目標(biāo)的頻點(diǎn)還存在交錯(cuò)排列的情況，此時(shí)在不同位置施放攔阻干擾帶會(huì)對(duì)干擾資源分配及整體干擾效果產(chǎn)生不同影響。將所有目標(biāo)頻點(diǎn)合并為整體進(jìn)行干擾規(guī)劃，尋找包含多個(gè)不同目標(biāo)的頻段實(shí)施干擾，可實(shí)現(xiàn)對(duì)多個(gè)目標(biāo)的同時(shí)干擾，進(jìn)而能夠降低干擾站的使用數(shù)量，減少干擾帶寬，實(shí)現(xiàn)對(duì)干擾資源的優(yōu)化分配。

3 干擾資源分配智能決策算法

3.1 基于整體對(duì)抗思想的干擾資源分配算法

針對(duì)干擾資源分配不合理、無(wú)優(yōu)化算法支撐決策等問(wèn)題，本文提出基于整體對(duì)抗思想的干擾資源分配算法，如表2所示，以實(shí)現(xiàn)在現(xiàn)有干擾資源下，按照干擾優(yōu)先級(jí)順序，使用盡可能小的干擾帶寬實(shí)現(xiàn)最優(yōu)干擾效果。

表2 干擾資源分配算法

該算法將所有目標(biāo)頻點(diǎn)按照頻率大小順序排列，若前后兩頻點(diǎn)頻率差大于攔阻干擾最大帶寬Bmax，說(shuō)明這兩個(gè)頻點(diǎn)不可能被同一攔阻干擾帶干擾，即將兩頻點(diǎn)劃入前后兩個(gè)不同子頻段中。按照上述方法劃分頻點(diǎn)，直至所有頻點(diǎn)均被劃入各個(gè)子頻段中，圖2中紅色虛線方框即為劃分后的子頻段。

圖2 200～400 MHz頻率分布

3.2 分層強(qiáng)化學(xué)習(xí)模型

分層強(qiáng)化學(xué)習(xí)的核心思想是將復(fù)雜的深度強(qiáng)化學(xué)習(xí)問(wèn)題拆解為若干個(gè)子問(wèn)題，通過(guò)解決各個(gè)子問(wèn)題來(lái)最終解決整體問(wèn)題。通過(guò)給不同層級(jí)的子問(wèn)題分別設(shè)置獎(jiǎng)勵(lì)函數(shù)，能夠有效解決復(fù)雜問(wèn)題獎(jiǎng)勵(lì)稀疏、不容易收斂的難題[13,14]。

在干擾資源分配決策問(wèn)題中，需要同時(shí)解決干擾頻段的決策和干擾帶寬的決策，直觀上可以采用窮舉法得到問(wèn)題的最優(yōu)解，然而在戰(zhàn)場(chǎng)條件下，目標(biāo)數(shù)量眾多且頻率分布復(fù)雜多變，解的數(shù)量呈指數(shù)級(jí)增長(zhǎng)，計(jì)算量難以承受[15]。本文設(shè)計(jì)了一種基于分層強(qiáng)化學(xué)習(xí)的決策算法，將決策干擾頻段和決策干擾帶寬作為兩個(gè)子任務(wù)來(lái)分別決策，決策網(wǎng)絡(luò)如圖3藍(lán)色虛線方框所示。

干擾頻段決策器結(jié)合環(huán)境狀態(tài)S1決策出干擾動(dòng)作A1，即干擾頻段；干擾帶寬決策器結(jié)合環(huán)境狀態(tài)S2和干擾動(dòng)作A1決策出干擾動(dòng)作A2，即干擾帶寬。兩層決策出的干擾動(dòng)作組成干擾策略P1=[A1,A2]施放干擾，改變環(huán)境狀態(tài)為S′。圖3所示為算法的模型結(jié)構(gòu)，除各層決策器以外，模型還包括效果評(píng)估器和訓(xùn)練優(yōu)化器部分。在效果評(píng)估器中設(shè)置獎(jiǎng)勵(lì)函數(shù)，并根據(jù)S的變化分別計(jì)算干擾動(dòng)作A1和A2的獎(jiǎng)勵(lì)值r1和r2，獎(jiǎng)勵(lì)值的高低即反映了決策效果。r1和r2的生成無(wú)關(guān)聯(lián)性，每層級(jí)決策器獎(jiǎng)勵(lì)值的設(shè)置均與當(dāng)前層級(jí)解決的決策問(wèn)題有關(guān)，這樣可以并行訓(xùn)練兩層決策器以提高訓(xùn)練效率。再由訓(xùn)練優(yōu)化器對(duì)算法進(jìn)行訓(xùn)練更新，在其中嵌入誤差函數(shù)，通過(guò)選取一定數(shù)量包含狀態(tài)S、動(dòng)作A和獎(jiǎng)勵(lì)值r3部分信息的訓(xùn)練樣本做梯度下降計(jì)算，優(yōu)化決策網(wǎng)絡(luò)的隱藏層神經(jīng)元參數(shù)，以實(shí)現(xiàn)對(duì)決策網(wǎng)絡(luò)的訓(xùn)練更新，不斷提高網(wǎng)絡(luò)的決策水平。

圖3 算法流程結(jié)構(gòu)

3.3 基于自舉專家軌跡的經(jīng)驗(yàn)回放機(jī)制

本文設(shè)計(jì)一種基于自舉專家軌跡的經(jīng)驗(yàn)回放(Bootstrapped Expert Trajectory Memory Replay,BETMR)機(jī)制，如圖4所示，在采樣環(huán)節(jié)尋找專家軌跡，提高優(yōu)勢(shì)樣本的利用率，進(jìn)而提高算法的決策性能。

圖4 基于自舉專家軌跡的經(jīng)驗(yàn)回放機(jī)制

為提高算法找到全局最優(yōu)策略的能力，BETMR機(jī)制將專家軌跡[16]用于算法訓(xùn)練中，能夠“迫使”智能體學(xué)習(xí)優(yōu)勢(shì)樣本，提高算法決策的有效性。在干擾資源分配問(wèn)題中，所有的干擾目標(biāo)均來(lái)自即時(shí)的通信偵察，并沒(méi)有能夠加以利用的專家軌跡信息，所以需要在算法訓(xùn)練的同時(shí)尋找專家軌跡eexpert=[S,A,r,S′]，并將其存入專家經(jīng)驗(yàn)池Eexpert中。

本文中專家軌跡的判定標(biāo)準(zhǔn)不是一成不變的，尋找專家軌跡是一個(gè)動(dòng)態(tài)的過(guò)程，手動(dòng)建立或自動(dòng)生成閾值集[δ0,δ1,...,δH]。假設(shè)某一回合的目標(biāo)閾值是δm，若該回合總獎(jiǎng)勵(lì)值R>δm，則這一回合樣本為專家軌跡

目標(biāo)閾值δ呈階梯式變化，從δ0開(kāi)始設(shè)置，假設(shè)某一回合δ=δm，若R<δm+1，則下一回合目標(biāo)閾值δ=δm保持不變；若δm+1

存儲(chǔ)樣本時(shí)，每一次決策均將樣本存入Enormal中，每一回合結(jié)束時(shí)評(píng)判當(dāng)前回合樣本是否滿足專家軌跡條件，若滿足，則將樣本再存入Eexpert中。算法訓(xùn)練時(shí)，按照式(7)抽取樣本

3.4 基于BETMR的干擾資源分配決策算法

在分層強(qiáng)化學(xué)習(xí)框架下，結(jié)合基于整體對(duì)抗思想的干擾資源分配算法與BETMR(如表3所示)機(jī)制，提出基于自舉專家軌跡分層強(qiáng)化學(xué)習(xí)的干擾資源分配決策算法(BHJM)，如表4所示，將算法所需基本元素定義如下：

表3 BETMR算法

(1) 狀態(tài)空間：按照算法1步驟(2)劃分子頻段，按照威脅系數(shù)設(shè)置干擾目標(biāo)g，分別查找各個(gè)子頻段上包含g的頻點(diǎn)個(gè)數(shù)C=[C1,C2,...,CM]。干擾頻段決策器的狀態(tài)S1=[C,g]；干擾帶寬決策器的狀態(tài)S2=[CA1,CS1,g,A1]，CA1為所選子頻段內(nèi)包含g的頻點(diǎn)個(gè)數(shù)，CS1為子頻段S1包含所有目標(biāo)的頻點(diǎn)個(gè)數(shù)，A1為干擾頻段決策器的輸出動(dòng)作。

(2) 動(dòng)作空間：兩層決策器分別輸出干擾動(dòng)作A1和A2，A1為劃分子頻段中的某一個(gè)，A2用于表示干擾帶寬B，Bmax為可設(shè)置帶寬的最大值

(3) 獎(jiǎng)勵(lì)函數(shù)：在效果評(píng)估器中分別針對(duì)兩個(gè)決策環(huán)節(jié)設(shè)置獎(jiǎng)勵(lì)函數(shù)，計(jì)算獎(jiǎng)勵(lì)值，以表征決策效果。

在訓(xùn)練優(yōu)化器中，使用3.3節(jié)提出的BETMR機(jī)制選擇訓(xùn)練樣本，按照干擾不同目標(biāo)得到的不同獎(jiǎng)勵(lì)值r1來(lái) 設(shè)置δ閾值集。引入動(dòng)態(tài)Q網(wǎng)絡(luò)(Deep Q Network, DQN)算法[17]框架下的訓(xùn)練方法，分別設(shè)置估值神經(jīng)網(wǎng)絡(luò)和目標(biāo)神經(jīng)網(wǎng)絡(luò)。兩個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)相同，初始參數(shù)一致，估值神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)計(jì)算當(dāng)前狀態(tài)S的估計(jì)價(jià)值Q(S,A;θn) ，引導(dǎo)動(dòng)作A的選擇；目標(biāo)神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)計(jì)算目標(biāo)價(jià)值Q(S′,A′;θn?)。其中，θn為在n回合估值神經(jīng)網(wǎng)絡(luò)的權(quán)值參數(shù)，θn?為在n回合目標(biāo)神經(jīng)網(wǎng)絡(luò)的權(quán)值參數(shù)。

定義誤差函數(shù)L(θ)，由式(14)表示。對(duì)參數(shù)θn做梯度下降計(jì)算，以更新估值神經(jīng)網(wǎng)絡(luò)。每經(jīng)過(guò)一定回合數(shù)后，將估值神經(jīng)網(wǎng)絡(luò)的權(quán)值參數(shù)賦給目標(biāo)神經(jīng)網(wǎng)絡(luò)，使兩個(gè)網(wǎng)絡(luò)參數(shù)相同，不必實(shí)時(shí)更新目標(biāo)價(jià)值，同時(shí)減小了目標(biāo)價(jià)值選取的相關(guān)性[17]

表4為本文提出的BHJM算法，每個(gè)決策器的神經(jīng)網(wǎng)絡(luò)均設(shè)置輸入層、2個(gè)隱藏層以及輸出層，干擾頻段決策器網(wǎng)絡(luò)的隱藏層神經(jīng)元數(shù)量用式(15)表示，x為輸入層神經(jīng)元數(shù)量；干擾帶寬決策器的隱藏層神經(jīng)元數(shù)量為16，網(wǎng)絡(luò)參數(shù)的更新過(guò)程可分別用式(16)、式(17)表示

表4 BHJM算法

4 實(shí)驗(yàn)與仿真

4.1 場(chǎng)景及參數(shù)設(shè)置

經(jīng)過(guò)通信偵察獲取當(dāng)前干擾空域內(nèi)的6個(gè)跳頻目標(biāo)，頻率范圍均在200～400 MHz內(nèi)，其各類信息如表5所示。其中，根據(jù)長(zhǎng)期情報(bào)或偵察情報(bào)，可知干擾方已知每個(gè)通信網(wǎng)目標(biāo)的通信距離、信號(hào)發(fā)射機(jī)功率等參數(shù)，假設(shè)每個(gè)目標(biāo)的壓制系數(shù)均為2。各個(gè)目標(biāo)的頻率集分布情況如圖5所示。

圖5 目標(biāo)頻率集分布情況

表5 偵察目標(biāo)信息

為確保干信比能夠大于壓制系數(shù)，保證在功率域滿足干擾條件，設(shè)置干擾功率為30 kW；干擾帶寬最小為1 MHz，最大為3 MHz，其中每隔0.2 MHz設(shè)置一個(gè)可選帶寬，共有11種選擇。

4.2 不同數(shù)量干擾資源的干擾效果分析

將干擾站數(shù)量設(shè)置為6～12個(gè)共7種情況進(jìn)行仿真實(shí)驗(yàn)，分析在不同干擾資源條件下算法的干擾效果。首先對(duì)干擾帶寬決策器進(jìn)行6000回合的預(yù)訓(xùn)練，降低其對(duì)干擾頻段決策器及整體決策效果的影響。

圖6所示為不同數(shù)量干擾站的干擾效果，可見(jiàn)當(dāng)干擾站數(shù)量超過(guò)9個(gè)時(shí)，決策出的干擾策略均能夠?qū)⒛繕?biāo)全部干擾，即干擾這6個(gè)目標(biāo)最少需要9個(gè)干擾站。同時(shí)可以看出，算法訓(xùn)練中各目標(biāo)被成功干擾的收斂順序是與目標(biāo)威脅系數(shù)順序相符的，威脅系數(shù)越高的最先保證干擾。

圖6 不同數(shù)量干擾站的干擾效果

當(dāng)干擾站數(shù)量為6,7,8時(shí)，干擾資源不足，無(wú)法將所有的目標(biāo)全部干擾。當(dāng)干擾站數(shù)量為8時(shí)無(wú)法將目標(biāo)3干擾成功，干擾站數(shù)量為7時(shí)無(wú)法干擾2和3，而都能干擾目標(biāo)1，原因與目標(biāo)各頻率集的頻點(diǎn)分布有關(guān)，目標(biāo)1規(guī)劃的頻點(diǎn)與目標(biāo)5和6的頻點(diǎn)存在交錯(cuò)情況，處于同一個(gè)小區(qū)域內(nèi)，所以在干擾目標(biāo)5和6時(shí)能夠?qū)⒛繕?biāo)1一起干擾。當(dāng)干擾站數(shù)量為6時(shí)，能夠干擾目標(biāo)6, 4和2，而無(wú)法干擾前面都能干擾的目標(biāo)5和1，原因是目標(biāo)5的頻率集有10個(gè)，頻點(diǎn)數(shù)量有128個(gè)，現(xiàn)有干擾資源不足，但在嘗試干擾目標(biāo)6和5時(shí)能夠?qū)㈩l率集數(shù)量相對(duì)較少并且存在頻點(diǎn)交錯(cuò)現(xiàn)象的目標(biāo)4同時(shí)干擾。

當(dāng)干擾資源不足時(shí)，各目標(biāo)干擾成功的收斂順序仍然是與目標(biāo)威脅系數(shù)順序相符的，算法能夠保證威脅系數(shù)越高的先被干擾。同時(shí)可以分析得出，在干擾同樣目標(biāo)時(shí)，干擾資源越充足，算法訓(xùn)練收斂更快，訓(xùn)練過(guò)程更穩(wěn)定。

4.3 算法探索性對(duì)仿真效果的影響分析

基于強(qiáng)化學(xué)習(xí)的算法需要平衡探索與利用之間的關(guān)系，也就是使算法既要有一定探索性，一部分時(shí)間選擇最好的動(dòng)作，剩下時(shí)間隨機(jī)選擇動(dòng)作，避免算法收斂到局部最優(yōu)狀態(tài)；又要把握好探索性的大小，以免算法長(zhǎng)時(shí)間處于不收斂狀態(tài)。

從圖6中可以看出本實(shí)驗(yàn)分成了訓(xùn)練和測(cè)試兩個(gè)階段，當(dāng)實(shí)驗(yàn)進(jìn)入到測(cè)試階段時(shí)，決策網(wǎng)絡(luò)停止訓(xùn)練更新，同時(shí)將選擇干擾動(dòng)作的ε-greedy策略中ε值置為0，即每次均選擇Q(s,a)最大值對(duì)應(yīng)的動(dòng)作。這樣做的目的是消除決策算法的探索性，用訓(xùn)練好的網(wǎng)絡(luò)來(lái)測(cè)試算法性能。

本文算法中的ε-greedy策略就是一種兼顧探索與利用的好方法，但由于實(shí)驗(yàn)中每一回合均有6～12次使用該策略選擇干擾動(dòng)作的環(huán)節(jié)，每一回合能夠順利決策出最優(yōu)干擾策略的概率最多只有(0.9)6=0.53(ε=0.1)，所以很難通過(guò)訓(xùn)練階段的結(jié)果來(lái)判斷算法是否已經(jīng)訓(xùn)練收斂。為了避免長(zhǎng)時(shí)間訓(xùn)練算法使模型過(guò)度訓(xùn)練導(dǎo)致過(guò)擬合，需要使算法在訓(xùn)練出最優(yōu)策略后即停止訓(xùn)練。

本文設(shè)置閾值σ=(0.9)NJ，當(dāng)專家軌跡樣本在之前1500回合內(nèi)出現(xiàn)的概率超過(guò)σ，即可認(rèn)為樣本對(duì)應(yīng)策略就是算法能決策出的最優(yōu)策略，算法也已訓(xùn)練到最優(yōu)狀態(tài)，此時(shí)停止算法的訓(xùn)練更新，轉(zhuǎn)入測(cè)試階段。

分析圖6各子圖可以看出，算法按干擾優(yōu)先級(jí)順序決策干擾策略，探索性導(dǎo)致優(yōu)先級(jí)較低的目標(biāo)在訓(xùn)練階段干擾成功率較低，但按照本文方法判定算法訓(xùn)練收斂轉(zhuǎn)入測(cè)試階段后，之前成功率處于上升階段的目標(biāo)均能夠被成功干擾，證明了本文的算法收斂判斷方式是有效的。

4.4 BHJM算法與現(xiàn)有算法的決策對(duì)比

本文引用文獻(xiàn)[12]中的HDRL算法與BHJM算法對(duì)比決策效果。圖7展示了兩個(gè)算法的干擾效果對(duì)比情況，當(dāng)有9個(gè)干擾站時(shí)BHJM算法即可干擾全部目標(biāo)，而此時(shí)HDRL算法只能干擾4個(gè)目標(biāo)。當(dāng)干擾站數(shù)量為9個(gè)以下時(shí)，BHJM算法至少能干擾3個(gè)目標(biāo)，而HDRL算法最多只能干擾3個(gè)目標(biāo)。當(dāng)干擾站數(shù)量為12時(shí)，HDRL算法才能夠?qū)⑺心繕?biāo)全部干擾，此時(shí)較BHJM算法多用了3個(gè)干擾站，BHJM算法節(jié)省干擾站資源比例達(dá)到了25%。

圖7 干擾效果對(duì)比

圖8展示了兩個(gè)算法干擾帶寬的對(duì)比情況，當(dāng)干擾站數(shù)量超過(guò)10個(gè)時(shí)，BHJM算法在干擾更多目標(biāo)的同時(shí)仍能夠節(jié)約1 MHz以上的干擾帶寬。當(dāng)干擾站數(shù)量不足10個(gè)時(shí)，BHJM算法使用的干擾帶寬比HDRL算法更大，但BHJM算法能干擾的目標(biāo)更多，而HDRL算法雖然能夠節(jié)省干擾帶寬，但其無(wú)法決策出具有更好干擾效果的策略。當(dāng)干擾全部目標(biāo)相同時(shí)，BHJM算法能夠節(jié)約4 MHz干擾帶寬，比例達(dá)到15%。

圖8 干擾帶寬對(duì)比

以12個(gè)干擾站為例，若不使用任何智能算法，干擾全部目標(biāo)所需帶寬可達(dá)到3×12=36 MHz帶寬，BHJM算法可減少使用12 MHz帶寬，比例超過(guò)30%，能夠節(jié)省大量頻譜資源。

通過(guò)上述兩個(gè)對(duì)比可以看出，BHJM算法能夠在取得較好干擾效果的同時(shí)，還能節(jié)約大量干擾站資源及頻譜資源，實(shí)現(xiàn)了對(duì)干擾資源的更優(yōu)分配。

4.5 分層強(qiáng)化學(xué)習(xí)模型及BETMR機(jī)制對(duì)算法決策結(jié)果的影響分析

從圖9中可以看出，BHJM算法收斂后的平均獎(jiǎng)勵(lì)值最高，HDRL算法次之，基于DQN的算法幾乎未學(xué)習(xí)到任何有用信息，算法基本不具有決策能力，獎(jiǎng)勵(lì)值保持在0～25內(nèi)未有明顯變化?？梢?jiàn)對(duì)于模型復(fù)雜、決策維度高的各類問(wèn)題，將其拆解成各個(gè)子任務(wù)，采用分層強(qiáng)化學(xué)習(xí)模型就能夠較好解決。而DQN等傳統(tǒng)1維深度強(qiáng)化學(xué)習(xí)方法需要提前將不同的頻段與不同的帶寬組合成不同的干擾策略，每次決策出一個(gè)策略，但這樣會(huì)使得決策空間成倍增加，算法決策效率較低，無(wú)法解決此類問(wèn)題。

圖9 決策效果對(duì)比

通過(guò)對(duì)比BHJM算法和HDRL算法的獎(jiǎng)勵(lì)值可以看出，前者的平均值相較于后者高出40%以上，具有更好的決策效果。結(jié)合上一小節(jié)干擾效果對(duì)比情況可以分析得出，在分層強(qiáng)化學(xué)習(xí)模型的基礎(chǔ)上引入BETMR機(jī)制能夠讓算法學(xué)習(xí)專家軌跡，具有更強(qiáng)的決策能力。

5 結(jié)論

本文針對(duì)戰(zhàn)場(chǎng)環(huán)境下跳頻信號(hào)的干擾難題，提出一種干擾資源分配智能決策算法。該算法融合分層強(qiáng)化學(xué)習(xí)與專家軌跡等相關(guān)知識(shí)，分級(jí)決策干擾頻段和干擾帶寬，設(shè)計(jì)BETMR機(jī)制來(lái)采樣并訓(xùn)練優(yōu)化算法，使算法能夠在現(xiàn)有干擾資源特別是干擾資源不足的條件下，優(yōu)先干擾最具威脅目標(biāo)，最優(yōu)分配干擾資源，具有首創(chuàng)性意義。仿真結(jié)果表明，基于分層強(qiáng)化學(xué)習(xí)模型能夠解決復(fù)雜的干擾問(wèn)題，設(shè)計(jì)的BETMR機(jī)制能夠使算法具有更強(qiáng)的決策能力，算法整體較現(xiàn)有資源分配決策算法節(jié)約25%干擾站資源，減少15%干擾帶寬，具有較大實(shí)用價(jià)值。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡