許 華 宋佰霖 蔣 磊 饒 寧 史蘊(yùn)豪
(空軍工程大學(xué)信息與導(dǎo)航學(xué)院 西安 710077)
在通信對(duì)抗作戰(zhàn)過(guò)程中,干擾決策是核心環(huán)節(jié),選擇最優(yōu)的干擾策略能夠節(jié)省干擾資源,提高干擾成功率。一些基于博弈論[1]、遺傳算法[2]等方法的干擾決策研究相繼取得成果,這些研究主要從干擾樣式、目標(biāo)、功率等方面入手,通過(guò)建立通信方與干擾方的對(duì)抗模型,尋找最優(yōu)干擾策略。此類方法在解決小規(guī)模決策問(wèn)題上理論成熟,具有一定優(yōu)勢(shì),但很難用于解決戰(zhàn)場(chǎng)條件下多維度、大空間、小樣本決策問(wèn)題。
隨著人工智能技術(shù)的蓬勃發(fā)展,結(jié)合人工智能技術(shù)的認(rèn)知電子戰(zhàn)相關(guān)研究取得較大進(jìn)展[3]。在認(rèn)知電子戰(zhàn)系統(tǒng)的智能決策環(huán)節(jié),多采用強(qiáng)化學(xué)習(xí)相關(guān)方法,能夠?yàn)橹笓]員快速、準(zhǔn)確提供輔助決策。強(qiáng)化學(xué)習(xí)是一種無(wú)需先驗(yàn)知識(shí),智能體通過(guò)與環(huán)境交互訓(xùn)練,使數(shù)值化收益值最大的一種機(jī)器學(xué)習(xí)理論,廣泛應(yīng)用于智能決策與控制[4]、自動(dòng)駕駛[5]、組合優(yōu)化[6]以及資源分配[7]等領(lǐng)域中?;趶?qiáng)化學(xué)習(xí)的干擾決策方法研究近年來(lái)取得較大突破,文獻(xiàn)[8]建立多臂賭博機(jī)干擾模型,對(duì)物理層中信號(hào)體制、功率等級(jí)等參數(shù)進(jìn)行優(yōu)化,以獲得功率最優(yōu)分配的干擾策略;文獻(xiàn)[9]在一種延遲信息場(chǎng)景下,從信息狀態(tài)轉(zhuǎn)移中獲取獎(jiǎng)勵(lì),針對(duì)802.11機(jī)制無(wú)線網(wǎng)絡(luò)決策最優(yōu)干擾策略;文獻(xiàn)[10]采用雙層強(qiáng)化學(xué)習(xí)方法,能夠在未知通信協(xié)議情況下以犧牲交互時(shí)間為代價(jià)學(xué)習(xí)到最佳干擾策略;文獻(xiàn)[11]通過(guò)學(xué)習(xí)最佳干擾信號(hào)的同相分量和正交分量,得到最優(yōu)干擾參數(shù)和最佳干擾樣式。然而大部分基于強(qiáng)化學(xué)習(xí)的干擾決策方法研究是關(guān)于干擾樣式、功率、物理層參數(shù)的,而幾乎沒(méi)有關(guān)于干擾資源分配問(wèn)題的?,F(xiàn)如今在電磁頻譜作戰(zhàn)中,頻譜管控、資源分配是關(guān)鍵一環(huán),最優(yōu)化分配干擾資源能夠在取得最好干擾效果的同時(shí)使用較少的干擾力量,并且不過(guò)多占用電磁頻譜資源,保證己方通信正常進(jìn)行,所以針對(duì)資源分配的干擾決策研究是至關(guān)重要的。
文獻(xiàn)[12]提出一種分層深度強(qiáng)化學(xué)習(xí)抗干擾(Hierarchical Deep Reinforcement Learning antijamming algorithm, HDRL)頻率決策算法,該算法在分層強(qiáng)化學(xué)習(xí)模型下分級(jí)決策通信頻率,可以在干擾樣式未知的條件下有效躲避干擾并減小計(jì)算量。雖然HDRL算法應(yīng)用于通信抗干擾決策場(chǎng)景,但其分層決策結(jié)構(gòu)具有較強(qiáng)適用性,也能夠應(yīng)用于干擾資源分配決策場(chǎng)景。
常用的抗干擾通信手段中,跳頻通信應(yīng)用最為廣泛。本文針對(duì)在跳頻干擾中干擾資源分配決策難題,提出一種基于自舉專家軌跡分層強(qiáng)化學(xué)習(xí)的干擾資源分配決策算法(Bootstrapped expert trajectory memory replay - Hierarchical reinforcement learning - Jamming resources distribution decision -Making algorithm, BHJM),按照偵察到的所有跳頻頻點(diǎn)分布劃分子頻段,分層決策干擾頻段及干擾帶寬,并利用本文設(shè)計(jì)的基于自舉專家軌跡的經(jīng)驗(yàn)回放 (Bootstrapped Expert Trajectory Memory Replay, BETMR)機(jī)制采樣、訓(xùn)練算法,使算法能夠在現(xiàn)有干擾資源條件下,按照目標(biāo)干擾優(yōu)先級(jí)順序,使用盡可能小的干擾帶寬實(shí)現(xiàn)最優(yōu)干擾效果。
跳頻通信電臺(tái)通常使用頻分方式進(jìn)行組網(wǎng),即在全頻段內(nèi)選擇頻點(diǎn)規(guī)劃跳頻頻率集,不同的頻率集之間通常無(wú)相同頻點(diǎn)。針對(duì)跳頻通信常使用跟蹤式干擾、攔阻式干擾等手段,隨著跳頻速率不斷增加,在每一跳上的駐留時(shí)間越來(lái)越短,最基本的跟蹤式干擾很難完成干擾任務(wù)。攔阻式干擾通過(guò)對(duì)某一頻段范圍內(nèi)干擾信號(hào)實(shí)施壓制性干擾,只要頻段內(nèi)包含目標(biāo)頻點(diǎn),且干擾功率滿足干信比條件,即可使干擾奏效。忽略收發(fā)天線不同帶來(lái)的極化損失,干信比計(jì)算方法可用式(1)表示
其中,PJ為 干擾機(jī)的發(fā)射功率,PS為信號(hào)發(fā)射機(jī)的發(fā)射功率;HJ為干擾機(jī)發(fā)射天線與信號(hào)接收天線增益之積,HS為信號(hào)發(fā)射機(jī)天線增益與接收天線增益之積;LJ和LS分別為干擾機(jī)信號(hào)和通信信號(hào)傳輸?shù)目臻g損耗,用式(2)表示,R為信號(hào)傳播距離
將式(2)代入式(1)中,可得到干信比的一般計(jì)算表示方法,如式(3)所示
如圖1所示為一個(gè)典型的干擾場(chǎng)景,在一個(gè)較小區(qū)域內(nèi)部署了多個(gè)地面通信干擾站,其干擾空域相同,通過(guò)偵察發(fā)現(xiàn)干擾空域內(nèi)有多個(gè)跳頻通信網(wǎng)。在實(shí)際中需要按照某些復(fù)雜規(guī)則來(lái)劃分通信網(wǎng)的威脅系數(shù),本文為簡(jiǎn)便起見(jiàn)僅考慮距離因素,按照每個(gè)通信網(wǎng)與干擾方的距離不同劃分威脅系數(shù),距離越近威脅系數(shù)越高。如表1所示,由于N1距離干擾站最近,所以其威脅系數(shù)最高為6;而N6距離干擾站最遠(yuǎn),其威脅系數(shù)最小為1。干擾資源分配決策一般從通信目標(biāo)的威脅系數(shù)入手,威脅系數(shù)越高,對(duì)其干擾的優(yōu)先級(jí)也就越高。
圖1 典型干擾場(chǎng)景
表1 目標(biāo)屬性
假設(shè)現(xiàn)有通信網(wǎng)目標(biāo)均為超短波信號(hào),每個(gè)干擾站均采用寬帶攔阻式干擾,每個(gè)頻譜帶寬內(nèi)具有均勻相等的頻譜分量,且各站干擾發(fā)射功率相同。干擾空域內(nèi)共有M個(gè)通信網(wǎng)目標(biāo),W個(gè)干擾站;通信網(wǎng)內(nèi)作戰(zhàn)飛機(jī)間的信號(hào)傳輸距離用RS表示,干擾距離用RJ表 示。以通信網(wǎng)N1為例,對(duì)其干擾的干信比可用式(4)表示,當(dāng)干信比大于壓制系數(shù)KN1并且干擾該目標(biāo)頻率集1/3以上頻點(diǎn)時(shí),干擾有效,通信網(wǎng)N1的通信被阻斷
在干擾站偵收到跳頻信號(hào)后,通常對(duì)其中混合的多個(gè)跳頻信號(hào)進(jìn)行分選。首先利用短時(shí)傅里葉變換、小波變換、譜圖變換等時(shí)頻分析方法分析估計(jì)跳頻頻率集、跳頻周期等特征參數(shù),再基于時(shí)空頻信息將不同通信網(wǎng)的信號(hào)分開(kāi),實(shí)現(xiàn)對(duì)目標(biāo)的精準(zhǔn)干擾。
如圖2所示為某時(shí)刻經(jīng)過(guò)網(wǎng)臺(tái)分選后跳頻目標(biāo)的頻點(diǎn)分布情況,在200~400 MHz內(nèi)共有6個(gè)目標(biāo),每個(gè)目標(biāo)規(guī)劃有一個(gè)頻率集。圖2中藍(lán)色虛線方框所在頻段的頻點(diǎn)較為密集,在一個(gè)頻段內(nèi)有多個(gè)目標(biāo)的跳頻頻點(diǎn),并且不同目標(biāo)的頻點(diǎn)還存在交錯(cuò)排列的情況,此時(shí)在不同位置施放攔阻干擾帶會(huì)對(duì)干擾資源分配及整體干擾效果產(chǎn)生不同影響。將所有目標(biāo)頻點(diǎn)合并為整體進(jìn)行干擾規(guī)劃,尋找包含多個(gè)不同目標(biāo)的頻段實(shí)施干擾,可實(shí)現(xiàn)對(duì)多個(gè)目標(biāo)的同時(shí)干擾,進(jìn)而能夠降低干擾站的使用數(shù)量,減少干擾帶寬,實(shí)現(xiàn)對(duì)干擾資源的優(yōu)化分配。
針對(duì)干擾資源分配不合理、無(wú)優(yōu)化算法支撐決策等問(wèn)題,本文提出基于整體對(duì)抗思想的干擾資源分配算法,如表2所示,以實(shí)現(xiàn)在現(xiàn)有干擾資源下,按照干擾優(yōu)先級(jí)順序,使用盡可能小的干擾帶寬實(shí)現(xiàn)最優(yōu)干擾效果。
表2 干擾資源分配算法
該算法將所有目標(biāo)頻點(diǎn)按照頻率大小順序排列,若前后兩頻點(diǎn)頻率差大于攔阻干擾最大帶寬Bmax,說(shuō)明這兩個(gè)頻點(diǎn)不可能被同一攔阻干擾帶干擾,即將兩頻點(diǎn)劃入前后兩個(gè)不同子頻段中。按照上述方法劃分頻點(diǎn),直至所有頻點(diǎn)均被劃入各個(gè)子頻段中,圖2中紅色虛線方框即為劃分后的子頻段。
圖2 200~400 MHz頻率分布
分層強(qiáng)化學(xué)習(xí)的核心思想是將復(fù)雜的深度強(qiáng)化學(xué)習(xí)問(wèn)題拆解為若干個(gè)子問(wèn)題,通過(guò)解決各個(gè)子問(wèn)題來(lái)最終解決整體問(wèn)題。通過(guò)給不同層級(jí)的子問(wèn)題分別設(shè)置獎(jiǎng)勵(lì)函數(shù),能夠有效解決復(fù)雜問(wèn)題獎(jiǎng)勵(lì)稀疏、不容易收斂的難題[13,14]。
在干擾資源分配決策問(wèn)題中,需要同時(shí)解決干擾頻段的決策和干擾帶寬的決策,直觀上可以采用窮舉法得到問(wèn)題的最優(yōu)解,然而在戰(zhàn)場(chǎng)條件下,目標(biāo)數(shù)量眾多且頻率分布復(fù)雜多變,解的數(shù)量呈指數(shù)級(jí)增長(zhǎng),計(jì)算量難以承受[15]。本文設(shè)計(jì)了一種基于分層強(qiáng)化學(xué)習(xí)的決策算法,將決策干擾頻段和決策干擾帶寬作為兩個(gè)子任務(wù)來(lái)分別決策,決策網(wǎng)絡(luò)如圖3藍(lán)色虛線方框所示。
干擾頻段決策器結(jié)合環(huán)境狀態(tài)S1決策出干擾動(dòng)作A1,即干擾頻段;干擾帶寬決策器結(jié)合環(huán)境狀態(tài)S2和 干擾動(dòng)作A1決 策出干擾動(dòng)作A2,即干擾帶寬。兩層決策出的干擾動(dòng)作組成干擾策略P1=[A1,A2]施放干擾,改變環(huán)境狀態(tài)為S′。圖3所示為算法的模型結(jié)構(gòu),除各層決策器以外,模型還包括效果評(píng)估器和訓(xùn)練優(yōu)化器部分。在效果評(píng)估器中設(shè)置獎(jiǎng)勵(lì)函數(shù),并根據(jù)S的變化分別計(jì)算干擾動(dòng)作A1和A2的獎(jiǎng)勵(lì)值r1和r2,獎(jiǎng)勵(lì)值的高低即反映了決策效果。r1和r2的生成無(wú)關(guān)聯(lián)性,每層級(jí)決策器獎(jiǎng)勵(lì)值的設(shè)置均與當(dāng)前層級(jí)解決的決策問(wèn)題有關(guān),這樣可以并行訓(xùn)練兩層決策器以提高訓(xùn)練效率。再由訓(xùn)練優(yōu)化器對(duì)算法進(jìn)行訓(xùn)練更新,在其中嵌入誤差函數(shù),通過(guò)選取一定數(shù)量包含狀態(tài)S、動(dòng)作A和獎(jiǎng)勵(lì)值r3部分信息的訓(xùn)練樣本做梯度下降計(jì)算,優(yōu)化決策網(wǎng)絡(luò)的隱藏層神經(jīng)元參數(shù),以實(shí)現(xiàn)對(duì)決策網(wǎng)絡(luò)的訓(xùn)練更新,不斷提高網(wǎng)絡(luò)的決策水平。
圖3 算法流程結(jié)構(gòu)
本文設(shè)計(jì)一種基于自舉專家軌跡的經(jīng)驗(yàn)回放(Bootstrapped Expert Trajectory Memory Replay,BETMR)機(jī)制,如圖4所示,在采樣環(huán)節(jié)尋找專家軌跡,提高優(yōu)勢(shì)樣本的利用率,進(jìn)而提高算法的決策性能。
圖4 基于自舉專家軌跡的經(jīng)驗(yàn)回放機(jī)制
為提高算法找到全局最優(yōu)策略的能力,BETMR機(jī)制將專家軌跡[16]用于算法訓(xùn)練中,能夠“迫使”智能體學(xué)習(xí)優(yōu)勢(shì)樣本,提高算法決策的有效性。在干擾資源分配問(wèn)題中,所有的干擾目標(biāo)均來(lái)自即時(shí)的通信偵察,并沒(méi)有能夠加以利用的專家軌跡信息,所以需要在算法訓(xùn)練的同時(shí)尋找專家軌跡eexpert=[S,A,r,S′], 并將其存入專家經(jīng)驗(yàn)池Eexpert中。
本文中專家軌跡的判定標(biāo)準(zhǔn)不是一成不變的,尋找專家軌跡是一個(gè)動(dòng)態(tài)的過(guò)程,手動(dòng)建立或自動(dòng)生成閾值集[δ0,δ1,...,δH]。假設(shè)某一回合的目標(biāo)閾值是δm,若該回合總獎(jiǎng)勵(lì)值R>δm,則這一回合樣本為專家軌跡
目標(biāo)閾值δ呈階梯式變化,從δ0開(kāi)始設(shè)置,假設(shè)某一回合δ=δm,若R<δm+1,則下一回合目標(biāo)閾值δ=δm保 持不變;若δm+1 存儲(chǔ)樣本時(shí),每一次決策均將樣本存入Enormal中,每一回合結(jié)束時(shí)評(píng)判當(dāng)前回合樣本是否滿足專家軌跡條件,若滿足,則將樣本再存入Eexpert中。算法訓(xùn)練時(shí),按照式(7)抽取樣本 在分層強(qiáng)化學(xué)習(xí)框架下,結(jié)合基于整體對(duì)抗思想的干擾資源分配算法與BETMR(如表3所示)機(jī)制,提出基于自舉專家軌跡分層強(qiáng)化學(xué)習(xí)的干擾資源分配決策算法(BHJM),如表4所示,將算法所需基本元素定義如下: 表3 BETMR算法 (1) 狀態(tài)空間:按照算法1步驟(2)劃分子頻段,按照威脅系數(shù)設(shè)置干擾目標(biāo)g,分別查找各個(gè)子頻段上包含g的頻點(diǎn)個(gè)數(shù)C=[C1,C2,...,CM]。干擾頻段決策器的狀態(tài)S1=[C,g];干擾帶寬決策器的狀態(tài)S2=[CA1,CS1,g,A1],CA1為 所選子頻段內(nèi)包含g的頻點(diǎn)個(gè)數(shù),CS1為 子頻段S1包含所有目標(biāo)的頻點(diǎn)個(gè)數(shù),A1為干擾頻段決策器的輸出動(dòng)作。 (2) 動(dòng)作空間:兩層決策器分別輸出干擾動(dòng)作A1和A2,A1為 劃分子頻段中的某一個(gè),A2用于表示干擾帶寬B,Bmax為可設(shè)置帶寬的最大值 (3) 獎(jiǎng)勵(lì)函數(shù):在效果評(píng)估器中分別針對(duì)兩個(gè)決策環(huán)節(jié)設(shè)置獎(jiǎng)勵(lì)函數(shù),計(jì)算獎(jiǎng)勵(lì)值,以表征決策效果。 在訓(xùn)練優(yōu)化器中,使用3.3節(jié)提出的BETMR機(jī)制選擇訓(xùn)練樣本,按照干擾不同目標(biāo)得到的不同獎(jiǎng)勵(lì)值r1來(lái) 設(shè)置δ閾值集。引入動(dòng)態(tài)Q網(wǎng)絡(luò)(Deep Q Network, DQN)算法[17]框架下的訓(xùn)練方法,分別設(shè)置估值神經(jīng)網(wǎng)絡(luò)和目標(biāo)神經(jīng)網(wǎng)絡(luò)。兩個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)相同,初始參數(shù)一致,估值神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)計(jì)算當(dāng)前狀態(tài)S的估計(jì)價(jià)值Q(S,A;θn) , 引導(dǎo)動(dòng)作A的選擇;目標(biāo)神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)計(jì)算目標(biāo)價(jià)值Q(S′,A′;θn?)。其中,θn為 在n回 合估值神經(jīng)網(wǎng)絡(luò)的權(quán)值參數(shù),θn?為在n回合目標(biāo)神經(jīng)網(wǎng)絡(luò)的權(quán)值參數(shù)。 定義誤差函數(shù)L(θ),由式(14)表示。對(duì)參數(shù)θn做梯度下降計(jì)算,以更新估值神經(jīng)網(wǎng)絡(luò)。每經(jīng)過(guò)一定回合數(shù)后,將估值神經(jīng)網(wǎng)絡(luò)的權(quán)值參數(shù)賦給目標(biāo)神經(jīng)網(wǎng)絡(luò),使兩個(gè)網(wǎng)絡(luò)參數(shù)相同,不必實(shí)時(shí)更新目標(biāo)價(jià)值,同時(shí)減小了目標(biāo)價(jià)值選取的相關(guān)性[17] 表4為本文提出的BHJM算法,每個(gè)決策器的神經(jīng)網(wǎng)絡(luò)均設(shè)置輸入層、2個(gè)隱藏層以及輸出層,干擾頻段決策器網(wǎng)絡(luò)的隱藏層神經(jīng)元數(shù)量用式(15)表示,x為輸入層神經(jīng)元數(shù)量;干擾帶寬決策器的隱藏層神經(jīng)元數(shù)量為16,網(wǎng)絡(luò)參數(shù)的更新過(guò)程可分別用式(16)、式(17)表示 表4 BHJM算法 經(jīng)過(guò)通信偵察獲取當(dāng)前干擾空域內(nèi)的6個(gè)跳頻目標(biāo),頻率范圍均在200~400 MHz內(nèi),其各類信息如表5所示。其中,根據(jù)長(zhǎng)期情報(bào)或偵察情報(bào),可知干擾方已知每個(gè)通信網(wǎng)目標(biāo)的通信距離、信號(hào)發(fā)射機(jī)功率等參數(shù),假設(shè)每個(gè)目標(biāo)的壓制系數(shù)均為2。各個(gè)目標(biāo)的頻率集分布情況如圖5所示。 圖5 目標(biāo)頻率集分布情況 表5 偵察目標(biāo)信息 為確保干信比能夠大于壓制系數(shù),保證在功率域滿足干擾條件,設(shè)置干擾功率為30 kW;干擾帶寬最小為1 MHz,最大為3 MHz,其中每隔0.2 MHz設(shè)置一個(gè)可選帶寬,共有11種選擇。 將干擾站數(shù)量設(shè)置為6~12個(gè)共7種情況進(jìn)行仿真實(shí)驗(yàn),分析在不同干擾資源條件下算法的干擾效果。首先對(duì)干擾帶寬決策器進(jìn)行6000回合的預(yù)訓(xùn)練,降低其對(duì)干擾頻段決策器及整體決策效果的影響。 圖6所示為不同數(shù)量干擾站的干擾效果,可見(jiàn)當(dāng)干擾站數(shù)量超過(guò)9個(gè)時(shí),決策出的干擾策略均能夠?qū)⒛繕?biāo)全部干擾,即干擾這6個(gè)目標(biāo)最少需要9個(gè)干擾站。同時(shí)可以看出,算法訓(xùn)練中各目標(biāo)被成功干擾的收斂順序是與目標(biāo)威脅系數(shù)順序相符的,威脅系數(shù)越高的最先保證干擾。 圖6 不同數(shù)量干擾站的干擾效果 當(dāng)干擾站數(shù)量為6,7,8時(shí),干擾資源不足,無(wú)法將所有的目標(biāo)全部干擾。當(dāng)干擾站數(shù)量為8時(shí)無(wú)法將目標(biāo)3干擾成功,干擾站數(shù)量為7時(shí)無(wú)法干擾2和3,而都能干擾目標(biāo)1,原因與目標(biāo)各頻率集的頻點(diǎn)分布有關(guān),目標(biāo)1規(guī)劃的頻點(diǎn)與目標(biāo)5和6的頻點(diǎn)存在交錯(cuò)情況,處于同一個(gè)小區(qū)域內(nèi),所以在干擾目標(biāo)5和6時(shí)能夠?qū)⒛繕?biāo)1一起干擾。當(dāng)干擾站數(shù)量為6時(shí),能夠干擾目標(biāo)6, 4和2,而無(wú)法干擾前面都能干擾的目標(biāo)5和1,原因是目標(biāo)5的頻率集有10個(gè),頻點(diǎn)數(shù)量有128個(gè),現(xiàn)有干擾資源不足,但在嘗試干擾目標(biāo)6和5時(shí)能夠?qū)㈩l率集數(shù)量相對(duì)較少并且存在頻點(diǎn)交錯(cuò)現(xiàn)象的目標(biāo)4同時(shí)干擾。 當(dāng)干擾資源不足時(shí),各目標(biāo)干擾成功的收斂順序仍然是與目標(biāo)威脅系數(shù)順序相符的,算法能夠保證威脅系數(shù)越高的先被干擾。同時(shí)可以分析得出,在干擾同樣目標(biāo)時(shí),干擾資源越充足,算法訓(xùn)練收斂更快,訓(xùn)練過(guò)程更穩(wěn)定。 基于強(qiáng)化學(xué)習(xí)的算法需要平衡探索與利用之間的關(guān)系,也就是使算法既要有一定探索性,一部分時(shí)間選擇最好的動(dòng)作,剩下時(shí)間隨機(jī)選擇動(dòng)作,避免算法收斂到局部最優(yōu)狀態(tài);又要把握好探索性的大小,以免算法長(zhǎng)時(shí)間處于不收斂狀態(tài)。 從圖6中可以看出本實(shí)驗(yàn)分成了訓(xùn)練和測(cè)試兩個(gè)階段,當(dāng)實(shí)驗(yàn)進(jìn)入到測(cè)試階段時(shí),決策網(wǎng)絡(luò)停止訓(xùn)練更新,同時(shí)將選擇干擾動(dòng)作的ε-greedy策略中ε值置為0,即每次均選擇Q(s,a)最大值對(duì)應(yīng)的動(dòng)作。這樣做的目的是消除決策算法的探索性,用訓(xùn)練好的網(wǎng)絡(luò)來(lái)測(cè)試算法性能。 本文算法中的ε-greedy策略就是一種兼顧探索與利用的好方法,但由于實(shí)驗(yàn)中每一回合均有6~12次使用該策略選擇干擾動(dòng)作的環(huán)節(jié),每一回合能夠順利決策出最優(yōu)干擾策略的概率最多只有(0.9)6=0.53(ε=0.1),所以很難通過(guò)訓(xùn)練階段的結(jié)果來(lái)判斷算法是否已經(jīng)訓(xùn)練收斂。為了避免長(zhǎng)時(shí)間訓(xùn)練算法使模型過(guò)度訓(xùn)練導(dǎo)致過(guò)擬合,需要使算法在訓(xùn)練出最優(yōu)策略后即停止訓(xùn)練。 本文設(shè)置閾值σ=(0.9)NJ,當(dāng)專家軌跡樣本在之前1500回合內(nèi)出現(xiàn)的概率超過(guò)σ,即可認(rèn)為樣本對(duì)應(yīng)策略就是算法能決策出的最優(yōu)策略,算法也已訓(xùn)練到最優(yōu)狀態(tài),此時(shí)停止算法的訓(xùn)練更新,轉(zhuǎn)入測(cè)試階段。 分析圖6各子圖可以看出,算法按干擾優(yōu)先級(jí)順序決策干擾策略,探索性導(dǎo)致優(yōu)先級(jí)較低的目標(biāo)在訓(xùn)練階段干擾成功率較低,但按照本文方法判定算法訓(xùn)練收斂轉(zhuǎn)入測(cè)試階段后,之前成功率處于上升階段的目標(biāo)均能夠被成功干擾,證明了本文的算法收斂判斷方式是有效的。 本文引用文獻(xiàn)[12]中的HDRL算法與BHJM算法對(duì)比決策效果。圖7展示了兩個(gè)算法的干擾效果對(duì)比情況,當(dāng)有9個(gè)干擾站時(shí)BHJM算法即可干擾全部目標(biāo),而此時(shí)HDRL算法只能干擾4個(gè)目標(biāo)。當(dāng)干擾站數(shù)量為9個(gè)以下時(shí),BHJM算法至少能干擾3個(gè)目標(biāo),而HDRL算法最多只能干擾3個(gè)目標(biāo)。當(dāng)干擾站數(shù)量為12時(shí),HDRL算法才能夠?qū)⑺心繕?biāo)全部干擾,此時(shí)較BHJM算法多用了3個(gè)干擾站,BHJM算法節(jié)省干擾站資源比例達(dá)到了25%。 圖7 干擾效果對(duì)比 圖8展示了兩個(gè)算法干擾帶寬的對(duì)比情況,當(dāng)干擾站數(shù)量超過(guò)10個(gè)時(shí),BHJM算法在干擾更多目標(biāo)的同時(shí)仍能夠節(jié)約1 MHz以上的干擾帶寬。當(dāng)干擾站數(shù)量不足10個(gè)時(shí),BHJM算法使用的干擾帶寬比HDRL算法更大,但BHJM算法能干擾的目標(biāo)更多,而HDRL算法雖然能夠節(jié)省干擾帶寬,但其無(wú)法決策出具有更好干擾效果的策略。當(dāng)干擾全部目標(biāo)相同時(shí),BHJM算法能夠節(jié)約4 MHz干擾帶寬,比例達(dá)到15%。 圖8 干擾帶寬對(duì)比 以12個(gè)干擾站為例,若不使用任何智能算法,干擾全部目標(biāo)所需帶寬可達(dá)到3×12=36 MHz帶寬,BHJM算法可減少使用12 MHz帶寬,比例超過(guò)30%,能夠節(jié)省大量頻譜資源。 通過(guò)上述兩個(gè)對(duì)比可以看出,BHJM算法能夠在取得較好干擾效果的同時(shí),還能節(jié)約大量干擾站資源及頻譜資源,實(shí)現(xiàn)了對(duì)干擾資源的更優(yōu)分配。 從圖9中可以看出,BHJM算法收斂后的平均獎(jiǎng)勵(lì)值最高,HDRL算法次之,基于DQN的算法幾乎未學(xué)習(xí)到任何有用信息,算法基本不具有決策能力,獎(jiǎng)勵(lì)值保持在0~25內(nèi)未有明顯變化??梢?jiàn)對(duì)于模型復(fù)雜、決策維度高的各類問(wèn)題,將其拆解成各個(gè)子任務(wù),采用分層強(qiáng)化學(xué)習(xí)模型就能夠較好解決。而DQN等傳統(tǒng)1維深度強(qiáng)化學(xué)習(xí)方法需要提前將不同的頻段與不同的帶寬組合成不同的干擾策略,每次決策出一個(gè)策略,但這樣會(huì)使得決策空間成倍增加,算法決策效率較低,無(wú)法解決此類問(wèn)題。 圖9 決策效果對(duì)比 通過(guò)對(duì)比BHJM算法和HDRL算法的獎(jiǎng)勵(lì)值可以看出,前者的平均值相較于后者高出40%以上,具有更好的決策效果。結(jié)合上一小節(jié)干擾效果對(duì)比情況可以分析得出,在分層強(qiáng)化學(xué)習(xí)模型的基礎(chǔ)上引入BETMR機(jī)制能夠讓算法學(xué)習(xí)專家軌跡,具有更強(qiáng)的決策能力。 本文針對(duì)戰(zhàn)場(chǎng)環(huán)境下跳頻信號(hào)的干擾難題,提出一種干擾資源分配智能決策算法。該算法融合分層強(qiáng)化學(xué)習(xí)與專家軌跡等相關(guān)知識(shí),分級(jí)決策干擾頻段和干擾帶寬,設(shè)計(jì)BETMR機(jī)制來(lái)采樣并訓(xùn)練優(yōu)化算法,使算法能夠在現(xiàn)有干擾資源特別是干擾資源不足的條件下,優(yōu)先干擾最具威脅目標(biāo),最優(yōu)分配干擾資源,具有首創(chuàng)性意義。仿真結(jié)果表明,基于分層強(qiáng)化學(xué)習(xí)模型能夠解決復(fù)雜的干擾問(wèn)題,設(shè)計(jì)的BETMR機(jī)制能夠使算法具有更強(qiáng)的決策能力,算法整體較現(xiàn)有資源分配決策算法節(jié)約25%干擾站資源,減少15%干擾帶寬,具有較大實(shí)用價(jià)值。3.4 基于BETMR的干擾資源分配決策算法
4 實(shí)驗(yàn)與仿真
4.1 場(chǎng)景及參數(shù)設(shè)置
4.2 不同數(shù)量干擾資源的干擾效果分析
4.3 算法探索性對(duì)仿真效果的影響分析
4.4 BHJM算法與現(xiàn)有算法的決策對(duì)比
4.5 分層強(qiáng)化學(xué)習(xí)模型及BETMR機(jī)制對(duì)算法決策結(jié)果的影響分析
5 結(jié)論