国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于DQN的探測干擾一體化波形優(yōu)化設(shè)計(jì)

2023-03-09 02:54:46胡學(xué)晶肖易寒
關(guān)鍵詞:干擾信號(hào)間歇遺傳算法

陳 濤, 張 穎,*, 胡學(xué)晶, 肖易寒

(1. 哈爾濱工程大學(xué)信息與通信工程學(xué)院, 黑龍江 哈爾濱 150001;2. 哈爾濱工程大學(xué)先進(jìn)船舶通信與信息技術(shù)工業(yè)和信息化部重點(diǎn)實(shí)驗(yàn)室, 黑龍江 哈爾濱 150001)

0 引 言

隨著現(xiàn)代軍事電子干擾、電子偵察技術(shù)的不斷發(fā)展,雷達(dá)面臨的電磁環(huán)境日益復(fù)雜[1],有效攻擊對(duì)方電子系統(tǒng)和有效保護(hù)己方電子系統(tǒng)以阻止和破壞對(duì)方電子設(shè)備對(duì)電磁的利用都尤為重要,因此作戰(zhàn)平臺(tái)需要配備雷達(dá)、干擾機(jī)等,而功能單一且相互獨(dú)立的作戰(zhàn)設(shè)備占用大量資源且相互之間有較強(qiáng)電磁干擾,嚴(yán)重影響作戰(zhàn)能力。未來系統(tǒng)化戰(zhàn)爭武器裝備趨向于向一機(jī)多能的方向發(fā)展。近年來,有一些學(xué)者研究了雷達(dá)干擾一體化共享信號(hào)的方法。文獻(xiàn)[2]提出了一種基于雙載頻偽隨機(jī)二相編碼信號(hào)的干擾探測一體化信號(hào)波形。文獻(xiàn)[3]提出了一種偽碼噪聲調(diào)頻與線性調(diào)頻復(fù)合調(diào)制的探測干擾共享波形。文獻(xiàn)[4]應(yīng)用遺傳算法設(shè)計(jì)了一種基于正交頻分復(fù)用的雷達(dá)通信一體化共享信號(hào)波形優(yōu)化方法。文獻(xiàn)[5]根據(jù)干擾帶寬設(shè)計(jì)了探測干擾一體化信號(hào)波形。文獻(xiàn)[6]研究了具有低截獲概率的雷達(dá)干擾波形設(shè)計(jì)。同時(shí),隨著認(rèn)知雷達(dá)[7]的發(fā)展,一些基于智能算法的雷達(dá)干擾波形設(shè)計(jì)也得到了廣泛關(guān)注。文獻(xiàn)[8]通過模仿蝙蝠的認(rèn)知學(xué)習(xí)過程,將信息反饋給發(fā)射機(jī),實(shí)現(xiàn)自適應(yīng)探測和處理。文獻(xiàn)[9]提出了基于Q學(xué)習(xí)的智能雷達(dá)對(duì)抗方法。文獻(xiàn)[10]提出了基于強(qiáng)化學(xué)習(xí)的認(rèn)知干擾波形設(shè)計(jì),有效地對(duì)雷達(dá)檢測環(huán)節(jié)進(jìn)行了干擾。 文獻(xiàn)[11]提出了基于深度Q網(wǎng)絡(luò)(deep Q-network, DQN)的干擾決策方法。上述論文更多是從雷達(dá)角度出發(fā)設(shè)計(jì)具有噪聲壓制特性的探測干擾一體化信號(hào)。受此啟發(fā),本文考慮從干擾的角度出發(fā)設(shè)計(jì)一體化信號(hào),使發(fā)射的干擾信號(hào)還具有探測功能。

首先介紹了一體化信號(hào)的工作場景,在此基礎(chǔ)上對(duì)一體化信號(hào)進(jìn)行了建模。同時(shí),從模糊函數(shù)以及恒虛警概率(constant false alarm rate, CFAR)[20]檢測技術(shù)的角度設(shè)計(jì)了探測干擾一體化性能評(píng)價(jià)函數(shù)。其中,DQN作為一種智能算法,針對(duì)數(shù)據(jù)量大的狀態(tài)空間具有良好的決策能力,尤其是在實(shí)際環(huán)境中,雷達(dá)信號(hào)形式不固定使得傳統(tǒng)干擾庫方法無法滿足實(shí)際需求[12-13]。因此,采用DQN算法進(jìn)行求解,獲取最優(yōu)一體化波形,最后通過對(duì)比仿真驗(yàn)證了該方法的有效性。

1 一體化信號(hào)模型建立

1.1 場景描述

干擾信號(hào)可以分為壓制干擾信號(hào)和欺騙干擾信號(hào)[14],欺騙干擾信號(hào)主要是在對(duì)方雷達(dá)信號(hào)的基礎(chǔ)上設(shè)計(jì)干擾信號(hào)。而本文設(shè)計(jì)的探測干擾一體化信號(hào)是欺騙干擾信號(hào),即將探測信號(hào)隱藏在干擾信號(hào)中,一體化信號(hào)的工作場景如圖1所示。圖1中,假設(shè)對(duì)方雷達(dá)發(fā)射雷達(dá)信號(hào)s(t),己方在檢測到對(duì)方雷達(dá)信號(hào)后,將s(t)信號(hào)與調(diào)制信號(hào)u(t)進(jìn)行相干調(diào)制,得到干擾信號(hào)f(t),對(duì)方將接收到的干擾信號(hào)誤認(rèn)為自己發(fā)射的雷達(dá)信號(hào),然后經(jīng)過一個(gè)系統(tǒng)函數(shù)為h(t)的匹配濾波器進(jìn)行濾波處理,得到信號(hào)y(t),同時(shí)干擾信號(hào)f(t)又可作為己方的探測信號(hào),對(duì)其他目標(biāo)進(jìn)行探測。

圖1 一體化信號(hào)工作場景Fig.1 Working scenarios of integrated signal

1.2 均勻間歇采樣轉(zhuǎn)發(fā)干擾信號(hào)

為了解決距離與距離分辨率相矛盾的問題,現(xiàn)代雷達(dá)普遍采用脈沖壓縮雷達(dá),而線性調(diào)頻(linear frequency modulation,LFM)信號(hào)[15]是脈沖壓縮雷達(dá)常用的一種調(diào)制信號(hào),因此假設(shè)針對(duì)LFM信號(hào)設(shè)計(jì)干擾信號(hào)??紤]到偵察干擾機(jī)不能同時(shí)收發(fā),而數(shù)字射頻存儲(chǔ)(digital radio frequency memory,DRFM)[16]是一種應(yīng)用高速數(shù)字采樣與存儲(chǔ)技術(shù)來實(shí)現(xiàn)對(duì)微波信號(hào)存儲(chǔ)與轉(zhuǎn)發(fā)功能的技術(shù),因此大多數(shù)干擾機(jī)采用間歇采樣轉(zhuǎn)發(fā)干擾技術(shù)[17-19]。該技術(shù)可將接收到的大時(shí)寬脈沖壓縮信號(hào)分成若干個(gè)短脈沖進(jìn)行發(fā)射,其原理如圖2所示。

圖2 間歇采樣重復(fù)轉(zhuǎn)發(fā)干擾原理圖Fig.2 Schematic diagram of intermittent sampling and repeated forwarding interference

圖2中,T為截獲到的雷達(dá)信號(hào),Ts為間歇采樣周期,τ為采樣時(shí)間,η為轉(zhuǎn)發(fā)時(shí)間。當(dāng)η=τ(即轉(zhuǎn)發(fā)時(shí)間倍數(shù)a=1)時(shí),信號(hào)為均勻間歇采樣轉(zhuǎn)發(fā)干擾信號(hào)。截獲到的LFM信號(hào)s(t)的一般表達(dá)式為

(1)

式中:fc為載波頻率;T為信號(hào)持續(xù)時(shí)間;B為帶寬;K=B/T為調(diào)頻斜率;gT(t)為矩形信號(hào),表達(dá)式為

(2)

信號(hào)s(t)匹配濾波器的系統(tǒng)函數(shù)為

(3)

LFM信號(hào)經(jīng)過匹配濾波器的輸出為

(4)

式中:*表示卷積;-T≤t≤T。采樣信號(hào)u(t)的表達(dá)式為

(5)

式中:δ(·)為沖激函數(shù)。干擾信號(hào)f(t)經(jīng)過一次延時(shí)轉(zhuǎn)發(fā)τ得到:

f1(t)=s(t-τ)u(t-τ)

(6)

經(jīng)過匹配濾波得到:

y1(t)=f1(t)*h(t)=

(7)

式中:fs為間歇采樣頻率。重復(fù)轉(zhuǎn)發(fā)a次后的干擾信號(hào)脈壓輸出為

(8)

1.3 非均勻間歇采樣重復(fù)轉(zhuǎn)發(fā)干擾信號(hào)

對(duì)雷達(dá)信號(hào)進(jìn)行間歇采樣轉(zhuǎn)發(fā)干擾在時(shí)域上也可體現(xiàn)為對(duì)雷達(dá)信號(hào)進(jìn)行脈沖幅度調(diào)制,新的間歇采樣轉(zhuǎn)發(fā)干擾機(jī)制如圖3所示。

圖3中,固定最小采樣時(shí)間單元τ,編碼序列中的“0”代表采樣。若出現(xiàn)一個(gè)“0”,則采樣時(shí)間為τ,若連續(xù)出現(xiàn)兩個(gè)“0”,則采樣時(shí)間為2τ,以此類推;“1”代表轉(zhuǎn)發(fā),此轉(zhuǎn)發(fā)為將前一時(shí)刻的所有采樣信號(hào)進(jìn)行轉(zhuǎn)發(fā),連續(xù)出現(xiàn)“1”意為將前一時(shí)刻的采樣信號(hào)重復(fù)轉(zhuǎn)發(fā)。

圖3 非均勻間歇采樣重復(fù)轉(zhuǎn)發(fā)干擾原理Fig.3 Principle of non-uniform intermittent sampling and repeated forwarding interference

例如,當(dāng)序列為“0100110001”時(shí),出現(xiàn)4個(gè)1,對(duì)應(yīng)轉(zhuǎn)發(fā)時(shí)間依次為τ、2τ、2τ、3τ,意為非均勻轉(zhuǎn)發(fā)。為了易于書寫,不妨對(duì)序列先進(jìn)行擴(kuò)展,使得每一位碼元對(duì)應(yīng)的碼元寬度均為τ,即可將上述序列擴(kuò)展為“01001111000111”。

可令二進(jìn)制序列{βn,0≤n≤N}的擴(kuò)展序列為{εl,0≤l≤L},其中L代表擴(kuò)展后的序列長度,擴(kuò)展序列的第l個(gè)碼元對(duì)應(yīng)的幅度包絡(luò)al(t)可表示為

al(t)=εlgτ(t)*δ(t-lτ)

(9)

式中:,εl的取值范圍為(0,1);τ為最小采樣時(shí)間單元。gτ(t)為矩形信號(hào),其表達(dá)式為

(10)

轉(zhuǎn)發(fā)信號(hào)f(t)可表示為

(11)

式中:fl(t)為第l個(gè)碼元對(duì)應(yīng)發(fā)射的短脈沖,表達(dá)式為

(12)

式中:I為當(dāng)碼元為1時(shí),此碼元前的連0串個(gè)數(shù)。由分析可知,最終的轉(zhuǎn)發(fā)信號(hào)f(t)取決于編碼序列,而編碼序列充分體現(xiàn)了非均勻間歇采樣時(shí)間以及轉(zhuǎn)發(fā)次數(shù)的取值,因此編碼序列的選取成為了問題的關(guān)鍵。

2 目標(biāo)函數(shù)建立及優(yōu)化求解

轉(zhuǎn)發(fā)信號(hào)f(t)除了應(yīng)具備干擾特性,還應(yīng)具備雷達(dá)探測特性。CFAR技術(shù)是針對(duì)大時(shí)寬帶寬積信號(hào)的一種有效檢測手段,因此可從雷達(dá)檢測環(huán)節(jié)分析干擾性能。探測信號(hào)能夠從回波信號(hào)中得到目標(biāo)的運(yùn)動(dòng)信息,而模糊函數(shù)在一定程度上反映了距離和速度分辨力,因此可以從模糊函數(shù)的角度分析探測性能。

2.1 干擾性能優(yōu)化分析

在一定的信噪比下,雷達(dá)根據(jù)系統(tǒng)的檢測概率Pd和虛警概率Pf的要求確定檢測門限,當(dāng)信號(hào)的強(qiáng)度超過該門限時(shí),說明檢測到目標(biāo)。CFAR能夠自適應(yīng)調(diào)整檢測門限,是現(xiàn)代雷達(dá)普遍采用的一種檢測技術(shù),其原理如圖4所示。

圖4 CFAR原理Fig.4 Principle of CFAR

CFAR算法常用的方法有單元平均CFAR(cell averaging CFAR, CA-CFAR)、最大選擇CFAR(greatest order CFAR, GO-CFAR)、最小選擇CFAR(smallest order CFAR, SO-CFAR)。以CA-CFAR為例,檢測門限Si由左右N個(gè)參考單元的均值與檢測因子β相乘得到。為了對(duì)雷達(dá)檢測環(huán)節(jié)進(jìn)行干擾以達(dá)到掩蓋真實(shí)信號(hào)的目的,應(yīng)提高雷達(dá)檢測門限,即提高參考單元信號(hào)的幅度值。參考單元的幅度值與信號(hào)脈壓后的幅度有關(guān),即設(shè)計(jì)的干擾信號(hào)脈壓后假目標(biāo)的個(gè)數(shù)越多,幅度越大且干擾效果越好。因此不妨將干擾信號(hào)脈壓后信號(hào)幅度標(biāo)準(zhǔn)差與均值之比d作為評(píng)價(jià)干擾性能的標(biāo)準(zhǔn)。

d的表達(dá)式為

(13)

2.2 探測性能優(yōu)化分析

模糊函數(shù)是分析雷達(dá)探測性能的重要工具,主要用來刻畫雷達(dá)信號(hào)分辨鄰近目標(biāo)運(yùn)動(dòng)距離與速度的能力。理想的模糊函數(shù)應(yīng)具有“圖釘”形狀,即能量主要集中在主瓣,旁瓣能量均勻分開。一體化信號(hào)f(t)的模糊函數(shù)可以定義為

(14)

時(shí)延分辨常數(shù)Cμ可表示為

(15)

根據(jù)時(shí)延分辨常數(shù)可定義距離分辨率為

(16)

式中:c代表光速。多普勒分辨常數(shù)Cν可表示為

(17)

根據(jù)多普勒分辨常數(shù)可定義速度分辨率為

(18)

式中:λ代表發(fā)射信號(hào)波長。當(dāng)雷達(dá)信號(hào)的距離分辨力以及速度分辨力越大,即距離和速度分辨率越小,則說明雷達(dá)信號(hào)的探測性能越好。根據(jù)式(16)和式(18)可知,當(dāng)光速c以及發(fā)射信號(hào)波長λ為定值時(shí),時(shí)延分辨常數(shù)Cμ與多普勒分辨常數(shù)Cν越小,則雷達(dá)信號(hào)的距離和速度分辨率越小,探測性能越好。

2.3 一體化信號(hào)目標(biāo)函數(shù)建立

通過以上分析可知,探測干擾一體化信號(hào)的設(shè)計(jì)應(yīng)從兩個(gè)方面考慮:一是雷達(dá)探測性能最佳,即信號(hào)距離分辨率以及速度分辨率盡可能小;二是干擾性能最佳,即干擾信號(hào)脈壓后假目標(biāo)的個(gè)數(shù)越大幅度越高,脈壓后信號(hào)幅度均值與標(biāo)準(zhǔn)差之比d盡可能大。因此可以轉(zhuǎn)化為求最大值問題,目標(biāo)函數(shù)可以定義為

(19)

目標(biāo)函數(shù)確定后,需要對(duì)目標(biāo)函數(shù)求解,獲取最優(yōu)的編碼序列。其中,Fu、Fv分別為單目標(biāo)時(shí)式(13)、式(15)的倒數(shù)對(duì)應(yīng)的最大值,Fd為單目標(biāo)時(shí)式(13)對(duì)應(yīng)的最大值,目的是將各項(xiàng)進(jìn)行歸一化處理,ω1、ω2分別為探測性能和干擾性能的權(quán)重,可根據(jù)實(shí)際情況進(jìn)行調(diào)節(jié)。

2.4 基于DQN的優(yōu)化序列求解

與強(qiáng)化學(xué)習(xí)不同的是,深度強(qiáng)化學(xué)習(xí)適用于狀態(tài)連續(xù)或者狀態(tài)數(shù)據(jù)量大的空間。本文中每一組不同的編碼序列對(duì)應(yīng)一個(gè)狀態(tài),總體的狀態(tài)量可以表示為

(20)

式中:Numstate為總狀態(tài)量;T為雷達(dá)信號(hào)長度;τ為最小采樣時(shí)間。隨著序列長度的變化,編碼類型也會(huì)成指數(shù)倍增加,因此數(shù)據(jù)量大,而強(qiáng)化學(xué)習(xí)的狀態(tài)和動(dòng)作值是離散且有限的。若將連續(xù)空間離散化,則離散點(diǎn)空間數(shù)據(jù)量大,不利于Q表的更新,且不足以保證泛化能力,因此可選擇DQN算法進(jìn)行優(yōu)化序列求解。

DQN更新公式為

Q(st,at)←

Q(st,at)+α[rt+γmaxat+1Q(st+1,at+1)-Q(st,at)]

(21)

式中:α表示學(xué)習(xí)率;rt表示獎(jiǎng)勵(lì)函數(shù);γ表示折扣因子;maxat+1Q(st+1,at+1)表示在下一狀態(tài)st+1時(shí)取動(dòng)作at+1可以得到的Q的最大值。DQN的四元組為。此外,DQN算法采用了記憶回放機(jī)制,即由每一次智能體與環(huán)境交互得到的四元組均會(huì)存入記憶庫,每間隔一定的步數(shù),將會(huì)從記憶庫中選取一定的樣本來訓(xùn)練網(wǎng)絡(luò)。將DQN算法應(yīng)用到探測干擾波形設(shè)計(jì)中的原理的框圖如圖5所示。要設(shè)計(jì)最優(yōu)的一體化波形,使得其探測性能以及干擾性能最佳,則需要得到最優(yōu)的二進(jìn)制編碼序列。結(jié)合前文構(gòu)造的目標(biāo)函數(shù),設(shè)計(jì)規(guī)則如下。

智能體:己方干擾機(jī)。

環(huán)境:對(duì)方雷達(dá)。

初始狀態(tài)s0:隨機(jī)產(chǎn)生一組長度為L的二進(jìn)制序列,再固定序列第一位為0,即先采樣,后轉(zhuǎn)發(fā)。

動(dòng)作值at:此刻碼元的取值為0或1,采用ε-Greedy算法,以ε的概率隨機(jī)選取,以1-ε的概率進(jìn)行利用。

下一時(shí)刻狀態(tài)st+1:采取動(dòng)作at后產(chǎn)生的新的二進(jìn)制序列。

獎(jiǎng)勵(lì)函數(shù)rt:目標(biāo)函數(shù)R,即目標(biāo)函數(shù)越大,獎(jiǎng)勵(lì)越大。

圖5 基于DQN的一體化波形設(shè)計(jì)框圖Fig.5 Integrated waveform design block diagram based on DQN

將DQN算法應(yīng)用到一體化波形設(shè)計(jì)中的流程如圖6所示。

圖6 基于DQN的一體化波形設(shè)計(jì)流程Fig.6 Integrated waveform design flowchart based on DQN

3 實(shí)驗(yàn)仿真與分析

為了驗(yàn)證基于DQN的探測干擾一體化信號(hào)波形優(yōu)化設(shè)計(jì)方法的有效性,分別從探測性能與干擾性能方面進(jìn)行分析驗(yàn)證。同時(shí),將從傳統(tǒng)的均勻間歇采樣轉(zhuǎn)發(fā)設(shè)計(jì)一體化信號(hào)以及采用遺傳算法、強(qiáng)化學(xué)習(xí)算法求解的最優(yōu)編碼序列進(jìn)行對(duì)比分析。

3.1 DQN算法仿真分析

算法采用Python語言和TensorFlow深度學(xué)習(xí)框架進(jìn)行編寫。LFM信號(hào)設(shè)計(jì)參數(shù)如表1所示。

表1 LFM參數(shù)設(shè)置

其中,初始序列可隨機(jī)選擇,DQN網(wǎng)絡(luò)參數(shù)根據(jù)經(jīng)驗(yàn)設(shè)置如表2所示。

表2 DQN網(wǎng)絡(luò)參數(shù)設(shè)置

在200步后開始學(xué)習(xí),每隔5步學(xué)習(xí)一次,并用估計(jì)值網(wǎng)絡(luò)參數(shù)更新真實(shí)值網(wǎng)絡(luò)。此外,分別設(shè)置強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)值為式(13)、式(15)以及式(17)的倒數(shù),依次得到Fd、Fμ、Fν的最大值。再根據(jù)式(19)可知,不同權(quán)重ω1、ω2的取值對(duì)應(yīng)的目標(biāo)函數(shù)值也不相同,不妨令ω1=0.5、ω2=0.5,最終得到的一體化信號(hào)時(shí)域仿真如圖7所示。

圖7 一體化信號(hào)時(shí)域圖Fig.7 Time domain diagram of integrated signal

一體化信號(hào)的各維模糊函數(shù)如圖8所示。圖8分別從各個(gè)維度展示了經(jīng)過深度Q學(xué)習(xí)后的一體化信號(hào),其中藍(lán)色代表一體化信號(hào)(即非均勻間歇采樣轉(zhuǎn)發(fā)信號(hào)),橙色代表均勻間歇采樣轉(zhuǎn)發(fā)信號(hào),均勻間歇采樣信號(hào)的采樣周期為0.25 μs。由圖8可以看出,進(jìn)過深度Q學(xué)習(xí)后的干擾信號(hào)的各維模糊函數(shù)能量主要集中在主瓣,更接近理想的“圖釘”形狀,而均勻間歇采樣轉(zhuǎn)發(fā)后的干擾信號(hào)模糊函數(shù)能量不集中,旁瓣峰值比明顯高于非均勻間歇采樣一體化信號(hào)。

圖8 一體化信號(hào)各個(gè)維度模糊函數(shù)圖Fig.8 Fuzzy function diagram of each integrated signal dimension

以下將分析一體化信號(hào)的干擾性能。不妨設(shè)置雷達(dá)接收窗的距離范圍為12 000~15 000 m。目標(biāo)位置在13 500 m處,對(duì)各信號(hào)進(jìn)行脈壓處理,干信比25 dB, 取雷達(dá)的距離分辨率為15 m,距離單元的個(gè)數(shù)為200,采用單元平均恒虛警算法,參考單元長度為12,門限因子為10-6,仿真如圖9所示。

圖9 CFAR門限圖Fig.9 Threshold diagram of CFAR

圖9中,藍(lán)色線為非均勻間歇采樣信號(hào),橙色線為均勻間歇采樣信號(hào)脈壓后的曲線。由圖9可以看出,均勻間歇采樣信號(hào)脈壓后的主假目標(biāo)離真實(shí)目標(biāo)近,次假目標(biāo)離主假目標(biāo)遠(yuǎn),真實(shí)目標(biāo)仍有可能被檢測到,而非均勻間歇采樣一體化信號(hào)脈壓后假目標(biāo)個(gè)數(shù)增多,對(duì)真實(shí)目標(biāo)實(shí)現(xiàn)了壓制干擾的效果。綠色虛線代表經(jīng)過深度Q學(xué)習(xí)后的非均勻間歇采樣一體化信號(hào)的檢測門限,紅色虛線代表均勻間歇采樣干擾信號(hào)的檢測門限,可知經(jīng)過深度Q學(xué)習(xí)后的一體化信號(hào)門限明顯提高,真實(shí)目標(biāo)被淹沒在假目標(biāo)中,而均勻間歇采樣信號(hào)的門限提升不明顯,真實(shí)目標(biāo)仍有可能被檢測到。DQN算法的誤差曲線如圖10所示,由圖10可知最佳訓(xùn)練步數(shù)在1 000~1 200之間。

圖10 DQN算法的誤差曲線Fig.10 Error curve of DQN algorithm

以上說明,無論是從探測性能或是從干擾性能方面分析,進(jìn)過DQN算法學(xué)習(xí)后的非均勻間歇采樣的一體化干擾信號(hào)性能明顯優(yōu)于均勻間歇采樣干擾信號(hào)。

下面將分析深度Q學(xué)習(xí)在不同初始狀態(tài)下的收斂效果。在仿真時(shí),初始狀態(tài)二進(jìn)制序列隨機(jī)產(chǎn)生,再固定第一位為0。不妨固定一組全1序列,再隨機(jī)產(chǎn)生3組二序列進(jìn)行對(duì)比分析。雷達(dá)參數(shù)設(shè)置如表1所示,各組收斂結(jié)果如表3所示。

表3 不同初始狀態(tài)對(duì)應(yīng)的收斂效果

由表3可知,不同初始狀態(tài)的算法收斂時(shí)間不相同,收斂值的大小也不相同,相比于運(yùn)算時(shí)間,初始狀態(tài)對(duì)最終收斂值的大小影響不大,因此在進(jìn)行仿真時(shí),可隨機(jī)產(chǎn)生初始狀態(tài)。

基于DQN的探測干擾一體化波形優(yōu)化設(shè)計(jì)算法的時(shí)間估算方法為

T(n)=O(ntnm)

(22)

式中:nt代表每一次循環(huán)內(nèi)部時(shí)間步的數(shù)量;nm代表主循環(huán)的數(shù)量。

3.2 與其他算法對(duì)比仿真分析

在進(jìn)行不同算法對(duì)比分析時(shí),各算法均在PyCharm軟件平臺(tái)下采用Python語言進(jìn)行編寫。

(1) 遺傳算法

遺傳算法作為一種尋優(yōu)算法,也得到了廣泛應(yīng)用,其將用于決策的變量作為運(yùn)算對(duì)象,可以直接對(duì)集合、序列等進(jìn)行操作。遺傳算法的參數(shù)設(shè)置如表4所示。

表4 遺傳算法的參數(shù)設(shè)置

首先產(chǎn)生40組二進(jìn)制編碼序列,計(jì)算每一組序列對(duì)應(yīng)的一體化信號(hào)的適應(yīng)度函數(shù),適應(yīng)度函數(shù)為式(19)中的目標(biāo)函數(shù),即目標(biāo)函數(shù)越大,適應(yīng)度函數(shù)越大。其余雷達(dá)參數(shù)設(shè)置與表1相同。遺傳算法不同種群的R值仿真如圖11所示。

圖11 初始種群和最終種群的R值Fig.11 Value of R of the initial population and the final population

圖11中,藍(lán)色圓圈為初始40個(gè)種群對(duì)應(yīng)的目標(biāo)函數(shù)R值,橙線為最終種群的R值,由圖11可知,最終種群的R值臨近最大值。

(2) 強(qiáng)化學(xué)習(xí)算法

與深度Q學(xué)習(xí)不同的是,強(qiáng)化學(xué)習(xí)會(huì)根據(jù)每一動(dòng)作對(duì)應(yīng)的狀態(tài)值生成一個(gè)Q表,用于Q值的更新。強(qiáng)化學(xué)習(xí)的四元組與DQN相同,其參數(shù)設(shè)置如表5所示,雷達(dá)參數(shù)設(shè)置與表1相同。

表5 強(qiáng)化學(xué)習(xí)參數(shù)設(shè)置

當(dāng)雷達(dá)信號(hào)長度為20 μs時(shí),遺傳算法、強(qiáng)化學(xué)習(xí)算法以及DQN算法的目標(biāo)函數(shù)收斂曲線與迭代次數(shù)的關(guān)系如圖12所示。

圖12 不同算法收斂效果Fig.12 Convergence effects of different algorithms

由圖12可以看出,強(qiáng)化學(xué)習(xí)算法與DQN算法在收斂時(shí)對(duì)應(yīng)的迭代次數(shù)約為112次,目標(biāo)函數(shù)值約為0.82;遺傳算法在收斂時(shí)對(duì)應(yīng)的迭代次數(shù)約為125次,目標(biāo)函數(shù)值約為0.725。由此可以得出,當(dāng)狀態(tài)量較少時(shí),強(qiáng)化學(xué)習(xí)算法的收斂效果與DQN的收斂效果差距不明顯。相對(duì)于遺傳算法,DQN算法收斂更快,且最優(yōu)解的質(zhì)量Δi提高了13.10%,最優(yōu)解的質(zhì)量提高公式為:

(23)

式中:ValGA為遺傳算法收斂時(shí)的目標(biāo)函數(shù)值;ValDQN為DQN算法收斂時(shí)的目標(biāo)函數(shù)值。因此,本文提出的DQN算法能夠提高最優(yōu)解的質(zhì)量。

(3) 增大狀態(tài)量時(shí)不同算法收斂效果分析

根據(jù)式(20),固定最小采樣時(shí)間為0.125 μs,改變雷達(dá)信號(hào)長度,雷達(dá)信號(hào)越長,狀態(tài)量越大。因此,分別取雷達(dá)信號(hào)長度為20 μs、40 μs、60 μs、80 μs、100 μs,不同算法的目標(biāo)函數(shù)收斂效果如圖13所示。

圖13 不同算法收斂效果Fig.13 Convergence effects of different algorithms

3種算法在雷達(dá)信號(hào)長度不同時(shí),最優(yōu)解方差如表6所示。

表6 不同算法最優(yōu)解方差對(duì)比

由表6可知,當(dāng)雷達(dá)信號(hào)長度增加時(shí),3種算法中,DQN算法的最優(yōu)解最穩(wěn)定,強(qiáng)化學(xué)習(xí)算法其次,遺傳算法最末。

以上說明,當(dāng)狀態(tài)量小時(shí),DQN算法與強(qiáng)化學(xué)習(xí)算法的收斂效果相同,而相比于遺傳算法,DQN算法最優(yōu)解的質(zhì)量提高了13.10%;當(dāng)狀態(tài)量增大時(shí),相對(duì)于遺傳算法和強(qiáng)化學(xué)習(xí)算法,DQN算法的收斂值更大,最優(yōu)解更穩(wěn)定。

4 結(jié) 論

本文考慮將探測信號(hào)隱藏在干擾信號(hào)中,提出了一種基于非均勻間歇采樣重復(fù)轉(zhuǎn)發(fā)的探測干擾一體化信號(hào)波形。該一體化信號(hào)將探測信號(hào)隱藏在干擾信號(hào)中,誤導(dǎo)對(duì)方將探測信號(hào)判斷為干擾信號(hào),從而降低截獲概率。首先,建立了一體化信號(hào)模型,根據(jù)距離、速度分辨率以及一體化信號(hào)脈壓后幅度均值與標(biāo)準(zhǔn)差之比建立了目標(biāo)函數(shù);然后,通過DQN算法求解目標(biāo)函數(shù),得到最優(yōu)的一體化信號(hào)波形。同時(shí),將遺傳算法以及強(qiáng)化學(xué)習(xí)算法作為對(duì)比實(shí)驗(yàn)。仿真結(jié)果表明,當(dāng)編碼狀態(tài)量小時(shí),DQN算法與強(qiáng)化學(xué)習(xí)算法收斂效果一致。與遺傳算法相比,DQN算法最優(yōu)解的質(zhì)量提高了13.10%;當(dāng)編碼狀態(tài)量增大時(shí),相對(duì)于遺傳算法和強(qiáng)化學(xué)習(xí)算法,DQN算法的收斂值更優(yōu),最優(yōu)解更穩(wěn)定。

猜你喜歡
干擾信號(hào)間歇遺傳算法
間歇供暖在散熱器供暖房間的應(yīng)用
煤氣與熱力(2022年4期)2022-05-23 12:44:46
正弦采樣信號(hào)中單一脈沖干擾信號(hào)的快速剔除實(shí)踐方法
基于粒子群算法的光纖通信干擾信號(hào)定位方法
基于自適應(yīng)遺傳算法的CSAMT一維反演
一種基于遺傳算法的聚類分析方法在DNA序列比較中的應(yīng)用
基于遺傳算法和LS-SVM的財(cái)務(wù)危機(jī)預(yù)測
管群間歇散熱的土壤溫度響應(yīng)與恢復(fù)特性
淺析監(jiān)控干擾信號(hào)的優(yōu)化處置措施
基于改進(jìn)的遺傳算法的模糊聚類算法
相參雷達(dá)典型干擾信號(hào)產(chǎn)生及關(guān)鍵技術(shù)
高淳县| 嘉荫县| 忻城县| 泸水县| 德江县| 铜陵市| 六安市| 大方县| 上虞市| 陆良县| 拜城县| 将乐县| 余干县| 大埔区| 贵德县| 南和县| 邹平县| 仪征市| 开化县| 登封市| 山东省| 开鲁县| 合江县| 赣州市| 六安市| 清原| 微山县| 西贡区| 项城市| 肥城市| 中山市| 台中市| 黑山县| 淮阳县| 合川市| 张家口市| 巴东县| 丁青县| 孟连| 彝良县| 五指山市|