鄭澤新,李 偉,鄒 鯤,李艷福
(空軍工程大學(xué)信息與導(dǎo)航學(xué)院,西安 710077)
機載雷達具有盲區(qū)小、機動性強和分辨率高等優(yōu)勢,可全方位、全天候探測遠距離低空、超低空目標,控制和制導(dǎo)武器,擔(dān)任空中警戒、偵察,保障飛行安全等任務(wù),在國土防空中發(fā)揮重要作用。但機載雷達易受地面、海面強雜波干擾,和敵方壓制、欺騙干擾等影響[1],為保證復(fù)雜電磁環(huán)境中機載雷達的良好性能,開展雷達抗干擾研究十分必要。
頻率捷變技術(shù)作為雷達抗主瓣干擾方式之一,備受國內(nèi)外學(xué)者重視。文獻[2]提出了捷變頻聯(lián)合波形熵的密集假目標干擾抑制算法,通過數(shù)字仿真和外場實測驗證了算法的有效性。文獻[3]基于多域聯(lián)合捷變抗干擾思想,提出了基于干擾環(huán)境感知和低截獲波形調(diào)度的雷達抗主瓣干擾方法,通過檢測多種主瓣干擾環(huán)境下目標跟蹤性能,驗證了該技術(shù)的有效性。文獻[4]系統(tǒng)總結(jié)了脈間頻率捷變雷達信號處理、雷達接收機系統(tǒng)實現(xiàn)的研究進展,分析了頻率捷變雷達未來的發(fā)展趨勢。雖然雷達抗干擾技術(shù)已取得很大進步,但是當前雷達發(fā)射波形變化有限、回波信號處理方式基本固定不變,難以滿足時變、非平穩(wěn)和非均勻的工作環(huán)境,使得雷達實際性能受限[5]。
已有基于傳統(tǒng)博弈模型的雷達抗干擾研究,可實現(xiàn)特定場景和條件下雷達與目標、雜波等環(huán)境信息之間的博弈,文獻[6]針對制導(dǎo)雷達波形設(shè)計問題,提出了3 種雷達和目標博弈策略模型,實現(xiàn)了不同條件下的制導(dǎo)雷達和目標的功率分配策略。但雷達對抗場景復(fù)雜,參與博弈因素眾多,傳統(tǒng)博弈模型限制條件多,場景適應(yīng)性不足,而人工智能提供的智能感知、智能處理、智能反饋等能力,可幫助雷達增強環(huán)境感知、智能化處理和自適應(yīng)發(fā)射性能,其中的強化學(xué)習(xí)具有強信息感知和交互能力,與認知雷達理論、博弈論高度吻合,可用于提升對抗條件下雷達探測性能[5]。文獻[7-8]研究了基于強化學(xué)習(xí)智能雷達對抗方法,根據(jù)干擾效果獨立學(xué)習(xí)和決策,提高了雷達對抗系統(tǒng)的適應(yīng)性。文獻[9]在部分可觀測馬爾可夫決策過程模型下,使用了深度Q 網(wǎng)絡(luò)和長短時記憶網(wǎng)絡(luò)生成跳頻策略,提高了認知雷達抗干擾性能。針對雷達與通信系統(tǒng)共存問題,文獻[10-11]將雷達環(huán)境建模為MDP,預(yù)測最小化干擾頻段,成功避免了通信系統(tǒng)的干擾。文獻[12-13]將深度強化學(xué)習(xí)應(yīng)用于頻率捷變雷達抗主瓣干擾策略設(shè)計,實現(xiàn)了脈沖載波頻率的智能選擇。
以上成果為機載雷達智能抗干擾技術(shù)的研究提供了思路。因此,本文基于強化學(xué)習(xí)思想,建立機載雷達與干擾的MDP 博弈模型,雷達通過與目標特征、雜波和干擾信號等環(huán)境信息交互,自主分析、學(xué)習(xí)適應(yīng)戰(zhàn)場環(huán)境,設(shè)計最優(yōu)發(fā)射波形。該方法可增強機載雷達在強雜波和電磁干擾環(huán)境下的探測性能[5]。
圖1 為機載雷達探測場景。建立復(fù)雜電磁空間中的機載雷達信號模型,需充分考慮雷達發(fā)射信號、敵方干擾信號、目標回波、噪聲和各類環(huán)境雜波等因素的影響。圖2 為機載雷達信號模型,其中,s(t)為雷達發(fā)射信號,傅里葉變換為S(f),信號帶寬為W,總功率為PS;j(t)為干擾機信號,功率譜密度為J(f),總功率為PJ。目標脈沖響應(yīng)h(t)和接收濾波器脈沖響應(yīng)r(t)的傅里葉變換分別為H(f)與R(f),h(t)為時間有限的隨機模型。目標沖激響應(yīng)和雜波響應(yīng)等信息可在機載雷達搜索階段獲取。雜波c(t)為非高斯隨機過程,功率譜密度Sc(f)在W 內(nèi)不為常數(shù)。噪聲n(t)為零均值高斯信道過程,其功率譜密度Sn(f)在W 內(nèi)不為零。
圖1 機載雷達探測場景Fig.1 Airborne radar detection scene
圖2 機載雷達信號模型Fig.2 Airborne radar signal model
雷達接收端濾波器輸出端信號y(t)表達式為[14]:
其中,“*”為卷積運算符。雷達信號分量和干擾分量分別為:
在t0時刻,信號和干擾噪聲比(signal-to-inter- ference-noise ratio,SINR)的頻域表達式為:
h(t)為時間有限隨機模型,可用能量譜方差(energy spectrum variance,ESV)替代功率譜密度[15],即
假設(shè)H(f)均值μh(f)為0,將式(5)代入式(4)中,利用施瓦茨不等式求解可得:
其中,K 為頻率采樣數(shù),Δf 為頻率采樣間隔,KΔf=W。
雷達與干擾對抗過程中的波形變化具有馬爾可夫性,可將系統(tǒng)環(huán)境建模為MDP 模型,通過雷達與環(huán)境信息交互,實現(xiàn)自適應(yīng)抗干擾波形設(shè)計。圖3描述的是基于MDP 的雷達對抗過程,其中,藍色代表雷達信號,紅色波形代表干擾信號,Si為當前狀態(tài),Ri為當前狀態(tài)的獎勵,箭頭上的數(shù)字表示狀態(tài)間的轉(zhuǎn)移概率。
圖3 基于MDP 的雷達對抗過程Fig.3 Radar countermeasure process based on MDP
模型可使用M 位N 進制數(shù)表示雷達信號s(t)和干擾信號j(t)的頻域能量分布狀態(tài),信號頻域劃分為M 個子頻帶,子頻帶功率等分為(N-1)份,因此,狀態(tài)和動作空間大?。ǔ? 以外)均為(NM-1)。
狀態(tài)空間S 定義為:
同理,動作空間A 定義為:
回報是影響決策好壞的關(guān)鍵因素。將SINR 作為動作回報,較大的SINR 可獲得更大的回報?;貓蠼Y(jié)構(gòu)如表1 所示。
表1 回報結(jié)構(gòu)Table 1 Return structure
策略迭代法是一種用于求解MDP 最優(yōu)策略的方法,通過計算智能體的狀態(tài)、動作價值函數(shù),迭代選擇可增加下一狀態(tài)值的動作,最終獲得累計回報最大的策略,即為最優(yōu)策略。算法實現(xiàn)時,策略迭代共分成策略評估和策略改進兩步,通過交替、迭代地進行策略評估和策略改進,在有限的馬爾可夫決策過程中一定收斂到一個最優(yōu)的策略與最優(yōu)的價值函數(shù),如圖4 所示。
圖4 策略迭代示意圖Fig.4 Schematic diagram of strategy iteration
首先,由已知策略π 確定環(huán)境狀態(tài)s 時,雷達采取動作a 的概率π(a| s),如式(12)所示。
策略評估主要目的是在任何策略π 下計算狀態(tài)價值函數(shù)vπ,通過式(14)計算環(huán)境狀態(tài)s 的累計回報的期望,得到狀態(tài)價值函數(shù)v(s),期望下標π表示期望在遵循策略π 條件下計算。最后,為避免復(fù)雜的方程求解步驟,可通過迭代策略評估算法求解狀態(tài)價值函數(shù),如式(15)所示。
同理,為評價雷達在干擾狀態(tài)S 下選擇波形策略a 的好壞,可通過式(16)計算動作價值函數(shù)q(s,a)。
由此可以采用貪心算法根據(jù)雷達原策略的價值函數(shù)構(gòu)造一個更好的策略,從而實現(xiàn)策略改進。式(17)可以在每個干擾狀態(tài)下根據(jù)選擇一個最優(yōu)的雷達動作,即考慮一個新的貪心策略π′,滿足
因此,除非雷達原策略已是最優(yōu),否則策略改進一定可給出一個更優(yōu)的博弈策略[16]。通過策略評估和策略改進,針對不同干擾尋找雷達最優(yōu)博弈策略,使其具備自適應(yīng)抗干擾能力。
本文雷達檢測問題可定義為假設(shè)檢驗問題[17],通過經(jīng)典Neyman-Pearson(NP)定理求解,得雷達目標檢測概率PD為:
其中,PFA為虛警概率,;為雷達檢測門限;d2為偏移系數(shù),此模型中即為SINR。此類檢測器檢測性能完全由偏移系數(shù)確定,因此,通過計算SINR,可建立雷達波形與目標檢測概率之間的關(guān)系。
依據(jù)國外某型機載雷達設(shè)置工作波段、中心頻率和信號帶寬等參數(shù),以及目標飛行速度、目標沖激響應(yīng)和環(huán)境雜波等信息,如表2 所示。環(huán)境信息如圖5所示,黃色表示目標沖激響應(yīng)信息,綠色表示環(huán)境雜波信息。所有結(jié)果圖中子頻段信號功率為百分制。
表2 雷達探測環(huán)境仿真參數(shù)Table 2 Simulation parameters of radar detection environment
圖5 環(huán)境雜波和目標沖激響應(yīng)Fig.5 Environmental clutter and target impulse response
基于MDP 的波形設(shè)計方法可依據(jù)雷達信號和目標RCS 等信息生成最優(yōu)干擾波形策略,實現(xiàn)干擾機與雷達方之間的博弈。當干擾機對機載雷達發(fā)射信號生成特定的干擾策略時,從博弈角度,機載雷達可針對特定干擾,分析環(huán)境雜波和噪聲等信息,產(chǎn)生最優(yōu)的雷達抗干擾策略,并根據(jù)頻域最優(yōu)抗干擾策略產(chǎn)生相應(yīng)的時域發(fā)射信號。通過信號頻譜圖生成時域信號的方法很多,最簡單的方法是直接快速傅里葉逆變換法(inverse fast fourier transform,IFFT),但擬合效果較差。固定相位技術(shù)是合成非線性調(diào)頻信號的常規(guī)方法之一,但是推導(dǎo)過程復(fù)雜。JACKSON使用迭代變換方法(iterative transformation method,ITM)生成恒定包絡(luò)時域信號[17],頻譜擬合效果最好。因此,采用ITM 擬合頻域最優(yōu)波形策略,合成恒定包絡(luò)時域信號。
圖6~圖8 分別表示當機載雷達初始發(fā)射信號分別為線性調(diào)頻信號(linear frequency modulation signal,LFM)、隨機信號和跳頻信號時,雷達和干擾機間的博弈過程。LFM 信號的幅頻特性隨著時寬、帶寬積的增大,逐漸接近矩形;跳頻技術(shù)是指雷達發(fā)射相鄰脈沖或脈沖組的中心頻率在一定范圍內(nèi)快速變化,當部分頻帶被干擾時仍能在其他頻帶正常探測。仿真模擬LFM 信號的總功率均勻分配于各子頻帶,跳頻信號功率則集中于某一子頻帶。柱狀圖中紅色和藍色分別代表對抗過程中的博弈方,藍色表示當前博弈主導(dǎo)方的最優(yōu)策略。
圖6 針對雷達線性調(diào)頻發(fā)射信號的最優(yōu)干擾策略Fig.6 Optimal jamming strategy for LFM transmission signals of radar
當干擾主導(dǎo)博弈時,針對雷達發(fā)射LFM 信號,干擾機最優(yōu)博弈策略如圖6(a)藍色柱狀圖所示:LFM信號能量均勻分配在5 個子頻段,干擾策略主要對前4 個子頻段實施干擾,且在干擾和雷達信號總功率相同條件下,子頻段1、3、4 上分配的干擾功率均大于雷達信號功率,實現(xiàn)了有效干擾。由于第2 子頻段中的目標沖激響應(yīng)和雜波信號趨于零,雷達可以探測的有用信息較少,因此,在第2 子頻段上分配的干擾信號功率也較少。圖6(b)是通過ITM 轉(zhuǎn)化的最優(yōu)干擾策略時域信號的實部、虛部、幅值和相位等信息;圖6(c)是時域信號和最優(yōu)策略的頻譜擬合圖。對比驗證,合成的時域信號完全滿足了頻域最優(yōu)策略的信號特征。
當干擾機實施有效干擾后,雷達作為博弈主導(dǎo)方針對特定的干擾信號尋找最優(yōu)的抗干擾博弈策略,結(jié)果如圖7(a)所示:根據(jù)環(huán)境信息和當前干擾狀態(tài),雷達最優(yōu)博弈策略在1、3、4、5 子頻段中分配了不同的雷達發(fā)射信號功率。子頻段1 和子頻段3上雷達發(fā)射信號功率均大于已有干擾信號功率,保證了雷達探測的有效性;為了盡可能多獲取目標有用信息,雷達策略也在目標沖激響應(yīng)最強的子頻段5 處分配了一定的信號發(fā)射功率;由于子頻段2 上目標沖激響應(yīng)最低且被干擾,雷達策略并未分配信號功率,以此達到抗干擾效果。圖7(b)和圖7(c)是雷達最優(yōu)抗干擾策略對應(yīng)的時域信號合成圖。由圖可知本文模型仍較好地實現(xiàn)博弈策略由頻域到時域的轉(zhuǎn)化,為今后雷達抗干擾博弈模型的實際應(yīng)用提供技術(shù)支撐。
圖7 針對干擾信號的雷達最優(yōu)抗干擾策略Fig.7 Optimal anti-jamming strategy of radar for jamming signals
仿真分析表明,基于MDP 的雷達和干擾機博弈模型,干擾方可根據(jù)雷達信號和目標信息實施最大化干擾;雷達方可考慮環(huán)境雜波和目標信息等多種因素,針對敵方干擾信號自適應(yīng)抗干擾,提升雷達信號探測性能。
為檢驗MDP 模型生成的最優(yōu)策略性能,將最優(yōu)波形策略與傳統(tǒng)雷達信號中的LFM 和采用頻率捷變技術(shù)產(chǎn)生的跳頻信號進行比較,通過式(7)和式(19)分別計算雷達接收機SINR 和雷達目標檢測概率,對比分析最優(yōu)策略性能,仿真結(jié)果如下頁圖8所示。
圖8 不同信號之間性能對比Fig.8 Performance comparision between different signals
由圖8(a)所示,3 種不同發(fā)射信號的雷達接收機SINR 均隨Ps增加而增大,但LFM 的SINR 始終低于其他兩種信號。當Ps由1 W 增至4.5 W 時,跳頻信號SINR 始終大于最優(yōu)波形策略SINR,分析原因是跳頻信號只考慮抗干擾性,在某個完全沒有干擾的子頻帶上分配全部信號發(fā)射功率,而最優(yōu)波形策略則考慮抗干擾的同時兼顧環(huán)境雜波和目標信息等因素影響,合理分配功率,因此,可能會給干擾頻段分配功率,所以當信號總功率較小時,就會出現(xiàn)跳頻信號SINR 高于最優(yōu)策略的情況。當Ps由4.5 W增至10 W 時,最優(yōu)策略的SINR 曲線超過跳頻信號,且明顯增長,而跳頻信號SINR 曲線則趨于平緩。圖8(b)為3 種信號的目標檢測概率比較,可知在功率10 W 時,最優(yōu)波形策略的目標檢測概率可達89%,與跳頻信號、LFM 信號相比分別提升了21%和27%。
針對復(fù)雜電磁環(huán)境中機載雷達智能抗干擾問題,基于博弈思想,提出了雜波和干擾條件下基于強化學(xué)習(xí)的機載雷達波形設(shè)計方法,把機載雷達與干擾間的對抗過程建模為MDP 過程,雷達可充分感知周圍電磁環(huán)境,通過分析目標和干擾等信息生成最優(yōu)抗干擾策略,并合成實際可發(fā)射的時域信號。仿真驗證,產(chǎn)生的最優(yōu)波形策略與跳頻信號和LFM 相比,目標檢測概率分別提升了21%和27%。本方法通過迭代得到雷達抗干擾頻譜策略,生成時域信號,大幅提升了機載雷達在復(fù)雜電磁環(huán)境中的探測性能。