国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于強(qiáng)化學(xué)習(xí)的無人機(jī)電磁干擾感知與抗干擾傳輸方法*

2023-12-25 14:41:58李博揚(yáng)萬諾天夏曉晨張?jiān)略?/span>
電訊技術(shù) 2023年12期
關(guān)鍵詞:干擾機(jī)發(fā)射功率信道

李博揚(yáng),劉 洋,萬諾天,許 魁,夏曉晨,張?jiān)略?張 咪

(陸軍工程大學(xué) 通信工程學(xué)院,南京 210007)

0 引 言

無人機(jī)(Unmanned Aerial Vehicle,UAV)在過去的幾十年里已經(jīng)得到了廣泛的應(yīng)用[1]。無人機(jī)具有部署靈活、機(jī)動(dòng)性高、隱蔽性強(qiáng)的特性,近年來被廣泛應(yīng)用于軍事領(lǐng)域,其無人化的突出特點(diǎn)可以有效減少人員的戰(zhàn)斗傷亡,在戰(zhàn)場(chǎng)態(tài)勢(shì)中擁有巨大的應(yīng)用潛力。隨著無人機(jī)成本的不斷降低和設(shè)備體積的小型化,無人機(jī)也開始廣泛應(yīng)用于民用領(lǐng)域,包括通信中繼、交通運(yùn)輸、目標(biāo)快速檢測(cè)等[2-3]。

低空的無人機(jī)與地外通信或基于高海拔平臺(tái)的通信相比,能夠更快地部署,更靈活地重新配置,并且由于存在短距離視距鏈路,可能具有更好的通信通道[4]。

然而,對(duì)電磁環(huán)境的依賴導(dǎo)致無人機(jī)具有易被干擾的致命弱點(diǎn)[3]。近年來,許多學(xué)者針對(duì)該問題進(jìn)行了一系列研究。在電磁感知研究方面,文獻(xiàn)[5]提出了一種通過少量感知節(jié)點(diǎn)獲取不完整采樣電磁數(shù)據(jù)(Electromagnetic Data,ED)的方案,利用復(fù)合電磁圖重建方法重構(gòu)完整的ED;文獻(xiàn)[6]通過設(shè)計(jì)一種生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)用于提取時(shí)域電磁相關(guān)信息,提出了一種域映射算法,能夠有效獲取頻域的電磁相關(guān)信息;文獻(xiàn)[7]針對(duì)復(fù)雜電磁環(huán)境,研究了一種適應(yīng)高噪聲干擾強(qiáng)度的數(shù)字信號(hào)調(diào)制識(shí)別模型。在抗干擾策略研究方面,文獻(xiàn)[8]在地面存在惡意電磁干擾的情況下,通過聯(lián)合優(yōu)化地面?zhèn)鞲衅?Ground Sensor,GS)的傳輸調(diào)度、無人機(jī)水平和垂直軌跡,最大化了有限飛行周期內(nèi)GS之間的最小期望速率;文獻(xiàn)[9]從博弈論的角度出發(fā),提出了基于博弈的無人機(jī)與干擾機(jī)之間的競(jìng)爭(zhēng)關(guān)系,根據(jù)無人機(jī)的效用函數(shù),選擇最優(yōu)功率控制策略對(duì)抗干擾;文獻(xiàn)[10]從靜態(tài)博弈和動(dòng)態(tài)博弈兩方面分析了無人機(jī)網(wǎng)絡(luò)的抗干擾問題,研究了無線信道衰落特性和飛行成本對(duì)靜態(tài)博弈中納什均衡(Nash Equilibrium,NE)的影響;文獻(xiàn)[11]對(duì)無人機(jī)和用戶效用函數(shù)進(jìn)行了設(shè)計(jì),利用斯坦伯格博弈(Stackelberg Game)模型模擬抗干擾場(chǎng)景,聯(lián)合優(yōu)化無人機(jī)的功率和信道選擇進(jìn)行抗干擾。

強(qiáng)化學(xué)習(xí)算法得益于可以在未知的環(huán)境中進(jìn)行快速的學(xué)習(xí),因此被廣泛應(yīng)用于通信抗干擾的研究中。Q學(xué)習(xí)算法是強(qiáng)化學(xué)習(xí)領(lǐng)域的經(jīng)典算法,其核心思想是通過在環(huán)境中試錯(cuò),不斷優(yōu)化智能體的決策,以提高智能體獲得的獎(jiǎng)勵(lì)值[12]。文獻(xiàn)[13]利用無人機(jī)的通信頻率、運(yùn)動(dòng)軌跡和空間域的自由度提出了一種多參數(shù)規(guī)劃的Q學(xué)習(xí)算法,優(yōu)化了接收方的通信質(zhì)量。文獻(xiàn)[14]通過核密度估計(jì)(Kernel Density Estimation,KDE)估計(jì)有效干擾信號(hào)強(qiáng)度的概率密度函數(shù)(Probability Density Function,PDF),提出了一種基于深度強(qiáng)化學(xué)習(xí)的算法來優(yōu)化系統(tǒng)中的功率控制策略,能夠在降低功耗的同時(shí)降低通信的中斷概率。文獻(xiàn)[15]針對(duì)毫米波大規(guī)模多輸入多輸出(Multiple-Input Multiple-Output,MIMO)系統(tǒng)的抗干擾問題,提出了一種基于策略爬山(Policy Hill-climbing,PHC)算法的功率控制算法,與Q學(xué)習(xí)算法相比,能夠?qū)崿F(xiàn)更高的平均信噪比和系統(tǒng)可達(dá)速率。文獻(xiàn)[16]針對(duì)無人機(jī)群抗干擾傳輸?shù)膱?chǎng)景,提出了一種智能算法,能夠同時(shí)實(shí)現(xiàn)最大化的系統(tǒng)可達(dá)速率和最小化的跳頻開銷。文獻(xiàn)[17]通過聯(lián)合控制發(fā)射機(jī)的功率和信道接入對(duì)抗不同策略下的惡意電磁干擾,但未考慮實(shí)際通信場(chǎng)景的信道衰落和變化。

本文針對(duì)無人機(jī)空地抗干擾通信系統(tǒng)提出了一種基于強(qiáng)化學(xué)習(xí)的抗干擾方法。在對(duì)干擾信息進(jìn)行感知的基礎(chǔ)上,將無人機(jī)的功率和信道選擇策略建模為馬爾科夫決策過程(Markov Decision Process,MDP),利用強(qiáng)化學(xué)習(xí)算法對(duì)其進(jìn)行智能優(yōu)化,提出了一種基于贏或快學(xué)習(xí)策略爬山算法(Win or Learn Fast Policy Hill-climbing,WoLF-PHC)的無人機(jī)抗干擾策略,通過仿真驗(yàn)證了所提算法的抗干擾性能優(yōu)于PHC算法和Q學(xué)習(xí)算法。

1 系統(tǒng)模型與問題建模

1.1 系統(tǒng)模型

圖1所示為無人機(jī)空地通信系統(tǒng)模型。

圖1 系統(tǒng)模型

當(dāng)無人機(jī)向地面用戶發(fā)送信號(hào)時(shí),在地面用戶附近存在一個(gè)惡意干擾機(jī),企圖對(duì)地面用戶的信道接入進(jìn)行電磁干擾,阻斷無人機(jī)與用戶的合法通信。假設(shè)無人機(jī)-地面用戶和干擾機(jī)-地面用戶均為視距鏈路,地面用戶接收到的信號(hào)為

(1)

式中:pt表示無人機(jī)的發(fā)射功率;pj表示干擾機(jī)的干擾發(fā)射功率,其發(fā)射功率均受最大發(fā)射功率的限制,pi≤pimax,i=t,j;st表示無人機(jī)的發(fā)射信號(hào);sj表示干擾機(jī)的電磁干擾信號(hào),假設(shè)E{si}=0,E{|si|2}=1,i=t,j;n表示地面用戶所處位置的加性高斯白噪聲,服從均值為0、方差為σ2的高斯分布。

所有信道均假定為準(zhǔn)靜態(tài)平坦衰落模型,地面用戶接收到的信干噪比為[13]

(2)

式中:x為干擾因子,當(dāng)?shù)孛嬗脩舯桓蓴_時(shí)x=1;未被干擾時(shí)x=0,即

(3)

式中:ct表示無人機(jī)與地面用戶之間的通信信道;cj表示干擾機(jī)的干擾信道。

1.2 問題建模

本文的優(yōu)化指標(biāo)為地面用戶的可達(dá)速率,當(dāng)干擾機(jī)對(duì)地面用戶的信道接入進(jìn)行惡意電磁干擾時(shí),可以通過動(dòng)態(tài)調(diào)整無人機(jī)的發(fā)射功率及信道選擇規(guī)避干擾,以最大限度地提高地面用戶的可達(dá)速率。優(yōu)化問題表示為

max lb(1+RSIN)

(4)

s.t.C1:pt≤ptmax,

C2:ci∈{C},i=t,j。

式中:ptmax為無人機(jī)的最大發(fā)射功率,發(fā)射功率pt小于等于ptmax;{C}為無人機(jī)與干擾機(jī)的可用信道集,當(dāng)ct=cj時(shí),地面用戶受到干擾機(jī)的惡意電磁干擾,信干噪比下降。由于干擾機(jī)的干擾策略是動(dòng)態(tài)未知的,因此可以采用強(qiáng)化學(xué)習(xí)算法,通過在動(dòng)態(tài)環(huán)境中的試錯(cuò)探索,優(yōu)化該空地通信系統(tǒng)的抗干擾方法,達(dá)到提升地面用戶可達(dá)速率的目的。

2 MDP建模

強(qiáng)化學(xué)習(xí)的核心思想是通過智能體在環(huán)境中不斷交互得到的獎(jiǎng)勵(lì)值,進(jìn)行自身決策優(yōu)化,以達(dá)到獎(jiǎng)勵(lì)最大化的目的。其基本要素有狀態(tài)、動(dòng)作、策略、獎(jiǎng)勵(lì)函數(shù)、價(jià)值函數(shù)、環(huán)境模型[12],學(xué)習(xí)過程可以描述為如圖2所示的馬爾科夫決策過程。針對(duì)信道跟隨干擾,可采取強(qiáng)化學(xué)習(xí)的方式,將無人機(jī)的功率和信道選擇策略建模為馬爾科夫決策過程[18]。

圖2 強(qiáng)化學(xué)習(xí)基本模型

在這一場(chǎng)景下,無人機(jī)空地通信系統(tǒng)作為環(huán)境,無人機(jī)作為智能體對(duì)干擾進(jìn)行感知和學(xué)習(xí)。狀態(tài)、動(dòng)作、策略和獎(jiǎng)勵(lì)函數(shù)的設(shè)置分別如下[17]:

(5)

(6)

策略:π(·)表示從當(dāng)前系統(tǒng)狀態(tài)映射到某個(gè)可選動(dòng)作的概率分布,即π(sn,an):sn→an。

獎(jiǎng)勵(lì):智能體通過環(huán)境反饋的獎(jiǎng)勵(lì)值優(yōu)化下一步的動(dòng)作,因此獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)與系統(tǒng)性能的期望目標(biāo)相關(guān)聯(lián)。在本文中,優(yōu)化目標(biāo)為最大限度地提高地面用戶的可達(dá)速率,但同時(shí)也應(yīng)考慮盡可能地降低無人機(jī)的功耗,包括發(fā)射功率代價(jià)以及信道切換代價(jià)。因此,獎(jiǎng)勵(lì)函數(shù)定義為

(7)

式中:JP表示無人機(jī)的發(fā)射功率代價(jià)系數(shù);Jc表示無人機(jī)的信道切換代價(jià)系數(shù);zn表示當(dāng)前時(shí)隙的信道切換狀態(tài),定義為[17]

3 算法實(shí)現(xiàn)

3.1 電磁干擾感知算法

電磁干擾感知是指通過對(duì)電磁信號(hào)的監(jiān)測(cè)和分析,及時(shí)發(fā)現(xiàn)和定位電磁干擾信號(hào)的時(shí)域、頻域特征的技術(shù),是對(duì)抗惡意的電磁干擾的前提手段[19]。

常用的電磁干擾感知方法有功率譜估計(jì)法[20]、小波頻譜感知[21]、學(xué)習(xí)算法類頻譜感知[22]等,其中,小波感知算法不需要檢測(cè)信號(hào)的先驗(yàn)信息,屬于半盲檢測(cè),由于小波變換具有多分辨率特性,因此能夠?qū)︻l帶的高頻部分進(jìn)行更為細(xì)致的頻譜分析[23];學(xué)習(xí)算法類頻譜感知在干擾信息動(dòng)態(tài)未知的抗干擾傳輸場(chǎng)景中更具有優(yōu)勢(shì),可以分析識(shí)別獲得干擾機(jī)的攻擊信道。

本文基于長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)神經(jīng)網(wǎng)絡(luò)算法[24]實(shí)現(xiàn)電磁干擾感知來獲取對(duì)方的信道信息。干擾機(jī)采用信道跟隨干擾的策略,以某一恒定功率值對(duì)地面用戶進(jìn)行干擾,即干擾機(jī)當(dāng)前時(shí)刻的干擾信道始終與其感知到的上一時(shí)刻的通信信道保持一致。如圖3所示,綠色部分代表無人機(jī)與地面用戶合法通信信道,橙色部分代表干擾機(jī)攻擊的信道。

圖3 通信合法信道與被干擾信道信息

無人機(jī)通過電磁干擾感知獲得上一時(shí)刻的干擾信息后,依據(jù)鏈路反饋的通信質(zhì)量對(duì)抗干擾決策進(jìn)行優(yōu)化,通過強(qiáng)化學(xué)習(xí)算法對(duì)決策過程進(jìn)行訓(xùn)練,以提升用戶的可達(dá)速率,降低干信比。

3.2 基于WoLF-PHC的抗干擾算法實(shí)現(xiàn)

Q學(xué)習(xí)算法是強(qiáng)化學(xué)習(xí)中的典型算法,其中智能體的目標(biāo)是最大化當(dāng)前時(shí)刻的長(zhǎng)期累積折現(xiàn)獎(jiǎng)勵(lì),即

(9)

式中:γ∈(0,1]為折現(xiàn)因子,用于權(quán)衡潛在的未來獎(jiǎng)勵(lì)對(duì)于當(dāng)下的影響。Q學(xué)習(xí)是將狀態(tài)和動(dòng)作張成一個(gè)二維Q表來存儲(chǔ)Q值,Q值函數(shù)Q(sn,an)表示在狀態(tài)sn下執(zhí)行動(dòng)作an的價(jià)值,可以表示為

(10)

智能體根據(jù)Q值來選取能夠獲得最大獎(jiǎng)勵(lì)的動(dòng)作。傳統(tǒng)的Q學(xué)習(xí)的Q值函數(shù)按照下式更新[12]:

(11)

式中:α∈(0,1]表示學(xué)習(xí)率。為了避免學(xué)習(xí)結(jié)果陷入局部最優(yōu),Q學(xué)習(xí)算法采用貪婪策略來平衡挖掘和探索之間的關(guān)系[25]。在貪婪策略中,智能體以概率ε選擇該狀態(tài)下Q值最大的動(dòng)作,以概率1-ε隨機(jī)選擇動(dòng)作。智能體的動(dòng)作選擇概率表示為

(12)

Q學(xué)習(xí)需要準(zhǔn)確地估計(jì)每個(gè)狀態(tài)-動(dòng)作對(duì)應(yīng)的Q值,每一步對(duì)Q表中的Q值進(jìn)行更新,學(xué)習(xí)智能體在每一步做出動(dòng)作,與環(huán)境進(jìn)行交互,從而不斷優(yōu)化決策動(dòng)作的能力,達(dá)到提升獎(jiǎng)勵(lì)值的目的。

WoLF-PHC算法是在Q學(xué)習(xí)的核心思想基礎(chǔ)上進(jìn)行的拓展[26],該算法結(jié)合了WoLF(Win or Learn Fast)和PHC(Policy Hill-climbing)算法,采用平均策略來近似均衡策略,通過可變的學(xué)習(xí)率增強(qiáng)了智能體的探索能力和效率。

在智能體執(zhí)行一次動(dòng)作到達(dá)下一狀態(tài)且更新Q值后,平均策略的更新方式如下:

(13)

式中:C(s)表示狀態(tài)sn被訪問過的次數(shù)。當(dāng)智能體的表現(xiàn)比期望值好的時(shí)候,降低學(xué)習(xí)速度;反之,加快學(xué)習(xí)速度,尋找更優(yōu)策略:

(14)

(15)

基于WoLF-PHC的抗干擾算法步驟如下:

2 開始迭代:n=1,2,…,N

3 獲取初始狀態(tài)s0;

4 在當(dāng)前狀態(tài)sn下根據(jù)策略π(s,a)選擇動(dòng)作an,獲得獎(jiǎng)勵(lì)rn并轉(zhuǎn)移到下一狀態(tài)sn+1;

7 根據(jù)式(14)、(15)更新策略;

8 更新狀態(tài)。

4 仿真與分析

本節(jié)對(duì)無人機(jī)空地通信系統(tǒng)基于強(qiáng)化學(xué)習(xí)的抗干擾進(jìn)行仿真實(shí)驗(yàn),對(duì)比在不同學(xué)習(xí)算法訓(xùn)練下的抗干擾性能指標(biāo)。仿真參數(shù)如表1所示。

表1 仿真參數(shù)

如圖4所示,以地面用戶為坐標(biāo)軸原點(diǎn)建立直角坐標(biāo)系,地面用戶所處位置為(0,0);無人機(jī)在以(100 m,100 m)為圓心、10 m為半徑的圓內(nèi)懸停,并且會(huì)發(fā)生10 m內(nèi)的小幅度的位移抖動(dòng);干擾機(jī)位于(150 m,0)位置處。

圖4 系統(tǒng)模型位置示意

無線信道中的路徑損耗表示為

LP=LP0-10βlg(d/d0) 。

(16)

式中:LP0=30 dB;參考距離d0為1 m;β為信道中的路徑損耗指數(shù),無人機(jī)-地面用戶鏈路與干擾機(jī)-地面用戶鏈路的路徑損耗指數(shù)均為2.2。

針對(duì)電磁干擾,進(jìn)行了干擾強(qiáng)度感知的仿真,利用干信比表示干擾信號(hào)的強(qiáng)度,定義為瞬時(shí)干擾信號(hào)強(qiáng)度與用戶接收到的有用信號(hào)強(qiáng)度之比。圖5所示為隨機(jī)策略、Q學(xué)習(xí)、PHC算法和WoLF-PHC算法的干擾感知結(jié)果,可見隨著學(xué)習(xí)進(jìn)程的加深干信比隨之降低,WoLF-PHC算法最終收斂到的干信比值低于其他算法。

圖5 不同算法下的瞬時(shí)干信比

圖6所示,WoLF-PHC算法能夠挖掘出智能體更大的潛力,最終能夠收斂到更高的獎(jiǎng)勵(lì)值。智能體使用WoLF-PHC算法經(jīng)過一段時(shí)間的學(xué)習(xí)后瞬時(shí)獎(jiǎng)勵(lì)由12.3提升到16.2,提升了31%。

圖6 不同算法下的瞬時(shí)獎(jiǎng)勵(lì)

圖7給出了不同算法下地面用戶的中斷概率,當(dāng)?shù)孛嬗脩舻乃矔r(shí)信干噪比小于5 dB時(shí),判斷無人機(jī)與地面用戶間的通信發(fā)生中斷。仿真結(jié)果顯示,隨機(jī)策略下中斷概率維持在0.22不發(fā)生變化;使用Q學(xué)習(xí)算法,地面用戶的中斷概率由0.12降低到0.08;使用PHC算法,中斷概率從0.125降低到0.025;使用WoLF-PHC算法,中斷概率從0.10降低到接近于0。

圖7 不同算法下的中斷概率

圖8所示為智能體使用不同算法學(xué)習(xí)后地面用戶可達(dá)速率的變化,地面用戶可達(dá)速率為本文優(yōu)化的目標(biāo)量。仿真結(jié)果顯示,WoLF-PHC算法能夠達(dá)到較好的可達(dá)率提升效果,在初始值基礎(chǔ)上提升了14%;PHC算法提升了約11%;Q學(xué)習(xí)算法提升了約2%。

圖8 不同算法下的用戶可達(dá)速率

5 結(jié)束語

本文針對(duì)無人機(jī)空地通信系統(tǒng)中的抗干擾問題,在對(duì)干擾進(jìn)行電磁頻譜感知的基礎(chǔ)上利用強(qiáng)化學(xué)習(xí)算法對(duì)無人機(jī)進(jìn)行訓(xùn)練學(xué)習(xí),使其具有智能抗干擾傳輸?shù)哪芰ΑMㄟ^聯(lián)合控制無人機(jī)發(fā)射功率和信道選擇對(duì)抗干擾機(jī)的惡意干擾,有效提升了用戶可達(dá)速率,降低了干信比。通過仿真實(shí)驗(yàn)對(duì)比了4種不同算法的抗干擾性能,結(jié)果驗(yàn)證了所提的WoLF-PHC算法的抗干擾傳輸性能優(yōu)于PHC算法、Q學(xué)習(xí)算法以及隨機(jī)抗干擾策略。

在下一步的研究中,將對(duì)強(qiáng)化學(xué)習(xí)的算法進(jìn)行優(yōu)化,以降低算法復(fù)雜度,縮短學(xué)習(xí)收斂的時(shí)間。

猜你喜歡
干擾機(jī)發(fā)射功率信道
無線電波發(fā)射功率防爆要求與檢測(cè)方法
雷聲公司交付首套中頻段下一代干擾機(jī)
放大轉(zhuǎn)發(fā)中繼器降低發(fā)射功率的選擇策略研究
淺談AC在WLAN系統(tǒng)中的應(yīng)用
基于壓縮感知的單脈沖雷達(dá)欺騙干擾機(jī)研究
基于功率分配最優(yōu)中繼選擇的研究
空襲遠(yuǎn)距離支援干擾機(jī)陣位選擇及航線規(guī)劃
美國(guó)海軍將研制新一代干擾機(jī)
基于導(dǎo)頻的OFDM信道估計(jì)技術(shù)
一種改進(jìn)的基于DFT-MMSE的信道估計(jì)方法
杨浦区| 南城县| 宁远县| 那坡县| 文水县| 澄迈县| 五寨县| 义马市| 同德县| 兰考县| 同仁县| 长治市| 福安市| 县级市| 凌海市| 富锦市| 东台市| 调兵山市| 抚顺市| 浑源县| 保亭| 福泉市| 苍南县| 香河县| 广州市| 青河县| 丰城市| 贡嘎县| 孝感市| 宁武县| 武冈市| 酉阳| 嵊州市| 兴文县| 加查县| 环江| 游戏| 南木林县| 大邑县| 即墨市| 盘山县|