陳帥明
摘要:隨著通信技術(shù)發(fā)展,頻譜資源有限,抗干擾能力不足,已廣泛影響通信質(zhì)量和可靠性。為提升通信可靠性,將強(qiáng)化學(xué)習(xí)與VHF動(dòng)態(tài)抗干擾決策相結(jié)合,綜合考慮通信信道切換和發(fā)射功率控制。提出基于深度強(qiáng)化學(xué)習(xí)算法的VHF動(dòng)態(tài)抗干擾決策模型,使用仿真分析驗(yàn)證強(qiáng)化學(xué)習(xí)決策模型的有效性。實(shí)驗(yàn)結(jié)果表明,深度強(qiáng)化學(xué)習(xí)決策模型的抗干擾性能、收斂速度均優(yōu)于傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法,具有較高的吞吐量和較低的功耗。
關(guān)鍵詞:深度強(qiáng)化學(xué)習(xí);VHF;動(dòng)態(tài)抗干擾;決策模型
中圖分類號(hào):TP3? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)09-0089-04
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID)
0? 引言
隨著通信技術(shù)發(fā)展,民航、應(yīng)急通信等領(lǐng)域VHF(Very High Frequency,VHF)無線通信系統(tǒng)抗干擾要求更加嚴(yán)格。GWON Y等基于強(qiáng)化Q學(xué)習(xí)技術(shù)提出了最佳信道訪問策略[1]。SLIMENI F在認(rèn)知無線網(wǎng)絡(luò)場景中提出基于策略同步Q學(xué)習(xí)的信道分配策略[2]。HANAWAL M K等提出的零和博弈研究了跳頻和傳輸速率控制,但只分析了反應(yīng)式掃頻干擾方式,對多種干擾環(huán)境并不適用[3]。同時(shí),這些算法都只是利用信道切換來規(guī)避干擾,頻繁切換信道會(huì)增加系統(tǒng)成本,并不能帶來整體性能的提升。
對此,提出基于深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)的VHF動(dòng)態(tài)抗干擾決策模型,在多用戶場景下同時(shí)進(jìn)行信道選擇和功率分配,將問題建模為Stackelberg博弈過程,既考慮通信信道的訪問與發(fā)射功率控制,又考慮快速適應(yīng)環(huán)境變化的算法收斂速度。
1? 問題分析與建模
1.1? 系統(tǒng)模型
VHF無線通信環(huán)境中,發(fā)射機(jī)向接收機(jī)發(fā)送信號(hào),成功接收后接收機(jī)發(fā)回ACK。發(fā)射控制在發(fā)射機(jī)側(cè),代理感知頻譜,指導(dǎo)發(fā)射機(jī)選擇通信頻率和通信功率,并根據(jù)接收ACK和頻譜調(diào)整通信決策。
在時(shí)間t,發(fā)射機(jī)發(fā)射的信號(hào)功率為[pt,pt∈Ps,Ps]為發(fā)射機(jī)功率設(shè)置數(shù)值集合[card(Ps)=n],假設(shè)發(fā)射機(jī)的中心頻率為[ft,ft∈Fs,F(xiàn)s]為發(fā)射機(jī)中心頻率設(shè)置數(shù)值集合[card(Fs)=m]。設(shè)置發(fā)射信號(hào)中頻帶寬為[bs],假設(shè)在時(shí)間t,干擾信號(hào)頻帶為[bj],干擾信號(hào)頻率的中心頻率為[fjt],干擾信號(hào)的功率譜密度[Jt(f)]。發(fā)射機(jī)至接收機(jī)的信道增益為[gs],干擾信道至發(fā)射機(jī)的信道增益為[gj],且環(huán)境噪聲的功率譜密度為[n(f)]。那么接收機(jī)所感知到的信噪比可以表示為:
[β(ft,pt)=gsptft-bs2ft+bs2(n(f)+gj(f-fjt))]? (1)
設(shè)[βth]為信號(hào)成功傳輸?shù)拈T限值,那么表述成功通信功能的表達(dá)式為:
[u(ft,pt)=1? ?β(ft,pt≥βth)0? ?β(ft,pt<βth)]? ? (2)
因此,如果[u(ft,pt)=1],接收機(jī)會(huì)向發(fā)射機(jī)發(fā)回ACK信號(hào)。對于歸一化的數(shù)據(jù)吞吐量,用一次迭代表示N次通信,可以計(jì)算出歸一化的數(shù)據(jù)吞吐量為:
[U=n=1n=Nu(fn,pn)N]? ? (3)
其中[fn]為時(shí)刻n選擇的頻率,[pn]為時(shí)刻n選擇的功率。那么歸一化的能量消耗V就可以表示為:
[V=n=1n=NpnNph]? ? ?(4)
其中[ph]為功率集合[Ps]的最大功率。那么每個(gè)信號(hào)E使用的歸一化功率可以表示為:
[E=UV]? ? ? ?(5)
1.2? 問題模型
算法的優(yōu)化目標(biāo)是確保在每次通信中,發(fā)射機(jī)能夠選擇正確的通信信道,并達(dá)到最小的能耗。優(yōu)化目標(biāo)為:
[θ=min(β(f,p)),? s.t.β(f,p)≥βth]? (6)
將在無線環(huán)境中選擇通信中心頻率和功率的優(yōu)化問題建模為一個(gè)由4元組[(S,A,R,P)]描述的馬爾可夫決策過程(Markov decision process,MDP) [4]。在時(shí)間t的代理感應(yīng)頻譜為[St∈S],T是用來決定頻率和通信功率的時(shí)間段[at∈A]。在信號(hào)發(fā)送以后,我們得到了帶有獎(jiǎng)勵(lì)信息[rt∈R]的ACK確認(rèn)信息。用P作為過渡概率,當(dāng)T足夠大時(shí),可證明該抗干擾決策過程是一個(gè)馬爾可夫決策過程,該過程中的轉(zhuǎn)移矩陣可定義為:
[P(ST+1|ST,ST-1,...,ST-∞)]
[=P(sT+1,sT,...,st-T+2|sT,sT-1,...,sT-∞)]
[=P(st+1|st,st-1,...,st-∞)]? ? ? ? (7)
假設(shè)只需用限制歷史信息來預(yù)測下一時(shí)刻的狀態(tài),且需求小于K。這意味著在決定[at]確認(rèn)之后,[St+1]獨(dú)立于[Sk,Sk-1,...,Sk-∞],抗干擾決定已經(jīng)確認(rèn),因此傳輸矩陣可以寫為:
[P(St+1|St,St-1,...,St-∞,at)]
[=P(st+1|st-T+1,at)]
[=P(St+1|St,at)]? ? ? (8)
因此,該過程是一個(gè)馬爾可夫決策過程(MDP) ,使用深度強(qiáng)化學(xué)習(xí)(DRL) 算法來處理MDP中的最優(yōu)信道和功率決策問題。
2? 基于深度強(qiáng)化學(xué)習(xí)決策模型構(gòu)建
DRL結(jié)合了深度學(xué)習(xí)的特征來提取特征和強(qiáng)化學(xué)習(xí)來處理未知環(huán)境下的任務(wù),需要考慮環(huán)境中的多元變量[5],如圖1和圖2所示。
DRL網(wǎng)絡(luò)的輸入信息是S,稱為頻譜瀑布。S通過信號(hào)能量在以[?f]的頻率為間隔感知[St]的過程中產(chǎn)生,即[st=st,f0,st,f0+?f,...st,f],對應(yīng)到[?t]時(shí)間為[St=St,St-?t,...,St-T],其中[f0]是信號(hào)能量檢測的起始頻率,f是感知過程的結(jié)束頻率,T是頻譜瀑布的時(shí)間長度,[St,f0]的計(jì)算過程如下:
[St,f0=10logf0f0+?f(gsU(f)+gjJ(f)+n(f))df)] (9)
由于S是時(shí)域疊加頻域疊加能量域的三維信息,所以狀態(tài)空間很大。在深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)的設(shè)計(jì)中,使用卷積層提取頻譜中的信息,利用全連接網(wǎng)絡(luò)對提取的頻譜信息進(jìn)行合成。DRL網(wǎng)絡(luò)的輸出由信道頻率和功率聯(lián)合決定,網(wǎng)絡(luò)設(shè)計(jì)結(jié)構(gòu)如圖3所示。
DRL網(wǎng)絡(luò)的輸出是傳輸功率和傳輸信道[at=(ft,pt),at∈A]共同的傳輸動(dòng)作,其中A包含的動(dòng)作數(shù)量為[n×m],因?yàn)榧蟍(Ps)=n],集合[(Fs)=m],如圖3中所示。接收機(jī)以ACK信號(hào)的形式送回通信決斷[at]的反饋[rt],[rt]的計(jì)算過程如下:
[r(at)=u(ft,pt)×(1-c(pt-plph-pl))] (10)
其中[ph]是集合[Ps]中的最大值,[ph=supPs],[pl]是集合[Ps]中的最小值,[pl=infPs]。[c∈(0,1)]是一個(gè)決策因子。各個(gè)動(dòng)作對應(yīng)的目標(biāo)函數(shù)定義為:
[η=(r(a)+λmaxQ(S',a';θi-1))] (11)
其中[Q(S',a';θi-1)]是DRL的網(wǎng)絡(luò)函數(shù),λ是學(xué)習(xí)率,S'是執(zhí)行a之后的下一狀態(tài),[θi-1]是第i-1次迭代中的網(wǎng)絡(luò)權(quán)重。根據(jù)定義的目標(biāo)函數(shù),損耗函數(shù)可定義為:
[L(θi)=[Q(S,a;θi)-ηi]2] (12)
基于最小化損失函數(shù)L,用梯度下降算法優(yōu)化網(wǎng)絡(luò)權(quán)值θ。重放存儲(chǔ)器是用來保存訓(xùn)練數(shù)據(jù)的數(shù)據(jù)集,并且重放存儲(chǔ)器M的大小為m。M中存儲(chǔ)的數(shù)據(jù)滿足先進(jìn)先出(FIFO) 的原理。例如,在DRL的第k次迭代中,[M=ek,ek-1,...,ek-m+1],而[ek=(Sk,ak,ηk,Sk+1)].最終,在算法1中呈現(xiàn)出了提出的學(xué)習(xí)算法。需要注意的是,i不同于t。t是運(yùn)行算法的時(shí)間,但i是更新DRL網(wǎng)絡(luò)的迭代次數(shù)。
3? 仿真分析驗(yàn)證
3.1? 模擬仿真結(jié)果和分析
在模擬仿真中,發(fā)射機(jī)、接收機(jī)和干擾機(jī)都是在100MHz~110MHz的頻譜環(huán)境中。其中發(fā)射機(jī)以100kHz的間隔每1ms進(jìn)行一次全波段感知,每5ms發(fā)送一次信號(hào)。發(fā)射功率分別選擇30dbm、35dbm、40dbm,發(fā)射機(jī)的信號(hào)帶寬為2MHz。中心頻率[f∈101,103,105,107,109],這意味著發(fā)射機(jī)具有[3×5=15]組動(dòng)作。發(fā)射機(jī)的解調(diào)閾值為10db。對于代理機(jī),決策因子設(shè)置為c=0.4,學(xué)習(xí)速率λ=0.2,代理機(jī)每1ms執(zhí)行一次全頻帶感知。通道增益[gj=0.01,gs=0.01]。干擾信號(hào)和傳輸信號(hào)都是提升的余弦波形和偏離因子[η=0.4]。一次迭代的N是100。幾個(gè)模擬中考慮干擾模式:
1) 動(dòng)態(tài)梳狀干擾:干擾信號(hào)中心頻率從101MHz、105MHz、109MHz至103MHz、107MHz。干擾頻帶為2MHz,干擾功率為40dbm。
2) 掃描、全波段動(dòng)態(tài)干擾:每25 ms重復(fù)發(fā)生全波段干擾。這個(gè)掃描速度為0.4GHz/s,干擾功率為50dbm。
3) 梳式和全頻段動(dòng)態(tài)干擾:干擾方式從梳式干擾(干擾信號(hào)中心頻率為101MHz、105MHz、109MHz)到每25ms全頻段干擾,干擾功率為50dbm。
在圖4中,結(jié)果表明在傳輸用戶的大功率信號(hào)時(shí),干擾信號(hào)完全可以忽略。因此,高功率方案可以達(dá)到最大吞吐量,但能耗也是最高的。所提出和比較的算法需要訓(xùn)練來提高吞吐量??梢钥闯?,該算法經(jīng)過40次迭代后,可達(dá)到最大吞吐量的95%。從圖5中可以看出,該算法可以在40次迭代中降低接近最低點(diǎn)的能量成本。在圖6中雖然總是有一個(gè)頻率可以避免干擾信號(hào),但該算法可以正確地選擇低功率頻率,保持功率以低成本運(yùn)行,如在40次迭代后保持低功率方案。
4? 結(jié)束語
根據(jù)研究,深度強(qiáng)化學(xué)習(xí)在動(dòng)態(tài)抗干擾系統(tǒng)中具有優(yōu)勢,能夠自動(dòng)學(xué)習(xí)并調(diào)整策略,實(shí)時(shí)調(diào)整系統(tǒng)的抗干擾策略,通過與環(huán)境的交互,不斷嘗試不同的策略,并通過獎(jiǎng)勵(lì)信號(hào)來評估策略的好壞。
本文研究了抗干擾通信中的功率和通信頻率的優(yōu)化問題,將該問題表述為馬爾可夫決策過程(MDP) ,提出了基于深度強(qiáng)化學(xué)習(xí)(DRL) 的抗干擾算法決策模型,該算法可以同時(shí)切換頻率和功率。仿真結(jié)果表明,該算法在降低能耗的同時(shí),實(shí)現(xiàn)了高吞吐量。
參考文獻(xiàn):
[1] GWON Y,DASTANGOO S,F(xiàn)OSSA C,et al.Competing Mobile Network Game:embracing antijamming and jamming strategies with reinforcement learning[C]//2013 IEEE Conference on Communications and Network Security (CNS).October 14-16,2013.National Harbor,MD,USA.IEEE,2013:28-36.
[2] SLIMENI F,SCHEERS B,CHTOUROU Z,et al.Jamming mitigation in cognitive radio networks using a modified Q-learning algorithm[C]//2015 International Conference on Military Communications and Information Systems (ICMCIS).May 18-19,2015.Cracow,Poland.IEEE,2015:1-7.
[3] HANAWAL M K,ABDEL-RAHMAN M J,KRUNZ M.Joint adaptation of frequency hopping and transmission rate for anti-jamming wireless systems[J].IEEE Transactions on Mobile Computing,2016,15(9):2247-2259.
[4] 李芳,熊俊,趙肖迪,等.基于快速強(qiáng)化學(xué)習(xí)的無線通信干擾規(guī)避策略[J].電子與信息學(xué)報(bào),2022,44(11):3842-3849.
[5] 郭振焱.復(fù)雜對抗環(huán)境下的通信抗干擾策略生成方法[D].成都:電子科技大學(xué),2022.
【通聯(lián)編輯:朱寶貴】