国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度強化學習的智能干擾方法研究

2022-07-13 00:51:00夏成龍劉辰燁
電聲技術 2022年5期
關鍵詞:干擾機頻譜決策

夏成龍,李 祥,劉辰燁,楊 旸

(中國人民解放軍陸軍工程大學 通信工程學院,江蘇 南京 210007)

0 引言

在未來的信息化戰(zhàn)場中,情報傳遞、戰(zhàn)場指揮、武器控制等絕大部分信息交互都通過數(shù)字化信息網(wǎng)絡實現(xiàn)。可以說,信息通信水平已經(jīng)成為影響現(xiàn)代戰(zhàn)爭成敗的最重要因素之一。如何取得信息化戰(zhàn)場中的“制信息權”,已經(jīng)成為軍事通信領域的研究熱點。機動性、靈活性是衡量作戰(zhàn)能力的重要標準,因此,便于“動中通”的無線通信手段和設備成為戰(zhàn)場信息傳輸?shù)闹匾M成部分。也正是因為無線通信的重要地位,無線通信干擾和抗干擾方之間的“矛盾之爭”日趨激烈。此外,人工智能技術的出現(xiàn)和日漸完善,大大提高了通信抗干擾方的智能化水平。因此,基于人工智能方法開展智能干擾技術研究,已成為當務之急。

本文研究基于深度強化學習的智能干擾決策方法,基于Python 環(huán)境仿真分析了算法的有效性,得到了較好的干擾效果,能夠為智能化干擾設備的研制和實用化提供良好的理論驗證。

1 深度強化學習概述

1.1 深度學習

深度學習(Deep Learning,DL)的概念最先起源于人工神經(jīng)網(wǎng)絡的研究。直到2006 年,HINTON 在論文中詳細分析講解了DL 體系機構,掀起了深度學習研究的熱潮[1]。DL 的基本原理是通過學習一種分層的非線性網(wǎng)絡結構,計算樣本數(shù)據(jù)的分層特征或表示因子,其中的高層特征或因子由低層得到,在此基礎上得到樣本數(shù)據(jù)的內在規(guī)律和表示層次,實現(xiàn)了用復雜函數(shù)逼近的目的[2]。通過學習過程得到的規(guī)律和復雜函數(shù),對文字、聲音、圖像等常用數(shù)據(jù)的解釋起到了很大的作用。DL 是一種復雜的機器學習算法,其最終目標是讓機器能夠像人一樣具有分析各種數(shù)據(jù)的能力[3]。因此,DL 更加強調對事物的感知和表達。在諸多技術領域中,DL 在語音和圖像識別方面取得了很好的研究和應用成果。

DL 能使機器模仿復雜的人類思考活動,從而解決很多經(jīng)典算法束手無策的難題,使人工智能的相關技術取得了重大突破。作為機器學習領域最重要的研究熱點之一,DL 已經(jīng)在搜索技術、語音識別、數(shù)據(jù)挖掘、圖像分析、機器翻譯、推薦及個性化技術等眾多相關領域都取得了舉世矚目的成果。常見的深度學習模型主要有卷積神經(jīng)網(wǎng)絡(Convolutional Neural NetWork,CNN)[4]、深度信念網(wǎng)絡(Deep Belief Network,DBN)[3]、循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)[3]等。

1.2 強化學習

強化學習(Reinforcement Learning,RL)是機器學習的一個重要分支,是多學科、多領域交叉的產(chǎn)物。它的本質是解決未知環(huán)境中的決策問題。強化學習來源于動物訓練中經(jīng)常采用的“嘗試與獎勵”機制,通過與環(huán)境的交互取得獎勵(reword)來進行學習,并進一步利用環(huán)境的反饋實現(xiàn)決策的優(yōu)化輸出。

RL 的基本實現(xiàn)框架如圖1 所示,是智能體(Agent)通過采取行動(Action)改變自己的狀態(tài)(State),從而與環(huán)境(Surrounding)發(fā)生交互并獲得獎勵(Reward)的循環(huán)過程。該過程是一個試探與評價的過程,其主要原理是通過比較Agent 在經(jīng)過一次次不同的行動后從環(huán)境中獲得的累計獎賞值,找到獎勵值最大的行動方式,以做出使目標最優(yōu)的決策。因此,RL 方法更加側重于選取解決問題的最優(yōu)策略。

圖1 強化學習的基本實現(xiàn)框架

由于RL 在學習過程中不需要提供額外信息,因此其在求解未知動態(tài)環(huán)境中的最優(yōu)策略方面具有很好的應用價值,已經(jīng)廣泛應用于仿真模擬、游戲博弈、金融經(jīng)濟、優(yōu)化與調度、機器人控制等眾多需要選擇決策的領域。而在通信系統(tǒng)的智能資源決策等問題中,RL 也可以達到很好的決策效果。

1.3 深度強化學習

伴隨著科技進步和人類社會的飛速發(fā)展,越來越多復雜的現(xiàn)實任務場景出現(xiàn)了。它們大多擁有龐大雜亂的樣本數(shù)據(jù),需要利用DL 來獲取內在規(guī)律和抽象表征,并以此為依據(jù)進行RL,從而尋求解決問題的最佳策略??紤]到上述應用場景,將具有感知優(yōu)勢的DL 和具有決策優(yōu)勢的RL 相結合,深度強化學習(Deep Reinforcement Learning,DRL)應運而生,而且迅速成為人工智能領域新的研究熱點。

DRL 是將DL 的感知能力和RL 的決策能力相結合的一種全新算法。輸入的文本、音頻、圖像、視頻等數(shù)據(jù)量巨大的復雜數(shù)據(jù),通過DRL 的處理,可以在無需人為干預的情況下,直接輸出最優(yōu)決策結果。這種從感知到動作的端到端的學習,是一種更接近人類思維方式的人工智能學習方法,具有更強的通用性。DRL 的原理框架如圖2 所示。其學習過程可以描述如下:

圖2 深度強化學習原理框架圖

(1)從某個時刻開始,Agent 與環(huán)境交互得到環(huán)境的觀察,利用DL 方法來感知觀察環(huán)境和系統(tǒng)狀態(tài),從而得到環(huán)境和系統(tǒng)狀態(tài)的具體特征表示;

(2)基于DL 所得到的特征信息,RL 根據(jù)信息做出相應的動作決策;

(3)當動作作用于環(huán)境后,環(huán)境會對此動作做出反應,DL 從環(huán)境中獲得新的觀察,RL 從環(huán)境中獲得反饋獎賞,通過不斷循環(huán)以上過程,輸出可以實現(xiàn)目標的最優(yōu)策略。

近年來,由于巨大的應用前景和強大的適用性,DRL 一直是人工智能領域的研究熱點,許多新的算法不斷提出。很多學者將深度學習與強化學習相結合并應用到實際中[5-7],算是早期的DRL 雛形,但都不夠成熟,存在較多缺陷。

2012 年,深度學習在ImageNet 比賽大獲全勝。DeepMind 團隊想到把深度網(wǎng)絡與強化學習結合起來,基于強化學習領域很早就出現(xiàn)的值函數(shù)逼近(function approximation),通過深度神經(jīng)網(wǎng)絡這一神奇的工具,開創(chuàng)性地提出了深度Q 網(wǎng)絡(Deep Q-Network,DQN),巧妙地解決了狀態(tài)維數(shù)爆炸的問題。2013 年,DeepMind 團隊利用設計的DQN算法訓練計算機進行Atari 游戲,成功使計算機在3款游戲上超過了人類的頂尖水平[8]??梢哉f,DQN是深度強化學習的開篇之作,也是最重要、最基礎的算法之一。DQN 被提出以后,深度強化學習開始進入廣泛應用的階段。本文研究的智能干擾算法也是基于DQN 實現(xiàn)。

DQN 的模型結構如圖3 所示。DQN 在訓練過程中使用經(jīng)驗回放機制(experience replay)。而且其在訓練時,通常要求樣本數(shù)據(jù)之間是相互獨立的。DQN 還單獨使用另一個網(wǎng)絡來產(chǎn)生目標Q 值。這些做法都可以大大降低樣本之間的關聯(lián)性,從而提高算法的穩(wěn)定性。

圖3 DQN 的模型結構

實驗表明,DQN 在解決諸如Atari 2600 游戲等類真實環(huán)境的復雜問題時,表現(xiàn)出不遜色甚至超過人類頂尖玩家的競技水平,充分說明DQN 方法具有很強的適應性和通用性。

2 基于深度強化學習的干擾算法

2.1 模型建立

本文基于深度強化學習中的深度Q 網(wǎng)絡算法(DQN),建立通信智能干擾系統(tǒng)模型,然后將感知到的頻譜數(shù)據(jù)作為狀態(tài),更好地描述動態(tài)條件下頻譜環(huán)境特征,構建基于深度強化學習的決策網(wǎng)絡,運用此網(wǎng)絡對頻譜信息進行處理,實現(xiàn)干擾策略在線學習與更新,并研究了基于深度強化學習的干擾方法。

智能干擾系統(tǒng)的組成如圖4 所示。系統(tǒng)共享多個可用信道。通信智能干擾子系統(tǒng)包括一臺干擾機和一臺頻譜感知設備,無線通信子系統(tǒng)由一對通信用戶(發(fā)送機和接收機)組成。感知設備負責頻譜的實時感知和獲取,干擾機負責干擾決策和發(fā)射干擾。通信系統(tǒng)具備多種通信模式,主要包括定頻、自適應慢跳頻及快速跳頻通信。頻譜感知機會將感知到的頻譜數(shù)據(jù)傳送給智能干擾機,智能干擾機會根據(jù)監(jiān)測到的頻譜數(shù)據(jù)選擇干擾方式,最大化干擾效果。

圖4 智能干擾模型

本文著重討論感知機感知到的環(huán)境頻譜數(shù)據(jù)對干擾機決策的影響。為了便于計算和仿真,對感知機的感知效率和干擾機的功率等問題均進行理想化處理,即感知機能及時、準確地感知通信頻點,且干擾頻率與通信頻率一致即意味著干擾成功。

算法實現(xiàn)智能干擾的主要流程為:首先將干擾過程建模成一個MDP 模型,利用深度學習的強大的特征提取分析能力對動態(tài)、復雜的頻譜環(huán)境進行抽象提取,其次通過強化學習的不斷迭代和持續(xù)學習能力,不斷優(yōu)化長遠回報值,最終做出最佳決策。即干擾機通過接收到頻譜感知設備的頻譜圖,進一步?jīng)Q策出智能干擾策略。

首先構建MDP 模型。馬爾科夫過程一般由四元組(S,A,P,R)所描述,其中S為狀態(tài)集,A為動作集,P為轉移概率,R為獎勵值集。頻譜感知設備不斷感知頻譜數(shù)據(jù)并進行存儲。a代表干擾機在經(jīng)過深度強化學習決策后作出的動作,a∈A;P={p(Sk+1)|Sk,ak}代表在狀態(tài)Sk下,干擾機做出干擾動作ak后轉移到狀態(tài)Sk+1的概率p∈P;r代表干擾機做出干擾動作后獲得的獎勵值r∈R。

依據(jù)以上模型,設獎勵函數(shù)Rj(干擾回報值)為:

式中:fu為干擾頻譜,fj為通信頻譜。當干擾頻譜和通信頻譜重合,即fu=fj,表示干擾成功,則獲得回報值1;否則,fu≠fj表示干擾失敗,則回報值為0。干擾機的優(yōu)化目標是使累積的獎勵值最大,即:

式中:γ代表折扣因子,Rt代表在t時刻的獎勵值。St代表時間t之前的所有頻譜信息。文獻[9]的研究證明狀態(tài)集S可以通過頻譜強度熱力學圖(即頻譜的熱力學顏色)來表示,并以此來確定干擾策略。因此在動態(tài)環(huán)境中將頻譜熱力學圖作為狀態(tài)集。

輸入狀態(tài)為頻譜感知設備感知到用戶系統(tǒng)的頻譜瀑布圖,輸出的動作為干擾決策信道。在神經(jīng)網(wǎng)絡的設計上,利用卷積層提取頻譜信息,再用全連接層分析頻譜信息。神經(jīng)網(wǎng)絡結構如圖5 所示。

圖5 神經(jīng)網(wǎng)絡結構

整體網(wǎng)絡結構由兩個卷積層和兩個完全連接層構成。卷積神經(jīng)網(wǎng)絡通過卷積和特征映射對圖像特征進行提取和降維處理,得到特征數(shù)據(jù);之后全連接層通過相連的點將提出到的特征進行綜合處理。數(shù)據(jù)處理后輸出估計的Q 函數(shù),最后根據(jù)Q函數(shù)輸出決策即將要執(zhí)行的干擾動作。

2.2 算法設計

本文所設計的基于深度強化學習的智能干擾算法流程如以下偽代碼所示。

基于深度強化學習的智能干擾算法

初始化

(1)設定初始環(huán)境S1;

(2)經(jīng)驗回放庫M≠?,迭代次數(shù)t=0,初始化網(wǎng)絡參數(shù)θ為隨機值;

Whilet<T循環(huán)

(1)通過ε-greedy算法選擇干擾動作a;

(2)執(zhí)行a,并根據(jù)公式計算獎勵值;

(3)感知St+1,并把et=(St,at,Rt,St+1)存儲進回放庫M中;

(4)If sizeof(M)>N

從M中隨機選取e按照梯度下降法更新網(wǎng)絡參數(shù);

計算反饋目標值ηt=r(a)+λmaxQ(S',a';θt+1);

End if

結束循環(huán)

3 仿真結果與分析

本文利用設計出的算法,在Python 下給出仿真參數(shù)的設置和仿真結果??紤]通信目標未跳頻通信模式進行干擾仿真,通信方在頻段內以動態(tài)跳頻的方式每20 跳重復一次的跳頻規(guī)律,通信帶寬為20 MHz,跳頻周期為10 ms。圖6 為算法仿真所獲得的頻譜瀑布圖。圖6 中,灰色方塊為通信用戶的跳頻頻點,白色方塊為干擾機發(fā)送的干擾頻點。從圖6(a)可以看到,在學習剛開始時,干擾機不熟悉環(huán)境,因此干擾動作是隨機的。未經(jīng)深度強化學習的干擾機干擾效率差,不能有效跟上跳頻頻點。圖6(b)為經(jīng)過深度強化學習后的頻譜瀑布圖,從圖中可以看到,隨著算法收斂完成,干擾頻率會根據(jù)通信頻率而改變,干擾頻譜有效覆蓋了大多數(shù)用戶跳頻通信頻譜,充分證明了所提算法的有效性。干擾機有效學習到通信方的信道切換規(guī)律,而傳統(tǒng)跟蹤干擾方法由于傳輸時延問題并沒有智能干擾方法的效果明顯,因此從圖上可得所提深度強化學習算法具有更好的干擾效果。

圖6 算法所獲得的頻譜瀑布圖

改變通信方的通信跳頻參數(shù),進一步驗證智能干擾的適用性和智能性。首先改變跳頻序列周期,對不同跳頻序列周期的發(fā)送機進行干擾。圖7(a)、圖7(b)、圖7(c)選擇的跳頻序列周期分別為20,50,100,也就是跳頻序列每20,50,100 跳后循環(huán)重復一個周期。其中橫軸表示算法的迭代次數(shù),即頻譜感知和深度學習的次數(shù),縱軸表示通信目標的通信成功率,即能夠通信的頻點在總頻點中所占的比例。可以看到,當跳頻周期為20 和50時,干擾機經(jīng)過2 000 次頻譜感知和深度學習后,將通信方的通信成功率壓制到了10%左右,用戶機被成功干擾。而跳頻序列周期為100 的用戶機,也在3 000 多次迭代之后被成功干擾。

圖7 不同跳頻序列周期的仿真結果

之后改變跳頻帶寬,對不同跳頻帶寬的發(fā)送機進行干擾。圖8(a)、圖8(b)、圖8(c)選擇的跳頻帶寬分別是20 MHz,30 MHz,50 MHz。更寬的跳頻帶寬意味著跳頻可出現(xiàn)隨機頻點的范圍更大了。可以看到,基于深度強化學習的智能干擾效果明顯,達到了預計的80%的干擾成功率。

圖8 不同跳頻帶寬的仿真結果

4 結語

考慮到電磁頻譜環(huán)境日益復雜,電磁頻譜對抗愈加激烈,本文對智能干擾決策方法進行了研究。在充分討論傳統(tǒng)干擾機干擾樣式貧乏、適用場景單一以及新興抗干擾手段復雜多變的研究現(xiàn)狀后,本文得出了“我方的干擾和攻擊技術己無法滿足通信對抗發(fā)展的需要”的結論。而后,本文充分討論了深度強化學習的原理和優(yōu)勢,提出了要將深入強化學習引入干擾技術。之后將干擾過程建模成一個MDP 過程,為提升干擾機在動態(tài)頻譜環(huán)境和大數(shù)據(jù)空間下的干擾能力,設計了基于深度強化學習的智能干擾方法。仿真結果表明,所提算法可以準確學習頻譜環(huán)境并進行有效干擾,對不同種類的跳頻通信信號具有很好的干擾效果。可以為后續(xù)干擾功能拓展開發(fā)、研究更加貼近實戰(zhàn)的智能干擾機提供理論依據(jù)。

猜你喜歡
干擾機頻譜決策
為可持續(xù)決策提供依據(jù)
一種用于深空探測的Chirp變換頻譜分析儀設計與實現(xiàn)
雷聲公司交付首套中頻段下一代干擾機
決策為什么失誤了
一種基于稀疏度估計的自適應壓縮頻譜感知算法
測控技術(2018年7期)2018-12-09 08:58:22
基于壓縮感知的單脈沖雷達欺騙干擾機研究
空襲遠距離支援干擾機陣位選擇及航線規(guī)劃
美國海軍將研制新一代干擾機
認知無線電頻譜感知技術綜述
一種基于功率限制下的認知無線電的頻譜感知模型
汝州市| 枣庄市| 桃园市| 上虞市| 临海市| 苏尼特右旗| 宿迁市| 沈阳市| 大姚县| 柘城县| 讷河市| 玉门市| 闽侯县| 玛沁县| 运城市| 宁远县| 和田市| 安庆市| 黎平县| 手游| 张家界市| 汉川市| 津市市| 常德市| 徐闻县| 海林市| 霸州市| 页游| 大兴区| 巴塘县| 田阳县| 正蓝旗| 金秀| 汝城县| 葵青区| 攀枝花市| 桂阳县| 比如县| 汉沽区| 榕江县| 武宣县|