国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于隨機森林強化學習的干擾智能決策方法研究*

2019-10-09 05:22裴緒芳陳學強呂麗剛張雙義劉松儀汪西明
通信技術 2019年9期
關鍵詞:時隙信道狀態(tài)

裴緒芳,陳學強,呂麗剛,張雙義,劉松儀,汪西明

(1.中國人民解放軍陸軍工程大學 通信工程學院,江蘇 南京 210000;2.中央軍委訓練管理部信息中心,北京 100000)

0 引 言

電磁空間是現(xiàn)代戰(zhàn)爭作戰(zhàn)概念和技術的重要拓展,作為未來戰(zhàn)爭體系的物質(zhì)基礎,電磁頻譜的爭奪和反爭奪將成為戰(zhàn)爭制勝的關鍵[1-2]。近年來,人工智能技術的迅猛發(fā)展為電子對抗領域開辟了新的思路[3-6]。為提高惡劣電磁環(huán)境下的通信對抗能力,急需研究應對敵方干擾攻擊的抗干擾技術,以保障己方在惡劣電磁環(huán)境中的正常通信。同時,利用干擾攻擊影響并破壞敵方的無線通信,也是提升通信對抗能力不可或缺的一部分。在電磁頻譜對抗環(huán)境下,為了對敵方通信實施有效干擾,引入了智能干擾的概念。

傳統(tǒng)的干擾模式主要有定點干擾、掃頻干擾、梳狀干擾和跟蹤干擾等。然而,由于這幾類干擾模式相對固定且模式單一,通信用戶可以輕易尋找到干擾的變化規(guī)律而成功躲避干擾。若要對敵方通信實現(xiàn)精準有效干擾,必須提高干擾算法的智能性。針對現(xiàn)有干擾技術存在的缺點與不足,美國國防高級研究局(DARPA)開展了行為學習自適應電子戰(zhàn)(BLADE)、自適應雷達對抗(ARC)和極端射頻條件下的通信等研究項目,引入自主學習機制以實現(xiàn)穩(wěn)健通信,獲取戰(zhàn)場環(huán)境的電磁權。相比于傳統(tǒng)的干擾技術,智能干擾所面臨的挑戰(zhàn)主要有:(1)敵方通信用戶通信策略時刻變化,目標識別獲取困難,干擾方需要準確獲取目標特征,快速生成最佳干擾;(2)干擾方必須具備在線持續(xù)學習能力,根據(jù)環(huán)境的動態(tài)變化不斷產(chǎn)生后續(xù)干擾策略。

近年來,很多學者在智能干擾方面展開了研究[7-10]。文獻[7]研究了多天線MIMO無線通信鏈路的智能干擾攻擊問題,提出了一種最優(yōu)干擾信號設計方案,當收發(fā)機采用抗干擾機制時,可以最大限度地干擾MIMO傳輸。文獻[8]研究了干擾偽隨機碼相位調(diào)制引信,提出了一種基于多時延智能欺騙的新型干擾方法,并通過仿真驗證了智能干擾算法的有效性。文獻[9]提出了一種多臂式結構的干擾策略,能夠自適應調(diào)整功率,有效地干擾敵方用戶通信,且證明了算法可以收斂到最優(yōu)干擾策略。文獻[10]從強化學習的角度出發(fā),設計了一種基于強化學習的智能干擾算法,干擾機通過自主學習,可以實現(xiàn)對敵方通信用戶進行跟蹤干擾的目的。

受文獻[10]的啟發(fā),本文提出了一種基于隨機森林強化學習的智能干擾算法。干擾方可以通過學習用戶的信道切換規(guī)律,不斷優(yōu)化干擾策略。與文獻[10]不同之處在于:(1)在系統(tǒng)模型層面,文獻[10]只考慮干擾單個通信用戶,而本文同時干擾兩個通信用戶;(2)在算法設計層面,文獻[10]使用經(jīng)典Q學習算法,而本文提出了一種基于隨機森林強化學習的智能干擾算法;(3)本文所提算法重新定義了系統(tǒng)的效用回報為干擾的占空比,算法收斂速度更快。

文章章節(jié)設置如下:第1節(jié)給出系統(tǒng)模型,并將干擾策略的決策過程建模為一個MDP過程;第2節(jié)針對建立的問題模型,提出了一種基于隨機森林強化學習的智能干擾算法;第3節(jié)給出了仿真結果,并分析了算法性能;最后,進行總結。

1 系統(tǒng)模型及問題建模

1.1 系統(tǒng)模型

本文考慮無線通信網(wǎng)絡中存在1個干擾機、1個認知引擎和2個用戶,系統(tǒng)模型如圖1所示。系統(tǒng)的全頻段頻譜被劃分為M個帶寬相等的信道,信道集表示為每個信道帶寬為W。通信用戶雙方采用掃頻、梳狀以及隨機等信道切換策略進行通信,干擾方通過認知引擎獲得信道狀態(tài)信息,并根據(jù)獲得的信道狀態(tài)信息執(zhí)行強化學習算法來學習用戶的信道切換規(guī)律,以不斷優(yōu)化自身的干擾策略。假設每個用戶在每時隙只選擇一個信道進行通信,干擾方同時干擾兩個信道。

圖1 系統(tǒng)模型

1.2 問題建模

考慮到用戶通信信道時刻動態(tài)變化,干擾方需要探索用戶的通信規(guī)律,以對其實施有效干擾。假設系統(tǒng)中存在M個可用信道,為了使描述更直觀,以M=7為例進行舉例說明。假設用戶1以掃頻方式通信,用戶2以固定序列跳頻方式通信,其用戶通信信道切換示意圖如圖2所示。

圖2 用戶通信信道切換

針對以上提出的問題,本文將干擾信道選擇問題建模為MDP過程。MDP一般用一個4元組表示,即,其中S代表狀態(tài)空間,A代表動作空間,P代表狀態(tài)轉移概率,R代表效用回報。具體定義如下。

設置狀態(tài)空間s:在n時隙時,干擾方的狀態(tài)可 表 示 為sn=(cu1,cu2),cu1,cu2∈ {1,2,…,M}, 其 中cu1、cu2通過認知引擎的頻譜感知獲得,分別代表當前用戶1和用戶2的通信信道,因此狀態(tài)空間的大小為

設置動作空間A:在n時隙時,干擾方會選擇兩個信道進行干擾,干擾的動作可表示為an=(cj1,cj2),cj1,cj2∈ {1,2,…,M},cj1、cj2分 別 表 示 干擾方下一時刻選擇干擾的信道,因此動作空間的大小為

設置狀態(tài)轉移概率矩陣P:在n時隙時,表示干擾方從當前狀態(tài)sn選擇動作an到達下一時隙狀態(tài)sn+1狀態(tài)的概率。

設置干擾效用R:干擾的目標是探索最優(yōu)的干擾信道選擇策略使得累計成功干擾概率最大。n時隙時,在當前狀態(tài)sn下,干擾選擇動作an,此時獲得的回報值為rn。本文中定義的rn為n時隙干擾方的占空比,即用戶單個時隙內(nèi)成功干擾到用戶通信所占的比例,具體可表示為:

其中Toverlap為n時隙內(nèi)用戶通信被干擾的時長,Tuser為用戶通信時隙長度。

本文中,系統(tǒng)的優(yōu)化目標為尋找到最優(yōu)的干擾策略π,最大化系統(tǒng)累積成功干擾概率,即:

根據(jù)對動態(tài)環(huán)境下干擾信道決策問題的分析,將其建模為一個MDP。對于這種未知環(huán)境下的決策問題,通常采用強化學習(RL)[3]給予解決。近年來,Q學習作為一種最典型的強化學習方法得到了廣泛應用。與文獻[10]不同,由于本文的系統(tǒng)模型狀態(tài)空間較大,傳統(tǒng)的Q學習算法無法解決由維數(shù)增長帶來的狀態(tài)空間巨大的問題,因此本文提出了一種基于隨機森林強化學習的智能干擾算法。

2 基于隨機森林強化學習的智能干擾算法

Q學習是一種無模型的在線學習算法,無需知道環(huán)境的先驗知識,直接通過與環(huán)境不斷交互獲得最優(yōu)的策略[3]。在執(zhí)行Q學習算法的過程中,智能體會維護一張Q值表,用于評估不同狀態(tài)下對應各個動作的優(yōu)劣程度。Q學習的基本原理如圖3所示。

圖3 Q學習基本原理

在執(zhí)行算法的初始時刻,Q值表為全零矩陣,智能體會根據(jù)當前狀態(tài)sn做出一個動作an,并獲得相應的回報rn,同時更新Q值表。隨著智能體不斷地與環(huán)境進行交互,Q值表趨于穩(wěn)定,策略逐漸收斂于最優(yōu)。

為了使系統(tǒng)長期累積回報最大化,需要將單步回報值進行累加求和從而得到長遠回報。對于這種長期任務下的回報值計算,需引入折扣因子γ。為評價在給定狀態(tài)下采取某個策略好壞,一般通過值函數(shù)來反映。因此,在某一策略π下獲得的γ折扣長遠累積回報可表示為[11]:

智能體在狀態(tài)sn下采取動作an獲得的Q值可表示為:

目標是找到最優(yōu)策略能夠獲得最大化折扣回報,根據(jù)Bellman方程最優(yōu)策略下所對應值函數(shù)V*(sn)可定義為[11]:

同理可得,對于Q*(sn)函數(shù)的Bellman最優(yōu)方程可定義為:

在本文所提的系統(tǒng)模型中,定義在sn狀態(tài)下選擇動作an,同時獲得一個回報值rn,然后更新相應的Q值。由于本文信道狀態(tài)數(shù)較多,所以采用了并行多步更新Q值的方式,即同時對每個狀態(tài)-動作對的Q值進行更新。Q學習算法的更新公式為:

其中α表示學習速率,具體為α=1/(1+Ta(n)),Ta(n)是干擾的決策動作an在過去n個時隙中執(zhí)行的次數(shù)。γ(0<γ≤1)表示折扣因子,ψ為干擾方在sn+1狀態(tài)下所有可選策略對應的最大Q值,具體表示為:

在Q學習算法執(zhí)行過程中,若干擾方每一步都根據(jù)當前Q值選擇最優(yōu)策略,即最大Q值對應的動作,很容易陷入局部最優(yōu)而無法去探索更多的策略。與文獻[10]不同的是,本文的決策空間較大,若使用標準的Q學習,會導致算法收斂速度較慢甚至無法收斂的情況。因此,本文提出了一種基于隨機森林強化學習的智能干擾算法,即在策略選擇過程中,通過增加一個附加值來探索最優(yōu)策略[5]。它可以平衡在策略選擇過程中探索與利用的關系,并且可以大大提高算法的收斂速度。策略更新公式為:

其中CH是預先設定大于零的常數(shù),Wa(n)為偏差因子,具體表示為:

其中Si(an)為選擇決策動作an的第i個狀態(tài),rn為當前狀態(tài)sn下的即時回報值。干擾在選擇并執(zhí)行動作a(n)后,在第n+1時隙到達狀態(tài)

在無線通信系統(tǒng)中,用戶以任意模式的信道切換策略進行通信,干擾方執(zhí)行Q學習算法學習用戶的信道切換規(guī)律。在執(zhí)行算法的開始,干擾方的初始狀態(tài)設置為s0(cu1(0),cu2(0)),其中cu1(0)、cu2(0)分別為用戶1和用戶2在0-th的通信信道,由干擾方通過認知引擎的頻譜感知獲得。干擾方在0-th隨機選擇兩個信道cj1(0)、cj2(0)釋放干擾信號,并計算相應的回報值。之后的Twbss時間內(nèi),干擾方通過認知引擎的頻譜感知獲得當前時刻用戶1和用戶2的通信信道cu1(1)、cu2(1),然后更新下一時隙的狀態(tài)為s1(cu1(1),cu2(1)),同時對Q值表中s0狀態(tài)下所有動作的Q值進行更新。算法依次迭代,最終在動態(tài)變化的環(huán)境中收斂到最優(yōu)的干擾策略。詳細的算法流程如下:

初始化:

1.設置仿真時隙數(shù)為N(N>0),初始時隙為n=0。

2.設置Q學習參數(shù)γ,初始化Q值表Q(s,a)=0。

3.設置初始工作狀態(tài)為s0=(cu1(0),cu2(0)),其中cu1(0)、cu2(0)由認知引擎的頻譜感知獲得。干擾方隨機從所有信道中選擇兩個信道作為初始干擾信道cj1(0)、cj2(0)。

循環(huán)開始n=0,1,2,…,N-1

4.干擾方在cu1(n)、cu2(n)信道上對用戶通信進行干擾,干擾時隙長度為Tjam,根據(jù)式(1)計算相應的回報值rn。

5.干擾方通過認知引擎的頻譜感知獲得用戶當前時刻的通信信道cu1(n+1)、cu2(n+1)。

7.計算α=1/(1+Ta(n))。

8.根據(jù)式(7)并行更新所有狀態(tài)-動作對的Q值。

9.n=n+1。

10.更新狀態(tài),令sn+1=sn。

循環(huán)結束

3 仿真結果

本節(jié)對所提基于隨機森林強化學習的智能干擾算法在MATLAB上進行仿真驗證,并分析其收斂性能。仿真中,假設用戶1以掃頻方式進行通信,用戶2以固定跳頻序列方式進行通信,其信道切換規(guī)律如表1所示。本文的主要系統(tǒng)參數(shù)設置如下:信道數(shù)M=16,學習速率α∈(0,1],折扣因子γ=0.8。仿真時隙參數(shù)設置如表2所示。

表1 敵方用戶信道切換規(guī)律

表2 仿真時隙參數(shù)設置

圖4給出了系統(tǒng)采用不同干擾算法的干擾概率曲線。為了評估所提算法的性能,比較基于隨機森林強化學習的智能干擾算法、文獻[10]所提智能干擾算法和基于感知的隨機信道選擇算法的算法性能。圖4中干擾概率曲線是由干擾每20個時隙中成功干擾次數(shù)所占比例計算所得。通過圖4可以發(fā)現(xiàn),與文獻[10]所提智能干擾算法以及基于感知的隨機信道選擇算法相比,本文所提算法干擾性能良好,且較文獻[10]中提出的智能干擾算法相比,收斂速度更快。

圖5中給出了干擾和用戶時頻圖。圖5(a)為在強化學習初期的干擾效果圖,開始階段干擾無法捕捉用戶的通信信道,只能通過隨機選擇的方式不斷探索規(guī)律,用戶被干擾的概率極低。圖5(b)為在強化學習末期(系統(tǒng)達到收斂條件)的干擾效果圖,圖中畫圈部分即表明用戶被干擾。經(jīng)過在線學習,干擾找到了用戶的通信規(guī)律,基本上可以成功對用戶通信頻點進行干擾。

圖4 系統(tǒng)采用不同算法的干擾概率變化曲線

圖5 干擾與用戶時頻圖

4 結 語

本文研究了頻譜對抗環(huán)境中干擾智能決策問題。將干擾方的信道決策過程建模為一個MDP,提出了一種基于隨機森林強化學習的智能干擾算法。為了證明所提算法的有效性,本文將所提算法與文獻[10]所提智能干擾算法和基于感知的隨機信道選擇算法進行對比。仿真結果表明,所提算法的收斂速度最快,還可以根據(jù)當前的用戶通信環(huán)境成功學習到最優(yōu)的干擾策略。本文為大規(guī)模無線網(wǎng)絡中的智能干擾研究提供了新的思路,未來將研究更加復雜的用戶通信策略,使通信對抗雙方更具有智能性。

猜你喜歡
時隙信道狀態(tài)
信號/數(shù)據(jù)處理數(shù)字信道接收機中同時雙信道選擇與處理方法
基于時分多址的網(wǎng)絡時隙資源分配研究
狀態(tài)聯(lián)想
基于市場機制的多機場時隙交換放行策略
生命的另一種狀態(tài)
一種無人機數(shù)據(jù)鏈信道選擇和功率控制方法
一種基于時隙優(yōu)化的鄰居發(fā)現(xiàn)算法研究
一種高速通信系統(tǒng)動態(tài)時隙分配設計
堅持是成功前的狀態(tài)
基于導頻的OFDM信道估計技術
定西市| 东丰县| 阳信县| 蕲春县| 梅河口市| 靖州| 天峨县| 瑞昌市| 通辽市| 垫江县| 河东区| 开封市| 永平县| 嘉荫县| 天台县| 南平市| 耒阳市| 炉霍县| 定边县| 云浮市| 左贡县| 阿坝县| 耒阳市| 仪征市| 山东| 永寿县| 曲松县| 商水县| 塔河县| 英超| 大足县| 瑞安市| 礼泉县| 额济纳旗| 易门县| 宁武县| 三门峡市| 海晏县| 特克斯县| 伊金霍洛旗| 万安县|