宋佰霖, 許華, 蔣磊, 饒寧
(空軍工程大學 信息與導航學院, 陜西 西安 710077)
隨著戰(zhàn)場電磁環(huán)境日趨復雜以及電子戰(zhàn)技術(shù)的快速發(fā)展[1],軍用無線通信受到的威脅越來越大,提高通信抗干擾能力迫在眉睫,要想盡可能保證通信不受干擾,決策環(huán)節(jié)至關(guān)重要。
通信抗干擾過程是通信系統(tǒng)與干擾系統(tǒng)博弈的過程,由于博弈論解決決策問題具有優(yōu)勢[2],基于博弈論的通信抗干擾決策和認知無線電研究取得一定成果。這些研究主要基于前景理論[3]、 Stackelberg博弈[4]和隨機學習理論等[5]方法,從頻率、功率等[6-7]角度入手,通過構(gòu)建通信與干擾間的博弈模型,計算出最優(yōu)通信抗干擾策略。此類方法的特點在于通信方需要獲取干擾先驗信息,通過數(shù)學推導得出結(jié)果。當干擾先驗信息未知時,此類方法實現(xiàn)較為困難,不足以應對干擾樣式不斷變化的情況。
近年來,隨著對人工智能研究不斷深入,一些基于強化學習的通信抗干擾決策方法研究取得成果。這些研究從功率分配[8]、頻率選擇等[9-10]角度入手,綜合運用模式識別[10]、多智能體決策等[11]領域知識,設計基于強化學習的方法進行決策。其中,文獻[10]通過信號時頻圖識別干擾樣式,將頻譜信息轉(zhuǎn)換為干擾樣式信息,根據(jù)不同干擾樣式分別決策通信頻率;文獻[11]提出一種基于Q-Learning算法的多智能體協(xié)同抗干擾算法,在掃頻干擾的情況下抵抗信道中的惡意干擾。此類決策方法最大優(yōu)勢在于能夠自動學習干擾信號的規(guī)律和特點,自主決策出當前狀態(tài)下最優(yōu)的抗干擾策略,大幅度降低決策時間,提高決策準確率。
在抗干擾決策過程中,改變通信頻率是經(jīng)常使用的一種有效手段,本文從通信頻率選擇角度入手,將通信抗干擾決策與深度強化學習方法相結(jié)合,提出動態(tài)ε-DQN智能決策算法。利用能量檢測法[14]對各通信頻率是否存在干擾信號進行檢測,得到當前回合的干擾判別信息,輸入決策算法,決策下一回合的通信頻率,并在干擾信號對準的同時改變通信頻率,有效躲避干擾。在不同通信場景下進行仿真實驗,并與已有方法的決策效果進行對比,驗證本文所提方法的有效性和適用性。
在通信場景中設置1個通信系統(tǒng)和1臺干擾機,如圖1所示,通信系統(tǒng)由信號發(fā)射機、接收機,干擾檢測模型和智能決策模型組成。
圖1 通信抗干擾智能決策方法的體系結(jié)構(gòu)
在信號傳輸過程中,用接收機的輸入信干比(RSIN)判定本次通信的被干擾程度,評估通信效果,RSIN可用(1)式表示。
(1)
式中:PS為信號發(fā)射機的發(fā)射功率;PJ為干擾機的發(fā)射功率;hS為信號發(fā)射天線增益與接收天線增益之積;hJ為干擾機發(fā)射天線與信號接收天線增益之積;LS和LJ分別為信號發(fā)射機和干擾機信號傳輸?shù)目臻g損耗,用(2)式表示,r為信號傳播距離。
(2)
為適應本文研究的問題模型,所計算的RSIN用(3)式表示[15],將(2)式帶入可得(4)式。
(3)
(4)
(5)
為多角度驗證本文所提出決策算法的有效性和適應性,設置2個通信場景。通信時間以回合為基準,每個回合進行1次通信。
·場景1:每個回合僅選擇1個頻率進行通信,共有NS個頻率可供選擇,該頻率上的信號功率為PS[11]。若信干比超過閾值qd,認為當前回合正常通信。
·場景2:基于跳頻通信體制,每個回合在一個頻率集上進行通信,每個頻率集共有h個頻率,共有Nh個頻率集可供選擇,每個頻率上分配的信號功率為PS/h。若總信干比大于閾值qh,認為當前回合正常通信。
根據(jù)上述2種不同通信場景,設置2種有針對性的干擾模型。
在對場景1的干擾模型中,設置掃頻干擾、梳狀譜干擾和雙頻帶掃頻干擾[11]3種干擾樣式,每20個回合隨機切換1次。
·掃頻干擾:干擾機按照頻率大小順序順次干擾,每回合干擾固定帶寬Bk,帶寬內(nèi)分配的干擾功率為Pj。
·梳狀譜干擾:干擾機每回合選擇mj個干擾譜組成梳狀譜干擾,每個干擾譜帶寬為1 MHz,帶寬內(nèi)分配的干擾功率為Pj/mj。
·雙頻帶掃頻干擾:與掃頻干擾類似,干擾機在2個頻帶上作相反順序的掃頻干擾,每個干擾帶寬內(nèi)分配的干擾功率為Pj/2。
對場景2的干擾模型設置2種干擾模式,“偵察-干擾”模式和基于經(jīng)驗的干擾模式,2種干擾樣式每100個回合隨機改變1次。
在“偵察-干擾”模式下,假設干擾機正在干擾頻率f0。從某時刻開始,干擾機對當前通信頻率f1進行偵察,偵察時的干擾頻率不變,仍為f0。經(jīng)過偵察時間T回合后,對偵察的頻率f1實施干擾。初始偵察時間為Tj回合,隨著對抗回合數(shù)增加,干擾機逐漸熟悉當前通信體制,偵察時間逐漸減小,每增加100個回合,偵察時間減少1個回合,最短為Tjmin回合??紤]到偵察存在誤差的可能性,設置一個可信概率ph,有ph的可能干擾頻率與通信頻率完全相符;而有(1-ph)的可能存在部分頻率偵察錯誤,與通信頻率不符。
在基于經(jīng)驗的干擾模式下,干擾機選擇最近100個回合里出現(xiàn)次數(shù)最多的通信頻率進行干擾。
圖2展示了這種模型下的通信和干擾狀態(tài),橫軸為頻率點數(shù),縱軸為時間回合數(shù)。綠色表示正常通信的頻率,藍色表示干擾成功的頻率,紅色表示干擾失敗的頻率。
圖2 通信場景2的信道狀態(tài)
根據(jù)信道內(nèi)頻率個數(shù)設置帶通濾波器,分別對不同頻率的信號進行濾波,得到各個頻率上的信號功率Pn,設定一個檢測模型[14]
(6)
式中:y[n]表示某頻率上的信號,在不考慮外界環(huán)境噪聲的情況下,它有3種可能的組成方式:無信號,即y[n]=0;只有通信信號s[n];通信信號s[n]和干擾信號j[n]共同組成。
計算每個頻率的信號能量D(y),用(7)式表示[14]。設置門限值λ,對能量進行判別,若高于λ,則認為該頻率屬于檢測模型中的H3,即存在干擾信號;否則屬于檢測模型中的H1或H2,即不存在干擾信號。將每個頻率是否存在干擾信號的判別信息作為信道狀態(tài),輸入智能決策模型。
(7)
智能決策模型將接收到的信道狀態(tài)輸入動態(tài)ε-DQN智能決策算法,根據(jù)當前回合的干擾頻率,給出下一回合通信頻率,輸出決策模型。效能評估模塊根據(jù)信道狀態(tài)和決策結(jié)果,給出決策獎勵值,傳回算法,引導算法訓練更新。
強化學習離不開智能體和環(huán)境2個基本條件,智能體作為動作執(zhí)行者,與環(huán)境交互,獲取所需信息,推動算法的訓練更新。解決強化學習問題一般有5個關(guān)鍵要素:動作空間A,狀態(tài)空間S,即時獎勵r(s,a),轉(zhuǎn)移概率空間P和策略π。
當轉(zhuǎn)移概率空間P未知時,無法預測智能體與環(huán)境的交互情況,這種強化學習被稱為無模型的強化學習,解決此類問題的傳統(tǒng)算法是Q-Learning算法。該算法建立一個Q表,用表格的形式來存儲每個狀態(tài)-動作價值Q(s,a),Q(s,a)的計算過程可用(8)式表示。
Q(s,a)=
Q(s,a)+α(r(s,a)+γmaxQ(s′,a′)-Q(s,a))
(8)
在算法訓練階段,通常將ε-greedy策略作為策略π進行訓練更新。在該策略下,有1-ε的概率個體選擇Q值最大的動作,有ε的概率隨機選擇動作。
(9)
當處理狀態(tài)、動作空間較小的問題時,Q-Learning算法的效果較好,但當處理狀態(tài)、動作空間較大的問題時,搜索Q(s,a)值會耗費大量時間,導致收斂速度降低,且算法很多時候不能探索到所有可能的動作,收斂得到的策略π并非全局最優(yōu),此時該算法便不再合適。
2013年提出的DQN算法將圖像或大數(shù)據(jù)集等信息作為狀態(tài)s輸入神經(jīng)網(wǎng)絡,再輸出動作空間A中各個動作對應的Q(s,a)值,代替了Q表的運行機制,巧妙解決了上述問題。
本文提出動態(tài)ε-DQN智能決策算法,運算流程如圖3所示。在強化學習框架下,將算法所需基本元素定義如下:
圖3 智能決策算法運算流程
1) 狀態(tài)空間:分別將每個頻率上的干擾判別信息用Sn表示,若無干擾信號,Sn=1;若有干擾信號,Sn=-1。將集合S=[S1,S2,…,Sn]作為狀態(tài)空間輸入算法。
2) 動作空間:每個可選頻率An組成的集合A作為動作空間。
3) 即時獎勵:以當前回合信干比RSIN為基礎,根據(jù)不同通信模型下的閾值q設置獎勵函數(shù)。當RSIN (10) 傳統(tǒng)的ε-greedy策略有固定的ε概率隨機選擇動作,使算法在任何回合的隨機性相同。然而算法在起始階段和收斂階段需要的隨機性不同,固定的ε值會導致算法向局部最優(yōu)收斂且難以保持穩(wěn)定的收斂狀態(tài)。本文基于PHC算法[17],提出動態(tài)ε策略,根據(jù)獎勵值與回合數(shù)動態(tài)調(diào)整ε值,使算法收斂到穩(wěn)定的全局最優(yōu)狀態(tài)。PHC算法在已知動作概率π(s,a)的條件下,根據(jù)價值Q動態(tài)調(diào)整概率,盡可能提高最大Q值所對應動作的概率。 π(s,a)←π(s,a)+Δsa (11) 式中 當選擇Q值最大的動作時,也相應增大該動作的概率值;當選擇其他動作時,則相應減小該動作的概率值。本文結(jié)合PHC算法的動態(tài)調(diào)整方式,將ε初始值設置為1,算法每迭代一個回合,ε值動態(tài)調(diào)整1次,直至ε值為0。若r≤0,說明上一回合決策失敗,則將ε值減小,增加其選擇最優(yōu)動作的概率,減小策略的隨機性,加速算法收斂;若r>0,說明上一回合決策成功,則不改變ε值,使策略繼續(xù)保持原有隨機性。動態(tài)ε策略可用(15)式表示,在0~1內(nèi)隨機生成數(shù)x,若x≤1-ε,則選擇Q值最大的動作;若x>1-ε,則隨機選擇動作。 (14) (15) 這里引入一種經(jīng)驗回放機制[18],把最近回合的經(jīng)驗e= 定義誤差函數(shù)L(θ),由(16)式表示。對參數(shù)θn作梯度下降計算,以更新估值神經(jīng)網(wǎng)絡。每經(jīng)過L個回合,將估值神經(jīng)網(wǎng)絡的權(quán)值參數(shù)賦給目標神經(jīng)網(wǎng)絡,使2個網(wǎng)絡參數(shù)相同,這樣就不必實時更新目標價值,減小了對目標價值選取的相關(guān)性。 (16) 本文基于動態(tài)ε-DQN提出的智能決策算法,設置初始通信頻率為A0,算法根據(jù)當前回合的狀態(tài)St,決策下一回合的通信頻率At+1。設置經(jīng)驗池大小為NE,選取的經(jīng)驗樣本大小為NB。此時,估計價值和目標價值分別為Q(St,At+1;θ)和Q(St,At+1;θ-),(16)式可寫為 L(θ)= [r(St,At+1)+γmaxQ(St+1,At+2;θ-)- Q(St,At+1;θ)]2 (17) 神經(jīng)網(wǎng)絡參數(shù)更新的過程可分別用(18)、(19)式表示。 θ←θ-[r(St,At+1)+γmaxQ(St+1,At+2;θ-)- Q(St,At+1;θ)]Q(St,At+1;θ) (18) θ-←θ,t=nL(n=1,2,…) (19) 算法動態(tài)ε-DQN智能決策算法 1) 分別建立2個神經(jīng)網(wǎng)絡:權(quán)值參數(shù)為θ的估值神經(jīng)網(wǎng)絡和權(quán)值參數(shù)為θ-的目標神經(jīng)網(wǎng)絡 2) 隨機初始化權(quán)值參數(shù)θ,令θ-=θ 3) 初始化選擇通信頻率作為初始動作A0,設置總回合數(shù)Z 4)t≤Z時,重復執(zhí)行步驟5)~13); 5) 獲得信道狀態(tài)集合St 6) 按照(14)式計算ε 7) 根據(jù)動態(tài)ε策略選擇下一回合通信頻率At+1 8) 按照通信頻率At+1進行信號傳輸 9) 獲得即時獎勵r(St,At+1) 10) 獲得下一回合的信道狀態(tài)集合St+1 11) 將經(jīng)驗樣本et= 12) 從經(jīng)驗池中隨機選取經(jīng)驗樣本NB個,代入到(15)式中更新估值神經(jīng)網(wǎng)絡的參數(shù)θ 13) 每L個回合,令θ-=θ,使目標神經(jīng)網(wǎng)絡與估值神經(jīng)網(wǎng)絡參數(shù)相同 14)t>Z時,執(zhí)行完畢 算法中神經(jīng)網(wǎng)絡使用全連接網(wǎng)絡,激活函數(shù)設置為ReLU。將狀態(tài)集合中的各個元素作為輸入層的各個元素,其神經(jīng)元個數(shù)為狀態(tài)集合St中的元素個數(shù)NS;神經(jīng)元個數(shù)為動作集合At+1中的元素個數(shù)NA;n個全連接層神經(jīng)元個數(shù)均為NF,總的神經(jīng)元個數(shù)為(NS+NA+nNF)。 該算法計算復雜度與神經(jīng)網(wǎng)絡有關(guān),輸入層有NS個神經(jīng)元,那么第1個隱藏層有NSNF個權(quán)重,第n-1個隱藏層有NF2個隱藏層,輸出層共有NANF個權(quán)重,則整個神經(jīng)網(wǎng)絡共有NF(NS+(n-1)NF+NA)個權(quán)重。那么算法每一次迭代的復雜度可用(20)式表示。 Ο(NF(NS+(n-1)NF+NA)) (20) 本小節(jié)將干擾判別信息和干擾樣式信息分別作為算法輸入,對比動態(tài)ε-DQN算法、文獻[10]中的M-RL決策算法和隨機決策算法的決策效果,表1為設定的模型參數(shù)。 表1 模型參數(shù)設置 根據(jù)文獻[10],共有5個通信頻率可供選擇,每個帶寬為1 MHz。掃頻干擾每個回合掃頻帶寬為200 kHz;梳狀譜干擾每個回合在第1、第3和第5個頻率設置共有3個干擾譜的干擾,即mj=3,信干比的閾值qd=0.9。 設置估值神經(jīng)網(wǎng)絡和目標神經(jīng)網(wǎng)絡均包括輸入層、1個隱藏層和輸出層。若干擾模型采用掃頻干擾,其掃頻帶寬小于通信信號帶寬,為體現(xiàn)干擾狀態(tài),以掃頻干擾帶寬為準設置輸入層神經(jīng)元數(shù)量,為5×(1 MHz/200 kHz)=20個,其余2層神經(jīng)元個數(shù)分別為16和5。 圖4所示為輸入干擾判別信息時,3種決策算法10 000個回合下每百回合平均決策成功率對比。動態(tài)ε-DQN算法在前2 000個回合的決策成功率略低于M-RL算法,這是由于算法采用動態(tài)ε策略,收斂前的隨機性較強,導致成功率相對較低。隨著隨機性減弱,在2 500個回合后,動態(tài)ε-DQN算法的決策成功率逐漸收斂到100%,表現(xiàn)出優(yōu)于其他2種算法的決策效果。 圖5所示為輸入干擾樣式信息時,3種算法的平均決策成功率對比。與圖4類似,動態(tài)ε-DQN算法在5 000回合左右達到收斂,成功率穩(wěn)定在98%以上,但由于算法的隨機性,在收斂前其決策成功率低于M-RL算法。綜合圖6與圖7可以看出,動態(tài)ε-DQN算法在收斂后的決策成功率高于M-RL算法,其決策效果更好。 圖4 輸入干擾判別信息的算法平均決策成功率對比 圖5 輸入干擾樣式信息的算法平均決策成功率對比 圖6 不同輸入信息的算法平均決策成功率對比 圖6所示為算法分別輸入干擾判別信息和干擾樣式信息的平均決策成功率對比。從圖中可以看出,由于輸入干擾樣式信息時,需要對不同干擾樣式所對應的決策網(wǎng)絡進行訓練,導致其收斂速度變慢;相比于輸入干擾樣式信息,輸入干擾判別信息的算法收斂后決策成功率更高,穩(wěn)定在100%。如果是一種未知的干擾信號,將無法識別其干擾樣式,而干擾判別信息從能量角度入手檢測,不存在上述問題,所以結(jié)合圖6,輸入干擾判別信息的方法適應性更強,決策效果更優(yōu)。 表2給出了輸入不同信息時,2種智能決策算法10 000回合內(nèi)的決策時間對比。無論輸入何種信息,動態(tài)ε-DQN算法決策速度均更快,且輸入干擾判別信息的算法決策速度最快,僅需15.48 s。 表2 10 000回合決策時間對比 s 圖7展示了分別采用動態(tài)ε策略和不同ε值的ε-greedy策略時,算法的決策成功率對比??梢钥闯鲭S著ε值不斷增大,算法采用ε-greedy策略收斂后的平均成功率不斷減小,而采用動態(tài)ε策略的算法平均成功率穩(wěn)定在100%,這說明相比于采用ε-greedy策略,動態(tài)ε策略既提高了算法的收斂能力,又提高了算法的決策成功率。 圖7 不同ε值的算法決策成功率對比 由于動態(tài)ε-DQN算法采用了動態(tài)ε策略,其隨機性隨著迭代次數(shù)增加不斷降低,算法收斂后的決策成功率穩(wěn)定在最優(yōu)值上;而M-RL算法由于一直存在隨機性,其決策成功率在最優(yōu)值下方不斷波動,這使得動態(tài)ε-DQN算法的決策成功率高于M-RL算法。 以輸入干擾判別信息為例,對2種智能決策算法的計算復雜度進行比較。由(20)式可計算出當前場景下動態(tài)ε-DQN算法1次迭代的計算復雜度為O(400)。由于M-RL算法是基于Q-Learning的決策算法,所以M-RL算法是遍歷求解的,可用O(SA)表示其計算復雜度[19]。其中S為輸入算法的狀態(tài)總數(shù),A為可供算法選擇的動作總數(shù),可計算得到當前場景下算法的計算復雜度為O(205)。 雖然動態(tài)ε-DQN算法的計算復雜度略高于M-RL算法,但由于神經(jīng)網(wǎng)絡各層之間通過矩陣計算能夠降低算法的時間復雜度,所以動態(tài)ε-DQN算法的決策速度依然較快。 這一部分評估了動態(tài)ε-DQN算法在更復雜的通信場景2下的性能。設置信道帶寬為60 MHz,共有60個頻率。有5個跳頻頻率集可供通信方選擇,每個頻率集共32個頻率,每個回合干擾機可干擾12個頻率。一般情況下,若頻率集中有30%的頻率被干擾,則認為無法正常通信,基于此設置閾值qh=0.33;可信概率ph=0.8,最初的偵察時間Tj=20,最小偵察時間Tjmin=5。 設置估值神經(jīng)網(wǎng)絡和目標神經(jīng)網(wǎng)絡均包括輸入層、2個隱藏層和輸出層,各層神經(jīng)元數(shù)量分別為60,42,42和5。 與通信場景1一樣,圖8展示了輸入干擾判別信息時,3種算法的每百回合平均決策成功率??梢钥闯?雖然M-RL算法收斂較快,平均成功率在85%上下波動,但動態(tài)ε-DQN算法的平均決策成功率更高,在3 000回合后平均成功率可達98%以上。 圖9所示為輸入干擾樣式信息時,3種算法的平均決策成功率對比。動態(tài)ε-DQN算法在4 000回合左右達到收斂,成功率穩(wěn)定在95%以上,綜合圖8與圖9可以看出,動態(tài)ε-DQN算法在收斂后的成功率要高于M-RL算法,其決策效果更好。 圖8 輸入干擾判別信息的算法平均決策成功率對比 圖9 輸入干擾樣式信息的算法平均決策成功率對比 圖10 不同輸入信息的算法平均決策成功率對比 圖10所示為算法分別輸入干擾判別信息和干擾樣式信息時,平均決策成功率對比。輸入干擾樣式信息的算法收斂后的決策成功率在90%~100%間波動,而輸入干擾判別信息的算法收斂速度更快且成功率穩(wěn)定在95%以上,決策效果更好。 表3顯示了動態(tài)ε-DQN算法和M-RL算法在通信場景2下、輸入不同信息時,10 000回合的決策時間,與通信場景1相比,2種算法的決策速度均有所減慢。但相比于M-RL算法,動態(tài)ε-DQN算法的決策速度快70%以上,且輸入干擾判別信息時決策速度最快,僅需28.28 s。 表3 10 000回合決策時間對比 s 圖11展示了采用動態(tài)ε策略和不同ε值的ε-greedy策略時,算法決策成功率對比。與通信場景1類似,可以看出隨著ε值不斷增大,收斂后的平均成功率不斷減小,而采用動態(tài)ε策略的算法平均成功率在3 000回合后,可達95%以上,再次證明了動態(tài)ε策略較好的決策效果。 圖11 不同ε值的算法決策成功率對比 由于在該場景下干擾頻率不是固定的,會產(chǎn)生大量不同的狀態(tài),使得M-RL算法的訓練不夠充分,在一些狀態(tài)下決策出的通信頻率不是最優(yōu)的;而動態(tài)ε-DQN算法通過神經(jīng)網(wǎng)絡的擬合可以在任意干擾狀態(tài)下決策通信頻率,且保證準確率較高。同時,采用了動態(tài)ε策略的動態(tài)ε-DQN算法隨著迭代進行,決策成功率將逐漸穩(wěn)定在最優(yōu)值上。 綜合2個通信場景的算法結(jié)構(gòu)和計算復雜度來看,模型越復雜,M-RL算法的決策效果越低于動態(tài)ε-DQN算法。在復雜模型下,只要將動態(tài)ε-DQN算法中的各類參數(shù)進行優(yōu)化調(diào)整,就能夠解決當前的決策問題,雖然計算復雜度成倍增加,但算法仍然能夠較為快速、準確地收斂到最優(yōu)狀態(tài)。 本文設計一種通信抗干擾智能決策方法,該方法基于DQN算法架構(gòu),提出動態(tài)ε-DQN算法,將當前回合的干擾判別信息作為輸入,決策下一回合的通信頻率以躲避干擾。 綜合2個典型通信場景下的仿真實驗結(jié)果可分析得出,無論輸入何種干擾信息,動態(tài)ε-DQN算法在收斂后的決策成功率均可達95%以上,當輸入干擾判別信息時,決策成功率能夠趨近100%;同時通過對比10 000回合的決策時間,可以發(fā)現(xiàn)動態(tài)ε-DQN算法的決策速度遠高于M-RL算法,當模型越復雜時,這種優(yōu)勢越顯著,綜合來看動態(tài)ε-DQN算法的性能優(yōu)于M-RL算法。對比輸入不同干擾信息的算法可以得出,輸入干擾判別信息的算法無論決策成功率還是決策速度均優(yōu)于輸入干擾樣式信息的算法;由于干擾判別信息可直接通過干擾檢測法獲得,無需進行模式識別等復雜的處理步驟,該種信息的獲取更容易且適應性更強,所以將干擾判別信息輸入決策算法可獲得事半功倍的效果。 綜合決策性能指標來看,本文所提出的將干擾判別信息輸入動態(tài)ε-DQN算法的決策方法決策成功率較高、速度較快,決策效果較其他方法有較大提升。存入經(jīng)驗池E中,在更新權(quán)重值θ時,隨機抽取部分經(jīng)驗樣本進行更新,以最大程度破除相鄰數(shù)據(jù)間的相關(guān)性并提高樣本利用率。3 實驗與仿真分析
3.1 通信場景1
3.2 通信場景2
4 結(jié) 論