国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于強化Q 學(xué)習(xí)的跳頻交會算法*

2021-08-30 05:57朱楨以謝釗萍
通信技術(shù) 2021年8期
關(guān)鍵詞:接收端時隙交會

彭 藝,朱楨以,魏 翔,謝釗萍

(昆明理工大學(xué),云南 昆明 650500)

0 引言

隨著電磁環(huán)境的復(fù)雜化和用戶數(shù)量的急劇增加,頻譜資源的重要性日趨明顯。大量無線頻段被分配給專用設(shè)備,當專用設(shè)備不能充分利用授權(quán)頻段且其他設(shè)備也沒有適時接入授權(quán)頻段時,往往造成頻譜資源的浪費。傳統(tǒng)跳頻通信方法的效率較低,造成了大量頻譜資源的浪費。針對授權(quán)的頻段并沒有被授權(quán)用戶(Primary User,PU)充分利用的問題,文獻[1]將認知無線電網(wǎng)絡(luò)(Cognitive Radio Network,CRN)與跳頻通信相結(jié)合,提出了利用未使用頻譜的機會動態(tài)頻譜分配(Dynamic Spectrum Access,DSA)技術(shù),使次要用戶(Secondary User,SU)以隨機方式訪問信道。文獻[2]重點研究了共存狀況下的SU 在占用相同PU 資源時的公平性問題,將SU 互相檢測并建立一個公共的鏈路(Common Control Channel,CCC)的過程稱為交會。交會是SU 間進行頻譜管理、數(shù)據(jù)通信以及交換控制信息的重要操作。由于SU 間不能相互感知信息,在CRN 網(wǎng)絡(luò)中實現(xiàn)交會是一個很有挑戰(zhàn)性的難題。文獻[3]提出了一種基于認知跳頻網(wǎng)絡(luò)的短交會跳頻算法,經(jīng)過公共控制鏈路實現(xiàn)有保證的短交會跳頻算法,大大減少了交會時間。文獻[4]引入了差分跳頻系統(tǒng),將差分跳頻與拉丁方理論結(jié)合,利用拉丁方理論分配頻率子集,實現(xiàn)了頻率集的優(yōu)化和動態(tài)分配,同時增強了跳頻圖案的隨機性,增強了網(wǎng)絡(luò)的抗干擾性能。

強化學(xué)習(xí)也稱增強學(xué)習(xí),是目前人工智能領(lǐng)域最熱門的領(lǐng)域之一。2016 年,DeepMind 團隊推出的AlphaGo在圍棋對戰(zhàn)中擊敗世界圍棋冠軍李世石,震驚世界。2017 年,進化后的AlphaGo 新版本,在烏鎮(zhèn)舉辦的三番棋對戰(zhàn)中3:0擊敗了世界第一柯潔。隨后,DeepMind 團隊又相繼推出了AlphaGo Zero 等多個版本產(chǎn)品。強化學(xué)習(xí)源于對動物心理的模仿,類似于“蜜蜂辨色”和“小鳥啄食”的試錯機制,經(jīng)過與環(huán)境的交互,改變行為狀態(tài)并映射出不同行為,從而獲得最大化回報。

隨著人工智能的發(fā)展,數(shù)據(jù)驅(qū)動、驅(qū)動的機器學(xué)習(xí)方法能高效解決各類問題[5]。作為機器學(xué)習(xí)領(lǐng)域的重要分支,強化學(xué)習(xí)能避免大量重復(fù)的計算,從樣本數(shù)據(jù)中準確提取所需特征數(shù)據(jù),在滿足個性化、具體化要求的同時,節(jié)約了大量重復(fù)計算的成本。強化學(xué)習(xí)的核心思想是將學(xué)習(xí)視作馬爾可夫決策(Markov Decision Process,MDP)的測試過程[6],其智能系統(tǒng)由策略、回報函數(shù)、值函數(shù)3 個單元中的一個或多個組成,強化學(xué)習(xí)基本過程見圖1。

圖1 強化學(xué)習(xí)基本過程

Q 學(xué)習(xí)也稱為離軌策略TD 學(xué)習(xí),是強化學(xué)習(xí)的一個重要分支,也是極具代表性的強化學(xué)習(xí)算法。作為一種無模型的強化學(xué)習(xí)方法,Q 學(xué)習(xí)不需要確知狀態(tài)轉(zhuǎn)移概率和即時回報,因此在進行迭代更新時,智能系統(tǒng)要遍歷每一個狀態(tài)動行為對[7]的值。

在CRN 的基礎(chǔ)上,本文提出一種基于強化Q學(xué)習(xí)的跳頻交會算法,利用強化學(xué)習(xí)的相關(guān)算法對交會過程進行預(yù)測,選擇最合適的交會路徑,實現(xiàn)有保證的快速交會,同時縮短交會時間。文中所提強化Q 學(xué)習(xí)算法具有提供有保證的交會、大幅縮短交會時間和適用于對稱與非對稱的模型的特點。

1 系統(tǒng)模型

提出一個CRN 網(wǎng)絡(luò)場景,在一個區(qū)域內(nèi)有多個PU 和N個SU 共存。為每個SU 配置一個認知無線電裝置,假設(shè)每個次級用戶都存在唯一的ID,且能感知到區(qū)域內(nèi)其他用戶的ID,同時US 用集合S={s1,s2,…,sN}表示。將某個授權(quán)頻段(Licensed Spectrum)分成M個不重疊信道C={c1,c2,…,cM}。假設(shè)每個信道有唯一的索引且無線用戶移動的速度緩慢,彼此之間無干擾,通過一個信道索引向量v={an}把Nc個信道分配給PU,將PU 在時刻t的信道行為狀態(tài)定義為,其中表示在信道n上的傳輸概率。因為此時信道僅有可用和不可用兩種狀態(tài),所以∈{0,1},且n={1,…,Nc}。用ci表示第i個信道,將系統(tǒng)時間等分為相等的時隙t。當用戶i能使用完成跳頻且不干擾主要用戶PU的正常通信時,稱cpi為用戶i的可用信道。在CRN 中,每位用戶對應(yīng)的可用信道集是不同的。表示第i個用戶的可用信道集中有p個可用信道。例如,用sa、sb表示次級用戶a和用戶b,假設(shè)每個用戶能夠同時接入多個信道并占用它們,用戶a的可用信道集為,用戶b的可用信道集為,且Fa,Fb∈C。由于可用信道是動態(tài)變化的,假設(shè)無線設(shè)備發(fā)射功率恒定,信道變化緩慢,F(xiàn)a與Fb通常不全相同。用G表示兩個用戶的共同信道,即Fa∩Fb=G。

將多個用戶在同一時隙內(nèi)跳頻到公共信道的過程稱為交會,實現(xiàn)交會的必要條件是Fa∩Fb≠?,即|G|≠0。將跳頻通信系統(tǒng)的時隙劃分成長度相等的時隙,以時隙作為認知跳頻的單位。假設(shè)文中的時隙差為整數(shù)。本文研究的重點是將Q 學(xué)習(xí)的過程運用到跳頻算法中,為用戶生成跳頻序列,保證有限跳數(shù)的跳頻交會,得到更短的交會時間。

系統(tǒng)中,假設(shè)每個時隙的傳輸時間T和接收時間R都相等。每個時隙中,CR 節(jié)點將從其信道列表中選擇一個信道并嘗試一次交會。為了提高效率,時隙必須足夠發(fā)送和接收消息。當沒有數(shù)據(jù)傳輸時,允許節(jié)點關(guān)閉收發(fā)器,同時保證網(wǎng)絡(luò)中的時間同步。時隙模型如圖2 所示。

圖2 時隙模型

圖3 從時間角度描述了交會過程。t=1 時,節(jié)點A 和節(jié)點B 都在信道1 上,處于彼此的通信范圍內(nèi)。節(jié)點A 和B 在信道1 的t=1 時刻相互通信,以保證節(jié)點的時間同步,并嘗試與其他節(jié)點交會。在時間t=2 時,當節(jié)點A 嘗試在信道2 上交會時,節(jié)點B 保持。同樣,在時刻t=3 時,節(jié)點B 嘗試在3點交會,節(jié)點A 現(xiàn)在保持它的嘗試。節(jié)點B 和節(jié)點C 在信道4 的t=5 處交會,之后3 個節(jié)點實現(xiàn)交會,并遵循相同的規(guī)律與其他節(jié)點交會。

圖3 交會模型

通過定義集合設(shè)計信道跳頻調(diào)度:

式中:d取整數(shù);Fa∩Fb≠?。

在跳頻通信中,假設(shè)兩個用戶分別為發(fā)送端和接收端,且只考慮可用信道生成的跳頻序列,包含所有可用信道的集合C={c1,c2,…,cM}。

1.1 發(fā)送端序列

假設(shè)發(fā)送端用戶a包含可用信道集Fa=C={c1,c2,…,cM},構(gòu)造發(fā)送端序列sa={c1,c2,…,cM,cM,cM-1,…,c2,c1,c1,c2,…}。由于發(fā)送端序列由c1重復(fù)到cM,推導(dǎo)出序列的周期T=2M-1,其中M為信道總數(shù)。

用t表示時隙,發(fā)送端序列可表示為:

式中,k為整數(shù)。

1.2 接收端序列

假設(shè)接收端用戶b包含全體可用信道,則Fb=C={c1,c2,…,cM},構(gòu)造接收端序列sb={c1,c1,…,c1,c2,c2,…,c2,cM,cM,…cM,c1,c1,…}。為了說明信道交會的過程,以信道集合C={1,2,3}為例,信道數(shù)M=3,跳頻周期T=5,用戶a在t=0 時隙開始跳頻,用戶b在t=1 時隙跳頻,且用戶b每隔T=5 完成一次跳頻,如圖4 所示。

圖4 周期序列交會過程

由于各個用戶開始跳頻的時間通常不同,因此將用戶a和用戶b對應(yīng)的sa序列和sb序列表示為Sa(t+d)和Sb(t),即用戶b開始跳頻的時間滯后于用戶a開始跳頻時間的d個時隙,由此能夠表達出最大交會時間MTTR:

期望交會時間ETTR為:

一般地,如果序列滿足周期T,那么序列總會在T個時隙后重復(fù)相同的值,因此一定滿足S(t)=S(t+kT),其中k取整數(shù)。對于本文序列,當信道對于用戶都可用時,序列的周期為M(2M-1)。

2 Q 學(xué)習(xí)

2.1 Q 學(xué)習(xí)相關(guān)理論

將Q 學(xué)習(xí)與認知跳頻相結(jié)合,能提高系統(tǒng)的智能化和高效化。Q 學(xué)習(xí)是一種無模型強化學(xué)習(xí),通過與環(huán)境的交互來學(xué)習(xí)最優(yōu)策略。Q 學(xué)習(xí)中的主要元素通過四元組表示。其中:S為環(huán)境狀態(tài)的有限集合;a為Agent 動作的有限集合;P:S×A×S→[0,1]為狀態(tài)轉(zhuǎn)移概率函數(shù),P:S×A×S→R為反映學(xué)習(xí)目標的回報函數(shù)。

假設(shè)CRN 中的每個SU 都能獨自做出信道跳頻的決策,通過將SU 的Q 學(xué)習(xí)模型轉(zhuǎn)化為根據(jù)歷史狀態(tài)和當前動作的聯(lián)合效用,以決定跳頻信道選擇的方式。根據(jù)Q 學(xué)習(xí)算法,結(jié)合認知跳頻的具體場景,定義其中的狀態(tài)、動作、回報和SU 的學(xué)習(xí)策略。

(1)狀態(tài)(State):在僅有1 個主要用戶和2 個次要用戶的場景中,定義SU 當前所在信道的狀態(tài)=∈S,這里的S={sk}表示有限狀態(tài)空間sk={0,1}。在信道跳頻的狀態(tài)中,僅有跳頻或者等待兩個隨機事件,當其中之一發(fā)生時,狀態(tài)自轉(zhuǎn)移至下一狀態(tài)。

(4)策略(Policy):在強化Q 學(xué)習(xí)中,所謂學(xué)習(xí),就是通過學(xué)習(xí)先前狀態(tài)中的動作及收益,映射并迭代出當前的動作選擇,其中從狀態(tài)到行為的映射被稱為策略,用π表示。

2.2 QLCH 算法

根據(jù)相關(guān)理論,提出了一種Q-學(xué)習(xí)跳頻算法(Q-Learning Channel-Hopping,QLCH)。在一個認知跳頻場景中,PU 對于授權(quán)頻段有最高的占用優(yōu)先級,SU 通過感知頻譜空洞機會性地接入授權(quán)頻段,以提高頻譜利用率。QLCH 算法將SU 的跳頻序列分成兩類,一類是發(fā)送端跳頻序列,另一類是接收端跳頻序列。正常情況下,SU 都以接收端序列周期跳頻。當SU 有信息需要發(fā)送時,轉(zhuǎn)為發(fā)送端序列跳頻,通過與接收端序列的交會,實現(xiàn)SU 之間的數(shù)據(jù)通信和信息交換。交會完成后,轉(zhuǎn)為以接收端序列跳頻。

兩類序列的生成步驟如下。

當SU 不進行交會時,以接收端序列周期跳頻。通過感知環(huán)境中的可用信道,生成長度為的接收端序列,將序列按遞增的自然數(shù)排列為={1,2,3,…,p},SU 按照p為周期進行接收端跳頻。

當SU 發(fā)送信息時,采用發(fā)送端序列跳頻。發(fā)送端序列沒有固定的模式,根據(jù)QLCH 算法訓(xùn)練生成。

定義策略π:S→A。在Agenti與環(huán)境交互時,Agenti感知當前狀態(tài)∈S,并根據(jù)策略π選擇動作∈A,最終使環(huán)境轉(zhuǎn)換到新的狀態(tài)∈S并向Agenti反饋回報。將此過程不斷重復(fù),直至獲得最優(yōu)策略π的過程即學(xué)習(xí)的過程。

策略π下的狀態(tài)值為:

式中:Vπ(s)表示預(yù)期的貼現(xiàn)獎勵;η∈(0,1)表示折扣因子。經(jīng)過重復(fù)學(xué)習(xí),從一段時間內(nèi)的最大化累積回報值中獲得最優(yōu)動作∈A。

根據(jù)貝爾曼最優(yōu)化準則,一個獨立設(shè)置的環(huán)境中至少有一個最優(yōu)策略,表示為:

Q值是策略π在狀態(tài)下采取行動的期望回報,表示為:

重復(fù)此過程,根據(jù)Robbins-Monro 理論,Q值在最優(yōu)策略下收斂到最優(yōu),表示為:

重復(fù)迭代式(5),實現(xiàn)狀態(tài)動作值函數(shù)的優(yōu)化,可以得出:

根據(jù)相關(guān)理論,定義Q函數(shù)為:

式中:φsj表示sj下的折扣因子,表示未來收益在當下的值,φsj∈[0,1],φsj越接近1 時,表示未來的動作在總的行為動作值中占據(jù)越多的主導(dǎo)值,反之,則表示未來的動作對當下的影響很小;Φsj表示學(xué)習(xí)速率,是一個恒定的步長參數(shù),取值范圍Φsj∈(0,1),Φsj取值越接近1,表示學(xué)習(xí)速率越快,收益會立即作出響應(yīng)。

在最優(yōu)策略下,Q 學(xué)習(xí)算法進行迭代更新,將更新的數(shù)值保存為一個Q值表。經(jīng)過多次重復(fù)迭代后,它逐漸逼近擁有最大期望收益的動作值:

2.3 Q 算法收斂性證明

因為Q 算法是一個隨機過程,可通過隨機逼近技術(shù)近似。假設(shè)提出的Q 算法具有時變學(xué)習(xí)速率Φsj,根據(jù)Robbins-Monro[8]理論得出以下定理。

定理 滿足以下4 個條件:

(4)若折扣因子φsj=1,所有策略以概率1 趨向于自由狀態(tài)。

證明:

考慮一個多元收益模型,回報值組成有限元素數(shù)量的集合,取{-5,5}。不難看出,集合元素的方差是有限的,符合條件(2)。

在任意時隙t下,假設(shè)Φsj=Φ<1,任取一個較小的Φ值,假設(shè)選取0.01,必然滿足兩個條件。

當φsj=1 時,在增益最大化策略指導(dǎo)下的無限水平模型趨向于實現(xiàn)長期平均收益最大化的目標,此時所有策略都被引向概率為1 的自由狀態(tài),滿足條件(4)。

定理得證。

3 實驗仿真

為驗證算法性能,將對稱和非對稱情形進行對比。選擇EJS[9]、AHW[10]和FRCH[11]這3 種具有代表性的算法與QLCH 算法進行仿真。假設(shè)認知網(wǎng)絡(luò)中的信道總數(shù)M為40,SU 能檢測其中的20 個。

在非對稱情形中,用戶a的可用信道集,用戶b的可用信道集,p和q分別為用戶a和用戶b的可用信道數(shù)。根據(jù)理論推導(dǎo),非對稱情形下跳頻序列的最大交會時間為q(2M-1)。當所有信道對用戶a可用且只有一個信道對用戶b可用時,最大交會時間取最大值M(2M-1)。隨著可用公共信道的增加,當時,滿足對稱模型的情形。保證SU 的跳頻開始時間隨機,以2 為單位增加SU 之間的共同信道數(shù)G,取100 次隨機運行的平均值作為平均交會時間。

如圖5 所示,在非對稱情形時,伴隨著共同信道的增加,所有算法的平均交會時間都呈現(xiàn)下降趨勢。開始時,AHW 和EJS 算法的平均交會時間較高,最終下降到150~200 ms;FRCH 以及QLCH 算法隨著共同信道數(shù)G的增加保持在較低水平;公共信道數(shù)G較少時,QLCH 算法平均交會時間略低;隨著G的增加,兩種算法的性能相近,但是FRCH 算法不能實現(xiàn)有保證的交會,QLCH 算法在非對稱情形能夠保證最長為M(2M-1)個時隙的交會。在對稱情形下,F(xiàn)RCH 和QLCH 算法的平均交會時間都很低,但QLCH 能保證2M-1 個時隙的交會,且隨著訓(xùn)練的增加,交會時隙逐漸縮短。

圖5 算法的平均交會時間

為了進一步研究對稱情形下的算法性能,圖6和圖7 將4 種算法的期望交會時間和平均交會時間進行對比,同時比較理論結(jié)果與仿真結(jié)果。QLCH算法在對稱情形下的期望交會時間和最大交會時間都較低,且仿真結(jié)果和理論計算結(jié)果非常接近,說明算法具有較強的穩(wěn)定性。

圖6 不同算法的期望交會時間

圖7 不同算法的最大交會時間

4 結(jié)語

本文研究了基于強化Q 學(xué)習(xí)的認知無線網(wǎng)絡(luò)的跳頻交會問題,針對兩個SU 對算法進行了評估。提出的QLCH 算法在對稱和非對稱模型下,分別保證了周期為2M-1 和M(2M-1)的交會。仿真結(jié)果顯示,QLCH 算法在對稱模型下性能與FRCH 算法相近,且能實現(xiàn)周期為2M-1 有保證的交會,在非對稱模型下的性能顯著優(yōu)于傳統(tǒng)算法。綜上,QLCH算法不僅實現(xiàn)了有保證的跳頻交會,而且比現(xiàn)有方法具有更小的交會時間。

猜你喜歡
接收端時隙交會
基于擾動觀察法的光通信接收端優(yōu)化策略
基于多接收線圈的無線電能傳輸系統(tǒng)優(yōu)化研究
基于時分多址的網(wǎng)絡(luò)時隙資源分配研究
手機無線充電收發(fā)設(shè)計
2019年,水交會來了!
基于市場機制的多機場時隙交換放行策略
一種基于時隙優(yōu)化的鄰居發(fā)現(xiàn)算法研究
一種高速通信系統(tǒng)動態(tài)時隙分配設(shè)計
立方體星交會對接和空間飛行演示
一切以交易的名義——首屆黑馬創(chuàng)交會揭秘