国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

超密集異構(gòu)網(wǎng)中的Q學(xué)習(xí)資源調(diào)度算法

2019-09-23 07:10尼俊紅史上樂
現(xiàn)代電子技術(shù) 2019年18期
關(guān)鍵詞:宏基資源分配吞吐量

尼俊紅,史上樂

(華北電力大學(xué) 電子與通信工程系,河北 保定 071003)

0 引 言

超密集異構(gòu)網(wǎng)絡(luò)被認(rèn)為是提高系統(tǒng)吞吐量的有效方法[1]。在超密集網(wǎng)絡(luò)中,增加本地頻譜的重用可以應(yīng)對(duì)覆蓋和容量增長的需求[2]。但所有基站(Base Station,BS)同時(shí)使用相同的頻率資源,小區(qū)間干擾(Inter-cell Interference,ICI)會(huì)變得很強(qiáng),這將會(huì)導(dǎo)致信號(hào)干擾噪聲比(Signal to Interference plus Noise Ratio,SINR)的降低,從而限制系統(tǒng)的整體吞吐量[3]。因此,超密集部署中的干擾管理尤為重要。

現(xiàn)階段對(duì)小區(qū)間干擾管理和增強(qiáng)學(xué)習(xí)算法應(yīng)用的研究已取得一些成果。文獻(xiàn)[4]研究基于Q 學(xué)習(xí)的毫微微蜂窩系統(tǒng)的功率控制,提高了邊緣用戶的服務(wù)質(zhì)量。文獻(xiàn)[5]根據(jù)用戶密度和干擾水平進(jìn)行區(qū)域劃分,針對(duì)不同的區(qū)域進(jìn)行資源分配。文獻(xiàn)[6]提出一種分布式Q 學(xué)習(xí)算法,但由于毫微微蜂窩基站之間沒有信息交換,影響了調(diào)度速度。文獻(xiàn)[7]提出基于多主體的Q 學(xué)習(xí)方案,來提高小區(qū)邊緣用戶的吞吐量。文獻(xiàn)[8]提出一種分布式Q 學(xué)習(xí)算法在采用不同技術(shù)的接入節(jié)點(diǎn)之間進(jìn)行卸載和接入。文獻(xiàn)[9]利用Q 學(xué)習(xí)在不同場(chǎng)景下進(jìn)行資源分配,有效提高吞吐量,但由于收斂時(shí)間過長,在一定程度上影響了用戶通信。文獻(xiàn)[10]根據(jù)干擾對(duì)小小區(qū)進(jìn)行分簇和資源正交化處理,但通過這樣的方式進(jìn)行干擾協(xié)調(diào)是以降低整個(gè)系統(tǒng)的頻譜利用率為代價(jià)的。

現(xiàn)有資源分配方面的研究多以小小區(qū)用戶為研究對(duì)象,研究如何對(duì)每個(gè)用戶進(jìn)行合理的資源分配。本文主要工作體現(xiàn)在以下方面:

1)將小基站進(jìn)行分簇,簇內(nèi)用戶只接入簇內(nèi)小小區(qū)基站;

2)將用戶變動(dòng)作為觸發(fā)條件,聯(lián)合考慮了用戶接入和資源優(yōu)化問題,以系統(tǒng)吞吐量和能量效率為優(yōu)化目標(biāo),利用Q 學(xué)習(xí)方法來學(xué)習(xí)簇間資源調(diào)度和簇內(nèi)小小區(qū)資源分配的最佳策略;

3)通過閾值因子和時(shí)間系數(shù)加快Q 表的收斂速度。

1 系統(tǒng)模型

本文考慮超密集異構(gòu)網(wǎng)絡(luò)場(chǎng)景,研究區(qū)域中心有一個(gè)宏基站,其覆蓋范圍內(nèi)均勻分布著H個(gè)小小區(qū)基站。設(shè)蜂窩用戶設(shè)備(Cellular User Equipment,CUE)的數(shù)量為M,小小區(qū)用戶設(shè)備(Small-cell User Equipment,SUE)的數(shù)量為N,這些用戶隨機(jī)分布在系統(tǒng)覆蓋范圍內(nèi)。本文考慮超密集異構(gòu)網(wǎng)絡(luò)的下行鏈路傳輸,由超密集網(wǎng)絡(luò)的定義可知[11],H>N。為了簡(jiǎn)化接入過程,每個(gè)小小區(qū)只接入一個(gè)用戶,每個(gè)用戶選擇簇內(nèi)參考信號(hào)接收功率(Reference Signal Receiving Power,RSRP)最高的小區(qū)作為其服務(wù)小區(qū),若該小小區(qū)基站已經(jīng)存在服務(wù)用戶,則選擇簇內(nèi)其余小小區(qū)中參考信號(hào)接收功率最高的小小區(qū)進(jìn)行接入。

假設(shè)宏小區(qū)和小小區(qū)共享相同的信道環(huán)境,所有CUE 之間采用相互正交的頻譜資源,則存在兩種類型的干擾,即跨層干擾(宏小區(qū)和小小區(qū)之間)和同層干擾(小小區(qū)之間)。 就UDN 而言,同層干擾可能非常強(qiáng),這極大地限制了小小區(qū)的容量。如何有效地將資源分配給H個(gè)小小區(qū)將是需要解決的主要問題。

本文的優(yōu)化目標(biāo)是通過尋找最佳的資源分配策略,在保持宏小區(qū)吞吐量的基礎(chǔ)上最大化小小區(qū)吞吐量。假設(shè)系統(tǒng)有NRB個(gè)資源塊(Resource Block,RB),定義Tp為系統(tǒng)的總吞吐量,即:

式中,TUCE和TSUE分別表示系統(tǒng)內(nèi)所有 CUE 和 SUE 的吞吐量之和。用T mCUE表示第m個(gè)宏基站用戶單位帶寬的容量:

式中:xim為資源占用指示變量,為 1 時(shí)表示第i個(gè) SUE 占用與第m個(gè)CUE 相同的資源,為0 時(shí)表示不占用;P為宏基站的發(fā)射功率;pi為與第i個(gè)SUE 關(guān)聯(lián)的小小區(qū)基站的發(fā)射功率;σ2為高斯白噪聲;hcm為宏基站c 到第m個(gè)宏基站用戶的信道增益;him為第i個(gè)小小區(qū)用戶關(guān)聯(lián)的小基站到第m個(gè)CUE 的信道增益。綜上可得系統(tǒng)內(nèi)所有CUE 的吞吐量TCUE為:

式中Bwi為第i個(gè)CUE 獲得的帶寬。類似地,系統(tǒng)內(nèi)所有SUE 的吞吐量TSUE為:

資源分配的最終優(yōu)化目標(biāo)即找到合適的資源占用指示變量矩陣X來最大化系統(tǒng)的總吞吐量Tp。其中,限制條件為:

即:資源占用指示變量只等于0 或1;系統(tǒng)內(nèi)宏基站的信噪比不低于預(yù)先設(shè)定的蜂窩閾值下限SINRC_th。

2 基于Q學(xué)習(xí)的資源調(diào)度算法

引入Q 學(xué)習(xí)(Q-learning,QL)算法,以獲得最佳資源調(diào)度和分配策略。

2.1 Q學(xué)習(xí)在資源分配下的參數(shù)

Q 學(xué)習(xí)是增強(qiáng)學(xué)習(xí)的典型方法,已被證明可以收斂[12]。Q 學(xué)習(xí)的主體稱為代理,Q 學(xué)習(xí)代理必須具有以下參數(shù):

S(S={s1,s2,…})是一組狀態(tài),A(A={a1,a2,…})是一組動(dòng)作。本文中,在時(shí)刻t,對(duì)于某個(gè)SUE,狀態(tài)設(shè)定為st=(r,k,w)。對(duì)所有小小區(qū)基站按照位置進(jìn)行均勻分簇,r表示用戶的位置處于哪一個(gè)小小區(qū)c簇內(nèi);k為用戶接入的小小區(qū)基站;w為此基站當(dāng)前資源的占用狀態(tài)。將小小區(qū)可復(fù)用的連續(xù)資源塊依次分為W組,小小區(qū)用戶每次只占用一組,w=1,2,…,W,表示占用的資源組編號(hào)。

在狀態(tài)s下,動(dòng)作集被定義為表示在狀態(tài)s時(shí),小基站k的資源分配行為,即重新分配哪一組資源塊給用戶,動(dòng)作集的大小由可復(fù)用的資源組數(shù)量決定。

γ(0<γ<1)是對(duì)學(xué)習(xí)過程有影響的折扣因子;α(0<α<1)是學(xué)習(xí)率,它定義了新學(xué)習(xí)知識(shí)對(duì)以前學(xué)習(xí)知識(shí)的影響。本文中,折扣因子和學(xué)習(xí)率的值經(jīng)過超參數(shù)優(yōu)化分別設(shè)置為0.87 和0.56。

Q(s,a)函數(shù)是Q(s,a)表,它存儲(chǔ)狀態(tài)-動(dòng)作對(duì)及其值。估計(jì)在狀態(tài)s下選擇動(dòng)作a的預(yù)期獎(jiǎng)勵(lì),并根據(jù)獎(jiǎng)勵(lì)更新Q(s,a)表的值。

對(duì)于某個(gè)狀態(tài)s,根據(jù)固定策略選擇動(dòng)作a,如下:

因此,Q 學(xué)習(xí)的最終目標(biāo)是獲得最優(yōu)策略π(s),為此,這里需要獲得最佳Q(s,a)表。對(duì)于在特定狀態(tài)下采取的每個(gè)動(dòng)作,代理與環(huán)境交互并估計(jì)所選動(dòng)作的獎(jiǎng)勵(lì),然后根據(jù)固定規(guī)則更新Q(s,a)表。 每次更新Q(s,a)表時(shí),代理都可以從中學(xué)習(xí)。一旦Q(s,a)經(jīng)過多次學(xué)習(xí)后收斂,就得到最優(yōu)的Q(s,a)函數(shù)。

假設(shè)在狀態(tài)st下執(zhí)行動(dòng)作后,狀態(tài)變?yōu)閟t+1,Q(s,a)表可以更新如下:

式中,r(st,at)是在狀態(tài)st下進(jìn)行行動(dòng)at的獎(jiǎng)勵(lì)。如果此行動(dòng)at可將狀態(tài)st變?yōu)轭A(yù)期的st+1,則r(st,at)獲得正值;否則r(st,at)獲得負(fù)值。

獎(jiǎng)勵(lì)函數(shù)反映了所采取行動(dòng)實(shí)現(xiàn)目標(biāo)的有效性。在本文中,將反饋Δ作為獎(jiǎng)勵(lì)函數(shù)考慮的主要因素,并將能量效率作為輔助因素。式(9)、式(10)中的獎(jiǎng)勵(lì)函數(shù)R1,R2分別反映系統(tǒng)的速率優(yōu)化目標(biāo)和能效優(yōu)化目標(biāo)。

反饋Δ定義為:

式中:Cave為所有小小區(qū)的平均吞吐量;Cth為小小區(qū)用戶最低速率需求。小小區(qū)的平均吞吐量越大,獎(jiǎng)勵(lì)函數(shù)值就越大。

總的獎(jiǎng)勵(lì)函數(shù)為R1和R2的加權(quán)和,w1,w2為權(quán)值,分別設(shè)為0.9 和0.1。獎(jiǎng)勵(lì)函數(shù)可表示為:

此外,為了使算法保證足夠的公平性且能夠快速收斂,本文設(shè)置了隨機(jī)數(shù)x和閾值因子f,使代理在開始時(shí)隨機(jī)學(xué)習(xí)。x∈( 0,1 ),若x>f,則選取動(dòng)作集中對(duì)應(yīng)Q值最大的動(dòng)作;反之,則隨機(jī)選取動(dòng)作。f的值為:

式中:f0為f的初始值,設(shè)為 0.8;td是從給用戶進(jìn)行第一次資源分配以來經(jīng)過的調(diào)度周期。

2.2 算法具體實(shí)現(xiàn)過程

本文在宏小區(qū)范圍內(nèi)以集中方式進(jìn)行資源調(diào)度和策略的學(xué)習(xí),在為簇和小小區(qū)進(jìn)行資源調(diào)度時(shí),能夠更有效降低干擾的影響,實(shí)現(xiàn)近乎最優(yōu)的資源分配策略。

由于每個(gè)小小區(qū)復(fù)用資源的變更都會(huì)相應(yīng)地改變系統(tǒng)內(nèi)的干擾狀態(tài),Q 表未收斂時(shí),若系統(tǒng)內(nèi)有新用戶進(jìn)入或舊用戶離開,采用輪詢方式為小小區(qū)簇重新進(jìn)行資源調(diào)度,并在每個(gè)調(diào)度周期對(duì)簇內(nèi)小小區(qū)進(jìn)行資源分配策略的更改,循環(huán)往復(fù)直到Q 表收斂。當(dāng)Q 表收斂后,直接根據(jù)Q 表為新用戶分配資源即可。

3 仿真結(jié)果分析

3.1 仿真參數(shù)

本文采用的路徑損耗模型和基站設(shè)置參照文獻(xiàn)[13],其系統(tǒng)仿真環(huán)境參數(shù)如表1所示。

表1 系統(tǒng)仿真參數(shù)Table 1 Simulation parameters of system

本文提到的折扣因子γ和學(xué)習(xí)率α的值分別設(shè)置為0.87 和0.56,閾值因子f的初始值f0設(shè)為0.8。系統(tǒng)內(nèi)有50 個(gè)資源塊,每個(gè)資源塊180 kHz。宏基站覆蓋區(qū)域半徑為500 m。

3.2 仿真結(jié)果

圖1為系統(tǒng)中所有用戶的吞吐量之和隨小小區(qū)用戶數(shù)量變化的情況。本文設(shè)置了2 種對(duì)比算法,分別為隨機(jī)算法與比例公平算法。其中隨機(jī)算法為在其他條件不變的情況下,小小區(qū)用戶與QL 算法使用相同數(shù)量的資源,系統(tǒng)隨機(jī)為用戶進(jìn)行分配。比例公平(Proportional Fair,PF)算法為資源分配中的經(jīng)典算法,它為每個(gè)用戶設(shè)定一個(gè)PF 度量值來表示他們的優(yōu)先級(jí),對(duì)優(yōu)先級(jí)高的用戶進(jìn)行優(yōu)先分配。如圖1所示,從整體趨勢(shì)來說,3 種算法的系統(tǒng)總吞吐量均隨著小小區(qū)用戶數(shù)量的增多而增加,但是隨著小小區(qū)用戶的增多,用戶之間的干擾有所上升,故而吞吐量的增加速度有所減緩。本文在QL 算法獎(jiǎng)勵(lì)函數(shù)的設(shè)定中,將吞吐量作為優(yōu)化指標(biāo)之一,使得每次算法迭代都會(huì)讓系統(tǒng)為用戶分配最優(yōu)的資源,從圖中可以看出QL 資源分配算法要優(yōu)于隨機(jī)算法與比例公平算法。圖2繪制了系統(tǒng)的能量效率在不同算法條件下隨小小區(qū)用戶數(shù)量的變動(dòng),系統(tǒng)能量效率為系統(tǒng)的總吞吐量與基站總能耗的比值。

圖1 系統(tǒng)吞吐量隨小小區(qū)用戶數(shù)量變化Fig.1 Variation of system throughput with the number of small-cell users

圖2 系統(tǒng)能量效率隨小小區(qū)用戶數(shù)量變化關(guān)系Fig.2 Variation of system energy efficiency with the number of small-cell users

從圖2可知,當(dāng)用戶數(shù)量增加時(shí),用戶間干擾會(huì)變大,系統(tǒng)總吞吐量增加速度減緩,然而基站的能耗穩(wěn)定增加,所以圖中整體的系統(tǒng)能效趨勢(shì)變化是逐漸減少。QL 算法獎(jiǎng)勵(lì)函數(shù)中將系統(tǒng)能效作為副優(yōu)化指標(biāo),從圖中可以看出QL 算法性能優(yōu)于其他兩種算法。

圖3是Q 表累計(jì)回報(bào)總值隨算法迭代次數(shù)的變化曲線。圖4是固定小小區(qū)用戶數(shù)量為100 時(shí),系統(tǒng)吞吐量隨算法迭代次數(shù)的變化曲線,體現(xiàn)Q 表的收斂情況。從圖中可以看出在算法執(zhí)行約80 000 次時(shí),Q 表變化已經(jīng)十分微小,在約進(jìn)行90 000 次時(shí),Q 表基本趨于穩(wěn)定,可以證明此算法可以有效收斂。

圖3 Q 表累計(jì)回報(bào)總值隨算法迭代次數(shù)變化關(guān)系Fig.3 Variation of Q table cumulative return value with the number of iterations of the algorithm

圖4 系統(tǒng)吞吐量隨算法迭代次數(shù)變化關(guān)系Fig.4 Variation of system throughput with the number of iterations of the algorithm

4 結(jié) 語

本文針對(duì)超密集部署的場(chǎng)景,研究了異構(gòu)系統(tǒng)的資源調(diào)度和分配問題。制定融合最大化系統(tǒng)總吞吐量和提高系統(tǒng)能效的優(yōu)化目標(biāo),設(shè)計(jì)基于超密集網(wǎng)絡(luò)的Q 學(xué)習(xí)資源調(diào)度算法,通過仿真對(duì)算法性能進(jìn)行了驗(yàn)證,并與經(jīng)典資源分配算法進(jìn)行了對(duì)比。仿真結(jié)果表明本文提出的Q 學(xué)習(xí)資源調(diào)度算法在吞吐量、能量效率等方面均優(yōu)于其他算法,同時(shí)也驗(yàn)證了Q 學(xué)習(xí)的選擇過程的可收斂性。由于采用集中式的學(xué)習(xí)方式,使得系統(tǒng)最初的收斂速度較慢,但依舊可以保證用戶的基本通信需求。如何對(duì)Q 學(xué)習(xí)進(jìn)行更合理的狀態(tài)和行為空間設(shè)置,以及如何讓算法更快收斂,是本文后續(xù)工作的重點(diǎn)。

猜你喜歡
宏基資源分配吞吐量
新研究揭示新冠疫情對(duì)資源分配的影響 精讀
一種基于價(jià)格競(jìng)爭(zhēng)的D2D通信資源分配算法
超大屏顯示才是它的菜Acer(宏基)P5530
2017年3月長三角地區(qū)主要港口吞吐量
云環(huán)境下公平性優(yōu)化的資源分配方法
2016年10月長三角地區(qū)主要港口吞吐量
2016年11月長三角地區(qū)主要港口吞吐量
咩兒駕到
TD-LTE異構(gòu)網(wǎng)絡(luò)時(shí)隙配置干擾仿真研究*
2014年1月長三角地區(qū)主要港口吞吐量
通辽市| 当雄县| 常州市| 仲巴县| 临湘市| 厦门市| 乌鲁木齐市| 公主岭市| 丰台区| 尼玛县| 汤原县| 台东市| 沧源| 凌源市| 山阳县| 芷江| 翁牛特旗| 宁都县| 楚雄市| 商南县| 泾川县| 马尔康县| 静宁县| 天柱县| 宜宾县| 永泰县| 马边| 岳阳县| 古交市| 公安县| 高台县| 辽阳县| 武穴市| 碌曲县| 包头市| 潜江市| 洛浦县| 玉树县| 梁河县| 南丹县| 竹山县|