基于改進(jìn)型Stackelberg博弈的異構(gòu)蜂窩網(wǎng)絡(luò)干擾協(xié)調(diào)算法

2021-11-21 11:46吳詩弈莫國美

南昌航空大學(xué)學(xué)報（自然科學(xué)版） 2021年3期

孫晨，吳詩弈，張波，莫國美

（南昌航空大學(xué) 軟件學(xué)院，南昌 330063）

引言

在下一代3GPP蜂窩網(wǎng)絡(luò)5G中，通常需要引入小蜂窩，例如設(shè)備間直通通信（Device-to-Device，D2D）和中繼，來放大系統(tǒng)容量和/或擴(kuò)大覆蓋范圍。這些技術(shù)已經(jīng)被寫入了最新版本的3GPP的移動通信系統(tǒng)標(biāo)準(zhǔn)[1]。D2D技術(shù)通過允許兩個終端無需基站（Base Station，BS）轉(zhuǎn)發(fā)而直接傳輸數(shù)據(jù)，來提高頻率利用率并降低用戶設(shè)備（User Equipment，UE）的功耗。在D2D通信帶內(nèi)復(fù)用的模式中，D2D鏈路需要與宏蜂窩網(wǎng)絡(luò)的UE（Cellular UE，CUE）非正交地共享頻率資源，這將增加可用資源以及增大CUE和D2D用戶之間的干擾（DUE）。中繼技術(shù)運(yùn)行離基站較遠(yuǎn)的中繼用戶（Relay UE，RUE）通過復(fù)用CUE的頻率資源來接入中繼節(jié)點(diǎn)（Relay Node，RN），由中繼節(jié)點(diǎn)將信息轉(zhuǎn)發(fā)給基站，同樣增加了可以資源和干擾。

針對中繼異構(gòu)蜂窩網(wǎng)絡(luò)和D2D異構(gòu)蜂窩網(wǎng)絡(luò)的干擾協(xié)調(diào)已經(jīng)被廣泛的研究了，主要可以分為啟發(fā)式算法，基于凸優(yōu)化的算法，智能優(yōu)化算法，強(qiáng)化學(xué)習(xí)算法和基于博弈論的算法。

Liang等人提出了一種中繼異構(gòu)蜂窩網(wǎng)絡(luò)中的資源復(fù)用方法，可以有效降低中繼用戶對宏蜂窩用戶造成的干擾[2]。文獻(xiàn)[3]研究了D2D與宏蜂窩異構(gòu)網(wǎng)絡(luò)中的功率控制問題，通過將傳統(tǒng)蜂窩通信的功率控制研究方案用于D2D通信功率控制。其中，功率控制方案包括固定的目標(biāo)SNR功率分配、固定的發(fā)射功率分配、開環(huán)功率控制以及閉環(huán)功率控制技術(shù)，通過分析對比來評價這幾種方案的性能優(yōu)劣。文獻(xiàn)[4]通過部分頻率復(fù)用，將蜂窩小區(qū)劃分為中心區(qū)域和邊緣區(qū)域，根據(jù)D2D用戶的位置為其分配資源，有效地減小了D2D與蜂窩用戶之間的干擾。這些啟發(fā)式算法復(fù)雜度較低，能夠保證性能的改進(jìn)，但難以繼續(xù)提升逼近最優(yōu)化。

因此，部分研究者探索了通過凸優(yōu)化問題建模來解決干擾協(xié)調(diào)問題。文獻(xiàn)[5]提出了一種中繼異構(gòu)蜂窩網(wǎng)絡(luò)中動態(tài)改變資源復(fù)用數(shù)量的方法，將尋找最大化效用函數(shù)時的中繼用戶資源數(shù)量問題建模成了凸優(yōu)化問題，并使用KKT條件進(jìn)行求解，得出的動態(tài)資源復(fù)用算法比啟發(fā)式的部分頻率復(fù)用取得了更好的性能。文獻(xiàn)[6]探討了D2D異構(gòu)蜂窩網(wǎng)絡(luò)場景下的基于部分頻率復(fù)用的功率控制問題，在部分功率控制的基礎(chǔ)上提出了動態(tài)功率控制。以小區(qū)系統(tǒng)吞吐量最大化為目標(biāo)，建立功率控制的目標(biāo)函數(shù)，將非凸函數(shù)轉(zhuǎn)化為凸函數(shù)，并對拉格朗日對偶分解方法進(jìn)行了改進(jìn)，降低了算法的復(fù)雜度?；谕箖?yōu)化的干擾協(xié)調(diào)算法通過建立優(yōu)化目標(biāo)和求解凸優(yōu)化得出近似最優(yōu)解，但理想化的優(yōu)化目標(biāo)建模和求解過程中的NP難問題也會使得這些算法需要退而求其次。

部分研究者也嘗試了使用智能優(yōu)化算法來解決目標(biāo)優(yōu)化中的NP難問題。文獻(xiàn)[7]提出了一種基于遺傳算法的聯(lián)合資源分配與用戶匹配方案來最小化干擾并最大化頻譜效率，實現(xiàn)了使用有限數(shù)量的資源塊為大量用戶提供服務(wù)的優(yōu)點(diǎn)。并且，該方法具有優(yōu)越的性能和快速收斂的性能。文獻(xiàn)[8]提出了兩種基于PSO（粒子群優(yōu)化）和混合PSO-GA（遺傳算法）的資源分配方案，通過允許最多兩個D2D對與一個CUE共享同一頻率資源來最大化系統(tǒng)吞吐量。其中，提出的混合PSO-GA可以改善粒子的多樣性，從而避免局部最優(yōu)。

智能優(yōu)化算法依然將優(yōu)化目標(biāo)建模成理想化的數(shù)學(xué)模型，而強(qiáng)化學(xué)習(xí)算法可以通過真實網(wǎng)絡(luò)的結(jié)果反饋來實現(xiàn)目標(biāo)優(yōu)化。文獻(xiàn)[9]提出利用Qlearning來讓小蜂窩基站學(xué)習(xí)合適的發(fā)射功率，以減少小蜂窩基站間的干擾。文獻(xiàn)[10]中提出一種多智能體的Q-learning方法用于D2D多層異構(gòu)網(wǎng)絡(luò)的中D2D用戶進(jìn)行頻率資源選擇。這兩種方法需要解決的問題是迭代次數(shù)過多和陷入局部最優(yōu)解。

很多研究也從博弈論的角度來解決干擾協(xié)調(diào)問題。文獻(xiàn)[11]考慮了多小區(qū)中繼網(wǎng)絡(luò)中的非合作分配博弈，它僅旨在通過資源分配來提高系統(tǒng)吞吐量，而忽略了功率能效的問題。文獻(xiàn)[12]在宏蜂窩通信和中繼通信系統(tǒng)下，提出了基于博弈論的功率控制和資源分配算法。與等功率分配相比，使用較低的傳輸功率，可以達(dá)到系統(tǒng)的吞吐量提高的目的。文獻(xiàn)[13]提出了一種改進(jìn)的基于博弈論的D2D通信功率算法，作者在提高系統(tǒng)吞吐量的同時，在算法中還將代價因素引入效用函數(shù)，用戶具有更高的公平性。文獻(xiàn)[14]把下行系統(tǒng)總傳輸速率最大化的資源分配問題建模成拍賣模型，使用了反向迭代組合拍賣機(jī)制，所有D2D鏈路的集合作為組合拍賣物，資源作為競拍者。文獻(xiàn)[15]中的資源分配使用了Stackelberg博弈模型，該模型中根據(jù)決策行動次序?qū)⒉┺姆絽^(qū)分為領(lǐng)導(dǎo)者和跟隨者，領(lǐng)導(dǎo)者首先決定某個參數(shù)，而跟隨者根據(jù)這個參數(shù)做出決策，通常用于地位不對等的博弈雙方，與D2D鏈路和宏蜂窩鏈路之間的關(guān)系較為類似。文獻(xiàn)[15]的作者將已經(jīng)分配了資源的宏蜂窩鏈路視為領(lǐng)導(dǎo)者，D2D鏈路視為跟隨者，以優(yōu)化宏蜂窩鏈路和D2D鏈路的傳輸速率為目標(biāo)進(jìn)行了鏈路的配對。

在Stackelberg博弈模型中，雙方的成本參數(shù)是重要的參量，將會影響兩階段博弈的結(jié)果。因此，有一些研究提出了不同的成本參數(shù)設(shè)置方法。文獻(xiàn)[16]提出人為調(diào)整成本參數(shù)來保證反應(yīng)方程等號兩邊是相同的數(shù)量級，反應(yīng)方程的值在合理的范圍內(nèi)。也有研究提出成本參數(shù)由跟隨者的信道狀態(tài)來決定[17]，或者由領(lǐng)導(dǎo)者的信道狀態(tài)決定[18]。文獻(xiàn)[19]提出了一種迭代更新的成本參數(shù)改進(jìn)策略，根據(jù)博弈結(jié)果按固定步長更新全局成本參數(shù)。文獻(xiàn)[20]則證明了需要為每個信道的每個D2D鏈路設(shè)置一個成本參數(shù)。在目前的基于Stackelberg博弈的干擾協(xié)調(diào)算法研究中，成本參數(shù)大多是固定的或是自迭代更新的，尚缺乏優(yōu)化機(jī)制的探索，難以保證Stackelberg博弈的有效性。

本文關(guān)注在D2D和中繼異構(gòu)蜂窩網(wǎng)絡(luò)中使用Stackelberg博弈模型解決干擾協(xié)調(diào)問題，做出了以下貢獻(xiàn)：

1）使用Stackelberg博弈模型對于D2D和中繼異構(gòu)蜂窩網(wǎng)絡(luò)中的干擾協(xié)調(diào)問題進(jìn)行了建模，提出了D2D和中繼用戶上行發(fā)射功率控制算法，提出D2D和中繼用戶與宏蜂窩用戶之間的配對算法，實現(xiàn)了對D2D和中繼用戶的資源分配和功率控制，減少了鏈路之間的干擾問題；

2）提出了一種成本參數(shù)訓(xùn)練和更新的強(qiáng)化學(xué)習(xí)算法，通過現(xiàn)有成本參數(shù)和宏蜂窩用戶信道條件為狀態(tài)空間，成本參數(shù)更新動作為動作空間，用戶傳輸速率為回報的強(qiáng)化學(xué)習(xí)訓(xùn)練框架，尋找出較優(yōu)的成本參數(shù)狀態(tài)，并通過epsilon-greedy算法執(zhí)行成本參數(shù)的更新；

3）通過仿真實驗驗證了成本參數(shù)改進(jìn)后，基于Stackelberg博弈的干擾協(xié)調(diào)算法相較其他算法的性能提高，以及成本參數(shù)改進(jìn)的效果。

1 系統(tǒng)模型

本文考慮研究的系統(tǒng)是由一個基站BS和一個中繼節(jié)點(diǎn)RN的單蜂窩小區(qū)，其中包含若干宏蜂窩用戶設(shè)備CUEs和D2D通信用戶設(shè)備DUE。在蜂窩上行通信鏈路中，M個宏蜂窩用戶設(shè)備（CUEs）和Q個中繼用戶設(shè)備（RUEs）分別與基站BS和中繼節(jié)點(diǎn)RN進(jìn)行通信。N對D2D用戶，其發(fā)射端（DTx）和D2D接收端（DRx）之間的鏈路，可以復(fù)用蜂窩用戶CUE的上行鏈路資源進(jìn)行數(shù)據(jù)通信。帶內(nèi)RUE-RN鏈路與接入子幀中的某些CUE-BS鏈路使用相同的物理資源塊（PRBs），并且為了避免在RN處的自干擾，RN-BS鏈路和RN-BS鏈路在回程子幀中與CUE-BS鏈路正交地共享PRB。因此，CUE-BS鏈路可能會受到來自RUE和DTx的干擾，同時CUE還可能是DRx上D2D鏈路和RN上RUE-RN鏈路的干擾源。

因此，蜂窩用戶CUE的上行鏈路中某個CUE在某個PRB上接收到的信噪比SINR為：

其中，Pm,k表示第m個蜂窩用戶CUE在使用第k個PRB時的發(fā)射功率；Pn,k表示第n對D2D用戶的發(fā)射端DTx在使用第k個PRB時的發(fā)射功率；Pq,k表示第q個中繼用戶RUE在使用第k個PRB時的發(fā)射功率。同樣地，PLm表示第m個蜂窩用戶CUE與基站BS之間的鏈路（即CUE-BS）的路徑損耗，PLn表示第n對D2D用戶的發(fā)射端DTx與基站BS之間的鏈路（即DTx-BS）的路徑損耗，PLn表示第q個中繼用戶RUE與基站BS之間的鏈路（即RUE-BS）的路徑損耗。此外，N0,k表示高斯白噪聲，二進(jìn)制變量αm,k、βq,k和γn,k表示復(fù)用系數(shù)，0表示不復(fù)用資源，1表示復(fù)用資源。

D2D進(jìn)行上行通信時，其某對D2D的接收端DRx在某個PRB上接收到的信噪比SINR可以表示為：

其中，PLm,n表示第m個蜂窩用戶與第n對D2D用戶之間的鏈路的路徑損耗，PLq,n表示第q個中繼用戶與第n對D2D用戶的接收端DRx之間的鏈路的路徑損耗。

同樣地，中繼用戶RUE在回傳鏈路進(jìn)行上行通信時，某個RUE在某個PRB上接收到的信噪比SINR為：

其中，PLm,q表示第m個蜂窩用戶與第q個中繼用戶之間的鏈路的路徑損耗，PLn,q表示第n對D2D用戶的發(fā)射端DTx與第q個中繼用戶之間的鏈路的路徑損耗。

綜上，整個蜂窩通信系統(tǒng)在帶寬為B的PRBk上的總數(shù)據(jù)傳輸速率可以表示為：

在本文中干擾協(xié)調(diào)的目的是使每個PRB上所有鏈路可以達(dá)到最大化的系統(tǒng)吞吐量，其目標(biāo)函數(shù)可以表示為：受限于：

其中，Pq,min和Pq,max分別表示中繼通信用戶設(shè)備RUEq所允許的最小發(fā)射功率和最大發(fā)射功率；Pn,min和Pn,max分別表示D2D用戶對n的發(fā)射端所允許的最小發(fā)射功率和最大發(fā)射功率。

2 基于Stackelberg博弈的干擾協(xié)調(diào)算法

為了實現(xiàn)分布式干擾協(xié)調(diào)決策，本研究通過使用Stackelberg兩步博弈模型來讓D2D用戶對/RUE發(fā)射功率控制和其資源分配分別在小蜂窩（D2D/RUE）和宏蜂窩基站BS進(jìn)行決策。小蜂窩（D2D/RUE）上進(jìn)行的博弈是跟隨者博弈，宏蜂窩基站處進(jìn)行的博弈是領(lǐng)導(dǎo)者博弈。異構(gòu)蜂窩網(wǎng)絡(luò)中，宏蜂窩處于核心地位，小蜂窩被認(rèn)為是補(bǔ)充和輔助，系統(tǒng)性能以保證小蜂窩基本性能的前提下，使宏蜂窩性能盡可能少地受到干擾的影響。因此，使用Stackelberg兩步博弈模型來對干擾協(xié)調(diào)建模是符合實際應(yīng)用需求的。

2.1 領(lǐng)導(dǎo)者效用函數(shù)

在領(lǐng)導(dǎo)者博弈中，效用函數(shù)可由在PRBk中，CUEm、D2D用戶對n以及RUEq組成，其可以表示為：

其中，λm是每個CUEm提供給任何其他復(fù)用鏈路的成本參數(shù)。此外，復(fù)用系數(shù)γn,k和βq,k∈{0,1}，且它們無法同時為1，即D2D對和RUE不能復(fù)用同一個CUE的鏈路資源。

2.2 跟隨者效用函數(shù)

在跟隨者博弈中，D2D對n和RUEq在PRBk中的支付效用函數(shù)可以分別表示為：

在本研究所提出的模型中，既不考慮D2D與RUE之間的資源復(fù)用，也不考慮不同D2D對之間的資源復(fù)用。

2.3 小蜂窩決策的功率控制算法

在小蜂窩（D2D和RUE）處，發(fā)射功率由追隨者效用函數(shù)求偏導(dǎo)計算得出。以求解D2D的發(fā)射功率為例，用式（11）求對Pn,k的偏導(dǎo)函數(shù)，并令其為0，可以得到針對不同λm的D2D最佳發(fā)射功率。

同樣地，也可以通過式（12）求對Pq,k的偏導(dǎo)函數(shù)，并令其為0，可以得到RUE的最佳發(fā)射功率：

2.4 宏蜂窩決策的資源分配算法

為了實現(xiàn)式（18）中的優(yōu)化目標(biāo)，本研究采用了匈牙利算法來實現(xiàn)。具體實現(xiàn)步驟如下：

第一步：遍歷Um,n,q,k矩陣中所有的列，在這N+Q個列中分別尋找Um,n,q,k最大值，及其對應(yīng)的所有行m；

第二步：判斷所有的m是否為不一樣的數(shù)。如果是跳至第四步；

第三步：找出所有不重復(fù)的行m，及其對應(yīng)的列n或q，將其剔除出Um,n,q,k矩陣，（注：由于N +Q應(yīng)小于M，因此矩陣必不為空），重復(fù)第一步；

第四步：輸出所有(m,n)和(m,q)的對應(yīng)關(guān)系，以Round-Robin算法將所有的資源k公平地分配為(m,n)和(m,q)，以及未復(fù)用的CUE。

3 基于強(qiáng)化學(xué)習(xí)的成本參數(shù)改進(jìn)算法

由于在上文所提出的博弈模型中，成本參數(shù)λm是關(guān)鍵因素，它決定了D2D對的發(fā)射端DTx和中繼用戶RUE的發(fā)射功率，也影響了D2D/RUE和CUE之間的資源復(fù)用。但是，為CUEm設(shè)置一個好的λm是困難的，它應(yīng)該讓D2D/RUE的發(fā)射功率位于適當(dāng)?shù)姆秶鷥?nèi)，以實現(xiàn)功率控制。因此，本章提出了一種基于蒙特卡洛的離線強(qiáng)化學(xué)習(xí)算法，通過動態(tài)調(diào)整成本參數(shù)，實現(xiàn)通信系統(tǒng)性能的進(jìn)一步優(yōu)化。

3.1 強(qiáng)化學(xué)習(xí)模型

強(qiáng)化學(xué)習(xí)常用于智能體在與環(huán)境交互過程中通過學(xué)習(xí)在特定狀態(tài)下執(zhí)行何種動作以達(dá)到累計回報最大的目標(biāo)。不同于監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)，強(qiáng)化學(xué)習(xí)不需要預(yù)先給定數(shù)據(jù)集，而是需要定義智能體和狀態(tài)-動作-獎勵三元組變量。

每個CUEm在每個時隙t中執(zhí)行學(xué)習(xí)過程以更新三元組變量，該變量是狀態(tài)s，動作a和獎勵r。成本參數(shù)的強(qiáng)化學(xué)習(xí)模型的各個組成變量定義如下：

狀態(tài)：定義為K個PRB上的CUE-BS鏈路的路徑損耗s；

動作：定義一組價格因素λm為動作a，在本研究中取值空間設(shè)定為a(t)∈(2×1013,5×1019)；

獎勵r(t)即回報函數(shù)：回報函數(shù)反應(yīng)了學(xué)習(xí)的目標(biāo)，定義為表示D2D / RUE復(fù)用CUE的鏈路資源與D2D / RUE沒有復(fù)用CUE的鏈路資源時，它們之間取對數(shù)吞吐量的差值，即：

3.2 更新和訓(xùn)練算法

上文已經(jīng)定義了狀態(tài)，動作和獎勵（即回報函數(shù)）。狀態(tài)和動作將組成Q表，根據(jù)訓(xùn)練算法在獎勵的作用下進(jìn)行更新。具體實現(xiàn)過程由兩個步驟組成：

第一個過程是Q值進(jìn)行更新的過程。由宏蜂窩基站構(gòu)建Q表，表中的每一個Q值Q(s,a)反映的是狀態(tài)s下采取動作a的累計獎勵。Q(s,a)的更新算法如下：

其中，α為學(xué)習(xí)率，表征Q值的更新速度，在本研究中設(shè)定為0.01。γ為折扣率，表示最終獎勵對中間狀態(tài)的影響，在本研究中需要設(shè)定為0。

第二個過程是根據(jù)Q表選擇動作，并執(zhí)行動作，從而產(chǎn)生獎勵的訓(xùn)練過程。和第一個過程首尾相連，形成“動作執(zhí)行-產(chǎn)生獎勵-更新Q表-更新動作選擇”的循環(huán)。根據(jù)Q表進(jìn)行動作選擇的算法有很多，本研究選擇了ε?greedy算法。在ε?greedy算法中，一般稱到目前為止發(fā)現(xiàn)是最好的或者其對應(yīng)Q值最高的動作作為貪婪動作。其中，在動作選擇的貪婪策略中，以 ε的概率選擇其他動作，以(1?ε)的概率選擇貪婪動作。ε的值決定了探索和決策之間的平衡。在本研究中，在學(xué)習(xí)的初始階段選擇 ε的值接近1，這樣做的目的是避免發(fā)生死循環(huán)，同時還可以讓其有機(jī)會跳出局部最優(yōu)。ε的值會隨著學(xué)習(xí)的不斷進(jìn)行逐步減小，當(dāng)它達(dá)到學(xué)習(xí)的最后階段，貪婪動作就會成為最佳動作，從而達(dá)到Q?table收斂的程度。

4 仿真實驗

本研究進(jìn)行了單扇區(qū)的系統(tǒng)級仿真，擬比較所提出的算法和基準(zhǔn)方法的系統(tǒng)性能優(yōu)劣。在仿真實驗中，在一個扇區(qū)內(nèi)隨機(jī)分布了不同通信方式的用戶設(shè)備，其中包含30個CUE/RUE和若干D2D對用戶設(shè)備。具體參數(shù)設(shè)置如下表1所示。

表1 系統(tǒng)仿真參數(shù)

本文考慮了兩種基準(zhǔn)算法作為比較算法。第1種，在基于Round-Robin的資源分配算法中，RUE和D2D對隨機(jī)復(fù)用CUE的鏈路資源，而不考慮它們的信道信息和功率的優(yōu)先級，這里稱為“RR”算法；第2種，在不進(jìn)行功率控制的貪婪優(yōu)化算法中，每個PRB上的CUE和RUE/D2D對的吞吐量之和進(jìn)行優(yōu)化，而不考慮減少它們之間的干擾，標(biāo)記為“GO”算法。此外，在GO方案中，D2D用戶的發(fā)射端DTx和RUE的最大發(fā)射功率被設(shè)置為不同的發(fā)射節(jié)點(diǎn)。

本章提出的基于改進(jìn)型Stackelberg博弈的干擾協(xié)調(diào)算法，將與上述兩個基準(zhǔn)算法進(jìn)行一些性能指標(biāo)的比較，例如：平均吞吐量，5%最低吞吐量以及通用比例公平（Generalized Proportional Fairness，GPF）等。

其中，GPF的定義如下：

如圖1所示，反映了使用不同資源分配和功率控制算法的CUE吞吐量的累積分布函數(shù)（CDF）。與RR算法和GO算法相比，本研究所提算法對吞吐量低于800 Kbps左右的CUE具有更大的性能。這意味著，所提出的算法可以緩解部分CUE受到使用相同資源的D2D對的干擾，從而改善其信道狀況。

圖1 CUE的吞吐量CDF

隨著D2D對數(shù)量的增加，圖2給出了CUE的平均GPF。從圖中可以反映，隨著D2D對數(shù)的增加，導(dǎo)致其對CUE的干擾不斷增加，因而增加D2D對將降低CUE的平均GPF。從圖中可以看出，就兩個對比算法而言，使用GO算法的CUE的平均GPF在D2D對數(shù)較少的情況下具有較大的值，而在D2D對數(shù)較多的情況下，RR算法則優(yōu)于GO算法；但是，從圖中可以明顯看出，本研究所提出的算法的CUE的平均GPF一直優(yōu)于其他兩種算法。

圖2 不同D2D對數(shù)下的CUE的GPF

如圖3所示，反映了各個算法在不同D2D對數(shù)下的5%最低吞吐量的變化情況。從圖中可以看出，當(dāng)D2D對的數(shù)目從3個增加到6個時，CUE的5%最低吞吐量在使用GO算法的情況下，從500 Kbps顯著下降到80 Kbps；使用RR算法時，其吞吐量從460 Kbps下降到180 Kbps；而使用本研究所提的算法，雖然吞吐量從640 Kbps下降到了240 Kbps，但是相比于GO算法也有一定的優(yōu)越性。

圖3 不同D2D對數(shù)下的CUE的5%最低吞吐量

從圖4中可以看出，當(dāng)中繼節(jié)點(diǎn)RN遠(yuǎn)離基站BS時，使用不同算法的CUE的GPF都會隨之增加，這是因為邊緣信號質(zhì)量不好的用戶隨著中繼節(jié)點(diǎn)的靠近，使得其信號質(zhì)量得到了較大的改善。與此同時，如圖5所示，基站和中繼節(jié)點(diǎn)之間距離變化下的CUE的5%最低吞吐量在各個算法下的情況相差較大。從圖中可以清楚的看出，與RR和GO算法相比，本研究所提出的算法下CUE的GPF和5%最低吞吐量具有顯著優(yōu)勢。

圖4 基站和中繼節(jié)點(diǎn)之間距離變化下的CUE的GPF

圖5 基站和中繼節(jié)點(diǎn)之間距離變化下的CUE的5%最低吞吐量

5 結(jié) 論

本研究改進(jìn)了基于Stackelberg博弈的干擾協(xié)調(diào)算法使其應(yīng)用于D2D和中繼多種小蜂窩與宏蜂窩共存的異構(gòu)蜂窩網(wǎng)絡(luò)。在這個基礎(chǔ)上，提出了一種Stackelberg博弈中成本參數(shù)的改進(jìn)方法，利用了強(qiáng)化學(xué)習(xí)算法，獲得了較好的博弈效果。從仿真實驗的結(jié)果可以看出，基于Stackelberg博弈的干擾協(xié)同算法相比對比算法，可以有效地降低對CUE的干擾，提高異構(gòu)蜂窩網(wǎng)絡(luò)性能，而成本參數(shù)的訓(xùn)練和更新方法可以進(jìn)一步擴(kuò)大這種優(yōu)點(diǎn)。因此，本研究所提出的算法在提高異構(gòu)蜂窩網(wǎng)絡(luò)性能方面具有明顯的有效性。下一步的研究中將考慮不同的學(xué)習(xí)率和不同的ε-greedy算法對于收斂性的影響。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡