孫 晨,吳詩弈,張 波,莫國美
(南昌航空大學(xué) 軟件學(xué)院,南昌 330063)
在下一代3GPP蜂窩網(wǎng)絡(luò)5G中,通常需要引入小蜂窩,例如設(shè)備間直通通信(Device-to-Device,D2D)和中繼,來放大系統(tǒng)容量和/或擴(kuò)大覆蓋范圍。這些技術(shù)已經(jīng)被寫入了最新版本的3GPP的移動通信系統(tǒng)標(biāo)準(zhǔn)[1]。D2D技術(shù)通過允許兩個終端無需基站(Base Station,BS)轉(zhuǎn)發(fā)而直接傳輸數(shù)據(jù),來提高頻率利用率并降低用戶設(shè)備(User Equipment,UE)的功耗。在D2D通信帶內(nèi)復(fù)用的模式中,D2D鏈路需要與宏蜂窩網(wǎng)絡(luò)的UE(Cellular UE,CUE)非正交地共享頻率資源,這將增加可用資源以及增大CUE和D2D用戶之間的干擾(DUE)。中繼技術(shù)運(yùn)行離基站較遠(yuǎn)的中繼用戶(Relay UE,RUE)通過復(fù)用CUE的頻率資源來接入中繼節(jié)點(diǎn)(Relay Node,RN),由中繼節(jié)點(diǎn)將信息轉(zhuǎn)發(fā)給基站,同樣增加了可以資源和干擾。
針對中繼異構(gòu)蜂窩網(wǎng)絡(luò)和D2D異構(gòu)蜂窩網(wǎng)絡(luò)的干擾協(xié)調(diào)已經(jīng)被廣泛的研究了,主要可以分為啟發(fā)式算法,基于凸優(yōu)化的算法,智能優(yōu)化算法,強(qiáng)化學(xué)習(xí)算法和基于博弈論的算法。
Liang等人提出了一種中繼異構(gòu)蜂窩網(wǎng)絡(luò)中的資源復(fù)用方法,可以有效降低中繼用戶對宏蜂窩用戶造成的干擾[2]。文獻(xiàn)[3]研究了D2D與宏蜂窩異構(gòu)網(wǎng)絡(luò)中的功率控制問題,通過將傳統(tǒng)蜂窩通信的功率控制研究方案用于D2D通信功率控制。其中,功率控制方案包括固定的目標(biāo)SNR功率分配、固定的發(fā)射功率分配、開環(huán)功率控制以及閉環(huán)功率控制技術(shù),通過分析對比來評價這幾種方案的性能優(yōu)劣。文獻(xiàn)[4]通過部分頻率復(fù)用,將蜂窩小區(qū)劃分為中心區(qū)域和邊緣區(qū)域,根據(jù)D2D用戶的位置為其分配資源,有效地減小了D2D與蜂窩用戶之間的干擾。這些啟發(fā)式算法復(fù)雜度較低,能夠保證性能的改進(jìn),但難以繼續(xù)提升逼近最優(yōu)化。
因此,部分研究者探索了通過凸優(yōu)化問題建模來解決干擾協(xié)調(diào)問題。文獻(xiàn)[5]提出了一種中繼異構(gòu)蜂窩網(wǎng)絡(luò)中動態(tài)改變資源復(fù)用數(shù)量的方法,將尋找最大化效用函數(shù)時的中繼用戶資源數(shù)量問題建模成了凸優(yōu)化問題,并使用KKT條件進(jìn)行求解,得出的動態(tài)資源復(fù)用算法比啟發(fā)式的部分頻率復(fù)用取得了更好的性能。文獻(xiàn)[6]探討了D2D異構(gòu)蜂窩網(wǎng)絡(luò)場景下的基于部分頻率復(fù)用的功率控制問題,在部分功率控制的基礎(chǔ)上提出了動態(tài)功率控制。以小區(qū)系統(tǒng)吞吐量最大化為目標(biāo),建立功率控制的目標(biāo)函數(shù),將非凸函數(shù)轉(zhuǎn)化為凸函數(shù),并對拉格朗日對偶分解方法進(jìn)行了改進(jìn),降低了算法的復(fù)雜度?;谕箖?yōu)化的干擾協(xié)調(diào)算法通過建立優(yōu)化目標(biāo)和求解凸優(yōu)化得出近似最優(yōu)解,但理想化的優(yōu)化目標(biāo)建模和求解過程中的NP難問題也會使得這些算法需要退而求其次。
部分研究者也嘗試了使用智能優(yōu)化算法來解決目標(biāo)優(yōu)化中的NP難問題。文獻(xiàn)[7]提出了一種基于遺傳算法的聯(lián)合資源分配與用戶匹配方案來最小化干擾并最大化頻譜效率,實現(xiàn)了使用有限數(shù)量的資源塊為大量用戶提供服務(wù)的優(yōu)點(diǎn)。并且,該方法具有優(yōu)越的性能和快速收斂的性能。文獻(xiàn)[8]提出了兩種基于PSO(粒子群優(yōu)化)和混合PSO-GA(遺傳算法)的資源分配方案,通過允許最多兩個D2D對與一個CUE共享同一頻率資源來最大化系統(tǒng)吞吐量。其中,提出的混合PSO-GA可以改善粒子的多樣性,從而避免局部最優(yōu)。
智能優(yōu)化算法依然將優(yōu)化目標(biāo)建模成理想化的數(shù)學(xué)模型,而強(qiáng)化學(xué)習(xí)算法可以通過真實網(wǎng)絡(luò)的結(jié)果反饋來實現(xiàn)目標(biāo)優(yōu)化。文獻(xiàn)[9]提出利用Qlearning來讓小蜂窩基站學(xué)習(xí)合適的發(fā)射功率,以減少小蜂窩基站間的干擾。文獻(xiàn)[10]中提出一種多智能體的Q-learning方法用于D2D多層異構(gòu)網(wǎng)絡(luò)的中D2D用戶進(jìn)行頻率資源選擇。這兩種方法需要解決的問題是迭代次數(shù)過多和陷入局部最優(yōu)解。
很多研究也從博弈論的角度來解決干擾協(xié)調(diào)問題。文獻(xiàn)[11]考慮了多小區(qū)中繼網(wǎng)絡(luò)中的非合作分配博弈,它僅旨在通過資源分配來提高系統(tǒng)吞吐量,而忽略了功率能效的問題。文獻(xiàn)[12]在宏蜂窩通信和中繼通信系統(tǒng)下,提出了基于博弈論的功率控制和資源分配算法。與等功率分配相比,使用較低的傳輸功率,可以達(dá)到系統(tǒng)的吞吐量提高的目的。文獻(xiàn)[13]提出了一種改進(jìn)的基于博弈論的D2D通信功率算法,作者在提高系統(tǒng)吞吐量的同時,在算法中還將代價因素引入效用函數(shù),用戶具有更高的公平性。文獻(xiàn)[14]把下行系統(tǒng)總傳輸速率最大化的資源分配問題建模成拍賣模型,使用了反向迭代組合拍賣機(jī)制,所有D2D鏈路的集合作為組合拍賣物,資源作為競拍者。文獻(xiàn)[15]中的資源分配使用了Stackelberg博弈模型,該模型中根據(jù)決策行動次序?qū)⒉┺姆絽^(qū)分為領(lǐng)導(dǎo)者和跟隨者,領(lǐng)導(dǎo)者首先決定某個參數(shù),而跟隨者根據(jù)這個參數(shù)做出決策,通常用于地位不對等的博弈雙方,與D2D鏈路和宏蜂窩鏈路之間的關(guān)系較為類似。文獻(xiàn)[15]的作者將已經(jīng)分配了資源的宏蜂窩鏈路視為領(lǐng)導(dǎo)者,D2D鏈路視為跟隨者,以優(yōu)化宏蜂窩鏈路和D2D鏈路的傳輸速率為目標(biāo)進(jìn)行了鏈路的配對。
在Stackelberg博弈模型中,雙方的成本參數(shù)是重要的參量,將會影響兩階段博弈的結(jié)果。因此,有一些研究提出了不同的成本參數(shù)設(shè)置方法。文獻(xiàn)[16]提出人為調(diào)整成本參數(shù)來保證反應(yīng)方程等號兩邊是相同的數(shù)量級,反應(yīng)方程的值在合理的范圍內(nèi)。也有研究提出成本參數(shù)由跟隨者的信道狀態(tài)來決定[17],或者由領(lǐng)導(dǎo)者的信道狀態(tài)決定[18]。文獻(xiàn)[19]提出了一種迭代更新的成本參數(shù)改進(jìn)策略,根據(jù)博弈結(jié)果按固定步長更新全局成本參數(shù)。文獻(xiàn)[20]則證明了需要為每個信道的每個D2D鏈路設(shè)置一個成本參數(shù)。在目前的基于Stackelberg博弈的干擾協(xié)調(diào)算法研究中,成本參數(shù)大多是固定的或是自迭代更新的,尚缺乏優(yōu)化機(jī)制的探索,難以保證Stackelberg博弈的有效性。
本文關(guān)注在D2D和中繼異構(gòu)蜂窩網(wǎng)絡(luò)中使用Stackelberg博弈模型解決干擾協(xié)調(diào)問題,做出了以下貢獻(xiàn):
1)使用Stackelberg博弈模型對于D2D和中繼異構(gòu)蜂窩網(wǎng)絡(luò)中的干擾協(xié)調(diào)問題進(jìn)行了建模,提出了D2D和中繼用戶上行發(fā)射功率控制算法,提出D2D和中繼用戶與宏蜂窩用戶之間的配對算法,實現(xiàn)了對D2D和中繼用戶的資源分配和功率控制,減少了鏈路之間的干擾問題;
2)提出了一種成本參數(shù)訓(xùn)練和更新的強(qiáng)化學(xué)習(xí)算法,通過現(xiàn)有成本參數(shù)和宏蜂窩用戶信道條件為狀態(tài)空間,成本參數(shù)更新動作為動作空間,用戶傳輸速率為回報的強(qiáng)化學(xué)習(xí)訓(xùn)練框架,尋找出較優(yōu)的成本參數(shù)狀態(tài),并通過epsilon-greedy算法執(zhí)行成本參數(shù)的更新;
3)通過仿真實驗驗證了成本參數(shù)改進(jìn)后,基于Stackelberg博弈的干擾協(xié)調(diào)算法相較其他算法的性能提高,以及成本參數(shù)改進(jìn)的效果。
本文考慮研究的系統(tǒng)是由一個基站BS和一個中繼節(jié)點(diǎn)RN的單蜂窩小區(qū),其中包含若干宏蜂窩用戶設(shè)備CUEs和D2D通信用戶設(shè)備DUE。在蜂窩上行通信鏈路中,M個宏蜂窩用戶設(shè)備(CUEs)和Q個中繼用戶設(shè)備(RUEs)分別與基站BS和中繼節(jié)點(diǎn)RN進(jìn)行通信。N對D2D用戶,其發(fā)射端(DTx)和D2D接收端(DRx)之間的鏈路,可以復(fù)用蜂窩用戶CUE的上行鏈路資源進(jìn)行數(shù)據(jù)通信。帶內(nèi)RUE-RN鏈路與接入子幀中的某些CUE-BS鏈路使用相同的物理資源塊(PRBs),并且為了避免在RN處的自干擾,RN-BS鏈路和RN-BS鏈路在回程子幀中與CUE-BS鏈路正交地共享PRB。因此,CUE-BS鏈路可能會受到來自RUE和DTx的干擾,同時CUE還可能是DRx上D2D鏈路和RN上RUE-RN鏈路的干擾源。
因此,蜂窩用戶CUE的上行鏈路中某個CUE在某個PRB上接收到的信噪比SINR為:
其中,Pm,k表示第m個蜂窩用戶CUE在使用第k個PRB時的發(fā)射功率;Pn,k表示第n對D2D用戶的發(fā)射端DTx在使用第k個PRB時的發(fā)射功率;Pq,k表示第q個中繼用戶RUE在使用第k個PRB時的發(fā)射功率。同樣地,PLm表示第m個蜂窩用戶CUE與基站BS之間的鏈路(即CUE-BS)的路徑損耗,PLn表示第n對D2D用戶的發(fā)射端DTx與基站BS之間的鏈路(即DTx-BS)的路徑損耗,PLn表示第q個中繼用戶RUE與基站BS之間的鏈路(即RUE-BS)的路徑損耗。此外,N0,k表示高斯白噪聲,二進(jìn)制變量αm,k、βq,k和γn,k表示復(fù)用系數(shù),0表示不復(fù)用資源,1表示復(fù)用資源。
D2D進(jìn)行上行通信時,其某對D2D的接收端DRx在某個PRB上接收到的信噪比SINR可以表示為:
其中,PLm,n表示第m個蜂窩用戶與第n對D2D用戶之間的鏈路的路徑損耗,PLq,n表示第q個中繼用戶與第n對D2D用戶的接收端DRx之間的鏈路的路徑損耗。
同樣地,中繼用戶RUE在回傳鏈路進(jìn)行上行通信時,某個RUE在某個PRB上接收到的信噪比SINR為:
其中,PLm,q表示第m個蜂窩用戶與第q個中繼用戶之間的鏈路的路徑損耗,PLn,q表示第n對D2D用戶的發(fā)射端DTx與第q個中繼用戶之間的鏈路的路徑損耗。
綜上,整個蜂窩通信系統(tǒng)在帶寬為B的PRBk上的總數(shù)據(jù)傳輸速率可以表示為:
在本文中干擾協(xié)調(diào)的目的是使每個PRB上所有鏈路可以達(dá)到最大化的系統(tǒng)吞吐量,其目標(biāo)函數(shù)可以表示為:受限于:
其中,Pq,min和Pq,max分別表示中繼通信用戶設(shè)備RUEq所允許的最小發(fā)射功率和最大發(fā)射功率;Pn,min和Pn,max分別表示D2D用戶對n的發(fā)射端所允許的最小發(fā)射功率和最大發(fā)射功率。
為了實現(xiàn)分布式干擾協(xié)調(diào)決策,本研究通過使用Stackelberg兩步博弈模型來讓D2D用戶對/RUE發(fā)射功率控制和其資源分配分別在小蜂窩(D2D/RUE)和宏蜂窩基站BS進(jìn)行決策。小蜂窩(D2D/RUE)上進(jìn)行的博弈是跟隨者博弈,宏蜂窩基站處進(jìn)行的博弈是領(lǐng)導(dǎo)者博弈。異構(gòu)蜂窩網(wǎng)絡(luò)中,宏蜂窩處于核心地位,小蜂窩被認(rèn)為是補(bǔ)充和輔助,系統(tǒng)性能以保證小蜂窩基本性能的前提下,使宏蜂窩性能盡可能少地受到干擾的影響。因此,使用Stackelberg兩步博弈模型來對干擾協(xié)調(diào)建模是符合實際應(yīng)用需求的。
在領(lǐng)導(dǎo)者博弈中,效用函數(shù)可由在PRBk中,CUEm、D2D用戶對n以及RUEq組成,其可以表示為:
其中,λm是每個CUEm提供給任何其他復(fù)用鏈路的成本參數(shù)。此外,復(fù)用系數(shù)γn,k和βq,k∈{0,1},且它們無法同時為1,即D2D對和RUE不能復(fù)用同一個CUE的鏈路資源。
在跟隨者博弈中,D2D對n和RUEq在PRBk中的支付效用函數(shù)可以分別表示為:
在本研究所提出的模型中,既不考慮D2D與RUE之間的資源復(fù)用,也不考慮不同D2D對之間的資源復(fù)用。
在小蜂窩(D2D和RUE)處,發(fā)射功率由追隨者效用函數(shù)求偏導(dǎo)計算得出。以求解D2D的發(fā)射功率為例,用式(11)求對Pn,k的偏導(dǎo)函數(shù),并令其為0,可以得到針對不同λm的D2D最佳發(fā)射功率。
同樣地,也可以通過式(12)求對Pq,k的偏導(dǎo)函數(shù),并令其為0,可以得到RUE的最佳發(fā)射功率:
為了實現(xiàn)式(18)中的優(yōu)化目標(biāo),本研究采用了匈牙利算法來實現(xiàn)。具體實現(xiàn)步驟如下:
第一步:遍歷Um,n,q,k矩陣中所有的列,在這N+Q個列中分別尋找Um,n,q,k最大值,及其對應(yīng)的所有行m;
第二步:判斷所有的m是否為不一樣的數(shù)。如果是跳至第四步;
第三步:找出所有不重復(fù)的行m,及其對應(yīng)的列n或q,將其剔除出Um,n,q,k矩陣,(注:由于N +Q應(yīng)小于M,因此矩陣必不為空),重復(fù)第一步;
第四步:輸出所有(m,n)和(m,q)的對應(yīng)關(guān)系,以Round-Robin算法將所有的資源k公平地分配為(m,n)和(m,q),以及未復(fù)用的CUE。
由于在上文所提出的博弈模型中,成本參數(shù)λm是關(guān)鍵因素,它決定了D2D對的發(fā)射端DTx和中繼用戶RUE的發(fā)射功率,也影響了D2D/RUE和CUE之間的資源復(fù)用。但是,為CUEm設(shè)置一個好的λm是困難的,它應(yīng)該讓D2D/RUE的發(fā)射功率位于適當(dāng)?shù)姆秶鷥?nèi),以實現(xiàn)功率控制。因此,本章提出了一種基于蒙特卡洛的離線強(qiáng)化學(xué)習(xí)算法,通過動態(tài)調(diào)整成本參數(shù),實現(xiàn)通信系統(tǒng)性能的進(jìn)一步優(yōu)化。
強(qiáng)化學(xué)習(xí)常用于智能體在與環(huán)境交互過程中通過學(xué)習(xí)在特定狀態(tài)下執(zhí)行何種動作以達(dá)到累計回報最大的目標(biāo)。不同于監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí),強(qiáng)化學(xué)習(xí)不需要預(yù)先給定數(shù)據(jù)集,而是需要定義智能體和狀態(tài)-動作-獎勵三元組變量。
每個CUEm在每個時隙t中執(zhí)行學(xué)習(xí)過程以更新三元組變量,該變量是狀態(tài)s,動作a和獎勵r。成本參數(shù)的強(qiáng)化學(xué)習(xí)模型的各個組成變量定義如下:
狀態(tài):定義為K個PRB上的CUE-BS鏈路的路徑損耗s;
動作:定義一組價格因素λm為動作a,在本研究中取值空間設(shè)定為a(t)∈(2×1013,5×1019);
獎勵r(t)即回報函數(shù):回報函數(shù)反應(yīng)了學(xué)習(xí)的目標(biāo),定義為表示D2D / RUE復(fù)用CUE的鏈路資源與D2D / RUE沒有復(fù)用CUE的鏈路資源時,它們之間取對數(shù)吞吐量的差值,即:
上文已經(jīng)定義了狀態(tài),動作和獎勵(即回報函數(shù))。狀態(tài)和動作將組成Q表,根據(jù)訓(xùn)練算法在獎勵的作用下進(jìn)行更新。具體實現(xiàn)過程由兩個步驟組成:
第一個過程是Q值進(jìn)行更新的過程。由宏蜂窩基站構(gòu)建Q表,表中的每一個Q值Q(s,a)反映的是狀態(tài)s下采取動作a的累計獎勵。Q(s,a)的更新算法如下:
其中,α為學(xué)習(xí)率,表征Q值的更新速度,在本研究中設(shè)定為0.01。γ為折扣率,表示最終獎勵對中間狀態(tài)的影響,在本研究中需要設(shè)定為0。
第二個過程是根據(jù)Q表選擇動作,并執(zhí)行動作,從而產(chǎn)生獎勵的訓(xùn)練過程。和第一個過程首尾相連,形成“動作執(zhí)行-產(chǎn)生獎勵-更新Q表-更新動作選擇”的循環(huán)。根據(jù)Q表進(jìn)行動作選擇的算法有很多,本研究選擇了ε?greedy算法。在ε?greedy算法中,一般稱到目前為止發(fā)現(xiàn)是最好的或者其對應(yīng)Q值最高的動作作為貪婪動作。其中,在動作選擇的貪婪策略中,以 ε的概率選擇其他動作,以(1?ε)的概率選擇貪婪動作。ε的值決定了探索和決策之間的平衡。在本研究中,在學(xué)習(xí)的初始階段選擇 ε的值接近1,這樣做的目的是避免發(fā)生死循環(huán),同時還可以讓其有機(jī)會跳出局部最優(yōu)。ε的值會隨著學(xué)習(xí)的不斷進(jìn)行逐步減小,當(dāng)它達(dá)到學(xué)習(xí)的最后階段,貪婪動作就會成為最佳動作,從而達(dá)到Q?table收斂的程度。
本研究進(jìn)行了單扇區(qū)的系統(tǒng)級仿真,擬比較所提出的算法和基準(zhǔn)方法的系統(tǒng)性能優(yōu)劣。在仿真實驗中,在一個扇區(qū)內(nèi)隨機(jī)分布了不同通信方式的用戶設(shè)備,其中包含30個CUE/RUE和若干D2D對用戶設(shè)備。具體參數(shù)設(shè)置如下表1所示。
表1 系統(tǒng)仿真參數(shù)
本文考慮了兩種基準(zhǔn)算法作為比較算法。第1種,在基于Round-Robin的資源分配算法中,RUE和D2D對隨機(jī)復(fù)用CUE的鏈路資源,而不考慮它們的信道信息和功率的優(yōu)先級,這里稱為“RR”算法;第2種,在不進(jìn)行功率控制的貪婪優(yōu)化算法中,每個PRB上的CUE和RUE/D2D對的吞吐量之和進(jìn)行優(yōu)化,而不考慮減少它們之間的干擾,標(biāo)記為“GO”算法。此外,在GO方案中,D2D用戶的發(fā)射端DTx和RUE的最大發(fā)射功率被設(shè)置為不同的發(fā)射節(jié)點(diǎn)。
本章提出的基于改進(jìn)型Stackelberg博弈的干擾協(xié)調(diào)算法,將與上述兩個基準(zhǔn)算法進(jìn)行一些性能指標(biāo)的比較,例如:平均吞吐量,5%最低吞吐量以及通用比例公平(Generalized Proportional Fairness,GPF)等。
其中,GPF的定義如下:
如圖1所示,反映了使用不同資源分配和功率控制算法的CUE吞吐量的累積分布函數(shù)(CDF)。與RR算法和GO算法相比,本研究所提算法對吞吐量低于800 Kbps左右的CUE具有更大的性能。這意味著,所提出的算法可以緩解部分CUE受到使用相同資源的D2D對的干擾,從而改善其信道狀況。
圖1 CUE的吞吐量CDF
隨著D2D對數(shù)量的增加,圖2給出了CUE的平均GPF。從圖中可以反映,隨著D2D對數(shù)的增加,導(dǎo)致其對CUE的干擾不斷增加,因而增加D2D對將降低CUE的平均GPF。從圖中可以看出,就兩個對比算法而言,使用GO算法的CUE的平均GPF在D2D對數(shù)較少的情況下具有較大的值,而在D2D對數(shù)較多的情況下,RR算法則優(yōu)于GO算法;但是,從圖中可以明顯看出,本研究所提出的算法的CUE的平均GPF一直優(yōu)于其他兩種算法。
圖2 不同D2D對數(shù)下的CUE的GPF
如圖3所示,反映了各個算法在不同D2D對數(shù)下的5%最低吞吐量的變化情況。從圖中可以看出,當(dāng)D2D對的數(shù)目從3個增加到6個時,CUE的5%最低吞吐量在使用GO算法的情況下,從500 Kbps顯著下降到80 Kbps;使用RR算法時,其吞吐量從460 Kbps下降到180 Kbps;而使用本研究所提的算法,雖然吞吐量從640 Kbps下降到了240 Kbps,但是相比于GO算法也有一定的優(yōu)越性。
圖3 不同D2D對數(shù)下的CUE的5%最低吞吐量
從圖4中可以看出,當(dāng)中繼節(jié)點(diǎn)RN遠(yuǎn)離基站BS時,使用不同算法的CUE的GPF都會隨之增加,這是因為邊緣信號質(zhì)量不好的用戶隨著中繼節(jié)點(diǎn)的靠近,使得其信號質(zhì)量得到了較大的改善。與此同時,如圖5所示,基站和中繼節(jié)點(diǎn)之間距離變化下的CUE的5%最低吞吐量在各個算法下的情況相差較大。從圖中可以清楚的看出,與RR和GO算法相比,本研究所提出的算法下CUE的GPF和5%最低吞吐量具有顯著優(yōu)勢。
圖4 基站和中繼節(jié)點(diǎn)之間距離變化下的CUE的GPF
圖5 基站和中繼節(jié)點(diǎn)之間距離變化下的CUE的5%最低吞吐量
本研究改進(jìn)了基于Stackelberg博弈的干擾協(xié)調(diào)算法使其應(yīng)用于D2D和中繼多種小蜂窩與宏蜂窩共存的異構(gòu)蜂窩網(wǎng)絡(luò)。在這個基礎(chǔ)上,提出了一種Stackelberg博弈中成本參數(shù)的改進(jìn)方法,利用了強(qiáng)化學(xué)習(xí)算法,獲得了較好的博弈效果。從仿真實驗的結(jié)果可以看出,基于Stackelberg博弈的干擾協(xié)同算法相比對比算法,可以有效地降低對CUE的干擾,提高異構(gòu)蜂窩網(wǎng)絡(luò)性能,而成本參數(shù)的訓(xùn)練和更新方法可以進(jìn)一步擴(kuò)大這種優(yōu)點(diǎn)。因此,本研究所提出的算法在提高異構(gòu)蜂窩網(wǎng)絡(luò)性能方面具有明顯的有效性。下一步的研究中將考慮不同的學(xué)習(xí)率和不同的ε-greedy算法對于收斂性的影響。