国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

異構(gòu)網(wǎng)絡(luò)中用戶關(guān)聯(lián)和功率控制的協(xié)同優(yōu)化*

2021-07-28 10:08:30菅迎賓
電訊技術(shù) 2021年7期
關(guān)鍵詞:異構(gòu)信道關(guān)聯(lián)

樊 雯,陳 騰,菅迎賓

(石家莊鐵路職業(yè)技術(shù)學(xué)院 信息工程系,石家莊 050041)

0 引 言

當(dāng)前數(shù)據(jù)信息傳輸網(wǎng)絡(luò)結(jié)構(gòu)中,異構(gòu)網(wǎng)絡(luò)可有效滿足移動(dòng)數(shù)據(jù)流量需求的爆炸性增長(zhǎng),并兼具密集部署和異構(gòu)特性[1]。與傳統(tǒng)同質(zhì)網(wǎng)絡(luò)相比,異構(gòu)網(wǎng)絡(luò)由宏基站、微基站、皮基站和飛基站等不同類型基站(Base Station,BS)組成,且各基站的發(fā)射功率、基站密度和數(shù)據(jù)傳輸速率均不同[2-3]。目前,隨著移動(dòng)設(shè)備數(shù)量的不斷增加,由于上行鏈路異構(gòu)網(wǎng)絡(luò)的頻譜共享策略,用戶設(shè)備(User Equipment,UE)間的干擾逐漸加重[4]。因此,當(dāng)前主流無線通信標(biāo)準(zhǔn)均已采用基于正交頻分多址(Orthogonal Frequency Division Multiple Access,OFDMA)的異構(gòu)網(wǎng)絡(luò)[5]。另外,隨著UE的增加,異構(gòu)網(wǎng)絡(luò)的上行干擾也將逐漸明顯[6]。因此,為進(jìn)一步提高網(wǎng)絡(luò)系統(tǒng)傳輸性能和用戶體驗(yàn),開展用戶關(guān)聯(lián)和功率控制的協(xié)同優(yōu)化是異構(gòu)網(wǎng)絡(luò)研究中的重要主題[7]。

針對(duì)異構(gòu)網(wǎng)絡(luò)中用戶關(guān)聯(lián)和功率控制問題,眾多專家學(xué)者對(duì)此進(jìn)行了大量研究。文獻(xiàn)[8]通過研究主要用戶和次要用戶間的上行通信鏈路能量效率,提出了一種基于凸優(yōu)化理論的迭代算法,能夠有效提高用戶間的網(wǎng)絡(luò)通信平衡。文獻(xiàn)[9]基于非合作博弈理論,通過計(jì)算異構(gòu)網(wǎng)絡(luò)系統(tǒng)的吞吐量,提出了一種適用于異構(gòu)網(wǎng)絡(luò)的聯(lián)合BS關(guān)聯(lián)和功率控制算法,通過對(duì)長(zhǎng)期速率加權(quán)的最大化處理來平衡網(wǎng)絡(luò)負(fù)載,并結(jié)合異構(gòu)網(wǎng)絡(luò)的功率控制,可有效處理異構(gòu)網(wǎng)絡(luò)延遲和上行鏈路用戶的關(guān)聯(lián)問題。但上述方法由于聯(lián)合用戶關(guān)聯(lián)和功率控制具有非凸和非線性特性,難以獲得全局最優(yōu)解。同時(shí),在實(shí)際應(yīng)用中由于通信環(huán)境的不斷變化,上述方法無法獲取有效的網(wǎng)絡(luò)信息[10]。

因此,針對(duì)時(shí)變動(dòng)態(tài)環(huán)境研究人員提出了基于人工智能的控制策略,通過不斷與環(huán)境互動(dòng)、強(qiáng)化學(xué)習(xí),解決長(zhǎng)期決策的復(fù)雜計(jì)算問題。文獻(xiàn)[11]通過使用Q學(xué)習(xí)算法,提出了一種基于傳統(tǒng)單蜂窩網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)備到設(shè)備(Device to Device,D2D)的聯(lián)合信道分配和功率控制策略,可有效提高網(wǎng)絡(luò)學(xué)習(xí)性能。文獻(xiàn)[12]通過將Q學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)相結(jié)合構(gòu)成深度Q學(xué)習(xí)網(wǎng)絡(luò)(Deep Q-learning Network,DQN),提出了一種基于分布式用戶關(guān)聯(lián)算法的在線學(xué)習(xí)方法,能夠有效優(yōu)化異構(gòu)網(wǎng)絡(luò)的能量效率。文獻(xiàn)[13]提出了一種基于DQN框架的用戶關(guān)聯(lián)和信道分配深度強(qiáng)化學(xué)習(xí)算法,通過DQN方法對(duì)卸載決策和計(jì)算資源分配進(jìn)行了優(yōu)化。但上述方法所考慮的網(wǎng)絡(luò)行動(dòng)空間相對(duì)較小,無法滿足異構(gòu)網(wǎng)絡(luò)中聯(lián)合用戶關(guān)聯(lián)和功率控制問題中大狀態(tài)空間和大動(dòng)作空間的需求,在實(shí)際運(yùn)行中難以通過Q學(xué)習(xí)算法獲得良好性能。

綜上所述,上述研究主要集中于異構(gòu)網(wǎng)絡(luò)中的聯(lián)合用戶群體和渠道分配問題,尚未考慮能量效率的綜合分析。目前,隨著各種新業(yè)務(wù)和應(yīng)用場(chǎng)景的不斷涌現(xiàn),UE的能耗也隨著密集型移動(dòng)數(shù)據(jù)計(jì)算和應(yīng)用程序的增長(zhǎng)而上升,但當(dāng)前的電池技術(shù)無法滿足移動(dòng)UE的能源消耗。因此,異構(gòu)網(wǎng)絡(luò)中UE的能量效率優(yōu)化變得更加重要?;谝陨戏治觯疚奶岢隽艘环N多智能體DQN方法,對(duì)上行鏈路中的用戶關(guān)聯(lián)和功率控制進(jìn)行優(yōu)化處理,并基于能量消耗與UE電池容量的相互作用,將UE的能量效率重新定義為獎(jiǎng)勵(lì)函數(shù),實(shí)現(xiàn)對(duì)所有UE能量效率的最大化。仿真實(shí)驗(yàn)驗(yàn)證了所提算法的正確性和有效性。

1 系統(tǒng)模型構(gòu)建

圖1所示為典型的異構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)圖[14]。其中,在宏BS的覆蓋區(qū)域內(nèi),部署了一組小型BS,在不失一般性的情況下,將所有BS的集合表示為M={0,1,2,…,m}。

圖1 典型的異構(gòu)網(wǎng)絡(luò)

該模型的學(xué)習(xí)過程由云服務(wù)器完成,云服務(wù)器通過光纖電纜與宏BS或小型BS進(jìn)行連接。UE隨機(jī)分布在網(wǎng)絡(luò)中,且UE的集合為U={1,2,…,u},其中u為UE的總數(shù)。通常,基于OFDMA的異構(gòu)網(wǎng)絡(luò)系統(tǒng)具有n個(gè)子信道,分別表示為N={1,2,…,n},n

假設(shè)所有BS和UE均配備有獨(dú)立天線,信道增益主要受瑞利衰落gu,m、對(duì)數(shù)正態(tài)陰影LS和路徑損耗的影響,則將宏BS和小型BS的路徑損耗分別建模為PL1和PL2。因此,具有第m個(gè)BS的第n個(gè)子信道上的第n個(gè)用戶的信道增益的數(shù)學(xué)表達(dá)式如式(1)所示:

(1)

為詳細(xì)闡明UE與BS間的關(guān)系,定義了一組整數(shù)二進(jìn)制變量au,m來表示BS與UE間鏈路的有效性,其數(shù)學(xué)表達(dá)式如式(2)所示:

(2)

此外,UE的功耗由靜態(tài)功耗和動(dòng)態(tài)功耗兩部分組成。其中,靜態(tài)功耗是運(yùn)行電路組件如轉(zhuǎn)換器、混頻器、濾波器等時(shí)消耗功率,而動(dòng)態(tài)功耗被視為發(fā)射功耗。由于數(shù)字手機(jī)中的發(fā)射功率只能在離散水平上進(jìn)行更新,因此實(shí)際應(yīng)用中可以通過有限數(shù)量的值對(duì)發(fā)射功率進(jìn)行設(shè)置。

(3)

因此,在第n個(gè)子信道上連接到第m個(gè)BS的第u個(gè)UE的信號(hào)干擾加噪聲比(Signal-to-Interference plus Noise Ratio,SINR)如式(4)所示[15]:

(4)

根據(jù)香農(nóng)公式,第u個(gè)UE的數(shù)據(jù)速率如式(5)所示:

(5)

由此,在本文的系統(tǒng)模型中,結(jié)合用戶關(guān)聯(lián)和功率控制,提出了使異構(gòu)網(wǎng)絡(luò)中所有UE的能量效率最大化的優(yōu)化問題。將所有UE的能量效率定義為每個(gè)UE的能量效率之和,并將用戶在第n個(gè)子信道上選擇第m個(gè)BS的個(gè)人能效,定義為可實(shí)現(xiàn)的吞吐量與用戶的總功耗的比值,如式(6)所示:

(6)

因此,本文異構(gòu)網(wǎng)絡(luò)模型的總能效最大化問題可以表述為式(7)所示:

C3:au,m∈{0,1},

(7)

式中:A表示用戶關(guān)聯(lián)矩陣,p表示所有UE的發(fā)射功率向量,γth為預(yù)定義的最小干擾加噪聲比;約束C1表示每個(gè)UE的發(fā)射功率與給定的最大發(fā)射功率的比值,C2可確保滿足每個(gè)UE的QoS要求,C3與C4能夠確保每個(gè)UE只能與一個(gè)BS相關(guān)聯(lián)。因此,通過解決混合整數(shù)非線性規(guī)劃問題P1,可以找到關(guān)于UE與BS的關(guān)聯(lián)以及傳輸功率,即A和p的最優(yōu)控制策略。

2 DQN強(qiáng)化學(xué)習(xí)過程構(gòu)建

2.1 馬爾科夫決策轉(zhuǎn)換

從式(7)可知,用戶關(guān)聯(lián)和功率控制機(jī)制是相互關(guān)聯(lián)的。為有效解決異構(gòu)網(wǎng)絡(luò)的混合整數(shù)和非凸性問題,以獎(jiǎng)勵(lì)函數(shù)為基礎(chǔ)提出了基于強(qiáng)化學(xué)習(xí)的馬爾科夫決策過程。

在本文研究的場(chǎng)景中,主要是將協(xié)同優(yōu)化問題P1轉(zhuǎn)換為馬爾科夫決策過程(S,A,R,Pss′)。其中,S為決策過程狀態(tài)空間,A為UE的動(dòng)作空間,R為獎(jiǎng)勵(lì)函數(shù),Pss′為從狀態(tài)s過渡到狀態(tài)s′的概率。隨后,基于馬爾科夫決策過程,構(gòu)建強(qiáng)化學(xué)習(xí)過程的系統(tǒng)狀態(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù),具體如下:

(1)狀態(tài)空間

在公式化問題P1中,智能體UE需選擇BS進(jìn)行通信,確定發(fā)射功率,并將系統(tǒng)狀態(tài)空間定義為sstate={s1,s2,…,sj,…,s(M×K)U}。其中,sj=j表示所有UE與BS和功率控制相關(guān)聯(lián)的狀態(tài)。根據(jù)系統(tǒng)狀態(tài)空間公式可知,隨著U的逐漸增加,狀態(tài)數(shù)量呈指數(shù)增長(zhǎng)。此外,由于每個(gè)UE僅可選擇一個(gè)子信道,選擇相同子信道的用戶將產(chǎn)生相互干擾。因此,從子信道角度出發(fā),每個(gè)子信道的狀態(tài)空間可定義為sn={s1,s2,…,sj,…,s(M×K)Nn},其中Nn為第n個(gè)子信道服務(wù)中UE的數(shù)量。

(2)行動(dòng)空間

在公式化問題P1中,需要控制UE與BS的關(guān)聯(lián)和發(fā)射功率,否則UE在時(shí)刻t的第n個(gè)子信道中的動(dòng)作將出現(xiàn)發(fā)散。因此,對(duì)于第n個(gè)子通道中的所有動(dòng)作,可定義時(shí)刻t的動(dòng)作空間為an(t)={a1(t),a2(t),…,aj(t),…,a(M×N)Nn(t)}。系統(tǒng)N個(gè)子通道的所有動(dòng)作如式(8)所示:

a(t)={a1(t),a2(t),…,an(t),…,aN(t)}。

(8)

(3)獎(jiǎng)勵(lì)函數(shù)

通常,學(xué)習(xí)過程由強(qiáng)化學(xué)習(xí)框架中的獎(jiǎng)勵(lì)函數(shù)驅(qū)動(dòng),在基于OFDMA的異構(gòu)網(wǎng)絡(luò)下,將所有UE的總能量效率定義為系統(tǒng)獎(jiǎng)勵(lì)函數(shù),其數(shù)學(xué)表達(dá)式如式(9)所示:

(9)

式中:rn(t)為第n個(gè)子通道的獎(jiǎng)勵(lì)函數(shù),通過與環(huán)境的相互作用最大化進(jìn)行最優(yōu)策略學(xué)習(xí)。

2.2 強(qiáng)化學(xué)習(xí)

通過以上分析,可以將問題P1轉(zhuǎn)換為問題P2,其數(shù)學(xué)表達(dá)式如式(10)所示:

(10)

(11)

式中:γ∈[0,1]為折現(xiàn)因子,T為最大事件數(shù)。其中,當(dāng)γ=0時(shí),返回的獎(jiǎng)勵(lì)為當(dāng)前獎(jiǎng)勵(lì);當(dāng)γ=1時(shí),Rn(τ)等于獎(jiǎng)勵(lì)的總和。

(12)

(13)

因此,基于Bellman方程,異構(gòu)網(wǎng)絡(luò)的最佳Q值函數(shù)如式(14)所示:

(14)

(15)

對(duì)式(14)和式(15)進(jìn)行聯(lián)合求解,其結(jié)果如式(16)所示:

(16)

(17)

式中:α為學(xué)習(xí)率。

由于Q學(xué)習(xí)方法需選擇具有最佳值的動(dòng)作,且對(duì)所選動(dòng)作進(jìn)行評(píng)估。另外,Q學(xué)習(xí)方法使用采樣方法進(jìn)行狀態(tài)選擇,將使得采樣狀態(tài)過高,且采樣狀態(tài)和未采樣狀態(tài)之間的差距將會(huì)逐漸增大。通常,異構(gòu)網(wǎng)絡(luò)的狀態(tài)和動(dòng)作空間較大,使用Q學(xué)習(xí)方法獲得的最優(yōu)解往往存在不足,即Q學(xué)習(xí)方法無法為大規(guī)模系統(tǒng)狀態(tài)空間采樣某些特殊狀態(tài)。因此,為了應(yīng)對(duì)大規(guī)模的系統(tǒng)狀態(tài)空間問題,須采用深度強(qiáng)化學(xué)習(xí)方法。

3 多智能體DQN框架

3.1 多智能體DQN方法

(18)

由于數(shù)據(jù)樣本之間存在差異,系統(tǒng)難以獲得一個(gè)平滑的學(xué)習(xí)模型。因此,考慮具有權(quán)重參數(shù)θ的目標(biāo)網(wǎng)絡(luò)作為系統(tǒng)智能體。通常,多智能體DQN方法有行為網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)兩種,通過使用目標(biāo)網(wǎng)絡(luò),計(jì)算目標(biāo)值yi的學(xué)習(xí)模型,在一定時(shí)間內(nèi)能夠保持權(quán)重參數(shù)恒定不變,減輕學(xué)習(xí)模型的波動(dòng)性。此外,也可通過行為網(wǎng)絡(luò)獲得系統(tǒng)效率的估值。

通常,在強(qiáng)化學(xué)習(xí)過程中,經(jīng)過一定數(shù)量的迭代之后,行為網(wǎng)絡(luò)的權(quán)重參數(shù)θ將與目標(biāo)網(wǎng)絡(luò)同步,即θ→θ-。隨后,自動(dòng)進(jìn)入下一階段的學(xué)習(xí)。對(duì)于行為網(wǎng)絡(luò),智能體將使用ε貪婪策略選擇動(dòng)作an(τ),并使用最小損失函數(shù)為每次迭代更新的參數(shù)θ,其數(shù)學(xué)表達(dá)如式(19)所示:

L(θ)=∑[(yj-Qπ(sn,an|θ))2] ,

(19)

(20)

3.2 多智能體DQN模型構(gòu)建

DQN方法中,由于數(shù)據(jù)樣本之間的相關(guān)性,將導(dǎo)致學(xué)習(xí)不穩(wěn)定。因此,可運(yùn)用經(jīng)驗(yàn)回放技術(shù)進(jìn)行DQN學(xué)習(xí),其中主要包含存儲(chǔ)數(shù)據(jù)和采樣數(shù)據(jù)兩部分,經(jīng)驗(yàn)數(shù)據(jù)按迭代順序存儲(chǔ)到回放存儲(chǔ)器D中。在DQN學(xué)習(xí)過程中,智能體將選擇動(dòng)作an(τ),獲得獎(jiǎng)勵(lì)rn(τ)并轉(zhuǎn)到下一個(gè)狀態(tài)。隨后,將向量存儲(chǔ)到體驗(yàn)存儲(chǔ)器中。如果內(nèi)存D的存儲(chǔ)已滿,則新的體驗(yàn)數(shù)據(jù)將覆蓋前一次迭代生成的數(shù)據(jù)。圖2所示為多智能體DQN策略圖,其中狀態(tài)空間和行為空間通過回放存儲(chǔ)器進(jìn)行關(guān)聯(lián)。

圖2 多智能體DQN策略圖

在初始運(yùn)行過程中,每個(gè)智能體分別為行為網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)的初始化內(nèi)存D,以及權(quán)重參數(shù)的θ和θ-。隨后,智能體初始化開始進(jìn)入狀態(tài),并使用ε貪婪策略選擇動(dòng)作an(τ)。最后,如果狀態(tài)約束條件滿足,則智能體將發(fā)送有關(guān)用戶關(guān)聯(lián)的信息,并將功率發(fā)送到環(huán)境條件中,通過獎(jiǎng)勵(lì)函數(shù)rn(τ)和下一狀態(tài)獲得功率比值n;否則,智能體將不會(huì)回放任何內(nèi)容。

向量Sn主要存儲(chǔ)在回放存儲(chǔ)器D中,通過將樣本隨機(jī)小批量寫入存儲(chǔ)器D,可通過初始化更新行為網(wǎng)絡(luò)的權(quán)重參數(shù)。當(dāng)訓(xùn)練一定數(shù)量的迭代次數(shù)時(shí),行為網(wǎng)絡(luò)的參數(shù)將同步到目標(biāo)網(wǎng)絡(luò),并開始下一階段的學(xué)習(xí)。

4 仿真結(jié)果與分析

4.1 仿真計(jì)算

選取具有一個(gè)宏BS和小型BS的兩層異構(gòu)網(wǎng)絡(luò)進(jìn)行多智能體DQN算法仿真實(shí)驗(yàn)。其中,令25個(gè)UE隨機(jī)分散在宏BS的覆蓋范圍內(nèi),并設(shè)置其區(qū)間為200 m×200 m。此外,令小型BS也隨機(jī)分布在相關(guān)區(qū)域中。 其中,UE的最大發(fā)射功率為23 dBm,子信道總數(shù)為15,宏BS和小型BS的傳輸損耗為PL1=34+40 lg(d),PL2=37+30lg(d)。其中,d是從BS到UE的距離,對(duì)數(shù)法線陰影為8 dB,噪聲功率設(shè)置為σ2={-174 dBm}。

為估計(jì)Q函數(shù)計(jì)算結(jié)果,采用DNN算法在包含64個(gè)神經(jīng)元的全連接神經(jīng)網(wǎng)絡(luò)的兩個(gè)隱藏層以及一個(gè)輸出層模型中進(jìn)行計(jì)算,表1所示為DQN的詳細(xì)參數(shù)。

表1 DQN詳細(xì)參數(shù)

首先,對(duì)具有不同學(xué)習(xí)參數(shù),如學(xué)習(xí)率和神經(jīng)元數(shù)量的DNN的性能進(jìn)行仿真,分析具有不同學(xué)習(xí)率的訓(xùn)練效率,其仿真結(jié)果如圖3所示。由圖3可知,隨著事件數(shù)的增加,所有UE的能量效率逐漸收斂。此外,隨著學(xué)習(xí)率α的變化,相較于α=0.1、α=0.001、α=0.000 1,當(dāng)α=0.01時(shí),所有UE的能效性能最佳。對(duì)α=0.01和α=0.1兩種情況進(jìn)行比較分析可知,當(dāng)學(xué)習(xí)率α較大時(shí),算法計(jì)算結(jié)果難以達(dá)到最佳值;當(dāng)學(xué)習(xí)率相對(duì)較小時(shí),將可能導(dǎo)致局部最優(yōu)。因此,考慮到算法的實(shí)際執(zhí)行,將所提算法的學(xué)習(xí)率α設(shè)置為0.01。

圖3 不同學(xué)習(xí)率下的能量效率

圖4所示為DNN結(jié)構(gòu)中不同數(shù)量神經(jīng)元的性能。由圖4可知,隨著神經(jīng)元數(shù)量的不斷增加,所有UE的能量效率都逐漸下降。由于數(shù)據(jù)樣本的稀疏性,當(dāng)神經(jīng)元數(shù)量過多時(shí),優(yōu)化問題可能會(huì)導(dǎo)致過度擬合,并增加更多的訓(xùn)練時(shí)間。當(dāng)神經(jīng)元等于第一層的64和256時(shí),兩條曲線的收斂性幾乎相同,而其他情況在收斂性上的表現(xiàn)則較差。因此,將兩個(gè)隱藏層的神經(jīng)元均設(shè)置為64。

圖4 DNN結(jié)構(gòu)的能量效率與神經(jīng)元數(shù)目的關(guān)系

在SINR設(shè)置為γ=-10 dB的情況下,對(duì)多智能體DQN算法的收斂性能進(jìn)行分析,并將其與經(jīng)典Q學(xué)習(xí)框架進(jìn)行對(duì)比分析。圖5所示為對(duì)比分析收斂性結(jié)果圖,由圖可知,Q學(xué)習(xí)的系統(tǒng)能效低于使用多智能體的DQN方法;且隨著事件數(shù)的增加,兩種方案的能量效率均會(huì)逐漸增加并趨于收斂,但多智能體DQN算法在學(xué)習(xí)速度上優(yōu)于Q學(xué)習(xí)方法。對(duì)于Q學(xué)習(xí)方法及多智能體DQN算法,當(dāng)事件數(shù)約等于180時(shí),其系統(tǒng)能量效率改善較低;當(dāng)事件約等于157時(shí),其系統(tǒng)能量效率趨于穩(wěn)定。由此可知,多智能體DQN算法雖開始呈現(xiàn)出發(fā)散性,但隨著事件數(shù)的增加,其不穩(wěn)定程度會(huì)逐漸降低,并最終趨于收斂。因?yàn)橹悄荏w隨機(jī)選擇并將信息存儲(chǔ)到回放內(nèi)存中,經(jīng)過多次迭代,多智能體DQN算法開始從經(jīng)驗(yàn)中學(xué)習(xí),從而提升其穩(wěn)定程度。

圖5 收斂性能

此外,在不同SINR閾值下采用Q學(xué)習(xí)算法和多智能體DQN算法時(shí),模擬所有UE的能量效率。圖6所示為不同K值下能量效率與SINR閾值的關(guān)系圖,由圖可知,隨著UE中SINR閾值的增加,所有UE的能量效率均逐漸降低。因?yàn)橐獙?shí)現(xiàn)較高的SINR,必然會(huì)消耗更多的功率,這將降低所有UE的能效。另外,隨著功率水平的增加,所有UE的能量效率也隨之提高。因?yàn)殡S著功率水平的增加,智能體可以在固定的用戶關(guān)聯(lián)下選擇更合適的傳輸功率,從而提高能量效率。對(duì)于K=1的情況,UE的發(fā)射功率等于最大發(fā)射功率,即PMAX=23 dB。根據(jù)圖6可知,當(dāng)UE的發(fā)射功率最大時(shí),其能量效率最差。

圖6 不同K值下能量效率與SINR閾值的關(guān)系

4.2 能量效率仿真

此外,本文對(duì)不同數(shù)量小型BS的所有用戶設(shè)備的能量效率展開了仿真研究。設(shè)置γ=-10 dB,K=3,仿真結(jié)果如圖7所示。為了評(píng)估多智能體DQN算法的性能,除Q學(xué)習(xí)算法外,本文還選取了其他三種算法進(jìn)行對(duì)比研究,即基于Q學(xué)習(xí)的MTD算法、基于信息傳遞部分(Message Transfer Part,MTP)的UA算法,以及具有MTP的動(dòng)目標(biāo)檢測(cè)(Moving Target Detection,MTD)算法。

圖7 能量效率與小型基站數(shù)量的關(guān)系

對(duì)于具有基于Q學(xué)習(xí)的MTD方案,用戶選擇最小傳輸距離用戶關(guān)聯(lián)方案,并采用基于Q學(xué)習(xí)的功率控制算法。對(duì)于具有MTP方案的UA,用戶采用基于Q學(xué)習(xí)的用戶關(guān)聯(lián)方案,并使用其最大發(fā)送功率進(jìn)行發(fā)送。最后,對(duì)于帶有MTP方案的MTD,用戶選擇最小傳輸距離用戶關(guān)聯(lián)方案,并使用其最大發(fā)射功率進(jìn)行發(fā)射。由仿真結(jié)果可知,隨著小型BS數(shù)量的增加,所有UE的能效將呈現(xiàn)出先增加,然后逐漸降低的現(xiàn)象。

對(duì)于基于Q學(xué)習(xí)的MTD算法,當(dāng)小型BS的數(shù)量較少時(shí),Q學(xué)習(xí)算法的性能表現(xiàn)更好。隨著小型BS數(shù)量的增加,Q學(xué)習(xí)算法的性能將逐漸下降。主要是由于狀態(tài)和動(dòng)作的空間變大,部分狀態(tài)被高估,并且沒有被采樣。因此,在基于OFDMA的異構(gòu)網(wǎng)絡(luò)模型中,小型BS的數(shù)量設(shè)計(jì)至關(guān)重要。

圖8所示為不同數(shù)量的UE下的所有UE的能量效率圖。由圖可知,相較于其他四種方案,多智能體DQN算法在所有UE的能量效率中均獲得了最佳性能。這是因?yàn)榕c基于Q學(xué)習(xí)的MTD算法、基于MTP的UA算法,以及具有MTP的MTD算法相比,多智能體DQN算法不僅優(yōu)化了用戶關(guān)聯(lián),還對(duì)發(fā)射功率進(jìn)行了優(yōu)化。通過使用DNN,多智能體DQN算法可以克服Q學(xué)習(xí)算法的缺點(diǎn)。因此,與Q學(xué)習(xí)算法相比,多智能體DQN算法具有更加優(yōu)越的性能。這是因?yàn)橄到y(tǒng)狀態(tài)和動(dòng)作空間將隨著UE數(shù)量的增加而增加。另外,隨著UE數(shù)量的逐漸增加,所有方案的UE能效性能均會(huì)逐漸下降,是因?yàn)樵礁叩挠脩魯?shù)量將會(huì)引起越嚴(yán)重的干擾。

圖8 能量效率與用戶數(shù)量的關(guān)系

5 結(jié) 論

本文針對(duì)基于OFDMA異構(gòu)網(wǎng)絡(luò)中的用戶關(guān)聯(lián)和功率控制協(xié)同優(yōu)化問題,提出了一種多智能體DQN方法,通過仿真計(jì)算和分析得出以下結(jié)論:

(1)相較于傳統(tǒng)的優(yōu)化算法,多智能體DQN算法所需要的通信信息更少,計(jì)算時(shí)間更短,優(yōu)化效率更高;

(2)相較于傳統(tǒng)的Q學(xué)習(xí)算法,多智能體DQN算法具有更好的收斂性能;

(3)所提方法能夠有效提升UE的服務(wù)質(zhì)量與能效,并可獲得最大的長(zhǎng)期總體網(wǎng)絡(luò)實(shí)用性。

猜你喜歡
異構(gòu)信道關(guān)聯(lián)
試論同課異構(gòu)之“同”與“異”
“一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
overlay SDN實(shí)現(xiàn)異構(gòu)兼容的關(guān)鍵技術(shù)
LTE異構(gòu)網(wǎng)技術(shù)與組網(wǎng)研究
基于導(dǎo)頻的OFDM信道估計(jì)技術(shù)
一種改進(jìn)的基于DFT-MMSE的信道估計(jì)方法
一種改進(jìn)的基于DFT-MMSE的信道估計(jì)方法
基于MED信道選擇和虛擬嵌入塊的YASS改進(jìn)算法
景宁| 克什克腾旗| 龙州县| 金昌市| 资源县| 梓潼县| 郴州市| 柳河县| 兰坪| 石嘴山市| 礼泉县| 秦皇岛市| 临沧市| 沭阳县| 昭通市| 锡林浩特市| 晴隆县| 浪卡子县| 太谷县| 遵义市| 克东县| 高安市| 阳新县| 龙口市| 吉水县| 兖州市| 龙州县| 东至县| 宁晋县| 城固县| 湖北省| 滁州市| 新绛县| 龙陵县| 永丰县| 河北区| 莲花县| 沅陵县| 龙山县| 余干县| 祁东县|