摘 要:隨著5G 移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,為了滿足用戶不斷增長(zhǎng)的流量需求,5G 基站大規(guī)模部署,導(dǎo)致能耗急劇增加。針對(duì)以上問(wèn)題,通過(guò)采用流量預(yù)測(cè)與深度強(qiáng)化學(xué)習(xí)相結(jié)合的方法,建立基站動(dòng)態(tài)開(kāi)關(guān)模型。具體而言,該模型通過(guò)密集卷積神經(jīng)網(wǎng)絡(luò)(Densely Connected Convolutional Networks,DenseNet)對(duì)基站流量進(jìn)行預(yù)測(cè);進(jìn)一步地,基于精確的移動(dòng)流量預(yù)測(cè),將基站開(kāi)關(guān)控制問(wèn)題建模為一個(gè)馬爾科夫決策過(guò)程(Markov Decision Process,MDP),然后通過(guò)強(qiáng)化學(xué)習(xí)方法進(jìn)行求解。此外,強(qiáng)化學(xué)習(xí)的reward 函數(shù)設(shè)計(jì)在優(yōu)化基站開(kāi)關(guān)成本時(shí)綜合考慮了多方面的因素,包括能耗和用戶服務(wù)質(zhì)量(Quality of Service,QoS)下降成本,目標(biāo)是在降低能耗的前提下,最小化長(zhǎng)期的基站能量消耗。最終通過(guò)對(duì)真實(shí)數(shù)據(jù)集的大量實(shí)驗(yàn)驗(yàn)證,提出的模型與當(dāng)前使用的基站常開(kāi)策略相比,能夠節(jié)約37% 的能量消耗,且節(jié)能效果也優(yōu)于傳統(tǒng)啟發(fā)式算法。
關(guān)鍵詞:基站;蜂窩網(wǎng)絡(luò);動(dòng)態(tài)開(kāi)關(guān);流量預(yù)測(cè);深度Q 網(wǎng)絡(luò)
中圖分類號(hào):TN92 文獻(xiàn)標(biāo)志碼:A 開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
文章編號(hào):1003-3114(2024)04-0815-08
0 引言
隨著5G 移動(dòng)互聯(lián)網(wǎng)的高速發(fā)展,移動(dòng)流量呈現(xiàn)爆炸式增長(zhǎng),大規(guī)?;静渴鸷透哓?fù)荷運(yùn)行導(dǎo)致了大量的能源需求,進(jìn)而引發(fā)了對(duì)能源效率和環(huán)境保護(hù)的迫切關(guān)注。在這樣的背景下,基站節(jié)能成為一項(xiàng)緊迫而重要的任務(wù),需要尋找創(chuàng)新的解決方案,以平衡通信技術(shù)的發(fā)展與能源可持續(xù)利用之間的關(guān)系。然而,傳統(tǒng)的基站節(jié)能方案往往基于以往的經(jīng)驗(yàn)和靜態(tài)數(shù)據(jù),無(wú)法充分利用網(wǎng)絡(luò)中歷史數(shù)據(jù)的特征和規(guī)律,也難以適應(yīng)動(dòng)態(tài)變化的通信負(fù)載和網(wǎng)絡(luò)環(huán)境。另外,現(xiàn)有的算法與策略大多建立在已知的規(guī)則或數(shù)學(xué)模型上,在實(shí)際應(yīng)用中具有較大的局限性。然而,實(shí)際應(yīng)用中,由于實(shí)際網(wǎng)絡(luò)環(huán)境的復(fù)雜性,使得對(duì)其進(jìn)行精確建模變得十分困難。
為了解決上述問(wèn)題,本文通過(guò)流量預(yù)測(cè)幫助基站更精準(zhǔn)地預(yù)測(cè)通信流量負(fù)載,從而在開(kāi)關(guān)決策中更好地平衡能源消耗和網(wǎng)絡(luò)性能,提高通信效率和用戶體驗(yàn)。通過(guò)采用強(qiáng)化學(xué)習(xí)的方法來(lái)適應(yīng)復(fù)雜的網(wǎng)絡(luò)環(huán)境,減少對(duì)問(wèn)題的不必要假設(shè)。
本文的主要貢獻(xiàn)如下
① 針對(duì)蜂窩網(wǎng)絡(luò)的基站開(kāi)關(guān)管理問(wèn)題進(jìn)行了全面的建模,將基站開(kāi)關(guān)控制問(wèn)題建模為一個(gè)馬爾科夫決策過(guò)程(Markov Decision Process,MDP),并采用深度Q 網(wǎng)絡(luò)(Deep Q-Network,DQN)算法求解該問(wèn)題。
② 針對(duì)單智能體在面對(duì)高維度的動(dòng)作空間時(shí)算法很難收斂,采用深度確定性策略梯度(Deep De-terministic Policy Gradient,DDPG)算法求解基站開(kāi)關(guān)問(wèn)題時(shí)又不利于動(dòng)作的探索,很容易陷入局部最優(yōu)的問(wèn)題,使用多個(gè)并行的DQN(Multi-DQN)算法求解基站開(kāi)關(guān)問(wèn)題。該算法可以提高學(xué)習(xí)模型的收斂速度,增加探索動(dòng)作空間和策略的多樣性。
③ 在強(qiáng)化學(xué)習(xí)的reward 函數(shù)設(shè)計(jì)中綜合考慮了蜂窩網(wǎng)絡(luò)的開(kāi)銷問(wèn)題,以相對(duì)更為準(zhǔn)確地度量基站動(dòng)態(tài)開(kāi)關(guān)策略的優(yōu)劣程度。其中,蜂窩網(wǎng)絡(luò)的總能耗是主要的開(kāi)銷部分。此外,也考慮了由于基站開(kāi)關(guān)狀態(tài)的切換帶來(lái)的開(kāi)銷問(wèn)題。
④ 使用北京市某區(qū)域的真實(shí)數(shù)據(jù)集進(jìn)行了大量的實(shí)驗(yàn),提出的模型與當(dāng)前廣泛使用的基站常開(kāi)策略相比,能夠節(jié)約37% 的能量消耗,且節(jié)能效果也優(yōu)于傳統(tǒng)啟發(fā)式算法。
1 相關(guān)研究
隨著5G 網(wǎng)絡(luò)的快速發(fā)展以及基站的大規(guī)模部署,基站的能源消耗已經(jīng)成為一個(gè)重要的關(guān)注點(diǎn),當(dāng)前已經(jīng)涌現(xiàn)了不少關(guān)于基站節(jié)能的相關(guān)研究。
文獻(xiàn)[1]基于白天和夜間移動(dòng)網(wǎng)絡(luò)負(fù)荷的變化,在夜晚移動(dòng)負(fù)載較低的時(shí)候,將一些不必要開(kāi)啟的基站關(guān)掉,把連接的用戶轉(zhuǎn)移到其他基站。文獻(xiàn)[2]提出了一種基于集合覆蓋的基站動(dòng)態(tài)關(guān)斷策略。文獻(xiàn)[3]則提出了基于頻譜效率的基站動(dòng)態(tài)關(guān)斷策略。文獻(xiàn)[4]通過(guò)改進(jìn)Affinity Propagation 聚類算法對(duì)基站日負(fù)荷曲線進(jìn)行自適應(yīng)聚類,并進(jìn)一步挖掘分析周效應(yīng)下的日潮汐現(xiàn)象和汐節(jié)能時(shí)段。
此外,目前已有不少研究通過(guò)建立基站休眠與資源分配的優(yōu)化問(wèn)題,使用啟發(fā)式算法迭代求解。文獻(xiàn)[5]基于最小化系統(tǒng)能耗和提高系統(tǒng)狀態(tài)穩(wěn)定性,建立了雙目標(biāo)優(yōu)化問(wèn)題,提出了求解雙目標(biāo)優(yōu)化問(wèn)題的快速窮舉算法(Centralized Sleeping Schemefor a Fast Exhaustive Algorithm,CSS-E)和低復(fù)雜度的改進(jìn)粒子群算法(Centralized Sleeping Scheme for aModified Particle Swarm Optimizationin,CSS-PSO)。文獻(xiàn)[6]則針對(duì)尋找休眠模式(Sleep Mode,SLM)下運(yùn)行的最優(yōu)的活躍基站集合的多目標(biāo)優(yōu)化問(wèn)題,使用遺傳算法以實(shí)現(xiàn)快速收斂率并獲得最佳解決方案。
上述研究都是基于傳統(tǒng)的同構(gòu)網(wǎng)絡(luò)的基站休眠技術(shù)。為應(yīng)對(duì)日益增長(zhǎng)的無(wú)線通信流量和用戶的高速率需求,引入多個(gè)小基站組成異構(gòu)蜂窩網(wǎng)絡(luò),以克服傳統(tǒng)同構(gòu)網(wǎng)絡(luò)在容量和覆蓋方面的限制。文獻(xiàn)[7]研究了在一種多小基站共存的異構(gòu)無(wú)線蜂窩網(wǎng)絡(luò)場(chǎng)景下,通過(guò)優(yōu)化小型基站的傳輸功率和激活/停用(動(dòng)態(tài)休眠)來(lái)研究電網(wǎng)能量最小化問(wèn)題。文獻(xiàn)[8]研究了接入飛蜂窩網(wǎng)絡(luò)的能源效率問(wèn)題,聯(lián)合優(yōu)化毫微微基站的操作模式(如活躍或睡眠)以及用戶與活躍基站之間的關(guān)聯(lián)的方案。
上述研究都是基于集中式的方法,無(wú)法適應(yīng)5G密集部署的場(chǎng)景下海量基站的動(dòng)態(tài)關(guān)斷需求。在基站開(kāi)關(guān)狀態(tài)切換過(guò)程中,為了降低由于切換帶來(lái)的通信開(kāi)銷,有必要設(shè)計(jì)對(duì)分布式基站進(jìn)行動(dòng)態(tài)開(kāi)關(guān)控制的算法。文獻(xiàn)[9]提出了一種提高綠色蜂窩網(wǎng)絡(luò)能源效率的分布式合作框架。文獻(xiàn)[10]研究了自適應(yīng)小區(qū)縮放方案,應(yīng)用博弈論優(yōu)化小區(qū)縮放因子(Cell Zooming Factor,CZF)。
上述研究提到的博弈論等分布式方法在基站節(jié)能中可能存在一些局限性,如假設(shè)與實(shí)際網(wǎng)絡(luò)環(huán)境可能不符或最優(yōu)策略具有不確定性。可以通過(guò)機(jī)器學(xué)習(xí)對(duì)實(shí)際業(yè)務(wù)量進(jìn)行預(yù)測(cè),進(jìn)而制定針對(duì)性的基站休眠策略。文獻(xiàn)[11]提出了一種基于無(wú)線流量預(yù)測(cè)模型的智能數(shù)據(jù)驅(qū)動(dòng)的基站休眠機(jī)制。文獻(xiàn)[12]提出一種基于深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)基站休眠操作方法:Deepnap。文獻(xiàn)[13]采用深度強(qiáng)化學(xué)習(xí)方法對(duì)用戶分布、通信需求等進(jìn)行自我學(xué)習(xí),從而推測(cè)出基站的負(fù)載變化規(guī)律,進(jìn)而對(duì)基站采取一系列節(jié)能措施。文獻(xiàn)[14]設(shè)計(jì)了一個(gè)基于基站狀態(tài)切換操作的強(qiáng)化學(xué)習(xí)框架方案。此外,為了加快訓(xùn)練過(guò)程,提出了一種遷移參與者批評(píng)算法。文獻(xiàn)[15]提出了一種基于深度強(qiáng)化學(xué)習(xí)的基站休眠控制算法。
以上研究在基站節(jié)能方面都取得了一定的成果,本文在前期研究基礎(chǔ)上,構(gòu)建基于流量預(yù)測(cè)與深度強(qiáng)化學(xué)習(xí)的基站動(dòng)態(tài)開(kāi)關(guān)模型。流量預(yù)測(cè)可以為未來(lái)時(shí)刻的基站開(kāi)關(guān)決策提供有力的數(shù)據(jù)支撐,同時(shí)結(jié)合深度強(qiáng)化學(xué)習(xí)算法來(lái)求解基站動(dòng)態(tài)開(kāi)關(guān)問(wèn)題,從而達(dá)到使基站的長(zhǎng)期能耗最小的目的。
2 系統(tǒng)模型
本節(jié)將從網(wǎng)絡(luò)模型、基站成本模型等方面來(lái)描述基站成本問(wèn)題。
2. 1 網(wǎng)絡(luò)模型
蜂窩網(wǎng)絡(luò)通常由多個(gè)基站組成來(lái)處理移動(dòng)業(yè)務(wù)負(fù)載。本文考慮一個(gè)由一組基站服務(wù)用戶的蜂窩網(wǎng)絡(luò),其中所述基站和用戶的集合可以分別表示為={1,2,…,N}, = {1,2,…,K}。在地理區(qū)域上,每個(gè)基站在各自的覆蓋范圍內(nèi)(例如3×3 柵格),基站之間也可能存在重疊覆蓋問(wèn)題。由于移動(dòng)流量具有時(shí)變性,很多基站大部分時(shí)間都沒(méi)有得到充分的利用,造成了巨大的資源浪費(fèi)和嚴(yán)重的能效問(wèn)題。所以需要對(duì)基站的開(kāi)關(guān)策略進(jìn)行動(dòng)態(tài)調(diào)整,以適應(yīng)不同的流量需求。
本文的主要變量及其含義如表1 所示。
2. 2 基站成本模型
基站成本主要分為兩部分:能耗成本、用戶服務(wù)質(zhì)量(Quality of Service,QoS)下降成本。
① 能耗成本。在蜂窩網(wǎng)絡(luò)中,基站的能耗不是簡(jiǎn)單地與其覆蓋范圍內(nèi)的流量負(fù)載成正比[16]。一般來(lái)說(shuō),基站的能耗可以總結(jié)為兩種:一種是固定的能量消耗,不依賴于基站的移動(dòng)流量負(fù)載,主要來(lái)源于電路損耗和散熱損耗;另一種是與功率放大器等組件相關(guān)的傳輸能耗,與流量負(fù)載存在非線性關(guān)系。為此,本文提出了一種通用的能耗模型,一個(gè)基站在t 時(shí)刻一個(gè)小時(shí)內(nèi)的能耗可以概括為[17]:
pti=Pfi+Pli, (1)
式中:Pfi為基站的固定能耗;Pli為基站的傳輸能耗,與流量負(fù)載成非線性相關(guān)。
② QoS 下降成本。為了保證QoS,本文考慮了基站關(guān)斷可能導(dǎo)致用戶需要重新選擇基站進(jìn)行連接的情況。該情況會(huì)降低QoS,產(chǎn)生用戶服務(wù)延遲的成本。本文將其定義為用戶進(jìn)行基站重選后翻轉(zhuǎn)的流量與用戶重新連接到開(kāi)啟狀態(tài)的基站的下行速率之比,具體表述為:
式中:小區(qū)重選后翻轉(zhuǎn)的用戶流量指重新選擇開(kāi)啟狀態(tài)基站的用戶k(即更換所關(guān)聯(lián)基站的用戶)的流量,即ρtk; tres 表示在t 時(shí)刻基站重選的用戶集合,可以采用K-最近鄰(KNearest Neighbor,KNN)算法為失去基站連接的用戶搜索最近鄰的可連接基站得到;rtn,k 表示在t 時(shí)刻基站n 到用戶k 的下行速率,該速率可以用香農(nóng)公式計(jì)算:
rtn,k =btn,k lb(1+SNRtn,k), (3)
式中:btn,k 表示在t 時(shí)刻基站n 分配給用戶k 的帶寬資源,SNRtn,k 表示在t 時(shí)刻基站n 到用戶k 的信噪比,SNRtn,k =ptn,khtn,k/N0,ptn,k 為基站n 分配給用戶k 的功率資源,htn,k 為基站n 與用戶k 之間的信道增益,N0為功率譜密度。
通過(guò)綜合考慮以上因素,本文的系統(tǒng)模型旨在實(shí)現(xiàn)多目標(biāo)優(yōu)化,即在最小化能耗的同時(shí),確保用戶的通信服務(wù)質(zhì)量得到保障。
3 基于流量預(yù)測(cè)的深度強(qiáng)化學(xué)習(xí)的基站動(dòng)態(tài)開(kāi)關(guān)算法
本節(jié)詳細(xì)介紹了基于密集卷積神經(jīng)網(wǎng)絡(luò)(Densely Connected Convolutional Networks,DenseNet)的Multi-DQN 基站動(dòng)態(tài)開(kāi)關(guān)框架,并對(duì)流量預(yù)測(cè)、強(qiáng)化學(xué)習(xí)MDP 環(huán)境建模以及Multi-DQN 訓(xùn)練過(guò)程分別展開(kāi)了描述。
3. 1 基于DenseNet 的Multi-DQN 基站動(dòng)態(tài)開(kāi)關(guān)框架
系統(tǒng)框架由基站休眠與用戶重連模塊、流量預(yù)測(cè)模塊和Multi-DQN 訓(xùn)練模塊三個(gè)模塊組成。該框架的工作流程描述如下。
① 基站休眠與用戶重新連接:當(dāng)網(wǎng)絡(luò)負(fù)載較小時(shí),為了降低能耗并提高網(wǎng)絡(luò)效率,一些基站可能會(huì)進(jìn)入休眠狀態(tài),減少不必要的能耗。此時(shí)用戶需要重新選擇基站進(jìn)行連接,以獲得穩(wěn)定的通信服務(wù)。
② DenseNet 模型預(yù)測(cè)流量:基于當(dāng)前的基站開(kāi)關(guān)狀態(tài),本文利用DenseNet 模型,基于歷史流量數(shù)據(jù)預(yù)測(cè)基站在未來(lái)一段時(shí)間內(nèi)的網(wǎng)絡(luò)流量情況得到預(yù)測(cè)結(jié)果。預(yù)測(cè)模型的輸出流量結(jié)果會(huì)被傳遞給強(qiáng)化學(xué)習(xí)模塊。
③ Multi-DQN 訓(xùn)練:由于基站數(shù)量過(guò)多,單智能體在面對(duì)高維度的動(dòng)作空間時(shí),算法很難收斂;而且單個(gè)智能體在信息的獲取能力、處理能力、控制能力等方面有限,對(duì)于復(fù)雜的工作任務(wù)及多變的工作環(huán)境,單智能體能力明顯不足。如果采用DDPG 求解基站動(dòng)態(tài)開(kāi)關(guān)問(wèn)題,由于初始策略通常固定,在探索高維度的連續(xù)動(dòng)作空間時(shí)很有可能陷入局部最優(yōu)解,無(wú)法跳出。因此,本文的強(qiáng)化學(xué)習(xí)模塊采用Multi-DQN 算法,該算法中多個(gè)DQN 并行訓(xùn)練可以同時(shí)學(xué)習(xí),模型訓(xùn)練速度得到大幅度提升;而且多個(gè)DQN 代理(agent)可以獨(dú)立地探索不同的策略和動(dòng)作選擇,進(jìn)一步增加了探索的多樣性。這樣有助于避免陷入局部最優(yōu)解,提高代理找到全局最優(yōu)策略的概率。
該強(qiáng)化學(xué)習(xí)模塊基于基站流量負(fù)載變化、用戶體驗(yàn)指標(biāo)(如速率、時(shí)延),旨在自主學(xué)習(xí)得到最優(yōu)的基站動(dòng)態(tài)開(kāi)關(guān)策略。
④ 動(dòng)態(tài)基站開(kāi)關(guān)策略生成:經(jīng)過(guò)訓(xùn)練,Multi-DQN 將產(chǎn)生一個(gè)動(dòng)態(tài)的基站開(kāi)關(guān)策略。代理可以根據(jù)當(dāng)前的網(wǎng)絡(luò)環(huán)境和狀態(tài),自主地選擇基站的開(kāi)關(guān)狀態(tài),從而進(jìn)一步提升網(wǎng)絡(luò)性能和用戶體驗(yàn)。
上述內(nèi)容的具體細(xì)節(jié)如圖1 所示。綜上所述,移動(dòng)通信網(wǎng)絡(luò)能夠在基站休眠與用戶重新連接的過(guò)程中,通過(guò)流量預(yù)測(cè)和強(qiáng)化學(xué)習(xí)等方法的協(xié)同作用,實(shí)現(xiàn)基站開(kāi)關(guān)策略的智能優(yōu)化。這一框架不僅有助于提升網(wǎng)絡(luò)效率和性能,也為用戶提供了更穩(wěn)定和流暢的通信體驗(yàn)。
3. 2 流量預(yù)測(cè)
本文的流量預(yù)測(cè)模型DenseNet 用滑動(dòng)窗口的方式對(duì)數(shù)據(jù)集進(jìn)行抽取,由于所選用數(shù)據(jù)集可以看作二維空間的流量分布隨時(shí)間的變化,具有視頻流的特征,因此針對(duì)影響三種時(shí)間依賴性的歷史數(shù)據(jù)采用不同長(zhǎng)度的幀數(shù)來(lái)采集構(gòu)建,并分為三部分輸入到不同的分模塊中進(jìn)行訓(xùn)練,從而捕捉三種時(shí)間依賴性。輸入數(shù)據(jù)前先經(jīng)過(guò)Min-Max 歸一化處理,以提高模型訓(xùn)練時(shí)的收斂速度。進(jìn)入分模塊后經(jīng)過(guò)主要由堆疊的DenseLayer 組成的DenseUnit 來(lái)進(jìn)行空間依賴的捕捉,并將分模塊學(xué)習(xí)的特征通過(guò)參數(shù)矩陣融合的方式結(jié)合起來(lái)。
流量的周期性、臨近性、趨勢(shì)性等特征會(huì)對(duì)最后的預(yù)測(cè)結(jié)果產(chǎn)生不同的影響。本文通過(guò)參數(shù)矩陣的融合,將不同時(shí)間特征的強(qiáng)度體現(xiàn)在不同權(quán)重上,并將其分別表示為Wp1、Wp2、Wc 和Wt。在訓(xùn)練階段,將學(xué)習(xí)參數(shù)轉(zhuǎn)化為與輸入的特征形式相同的張量,這樣就可以進(jìn)一步做哈達(dá)瑪?shù)某朔ㄟ\(yùn)算,從而可以獲得矩陣融合的輸出,即時(shí)空模塊的輸出。記為XT [18]:
XT =Wp1 。X7p1 +Wp2 。X7p2 +Wc 。X7c+Wt 。X7t, (4)
式中:表示哈達(dá)瑪乘積,將學(xué)習(xí)參數(shù)矩陣與特征輸出矩陣的位置一一對(duì)應(yīng)然后分別相乘,最后將三個(gè)特征相加,從而獲得預(yù)測(cè)特征的結(jié)果。經(jīng)過(guò)神經(jīng)網(wǎng)絡(luò)的迭代訓(xùn)練,不斷計(jì)算梯度和更新權(quán)重,最后得出模型t 時(shí)刻的預(yù)測(cè)輸出:
︿Yt =σ XT, (5)
式中:σ(·)表示Sigmoid 激活函數(shù)。從預(yù)測(cè)值和真實(shí)值的對(duì)比結(jié)果來(lái)看,可以通過(guò)均方根誤差(RootMean Square Error,RMSE)表達(dá)該損失函數(shù),并在訓(xùn)練期間對(duì)該模型進(jìn)行參數(shù)更新:
L(μ)=|| Yt -Yt︿|| 2, (6)
式中:μ 表示一組可以使得模型最終訓(xùn)練得到的損失函數(shù)取最小值的參數(shù),Yt 表示真實(shí)值,當(dāng)損耗函數(shù)取最小值時(shí),加權(quán)參數(shù)也分別對(duì)應(yīng)最優(yōu)值。
3. 3 強(qiáng)化學(xué)習(xí)MDP 環(huán)境建模
本文的主要研究目標(biāo)是找到最優(yōu)的基站開(kāi)關(guān)策略,以最大限度降低系統(tǒng)的長(zhǎng)期總成本。將基站成本優(yōu)化問(wèn)題建模為一個(gè)MDP,并將其表示為一個(gè)元組M=〈S,A ,R ,S′,γ〉。其中,S為狀態(tài)空間,A 為動(dòng)作空間,R 為獎(jiǎng)勵(lì)函數(shù),S′為下一時(shí)刻的狀態(tài),γ∈[0,1]為折扣因子。MDP 的設(shè)計(jì)過(guò)程按以下步驟進(jìn)行:
① 狀態(tài)(state):系統(tǒng)狀態(tài)是由在當(dāng)前時(shí)刻t 所有用戶的流量負(fù)載ρtk 組成。但是,當(dāng)基站要進(jìn)行活躍/睡眠模式操作時(shí),在時(shí)段t 開(kāi)始時(shí),流量ρtk 不可用。因此,利用流量預(yù)測(cè)模型訓(xùn)練得到的預(yù)測(cè)結(jié)果ρtk ~,將狀態(tài)表示為st ={ρtk ~}。
② 動(dòng)作(action):動(dòng)作at 是決定所有基站在t時(shí)刻的工作模式,其中:
③ 獎(jiǎng)勵(lì)函數(shù)(Reward):為了評(píng)估當(dāng)前的基站開(kāi)關(guān)策略,將在狀態(tài)s 下采取動(dòng)作a 獲得的瞬時(shí)獎(jiǎng)勵(lì)作為判斷依據(jù)。系統(tǒng)在一個(gè)小時(shí)內(nèi)的獎(jiǎng)勵(lì)由所有基站的能耗和用戶QoS 下降成本組成。獎(jiǎng)勵(lì)函數(shù)如式(8)所示:
3. 4 Multi-DQN 訓(xùn)練過(guò)程
為了提高強(qiáng)化學(xué)習(xí)模型的訓(xùn)練速度,進(jìn)一步提升基站動(dòng)態(tài)開(kāi)關(guān)模型的性能,采用Multi-DQN 算法求解基站動(dòng)態(tài)開(kāi)關(guān)問(wèn)題。完整的Multi-DQN 訓(xùn)練過(guò)程如算法1 所示。
在每一步訓(xùn)練過(guò)程中,蜂窩網(wǎng)絡(luò)都會(huì)向Q 網(wǎng)絡(luò)發(fā)送當(dāng)前所有用戶的移動(dòng)流量狀態(tài)。由此,得到在該狀態(tài)下的全部基站進(jìn)行開(kāi)關(guān)切換所對(duì)應(yīng)的Q 值。算法第6 行說(shuō)明多個(gè)DQN 在并行訓(xùn)練;第7 行~15 行是基于ε-greedy 算法對(duì)單個(gè)DQN 進(jìn)行判定的步驟。具體來(lái)說(shuō)就是,當(dāng)隨機(jī)數(shù)小于ε 時(shí),會(huì)隨機(jī)生成一個(gè)[0,1]的數(shù)字。假設(shè)該數(shù)值小于ε,該步驟將采取具有最大Q 值的動(dòng)作進(jìn)行操作,否則將隨機(jī)采取一個(gè)動(dòng)作?;鹃_(kāi)關(guān)狀態(tài)發(fā)生變化以后,蜂窩網(wǎng)絡(luò)將基于能耗、QoS 下降成本的獎(jiǎng)勵(lì)反饋給DQN 代理,并進(jìn)入到新的狀態(tài),產(chǎn)生一條數(shù)據(jù)保存到經(jīng)驗(yàn)回放緩沖區(qū)。在該算法中,第11 行~13 行為DQN 的Q網(wǎng)絡(luò)參數(shù)更新過(guò)程,它通過(guò)對(duì)少量采樣數(shù)據(jù)的丟失進(jìn)行計(jì)算,并通過(guò)梯度下降來(lái)調(diào)節(jié)神經(jīng)網(wǎng)絡(luò)的參數(shù)θ。第14 行為Q 目標(biāo)網(wǎng)絡(luò)和Q 網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)的參數(shù)以C 為間隔進(jìn)行同步的過(guò)程。
4 模型性能分析
本節(jié)主要包括三部分:數(shù)據(jù)集描述、參數(shù)設(shè)置及實(shí)驗(yàn)環(huán)境、模型性能。
4. 1 數(shù)據(jù)集描述
本文所用數(shù)據(jù)為某區(qū)域4G 流量數(shù)據(jù),對(duì)每小時(shí)空口總流量(單位為GB)進(jìn)行分析處理。數(shù)據(jù)集分為兩部分,其中2021 年11 月19 日—2021 年12 月18 日每小時(shí)測(cè)得的數(shù)據(jù)(共720 條)為訓(xùn)練集,2021 年12 月19 日每小時(shí)測(cè)得的數(shù)據(jù)(共24 條)為測(cè)試集。
4. 2 參數(shù)設(shè)置及實(shí)驗(yàn)環(huán)境
本文首先將3×3 個(gè)柵格劃分為一個(gè)區(qū)域,整個(gè)區(qū)域被分為4 個(gè)子區(qū)域,每個(gè)子區(qū)域都有一個(gè)DQN代理獨(dú)立地控制基站的開(kāi)關(guān)狀態(tài)。然后,將每個(gè)柵格劃分為100 個(gè)50 m×50 m 的小柵格。本文采用KNN 算法將每個(gè)小柵格關(guān)聯(lián)到距離最近的基站,以小時(shí)為單位,將基站流量均分到所有關(guān)聯(lián)的小柵格。最后統(tǒng)計(jì)每個(gè)柵格所有小柵格的流量和,作為該柵格的流量。
實(shí)驗(yàn)環(huán)境的硬件配置為:Intel(R)Core(TM)i9-10940X CPU @ 3. 30 GHz,GPU RTX3090,24 GB 顯存;軟件配置為:Python3. 8,pytorch2. 0. 1+CUDA11. 7CUDNN 8. 2. 4;CPU 內(nèi)存128 GB。
4. 3 模型性能
本小節(jié)主要分為流量預(yù)測(cè)和強(qiáng)化學(xué)習(xí)兩部分。
4. 3. 1 流量預(yù)測(cè)性能
① 基于DenseNet 的基站流量預(yù)測(cè)值和真實(shí)值對(duì)比(某一個(gè)區(qū)域29 個(gè)基站下平均效果)如圖2 所示,可以看出,DenseNet 模型在整體預(yù)測(cè)性能上表現(xiàn)良好,但是,在網(wǎng)絡(luò)流量高峰時(shí)刻,模型的預(yù)測(cè)結(jié)果(densenet_result)出現(xiàn)了一些與真實(shí)值(ground_truth)略微不一致的情況。這可能是由于模型在高峰時(shí)刻的數(shù)據(jù)特性、復(fù)雜性或非線性動(dòng)態(tài)變化方面存在一定的挑戰(zhàn),導(dǎo)致預(yù)測(cè)精度在此時(shí)段稍有波動(dòng)。
② 某一個(gè)區(qū)域29 個(gè)基站下平均預(yù)測(cè)效果DenseNet 與其他算法對(duì)比結(jié)果如表2 所示。此次實(shí)驗(yàn)以均方誤差(Mean Square Error,MSE)作為評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)結(jié)果表明,Holt-winter 模型[19]得到的MSE為6. 844 5,表現(xiàn)最差;其次是LSTM[20]和ARIMA[21]模型,MSE 分別為5. 760 5 和3. 538 1;而XGBoost[22]模型和DenseNet 模型的表現(xiàn)最好,其中DenseNet 模型以1. 821 2 的MSE 表現(xiàn)最為出色,XGboost 模型的MSE 為2. 251 8,表現(xiàn)次之。
在此次實(shí)驗(yàn)中,XGBoost 和DenseNet 在流量預(yù)測(cè)任務(wù)中具有較好的性能,可能的原因在于這兩種模型均具有較強(qiáng)的特征學(xué)習(xí)和抽象能力,能夠有效地捕捉到數(shù)據(jù)中的復(fù)雜模式和關(guān)聯(lián)關(guān)系。與之相比,ARIMA 和Holt-winters 是傳統(tǒng)的時(shí)間序列模型,通常對(duì)于復(fù)雜的時(shí)間序列模式表現(xiàn)較差。
4. 3. 2 強(qiáng)化學(xué)習(xí)性能
① 本文選取了市區(qū)內(nèi)高校區(qū)、居民區(qū)和商業(yè)區(qū)三個(gè)區(qū)域作為實(shí)驗(yàn)場(chǎng)景,模型訓(xùn)練結(jié)果曲線如圖3所示。三個(gè)不同的區(qū)域都隨著訓(xùn)練輪次的增加,模型收斂至穩(wěn)定。其中,居民區(qū)的收斂趨勢(shì)最快,在第150 輪次就逐漸開(kāi)始收斂。由于居民區(qū)相對(duì)于高校區(qū)和商業(yè)區(qū)來(lái)說(shuō),網(wǎng)絡(luò)環(huán)境通常更簡(jiǎn)單,具有較低的復(fù)雜性。這種低復(fù)雜性使得強(qiáng)化學(xué)習(xí)智能體更容易學(xué)習(xí)和優(yōu)化基站的開(kāi)關(guān)策略,因此,學(xué)習(xí)模型的收斂速度相對(duì)而言會(huì)更快。
② Multi-DQN 與其他算法在某一個(gè)區(qū)域29 個(gè)基站的平均節(jié)能效果對(duì)比結(jié)果如表3 所示。
從對(duì)比結(jié)果來(lái)看,與啟發(fā)式算法和Multi-DQN算法相比,基站全開(kāi)策略最不理想,能耗最大,大約為11 578 W;啟發(fā)式算法與Multi-DQN 算法的能耗結(jié)果分別為7 243 W 和7 165 W,因此,Multi-DQN算法比啟發(fā)式算法節(jié)能效果更好。Multi-DQN 相對(duì)于啟發(fā)式算法在節(jié)能方面的優(yōu)勢(shì)在于其能夠進(jìn)行全局優(yōu)化,具有自適應(yīng)性和學(xué)習(xí)能力;同時(shí),其并行化訓(xùn)練和廣泛的策略空間探索使其能夠更有效地發(fā)現(xiàn)并優(yōu)化節(jié)能策略,為復(fù)雜的節(jié)能問(wèn)題提供了更為有效的解決方案。而啟發(fā)式算法通常以簡(jiǎn)單規(guī)則或既往經(jīng)驗(yàn)為基礎(chǔ),性能受限于搜索空間的局部最優(yōu)解問(wèn)題,可能無(wú)法提供足夠準(zhǔn)確的解決方案,尤其在復(fù)雜、不確定性高的情況下,算法表現(xiàn)可能不穩(wěn)定且難以調(diào)優(yōu)。
總的來(lái)說(shuō),Multi-DQN 算法相對(duì)基站全開(kāi)策略和啟發(fā)式算法而言,效果比較好。該算法與當(dāng)前使用的基站常開(kāi)策略相比,能夠節(jié)約37% 的能量消耗,且優(yōu)于傳統(tǒng)啟發(fā)式算法。
5 結(jié)束語(yǔ)
本文提出了一種基于流量預(yù)測(cè)的Multi-DQN 基站動(dòng)態(tài)開(kāi)關(guān)模型,用于蜂窩網(wǎng)絡(luò)的節(jié)能。利用DenseNet 預(yù)測(cè)移動(dòng)流量,而后,基于精確的移動(dòng)流量預(yù)測(cè),將基站開(kāi)關(guān)控制問(wèn)題建模為一個(gè)MDP 過(guò)程,以考慮用戶QoS 下降成本來(lái)最小化長(zhǎng)期的能量消耗。為了解決MDP 問(wèn)題,本文采用了Multi-DQN深度強(qiáng)化學(xué)習(xí)方法求解。最后,通過(guò)對(duì)真實(shí)區(qū)域數(shù)據(jù)集的大量實(shí)驗(yàn),證明了所提模型的有效性。本文的主要研究目標(biāo)在于通過(guò)一系列的創(chuàng)新性工作,降低基站的能源消耗,以實(shí)現(xiàn)通信基站節(jié)能的目標(biāo)。
參考文獻(xiàn)
[1] MARSAN M A,CHIARAVIGLIO L,CIULLO D,et al. Optimal Energy Savings in Cellular Access Networks[C]∥2009 IEEE International Conference on CommunicationsWorkshops. Dresden:IEEE,2009:1-5.
[2] BEITELMAL T,YANIKOMEROGLU H. A Set CoverBased Algorithm for Cell Switchoff with Different CellSorting Criteria[C]∥2014 IEEE International Conferenceon Communications Workshops (ICC). Sydney:IEEE,2014:641-646.
[3] GONG J,ZHOU S,YANG Z X,et al. Green MobileAccess Network with Dynamic Base Station Energy Saving[J]. Ice Technical Report Internet Architecture,2009,109(262):25-29.
[4] 鄭佳歡,向勇. 基于個(gè)性化場(chǎng)景的5G 基站節(jié)能方法[J]. 移動(dòng)通信,2021,45(3):91-96.
[5] LIU C,WAN Y,TIAN L,et al. Base Station SleepingControl with Energystability Tradeoff in Centralized RadioAccess Networks[C]∥2015 IEEE Global CommunicationsConference(GLOBECOM). San Diego:IEEE,2015:1-6.
[6] CHANDHAR P,DAS S S. Energy Saving in OFDMA Cellular Networks with Multiobjective Optimization [C]∥2014 IEEE International Conference on Communications(ICC). Sydney:IEEE,2014:3951-3956.
[7] ALQASIR A M,KAMAL A E. Cooperative Small CellHetNets with Dynamic Sleeping and Energy Harvesting[J]. IEEE Transactions on Green Communications andNetworking,2020,4(3):774-782.
[8] KIM J,JEON W S,JEONG D G. Basestation Sleep Management in Openaccess Femtocell Networks[J]. IEEE Transactions on Vehicular Technology,2016,65(5):3786-3791.
[9] ZHENG J C,CAI Y M,CHEN X F,et al. Optimal BaseStation Sleeping in Green Cellular Networks:A DistributedCooperative Framework Based on Game Theory[J]. IEEETransactions on Wireless Communications,2015,14(8):4391-4406.
[10]XU X D,YUAN C J,CHEN W W,et al. Adaptive Cell Zooming and Sleeping for Green Heterogeneous UltradenseNetworks[J]. IEEE Transactions on Vehicular Technology,2018,67(2):1612-1621.
[11]LIN J S,CHEN Y J,ZHENG H F,et al. A DatadrivenBase Station Sleeping Strategy Based on Traffic Prediction[J/ OL]. IEEE Transactions on Network Science and Engineering(2021-09-02)[2024-02-10]. https:∥ieeexplore. ieee. org/ document/9528008.
[12]LIU J C,KRISHNAMACHARI B,ZHOU S,et al.DeepNap:Datadriven Base Station Sleeping OperationsThrough Deep Reinforcement Learning[J]. IEEE Internetof Things Journal,2018,5(6):4273-4282.
[13]曾德澤,李躍鵬,趙宇陽(yáng),等. 基于強(qiáng)化學(xué)習(xí)的高能效基站動(dòng)態(tài)調(diào)度方法[J]. 計(jì)算機(jī)科學(xué),2021,48(11):363-371.
[14]LI R P,ZHAO Z F,CHEN X F,et al. TACT:A TransferActorcritic Learning Framework for Energy Saving in Cellular Radio Access Networks[J]. IEEE Transactions onWireless Communications,2014,13(4):2000-2011.
[15]楊馥瑜,趙東. 基于深度強(qiáng)化學(xué)習(xí)的基站休眠控制算法[EB/ OL]. (2015-02-10)[2024-02-10]. https:∥www. paper. edu. cn/ releasepaper/ content/202302-58.
[16]LI R P,ZHAO Z F,WEI Y,et al. GMPAB:A GridbasedEnergy Saving Scheme with Predicted Traffic Load Guidance for Cellular Networks[C]∥2012 IEEE InternationalConference on Communications (ICC). Ottawa:IEEE,2012:1160-1164.
[17]WU Q,CHEN X,ZHOU Z,et al. Deep ReinforcementLearning with Spatiotemporal Traffic Forecasting forDatadriven Base Station Sleep Control[J]. IEEE/ ACMTransactions on Networking,2021,29(2):935-948.
[18]馬冀,林尚靜,李月穎,等. 多源跨域數(shù)據(jù)融合的無(wú)線通信網(wǎng)絡(luò)流量預(yù)測(cè)[J]. 計(jì)算機(jī)科學(xué),2022,49(增刊2):893-899.
[19]CHATFIELD C. The Holtwinters Forecasting Procedure[J]. Journal of the Royal Statistical Society Series C:Applied Statistics,1978,27(3):264-279.
[20]DENG C,ZHU C. Shortterm Traffic Velocity PredictionBased on LSTM Neural Networks[C]∥2023 IEEE 6thInternational Conference on Knowledge Innovation andInvention (ICKII). Sapporo:IEEE,2023:634-638.
[21]DENG L J,RUAN K,CHEN X,et al. An IP NetworkTraffic Prediction Method Based on ARIMA andNBEATS[C]∥2022 IEEE 4th International Conferenceon Power,Intelligent Computing and Systems (ICPICS).Shenyang:IEEE,2022:336-341.
[22]BOSE S,GAYNAR K,SINGH S P. Breast CancerDetection by Data Visualization and Feature SelectionUsing XG Boost Algorithm[C]∥2022 International Conference on Signal and Information Processing (IConSIP).Pune:IEEE,2022:1-6.
作者簡(jiǎn)介:
王 瑜 男,(1983—),碩士,高級(jí)工程師。主要研究方向:無(wú)線移動(dòng)網(wǎng)、物聯(lián)網(wǎng)、人工智能、網(wǎng)絡(luò)創(chuàng)新支撐等。
范燕琳 女,(1991—),博士,工程師。主要研究方向:網(wǎng)絡(luò)智慧運(yùn)營(yíng)、網(wǎng)絡(luò)運(yùn)維數(shù)字化轉(zhuǎn)型。
孫洋洋 男,(1990—),碩士,工程師。主要研究方向:網(wǎng)絡(luò)運(yùn)維數(shù)字化轉(zhuǎn)型。
熊建勝 男,(1989—),碩士,工程師。主要研究方向:智能運(yùn)維人工智能算法。
蔣 濤 男,(1993—),工程師。主要研究方向:基站機(jī)房節(jié)能。
周 瑩 女,(1988—),碩士,工程師。主要研究方向:網(wǎng)絡(luò)智慧運(yùn)營(yíng)、人工智能。
韓志博 女,(2000—),碩士研究生。主要研究方向:無(wú)線通信。
李子怡 女,(2000—),碩士研究生。主要研究方向:無(wú)線通信。
王振乾 男,(1999—),博士研究生。主要研究方向:大數(shù)據(jù)、人工智能算法。
基金項(xiàng)目:2023 年中國(guó)聯(lián)通智網(wǎng)創(chuàng)新中心基于AI 的基站與接入機(jī)房節(jié)能算法模型研究及應(yīng)用研發(fā)項(xiàng)目