一種深度強化學習的C-RAN動態(tài)資源分配方法

2021-02-04 13:51:48張永棠

小型微型計算機系統(tǒng) 2021年1期

張永棠

1(廣東東軟學院計算機學院，廣東佛山 528225) 2(南昌工程學院江西省協(xié)同感知與先進計算技術(shù)研究所，南昌 330003)

1 引言

5G網(wǎng)絡旨在支持人、機器和服務之間的大規(guī)模連接.隨著5G的逐步推廣和應用，無線接入網(wǎng)(Radio access networks，RAN)需要一個智能靈活的架構(gòu)來充分利用5G網(wǎng)絡的性能.云無線接入網(wǎng)絡(Cloud radio access networks，C-RAN)被認為是5G的核心技術(shù)，它使5G服務具有前所未有的最小時延和能耗[1].與傳統(tǒng)的RAN不同，C-RAN設(shè)計有獨立的基帶單元(Baseband units，BBU)和遠程無線電前端(Remote radio heads，RRH).所有處理器都被移動到中央BBU池中，分布式RRHs負責通過前端鏈路將用戶接收到的無線電信號轉(zhuǎn)發(fā)到BBU.RRHs只需要維護一些基本的傳輸功能，大大降低了設(shè)計和運行成本，實現(xiàn)大規(guī)模高密度組網(wǎng).

云計算已經(jīng)變得非常流行，可以訪問共享計算資源池[2，3].然而，云計算服務可能不能保證網(wǎng)絡中的低延遲應用程序，因為云與終端設(shè)備之間的距離通常很大.為了解決這些問題，文獻[4]研究了移動邊緣計算(Mobile edge computing，MEC)，將計算資源部署到更靠近終端的位置，可以有效提高需要密集計算、低延時的應用的服務質(zhì)量(QoS)[5].因此，以計算卸載和資源分配為核心的MEC系統(tǒng)得到了廣泛的關(guān)注[6].

近年來，研究者們針對不同的設(shè)計目標提出了一些關(guān)于MEC卸載和資源分配的觀點[7].針對無線通信中數(shù)據(jù)速率的非恒定性，文獻[8]提出了一種基于流優(yōu)化的凸優(yōu)化二進制計算方法.文獻[9]從物理資源和時間兩個維度分析了C-RAN中通信和計算的交互作用，說明了BBU池中資源合理配置的重要性.然而，在文獻[8，9]中提出的方法需要獲取準確的信道狀態(tài)信息.考慮到無線信道的隨機性，這些問題不適用于動態(tài)系統(tǒng).也有很多研究者利用博弈論在動態(tài)環(huán)境下提供分布式解決方案，文獻[10]研究了基于博弈論的分布式計算卸載機制，可以準確地得到較低的系統(tǒng)模型.然而，這種假設(shè)在某些環(huán)境中往往是不切實際的.

眾所周知，使用深度學習框架可以實現(xiàn)網(wǎng)絡資源的自動管理.Q-learning算法是應用最廣泛的無模型強化學習(Reinforcement learning，RL)算法，可用于計算卸載策略[11]和資源分配策略[12].隨著計算復雜性隨著狀態(tài)和動作的數(shù)量呈指數(shù)增長，Q-learning的最大挑戰(zhàn)是處理具有極端狀態(tài)和動作的應用.因此，使用深度神經(jīng)網(wǎng)絡(Deep neural network，DNN)來估計RL中的值函數(shù)，從而得到更精確的回歸或近似[13].使用DNN增強傳統(tǒng)RL創(chuàng)建了一種有前途的方法，稱為深度強化學習(Deep reinforcement learning，DRL)，它能夠處理復雜的控制應用，如游戲和機器人[14].

本文提出了一種基于DRL的C-RAN動態(tài)資源分配框架，在保證每個用戶的需求得到滿足的同時，最小化時間和能量消耗.本文的主要創(chuàng)新點：

1)提出了一個基于DRL的主題來解決計算、卸載和資源分配問題，其優(yōu)點是用戶計算任務的卸載是按比例完成的.

2)定義了DRL代理的行為、狀態(tài)和獎勵函數(shù)，制定了資源分配問題，并應用DNN近似行動決策的行動值函數(shù)，從當前狀態(tài)直接提取信息，不需要獲取準確的信道狀態(tài).仿真結(jié)果很好地證明了所提出的基于DRL的框架在低功耗和用戶滿意度方面的有效性.

2 系統(tǒng)模型

本節(jié)介紹了系統(tǒng)的網(wǎng)絡模型，給出了系統(tǒng)的計算模型，提出了本文的優(yōu)化目標.

2.1 網(wǎng)絡模型

圖1展示了具有邊緣高速計算能力的C-RAN上行鏈路傳輸網(wǎng)絡架構(gòu).計算單元中有一個RRH和U個用戶，用戶集表示為U={1，2，…，U}.我們假設(shè)MEC服務器部署在RRH上，RRH和用戶都裝備了一個天線.每個用戶都有一個計算密集型的任務要完成.用戶可以根據(jù)比例α∈[0，1]將任務轉(zhuǎn)移到MEC服務器，剩余任務的1-α由用戶在本地執(zhí)行.

圖1 系統(tǒng)模型Fig.1 System model

我們使用準靜態(tài)假設(shè)，即環(huán)境條件在一個時間段內(nèi)保持不變.一個小區(qū)中只有一個RRH，因此忽略了間隔干擾.假設(shè)在某一時刻有多個用戶選擇一個任務，則將無線帶寬平均分配給該用戶用于上行鏈路傳輸卸載任務.用戶u可以達到的上行鏈路傳輸數(shù)據(jù)速率可表示為：

(1)

2.2 計算模型

我們假設(shè)用戶u計算密集型任務Ru=(Du，Cu，Tu)，它可以在用戶本地CPU和MEC服務器上根據(jù)比例因子α執(zhí)行.這里Du表示計算Ru所需的計算輸入數(shù)據(jù)的大小，包括程序代碼和輸入?yún)?shù).Cu表示完成計算任務Ru所需的CPU周期總數(shù)，Du與Cu的大小呈正相關(guān).Cu反映完成任務Ru所需的計算資源數(shù)量.我們假設(shè)Du的大小是不變的，不管它是由用戶本地執(zhí)行還是在MEC服務器上執(zhí)行.Tu表示任務Ru的最大允許延遲，即每個用戶的服務時間不應超過Tu，這將是我們優(yōu)化問題的一個重要約束.這3個參數(shù)都與應用程序的功能相關(guān)，可以通過任務配置文件進行估計，因此它們在不同類型的應用之間可能有很大的差異.

我們假設(shè)任務可以劃分為在不同設(shè)備上處理的分區(qū)，這意味著每個用戶任務可以同時在本地計算并卸載到RRH以執(zhí)行其任務.我們將α∈[0，1]表示為用戶u的計算任務決策，并將決策向量定義為A=[α1，α2，…，αU].如果用戶u都通過本地計算執(zhí)行任務，則α=1；所有這些都通過MEC計算任務，則α=0.否則，根據(jù)任務比率α將其卸載到MEC中，并在本地執(zhí)行比率1-α.

1)本地計算模型：如果用戶u選擇在本地執(zhí)行它的任務Ru，那么我們將Tu，l定義為用戶u本地CPU的處理延遲.然后，我們將fu，l表示為用戶u的計算能力(CPU周期/秒)，這取決于用戶之間的計算能力.任務Ru的本地執(zhí)行延遲Tu，l為:

(2)

我們使用Eu，l作為任務Ru在本地執(zhí)行時的對應能耗，表示為：

Eu，l=ZuCu

(3)

其中，Zu表示每個CPU周期所需的能耗，并且根據(jù)文獻[15]實際測量值設(shè)置為Zu=10-25(fu，l)2.

結(jié)合式(2)和式(3)，本地計算的總成本可以表示為：

(4)

2)卸載計算模型：用戶u通過MEC選擇執(zhí)行任務Ru，整個計算過程分為以下幾個步驟：首先，用戶u需要通過無線網(wǎng)絡向RRH上傳足夠的數(shù)據(jù)，RRH將數(shù)據(jù)轉(zhuǎn)發(fā)給MEC服務器.然后MEC服務器分配計算資源來執(zhí)行計算任務，最后MEC服務器將執(zhí)行結(jié)果返回給用戶u.

根據(jù)上述步驟，將計算卸載到MEC所需的傳輸時間可以表示為:

(5)

其中，ru表示無線信道中用戶u的上行速率.上傳數(shù)據(jù)的數(shù)據(jù)消耗為:

(6)

計算所需的時間是MEC服務器的處理延遲，可以表示為:

(7)

綜上所述，MEC執(zhí)行用戶u任務Ru的處理延遲為:

(8)

結(jié)合式(8)和式(6)的時間及能耗成本，卸載到MEC計算的總成本可以表示為:

(9)

將整個系統(tǒng)MEC中所有用戶的總成本匯總為:

(10)

其中，αu∈[0，1]表示用戶u的卸載決定.用戶任務按比例分割，1-α部分在本地執(zhí)行，α部分卸載到MEC.

2.3 問題表述

本節(jié)將求解MEC系統(tǒng)的負荷決策和計算資源分配的最優(yōu)化問題.我們的目的是將MEC系統(tǒng)中所有用戶的執(zhí)行延遲和能耗相結(jié)合的總成本最小化.

基于上述分析，在最大容忍延遲和計算能力的約束下，最優(yōu)化問題可描述為:

(11)

其中，A=[α1，α2，…，αU]表示卸載決策向量，f=[f1，f2，…，fU]表示MEC上的計算資源分配策略.最優(yōu)化問題的目標是使整個系統(tǒng)的總成本最小化.式(11)中，C1為計算任務卸載的百分比，C2為整個服務時間成本不應超過用戶的最大允許延遲，C3表示確保為用戶U分配的計算資源不能超過F，C4表示確保分配給用戶的計算資源的總和不超過MEC服務器的最大計算容量F.

3 優(yōu)化方案

上述最優(yōu)決策問題可表示為一個動態(tài)的未知馬爾可夫決策過程.由于當前估計的狀態(tài)可能在以后的時間框架中發(fā)生變化，所以我們不能簡單地使用當前觀察到的狀態(tài)對以后的時間框架做出決策.在有限狀態(tài)馬爾可夫信道模型中，大多數(shù)現(xiàn)有的工作假設(shè)信道根據(jù)一組馬爾可夫轉(zhuǎn)移概率在無限個狀態(tài)下變化[17].然而，在動態(tài)環(huán)境中，無線網(wǎng)絡通常是未知的，因此我們使用一個無模型的RL，通過對當前狀態(tài)的廣泛訓練來學習最佳策略，該狀態(tài)可以以一個并非完全未知的轉(zhuǎn)移概率轉(zhuǎn)移到其他狀態(tài).

3.1 狀態(tài)及動作向量

在t時刻，RL代理通過觀察網(wǎng)絡環(huán)境形成系統(tǒng)狀態(tài).我們假設(shè)狀態(tài)空間由S表示，所以在t時刻系統(tǒng)狀態(tài)向量st∈S可以表示為：

st={z1(t)，z2(t)，…，zU(t)，d1(t)，d2(t)，…，dU(t)}

(12)

其中，zu表示計算任務Ru的數(shù)據(jù)大小，并du表示執(zhí)行該任務Ru所需的計算資源.

在我們的問題中，代理將對計算任務做出決策，這個決策包括：計算任務執(zhí)行的比例是多少，在邊緣計算中應該分配多少計算資源.該行動向量由用戶的卸載決策A=[α1，α2，…，αU]和MEC的資源分配f=[f1，f2，…，fU]兩部分組成，因此行動向量可以由A和f給出.

3.2 求解最優(yōu)策略和最優(yōu)值函數(shù)

策略是通過長期優(yōu)化得到的行動選擇策略，它可以是確定性的，也可以是隨機性的.事實上，確定性策略是隨機策略的一個特例.隨機策略保證了對行為空間的充分挖掘，因此我們使用了隨機策略π(α|s)=Pr(αt=α|st=s).隨機策略給出了動作的概率分布.Q值的標準定義是狀態(tài)s從時刻t開始，選擇動作α的軌跡的期望返回，表示為：

(13)

其中，β∈(0，1)是折扣系數(shù).最優(yōu)Q值是指在為所有決策采取最佳行動時所能達到的最大值.當使用這個值迭代地估計所有狀態(tài)和動作對(s，α)的最佳Q值時，該策略可以通過簡單地選擇貪婪動作得到，即：

(14)

在上述問題中，狀態(tài)和動作的維度非常高，因此在使用值迭代時，空間、時間和內(nèi)存成本是無法測量的.在深入學習成為熱門話題之后，人們認識到函數(shù)逼近技術(shù)，特別是DNN，可以用來表示Q值.因此，Q值函數(shù)Qπ(s，α)可以用包含多個隱藏層的完全連接DNN表示為Qω(s，α)，并傳遞一組權(quán)重w={ω1，ω2，…，ωN}參數(shù).DNN的輸入層有兩個單元，用于將系統(tǒng)狀態(tài)s和動作α導入下一個隱藏層.

我們使用線性整流函數(shù)(Rectified Linear Unit，ReLU)作為非線性激活函數(shù).通過迭代最小化損失函數(shù)，可以訓練DNN學習最優(yōu)配置權(quán)重ω

(15)

DRL算法描述如算法1所示.

算法1.DRL最優(yōu)策略算法描述

1.Initialization

the experience replays bufferD，

the parameters of the actor networkθand its targetθt，

the parameters of the critic networkωand its targetωt.

2.forepisodee=1，…，Edo

3. reset environment states0，and reset rewardr=0.

4.forstept=1，…，Tdo

5. generate an actionαtaccording toπθ(α|s)，

6. observe the rewardrtand the subsequent statest+1，

7. Store the tuple 〈st，αt，rt，st+1〉 in replay bufferD.

8. Draw a mini-batch ofNtuples fromD

9. update the parameters of the critic network：

10. update the parameters of the critic network：

12. EveryUsteps，update two target networks parameters：

13.ωt←Tω+(1-T)ωt

14.θt←Tθ+(1-T)θt

15.endfor

16.endfor

4 仿真及分析

4.1 模擬設(shè)置

神經(jīng)元數(shù)目越多，值函數(shù)逼近越準確.但是，神經(jīng)元數(shù)量過多，參數(shù)數(shù)量多，計算復雜度高.根據(jù)文獻[14]我們將隱藏層的神經(jīng)元數(shù)量設(shè)置為360.為參與者和批評者生成兩個獨立的目標網(wǎng)絡，每隔N=250、rate=0.001次迭代，將兩個目標網(wǎng)絡的參數(shù)替換為原網(wǎng)絡的當前估計參數(shù).為了訓練DNN，我們設(shè)置了大小為8000的經(jīng)驗回放緩沖區(qū)，可以在查詢時隨機返回一個小批量的經(jīng)驗，小批量的大小設(shè)置為64.將參與者學習率和批評者學習率分別設(shè)置為δα=0.0001和δc=0.001.

4.2 仿真結(jié)果

我們將DRL算法與All Local Scheme(ALS)[8]、All Offload Scheme(AOS)[9]、Local or Offload Scheme(LOS)[10]3種算法進行比較.其中，ALS是指所有用戶通過本地計算執(zhí)行他們的任務；AOS是指所有用戶都將自己的任務分配給MEC服務器執(zhí)行，整個計算資源F平均分配給用戶；LOS是指用戶任務可以在本地執(zhí)行或卸載到MEC，但用戶任務是不可分割的.

圖2 用戶數(shù)量對總成本的影響Fig.2 Impact of number of users on total cost

圖2展示了系統(tǒng)成本隨用戶數(shù)量增加的變化趨勢.其中MEC服務器具有F=8GHz/s的計算能力.從圖上可以看出，隨著用戶數(shù)量的不斷增加，4種方法的總成本也逐漸增加.可以看出，本文提出的DRL方法可以得到最好的結(jié)果，略優(yōu)于LOS，兩種方法的性能相對穩(wěn)定.AOS曲線在5個用戶點上略高于DRL和LOS，但當用戶更多時增長更快.這是因為當用戶數(shù)量增加時，MEC服務器計算資源不足以提供所有用戶.有限計算能力的MEC服務器不應該服務太多的用戶，因此如何選擇這種情況下的解決方案變得非常重要.

圖3 用戶數(shù)據(jù)大小對系統(tǒng)總成本影響Fig.3 Impact of user data size on total cost

圖3展示了用戶數(shù)據(jù)大小對系統(tǒng)總成本影響的趨勢圖，其中用戶數(shù)為5.從圖上可以看出，4種方法的總成本隨著數(shù)據(jù)大小的增加而增加，因為較大的數(shù)據(jù)大小將導致更多的時間和能量消耗，從而增加系統(tǒng)的總成本.由于DRL方法的增長趨勢比其他方法慢，因此可以得到最好的結(jié)果.隨著數(shù)據(jù)量的增加，全局和局部曲線的增長速度遠遠快于其他3種方法，這表明隨著任務量的增加，數(shù)據(jù)量越大，計算延遲越大，卸載計算能耗越大.

圖4 MEC服務器性能對總成本的影響Fig.4 Impact of MEC server performance on total cost

圖4展示了不同MEC服務器性能對總成本的影響，MEC服務器的計算能力從2 GHz/s增加到10GHz/s.從圖上可以看出，所提出的DRL方法在與服務水平相差不大的情況下得到了最好的結(jié)果.曲線ALS不會隨MEC服務器的功能而改變，因為MEC服務器計算資源不會影響本地計算.除ALS以外的曲線隨著MEC服務器的計算能力增加而減小，因為如果向每個用戶分配更多的計算資源，則執(zhí)行時間將變得更短.更重要的是，當F>9GHz/s時，AOS、LOS和DRL的總成本都在緩慢降低，并且這些方法的性能基本相同.結(jié)果表明，當MEC服務器上的計算資源遠大于本地計算時，系統(tǒng)總成本主要受無線資源的限制.

5 結(jié) 論

研究了CRAN中的計算卸載方案和計算資源分配問題，運用深度強化學習構(gòu)建了C-RAN動態(tài)資源分配框架，以實現(xiàn)時間消耗和能量消耗的最小化.由于無線環(huán)境是隨機的，我們使用無模型RL框架來解決聯(lián)合決策問題，實現(xiàn)用戶計算任務的卸載按比例完成.定義了DRL代理的行為、狀態(tài)和獎勵函數(shù)，制定資源分配問題，并應用DNN近似行動決策的行動值函數(shù)，從當前狀態(tài)直接提取信息，不需要獲取準確的信道狀態(tài).通過與文獻方法的比較，給出了該方案的性能評價.仿真結(jié)果表明，在不同的系統(tǒng)參數(shù)下，該方案能獲得比其他算法更好的性能.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡