国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種深度強化學習的C-RAN動態(tài)資源分配方法

2021-02-04 13:51:48
小型微型計算機系統(tǒng) 2021年1期
關(guān)鍵詞:計算資源總成本資源分配

張 永 棠

1(廣東東軟學院 計算機學院,廣東 佛山 528225) 2(南昌工程學院 江西省協(xié)同感知與先進計算技術(shù)研究所,南昌 330003)

1 引 言

5G網(wǎng)絡旨在支持人、機器和服務之間的大規(guī)模連接.隨著5G的逐步推廣和應用,無線接入網(wǎng)(Radio access networks,RAN)需要一個智能靈活的架構(gòu)來充分利用5G網(wǎng)絡的性能.云無線接入網(wǎng)絡(Cloud radio access networks,C-RAN)被認為是5G的核心技術(shù),它使5G服務具有前所未有的最小時延和能耗[1].與傳統(tǒng)的RAN不同,C-RAN設(shè)計有獨立的基帶單元(Baseband units,BBU)和遠程無線電前端(Remote radio heads,RRH).所有處理器都被移動到中央BBU池中,分布式RRHs負責通過前端鏈路將用戶接收到的無線電信號轉(zhuǎn)發(fā)到BBU.RRHs只需要維護一些基本的傳輸功能,大大降低了設(shè)計和運行成本,實現(xiàn)大規(guī)模高密度組網(wǎng).

云計算已經(jīng)變得非常流行,可以訪問共享計算資源池[2,3].然而,云計算服務可能不能保證網(wǎng)絡中的低延遲應用程序,因為云與終端設(shè)備之間的距離通常很大.為了解決這些問題,文獻[4]研究了移動邊緣計算(Mobile edge computing,MEC),將計算資源部署到更靠近終端的位置,可以有效提高需要密集計算、低延時的應用的服務質(zhì)量(QoS)[5].因此,以計算卸載和資源分配為核心的MEC系統(tǒng)得到了廣泛的關(guān)注[6].

近年來,研究者們針對不同的設(shè)計目標提出了一些關(guān)于MEC卸載和資源分配的觀點[7].針對無線通信中數(shù)據(jù)速率的非恒定性,文獻[8]提出了一種基于流優(yōu)化的凸優(yōu)化二進制計算方法.文獻[9]從物理資源和時間兩個維度分析了C-RAN中通信和計算的交互作用,說明了BBU池中資源合理配置的重要性.然而,在文獻[8,9]中提出的方法需要獲取準確的信道狀態(tài)信息.考慮到無線信道的隨機性,這些問題不適用于動態(tài)系統(tǒng).也有很多研究者利用博弈論在動態(tài)環(huán)境下提供分布式解決方案,文獻[10]研究了基于博弈論的分布式計算卸載機制,可以準確地得到較低的系統(tǒng)模型.然而,這種假設(shè)在某些環(huán)境中往往是不切實際的.

眾所周知,使用深度學習框架可以實現(xiàn)網(wǎng)絡資源的自動管理.Q-learning算法是應用最廣泛的無模型強化學習(Reinforcement learning,RL)算法,可用于計算卸載策略[11]和資源分配策略[12].隨著計算復雜性隨著狀態(tài)和動作的數(shù)量呈指數(shù)增長,Q-learning的最大挑戰(zhàn)是處理具有極端狀態(tài)和動作的應用.因此,使用深度神經(jīng)網(wǎng)絡(Deep neural network,DNN)來估計RL中的值函數(shù),從而得到更精確的回歸或近似[13].使用DNN增強傳統(tǒng)RL創(chuàng)建了一種有前途的方法,稱為深度強化學習(Deep reinforcement learning,DRL),它能夠處理復雜的控制應用,如游戲和機器人[14].

本文提出了一種基于DRL的C-RAN動態(tài)資源分配框架,在保證每個用戶的需求得到滿足的同時,最小化時間和能量消耗.本文的主要創(chuàng)新點:

1)提出了一個基于DRL的主題來解決計算、卸載和資源分配問題,其優(yōu)點是用戶計算任務的卸載是按比例完成的.

2)定義了DRL代理的行為、狀態(tài)和獎勵函數(shù),制定了資源分配問題,并應用DNN近似行動決策的行動值函數(shù),從當前狀態(tài)直接提取信息,不需要獲取準確的信道狀態(tài).仿真結(jié)果很好地證明了所提出的基于DRL的框架在低功耗和用戶滿意度方面的有效性.

2 系統(tǒng)模型

本節(jié)介紹了系統(tǒng)的網(wǎng)絡模型,給出了系統(tǒng)的計算模型,提出了本文的優(yōu)化目標.

2.1 網(wǎng)絡模型

圖1展示了具有邊緣高速計算能力的C-RAN上行鏈路傳輸網(wǎng)絡架構(gòu).計算單元中有一個RRH和U個用戶,用戶集表示為U={1,2,…,U}.我們假設(shè)MEC服務器部署在RRH上,RRH和用戶都裝備了一個天線.每個用戶都有一個計算密集型的任務要完成.用戶可以根據(jù)比例α∈[0,1]將任務轉(zhuǎn)移到MEC服務器,剩余任務的1-α由用戶在本地執(zhí)行.

圖1 系統(tǒng)模型Fig.1 System model

我們使用準靜態(tài)假設(shè),即環(huán)境條件在一個時間段內(nèi)保持不變.一個小區(qū)中只有一個RRH,因此忽略了間隔干擾.假設(shè)在某一時刻有多個用戶選擇一個任務,則將無線帶寬平均分配給該用戶用于上行鏈路傳輸卸載任務.用戶u可以達到的上行鏈路傳輸數(shù)據(jù)速率可表示為:

(1)

2.2 計算模型

我們假設(shè)用戶u計算密集型任務Ru=(Du,Cu,Tu),它可以在用戶本地CPU和MEC服務器上根據(jù)比例因子α執(zhí)行.這里Du表示計算Ru所需的計算輸入數(shù)據(jù)的大小,包括程序代碼和輸入?yún)?shù).Cu表示完成計算任務Ru所需的CPU周期總數(shù),Du與Cu的大小呈正相關(guān).Cu反映完成任務Ru所需的計算資源數(shù)量.我們假設(shè)Du的大小是不變的,不管它是由用戶本地執(zhí)行還是在MEC服務器上執(zhí)行.Tu表示任務Ru的最大允許延遲,即每個用戶的服務時間不應超過Tu,這將是我們優(yōu)化問題的一個重要約束.這3個參數(shù)都與應用程序的功能相關(guān),可以通過任務配置文件進行估計,因此它們在不同類型的應用之間可能有很大的差異.

我們假設(shè)任務可以劃分為在不同設(shè)備上處理的分區(qū),這意味著每個用戶任務可以同時在本地計算并卸載到RRH以執(zhí)行其任務.我們將α∈[0,1]表示為用戶u的計算任務決策,并將決策向量定義為A=[α1,α2,…,αU].如果用戶u都通過本地計算執(zhí)行任務,則α=1;所有這些都通過MEC計算任務,則α=0.否則,根據(jù)任務比率α將其卸載到MEC中,并在本地執(zhí)行比率1-α.

1)本地計算模型:如果用戶u選擇在本地執(zhí)行它的任務Ru,那么我們將Tu,l定義為用戶u本地CPU的處理延遲.然后,我們將fu,l表示為用戶u的計算能力(CPU周期/秒),這取決于用戶之間的計算能力.任務Ru的本地執(zhí)行延遲Tu,l為:

(2)

我們使用Eu,l作為任務Ru在本地執(zhí)行時的對應能耗,表示為:

Eu,l=ZuCu

(3)

其中,Zu表示每個CPU周期所需的能耗,并且根據(jù)文獻[15]實際測量值設(shè)置為Zu=10-25(fu,l)2.

結(jié)合式(2)和式(3),本地計算的總成本可以表示為:

(4)

2)卸載計算模型:用戶u通過MEC選擇執(zhí)行任務Ru,整個計算過程分為以下幾個步驟:首先,用戶u需要通過無線網(wǎng)絡向RRH上傳足夠的數(shù)據(jù),RRH將數(shù)據(jù)轉(zhuǎn)發(fā)給MEC服務器.然后MEC服務器分配計算資源來執(zhí)行計算任務,最后MEC服務器將執(zhí)行結(jié)果返回給用戶u.

根據(jù)上述步驟,將計算卸載到MEC所需的傳輸時間可以表示為:

(5)

其中,ru表示無線信道中用戶u的上行速率.上傳數(shù)據(jù)的數(shù)據(jù)消耗為:

(6)

計算所需的時間是MEC服務器的處理延遲,可以表示為:

(7)

綜上所述,MEC執(zhí)行用戶u任務Ru的處理延遲為:

(8)

結(jié)合式(8)和式(6)的時間及能耗成本,卸載到MEC計算的總成本可以表示為:

(9)

將整個系統(tǒng)MEC中所有用戶的總成本匯總為:

(10)

其中,αu∈[0,1]表示用戶u的卸載決定.用戶任務按比例分割,1-α部分在本地執(zhí)行,α部分卸載到MEC.

2.3 問題表述

本節(jié)將求解MEC系統(tǒng)的負荷決策和計算資源分配的最優(yōu)化問題.我們的目的是將MEC系統(tǒng)中所有用戶的執(zhí)行延遲和能耗相結(jié)合的總成本最小化.

基于上述分析,在最大容忍延遲和計算能力的約束下,最優(yōu)化問題可描述為:

(11)

其中,A=[α1,α2,…,αU]表示卸載決策向量,f=[f1,f2,…,fU]表示MEC上的計算資源分配策略.最優(yōu)化問題的目標是使整個系統(tǒng)的總成本最小化.式(11)中,C1為計算任務卸載的百分比,C2為整個服務時間成本不應超過用戶的最大允許延遲,C3表示確保為用戶U分配的計算資源不能超過F,C4表示確保分配給用戶的計算資源的總和不超過MEC服務器的最大計算容量F.

3 優(yōu)化方案

上述最優(yōu)決策問題可表示為一個動態(tài)的未知馬爾可夫決策過程.由于當前估計的狀態(tài)可能在以后的時間框架中發(fā)生變化,所以我們不能簡單地使用當前觀察到的狀態(tài)對以后的時間框架做出決策.在有限狀態(tài)馬爾可夫信道模型中,大多數(shù)現(xiàn)有的工作假設(shè)信道根據(jù)一組馬爾可夫轉(zhuǎn)移概率在無限個狀態(tài)下變化[17].然而,在動態(tài)環(huán)境中,無線網(wǎng)絡通常是未知的,因此我們使用一個無模型的RL,通過對當前狀態(tài)的廣泛訓練來學習最佳策略,該狀態(tài)可以以一個并非完全未知的轉(zhuǎn)移概率轉(zhuǎn)移到其他狀態(tài).

3.1 狀態(tài)及動作向量

在t時刻,RL代理通過觀察網(wǎng)絡環(huán)境形成系統(tǒng)狀態(tài).我們假設(shè)狀態(tài)空間由S表示,所以在t時刻系統(tǒng)狀態(tài)向量st∈S可以表示為:

st={z1(t),z2(t),…,zU(t),d1(t),d2(t),…,dU(t)}

(12)

其中,zu表示計算任務Ru的數(shù)據(jù)大小,并du表示執(zhí)行該任務Ru所需的計算資源.

在我們的問題中,代理將對計算任務做出決策,這個決策包括:計算任務執(zhí)行的比例是多少,在邊緣計算中應該分配多少計算資源.該行動向量由用戶的卸載決策A=[α1,α2,…,αU]和MEC的資源分配f=[f1,f2,…,fU]兩部分組成,因此行動向量可以由A和f給出.

3.2 求解最優(yōu)策略和最優(yōu)值函數(shù)

策略是通過長期優(yōu)化得到的行動選擇策略,它可以是確定性的,也可以是隨機性的.事實上,確定性策略是隨機策略的一個特例.隨機策略保證了對行為空間的充分挖掘,因此我們使用了隨機策略π(α|s)=Pr(αt=α|st=s).隨機策略給出了動作的概率分布.Q值的標準定義是狀態(tài)s從時刻t開始,選擇動作α的軌跡的期望返回,表示為:

(13)

其中,β∈(0,1)是折扣系數(shù).最優(yōu)Q值是指在為所有決策采取最佳行動時所能達到的最大值.當使用這個值迭代地估計所有狀態(tài)和動作對(s,α)的最佳Q值時,該策略可以通過簡單地選擇貪婪動作得到,即:

(14)

在上述問題中,狀態(tài)和動作的維度非常高,因此在使用值迭代時,空間、時間和內(nèi)存成本是無法測量的.在深入學習成為熱門話題之后,人們認識到函數(shù)逼近技術(shù),特別是DNN,可以用來表示Q值.因此,Q值函數(shù)Qπ(s,α)可以用包含多個隱藏層的完全連接DNN表示為Qω(s,α),并傳遞一組權(quán)重w={ω1,ω2,…,ωN}參數(shù).DNN的輸入層有兩個單元,用于將系統(tǒng)狀態(tài)s和動作α導入下一個隱藏層.

我們使用線性整流函數(shù)(Rectified Linear Unit,ReLU)作為非線性激活函數(shù).通過迭代最小化損失函數(shù),可以訓練DNN學習最優(yōu)配置權(quán)重ω

(15)

DRL算法描述如算法1所示.

算法1.DRL最優(yōu)策略算法描述

1.Initialization

the experience replays bufferD,

the parameters of the actor networkθand its targetθt,

the parameters of the critic networkωand its targetωt.

2.forepisodee=1,…,Edo

3. reset environment states0,and reset rewardr=0.

4.forstept=1,…,Tdo

5. generate an actionαtaccording toπθ(α|s),

6. observe the rewardrtand the subsequent statest+1,

7. Store the tuple 〈st,αt,rt,st+1〉 in replay bufferD.

8. Draw a mini-batch ofNtuples fromD

9. update the parameters of the critic network:

10. update the parameters of the critic network:

12. EveryUsteps,update two target networks parameters:

13.ωt←Tω+(1-T)ωt

14.θt←Tθ+(1-T)θt

15.endfor

16.endfor

4 仿真及分析

4.1 模擬設(shè)置

神經(jīng)元數(shù)目越多,值函數(shù)逼近越準確.但是,神經(jīng)元數(shù)量過多,參數(shù)數(shù)量多,計算復雜度高.根據(jù)文獻[14]我們將隱藏層的神經(jīng)元數(shù)量設(shè)置為360.為參與者和批評者生成兩個獨立的目標網(wǎng)絡,每隔N=250、rate=0.001次迭代,將兩個目標網(wǎng)絡的參數(shù)替換為原網(wǎng)絡的當前估計參數(shù).為了訓練DNN,我們設(shè)置了大小為8000的經(jīng)驗回放緩沖區(qū),可以在查詢時隨機返回一個小批量的經(jīng)驗,小批量的大小設(shè)置為64.將參與者學習率和批評者學習率分別設(shè)置為δα=0.0001和δc=0.001.

4.2 仿真結(jié)果

我們將DRL算法與All Local Scheme(ALS)[8]、All Offload Scheme(AOS)[9]、Local or Offload Scheme(LOS)[10]3種算法進行比較.其中,ALS是指所有用戶通過本地計算執(zhí)行他們的任務;AOS是指所有用戶都將自己的任務分配給MEC服務器執(zhí)行,整個計算資源F平均分配給用戶;LOS是指用戶任務可以在本地執(zhí)行或卸載到MEC,但用戶任務是不可分割的.

圖2 用戶數(shù)量對總成本的影響Fig.2 Impact of number of users on total cost

圖2展示了系統(tǒng)成本隨用戶數(shù)量增加的變化趨勢.其中MEC服務器具有F=8GHz/s的計算能力.從圖上可以看出,隨著用戶數(shù)量的不斷增加,4種方法的總成本也逐漸增加.可以看出,本文提出的DRL方法可以得到最好的結(jié)果,略優(yōu)于LOS,兩種方法的性能相對穩(wěn)定.AOS曲線在5個用戶點上略高于DRL和LOS,但當用戶更多時增長更快.這是因為當用戶數(shù)量增加時,MEC服務器計算資源不足以提供所有用戶.有限計算能力的MEC服務器不應該服務太多的用戶,因此如何選擇這種情況下的解決方案變得非常重要.

圖3 用戶數(shù)據(jù)大小對系統(tǒng)總成本影響Fig.3 Impact of user data size on total cost

圖3展示了用戶數(shù)據(jù)大小對系統(tǒng)總成本影響的趨勢圖,其中用戶數(shù)為5.從圖上可以看出,4種方法的總成本隨著數(shù)據(jù)大小的增加而增加,因為較大的數(shù)據(jù)大小將導致更多的時間和能量消耗,從而增加系統(tǒng)的總成本.由于DRL方法的增長趨勢比其他方法慢,因此可以得到最好的結(jié)果.隨著數(shù)據(jù)量的增加,全局和局部曲線的增長速度遠遠快于其他3種方法,這表明隨著任務量的增加,數(shù)據(jù)量越大,計算延遲越大,卸載計算能耗越大.

圖4 MEC服務器性能對總成本的影響Fig.4 Impact of MEC server performance on total cost

圖4展示了不同MEC服務器性能對總成本的影響,MEC服務器的計算能力從2 GHz/s增加到10GHz/s.從圖上可以看出,所提出的DRL方法在與服務水平相差不大的情況下得到了最好的結(jié)果.曲線ALS不會隨MEC服務器的功能而改變,因為MEC服務器計算資源不會影響本地計算.除ALS以外的曲線隨著MEC服務器的計算能力增加而減小,因為如果向每個用戶分配更多的計算資源,則執(zhí)行時間將變得更短.更重要的是,當F>9GHz/s時,AOS、LOS和DRL的總成本都在緩慢降低,并且這些方法的性能基本相同.結(jié)果表明,當MEC服務器上的計算資源遠大于本地計算時,系統(tǒng)總成本主要受無線資源的限制.

5 結(jié) 論

研究了CRAN中的計算卸載方案和計算資源分配問題,運用深度強化學習構(gòu)建了C-RAN動態(tài)資源分配框架,以實現(xiàn)時間消耗和能量消耗的最小化.由于無線環(huán)境是隨機的,我們使用無模型RL框架來解決聯(lián)合決策問題,實現(xiàn)用戶計算任務的卸載按比例完成.定義了DRL代理的行為、狀態(tài)和獎勵函數(shù),制定資源分配問題,并應用DNN近似行動決策的行動值函數(shù),從當前狀態(tài)直接提取信息,不需要獲取準確的信道狀態(tài).通過與文獻方法的比較,給出了該方案的性能評價.仿真結(jié)果表明,在不同的系統(tǒng)參數(shù)下,該方案能獲得比其他算法更好的性能.

猜你喜歡
計算資源總成本資源分配
2020年中國棉花種植成本調(diào)查
中國纖檢(2021年3期)2021-11-23 03:36:27
基于模糊規(guī)劃理論的云計算資源調(diào)度研究
新研究揭示新冠疫情對資源分配的影響 精讀
英語文摘(2020年10期)2020-11-26 08:12:20
改進快速稀疏算法的云計算資源負載均衡
數(shù)據(jù)驅(qū)動下的庫存優(yōu)化模型研究
一種基于價格競爭的D2D通信資源分配算法
基于Wi-Fi與Web的云計算資源調(diào)度算法研究
耦合分布式系統(tǒng)多任務動態(tài)調(diào)度算法
線性盈虧平衡分析在TBM隧洞工程中的應用
關(guān)于煤化工生產(chǎn)企業(yè)成本管控的思考
怀化市| 宁远县| 惠东县| 大荔县| 德保县| 砚山县| 平舆县| 佛教| 阳城县| 东光县| 梧州市| 宣武区| 莱阳市| 高碑店市| 武城县| 高雄县| 吉木萨尔县| 黑山县| 天台县| 建宁县| 阜南县| 余江县| 台南市| 榕江县| 衡东县| 连云港市| 苍南县| 安岳县| 青冈县| 温州市| 凌云县| 类乌齐县| 武陟县| 鹿泉市| 云安县| 青河县| 聊城市| 乳山市| 项城市| 孙吴县| 准格尔旗|