国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度強(qiáng)化學(xué)習(xí)的應(yīng)急物聯(lián)網(wǎng)切片資源預(yù)留算法

2020-10-11 03:07孫國林歐睿杰劉貴松
通信學(xué)報 2020年9期
關(guān)鍵詞:資源分配異構(gòu)切片

孫國林,歐睿杰,劉貴松,2

(1.電子科技大學(xué)計算機(jī)科學(xué)與工程學(xué)院,四川 成都 611731;2.電子科技大學(xué)中山學(xué)院,廣東 中山 528402)

1 引言

5G旨在提供千倍于4G的傳輸容量提高、至少千億個物聯(lián)網(wǎng)設(shè)備連接、高達(dá)10 Gbit/s的傳輸速率以及低至毫秒級的超低時延用戶體驗。除了人與人的通信之外,下一代移動互聯(lián)網(wǎng)將實現(xiàn)人與機(jī)器、機(jī)器與機(jī)器之間的零距離連接,無線技術(shù)將以嶄新的方式推動未來經(jīng)濟(jì)和社會的發(fā)展。因此,超低時延傳輸被視為5G/B5G系統(tǒng)的主要技術(shù)特征之一,其目標(biāo)是實現(xiàn)1 ms以下的端到端傳輸時延,從而支持人對機(jī)器、機(jī)器對機(jī)器的實時通信和遠(yuǎn)程控制應(yīng)用。5G/B5G除了在傳輸時延、可靠性和吞吐量方面提出了更高的要求之外,還對下一代移動互聯(lián)網(wǎng)架構(gòu)進(jìn)行了重大變革。軟件定義網(wǎng)絡(luò)和網(wǎng)絡(luò)功能虛擬化技術(shù)作為5G/B5G網(wǎng)絡(luò)架構(gòu)的創(chuàng)新技術(shù),使基礎(chǔ)設(shè)施網(wǎng)絡(luò)可以切分為幾個邏輯網(wǎng)絡(luò),允許多個差異化應(yīng)用共享同一張物理網(wǎng)絡(luò)和資源,即所謂的網(wǎng)絡(luò)切片技術(shù)。每個獨立切片可以調(diào)用在公共網(wǎng)絡(luò)基礎(chǔ)設(shè)施上運行的虛擬網(wǎng)絡(luò)功能,并按需對其進(jìn)行通信和計算資源的配置和調(diào)整,從而滿足特定網(wǎng)絡(luò)切片應(yīng)用的特定業(yè)務(wù)需求[1-2]。通常,每個租戶會與基礎(chǔ)設(shè)施提供商簽訂服務(wù)水平協(xié)議。因此,通過自定義切片應(yīng)用和功能,動態(tài)分配自定義切片的資源,公共移動網(wǎng)絡(luò)可以支持特定的應(yīng)急物聯(lián)網(wǎng)切片,并保證該切片與其他移動網(wǎng)絡(luò)切片的共存和安全隔離[3-4]。綜上所述,面向應(yīng)急物聯(lián)網(wǎng)的應(yīng)用業(yè)務(wù)需求,首先,需要保障單一應(yīng)急物聯(lián)網(wǎng)(EIoT,emergency Internet of things)切片的服務(wù)質(zhì)量,允許租戶管理其定制切片的網(wǎng)絡(luò)性能;其次,需要考慮多異構(gòu)切片共存的問題,通過復(fù)用切片流量實現(xiàn)基礎(chǔ)架構(gòu)的規(guī)模經(jīng)濟(jì)。

近年來,在資源切片方面已有大量研究工作,但是在異構(gòu)混合數(shù)據(jù)流場景中仍然存在以下問題:1)在無線資源有限的情況下,如何既保證所有切片的資源效率,又準(zhǔn)確地滿足切片需求;2)如何根據(jù)服務(wù)水平協(xié)議(SLA,service level agreement)的要求為每個切片動態(tài)分配資源,以滿足不同切片的服務(wù)質(zhì)量(QoS,quality of service)要求;3)在流量狀態(tài)實時變化的高動態(tài)環(huán)境中,資源分配方案如何智能響應(yīng)網(wǎng)絡(luò)的變化特性并適應(yīng)變化。本文基于虛擬化管理程序,如基于內(nèi)核的虛擬機(jī)(KVM,kernel-based virtual machine),為托管在不同節(jié)點的多個虛擬基站分配資源,并為其調(diào)度相應(yīng)的硬件物理資源和無線資源,從而實現(xiàn)頻譜資源的共享和數(shù)據(jù)復(fù)用[5]。其中,物理資源塊(PRB,physical resource block)作為最小粒度的無線資源被分配到不同虛擬基站節(jié)點。虛擬基站用來實現(xiàn)多網(wǎng)絡(luò)切片間的資源共享和基于流量整形的隔離機(jī)制[6]。文獻(xiàn)[7]提出了一種切片方案,通過配置切片和流調(diào)度器為切片提供資源。Cell-Slice是基于數(shù)據(jù)面的網(wǎng)絡(luò)切片方法,不需要修改基站的原有數(shù)據(jù)流調(diào)度算法,而是在網(wǎng)關(guān)采用流量整形機(jī)制自適應(yīng)控制數(shù)據(jù)流速率[8],這種控制方法可用于基于WiMAX(world interoperability for microwave access)或LTE(long-term evolution)標(biāo)準(zhǔn)的最大持續(xù)速率的調(diào)整機(jī)制[9-10],但其只關(guān)注在保證速率的情況下為切片提供可用資源。文獻(xiàn)[11]將費用開銷定義為一個通用的目標(biāo)函數(shù),提出了一種基于凸優(yōu)化模型和分布式交替方向乘子法(ADMM,alternating direction method of multiplier)求解的解決方法。然而,實際上不同切片可能具有不同的QoS要求,從而導(dǎo)致具有不同的優(yōu)化目標(biāo)函數(shù)。面向多租戶異構(gòu)云無線接入網(wǎng)場景,綜合考慮多租戶的優(yōu)先級、服務(wù)質(zhì)量和干擾水平限制、基帶資源限制、前端和回程容量限制等因素,文獻(xiàn)[12]提出了多個基于凸優(yōu)化模型的動態(tài)網(wǎng)絡(luò)切片方法,由于其工作捆綁了虛擬化資源分配和用戶物理資源分配,因此無法實現(xiàn)異構(gòu)切片的資源定制。文獻(xiàn)[13]提出了一種全網(wǎng)范圍的資源共享方案,該方案能夠?qū)Υ嬖谟诨旧系牟煌衅M(jìn)行隔離,但SLA的嚴(yán)格QoS約束會阻礙用戶在請求模式發(fā)生變化時實時滿足QoS要求。文獻(xiàn)[14]僅假設(shè)一個用于觸覺通信的切片,并未專門針對混合流量處理資源切片。對于多異構(gòu)切片共存場景,通過預(yù)測和估計切片資源需求,動態(tài)權(quán)衡用戶QoS滿意度和系統(tǒng)資源利用效率,自動地實時響應(yīng)來自切片用戶的動態(tài)資源請求是至關(guān)重要的。文獻(xiàn)[15-16]將深度強(qiáng)化學(xué)習(xí)方法用于多切片資源分配問題,文獻(xiàn)[15]主要針對移動車聯(lián)網(wǎng)內(nèi)容緩存資源,文獻(xiàn)[16]僅考慮了2個切片實例,基于傳統(tǒng)DQN(deep Q-network)算法來實現(xiàn)。本文在文獻(xiàn)[16]已有工作的基礎(chǔ)上,針對混合流量自主資源配置和定制問題,提出了Dueling DQN算法,改進(jìn)Dueling網(wǎng)絡(luò)結(jié)構(gòu)加速學(xué)習(xí)收斂,并采用自適應(yīng)線性獎勵機(jī)制自動平衡切片的資源利用率和QoS滿意度,并且驗證了安全隔離效果。本文主要針對特定的應(yīng)急物聯(lián)網(wǎng)場景,研究一種通用的切片資源預(yù)留方法,同時考慮多個異構(gòu)切片共存場景下多切片性能的動態(tài)安全隔離。針對特定的應(yīng)急物聯(lián)網(wǎng),基于資源預(yù)留的方法可以提供嚴(yán)格的服務(wù)質(zhì)量保證、切片間資源的保護(hù)和隔離,并提供資源可定制性和穩(wěn)定性。所以,針對應(yīng)急物聯(lián)網(wǎng)應(yīng)用,本文主要采用資源預(yù)留來保證端到端時延和可靠性,并為用戶提供定制化物理資源,同時推廣至多異構(gòu)切片共存場景。本文的主要研究工作如下。

1)面向應(yīng)急物聯(lián)網(wǎng)的多切片資源管理架構(gòu)包括基于深度強(qiáng)化學(xué)習(xí)的切片資源預(yù)留模塊、基于形狀的物理資源塊分配模塊。面向差異化的異構(gòu)網(wǎng)絡(luò)切片需求,深度強(qiáng)化學(xué)習(xí)(DRL,deep reinforcement learning)智能體對切片的資源預(yù)留比例進(jìn)行動態(tài)調(diào)整,輸出結(jié)果是一個資源比例;物理資源分配模塊將單一切片內(nèi)基站的PRB分配給其關(guān)聯(lián)用戶。

2)基于深度強(qiáng)化學(xué)習(xí)的資源切片策略。切片資源分配的目標(biāo)是在保證用戶QoS的前提下,最大化系統(tǒng)的資源利用效率。由于無線網(wǎng)絡(luò)環(huán)境的時變性和動態(tài)性,DRL智能體通過與無線網(wǎng)絡(luò)環(huán)境的動態(tài)交互,能夠根據(jù)當(dāng)前的狀態(tài)做出最優(yōu)的動作,自動實時地調(diào)整切片的資源比例。

3)基于形狀的物理資源定制。針對多網(wǎng)絡(luò)切片差異化服務(wù)質(zhì)量需求,不同切片對速率和時延指標(biāo)各有偏重。根據(jù)切片速率和時延需求,可以計算用戶請求占用的頻域和時域的RB數(shù)量,進(jìn)而確定其占用的RB集合的形狀。物理資源分配被建模成二維幾何背包問題,其目標(biāo)是最大化資源利用率,減少形狀組合帶來的資源浪費。

4)系統(tǒng)仿真結(jié)果表明,綜合考慮切片服務(wù)質(zhì)量滿意度和系統(tǒng)資源效率等評估指標(biāo),基于深度強(qiáng)化學(xué)習(xí)的切片資源預(yù)留算法具有很好的收斂性。與傳統(tǒng)的NVS(network virtualization substrate)和NetShare算法相比,所提Dueling DQN算法更佳,有效地平衡了異構(gòu)共存切片的性能。

2 系統(tǒng)模型

2.1 網(wǎng)絡(luò)模型

如圖1所示,本文所提多切片網(wǎng)絡(luò)架構(gòu)采用軟件定義網(wǎng)絡(luò)(SDN,software defined networking)和網(wǎng)絡(luò)功能虛擬化(NFV,network function virtualization)的網(wǎng)絡(luò)架構(gòu),具體包括SDN控制器、終端用戶設(shè)備(UE,user equipment)、網(wǎng)絡(luò)切片、基站和頻譜資源。SDN控制器負(fù)責(zé)切片級的資源調(diào)度和決策,利用消息信令接口通知具體基站調(diào)整其切片的資源預(yù)留與分配數(shù)量等;基站為不同切片提供一定數(shù)量的RB資源;終端用戶設(shè)備通過攜帶其所屬切片識別信息發(fā)送資源請求,從某個關(guān)聯(lián)基站獲取和占用所屬切片的RB資源。從資源方面,本文主要考慮頻譜資源,即由時域和頻域組成的RB。本文主要考慮4種切片類型,分別為高清視頻(HDTV,high-definition television)、海量終端物聯(lián)網(wǎng)(MIoT,massive IoT)、EIoT和UEb(UE broadband)。

圖1 多切片網(wǎng)絡(luò)架構(gòu)

針對多異構(gòu)切片共存場景,本文提出了一種基于深度強(qiáng)化學(xué)習(xí)的資源預(yù)留方法框架,如圖2所示。其基本原理是,DRL智能體與無線網(wǎng)絡(luò)環(huán)境不斷交互并獲取環(huán)境的當(dāng)前狀態(tài),智能體根據(jù)當(dāng)前環(huán)境的狀態(tài)選擇一個動作執(zhí)行,執(zhí)行該動作之后會使環(huán)境從當(dāng)前狀態(tài)以某概率轉(zhuǎn)移到另一個狀態(tài),同時環(huán)境反饋給智能體一個獎勵或懲罰。智能體不斷重復(fù)上述過程,以盡可能多地獲得來自環(huán)境的獎勵。

圖2 基于DRL的資源預(yù)留方法框架

首先,資源預(yù)留分成初始資源預(yù)留和動態(tài)資源預(yù)留2個階段。初始資源預(yù)留是指根據(jù)簽訂的QoS協(xié)定,每個基站給各個切片分配一個固定的資源比例。由于應(yīng)急物聯(lián)網(wǎng)切片在單個基站的資源是有限的,因此需要控制接納用戶的數(shù)量。通常,用戶的接納控制可以建模為0-1整數(shù)規(guī)劃問題,并通過已有算法求解,其目標(biāo)為在保證終端的速率和時延要求前提下,最大化物聯(lián)網(wǎng)終端的接入數(shù)量。

第二,由于終端移動性和無線環(huán)境的時變性等固有特點,一旦單個基站應(yīng)急物聯(lián)網(wǎng)切片的終端數(shù)量發(fā)生變化,則可能出現(xiàn)資源不夠或者資源過剩的問題。因此,需要根據(jù)應(yīng)急物聯(lián)網(wǎng)的負(fù)載狀態(tài)進(jìn)行預(yù)測,并動態(tài)調(diào)整切片的資源自適應(yīng)于應(yīng)急物聯(lián)網(wǎng)切片資源需求的動態(tài)變化。進(jìn)而,將切片資源的動態(tài)調(diào)整映射到不同的基站上,即動態(tài)資源預(yù)留。

第三,用戶級物理資源分配由基站完成連接態(tài)用戶數(shù)據(jù)到PRB集合的映射。當(dāng)具體切片的預(yù)留資源V映射到基站資源時,基站需要為該切片的連接態(tài)終端分配PRB資源。然而,不同的多用戶物理資源分配方法會造成系統(tǒng)資源利用率R和用戶QoS滿意度U的差異。在保證切片QoS滿意度的前提下,如何最大化切片的資源效率,是單一切片內(nèi)資源定制化研究的問題。

最后,DRL智能體完成一次切片資源分配,終端即可獲得相應(yīng)的物理RB資源。進(jìn)而,終端獲得QoS滿意度評估,并統(tǒng)計得到該切片的資源利用效率,從而反饋給智能體一個獎勵或懲罰,無線網(wǎng)絡(luò)環(huán)境轉(zhuǎn)移更新至下一個狀態(tài)。智能體將當(dāng)前環(huán)境狀態(tài)、資源分配動作、反饋獎勵和環(huán)境下一個狀態(tài)組成一個四元組,作為一個樣本存儲到記憶池。通過記憶回放機(jī)制,智能體會根據(jù)訓(xùn)練周期配置從記憶池隨機(jī)選取mini-batch樣本數(shù)據(jù)對智能體進(jìn)行強(qiáng)化訓(xùn)練,從而不斷更新神經(jīng)網(wǎng)絡(luò)的系數(shù)來降低損失。

2.2 時延模型

針對應(yīng)急物聯(lián)網(wǎng)場景,EIoT切片對響應(yīng)時延要求較高,而對速率要求可能較低。不同的應(yīng)用服務(wù)切片對響應(yīng)時延和傳輸速率的要求是不同的。因此,需要時延模型有效評估應(yīng)急物聯(lián)網(wǎng)基站對每個終端用戶的服務(wù)時延。本文做如下假設(shè):1)終端用戶u發(fā)送每個數(shù)據(jù)分組到達(dá)的時間服從指數(shù)分布,均值為,并且任意鄰接的2個數(shù)據(jù)分組到達(dá)的時間間隔是相互獨立的,λu為終端用戶u的數(shù)據(jù)分組到達(dá)率,其單位為packet/s;2)某特定切片s所服務(wù)終端u的數(shù)據(jù)分組長度均為Lukbit,而不同切片應(yīng)用的數(shù)據(jù)分組大小是相互獨立的。因此,終端u發(fā)送一個數(shù)據(jù)分組至基站k的時間tuk為

其中,cuk為終端u從基站k實際獲得的傳輸速率,單位為bit/s;則為歸一化的實際傳輸速率,單位為packet/s。基于上述假設(shè),根據(jù)排隊論M/M/1理論模型[17],可以計算出用戶u的數(shù)據(jù)分組的平均服務(wù)時延τuk為

其中,auk是終端u與基站k之間的關(guān)聯(lián)變量,如果用戶u與基站k相關(guān)聯(lián),則auk為1;否則為0。

2.3 效用函數(shù)

效用函數(shù)主要用于表征終端對服務(wù)質(zhì)量的滿意程度。此外,它也是反饋給智能體的回報函數(shù)的一部分。不難理解,不同切片的服務(wù)類型不同,其對速率或者時延要求也不相同,即不同切片的滿意度函數(shù)存在差異。例如,應(yīng)急物聯(lián)網(wǎng)切片的滿意度計算主要依賴于時延,而HDTV切片主要依賴于傳輸速率等。假設(shè)切片s所服務(wù)終端u的最小速率需求為,最大時延需求為。在一個調(diào)度周期T,每個終端根據(jù)獲得的服務(wù)速率和時延自動計算服務(wù)質(zhì)量滿意度Satu,然后對該切片的所有終端的滿意度進(jìn)行平均,即可得到該切片用戶的平均滿意度函數(shù)Sats。

具體地,終端u對速率敏感的服務(wù)質(zhì)量滿意度為

終端u對時延敏感的服務(wù)質(zhì)量滿意度為

其中,β1和β2為Sigmoid函數(shù)的斜率[18]。因此,通過式(3)和式(4)可計算切片s的平均滿意度,其計算式為

3 問題建模

3.1 基于深度強(qiáng)化學(xué)習(xí)的切片資源預(yù)留

面向應(yīng)急物聯(lián)網(wǎng)切片資源預(yù)留,需要對切片資源需求進(jìn)行動態(tài)預(yù)測,該問題可以建模為一個馬爾可夫決策過程,并通過深度強(qiáng)化學(xué)習(xí)算法來解決,從而實現(xiàn)多個異構(gòu)切片的資源共享和隔離。下面以Dueling DQN算法為例,建立馬爾可夫決策模型。智能體的目標(biāo)是尋找一個最優(yōu)策略π*,最大化未來預(yù)期的回報獎勵[19]。

根據(jù)當(dāng)前策略π、狀態(tài)s、動作a,可以得到Q值和狀態(tài)值。

則Q函數(shù)的最優(yōu)方程可表示為

其中,γ為馬爾可夫過程的衰減因子,P為當(dāng)前狀態(tài)st轉(zhuǎn)移到下一個狀態(tài)s′的概率。

根據(jù)式(6)和式(7),決策函數(shù)定義為

其中,狀態(tài)值函數(shù)V用來衡量狀態(tài)s的好壞,值函數(shù)Q用來評價在當(dāng)前狀態(tài)s下選擇某個特定動作a的好壞。

綜上所述,Dueling DQN的輸出可表示為

其中,θ為卷積層參數(shù),?和ξ分別為決策函數(shù)和價值函數(shù)的參數(shù)。然而,可能是無法得到的,因為它僅是真實Q函數(shù)的參數(shù)化估計。因此,本文引入聚合層,分別為狀態(tài)s對應(yīng)的每個動作a生成Q值。

深度強(qiáng)化學(xué)習(xí)為異構(gòu)切片資源需求預(yù)測和切片資源預(yù)留提供了一種通用的算法框架,包含狀態(tài)空間State、動作空間Action和獎勵回報函數(shù)Reward這3個基本要素。針對應(yīng)急物聯(lián)網(wǎng)場景,定義如下。

1)State,表示應(yīng)急物聯(lián)網(wǎng)狀態(tài)。應(yīng)急物聯(lián)網(wǎng)狀態(tài)包含三方面信息,分別為當(dāng)前切片預(yù)留資源數(shù)量、切片資源占用數(shù)量和切片的平均服務(wù)質(zhì)量滿意度,具體可用以下3個數(shù)值表示。切片的資源預(yù)留比例Vs,指切片在整個系統(tǒng)資源的占比,而不是單個基站上的資源占比;切片的資源利用率RUs,指實際使用的資源與切片預(yù)留資源之間的占比;切片QoS滿意度Sats,指該切片所有終端的服務(wù)質(zhì)量滿意度的平均值。針對應(yīng)急物聯(lián)網(wǎng)多個異構(gòu)切片共存場景,State集合定義為

2)Action,表示所執(zhí)行的動作集合。DRL智能體每獲取一個狀態(tài),便會根據(jù)貪心算法選取并執(zhí)行一個動作。針對異構(gòu)切片間的動態(tài)資源預(yù)留問題,動作操作就是動態(tài)調(diào)整切片資源的系統(tǒng)占比。也就是說,在原來的預(yù)留資源數(shù)量的基礎(chǔ)上,增加或減少一定的比例。假設(shè)初始切片預(yù)留的資源比例為Vs,所執(zhí)行的動作為a,則調(diào)整后的資源比例為。由于DRL智能體僅在離散動作空間選取動作,需要將連續(xù)的動作空間進(jìn)行離散化處理。如果單切片場景的動作空間的維度為M,N個切片共存場景,則動作空間的維度為MN。因此,針對異構(gòu)切片共存場景,動作空間的離散程度和粒度大小對于收斂速度有較大的影響。

3)Reward,表示環(huán)境交互所反饋的獎勵回報。在每次迭代中,智能體都會根據(jù)當(dāng)前的環(huán)境狀態(tài)選取并執(zhí)行一個動作,然后環(huán)境轉(zhuǎn)移至下一個狀態(tài)并反饋給智能體一個回報獎勵。一般來說,這個回報獎勵應(yīng)該反映選取的動作是否正確。針對應(yīng)急物聯(lián)網(wǎng)的多切片共存場景,回報獎勵應(yīng)與切片QoS滿意度和切片資源利用率相關(guān)。假設(shè)切片QoS滿意度為Sats,切片資源利用率為RUs,則單個切片的獎勵回報函數(shù)為

其中,α(0≤α≤1)為切片QoS滿意度的權(quán)重,β(0≤β≤1)為切片資源利用率的權(quán)重。整個系統(tǒng)的獎勵回報函數(shù)定義為所有切片獎勵回報函數(shù)之和。如果β與α引入線性關(guān)系,即β=1-α,可以定義一種自適應(yīng)的獎勵回報模型,能夠自動調(diào)整這2個權(quán)重值,自動平衡2個獨立因素對獎勵回報的影響[20]。采用基于分?jǐn)?shù)的合并機(jī)制,使獎勵模型能夠自動學(xué)習(xí)和調(diào)整以適應(yīng)新的場景。

其中,σ(·)為Sigmoid函數(shù),表示每個獎勵度量的重要性。Sigmoid函數(shù)常被用作神經(jīng)網(wǎng)絡(luò)的激活函數(shù),將變量映射到0~1。由于滿意度函數(shù)和資源利用率均為0~1,因此式(14)中的α也為0~1,從而保證式(13)的rs為0~1。自動切片資源預(yù)留算法流程如下。

1)初始化記憶池容量D和mini-batch樣本數(shù)d。

2)初始化輸入狀態(tài)和輸出動作空間的維度,并隨機(jī)初始化神經(jīng)網(wǎng)絡(luò)系數(shù)。

3)設(shè)定epsilon貪心算法的概率控制參數(shù)ε。

4)根據(jù)當(dāng)前狀態(tài)s選取動作,具體動作的選取采用epsilon策略,即隨機(jī)產(chǎn)生一個值π,如果π<ε,則從輸出動作集合中隨機(jī)選擇一個動作a,否則選擇具有最大Q值的動作a。

5)執(zhí)行動作a,即增加或減少切片資源的系統(tǒng)占比,并將切片資源比例映射為基站資源比例,進(jìn)而通過終端物理資源分配,生成系統(tǒng)反饋,即用戶QoS滿意度和資源利用率,并通過式(13)和式(14)計算生成獎勵回報rs。

6)統(tǒng)計切片在各個基站上的資源數(shù)量和比例,更新切片在系統(tǒng)資源的占比,產(chǎn)生下一個環(huán)境狀態(tài)s′。

7)將四元組tuple<s,a,r,s′>作為一個新樣本存儲到記憶池中。

8)如果記憶池已滿,則隨機(jī)選一批數(shù)據(jù)作為mini-batch進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。

9)如果當(dāng)前episode的索引值達(dá)到上限,則算法終止,否則跳到步驟4)。episode表示增強(qiáng)學(xué)習(xí)智能體在環(huán)境中執(zhí)行某個策略從開始到結(jié)束這一過程。

上述流程中,步驟5)采用自適應(yīng)Reward函數(shù)的定義為所提算法的主要創(chuàng)新點,簡化了人工參數(shù)配置,并能夠自動完成參數(shù)配置,Dueling網(wǎng)絡(luò)結(jié)構(gòu)加速了算法收斂,本文在多切片共存場景對自動切片資源預(yù)留算法進(jìn)行了性能驗證。

3.2 基于形狀的用戶資源定制

在既定的切片資源約束的前提下,基站會根據(jù)切片可利用的資源數(shù)量,為關(guān)聯(lián)到該基站的連接態(tài)終端分配物理RB資源。因為每個基站的帶寬是有限的,所以一個重要問題是在一個調(diào)度周期T內(nèi),基站如何協(xié)調(diào)調(diào)度更多的終端數(shù)據(jù)流最大化RB資源的利用率,即盡可能減少資源的空閑。又因為每個切片應(yīng)用的服務(wù)質(zhì)量要求是差異化的,所以需要對用戶資源進(jìn)行定制。綜合以上兩點需求,本文針對異構(gòu)切片共存問題,采用基于形狀的切片內(nèi)物理資源分配模型。類似地,文獻(xiàn)[21]將頻譜資源建模為離散的二維時間頻率網(wǎng)格,通過定義服務(wù)質(zhì)量需求的效用函數(shù),將物理RB分配建模為二維幾何背包問題,采用一種啟發(fā)式算法搜索和取舍不同組合的資源分配選項,并根據(jù)傳輸速率和服務(wù)時延等指標(biāo)評估其算法性能,本文主要將其擴(kuò)展至多異構(gòu)切片場景。

針對應(yīng)急物聯(lián)網(wǎng)及多切片共存應(yīng)用場景,假設(shè)部署了K個基站,對于任意基站k∈{1,2,…,K},均部署了S個切片,而對于任意切片s∈{1,2,…,S},各個切片都有不同的服務(wù)質(zhì)量要求。終端均勻分布在基站周圍,任意終端u∈{1,2,…,Us}都可能請求切片s的服務(wù)。假設(shè)同一切片服務(wù)的所有終端的服務(wù)質(zhì)量要求都相同,而最小速率要求和最大時延要求分別為。針對無線接入網(wǎng)頻譜資源,虛擬化的資源粒度可定義為時隙和帶寬的乘積[22],本文僅考慮虛擬化的資源粒度為RB級。假設(shè)基站的系統(tǒng)帶寬為B,頻域資源離散化表示為M個連續(xù)的RB,每個RB的帶寬為Bm;時域資源離散化表示為T個連續(xù)子幀,每個子幀的時長為tl,整個調(diào)度周期的時間長度為Ttl。因此,根據(jù)香農(nóng)定理,用戶u從基站k得到一個RB(t,m)可以獲得平均傳輸速率為

其中,γuk為終端u和基站k之間信道傳播的信干噪比。充分考慮切片用戶之間的QoS差異化需求,基站需要為特定的切片用戶調(diào)度定制化物理資源,并協(xié)調(diào)多切片用戶在一個調(diào)度幀內(nèi)的資源分配。例如,用戶關(guān)聯(lián)策略需要考慮基站回程可用資源的多少;在給定資源條件下,為異構(gòu)切片用戶協(xié)調(diào)選擇恰當(dāng)?shù)膫鬏敃r隙,滿足其差異化的傳輸時延要求;為了保證所有切片用戶u的實際等待時延滿足其最大時延要求的上限,每個用戶發(fā)送的2個連續(xù)相鄰數(shù)據(jù)分組的時間間隔應(yīng)小于。

基于上述分析,本文提出根據(jù)切片用戶的最小傳輸速率和最大等待時延要求,即更精細(xì)的QoS需求,計算用戶發(fā)送數(shù)據(jù)流所需的時隙和頻域RB分布的形狀,并進(jìn)行基于形狀的物理資源分配。

由式(16)~式(18)可計算出每個切片用戶實際需要的PRB數(shù)量為因此,該P(yáng)RB分配問題可建模為一個二維幾何背包問題。其目的是在有限資源約束條件下,最大化系統(tǒng)頻譜資源利用率[23-24]。基于形狀的PRB映射如圖3所示,基站的整體PRB資源集合可以看作一個由時頻域組成的資源網(wǎng)格G,此資源網(wǎng)格的RB數(shù)量是有限的。

圖3 基于形狀的PRB映射

假設(shè)一個調(diào)度周期T中,同一個RB只能被分配給一個終端用戶,而不能重復(fù)分配,則終端用戶所獲得的PRB集合可看成一個矩形塊Au。Au包含位置信息,為一個向量,可以借助效用函數(shù)UF(u)來評估分配結(jié)果的好壞。一個數(shù)據(jù)流的QoS性能越好,則其分配的Au的效用值越高;反之越低。因此,該二維背包問題的目標(biāo)是最大化所有資源塊的效用之和。目標(biāo)函數(shù)定義為

其中,約束條件(a)表示為用戶u分配的矩形塊Au的大小不能超過其所屬切片s時頻網(wǎng)格Gs的邊界范圍,即為用戶分配的物理資源塊是有限制的;約束條件(b)表示2個用戶資源Au之間不能交疊,即相互隔離并獨立;約束條件(c)表示用戶u分配矩形資源塊的決策變量,0表示不分配,1表示分配。值得注意的是,所有的矩形塊Au不能進(jìn)行旋轉(zhuǎn)操作,即矩形塊的邊必須和資源網(wǎng)格的邊保持平行。時頻資源網(wǎng)格的資源塊的填充目的是在保證用戶QoS滿意度的前提下,最大化頻譜資源利用率。本文采用左下對齊填充(BLP,bottom left-justified packing)算法對上述模型進(jìn)行數(shù)值求解,其目標(biāo)是最小化矩形塊填充的高度[25]。

4 仿真結(jié)果

4.1 實驗配置

本文系統(tǒng)仿真的場景配置參考了5G接入網(wǎng)相關(guān)標(biāo)準(zhǔn),主要系統(tǒng)參數(shù)配置如表1所示。4個基站均勻部署于700 m×700 m的范圍內(nèi),基站的覆蓋半徑為150 m,每2個相鄰基站保持120 m的固定距離。針對無線傳播環(huán)境,采用的路損模型為

其中,d為用戶與基站間的距離,f為信道頻率,PL單位為dB。

針對多異構(gòu)切片共存,本文定義了4個不同類型的切片實例,每一個具體切片提供特定的服務(wù),其QoS需求各不相同。1)EIoT切片具有最高優(yōu)先級,其最大時延需求為10 ms,最小速率需求為10 kbit/s,數(shù)據(jù)分組大小為120 bit,分組到達(dá)率為100 packet/s[26];2)HDTV切片最小速率需求為500 kbit/s,最大時延需求為120 ms,數(shù)據(jù)分組大小為4 000 bit[27];3)MIoT切片最大時延需求為105 ms,最小速率需求為12 kbit/s,數(shù)據(jù)分組大小為500 bit,數(shù)據(jù)分組到達(dá)服從指數(shù)分布,平均為100 packet/s;4)UEb切片最小速率需求為100 kbit/s,最大時延需求為100 ms,其數(shù)據(jù)分組大小為400 bit。仿真實驗共持續(xù)420 s,即用戶持續(xù)傳輸數(shù)據(jù)分組1 000 s。UEb切片和HDTV切片的數(shù)據(jù)分組被建模為指數(shù)分布到達(dá),平均為100 packet/s。

表1 系統(tǒng)參數(shù)配置

算法參數(shù)配置如下,DRL算法學(xué)習(xí)率為0.01,epsilon-greedy值為0.07,記憶池的大小為8 000條樣本記錄,每個mini-batch包含32條數(shù)據(jù)記錄樣本?;诂F(xiàn)有文獻(xiàn)調(diào)研,本文方法與4個已有算法(即Q-leaning[14]、NVS[7]、NetShare[12]和DQN[16])進(jìn)行仿真對比分析。

1)Q-learning

文獻(xiàn)[14]針對5G網(wǎng)絡(luò)的一種特定應(yīng)用(觸覺通信)進(jìn)行動態(tài)資源切片和定制。切片策略基于強(qiáng)化學(xué)習(xí)(Q-learning)技術(shù),該技術(shù)將資源分配給具有不同需求的不同切片,并尋求最佳解決方案。切片策略根據(jù)流量需求估計為切片提供資源。然而,資源切片是在RB級別完成的,會使?fàn)顟B(tài)空間變得非常大,并導(dǎo)致維數(shù)災(zāi)難。由于Q-learning無法解決復(fù)雜的機(jī)器學(xué)習(xí)問題,因此Q-table無法收斂,并且Hap-SliceR采用Q-learning強(qiáng)化學(xué)習(xí)技術(shù),無法為不同種類流量的資源切片問題找到最佳解決方案。

2)NVS

文獻(xiàn)[7]將全局視圖設(shè)置稱為靜態(tài)切片資源配置,也稱為NVS。這種方案假設(shè)切片的每個用戶信道狀態(tài)預(yù)先已知,即不考慮重新關(guān)聯(lián),考慮各個切片權(quán)重,并對資源進(jìn)行統(tǒng)計配置。因此,資源配置僅基于網(wǎng)絡(luò)切片的權(quán)重。

其中,?s為整個網(wǎng)絡(luò)中切片s的權(quán)重,由其所有用戶的總數(shù)據(jù)速率需求定義;Us為s的用戶數(shù)。根據(jù)文獻(xiàn)[7]的靜態(tài)切片資源配置,該切片的網(wǎng)絡(luò)資源共享的固定權(quán)重為

通過W_rats計算切片的資源配置,即利用式(20)和式(21)確定基站之間的資源分配。在NVS中,切片資源份額是通過初始切片中切片的資源需求比例計算的。NVS有2個缺點:首先,這種跨網(wǎng)絡(luò)切片的總資源利用受到靜態(tài)的每個基站資源預(yù)留的影響;其次,NVS不考慮實時和非實時的流量類別。

3)NetShare

文獻(xiàn)[11]提出的NetShare認(rèn)為切片的資源部分在系統(tǒng)級別具有最大和最小的資源限制。NetShare為每個切片設(shè)置基站級資源分配的上限和下限,假設(shè)一個基站的所有資源都被所有切片分配完全。根據(jù)比例公平原則,在基站上通過最大化按資源分配比例縮放的切片需求比例的效用函數(shù),可以在NetShare中周期性地確定切片的動態(tài)資源分配。NetShare為特定切片保留的資源在所有基站之間動態(tài)分配。

4)DQN

文獻(xiàn)[15]針對霧接入網(wǎng)緩存資源切片劃分和模式選擇問題,提出了基于深度強(qiáng)化學(xué)習(xí)的解決辦法。文獻(xiàn)[16]針對異構(gòu)切片無線資源切片劃分問題,提出了基于DQN的資源需求動態(tài)預(yù)測算法,并采用2個切片實例來驗證有益效果。本文主要在文獻(xiàn)[16]的基礎(chǔ)上,擴(kuò)展為4個異構(gòu)切片實例。

4.2 算法收斂性

本節(jié)對基于DRL的切片資源預(yù)留算法的收斂性進(jìn)行對比。仿真實驗運行了3 000個episode,每個episode時長為200 ms,每50個episode取點并繪制Reward曲線,如圖4所示。Q-learning算法的狀態(tài)數(shù)量為128個,Reward函數(shù)定義如式(13)所示,β表示資源利用率的權(quán)重,本文設(shè)β為0或1。當(dāng)β=1時,Dueling DQN和DQN從episode=500開始收斂,其系統(tǒng)Reward達(dá)到最大并歸一化為0.95。Q-learning約從episode=2 100開始收斂,其系統(tǒng)Reward為0.9。當(dāng)β=0時,Dueling DQN和DQN同樣從episode=500開始收斂,但是其最大系統(tǒng)Reward為0.88。Q-learning從episode=2 100后開始收斂,其最大系統(tǒng)Reward為0.75?;贒ueling DQN的資源預(yù)留算法比DQN和Q-learning算法的收斂速度更快。

圖4 Reward曲線

4.3 切片級資源預(yù)留對比

綜合考慮多個異構(gòu)切片共存的場景,本節(jié)基于Dueling DQN、DQN和Q-learning的切片資源分配結(jié)果進(jìn)行比較。在資源視圖中,定義了切片預(yù)留的資源Reserved、切片分配的資源Allocated,以及切片實際使用的資源Used。通常預(yù)留的資源結(jié)果往往大于實際分配的資源結(jié)果。如果某一切片的用戶數(shù)量增加,剩下的未使用資源可以重新分配給其他切片,從而保證了切片之間的安全隔離。本節(jié)配置UEb、HDTV、EIoT和MIoT的用戶數(shù)量最大值分別為60、11、240和124。當(dāng)各個切片用戶數(shù)量不斷增加時,DRL智能體會自動調(diào)整各切片間的資源分配,并將切片的資源比例動態(tài)映射到每個基站,最后進(jìn)行用戶PRB分配。

圖5~圖7為基于DRL的3種算法收斂時的資源分配情況。從圖5可以看出,在高負(fù)載情況下,Dueling DQN的Used和Allocated很接近,但是遠(yuǎn)小于Reserved,且其Allocated比例之和最大為0.752。從圖6可以看出,DQN造成HDTV切片的Allocated和Used差距較大,并且其Allocated比例之和最大為0.824。從圖7可以看出,Q-learning造成Reserved、Allocated和Used分配異常。在輕負(fù)載時,HDTV、MIoT和EIoT切片Used接近Allocated,并且其Allocated比例之和最大為0.95。綜合上述結(jié)果可知,相比Q-learning和DQN,基于Dueling DQN的資源需求預(yù)測和預(yù)留結(jié)果更加準(zhǔn)確可靠,更節(jié)省資源,即能以最少的資源準(zhǔn)確滿足異構(gòu)切片用戶的差異化需求。

圖5 Dueling DQN的資源分配情況

圖6 DQN的資源分配情況

圖7 Q-learning的資源分配情況

4.4 切片級性能對比

通常,切片資源分配的不同造成切片滿意度和切片資源利用的性能不同。本節(jié)對DRL(含DQN和Dueling DQN)、NVS和NetShare進(jìn)行比較,評估DRL切片資源分配的性能。圖8和圖9分別給出了4種方法切片滿意度性能和切片資源利用率性能的對比。從圖8可以看出,MIoT切片在用戶數(shù)量為200時,NetShare方法造成切片滿意度降至0.5以下;NVS方法造成MIoT切片和EIoT切片都存在切片滿意度小于0.5的情況;針對DQN分配結(jié)果,當(dāng)UEb切片在用戶數(shù)量為52時,切片滿意度降至0.5以下;Dueling DQN所有切片的滿意度都保持在0.5以上。類似地,從圖9可以看出,NVS和NetShare造成部分切片的滿意度低于0.5時,其資源利用率為1,從而證明了切片需求預(yù)測和資源預(yù)留的不準(zhǔn)確,即其Allocated不足。Dueling DQN能夠保證4個切片的資源利用率都保持在可接受的水平??梢哉f明,多異構(gòu)切片共存情況下,基于Dueling DQN的資源分配方法具有最佳的性能,可以自動平衡切片滿意度和資源利用率的折中。

4.5 切片間資源隔離

圖8 切片滿意度性能對比

圖9 切片資源利用率性能對比

圖10 切片的資源隔離

針對異構(gòu)切片共存場景,除了用戶滿意度和資源利用率指標(biāo)外,還需要對切片間安全隔離效果進(jìn)行評估。切片間的安全隔離是指,當(dāng)某個切片遭受安全攻擊時,如DDoS(distributed denial of service),其他與之共存的切片的性能不受到影響。所以,安全隔離性能是保障用戶滿意度和系統(tǒng)資源利用率的前提。本節(jié)設(shè)置UEb、HDTV、MIoT和EIoT切片的用戶數(shù)量分別為60、11、240和124。決策周期為6 000個時隙,每個時隙長度為1 ms。根據(jù)最后一個episode的4個切片的資源分配結(jié)果,其Allocated的資源比例分別為0.188、0.211、0.216和0.137。從第2 000個時隙開始,MIoT的用戶數(shù)量增加至420,圖10給出了Dueling DQN的切片性能隔離結(jié)果。從圖10可以看出,UEb和HDTV的切片滿意度和資源利用率指標(biāo)隨著時隙的增加呈現(xiàn)一定的波動,但其切片資源均未用完。而EIoT的切片滿意度和資源利用率則一直保持穩(wěn)定水平。從第2 000個時隙開始,MIoT切片的用戶數(shù)量突然增加至420,其切片滿意度下降至0.25以下,同時資源利用率上升至1,但是并沒有導(dǎo)致其他3個切片的性能大幅下降。

5 結(jié)束語

針對應(yīng)急物聯(lián)網(wǎng)切片資源智能調(diào)度分配問題,本文提出了基于深度強(qiáng)化學(xué)習(xí)的資源預(yù)留和切片間的資源比例動態(tài)調(diào)整策略,以保證切片QoS滿意度為前提,最大化各個切片的資源利用率,并保證切片間的性能安全隔離。針對異構(gòu)切片差異化服務(wù)質(zhì)量要求,物理資源定制問題被建模成一個二維背包問題,使用BLP算法進(jìn)行求解,盡可能減少資源的浪費。系統(tǒng)仿真表明,基于DRL的資源預(yù)留策略的各方面性能均優(yōu)越于NVS和Netshare。

猜你喜歡
資源分配異構(gòu)切片
ETC拓展應(yīng)用場景下的多源異構(gòu)交易系統(tǒng)
試論同課異構(gòu)之“同”與“異”
新研究揭示新冠疫情對資源分配的影響 精讀
新局勢下5G網(wǎng)絡(luò)切片技術(shù)的強(qiáng)化思考
5G網(wǎng)絡(luò)切片技術(shù)增強(qiáng)研究
多源異構(gòu)數(shù)據(jù)整合系統(tǒng)在醫(yī)療大數(shù)據(jù)中的研究
網(wǎng)絡(luò)切片標(biāo)準(zhǔn)分析與發(fā)展現(xiàn)狀
吳健:多元異構(gòu)的數(shù)字敦煌
QoS驅(qū)動的電力通信網(wǎng)效用最大化資源分配機(jī)制①
淺析5G網(wǎng)絡(luò)切片安全
拜泉县| 合江县| 会同县| 沛县| 化德县| 湟源县| 得荣县| 浮梁县| 石屏县| 闻喜县| 昌邑市| 威远县| 韩城市| 柳河县| 沂南县| 德庆县| 谢通门县| 忻州市| 台湾省| 芒康县| 色达县| 当阳市| 化隆| 崇左市| 旌德县| 奇台县| 彭泽县| 昌吉市| 淮滨县| 且末县| 株洲县| 河西区| 通城县| 文化| 长岭县| 昌邑市| 吉安市| 夏津县| 林西县| 克什克腾旗| 四川省|