張偉
(中國聯(lián)合網(wǎng)絡(luò)通信集團有限公司廣東省分公司,廣東 廣州 510630)
隨著移動通信的快速發(fā)展,用戶對業(yè)務(wù)高服務(wù)質(zhì)量(QoE,Quality of Experience)需求不斷增長,以軟件定義網(wǎng)絡(luò)(SDN)的虛擬化技術(shù)與網(wǎng)絡(luò)切片技術(shù)能支持5G網(wǎng)絡(luò)多元服務(wù)及業(yè)務(wù)模型,并在功能、性能和安全保護方面提供差異化的技術(shù)方案。網(wǎng)絡(luò)切片作為一種引入網(wǎng)絡(luò)資源靈活管理的方法,負責完成物理網(wǎng)絡(luò)的虛擬化,按需形成邏輯獨立的虛擬網(wǎng)絡(luò),并負責虛擬資源到物理網(wǎng)絡(luò)資源的映射[1]。然而,切片資源分配,也就是基站側(cè)切片資源管理成為了無線資源管理的方向。對于一個網(wǎng)絡(luò)切片而言,過多的空閑資源會導致資源浪費以及資源利用率下降,過少的資源又不能滿足用戶業(yè)務(wù)QoE 需求,因此,如何將有限的切片資源動態(tài)分配給各個用戶,滿足不同時刻用戶的差異性需求,提高用戶的滿意度是無線資源管理亟待解決的問題。Han 等人[2]基于遺傳算法提出一種新的在線優(yōu)化器,從而形成基于SDN 的動態(tài)網(wǎng)絡(luò)切片資源調(diào)度和管理方法以滿足時變特征的用戶業(yè)務(wù)需求,實驗表明,該優(yōu)化器能有效地逼近最大長期網(wǎng)絡(luò)效用,實現(xiàn)動態(tài)的切片自優(yōu)化策略。Alfoudi 等人[3]提出了一個基于網(wǎng)絡(luò)切片的未來5G 系統(tǒng)的邏輯移動性管理架構(gòu),該架構(gòu)中的每一個切片都是通過異構(gòu)無線接入技術(shù)實現(xiàn)用戶無線資源管理。為了更有效實現(xiàn)切片資源的自適應(yīng)管理,許多學者提出強化學習算法來實現(xiàn)切片資源的自主分配,比如:Sun 等人[4]提出一種基于動態(tài)資源預(yù)留和深度強化學習的下一代無線接入網(wǎng)自治虛擬資源切片框架,首先,該框架根據(jù)虛擬網(wǎng)絡(luò)的最小資源需求比例,定期將未使用的資源保留給虛擬網(wǎng)絡(luò);然后,基于用戶的平均服務(wù)效用質(zhì)量和資源利用率,利用深度強化學習對虛擬網(wǎng)絡(luò)的資源量進行自主控制。Li 等人[5]提出一種基于深度強化學習的網(wǎng)絡(luò)切片資源管理機制,該機制使資源管理與每個切片的用戶活動保持一致,從而實現(xiàn)切片資源的自主管理。Azimi 等人[6]提出一種用于5G 網(wǎng)絡(luò)中RAN 切片的節(jié)能深度強化學習輔助資源分配方法,該方法以深度強化學習(DRL)和深度學習(DL)為學習框架,結(jié)合功率和頻譜資源的約束實現(xiàn)無線切片的資源分配。然而,現(xiàn)有網(wǎng)絡(luò)切片資源分配方案大多數(shù)不夠靈活,導致無法動態(tài)適應(yīng)時延較短的業(yè)務(wù)需求。除此之外,現(xiàn)有的切片分配方案沒有考慮用戶QoE 需求和用戶調(diào)度優(yōu)先級,僅僅從資源匹配性角度實現(xiàn)網(wǎng)絡(luò)切片資源分配。為了解決上述的問題,本文提出一種以用戶QoE 為中心的切片資源分配模型,在用戶QoE 與特定網(wǎng)絡(luò)指標之間進行映射的基礎(chǔ)上,結(jié)合用戶調(diào)度優(yōu)先級,最大化系統(tǒng)的用戶QoS 需求和吞吐量最大化,實現(xiàn)網(wǎng)絡(luò)切片資源分配方案。
強化學習是一種機器學習的方法,智能體通過在環(huán)境中不斷學習修正其選擇的策略從而實現(xiàn)自我改進與優(yōu)化。強化學習的原理如圖1 所示:
圖1 強化學習的原理
圖1 展示了強化學習的過程,強化學習包括幾個變量:智能體、環(huán)境、狀態(tài)、動作。智能體是一個實體,其能夠根據(jù)環(huán)境執(zhí)行某種動作從而獲得獎勵;環(huán)境是指智能體所處于的動態(tài)可變的場景;狀態(tài)是指環(huán)境在某一時刻所處的場景類型;動作是指智能體所采取的行動策略。
強化學習的目標是為了獲得最大化的累積獎勵,智能體為了獲取累積獎勵的最大值,盡量從開始時刻0 到結(jié)束時刻T選擇“正確”的動作,以此達到累積獎勵的最大化。累積獎勵可以表示為:
其中γ是衰減因子,是一個常數(shù),用來評估未來獎勵對當前獎勵的影響。
對于所有狀態(tài)的動作集,如果一個策略π*的期望收益大于其他策略的期望收益,那么在后續(xù)多個時刻中均會采用相同的狀態(tài)動作函數(shù)。最優(yōu)策略π*表達式為:
本文的無線虛擬網(wǎng)絡(luò)資源分配基于SDN 的架構(gòu)實現(xiàn)網(wǎng)絡(luò)切片資源的分配。該架構(gòu)包括切片控制器、基站、切片以及用戶設(shè)備。每一個時刻,用戶設(shè)備會向接收信號強度最大的基站發(fā)送接入請求,基站會根據(jù)用戶請求的業(yè)務(wù)類型分配指定的切片。然而,在現(xiàn)實生活中,由于用戶移動性等原因,網(wǎng)絡(luò)環(huán)境往往是復(fù)雜多變的,因此,基于動態(tài)用戶的需求導致某部分業(yè)務(wù)的切片資源出現(xiàn)大量的閑置現(xiàn)象;而另一部分的切片資源則出現(xiàn)不夠的現(xiàn)象。因此,基于靜態(tài)的切片資源分配方案顯然不滿足動態(tài)的用戶業(yè)務(wù)需求和吞吐量最大化的要求。為了提高用戶滿意度和系統(tǒng)吞吐量,本文采用強化學習的方法實現(xiàn)整體切片資源比例的動態(tài)調(diào)整。
由于用戶業(yè)務(wù)QoE 有固定的需求,本文考慮到現(xiàn)有5G 業(yè)務(wù)的需求,將用戶業(yè)務(wù)QoE 映射為網(wǎng)絡(luò)指標數(shù)據(jù)速率和業(yè)務(wù)時延。本文定義t時隙分配變量表示資源分配決策:
那么對應(yīng)t時隙切片m的吞吐量可以表示為:
根據(jù)用戶吞吐量最大化的目標,考慮功率和用戶優(yōu)先級約束下的切片分配模型為:
本文描述基于強化學習的資源調(diào)度方案,該方案使用基于深度強化學習的動態(tài)資源調(diào)度策略生成資源分配決策。
(1)狀態(tài)
假設(shè)整個無線系統(tǒng)在時隙t的狀態(tài)表示為其中,w表示整個無線系統(tǒng)各個切片的帶寬wi組成的向量,Thu表示整個無線系統(tǒng)的吞吐量,e表示各個切片剩余帶寬組成的向量。
(2)動作空間
(3)回報函數(shù)
回報函數(shù)定義以整個無線系統(tǒng)的吞吐量。
其中,α取值在0-1 之間。
(4)下一個狀態(tài)的變動
當前狀態(tài)下動作空間的選擇,得到累積獎勵函數(shù)為:
(5)資源更新
隨著智能體不斷決策,整個系統(tǒng)的切片資源比例一致在發(fā)生變化,各個切片所分配的帶寬不斷更新。
為了驗證本文的算法,本文構(gòu)建了一個仿真場景,無線資源池覆蓋一個為半徑200 m 的區(qū)域,然后該區(qū)域設(shè)置500 個用戶,并根據(jù)需求發(fā)起eMBB、mMTC 和URLLC 服務(wù),考慮到移動用戶的移動性,各區(qū)域的用戶密度是隨機變化的。為了實現(xiàn)無線切片的動態(tài)分配過程,本文設(shè)置不同業(yè)務(wù)流量模型來設(shè)置對應(yīng)業(yè)務(wù)的文件大小和時從而支撐切片的動態(tài)分配,具體數(shù)據(jù)如表1 所示:
表1 業(yè)務(wù)流量模型參數(shù)
為了展示本文算法的性能,本文采用切片根據(jù)等比例策略設(shè)置和流量比例策略作為對比。等比例策略意味著資源按照預(yù)先設(shè)好的比例平均分配到不同的切片,每個切片獲得1/3 的切片資源。流量比例策略是指將資源按需求按比例分配到不同的切片上。用戶根據(jù)流量模型隨機生成業(yè)務(wù)報文,獲取資源后開始分發(fā)業(yè)務(wù)報文。整個無線資源池在不同分配策略下的系統(tǒng)吞吐量如圖2 所示:
圖2 不同算法吞吐量對比
圖2 表明強化學習策略有效地提高了系統(tǒng)吞吐量。等比率和流量比例策略使吞吐量在1~2 Gbps 左右浮動,而強化學習策略在大部分仿真時間內(nèi)將吞吐量提高到2.5 Gbps 以上。基于強化學習的算法關(guān)注切片總的吞吐量與用戶QoE 上。在切片吞吐量方面,幫助控制器更有針對性管理切片的吞吐量,確保整個無線系統(tǒng)能夠按需供給資源。
本文所闡述的公平性,并不是用戶接入到無線系統(tǒng)后所擁有的同等資源,而是根據(jù)用戶業(yè)務(wù)不同無線資源系統(tǒng)所獲得的用戶體驗(速率和吞吐量)。由此可知,本文策略比等比率策略的用戶體驗提升15% 左右;比流量比例策略的用戶體驗提升6% 左右?;趶娀瘜W習的算法關(guān)注切片總的吞吐量與與用戶QoE上,因此,本文的算法能夠為用戶分配更有針對性的切片,因此本文策略公平性最高。不同算法公平性對比如圖3 所示:
圖3 不同算法公平性對比
除此之外,本文還對三種算法的速率以及時延的性能進行對比,分別如圖4 和圖5 所示。
圖4 不同算法系統(tǒng)時延對比
圖5 不同算法用戶平均速率對比
圖4 表明強化學習策略有效地降低了系統(tǒng)業(yè)務(wù)時延。等比率和流量比例策略使系統(tǒng)業(yè)務(wù)時延在17~23 ms 左右浮動,而強化學習策略在大部分仿真時間內(nèi)將系統(tǒng)業(yè)務(wù)時延降低到15 ms 以下?;趶娀瘜W習的算法關(guān)注切片平均等待時延與用戶業(yè)務(wù)的時延約束,結(jié)合用戶業(yè)務(wù)對時延的需求,幫助控制器更有針對性選擇切片,確保無線系統(tǒng)能夠按需服務(wù)用戶。
圖5 表明強化學習策略有效地提高用戶平均速率。等比率和流量比例策略的速率均在400 Mbps 以下?;趶娀瘜W習的算法關(guān)注用戶業(yè)務(wù)速率的約束,結(jié)合使系統(tǒng)業(yè)務(wù)時延在17~23 ms 左右浮動,而強化學習策略在大部分仿真時間內(nèi)將系統(tǒng)業(yè)務(wù)時延降低到15 ms 以下?;趶娀瘜W習的算法關(guān)注切片所能提供的平均速率與用戶業(yè)務(wù)速率約束,結(jié)合用戶業(yè)務(wù)需求,選擇滿足用戶業(yè)務(wù)速率約束的切片,提高用戶體驗。
為保證用戶的QoE,提升網(wǎng)絡(luò)切片資源分配方案靈活性,本文提出了一種基于強化學習的5G 物聯(lián)網(wǎng)無線資源管理技術(shù)。此外,本文針對高度動態(tài)的無線切片資源動態(tài)變化的問題,引入了強化學習對無線切片資源進行分配,實現(xiàn)了自適應(yīng)的網(wǎng)絡(luò)切片動態(tài)優(yōu)化和端到端服務(wù)的可靠性。仿真結(jié)果表明,基于強化學習的切片資源策略一定程度上具有更好的系統(tǒng)吞吐量和公平性。本文提出的無線切片資源分配方法在5G 切片資源分配方面具有一定的參考意義,可提升無線資源利用率。