基于DQN的電力物聯(lián)網(wǎng)5G邊緣切片資源管理研究

2022-01-13 14:20陳俊黃飛宇黎作明

電測與儀表 2022年1期

陳俊，黃飛宇，黎作明

(廣東電網(wǎng)有限責(zé)任公司清遠(yuǎn)供電局，廣東清遠(yuǎn) 511510)

0 引言

目前電力物聯(lián)網(wǎng)建設(shè)已初具規(guī)模[1]，文獻(xiàn)[2]從智能電網(wǎng)的各個(gè)環(huán)節(jié)概述了物聯(lián)網(wǎng)技術(shù)在電力領(lǐng)域的已有研究和應(yīng)用基礎(chǔ)；文獻(xiàn)[3]分析了泛在電力物聯(lián)網(wǎng)與堅(jiān)強(qiáng)智能電網(wǎng)、能源互聯(lián)網(wǎng)之間的協(xié)同發(fā)展關(guān)系，并提出了適應(yīng)多維業(yè)務(wù)場景需求的泛在電力物聯(lián)網(wǎng)實(shí)施方案建議；文獻(xiàn)[4]分析了5G時(shí)代下5G通信在泛在電力物聯(lián)網(wǎng)中的應(yīng)用場景。各式各樣的電力物聯(lián)網(wǎng)新業(yè)務(wù)應(yīng)運(yùn)而生，同時(shí)對通信和計(jì)算能力提出了新的挑戰(zhàn)。一方面，部分電力物聯(lián)網(wǎng)業(yè)務(wù)需要高服務(wù)質(zhì)量保障，例如超低時(shí)延和超高可靠性條件，另一方面，不同的新型電力物聯(lián)網(wǎng)業(yè)務(wù)需要差異化的通信和計(jì)算服務(wù)，例如：高帶寬高算力的無人機(jī)巡檢業(yè)務(wù)和高帶寬低算力的精準(zhǔn)負(fù)荷控制業(yè)務(wù)[5]；此外，低算力的電力物聯(lián)網(wǎng)設(shè)備無法支撐高計(jì)算量的新型電力物聯(lián)網(wǎng)業(yè)務(wù)，例如分析海量用戶的用電行為等。

作為解決上述挑戰(zhàn)的有效途徑之一，融合5G通信技術(shù)的移動(dòng)邊緣計(jì)算獲得了飛速的發(fā)展。5G是新一代蜂窩移動(dòng)通信技術(shù)，通過集成多種無線接入技術(shù)為用戶提供極限體驗(yàn)[6-8]。例如， 5G切片技術(shù)能夠?yàn)槌汕先f的物聯(lián)網(wǎng)終端設(shè)備提供高達(dá)10Gbit/s的傳輸速率[9-10]。因此， 5G切片技術(shù)為電力物聯(lián)網(wǎng)提供了強(qiáng)有力的通信支撐。移動(dòng)邊緣計(jì)算是指在網(wǎng)絡(luò)邊緣執(zhí)行計(jì)算的一種新型計(jì)算模型[11-13]。該計(jì)算模式能夠?yàn)橛?jì)算力不足的電力物聯(lián)網(wǎng)設(shè)備提供充足的計(jì)算力來支持其應(yīng)用。也就是說，電力物聯(lián)網(wǎng)設(shè)備可以將其高計(jì)算量的任務(wù)卸載到附近的MEC(Mobile Edge Computing)服務(wù)器，從而滿足服務(wù)需求[14]。因此，電力物聯(lián)網(wǎng)場景下，研究5G邊緣網(wǎng)絡(luò)切片的資源管理方法在實(shí)際應(yīng)用中是十分必要的。

目前， 5G邊緣網(wǎng)絡(luò)切片的資源管理方法已經(jīng)有部分研究工作。文獻(xiàn)[15]提出基于網(wǎng)絡(luò)切片的網(wǎng)絡(luò)效用最大化通信資源分配方法，以最大化運(yùn)營商的收益。文獻(xiàn)[16]針對不同的5G網(wǎng)絡(luò)切片應(yīng)用場景，建立不同的可靠性效用優(yōu)化模型，并采用啟發(fā)式算法求解。上述文獻(xiàn)主要聚焦于通信資源的管理優(yōu)化，卻忽略了同等重要的計(jì)算資源的優(yōu)化。對此，文獻(xiàn)[17]研究了5G邊緣網(wǎng)絡(luò)下通信資源和計(jì)算資源的聯(lián)合優(yōu)化問題，提出了一種基于分布式深度強(qiáng)化學(xué)習(xí)的聯(lián)合資源管理方法。然而，關(guān)于電力物聯(lián)網(wǎng)場景下5G邊緣網(wǎng)絡(luò)切片資源管理方法的研究仍然很少。

文章針對5G電力物聯(lián)網(wǎng)業(yè)務(wù)，提出了一種可靠性衡量指標(biāo)?；谠撝笜?biāo)，設(shè)計(jì)了一種基于深度強(qiáng)化學(xué)習(xí)的5G邊緣網(wǎng)絡(luò)切片的資源管理方法。該方法不僅能實(shí)現(xiàn)5G邊緣網(wǎng)絡(luò)下通信資源和計(jì)算資源的彈性管理，而且能夠滿足不同用戶的差異化需求。文章通過實(shí)驗(yàn)仿真，驗(yàn)證了該方法的有效性。

1 系統(tǒng)模型

在電力物聯(lián)網(wǎng)場景下，存在多種PIoT業(yè)務(wù)，而由于電力系統(tǒng)需要實(shí)時(shí)協(xié)調(diào)廣域的資源，即具有典型的“網(wǎng)”的特征，因此電力系統(tǒng)對通信的“質(zhì)”和“量”都有相當(dāng)?shù)男枨?。其中的業(yè)務(wù)如配網(wǎng)自動(dòng)化，即指利用現(xiàn)代通信技術(shù)和計(jì)算機(jī)技術(shù)，將配電網(wǎng)饋線、設(shè)備和用戶的實(shí)時(shí)與離線信息進(jìn)行整合與集成，實(shí)現(xiàn)配電系統(tǒng)正常運(yùn)行及事故情況下的監(jiān)測、保護(hù)、控制和配電管理。其中的監(jiān)測需要傳輸大數(shù)據(jù)量的視頻數(shù)據(jù)等，需要高帶寬的通信支持，而控制則需要高可靠性通信的支持；又如計(jì)量自動(dòng)化業(yè)務(wù)，即指用電領(lǐng)域用戶或工業(yè)電能表計(jì)的自動(dòng)計(jì)量及其與自動(dòng)化主站的數(shù)據(jù)通信，即“遠(yuǎn)程抄表”。需要接入海量的數(shù)據(jù)采集設(shè)備，需要海量接入通信的支持。所以我們的系統(tǒng)模型考慮的業(yè)務(wù)包括需要高帶寬通信支持的監(jiān)測業(yè)務(wù)，如無人機(jī)巡檢，需要海量接入通信支持的數(shù)據(jù)采集業(yè)務(wù)，如智能電能表檢測，需要高可靠性通信保障的控制類業(yè)務(wù)；如圖1所示。

圖1 系統(tǒng)架構(gòu)圖Fig.1 System architecture diagram

根據(jù)PIoT業(yè)務(wù)的差異化需求，大致可將電力物聯(lián)網(wǎng)業(yè)務(wù)分為以下3類[18-19]，其業(yè)務(wù)需求如表1所示。

表1 電力物聯(lián)網(wǎng)業(yè)務(wù)需求Tab.1 Business requirements of PIoT

由于PIoT終端設(shè)備計(jì)算能力有限，可將PIoT計(jì)算任務(wù)部分卸載到屬于PIoT服務(wù)商的MEC服務(wù)器上[20]。在保證時(shí)延和可靠性要求的前提下，PIoT服務(wù)商為其彈性地分配計(jì)算和通信資源，同時(shí)決策卸載任務(wù)的比例，進(jìn)而最小化能量消耗。接下來，我們將分別闡述能耗模型、時(shí)延模型和可靠性模型。

1.1 能耗模型

我們考慮I個(gè)電力用戶，I個(gè)電力用戶分為J類電力物聯(lián)網(wǎng)業(yè)務(wù)。將屬于第j類電力物聯(lián)網(wǎng)業(yè)務(wù)的第i個(gè)電力用戶記為Uij。在整個(gè)服務(wù)過程中，任務(wù)的能耗主要由計(jì)算能耗和傳輸能耗組成。其中，計(jì)算能耗又分為本地設(shè)備計(jì)算能耗以及MEC服務(wù)器計(jì)算能耗。任務(wù)在本地的計(jì)算能耗可以描述為：

(1)

(2)

(3)

式中pij為電力用戶Uij的數(shù)據(jù)傳輸功率。這里，Rij為電力用戶Uij的數(shù)據(jù)傳輸速率，可以描述為：

(4)

式中Bij為分配給電力用戶Uij的帶寬；N0為背景噪聲；dij為電力用戶Uij的本地設(shè)備到MEC服務(wù)器的距離；hij為電力用戶Uij的信道增益。所以電力用戶Uij的任務(wù)總能耗為：

(5)

1.2 時(shí)延模型

PIoT業(yè)務(wù)不僅需要考慮能量消耗，而且需要考慮時(shí)延要求。

PIoT業(yè)務(wù)時(shí)延可分為3部分：本地計(jì)算時(shí)延、邊緣計(jì)算時(shí)延和任務(wù)傳輸時(shí)延[21]。本地計(jì)算時(shí)延可描述為：

(6)

邊緣計(jì)算時(shí)延可描述為：

(7)

任務(wù)傳輸時(shí)延可描述為：

(8)

所以，電力用戶Uij的任務(wù)總時(shí)延為：

(9)

1.3 可靠性模型

本地設(shè)備和MEC服務(wù)器在服務(wù)過程中可能因硬件或軟件因素而發(fā)生故障。同時(shí)AI模型推斷具有一定的錯(cuò)誤率。因此，PIoT計(jì)算任務(wù)的可靠性可分為兩部分，本地設(shè)備計(jì)算的可靠性和MEC服務(wù)器計(jì)算的可靠性。設(shè)備可靠性可由自然常數(shù)的負(fù)指數(shù)冪函數(shù)描述，圖2為y=e-0.01x的函數(shù)圖像，由圖2可知，隨著x(表示時(shí)延)的增加，y(可靠性)逐漸減小，即隨著通信和計(jì)算時(shí)延的增加，任務(wù)的可靠性會(huì)逐漸降低。

圖2 自然常數(shù)負(fù)指數(shù)冪函數(shù)圖Fig.2 Negative exponential power function of natural constant

上述兩部分同時(shí)考慮了模型推斷的錯(cuò)誤率。對于電力用戶，本地設(shè)備計(jì)算的可靠性可描述為[22]：

(10)

(11)

(12)

式中Aij為人工智能模型的決策準(zhǔn)確率。

2 目標(biāo)函數(shù)及解決方法

2.1 問題描述

PIoT服務(wù)商在滿足電力物聯(lián)網(wǎng)業(yè)務(wù)時(shí)延和可靠性要求的前提下，決策卸載任務(wù)比例、分配計(jì)算資源和通信資源來最小化能量消耗。因此，優(yōu)化的目標(biāo)函數(shù)定義為：

(13)

2.2 解決方法

由于優(yōu)化問題中的目標(biāo)函數(shù)為非凸函數(shù)，隨著用戶數(shù)量的增加，在巨大的決策空間中選擇最優(yōu)決策的傳統(tǒng)算法(如梯度下降法)會(huì)造成過高的時(shí)間復(fù)雜度。因此傳統(tǒng)算法無法適應(yīng)于上述優(yōu)化問題。而強(qiáng)化學(xué)習(xí)的優(yōu)勢在于可以從大量訓(xùn)練樣本中自動(dòng)搜尋有效樣本特征來訓(xùn)練智能體并提升其性能，大大縮短決策時(shí)間。當(dāng)前，深度強(qiáng)化學(xué)習(xí)已經(jīng)在優(yōu)化領(lǐng)域中被廣泛應(yīng)用[23-24]。因此，文章提出了一種基于DQN(Deep Q-learning)的切片管理方法，如圖3所示。其基本原理是，DQN智能體與網(wǎng)絡(luò)環(huán)境不斷交互，同時(shí)獲取環(huán)境的當(dāng)前狀態(tài)，根據(jù)環(huán)境的當(dāng)前狀態(tài)選擇一個(gè)動(dòng)作執(zhí)行，執(zhí)行該動(dòng)作后，環(huán)境會(huì)從當(dāng)前狀態(tài)以某個(gè)概率轉(zhuǎn)移到另一個(gè)狀態(tài)，同時(shí)智能體會(huì)接收到環(huán)境反饋的一個(gè)獎(jiǎng)勵(lì)或懲罰。通過不斷重復(fù)上述過程，智能體會(huì)調(diào)整選擇策略以盡可能多地獲得來自環(huán)境的獎(jiǎng)勵(lì)。

在文章的場景下，DQN智能體完成一次切片資源分配，進(jìn)而得到該計(jì)算任務(wù)能耗，從而反饋給智能體一個(gè)獎(jiǎng)勵(lì)或懲罰，網(wǎng)絡(luò)環(huán)境更新至下一個(gè)狀態(tài)。智能體將當(dāng)前環(huán)境狀態(tài)、資源分配策略、反饋獎(jiǎng)勵(lì)和當(dāng)前環(huán)境的下一個(gè)狀態(tài)組成一個(gè)四元組，作為一個(gè)樣本存儲(chǔ)到記憶池。通過記憶回放機(jī)制，智能體會(huì)根據(jù)訓(xùn)練周期配置從記憶池隨機(jī)選取b個(gè)樣本數(shù)據(jù)進(jìn)行強(qiáng)化訓(xùn)練，從而不斷更新神經(jīng)網(wǎng)絡(luò)的模型參數(shù)來降低損失。

圖3 基于DQN的切片資源管理方法框架圖Fig.3 Framework of slice resource management method based on DQN

DQN為異構(gòu)服務(wù)的切片資源管理提供了一種通用的算法框架，包含狀態(tài)空間(State)、動(dòng)作空間(Action)和獎(jiǎng)勵(lì)回報(bào)函數(shù)(Reward)這3個(gè)基本要素。針對電力物聯(lián)網(wǎng)場景，定義如下：

(2)Action，表示所執(zhí)行的動(dòng)作集合。DQN智能體每獲取一個(gè)狀態(tài)，便會(huì)根據(jù)Q值選取并執(zhí)行一個(gè)動(dòng)作。針對異構(gòu)服務(wù)的切片資源管理問題，動(dòng)作就是動(dòng)態(tài)調(diào)整切片資源的分配策略；

(3)Reward，表示智能體與環(huán)境交互所反饋的獎(jiǎng)勵(lì)回報(bào)。在每次迭代中，智能體都會(huì)根據(jù)當(dāng)前的環(huán)境狀態(tài)選取并執(zhí)行一個(gè)動(dòng)作，然后環(huán)境轉(zhuǎn)移至下一個(gè)狀態(tài)并反饋給智能體一個(gè)獎(jiǎng)勵(lì)或懲罰，來反映選取的動(dòng)作是否正確。針對文章的能耗優(yōu)化場景，回報(bào)獎(jiǎng)勵(lì)應(yīng)與任務(wù)能耗相關(guān)。假設(shè)任務(wù)總能耗為E，則單個(gè)計(jì)算任務(wù)的獎(jiǎng)勵(lì)回報(bào)函數(shù)為：

(14)

式中α為計(jì)算任務(wù)沒有進(jìn)行任務(wù)卸載的計(jì)算能耗。整個(gè)系統(tǒng)的獎(jiǎng)勵(lì)回報(bào)函數(shù)定義為所有計(jì)算任務(wù)的獎(jiǎng)勵(lì)回報(bào)函數(shù)之和。DQN算法流程如圖4所示。

圖4 DQN算法流程圖Fig.4 Flow chart of DQN algorithm

3 仿真結(jié)果

3.1 實(shí)驗(yàn)配置

文章仿真環(huán)境中，假設(shè)PIoT計(jì)算任務(wù)切分為兩個(gè)互相獨(dú)立的任務(wù)，電力用戶數(shù)目為I= 6，分為J=3類業(yè)務(wù)，白噪聲N0=-114 dbm，電力用戶到基站的距離范圍為dij= 0 ～ 300 m，其他參數(shù)設(shè)置如表2所示。

3.2 算法收斂性

圖5描述了基于DQN的切片資源管理算法的收斂性，橫坐標(biāo)為模型訓(xùn)練次數(shù)，縱坐標(biāo)為模型損失函數(shù)值，可以看出，隨著訓(xùn)練次數(shù)增加，損失函數(shù)值逐漸趨近于局部最優(yōu)值，當(dāng)訓(xùn)練次數(shù)接近3 000時(shí)，模型基本收斂，算法收斂。圖6為用戶數(shù)量為2時(shí)隨著迭代次數(shù)與系統(tǒng)能耗關(guān)系圖，橫坐標(biāo)為模型訓(xùn)練次數(shù)，縱坐標(biāo)為系統(tǒng)總能耗，可以看出隨著訓(xùn)練次數(shù)的增加，系統(tǒng)能耗逐漸趨近于局部最優(yōu)值。

表2 參數(shù)設(shè)置表Tab.2 Parameter setting table

圖5 訓(xùn)練次數(shù)與損失函數(shù)值的關(guān)系圖Fig.5 Relationship between training times and loss function value

圖6 訓(xùn)練次數(shù)與系統(tǒng)能耗的關(guān)系圖Fig.6 Relationship between training times and system energy consumption

3.3 系統(tǒng)能耗對比

除了文中提出的網(wǎng)絡(luò)切片管理方法，我們設(shè)置了兩個(gè)對比方法：(1)平均分配網(wǎng)絡(luò)切片資源方法：該方案為每個(gè)電力用戶平均分配網(wǎng)絡(luò)切片資源；(2)按需分配網(wǎng)絡(luò)切片資源方法：該方案根據(jù)不同電力用戶的需求，按權(quán)重為電力用戶分配網(wǎng)絡(luò)切片資源。

圖7、圖8為電力物聯(lián)網(wǎng)業(yè)務(wù)滿足表1的時(shí)延和可靠性約束下的仿真結(jié)果。

圖7 單一服務(wù)下電力用戶數(shù)目與系統(tǒng)能耗的關(guān)系Fig.7 Relationship between the number of power users and system energy consumption under single service

圖8 異構(gòu)服務(wù)下電力用戶數(shù)目與系統(tǒng)能耗的關(guān)系Fig.8 Relationship between the number of power users and system energy consumption under heterogeneous services

圖7描述了單一服務(wù)下文章提出的方案和平均分配方案的系統(tǒng)能耗隨著電力用戶數(shù)量增加的對比圖，橫坐標(biāo)為用戶數(shù)量，縱坐標(biāo)為系統(tǒng)能耗，可以看出，隨著用戶數(shù)量的增加，系統(tǒng)能耗出現(xiàn)波動(dòng)，但文章提出的方案系統(tǒng)能耗優(yōu)于平均分配方案。

圖8描述了異構(gòu)服務(wù)下文章提出的方案和平均分配方案以及按需求分配資源方案的系統(tǒng)能耗隨著電力用戶數(shù)目增加的對比圖。橫軸為電力用戶的數(shù)目，縱軸為系統(tǒng)的能耗。橫坐標(biāo)為用戶數(shù)量，縱坐標(biāo)為系統(tǒng)能耗，可以看出，隨著用戶數(shù)量的增加，系統(tǒng)能耗出現(xiàn)波動(dòng)，但文章提出的方案系統(tǒng)能耗優(yōu)于平均分配方案以及按需求分配資源方案。

4 結(jié)束語

在5G時(shí)代的電力物聯(lián)網(wǎng)系統(tǒng)中，部分電力物聯(lián)網(wǎng)業(yè)務(wù)需要高服務(wù)質(zhì)量保障，例如超低時(shí)延和超高可靠性條件，并且不同的新型電力物聯(lián)網(wǎng)業(yè)務(wù)需要差異化的通信和計(jì)算服務(wù)，同時(shí)低算力的電力物聯(lián)網(wǎng)設(shè)備無法支撐高計(jì)算量的新型電力物聯(lián)網(wǎng)業(yè)務(wù)，面對這樣的挑戰(zhàn)，設(shè)計(jì)一種切片資源管理方法至關(guān)重要。針對5G電力物聯(lián)網(wǎng)業(yè)務(wù)，文章提出了一種可靠性衡量指標(biāo)，基于該指標(biāo)，設(shè)計(jì)了一種基于深度強(qiáng)化學(xué)習(xí)的5G邊緣網(wǎng)絡(luò)切片的資源管理方法。在實(shí)現(xiàn)5G邊緣網(wǎng)絡(luò)下通信資源和計(jì)算資源的彈性管理的同時(shí)，能夠滿足不同用戶的差異化需求。仿真結(jié)果表明，相較于按需求分配資源方法、平均分配資源方法，文章提出的方法能耗更低。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡