摘 要:軟件定義電力物聯(lián)網(wǎng)支持構(gòu)建承載不同業(yè)務的網(wǎng)絡切片(Network Slice,NS),通過部署NS 為具有業(yè)務需求的物聯(lián)網(wǎng)設備提供端到端服務。業(yè)務NS 的部署涉及2 個互相耦合的問題,即虛擬網(wǎng)絡功能(Virtual Network Function,VNF) 部署和業(yè)務傳輸路由確定。在海量業(yè)務需求與動態(tài)網(wǎng)絡場景中,NS 部署方案需要根據(jù)網(wǎng)絡狀態(tài),實現(xiàn)智能的動態(tài)靈活部署。針對上述問題,研究動態(tài)網(wǎng)絡場景下的切片策略,基于深度強化學習算法求解VNF 部署和業(yè)務傳輸路由確定這一復雜聯(lián)合優(yōu)化問題,實驗證明所提策略能根據(jù)目前的網(wǎng)絡狀態(tài)靈活地改變部署方案,控制業(yè)務路由平均能量損耗、平均可靠性和平均剩余帶寬占有率,提高了網(wǎng)絡整體傳輸性能。
關(guān)鍵詞:軟件定義電力物聯(lián)網(wǎng);切片;虛擬網(wǎng)絡功能;路由;深度強化學習
中圖分類號:TM73 文獻標志碼:A 開放科學(資源服務)標識碼(OSID):
文章編號:1003-3106(2024)06-1380-08
0 引言
電力物聯(lián)網(wǎng)[1]是物聯(lián)網(wǎng)技術(shù)在智能電網(wǎng)中應用的產(chǎn)物。近年來,電力物聯(lián)網(wǎng)規(guī)模不斷增大,承載的業(yè)務種類也日益繁多,導致業(yè)務數(shù)據(jù)量呈指數(shù)級增長。在這種情況下,為給眾多物聯(lián)網(wǎng)設備提供服務,供應商需要頻繁更換硬件設備、分配帶寬資源等。然而事實上,更換硬件設備的成本高,而且軟硬件耦合[2]、網(wǎng)絡封閉化,使得服務成本高昂、服務效率低下,給電力物聯(lián)網(wǎng)的發(fā)展帶來了巨大挑戰(zhàn)。隨著軟件定義網(wǎng)絡(Software Defined Network,SDN)和網(wǎng)絡功能虛擬化(Network Function Virtualization,NFV)[3]的出現(xiàn),網(wǎng)絡切片(Network Slice,NS)[4]應運而生,研究者們提出了軟件定義電力物聯(lián)網(wǎng)[5],為解決上述問題提供了新的思路。
新思路的關(guān)鍵是:依據(jù)不同電力業(yè)務需求的特點,將軟件定義電力物聯(lián)網(wǎng)抽象為多個獨立的虛擬化邏輯網(wǎng)絡,即業(yè)務NS,NS 承載具有對應業(yè)務需求的物聯(lián)網(wǎng)設備;利用NFV 實現(xiàn)軟硬件解耦,通過Docker 容器在物聯(lián)網(wǎng)網(wǎng)關(guān)部署多個虛擬網(wǎng)絡功能(Virtual Network Function,VNF)[6],物聯(lián)網(wǎng)設備按需激活網(wǎng)關(guān)上的VNF,并傳輸業(yè)務數(shù)據(jù)。借此,軟件定義電力物聯(lián)網(wǎng)可以通過軟件編程部署業(yè)務NS,實現(xiàn)為物聯(lián)網(wǎng)設備靈活提供端到端服務的目標。然而,在NS 部署過程中,面臨以下問題:一是網(wǎng)絡中存在多個網(wǎng)關(guān),業(yè)務NS 承載的物聯(lián)網(wǎng)設備難以選擇合適的網(wǎng)關(guān)進行部署并激活所需的VNF;二是物聯(lián)網(wǎng)設備在向網(wǎng)關(guān)傳輸業(yè)務數(shù)據(jù)時,使用的路由是基于最短路徑的固定路由,無法根據(jù)網(wǎng)絡狀態(tài)動態(tài)改變。當業(yè)務數(shù)據(jù)量增大時,可能會導致鏈路擁塞,降低路由質(zhì)量,從而影響服務的可靠性。
針對上述問題,學術(shù)界已經(jīng)開展了面向NS 部署的相關(guān)研究。Guan 等[7]采用復雜網(wǎng)絡理論獲取網(wǎng)絡拓撲信息,并通過定義節(jié)點重要性對設備節(jié)點進行排序。然后選擇重要性高的設備來部署VNF,并使用KSP 算法計算多個VNF 之間的傳輸路由,以完成NS 部署。然而,這項研究不屬于電力物聯(lián)網(wǎng)領(lǐng)域,并且使用基于最短路徑的傳輸路由,無法根據(jù)網(wǎng)絡狀態(tài)進行動態(tài)調(diào)整。另一方面,王雅倩等[8]研究了電力物聯(lián)網(wǎng)NS 的VNF 部署問題,并提出了基于升價匹配的多階段多對一部署算法。該算法能夠獲得更小的業(yè)務服務總時延,并滿足時延敏感業(yè)務的需求。然而,這項工作并未考慮如何確定業(yè)務的傳輸路由,因此在實際應用中,NS 無法提供端到端的服務。此外,楊爽等[9]針對電力物聯(lián)網(wǎng)提出了一種基于模擬退火-粒子群算法的NS 部署方案。通過優(yōu)化節(jié)點映射和鏈路映射,該方案能夠得到較好的傳輸路由。然而,在節(jié)點映射過程中,忽略了節(jié)點種類不同和VNF 部署位置等因素,與實際網(wǎng)絡特點不符。綜上所述,盡管已有關(guān)于電力物聯(lián)網(wǎng)NS部署的研究,但大多數(shù)工作只關(guān)注單個問題,如VNF 部署或傳輸路由確定,而忽略了這兩方面是相互耦合的,且現(xiàn)有的傳輸路由也缺乏智能性。
人工智能是當前學術(shù)界研究的熱點問題之一,其中最具代表性的是深度學習[10]、強化學習[11]及深度強化學習[12]。在物聯(lián)網(wǎng)領(lǐng)域,Zhou 等[13]提出了一種基于Qlearning 的路由算法,通過計算設備節(jié)點的剩余能量和深度信息來選擇Q 值較大的路由,以減少數(shù)據(jù)傳輸時延。然而,由于實際網(wǎng)絡的復雜性,該算法的計算量較大,難以實現(xiàn)。在電力通信網(wǎng)絡領(lǐng)域,向敏等[14]提出了基于深度學習的路由策略,通過建立鏈路帶寬占用率預測模型,計算不同路由的選擇度,實驗證明選擇的路由能有效減少傳輸時延。葉萬余等[15]建立了面向電力物聯(lián)網(wǎng)業(yè)務的管理模型,使用深度強化學習算法,將電力業(yè)務傳輸路由的時延和可靠性作為優(yōu)化目標,為業(yè)務NS 按需分配鏈路帶寬資源。然而,以上研究都集中在智能方法如何確定路由或分配資源上,而忽略了NS部署涉及的VNF 部署問題。因此,在軟件定義電力物聯(lián)網(wǎng)領(lǐng)域,還缺乏一種能夠系統(tǒng)地、智能地完成VNF 部署、傳輸路由確定和資源分配的工作。
本文研究了基于深度強化學習的電力物聯(lián)網(wǎng)動態(tài)切片策略,實現(xiàn)在動態(tài)網(wǎng)絡環(huán)境下靈活部署NS,為物聯(lián)網(wǎng)設備提供端到端服務。首先,簡要描述了軟件定義電力物聯(lián)網(wǎng)的架構(gòu)和切片部署過程,通過SDN 控制器管理網(wǎng)絡,提高業(yè)務服務的靈活性和高效性;然后,建立了動態(tài)切片策略的數(shù)學模型,并以平均能量損耗、平均可靠性和平均剩余帶寬占有率為優(yōu)化目標,提出深度強化學習動態(tài)切片算法(DRL-DSA)求解切片策略,該策略能夠根據(jù)網(wǎng)絡狀態(tài)動態(tài)調(diào)整NS 部署方案,以滿足不同業(yè)務數(shù)據(jù)量的需求;最后,通過仿真實驗,驗證了所提策略在解決VNF 部署和業(yè)務傳輸路由確定這一聯(lián)合優(yōu)化問題的同時,保障了平均能量損耗、平均可靠性和平均剩余帶寬占有率等性能,實現(xiàn)了NS 的動態(tài)優(yōu)化部署。
1 系統(tǒng)架構(gòu)及數(shù)學模型
1. 1 系統(tǒng)架構(gòu)
軟件定義電力物聯(lián)網(wǎng)的架構(gòu)如圖1 所示,包括3 層:物聯(lián)網(wǎng)設備層、網(wǎng)關(guān)層和控制器層。在物聯(lián)網(wǎng)設備層,多個物聯(lián)網(wǎng)設備互相連接構(gòu)成Mesh 網(wǎng)絡,這些設備是支持SDN 功能,并能夠采集壓力、溫度和聲音等信息的無線傳感器。網(wǎng)關(guān)層包含一些支持SDN 功能的物聯(lián)網(wǎng)網(wǎng)關(guān),支持使用輕量級虛擬化技術(shù)如Docker 來部署VNF。物聯(lián)網(wǎng)設備采集的數(shù)據(jù)需要傳輸?shù)骄W(wǎng)關(guān)進行邊緣計算。控制器層由SDN控制器組成,例如Ryu、NOX、OpenDayLight 等,控制器負責觀測網(wǎng)絡的實際狀態(tài),確定網(wǎng)關(guān)和傳輸路由,并為相關(guān)物聯(lián)網(wǎng)設備和網(wǎng)關(guān)安裝流表,通過管理網(wǎng)絡并控制業(yè)務數(shù)據(jù)的轉(zhuǎn)發(fā),提高業(yè)務服務的靈活性和高效性。此外,從圖中可以看出,軟件定義電力物聯(lián)網(wǎng)中可以存在多個業(yè)務NS。每個業(yè)務NS 承載著具有各自業(yè)務需求的物聯(lián)網(wǎng)設備,包含若干個業(yè)務流,通過部署業(yè)務NS,能夠有效地提供業(yè)務服務,提高電力物聯(lián)網(wǎng)的并發(fā)性。當部署業(yè)務NS 時,需要從網(wǎng)關(guān)層中為物聯(lián)網(wǎng)設備選擇合適的網(wǎng)關(guān)來激活所需的VNF,并確定傳輸路由以傳輸業(yè)務數(shù)據(jù)。通過這種方式,軟件定義電力物聯(lián)網(wǎng)實現(xiàn)了為具有業(yè)務需求的物聯(lián)網(wǎng)設備提供端到端服務的目標。
所提動態(tài)切片策略能根據(jù)網(wǎng)絡狀態(tài)調(diào)整NS 部署方案,支持同時確定VNF 部署和傳輸路由;在數(shù)學模型中,給出了計算NS 所需鏈路帶寬資源的方法。通過優(yōu)化動態(tài)NS 部署方案,能提高網(wǎng)絡性能,為物聯(lián)網(wǎng)設備提高服務質(zhì)量。
1. 2 數(shù)學模型
軟件定義電力物聯(lián)網(wǎng)的節(jié)點集合N 由物聯(lián)網(wǎng)設備集合D、網(wǎng)關(guān)集合I、控制器集合B 組成,即N =D∪I∪B;鏈路集合E 由物聯(lián)網(wǎng)設備之間的鏈路集合ED 、物聯(lián)網(wǎng)設備與網(wǎng)關(guān)之間的鏈路集合EI、網(wǎng)關(guān)與控制器之間的鏈路集合EB 組成,即E = ED ∪EI∪EB 。
假設業(yè)務NS 內(nèi),具有業(yè)務需求的物聯(lián)網(wǎng)設備集合為U,顯然U-D,物聯(lián)網(wǎng)設備節(jié)點nd ∈U;可被選擇部署VNF 的候選網(wǎng)關(guān)集合為G,顯然G-I,網(wǎng)關(guān)節(jié)點ni∈G;物聯(lián)網(wǎng)設備nd 到網(wǎng)關(guān)ni 的候選路由集合為Pdi,第k 條路徑pdik ∈Pdi。在不失一般性的情況下,不指定節(jié)點類型而使用節(jié)點時,用符號nu或nv 表示,符號euv 表示nu 與nv 之間的鏈路,符號Cuv 表示鏈路euv 的剩余帶寬大小。
本文數(shù)學模型將選擇合適網(wǎng)關(guān)部署VNF 和確定物聯(lián)網(wǎng)設備到網(wǎng)關(guān)的傳輸路由這2 個問題互相耦合。
在部署NS 時,若網(wǎng)關(guān)ni 被某具有業(yè)務需求的物聯(lián)網(wǎng)設備nd 選擇以部署VNF,則變量xi = 1,否則xi = 0。當xi = 1 時,若路由pdik ∈Pdi 被選擇,則變量ydik = 1,否則ydik = 0;當xi = 0 時,變量ydik = 0。滿足:
NS 所服務的業(yè)務的帶寬需求為z,任意鏈路euv所需帶寬資源為buv:
buv = αuv z, (8)
buv ≤ Cuv 。(9)
傳輸路由的能量損耗、可靠性和剩余帶寬占有率是大多數(shù)網(wǎng)絡研究中的主要問題。在軟件定義電力物聯(lián)網(wǎng)業(yè)務NS 部署中,保障這3 個方面的性能,對提升端到端服務質(zhì)量具有重大意義。故本文聯(lián)合上述3 個性能構(gòu)建優(yōu)化目標。
能量損耗的計算采用經(jīng)典的二維功耗模型[16]。規(guī)定任意鏈路euv 的實際距離為luv m,任意設備接收t bit 數(shù)據(jù)將消耗式(10)所示能量,發(fā)送和傳輸t bit數(shù)據(jù)將消耗式(11)所示能量:
聯(lián)合優(yōu)化目標方程如式(17)所示,令該優(yōu)化目標的值越大性能越好。
maxy e-Eave + rel + wr 。 (17)
2 動態(tài)切片策略
2. 1 馬爾科夫決策過程
馬爾科夫決策過程是對完全可觀測環(huán)境進行的描述。在使用深度強化學習求解前,要把待求解問題建模為馬爾科夫決策過程。馬爾科夫決策過程包含獎勵、決策,可用四元組(S,a,r,S′)表示,具體如下:
① S表示所有狀態(tài)的集合。
② a 表示選擇的動作,從動作空間選擇表示。
③ r(S,a,S′)表示在狀態(tài)S 下執(zhí)行動作a,狀態(tài)轉(zhuǎn)移至新狀態(tài)S′時獲得的獎勵。
④ S′表示執(zhí)行動作之后,新狀態(tài)的集合。
智能體通過觀察當前環(huán)境狀態(tài)來選擇動作,并將所選動作應用于環(huán)境中,接著環(huán)境會給予智能體反饋,包括執(zhí)行動作所獲得的獎勵和新的狀態(tài)。根據(jù)環(huán)境反饋的獎勵和新狀態(tài),智能體做出新的動作決策。通過不斷重復上述過程,智能體進行訓練直到收斂,以達到理想的結(jié)果。在這個過程中,獎勵的反饋過程體現(xiàn)了馬爾科夫決策過程的特點。
2. 2 雙深度Q 網(wǎng)絡算法
常見的深度強化學習方法有兩大類[17]:基于值函數(shù)的學習方法和基于策略的學習方法。其中,深度Q 網(wǎng)絡(Deep Q-network,DQN)[18]算法和雙深度Q 網(wǎng)絡(Double Deep Q-network,DDQN)[19]算法是經(jīng)典的基于值函數(shù)的學習方法,適用于具有離散動作空間的任務,符合本場景需求。
傳統(tǒng)DQN 算法會高估某些動作的Q 值,導致智能體選擇的動作不穩(wěn)定,于是,研究者提出DDQN算法對其優(yōu)化。DDQN 算法與DQN 算法的網(wǎng)絡構(gòu)造一致,均由一個訓練網(wǎng)絡和一個目標網(wǎng)絡組成。DDQN 算法在選擇下一個動作時使用訓練網(wǎng)絡來估計Q 值,但在評估下一個狀態(tài)的最佳動作時使用目標網(wǎng)絡來估計Q 值。計算如下:
Qt(S,a) = r + γQt(S′,argmax a′(Q(S′,a′)))。(18)
目標網(wǎng)絡是一個與訓練網(wǎng)絡結(jié)構(gòu)相同但參數(shù)不同的網(wǎng)絡,用于計算目標Q 值。訓練網(wǎng)絡的參數(shù)實時更新,目標網(wǎng)絡的參數(shù)每經(jīng)過固定步數(shù)后更新。參數(shù)更新的依據(jù)是,目標網(wǎng)絡和訓練網(wǎng)絡之間的Q值平方差反向傳播,計算如下:
Loss = (Qt(S,a)- Q(S,a)) 2 。(19)
逐步優(yōu)化2 個網(wǎng)絡的參數(shù),直至訓練出穩(wěn)定的動作價值函數(shù),能輸出最優(yōu)計算方案。
另一方面,DDQN 算法需要大量的數(shù)據(jù)來訓練神經(jīng)網(wǎng)絡參數(shù)。故要先構(gòu)造經(jīng)驗回放池,將智能體隨機探索的數(shù)據(jù)以四元組的形式存放其中,當存放數(shù)量達一定值后,智能體才能從池中隨機抽取樣本輸入網(wǎng)絡進行訓練。從經(jīng)驗回放池中隨機抽取樣本的操作,可以減小所抽樣本之間的相關(guān)性。
2. 3 深度強化學習動態(tài)切片算法
為求解動態(tài)切片策略中的VNF 部署和傳輸路由確定這一聯(lián)合優(yōu)化問題,在DDQN 算法的基礎上,結(jié)合軟件定義電力物聯(lián)網(wǎng)場景,提出DRL-DSA。算法的整體框架如圖2 所示。
狀態(tài)空間S 表示軟件定義電力物聯(lián)網(wǎng)的當前狀態(tài)。狀態(tài)通過網(wǎng)絡鏈路描述,包括鏈路的節(jié)點信息、剩余帶寬資源等,計算如下:
式中:nj1 和nj2 分別表示第j 條鏈路兩端點,cj 表示第j 條鏈路的剩余帶寬資源,| E| 表示軟件定義電力物聯(lián)網(wǎng)中所有鏈路總數(shù)。
動作空間a 表示切片部署方案,包含網(wǎng)關(guān)選擇部署VNF 結(jié)果和傳輸路由結(jié)果。本文欲縮減動作空間來降低計算復雜度,遂使用k-shortest paths 算法,為物聯(lián)網(wǎng)設備逐一選擇M 條到某個網(wǎng)關(guān)的傳輸路由,并構(gòu)造候選路由集合,計算如下:
式中: |U| 表示NS 內(nèi)具有業(yè)務需求的物聯(lián)網(wǎng)設備總數(shù), |G |表示可能被選擇部署VNF 的網(wǎng)關(guān)總數(shù),d 和i 分別表示設備序號和網(wǎng)關(guān)序號,pdik 表示候選路由集合中第k 條路徑。
獎勵函數(shù)r 由聯(lián)合優(yōu)化目標確定,如式(22)所示。隨著業(yè)務數(shù)據(jù)量增大,若當前所選的傳輸路由帶寬充足,將會獲得該獎勵,并繼續(xù)訓練;否則停止訓練。
r = e-Eave + rel + w。(22)
智能體為了處理盡可能多的多業(yè)務數(shù)據(jù),使每輪迭代的累計獎勵值最大化,將靈活地選擇其他剩余帶寬充足的傳輸路由,這樣同時保障了平均能量損耗、平均可靠性和平均剩余帶寬占有率。DRL-DSA 實現(xiàn)流程如算法1 所示。
3 仿真分析
3. 1 仿真環(huán)境及參數(shù)設計
仿真環(huán)境使用Gym 框架編寫,仿真計算平臺為英特爾酷睿i7-10700 CPU,內(nèi)存為16 GB,GPU 為NVIDIA GeForce GTX 1660 SUPER,操作系統(tǒng)為Windows 10。
實驗模擬構(gòu)建一個包含30 個物聯(lián)網(wǎng)設備,5 個物聯(lián)網(wǎng)網(wǎng)關(guān)的軟件定義電力物聯(lián)網(wǎng)拓撲。其中業(yè)務NS 承載5 個具有業(yè)務需求的物聯(lián)網(wǎng)設備,候選3 個可被部署VNF 的物聯(lián)網(wǎng)網(wǎng)關(guān)。網(wǎng)絡拓撲分布在300 m×300 m 范圍內(nèi),鏈路帶寬為1 000 ~ 2 500 B / s,各鏈路的故障率大小為0. 02 ~ 0. 09。
本實驗對比基于最短傳輸路由的SP 切片算法和基于DQN 的Baseline 切片算法,通過設置不同業(yè)務數(shù)據(jù)量進行實驗,分析各個策略在平均能量損耗、平均可靠性、平均剩余帶寬占有率三方面的性能表現(xiàn),證明了本文求解出的動態(tài)切片策略具有有效性和優(yōu)越性。其中,業(yè)務數(shù)據(jù)量大小在512 ~ 1 024 B / s。
設定模型訓練所需的其他參數(shù)值如表1 所示。
3. 2 仿真結(jié)果分析
所提DRL-DSA 切片算法和基于DQN 的Baseline 切片算法同屬于深度強化學習算法,故模型需要若干次重復訓練,直至收斂,才能得到最優(yōu)的動態(tài)切片策略,模型累積的獎勵值將在一個小范圍內(nèi)波動,基本保持穩(wěn)定。圖3 展示了二者的獎勵值變化,當均達到收斂狀態(tài)時,DRL-DSA 獲得的累積獎勵值優(yōu)于Baseline 算法的累積獎勵值。根據(jù)式(22),證明DRL-DSA 算法在上述三方面的性能表現(xiàn)更好。
展開分析各算法在平均能量損耗、平均可靠性和平均剩余帶寬占有率三方面的表現(xiàn)。
在平均能量損耗方面,各算法求得的切片策略性能如圖4 所示。由式(13)可知,平均能量損耗僅和物聯(lián)網(wǎng)設備到所選網(wǎng)關(guān)之間的實際距離相關(guān)。隨著業(yè)務數(shù)據(jù)量增大,平均能量損耗必然增加。其中,由于SP 算法的切片策略是基于最短傳輸路由的策略,故其平均能量損耗必然是最小的。Baseline 算法和DRL-DSA 所求的是隨著網(wǎng)絡狀態(tài)變換的動態(tài)切片策略,為保障網(wǎng)絡整體的性能,某些狀態(tài)下所選的傳輸路由不是最短的,故其平均能量損耗略高,是正常表現(xiàn)。相比較Baseline 算法而言,DRL-DSA 接近SP 算法,平均能量損耗更小,性能更好。
在平均可靠性方面,各算法求得的切片策略性能如圖5 所示。根據(jù)式(15),平均可靠性與物聯(lián)網(wǎng)設備選取的傳輸路由中各鏈路可靠性的乘積相關(guān)。顯然,SP 算法的切片策略不能根據(jù)網(wǎng)絡狀態(tài)改變,其平均可靠性保持不變,且僅依據(jù)傳輸路由的最短距離做決策,未考慮保障可靠性,因此表現(xiàn)最差。在某些業(yè)務數(shù)據(jù)量下,Baseline 算法和DRL-DSA 的策略一致,但后者在平均可靠性方面表現(xiàn)的上限更高,性能更好。
在平均剩余帶寬占有率方面,各算法求得的切片策略性能如圖6 所示。可以看出,因為SP 算法的切片策略一直選擇的是同一條傳輸路由,故隨著業(yè)務數(shù)據(jù)量增大,其平均剩余帶寬占有率呈線性下降。相反,DRL-DSA 和Baseline 算法改變了切片策略,選擇其他剩余帶寬容量大的傳輸路由,顯著限制了平均剩余帶寬占有率下降的速度,且隨著業(yè)務數(shù)據(jù)量增大,二者算法的優(yōu)勢愈發(fā)明顯。但由于DRL-DSA 的動作更加穩(wěn)定,所以探索的切片策略的平均剩余帶寬占有率要高于Baseline 算法探索的切片策略。
4 結(jié)束語
軟件定義電力物聯(lián)網(wǎng)通過部署業(yè)務NS 滿足海量物聯(lián)網(wǎng)設備的電力業(yè)務需求,但傳統(tǒng)的切片策略是基于最短傳輸路由的策略。當業(yè)務數(shù)據(jù)量激增時,傳統(tǒng)的切片策略由于不能根據(jù)當前網(wǎng)絡狀態(tài)靈活改變,將出現(xiàn)可靠性低下、鏈路擁塞等問題。針對上述問題,本文提出了基于深度強化學習的電力物聯(lián)網(wǎng)動態(tài)切片策略,并引入了DRLDSA 來求解該策略。所提策略能夠同時確定VNF 的部署和傳輸路由,并保證傳輸路由在平均能量損耗、平均可靠性和平均剩余帶寬占有率三方面的性能,實驗證明了該策略的有效性。本策略通過加入智能體實現(xiàn)切片的動態(tài)部署,為軟件定義電力物聯(lián)網(wǎng)的后續(xù)研究奠定了基礎。
參考文獻
[1] 何奉祿,陳佳琦,李欽豪,等. 智能電網(wǎng)中的物聯(lián)網(wǎng)技術(shù)應用與發(fā)展[J]. 電力系統(tǒng)保護與控制,2020,48(3):58-69.
[2] 賀金紅,張港紅,高建. 5G 切片技術(shù)在電力物聯(lián)網(wǎng)應用的智能化管理[J]. 電力信息與通信技術(shù),2020,18(5):19-25.
[3] 趙慧玲,史凡. SDN / NFV 的發(fā)展與挑戰(zhàn)[J]. 電信科學,2014,30(8):13-18.
[4] 臧玉華,鄭煥坤,尹世豪. 面向新型電力系統(tǒng)的5G 網(wǎng)絡切片資源分配策略[J]. 河北電力技術(shù),2023,42(1):26-31.
[5] RAFIQUE W,QI L Y,YAQOOB I,et al. ComplementingIoT Services Through Software Defined Networking andEdge Computing:A Comprehensive Survey[J]. IEEE Communications Surveys & Tutorials,2020,22(3):1761-1804.
[6] 李航,溫向明,孔紫璇,等. 面向多樣化需求的網(wǎng)絡切片業(yè)務鏈部署[J]. 北京郵電大學學報,2022,45(2):9-15.
[7] GUAN W Q,WEN X M,WANG L H,et al. A Serviceoriented Deployment Policy of EndtoEnd Network SlicingBased on Complex Network Theory [J]. IEEE Access,2018,6:19691-19701.
[8] 王雅倩,陳心怡,曲睿,等. 基于SDN / NFV 的電力物聯(lián)網(wǎng)時延敏感業(yè)務編排方法[J]. 華北電力大學學報(自然科學版),2023,50(1):84-91.
[9] 楊爽,龔亮亮,胡陽,等. 一種網(wǎng)絡切片編排算法在電力物聯(lián)網(wǎng)中的應用[J]. 電力信息與通信技術(shù),2020,18(12):29-35.
[10] 張菊,郭永峰. 深度學習研究綜述[J]. 教學研究,2021,44(3):6-11.
[11] 劉全,翟建偉,章宗長,等. 深度強化學習綜述[J]. 計算機學報,2018,41(1):1-27.
[12] ZHANG Z D,ZHANG D X,QIU R C. Deep ReinforcementLearning for Power System Applications:An Overview[J].CSEE Journal of Power and Energy Systems,2020,6(1):213-225.
[13] ZHOU Y,CAO T,XIANG W. Anypath Routing ProtocolDesign via QLearning for Underwater Sensor Networks[J].IEEE Internet of Thing Journal,2021,8(10):8173-8190.
[14] 向敏,饒華陽,張進進,等. 基于圖卷積神經(jīng)網(wǎng)絡的軟件定義電力通信網(wǎng)絡路由控制策略[J]. 電子與信息學報,2021,43(2):388-395.
[15] 葉萬余. 面向電力物聯(lián)網(wǎng)URLLC 業(yè)務的智能網(wǎng)絡切片管理方法[J]. 工業(yè)工程,2022,25(1):129-135.
[16] 李鑫,劉楊,劉立業(yè). WSNs 中一種基于強化學習的跟蹤調(diào)度算法[J]. 無線電工程,2023,53(5):1221-1227.
[17] LUONG N C,HOANG D T,GONG S M,et al. Applicationsof Deep Reinforcement Learning in Communications andNetworking:A Survey[J]. IEEE Communications Surveys& Tutorials,2019,21(4):3133-3174.
[18] MNIH V,KAVUKCUOGLU K,SILVER D,et al. Humanlevel Control Through Deep Reinforcement Learning[J].Nature,2015,518(7540):529-533.
[19] VAN HASSELT H,GUEZ A,SILVER D. Deep Reinforcement Learning with Double QLearning[C]∥Proceedingsof the AAAI Conference on Artificial Intelligence.Phoenix:AAAI Press,2016:2094-2100.
作者簡介
辛 銳 男,(1983—),碩士,高級工程師。主要研究方向:大數(shù)據(jù)、人工智能及網(wǎng)絡安全。
(*通信作者)吳軍英 男,(1982—),碩士,高級工程師。主要研究方向:人工智能、物聯(lián)網(wǎng)、邊緣計算。
薛 冰 女,(1999—),碩士研究生。主要研究方向:物聯(lián)網(wǎng)、人工智能。
張鵬飛 男,(1985—),碩士,高級工程師。主要研究方向:物聯(lián)網(wǎng)、自然語言處理。
李艷軍 男,(1977—),碩士,正高級會計師。主要研究方向:財務、技經(jīng)及大數(shù)據(jù)。
柴守亮 男,(1981—),碩士,正高級工程師。主要研究方向:信息通信和網(wǎng)絡安全。
王佳楠 男,(1974—),碩士,工程師。主要研究方向:物聯(lián)網(wǎng)、大數(shù)據(jù)及人工智能。
基金項目:河北省省級科技計劃資助(22310302D)