国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度強化學習的電力物聯(lián)網(wǎng)動態(tài)切片策略研究

2024-09-19 00:00:00辛銳吳軍英薛冰張鵬飛李艷軍柴守亮王佳楠
無線電工程 2024年6期
關(guān)鍵詞:深度強化學習切片路由

摘 要:軟件定義電力物聯(lián)網(wǎng)支持構(gòu)建承載不同業(yè)務的網(wǎng)絡切片(Network Slice,NS),通過部署NS 為具有業(yè)務需求的物聯(lián)網(wǎng)設備提供端到端服務。業(yè)務NS 的部署涉及2 個互相耦合的問題,即虛擬網(wǎng)絡功能(Virtual Network Function,VNF) 部署和業(yè)務傳輸路由確定。在海量業(yè)務需求與動態(tài)網(wǎng)絡場景中,NS 部署方案需要根據(jù)網(wǎng)絡狀態(tài),實現(xiàn)智能的動態(tài)靈活部署。針對上述問題,研究動態(tài)網(wǎng)絡場景下的切片策略,基于深度強化學習算法求解VNF 部署和業(yè)務傳輸路由確定這一復雜聯(lián)合優(yōu)化問題,實驗證明所提策略能根據(jù)目前的網(wǎng)絡狀態(tài)靈活地改變部署方案,控制業(yè)務路由平均能量損耗、平均可靠性和平均剩余帶寬占有率,提高了網(wǎng)絡整體傳輸性能。

關(guān)鍵詞:軟件定義電力物聯(lián)網(wǎng);切片;虛擬網(wǎng)絡功能;路由;深度強化學習

中圖分類號:TM73 文獻標志碼:A 開放科學(資源服務)標識碼(OSID):

文章編號:1003-3106(2024)06-1380-08

0 引言

電力物聯(lián)網(wǎng)[1]是物聯(lián)網(wǎng)技術(shù)在智能電網(wǎng)中應用的產(chǎn)物。近年來,電力物聯(lián)網(wǎng)規(guī)模不斷增大,承載的業(yè)務種類也日益繁多,導致業(yè)務數(shù)據(jù)量呈指數(shù)級增長。在這種情況下,為給眾多物聯(lián)網(wǎng)設備提供服務,供應商需要頻繁更換硬件設備、分配帶寬資源等。然而事實上,更換硬件設備的成本高,而且軟硬件耦合[2]、網(wǎng)絡封閉化,使得服務成本高昂、服務效率低下,給電力物聯(lián)網(wǎng)的發(fā)展帶來了巨大挑戰(zhàn)。隨著軟件定義網(wǎng)絡(Software Defined Network,SDN)和網(wǎng)絡功能虛擬化(Network Function Virtualization,NFV)[3]的出現(xiàn),網(wǎng)絡切片(Network Slice,NS)[4]應運而生,研究者們提出了軟件定義電力物聯(lián)網(wǎng)[5],為解決上述問題提供了新的思路。

新思路的關(guān)鍵是:依據(jù)不同電力業(yè)務需求的特點,將軟件定義電力物聯(lián)網(wǎng)抽象為多個獨立的虛擬化邏輯網(wǎng)絡,即業(yè)務NS,NS 承載具有對應業(yè)務需求的物聯(lián)網(wǎng)設備;利用NFV 實現(xiàn)軟硬件解耦,通過Docker 容器在物聯(lián)網(wǎng)網(wǎng)關(guān)部署多個虛擬網(wǎng)絡功能(Virtual Network Function,VNF)[6],物聯(lián)網(wǎng)設備按需激活網(wǎng)關(guān)上的VNF,并傳輸業(yè)務數(shù)據(jù)。借此,軟件定義電力物聯(lián)網(wǎng)可以通過軟件編程部署業(yè)務NS,實現(xiàn)為物聯(lián)網(wǎng)設備靈活提供端到端服務的目標。然而,在NS 部署過程中,面臨以下問題:一是網(wǎng)絡中存在多個網(wǎng)關(guān),業(yè)務NS 承載的物聯(lián)網(wǎng)設備難以選擇合適的網(wǎng)關(guān)進行部署并激活所需的VNF;二是物聯(lián)網(wǎng)設備在向網(wǎng)關(guān)傳輸業(yè)務數(shù)據(jù)時,使用的路由是基于最短路徑的固定路由,無法根據(jù)網(wǎng)絡狀態(tài)動態(tài)改變。當業(yè)務數(shù)據(jù)量增大時,可能會導致鏈路擁塞,降低路由質(zhì)量,從而影響服務的可靠性。

針對上述問題,學術(shù)界已經(jīng)開展了面向NS 部署的相關(guān)研究。Guan 等[7]采用復雜網(wǎng)絡理論獲取網(wǎng)絡拓撲信息,并通過定義節(jié)點重要性對設備節(jié)點進行排序。然后選擇重要性高的設備來部署VNF,并使用KSP 算法計算多個VNF 之間的傳輸路由,以完成NS 部署。然而,這項研究不屬于電力物聯(lián)網(wǎng)領(lǐng)域,并且使用基于最短路徑的傳輸路由,無法根據(jù)網(wǎng)絡狀態(tài)進行動態(tài)調(diào)整。另一方面,王雅倩等[8]研究了電力物聯(lián)網(wǎng)NS 的VNF 部署問題,并提出了基于升價匹配的多階段多對一部署算法。該算法能夠獲得更小的業(yè)務服務總時延,并滿足時延敏感業(yè)務的需求。然而,這項工作并未考慮如何確定業(yè)務的傳輸路由,因此在實際應用中,NS 無法提供端到端的服務。此外,楊爽等[9]針對電力物聯(lián)網(wǎng)提出了一種基于模擬退火-粒子群算法的NS 部署方案。通過優(yōu)化節(jié)點映射和鏈路映射,該方案能夠得到較好的傳輸路由。然而,在節(jié)點映射過程中,忽略了節(jié)點種類不同和VNF 部署位置等因素,與實際網(wǎng)絡特點不符。綜上所述,盡管已有關(guān)于電力物聯(lián)網(wǎng)NS部署的研究,但大多數(shù)工作只關(guān)注單個問題,如VNF 部署或傳輸路由確定,而忽略了這兩方面是相互耦合的,且現(xiàn)有的傳輸路由也缺乏智能性。

人工智能是當前學術(shù)界研究的熱點問題之一,其中最具代表性的是深度學習[10]、強化學習[11]及深度強化學習[12]。在物聯(lián)網(wǎng)領(lǐng)域,Zhou 等[13]提出了一種基于Qlearning 的路由算法,通過計算設備節(jié)點的剩余能量和深度信息來選擇Q 值較大的路由,以減少數(shù)據(jù)傳輸時延。然而,由于實際網(wǎng)絡的復雜性,該算法的計算量較大,難以實現(xiàn)。在電力通信網(wǎng)絡領(lǐng)域,向敏等[14]提出了基于深度學習的路由策略,通過建立鏈路帶寬占用率預測模型,計算不同路由的選擇度,實驗證明選擇的路由能有效減少傳輸時延。葉萬余等[15]建立了面向電力物聯(lián)網(wǎng)業(yè)務的管理模型,使用深度強化學習算法,將電力業(yè)務傳輸路由的時延和可靠性作為優(yōu)化目標,為業(yè)務NS 按需分配鏈路帶寬資源。然而,以上研究都集中在智能方法如何確定路由或分配資源上,而忽略了NS部署涉及的VNF 部署問題。因此,在軟件定義電力物聯(lián)網(wǎng)領(lǐng)域,還缺乏一種能夠系統(tǒng)地、智能地完成VNF 部署、傳輸路由確定和資源分配的工作。

本文研究了基于深度強化學習的電力物聯(lián)網(wǎng)動態(tài)切片策略,實現(xiàn)在動態(tài)網(wǎng)絡環(huán)境下靈活部署NS,為物聯(lián)網(wǎng)設備提供端到端服務。首先,簡要描述了軟件定義電力物聯(lián)網(wǎng)的架構(gòu)和切片部署過程,通過SDN 控制器管理網(wǎng)絡,提高業(yè)務服務的靈活性和高效性;然后,建立了動態(tài)切片策略的數(shù)學模型,并以平均能量損耗、平均可靠性和平均剩余帶寬占有率為優(yōu)化目標,提出深度強化學習動態(tài)切片算法(DRL-DSA)求解切片策略,該策略能夠根據(jù)網(wǎng)絡狀態(tài)動態(tài)調(diào)整NS 部署方案,以滿足不同業(yè)務數(shù)據(jù)量的需求;最后,通過仿真實驗,驗證了所提策略在解決VNF 部署和業(yè)務傳輸路由確定這一聯(lián)合優(yōu)化問題的同時,保障了平均能量損耗、平均可靠性和平均剩余帶寬占有率等性能,實現(xiàn)了NS 的動態(tài)優(yōu)化部署。

1 系統(tǒng)架構(gòu)及數(shù)學模型

1. 1 系統(tǒng)架構(gòu)

軟件定義電力物聯(lián)網(wǎng)的架構(gòu)如圖1 所示,包括3 層:物聯(lián)網(wǎng)設備層、網(wǎng)關(guān)層和控制器層。在物聯(lián)網(wǎng)設備層,多個物聯(lián)網(wǎng)設備互相連接構(gòu)成Mesh 網(wǎng)絡,這些設備是支持SDN 功能,并能夠采集壓力、溫度和聲音等信息的無線傳感器。網(wǎng)關(guān)層包含一些支持SDN 功能的物聯(lián)網(wǎng)網(wǎng)關(guān),支持使用輕量級虛擬化技術(shù)如Docker 來部署VNF。物聯(lián)網(wǎng)設備采集的數(shù)據(jù)需要傳輸?shù)骄W(wǎng)關(guān)進行邊緣計算。控制器層由SDN控制器組成,例如Ryu、NOX、OpenDayLight 等,控制器負責觀測網(wǎng)絡的實際狀態(tài),確定網(wǎng)關(guān)和傳輸路由,并為相關(guān)物聯(lián)網(wǎng)設備和網(wǎng)關(guān)安裝流表,通過管理網(wǎng)絡并控制業(yè)務數(shù)據(jù)的轉(zhuǎn)發(fā),提高業(yè)務服務的靈活性和高效性。此外,從圖中可以看出,軟件定義電力物聯(lián)網(wǎng)中可以存在多個業(yè)務NS。每個業(yè)務NS 承載著具有各自業(yè)務需求的物聯(lián)網(wǎng)設備,包含若干個業(yè)務流,通過部署業(yè)務NS,能夠有效地提供業(yè)務服務,提高電力物聯(lián)網(wǎng)的并發(fā)性。當部署業(yè)務NS 時,需要從網(wǎng)關(guān)層中為物聯(lián)網(wǎng)設備選擇合適的網(wǎng)關(guān)來激活所需的VNF,并確定傳輸路由以傳輸業(yè)務數(shù)據(jù)。通過這種方式,軟件定義電力物聯(lián)網(wǎng)實現(xiàn)了為具有業(yè)務需求的物聯(lián)網(wǎng)設備提供端到端服務的目標。

所提動態(tài)切片策略能根據(jù)網(wǎng)絡狀態(tài)調(diào)整NS 部署方案,支持同時確定VNF 部署和傳輸路由;在數(shù)學模型中,給出了計算NS 所需鏈路帶寬資源的方法。通過優(yōu)化動態(tài)NS 部署方案,能提高網(wǎng)絡性能,為物聯(lián)網(wǎng)設備提高服務質(zhì)量。

1. 2 數(shù)學模型

軟件定義電力物聯(lián)網(wǎng)的節(jié)點集合N 由物聯(lián)網(wǎng)設備集合D、網(wǎng)關(guān)集合I、控制器集合B 組成,即N =D∪I∪B;鏈路集合E 由物聯(lián)網(wǎng)設備之間的鏈路集合ED 、物聯(lián)網(wǎng)設備與網(wǎng)關(guān)之間的鏈路集合EI、網(wǎng)關(guān)與控制器之間的鏈路集合EB 組成,即E = ED ∪EI∪EB 。

假設業(yè)務NS 內(nèi),具有業(yè)務需求的物聯(lián)網(wǎng)設備集合為U,顯然U-D,物聯(lián)網(wǎng)設備節(jié)點nd ∈U;可被選擇部署VNF 的候選網(wǎng)關(guān)集合為G,顯然G-I,網(wǎng)關(guān)節(jié)點ni∈G;物聯(lián)網(wǎng)設備nd 到網(wǎng)關(guān)ni 的候選路由集合為Pdi,第k 條路徑pdik ∈Pdi。在不失一般性的情況下,不指定節(jié)點類型而使用節(jié)點時,用符號nu或nv 表示,符號euv 表示nu 與nv 之間的鏈路,符號Cuv 表示鏈路euv 的剩余帶寬大小。

本文數(shù)學模型將選擇合適網(wǎng)關(guān)部署VNF 和確定物聯(lián)網(wǎng)設備到網(wǎng)關(guān)的傳輸路由這2 個問題互相耦合。

在部署NS 時,若網(wǎng)關(guān)ni 被某具有業(yè)務需求的物聯(lián)網(wǎng)設備nd 選擇以部署VNF,則變量xi = 1,否則xi = 0。當xi = 1 時,若路由pdik ∈Pdi 被選擇,則變量ydik = 1,否則ydik = 0;當xi = 0 時,變量ydik = 0。滿足:

NS 所服務的業(yè)務的帶寬需求為z,任意鏈路euv所需帶寬資源為buv:

buv = αuv z, (8)

buv ≤ Cuv 。(9)

傳輸路由的能量損耗、可靠性和剩余帶寬占有率是大多數(shù)網(wǎng)絡研究中的主要問題。在軟件定義電力物聯(lián)網(wǎng)業(yè)務NS 部署中,保障這3 個方面的性能,對提升端到端服務質(zhì)量具有重大意義。故本文聯(lián)合上述3 個性能構(gòu)建優(yōu)化目標。

能量損耗的計算采用經(jīng)典的二維功耗模型[16]。規(guī)定任意鏈路euv 的實際距離為luv m,任意設備接收t bit 數(shù)據(jù)將消耗式(10)所示能量,發(fā)送和傳輸t bit數(shù)據(jù)將消耗式(11)所示能量:

聯(lián)合優(yōu)化目標方程如式(17)所示,令該優(yōu)化目標的值越大性能越好。

maxy e-Eave + rel + wr 。 (17)

2 動態(tài)切片策略

2. 1 馬爾科夫決策過程

馬爾科夫決策過程是對完全可觀測環(huán)境進行的描述。在使用深度強化學習求解前,要把待求解問題建模為馬爾科夫決策過程。馬爾科夫決策過程包含獎勵、決策,可用四元組(S,a,r,S′)表示,具體如下:

① S表示所有狀態(tài)的集合。

② a 表示選擇的動作,從動作空間選擇表示。

③ r(S,a,S′)表示在狀態(tài)S 下執(zhí)行動作a,狀態(tài)轉(zhuǎn)移至新狀態(tài)S′時獲得的獎勵。

④ S′表示執(zhí)行動作之后,新狀態(tài)的集合。

智能體通過觀察當前環(huán)境狀態(tài)來選擇動作,并將所選動作應用于環(huán)境中,接著環(huán)境會給予智能體反饋,包括執(zhí)行動作所獲得的獎勵和新的狀態(tài)。根據(jù)環(huán)境反饋的獎勵和新狀態(tài),智能體做出新的動作決策。通過不斷重復上述過程,智能體進行訓練直到收斂,以達到理想的結(jié)果。在這個過程中,獎勵的反饋過程體現(xiàn)了馬爾科夫決策過程的特點。

2. 2 雙深度Q 網(wǎng)絡算法

常見的深度強化學習方法有兩大類[17]:基于值函數(shù)的學習方法和基于策略的學習方法。其中,深度Q 網(wǎng)絡(Deep Q-network,DQN)[18]算法和雙深度Q 網(wǎng)絡(Double Deep Q-network,DDQN)[19]算法是經(jīng)典的基于值函數(shù)的學習方法,適用于具有離散動作空間的任務,符合本場景需求。

傳統(tǒng)DQN 算法會高估某些動作的Q 值,導致智能體選擇的動作不穩(wěn)定,于是,研究者提出DDQN算法對其優(yōu)化。DDQN 算法與DQN 算法的網(wǎng)絡構(gòu)造一致,均由一個訓練網(wǎng)絡和一個目標網(wǎng)絡組成。DDQN 算法在選擇下一個動作時使用訓練網(wǎng)絡來估計Q 值,但在評估下一個狀態(tài)的最佳動作時使用目標網(wǎng)絡來估計Q 值。計算如下:

Qt(S,a) = r + γQt(S′,argmax a′(Q(S′,a′)))。(18)

目標網(wǎng)絡是一個與訓練網(wǎng)絡結(jié)構(gòu)相同但參數(shù)不同的網(wǎng)絡,用于計算目標Q 值。訓練網(wǎng)絡的參數(shù)實時更新,目標網(wǎng)絡的參數(shù)每經(jīng)過固定步數(shù)后更新。參數(shù)更新的依據(jù)是,目標網(wǎng)絡和訓練網(wǎng)絡之間的Q值平方差反向傳播,計算如下:

Loss = (Qt(S,a)- Q(S,a)) 2 。(19)

逐步優(yōu)化2 個網(wǎng)絡的參數(shù),直至訓練出穩(wěn)定的動作價值函數(shù),能輸出最優(yōu)計算方案。

另一方面,DDQN 算法需要大量的數(shù)據(jù)來訓練神經(jīng)網(wǎng)絡參數(shù)。故要先構(gòu)造經(jīng)驗回放池,將智能體隨機探索的數(shù)據(jù)以四元組的形式存放其中,當存放數(shù)量達一定值后,智能體才能從池中隨機抽取樣本輸入網(wǎng)絡進行訓練。從經(jīng)驗回放池中隨機抽取樣本的操作,可以減小所抽樣本之間的相關(guān)性。

2. 3 深度強化學習動態(tài)切片算法

為求解動態(tài)切片策略中的VNF 部署和傳輸路由確定這一聯(lián)合優(yōu)化問題,在DDQN 算法的基礎上,結(jié)合軟件定義電力物聯(lián)網(wǎng)場景,提出DRL-DSA。算法的整體框架如圖2 所示。

狀態(tài)空間S 表示軟件定義電力物聯(lián)網(wǎng)的當前狀態(tài)。狀態(tài)通過網(wǎng)絡鏈路描述,包括鏈路的節(jié)點信息、剩余帶寬資源等,計算如下:

式中:nj1 和nj2 分別表示第j 條鏈路兩端點,cj 表示第j 條鏈路的剩余帶寬資源,| E| 表示軟件定義電力物聯(lián)網(wǎng)中所有鏈路總數(shù)。

動作空間a 表示切片部署方案,包含網(wǎng)關(guān)選擇部署VNF 結(jié)果和傳輸路由結(jié)果。本文欲縮減動作空間來降低計算復雜度,遂使用k-shortest paths 算法,為物聯(lián)網(wǎng)設備逐一選擇M 條到某個網(wǎng)關(guān)的傳輸路由,并構(gòu)造候選路由集合,計算如下:

式中: |U| 表示NS 內(nèi)具有業(yè)務需求的物聯(lián)網(wǎng)設備總數(shù), |G |表示可能被選擇部署VNF 的網(wǎng)關(guān)總數(shù),d 和i 分別表示設備序號和網(wǎng)關(guān)序號,pdik 表示候選路由集合中第k 條路徑。

獎勵函數(shù)r 由聯(lián)合優(yōu)化目標確定,如式(22)所示。隨著業(yè)務數(shù)據(jù)量增大,若當前所選的傳輸路由帶寬充足,將會獲得該獎勵,并繼續(xù)訓練;否則停止訓練。

r = e-Eave + rel + w。(22)

智能體為了處理盡可能多的多業(yè)務數(shù)據(jù),使每輪迭代的累計獎勵值最大化,將靈活地選擇其他剩余帶寬充足的傳輸路由,這樣同時保障了平均能量損耗、平均可靠性和平均剩余帶寬占有率。DRL-DSA 實現(xiàn)流程如算法1 所示。

3 仿真分析

3. 1 仿真環(huán)境及參數(shù)設計

仿真環(huán)境使用Gym 框架編寫,仿真計算平臺為英特爾酷睿i7-10700 CPU,內(nèi)存為16 GB,GPU 為NVIDIA GeForce GTX 1660 SUPER,操作系統(tǒng)為Windows 10。

實驗模擬構(gòu)建一個包含30 個物聯(lián)網(wǎng)設備,5 個物聯(lián)網(wǎng)網(wǎng)關(guān)的軟件定義電力物聯(lián)網(wǎng)拓撲。其中業(yè)務NS 承載5 個具有業(yè)務需求的物聯(lián)網(wǎng)設備,候選3 個可被部署VNF 的物聯(lián)網(wǎng)網(wǎng)關(guān)。網(wǎng)絡拓撲分布在300 m×300 m 范圍內(nèi),鏈路帶寬為1 000 ~ 2 500 B / s,各鏈路的故障率大小為0. 02 ~ 0. 09。

本實驗對比基于最短傳輸路由的SP 切片算法和基于DQN 的Baseline 切片算法,通過設置不同業(yè)務數(shù)據(jù)量進行實驗,分析各個策略在平均能量損耗、平均可靠性、平均剩余帶寬占有率三方面的性能表現(xiàn),證明了本文求解出的動態(tài)切片策略具有有效性和優(yōu)越性。其中,業(yè)務數(shù)據(jù)量大小在512 ~ 1 024 B / s。

設定模型訓練所需的其他參數(shù)值如表1 所示。

3. 2 仿真結(jié)果分析

所提DRL-DSA 切片算法和基于DQN 的Baseline 切片算法同屬于深度強化學習算法,故模型需要若干次重復訓練,直至收斂,才能得到最優(yōu)的動態(tài)切片策略,模型累積的獎勵值將在一個小范圍內(nèi)波動,基本保持穩(wěn)定。圖3 展示了二者的獎勵值變化,當均達到收斂狀態(tài)時,DRL-DSA 獲得的累積獎勵值優(yōu)于Baseline 算法的累積獎勵值。根據(jù)式(22),證明DRL-DSA 算法在上述三方面的性能表現(xiàn)更好。

展開分析各算法在平均能量損耗、平均可靠性和平均剩余帶寬占有率三方面的表現(xiàn)。

在平均能量損耗方面,各算法求得的切片策略性能如圖4 所示。由式(13)可知,平均能量損耗僅和物聯(lián)網(wǎng)設備到所選網(wǎng)關(guān)之間的實際距離相關(guān)。隨著業(yè)務數(shù)據(jù)量增大,平均能量損耗必然增加。其中,由于SP 算法的切片策略是基于最短傳輸路由的策略,故其平均能量損耗必然是最小的。Baseline 算法和DRL-DSA 所求的是隨著網(wǎng)絡狀態(tài)變換的動態(tài)切片策略,為保障網(wǎng)絡整體的性能,某些狀態(tài)下所選的傳輸路由不是最短的,故其平均能量損耗略高,是正常表現(xiàn)。相比較Baseline 算法而言,DRL-DSA 接近SP 算法,平均能量損耗更小,性能更好。

在平均可靠性方面,各算法求得的切片策略性能如圖5 所示。根據(jù)式(15),平均可靠性與物聯(lián)網(wǎng)設備選取的傳輸路由中各鏈路可靠性的乘積相關(guān)。顯然,SP 算法的切片策略不能根據(jù)網(wǎng)絡狀態(tài)改變,其平均可靠性保持不變,且僅依據(jù)傳輸路由的最短距離做決策,未考慮保障可靠性,因此表現(xiàn)最差。在某些業(yè)務數(shù)據(jù)量下,Baseline 算法和DRL-DSA 的策略一致,但后者在平均可靠性方面表現(xiàn)的上限更高,性能更好。

在平均剩余帶寬占有率方面,各算法求得的切片策略性能如圖6 所示。可以看出,因為SP 算法的切片策略一直選擇的是同一條傳輸路由,故隨著業(yè)務數(shù)據(jù)量增大,其平均剩余帶寬占有率呈線性下降。相反,DRL-DSA 和Baseline 算法改變了切片策略,選擇其他剩余帶寬容量大的傳輸路由,顯著限制了平均剩余帶寬占有率下降的速度,且隨著業(yè)務數(shù)據(jù)量增大,二者算法的優(yōu)勢愈發(fā)明顯。但由于DRL-DSA 的動作更加穩(wěn)定,所以探索的切片策略的平均剩余帶寬占有率要高于Baseline 算法探索的切片策略。

4 結(jié)束語

軟件定義電力物聯(lián)網(wǎng)通過部署業(yè)務NS 滿足海量物聯(lián)網(wǎng)設備的電力業(yè)務需求,但傳統(tǒng)的切片策略是基于最短傳輸路由的策略。當業(yè)務數(shù)據(jù)量激增時,傳統(tǒng)的切片策略由于不能根據(jù)當前網(wǎng)絡狀態(tài)靈活改變,將出現(xiàn)可靠性低下、鏈路擁塞等問題。針對上述問題,本文提出了基于深度強化學習的電力物聯(lián)網(wǎng)動態(tài)切片策略,并引入了DRLDSA 來求解該策略。所提策略能夠同時確定VNF 的部署和傳輸路由,并保證傳輸路由在平均能量損耗、平均可靠性和平均剩余帶寬占有率三方面的性能,實驗證明了該策略的有效性。本策略通過加入智能體實現(xiàn)切片的動態(tài)部署,為軟件定義電力物聯(lián)網(wǎng)的后續(xù)研究奠定了基礎。

參考文獻

[1] 何奉祿,陳佳琦,李欽豪,等. 智能電網(wǎng)中的物聯(lián)網(wǎng)技術(shù)應用與發(fā)展[J]. 電力系統(tǒng)保護與控制,2020,48(3):58-69.

[2] 賀金紅,張港紅,高建. 5G 切片技術(shù)在電力物聯(lián)網(wǎng)應用的智能化管理[J]. 電力信息與通信技術(shù),2020,18(5):19-25.

[3] 趙慧玲,史凡. SDN / NFV 的發(fā)展與挑戰(zhàn)[J]. 電信科學,2014,30(8):13-18.

[4] 臧玉華,鄭煥坤,尹世豪. 面向新型電力系統(tǒng)的5G 網(wǎng)絡切片資源分配策略[J]. 河北電力技術(shù),2023,42(1):26-31.

[5] RAFIQUE W,QI L Y,YAQOOB I,et al. ComplementingIoT Services Through Software Defined Networking andEdge Computing:A Comprehensive Survey[J]. IEEE Communications Surveys & Tutorials,2020,22(3):1761-1804.

[6] 李航,溫向明,孔紫璇,等. 面向多樣化需求的網(wǎng)絡切片業(yè)務鏈部署[J]. 北京郵電大學學報,2022,45(2):9-15.

[7] GUAN W Q,WEN X M,WANG L H,et al. A Serviceoriented Deployment Policy of EndtoEnd Network SlicingBased on Complex Network Theory [J]. IEEE Access,2018,6:19691-19701.

[8] 王雅倩,陳心怡,曲睿,等. 基于SDN / NFV 的電力物聯(lián)網(wǎng)時延敏感業(yè)務編排方法[J]. 華北電力大學學報(自然科學版),2023,50(1):84-91.

[9] 楊爽,龔亮亮,胡陽,等. 一種網(wǎng)絡切片編排算法在電力物聯(lián)網(wǎng)中的應用[J]. 電力信息與通信技術(shù),2020,18(12):29-35.

[10] 張菊,郭永峰. 深度學習研究綜述[J]. 教學研究,2021,44(3):6-11.

[11] 劉全,翟建偉,章宗長,等. 深度強化學習綜述[J]. 計算機學報,2018,41(1):1-27.

[12] ZHANG Z D,ZHANG D X,QIU R C. Deep ReinforcementLearning for Power System Applications:An Overview[J].CSEE Journal of Power and Energy Systems,2020,6(1):213-225.

[13] ZHOU Y,CAO T,XIANG W. Anypath Routing ProtocolDesign via QLearning for Underwater Sensor Networks[J].IEEE Internet of Thing Journal,2021,8(10):8173-8190.

[14] 向敏,饒華陽,張進進,等. 基于圖卷積神經(jīng)網(wǎng)絡的軟件定義電力通信網(wǎng)絡路由控制策略[J]. 電子與信息學報,2021,43(2):388-395.

[15] 葉萬余. 面向電力物聯(lián)網(wǎng)URLLC 業(yè)務的智能網(wǎng)絡切片管理方法[J]. 工業(yè)工程,2022,25(1):129-135.

[16] 李鑫,劉楊,劉立業(yè). WSNs 中一種基于強化學習的跟蹤調(diào)度算法[J]. 無線電工程,2023,53(5):1221-1227.

[17] LUONG N C,HOANG D T,GONG S M,et al. Applicationsof Deep Reinforcement Learning in Communications andNetworking:A Survey[J]. IEEE Communications Surveys& Tutorials,2019,21(4):3133-3174.

[18] MNIH V,KAVUKCUOGLU K,SILVER D,et al. Humanlevel Control Through Deep Reinforcement Learning[J].Nature,2015,518(7540):529-533.

[19] VAN HASSELT H,GUEZ A,SILVER D. Deep Reinforcement Learning with Double QLearning[C]∥Proceedingsof the AAAI Conference on Artificial Intelligence.Phoenix:AAAI Press,2016:2094-2100.

作者簡介

辛 銳 男,(1983—),碩士,高級工程師。主要研究方向:大數(shù)據(jù)、人工智能及網(wǎng)絡安全。

(*通信作者)吳軍英 男,(1982—),碩士,高級工程師。主要研究方向:人工智能、物聯(lián)網(wǎng)、邊緣計算。

薛 冰 女,(1999—),碩士研究生。主要研究方向:物聯(lián)網(wǎng)、人工智能。

張鵬飛 男,(1985—),碩士,高級工程師。主要研究方向:物聯(lián)網(wǎng)、自然語言處理。

李艷軍 男,(1977—),碩士,正高級會計師。主要研究方向:財務、技經(jīng)及大數(shù)據(jù)。

柴守亮 男,(1981—),碩士,正高級工程師。主要研究方向:信息通信和網(wǎng)絡安全。

王佳楠 男,(1974—),碩士,工程師。主要研究方向:物聯(lián)網(wǎng)、大數(shù)據(jù)及人工智能。

基金項目:河北省省級科技計劃資助(22310302D)

猜你喜歡
深度強化學習切片路由
關(guān)于人工智能阿法元綜述
商情(2019年14期)2019-06-15 10:20:13
深度強化學習研究進展
關(guān)于人工智能阿法元綜述
西部論叢(2019年9期)2019-03-20 05:18:04
探究路由與環(huán)路的問題
基于深度強化學習的陸軍分隊戰(zhàn)術(shù)決策問題研究
科學與財富(2018年7期)2018-05-21 08:46:30
基于SDN與NFV的網(wǎng)絡切片架構(gòu)
電信科學(2016年11期)2016-11-23 05:07:58
腎穿刺組織冷凍切片技術(shù)的改進方法
冰凍切片、快速石蠟切片在中樞神經(jīng)系統(tǒng)腫瘤診斷中的應用價值比較
PRIME和G3-PLC路由機制對比
WSN中基于等高度路由的源位置隱私保護
計算機工程(2014年6期)2014-02-28 01:25:54
清涧县| 自治县| 丰城市| 庆元县| 措勤县| 大荔县| 枣庄市| 赞皇县| 鹤庆县| 安达市| 博白县| 陈巴尔虎旗| 墨脱县| 大石桥市| 彝良县| 安西县| 神木县| 康乐县| 循化| 兴国县| 永德县| 思南县| 哈巴河县| 逊克县| 满城县| 海原县| 沙湾县| 武隆县| 吉林省| 瑞丽市| 五台县| 台中市| 吉安县| 普安县| 霍林郭勒市| 靖远县| 余江县| 乐业县| 高密市| 重庆市| 阿坝县|