基于深度強化學習的電力物聯(lián)網(wǎng)動態(tài)切片策略研究

2024-09-19 00:00:00辛銳吳軍英薛冰張鵬飛李艷軍柴守亮王佳楠

無線電工程 2024年6期

摘要：軟件定義電力物聯(lián)網(wǎng)支持構(gòu)建承載不同業(yè)務的網(wǎng)絡切片（ＮｅｔｗｏｒｋＳｌｉｃｅ，ＮＳ），通過部署ＮＳ為具有業(yè)務需求的物聯(lián)網(wǎng)設備提供端到端服務。業(yè)務ＮＳ的部署涉及２個互相耦合的問題，即虛擬網(wǎng)絡功能（ＶｉｒｔｕａｌＮｅｔｗｏｒｋＦｕｎｃｔｉｏｎ，ＶＮＦ）部署和業(yè)務傳輸路由確定。在海量業(yè)務需求與動態(tài)網(wǎng)絡場景中，ＮＳ部署方案需要根據(jù)網(wǎng)絡狀態(tài)，實現(xiàn)智能的動態(tài)靈活部署。針對上述問題，研究動態(tài)網(wǎng)絡場景下的切片策略，基于深度強化學習算法求解ＶＮＦ部署和業(yè)務傳輸路由確定這一復雜聯(lián)合優(yōu)化問題，實驗證明所提策略能根據(jù)目前的網(wǎng)絡狀態(tài)靈活地改變部署方案，控制業(yè)務路由平均能量損耗、平均可靠性和平均剩余帶寬占有率，提高了網(wǎng)絡整體傳輸性能。

關(guān)鍵詞：軟件定義電力物聯(lián)網(wǎng)；切片；虛擬網(wǎng)絡功能；路由；深度強化學習

中圖分類號：ＴＭ７３文獻標志碼：Ａ開放科學（資源服務）標識碼（ＯＳＩＤ）：

文章編號：１００３－３１０６（２０２４）０６－１３８０－０８

０引言

電力物聯(lián)網(wǎng)［１］是物聯(lián)網(wǎng)技術(shù)在智能電網(wǎng)中應用的產(chǎn)物。近年來，電力物聯(lián)網(wǎng)規(guī)模不斷增大，承載的業(yè)務種類也日益繁多，導致業(yè)務數(shù)據(jù)量呈指數(shù)級增長。在這種情況下，為給眾多物聯(lián)網(wǎng)設備提供服務，供應商需要頻繁更換硬件設備、分配帶寬資源等。然而事實上，更換硬件設備的成本高，而且軟硬件耦合［２］、網(wǎng)絡封閉化，使得服務成本高昂、服務效率低下，給電力物聯(lián)網(wǎng)的發(fā)展帶來了巨大挑戰(zhàn)。隨著軟件定義網(wǎng)絡（ＳｏｆｔｗａｒｅＤｅｆｉｎｅｄＮｅｔｗｏｒｋ，ＳＤＮ）和網(wǎng)絡功能虛擬化（ＮｅｔｗｏｒｋＦｕｎｃｔｉｏｎＶｉｒｔｕａｌｉｚａｔｉｏｎ，ＮＦＶ）［３］的出現(xiàn)，網(wǎng)絡切片（ＮｅｔｗｏｒｋＳｌｉｃｅ，ＮＳ）［４］應運而生，研究者們提出了軟件定義電力物聯(lián)網(wǎng)［５］，為解決上述問題提供了新的思路。

新思路的關(guān)鍵是：依據(jù)不同電力業(yè)務需求的特點，將軟件定義電力物聯(lián)網(wǎng)抽象為多個獨立的虛擬化邏輯網(wǎng)絡，即業(yè)務ＮＳ，ＮＳ承載具有對應業(yè)務需求的物聯(lián)網(wǎng)設備；利用ＮＦＶ實現(xiàn)軟硬件解耦，通過Ｄｏｃｋｅｒ容器在物聯(lián)網(wǎng)網(wǎng)關(guān)部署多個虛擬網(wǎng)絡功能（ＶｉｒｔｕａｌＮｅｔｗｏｒｋＦｕｎｃｔｉｏｎ，ＶＮＦ）［６］，物聯(lián)網(wǎng)設備按需激活網(wǎng)關(guān)上的ＶＮＦ，并傳輸業(yè)務數(shù)據(jù)。借此，軟件定義電力物聯(lián)網(wǎng)可以通過軟件編程部署業(yè)務ＮＳ，實現(xiàn)為物聯(lián)網(wǎng)設備靈活提供端到端服務的目標。然而，在ＮＳ部署過程中，面臨以下問題：一是網(wǎng)絡中存在多個網(wǎng)關(guān)，業(yè)務ＮＳ承載的物聯(lián)網(wǎng)設備難以選擇合適的網(wǎng)關(guān)進行部署并激活所需的ＶＮＦ；二是物聯(lián)網(wǎng)設備在向網(wǎng)關(guān)傳輸業(yè)務數(shù)據(jù)時，使用的路由是基于最短路徑的固定路由，無法根據(jù)網(wǎng)絡狀態(tài)動態(tài)改變。當業(yè)務數(shù)據(jù)量增大時，可能會導致鏈路擁塞，降低路由質(zhì)量，從而影響服務的可靠性。

針對上述問題，學術(shù)界已經(jīng)開展了面向ＮＳ部署的相關(guān)研究。Ｇｕａｎ等［７］采用復雜網(wǎng)絡理論獲取網(wǎng)絡拓撲信息，并通過定義節(jié)點重要性對設備節(jié)點進行排序。然后選擇重要性高的設備來部署ＶＮＦ，并使用ＫＳＰ算法計算多個ＶＮＦ之間的傳輸路由，以完成ＮＳ部署。然而，這項研究不屬于電力物聯(lián)網(wǎng)領(lǐng)域，并且使用基于最短路徑的傳輸路由，無法根據(jù)網(wǎng)絡狀態(tài)進行動態(tài)調(diào)整。另一方面，王雅倩等［８］研究了電力物聯(lián)網(wǎng)ＮＳ的ＶＮＦ部署問題，并提出了基于升價匹配的多階段多對一部署算法。該算法能夠獲得更小的業(yè)務服務總時延，并滿足時延敏感業(yè)務的需求。然而，這項工作并未考慮如何確定業(yè)務的傳輸路由，因此在實際應用中，ＮＳ無法提供端到端的服務。此外，楊爽等［９］針對電力物聯(lián)網(wǎng)提出了一種基于模擬退火－粒子群算法的ＮＳ部署方案。通過優(yōu)化節(jié)點映射和鏈路映射，該方案能夠得到較好的傳輸路由。然而，在節(jié)點映射過程中，忽略了節(jié)點種類不同和ＶＮＦ部署位置等因素，與實際網(wǎng)絡特點不符。綜上所述，盡管已有關(guān)于電力物聯(lián)網(wǎng)ＮＳ部署的研究，但大多數(shù)工作只關(guān)注單個問題，如ＶＮＦ部署或傳輸路由確定，而忽略了這兩方面是相互耦合的，且現(xiàn)有的傳輸路由也缺乏智能性。

人工智能是當前學術(shù)界研究的熱點問題之一，其中最具代表性的是深度學習［１０］、強化學習［１１］及深度強化學習［１２］。在物聯(lián)網(wǎng)領(lǐng)域，Ｚｈｏｕ等［１３］提出了一種基于Ｑｌｅａｒｎｉｎｇ的路由算法，通過計算設備節(jié)點的剩余能量和深度信息來選擇Ｑ值較大的路由，以減少數(shù)據(jù)傳輸時延。然而，由于實際網(wǎng)絡的復雜性，該算法的計算量較大，難以實現(xiàn)。在電力通信網(wǎng)絡領(lǐng)域，向敏等［１４］提出了基于深度學習的路由策略，通過建立鏈路帶寬占用率預測模型，計算不同路由的選擇度，實驗證明選擇的路由能有效減少傳輸時延。葉萬余等［１５］建立了面向電力物聯(lián)網(wǎng)業(yè)務的管理模型，使用深度強化學習算法，將電力業(yè)務傳輸路由的時延和可靠性作為優(yōu)化目標，為業(yè)務ＮＳ按需分配鏈路帶寬資源。然而，以上研究都集中在智能方法如何確定路由或分配資源上，而忽略了ＮＳ部署涉及的ＶＮＦ部署問題。因此，在軟件定義電力物聯(lián)網(wǎng)領(lǐng)域，還缺乏一種能夠系統(tǒng)地、智能地完成ＶＮＦ部署、傳輸路由確定和資源分配的工作。

本文研究了基于深度強化學習的電力物聯(lián)網(wǎng)動態(tài)切片策略，實現(xiàn)在動態(tài)網(wǎng)絡環(huán)境下靈活部署ＮＳ，為物聯(lián)網(wǎng)設備提供端到端服務。首先，簡要描述了軟件定義電力物聯(lián)網(wǎng)的架構(gòu)和切片部署過程，通過ＳＤＮ控制器管理網(wǎng)絡，提高業(yè)務服務的靈活性和高效性；然后，建立了動態(tài)切片策略的數(shù)學模型，并以平均能量損耗、平均可靠性和平均剩余帶寬占有率為優(yōu)化目標，提出深度強化學習動態(tài)切片算法（ＤＲＬ-ＤＳＡ）求解切片策略，該策略能夠根據(jù)網(wǎng)絡狀態(tài)動態(tài)調(diào)整ＮＳ部署方案，以滿足不同業(yè)務數(shù)據(jù)量的需求；最后，通過仿真實驗，驗證了所提策略在解決ＶＮＦ部署和業(yè)務傳輸路由確定這一聯(lián)合優(yōu)化問題的同時，保障了平均能量損耗、平均可靠性和平均剩余帶寬占有率等性能，實現(xiàn)了ＮＳ的動態(tài)優(yōu)化部署。

１系統(tǒng)架構(gòu)及數(shù)學模型

１．１系統(tǒng)架構(gòu)

軟件定義電力物聯(lián)網(wǎng)的架構(gòu)如圖１所示，包括３層：物聯(lián)網(wǎng)設備層、網(wǎng)關(guān)層和控制器層。在物聯(lián)網(wǎng)設備層，多個物聯(lián)網(wǎng)設備互相連接構(gòu)成Ｍｅｓｈ網(wǎng)絡，這些設備是支持ＳＤＮ功能，并能夠采集壓力、溫度和聲音等信息的無線傳感器。網(wǎng)關(guān)層包含一些支持ＳＤＮ功能的物聯(lián)網(wǎng)網(wǎng)關(guān)，支持使用輕量級虛擬化技術(shù)如Ｄｏｃｋｅｒ來部署ＶＮＦ。物聯(lián)網(wǎng)設備采集的數(shù)據(jù)需要傳輸?shù)骄W(wǎng)關(guān)進行邊緣計算。控制器層由ＳＤＮ控制器組成，例如Ｒｙｕ、ＮＯＸ、ＯｐｅｎＤａｙＬｉｇｈｔ等，控制器負責觀測網(wǎng)絡的實際狀態(tài)，確定網(wǎng)關(guān)和傳輸路由，并為相關(guān)物聯(lián)網(wǎng)設備和網(wǎng)關(guān)安裝流表，通過管理網(wǎng)絡并控制業(yè)務數(shù)據(jù)的轉(zhuǎn)發(fā)，提高業(yè)務服務的靈活性和高效性。此外，從圖中可以看出，軟件定義電力物聯(lián)網(wǎng)中可以存在多個業(yè)務ＮＳ。每個業(yè)務ＮＳ承載著具有各自業(yè)務需求的物聯(lián)網(wǎng)設備，包含若干個業(yè)務流，通過部署業(yè)務ＮＳ，能夠有效地提供業(yè)務服務，提高電力物聯(lián)網(wǎng)的并發(fā)性。當部署業(yè)務ＮＳ時，需要從網(wǎng)關(guān)層中為物聯(lián)網(wǎng)設備選擇合適的網(wǎng)關(guān)來激活所需的ＶＮＦ，并確定傳輸路由以傳輸業(yè)務數(shù)據(jù)。通過這種方式，軟件定義電力物聯(lián)網(wǎng)實現(xiàn)了為具有業(yè)務需求的物聯(lián)網(wǎng)設備提供端到端服務的目標。

所提動態(tài)切片策略能根據(jù)網(wǎng)絡狀態(tài)調(diào)整ＮＳ部署方案，支持同時確定ＶＮＦ部署和傳輸路由；在數(shù)學模型中，給出了計算ＮＳ所需鏈路帶寬資源的方法。通過優(yōu)化動態(tài)ＮＳ部署方案，能提高網(wǎng)絡性能，為物聯(lián)網(wǎng)設備提高服務質(zhì)量。

１．２數(shù)學模型

軟件定義電力物聯(lián)網(wǎng)的節(jié)點集合Ｎ由物聯(lián)網(wǎng)設備集合Ｄ、網(wǎng)關(guān)集合Ｉ、控制器集合Ｂ組成，即Ｎ＝Ｄ∪Ｉ∪Ｂ；鏈路集合Ｅ由物聯(lián)網(wǎng)設備之間的鏈路集合ＥＤ、物聯(lián)網(wǎng)設備與網(wǎng)關(guān)之間的鏈路集合ＥＩ、網(wǎng)關(guān)與控制器之間的鏈路集合ＥＢ組成，即Ｅ＝ＥＤ ∪ＥＩ∪ＥＢ。

假設業(yè)務ＮＳ內(nèi)，具有業(yè)務需求的物聯(lián)網(wǎng)設備集合為Ｕ，顯然Ｕ-Ｄ，物聯(lián)網(wǎng)設備節(jié)點ｎｄ ∈Ｕ；可被選擇部署ＶＮＦ的候選網(wǎng)關(guān)集合為Ｇ，顯然Ｇ-Ｉ，網(wǎng)關(guān)節(jié)點ｎｉ∈Ｇ；物聯(lián)網(wǎng)設備ｎｄ到網(wǎng)關(guān)ｎｉ的候選路由集合為Ｐｄｉ，第ｋ條路徑ｐｄｉｋ ∈Ｐｄｉ。在不失一般性的情況下，不指定節(jié)點類型而使用節(jié)點時，用符號ｎｕ或ｎｖ表示，符號ｅｕｖ表示ｎｕ與ｎｖ之間的鏈路，符號Ｃｕｖ表示鏈路ｅｕｖ的剩余帶寬大小。

本文數(shù)學模型將選擇合適網(wǎng)關(guān)部署ＶＮＦ和確定物聯(lián)網(wǎng)設備到網(wǎng)關(guān)的傳輸路由這２個問題互相耦合。

在部署ＮＳ時，若網(wǎng)關(guān)ｎｉ被某具有業(yè)務需求的物聯(lián)網(wǎng)設備ｎｄ選擇以部署ＶＮＦ，則變量ｘｉ＝１，否則ｘｉ＝０。當ｘｉ＝１時，若路由ｐｄｉｋ ∈Ｐｄｉ被選擇，則變量ｙｄｉｋ＝１，否則ｙｄｉｋ＝０；當ｘｉ＝０時，變量ｙｄｉｋ＝０。滿足：

ＮＳ所服務的業(yè)務的帶寬需求為ｚ，任意鏈路ｅｕｖ所需帶寬資源為ｂｕｖ：

ｂｕｖ＝ αｕｖｚ，（８）

ｂｕｖ ≤ Ｃｕｖ。（９）

傳輸路由的能量損耗、可靠性和剩余帶寬占有率是大多數(shù)網(wǎng)絡研究中的主要問題。在軟件定義電力物聯(lián)網(wǎng)業(yè)務ＮＳ部署中，保障這３個方面的性能，對提升端到端服務質(zhì)量具有重大意義。故本文聯(lián)合上述３個性能構(gòu)建優(yōu)化目標。

能量損耗的計算采用經(jīng)典的二維功耗模型［１６］。規(guī)定任意鏈路ｅｕｖ的實際距離為ｌｕｖｍ，任意設備接收ｔｂｉｔ數(shù)據(jù)將消耗式（１０）所示能量，發(fā)送和傳輸ｔｂｉｔ數(shù)據(jù)將消耗式（１１）所示能量：

聯(lián)合優(yōu)化目標方程如式（１７）所示，令該優(yōu)化目標的值越大性能越好。

ｍａｘy ｅ－Ｅａｖｅ＋ｒｅｌ＋ｗr 。（１７）

２動態(tài)切片策略

２．１馬爾科夫決策過程

馬爾科夫決策過程是對完全可觀測環(huán)境進行的描述。在使用深度強化學習求解前，要把待求解問題建模為馬爾科夫決策過程。馬爾科夫決策過程包含獎勵、決策，可用四元組（Ｓ，ａ，ｒ，Ｓ′）表示，具體如下：

① Ｓ表示所有狀態(tài)的集合。

② ａ表示選擇的動作，從動作空間選擇表示。

③ ｒ（Ｓ，ａ，Ｓ′）表示在狀態(tài)Ｓ下執(zhí)行動作ａ，狀態(tài)轉(zhuǎn)移至新狀態(tài)Ｓ′時獲得的獎勵。

④ Ｓ′表示執(zhí)行動作之后，新狀態(tài)的集合。

智能體通過觀察當前環(huán)境狀態(tài)來選擇動作，并將所選動作應用于環(huán)境中，接著環(huán)境會給予智能體反饋，包括執(zhí)行動作所獲得的獎勵和新的狀態(tài)。根據(jù)環(huán)境反饋的獎勵和新狀態(tài)，智能體做出新的動作決策。通過不斷重復上述過程，智能體進行訓練直到收斂，以達到理想的結(jié)果。在這個過程中，獎勵的反饋過程體現(xiàn)了馬爾科夫決策過程的特點。

２．２雙深度Ｑ網(wǎng)絡算法

常見的深度強化學習方法有兩大類［１７］：基于值函數(shù)的學習方法和基于策略的學習方法。其中，深度Ｑ網(wǎng)絡（ＤｅｅｐＱ-ｎｅｔｗｏｒｋ，ＤＱＮ）［１８］算法和雙深度Ｑ網(wǎng)絡（ＤｏｕｂｌｅＤｅｅｐＱ-ｎｅｔｗｏｒｋ，ＤＤＱＮ）［１９］算法是經(jīng)典的基于值函數(shù)的學習方法，適用于具有離散動作空間的任務，符合本場景需求。

傳統(tǒng)ＤＱＮ算法會高估某些動作的Ｑ值，導致智能體選擇的動作不穩(wěn)定，于是，研究者提出ＤＤＱＮ算法對其優(yōu)化。ＤＤＱＮ算法與ＤＱＮ算法的網(wǎng)絡構(gòu)造一致，均由一個訓練網(wǎng)絡和一個目標網(wǎng)絡組成。ＤＤＱＮ算法在選擇下一個動作時使用訓練網(wǎng)絡來估計Ｑ值，但在評估下一個狀態(tài)的最佳動作時使用目標網(wǎng)絡來估計Ｑ值。計算如下：

Ｑｔ（Ｓ，ａ）＝ｒ＋ γＱｔ（Ｓ′，ａｒｇｍａｘａ′（Ｑ（Ｓ′，ａ′）））。（１８）

目標網(wǎng)絡是一個與訓練網(wǎng)絡結(jié)構(gòu)相同但參數(shù)不同的網(wǎng)絡，用于計算目標Ｑ值。訓練網(wǎng)絡的參數(shù)實時更新，目標網(wǎng)絡的參數(shù)每經(jīng)過固定步數(shù)后更新。參數(shù)更新的依據(jù)是，目標網(wǎng)絡和訓練網(wǎng)絡之間的Ｑ值平方差反向傳播，計算如下：

Ｌｏｓｓ＝（Ｑｔ（Ｓ，ａ）－Ｑ（Ｓ，ａ））２。（１９）

逐步優(yōu)化２個網(wǎng)絡的參數(shù)，直至訓練出穩(wěn)定的動作價值函數(shù)，能輸出最優(yōu)計算方案。

另一方面，ＤＤＱＮ算法需要大量的數(shù)據(jù)來訓練神經(jīng)網(wǎng)絡參數(shù)。故要先構(gòu)造經(jīng)驗回放池，將智能體隨機探索的數(shù)據(jù)以四元組的形式存放其中，當存放數(shù)量達一定值后，智能體才能從池中隨機抽取樣本輸入網(wǎng)絡進行訓練。從經(jīng)驗回放池中隨機抽取樣本的操作，可以減小所抽樣本之間的相關(guān)性。

２．３深度強化學習動態(tài)切片算法

為求解動態(tài)切片策略中的ＶＮＦ部署和傳輸路由確定這一聯(lián)合優(yōu)化問題，在ＤＤＱＮ算法的基礎上，結(jié)合軟件定義電力物聯(lián)網(wǎng)場景，提出ＤＲＬ-ＤＳＡ。算法的整體框架如圖２所示。

狀態(tài)空間Ｓ表示軟件定義電力物聯(lián)網(wǎng)的當前狀態(tài)。狀態(tài)通過網(wǎng)絡鏈路描述，包括鏈路的節(jié)點信息、剩余帶寬資源等，計算如下：

式中：ｎｊ１和ｎｊ２分別表示第ｊ條鏈路兩端點，ｃｊ表示第ｊ條鏈路的剩余帶寬資源，｜Ｅ｜表示軟件定義電力物聯(lián)網(wǎng)中所有鏈路總數(shù)。

動作空間ａ表示切片部署方案，包含網(wǎng)關(guān)選擇部署ＶＮＦ結(jié)果和傳輸路由結(jié)果。本文欲縮減動作空間來降低計算復雜度，遂使用ｋ-ｓｈｏｒｔｅｓｔｐａｔｈｓ算法，為物聯(lián)網(wǎng)設備逐一選擇Ｍ條到某個網(wǎng)關(guān)的傳輸路由，并構(gòu)造候選路由集合，計算如下：

式中：｜Ｕ｜表示ＮＳ內(nèi)具有業(yè)務需求的物聯(lián)網(wǎng)設備總數(shù)，｜Ｇ｜表示可能被選擇部署ＶＮＦ的網(wǎng)關(guān)總數(shù)，ｄ和ｉ分別表示設備序號和網(wǎng)關(guān)序號，ｐｄｉｋ表示候選路由集合中第ｋ條路徑。

獎勵函數(shù)ｒ由聯(lián)合優(yōu)化目標確定，如式（２２）所示。隨著業(yè)務數(shù)據(jù)量增大，若當前所選的傳輸路由帶寬充足，將會獲得該獎勵，并繼續(xù)訓練；否則停止訓練。

ｒ＝ｅ－Ｅａｖｅ＋ｒｅｌ＋ｗ。（２２）

智能體為了處理盡可能多的多業(yè)務數(shù)據(jù)，使每輪迭代的累計獎勵值最大化，將靈活地選擇其他剩余帶寬充足的傳輸路由，這樣同時保障了平均能量損耗、平均可靠性和平均剩余帶寬占有率。ＤＲＬ-ＤＳＡ實現(xiàn)流程如算法１所示。

３仿真分析

３．１仿真環(huán)境及參數(shù)設計

仿真環(huán)境使用Ｇｙｍ框架編寫，仿真計算平臺為英特爾酷睿ｉ７-１０７００ＣＰＵ，內(nèi)存為１６ＧＢ，ＧＰＵ為ＮＶＩＤＩＡＧｅＦｏｒｃｅＧＴＸ１６６０ＳＵＰＥＲ，操作系統(tǒng)為Ｗｉｎｄｏｗｓ１０。

實驗模擬構(gòu)建一個包含３０個物聯(lián)網(wǎng)設備，５個物聯(lián)網(wǎng)網(wǎng)關(guān)的軟件定義電力物聯(lián)網(wǎng)拓撲。其中業(yè)務ＮＳ承載５個具有業(yè)務需求的物聯(lián)網(wǎng)設備，候選３個可被部署ＶＮＦ的物聯(lián)網(wǎng)網(wǎng)關(guān)。網(wǎng)絡拓撲分布在３００ｍ×３００ｍ范圍內(nèi)，鏈路帶寬為１０００～２５００Ｂ／ｓ，各鏈路的故障率大小為０．０２～０．０９。

本實驗對比基于最短傳輸路由的ＳＰ切片算法和基于ＤＱＮ的Ｂａｓｅｌｉｎｅ切片算法，通過設置不同業(yè)務數(shù)據(jù)量進行實驗，分析各個策略在平均能量損耗、平均可靠性、平均剩余帶寬占有率三方面的性能表現(xiàn)，證明了本文求解出的動態(tài)切片策略具有有效性和優(yōu)越性。其中，業(yè)務數(shù)據(jù)量大小在５１２～１０２４Ｂ／ｓ。

設定模型訓練所需的其他參數(shù)值如表１所示。

３．２仿真結(jié)果分析

所提ＤＲＬ-ＤＳＡ切片算法和基于ＤＱＮ的Ｂａｓｅｌｉｎｅ切片算法同屬于深度強化學習算法，故模型需要若干次重復訓練，直至收斂，才能得到最優(yōu)的動態(tài)切片策略，模型累積的獎勵值將在一個小范圍內(nèi)波動，基本保持穩(wěn)定。圖３展示了二者的獎勵值變化，當均達到收斂狀態(tài)時，ＤＲＬ-ＤＳＡ獲得的累積獎勵值優(yōu)于Ｂａｓｅｌｉｎｅ算法的累積獎勵值。根據(jù)式（２２），證明ＤＲＬ-ＤＳＡ算法在上述三方面的性能表現(xiàn)更好。

展開分析各算法在平均能量損耗、平均可靠性和平均剩余帶寬占有率三方面的表現(xiàn)。

在平均能量損耗方面，各算法求得的切片策略性能如圖４所示。由式（１３）可知，平均能量損耗僅和物聯(lián)網(wǎng)設備到所選網(wǎng)關(guān)之間的實際距離相關(guān)。隨著業(yè)務數(shù)據(jù)量增大，平均能量損耗必然增加。其中，由于ＳＰ算法的切片策略是基于最短傳輸路由的策略，故其平均能量損耗必然是最小的。Ｂａｓｅｌｉｎｅ算法和ＤＲＬ-ＤＳＡ所求的是隨著網(wǎng)絡狀態(tài)變換的動態(tài)切片策略，為保障網(wǎng)絡整體的性能，某些狀態(tài)下所選的傳輸路由不是最短的，故其平均能量損耗略高，是正常表現(xiàn)。相比較Ｂａｓｅｌｉｎｅ算法而言，ＤＲＬ-ＤＳＡ接近ＳＰ算法，平均能量損耗更小，性能更好。

在平均可靠性方面，各算法求得的切片策略性能如圖５所示。根據(jù)式（１５），平均可靠性與物聯(lián)網(wǎng)設備選取的傳輸路由中各鏈路可靠性的乘積相關(guān)。顯然，ＳＰ算法的切片策略不能根據(jù)網(wǎng)絡狀態(tài)改變，其平均可靠性保持不變，且僅依據(jù)傳輸路由的最短距離做決策，未考慮保障可靠性，因此表現(xiàn)最差。在某些業(yè)務數(shù)據(jù)量下，Ｂａｓｅｌｉｎｅ算法和ＤＲＬ-ＤＳＡ的策略一致，但后者在平均可靠性方面表現(xiàn)的上限更高，性能更好。

在平均剩余帶寬占有率方面，各算法求得的切片策略性能如圖６所示。可以看出，因為ＳＰ算法的切片策略一直選擇的是同一條傳輸路由，故隨著業(yè)務數(shù)據(jù)量增大，其平均剩余帶寬占有率呈線性下降。相反，ＤＲＬ-ＤＳＡ和Ｂａｓｅｌｉｎｅ算法改變了切片策略，選擇其他剩余帶寬容量大的傳輸路由，顯著限制了平均剩余帶寬占有率下降的速度，且隨著業(yè)務數(shù)據(jù)量增大，二者算法的優(yōu)勢愈發(fā)明顯。但由于ＤＲＬ-ＤＳＡ的動作更加穩(wěn)定，所以探索的切片策略的平均剩余帶寬占有率要高于Ｂａｓｅｌｉｎｅ算法探索的切片策略。

４結(jié)束語

軟件定義電力物聯(lián)網(wǎng)通過部署業(yè)務ＮＳ滿足海量物聯(lián)網(wǎng)設備的電力業(yè)務需求，但傳統(tǒng)的切片策略是基于最短傳輸路由的策略。當業(yè)務數(shù)據(jù)量激增時，傳統(tǒng)的切片策略由于不能根據(jù)當前網(wǎng)絡狀態(tài)靈活改變，將出現(xiàn)可靠性低下、鏈路擁塞等問題。針對上述問題，本文提出了基于深度強化學習的電力物聯(lián)網(wǎng)動態(tài)切片策略，并引入了ＤＲＬＤＳＡ來求解該策略。所提策略能夠同時確定ＶＮＦ的部署和傳輸路由，并保證傳輸路由在平均能量損耗、平均可靠性和平均剩余帶寬占有率三方面的性能，實驗證明了該策略的有效性。本策略通過加入智能體實現(xiàn)切片的動態(tài)部署，為軟件定義電力物聯(lián)網(wǎng)的后續(xù)研究奠定了基礎。

參考文獻

［１］何奉祿，陳佳琦，李欽豪，等．智能電網(wǎng)中的物聯(lián)網(wǎng)技術(shù)應用與發(fā)展［Ｊ］．電力系統(tǒng)保護與控制，２０２０，４８（３）：５８－６９．

［２］賀金紅，張港紅，高建．５Ｇ切片技術(shù)在電力物聯(lián)網(wǎng)應用的智能化管理［Ｊ］．電力信息與通信技術(shù)，２０２０，１８（５）：１９－２５．

［３］趙慧玲，史凡．ＳＤＮ／ＮＦＶ的發(fā)展與挑戰(zhàn)［Ｊ］．電信科學，２０１４，３０（８）：１３－１８．

［４］臧玉華，鄭煥坤，尹世豪．面向新型電力系統(tǒng)的５Ｇ網(wǎng)絡切片資源分配策略［Ｊ］．河北電力技術(shù)，２０２３，４２（１）：２６－３１．

［５］ＲＡＦＩＱＵＥＷ，ＱＩＬＹ，ＹＡＱＯＯＢＩ，ｅｔａｌ．ＣｏｍｐｌｅｍｅｎｔｉｎｇＩｏＴＳｅｒｖｉｃｅｓＴｈｒｏｕｇｈＳｏｆｔｗａｒｅＤｅｆｉｎｅｄＮｅｔｗｏｒｋｉｎｇａｎｄＥｄｇｅＣｏｍｐｕｔｉｎｇ：ＡＣｏｍｐｒｅｈｅｎｓｉｖｅＳｕｒｖｅｙ［Ｊ］．ＩＥＥＥＣｏｍｍｕｎｉｃａｔｉｏｎｓＳｕｒｖｅｙｓ＆Ｔｕｔｏｒｉａｌｓ，２０２０，２２（３）：１７６１－１８０４．

［６］李航，溫向明，孔紫璇，等．面向多樣化需求的網(wǎng)絡切片業(yè)務鏈部署［Ｊ］．北京郵電大學學報，２０２２，４５（２）：９－１５．

［７］ＧＵＡＮＷＱ，ＷＥＮＸＭ，ＷＡＮＧＬＨ，ｅｔａｌ．ＡＳｅｒｖｉｃｅｏｒｉｅｎｔｅｄＤｅｐｌｏｙｍｅｎｔＰｏｌｉｃｙｏｆＥｎｄｔｏＥｎｄＮｅｔｗｏｒｋＳｌｉｃｉｎｇＢａｓｅｄｏｎＣｏｍｐｌｅｘＮｅｔｗｏｒｋＴｈｅｏｒｙ［Ｊ］．ＩＥＥＥＡｃｃｅｓｓ，２０１８，６：１９６９１－１９７０１．

［８］王雅倩，陳心怡，曲睿，等．基于ＳＤＮ／ＮＦＶ的電力物聯(lián)網(wǎng)時延敏感業(yè)務編排方法［Ｊ］．華北電力大學學報（自然科學版），２０２３，５０（１）：８４－９１．

［９］楊爽，龔亮亮，胡陽，等．一種網(wǎng)絡切片編排算法在電力物聯(lián)網(wǎng)中的應用［Ｊ］．電力信息與通信技術(shù)，２０２０，１８（１２）：２９－３５．

［１０］張菊，郭永峰．深度學習研究綜述［Ｊ］．教學研究，２０２１，４４（３）：６－１１．

［１１］劉全，翟建偉，章宗長，等．深度強化學習綜述［Ｊ］．計算機學報，２０１８，４１（１）：１－２７．

［１２］ＺＨＡＮＧＺＤ，ＺＨＡＮＧＤＸ，ＱＩＵＲＣ．ＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇｆｏｒＰｏｗｅｒＳｙｓｔｅｍＡｐｐｌｉｃａｔｉｏｎｓ：ＡｎＯｖｅｒｖｉｅｗ［Ｊ］．ＣＳＥＥＪｏｕｒｎａｌｏｆＰｏｗｅｒａｎｄＥｎｅｒｇｙＳｙｓｔｅｍｓ，２０２０，６（１）：２１３－２２５．

［１３］ＺＨＯＵＹ，ＣＡＯＴ，ＸＩＡＮＧＷ．ＡｎｙｐａｔｈＲｏｕｔｉｎｇＰｒｏｔｏｃｏｌＤｅｓｉｇｎｖｉａＱＬｅａｒｎｉｎｇｆｏｒＵｎｄｅｒｗａｔｅｒＳｅｎｓｏｒＮｅｔｗｏｒｋｓ［Ｊ］．ＩＥＥＥＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇＪｏｕｒｎａｌ，２０２１，８（１０）：８１７３－８１９０．

［１４］向敏，饒華陽，張進進，等．基于圖卷積神經(jīng)網(wǎng)絡的軟件定義電力通信網(wǎng)絡路由控制策略［Ｊ］．電子與信息學報，２０２１，４３（２）：３８８－３９５．

［１５］葉萬余．面向電力物聯(lián)網(wǎng)ＵＲＬＬＣ業(yè)務的智能網(wǎng)絡切片管理方法［Ｊ］．工業(yè)工程，２０２２，２５（１）：１２９－１３５．

［１６］李鑫，劉楊，劉立業(yè)．ＷＳＮｓ中一種基于強化學習的跟蹤調(diào)度算法［Ｊ］．無線電工程，２０２３，５３（５）：１２２１－１２２７．

［１７］ＬＵＯＮＧＮＣ，ＨＯＡＮＧＤＴ，ＧＯＮＧＳＭ，ｅｔａｌ．ＡｐｐｌｉｃａｔｉｏｎｓｏｆＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇｉｎＣｏｍｍｕｎｉｃａｔｉｏｎｓａｎｄＮｅｔｗｏｒｋｉｎｇ：ＡＳｕｒｖｅｙ［Ｊ］．ＩＥＥＥＣｏｍｍｕｎｉｃａｔｉｏｎｓＳｕｒｖｅｙｓ＆Ｔｕｔｏｒｉａｌｓ，２０１９，２１（４）：３１３３－３１７４．

［１８］ＭＮＩＨＶ，ＫＡＶＵＫＣＵＯＧＬＵＫ，ＳＩＬＶＥＲＤ，ｅｔａｌ．ＨｕｍａｎｌｅｖｅｌＣｏｎｔｒｏｌＴｈｒｏｕｇｈＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ［Ｊ］．Ｎａｔｕｒｅ，２０１５，５１８（７５４０）：５２９－５３３．

［１９］ＶＡＮＨＡＳＳＥＬＴＨ，ＧＵＥＺＡ，ＳＩＬＶＥＲＤ．ＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇｗｉｔｈＤｏｕｂｌｅＱＬｅａｒｎｉｎｇ［Ｃ］∥ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＡＡＩＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．Ｐｈｏｅｎｉｘ：ＡＡＡＩＰｒｅｓｓ，２０１６：２０９４－２１００．

作者簡介

辛銳男，（１９８３—），碩士，高級工程師。主要研究方向：大數(shù)據(jù)、人工智能及網(wǎng)絡安全。

（*通信作者）吳軍英男，（１９８２—），碩士，高級工程師。主要研究方向：人工智能、物聯(lián)網(wǎng)、邊緣計算。

薛冰女，（１９９９—），碩士研究生。主要研究方向：物聯(lián)網(wǎng)、人工智能。

張鵬飛男，（１９８５—），碩士，高級工程師。主要研究方向：物聯(lián)網(wǎng)、自然語言處理。

李艷軍男，（１９７７—），碩士，正高級會計師。主要研究方向：財務、技經(jīng)及大數(shù)據(jù)。

柴守亮男，（１９８１—），碩士，正高級工程師。主要研究方向：信息通信和網(wǎng)絡安全。

王佳楠男，（１９７４—），碩士，工程師。主要研究方向：物聯(lián)網(wǎng)、大數(shù)據(jù)及人工智能。

基金項目：河北省省級科技計劃資助（２２３１０３０２Ｄ）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于深度強化學習的電力物聯(lián)網(wǎng)動態(tài)切片策略研究