基于強(qiáng)化學(xué)習(xí)的無(wú)線(xiàn)傳能網(wǎng)絡(luò)節(jié)點(diǎn)控制算法

2021-12-14 01:28吳振宇李云雷

計(jì)算機(jī)應(yīng)用與軟件 2021年12期

吳振宇吳凡李云雷

(大連理工大學(xué)創(chuàng)新創(chuàng)業(yè)學(xué)院遼寧大連 116024)

0 引言

現(xiàn)代社會(huì)的發(fā)展離不開(kāi)電能，而無(wú)線(xiàn)傳能技術(shù)因其可以擺脫有線(xiàn)充電的特性受到廣泛的關(guān)注。無(wú)線(xiàn)傳能[1-3]可以用于軌道電車(chē)的實(shí)時(shí)供電、無(wú)線(xiàn)充電以及醫(yī)療器械、特種設(shè)備、無(wú)線(xiàn)傳感網(wǎng)、微波飛機(jī)和空間電力輸送等方面。

擴(kuò)大無(wú)線(xiàn)傳能的供電范圍和供電功率一直是業(yè)內(nèi)研究的重點(diǎn)。相比遠(yuǎn)距離廣播式的直接供電，采用多個(gè)中繼節(jié)點(diǎn)進(jìn)行“多跳傳輸”更能夠有效提高供電范圍并保證供電功率。文獻(xiàn)[4]根據(jù)上述思路提出了一種無(wú)線(xiàn)電能傳輸網(wǎng)絡(luò)架構(gòu)(Wireless Power Transfer Grid, WPTG)。WPTG是在空間上任意分布的無(wú)線(xiàn)節(jié)點(diǎn)通過(guò)無(wú)線(xiàn)傳能這一供電方式形成的虛擬的電能傳輸網(wǎng)絡(luò)，可以實(shí)時(shí)根據(jù)環(huán)境調(diào)整電能傳輸鏈路和節(jié)點(diǎn)自身功能角色以保證電能供給。網(wǎng)絡(luò)主要由網(wǎng)絡(luò)電能來(lái)源的電源節(jié)點(diǎn)、負(fù)責(zé)中繼傳輸電能的中繼節(jié)點(diǎn)以及使用電能的負(fù)載節(jié)點(diǎn)組成。

文獻(xiàn)[6]在WPTG的基礎(chǔ)上提出了一種新型的網(wǎng)內(nèi)無(wú)中心、節(jié)點(diǎn)平等的無(wú)線(xiàn)電能傳輸網(wǎng)結(jié)構(gòu)。所有節(jié)點(diǎn)均具有雙向無(wú)線(xiàn)電能傳輸功能，既可接收電能也可以傳輸電能。文獻(xiàn)[7]在上述基礎(chǔ)上提出了一種新型自組網(wǎng)方法及系統(tǒng)。上述文獻(xiàn)的主要研究對(duì)象都是供電鏈路的動(dòng)態(tài)優(yōu)化，對(duì)單個(gè)節(jié)點(diǎn)的供電策略并未有較深的研究。

本文針對(duì)無(wú)線(xiàn)電網(wǎng)各個(gè)節(jié)點(diǎn)的協(xié)同控制問(wèn)題，設(shè)計(jì)了一種基于策略梯度的強(qiáng)化學(xué)習(xí)算法，該方法使用多層神經(jīng)網(wǎng)絡(luò)作為控制器，根據(jù)每個(gè)周期的供電控制狀態(tài)的反饋設(shè)計(jì)了一套獎(jiǎng)勵(lì)機(jī)制用來(lái)評(píng)估控制策略的優(yōu)劣，最后以最大化累計(jì)獎(jiǎng)勵(lì)為目標(biāo)優(yōu)化網(wǎng)絡(luò)參數(shù)，從而達(dá)到一個(gè)較優(yōu)的控制策略。

1 無(wú)線(xiàn)傳能網(wǎng)絡(luò)模型構(gòu)建

1.1 無(wú)線(xiàn)傳能網(wǎng)絡(luò)

無(wú)線(xiàn)傳能網(wǎng)絡(luò)是基于無(wú)線(xiàn)供電方式的網(wǎng)絡(luò)模型。一般根據(jù)其功能劃分為電源節(jié)點(diǎn)、中繼節(jié)點(diǎn)、負(fù)載節(jié)點(diǎn)。

無(wú)線(xiàn)傳能系統(tǒng)整體采用網(wǎng)狀架構(gòu)[6]，供電中心為電源節(jié)點(diǎn)，通過(guò)一些中間節(jié)點(diǎn)將電能輸送到負(fù)載節(jié)點(diǎn)。由于無(wú)線(xiàn)傳能網(wǎng)絡(luò)的移動(dòng)供電機(jī)制，供電受距離等因素影響較大。因此，所有節(jié)點(diǎn)都自帶一個(gè)電能儲(chǔ)存裝置，用于緩解突發(fā)的供電不足。

無(wú)線(xiàn)傳能網(wǎng)路系統(tǒng)算法主要分為兩個(gè)部分：

(1) 無(wú)線(xiàn)傳能網(wǎng)絡(luò)節(jié)點(diǎn)之間電能傳輸鏈路的動(dòng)態(tài)優(yōu)化。

(2) 無(wú)線(xiàn)傳能單個(gè)節(jié)點(diǎn)的控制算法。

無(wú)線(xiàn)傳能網(wǎng)絡(luò)電能傳輸鏈路的動(dòng)態(tài)優(yōu)化一般使用有向圖構(gòu)建網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)，通過(guò)節(jié)點(diǎn)之間的電能傳輸效率、負(fù)荷均衡等指標(biāo)構(gòu)建優(yōu)化節(jié)點(diǎn)之間邊的目標(biāo)函數(shù)，最后使用最短路徑相關(guān)算法找到電源節(jié)點(diǎn)到所有負(fù)載節(jié)點(diǎn)的代價(jià)最小的最短路徑[6-7]。本文使用了一套改進(jìn)的Dijkstra算法尋找最短路徑，由于這不是本文研究的主要目標(biāo)，所以不做贅述。

無(wú)線(xiàn)傳能節(jié)點(diǎn)的控制算法大多基于供電節(jié)點(diǎn)建模，然后使用后端優(yōu)化算法進(jìn)行控制求解[8-9]，這樣能夠精準(zhǔn)地控制節(jié)點(diǎn)達(dá)到目標(biāo)狀態(tài)。但對(duì)控制目標(biāo)的設(shè)置缺乏深層次的思考，也無(wú)法針對(duì)各種情況進(jìn)行在線(xiàn)優(yōu)化。

1.2 單個(gè)節(jié)點(diǎn)的供電模型

單個(gè)無(wú)線(xiàn)傳能節(jié)點(diǎn)組成如圖1所示。其中，傳感單元包括：傳感器和數(shù)模轉(zhuǎn)換模塊負(fù)責(zé)收集外部地理位置信息以及自身各項(xiàng)電能指標(biāo)；無(wú)線(xiàn)通信單元負(fù)責(zé)與其他節(jié)點(diǎn)進(jìn)行通信，交換控制信息與傳感器信息；處理單元負(fù)責(zé)對(duì)節(jié)點(diǎn)進(jìn)行合適的供電控制以及存儲(chǔ)節(jié)點(diǎn)運(yùn)行時(shí)的數(shù)據(jù)；能量的發(fā)射接收由無(wú)線(xiàn)電能發(fā)射/接收單元完成，其中內(nèi)置能量?jī)?chǔ)存單元可以存儲(chǔ)一定電量，保證外部供電受到限制時(shí)也可維持運(yùn)行。

圖1 無(wú)線(xiàn)傳能節(jié)點(diǎn)組成

本文將文獻(xiàn)[6]中的3種節(jié)點(diǎn)用統(tǒng)一的模型描述電能的流通。如果將供電節(jié)點(diǎn)視為高能量輸入(來(lái)自發(fā)電站等設(shè)備)的中繼節(jié)點(diǎn)，則所有類(lèi)型節(jié)點(diǎn)的電能流通都可以使用圖2所示節(jié)點(diǎn)模型表示。

圖2 單節(jié)點(diǎn)電能流動(dòng)示意圖

每個(gè)節(jié)點(diǎn)有唯一的一個(gè)功率輸入Pin，m個(gè)功率輸出Pout=Pout,1+Pout,2+…+Pout,m，節(jié)點(diǎn)的自身能耗為Ps，自身能源儲(chǔ)量E，功率輸入與輸出存在上限，滿(mǎn)足下式的條件：

(1)

Pout

輸入功率Pin被分成3個(gè)部分：直接送到輸出的Ptin、輸送到電池的Pein和自身能耗Ps。其計(jì)算式表示為:

Pin=Ptin+Pein+Ps

(2)

輸出功率Pout由直接輸出的Ptout和電池輸出的Peout組成，Ptin=Ptout。對(duì)于節(jié)點(diǎn)自身的能源儲(chǔ)量E，考慮到充電效率ηin與放電效率ηout，E的一階導(dǎo)數(shù)為:

(3)

單個(gè)節(jié)點(diǎn)控制目標(biāo)就是滿(mǎn)足下一級(jí)節(jié)點(diǎn)的供電需求，即使得實(shí)際的功率輸出Pout等于下一級(jí)節(jié)點(diǎn)所需求的Pout need，一般情況下只需令Pout=Pout need即可達(dá)到所需目標(biāo)。但考慮某時(shí)局部用電激增或節(jié)點(diǎn)距離供電節(jié)點(diǎn)較遠(yuǎn)，上層節(jié)點(diǎn)無(wú)法提供所需求的Pin，所以需要使用額外的自身能源進(jìn)行供電。當(dāng)自身電量E用完的時(shí)候，功率輸出Pout就無(wú)法滿(mǎn)足供電需求，造成局部供電不足，所以需要在其他時(shí)刻給自身能源充電。

節(jié)點(diǎn)自身能源不允許同時(shí)充電和放電，當(dāng)Pein>0時(shí)，節(jié)點(diǎn)處于充電狀態(tài)，此時(shí)Peout=0，當(dāng)Peout>0時(shí)，該節(jié)點(diǎn)處于放電狀態(tài)，此時(shí)Pein。

2 無(wú)線(xiàn)網(wǎng)絡(luò)節(jié)點(diǎn)供電控制算法

2.1 策略梯度

傳統(tǒng)算法如PID在解決單點(diǎn)控制模型中有著非常穩(wěn)定良好的表現(xiàn)，能夠控制單點(diǎn)的電量穩(wěn)定在目標(biāo)值附近。但目標(biāo)值的選取存在一定的問(wèn)題，目標(biāo)值選取過(guò)大會(huì)使得節(jié)點(diǎn)一直趨于較大電能的狀態(tài)，從而造成一定的能源浪費(fèi)；目標(biāo)值選取過(guò)小則失去了該節(jié)點(diǎn)儲(chǔ)能功能的意義，應(yīng)對(duì)風(fēng)險(xiǎn)的魯棒性較差。

在此問(wèn)題背景下，本文提出了一種算法能夠針對(duì)不同節(jié)點(diǎn)的特性，動(dòng)態(tài)地學(xué)習(xí)節(jié)點(diǎn)的控制參數(shù)。強(qiáng)化學(xué)習(xí)的方法是解決這種問(wèn)題的一種思路。作為機(jī)器學(xué)習(xí)的一個(gè)重要理論分支，強(qiáng)化學(xué)習(xí)(Reinforcement learning , RL)[8-9]是一種學(xué)習(xí)不同狀態(tài)下的最優(yōu)決策動(dòng)作技術(shù)，以最大化智能體的長(zhǎng)期獎(jiǎng)勵(lì)累計(jì)值。智能體是自發(fā)選擇可能產(chǎn)生較大獎(jiǎng)勵(lì)值的動(dòng)作，而不是被告知采取哪個(gè)動(dòng)作最好，這也是強(qiáng)化學(xué)習(xí)的自我探索優(yōu)勢(shì)。

本文根據(jù)上述模型設(shè)計(jì)了一種基于策略梯度(policy gradient)[10-12]的節(jié)點(diǎn)控制算法，該方法用一個(gè)值函數(shù)表示該策略長(zhǎng)期回報(bào)的期望，通過(guò)求出值函數(shù)關(guān)于策略參數(shù)的梯度，并使得參數(shù)沿著梯度上升的方向更新，最大化值函數(shù)，從而使得策略回報(bào)得到提升。該方法相對(duì)其他強(qiáng)化學(xué)習(xí)算法，具有更好的收斂屬性，適用于高維度和連續(xù)的狀態(tài)空間。

2.2 基本交互流程

強(qiáng)化學(xué)習(xí)系統(tǒng)基本交互如圖3所示。

圖3 強(qiáng)化學(xué)習(xí)的基本交互

(1) 控制器根據(jù)策略函數(shù)輸出動(dòng)作(供電輸入input)到節(jié)點(diǎn)設(shè)備。

(2) 節(jié)點(diǎn)設(shè)備按照控制器給定的供電輸入與實(shí)時(shí)的供電輸出需求更新自身狀態(tài)，并給出該狀態(tài)的獎(jiǎng)勵(lì)。

(3) 策略函數(shù)根據(jù)上一時(shí)刻的獎(jiǎng)勵(lì)提升策略參數(shù)。

2.3 狀態(tài)空間與動(dòng)作空間

本文用系統(tǒng)t時(shí)刻的自身能源儲(chǔ)量Et、自身能耗Ps,t、節(jié)點(diǎn)的輸出Pout,t和節(jié)點(diǎn)當(dāng)前的輸入Pin,t等特征來(lái)表示t時(shí)刻的系統(tǒng)狀態(tài)st；為了減少網(wǎng)絡(luò)波動(dòng)帶來(lái)的影響，并且使輸出連續(xù)，將動(dòng)作空間ai,t設(shè)置為{-1,0,1}，分別表示將節(jié)點(diǎn)的輸入Pin增加一個(gè)步長(zhǎng)Δh、保持不變、減小一個(gè)步長(zhǎng)Δh。

st=[Et,Ps,t,Pout,t,Pin,t]

(4)

ai,t={-1,0,1}

(5)

應(yīng)用強(qiáng)化學(xué)習(xí)算法的目的就是確定一個(gè)在狀態(tài)st下選擇動(dòng)作ai,t的概率的策略函數(shù)πθ(ai,t|st)。

2.4 策略函數(shù)

本文使用一個(gè)MLP(多層感知器)來(lái)擬合策略函數(shù)πθ(ai,t|st)。為了加快收斂速度，該多層感知器只使用兩層全連接隱藏層。每層16個(gè)神經(jīng)元，激活函數(shù)使用ReLU。最后輸出到表示3種動(dòng)作選擇概率的三個(gè)神經(jīng)元上。該網(wǎng)絡(luò)模型如圖4所示。

圖4 MLP結(jié)構(gòu)

實(shí)際運(yùn)行時(shí)，使用網(wǎng)絡(luò)輸出概率最高的動(dòng)作作為實(shí)際輸出：

at+1=argmaxaπθ(ai,t|st)

(6)

2.5 環(huán)境更新

環(huán)境更新e(st,at)用來(lái)計(jì)算節(jié)點(diǎn)在狀態(tài)st下選擇動(dòng)作at的下一時(shí)刻狀態(tài)。這個(gè)更新計(jì)算基于1.2節(jié)所述簡(jiǎn)化后的節(jié)點(diǎn)供電模型，表示為：

st+1=e(st,at)

(7)

2.6 獎(jiǎng)勵(lì)設(shè)置

獎(jiǎng)勵(lì)(reward)設(shè)計(jì)是強(qiáng)化學(xué)習(xí)算法的核心，定義了算法的學(xué)習(xí)目標(biāo)。通過(guò)設(shè)計(jì)一個(gè)獎(jiǎng)勵(lì)機(jī)制r(st,ai,t)來(lái)提升策略的表現(xiàn)。r(st,ai,t)表示節(jié)點(diǎn)在狀態(tài)st下選擇動(dòng)作ai,t的單步獎(jiǎng)勵(lì)。

當(dāng)該節(jié)點(diǎn)自身能源儲(chǔ)量為零，并且輸入功率Pin因?yàn)槭芟逕o(wú)法滿(mǎn)足輸出功率的需求時(shí)，就會(huì)產(chǎn)生電能的虧空Pt；當(dāng)該節(jié)點(diǎn)能源儲(chǔ)量為滿(mǎn)，并且輸入功率Pin滿(mǎn)足輸出功率的需求還有額外剩余時(shí)，就會(huì)產(chǎn)生電能的飽和Pm。本文算法希望盡量減少電能虧空和電能飽和的出現(xiàn)，所以將它們?cè)O(shè)置為負(fù)的獎(jiǎng)勵(lì)。常規(guī)情況下，本算法希望盡量減少自身能源的儲(chǔ)量，將閑置電能用在其他該用的地方，所以使用遞減的log函數(shù)去擬合。其計(jì)算式表示為:

(8)

式中：κ、λ、μ為可調(diào)系數(shù)，并且1<λ<κ，0<μ<1。

2.7 策略提升

策略提升的目的是為了最大化累計(jì)獎(jiǎng)勵(lì)J(θ)，將J(θ)作為目標(biāo)函數(shù)，如下式所示：

(9)

將目標(biāo)函數(shù)J(θ)使用蒙特卡洛近似的方法進(jìn)行替換，再對(duì)MLP的各層參數(shù)求梯度，可得：

(10)

式中：τ為可能存在的策略函數(shù)與環(huán)境的交互軌跡；θ為MLP神經(jīng)元之間的參數(shù)；N為動(dòng)作空間的維度；T為使用策略與環(huán)境進(jìn)行交互的軌跡長(zhǎng)度。

然后使用上述梯度更新網(wǎng)絡(luò)參數(shù)θ，使策略得到提升，其更新計(jì)算式為：

θ=θ+▽?duì)菾(θ)

(11)

2.8 算法流程

該算法中，控制器不斷地與環(huán)境(節(jié)點(diǎn))交互，根據(jù)交互結(jié)果的獎(jiǎng)勵(lì)更新神經(jīng)網(wǎng)絡(luò)(MLP)的參數(shù)，MLP又作為控制器輸出控制結(jié)果。最終通過(guò)不斷學(xué)習(xí)，從而最大化交互獎(jiǎng)勵(lì)，找到較優(yōu)的控制策略。該算法流程如算法1所示。

算法1策略梯度節(jié)點(diǎn)控制算法

初始化所有模塊

隨機(jī)初始化神經(jīng)網(wǎng)絡(luò)參數(shù)θ

更新各節(jié)點(diǎn)狀態(tài)s

while True: #程序運(yùn)行主循環(huán)

#定期更新網(wǎng)絡(luò)參數(shù)

for step in range(period)

策略函數(shù)πθ根據(jù)當(dāng)前狀態(tài)s輸出動(dòng)作a

節(jié)點(diǎn)執(zhí)行動(dòng)作a更新自身狀態(tài)s

獎(jiǎng)勵(lì)機(jī)制根據(jù)更新后狀態(tài)s計(jì)算獎(jiǎng)勵(lì)r

存儲(chǔ)執(zhí)行的中間結(jié)果s、a、r到S、A、R

end

根據(jù)S、A、R計(jì)算策略提升的梯度▽?duì)菾

更新神經(jīng)網(wǎng)絡(luò)參數(shù)θ

end

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)環(huán)境

本實(shí)驗(yàn)的所有程序都是在Python3.6上運(yùn)行，算法的運(yùn)行環(huán)境為Intel(R) Core(TM) i5-6500, CPU@3.2 GHz，16 GB內(nèi)存，Microsoft Windows 10操作系統(tǒng)。

3.2 仿真測(cè)試

本文用電數(shù)據(jù)使用2010年南京市居民夏季用電負(fù)荷作為單個(gè)節(jié)點(diǎn)的輸出需求(output_need)。該數(shù)據(jù)可以按天近似視為周期性變化，在每天的12時(shí)至20時(shí)出現(xiàn)用電高峰，峰值為0.4萬(wàn)千瓦。仿真實(shí)驗(yàn)將繪制各指標(biāo)的變化曲線(xiàn)，并統(tǒng)計(jì)50個(gè)周期的相關(guān)數(shù)據(jù)進(jìn)行對(duì)照。實(shí)驗(yàn)將本文算法與一般PID算法效果做對(duì)比。PID算法計(jì)算方式如下：

(12)

err(k)=E(k)-α

(13)

Pin=u(k)+Pout

(14)

式中：err為控制誤差；E(k)為當(dāng)前能源儲(chǔ)量百分比；α為目標(biāo)能源儲(chǔ)量百分比，設(shè)置為50%；u(k)為控制量，計(jì)算節(jié)點(diǎn)輸入Pin時(shí)需要加上節(jié)點(diǎn)輸出Pout；Kp與Ki、Kd為可調(diào)系數(shù),分別為10.0、3.0、0.01。

(1) 正常運(yùn)行狀態(tài)對(duì)比測(cè)試。為了測(cè)試該算法在一般情況下的表現(xiàn)，本文設(shè)置參數(shù)如下：節(jié)點(diǎn)最大能源儲(chǔ)量為5萬(wàn)千瓦時(shí)，最大輸出1萬(wàn)千瓦,初始能源儲(chǔ)量為65%，初始輸入輸出均為0.2萬(wàn)千瓦。將節(jié)點(diǎn)最大輸入功率設(shè)置在0.5萬(wàn)千瓦，大于節(jié)點(diǎn)的功率輸出需求(output_need)峰值0.4萬(wàn)千瓦，節(jié)點(diǎn)在任何時(shí)候都能夠得到充足供電。測(cè)試結(jié)果如圖5、圖6和表1所示。

圖5 策略梯度算法測(cè)試(max input=0.5萬(wàn)千瓦)

圖6 PID算法測(cè)試(max input=0.5萬(wàn)千瓦)

表1 正常運(yùn)行狀態(tài)結(jié)果統(tǒng)計(jì)表

如圖5所示，節(jié)點(diǎn)實(shí)際供電輸出(output)與節(jié)點(diǎn)輸出需求(output_need)一直處于重合狀態(tài)，說(shuō)明節(jié)點(diǎn)一直可以滿(mǎn)足下一級(jí)的用電需求，正常運(yùn)行。如表1所示，上述正常供電時(shí)間占比為100%，沒(méi)有產(chǎn)生供電缺失。閑置電能占比指的是儲(chǔ)存在節(jié)點(diǎn)自身，沒(méi)有參與電能流通的電能占節(jié)點(diǎn)總能源儲(chǔ)量的百分比。本文算法經(jīng)過(guò)學(xué)習(xí)后得到的策略迅速降低節(jié)點(diǎn)的能源儲(chǔ)量(energy)到一個(gè)較低的百分比(4%)，符合本文獎(jiǎng)勵(lì)機(jī)制中的第三種情況：正常運(yùn)行時(shí)，降低閑置的電能，使整體能源分布更為合理。

如圖6所示，節(jié)點(diǎn)實(shí)際供電輸出(output)與節(jié)點(diǎn)輸出需求(output_need)也一直處于重合狀態(tài)，節(jié)點(diǎn)正常運(yùn)行，節(jié)點(diǎn)也能夠?qū)⒆陨砟茉磧?chǔ)量維持在50%附近。但基于PID的傳統(tǒng)算法只是將節(jié)點(diǎn)電量維持在目標(biāo)值附近，傳統(tǒng)算法不能夠預(yù)測(cè)該節(jié)點(diǎn)的輸出需求特征，仍然需要節(jié)點(diǎn)保持50%的能源儲(chǔ)量才能夠正常運(yùn)行。本文算法在該情形下可以降低91.76%的閑置電能，并能夠正常運(yùn)行。

當(dāng)然，如果在這個(gè)實(shí)驗(yàn)中，傳統(tǒng)算法PID將自身電量的目標(biāo)值改為5%，也能夠在較小的最大能源儲(chǔ)量下正常工作。但傳統(tǒng)算法并不能夠?qū)崟r(shí)地學(xué)習(xí)到輸出需求(output_need)的特征，從而改變自己的目標(biāo)值。而這個(gè)基于輸出需求的目標(biāo)值，正是本文算法所能夠?qū)W習(xí)到的特征。

(2) 輸入功率受限狀態(tài)對(duì)比測(cè)試。為了測(cè)試該算法在功率受限情況下的表現(xiàn)，將節(jié)點(diǎn)最大輸入功率設(shè)置在0.3萬(wàn)千瓦，小于節(jié)點(diǎn)的功率輸出需求(output_need)峰值0.4萬(wàn)千瓦。其他參數(shù)同上保持不變，測(cè)試結(jié)果如圖7、圖8與表2所示。

圖7 策略梯度算法測(cè)試(max input=0.3萬(wàn)千瓦)

圖8 PID算法測(cè)試(max input=0.3萬(wàn)千瓦)

表2 功率受限狀態(tài)結(jié)果統(tǒng)計(jì)表

如圖7所示，策略梯度控制的節(jié)點(diǎn)實(shí)際供電輸出(output)與節(jié)點(diǎn)輸出需求(output_need)一直處于重合狀態(tài)，說(shuō)明節(jié)點(diǎn)一直可以滿(mǎn)足下一級(jí)的用電需求，正常運(yùn)行。而在每天20時(shí)用電高峰來(lái)臨時(shí)，如圖8中黑框所示，節(jié)點(diǎn)輸入功率受限，PID算法控制的節(jié)點(diǎn)實(shí)際輸出(output)小于節(jié)點(diǎn)輸出需求(output_need) ，產(chǎn)生了供電不足，供電缺失時(shí)間占比6.77%，累計(jì)供電缺失達(dá)25.66萬(wàn)千瓦。如表2所示，本文算法相比PID控制算法減少了99.4%的供電缺失時(shí)間以及99.9%的供電缺失量，能夠保證節(jié)點(diǎn)的正常運(yùn)行，僅提高了4%的閑置電能。

上述仿真結(jié)果綜合表明，以PID為代表的傳統(tǒng)控制算法，由于缺乏歷史數(shù)據(jù)的積累，無(wú)法對(duì)節(jié)點(diǎn)的輸入需求進(jìn)行預(yù)測(cè)。只能將節(jié)點(diǎn)的輸入需求這一不可控因素當(dāng)成了隨機(jī)的外部擾動(dòng)，從而缺乏一些相對(duì)應(yīng)的控制策略，具體控制效果出現(xiàn)了一定的滯后性。其未能預(yù)測(cè)到20時(shí)用電高峰的來(lái)臨而提高節(jié)點(diǎn)供電輸入(input)，增加自身能源儲(chǔ)量。當(dāng)用電高峰出現(xiàn)時(shí)，節(jié)點(diǎn)輸入功率受限，當(dāng)前節(jié)點(diǎn)的能源儲(chǔ)量不足，導(dǎo)致供電不足。

而本文算法能夠?qū)W習(xí)一些不規(guī)則的周期性供電需求的特征，能夠根據(jù)實(shí)際情況和控制目標(biāo)自動(dòng)尋找到較優(yōu)的策略。如圖7中黑框所示，本文算法預(yù)測(cè)到用電高峰的來(lái)臨，提高節(jié)點(diǎn)用電輸入(input)，提前進(jìn)行蓄電，從而避免了用電高峰的供電缺失，即使一次用電高峰需要用到節(jié)點(diǎn)最大能源儲(chǔ)量的80%電量，節(jié)點(diǎn)依然能夠正常運(yùn)行。

4 結(jié) 語(yǔ)

為了解決無(wú)線(xiàn)傳能網(wǎng)絡(luò)中的節(jié)點(diǎn)控制問(wèn)題，本文提出了一種基于策略梯度的節(jié)點(diǎn)控制算法。該算法主要基于強(qiáng)化學(xué)習(xí)與數(shù)據(jù)驅(qū)動(dòng)，與傳統(tǒng)算法截然不同。該算法只要設(shè)計(jì)好節(jié)點(diǎn)狀態(tài)更新的獎(jiǎng)勵(lì)就可以基于交互數(shù)據(jù)生成合適的控制策略。仿真實(shí)驗(yàn)表明，該算法尤其適合周期性變化的供電需求下的節(jié)點(diǎn)控制，并且能夠針對(duì)不同狀態(tài)，自主學(xué)習(xí)到較優(yōu)的控制策略。即使在一些極端情況下，也能有較好的表現(xiàn)。本文最終驗(yàn)證了該算法相對(duì)于傳統(tǒng)算法的優(yōu)越性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡