吳振宇 吳 凡 李云雷
(大連理工大學(xué)創(chuàng)新創(chuàng)業(yè)學(xué)院 遼寧 大連 116024)
現(xiàn)代社會(huì)的發(fā)展離不開(kāi)電能,而無(wú)線(xiàn)傳能技術(shù)因其可以擺脫有線(xiàn)充電的特性受到廣泛的關(guān)注。無(wú)線(xiàn)傳能[1-3]可以用于軌道電車(chē)的實(shí)時(shí)供電、無(wú)線(xiàn)充電以及醫(yī)療器械、特種設(shè)備、無(wú)線(xiàn)傳感網(wǎng)、微波飛機(jī)和空間電力輸送等方面。
擴(kuò)大無(wú)線(xiàn)傳能的供電范圍和供電功率一直是業(yè)內(nèi)研究的重點(diǎn)。相比遠(yuǎn)距離廣播式的直接供電,采用多個(gè)中繼節(jié)點(diǎn)進(jìn)行“多跳傳輸”更能夠有效提高供電范圍并保證供電功率。文獻(xiàn)[4]根據(jù)上述思路提出了一種無(wú)線(xiàn)電能傳輸網(wǎng)絡(luò)架構(gòu)(Wireless Power Transfer Grid, WPTG)。WPTG是在空間上任意分布的無(wú)線(xiàn)節(jié)點(diǎn)通過(guò)無(wú)線(xiàn)傳能這一供電方式形成的虛擬的電能傳輸網(wǎng)絡(luò),可以實(shí)時(shí)根據(jù)環(huán)境調(diào)整電能傳輸鏈路和節(jié)點(diǎn)自身功能角色以保證電能供給。網(wǎng)絡(luò)主要由網(wǎng)絡(luò)電能來(lái)源的電源節(jié)點(diǎn)、負(fù)責(zé)中繼傳輸電能的中繼節(jié)點(diǎn)以及使用電能的負(fù)載節(jié)點(diǎn)組成。
文獻(xiàn)[6]在WPTG的基礎(chǔ)上提出了一種新型的網(wǎng)內(nèi)無(wú)中心、節(jié)點(diǎn)平等的無(wú)線(xiàn)電能傳輸網(wǎng)結(jié)構(gòu)。所有節(jié)點(diǎn)均具有雙向無(wú)線(xiàn)電能傳輸功能,既可接收電能也可以傳輸電能。文獻(xiàn)[7]在上述基礎(chǔ)上提出了一種新型自組網(wǎng)方法及系統(tǒng)。上述文獻(xiàn)的主要研究對(duì)象都是供電鏈路的動(dòng)態(tài)優(yōu)化,對(duì)單個(gè)節(jié)點(diǎn)的供電策略并未有較深的研究。
本文針對(duì)無(wú)線(xiàn)電網(wǎng)各個(gè)節(jié)點(diǎn)的協(xié)同控制問(wèn)題,設(shè)計(jì)了一種基于策略梯度的強(qiáng)化學(xué)習(xí)算法,該方法使用多層神經(jīng)網(wǎng)絡(luò)作為控制器,根據(jù)每個(gè)周期的供電控制狀態(tài)的反饋設(shè)計(jì)了一套獎(jiǎng)勵(lì)機(jī)制用來(lái)評(píng)估控制策略的優(yōu)劣,最后以最大化累計(jì)獎(jiǎng)勵(lì)為目標(biāo)優(yōu)化網(wǎng)絡(luò)參數(shù),從而達(dá)到一個(gè)較優(yōu)的控制策略。
無(wú)線(xiàn)傳能網(wǎng)絡(luò)是基于無(wú)線(xiàn)供電方式的網(wǎng)絡(luò)模型。一般根據(jù)其功能劃分為電源節(jié)點(diǎn)、中繼節(jié)點(diǎn)、負(fù)載節(jié)點(diǎn)。
無(wú)線(xiàn)傳能系統(tǒng)整體采用網(wǎng)狀架構(gòu)[6],供電中心為電源節(jié)點(diǎn),通過(guò)一些中間節(jié)點(diǎn)將電能輸送到負(fù)載節(jié)點(diǎn)。由于無(wú)線(xiàn)傳能網(wǎng)絡(luò)的移動(dòng)供電機(jī)制,供電受距離等因素影響較大。因此,所有節(jié)點(diǎn)都自帶一個(gè)電能儲(chǔ)存裝置,用于緩解突發(fā)的供電不足。
無(wú)線(xiàn)傳能網(wǎng)路系統(tǒng)算法主要分為兩個(gè)部分:
(1) 無(wú)線(xiàn)傳能網(wǎng)絡(luò)節(jié)點(diǎn)之間電能傳輸鏈路的動(dòng)態(tài)優(yōu)化。
(2) 無(wú)線(xiàn)傳能單個(gè)節(jié)點(diǎn)的控制算法。
無(wú)線(xiàn)傳能網(wǎng)絡(luò)電能傳輸鏈路的動(dòng)態(tài)優(yōu)化一般使用有向圖構(gòu)建網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),通過(guò)節(jié)點(diǎn)之間的電能傳輸效率、負(fù)荷均衡等指標(biāo)構(gòu)建優(yōu)化節(jié)點(diǎn)之間邊的目標(biāo)函數(shù),最后使用最短路徑相關(guān)算法找到電源節(jié)點(diǎn)到所有負(fù)載節(jié)點(diǎn)的代價(jià)最小的最短路徑[6-7]。本文使用了一套改進(jìn)的Dijkstra算法尋找最短路徑,由于這不是本文研究的主要目標(biāo),所以不做贅述。
無(wú)線(xiàn)傳能節(jié)點(diǎn)的控制算法大多基于供電節(jié)點(diǎn)建模,然后使用后端優(yōu)化算法進(jìn)行控制求解[8-9],這樣能夠精準(zhǔn)地控制節(jié)點(diǎn)達(dá)到目標(biāo)狀態(tài)。但對(duì)控制目標(biāo)的設(shè)置缺乏深層次的思考,也無(wú)法針對(duì)各種情況進(jìn)行在線(xiàn)優(yōu)化。
單個(gè)無(wú)線(xiàn)傳能節(jié)點(diǎn)組成如圖1所示。其中,傳感單元包括:傳感器和數(shù)模轉(zhuǎn)換模塊負(fù)責(zé)收集外部地理位置信息以及自身各項(xiàng)電能指標(biāo);無(wú)線(xiàn)通信單元負(fù)責(zé)與其他節(jié)點(diǎn)進(jìn)行通信,交換控制信息與傳感器信息;處理單元負(fù)責(zé)對(duì)節(jié)點(diǎn)進(jìn)行合適的供電控制以及存儲(chǔ)節(jié)點(diǎn)運(yùn)行時(shí)的數(shù)據(jù);能量的發(fā)射接收由無(wú)線(xiàn)電能發(fā)射/接收單元完成,其中內(nèi)置能量?jī)?chǔ)存單元可以存儲(chǔ)一定電量,保證外部供電受到限制時(shí)也可維持運(yùn)行。
圖1 無(wú)線(xiàn)傳能節(jié)點(diǎn)組成
本文將文獻(xiàn)[6]中的3種節(jié)點(diǎn)用統(tǒng)一的模型描述電能的流通。如果將供電節(jié)點(diǎn)視為高能量輸入(來(lái)自發(fā)電站等設(shè)備)的中繼節(jié)點(diǎn),則所有類(lèi)型節(jié)點(diǎn)的電能流通都可以使用圖2所示節(jié)點(diǎn)模型表示。
圖2 單節(jié)點(diǎn)電能流動(dòng)示意圖
每個(gè)節(jié)點(diǎn)有唯一的一個(gè)功率輸入Pin,m個(gè)功率輸出Pout=Pout,1+Pout,2+…+Pout,m,節(jié)點(diǎn)的自身能耗為Ps,自身能源儲(chǔ)量E,功率輸入與輸出存在上限,滿(mǎn)足下式的條件:
Pin (1) Pout 輸入功率Pin被分成3個(gè)部分:直接送到輸出的Ptin、輸送到電池的Pein和自身能耗Ps。其計(jì)算式表示為: Pin=Ptin+Pein+Ps (2) 輸出功率Pout由直接輸出的Ptout和電池輸出的Peout組成,Ptin=Ptout。對(duì)于節(jié)點(diǎn)自身的能源儲(chǔ)量E,考慮到充電效率ηin與放電效率ηout,E的一階導(dǎo)數(shù)為: (3) 單個(gè)節(jié)點(diǎn)控制目標(biāo)就是滿(mǎn)足下一級(jí)節(jié)點(diǎn)的供電需求,即使得實(shí)際的功率輸出Pout等于下一級(jí)節(jié)點(diǎn)所需求的Pout need,一般情況下只需令Pout=Pout need即可達(dá)到所需目標(biāo)。但考慮某時(shí)局部用電激增或節(jié)點(diǎn)距離供電節(jié)點(diǎn)較遠(yuǎn),上層節(jié)點(diǎn)無(wú)法提供所需求的Pin,所以需要使用額外的自身能源進(jìn)行供電。當(dāng)自身電量E用完的時(shí)候,功率輸出Pout就無(wú)法滿(mǎn)足供電需求,造成局部供電不足,所以需要在其他時(shí)刻給自身能源充電。 節(jié)點(diǎn)自身能源不允許同時(shí)充電和放電,當(dāng)Pein>0時(shí),節(jié)點(diǎn)處于充電狀態(tài),此時(shí)Peout=0,當(dāng)Peout>0時(shí),該節(jié)點(diǎn)處于放電狀態(tài),此時(shí)Pein。 傳統(tǒng)算法如PID在解決單點(diǎn)控制模型中有著非常穩(wěn)定良好的表現(xiàn),能夠控制單點(diǎn)的電量穩(wěn)定在目標(biāo)值附近。但目標(biāo)值的選取存在一定的問(wèn)題,目標(biāo)值選取過(guò)大會(huì)使得節(jié)點(diǎn)一直趨于較大電能的狀態(tài),從而造成一定的能源浪費(fèi);目標(biāo)值選取過(guò)小則失去了該節(jié)點(diǎn)儲(chǔ)能功能的意義,應(yīng)對(duì)風(fēng)險(xiǎn)的魯棒性較差。 在此問(wèn)題背景下,本文提出了一種算法能夠針對(duì)不同節(jié)點(diǎn)的特性,動(dòng)態(tài)地學(xué)習(xí)節(jié)點(diǎn)的控制參數(shù)。強(qiáng)化學(xué)習(xí)的方法是解決這種問(wèn)題的一種思路。作為機(jī)器學(xué)習(xí)的一個(gè)重要理論分支,強(qiáng)化學(xué)習(xí)(Reinforcement learning , RL)[8-9]是一種學(xué)習(xí)不同狀態(tài)下的最優(yōu)決策動(dòng)作技術(shù),以最大化智能體的長(zhǎng)期獎(jiǎng)勵(lì)累計(jì)值。智能體是自發(fā)選擇可能產(chǎn)生較大獎(jiǎng)勵(lì)值的動(dòng)作,而不是被告知采取哪個(gè)動(dòng)作最好,這也是強(qiáng)化學(xué)習(xí)的自我探索優(yōu)勢(shì)。 本文根據(jù)上述模型設(shè)計(jì)了一種基于策略梯度(policy gradient)[10-12]的節(jié)點(diǎn)控制算法,該方法用一個(gè)值函數(shù)表示該策略長(zhǎng)期回報(bào)的期望,通過(guò)求出值函數(shù)關(guān)于策略參數(shù)的梯度,并使得參數(shù)沿著梯度上升的方向更新,最大化值函數(shù),從而使得策略回報(bào)得到提升。該方法相對(duì)其他強(qiáng)化學(xué)習(xí)算法,具有更好的收斂屬性,適用于高維度和連續(xù)的狀態(tài)空間。 強(qiáng)化學(xué)習(xí)系統(tǒng)基本交互如圖3所示。 圖3 強(qiáng)化學(xué)習(xí)的基本交互 (1) 控制器根據(jù)策略函數(shù)輸出動(dòng)作(供電輸入input)到節(jié)點(diǎn)設(shè)備。 (2) 節(jié)點(diǎn)設(shè)備按照控制器給定的供電輸入與實(shí)時(shí)的供電輸出需求更新自身狀態(tài),并給出該狀態(tài)的獎(jiǎng)勵(lì)。 (3) 策略函數(shù)根據(jù)上一時(shí)刻的獎(jiǎng)勵(lì)提升策略參數(shù)。 本文用系統(tǒng)t時(shí)刻的自身能源儲(chǔ)量Et、自身能耗Ps,t、節(jié)點(diǎn)的輸出Pout,t和節(jié)點(diǎn)當(dāng)前的輸入Pin,t等特征來(lái)表示t時(shí)刻的系統(tǒng)狀態(tài)st;為了減少網(wǎng)絡(luò)波動(dòng)帶來(lái)的影響,并且使輸出連續(xù),將動(dòng)作空間ai,t設(shè)置為{-1,0,1},分別表示將節(jié)點(diǎn)的輸入Pin增加一個(gè)步長(zhǎng)Δh、保持不變、減小一個(gè)步長(zhǎng)Δh。 st=[Et,Ps,t,Pout,t,Pin,t] (4) ai,t={-1,0,1} (5) 應(yīng)用強(qiáng)化學(xué)習(xí)算法的目的就是確定一個(gè)在狀態(tài)st下選擇動(dòng)作ai,t的概率的策略函數(shù)πθ(ai,t|st)。 本文使用一個(gè)MLP(多層感知器)來(lái)擬合策略函數(shù)πθ(ai,t|st)。為了加快收斂速度,該多層感知器只使用兩層全連接隱藏層。每層16個(gè)神經(jīng)元,激活函數(shù)使用ReLU。最后輸出到表示3種動(dòng)作選擇概率的三個(gè)神經(jīng)元上。該網(wǎng)絡(luò)模型如圖4所示。 圖4 MLP結(jié)構(gòu) 實(shí)際運(yùn)行時(shí),使用網(wǎng)絡(luò)輸出概率最高的動(dòng)作作為實(shí)際輸出: at+1=argmaxaπθ(ai,t|st) (6) 環(huán)境更新e(st,at)用來(lái)計(jì)算節(jié)點(diǎn)在狀態(tài)st下選擇動(dòng)作at的下一時(shí)刻狀態(tài)。這個(gè)更新計(jì)算基于1.2節(jié)所述簡(jiǎn)化后的節(jié)點(diǎn)供電模型,表示為: st+1=e(st,at) (7) 獎(jiǎng)勵(lì)(reward)設(shè)計(jì)是強(qiáng)化學(xué)習(xí)算法的核心,定義了算法的學(xué)習(xí)目標(biāo)。通過(guò)設(shè)計(jì)一個(gè)獎(jiǎng)勵(lì)機(jī)制r(st,ai,t)來(lái)提升策略的表現(xiàn)。r(st,ai,t)表示節(jié)點(diǎn)在狀態(tài)st下選擇動(dòng)作ai,t的單步獎(jiǎng)勵(lì)。 當(dāng)該節(jié)點(diǎn)自身能源儲(chǔ)量為零,并且輸入功率Pin因?yàn)槭芟逕o(wú)法滿(mǎn)足輸出功率的需求時(shí),就會(huì)產(chǎn)生電能的虧空Pt;當(dāng)該節(jié)點(diǎn)能源儲(chǔ)量為滿(mǎn),并且輸入功率Pin滿(mǎn)足輸出功率的需求還有額外剩余時(shí),就會(huì)產(chǎn)生電能的飽和Pm。本文算法希望盡量減少電能虧空和電能飽和的出現(xiàn),所以將它們?cè)O(shè)置為負(fù)的獎(jiǎng)勵(lì)。常規(guī)情況下,本算法希望盡量減少自身能源的儲(chǔ)量,將閑置電能用在其他該用的地方,所以使用遞減的log函數(shù)去擬合。其計(jì)算式表示為: (8) 式中:κ、λ、μ為可調(diào)系數(shù),并且1<λ<κ,0<μ<1。 策略提升的目的是為了最大化累計(jì)獎(jiǎng)勵(lì)J(θ),將J(θ)作為目標(biāo)函數(shù),如下式所示: (9) 將目標(biāo)函數(shù)J(θ)使用蒙特卡洛近似的方法進(jìn)行替換,再對(duì)MLP的各層參數(shù)求梯度,可得: (10) 式中:τ為可能存在的策略函數(shù)與環(huán)境的交互軌跡;θ為MLP神經(jīng)元之間的參數(shù);N為動(dòng)作空間的維度;T為使用策略與環(huán)境進(jìn)行交互的軌跡長(zhǎng)度。 然后使用上述梯度更新網(wǎng)絡(luò)參數(shù)θ,使策略得到提升,其更新計(jì)算式為: θ=θ+▽?duì)菾(θ) (11) 該算法中,控制器不斷地與環(huán)境(節(jié)點(diǎn))交互,根據(jù)交互結(jié)果的獎(jiǎng)勵(lì)更新神經(jīng)網(wǎng)絡(luò)(MLP)的參數(shù),MLP又作為控制器輸出控制結(jié)果。最終通過(guò)不斷學(xué)習(xí),從而最大化交互獎(jiǎng)勵(lì),找到較優(yōu)的控制策略。該算法流程如算法1所示。 算法1策略梯度節(jié)點(diǎn)控制算法 初始化所有模塊 隨機(jī)初始化神經(jīng)網(wǎng)絡(luò)參數(shù)θ 更新各節(jié)點(diǎn)狀態(tài)s while True: #程序運(yùn)行主循環(huán) #定期更新網(wǎng)絡(luò)參數(shù) for step in range(period) 策略函數(shù)πθ根據(jù)當(dāng)前狀態(tài)s輸出動(dòng)作a 節(jié)點(diǎn)執(zhí)行動(dòng)作a更新自身狀態(tài)s 獎(jiǎng)勵(lì)機(jī)制根據(jù)更新后狀態(tài)s計(jì)算獎(jiǎng)勵(lì)r 存儲(chǔ)執(zhí)行的中間結(jié)果s、a、r到S、A、R end 根據(jù)S、A、R計(jì)算策略提升的梯度▽?duì)菾 更新神經(jīng)網(wǎng)絡(luò)參數(shù)θ end 本實(shí)驗(yàn)的所有程序都是在Python3.6上運(yùn)行,算法的運(yùn)行環(huán)境為Intel(R) Core(TM) i5-6500, CPU@3.2 GHz,16 GB內(nèi)存,Microsoft Windows 10操作系統(tǒng)。 本文用電數(shù)據(jù)使用2010年南京市居民夏季用電負(fù)荷作為單個(gè)節(jié)點(diǎn)的輸出需求(output_need)。該數(shù)據(jù)可以按天近似視為周期性變化,在每天的12時(shí)至20時(shí)出現(xiàn)用電高峰,峰值為0.4萬(wàn)千瓦。仿真實(shí)驗(yàn)將繪制各指標(biāo)的變化曲線(xiàn),并統(tǒng)計(jì)50個(gè)周期的相關(guān)數(shù)據(jù)進(jìn)行對(duì)照。實(shí)驗(yàn)將本文算法與一般PID算法效果做對(duì)比。PID算法計(jì)算方式如下: (12) err(k)=E(k)-α (13) Pin=u(k)+Pout (14) 式中:err為控制誤差;E(k)為當(dāng)前能源儲(chǔ)量百分比;α為目標(biāo)能源儲(chǔ)量百分比,設(shè)置為50%;u(k)為控制量,計(jì)算節(jié)點(diǎn)輸入Pin時(shí)需要加上節(jié)點(diǎn)輸出Pout;Kp與Ki、Kd為可調(diào)系數(shù),分別為10.0、3.0、0.01。 (1) 正常運(yùn)行狀態(tài)對(duì)比測(cè)試。為了測(cè)試該算法在一般情況下的表現(xiàn),本文設(shè)置參數(shù)如下:節(jié)點(diǎn)最大能源儲(chǔ)量為5萬(wàn)千瓦時(shí),最大輸出1萬(wàn)千瓦,初始能源儲(chǔ)量為65%,初始輸入輸出均為0.2萬(wàn)千瓦。將節(jié)點(diǎn)最大輸入功率設(shè)置在0.5萬(wàn)千瓦,大于節(jié)點(diǎn)的功率輸出需求(output_need)峰值0.4萬(wàn)千瓦,節(jié)點(diǎn)在任何時(shí)候都能夠得到充足供電。測(cè)試結(jié)果如圖5、圖6和表1所示。 圖5 策略梯度算法測(cè)試(max input=0.5萬(wàn)千瓦) 圖6 PID算法測(cè)試(max input=0.5萬(wàn)千瓦) 表1 正常運(yùn)行狀態(tài)結(jié)果統(tǒng)計(jì)表 如圖5所示,節(jié)點(diǎn)實(shí)際供電輸出(output)與節(jié)點(diǎn)輸出需求(output_need)一直處于重合狀態(tài),說(shuō)明節(jié)點(diǎn)一直可以滿(mǎn)足下一級(jí)的用電需求,正常運(yùn)行。如表1所示,上述正常供電時(shí)間占比為100%,沒(méi)有產(chǎn)生供電缺失。閑置電能占比指的是儲(chǔ)存在節(jié)點(diǎn)自身,沒(méi)有參與電能流通的電能占節(jié)點(diǎn)總能源儲(chǔ)量的百分比。本文算法經(jīng)過(guò)學(xué)習(xí)后得到的策略迅速降低節(jié)點(diǎn)的能源儲(chǔ)量(energy)到一個(gè)較低的百分比(4%),符合本文獎(jiǎng)勵(lì)機(jī)制中的第三種情況:正常運(yùn)行時(shí),降低閑置的電能,使整體能源分布更為合理。 如圖6所示,節(jié)點(diǎn)實(shí)際供電輸出(output)與節(jié)點(diǎn)輸出需求(output_need)也一直處于重合狀態(tài),節(jié)點(diǎn)正常運(yùn)行,節(jié)點(diǎn)也能夠?qū)⒆陨砟茉磧?chǔ)量維持在50%附近。但基于PID的傳統(tǒng)算法只是將節(jié)點(diǎn)電量維持在目標(biāo)值附近,傳統(tǒng)算法不能夠預(yù)測(cè)該節(jié)點(diǎn)的輸出需求特征,仍然需要節(jié)點(diǎn)保持50%的能源儲(chǔ)量才能夠正常運(yùn)行。本文算法在該情形下可以降低91.76%的閑置電能,并能夠正常運(yùn)行。 當(dāng)然,如果在這個(gè)實(shí)驗(yàn)中,傳統(tǒng)算法PID將自身電量的目標(biāo)值改為5%,也能夠在較小的最大能源儲(chǔ)量下正常工作。但傳統(tǒng)算法并不能夠?qū)崟r(shí)地學(xué)習(xí)到輸出需求(output_need)的特征,從而改變自己的目標(biāo)值。而這個(gè)基于輸出需求的目標(biāo)值,正是本文算法所能夠?qū)W習(xí)到的特征。 (2) 輸入功率受限狀態(tài)對(duì)比測(cè)試。為了測(cè)試該算法在功率受限情況下的表現(xiàn),將節(jié)點(diǎn)最大輸入功率設(shè)置在0.3萬(wàn)千瓦,小于節(jié)點(diǎn)的功率輸出需求(output_need)峰值0.4萬(wàn)千瓦。其他參數(shù)同上保持不變,測(cè)試結(jié)果如圖7、圖8與表2所示。 圖7 策略梯度算法測(cè)試(max input=0.3萬(wàn)千瓦) 圖8 PID算法測(cè)試(max input=0.3萬(wàn)千瓦) 表2 功率受限狀態(tài)結(jié)果統(tǒng)計(jì)表 如圖7所示,策略梯度控制的節(jié)點(diǎn)實(shí)際供電輸出(output)與節(jié)點(diǎn)輸出需求(output_need)一直處于重合狀態(tài),說(shuō)明節(jié)點(diǎn)一直可以滿(mǎn)足下一級(jí)的用電需求,正常運(yùn)行。而在每天20時(shí)用電高峰來(lái)臨時(shí),如圖8中黑框所示,節(jié)點(diǎn)輸入功率受限,PID算法控制的節(jié)點(diǎn)實(shí)際輸出(output)小于節(jié)點(diǎn)輸出需求(output_need) ,產(chǎn)生了供電不足,供電缺失時(shí)間占比6.77%,累計(jì)供電缺失達(dá)25.66萬(wàn)千瓦。如表2所示,本文算法相比PID控制算法減少了99.4%的供電缺失時(shí)間以及99.9%的供電缺失量,能夠保證節(jié)點(diǎn)的正常運(yùn)行,僅提高了4%的閑置電能。 上述仿真結(jié)果綜合表明,以PID為代表的傳統(tǒng)控制算法,由于缺乏歷史數(shù)據(jù)的積累,無(wú)法對(duì)節(jié)點(diǎn)的輸入需求進(jìn)行預(yù)測(cè)。只能將節(jié)點(diǎn)的輸入需求這一不可控因素當(dāng)成了隨機(jī)的外部擾動(dòng),從而缺乏一些相對(duì)應(yīng)的控制策略,具體控制效果出現(xiàn)了一定的滯后性。其未能預(yù)測(cè)到20時(shí)用電高峰的來(lái)臨而提高節(jié)點(diǎn)供電輸入(input),增加自身能源儲(chǔ)量。當(dāng)用電高峰出現(xiàn)時(shí),節(jié)點(diǎn)輸入功率受限,當(dāng)前節(jié)點(diǎn)的能源儲(chǔ)量不足,導(dǎo)致供電不足。 而本文算法能夠?qū)W習(xí)一些不規(guī)則的周期性供電需求的特征,能夠根據(jù)實(shí)際情況和控制目標(biāo)自動(dòng)尋找到較優(yōu)的策略。如圖7中黑框所示,本文算法預(yù)測(cè)到用電高峰的來(lái)臨,提高節(jié)點(diǎn)用電輸入(input),提前進(jìn)行蓄電,從而避免了用電高峰的供電缺失,即使一次用電高峰需要用到節(jié)點(diǎn)最大能源儲(chǔ)量的80%電量,節(jié)點(diǎn)依然能夠正常運(yùn)行。 為了解決無(wú)線(xiàn)傳能網(wǎng)絡(luò)中的節(jié)點(diǎn)控制問(wèn)題,本文提出了一種基于策略梯度的節(jié)點(diǎn)控制算法。該算法主要基于強(qiáng)化學(xué)習(xí)與數(shù)據(jù)驅(qū)動(dòng),與傳統(tǒng)算法截然不同。該算法只要設(shè)計(jì)好節(jié)點(diǎn)狀態(tài)更新的獎(jiǎng)勵(lì)就可以基于交互數(shù)據(jù)生成合適的控制策略。仿真實(shí)驗(yàn)表明,該算法尤其適合周期性變化的供電需求下的節(jié)點(diǎn)控制,并且能夠針對(duì)不同狀態(tài),自主學(xué)習(xí)到較優(yōu)的控制策略。即使在一些極端情況下,也能有較好的表現(xiàn)。本文最終驗(yàn)證了該算法相對(duì)于傳統(tǒng)算法的優(yōu)越性。2 無(wú)線(xiàn)網(wǎng)絡(luò)節(jié)點(diǎn)供電控制算法
2.1 策略梯度
2.2 基本交互流程
2.3 狀態(tài)空間與動(dòng)作空間
2.4 策略函數(shù)
2.5 環(huán)境更新
2.6 獎(jiǎng)勵(lì)設(shè)置
2.7 策略提升
2.8 算法流程
3 實(shí)驗(yàn)與結(jié)果分析
3.1 實(shí)驗(yàn)環(huán)境
3.2 仿真測(cè)試
4 結(jié) 語(yǔ)