国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多智能體強(qiáng)化學(xué)習(xí)的多園區(qū)綜合能源系統(tǒng)協(xié)同優(yōu)化運(yùn)行研究

2021-08-31 08:49:58黃少偉
電工電能新技術(shù) 2021年8期
關(guān)鍵詞:園區(qū)能量能源

楊 照,黃少偉,陳 穎,2

(1.清華大學(xué)電機(jī)工程與應(yīng)用電子技術(shù)系,北京 100084;2.青海大學(xué)新能源光伏產(chǎn)業(yè)研究中心,青海 西寧 810016)

1 引言

綜合能源系統(tǒng)能夠提高能源利用效率,促進(jìn)可再生能源消納[1]。作為用能終端側(cè)的多能耦合系統(tǒng),多能園區(qū)將園區(qū)中多種能源進(jìn)行轉(zhuǎn)換、分配與有機(jī)協(xié)調(diào),給終端用能側(cè)帶來(lái)了更大的靈活性[2]。相比于各個(gè)園區(qū)單獨(dú)運(yùn)行,多個(gè)園區(qū)間的協(xié)同運(yùn)行構(gòu)成了多園區(qū)綜合能源系統(tǒng)。多園區(qū)綜合能源系統(tǒng)內(nèi)的能量互濟(jì)可進(jìn)一步釋放分布式資源的潛力,提高各個(gè)園區(qū)運(yùn)行方式的靈活性,降低各個(gè)園區(qū)運(yùn)行成本[3]。因此研究多園區(qū)綜合能源系統(tǒng)協(xié)同優(yōu)化運(yùn)行方法對(duì)于提高系統(tǒng)經(jīng)濟(jì)性,促進(jìn)可再生能源消納具有重要意義[4]。

目前對(duì)多園區(qū)綜合能源系統(tǒng)協(xié)同優(yōu)化運(yùn)行方法的研究有集中優(yōu)化和分布式優(yōu)化兩種方法[5]。集中優(yōu)化方面,文獻(xiàn)[6]提出了一種基于可再生能源配額制的多園區(qū)綜合能源系統(tǒng)優(yōu)化調(diào)度模型,并采用集中優(yōu)化進(jìn)行求解,有效地提高了系統(tǒng)可再生能源消納能力,并保證了系統(tǒng)的經(jīng)濟(jì)性;集中優(yōu)化需要一個(gè)集中決策者,大量信息的傳遞會(huì)對(duì)通信造成較大負(fù)擔(dān),同時(shí)詳細(xì)信息的傳遞也不利于保護(hù)園區(qū)的隱私[7]。分布式優(yōu)化方面,文獻(xiàn)[3]提出了一個(gè)基于能源交易的能源共享策略,以協(xié)調(diào)區(qū)域綜合能源系統(tǒng)中互聯(lián)的多能微網(wǎng),并采用交替方向乘子法算法(Alternating Direction Method of Multipliers,ADMM)實(shí)現(xiàn)了能量分配的分布式優(yōu)化;文獻(xiàn)[8]研究了同一能源配送網(wǎng)絡(luò)下多能源樞紐的協(xié)同優(yōu)化運(yùn)行問(wèn)題,采用基于A(yíng)DMM的分布式優(yōu)化算法進(jìn)行求解,保護(hù)了各能源樞紐的隱私,保證了調(diào)度的相對(duì)獨(dú)立性。在多園區(qū)綜合能源系統(tǒng)中,各個(gè)園區(qū)往往分屬不同的管理者,根據(jù)最小化自身運(yùn)行成本的目標(biāo)進(jìn)行自主調(diào)度決策,因此系統(tǒng)呈現(xiàn)出多利益主體特性。然而上述研究均以全局最優(yōu)為目標(biāo),沒(méi)有對(duì)各個(gè)園區(qū)之間的能量傳遞進(jìn)行結(jié)算,忽略了多園區(qū)綜合能源系統(tǒng)中的多利益主體特性,同時(shí)也缺乏對(duì)新能源出力以及多能負(fù)荷的多重不確定性的考慮。

基于數(shù)據(jù)驅(qū)動(dòng)的強(qiáng)化學(xué)習(xí)算法(Reinforcement Learning,RL)無(wú)需對(duì)不確定量進(jìn)行精準(zhǔn)預(yù)測(cè),目前已有較多的研究將強(qiáng)化學(xué)習(xí)應(yīng)用于電力系統(tǒng)和綜合能源系統(tǒng)的決策控制中[9,10],文獻(xiàn)[9]介紹了基于RL的模型和解決方案在頻率調(diào)節(jié)、電壓控制、能源管理方面的關(guān)鍵應(yīng)用;文獻(xiàn)[10]介紹了RL的最新進(jìn)展以及在電力系統(tǒng)中應(yīng)用的前景和挑戰(zhàn);文獻(xiàn)[11]將深度強(qiáng)化學(xué)習(xí)算法(Deep Deterministic Policy Gradient,DDPG)應(yīng)用于綜合能源服務(wù)商的定價(jià)和調(diào)度決策中;文獻(xiàn)[12]提出了一種基于無(wú)模型深度強(qiáng)化學(xué)習(xí)的多能園區(qū)實(shí)時(shí)自治能量管理策略,并驗(yàn)證了該方法在降低用戶(hù)用能成本的同時(shí)處理不確定性的優(yōu)越性能;文獻(xiàn)[13]將RL和傳統(tǒng)優(yōu)化方法相結(jié)合,提出了一種雙層強(qiáng)化學(xué)習(xí)模型,以實(shí)現(xiàn)綜合能源系統(tǒng)的實(shí)時(shí)經(jīng)濟(jì)調(diào)度。但上述研究多將強(qiáng)化學(xué)習(xí)應(yīng)用于將綜合能源系統(tǒng)建模為單一主體的場(chǎng)景中,目前尚缺乏對(duì)強(qiáng)化學(xué)習(xí)應(yīng)用于綜合能源系統(tǒng)多主體場(chǎng)景中的研究。

因此,本文針對(duì)含多重不確定性的多園區(qū)綜合能源系統(tǒng)多利益主體協(xié)同優(yōu)化運(yùn)行問(wèn)題進(jìn)行研究,采用強(qiáng)化學(xué)習(xí)算法進(jìn)行求解。本文首先針對(duì)多園區(qū)綜合能源系統(tǒng)建立基于內(nèi)部市場(chǎng)和內(nèi)部能量交易的整體模型;然后建立單個(gè)園區(qū)數(shù)學(xué)模型和內(nèi)部市場(chǎng)出清機(jī)制;接著建立面向多智能體系統(tǒng)的馬爾可夫博弈模型來(lái)描述多智能體強(qiáng)化學(xué)習(xí)任務(wù),并建立基于多智能體深度確定性策略梯度算法(Muli-Agent Deep Deterministic Policy Gradient,MADDPG)的求解架構(gòu)和訓(xùn)練方法;最后通過(guò)仿真驗(yàn)證本文所提方法在確定性場(chǎng)景中和不確定性場(chǎng)景中的表現(xiàn)。

2 多園區(qū)綜合能源系統(tǒng)建模

2.1 多園區(qū)綜合能源系統(tǒng)結(jié)構(gòu)

本文研究的多園區(qū)綜合能源系統(tǒng)的整體結(jié)構(gòu)如圖1所示。園區(qū)之間可以通過(guò)能量母線(xiàn)進(jìn)行能量的雙向傳遞,并通過(guò)內(nèi)部市場(chǎng)進(jìn)行結(jié)算?;趦?nèi)部市場(chǎng),能量富余的園區(qū)可以將多余的能量賣(mài)給其他園區(qū),而不是低價(jià)賣(mài)給外部能源網(wǎng)絡(luò);能量不足的園區(qū)可通過(guò)內(nèi)部市場(chǎng)購(gòu)買(mǎi)能量,從而避免以較高的價(jià)格向外部能源網(wǎng)絡(luò)買(mǎi)入能量。因此相比于各個(gè)園區(qū)單獨(dú)運(yùn)行,基于內(nèi)部市場(chǎng)的多園區(qū)協(xié)同運(yùn)行可充分發(fā)揮園區(qū)的靈活性和能量互補(bǔ)特性,降低各個(gè)園區(qū)的運(yùn)行成本。

圖1 多園區(qū)綜合能源系統(tǒng)整體結(jié)構(gòu)Fig.1 Structure of multi-park integrated energy system

在多園區(qū)綜合能源系統(tǒng)中,各個(gè)園區(qū)優(yōu)化自身調(diào)度策略,并將計(jì)劃買(mǎi)入或售出的能量信息提交給內(nèi)部市場(chǎng),由市場(chǎng)管理者進(jìn)行出清,多余或缺乏的能量再向外部能源網(wǎng)絡(luò)賣(mài)出或買(mǎi)入。接下來(lái)介紹單個(gè)園區(qū)優(yōu)化模型和內(nèi)部市場(chǎng)出清機(jī)制。

2.2 單個(gè)園區(qū)模型

單個(gè)多能園區(qū)由新能源、儲(chǔ)能、能量轉(zhuǎn)換設(shè)備(如電鍋爐、CHP等)和多能用戶(hù)等構(gòu)成。對(duì)于每個(gè)園區(qū),園區(qū)管理者制定園區(qū)內(nèi)部設(shè)備的運(yùn)行計(jì)劃從而實(shí)現(xiàn)園區(qū)的經(jīng)濟(jì)運(yùn)行。園區(qū)管理者從外部能源網(wǎng)絡(luò)或其他園區(qū)購(gòu)入電、熱等能源,經(jīng)過(guò)能量存儲(chǔ)和轉(zhuǎn)換輸出至內(nèi)部多能用戶(hù),也可將多余的能量賣(mài)給其他園區(qū)或外部能源網(wǎng)絡(luò),其調(diào)度目標(biāo)為最小化自身運(yùn)行成本為:

minCi(xi)

(1)

(2)

每個(gè)園區(qū)在運(yùn)行時(shí)需要滿(mǎn)足如下約束條件:

(1)能量平衡約束。

(3)

(4)

(2)儲(chǔ)能動(dòng)作約束。

(5)

(6)

(7)

SOCmin≤SOCt≤SOCmax

(8)

(9)

(4)傳輸線(xiàn)功率約束。

0≤Ei,t,b≤Ei,b,max

(10)

0≤Ei,t,s≤Ei,s,max

(11)

0≤Hi,t,b≤Hi,b,max

(12)

0≤Hi,t,s≤Hi,s,max

(13)

式中,Ei,b,max、Ei,s,max、Hi,b,max、Hi,s,max分別為電、熱傳輸線(xiàn)路(管道)最大功率。

2.3 市場(chǎng)出清機(jī)制設(shè)計(jì)

本文采用內(nèi)部市場(chǎng)實(shí)現(xiàn)園區(qū)間能量交易的結(jié)算,每個(gè)園區(qū)只需向內(nèi)部市場(chǎng)提供自己的總售能量和購(gòu)能量數(shù)據(jù),無(wú)需提供詳細(xì)的運(yùn)行數(shù)據(jù)。

本文參考文獻(xiàn)[14]微電網(wǎng)內(nèi)部電力市場(chǎng)結(jié)算方案建立多園區(qū)內(nèi)部電、熱市場(chǎng)出清方法,電能市場(chǎng)價(jià)格出清如式(14)、式(15)所示,熱能市場(chǎng)類(lèi)似。

(14)

(15)

3 求解方法

本節(jié)首先將第2節(jié)中建立的多園區(qū)綜合能源系統(tǒng)模型轉(zhuǎn)換為馬爾可夫博弈模型。在此基礎(chǔ)上,本節(jié)建立了一種面向多園區(qū)綜合能源系統(tǒng)的MADDPG算法,該算法采用“集中訓(xùn)練,分散執(zhí)行”的方法求解此馬爾可夫博弈問(wèn)題。在虛擬環(huán)境中,智能體基于系統(tǒng)狀態(tài)進(jìn)行訓(xùn)練,在實(shí)際環(huán)境中,訓(xùn)練好的智能體可僅基于自己的局部觀(guān)測(cè)給出最優(yōu)動(dòng)作,從而避免了通信負(fù)擔(dān)過(guò)大和隱私泄露的問(wèn)題,同時(shí)多智能體算法保證了多利益主體各自收益的最大化。

3.1 馬爾可夫博弈模型

為簡(jiǎn)化問(wèn)題,本文對(duì)各園區(qū)設(shè)計(jì)了相同的結(jié)構(gòu),同時(shí)對(duì)各個(gè)智能體設(shè)計(jì)了形式相似的觀(guān)測(cè)空間、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù)。

(16)

(17)

(18)

3.2 面向多園區(qū)綜合能源系統(tǒng)的MADDPG算法

盡管已有較多研究應(yīng)用深度強(qiáng)化學(xué)習(xí)算法求解電力系統(tǒng)和綜合能源系統(tǒng)優(yōu)化調(diào)度問(wèn)題,但是對(duì)于多主體系統(tǒng),直接使用多個(gè)強(qiáng)化學(xué)習(xí)智能體進(jìn)行獨(dú)立訓(xùn)練和決策往往達(dá)不到理想的效果。由于每個(gè)智能體的獎(jiǎng)勵(lì)依賴(lài)于所有智能體的動(dòng)作,然而每個(gè)智能體的策略分布在訓(xùn)練過(guò)程中且都在不斷變化,因此從單個(gè)智能體的角度看,其面對(duì)的環(huán)境是不穩(wěn)定的。這種不穩(wěn)定打破了強(qiáng)化學(xué)習(xí)算法所遵循的馬爾可夫假設(shè)[15],因此難以通過(guò)獨(dú)立訓(xùn)練多個(gè)強(qiáng)化學(xué)習(xí)智能體得到穩(wěn)定的策略分布。為了解決這個(gè)問(wèn)題,本文采用具有“集中訓(xùn)練,分散執(zhí)行”特點(diǎn)的MADDPG算法求解多園區(qū)綜合能源系統(tǒng)協(xié)同優(yōu)化問(wèn)題。

MADDPG算法是DDPG算法[16]的多智能體版本,其模型結(jié)構(gòu)如圖2所示。每個(gè)智能體由需要全局信息的評(píng)論家網(wǎng)絡(luò)(Critic)和只需要局部觀(guān)測(cè)的動(dòng)作家網(wǎng)絡(luò)(Actor)組成[17]。MADDPG算法處理環(huán)境不穩(wěn)定的關(guān)鍵是集中訓(xùn)練的評(píng)論家網(wǎng)絡(luò),在訓(xùn)練階段,評(píng)論家網(wǎng)絡(luò)輸入系統(tǒng)狀態(tài),因此每個(gè)智能體都能捕捉到環(huán)境的動(dòng)態(tài)變化,這使得MADDPG的訓(xùn)練過(guò)程更加穩(wěn)定。MADDPG算法中,動(dòng)作家網(wǎng)絡(luò)和評(píng)論家網(wǎng)絡(luò)均為多層全連接網(wǎng)絡(luò)。由于評(píng)論家網(wǎng)絡(luò)輸入系統(tǒng)狀態(tài),因此其網(wǎng)絡(luò)寬度大于只輸入局部觀(guān)測(cè)的動(dòng)作家網(wǎng)絡(luò)。本文建立的動(dòng)作家和評(píng)論家網(wǎng)絡(luò)的結(jié)構(gòu)如圖3所示。

圖2 MADDPG算法結(jié)構(gòu)Fig.2 Structure of MADDPG algorithm

圖3 動(dòng)作家網(wǎng)絡(luò)和評(píng)論家網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structures of actor network and critic network

(19)

(20)

(1)評(píng)論家估計(jì)網(wǎng)絡(luò)參數(shù)更新

評(píng)論家估計(jì)網(wǎng)絡(luò)通過(guò)最小化損失函數(shù)LθQ來(lái)更新參數(shù),損失函數(shù)的定義為:

(21)

(22)

根據(jù)損失函數(shù)的梯度更新評(píng)論家估計(jì)網(wǎng)絡(luò)的參數(shù)為:

(23)

式中,αQ為評(píng)論家估計(jì)網(wǎng)絡(luò)的學(xué)習(xí)率。

(2)動(dòng)作家估計(jì)網(wǎng)絡(luò)參數(shù)更新

在訓(xùn)練過(guò)程中,動(dòng)作家網(wǎng)絡(luò)朝聯(lián)合狀態(tài)動(dòng)作價(jià)值Q增大的方向更新參數(shù)以獲得更大的價(jià)值,動(dòng)作家網(wǎng)絡(luò)參數(shù)更新的梯度為:

(24)

動(dòng)作家估計(jì)網(wǎng)絡(luò)的更新公式為:

(25)

式中,απ為動(dòng)作家估計(jì)網(wǎng)絡(luò)的學(xué)習(xí)率。

(3)目標(biāo)網(wǎng)絡(luò)參數(shù)更新

評(píng)論家和動(dòng)作家目標(biāo)網(wǎng)絡(luò)參數(shù)由相應(yīng)估計(jì)網(wǎng)絡(luò)參數(shù)進(jìn)行滯后更新,采用如式(26)、式(27)所示的軟更新方式用以提高訓(xùn)練的穩(wěn)定性和收斂性[18]。

θiπ′←τθiπ+(1-τ)θiπ′

(26)

θiQ′←τθiQ+(1-τ)θiQ′

(27)

式中,τ為軟更新系數(shù),且τ?1。

在訓(xùn)練過(guò)程中,由于智能體與環(huán)境順序交互產(chǎn)生的樣本有關(guān)聯(lián),并不滿(mǎn)足獨(dú)立同分布的假設(shè),因此不能直接用于訓(xùn)練。MADDPG算法采用同DDPG相同的經(jīng)驗(yàn)回放機(jī)制,在與環(huán)境的交互中存儲(chǔ)智能體與環(huán)境交互產(chǎn)生的經(jīng)驗(yàn)序列e=(o1,t,oi,t,on,t,a1,t,ai,t,an,t,r1,t,ri,t,rn,t,o1,t+1,oi,t+1,on,t+1),在樣本池中隨機(jī)抽樣一個(gè)小批量樣本用于訓(xùn)練,從而降低樣本間的相關(guān)性。

3.3 基于MADDPG算法的多園區(qū)綜合能源系統(tǒng)協(xié)同優(yōu)化求解架構(gòu)

在多園區(qū)綜合能源系統(tǒng)的協(xié)同優(yōu)化問(wèn)題中,本文使用歷史數(shù)據(jù)在虛擬空間進(jìn)行離線(xiàn)訓(xùn)練,訓(xùn)練好的智能體在真實(shí)物理空間進(jìn)行分散決策,既降低了執(zhí)行階段的通信負(fù)擔(dān),又保護(hù)了各個(gè)園區(qū)的隱私,多園區(qū)綜合能源系統(tǒng)協(xié)同優(yōu)化問(wèn)題的求解架構(gòu)如圖4所示。

圖4 多園區(qū)綜合能源系統(tǒng)協(xié)同優(yōu)化求解架構(gòu)Fig.4 Solution framework for collaborative optimization of multi-park integrated energy system

其中MADDPG算法的訓(xùn)練過(guò)程如下:

(1)隨機(jī)初始化每個(gè)智能體的估計(jì)網(wǎng)絡(luò)參數(shù)(2)設(shè)置每個(gè)智能體的目標(biāo)網(wǎng)絡(luò)參數(shù)為相應(yīng)的估計(jì)網(wǎng)絡(luò)參數(shù)(3)forepisodek=1toMdo 1)每個(gè)智能體獲得初始觀(guān)測(cè)oi,0 2)fortimestep(hour)t=1toTdo ①通過(guò)動(dòng)作家估計(jì)網(wǎng)絡(luò)選擇動(dòng)作ai,t ②執(zhí)行聯(lián)合動(dòng)作于環(huán)境,獲得獎(jiǎng)勵(lì)(r1,t,…,ri,t,…,rn,t)和下一時(shí)段觀(guān)測(cè)(o1,t+1,…,oi,t+1,…,on,t+1) ③將這一時(shí)步形成的經(jīng)驗(yàn)序列e存儲(chǔ)于經(jīng)驗(yàn)池中 ④對(duì)每個(gè)智能體更新觀(guān)測(cè):oi,t←oi,t+1 ⑤foragenti=1tondo (a)采樣小批量樣本進(jìn)行訓(xùn)練(b)根據(jù)式(23)、式(25)更新估計(jì)網(wǎng)絡(luò)參數(shù)(c)根據(jù)式(26)、式(27)更新目標(biāo)網(wǎng)絡(luò)參數(shù) ⑥endfor 3)endfor(4)endfor

4 算例分析

4.1 算例參數(shù)

表1 設(shè)備參數(shù)Tab.1 Parameters of devices

表2 電網(wǎng)電價(jià)Tab.2 Electricity price of power grid

本文設(shè)定各個(gè)園區(qū)智能體的網(wǎng)絡(luò)結(jié)構(gòu)相同,設(shè)置動(dòng)作家網(wǎng)絡(luò)的學(xué)習(xí)率為1e-4,評(píng)論家網(wǎng)絡(luò)的學(xué)習(xí)率為1e-3,獎(jiǎng)勵(lì)衰減因子γ=1,表征決策目標(biāo)為整個(gè)調(diào)度周期運(yùn)行成本最小。

4.2 確定場(chǎng)景仿真結(jié)果分析

假設(shè)各園區(qū)的負(fù)荷和新能源出力可準(zhǔn)確預(yù)測(cè),基于預(yù)測(cè)值,可進(jìn)行多園區(qū)協(xié)同優(yōu)化,分別采取以下兩種方案作為對(duì)比:①集中優(yōu)化方法(Centralized Optimization,CO),假設(shè)多園區(qū)綜合能源系統(tǒng)有一個(gè)共同的管理者,根據(jù)各個(gè)園區(qū)的數(shù)據(jù)和參數(shù)進(jìn)行集中統(tǒng)一調(diào)度,所得結(jié)果作為第一個(gè)參考;②單獨(dú)優(yōu)化方法(Individual Optimization,IO),假設(shè)園區(qū)之間不能進(jìn)行能量交換,各園區(qū)只能與外部網(wǎng)絡(luò)進(jìn)行能量交換,各園區(qū)單獨(dú)優(yōu)化的結(jié)果可作為第二個(gè)參考。理論上集中優(yōu)化的結(jié)果是最優(yōu)的,但也忽略了系統(tǒng)的多利益主體特性,而單獨(dú)優(yōu)化的結(jié)果運(yùn)行成本最高。

一個(gè)典型的場(chǎng)景如圖5所示,假設(shè)各個(gè)園區(qū)位置接近,各個(gè)園區(qū)新能源出力具有一定時(shí)空相關(guān)性,因此各個(gè)園區(qū)新能源出力曲線(xiàn)形狀相似,但幅值不同。又由于各個(gè)園區(qū)用能曲線(xiàn)不同,因此各個(gè)園區(qū)有不同的能量特征,例如園區(qū)1新能源發(fā)電量較高,但是電熱負(fù)荷水平比較低,園區(qū)3則相反。

圖5 典型場(chǎng)景下三個(gè)園區(qū)的新能源出力和電熱負(fù)荷曲線(xiàn)Fig.5 Renewable energy outputs and multi energy loads curves of three parks in typical scenario

MADDPG算法得到的三個(gè)園區(qū)獎(jiǎng)勵(lì)總和的收斂曲線(xiàn)如圖6所示。分析收斂曲線(xiàn)可得,隨著訓(xùn)練回合的增加,各園區(qū)之間的動(dòng)作逐漸協(xié)調(diào),經(jīng)過(guò)10 000次訓(xùn)練,三個(gè)園區(qū)獎(jiǎng)勵(lì)總和逼近集中調(diào)度的最優(yōu)值。三種方法在典型場(chǎng)景下得到的運(yùn)行成本見(jiàn)表3。由結(jié)果可得,進(jìn)行集中優(yōu)化時(shí),多園區(qū)系統(tǒng)總運(yùn)行成本為26 418.3元,園區(qū)2的運(yùn)行成本為8 488.0元;而在本文所提方法下多園區(qū)系統(tǒng)總運(yùn)行成本為26 796.5元,園區(qū)2用能成本為8 293.9元。由此可見(jiàn),集中優(yōu)化雖然使得整個(gè)多園區(qū)系統(tǒng)的總運(yùn)行成本更低,但其因?yàn)榧袥Q策調(diào)度的特性而損傷了園區(qū)2的利益,而本文所提的求解方法可以實(shí)現(xiàn)各個(gè)園區(qū)的獨(dú)立自治,保護(hù)各個(gè)園區(qū)的利益。相比于各園區(qū)單獨(dú)優(yōu)化,本文所提算法下各個(gè)園區(qū)的用能成本均有下降,其中園區(qū)1和園區(qū)3的用能成本下降比例較大,且園區(qū)1開(kāi)始盈利,這是由于園區(qū)1新能源出力較高,在內(nèi)部市場(chǎng)扮演售能者(能量提供者)的角色。園區(qū)3新能源出力較低,在內(nèi)部市場(chǎng)扮演購(gòu)能者(能量接收者)的角色,基于MADDPG的多園區(qū)協(xié)同優(yōu)化運(yùn)行既提高了售能者的收益,也降低了購(gòu)能者的成本。

圖6 園區(qū)智能體獎(jiǎng)勵(lì)總和的收斂曲線(xiàn)Fig.6 Convergence curve of total rewards of three parks

表3 典型場(chǎng)景下各園區(qū)運(yùn)行成本統(tǒng)計(jì)Tab.3 Operation cost in typical scenario

內(nèi)部市場(chǎng)的價(jià)格出清結(jié)果如圖7所示,從出清曲線(xiàn)可得,內(nèi)部熱能市場(chǎng)全天處于供不應(yīng)求的狀態(tài),內(nèi)部電能市場(chǎng)在新能源高發(fā)時(shí)刻會(huì)出現(xiàn)短暫的供過(guò)于求狀態(tài),其余時(shí)刻也處于供不應(yīng)求狀態(tài)。

圖7 典型場(chǎng)景下內(nèi)部市場(chǎng)價(jià)格出清曲線(xiàn)Fig.7 Clearing price curve of the internal market

典型場(chǎng)景下各園區(qū)的能量交易量如圖8所示,由于園區(qū)1新能源發(fā)電量較多,因此其向內(nèi)部市場(chǎng)售電量較多,且其熱負(fù)荷水平較低,因此園區(qū)1會(huì)在光伏高發(fā)時(shí)刻向其他園區(qū)出售多余的熱能,而園區(qū)3由于新能源發(fā)電量最少,其在內(nèi)部市場(chǎng)主要是一個(gè)購(gòu)能者。

圖8 典型場(chǎng)景下各園區(qū)能源交易量Fig.8 Energy trading of each park in typical scenario

4.3 不確定場(chǎng)景仿真結(jié)果分析

假設(shè)新能源出力、電熱負(fù)荷等不確定變量不能準(zhǔn)確預(yù)測(cè),本文建立的求解方法是否能夠?qū)崿F(xiàn)多園區(qū)協(xié)同優(yōu)化運(yùn)行是本節(jié)研究的內(nèi)容。為了刻畫(huà)新能源出力和負(fù)荷的不確定性,本文基于采樣的方式生成多種場(chǎng)景供模型訓(xùn)練,并生成100個(gè)隨機(jī)測(cè)試場(chǎng)景測(cè)試模型的訓(xùn)練效果。假設(shè)新能源和負(fù)荷的基準(zhǔn)曲線(xiàn)為4.2節(jié)建立的典型場(chǎng)景,并以基準(zhǔn)曲線(xiàn)為均值、以0.1倍的基準(zhǔn)值為標(biāo)準(zhǔn)差采樣形成多種可能的場(chǎng)景。按照此方法生成園區(qū)1的100個(gè)測(cè)試場(chǎng)景如圖9所示,園區(qū)2和園區(qū)3按照相同的方法進(jìn)行場(chǎng)景生成。

圖9 園區(qū)1的100個(gè)測(cè)試場(chǎng)景Fig.9 100 test scenarios of the first park

在不確定性場(chǎng)景測(cè)試中,本文建立了兩種對(duì)比算法:①基于新能源出力和負(fù)荷預(yù)測(cè)的集中優(yōu)化(CO);②無(wú)預(yù)測(cè)信息下園區(qū)獨(dú)立運(yùn)行的單時(shí)段最優(yōu)算法(Short-Sight Individual Optimization,SSIO),即當(dāng)新能源出力和負(fù)荷預(yù)測(cè)值未知時(shí),單獨(dú)運(yùn)行的園區(qū)只根據(jù)當(dāng)前時(shí)段的實(shí)時(shí)信息做出單時(shí)段的最優(yōu)調(diào)度,而不考慮整個(gè)調(diào)度周期最優(yōu)。理論上三種優(yōu)化方法得到的園區(qū)總運(yùn)行成本關(guān)系為:基于新能源出力和負(fù)荷預(yù)測(cè)的集中優(yōu)化<本文方法<園區(qū)獨(dú)立運(yùn)行的單時(shí)段最優(yōu)算法。

系統(tǒng)智能體獎(jiǎng)勵(lì)總和的收斂曲線(xiàn)如圖10所示,隨著訓(xùn)練次數(shù)的增加,各園區(qū)的動(dòng)作逐漸協(xié)調(diào),智能體獎(jiǎng)勵(lì)總和逐漸收斂。100個(gè)測(cè)試場(chǎng)景的平均運(yùn)行成本結(jié)果見(jiàn)表4,分析結(jié)果可得,在新能源出力和負(fù)荷信息未知的不確定性場(chǎng)景中,相比于各園區(qū)獨(dú)立運(yùn)行,基于MADDPG算法的多園區(qū)協(xié)同運(yùn)行可降低各個(gè)園區(qū)的運(yùn)行成本,系統(tǒng)總成本降低比例為15.44%。需說(shuō)明的是,基于新能源出力和負(fù)荷預(yù)測(cè)的集中優(yōu)化需要對(duì)多重不確定量進(jìn)行準(zhǔn)確預(yù)測(cè),而基于MADDPG的協(xié)同優(yōu)化在不需要預(yù)測(cè)值的情況下可接近集中優(yōu)化的結(jié)果,同時(shí)本文所提方法保證了多利益主體通過(guò)內(nèi)部市場(chǎng)進(jìn)行合理的收益分配。

圖10 不確定性場(chǎng)景下智能體獎(jiǎng)勵(lì)總和的收斂曲線(xiàn)Fig.10 Total rewards convergence curves in uncertain scenarios

表4 100個(gè)測(cè)試場(chǎng)景下各園區(qū)平均運(yùn)行成本統(tǒng)計(jì)Tab.4 Average operating cost under 100 test scenarios

5 結(jié)論

針對(duì)多園區(qū)綜合能源系統(tǒng)協(xié)同優(yōu)化運(yùn)行中面臨的缺乏多主體利益分配機(jī)制、隱私保護(hù)不足以及存在多重不確定量等問(wèn)題,本文基于具有“集中訓(xùn)練、分散執(zhí)行”特點(diǎn)的MADDPG算法建立了求解架構(gòu)進(jìn)行求解。確定性和不確定性場(chǎng)景下的仿真結(jié)果均表明,該算法可保證多利益主體合理的收益分配,在保護(hù)園區(qū)隱私的前提下降低各園區(qū)的運(yùn)行成本,同時(shí)該算法不依賴(lài)于對(duì)多重不確定量的預(yù)測(cè),可應(yīng)用于實(shí)時(shí)調(diào)度中。

本文針對(duì)不確定量的建模還存在一定不足,后續(xù)研究計(jì)劃則是研究如何基于真實(shí)歷史數(shù)據(jù)訓(xùn)練模型;另外本文基于仿真空間進(jìn)行離線(xiàn)訓(xùn)練,相比于離線(xiàn)訓(xùn)練,在線(xiàn)訓(xùn)練不需要建立鏡像空間,但其常面臨安全性低、效率低以及通信負(fù)擔(dān)重等問(wèn)題,因此后續(xù)工作將研究如何高效安全地實(shí)現(xiàn)在線(xiàn)訓(xùn)練。

猜你喜歡
園區(qū)能量能源
第六章意外的收獲
能量之源
蘇通園區(qū):激蕩開(kāi)放潮 十年再出發(fā)
用完就沒(méi)有的能源
————不可再生能源
家教世界(2019年4期)2019-02-26 13:44:20
園區(qū)的開(kāi)放樣本
商周刊(2018年24期)2019-01-08 03:30:36
從園區(qū)化到國(guó)際化
商周刊(2018年12期)2018-07-11 01:27:18
詩(shī)無(wú)邪傳遞正能量
福能源 緩慢直銷(xiāo)路
園區(qū)開(kāi)發(fā)Ⅱ個(gè)股表現(xiàn)
開(kāi)年就要正能量
都市麗人(2015年2期)2015-03-20 13:32:31
台中市| 文登市| 霍林郭勒市| 台北县| 濉溪县| 绥芬河市| 奉贤区| 新闻| 塔城市| 怀集县| 育儿| 铁岭县| 金川县| 游戏| 金寨县| 邓州市| 东丽区| 宜州市| 盐源县| 小金县| 宁乡县| 西畴县| 苗栗市| 如皋市| 汝南县| 双辽市| 楚雄市| 平顶山市| 抚顺县| 拉萨市| 荣成市| 阿克苏市| 会东县| 垣曲县| 木里| 九江县| 托里县| 浙江省| 平原县| 浦县| 新安县|