齊韻英, 許瀟, 殷科, 馬超, 劉友波
(1.四川大學(xué)電氣工程學(xué)院, 成都市 610065;2.國(guó)網(wǎng)四川綜合能源服務(wù)有限公司, 成都市 610072)
能源結(jié)構(gòu)向低碳方向轉(zhuǎn)型的需求[1-2],以及電力電子和可再生能源發(fā)電技術(shù)的進(jìn)步,推動(dòng)了可再生能源的利用。分布式發(fā)電(distributed generation,DG)通過(guò)逆變器等電力電子設(shè)備接入配電網(wǎng),系統(tǒng)由單向無(wú)源網(wǎng)絡(luò)向雙向有源網(wǎng)絡(luò)過(guò)渡[3-4],導(dǎo)致了額外的電壓偏移。風(fēng)機(jī)和光伏出力的不確定性和波動(dòng)性,給配電網(wǎng)的可靠、優(yōu)化以及安全運(yùn)行等方面帶來(lái)了挑戰(zhàn)[5-7]。其中,DG滲透率的提高導(dǎo)致的電壓越限問(wèn)題備受關(guān)注。
以往的電壓調(diào)控方法,如內(nèi)點(diǎn)法[8-9]、混合整數(shù)線性規(guī)劃[10]、混合整數(shù)二階錐規(guī)劃[11-12]以及元啟發(fā)式優(yōu)化算法[13-14]等,盡管這些基于模型的策略在電壓優(yōu)化等方面是有效的,但其依賴于網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和參數(shù)等信息,要求全局信息的掌握,不能保證模型的準(zhǔn)確性,因此優(yōu)化的效果有限。可再生能源發(fā)電和負(fù)荷等的多種不確定性也是傳統(tǒng)優(yōu)化方法面臨的挑戰(zhàn),為此提出了模型預(yù)測(cè)控制(model predictive control,MPC)[15]、魯棒優(yōu)化(robust optimization,RO)[16-17]等不確定優(yōu)化方法,但基于MPC和RO的策略同樣依賴準(zhǔn)確的網(wǎng)絡(luò)參數(shù)和拓?fù)湫畔?在處理不確定時(shí)由于信息采集不全需要引入諸多主觀假定參數(shù),變量維度容易爆炸,且MPC和RO通過(guò)尋找預(yù)先確定的解決方案來(lái)處理負(fù)荷和DG的不確定性,但DG在短時(shí)間內(nèi)波動(dòng)較大,使其需要更頻繁地操作可控設(shè)備,并重新計(jì)算最優(yōu)解[18]。
人工智能的發(fā)展為解決上述問(wèn)題提供了解決方法,深度強(qiáng)化學(xué)習(xí)[19](deep reinforcement learning,DRL)提供了無(wú)模型的框架來(lái)解決配電網(wǎng)電壓調(diào)控問(wèn)題,可以彌補(bǔ)傳統(tǒng)優(yōu)化方法依賴物理模型和全局信息的缺陷,此外在應(yīng)對(duì)多種不確定性的環(huán)境時(shí),無(wú)需擴(kuò)展決策變量維度,性能優(yōu)于傳統(tǒng)的隨機(jī)優(yōu)化方法。DRL依據(jù)學(xué)習(xí)到的歷史經(jīng)驗(yàn)在線調(diào)整系統(tǒng)的運(yùn)行狀態(tài),具有能夠兼容多種復(fù)雜模型的優(yōu)點(diǎn),目前已被廣泛用于電力系統(tǒng)中的控制問(wèn)題,例如電壓控制、自適應(yīng)緊急控制等。文獻(xiàn)[20]基于深度Q網(wǎng)絡(luò)(deep Q-network,DQN)算法提出了一種兩級(jí)電壓控制框架,通過(guò)調(diào)度離散的電容組獲得無(wú)功支持。文獻(xiàn)[21]通過(guò)協(xié)調(diào)DG上的電容器、電壓調(diào)節(jié)器等設(shè)備,基于多智能體DQN框架實(shí)現(xiàn)了不平衡配電網(wǎng)絡(luò)的電壓無(wú)功優(yōu)化。但DQN算法只適用于離散的動(dòng)作區(qū)間,在連續(xù)動(dòng)作空間問(wèn)題上容易陷入維數(shù)災(zāi)難。深度確定性策略梯度(deep deterministic policy gradient,DDPG)是DeepMind團(tuán)隊(duì)提出的專門應(yīng)對(duì)復(fù)雜的高維連續(xù)動(dòng)作空間問(wèn)題的DRL算法,DDPG算法使用策略網(wǎng)絡(luò)輸出確定性動(dòng)作,在大規(guī)模電網(wǎng)控制方面具有明顯的優(yōu)勢(shì)[22-23]。
在傳統(tǒng)的電壓調(diào)度控制中,多依托于有載調(diào)壓變壓器、電容器組等調(diào)壓設(shè)備解決電壓越限問(wèn)題,這在過(guò)去對(duì)于沿饋線電壓分布單調(diào)遞減且電壓變化緩慢的傳統(tǒng)集中式電源是有效的。然而配電網(wǎng)層面上聚合了大量的分布式可再生能源發(fā)電,逆潮流與DG的不確定性增加了電壓越限的風(fēng)險(xiǎn)。傳統(tǒng)調(diào)壓設(shè)備由于機(jī)械特性和壽命問(wèn)題,只能在很長(zhǎng)的時(shí)間尺度內(nèi)調(diào)度,缺乏快速響應(yīng)的能力,無(wú)法準(zhǔn)確調(diào)節(jié)具有高滲透率DG配電網(wǎng)的電壓[24]。靜止無(wú)功補(bǔ)償裝置(static var compensator,SVC)作為一種電力電子設(shè)備,能在短時(shí)間內(nèi)提供連續(xù)的無(wú)功功率支持,可以用于含高滲透率DG配電網(wǎng)的電壓偏差抑制。但配電網(wǎng)電阻和電抗的比值較大,有功功率的注入對(duì)節(jié)點(diǎn)電壓的影響與無(wú)功功率相當(dāng),因此單一的無(wú)功功率補(bǔ)償手段可能無(wú)法較好地提高配電網(wǎng)絡(luò)的電壓質(zhì)量。
為此,針對(duì)含高比例DG有源配電網(wǎng)的電壓越限問(wèn)題,提出一種基于DDPG的電壓調(diào)控策略,將電壓調(diào)控問(wèn)題建模為馬爾可夫決策過(guò)程(Markov decision-making processes,MDP),通過(guò)將復(fù)雜的物理模型轉(zhuǎn)換為數(shù)據(jù)樣本以學(xué)習(xí)電壓波動(dòng)抑制的規(guī)律,利用策略網(wǎng)絡(luò)輸出連續(xù)確定性動(dòng)作,僅在當(dāng)前的狀態(tài)下尋找最優(yōu)策略,而無(wú)需建立模型和全局信息。由于單一的SVC無(wú)功支持可能無(wú)法滿足電壓質(zhì)量的要求,引入電池儲(chǔ)能系統(tǒng)(battery energy storage system,BESS)。BESS具有響應(yīng)速度快和高效充放電的優(yōu)點(diǎn)[25-26],且具備靈活的四象限運(yùn)行能力,可以同時(shí)提供有功和無(wú)功支撐。利用BESS和SVC進(jìn)行配電網(wǎng)的有功無(wú)功聯(lián)合調(diào)控,能夠有效改善配網(wǎng)末端或波動(dòng)較大的局部電壓運(yùn)行品質(zhì)??紤]到儲(chǔ)能成本高昂、電池循環(huán)次數(shù)有限,無(wú)規(guī)律的充放電動(dòng)作會(huì)加速儲(chǔ)能容量的衰減,將儲(chǔ)能壽命損耗和容量衰減納入優(yōu)化,并考慮了儲(chǔ)能的動(dòng)態(tài)運(yùn)行效率。實(shí)現(xiàn)在提高配電網(wǎng)的電壓質(zhì)量、改善電壓波動(dòng)的同時(shí)兼顧儲(chǔ)能電池的低衰減長(zhǎng)循環(huán),提升應(yīng)用儲(chǔ)能的經(jīng)濟(jì)性。
本文考慮的配電網(wǎng)架構(gòu)由風(fēng)機(jī)、光伏、儲(chǔ)能、SVC以及負(fù)荷構(gòu)成,旨在利用電池儲(chǔ)能元件和SVC實(shí)現(xiàn)電壓波動(dòng)的抑制,并考慮儲(chǔ)能的動(dòng)態(tài)運(yùn)行效率和儲(chǔ)能的容量衰減特性,因此對(duì)儲(chǔ)能的動(dòng)態(tài)運(yùn)行特性機(jī)理進(jìn)行了研究,并給出了系統(tǒng)的各項(xiàng)約束。
1.1.1 儲(chǔ)能動(dòng)態(tài)效率
BESS的荷電狀態(tài)(state of charge,SOC)和輸出功率的關(guān)系可近似為:
(1)
式中:SOC,t為儲(chǔ)能電池t時(shí)刻的荷電狀態(tài);EB表示儲(chǔ)能電池的額定容量;Pbess,t表示儲(chǔ)能電池t時(shí)刻的有功輸出功率,Pbess,t>0表示充電,反之表示放電;ηch表示充電效率;ηdis表示放電效率;Δt為時(shí)間間隔。
儲(chǔ)能的效率在電力系統(tǒng)優(yōu)化建模中通常被假設(shè)為恒定常數(shù),實(shí)際上電池的效率在運(yùn)行過(guò)程中隨電池SOC和輸出功率而變化,具有非線性關(guān)系[27]。
在儲(chǔ)能參與系統(tǒng)的優(yōu)化調(diào)度過(guò)程中,為了簡(jiǎn)化方程,可以用二次多項(xiàng)式擬合儲(chǔ)能電池單元充放電效率和SOC、Pbess的關(guān)系[28],其中f0—f5、g0—g5均為系數(shù):
(2)
(3)
式中:SOC為儲(chǔ)能電池的荷電狀態(tài);Pbess為儲(chǔ)能電池的有功輸出功率。
1.1.2 儲(chǔ)能容量衰減和壽命損耗模型
儲(chǔ)能電池在運(yùn)行過(guò)程中會(huì)伴隨著內(nèi)部溶液濃度下降、溶質(zhì)氧化等現(xiàn)象,引起電池內(nèi)阻增加,導(dǎo)致容量的衰減。一般認(rèn)為儲(chǔ)能電池容量衰減至額定容量的80%或內(nèi)阻增加到原來(lái)的兩倍時(shí),電池進(jìn)入退役期,投入梯級(jí)利用或進(jìn)行回收。電池健康狀態(tài)(state of health, SOH)可用于描述儲(chǔ)能電池容量保持程度,定義為可用容量和額定容量的比值:
(4)
式中:SOH指儲(chǔ)能電池的健康狀態(tài);Esu表示儲(chǔ)能電池的可用容量。
BESS電池從滿SOC放電到特定SOC,再?gòu)奶囟⊿OC充電到滿SOC循環(huán)的總次數(shù)稱為儲(chǔ)能的生命周期。BESS的生命周期與電池的放電深度(depth of discharge, DOD)有關(guān)[29]:
(5)
DOD=1-SOC
(6)
式中:DOD表示電池的放電深度;Nlife(·)為擬合函數(shù);h0—h4均為系數(shù)。
儲(chǔ)能的壽命損耗可以定義為關(guān)于電池SOC的函數(shù),儲(chǔ)能電池的容量衰減可定義為與壽命損耗相關(guān)的函數(shù),其關(guān)系式如下:
(7)
Lloss,t=|F(SOC,t)-F(SOC,t-1)|
(8)
(9)
SOH=G(LTloss)=b1e-b2LTloss+b3e-b4LTloss
(10)
式中:F(·)為儲(chǔ)能電池的壽命損耗與荷電狀態(tài)關(guān)系的原始函數(shù);Lloss,t表示儲(chǔ)能電池在時(shí)刻t的壽命損耗;LTloss指初始時(shí)刻t0到當(dāng)前時(shí)刻t的總壽命損耗;G(·)為儲(chǔ)能電池健康狀態(tài)與壽命損耗的擬合函數(shù),如式(10)所示;b1~b4為擬合系數(shù)。
為簡(jiǎn)便起見(jiàn),將儲(chǔ)能的壽命近似劃分為J個(gè)階段,對(duì)SOH和壽命損耗的擬合關(guān)系進(jìn)行分段線性化[30],可得:
SOH,t-SOH,t-1=?jLloss,t,j=1,2,3,…,J
(11)
(12)
式中:SOH,j0表示第j個(gè)階段的初始SOH;?j為第j個(gè)階段的容量衰減系數(shù);LTloss,j表示j階段儲(chǔ)能電池的總壽命損耗。
1.1.3 儲(chǔ)能變流器
儲(chǔ)能變流器(power conversion system,PCS)是BESS除電池單元外另一重要組成部分,具備有功功率和無(wú)功功率雙向調(diào)節(jié)功能。PCS可通過(guò)充放電從電網(wǎng)吸納或提供有功能量,還可輸出連續(xù)可調(diào)的感性無(wú)功或容性無(wú)功。
PCS可以將系統(tǒng)的有功和無(wú)功輸出解耦,外環(huán)控制器檢測(cè)電網(wǎng)的有功和無(wú)功需求,內(nèi)環(huán)控制器控制有功或無(wú)功的輸出,依據(jù)電網(wǎng)的實(shí)際運(yùn)行需求在四個(gè)象限或坐標(biāo)軸上運(yùn)行,如圖1所示。
圖1 BESS有功和無(wú)功輸出范圍
儲(chǔ)能的輸出功率受電池SOC與額定視在功率的限制:
(13)
(14)
式中:SOC,max、SOC,min分別表示電池荷電狀態(tài)的上下限;Pbess,max表示BESS輸出有功功率上限;Qbess表示BESS輸出的無(wú)功功率;Sbess表示BESS視在功率;SBESS表示BESS額定視在功率。
系統(tǒng)的約束主要包括設(shè)備約束、安全電壓約束、潮流約束以及功率平衡約束。
1.2.1 SVC出力約束
SVC是一種基于晶閘管開(kāi)關(guān)的無(wú)功補(bǔ)償設(shè)備,SVC可以為系統(tǒng)提供連續(xù)的無(wú)功支持,將電壓維持在適當(dāng)?shù)乃?。BESS和SVC的有功無(wú)功聯(lián)合調(diào)控,能夠有效解決電壓越限問(wèn)題,且減少BESS的充放電次數(shù)。SVC的運(yùn)行受其最大輸出功率Qsvc,max的限制:
-Qsvc,max≤Qsvc,t≤Qsvc,max
(15)
式中:Qsvc,max為SVC最大輸出功率;Qsvc,t為SVC的t時(shí)刻輸出功率。
1.2.2 安全電壓約束
(16)
式中:Vi,t為t時(shí)刻節(jié)點(diǎn)i的電壓值;Vr為額定電壓值;Vi,max、Vi,min分別指節(jié)點(diǎn)i的電壓上下限,本文設(shè)定的電壓安全范圍為1±5%。
1.2.3 潮流約束
Pi=Vi∑j∈iVj(Gijcosθij+Bijsinθij)
(17)
Qi=Vi∑j∈iVj(Gijsinθij-Bijcosθij)
(18)
式中:Pi、Qi分別為節(jié)點(diǎn)i的有功功率與無(wú)功功率;Vi、Vj分別為節(jié)點(diǎn)i和與其相連的節(jié)點(diǎn)j的電壓;Gij、Bij分別為節(jié)點(diǎn)i和節(jié)點(diǎn)j之間的導(dǎo)納和電納;θij為節(jié)點(diǎn)i和j之間的相角差。
1.2.4 功率平衡約束
(19)
式中:Pload,i,t、Qload,i,t分別表示節(jié)點(diǎn)i處的有功和無(wú)功負(fù)荷;PWT,i,t、PPV,i,t分別表示節(jié)點(diǎn)i處的分布式風(fēng)電、光伏輸出功率;Pbess,i,t、Qbess,i,t分別表示節(jié)點(diǎn)i處的儲(chǔ)能有功和無(wú)功出力;Pline,t表示從上級(jí)電網(wǎng)獲得的功率;Qsvc,i,t表示SVC的無(wú)功出力;i∈Ω,Ω表示節(jié)點(diǎn)集合。
復(fù)雜的潮流模型以及儲(chǔ)能的動(dòng)態(tài)運(yùn)行模型等使得所提出的電壓調(diào)控策略的非線性和非凸性增強(qiáng),傳統(tǒng)基于模型的方法很難實(shí)現(xiàn)理想的優(yōu)化效果,未來(lái)的不確定性使決策帶來(lái)的效果更加難以預(yù)測(cè)。MDP是對(duì)于此類問(wèn)題的一種建模方法,馬爾可夫過(guò)程認(rèn)為從一個(gè)狀態(tài)到下一個(gè)狀態(tài)的轉(zhuǎn)換僅取決于當(dāng)前狀態(tài)和選擇的動(dòng)作,可以在不確定性環(huán)境中執(zhí)行決策。因此基于DRL的框架,將配電網(wǎng)的電壓調(diào)控問(wèn)題建模為馬爾可夫決策過(guò)程,其中考慮了系統(tǒng)的各項(xiàng)約束。
MDP包含狀態(tài)空間S、動(dòng)作空間A、獎(jiǎng)勵(lì)函數(shù)R、狀態(tài)轉(zhuǎn)移概率P和折扣因子γ五個(gè)基本要素。馬爾可夫決策過(guò)程中,t+1時(shí)刻的動(dòng)作和狀態(tài)信息僅與時(shí)刻t有關(guān):
P(s′;s,a)=P{st=s′∣st-1=s,at-1=a}s,s′∈S,a∈A
(20)
式中:P(s′;s,a)表示在當(dāng)前狀態(tài)s下執(zhí)行動(dòng)作a后,轉(zhuǎn)移到下一狀態(tài)s′的概率;st、st-1分別為t和t-1時(shí)刻的狀態(tài);at-1表示t-1時(shí)刻的動(dòng)作。
MDP具體建模如下:
1)狀態(tài)空間S:狀態(tài)空間給出了智能體的環(huán)境感知內(nèi)容。本文中狀態(tài)信息st包含風(fēng)力發(fā)電輸出功率PWT,t、光伏輸出功率PPV,t、負(fù)荷Pload,t、上級(jí)電網(wǎng)傳輸功率Pline,t-1以及儲(chǔ)能的荷電狀態(tài)SOC,t-1、電池健康狀態(tài)SOH,t-1、總壽命損耗LTloss,t-1。其中PWT,t、PPV,t、Pload,t屬于輸入信息,其他屬于輸出信息,受本身約束和決策的控制生成。
st={PWT,t,PPV,t,Pload,t,Pline,t-1,SOC,t-1,SOH,t-1,LTloss,t-1}
(21)
2)動(dòng)作空間A:智能體根據(jù)學(xué)習(xí)到的控制策略采取動(dòng)作at,智能體控制儲(chǔ)能的變流器和SVC的出力點(diǎn),通過(guò)選擇最優(yōu)的策略p,向獲得更高獎(jiǎng)勵(lì)的方向更新。
at={Pbess,t,Qbess,t,Qsvc,t}
(22)
3)狀態(tài)轉(zhuǎn)移:狀態(tài)st到狀態(tài)st+1的狀態(tài)轉(zhuǎn)移可以定義為:
st+1=f(st,at,ωt)
(23)
式中:ωt表示在狀態(tài)轉(zhuǎn)移過(guò)程中的隨機(jī)擾動(dòng)或噪聲。
式(23)表明狀態(tài)轉(zhuǎn)移不僅由當(dāng)前狀態(tài)st和動(dòng)作at決定,由于下一個(gè)狀態(tài)中負(fù)荷需求、風(fēng)電和光伏出力未知,還受隨機(jī)性的影響。受負(fù)荷、天氣變化等因素的影響,還難以建立準(zhǔn)確的隨機(jī)分布模型。因此本文利用DRL算法從不需要隨機(jī)性統(tǒng)計(jì)模型的系統(tǒng)數(shù)據(jù)樣本中學(xué)習(xí)狀態(tài)的轉(zhuǎn)換。
4)獎(jiǎng)勵(lì)函數(shù)R:即時(shí)獎(jiǎng)勵(lì)rt在時(shí)刻t后立即返回,智能體執(zhí)行動(dòng)作時(shí)獲得基于狀態(tài)信息st的at。
在DRL環(huán)境中,獎(jiǎng)勵(lì)函數(shù)通常是策略的目標(biāo)的拓展,所提出的電壓調(diào)控策略通過(guò)調(diào)控儲(chǔ)能和SVC減小系統(tǒng)電壓偏差,實(shí)現(xiàn)系統(tǒng)的削峰填谷,并考慮儲(chǔ)能的電池容量衰減成本,定義如下指標(biāo):
FTloss,t=λ1(1-SOH,t)
(24)
(25)
式中:FTloss,t表示儲(chǔ)能的衰減成本;λ1為儲(chǔ)能壽命損耗成本參數(shù);考慮平緩系統(tǒng)的凈負(fù)荷曲線,降低與上級(jí)電網(wǎng)傳輸功率的波動(dòng),將傳輸功率波動(dòng)作為評(píng)價(jià)削峰填谷的指標(biāo)Fline,t;Pline,t、Pline,t-1分別為t和t-1時(shí)刻的上級(jí)電網(wǎng)傳輸功率;ΔPline,t表示當(dāng)前時(shí)刻的上級(jí)電網(wǎng)傳輸功率與上一時(shí)刻的差值,即傳輸功率波動(dòng);λ2為懲罰參數(shù)。λ1和λ2數(shù)值的選擇應(yīng)遵循將FTloss,t和Fline,t維持在同一數(shù)量級(jí)的原則。
引入懲罰函數(shù)來(lái)處理約束,并納入獎(jiǎng)勵(lì)函數(shù)中進(jìn)行優(yōu)化,BESS的約束按如下的懲罰函數(shù)處理:
(26)
(27)
此外,考慮到最小化系統(tǒng)電壓偏差,設(shè)置如下的懲罰函數(shù):
(28)
(29)
式(26)—(28)為懲罰項(xiàng),意在利用負(fù)的獎(jiǎng)勵(lì)值限制系統(tǒng)運(yùn)行在約束范圍內(nèi)。懲罰參數(shù)通常為負(fù)的很大的值并與模型緊密聯(lián)系,當(dāng)BESS在給定約束范圍內(nèi)時(shí),懲罰項(xiàng)置零,而考慮到電壓偏差的最小化,電壓在安全運(yùn)行范圍內(nèi)時(shí),懲罰項(xiàng)值較小。因此即時(shí)獎(jiǎng)勵(lì)rt可以由如下的表達(dá)式給出:
(30)
DRL智能體執(zhí)行動(dòng)作并獲得獎(jiǎng)勵(lì),通過(guò)探索行動(dòng)空間,學(xué)習(xí)最優(yōu)策略最大化累積獎(jiǎng)勵(lì):
(31)
式中:R(st,t)表示在當(dāng)前狀態(tài)下智能體獲得的獎(jiǎng)勵(lì);γ∈[0,1],表示貼現(xiàn)系數(shù),反映了即時(shí)獎(jiǎng)勵(lì)和未來(lái)獎(jiǎng)勵(lì)的相對(duì)重要性。策略π是從狀態(tài)st到基于該狀態(tài)的采取動(dòng)作at間的映射,這決定了智能體的行為。當(dāng)前狀態(tài)st下的動(dòng)作可以通過(guò)狀態(tài)-動(dòng)作價(jià)值函數(shù)Qπ(s,a)評(píng)估:
Qπ(s,a)=Eπ[Rt∣s=st,a=at]
(32)
式中:Eπ[·]表示在策略π下的期望值操作,計(jì)算根據(jù)策略π執(zhí)行動(dòng)作所得到的回報(bào)Rt的期望值。
從MDP的角度來(lái)看,配電網(wǎng)電壓調(diào)控的目標(biāo)為尋找最優(yōu)策略π*以最大化式(32)中的價(jià)值函數(shù):
(33)
以上將電壓調(diào)控策略轉(zhuǎn)化成MDP問(wèn)題,可以看出,DRL的學(xué)習(xí)過(guò)程基于試錯(cuò)和反饋機(jī)制,通過(guò)在不同狀態(tài)下嘗試不同的動(dòng)作并觀察獲得獎(jiǎng)勵(lì)值,并使它向獎(jiǎng)勵(lì)值更大的方向逼近,可以靈活地應(yīng)對(duì)不同的環(huán)境。
本文中DRL的決策框架如圖2所示,智能體通過(guò)與環(huán)境的交互獲取經(jīng)驗(yàn),并找出最優(yōu)的策略。
圖2 DRL決策框架
由于電力系統(tǒng)中負(fù)荷和新能源發(fā)電存在不確定性,通過(guò)傳統(tǒng)的優(yōu)化方法難以確定最優(yōu)策略π*。DDPG智能體可以從過(guò)去的高維歷史數(shù)據(jù)中學(xué)習(xí)最優(yōu)策略,在非線性和多約束問(wèn)題上具有很大的優(yōu)勢(shì),因此采用DDPG算法解決所提出具有連續(xù)動(dòng)作空間的MDP問(wèn)題。DDPG基于貝爾曼最優(yōu)方程更新行為值函數(shù):
Qμ(st,at)=Ert,st+1~E[r(st,at)+γQμ(st+1,μ(st+1))]
(34)
式中:Qμ(st,at)表示在狀態(tài)st下采取動(dòng)作at的行為值函數(shù);μ為當(dāng)前策略函數(shù),表示根據(jù)狀態(tài)選擇動(dòng)作的策略;Ert,st+1~E[·]表示對(duì)即時(shí)回報(bào)rt和下一個(gè)狀態(tài)st+1進(jìn)行期望值操作,其中rt和st+1根據(jù)環(huán)境的動(dòng)態(tài)特性隨機(jī)生成。
DDPG基于Actor-Critic架構(gòu),使用兩種典型的深度神經(jīng)網(wǎng)絡(luò)逼近Actor函數(shù)(θμ)和Critic函數(shù)(θQ),并分別擁有目標(biāo)網(wǎng)絡(luò)即目標(biāo)策略網(wǎng)絡(luò)θμ′和目標(biāo)價(jià)值網(wǎng)絡(luò)θQ′。
價(jià)值網(wǎng)絡(luò)用于評(píng)估策略,輸入包括狀態(tài)st和動(dòng)作at,輸出為Q值,表示在當(dāng)前狀態(tài)下動(dòng)作的價(jià)值,即在當(dāng)前的負(fù)荷、DG出力以及儲(chǔ)能的容量和荷電狀態(tài)下,BESS和SVC的功率輸出對(duì)配電網(wǎng)電壓波動(dòng)的抑制效果。價(jià)值網(wǎng)絡(luò)向最小化損失函數(shù)式(35)的方向迭代更新參數(shù)θQ。
(35)
yt=rt+Q′[st+1,μ′(st+1|θμ′)|θQ′]
(36)
式中:L表示損失函數(shù)的值;N表示樣本數(shù)量;θQ為價(jià)值網(wǎng)絡(luò)的參數(shù);yt為目標(biāo)Q值,表示在狀態(tài)st下采取動(dòng)作at的期望累計(jì)獎(jiǎng)勵(lì);Q′表示目標(biāo)價(jià)值網(wǎng)絡(luò),θQ′為其參數(shù);μ′表示目標(biāo)策略,θμ′為其參數(shù)。
策略網(wǎng)絡(luò)以狀態(tài)st作為輸入,輸出動(dòng)作at,即BESS和SVC在當(dāng)前狀態(tài)下的最佳出力點(diǎn)。策略網(wǎng)絡(luò)輸出層包含tanh激活函數(shù),所有輸出向量值的范圍為(-1,1)。策略網(wǎng)絡(luò)參數(shù)θμ的更新遵循確定性策略:
(37)
在算法中,通過(guò)在確定性策略中添加隨機(jī)噪聲Nt,以提高DDPG智能體在與配電網(wǎng)環(huán)境交互時(shí)的探索能力:
(38)
在改進(jìn)的配電網(wǎng)IEEE 33系統(tǒng)中,對(duì)基于DDPG的電壓調(diào)控策略性能進(jìn)行了測(cè)試。在標(biāo)準(zhǔn)IEEE 33系統(tǒng)的不同節(jié)點(diǎn)設(shè)置風(fēng)電、光伏以及儲(chǔ)能,以應(yīng)用在所提場(chǎng)景中。其中風(fēng)機(jī)節(jié)點(diǎn){17,32},光伏節(jié)點(diǎn){8,21},儲(chǔ)能節(jié)點(diǎn){18,25,33},具體算例系統(tǒng)見(jiàn)圖3。
圖3 改進(jìn)的IEEE 33節(jié)點(diǎn)系統(tǒng)
選取一年的風(fēng)光荷的數(shù)據(jù)[31]作為訓(xùn)練集和測(cè)試集。儲(chǔ)能裝置的主要參數(shù)詳見(jiàn)附錄表A1,儲(chǔ)能運(yùn)行效率模型系數(shù)見(jiàn)附錄表A2,生命周期Nlife與放電深度DOD擬合函數(shù)的系數(shù)見(jiàn)附錄表A3;容量衰減模型系數(shù)[30]見(jiàn)附錄表A4。本文獎(jiǎng)勵(lì)函數(shù)中的參數(shù)根據(jù)同一數(shù)量級(jí)以及不能違背約束的原則選取,并在多次仿真訓(xùn)練中對(duì)其進(jìn)行了調(diào)整,具體數(shù)值見(jiàn)附錄表A5。
3.2.1 智能體訓(xùn)練過(guò)程
將基于DDPG的電壓調(diào)控模型的訓(xùn)練性能與基于SAC(soft actor-critic)的電壓調(diào)控模型的訓(xùn)練性能進(jìn)行了比較,以驗(yàn)證所提算法的有效性。DDPG算法仿真的超參數(shù)設(shè)置見(jiàn)附錄表A6,智能體共進(jìn)行了500次訓(xùn)練以學(xué)習(xí)最佳的電壓調(diào)控策略,訓(xùn)練過(guò)程的獎(jiǎng)勵(lì)回報(bào)如圖4所示,每次訓(xùn)練包含24個(gè)時(shí)隙,間隔為1 h。訓(xùn)練過(guò)程開(kāi)始階段,由于智能體沒(méi)有獲取在電壓調(diào)控方面的經(jīng)驗(yàn),以較低的獎(jiǎng)勵(lì)值開(kāi)始探索,通過(guò)不斷地從歷史經(jīng)驗(yàn)中學(xué)習(xí)知識(shí)最大化獎(jiǎng)勵(lì)回報(bào),最終收斂在一定水平。由對(duì)比結(jié)果可知,在本文所提出的考慮儲(chǔ)能動(dòng)態(tài)運(yùn)行特性的電壓調(diào)控場(chǎng)景中,DDPG表現(xiàn)出了更好的性能,具有更快的收斂速度和更高的獎(jiǎng)勵(lì)回報(bào)。
圖4 訓(xùn)練過(guò)程的獎(jiǎng)勵(lì)曲線
3.2.2 電壓調(diào)控模型的性能
含DG的配電網(wǎng)中,由于DG出力不穩(wěn)定,且變化趨勢(shì)一般與負(fù)荷曲線不匹配,因此配電網(wǎng)饋線末端和接入DG的位置存在電壓越限的風(fēng)險(xiǎn)。本文通過(guò)調(diào)控BESS和SVC的出力,使各節(jié)點(diǎn)電壓在安全范圍內(nèi)運(yùn)行,減小電壓的偏差。通過(guò)測(cè)試日評(píng)估智能體的訓(xùn)練效果,并隨機(jī)選擇了連續(xù)兩天進(jìn)行測(cè)試。測(cè)試日中風(fēng)光荷的功率曲線如圖5所示,仿真過(guò)程假設(shè)有功負(fù)荷和無(wú)功負(fù)荷曲線變化趨勢(shì)保持一致。
圖5 風(fēng)光荷標(biāo)幺功率
不同方法下測(cè)試日的電壓調(diào)控效果如表1所示,比較的方法包括所提出的DDPG算法和SAC算法。定義平均電壓偏差指標(biāo),對(duì)電壓的調(diào)控效果進(jìn)行分析,圖6給出了測(cè)試日中每個(gè)節(jié)點(diǎn)處電壓的極值曲線。
表1 測(cè)試日電壓調(diào)控效果
圖6 電壓極值曲線
(39)
式中:ρ為電壓平均偏差指標(biāo);Nnode和NT分別表示節(jié)點(diǎn)數(shù)量和時(shí)間步的數(shù)量。
由表1可知,通過(guò)DDPG算法和SAC算法進(jìn)行電壓調(diào)控后,平均電壓偏差較無(wú)調(diào)控時(shí)分別降低了80.81%和32.11%,表1同時(shí)給出了測(cè)試日中節(jié)點(diǎn)電壓的最高和最低值。圖6表明在DDPG算法的調(diào)控下,電壓整體水平更接近額定電壓,電壓偏差較無(wú)調(diào)控時(shí)明顯降低。因此所提出的基于DDPG算法的電壓調(diào)控策略,能夠找到更優(yōu)的BESS有功/無(wú)功和SVC的無(wú)功出力點(diǎn),整體提升電壓水平,減小電壓的波動(dòng)。
DDPG智能體通過(guò)獎(jiǎng)勵(lì)反饋值和環(huán)境的交互,尋找BESS和SVC最佳動(dòng)作策略,以最小化電壓偏差。儲(chǔ)能的有功充放電功率和無(wú)功出力分別如圖7、圖8所示。
圖8 BESS無(wú)功功率
由圖7可看出,由于BESS1所處饋線同時(shí)設(shè)置了風(fēng)機(jī)和光伏,DG的有功注入較為穩(wěn)定,BESS1的SOC值波動(dòng)最小,在夜間(21:00—24:00)其他儲(chǔ)能處于放電狀態(tài)時(shí),BESS1進(jìn)行充電。在測(cè)試日內(nèi),BESS1、BESS2和BESS3根據(jù)所處節(jié)點(diǎn)位置的功率需求在四象限內(nèi)運(yùn)行,為系統(tǒng)提供有功和無(wú)功支撐,初始SOC皆為0.5,SOC曲線表明儲(chǔ)能SOC值均處于0.1~0.9的范圍內(nèi),所設(shè)計(jì)的懲罰項(xiàng)能夠很好地約束B(niǎo)ESS的運(yùn)行。
SVC時(shí)序無(wú)功出力如圖9所示,可以看出SVC出力較為穩(wěn)定,在多數(shù)時(shí)間內(nèi)以輸出最大無(wú)功功率0.8 Mvar運(yùn)行,來(lái)滿足系統(tǒng)的無(wú)功需求,能夠較好地均衡系統(tǒng)中無(wú)功的分布。但由于SVC無(wú)功補(bǔ)償量與電壓平方成正比,因此電壓波動(dòng)時(shí)進(jìn)行的無(wú)功補(bǔ)償無(wú)法達(dá)到較高的電壓質(zhì)量。
圖9 SVC無(wú)功功率
由圖5給出的風(fēng)電出力曲線可知,在13:00—16:00風(fēng)機(jī)的出力開(kāi)始增大,系統(tǒng)無(wú)功需求降低,因此BESS2發(fā)生無(wú)功倒吸現(xiàn)象,此時(shí)SVC的無(wú)功出力在一定程度上降低,在某些時(shí)刻也出現(xiàn)了無(wú)功倒吸現(xiàn)象,可見(jiàn)儲(chǔ)能輸出有功和無(wú)功功率與SVC相互配合,抑制系統(tǒng)內(nèi)的電壓波動(dòng)。BESS1所處饋線有功功率注入量大,為緩解帶來(lái)的過(guò)壓風(fēng)險(xiǎn),系統(tǒng)需要更多的無(wú)功支持,因此BESS1輸出無(wú)功功率較高,而B(niǎo)ESS3所處饋線無(wú)DG裝置,因此其無(wú)功出力變化趨勢(shì)與負(fù)荷變化趨勢(shì)大致相同。
3.2.3 不確定性場(chǎng)景影響
為了驗(yàn)證所提出方法在應(yīng)對(duì)系統(tǒng)負(fù)荷和DG出力的不確定性方面的效果,對(duì)某一天的負(fù)荷曲線和DG出力加上15%的正態(tài)分布偏差進(jìn)行處理,并將DDPG算法得到的優(yōu)化結(jié)果與粒子群算法(particle swarm optimization,PSO)進(jìn)行對(duì)比,結(jié)果如表2所示。
由表2的結(jié)果可以看出,基于粒子群算法的日前調(diào)度策略,難以應(yīng)對(duì)DG和負(fù)荷的不確定性。而DDPG算法可以在線跟蹤負(fù)荷和DG出力的變化,及時(shí)調(diào)整動(dòng)作策略,應(yīng)對(duì)不確定性場(chǎng)景時(shí)性能較粒子群提升69.33%,有效抑制節(jié)點(diǎn)電壓的波動(dòng),確保配電網(wǎng)的穩(wěn)定運(yùn)行。
3.2.4 儲(chǔ)能容量衰減影響
本文提出的電壓調(diào)控策略旨在實(shí)現(xiàn)配電網(wǎng)的短期優(yōu)化,因此將儲(chǔ)能的總衰減成本折算在運(yùn)行時(shí)期的每一天中。為了比較說(shuō)明儲(chǔ)能的容量衰減對(duì)其工作性能的影響,考慮了儲(chǔ)能新投運(yùn)時(shí)期和儲(chǔ)能衰減后時(shí)期兩種場(chǎng)景,并分析了僅BESS工作、BESS和SVC同時(shí)工作兩種情況下電壓曲線的變化情況。場(chǎng)景1中考慮系統(tǒng)內(nèi)接入的儲(chǔ)能全部處于新投運(yùn)時(shí)期,電池健康狀態(tài)為0.99,場(chǎng)景2中考慮兩個(gè)儲(chǔ)能已投運(yùn)一段時(shí)期容量衰減至電池健康狀態(tài)為0.91,如表3所示。
表3 儲(chǔ)能初始電池健康狀態(tài)
利用訓(xùn)練后的DDPG智能體進(jìn)行了測(cè)試,兩種場(chǎng)景下的電壓如圖10所示。由1.1節(jié)對(duì)儲(chǔ)能壽命損耗和容量衰減的分析可知,儲(chǔ)能投入運(yùn)行后,電池的充放電動(dòng)作同時(shí)伴隨著損耗,且儲(chǔ)能后期衰減的速度更快,充放電效率有一定程度的降低。由圖10(a)可以看出儲(chǔ)能衰減后期的工作性能較新投運(yùn)時(shí)期差,以平均電壓偏差為評(píng)價(jià)指標(biāo),抑制電壓波動(dòng)性能下降了51.05%。BESS和SVC同時(shí)工作情況下電壓如圖10(b)所示,可以看出系統(tǒng)從SVC處獲取了額外的無(wú)功支持后,場(chǎng)景2下的電壓偏差有明顯的降低,說(shuō)明本文所提出的有功無(wú)功聯(lián)合調(diào)控策略在儲(chǔ)能壽命的動(dòng)態(tài)變化過(guò)程中,電壓調(diào)控性能仍處于較佳水平。
圖10 兩種場(chǎng)景下的電壓變化
針對(duì)含高滲透率DG配電網(wǎng)易發(fā)生電壓越限的問(wèn)題,提出了基于DRL的電壓調(diào)控策略,通過(guò)對(duì)分布式儲(chǔ)能和SVC進(jìn)行有功無(wú)功聯(lián)合控制減小系統(tǒng)節(jié)點(diǎn)電壓偏差,并考慮了儲(chǔ)能的壽命損耗和容量衰減模型,在兼顧儲(chǔ)能容量衰減成本的同時(shí)實(shí)現(xiàn)了非全信息下電壓波動(dòng)的有效抑制。主要結(jié)論如下:
1) 本文將電壓調(diào)控問(wèn)題推導(dǎo)為馬爾可夫決策過(guò)程,采用聯(lián)合調(diào)控儲(chǔ)能和SVC的策略,有效緩解了多重不確定性引起的電壓波動(dòng)。
2) 基于DDPG算法實(shí)現(xiàn)了電壓調(diào)控的在線決策。相較于傳統(tǒng)粒子群方法,基于人工智能的策略在應(yīng)對(duì)負(fù)荷和可再生能源發(fā)電的不確定性場(chǎng)景時(shí),處理電壓越限問(wèn)題的性能提升69.33%,具有更好的實(shí)時(shí)性和適應(yīng)性。
3) 通過(guò)考慮儲(chǔ)能的動(dòng)態(tài)運(yùn)行特征和容量衰減,較為準(zhǔn)確地模擬了儲(chǔ)能的運(yùn)行。算例驗(yàn)證表明,儲(chǔ)能衰減后期的工作性能較新投運(yùn)時(shí)期有所下降,但所提出的有功無(wú)功聯(lián)合調(diào)控策略,在儲(chǔ)能壽命的動(dòng)態(tài)變化過(guò)程中仍能保持良好的電壓調(diào)控性能。
本文所提的電壓控制策略僅實(shí)現(xiàn)了電壓波動(dòng)的小時(shí)級(jí)控制,將其擴(kuò)展到更短時(shí)間尺度的電壓控制是未來(lái)的研究工作之一。另外,基于DRL的電壓控制方法將約束轉(zhuǎn)化為了懲罰項(xiàng),通過(guò)約束策略優(yōu)化算法進(jìn)一步地優(yōu)化是本文后續(xù)的研究方向。