陳瀟瀟 周云海 張?zhí)┰?鄭培城
(三峽大學(xué) 電氣與新能源學(xué)院, 湖北 宜昌 443002)
整縣(市、區(qū))屋頂分布式光伏政策和雙碳戰(zhàn)略使得我國能源體系結(jié)構(gòu)逐步改變[1].國家能源局最新發(fā)布的數(shù)據(jù)顯示,截至2023年上半年,全國光伏發(fā)電新增并網(wǎng)容量為78.423 GW,其中分布式光伏(distributed photovoltaic,DPV)新增并網(wǎng)容量為40.963 GW,同比增長108%[2].分布式光伏大規(guī)模接入配電網(wǎng)是發(fā)展趨勢,但其接入改變了傳統(tǒng)配電網(wǎng)潮流單向的模式[3],分布式光伏出力的隨機性和波動性,會導(dǎo)致系統(tǒng)產(chǎn)生潮流倒送、電壓波動及越限等電能質(zhì)量問題,這嚴重影響配電網(wǎng)的安全穩(wěn)定運行.
現(xiàn)有的配電網(wǎng)電壓控制策略可分兩類:無功控制和有功控制.無功電壓控制中,有載調(diào)壓器(on-line tap changer,OLTC)、投切電容器(switching capacitor,SC)等離散調(diào)節(jié)設(shè)備響應(yīng)速度慢,且頻繁動作會影響其使用壽命[4].靜止無功補償器(static var compensator,SVC)、靜止無功發(fā)生器(static var generator,SVG)等連續(xù)調(diào)節(jié)設(shè)備響應(yīng)速度快,但安裝成本較高[5-6].有功電壓控制中,削減光伏有功出力不利于新能源的消納,而儲能的運維費用較高[7].基于光伏逆變器的無功調(diào)節(jié)是一種關(guān)注最為廣泛的調(diào)壓方式[8],該方式能高效利用光伏逆變器的容量,響應(yīng)速度快,且無需投資額外的設(shè)備.因此,本文選取光伏逆變器為電壓控制設(shè)備,利用深度強化學(xué)習(xí)算法對配電網(wǎng)中的各光伏逆變器進行協(xié)同控制,實現(xiàn)對系統(tǒng)電壓的實時控制.
下垂控制未考慮各逆變器的協(xié)同配合,難以實現(xiàn)全局優(yōu)化控制;傳統(tǒng)基于優(yōu)化的方法[9],由于配電網(wǎng)精確的線路參數(shù)和拓撲結(jié)構(gòu)難以獲取,無法建立精確的數(shù)學(xué)模型,且存在求解速度慢、難以實時控制等問題[10].強化學(xué)習(xí)(reinforcement learning,RL)通過與環(huán)境的交互過程中學(xué)習(xí)最優(yōu)策略,采用馬爾科夫決策過程(Markov decision process,MDP)進行建模.深度強化學(xué)習(xí)(deep reinforcement learning,DRL)進一步融合深度學(xué)習(xí)的特征表示能力[11],具有更優(yōu)秀的決策能力.
DRL 作為一種數(shù)據(jù)驅(qū)動的技術(shù),近年在配電網(wǎng)電壓控制領(lǐng)域得到廣泛應(yīng)用.文獻[12]利用深度Q網(wǎng)絡(luò)(deep Q network,DQN)算法控制系統(tǒng)中的SC,但該算法只能用于離散動作.文獻[13]提出一種基于近端策略優(yōu)化(proximal policy optimization,PPO)的配電網(wǎng)控制策略,該算法可用于連續(xù)動作,實驗表明PPO 相較于DQN 有更好的控制效果,但傳統(tǒng)策略梯度的算法數(shù)據(jù)利用率較低,為此有研究人員將動作-評論(actor-critic,AC)框架擴展到深度策略梯度的方法中,形成深度確定性策略梯度(deep deterministic policy gradient,DDPG)算法.文獻[14]提出一種雙時間尺度配電網(wǎng)無功優(yōu)化方法,采用DQN算法和DDPG 算法分別對SC、SVG 進行控制,但從控制架構(gòu)來說依然屬于單智能體結(jié)構(gòu),仍是將多個調(diào)節(jié)設(shè)備視作單個智能體,依然無法實現(xiàn)各個調(diào)節(jié)設(shè)備之間的協(xié)同控制.為此,文獻[15]利用多智能體深度確定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)算法協(xié)同控制各調(diào)壓設(shè)備,取得良好效果.但DDPG 和MADDPG 算法都存在Q值過估計的問題,文獻[16]在DDPG 的基礎(chǔ)上提出雙延遲深度確定性策略梯度(twin delayed deep deterministic policy gradient,TD3PG)算法,引入3 種技術(shù)手段,提升算法的訓(xùn)練效果.文獻[17]采用TD3PG 算法進行配電網(wǎng)電壓控制,實驗證明在無精確模型的情況下,該方法相比于傳統(tǒng)基于優(yōu)化的方法,控制效果更好、控制周期更短、魯棒性更強,但該文采用的算法依然是單智能體結(jié)構(gòu).因此本文提出一種基于多智能體雙延遲深度確定性策略梯度(multiagent twin delayed deep deterministic policy gradient,MATD3PG) 的有源配電網(wǎng)實時電壓控制策略,其可以賦予各光伏逆變器獨立決策的能力,提升系統(tǒng)的靈活性.首先,闡述MATD3PG 算法的框架及原理;其次,構(gòu)建有源配電網(wǎng)實時電壓控制物理模型,并將該物理模型轉(zhuǎn)變?yōu)榉稚⒉糠挚捎^測的馬爾科夫決策過程(decentralized partially observable Markov decision process,Dec-POMDP),通過MATD3PG 算法訓(xùn)練各智能體;最后,通過改進的IEEE-33節(jié)點算例驗證本文所提控制策略的有效性,并證明MATD3PG 相較于下垂控制和MADDPG,在配電網(wǎng)電壓控制問題上更有優(yōu)勢.
RL 通過訓(xùn)練智能體(agent)與環(huán)境(environment)交互,強化學(xué)習(xí)模型中最關(guān)鍵的3個部分為:狀態(tài)(state),動作(action),獎勵(reward).一個經(jīng)典的RL過程可以視為:智能體觀察達到一個環(huán)境狀態(tài)s t,執(zhí)行一個動作a t后,環(huán)境反饋給它一個獎勵r t與新的狀態(tài)s t+1,然后智能體根據(jù)這個狀態(tài)執(zhí)行動作a t+1,獲得r t+1與新的狀態(tài)s t+2……以此類推,最終形成一個軌跡e t=(s t,a t,r t,s t+1),也稱為馬爾科夫鏈(Markov Chain)[18].DRL 在RL 的基礎(chǔ)上又融合了深度學(xué)習(xí),具有更強的的特征表示能力、更好的高維度空間處理能力.
多智能體深度強化學(xué)習(xí)(multi-agent deep reinforcement learning,MADRL)是指在DRL 框架下,多個智能體同時學(xué)習(xí)和交互的方法[19],其算法框架如圖1所示.MADRL用于訓(xùn)練多個智能體在環(huán)境中進行協(xié)作或競爭的任務(wù),每個智能體都具有自主決策能力,智能體之間通過共享經(jīng)驗、協(xié)同行動來提高整個系統(tǒng)的性能.
圖1 多智能體深度強化學(xué)習(xí)框架
目前,多智能體深度強化學(xué)習(xí)方法可分為4類:獨立學(xué)習(xí)、獎勵分配、學(xué)習(xí)交流和集中式訓(xùn)練-分散式執(zhí)行[20].本文的多智能體深度強化學(xué)習(xí)算法采用集中式訓(xùn)練-分散式執(zhí)行機制,該機制將actor網(wǎng)絡(luò)和critic網(wǎng)絡(luò)中的信息差異化,actor網(wǎng)絡(luò)僅有單個智能體的信息,而critic網(wǎng)絡(luò)包含全部智能體的信息.集中式訓(xùn)練時,actor網(wǎng)絡(luò)和critic相互輔助學(xué)習(xí),訓(xùn)練得到集中式的critic網(wǎng)絡(luò);分散式執(zhí)行時,利用訓(xùn)練好的critic網(wǎng)絡(luò),智能體僅需根據(jù)自身的局部觀測信息就能完成決策.這種設(shè)計避免隨智能體數(shù)量增長而導(dǎo)致的維度災(zāi)問題,保證每個智能體環(huán)境的平穩(wěn)性,降低訓(xùn)練過程中的復(fù)雜度,從而提升訓(xùn)練效果.
TD3PG 和DDPG 都是采用AC 結(jié)構(gòu)、用于連續(xù)動作空間的DRL算法,此類算法包含動作網(wǎng)絡(luò)actor和評論網(wǎng)絡(luò)critic,actor負責(zé)根據(jù)當(dāng)前策略選擇動作,而critic則負責(zé)評估當(dāng)前動作策略的價值,兩個網(wǎng)絡(luò)相互協(xié)作,通過正反饋過程進行更新,以優(yōu)化動作策略和值函數(shù).critic網(wǎng)絡(luò)參數(shù)更新的方法為minLθ,Lθ見式(1);actor網(wǎng)絡(luò)參數(shù)更新的方法為式(2),采用策略梯度更新.隨著critic通過值函數(shù)評估的Q值越來越逼近目標值,actor的動作策略也趨于最優(yōu).
式中:θ為critic網(wǎng)絡(luò)參數(shù);φ為actor網(wǎng)絡(luò)參數(shù);r t為t時刻的獎勵值;γ為折扣因子,通常為0.95~0.99;πφ(s t)為在狀態(tài)s t下actor采取的動作;Qθ為價值函數(shù);r t+γQθ[s t+1,πφ(s t+1)]為t時刻的目標Q值;Qθ(s t,a t)為t時刻的估計Q值;E為期望收益;E s~pπ為pπ狀態(tài)分布下的期望收益.
TD3PG 是對DDPG 進行優(yōu)化的算法,主要包括以下3個優(yōu)化:
1)剪切雙Q 學(xué)習(xí)(Clipped Double Q-Learning)
原始的雙Q 學(xué)習(xí),使用一對actor和critic,即(πφ1,πφ2)和(Qθ1,Qθ2),其 中πφ1利 用Qθ1進 行 優(yōu)化,πφ2利用Qθ2進行優(yōu)化.由于πφ1相對于Qθ1是最優(yōu)的,因此在Qθ1的更新中使用獨立的估計Q值可以避免actor動作策略更新帶來的偏差.然而,由于它們在訓(xùn)練過程中使用了相同的經(jīng)驗池,critic并非完全獨立.因此,對于某些狀態(tài)s,會出現(xiàn)Qθ1[s,πφ(s)]>Qθ2[s,πφ(s)]的情況,因為Qθ1[s,πφ(s)]通常會高估真實值,并且在某些狀態(tài)下,這種高估會進一步加大.因此,TD3PG 算法采用同一狀態(tài)下Qθ1,Qθ2中較小的進行目標更新,其更新公式如下:
式中:y t為目標值函數(shù);θ'n為目標critic網(wǎng)絡(luò)參數(shù);Qθ'為目標價值函數(shù).n
2)目標網(wǎng)絡(luò)及延遲策略更新(Target Networks and Delayed Policy Updates)
目標網(wǎng)絡(luò)的引入提升了智能體訓(xùn)練過程中的穩(wěn)定性,但當(dāng)critic對Q值估計不精確時,actor會產(chǎn)生錯誤的動作,該動作會存放至經(jīng)驗池,由于是從經(jīng)驗池中隨機采取一批樣本用于critic網(wǎng)絡(luò)更新,導(dǎo)致critic可能又產(chǎn)生錯誤的Q值,形成惡性循環(huán).為此,TD3PG 算法延遲了actor的更新,令actor在critic估值偏差較低時再進行更新,提高了訓(xùn)練的穩(wěn)定性.同時改進了目標critic網(wǎng)絡(luò)更新,引入了軟更新因子τ,因此也稱為軟更新,其更新公式如下:
3)目標策略平滑正則化(Target Policy Smoothing Regularization)
確定性策略的一個問題是,它們可能會過度擬合Q值估計中的峰值,在更新critic時,使用確定性策略的訓(xùn)練目標極易受到函數(shù)近似誤差的影響,從而增加目標的方差.為此,TD3PG 算法通過在目標動作加入小批量高斯噪音求平均值來減少目標值的方差,即在式(3)基礎(chǔ)上加入噪音:
綜上,TD3PG 算法解決了DDPG 算法訓(xùn)練過程中Q值過估計的問題,提高了訓(xùn)練效率,提升了訓(xùn)練穩(wěn)定性,大大提升了DDPG 在連續(xù)動作空間進行控制的性能,TD3PG 算法訓(xùn)練流程如圖2所示.本文所提的MATD3PG 算法是TD3PG 在多智能體深度強化學(xué)習(xí)框架下的擴展算法,相對于MADDPG 可以更有效地解決環(huán)境中多個智能體交互的問題.
圖2 TD3PG 算法訓(xùn)練流程
因為削減光伏有功出力,會影響新能源的消納,這與我國整縣(市、區(qū))屋頂分布式光伏政策不相符,所以本文僅調(diào)節(jié)其無功出力,光伏有功仍以最大功率發(fā)電.光伏逆變器可調(diào)無功功率與光伏有功出力、光伏逆變器容量的關(guān)系為:
光伏逆變器額定容量通常為額定有功的1.0~1.1倍[21],這意味著當(dāng)并網(wǎng)有功輸出達到額定值時,光伏逆變器仍然具有可調(diào)無功容量,并且其無功可調(diào)功率會隨著光伏有功出力動態(tài)變化.光伏逆變器有功-無功容量變化關(guān)系如圖3所示.
圖3 光伏逆變器有功-無功容量變化關(guān)系
A點為t1時刻逆變器有功功率輸出值,此時逆變器無功調(diào)節(jié)范圍為[-,];當(dāng)逆變器有功功率輸出值減少至B點時,逆變器無功調(diào)節(jié)范圍增加至[-,];夜間光伏有功輸出為0,可調(diào)無功容量數(shù)值就等于逆變器容量數(shù)值,可見其無功調(diào)節(jié)能力極為可觀.
有源配電網(wǎng)實時電壓控制通過協(xié)調(diào)控制各光伏逆變器,以抑制系統(tǒng)電壓波動并降低網(wǎng)損,達到改善電能質(zhì)量的目的,目標函數(shù)如下:
式中:T為一日的控制周期數(shù);C u為電壓偏差附加成本系數(shù);Udev,t為第t個控制周期內(nèi)系統(tǒng)平均節(jié)點電壓偏差量;Closs為網(wǎng)損附加成本系數(shù);Ploss,t為第t個控制周期的系統(tǒng)網(wǎng)損;U i為節(jié)點i的電壓;Uref為基準電壓;n為配電網(wǎng)節(jié)點數(shù).
約束條件如下:
由于配電網(wǎng)的精確模型參數(shù)難以獲取,且光伏出力的快速波動性對控制的實時性提出了較高要求,傳統(tǒng)基于優(yōu)化的方法已無法適用于當(dāng)前控制場景.而MADRL能夠有效滿足上述要求,能做到無模型數(shù)據(jù)驅(qū)動和實時控制.由于現(xiàn)實配電網(wǎng)環(huán)境受通訊條件限制,智能體只能觀測到局部的環(huán)境狀態(tài),不再適合采用MDP進行建模[22],因此本文將有源配電網(wǎng)電壓實時電壓控制問題建模為Dec-POMDP,將各光伏逆變器當(dāng)作MADRL 中的智能體,智能體聯(lián)合動作的環(huán)境為現(xiàn)實配電網(wǎng).
本文的Dec-POMDP 由元組{S,A,O,r,T,γ}組成,其中,S為狀態(tài)集,A為聯(lián)合動作集,O為聯(lián)合觀測集,r為獎勵函數(shù),T為狀態(tài)轉(zhuǎn)移概率函數(shù),γ為折扣因子.具體含義如下.
1)狀態(tài)集S
狀態(tài)集S為環(huán)境內(nèi)所有智能體狀態(tài)的集合,S t∈T∈S,S t由各個智能體t時刻所處的狀態(tài)s n,t組成,本文中s n,t是指包括t時刻智能體n所在區(qū)域的所有節(jié)點特征量,如負荷的有功和無功出力、光伏有功出力以及(t-1)時刻光伏逆變器的無功功率、關(guān)聯(lián)節(jié)點電壓.
2)聯(lián)合動作集A
聯(lián)合動作集A為全部智能體動作的集合,A t∈T∈A,聯(lián)合動作A t由各智能體t時刻的個體動作a n,t組成,本文中a n,t為t時刻該光伏逆變器的無功出力.
3)聯(lián)合觀測集O
聯(lián)合觀測集O為所有智能體局部觀測的集合,O t∈T∈O,聯(lián)合觀測O t由各智能體t時刻的局部觀測o n,t組成,本文中o n,t為t時刻智能體n所在區(qū)域內(nèi)的所有節(jié)點特征量.
4)獎勵函數(shù)r
本文中各智能體為完全合作關(guān)系,通過協(xié)同動作最小化系統(tǒng)電壓偏移和網(wǎng)損,每個智能體的學(xué)習(xí)目標是全局最優(yōu)控制策略以獲得最大獎勵,因此采用全局獎勵,根據(jù)式(8)設(shè)定實時獎勵函數(shù):
5)狀態(tài)轉(zhuǎn)移概率函數(shù)T
T(S t+1,S t,A t)表示在狀態(tài)S t下,多智能體采取聯(lián)合動作A t后,系統(tǒng)轉(zhuǎn)移到S t+1的概率.狀態(tài)轉(zhuǎn)移概率函數(shù)考慮了有源配電網(wǎng)環(huán)境中光伏出力的不確定性,通過了解狀態(tài)轉(zhuǎn)移的概率分布,可以更有效地評估不同動作對于下一狀態(tài)的影響,從而為智能體的決策提供指導(dǎo),以尋找最優(yōu)的動作策略.
基于MATD3PG 的有源配電網(wǎng)實時電壓控制策略示意圖如圖4所示.
圖4 基于MATD3PG 的有源配電網(wǎng)實時電壓控制策略
本文通過潮流環(huán)境模擬實際配電網(wǎng)的運行環(huán)境.離線訓(xùn)練階段,各智能體在仿真環(huán)境學(xué)習(xí)集中式的critic網(wǎng)絡(luò)即最優(yōu)控制策略;由于采用了集中式訓(xùn)練-分散式執(zhí)行機制,在線實時控制階段,各智能體僅需通過局部的觀測信息和已經(jīng)訓(xùn)練完成的critic網(wǎng)絡(luò)進行決策,并且此時critic網(wǎng)絡(luò)依然能接受配電網(wǎng)環(huán)境反饋的狀態(tài)和獎勵信息,可以在訓(xùn)練好的critic網(wǎng)絡(luò)基礎(chǔ)上繼續(xù)實時更新.該控制策略既能使各智能體協(xié)同動作,提升系統(tǒng)的靈活性,又可以保證控制的魯棒性和全局最優(yōu),取得良好的控制效果.
本文算例仿真測試于硬件平臺Intel(R)Core(TM)i5-12500H CPU,Intel(R)Iris(R)Xe Graphics GPU;軟件系統(tǒng)為Win10;強化學(xué)習(xí)算法均基于Python 3.9.0的Pytorch 1.8.1神經(jīng)網(wǎng)絡(luò)框架實現(xiàn).算例基于IEEE-33 節(jié)點配電網(wǎng)系統(tǒng)進行改進,網(wǎng)絡(luò)參數(shù)來自于Matpower7.1數(shù)據(jù)庫[23],在節(jié)點13、18、22、25、29、33上安裝逆變器容量為1.5 MW 的分布
式光伏,改進后的系統(tǒng)拓撲結(jié)構(gòu)如圖5所示.
圖5 改進后的IEEE-33節(jié)點系統(tǒng)拓撲結(jié)構(gòu)
設(shè)置根節(jié)點電壓標幺值為1.00 p.u.,安全運行電壓為0.95~1.05 p.u.,配電網(wǎng)實時電壓控制間隔為3 min,控制周期數(shù)為480.光伏和負荷數(shù)據(jù)均來源于Elia集團(比利時電網(wǎng)運營商)公開歷史數(shù)據(jù)[24],數(shù)據(jù)集為2022年整年數(shù)據(jù),原始數(shù)據(jù)的時間分辨率為15 min(96個點),將數(shù)據(jù)按與配電網(wǎng)實時電壓控制間隔(3 min)一致的時間分辨率(480個點)進行插值,其中每個季節(jié)選取7 d(共28 d)為測試集,其余則作為訓(xùn)練集.
強化學(xué)習(xí)算法中,實時獎勵函數(shù)式(13)中電壓偏差附加成本系數(shù)C u設(shè)為10$/p.u.,網(wǎng)損附加成本系數(shù)Closs設(shè)為0.05$/MW;在目標動作加入的小批量高斯噪音式(6)的標準差σ為0.1,截斷區(qū)間參數(shù)c為1.強化學(xué)習(xí)環(huán)境中,將每個光伏逆變器都單獨作為智能體,智能體動作時間間隔與配電網(wǎng)實時電壓控制間隔一致,智能體訓(xùn)練步長為240,即每次不重復(fù)截取240個點(半天)的數(shù)據(jù)進行訓(xùn)練,240個點的數(shù)據(jù)訓(xùn)練完成即為一個訓(xùn)練回合,本文訓(xùn)練回合數(shù)為400.為了模擬現(xiàn)實配電網(wǎng)的不確定性,在每個訓(xùn)練回合開始時都會對系統(tǒng)初始化狀態(tài)進行隨機處理,其余算法參數(shù)設(shè)置見表1.
表1 強化學(xué)習(xí)算法參數(shù)設(shè)置
為了驗證本文所提MATD3PG 算法的進步性和有效性,將該算法與以下3種方案進行對比:
1)無控制,即系統(tǒng)內(nèi)所有光伏逆變器的無功出力為0;
2)傳統(tǒng)Q(V)下垂控制策略[7];
3)MADRL中的經(jīng)典算法MADDPG[15].
由于方案1和方案2不存在離線訓(xùn)練過程,所以只進行方案3和本文所提MATD3PG 算法的對比分析.在相同的改進后IEEE-33 節(jié)點系統(tǒng)仿真環(huán)境下進行訓(xùn)練,上述兩種算法訓(xùn)練的平均累積獎勵如圖6所示,實線為平滑后的曲線,背影部分為原始的振蕩曲線.
圖6 MADDPG 和MATD3PG 算法的訓(xùn)練結(jié)果
從圖6可以看出,在訓(xùn)練初期,由于智能體采取隨機動作探索環(huán)境,其獎勵變化幅度較大,但隨著經(jīng)驗的積累,各智能體逐漸學(xué)得最優(yōu)策略,體現(xiàn)出的就是圖像開始收斂,后期獎勵值在小幅度變化,MADDPG 算法和MATD3PG 算法的最終獎勵值分別為-0.087 9、-0.079 7.本文提出的MATD3PG 算法訓(xùn)練過程中的平均累積獎勵相比MADDPG 提升了9.33%,且波動性更小.這是由于MATD3PG 采用3種技術(shù)手段解決訓(xùn)練過程中Q值過估計的問題,提升算法的訓(xùn)練效率,取得了更好的訓(xùn)練效果.
將上述訓(xùn)練好的模型用于測試集進行對比分析,控制指標有電壓偏差、網(wǎng)損、平均求解時間.不同控制策略的性能參數(shù)見表2.
表2 測試集下不同控制策略的性能參數(shù)
由表2可知,相較于下垂控制、MADDPG,本文所提MATD3PG 算法具有最佳的穩(wěn)壓降損性能.可以看到,無控制時的系統(tǒng)平均電壓偏差較大,經(jīng)下垂控制、MADDPG、MATD3PG 控制后,電壓波動得到抑制,平均電壓偏差分別降低了58.22%、62.91%、65.26%,這證明僅利用光伏逆變器也能有效控制電壓波動;同時MATD3PG 算法的標準差最小,說明其能更穩(wěn)定地抑制電壓.由于無控制時光伏逆變器無功出力為0,節(jié)點間的無功流動較少,導(dǎo)致網(wǎng)損較低,在光伏逆變器調(diào)節(jié)無功后,會增加系統(tǒng)的網(wǎng)損,但MATD3PG 算法可以在更為有效穩(wěn)定電壓的同時,具備較低的網(wǎng)損,其網(wǎng)損平均值相比下垂控制和MADDPG,分別降低了15.55%、6.73%,其網(wǎng)損標準差也小于二者.由于下垂控制需要通過傳統(tǒng)物理模型求解,其求解時間較慢,而強化學(xué)習(xí)算法僅需通過訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)就能完成決策,因此其求解時間較短,且MATD3PG 相比于MADDPG 平均求解時間更短,能夠滿足在線電壓控制的要求.
典型日系統(tǒng)PV 出力和負荷曲線如圖7所示,該典型日的光伏滲透率為240.68%,滲透率采用功率滲透率的計算方法[25](即給定區(qū)域內(nèi),所有分布式光伏發(fā)電功率與同一時刻該區(qū)域負荷之比的最大值),可以看出9:00~16:00為光伏出力的高峰期,該段的光伏出力明顯高于負荷需求,系統(tǒng)極易發(fā)生功率倒流、電壓越限.
圖7 典型日系統(tǒng)的PV 出力和負荷曲線
未經(jīng)控制的典型日各節(jié)點電壓分布箱線圖如圖8所示,可以看出在高滲透率分布式光伏接入的配電網(wǎng)中,眾多節(jié)點都出現(xiàn)了電壓越限,這嚴重影響了配電網(wǎng)的安全穩(wěn)定運行.MATD3PG 控制策略下的典型日各節(jié)點電壓分布箱線圖如圖9 所示.圖中表明MATD3PG 控制策略取得了良好的電壓控制效果,經(jīng)此策略控制后全天各節(jié)點電壓均處于安全范圍內(nèi).
圖8 未經(jīng)控制的典型日各節(jié)點電壓分布
圖9 MATD3PG 控制策略下的典型日各節(jié)點電壓分布
圖8表明,當(dāng)日系統(tǒng)出現(xiàn)電壓越限最為嚴重的節(jié)點為節(jié)點18,因此選擇節(jié)點18作為典型節(jié)點進行本文所提方案與方案1~3的對比分析.典型日下不同控制策略下的節(jié)點18電壓分布如圖10所示,其中虛線表示基準電壓和安全運行電壓上下限.圖中表明節(jié)點18在10:00~15:00均處于電壓越上限狀態(tài);在夜間均處于電壓越下限狀態(tài),整體波動較大.雖然方案2和方案3也能將節(jié)點電壓控制在安全范圍內(nèi),但從控制效果來看,基于MATD3PG 的控制策略相較于方案2和方案3,能更為有效地抑制電壓波動,更好地改善電能質(zhì)量.
圖10 典型日不同控制策略的節(jié)點18電壓分布
典型日不同控制策略的系統(tǒng)總網(wǎng)損如圖11 所示.圖中表明本文所提MATD3PG 相比于下垂控制和MADDPG,網(wǎng)損分別減少了20.10%、8.39%,本文所提方法網(wǎng)損最低.這是因為MATD3PG 能更高效地協(xié)調(diào)各光伏逆變器進行電壓控制,減少系統(tǒng)中的無功流動,從而最大限度降低了系統(tǒng)網(wǎng)損.
圖11 典型日不同控制策略的系統(tǒng)總網(wǎng)損
本文提出一種基于MATD3PG 的有源配電網(wǎng)實時電壓控制策略,能夠?qū)崿F(xiàn)各光伏逆變器的協(xié)同控制,有效解決有源配電網(wǎng)的電壓越限問題,提升配電網(wǎng)運行的穩(wěn)定性.主要結(jié)論如下:
1)相比傳統(tǒng)的優(yōu)化算法,所提策略無需精確的配電網(wǎng)模型,僅采用光伏逆變器就能夠?qū)㈦妷嚎刂圃诎踩秶鷥?nèi),且不會影響光伏消納,具有較好的經(jīng)濟性.
2)強化學(xué)習(xí)算法采用基于集中式訓(xùn)練-分散式執(zhí)行機制,解決傳統(tǒng)強化學(xué)習(xí)算法訓(xùn)練過程中出現(xiàn)收斂困難的問題,降低訓(xùn)練的復(fù)雜度,提升訓(xùn)練效果,并顯著提高在線實時決策的效率.
3)將有源配電網(wǎng)實時電壓控制物理模型轉(zhuǎn)化為Dec-POMDP,將各光伏逆變器作為強化學(xué)習(xí)環(huán)境中的智能體,與環(huán)境交互的過程中學(xué)習(xí)最優(yōu)控制策略,能更好地應(yīng)對實際配電網(wǎng)中的不確定性,可以在系統(tǒng)不具備完善通信設(shè)備的條件下,根據(jù)系統(tǒng)最新狀態(tài)進行實時電壓控制,具有良好的控制時效性.
4)經(jīng)改進的IEEE-33 節(jié)點算例驗證,相較于下垂控制和MADDPG,MATD3PG 能夠更有效地抑制電壓波動、降低系統(tǒng)網(wǎng)損.同時MATD3PG 算法的求解速度更快,具備良好的實時電壓控制性能.