張 劍,崔明建,姚瀟毅,何怡剛
(1.合肥工業(yè)大學(xué)電氣與自動化工程學(xué)院,安徽省合肥市 230009;2.天津大學(xué)電氣自動化與信息工程學(xué)院,天津市 300072;3.國網(wǎng)安徽省電力有限公司蚌埠供電公司,安徽省蚌埠市 233000;4.武漢大學(xué)電氣與自動化學(xué)院,湖北省武漢市 430072)
計及源荷不確定性,傳統(tǒng)基于物理模型的配電網(wǎng)多時段有功無功協(xié)調(diào)優(yōu)化屬于大規(guī)?;旌险麛?shù)非凸非線性隨機或魯棒優(yōu)化,求解復(fù)雜度隨配電網(wǎng)拓撲規(guī)模與可調(diào)設(shè)備數(shù)量增加呈指數(shù)增長,屬于非確定 性 多 項 式(non-deterministic polynomial,NP)難題。同時,分布式電源(distributed generator,DG)逆變器、有載調(diào)壓變壓器(on-load tap changer,OLTC)分接頭、可投切電容電抗器(switchable capacitor reactor,SCR)、儲 能 系 統(tǒng)(energy storage system,ESS)、靜 止 無 功 補 償 器(static var compensator,SVC)等可調(diào)設(shè)備動作速度與調(diào)控方式差異很大,使得配電網(wǎng)有功無功協(xié)調(diào)優(yōu)化面臨維數(shù)高、建模困難、求解慢等難題[1-3]。
基于數(shù)據(jù)驅(qū)動的方法不依賴于精確的配電網(wǎng)模型,易于處理非凸非線性約束、離散變量與源荷不確定性,能夠保證解的(近似)最優(yōu)性,計算速度滿足大規(guī)模配電網(wǎng)在線實時優(yōu)化快速性需求[4-5]。深度強化學(xué)習(xí)(deep reinforcement learning,DRL)基于深度學(xué)習(xí)強大的感知能力提取復(fù)雜、高維環(huán)境特征,結(jié)合強化學(xué)習(xí)與環(huán)境交互,完成序貫決策過程,在改進學(xué)習(xí)性能方面表現(xiàn)出優(yōu)越性。近年來,基于DRL 的配電網(wǎng)無功優(yōu)化受到了眾多專家與學(xué)者的關(guān)注[6-8]。
文獻[9]利用Q 表格強化學(xué)習(xí)算法在滿足操作約束的同時學(xué)習(xí)一組控制動作進行無功優(yōu)化,但該算法在處理具有大量狀態(tài)或動作的任務(wù)時效率不高。文獻[10]采用批量強化學(xué)習(xí)設(shè)定OLTC 變比調(diào)節(jié)電壓,但這種方法需要人工設(shè)計特征。文獻[11]采用基于蒙特卡洛搜索樹的強化學(xué)習(xí)算法協(xié)調(diào)調(diào)度ESS 充放電功率,解決大量光伏接入配電網(wǎng)導(dǎo)致的過電壓問題。上述3 種方法均未利用神經(jīng)網(wǎng)絡(luò)強大的感知與函數(shù)逼近能力。文獻[12]采用深度Q學(xué)習(xí)網(wǎng)絡(luò)(deep Q-learning network,DQN)算法優(yōu)化電容器的投切,但DQN 算法只能處理離散動作控制問題。文獻[13]提出了一種OLTC、電容器無功功率-電壓優(yōu)化的安全異軌DRL 算法,但未利用DG逆變器參與調(diào)節(jié)。文獻[14]采用多智能體深度確定性 策 略 梯 度(deep deterministic policy gradient,DDPG)算法協(xié)調(diào)控制光伏逆變器無功調(diào)節(jié)電壓。
離散與連續(xù)可調(diào)設(shè)備動作速度不同,適用于不同時間尺度電壓問題,如何在不確定性源荷下協(xié)調(diào)是難點問題。文獻[15]構(gòu)建了離散與連續(xù)可調(diào)設(shè)備長、短時間尺度在線運行方案。長時間尺度馬爾可夫決策過程(Markov decision process,MDP)采用DQN 算法求解,短時間尺度MDP 采用優(yōu)勢執(zhí)行器-評價器(advantage actor-critic,A2C)算法求解。目前,DQN 算法廣泛應(yīng)用于配電網(wǎng)長時間尺度無功優(yōu)化。然而,當(dāng)離散可調(diào)設(shè)備數(shù)量較多時,DQN 算法存在離散動作空間維數(shù)災(zāi)。針對此問題,文獻[16]構(gòu)建了不平衡配電網(wǎng)無功優(yōu)化多智能體MDP,采用多智能體DQN 算法求解。盡管多智能體DRL 能夠克服離散動作空間維數(shù)災(zāi),但多智能體訓(xùn)練過程收斂速度遠慢于單智能體[17-18]。該方法將連續(xù)動作變量,即DG 無功功率離散化,不同類型可調(diào)設(shè)備動作時間間隔設(shè)定為相同,極大增加了離散動作數(shù)量,降低了靈活性、最優(yōu)性與經(jīng)濟效益,難以有效處理短時間尺度電壓越限問題。
本文提出了一種配電網(wǎng)雙時間尺度有功無功協(xié)調(diào)優(yōu)化策略。針對單智能體連續(xù)-離散動作空間維數(shù)災(zāi)問題,采用一種改進DDPG 算法求解。在給定長時間尺度MDP 離散可調(diào)設(shè)備與ESS 動作值后,求解長時間尺度(小時級)內(nèi)每個短時間尺度(分鐘級或秒級)凸優(yōu)化物理模型得到的最優(yōu)目標(biāo)函數(shù)值累加后作為MDP 的代價。因此,數(shù)據(jù)驅(qū)動與物理建模方法融為一體,保證解的(近似)最優(yōu)性。
如附錄A 圖A1 所示,將每天劃分為個時段,記為τ=1,2,…,。將每個時段τ再細分為NT個時隙,記為t=1,2,…,NT。每個時段τ的持續(xù)時間為1 h。每個時隙t的持續(xù)時間為幾分鐘或幾秒鐘。為應(yīng)對長時間尺度源荷功率緩慢變化導(dǎo)致的網(wǎng)損增加、電壓越限問題,OLTC 變比、SCR 擋位、ESS 充放電功率設(shè)定在時段τ-1 的末尾至?xí)r段τ的開始前完成調(diào)整,此后保持不變,直到時段τ末尾再重新調(diào) 整。本 文 假 定OLTC 變 比、SCR 擋 位、ESS 充 放電功率在時段τ內(nèi)的每個時隙t的值相同,但是從時段τ-1 至τ的值可變。本文將ESS 充放電功率設(shè)置為長時間尺度動作變量是因為,若設(shè)置為短時間尺度優(yōu)化變量將會造成處于不同時隙t的優(yōu)化變量耦合,使得基于物理模型的優(yōu)化問題規(guī)模急劇增加,求解速度難以滿足實時控制需求。
為應(yīng)對高比例風(fēng)電、光伏與快充電動汽車(electric vehicle,EV)接入配電網(wǎng)導(dǎo)致的短時間尺度功率、電壓頻繁、快速、劇烈波動問題,SVC、DG 逆變器無功功率設(shè)定在每個時隙t的起始時刻進行調(diào)節(jié)。此外,為降低模型復(fù)雜度,本文假定節(jié)點k的有功 功 率、無 功 功 率與DG 有 功 出 力在 每 個 時 隙t內(nèi) 恒 定,但 從 時 隙t到t+1可變。
不同類型可調(diào)設(shè)備動作速度差異很大,針對此問題,本文提出的雙時間尺度有功無功協(xié)調(diào)優(yōu)化控制策略需要求解以下隨機優(yōu)化問題:
針對上述問題,本文設(shè)計了一種算法,通過不斷觀察當(dāng)前時隙t的負荷有功功率向量pd(τ,t)、無功功率向量qd(τ,t)與DG 有功功率向量pg(τ,t),得到式(1)的(近似)最優(yōu)值。盡管上述功率隨機過程分布函數(shù)未知,但其在當(dāng)前時隙t的具體實現(xiàn)值可精確預(yù)測[19]。因此,本文將結(jié)合配電網(wǎng)物理模型與數(shù)據(jù)驅(qū)動方法實時求解式(1)。具體而言,在時段τ-1 的末尾,OLTC 變比、SCR 擋位與ESS 充放電功率長時間尺度(近似)最優(yōu)設(shè)定值采用DRL 算法根據(jù)時段τ-1 的配電網(wǎng)狀態(tài)數(shù)據(jù)學(xué)習(xí)得到;在時段τ內(nèi)每個時隙t的起始時刻,SVC、DG 逆變器無功最優(yōu)設(shè)定值在給定OLTC 變比、SCR 擋位與ESS 充放電功率的情況下,通過構(gòu)建與求解單一時隙凸規(guī)劃物理模型給出。時段τ內(nèi)各個時隙t的物理模型目標(biāo)函數(shù)優(yōu)化結(jié)果累加值為該時段τ的MDP 代價。短、長時間尺度模型的具體構(gòu)建與協(xié)調(diào)、融合方法見附錄B 與第2 章。
長時間尺度有功無功協(xié)調(diào)優(yōu)化模型以O(shè)LTC變比、SCR 擋位、ESS 充放電功率為動作變量。現(xiàn)有方法主要基于啟發(fā)式、半定規(guī)劃、二階錐規(guī)劃(second-order cone programming,SOCP)凸松弛技術(shù)構(gòu)建多時段混合整數(shù)非凸非線性模型。求解結(jié)果不能保證最優(yōu)性,計算復(fù)雜度高,要求計算機具有較大內(nèi)存空間。本文基于人工智能領(lǐng)域的最新進展,采用基于數(shù)據(jù)驅(qū)動的方法構(gòu)建MDP,從負荷與間歇性DG 功率未知動態(tài)分布中求出(近似)最優(yōu)解,克服了傳統(tǒng)優(yōu)化方法計算復(fù)雜度高的弊端,能夠滿足在線實時控制要求。
由附錄B 式(B3)、式(B4)、式(B6)、式(B17)、式(B18)、式(B28)與附錄A 圖A1 可以看出,時段τ-1 末尾的OLTC 變比、SCR 擋位、ESS 充放電功率設(shè)定值(長時間尺度學(xué)習(xí))對時段τ內(nèi)每個時隙t的起始時刻SVC、DG 逆變器無功設(shè)定值(短時間尺度凸優(yōu)化)均具有重大影響。反之,時段τ內(nèi)每個時隙t的起始時刻SVC、DG 逆變器無功設(shè)定值經(jīng)由獎勵 對 后 續(xù) 時 段OLTC 變 比、SCR 擋 位、ESS 充 放 電功率設(shè)定值產(chǎn)生影響。這種雙向作用十分適合采用強化學(xué)習(xí)方法求解。
式中:c0為常數(shù)。
6)長期回報集合J:MDP 的目標(biāo)是采用最優(yōu)策略使得長期回報最大。
DDPG 算法適用于連續(xù)動作的場景,配電網(wǎng)中OLTC 變比和SCR 擋位只能取離散值。因此,不能直接應(yīng)用DDPG 算法,DQN 算法不適用于連續(xù)動作的場景。ESS 充放電功率一般為連續(xù)值,DQN 算法難以適用。針對此問題,本文將文獻[20]中的方法推廣至一般情形,即連續(xù)-離散動作空間。首先,將離散動作分量松弛為連續(xù)動作分量(稱為松弛過程);然后,針對執(zhí)行器輸出的原型動作中對應(yīng)于OLTC 變比和SCR 擋位的分量,在(嵌入)離散動作空間中搜索出Knn個最臨近點(稱為預(yù)報過程);最后,每個最鄰近點與執(zhí)行器輸出的原型動作中對應(yīng)于連續(xù)動作分量(ESS 充放電功率)組成一個完整動作,并依次輸入評價器得到動作價值,選取動作價值最大的動作與環(huán)境交互(稱為校正過程)。在已知數(shù)據(jù)集中找出給定點的Knn個最臨近點能夠在對數(shù)時間復(fù)雜度內(nèi)完成[21]。目前,已有大量文獻報導(dǎo)該算法。本文采用的基于松弛-預(yù)報-校正的改進DDPG 算法不會大幅增加計算時間,具有很好的可擴展性。
基于松弛-預(yù)報-校正的改進DDPG 算法示意圖如附錄C 圖C1(b)所示。本文提出的主動配電網(wǎng)雙時間尺度有功無功協(xié)調(diào)優(yōu)化程序流程見附錄D 圖D1。
雖然基于gumble-softmax 重參數(shù)化技巧的DDPG 算法也可以處理離散動作,但是本文方法動作維度等于OLTC、SCR、ESS 的數(shù)量之和,基于gumble-softmax 重參數(shù)化技巧的DDPG 算法動作維度等于離散動作數(shù)量與連續(xù)動作數(shù)量之和。例如,假設(shè)三相平衡配電網(wǎng)含5 臺OLTC、4 臺SCR、2 臺ESS,每臺OLTC 有10 個擋位,每 臺SCR 有4 個擋位,則本文方法動作維度為5+4+2=11?;趃umble-softmax 重參數(shù)化技巧的DDPG 算法動作維度為105×44+2=25 600 002。因此,本文方法動作維度遠遠低于基于gumble-softmax 重參數(shù)化技巧的DDPG 算法。雖然后者也可以處理離散動作,但其只適用于離散動作數(shù)量較少的情形。當(dāng)離散動作數(shù)量很多時,會產(chǎn)生維數(shù)災(zāi)問題。本文方法的優(yōu)勢之一是不會產(chǎn)生維數(shù)災(zāi)問題。
為了限制短路電流及便于繼電保護的整定與配合,配電網(wǎng)一般采用輻射狀運行結(jié)構(gòu)。本文設(shè)置OLTC 與SCR 動作時間間隔為1 h,未計及OLTC、SCR 的動作次數(shù)與輻射狀網(wǎng)絡(luò)結(jié)構(gòu)約束,文獻[10,12,15,16,22-25]亦未計及。
本文為實現(xiàn)SVC 與DG 逆變器的(毫秒級)快速決策,將ESS 充放電功率放在長時間尺度進行優(yōu)化,在一定程度上犧牲了ESS 的靈活調(diào)節(jié)能力,但降低了循環(huán)次數(shù),提高了壽命。文獻[1]也是將ESS 充放電功率調(diào)整時間間隔設(shè)置為1 h,而SVC和DG 無功功率設(shè)置為實時調(diào)節(jié)。
IEEE 33 節(jié)點配電系統(tǒng)仿真條件如附錄E 所示。算例中,共有17×11×11=2 057 個離散動作分量。為了驗證本文方法的有效性,首先設(shè)置OLTC 變 比、SCR 擋位、ESS 充放電功率在每個時段τ分別為隨機值與固定值。當(dāng)設(shè)為固定值時,OLTC 變 比 為1,2 臺SCR 無 功 補 償 均 為0,ESS 充放電功率為0,只優(yōu)化求解每個時隙t的SOCP 模型。平均每小時代價的優(yōu)化結(jié)果如附錄F 圖F1 所示??梢钥闯觯刻炱骄啃r的代價均遠大于0.1 p.u.,意味著每天電壓越限均十分嚴(yán)重。第1 階段變量取隨機值比取固定值導(dǎo)致的電壓越限問題更加嚴(yán)重。2 種方法計算時間分別為1 511 s 和1 530 s。
本文根據(jù)仿真結(jié)果代價是否大于0.1 p.u.作為判斷電壓是否越限的標(biāo)準(zhǔn),原因如下:由于潮流計算的三相功率基準(zhǔn)值選取為配電網(wǎng)額定容量(對于IEEE 33 節(jié)點、IEEE 123 節(jié)點配電系統(tǒng)分別為10 MV·A、5 MV·A),從式(5)至式(9)可知,若電壓未越限,則代價為每個時段的平均網(wǎng)損(有功損耗),其值必遠小于0.1 p.u.。若大于0.1 p.u.,則表明網(wǎng)損率遠大于10%,這在實際配電網(wǎng)中是不可能的。每天平均每小時的代價均遠大于0.1 p.u.,意味著每天的電壓越限均十分嚴(yán)重,這是由于代價計及了電壓越限懲罰。
將OLTC 變比設(shè)置為連續(xù)變量,并設(shè)定OLTC變比、SCR 擋位、ESS 充放電功率在每個時隙t均可調(diào)節(jié),構(gòu)建288 個時隙單一短時間尺度傳統(tǒng)日前混合整數(shù)SOCP模型?;贛ATLAB平臺采用Mosek 9.1.4 軟件包求解,為提高計算速度,設(shè)置相對對偶間隙為+∞,平均每小時最優(yōu)代價為0.009 p.u.,如圖1 中綠色點線所示。
圖1 算例1 中IEEE 33 節(jié)點配電網(wǎng)平均每小時的代價曲線Fig.1 Curves of average cost per hour of IEEE 33-bus distribution network in case 1
采用本文方法,針對執(zhí)行器輸出的動作,在離散動作分量空間搜索出Knn=1 與Knn=20 時最鄰近的動作分量,優(yōu)化結(jié)果分別如圖1 中藍色虛線與紅色點劃線所示??梢钥闯?,采用本文方法,起始階段平均每小時代價很高,這是因為DDPG 算法在起始階段執(zhí)行器采用的是隨機動作策略。在第60 d 后(訓(xùn)練了60×24步=1 440 步),網(wǎng)損開始變得很低,接近最優(yōu)值0.009 p.u.。
Knn=1 與Knn=20 時的總優(yōu)化計算時間分別為1 307 s 和1 487 s,對應(yīng)每日數(shù)據(jù)的平均優(yōu)化計算時間分別為2.178 s 和2.478 s。求解傳統(tǒng)288 個時隙日前規(guī)劃混合整數(shù)SOCP 計算時間為114 s。當(dāng)Knn=20 時,本文方法的計算速度約為傳統(tǒng)方法的46 倍,每個時隙t的平均計算時間為0.008 6 s。因此,即使每個時隙t持續(xù)時間設(shè)置為1 s,本文所提方法仍滿足實時控制需求。
設(shè)置每個DG 最大功率和容量分別為1 MW 和1 MV·A,c0為0.005 p.u.。其他仿真條件與算例1相同。訓(xùn)練過程中的平均每小時代價優(yōu)化結(jié)果如圖2 所示??梢钥闯?,采用本文方法,當(dāng)Knn=20 時,在第70 d 后(訓(xùn)練了70×24 步=1 680 步),平均每小時代價十分接近傳統(tǒng)288 個時隙單一短時間尺度混合整數(shù)SOCP 模型優(yōu)化結(jié)果的最優(yōu)網(wǎng)損0.003 8 p.u.。Knn=20 時,前100 個時段電壓頻繁越限的原因是DDPG 算法在起始階段執(zhí)行器采用的是隨機動作策略。當(dāng)任務(wù)較困難時,改進DDPG 智能體需要訓(xùn)練足夠長的步數(shù)才能學(xué)習(xí)到最優(yōu)策略。然而,當(dāng)Knn=1 時,訓(xùn)練過程很不平穩(wěn),電壓越限問題頻繁發(fā)生。這是因為風(fēng)電比例很高(風(fēng)電比例是算例1 的10 倍),部分支路存在反向潮流,電壓分布范圍較寬。為避免電壓與電流越限,OLTC 變比、SCR 擋位與ESS 充放電功率必須精準(zhǔn)設(shè)定。然而,在離散動作空間取1 個最臨近點不能保證解的可行性。因此,任務(wù)很困難時,選取Knn=1 是不合適的。
圖2 算例2 中IEEE 33 節(jié)點配電網(wǎng)平均每小時的代價曲線Fig.2 Curves of average cost per hour of IEEE 33-bus distribution network in case 2
設(shè)置OLTC 最大、最小變比分別為1.1 與0.9。其他仿真條件與算例1 相同。此算例中共有33×11×11=3 993 個離散動作分量。若OLTC 變比不在區(qū)間[0.95,1.05]內(nèi),則OLTC 二次側(cè)電壓越限。相比于算例1,此算例中DDPG 智能體找到(近似)最優(yōu)解要困難得多,平均每小時代價優(yōu)化結(jié)果如圖3 所示??梢钥闯?,采用本文方法,當(dāng)Knn=40時,在第250 d 后(訓(xùn)練了250×24 步=6 000 步),平均每小時代價十分接近傳統(tǒng)288 個時隙單一短時間尺度混合整數(shù)SOCP 模型優(yōu)化結(jié)果的最優(yōu)網(wǎng)損0.008 8 p.u.。然而,當(dāng)Knn=400 時,訓(xùn)練過程中的平均每小時代價一直很高,算法不收斂。這是因為最臨近點選取得太多導(dǎo)致DDPG 智能體沒有得到有效訓(xùn)練,神經(jīng)網(wǎng)絡(luò)參數(shù)未進化,一直找不到可行解。因此,當(dāng)任務(wù)很困難時,Knn選取得過大也是不合適的。此外,當(dāng)Knn=1 時,訓(xùn)練過程很不平穩(wěn),電壓越限問題頻繁發(fā)生。這是因為在離散動作空間取1 個最臨近點不能保證解的可行性。這再次證明,任務(wù)很困難時,選取Knn=1 是不合適的。
圖3 算例3 中IEEE 33 節(jié)點配電網(wǎng)平均每小時的代價曲線Fig.3 Curvs of average cost per hour of IEEE 33-bus distribution network in case 3
IEEE 123 節(jié)點配電系統(tǒng)仿真條件如附錄E 所示。假設(shè)根節(jié)點電壓固定為1.05 p.u.。此時,離散動作分量數(shù)量為53×26個=8 000 個。設(shè)置OLTC變比、電容器是否投入、ESS 充放電功率在每個時段τ分別為隨機值與固定值。當(dāng)設(shè)為固定值時,電容器均不投入,ESS 充放電功率為0,位于支路9-14、25-26、119-67 的OLTC 變 比 分 別 為1.000、1.000、1.025,只優(yōu)化求解每個時隙t的二次規(guī)劃模型,平均每小時代價優(yōu)化結(jié)果如附錄F 圖F2 所示??梢钥闯觯刻炱骄啃r的代價均遠大于0.1 p.u.,意味著電壓越限均十分嚴(yán)重。而且,第1 階段變量取固定值比取隨機值導(dǎo)致的電壓越限問題更加嚴(yán)重。
采用本文所提方法,當(dāng)Knn為1 與20 時,平均每小時代價優(yōu)化結(jié)果分別如圖4 中藍色虛線與紅色點劃線所示。在第20 d 后(訓(xùn)練了20×24 步=480 步),當(dāng)Knn=20 時,平均每小時代價接近最優(yōu)值0.018 8 p.u.。
圖4 算例4 中IEEE 123 節(jié)點配電網(wǎng)平均每小時的代價曲線Fig.4 Curvs of average cost per hour of IEEE 123-bus distribution network in case 4
假設(shè)根節(jié)點接入一臺三相OLTC,最大、最小變比分別為1.05 與0.95,步長為0.025。其他仿真條件與算例4 相同。此算例中共有54×26個=40 000 個離散動作分量。當(dāng)?shù)?0 階段變量取隨機值或固定值當(dāng)設(shè)定為固定值時,電容器均不投入,ESS 充放電功率為0,位于支路123-1、9-14、25-26、119-67 的OLTC 變比分別為1.000、1.050、0.950、1.050。平均每小時代價優(yōu)化結(jié)果如附錄F 圖F3 所示??梢钥闯?,相比于附錄F 圖F2,電壓越限問題更加嚴(yán)重。而且,第10 階段變量取隨機值比取固定值導(dǎo)致的電壓越限問題更加惡化。這是因為根節(jié)點OLTC 變比對電壓越限的影響最大。2 種方法優(yōu)化計算總時間分別為7 231 s 與7 270 s。
采用本文所提方法,平均每小時代價優(yōu)化結(jié)果如圖5 所示??梢钥闯?,在第238 d 后(訓(xùn)練了238×24 步=5 712 步),當(dāng)Knn=20 時,平均每小時代價接近最優(yōu)值0.017 9 p.u.,訓(xùn)練過程平穩(wěn)度與收斂速度遠高于Knn=1 時。
圖5 算例5 中IEEE 123 節(jié)點配電網(wǎng)平均每小時的代價曲線Fig.5 Curvs of average cost per hour of IEEE 123-bus distribution network in case 5
當(dāng)Knn為1 與20 時,總優(yōu)化計算時間分別為629 4 s 和6 547 s,每日數(shù)據(jù)的平均優(yōu)化計算時間分別為10.490 0 s 和10.911 7 s。將相對對偶間隙設(shè)置為無窮大,求解傳統(tǒng)144 個時隙單一短時間尺度日前規(guī)劃混合整數(shù)SOCP 計算時間為199 s。當(dāng)Knn=20 時,本文方法計算速度約為傳統(tǒng)方法的18.237 倍,每個時隙t的平均計算時間為0.075 8 s。因此,即使時隙t設(shè)置為1 s,本文所提方法仍滿足實時控制的需求。
對比圖5 與文獻[16]可以看出,采用本文方法訓(xùn)練過程收斂速度與平穩(wěn)度遠高于文獻[16]中的多智能體DQN 算法。這是因為多智能體協(xié)調(diào)探索與利用比單智能體復(fù)雜與困難得多。文獻[16]將連續(xù)變量離散化,離散動作數(shù)量呈指數(shù)增長,而且構(gòu)建的單一長時間尺度MDP 未計及不同類型可調(diào)設(shè)備動作速度差異性,降低了調(diào)度靈活性與最優(yōu)性。
本文方法的突出優(yōu)點是非常容易在實際配電網(wǎng)中實現(xiàn)。基于IEEE 33 節(jié)點與IEEE 123 節(jié)點配電系統(tǒng)仿真結(jié)果表明,針對執(zhí)行器輸出的原型動作,在離散動作分量空間選取的最臨近點數(shù)量Knn對訓(xùn)練過程收斂速度與平穩(wěn)度具有較大影響。當(dāng)任務(wù)較困難時,Knn太大或太小,如Knn為1 或400,可能導(dǎo)致訓(xùn)練過程很不平穩(wěn)或不收斂。Knn的取值適中,如20或40,即可使得訓(xùn)練過程較平穩(wěn)。本文方法優(yōu)化結(jié)果十分接近于OLTC、SCR 與ESS 參與短時間尺度調(diào)節(jié)的多時隙單一短時間尺度日前混合整數(shù)SOCP或二次規(guī)劃優(yōu)化結(jié)果。然而,當(dāng)Knn=20 時,本文方法計算速度是其18~42 倍。而且,本文方法DRL 訓(xùn)練過程收斂速度與平穩(wěn)度遠高于現(xiàn)有單一慢時間尺度多智能體DQN 算法。
本文未計及電動汽車的充放電功率約束與調(diào)節(jié)作用,未采用測試集驗證基于松弛-預(yù)報-校正的DDPG 算法泛化能力。進一步研究的工作重點是在短時間尺度優(yōu)化模型中計及電動汽車充放電功率約束與調(diào)節(jié)作用,以及采用測試集驗證基于松弛-預(yù)報-校正的DDPG 算法泛化能力。
附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。