張帥 劉界江 蘇雨婷
摘要:“雙碳”背景下,光儲(chǔ)充電站逐漸成為未來(lái)充電站的一種主流形式。為提高光儲(chǔ)充電站的經(jīng)濟(jì)效益并降低二氧化碳排放,提出了一種基于改進(jìn)深度強(qiáng)化學(xué)習(xí)的光儲(chǔ)充電站實(shí)時(shí)控制策略。首先,建立以碳排放最小與運(yùn)行成本最低為目標(biāo)的優(yōu)化模型并將其轉(zhuǎn)換為馬爾可夫決策過(guò)程;其次,提出了一種基于經(jīng)驗(yàn)繼承機(jī)制的粒子群優(yōu)化-深度確定性策略梯度算法(Particle Swarm Optimization-Deep Deterministic Policy Gradient,PSO-DDPG);最后,考慮動(dòng)態(tài)碳排放因子開(kāi)展算例分析,驗(yàn)證了所提PSO-DDPG策略的有效性。
關(guān)鍵詞:光儲(chǔ)充電站;實(shí)時(shí)控制策略;深度強(qiáng)化學(xué)習(xí);粒子群優(yōu)化算法;深度確定性策略梯度
中圖分類(lèi)號(hào):U469.72;TM73? ? 文獻(xiàn)標(biāo)志碼:A? ? 文章編號(hào):1671-0797(2023)17-0005-04
DOI:10.19514/j.cnki.cn32-1628/tm.2023.17.002
0? ? 引言
隨著電動(dòng)汽車(chē)(Electric Vehicle,EV)保有量的快速增長(zhǎng),公共充電設(shè)施得到了越來(lái)越多的關(guān)注[1]。常規(guī)的電動(dòng)汽車(chē)充電站(Charging Station,CS)僅通過(guò)向電網(wǎng)購(gòu)電、向電動(dòng)汽車(chē)用戶售電來(lái)實(shí)現(xiàn)盈利,但其充電負(fù)荷可調(diào)節(jié)性差,晚間充電負(fù)荷與居民負(fù)荷疊加易形成“峰上加峰”現(xiàn)象[2-3]。在此背景下,一種在站內(nèi)配置了光伏(Photovoltaic,PV)與儲(chǔ)能系統(tǒng)(Energy Storage System,ESS)的光儲(chǔ)充電站得到了發(fā)展。光伏系統(tǒng)的加入提高了充電站的能源自給率與碳減排效益,而儲(chǔ)能系統(tǒng)的調(diào)節(jié)作用起到了平滑配網(wǎng)(Distribution Network,DN)供電功率和削峰填谷的作用。然而,光伏出力受多重因素影響,具有實(shí)時(shí)波動(dòng)的特點(diǎn),而電動(dòng)汽車(chē)的隨機(jī)充電行為更加大了對(duì)光儲(chǔ)充電站實(shí)時(shí)調(diào)度的難度[4-5]。因此,本文提出了一種融合啟發(fā)式算法與深度強(qiáng)化學(xué)習(xí)算法的光儲(chǔ)充電站實(shí)時(shí)控制策略,通過(guò)粒子群算法(Particle Swarm Optimization,PSO)拓展深度確定性策略梯度函數(shù)(Deep Deterministic Policy Gradient,DDPG)的探索性能,提高控制策略的求解質(zhì)量與實(shí)時(shí)性能。
1? ? 光儲(chǔ)充電站能量實(shí)時(shí)控制策略
為充分發(fā)揮光儲(chǔ)充電站的節(jié)能減排效益,選取充電站碳排放量最小與運(yùn)行成本最低為優(yōu)化目標(biāo),建立光儲(chǔ)充電站能量調(diào)度模型。此外,為提高所建立優(yōu)化模型對(duì)復(fù)雜工況的實(shí)時(shí)應(yīng)對(duì)性能,本文進(jìn)一步將該優(yōu)化模型建立為馬爾可夫決策過(guò)程(Markov Decision Process,MDP)[6]。
1.1? ? 光儲(chǔ)充電站能量調(diào)度模型
1.1.1? ? 目標(biāo)函數(shù)
1)碳排放最小。為充分消納光伏,提高充電站的能源自給率與碳減排效益,本文考慮電網(wǎng)動(dòng)態(tài)二氧化碳排放因子,將充電站碳排放最小作為優(yōu)化目標(biāo)之一。
式中:γ 為電網(wǎng)在不同時(shí)間段的碳排放系數(shù);Pt DN為光儲(chǔ)充電站向配電網(wǎng)的購(gòu)電功率;T為一天總時(shí)間段;Δt為時(shí)間步長(zhǎng)。
2)運(yùn)行成本最低。光儲(chǔ)充電站通過(guò)能量管理系統(tǒng)對(duì)站內(nèi)能量流動(dòng)進(jìn)行控制,從而降低整站的運(yùn)行成本,其中運(yùn)行成本可以分為向電網(wǎng)購(gòu)電成本以及儲(chǔ)能損耗成本兩部分:
式中:C1與C2為購(gòu)電成本以及儲(chǔ)能損耗成本;γt TOU為電網(wǎng)工業(yè)分時(shí)電價(jià)(Time of Use,TOU);Pt DN為電網(wǎng)向光儲(chǔ)充電站提供的有功功率大?。沪肊SS為由儲(chǔ)能充放電帶來(lái)的損耗系數(shù);Pt ESS為儲(chǔ)能系統(tǒng)的充放電功率,充電時(shí)為正,放電時(shí)為負(fù)。
1.1.2? ? 約束條件
1)充電站功率平衡:
式中:Pt EV為t時(shí)刻電動(dòng)汽車(chē)充電負(fù)荷;Pt PV為光伏出力。
上式中等號(hào)左側(cè)代表受電端,右側(cè)代表送電端。
2)儲(chǔ)能運(yùn)行約束:
式中:St ESS與St-1 ESS分別為儲(chǔ)能系統(tǒng)t時(shí)刻與t-1時(shí)刻的電池荷電狀態(tài)(State of Charge,SOC);Pt-1 ESS為t-1時(shí)刻儲(chǔ)能系統(tǒng)充放電功率;EESS為儲(chǔ)能電池容量;Smin ESS與Smax ESS分別為儲(chǔ)能系統(tǒng)最小與最大SOC。
3)電網(wǎng)供電功率約束:
式中:Ptr與PAD分別為充電站所配置的變壓器與AC/DC模塊的額定容量[7]。
4)電動(dòng)汽車(chē)充電約束:
式中:Si set與Si end分別為用戶i到站設(shè)置的期望SOC與離站時(shí)的實(shí)際車(chē)輛SOC;
EV為電動(dòng)汽車(chē)用戶集合。
1.2? ? 基于MDP的能量實(shí)時(shí)控制策略
為提高所提策略的實(shí)時(shí)性能,本文將所建立的優(yōu)化模型轉(zhuǎn)換為馬爾可夫決策過(guò)程,其核心思想如圖1所示。在訓(xùn)練過(guò)程中,智能體從環(huán)境中捕捉實(shí)時(shí)狀態(tài)st,依據(jù)當(dāng)前策略做出控制動(dòng)作at從而改變當(dāng)前環(huán)境,而后通過(guò)獎(jiǎng)勵(lì)rt給予智能體實(shí)時(shí)反饋,引導(dǎo)智能體獲得更高的獎(jiǎng)勵(lì)值以及更優(yōu)越的控制策略。
1)狀態(tài)st代表MDP模型中環(huán)境的實(shí)時(shí)信息。本文從電網(wǎng)、光伏、儲(chǔ)能、用戶四個(gè)角度構(gòu)建智能體的狀態(tài)空間,狀態(tài)st為:
2)動(dòng)作at是針對(duì)環(huán)境狀態(tài)st所做出的控制決策。本文將儲(chǔ)能充放電功率以及用戶充電樁功率作為控制動(dòng)作,即:
式中:Pi,t CH為用戶i所接入充電樁的輸出功率;χi,t為充電樁開(kāi)關(guān)控制變量:
1,充電狀態(tài)(13)
3)獎(jiǎng)勵(lì)rt是環(huán)境對(duì)智能體動(dòng)作at的及時(shí)反饋。依據(jù)上文建立的優(yōu)化模型,本文設(shè)計(jì)獎(jiǎng)勵(lì)rt包含二氧化碳排放成本C以及運(yùn)行成本兩項(xiàng),其中運(yùn)行成本包含購(gòu)電成本C1與儲(chǔ)能損耗成本C2:
式中:π為二氧化碳排放成本系數(shù)。
2? ? 基于PSO-DDPG的求解算法
DDPG是一種基于Actor-Critic架構(gòu)的深度強(qiáng)化學(xué)習(xí)算法,其在連續(xù)動(dòng)作空間問(wèn)題上具有良好的學(xué)習(xí)性能。然而,DDPG算法訓(xùn)練過(guò)程中的梯度方向固定,僅與所抽取的mini-batch中的樣本有關(guān),這導(dǎo)致算法缺乏探索性,最終訓(xùn)練的智能體容易陷入局部最優(yōu)。為此,本文提出了一種基于樣本繼承機(jī)制的PSO-DDPG算法,通過(guò)引入粒子群算法提高DDPG算法的探索性能。
2.1? ? PSO算法基本原理
作為一種經(jīng)典的群體智能算法,PSO算法通過(guò)模擬自然界的鳥(niǎo)群捕食來(lái)實(shí)現(xiàn)優(yōu)化問(wèn)題的求解。具體而言,粒子群中的所有粒子都被分配了速度與位置,通過(guò)粒子個(gè)體在解空間單獨(dú)尋優(yōu)Pi,k best,進(jìn)而求得全局最優(yōu)解Gk best。在迭代過(guò)程中,粒子的位置xi,k與速度vi,k可由下式更新:
式中:ω為慣性因子;c1與c2分別為代表個(gè)體學(xué)習(xí)與群體學(xué)習(xí)的加速因子;ξ1與ξ2為[0,1]區(qū)間的隨機(jī)數(shù),賦予了PSO算法空間探索能力。
2.2? ? DDPG算法基本原理
DDPG算法通過(guò)Actor網(wǎng)絡(luò)μ(s|θμ)、目標(biāo)Actor網(wǎng)絡(luò)μ′(s|θμ′)、Critic網(wǎng)絡(luò)Q(s,a|θQ)與目標(biāo)Critic網(wǎng)絡(luò)Q′(s,a|θQ′)實(shí)現(xiàn)智能體的訓(xùn)練。在訓(xùn)練過(guò)程中,Critic網(wǎng)絡(luò)通過(guò)損失函數(shù)LQ更新網(wǎng)絡(luò)參數(shù):
式中:Nb為mini-batch容量;yj為目標(biāo)Q值;sj、aj、rj、sj+1分別為訓(xùn)練樣本(sj,aj,rj,sj+1)中的狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)與下一時(shí)刻狀態(tài);γ為折扣率。
Actor網(wǎng)絡(luò)基于確定性策略梯度損失函數(shù)[Δ]J更新網(wǎng)絡(luò)參數(shù):
式中:[Δ]aQ(sj,aj|θQ)表示Critic網(wǎng)絡(luò)對(duì)決策動(dòng)作求梯度;[Δ] μ(sj|θμ)表示Actor網(wǎng)絡(luò)對(duì)網(wǎng)絡(luò)參數(shù)求梯度。
而后,兩個(gè)目標(biāo)網(wǎng)絡(luò)采用軟更新方式更新網(wǎng)絡(luò)參數(shù),具體如式(21)所示:
式中:τ為軟更新系數(shù);θμ,k與θμ′,k分別為Actor與目標(biāo)Actor網(wǎng)絡(luò)在第k回合的網(wǎng)絡(luò)參數(shù);θQ,k與θQ′,k分別為Critic與目標(biāo)Critic網(wǎng)絡(luò)在第k回合的網(wǎng)絡(luò)參數(shù)。
2.3? ? PSO-DDPG算法訓(xùn)練流程
為解決DDPG算法探索性能不足的局限,本文提出了一種PSO-DDPG算法,其訓(xùn)練流程如圖2所示。首先,基于PSO算法對(duì)光儲(chǔ)充電站隨機(jī)場(chǎng)景進(jìn)行求解,將滿足精度要求的全局最優(yōu)解Gk best對(duì)應(yīng)的樣本存入經(jīng)驗(yàn)池中,直至達(dá)到PSO模塊的最大回合NP。其次,運(yùn)行DDPG算法模塊,智能體觀測(cè)充電站狀態(tài)st,做出對(duì)儲(chǔ)能系統(tǒng)與充電樁的控制動(dòng)作at,在得到獎(jiǎng)勵(lì)后將樣本存入經(jīng)驗(yàn)池。然后,從PSO與DDPG的混合經(jīng)驗(yàn)池中隨機(jī)抽取mini-batch樣本(sj,aj,rj,sj+1)更新Critic與Actor,并進(jìn)一步軟更新兩個(gè)目標(biāo)網(wǎng)絡(luò)。最后,重復(fù)DDPG的訓(xùn)練流程直至達(dá)到最大回合ND。這樣,探索性能優(yōu)越的PSO算法通過(guò)經(jīng)驗(yàn)池將樣本繼承給DDPG智能體,增強(qiáng)了DDPG的探索性能與全局尋優(yōu)能力。
3? ? 算例分析
3.1? ? 參數(shù)設(shè)置
為了便于算例的量化分析,對(duì)光儲(chǔ)充電站設(shè)定如下條件:1)儲(chǔ)能容量取300 kW·h,額定充放電功率120 kW,光伏容量200 kW,站內(nèi)配置了12個(gè)60 kW快充樁;2)儲(chǔ)能損耗系數(shù)取0.06元/(kW·h),電網(wǎng)不同時(shí)段碳排放系數(shù)如圖3所示[7],二氧化碳排放成本系數(shù)為0.04元/kg[8]。
3.2? ? 訓(xùn)練過(guò)程分析
設(shè)PSO算法的種群規(guī)模為100,最大迭代次數(shù)為200,慣性因子取0.8,個(gè)體與群體加速因子均取1.8。此外,設(shè)DDPG算法折扣率為0.99,學(xué)習(xí)率為0.000 5,mini-batch容量為100,經(jīng)驗(yàn)池容量為12 000,最大訓(xùn)練次數(shù)為1 000,可得所提PSO-DDPG算法的訓(xùn)練曲線如圖4所示。從圖中可見(jiàn),智能體訓(xùn)練獎(jiǎng)勵(lì)曲線快速上升,并在300回合左右進(jìn)入穩(wěn)定范圍,獎(jiǎng)勵(lì)曲線最終在-6.96左右小幅振蕩,證明了所提算法能夠通過(guò)PSO經(jīng)驗(yàn)繼承機(jī)制快速幫助智能體探索訓(xùn)練環(huán)境。
3.3? ? 策略有效性分析
光儲(chǔ)充電站在無(wú)序與有序場(chǎng)景下的功率曲線如圖5所示,無(wú)序與有序場(chǎng)景的成本對(duì)比如表1所示。
由圖5(a)可見(jiàn),無(wú)序場(chǎng)景的功率控制邏輯是當(dāng)有充電負(fù)荷時(shí)先由光伏供電,光伏不足時(shí)由儲(chǔ)能系統(tǒng)供電,而站內(nèi)光儲(chǔ)無(wú)法滿足充電需求則由電網(wǎng)供電,這導(dǎo)致充電站未完全發(fā)揮光儲(chǔ)的協(xié)調(diào)互補(bǔ)功能,全天向電網(wǎng)購(gòu)電918.30 kW·h,花費(fèi)662.78元。而所提策略充分發(fā)揮了儲(chǔ)能與充電樁的靈活調(diào)節(jié)能力,不僅削減了最大充電負(fù)荷,同時(shí)購(gòu)電費(fèi)用僅為499.04元,相較于前者降低了24.71%。值得注意的是,所提策略的儲(chǔ)能損耗成本要高于無(wú)序場(chǎng)景,這主要是由于對(duì)儲(chǔ)能更頻繁的調(diào)度,盡管如此,相較于購(gòu)電成本的降低,儲(chǔ)能損耗增加21.94元仍是可以接受的。以上結(jié)果驗(yàn)證了所提PSO-DDPG策略能夠更好地發(fā)揮儲(chǔ)能的靈活調(diào)整作用,利用峰谷電價(jià)降低光儲(chǔ)充電站的整體運(yùn)行成本。
4? ? 結(jié)束語(yǔ)
在“雙碳”背景下,光伏等分布式可再生能源與電動(dòng)汽車(chē)的協(xié)調(diào)發(fā)展無(wú)疑是大勢(shì)所趨。針對(duì)光儲(chǔ)充電站,本文提出了一種基于PSO改進(jìn)深度強(qiáng)化學(xué)習(xí)的算法,基于經(jīng)驗(yàn)繼承機(jī)制提高DDPG智能體的探索性能與求解能力。通過(guò)算例結(jié)果發(fā)現(xiàn),本文所提PSO-DDPG策略能夠有效完成光儲(chǔ)充電站的實(shí)時(shí)能量控制,相較于無(wú)序場(chǎng)景降低了24.71%的購(gòu)電成本,并能夠降低二氧化碳排放。下一步將考慮電動(dòng)汽車(chē)集群的V2G能力,進(jìn)一步優(yōu)化所提策略。
[參考文獻(xiàn)]
[1] 徐昌寶,丁健,宋宏劍,等.計(jì)及電能質(zhì)量約束的充電設(shè)施布局優(yōu)化方法[J].電氣傳動(dòng),2022,52(22):51-59.
[2] 蔣林洳,龍羿,李興源,等.基于實(shí)測(cè)數(shù)據(jù)的多類(lèi)型電動(dòng)汽車(chē)充電負(fù)荷分析[J].電測(cè)與儀表,2023,60(1):36-41.
[3] DABBAGHJAMANESH M,MOEINI A,KAVOUSI-FARD A.Reinforcement Learning-Based Load Forecasting of Electric Vehicle Charging Station Using Q-Learning Technique[J].IEEE Transactions on Industrial Informatics,2021,17(6):4229-4237.
[4] KABIR M E,ASSI C,TUSHAR M H K,et al.Optimal Scheduling of EV Charging at a Solar Power-Based Charging Station[J].IEEE Systems Journal,2020,14(3):4221-4231.
[5] 薛貴挺,汪柳君,劉哲,等.考慮碳排放的光儲(chǔ)充一體站日前運(yùn)行策略[J].電力系統(tǒng)保護(hù)與控制,2022,50(7):103-110.
[6] 倪爽,崔承剛,楊寧,等.基于深度強(qiáng)化學(xué)習(xí)的配電網(wǎng)多時(shí)間尺度在線無(wú)功優(yōu)化[J].電力系統(tǒng)自動(dòng)化,2021,45(10):77-85.
[7] 付張杰,王育飛,薛花,等.基于NSGA-Ⅲ與模糊聚類(lèi)的光儲(chǔ)式充電站儲(chǔ)能系統(tǒng)優(yōu)化運(yùn)行方法[J].電力建設(shè),2021,42(3):27-34.
[8] 趙乃新,顧文波,美合日阿依·穆太力普.考慮低碳經(jīng)濟(jì)運(yùn)行的四聯(lián)供綜合能源系統(tǒng)優(yōu)化調(diào)度[J].熱力發(fā)電,2023,52(4):54-62.
收稿日期:2023-05-18
作者簡(jiǎn)介:張帥(1995—),女,湖北人,助理工程師,研究方向:電力系統(tǒng)及其自動(dòng)化。