張文昕,栗 然,臧向迪,嚴(yán)敬汝,祝晉堯
(1. 華北電力大學(xué) 電氣與電子工程學(xué)院,河北 保定 071003;2. 國網(wǎng)河北省電力有限公司電力科學(xué)研究院,河北 石家莊 050022;3. 國網(wǎng)石家莊供電公司,河北 石家莊 050004)
電動(dòng)汽車(EV)憑借其低碳環(huán)保、靈活可控的特點(diǎn)被普遍認(rèn)為是提高汽車產(chǎn)業(yè)競爭力、轉(zhuǎn)型低碳經(jīng)濟(jì)、保障能源安全的重要途徑[1]。隨著EV 規(guī)模化應(yīng)用,大量EV 集中在電網(wǎng)負(fù)荷高峰時(shí)段接入電網(wǎng)充電,將進(jìn)一步增大負(fù)荷峰值,帶來系統(tǒng)容量不足、影響電能質(zhì)量等一系列問題。目前,EV 的電能補(bǔ)充模式主要包括整車慢充、整車快充、電池更換3 種。其中,電池更換模式下EV與電池的可分離特性能使電池充電脫離EV的停駛時(shí)間限制,更有利于集中管理電池充放電以避免大規(guī)模EV 隨機(jī)充電對(duì)電網(wǎng)運(yùn)行造成的不利影響[2]。將電池視為電網(wǎng)的分布式微儲(chǔ)能單元對(duì)其充放電進(jìn)行有序調(diào)控,可以實(shí)現(xiàn)削峰填谷[3]、促進(jìn)新能源消納[4]、進(jìn)行電壓和頻率調(diào)節(jié)[5]等功能,實(shí)現(xiàn)EV 與電網(wǎng)的雙向友好互動(dòng)[6]。同時(shí),相比于電池充電站,在相同的服務(wù)容量下電池?fù)Q電站能為EV 運(yùn)營商提供更多的經(jīng)濟(jì)收益[7]。故研究在換電站并入電網(wǎng)的情況下站內(nèi)電池的充放電優(yōu)化調(diào)度已成為智能電網(wǎng)發(fā)展的必然趨勢。
已有文獻(xiàn)從不同的角度對(duì)上述問題進(jìn)行了研究,大多先預(yù)測EV 在未來時(shí)刻的換電需求,然后基于預(yù)測結(jié)果進(jìn)行調(diào)度決策。文獻(xiàn)[8-9]提出了充/換電站的日前調(diào)度優(yōu)化模型,對(duì)次日整天的充放電計(jì)劃進(jìn)行優(yōu)化。但日前調(diào)度只能對(duì)次日計(jì)劃進(jìn)行粗略預(yù)測,無法考慮EV通勤行為、交通狀態(tài)、能源消耗帶來的不確定性。而且這種提前預(yù)測十分依賴于對(duì)具體應(yīng)用場景內(nèi)換電需求的物理過程建模,無法簡單推廣至更多的場景,泛化能力較弱。還有一部分研究將1 d劃分為多個(gè)時(shí)段,并在每個(gè)時(shí)段內(nèi)進(jìn)行獨(dú)立決策,以實(shí)現(xiàn)實(shí)時(shí)調(diào)度。文獻(xiàn)[10-11]首先進(jìn)行日前預(yù)測,然后在日內(nèi)每個(gè)時(shí)段求解換電站的最優(yōu)決策;文獻(xiàn)[12-13]建立了換電站和電網(wǎng)的雙層調(diào)度模型,先預(yù)測每個(gè)時(shí)段的換電需求,然后對(duì)上、下層問題分別進(jìn)行迭代求解,得到換電站與電網(wǎng)的最優(yōu)決策。但是求解每個(gè)時(shí)段的優(yōu)化問題需要進(jìn)行大量的迭代計(jì)算,算力消耗大且成本高,難以支撐大規(guī)模充放電策略的在線計(jì)算。上述研究均先進(jìn)行換電需求預(yù)測,并將預(yù)測值視為真實(shí)值進(jìn)行調(diào)度,這不但需要建立額外的預(yù)測模塊,而且該預(yù)測模塊也會(huì)帶來誤差累積,使得算法無法適應(yīng)真實(shí)的換電需求。此外,上述實(shí)時(shí)調(diào)度都是通過分時(shí)段獨(dú)立計(jì)算來實(shí)現(xiàn)“偽”實(shí)時(shí)決策,相鄰時(shí)段的決策之間沒有關(guān)聯(lián),這可能會(huì)導(dǎo)致決策振蕩問題。
為了解決以上問題,本文提出了基于帶基線的蒙特卡羅策略梯度法的換電站實(shí)時(shí)調(diào)度策略優(yōu)化方法。策略梯度法[14]屬于無模型(model-free)的強(qiáng)化學(xué)習(xí)算法,無模型主要體現(xiàn)在:算法不依賴于對(duì)環(huán)境的準(zhǔn)確建模,不需要對(duì)換電需求和EV用戶行為進(jìn)行預(yù)測,也不需要人為提供啟發(fā)式的決策規(guī)則。因此,決策的制定不依賴于任何對(duì)未發(fā)生事件的假設(shè)。決策器通過與環(huán)境的交互來學(xué)習(xí)調(diào)度策略以尋求回報(bào)最大化。在進(jìn)行訓(xùn)練時(shí),采用蒙特卡羅采樣對(duì)當(dāng)前狀態(tài)-動(dòng)作之后時(shí)段的回報(bào)均值進(jìn)行無偏估計(jì),然后使用該估計(jì)值指導(dǎo)決策器的更新。相比于基于預(yù)測的方法只考慮預(yù)測值的情況,策略梯度法實(shí)際上考慮了當(dāng)前狀態(tài)-動(dòng)作之后所有可能出現(xiàn)的情形,使得算法具有較強(qiáng)的對(duì)換電需求不確定性的適應(yīng)能力。同時(shí)強(qiáng)化學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)理論是馬爾可夫決策過程(MDP),使得相鄰時(shí)段的決策是相互關(guān)聯(lián)的,這在理論上能夠緩解決策振蕩問題。
本文所提換電站實(shí)時(shí)調(diào)度策略包含充放電策略和參與調(diào)度電池?cái)?shù)量兩部分。首先,給出策略梯度強(qiáng)化學(xué)習(xí)的框架,然后確定換電站實(shí)時(shí)調(diào)度問題的狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù)、決策器,構(gòu)建基于蒙特卡羅策略梯度法的換電站實(shí)時(shí)調(diào)度模型。該模型以各時(shí)段換電站的充放電狀態(tài)、參與調(diào)度電池?cái)?shù)量為控制變量,綜合考慮電池?cái)?shù)量、電量等約束條件對(duì)實(shí)時(shí)調(diào)度最優(yōu)策略進(jìn)行求解。此外,本文還討論了不同充電功率對(duì)調(diào)度策略的影響及電池選擇方式對(duì)換電站服務(wù)可用率、經(jīng)濟(jì)效益和電網(wǎng)基礎(chǔ)負(fù)荷的影響。
換電站的結(jié)構(gòu)示意圖如圖1 所示,其主要由充放電機(jī)、配電變壓器、動(dòng)力電池組及其存放倉、更換裝置等部分構(gòu)成。
圖1 換電站的結(jié)構(gòu)示意圖Fig.1 Structure diagram of battery swapping station
圖1 描述了換電站的工作模式:到站EV 在動(dòng)力電池更換裝置上完成電池更換,卸載的電池被存入動(dòng)力電池存放倉等待調(diào)度指令。調(diào)度指令分為充放電指令、電池?cái)?shù)量指令兩部分,其中充放電指令決定充放電機(jī)的充放電狀態(tài),電池?cái)?shù)量指令決定新放入插槽的電池?cái)?shù)量。接收到調(diào)度指令后,被選中的電池接入充放電機(jī)。當(dāng)電池充滿電或放電至允許下限或充放電指令改變時(shí),將電池從充放電機(jī)上卸下,并重新存入動(dòng)力電池存放倉等待下一次調(diào)度指令。
作為電網(wǎng)與EV用戶的中間環(huán)節(jié),換電站的利潤來自對(duì)EV用戶換電所得換電收益、對(duì)電網(wǎng)饋電所得饋電收益與電網(wǎng)購電成本之間的差額。在保證換電服務(wù)可用率的情況下,換電站通過響應(yīng)分時(shí)電價(jià)對(duì)站內(nèi)電池進(jìn)行統(tǒng)一充放電調(diào)度,能減少電網(wǎng)購電成本,增大對(duì)電網(wǎng)饋電所得收益,從而獲得更大的利潤空間。因此,換電站的實(shí)時(shí)調(diào)度策略應(yīng)著眼于安排合理的充放電時(shí)間以及接入電網(wǎng)的電池?cái)?shù)量。
強(qiáng)化學(xué)習(xí)是一類求解序列決策問題的有效算法,其基本框架見附錄A 圖A1。強(qiáng)化學(xué)習(xí)框架的主要角色為智能體和環(huán)境。時(shí)段i環(huán)境所處的狀態(tài)為si,智能體在某策略下根據(jù)該狀態(tài)執(zhí)行動(dòng)作ai,該動(dòng)作會(huì)影響環(huán)境的狀態(tài),使得環(huán)境在下一個(gè)時(shí)段轉(zhuǎn)移到狀態(tài)si+1。同時(shí),智能體會(huì)獲得環(huán)境的反饋,又被稱為獎(jiǎng)勵(lì)ri+1。該獎(jiǎng)勵(lì)在一定程度上衡量了在狀態(tài)si下執(zhí)行動(dòng)作ai的優(yōu)劣。若智能體的某個(gè)策略獲得了環(huán)境的正向獎(jiǎng)勵(lì),則之后智能體產(chǎn)生該策略的趨勢會(huì)加強(qiáng)。基于此,在與環(huán)境不斷交互的過程中,智能體以“試錯(cuò)”的方式進(jìn)行學(xué)習(xí),根據(jù)獎(jiǎng)勵(lì)調(diào)整策略使整個(gè)過程的累計(jì)獎(jiǎng)勵(lì)達(dá)到最大。
為了解決傳統(tǒng)換電站調(diào)度策略優(yōu)化方法對(duì)預(yù)先給定數(shù)據(jù)、換電需求預(yù)測值依賴性高的問題,本文采用策略梯度強(qiáng)化學(xué)習(xí)對(duì)換電站實(shí)時(shí)調(diào)度策略進(jìn)行優(yōu)化。將連續(xù)時(shí)間以時(shí)間間隔Δt進(jìn)行離散化,智能體在每個(gè)時(shí)段根據(jù)當(dāng)前狀態(tài)進(jìn)行1 次決策。智能體在環(huán)境上運(yùn)行I個(gè)時(shí)段后得到1 條經(jīng)驗(yàn)軌跡τ,其具體構(gòu)成為s0,a0,r0,s1,a1,r1,…,sI-1,aI-1,rI-1,sI。
式中:“?”表示等號(hào)右側(cè)為左側(cè)的無偏估計(jì);N為從pθ(τ)中采樣的軌跡數(shù)量;τj為采樣的第j條軌跡;Gi(τj)為軌跡τj中時(shí)段i的回報(bào);Vπθ(si)為動(dòng)作策略πθ下狀態(tài)si的價(jià)值。
引入基線雖然不改變策略梯度的期望,但降低了梯度的方差,使算法更加穩(wěn)定。所以,可采用梯度上升[15]的方法優(yōu)化J(θ)。算法的偽代碼見附錄C。
在強(qiáng)化學(xué)習(xí)中,狀態(tài)代表了智能體所能感知到的環(huán)境信息。狀態(tài)通常由1 個(gè)高維向量表示,其每一個(gè)元素表示環(huán)境的一個(gè)可觀測特征,狀態(tài)向量全體組成狀態(tài)空間。狀態(tài)空間的選取標(biāo)準(zhǔn)是盡可能選擇與智能體決策相關(guān)的最小環(huán)境特征子集?;谠摌?biāo)準(zhǔn),智能體在決策時(shí)既有充分的依據(jù),又避免了冗余特征帶來的過擬合和額外計(jì)算開銷問題。
本文所提換電站的實(shí)時(shí)調(diào)度策略包含充放電狀態(tài)和參與調(diào)度的電池?cái)?shù)量這2 個(gè)動(dòng)作指令。充放電狀態(tài)用一個(gè)二進(jìn)制變量δ表示,δ=1時(shí)表示充放電機(jī)撥入充電檔位,δ=0時(shí)表示充放電機(jī)撥入放電檔位。由于換電站的電池庫存眾多,將具體插入的電池?cái)?shù)量作為動(dòng)作之一會(huì)使動(dòng)作空間過大,導(dǎo)致模型難以訓(xùn)練。為了減小動(dòng)作空間,本文將u塊電池作為1個(gè)動(dòng)作整體,即在Δt時(shí)間內(nèi)接入充放電機(jī)的電池?cái)?shù)量只能為0或u。這樣,參與調(diào)度的電池?cái)?shù)量可用一個(gè)二進(jìn)制變量μ表示,當(dāng)μ=1 時(shí)表示充放電機(jī)新接入u塊電池,當(dāng)μ=0時(shí)表示充放電機(jī)無新接入的電池。因此,一個(gè)完整的動(dòng)作可表示為2維向量a=[δ,μ]。
智能體的目標(biāo)是最大化累計(jì)獎(jiǎng)勵(lì)總和,通過人為設(shè)計(jì)合適的獎(jiǎng)勵(lì)函數(shù)可以引導(dǎo)智能體給出合理的換電站調(diào)度策略。
式中:β1、β2、β3為權(quán)重值,均屬于超參數(shù),可通過網(wǎng)格搜索(grid search)確定其具體取值。
本文以Δt為時(shí)間間隔對(duì)連續(xù)的時(shí)間進(jìn)行離散化,換電站在每個(gè)時(shí)段根據(jù)當(dāng)前狀態(tài)進(jìn)行1 次決策。換電站的決策是隨機(jī)的,由條件概率πθ(a|s)描述。
為了學(xué)習(xí)動(dòng)作和狀態(tài)之間的復(fù)雜依賴關(guān)系,本文調(diào)度策略的決策器πθ(a|s)采用神經(jīng)網(wǎng)絡(luò)的形式,被稱為策略網(wǎng)絡(luò)。本文假設(shè)充放電狀態(tài)指令δ和參與調(diào)度的電池?cái)?shù)量指令μ在給定狀態(tài)s的情況下條件獨(dú)立,即滿足式(4)。
式中:πθδ(δ|s)、πθμ(μ|s)分別為狀態(tài)s下選擇充放電狀態(tài)指令δ、參與調(diào)度的電池?cái)?shù)量為μu的概率,這2個(gè)概率均使用帶2個(gè)隱層的神經(jīng)網(wǎng)絡(luò)進(jìn)行建模,并且在2 個(gè)隱層進(jìn)行參數(shù)共享。在輸出概率時(shí),采用Sigmoid 函數(shù)對(duì)概率值進(jìn)行歸一化處理。決策器的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖2所示。
圖2 決策器的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.2 Neural network structure diagram of decision maker
策略網(wǎng)絡(luò)的目標(biāo)是在保證服務(wù)可用率的同時(shí),盡可能最大化對(duì)電網(wǎng)饋電所得收益和對(duì)EV 用戶換電所得收益。該優(yōu)化目標(biāo)即為策略梯度強(qiáng)化學(xué)習(xí)的目標(biāo),因此策略網(wǎng)絡(luò)的最優(yōu)參數(shù)可由式(5)所示優(yōu)化問題給出。
本節(jié)首先描述狀態(tài)與環(huán)境交互之后進(jìn)行狀態(tài)轉(zhuǎn)移的數(shù)學(xué)規(guī)則,然后根據(jù)換電站的收益明確獎(jiǎng)勵(lì)函數(shù)的具體計(jì)算過程。
圖3 電池狀態(tài)轉(zhuǎn)移關(guān)系示意圖Fig.3 Schematic diagram of battery state transition
電池的荷電狀態(tài)SOC(State Of Charge)是指電池在一定的放電倍率下,剩余電量與相同條件下額定容量的比值。本文將電池的恒流-恒壓兩階段充放電過程簡化為恒功率過程,SOC的計(jì)算公式為:
式中:Qi為時(shí)段i電池的SOC;Pc、Pd分別為充、放電功率;ηc、ηd分別為充、放電效率;C為電池額定容量。
為了避免過充過放對(duì)電池造成的損害,需要對(duì)電池的充放電限度進(jìn)行約束。限制接入充放電機(jī)電池的SOC 上、下限分別為95%、20%,即:若電池的SOC達(dá)到95%,則視為滿電電池;若電池的SOC低于20%,則不再參與放電。滿電電池和不再參與放電的電池均從充放電機(jī)上拔出并存入動(dòng)力電池存放倉。
換電站收益包括對(duì)EV 用戶換電所得收益和對(duì)電網(wǎng)饋電所得收益。
對(duì)EV用戶的排隊(duì)意愿進(jìn)行如下假設(shè):當(dāng)動(dòng)力電池存放倉內(nèi)有可用電池但動(dòng)力電池更換裝置無空閑時(shí),EV 用戶愿意排隊(duì)等待;當(dāng)動(dòng)力電池存放倉內(nèi)無可用電池時(shí),EV 用戶拒絕排隊(duì)等待電池充滿電即直接離開,被視為未成功換電[16]。在這種排隊(duì)意愿下,排隊(duì)等待換電的EV數(shù)量滿足式(7)。定義日服務(wù)可用率ξ為1 d 內(nèi)成功換電的EV 數(shù)量vs與到站EV 總數(shù)量vc之比,如式(11)所示。
式中:ε1、ε2分別為換電成功獎(jiǎng)勵(lì)系數(shù)、換電失敗懲罰系數(shù),均為正數(shù)。設(shè)置該懲罰項(xiàng)的目的在于:懲罰換電站一直向電網(wǎng)饋電,鼓勵(lì)其盡可能多地滿足EV 用戶的換電需求,以提高換電站的日服務(wù)可用率。ε1和ε2均為超參數(shù),可通過網(wǎng)格搜索確定其具體取值。
為了驗(yàn)證本文所提調(diào)度策略的有效性,設(shè)計(jì)了以下2 組實(shí)驗(yàn)進(jìn)行仿真分析:①可視化動(dòng)作策略,以驗(yàn)證基于帶基線的蒙特卡羅策略梯度法的實(shí)時(shí)調(diào)度策略能否通過合理安排充放電時(shí)間和接入電池?cái)?shù)量來增加獲利空間,進(jìn)一步討論不同充電功率對(duì)調(diào)度策略的影響;②給出2 種電池選擇方式,討論不同的電池選擇方式對(duì)換電站經(jīng)濟(jì)收益、服務(wù)可用率、電網(wǎng)基礎(chǔ)負(fù)荷的影響。
3.1.1 算例參數(shù)設(shè)置
本文選取小型換電站作為算例,并進(jìn)行了如下假設(shè):①EV 使用同一型號(hào)的電池,且電池的充放電功率恒定;②EV 換電過程所需的時(shí)長服從正態(tài)分布N(10,2);③到站換電的EV 電池的剩余SOC 服從(20%,30%)范圍內(nèi)的均勻分布;④每個(gè)時(shí)段內(nèi)到達(dá)換電站的EV 數(shù)量是一個(gè)服從泊松分布P(λ)的隨機(jī)變量。算例從柏松分布中進(jìn)行采樣是對(duì)真實(shí)EV 到達(dá)換電站的場景進(jìn)行仿真,可使用真實(shí)數(shù)據(jù)對(duì)本文所提方法進(jìn)行訓(xùn)練。
換電站的相關(guān)參數(shù)以及到站EV 數(shù)量泊松分布的λ取值分別見附錄D 表D1 和表D2。購電電價(jià)參考國網(wǎng)北京市電力公司的峰谷分時(shí)電價(jià)[17],假設(shè)峰時(shí)段和平時(shí)段的上網(wǎng)電價(jià)為購電電價(jià)的80%,由于不鼓勵(lì)在谷時(shí)段向電網(wǎng)饋電,谷時(shí)段的上網(wǎng)電價(jià)設(shè)為0。分時(shí)電價(jià)數(shù)據(jù)見附錄D表D3。
3.1.2 電池的選擇方式
當(dāng)換電站接收到動(dòng)作指令μ選擇u塊電池接入充放電機(jī)時(shí),面臨具體電池的選擇問題。由2.2節(jié)可知,在同一充放電功率下,電池的SOC 不同,其充電耗時(shí)和放電空間也不同。選擇不同的電池響應(yīng)動(dòng)作指令μ可能會(huì)對(duì)后續(xù)的調(diào)度指令、換電站的經(jīng)濟(jì)效益產(chǎn)生影響,故設(shè)定以下2 種電池選擇方式進(jìn)行探討。
1)“高先充低先放”方式。
“高先充低先放”方式是換電站的常用電池選擇方式,即為了盡可能在相同時(shí)間內(nèi)獲得更多的滿電可用電池,優(yōu)先選擇電量高的電池充電;同時(shí),為了盡量維持高電量電池的數(shù)量,優(yōu)先選擇電量低的電池放電。直觀來看,這種選擇方式能夠最大限度地滿足EV 用戶的換電需求[18]。具體而言,在充電模式下,即當(dāng)δ=1 時(shí),選擇不可用電池中SOC 最大的u塊電池進(jìn)行充電;在放電模式下,即當(dāng)δ=0 時(shí),選擇不可用電池中SOC最小的u塊電池進(jìn)行放電。
2)隨機(jī)選擇方式。
隨機(jī)選擇方式是指換電站接收到動(dòng)作指令μ后在動(dòng)力電池存放倉內(nèi)隨機(jī)選擇電池以響應(yīng)指令。
3.1.3 訓(xùn)練過程
本文設(shè)置決策時(shí)間間隔Δt=2 min,即將1 d分為720 個(gè)時(shí)段。對(duì)于策略網(wǎng)絡(luò)πθ(a|s)而言,其輸入維度為狀態(tài)空間的維度6,輸出維度為動(dòng)作空間的維度2。采用帶2 個(gè)隱層的全連接神經(jīng)網(wǎng)絡(luò)對(duì)策略網(wǎng)絡(luò)進(jìn)行建模,2 個(gè)隱層的維度分別為12、10,激活函數(shù)為ReLU 函數(shù)。對(duì)策略網(wǎng)絡(luò)進(jìn)行更新時(shí)采用隨機(jī)梯度下降SGD(Stochastic Gradient Descent)算法,學(xué)習(xí)率設(shè)為10-3。設(shè)置折扣因子γ=0.6,采樣軌跡長度為1 000。服務(wù)可用率懲罰項(xiàng)中換電成功獎(jiǎng)勵(lì)系數(shù)ε1=30,換電失敗懲罰系數(shù)ε2=50。
選取最大迭代輪數(shù)為1000進(jìn)行訓(xùn)練,軌跡的平均獎(jiǎng)勵(lì)變化曲線如圖4 所示。為了更好地呈現(xiàn)平均獎(jiǎng)勵(lì)的變化趨勢,利用基于移動(dòng)窗口的加權(quán)平均算法對(duì)平均獎(jiǎng)勵(lì)進(jìn)行平滑除噪,在長度為60 的滑動(dòng)窗口內(nèi)對(duì)3 階多項(xiàng)式進(jìn)行最小二乘擬合得到滑動(dòng)平均獎(jiǎng)勵(lì)。由圖可以看出:平均獎(jiǎng)勵(lì)存在一定的局部振蕩,這是因?yàn)椴捎妹商乜_采樣估計(jì)策略網(wǎng)絡(luò)的梯度帶來了誤差;平均獎(jiǎng)勵(lì)隨著迭代輪數(shù)的增大呈現(xiàn)較穩(wěn)定的上升趨勢,并逐漸收斂穩(wěn)定。
圖4 平均獎(jiǎng)勵(lì)的變化曲線Fig.4 Change curves of average reward
在3.1節(jié)實(shí)驗(yàn)設(shè)置的基礎(chǔ)上改變充電功率,對(duì)比分析充電功率為6.6 kW和15 kW時(shí)的調(diào)度結(jié)果。對(duì)不同充電功率的策略網(wǎng)絡(luò)進(jìn)行訓(xùn)練和測試的過程中,電池均采取“高先充低先放”選擇方式。
3.2.1 充電功率為6.6 kW時(shí)的調(diào)度結(jié)果可視化
當(dāng)充電功率為6.6 kW 時(shí),測試日4 種狀態(tài)的電池?cái)?shù)量如圖5所示。
圖5 充電功率為6.6 kW時(shí)4種狀態(tài)的電池?cái)?shù)量Fig.5 Number of batteries in four states when charging power is 6.6 kW
結(jié)合圖5、附錄D 表D2 和表D3,可得到如下結(jié)論。
1)谷時(shí)段(00:00—07:00、23:00—24:00)的在充電池?cái)?shù)量基本保持在25~30 塊,這是因?yàn)楣葧r(shí)段的購電電價(jià)低且上網(wǎng)電價(jià)也較低,換電站通過學(xué)習(xí)得到“錯(cuò)峰充電”策略以降低充電費(fèi)用,同時(shí)也為當(dāng)天的換電需求增加可用電池儲(chǔ)備,避免在未來時(shí)段由于沒有足夠的可用電池導(dǎo)致有換電需求的EV 離開而帶來的懲罰費(fèi)用。在該策略下,00:00—07:00 時(shí)段內(nèi)可用電池?cái)?shù)量持續(xù)快速上升,從15 塊增加到195 塊;23:00—24:00 時(shí)段內(nèi)可用電池?cái)?shù)量從8 塊增加到15塊。
2)峰時(shí)段(10:00—15:00、18:00—21:00)的在放電池?cái)?shù)量基本保持在25~30 塊,這是因?yàn)榉鍟r(shí)段的上網(wǎng)電價(jià)高,且換電站內(nèi)有足夠的可用電池儲(chǔ)備支撐換電需求,換電站為了擴(kuò)大利潤空間,在峰時(shí)段選擇集中放電以增加對(duì)電網(wǎng)的饋電收益。對(duì)比表D2可見,12:00—14:00、18:00—19:00 存在2 個(gè)換電需求高峰,因此10:00—15:00 時(shí)段內(nèi)可用電池?cái)?shù)量由225 塊迅速減少到90 塊,18:00—21:00 時(shí)段內(nèi)可用電池?cái)?shù)量由43塊減少到5塊。
3)平時(shí)段為07:00—10:00、15:00—18:00 以及21:00—23:00。07:00—10:00 時(shí)段內(nèi)可用電池?cái)?shù)量增幅減緩,這是因?yàn)槠綍r(shí)段的購電電價(jià)較谷時(shí)段更高,且該時(shí)段的可用電池儲(chǔ)備較充足,換電站雖仍選擇充電但充電力度減弱。07:00—10:00時(shí)段內(nèi)可用電池?cái)?shù)量由195塊增加到225塊,占站內(nèi)電池總數(shù)量的90%。為了滿足15:00—18:00、21:00—23:00 時(shí)段內(nèi)的換電需求,站內(nèi)的充放電機(jī)接近滿載。對(duì)比表D2 可知,15:00—18:00 時(shí)段的換電需求較大,可用電池?cái)?shù)量由90塊減少到43塊;21:00—23:00時(shí)段內(nèi)換電需求相對(duì)較少,持續(xù)為電池充電導(dǎo)致可用電池?cái)?shù)量少量增加。
綜上可知,在不同的時(shí)段采用本文所提方法可為換電站做出合理的決策。由圖5 可見:充電站內(nèi)全天均有可用電池庫存,表明本文所提調(diào)度策略能夠滿足換電需求;該測試日結(jié)束時(shí)所??捎秒姵?cái)?shù)量與00:00時(shí)刻的初始可用電池?cái)?shù)量基本持平,可以認(rèn)為學(xué)習(xí)所得策略網(wǎng)絡(luò)具有可持續(xù)運(yùn)用的能力。
3.2.2 充電功率為15 kW時(shí)的調(diào)度結(jié)果可視化
當(dāng)充電功率為15 kW 時(shí),測試日4 種狀態(tài)的電池?cái)?shù)量如圖6所示。
圖6 充電功率為15 kW時(shí)4種狀態(tài)的電池?cái)?shù)量Fig.6 Number of batteries in four states when charging power is 15 kW
分析圖6可得如下結(jié)論。
1)在谷時(shí)段00:00—07:00 內(nèi),可用電池?cái)?shù)量由10 塊增加到250 塊,即換電站能在該時(shí)段內(nèi)完成站內(nèi)所有庫存電池的充電過程。
2)在平時(shí)段07:00—10:00 內(nèi),換電站選擇滿載放電,這是因?yàn)槠綍r(shí)段的上網(wǎng)電價(jià)與谷時(shí)段的購電電價(jià)之間存在電價(jià)差,此時(shí)換電站能通過放電獲得利潤;而圖5 中由于電池只能慢速充電,07:00 時(shí)刻只有195 塊可用電池,因此換電站仍選擇充電來增加可用電池庫存。
3)在時(shí)段10:00—24:00 內(nèi),圖6 中的調(diào)度策略與圖5 總體一致,均能保證站內(nèi)全天都有可用電池庫存,保障能夠滿足換電需求。
對(duì)比圖5 和圖6 可知,2 種不同充電功率下的調(diào)度策略整體類似,但較大的充電功率可以縮短電池的充電時(shí)間,能在同樣滿足換電需求的基礎(chǔ)上,有更大的“低充高放”利潤空間??梢姡潆姽β实拇笮?huì)間接影響換電站的調(diào)度策略,而本文所提換電站實(shí)時(shí)調(diào)度策略具有一定的通用性。
在充電功率為6.6 kW 的策略網(wǎng)絡(luò)下,分析電池的“高先充低先放”和隨機(jī)選擇方式對(duì)日服務(wù)可用率、換電站收益以及電網(wǎng)基礎(chǔ)負(fù)荷的影響。
1)對(duì)日服務(wù)可用率的影響。
在訓(xùn)練好的模型參數(shù)下分別使用2 種電池選擇方式對(duì)策略網(wǎng)絡(luò)重復(fù)測試1000次,得到的日服務(wù)可用率分布直方圖見附錄D 圖D1。由圖可見:在“高先充低先放”選擇方式下,該策略網(wǎng)絡(luò)的日服務(wù)可用率大多能達(dá)到90%以上,其中一半以上的測試能完全滿足換電需求,可認(rèn)為在該策略網(wǎng)絡(luò)下電池采取“高先充低先放”選擇方式能保障換電站的正常運(yùn)行;而在隨機(jī)選擇方式下,該策略網(wǎng)絡(luò)的日服務(wù)可用率主要分布在(60%,90%)范圍內(nèi),為了使電池隨機(jī)選擇方式也能滿足換電需求,需增加換電站的電池儲(chǔ)備數(shù)量和充放電機(jī)數(shù)量,這樣就增加了硬件成本。
2)對(duì)換電站收益的影響。
在同一策略網(wǎng)絡(luò)下,采用2 種電池選擇方式分別測試1 000 次后,可得換電站日收益結(jié)果見附錄D表D4,日收益分布直方圖見附錄D 圖D2。由表D4可見,“高先充低先放”選擇方式下?lián)Q電站的平均日收益更高。由圖D2可見,“高先充低先放”選擇方式下的換電站日收益總體比隨機(jī)選擇方式下的日收益更高。這是因?yàn)椤案呦瘸涞拖确拧边x擇方式能滿足更多的換電需求,提高了從EV用戶處獲得的收益。
3)對(duì)電網(wǎng)基礎(chǔ)負(fù)荷的影響。
為了驗(yàn)證本文所提調(diào)度策略對(duì)電網(wǎng)負(fù)荷削峰填谷的作用,基于文獻(xiàn)[19]中給出的電網(wǎng)基礎(chǔ)負(fù)荷,得到2 種電池選擇方式下計(jì)及換電站負(fù)荷前、后的電網(wǎng)總負(fù)荷,如圖7 所示。由圖可知,在2 種電池選擇方式下,電網(wǎng)基礎(chǔ)負(fù)荷疊加換電站負(fù)荷后,01:00 時(shí)刻的負(fù)荷谷值有明顯的增大,12:00時(shí)刻的負(fù)荷峰值有明顯的減小,21:00 時(shí)刻的第2 個(gè)負(fù)荷峰值有少許減小并稍微后移??傮w而言,2 種電池選擇方式在換電站基于價(jià)格的需求響應(yīng)模式下均能減小全天的負(fù)荷峰谷差,其中“高先充低先放”選擇方式的削峰填谷效果略優(yōu)于隨機(jī)選擇方式,但總體差別并不明顯??梢姡疚乃峥紤]換電站需求響應(yīng)模式的實(shí)時(shí)調(diào)度策略利用站內(nèi)電池的儲(chǔ)能特性能夠?qū)﹄娋W(wǎng)負(fù)荷起到一定的削峰填谷作用。
圖7 計(jì)及換電站負(fù)荷前、后的電網(wǎng)總負(fù)荷曲線Fig.7 Total power grid load curves with and without battery swapping station load
上述結(jié)果表明,本文所提換電站實(shí)時(shí)調(diào)度策略在“高先充低先放”電池選擇方式下能夠滿足換電需求,獲得較大的經(jīng)濟(jì)收益,且具有削峰填谷的作用。
本文算例均在Intel(R) Core(TM) i5-9300H CPU@2.40 GHz 的計(jì)算機(jī)上基于Python 3.8 和Py-Torch 1.5.1編程實(shí)現(xiàn)。在此基礎(chǔ)上,1次訓(xùn)練過程耗時(shí)約為26 min,策略網(wǎng)絡(luò)的1 次前向傳播僅需5 ms左右。本文所提帶基線的蒙特卡羅策略梯度法的計(jì)算復(fù)雜度與狀態(tài)空間、動(dòng)作空間、神經(jīng)網(wǎng)絡(luò)大小有關(guān)。但相較于計(jì)算復(fù)雜度隨EV 數(shù)量指數(shù)增長的傳統(tǒng)方法而言,本文方法在求解換電站實(shí)時(shí)調(diào)度問題上仍有明顯的優(yōu)勢,降低了對(duì)算力的要求,在實(shí)際部署時(shí)也可以減少硬件設(shè)備成本。
本文提出了基于強(qiáng)化學(xué)習(xí)的換電站實(shí)時(shí)調(diào)度策略優(yōu)化方法,所得主要結(jié)論如下。
1)提出了帶基線的蒙特卡羅策略梯度法進(jìn)行EV 換電站實(shí)時(shí)調(diào)度,測試結(jié)果表明所提策略可在保證換電站服務(wù)可用率的情況下獲得更多的放電收益,也可在長時(shí)間尺度下持續(xù)應(yīng)用。同時(shí),訓(xùn)練得到的換電站調(diào)度策略能在不同時(shí)段做出合理的決策。
2)探討了6.6 kW 和15 kW 這2 種充電功率下訓(xùn)練得到的換電站調(diào)度策略,發(fā)現(xiàn)這2 種充電功率下的調(diào)度策略相似,但較大的充電功率能夠增大換電站“低充高放”的利潤空間,可認(rèn)為本文所提方法具有一定的通用性。
3)探究了“高先充低先放”和隨機(jī)選擇2 種電池選擇方式對(duì)換電站服務(wù)可用率、經(jīng)濟(jì)效益、電網(wǎng)基礎(chǔ)負(fù)荷的影響,發(fā)現(xiàn)“高先充低先放”選擇方式能夠在滿足更大服務(wù)可用率的同時(shí),獲得更大的經(jīng)濟(jì)效益,同時(shí)對(duì)電網(wǎng)負(fù)荷進(jìn)行削峰填谷的效果更好。但關(guān)于電池的最優(yōu)選擇方式還有待進(jìn)一步研究。
4)本文所提模型在換電站實(shí)時(shí)調(diào)度問題上具有通用性,可通過簡單修改進(jìn)行問題遷移。例如:通過在獎(jiǎng)勵(lì)函數(shù)中增加可再生能源消納率的獎(jiǎng)懲項(xiàng),使其向換電站與可再生能源協(xié)同消納問題遷移;將動(dòng)作空間中的二進(jìn)制充放電狀態(tài)變量修改為多值功率檔位變量,使其向多檔功率充放電問題進(jìn)移等。
附錄見本刊網(wǎng)絡(luò)版(http://www.epae.cn)。