基于強(qiáng)化學(xué)習(xí)的電動(dòng)汽車換電站實(shí)時(shí)調(diào)度策略優(yōu)化

2022-10-15 08:42張文昕臧向迪嚴(yán)敬汝祝晉堯

電力自動(dòng)化設(shè)備 2022年10期

張文昕，栗然，臧向迪，嚴(yán)敬汝，祝晉堯

（1. 華北電力大學(xué) 電氣與電子工程學(xué)院，河北保定 071003；2. 國網(wǎng)河北省電力有限公司電力科學(xué)研究院，河北石家莊 050022；3. 國網(wǎng)石家莊供電公司，河北石家莊 050004）

0 引言

電動(dòng)汽車（EV）憑借其低碳環(huán)保、靈活可控的特點(diǎn)被普遍認(rèn)為是提高汽車產(chǎn)業(yè)競爭力、轉(zhuǎn)型低碳經(jīng)濟(jì)、保障能源安全的重要途徑［1］。隨著EV 規(guī)模化應(yīng)用，大量EV 集中在電網(wǎng)負(fù)荷高峰時(shí)段接入電網(wǎng)充電，將進(jìn)一步增大負(fù)荷峰值，帶來系統(tǒng)容量不足、影響電能質(zhì)量等一系列問題。目前，EV 的電能補(bǔ)充模式主要包括整車慢充、整車快充、電池更換3 種。其中，電池更換模式下EV與電池的可分離特性能使電池充電脫離EV的停駛時(shí)間限制，更有利于集中管理電池充放電以避免大規(guī)模EV 隨機(jī)充電對(duì)電網(wǎng)運(yùn)行造成的不利影響［2］。將電池視為電網(wǎng)的分布式微儲(chǔ)能單元對(duì)其充放電進(jìn)行有序調(diào)控，可以實(shí)現(xiàn)削峰填谷［3］、促進(jìn)新能源消納［4］、進(jìn)行電壓和頻率調(diào)節(jié)［5］等功能，實(shí)現(xiàn)EV 與電網(wǎng)的雙向友好互動(dòng)［6］。同時(shí)，相比于電池充電站，在相同的服務(wù)容量下電池?fù)Q電站能為EV 運(yùn)營商提供更多的經(jīng)濟(jì)收益［7］。故研究在換電站并入電網(wǎng)的情況下站內(nèi)電池的充放電優(yōu)化調(diào)度已成為智能電網(wǎng)發(fā)展的必然趨勢。

已有文獻(xiàn)從不同的角度對(duì)上述問題進(jìn)行了研究，大多先預(yù)測EV 在未來時(shí)刻的換電需求，然后基于預(yù)測結(jié)果進(jìn)行調(diào)度決策。文獻(xiàn)［8-9］提出了充／換電站的日前調(diào)度優(yōu)化模型，對(duì)次日整天的充放電計(jì)劃進(jìn)行優(yōu)化。但日前調(diào)度只能對(duì)次日計(jì)劃進(jìn)行粗略預(yù)測，無法考慮EV通勤行為、交通狀態(tài)、能源消耗帶來的不確定性。而且這種提前預(yù)測十分依賴于對(duì)具體應(yīng)用場景內(nèi)換電需求的物理過程建模，無法簡單推廣至更多的場景，泛化能力較弱。還有一部分研究將1 d劃分為多個(gè)時(shí)段，并在每個(gè)時(shí)段內(nèi)進(jìn)行獨(dú)立決策，以實(shí)現(xiàn)實(shí)時(shí)調(diào)度。文獻(xiàn)［10-11］首先進(jìn)行日前預(yù)測，然后在日內(nèi)每個(gè)時(shí)段求解換電站的最優(yōu)決策；文獻(xiàn)［12-13］建立了換電站和電網(wǎng)的雙層調(diào)度模型，先預(yù)測每個(gè)時(shí)段的換電需求，然后對(duì)上、下層問題分別進(jìn)行迭代求解，得到換電站與電網(wǎng)的最優(yōu)決策。但是求解每個(gè)時(shí)段的優(yōu)化問題需要進(jìn)行大量的迭代計(jì)算，算力消耗大且成本高，難以支撐大規(guī)模充放電策略的在線計(jì)算。上述研究均先進(jìn)行換電需求預(yù)測，并將預(yù)測值視為真實(shí)值進(jìn)行調(diào)度，這不但需要建立額外的預(yù)測模塊，而且該預(yù)測模塊也會(huì)帶來誤差累積，使得算法無法適應(yīng)真實(shí)的換電需求。此外，上述實(shí)時(shí)調(diào)度都是通過分時(shí)段獨(dú)立計(jì)算來實(shí)現(xiàn)“偽”實(shí)時(shí)決策，相鄰時(shí)段的決策之間沒有關(guān)聯(lián)，這可能會(huì)導(dǎo)致決策振蕩問題。

為了解決以上問題，本文提出了基于帶基線的蒙特卡羅策略梯度法的換電站實(shí)時(shí)調(diào)度策略優(yōu)化方法。策略梯度法［14］屬于無模型（model-free）的強(qiáng)化學(xué)習(xí)算法，無模型主要體現(xiàn)在：算法不依賴于對(duì)環(huán)境的準(zhǔn)確建模，不需要對(duì)換電需求和EV用戶行為進(jìn)行預(yù)測，也不需要人為提供啟發(fā)式的決策規(guī)則。因此，決策的制定不依賴于任何對(duì)未發(fā)生事件的假設(shè)。決策器通過與環(huán)境的交互來學(xué)習(xí)調(diào)度策略以尋求回報(bào)最大化。在進(jìn)行訓(xùn)練時(shí)，采用蒙特卡羅采樣對(duì)當(dāng)前狀態(tài)-動(dòng)作之后時(shí)段的回報(bào)均值進(jìn)行無偏估計(jì)，然后使用該估計(jì)值指導(dǎo)決策器的更新。相比于基于預(yù)測的方法只考慮預(yù)測值的情況，策略梯度法實(shí)際上考慮了當(dāng)前狀態(tài)-動(dòng)作之后所有可能出現(xiàn)的情形，使得算法具有較強(qiáng)的對(duì)換電需求不確定性的適應(yīng)能力。同時(shí)強(qiáng)化學(xué)習(xí)的數(shù)學(xué)基礎(chǔ)理論是馬爾可夫決策過程（MDP），使得相鄰時(shí)段的決策是相互關(guān)聯(lián)的，這在理論上能夠緩解決策振蕩問題。

本文所提換電站實(shí)時(shí)調(diào)度策略包含充放電策略和參與調(diào)度電池?cái)?shù)量兩部分。首先，給出策略梯度強(qiáng)化學(xué)習(xí)的框架，然后確定換電站實(shí)時(shí)調(diào)度問題的狀態(tài)空間、動(dòng)作空間、獎(jiǎng)勵(lì)函數(shù)、決策器，構(gòu)建基于蒙特卡羅策略梯度法的換電站實(shí)時(shí)調(diào)度模型。該模型以各時(shí)段換電站的充放電狀態(tài)、參與調(diào)度電池?cái)?shù)量為控制變量，綜合考慮電池?cái)?shù)量、電量等約束條件對(duì)實(shí)時(shí)調(diào)度最優(yōu)策略進(jìn)行求解。此外，本文還討論了不同充電功率對(duì)調(diào)度策略的影響及電池選擇方式對(duì)換電站服務(wù)可用率、經(jīng)濟(jì)效益和電網(wǎng)基礎(chǔ)負(fù)荷的影響。

1 問題構(gòu)建

換電站的結(jié)構(gòu)示意圖如圖1 所示，其主要由充放電機(jī)、配電變壓器、動(dòng)力電池組及其存放倉、更換裝置等部分構(gòu)成。

圖1 換電站的結(jié)構(gòu)示意圖Fig.1 Structure diagram of battery swapping station

圖1 描述了換電站的工作模式：到站EV 在動(dòng)力電池更換裝置上完成電池更換，卸載的電池被存入動(dòng)力電池存放倉等待調(diào)度指令。調(diào)度指令分為充放電指令、電池?cái)?shù)量指令兩部分，其中充放電指令決定充放電機(jī)的充放電狀態(tài)，電池?cái)?shù)量指令決定新放入插槽的電池?cái)?shù)量。接收到調(diào)度指令后，被選中的電池接入充放電機(jī)。當(dāng)電池充滿電或放電至允許下限或充放電指令改變時(shí)，將電池從充放電機(jī)上卸下，并重新存入動(dòng)力電池存放倉等待下一次調(diào)度指令。

作為電網(wǎng)與EV用戶的中間環(huán)節(jié)，換電站的利潤來自對(duì)EV用戶換電所得換電收益、對(duì)電網(wǎng)饋電所得饋電收益與電網(wǎng)購電成本之間的差額。在保證換電服務(wù)可用率的情況下，換電站通過響應(yīng)分時(shí)電價(jià)對(duì)站內(nèi)電池進(jìn)行統(tǒng)一充放電調(diào)度，能減少電網(wǎng)購電成本，增大對(duì)電網(wǎng)饋電所得收益，從而獲得更大的利潤空間。因此，換電站的實(shí)時(shí)調(diào)度策略應(yīng)著眼于安排合理的充放電時(shí)間以及接入電網(wǎng)的電池?cái)?shù)量。

1.1 強(qiáng)化學(xué)習(xí)概述

強(qiáng)化學(xué)習(xí)是一類求解序列決策問題的有效算法，其基本框架見附錄A 圖A1。強(qiáng)化學(xué)習(xí)框架的主要角色為智能體和環(huán)境。時(shí)段i環(huán)境所處的狀態(tài)為si，智能體在某策略下根據(jù)該狀態(tài)執(zhí)行動(dòng)作ai，該動(dòng)作會(huì)影響環(huán)境的狀態(tài)，使得環(huán)境在下一個(gè)時(shí)段轉(zhuǎn)移到狀態(tài)si+1。同時(shí)，智能體會(huì)獲得環(huán)境的反饋，又被稱為獎(jiǎng)勵(lì)ri+1。該獎(jiǎng)勵(lì)在一定程度上衡量了在狀態(tài)si下執(zhí)行動(dòng)作ai的優(yōu)劣。若智能體的某個(gè)策略獲得了環(huán)境的正向獎(jiǎng)勵(lì)，則之后智能體產(chǎn)生該策略的趨勢會(huì)加強(qiáng)。基于此，在與環(huán)境不斷交互的過程中，智能體以“試錯(cuò)”的方式進(jìn)行學(xué)習(xí)，根據(jù)獎(jiǎng)勵(lì)調(diào)整策略使整個(gè)過程的累計(jì)獎(jiǎng)勵(lì)達(dá)到最大。

1.2 帶基線的蒙特卡羅策略梯度強(qiáng)化學(xué)習(xí)

為了解決傳統(tǒng)換電站調(diào)度策略優(yōu)化方法對(duì)預(yù)先給定數(shù)據(jù)、換電需求預(yù)測值依賴性高的問題，本文采用策略梯度強(qiáng)化學(xué)習(xí)對(duì)換電站實(shí)時(shí)調(diào)度策略進(jìn)行優(yōu)化。將連續(xù)時(shí)間以時(shí)間間隔Δt進(jìn)行離散化，智能體在每個(gè)時(shí)段根據(jù)當(dāng)前狀態(tài)進(jìn)行1 次決策。智能體在環(huán)境上運(yùn)行I個(gè)時(shí)段后得到1 條經(jīng)驗(yàn)軌跡τ，其具體構(gòu)成為s0，a0，r0，s1，a1，r1，…，sI-1，aI-1，rI-1，sI。

式中：“?”表示等號(hào)右側(cè)為左側(cè)的無偏估計(jì)；N為從pθ(τ)中采樣的軌跡數(shù)量；τj為采樣的第j條軌跡；Gi(τj)為軌跡τj中時(shí)段i的回報(bào)；Vπθ(si)為動(dòng)作策略πθ下狀態(tài)si的價(jià)值。

引入基線雖然不改變策略梯度的期望，但降低了梯度的方差，使算法更加穩(wěn)定。所以，可采用梯度上升［15］的方法優(yōu)化J(θ)。算法的偽代碼見附錄C。

1.3 狀態(tài)空間

在強(qiáng)化學(xué)習(xí)中，狀態(tài)代表了智能體所能感知到的環(huán)境信息。狀態(tài)通常由1 個(gè)高維向量表示，其每一個(gè)元素表示環(huán)境的一個(gè)可觀測特征，狀態(tài)向量全體組成狀態(tài)空間。狀態(tài)空間的選取標(biāo)準(zhǔn)是盡可能選擇與智能體決策相關(guān)的最小環(huán)境特征子集?；谠摌?biāo)準(zhǔn)，智能體在決策時(shí)既有充分的依據(jù)，又避免了冗余特征帶來的過擬合和額外計(jì)算開銷問題。

1.4 動(dòng)作空間

本文所提換電站的實(shí)時(shí)調(diào)度策略包含充放電狀態(tài)和參與調(diào)度的電池?cái)?shù)量這2 個(gè)動(dòng)作指令。充放電狀態(tài)用一個(gè)二進(jìn)制變量δ表示，δ=1時(shí)表示充放電機(jī)撥入充電檔位，δ=0時(shí)表示充放電機(jī)撥入放電檔位。由于換電站的電池庫存眾多，將具體插入的電池?cái)?shù)量作為動(dòng)作之一會(huì)使動(dòng)作空間過大，導(dǎo)致模型難以訓(xùn)練。為了減小動(dòng)作空間，本文將u塊電池作為1個(gè)動(dòng)作整體，即在Δt時(shí)間內(nèi)接入充放電機(jī)的電池?cái)?shù)量只能為0或u。這樣，參與調(diào)度的電池?cái)?shù)量可用一個(gè)二進(jìn)制變量μ表示，當(dāng)μ=1 時(shí)表示充放電機(jī)新接入u塊電池，當(dāng)μ=0時(shí)表示充放電機(jī)無新接入的電池。因此，一個(gè)完整的動(dòng)作可表示為2維向量a=[δ，μ]。

1.5 獎(jiǎng)勵(lì)函數(shù)

智能體的目標(biāo)是最大化累計(jì)獎(jiǎng)勵(lì)總和，通過人為設(shè)計(jì)合適的獎(jiǎng)勵(lì)函數(shù)可以引導(dǎo)智能體給出合理的換電站調(diào)度策略。

式中：β1、β2、β3為權(quán)重值，均屬于超參數(shù)，可通過網(wǎng)格搜索（grid search）確定其具體取值。

1.6 決策器

本文以Δt為時(shí)間間隔對(duì)連續(xù)的時(shí)間進(jìn)行離散化，換電站在每個(gè)時(shí)段根據(jù)當(dāng)前狀態(tài)進(jìn)行1 次決策。換電站的決策是隨機(jī)的，由條件概率πθ(a|s)描述。

為了學(xué)習(xí)動(dòng)作和狀態(tài)之間的復(fù)雜依賴關(guān)系，本文調(diào)度策略的決策器πθ(a|s)采用神經(jīng)網(wǎng)絡(luò)的形式，被稱為策略網(wǎng)絡(luò)。本文假設(shè)充放電狀態(tài)指令δ和參與調(diào)度的電池?cái)?shù)量指令μ在給定狀態(tài)s的情況下條件獨(dú)立，即滿足式（4）。

式中：πθδ(δ|s)、πθμ(μ|s)分別為狀態(tài)s下選擇充放電狀態(tài)指令δ、參與調(diào)度的電池?cái)?shù)量為μu的概率，這2個(gè)概率均使用帶2個(gè)隱層的神經(jīng)網(wǎng)絡(luò)進(jìn)行建模，并且在2 個(gè)隱層進(jìn)行參數(shù)共享。在輸出概率時(shí)，采用Sigmoid 函數(shù)對(duì)概率值進(jìn)行歸一化處理。決策器的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖2所示。

圖2 決策器的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.2 Neural network structure diagram of decision maker

策略網(wǎng)絡(luò)的目標(biāo)是在保證服務(wù)可用率的同時(shí)，盡可能最大化對(duì)電網(wǎng)饋電所得收益和對(duì)EV 用戶換電所得收益。該優(yōu)化目標(biāo)即為策略梯度強(qiáng)化學(xué)習(xí)的目標(biāo)，因此策略網(wǎng)絡(luò)的最優(yōu)參數(shù)可由式（5）所示優(yōu)化問題給出。

2 換電站實(shí)時(shí)調(diào)度策略的數(shù)學(xué)形式

本節(jié)首先描述狀態(tài)與環(huán)境交互之后進(jìn)行狀態(tài)轉(zhuǎn)移的數(shù)學(xué)規(guī)則，然后根據(jù)換電站的收益明確獎(jiǎng)勵(lì)函數(shù)的具體計(jì)算過程。

2.1 電池的狀態(tài)轉(zhuǎn)移

圖3 電池狀態(tài)轉(zhuǎn)移關(guān)系示意圖Fig.3 Schematic diagram of battery state transition

2.2 電池的荷電狀態(tài)

電池的荷電狀態(tài)SOC（State Of Charge）是指電池在一定的放電倍率下，剩余電量與相同條件下額定容量的比值。本文將電池的恒流-恒壓兩階段充放電過程簡化為恒功率過程，SOC的計(jì)算公式為：

式中：Qi為時(shí)段i電池的SOC；Pc、Pd分別為充、放電功率；ηc、ηd分別為充、放電效率；C為電池額定容量。

為了避免過充過放對(duì)電池造成的損害，需要對(duì)電池的充放電限度進(jìn)行約束。限制接入充放電機(jī)電池的SOC 上、下限分別為95%、20%，即：若電池的SOC達(dá)到95%，則視為滿電電池；若電池的SOC低于20%，則不再參與放電。滿電電池和不再參與放電的電池均從充放電機(jī)上拔出并存入動(dòng)力電池存放倉。

2.3 換電站收益

換電站收益包括對(duì)EV 用戶換電所得收益和對(duì)電網(wǎng)饋電所得收益。

2.4 排隊(duì)意愿和服務(wù)可用率

對(duì)EV用戶的排隊(duì)意愿進(jìn)行如下假設(shè)：當(dāng)動(dòng)力電池存放倉內(nèi)有可用電池但動(dòng)力電池更換裝置無空閑時(shí)，EV 用戶愿意排隊(duì)等待；當(dāng)動(dòng)力電池存放倉內(nèi)無可用電池時(shí)，EV 用戶拒絕排隊(duì)等待電池充滿電即直接離開，被視為未成功換電［16］。在這種排隊(duì)意愿下，排隊(duì)等待換電的EV數(shù)量滿足式（7）。定義日服務(wù)可用率ξ為1 d 內(nèi)成功換電的EV 數(shù)量vs與到站EV 總數(shù)量vc之比，如式（11）所示。

式中：ε1、ε2分別為換電成功獎(jiǎng)勵(lì)系數(shù)、換電失敗懲罰系數(shù)，均為正數(shù)。設(shè)置該懲罰項(xiàng)的目的在于：懲罰換電站一直向電網(wǎng)饋電，鼓勵(lì)其盡可能多地滿足EV 用戶的換電需求，以提高換電站的日服務(wù)可用率。ε1和ε2均為超參數(shù)，可通過網(wǎng)格搜索確定其具體取值。

3 算例分析

為了驗(yàn)證本文所提調(diào)度策略的有效性，設(shè)計(jì)了以下2 組實(shí)驗(yàn)進(jìn)行仿真分析：①可視化動(dòng)作策略，以驗(yàn)證基于帶基線的蒙特卡羅策略梯度法的實(shí)時(shí)調(diào)度策略能否通過合理安排充放電時(shí)間和接入電池?cái)?shù)量來增加獲利空間，進(jìn)一步討論不同充電功率對(duì)調(diào)度策略的影響；②給出2 種電池選擇方式，討論不同的電池選擇方式對(duì)換電站經(jīng)濟(jì)收益、服務(wù)可用率、電網(wǎng)基礎(chǔ)負(fù)荷的影響。

3.1 實(shí)驗(yàn)設(shè)置

3.1.1 算例參數(shù)設(shè)置

本文選取小型換電站作為算例，并進(jìn)行了如下假設(shè)：①EV 使用同一型號(hào)的電池，且電池的充放電功率恒定；②EV 換電過程所需的時(shí)長服從正態(tài)分布N（10，2）；③到站換電的EV 電池的剩余SOC 服從（20%，30%）范圍內(nèi)的均勻分布；④每個(gè)時(shí)段內(nèi)到達(dá)換電站的EV 數(shù)量是一個(gè)服從泊松分布P(λ)的隨機(jī)變量。算例從柏松分布中進(jìn)行采樣是對(duì)真實(shí)EV 到達(dá)換電站的場景進(jìn)行仿真，可使用真實(shí)數(shù)據(jù)對(duì)本文所提方法進(jìn)行訓(xùn)練。

換電站的相關(guān)參數(shù)以及到站EV 數(shù)量泊松分布的λ取值分別見附錄D 表D1 和表D2。購電電價(jià)參考國網(wǎng)北京市電力公司的峰谷分時(shí)電價(jià)［17］，假設(shè)峰時(shí)段和平時(shí)段的上網(wǎng)電價(jià)為購電電價(jià)的80%，由于不鼓勵(lì)在谷時(shí)段向電網(wǎng)饋電，谷時(shí)段的上網(wǎng)電價(jià)設(shè)為0。分時(shí)電價(jià)數(shù)據(jù)見附錄D表D3。

3.1.2 電池的選擇方式

當(dāng)換電站接收到動(dòng)作指令μ選擇u塊電池接入充放電機(jī)時(shí)，面臨具體電池的選擇問題。由2.2節(jié)可知，在同一充放電功率下，電池的SOC 不同，其充電耗時(shí)和放電空間也不同。選擇不同的電池響應(yīng)動(dòng)作指令μ可能會(huì)對(duì)后續(xù)的調(diào)度指令、換電站的經(jīng)濟(jì)效益產(chǎn)生影響，故設(shè)定以下2 種電池選擇方式進(jìn)行探討。

1）“高先充低先放”方式。

“高先充低先放”方式是換電站的常用電池選擇方式，即為了盡可能在相同時(shí)間內(nèi)獲得更多的滿電可用電池，優(yōu)先選擇電量高的電池充電；同時(shí)，為了盡量維持高電量電池的數(shù)量，優(yōu)先選擇電量低的電池放電。直觀來看，這種選擇方式能夠最大限度地滿足EV 用戶的換電需求［18］。具體而言，在充電模式下，即當(dāng)δ=1 時(shí)，選擇不可用電池中SOC 最大的u塊電池進(jìn)行充電；在放電模式下，即當(dāng)δ=0 時(shí)，選擇不可用電池中SOC最小的u塊電池進(jìn)行放電。

2）隨機(jī)選擇方式。

隨機(jī)選擇方式是指換電站接收到動(dòng)作指令μ后在動(dòng)力電池存放倉內(nèi)隨機(jī)選擇電池以響應(yīng)指令。

3.1.3 訓(xùn)練過程

本文設(shè)置決策時(shí)間間隔Δt=2 min，即將1 d分為720 個(gè)時(shí)段。對(duì)于策略網(wǎng)絡(luò)πθ(a|s)而言，其輸入維度為狀態(tài)空間的維度6，輸出維度為動(dòng)作空間的維度2。采用帶2 個(gè)隱層的全連接神經(jīng)網(wǎng)絡(luò)對(duì)策略網(wǎng)絡(luò)進(jìn)行建模，2 個(gè)隱層的維度分別為12、10，激活函數(shù)為ReLU 函數(shù)。對(duì)策略網(wǎng)絡(luò)進(jìn)行更新時(shí)采用隨機(jī)梯度下降SGD（Stochastic Gradient Descent）算法，學(xué)習(xí)率設(shè)為10-3。設(shè)置折扣因子γ=0.6，采樣軌跡長度為1 000。服務(wù)可用率懲罰項(xiàng)中換電成功獎(jiǎng)勵(lì)系數(shù)ε1=30，換電失敗懲罰系數(shù)ε2=50。

選取最大迭代輪數(shù)為1000進(jìn)行訓(xùn)練，軌跡的平均獎(jiǎng)勵(lì)變化曲線如圖4 所示。為了更好地呈現(xiàn)平均獎(jiǎng)勵(lì)的變化趨勢，利用基于移動(dòng)窗口的加權(quán)平均算法對(duì)平均獎(jiǎng)勵(lì)進(jìn)行平滑除噪，在長度為60 的滑動(dòng)窗口內(nèi)對(duì)3 階多項(xiàng)式進(jìn)行最小二乘擬合得到滑動(dòng)平均獎(jiǎng)勵(lì)。由圖可以看出：平均獎(jiǎng)勵(lì)存在一定的局部振蕩，這是因?yàn)椴捎妹商乜_采樣估計(jì)策略網(wǎng)絡(luò)的梯度帶來了誤差；平均獎(jiǎng)勵(lì)隨著迭代輪數(shù)的增大呈現(xiàn)較穩(wěn)定的上升趨勢，并逐漸收斂穩(wěn)定。

圖4 平均獎(jiǎng)勵(lì)的變化曲線Fig.4 Change curves of average reward

3.2 不同充電功率下調(diào)度策略對(duì)比分析

在3.1節(jié)實(shí)驗(yàn)設(shè)置的基礎(chǔ)上改變充電功率，對(duì)比分析充電功率為6.6 kW和15 kW時(shí)的調(diào)度結(jié)果。對(duì)不同充電功率的策略網(wǎng)絡(luò)進(jìn)行訓(xùn)練和測試的過程中，電池均采取“高先充低先放”選擇方式。

3.2.1 充電功率為6.6 kW時(shí)的調(diào)度結(jié)果可視化

當(dāng)充電功率為6.6 kW 時(shí)，測試日4 種狀態(tài)的電池?cái)?shù)量如圖5所示。

圖5 充電功率為6.6 kW時(shí)4種狀態(tài)的電池?cái)?shù)量Fig.5 Number of batteries in four states when charging power is 6.6 kW

結(jié)合圖5、附錄D 表D2 和表D3，可得到如下結(jié)論。

1）谷時(shí)段（00:00—07:00、23:00—24:00）的在充電池?cái)?shù)量基本保持在25～30 塊，這是因?yàn)楣葧r(shí)段的購電電價(jià)低且上網(wǎng)電價(jià)也較低，換電站通過學(xué)習(xí)得到“錯(cuò)峰充電”策略以降低充電費(fèi)用，同時(shí)也為當(dāng)天的換電需求增加可用電池儲(chǔ)備，避免在未來時(shí)段由于沒有足夠的可用電池導(dǎo)致有換電需求的EV 離開而帶來的懲罰費(fèi)用。在該策略下，00:00—07:00 時(shí)段內(nèi)可用電池?cái)?shù)量持續(xù)快速上升，從15 塊增加到195 塊；23:00—24:00 時(shí)段內(nèi)可用電池?cái)?shù)量從8 塊增加到15塊。

2）峰時(shí)段（10:00—15:00、18:00—21:00）的在放電池?cái)?shù)量基本保持在25～30 塊，這是因?yàn)榉鍟r(shí)段的上網(wǎng)電價(jià)高，且換電站內(nèi)有足夠的可用電池儲(chǔ)備支撐換電需求，換電站為了擴(kuò)大利潤空間，在峰時(shí)段選擇集中放電以增加對(duì)電網(wǎng)的饋電收益。對(duì)比表D2可見，12:00—14:00、18:00—19:00 存在2 個(gè)換電需求高峰，因此10:00—15:00 時(shí)段內(nèi)可用電池?cái)?shù)量由225 塊迅速減少到90 塊，18:00—21:00 時(shí)段內(nèi)可用電池?cái)?shù)量由43塊減少到5塊。

3）平時(shí)段為07:00—10:00、15:00—18:00 以及21:00—23:00。07:00—10:00 時(shí)段內(nèi)可用電池?cái)?shù)量增幅減緩，這是因?yàn)槠綍r(shí)段的購電電價(jià)較谷時(shí)段更高，且該時(shí)段的可用電池儲(chǔ)備較充足，換電站雖仍選擇充電但充電力度減弱。07:00—10:00時(shí)段內(nèi)可用電池?cái)?shù)量由195塊增加到225塊，占站內(nèi)電池總數(shù)量的90%。為了滿足15:00—18:00、21:00—23:00 時(shí)段內(nèi)的換電需求，站內(nèi)的充放電機(jī)接近滿載。對(duì)比表D2 可知，15:00—18:00 時(shí)段的換電需求較大，可用電池?cái)?shù)量由90塊減少到43塊；21:00—23:00時(shí)段內(nèi)換電需求相對(duì)較少，持續(xù)為電池充電導(dǎo)致可用電池?cái)?shù)量少量增加。

綜上可知，在不同的時(shí)段采用本文所提方法可為換電站做出合理的決策。由圖5 可見：充電站內(nèi)全天均有可用電池庫存，表明本文所提調(diào)度策略能夠滿足換電需求；該測試日結(jié)束時(shí)所?？捎秒姵?cái)?shù)量與00:00時(shí)刻的初始可用電池?cái)?shù)量基本持平，可以認(rèn)為學(xué)習(xí)所得策略網(wǎng)絡(luò)具有可持續(xù)運(yùn)用的能力。

3.2.2 充電功率為15 kW時(shí)的調(diào)度結(jié)果可視化

當(dāng)充電功率為15 kW 時(shí)，測試日4 種狀態(tài)的電池?cái)?shù)量如圖6所示。

圖6 充電功率為15 kW時(shí)4種狀態(tài)的電池?cái)?shù)量Fig.6 Number of batteries in four states when charging power is 15 kW

分析圖6可得如下結(jié)論。

1）在谷時(shí)段00:00—07:00 內(nèi)，可用電池?cái)?shù)量由10 塊增加到250 塊，即換電站能在該時(shí)段內(nèi)完成站內(nèi)所有庫存電池的充電過程。

2）在平時(shí)段07:00—10:00 內(nèi)，換電站選擇滿載放電，這是因?yàn)槠綍r(shí)段的上網(wǎng)電價(jià)與谷時(shí)段的購電電價(jià)之間存在電價(jià)差，此時(shí)換電站能通過放電獲得利潤；而圖5 中由于電池只能慢速充電，07:00 時(shí)刻只有195 塊可用電池，因此換電站仍選擇充電來增加可用電池庫存。

3）在時(shí)段10:00—24:00 內(nèi)，圖6 中的調(diào)度策略與圖5 總體一致，均能保證站內(nèi)全天都有可用電池庫存，保障能夠滿足換電需求。

對(duì)比圖5 和圖6 可知，2 種不同充電功率下的調(diào)度策略整體類似，但較大的充電功率可以縮短電池的充電時(shí)間，能在同樣滿足換電需求的基礎(chǔ)上，有更大的“低充高放”利潤空間?？梢姡潆姽β实拇笮?huì)間接影響換電站的調(diào)度策略，而本文所提換電站實(shí)時(shí)調(diào)度策略具有一定的通用性。

3.3 電池選擇方式對(duì)比分析

在充電功率為6.6 kW 的策略網(wǎng)絡(luò)下，分析電池的“高先充低先放”和隨機(jī)選擇方式對(duì)日服務(wù)可用率、換電站收益以及電網(wǎng)基礎(chǔ)負(fù)荷的影響。

1）對(duì)日服務(wù)可用率的影響。

在訓(xùn)練好的模型參數(shù)下分別使用2 種電池選擇方式對(duì)策略網(wǎng)絡(luò)重復(fù)測試1000次，得到的日服務(wù)可用率分布直方圖見附錄D 圖D1。由圖可見：在“高先充低先放”選擇方式下，該策略網(wǎng)絡(luò)的日服務(wù)可用率大多能達(dá)到90%以上，其中一半以上的測試能完全滿足換電需求，可認(rèn)為在該策略網(wǎng)絡(luò)下電池采取“高先充低先放”選擇方式能保障換電站的正常運(yùn)行；而在隨機(jī)選擇方式下，該策略網(wǎng)絡(luò)的日服務(wù)可用率主要分布在（60%，90%）范圍內(nèi)，為了使電池隨機(jī)選擇方式也能滿足換電需求，需增加換電站的電池儲(chǔ)備數(shù)量和充放電機(jī)數(shù)量，這樣就增加了硬件成本。

2）對(duì)換電站收益的影響。

在同一策略網(wǎng)絡(luò)下，采用2 種電池選擇方式分別測試1 000 次后，可得換電站日收益結(jié)果見附錄D表D4，日收益分布直方圖見附錄D 圖D2。由表D4可見，“高先充低先放”選擇方式下?lián)Q電站的平均日收益更高。由圖D2可見，“高先充低先放”選擇方式下的換電站日收益總體比隨機(jī)選擇方式下的日收益更高。這是因?yàn)椤案呦瘸涞拖确拧边x擇方式能滿足更多的換電需求，提高了從EV用戶處獲得的收益。

3）對(duì)電網(wǎng)基礎(chǔ)負(fù)荷的影響。

為了驗(yàn)證本文所提調(diào)度策略對(duì)電網(wǎng)負(fù)荷削峰填谷的作用，基于文獻(xiàn)［19］中給出的電網(wǎng)基礎(chǔ)負(fù)荷，得到2 種電池選擇方式下計(jì)及換電站負(fù)荷前、后的電網(wǎng)總負(fù)荷，如圖7 所示。由圖可知，在2 種電池選擇方式下，電網(wǎng)基礎(chǔ)負(fù)荷疊加換電站負(fù)荷后，01:00 時(shí)刻的負(fù)荷谷值有明顯的增大，12:00時(shí)刻的負(fù)荷峰值有明顯的減小，21:00 時(shí)刻的第2 個(gè)負(fù)荷峰值有少許減小并稍微后移?？傮w而言，2 種電池選擇方式在換電站基于價(jià)格的需求響應(yīng)模式下均能減小全天的負(fù)荷峰谷差，其中“高先充低先放”選擇方式的削峰填谷效果略優(yōu)于隨機(jī)選擇方式，但總體差別并不明顯?？梢姡疚乃峥紤]換電站需求響應(yīng)模式的實(shí)時(shí)調(diào)度策略利用站內(nèi)電池的儲(chǔ)能特性能夠?qū)﹄娋W(wǎng)負(fù)荷起到一定的削峰填谷作用。

圖7 計(jì)及換電站負(fù)荷前、后的電網(wǎng)總負(fù)荷曲線Fig.7 Total power grid load curves with and without battery swapping station load

上述結(jié)果表明，本文所提換電站實(shí)時(shí)調(diào)度策略在“高先充低先放”電池選擇方式下能夠滿足換電需求，獲得較大的經(jīng)濟(jì)收益，且具有削峰填谷的作用。

3.4 訓(xùn)練與決策時(shí)間

本文算例均在Intel（R） Core（TM） i5-9300H CPU@2.40 GHz 的計(jì)算機(jī)上基于Python 3.8 和Py-Torch 1.5.1編程實(shí)現(xiàn)。在此基礎(chǔ)上，1次訓(xùn)練過程耗時(shí)約為26 min，策略網(wǎng)絡(luò)的1 次前向傳播僅需5 ms左右。本文所提帶基線的蒙特卡羅策略梯度法的計(jì)算復(fù)雜度與狀態(tài)空間、動(dòng)作空間、神經(jīng)網(wǎng)絡(luò)大小有關(guān)。但相較于計(jì)算復(fù)雜度隨EV 數(shù)量指數(shù)增長的傳統(tǒng)方法而言，本文方法在求解換電站實(shí)時(shí)調(diào)度問題上仍有明顯的優(yōu)勢，降低了對(duì)算力的要求，在實(shí)際部署時(shí)也可以減少硬件設(shè)備成本。

4 結(jié)論

本文提出了基于強(qiáng)化學(xué)習(xí)的換電站實(shí)時(shí)調(diào)度策略優(yōu)化方法，所得主要結(jié)論如下。

1）提出了帶基線的蒙特卡羅策略梯度法進(jìn)行EV 換電站實(shí)時(shí)調(diào)度，測試結(jié)果表明所提策略可在保證換電站服務(wù)可用率的情況下獲得更多的放電收益，也可在長時(shí)間尺度下持續(xù)應(yīng)用。同時(shí)，訓(xùn)練得到的換電站調(diào)度策略能在不同時(shí)段做出合理的決策。

2）探討了6.6 kW 和15 kW 這2 種充電功率下訓(xùn)練得到的換電站調(diào)度策略，發(fā)現(xiàn)這2 種充電功率下的調(diào)度策略相似，但較大的充電功率能夠增大換電站“低充高放”的利潤空間，可認(rèn)為本文所提方法具有一定的通用性。

3）探究了“高先充低先放”和隨機(jī)選擇2 種電池選擇方式對(duì)換電站服務(wù)可用率、經(jīng)濟(jì)效益、電網(wǎng)基礎(chǔ)負(fù)荷的影響，發(fā)現(xiàn)“高先充低先放”選擇方式能夠在滿足更大服務(wù)可用率的同時(shí)，獲得更大的經(jīng)濟(jì)效益，同時(shí)對(duì)電網(wǎng)負(fù)荷進(jìn)行削峰填谷的效果更好。但關(guān)于電池的最優(yōu)選擇方式還有待進(jìn)一步研究。

4）本文所提模型在換電站實(shí)時(shí)調(diào)度問題上具有通用性，可通過簡單修改進(jìn)行問題遷移。例如：通過在獎(jiǎng)勵(lì)函數(shù)中增加可再生能源消納率的獎(jiǎng)懲項(xiàng)，使其向換電站與可再生能源協(xié)同消納問題遷移；將動(dòng)作空間中的二進(jìn)制充放電狀態(tài)變量修改為多值功率檔位變量，使其向多檔功率充放電問題進(jìn)移等。

附錄見本刊網(wǎng)絡(luò)版（http：//www.epae.cn）。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡