摘" 要:隨著城市化進(jìn)程的加速和公共交通系統(tǒng)的發(fā)展,地鐵系統(tǒng)的運(yùn)營(yíng)效率和能源利用效率受到越來(lái)越多的關(guān)注。飛輪儲(chǔ)能技術(shù)憑借其高功率循環(huán)能力,為軌道交通系統(tǒng)的能源利用問題提供新的解決方案。該文采用馬爾科夫決策過程來(lái)描述單飛輪儲(chǔ)能系統(tǒng)的能量管理問題,并使用基于深度Q網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)算法來(lái)學(xué)習(xí)最優(yōu)的充放電閾值動(dòng)態(tài)調(diào)整策略。通過在Matlab/Simulink平臺(tái)搭建仿真環(huán)境,對(duì)開發(fā)的能量管理算法進(jìn)行測(cè)試,并將其結(jié)果與固定充放電閾值、隨機(jī)充放電閾值策略進(jìn)行對(duì)比,表明該策略在提高電能利用效率和系統(tǒng)運(yùn)行穩(wěn)定性方面具有顯著效果。
關(guān)鍵詞:飛輪儲(chǔ)能系統(tǒng);能量管理;馬爾科夫決策過程;深度強(qiáng)化學(xué)習(xí);深度Q網(wǎng)絡(luò)
中圖分類號(hào):TP29" " " 文獻(xiàn)標(biāo)志碼:A" " " " " 文章編號(hào):2095-2945(2025)02-0030-05
Abstract: With the acceleration of urbanization and the development of public transportation systems, the operational efficiency and energy utilization efficiency of subway systems have attracted more and more attention. Flywheel energy storage technology provides new solutions to energy utilization problems in rail transit systems with its high-power cycle capabilities. In this paper, Markov decision process is used to describe the energy management problem of a single flywheel energy storage system, and a reinforcement learning algorithm based on deep Q network is used to learn the optimal dynamic adjustment strategy for charge and discharge thresholds. By building a simulation environment on Matlab/Simulink platform, the developed energy management algorithm is tested, and the results are compared with fixed charge and discharge threshold strategies and random charge and discharge threshold strategies, which shows that this strategy has significant effects on improving power utilization efficiency and system operation stability.
Keywords: flywheel energy storage system; energy management; Markov decision process; deep reinforcement learning; Deep Q-Network (DQN)
隨著城市化進(jìn)程的加速和公共交通系統(tǒng)的發(fā)展,地鐵系統(tǒng)作為城市重要的交通工具,其運(yùn)營(yíng)效率和能源利用效率受到越來(lái)越多的關(guān)注。傳統(tǒng)的地鐵系統(tǒng)在能源利用方面存在一定的局限性,如制動(dòng)能量回收利用不足、電網(wǎng)負(fù)載波動(dòng)等問題。飛輪儲(chǔ)能技術(shù)的出現(xiàn)為解決這些問題提供了新的解決方案,其循環(huán)和提供高功率以及高功率梯度的能力使其非常適合頻率調(diào)節(jié)、電壓支持和功率固定等存儲(chǔ)應(yīng)用[1],且與電池相比,容量不會(huì)因高倍率充放電而衰減,更能適應(yīng)極端的溫度和天氣,對(duì)日常維護(hù)的要求較低[2]。飛輪儲(chǔ)能系統(tǒng)能夠有效地捕獲和存儲(chǔ)列車制動(dòng)過程中產(chǎn)生的能量,并在需要時(shí)釋放能量,從而提高能源利用效率。通過優(yōu)化飛輪儲(chǔ)能系統(tǒng)的能量管理方法,可以提高牽引網(wǎng)的能量流動(dòng)效率,優(yōu)化儲(chǔ)能系統(tǒng)的節(jié)能、穩(wěn)壓效果。
飛輪儲(chǔ)能系統(tǒng)的能量管理可以通過調(diào)整充放電閾值來(lái)實(shí)現(xiàn)。文獻(xiàn)[3]將充放電閾值作為一個(gè)隨牽引網(wǎng)壓和飛輪SOC變化的函數(shù),進(jìn)行自適應(yīng)調(diào)整,這種能量管理策略的實(shí)現(xiàn)較為簡(jiǎn)單,但考慮的狀態(tài)變量較少,采用的函數(shù)形式不足以擬合系統(tǒng)的特性,系統(tǒng)的節(jié)能功能仍有較大優(yōu)化空間。文獻(xiàn)[4]提出了一種基于多閾值的電壓-電流雙閉環(huán)控制策略,將飛輪儲(chǔ)能系統(tǒng)劃分了4種工作模式,以兼顧節(jié)能與穩(wěn)壓功能,此類策略同樣由于對(duì)系統(tǒng)的狀態(tài)信息利用不夠充分,難以實(shí)現(xiàn)最優(yōu)的節(jié)能與穩(wěn)壓效果。
強(qiáng)化學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,其主要思想是讓智能體在動(dòng)態(tài)環(huán)境中,通過嘗試不同的行為并觀察環(huán)境的反饋來(lái)學(xué)習(xí)最優(yōu)的行為策略。在強(qiáng)化學(xué)習(xí)中,不需要對(duì)數(shù)據(jù)進(jìn)行事先標(biāo)注,而是由智能體通過試錯(cuò)和反饋來(lái)逐步改進(jìn)自己的決策策略。通過不斷地嘗試不同的動(dòng)作并根據(jù)環(huán)境的反饋進(jìn)行學(xué)習(xí),智能體逐步調(diào)整其行為策略,以獲得更高的累積獎(jiǎng)勵(lì)。深度強(qiáng)化學(xué)習(xí)是一種結(jié)合了深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的技術(shù),與傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法相比,深度強(qiáng)化學(xué)習(xí)通過深度神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)從狀態(tài)感知數(shù)據(jù)到動(dòng)作的映射,從而能夠處理更加復(fù)雜的環(huán)境和任務(wù)。深度Q網(wǎng)絡(luò)(DQN)算法是眾多深度強(qiáng)化學(xué)習(xí)方法中的重要代表之一。DQN算法由DeepMind團(tuán)隊(duì)于2013年提出[5],旨在解決離散動(dòng)作空間下的強(qiáng)化學(xué)習(xí)問題。DQN的核心思想是通過Q-learning算法,利用神經(jīng)網(wǎng)絡(luò)逼近Q值函數(shù),從而學(xué)習(xí)到最優(yōu)的動(dòng)作策略。
基于深度強(qiáng)化學(xué)習(xí)的能量管理方法已經(jīng)在地面式超級(jí)電容等軌道交通用儲(chǔ)能系統(tǒng)中得到應(yīng)用[6-7]。在飛輪儲(chǔ)能系統(tǒng)能量管理中,深度強(qiáng)化學(xué)習(xí)可以被用來(lái)優(yōu)化系統(tǒng)的運(yùn)行策略,以實(shí)現(xiàn)更高效的能量利用和更穩(wěn)定的運(yùn)行。通過將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于飛輪儲(chǔ)能系統(tǒng)的控制策略中,系統(tǒng)可以通過訓(xùn)練優(yōu)化不同工況下的充放電閾值選擇,從而提高系統(tǒng)的能量轉(zhuǎn)換效率,降低能量損耗,適應(yīng)不同的運(yùn)行條件和需求,在動(dòng)態(tài)環(huán)境中實(shí)現(xiàn)更好的性能表現(xiàn)。
1" 用于飛輪儲(chǔ)能系統(tǒng)能量管理的強(qiáng)化學(xué)習(xí)模型設(shè)計(jì)
本文采用馬爾科夫決策過程(Markov Decision Process, MDP)來(lái)描述單飛輪儲(chǔ)能系統(tǒng)的充放電閾值動(dòng)態(tài)調(diào)整問題,并使用強(qiáng)化學(xué)習(xí)算法來(lái)學(xué)習(xí)最優(yōu)策略。以下是本文對(duì)問題中狀態(tài)、動(dòng)作空間和獎(jiǎng)勵(lì)的定義。
1.1" 狀態(tài)空間
狀態(tài)空間S定義為問題中可能的所有狀態(tài)的集合,每個(gè)時(shí)刻的狀態(tài)s是環(huán)境的一種特定觀察結(jié)果。此問題中狀態(tài)s包括儲(chǔ)能系統(tǒng)自身SOC、儲(chǔ)能系統(tǒng)所在變電所的功率P、整流機(jī)組的輸出電壓urec和電流irec。s表示為
s=[P,SOC,irec,urec]。
1.2" 動(dòng)作空間
動(dòng)作空間A定義為代理可以采取的所有可能動(dòng)作的集合。每個(gè)動(dòng)作a是代理在特定狀態(tài)下可以執(zhí)行的動(dòng)作。本文采用動(dòng)態(tài)調(diào)整飛輪儲(chǔ)能系統(tǒng)充放電閾值的方式來(lái)實(shí)現(xiàn)能量管理,在變電站的空載電壓uss0的基礎(chǔ)上,通過疊加充電閾值調(diào)整因子或減去放電閾值調(diào)整因子來(lái)得到充電閾值uc和放電閾值ud。為了方便使用DQN算法求解,本文對(duì)閾值調(diào)整因子的選擇進(jìn)行了離散化。動(dòng)作空間A包含所有充放電閾值選項(xiàng)的組合,表示為
A={[uc=uss0+kcΔu,ud=uss0+kdΔu];kc,kd∈[1,N]},
式中:Δu為充放電閾值的單位變化量。
1.3" 獎(jiǎng)勵(lì)函數(shù)
獎(jiǎng)勵(lì)函數(shù)r將當(dāng)前狀態(tài)和代理選擇的動(dòng)作映射到一個(gè)實(shí)數(shù)值,用于評(píng)估代理在特定狀態(tài)下執(zhí)行特定動(dòng)作后獲得的即時(shí)反饋,獲取最大累積獎(jiǎng)勵(lì)為代理學(xué)習(xí)的目標(biāo)。本文對(duì)獎(jiǎng)勵(lì)函數(shù)r的定義基于時(shí)間步長(zhǎng)內(nèi)節(jié)能率和穩(wěn)壓率的加權(quán)和,并將節(jié)能率和穩(wěn)壓率截?cái)嘣赱-10,1]區(qū)間內(nèi),以減少訓(xùn)練過程中的梯度爆炸或梯度消失問題、加快模型的收斂速度,以及提高模型的泛化能力。為了保證算法的穩(wěn)定運(yùn)行,在節(jié)能率、穩(wěn)壓率的計(jì)算中對(duì)分母極小的情況進(jìn)行了特殊處理。
k時(shí)刻的獎(jiǎng)勵(lì)函數(shù)rk的定義如下
rk=0.4min(max(ek,-10),1)+0.6min(max(vk,-10),1),
式中:ek為k時(shí)刻前時(shí)間步長(zhǎng)ΔT內(nèi)的節(jié)能率。
式中:u、i為啟用飛輪儲(chǔ)能系統(tǒng)時(shí)整流機(jī)組的輸出電壓和電流;u、i為未啟用飛輪儲(chǔ)能系統(tǒng)時(shí)整流機(jī)組的輸出電壓和電流。
vk為k時(shí)刻前時(shí)間步長(zhǎng)ΔT內(nèi)的穩(wěn)壓率
式中:Δu、Δu分別為啟用和未啟用飛輪儲(chǔ)能系統(tǒng)時(shí)整流機(jī)組的輸出電壓高于設(shè)置的電壓上限時(shí)與電壓上限的差值的絕對(duì)值,若未高于電壓上限則取零;Δu、
Δu分別為啟用和未啟用飛輪儲(chǔ)能系統(tǒng)時(shí)整流機(jī)組的輸出電壓低于設(shè)置的電壓下限時(shí)與電壓下限的差值的絕對(duì)值,若未低于電壓上限則取零。
2" 基于DQN的能量管理算法實(shí)現(xiàn)
本文應(yīng)用的基于DQN的能量管理算法訓(xùn)練流程如圖1所示。
在DQN算法中,通過經(jīng)驗(yàn)回放和目標(biāo)網(wǎng)絡(luò)的設(shè)計(jì),實(shí)現(xiàn)了對(duì)訓(xùn)練樣本的高效利用和訓(xùn)練過程的穩(wěn)定性提升。此外,采用了ε-greedy策略來(lái)探索動(dòng)作空間,從而平衡訓(xùn)練中的探索和利用。在本文中,探索概率ε隨時(shí)間指數(shù)衰減,從訓(xùn)練開始時(shí)的εmax逐步衰減至80%的片段已完成時(shí)的εmax,隨后保持不變。本文選用的DQN網(wǎng)絡(luò)結(jié)構(gòu)示意圖如圖2所示。
在本研究中,我們使用PyTorch搭建了一個(gè)由輸入層、2個(gè)隱藏層和輸出層組成的DQN模型。網(wǎng)絡(luò)的輸入為包含4個(gè)分量的歸一化狀態(tài)向量,每個(gè)隱藏層含有64個(gè)神經(jīng)元。選擇ReLU作為激活函數(shù),并使用均方誤差(MSE)作為損失函數(shù),用于優(yōu)化網(wǎng)絡(luò)參數(shù)。本文選取Adam優(yōu)化器作為優(yōu)化算法,Adam是一種常用的自適應(yīng)學(xué)習(xí)率優(yōu)化算法,能夠自動(dòng)調(diào)節(jié)學(xué)習(xí)率并針對(duì)每個(gè)參數(shù)提供不同的更新步長(zhǎng),具有收斂速度快、能夠有效地處理稀疏梯度和噪聲等優(yōu)點(diǎn)。
3" 模型訓(xùn)練與測(cè)試
為了訓(xùn)練實(shí)現(xiàn)的DQN模型、評(píng)估能量管理策略的性能,借助MATLAB/Simulink平臺(tái)搭建了一個(gè)仿真環(huán)境,以模擬配置有單個(gè)飛輪儲(chǔ)能系統(tǒng)的變電所及其整流機(jī)組,并搭建了對(duì)照組以模擬電阻制動(dòng),用于計(jì)算節(jié)能率與穩(wěn)壓率。儲(chǔ)能系統(tǒng)所在變電所的功率P根據(jù)港鐵屯馬線的運(yùn)行圖計(jì)算得出,并實(shí)時(shí)發(fā)送給仿真系統(tǒng)。飛輪儲(chǔ)能系統(tǒng)的Simulink模型如圖3所示。
訓(xùn)練和測(cè)試中,假設(shè)變電站的空載電壓uss0為定值1 500 V,用于計(jì)算穩(wěn)壓率的電壓上限uh設(shè)置為1 520 V,下限ul設(shè)置為1 480 V。動(dòng)作空間設(shè)計(jì)中N取3,充放電閾值的單位變化量Δu設(shè)置為40 V,可選的充放電閾值共有9種組合。
深度強(qiáng)化學(xué)習(xí)算法的訓(xùn)練參數(shù)選擇見表1。
圖4給出了基于深度強(qiáng)化學(xué)習(xí)的能量管理算法的學(xué)習(xí)曲線。深色曲線表示每個(gè)片段的總獎(jiǎng)勵(lì),淺色曲線表示片段總獎(jiǎng)勵(lì)的移動(dòng)平均值??梢杂^察到,隨著訓(xùn)練片段數(shù)量的增加,總獎(jiǎng)勵(lì)總體上呈現(xiàn)出上升趨勢(shì),這表明DQN在不斷學(xué)習(xí)和改進(jìn)其策略,逐步優(yōu)化其能量管理效果。
為了評(píng)估訓(xùn)練得到的能量管理策略的性能,在仿真系統(tǒng)中對(duì)固定充放電閾值、隨機(jī)充放電閾值和基于DQN的能量管理策略進(jìn)行了測(cè)試。每次測(cè)試中的仿真時(shí)間為8 000 s,對(duì)應(yīng)1 600次決策。通過將ΔT視為8 000 s,可以計(jì)算出整個(gè)時(shí)間段內(nèi)的節(jié)能率和穩(wěn)壓率,以供比較。各種能量管理策略在5次測(cè)試中的平均節(jié)能率和穩(wěn)壓率見表2。
實(shí)驗(yàn)結(jié)果表明,基于DQN的能量管理策略在節(jié)能率和穩(wěn)壓率方面均優(yōu)于隨機(jī)充放電閾值和固定充放電閾值策略。具體來(lái)說,基于DQN的能量管理策略的平均節(jié)能率為36.4%,高于隨機(jī)充放電閾值的34.7%和固定充放電閾值的35.0%。這一結(jié)果表明,基于DQN的策略能夠更有效地回收利用能量,從而減少不必要的能量浪費(fèi)。在穩(wěn)壓率方面,基于DQN的能量管理策略也表現(xiàn)出明顯優(yōu)勢(shì),其穩(wěn)壓率為75.5%,高于隨機(jī)充放電閾值的73.0%和固定充放電閾值的73.7%。這一優(yōu)勢(shì)意味著基于DQN的策略能夠更好地維持系統(tǒng)電壓的穩(wěn)定,減少電壓波動(dòng)對(duì)線路運(yùn)行的不利影響。
4" 結(jié)論
本文提出了一種基于深度強(qiáng)化學(xué)習(xí)的飛輪儲(chǔ)能系統(tǒng)能量管理策略,通過采用馬爾科夫決策過程描述能量管理問題,并利用DQN算法來(lái)學(xué)習(xí)最優(yōu)的充放電閾值動(dòng)態(tài)調(diào)整策略。在MATLAB/Simulink平臺(tái)上搭建了仿真環(huán)境,根據(jù)港鐵屯馬線的運(yùn)行圖計(jì)算儲(chǔ)能系統(tǒng)所在變電所的功率,對(duì)能量管理策略進(jìn)行了測(cè)試。結(jié)果表明,與固定充放電閾值和隨機(jī)充放電閾值策略相比,該策略不僅提高了電能利用效率,而且能夠保持系統(tǒng)的運(yùn)行穩(wěn)定性。這些結(jié)果表明深度強(qiáng)化學(xué)習(xí)在軌道交通儲(chǔ)能系統(tǒng)能量管理領(lǐng)域具有廣闊的應(yīng)用前景,為未來(lái)智能交通系統(tǒng)的發(fā)展提供了有益的啟示。
參考文獻(xiàn):
[1] DONGXU H, XINGJIAN D, WEN L, et al. A review of flywheel energy storage rotor materials and structures[J]. Journal of Energy Storage,2023(74):109076.
[2] RONGJIE R, YUNYU L, YEJIAN Y, et al. Study on magnetic flywheel energy storage system in urban rail transit[C]//2017 IEEE Transportation Electrification Conference and Expo, Asia-Pacific (ITEC Asia-Pacific). IEEE, 2017: 1-6.
[3] 趙思鋒,唐英偉,王賽,等.基于飛輪儲(chǔ)能技術(shù)的城市軌道交通再生能回收控制策略研究[J].儲(chǔ)能科學(xué)與技術(shù),2018,7(3):524-529.
[4] 李進(jìn).城軌交通地面飛輪儲(chǔ)能系統(tǒng)控制策略研究[D].北京:北京交通大學(xué),2022.
[5] MNIH V, KAVUKCUOGLU K , SILVER D, et al.Playing atari with seep reinforcement learning[J].Computer Science, 2013.
[6] YANG Z, ZHU F, LIN F. Deep-reinforcement-learning-based energy management strategy for supercapacitor energy storage systems in urban rail transit[J]. IEEE Transactions on Intelligent Transportation Systems, 2020, 22(2): 1150-1160.
[7] 諸斐琴.城市軌道交通地面式超級(jí)電容儲(chǔ)能系統(tǒng)自適應(yīng)協(xié)調(diào)控制與容量配置綜合優(yōu)化研究[D].北京:北京交通大學(xué),2021.
基金項(xiàng)目:國(guó)家重點(diǎn)研發(fā)項(xiàng)目(2023YFB4302103)
第一作者簡(jiǎn)介:王寧(1998-),男,碩士,助理工程師。研究方向高速磁浮控制技術(shù)。
*通信作者:曲建真(1990-),男,博士,工程師。研究方向?yàn)殡娏﹄娮幼兞髌鳌?/p>