基于深度強化學習的虛擬電廠優(yōu)化調(diào)度研究

2024-09-18 00:00:00趙慶瑾

消費電子 2024年8期

【關(guān)鍵詞】虛擬電廠；經(jīng)濟調(diào)度；深度強化學習

引言

分布式電源出力的隨機性與波動性會給電力系統(tǒng)帶來電壓閃變、線路阻塞等穩(wěn)定性問題。在此背景下，虛擬電廠通過聚合配網(wǎng)側(cè)的分布式資源，使其成為一個具有一定程度可控的聚合體，有助于電力系統(tǒng)的安全穩(wěn)定運行。

在模型優(yōu)化研究中，常采用數(shù)學規(guī)劃法、啟發(fā)式算法來求解目標函數(shù)。由于虛擬電廠考慮實時調(diào)度，傳統(tǒng)的啟發(fā)式方法需要對每個決策重新運行優(yōu)化過程，計算復雜度較高。強化學習（reinforcement learning，RL）作為一種數(shù)據(jù)驅(qū)動的人工智能技術(shù)，在智能體與環(huán)境交互過程中學習策略達成回報最大化，在電力系統(tǒng)決策領(lǐng)域得到了廣泛應用。文獻[1]將電動汽車充放電過程建模為馬爾可夫決策過程，應用DRL算法確定充電策略，平衡了需求響應收益與用戶滿意度。文獻[2]提出了一種基于分層深度強化學習的社區(qū)能源交易方案，顯著降低了產(chǎn)銷者的日常成本。文獻[3]利用無模型DRL方法優(yōu)化壓縮空氣儲能（CAES）與光伏聯(lián)合運行系統(tǒng)，實現(xiàn)穩(wěn)定的能量套利。文獻[4]利用深度強化學習方法來解決復合儲能系統(tǒng)的序列決策問題，訓練完成后能夠根據(jù)環(huán)境場景選擇充放電動作，實現(xiàn)實時優(yōu)化調(diào)度。[1-4]

針對虛擬電廠的實時優(yōu)化問題，本文提出了基于深度確定性策略梯度算法的虛擬電廠優(yōu)化調(diào)度方法，通過仿真驗證了所提方法的有效性。

一、虛擬電廠優(yōu)化問題建模

（一）目標函數(shù)

虛擬電廠經(jīng)濟調(diào)度的目標是最大化虛擬電廠的凈收益。目標函數(shù)如式（1）：

max f=RRT+RLoad-CMT-CESS-CDR（1）

（1）市場交易收益

（2）內(nèi)部負荷收益

式中，ρRE"為終端電價。

（3）微型燃氣機組成本

微型燃氣輪機成本可以通過一次函數(shù)來近似估算[5]：

式中，a 、b為燃氣機組的成本系數(shù)。

（4）儲能設(shè)備成本

儲能的損耗成本可以通過一次函數(shù)近似估算[6]：

式中， kESS為儲能的損耗成本系數(shù)。

（5）需求響應成本

式中，KdDR、KuDR"分別為削負荷和增負荷的補貼單價；PdDR t、PuDR t"分別為在t時刻進行削負荷和增負荷的響應功率。

（二）約束條件

（1）系統(tǒng)功率平衡約束

PRT t+PW t+PV t+PMT t=PL t +PDR t+PESS t（7）

（2）儲能運行狀態(tài)約束

SOCmin≤SOCt≤SOCmax（8）

PESS min≤PESS t≤PESS max（9）

（3）需求響應相關(guān)約束

（4）微型燃氣輪機功率約束

PMT min≤PMT t≤PMT max（11）

二、深度強化學習算法

（一）算法簡介

深度確定性策略梯度（Deep Deterministic PolicyGradient，DDPG）算法是一種結(jié)合了策略梯度方法和深度學習的強化學習算法[7]。 DDPG在DQN算法基礎(chǔ)上進行改進并結(jié)合了AC框架，利用深度神經(jīng)網(wǎng)絡(luò)來近似策略函數(shù)（Actor）和價值函數(shù)（Critic），使得算法能夠在高維連續(xù)動作空間中有效學習策略。

由于輸出的是確定性的動作，為了兼顧訓練過程中的探索和利用，通常對動作增加一定的噪聲，防止算法過早地收斂到局部最優(yōu)。最終執(zhí)行的動作的表達式為：

a=μ（s;θ）+N（12）

高斯分布噪聲和Ornstein-Uhlenbeck（OU）過程是兩種常用的動作探索噪聲。本文采用了一種基于高斯分布噪聲的邊界逆向探索機制，其主要思想是在能量邊界進行探索時，若動作使得能量越界，立即對動作添加反向探索，引導智能體探索的方向，加速收斂。具體過程如下所示：

式中，clip函數(shù)確保儲能動作在添加噪聲后不會超出上下界， a' ess為最終選擇執(zhí)行的儲能動作。

（二）構(gòu)建馬爾可夫決策過程

（1）狀態(tài)空間

（二）構(gòu)建馬爾可夫決策過程

（1）狀態(tài)空間

狀態(tài)空間參數(shù)包括光伏實時發(fā)電功率、風力實時發(fā)電功率、實時負荷功率、實時市場電價、儲能的荷電狀態(tài)。定義為：

（2）動作空間

動作空間參數(shù)包括儲能單元充放電功率、微型燃氣輪機輸出功率、需求響應比例。定義為：

智能體在每一輪優(yōu)化過程中決策的變量為、和，購售電功率可以由功率平衡約束式（7）計算出來。

（3）獎勵函數(shù)

優(yōu)化目標是在滿足約束的前提下使虛擬電廠凈收益最大，因此獎勵函數(shù)定義為：

其中，F(xiàn)為式（1）中的凈收益，ω1、ω2為權(quán)重系數(shù)，用于將獎勵函數(shù)標準化到同一數(shù)量級，Penalty為儲能荷電狀態(tài)越界懲罰。

三、算例分析

（一）運行數(shù)據(jù)及參數(shù)設(shè)置

本文所使用的光伏發(fā)電、風力發(fā)電和負載數(shù)據(jù)來自開源數(shù)據(jù)平臺Open Power System Date[8]，以一小時為時間步長。本文的24小時電價是基于國內(nèi)某省夏季分時電價，加入高斯分布噪聲形成的電價曲線，虛擬電廠對內(nèi)終端零售電價取1元/kWh。

（二）模型訓練

本文的虛擬電廠優(yōu)化調(diào)度訓練任務(wù)在Python3.9環(huán)境下運行。在使用DDPG算法進行訓練時，先將狀態(tài)輸入的各個變量歸一化到同一數(shù)量級，以避免訓練過程中出現(xiàn)梯度消失的現(xiàn)象。在每回合開始時，儲能單元SOC會初始化至40%。

獎勵的收斂過程如圖所示：

可以看出，在訓練的初期越界的情況不可避免，隨著訓練的進行獲得的獎勵震蕩上升，逐漸收斂到一個穩(wěn)定的值附近。

（三）結(jié)果分析

將訓練好的模型保存，選取某典型日進行在線決策。

從優(yōu)化的結(jié)果來看，儲能單元在電價較低的3：00-10：00選擇充電動作，在電價較高的16：00-24：00選擇放電動作，基本實現(xiàn)了低充高放的套利策略。微型燃氣輪機選擇在電價較低的時段選擇以最小發(fā)電功率運行，電價較高時選擇高功率運行。這是因為在電價高于微型燃氣輪機邊際發(fā)電成本時，此時發(fā)電取得正向的收益，當電價低于微型燃氣輪機邊際發(fā)電成本時，則僅保持最低發(fā)電功率，電力缺口由市場購電補充。結(jié)合電價和終端電價的關(guān)系，可以看出需求響應計劃與兩者的差額有關(guān)，在電價較低的時段，此時選擇增加負荷，在減去補貼成本后，以內(nèi)部終端電價向用戶收取增負荷部分的電費時仍能從中獲利。在電價較高的時段，選擇發(fā)布削減負荷的指令，將節(jié)約下來的負荷部分的等效出力以高電價在市場售出套利。

結(jié)語

本文提出了一種基于深度強化學習DDPG算法的虛擬電廠優(yōu)化調(diào)度策略。實驗結(jié)果顯示，所提出的基于DRL的模型可以有效識別環(huán)境中狀態(tài)信息并做出合理的調(diào)度安排以提高虛擬電廠的凈收益。此外，本文的模型未考慮分布式資源接入配網(wǎng)時的系統(tǒng)潮流約束，兼顧經(jīng)濟和安全調(diào)度將是下一步研究的重點。

參考文獻：

[1] JIN， RUIYANG， ZHOU， YUKE， LU， CHAO， et al. Deep reinforcement learning-based strategy for charging"station participating in demand response[J]. Applied energy，2022，328（Dec.15）：1-13.

[2] L. Yan， X. Chen， Y. Chen and J. Wen. A Hierarchical Deep Reinforcement Learning-Based Community"Energy Trading Scheme for a Neighborhood of Smart Households[J].in IEEE Transactions on Smart Grid，2022，13（6）：4747-4758.

[3] AMIRHOSSEIN DOLATABADI， HUSSEIN ABDELTAWAB， YASSER ABDEL-RADY I. MOHAMED. Deep Reinforcement"Learning-Based Self-Scheduling Strategy for a CAES-PV System Using Accurate Sky Images-Based Forecasting[J].IEEE Transactions on Power Systems： A Publication of the Power Engineering Society，2023，38（2）：1608-1618.

[4] 張自東，邱才明，張東霞，等. 基于深度強化學習的微電網(wǎng)復合儲能協(xié)調(diào)控制方法[J]. 電網(wǎng)技術(shù)，2019，43（6）：1914-1921.

[5] 張虹，馬鴻君，閆賀，等. 計及WCVaR 評估的微電網(wǎng)供需協(xié)同兩階段日前優(yōu)化調(diào)度[J]. 電力系統(tǒng)自動化，2021，45（2）：55-63.

[6] Hongseok K ，Joohee L ，Shahab B ， et al.Direct Energy Trading of Microgrids in Distribution Energy"Market[J].IEEE Transactions on Power Systems，2020，35（1）：639-651.

[7] Lillicrap P T ，Hunt J J ，Pritzel A ， et al.Continuous control with deep reinforcement learning.[J].CoRR，2015，abs/1509.02971

[8] Wiese F ，Schlecht I ，Bunke W ， et al.Open Power System Data – Frictionless data for electricity"system modelling[J].Applied Energy，2019，236401-409.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于深度強化學習的虛擬電廠優(yōu)化調(diào)度研究

引言

一、虛擬電廠優(yōu)化問題建模

二、深度強化學習算法

三、算例分析

結(jié)語

一、虛擬電廠優(yōu)化問題建模

三、算例分析