基于深度強(qiáng)化學(xué)習(xí)的新型電力系統(tǒng)調(diào)度優(yōu)化方法綜述

2023-09-18 07:38:20胡軼婕徐華廷郭創(chuàng)新

電力系統(tǒng)自動(dòng)化 2023年17期

馮斌，胡軼婕，黃剛，姜威，徐華廷，郭創(chuàng)新

（1.浙江大學(xué)電氣工程學(xué)院，浙江省杭州市 310027；2.之江實(shí)驗(yàn)室，浙江省杭州市 311121）

0 引言

新型電力系統(tǒng)是以確保能源電力安全為基本前提，以綠電消費(fèi)為主要目標(biāo)，以堅(jiān)強(qiáng)智能電網(wǎng)為樞紐平臺(tái)，以源網(wǎng)荷儲(chǔ)互動(dòng)及多能互補(bǔ)為支撐，具有綠色低碳、安全可控、智慧靈活、開放互動(dòng)、數(shù)字賦能、經(jīng)濟(jì)高效基本特征的電力系統(tǒng)［1］。隨著“碳達(dá)峰·碳中和”目標(biāo)的提出，新能源在電力能源供給中的占比逐漸增加，將形成新能源占比逐漸提高的新型電力系統(tǒng)［2］。未來，電力占終端能源形式的比例需提高至80%［3］，非化石能源在生產(chǎn)側(cè)的占比要達(dá)到80%，光伏、風(fēng)電等清潔能源裝機(jī)容量勢(shì)必逐年增長(zhǎng)。新能源的廣泛接入與迅速發(fā)展使得新型電力系統(tǒng)的隨機(jī)性、不確定性顯著增加，這給傳統(tǒng)的調(diào)度優(yōu)化方法帶來了極大的挑戰(zhàn)。

強(qiáng)化學(xué)習(xí)（reinforcement learning，RL）擁有強(qiáng)大的自主搜索和學(xué)習(xí)能力，與監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)并稱現(xiàn)今3 種機(jī)器學(xué)習(xí)范式［4］，其側(cè)重于學(xué)習(xí)實(shí)現(xiàn)目標(biāo)的最優(yōu)策略。而深度學(xué)習(xí)（deep learning，DL）［5］通過多層的網(wǎng)絡(luò)結(jié)構(gòu)，可以對(duì)高維數(shù)據(jù)特征進(jìn)行抽取，更側(cè)重于對(duì)事物的特征提取與感知理解。結(jié)合RL 與DL 的深度強(qiáng)化學(xué)習(xí)（deep reinforcement learning，DRL）在適應(yīng)復(fù)雜狀態(tài)環(huán)境的同時(shí)，能夠無需依賴于預(yù)測(cè)數(shù)據(jù)即可實(shí)現(xiàn)在線實(shí)時(shí)的調(diào)度控制，目前已經(jīng)在游戲［6］、圍棋［7］、機(jī)器人控制［8］、城市智慧交通［9］、ChatGPT 智能對(duì)話等領(lǐng)域得到了廣泛應(yīng)用，在很多場(chǎng)景下甚至能夠超越人類表現(xiàn)。

DRL 起源于動(dòng)態(tài)規(guī)劃，其實(shí)質(zhì)是解決一個(gè)動(dòng)態(tài)優(yōu)化問題，理論源于動(dòng)態(tài)規(guī)劃與馬爾可夫決策過程（Markov decision process，MDP），相較于啟發(fā)式搜索算法更具備理論基礎(chǔ)。DRL 作為一種數(shù)據(jù)驅(qū)動(dòng)方法，能夠從歷史經(jīng)驗(yàn)中學(xué)習(xí)決策調(diào)度方法，針對(duì)非線性、非凸問題具有很好的自適應(yīng)學(xué)習(xí)決策能力。目前，大多通過無模型的算法處理，避免了對(duì)不確定實(shí)時(shí)變化的物理模型進(jìn)行建模，適用于復(fù)雜多變的場(chǎng)景。相較于其他傳統(tǒng)優(yōu)化方法，DRL 對(duì)同一問題模型的不同數(shù)據(jù)具有更好的泛化能力，以及在相似問題之間具有更好的遷移性，并已在電網(wǎng)頻率控制［10］、電壓控制［11］等領(lǐng)域得到應(yīng)用。

本文從DRL 原理出發(fā)，對(duì)DRL 算法在新型電力系統(tǒng)調(diào)度中的應(yīng)用現(xiàn)狀進(jìn)行了總結(jié)。

1 新型電力系統(tǒng)調(diào)度問題

隨著新能源接入比例的提高、電網(wǎng)規(guī)模的不斷擴(kuò)大，為提高系統(tǒng)整體運(yùn)行的經(jīng)濟(jì)性與可靠性，應(yīng)協(xié)調(diào)調(diào)度電網(wǎng)的發(fā)電資源與用電資源。新型電力系統(tǒng)中的調(diào)度問題是為了解決電力系統(tǒng)供需平衡的高維、不確定性強(qiáng)的優(yōu)化問題。其中，電力系統(tǒng)經(jīng)濟(jì)調(diào)度（economic dispatch，ED）、最優(yōu)潮流（optimal power flow，OPF）和機(jī)組組合（unit commitment，UC）問題是電力系統(tǒng)運(yùn)行中的3 個(gè)關(guān)鍵問題。

1）經(jīng)濟(jì)調(diào)度問題是以最小化電力系統(tǒng)的總運(yùn)營(yíng)成本為目標(biāo)、滿足電力需求和各種運(yùn)行約束的優(yōu)化問題。傳統(tǒng)的經(jīng)濟(jì)調(diào)度問題是在滿足功率平衡和機(jī)組功率邊界的前提下，確定各火電發(fā)電機(jī)組的有功出力，使得總?cè)剂虾牧浚òl(fā)電成本）最小。隨著新能源出力不確定性的增加，系統(tǒng)的約束條件更加復(fù)雜、不確定性更強(qiáng)。

2）最優(yōu)潮流問題［12］是指在滿足電力系統(tǒng)潮流等式約束，以及節(jié)點(diǎn)電壓、線路潮流、發(fā)電機(jī)爬坡等不等式約束的情況下，在主網(wǎng)中實(shí)現(xiàn)發(fā)電成本最小或在配電網(wǎng)中實(shí)現(xiàn)網(wǎng)損最小的優(yōu)化問題。最優(yōu)潮流與經(jīng)濟(jì)調(diào)度問題的區(qū)別主要在于是否考慮電力系統(tǒng)潮流等式約束。新型電力系統(tǒng)所含風(fēng)電、光伏等間歇性新能源使得電力系統(tǒng)最優(yōu)潮流問題，尤其是交流最優(yōu)潮流問題［13］的求解更加復(fù)雜。

3）機(jī)組組合問題是在滿足系統(tǒng)負(fù)荷需求和其他約束條件時(shí)實(shí)現(xiàn)系統(tǒng)運(yùn)行成本最小的機(jī)組啟停計(jì)劃優(yōu)化問題。隨著大量新能源接入，機(jī)組組合方案繁多，不確定性增加，求解更加困難。

傳統(tǒng)的優(yōu)化調(diào)度方法往往需要對(duì)系統(tǒng)做出一系列假設(shè)，同時(shí)也難以應(yīng)對(duì)系統(tǒng)動(dòng)態(tài)變化的挑戰(zhàn)。隨機(jī)優(yōu)化、魯棒優(yōu)化、分布式魯棒優(yōu)化、啟發(fā)式優(yōu)化算法等傳統(tǒng)優(yōu)化算法被用于解決新型電力系統(tǒng)的不確定性問題，但它們都依賴于精準(zhǔn)的預(yù)測(cè)，難以應(yīng)對(duì)新能源出力與負(fù)荷需求多變的場(chǎng)景。隨機(jī)優(yōu)化常通過采樣、機(jī)會(huì)約束生成等方式將不確定性問題轉(zhuǎn)化為確定性問題，但是算法復(fù)雜度隨著場(chǎng)景的增加而增加；魯棒優(yōu)化通過給出不確定集的方式解決不確定性問題，但是通常其給出的優(yōu)化結(jié)果僅面向最惡劣的場(chǎng)景，過于保守；啟發(fā)式優(yōu)化算法，如遺傳算法、粒子群算法等，容易陷入局部最優(yōu)，而且動(dòng)作復(fù)雜度的增加給啟發(fā)式的優(yōu)化算法帶來嚴(yán)重的維數(shù)災(zāi)問題，難以穩(wěn)定收斂。

DRL 因其實(shí)時(shí)決策、不斷反饋修正的特性，能夠更好地應(yīng)對(duì)新型電力系統(tǒng)新能源的不確定性，可為新型電力系統(tǒng)調(diào)度問題提供新的解決途徑。

2 DRL 原理

2.1 從RL 到DRL

RL 借鑒了行為主義心理學(xué)，是一類特殊的機(jī)器學(xué)習(xí)算法。與監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的回歸分類目標(biāo)不同的是，RL 是一種最大化未來獎(jiǎng)勵(lì)的決策學(xué)習(xí)模型，通過與環(huán)境交互建立的MDP［14］解決復(fù)雜的序列決策問題。RL 中常見的概念包括智能體、環(huán)境、狀態(tài)（state，S）、動(dòng)作（action，A）、獎(jiǎng)勵(lì)（reward，R）。如圖1 所示，智能體處在環(huán)境中，執(zhí)行動(dòng)作后獲得一定的獎(jiǎng)勵(lì)，而環(huán)境由于智能體執(zhí)行的動(dòng)作發(fā)生狀態(tài)的變化。依據(jù)每一步獲得的獎(jiǎng)勵(lì)，通過特定的算法最大化未來的累計(jì)獎(jiǎng)勵(lì)是RL 算法的核心。詳細(xì)RL 原理見附錄A。

圖1 智能體與環(huán)境的交互過程Fig.1 Interaction process between agent and environment

在傳統(tǒng)的RL［15］中，一般可以通過迭代求解貝爾曼最優(yōu)方程獲得最優(yōu)動(dòng)作價(jià)值函數(shù)與狀態(tài)價(jià)值函數(shù)，進(jìn)而指導(dǎo)智能體做出選擇。但是在實(shí)際場(chǎng)景下，存在著迭代效率低、計(jì)算代價(jià)大等問題。為此，通常采用參數(shù)化的神經(jīng)網(wǎng)絡(luò)來近似估計(jì)最優(yōu)動(dòng)作價(jià)值函數(shù)和狀態(tài)價(jià)值函數(shù)，這也就形成了DRL。

2.2 DRL 算法

依據(jù)是否有模型，將DRL 算法分為基于模型的DRL 和無模型的DRL。其中，基于模型的DRL 是指智能體可以學(xué)習(xí)到環(huán)境動(dòng)態(tài)變化的參數(shù)。在無模型的DRL 中，依據(jù)智能體的動(dòng)作選擇方式，又可分為基于價(jià)值、基于策略、執(zhí)行者-評(píng)論者的算法，其中，執(zhí)行者-評(píng)論者算法也可以看做是結(jié)合了基于價(jià)值與基于策略的算法。

2.2.1 基于模型的DRL 算法

基于模型的DRL 算法需要對(duì)環(huán)境進(jìn)行建模，然后，基于模型給出策略選擇或者動(dòng)作規(guī)劃，因而其采樣效率較高。該環(huán)境通常指狀態(tài)轉(zhuǎn)移模型，即真實(shí)環(huán)境的動(dòng)態(tài)變化模型。

結(jié)合無模型微調(diào)的基于模型的RL［16］（modelbased RL with model-free fine-tuning，MBMF）是一種基于學(xué)習(xí)到的環(huán)境進(jìn)行模型預(yù)測(cè)控制的算法。MBMF 首先基于數(shù)據(jù)集訓(xùn)練神經(jīng)網(wǎng)絡(luò)動(dòng)態(tài)模型去學(xué)習(xí)環(huán)境；然后，針對(duì)該動(dòng)態(tài)模型執(zhí)行模型預(yù)測(cè)控制，并將控制器產(chǎn)生的運(yùn)行結(jié)果進(jìn)一步添加到神經(jīng)網(wǎng)絡(luò)動(dòng)態(tài)模型中進(jìn)行訓(xùn)練。重復(fù)整個(gè)迭代訓(xùn)練過程，直至MBMF 達(dá)到所需的性能表現(xiàn)。

AlphaZero［17］是一種利用已有環(huán)境的基于模型的DRL 算法。它是AlphaGo［7］的改進(jìn)，可實(shí)現(xiàn)從圍棋到各類棋類游戲的智能博弈，通過自主學(xué)習(xí)環(huán)境規(guī)劃搜索策略。AlphaZero 與MuZero［18］通過蒙特卡洛樹搜索（Monte Carlo tree search，MCTS）［19］對(duì)所學(xué)習(xí)得到的策略函數(shù)進(jìn)行搜索，實(shí)現(xiàn)了動(dòng)作的多樣性探索。

2.2.2 基于價(jià)值的DRL 算法

基于價(jià)值的DRL 算法是通過迭代或者訓(xùn)練得到最優(yōu)動(dòng)作價(jià)值函數(shù)，智能體依據(jù)最優(yōu)動(dòng)作價(jià)值函數(shù)選擇獲得最大的最優(yōu)動(dòng)作價(jià)值函數(shù)所對(duì)應(yīng)的動(dòng)作，從而實(shí)現(xiàn)了策略選擇。常見的基于價(jià)值的DRL算法包括深度Q 學(xué)習(xí)（deep Q-learning，DQN）［6，20］及其改進(jìn)算法、優(yōu)先經(jīng)驗(yàn)回放［21］、Double Qlearning［22］、Dueling DQN［23］和值分布RL 算法中的C51［24］以及Rainbow DQN［25］等。

最早提出的RL 算法是基于價(jià)值的Q 學(xué)習(xí)［15］與狀態(tài)-動(dòng)作-獎(jiǎng)勵(lì)-狀態(tài)-動(dòng)作（state-action-rewardstate-action，SARSA）［26］算法，它們是通過采用最優(yōu)貝爾曼方程更新Q 值表的方式，迭代得到最優(yōu)動(dòng)作價(jià)值。

隨后，文獻(xiàn)［6，20］將卷積神經(jīng)網(wǎng)絡(luò)（convolution neural network，CNN）與傳統(tǒng)RL 算法中的Q 學(xué)習(xí)算法結(jié)合，提出了DQN 模型。為避免蒙特卡洛更新帶來的巨大方差問題，DQN 采用時(shí)間差分算法更新最優(yōu)動(dòng)作價(jià)值函數(shù)，更新目標(biāo)如式（1）所示。

式中：yt為t時(shí)刻由時(shí)間差分算法得到的目標(biāo)動(dòng)作價(jià)值；rt為動(dòng)作得到的獎(jiǎng)勵(lì)；γ∈[0，1]為獎(jiǎng)勵(lì)衰減因子；Q(st+1，at；wt)為動(dòng)作價(jià)值的神經(jīng)網(wǎng)絡(luò)函數(shù)；st+1為t+1 時(shí)刻的狀態(tài)；at為t時(shí)刻的動(dòng)作；wt為t+1 時(shí)刻神經(jīng)網(wǎng)絡(luò)參數(shù)。

隨后，為解決DQN 過高估計(jì)最優(yōu)動(dòng)作價(jià)值函數(shù)的問題，在Double DQN［22］中引入目標(biāo)網(wǎng)絡(luò)，在Dueling DQN［23］中采用競(jìng)爭(zhēng)架構(gòu)分別估計(jì)優(yōu)勢(shì)函數(shù)和狀態(tài)價(jià)值函數(shù)。采用差異化的優(yōu)先經(jīng)驗(yàn)回放［21］提高訓(xùn)練效率，添加高斯噪聲以提高動(dòng)作的探索能力［27］。為充分利用動(dòng)作價(jià)值函數(shù)的分布信息，進(jìn)一步提出了分布式價(jià)值的C51 算法［24］以及學(xué)習(xí)分布分位數(shù)值的分位數(shù)回歸深度Q 學(xué)習(xí)（quantile regression DQN，QR-DQN）算法［28］，以及結(jié)合上述所有改進(jìn)的Rainbow DQN［25］算法。

雖然Rainbow DQN 算法在離散動(dòng)作空間的游戲策略問題上取得了不錯(cuò)的效果，但是只能針對(duì)離散動(dòng)作空間進(jìn)行建模。對(duì)于實(shí)際問題中常見的連續(xù)動(dòng)作空間則需要進(jìn)行離散化處理，可能會(huì)造成一定動(dòng)作空間的損失和維數(shù)增多的問題。

2.2.3 基于策略的DRL 算法

基于策略的DRL 算法也可稱作是基于策略梯度的DRL，相較于基于價(jià)值的DRL，其策略函數(shù)可以直接映射到連續(xù)動(dòng)作空間，對(duì)于連續(xù)控制問題具有更好的效果。

基于策略的DRL 是通過最大化獎(jiǎng)勵(lì)較高動(dòng)作的出現(xiàn)概率，實(shí)現(xiàn)未來期望獎(jiǎng)勵(lì)的最大化。這是一種端到端的學(xué)習(xí)方式，直接優(yōu)化策略的期望獎(jiǎng)勵(lì)。常見的基于策略的RL 算法有：經(jīng)典的策略梯度RL算法［29］、置信域策略優(yōu)化（trust region policy optimization，TRPO）［30］算法、近端策略優(yōu)化（proximal policy optimization，PPO）［31］算法等。

在基于策略的DRL 中，采用參數(shù)為θ的神經(jīng)網(wǎng)絡(luò)來代替策略函數(shù)。策略梯度表示形式如式（2）所示。

式中：g為策略梯度值；R為獎(jiǎng)勵(lì)；b為不依賴于動(dòng)作的基線；st為t時(shí)刻的狀態(tài)；T為該情節(jié)所經(jīng)歷的時(shí)間步；π(at∣st；θ) 為策略函數(shù)。梯度項(xiàng)logπ(at∣st；θ)為希望將情節(jié)獲得的獎(jiǎng)勵(lì)向上提高的梯度。

參數(shù)更新時(shí)將在現(xiàn)有參數(shù)θ上加上αg，實(shí)現(xiàn)梯度上升，其中，α為學(xué)習(xí)率。上述訓(xùn)練過程將最大化較高獎(jiǎng)勵(lì)動(dòng)作的出現(xiàn)概率。

RL 算法［29］使用蒙特卡洛方法更新策略梯度，具有較好的穩(wěn)定性，但是采樣效率較低，會(huì)帶來較大的估計(jì)方差。為此在策略學(xué)習(xí)中減去基線，可有效減少方差。由于基于策略的RL 對(duì)步長(zhǎng)十分敏感，上述方法難以直接選擇合適的步長(zhǎng)，如果新舊策略差異過大則不利于學(xué)習(xí)。TRPO［30］通過約束限制新舊策略動(dòng)作的KL（Kullback-Leibler）散度，避免了策略發(fā)生過大參數(shù)更新步的情況，解決了策略梯度更新步長(zhǎng)的問題。而PPO［31］則通過模型自適應(yīng)地調(diào)整新舊策略動(dòng)作的KL 散度，以保證策略梯度的穩(wěn)定更新。但是TRPO 和PPO 都是采用同步更新策略的算法，其每次更新都需要采樣大量樣本，算法復(fù)雜度高、訓(xùn)練效率低，并且其應(yīng)用也需要大量算力支撐。

2.2.4 執(zhí)行者-評(píng)論者DRL 算法

執(zhí)行者-評(píng)論者DRL 算法中的執(zhí)行者算法類似于基于策略的DRL 算法，評(píng)論者算法類似于基于價(jià)值的DRL 算法。因此，執(zhí)行者-評(píng)論者DRL 算法同時(shí)學(xué)習(xí)策略和價(jià)值函數(shù)，其框架圖如圖2 所示。執(zhí)行者-評(píng)論者也可以被認(rèn)為是一種基于策略的DRL 算法，特殊之處在于它使用了狀態(tài)價(jià)值函數(shù)作為式（2）的基線b，減小了方差，即Aπ(st，at)=Qπ(st，at)-Vπ(st)，其中，Qπ(st，at)為動(dòng)作價(jià)值，Vπ(st)為狀態(tài)價(jià)值。Aπ(st，at)也被稱為優(yōu)勢(shì)函數(shù)，若優(yōu)勢(shì)函數(shù)大于0，則表示該動(dòng)作優(yōu)于平均值，是合理的選擇。

圖2 執(zhí)行者-評(píng)論者DRL 算法框架Fig.2 Framework of actor-critic DRL algorithm

它既結(jié)合了基于價(jià)值和基于策略DRL 算法的優(yōu)點(diǎn)，也在一定程度上繼承了二者的缺點(diǎn)。常見的執(zhí)行者-評(píng)論者DRL 算法包括確定性策略梯度（deterministic policy gradient，DPG）算法［32］、深度確定性策略梯度（deep deterministic policy gradient，DDPG）［33］算法、柔性執(zhí)行者-評(píng)論者（soft actorcritic，SAC）［34］算法、異步優(yōu)勢(shì)執(zhí)行者-評(píng)論者（asynchronous advantage actor-critic，A3C）［35］算法、雙延遲確定性策略梯度（twin delayed deep deterministic policy gradient，TD3）算法［36］等。

DPG 每次確定性地探索一個(gè)動(dòng)作，降低了采樣需求，能夠處理動(dòng)作空間較大的問題，但為保證未知?jiǎng)幼鞯奶剿髂芰?，必須采用異步策略更新方法。DDPG 在DPG 的基礎(chǔ)上借鑒了DQN 在Q 學(xué)習(xí)基礎(chǔ)上改進(jìn)的思想，利用深度神經(jīng)網(wǎng)絡(luò)擬合DDPG 中的Q 函數(shù)，采用異步的Critic 估計(jì)策略梯度，使訓(xùn)練更加穩(wěn)定簡(jiǎn)單。TD3 在DDPG 的基礎(chǔ)上引入了性能更優(yōu)的Double DQN，并通過取2 個(gè)Critic 之間的最小值避免過擬合，解決了過高估計(jì)以及方差過大的問題。過高的估計(jì)會(huì)使得更新方向與理想情況有偏差，而方差過大會(huì)使得訓(xùn)練不穩(wěn)定。SAC 建立在非策略最大熵RL 框架［37］上，在實(shí)現(xiàn)策略預(yù)期回報(bào)最大化的同時(shí)也具有最大熵，可提升算法的探索能力。

上述異步策略更新算法可以在策略更新時(shí)重復(fù)利用過去的樣本，對(duì)樣本利用效率高。目前，常見的異步策略更新的DRL 算法，均是以DPG 為基礎(chǔ)的確定性策略算法，如DDPG、TD3 等。但是，基于確定性策略的算法對(duì)超參數(shù)敏感，收斂難度較大。A3C 中有多個(gè)智能體在中央處理器（central processing unit，CPU）多線程上異步執(zhí)行，使得樣本間的相關(guān)性很低。因此，A3C 中也沒有采用經(jīng)驗(yàn)回放的機(jī)制，而是直接采用同步策略更新機(jī)制。

2.2.5 多智能體與分層DRL 算法

在DRL 的基礎(chǔ)上，結(jié)合多智能體、分層級(jí)等理論，提出了一些適用于更加復(fù)雜場(chǎng)景的DRL 算法。

1）多智能體DRL 算法

考慮到現(xiàn)實(shí)復(fù)雜的實(shí)際環(huán)境中，往往不止一個(gè)動(dòng)作發(fā)出者，即有許多智能體通過共同交互信息實(shí)現(xiàn)合作或競(jìng)爭(zhēng)，其主要目標(biāo)是實(shí)現(xiàn)共同獎(jiǎng)勵(lì)的最大化與多智能體之間的均衡。早期的多智能體RL，考慮多智能體之間的互相博弈提出了Nash-Q 學(xué)習(xí)算法［38］，這類算法需要大量的存儲(chǔ)空間存儲(chǔ)Q 值，適用于規(guī)模較小的問題。

近年來，隨著DDPG、A3C 等算法擁有更優(yōu)的性能表現(xiàn)，目前，多智能體DRL 大多基于執(zhí)行者-評(píng)論者算法框架，其中，最具有代表性的是多智能體深度確定性策略梯度（multi-agent deep deterministic policy gradient，MADDPG）［39］和反事實(shí)基線的多智能體執(zhí)行者-評(píng)論者［40］。它們均采用集中式訓(xùn)練、分布式執(zhí)行的算法模式，利用所有狀態(tài)信息集中訓(xùn)練出評(píng)論者，每個(gè)智能體僅采用自身觀測(cè)到的信息，執(zhí)行各自的動(dòng)作。在智能體動(dòng)作執(zhí)行期間，解決了多智能體間信息及時(shí)共享的問題。在新型電力系統(tǒng)調(diào)度問題中，常見的多區(qū)域電網(wǎng)、微電網(wǎng)（microgrid，MG）、綜合能源系統(tǒng)都可以采用多智能體DRL 算法進(jìn)行求解。

此外，在基于價(jià)值分解的多智能體DRL 算法中，多個(gè)智能體通過簡(jiǎn)單加和局部?jī)r(jià)值函數(shù)［41］或采用非線性混合網(wǎng)絡(luò)［42］聯(lián)合價(jià)值函數(shù)，將各主體觀測(cè)到的局部?jī)r(jià)值函數(shù)合并為聯(lián)合價(jià)值函數(shù)。因此，此類算法大多用于共同合作問題。

2）分層DRL 算法

一個(gè)復(fù)雜問題往往會(huì)有龐大的狀態(tài)空間與動(dòng)作空間，導(dǎo)致實(shí)際獎(jiǎng)勵(lì)是非常稀疏的，而分層DRL 算法的提出將改善獎(jiǎng)勵(lì)反饋稀疏的問題。分層DRL［43］可以在一些復(fù)雜的DRL 任務(wù)環(huán)境下，將最終任務(wù)轉(zhuǎn)變?yōu)槎鄠€(gè)子任務(wù)的形式，實(shí)現(xiàn)DRL 任務(wù)的分解。通過各子主體策略來形成有效的全局策略。

經(jīng)典分層強(qiáng)化學(xué)習(xí)方法是將復(fù)雜問題建模為半馬爾可夫過程，底層策略建模為MDP 問題。經(jīng)典的分層強(qiáng)化學(xué)習(xí)算法包括Option［44］、分層抽象機(jī)（hierarchies of abstract machines，HAMs）［45］、

MAXQ［46］算法等。當(dāng)今，結(jié)合深度學(xué)習(xí)的分層DRL算法采用2 層結(jié)構(gòu)：上層結(jié)構(gòu)每隔一段時(shí)間進(jìn)行調(diào)用，根據(jù)調(diào)用時(shí)觀測(cè)到的狀態(tài)，給出下層子任務(wù)；下層結(jié)構(gòu)作為底層結(jié)構(gòu)，根據(jù)當(dāng)前目標(biāo)狀態(tài)和子任務(wù)產(chǎn)生動(dòng)作。例如，分層DQN［47］的雙層均采用DQN網(wǎng)絡(luò)，上層制定一個(gè)下層能夠?qū)崿F(xiàn)的小目標(biāo)并由下層網(wǎng)絡(luò)實(shí)現(xiàn)，待小目標(biāo)實(shí)現(xiàn)后或達(dá)到指定時(shí)間后，重復(fù)指定新的小目標(biāo)；子策略共享分層DRL 算法［48］將子策略參數(shù)共享，以提升子任務(wù)的訓(xùn)練效率。文獻(xiàn)［49］將分層DRL 算法應(yīng)用于多微電網(wǎng)經(jīng)濟(jì)調(diào)度模型，實(shí)現(xiàn)了長(zhǎng)短期利益結(jié)合的分布式經(jīng)濟(jì)調(diào)度。

3 DRL 在新型電力系統(tǒng)調(diào)度中的應(yīng)用分析

將DRL 應(yīng)用于新型電力系統(tǒng)調(diào)度問題時(shí)，需要定義DRL 中的智能體、環(huán)境、狀態(tài)、動(dòng)作以及獎(jiǎng)勵(lì)。智能體指動(dòng)作的發(fā)出者，也可認(rèn)為是系統(tǒng)運(yùn)行人員；環(huán)境指電力系統(tǒng)；狀態(tài)指環(huán)境中各個(gè)設(shè)備當(dāng)前的運(yùn)行狀態(tài)，如發(fā)電機(jī)上一時(shí)刻出力、電熱功率需求、風(fēng)光實(shí)時(shí)功率、目前所處的時(shí)段等；動(dòng)作指系統(tǒng)中可以人為控制調(diào)節(jié)的變量，如發(fā)電機(jī)出力、儲(chǔ)能等；獎(jiǎng)勵(lì)通常是需要實(shí)現(xiàn)的目標(biāo)，如最小化系統(tǒng)運(yùn)行成本、最大化新能源消納、最小化電壓頻率偏差等。關(guān)于DRL 應(yīng)用于新型電力系統(tǒng)調(diào)度的文獻(xiàn)詳見附錄B。

3.1 經(jīng)濟(jì)調(diào)度問題

在經(jīng)濟(jì)調(diào)度問題中需要決策的變量均為連續(xù)變量。因此，常采用DDPG、A3C、PPO 等具有連續(xù)動(dòng)作空間的DRL 算法。

1）大電網(wǎng)

針對(duì)含有風(fēng)光儲(chǔ)的大電網(wǎng)經(jīng)濟(jì)調(diào)度問題，文獻(xiàn)［50］在考慮備用的情況下，采用DDPG 應(yīng)對(duì)風(fēng)光荷不確定性以實(shí)現(xiàn)系統(tǒng)的動(dòng)態(tài)經(jīng)濟(jì)調(diào)度，但DDPG 不能夠?qū)崿F(xiàn)異步采樣。文獻(xiàn)［51］依據(jù)電網(wǎng)調(diào)度運(yùn)行指令下發(fā)的實(shí)際特點(diǎn)，考慮聯(lián)絡(luò)線功率、風(fēng)電場(chǎng)出力，采用A3C 算法實(shí)現(xiàn)多場(chǎng)景并行學(xué)習(xí)的智能經(jīng)濟(jì)調(diào)度。

當(dāng)涉及多區(qū)域電網(wǎng)經(jīng)濟(jì)調(diào)度問題時(shí)，由于模型復(fù)雜，涉及動(dòng)作空間大，常采用多智能體的算法降低動(dòng)作空間復(fù)雜度。文獻(xiàn)［52］提出的基于通信網(wǎng)絡(luò)架構(gòu)（CommNet）的分布式多智能體DRL 算法，在訓(xùn)練過程中可使各區(qū)域智能體間無須共享光伏、負(fù)荷預(yù)測(cè)數(shù)據(jù)和設(shè)備參數(shù)等信息。為避免有效決策信息的損失，文獻(xiàn)［53-54］沒有利用預(yù)測(cè)信息，直接采用端到端決策來進(jìn)一步提升調(diào)度的經(jīng)濟(jì)性。

2）微電網(wǎng)

針對(duì)含有風(fēng)光儲(chǔ)的微電網(wǎng)經(jīng)濟(jì)調(diào)度問題，文獻(xiàn)［55-59］的動(dòng)作對(duì)象均為儲(chǔ)能充放電，實(shí)現(xiàn)的目標(biāo)分別為光儲(chǔ)充電站收益最大化、微電網(wǎng)經(jīng)濟(jì)穩(wěn)定運(yùn)行、負(fù)荷需求與發(fā)電功率的精準(zhǔn)匹配、最小化運(yùn)行成本（并網(wǎng)）和盡量滿足負(fù)荷需求（孤島）。文獻(xiàn)［59-60］都考慮能源出力的隨機(jī)性，構(gòu)建了運(yùn)行期望最小化獎(jiǎng)勵(lì)函數(shù)?？紤]到多微電網(wǎng)的動(dòng)作空間維度以及學(xué)習(xí)復(fù)雜度，需要采用分層分布式的方式實(shí)現(xiàn)在線經(jīng)濟(jì)調(diào)度［49］。

3）虛擬電廠

針對(duì)含有風(fēng)光儲(chǔ)的虛擬電廠（virtual power plant，VPP）經(jīng)濟(jì)調(diào)度問題，文獻(xiàn)［61］將工業(yè)用戶中的可控負(fù)荷作為一種調(diào)度資源，考慮了光伏、風(fēng)電、微型燃?xì)廨啓C(jī)的環(huán)保與經(jīng)濟(jì)成本，基于A3C 算法的三層邊緣計(jì)算框架實(shí)現(xiàn)經(jīng)濟(jì)運(yùn)行策略的高效求解。文獻(xiàn)［62］考慮了儲(chǔ)能系統(tǒng)，基于對(duì)抗生成網(wǎng)絡(luò)生成的場(chǎng)景數(shù)據(jù)集以及DDPG 算法實(shí)現(xiàn)虛擬電廠的魯棒經(jīng)濟(jì)調(diào)度。但上述文獻(xiàn)并未考慮響應(yīng)信號(hào)在虛擬電廠內(nèi)部的分解，文獻(xiàn)［63］則考慮了上級(jí)總的響應(yīng)信號(hào)分解問題，并采用銳度感知最小化算法［64］，提升了算法對(duì)環(huán)境和獎(jiǎng)勵(lì)的魯棒性。

4）綜合能源系統(tǒng)

在含有熱、電、天然氣等綜合能源系統(tǒng)（integrated energy system，IES）經(jīng)濟(jì)調(diào)度問題中，文獻(xiàn)［65］采用DDPG 算法使綜合能源系統(tǒng)中的熱電聯(lián)供機(jī)組的電功率、燃?xì)忮仩t輸出的熱功率、儲(chǔ)能的充放電功率的經(jīng)濟(jì)調(diào)度動(dòng)作空間處于連續(xù)狀態(tài)。由于DDPG 對(duì)超參數(shù)敏感且動(dòng)作空間探索不足，采樣效率較低，文獻(xiàn)［66］采用SAC 算法，解決了電-氣綜合能源系統(tǒng)中天然氣系統(tǒng)利用傳統(tǒng)優(yōu)化方法難以凸化和收斂的問題，可有效應(yīng)對(duì)源荷不確定性，并實(shí)現(xiàn)RL 智能體模型秒級(jí)優(yōu)化調(diào)度決策。

考慮到DRL 算法對(duì)復(fù)雜動(dòng)作空間探索難度大，文獻(xiàn)［67］采用雙層RL 模型，上層采用RL 算法實(shí)現(xiàn)電池出力調(diào)度，下層采用混合整數(shù)線性規(guī)劃求解綜合能源系統(tǒng)經(jīng)濟(jì)調(diào)度問題，避免了約束作為懲罰項(xiàng)帶來的DRL 算法復(fù)雜度增加問題，提升了模型計(jì)算效率。

然而上述方法在保證約束的安全性上仍有一些欠缺，需要采用一些保障安全的算法。文獻(xiàn)［68］采用循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建新能源預(yù)測(cè)模型［69］，并引入了安全引導(dǎo)函數(shù)來保障策略的安全性，實(shí)現(xiàn)了綜合能源系統(tǒng)的安全低碳經(jīng)濟(jì)運(yùn)行。

相較于大電網(wǎng)、微電網(wǎng)、虛擬電廠，綜合能源系統(tǒng)可以實(shí)現(xiàn)多能源利用互補(bǔ)。例如，通過熱電聯(lián)供機(jī)組實(shí)現(xiàn)電力和熱量的同時(shí)生產(chǎn)；通過燃?xì)忮仩t輸出熱功率；通過電轉(zhuǎn)氣單元將電力轉(zhuǎn)換為氣體。隨著需要控制的設(shè)備種類及參數(shù)增多，動(dòng)作空間也將增加，會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)的訓(xùn)練收斂速度下降，甚至造成維數(shù)災(zāi)難。多智能體DRL 作為一種有效處理多智能體參與的決策方法，也逐漸在大規(guī)模綜合能源系統(tǒng)的經(jīng)濟(jì)調(diào)度問題中得到應(yīng)用。文獻(xiàn)［70］將綜合能源系統(tǒng)中的多個(gè)利益主體建模為多智能體，文獻(xiàn)［71-72］將多綜合能源區(qū)域（園區(qū)）建模為多個(gè)主體，而文獻(xiàn)［73］將電力系統(tǒng)和熱力系統(tǒng)分別建模為2 個(gè)主體。它們均取得了比單一智能體DRL 算法更優(yōu)的收斂速度和經(jīng)濟(jì)效益。同時(shí)，通過集中訓(xùn)練分散執(zhí)行的算法流程，可以解決各利益主體之間數(shù)據(jù)共享的問題。

3.2 最優(yōu)潮流問題

文獻(xiàn)［74］將傳統(tǒng)Q 學(xué)習(xí)算法應(yīng)用于電力系統(tǒng)最優(yōu)潮流計(jì)算領(lǐng)域，實(shí)現(xiàn)電力系統(tǒng)有功、無功、多目標(biāo)的最優(yōu)潮流計(jì)算。

但是，傳統(tǒng)的Q 學(xué)習(xí)采用離散動(dòng)作，會(huì)損失一部分動(dòng)作空間，為此需要采用基于策略或者執(zhí)行者-評(píng)論者的DRL 算法。文獻(xiàn)［75］基于CloudPSS 仿真云平臺(tái)，驗(yàn)證了基于DDPG 的最優(yōu)潮流計(jì)算的可行性；由于DDPG 中的評(píng)論者網(wǎng)絡(luò)難訓(xùn)練、不穩(wěn)定，文獻(xiàn)［76］雖然基于DDPG 算法構(gòu)建了執(zhí)行者網(wǎng)絡(luò)，但沒有使用評(píng)論者網(wǎng)絡(luò)，而是基于拉格朗日數(shù)學(xué)解析推導(dǎo)得到了確定性梯度。由于PPO 相比于DDPG具有更高的采樣效率、更穩(wěn)定的學(xué)習(xí)策略，以及更容易調(diào)節(jié)的超參數(shù)，文獻(xiàn)［77-78］采用基于模仿學(xué)習(xí)的PPO 算法求解交流最優(yōu)潮流問題。

前述的最優(yōu)潮流問題是針對(duì)主網(wǎng)的，而配電網(wǎng)由于沒有大型發(fā)電機(jī)組，其研究對(duì)象是在滿足潮流約束的同時(shí)，通過潮流合理分配使得網(wǎng)損最小。文獻(xiàn)［79］基于PPO 算法控制儲(chǔ)能有功功率、無功功率以及風(fēng)電的無功功率，實(shí)現(xiàn)了在不違反電壓和電池儲(chǔ)能容量約束的情況下配電網(wǎng)網(wǎng)損的最小化。文獻(xiàn)［80］采用完全分布式的PPO 算法，實(shí)現(xiàn)了不平衡配電網(wǎng)的光伏有功功率最大化輸出與電壓穩(wěn)定。

針對(duì)互聯(lián)的微電網(wǎng)，由于其動(dòng)作空間大，傳統(tǒng)單一智能體算法難以滿足計(jì)算需求，需要建模為多智能體DRL 問題求解。文獻(xiàn)［81］依據(jù)智能體的連續(xù)離散動(dòng)作空間，設(shè)置了雙層DRL，并將潮流等式約束設(shè)置在環(huán)境中；文獻(xiàn)［82］將潮流等安全約束構(gòu)建成梯度信息，保證最優(yōu)控制策略產(chǎn)生安全可行的決策方案。

由于并不是所有場(chǎng)景下的調(diào)度問題都是非凸的，可以將凸的子問題抽離出來，構(gòu)建優(yōu)化問題與DRL 結(jié)合的雙層求解結(jié)構(gòu)。文獻(xiàn)［83］將居民微電網(wǎng)的最優(yōu)運(yùn)行成本問題建模成混合整數(shù)二階錐的優(yōu)化問題，并將其轉(zhuǎn)化為MDP 主問題與最優(yōu)潮流二階錐優(yōu)化子問題，主問題采用MuZero［18］算法得到較優(yōu)的在線優(yōu)化結(jié)果。文獻(xiàn)［84］針對(duì)互聯(lián)微電網(wǎng)在信息不全情況下的潮流能量管理問題，考慮在配電網(wǎng)層面只能獲取公共連接點(diǎn)（point of common coupling，PCC）處的功率信息，設(shè)計(jì)了雙層算法。在上層基于改進(jìn)的Q 學(xué)習(xí)實(shí)現(xiàn)互聯(lián)微電網(wǎng)購(gòu)售電成本最優(yōu)，在下層針對(duì)單個(gè)微電網(wǎng)實(shí)現(xiàn)最優(yōu)潮流。文獻(xiàn)［81］雖然也采用了雙層DRL，但實(shí)際上是將離散動(dòng)作空間和連續(xù)動(dòng)作空間作為前后2 層DRL 的決策空間。

安全約束最優(yōu)潮流［85］增加了可靠性約束來確保電力系統(tǒng)能夠承受一定預(yù)想故障的沖擊。由于安全約束最優(yōu)潮流需要搜索預(yù)想故障集，如果采用基于優(yōu)化的交流最優(yōu)潮流，其計(jì)算量也非常大；而DRL 方法的提出，將有助于在交流最優(yōu)潮流的基礎(chǔ)上實(shí)現(xiàn)安全約束最優(yōu)潮流。文獻(xiàn)［86］以最小化約束越限為獎(jiǎng)勵(lì)，以提升系統(tǒng)在各種隨機(jī)場(chǎng)景下的N-1安全性為核心，采用A3C 算法結(jié)合電力領(lǐng)域知識(shí)在減小負(fù)荷削減量的同時(shí)降低了系統(tǒng)運(yùn)行成本。

DRL 算法能夠在一定程度上解決電力系統(tǒng)交流最優(yōu)潮流的精確求解問題，尤其是在非凸約束增多時(shí)，優(yōu)化求解復(fù)雜度會(huì)急劇提升。而DRL 在處理類似問題時(shí)可以進(jìn)行精確建模，而不必為實(shí)現(xiàn)凸優(yōu)化而損失模型精度，甚至可以得到比凸松弛后的交流最優(yōu)潮流優(yōu)化問題更經(jīng)濟(jì)的解。此外，DRL 算法在需要大規(guī)模搜索時(shí)也有一定優(yōu)勢(shì)。

由于最優(yōu)潮流問題需要考慮潮流等式約束，因而相較于經(jīng)濟(jì)調(diào)度問題，其動(dòng)作空間受到一定的限制，這也是當(dāng)前基于DRL 算法求解最優(yōu)潮流的難點(diǎn)。這需要保證在潮流等式約束被滿足的同時(shí)，處理新能源出力的不確定性并尋求最優(yōu)發(fā)電調(diào)度計(jì)劃。現(xiàn)階段文獻(xiàn)主要將潮流等式約束放在環(huán)境中處理，較少文獻(xiàn)將潮流等式約束融合至策略產(chǎn)生的約束中，形成安全的策略［82］。

3.3 機(jī)組組合問題

文獻(xiàn)［87］采用RL 算法求解機(jī)組組合問題，而文獻(xiàn)［88］采用分布式Q 學(xué)習(xí)算法，因僅涉及局部通信，提高了求解的魯棒性。但是，Q 學(xué)習(xí)算法的動(dòng)作空間受Q 表格的限制，難以處理高維動(dòng)作狀態(tài)。為此，文獻(xiàn)［89］采用深度神經(jīng)網(wǎng)絡(luò)逼近Q 函數(shù)的DQN算法實(shí)現(xiàn)高維機(jī)組組合動(dòng)作空間的探索。為應(yīng)對(duì)新能源出力的不確定性，文獻(xiàn)［90］針對(duì)隨機(jī)波動(dòng)的光伏出力，采用全連接神經(jīng)網(wǎng)絡(luò)擬合Q 值求解考慮光伏出力的機(jī)組組合問題。

由于機(jī)組組合的動(dòng)作空間隨著機(jī)組數(shù)量而急劇增長(zhǎng)，在現(xiàn)有文獻(xiàn)中，Q 學(xué)習(xí)算法最多僅能應(yīng)用于含12 臺(tái)機(jī)組的算例。為進(jìn)一步克服機(jī)組動(dòng)作空間隨機(jī)組數(shù)量呈幾何增長(zhǎng)的問題，文獻(xiàn)［91］采用引導(dǎo)樹搜索方法實(shí)現(xiàn)了對(duì)動(dòng)作空間的快速高效搜索，可求解30 臺(tái)機(jī)組組合問題，相比于混合整數(shù)線性規(guī)劃算法，可減少機(jī)組的頻繁動(dòng)作，并在降低系統(tǒng)運(yùn)行成本的同時(shí)減少了負(fù)荷損失概率。

通常在機(jī)組組合問題中，除決策機(jī)組啟停的離散量外，還需要同時(shí)給出機(jī)組出力的連續(xù)決策變量。文獻(xiàn)［89，91］采用Lambda 迭代法進(jìn)行求解；文獻(xiàn)［88］將機(jī)組組合和經(jīng)濟(jì)調(diào)度問題建模為一個(gè)問題，將連續(xù)機(jī)組出力作為動(dòng)作對(duì)象，動(dòng)作空間則滿足機(jī)組啟停等約束。文獻(xiàn)［92］采用SAC 確定機(jī)組啟停計(jì)劃，然后通過Cplex 求解器求解單時(shí)段優(yōu)化問題得到機(jī)組出力。而文獻(xiàn)［87，90］并未提及機(jī)組出力的決策過程。

在機(jī)組組合問題中，機(jī)組啟停動(dòng)作空間是一個(gè)離散的動(dòng)作空間。采用諸如DQN、PPO 等一般的DRL 算法難以有效應(yīng)對(duì)機(jī)組數(shù)增加而帶來動(dòng)作空間維度呈指數(shù)增長(zhǎng)的問題。因而，基于一般的DRL算法僅能夠解決機(jī)組數(shù)較少的機(jī)組組合問題，并且較少涉及新能源接入。但一般的DRL 算法對(duì)環(huán)境的探索能力有限，需要結(jié)合樹搜索算法或者智能體提前預(yù)知一定的環(huán)境模型信息，進(jìn)而提升或引導(dǎo)智能體對(duì)高維動(dòng)作空間的探索效率。

機(jī)組組合問題作為一個(gè)長(zhǎng)時(shí)間序列決策問題，即使采用先進(jìn)的DRL 技術(shù)也難以實(shí)現(xiàn)較好的決策，目前在仿真算例中仍存在較多的問題亟待解決。其中，一個(gè)較為關(guān)鍵的問題是用電計(jì)劃無法完全被滿足。在理論研究中，常將用電計(jì)劃滿足程度表述為失負(fù)荷風(fēng)險(xiǎn)。由于機(jī)組組合的動(dòng)作空間極大，在機(jī)組數(shù)量較多、測(cè)試時(shí)間較長(zhǎng)的情況下，失負(fù)荷通常是不可避免的。因此，后續(xù)的研究重點(diǎn)是改進(jìn)動(dòng)作空間的建模形式或采用學(xué)習(xí)能力更強(qiáng)的算法等以確保用電計(jì)劃完全滿足。

3.4 應(yīng)用前景分析

由于電網(wǎng)對(duì)于安全性和供電可靠性要求較高，實(shí)際落地應(yīng)用不可能一蹴而就?？紤]到?jīng)Q策的穩(wěn)定性、安全性以及誤決策的危害，可以先在配電網(wǎng)或用戶側(cè)進(jìn)行一些嘗試，然后，再?gòu)男^(qū)域低電壓等級(jí)慢慢推廣到大區(qū)域高電壓等級(jí)。在配電網(wǎng)側(cè)，由于涉及的設(shè)備種類多樣、波動(dòng)性較大，對(duì)于算法的實(shí)時(shí)性要求高，可以采用DRL 算法進(jìn)行實(shí)時(shí)經(jīng)濟(jì)調(diào)度、設(shè)備出力控制、電壓控制等，以實(shí)現(xiàn)配電網(wǎng)眾多設(shè)備的安全實(shí)時(shí)經(jīng)濟(jì)運(yùn)行。在用戶側(cè)，可以實(shí)時(shí)獲取價(jià)格信號(hào)和屋頂光伏等新能源出力信息，采用DRL 算法實(shí)時(shí)控制需求響應(yīng)、家用電器、溫控負(fù)荷等。文獻(xiàn)［93］將RL 算法應(yīng)用于美國(guó)科羅拉多州一個(gè)包含27個(gè)家庭的微電網(wǎng)中，應(yīng)用結(jié)果表明，采用RL 算法可大幅度降低用戶用電成本，實(shí)現(xiàn)秒級(jí)別的優(yōu)化控制。文獻(xiàn)［94］采用擬合Q 迭代算法實(shí)現(xiàn)電熱水器的控制。該項(xiàng)目是住宅需求響應(yīng)試點(diǎn)項(xiàng)目的一部分，其中，10 臺(tái)電熱水器用于直接負(fù)荷控制，每臺(tái)電熱水器配備了8 個(gè)溫度傳感器和1 個(gè)可控功率加熱裝置。在試點(diǎn)項(xiàng)目中，相比于恒溫控制器，采用RL算法可使電熱水器的總能耗成本降低15%。2021年5—6 月，上海某寫字樓中央冷水機(jī)組采用RL 算法控制冷卻機(jī)組和冷卻水泵來重設(shè)定點(diǎn)溫度［95］，實(shí)現(xiàn)了近似專家系統(tǒng)的控制效果，并驗(yàn)證了RL 決策系統(tǒng)的魯棒性、穩(wěn)定性和學(xué)習(xí)速度。

在大電網(wǎng)側(cè)，隨著新能源廣泛接入，源荷波動(dòng)愈加劇烈，系統(tǒng)對(duì)于日內(nèi)實(shí)時(shí)優(yōu)化的需求上升?？梢韵炔扇?shù)據(jù)接入、輔助決策方式進(jìn)行試點(diǎn)運(yùn)行。如果在試點(diǎn)過程中出現(xiàn)錯(cuò)誤，則需要對(duì)算法進(jìn)一步校驗(yàn)，必要時(shí)可以增加一些人工調(diào)度經(jīng)驗(yàn)規(guī)則，采用數(shù)據(jù)知識(shí)混合驅(qū)動(dòng)的方法保證決策的正確性。常見的實(shí)時(shí)調(diào)度場(chǎng)景包括日前和日內(nèi)的實(shí)時(shí)計(jì)劃動(dòng)態(tài)快速調(diào)整、電力市場(chǎng)實(shí)時(shí)的報(bào)價(jià)出清策略等。文獻(xiàn)［96］所研發(fā)的電網(wǎng)腦于2019 年11 月部署在中國(guó)江蘇電網(wǎng)調(diào)控中心安全Ⅰ區(qū)。電網(wǎng)腦能在滿足調(diào)控需求的前提下，在20 ms 內(nèi)對(duì)電壓、潮流越界等問題提供解決方案，快速消除風(fēng)險(xiǎn)，同時(shí)降低約3.5%的網(wǎng)損。該成果可用于輔助調(diào)度員對(duì)電壓與聯(lián)絡(luò)線潮流進(jìn)行控制，進(jìn)一步可作為全自動(dòng)化調(diào)度的基礎(chǔ)技術(shù)手段。

在海量數(shù)據(jù)場(chǎng)景下，DRL 作為一種數(shù)據(jù)驅(qū)動(dòng)的決策方案，能夠在保證目標(biāo)最優(yōu)性的同時(shí)更快速地求解目標(biāo)函數(shù)，獲得比傳統(tǒng)方法更高效經(jīng)濟(jì)的策略［86，91］。例如，在風(fēng)險(xiǎn)評(píng)估中，DRL 可以快速搜索高風(fēng)險(xiǎn)級(jí)聯(lián)故障［97-98］，也可以將DRL 與電力系統(tǒng)運(yùn)籌優(yōu)化方法深度結(jié)合，通過DRL 加速優(yōu)化計(jì)算或者實(shí)現(xiàn)精確建模與求解。

4 研究方向展望

DRL 算法能夠?qū)χ悄荏w進(jìn)行針對(duì)性訓(xùn)練，并能夠根據(jù)場(chǎng)景的變化快速求得最優(yōu)管理策略，滿足電網(wǎng)運(yùn)行的實(shí)時(shí)性要求。但DRL 作為一種基于深度神經(jīng)網(wǎng)絡(luò)的算法，需要大量學(xué)習(xí)仿真數(shù)據(jù)，并且所得到的結(jié)果較難解釋。電力系統(tǒng)調(diào)度是電力系統(tǒng)的核心環(huán)節(jié)，一般不允許出現(xiàn)差錯(cuò)。若DRL 在電力系統(tǒng)調(diào)度中獲得應(yīng)用，還需要在以下方面做進(jìn)一步深入的研究。

1）建立真實(shí)的電網(wǎng)仿真環(huán)境

DRL 需要大量學(xué)習(xí)仿真數(shù)據(jù)。在電力系統(tǒng)中，通常需要單獨(dú)搭建適配于電力系統(tǒng)的環(huán)境，智能體在與環(huán)境交互的過程中，產(chǎn)生大量情節(jié)，這也就是DRL 需要學(xué)習(xí)的仿真數(shù)據(jù)。DRL 的目標(biāo)是最大化獎(jiǎng)勵(lì)，因此，可以通過獎(jiǎng)勵(lì)的設(shè)置對(duì)違反的約束給予懲罰，將需要實(shí)現(xiàn)的經(jīng)濟(jì)性、安全性目標(biāo)設(shè)置在獎(jiǎng)勵(lì)中?？紤]到DRL 的訓(xùn)練需要搭建類似于Gym［99］的電網(wǎng)環(huán)境，當(dāng)前已有不少開源工作者構(gòu)建了類似的開源環(huán)境庫(kù)，例如，Gym-ANM［100］、PowerGym［101］、Grid2op［102］等。未來，需要基于數(shù)字孿生，搭建電網(wǎng)仿真系統(tǒng)，加強(qiáng)數(shù)字資源的積累，為應(yīng)用提供基礎(chǔ)。

2）算法性能的提升

隨著建模對(duì)象和環(huán)境逐漸復(fù)雜，在大規(guī)模復(fù)雜環(huán)境下DRL 收斂求解時(shí)間也會(huì)隨之增加。如果在實(shí)際中求解一個(gè)大規(guī)模復(fù)雜新型電力系統(tǒng)調(diào)度問題時(shí)，必然會(huì)遇到維度災(zāi)難問題。當(dāng)動(dòng)作空間維數(shù)過大時(shí)，可搜索的動(dòng)作空間將很大，進(jìn)而影響DRL 收斂速度和動(dòng)作的準(zhǔn)確性。此外，如果是類似機(jī)組組合問題的0-1 離散變量過多，也會(huì)加劇DRL 訓(xùn)練的難度。隨著DRL 理論的不斷發(fā)展，未來可以考慮引入模仿學(xué)習(xí)、元學(xué)習(xí)的思想［103］，以便縮短復(fù)雜環(huán)境下智能體的培訓(xùn)時(shí)間，提高性能。

在與環(huán)境交互計(jì)算方面，當(dāng)前智能體與環(huán)境的模擬交互過程以及數(shù)據(jù)的傳輸通信仍然是通過CPU 完成的。如果能夠開發(fā)類似于Isaac Gym 的圖形處理器（graphics processing unit，GPU）環(huán)境，環(huán)境的模擬和神經(jīng)網(wǎng)絡(luò)的訓(xùn)練都將置于GPU 內(nèi)，使得數(shù)據(jù)直接從內(nèi)存?zhèn)鬟f到GPU 的訓(xùn)練框架中（如PyTorch），不受CPU 數(shù)據(jù)傳輸限制，則將大大加快目前的訓(xùn)練速度，進(jìn)一步提高DRL 求解大規(guī)模復(fù)雜問題的性能。

3）安全性研究

由于DRL 方法輸出的決策存在不確定性，其安全性不如傳統(tǒng)優(yōu)化算法，可能會(huì)給出不符合電網(wǎng)安全運(yùn)行的結(jié)果，這時(shí)便需要算法有能力給出規(guī)避機(jī)制，實(shí)現(xiàn)電力系統(tǒng)的安全穩(wěn)定運(yùn)行。對(duì)于新能源全部消納的要求，可以允許存在一定的棄風(fēng)棄光，但在有嚴(yán)格物理安全約束要求時(shí)，如果DRL 不能夠完全確保得出的決策滿足安全約束，將會(huì)導(dǎo)致系統(tǒng)安全問題。當(dāng)前許多研究基于DRL 的調(diào)度文獻(xiàn)未涉及系統(tǒng)安全約束的問題，即使是涉及系統(tǒng)安全性的文獻(xiàn)，也基本是將約束建模成獎(jiǎng)勵(lì)函數(shù)懲罰項(xiàng)的形式，極少?gòu)臄?shù)學(xué)理論上證明DRL 算法可滿足安全約束條件。也有將約束在建模過程中直接融合在MDP過程中，形成安全可靠的DRL 算法。進(jìn)一步，也可嘗試采用安全RL 算法［104］保證策略操作的安全性。

4）可解釋性研究

傳統(tǒng)基于價(jià)值或基于策略的DRL 算法，具備強(qiáng)邏輯性和可解釋性。但神經(jīng)網(wǎng)絡(luò)模型也被稱為黑盒子模型，缺乏一定的解釋性。而DRL 是在RL 的基礎(chǔ)上，引入了神經(jīng)網(wǎng)絡(luò)來擬合價(jià)值函數(shù)或（和）策略函數(shù)，對(duì)復(fù)雜問題的建模具有更好的實(shí)驗(yàn)效果。但是，神經(jīng)網(wǎng)絡(luò)的引入不利于其可解釋性，難以在實(shí)際應(yīng)用中從原理上說服調(diào)度人員依據(jù)DRL 算法給出的決策進(jìn)行操作。未來，可結(jié)合可解釋性機(jī)器學(xué)習(xí)給出可解釋性的策略動(dòng)作，提升DRL 的可解釋性，讓調(diào)度人員更易于接受人工智能算法的決策結(jié)果。

5）遷移性和魯棒性研究

目前，研究性論文中智能體所處的環(huán)境都是電力系統(tǒng)仿真模擬環(huán)境，數(shù)據(jù)均為理想化的數(shù)據(jù)，不存在數(shù)據(jù)干擾的情況。而在實(shí)際運(yùn)行的電力系統(tǒng)環(huán)境下，如何保證DRL 算法的正確性、保證模型的魯棒性是值得考慮的問題。文獻(xiàn)［63］通過使用銳度感知最小化［64］實(shí)現(xiàn)了噪聲的魯棒性，此外，在DRL 算法領(lǐng)域也出現(xiàn)了魯棒DRL 算法［105］，這也是未來可以嘗試的解決方法。

5 結(jié)語

本文介紹了新型電力系統(tǒng)調(diào)度問題，闡述了基于模型、基于價(jià)值、基于策略和執(zhí)行者-評(píng)論者的DRL 算法原理，以及在調(diào)度中可嘗試應(yīng)用的DRL算法。在經(jīng)濟(jì)調(diào)度問題中，分別從大電網(wǎng)、微電網(wǎng)、虛擬電廠、綜合能源系統(tǒng)角度總結(jié)了DRL 應(yīng)用的結(jié)果；在最優(yōu)潮流問題中，以交流最優(yōu)潮流模型為基礎(chǔ)，總結(jié)了主網(wǎng)、配電網(wǎng)、微電網(wǎng)以及安全約束最優(yōu)潮流問題的DRL 解決方案；在機(jī)組組合問題中，總結(jié)了火電發(fā)電機(jī)組的機(jī)組組合和考慮新能源的機(jī)組組合問題。最后，分析了當(dāng)前應(yīng)用前景，并論述了未來研究方向。

本文受國(guó)家自然科學(xué)基金項(xiàng)目（52007173,U19B2042）資助，謹(jǐn)此致謝！

附錄見本刊網(wǎng)絡(luò)版（http：//www.aeps-info.com/aeps/ch/index.aspx），掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡