国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度強(qiáng)化學(xué)習(xí)的新型電力系統(tǒng)調(diào)度優(yōu)化方法綜述

2023-09-18 07:38:20胡軼婕徐華廷郭創(chuàng)新
電力系統(tǒng)自動(dòng)化 2023年17期
關(guān)鍵詞:潮流調(diào)度電網(wǎng)

馮 斌,胡軼婕,黃 剛,姜 威,徐華廷,郭創(chuàng)新

(1.浙江大學(xué)電氣工程學(xué)院,浙江省 杭州市 310027;2.之江實(shí)驗(yàn)室,浙江省 杭州市 311121)

0 引言

新型電力系統(tǒng)是以確保能源電力安全為基本前提,以綠電消費(fèi)為主要目標(biāo),以堅(jiān)強(qiáng)智能電網(wǎng)為樞紐平臺(tái),以源網(wǎng)荷儲(chǔ)互動(dòng)及多能互補(bǔ)為支撐,具有綠色低碳、安全可控、智慧靈活、開放互動(dòng)、數(shù)字賦能、經(jīng)濟(jì)高效基本特征的電力系統(tǒng)[1]。隨著“碳達(dá)峰·碳中和”目標(biāo)的提出,新能源在電力能源供給中的占比逐漸增加,將形成新能源占比逐漸提高的新型電力系統(tǒng)[2]。未來,電力占終端能源形式的比例需提高至80%[3],非化石能源在生產(chǎn)側(cè)的占比要達(dá)到80%,光伏、風(fēng)電等清潔能源裝機(jī)容量勢(shì)必逐年增長(zhǎng)。新能源的廣泛接入與迅速發(fā)展使得新型電力系統(tǒng)的隨機(jī)性、不確定性顯著增加,這給傳統(tǒng)的調(diào)度優(yōu)化方法帶來了極大的挑戰(zhàn)。

強(qiáng)化學(xué)習(xí)(reinforcement learning,RL)擁有強(qiáng)大的自主搜索和學(xué)習(xí)能力,與監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)并稱現(xiàn)今3 種機(jī)器學(xué)習(xí)范式[4],其側(cè)重于學(xué)習(xí)實(shí)現(xiàn)目標(biāo)的最優(yōu)策略。而深度學(xué)習(xí)(deep learning,DL)[5]通過多層的網(wǎng)絡(luò)結(jié)構(gòu),可以對(duì)高維數(shù)據(jù)特征進(jìn)行抽取,更側(cè)重于對(duì)事物的特征提取與感知理解。結(jié)合RL 與DL 的深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)在適應(yīng)復(fù)雜狀態(tài)環(huán)境的同時(shí),能夠無需依賴于預(yù)測(cè)數(shù)據(jù)即可實(shí)現(xiàn)在線實(shí)時(shí)的調(diào)度控制,目前已經(jīng)在游戲[6]、圍棋[7]、機(jī)器人控制[8]、城市智慧交通[9]、ChatGPT 智能對(duì)話等領(lǐng)域得到了廣泛應(yīng)用,在很多場(chǎng)景下甚至能夠超越人類表現(xiàn)。

DRL 起源于動(dòng)態(tài)規(guī)劃,其實(shí)質(zhì)是解決一個(gè)動(dòng)態(tài)優(yōu)化問題,理論源于動(dòng)態(tài)規(guī)劃與馬爾可夫決策過程(Markov decision process,MDP),相較于啟發(fā)式搜索算法更具備理論基礎(chǔ)。DRL 作為一種數(shù)據(jù)驅(qū)動(dòng)方法,能夠從歷史經(jīng)驗(yàn)中學(xué)習(xí)決策調(diào)度方法,針對(duì)非線性、非凸問題具有很好的自適應(yīng)學(xué)習(xí)決策能力。目前,大多通過無模型的算法處理,避免了對(duì)不確定實(shí)時(shí)變化的物理模型進(jìn)行建模,適用于復(fù)雜多變的場(chǎng)景。相較于其他傳統(tǒng)優(yōu)化方法,DRL 對(duì)同一問題模型的不同數(shù)據(jù)具有更好的泛化能力,以及在相似問題之間具有更好的遷移性,并已在電網(wǎng)頻率控制[10]、電壓控制[11]等領(lǐng)域得到應(yīng)用。

本文從DRL 原理出發(fā),對(duì)DRL 算法在新型電力系統(tǒng)調(diào)度中的應(yīng)用現(xiàn)狀進(jìn)行了總結(jié)。

1 新型電力系統(tǒng)調(diào)度問題

隨著新能源接入比例的提高、電網(wǎng)規(guī)模的不斷擴(kuò)大,為提高系統(tǒng)整體運(yùn)行的經(jīng)濟(jì)性與可靠性,應(yīng)協(xié)調(diào)調(diào)度電網(wǎng)的發(fā)電資源與用電資源。新型電力系統(tǒng)中的調(diào)度問題是為了解決電力系統(tǒng)供需平衡的高維、不確定性強(qiáng)的優(yōu)化問題。其中,電力系統(tǒng)經(jīng)濟(jì)調(diào)度(economic dispatch,ED)、最優(yōu)潮流(optimal power flow,OPF)和機(jī)組組合(unit commitment,UC)問題是電力系統(tǒng)運(yùn)行中的3 個(gè)關(guān)鍵問題。

1)經(jīng)濟(jì)調(diào)度問題是以最小化電力系統(tǒng)的總運(yùn)營(yíng)成本為目標(biāo)、滿足電力需求和各種運(yùn)行約束的優(yōu)化問題。傳統(tǒng)的經(jīng)濟(jì)調(diào)度問題是在滿足功率平衡和機(jī)組功率邊界的前提下,確定各火電發(fā)電機(jī)組的有功出力,使得總?cè)剂虾牧浚òl(fā)電成本)最小。隨著新能源出力不確定性的增加,系統(tǒng)的約束條件更加復(fù)雜、不確定性更強(qiáng)。

2)最優(yōu)潮流問題[12]是指在滿足電力系統(tǒng)潮流等式約束,以及節(jié)點(diǎn)電壓、線路潮流、發(fā)電機(jī)爬坡等不等式約束的情況下,在主網(wǎng)中實(shí)現(xiàn)發(fā)電成本最小或在配電網(wǎng)中實(shí)現(xiàn)網(wǎng)損最小的優(yōu)化問題。最優(yōu)潮流與經(jīng)濟(jì)調(diào)度問題的區(qū)別主要在于是否考慮電力系統(tǒng)潮流等式約束。新型電力系統(tǒng)所含風(fēng)電、光伏等間歇性新能源使得電力系統(tǒng)最優(yōu)潮流問題,尤其是交流最優(yōu)潮流問題[13]的求解更加復(fù)雜。

3)機(jī)組組合問題是在滿足系統(tǒng)負(fù)荷需求和其他約束條件時(shí)實(shí)現(xiàn)系統(tǒng)運(yùn)行成本最小的機(jī)組啟停計(jì)劃優(yōu)化問題。隨著大量新能源接入,機(jī)組組合方案繁多,不確定性增加,求解更加困難。

傳統(tǒng)的優(yōu)化調(diào)度方法往往需要對(duì)系統(tǒng)做出一系列假設(shè),同時(shí)也難以應(yīng)對(duì)系統(tǒng)動(dòng)態(tài)變化的挑戰(zhàn)。隨機(jī)優(yōu)化、魯棒優(yōu)化、分布式魯棒優(yōu)化、啟發(fā)式優(yōu)化算法等傳統(tǒng)優(yōu)化算法被用于解決新型電力系統(tǒng)的不確定性問題,但它們都依賴于精準(zhǔn)的預(yù)測(cè),難以應(yīng)對(duì)新能源出力與負(fù)荷需求多變的場(chǎng)景。隨機(jī)優(yōu)化常通過采樣、機(jī)會(huì)約束生成等方式將不確定性問題轉(zhuǎn)化為確定性問題,但是算法復(fù)雜度隨著場(chǎng)景的增加而增加;魯棒優(yōu)化通過給出不確定集的方式解決不確定性問題,但是通常其給出的優(yōu)化結(jié)果僅面向最惡劣的場(chǎng)景,過于保守;啟發(fā)式優(yōu)化算法,如遺傳算法、粒子群算法等,容易陷入局部最優(yōu),而且動(dòng)作復(fù)雜度的增加給啟發(fā)式的優(yōu)化算法帶來嚴(yán)重的維數(shù)災(zāi)問題,難以穩(wěn)定收斂。

DRL 因其實(shí)時(shí)決策、不斷反饋修正的特性,能夠更好地應(yīng)對(duì)新型電力系統(tǒng)新能源的不確定性,可為新型電力系統(tǒng)調(diào)度問題提供新的解決途徑。

2 DRL 原理

2.1 從RL 到DRL

RL 借鑒了行為主義心理學(xué),是一類特殊的機(jī)器學(xué)習(xí)算法。與監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的回歸分類目標(biāo)不同的是,RL 是一種最大化未來獎(jiǎng)勵(lì)的決策學(xué)習(xí)模型,通過與環(huán)境交互建立的MDP[14]解決復(fù)雜的序列決策問題。RL 中常見的概念包括智能體、環(huán)境、狀態(tài)(state,S)、動(dòng)作(action,A)、獎(jiǎng)勵(lì)(reward,R)。如圖1 所示,智能體處在環(huán)境中,執(zhí)行動(dòng)作后獲得一定的獎(jiǎng)勵(lì),而環(huán)境由于智能體執(zhí)行的動(dòng)作發(fā)生狀態(tài)的變化。依據(jù)每一步獲得的獎(jiǎng)勵(lì),通過特定的算法最大化未來的累計(jì)獎(jiǎng)勵(lì)是RL 算法的核心。詳細(xì)RL 原理見附錄A。

圖1 智能體與環(huán)境的交互過程Fig.1 Interaction process between agent and environment

在傳統(tǒng)的RL[15]中,一般可以通過迭代求解貝爾曼最優(yōu)方程獲得最優(yōu)動(dòng)作價(jià)值函數(shù)與狀態(tài)價(jià)值函數(shù),進(jìn)而指導(dǎo)智能體做出選擇。但是在實(shí)際場(chǎng)景下,存在著迭代效率低、計(jì)算代價(jià)大等問題。為此,通常采用參數(shù)化的神經(jīng)網(wǎng)絡(luò)來近似估計(jì)最優(yōu)動(dòng)作價(jià)值函數(shù)和狀態(tài)價(jià)值函數(shù),這也就形成了DRL。

2.2 DRL 算法

依據(jù)是否有模型,將DRL 算法分為基于模型的DRL 和無模型的DRL。其中,基于模型的DRL 是指智能體可以學(xué)習(xí)到環(huán)境動(dòng)態(tài)變化的參數(shù)。在無模型的DRL 中,依據(jù)智能體的動(dòng)作選擇方式,又可分為基于價(jià)值、基于策略、執(zhí)行者-評(píng)論者的算法,其中,執(zhí)行者-評(píng)論者算法也可以看做是結(jié)合了基于價(jià)值與基于策略的算法。

2.2.1 基于模型的DRL 算法

基于模型的DRL 算法需要對(duì)環(huán)境進(jìn)行建模,然后,基于模型給出策略選擇或者動(dòng)作規(guī)劃,因而其采樣效率較高。該環(huán)境通常指狀態(tài)轉(zhuǎn)移模型,即真實(shí)環(huán)境的動(dòng)態(tài)變化模型。

結(jié)合無模型微調(diào)的基于模型的RL[16](modelbased RL with model-free fine-tuning,MBMF)是一種基于學(xué)習(xí)到的環(huán)境進(jìn)行模型預(yù)測(cè)控制的算法。MBMF 首先基于數(shù)據(jù)集訓(xùn)練神經(jīng)網(wǎng)絡(luò)動(dòng)態(tài)模型去學(xué)習(xí)環(huán)境;然后,針對(duì)該動(dòng)態(tài)模型執(zhí)行模型預(yù)測(cè)控制,并將控制器產(chǎn)生的運(yùn)行結(jié)果進(jìn)一步添加到神經(jīng)網(wǎng)絡(luò)動(dòng)態(tài)模型中進(jìn)行訓(xùn)練。重復(fù)整個(gè)迭代訓(xùn)練過程,直至MBMF 達(dá)到所需的性能表現(xiàn)。

AlphaZero[17]是一種利用已有環(huán)境的基于模型的DRL 算法。它是AlphaGo[7]的改進(jìn),可實(shí)現(xiàn)從圍棋到各類棋類游戲的智能博弈,通過自主學(xué)習(xí)環(huán)境規(guī)劃搜索策略。AlphaZero 與MuZero[18]通過蒙特卡洛樹搜索(Monte Carlo tree search,MCTS)[19]對(duì)所學(xué)習(xí)得到的策略函數(shù)進(jìn)行搜索,實(shí)現(xiàn)了動(dòng)作的多樣性探索。

2.2.2 基于價(jià)值的DRL 算法

基于價(jià)值的DRL 算法是通過迭代或者訓(xùn)練得到最優(yōu)動(dòng)作價(jià)值函數(shù),智能體依據(jù)最優(yōu)動(dòng)作價(jià)值函數(shù)選擇獲得最大的最優(yōu)動(dòng)作價(jià)值函數(shù)所對(duì)應(yīng)的動(dòng)作,從而實(shí)現(xiàn)了策略選擇。常見的基于價(jià)值的DRL算法包括深度Q 學(xué)習(xí)(deep Q-learning,DQN)[6,20]及其改進(jìn)算法、優(yōu)先經(jīng)驗(yàn)回放[21]、Double Qlearning[22]、Dueling DQN[23]和值分布RL 算法中的C51[24]以及Rainbow DQN[25]等。

最早提出的RL 算法是基于價(jià)值的Q 學(xué)習(xí)[15]與狀態(tài)-動(dòng)作-獎(jiǎng)勵(lì)-狀態(tài)-動(dòng)作(state-action-rewardstate-action,SARSA)[26]算法,它們是通過采用最優(yōu)貝爾曼方程更新Q 值表的方式,迭代得到最優(yōu)動(dòng)作價(jià)值。

隨后,文獻(xiàn)[6,20]將卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)與傳統(tǒng)RL 算法中的Q 學(xué)習(xí)算法結(jié)合,提出了DQN 模型。為避免蒙特卡洛更新帶來的巨大方差問題,DQN 采用時(shí)間差分算法更新最優(yōu)動(dòng)作價(jià)值函數(shù),更新目標(biāo)如式(1)所示。

式中:yt為t時(shí)刻由時(shí)間差分算法得到的目標(biāo)動(dòng)作價(jià)值;rt為動(dòng)作得到的獎(jiǎng)勵(lì);γ∈[0,1]為獎(jiǎng)勵(lì)衰減因子;Q(st+1,at;wt)為動(dòng)作價(jià)值的神經(jīng)網(wǎng)絡(luò)函數(shù);st+1為t+1 時(shí)刻的狀態(tài);at為t時(shí)刻的動(dòng)作;wt為t+1 時(shí)刻神經(jīng)網(wǎng)絡(luò)參數(shù)。

隨后,為解決DQN 過高估計(jì)最優(yōu)動(dòng)作價(jià)值函數(shù)的問題,在Double DQN[22]中引入目標(biāo)網(wǎng)絡(luò),在Dueling DQN[23]中采用競(jìng)爭(zhēng)架構(gòu)分別估計(jì)優(yōu)勢(shì)函數(shù)和狀態(tài)價(jià)值函數(shù)。采用差異化的優(yōu)先經(jīng)驗(yàn)回放[21]提高訓(xùn)練效率,添加高斯噪聲以提高動(dòng)作的探索能力[27]。為充分利用動(dòng)作價(jià)值函數(shù)的分布信息,進(jìn)一步提出了分布式價(jià)值的C51 算法[24]以及學(xué)習(xí)分布分位數(shù)值的分位數(shù)回歸深度Q 學(xué)習(xí)(quantile regression DQN,QR-DQN)算法[28],以及結(jié)合上述所有改進(jìn)的Rainbow DQN[25]算法。

雖然Rainbow DQN 算法在離散動(dòng)作空間的游戲策略問題上取得了不錯(cuò)的效果,但是只能針對(duì)離散動(dòng)作空間進(jìn)行建模。對(duì)于實(shí)際問題中常見的連續(xù)動(dòng)作空間則需要進(jìn)行離散化處理,可能會(huì)造成一定動(dòng)作空間的損失和維數(shù)增多的問題。

2.2.3 基于策略的DRL 算法

基于策略的DRL 算法也可稱作是基于策略梯度的DRL,相較于基于價(jià)值的DRL,其策略函數(shù)可以直接映射到連續(xù)動(dòng)作空間,對(duì)于連續(xù)控制問題具有更好的效果。

基于策略的DRL 是通過最大化獎(jiǎng)勵(lì)較高動(dòng)作的出現(xiàn)概率,實(shí)現(xiàn)未來期望獎(jiǎng)勵(lì)的最大化。這是一種端到端的學(xué)習(xí)方式,直接優(yōu)化策略的期望獎(jiǎng)勵(lì)。常見的基于策略的RL 算法有:經(jīng)典的策略梯度RL算法[29]、置信域策略優(yōu)化(trust region policy optimization,TRPO)[30]算法、近端策略優(yōu)化(proximal policy optimization,PPO)[31]算法等。

在基于策略的DRL 中,采用參數(shù)為θ的神經(jīng)網(wǎng)絡(luò)來代替策略函數(shù)。策略梯度表示形式如式(2)所示。

式中:g為策略梯度值;R為獎(jiǎng)勵(lì);b為不依賴于動(dòng)作的基線;st為t時(shí)刻的狀態(tài);T為該情節(jié)所經(jīng)歷的時(shí)間步;π(at∣st;θ) 為策略函數(shù)。 梯度項(xiàng)logπ(at∣st;θ)為希望將情節(jié)獲得的獎(jiǎng)勵(lì)向上提高的梯度。

參數(shù)更新時(shí)將在現(xiàn)有參數(shù)θ上加上αg,實(shí)現(xiàn)梯度上升,其中,α為學(xué)習(xí)率。上述訓(xùn)練過程將最大化較高獎(jiǎng)勵(lì)動(dòng)作的出現(xiàn)概率。

RL 算法[29]使用蒙特卡洛方法更新策略梯度,具有較好的穩(wěn)定性,但是采樣效率較低,會(huì)帶來較大的估計(jì)方差。為此在策略學(xué)習(xí)中減去基線,可有效減少方差。由于基于策略的RL 對(duì)步長(zhǎng)十分敏感,上述方法難以直接選擇合適的步長(zhǎng),如果新舊策略差異過大則不利于學(xué)習(xí)。TRPO[30]通過約束限制新舊策略動(dòng)作的KL(Kullback-Leibler)散度,避免了策略發(fā)生過大參數(shù)更新步的情況,解決了策略梯度更新步長(zhǎng)的問題。而PPO[31]則通過模型自適應(yīng)地調(diào)整新舊策略動(dòng)作的KL 散度,以保證策略梯度的穩(wěn)定更新。但是TRPO 和PPO 都是采用同步更新策略的算法,其每次更新都需要采樣大量樣本,算法復(fù)雜度高、訓(xùn)練效率低,并且其應(yīng)用也需要大量算力支撐。

2.2.4 執(zhí)行者-評(píng)論者DRL 算法

執(zhí)行者-評(píng)論者DRL 算法中的執(zhí)行者算法類似于基于策略的DRL 算法,評(píng)論者算法類似于基于價(jià)值的DRL 算法。因此,執(zhí)行者-評(píng)論者DRL 算法同時(shí)學(xué)習(xí)策略和價(jià)值函數(shù),其框架圖如圖2 所示。執(zhí)行者-評(píng)論者也可以被認(rèn)為是一種基于策略的DRL 算法,特殊之處在于它使用了狀態(tài)價(jià)值函數(shù)作為式(2)的基線b,減小了方差,即Aπ(st,at)=Qπ(st,at)-Vπ(st),其中,Qπ(st,at)為動(dòng)作價(jià)值,Vπ(st)為狀態(tài)價(jià)值。Aπ(st,at)也被稱為優(yōu)勢(shì)函數(shù),若優(yōu)勢(shì)函數(shù)大于0,則表示該動(dòng)作優(yōu)于平均值,是合理的選擇。

圖2 執(zhí)行者-評(píng)論者DRL 算法框架Fig.2 Framework of actor-critic DRL algorithm

它既結(jié)合了基于價(jià)值和基于策略DRL 算法的優(yōu)點(diǎn),也在一定程度上繼承了二者的缺點(diǎn)。常見的執(zhí)行者-評(píng)論者DRL 算法包括確定性策略梯度(deterministic policy gradient,DPG)算法[32]、深度確定性策略梯度(deep deterministic policy gradient,DDPG)[33]算法、柔性執(zhí)行者-評(píng)論者(soft actorcritic,SAC)[34]算法、異步優(yōu)勢(shì)執(zhí)行者-評(píng)論者(asynchronous advantage actor-critic,A3C)[35]算法、雙延遲確定性策略梯度(twin delayed deep deterministic policy gradient,TD3)算法[36]等。

DPG 每次確定性地探索一個(gè)動(dòng)作,降低了采樣需求,能夠處理動(dòng)作空間較大的問題,但為保證未知?jiǎng)幼鞯奶剿髂芰?,必須采用異步策略更新方法。DDPG 在DPG 的基礎(chǔ)上借鑒了DQN 在Q 學(xué)習(xí)基礎(chǔ)上改進(jìn)的思想,利用深度神經(jīng)網(wǎng)絡(luò)擬合DDPG 中的Q 函數(shù),采用異步的Critic 估計(jì)策略梯度,使訓(xùn)練更加穩(wěn)定簡(jiǎn)單。TD3 在DDPG 的基礎(chǔ)上引入了性能更優(yōu)的Double DQN,并通過取2 個(gè)Critic 之間的最小值避免過擬合,解決了過高估計(jì)以及方差過大的問題。過高的估計(jì)會(huì)使得更新方向與理想情況有偏差,而方差過大會(huì)使得訓(xùn)練不穩(wěn)定。SAC 建立在非策略最大熵RL 框架[37]上,在實(shí)現(xiàn)策略預(yù)期回報(bào)最大化的同時(shí)也具有最大熵,可提升算法的探索能力。

上述異步策略更新算法可以在策略更新時(shí)重復(fù)利用過去的樣本,對(duì)樣本利用效率高。目前,常見的異步策略更新的DRL 算法,均是以DPG 為基礎(chǔ)的確定性策略算法,如DDPG、TD3 等。但是,基于確定性策略的算法對(duì)超參數(shù)敏感,收斂難度較大。A3C 中有多個(gè)智能體在中央處理器(central processing unit,CPU)多線程上異步執(zhí)行,使得樣本間的相關(guān)性很低。因此,A3C 中也沒有采用經(jīng)驗(yàn)回放的機(jī)制,而是直接采用同步策略更新機(jī)制。

2.2.5 多智能體與分層DRL 算法

在DRL 的基礎(chǔ)上,結(jié)合多智能體、分層級(jí)等理論,提出了一些適用于更加復(fù)雜場(chǎng)景的DRL 算法。

1)多智能體DRL 算法

考慮到現(xiàn)實(shí)復(fù)雜的實(shí)際環(huán)境中,往往不止一個(gè)動(dòng)作發(fā)出者,即有許多智能體通過共同交互信息實(shí)現(xiàn)合作或競(jìng)爭(zhēng),其主要目標(biāo)是實(shí)現(xiàn)共同獎(jiǎng)勵(lì)的最大化與多智能體之間的均衡。早期的多智能體RL,考慮多智能體之間的互相博弈提出了Nash-Q 學(xué)習(xí)算法[38],這類算法需要大量的存儲(chǔ)空間存儲(chǔ)Q 值,適用于規(guī)模較小的問題。

近年來,隨著DDPG、A3C 等算法擁有更優(yōu)的性能表現(xiàn),目前,多智能體DRL 大多基于執(zhí)行者-評(píng)論者算法框架,其中,最具有代表性的是多智能體深度確定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)[39]和反事實(shí)基線的多智能體執(zhí)行者-評(píng)論者[40]。它們均采用集中式訓(xùn)練、分布式執(zhí)行的算法模式,利用所有狀態(tài)信息集中訓(xùn)練出評(píng)論者,每個(gè)智能體僅采用自身觀測(cè)到的信息,執(zhí)行各自的動(dòng)作。在智能體動(dòng)作執(zhí)行期間,解決了多智能體間信息及時(shí)共享的問題。在新型電力系統(tǒng)調(diào)度問題中,常見的多區(qū)域電網(wǎng)、微電網(wǎng)(microgrid,MG)、綜合能源系統(tǒng)都可以采用多智能體DRL 算法進(jìn)行求解。

此外,在基于價(jià)值分解的多智能體DRL 算法中,多個(gè)智能體通過簡(jiǎn)單加和局部?jī)r(jià)值函數(shù)[41]或采用非線性混合網(wǎng)絡(luò)[42]聯(lián)合價(jià)值函數(shù),將各主體觀測(cè)到的局部?jī)r(jià)值函數(shù)合并為聯(lián)合價(jià)值函數(shù)。因此,此類算法大多用于共同合作問題。

2)分層DRL 算法

一個(gè)復(fù)雜問題往往會(huì)有龐大的狀態(tài)空間與動(dòng)作空間,導(dǎo)致實(shí)際獎(jiǎng)勵(lì)是非常稀疏的,而分層DRL 算法的提出將改善獎(jiǎng)勵(lì)反饋稀疏的問題。分層DRL[43]可以在一些復(fù)雜的DRL 任務(wù)環(huán)境下,將最終任務(wù)轉(zhuǎn)變?yōu)槎鄠€(gè)子任務(wù)的形式,實(shí)現(xiàn)DRL 任務(wù)的分解。通過各子主體策略來形成有效的全局策略。

經(jīng)典分層強(qiáng)化學(xué)習(xí)方法是將復(fù)雜問題建模為半馬爾可夫過程,底層策略建模為MDP 問題。經(jīng)典的分層強(qiáng)化學(xué)習(xí)算法包括Option[44]、分層抽象機(jī)(hierarchies of abstract machines,HAMs)[45]、

MAXQ[46]算法等。當(dāng)今,結(jié)合深度學(xué)習(xí)的分層DRL算法采用2 層結(jié)構(gòu):上層結(jié)構(gòu)每隔一段時(shí)間進(jìn)行調(diào)用,根據(jù)調(diào)用時(shí)觀測(cè)到的狀態(tài),給出下層子任務(wù);下層結(jié)構(gòu)作為底層結(jié)構(gòu),根據(jù)當(dāng)前目標(biāo)狀態(tài)和子任務(wù)產(chǎn)生動(dòng)作。例如,分層DQN[47]的雙層均采用DQN網(wǎng)絡(luò),上層制定一個(gè)下層能夠?qū)崿F(xiàn)的小目標(biāo)并由下層網(wǎng)絡(luò)實(shí)現(xiàn),待小目標(biāo)實(shí)現(xiàn)后或達(dá)到指定時(shí)間后,重復(fù)指定新的小目標(biāo);子策略共享分層DRL 算法[48]將子策略參數(shù)共享,以提升子任務(wù)的訓(xùn)練效率。文獻(xiàn)[49]將分層DRL 算法應(yīng)用于多微電網(wǎng)經(jīng)濟(jì)調(diào)度模型,實(shí)現(xiàn)了長(zhǎng)短期利益結(jié)合的分布式經(jīng)濟(jì)調(diào)度。

3 DRL 在新型電力系統(tǒng)調(diào)度中的應(yīng)用分析

將DRL 應(yīng)用于新型電力系統(tǒng)調(diào)度問題時(shí),需要定義DRL 中的智能體、環(huán)境、狀態(tài)、動(dòng)作以及獎(jiǎng)勵(lì)。智能體指動(dòng)作的發(fā)出者,也可認(rèn)為是系統(tǒng)運(yùn)行人員;環(huán)境指電力系統(tǒng);狀態(tài)指環(huán)境中各個(gè)設(shè)備當(dāng)前的運(yùn)行狀態(tài),如發(fā)電機(jī)上一時(shí)刻出力、電熱功率需求、風(fēng)光實(shí)時(shí)功率、目前所處的時(shí)段等;動(dòng)作指系統(tǒng)中可以人為控制調(diào)節(jié)的變量,如發(fā)電機(jī)出力、儲(chǔ)能等;獎(jiǎng)勵(lì)通常是需要實(shí)現(xiàn)的目標(biāo),如最小化系統(tǒng)運(yùn)行成本、最大化新能源消納、最小化電壓頻率偏差等。關(guān)于DRL 應(yīng)用于新型電力系統(tǒng)調(diào)度的文獻(xiàn)詳見附錄B。

3.1 經(jīng)濟(jì)調(diào)度問題

在經(jīng)濟(jì)調(diào)度問題中需要決策的變量均為連續(xù)變量。因此,常采用DDPG、A3C、PPO 等具有連續(xù)動(dòng)作空間的DRL 算法。

1)大電網(wǎng)

針對(duì)含有風(fēng)光儲(chǔ)的大電網(wǎng)經(jīng)濟(jì)調(diào)度問題,文獻(xiàn)[50]在考慮備用的情況下,采用DDPG 應(yīng)對(duì)風(fēng)光荷不確定性以實(shí)現(xiàn)系統(tǒng)的動(dòng)態(tài)經(jīng)濟(jì)調(diào)度,但DDPG 不能夠?qū)崿F(xiàn)異步采樣。文獻(xiàn)[51]依據(jù)電網(wǎng)調(diào)度運(yùn)行指令下發(fā)的實(shí)際特點(diǎn),考慮聯(lián)絡(luò)線功率、風(fēng)電場(chǎng)出力,采用A3C 算法實(shí)現(xiàn)多場(chǎng)景并行學(xué)習(xí)的智能經(jīng)濟(jì)調(diào)度。

當(dāng)涉及多區(qū)域電網(wǎng)經(jīng)濟(jì)調(diào)度問題時(shí),由于模型復(fù)雜,涉及動(dòng)作空間大,常采用多智能體的算法降低動(dòng)作空間復(fù)雜度。文獻(xiàn)[52]提出的基于通信網(wǎng)絡(luò)架構(gòu)(CommNet)的分布式多智能體DRL 算法,在訓(xùn)練過程中可使各區(qū)域智能體間無須共享光伏、負(fù)荷預(yù)測(cè)數(shù)據(jù)和設(shè)備參數(shù)等信息。為避免有效決策信息的損失,文獻(xiàn)[53-54]沒有利用預(yù)測(cè)信息,直接采用端到端決策來進(jìn)一步提升調(diào)度的經(jīng)濟(jì)性。

2)微電網(wǎng)

針對(duì)含有風(fēng)光儲(chǔ)的微電網(wǎng)經(jīng)濟(jì)調(diào)度問題,文獻(xiàn)[55-59]的動(dòng)作對(duì)象均為儲(chǔ)能充放電,實(shí)現(xiàn)的目標(biāo)分別為光儲(chǔ)充電站收益最大化、微電網(wǎng)經(jīng)濟(jì)穩(wěn)定運(yùn)行、負(fù)荷需求與發(fā)電功率的精準(zhǔn)匹配、最小化運(yùn)行成本(并網(wǎng))和盡量滿足負(fù)荷需求(孤島)。文獻(xiàn)[59-60]都考慮能源出力的隨機(jī)性,構(gòu)建了運(yùn)行期望最小化獎(jiǎng)勵(lì)函數(shù)??紤]到多微電網(wǎng)的動(dòng)作空間維度以及學(xué)習(xí)復(fù)雜度,需要采用分層分布式的方式實(shí)現(xiàn)在線經(jīng)濟(jì)調(diào)度[49]。

3)虛擬電廠

針對(duì)含有風(fēng)光儲(chǔ)的虛擬電廠(virtual power plant,VPP)經(jīng)濟(jì)調(diào)度問題,文獻(xiàn)[61]將工業(yè)用戶中的可控負(fù)荷作為一種調(diào)度資源,考慮了光伏、風(fēng)電、微型燃?xì)廨啓C(jī)的環(huán)保與經(jīng)濟(jì)成本,基于A3C 算法的三層邊緣計(jì)算框架實(shí)現(xiàn)經(jīng)濟(jì)運(yùn)行策略的高效求解。文獻(xiàn)[62]考慮了儲(chǔ)能系統(tǒng),基于對(duì)抗生成網(wǎng)絡(luò)生成的場(chǎng)景數(shù)據(jù)集以及DDPG 算法實(shí)現(xiàn)虛擬電廠的魯棒經(jīng)濟(jì)調(diào)度。但上述文獻(xiàn)并未考慮響應(yīng)信號(hào)在虛擬電廠內(nèi)部的分解,文獻(xiàn)[63]則考慮了上級(jí)總的響應(yīng)信號(hào)分解問題,并采用銳度感知最小化算法[64],提升了算法對(duì)環(huán)境和獎(jiǎng)勵(lì)的魯棒性。

4)綜合能源系統(tǒng)

在含有熱、電、天然氣等綜合能源系統(tǒng)(integrated energy system,IES)經(jīng)濟(jì)調(diào)度問題中,文獻(xiàn)[65]采用DDPG 算法使綜合能源系統(tǒng)中的熱電聯(lián)供機(jī)組的電功率、燃?xì)忮仩t輸出的熱功率、儲(chǔ)能的充放電功率的經(jīng)濟(jì)調(diào)度動(dòng)作空間處于連續(xù)狀態(tài)。由于DDPG 對(duì)超參數(shù)敏感且動(dòng)作空間探索不足,采樣效率較低,文獻(xiàn)[66]采用SAC 算法,解決了電-氣綜合能源系統(tǒng)中天然氣系統(tǒng)利用傳統(tǒng)優(yōu)化方法難以凸化和收斂的問題,可有效應(yīng)對(duì)源荷不確定性,并實(shí)現(xiàn)RL 智能體模型秒級(jí)優(yōu)化調(diào)度決策。

考慮到DRL 算法對(duì)復(fù)雜動(dòng)作空間探索難度大,文獻(xiàn)[67]采用雙層RL 模型,上層采用RL 算法實(shí)現(xiàn)電池出力調(diào)度,下層采用混合整數(shù)線性規(guī)劃求解綜合能源系統(tǒng)經(jīng)濟(jì)調(diào)度問題,避免了約束作為懲罰項(xiàng)帶來的DRL 算法復(fù)雜度增加問題,提升了模型計(jì)算效率。

然而上述方法在保證約束的安全性上仍有一些欠缺,需要采用一些保障安全的算法。文獻(xiàn)[68]采用循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)建新能源預(yù)測(cè)模型[69],并引入了安全引導(dǎo)函數(shù)來保障策略的安全性,實(shí)現(xiàn)了綜合能源系統(tǒng)的安全低碳經(jīng)濟(jì)運(yùn)行。

相較于大電網(wǎng)、微電網(wǎng)、虛擬電廠,綜合能源系統(tǒng)可以實(shí)現(xiàn)多能源利用互補(bǔ)。例如,通過熱電聯(lián)供機(jī)組實(shí)現(xiàn)電力和熱量的同時(shí)生產(chǎn);通過燃?xì)忮仩t輸出熱功率;通過電轉(zhuǎn)氣單元將電力轉(zhuǎn)換為氣體。隨著需要控制的設(shè)備種類及參數(shù)增多,動(dòng)作空間也將增加,會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)的訓(xùn)練收斂速度下降,甚至造成維數(shù)災(zāi)難。多智能體DRL 作為一種有效處理多智能體參與的決策方法,也逐漸在大規(guī)模綜合能源系統(tǒng)的經(jīng)濟(jì)調(diào)度問題中得到應(yīng)用。文獻(xiàn)[70]將綜合能源系統(tǒng)中的多個(gè)利益主體建模為多智能體,文獻(xiàn)[71-72]將多綜合能源區(qū)域(園區(qū))建模為多個(gè)主體,而文獻(xiàn)[73]將電力系統(tǒng)和熱力系統(tǒng)分別建模為2 個(gè)主體。它們均取得了比單一智能體DRL 算法更優(yōu)的收斂速度和經(jīng)濟(jì)效益。同時(shí),通過集中訓(xùn)練分散執(zhí)行的算法流程,可以解決各利益主體之間數(shù)據(jù)共享的問題。

3.2 最優(yōu)潮流問題

文獻(xiàn)[74]將傳統(tǒng)Q 學(xué)習(xí)算法應(yīng)用于電力系統(tǒng)最優(yōu)潮流計(jì)算領(lǐng)域,實(shí)現(xiàn)電力系統(tǒng)有功、無功、多目標(biāo)的最優(yōu)潮流計(jì)算。

但是,傳統(tǒng)的Q 學(xué)習(xí)采用離散動(dòng)作,會(huì)損失一部分動(dòng)作空間,為此需要采用基于策略或者執(zhí)行者-評(píng)論者的DRL 算法。文獻(xiàn)[75]基于CloudPSS 仿真云平臺(tái),驗(yàn)證了基于DDPG 的最優(yōu)潮流計(jì)算的可行性;由于DDPG 中的評(píng)論者網(wǎng)絡(luò)難訓(xùn)練、不穩(wěn)定,文獻(xiàn)[76]雖然基于DDPG 算法構(gòu)建了執(zhí)行者網(wǎng)絡(luò),但沒有使用評(píng)論者網(wǎng)絡(luò),而是基于拉格朗日數(shù)學(xué)解析推導(dǎo)得到了確定性梯度。由于PPO 相比于DDPG具有更高的采樣效率、更穩(wěn)定的學(xué)習(xí)策略,以及更容易調(diào)節(jié)的超參數(shù),文獻(xiàn)[77-78]采用基于模仿學(xué)習(xí)的PPO 算法求解交流最優(yōu)潮流問題。

前述的最優(yōu)潮流問題是針對(duì)主網(wǎng)的,而配電網(wǎng)由于沒有大型發(fā)電機(jī)組,其研究對(duì)象是在滿足潮流約束的同時(shí),通過潮流合理分配使得網(wǎng)損最小。文獻(xiàn)[79]基于PPO 算法控制儲(chǔ)能有功功率、無功功率以及風(fēng)電的無功功率,實(shí)現(xiàn)了在不違反電壓和電池儲(chǔ)能容量約束的情況下配電網(wǎng)網(wǎng)損的最小化。文獻(xiàn)[80]采用完全分布式的PPO 算法,實(shí)現(xiàn)了不平衡配電網(wǎng)的光伏有功功率最大化輸出與電壓穩(wěn)定。

針對(duì)互聯(lián)的微電網(wǎng),由于其動(dòng)作空間大,傳統(tǒng)單一智能體算法難以滿足計(jì)算需求,需要建模為多智能體DRL 問題求解。文獻(xiàn)[81]依據(jù)智能體的連續(xù)離散動(dòng)作空間,設(shè)置了雙層DRL,并將潮流等式約束設(shè)置在環(huán)境中;文獻(xiàn)[82]將潮流等安全約束構(gòu)建成梯度信息,保證最優(yōu)控制策略產(chǎn)生安全可行的決策方案。

由于并不是所有場(chǎng)景下的調(diào)度問題都是非凸的,可以將凸的子問題抽離出來,構(gòu)建優(yōu)化問題與DRL 結(jié)合的雙層求解結(jié)構(gòu)。文獻(xiàn)[83]將居民微電網(wǎng)的最優(yōu)運(yùn)行成本問題建模成混合整數(shù)二階錐的優(yōu)化問題,并將其轉(zhuǎn)化為MDP 主問題與最優(yōu)潮流二階錐優(yōu)化子問題,主問題采用MuZero[18]算法得到較優(yōu)的在線優(yōu)化結(jié)果。文獻(xiàn)[84]針對(duì)互聯(lián)微電網(wǎng)在信息不全情況下的潮流能量管理問題,考慮在配電網(wǎng)層面只能獲取公共連接點(diǎn)(point of common coupling,PCC)處的功率信息,設(shè)計(jì)了雙層算法。在上層基于改進(jìn)的Q 學(xué)習(xí)實(shí)現(xiàn)互聯(lián)微電網(wǎng)購(gòu)售電成本最優(yōu),在下層針對(duì)單個(gè)微電網(wǎng)實(shí)現(xiàn)最優(yōu)潮流。文獻(xiàn)[81]雖然也采用了雙層DRL,但實(shí)際上是將離散動(dòng)作空間和連續(xù)動(dòng)作空間作為前后2 層DRL 的決策空間。

安全約束最優(yōu)潮流[85]增加了可靠性約束來確保電力系統(tǒng)能夠承受一定預(yù)想故障的沖擊。由于安全約束最優(yōu)潮流需要搜索預(yù)想故障集,如果采用基于優(yōu)化的交流最優(yōu)潮流,其計(jì)算量也非常大;而DRL 方法的提出,將有助于在交流最優(yōu)潮流的基礎(chǔ)上實(shí)現(xiàn)安全約束最優(yōu)潮流。文獻(xiàn)[86]以最小化約束越限為獎(jiǎng)勵(lì),以提升系統(tǒng)在各種隨機(jī)場(chǎng)景下的N-1安全性為核心,采用A3C 算法結(jié)合電力領(lǐng)域知識(shí)在減小負(fù)荷削減量的同時(shí)降低了系統(tǒng)運(yùn)行成本。

DRL 算法能夠在一定程度上解決電力系統(tǒng)交流最優(yōu)潮流的精確求解問題,尤其是在非凸約束增多時(shí),優(yōu)化求解復(fù)雜度會(huì)急劇提升。而DRL 在處理類似問題時(shí)可以進(jìn)行精確建模,而不必為實(shí)現(xiàn)凸優(yōu)化而損失模型精度,甚至可以得到比凸松弛后的交流最優(yōu)潮流優(yōu)化問題更經(jīng)濟(jì)的解。此外,DRL 算法在需要大規(guī)模搜索時(shí)也有一定優(yōu)勢(shì)。

由于最優(yōu)潮流問題需要考慮潮流等式約束,因而相較于經(jīng)濟(jì)調(diào)度問題,其動(dòng)作空間受到一定的限制,這也是當(dāng)前基于DRL 算法求解最優(yōu)潮流的難點(diǎn)。這需要保證在潮流等式約束被滿足的同時(shí),處理新能源出力的不確定性并尋求最優(yōu)發(fā)電調(diào)度計(jì)劃。現(xiàn)階段文獻(xiàn)主要將潮流等式約束放在環(huán)境中處理,較少文獻(xiàn)將潮流等式約束融合至策略產(chǎn)生的約束中,形成安全的策略[82]。

3.3 機(jī)組組合問題

文獻(xiàn)[87]采用RL 算法求解機(jī)組組合問題,而文獻(xiàn)[88]采用分布式Q 學(xué)習(xí)算法,因僅涉及局部通信,提高了求解的魯棒性。但是,Q 學(xué)習(xí)算法的動(dòng)作空間受Q 表格的限制,難以處理高維動(dòng)作狀態(tài)。為此,文獻(xiàn)[89]采用深度神經(jīng)網(wǎng)絡(luò)逼近Q 函數(shù)的DQN算法實(shí)現(xiàn)高維機(jī)組組合動(dòng)作空間的探索。為應(yīng)對(duì)新能源出力的不確定性,文獻(xiàn)[90]針對(duì)隨機(jī)波動(dòng)的光伏出力,采用全連接神經(jīng)網(wǎng)絡(luò)擬合Q 值求解考慮光伏出力的機(jī)組組合問題。

由于機(jī)組組合的動(dòng)作空間隨著機(jī)組數(shù)量而急劇增長(zhǎng),在現(xiàn)有文獻(xiàn)中,Q 學(xué)習(xí)算法最多僅能應(yīng)用于含12 臺(tái)機(jī)組的算例。為進(jìn)一步克服機(jī)組動(dòng)作空間隨機(jī)組數(shù)量呈幾何增長(zhǎng)的問題,文獻(xiàn)[91]采用引導(dǎo)樹搜索方法實(shí)現(xiàn)了對(duì)動(dòng)作空間的快速高效搜索,可求解30 臺(tái)機(jī)組組合問題,相比于混合整數(shù)線性規(guī)劃算法,可減少機(jī)組的頻繁動(dòng)作,并在降低系統(tǒng)運(yùn)行成本的同時(shí)減少了負(fù)荷損失概率。

通常在機(jī)組組合問題中,除決策機(jī)組啟停的離散量外,還需要同時(shí)給出機(jī)組出力的連續(xù)決策變量。文獻(xiàn)[89,91]采用Lambda 迭代法進(jìn)行求解;文獻(xiàn)[88]將機(jī)組組合和經(jīng)濟(jì)調(diào)度問題建模為一個(gè)問題,將連續(xù)機(jī)組出力作為動(dòng)作對(duì)象,動(dòng)作空間則滿足機(jī)組啟停等約束。文獻(xiàn)[92]采用SAC 確定機(jī)組啟停計(jì)劃,然后通過Cplex 求解器求解單時(shí)段優(yōu)化問題得到機(jī)組出力。而文獻(xiàn)[87,90]并未提及機(jī)組出力的決策過程。

在機(jī)組組合問題中,機(jī)組啟停動(dòng)作空間是一個(gè)離散的動(dòng)作空間。采用諸如DQN、PPO 等一般的DRL 算法難以有效應(yīng)對(duì)機(jī)組數(shù)增加而帶來動(dòng)作空間維度呈指數(shù)增長(zhǎng)的問題。因而,基于一般的DRL算法僅能夠解決機(jī)組數(shù)較少的機(jī)組組合問題,并且較少涉及新能源接入。但一般的DRL 算法對(duì)環(huán)境的探索能力有限,需要結(jié)合樹搜索算法或者智能體提前預(yù)知一定的環(huán)境模型信息,進(jìn)而提升或引導(dǎo)智能體對(duì)高維動(dòng)作空間的探索效率。

機(jī)組組合問題作為一個(gè)長(zhǎng)時(shí)間序列決策問題,即使采用先進(jìn)的DRL 技術(shù)也難以實(shí)現(xiàn)較好的決策,目前在仿真算例中仍存在較多的問題亟待解決。其中,一個(gè)較為關(guān)鍵的問題是用電計(jì)劃無法完全被滿足。在理論研究中,常將用電計(jì)劃滿足程度表述為失負(fù)荷風(fēng)險(xiǎn)。由于機(jī)組組合的動(dòng)作空間極大,在機(jī)組數(shù)量較多、測(cè)試時(shí)間較長(zhǎng)的情況下,失負(fù)荷通常是不可避免的。因此,后續(xù)的研究重點(diǎn)是改進(jìn)動(dòng)作空間的建模形式或采用學(xué)習(xí)能力更強(qiáng)的算法等以確保用電計(jì)劃完全滿足。

3.4 應(yīng)用前景分析

由于電網(wǎng)對(duì)于安全性和供電可靠性要求較高,實(shí)際落地應(yīng)用不可能一蹴而就??紤]到?jīng)Q策的穩(wěn)定性、安全性以及誤決策的危害,可以先在配電網(wǎng)或用戶側(cè)進(jìn)行一些嘗試,然后,再?gòu)男^(qū)域低電壓等級(jí)慢慢推廣到大區(qū)域高電壓等級(jí)。在配電網(wǎng)側(cè),由于涉及的設(shè)備種類多樣、波動(dòng)性較大,對(duì)于算法的實(shí)時(shí)性要求高,可以采用DRL 算法進(jìn)行實(shí)時(shí)經(jīng)濟(jì)調(diào)度、設(shè)備出力控制、電壓控制等,以實(shí)現(xiàn)配電網(wǎng)眾多設(shè)備的安全實(shí)時(shí)經(jīng)濟(jì)運(yùn)行。在用戶側(cè),可以實(shí)時(shí)獲取價(jià)格信號(hào)和屋頂光伏等新能源出力信息,采用DRL 算法實(shí)時(shí)控制需求響應(yīng)、家用電器、溫控負(fù)荷等。文獻(xiàn)[93]將RL 算法應(yīng)用于美國(guó)科羅拉多州一個(gè)包含27個(gè)家庭的微電網(wǎng)中, 應(yīng)用結(jié)果表明,采用RL 算法可大幅度降低用戶用電成本,實(shí)現(xiàn)秒級(jí)別的優(yōu)化控制。文獻(xiàn)[94]采用擬合Q 迭代算法實(shí)現(xiàn)電熱水器的控制。該項(xiàng)目是住宅需求響應(yīng)試點(diǎn)項(xiàng)目的一部分,其中,10 臺(tái)電熱水器用于直接負(fù)荷控制,每臺(tái)電熱水器配備了8 個(gè)溫度傳感器和1 個(gè)可控功率加熱裝置。在試點(diǎn)項(xiàng)目中,相比于恒溫控制器,采用RL算法可使電熱水器的總能耗成本降低15%。2021年5—6 月,上海某寫字樓中央冷水機(jī)組采用RL 算法控制冷卻機(jī)組和冷卻水泵來重設(shè)定點(diǎn)溫度[95],實(shí)現(xiàn)了近似專家系統(tǒng)的控制效果,并驗(yàn)證了RL 決策系統(tǒng)的魯棒性、穩(wěn)定性和學(xué)習(xí)速度。

在大電網(wǎng)側(cè),隨著新能源廣泛接入,源荷波動(dòng)愈加劇烈,系統(tǒng)對(duì)于日內(nèi)實(shí)時(shí)優(yōu)化的需求上升??梢韵炔扇?shù)據(jù)接入、輔助決策方式進(jìn)行試點(diǎn)運(yùn)行。如果在試點(diǎn)過程中出現(xiàn)錯(cuò)誤,則需要對(duì)算法進(jìn)一步校驗(yàn),必要時(shí)可以增加一些人工調(diào)度經(jīng)驗(yàn)規(guī)則,采用數(shù)據(jù)知識(shí)混合驅(qū)動(dòng)的方法保證決策的正確性。常見的實(shí)時(shí)調(diào)度場(chǎng)景包括日前和日內(nèi)的實(shí)時(shí)計(jì)劃動(dòng)態(tài)快速調(diào)整、電力市場(chǎng)實(shí)時(shí)的報(bào)價(jià)出清策略等。文獻(xiàn)[96]所研發(fā)的電網(wǎng)腦于2019 年11 月部署在中國(guó)江蘇電網(wǎng)調(diào)控中心安全Ⅰ區(qū)。電網(wǎng)腦能在滿足調(diào)控需求的前提下,在20 ms 內(nèi)對(duì)電壓、潮流越界等問題提供解決方案,快速消除風(fēng)險(xiǎn),同時(shí)降低約3.5%的網(wǎng)損。該成果可用于輔助調(diào)度員對(duì)電壓與聯(lián)絡(luò)線潮流進(jìn)行控制,進(jìn)一步可作為全自動(dòng)化調(diào)度的基礎(chǔ)技術(shù)手段。

在海量數(shù)據(jù)場(chǎng)景下,DRL 作為一種數(shù)據(jù)驅(qū)動(dòng)的決策方案,能夠在保證目標(biāo)最優(yōu)性的同時(shí)更快速地求解目標(biāo)函數(shù),獲得比傳統(tǒng)方法更高效經(jīng)濟(jì)的策略[86,91]。例如,在風(fēng)險(xiǎn)評(píng)估中,DRL 可以快速搜索高風(fēng)險(xiǎn)級(jí)聯(lián)故障[97-98],也可以將DRL 與電力系統(tǒng)運(yùn)籌優(yōu)化方法深度結(jié)合,通過DRL 加速優(yōu)化計(jì)算或者實(shí)現(xiàn)精確建模與求解。

4 研究方向展望

DRL 算法能夠?qū)χ悄荏w進(jìn)行針對(duì)性訓(xùn)練,并能夠根據(jù)場(chǎng)景的變化快速求得最優(yōu)管理策略,滿足電網(wǎng)運(yùn)行的實(shí)時(shí)性要求。但DRL 作為一種基于深度神經(jīng)網(wǎng)絡(luò)的算法,需要大量學(xué)習(xí)仿真數(shù)據(jù),并且所得到的結(jié)果較難解釋。電力系統(tǒng)調(diào)度是電力系統(tǒng)的核心環(huán)節(jié),一般不允許出現(xiàn)差錯(cuò)。若DRL 在電力系統(tǒng)調(diào)度中獲得應(yīng)用,還需要在以下方面做進(jìn)一步深入的研究。

1)建立真實(shí)的電網(wǎng)仿真環(huán)境

DRL 需要大量學(xué)習(xí)仿真數(shù)據(jù)。在電力系統(tǒng)中,通常需要單獨(dú)搭建適配于電力系統(tǒng)的環(huán)境,智能體在與環(huán)境交互的過程中,產(chǎn)生大量情節(jié),這也就是DRL 需要學(xué)習(xí)的仿真數(shù)據(jù)。DRL 的目標(biāo)是最大化獎(jiǎng)勵(lì),因此,可以通過獎(jiǎng)勵(lì)的設(shè)置對(duì)違反的約束給予懲罰,將需要實(shí)現(xiàn)的經(jīng)濟(jì)性、安全性目標(biāo)設(shè)置在獎(jiǎng)勵(lì)中??紤]到DRL 的訓(xùn)練需要搭建類似于Gym[99]的電網(wǎng)環(huán)境,當(dāng)前已有不少開源工作者構(gòu)建了類似的開源環(huán)境庫(kù),例如,Gym-ANM[100]、PowerGym[101]、Grid2op[102]等。未來,需要基于數(shù)字孿生,搭建電網(wǎng)仿真系統(tǒng),加強(qiáng)數(shù)字資源的積累,為應(yīng)用提供基礎(chǔ)。

2)算法性能的提升

隨著建模對(duì)象和環(huán)境逐漸復(fù)雜,在大規(guī)模復(fù)雜環(huán)境下DRL 收斂求解時(shí)間也會(huì)隨之增加。如果在實(shí)際中求解一個(gè)大規(guī)模復(fù)雜新型電力系統(tǒng)調(diào)度問題時(shí),必然會(huì)遇到維度災(zāi)難問題。當(dāng)動(dòng)作空間維數(shù)過大時(shí),可搜索的動(dòng)作空間將很大,進(jìn)而影響DRL 收斂速度和動(dòng)作的準(zhǔn)確性。此外,如果是類似機(jī)組組合問題的0-1 離散變量過多,也會(huì)加劇DRL 訓(xùn)練的難度。隨著DRL 理論的不斷發(fā)展,未來可以考慮引入模仿學(xué)習(xí)、元學(xué)習(xí)的思想[103],以便縮短復(fù)雜環(huán)境下智能體的培訓(xùn)時(shí)間,提高性能。

在與環(huán)境交互計(jì)算方面,當(dāng)前智能體與環(huán)境的模擬交互過程以及數(shù)據(jù)的傳輸通信仍然是通過CPU 完成的。如果能夠開發(fā)類似于Isaac Gym 的圖形處理器(graphics processing unit,GPU)環(huán)境,環(huán)境的模擬和神經(jīng)網(wǎng)絡(luò)的訓(xùn)練都將置于GPU 內(nèi),使得數(shù)據(jù)直接從內(nèi)存?zhèn)鬟f到GPU 的訓(xùn)練框架中(如PyTorch),不受CPU 數(shù)據(jù)傳輸限制,則將大大加快目前的訓(xùn)練速度,進(jìn)一步提高DRL 求解大規(guī)模復(fù)雜問題的性能。

3)安全性研究

由于DRL 方法輸出的決策存在不確定性,其安全性不如傳統(tǒng)優(yōu)化算法,可能會(huì)給出不符合電網(wǎng)安全運(yùn)行的結(jié)果,這時(shí)便需要算法有能力給出規(guī)避機(jī)制,實(shí)現(xiàn)電力系統(tǒng)的安全穩(wěn)定運(yùn)行。對(duì)于新能源全部消納的要求,可以允許存在一定的棄風(fēng)棄光,但在有嚴(yán)格物理安全約束要求時(shí),如果DRL 不能夠完全確保得出的決策滿足安全約束,將會(huì)導(dǎo)致系統(tǒng)安全問題。當(dāng)前許多研究基于DRL 的調(diào)度文獻(xiàn)未涉及系統(tǒng)安全約束的問題,即使是涉及系統(tǒng)安全性的文獻(xiàn),也基本是將約束建模成獎(jiǎng)勵(lì)函數(shù)懲罰項(xiàng)的形式,極少?gòu)臄?shù)學(xué)理論上證明DRL 算法可滿足安全約束條件。也有將約束在建模過程中直接融合在MDP過程中,形成安全可靠的DRL 算法。進(jìn)一步,也可嘗試采用安全RL 算法[104]保證策略操作的安全性。

4)可解釋性研究

傳統(tǒng)基于價(jià)值或基于策略的DRL 算法,具備強(qiáng)邏輯性和可解釋性。但神經(jīng)網(wǎng)絡(luò)模型也被稱為黑盒子模型,缺乏一定的解釋性。而DRL 是在RL 的基礎(chǔ)上,引入了神經(jīng)網(wǎng)絡(luò)來擬合價(jià)值函數(shù)或(和)策略函數(shù),對(duì)復(fù)雜問題的建模具有更好的實(shí)驗(yàn)效果。但是,神經(jīng)網(wǎng)絡(luò)的引入不利于其可解釋性,難以在實(shí)際應(yīng)用中從原理上說服調(diào)度人員依據(jù)DRL 算法給出的決策進(jìn)行操作。未來,可結(jié)合可解釋性機(jī)器學(xué)習(xí)給出可解釋性的策略動(dòng)作,提升DRL 的可解釋性,讓調(diào)度人員更易于接受人工智能算法的決策結(jié)果。

5)遷移性和魯棒性研究

目前,研究性論文中智能體所處的環(huán)境都是電力系統(tǒng)仿真模擬環(huán)境,數(shù)據(jù)均為理想化的數(shù)據(jù),不存在數(shù)據(jù)干擾的情況。而在實(shí)際運(yùn)行的電力系統(tǒng)環(huán)境下,如何保證DRL 算法的正確性、保證模型的魯棒性是值得考慮的問題。文獻(xiàn)[63]通過使用銳度感知最小化[64]實(shí)現(xiàn)了噪聲的魯棒性,此外,在DRL 算法領(lǐng)域也出現(xiàn)了魯棒DRL 算法[105],這也是未來可以嘗試的解決方法。

5 結(jié)語

本文介紹了新型電力系統(tǒng)調(diào)度問題,闡述了基于模型、基于價(jià)值、基于策略和執(zhí)行者-評(píng)論者的DRL 算法原理,以及在調(diào)度中可嘗試應(yīng)用的DRL算法。在經(jīng)濟(jì)調(diào)度問題中,分別從大電網(wǎng)、微電網(wǎng)、虛擬電廠、綜合能源系統(tǒng)角度總結(jié)了DRL 應(yīng)用的結(jié)果;在最優(yōu)潮流問題中,以交流最優(yōu)潮流模型為基礎(chǔ),總結(jié)了主網(wǎng)、配電網(wǎng)、微電網(wǎng)以及安全約束最優(yōu)潮流問題的DRL 解決方案;在機(jī)組組合問題中,總結(jié)了火電發(fā)電機(jī)組的機(jī)組組合和考慮新能源的機(jī)組組合問題。最后,分析了當(dāng)前應(yīng)用前景,并論述了未來研究方向。

本文受國(guó)家自然科學(xué)基金項(xiàng)目(52007173,U19B2042)資助,謹(jǐn)此致謝!

附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。

猜你喜歡
潮流調(diào)度電網(wǎng)
穿越電網(wǎng)
《調(diào)度集中系統(tǒng)(CTC)/列車調(diào)度指揮系統(tǒng)(TDCS)維護(hù)手冊(cè)》正式出版
一種基于負(fù)載均衡的Kubernetes調(diào)度改進(jìn)算法
虛擬機(jī)實(shí)時(shí)遷移調(diào)度算法
潮流
足球周刊(2016年14期)2016-11-02 11:47:59
潮流
足球周刊(2016年15期)2016-11-02 11:44:02
潮流
足球周刊(2016年10期)2016-10-08 18:50:29
電網(wǎng)也有春天
河南電力(2016年5期)2016-02-06 02:11:32
從2014到2015潮流就是“貪新厭舊”
Coco薇(2015年1期)2015-08-13 21:35:10
電網(wǎng)環(huán)保知多少
河南電力(2015年5期)2015-06-08 06:01:46
河间市| 浑源县| 景德镇市| 三亚市| 东宁县| 通道| 错那县| 福建省| 南投市| 泗洪县| 泸州市| 河间市| 珲春市| 长宁县| 高台县| 大丰市| 彭泽县| 苍梧县| 荃湾区| 中宁县| 嘉黎县| 渭南市| 靖西县| 从化市| 阜城县| 南雄市| 宁河县| 合作市| 东宁县| 大新县| 安平县| 凭祥市| 拜泉县| 兴文县| 奇台县| 辽阳市| 雷山县| 武威市| 金川县| 巴中市| 广水市|