基于深度強化學習算法的“電網(wǎng)腦”及其示范工程應用

2021-07-25 10:16:34徐春雷吳海偉刁瑞盛胡潯惠

電力需求側(cè)管理 2021年4期

徐春雷，吳海偉，刁瑞盛，胡潯惠，李雷，史迪

（1.國網(wǎng)江蘇省電力有限公司，南京 210024；2.智博能源科技（江蘇）有限公司，南京 211302；3.國電南瑞科技股份有限公司，南京 211106；）

0 引言

隨著大功率特高壓交直流混聯(lián)，可再生能源滲透率及負荷響應比例逐漸提高，我國電網(wǎng)運行特征發(fā)生了深刻且復雜的變化，其不確定性及動態(tài)性顯著增強。由可再生能源的快速波動以及電網(wǎng)故障所導致的局部功率不平衡，如果沒有及時、有效的調(diào)控手段，將逐步轉(zhuǎn)變?yōu)檫B鎖故障，系統(tǒng)性安全風險顯著增大。因此，制定快速、準確的在線調(diào)控決策對于確保電網(wǎng)安全穩(wěn)定運行至關(guān)重要。

目前，成功應用于電力領域的人工智能（artifi?cial intelligence，AI）技術(shù)多側(cè)重于負荷預測、可再生能源預測、安全性預測等。其核心技術(shù)為監(jiān)督式學習算法，通常需要采集大量有標注的有效樣本來訓練AI 模型。而電網(wǎng)調(diào)控領域的很多問題缺少大量真實電網(wǎng)事件作為有效樣本，這也是制約監(jiān)督式學習方法在電網(wǎng)調(diào)控領域落地應用的重要因素之一。近期，強化學習算法用于電力領域已有部分研究陸續(xù)開展，包括以下方面。

①電網(wǎng)穩(wěn)定性控制:文獻［1］提出了基于Q 學習算法的切機方案來保證系統(tǒng)暫態(tài)安全穩(wěn)定性；文獻［2］提出了基于Q 學習算法的低頻振蕩抑制策略。②微網(wǎng)經(jīng)濟運行:文獻［3］提出了在微網(wǎng)環(huán)境中基于Q 學習算法的儲能裝置控制方法。③提升電網(wǎng)暫態(tài)行為指標:文獻［4］提出了基于深度Q網(wǎng)絡算法的暫態(tài)電壓控制策略。④安全評估:文獻［5］提出了使用強化學習算法對電網(wǎng)物理信息系統(tǒng)進行安全評估。⑤頻率控制:文獻［6］提出了使用強化學習進行負荷頻率控制的方法。⑥電網(wǎng)負荷預測:文獻［7］使用強化學習算法進行短期負荷預測。⑦經(jīng)濟規(guī)劃和無功電壓控制:文獻［8］提出了基于分布式強化學習算法來解決動態(tài)經(jīng)濟規(guī)劃的問題；文獻［9］提出了一種基于深度強化學習的配電網(wǎng)無功-電壓優(yōu)化方案。⑧聯(lián)絡線潮流控制:文獻［10］提出了一直基于競爭架構(gòu)deep Q?learning 算法的拓撲控制方法以最大化連續(xù)時間斷面的線路傳輸容量；文獻［11］提出了一種基于近端優(yōu)化深度強化學習算法的有功控制方法。⑨參數(shù)自動調(diào)節(jié):文獻［12］提出了一種基于多層深度Q 網(wǎng)絡對發(fā)電機動態(tài)模型進行自動調(diào)參的方法等。

本文在上述研究成果的基礎上，提出了一種基于最大熵強化學習算法的電網(wǎng)多目標在線調(diào)控輔助決策方法，可對電網(wǎng)有功、無功、網(wǎng)損進行多目標聯(lián)合優(yōu)化控制。研發(fā)完成的軟件部署于江蘇省調(diào)控中心安全I區(qū)，通過多線程離線訓練和定期在線更新，訓練好的soft actor?critic（SAC）智能體可與電網(wǎng)實時運行環(huán)境進行交互，在毫秒級給出輔助調(diào)控策略，解決電壓越界、聯(lián)絡線潮流越限以及網(wǎng)損優(yōu)化等問題。該方法利用電力系統(tǒng)基本原理與規(guī)則，基于海量電網(wǎng)真實斷面進行大量仿真分析，模擬電網(wǎng)中可能出現(xiàn)的電壓越界或潮流越限等事件，用于豐富樣本庫，通過快速自我學習和訓練，依靠傳統(tǒng)計算分析方法參與評價與反饋，生成滿足電網(wǎng)運行控制要求的系列智能體，可對電網(wǎng)中閉環(huán)運行的實時調(diào)控系統(tǒng)提供有效的輔助支撐，尤其是當閉環(huán)調(diào)控系統(tǒng)暫時退出運行且調(diào)度員缺乏其他有效工具時。

本文首先簡述了適用于電網(wǎng)調(diào)控領域的深度強化學習基本原理以及本文所使用的最大熵強化學習算法；然后詳細給出了所提方法的總體設計、智能體訓練流程、原型軟件架構(gòu)以及數(shù)據(jù)流；最后以江蘇張家港分區(qū)為例，通過大量的在線數(shù)值仿真實驗驗證了該方法的有效性。

1 深度強化學習技術(shù)與最大熵強化學習算法

考慮到實際電網(wǎng)的復雜性，通過對比各算法的優(yōu)缺點，本文采用最大熵強化學習算法對智能體進行訓練以實現(xiàn)既定的控制目標，該算法的魯棒性和收斂性能十分優(yōu)異。類似于其他深度強化學習算法（deep reinforcement learning,DRL），SAC也采用值函數(shù)和Q函數(shù)。區(qū)別在于，其他強化學習算法只考慮最大化預期獎勵值的積累；而SAC采用隨機策略，在最大化獎勵值積累的同時最大化熵值，即在滿足控制性能要求的前提下采取盡可能隨機的控制動作［13］。SAC的核心算法中更新最優(yōu)策略的過程表示為

SAC算法采用隨機策略，針對多目標電網(wǎng)自主安全調(diào)控這一控制決策問題，具有更強大的探索可行域的能力［13］。訓練智能體的過程類似于其他策略梯度算法，對于控制策略的評估和提升可采用帶有隨機梯度的人工神經(jīng)網(wǎng)絡。構(gòu)造所需值函數(shù)Vψ(st)和Q函數(shù)Qθ(st,at)時，可分別用神經(jīng)網(wǎng)絡參數(shù)ψ和θ來表示。SAC算法中采用2個值函數(shù)，其中一個值函數(shù)稱為“軟”值函數(shù)，來逐步更新策略，以提升算法的穩(wěn)定性和可靠性。根據(jù)文獻［13］，軟值函數(shù)可以通過最小化式（2）中的誤差平方值來更新其神經(jīng)網(wǎng)絡的權(quán)重，目標函數(shù)為

式中:D為已有樣本的空間分布；為對誤差平方值的期望；為控制策略π?所對應控制動作at的期望。

式（2）的概率梯度則可用式（3）來計算

式中:?ψ為對參數(shù)ψ求梯度。

類似地，可通過最小化Bellman 殘差的方式來更新軟Q函數(shù)的神經(jīng)網(wǎng)絡權(quán)重，計算如下

式中:γ為折扣系數(shù)；為概率分布p的t+1 時刻狀態(tài)st+1的期望。

而式（4）的優(yōu)化求解可由式（6）中的概率梯度進行迭代計算

式中:?θ為對θ求梯度；為目標值函數(shù)網(wǎng)絡，可定期更新（詳見算法1）。

不同于其他確定梯度算法，SAC 的策略是由帶有平均值和協(xié)方差的隨機高斯分布所表達。代表其控制策略的神經(jīng)網(wǎng)絡參數(shù)可通過最小化預期Kullback?Leibler（KL）偏差而得到，參數(shù)為φ的控制策略π的目標函數(shù)為

其優(yōu)化求解過程可由式（8）的概率梯度給出［13］

2 基于SAC 的多目標電網(wǎng)運行方式在線調(diào)控方法

2.1 馬爾科夫決策過程

電網(wǎng)中的諸多調(diào)控問題可描述成馬爾科夫決策過程（Markov decision process，MDP），用于解決隨機動態(tài)環(huán)境下的離散時序控制問題。針對于電網(wǎng)中的電壓、潮流控制，相應的MDP過程可用4維元組描述（S，A，Pa，Ra），其中S代表系統(tǒng)狀態(tài)空間，可包括電壓幅值、電壓相角、線路有功功率、線路無功功率、發(fā)電機出力、負荷等；A代表控制動作集，可包括發(fā)電機有功出力、機端電壓設定值、容抗器投切、變壓器分接頭調(diào)整、切負荷等；Pa(s,s’)=Pr(st+1=s’|st=s，at=a)則代表系統(tǒng)在t時刻從當前狀態(tài)st采用了控制動作at后轉(zhuǎn)移到新狀態(tài)st+1的概率；Ra(s,s’)代表從當前狀態(tài)s轉(zhuǎn)移到新狀態(tài)后s’得到的獎勵值，用來評估控制效果。

MDP 的求解過程是為了得到優(yōu)化控制策略π(s)，可從系統(tǒng)狀態(tài)直接給出控制動作，從而使長時間序列的期望獎勵值積累達到最大化。深度強化學習AI 智能體可在不斷地與環(huán)境交互的過程中學習并提升控制策略，即“強化”或“進化”過程，直至快速、高水平完成既定控制目標，如圖1所示。通過仔細設計系統(tǒng)狀態(tài)、獎勵值、動作空間，DRL 智能體從環(huán)境中獲取系統(tǒng)狀態(tài)s，同時給出控制動作a；環(huán)境在施加了該控制動作后將改變的系統(tǒng)狀態(tài)s'和獎勵值r輸出給智能體。

圖1 深度強化學習智能體與環(huán)境交互過程Fig.1 Interaction between DRL agent and environment

在強化學習算法中，有2個重要的函數(shù)定義，即值函數(shù)和Q函數(shù)。其中值函數(shù)V(s)用來衡量當前狀態(tài)的好壞，即從當前狀態(tài)開始并采用一個特定控制策略后所能累計到的獎勵值；而Q函數(shù)則是用來評估控制策略的好壞，即從某個狀態(tài)開始采用該控制策略所能積累的獎勵值。Q函數(shù)為

式中:E為對獎勵值的期望；r為每個對應時刻或控制迭代所獲得的獎勵值；γ為折扣系數(shù)。

達到最大期望值的最優(yōu)Q值函數(shù)可表述為

一旦得到最優(yōu)Q值函數(shù)Q*，AI 智能體則可根據(jù)該函數(shù)給出的值輸出控制指令

相應地，最大化獎勵值的最優(yōu)Q值可以表述為

式（9）至式（12）構(gòu)成了馬爾科夫決策過程。由于控制措施的獎勵值可以用人工神經(jīng)網(wǎng)絡來預測，最優(yōu)的Q值則可以用分解后的形式表述，即貝爾曼（Bellman）方程為

2.2 總體框架

本文提出的方法在訓練AI智能體的過程中同時考慮多個控制目標、安全約束和電力設備物理極限?？刂颇繕税ㄐ迯碗妷涸较迒栴}、減小網(wǎng)損以及修復聯(lián)絡線潮流越限問題。

值得注意的是，該方法具有通用性和靈活性，可以針對母線電壓、聯(lián)絡線功率、線路網(wǎng)損等不同控制問題分別訓練、測試AI 智能體以提升性能，達到預期的控制目標［14—15］。

2.3 智能體設計

為了訓練有效的智能體達到既定目標，相應的環(huán)境、樣本、狀態(tài)、動作以及獎勵值定義如下。

環(huán)境：本文所提出的AI智能體訓練方法使用電網(wǎng)真實運行/計算環(huán)境，即D5000在線系統(tǒng)中的狀態(tài)估計模塊和調(diào)度員交流潮流計算模塊。

樣本：訓練和測試樣本可從D5000 系統(tǒng)的海量斷面潮流文件（QS格式）中獲得，代表不同時間點的電網(wǎng)真實運行狀態(tài)。若針對未來規(guī)劃中的拓撲結(jié)構(gòu)變化訓練AI 智能體，則需將該變化反映在樣本中。此外，智能體的狀態(tài)空間和控制空間維度也應進行相應的調(diào)整。

狀態(tài)：針對控制目標，系統(tǒng)狀態(tài)變量將包括變電站母線電壓幅值、電壓相角、傳輸線路有功功率和無功功率、控制變量狀態(tài)等。

動作：為了有效調(diào)整變電站母線電壓水平，控制動作可包括調(diào)節(jié)發(fā)電機端電壓、投切電容/電抗器、變壓器分接頭調(diào)整、拉停線路等措施。

獎勵值：為了施加有效控制，考慮多控制目標后的每一步施加控制措施，所對應的獎勵值定義如下。

當發(fā)生電壓或潮流越限時

式中:N為功率越限線路的總數(shù)；Sline(i)為線路視在功率；Sline_max(i)為線路視在功率極限；M為電壓越限母線的總數(shù)；Vm為母線電壓幅值；Vmin為電壓安全下限；Vmax為電壓安全上限。

式中:p_loss為當前網(wǎng)損值；p_loss_pre為控制前網(wǎng)損值。

當無電壓、潮流越限情況且delta_p_loss<0時

當無電壓、潮流越限情況且delta_p_loss≥0.02時

其他情況時

2.4 SAC智能體訓練及測試過程

前期準備工作需要搜集大量代表歷史運行工況的電網(wǎng)斷面潮流文件，可連續(xù)涵蓋幾周甚至幾個月的電網(wǎng)運行狀態(tài)。

訓練開始時，首先提取并解析系統(tǒng)斷面潮流文件，由調(diào)度員潮流程序進行基態(tài)潮流計算并判別是否收斂。若不收斂，則代表該基態(tài)潮流文件本身存在數(shù)據(jù)或模型錯誤，或電網(wǎng)工況不合理并可能包含安全性問題。若潮流收斂，則分析電網(wǎng)工況，檢查包括電壓、線路潮流、網(wǎng)損在內(nèi)的各項指標。提取出的系統(tǒng)狀態(tài)輸入至SAC智能體，給出控制策略。當前樣本訓練滿足退出條件后，將更新SAC的各個神經(jīng)網(wǎng)絡模型參數(shù)。當所有樣本均被訓練后，該流程退出。

為了提高訓練效果和控制準確性，通?？梢圆捎枚嗑€程訓練的方式，即采用不同的超參數(shù)和隨機數(shù)產(chǎn)生多個智能體，綜合評估各智能體的效果并選擇效果最好的一個或多個，用于在線運行。智能體在測試過程中，SAC智能體的各神經(jīng)網(wǎng)絡模型參數(shù)不再改變，而是由訓練好的智能體直接給出控制策略，并使用D5000調(diào)度員潮流計算程序評估控制效果。

3 江蘇電網(wǎng)算例及應用驗證

以江蘇電網(wǎng)張家港分區(qū)為例，分別展示了SAC智能體在2019 年夏季高峰典型工況和2019 年冬季在線運行的調(diào)控性能。

3.1 張家港分區(qū)系統(tǒng)簡介

圖2給出了訓練SAC智能體與南瑞D5000系統(tǒng)進行交互的過程。張家港分區(qū)的高壓網(wǎng)架結(jié)構(gòu)包含45 個廠站，線路96 條。該分區(qū)最大統(tǒng)調(diào)出力約230 萬kW，張家港、晨陽、錦豐主變最大受電能力350萬kW，最大供電能力約為580萬kW。當D5000系統(tǒng)將斷面潮流QS 文件輸出到AI 服務器中，訓練好的智能體可在1 s 以內(nèi)給出合理建議來解決電壓越界問題并降低系統(tǒng)網(wǎng)損。輸出的控制指令將導入D5000 系統(tǒng)中進行調(diào)度員潮流計算，驗證其有效性。圖3給出了該原型軟件的展示終端界面。

圖2 多目標自主調(diào)控智能體訓練流程圖Fig.2 Flowchart for training DRL agent for multi?objective autonomous control

圖3 張家港分區(qū)AI智能體與電網(wǎng)環(huán)境交互過程Fig.3 Interaction between SAC agent and power grid environment for Zhangjiagang

該方法在張家港分區(qū)的訓練與測試分為2個階段，包括針對典型運行狀態(tài)的測試和針對在線運行工況的測試。

3.2 典型運行工況測試

在訓練該智能體的過程中考慮的控制目標包括:①220 kV及以上母線電壓不越限，在［0.97p.u.，1.07p.u.］范圍內(nèi)；②220 kV及以上線路不過載；③降低220 kV及以上線路網(wǎng)損達0.5%以上?？刂拼胧檎{(diào)節(jié)張家港分區(qū)內(nèi)12 臺發(fā)電機的機端電壓設定值，在［0.97p.u.，1.07p.u.］范圍內(nèi)調(diào)節(jié)。訓練和測試樣本的生成流程如下:在2019年7月份江蘇（含全華東地區(qū)，220 kV以上網(wǎng)架）5個基態(tài)斷面潮流文件基礎上隨機擾動張家港分區(qū)負荷（±20%，即80%～120%），并添加N-1、N-1-1 故障。共產(chǎn)生了24 000 個斷面樣本，隨機選取12 000個作為樣本訓練SAC智能體，剩余12 000個作為測試樣本測試智能體調(diào)控性能。

測試結(jié)果由表1給出。該測試結(jié)果表明經(jīng)過訓練的SAC 智能體可以有效幫助典型運行工況緩解電壓越限問題及降低網(wǎng)損。結(jié)果中存在1個未完全解決電壓問題的斷面數(shù)據(jù)，一方面考慮到用于該離線測試的斷面數(shù)據(jù)是在“典型”的實際斷面數(shù)據(jù)上添加各種隨機擾動生成的，斷面數(shù)據(jù)本身存在無解的可能性。因此，少量不合理數(shù)據(jù)本身并不會影響智能體的訓練，更重要的是智能體在在線狀態(tài)下是基于實際數(shù)據(jù)的測試結(jié)果。另一方面，訓練和測試智能體過程中遇到難以求解的斷面，可以進一步對其進行研究，有可能是電網(wǎng)關(guān)鍵斷面。

表1 DRL控制性能總結(jié)Table 1 Summary of DRL control performance%

3.3 在線性能測試

本文所研發(fā)的軟件于2019 年11 月部署在江蘇電網(wǎng)調(diào)控中心安全I 區(qū)。在線系統(tǒng)采用與3.2 節(jié)相同的控制目標和控制措施。區(qū)別在于訓練和測試樣本均直接從D5000 系統(tǒng)的潮流斷面QS 文件中獲得，包括歷史斷面和實時斷面（間隔為5 min）。AI主程序與D5000 系統(tǒng)在安全I 區(qū)實時交互，用來訓練和測試智能體的性能。

首先采集2019 年11 月22 日至11 月29 日的江蘇電網(wǎng)斷面潮流QS文件對智能體進行訓練，其中訓練樣本1 650個斷面數(shù)據(jù)，測試樣本為425個斷面數(shù)據(jù)。智能體的訓練和測試性能如圖4所示。當施加控制措施后電壓和線路功率均不越限，獎勵值為正；在此基礎上，網(wǎng)損降低越多，獎勵值越大。從圖5 中可以看出，智能體在從零開始訓練過程中，前120 個斷面的效果并不理想，但是隨著樣本數(shù)的增加，其性能不斷提升。訓練集中共有571 個斷面出現(xiàn)電壓越下限問題，智能體均可以快速且有效地解決；而在測試集中的239 個有電壓問題的斷面均可以有效解決。

圖4 在線系統(tǒng)架構(gòu)Fig.4 Architecture of the online system deployed in Jiangsu province

相應地，圖5 給出了智能體訓練和測試過程中張家港分區(qū)網(wǎng)損降低（輸電線路兩端有功功率絕對值之差）的情況。在訓練集中，智能體可平均降低網(wǎng)損3.453 5%（基準為控制前該分區(qū)輸電網(wǎng)絡網(wǎng)損值）；而在測試集中，智能體可平均降低網(wǎng)損達3.874 7%。

圖5 在線系統(tǒng)訓練及測試結(jié)果Fig.5 Performance of training and testing the online system

為了確保智能體的控制性能以及避免過擬合情況的發(fā)生，每周2 次對智能體訓練和測試模型進行運維。通過不斷積累的訓練樣本和調(diào)試，可保持SAC智能體控制措施的有效性和魯棒性。表2給出了電網(wǎng)腦系統(tǒng)在2019 年12 月3 日至2020 年1 月13日期間的運行情況。圖6給出了該時間段內(nèi)張家港分區(qū)網(wǎng)損降低情況的總結(jié)。

圖6 張家港分區(qū)網(wǎng)損降低總結(jié)Fig.6 Summary of network loss reduction in Zhangjiagang

表2 DRL運行情況總結(jié)Table 2 Summary of DRL operation

本文選取江蘇張家港分區(qū)進行試運行驗證，針對每5 min的電網(wǎng)實時運行斷面，SAC智能體在滿足調(diào)控需求的前提下可在20 ms 內(nèi)對電壓、潮流越界等問題提供解決方案，快速消除風險。

4 結(jié)束語

本文介紹了先進人工智能技術(shù)在各控制決策領域中的成功應用，闡述了AI技術(shù)在電網(wǎng)調(diào)控領域的發(fā)展瓶頸，討論了克服該瓶頸的方法和思路，并在此基礎上提出基于深度強化學習算法的多目標多工況電網(wǎng)在線優(yōu)化控制方法。本文所述方法是人工智能DRL技術(shù)在實際電力系統(tǒng)調(diào)控領域的應用實踐。測試結(jié)果和試運行性能說明，基于人工智能技術(shù)的電力系統(tǒng)控制和優(yōu)化具有廣闊前景。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡