解立輝 席 磊
(三峽大學(xué) 電氣與新能源學(xué)院, 湖北 宜昌 443002)
電力系統(tǒng)的頻率控制可分為一次、二次和三次調(diào)頻.一次調(diào)頻是指利用系統(tǒng)固有的負(fù)荷頻率特性及發(fā)電機(jī)組的調(diào)速器,來阻止系統(tǒng)頻率偏離標(biāo)準(zhǔn)的調(diào)節(jié)方式,即通過發(fā)電機(jī)組的調(diào)速器跟蹤本地頻率信號完成一個“小”閉環(huán)控制;二次調(diào)頻是在各控制區(qū)域采用集中的計(jì)算機(jī)控制,以保持發(fā)電功率與負(fù)荷功率的平衡,即通過調(diào)度端AGC 實(shí)時控制器跟蹤全網(wǎng)頻率和聯(lián)絡(luò)線功率偏差后,將調(diào)節(jié)指令下發(fā)給電廠PLC 完成一個“大”閉環(huán)控制,機(jī)組功率分配常采用簡單的比例法,機(jī)組容易偏離經(jīng)濟(jì)運(yùn)行點(diǎn);三次調(diào)頻是對發(fā)電機(jī)組的有功功率進(jìn)行經(jīng)濟(jì)分配,即對電網(wǎng)的有功發(fā)電功率進(jìn)行超短期經(jīng)濟(jì)調(diào)度.
AGC是電力系統(tǒng)的基礎(chǔ)問題,是實(shí)現(xiàn)頻率無差調(diào)節(jié)的關(guān)鍵,一般以經(jīng)典的IEEE 標(biāo)準(zhǔn)兩區(qū)域負(fù)荷頻率控制(load frequency control,LFC)模型為基礎(chǔ)的頻域線性模型進(jìn)行研究,并不考慮電網(wǎng)拓?fù)?經(jīng)過多年發(fā)展已較為成熟.各國AGC 基本是以參數(shù)固定的PI(proportional integral)控制或線性控制為核心,二、三次調(diào)頻分開設(shè)計(jì),性能雖能滿足一般工程需要,但仍存在3個難題:(1)在調(diào)度端AGC控制器無法有效解決機(jī)組響應(yīng)的大時滯,長期存在火電AGC 機(jī)組調(diào)節(jié)次數(shù)高和頻繁反調(diào),導(dǎo)致機(jī)組調(diào)節(jié)能耗高、壽命下降;(2)在調(diào)度端AGC 總調(diào)節(jié)功率指令無法實(shí)現(xiàn)“秒級”動態(tài)優(yōu)化分配,導(dǎo)致不同類型機(jī)組動態(tài)互補(bǔ)調(diào)節(jié)特性無法充分利用,在系統(tǒng)內(nèi)快速調(diào)節(jié)資源耗盡時,CPS(control performance standard)性能急劇變壞;(3)隨著間歇性新能源的大規(guī)模接入,對傳統(tǒng)集中式確定性能源形成“擠出”效應(yīng),電網(wǎng)運(yùn)行呈現(xiàn)更強(qiáng)的分散性、多樣性和隨機(jī)性特征,如何有效利用新能源與柔性負(fù)荷參與電網(wǎng)調(diào)節(jié)是一個巨大挑戰(zhàn).
對不確定性進(jìn)行量化是機(jī)器學(xué)習(xí)的基礎(chǔ),傳統(tǒng)認(rèn)為機(jī)器學(xué)習(xí)模型是一種函數(shù),將它與某些數(shù)據(jù)進(jìn)行擬合從而進(jìn)行預(yù)測,就像借助數(shù)據(jù)擬合曲線一樣.廣義的機(jī)器學(xué)習(xí)就是機(jī)器對世界進(jìn)行建模,這個模型對不確定性進(jìn)行量化,不確定性的積分就是概率.故機(jī)器是建立在概率基礎(chǔ)上的,它對世界的理解本身就包含不確定性.隨著它“看”到的數(shù)據(jù)越來越多,不確定性通常會降低.換句話說,機(jī)器從數(shù)據(jù)中學(xué)到了一些東西.這一思想在“貝葉斯定理”這一優(yōu)雅的數(shù)學(xué)理論中得以體現(xiàn).故認(rèn)為貝葉斯及“通過概率量化不確定性”,正是機(jī)器學(xué)習(xí)的基石.
對于融入大量具有隨機(jī)性新能源的電力系統(tǒng),及大時延、無法準(zhǔn)確建模且動態(tài)優(yōu)化決策實(shí)時性強(qiáng)的龐大系統(tǒng),相較于經(jīng)典優(yōu)化方法,機(jī)器學(xué)習(xí)是一個有效的手段.機(jī)器學(xué)習(xí)是一個算法范疇,其本質(zhì)[1]是找到一個目標(biāo)函數(shù)f,使其成為輸入變量X到輸出變量Y之間的最佳映射:Y=f(X).機(jī)器學(xué)習(xí)主要分4類:有監(jiān)督式學(xué)習(xí),無監(jiān)督學(xué)習(xí),半監(jiān)督式學(xué)習(xí)和強(qiáng)化學(xué)習(xí)(reinforcement learning,RL).RL 在電力調(diào)度控制決策中頗具潛力.
AGC是動態(tài)的多級決策問題,可視為非馬氏環(huán)境下的決策過程,以最終實(shí)現(xiàn)全系統(tǒng)內(nèi)發(fā)電出力和負(fù)荷功率相匹配.李紅梅等[2]將RL 引入到水火混雜AGC系統(tǒng)中,針對水輪機(jī)非線性特點(diǎn),將環(huán)境知識轉(zhuǎn)化成RL 的先驗(yàn)知識以加快AGC 的調(diào)整速度.在AGC的隨機(jī)最優(yōu)控制中,同樣可應(yīng)用RL,如與模型無關(guān)且具有先驗(yàn)知識的Q 學(xué)習(xí)[3-4]、基于平均報(bào)酬模型的全過程R(λ)學(xué)習(xí)[5-6]和在策略SARSA 算法[7].有學(xué)者將多agent RL[8]和深度強(qiáng)化學(xué)習(xí)[9]用于互聯(lián)大電網(wǎng)的AGC,以有效提高由于新能源并網(wǎng)所帶來的隨機(jī)擾動以至電網(wǎng)越來越差的控制性能.此外,RL還可與多目標(biāo)優(yōu)化策略相結(jié)合用于解決AGC 問題[10].Q 學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合可形成深度Q 學(xué)習(xí)用于強(qiáng)魯棒性AGC控制器的設(shè)計(jì)[11].有關(guān)學(xué)者還將R(λ)學(xué)習(xí)用于孤島微網(wǎng)的AGC.總之,在AGC 中引入RL,可將CPS指標(biāo)轉(zhuǎn)化為強(qiáng)化信號反饋給AGC系統(tǒng),能夠有效實(shí)現(xiàn)功率調(diào)節(jié)指令的在線優(yōu)化.
目前AGC 在新型電力系統(tǒng)中發(fā)展,逐漸從單agent RL 過渡到多agent RL,學(xué)者們提出并逐步豐富了智能發(fā)電控制(smart generation control,SGC)概念及算法體系,形成分布式SGC 策略.SGC 與AGC的最大區(qū)別在于,無論是AGC總調(diào)節(jié)功率動態(tài)優(yōu)化控制(即通過AGC控制器來獲取總調(diào)節(jié)功率,下文亦稱“控制”),還是AGC 總調(diào)節(jié)功率指令動態(tài)優(yōu)化分配(即機(jī)組功率動態(tài)優(yōu)化分配,下文亦稱“分配”),都將用智能方法取代原有的PI控制及固定比例分配法(按各機(jī)組可調(diào)容量裕度的比例進(jìn)行分配,簡稱PROP),即從整體到分支實(shí)現(xiàn)真正意義的智能化.以近期學(xué)者們的研究為主線來講述AGC 發(fā)展歷程(如圖1所示).即從單agent到多agent,從集中式AGC(centralized-automatic generation control,CAGC)、分布式AGC(distributed-automatic generation control,D-AGC)、分層分布式SGC(hierarchical and distributed-SGC,HD-SGC)分析其發(fā)展歷程.
圖1 AGC發(fā)展歷程
目前AGC系統(tǒng)(如圖2所示)是集中式的,其決策系統(tǒng)位于省調(diào)EMS、電廠PLC或微網(wǎng)EMS內(nèi),由“控制”及“分配”兩個關(guān)鍵部分構(gòu)成.
圖2 C-AGC系統(tǒng)結(jié)構(gòu)
對C-AGC 系統(tǒng)的總調(diào)節(jié)功率控制,即AGC 控制器,目前國內(nèi)采用南瑞EMS自帶的離線優(yōu)化參數(shù)PI控制器.由于火電機(jī)組響應(yīng)時間長,PI控制器對此類時變大時滯系統(tǒng)處理效果差,導(dǎo)致機(jī)組頻繁調(diào)節(jié)、甚至反調(diào),即前述難題(1).
學(xué)者們采用了例如Q、Q(λ)、Sarsa(λ)、R(λ)、ERL等單agent RL作為C-AGC策略的“控制”(“分配”為PROP法),對C-AGC控制器進(jìn)行了持續(xù)性改進(jìn),顯著提高了CPS性能.周斌等[12]采用Q 學(xué)習(xí)對AGC進(jìn)行求解,證明其能夠提高AGC 系統(tǒng)的魯棒性.余濤等[13-14]提出了具有“松弛”策略的Q(λ)及SARSA(λ)方法,有效解決了火電機(jī)組大時滯問題,改善了AGC控制策略不當(dāng)帶來的頻繁調(diào)節(jié)和反調(diào)問題.余濤等[15]提出了基于平均報(bào)酬的R(λ)來求解AGC,克服了RL需另外搭建模型來進(jìn)行預(yù)學(xué)習(xí)的嚴(yán)重缺陷,與Q(λ)相比收斂速度更快,CPS指標(biāo)更優(yōu).YIN L F等[16]將“人類情感”函數(shù)與Q 學(xué)習(xí)結(jié)合形成了情感RL,通過模擬人類在處理復(fù)雜情況下的非線性情感函數(shù),對Q 學(xué)習(xí)“學(xué)習(xí)率、獎勵函數(shù)和動作選擇”進(jìn)行了修正,顯著改進(jìn)了CPS指標(biāo).在廣東電網(wǎng)上的仿真結(jié)果見表1.
表1 集中式AGC總功率動態(tài)優(yōu)化控制性能指標(biāo)對照表
上述方法基本覆蓋了Q 框架體系所衍生的經(jīng)典單agent RL,Q、Q(λ)和R(λ)屬于離策略,而Sarsa(λ)屬于在策略.從對同一個研究對象(廣東電網(wǎng))的CPS效果來看,所有RL 應(yīng)用于廣東中調(diào)的控制器,發(fā)電機(jī)組的調(diào)節(jié)和反調(diào)次數(shù)明顯下降,此效果在隨機(jī)性變強(qiáng)后尤其明顯;在RL諸多算法中,R(λ)和Sarsa(λ)差別已很小,但采用在策略改進(jìn)后,有效避免了搜索大幅擾動狀態(tài),收斂速度進(jìn)一步提升.
目前關(guān)于機(jī)組功率分配的文獻(xiàn)相對較少,省調(diào)采用的南瑞AGC系統(tǒng),其“控制”為PI算法,“分配”為PROP法.由于AGC調(diào)節(jié)周期4~8 s,“控制”采用基于模型的經(jīng)典方法根本無法滿足其實(shí)時優(yōu)化的收斂性.學(xué)者們嘗試用如遺傳算法等作為“控制”來解決此問題,但在實(shí)時性要求下,只能完成一些PROP模式下的等比例優(yōu)化,無法實(shí)現(xiàn)復(fù)雜環(huán)境下的動態(tài)優(yōu)化.實(shí)際中這種無動態(tài)優(yōu)化的分配方式易優(yōu)先把調(diào)節(jié)功率指令分配給動態(tài)調(diào)節(jié)性能優(yōu)異的水電,而對于大量調(diào)節(jié)緩慢的火電卻未加有效利用.故對于火電占優(yōu)的電網(wǎng),易出現(xiàn)在快速調(diào)節(jié)機(jī)組裕度耗盡后性能急劇變壞的情況,電網(wǎng)公司由于CPS不合格被罰電量每年高達(dá)數(shù)億度,這一直是各省調(diào)心中的一個“痛”.
RL的特點(diǎn)是與環(huán)境互動和在線學(xué)習(xí),實(shí)現(xiàn)長期運(yùn)行環(huán)境中獲得的總收益最大.故學(xué)者們采用Q、Q(λ)和分層Q 等單agent RL 作為“分配”部分的方法(“控制”仍為PI算法),余濤等[17]提出基于Q 學(xué)習(xí)的“分配”方法,提高了系統(tǒng)的適應(yīng)性和CPS性能.余濤等[18]提出基于Q(λ)學(xué)習(xí)的“分配”方法,能有效解決火電大時滯環(huán)節(jié)帶來的延時回報(bào)問題,收斂時間較Q學(xué)習(xí)縮短50%以上.余濤等[19]提出基于分層Q(λ)學(xué)習(xí)的“分配”方法,通過引入一個裕度協(xié)調(diào)因子來協(xié)調(diào)AGC和電廠PLC層的兩層動態(tài)分配器.上述文獻(xiàn)表明此C-AGC策略提高了系統(tǒng)實(shí)時優(yōu)化的收斂性、魯棒性和CPS性能.
從表2得出集中決策式AGC總功率動態(tài)分配器通過各類算法調(diào)出各機(jī)組實(shí)際發(fā)電曲線,RL 在負(fù)荷急劇變化時依賴水電,而在系統(tǒng)負(fù)荷平穩(wěn)階段會智能地緩慢“釋放”一部分功率讓火電來承擔(dān),繼而為下一次負(fù)荷快速急劇變化做好準(zhǔn)備.
表2 集中決策式AGC總功率動態(tài)分配器性能指標(biāo)對照表
C-AGC系統(tǒng)模式下無論“控制”亦或“分配”均采用單agent RL.當(dāng)AGC 機(jī)組規(guī)模增加時,會暴露出控制效果下降和收斂時間延長等缺陷,同時加重AGC執(zhí)行超短期時間尺度控制與調(diào)度任務(wù)的負(fù)擔(dān).且僅依靠單agent獨(dú)立學(xué)習(xí)無法實(shí)現(xiàn)各區(qū)域的信息共享和交互協(xié)作,會降低AGC 系統(tǒng)的綜合控制性能.同時,近年來新能源及負(fù)荷大量接入,電力系統(tǒng)EMS逐步走向分散自治的模式.故為解決難題(3),學(xué)者們開始從C-AGC 系統(tǒng)到D-AGC 系統(tǒng)轉(zhuǎn)變.DAGC系統(tǒng)框架如圖3所示.
圖3 D-AGC系統(tǒng)框架
對比圖2、3可見,D-AGC系統(tǒng)不需做C-AGC系統(tǒng)調(diào)度端“集中協(xié)調(diào)”工作,系統(tǒng)被分割為多個分布式區(qū)域,各區(qū)域都有一個異構(gòu)屬性的“大腦”(智能控制器),通過多agent博弈來獲取各分布式區(qū)域的調(diào)節(jié)功率,而“分配”采用PROP法;亦或各區(qū)域“大腦”均為PI控制,而“分配”采用動態(tài)優(yōu)化分配的智能方法.C-AGC系統(tǒng)在結(jié)構(gòu)形式上為集中式控制,只有一個“大腦”,無法實(shí)現(xiàn)分布式多agent 協(xié)同.這也是C-AGC系統(tǒng)與D-AGC系統(tǒng)的最大區(qū)別.
將分布在輸電網(wǎng)和配電網(wǎng)層級的集中式水、火、氣、核等確定型能源、分布式風(fēng)、光、海洋等隨機(jī)型能源、可控負(fù)荷、靜止/移動儲能等資源充分利用起來,完成穩(wěn)態(tài)并列運(yùn)行時的最優(yōu)發(fā)電控制及故障解列式的孤島獨(dú)立頻率支撐的雙重任務(wù).宋成銘[20]提出了一種三級架構(gòu)多智能體系統(tǒng)實(shí)現(xiàn)對AGC 和AVC 的協(xié)調(diào)控制,提高有功、無功控制的自主應(yīng)變能力和分布式控制能力.強(qiáng)化學(xué)習(xí)應(yīng)用于AGC 方面,學(xué)者們分別從“控制”和“分配”角度提出了適用于D-AGC系統(tǒng)的基于多agent RL的D-AGC策略.
RL通過試錯所有可能動作找出最優(yōu)解,由于參數(shù)設(shè)置簡單、普適性強(qiáng),其在眾多方法里具有很強(qiáng)的競爭力.圖3所述為多個單agent構(gòu)成的群體智能控制器,根據(jù)agent特征,分為同構(gòu)、異構(gòu).對于異構(gòu)多agent系統(tǒng),學(xué)者們將博弈論與Q學(xué)習(xí)結(jié)合,形成了基于多個單agentRL 的隨機(jī)對策算法體系,如圖4所示.
圖4 群體Q 學(xué)習(xí)的隨機(jī)對策論算法體系
這種基于多個單agent RL 的“偽”多agent RL理論應(yīng)用遇到了新的挑戰(zhàn).所謂“偽”:首先為多個單agent RL 定義最優(yōu)的共有學(xué)習(xí)目標(biāo)較困難;其次各agent都需要記錄其他agent的動作(穩(wěn)定性差),才能與其他agent交互以獲得聯(lián)合動作.如此差的穩(wěn)定性導(dǎo)致多個單agent RL 收斂速度慢,這也推動了多agent RL的快速發(fā)展.
AGC可描述為非馬爾可夫環(huán)境下的異構(gòu)多agent復(fù)雜隨機(jī)動態(tài)博弈問題,基于RL 的多agent系統(tǒng)隨機(jī)博弈(MAS-SG)理論可解決此問題.Greenwald A.等[21]提出了基于多agent RL的CEQ 方法,根據(jù)預(yù)設(shè)的均衡選擇函數(shù)在線獲得獎勵值,從而收斂到最優(yōu)均衡.當(dāng)機(jī)組數(shù)不多時,上述RL 都能適應(yīng)強(qiáng)隨機(jī)環(huán)境.隨著區(qū)域及機(jī)組數(shù)大量增多時,狀態(tài)和動作維度過高,使得agent很難遍歷所有情況,導(dǎo)致算法無法學(xué)到合理的策略,存在維數(shù)災(zāi)問題.學(xué)者們發(fā)現(xiàn),將深度神經(jīng)網(wǎng)絡(luò)作為近似函數(shù)[22-25]引入到RL 中是一種解決維數(shù)災(zāi)問題的有效方法.
隨著“雙碳”目標(biāo)倒逼能源互聯(lián)網(wǎng)加快發(fā)展,從頻率控制的角度,萬物互聯(lián)將給電網(wǎng)帶來更強(qiáng)的隨機(jī)擾動及更多的維數(shù)災(zāi).席磊等[26]融合DDQN-AD 與比例經(jīng)驗(yàn)回放法,提出PRDDQN-AD[27],對采樣的數(shù)據(jù)單元進(jìn)行重要性評估,在避免獲取的稀缺經(jīng)驗(yàn)數(shù)據(jù)可能被快速遺忘的同時,提高學(xué)習(xí)效率.
目前所查文獻(xiàn)關(guān)于微網(wǎng)或微網(wǎng)群協(xié)同的AGC算法相對較少.綦曉[28]針對多區(qū)域互聯(lián)微網(wǎng)系統(tǒng),結(jié)合線性自抗擾算法和基于原對偶梯度算法的多agent系統(tǒng),提出了分布式優(yōu)化算法.曹倩[29]在微網(wǎng)分層控制結(jié)構(gòu)的框架下,提出多agent自適應(yīng)算法,使頻率恢復(fù)額定值.衣楠[30]在Q 學(xué)習(xí)基礎(chǔ)上提出了面向混合交互環(huán)境的基于MAS 和元胞自動機(jī)的微網(wǎng)分布式協(xié)調(diào)自趨優(yōu)控制策略.李楠芳[31]提出基于多agent微電網(wǎng)控制框架的多agent協(xié)作學(xué)習(xí)算法.無論是大電網(wǎng)亦或微網(wǎng)的協(xié)同方法,傳統(tǒng)RL 均有一個缺陷,即在隨機(jī)環(huán)境中易出現(xiàn)動作值在探索過程中的“高估”現(xiàn)象,導(dǎo)致決策質(zhì)量低.且上述算法均屬于離策略,收斂速度慢且精度低.
Kristopher[32]通過引入?yún)?shù)σ統(tǒng)一離策略與在策略的優(yōu)缺點(diǎn),提出了基于“將各種看似不同的算法思想聯(lián)合統(tǒng)一以產(chǎn)生更好的算法”思想的Q(σ)算法,能夠解決上述離策略固有的“收斂”問題.席磊等[33]在Q(σ)基礎(chǔ)上融入資格跡與雙重學(xué)習(xí),提出了一種基于多步統(tǒng)一RL的多agent協(xié)同DQ(σ,λ)算法.解決RL的時間信度分配問題,且“后向估計(jì)”機(jī)理提供了一個逼近最優(yōu)值函數(shù)Q*的漸進(jìn)機(jī)制,可提高AGC機(jī)組功率調(diào)節(jié)快速性.
在超大規(guī)模新能源接入模式下,D-AGC 策略的“控制”部分采用性能優(yōu)異的多agent協(xié)同算法,這種無動態(tài)優(yōu)化“分配”的AGC性能仍有提升空間.
圖3的D-AGC系統(tǒng)“分配”因涉及到大量同構(gòu)多agent的動態(tài)計(jì)算,比圖2 的C-AGC 系統(tǒng)要復(fù)雜得多,實(shí)時性的困難更加難以克服.故學(xué)者們提出了適應(yīng)D-AGC系統(tǒng)的“分配”RL 方法,例如HCEQ[34]、協(xié)同一致性(collaborative consensus,CC)[35]、RCCA[36]、CTQ[37]等,對機(jī)組功率進(jìn)行動態(tài)優(yōu)化分配.
表3給出了近年學(xué)者們研究的具有動態(tài)優(yōu)化的“分配”方面的算法總結(jié),均以廣東電網(wǎng)為例進(jìn)行分析計(jì)算.從HQ(λ)、HCEQ、CCA、RCCA 到 最 新 的CTQ,實(shí)現(xiàn)了機(jī)組功率動態(tài)優(yōu)化分配,并持續(xù)性提升了廣東電網(wǎng)CPS性能,枯水期比現(xiàn)用PROP 模式調(diào)節(jié)總成本下降了30.3%,豐水期更是發(fā)揮了RL自主探索最優(yōu)策略的能力,實(shí)現(xiàn)了頻率偏差減少14.4%、調(diào)節(jié)總成本下降35.6%.
表3 分布式與集中式總功率指令動態(tài)優(yōu)化分配指標(biāo)對照表
在超大規(guī)模新能源接入模式下,即便D-AGC 策略的“控制”部分采用性能優(yōu)異的多agent協(xié)同算法,這種無動態(tài)優(yōu)化“分配”的AGC 仍有很大提升空間.D-AGC策略非最優(yōu),D-AGC系統(tǒng)須在策略核心技術(shù)上實(shí)現(xiàn)重大突破,以適應(yīng)大規(guī)模分布式多區(qū)域模式下的復(fù)雜環(huán)境.“控制”不僅具有自學(xué)習(xí)和自尋優(yōu)能力的多agent協(xié)同,且“分配”應(yīng)與此同時具有動態(tài)優(yōu)化協(xié)同模式,“SGC”應(yīng)運(yùn)而生.
SGC策略與D-AGC策略所應(yīng)用的AGC系統(tǒng)的結(jié)構(gòu)相同,均為D-AGC 系統(tǒng)結(jié)構(gòu),二者最大區(qū)別在于“控制”及“分配”兩部分,SGC 策略將用智能方法取代原有的PI控制及PROP法.
談竹奎等[38]研究了需求側(cè)響應(yīng)中的柔性溫控負(fù)荷控制問題,提出了將柔性溫控負(fù)荷融入分布式分層控制策略,減輕響應(yīng)事件中管理單元的通信負(fù)擔(dān).席磊等[39]提出一種基于爬升時間一致性的狼群捕獵HD-SGC策略,實(shí)現(xiàn)AGC總調(diào)節(jié)功率動態(tài)優(yōu)化控制的同時,機(jī)組功率動態(tài)優(yōu)化分配,與C-AGC 及D-AGC策略相比,具有更優(yōu)的CPS性能.席磊等[40]為從配網(wǎng)角度求解SGC,提出了基于成本一致性的狼群捕獵HD-SGC 策略,相較其他方法具有更低的發(fā)電成本.進(jìn)一步驗(yàn)證“領(lǐng)導(dǎo)-跟隨”思想在求解SGC方面不僅大電網(wǎng)有效,配網(wǎng)同樣有效.
隨著新能源持續(xù)不斷的大規(guī)模接入,其收斂速度逐漸下降.究其原因,無非是“控制”和“分配”的問題.上述策略的“分配”所采用的協(xié)同一致性(collaborative consensus,CC)只是簡單的一階一致性算法,其對優(yōu)化模型依賴較強(qiáng)且易陷入局部最優(yōu)解;可查文獻(xiàn),關(guān)于RL在AGC“控制”的應(yīng)用,動作選取均為單步貪婪法[41],限制了動作策略最優(yōu)選擇,降低了算法收斂速度.在HD-SGC模式基礎(chǔ)上,尋求性能更優(yōu)的“控制”及“分配”策略或模式.
針對“分配”部分“一階一致性算法”問題,張孝順等[42]曾提出CC 遷移Q 學(xué)習(xí)算法,對一致性和遷移Q 學(xué)習(xí)進(jìn)行高度融合.而Q 學(xué)習(xí)不依賴于數(shù)學(xué)模型,只需獲取外部環(huán)境的實(shí)時狀態(tài)和實(shí)時反饋,即可計(jì)算出agent當(dāng)前的最優(yōu)動作策略.
針對“控制”部分“單步貪婪”問題,Efroni Y等[43]提出了具有多步前瞻屬性的RL算法,對選取多步動作的貪婪策略進(jìn)行預(yù)見性的多次迭代更新.相關(guān)研究也已證明多步貪婪策略在魯棒性及收斂性能上均優(yōu)于單步貪婪策略[44-46].李嘉文[47]提出了一種基于追蹤-探索策略的大規(guī)模多智能體深度確定性策略梯度算法,引入追蹤-探索和集成學(xué)習(xí)策略等多種技巧,引導(dǎo)算法收斂防止陷入局部最優(yōu),智能體僅根據(jù)自身區(qū)域狀態(tài)即可得出全局優(yōu)化決策.
有學(xué)者在VWPC-HDC 基礎(chǔ)上進(jìn)行改進(jìn),在“控制”部分采用融入多步貪婪策略迭代的Q 學(xué)習(xí),即多步貪婪Q 學(xué)習(xí)(MSGQ)來獲取總調(diào)節(jié)功率指令;“分配”部分將HQL(λ)算法與CC 融合,提出了兩層功率分配模式的HQCC 方法,對機(jī)組功率進(jìn)行動態(tài)優(yōu)化分配,進(jìn)而形成一種將具有多步前瞻屬性的貪婪控制算法與具有自學(xué)習(xí)能力的功率優(yōu)化分配算法相融合的多層AGC策略[48](ML-AGC).
“控制”部分,MSGQ 通過對將來多步動作選取的貪婪策略進(jìn)行預(yù)見性的多次迭代更新,從長期的角度以期累積折扣報(bào)酬總和最大,進(jìn)而快速收斂至最優(yōu)策略.“分配”部分通過構(gòu)建兩層功率分配模式,將具有交互協(xié)同和自學(xué)習(xí)特點(diǎn)的HQCC 作為多層“分配”算法,提高了CC 在復(fù)雜隨機(jī)環(huán)境的適應(yīng)性.群體Q學(xué)習(xí)的隨機(jī)對策論算法體系如圖5所示.
圖5 群體Q 學(xué)習(xí)的隨機(jī)對策論算法體系
AGC是建設(shè)大規(guī)模電力系統(tǒng),實(shí)現(xiàn)自動化生產(chǎn)運(yùn)行控制的一項(xiàng)最基本、最實(shí)用的功能.隨著大規(guī)模新能源的接入,傳統(tǒng)調(diào)節(jié)手段已不能滿足新型電力系統(tǒng)的要求,強(qiáng)化學(xué)習(xí)在參數(shù)設(shè)置方面具有簡單性及普適性,推動了強(qiáng)化學(xué)習(xí)在AGC 方面的快速發(fā)展.本文從強(qiáng)化學(xué)習(xí)在AGC 中的應(yīng)用角度出發(fā),分別為傳統(tǒng)集中式AGC策略、分布式AGC 策略、分層分布式SGC策略,闡述了其研究歷程.
集中式AGC策略主要對比了Q 框架體系所衍生的經(jīng)典單agent RL 控制策略,解決火電機(jī)組響應(yīng)時間長,傳統(tǒng)的PI控制器對此類時變大時滯系統(tǒng)處理效果差,導(dǎo)致機(jī)組頻繁調(diào)節(jié)、甚至反調(diào)的問題.隨著新能源的規(guī)?;尤?集中式AGC 控制策略出現(xiàn)控制效果下降和收斂時間延長等問題,降低AGC 系統(tǒng)的綜合控制性能.隨著電力系統(tǒng)EMS逐步走向分散自治的模式,逐漸由集中式演變?yōu)榉植际紸GC策略.
分布式AGC策略分別研究了“控制”部分的博弈論與Q 學(xué)習(xí)結(jié)合隨機(jī)對策算法體系,“分配”部分的HCEQ、協(xié)同一致性(collaborative consensus,CC)、RCCA、CTQ 等算法,實(shí)現(xiàn)機(jī)組功率進(jìn)行動態(tài)優(yōu)化分配,發(fā)揮RL 自主探索最優(yōu)策略的能力,減小頻率偏差與調(diào)節(jié)成本.
最后在超大規(guī)模新能源的接入背景下,D-AGC系統(tǒng)須在策略核心技術(shù)進(jìn)行改進(jìn),“控制”及“分配”采用智能方法取代原有的PI控制及PROP法,主要介紹了狼群捕獵、遷移Q 學(xué)習(xí)算法、貪婪Q 學(xué)習(xí)(MSGQ)等智能算法,通過多智能體參與AGC 的系統(tǒng)運(yùn)行,提高智能電網(wǎng)的運(yùn)行穩(wěn)定性.
隨著電網(wǎng)規(guī)模升級、新能源比重的進(jìn)一步增大,結(jié)合強(qiáng)化學(xué)習(xí)在AGC中的研究現(xiàn)狀對以下方面進(jìn)行討論與展望,主要有4點(diǎn):
1)強(qiáng)化學(xué)習(xí)的可解釋性.目前強(qiáng)化學(xué)習(xí)等人工智能算法與自動發(fā)點(diǎn)控制的結(jié)合還在研究階段,并沒有在實(shí)際工程中進(jìn)行大規(guī)模推廣,一個重要原因是強(qiáng)化學(xué)習(xí)等人工智能算法的可解釋性與強(qiáng)功能性并沒有做到完全兼容.安全可靠往往是工程應(yīng)用的先決條件,因此對于人工智能黑盒模型的研究探索,提高對于強(qiáng)化學(xué)習(xí)的物理可解釋性,有助于提高強(qiáng)化學(xué)習(xí)在AGC的可靠性和安全性.
2)大規(guī)模區(qū)域電網(wǎng)模型.隨著互聯(lián)電網(wǎng)規(guī)模增大,需要考慮到拓?fù)浣Y(jié)構(gòu)以及狀態(tài)空間等多方面的因素就會越多,從而導(dǎo)致建模難度呈幾何倍數(shù)提高,后續(xù)研究需進(jìn)一步拓展區(qū)域互聯(lián)電網(wǎng)模型.
3)強(qiáng)化學(xué)習(xí)探索過程的估值范圍.RL 均存在動作值在探索過程中的“高估”和“低估”問題,解決辦法是在雙Q 學(xué)習(xí)基礎(chǔ)上引入加權(quán)思想,旨在單估計(jì)量法的高估和雙估計(jì)量法的低估之間進(jìn)行權(quán)重平衡,從而使多agent可以既不低估、也不高估、適度樂觀地選擇和探索動作值.同時融入時延更新策略來減少Q(mào)值更新的次數(shù),提高了多agent的更新效率.
4)強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)的融合.傳統(tǒng)強(qiáng)化學(xué)習(xí)算法存在決策精度低和收斂性能差的缺陷,在復(fù)雜的新型電力系統(tǒng)背景下,當(dāng)狀態(tài)空間和動作空間龐大復(fù)雜或應(yīng)用場景連續(xù)時,強(qiáng)化學(xué)習(xí)的值函數(shù)由查表法實(shí)現(xiàn),有一定失效的概率,進(jìn)而令迭代收斂困難.需進(jìn)一步探索深度與強(qiáng)化結(jié)合方法,從而將更智能的控制策略應(yīng)用于AGC系統(tǒng)中.