姚建國,余 濤,楊勝春,潘振寧,李亞平,張孝順
(1. 中國電力科學(xué)研究院有限公司(南京),江蘇省南京市 210003;2. 華南理工大學(xué)電力學(xué)院,廣東省廣州市 510640;3. 東北大學(xué)佛山研究生院,廣東省佛山市 528311)
能源變革新形勢下,中國電網(wǎng)的結(jié)構(gòu)形態(tài)和商業(yè)模式正在經(jīng)歷深刻變化,電網(wǎng)調(diào)度運行面臨的挑戰(zhàn)愈發(fā)嚴(yán)峻:1)以風(fēng)、光為代表的新能源和海量柔性負(fù)荷滲透率不斷增加,調(diào)控對象發(fā)生變化,電網(wǎng)運行不確定性日益增加[1-2];2)氣象、市場和社會因素對新能源和負(fù)荷預(yù)測誤差影響愈發(fā)明顯,電網(wǎng)實際運行與傳統(tǒng)預(yù)測方法適用的運行條件偏差顯著擴大[3-4];3)“源-網(wǎng)-荷-儲”協(xié)同運行導(dǎo)致各層級電網(wǎng)調(diào)度數(shù)量呈指數(shù)級增加,監(jiān)控信息爆發(fā)性增長,傳統(tǒng)基于優(yōu)化建模方法的計算實時性壓力大,且可能難以得出結(jié)果,調(diào)度人員決策壓力劇增[5-7];4)電力市場下多方主體利益博弈顯著加劇了電網(wǎng)運行的不確定性[8],多方利益平衡和電力平衡交集空間變小,電力系統(tǒng)最優(yōu)調(diào)度決策的復(fù)雜度急劇增加。傳統(tǒng)電網(wǎng)調(diào)度模式難以適應(yīng)上述挑戰(zhàn),電力行業(yè)對智能調(diào)度的需求愈加迫切。
人工智能(artificial intelligence,AI)技術(shù)為提升能源新變革下的智能化調(diào)控水平提供了新手段[9]。自20 世紀(jì)80 年代起,AI 技術(shù)已經(jīng)歷了第1 代和第2代2 個研究高潮。近10 年來,隨著基礎(chǔ)理論和算力的不斷提升,以深度學(xué)習(xí)、強化學(xué)習(xí)為代表的AI 技術(shù)再次引起了廣泛關(guān)注,尤其是在DeepMind 開發(fā)出AlphaGo 系列圍棋機器人之后[10],更是掀起了不同科學(xué)領(lǐng)域的研究熱潮,在電網(wǎng)調(diào)度,特別是智能決策領(lǐng)域也受到廣泛關(guān)注。然而,在AI 技術(shù)應(yīng)用于各時間尺度調(diào)度決策的研究如火如荼開展的同時,卻鮮有在實際工程中應(yīng)用的案例,距離實現(xiàn)具有完全自主決策能力的智能調(diào)度依然任重道遠(yuǎn)。造成AI技術(shù)在實際中“不敢用”的根本原因包括泛化性不足、解釋性缺失、復(fù)雜約束下的決策可行性存疑、收斂性不佳等問題。
作為中國新一代AI 規(guī)劃五大技術(shù)方向之一,混合增強智能(hybrid-augmented intelligence,HI)被視為解決當(dāng)前AI 技術(shù)缺陷的重要方法?;旌显鰪娭悄艿年P(guān)鍵特性是將人的作用或人的認(rèn)知模型引入AI 系統(tǒng)中,與機器智能共同形成混合增強智能的形態(tài),這種形態(tài)是AI 或機器智能可行的、重要的成長模式[11]?;旌显鰪娭悄芫哂袛?shù)據(jù)與知識的雙重驅(qū)動特征,能充分利用人類大腦與機器智能之間互補關(guān)系實現(xiàn)機器知識的演化增強,可有效解決傳統(tǒng)AI解釋性差、泛化性弱等問題[12]。混合增強智能調(diào)度是將混合增強智能應(yīng)用至電網(wǎng)調(diào)度領(lǐng)域而形成的一個新的調(diào)度模式。其關(guān)鍵特征是要充分融合“人”和“機”兩者的知識,從第2 代AI 的“數(shù)據(jù)驅(qū)動”為主提升到新一代AI 的“數(shù)據(jù)+知識雙驅(qū)動”。但是,目前各領(lǐng)域?qū)τ诨旌显鰪娭悄艿难芯咳蕴幱谄鸩诫A段。文獻(xiàn)[13]通過引入人在回路的混合增強智能,提升了Sawyer 機器人在非結(jié)構(gòu)化環(huán)境下決策性能。文獻(xiàn)[14]從人機交互模式、態(tài)勢感知、人機協(xié)同決策等角度闡述了面向集群自主系統(tǒng)的人機混合增強智能研究進(jìn)展,明確了通過人機混合增強智能可以顯著提升AI 認(rèn)知能力,減輕基于AI 的控制決策技術(shù)不成熟帶來的風(fēng)險。文獻(xiàn)[15]提出基于混合增強智能的知識圖譜推理方法,結(jié)果證實了人的知識可以有效地指導(dǎo)模型的優(yōu)化,從而提升大規(guī)模知識圖譜的推理效率。但是,在電力調(diào)度領(lǐng)域,關(guān)于混合增強智能的研究還很少,未見有研究剖析實現(xiàn)混合增強智能調(diào)度決策的關(guān)鍵技術(shù)。
基于此,本文將首先分析當(dāng)前AI 技術(shù)在電網(wǎng)調(diào)度決策中應(yīng)用的現(xiàn)狀;其次,研究實現(xiàn)混合增強智能的關(guān)鍵理論,將其歸納為“人機知識協(xié)同演化”;再次,分析實現(xiàn)混合增強智能調(diào)度人機知識演化解決的關(guān)鍵問題,并嘗試提出求解思路和實現(xiàn)方法。
傳統(tǒng)的數(shù)學(xué)解析方法因其收斂性強、計算結(jié)果穩(wěn)定、求解過程與結(jié)果可解釋的優(yōu)點,近幾十年來已在電網(wǎng)調(diào)度決策中得到深度應(yīng)用。對于常規(guī)的確定性調(diào)度優(yōu)化問題,沒必要應(yīng)用AI 技術(shù)替代傳統(tǒng)解析化方法,例如,常規(guī)的機組組合、經(jīng)濟調(diào)度、最優(yōu)潮流等問題。這類問題的特點是模型明確、機理明晰、決策變量維數(shù)大且須滿足運行約束,可采用成熟的凸優(yōu)化算法或混合整數(shù)優(yōu)化算法輕松求解,而AI 方法即使大費周章也難以獲得與之媲美的計算結(jié)果。但是,在能源變革背景下,風(fēng)光強隨機性、信息物理社會因素的復(fù)雜交互[8]、能源網(wǎng)絡(luò)的緊密耦合將給常規(guī)電網(wǎng)調(diào)度問題引入大量不確定性和機理不清晰的部分。此時,依賴于精確模型和參數(shù)的傳統(tǒng)解析方法并不能很好地適應(yīng)上述轉(zhuǎn)變。同時,調(diào)控變量維度的增加、非線性非凸目標(biāo)函數(shù)/約束的加入,導(dǎo)致傳統(tǒng)方法的決策實時性存疑。
作為一種基于歷史經(jīng)驗學(xué)習(xí)而不依賴于模型的數(shù)據(jù)驅(qū)動方法,以強化學(xué)習(xí)為代表的AI 決策技術(shù)更加適合求解機理不清晰、系統(tǒng)狀態(tài)變化不確定、具有非凸目標(biāo)函數(shù)/約束的決策問題的最優(yōu)策略。近年來,AI 技術(shù)已應(yīng)用在新形勢下的機組組合[16]、經(jīng)濟調(diào)度[17]、最優(yōu)潮流[18]、自動發(fā)電控制[19]、拓?fù)鋬?yōu)化[20]等不同尺度的調(diào)控問題上。大量算例驗證了和傳統(tǒng)方法相比,AI 技術(shù)在求解復(fù)雜調(diào)控問題的適應(yīng)性、在線決策效率、長時間序列的策略最優(yōu)性上具有明顯優(yōu)勢[21]。這是因為AI 技術(shù)通過無模型的算法處理,避免了對于底層物理模型的建模,同時在離線學(xué)習(xí)階段通過大量樣本挖掘最優(yōu)策略并存儲于價值網(wǎng)絡(luò)(矩陣)/策略網(wǎng)絡(luò)(矩陣)中,在線決策時則根據(jù)系統(tǒng)實時狀態(tài)快速給出最優(yōu)決策,從而省去了在線尋優(yōu)的過程[22]。
從理論框架和算例支撐上來說,在新型電力系統(tǒng)的調(diào)控決策中,當(dāng)前的AI 技術(shù)似乎能夠很好地取代傳統(tǒng)解析化方法。然而實際上,當(dāng)前AI 應(yīng)用于調(diào)控決策的研究仍停留于實驗室理論研究層面,幾乎沒有真正參與電網(wǎng)調(diào)控自主決策的落地應(yīng)用案例。目前,主流研究仍停留于驗證電網(wǎng)調(diào)度領(lǐng)域中AI 技術(shù)代替?zhèn)鹘y(tǒng)方法的可行性,卻忽視了阻止當(dāng)前AI 技術(shù)在電網(wǎng)調(diào)度中實際可用的技術(shù)瓶頸和難點。造成當(dāng)前AI 技術(shù)“不敢用”的原因可以歸納為以下5 點。
1)對于訓(xùn)練環(huán)境及樣本的依賴性:目前,絕大多數(shù)研究都基于理想假設(shè),即有完善的虛擬仿真環(huán)境能夠準(zhǔn)確模擬真實物理系統(tǒng)的反饋,同時具有充足的樣本能夠反映系統(tǒng)動態(tài)。然而,實際工程中該條件并不能夠完全滿足,因此算法需要具備在小樣本環(huán)境下的收斂和學(xué)習(xí)能力。
2)復(fù)雜約束下決策可行性存疑:電網(wǎng)調(diào)度決策必須滿足安全約束,而傳統(tǒng)無模型的AI 方法難以在機理上保證決策滿足復(fù)雜的約束條件。因此,如何在原理上提升AI 決策的安全性是實現(xiàn)相關(guān)技術(shù)落地應(yīng)用必須解決的問題。
3)泛化性和拓展性弱:目前,絕大多數(shù)研究中算法的性能取決于訓(xùn)練環(huán)境/樣本與測試環(huán)境/樣本的一致性。在實際中,電網(wǎng)運維計劃的差異將導(dǎo)致電力系統(tǒng)結(jié)構(gòu)和運行目標(biāo)發(fā)生變化,然而,當(dāng)前的AI算法對于差異性環(huán)境的泛化和拓展能力仍有待提升。
4)可解釋性差:與傳統(tǒng)解析化方法不同,當(dāng)前AI 的“黑箱”結(jié)構(gòu)讓運行人員難以厘清其決策邏輯,決策過程難以令人信服。
5)收斂性和最優(yōu)性存疑:當(dāng)前,AI 算法的策略尋優(yōu)很大程度上依賴于探索和試錯過程,在大規(guī)模問題求解時存在耗時長且收斂性差的問題,現(xiàn)有的電網(wǎng)調(diào)度理論和模型知識無法對該過程進(jìn)行指導(dǎo)。
因此,解決上述研究難點是突破當(dāng)前AI 技術(shù)在調(diào)度領(lǐng)域應(yīng)用瓶頸的關(guān)鍵。而本文提出的混合增強智能調(diào)度,通過引入人的作用或認(rèn)知至機器智能中,為解決上述問題提供了一種可行方案。
混合增強智能調(diào)度的關(guān)鍵特征就是要充分融合“人(調(diào)度員/運行人員)”和“機(AI 調(diào)度軟件)”兩者的知識,調(diào)度員智能和機器智能的協(xié)同是貫穿始終的。具體而言,一方面,通過調(diào)度員豐富的經(jīng)驗和理論知識干預(yù)機器智能,提升傳統(tǒng)AI 算法尋優(yōu)效率低、難以收斂、決策安全性存疑等問題;另一方面,通過AI 對于未知系統(tǒng)狀態(tài)的探索,找到調(diào)度員難以發(fā)覺但又影響電力系統(tǒng)安全經(jīng)濟運行的系統(tǒng)狀態(tài)和策略,并通過對AI 決策進(jìn)行揭示,從而擴展調(diào)度員的知識認(rèn)知。最終,通過人與機的協(xié)同交互,促進(jìn)知識的不斷演化,以適應(yīng)隨機復(fù)雜性日益增強的電力系統(tǒng)動態(tài)運行環(huán)境。
實現(xiàn)混合增強智能調(diào)度需要解決諸多理論和技術(shù)問題,而研究面向混合增強智能調(diào)度的知識演化理論,進(jìn)而實現(xiàn)人機知識協(xié)同演化,使機器能以人的思維模式和知識結(jié)構(gòu)進(jìn)行分析、理解和決策,消弭當(dāng)前AI 技術(shù)在電網(wǎng)調(diào)度可用性的瓶頸,是實現(xiàn)混合增強智能的關(guān)鍵。因此,厘清知識演化的方向、目標(biāo)、途徑和實現(xiàn)方法是實現(xiàn)混合增強智能調(diào)度的關(guān)鍵和基礎(chǔ)。
本文將知識演化的內(nèi)涵分解為“知識轉(zhuǎn)化”和“知識進(jìn)化”2 個層面。如圖1 所示,知識轉(zhuǎn)化負(fù)責(zé)打通人與機之間的雙向理解通道。在“人到機”方面,通過調(diào)度規(guī)程和人工經(jīng)驗對機器學(xué)習(xí)的方向進(jìn)行引導(dǎo)和規(guī)制,提升機器學(xué)習(xí)的效率和效果。在“機到人”方面,則是把機器智能隱性不可讀知識轉(zhuǎn)為調(diào)度員理解的顯性可解釋知識。知識進(jìn)化則表示人類和機器的智能能夠隨外界客觀環(huán)境或者電網(wǎng)運行環(huán)境的變化而進(jìn)化,從而提升算法的泛化性,主要包括2 個方面,一方面是知識能夠適應(yīng)電網(wǎng)空間維度變化(例如電網(wǎng)規(guī)模、拓?fù)渥兓┒M(jìn)化,另一方面適應(yīng)電網(wǎng)運行方式在時間維度上的變化。
圖1 混合增強智能調(diào)度的知識演化內(nèi)涵Fig.1 Connotation of knowledge evolution of hybridaugmented intelligence based dispatch
根據(jù)以上闡述的面向混合增強智能調(diào)度知識演化的內(nèi)涵,總結(jié)提煉出實現(xiàn)混合增強智能調(diào)度需解決的2 個關(guān)鍵問題。
第1 個關(guān)鍵問題是“如何實現(xiàn)多源調(diào)度知識的轉(zhuǎn)化?”知識轉(zhuǎn)化包含2 個層面的過程:一是如何將調(diào)度規(guī)程、調(diào)度員經(jīng)驗等知識轉(zhuǎn)化為機器學(xué)習(xí)可利用的知識,如何將調(diào)度大數(shù)據(jù)轉(zhuǎn)化為機器學(xué)習(xí)知識;二是如何將機器學(xué)習(xí)知識轉(zhuǎn)化為調(diào)度員可理解的知識。
第2 個關(guān)鍵問題是“如何實現(xiàn)機器學(xué)習(xí)知識的持續(xù)進(jìn)化?”由于電網(wǎng)是持續(xù)演變的系統(tǒng),調(diào)度場景及需求也隨著電網(wǎng)時空維度的變化而改變,僅利用歷史數(shù)據(jù)訓(xùn)練的機器智能無法對新場景或極端場景給出針對性的決策,因此,要求機器智能隨時更新以匹配電網(wǎng)及調(diào)度需求的變化。為此,如何應(yīng)用調(diào)度員經(jīng)驗和仿真系統(tǒng)來促進(jìn)知識持續(xù)進(jìn)化并發(fā)現(xiàn)新知識,提升算法的泛化性就成為其中的關(guān)鍵。
為解決上述實現(xiàn)混合增強智能調(diào)度的關(guān)鍵問題,本文嘗試提出以下4 項關(guān)鍵技術(shù)開展研究工作,概括為“一個架構(gòu)、二個通道、一個推理機制”。“一個架構(gòu)”,即需要構(gòu)建支撐混合增強智能調(diào)度的知識架構(gòu),提供知識演化的基礎(chǔ);“二個通道”,即分別打通人對機、機對人的信息和知識傳遞的雙向通道,形成知識演化的途徑;“一個推理機制”,即建立人和機共融的知識推理和協(xié)同決策機制,促進(jìn)知識的更新。從知識工程角度看,上述4 項關(guān)鍵技術(shù)也分別對應(yīng)知識架構(gòu)、知識獲取、知識解釋和知識推理等4 個部分。
1)知識架構(gòu)。本文把混合增強智能調(diào)度的知識表示與計算架構(gòu)合并稱為“知識架構(gòu)”。知識表示技術(shù)就是提出適應(yīng)混合增強智能的電網(wǎng)調(diào)度知識庫構(gòu)建方法,實現(xiàn)模型、規(guī)程等人類調(diào)度決策先驗知識與通過機器數(shù)據(jù)挖掘發(fā)現(xiàn)的隱性知識的分類存儲、準(zhǔn)確調(diào)用和自動更新。計算架構(gòu)則是形成一個能驅(qū)動整個調(diào)度過程實現(xiàn)復(fù)雜計算和知識轉(zhuǎn)化的計算流程框架,合適的計算架構(gòu)有利于促進(jìn)人和機器知識的共同演化。
2)知識獲取。電網(wǎng)調(diào)度是一個復(fù)雜的優(yōu)化決策問題,機器學(xué)習(xí)若采用純粹基于數(shù)據(jù)驅(qū)動的方式直接進(jìn)行應(yīng)用,則將導(dǎo)致較低的學(xué)習(xí)效率和較差的學(xué)習(xí)效果。因此,將調(diào)度員已有的專業(yè)知識和經(jīng)驗融入到機器學(xué)習(xí)中,引導(dǎo)機器學(xué)習(xí)的規(guī)則和方向,將明顯提高其學(xué)習(xí)效率及效果。然而,調(diào)度專業(yè)存在海量、多源、異構(gòu)的知識,跨越歷史、現(xiàn)在和未來各時間維度,知識體量十分龐大。如何利用調(diào)度員經(jīng)驗自動引導(dǎo)機器智能,實現(xiàn)調(diào)度領(lǐng)域知識獲取及新知識發(fā)現(xiàn),是促成混合增強智能調(diào)度自主知識演化的關(guān)鍵瓶頸技術(shù)之一。
3)知識解釋。雖然以數(shù)據(jù)驅(qū)動的機器決策結(jié)果具有較高的準(zhǔn)確性,但倘若人類調(diào)度員無法理解機器決策的邏輯,即使“黑箱”非常聰明,人機共融的協(xié)同決策也無法有效實施。另外,針對機器智能決策過程和決策結(jié)果的知識解釋技術(shù),也給調(diào)度員啟發(fā)和創(chuàng)造新知識提供了途徑,這也是促成知識演化、誕生新知識的又一個關(guān)鍵技術(shù)。
4)知識推理?;旌显鰪娭悄艿娜藱C協(xié)同決策的實質(zhì)有2 層含義:其一,是實現(xiàn)對電網(wǎng)各類實際調(diào)度場景的智能決策,這是常規(guī)AI 系統(tǒng)中的知識推理過程,實現(xiàn)對已有知識的高效利用,提升算法的泛化性;其二,研究人機共融的協(xié)同決策機制和算法,提升調(diào)度決策的安全性和置信度,以滿足運行工況多變、場景復(fù)雜的電力系統(tǒng)調(diào)控需求,推動機器智能知識隨物理系統(tǒng)變化而持續(xù)演化。
上述4 項關(guān)鍵技術(shù)中,知識架構(gòu)是后續(xù)研究的基礎(chǔ);知識獲取和知識解釋的結(jié)果互為輸入,構(gòu)建了人機知識交流的通道,回答了第1 個問題“如何實現(xiàn)多源調(diào)度知識的轉(zhuǎn)化?”,同時也為知識推理提供了基礎(chǔ);知識獲取和知識推理則回答了第2 個問題“如何實現(xiàn)知識的持續(xù)進(jìn)化”?
3.2.1 混合增強智能調(diào)度的知識表示方法
作為電網(wǎng)運行控制的指揮中樞,電網(wǎng)調(diào)度中心在長期的運行中積累了大量數(shù)據(jù),包括電網(wǎng)模型、海量運行數(shù)據(jù)和調(diào)度規(guī)程、故障預(yù)案、調(diào)度日志等文本數(shù)據(jù)[23]。然而,當(dāng)前調(diào)度領(lǐng)域的知識一般采用符號化(如物理模型)、文本化(如調(diào)度規(guī)程)的表示方式,而機器學(xué)習(xí)技術(shù)是數(shù)據(jù)驅(qū)動的,造成調(diào)度中心積累的經(jīng)驗知識無法直接為機器學(xué)習(xí)算法采用。從利于AI 學(xué)習(xí)和知識獲取的角度,可嘗試按照數(shù)據(jù)驅(qū)動知識、可解釋性知識和規(guī)則引導(dǎo)知識3 個維度對電網(wǎng)調(diào)度知識分類,這3 類知識既可能顯性存在于調(diào)度運行理論、調(diào)度規(guī)程中,也可能隱性存在于調(diào)度案例或調(diào)度員經(jīng)驗中。其次,綜合模(分析模型)、圖(知識圖譜)[24]、樹(決策樹)、網(wǎng)(神經(jīng)網(wǎng)絡(luò))等多種技術(shù)手段,對電網(wǎng)調(diào)度知識進(jìn)行表示。
圖2 歸納整理了混合增強調(diào)度各類知識的分類和表示方法。涉及的主要數(shù)據(jù)類型包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)主要用于機器學(xué)習(xí)設(shè)計、知識獲取引導(dǎo);結(jié)構(gòu)化數(shù)據(jù)主要用于機器學(xué)習(xí)訓(xùn)練,以形成機器知識。具體來說,調(diào)度規(guī)程是文本數(shù)據(jù),同時也涵蓋了調(diào)度需求和已有調(diào)度知識,例如調(diào)度任務(wù)的調(diào)度目標(biāo)、調(diào)度設(shè)備及優(yōu)先級、調(diào)度約束及優(yōu)先級。電網(wǎng)狀態(tài)特征與決策方案均為結(jié)構(gòu)化數(shù)據(jù)??蓪㈦娋W(wǎng)狀態(tài)特征與決策方案的映射關(guān)系(實質(zhì)上為強化學(xué)習(xí)中的值函數(shù)或策略函數(shù))定義為數(shù)據(jù)驅(qū)動知識。以日內(nèi)有功經(jīng)濟調(diào)度為例,電網(wǎng)運行狀態(tài)可為電網(wǎng)拓?fù)浣Y(jié)構(gòu)、負(fù)荷、潮流、機組調(diào)節(jié)特性等數(shù)據(jù),決策方案為機組的優(yōu)化出力數(shù)據(jù)。
圖2 基于混合增強智能的電網(wǎng)調(diào)度的知識表示與存儲Fig.2 Knowledge representation and storage for hybridaugmented intelligence based power grid dispatch
3.2.2 混合增強智能調(diào)度的計算架構(gòu)
圖3 對比了混合增強智能調(diào)度計算架構(gòu)與傳統(tǒng)調(diào)度計算架構(gòu)。傳統(tǒng)調(diào)度計劃主要依據(jù)安全約束機組組合、安全約束經(jīng)濟調(diào)度進(jìn)行優(yōu)化計算,確定機組開停機和出力,但由于新能源和負(fù)荷預(yù)測不準(zhǔn)確等問題,依靠建模優(yōu)化的方法可能存在決策結(jié)果與電網(wǎng)實際運行不匹配的情況,需要調(diào)度員頻繁進(jìn)行人工干預(yù)?;旌显鰪娭悄苷{(diào)度計算架構(gòu)則采用知識和數(shù)據(jù)聯(lián)合驅(qū)動,構(gòu)建包含電網(wǎng)外部環(huán)境、調(diào)度決策對象、調(diào)度員和機器智能的小型生態(tài)環(huán)境,根據(jù)現(xiàn)有的調(diào)度運行理論、調(diào)度規(guī)程進(jìn)行引導(dǎo),基于來自實際電網(wǎng)和動態(tài)仿真系統(tǒng)[25]模擬生成的樣本數(shù)據(jù),以調(diào)度員和機器學(xué)習(xí)為調(diào)度決策核心,通過各環(huán)節(jié)之間的信息交互、閉環(huán)計算,促進(jìn)調(diào)度決策知識生成與演化,并以此為基礎(chǔ)進(jìn)行決策知識的可解釋性分析和決策方案的生成與評價。
圖3 混合增強智能調(diào)度計算架構(gòu)與傳統(tǒng)調(diào)度計算架構(gòu)對比Fig.3 Comparison between computing architectures of hybrid-augmented intelligence dispatch and traditional dispatch
與傳統(tǒng)AI 不同,混合增強智能調(diào)度的知識獲取方法包含以下3 個層面:一是調(diào)度運行理論及調(diào)度規(guī)程引導(dǎo)下的機器學(xué)習(xí)先驗知識獲取,強調(diào)的是如何利用先驗知識,形成引導(dǎo)機器學(xué)習(xí)的基本規(guī)則;二是調(diào)度員干預(yù)引導(dǎo)下的機器學(xué)習(xí)知識獲取方法,強調(diào)的是如何利用人工經(jīng)驗干預(yù)引導(dǎo)機器學(xué)習(xí)過程,提升學(xué)習(xí)效率;三是基于多源數(shù)據(jù)的機器學(xué)習(xí)方法,強調(diào)的是機器學(xué)習(xí)如何通過對于樣本的學(xué)習(xí),形成機器智能。
在實際使用中,層面1 主要關(guān)注機器學(xué)習(xí)先驗知識獲取,已有調(diào)度運行理論及調(diào)度規(guī)程主要提供調(diào)控任務(wù)的固定因果關(guān)系、調(diào)控目標(biāo)及約束等引導(dǎo)規(guī)則,其中,固定因果關(guān)系用于壓縮機器學(xué)習(xí)動作空間,調(diào)控目標(biāo)及約束用于構(gòu)建機器學(xué)習(xí)獎勵函數(shù);層面2 與層面1 使用方式一樣,主要利用調(diào)度員已有經(jīng)驗校正機器學(xué)習(xí)動作及獎勵函數(shù),為提高實際使用的引導(dǎo)效率,需對調(diào)度員經(jīng)驗進(jìn)行定量或定性的數(shù)學(xué)建模,實現(xiàn)自動引導(dǎo);層面3 與一般的機器學(xué)習(xí)實際使用過程一樣,只是利用真實歷史數(shù)據(jù)和仿真器生成數(shù)據(jù)對其訓(xùn)練數(shù)據(jù)進(jìn)行擴展,進(jìn)而提高知識獲取的可靠性和泛化性。層面1 和層面2 共同產(chǎn)生引導(dǎo)規(guī)則庫,引導(dǎo)機器學(xué)習(xí)知識獲取過程中的動作空間設(shè)計、動作選擇、獎勵函數(shù)構(gòu)建;層面3 主要負(fù)責(zé)訓(xùn)練數(shù)據(jù)擴展和生成,為機器學(xué)習(xí)知識獲取提供數(shù)據(jù)樣本。
3.3.1 調(diào)度運行理論及調(diào)度規(guī)程引導(dǎo)下的機器學(xué)習(xí)先驗知識獲取方法
首先,為形成調(diào)度規(guī)則知識,本文借鑒文獻(xiàn)[24]構(gòu)建的智能調(diào)控領(lǐng)域知識圖譜框架,進(jìn)一步以機器學(xué)習(xí)理解和利用為導(dǎo)向,分別從數(shù)據(jù)選擇、數(shù)據(jù)處理、知識抽取以及知識模型等過程,構(gòu)建調(diào)度運行理論及調(diào)度規(guī)程的調(diào)度知識圖譜。
在數(shù)據(jù)選擇方面,整理與調(diào)度相關(guān)的電力專業(yè)詞庫及電力知識等半結(jié)構(gòu)化數(shù)據(jù),整理與調(diào)度相關(guān)的調(diào)度規(guī)程等非結(jié)構(gòu)化數(shù)據(jù);在數(shù)據(jù)處理方面,先對半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)數(shù)據(jù)進(jìn)行預(yù)處理,然后針對其中一部分樣本采用現(xiàn)行標(biāo)準(zhǔn)的BIOES(B 表示begin,I 表示inside,O 表示outside,E 表示end,S 表示single)規(guī)范對實體和關(guān)系進(jìn)行人工標(biāo)記,剩余數(shù)據(jù)采用數(shù)據(jù)增強工具進(jìn)行自動標(biāo)記;在知識抽取方面,針對不同輸入類型的標(biāo)記數(shù)據(jù)分別采用基于規(guī)則和深度學(xué)習(xí)方法提取實體和關(guān)系。其中,基于規(guī)則的知識抽取采用中文分詞工具和正則表達(dá)式實現(xiàn);基于深度學(xué)習(xí)的知識抽取可利用語義識別技術(shù)將文本轉(zhuǎn)化為詞向量,將詞向量作為輸入,使用神經(jīng)網(wǎng)絡(luò)等方法實現(xiàn)實體及關(guān)系標(biāo)簽[26];在知識模型方面,利用余弦相似度等方法將識別出來的實體和關(guān)系進(jìn)行知識融合。然后,對知識進(jìn)行表示和存儲,分別存儲關(guān)系類知識和屬性類知識。
在構(gòu)建調(diào)度知識圖譜后,即可利用實體之間的屬性關(guān)系對機器學(xué)習(xí)進(jìn)行引導(dǎo)。以附錄A 圖A1 給出的調(diào)度知識圖譜示例,圖譜包含4 類實體:狀態(tài)分類、目標(biāo)分類、約束分類、調(diào)度規(guī)則,實體之間存在調(diào)度運行理論與調(diào)度規(guī)程已有的映射或關(guān)系信息。知識圖譜在使用時,先根據(jù)當(dāng)前調(diào)控任務(wù)狀態(tài)作為查詢輸入,確定對應(yīng)的狀態(tài)分類實體,從而尋找到對應(yīng)目標(biāo)分類、調(diào)度規(guī)則、約束分類,目標(biāo)分類可提供調(diào)控目標(biāo),調(diào)度規(guī)則實體可提供調(diào)控變量優(yōu)先級,約束分類實體可提供調(diào)控變量邊界信息,最終形成可引導(dǎo)機器學(xué)習(xí)知識獲取的獎勵函數(shù)評價依據(jù)、動作設(shè)計及選擇依據(jù)。
1)實體“感知狀態(tài)”與“目標(biāo)分類”之間的屬性關(guān)系s→f,可為機器學(xué)習(xí)尋優(yōu)目標(biāo)進(jìn)行引導(dǎo),其中s與f分別為系統(tǒng)狀態(tài)向量和目標(biāo)函數(shù)值。
2)實體“目標(biāo)分類”與“約束分類”之間的屬性關(guān)系f→{G,H },可為機器學(xué)習(xí)尋優(yōu)空間進(jìn)行約束,其中G、H 分別為不等式和等式約束集合。
3)實體“調(diào)度規(guī)則”可為機器學(xué)習(xí)提供尋優(yōu)方向,以系統(tǒng)發(fā)電煤耗最小目標(biāo)為例,其調(diào)度規(guī)則為優(yōu)先調(diào)度煤耗低的機組。
4)實體“選擇調(diào)控設(shè)備”可為機器學(xué)習(xí)算法壓縮尋優(yōu)空間,表示如下:
式中:A為機器學(xué)習(xí)算法的動作空間;N 為可控設(shè)備構(gòu)成的集合;Ai為機器學(xué)習(xí)算法中可控設(shè)備i原有的決策動作空間;Ap為引導(dǎo)機器學(xué)習(xí)算法后的動作決策空間;J 為針對決策目標(biāo)的主要控制設(shè)備集合。
5)實體“調(diào)度方案評價”可輔助機器學(xué)習(xí)算法設(shè)計獎勵函數(shù),即(s,a)→R,其中a為算法的動作向量;R為獎勵函數(shù)。
利用調(diào)度知識圖譜的引導(dǎo)信息,基于實際系統(tǒng)調(diào)度大數(shù)據(jù),即可生成機器學(xué)習(xí)的先驗知識。以常見的深度Q 學(xué)習(xí)算法為例,其數(shù)據(jù)驅(qū)動知識以網(wǎng)絡(luò)參數(shù)向量θ存儲于深度強化學(xué)習(xí)的值函數(shù)網(wǎng)絡(luò)中。其中,第k次迭代的參數(shù)向量θk計算方式如下[27]:
式中:yk為第k次迭代時Q 值網(wǎng)絡(luò)的目標(biāo)值;Q(·)為Q 值網(wǎng)絡(luò)函數(shù);s'為系統(tǒng)下一狀態(tài)的向量;γ為折扣因子;?θk為針對θk的梯度算子;Lk(·)為第k次迭代時Q 值網(wǎng)絡(luò)的損失函數(shù);Es,a,R,s'(·)為針對s、a、R和s'的期望算子,不同狀態(tài)向量s下算法可根據(jù)知識圖譜調(diào)度規(guī)則選擇動作向量a進(jìn)行優(yōu)先探索。
獎勵函數(shù)R直接與知識圖譜中實體“目標(biāo)分類”與“約束分類”相關(guān),一般采用目標(biāo)函數(shù)f加上約束罰函數(shù)M的形式,如下所示。
式中:M為系統(tǒng)調(diào)度約束越限懲罰項,越限偏差越大,懲罰則越大。
3.3.2 調(diào)度員經(jīng)驗干預(yù)引導(dǎo)下的機器學(xué)習(xí)知識獲取方法
除了根據(jù)調(diào)度運行理論和規(guī)程引導(dǎo)機器學(xué)習(xí)外,調(diào)度員也可根據(jù)自身經(jīng)驗,干預(yù)和引導(dǎo)機器學(xué)習(xí)過程。典型的干預(yù)和引導(dǎo)手段有動作空間引導(dǎo)、獎勵函數(shù)引導(dǎo)、示范決策等。
1)動作空間引導(dǎo):調(diào)度員可根據(jù)狀態(tài)量或目標(biāo)值與決策動作量之間的關(guān)系,形成調(diào)度員對機器學(xué)習(xí)的決策方案干預(yù)知識,從而引導(dǎo)機器學(xué)習(xí)動作的正確選擇。其中,對于可定性描述的關(guān)系,可對某些調(diào)度設(shè)備的動作空間進(jìn)行引導(dǎo),如下所示。
對于可定量描述的關(guān)系,例如式(8)給定的某些控制量與狀態(tài)量之間的定量數(shù)學(xué)關(guān)系(例如線性相關(guān)),調(diào)度員可引導(dǎo)機器學(xué)習(xí)降低調(diào)度決策的難度和復(fù)雜度,可進(jìn)一步細(xì)化具體的動作值,提高決策精度。
式中:gj(x)為狀態(tài)變量sj與決策向量x之間的定量關(guān)系函數(shù);ωij為第i個可控變量xi與第j個狀態(tài)變量sj之間的線性相關(guān)權(quán)重值。
對于式(7)和式(8)給出的動作引導(dǎo),可直接作用于機器學(xué)習(xí)知識獲取中的尋優(yōu)動作空間和動作選擇,并按式(2)和式(3)同樣的方式進(jìn)行知識獲取。
2)獎勵函數(shù)調(diào)整:當(dāng)調(diào)度員認(rèn)為機器選擇的決策目標(biāo)不當(dāng)或各目標(biāo)權(quán)重不合適時,可以對機器決策目標(biāo)進(jìn)行調(diào)整。
式中:x0、F0和ω0分別為上一次機器決策采用的決策向量、決策目標(biāo)向量及各目標(biāo)的權(quán)重向量;F、ω分別為調(diào)度員偏好的目標(biāo)向量及權(quán)重向量;hT為調(diào)度員的選擇過程。
3)示范決策:當(dāng)調(diào)度員認(rèn)為機器決策效果利用價值不高時,可采取示范決策的方法。調(diào)度員根據(jù)經(jīng)驗直接給定一個或一組示范決策,由機器在這些決策附近尋優(yōu),利用人類經(jīng)驗直覺的同時又可進(jìn)一步提高決策效果。
式中:x1為新的決策向量;x'i為調(diào)度員給定的第i個示范決策向量;Ni(x'i)為x'i的鄰域,具體形式由調(diào)度員指定。示范決策可與動作空間引導(dǎo)方式相結(jié)合,調(diào)度員只需給出部分決策變量值即可。
3.3.3 基于多源數(shù)據(jù)的機器學(xué)習(xí)方法
機器學(xué)習(xí)需要大量的場景和數(shù)據(jù)樣本進(jìn)行離線訓(xùn)練以獲取知識。雖然歷史調(diào)度數(shù)據(jù)可提供部分?jǐn)?shù)據(jù)來源,但由于電力系統(tǒng)的結(jié)構(gòu)和規(guī)模在持續(xù)發(fā)生變化,導(dǎo)致有效數(shù)據(jù)數(shù)量少、樣本效率低等問題。為解決該問題,除了采用現(xiàn)有的調(diào)度數(shù)據(jù)外,還將通過生成隨機環(huán)境下的虛擬數(shù)據(jù)樣本,用來訓(xùn)練機器學(xué)習(xí),使其獲取隨機環(huán)境下“源-網(wǎng)-荷-儲”協(xié)同的調(diào)度數(shù)據(jù)驅(qū)動知識。
本文提出的基于多源數(shù)據(jù)的機器學(xué)習(xí)知識獲取架構(gòu)如圖4 所示。包含以下部分:首先,根據(jù)調(diào)度理論和規(guī)程獲取先驗知識,同時調(diào)度員可以干預(yù)機器學(xué)習(xí)過程;其次,可基于生成對抗網(wǎng)絡(luò)[28](generative adversarial network,GAN)擴展未來調(diào)度場景數(shù)據(jù),并匯聚歷史調(diào)度數(shù)據(jù)和決策案例,共同形成訓(xùn)練數(shù)據(jù)源;最后,采用深度強化學(xué)習(xí)算法從訓(xùn)練數(shù)據(jù)源中獲取知識,利用歷史及未來調(diào)度數(shù)據(jù)提高機器學(xué)習(xí)知識的泛化性。除此之外,混合增強調(diào)度的機器學(xué)習(xí)還需解決傳統(tǒng)機器學(xué)習(xí)方法求解大規(guī)模復(fù)雜電力系統(tǒng)調(diào)度問題時可能遇到的問題主要包括高維連續(xù)的狀態(tài)動作空間下導(dǎo)致策略尋優(yōu)產(chǎn)生的“維數(shù)災(zāi)難”問題、樣本類別不平衡、系統(tǒng)部分狀態(tài)無法測度導(dǎo)致學(xué)習(xí)性能下降等[21]。
圖4 基于多源數(shù)據(jù)的機器學(xué)習(xí)知識獲取架構(gòu)Fig.4 Knowledge acquisition architecture of machine learning based on multi-source data
調(diào)度過程中,機對人的可解釋人工智能技術(shù)包括2 個方面:一是“增強過程”可解釋性;二是“增強結(jié)果”可解釋性。其中,過程可解釋主要是為深度強化學(xué)習(xí)方法設(shè)計通用可解釋性接口,為調(diào)度員提供知識獲取方法的調(diào)試工具,幫助其以調(diào)度決策的角度進(jìn)行知識獲取過程推演,實現(xiàn)對調(diào)度決策的干預(yù);結(jié)果可解釋基于決策變量與決策結(jié)果的關(guān)系,研究基于靈敏度與多維指標(biāo)融合的電網(wǎng)調(diào)度決策結(jié)果可解釋方法,幫助調(diào)度員理解當(dāng)前調(diào)度案例以及未來調(diào)度場景案例數(shù)據(jù)中的決策結(jié)果與決策變量的關(guān)系。
3.4.1 基于知識獲取過程的可解釋性方法
此部分研究將構(gòu)造機器學(xué)習(xí)方法與電網(wǎng)調(diào)度員之間的通用可解釋性接口,幫助調(diào)度員了解知識生成過程。當(dāng)機器學(xué)習(xí)結(jié)果獲得了一個與調(diào)度員認(rèn)知相悖的結(jié)果時,可解釋性接口通過一個簡單且可解釋的模型實現(xiàn)知識獲取過程對調(diào)度過程的映射,調(diào)度員利用上述模型給出的調(diào)度過程進(jìn)行人工調(diào)試,最終了解知識獲取的機器學(xué)習(xí)訓(xùn)練過程,并能夠進(jìn)一步根據(jù)對知識獲取過程的理解進(jìn)行調(diào)度決策干預(yù)。
本文給出了可解釋性接口的一種可行形成方法,如附錄A 圖A2 所示。在知識獲取的同時,訓(xùn)練一個準(zhǔn)確率高與復(fù)雜度小的決策樹[29],使形成的決策樹與知識生成的過程形成嚴(yán)格映射。一種可行的方式為,決策樹在某狀態(tài)節(jié)點下的決策動作選擇對應(yīng)電網(wǎng)某節(jié)點狀態(tài)下,該節(jié)點調(diào)度動作大概操作范圍。由此,調(diào)度員可以通過決策樹對知識獲取過程進(jìn)行人工調(diào)試。除此之外,引入正則化方法,懲罰深度強化學(xué)習(xí)訓(xùn)練過程中與調(diào)度結(jié)果不相關(guān)的特征,從而獲得對結(jié)果影響大的稀疏特征,便于調(diào)度員理解。大致過程可表述如下:在知識生成的同時訓(xùn)練決策樹,決策樹的輸入為深度強化學(xué)習(xí)方法訓(xùn)練過程中的第l部分的權(quán)重ωl,輸出為ωl與電網(wǎng)狀態(tài)及決策動作產(chǎn)生的關(guān)聯(lián)函數(shù)值Ω(ωl),通過最小化關(guān)聯(lián)函數(shù)值的誤差和最小化決策樹的復(fù)雜度(求解式(11))來實現(xiàn)知識生成及演化過程的決策樹表示。
式中:Ω?(ωl)為所有關(guān)聯(lián)函數(shù)值Ω(ωl)的平均值;L為深度強化學(xué)習(xí)方法需訓(xùn)練部分的總數(shù)量;IAPL,l為第l部分決策樹的平均路徑長度,即某一節(jié)點選擇不同的樹枝后平均經(jīng)過的節(jié)點數(shù),其中節(jié)點為電網(wǎng)狀態(tài),樹枝為電網(wǎng)調(diào)度決策的動作;λ為權(quán)重系數(shù)。
3.4.2 基于機器智能調(diào)度決策結(jié)果的可解釋性方法
研究復(fù)雜隨機電網(wǎng)調(diào)度場景下機器決策結(jié)果的可解釋評價方法,有助于調(diào)度員量化機器決策結(jié)果的好壞,理解機器決策的內(nèi)在邏輯。如圖5 所示,本文認(rèn)為可采用靈敏度分析和相關(guān)性分析法開展機器決策結(jié)果可解釋性研究。靈敏度分析和相關(guān)性分析是從2 個不同的角度反映決策結(jié)果與決策變量的關(guān)系,靈敏度分析反映了決策變量對決策結(jié)果的重要性,相關(guān)性分析反映了決策變量對決策結(jié)果的影響力。
圖5 基于可解釋性指標(biāo)與相關(guān)性可視化的調(diào)度案例結(jié)果可解釋方法Fig.5 Interpretable method for dispatch case results based on interpretability index and visualization of correlations
靈敏度分析作為最簡單決策結(jié)果分析工具,通過對數(shù)據(jù)或者場景施加人為擾動,判斷模型的行為或預(yù)測結(jié)果是否仍然穩(wěn)定。除靈敏度指標(biāo)外,本文還提出多種可解釋性指標(biāo),為調(diào)度員提供關(guān)于決策結(jié)果可解釋性的顯式表達(dá),包括:靈敏度穩(wěn)定性、解釋的清晰度、解釋的覆蓋范圍、調(diào)度員理解速度、調(diào)度員接受解釋的概率。
靈敏度穩(wěn)定性反映了當(dāng)數(shù)據(jù)或者場景發(fā)生大小為ΔD的改變后靈敏度S的平均變化量。如果在數(shù)據(jù)或者場景發(fā)生改變后,決策結(jié)果仍然表現(xiàn)穩(wěn)定,那么穩(wěn)定性分析就可以提高調(diào)度員對模型的信任。
解釋的清晰度與靈敏度在區(qū)分重要變量方面的能力有關(guān)。計算各個決策變量xi對決策結(jié)果的靈敏度Si的方差V(Si),若方差越小則各個靈敏度差別越小,說明區(qū)分重要變量的能力越弱,則解釋的清晰度越低。解釋的清晰度與上述方差正相關(guān)。
解釋的覆蓋范圍與大于設(shè)定靈敏度閾值的決策變量和中間變量的數(shù)量占變量總數(shù)的比值有關(guān)。設(shè)定靈敏度閾值為ε,若Si<ε,則認(rèn)為xi對決策結(jié)果的影響很小或者無影響。
調(diào)度員理解速度與調(diào)度員工作狀態(tài)、調(diào)度員的知識經(jīng)驗、調(diào)度決策模型的可解釋性和靈敏度分析結(jié)果等因素有關(guān),難以量化,因此,通過先初始化再在線統(tǒng)計的方式進(jìn)行衡量。劃分理解用時區(qū)間,用時越少評分越高。調(diào)度員接受解釋的概率也難以量化,因此通過先初始化再在線統(tǒng)計的方式進(jìn)行衡量。假設(shè)m次統(tǒng)計有m'次接受解釋,每一次調(diào)度決策在線更新m和m'。調(diào)度員接受解釋的概率指標(biāo)IPAI的計算公式如下。
除靈敏度指標(biāo)外,還可引入相關(guān)性分析量化決策變量對決策結(jié)果的影響力,為調(diào)度員提供可視化的相關(guān)性分析結(jié)果。首先,計算決策變量與決策結(jié)果的相關(guān)系數(shù)。其次,引入分層相關(guān)傳播(layerwise relevance propagation,LRP)技 術(shù)[30]將 相 關(guān) 系數(shù)由決策結(jié)果往決策變量進(jìn)行逐層重新分配,并對每一層的變量對決策結(jié)果的相關(guān)性進(jìn)行局部再分配,從而運行人員能夠掌握每一個決策變量與中間變量對決策結(jié)果的貢獻(xiàn)大小。最后,引入相關(guān)表和相關(guān)圖對電力調(diào)度決策變量及中間變量對決策結(jié)果的相關(guān)性進(jìn)行可視化表示。上述過程中,LRP 技術(shù)使用局部再分配規(guī)則[30]將總相關(guān)性向后重新分配,直到為每個決策變量和中間變量分配一個相關(guān)性評分。LRP 技術(shù)能夠解釋調(diào)度決策的全過程,結(jié)合相關(guān)表和相關(guān)圖的可視化技術(shù)使運行人員對機器決策結(jié)果有一個全面直觀的掌握,從而提高調(diào)度員對調(diào)度決策結(jié)果的理解和信任。值得一提的是,機器學(xué)習(xí)的嚴(yán)格可解釋方法具有相當(dāng)?shù)难芯侩y度,但本文按照調(diào)度員習(xí)慣的工程化方法對其進(jìn)行了一定的簡化,保證了此部分研究的可行性。
由于電網(wǎng)是持續(xù)演變的系統(tǒng),調(diào)度場景及需求也隨著電網(wǎng)時空維度的變化而改變,由上述方法得到的機器智能在實際應(yīng)用中,難以對未知或極端場景給出針對性的決策方案。因此,需要研究知識推理方法,在先驗知識的基礎(chǔ)上,推斷出未知場景的知識。混合增強智能調(diào)度知識推理方法通過引入人機共融的協(xié)同決策機制,提升現(xiàn)有知識的泛化性,實現(xiàn)對復(fù)雜場景的高置信度決策,進(jìn)而推動系統(tǒng)知識隨著電網(wǎng)環(huán)境變化而持續(xù)演化。此部分的研究可從以下兩方面開展:一方面,研究復(fù)雜環(huán)境下的機器決策方法,目的是盡可能地提升機器決策質(zhì)量和安全性;另一方面,研究人機共融的決策機制,旨在通過調(diào)度員的經(jīng)驗改善決策質(zhì)量,保障電網(wǎng)安全。
3.5.1 基于電網(wǎng)關(guān)鍵特征感知的分區(qū)決策技術(shù)
要實現(xiàn)人機共融的知識推理過程,首先要解決機器調(diào)度復(fù)雜隨機場景下的決策問題,實現(xiàn)對已有知識的高效利用。這就要求機器能夠基于先驗知識,推斷出新狀態(tài)下的機器最優(yōu)決策。值得注意的是,這里的新狀態(tài)指的是由于電網(wǎng)結(jié)構(gòu)的持續(xù)演變和調(diào)度需求變化,導(dǎo)致機器先前獲取的知識難以直接應(yīng)用。附錄A 圖A3 給出了基于關(guān)鍵狀態(tài)特征感知的電網(wǎng)調(diào)度分區(qū)決策技術(shù)的一種實現(xiàn)思路,包含2 個關(guān)鍵特征,即關(guān)鍵狀態(tài)特征感知和分區(qū)決策。
首先,大電網(wǎng)實時采集數(shù)據(jù)普遍存在高維度且低密度的問題,難以準(zhǔn)確反映電網(wǎng)當(dāng)前的運行狀態(tài)及未來的狀態(tài)轉(zhuǎn)移,繼而難以得到調(diào)度任務(wù)的決策依據(jù),導(dǎo)致機器決策能力不足。與傳統(tǒng)的電網(wǎng)狀態(tài)估計和感知不同,關(guān)鍵特征感知不僅根據(jù)運行數(shù)據(jù)獲取電網(wǎng)的運行狀態(tài),更是要對影響決策的關(guān)鍵系統(tǒng)特征進(jìn)行感知和判斷,例如:系統(tǒng)關(guān)鍵運行斷面情況、未來可能出現(xiàn)的負(fù)荷高峰情況等。本文提出構(gòu)建基于注意力模型[31]的電網(wǎng)關(guān)鍵狀態(tài)特征感知框架,將運行數(shù)據(jù)、負(fù)荷/清潔能源出力預(yù)測結(jié)果、網(wǎng)絡(luò)拓?fù)?、機組參數(shù)等電網(wǎng)狀態(tài)作為輸入序列,輸出序列為更加抽象的電網(wǎng)狀態(tài)表征結(jié)果,此結(jié)果將作為機器調(diào)度的決策依據(jù)。在注意力模型的具體設(shè)計上,如基于長短時記憶(long short-time memory,LSTM)網(wǎng)絡(luò)的編碼網(wǎng)絡(luò)架構(gòu)設(shè)計,注意力的權(quán)重系數(shù)如何自適應(yīng)求取,解碼網(wǎng)絡(luò)架構(gòu)設(shè)計等,都要根據(jù)實際問題分析,也是后續(xù)研究的一個重點。
其次,注意力模型得到電網(wǎng)狀態(tài)感知結(jié)果后,倘若知識庫中包含當(dāng)前狀態(tài)和決策結(jié)果的先驗映射知識,則可直接依據(jù)先驗知識得到調(diào)度決策。但由于電力系統(tǒng)自身結(jié)構(gòu)和狀態(tài)的不斷演化,實際運行中存在先驗知識無法覆蓋當(dāng)前決策任務(wù)的情形,此時便涉及電網(wǎng)面對新狀態(tài)如何快速地進(jìn)行推理決策的問題。為此,本文提出分區(qū)決策技術(shù),其核心是將復(fù)雜的系統(tǒng)狀態(tài)按區(qū)域分解,再根據(jù)各分區(qū)狀態(tài),采用遷移學(xué)習(xí)[32]等技術(shù)確定各分區(qū)的近似最優(yōu)決策,最后將決策重組得到當(dāng)前狀態(tài)下的最優(yōu)決策。
上述研究內(nèi)容可實現(xiàn)未知電網(wǎng)狀態(tài)的快速機器決策,但此決策并未經(jīng)過先驗知識的檢驗和電網(wǎng)的安全校核,并不一定是當(dāng)前狀態(tài)下的最優(yōu)決策;同時,決策的安全性和魯棒性尚存疑。因此,還需要引入人機協(xié)調(diào)機制,通過人機共融決策,確保得到新狀態(tài)下的可行決策。
3.5.2 人機共融決策機制
對于復(fù)雜多變的決策問題,機器策略難以保證最優(yōu)性,仍存在改進(jìn)空間。人類專家可以根據(jù)自身經(jīng)驗指出策略改進(jìn)方向,即廣義上的策略梯度方向,通過迭代交互改善決策結(jié)果的同時幫助機器提升決策能力。本文提出研究人機決策協(xié)調(diào)機制的思路:1)基于多維指標(biāo)融合,研究包含調(diào)度員偏好在內(nèi)的調(diào)度決策置信度事前評價方法;2)基于評價結(jié)果,研究人機協(xié)調(diào)決策機制,通過人對機器決策理解評價和引導(dǎo)示范的迭代,實現(xiàn)調(diào)度策略的調(diào)整與改進(jìn),并推動機器智能知識不斷向增強梯度方向演化;3)利用人機共融決策結(jié)果和系統(tǒng)實際運行效果構(gòu)造參考策略和價值網(wǎng)絡(luò),通過比較對機器策略進(jìn)行評價以指導(dǎo)機器策略的改進(jìn)。
一種可行的人機共融決策機制如圖6 所示。
圖6 人機共融決策機制Fig.6 Human-machine integration decision-making mechanism
在得到機器決策結(jié)果之后,首先要對其可用度進(jìn)行分析,此時考慮的指標(biāo)包括反映系統(tǒng)運行情況的客觀性指標(biāo)和反映調(diào)度員評價的主觀性指標(biāo)。其中,客觀性指標(biāo)可采用新一代調(diào)度控制系統(tǒng)[25]中使用的指標(biāo),包括系統(tǒng)實時運行指標(biāo),如系統(tǒng)安全性指標(biāo)、系統(tǒng)經(jīng)濟性指標(biāo)、清潔低碳指標(biāo)等,此類系統(tǒng)運行指標(biāo)可通過數(shù)字仿真系統(tǒng)得到。另外,電網(wǎng)運行后評價指標(biāo)也可納入決策評價體系,但由于此類指標(biāo)需要所有日內(nèi)調(diào)度任務(wù)完成后才能定量得到,可采用監(jiān)督學(xué)習(xí)的方法對歷史決策數(shù)據(jù)和指標(biāo)數(shù)據(jù)進(jìn)行擬合,進(jìn)而得到相關(guān)指標(biāo)的估計值。反映主觀性的指標(biāo)來源于調(diào)度員的評價。為實現(xiàn)快速的人機交互,得到簡明清晰的決策置信度指標(biāo)是非常必要的。因上述指標(biāo)都是低維且可量化,本文推薦采用線性加權(quán)法得到?jīng)Q策的置信度指標(biāo),各指標(biāo)的相關(guān)權(quán)重值可根據(jù)調(diào)度員偏好確定,也可采用自適應(yīng)加和法、隸屬度法、灰色關(guān)聯(lián)度法等成熟方法來確定。
得到?jīng)Q策置信度的量化指標(biāo)后,可根據(jù)知識庫中是否存在先驗知識、決策置信度指標(biāo)高低、調(diào)度員是否認(rèn)可等因素將決策分為可用決策和不可用決策,具體的劃分手段可用直接定量劃分或采用模糊分類/聚類等方法。對于不同置信度的決策將采取不同的人機協(xié)調(diào)方法,具體描述如下。
1)可用決策:知識庫中存在先驗知識或決策置信度指標(biāo)較高,調(diào)度員認(rèn)可。為提升決策效率,此類決策不需要人工干預(yù),可直接作用電力系統(tǒng)。
2)不可用決策:知識庫中不存在先驗知識、決策置信度指標(biāo)偏低,調(diào)度員不認(rèn)可,此類決策并不可直接作用于電力系統(tǒng)。
對于不可用的決策,調(diào)度員可結(jié)合機器決策的解釋結(jié)果,采用多種手段對決策進(jìn)行干預(yù)和引導(dǎo),這里仍可采用3.2.2 節(jié)提到的動作限定引導(dǎo)、目標(biāo)調(diào)整和示范決策等3 種方式。
人機共融決策的目的除了提升針對單次決策的最終效果之外,還要為知識庫中機器策略的改進(jìn)提供參考。此部分內(nèi)容得到的機器決策、人機共融決策結(jié)果、調(diào)度員干預(yù)過程和策略評價將作為實際系統(tǒng)的運行樣本、人工干預(yù)知識和實際系統(tǒng)的運行評價,為知識演化提供現(xiàn)實依據(jù)和支撐。隨著系統(tǒng)的持續(xù)運行,知識庫的先驗知識將持續(xù)擴充與完善,機器調(diào)度決策的置信度也將不斷提升,調(diào)度員的干預(yù)率會持續(xù)下降,最終實現(xiàn)混合增強智能調(diào)度中以機器決策為主、調(diào)度員干預(yù)和引導(dǎo)為輔的調(diào)度模式。
針對由于當(dāng)前電網(wǎng)調(diào)度領(lǐng)域AI 方法技術(shù)缺陷引起的實用性不足問題,本文提出基于混合增強智能調(diào)度的解決思路,提煉了其關(guān)鍵問題——面向電網(wǎng)調(diào)度的混合增強智能知識演化機理與方法,探討了其內(nèi)涵,提出并闡述了知識架構(gòu)、知識獲取、知識解釋及知識推理4 個關(guān)鍵技術(shù)的框架和解決思路,嘗試將機器智能強大的搜索、計算、優(yōu)化能力與調(diào)度員的高級認(rèn)知能力交互融合,實現(xiàn)人機雙向的知識交互和共同演化,達(dá)到提升電力調(diào)度智能決策水平的目的?;旌显鰪娭悄芗夹g(shù)在解析方法、傳統(tǒng)AI 和人工經(jīng)驗都難以解決的復(fù)雜隨機調(diào)度決策問題上具有良好的應(yīng)用前景,例如:高滲透率新能源接入下的大規(guī)模交直流互聯(lián)電網(wǎng)潮流控制、有功/無功拓?fù)渎?lián)合調(diào)度、含多元異構(gòu)主體的電網(wǎng)優(yōu)化運行。后續(xù)將圍繞具體調(diào)度決策場景和問題下的算法設(shè)計,以及如何與現(xiàn)有調(diào)度自動化系統(tǒng)充分銜接融合等方面開展研究工作。
附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。