王榮茂,劉 淼,李青春,張 曄
(遼寧電力交易中心有限公司,遼寧 沈陽 110006)
利用熱啟動Hotbooting技術(shù)融合Q-Learning算法(以下簡稱Q學(xué)習(xí)算法)構(gòu)成Hotbooting-Q交易算法[1]。通過Hotbooting技術(shù)得到類似場景下Q學(xué)習(xí)算法的Q值表及V值表,其中,Q值及V值是Hotbooting-Q交易算法在強化學(xué)習(xí)中的定義值,其在較大程度上縮減該算法的學(xué)習(xí)步長,提升收斂性能的同時獲取優(yōu)良學(xué)習(xí)效果[2-3]。
電能交易需求猛增,電網(wǎng)企業(yè)的業(yè)務(wù)壓力也隨之增強。近年來,國家高度重視抽水蓄能發(fā)電,作為發(fā)展新型能源的關(guān)鍵組成部分,其優(yōu)勢在于可靠性高、技術(shù)發(fā)展成熟、生命周期久,抽水蓄能電站可提升電網(wǎng)運行的平穩(wěn)性及協(xié)調(diào)能力,節(jié)能減排、低碳環(huán)保、促進可再生能源發(fā)展是我國對新興能源的基本要求,實現(xiàn)資源優(yōu)化配置[4],關(guān)乎社會、經(jīng)濟、文明發(fā)展,對電力儲能具有重要意義。電網(wǎng)電能在頻繁交易過程中可能存在風(fēng)險,對風(fēng)險的識別顯得格外重要,及時發(fā)現(xiàn)并規(guī)避風(fēng)險,保證電能交易安全可靠運行,關(guān)乎民生經(jīng)濟等各個方面的安全運行。陳濤等[5]提出抽水蓄能水電站職業(yè)健康風(fēng)險評價方法,在模糊數(shù)學(xué)法基礎(chǔ)上進行風(fēng)險評估,該方法成本較高不適宜全面推廣使用;李剛等[6]提出抽水蓄能電站水淹風(fēng)險評價研究方法。
綜合以往研究方法,本文提出基于Hotbooting-Q算法的抽水蓄能電網(wǎng)電能交易風(fēng)險識別方法,及時發(fā)現(xiàn)并規(guī)避風(fēng)險。
抽水蓄能電網(wǎng)DWi和上級電網(wǎng)、其他抽水蓄能電網(wǎng)進行電能交易,對下一時期電能存儲值和其他抽水蓄能電網(wǎng)交易決策有直接影響,因此,利用馬爾科夫過程表示抽水蓄能電網(wǎng)電能交易博弈機制[7],在動態(tài)博弈過程中,其他抽水蓄能電網(wǎng)的電量程度和抽水蓄能電網(wǎng)本身負(fù)荷需求無法得知的情況下,采用深度Q學(xué)習(xí)算法進行計算,獲取滿足切身利益的電能交易策略[8]。
DWi瞬時效益函數(shù)為
(1)
DWi依據(jù)本身實際情況的交易策略對Q函數(shù)實施同步更新的過程表示為
(2)
(3)
(4)
(5)
至此,完成基于深度Q學(xué)習(xí)算法的抽水蓄能電網(wǎng)電能交易博弈模型構(gòu)建。
處于初始化Q值表時,深度Q學(xué)習(xí)算法將全部元素設(shè)為0,歷次學(xué)習(xí)時從0開展大規(guī)模探尋并訓(xùn)練,在較大程度上提升學(xué)習(xí)速度。將深度Q學(xué)習(xí)算法與Hotbooting技術(shù)二者融合,能夠大幅減少實踐操練時間并快速提升該算法的收斂性能[10]。
依據(jù)之前電能交易類似情景在類似情況下進行模擬實驗,并獲取實踐操練數(shù)據(jù),在此基礎(chǔ)上,對Q值表、V值表開展初始化處理[11],該過程采用Hotbooting技術(shù)完成,利用處理后的Q值表及V值表取替初始化值表。該模型求解流程如下:
(3)合法交易值采用挑選整理數(shù)據(jù)的方式獲取。
(5)實時上報交易策略,同時更新電能值得到下一階段狀況。
(6)模仿交易環(huán)境需利用Hotbooting技術(shù)完成,得到結(jié)果Q值表及V值表。
(7)深層次Q學(xué)習(xí)算法交易控制中心調(diào)整交易策略,得到最優(yōu)預(yù)期效益。
圖1為完整的模型求解流程。
圖1 求解流程
擬設(shè)一個抽水蓄能電網(wǎng)電能網(wǎng)絡(luò)拓?fù)浼敖灰淄負(fù)?,用G=(N,E)表示電網(wǎng)電能網(wǎng)絡(luò)。N、E分別為網(wǎng)絡(luò)節(jié)點合集和網(wǎng)絡(luò)中無向邊合集;網(wǎng)絡(luò)拓?fù)渲械赾條邊用Ec表示。Gs=(Ns,Es,S)為電網(wǎng)電能網(wǎng)絡(luò)拓?fù)?。其中,用下角?biāo)s表示交易拓?fù)洌薪灰捉?jīng)過的網(wǎng)絡(luò)節(jié)點合集和網(wǎng)絡(luò)中有交易經(jīng)過的邊合集分別用Ns、Es表示,同時用Es(c,f)表示網(wǎng)絡(luò)中有交易經(jīng)過連接節(jié)點c和f的邊;網(wǎng)絡(luò)的交易合集用S表示,經(jīng)過網(wǎng)絡(luò)中Es(c,f)邊的交易合集用SE(c,f)表示。網(wǎng)絡(luò)中第c個交易重要度的數(shù)值用Isc表示。Ns={N1,N2,…N6}表示網(wǎng)絡(luò)節(jié)點合集,用Es={E1,E2,E3,E4,E5,E7}表示網(wǎng)絡(luò)負(fù)載交易的邊合集,其中,兩條邊E6,E8為不負(fù)載交易且不包含在Es內(nèi),用S={S1,S2,S3,S4,S5}表示全部交易的合集。
交易業(yè)務(wù)突發(fā)中止或出現(xiàn)交易缺陷情況時對電網(wǎng)平穩(wěn)運轉(zhuǎn)產(chǎn)生的影響水平為交易重要度,該指標(biāo)用于評估抽水蓄能電網(wǎng)電能交易對電網(wǎng)影響的重要程度[12-13]。
2.3.1 交易風(fēng)險度
電網(wǎng)平穩(wěn)運轉(zhuǎn)受到交易中止或者交易牢靠性減弱時的影響水平為交易風(fēng)險度[14],采用最優(yōu)交易策略的電網(wǎng)通信網(wǎng)絡(luò)通道段所負(fù)載的單一交易的風(fēng)險程度表示為
R(Es(c,f)sc)=Isc(I-PEs(c,f))·A
(6)
式中,R(Es(c,f)sc)為第Es(c,f)邊負(fù)載的sc交易的風(fēng)險值;Isc為網(wǎng)絡(luò)中第Es(c,f)邊上負(fù)載的第c筆交易重要度;PEs(c,f)為網(wǎng)絡(luò)中負(fù)載第c筆交易第Es(c,f)邊的牢靠度數(shù)值;A為牢靠性減弱時的影響水平調(diào)節(jié)系數(shù)。
網(wǎng)絡(luò)負(fù)載交易的某一通道段為通道段綜合交易風(fēng)險度,即網(wǎng)絡(luò)中對應(yīng)邊負(fù)載的各個交易風(fēng)險度綜合值[15]。Es(c,f)邊負(fù)載的Sc交易的風(fēng)險值總和為R(Es(c,f)),其公式為
(7)
式中,網(wǎng)絡(luò)中邊Es(c,f)負(fù)載的各類交易各類別數(shù)目和第c類交易數(shù)目分別為m和Nc。
2.3.2 交易風(fēng)險均衡度
2.3.2.1 全網(wǎng)交易風(fēng)險度總和
設(shè)全網(wǎng)交易風(fēng)險度為R(Gs),鑒于交易具有雙向性,同一個網(wǎng)絡(luò)邊的交易風(fēng)險值分別用REs(c,f)、REs(f,c)表示,R(Gs)可表示為
(8)
求解R(Gs)的第一步為求和Es(c,f)邊負(fù)載交易的風(fēng)險度值,第二步為求和歸屬于交易網(wǎng)絡(luò)Gs全部邊交易風(fēng)險度值。
2.3.2.2 全網(wǎng)平均交易風(fēng)險度
依據(jù)全網(wǎng)交易風(fēng)險度及網(wǎng)絡(luò)拓?fù)渲羞叺臄?shù)目N,計算得到全網(wǎng)平均交易風(fēng)險度。
2.3.2.3 網(wǎng)絡(luò)交易風(fēng)險均衡度
電網(wǎng)電能交易風(fēng)險均衡度模型為
(9)
采用全網(wǎng)交易風(fēng)險度均衡度BR(Gs)衡量網(wǎng)絡(luò)整體交易分配均衡性,將基于深度Q學(xué)習(xí)算法的抽水蓄能電網(wǎng)電能交易博弈模型獲取的最優(yōu)交易策略作為模型輸入,對抽水蓄能電網(wǎng)電能交易過程中可能存在的風(fēng)險進行識別,掌控電網(wǎng)電能交易狀態(tài)。分別從交易風(fēng)險分布均衡度和風(fēng)險度兩方向進行分析,網(wǎng)絡(luò)中各項交易通道段負(fù)載的交易風(fēng)險度平衡分散狀態(tài)依據(jù)交易風(fēng)險均衡度指標(biāo)進行衡量,當(dāng)指標(biāo)接近0時代表全網(wǎng)的交易安排風(fēng)險處于平衡狀態(tài),此時運行風(fēng)險較??;當(dāng)指標(biāo)過大時則代表網(wǎng)絡(luò)中交易通道上負(fù)載的交易分散失衡,其中部分鏈重要交易過度聚集或過度輕載。
2.3.3 識別編碼
2.3.3.1 網(wǎng)絡(luò)節(jié)點交易連接矩陣編碼
考慮到節(jié)點間鄰接關(guān)系和交易連接關(guān)系,節(jié)點間交易狀態(tài)矩陣S(Gs)表示為
(10)
元素S(Gs)cf位于節(jié)點交易連接矩陣S(Gs)中,該元素等量互換為SEs(c,f),代表節(jié)點c和f當(dāng)中的邊的交易連接狀況。當(dāng)兩個節(jié)點發(fā)生交易連接時,S(Gs)cf=1;無交易連接時,S(Gs)cf=0(c≠f);其中節(jié)點本身無交易關(guān)聯(lián)關(guān)系用S(Gs)cf=0表示。
2.3.3.2 交易重要度矩陣編碼
電網(wǎng)通信網(wǎng)負(fù)載多類電網(wǎng)通信交易,設(shè)種類為M,M種電網(wǎng)通信交易重要度M×1階的矩陣形式為
(11)
2.3.3.3 網(wǎng)絡(luò)多邊交易重要度計算
邊Es(c,f)負(fù)載交易矩陣SEs(c,f)=[Sk1,Sk2,…,SkM],電網(wǎng)通信交易類別用下角標(biāo)M表示,邊Es(c,f)負(fù)載第c類交易數(shù)目用Sk1表示。SEs(c,f)用于表示S(Gs)內(nèi)部的某一元素。
IEs(c,f)用于表示網(wǎng)絡(luò)中邊負(fù)載的各項交易重要度之和,IEs(c,f)與各節(jié)點交易連接矩陣和交易重要度矩陣、邊交易矩陣之間的關(guān)聯(lián)關(guān)系等同于交易重要度矩陣C、S(Gs)內(nèi)部的某一元素SEs(c,f)和節(jié)點交易連接矩陣S(Gs)中的S(Gs)cf元素三者乘積。
2.3.3.4 全網(wǎng)交易重要度計算
依據(jù)各節(jié)點的交易連接關(guān)系將全網(wǎng)交易的重要度分布矩陣表示為
(12)
式中,I(Gs)的矩陣階為n×n,網(wǎng)絡(luò)節(jié)點數(shù)目用于表示n,任意兩個節(jié)點間各類交易的重要度之和用于表示中I(Gs)的每個元素。
求解全網(wǎng)交易風(fēng)險度
R(Gs)=I(Gs)P(Gs)
(13)
若不考量其他因素,單一考量風(fēng)險及交易重要度的關(guān)系,用R(Gs)=I(Gs)表示R(Gs)的矩陣形式,利用網(wǎng)絡(luò)多邊交易重要度求取IEs(c,f)。
全網(wǎng)負(fù)載交易的各邊風(fēng)險度之和為
(14)
采用全網(wǎng)平均交易風(fēng)險度及網(wǎng)絡(luò)交易風(fēng)險均衡度指標(biāo),對全網(wǎng)交易平均風(fēng)險度即風(fēng)險均衡度進行求解。
網(wǎng)絡(luò)中第c個節(jié)點Nc交易風(fēng)險度為
(15)
至此,完成抽水蓄能電網(wǎng)電能交易風(fēng)險識別方法設(shè)計。
采用MATLAB編程軟件搭建某區(qū)域的抽水蓄能電網(wǎng),應(yīng)用本文方法對該電網(wǎng)的電能交易風(fēng)險進行識別,利用本文方法與文獻[5]抽水蓄能水電站職業(yè)健康風(fēng)險評價方法、文獻[6]抽水蓄能電站水淹風(fēng)險評價方法進行對比驗證,驗證本文方法的識別效果。
在該電網(wǎng)中,選取一個5節(jié)點、7邊的抽水蓄能區(qū)域電網(wǎng),該區(qū)域網(wǎng)絡(luò)節(jié)點合集為Ns={N1,N2,N3,N4,N5},網(wǎng)絡(luò)負(fù)載交易邊合集為Es={E1,E2,E3,E4,E5,E6},網(wǎng)絡(luò)負(fù)載交易合集為S={S1,S2,S3,S4,S5}。采用本文方法獲取該區(qū)域電網(wǎng)交易的最優(yōu)預(yù)期效益,并從交易重要度及交易風(fēng)險度、交易風(fēng)險均衡度、識別編碼方面進行分析,并搭建電網(wǎng)電能交易風(fēng)險均衡度的識別模型,進行交易風(fēng)險識別。
利用式(15)遍歷某市抽水蓄能電網(wǎng)電能交易過程中的各個節(jié)點,并識別得到該電網(wǎng)電能交易風(fēng)險度結(jié)果如表1所示。
表1 各節(jié)點交易風(fēng)險均衡度結(jié)果
由此可見,本文方法能夠有效識別出各電網(wǎng)電能交易節(jié)點風(fēng)險度值。
為分析電能交易后,該電網(wǎng)的平均效益水平曲線,將學(xué)習(xí)布長設(shè)為6 000步,利用本文方法與文獻[5]方法、文獻[6]方法進行對比驗證,效益變化曲線如圖2所示。
圖2 效益變化曲線
根據(jù)圖2可知,在收斂性方面,本文方法和文獻[5]方法在初步時有一段較為鮮明的學(xué)習(xí)時間,且本文方法在500步左右完成收斂,比文獻[5]提前完成,這是因為本文方法運用Hotbooting技術(shù),預(yù)先對相似場景下的數(shù)據(jù)進行大批量的仿真測試,極大程度上縮短了后續(xù)學(xué)習(xí)的摸索時間,加速掌控交易規(guī)律;文獻[6]方法并無學(xué)習(xí)過程且未能從交易數(shù)據(jù)中汲取經(jīng)驗和規(guī)律,效益值也最低,由此可見,本文方法能夠提高交易效益,且整個算法的收斂性好。在收益情況方面,文獻[6]方法交易策略的收益值較差,最高不超過8.9;文獻[5]方法交易策略的收益值在14.5區(qū)間范圍內(nèi)浮動,與文獻[6]方法相比提升約38.6%;本文方法的收益值平穩(wěn)維持在18.5,較文獻[5]、[6]方法分別提升約51.9%、21.6%。
對電網(wǎng)電能交易運行風(fēng)險分析進行仿真模擬,隨機選取該電網(wǎng)中的70條電網(wǎng)電能交易線路,依據(jù)電網(wǎng)電能交易狀態(tài)風(fēng)險信息傳輸路徑,對不同數(shù)量交易線路的交易風(fēng)險進行識別,將本文方法與文獻[5]、文獻[6]方法對比驗證,判定識別精度更高的方法。用圖3表示3種方法識別不同數(shù)量線路的風(fēng)險識別失誤次數(shù)。
圖3 風(fēng)險識別失誤次數(shù)
由圖3分析可知,文獻[5]方法在交易線路數(shù)量為30次以內(nèi)時風(fēng)險識別失誤在9次左右浮動,交易線路數(shù)量超過30次后其失誤次數(shù)呈直線上升狀態(tài),風(fēng)險識別失誤次數(shù)全程在8~18區(qū)間內(nèi),識別效果較不理想;文獻[6]方法風(fēng)險識別失誤次數(shù)全程在12次以上,隨著交易線路數(shù)量逐步上升,交易風(fēng)險識別監(jiān)督逐漸降低;本文方法整體平穩(wěn)運行,風(fēng)險識別失誤次數(shù)全程始終保持在3次以內(nèi),由此可見本文方法識別精度極高且穩(wěn)定,可放心投入運行使用。
通過搭建基于Hotbooting-Q算法的抽水蓄能電網(wǎng)電能交易模型并求解獲取最佳交易策略,將交易策略輸入風(fēng)險識別模型求解風(fēng)險度,以此判斷風(fēng)險高低,在步長500步時完成收斂,其收益值平穩(wěn)維持在18.5,高效且平穩(wěn);風(fēng)險識別失誤次數(shù)全程始終保持在3次以內(nèi),交易風(fēng)險精準(zhǔn)度極高,可有效識別出交易風(fēng)險。