李媛,遲昆,王洲,彭婧,賈春蓉,劉炳文
(1.國(guó)網(wǎng)甘肅省電力公司經(jīng)濟(jì)技術(shù)研究院,蘭州730050;2.西安交通大學(xué)電氣工程學(xué)院,西安710054)
在低碳減排的能源背景下,含電、氣、熱等的多能源微網(wǎng)通過整合多類能源,在提升能源利用效率、滿足用戶靈活多樣的能源需求等方面展現(xiàn)出明顯的優(yōu)勢(shì)[1]。未來電-氣-熱多微網(wǎng)的互聯(lián)可形成規(guī)?;碾?氣-熱多微網(wǎng)系統(tǒng)。然而由于各類能源的復(fù)雜耦合,電-氣-熱多微網(wǎng)系統(tǒng)在規(guī)劃、運(yùn)行與管理等層面面臨諸多挑戰(zhàn)[2]。隨著能源交易市場(chǎng)化,多微網(wǎng)系統(tǒng)可能由微網(wǎng)服務(wù)商、微網(wǎng)等諸多市場(chǎng)參與者共同管理。各市場(chǎng)參與者間的交易行為將影響系統(tǒng)的運(yùn)行和各方的利益[3]。
現(xiàn)有研究已引入了不同的方法研究類似的市場(chǎng)交易。文獻(xiàn)[4]研究了區(qū)域綜合能源系統(tǒng)的交易策略,并建立了雙層優(yōu)化模型。文獻(xiàn)[5]考慮了能源梯級(jí)利用以研究能源交易策略。兩者都將雙層模型轉(zhuǎn)化為單層模型求解。文獻(xiàn)[6-7]等研究使用博弈論來描述市場(chǎng)交易過程。但上述文獻(xiàn)都采用集中式算法求解,考慮到市場(chǎng)環(huán)境下參與者之間的競(jìng)爭(zhēng)與隱私保護(hù)行為,集中式算法難以實(shí)際應(yīng)用。
因此,一些研究引入了啟發(fā)式等算法以保護(hù)用戶隱私。文獻(xiàn)[8]采用了粒子群算法解決配電網(wǎng)與各微網(wǎng)間的斯塔克爾伯格(Stackelberg)博弈。文獻(xiàn)[9]建立了三層優(yōu)化問題,并采用遺傳算法求解最上層問題。文獻(xiàn)[10-12]等采用類似的啟發(fā)式算法優(yōu)化園區(qū)、微網(wǎng)的主從博弈定價(jià)策略問題。另外,文獻(xiàn)[13]采用有效集法和最速下降法求解了綜合能源微網(wǎng)交易策略,很好地保護(hù)了用戶隱私。然而,對(duì)于大規(guī)模優(yōu)化問題啟發(fā)式算法難以保證求解效率,得到的可行解可能偏離最優(yōu)解。有效集法等算法受限于復(fù)雜的數(shù)學(xué)形式,實(shí)用性較差。
相對(duì)而言,依賴于馬爾可夫決策過程(Markov decision process,MDP)的強(qiáng)化學(xué)習(xí)算法以求解最優(yōu)策略為目標(biāo),不易陷入局部最優(yōu),有更廣泛的適用性。近年來,強(qiáng)化學(xué)習(xí)特別是深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)算法,在多能系統(tǒng)[14-16]應(yīng)用廣泛,能更好的應(yīng)對(duì)系統(tǒng)的不確定性[17-18]。文獻(xiàn)[19-20]證明了DRL 算法可兼顧用戶隱私。除文獻(xiàn)[21-22]外少有研究將DRL 算法用于求解類似博弈問題,文獻(xiàn)[21-22]雖將斯塔克爾伯格博弈轉(zhuǎn)化為MDP,但均未考慮時(shí)間耦合約束,然而現(xiàn)實(shí)中時(shí)間耦合約束是難以忽略的。因此針對(duì)所研究的定價(jià)問題,本文提出了一種基于強(qiáng)化學(xué)習(xí)的求解方法,以解決含時(shí)間耦合的斯塔克爾伯格博弈問題。
基于以上分析,本文首先描述了電-氣-熱多微網(wǎng)系統(tǒng)內(nèi)部交易過程并建立了相應(yīng)的系統(tǒng)模型。其次,微網(wǎng)服務(wù)商的定價(jià)策略問題被描述為斯塔克爾伯格博弈。可以證明,該博弈存在唯一博弈均衡點(diǎn)。針對(duì)這一問題,提出了一種基于強(qiáng)化學(xué)習(xí)的求解方法以保護(hù)用戶隱私并提升求解效率。計(jì)算結(jié)果表明,該方法有效解決了含時(shí)間耦合約束的斯塔克爾伯格博弈問題,制定了符合各方利益的策略。
本文所研究的電-氣-熱多微網(wǎng)系統(tǒng)如圖1 所示,包含了1 個(gè)微網(wǎng)服務(wù)商和N個(gè)電-氣-熱微網(wǎng)??紤]到微網(wǎng)服務(wù)商與各微網(wǎng)均為獨(dú)立的經(jīng)濟(jì)實(shí)體,交易時(shí)各方均追求自身利益最大化。
圖1 電-氣-熱多微網(wǎng)系統(tǒng)Fig.1 Electric-gas-heat multi-microgrid system
微網(wǎng)服務(wù)商主要服務(wù)于配網(wǎng)層面,其向上可接入上級(jí)能源市場(chǎng)以購(gòu)入電能、天然氣,向下可連接區(qū)域內(nèi)多個(gè)微網(wǎng)。微網(wǎng)服務(wù)商負(fù)責(zé)區(qū)域內(nèi)配網(wǎng)的建設(shè),其配備風(fēng)電、光伏和熱電聯(lián)產(chǎn)機(jī)組等設(shè)備用以實(shí)現(xiàn)能源整合,同時(shí)制定零售價(jià)并向各微網(wǎng)供應(yīng)能源以獲取利潤(rùn)。
各電-氣-熱微網(wǎng)需從微網(wǎng)服務(wù)商購(gòu)買能源以滿足自身用能需求。各微網(wǎng)均參與綜合需求側(cè)響應(yīng),根據(jù)零售價(jià)調(diào)整自身策略,同時(shí)配備有一定容量的電鍋爐(EB)、燃?xì)忮仩t(GB)設(shè)備以保證更經(jīng)濟(jì)靈活的熱能供應(yīng)。
本研究假定微網(wǎng)服務(wù)商不影響上級(jí)能源市場(chǎng)的價(jià)格。為保證可再生能源的消納,微網(wǎng)服務(wù)商可向上級(jí)能源市場(chǎng)出售富余電能,但為避免問題退化,該問題只在多微網(wǎng)系統(tǒng)內(nèi)部交易完成后考慮。
微網(wǎng)服務(wù)商首先制定電、氣、熱能零售價(jià),并得到各微網(wǎng)反饋的購(gòu)能信息。基于所得信息微網(wǎng)服務(wù)商進(jìn)一步優(yōu)化定價(jià)策略和運(yùn)行策略。
1.2.1 目標(biāo)函數(shù)
微網(wǎng)服務(wù)商的目標(biāo)是最大化其全天凈利潤(rùn),如式(1)所示。第一項(xiàng)為售能收入,第二項(xiàng)為總成本,包括購(gòu)能成本、設(shè)備運(yùn)行成本。
1.2.2 約束條件
多微網(wǎng)系統(tǒng)需滿足各類能源實(shí)時(shí)供需平衡。如式(2)—(4)所示,等式左側(cè)分別表示電、氣、熱能的供應(yīng)量,等式右側(cè)分別表示各能源需求量。
式(5)—(8)為熱電聯(lián)產(chǎn)機(jī)組的運(yùn)行約束。式(5)表示機(jī)組所消耗標(biāo)準(zhǔn)狀態(tài)下天然氣的體積,式(6)表示機(jī)組可輸出的電功率限制,式(7)表示機(jī)組輸出的熱功率,式(8)為機(jī)組的爬坡功率約束。
式中:κa、κb、κc為熱電聯(lián)產(chǎn)機(jī)組成本系數(shù);λe-h為機(jī)組輸出熱、電功率比例;Pchp,max為機(jī)組輸出最大電功率;Pchp,rate為機(jī)組的最大爬坡速率。
式(9)—(11)為零售價(jià)格上下限約束,電、氣、熱能的零售價(jià)均應(yīng)限制在合理范圍內(nèi)。
各電-氣-熱微網(wǎng)根據(jù)能源零售價(jià),進(jìn)行綜合需求響應(yīng),并確定EB和GB的運(yùn)行策略,以制定最符合自身利益的購(gòu)能方案。微網(wǎng)模型可統(tǒng)一表示如下。
1.3.1 目標(biāo)函數(shù)
電-氣-熱微網(wǎng)的的目標(biāo)是最小化全天總成本,如式(12)所示。第一項(xiàng)為從微網(wǎng)服務(wù)商購(gòu)能的成本。第二項(xiàng)包括需求響應(yīng)成本和靈活供熱成本。
1.3.2 約束條件
EB 設(shè)備需滿足功率上下限約束和設(shè)備爬坡約束,如式(17)—(18)所示。
同樣地,GB 設(shè)備需滿足功率上下限約束和設(shè)備爬坡約束,具體形式類比式(17)—(18)。
電-氣-熱微網(wǎng)的實(shí)際購(gòu)能量可由式(19)—(21)確定:
根據(jù)本文所研究的多微網(wǎng)系統(tǒng)模型,微網(wǎng)服務(wù)商與各電-氣-熱微網(wǎng)間存在如下交易過程:微網(wǎng)服務(wù)商首先向各微網(wǎng)報(bào)價(jià);隨后,各微網(wǎng)優(yōu)化自身策略,以最小化總成本,并將購(gòu)能量反饋給微網(wǎng)服務(wù)商;最后,微網(wǎng)服務(wù)商依據(jù)反饋結(jié)果調(diào)整零售價(jià)和相關(guān)運(yùn)行變量。此交易模式?jīng)Q定了該定價(jià)問題可被描述為“一主多從”結(jié)構(gòu)的斯塔克爾伯格博弈,其中微網(wǎng)服務(wù)商可被視為領(lǐng)導(dǎo)者,不同的微網(wǎng)可被視為跟隨者,該博弈包含以下3個(gè)部分。
變電站改造期間臨時(shí)供電模式的風(fēng)險(xiǎn)及預(yù)控措施初探…………………………………………… 李世博,趙紅星(12-81)
1) 競(jìng)爭(zhēng)者:包括1 個(gè)微網(wǎng)服務(wù)商和N個(gè)電-氣-熱微網(wǎng),表示為P={MSP,{MG1,…,MGN}}。
可以證明,本文所提出的斯塔克爾伯格博弈存在唯一的博弈均衡點(diǎn)。
在達(dá)到博弈均衡點(diǎn)前微網(wǎng)服務(wù)商與各微網(wǎng)重復(fù)博弈的過程可被視為一類強(qiáng)化學(xué)習(xí)問題,即智能體代表微網(wǎng)服務(wù)商的利益不斷與環(huán)境中各微網(wǎng)交互。為此,本文進(jìn)一步研究了一種基于強(qiáng)化學(xué)習(xí)的斯塔克爾伯格博弈均衡點(diǎn)求解方法。
現(xiàn)有研究將領(lǐng)導(dǎo)者視為智能體(agent),跟隨者視為環(huán)境(environment),提出了相應(yīng)的MDP[20-21],利用強(qiáng)化學(xué)習(xí)訓(xùn)練智能體與環(huán)境交互,求解斯塔克爾伯格博弈均衡。但此類方法無法本文模型中存在的式(16)、式(18)等時(shí)間耦合約束,這些約束將破壞其MDP 的馬爾可夫性。馬爾可夫性可表示為式(22),是指環(huán)境的下一狀態(tài)只與當(dāng)前狀態(tài)有關(guān),而與先前狀態(tài)無關(guān)。
式中:Pr[]表示[]中事件發(fā)生的概率。
因此本研究構(gòu)造了一種新的MDP,以適應(yīng)存在時(shí)間耦合約束的斯塔克爾伯格博弈。包括以下4個(gè)元素。
1) 狀態(tài):智能體觀測(cè)到的環(huán)境狀態(tài)。既包括微網(wǎng)服務(wù)商已有的信息,如風(fēng)光機(jī)組出力、熱電聯(lián)產(chǎn)機(jī)組狀態(tài)、上級(jí)能源市場(chǎng)的購(gòu)買價(jià)格等;也包括各微網(wǎng)反饋的信息。針對(duì)某一確定的定價(jià)策略,每個(gè)微網(wǎng)都有唯一的最優(yōu)響應(yīng),利用這一關(guān)系,可用定價(jià)策略唯一地表示微網(wǎng)的狀態(tài)。因此,狀態(tài)向量可表示為式(23)。
式中t包含包括所有僅與時(shí)間相關(guān)的狀態(tài)信息;各類能源的定價(jià)策略則反映了各微網(wǎng)的狀態(tài)。
3) 回報(bào):智能體的目標(biāo)應(yīng)與微網(wǎng)服務(wù)商的目標(biāo)函數(shù)一致,即時(shí)回報(bào)定義為式(25):
式中:r1為時(shí)段1 的即時(shí)回報(bào);rt為時(shí)段t的即時(shí)回報(bào);(at,st)表示微網(wǎng)服務(wù)商基于at、st得到的完整定價(jià)方案;(s0)表示微網(wǎng)服務(wù)商的初始定價(jià)方案。
由式(26)可得,智能體總回報(bào)為:
4) 狀態(tài)轉(zhuǎn)移:首先,智能體確定某時(shí)段的動(dòng)作值at;隨后,環(huán)境根據(jù)at確定st中的cet、cgt和cht并計(jì)算即時(shí)回報(bào)rt;最后向智能體反饋st和rt。狀態(tài)轉(zhuǎn)移過程中的st和rt完全取決于at和st-1,馬爾可夫性由式(22)得到保證。
利用該MDP,智能體可逐步優(yōu)化微網(wǎng)服務(wù)商原有的定價(jià)策略,從而避免了時(shí)間耦合約束對(duì)馬爾可夫性的破壞,同時(shí)很好地保護(hù)了用戶隱私。
基于所提出的MDP,本研究提出的基于強(qiáng)化學(xué)習(xí)的求解流程如圖2所示。
圖2 基于強(qiáng)化學(xué)習(xí)的求解方法示意圖Fig.2 Schematic diagram of the RL based solution method
本文選取了甘肅省3 個(gè)電-氣-熱微網(wǎng)作為研究對(duì)象。圖3 展示了微網(wǎng)服務(wù)商配備的風(fēng)電、光伏機(jī)組的典型出力曲線,圖4 為微網(wǎng)服務(wù)商的購(gòu)能價(jià)格,圖5展示了3個(gè)微網(wǎng)的典型日負(fù)荷曲線。
圖3 風(fēng)電、光伏機(jī)組的出力曲線Fig.3 Output power curves of wind turbines and photovoltaic units
圖4 上級(jí)能源市場(chǎng)能源價(jià)格Fig.4 Energy prices in superior energy market
圖5 微網(wǎng)典型日負(fù)荷曲線Fig.5 Typical daily load curves of microgrids
電能、天然氣的零售價(jià)下限等于上級(jí)能源市場(chǎng)價(jià)格;熱能的零售價(jià)下限以天然氣價(jià)格為參照,并考慮一定的制熱成本;各類能源的零售價(jià)上限設(shè)定為下限的2 倍。微網(wǎng)服務(wù)商的初始定價(jià)方案設(shè)定為各類能源的價(jià)格下限。
本文選取了魯棒性強(qiáng)、數(shù)據(jù)效率高的PPO(proximal policy optimization)算法實(shí)現(xiàn)求解。學(xué)習(xí)率la=4.0×10-4,lc=2.0×10-3;折扣因子γ= 1;梯度裁剪閾值為0.2。
4.1.1 收斂曲線
圖6 展示了本算例的收斂曲線,可以看出求解過程在1 165 次左右收斂。左坐標(biāo)軸表示智能體的總回報(bào),右坐標(biāo)軸表示各微網(wǎng)目標(biāo)函數(shù)的負(fù)值。訓(xùn)練初期不合理的定價(jià)策略使各微網(wǎng)削減了更多彈性負(fù)荷,這使得服務(wù)商的利潤(rùn)較低且微網(wǎng)的需求響應(yīng)成本較高。隨著訓(xùn)練的進(jìn)行服務(wù)商的利潤(rùn)有所提高,更低的需求響應(yīng)成本也使得微網(wǎng)總成本有所下降。隨著定價(jià)策略不斷優(yōu)化服務(wù)商的利潤(rùn)持續(xù)提高,而各微網(wǎng)的總成本也持續(xù)增加,圖6 中左右軸對(duì)應(yīng)曲線呈現(xiàn)相反的變化趨勢(shì),這符合斯塔克爾伯格博弈中領(lǐng)導(dǎo)者與跟隨者非合作競(jìng)爭(zhēng)的利益變化趨勢(shì)。當(dāng)達(dá)到博弈均衡時(shí)智能體的總回報(bào)為43 293.99元,初始利潤(rùn)為-1 885.81 元,則微網(wǎng)服務(wù)商的實(shí)際利潤(rùn)達(dá)到41 408.18元,3個(gè)微網(wǎng)的總成本分別為43 791.53元、45 718.06元、39 223.76元。
圖6 算例收斂曲線Fig.6 Convergence curves of the case
4.1.2 微網(wǎng)服務(wù)商及各微網(wǎng)策略
微網(wǎng)服務(wù)商的定價(jià)策略如圖7 所示,智能體的動(dòng)作值 實(shí)際為初始定價(jià)方案的倍數(shù)。受篇幅限制,圖8以微網(wǎng)1為例展示了微網(wǎng)的最優(yōu)策略。
圖7 微網(wǎng)聚合商定價(jià)策略Fig.7 Pricing strategy of MSP
圖8 微網(wǎng)1最優(yōu)策略Fig.8 Optimal strategy of microgrid 1
可以看出,當(dāng)價(jià)格偏高時(shí)各微網(wǎng)會(huì)削減或平移更多的彈性負(fù)荷以減小購(gòu)能成本,這也會(huì)影響微網(wǎng)服務(wù)商的利潤(rùn)。因此,為避免相應(yīng)時(shí)段的交易量大幅減少,微網(wǎng)服務(wù)商會(huì)采取更保守的定價(jià)策略。對(duì)比各微網(wǎng)的策略可以看出,各微網(wǎng)可通過調(diào)整需求響應(yīng)參數(shù)影響博弈結(jié)果。另外,當(dāng)熱能零售價(jià)過高時(shí)各微網(wǎng)也可利用EB、GB降低供熱成本。
本節(jié)選取了不同的隨機(jī)數(shù)和零售價(jià)價(jià)格區(qū)間以驗(yàn)證博弈均衡解的唯一性和所提方法的穩(wěn)定性。
4.2.1 隨機(jī)數(shù)
PPO 算法受隨機(jī)數(shù)的影響,訓(xùn)練結(jié)果可能影響均衡解的結(jié)果。圖9 以電價(jià)結(jié)果為例展示了5 組不同隨機(jī)數(shù)對(duì)均衡解的影響。不同隨機(jī)數(shù)對(duì)交易各方利潤(rùn)或成本的影響不超過0.83%。
圖9 隨機(jī)數(shù)對(duì)均衡解的影響(以電價(jià)為例)Fig.9 Influence of random numbers on the equilibrium solution(e.g.electricity prices)
4.2.2 價(jià)格區(qū)間
研究不同價(jià)格區(qū)間,即智能體不同動(dòng)作空間對(duì)結(jié)果的影響。圖10以電能零售價(jià)為例展示了3種價(jià)格區(qū)間的求解結(jié)果。結(jié)果表明不同動(dòng)作空間下本方法的求解結(jié)果穩(wěn)定。
圖11 MDP效果對(duì)比Fig.11 MDP effect comparison
本文所提MDP 得到的微網(wǎng)服務(wù)商總利潤(rùn)約為41 408.18 元。根據(jù)現(xiàn)有研究的MDP 微網(wǎng)服務(wù)商的利潤(rùn)等于智能體總回報(bào),約為39 525.43 元。由于不滿足馬爾可夫性,對(duì)比方法的收斂結(jié)果與本文所提MDP 方案差距達(dá)到4.55%。另外,由于環(huán)境的不確定性對(duì)比方法的訓(xùn)練過程更不穩(wěn)定。
本節(jié)研究了多微網(wǎng)系統(tǒng)中微網(wǎng)數(shù)量對(duì)計(jì)算時(shí)間的影響。所有算例在性能相同的計(jì)算機(jī)上完成求解,計(jì)算結(jié)果見表1。
表1 不同微網(wǎng)數(shù)量下計(jì)算時(shí)間Tab.1 Computation time with different numbers of microgrids
本文所提方法展現(xiàn)了良好的計(jì)算性能,很好地解決了多微網(wǎng)接入的大規(guī)模斯塔克爾伯格博弈問題。由于各微網(wǎng)的優(yōu)化過程可并行處理,斯塔克爾伯格博弈中跟隨者策略的求解受微網(wǎng)數(shù)量的影響較小。同時(shí),微網(wǎng)數(shù)量的變化對(duì)PPO 算法的訓(xùn)練時(shí)間沒有顯著影響,累計(jì)訓(xùn)練時(shí)間僅略有增加。
本文研究了電-氣-熱多微網(wǎng)系統(tǒng)中微網(wǎng)服務(wù)商零售價(jià)定價(jià)問題。所建立的多微網(wǎng)系統(tǒng)準(zhǔn)確描述了微網(wǎng)服務(wù)商與各電-氣-熱微網(wǎng)間的交易模式,所關(guān)注的定價(jià)問題被描述為斯塔克爾伯格博弈,并被證明存在唯一的博弈均衡點(diǎn)。算例研究表明,所提出的基于強(qiáng)化學(xué)習(xí)的求解方法能很好地求解存在時(shí)間耦合的斯塔克爾伯格博弈。微網(wǎng)服務(wù)商采取了恰當(dāng)?shù)亩▋r(jià)方案以提高利潤(rùn),各微網(wǎng)也能根據(jù)特定參數(shù)優(yōu)化自身策略。此外,該方法很好地保護(hù)了各微網(wǎng)的隱私并提升了求解效率。