黃飛虎,李沛東
(1.四川中電啟明星信息技術(shù)有限公司,成都 610000;2.四川大學(xué)計算機(jī)學(xué)院,成都 610000)
2015年國家針對電力體制改革發(fā)布了《關(guān)于進(jìn)一步深化電力體制改革的若干意見》[1],該文件體現(xiàn)了國家對電力市場建設(shè)的重視和高瞻遠(yuǎn)矚。文件說明了電力市場建設(shè)的目的,即打破現(xiàn)有的統(tǒng)一定價,通過市場競爭確定電價,充分發(fā)揮發(fā)電側(cè)、售電側(cè)、用電側(cè)各個參與者的積極性,促進(jìn)我國電力系統(tǒng)的發(fā)展。目前我國電力市場建設(shè)還處于初期階段,截至2021年9月,我國已完成了第二批電力現(xiàn)貨試點工作[2]。相比于國外的電力現(xiàn)貨市場發(fā)展,我國的電力市場建設(shè)還有很多工作需要完善。
本文針對發(fā)電商參與電力現(xiàn)貨市場競價的場景,提出了基于多智能體強化學(xué)習(xí)的競價模型,為電力現(xiàn)貨競價的研究人員提供參考。模型中,每個發(fā)電商抽象為一個智能體,具有動作空間和狀態(tài)空間??紤]到競價過程中,每個廠商對其他廠商的競價策略以及市場出清結(jié)果的未知,模型采用了一種分散式學(xué)習(xí)算法,即Wolf-PHC,求解各發(fā)電廠商的最優(yōu)策略。實驗結(jié)果實證了本文模型的有效性。
電力現(xiàn)貨,即現(xiàn)貨市場,是電力市場的組成部分。電力市場中除了電力現(xiàn)貨之外,還包括中長期市場、容量市場、期貨市場以及衍生品市場等[3]?,F(xiàn)貨市場涉及日前、日內(nèi)、實時等短時間的電能交易。實時電能交易主要以小時為單位,主要解決超短期的電能缺乏和阻塞問題?,F(xiàn)有的電力現(xiàn)貨競價策略可以分為三大類,一是基于成本的競價策略,二是基于預(yù)測算法的競價策略,三是基于博弈算法的競價策略。
(1)基于成本的競價策略是一類經(jīng)典的方法。這類方法以經(jīng)濟(jì)學(xué)為基礎(chǔ)分析發(fā)電成本,進(jìn)而完成競價。比如,文獻(xiàn)[4]提出的報價策略主要考慮發(fā)電成本分析與系統(tǒng)邊際電價之間的關(guān)系,其中系統(tǒng)邊際電價通過預(yù)測算法得到。文獻(xiàn)[5]通過分析機(jī)組在不同負(fù)荷下的發(fā)電成本,討論了基于邊際成本的競價策略。
(2)基于預(yù)測算法的競價策略。這類方法首先預(yù)測競爭對手的報價或者市場出清電價,然后作出競價策略。比如,文獻(xiàn)[6]則主要討論單一水電廠參與的競價問題,文中提出了基于市場出清電價預(yù)測的報價策略,策略主要約束條件是可用水量和機(jī)組特性。
(3)基于博弈算法的競價策略。這類方法以博弈論、強化學(xué)習(xí)為基礎(chǔ),實現(xiàn)最優(yōu)競價策略。相比基于預(yù)測的競價策略,這類方法具有更好的效果。博弈過程是參與者在相互作用中尋找最優(yōu)策略的過程,這與電力市場參與者之間的競價過程十分類似。因此,有一些學(xué)者基于博弈論構(gòu)建競價決策方法。比如,文獻(xiàn)[7,8]對風(fēng)光互補發(fā)電系統(tǒng)進(jìn)行了競標(biāo)分析,將其建模為一個多人貝葉斯博弈問題,進(jìn)而提出了基于貝葉斯博弈理論的競價模型。強化學(xué)習(xí)因其扎實的理論基礎(chǔ),在很多應(yīng)用場景(比如推薦系統(tǒng)、智能駕駛等)得到了應(yīng)用。在電力現(xiàn)貨中,也得到了學(xué)者們的廣泛關(guān)注。比如,文獻(xiàn)[9]將電力市場建模為信息有限的場景,提出了基于強化學(xué)習(xí)自動機(jī)的模型。模型中,作者利用重復(fù)博弈建模發(fā)電商與市場的反饋過程。文獻(xiàn)[10]針對中長期電力市場發(fā)電商報價問題,采用A3C算法進(jìn)行了建模仿真,并討論了運營效率。
報價策略算法的任務(wù)是給出合適的報價策略,實現(xiàn)利潤最大化。從任務(wù)特點來說,發(fā)電廠商報價策略需考慮發(fā)電成本、機(jī)組出力等自身情況,推斷日期(或?qū)崟r)市場邊界條件以及競爭對手的報價情況進(jìn)而做出決策。從科學(xué)問題來說,報價任務(wù)可以定義為帶約束條件的優(yōu)化問題,即:
其中,約束條件包括機(jī)組運行特性(比如機(jī)組優(yōu)先電量約束、機(jī)組出力上下限約束、機(jī)組爬坡約束等)、市場邊界條件(比如線路潮流約束、斷面潮流約束、電量空間邊界等)。
本文將各發(fā)電商建模為智能體,電力市場出清建模為環(huán)境,將發(fā)電商報價決策問題轉(zhuǎn)化為一個多智體強化學(xué)習(xí)求解問題,如圖1所示。各發(fā)電商根據(jù)發(fā)電成本、負(fù)荷需求和機(jī)組運行特性等約束條件給出最優(yōu)報價。在交易中心收到所有發(fā)電商的報價之后,結(jié)合網(wǎng)絡(luò)拓?fù)鋮?shù)、潮流約束和負(fù)荷需求等因素進(jìn)行出清,最后將出清結(jié)果反饋給各發(fā)電商。
圖1 模型框架
結(jié)合強化學(xué)習(xí)方法,相關(guān)定義如下。
定義1智能體。用集合G={g1,g2,…,gn}表示,在電力現(xiàn)貨日前市場中,發(fā)電商i為一個智能體(即gi),各智能體之間具有競爭關(guān)系。
定義2動作。用集合A={a1,a2,…,an}表示,本文定義動作ai為發(fā)電商可選擇的第i種報價曲線。
動作ai與發(fā)電商機(jī)組的出力區(qū)間相關(guān),給定發(fā)電商的出力區(qū)間為[Pmin,Pmax],報價區(qū)間數(shù)為d段,則動作ai的報價曲線為:
其中x表示出力,將出力區(qū)間[Pmin,Pmax]均分為d段,k1到kd為出力區(qū)間的分段標(biāo)簽,ci,?表示對應(yīng)區(qū)間的價格,滿足ci,1≤ci,2 定義3狀態(tài)。用集合S={s1,s2,…,s n}表示,本文定義發(fā)電商的出力情況為狀態(tài)。 本文根據(jù)發(fā)電商的出力區(qū)間為[Pmin,Pmax]將狀態(tài)離散化為n個區(qū)間,即S={[Pmin,P1),[P1,P2),…,[Pn-1,Pmax]}。 定義4回報。用r表示,本文定義回報即發(fā)電商報價后可以獲得的收益。ri即智能體i在當(dāng)前狀態(tài)si下選擇動作ai之后獲得的收益。 不同類型的發(fā)電商有不同的發(fā)電成本,但計算方式均與中標(biāo)電量、中標(biāo)價格和成本相關(guān)。 定義5環(huán)境。用E表示,本文定義市場出清為環(huán)境,其決定各發(fā)電商在采取特定動作后的回報。 本文基于安全約束經(jīng)濟(jì)調(diào)度(SCED)進(jìn)行出清,其公式如下: 其中,機(jī)組的總臺數(shù)是N,總時段數(shù)為T,機(jī)組i在時段t的出力用pi,t表示,C i,t(pi,t)為機(jī)組i在時段t的運行費用,是與機(jī)組申報的各段出力區(qū)間和對應(yīng)能量價格有關(guān)的多段線函數(shù);網(wǎng)絡(luò)潮流約束松弛罰因子用M L S表示;M C為機(jī)組優(yōu)先電量約束松弛罰因子。公式中,針對電網(wǎng)安全問題,重點考慮了線路潮流和斷面潮流的約束。首先,線路l在時段t的正、反向潮流松弛變量,即和;然后是斷面s在時段t的正、反向潮流松弛變量,即sls+s,t,s l s-s,t;最后,考慮了機(jī)組i在時段t的機(jī)組優(yōu)先電量松弛變量s l ci,t。 定義6策略。用π表示,其定義了一個特定時刻智能體的行為方式,即發(fā)電商在當(dāng)前出力狀態(tài)下該采取何種報價動作。 定義7狀態(tài)-行為值函數(shù)。用Q表示,該函數(shù)刻畫了智能體在長期狀態(tài)下對于某個狀態(tài)或者行為的偏好。 算法1智能體i的學(xué)習(xí)算法。 初始化: 學(xué)習(xí)率α=(0 ,1],δw∈( 0,1]且δl>δw; 折扣因子γ∈(0,1);探索率ε; 狀態(tài)-行為值函數(shù)Qi(a)=0; 重復(fù): (1)根據(jù)具有某一探索率ε的策略πi(a)選擇報價動作并提交給市場。 (2)觀測直接回報ri。 (3)更新Qt+1i(a),計算公式為: (4)更新策略πti+1(a),計算公式為: 其中, 在實際報價過程中,各發(fā)電廠商不知道其他競爭對手的策略,也不知道市場出清的信息,即回報函數(shù)。因此,本文采用Wolf-PHC算法求解報價最優(yōu)策略。該算法中,各智能體只需知道自身的行為和每次獲得的回報。在算法訓(xùn)練階段,重復(fù)執(zhí)行步驟(1)~(5)直至達(dá)到最大迭代次數(shù)或滿足特定終止條件。當(dāng)算法訓(xùn)練結(jié)束之后,則可以使用算法進(jìn)行實際報價。 實驗中地區(qū)的負(fù)荷數(shù)據(jù),本文采用的數(shù)據(jù)集1數(shù)據(jù)集:https://www.eia.gov/electricity/gridmonitor/dashboard/electric_overview/US48/US48源于美國能源信息署的公開數(shù)據(jù)平臺,本文下載了紐約市2015年7月—2021年4月的數(shù)據(jù)。數(shù)據(jù)間隔時間以小時為單位。訓(xùn)練過程中10天出清為一次迭代,每次迭代結(jié)束后記錄各發(fā)電商10天的收益及所有發(fā)電商10天的總收益。 仿真實現(xiàn)對5節(jié)點3發(fā)電商系統(tǒng)進(jìn)行模擬,每個發(fā)電商擁有一臺火力發(fā)電機(jī)組,驗證指標(biāo)為每次迭代后的各發(fā)電商收益和總收益。設(shè)置的發(fā)電商機(jī)組信息如表1所示。 表1 發(fā)電商機(jī)組信息 每次出清發(fā)電商收益ri的計算公式為: 其中cost=a1(x‘)2+a2(x‘)+a3,x‘為中標(biāo)出力,c‘為中標(biāo)電價,a1,a2和a3分別是成本系數(shù),實驗中其設(shè)置信息如表2所示。 表2 成本系數(shù)設(shè)置 實驗記錄了總體的收益變化過程以及各發(fā)電商的收益變化過程,如圖2和圖3所示。 圖2 總體收益變化 圖3 各智能體收益變化 從實驗結(jié)果來看,各發(fā)電商的收益隨迭代次數(shù)增加,逐漸提高,最后達(dá)到穩(wěn)定狀態(tài)。這表明本文模型求解的最優(yōu)策略能夠使各發(fā)電商收斂到各自的納什均衡狀態(tài)。 此外,表3統(tǒng)計了本文模型與貪心算法、動態(tài)規(guī)劃算法的收斂步數(shù)和收益比較。從實驗結(jié)果來看,本文采用的基于Wolf-PHC求解算法,比動態(tài)規(guī)劃和貪心算法具有更快的收斂速度,而且也能保證整個系統(tǒng)達(dá)到較大的收益。 表3 算法對比 針對電力市場的報價場景,本文提出了基于多智能體的強化學(xué)習(xí)報價策略。特別地,在策略求解時,針對各智能體無法知道對手策略以及回報函數(shù)的情況,提出了采用Wolf-PHC算法的思路。從實驗結(jié)果來看,本文模型是可行的。在未來的工作中,本文作者認(rèn)為應(yīng)該從模型可信性的角度構(gòu)建競價模型。具有可信度高的模型,更容易讓競價操作者接受且認(rèn)可模型給出的策略。從另一方面來說,現(xiàn)貨市場的競價涉及參與方的利益,因此只有可信度高的模型才能廣泛用于輔助決策。2.3 模型訓(xùn)練
3 實驗討論
3.1 參數(shù)設(shè)置
3.2 結(jié)果分析
4 結(jié)語