靳顯智,王 葉,徐 仁,林 霏,邵文藝
齊魯工業(yè)大學(山東省科學院) 電氣工程與自動化學院,山東 濟南 250353
能源互聯(lián)網(wǎng)的理論與技術正處于快速發(fā)展時期,許多相關工作人員對相關工作展開了研究工作[1]。能源互聯(lián)網(wǎng)把先進的通信技術和智能能量調(diào)度技術結(jié)合起來,將信息能源綜合電網(wǎng)、分布式能源等互聯(lián)起來,實現(xiàn)能量點對點交換和共享利用[2]。
針對能源互聯(lián)網(wǎng)中的能量調(diào)度問題,已經(jīng)提出了多種相關的算法。主要有經(jīng)典優(yōu)化方法、基于規(guī)劃的方法、啟發(fā)式算法等,這些算法能夠解決電網(wǎng)中許多問題,但也存在著一定不足[3]。伴隨著人工智能的發(fā)展,強化學習(reinforcement learning,RL)的研究也越來越深入,許多學者開始關注這項技術在電力系統(tǒng)中的應用[4]。在局域微網(wǎng)能量調(diào)度策略中,趙敏等[5]提出了采用非合作博弈研究多微電網(wǎng)交易模式的一般模型及分析方法。將配電網(wǎng)對微電網(wǎng)之間交易的影響以征收服務費用的方式加以考慮,證明了該博弈存在納什均衡,并提出了相應的求解流程。王亞東等[6]利用深度卷積神經(jīng)網(wǎng)絡提取微電網(wǎng)調(diào)度時間序列信息特征,以Q值強化學習機制實現(xiàn)微電網(wǎng)儲能調(diào)度策略。深度強化學習算法已成功應用于微網(wǎng)定價[7]、能源調(diào)度策略[8]中局域微網(wǎng)間能源交易的最優(yōu)解計算。
局域微網(wǎng)的任務要滿足當?shù)乜蛻舻挠秒娦枨?但由于客戶的獨立性,每個客戶都有各自的需求,這些需求發(fā)生在一天當中特定時間段的任意時間。把這些類似的需求歸類為日常生活活動需求(daily needs,DN)。局域微網(wǎng)有能力根據(jù)當前自己的負載自由調(diào)度用戶的DN需求。能源交易對于維護微網(wǎng),提高其穩(wěn)定性具有至關重要的作用。同時微網(wǎng)可以通過在微網(wǎng)和廣域中央電網(wǎng)之間買賣電力來獲取利益。實現(xiàn)利益的最大化是本文的重點,本文提出的動態(tài)定價策略(允許微網(wǎng)根據(jù)當前能量供求關系決定售電價格)與DN調(diào)度協(xié)調(diào)工作對實現(xiàn)利益的最大化具有很大的優(yōu)勢。動態(tài)定價策略鼓勵了微電網(wǎng)進行能量交易,這無疑加強了各個微網(wǎng)之間的合作,通過這種合作,微網(wǎng)能夠盡可能的依靠自身的能力來滿足本地客戶的DN需求,最大程度上減少對中央電網(wǎng)的依賴。
本文通過研究一種基于深度強化學習的新型局域微網(wǎng)能源調(diào)度策略來解決如何應對新型微網(wǎng)能量調(diào)度中存在的問題。通過創(chuàng)建兩個獨立的神經(jīng)網(wǎng)絡(分別用以處理能量調(diào)度和能量交易)更好地分析不同應用場景下的定價模型對于微網(wǎng)能量和調(diào)度定價策略的作用和影響,通過對比不同設置下深度Q學習算法在微網(wǎng)能量調(diào)度中的表現(xiàn),驗證了動態(tài)定價策略相對于固定定價策略在微網(wǎng)能量調(diào)度策略中應用的優(yōu)越性。
在本節(jié)中,將描述實現(xiàn)能源交易和工作計劃的局域微網(wǎng)模型以及提議的算法。如圖1所示,廣域能源互聯(lián)網(wǎng)下存在著N個相互連接且有著電氣交易的局域能源微網(wǎng)[9],這些局域微網(wǎng)不僅建立了電氣連接,還建立了信息連接[10]。同時這些局域微網(wǎng)都具有本地產(chǎn)生可再生能源的能力,并且還具有將能量存儲在電池單元中的功能。我們將一天分為幾個等長的時間段,在每個時間段,局域能源微網(wǎng)都具有本地需求、電池中剩余能量、電網(wǎng)發(fā)電量和一天剩余日常生活活動需求的信息。取決于以上信息,局域能源微網(wǎng)在規(guī)定的時間段做出相關供應調(diào)度決策。接下來對每個局域微網(wǎng)的狀態(tài)、動作以及獎勵進行描述。
圖1 相互連接的局域微網(wǎng)模型
局域能源微網(wǎng)i在時間t的狀態(tài)由式(1)給出:
根據(jù)對微網(wǎng)狀態(tài)的描述,微網(wǎng)動作需要滿足日常生活活動的調(diào)配以及做好電量購買/出售的預算?;谏鲜鲆?局域微網(wǎng)動作由式(3)給出:
接下來每個局域微網(wǎng)根據(jù)自己當前的定位,買方微網(wǎng)根據(jù)自身的要求在賣方微網(wǎng)之間選擇一個報價最低的微網(wǎng)進行交易。如果在微網(wǎng)相互交易過后,仍無法滿足一些微網(wǎng)的需求,則可以向中央電網(wǎng)以pi的價格購買需要的能量。相反,如果買方微網(wǎng)之間的需求已經(jīng)得到滿足,則賣方微網(wǎng)可以將能量以pi—k的價格賣給主電網(wǎng)。
每個局域微網(wǎng)的目的是通過電力交易獲得足夠的利潤,同時滿足區(qū)域內(nèi)用戶日常需求和非日常需求。基于此要求,獎勵函數(shù)由式(4)定義:
λ+β=1。 (4)
為了完成滿足能量需求和能量交易的任務,每個局域微網(wǎng)使用兩個代理,第一個代理叫做DN代理,負責能量需求調(diào)度任務,由它決定在一天中哪個時間步長調(diào)度哪些日常任務,并將信息提供給第二個代理。第二個代理叫做ET代理,負責能量交易任務,它決定購買或者出售的電力單位,設定交易價格。
局域微網(wǎng)基于DN代理和ET代理執(zhí)行動作,兩個代理獲得共同的獎勵或者懲罰。對此只要創(chuàng)建一個 MDP(馬爾可夫決策)模型,該模型對兩個代理的狀態(tài)轉(zhuǎn)換、動作選擇以及獎勵函數(shù)進行建模。使用兩個獨立神經(jīng)網(wǎng)絡結(jié)合深度強化學習算法并且讓他們共享相同的獎勵,而不是讓兩個代理使用一個更加龐大的神經(jīng)網(wǎng)絡網(wǎng)絡,這樣可以更好的探索動作空間,減少獲得最優(yōu)策略的迭代次數(shù)。用于訓練能量調(diào)度模型的算法如表1算法1所示。
表1
DN代理和ET代理具有相同的狀態(tài)空間,DN代理有一個參數(shù)叫做DN狀態(tài),對應的ET代理中存在一個DN操作參數(shù),所以兩者具有相似的經(jīng)驗池。在確定DN代理的動作后,將此作為ET網(wǎng)絡的輸入,接下來便知道在具體的時間段留有相關的能量供應日?;顒?進一步指導ET網(wǎng)絡是購買還是出售電力。因此兩個代理可以通過共享相似的狀態(tài)空間和獎勵進行協(xié)作,同時得到最佳策略。
2.1.1 價格限制
本文限制微網(wǎng)進行能源交易的價格范圍為[CP—k],其中CP是中央電網(wǎng)價格,k為正常數(shù)。如果微網(wǎng)的報價高于中央電網(wǎng),基于前面設置的規(guī)則交易不會發(fā)生,因為這樣的話微網(wǎng)更愿意直接從中央電網(wǎng)進行購買。同時允許微網(wǎng)可以以報價最低價,即以CP—k向中央電網(wǎng)出售電力,這樣可以保證微網(wǎng)更愿意出售能源給微網(wǎng)。
其次是能源交易限制為了更加真實的模擬現(xiàn)實情況,必須要考慮現(xiàn)實世界的物理限制,例如:電池的最大容量、每個微網(wǎng)的最大負荷量等。
2.1.2 能量交易限制
交易電量的下限,由式(5)定義:
每次交易完成后,每個微網(wǎng)電池中剩余的能量量(將微網(wǎng)自身產(chǎn)生的能量、DN需求、非日常需求、交易前電池儲存量考慮在內(nèi))不能大于最大電池容量B,最大電池容量B由式(6)更新:
交易電量的上限,由式(7)定義:
實驗中的局域微網(wǎng)使用風能或太陽能可再生資源作為其發(fā)電能源。前面提到動態(tài)定價模型和固定定價模型。
動態(tài)定價模型(DPP):局域微網(wǎng)自行決定能量交易價格,并且定價低于中央電網(wǎng)的價格。
固定定價模型(CPP):局域微網(wǎng)以中央電網(wǎng)的定價進行能源交易。
本文在兩種情景設置下對比動態(tài)定價模型和固定價格模型,設置如下:
設置1:設置一個簡單的四微網(wǎng)設置,觀察其在固定定價策略和動態(tài)定價策略下的獎勵曲線,由此可體現(xiàn)兩種策略的優(yōu)劣性。
設置2:采用更加實用的10微網(wǎng)設置,在這種設置下,五個微網(wǎng)產(chǎn)生的能量低于其需求,另五個微網(wǎng)產(chǎn)生的能量高于前者,這樣做的目的是為了驗證調(diào)度策略的合理性,考驗電網(wǎng)在匱電狀態(tài)時能不能合理的的安排日常調(diào)度任務。
設置3:在兩種定價模型上采用10微網(wǎng)設置,這樣相對于設置2能產(chǎn)生更多的電量用來交易,由此更能驗證動態(tài)定價策略的優(yōu)越性。
在以上基礎上,將局域微網(wǎng)生成的每小時可再生能源數(shù)據(jù)擬合泊松分布,并在實驗過程中從該分布中采樣可再生能源單位。將可再生能源最大發(fā)電量限制在10個單位,并將一天分成四個步長,每個微網(wǎng)在每個步長進行決策。每個時間步長內(nèi),非日常需求可以是 3、4、5、6 個單位之一,在一天開始的時候最多考慮三個日常需求。電池中可以存儲的最大能量限制為10個單位,所以在單個時間段內(nèi)微網(wǎng)可以購買的最大能量也限制為10個單位。在實驗中規(guī)定固定的中央電網(wǎng)價格CP=20(每單位電力的價格單位)。在前面提到,局域微網(wǎng)對中央電網(wǎng)的售價定為cp—k,在實驗中將k的值取為5,所以動態(tài)定價策略的定價區(qū)間為[15,20]個價格單位。局域微網(wǎng)的DN代理和ET代理均使用具有三層前饋神經(jīng)網(wǎng)絡的模型。
DN網(wǎng)絡和ET網(wǎng)絡均使用三層前饋神經(jīng)網(wǎng)絡,輸入狀態(tài)和輸出動作如上文所述,使用學習速率為0.000 1、β1=0.9、β2=0.9和ε=10-8的Adam優(yōu)化器來更新網(wǎng)絡權重,折扣率γ=0.9。
從圖2可以看出,采用固定定價策略的微網(wǎng)在一開始所獲得的利潤回報要高于動態(tài)定價策略的微網(wǎng),但是隨著迭代次數(shù)的增加,動態(tài)定價策略所具有的優(yōu)勢逐漸顯現(xiàn)出來。這是因為采用動態(tài)定價策略的微網(wǎng)能源銷售價格適中低于固定定價策略的微網(wǎng),而微網(wǎng)更傾向于從報價更低的微網(wǎng)進行購買,所以采取動態(tài)定價策略的微網(wǎng)在大多數(shù)情況下都能成功的將電力出售,而采取固定定價策略的微網(wǎng)只能以cp—k的價格(低于動態(tài)定價策略出售的價錢)出售給中央電網(wǎng),所以利潤要低。另外,相比傳統(tǒng)的隨機優(yōu)化探索方法[11],可以看出提出的基于深度強化學習的新型局域微網(wǎng)能源調(diào)度算法有著在能量調(diào)度有著明顯的優(yōu)勢。
圖2 四微網(wǎng)設置在三種定價策略下獲得的平均利潤走勢
在表2中,展示了四微網(wǎng)系統(tǒng)模型在4個時間步長對DN需求的調(diào)度狀況,為了能夠更好的顯示出提出調(diào)度策略的合理性,在系統(tǒng)模型收斂前抽取了12次(對應表2前12次)迭代結(jié)果,收斂后抽取了8次(對應表2后8次)迭代結(jié)果進行分析,表2中D1、D2、D3代表著需要完成的DN需求動作,表中的空格部分表示在該時間步長沒有安排任務執(zhí)行。通過表2可以看出看出代理學會了在不同的時間安排DN需求,這表明本文所提出的微網(wǎng)能量調(diào)度模型可以把負載動作從高峰需求轉(zhuǎn)移到其他時間步長執(zhí)行,以減輕負載壓力。同時通過對比兩個微網(wǎng)對三個DN需求任務調(diào)度狀況,可以看出兩個微網(wǎng)代理在不同的時間步長頻繁的選擇某個DN動作,這表明它們DN代理的策略已基本趨于一致。
表2 四微網(wǎng)動態(tài)定價策略下不同時間步長的DL調(diào)度情況
圖3中橫坐標是指系統(tǒng)模型收斂后的迭代次數(shù),縱坐標是指模型迭代100次選擇價格的平均數(shù)。通過圖3可以看出,在系統(tǒng)模型收斂了后的多次迭代中,系統(tǒng)選擇的價格并不像固定定價策略一直選擇售價20,而是選擇了在一個合理的價格區(qū)間變化,曲線的波動體現(xiàn)了系統(tǒng)能根據(jù)實時情況選擇最合適的價格來獲得最大利益,由此代理學會了合理的安排定價,也進一步證明了提出的動態(tài)定價策略的優(yōu)越性。
圖3 四微網(wǎng)動態(tài)定價策略采取的定價
在圖4中,整理了設置2下動態(tài)定價和恒定定價策略在最近的50 000次迭代(收斂后)中獲得的平均回報。五個微網(wǎng)產(chǎn)生的能量低于其需求,另五個微網(wǎng)產(chǎn)生的能量高于前者,通過圖4分析發(fā)現(xiàn),電網(wǎng)并沒有受到太多的懲罰,建議的動態(tài)定價模型對于大多數(shù)微網(wǎng)(十分之七)的恒定定價模型表現(xiàn)更好,說明了調(diào)度策略的合理性,電網(wǎng)在面對匱電的狀態(tài)時仍能夠合理的安排調(diào)度任務,由此驗證了系統(tǒng)調(diào)度模型的合理性。
圖4 設置2和3迭代中兩種定價策略獲得獎勵的差異
通過圖4可以觀察到,微網(wǎng)在設置3中比在設置2中獲得更好的獎勵(設置3中的獎勵差異高于設置2)。將其歸因于這樣一個事實,即與設置2相比,大多數(shù)微網(wǎng)在設置3中產(chǎn)生的能量更高,這使它們能夠出售更多的能量。此外,動態(tài)定價的效果在它們開始產(chǎn)生更多的權力時就變得更加突出,正如它們的動態(tài)定價獎勵和恒定定價獎勵之間的差異所注意到的。
從以上三種設置中可以看出,遵循動態(tài)定價策略的代理商通常比固定定價模型表現(xiàn)更好。此外還表明,除了動態(tài)定價外,微網(wǎng)還學會了智能地調(diào)度DN需求,從而將能耗從峰值需求轉(zhuǎn)移到其他地方。
本文研究了深度強化學習算法在局域微網(wǎng)能量調(diào)度中的應用,提出了一種可以進行能量交易、工作安排和動態(tài)定價的局域微網(wǎng)。為了解決此問題,為每個微網(wǎng)設計了兩個網(wǎng)絡模型(DN網(wǎng)絡和ET網(wǎng)絡),他們可以同時執(zhí)行動態(tài)定價和需求調(diào)度。本文首先通過設置的四電網(wǎng)模型,經(jīng)過觀察觀察其在固定定價策略和動態(tài)定價策略下的獎勵曲線,驗證了所提出調(diào)度策略算法的合理性。為了進一步驗證調(diào)度策略的調(diào)度能力和促進電網(wǎng)之間的交流,在設置二中采用了十電網(wǎng)案例并模擬了匱電場景,結(jié)果表明電網(wǎng)在面對匱電的狀態(tài)時仍能夠合理的安排調(diào)度任務。最后為了更加貼合現(xiàn)實場景,在設置三中增加了電能產(chǎn)量,結(jié)果表明,提出的系統(tǒng)模型能夠在滿足用戶需求的同時獲得最大的獎勵。