李 華,于 瀟
(1.省部共建電工裝備可靠性與智能化國家重點實驗室(河北工業(yè)大學),天津300132;2.河北省電磁場與電器可靠性重點實驗室(河北工業(yè)大學),天津300132)
近年來,國家對分布式發(fā)電的扶持力度不斷加大,屋頂分布式光伏發(fā)電成為了許多家庭的有效選擇。而光電本身的不確定性會造成一定程度的棄光現(xiàn)象,給公共電網(wǎng)的穩(wěn)定運行帶來很大的挑戰(zhàn)[1]。為此,在新能源消納困難的地區(qū)要提高光電的就近消納能力,充分挖掘現(xiàn)有系統(tǒng)的調(diào)峰能力[2]。儲能技術(shù)的引入不僅能夠提升分布式光伏的就地消納能力,還可以提升系統(tǒng)穩(wěn)定性,改善電能質(zhì)量,將系統(tǒng)由“剛性”變?yōu)椤叭嵝浴盵3],[4]。
針對微電網(wǎng)中的能量管理和優(yōu)化控制問題,文獻[5]利用粒子群優(yōu)化算法尋求儲能電站調(diào)度任務的最優(yōu)分配方案,最大限度地降低了調(diào)度成本。文獻[6]提出了一種集成混合整數(shù)線性規(guī)劃、多尺度規(guī)劃和基于優(yōu)先級的模糊隨機規(guī)劃算法,這些算法能夠解決微電網(wǎng)中的許多問題。文獻[7]構(gòu)造了包含蓄電池和儲氫裝置的微電網(wǎng)復合儲能模型,采用DQN(Deep Q Network)算法對微電網(wǎng)系統(tǒng)的能量調(diào)度進行決策優(yōu)化。文獻[8]采用Q學習算法研究了以風儲合作系統(tǒng)長期收益最大化為目標的風儲合作系統(tǒng)參與電力交易的能量調(diào)度優(yōu)化問題,并考慮了申購的備用容量成本。文獻[9]采用強化學習算法,使電源、分布式存儲系統(tǒng)和用戶在互相沒有先驗信息的情況下能夠達到納什均衡。
針對微電網(wǎng)中儲能設備的管理問題,本文以家庭光儲系統(tǒng)的累計經(jīng)濟收益和蓄電池調(diào)節(jié)能力為目標,設計了一種基于深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)的光儲微電網(wǎng)系統(tǒng)能量調(diào)度方法。首先闡述了理論基礎(chǔ)和數(shù)學模型,然后通過歷史數(shù)據(jù)和探索性策略進行網(wǎng)絡參數(shù)的訓練,最后對比和分析了不同獎勵函數(shù)下系統(tǒng)的年收益,驗證了以長期收益最大為目標的小型家庭式光儲系統(tǒng)能量調(diào)度策略的有效性和可行性。
強化學習作為機器學習的一個分支,其原理為智能體在通過與環(huán)境的不斷交互的過程中得到環(huán)境的反饋獎勵,然后根據(jù)反饋獎勵對動作進行評估和改進,以使評估越來越準、采取的動作越來越好。強化學習的理論基礎(chǔ)是馬爾科夫決策過程(Markov Decision Process,MDP),MDP可以用一個五元組(S,A,P,R,γ)來表示,其中,S為狀態(tài)集,A為動作集,P為轉(zhuǎn)移概率,R為獎勵函數(shù),γ為折扣因子。t時刻,在策略π下,智能體根據(jù)當前狀態(tài)st采取動作at,并依據(jù)轉(zhuǎn)移概率p(st+1|st,at)進入到下一個狀態(tài)st+1,同時得到來自環(huán)境的反饋rt。為降低未來反饋對當前的影響,須將γ與回報函數(shù)r相乘來計算累計回報Rt。
強化學習的目標是找到最佳策略π,得到累計回報期望的最大值。為了便于求解,須對某一時刻的狀態(tài)動作進行評估,為此引入了狀態(tài)動作值函數(shù)的概念,表達式如下:
利用基于蒙特卡羅的強化學習方法、基于時間差分的強化學習方法和基于值函數(shù)逼近的強化學習方法,對狀態(tài)動作值函數(shù)進行求解。其中,前兩個方法難以解決狀態(tài)空間和動作空間較大的問題,在基于值函數(shù)的強化學習方法中,DDPG算法在處理高維連續(xù)動作空間問題時有良好的表現(xiàn)。
DDPG是強化學習算法的一個重要里程碑,其中深度神經(jīng)網(wǎng)絡的應用增強了模型的特征提取能力,為強化學習在高維連續(xù)狀態(tài)空間的應用提供了可能。同時,DDPG算法繼承了DQN算法中的經(jīng)驗回放和獨立目標網(wǎng)絡,旨在打破數(shù)據(jù)之間的關(guān)聯(lián)性,降低模型的訓練難度。與DQN算法相比,DDPG算法使用了演員-評論家(Actor-Critic Algorithm,AC)網(wǎng)絡,使動作空間也升級為連續(xù)。DDPG算法更新網(wǎng)絡參數(shù)如式(3)~(7)所示。
DDPG算法避開了傳統(tǒng)啟發(fā)式算法在解決微電網(wǎng)能量管理和調(diào)度上的局限,它不需要研究者制定具體的決策流程和目標函數(shù),代之以動作空間、狀態(tài)空間、獎勵函數(shù)和一定的變量約束就可以將初始網(wǎng)絡訓練成想要的網(wǎng)絡。系統(tǒng)的預測和能量調(diào)度在該算法下可實時進行,電能交易規(guī)則根據(jù)獎勵函數(shù)值實時更新,具有自發(fā)滾動協(xié)調(diào)不同時間尺度的功能。與隨機策略相比,確定性策略對采樣數(shù)量要求低,在處理高維動作空間的問題時計算速度更快。
如圖1所示,家庭光儲一體化模型為源-網(wǎng)-儲-荷的家庭微電網(wǎng)系統(tǒng),包括交直流母線、光伏組件、公共電網(wǎng)、蓄電池、變流器以及由直流負載和交流負載組成的家庭用電負荷,箭頭代表功率流向。其中光伏組件將太陽能轉(zhuǎn)換為電能,供給交流負荷或經(jīng)過變流器將電能轉(zhuǎn)換成直流電供給直流負載或蓄電池。用戶是光儲一體化系統(tǒng)的直接收益者,當光伏發(fā)電量和蓄電池存儲電能不足以供給本地負荷使用時,用戶從公共電網(wǎng)購電;當光伏發(fā)電量或蓄電池存儲電能盈余時,用戶可以選擇出售給電網(wǎng)獲取收益或存儲備用。
圖1 光儲系統(tǒng)合作機制Fig.1 Hybrid system cooperationmechanism
光伏發(fā)電系統(tǒng)的出力模型為
蓄電池的充、放電模型分別為
2.5.1 狀態(tài)空間和動作空間
家庭式光儲系統(tǒng)的狀態(tài)空間s:{m,sbat,Ppv-Pl},其中:m包含24個狀態(tài),代表了從開始到之后24 h每個時段的電價,分別為m(t),m(t+1),…,m(t+23);sbat為蓄電池的剩余電量;Ppv-Pl為光伏發(fā)電系統(tǒng)供給家庭用電負荷后的剩余電量。動作空間A:{pbat},其中:pbat>0蓄電池放電;pbat<0蓄電池充電;pbat=0蓄電池閑置,既不充電也不放電。
2.5.2 獎勵函數(shù)
式中:R為累計收益;M-M'為光儲一體化系統(tǒng)比采用“自發(fā)自用,余電上網(wǎng)”模型的系統(tǒng)多出的盈利額,它保證了系統(tǒng)的累計收益和功率平衡;μ為蓄電池調(diào)節(jié)能力的獎勵系數(shù);C為蓄電池的調(diào)節(jié)能力。
μ反映了蓄電池調(diào)節(jié)能力的重要程度,是系統(tǒng)自身盈利與系統(tǒng)功率波動平衡之間的平衡度量。μ的取值越小,經(jīng)訓練后的模型盈利能力越強;μ的取值越大,經(jīng)訓練后的模型平抑功率波動能力越強。經(jīng)多次實驗分析對比,得到較為理想的μ值,在該μ值下,系統(tǒng)的自身盈利與系統(tǒng)功率波動平衡之間達到博弈均衡。
本實驗中所用的AC網(wǎng)絡架構(gòu)如圖2所示。為了使模型響應不同時間的電價,在Actor網(wǎng)絡中,s1先經(jīng)過兩個卷積池化塊,每個卷積池化塊包含一個卷積核尺寸為15的卷積層和一個尺寸為2的最大池化層,連接層將其與s2連接為一個變量;之后經(jīng)過4個全連接層,其中,前3個全連接層的激活函數(shù)為relu,最后一個全連接層通過
圖2 網(wǎng)絡架構(gòu)圖Fig.2 Network architecture diagram
softsign激活函數(shù)得到動作a。在Critic網(wǎng)絡中,s1先經(jīng)過兩個卷積池化塊,連接層將其與動作a和s2連接成一個變量輸入到一個激活函數(shù)為relu的全連接層中,之后再經(jīng)過一個無激活函數(shù)的全連接層得到Q(s,a)。該網(wǎng)絡的具體訓練步驟如圖3所示。
圖3 DDPG訓練流程圖Fig.3 DDPG training flowchart
表1 日分時電價Table 1 Time-of-use power price
在本文所建立的家庭光儲微電網(wǎng)模型中,采用時間跨度為1 a的實驗數(shù)據(jù)進行了多次實驗,將光伏發(fā)電所需的氣象數(shù)據(jù)、負荷數(shù)據(jù)與分時電價信息作為輸入數(shù)據(jù),蓄電池動作作為輸出數(shù)據(jù)。為使結(jié)果更加清晰直觀,下文將用蓄電池剩余電量、微電網(wǎng)-公共電網(wǎng)聯(lián)絡線上的功率波動和系統(tǒng)年收益加以表示。
圖4為損失值變化趨勢曲線,其中,loss1為C網(wǎng)絡的損失值,loss2為A網(wǎng)絡的損失值。從圖中可以看出,隨著訓練次數(shù)的增加,損失值逐漸接近0,說明訓練效果趨于穩(wěn)定,模型趨于收斂。
圖4 損失值變化趨勢曲線Fig.4 Trend curve of loss value
圖5為截取了時長為1 d的蓄電池剩余電量變化趨勢曲線。從圖中可以看出:當μ=0.1時,經(jīng)訓練后的模型以系統(tǒng)最大年收益為主要目標,高電價時蓄電池迅速放電至容量下限,低電價時蓄電池迅速充電至容量上限,且蓄電池剩余電量達到容量上限和容量下限的狀態(tài)持續(xù)了很長時間,在此期間,蓄電池始終沒有調(diào)節(jié)能力;當μ=0.2時,蓄電池剩余電量停留在容量上限和容量下限的時間變短;當μ=0.3時,蓄電池剩余電量停留在容量上限和容量下限的時間為0,說明在第8小時以外的時段蓄電池均保留了調(diào)節(jié)能力,在第13小時,蓄電池的工況由放電轉(zhuǎn)為充電,說明其具備感知平時段和峰時段之間微小電價差的能力,在后面的峰時段電價到來之際,蓄電池開始放電以套取更多收益;當μ=0.4時,蓄電池剩余電量曲線接近于一條水平直線,說明此時經(jīng)訓練后的模型以蓄電池調(diào)節(jié)能力為主要目標,盈利意愿不明顯。
圖5 蓄電池剩余電量曲線圖Fig.5 Curve of battery remaining power
在實際運行過程中,由于光伏發(fā)電的波動性,光伏系統(tǒng)出力的實際值與預測值存在一定的偏差,這會導致源-儲-荷系統(tǒng)與公共電網(wǎng)間的聯(lián)絡線上的功率波動較大,而有調(diào)節(jié)能力的蓄電池可以在一定程度上平抑聯(lián)絡線上的功率波動,其平抑功率波動能力的強弱取決于獎勵函數(shù)中μ值的大小。圖6為截取了800 h內(nèi),μ分別取0.1,0.2,0.3和0.4時聯(lián)絡線上的功率波動情況。從圖中可以看出,μ的取值越大,聯(lián)絡線上的功率波動越小,說明蓄電池平抑功率波動的能力越強,系統(tǒng)向電網(wǎng)申購備用容量的成本越低。
圖6 聯(lián)絡線上的功率波動曲線Fig.6 Curve of power fluctuations on the Power tie line
表2給出了不同模型下家庭光儲微網(wǎng)系統(tǒng)的年支出與年收益對比,年支出為系統(tǒng)用電成本,年收益為系統(tǒng)利用電價差進行低電價買入電能、高電價賣出電能掙得的額外收益。其中“自發(fā)自用”模型即采用“自發(fā)自用,余電上網(wǎng)”政策的模型。從表中可以看出,在家庭光儲微電網(wǎng)模型中,當μ=0.2和μ=0.3時,系統(tǒng)的年收益較多,且這兩種情況下的系統(tǒng)年收益差別不大。
表2 不同模型下的年支出與年收益Table 2 Annual expenditure and annual income under differentmodels
綜上所述,當μ=0.3時,家庭光儲微電網(wǎng)系統(tǒng)中的蓄電池調(diào)節(jié)能力較強,同時也可以很好地響應電價激勵。說明此時,該模型并沒有以犧牲很多年收益為代價來提高蓄電池對聯(lián)絡線上功率波動的平抑能力,反而維持在較高的年收益水平,同時對電網(wǎng)負荷側(cè)也起到了削峰填谷的作用。
本文將深度強化學習理論引入源-網(wǎng)-儲-荷的家庭光儲一體化微電網(wǎng)系統(tǒng)中,計算系統(tǒng)中蓄電池的充放電功率,其結(jié)果具有很強的自洽性。將DDPG算法應用于家庭光儲微電網(wǎng)系統(tǒng)的能量決策優(yōu)化問題中,有效地改善了系統(tǒng)的靈活性、實時性和經(jīng)濟性,提升了系統(tǒng)平抑功率偏差的能力。