溫可瑞,李衛(wèi)東,孫 喬,巴 宇,王海霞
(1. 大連理工大學(xué)電氣工程學(xué)院,遼寧省大連市 116024;2. 國網(wǎng)遼寧省電力有限公司大連供電公司,遼寧省大連市 116001)
隨著電力市場機(jī)制的建立健全以及儲(chǔ)能技術(shù)性能的快速提升,用戶側(cè)分布式儲(chǔ)能(distributed energy storage,DES)的并網(wǎng)裝機(jī)規(guī)模顯著增長[1-3]。若考慮在電價(jià)響應(yīng)的基礎(chǔ)上,以聚合商模式整合匯聚容量較小、分散布局的用戶側(cè)DES 參與一次調(diào)頻(primary frequency regulation,PFR)輔助服務(wù)[4-6],有利于挖掘其潛在的技術(shù)經(jīng)濟(jì)價(jià)值[7]。但隨著DES應(yīng)用目標(biāo)拓展,其運(yùn)行控制過程愈發(fā)復(fù)雜。
聚合商在日前參與PFR 市場投標(biāo)并確定出清結(jié)果后,日內(nèi)需要優(yōu)化決策各時(shí)段DES 的功率基線及PFR 備用功率,在保障頻率響應(yīng)能力的同時(shí)最大化整體經(jīng)濟(jì)效益[8-9]。然而,由于負(fù)荷、電價(jià)及頻率信息具有不確定性,當(dāng)前決策結(jié)果對(duì)后續(xù)過程的技術(shù)經(jīng)濟(jì)影響難以精準(zhǔn)辨識(shí),從而給日內(nèi)優(yōu)化運(yùn)行帶來了挑戰(zhàn)[10]。因此,亟須對(duì)不確定信息下用戶側(cè)DES 的日內(nèi)運(yùn)行策略進(jìn)行合理設(shè)計(jì)。
近 年 來,基 于 在 線 凸 規(guī) 劃[11-12]、Lyapunov 優(yōu)化[13]和在線直接前瞻(direct lookahead,DLA)[14-15](亦稱模型預(yù)測控制)的日內(nèi)運(yùn)行策略相繼被提出。其中,在線凸規(guī)劃將目標(biāo)函數(shù)表示為決策變量的凸函數(shù),通過在線求解凸規(guī)劃問題獲取實(shí)時(shí)決策。Lyapunov 優(yōu)化通過建立Lyapunov 函數(shù)并最小化其偏移量,在兼顧系統(tǒng)穩(wěn)定性的前提下開展運(yùn)行優(yōu)化決策。上述方法均不依賴未來預(yù)測信息,且不強(qiáng)調(diào)決策過程的全局最優(yōu)解,而是在長時(shí)間視角下確保系統(tǒng)處于滿意的運(yùn)行狀態(tài)。
相比于以上方法,DLA 基于滾動(dòng)更新的超短期預(yù)測數(shù)據(jù)獲取實(shí)時(shí)決策,雖然能夠滿足調(diào)頻性能及求解時(shí)限要求,但其局部優(yōu)化特征難以覆蓋全局運(yùn)行效益[16]。為了克服DLA 局部時(shí)域的不足,可以考慮隨機(jī)前瞻(stochastic lookahead,SLA)策略[17-18]。SLA 策略充分結(jié)合日前及日內(nèi)預(yù)測信息,在線求解兩階段隨機(jī)規(guī)劃模型,計(jì)及隨機(jī)階段可擴(kuò)展優(yōu)化時(shí)域、提升運(yùn)行效益,但會(huì)導(dǎo)致求解規(guī)模急劇增長、運(yùn)算開銷激增。因此,如何有效兼顧全局優(yōu)化性能與在線運(yùn)算開銷仍是當(dāng)前策略設(shè)計(jì)的難點(diǎn)。此外,已有研究中通常依據(jù)PFR 備用容量保守設(shè)置荷電狀態(tài)(state of charge,SOC)約束[14,19],盡管能夠保障DES 的頻率調(diào)節(jié)裕度,但亦造成電量空間資源浪費(fèi)。
鑒于上述不足,本文將日內(nèi)運(yùn)行問題構(gòu)建為恰當(dāng)考慮PFR 性能約束的馬爾可夫決策過程(Markov decision process,MDP),進(jìn)而提出一種“前瞻 - 值 函 數(shù) 近 似(lookahead-value function approximation,LVFA)”混合運(yùn)行策略。結(jié)合滾動(dòng)更新的預(yù)測信息以及離線訓(xùn)練的長期時(shí)域近似效益函數(shù),通過在線求解兩階段近似動(dòng)態(tài)規(guī)劃(twostage approximate dynamic programming,TSADP)模型以獲取各時(shí)段的近似最優(yōu)決策。通過算例分析對(duì)所提策略的離線訓(xùn)練效果及日內(nèi)運(yùn)行性能進(jìn)行了驗(yàn)證。
目前,多數(shù)電力發(fā)達(dá)的國家和地區(qū)建立了相對(duì)完善的電力市場體系,不同市場架構(gòu)及交易模式有所差異。用戶側(cè)的典型電價(jià)機(jī)制包括尖峰電價(jià)、分時(shí)電價(jià)和實(shí)時(shí)電價(jià),本文即在波動(dòng)較大的實(shí)時(shí)電價(jià)模式下開展研究。此外,PFR 服務(wù)正處于發(fā)展階段,不同市場環(huán)境下的PFR 規(guī)則有所區(qū)別,相關(guān)機(jī)制的共性特征[20-21]可歸納如下。
1)投標(biāo)要求:PFR 供應(yīng)商的投標(biāo)容量應(yīng)滿足市場規(guī)定的最低投標(biāo)容量限制。
2)技術(shù)響應(yīng):采用下垂控制,即自動(dòng)線性響應(yīng)本地頻率偏差提供實(shí)時(shí)調(diào)頻功率。
3)補(bǔ)償收益:供應(yīng)商依據(jù)出清價(jià)格、中標(biāo)容量與服務(wù)時(shí)長三者的乘積獲取補(bǔ)償收益。
4)失效懲罰:供應(yīng)商提供PFR 服務(wù)的失效率應(yīng)低于最大允許值,否則依據(jù)調(diào)頻效果進(jìn)行懲罰。為了規(guī)避調(diào)頻失效帶來的懲罰風(fēng)險(xiǎn),供應(yīng)商通常會(huì)嚴(yán)格限制自身的PFR 失效率。
基于上述市場機(jī)制,聚合商通過集中協(xié)調(diào)用戶側(cè)DES,在響應(yīng)實(shí)時(shí)電價(jià)的基礎(chǔ)上參與PFR 服務(wù),按照時(shí)間維度可劃分為日前投標(biāo)、日內(nèi)運(yùn)行及實(shí)時(shí)控制3 個(gè)環(huán)節(jié),基本流程如圖1 所示。
圖1 用戶側(cè)DES 提供雙重服務(wù)的基本流程Fig.1 Basic flowchart of dual services provided by user-side DES
在上述流程中,日內(nèi)優(yōu)化運(yùn)行屬于承上啟下的關(guān)鍵環(huán)節(jié),優(yōu)化決策結(jié)果對(duì)于DES 的技術(shù)經(jīng)濟(jì)效益影響顯著。因此,本文在市場出清完成,即已知聚合商PFR 中標(biāo)容量及出清價(jià)格后,針對(duì)日內(nèi)運(yùn)行過程中各時(shí)段動(dòng)態(tài)優(yōu)化決策問題開展研究。
日內(nèi)運(yùn)行問題的核心是通過優(yōu)化各時(shí)段各單元DES 的功率基線及PFR 備用功率,在保障PFR 響應(yīng)能力的同時(shí),最大化所轄全部DES 的經(jīng)濟(jì)效益。由于負(fù)荷、電價(jià)及頻率信息具有不確定性,需要結(jié)合獲取的信息開展動(dòng)態(tài)優(yōu)化決策。換而言之,日內(nèi)運(yùn)行屬于不確定環(huán)境下的序貫決策過程。
為了對(duì)上述問題特征進(jìn)行建模,本文將其描述為MDP 模型。MDP 作為隨機(jī)序貫決策問題的通用模型[22],通過對(duì)運(yùn)行時(shí)域的離散化處理和對(duì)狀態(tài)、決策變量、外部信息、轉(zhuǎn)移函數(shù)以及目標(biāo)函數(shù)等要素的刻畫,能夠反映不確定環(huán)境下動(dòng)態(tài)決策過程的時(shí)序演進(jìn)、狀態(tài)轉(zhuǎn)移及效益累積等特征。
將聚合商協(xié)調(diào)的DES 劃分為I個(gè)單元,并定義單 元 集 合Iset={1,2,…,i,…,I}。以Δt為 時(shí) 間 粒度,對(duì)日內(nèi)運(yùn)行的時(shí)域范圍T進(jìn)行離散化處理,并定義時(shí)刻集合Tset={0,Δt,2Δt,…,t,…,T}。
1.2.1 狀態(tài)變量
為了表征日內(nèi)運(yùn)行過程中各單元DES 當(dāng)前的狀態(tài)以及全部必要的環(huán)境信息,在MDP 框架下采用狀態(tài)變量對(duì)其進(jìn)行建模。本文狀態(tài)變量St為:
1.2.2 決策變量
在決策過程中應(yīng)嚴(yán)格滿足如下約束條件。
1)有功功率平衡約束
由圖1 可知,聚合商所轄全部負(fù)荷、DES 與電網(wǎng)的實(shí)時(shí)交互功率滿足有功功率平衡。選取自電網(wǎng)注入功率的方向作為正方向,則有:
式中:Λ{z}為條件指示函數(shù),當(dāng)z為真時(shí),函數(shù)值取1,反之取0;Δfmax為線性響應(yīng)的最大頻率偏差。
2)PFR 中標(biāo)容量約束
為了規(guī)避調(diào)頻失效帶來的懲罰風(fēng)險(xiǎn),本文要求聚合商嚴(yán)格保障PFR 可靠性。整體而言,各單元PFR 備用功率之和應(yīng)滿足中標(biāo)容量值,即
式中:PPFR為聚合商在PFR 市場的中標(biāo)容量。
13.對(duì)于經(jīng)產(chǎn)母豬的誘導(dǎo)發(fā)情,斷奶后7 d內(nèi),肌注“氯前列烯醇(PG)”0.2 ml,再肌注“孕馬血清(PMSG)”1 000單位。
3)考慮PFR 的單元功率約束
各單元DES 的功率基線與PFR 備用功率之和應(yīng)限制在額定功率上下限范圍內(nèi),表示為:
4)考慮PFR 的單元SOC 約束
1.2.3 外部信息
外部信息用于對(duì)日內(nèi)運(yùn)行過程中不確定信息預(yù)測值與真實(shí)值的誤差建模,其可表示為:
基于以上定義,日內(nèi)運(yùn)行過程可以用時(shí)序演進(jìn)的狀態(tài)、決策及外部信息描述,其軌跡可表示為:
1.2.4 轉(zhuǎn)移函數(shù)
轉(zhuǎn)移函數(shù)是指系統(tǒng)根據(jù)決策xt及外部信息Wt+Δt,由 當(dāng) 前 狀 態(tài)St轉(zhuǎn) 移 到 下 一 時(shí) 刻 狀 態(tài)St+Δt的過程。本文可定義轉(zhuǎn)移函數(shù)為:
式中:SM(·)為轉(zhuǎn)移函數(shù),包括各狀態(tài)變量的動(dòng)態(tài)轉(zhuǎn)移,具體可分為儲(chǔ)能SOC 和環(huán)境信息的轉(zhuǎn)移過程。
1)儲(chǔ)能SOC 的轉(zhuǎn)移過程
伴隨日內(nèi)充放電過程,各單元DES 從t時(shí)刻至t+Δt時(shí)刻的SOC 動(dòng)態(tài)轉(zhuǎn)移可描述為:
2)環(huán)境信息的轉(zhuǎn)移過程
電價(jià)、負(fù)荷及頻率偏差的動(dòng)態(tài)轉(zhuǎn)移均屬于狀態(tài)獨(dú)立的信息過程??紤]到信息的預(yù)測值與真實(shí)值之間的誤差量,轉(zhuǎn)移過程可表示為:
1.2.5 目標(biāo)函數(shù)
對(duì)于用戶側(cè)DES 提供雙重服務(wù)的日內(nèi)運(yùn)行問題,其目標(biāo)是在滿足相關(guān)約束條件下使各時(shí)段累計(jì)期望凈效益最大化。目標(biāo)函數(shù)F*可表示為:
式 中:E(·|·)為 求 條 件 期 望 值 函 數(shù);Ct(St,xt)為t時(shí)段的凈效益函數(shù),既包括響應(yīng)電價(jià)所降低的購電成本、提供PFR 服務(wù)的補(bǔ)償收益,也要計(jì)及運(yùn)行維護(hù)成本。
單個(gè)運(yùn)行時(shí)段的凈效益Ct可表示為:
日內(nèi)MDP 模型從整體上明確了相關(guān)變量及動(dòng)態(tài)轉(zhuǎn)移過程,具體到實(shí)時(shí)優(yōu)化問題:假設(shè)當(dāng)前時(shí)刻為tc,按照滾動(dòng)更新預(yù)測的時(shí)域范圍將后續(xù)時(shí)域劃分為兩階段,即短期時(shí)域和長期時(shí)域。
定義1:短期時(shí)域表示當(dāng)前時(shí)刻tc至未來時(shí)刻tf=tc+HΔt之間的滾動(dòng)更新預(yù)測時(shí)域。在短期時(shí)域范圍HΔt內(nèi),電價(jià)及負(fù)荷的滾動(dòng)更新預(yù)測精度明顯高于日前預(yù)測結(jié)果。
定義2:長期時(shí)域表示未來時(shí)刻tf至日運(yùn)行終止時(shí)刻T之間的時(shí)域范圍。對(duì)于該時(shí)域范圍,已知電價(jià)及負(fù)荷日前預(yù)測及其誤差分布信息。
盡管相應(yīng)模型的復(fù)雜度較低,適于在線優(yōu)化求解,但其局部優(yōu)化時(shí)域難以保證全局運(yùn)行效益??紤]到上述不足,SLA 策略通過綜合利用日前及日內(nèi)預(yù)測信息,構(gòu)建當(dāng)前時(shí)刻tc至終止時(shí)刻T的兩階段隨機(jī)規(guī)劃模型,表示為:
式中:Ω為樣本路徑集合;ω為隨機(jī)抽取的樣本路徑;p(ω)為樣本路徑ω出現(xiàn)的概率;xt(ω)為樣本路徑ω的決策變量;St(ω)為樣本路徑ω下t時(shí)刻的狀態(tài)變量。SLA 能夠?qū)崿F(xiàn)全局優(yōu)化效果,但過多的樣本路徑會(huì)增大問題規(guī)模,致使在線運(yùn)算開銷大幅增加。
綜上,現(xiàn)有策略面臨的核心問題是難以兼顧全局優(yōu)化性能與在線運(yùn)算開銷。為此,本文考慮采用“離線計(jì)算-在線應(yīng)用”模式:離線階段計(jì)算各時(shí)段狀態(tài)下的長期時(shí)域期望效益;在線階段直接調(diào)用相應(yīng)的長期效益函數(shù),從而構(gòu)建實(shí)時(shí)兩階段優(yōu)化模型進(jìn)行決策,其基本原理如圖2 所示。一般而言,基于Bellman 原理可將日內(nèi)運(yùn)行問題解耦為多個(gè)單時(shí)段子問題,運(yùn)用動(dòng)態(tài)規(guī)劃逆序遞歸,即可離線計(jì)算各時(shí)段狀態(tài)下運(yùn)行至最終時(shí)刻的期望效益。定義最優(yōu)值函數(shù)V*t(St)表示t時(shí)刻狀態(tài)St至最終時(shí)刻T的累積期望效益。運(yùn)用Bellman 方程可將目標(biāo)函數(shù)式(17)遞歸表示為:
圖2 長期期望效益的“離線計(jì)算-在線應(yīng)用”模式Fig.2 “Offline calculation-online application”mode for long-term expected benefit
然而,動(dòng)態(tài)規(guī)劃求解式(21)需要遍歷全部可行狀 態(tài) 的 條 件 期 望E(V*t+Δt(St+Δt)|St,xt)。受 制 于DES 狀態(tài)及決策空間離散規(guī)模激增所引發(fā)的“維數(shù)災(zāi)”,直接求取全部期望效益存在計(jì)算障礙。
為了在離線階段計(jì)算長期期望效益,引入近似動(dòng)態(tài)規(guī)劃框架下的值函數(shù)近似思想。首先,選取恰當(dāng)類型的值函數(shù)近似表征各時(shí)段狀態(tài)下的長期期望效益;然后,采用合適的算法對(duì)值函數(shù)進(jìn)行迭代訓(xùn)練,使之逐漸逼近真實(shí)期望效益,有效規(guī)避遍歷計(jì)算的“維數(shù)災(zāi)”。值函數(shù)近似的關(guān)鍵在于:1)選取何種類型函數(shù)實(shí)現(xiàn)長期效益近似;2)如何對(duì)近似效益函數(shù)開展離線訓(xùn)練。
長期效益函數(shù)的近似形式及離線訓(xùn)練將在第3章進(jìn)行詳細(xì)敘述。通過離線計(jì)算過程可以得到各時(shí)段對(duì)應(yīng)的長期效益函數(shù)Vˉtf(Stf)為:
結(jié)合滾動(dòng)更新預(yù)測信息及離線近似的長期效益函數(shù),構(gòu)建當(dāng)前時(shí)刻tc的TSADP 模型,即
相較于DLA 策略所構(gòu)建的短期時(shí)域優(yōu)化模型,TSADP 模型能夠計(jì)及決策對(duì)長期時(shí)域范圍的影響,即考慮全局優(yōu)化效果。而相較于SLA 策略采用隨機(jī)抽樣方法對(duì)長期時(shí)域進(jìn)行建模,TSADP 模型直接調(diào)用離線近似的長期效益函數(shù),有效緩解在線優(yōu)化模型的復(fù)雜度,繼而降低在線運(yùn)算開銷。
基于實(shí)時(shí)TSADP 優(yōu)化模型,日內(nèi)運(yùn)行策略可以歸納為混合前瞻以及值函數(shù)近似的策略類型,即LVFA 策略,其原理圖如圖3 所示。該策略主要由離線階段和在線階段兩部分組成。
圖3 基于TSADP 的LVFA 運(yùn)行策略Fig.3 TSADP based LVFA operation strategy
離線階段:基于日前電價(jià)、負(fù)荷預(yù)測信息及歷史頻率數(shù)據(jù)生成訓(xùn)練場景,并選取恰當(dāng)類型的近似值函數(shù)及訓(xùn)練算法,離線計(jì)算各時(shí)段的近似效益函數(shù),以供在線階段的滾動(dòng)優(yōu)化模型調(diào)用。
在線階段:按照時(shí)間尺度劃分為15 min 滾動(dòng)時(shí)域優(yōu)化和秒級(jí)自動(dòng)響應(yīng)2 個(gè)功能環(huán)節(jié)。首先,結(jié)合日內(nèi)電價(jià)和負(fù)荷的滾動(dòng)更新預(yù)測信息、PFR 等效需求系數(shù)以及離線計(jì)算的長期效益函數(shù),在線滾動(dòng)時(shí)域求解TSADP 優(yōu)化模型,即可動(dòng)態(tài)地獲取當(dāng)前15 min 時(shí)段各單元DES 的功率基線值及PFR 備用功率。進(jìn)一步,各單元DES 依據(jù)當(dāng)前時(shí)段的備用功率自動(dòng)線性響應(yīng)頻率偏差,并通過疊加功率基線值以確定15 min 內(nèi)秒級(jí)實(shí)時(shí)控制功率。
所提策略的在線算法流程詳見附錄B 圖B1,各單元DES 實(shí)時(shí)控制的邏輯結(jié)構(gòu)見附錄B 圖B2。
對(duì)于所提日內(nèi)運(yùn)行策略,其性能優(yōu)劣的關(guān)鍵在于長期效益函數(shù)的離線計(jì)算效果。在3.1 節(jié)選取了決策后狀態(tài)的可分分段線性函數(shù)(piecewise linear function,PLF)作為長期效益函數(shù)的近似形式,將Bellman 方程近似轉(zhuǎn)化,進(jìn)而在3.2 節(jié)采用TD(1)差分學(xué)習(xí)算法對(duì)近似效益函數(shù)離線訓(xùn)練。
通過向前遞歸Bellman 方程的ADP 公式,使得標(biāo)準(zhǔn)動(dòng)態(tài)規(guī)劃逆序計(jì)算全部條件期望的原始問題轉(zhuǎn)化為正向訓(xùn)練PLF 分段斜率問題,從根本上降低了遍歷求取期望效益面臨的計(jì)算障礙。
鑒于標(biāo)準(zhǔn)近似值迭代算法收斂緩慢,本文采用TD(1)算法對(duì)近似值函數(shù)開展離線訓(xùn)練。TD(1)算法是結(jié)合正向模擬及逆向更新的雙向算法,其采用折扣因子λ=1 的時(shí)間差分學(xué)習(xí)過程加速PLF 斜率更新。首先,基于隨機(jī)抽取的樣本路徑正向模擬序貫決策過程,沿樣本路徑向前遞歸求解式(28)得到各時(shí)段最優(yōu)決策,從而計(jì)算各時(shí)段的邊際貢獻(xiàn)及邊際流。然后,運(yùn)用正向模擬所得邊際貢獻(xiàn)及邊際流,在逆向更新時(shí)計(jì)算各時(shí)段的斜率抽樣觀察值,據(jù)此采用隨機(jī)梯度下降法對(duì)PLF 斜率進(jìn)行更新。TD(1)算法的具體步驟及流程詳見附錄C。
需要指出的是,隨機(jī)對(duì)偶動(dòng)態(tài)規(guī)劃(stochastic dual dynamic programming,SDDP)算法與TD(1)算法類似,都屬于緩解動(dòng)態(tài)規(guī)劃“維數(shù)災(zāi)”的可行方法,通過構(gòu)造近似值函數(shù)并采用前后向迭代收斂至最優(yōu)解。文獻(xiàn)[26]對(duì)2 種方法從原理結(jié)構(gòu)及運(yùn)算性能方面進(jìn)行了詳細(xì)對(duì)比,結(jié)果發(fā)現(xiàn)隨著資源維數(shù)的增長,SDDP 算法迭代收斂過程逐漸放緩,而TD(1)算法仍具有良好的迭代收斂效果??紤]到上述方法的運(yùn)算性能差異,本文采用TD(1)算法對(duì)近似值函數(shù)迭代訓(xùn)練。
為了對(duì)所提策略的性能量化評(píng)估,分別從離線訓(xùn)練效果和日內(nèi)運(yùn)行性能兩方面進(jìn)行分析。策略性能評(píng)估的具體流程及指標(biāo)如附錄D 圖D1 所示。
1)離線訓(xùn)練效果評(píng)估
根據(jù)日前電價(jià)、負(fù)荷的預(yù)測數(shù)據(jù)及其誤差分布、歷史頻率信息,生成R組訓(xùn)練場景以及Q組測試場景?;谏鲜鯮組訓(xùn)練場景開展離線迭代訓(xùn)練,運(yùn)用第n次迭代訓(xùn)練更新的PLF 計(jì)算Q組測試場景的平均運(yùn)行效益Fˉn,以此可視化迭代訓(xùn)練過程。進(jìn)一步,定義了評(píng)估離線訓(xùn)練效果的收斂率指標(biāo)ε,經(jīng)過n次迭代訓(xùn)練后的收斂率可表示為:
式中:Fq,n為運(yùn)用第n次迭代所得PLF 計(jì)算的測試場景q的運(yùn)行效益;Fq,*為場景q的理論最優(yōu)運(yùn)行效益,其通過混合整數(shù)線性規(guī)劃求得。
2)日內(nèi)運(yùn)行性能評(píng)估
對(duì)于日內(nèi)運(yùn)行性能的評(píng)估,分別需要從優(yōu)化運(yùn)算效果以及PFR 響應(yīng)性能兩方面進(jìn)行分析。
通過模擬日內(nèi)運(yùn)行過程,依據(jù)其經(jīng)濟(jì)指標(biāo)(日運(yùn)行經(jīng)濟(jì)效益F、經(jīng)濟(jì)效益偏差率ζ)及運(yùn)算指標(biāo)(決策變量數(shù)Ns、求解時(shí)間Ts)量化評(píng)估優(yōu)化運(yùn)算效果。其中,經(jīng)濟(jì)效益偏差率是指日運(yùn)行效益實(shí)際值F與理論最優(yōu)值F*之間的偏差,即
關(guān)于PFR 響應(yīng)性能的評(píng)估,首先需要驗(yàn)證各時(shí)段各調(diào)頻單元備用功率Pf,sett之和是否滿足中標(biāo)容量PPFR,進(jìn)一步辨識(shí)各調(diào)頻單元的PFR 動(dòng)態(tài)響應(yīng)能力。此外,對(duì)計(jì)及等效需求系數(shù)的經(jīng)濟(jì)效益F及容量利用率Ue進(jìn)行量化分析,其中容量利用率是指SOC 實(shí)際運(yùn)行范圍占可用空間的百分比。
為驗(yàn)證所提策略的實(shí)際性能,以整合協(xié)調(diào)6 個(gè)單元DES 的聚合商為例開展仿真分析??紤]到不同儲(chǔ)能的技術(shù)性能及商業(yè)化程度,各單元DES 均采用鋰電池。所轄各單元DES 的額定功率、可用容量、充放電效率以及運(yùn)行維護(hù)成本等參數(shù)見附錄D表D1。日前PFR 市場出清后,實(shí)際中標(biāo)容量為2.0 MW,出清價(jià)格cf=16.53 美元/(MW·h)[19]。
基于日前電價(jià)、負(fù)荷的預(yù)測數(shù)據(jù)及其高斯分布誤差,運(yùn)用Monte-Carlo 模擬生成2 000 個(gè)訓(xùn)練場景及10 個(gè)測試場景,并從歷史頻率數(shù)據(jù)中以日為周期篩選相應(yīng)規(guī)模的頻率訓(xùn)練與測試場景。離線訓(xùn)練的最大迭代次數(shù)為2 500,各分段初始斜率均設(shè)置為零。由于harmonic 步長規(guī)則中的參數(shù)a以及隨機(jī)信息的聚合水平h均會(huì)對(duì)訓(xùn)練過程的收斂性產(chǎn)生影響,本文采用控制變量法進(jìn)行迭代訓(xùn)練,不同參數(shù)取值下的迭代過程及收斂結(jié)果如附錄E 圖E1 所示。由圖E1 可知,在2 500 次迭代范圍內(nèi),步長參數(shù)a與聚合水平h對(duì)迭代訓(xùn)練的收斂性影響顯著。當(dāng)取a= 1 500 且h=1 時(shí),離線訓(xùn)練能夠?qū)崿F(xiàn)較好的收斂效果,相較于平均最優(yōu)效益的收斂率高達(dá)98.37%。經(jīng)過2 500 次離線迭代的運(yùn)算耗時(shí)為3 305.6 s,單次迭代的平均計(jì)算開銷為1.322 s。事實(shí)上,上述迭代過程仍存在1.63%的收斂偏差,其原因主要在于:隨機(jī)信息的分層聚合策略難以做到精準(zhǔn)的“狀態(tài)-決策”映射,且差分學(xué)習(xí)算法的逆序更新采用隨機(jī)梯度下降思想,對(duì)梯度估計(jì)的固有方差會(huì)阻礙進(jìn)一步收斂。
為了驗(yàn)證所提LVFA 策略的日內(nèi)運(yùn)算效果,將之與DLA、SLA 策略的運(yùn)算結(jié)果進(jìn)行比較。不同策略的經(jīng)濟(jì)指標(biāo)及運(yùn)算指標(biāo)結(jié)果如圖4 所示。其中,變量數(shù)及求解時(shí)間是指日運(yùn)行時(shí)域內(nèi)每個(gè)滾動(dòng)優(yōu)化周期的平均數(shù)據(jù)。
圖4 不同策略的運(yùn)算結(jié)果Fig.4 Calculation results of different strategies
由圖4 中經(jīng)濟(jì)指標(biāo)可知,LVFA 及SLA 策略均具有良好的運(yùn)行效益,與理論最優(yōu)效益2 282.07 美元的偏差率分別為6.33%和6.97%。DLA 策略的經(jīng)濟(jì)效益僅為1 197.65 美元,其偏差率高達(dá)43.14%。從優(yōu)化模型角度分析,DLA 策略僅求解滾動(dòng)時(shí)域4 h 內(nèi)的優(yōu)化模型以獲取實(shí)時(shí)決策,其局部優(yōu)化時(shí)域難以統(tǒng)籌全局運(yùn)行,故對(duì)經(jīng)濟(jì)效益的影響最大;SLA 策略在線求解兩階段隨機(jī)優(yōu)化模型,而LVFA 策略采用值函數(shù)近似評(píng)估當(dāng)前決策對(duì)長期時(shí)域的影響,2 種策略均從全局時(shí)域范圍優(yōu)化決策,相較于DLA 策略能夠明顯提升運(yùn)行效益。
由運(yùn)算指標(biāo)可知,LVFA 策略在線滾動(dòng)優(yōu)化的單時(shí)段運(yùn)算開銷為8.61 s,與DLA 策略處于相同的計(jì)算維度,而SLA 策略求解時(shí)間高達(dá)179.03 s。從求解規(guī)模及決策變量數(shù)進(jìn)行分析,DLA 求解短期時(shí)域內(nèi)的確定性優(yōu)化模型,平均變量數(shù)僅為177 個(gè);LVFA 策略利用離線訓(xùn)練的PLF 表征當(dāng)前決策對(duì)長期階段的影響,顯著降低了全局模型規(guī)模,故與DLA 策略具有相同的變量數(shù)。SLA 策略采用大量的樣本路徑構(gòu)建長期時(shí)域的優(yōu)化模型,通過場景縮減得到6 個(gè)典型場景,對(duì)應(yīng)模型的變量數(shù)高達(dá)2 607 個(gè),模型求解規(guī)模大幅增加,致使在線運(yùn)算開銷激增。
綜合上述指標(biāo)可知,LVFA 策略通過離線訓(xùn)練、在線應(yīng)用模式克服了DLA 和SLA 策略各自運(yùn)算性能的不足,可以在較短的時(shí)間內(nèi)獲得近似最優(yōu)決策,有效兼顧了在線優(yōu)化效果與求解時(shí)間。
1)備用容量及響應(yīng)能力分析
各時(shí)段PFR 備用功率分布情況見附錄E 圖E2。由圖可知,各時(shí)段全部調(diào)頻單元的備用功率之和始終維持在2.0 MW,嚴(yán)格滿足中標(biāo)容量需求。為了直觀反映具體單元提供PFR 的響應(yīng)過程,圖5 給出了單元5 的DES 日內(nèi)運(yùn)行功率及SOC 動(dòng)態(tài)響應(yīng)曲線??梢钥闯?,各時(shí)段的功率基線與PFR 備用功率之和Pei,t±Pfi,t在額定功率上下限范圍內(nèi),且當(dāng)頻率越過死區(qū)后,DES 能夠在功率基線上疊加線性響應(yīng)頻率偏差的PFR 出力。根據(jù)SOC 動(dòng)態(tài)曲線可知,即使在預(yù)測的最劣調(diào)頻需求功率下,DES 響應(yīng)過程中仍能夠嚴(yán)格滿足SOC 上下限約束,為PFR 服務(wù)提供可靠的電量裕度。綜上可知,所提策略能夠從功率及電量兩方面保障日內(nèi)運(yùn)行過程中的PFR 響應(yīng)能力。
圖5 單元5 的DES 功率及SOC 動(dòng)態(tài)響應(yīng)過程Fig.5 Dynamic response process of DES power and SOC for unit 5
2)等效需求系數(shù)影響分析
為了對(duì)等效需求系數(shù)的影響開展分析,將采用最大調(diào)頻功率設(shè)置SOC 約束的情況作為基準(zhǔn)對(duì)照組,而引入等效需求系數(shù)的情況作為改進(jìn)組,分別量化其經(jīng)濟(jì)效益F和容量利用率Ue,結(jié)果如表1 所示。相對(duì)于基準(zhǔn)對(duì)照組,改進(jìn)組的經(jīng)濟(jì)效益提升1.63%。此外,DES 容量利用率由96.15%提升至97.92%,其原因在于:引入等效需求系數(shù)設(shè)置SOC 約束,能夠在保障電量調(diào)節(jié)能力的同時(shí)降低SOC 空間浪費(fèi),拓展了DES 參與動(dòng)態(tài)響應(yīng)過程的可控空間范圍,從而提升了DES 的經(jīng)濟(jì)效益與技術(shù)效用。
表1 等效需求系數(shù)影響對(duì)比Table 1 Comparison of effect of equivalent demand coefficient
針對(duì)多維不確定信息下用戶側(cè)DES 提供電價(jià)響應(yīng)及PFR 服務(wù)的日內(nèi)運(yùn)行問題,構(gòu)建了考慮PFR約束的MDP 模型,提出了在線滾動(dòng)優(yōu)化TSADP 模型的LVFA 策略,得出以下結(jié)論:
1)所提策略通過對(duì)長期效益函數(shù)的“離線訓(xùn)練-在線應(yīng)用”,能夠在較短的時(shí)間內(nèi)獲得良好的近似最優(yōu)解,克服了DLA 和SLA 策略各自運(yùn)算性能上的不足,兼顧了全局優(yōu)化效果與在線執(zhí)行開銷。
2)離線階段運(yùn)用TD(1)算法對(duì)近似值函數(shù)進(jìn)行離線迭代訓(xùn)練,通過選取恰當(dāng)?shù)膮?shù)可實(shí)現(xiàn)良好的收斂效果,收斂率高達(dá)98.37%,能夠近似表征不同時(shí)段狀態(tài)下長期時(shí)域的期望效益。
3)通過計(jì)及PFR 性能約束,能夠在功率及電量層面嚴(yán)格保障DES 頻率響應(yīng)能力。特別是引入PFR 等效需求系數(shù),拓展了DES 參與頻率響應(yīng)過程的可控空間范圍,相較于基準(zhǔn)對(duì)照組的經(jīng)濟(jì)效益和容量利用率分別提升了1.63%和1.84%。
本文對(duì)用戶側(cè)DES 資源的集中運(yùn)行模式進(jìn)行了探索。隨著參與聚合的DES 單元增多,在后續(xù)研究中將重點(diǎn)探討大規(guī)模DES 資源提供功率-能量堆疊服務(wù)的分布式/分散式協(xié)同運(yùn)行方案。
附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。