用戶側(cè)分布式儲(chǔ)能參與一次調(diào)頻的日內(nèi)前瞻-值函數(shù)近似策略

2022-10-31 06:31溫可瑞李衛(wèi)東王海霞

電力系統(tǒng)自動(dòng)化 2022年20期

溫可瑞，李衛(wèi)東，孫喬，巴宇，王海霞

（1. 大連理工大學(xué)電氣工程學(xué)院，遼寧省大連市 116024；2. 國網(wǎng)遼寧省電力有限公司大連供電公司，遼寧省大連市 116001）

0 引言

隨著電力市場機(jī)制的建立健全以及儲(chǔ)能技術(shù)性能的快速提升，用戶側(cè)分布式儲(chǔ)能（distributed energy storage，DES）的并網(wǎng)裝機(jī)規(guī)模顯著增長［1-3］。若考慮在電價(jià)響應(yīng)的基礎(chǔ)上，以聚合商模式整合匯聚容量較小、分散布局的用戶側(cè)DES 參與一次調(diào)頻（primary frequency regulation，PFR）輔助服務(wù)［4-6］，有利于挖掘其潛在的技術(shù)經(jīng)濟(jì)價(jià)值［7］。但隨著DES應(yīng)用目標(biāo)拓展，其運(yùn)行控制過程愈發(fā)復(fù)雜。

聚合商在日前參與PFR 市場投標(biāo)并確定出清結(jié)果后，日內(nèi)需要優(yōu)化決策各時(shí)段DES 的功率基線及PFR 備用功率，在保障頻率響應(yīng)能力的同時(shí)最大化整體經(jīng)濟(jì)效益［8-9］。然而，由于負(fù)荷、電價(jià)及頻率信息具有不確定性，當(dāng)前決策結(jié)果對(duì)后續(xù)過程的技術(shù)經(jīng)濟(jì)影響難以精準(zhǔn)辨識(shí)，從而給日內(nèi)優(yōu)化運(yùn)行帶來了挑戰(zhàn)［10］。因此，亟須對(duì)不確定信息下用戶側(cè)DES 的日內(nèi)運(yùn)行策略進(jìn)行合理設(shè)計(jì)。

近年來，基于在線凸規(guī) 劃［11-12］、Lyapunov 優(yōu)化［13］和在線直接前瞻（direct lookahead，DLA）［14-15］（亦稱模型預(yù)測控制）的日內(nèi)運(yùn)行策略相繼被提出。其中，在線凸規(guī)劃將目標(biāo)函數(shù)表示為決策變量的凸函數(shù)，通過在線求解凸規(guī)劃問題獲取實(shí)時(shí)決策。Lyapunov 優(yōu)化通過建立Lyapunov 函數(shù)并最小化其偏移量，在兼顧系統(tǒng)穩(wěn)定性的前提下開展運(yùn)行優(yōu)化決策。上述方法均不依賴未來預(yù)測信息，且不強(qiáng)調(diào)決策過程的全局最優(yōu)解，而是在長時(shí)間視角下確保系統(tǒng)處于滿意的運(yùn)行狀態(tài)。

相比于以上方法，DLA 基于滾動(dòng)更新的超短期預(yù)測數(shù)據(jù)獲取實(shí)時(shí)決策，雖然能夠滿足調(diào)頻性能及求解時(shí)限要求，但其局部優(yōu)化特征難以覆蓋全局運(yùn)行效益［16］。為了克服DLA 局部時(shí)域的不足，可以考慮隨機(jī)前瞻（stochastic lookahead，SLA）策略［17-18］。SLA 策略充分結(jié)合日前及日內(nèi)預(yù)測信息，在線求解兩階段隨機(jī)規(guī)劃模型，計(jì)及隨機(jī)階段可擴(kuò)展優(yōu)化時(shí)域、提升運(yùn)行效益，但會(huì)導(dǎo)致求解規(guī)模急劇增長、運(yùn)算開銷激增。因此，如何有效兼顧全局優(yōu)化性能與在線運(yùn)算開銷仍是當(dāng)前策略設(shè)計(jì)的難點(diǎn)。此外，已有研究中通常依據(jù)PFR 備用容量保守設(shè)置荷電狀態(tài)（state of charge，SOC）約束［14，19］，盡管能夠保障DES 的頻率調(diào)節(jié)裕度，但亦造成電量空間資源浪費(fèi)。

鑒于上述不足，本文將日內(nèi)運(yùn)行問題構(gòu)建為恰當(dāng)考慮PFR 性能約束的馬爾可夫決策過程（Markov decision process，MDP），進(jìn)而提出一種“前瞻 - 值函數(shù) 近似（lookahead-value function approximation，LVFA）”混合運(yùn)行策略。結(jié)合滾動(dòng)更新的預(yù)測信息以及離線訓(xùn)練的長期時(shí)域近似效益函數(shù)，通過在線求解兩階段近似動(dòng)態(tài)規(guī)劃（twostage approximate dynamic programming，TSADP）模型以獲取各時(shí)段的近似最優(yōu)決策。通過算例分析對(duì)所提策略的離線訓(xùn)練效果及日內(nèi)運(yùn)行性能進(jìn)行了驗(yàn)證。

1 問題描述與建模

1.1 問題描述

目前，多數(shù)電力發(fā)達(dá)的國家和地區(qū)建立了相對(duì)完善的電力市場體系，不同市場架構(gòu)及交易模式有所差異。用戶側(cè)的典型電價(jià)機(jī)制包括尖峰電價(jià)、分時(shí)電價(jià)和實(shí)時(shí)電價(jià)，本文即在波動(dòng)較大的實(shí)時(shí)電價(jià)模式下開展研究。此外，PFR 服務(wù)正處于發(fā)展階段，不同市場環(huán)境下的PFR 規(guī)則有所區(qū)別，相關(guān)機(jī)制的共性特征［20-21］可歸納如下。

1）投標(biāo)要求:PFR 供應(yīng)商的投標(biāo)容量應(yīng)滿足市場規(guī)定的最低投標(biāo)容量限制。

2）技術(shù)響應(yīng):采用下垂控制，即自動(dòng)線性響應(yīng)本地頻率偏差提供實(shí)時(shí)調(diào)頻功率。

3）補(bǔ)償收益:供應(yīng)商依據(jù)出清價(jià)格、中標(biāo)容量與服務(wù)時(shí)長三者的乘積獲取補(bǔ)償收益。

4）失效懲罰:供應(yīng)商提供PFR 服務(wù)的失效率應(yīng)低于最大允許值，否則依據(jù)調(diào)頻效果進(jìn)行懲罰。為了規(guī)避調(diào)頻失效帶來的懲罰風(fēng)險(xiǎn)，供應(yīng)商通常會(huì)嚴(yán)格限制自身的PFR 失效率。

基于上述市場機(jī)制，聚合商通過集中協(xié)調(diào)用戶側(cè)DES，在響應(yīng)實(shí)時(shí)電價(jià)的基礎(chǔ)上參與PFR 服務(wù)，按照時(shí)間維度可劃分為日前投標(biāo)、日內(nèi)運(yùn)行及實(shí)時(shí)控制3 個(gè)環(huán)節(jié)，基本流程如圖1 所示。

圖1 用戶側(cè)DES 提供雙重服務(wù)的基本流程Fig.1 Basic flowchart of dual services provided by user-side DES

在上述流程中，日內(nèi)優(yōu)化運(yùn)行屬于承上啟下的關(guān)鍵環(huán)節(jié)，優(yōu)化決策結(jié)果對(duì)于DES 的技術(shù)經(jīng)濟(jì)效益影響顯著。因此，本文在市場出清完成，即已知聚合商PFR 中標(biāo)容量及出清價(jià)格后，針對(duì)日內(nèi)運(yùn)行過程中各時(shí)段動(dòng)態(tài)優(yōu)化決策問題開展研究。

1.2 不確定環(huán)境下的日內(nèi)運(yùn)行MDP 模型

日內(nèi)運(yùn)行問題的核心是通過優(yōu)化各時(shí)段各單元DES 的功率基線及PFR 備用功率，在保障PFR 響應(yīng)能力的同時(shí)，最大化所轄全部DES 的經(jīng)濟(jì)效益。由于負(fù)荷、電價(jià)及頻率信息具有不確定性，需要結(jié)合獲取的信息開展動(dòng)態(tài)優(yōu)化決策。換而言之，日內(nèi)運(yùn)行屬于不確定環(huán)境下的序貫決策過程。

為了對(duì)上述問題特征進(jìn)行建模，本文將其描述為MDP 模型。MDP 作為隨機(jī)序貫決策問題的通用模型［22］，通過對(duì)運(yùn)行時(shí)域的離散化處理和對(duì)狀態(tài)、決策變量、外部信息、轉(zhuǎn)移函數(shù)以及目標(biāo)函數(shù)等要素的刻畫，能夠反映不確定環(huán)境下動(dòng)態(tài)決策過程的時(shí)序演進(jìn)、狀態(tài)轉(zhuǎn)移及效益累積等特征。

將聚合商協(xié)調(diào)的DES 劃分為I個(gè)單元，并定義單元集合Iset={1，2，…，i，…，I}。以Δt為時(shí) 間粒度，對(duì)日內(nèi)運(yùn)行的時(shí)域范圍T進(jìn)行離散化處理，并定義時(shí)刻集合Tset={0，Δt，2Δt，…，t，…，T}。

1.2.1 狀態(tài)變量

為了表征日內(nèi)運(yùn)行過程中各單元DES 當(dāng)前的狀態(tài)以及全部必要的環(huán)境信息，在MDP 框架下采用狀態(tài)變量對(duì)其進(jìn)行建模。本文狀態(tài)變量St為:

1.2.2 決策變量

在決策過程中應(yīng)嚴(yán)格滿足如下約束條件。

1）有功功率平衡約束

由圖1 可知，聚合商所轄全部負(fù)荷、DES 與電網(wǎng)的實(shí)時(shí)交互功率滿足有功功率平衡。選取自電網(wǎng)注入功率的方向作為正方向，則有:

式中:Λ{z}為條件指示函數(shù)，當(dāng)z為真時(shí)，函數(shù)值取1，反之取0；Δfmax為線性響應(yīng)的最大頻率偏差。

2）PFR 中標(biāo)容量約束

為了規(guī)避調(diào)頻失效帶來的懲罰風(fēng)險(xiǎn)，本文要求聚合商嚴(yán)格保障PFR 可靠性。整體而言，各單元PFR 備用功率之和應(yīng)滿足中標(biāo)容量值，即

式中:PPFR為聚合商在PFR 市場的中標(biāo)容量。

13.對(duì)于經(jīng)產(chǎn)母豬的誘導(dǎo)發(fā)情，斷奶后7 d內(nèi)，肌注“氯前列烯醇（PG）”0.2 ml，再肌注“孕馬血清（PMSG）”1 000單位。

3）考慮PFR 的單元功率約束

各單元DES 的功率基線與PFR 備用功率之和應(yīng)限制在額定功率上下限范圍內(nèi)，表示為:

4）考慮PFR 的單元SOC 約束

1.2.3 外部信息

外部信息用于對(duì)日內(nèi)運(yùn)行過程中不確定信息預(yù)測值與真實(shí)值的誤差建模，其可表示為:

基于以上定義，日內(nèi)運(yùn)行過程可以用時(shí)序演進(jìn)的狀態(tài)、決策及外部信息描述，其軌跡可表示為:

1.2.4 轉(zhuǎn)移函數(shù)

轉(zhuǎn)移函數(shù)是指系統(tǒng)根據(jù)決策xt及外部信息Wt+Δt，由當(dāng) 前狀態(tài)St轉(zhuǎn) 移到下一時(shí) 刻狀態(tài)St+Δt的過程。本文可定義轉(zhuǎn)移函數(shù)為:

式中:SM(·)為轉(zhuǎn)移函數(shù)，包括各狀態(tài)變量的動(dòng)態(tài)轉(zhuǎn)移，具體可分為儲(chǔ)能SOC 和環(huán)境信息的轉(zhuǎn)移過程。

1）儲(chǔ)能SOC 的轉(zhuǎn)移過程

伴隨日內(nèi)充放電過程，各單元DES 從t時(shí)刻至t+Δt時(shí)刻的SOC 動(dòng)態(tài)轉(zhuǎn)移可描述為:

2）環(huán)境信息的轉(zhuǎn)移過程

電價(jià)、負(fù)荷及頻率偏差的動(dòng)態(tài)轉(zhuǎn)移均屬于狀態(tài)獨(dú)立的信息過程?？紤]到信息的預(yù)測值與真實(shí)值之間的誤差量，轉(zhuǎn)移過程可表示為:

1.2.5 目標(biāo)函數(shù)

對(duì)于用戶側(cè)DES 提供雙重服務(wù)的日內(nèi)運(yùn)行問題，其目標(biāo)是在滿足相關(guān)約束條件下使各時(shí)段累計(jì)期望凈效益最大化。目標(biāo)函數(shù)F*可表示為:

式中:E(·|·)為求條件期望值函數(shù)；Ct(St，xt)為t時(shí)段的凈效益函數(shù)，既包括響應(yīng)電價(jià)所降低的購電成本、提供PFR 服務(wù)的補(bǔ)償收益，也要計(jì)及運(yùn)行維護(hù)成本。

單個(gè)運(yùn)行時(shí)段的凈效益Ct可表示為:

2 不確定環(huán)境下的日內(nèi)運(yùn)行策略

2.1 考慮長期效益函數(shù)近似的TSADP 模型

日內(nèi)MDP 模型從整體上明確了相關(guān)變量及動(dòng)態(tài)轉(zhuǎn)移過程，具體到實(shí)時(shí)優(yōu)化問題:假設(shè)當(dāng)前時(shí)刻為tc，按照滾動(dòng)更新預(yù)測的時(shí)域范圍將后續(xù)時(shí)域劃分為兩階段，即短期時(shí)域和長期時(shí)域。

定義1:短期時(shí)域表示當(dāng)前時(shí)刻tc至未來時(shí)刻tf=tc+HΔt之間的滾動(dòng)更新預(yù)測時(shí)域。在短期時(shí)域范圍HΔt內(nèi)，電價(jià)及負(fù)荷的滾動(dòng)更新預(yù)測精度明顯高于日前預(yù)測結(jié)果。

定義2:長期時(shí)域表示未來時(shí)刻tf至日運(yùn)行終止時(shí)刻T之間的時(shí)域范圍。對(duì)于該時(shí)域范圍，已知電價(jià)及負(fù)荷日前預(yù)測及其誤差分布信息。

盡管相應(yīng)模型的復(fù)雜度較低，適于在線優(yōu)化求解，但其局部優(yōu)化時(shí)域難以保證全局運(yùn)行效益?？紤]到上述不足，SLA 策略通過綜合利用日前及日內(nèi)預(yù)測信息，構(gòu)建當(dāng)前時(shí)刻tc至終止時(shí)刻T的兩階段隨機(jī)規(guī)劃模型，表示為:

式中:Ω為樣本路徑集合；ω為隨機(jī)抽取的樣本路徑；p(ω)為樣本路徑ω出現(xiàn)的概率；xt(ω)為樣本路徑ω的決策變量；St(ω)為樣本路徑ω下t時(shí)刻的狀態(tài)變量。SLA 能夠?qū)崿F(xiàn)全局優(yōu)化效果，但過多的樣本路徑會(huì)增大問題規(guī)模，致使在線運(yùn)算開銷大幅增加。

綜上，現(xiàn)有策略面臨的核心問題是難以兼顧全局優(yōu)化性能與在線運(yùn)算開銷。為此，本文考慮采用“離線計(jì)算-在線應(yīng)用”模式:離線階段計(jì)算各時(shí)段狀態(tài)下的長期時(shí)域期望效益；在線階段直接調(diào)用相應(yīng)的長期效益函數(shù)，從而構(gòu)建實(shí)時(shí)兩階段優(yōu)化模型進(jìn)行決策，其基本原理如圖2 所示。一般而言，基于Bellman 原理可將日內(nèi)運(yùn)行問題解耦為多個(gè)單時(shí)段子問題，運(yùn)用動(dòng)態(tài)規(guī)劃逆序遞歸，即可離線計(jì)算各時(shí)段狀態(tài)下運(yùn)行至最終時(shí)刻的期望效益。定義最優(yōu)值函數(shù)V*t(St)表示t時(shí)刻狀態(tài)St至最終時(shí)刻T的累積期望效益。運(yùn)用Bellman 方程可將目標(biāo)函數(shù)式（17）遞歸表示為:

圖2 長期期望效益的“離線計(jì)算-在線應(yīng)用”模式Fig.2 “Offline calculation-online application”mode for long-term expected benefit

然而，動(dòng)態(tài)規(guī)劃求解式（21）需要遍歷全部可行狀態(tài) 的條件期望E(V*t+Δt(St+Δt)|St，xt)。受制于DES 狀態(tài)及決策空間離散規(guī)模激增所引發(fā)的“維數(shù)災(zāi)”，直接求取全部期望效益存在計(jì)算障礙。

為了在離線階段計(jì)算長期期望效益，引入近似動(dòng)態(tài)規(guī)劃框架下的值函數(shù)近似思想。首先，選取恰當(dāng)類型的值函數(shù)近似表征各時(shí)段狀態(tài)下的長期期望效益；然后，采用合適的算法對(duì)值函數(shù)進(jìn)行迭代訓(xùn)練，使之逐漸逼近真實(shí)期望效益，有效規(guī)避遍歷計(jì)算的“維數(shù)災(zāi)”。值函數(shù)近似的關(guān)鍵在于:1）選取何種類型函數(shù)實(shí)現(xiàn)長期效益近似；2）如何對(duì)近似效益函數(shù)開展離線訓(xùn)練。

長期效益函數(shù)的近似形式及離線訓(xùn)練將在第3章進(jìn)行詳細(xì)敘述。通過離線計(jì)算過程可以得到各時(shí)段對(duì)應(yīng)的長期效益函數(shù)Vˉtf(Stf)為:

結(jié)合滾動(dòng)更新預(yù)測信息及離線近似的長期效益函數(shù)，構(gòu)建當(dāng)前時(shí)刻tc的TSADP 模型，即

相較于DLA 策略所構(gòu)建的短期時(shí)域優(yōu)化模型，TSADP 模型能夠計(jì)及決策對(duì)長期時(shí)域范圍的影響，即考慮全局優(yōu)化效果。而相較于SLA 策略采用隨機(jī)抽樣方法對(duì)長期時(shí)域進(jìn)行建模，TSADP 模型直接調(diào)用離線近似的長期效益函數(shù)，有效緩解在線優(yōu)化模型的復(fù)雜度，繼而降低在線運(yùn)算開銷。

2.2 基于TSADP 的日內(nèi)運(yùn)行策略

基于實(shí)時(shí)TSADP 優(yōu)化模型，日內(nèi)運(yùn)行策略可以歸納為混合前瞻以及值函數(shù)近似的策略類型，即LVFA 策略，其原理圖如圖3 所示。該策略主要由離線階段和在線階段兩部分組成。

圖3 基于TSADP 的LVFA 運(yùn)行策略Fig.3 TSADP based LVFA operation strategy

離線階段:基于日前電價(jià)、負(fù)荷預(yù)測信息及歷史頻率數(shù)據(jù)生成訓(xùn)練場景，并選取恰當(dāng)類型的近似值函數(shù)及訓(xùn)練算法，離線計(jì)算各時(shí)段的近似效益函數(shù)，以供在線階段的滾動(dòng)優(yōu)化模型調(diào)用。

在線階段:按照時(shí)間尺度劃分為15 min 滾動(dòng)時(shí)域優(yōu)化和秒級(jí)自動(dòng)響應(yīng)2 個(gè)功能環(huán)節(jié)。首先，結(jié)合日內(nèi)電價(jià)和負(fù)荷的滾動(dòng)更新預(yù)測信息、PFR 等效需求系數(shù)以及離線計(jì)算的長期效益函數(shù)，在線滾動(dòng)時(shí)域求解TSADP 優(yōu)化模型，即可動(dòng)態(tài)地獲取當(dāng)前15 min 時(shí)段各單元DES 的功率基線值及PFR 備用功率。進(jìn)一步，各單元DES 依據(jù)當(dāng)前時(shí)段的備用功率自動(dòng)線性響應(yīng)頻率偏差，并通過疊加功率基線值以確定15 min 內(nèi)秒級(jí)實(shí)時(shí)控制功率。

所提策略的在線算法流程詳見附錄B 圖B1，各單元DES 實(shí)時(shí)控制的邏輯結(jié)構(gòu)見附錄B 圖B2。

3 長期效益函數(shù)的離線計(jì)算

對(duì)于所提日內(nèi)運(yùn)行策略，其性能優(yōu)劣的關(guān)鍵在于長期效益函數(shù)的離線計(jì)算效果。在3.1 節(jié)選取了決策后狀態(tài)的可分分段線性函數(shù)（piecewise linear function，PLF）作為長期效益函數(shù)的近似形式，將Bellman 方程近似轉(zhuǎn)化，進(jìn)而在3.2 節(jié)采用TD（1）差分學(xué)習(xí)算法對(duì)近似效益函數(shù)離線訓(xùn)練。

3.1 長期效益函數(shù)的近似形式

通過向前遞歸Bellman 方程的ADP 公式，使得標(biāo)準(zhǔn)動(dòng)態(tài)規(guī)劃逆序計(jì)算全部條件期望的原始問題轉(zhuǎn)化為正向訓(xùn)練PLF 分段斜率問題，從根本上降低了遍歷求取期望效益面臨的計(jì)算障礙。

3.2 近似值函數(shù)的離線訓(xùn)練

鑒于標(biāo)準(zhǔn)近似值迭代算法收斂緩慢，本文采用TD（1）算法對(duì)近似值函數(shù)開展離線訓(xùn)練。TD（1）算法是結(jié)合正向模擬及逆向更新的雙向算法，其采用折扣因子λ=1 的時(shí)間差分學(xué)習(xí)過程加速PLF 斜率更新。首先，基于隨機(jī)抽取的樣本路徑正向模擬序貫決策過程，沿樣本路徑向前遞歸求解式（28）得到各時(shí)段最優(yōu)決策，從而計(jì)算各時(shí)段的邊際貢獻(xiàn)及邊際流。然后，運(yùn)用正向模擬所得邊際貢獻(xiàn)及邊際流，在逆向更新時(shí)計(jì)算各時(shí)段的斜率抽樣觀察值，據(jù)此采用隨機(jī)梯度下降法對(duì)PLF 斜率進(jìn)行更新。TD（1）算法的具體步驟及流程詳見附錄C。

需要指出的是，隨機(jī)對(duì)偶動(dòng)態(tài)規(guī)劃（stochastic dual dynamic programming,SDDP）算法與TD（1）算法類似，都屬于緩解動(dòng)態(tài)規(guī)劃“維數(shù)災(zāi)”的可行方法，通過構(gòu)造近似值函數(shù)并采用前后向迭代收斂至最優(yōu)解。文獻(xiàn)［26］對(duì)2 種方法從原理結(jié)構(gòu)及運(yùn)算性能方面進(jìn)行了詳細(xì)對(duì)比，結(jié)果發(fā)現(xiàn)隨著資源維數(shù)的增長，SDDP 算法迭代收斂過程逐漸放緩，而TD（1）算法仍具有良好的迭代收斂效果?？紤]到上述方法的運(yùn)算性能差異，本文采用TD（1）算法對(duì)近似值函數(shù)迭代訓(xùn)練。

4 策略性能評(píng)估

為了對(duì)所提策略的性能量化評(píng)估，分別從離線訓(xùn)練效果和日內(nèi)運(yùn)行性能兩方面進(jìn)行分析。策略性能評(píng)估的具體流程及指標(biāo)如附錄D 圖D1 所示。

1）離線訓(xùn)練效果評(píng)估

根據(jù)日前電價(jià)、負(fù)荷的預(yù)測數(shù)據(jù)及其誤差分布、歷史頻率信息，生成R組訓(xùn)練場景以及Q組測試場景?；谏鲜鯮組訓(xùn)練場景開展離線迭代訓(xùn)練，運(yùn)用第n次迭代訓(xùn)練更新的PLF 計(jì)算Q組測試場景的平均運(yùn)行效益Fˉn，以此可視化迭代訓(xùn)練過程。進(jìn)一步，定義了評(píng)估離線訓(xùn)練效果的收斂率指標(biāo)ε，經(jīng)過n次迭代訓(xùn)練后的收斂率可表示為:

式中:Fq，n為運(yùn)用第n次迭代所得PLF 計(jì)算的測試場景q的運(yùn)行效益；Fq，*為場景q的理論最優(yōu)運(yùn)行效益，其通過混合整數(shù)線性規(guī)劃求得。

2）日內(nèi)運(yùn)行性能評(píng)估

對(duì)于日內(nèi)運(yùn)行性能的評(píng)估，分別需要從優(yōu)化運(yùn)算效果以及PFR 響應(yīng)性能兩方面進(jìn)行分析。

通過模擬日內(nèi)運(yùn)行過程，依據(jù)其經(jīng)濟(jì)指標(biāo)（日運(yùn)行經(jīng)濟(jì)效益F、經(jīng)濟(jì)效益偏差率ζ）及運(yùn)算指標(biāo)（決策變量數(shù)Ns、求解時(shí)間Ts）量化評(píng)估優(yōu)化運(yùn)算效果。其中，經(jīng)濟(jì)效益偏差率是指日運(yùn)行效益實(shí)際值F與理論最優(yōu)值F*之間的偏差，即

關(guān)于PFR 響應(yīng)性能的評(píng)估，首先需要驗(yàn)證各時(shí)段各調(diào)頻單元備用功率Pf，sett之和是否滿足中標(biāo)容量PPFR，進(jìn)一步辨識(shí)各調(diào)頻單元的PFR 動(dòng)態(tài)響應(yīng)能力。此外，對(duì)計(jì)及等效需求系數(shù)的經(jīng)濟(jì)效益F及容量利用率Ue進(jìn)行量化分析，其中容量利用率是指SOC 實(shí)際運(yùn)行范圍占可用空間的百分比。

5 算例分析

5.1 仿真參數(shù)設(shè)置

為驗(yàn)證所提策略的實(shí)際性能，以整合協(xié)調(diào)6 個(gè)單元DES 的聚合商為例開展仿真分析?？紤]到不同儲(chǔ)能的技術(shù)性能及商業(yè)化程度，各單元DES 均采用鋰電池。所轄各單元DES 的額定功率、可用容量、充放電效率以及運(yùn)行維護(hù)成本等參數(shù)見附錄D表D1。日前PFR 市場出清后，實(shí)際中標(biāo)容量為2.0 MW，出清價(jià)格cf=16.53 美元/(MW·h)［19］。

5.2 離線訓(xùn)練效果分析

基于日前電價(jià)、負(fù)荷的預(yù)測數(shù)據(jù)及其高斯分布誤差，運(yùn)用Monte-Carlo 模擬生成2 000 個(gè)訓(xùn)練場景及10 個(gè)測試場景，并從歷史頻率數(shù)據(jù)中以日為周期篩選相應(yīng)規(guī)模的頻率訓(xùn)練與測試場景。離線訓(xùn)練的最大迭代次數(shù)為2 500，各分段初始斜率均設(shè)置為零。由于harmonic 步長規(guī)則中的參數(shù)a以及隨機(jī)信息的聚合水平h均會(huì)對(duì)訓(xùn)練過程的收斂性產(chǎn)生影響，本文采用控制變量法進(jìn)行迭代訓(xùn)練，不同參數(shù)取值下的迭代過程及收斂結(jié)果如附錄E 圖E1 所示。由圖E1 可知，在2 500 次迭代范圍內(nèi)，步長參數(shù)a與聚合水平h對(duì)迭代訓(xùn)練的收斂性影響顯著。當(dāng)取a= 1 500 且h=1 時(shí)，離線訓(xùn)練能夠?qū)崿F(xiàn)較好的收斂效果，相較于平均最優(yōu)效益的收斂率高達(dá)98.37%。經(jīng)過2 500 次離線迭代的運(yùn)算耗時(shí)為3 305.6 s，單次迭代的平均計(jì)算開銷為1.322 s。事實(shí)上，上述迭代過程仍存在1.63%的收斂偏差，其原因主要在于:隨機(jī)信息的分層聚合策略難以做到精準(zhǔn)的“狀態(tài)-決策”映射，且差分學(xué)習(xí)算法的逆序更新采用隨機(jī)梯度下降思想，對(duì)梯度估計(jì)的固有方差會(huì)阻礙進(jìn)一步收斂。

5.3 不同策略的日內(nèi)運(yùn)算效果對(duì)比

為了驗(yàn)證所提LVFA 策略的日內(nèi)運(yùn)算效果，將之與DLA、SLA 策略的運(yùn)算結(jié)果進(jìn)行比較。不同策略的經(jīng)濟(jì)指標(biāo)及運(yùn)算指標(biāo)結(jié)果如圖4 所示。其中，變量數(shù)及求解時(shí)間是指日運(yùn)行時(shí)域內(nèi)每個(gè)滾動(dòng)優(yōu)化周期的平均數(shù)據(jù)。

圖4 不同策略的運(yùn)算結(jié)果Fig.4 Calculation results of different strategies

由圖4 中經(jīng)濟(jì)指標(biāo)可知，LVFA 及SLA 策略均具有良好的運(yùn)行效益，與理論最優(yōu)效益2 282.07 美元的偏差率分別為6.33%和6.97%。DLA 策略的經(jīng)濟(jì)效益僅為1 197.65 美元，其偏差率高達(dá)43.14%。從優(yōu)化模型角度分析，DLA 策略僅求解滾動(dòng)時(shí)域4 h 內(nèi)的優(yōu)化模型以獲取實(shí)時(shí)決策，其局部優(yōu)化時(shí)域難以統(tǒng)籌全局運(yùn)行，故對(duì)經(jīng)濟(jì)效益的影響最大；SLA 策略在線求解兩階段隨機(jī)優(yōu)化模型，而LVFA 策略采用值函數(shù)近似評(píng)估當(dāng)前決策對(duì)長期時(shí)域的影響，2 種策略均從全局時(shí)域范圍優(yōu)化決策，相較于DLA 策略能夠明顯提升運(yùn)行效益。

由運(yùn)算指標(biāo)可知，LVFA 策略在線滾動(dòng)優(yōu)化的單時(shí)段運(yùn)算開銷為8.61 s，與DLA 策略處于相同的計(jì)算維度，而SLA 策略求解時(shí)間高達(dá)179.03 s。從求解規(guī)模及決策變量數(shù)進(jìn)行分析，DLA 求解短期時(shí)域內(nèi)的確定性優(yōu)化模型，平均變量數(shù)僅為177 個(gè)；LVFA 策略利用離線訓(xùn)練的PLF 表征當(dāng)前決策對(duì)長期階段的影響，顯著降低了全局模型規(guī)模，故與DLA 策略具有相同的變量數(shù)。SLA 策略采用大量的樣本路徑構(gòu)建長期時(shí)域的優(yōu)化模型，通過場景縮減得到6 個(gè)典型場景，對(duì)應(yīng)模型的變量數(shù)高達(dá)2 607 個(gè)，模型求解規(guī)模大幅增加，致使在線運(yùn)算開銷激增。

綜合上述指標(biāo)可知，LVFA 策略通過離線訓(xùn)練、在線應(yīng)用模式克服了DLA 和SLA 策略各自運(yùn)算性能的不足，可以在較短的時(shí)間內(nèi)獲得近似最優(yōu)決策，有效兼顧了在線優(yōu)化效果與求解時(shí)間。

5.4 所提策略的PFR 響應(yīng)性能分析

1）備用容量及響應(yīng)能力分析

各時(shí)段PFR 備用功率分布情況見附錄E 圖E2。由圖可知，各時(shí)段全部調(diào)頻單元的備用功率之和始終維持在2.0 MW，嚴(yán)格滿足中標(biāo)容量需求。為了直觀反映具體單元提供PFR 的響應(yīng)過程，圖5 給出了單元5 的DES 日內(nèi)運(yùn)行功率及SOC 動(dòng)態(tài)響應(yīng)曲線?？梢钥闯?，各時(shí)段的功率基線與PFR 備用功率之和Pei，t±Pfi，t在額定功率上下限范圍內(nèi)，且當(dāng)頻率越過死區(qū)后，DES 能夠在功率基線上疊加線性響應(yīng)頻率偏差的PFR 出力。根據(jù)SOC 動(dòng)態(tài)曲線可知，即使在預(yù)測的最劣調(diào)頻需求功率下，DES 響應(yīng)過程中仍能夠嚴(yán)格滿足SOC 上下限約束，為PFR 服務(wù)提供可靠的電量裕度。綜上可知，所提策略能夠從功率及電量兩方面保障日內(nèi)運(yùn)行過程中的PFR 響應(yīng)能力。

圖5 單元5 的DES 功率及SOC 動(dòng)態(tài)響應(yīng)過程Fig.5 Dynamic response process of DES power and SOC for unit 5

2）等效需求系數(shù)影響分析

為了對(duì)等效需求系數(shù)的影響開展分析，將采用最大調(diào)頻功率設(shè)置SOC 約束的情況作為基準(zhǔn)對(duì)照組，而引入等效需求系數(shù)的情況作為改進(jìn)組，分別量化其經(jīng)濟(jì)效益F和容量利用率Ue，結(jié)果如表1 所示。相對(duì)于基準(zhǔn)對(duì)照組，改進(jìn)組的經(jīng)濟(jì)效益提升1.63%。此外，DES 容量利用率由96.15%提升至97.92%，其原因在于:引入等效需求系數(shù)設(shè)置SOC 約束，能夠在保障電量調(diào)節(jié)能力的同時(shí)降低SOC 空間浪費(fèi)，拓展了DES 參與動(dòng)態(tài)響應(yīng)過程的可控空間范圍，從而提升了DES 的經(jīng)濟(jì)效益與技術(shù)效用。

表1 等效需求系數(shù)影響對(duì)比Table 1 Comparison of effect of equivalent demand coefficient

6 結(jié)語

針對(duì)多維不確定信息下用戶側(cè)DES 提供電價(jià)響應(yīng)及PFR 服務(wù)的日內(nèi)運(yùn)行問題，構(gòu)建了考慮PFR約束的MDP 模型，提出了在線滾動(dòng)優(yōu)化TSADP 模型的LVFA 策略，得出以下結(jié)論:

1）所提策略通過對(duì)長期效益函數(shù)的“離線訓(xùn)練-在線應(yīng)用”，能夠在較短的時(shí)間內(nèi)獲得良好的近似最優(yōu)解，克服了DLA 和SLA 策略各自運(yùn)算性能上的不足，兼顧了全局優(yōu)化效果與在線執(zhí)行開銷。

2）離線階段運(yùn)用TD（1）算法對(duì)近似值函數(shù)進(jìn)行離線迭代訓(xùn)練，通過選取恰當(dāng)?shù)膮?shù)可實(shí)現(xiàn)良好的收斂效果，收斂率高達(dá)98.37%，能夠近似表征不同時(shí)段狀態(tài)下長期時(shí)域的期望效益。

3）通過計(jì)及PFR 性能約束，能夠在功率及電量層面嚴(yán)格保障DES 頻率響應(yīng)能力。特別是引入PFR 等效需求系數(shù)，拓展了DES 參與頻率響應(yīng)過程的可控空間范圍，相較于基準(zhǔn)對(duì)照組的經(jīng)濟(jì)效益和容量利用率分別提升了1.63%和1.84%。

本文對(duì)用戶側(cè)DES 資源的集中運(yùn)行模式進(jìn)行了探索。隨著參與聚合的DES 單元增多，在后續(xù)研究中將重點(diǎn)探討大規(guī)模DES 資源提供功率-能量堆疊服務(wù)的分布式/分散式協(xié)同運(yùn)行方案。

附錄見本刊網(wǎng)絡(luò)版（http：//www.aeps-info.com/aeps/ch/index.aspx），掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡