袁 君,章 云,張桂東,李 忠,陳 哲,于晟龍
(1. 廣東工業(yè)大學(xué) 自動(dòng)化學(xué)院,廣東 廣州 510006;2. 哈根大學(xué) 數(shù)學(xué)與計(jì)算機(jī)學(xué)院,哈根 58097;3. 奧爾堡大學(xué)能源與技術(shù)學(xué)院,奧爾堡 9220;4. 迪肯大學(xué) 工程學(xué)院,墨爾本 3216)
隨著應(yīng)對(duì)氣候變化成為全球共識(shí),我國(guó)提出實(shí)現(xiàn)2030年碳達(dá)峰、2060年碳中和的目標(biāo)。中共中央、國(guó)務(wù)院先后出臺(tái)了《2030年前碳達(dá)峰行動(dòng)方案》、《關(guān)于完整準(zhǔn)確全面貫徹新發(fā)展理念做好碳達(dá)峰碳中和工作的意見(jiàn)》等一系列政策、文件,為推動(dòng)能源低碳轉(zhuǎn)型指明了方向[1]。能源管理系統(tǒng)是實(shí)現(xiàn)碳達(dá)峰、碳中和的重要技術(shù)支撐[2]。
新能源發(fā)電占比增加、負(fù)荷用電多樣化等因素,使能量管理系統(tǒng)(Energy Management System,EMS)成為復(fù)雜非線性隨機(jī)系統(tǒng)。如何保證電網(wǎng)在安全、經(jīng)濟(jì)的方式下運(yùn)行已成為EMS優(yōu)化控制問(wèn)題的研究熱點(diǎn)與難點(diǎn)[3]。
自適應(yīng)動(dòng)態(tài)規(guī)劃(Adaptive Dynamic Programming,ADP) 由Werbos教授[4]提出,其本質(zhì)上是利用增強(qiáng)式學(xué)習(xí)原理,通過(guò)函數(shù)近似結(jié)構(gòu),逼近動(dòng)態(tài)規(guī)劃方程中的性能指標(biāo)函數(shù)和控制策略。性能指標(biāo)函數(shù)直接參與算法迭代,而迭代性能指標(biāo)函數(shù)一般具有Lyapunov 函數(shù)性質(zhì)。這使得EMS的穩(wěn)定性等重要性質(zhì)可以由迭代的性能指標(biāo)函數(shù)直接判斷。因此ADP可以有效解決動(dòng)態(tài)系統(tǒng)優(yōu)化問(wèn)題,在求解非線性最優(yōu)控制方面的強(qiáng)大優(yōu)勢(shì),ADP自提出以來(lái)成為最優(yōu)控制領(lǐng)域研究熱點(diǎn),并在EMS領(lǐng)域得到廣泛應(yīng)用[5-6]。Boaro等[7]將ADP應(yīng)用于家庭EMS,通過(guò)控制儲(chǔ)能設(shè)備解決實(shí)時(shí)電價(jià)情況下的電能流動(dòng)問(wèn)題,實(shí)現(xiàn)了用戶的整體經(jīng)濟(jì)最優(yōu)目標(biāo)。Wei等[8]在系統(tǒng)模型未知的情況下,提出執(zhí)行依賴啟發(fā)式動(dòng)態(tài)規(guī)劃方法,將其應(yīng)用于EMS中的電能調(diào)度問(wèn)題中,并采用神經(jīng)網(wǎng)絡(luò)來(lái)構(gòu)造執(zhí)行和評(píng)價(jià)網(wǎng)絡(luò),而且利用反向傳遞期望值和實(shí)際值之間的差值調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)。Wang等[9]將基于數(shù)據(jù)的迭代ADP算法應(yīng)用于智能住宅內(nèi)部的能源優(yōu)化中,通過(guò)系統(tǒng)輸入輸出數(shù)據(jù)自適應(yīng)調(diào)整控制策略,實(shí)現(xiàn)了用戶與電網(wǎng)的共贏??梢钥闯觯珹DP算法在能量管理系統(tǒng)優(yōu)化控制方面有著廣泛的發(fā)展前景與極大的自身優(yōu)勢(shì)[10]。
ADP算法包括:執(zhí)行網(wǎng)絡(luò) (Action Network, AN)、模型網(wǎng)絡(luò)(Model Network, MN)和評(píng)判網(wǎng)絡(luò) (Critic Network, CN)3個(gè)模塊[11]。AN用來(lái)近似最優(yōu)控制策略,CN用來(lái)近似最優(yōu)性能指標(biāo)函數(shù)。評(píng)判函數(shù)的參數(shù)更新是基于Bellman 最優(yōu)原理進(jìn)行的。這樣不僅可以減少前向計(jì)算時(shí)間,而且可以在線響應(yīng)未知系統(tǒng)的動(dòng)態(tài)變化,對(duì)網(wǎng)絡(luò)結(jié)構(gòu)中的權(quán)值參數(shù)進(jìn)行自動(dòng)調(diào)整。
ADP算法基本結(jié)構(gòu)分別是啟發(fā)式動(dòng)態(tài)規(guī)劃(Heuristic Dynamic Programming, HDP) 和二次啟發(fā)式規(guī)劃(Dual Heuristic Programming, DHP),其結(jié)構(gòu)如圖1和圖2所示[12]。HDP結(jié)構(gòu)中執(zhí)行網(wǎng)絡(luò)用來(lái)映射狀態(tài)變量和控制量之間的關(guān)系;模型網(wǎng)絡(luò)用來(lái)估計(jì)下一時(shí)刻的系統(tǒng)狀態(tài);評(píng)判網(wǎng)絡(luò)的輸出用來(lái)近似性能指標(biāo)函數(shù)[13]。DHP結(jié)構(gòu)中執(zhí)行網(wǎng)絡(luò)和模型網(wǎng)絡(luò)目的相同,而評(píng)判網(wǎng)絡(luò)用來(lái)近似性能指標(biāo)函數(shù)的梯度[14]?;贖DP和DHP結(jié)構(gòu),眾多學(xué)者提出其衍生結(jié)構(gòu),如Liu等[15]提出全局二次啟發(fā)式規(guī)劃(Globalized DHP,GDHP)結(jié)構(gòu),它將控制策略添加到評(píng)判網(wǎng)絡(luò)的輸入中并逼近性能指標(biāo)函數(shù)及其梯度,GDHP是一種計(jì)算量大但逼近精度高的結(jié)構(gòu)。He等[16]提出目標(biāo)導(dǎo)向型自適應(yīng)動(dòng)態(tài)規(guī)劃(Goal Representation Adaptive Dynamic Programming, GrADP)結(jié)構(gòu),其評(píng)判網(wǎng)絡(luò)在包含系統(tǒng)動(dòng)態(tài)和系統(tǒng)控制輸入信息的基礎(chǔ)上考慮了獎(jiǎng)勵(lì)/懲罰信號(hào)的自適應(yīng)調(diào)節(jié),從而提高近似精度。Xu等[17]將稀疏核機(jī)器學(xué)習(xí)與ADP結(jié)構(gòu)相結(jié)合,提出基于核的ADP(kernel-ADP)結(jié)構(gòu),使ADP算法同時(shí)具有泛化能力和逼近能力,并應(yīng)用于倒立擺實(shí)驗(yàn)中,結(jié)果表明kernel-ADP在經(jīng)驗(yàn)和理論方面都比傳統(tǒng)ADP具有更好的性能。目前ADP結(jié)構(gòu)已成功應(yīng)用于導(dǎo)彈制導(dǎo)律[18]、自動(dòng)駕駛[19]、機(jī)器人平衡控制[20]、工業(yè)復(fù)雜過(guò)程控制[21]等問(wèn)題中。
圖1 啟發(fā)式動(dòng)態(tài)規(guī)劃結(jié)構(gòu)圖Fig.1 Structure diagram of heuristic dynamic programming
圖2 二次啟發(fā)式規(guī)劃結(jié)構(gòu)圖Fig.2 Structure diagram of dual heuristic programming
在2002年,Murray等[22]提出了一種連續(xù)非線性系統(tǒng)迭代ADP算法,并對(duì)系統(tǒng)穩(wěn)定性與性能指標(biāo)函數(shù)收斂性進(jìn)行了分析。Lee等[23]首次針對(duì)連續(xù)非線性系統(tǒng),提出了策略迭代算法,并證明此算法可得到HJB方程最優(yōu)解。Song等[24]針對(duì)連續(xù)非線性系統(tǒng)中的非零和微分對(duì)策問(wèn)題,提出了離線策略積分強(qiáng)化學(xué)習(xí)算法,并證明了系統(tǒng)的漸近穩(wěn)定性。
1.2.1 系統(tǒng)描述
本文以非仿射系統(tǒng)為例,連續(xù)時(shí)間非線性系統(tǒng)為
Liu及其團(tuán)隊(duì)在文獻(xiàn)[26]中首次分析了離散非線性系統(tǒng)的策略迭代算法,并給出其收斂性證明。在文獻(xiàn)[27]中迭代算法的初始條件進(jìn)行了松弛,提出了迭代零和ADP 算法,打破初始性能指標(biāo)為零的限制。劉毅等[28]在此基礎(chǔ)上,證明了值迭代算法中,初始性能指標(biāo)為任意半正定函數(shù)時(shí),算法依舊可收斂。Al-Tamimi 等[29]針對(duì)離散系統(tǒng)的最優(yōu)控制問(wèn)題,提出一種不要求初始穩(wěn)定控制的貪婪迭代ADP 算法,并證明了算法的收斂性。
1.3.1 系統(tǒng)描述
1.3.2 迭代過(guò)程
策略迭代和值迭代公式如式(12)~(15)所示,其中策略迭代初始值為穩(wěn)定的控制策略,值迭代初始值為任意正定函數(shù)。
ADP算法憑借其在求解非線性最優(yōu)控制方面的強(qiáng)大優(yōu)勢(shì),在EMS優(yōu)化運(yùn)行控制方面受到廣泛的關(guān)注。本文就ADP算法在連續(xù)時(shí)間與離散時(shí)間能量管理系統(tǒng)中的應(yīng)用分別進(jìn)行了介紹,并按優(yōu)化目標(biāo)分為發(fā)電側(cè)優(yōu)化控制和用電側(cè)優(yōu)化控制,按算法實(shí)現(xiàn)方式分為在線優(yōu)化和離線優(yōu)化。
2.1.1 發(fā)電側(cè)優(yōu)化控制
(1) 在線優(yōu)化:文獻(xiàn)[30]提出了一種適用于非線性連續(xù)系統(tǒng)優(yōu)化問(wèn)題的ADP算法。該算法通過(guò)交替迭代算法求解,實(shí)現(xiàn)了渦扇發(fā)動(dòng)機(jī)的最優(yōu)跟蹤控制。文獻(xiàn)[31]提出一種基于內(nèi)模原理的測(cè)量?反饋?zhàn)赃m應(yīng)在線最優(yōu)控制算法,應(yīng)用于發(fā)電機(jī)的頻率控制,且該算法具有可靠的抗干擾和跟蹤能力。
(2) 離線優(yōu)化:文獻(xiàn)[32]提出一種自適應(yīng)最優(yōu)輸出反饋控制算法,應(yīng)用于孤島微電網(wǎng)發(fā)動(dòng)機(jī)的初級(jí)頻率控制,并證明了算法的收斂性以及閉環(huán)系統(tǒng)的穩(wěn)定性。
2.1.2 用電側(cè)優(yōu)化控制
(1) 在線優(yōu)化:文獻(xiàn)[33]提出一種基于隨機(jī)ADP算法的插電式混合動(dòng)力電動(dòng)公交車能源管理方法,該算法加入自適應(yīng)因子,利用值迭代算法進(jìn)行實(shí)時(shí)控制。
(2) 離線優(yōu)化:文獻(xiàn)[34]將ADP算法應(yīng)用于配電系統(tǒng)的電力交易策略優(yōu)化問(wèn)題中。分析每個(gè)消費(fèi)者及市場(chǎng)信息,結(jié)合市場(chǎng)趨勢(shì)、剩余發(fā)電量等信息,利用ADP算法得出消費(fèi)者的最優(yōu)策略。
2.2.1 發(fā)電側(cè)優(yōu)化控制
(1) 在線優(yōu)化:文獻(xiàn)[35]針對(duì)含未知不確定性和外部干擾的高速永磁同步電機(jī)驅(qū)動(dòng)系統(tǒng),提出了一種基于HDP算法的超扭曲滑??刂破?,實(shí)現(xiàn)電機(jī)驅(qū)動(dòng)系統(tǒng)的魯棒性。
(2) 離線優(yōu)化:文獻(xiàn)[36]利用DHP算法用于多渦輪發(fā)電機(jī)的電力系統(tǒng)。從而取代傳統(tǒng)的自動(dòng)電壓調(diào)節(jié)器和渦輪調(diào)速器,實(shí)現(xiàn)電壓調(diào)節(jié)以及增強(qiáng)電力系統(tǒng)穩(wěn)定性。
2.2.2 用電側(cè)優(yōu)化控制
(1) 在線優(yōu)化:文獻(xiàn)[37]引入了閉環(huán)反饋的概念,提出了一種基于ADP算法的分布式微電網(wǎng)能量實(shí)時(shí)管理系統(tǒng)。該算法采用神經(jīng)網(wǎng)絡(luò)建模并通過(guò)在線調(diào)節(jié)神經(jīng)網(wǎng)絡(luò)權(quán)值算法,通過(guò)仿真驗(yàn)證了所提能量管理系統(tǒng)有助于引導(dǎo)柔性負(fù)荷消費(fèi)者改變能源消費(fèi)習(xí)慣,從而減少化石能源發(fā)電量。
(2) 離線優(yōu)化:文獻(xiàn)[38]提出一種混合迭代ADP算法來(lái)解決智能住宅能量管理系統(tǒng)中的電池控制問(wèn)題。實(shí)現(xiàn)了每個(gè)周期內(nèi)電力成本最小的優(yōu)化目標(biāo)并證明了迭代值函數(shù)是單調(diào)不增的且收斂的。文獻(xiàn)[39]提出了一種從用戶需求和環(huán)境中自學(xué)習(xí)的家庭能量管理算法,此算法利用多層前饋神經(jīng)網(wǎng)絡(luò)作為函數(shù)逼近的一種手段。通過(guò)優(yōu)化管理電池充放電功率,從而最大限度地降低住宅在調(diào)度期間的電力成本,給用戶帶來(lái)經(jīng)濟(jì)利益。
由于大量具有隨機(jī)性、不確定性和非線性的分布式電源、分布式儲(chǔ)能和各類型負(fù)荷的接入,使EMS成為一個(gè)具有實(shí)時(shí)性的高維復(fù)雜非線性隨機(jī)系統(tǒng)。傳統(tǒng)的優(yōu)化方法如線性規(guī)劃等本質(zhì)上屬于靜態(tài)規(guī)劃,即必須在獲得系統(tǒng)特征后進(jìn)行離線運(yùn)行獲得最優(yōu)解。而實(shí)時(shí)EMS應(yīng)具有時(shí)間約束、可預(yù)測(cè)性、可靠性、交互作用、復(fù)雜性等特性。因此在分布式可再生能源滲透率不斷提高、負(fù)荷日益多樣化、用戶電能質(zhì)量要求越來(lái)越高的情況下,傳統(tǒng)靜態(tài)優(yōu)化方法越來(lái)越不能滿足EMS的優(yōu)化需求。如何通過(guò)實(shí)時(shí)控制實(shí)現(xiàn)雙碳目標(biāo)及電網(wǎng)安全穩(wěn)定運(yùn)行,已經(jīng)成為EMS的研究熱點(diǎn)與難點(diǎn)[40]。
EMS中新能源發(fā)電及負(fù)荷用電具有多變性、不確定性,實(shí)時(shí)EMS要求系統(tǒng)能在外部環(huán)境發(fā)生變化時(shí),在規(guī)定時(shí)間內(nèi)進(jìn)行相應(yīng)的控制。由于ADP算法具有很好的在線優(yōu)化能力,且可以通過(guò)系統(tǒng)輸入輸出數(shù)據(jù)自適應(yīng)調(diào)整控制策略,從而實(shí)現(xiàn)在線控制。因此有眾多學(xué)者對(duì)ADP進(jìn)行改進(jìn),提出了實(shí)時(shí)自適應(yīng)動(dòng)態(tài)規(guī)劃(Real-time Adaptive Dynamic Programming,RT-ADP)算法,從而實(shí)現(xiàn)EMS的實(shí)時(shí)控制且獲得了一定的研究成果[41-42]。
實(shí)時(shí)EMS要求系統(tǒng)有足夠強(qiáng)的處理能力對(duì)變化的實(shí)時(shí)數(shù)據(jù)做出反應(yīng),即RT-ADP算法應(yīng)具備實(shí)收斂性和實(shí)時(shí)性。對(duì)于非線性RT-EMS其關(guān)鍵在于合理選擇性能指標(biāo)函數(shù)逼近結(jié)構(gòu),且恰當(dāng)?shù)木W(wǎng)絡(luò)設(shè)計(jì)也有助于提高收斂速度。為此專家學(xué)者們對(duì)RT-ADP分別從性能指標(biāo)函數(shù)逼近結(jié)構(gòu)、迭代策略等方面對(duì)RTADP算法進(jìn)行了改進(jìn)。
3.2.1 性能指標(biāo)函數(shù)逼近方法改進(jìn)
由于實(shí)時(shí)控制對(duì)時(shí)間約束有嚴(yán)格要求,函數(shù)結(jié)構(gòu)的選擇直接影響RT-ADP算法的實(shí)時(shí)性能。
RT-ADP算法利用不同函數(shù)結(jié)構(gòu)去近似性能指標(biāo)函數(shù),如查表法、分段線性函數(shù)逼近、神經(jīng)網(wǎng)絡(luò)逼近等。文獻(xiàn)[43]提出一種基于Galerkin的性能指標(biāo)逼近方法,實(shí)現(xiàn)EMS日內(nèi)實(shí)時(shí)調(diào)度。該方法直接利用Galerkin方法而非傳統(tǒng)迭代算法去近似性能指標(biāo)函數(shù),從而節(jié)約了迭代時(shí)間。文獻(xiàn)[44]將EMS優(yōu)化問(wèn)題轉(zhuǎn)為隨機(jī)混合整數(shù)非線性規(guī)劃問(wèn)題,利用查表近似法實(shí)現(xiàn)不確定性條件下的EMS實(shí)時(shí)管理,并利用貝爾曼方程遞歸求解。文獻(xiàn)[45]選擇三層徑向基神經(jīng)網(wǎng)絡(luò)逼近性能指標(biāo)函數(shù),且為提高算法計(jì)算速度,通過(guò)基于K-means的時(shí)序差分方法在線更新神經(jīng)網(wǎng)絡(luò)權(quán)值。
除了非線性之外,分布式可再生能源和需求側(cè)帶來(lái)的不確定性也使得微電網(wǎng)的實(shí)時(shí)調(diào)度更具挑戰(zhàn)性。文獻(xiàn)[46]通過(guò)增廣項(xiàng)重新構(gòu)造的性能指標(biāo)函數(shù),使其成為新系統(tǒng),但這種方法對(duì)系統(tǒng)進(jìn)行了簡(jiǎn)化,降低控制準(zhǔn)確性。模型預(yù)測(cè)控制也有助于EMS處理系統(tǒng)不確定性,并在規(guī)定時(shí)間內(nèi)對(duì)系統(tǒng)變化做出反應(yīng)。文獻(xiàn)[47]引入模型預(yù)測(cè)控制,提出了一種感應(yīng)電機(jī)實(shí)時(shí)驅(qū)動(dòng)算法。該算法通過(guò)對(duì)電機(jī)轉(zhuǎn)矩實(shí)時(shí)控制來(lái)提高能源效率。文獻(xiàn)[48]考慮了可再生能源和有功/無(wú)功功率負(fù)載的不確定性,利用模型預(yù)測(cè)控制處理系統(tǒng)不確定性,并使用分段線性函數(shù)結(jié)構(gòu)近似性能指標(biāo)函數(shù),在通過(guò)求解貝爾曼方程實(shí)現(xiàn)微網(wǎng)運(yùn)行成本最小化的模板。模型預(yù)測(cè)控制的優(yōu)越性已得到公認(rèn),但其優(yōu)化性能過(guò)于依賴實(shí)時(shí)預(yù)測(cè)信息的準(zhǔn)確性。
于是有學(xué)者提出使用核方法來(lái)逼近RT-ADP算法中的性能指標(biāo)函數(shù)。核方法的主要思想是在希爾伯特空間中構(gòu)造性能指標(biāo)函數(shù)的非線性映射,通過(guò)核技巧將其線性化。經(jīng)證明,核方法可有效提高RTADP算法的非線性逼近能力和泛化能力。
3.2.2 算法改進(jìn)
1) 在非線性EMS中,在線迭代算法可以解決模型不確定這一問(wèn)題。RT-ADP可以在線調(diào)整網(wǎng)絡(luò)權(quán)值,使控制策略自適應(yīng)調(diào)節(jié),這也意味著計(jì)算量的增大。因此強(qiáng)大的迭代算法可有效提高RT-ADP收斂速度, 迭代算法及其初始值的選擇對(duì)RT-ADP而言至關(guān)重要。
WANG及其團(tuán)隊(duì)通過(guò)構(gòu)建評(píng)價(jià)網(wǎng)絡(luò)和執(zhí)行網(wǎng)絡(luò),設(shè)計(jì)權(quán)值更新律,并利用策略迭代算法實(shí)現(xiàn)在線控制,且通過(guò)Lyapunov 定理,證明這種在線自適應(yīng)方法權(quán)值的收斂性和系統(tǒng)的一致最終有界穩(wěn)定[49]。在這種方法下,初始控制策略的穩(wěn)定性對(duì)迭代過(guò)程的計(jì)算量及輸出控制策略的收斂性有很大影響。
為松弛控制策略初始條件,Xu及其團(tuán)隊(duì)通過(guò)將核方法集成到ADP的CN中,提出了一種具有核的RT-ADP算法。該算法采用基于近似線性的稀疏化方法及基于核的最小二乘策略迭代算法,對(duì)AN的控制策略進(jìn)行迭代求解。并對(duì)算法的性能進(jìn)行了理論分析和實(shí)驗(yàn)證明,結(jié)果表明基于核的RT-ADP算法具有更強(qiáng)的表征學(xué)習(xí)和泛化能力[50]。文獻(xiàn)[5 1]將Backstepping 技術(shù)與ADP相結(jié)合,提出一種新的RTADP控制方法。先通過(guò)Backstepping 技術(shù)將Lyapunov函數(shù)轉(zhuǎn)換為仿射形式,再通過(guò)ADP算法近似性能指標(biāo)函數(shù)。此方法利用Backstepping 技術(shù)的反推優(yōu)勢(shì),構(gòu)造了嚴(yán)格反饋系統(tǒng)下的Lyapunov函數(shù)控制器,且通過(guò)設(shè)計(jì)合適的觀測(cè)器引入最優(yōu)輸出反饋控制。由Backstepping技術(shù)構(gòu)造的控制器不需要穩(wěn)定的初始控制策略,也有效地減少RT-ADP算法的計(jì)算量。
Lewis及其團(tuán)隊(duì)提出實(shí)時(shí)自適應(yīng)動(dòng)態(tài)規(guī)劃算法,即通過(guò)神經(jīng)網(wǎng)絡(luò)建模并在線調(diào)節(jié)神經(jīng)網(wǎng)絡(luò)權(quán)值算法,同時(shí)同步更新策略迭代算法,從而實(shí)現(xiàn)實(shí)時(shí)獲得最優(yōu)控制的工作設(shè)想[52]。但受神經(jīng)網(wǎng)絡(luò)自身限制,此算法在計(jì)算速度、收斂性等方面還存在一定缺陷。
2) 應(yīng)用實(shí)例。
文獻(xiàn)[53]中作者針對(duì)智能電網(wǎng)時(shí)變EMS優(yōu)化問(wèn)題,提出了一種基于多神經(jīng)網(wǎng)絡(luò)融合預(yù)測(cè)技術(shù)的多時(shí)間尺度RT-ADP算法。該算法在日前、日內(nèi)、實(shí)時(shí)三個(gè)時(shí)間尺度上實(shí)現(xiàn)了新能源利用率最大化。并在環(huán)仿真平臺(tái)來(lái)驗(yàn)證所提出的RT-ADP的有效性。該算法利用模糊聚類算法將負(fù)荷分為工業(yè)負(fù)荷、商業(yè)負(fù)荷和居民負(fù)荷。然后基于分類結(jié)果,融合溫度、日期類型等不同因素,利用多神經(jīng)網(wǎng)絡(luò)融合預(yù)測(cè)算法預(yù)測(cè)各負(fù)荷的用電量和新能源的發(fā)電量。在此基礎(chǔ)上,該作者提出了一種如圖3所示的多時(shí)間尺度RT-ADP優(yōu)化算法。
圖3 基于多神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)技術(shù)的RT-ADP算法結(jié)構(gòu)圖Fig.3 Structure diagram of RT-ADP algorithm based on multineural network prediction technology
經(jīng)迭代RT-ADP算法可得出近似最優(yōu)控制策略,且作者在文獻(xiàn)[53]中給出了該算法的收斂性證明。
(3) 硬件在環(huán)仿真結(jié)果。
為驗(yàn)證所提出基于多神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)技術(shù)的RTADP算法的有效性,作者在環(huán)仿真平臺(tái)中進(jìn)行了仿真驗(yàn)證。環(huán)仿真平臺(tái)如圖4所示。其中控制器為dSPACE,電網(wǎng)模型在OPAL-RT設(shè)備中搭建,結(jié)果可在KEYSIGHT示波器中讀取。
圖4 硬件在環(huán)仿真平臺(tái)Fig.4 Hardware-in-the-loop platform
圖5為不同時(shí)間尺度時(shí)RT-ADP控制下光伏發(fā)電利用率。由結(jié)果可知,在實(shí)時(shí)、日內(nèi)、日前3個(gè)時(shí)間尺度中RT-ADP算法控制下光伏發(fā)電消耗功率均高于傳統(tǒng)ADP算法。從以上分析可以看出, RT-ADP 算法具有非常重要的理論與現(xiàn)實(shí)意義,在EMS研究中還處于起步階段,擁有巨大的應(yīng)用前景。
圖5 RT-ADP控制下光伏發(fā)電利用率Fig.5 Photovoltaic power utilization under RT-ADP control
ADP算法在EMS優(yōu)化控制問(wèn)題方面具有強(qiáng)大優(yōu)勢(shì),但還存在一些不足之處。
(1) 函數(shù)逼近器選擇問(wèn)題。目前ADP算法有神經(jīng)網(wǎng)絡(luò)、線性基函數(shù)、分段線性函數(shù)和支持向量機(jī)等多種函數(shù)逼近結(jié)構(gòu),如何合理選擇函數(shù)逼近器或改善神經(jīng)網(wǎng)絡(luò)經(jīng)驗(yàn)法和試錯(cuò)法設(shè)計(jì)缺陷是十分有必要的。
(2) 多種信息融合問(wèn)題。EMS是個(gè)復(fù)雜非線性系統(tǒng),且優(yōu)化策略受多種因素影響。融合這些影響因素,可有效提高EMS控制策略精度和優(yōu)化效果。因此,研究ADP信息融合問(wèn)題將是一個(gè)十分有益的探索。
(3) 有限時(shí)間ADP優(yōu)化問(wèn)題。目前ADP算法大部分都是基于無(wú)限時(shí)間的最優(yōu)控制,但在EMS實(shí)時(shí)控制中,需要在一定時(shí)間內(nèi)進(jìn)行響應(yīng),所以有限時(shí)間ADP 控制問(wèn)題的研究具有重要意義。
(4) ADP算法的實(shí)時(shí)性問(wèn)題。如何設(shè)計(jì)出收斂速度快、穩(wěn)定性好的ADP在線算法,提高算法實(shí)時(shí)性仍然是一個(gè)難點(diǎn)。
(5) ADP算法抗干擾問(wèn)題。由于EMS存在許多不確定因素,且會(huì)影響算法收斂性,因此如何處理不確定項(xiàng)、提高算法抗干擾能力是目前研究重點(diǎn)。
(6) 缺少硬件試驗(yàn)。目前ADP算法在EMS應(yīng)用中大部分仍使用模擬仿真方法驗(yàn)證,缺少真實(shí)環(huán)境下的試驗(yàn)環(huán)節(jié)。
間歇性新能源和智能化負(fù)載使EMS成為了具有實(shí)時(shí)性、波動(dòng)性、復(fù)雜性的高維非線性系統(tǒng)。ADP在解決動(dòng)態(tài)系統(tǒng)優(yōu)化問(wèn)題方面具有強(qiáng)大優(yōu)勢(shì)。本文著重介紹了ADP算法的研究進(jìn)展及其在EMS領(lǐng)域的應(yīng)用,分析了該算法在離散能量管理系統(tǒng)和連續(xù)能量管理系統(tǒng)的研究現(xiàn)狀和算法實(shí)現(xiàn)方式,并按優(yōu)化目標(biāo)分為發(fā)電側(cè)優(yōu)化控制和用電側(cè)優(yōu)化控制,按算法實(shí)現(xiàn)方式分為在線優(yōu)化和離線優(yōu)化。目前ADP算法在EMS的研究?jī)H僅處于初始階段,在EMS領(lǐng)域具有極大的發(fā)展前景。
廣東工業(yè)大學(xué)學(xué)報(bào)2022年5期