唐捷,張澤宇,程樂峰,張孝順,余濤
(1.廣東電網(wǎng)有限責(zé)任公司韶關(guān)供電局,廣東 韶關(guān) 512026;2.華南理工大學(xué) 電力學(xué)院,廣州 510640)
自1998年CERTS提出微電網(wǎng)概念至今,各國(guó)學(xué)者對(duì)微電網(wǎng)展開了深入的研究[1-2]。微電網(wǎng)中包含大量的可再生能源,其出力受環(huán)境變化影響很大。這種隨機(jī)性和間歇性給微電網(wǎng)的控制帶來了極大的挑戰(zhàn)。尤其當(dāng)微電網(wǎng)處于孤島運(yùn)行模式下,其頻率和電壓失去了大電網(wǎng)的支撐,受可再生能源波動(dòng)的影響更為嚴(yán)重。
由于傳統(tǒng)PI控制器難以滿足微電網(wǎng)復(fù)雜的運(yùn)行工況,基于人工智能算法的智能控制器在孤島微電網(wǎng)中應(yīng)用的研究受到關(guān)注。模糊控制(Fuzzy Control,F(xiàn)C)、粒子群算法(PSO)、細(xì)菌覓食優(yōu)化(Bacterial Foraging Optimization,BFO)、遺傳算法(GA)和傳統(tǒng)的梯度下降法(Gradient Descent,GD)等算法被用來對(duì)微電網(wǎng)的所有控制參數(shù)進(jìn)行同步優(yōu)化,實(shí)現(xiàn)微電網(wǎng)的自動(dòng)發(fā)電控制(Automatic Generation Control,AGC)[3-10]。上述研究中人工智能算法都是通過調(diào)節(jié)系統(tǒng)控制參數(shù)來實(shí)現(xiàn)優(yōu)化的目的,其本質(zhì)上仍屬于PI控制。筆者曾提出一種集中式的微電網(wǎng)分層AGC控制框架,并采用R(λ)學(xué)習(xí)算法通過試錯(cuò)尋優(yōu),獲得最優(yōu)調(diào)度總指令[11]。該控制方法突破了傳統(tǒng)的PI控制,通過基于強(qiáng)化學(xué)習(xí)的AGC控制器直接獲得各調(diào)頻機(jī)組的調(diào)度指令,實(shí)現(xiàn)微電網(wǎng)的智能發(fā)電控制。但其在分配過程中采用機(jī)組出力組合空間有限的分配因子,使得尋到的調(diào)度指令并不一定是最優(yōu)指令,且在AGC機(jī)組調(diào)節(jié)次數(shù)和算法收斂速度上依然存在較大的優(yōu)化空間。
本文針對(duì)孤島運(yùn)行時(shí)微電網(wǎng)的有功-頻率控制問題,提出了全新的基于多智能體CEQ(λ)(Correlated Equilibrium-Q(λ))學(xué)習(xí)的智能發(fā)電控制方法,并在一個(gè)包含光伏發(fā)電、風(fēng)力發(fā)電、小水電、微型燃?xì)廨啓C(jī)和飛輪儲(chǔ)能的微電網(wǎng)LFC模型上進(jìn)行了仿真。為了展示新算法在孤島微電網(wǎng)有功-頻率控制中的應(yīng)用效果,本文分別從預(yù)學(xué)習(xí)特性和中長(zhǎng)期控制性能兩個(gè)方面將新算法與傳統(tǒng)PI控制和單智能體強(qiáng)化學(xué)習(xí)控制進(jìn)行了對(duì)比分析。
馬爾科夫決策過程是指決策者根據(jù)每個(gè)時(shí)刻觀察到的狀態(tài),從可用的動(dòng)作集合中選擇一個(gè)動(dòng)作做出決策,系統(tǒng)狀態(tài)的轉(zhuǎn)移是隨機(jī)的,該隨機(jī)過程未來發(fā)展的概率規(guī)律與歷史無關(guān)。馬爾科夫決策過程中,每個(gè)智能體在所有智能體的動(dòng)作概率分布基礎(chǔ)上最大化自己的獎(jiǎng)勵(lì)值,由此所形成的動(dòng)態(tài)平衡即為相關(guān)均衡。相關(guān)均衡的動(dòng)態(tài)描述為:
式中ai為滿足相關(guān)均衡時(shí)智能體i的動(dòng)作,a′i為非均衡狀態(tài)下智能體i的動(dòng)作,a-i表示除智能體i其他智能體的動(dòng)作,A-i=∏j≠i Aj,Ai為智能體i的動(dòng)作集合,π為均衡策略(即動(dòng)作概率),Ri為智能體i的立即獎(jiǎng)勵(lì)函數(shù)。如果某一策略π對(duì)于所有智能體i、所有動(dòng)作ai、a-i∈Ai(π(ai)>0)式(1)均成立,該策略即為相關(guān)均衡動(dòng)態(tài)平衡點(diǎn)[12-14]。
強(qiáng)化學(xué)習(xí)是一種不依賴與模型,基于值函數(shù)迭代的單智能體在線學(xué)習(xí)算法。對(duì)策論的研究為多智能體交互提供了可靠的數(shù)學(xué)框架,從而使得將強(qiáng)化學(xué)習(xí)與對(duì)策論相結(jié)合的多智能體學(xué)習(xí)算法被廣泛研究。
CEQ是離散時(shí)間馬爾科夫決策過程下的一種基于值函數(shù)迭代的在線學(xué)習(xí)和動(dòng)態(tài)優(yōu)化技術(shù)。給定所有智能體i∈N,所有狀態(tài)s∈S和動(dòng)作a∈A(s)在時(shí)刻t的Q值:;給定均衡策略πt;給定均衡目標(biāo)函數(shù)f;相關(guān)均衡條件下,根據(jù)馬爾科夫?qū)Σ咭?guī)則可定義時(shí)刻t+1智能體i的動(dòng)作值函數(shù)狀態(tài)值函數(shù)和均衡策略πt+1分別為:
相關(guān)均衡策略的線性約束描述為對(duì)所有智能體i、所有動(dòng)作ai、a-i∈Ai(π(ai)>0)式(4)均成立:
針對(duì)各類發(fā)電機(jī)組時(shí)滯環(huán)節(jié)所帶來的控制延時(shí)問題[15],本文引入了資格跡(Eligibility Trace)。資格跡通過詳細(xì)記錄各聯(lián)合動(dòng)作策略發(fā)生的頻率對(duì)各策略的迭代Q值進(jìn)行更新,可有效解決CEQ算法中的時(shí)間信度分配問題。由于通過相關(guān)均衡求取聯(lián)合動(dòng)作策略涉及到大規(guī)模的線性規(guī)劃問題,求解過程繁瑣且費(fèi)時(shí)。因此,本文選取相對(duì)簡(jiǎn)單的TD(λ)[16]資格跡更新算法,如下:
式中et(s)為時(shí)刻t狀態(tài)s下的資格跡,st為時(shí)刻t實(shí)際的狀態(tài),γ為折扣因子,0≤γ≤1,λ為衰減因子,0≤λ≤1。
由式(2)~(4)可推導(dǎo)出 CEQ(λ)學(xué)習(xí)算法的迭代更新公式:
式中δj為單步值函數(shù)的迭代誤差;γ為CEQ(λ)學(xué)習(xí)的獎(jiǎng)勵(lì)折扣因子;α∈(0,1)為學(xué)習(xí)因子,指明了對(duì)更新部分的信任度,α較大時(shí)算法收斂速度更快,而α較小時(shí)算法收斂更穩(wěn)定??紤]到微電網(wǎng)發(fā)電的強(qiáng)隨機(jī)性,結(jié)合仿真研究表明,α取值在0.001~0.1之間時(shí),CEQ(λ)算法都具有良好的收斂特性。
本文所研究的微電網(wǎng)包含光伏發(fā)電(PV)、風(fēng)力發(fā)電(WT)、小水電(SH)、微型燃?xì)廨啓C(jī)(MT)和飛輪儲(chǔ)能(FW)五種微電源。其中,通過模擬文獻(xiàn)[17]中全天光照強(qiáng)度的變化,建立了相應(yīng)的光伏出力模型;對(duì)于風(fēng)電模型,采用有限帶寬白噪聲模擬的隨機(jī)風(fēng);小水電機(jī)組、微型燃?xì)廨啓C(jī)和飛輪儲(chǔ)能則分別采用文獻(xiàn)[18-20]中典型模型。其中,光伏發(fā)電和風(fēng)力發(fā)電日處理曲線分別如圖1和圖2所示。
圖1 光伏發(fā)電日出力曲線Fig.1 Daily output curve of photovoltaic generation
圖2 風(fēng)力發(fā)電日出力曲線Fig.2 Daily output curve of the wind power generation
由于本文采用的微電源均采用典型模型或常用模型,故對(duì)各微電源的性能不作贅述。其中,起調(diào)頻作用的微電源SH、MT和FW的相關(guān)參數(shù)如表1。表中Ts表示機(jī)組二次調(diào)頻時(shí)延;PGn為機(jī)組或儲(chǔ)能的總?cè)萘糠謩e分別表示機(jī)組或電源可調(diào)容量的上下限;Rup和Rdown則分別表示機(jī)組或電源的上調(diào)和下調(diào)速率。
表1 調(diào)頻機(jī)組參數(shù)Tab.1 Parameters of the micro-sources
由上述五種微電源組成的微電網(wǎng)LFC模型如圖3所示。其中選取調(diào)節(jié)速度較快且較為經(jīng)濟(jì)的MT和SH為主調(diào)頻機(jī)組,F(xiàn)W起輔助調(diào)頻作用。光伏發(fā)電和風(fēng)力發(fā)電由于具有較大的隨機(jī)性和不可控性,可作為隨機(jī)負(fù)荷處理。
微電網(wǎng)通過能量管理系統(tǒng)采集系統(tǒng)頻率,將頻率偏差作為智能頻率控制器的輸入,經(jīng)過多智能體CEQ(λ)算法迭代計(jì)算和求解調(diào)度策略的相關(guān)均衡解,獲得整體獎(jiǎng)勵(lì)值最高的最優(yōu)調(diào)度指令,對(duì)主調(diào)頻機(jī)組進(jìn)行調(diào)節(jié),從而實(shí)現(xiàn)保證微電網(wǎng)頻率偏最小化的智能發(fā)電調(diào)度。
圖3中所示的微電網(wǎng)頻率響應(yīng)模塊包含微電網(wǎng)系統(tǒng)頻率響應(yīng)和飛輪儲(chǔ)能頻率響應(yīng),具體參數(shù)如表2所示[9]。其中,D表示微電網(wǎng)系統(tǒng)的阻尼系數(shù)(Damping Coefficient);H表示微電網(wǎng)系統(tǒng)的慣性常數(shù)(Inertia Constant);TFESS則表示飛輪出能力系統(tǒng)(Flywheel Energy Storage System,F(xiàn)ESS)的時(shí)延;R1、R2、R3分別表示小水電、微型燃?xì)廨啓C(jī)、飛輪儲(chǔ)能一次調(diào)頻的下垂常數(shù)(Droop Constant)。
表2 微電網(wǎng)LFC模型參數(shù)Tab.2 Parameters of the LFC model of MG
圖3 微電網(wǎng)LFC模型Fig.3 LFC model of the micro-grid
本文搭建的微電網(wǎng)LFC模型中包含2臺(tái)主調(diào)頻機(jī)組,即小水電和微型燃?xì)廨啓C(jī),需要2個(gè)智能體分別進(jìn)行控制。每個(gè)智能體在所有智能體的動(dòng)作概率分布基礎(chǔ)上最大化自己的獎(jiǎng)勵(lì)值,達(dá)到整體獎(jiǎng)勵(lì)最大化的相關(guān)均衡,此時(shí)獲得的聯(lián)合動(dòng)作策略為最優(yōu)控制策略。
考慮到微電網(wǎng)本身的系統(tǒng)特性,合理的離散狀態(tài)集S和聯(lián)合控制動(dòng)作集A對(duì)多智能體CEQ(λ)學(xué)習(xí)的收斂特性意義重大。如果離散程度過高,聯(lián)合控制動(dòng)作集A的元素個(gè)數(shù)將呈冪增長(zhǎng),容易形成“維數(shù)災(zāi)”;相反,離散程度過低則會(huì)導(dǎo)致調(diào)頻效果不佳,頻率品質(zhì)較低。
本文提出的智能發(fā)電控制器的狀態(tài)輸入為頻率偏差Δf。IEEE 1547標(biāo)準(zhǔn)規(guī)定的分布式電源并網(wǎng)要求為Δf=±0.3 Hz(基準(zhǔn)頻率為60 Hz);我國(guó)國(guó)家標(biāo)準(zhǔn)規(guī)定,正常運(yùn)行工況下,電力系統(tǒng)頻率應(yīng)保持在50±0.2 Hz以內(nèi),對(duì)于容量較小的系統(tǒng),頻率偏差值可以放寬到±0.5 Hz。文獻(xiàn)[21]標(biāo)準(zhǔn)要求風(fēng)電場(chǎng)在49.5~50.2 Hz的頻率偏離下能連續(xù)運(yùn)行;文獻(xiàn)[22]標(biāo)準(zhǔn)中規(guī)定光伏系統(tǒng)并網(wǎng)后允許頻率偏差為±0.3 Hz;文獻(xiàn)[23]標(biāo)準(zhǔn)要求分布式電源在49.5~50.2 Hz的頻率范圍內(nèi)能連續(xù)運(yùn)行??紤]到對(duì)含多種分布式電源的微電網(wǎng)頻率范圍尚未有統(tǒng)一的國(guó)家標(biāo)準(zhǔn),本文結(jié)合上述各類標(biāo)準(zhǔn),選擇較為保守的50±0.2 Hz作為微電網(wǎng)運(yùn)行頻率范圍,并設(shè)置的離散狀態(tài)集為S={(-∞,-0.2),[-0.2,-0.15),[-0.15,-0.05),[-0.05,0.05],(0.05,0.15],(0.15,0.2],(0.2,+∞)}。
CEQ(λ)學(xué)習(xí)的聯(lián)合動(dòng)作集A,亦即智能發(fā)電控制器的輸出,為一組 AGC聯(lián)合調(diào)度指令(ΔPSH,ΔPMT)。經(jīng)分析調(diào)頻機(jī)組的可調(diào)容量及其自身微電源發(fā)電特性,本文設(shè)置的聯(lián)合動(dòng)作為
其中,ASH和AMT分別為小水電和微型燃?xì)廨啓C(jī)的輸出動(dòng)作集,且ASH=AMT=(-0.1,-0.05,-0.01,-0.001,0,0.001,0.01,0.05,0.1),單位兆瓦(MW)。
本文通過各機(jī)組最優(yōu)聯(lián)合動(dòng)作來實(shí)現(xiàn)微電網(wǎng)頻率偏差最小化控制,對(duì)于智能體i的評(píng)價(jià)獎(jiǎng)勵(lì)函數(shù)Ri為:
式中μ1i、μ2i、μ3i和μ4i為各狀態(tài)區(qū)間下獎(jiǎng)勵(lì)函數(shù)對(duì)應(yīng)的權(quán)值,本文分別取1、2、4、8;Δf為系統(tǒng)頻率偏差值;ΔPGi和ΔPorderi分別為機(jī)組i的實(shí)際調(diào)整出力和目標(biāo)調(diào)整出力。因子|ΔPGi-ΔPorderi|+1可有效解決多智能體出力調(diào)節(jié)越限和智能體之間反調(diào)的問題。
在采用線性規(guī)劃求取多智能體相關(guān)均衡的過程中,需要給定均衡選擇函數(shù)。常用的均衡選擇函數(shù)有如下四種[24]:功利主義(utilitarian),即最大化所有智能體獎(jiǎng)勵(lì)的總和;平等主義(egalitarian),即最大化所有智能體中獎(jiǎng)勵(lì)值最小者的獎(jiǎng)勵(lì);富豪主義(plutocratic),即最大化所有智能體中獎(jiǎng)勵(lì)值最大者的獎(jiǎng)勵(lì);獨(dú)裁主義(dictatorial),即在狀態(tài)s下,對(duì)于任意智能體i,最大化個(gè)體獎(jiǎng)勵(lì)值最大者的獎(jiǎng)勵(lì)。
其中,后三種均衡選擇函數(shù)均側(cè)重于最大化個(gè)別智能體的報(bào)酬值,而第一種功利主義均衡選擇函數(shù)公平對(duì)待每個(gè)智能體的報(bào)酬值,最大化所有智能體報(bào)酬
微電網(wǎng)智能發(fā)電控制器的多智能體CEQ(λ)算法完整描述如下:值之和,這對(duì)關(guān)系到微電網(wǎng)全局穩(wěn)定的有功-頻率控制具有重要意義,故本文選取此種。功利主義選擇函數(shù)表達(dá)如下:
本文微電網(wǎng)LFC模型采用Simulink仿真平臺(tái)搭建,多智能體CEQ(λ)算法及智能發(fā)電控制器由S函數(shù)編寫,模型如圖1所示。其中調(diào)頻機(jī)組總可調(diào)容量,其余參數(shù)詳見表1和表2。
強(qiáng)化學(xué)習(xí)有在線和離線兩種預(yù)學(xué)習(xí)模式。考慮到在線預(yù)學(xué)習(xí)過程中試錯(cuò)尋優(yōu)可能會(huì)導(dǎo)致系統(tǒng)振蕩而危害系統(tǒng)安全性,本文控制器采取先離線預(yù)學(xué)習(xí),經(jīng)過足夠迭代次數(shù)收斂于最優(yōu)聯(lián)合動(dòng)作策略π*后,再投入微電網(wǎng)系統(tǒng)參與在線優(yōu)化運(yùn)行。
根據(jù)文獻(xiàn)[11]的研究,可知R(λ)學(xué)習(xí)算法較Q學(xué)習(xí),Q(λ)學(xué)習(xí)算法控制效果好。故本文將 CEQ(λ)學(xué)習(xí)的控制性能與整定良好的PI控制和R(λ)控制作對(duì)比分析。算例包括典型擾動(dòng)的預(yù)學(xué)習(xí)和中長(zhǎng)期控制性能的仿真與分析。
4.1.1 正弦擾動(dòng)
在預(yù)學(xué)習(xí)階段,給系統(tǒng)分別施加周期為1 000 s,幅值為2 MW的正弦負(fù)荷擾動(dòng)。圖4(a)和圖4(b)分別給出了正弦擾動(dòng)下R(λ)控制器和CEQ(λ)控制器的負(fù)荷跟蹤曲線和頻率偏差曲線。從圖中可以看出,CEQ(λ)算法預(yù)學(xué)習(xí)在第一個(gè)正弦波周期內(nèi)已基本收斂,收斂速度較R(λ)算法有很大的提高,而且能更為精確的跟蹤負(fù)荷變化。
圖4 正弦擾動(dòng)下兩種算法的預(yù)學(xué)習(xí)Fig.4 Pre-learning of two algorithms under sine disturbance
4.1.2 連續(xù)階躍擾動(dòng)
系統(tǒng)在受到連續(xù)階躍負(fù)荷擾動(dòng)下,各控制器的動(dòng)態(tài)性能如圖5所示。各次負(fù)荷突增的幅度分別為0.8 MW、0.5 MW、0.3 MW。
圖5(a)和圖5(b)給出了R(λ)學(xué)習(xí)算法和CEQ(λ)學(xué)習(xí)算法在連續(xù)階躍擾動(dòng)下的負(fù)荷跟蹤曲線和頻率偏差曲線。從圖中可以看出,R(λ)學(xué)習(xí)算法并不能很好的跟蹤負(fù)荷擾動(dòng),總輸出曲線波動(dòng)較大,而CEQ(λ)學(xué)習(xí)算法能更迅速,更準(zhǔn)確的跟蹤到階躍負(fù)荷擾動(dòng),且輸出波動(dòng)較小,顯示出良好的穩(wěn)定性和準(zhǔn)確性。
目前,國(guó)際上普遍采用一種基于平均值和統(tǒng)計(jì)性指標(biāo)的CPS標(biāo)準(zhǔn)來考核大型互聯(lián)電網(wǎng)AGC系統(tǒng)的中長(zhǎng)期控制性能。對(duì)于孤島運(yùn)行的微電網(wǎng)而言,頻率的長(zhǎng)期統(tǒng)計(jì)性指標(biāo)也可作為一種智能發(fā)電控制的考核標(biāo)準(zhǔn)。為了驗(yàn)證CEQ(λ)控制器在復(fù)雜負(fù)荷擾動(dòng)和系統(tǒng)模型結(jié)構(gòu)發(fā)生變化的情況下的在線學(xué)習(xí)能力和動(dòng)態(tài)尋優(yōu)能力,本文設(shè)置以下兩組試驗(yàn)作比對(duì)分析。
圖5 連續(xù)階躍擾動(dòng)下兩種算法的預(yù)學(xué)習(xí)Fig.5 Pre-learning of two algorithms under continuous step disturbance
考慮到大多數(shù)真實(shí)系統(tǒng)無法忍受在線學(xué)習(xí)前期CEQ(λ)控制器較差的跟蹤性能,通常有兩種處理方法。第一,先對(duì)CEQ(λ)控制器進(jìn)行正弦波和連續(xù)階躍擾動(dòng)的預(yù)學(xué)習(xí),然后再投入真實(shí)系統(tǒng)。正弦波變化較平緩,階躍擾動(dòng)變化急劇,經(jīng)過這兩種擾動(dòng)類型的預(yù)學(xué)習(xí),CEQ(λ)控制器基本可以直接適應(yīng)真實(shí)系統(tǒng)中其他類型的擾動(dòng),故可以投入使用。第二,真實(shí)系統(tǒng)先采用傳統(tǒng)控制器進(jìn)行控制,而先將CEQ(λ)控制器并列投入真實(shí)系統(tǒng)直接進(jìn)行預(yù)學(xué)習(xí),這個(gè)階段系統(tǒng)并不采用CEQ(λ)控制器的輸出指令,待在線仿真中CEQ(λ)控制器的輸出效果穩(wěn)定后,再切換使用CEQ(λ)控制器。算例中,CEQ(λ)控制器在投入運(yùn)行前,先經(jīng)過上文中正弦波擾動(dòng)和連續(xù)階躍擾動(dòng)的預(yù)學(xué)習(xí)訓(xùn)練,以提高CEQ(λ)控制器在微電網(wǎng)系統(tǒng)中的在線學(xué)習(xí)效率,減少在線學(xué)習(xí)過程帶來的擾動(dòng)。
4.2.1 隨機(jī)性擾動(dòng)下的頻率指標(biāo)考核
在標(biāo)稱參數(shù)下,給系統(tǒng)施加采樣周期為10 min,最大幅值不超過2 MW的白噪聲隨機(jī)擾動(dòng)。檢測(cè)24 h內(nèi)以系統(tǒng)頻率偏差的絕對(duì)值|Δf|為考核對(duì)象的各項(xiàng)指標(biāo),如表3所示。從表中數(shù)據(jù)可以看出,與傳統(tǒng)的PI控制相比,基于強(qiáng)化學(xué)習(xí)的智能控制器各項(xiàng)指標(biāo)都更優(yōu)。而CEQ(λ)控制下的|Δf|的最大值顯著降低,合格率達(dá)到百分之百??梢奀EQ(λ)在隨機(jī)性強(qiáng)的復(fù)雜負(fù)荷擾動(dòng)下仍有良好的控制效果。
表3 隨機(jī)性擾動(dòng)下的頻率指標(biāo)考核Tab.3 Frequency index assessment under stochastic disturbance
4.2.2 系統(tǒng)參數(shù)變化時(shí)的頻率指標(biāo)考核
在上述隨機(jī)擾動(dòng)的基礎(chǔ)上,對(duì)微電網(wǎng)自然頻率響應(yīng)系數(shù)施加10%以內(nèi)的白噪聲參數(shù)攝動(dòng);并在10 h時(shí)將風(fēng)力發(fā)電退出運(yùn)行。檢測(cè)24 h內(nèi)|Δf|相關(guān)指標(biāo)的統(tǒng)計(jì)值如表4所示。經(jīng)分析可知,具備在線學(xué)習(xí)和自適應(yīng)特性的強(qiáng)化學(xué)習(xí)智能控制能更好的適應(yīng)系統(tǒng)參數(shù)和結(jié)構(gòu)變化的運(yùn)行工況;基于多智能體相關(guān)均衡理論的CEQ(λ)比單智能體的R(λ)具備更強(qiáng)的在線學(xué)習(xí)能力和尋優(yōu)能力。
表4 系統(tǒng)參數(shù)變化時(shí)的頻率指標(biāo)考核Tab.4 Frequency index assessment under the changing of system parameters
本文提出了一種全新的多智能體CEQ(λ)智能控制器用于實(shí)現(xiàn)孤島運(yùn)行模式下的微電網(wǎng)頻率控制和自動(dòng)發(fā)電控制。該控制器具有以下特點(diǎn):
(1)與傳統(tǒng)PI控制器相比,多智能體CEQ(λ)控制器具備在線學(xué)習(xí)和自適應(yīng)的特性,能更好的適應(yīng)孤島運(yùn)行模式下微電網(wǎng)系統(tǒng)參數(shù)和結(jié)構(gòu)變化等復(fù)雜工況;
(2)與單智能體R(λ)學(xué)習(xí)算法相比,多智能體CEQ(λ)學(xué)習(xí)算法聯(lián)合動(dòng)作空間更大,動(dòng)作組合更豐富,因此能更精確的跟蹤負(fù)荷變化;多個(gè)智能體協(xié)同學(xué)習(xí),能更有效、更快速的尋找到相關(guān)均衡平衡點(diǎn),從而提高算法收斂速度;
(3)由于多智能體CEQ(λ)學(xué)習(xí)算法涉及到多個(gè)智能體之間的協(xié)同學(xué)習(xí),當(dāng)調(diào)頻機(jī)組較多時(shí),聯(lián)合動(dòng)作空間驟增可能導(dǎo)致“維數(shù)災(zāi)難”問題,可考慮采用聚類分層的方法來進(jìn)一步解決。