胥 棟,李逸超,李 赟,徐 剛,杜佳瑋
(國網(wǎng)上海市電力公司浦東供電公司,上海 200122)
隨著“雙碳”戰(zhàn)略的提出,低碳化成為中國未來能源行業(yè)發(fā)展的必然趨勢[1-2]。“碳達(dá)峰·碳中和”這一要求對中國能源革命進(jìn)展提出革命性要求,能源結(jié)構(gòu)的調(diào)整和各類可再生能源的高效利用成為必然的研究趨勢。而“綜合能源系統(tǒng)”概念的提出和實(shí)現(xiàn)為這一研究趨勢提供了有效的解決途徑。中國目前城市化高速發(fā)展,樓宇耗能占比高升。因此,在低碳背景下,以單樓宇為研究對象的綜合能源協(xié)調(diào)優(yōu)化研究成為新一輪的研究熱點(diǎn)。但是,多種能源背景下的樓宇協(xié)調(diào)優(yōu)化調(diào)度面臨著用戶多樣化、能量種類多樣化、多種能源交易復(fù)雜化以及能量調(diào)度主體多元化等難題[3]。在上述背景下,鮮有研究成果聚焦于樓宇的低碳特性。因此,目前亟須探究如何在多能流背景下,既能提升樓宇綜合能源利用效率,又能降低碳排放量的方法。
面對樓宇眾多且能耗占比攀升的現(xiàn)實(shí)情況,許多學(xué)者將樓宇與綜合能源系統(tǒng)技術(shù)相結(jié)合,形成綜合能源背景下的樓宇用電系統(tǒng),提升多種能源的利用效率,同時降低能耗。文獻(xiàn)[4]建立了光伏發(fā)電系統(tǒng)、中央空調(diào)系統(tǒng)、冷熱電聯(lián)供系統(tǒng)、能量儲存系統(tǒng)和儲能元件5種能源系統(tǒng)模型,提出了基于冷電聯(lián)供系統(tǒng)的建筑樓宇冷-電綜合能源系統(tǒng)優(yōu)化調(diào)度模型;文獻(xiàn)[5]在保護(hù)區(qū)域電-熱綜合能源系統(tǒng)多主體運(yùn)營系統(tǒng)運(yùn)行參數(shù)隱私的情況下,充分挖掘不同供熱模式下樓宇集群儲能的潛力,建立了一種考慮樓宇不同供熱模式的區(qū)域電-熱綜合能源系統(tǒng)分布式協(xié)調(diào)優(yōu)化調(diào)度模型。
在“雙碳”戰(zhàn)略的大背景下,僅僅考慮經(jīng)濟(jì)性和安全性兩方面優(yōu)化已難以滿足低碳的政策要求。因此,必須將碳排放量納入多能流網(wǎng)智能樓宇優(yōu)化調(diào)度模型中。文獻(xiàn)[6]提出了一種考慮V2B(電動汽車接入樓宇)智慧充電樁群的低碳樓宇優(yōu)化調(diào)度模型;文獻(xiàn)[7]考慮氫儲能系統(tǒng),提出了一種“雙碳”背景下分布式的智慧園區(qū)多樓宇協(xié)調(diào)調(diào)度方法;文獻(xiàn)[8]考慮3 種不同類型的樓宇,在考慮光伏不確定性的影響下,提出一種多類型樓宇電能-碳排放權(quán)聯(lián)合分布式交易方法。但上述研究成果中的能源主體都以光伏、氫儲能為主,包含的能源種類不全。
對于多研究主體的多目標(biāo)優(yōu)化問題,傳統(tǒng)的求解算法主要通過加權(quán)求和的方式將其轉(zhuǎn)化成單目標(biāo)問題進(jìn)行求解,但是多個目標(biāo)的權(quán)重占比依賴于決策者對優(yōu)化目標(biāo)的偏好,在實(shí)際中很難確定[9]。在上述文獻(xiàn)中,使用頻率較高的求解算法為ADMM(交替方法乘子法)。ADMM 具有實(shí)現(xiàn)簡單、隱私保護(hù)性強(qiáng)、收斂性好等優(yōu)點(diǎn)而被廣泛應(yīng)用于樓宇的分布式交易中。文獻(xiàn)[10]提出了一種樓宇群兩階段能量共享策略,建立了基于非合作博弈的自私樓宇能量共享模型,并采用ADMM實(shí)現(xiàn)分布式求解;文獻(xiàn)[11]提出基于電能共享的綜合能源樓宇能量管理框架,并基于ADMM進(jìn)行分布式調(diào)度。近年來,深度強(qiáng)化學(xué)習(xí)算法在各行各領(lǐng)域中廣泛應(yīng)用,并取得了不俗的表現(xiàn)。深度強(qiáng)化學(xué)習(xí)具備高速精準(zhǔn)的決策能力,在解決多目標(biāo)優(yōu)化問題、順序決策問題上有著顯著的優(yōu)勢[12]。文獻(xiàn)[13]在分時電價背景下建立了一種基于DPG(深度策略梯度)算法的智能樓宇群能量優(yōu)化方法,所提方法證明了類似DPG的深度強(qiáng)化學(xué)習(xí)算法對于多目標(biāo)優(yōu)化問題的適用性及求解的快速性。
本文建立了一種涵蓋多種能源的多能流智慧樓宇低碳調(diào)度模型。首先,構(gòu)建了冷-熱-電綜合能源參與的智慧樓宇低碳調(diào)度數(shù)學(xué)模型。考慮多種碳排放來源主體,建立了基于無償碳排放權(quán)配額的階梯型低碳交易模型。所建立的數(shù)學(xué)模型考慮的能源設(shè)備全面,利用不同調(diào)節(jié)資源的互補(bǔ)特性,保證智慧樓宇的經(jīng)濟(jì)最優(yōu)性,并且有效地實(shí)現(xiàn)其綜合能源系統(tǒng)的低碳調(diào)度。然后,為了利用Rainbow算法對所搭建的多能流智慧樓宇低碳調(diào)度模型進(jìn)行求解,將數(shù)學(xué)模型依據(jù)定義轉(zhuǎn)化為MDP(馬爾可夫決策過程)。Rainbow 算法是一種以DQN(深度Q 網(wǎng)絡(luò))算法為基礎(chǔ),將各種改進(jìn)算法相互融合的組合算法,在決策領(lǐng)域得到廣泛應(yīng)用[14]。最后,通過算例證明了所提方法在線調(diào)度負(fù)荷的有效性和優(yōu)越性。
本文的研究對象系統(tǒng)架構(gòu)如圖1所示。該系統(tǒng)分為能源供給側(cè)、智慧樓宇側(cè)和負(fù)荷側(cè)。
圖1 計(jì)及多能流網(wǎng)的智慧樓宇低碳調(diào)度架構(gòu)Fig.1 The low-carbon scheduling architecture for smart buildings with multi-energy flow networks
能源供給側(cè)考慮了配電網(wǎng)、碳市場和天然氣市場,配電網(wǎng)與天然氣市場共同向樓宇內(nèi)部供能,但不支持樓宇電能與燃?xì)夥邓?。碳市場與樓宇內(nèi)部的碳排放配額量進(jìn)行交易;負(fù)荷側(cè)含電、熱、冷、氣4種負(fù)荷類型。電負(fù)荷由樓頂光伏機(jī)組、燃?xì)廨啓C(jī)供電,熱負(fù)荷由燃?xì)廨啓C(jī)與燃?xì)忮仩t共同供熱,冷負(fù)荷由中央空調(diào)和PLBR(光伏溴化鋰制冷機(jī))共同制冷。氣負(fù)荷由天然氣市場直接供氣。智慧樓宇側(cè)主要配備燃?xì)廨啓C(jī)、燃?xì)忮仩t、蓄熱池、中央空調(diào)、PLBR、碳捕集系統(tǒng)等設(shè)備。其中,中央空調(diào)節(jié)能和可再生能源發(fā)電是該運(yùn)行模式下樓宇的主要碳減排方式,樓宇經(jīng)過碳捕集及封存技術(shù)改造,通過捕捉到的CO2配額向碳市場進(jìn)行交易。同時,樓宇也可以向碳市場購買碳配額以支撐新能源出力不足的情況。本文提出的計(jì)及多能流網(wǎng)的智慧樓宇低碳調(diào)度架構(gòu)能夠利用不同能流資源的時空互補(bǔ)性,有效提升樓宇綜合能源系統(tǒng)調(diào)度的經(jīng)濟(jì)性和低碳性。
首先,對多能流低碳樓宇設(shè)備進(jìn)行數(shù)學(xué)建模并給出相應(yīng)的約束條件;然后,采用基準(zhǔn)線法確定低碳樓宇無償碳排放權(quán)配額并引入階梯型碳交易模型;最后,考慮低碳因素,以最小化多能流樓宇運(yùn)行成本為優(yōu)化目標(biāo)構(gòu)建樓宇優(yōu)化調(diào)度模型。
1)多能流功率平衡約束
多能流低碳樓宇電、熱、冷、氣功率平衡約束如式(1)—(4)所示。
2)樓頂光伏設(shè)備建模及約束
樓頂光伏的輸出功率模型及其約束條件如式(5)和式(6)所示。
3)燃?xì)廨啓C(jī)設(shè)備建模及約束
燃?xì)廨啓C(jī)輸出電功率、熱功率模型及其約束條件如式(7)—(11)所示。
4)燃?xì)忮仩t設(shè)備建模及約束
燃?xì)忮仩t通過燃燒天然氣制熱,其輸出熱功率模型及其約束條件如式(12)和式(13)所示。
5)中央空調(diào)設(shè)備建模及約束
本文考慮中央空調(diào),空調(diào)通過消耗電能制冷,可通過輸入的電功率計(jì)算其制冷量,其輸出的制冷量模型及其約束條件如式(14)和式(15)所示。
6)PLBR設(shè)備建模及約束
PLBR利用余熱作為驅(qū)動熱源制冷,其輸出冷功率模型及其約束條件如式(16)和式(17)所示。
7)碳捕集設(shè)備建模及約束
碳捕集設(shè)備須考慮其處理能耗,其消耗功率模型及其約束條件如式(18)和式(19)所示。
8)蓄熱槽設(shè)備建模及約束
當(dāng)蓄熱槽放熱、儲熱時,其功率模型及其約束條件如式(21)—(25)所示。
碳排放權(quán)的交易實(shí)質(zhì)上是主體被賦予一定的碳排放權(quán)后,由于環(huán)境的原因,把碳排放權(quán)這種權(quán)力指標(biāo)作為商品投入市場交易。碳交易帶來的利益可以激發(fā)主體對于降低碳排放量的意愿,以達(dá)到控制總碳排放量的目的。
2.2.1 初始碳排放權(quán)配額
目前,中國碳市場大多選擇對初始碳排放權(quán)配額進(jìn)行無償分配[15],在無償分配中監(jiān)管部門通常主要使用基準(zhǔn)線法來確定初始碳排放配額[16]?;鶞?zhǔn)線法是通過參考行業(yè)整體排放數(shù)據(jù)水平設(shè)置排放強(qiáng)度,并根據(jù)該基礎(chǔ)發(fā)放配額。
對于低碳樓宇來說,須對燃?xì)廨啓C(jī)、燃?xì)忮仩t和配電網(wǎng)購電的碳排放權(quán)初始配額,碳排放權(quán)配額可以根據(jù)發(fā)電量或發(fā)熱量乘以碳排放權(quán)分配系數(shù)得到,其計(jì)算公式如式(26)—(30)所示。
2.2.2 碳排放量計(jì)算
對于低碳樓宇來說,碳排放量主要來自燃?xì)廨啓C(jī)、燃?xì)忮仩t、配電網(wǎng)購電和中央空調(diào)。本文引入生命周期評價法[17]計(jì)算碳排放量,該方法充分考慮了每條能流的碳軌跡,可以更加準(zhǔn)確地計(jì)算出系統(tǒng)總碳排放量,其計(jì)算方法如式(31)—(36)所示。
2.2.3 獎懲階梯型碳交易成本模型
為了鼓勵樓宇運(yùn)營商積極參與碳交易市場,本文在傳統(tǒng)階梯型碳交易模型的基礎(chǔ)上引入獎懲機(jī)制。當(dāng)樓宇的碳排放量小于無償?shù)某跏继寂欧艡?quán)配額時,樓宇可以向碳市場出售多余的配額并獲得一定額度的獎勵補(bǔ)貼,獎勵補(bǔ)貼的計(jì)算方式是階梯式的,換言之,剩余的配額越多,獲益越高;反之,當(dāng)樓宇的碳排放量大于初始碳排放配額時則需要向碳市場購買額外的配額。同樣,懲罰的計(jì)算方式也與此相似,即碳排放量越大,交易價格越高。獎懲階梯型碳交易成本計(jì)算模型如式(37)和式(38)所示。
本文構(gòu)建的目標(biāo)函數(shù)從經(jīng)濟(jì)性和低碳性兩個角度出發(fā),對多能流樓宇以總運(yùn)行成本最小為目標(biāo)函數(shù),建立優(yōu)化低碳調(diào)度模型,其目標(biāo)函數(shù)如式(39)所示。
1)樓宇向配電網(wǎng)購電成本
樓宇向配電網(wǎng)購電成本如式(40)所示。
2)燃?xì)廨啓C(jī)的運(yùn)行成本
燃?xì)廨啓C(jī)的運(yùn)行成本如式(41)所示:
3)燃?xì)忮仩t的運(yùn)行成本
燃?xì)忮仩t的運(yùn)行成本如式(42)所示。
4)碳捕集設(shè)備的運(yùn)行成本
碳捕集設(shè)備的運(yùn)行成本如式(43)所示。
5)設(shè)備運(yùn)行維護(hù)成本
設(shè)備運(yùn)行維護(hù)成本如式(44)所示。
式中:N為樓宇中設(shè)備的數(shù)量;ct,j為t時刻設(shè)備j輸出單位功率的運(yùn)行維護(hù)成本;Pt,j為t時刻設(shè)備j輸出的功率。
強(qiáng)化學(xué)習(xí)算法的優(yōu)化基礎(chǔ)是將優(yōu)化調(diào)度模型轉(zhuǎn)換為MDP 模型。MDP 模型假設(shè)所有狀態(tài)信息均無誤地傳遞給決策者;決策者按照強(qiáng)化學(xué)習(xí)算法的原則來求解MDP模型,得到訓(xùn)練動作;在執(zhí)行訓(xùn)練之后,新狀態(tài)被更新至決策者,從而進(jìn)行新一輪訓(xùn)練迭代。因此,基于深度強(qiáng)化學(xué)習(xí)算法的多能流低碳調(diào)度問題,需要將第2章中搭建的數(shù)學(xué)模型轉(zhuǎn)換為MDP模型進(jìn)行描述。具體構(gòu)建架構(gòu)如圖2所示。
圖2 深度強(qiáng)化學(xué)習(xí)方法構(gòu)建過程Fig.2 The construction process of deep reinforcement learning
根據(jù)MDP模型的定義,將所提出的多能流低碳調(diào)度問題定義為由狀態(tài)空間St、行動空間At、獎勵函數(shù)Rt、轉(zhuǎn)移概率Pt及累計(jì)折扣回報衰減系數(shù)γ組成的五元組(St,At,Rt,Pt,γ)。
獎勵即智能體感知到外界環(huán)境并采取行動后所獲得的獎賞值。對于所提出的多能流樓宇低碳調(diào)度問題的MDP模型,認(rèn)為其中的獎勵函數(shù)Rt為目標(biāo)函數(shù)Jt的負(fù)值,如式(47)所示。
在優(yōu)化調(diào)度過程中,不同可調(diào)度設(shè)備執(zhí)行模型下發(fā)的優(yōu)化動作后,樓宇的運(yùn)行狀態(tài)是可能發(fā)生改變的。于是,定義樓宇運(yùn)行狀態(tài)發(fā)生改變的概率為所建立的MDP模型的狀態(tài)轉(zhuǎn)移概率[18],其數(shù)值一般由歷史運(yùn)行數(shù)據(jù)庫決定,其表示形式如式(48)所示。
式中:M和L分別為樓宇正常運(yùn)行狀態(tài)和異常運(yùn)行狀態(tài)的數(shù)量;PA為M×M階轉(zhuǎn)移概率矩陣,表示樓宇運(yùn)行狀態(tài)從正常狀態(tài)轉(zhuǎn)移到另一種正常狀態(tài)的概率;PB為M×L階轉(zhuǎn)移概率矩陣,表示樓宇運(yùn)行狀態(tài)從正常狀態(tài)轉(zhuǎn)移到越限狀態(tài)的概率;0L×M為L×M階零矩陣;IL×L為L×L階單位矩陣。
采用目前較為流行的DQN算法的改進(jìn)版——Rainbow 算法來建立多能流樓宇低碳調(diào)度MDP 模型。Rainbow 算法集成了多種基于DQN 的改進(jìn)機(jī)制,如Double DQN、Dueling DQN、優(yōu)先重放緩沖區(qū)和dropout 層。它解決了經(jīng)典DQN 算法在收斂性、泛化性和穩(wěn)定性方面的不足。其應(yīng)用過程如圖3所示。
圖3 Rainbow算法的應(yīng)用過程Fig.3 The application process of Rainbow algorithm
使用Rainbow 算法求解第3 章所搭建的MDP模型的求解過程分為兩個部分:訓(xùn)練過程和應(yīng)用過程。其中,訓(xùn)練過程是算法智能體通過與環(huán)境互動擬合出狀態(tài)到最優(yōu)動作集(樓宇控制設(shè)備運(yùn)行功率)之間的復(fù)雜映射關(guān)系的過程,評判標(biāo)準(zhǔn)以所定義的獎勵函數(shù)最大化為目標(biāo)優(yōu)化算法網(wǎng)絡(luò)參數(shù)。訓(xùn)練迭代過程中的損失函數(shù)如式(49)所示。
式中:Q(St,At)為動作-價值函數(shù),其具體算法如式(50)所示。
式中:v(St)為狀態(tài)評估值,用于評估當(dāng)前狀態(tài)的好壞;A(St,At)為動作優(yōu)勢評估值,表明當(dāng)前狀態(tài)下某一個動作的好壞;|A|為動作空間的設(shè)備動作總數(shù)。
訓(xùn)練過程結(jié)束后,直接利用收斂的算法網(wǎng)絡(luò)進(jìn)行決策,制定多能流樓宇低碳協(xié)調(diào)調(diào)度的最優(yōu)策略。其訓(xùn)練流程如圖4所示。
圖4 Rainbow算法的訓(xùn)練過程Fig.4 The training process of Rainbow algorithm
參考文獻(xiàn)[19-20]進(jìn)行設(shè)備參數(shù)設(shè)置,對上文所述的多能流樓宇低碳調(diào)度策略進(jìn)行驗(yàn)證。算例系統(tǒng)包含一套樓頂光伏設(shè)備、一臺燃?xì)廨啓C(jī)、一臺燃?xì)忮仩t、一臺碳捕集設(shè)備、一個蓄熱槽、若干臺中央空調(diào)和若干臺PLBR。配電網(wǎng)購電分時購電價格如圖5所示。設(shè)置24 h 作為一個調(diào)度周期。仿真硬件參數(shù)如表1所示。
表1 硬件配置Table 1 Hardware configuration
圖5 分時電價Fig.5 Time-of-use electricity price
訓(xùn)練1 200 次的時間為120.45 min。由圖6 可知,智能體通過逐步學(xué)習(xí)的方式來獲得更多的獎勵。在訓(xùn)練初期,智能體沒有經(jīng)驗(yàn),以隨機(jī)選擇動作的方式來探索決策環(huán)境。因此,在0~50次的訓(xùn)練過程中,獎勵出現(xiàn)了明顯的振蕩。200 次往后,智能體根據(jù)前期積累的學(xué)習(xí)經(jīng)驗(yàn)來模擬最優(yōu)策略動作,獎勵值也趨于穩(wěn)定在1.4萬元左右。
圖6 平均獎勵Fig.6 Average reward
由圖7可知,訓(xùn)練過程通過追求設(shè)定損失以達(dá)到收斂穩(wěn)定。在0~50次的訓(xùn)練過程中,由于智能體的隨機(jī)動作導(dǎo)致?lián)p失值較高。后續(xù)訓(xùn)練過程隨著智能體逐漸積累經(jīng)驗(yàn),其訓(xùn)練損失值也逐步穩(wěn)定在一個低值。
圖7 平均損失Fig.7 Average loss
訓(xùn)練完成后,多能流樓宇可以適應(yīng)動態(tài)變化的環(huán)境并完成低碳調(diào)度。中國上海某一夏季典型日該樓宇電、熱、冷3種負(fù)荷的預(yù)測值及各單元低碳調(diào)度結(jié)果分別如圖8—10所示。需要說明的是,由于氣負(fù)荷直接由天然氣市場供給,本文暫不考慮其調(diào)度問題。同時,碳排放和碳捕集情況如圖11所示。
圖8 電負(fù)荷平衡Fig.8 Power load balance
圖9 熱負(fù)荷平衡Fig.9 Heating load balance
由圖8—10 可知,在00:00—06:00 時段,樓頂光伏幾乎沒有出力,此時主要通過配電網(wǎng)購電的方式進(jìn)行電能供給,但電負(fù)荷需求較小,因此較小的燃?xì)廨啓C(jī)出力即可滿足負(fù)荷需求,CO2排放量接近于0。此時,中央空調(diào)大量吸收富余的電能并轉(zhuǎn)換成冷能供應(yīng)給冷負(fù)荷。同時在這個時間段熱負(fù)荷需求較大,主要由燃?xì)廨啓C(jī)、燃?xì)忮仩t、蓄熱槽提供熱能。
在07:00—17:00 時段,光伏出力較大,電、冷負(fù)荷呈上升趨勢,熱負(fù)荷呈下降趨勢。由于電負(fù)荷大量增加,燃?xì)廨啓C(jī)增加出力,向配電網(wǎng)大量購電,導(dǎo)致CO2排放量大大增加。熱負(fù)荷的需求相較于夜晚降低,主要由燃?xì)廨啓C(jī)提供,此時蓄熱槽進(jìn)行儲熱。多余的熱能通過PLBR 轉(zhuǎn)換成冷能供應(yīng)給冷負(fù)荷。
在18:00—23:00 時段,電、冷負(fù)荷呈下降趨勢,熱負(fù)荷呈上升趨勢。此時,光伏不再出力,樓宇主要通過配電網(wǎng)購電的方式進(jìn)行電能供給。燃?xì)廨啓C(jī)出力也減小,發(fā)電排放的CO2幾乎全部被捕集,因此碳捕集設(shè)備能耗有所增大。由于夜晚溫度下降,熱負(fù)荷需求增加,重新由燃?xì)廨啓C(jī)及燃?xì)忮仩t提供熱能,蓄熱槽放熱。冷負(fù)荷通過中央空調(diào)吸收電能提供。
為了綜合評價本文所提算法的效果,選取傳統(tǒng)基于Cplex求解器的優(yōu)化結(jié)果和使用其他深度強(qiáng)化學(xué)習(xí)算法的優(yōu)化結(jié)果作為對比算法。對比結(jié)果如表2所示,主要從決策結(jié)果、訓(xùn)練時間、決策時間3個方面進(jìn)行對比。
表2 算法對比Table 2 Comparison of algorithms
由表2可知,Rainbow算法的整體性能優(yōu)于傳統(tǒng)的Cplex 算法。相較于其他深度強(qiáng)化學(xué)習(xí)算法,DQN 的收斂性能、決策時間均最差。作為DQN算法的改進(jìn)算法,Dueling DQN 的性能有較大提升,但與Rainbow 算法相比,性能仍有一定差距??梢钥闯?,Rainbow算法以訓(xùn)練時間為代價,計(jì)算出了更優(yōu)的調(diào)度策略。以Cplex算法的優(yōu)化結(jié)果為基準(zhǔn)值,Rainbow算法的運(yùn)行成本相較于其他算法分別降低了7.34%、5.78%和4.25%。
本文提出一種基于深度強(qiáng)化學(xué)習(xí)的多能流樓宇低碳調(diào)度方法。首先,根據(jù)智慧樓宇的實(shí)際碳排放量建立了一種獎懲階梯型碳排放權(quán)交易機(jī)制。其次,面向碳市場和多能流耦合網(wǎng)絡(luò),以最小化運(yùn)行成本為目標(biāo)函數(shù),建立多能流低碳樓宇調(diào)度模型,考慮到智慧樓宇負(fù)荷用能行為動態(tài)特性明顯的特點(diǎn),將該調(diào)度問題轉(zhuǎn)換為深度強(qiáng)化學(xué)習(xí)框架的MDP。然后,利用Rainbow 算法聯(lián)合智慧樓宇高維負(fù)荷用能行為歷史數(shù)據(jù)庫進(jìn)行優(yōu)化調(diào)度問題的求解。最后,通過仿真分析驗(yàn)證了所提優(yōu)化調(diào)度模型的可行性及有效性。主要結(jié)論如下:
1)獎懲階梯型碳排放權(quán)交易機(jī)制的引入能有效降低智慧樓宇45.6%的碳排放量并消納25.1%的新能源多余出力。
2)本文所提出的Rainbow 算法克服了傳統(tǒng)深度強(qiáng)化學(xué)習(xí)算法的狀態(tài)和動作空間維度低的問題。同時相較于傳統(tǒng)的優(yōu)化算法,Rainbow算法的整體決策精度平均提升5.79%。
在今后的研究中將進(jìn)一步考慮電力系統(tǒng)、天然氣系統(tǒng)、熱力系統(tǒng)、碳系統(tǒng)的信息耦合隱私保護(hù),并探索多個智慧樓宇的協(xié)同優(yōu)化調(diào)度方法。