徐先峰,趙 依,龔 美,陳雨露
(長安大學(xué)電子與控制工程學(xué)院,陜西 西安 710064)
隨著電力生產(chǎn)和市場化消費(fèi)程度的不斷提高,電力負(fù)荷預(yù)測如今已經(jīng)成為能源管理系統(tǒng)的重要組成部分[1]。準(zhǔn)確的電力負(fù)荷預(yù)測結(jié)果有助于發(fā)電廠合理地調(diào)度發(fā)電量,安排發(fā)電機(jī)組的起停,提高發(fā)電設(shè)備利用率,降低發(fā)電成本。因此,精確負(fù)荷預(yù)測是實(shí)現(xiàn)是保證電力系統(tǒng)穩(wěn)定、經(jīng)濟(jì)運(yùn)行和電網(wǎng)科學(xué)管理的基礎(chǔ),具有重要意義[2-3]。
在負(fù)荷預(yù)測方面,傳統(tǒng)的預(yù)測模型有自回歸移動(dòng)平均模型(ARIMA)[4]、支持向量機(jī)(SVM)[5]、BP神經(jīng)網(wǎng)絡(luò)[6]等。其中,ARIMA是一種時(shí)間序列分析模型,它具有所需數(shù)據(jù)量少、計(jì)算速度快等優(yōu)點(diǎn), 在擬合和預(yù)測平穩(wěn)的線性關(guān)系數(shù)據(jù)的問題上具有較好的能力。但電力負(fù)荷數(shù)據(jù)具有非線性特點(diǎn),因此單一的ARIMA算法在電力負(fù)荷的預(yù)測上精度有限。近年來,深度學(xué)習(xí)由于其強(qiáng)大的數(shù)據(jù)挖掘和建模能力,也逐漸應(yīng)用于電力負(fù)荷的預(yù)測。目前使用較多的深度學(xué)習(xí)模型有長短期記憶網(wǎng)絡(luò)(LSTM)[7],深度信念網(wǎng)絡(luò)(DBN)[8],卷積神經(jīng)網(wǎng)絡(luò)(CNN)[9]等。LSTM網(wǎng)絡(luò)避免了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)“梯度爆炸”的問題,具有較高的靈活性并能深度挖掘數(shù)據(jù)中潛在非線性關(guān)系,因此在負(fù)荷預(yù)測上表現(xiàn)出了巨大優(yōu)勢。
隨著機(jī)器學(xué)習(xí)方法在負(fù)荷預(yù)測中的廣泛應(yīng)用,預(yù)測模型也逐漸由單一模型向組合模型轉(zhuǎn)變。文獻(xiàn)[10]將小波分解與二階灰色神經(jīng)網(wǎng)絡(luò)相結(jié)合,提高負(fù)荷預(yù)測精度;文獻(xiàn)[11]提出基于小波變換和模糊自適應(yīng)共振理論網(wǎng)絡(luò)的組合算法;文獻(xiàn)[12]采用CEEMDAN排列熵方法將負(fù)荷時(shí)間序列分解為不同子序列,并根據(jù)子序列不同的特性分別構(gòu)建LIESN預(yù)測模型。組合模型由于能融合多種模型的優(yōu)勢,彌補(bǔ)單個(gè)模型的缺陷,所以往往能夠提供比單一模型更準(zhǔn)確的預(yù)測結(jié)果。
另一方面,充分考慮外部因素的影響有助于提高負(fù)荷預(yù)測精度,然而計(jì)及外部因素影響將會提高輸入信號的維數(shù),從而加重了預(yù)測模型的學(xué)習(xí)負(fù)擔(dān),影響了學(xué)習(xí)效率,而特征降維方法能有效地解決該問題。文獻(xiàn)[13]利用主成分分析(PCA)對多維負(fù)荷原始數(shù)據(jù)進(jìn)行降維預(yù)處理;文獻(xiàn)[14]將獨(dú)立成分分析(ICA)用于特征提取,并結(jié)合BPNN模型進(jìn)行負(fù)荷預(yù)測;文獻(xiàn)[15]采用灰色關(guān)聯(lián)度分析(GRA)定量分析多元負(fù)荷之間以及和各氣象影響因素之間的耦合性,并結(jié)合LSTM網(wǎng)絡(luò)實(shí)現(xiàn)多元負(fù)荷短期預(yù)測。隨機(jī)森林是一種準(zhǔn)確性高、泛化能力強(qiáng)、易于使用的集成算法,除了常用于解決分類、回歸等問題,也可在特征降維問題中作為特征選擇的方法[16]。文獻(xiàn)[17]利用基于隨機(jī)森林的平均精確率減少法(Mean decrease accuracy)進(jìn)行特征排序,結(jié)合DBN實(shí)現(xiàn)母線負(fù)荷預(yù)測。本文擬采用基于隨機(jī)森林的平均不純度減少法(Mean Decrease Impurity, MDI)實(shí)現(xiàn)多維數(shù)據(jù)的特征降維。
基于上述分析,本文在使用MDI作為特征降維方法的基礎(chǔ)上,將綜合各模型的優(yōu)點(diǎn),提出一種融合CEEMDAN、ARIMA和LSTM的組合預(yù)測算法。該算法在利用CEEMDAN對電力負(fù)荷進(jìn)行分解獲取低頻以及高頻分量后,結(jié)合ARIMA挖掘低頻的平穩(wěn)性優(yōu)勢以及LSTM挖掘高頻的隨機(jī)性優(yōu)勢,對低頻、高頻分量進(jìn)行分別預(yù)測,并疊加作為最終預(yù)測結(jié)果。將其與其它單一算法和組合算法進(jìn)行對比,實(shí)驗(yàn)證明該組合模型能達(dá)到更佳的負(fù)荷預(yù)測精度。
隨機(jī)森林是通過有放回的重復(fù)采樣(Bootstrap Sampling)方式,從原始樣本集中隨機(jī)抽取樣本作為樣本子集,再基于各樣本子集生成決策樹并組成森林集合。
在構(gòu)建隨機(jī)森林的過程中,決策樹中的每處節(jié)點(diǎn)分裂都是基于某個(gè)最優(yōu)的特征作為分裂條件。針對分類問題,可以利用不純度來確定節(jié)點(diǎn)分裂的最優(yōu)條件,即確定在何處進(jìn)行分類以及進(jìn)行分裂的特征變量。因此,在訓(xùn)練決策樹的過程中,可以通過計(jì)算每個(gè)特征減少了多少樹的不純度來作為衡量其重要程度的依據(jù)。平均不純度減少的越多,說明該特征的重要度越高,進(jìn)而達(dá)到特征選擇的目的[18-19]。
基尼指數(shù)是度量樣本集合的不純度的常用計(jì)算方法?;嶂笖?shù)表示在集合中一個(gè)隨機(jī)樣本被分錯(cuò)的概率,集合D的基尼指數(shù)的定義如下[16]
(1)
式中,B為訓(xùn)練樣本中樣本種類數(shù),pb表示集合D中隨機(jī)選中的樣本屬于類別b的概率,(1-pb)表示樣本被分錯(cuò)的概率。
如果樣本集合D根據(jù)特征A而被分裂為D1和D2兩個(gè)子集合,則在特征A的條件下,集合D的基尼指數(shù)為
(2)
式中,|D|表示集合D中的樣本數(shù),|D1| 表示集合D1中的樣本數(shù),|D2|表示集合D2中的樣本數(shù)。
若決策樹經(jīng)由某特征進(jìn)行分裂后平均基尼指數(shù)減少越多,即經(jīng)過此種特征分裂后集合變純的程度越大,就代表該特征的分類能力和重要程度越大,反之同理,因而計(jì)算平均不純度減少可以作為一種特征重要性評估的方法。平均不純度減少的定義為
(3)
式中,K為決策樹的個(gè)數(shù),Ginin(D)表示第n棵決策樹分裂前集合D的基尼指數(shù),Ginin(D,A)表示第n棵決策樹經(jīng)過特征A分裂后集合D的基尼指數(shù)。
具有自適應(yīng)白噪聲的完整經(jīng)驗(yàn)?zāi)B(tài)分解(Complete ensemble empirical mode decomposition with adaptive noise, CEEMDAN)是一種智能算法,可分解復(fù)雜的時(shí)間序列。CEEMDAN不僅突破了傅立葉變換的局限性,而且不存在類似小波變換中預(yù)先選擇小波基函數(shù)的問題,具有良好的時(shí)頻分辨率和適應(yīng)性[20]。針對信號X(t)的CEEMDAN算法分解步驟如下:
1)生成含噪信號集Xi(t)
Xi(t)=X(t)+ωi(t)
(4)
式中,ωi(t)(i=1,2,…,I)為滿足高斯分布的白噪聲,I為集合樣本數(shù)。
(5)
3)計(jì)算一階殘差分量
(6)
4)計(jì)算二階IMF
(7)
式中,Ej(·)表示信號的j階IMF;εj為控制白噪聲能量的參數(shù)。
5)對于k階分量,(k=2,3,…,K),K為設(shè)置的最高IMF階次,計(jì)算k階殘差
(8)
6)計(jì)算k+1階分量
(9)
7)重復(fù)步驟5、步驟6,直到殘差不可再分解或達(dá)到最高IMF階次,最終殘差滿足
(10)
信號可表示為
(11)
由于電力負(fù)荷受到溫度、濕度、電價(jià)等眾多不確定因素的影響,使負(fù)荷呈現(xiàn)出高度復(fù)雜的變化,直接對原始數(shù)據(jù)進(jìn)行建模將導(dǎo)致模型出現(xiàn)學(xué)習(xí)不充分、迭代時(shí)間過長等缺陷。為此,本文首先針對包含歷史負(fù)荷和5種外部影響因素的6維原始電力負(fù)荷數(shù)據(jù),采用MDI方法實(shí)現(xiàn)輸入數(shù)據(jù)特征的特征降維,提高學(xué)習(xí)模型的訓(xùn)練效率。之后以降維后的數(shù)據(jù)集為輸入(綜合考量原有數(shù)據(jù)集的維度數(shù)目以及降至不同維度時(shí)的實(shí)驗(yàn)效果,最終確定目標(biāo)維度為3維),構(gòu)建CEEMDAN-ARIMA-LSTM組合模型,具體構(gòu)建原理如下:
CEEMDAN-ARIMA-LSTM算法以將負(fù)荷序列看成由一個(gè)低頻成分和一個(gè)高頻成分的累加和為前提,在利用CEEMDAN算法對原始電力負(fù)荷進(jìn)行分解得到低頻分量和高頻分量后,剔除噪聲分量(IMF1),再分別采用ARIMA和LSTM模型對低頻(線性)成分和高頻(非線性)成分進(jìn)行建模、預(yù)測,最后將ARIMA和LSTM模型的預(yù)測結(jié)果線性疊加得到最終的預(yù)測值。該組合模型的核心思想在于充分發(fā)揮ARIMA模型和LSTM模型分別在擬合線性時(shí)間序列和非線性時(shí)間序列方面的優(yōu)勢,兼顧負(fù)荷數(shù)據(jù)表現(xiàn)出的線性及非線性特性。具體實(shí)驗(yàn)流程如圖1所示。
圖1 CEEMDAN-ARIMA-LSTM算法流程圖
本文實(shí)驗(yàn)數(shù)據(jù)選用了英格蘭地區(qū)2011年的電力負(fù)荷數(shù)據(jù),包含歷史負(fù)荷、溫度、濕度、日前發(fā)電電價(jià)、日前邊際損失電價(jià)、實(shí)時(shí)邊際損失電價(jià)六個(gè)影響因素在內(nèi)的總計(jì)4392條24點(diǎn)實(shí)時(shí)數(shù)據(jù)樣本信息(采樣間隔為1小時(shí))。其中訓(xùn)練集為6月1日至11月27日的4320條數(shù)據(jù)樣本,測試集為11月28日至11月30日的72條數(shù)據(jù)樣本。
用于評價(jià)實(shí)驗(yàn)結(jié)果的指標(biāo)為平均絕對百分誤差(MAPE)和均方誤差(MSE),其公式為
(12)
(13)
針對特征降維過程,利用MDI方法作為特征篩選算法。通過直接將溫度、濕度、日前發(fā)電電價(jià)、日前邊際損失電價(jià)、實(shí)時(shí)邊際損失電價(jià)五個(gè)外部影響因素對電力負(fù)荷影響程度的大小進(jìn)行排序,以篩選出與電力負(fù)荷相關(guān)性最強(qiáng)的兩個(gè)主要因素,并與歷史負(fù)荷形成預(yù)測模型的輸入數(shù)據(jù)集。
為了提高模型的收斂速度,避免由于負(fù)荷與各因素之間量綱的不同影響降維效果,對原始樣本數(shù)據(jù)分類別進(jìn)行了歸一化處理,公式如下
(14)
式中,X*為歸一化后的值,X為樣本序列值,Xmin為樣本序列中的最小值,Xmax為樣本序列中的最大值。
利用MDI計(jì)算得出各特征變量的重要性評分如圖2所示。
圖2 特征重要性評分
由圖2可見,各個(gè)特征變量都對負(fù)荷的變化產(chǎn)生了一定影響,但日前發(fā)電電價(jià)、日前邊際損失單價(jià)的重要性評分最高,說明這兩個(gè)因素最能代表外部因素對負(fù)荷變化的主要影響,與電力負(fù)荷的相關(guān)性最強(qiáng)。
為了進(jìn)一步驗(yàn)證MDI特征降維算法的有效性和優(yōu)越性,本文還引入了常用的兩種特征降維方法PCA[13]、GRA[15]作為對比,并把使用不同方法特征降維后的數(shù)據(jù)和未經(jīng)特征降維后的數(shù)據(jù)分別輸入LSTM和BP神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測,預(yù)測結(jié)果如表1所示。
如表1所示,應(yīng)用MDI、GRA、PCA三種方法進(jìn)行特征降維后,LSTM和BP模型的預(yù)測結(jié)果精度都有明顯提升,但MDI的提升效果最好。其中,應(yīng)用MDI方法后的LSTM模型較未降維的模型,預(yù)測結(jié)果的MAPE值降低了0.34%,MSE值降低了26363.89;BP神經(jīng)網(wǎng)絡(luò)模型較未降維的模型,MAPE值降低了0.90%,MSE值降低了186,988.82,有效驗(yàn)證了MDI特征降維算法在負(fù)荷預(yù)測中提升模型學(xué)習(xí)效率的重要作用。
表1 負(fù)荷預(yù)測中特征降維效果對比
對原始數(shù)據(jù)集進(jìn)行特征降維后,為了更好地對比所提組合模型與單一LSTM模型之間的預(yù)測性能,將分別設(shè)置提前1小時(shí)預(yù)測的縱向?qū)Ρ葘?shí)驗(yàn)。針對CEEMDAN-ARIMA-LSTM模型展開的具體實(shí)驗(yàn)過程如下。
首先采用CEEMDAN算法將原始負(fù)荷數(shù)據(jù)進(jìn)行分解,加入I=500組的白噪聲信號,標(biāo)準(zhǔn)差設(shè)置為0.2,分解后得到的子序列圖如圖3所示。
圖3 CEEMDAN算法分解結(jié)果
依據(jù)提取順序,將第一個(gè)IMF分量(圖中IMF1)視為噪聲并剔除,剩余的IMF分量均代表著原始數(shù)據(jù)中不同的非線性特征,在本實(shí)驗(yàn)中視為同類模式,計(jì)算其累加和并將其視作高頻成分,殘余分量(圖中R10)視為低頻成分。重構(gòu)后的信號曲線如圖4所示。
圖4 重構(gòu)后的高頻與低頻信號
接下來分別利用ARIMA和LSTM模型對重構(gòu)后的低頻成分和高頻成分進(jìn)行擬合和預(yù)測,兩個(gè)模型的主要實(shí)驗(yàn)參數(shù)設(shè)置如表2所示。
表2 各模型實(shí)驗(yàn)參數(shù)設(shè)置
利用CEEMDAN-ARIMA-LSTM模型以及單一LSTM模型對2011年11月28日至2011年11月30日的電力負(fù)荷進(jìn)行預(yù)測所得到的曲線如圖5所示。
圖5 CEEMDAN-ARIMA-LSTM與單一LSTM模型預(yù)測結(jié)果對比圖
從圖5可以看出,CEEMDAN-ARIMA-LSTM組合模型與單一的LSTM模型相比,預(yù)測得到的曲線更加貼合真實(shí)曲線,尤其波峰和波谷位置的改善效果最為明顯。為了對預(yù)測性能進(jìn)行更加科學(xué)準(zhǔn)確的評估,表3計(jì)算了兩個(gè)模型的性能指標(biāo)。
表3 各模型預(yù)測性能指標(biāo)
實(shí)驗(yàn)結(jié)果表明,在利用信號處理方法將原始負(fù)荷序列進(jìn)行分解后,基于高頻與低頻信號建立的組合預(yù)測模型的預(yù)測能力要明顯優(yōu)于單一的模型。其中CEEMDAN-ARIMA-LSTM模型較單一LSTM模型的MAPE值降低了0.38%,MSE值降低了29546.26。探究其原因正是在于利用多種異質(zhì)的學(xué)習(xí)機(jī)搭建的組合模型,克服了單一預(yù)測模型受限于本身固有結(jié)構(gòu)而存在性能上限的缺陷,實(shí)現(xiàn)了模型之間的優(yōu)勢互補(bǔ),進(jìn)而提高預(yù)測精度。
為了進(jìn)一步驗(yàn)證所提算法的優(yōu)越性,增加不同組合模型之間預(yù)測性能優(yōu)劣的對比,本實(shí)驗(yàn)還將AutoEncode-VMD-BP組合模型作為對照。兩種組合模型預(yù)測誤差曲線如圖6所示。
圖6 組合模型預(yù)測誤差曲線圖
顯然,基于深度學(xué)習(xí)LSTM神經(jīng)網(wǎng)絡(luò)建立的組合預(yù)測模型預(yù)測能力優(yōu)于基于淺層神經(jīng)網(wǎng)絡(luò)BPNN建立的組合預(yù)測模型,其中CEEMDAN-ARIMA-LSTM模型在各點(diǎn)的預(yù)測誤差基本控制在[-400,200]之間,這也直接顯示了深度學(xué)習(xí)在挖掘數(shù)據(jù)間潛在非線性關(guān)系方面的優(yōu)秀能力,進(jìn)一步驗(yàn)證了本文所提算法的優(yōu)越性。
本文首先基于LSTM網(wǎng)絡(luò)和BP神經(jīng)網(wǎng)絡(luò),研究了利用基于隨機(jī)森林的平均不純度減少法對原始數(shù)據(jù)集進(jìn)行有效降維后在提升電力負(fù)荷預(yù)測效果方面的影響,并在完成特征降維的基礎(chǔ)上,提出了基于信號分解的組合預(yù)測模型CEEMDAN-ARIMA-LSTM。實(shí)驗(yàn)結(jié)果表明,在考慮多類外部影響因素的電力負(fù)荷預(yù)測過程中,采用有效的特征篩選方法剔除次要影響變量可以顯著提高模型的學(xué)習(xí)效率,改善模型的預(yù)測性能。此外,本文所提出的新的組合預(yù)測模型與單一LSTM模型以及AutoEncode-VMD-BP模型相比,MAPE值達(dá)到0.77%,具有更高的預(yù)測精度,說明融合信號處理技術(shù)與深度學(xué)習(xí)的組合預(yù)測模型能夠有效突破單一模型的預(yù)測瓶頸,具有更高的預(yù)測精度和工程應(yīng)用價(jià)值。