徐 艷, 周建勛, 金 鑫, 王仕通, 易靈芝
(1.湖南電科院檢測集團(tuán)有限公司,湖南 長沙 410000;2.湖南電器科學(xué)研究院有限公司,湖南 長沙 410000;3.中國長江三峽集團(tuán)有限公司湖南分公司,湖南 長沙 410000;4.湘潭大學(xué) 自動化與電子信息學(xué)院,湖南 湘潭 411100)
在“碳達(dá)峰,碳中和”的背景下,以風(fēng)能、光能為代表的可再生能源開發(fā)前景廣闊[1-2]。但風(fēng)能間歇性和波動性的特點(diǎn)給電網(wǎng)的平穩(wěn)運(yùn)行造成了很大的挑戰(zhàn),這導(dǎo)致電網(wǎng)企業(yè)限制風(fēng)電并網(wǎng),造成棄風(fēng)行為[3]。提高風(fēng)電出力的穩(wěn)定性和預(yù)測的精準(zhǔn)性成為了亟待解決的問題,同時對風(fēng)力發(fā)電做出實(shí)時有效的預(yù)測對風(fēng)電開發(fā)和電網(wǎng)的平穩(wěn)運(yùn)行均至關(guān)重要。
本文主要以短期風(fēng)電功率預(yù)測為研究對象,通過對0~72 h時間段的風(fēng)電功率進(jìn)行預(yù)測,提高電能質(zhì)量。目前已有文獻(xiàn)通過小波分解(WD)將原始時間序列分解為一系列的子數(shù)據(jù),并用人工神經(jīng)網(wǎng)絡(luò)(ANN)進(jìn)行預(yù)測[4],該研究提出的新模型能夠在單一網(wǎng)絡(luò)模型的基礎(chǔ)上提高預(yù)測的準(zhǔn)確度和穩(wěn)定性。文獻(xiàn)[5-7]通過引入粒子群優(yōu)化算法(PSO)和遺傳算法(GA)對神經(jīng)網(wǎng)絡(luò)的參數(shù)進(jìn)行無監(jiān)督尋優(yōu),通過群智能算法強(qiáng)大的搜索能力為神經(jīng)網(wǎng)絡(luò)匹配了合適的模型參數(shù),達(dá)到了提高風(fēng)電預(yù)測精度的目的。但是在學(xué)習(xí)網(wǎng)絡(luò)參數(shù)時,群智能算法可能陷入局部最優(yōu)。
上述文獻(xiàn)雖然提出多種了針對短期風(fēng)電功率預(yù)測模型的改進(jìn)策略,但大多數(shù)僅考慮了歷史發(fā)電數(shù)據(jù)單一變量,忽視了影響發(fā)電量的多種環(huán)境因素。風(fēng)速、氣壓等多種天氣因素結(jié)合歷史功率數(shù)據(jù)可以更好地還原真實(shí)物理情景。通過K均值聚類(K-means)對數(shù)據(jù)進(jìn)行無監(jiān)督聚類并根據(jù)日期將風(fēng)電出力情況劃分為不同的類別,最后再根據(jù)深度神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)進(jìn)行擬合。試驗(yàn)數(shù)據(jù)均選擇湖南省某風(fēng)電場2021年的實(shí)測數(shù)據(jù),通過試驗(yàn)和對比證明了本文提出的方法具有較好的精度和魯棒性。
隨著科技的發(fā)展,風(fēng)電功率預(yù)測的技術(shù)不斷進(jìn)步。傳統(tǒng)的風(fēng)電信息獲取只能依靠人工對環(huán)境信息進(jìn)行測量,但隨著數(shù)值天氣預(yù)報(NWP)系統(tǒng)的發(fā)展,可以輕松獲得更加精準(zhǔn)、及時且全面的天氣信息。目前的NWP系統(tǒng)包括溫度、氣壓、10 m風(fēng)速、50 m風(fēng)速、100 m風(fēng)速等多種信息。雖然更多的信息能夠更真實(shí)地反映實(shí)際情況,但如果不將這些信息加以處理而全部輸入模型中,則會導(dǎo)致模型的魯棒性降低及運(yùn)行速度變慢,從而使預(yù)測系統(tǒng)不能應(yīng)用于實(shí)際。若僅采用單一的維度進(jìn)行分析,則可能遺漏關(guān)鍵信息,導(dǎo)致預(yù)測精度下降。目前,一般采用降維的思想對多維數(shù)據(jù)進(jìn)行處理。降維技術(shù)是將所有的信息統(tǒng)一到一個框架中,通過該框架提取數(shù)據(jù)的關(guān)鍵特征,消除眾多數(shù)據(jù)的冗余部分,在保留關(guān)鍵信息的同時合理降低數(shù)據(jù)的維度,避免發(fā)生維數(shù)災(zāi)難。
PCA是一種基于特征向量搜索的無監(jiān)督學(xué)習(xí)方法,目前已成功應(yīng)用于多種領(lǐng)域的監(jiān)測,其能夠通過映射,在保留關(guān)鍵信息的同時降低數(shù)據(jù)的維度[8-9]??傮w來講,PCA具有以下幾個特點(diǎn):
(1) 經(jīng)過PCA后的變量個數(shù)比原有變量個數(shù)少,通過對原有變量主成分的提取,在保持原有數(shù)據(jù)特征的同時減少了數(shù)據(jù)的維度,避免了維數(shù)災(zāi)難,提高了計(jì)算效率;
(2) PCA不改變原有數(shù)據(jù)蘊(yùn)含的信息,其雖然能夠降低數(shù)據(jù)的維度以增加計(jì)算的效率,但并不是單純地對數(shù)據(jù)進(jìn)行刪除,而是對原有變量進(jìn)行線性投影后,將高維度的數(shù)據(jù)投射到低維的空間中達(dá)到降維的目的;
(3) PCA各個主成分之間具有互不相關(guān)性,其得到的每個主成分都是對原有數(shù)據(jù)投影后得到的結(jié)果。
PCC是一種衡量變量間相關(guān)性的指標(biāo)[10]。對本文使用的NWP數(shù)據(jù)(包含風(fēng)向、濕度、氣壓、平均風(fēng)速、功率)進(jìn)行PCC分析,試驗(yàn)結(jié)果如圖1所示。皮爾遜公式的表達(dá)式為
(1)
圖1表明多維數(shù)據(jù)中僅風(fēng)速和功率之間有較強(qiáng)的相關(guān)性,其余數(shù)據(jù)的線性相關(guān)程度較低,因此不宜采用線性降維。
圖1 NWP變量線性相關(guān)性分析混淆矩陣圖
PCA通過對原始數(shù)據(jù)進(jìn)行線性化的變化達(dá)到數(shù)據(jù)降維的目的,相較于PCA,KPCA解決了特征向量線性不可分的問題,在適應(yīng)線性化問題的同時提供了更多的特征數(shù)目,并通過映射函數(shù)非線性化的方式對主成分進(jìn)行提取。假如原始維度空間中存有數(shù)據(jù)點(diǎn)Lx,則可以借助映射函數(shù)將其映射到高維度空間F。映射函數(shù)為Lx→φ(x)∈F,核函數(shù)的定義為原始空間中的點(diǎn)在映射空間的距離:
k(Lxi,Lxj)=φ(Lxi)φ(Lxj)
(2)
在F特征空間上的協(xié)方差矩陣M為
(3)
對于M矩陣中的某一特征向量v及其對應(yīng)的特征值λ,有Mv=λv,v是{φi-u}生成的特征空間中的特征向量:
(4)
因?yàn)楣絻蛇叾荚趝φi-u}生成的F空間中,故用下式替代:
(φi-u)TCv=λ(φi-u)Tv
(5)
核矩陣H的元素Hi,j=φiφj,i,j= 1,2,…,m。通過給定的核函數(shù)可以得到對應(yīng)的F空間點(diǎn)積,即φiφj=k(xi,xj)。做因子分析時需要中心化之后的核矩陣HC表達(dá)式:
HC=PdKPd
(6)
最后對數(shù)據(jù)點(diǎn)的非線性主成分進(jìn)行如下的求解:
[φ(xk)-u]·v=λαk
(7)
因?yàn)椴杉兞坎煌琋WP數(shù)據(jù)集存在量綱不同的問題,同時風(fēng)電數(shù)據(jù)較大的波動性會對預(yù)測的精度和速度產(chǎn)生不良的影響,甚至造成無法收斂的問題。
為了降低上述負(fù)面影響,本文將對數(shù)據(jù)集的各數(shù)據(jù)變量使用min-mix標(biāo)準(zhǔn)歸一化方案,同時選擇在分子上+1防止歸一化后的數(shù)據(jù)出現(xiàn)零值:
(8)
式中:xnorm為歸一化的結(jié)果;xmin與xmax分別為數(shù)據(jù)集變量的最大、最小值。
KPCA方法可以通過各主成分的貢獻(xiàn)率判斷算法的目標(biāo)維數(shù)[11]。使用KPCA對歸一化后的數(shù)據(jù)集進(jìn)行分析,結(jié)果如表1和圖2所示。在表1中,9個主要組成部分的貢獻(xiàn)率和累計(jì)貢獻(xiàn)率主要集中在前3類,且前3類的累計(jì)貢獻(xiàn)率已經(jīng)達(dá)到了99.84%。從圖2可以看出,在第3個主成分后累計(jì)貢獻(xiàn)率上升非常緩慢。
表1 各主成分貢獻(xiàn)率
圖2 主成分累計(jì)貢獻(xiàn)率
負(fù)荷預(yù)測主要特征包括天氣、季節(jié)和當(dāng)天是否屬于節(jié)假日等因素[12],在負(fù)荷預(yù)測中,學(xué)者們將具有相似特征的日期聚合在一起。本文將具有相似天氣和功率曲線的數(shù)據(jù)集進(jìn)行聚類得到不同的類別,分別對不同的類別進(jìn)行訓(xùn)練以獲得最佳的網(wǎng)絡(luò)參數(shù)。本文采用K-means方法對數(shù)據(jù)進(jìn)行無監(jiān)督的聚類,K-means在進(jìn)行聚類時需要隨機(jī)選取K個點(diǎn)并將其指定為聚類中心點(diǎn),根據(jù)其余樣本與這些聚類中心點(diǎn)的歐式距離,將其歸為不同的類別。歐式距離如下所示:
(9)
式中:xi、yi分別為樣本X、Y的第i個變量。
K值的確定方法分為手肘法和輪廓系數(shù)法。手肘法的自動化程度低,面對海量數(shù)據(jù)時效率亟待提升。輪廓系數(shù)法根據(jù)聚類的凝聚度和分離度進(jìn)行K值的判斷,不同K值對應(yīng)的輪廓系數(shù)如表2所示。通常輪廓系數(shù)的值在-1~1之間,輪廓系數(shù)值越大則表明聚類效果越好,不同的聚類效果如圖3~圖5所示。
表2 不同K值對應(yīng)的輪廓系數(shù)
圖3 K為2時對應(yīng)的聚類效果
圖4 K為3時對應(yīng)的聚類效果
圖5 K為4時對應(yīng)的聚類效果
本文采用15 min為間隔的實(shí)測風(fēng)電數(shù)據(jù)進(jìn)行試驗(yàn),每月的最后3天作為預(yù)測數(shù)據(jù),其余作為歷史數(shù)據(jù),通過輪廓系數(shù)的比較來確定K值。當(dāng)K=3時,輪廓系數(shù)為0.695 5。通過比較,本文將K取值為3,即根據(jù)聚類中心數(shù),本文數(shù)據(jù)集可細(xì)分為3種類型。
首先,選擇降維后的數(shù)據(jù),根據(jù)向量間的歐式距離確定具體類別,具體如下:
(10)
式中:xm(k)為預(yù)測目標(biāo)降維后的向量;xi(k)為歷史數(shù)據(jù)樣本降維后的向量。
以5月1日~20日為例,由式(10)計(jì)算出歐式距離并判斷出樣本所屬的類。有13天樣本數(shù)據(jù)屬于第1類數(shù)據(jù),有4天樣本數(shù)據(jù)屬于第2類數(shù)據(jù),有3天樣本數(shù)據(jù)屬于第3類數(shù)據(jù),具體分布如表3所示。降維前后數(shù)據(jù)類型對比如表4所示。
表3 歷史數(shù)據(jù)樣本日所在聚類的情況(K=3)
表4 降維前后數(shù)據(jù)維度對比
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的特點(diǎn)是每一層的神經(jīng)元都可以進(jìn)行反饋,進(jìn)而實(shí)現(xiàn)信息的傳遞。與其他的神經(jīng)網(wǎng)絡(luò)不同的是,RNN構(gòu)建的網(wǎng)絡(luò)會對歷史時刻的信息進(jìn)行記憶,并將記憶留下的信息應(yīng)用到當(dāng)前神經(jīng)元的輸入計(jì)算中。這使得RNN對時間序列預(yù)測的效果較好。但RNN長期依賴問題會導(dǎo)致梯度消失或梯度爆炸等,進(jìn)而導(dǎo)致模型無法訓(xùn)練[13]。GRU神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)由更新門和重置門組成,保留RNN對時間序列優(yōu)秀的處理能力,解決了梯度消失和爆炸的問題,實(shí)現(xiàn)了信息在網(wǎng)絡(luò)上的長期流動,通過對網(wǎng)絡(luò)模型結(jié)構(gòu)優(yōu)化減少了模型參數(shù),同時減少了時間序列處理的步驟。在本文中,輸入量為經(jīng)過降維聚類后的數(shù)據(jù),利用3類數(shù)據(jù)訓(xùn)練3種GRU模型。并將GRU網(wǎng)絡(luò)模型的隱藏層hidden設(shè)置為3,循環(huán)次數(shù)epoch設(shè)置為100,loss采用mse。GRU神經(jīng)網(wǎng)絡(luò)的整體結(jié)構(gòu)圖如圖6所示[14],在圖6中,當(dāng)前時刻的輸入以xt來表示;經(jīng)過Ct的隱藏層處理后,輸出以yt來表示。
圖6 GRU神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖
GRU神經(jīng)網(wǎng)絡(luò)的計(jì)算方式如下所示:
rt=σ(Wr·[yt-1,xt])
(11)
(12)
(13)
對數(shù)據(jù)降維后的訓(xùn)練集進(jìn)行聚類,劃分不同的類別,并訓(xùn)練不同的GRU模型參數(shù)。將預(yù)測集按照同樣的方法劃分類別并進(jìn)行匹配。并將匹配結(jié)果輸入神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)測,具體流程如圖7所示。同時為了驗(yàn)證本文所提KPCA-K-means-GRU組合模型在超短期風(fēng)電功率預(yù)測中的優(yōu)越性,試驗(yàn)中分別與支持向量機(jī)(SVM)、極限學(xué)習(xí)機(jī)(ELM)以及GRU神經(jīng)網(wǎng)絡(luò)進(jìn)行對比。通過對多維的數(shù)據(jù)進(jìn)行聚合降維,本文模型將具有相同特征的風(fēng)電數(shù)據(jù)劃分為不同的類別,提高了模型的擬合能力,降低了功率預(yù)測的難度,在預(yù)測結(jié)果的精確度和魯棒性上均具有優(yōu)勢。
圖7 KPCA-K-means-GRU預(yù)測模型框架
本文選擇采用均方誤差(RMSE)和平均絕對百分比誤差(MAPE)兩個指標(biāo)來進(jìn)行預(yù)測模型性能指標(biāo)的對比。
RMSE的表達(dá)式為
(14)
MAPE表達(dá)式為
(15)
式中:n為預(yù)測樣本數(shù);Y′(t)為預(yù)測結(jié)果;Y(t)為實(shí)際值。
該預(yù)測模型將t時刻的多個變量數(shù)據(jù)輸入,將t-1時刻除功率外的其余變量作為訓(xùn)練樣本的特征,t+1時刻的發(fā)電功率作為訓(xùn)練樣本的目標(biāo)。在K取3時,其他參數(shù)保持不變,將本文提出的KPCA-K-means-GRU模型與其他模型進(jìn)行性能對比,每個模型運(yùn)行10次后得到的誤差取平均值。
表5展示了本文提出的模型與其他模型在預(yù)測相同數(shù)據(jù)時的誤差效果對比。與其他模型相比,本文所提組合模型的誤差的平均值、最大值、最小值均比其他方法小。說明本文提出的方法具有較高的預(yù)測精度。
表5 不同月份、不同方法下RMSE與MAPE對比
通過圖8可以看出,本文提出的模型在數(shù)據(jù)擬合方面表現(xiàn)出更優(yōu)的效果,在數(shù)據(jù)極值點(diǎn)附近的預(yù)測誤差進(jìn)一步降低。本文將5月份預(yù)測得到的RMSE和MAPE值通過箱型圖展示,如圖9與圖10所示,箱型圖能夠直觀地展示模型的精度以及魯棒性,箱型圖越低,證明預(yù)測精度越好,箱型圖的長度越短,表示該模型的穩(wěn)定性越好,給出的預(yù)測結(jié)果越穩(wěn)定。可以看出本文提出的方法在10次試驗(yàn)中均表現(xiàn)出較低的預(yù)測誤差,本文方法的預(yù)測效果比其他方法具有明顯的優(yōu)勢,說明提出的方法在具有較高精度的同時具有較好的穩(wěn)定性。
圖8 5月份不同模型預(yù)測結(jié)果
圖9 5月份不同模型預(yù)測誤差RMSE
圖10 5月份不同模型預(yù)測誤差MAPE
本文針對風(fēng)電短期功率預(yù)測建立分類再預(yù)測模型,數(shù)據(jù)采用湖南省某風(fēng)電場提供的2021年實(shí)際數(shù)據(jù),得出如下結(jié)論。
(1) 高維度的數(shù)據(jù)集能夠更真實(shí)地反映實(shí)際情況。但原始數(shù)據(jù)集的維度較高,在進(jìn)行數(shù)據(jù)處理時會增加處理時間,降低模型的實(shí)用性。KPCA能夠在保留數(shù)據(jù)信息的同時降低數(shù)據(jù)集維度。
(2) K-means算法能夠?qū)⒔稻S后的數(shù)據(jù)分類,通過分別訓(xùn)練不同類別的數(shù)據(jù)可以得到更合適的網(wǎng)絡(luò)參數(shù)。
(3) 通過與其他模型對比,證明了本文提出的模型具有較高的預(yù)測精度以及魯棒性,說明了該模型是切實(shí)可行的。