朱維娜
摘要:電力負(fù)荷預(yù)測(cè)是電網(wǎng)調(diào)度的重要問(wèn)題之一。本文研究一種基于多任務(wù)高斯過(guò)程,包含曲線聚類的回歸模型在短期負(fù)荷預(yù)測(cè)上的應(yīng)用,該模型可以利用非齊次的相似日負(fù)荷數(shù)據(jù)同時(shí)完成多任務(wù)學(xué)習(xí)、聚類與預(yù)測(cè)。通過(guò)實(shí)例分析,表明了該模型在基于相似日聚類的短期預(yù)測(cè)上具有一定的可行性及有效性,為研究短期負(fù)荷曲線聚類與預(yù)測(cè)提供了新的模型參考。
關(guān)鍵詞:電力負(fù)荷? 多任務(wù)? 高斯過(guò)程? 曲線聚類
中圖分類號(hào):TM715
Abstract: Power load forecasting is one of the important problems of power grid dispatching. This article studies the application of a regression model based on multi task Gaussian process including curve clustering in short-term load forecasting. The model can use non-homogeneous similar daily load data to complete multi task learning, clustering and forecasting at the same time.? The example analysis shows that the model has certain feasibility and effectiveness in short-term forecasting based on similar days clustering, and provides a new model reference for the study of short-term load curve clustering and forecasting.
Key Words: Power load; Multi-task; Gaussian process; Curve clustering
隨著我國(guó)電力大數(shù)據(jù)建設(shè)的持續(xù)推進(jìn),電力負(fù)荷數(shù)據(jù)可以被實(shí)時(shí)的高頻采集存儲(chǔ),一段時(shí)間內(nèi)的多組負(fù)荷數(shù)據(jù)近似于具有某些共同結(jié)構(gòu)但包含噪聲的函數(shù)對(duì)象,聚類作為數(shù)據(jù)挖掘的重要方法之一,對(duì)于負(fù)荷的函數(shù)型聚類分析也稱為負(fù)荷曲線聚類分析,在近年來(lái)成為負(fù)荷預(yù)測(cè)研究的一個(gè)熱點(diǎn)方向[1,2]。
目前負(fù)荷曲線聚類預(yù)測(cè)有直接聚類和間接聚類,直接聚類是基于原始負(fù)荷數(shù)據(jù)直接對(duì)曲線聚類,如有研究[3]使用GMM聚類算法對(duì)智能電表用戶分季節(jié)聚類,結(jié)合聚類結(jié)果預(yù)測(cè)負(fù)荷;間接聚類針對(duì)高維的負(fù)荷數(shù)據(jù)先做降維處理再聚類,相關(guān)研究[4]中先利用PCA算法將負(fù)荷數(shù)據(jù)降維至可視化的三維,確定聚類算法的最佳類數(shù)和k-means聚類的初始聚類中心后,再使用智能電網(wǎng)用戶的數(shù)據(jù)進(jìn)行聚類。本文研究的是一種基于自適應(yīng)模型的直接聚類[5],由于短期負(fù)荷曲線具有較大的隨機(jī)性,較符合高斯過(guò)程,而高斯過(guò)程憑借可以提供預(yù)測(cè)值不確定性分析等優(yōu)點(diǎn),已在多個(gè)領(lǐng)域已有廣泛應(yīng)用,該模型還結(jié)合了機(jī)器學(xué)習(xí)的多任務(wù)學(xué)習(xí)思想,充分利用了數(shù)據(jù)的共享信息,且對(duì)于非齊次的數(shù)據(jù)比較友好,可以適應(yīng)實(shí)際中經(jīng)常面臨的數(shù)據(jù)不完整問(wèn)題。
短期負(fù)荷預(yù)測(cè)受到天氣、節(jié)假日等多種因素的影響,許多學(xué)者會(huì)基于相似日對(duì)負(fù)荷進(jìn)行聚類預(yù)測(cè),如有研究[6]在對(duì)鋼鐵企業(yè)的電力負(fù)荷做預(yù)測(cè)時(shí)考慮了生產(chǎn)工況存在的日相似性,對(duì)相似日聚類后結(jié)合優(yōu)化算法預(yù)測(cè),取得較好的效果。由于節(jié)假日大部分生產(chǎn)活動(dòng)的不確定性較大,因此本文主要研究工作日的短期負(fù)荷預(yù)測(cè)。
1模型介紹
1.1多任務(wù)高斯聚類回歸模型
對(duì)于一天內(nèi)的負(fù)荷曲線,模型結(jié)構(gòu)定義如下:
其中表示條負(fù)荷曲線,假定聚類數(shù)目為類,以潛變量表示第條負(fù)荷曲線屬于類的概率,服從多點(diǎn)分布。
表示劃分為第類的負(fù)荷曲線的均值函數(shù),假定均值函數(shù)服從高斯過(guò)程,記為,其中是第個(gè)高斯過(guò)程的均值函數(shù),是第個(gè)高斯過(guò)程關(guān)于超參數(shù)的協(xié)方差核函數(shù)。
是第條負(fù)荷曲線的個(gè)體特征函數(shù),假定個(gè)體特征函數(shù)也服從高斯過(guò)程,記為,其中是第個(gè)高斯過(guò)程關(guān)于超參數(shù)的協(xié)方差核函數(shù)。
是隨機(jī)誤差項(xiàng),也服從一個(gè)高斯過(guò)程,記為,其中是第條負(fù)荷曲線函數(shù)的方差。
模型中的協(xié)方差核函數(shù)均用指數(shù)二次核來(lái)刻畫(huà),這是一種在包含高斯過(guò)程的文獻(xiàn)中常見(jiàn)的核,這個(gè)核取決于兩個(gè)超參數(shù),核的形式如下:
1.2參數(shù)估計(jì)與預(yù)測(cè)
該模型的參數(shù)估計(jì)主要采用變分EM算法,變分方法已被證明非常適用于復(fù)雜高斯過(guò)程問(wèn)題的推理[8]。
在該模型中,假設(shè)對(duì)于任意的和都有、、、相互獨(dú)立,通過(guò)在訓(xùn)練樣本數(shù)據(jù)對(duì)數(shù)似然和潛變量的分布之間引入KL散度,獲得訓(xùn)練樣本數(shù)據(jù)對(duì)數(shù)似然的一個(gè)下界,這個(gè)下界與潛變量的分布 和超參數(shù)集合有關(guān),在潛變量和相互獨(dú)立的假設(shè)下,可以分別計(jì)算出和真實(shí)超后驗(yàn)分布的解析近似和,其中,。接下來(lái)在變分EM算法的E步根據(jù)這個(gè)下界來(lái)更新和的解析近似分布和,在M步中最大化這個(gè)下界以優(yōu)化超參數(shù),迭代E、M這兩個(gè)步驟直至收斂,即可估計(jì)出超參數(shù)集合。
對(duì)于一條新的負(fù)荷曲線,根據(jù)已知部分觀測(cè)值,預(yù)測(cè)其他時(shí)間點(diǎn)的負(fù)荷,首先在已估計(jì)出均值函數(shù)的基礎(chǔ)上,擴(kuò)展時(shí)間點(diǎn)為增加預(yù)測(cè)時(shí)間點(diǎn)的,即可得到覆蓋所有時(shí)間網(wǎng)格點(diǎn)的均值函數(shù),此時(shí)僅需采用EM算法,根據(jù)新個(gè)體已知的部分觀測(cè)值和均值函數(shù),在E步估計(jì)出新個(gè)體的潛變量的后驗(yàn)分布,再通過(guò)M步更新這個(gè)新個(gè)體的超參數(shù),迭代E步和M步直至收斂即可估計(jì)出新個(gè)體的所有參數(shù)。最后基于新個(gè)體屬于每一類的概率對(duì)均值函數(shù)進(jìn)行加權(quán)計(jì)算,就得到了最終的預(yù)測(cè)結(jié)果。
2實(shí)例分析
選用美國(guó)電力公司2021年9月9日至10月7日的除去非工作日共22d的實(shí)時(shí)負(fù)荷數(shù)據(jù),采集頻率為5min/每次,數(shù)據(jù)來(lái)源于PMJ電力市場(chǎng)官網(wǎng)公開(kāi)的電力負(fù)荷數(shù)據(jù)集,存在輕度缺失。由于該模型有多個(gè)高斯過(guò)程,訓(xùn)練模型的時(shí)間復(fù)雜度較高,僅選用15min粒度負(fù)荷數(shù)據(jù),最終得到了22條在時(shí)間上有96維且存在少量缺失值的負(fù)荷數(shù)據(jù)。
按照時(shí)間順序,選擇前21條負(fù)荷數(shù)據(jù)作為訓(xùn)練樣本,第22條曲線作為新個(gè)體,即10月7日的負(fù)荷曲線,將新個(gè)體前80個(gè)時(shí)間點(diǎn)的負(fù)荷作為已知數(shù)據(jù),后16個(gè)時(shí)間點(diǎn)(4h)作為待預(yù)測(cè)時(shí)間點(diǎn)。
首先初始化模型的參數(shù):結(jié)合曲線形態(tài)設(shè)置聚類數(shù)目,設(shè)每個(gè)均值函數(shù)所服從高斯過(guò)程的均值為0,協(xié)方差核的超參數(shù),每個(gè)個(gè)體特征函數(shù)所服從高斯過(guò)程的協(xié)方差核的超參數(shù),每條負(fù)荷曲線方差。然后用訓(xùn)練樣本數(shù)據(jù)訓(xùn)練模型,模型經(jīng)過(guò)兩次迭代后收斂,用時(shí)35s。最后第22條負(fù)荷曲線的已知數(shù)據(jù)帶入訓(xùn)練好的模型估計(jì)新個(gè)體的參數(shù),模型經(jīng)過(guò)6次迭代后收斂,用時(shí)7s,即可得出新個(gè)體包含待預(yù)測(cè)時(shí)間點(diǎn)的負(fù)荷曲線函數(shù),結(jié)果如圖1所示。
圖1中的藍(lán)色曲線即為新個(gè)體的負(fù)荷曲線,以20:00為界,前半段是對(duì)新個(gè)體已知負(fù)荷數(shù)據(jù)的(黑點(diǎn))擬合,后半段是對(duì)待預(yù)測(cè)時(shí)間點(diǎn)負(fù)荷數(shù)據(jù)(紅點(diǎn))的預(yù)測(cè),用3種不同的顏色區(qū)分被聚成的3類訓(xùn)練樣本數(shù)據(jù),虛線表示每個(gè)類的均值函數(shù)。如圖1所示,預(yù)測(cè)結(jié)果十分接近美國(guó)電力公司10月7日20:00-24:00的真實(shí)負(fù)荷,除了對(duì)真實(shí)負(fù)荷尾部波動(dòng)的預(yù)測(cè)不夠好,但該波動(dòng)也可能受其他因素的影響,以下是對(duì)該模型的進(jìn)一步探索。
表1的每行分別是對(duì)美國(guó)電力公司10月5日、10月6日和10月7日在20:00-24:00時(shí)間段的16點(diǎn)負(fù)荷預(yù)測(cè)RMSE,第一列是用單一高斯過(guò)程(GP)的方法,僅基于新個(gè)體當(dāng)天20:00前的80個(gè)負(fù)荷數(shù)據(jù)做預(yù)測(cè),第二列和第三列都是用本文介紹的多任務(wù)高斯過(guò)程(Multi_task GP)的方法。區(qū)別在于:第二列選擇10月5日前的負(fù)荷數(shù)據(jù)訓(xùn)練模型,然后基于該模型分別對(duì)3條新曲線做預(yù)測(cè),而第三列在預(yù)測(cè)10月6日和10月7日的負(fù)荷曲線時(shí),分別加入了前一天和前兩天的負(fù)荷數(shù)據(jù)重新訓(xùn)練模型后再預(yù)測(cè)。如表1所示,第一列的預(yù)測(cè)RMSE遠(yuǎn)大于第二列,第三列的預(yù)測(cè)RMSE略小于第二列。這表明,對(duì)比單一高斯過(guò)程模型,該模型在處理這個(gè)短期負(fù)荷預(yù)測(cè)的問(wèn)題上有顯著優(yōu)勢(shì),而且新的負(fù)荷曲線數(shù)據(jù)的加入可能會(huì)進(jìn)一步提升該模型的預(yù)測(cè)效果。
3結(jié)語(yǔ)
本文利用美國(guó)電力公司的工作日15min 粒度負(fù)荷數(shù)據(jù)研究了一種多任務(wù)高斯過(guò)程的聚類回歸模型在短期負(fù)荷預(yù)測(cè)上的表現(xiàn)。通過(guò)多次對(duì)比發(fā)現(xiàn),在這個(gè)短期負(fù)荷預(yù)測(cè)問(wèn)題上,該模型的預(yù)測(cè)負(fù)荷與實(shí)際負(fù)荷基本吻合,在對(duì)比單一高斯過(guò)程模型時(shí)具有突出優(yōu)勢(shì),且加入新的負(fù)荷曲線數(shù)據(jù)重新訓(xùn)練模型可能會(huì)對(duì)該模型的預(yù)測(cè)效果有提升作用,為研究短期負(fù)荷的精準(zhǔn)預(yù)測(cè)提供了有價(jià)值的模型參考。
參考文獻(xiàn)
[1]鄧威,郭釔秀,李勇,等.基于聚類及趨勢(shì)指標(biāo)的長(zhǎng)短期神經(jīng)網(wǎng)絡(luò)配網(wǎng)負(fù)荷短期預(yù)測(cè)[J].湖南電力,2021,41(4):27-33.
[2]魏勇,李學(xué)軍,李萬(wàn)偉,等.基于空間密度聚類和K-shape算法的城市綜合體負(fù)荷模式聚類方法[J].電力系統(tǒng)保護(hù)與控制,2021,49(14):37-44.
[3]薛琳.基于用電行為分析的低冗余特征配電網(wǎng)短期負(fù)荷預(yù)測(cè)研究[D].吉林:東北電力大學(xué),2019.
[4]吳孟林.智能電網(wǎng)中居民用戶聚類與短期負(fù)荷預(yù)測(cè)研究[D].重慶:重慶郵電大學(xué),2019.
[5] Leroy Arthur,Latouche Pierre,Guedj Benjamin and Gey Servane.Cluster-Specific Predictions with Multi-Task Gaussian Processes[EB/OL].(2020-11-17).[2021-10-22].https://arxiv.org/abs/2011.07866v2.
[6]胡函武,楊英,魏晗,等.短期負(fù)荷預(yù)測(cè)方法綜述[J].電子世界,2018(20):109.
[7]李維鈞.基于相似日聚類的鋼鐵企業(yè)電力負(fù)荷預(yù)測(cè)[D].大連:大連理工大學(xué),2021.
[8] Hensman James,F(xiàn)usi Nicolo and Lawrence Neil D.Gaussian processes for big data[EB/OL].(2013-9-26).[2021-10-22].https://arxiv.org/abs/1309.6835.
3171500338299