四川中電啟明星信息技術(shù)有限公司 李歡歡 王紫鵬 倪平波 張 強(qiáng)
新電改背景下,對(duì)售電量進(jìn)行精準(zhǔn)預(yù)測(cè),不僅有利于規(guī)避電力交易中心的偏差考核,更能提升競(jìng)爭性售電公司的核心能力、促進(jìn)公司良好運(yùn)營。本文在此背景下研究梯度提升樹在月售電量預(yù)測(cè)中的具體應(yīng)用。梯度提升樹是基于分類與回歸樹的boosting模型,常用于分類與回歸模型中。實(shí)驗(yàn)證明,梯度提升樹在月售電量預(yù)測(cè)中具有優(yōu)異的表現(xiàn),不僅可以作為特征篩選的重要工具,也可直接用作預(yù)測(cè)模型的預(yù)測(cè)中。
月售電量預(yù)測(cè)是指在對(duì)歷史資料進(jìn)行整理和分析的情況下,采用一定手段對(duì)未來月售電量進(jìn)行估計(jì)或表述。無論是在國網(wǎng)公司的對(duì)標(biāo)考核制度抑或在售電市場(chǎng)放開的今天,售電預(yù)測(cè)都是一項(xiàng)十分重要的工作,尤其是對(duì)于售電公司而言,售電預(yù)測(cè)準(zhǔn)確率的高低將直接影響到偏差考核。偏差的電量值越大,罰款數(shù)額也就越高。準(zhǔn)確地對(duì)月售電量進(jìn)行預(yù)測(cè)對(duì)國網(wǎng)電力考核、以及售電公司的直接利益有著至關(guān)重要的現(xiàn)實(shí)意義與實(shí)用價(jià)值。
實(shí)際上早已有諸多學(xué)者對(duì)月售電量預(yù)測(cè)作了大量的研究與實(shí)際工作。主要通過神經(jīng)網(wǎng)絡(luò)模型尋找用電量與各影響因素之間的非線性關(guān)系進(jìn)行擬合,即根據(jù)給定的訓(xùn)練樣本,可調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù)以使網(wǎng)絡(luò)輸出接近于已知的樣本類標(biāo)記。但是神經(jīng)網(wǎng)絡(luò)一般具有較多的參數(shù),需要大量的樣本進(jìn)行訓(xùn)練,在成立不久售電公司中應(yīng)用難度較高。ARIMA是典型的時(shí)間序列處理模型,它主要原理是許多非平穩(wěn)序列在經(jīng)過差分后會(huì)顯示出平穩(wěn)序列的性質(zhì),而對(duì)差分平穩(wěn)序列可以使用AR、MA模型進(jìn)行擬合。利用ARIMA根據(jù)歷史的數(shù)據(jù)對(duì)未來數(shù)據(jù)進(jìn)行預(yù)測(cè)并在其基礎(chǔ)上進(jìn)行改進(jìn)。其優(yōu)點(diǎn)是簡單易行、樣本需求量不高。但由于其本質(zhì)是在前一序列基礎(chǔ)上的上下浮動(dòng),因此對(duì)于波動(dòng)較大的序列,預(yù)測(cè)精度將會(huì)受到影響。提出了一種基于改進(jìn)灰色理論的中長期負(fù)荷預(yù)測(cè)方法研究,該方法在經(jīng)典灰色預(yù)測(cè)GM(1,1)模型的基礎(chǔ)上,首先利用三點(diǎn)平滑法對(duì)歷史數(shù)據(jù)進(jìn)行預(yù)處理,然后再構(gòu)建基于等維新息矩陣的GM(1,1)模型,最后利用殘差處理方法對(duì)預(yù)測(cè)結(jié)果進(jìn)行修正。引入支持向量機(jī)模型,將歷史負(fù)荷、預(yù)測(cè)日最高溫度、平均溫度、平均風(fēng)速、平均相對(duì)濕度作為日最大(最小)負(fù)荷預(yù)測(cè)模型的輸入建立最大(最小) 負(fù)荷的回歸模型。
實(shí)際上分類與回歸樹(CART,Classify and Regress Tree)作為機(jī)器學(xué)習(xí)的常用算法之一,不僅在分類中有著出色的性能,在回歸預(yù)測(cè)中也有優(yōu)異的表現(xiàn)。尤其是基于CART的集成學(xué)習(xí)方法,在回歸分析中大放異彩。本文主要提出梯度提升樹(GBDT,Gradient Boosting Decision Tree)模型在月售電預(yù)測(cè)中的具體應(yīng)用,首先對(duì)梯度提升樹的基本原理作簡單介紹;然后詳細(xì)介紹影響因素的處理過程以及如何將算法應(yīng)用到售電預(yù)測(cè)中;最后對(duì)某省會(huì)城市的歷史月份售電數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)證明,梯度提升樹在售電預(yù)測(cè)中具有優(yōu)異的表現(xiàn)能力。
GBDT是在提升樹(BDT, boosting decision tree)上的改進(jìn)。提升樹(BDT, boosting decision tree)主要利用加法模型和前向分步算法實(shí)現(xiàn)學(xué)習(xí)的過程,每次用之前所有樹疊加的殘差重新學(xué)習(xí)。由于提升樹采取的損失函數(shù)是最小均方誤差,所以每步擬合的就是上一次的殘差(實(shí)際值-預(yù)測(cè)值)。但是針對(duì)一般的代價(jià)函數(shù),往往沒那么容易優(yōu)化,因此Freidman提出了梯度提升算法:利用最速下降的近似方法,即利用損失函數(shù)的負(fù)梯度在當(dāng)前模型的值,作為回歸問題中提升樹算法的殘差的近似值,擬合一個(gè)回歸樹。
其主要的實(shí)現(xiàn)原理如下:
(1)初始化:
(2)對(duì)每顆樹執(zhí)行以下動(dòng)作:
a)對(duì)每個(gè)樣本,計(jì)算損失函數(shù)在當(dāng)前模型的負(fù)梯度作為殘差估計(jì)值;
b)對(duì)于給定的rim擬合一顆回歸樹,得到樹的葉子節(jié)點(diǎn)
c)對(duì)于葉節(jié)點(diǎn),計(jì)算:
利用線性搜索估計(jì)葉節(jié)點(diǎn)值,使得代價(jià)函數(shù)最小化;
d)更新回歸樹
(3)輸出梯度提升樹:
本實(shí)驗(yàn)收集了某省會(huì)城市從2008年12月到2017年6月份的用電數(shù)據(jù),總計(jì)104個(gè)。然后分析影響用電的主要因素,重點(diǎn)采集了市商品房新開工面積、社會(huì)消費(fèi)總額、大工業(yè)完成新裝、增容、氣溫等影響因素。同時(shí),考慮到節(jié)假日對(duì)大工業(yè)用電的影響,因此將每月的節(jié)假日天數(shù)作為獨(dú)立屬性加入影響因素中,累計(jì)共33個(gè)影響因素。
實(shí)際上基于決策樹的集成模型對(duì)于數(shù)據(jù)的包容度非常高,不需要對(duì)數(shù)據(jù)做太多處理便可直接送入模型中進(jìn)行訓(xùn)練。這里為了獲取更好的性能主要對(duì)數(shù)據(jù)進(jìn)行如下處理:
偏度檢測(cè):對(duì)于數(shù)值型因素,檢測(cè)其是否為正太分布,如果不是的話,對(duì)數(shù)值進(jìn)行相應(yīng)的數(shù)據(jù)變換使其接近正太分布,如log1p、x^2等。時(shí)間因素:將年份、月份數(shù)據(jù)提取出來,作為單獨(dú)的影響因素。類別數(shù)據(jù):對(duì)于類別數(shù)據(jù)進(jìn)行one-hot編碼。
該實(shí)驗(yàn)將本月用電量及影響因素作為屬性,用于預(yù)測(cè)下一個(gè)月的用電量:
(1)將前83個(gè)數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),后20個(gè)數(shù)據(jù)作為預(yù)測(cè)數(shù)據(jù)。
(2)整個(gè)實(shí)驗(yàn)過程歷經(jīng)數(shù)據(jù)處理、模型調(diào)參、訓(xùn)練與預(yù)測(cè)等環(huán)節(jié),并以均方誤差根作為評(píng)判標(biāo)準(zhǔn)。
(3)為消除時(shí)序因素帶來的影響,實(shí)驗(yàn)采用依次迭代的方法。每次訓(xùn)練完之后,只預(yù)測(cè)下一個(gè)月的用電量;如需繼續(xù)預(yù)測(cè),則需要對(duì)模型重新進(jìn)行訓(xùn)練。
整個(gè)實(shí)驗(yàn)過程設(shè)置一個(gè)對(duì)照組,兩個(gè)實(shí)驗(yàn)組:
對(duì)照組:直接利用傳統(tǒng)的時(shí)間序列ARIMAX模型對(duì)下月售電量進(jìn)行預(yù)測(cè);
實(shí)驗(yàn)組1:用GBDT模型對(duì)下月售電量進(jìn)行預(yù)測(cè);
實(shí)驗(yàn)組2:將GBDT用于影響因素的篩選,并將篩選后的影響因素再送入ARIMAX模型中進(jìn)行預(yù)測(cè)。
基于傳統(tǒng)的時(shí)序預(yù)測(cè)ARIMAX模型與基于GBDT模型預(yù)測(cè)的比較,對(duì)照組與實(shí)驗(yàn)組1結(jié)果如下:
基于GBDT模型的RMSE:49320.2
基于ARIMAX模型的RMSE:57121.2
圖1 對(duì)照組與實(shí)驗(yàn)組1預(yù)測(cè)曲線Fig.1 Predictive curve of control group and experimental Group 1
總體而言GBDT模型比ARIMA性能要好,損失代價(jià)更少。同時(shí),ARIMA前期擬合度較高,但是后期效果GBDT更佳。這是因?yàn)閷?duì)于ARIMA模型,其訓(xùn)練數(shù)據(jù)數(shù)量要求并沒有很高,即很小的數(shù)據(jù)也能有較好的擬合效果。但是隨著訓(xùn)練數(shù)據(jù)的增加,GBDT的回歸預(yù)測(cè)能力越來越強(qiáng),與實(shí)際曲線也越來越接近。實(shí)驗(yàn)證明GBDT在月售電預(yù)測(cè)上有著優(yōu)異的性能。
傳統(tǒng)的時(shí)序預(yù)測(cè)ARIMA模型在有無GBDT模型進(jìn)行影響因素篩選情況下,對(duì)照組與實(shí)驗(yàn)組2結(jié)果如下:
基于GBDT+ARIMAX模型的RMSE:47657.5
基于ARIMAX模型的RMSE:57121.2
圖2 對(duì)照組與實(shí)驗(yàn)組2預(yù)測(cè)曲線Fig.2 Predictive curve of control group and experimental Group 2
可以看到,基于GBDT的ARIMAX模型在與真實(shí)值擬合上的趨勢(shì)也比單純的ARIMAX預(yù)測(cè)效果更好。對(duì)于GBDT模型,由于每次分裂都是其屬性選擇的過程,因此模型本身具有很強(qiáng)的特征工程的能力。通過將模型選擇后的特征重新送入新的訓(xùn)練器,也會(huì)有較好的結(jié)果。
GBDT作為決策樹模型的集成學(xué)習(xí)器,在回歸方面表現(xiàn)了非常優(yōu)異的性能。本論文提出逐步預(yù)測(cè)的方式、以消除時(shí)間因素帶來的影響,在月售電預(yù)測(cè)上展現(xiàn)了比ARIMAX更加優(yōu)異的性能。該模型不僅可以用作對(duì)售電量的精準(zhǔn)預(yù)測(cè),還可以作為特征選擇算法對(duì)眾多影響因素進(jìn)行特征篩選,可根據(jù)實(shí)際場(chǎng)景需求進(jìn)行完善。