梯度提升樹在月售電量預(yù)測(cè)中的應(yīng)用

2018-11-22 02:23四川中電啟明星信息技術(shù)有限公司李歡歡王紫鵬倪平波

電子世界 2018年21期

四川中電啟明星信息技術(shù)有限公司李歡歡王紫鵬倪平波張強(qiáng)

新電改背景下，對(duì)售電量進(jìn)行精準(zhǔn)預(yù)測(cè)，不僅有利于規(guī)避電力交易中心的偏差考核，更能提升競(jìng)爭性售電公司的核心能力、促進(jìn)公司良好運(yùn)營。本文在此背景下研究梯度提升樹在月售電量預(yù)測(cè)中的具體應(yīng)用。梯度提升樹是基于分類與回歸樹的boosting模型，常用于分類與回歸模型中。實(shí)驗(yàn)證明，梯度提升樹在月售電量預(yù)測(cè)中具有優(yōu)異的表現(xiàn)，不僅可以作為特征篩選的重要工具，也可直接用作預(yù)測(cè)模型的預(yù)測(cè)中。

1.引言

月售電量預(yù)測(cè)是指在對(duì)歷史資料進(jìn)行整理和分析的情況下，采用一定手段對(duì)未來月售電量進(jìn)行估計(jì)或表述。無論是在國網(wǎng)公司的對(duì)標(biāo)考核制度抑或在售電市場(chǎng)放開的今天，售電預(yù)測(cè)都是一項(xiàng)十分重要的工作，尤其是對(duì)于售電公司而言，售電預(yù)測(cè)準(zhǔn)確率的高低將直接影響到偏差考核。偏差的電量值越大，罰款數(shù)額也就越高。準(zhǔn)確地對(duì)月售電量進(jìn)行預(yù)測(cè)對(duì)國網(wǎng)電力考核、以及售電公司的直接利益有著至關(guān)重要的現(xiàn)實(shí)意義與實(shí)用價(jià)值。

實(shí)際上早已有諸多學(xué)者對(duì)月售電量預(yù)測(cè)作了大量的研究與實(shí)際工作。主要通過神經(jīng)網(wǎng)絡(luò)模型尋找用電量與各影響因素之間的非線性關(guān)系進(jìn)行擬合，即根據(jù)給定的訓(xùn)練樣本，可調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù)以使網(wǎng)絡(luò)輸出接近于已知的樣本類標(biāo)記。但是神經(jīng)網(wǎng)絡(luò)一般具有較多的參數(shù)，需要大量的樣本進(jìn)行訓(xùn)練，在成立不久售電公司中應(yīng)用難度較高。ARIMA是典型的時(shí)間序列處理模型，它主要原理是許多非平穩(wěn)序列在經(jīng)過差分后會(huì)顯示出平穩(wěn)序列的性質(zhì)，而對(duì)差分平穩(wěn)序列可以使用AR、MA模型進(jìn)行擬合。利用ARIMA根據(jù)歷史的數(shù)據(jù)對(duì)未來數(shù)據(jù)進(jìn)行預(yù)測(cè)并在其基礎(chǔ)上進(jìn)行改進(jìn)。其優(yōu)點(diǎn)是簡單易行、樣本需求量不高。但由于其本質(zhì)是在前一序列基礎(chǔ)上的上下浮動(dòng)，因此對(duì)于波動(dòng)較大的序列，預(yù)測(cè)精度將會(huì)受到影響。提出了一種基于改進(jìn)灰色理論的中長期負(fù)荷預(yù)測(cè)方法研究，該方法在經(jīng)典灰色預(yù)測(cè)GM（1，1）模型的基礎(chǔ)上，首先利用三點(diǎn)平滑法對(duì)歷史數(shù)據(jù)進(jìn)行預(yù)處理，然后再構(gòu)建基于等維新息矩陣的GM（1，1）模型，最后利用殘差處理方法對(duì)預(yù)測(cè)結(jié)果進(jìn)行修正。引入支持向量機(jī)模型，將歷史負(fù)荷、預(yù)測(cè)日最高溫度、平均溫度、平均風(fēng)速、平均相對(duì)濕度作為日最大(最小)負(fù)荷預(yù)測(cè)模型的輸入建立最大(最小) 負(fù)荷的回歸模型。

實(shí)際上分類與回歸樹（CART，Classify and Regress Tree）作為機(jī)器學(xué)習(xí)的常用算法之一，不僅在分類中有著出色的性能，在回歸預(yù)測(cè)中也有優(yōu)異的表現(xiàn)。尤其是基于CART的集成學(xué)習(xí)方法，在回歸分析中大放異彩。本文主要提出梯度提升樹(GBDT，Gradient Boosting Decision Tree)模型在月售電預(yù)測(cè)中的具體應(yīng)用，首先對(duì)梯度提升樹的基本原理作簡單介紹；然后詳細(xì)介紹影響因素的處理過程以及如何將算法應(yīng)用到售電預(yù)測(cè)中；最后對(duì)某省會(huì)城市的歷史月份售電數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)證明，梯度提升樹在售電預(yù)測(cè)中具有優(yōu)異的表現(xiàn)能力。

2.GBDT介紹

GBDT是在提升樹（BDT, boosting decision tree）上的改進(jìn)。提升樹（BDT, boosting decision tree）主要利用加法模型和前向分步算法實(shí)現(xiàn)學(xué)習(xí)的過程，每次用之前所有樹疊加的殘差重新學(xué)習(xí)。由于提升樹采取的損失函數(shù)是最小均方誤差，所以每步擬合的就是上一次的殘差（實(shí)際值-預(yù)測(cè)值）。但是針對(duì)一般的代價(jià)函數(shù)，往往沒那么容易優(yōu)化，因此Freidman提出了梯度提升算法：利用最速下降的近似方法，即利用損失函數(shù)的負(fù)梯度在當(dāng)前模型的值，作為回歸問題中提升樹算法的殘差的近似值，擬合一個(gè)回歸樹。

其主要的實(shí)現(xiàn)原理如下：

（1）初始化：

（2）對(duì)每顆樹執(zhí)行以下動(dòng)作：

a）對(duì)每個(gè)樣本，計(jì)算損失函數(shù)在當(dāng)前模型的負(fù)梯度作為殘差估計(jì)值；

b）對(duì)于給定的rim擬合一顆回歸樹，得到樹的葉子節(jié)點(diǎn)

c）對(duì)于葉節(jié)點(diǎn)，計(jì)算：

利用線性搜索估計(jì)葉節(jié)點(diǎn)值，使得代價(jià)函數(shù)最小化；

d）更新回歸樹

（3）輸出梯度提升樹：

3.數(shù)據(jù)準(zhǔn)備

3.1 數(shù)據(jù)采集

本實(shí)驗(yàn)收集了某省會(huì)城市從2008年12月到2017年6月份的用電數(shù)據(jù)，總計(jì)104個(gè)。然后分析影響用電的主要因素，重點(diǎn)采集了市商品房新開工面積、社會(huì)消費(fèi)總額、大工業(yè)完成新裝、增容、氣溫等影響因素。同時(shí)，考慮到節(jié)假日對(duì)大工業(yè)用電的影響，因此將每月的節(jié)假日天數(shù)作為獨(dú)立屬性加入影響因素中，累計(jì)共33個(gè)影響因素。

3.2 數(shù)據(jù)預(yù)處理

實(shí)際上基于決策樹的集成模型對(duì)于數(shù)據(jù)的包容度非常高，不需要對(duì)數(shù)據(jù)做太多處理便可直接送入模型中進(jìn)行訓(xùn)練。這里為了獲取更好的性能主要對(duì)數(shù)據(jù)進(jìn)行如下處理：

偏度檢測(cè)：對(duì)于數(shù)值型因素，檢測(cè)其是否為正太分布，如果不是的話，對(duì)數(shù)值進(jìn)行相應(yīng)的數(shù)據(jù)變換使其接近正太分布，如log1p、x^2等。時(shí)間因素：將年份、月份數(shù)據(jù)提取出來，作為單獨(dú)的影響因素。類別數(shù)據(jù)：對(duì)于類別數(shù)據(jù)進(jìn)行one-hot編碼。

4.實(shí)驗(yàn)過程

該實(shí)驗(yàn)將本月用電量及影響因素作為屬性，用于預(yù)測(cè)下一個(gè)月的用電量：

（1）將前83個(gè)數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)，后20個(gè)數(shù)據(jù)作為預(yù)測(cè)數(shù)據(jù)。

（2）整個(gè)實(shí)驗(yàn)過程歷經(jīng)數(shù)據(jù)處理、模型調(diào)參、訓(xùn)練與預(yù)測(cè)等環(huán)節(jié)，并以均方誤差根作為評(píng)判標(biāo)準(zhǔn)。

（3）為消除時(shí)序因素帶來的影響，實(shí)驗(yàn)采用依次迭代的方法。每次訓(xùn)練完之后，只預(yù)測(cè)下一個(gè)月的用電量；如需繼續(xù)預(yù)測(cè)，則需要對(duì)模型重新進(jìn)行訓(xùn)練。

整個(gè)實(shí)驗(yàn)過程設(shè)置一個(gè)對(duì)照組，兩個(gè)實(shí)驗(yàn)組：

對(duì)照組：直接利用傳統(tǒng)的時(shí)間序列ARIMAX模型對(duì)下月售電量進(jìn)行預(yù)測(cè)；

實(shí)驗(yàn)組1：用GBDT模型對(duì)下月售電量進(jìn)行預(yù)測(cè)；

實(shí)驗(yàn)組2：將GBDT用于影響因素的篩選，并將篩選后的影響因素再送入ARIMAX模型中進(jìn)行預(yù)測(cè)。

5.實(shí)驗(yàn)結(jié)果

基于傳統(tǒng)的時(shí)序預(yù)測(cè)ARIMAX模型與基于GBDT模型預(yù)測(cè)的比較，對(duì)照組與實(shí)驗(yàn)組1結(jié)果如下：

基于GBDT模型的RMSE：49320.2

基于ARIMAX模型的RMSE：57121.2

圖1 對(duì)照組與實(shí)驗(yàn)組1預(yù)測(cè)曲線Fig.1 Predictive curve of control group and experimental Group 1

總體而言GBDT模型比ARIMA性能要好，損失代價(jià)更少。同時(shí)，ARIMA前期擬合度較高，但是后期效果GBDT更佳。這是因?yàn)閷?duì)于ARIMA模型，其訓(xùn)練數(shù)據(jù)數(shù)量要求并沒有很高，即很小的數(shù)據(jù)也能有較好的擬合效果。但是隨著訓(xùn)練數(shù)據(jù)的增加，GBDT的回歸預(yù)測(cè)能力越來越強(qiáng)，與實(shí)際曲線也越來越接近。實(shí)驗(yàn)證明GBDT在月售電預(yù)測(cè)上有著優(yōu)異的性能。

傳統(tǒng)的時(shí)序預(yù)測(cè)ARIMA模型在有無GBDT模型進(jìn)行影響因素篩選情況下，對(duì)照組與實(shí)驗(yàn)組2結(jié)果如下：

基于GBDT+ARIMAX模型的RMSE：47657.5

基于ARIMAX模型的RMSE：57121.2

圖2 對(duì)照組與實(shí)驗(yàn)組2預(yù)測(cè)曲線Fig.2 Predictive curve of control group and experimental Group 2

可以看到，基于GBDT的ARIMAX模型在與真實(shí)值擬合上的趨勢(shì)也比單純的ARIMAX預(yù)測(cè)效果更好。對(duì)于GBDT模型，由于每次分裂都是其屬性選擇的過程，因此模型本身具有很強(qiáng)的特征工程的能力。通過將模型選擇后的特征重新送入新的訓(xùn)練器，也會(huì)有較好的結(jié)果。

6.總結(jié)

GBDT作為決策樹模型的集成學(xué)習(xí)器，在回歸方面表現(xiàn)了非常優(yōu)異的性能。本論文提出逐步預(yù)測(cè)的方式、以消除時(shí)間因素帶來的影響，在月售電預(yù)測(cè)上展現(xiàn)了比ARIMAX更加優(yōu)異的性能。該模型不僅可以用作對(duì)售電量的精準(zhǔn)預(yù)測(cè)，還可以作為特征選擇算法對(duì)眾多影響因素進(jìn)行特征篩選，可根據(jù)實(shí)際場(chǎng)景需求進(jìn)行完善。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡