国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

梯度提升樹在月售電量預(yù)測(cè)中的應(yīng)用

2018-11-22 02:23四川中電啟明星信息技術(shù)有限公司李歡歡王紫鵬倪平波
電子世界 2018年21期
關(guān)鍵詞:售電量梯度預(yù)測(cè)

四川中電啟明星信息技術(shù)有限公司 李歡歡 王紫鵬 倪平波 張 強(qiáng)

新電改背景下,對(duì)售電量進(jìn)行精準(zhǔn)預(yù)測(cè),不僅有利于規(guī)避電力交易中心的偏差考核,更能提升競(jìng)爭性售電公司的核心能力、促進(jìn)公司良好運(yùn)營。本文在此背景下研究梯度提升樹在月售電量預(yù)測(cè)中的具體應(yīng)用。梯度提升樹是基于分類與回歸樹的boosting模型,常用于分類與回歸模型中。實(shí)驗(yàn)證明,梯度提升樹在月售電量預(yù)測(cè)中具有優(yōu)異的表現(xiàn),不僅可以作為特征篩選的重要工具,也可直接用作預(yù)測(cè)模型的預(yù)測(cè)中。

1.引言

月售電量預(yù)測(cè)是指在對(duì)歷史資料進(jìn)行整理和分析的情況下,采用一定手段對(duì)未來月售電量進(jìn)行估計(jì)或表述。無論是在國網(wǎng)公司的對(duì)標(biāo)考核制度抑或在售電市場(chǎng)放開的今天,售電預(yù)測(cè)都是一項(xiàng)十分重要的工作,尤其是對(duì)于售電公司而言,售電預(yù)測(cè)準(zhǔn)確率的高低將直接影響到偏差考核。偏差的電量值越大,罰款數(shù)額也就越高。準(zhǔn)確地對(duì)月售電量進(jìn)行預(yù)測(cè)對(duì)國網(wǎng)電力考核、以及售電公司的直接利益有著至關(guān)重要的現(xiàn)實(shí)意義與實(shí)用價(jià)值。

實(shí)際上早已有諸多學(xué)者對(duì)月售電量預(yù)測(cè)作了大量的研究與實(shí)際工作。主要通過神經(jīng)網(wǎng)絡(luò)模型尋找用電量與各影響因素之間的非線性關(guān)系進(jìn)行擬合,即根據(jù)給定的訓(xùn)練樣本,可調(diào)整神經(jīng)網(wǎng)絡(luò)的參數(shù)以使網(wǎng)絡(luò)輸出接近于已知的樣本類標(biāo)記。但是神經(jīng)網(wǎng)絡(luò)一般具有較多的參數(shù),需要大量的樣本進(jìn)行訓(xùn)練,在成立不久售電公司中應(yīng)用難度較高。ARIMA是典型的時(shí)間序列處理模型,它主要原理是許多非平穩(wěn)序列在經(jīng)過差分后會(huì)顯示出平穩(wěn)序列的性質(zhì),而對(duì)差分平穩(wěn)序列可以使用AR、MA模型進(jìn)行擬合。利用ARIMA根據(jù)歷史的數(shù)據(jù)對(duì)未來數(shù)據(jù)進(jìn)行預(yù)測(cè)并在其基礎(chǔ)上進(jìn)行改進(jìn)。其優(yōu)點(diǎn)是簡單易行、樣本需求量不高。但由于其本質(zhì)是在前一序列基礎(chǔ)上的上下浮動(dòng),因此對(duì)于波動(dòng)較大的序列,預(yù)測(cè)精度將會(huì)受到影響。提出了一種基于改進(jìn)灰色理論的中長期負(fù)荷預(yù)測(cè)方法研究,該方法在經(jīng)典灰色預(yù)測(cè)GM(1,1)模型的基礎(chǔ)上,首先利用三點(diǎn)平滑法對(duì)歷史數(shù)據(jù)進(jìn)行預(yù)處理,然后再構(gòu)建基于等維新息矩陣的GM(1,1)模型,最后利用殘差處理方法對(duì)預(yù)測(cè)結(jié)果進(jìn)行修正。引入支持向量機(jī)模型,將歷史負(fù)荷、預(yù)測(cè)日最高溫度、平均溫度、平均風(fēng)速、平均相對(duì)濕度作為日最大(最小)負(fù)荷預(yù)測(cè)模型的輸入建立最大(最小) 負(fù)荷的回歸模型。

實(shí)際上分類與回歸樹(CART,Classify and Regress Tree)作為機(jī)器學(xué)習(xí)的常用算法之一,不僅在分類中有著出色的性能,在回歸預(yù)測(cè)中也有優(yōu)異的表現(xiàn)。尤其是基于CART的集成學(xué)習(xí)方法,在回歸分析中大放異彩。本文主要提出梯度提升樹(GBDT,Gradient Boosting Decision Tree)模型在月售電預(yù)測(cè)中的具體應(yīng)用,首先對(duì)梯度提升樹的基本原理作簡單介紹;然后詳細(xì)介紹影響因素的處理過程以及如何將算法應(yīng)用到售電預(yù)測(cè)中;最后對(duì)某省會(huì)城市的歷史月份售電數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)證明,梯度提升樹在售電預(yù)測(cè)中具有優(yōu)異的表現(xiàn)能力。

2.GBDT介紹

GBDT是在提升樹(BDT, boosting decision tree)上的改進(jìn)。提升樹(BDT, boosting decision tree)主要利用加法模型和前向分步算法實(shí)現(xiàn)學(xué)習(xí)的過程,每次用之前所有樹疊加的殘差重新學(xué)習(xí)。由于提升樹采取的損失函數(shù)是最小均方誤差,所以每步擬合的就是上一次的殘差(實(shí)際值-預(yù)測(cè)值)。但是針對(duì)一般的代價(jià)函數(shù),往往沒那么容易優(yōu)化,因此Freidman提出了梯度提升算法:利用最速下降的近似方法,即利用損失函數(shù)的負(fù)梯度在當(dāng)前模型的值,作為回歸問題中提升樹算法的殘差的近似值,擬合一個(gè)回歸樹。

其主要的實(shí)現(xiàn)原理如下:

(1)初始化:

(2)對(duì)每顆樹執(zhí)行以下動(dòng)作:

a)對(duì)每個(gè)樣本,計(jì)算損失函數(shù)在當(dāng)前模型的負(fù)梯度作為殘差估計(jì)值;

b)對(duì)于給定的rim擬合一顆回歸樹,得到樹的葉子節(jié)點(diǎn)

c)對(duì)于葉節(jié)點(diǎn),計(jì)算:

利用線性搜索估計(jì)葉節(jié)點(diǎn)值,使得代價(jià)函數(shù)最小化;

d)更新回歸樹

(3)輸出梯度提升樹:

3.數(shù)據(jù)準(zhǔn)備

3.1 數(shù)據(jù)采集

本實(shí)驗(yàn)收集了某省會(huì)城市從2008年12月到2017年6月份的用電數(shù)據(jù),總計(jì)104個(gè)。然后分析影響用電的主要因素,重點(diǎn)采集了市商品房新開工面積、社會(huì)消費(fèi)總額、大工業(yè)完成新裝、增容、氣溫等影響因素。同時(shí),考慮到節(jié)假日對(duì)大工業(yè)用電的影響,因此將每月的節(jié)假日天數(shù)作為獨(dú)立屬性加入影響因素中,累計(jì)共33個(gè)影響因素。

3.2 數(shù)據(jù)預(yù)處理

實(shí)際上基于決策樹的集成模型對(duì)于數(shù)據(jù)的包容度非常高,不需要對(duì)數(shù)據(jù)做太多處理便可直接送入模型中進(jìn)行訓(xùn)練。這里為了獲取更好的性能主要對(duì)數(shù)據(jù)進(jìn)行如下處理:

偏度檢測(cè):對(duì)于數(shù)值型因素,檢測(cè)其是否為正太分布,如果不是的話,對(duì)數(shù)值進(jìn)行相應(yīng)的數(shù)據(jù)變換使其接近正太分布,如log1p、x^2等。時(shí)間因素:將年份、月份數(shù)據(jù)提取出來,作為單獨(dú)的影響因素。類別數(shù)據(jù):對(duì)于類別數(shù)據(jù)進(jìn)行one-hot編碼。

4.實(shí)驗(yàn)過程

該實(shí)驗(yàn)將本月用電量及影響因素作為屬性,用于預(yù)測(cè)下一個(gè)月的用電量:

(1)將前83個(gè)數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),后20個(gè)數(shù)據(jù)作為預(yù)測(cè)數(shù)據(jù)。

(2)整個(gè)實(shí)驗(yàn)過程歷經(jīng)數(shù)據(jù)處理、模型調(diào)參、訓(xùn)練與預(yù)測(cè)等環(huán)節(jié),并以均方誤差根作為評(píng)判標(biāo)準(zhǔn)。

(3)為消除時(shí)序因素帶來的影響,實(shí)驗(yàn)采用依次迭代的方法。每次訓(xùn)練完之后,只預(yù)測(cè)下一個(gè)月的用電量;如需繼續(xù)預(yù)測(cè),則需要對(duì)模型重新進(jìn)行訓(xùn)練。

整個(gè)實(shí)驗(yàn)過程設(shè)置一個(gè)對(duì)照組,兩個(gè)實(shí)驗(yàn)組:

對(duì)照組:直接利用傳統(tǒng)的時(shí)間序列ARIMAX模型對(duì)下月售電量進(jìn)行預(yù)測(cè);

實(shí)驗(yàn)組1:用GBDT模型對(duì)下月售電量進(jìn)行預(yù)測(cè);

實(shí)驗(yàn)組2:將GBDT用于影響因素的篩選,并將篩選后的影響因素再送入ARIMAX模型中進(jìn)行預(yù)測(cè)。

5.實(shí)驗(yàn)結(jié)果

基于傳統(tǒng)的時(shí)序預(yù)測(cè)ARIMAX模型與基于GBDT模型預(yù)測(cè)的比較,對(duì)照組與實(shí)驗(yàn)組1結(jié)果如下:

基于GBDT模型的RMSE:49320.2

基于ARIMAX模型的RMSE:57121.2

圖1 對(duì)照組與實(shí)驗(yàn)組1預(yù)測(cè)曲線Fig.1 Predictive curve of control group and experimental Group 1

總體而言GBDT模型比ARIMA性能要好,損失代價(jià)更少。同時(shí),ARIMA前期擬合度較高,但是后期效果GBDT更佳。這是因?yàn)閷?duì)于ARIMA模型,其訓(xùn)練數(shù)據(jù)數(shù)量要求并沒有很高,即很小的數(shù)據(jù)也能有較好的擬合效果。但是隨著訓(xùn)練數(shù)據(jù)的增加,GBDT的回歸預(yù)測(cè)能力越來越強(qiáng),與實(shí)際曲線也越來越接近。實(shí)驗(yàn)證明GBDT在月售電預(yù)測(cè)上有著優(yōu)異的性能。

傳統(tǒng)的時(shí)序預(yù)測(cè)ARIMA模型在有無GBDT模型進(jìn)行影響因素篩選情況下,對(duì)照組與實(shí)驗(yàn)組2結(jié)果如下:

基于GBDT+ARIMAX模型的RMSE:47657.5

基于ARIMAX模型的RMSE:57121.2

圖2 對(duì)照組與實(shí)驗(yàn)組2預(yù)測(cè)曲線Fig.2 Predictive curve of control group and experimental Group 2

可以看到,基于GBDT的ARIMAX模型在與真實(shí)值擬合上的趨勢(shì)也比單純的ARIMAX預(yù)測(cè)效果更好。對(duì)于GBDT模型,由于每次分裂都是其屬性選擇的過程,因此模型本身具有很強(qiáng)的特征工程的能力。通過將模型選擇后的特征重新送入新的訓(xùn)練器,也會(huì)有較好的結(jié)果。

6.總結(jié)

GBDT作為決策樹模型的集成學(xué)習(xí)器,在回歸方面表現(xiàn)了非常優(yōu)異的性能。本論文提出逐步預(yù)測(cè)的方式、以消除時(shí)間因素帶來的影響,在月售電預(yù)測(cè)上展現(xiàn)了比ARIMAX更加優(yōu)異的性能。該模型不僅可以用作對(duì)售電量的精準(zhǔn)預(yù)測(cè),還可以作為特征選擇算法對(duì)眾多影響因素進(jìn)行特征篩選,可根據(jù)實(shí)際場(chǎng)景需求進(jìn)行完善。

猜你喜歡
售電量梯度預(yù)測(cè)
無可預(yù)測(cè)
選修2-2期中考試預(yù)測(cè)卷(A卷)
選修2-2期中考試預(yù)測(cè)卷(B卷)
一個(gè)改進(jìn)的WYL型三項(xiàng)共軛梯度法
一種自適應(yīng)Dai-Liao共軛梯度法
一類扭積形式的梯度近Ricci孤立子
氣溫及抄表時(shí)間對(duì)售電量的影響
不必預(yù)測(cè)未來,只需把握現(xiàn)在
結(jié)合X12乘法模型和ARIMA模型的月售電量預(yù)測(cè)方法
河南科技(2014年3期)2014-02-27