国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)挖掘的短期用電負(fù)荷預(yù)測(cè)

2018-07-31 09:19陳鈞袁海林王雙
科技視界 2018年11期
關(guān)鍵詞:決策樹(shù)數(shù)據(jù)挖掘

陳鈞 袁海林 王雙

【摘 要】本文采用數(shù)據(jù)挖掘技術(shù),基于用戶用電和電網(wǎng)負(fù)荷信息,結(jié)合天氣、經(jīng)濟(jì)、假日、社會(huì)事件等等外部因素,構(gòu)建短期市場(chǎng)電力負(fù)荷分析模型,預(yù)測(cè)各級(jí)供電單位1-7天用電負(fù)荷曲線,為電力行業(yè)電網(wǎng)規(guī)劃、電能調(diào)配等提供決策支持。

【關(guān)鍵詞】數(shù)據(jù)挖掘;決策樹(shù);電力負(fù)荷預(yù)測(cè)

中圖分類號(hào): TM715 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 2095-2457(2018)11-0004-003

DOI:10.19694/j.cnki.issn2095-2457.2018.11.002

【Abstract】This paper adopts the big data analysis technology, based on the users' electricity and power grid load information, combined with the weather, economy, holiday, social events and other external factors, constructs the short-term power load analysis model, to predict the 1-7 day power load curve of the power supply units at all levels, which provides the decision support for the planning of the power grid and the power distribution in the power industry.

【Key words】Data mining; Decision tree; Power load prediction

0 引言

隨著我國(guó)電力事業(yè)的發(fā)展,電網(wǎng)的管理日趨現(xiàn)代化,電力系統(tǒng)負(fù)荷預(yù)測(cè)問(wèn)題的研究也越來(lái)越引起人們的注意,現(xiàn)在已經(jīng)成為了現(xiàn)代電力系統(tǒng)運(yùn)行研究中的重要課題之一[1]。負(fù)荷預(yù)測(cè)可以分為長(zhǎng)期、中期、短期、超短期以及節(jié)日預(yù)測(cè)。其中短期負(fù)荷預(yù)測(cè)是電網(wǎng)規(guī)劃建設(shè)的依據(jù),是電力系統(tǒng)安全運(yùn)行的前提,隨著分時(shí)電價(jià)方式的推廣和電力市場(chǎng)化改革的深入,電力公司力求及時(shí)、準(zhǔn)確地把握負(fù)荷變化的信息,將負(fù)荷預(yù)測(cè)的重要性和迫切性提到前所未有的高度,同時(shí)也對(duì)負(fù)荷預(yù)測(cè)的精度提出更高的要求。

本文將數(shù)據(jù)挖掘技術(shù)應(yīng)用到短期用電負(fù)荷預(yù)測(cè)中,基于用戶用電和電網(wǎng)負(fù)荷信息,結(jié)合天氣、經(jīng)濟(jì)、假日、社會(huì)事件等等外部因素,構(gòu)建短期市場(chǎng)電力負(fù)荷分析模型,預(yù)測(cè)各級(jí)供電單位1-7天用電負(fù)荷曲線,為電力行業(yè)電網(wǎng)規(guī)劃、電能調(diào)配等提供決策支持。

1 短期用電負(fù)荷預(yù)測(cè)算法

負(fù)荷預(yù)測(cè)方法可分為確定性負(fù)荷預(yù)測(cè)方法和不確定性負(fù)荷預(yù)測(cè)方法。其中確定性負(fù)荷預(yù)測(cè)方法是把電力負(fù)荷預(yù)測(cè)用一個(gè)或一組方程來(lái)描述,電力負(fù)荷與變量之間有明確的一一對(duì)應(yīng)關(guān)系,包括時(shí)間序列預(yù)測(cè)法、回歸分析法、經(jīng)典技術(shù)預(yù)測(cè)法、趨勢(shì)外推預(yù)測(cè)法等。而為了解決實(shí)際電力負(fù)荷發(fā)展變化規(guī)律非常復(fù)雜不能用簡(jiǎn)單的顯式數(shù)學(xué)方程來(lái)描述期間的對(duì)應(yīng)和相關(guān)這一問(wèn)題,隨著大數(shù)據(jù)分析挖掘理論和技術(shù)的發(fā)展[2],產(chǎn)生了一類基于大數(shù)據(jù)類比對(duì)應(yīng)等關(guān)系進(jìn)行推理預(yù)測(cè)的不確定性預(yù)測(cè)方法。

結(jié)合短期用電負(fù)荷預(yù)測(cè)具體需求,充分調(diào)研分析當(dāng)前負(fù)荷預(yù)測(cè)典型算法的適用場(chǎng)景及優(yōu)缺點(diǎn),選取曲線聚類和決策樹(shù)用于預(yù)測(cè)單個(gè)用戶的用電負(fù)荷數(shù)據(jù),選取時(shí)間序列用于預(yù)測(cè)分行業(yè)的用電負(fù)荷數(shù)據(jù),最后用線性回歸修正系數(shù),形成最終結(jié)果。

1.1 典型算法

1.1.1 功能算法-曲線聚類

聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個(gè)過(guò)程,所以同一個(gè)簇中的對(duì)象有很大的相似性,而不同簇間的對(duì)象有很大的相異性。聚類分析是一種探索性的分析,在分類的過(guò)程中,人們不必事先給出一個(gè)分類的標(biāo)準(zhǔn),聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動(dòng)進(jìn)行分類。聚類分析所使用方法的不同,常常會(huì)得到不同的結(jié)論。聚類能夠作為一個(gè)獨(dú)立的工具獲得數(shù)據(jù)的分布狀況,觀察每一簇?cái)?shù)據(jù)的特征,集中對(duì)特定的聚簇集合作進(jìn)一步地分析。

采用K-MEANS聚類算法,對(duì)歷史負(fù)荷數(shù)據(jù)進(jìn)行聚類分析。將歷史負(fù)荷數(shù)據(jù)作為歷史數(shù)據(jù)集,針對(duì)每天的負(fù)荷數(shù)據(jù)曲線,將形狀特征相近的兩個(gè)歸為一類,最終將所有零散分布的獨(dú)立樣本逐漸歸為趨勢(shì)相近的若干類,完成聚類。

1.1.2 功能算法-決策樹(shù)分類

決策樹(shù)學(xué)習(xí)是資料探勘中一個(gè)普通的方法。在這里,每個(gè)決策樹(shù)都表述了一種樹(shù)型結(jié)構(gòu),它由它的分支來(lái)對(duì)該類型的對(duì)象依靠屬性進(jìn)行分類。每個(gè)決策樹(shù)可以依靠對(duì)源數(shù)據(jù)庫(kù)的分割進(jìn)行數(shù)據(jù)測(cè)試。這個(gè)過(guò)程可以遞歸式的對(duì)樹(shù)進(jìn)行修剪。當(dāng)不能再進(jìn)行分割或一個(gè)單獨(dú)的類可以被應(yīng)用于某一分支時(shí),遞歸過(guò)程就完成了。決策樹(shù)的每一個(gè)葉節(jié)點(diǎn)對(duì)應(yīng)著一個(gè)分類,非葉節(jié)點(diǎn)對(duì)應(yīng)著在某個(gè)屬性上的劃分,根據(jù)樣本在該屬性上的不同取值將其劃分成若干個(gè)子集。對(duì)于非純的葉節(jié)點(diǎn),多數(shù)類的標(biāo)號(hào)給出到達(dá)這個(gè)節(jié)點(diǎn)的樣本所屬的類。構(gòu)造決策樹(shù)的核心問(wèn)題是在每一步如何選擇適當(dāng)?shù)膶傩詫?duì)樣本做拆分。對(duì)一個(gè)分類問(wèn)題,從已知類標(biāo)記的訓(xùn)練樣本中學(xué)習(xí)并構(gòu)造出決策樹(shù)是一個(gè)自上而下、分而治之的過(guò)程。

采用C50算法,根據(jù)指標(biāo)列取的數(shù)據(jù),分行業(yè)帶入決策樹(shù)模型。劃分到不同的聚類結(jié)果中。根據(jù)第一部分聚類模型的中位數(shù)值,作為此用戶的用電負(fù)荷值預(yù)測(cè)結(jié)果[3-4]。

1.1.3 功能算法-時(shí)間序列

時(shí)間序列預(yù)測(cè)主要是以連續(xù)性原理作為依據(jù)的。連續(xù)性原理是指客觀事物的發(fā)展具有合乎規(guī)律的連續(xù)性,事物發(fā)展是按照它本身固有的規(guī)律進(jìn)行的。在一定條件下,只要規(guī)律賴以發(fā)生作用的條件不產(chǎn)生質(zhì)的變化,則事物的基本發(fā)展趨勢(shì)在未來(lái)就還會(huì)延續(xù)下去。時(shí)間序列預(yù)測(cè)就是利用統(tǒng)計(jì)技術(shù)與方法,從預(yù)測(cè)指標(biāo)的時(shí)間序列中找出演變模式,建立數(shù)學(xué)模型,對(duì)預(yù)測(cè)指標(biāo)的未來(lái)發(fā)展趨勢(shì)做出定量估計(jì)。

采用HoltWinters指數(shù)平滑算法,根據(jù)各大行業(yè)用電負(fù)荷數(shù)據(jù),預(yù)測(cè)未來(lái)幾天內(nèi)可能的用電負(fù)荷值[5]。

1.1.4 功能算法-回歸修正

在統(tǒng)計(jì)學(xué)中,線性回歸(Linear Regression)是利用稱為線性回歸方程的最小平方函數(shù)對(duì)一個(gè)或多個(gè)自變量和因變量之間關(guān)系進(jìn)行建模的一種回歸分析。變量的相關(guān)關(guān)系中最為簡(jiǎn)單的是線性相關(guān)關(guān)系,設(shè)隨機(jī)變量與變量之間存在線性相關(guān)關(guān)系,則由試驗(yàn)數(shù)據(jù)得到的點(diǎn),將散布在某一直線周圍。這種函數(shù)是一個(gè)或多個(gè)稱為回歸系數(shù)的模型參數(shù)的線性組合。分析按照自變量和因變量之間的關(guān)系類型,可分為線性回歸分析和非線性回歸分析。如果在回歸分析中,只包括一個(gè)自變量和一個(gè)因變量,且二者的關(guān)系可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。如果回歸分析中包括兩個(gè)或兩個(gè)以上的自變量,且因變量和自變量之間是線性關(guān)系,則稱為多元線性回歸分析。

將決策樹(shù)的單個(gè)用戶結(jié)果進(jìn)行匯總形成行業(yè)數(shù)據(jù)結(jié)合實(shí)踐序列的各個(gè)行業(yè)數(shù)據(jù)進(jìn)行回歸系數(shù)修正,并根據(jù)數(shù)據(jù)及時(shí)更新形成新的系數(shù),產(chǎn)生更準(zhǔn)確的結(jié)果。

1.1.5 特征選擇

特征選擇也叫特征子集選擇 ( FSS , Feature Subset Selection ) 。是指從已有的M個(gè)特征(Feature)中選擇N個(gè)特征使得系統(tǒng)的特定指標(biāo)最優(yōu)化,是從原始特征中選擇出一些最有效特征以降低數(shù)據(jù)集維度的過(guò)程,是提高學(xué)習(xí)算法性能的一個(gè)重要手段,也是模式識(shí)別中關(guān)鍵的數(shù)據(jù)預(yù)處理步驟。對(duì)于一個(gè)學(xué)習(xí)算法來(lái)說(shuō),好的學(xué)習(xí)樣本是訓(xùn)練模型的關(guān)鍵。

在代入變量之前,進(jìn)行特征選擇。刪除變量值都為空的變量,刪除變量值只有一個(gè)相同數(shù)值的變量,刪除變量之間完全相同的變量。最后根據(jù)決策樹(shù)的變量重要性結(jié)果將重要性低于1%對(duì)模型影響甚微的變量一并刪除。

1.2 算法選擇

1.2.1 聚類算法

聚類算法常用的算法包括系統(tǒng)聚類法、動(dòng)態(tài)聚類法(k-means)。

系統(tǒng)聚類一次形成之后就不能再改變,這需要一次分得比較準(zhǔn)確,對(duì)分類的方法有很高的要求。相應(yīng)的計(jì)算量也會(huì)很大比如Q型系統(tǒng)聚類法聚類的過(guò)程是在樣本間距離矩陣的基礎(chǔ)上進(jìn)行的。當(dāng)樣本容量很大時(shí),需要占用足夠的計(jì)算機(jī)內(nèi)存,而且在并類過(guò)程中,需要將每類樣本和其他樣本間的距離。逐一加一比較以決定應(yīng)該合并的類別,需要很長(zhǎng)的計(jì)算時(shí)間,不適用于海量數(shù)據(jù)樣本。

動(dòng)態(tài)聚類法又稱為逐步聚類法基本思想是開(kāi)始先粗略地分一下類,然后按照某種最優(yōu)原則修改不合理的分類,直至類分得比較合理為止。適用于大樣本的聚類分析。所以選擇動(dòng)態(tài)聚類(k-means)方法。

1.2.2 分類算法

常見(jiàn)的分類模型算法包括傳統(tǒng)方法和現(xiàn)代方法。其中傳統(tǒng)方法有線性判別法、距離判別法、貝葉斯分類器等;現(xiàn)代方法有決策樹(shù)、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等。

由于代入變量較多所以應(yīng)該選擇更加智能的決策樹(shù)或者神經(jīng)網(wǎng)絡(luò)算法。神經(jīng)網(wǎng)絡(luò)算法不允許有缺失值,但是決策樹(shù)能更好的處理缺失值的問(wèn)題。由于數(shù)據(jù)樣本有較多缺失值,所以選擇決策樹(shù)。

1.3 過(guò)程說(shuō)明

動(dòng)態(tài)聚類算法后將化為一類的96個(gè)曲線值進(jìn)行比較分析,大體曲線區(qū)間以及走勢(shì)相同,說(shuō)明此算法較好,如圖1所示。

R語(yǔ)言的決策樹(shù)算法包包含(C50、party、rpart)。根據(jù)三種算法比較,raprt運(yùn)行過(guò)程最慢,耗時(shí)較長(zhǎng)。C50最快并且準(zhǔn)確率高于party算法。并且C50算法執(zhí)行效率和內(nèi)存使用更適用大數(shù)據(jù)集。由于變量有部分缺失值較多,C50算法面對(duì)數(shù)據(jù)遺漏和輸入字段很多的問(wèn)題時(shí)非常穩(wěn)健。同時(shí)C50比一些其他類型的模型易于理解,模型推出的規(guī)則有非常直觀的解釋。故最終選擇C50算法,C50算法決策樹(shù)的變量重要性如圖2所示。

2 短期用電負(fù)荷預(yù)測(cè)建模過(guò)程

2.1 主要流程

短期用電負(fù)荷預(yù)測(cè)建模主要包括以下三部分工作:

(1)基于按時(shí)間順序排列的負(fù)荷序列數(shù)據(jù)完成對(duì)未來(lái)7天用電負(fù)荷的預(yù)測(cè);

(2)基于行業(yè)、天氣等多因素及負(fù)荷曲線數(shù)據(jù)完成對(duì)歷史負(fù)荷的曲線聚類并完成對(duì)未來(lái)用電負(fù)荷的分類預(yù)測(cè);

(3)基于前2步模型的結(jié)果進(jìn)行回歸系數(shù)的修正,產(chǎn)生更準(zhǔn)確的預(yù)測(cè)結(jié)果,前2步模型可擴(kuò)展添加。

主要流程如圖3所示。

2.2 模型評(píng)估

代入某市電力公司2017年12月數(shù)據(jù)并且以行業(yè)最多的工業(yè)為例準(zhǔn)確率如表1所示,準(zhǔn)確率可滿足需求。

表1 模型準(zhǔn)確率統(tǒng)計(jì)

3 總結(jié)

本文將決策樹(shù)、時(shí)間序列等數(shù)據(jù)挖掘技術(shù)應(yīng)用到短期用電負(fù)荷預(yù)測(cè)中,基于用戶用電和電網(wǎng)負(fù)荷信息,結(jié)合天氣、經(jīng)濟(jì)、假日、社會(huì)事件等等外部因素,構(gòu)建了短期市場(chǎng)電力負(fù)荷分析模型。經(jīng)代入某市電力公司2017年12月數(shù)據(jù),短期負(fù)荷預(yù)測(cè)精度接近90%,可為電力行業(yè)電網(wǎng)規(guī)劃、電能調(diào)配決策等提供有效的數(shù)據(jù)支撐。在未來(lái)的研究中,將進(jìn)一步擴(kuò)大樣本數(shù)據(jù)量,持續(xù)完善預(yù)測(cè)算法以及回歸模型修正工作,以進(jìn)一步提高預(yù)測(cè)精度。

【參考文獻(xiàn)】

[1]鐘清,孫聞,余南華,等.主動(dòng)配電網(wǎng)規(guī)劃中的負(fù)荷預(yù)測(cè)與發(fā)電預(yù)測(cè)[J].中國(guó)電機(jī)工程學(xué)報(bào),2014,34(19):3050-3056.

[2]中國(guó)電機(jī)工程學(xué)會(huì)信息化專委會(huì).中國(guó)電力大數(shù)據(jù)發(fā)展白皮書(shū)[S].北京:中國(guó)電力出版社,2013.

[3]栗然,劉宇,黎靜華,等.基于改進(jìn)決策樹(shù)算法的日特征負(fù)荷預(yù)測(cè)研究[J].中國(guó)電機(jī)工程學(xué)報(bào), 2005, 25(24):36-41.

[4]李響,黎燦兵,曹一家,等.短期負(fù)荷預(yù)測(cè)的解耦決策樹(shù)新算法[J].電力系統(tǒng)及其自動(dòng)化學(xué)報(bào),2013, 25(3):13-19.

[5]張素香,劉建明,趙丙鎮(zhèn),等.基于云計(jì)算的居民用電行為分析模型研究[J].電網(wǎng)技術(shù),2013,37(6) :1542-1546.

猜你喜歡
決策樹(shù)數(shù)據(jù)挖掘
一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
基于改進(jìn)決策樹(shù)的故障診斷方法研究
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
基于決策樹(shù)的出租車乘客出行目的識(shí)別
基于決策樹(shù)的復(fù)雜電網(wǎng)多諧波源監(jiān)管
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
基于GPGPU的離散數(shù)據(jù)挖掘研究