賴光源 李佳良
(廣東電網有限責任公司河源供電局 廣東 河源 517000)
?
基于特征感知迭代的電網業(yè)務營銷數據挖掘方法
賴光源 李佳良*
(廣東電網有限責任公司河源供電局 廣東 河源 517000)
“互聯(lián)網+電力”的大數據挖掘能為精準用電提供基礎支撐?,F(xiàn)有電網營銷數據挖掘對用戶數據的挖掘粒度大,特征集區(qū)分度小,空間維度權值低,基于用戶行為的電網營銷策略準確度低。提出基于特征感知迭代的電網業(yè)務營銷數據挖掘方法。構建結合空間特征的電力用戶用電模型,設計營銷管理決策樹挖掘模型,對冗余數據特征進行過濾清洗,推導準確的電網營銷行為。通過仿真和實驗分析,驗證新方法具有更好的預測精度和更低的數據消耗。
數據挖掘 決策樹 時空關聯(lián) 電力營銷
“互聯(lián)網+”電力已逐漸成為智能電網與“電網2.0”的深入發(fā)展內容。電力云網絡、智能電力終端以及智能電力應用將有力催生“互聯(lián)網+電力服務”[1]全新現(xiàn)代服務模式,實現(xiàn)客戶與電網的直接無縫互動,實現(xiàn)精準售電的高服務質量。
實現(xiàn)高服務質量精準售電的電網營銷需要以大數據挖掘作為前提,深度分析電網生產數據、電網運營數據以及電網企業(yè)管理數據之間的特征關系,從而為準確預測用戶用電需求、企業(yè)用電規(guī)律以及電能消耗情況,提供精準的電力營銷方案。然而電網營銷數據不僅具有傳統(tǒng)數據挖掘所面臨的高速性、多樣性和價值性,而且數據維度高、冗余大、流量高,使得電網營銷預測存在準確度偏低、處理效率低和重用性低的顯著問題。據調研分析,現(xiàn)有電網營銷系統(tǒng)的數據利用效率僅有30.6%,初次挖掘的數據65.9%需要再重新挖掘,而電力數據價值[2]只有數據總量的9.6%。因此更加準確和高效的數據挖掘方式才能滿足電網電力營銷的精準售電需求,實現(xiàn)用戶智能和自主用電。智能電網營銷管理的數據挖掘來源和關系如圖1所示。
圖1 電網營銷管理的數據挖掘來源和關系
國內外研究機構和電網企業(yè)對智能電網營銷管理的數據挖掘技術展開多方位的研究,主要包括電網并行負荷預測、電力電網應用技術、電網數據智能分析,以及電力客戶服務數據分析等。其中,電網系統(tǒng)云數據聚類故障檢測方法采用改進的蟻群分析方法[3],改進基因位數的輸出精度,從而提升基于Hadoop的集群云計算原型系統(tǒng)的數據挖掘精度,為電網節(jié)點監(jiān)測提供精準的基礎數據。基于海量在線歷史數據的大電網快速判穩(wěn)策略[4],利用已有在線的電網運行數據進行支持向量機的大數據挖掘,能夠完成快速運行狀態(tài)判決,建立的預測準則與實際數據緊密結合,能夠為電網管理提供良好的應用價值。電力用戶側是電網系統(tǒng)的電力消費主體,根據云計算技術,采集電網運營、管理和銷售數據,利用隨機森林算法的并行負荷預測方法[5],能夠在多數據集下,提升數據挖掘的預測精度,解決電力用戶側大數據挖掘面臨的數據量大、種類繁多的問題。基于數據挖掘的電網數據智能分析[6],通過對電網的設備信息、運行數據、日報數據進行數據預處理、多維數據模式數據倉庫建立以及多維關聯(lián)性分析,形成新的預測特征。電網企業(yè)級數據挖掘研究還包括電力云資源規(guī)劃調度[7]、調度控制系統(tǒng)數據庫管理[8]、變電設備狀態(tài)監(jiān)測[9]等,為電網智能化管理提供有效的數據基礎。
但現(xiàn)有電網營銷數據挖掘主要面向經營管理應用,對電力用戶的挖掘粒度大,且缺乏區(qū)分度高的數據挖掘特征集,空間維度為電網營銷的權值低,使得基于用戶行為的電網營銷策略準確度低。
針對電網營銷數據挖掘存在的挖掘粒度大、區(qū)分度低、空間關聯(lián)度少的顯著問題,本文提出基于特征感知迭代的電網業(yè)務營銷數據挖掘方法。構建結合空間特征的電力用戶用電模型,提升數據特征集的強空間關聯(lián)特性,設計營銷管理決策樹挖掘模型,對冗余數據特征進行過濾清洗,推導準確的電網營銷行為,實現(xiàn)對用戶的精準售電。通過仿真和實驗分析,驗證新的數據挖掘方法具有更好的預測精度和更低的數據消耗。
經營管理應用是現(xiàn)有電網營銷數據挖掘主要方向。而隨著“互聯(lián)網+電力”的發(fā)展,將用電行為轉變?yōu)橐杂脩趄寗舆M行營銷管理。以地理空間信息為基礎的時空關聯(lián)特征,能夠將用戶所在地理位置、收費水平、用電習慣、氣溫氣候、重點節(jié)日等長時、海量數據進行融合處理挖掘,才能得到精準的用戶信息進行精準用電營銷。因此,首先構建營銷時空特征管理模型,用以分析地理信息關系數據,然后融入深度數據挖掘框架中。
1.1 營銷時空特征的數據云模型
以時空特征作為營銷主體,進行數據挖掘,首先需要建立電網營銷數據云模型,也即是將輸電、配電、售電過程中的實際用戶數據轉化成機器能理解和可處理的基礎數據模型。構建的營銷時空特征數據云模型為3基素模型:
K:=
(1)
其中,L為挖掘特征從實際空間到數據空間的映射方式,D為機器可處理的結構化信息,形成特征群D={d1,d2,…,dn},即每個云模型將由n個數據特征組成。O為電網營銷過程中實際的各項操作,也由不同的{o1,o2,…,on}操作組成。由此可以得到的映射關系為:
L:={dn=l(on)}
(2)
數據云模型關系如圖2所示。
圖2 營銷時空特征的數據云模型
假設地理空間信息為基礎的時空關聯(lián)特征為(x,y),則建立強關聯(lián)的數據云模型。首先對電網營銷過程中實際的各項操作進行緊自相關處理,即求解其相關函數的相關函數:
(3)
再利用時空關聯(lián)特征進行數據歸一化處理,設關聯(lián)參數因子為θ,其由實際操作與地理特征的映射距離的均方根誤差決定,從而形成在全局電網營銷過程的加權參數值,即:
(4)
聯(lián)列式(1)、式(3)和式(4),則可得到變換的初始營銷時空特征數據云模型,即:
K:=
(5)
初始營銷時空特征數據云模型使得電網營銷數據挖掘時,具備了空間地理信息特征,并能夠以坐標為基準,對信息進行有效的組合。
由于上述過程建立的初步模型在于能夠覆蓋電網營銷中的主要操作,而引入了對營銷策略具有相似性的操作,使得構建的數據云模型有一定的冗余性。因此,對其相關的參數進行相似性分析和冗余數據過濾。
相似度計算是指利用操作的交集來表征兩種元素之間的相同程度。設置相似門限為Ω,兩個需要對比的操作為OA和OB,則可得到收斂的判決過程:
(6)
不滿足以下條件的操作,表明其對于時空特征參量的距離較短,或者區(qū)分度較低,應該在數據挖掘過程中被清洗,通過相似度計算,減少冗余的數據特征參量。
1.2 深度數據挖掘框架
時空特征關聯(lián)的深度數據挖掘框架用以適應電網企業(yè)營銷的數據輸入和策略輸出框架。設計的深度數據功能需求包括電網數據挖掘以及營銷預測模型兩個部分,挖掘框架如圖3所示。
圖3 深度數據挖掘框架
圖3中深度數據挖掘框架包括采集層、元數據層以及數據挖掘層。采集層主要實現(xiàn)對基礎數據信息的采集以及和基礎空間信息的關聯(lián),為元數據層模型建立構建數據基礎。深度數據挖掘框架的數據來源于電網數據中心的數據流、信息柵格、數據庫以及文件記錄。然后建立以位置為基礎的數據關聯(lián)關系,元數據層主要建立以空間信息模型為基礎的機器可處理的基礎數據模型,能夠有效實現(xiàn)可關聯(lián)、可擴展、可追溯的動態(tài)數據結構。數據挖掘層主要包括電力特征庫、地理空間特征庫以及用戶特征庫組成的電網銷售策略基礎知識庫,設置的特征比對模塊能夠使得具備相似特征的目標請求,快速獲得營銷策略。
2.1 大數據并發(fā)預處理
電網營銷數據并發(fā)預處理主要包括數據清洗、整理和加載。為了降低數據挖掘的復雜度,引入K-Means對電網營銷數據進行聚類,降低數據挖掘的整體維度[10]。
首先將電網營銷數據的特征群D離散化,即Di=D×δi(n),將連續(xù)的特征數值轉化為離散的區(qū)間,使得每個離散區(qū)間能夠獨立對應唯一的特征值。使用K-Means算法,分析不同特征之間的距離值,劃歸不同的簇,從而形成特定的樣本中心值,預處理過程如圖4所示。
圖4 電網營銷數據并發(fā)預處理
將基于某地理坐標的電網運行樣本數據離散為5個不同的等級,2015年某地區(qū)各月電網營銷事務離散化處理結果如表1所示。
表1 電網營銷數據離散化處理結果 億千瓦時
續(xù)表1
由表1中可以得到,電網營銷事務中的用電量峰值和平均值經過離散化處理后,12組按月控制的數據轉化成5組離散化的等級值,其中F1、F2、F3、F4、F5分別從低到高代表數據的等級水平。在數據挖掘中,輸入的數據也從12組減少至5組。
2.2 改進決策樹的目標推理
通過對電網營銷數據并發(fā)預處理,獲得了精簡的預處理數據集,設計主體增益決策樹的電網營銷數據挖掘策略。決策樹的基本原理在于根據每一步選擇的輸入狀態(tài)決定最優(yōu)選擇情況。因此電網營銷策略需要根據每一組特征集輸入進行離散化的判決,獲得最后的最優(yōu)選擇。
改進決策樹的目標推理過程如下:
(1) 計算電網營銷策略的樣本信息值
將用戶所在地理位置location、收費水平expense、用電習慣rule、氣溫氣候temperatrue、重點節(jié)日day等建立為訓練樣本值,設置的決策樹根節(jié)點具有α個“是”和β個“否”,則其信息值為:
(7)
(2) 構建第一個營銷策略子樹
基于地理空間信息,設定其葉節(jié)點的“是”和“否”個數為[α1,β1]、[α2,β2]、[α3,β3],由此推斷其信息值為info([α1,β1])、info([α2,β2])、info([α3,β3])。
(3) 計算每個節(jié)點屬性導致的信息增益
根據空間地理信息的樹,導致的信息增益,為基于全體特征數值的有效比值,將電網營銷策略的特征路徑進行重新分配,并計算整體增益為info([α1,β1],[α2,β2],[α3,β3])。
(4) 加權整個子樹的挖掘信息增益
基于地理坐標信息延伸的四個子樹,需要由聯(lián)合概率分布規(guī)律,分別計算每個子樹導致的電網營銷策略信息增益,為每個屬性計算信息增益Gα=info([α1,α1])、Gβ=info([β1,β2],[β2,β3])、Gαβ=info([α1,β2],[β2,β3])和Gβα=info([β1,α2],[α2,α3])。
(5) 確定最大的數據挖掘信息控制度
選擇屬性計算信息增益的時空關聯(lián)程度根節(jié)點與子樹,確定其具有最優(yōu)的數據挖掘性能。以此類推,再對后續(xù)屬性或者添加的子樹進行遞歸,繼續(xù)劃分屬性。
改進決策樹目標推理的策略如圖5所示。
圖5 改進決策樹目標推理的策略
由圖5中展示的可以根據特定的電網營銷需求,推導出電網企業(yè)所需要的營銷策略。
為了驗證新的數據挖掘方法具有更好的預測精度和更低的數據消耗,將建立基于特征感知迭代的電網業(yè)務營銷數據挖掘方法的測試環(huán)境。
3.1 測試環(huán)境部署
以南方電網某地級市為例,將電網企業(yè)級營銷數據挖掘系統(tǒng)部署在電網數據中心中,并且能夠接入到電力專網,獲取電力營銷管理系統(tǒng)、集中抄表管理系統(tǒng)、用電現(xiàn)場管理系統(tǒng)、配變監(jiān)測管理系統(tǒng)以及電量遠程系統(tǒng)。在專網交換機中部署網絡流量鏡像[11],接入泰克TLA7SA00協(xié)議分析儀用于檢測實際運行情況,測試環(huán)境搭建架構如圖6所示。
圖6 測試環(huán)境搭建架構
觀測某地級市電信局的用戶數量為12.3萬戶,其中按用電性質作為第1維度數據劃分依據,包括住宅用戶7.4萬戶、商業(yè)用戶1.2萬戶,工業(yè)用戶1.3萬戶、農業(yè)用戶1.1萬戶、其他用戶1.0萬戶。以6小時作為事件單位觀察,每天可以獲得49.2萬組數據,其中每組數據量為1 024 bit,則每天的數據量為492 Mbit。從數據內容上分別包括用戶所在地理位置、用電水平、用電習慣、氣溫氣候等4種主要用電特征,由此形成數據的第2維度,并對數據進行擴充為1.968 Gbit。以采集的數據進行累計值、增量值、平均值、最大值、最小值和標準差值等數據格式作為第3維度,數據量進一步擴充為11.8 Gbit。
3.2 預測精度性能分析
通過選擇在電網數據中心內配置三類營銷事件:工業(yè)用電、商業(yè)用電和居民用電,收集數據挖掘結果與協(xié)議分析儀器直接采集的數據,利用蒙特卡洛分析法和均方根誤差分析數據挖掘的預測精度,預測結果如圖7所示。
圖7 預測精度性能分析
由圖7中可以看出,基于特征感知迭代的電網業(yè)務營銷數據挖掘方法的最小誤差值分別為5.86%、5.92%、6.01%,低于文獻[5-6]中提及的數據挖掘方法,這是由于新方法能夠提升數據特征集的強空間關聯(lián)特性,降低預測誤差。
3.3 數據消耗性能分析
數據挖掘過程中需要一定的數據集才能滿足挖掘需求,因此對數據有一定的消耗。本文方法利用相似度計算,對數據進行有效清洗,區(qū)分度較低,應該在數據挖掘過程中被清洗。通過相似度計算,減少冗余的數據特征參量,如圖8所示,在測試目標數目相同時,本文方法的系統(tǒng)流量并發(fā)吞吐量要低于其他兩種方法。當測試目標為6個時,吞吐量為28.6 Mbps,能夠滿足電網業(yè)務營銷的網絡需求。
圖8 數據消耗性能分析
本文提出基于特征感知迭代的電網業(yè)務營銷數據挖掘方法。構建結合空間特征的電力用戶用電模型,提升數據特征集的強空間關聯(lián)特性,設計營銷管理決策樹挖掘模型,對冗余數據特征進行過濾清洗,推導準確的電網營銷行為,實現(xiàn)對用戶的精準售電。通過仿真和實驗分析,驗證新的數據挖掘方法具有更好的預測精度和更低的數據消耗。
[1] 彭小圣, 鄧迪元, 程時杰,等. 面向智能電網應用的電力大數據關鍵技術[J]. 中國電機工程學報, 2015, 35(3):503-511.
[2] 蔡徽. 廣東電網電力大數據現(xiàn)狀及主要發(fā)展思路[J]. 廣東電力,2014(12):11-14.
[3] 張向豐. 改進的蟻群引導電網系統(tǒng)云數據聚類故障檢測[J]. 科技通報,2014(10):187-189.
[4] 黃彥浩, 于之虹, 史東宇,等. 基于海量在線歷史數據的大電網快速判穩(wěn)策略[J]. 中國電機工程學報, 2016, 36(3):596-603.
[5] 王德文, 孫志偉. 電力用戶側大數據分析與并行負荷預測[J]. 中國電機工程學報, 2015, 35(3):527-537.
[6] 楊懿, 楊潔, 聶恬. 基于數據挖掘的電網數據智能分析的研究[J]. 電子技術與軟件工程, 2014(23):218-218.
[7] 龐松濤. 基于數據挖掘的電力云資源規(guī)劃調度[J]. 電信科學, 2015, 31(3):142-147.
[8] 彭暉, 陶洪鑄, 嚴亞勤,等. 智能電網調度控制系統(tǒng)數據庫管理技術[J]. 電力系統(tǒng)自動化, 2015(1):19-25.
[9] 張東霞, 苗新, 劉麗平,等. 智能電網大數據技術發(fā)展研究[J]. 中國電機工程學報, 2015(1):2-12.
[10] 耿亮, 吳燕, 孟憲楠. 電力數據挖掘在電網內部及各領域間的應用[J]. 電信科學, 2013, 29(11):127-130.
[11] 于君, 范文彬, 杜永軍. 智能電網中高維數據聚類方法研究[J]. 智能計算機與應用, 2016, 6(1):9-12.
ADATAMININGMETHODBASEDONITERATIONFEATURESENSATIONFORSTATEGRIDENTERPRISEMARKETING
Lai Guangyuan Li Jialiang*
(SupplyBureauofHeyuan,GuangdongPowerGridCo.,Ltd,Heyuan517000,Guangdong,China)
The data mining of the “Internet plus electric” mode basically supports the precise power utilization. Current data mining methods for electricity enterprise marketing are rough description and low differentiation, which causes low compatibility of electricity marketing based on users behavior. Therefore, this paper proposes a data mining method based on iteration feature sensation for state grid enterprise marketing. Constructing the power consumer utilization model considering spatial feature, designing the mining model for marketing management decision-making tree, and filtering the redundant data feature to deduct the accurate marketing method for State Grid. The tests and simulations demonstrate that the proposed method has better performance of accuracy and lower data consuming.
Data mining Decision-making tree Space-time relevance Electricity marketing
2016-08-08。賴光源,高工,主研領域:電網數據挖掘。李佳良,工程師。
TP391
A
10.3969/j.issn.1000-386x.2017.08.014