国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Spark和K-Means聚類算法的電力用戶智能畫像

2022-12-07 01:59國網(wǎng)山東省電力公司泰安供電公司張立柱張林峰李雅文武同寶
電力設(shè)備管理 2022年22期
關(guān)鍵詞:畫像用電聚類

國網(wǎng)山東省電力公司泰安供電公司 張立柱 高 慧 張林峰 李雅文 武同寶

近年來,電網(wǎng)智能化和數(shù)字化的發(fā)展迅速,同時電力數(shù)據(jù)匯集方式逐漸多元化,數(shù)據(jù)分析的維度逐漸多樣化,數(shù)據(jù)量日漸龐大。然而,由于對電力用戶的需求分析認(rèn)識不足、對用戶的數(shù)據(jù)信息挖掘不準(zhǔn)確,識別的精度也不高。由于該問題日益增多,因此對電力數(shù)據(jù)中大量的用戶數(shù)據(jù)資源來說,其利用效率并不高。

電力用戶的智能畫像研究是基于大量的電力用戶的用電數(shù)據(jù)信息,運用各種技術(shù),對用戶的個體特性和行為進(jìn)行了探索分析。根據(jù)用戶的各種用電量數(shù)據(jù),對其進(jìn)行分類,并根據(jù)其特點對其進(jìn)行識別,從而能夠?qū)Σ煌愋偷挠脩粜袨椤⑻卣鬟M(jìn)行挖掘。這些差異可為電力公司在實施智能化管理方面的應(yīng)用提供一些參考。目前來看,對用戶用電的行為特征分析研究還不夠深入[1],用戶用電行為信息數(shù)據(jù)的價值還沒有得到有效應(yīng)用。通過聚類分析算法,可以使電力用戶數(shù)據(jù)標(biāo)簽化,從而達(dá)到用戶畫像的目的,以此來滿足用戶個性化、多元化的服務(wù)需求。所以,本文在電力用戶大數(shù)據(jù)平臺的基礎(chǔ)上,對數(shù)據(jù)進(jìn)行了預(yù)處理,利用K-Means聚類技術(shù),實現(xiàn)了用戶數(shù)據(jù)的智能畫像,同時使用Spark并行聚類算法,極大地減少了負(fù)荷特性的分析。

1 電力行業(yè)用戶智能畫像步驟

根據(jù)電力行業(yè)的用戶智能畫像,可將其分成以下幾個階段:采集、挖掘和研究用電量數(shù)據(jù);二是搭建用戶用電特征、行為的標(biāo)簽庫;三是對用電用戶進(jìn)行智能畫像[2]。

圖1 用戶智能畫像步驟

1.1 獲取和研究用戶用電數(shù)據(jù)

電力用戶的智能畫像信息包括用戶基本屬性、用電信息、用戶繳費信息和用戶需求信息四大類。這些龐大的信息流分散到不同的業(yè)務(wù)系統(tǒng)中。如用戶的基本屬性、用戶繳費等信息在營銷的服務(wù)管理系統(tǒng)中,用戶的電力數(shù)據(jù)在用電信息的采集業(yè)務(wù)系統(tǒng)中。此外,在95598的業(yè)務(wù)支持系統(tǒng)中包含著用戶需求信息。用戶的畫像所包含的層次數(shù)據(jù)并非越多越好,而是要找到與四大類別用戶數(shù)據(jù)相關(guān)程度強(qiáng)、同一業(yè)務(wù)場景強(qiáng)相關(guān)、同一產(chǎn)品與整體目標(biāo)使用者強(qiáng)相關(guān)即可。

1.2 建立用戶用電行為標(biāo)簽庫

行為標(biāo)簽是通過技術(shù)手段對用戶用電海量數(shù)據(jù)進(jìn)行精煉出的一種特征標(biāo)記。通過對用戶全方位的特性標(biāo)簽進(jìn)行全方位觀察,即可塑造出用戶用電數(shù)據(jù)的立體“畫像”了。因此,研究用戶智能畫像的核心步驟就是給用戶貼上各類“標(biāo)簽”,而各類標(biāo)簽中一部分是依據(jù)用戶用電的行為特征數(shù)據(jù)(如開戶年限、電量等級、繳費方式等)直接得到,另一部分則是通過一系列人工智能算法或規(guī)則(訴求容忍度、滿意度和訴求偏好等)進(jìn)行信息挖掘得到。

1.3 開展用戶智能畫像

用戶智能畫像的主要目的就是對用戶用電行為進(jìn)行分析研究,根據(jù)分析研究結(jié)果為用戶提供更高質(zhì)量的服務(wù)。一般來說,對用戶進(jìn)行分析時,需要把定量的信息轉(zhuǎn)化為定性的信息,從而通過不同的信息類別對不同的用戶群體進(jìn)行分析。用戶智能畫像的結(jié)果是可以觀察到不同的行業(yè),不同的種類,各個用戶用電負(fù)荷的變化趨勢,從而有利于全電網(wǎng)來分析用戶結(jié)構(gòu)、用電特性和電網(wǎng)的建設(shè)規(guī)劃。

2 Spark分布式編程框架

Spark是常用大數(shù)據(jù)分布式編程平臺,能夠有效地計算海量數(shù)據(jù)。Spark是由UC Bberkeley的AMPLab發(fā)起的基于彈性分布式的數(shù)據(jù)集(RDD)實現(xiàn)的分布式編程計算框架。Spark的整體編程框架結(jié)構(gòu)如圖2所示,每一個Spark都是在集群上進(jìn)行并行化操作,由平臺的驅(qū)動器程序來發(fā)起。同時驅(qū)動器程序可以操作管理多個執(zhí)行器的節(jié)點。由于Spark是分布式架構(gòu),在此環(huán)境下可以通過由驅(qū)動器程序控制的多個工作節(jié)點從HDFS文件系統(tǒng)中來讀取數(shù)據(jù),并將數(shù)據(jù)轉(zhuǎn)換為RDD。RDD是不可變化的分布式對象的集合,每一個RDD都會被分為多個分區(qū),而這些分區(qū)則分別在不同的執(zhí)行器節(jié)點上運行[3]。

圖2 Spark分布式編程框架結(jié)構(gòu)

與MapReduce基于磁盤計算模式相比,Spark則是內(nèi)存計算的模式。Spark運算的效率相對高效是因為不需要把迭代過程中的各類中間數(shù)據(jù)保存在磁盤里。針對大規(guī)模的數(shù)據(jù)集,基于Spark的各類應(yīng)用表現(xiàn)出的可擴(kuò)展性強(qiáng),非常適應(yīng)迭代次數(shù)多的聚類算法。

對不同種類的用戶來開展用電行為特性畫像的過程,首先是利用Spark的分布式編程框架結(jié)構(gòu),然后再通過其離線的分布式運算。由于計算模式更加細(xì)粒度,因此可根據(jù)不同類型的用戶構(gòu)建不同的負(fù)荷預(yù)測模型。因而可以預(yù)測分析每一個用戶的用電量,隨后再對其進(jìn)行累加,進(jìn)而獲得全網(wǎng)總用電量。

3 用戶用電數(shù)據(jù)預(yù)處理

3.1 用戶智能畫像的特征提取

針對電力用戶的數(shù)據(jù)特征,在整個用戶畫像的流程中,選擇合適的用電數(shù)據(jù)對進(jìn)行聚類有著關(guān)鍵性作用。由于電力用戶類型繁多,并且使用時間長短、行業(yè)特點等諸多因素對其造成不利影響。因此,可選取日最大負(fù)荷、日平均負(fù)荷、日最少負(fù)荷,日用電量、日峰谷差、日負(fù)荷比,日峰谷差率、正常時段用電百分比、峰時電量消耗等特征進(jìn)行了用電特征數(shù)據(jù)提取、聚類。由于電力用戶用電數(shù)據(jù)難以取得,故本文所采用的樣本多以用戶用電數(shù)據(jù)為主,僅涉及用戶用電數(shù)據(jù)特征的標(biāo)簽獲取,并未包括用戶的基本屬性標(biāo)簽和非用電特征行為類標(biāo)簽。

3.2 用戶特征數(shù)據(jù)處理

特征數(shù)據(jù)處理方法分為數(shù)據(jù)歸一化處理和數(shù)據(jù)標(biāo)準(zhǔn)化處理。其中,數(shù)據(jù)歸一化的第一種處理方式是,把特征數(shù)據(jù)映射到[0,1]范圍中,這樣算法計算起來更快速。另一種處理方式則是,通過歸一化處理把有量綱的數(shù)值轉(zhuǎn)化成無量綱數(shù)值的過程。特征數(shù)據(jù)歸一化處理后,可以對不同的單位量級特征數(shù)據(jù)進(jìn)行比較、加權(quán)。特征數(shù)據(jù)歸一化處理公式:

數(shù)據(jù)標(biāo)準(zhǔn)化是把特征矩陣轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布,是由公式z-score實現(xiàn)的。針對每個樣本點操作后,對標(biāo)準(zhǔn)化結(jié)果都會產(chǎn)生一定影響。其中標(biāo)準(zhǔn)化處理的計算公式如下[4]:

其中,mean為平均值,σ為標(biāo)準(zhǔn)差,std為方差。

電力用戶的特征數(shù)據(jù)信息具備自然的互聯(lián)網(wǎng)大數(shù)據(jù)屬性,不一樣的領(lǐng)域特性會致使數(shù)據(jù)信息突變增大。假如選用歸一化處理的形式特征提取,則最大最小值容易被異常點所影響,進(jìn)而不建議對信息量非常大的數(shù)據(jù)處理。與此同時,歸一化處理方式可擴(kuò)展性不強(qiáng),不適用于用戶側(cè)的負(fù)荷預(yù)測分析。而標(biāo)準(zhǔn)化處理的方式能適用于用戶側(cè)強(qiáng)干擾的條件中,針對均值而言,少許的突變點對其影響并沒有非常大,因此方差更改也較小。因此,選用標(biāo)準(zhǔn)化處理方式來進(jìn)行特征提取分析比較適合。

3.3 缺失值的填充處理

首先處理缺失率達(dá)到20%的數(shù)據(jù),直接刪除即可;而對于缺失率≤20%的數(shù)據(jù),則采用均值插補(bǔ)的處理方法來進(jìn)行數(shù)據(jù)填充。將相鄰2個數(shù)據(jù)的平均值作為缺失值的替代數(shù),假如周圍相鄰的2個數(shù)據(jù)也缺少。然后在遺漏數(shù)值的前后方向?qū)ふ乙粋€不為空的數(shù)值,直到找到一個不為空的數(shù)值為止。如果找到了一個邊界值,仍然是一個空的,則它的缺省值為0,被重新計算。對于最后的異常值,可以將其作為一個負(fù)值,而不做特殊的處理。

4 用戶用電K-Means聚類算法

4.1 K-Means算法介紹

K-Means是一種針對分類無監(jiān)督的聚類算法。通過K-Means對用電用戶進(jìn)行分類處理,從而使得具有相同用電特性、行為的用戶采用其各自的數(shù)學(xué)模型。K-Means原則是將不同的樣本特征數(shù)據(jù)選擇對應(yīng)的方法轉(zhuǎn)換成距離大小,然后根據(jù)距離大小對樣本進(jìn)行分類,劃分為個聚類中心,從而使不同的聚類中心離得盡可能遠(yuǎn)一些,最終可以達(dá)到分類的目的。K-Means算法的關(guān)鍵步驟主要包含以下幾點[5]:

(1)選擇聚類中心個數(shù),每一個對象代表一個聚類中心;(2)根據(jù)距離最近的規(guī)則,計算出各個樣本點到個聚類中心距離大小,并將其指派到距離最近的聚類中心(或最相似)對應(yīng)的類別;(3)聚類中心的更新:將每個分類中的任意一個對象所對應(yīng)的平均值作為聚類中心,然后計算出相應(yīng)的目標(biāo)函數(shù)值;(4)判斷是否有聚類中心與目標(biāo)函數(shù)值發(fā)生變化。如果沒有變化,那么可以得出一個結(jié)果;如果有改變,將返回到(2);(5)最后得到聚類的結(jié)果。

4.2 并行化處理

在大數(shù)據(jù)技術(shù)Spark中并行化處理K-Means算法。在利用初始聚類間距離盡可能大的原則基礎(chǔ)上,改進(jìn)每一次遍歷時取樣的方法。改進(jìn)的并行化K-Means每一次遍歷取樣O(k)個樣本,對比之前的K-Means的每一次的遍歷取樣,最多只能取一個樣本,運算的效率得到了極大的提高。改進(jìn)的優(yōu)化算法將該取樣過程重復(fù)大約O(logn)次,從而在進(jìn)行反復(fù)多次采樣后得到O(klogn)個樣本點組成的數(shù)據(jù)集合。然后對這O(klogn)個點再進(jìn)行聚類,得到新的k個聚類中心,最終把這k個點當(dāng)做初始聚類中心送入Lloyd迭代中。理論上來說,該算法過程需要O(logn)次重復(fù)取樣,然而實踐證明,一般只需要重復(fù)5次采樣步驟就能得到一組比較理想的初始聚類中心。

4.3 用戶智能畫像評估

用戶智能畫像的評估通常采用特征對象的相似度進(jìn)行評價。度量標(biāo)準(zhǔn)通常用輪廓因子來表示,而輪廓因子是簇密集和離散度之間的評價尺度標(biāo)準(zhǔn)。一般輪廓系數(shù)的數(shù)值在[1,-1]范圍內(nèi),假如該值越趨近于1,那么該簇越緊湊,說明聚類效果越好。其計算公式如下:

其中i為已聚類的數(shù)據(jù)中樣本點,bi為i所有的樣本到其他的族群平均距離,而ai則是i到自身簇的平均距離。

5 用戶智能畫像可視化

通過對電網(wǎng)中不同類型的電能需求進(jìn)行分析,實現(xiàn)對電網(wǎng)中各類電能的有效利用,實現(xiàn)電能利用效益和用戶數(shù)據(jù)利用價值的最大化。根據(jù)電力用戶需求特征建立智能的用戶畫像系統(tǒng),進(jìn)行用戶數(shù)據(jù)的分類和可視化展示,形成不同類型的用戶用電行為智能畫像,以便提供高質(zhì)量的多元化、精準(zhǔn)化的用電服務(wù)。

用戶的智能畫像可視化是實現(xiàn)人機(jī)交互的一個重要步驟,所以需要有相應(yīng)的設(shè)計。通常來說,用戶畫像的智能可視化框架結(jié)構(gòu)主要由Spark、Spark MVC、My batis組成,相應(yīng)的可形成一個以網(wǎng)頁作為基礎(chǔ)的開發(fā)框架結(jié)構(gòu)。Spark屬于開源的框架結(jié)構(gòu),計算簡單。從操作原理上來說,Spark包含了IOC容器。在該容器操作業(yè)務(wù)對象替換時,與其他開發(fā)框架結(jié)構(gòu)相比要更簡單一些。Spark MVC同樣也是開發(fā)源框架結(jié)構(gòu)的一種類型,但其與Spark的功能表現(xiàn)完全不同,其主要提供的是網(wǎng)頁多功能應(yīng)用程序MVC服務(wù)、模型目標(biāo)服務(wù)、分離控制器服務(wù)、分派器服務(wù)、處理程序等;分My batis屬于定制化SQL、高級映射和存儲過程的支撐框架。

伴隨著可視化和人工智能技術(shù)的不斷發(fā)展,越來越高效的展示和預(yù)測方法也會出現(xiàn)。在現(xiàn)有的研究基礎(chǔ)上,應(yīng)該繼續(xù)保持探索更直觀、更高效、更智能的畫像展示方法,提升電力企業(yè)服務(wù)資源統(tǒng)一調(diào)配的及時性和供電服務(wù)指揮的準(zhǔn)確性,來提升用戶滿意度,實現(xiàn)用戶訴求的主動響應(yīng)以及異常工況的主動消除,從而提升電力企業(yè)的經(jīng)營效益。

6 電力用戶智能畫像應(yīng)用場景

通過對用戶用電信息進(jìn)行智能分析,實現(xiàn)可視化用戶畫像,可以快速、準(zhǔn)確地反映出各用戶的使用情況,從而可以實現(xiàn)電網(wǎng)企業(yè)對用戶負(fù)荷的預(yù)測。除此之外,還可以通過用戶的行為畫像,針對不同的用戶進(jìn)行個性化的用電策略,從而制定更合適的電價優(yōu)惠方案。

一是用戶負(fù)荷預(yù)測的依據(jù)?,F(xiàn)階段用戶負(fù)荷和用電量的預(yù)測是需求響應(yīng)模塊的重要節(jié)點。而用戶用電智能化畫像,可以精確、高效率地完成用戶用電模式的劃分,從而合理地提升電力負(fù)荷和用電量預(yù)測的精確度。

二是電價政策制定的依據(jù)。根據(jù)用戶的智能需求,制定出一套科學(xué)、合理的電價方案,這樣就可以留住更多的優(yōu)質(zhì)用戶,提高用戶的滿意度。針對更加細(xì)分的用戶群體更應(yīng)該將不同層次和類型的客戶進(jìn)行私人訂制服務(wù),最終提升用戶的滿意度。

三是用戶用電方案的優(yōu)化。描述了不同使用者不同的用電行為、不同的種類。針對不同的用電量,不同的用電方案,可以通過對不同的用電量進(jìn)行監(jiān)測,從而達(dá)到優(yōu)化用電行為的目的,并且降低用戶的運營成本費用。

7 結(jié)語

針對海量的電力用戶大數(shù)據(jù),綜合考慮用戶用電的特征,本文采用并行化的K-Means對電網(wǎng)的數(shù)據(jù)進(jìn)行聚類,搭建電網(wǎng)的用戶智能畫像。通過Spark并行化處理來提高算法計算維度大種類多數(shù)據(jù)的求解性能。通過對電力用戶智能畫像進(jìn)行分析研究,可以有效地利用電力數(shù)據(jù),挖掘電力數(shù)據(jù)的潛力,從而支撐電力企業(yè)多元化、智能化、數(shù)字化發(fā)展。最后可根據(jù)電力用戶智能畫像,來分析不同的用戶用電個人行為差異。電力企業(yè)以此來科學(xué)識別、盤點各種類型的價值貢獻(xiàn)的電力用戶人群,可以高效地響應(yīng)與刺激各細(xì)分用戶的多樣化需求,從而實現(xiàn)用戶用電管理的精準(zhǔn)營銷和個性化服務(wù),為豐富電力行業(yè)增值服務(wù)提供強(qiáng)有力支撐。

猜你喜歡
畫像用電聚類
威猛的畫像
安全用電知識多
“00后”畫像
畫像
基于K-means聚類的車-地?zé)o線通信場強(qiáng)研究
對輸配電及用電工程的自動化運行的幾點思考
為生活用電加“保險”
用電安全要注意
基于高斯混合聚類的陣列干涉SAR三維成像
基于Spark平臺的K-means聚類算法改進(jìn)及并行化實現(xiàn)