国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于去噪自編碼器網(wǎng)絡(luò)特征降維與改進(jìn)小批優(yōu)化K均值算法的海量用戶用電行為聚類及分析

2022-06-15 07:19:18肖先勇
電力自動(dòng)化設(shè)備 2022年6期
關(guān)鍵詞:降維用電聚類

汪 穎,楊 維,肖先勇,張 姝

(四川大學(xué) 電氣工程學(xué)院,四川 成都 610065)

0 引言

隨著我國(guó)清潔能源滲透率的不斷提高以及新型負(fù)荷增長(zhǎng)速度的不斷加快,用戶側(cè)的用電監(jiān)測(cè)與調(diào)控愈發(fā)重要[1-2]。隨著配電網(wǎng)高級(jí)量測(cè)體系A(chǔ)MI(Advanced Metering Infrastructure)的持續(xù)推進(jìn)與建設(shè),用戶用電信息測(cè)量、存儲(chǔ)、分析與應(yīng)用的完整體系被構(gòu)建,這使得基于電力大數(shù)據(jù)分析來(lái)實(shí)現(xiàn)用戶側(cè)用電調(diào)控成為可能。準(zhǔn)確進(jìn)行用戶用電行為聚類分析與用戶畫像是開(kāi)展用電調(diào)控的必要前提,可為優(yōu)化峰谷差、平衡供需缺口提供數(shù)據(jù)支撐,并且根據(jù)用戶畫像的結(jié)果可明確用戶的用電需求與價(jià)值,這是進(jìn)行用戶細(xì)分、實(shí)施精準(zhǔn)營(yíng)銷的基礎(chǔ)。

用于用戶用電行為挖掘與分析的技術(shù)主要包括非侵入式負(fù)荷監(jiān)測(cè)NILM(Non-Intrusive Load Moni‐toring)技術(shù)和大數(shù)據(jù)驅(qū)動(dòng)的負(fù)荷聚類技術(shù)[3-4]。前者通過(guò)對(duì)用戶總線數(shù)據(jù)的監(jiān)測(cè)與分解,實(shí)現(xiàn)各用電設(shè)備投切與運(yùn)行的監(jiān)測(cè),實(shí)時(shí)分析用戶的用電行為,對(duì)該技術(shù)的研究較為成熟,但該技術(shù)屬于設(shè)備級(jí)的監(jiān)測(cè)技術(shù),受監(jiān)測(cè)終端改進(jìn)、用戶隱私等問(wèn)題局限,尚未廣泛應(yīng)用。后者是典型的無(wú)監(jiān)督式機(jī)器學(xué)習(xí)的應(yīng)用,屬于用戶群的監(jiān)測(cè)技術(shù),適用于分布廣泛的海量用戶數(shù)據(jù)的實(shí)時(shí)分析。

近年來(lái),隨著國(guó)家電網(wǎng)公司不斷推進(jìn)配電網(wǎng)的智能化和自動(dòng)化,各類監(jiān)測(cè)終端與計(jì)量裝置被廣泛應(yīng)用,形成了營(yíng)銷系統(tǒng)、計(jì)量系統(tǒng)、配電網(wǎng)自動(dòng)化系統(tǒng)、配電網(wǎng)生產(chǎn)系統(tǒng)等,多源、海量的電力數(shù)據(jù)給數(shù)據(jù)挖掘與分析工作帶來(lái)了巨大挑戰(zhàn)。根據(jù)測(cè)算,我國(guó)智能監(jiān)測(cè)終端每日生成幾百億條數(shù)據(jù),每年產(chǎn)生的數(shù)據(jù)量超過(guò)70 TB[5]。在實(shí)際工程中,用電特性聚類的各項(xiàng)應(yīng)用均面臨著用戶類型多樣、體量龐大、數(shù)據(jù)通信制約等問(wèn)題,如何高效地實(shí)現(xiàn)海量用戶用電行為的挖掘與分析,是當(dāng)前面臨的重要問(wèn)題。

針對(duì)上述問(wèn)題,學(xué)者們主要從算法優(yōu)化、大數(shù)據(jù)處理技術(shù)應(yīng)用等方面開(kāi)展研究。算法優(yōu)化主要體現(xiàn)在數(shù)據(jù)降維以及聚類方法的選擇與優(yōu)化2 個(gè)方面。文獻(xiàn)[6]定義用電行為指標(biāo),對(duì)負(fù)荷數(shù)據(jù)進(jìn)行降維,提出基于聚類有效性修正的德?tīng)柗品ǎ瑢?duì)日負(fù)荷特性指標(biāo)進(jìn)行權(quán)重配置,并以加權(quán)歐氏距離為相似性判據(jù),實(shí)現(xiàn)日負(fù)荷曲線的分類;文獻(xiàn)[7]結(jié)合推土機(jī)距離EMD(Earth Mover’s Distance)和歐氏距離度量不同用戶用電行為的差異程度,通過(guò)統(tǒng)計(jì)電力用戶在多日同一時(shí)刻的負(fù)荷分布情況,從橫向和縱向2 個(gè)角度全面表征用戶的用電行為,提出一種考慮負(fù)荷縱向隨機(jī)性的基于EMD 的用戶用電行為識(shí)別新方法;文獻(xiàn)[8]選取負(fù)荷曲線多維度特征,利用最大相關(guān)最小冗余mRMR(maximal Relevance and Minimal Redundancy)原則優(yōu)選出特征子集,實(shí)現(xiàn)用戶畫像;文獻(xiàn)[9]通過(guò)點(diǎn)積的方式構(gòu)造核矩陣,將數(shù)據(jù)映射到高維空間中進(jìn)行聚類,進(jìn)而加大數(shù)據(jù)的可分性,并采用基于核方法的聚類算法提高負(fù)荷曲線聚類的準(zhǔn)確性。

在大數(shù)據(jù)處理技術(shù)方面,Hadoop、Spark、Storm等大數(shù)據(jù)框架能有效解決海量數(shù)據(jù)存儲(chǔ)、處理及分析等問(wèn)題[5,10],可將算法并行化,降低算法的時(shí)空復(fù)雜度。此外,分布式計(jì)算、云計(jì)算、邊緣計(jì)算等為電力大數(shù)據(jù)分析提供了有效的解決方案。文獻(xiàn)[11]將樣本密度、類內(nèi)樣本平均距離的倒數(shù)和類間距離三者的乘積定義為權(quán)值積,以最大權(quán)值積法改進(jìn)Kmeans 算法,以MapReduce 模型實(shí)現(xiàn)算法并行化,提高聚類的有效性與算法收斂速度。

傳統(tǒng)的K-means 算法需要每個(gè)樣本參與質(zhì)心計(jì)算以及對(duì)所有候選中心計(jì)算相似度才能進(jìn)行歸類。當(dāng)每次迭代都需要全體樣本參與計(jì)算時(shí),就會(huì)對(duì)硬件的存儲(chǔ)、讀寫速度提出較高要求,無(wú)法實(shí)現(xiàn)有效的實(shí)時(shí)監(jiān)測(cè)、分析與應(yīng)用。為進(jìn)一步提高計(jì)算效率,本文提出一種適用于海量用電數(shù)據(jù)分析的方法。首先,利用系統(tǒng)抽樣方法從海量用戶數(shù)據(jù)中篩選典型負(fù)荷數(shù)據(jù)樣本,提取用戶行為多維特征;其次,構(gòu)建多層去噪自編碼器DAE(Denoising AutoEncoder)模型,利用典型樣本訓(xùn)練網(wǎng)絡(luò),實(shí)現(xiàn)特征優(yōu)化與降維;然后,將小批優(yōu)化K均值MBKM(Mini-BitchK-Means)算法作為聚類算法,通過(guò)優(yōu)化質(zhì)心選擇與超參數(shù)優(yōu)化對(duì)算法進(jìn)行改進(jìn),其中超參數(shù)優(yōu)化是基于高斯過(guò)程的貝葉斯優(yōu)化算法GPBOA(Gaussian Process for Bayesian Optimization Algorithm)通過(guò)構(gòu)建輪廓系數(shù)Sil(Silhouette coefficient)指標(biāo)與超參數(shù)之間的優(yōu)化關(guān)系來(lái)實(shí)現(xiàn)的;最后,利用互信息篩選用戶用電行為關(guān)鍵特征,分析各類用戶的用電行為與特點(diǎn),并應(yīng)用愛(ài)爾蘭智能電表計(jì)量數(shù)據(jù)驗(yàn)證所提方法的有效性。

1 用電行為特征提取與歸一化處理

與工業(yè)負(fù)荷相比,居民及商業(yè)負(fù)荷的波動(dòng)性更強(qiáng),受工作時(shí)間、溫度、季節(jié)、電價(jià)、用戶心理等主客觀因素影響較大,本文參考國(guó)內(nèi)外文獻(xiàn)[6,8,12-13]定義常用的用戶用電行為特征,特征的定義與物理意義見(jiàn)附錄A 表A1。用電行為特征是根據(jù)日負(fù)荷曲線計(jì)算得到的,本文提取的特征分為直觀描述型指標(biāo)(包括日最大負(fù)荷時(shí)刻、日最小負(fù)荷時(shí)刻以及峰谷相距時(shí)間3 個(gè)指標(biāo))與比值描述型指標(biāo)(包括日最小負(fù)荷率、日峰谷差率、日負(fù)荷率、峰期負(fù)載率、谷期負(fù)載率以及平期負(fù)載率6 個(gè)指標(biāo))2 類,按照時(shí)間尺度可以從全天與峰、谷、平4 個(gè)角度對(duì)用電行為特征進(jìn)行劃分。

由于不同的用戶用電屬性差別較大,因此在特征降維前對(duì)特征進(jìn)行歸一化處理以提升模型的收斂速度與精度,本文采用零均值歸一化,即:

式中:X為歸一化處理后的樣本數(shù)據(jù);Xinit為原始特征樣本數(shù)據(jù);μ為所有樣本數(shù)據(jù)的均值矩陣;σ為所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。處理后的樣本數(shù)據(jù)服從均值為0、標(biāo)準(zhǔn)差為1的標(biāo)準(zhǔn)正態(tài)分布。

2 基于DAE網(wǎng)絡(luò)的多維特征優(yōu)化

特征選擇與降維技術(shù)可去除冗余特征以及提取有效信息,本文通過(guò)構(gòu)建DAE 網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)高維特征的優(yōu)化,提升聚類速度與效果。

2.1 自動(dòng)編碼器的特征降維與重構(gòu)

2.1.1 自動(dòng)編碼器基本原理

典型的特征降維方法包括特征選擇[13]和特征變換。特征選擇包括過(guò)濾式、包裹式與嵌入式3 種,其通過(guò)一定的規(guī)則選出分類或聚類特征,難以保留全局信息;特征變換包括線性方法和非線性方法,這2種方法保留全局特征的能力存在差異。

自動(dòng)編碼器AE(AutoEncoder)是一種無(wú)監(jiān)督式的特征降維與特征表達(dá)方法,由編碼器與解碼器構(gòu)成,是一種輸入和訓(xùn)練目標(biāo)相同的神經(jīng)網(wǎng)絡(luò)。AE 的參數(shù)通過(guò)重構(gòu)損失訓(xùn)練得到,重構(gòu)損失為:

式中:Rloss(f,g)為重構(gòu)損失,f為AE 的編碼過(guò)程,g為AE 的解碼過(guò)程;n為樣本數(shù),將每個(gè)樣本的維度記為m,則X的大小為n×m;Xi為X的第i行,表示第i個(gè)樣本;X?i為第i個(gè)重構(gòu)樣本,所有重構(gòu)樣本構(gòu)成X?;argmin{·}表示獲取特定AE 網(wǎng)絡(luò)參數(shù)使得重構(gòu)損失達(dá)到最小值。

AE的編碼與重構(gòu)過(guò)程r(X)表示為:

AE 的訓(xùn)練過(guò)程就是利用隨機(jī)梯度下降法調(diào)整網(wǎng)絡(luò)參數(shù)(權(quán)重w與偏置b),使重構(gòu)信號(hào)與輸入信號(hào)誤差最小,本文選用交叉熵作為AE 的損失函數(shù)ξ(X),即:

式中:X(i,j)為X的第i行第j列元素;X?(i,j)為X?的第i行第j列元素。

2.1.2 AE降維的維度約束

特征降維的目的主要有3 個(gè):降低輸入向量維度,從而降低聚類算法的復(fù)雜度;實(shí)現(xiàn)數(shù)據(jù)的可視化,以便于觀察數(shù)據(jù)的分布特點(diǎn);減輕數(shù)據(jù)傳輸壓力,只需傳遞訓(xùn)練好的網(wǎng)絡(luò)參數(shù)與降維后的數(shù)據(jù)即可實(shí)現(xiàn)數(shù)據(jù)重構(gòu)。根據(jù)上述目的,特征壓縮維度越低越好,但該維度受信息保留率[14]和信號(hào)重構(gòu)誤差限制,且信息保留率越高,信號(hào)重構(gòu)誤差越小。信息保留率η與重構(gòu)損失函數(shù)eη分別為:

式中:EASPE為平均平方映射誤差;TV為總變差;den為降維后的特征維度,其值根據(jù)η與eη的大小變化進(jìn)行選?。籜j為X的第j列,表示第j維特征,X1—X9分別為附錄A 表A1 中日峰谷差率、日最小負(fù)荷率、日負(fù)荷率、日最大負(fù)荷時(shí)刻、日最小負(fù)荷時(shí)刻、峰期負(fù)載率、谷期負(fù)載率、平期負(fù)載率、峰谷相距時(shí)間;X?j為X?的第j列,表示重構(gòu)后的第j維特征。

2.2 DAE網(wǎng)絡(luò)

傳統(tǒng)AE 通過(guò)幾十次迭代訓(xùn)練即可達(dá)到較好的效果,但易出現(xiàn)過(guò)擬合現(xiàn)象,通過(guò)隨機(jī)失活(Dropout)正則化、增加輸入樣本噪聲[15]等方法可提高模型泛化能力,因此,本文對(duì)訓(xùn)練樣本增加噪聲,如式(7)所示,在輸入層間進(jìn)行Dropout 處理,并在訓(xùn)練階段減弱神經(jīng)元的聯(lián)合適應(yīng)性,增強(qiáng)模型的泛化能力。

式中:Xtrain為訓(xùn)練樣本;Xtrain-N為Xtrain通過(guò)式(7)產(chǎn)生的損壞數(shù)據(jù);NF為噪聲因子;XN為服從均值為0、標(biāo)準(zhǔn)差為1的正態(tài)分布的數(shù)據(jù)。

2.3 基于DAE網(wǎng)絡(luò)降維的特征互信息分析

DAE 網(wǎng)絡(luò)降維后的特征與初始特征不同,本文通過(guò)計(jì)算降維前、后特征的互信息MI(Mutual Infor‐mation)得到用戶行為的關(guān)鍵特征,如式(8)所示。

式中:Ys(s=1,2)為降至2 維后AE 的特征,表示Y的第s列;MI(Xj;Ys)為降維前、后特征的互信息;λ∈Ys、τ∈Xj表示λ、τ分別為Ys、Xj的元素;p(λ,τ)為λ和τ的聯(lián)合分布概率;p(λ)、p(τ)分別為λ和τ的概率密度。互信息值越大表示兩變量相關(guān)性越高;互信息值為0時(shí),表示兩變量相互獨(dú)立。

3 基于改進(jìn)MBKM算法的海量用電數(shù)據(jù)聚類

3.1 MBKM算法原理

聚類屬于無(wú)監(jiān)督學(xué)習(xí)范疇,是將無(wú)標(biāo)簽的數(shù)據(jù)按照同屬性進(jìn)行聚合。常見(jiàn)的聚類算法包括基于劃分的算法、基于密度的算法、基于層次的算法、基于網(wǎng)絡(luò)的算法和基于模型的算法五大類。K-means 算法是典型的基于劃分的算法,該算法計(jì)算過(guò)程簡(jiǎn)單,時(shí)間復(fù)雜度低,但其對(duì)初始值的設(shè)置較為敏感,不能識(shí)別非球形類,并且當(dāng)聚類樣本量非常大時(shí),即使考慮了距離優(yōu)化,算法仍然較為耗時(shí),且聚類效果不佳。在大數(shù)據(jù)背景下,文獻(xiàn)[16]提出MBKM 算法以解決大樣本聚類問(wèn)題,該算法使用小批量樣本優(yōu)化K-means 算法[17],即每次采用隨機(jī)產(chǎn)生的子集訓(xùn)練算法,以縮短計(jì)算時(shí)間,該算法的優(yōu)勢(shì)在于小批量的隨機(jī)噪聲往往比整體的低[16],當(dāng)數(shù)據(jù)集隨著冗余樣本的增加而變大時(shí),不會(huì)增加計(jì)算成本。

MBKM 算法主要是通過(guò)取樣本的流平均值以及之前分配給質(zhì)心的所有樣本來(lái)更新聚類質(zhì)心,達(dá)到降低聚類質(zhì)心變化率的效果,如式(9)所示。

式中:ck(k=1,2,…)為第k個(gè)聚類質(zhì)心;ηs為學(xué)習(xí)率;xsample為小樣本中的一條數(shù)據(jù);v(ck)為小樣本第k個(gè)類的計(jì)數(shù)。在達(dá)到一定迭代次數(shù)后,小樣本的收斂特性與整體樣本收斂特性接近。

3.2 MBKM算法的改進(jìn)

為進(jìn)一步提升MBKM 算法的聚類速度和效果,本文從2 個(gè)方面對(duì)該算法進(jìn)行改進(jìn):優(yōu)選初始聚類質(zhì)心;基于貝葉斯優(yōu)化理論進(jìn)行MBKM 算法初始超參數(shù)的優(yōu)化。

在大數(shù)據(jù)背景下,K-means++算法[18]與本文改進(jìn)MBKM 算法的效果相差極小,但是K-means++算法需要全部樣本進(jìn)行迭代,算法收斂時(shí)間會(huì)隨著冗余樣本的增加而增長(zhǎng)。

3.2.1 初始聚類質(zhì)心優(yōu)化

本文在MBKM 算法的基礎(chǔ)上,采用初始優(yōu)化方法確定初始聚類質(zhì)心,進(jìn)一步提升算法的收斂性能。首先隨機(jī)選取一個(gè)初始聚類質(zhì)心,根據(jù)式(10)計(jì)算每個(gè)樣本與已選出的聚類質(zhì)心的最短距離De(Xi),然后選取最短距離最大的點(diǎn)作為新的聚類質(zhì)心,直到選出K個(gè)聚類質(zhì)心,其中K為聚類數(shù)。

式中:ur為已選出的第r個(gè)聚類質(zhì)心;kselected為已選出的聚類質(zhì)心數(shù)。

3.2.2 基于高斯過(guò)程貝葉斯優(yōu)化的超參數(shù)優(yōu)化

超參數(shù)是獨(dú)立于建模過(guò)程的自由參數(shù),超參數(shù)優(yōu)化可極大提升計(jì)算效率,常見(jiàn)的優(yōu)化方法包括隨機(jī)搜索、遺傳優(yōu)化等。在大數(shù)據(jù)背景下,上述方法的測(cè)試成本高,而貝葉斯優(yōu)化根據(jù)已有測(cè)試數(shù)據(jù)決定下一次的測(cè)試參數(shù),可大幅提高搜索效率。

MBKM 算法的主要參數(shù)見(jiàn)附錄A 表A2。其中,初始化質(zhì)心運(yùn)行算法的次數(shù)Nt、質(zhì)心被重新賦值的最大次數(shù)比例ε、連續(xù)采樣包個(gè)數(shù)β決定了算法的整體運(yùn)行時(shí)間,一般將Nt與β設(shè)置為默認(rèn)值,對(duì)ε值進(jìn)行尋優(yōu);采樣包大小b默認(rèn)值為100,如果發(fā)現(xiàn)數(shù)據(jù)集的類別較多或者噪聲點(diǎn)較多,則對(duì)b值進(jìn)行優(yōu)化以提升聚類效果。本文選用Sil 作為MBKM 算法超參數(shù)(K、ε與b)的優(yōu)化指標(biāo),K值通過(guò)肘部法則與Sil 變化曲線拐點(diǎn)綜合確定[19]。肘部法則通過(guò)計(jì)算誤差平方和SSE(the Sum of Squares due to Error)確定,即:

式中:ESSE為SSE;Cs為第s個(gè)類;q∈Cs表示q是第s個(gè)類的樣本;ms為第s個(gè)類的聚類質(zhì)心。

式中:γoption(ε,b)為待尋優(yōu)超參數(shù)向量;χ為以ε與b為變量的超參數(shù)尋優(yōu)空間;RD為以全體超參數(shù)為變量的尋優(yōu)空間;argmax{·}表示最大值尋優(yōu)過(guò)程;fsil(·)為超參數(shù)與Sil 的函數(shù)關(guān)系。GPBOA 主要包括以下3個(gè)步驟。

1)構(gòu)建樣本的高斯過(guò)程回歸模型gD(γ,υ,Σ),其中υ為均值矩陣,Σ為協(xié)方差矩陣。

2)求 采 樣 函 數(shù)u(γ,gD(γ,υ,Σ)) 的 極 值 點(diǎn)γ?,即:

3)通過(guò)測(cè)試得到新樣本(γ?,y?),其中y?=fsil(γ?)+ε?為新樣本的觀測(cè)值,fsil(γ?)為新樣本的估計(jì)值,ε?為新樣本的觀測(cè)誤差。更新總樣本以及高斯過(guò)程回歸模型,進(jìn)入下一次迭代,依此循環(huán),直至迭代結(jié)束。

步驟1)中的高斯模型是對(duì)給定樣本估計(jì)出的概率分布,gD(γ,υ,Σ)服從如下多維正態(tài)分布:

式中:m(?)為均值函數(shù);fsil(γi)(i=1,2,…,t)為第i個(gè)樣本的估計(jì)值;ψ( ?,?)為高斯核函數(shù),本文選擇平方指數(shù)SE(Squared Exponential)作為核函數(shù)。根據(jù)任意有限個(gè)隨機(jī)變量都滿足一個(gè)聯(lián)合高斯分布的性質(zhì),并考慮觀測(cè)值y的噪聲誤差,可得觀測(cè)值y與超參數(shù)γ的邊際似然分布?(y|γ1,γ2,…,γt,)為:

式中:ε為滿足高斯獨(dú)立同分布的噪聲,噪聲均值為0,標(biāo)準(zhǔn)差為σnoise;I為單位矩陣。當(dāng)出現(xiàn)測(cè)試新樣本(γ?,y?)時(shí),根據(jù)樣本觀測(cè)值y與fsil(γ?)的聯(lián)合分布得到預(yù)測(cè)分布?(fsil(γ*)|γ*,B1:t)為:

式中:m(γ*)為預(yù)測(cè)均值;cov(m(γ*))為預(yù)測(cè)協(xié)方差。

4 聚類有效性的評(píng)價(jià)指標(biāo)

在實(shí)際工程中,大量數(shù)據(jù)是無(wú)標(biāo)簽的,常采用Sil、方差比標(biāo)準(zhǔn)指數(shù)CHI(Calinski-Harabaz Index)、鄧恩指數(shù)DVI(Dunn Validity Index)、戴維森堡丁指數(shù)DBI(Davies-Bouldin Index)等[20]進(jìn)行評(píng)價(jià)。本文選用Sil、CHI 及DBI 這3 類指數(shù)進(jìn)行聚類有效性的評(píng)價(jià)。

第i個(gè)樣本的Sil 值Isil(i)通過(guò)結(jié)合類內(nèi)內(nèi)聚度和類間分離度進(jìn)行計(jì)算,即:

式中:a(i)為第i個(gè)樣本的類內(nèi)內(nèi)聚度;g(i)為第i個(gè)樣本的類間分離度。

式中:ns為第s個(gè)類中樣本的數(shù)量;D(i,j)為第i個(gè)樣本與第j個(gè)樣本之間的歐氏距離,表征不相似度。對(duì)所有樣本的Sil值求平均值,以用于表示整體聚類效果,Sil值取值范圍為[-1,1],其越趨近于1表示類內(nèi)內(nèi)聚度和類間分離度越優(yōu)。

CHI 是類間色散平均值與類內(nèi)色散的比值,如式(23)所示,其值越大,則聚類效果越好。

式中:s(K)為K個(gè)聚類數(shù)的總得分;Tr(?)為矩陣的跡;N為數(shù)據(jù)總數(shù);BK為類間色散矩陣,WK為類內(nèi)色散矩陣,兩矩陣定義見(jiàn)文獻(xiàn)[21]。CHI 的計(jì)算速度快,但凸類的CHI較高。

DBI是類內(nèi)距離之和與類間距離之比,即:

式中:IDBI為DBI分別為第i個(gè)和第j個(gè)類內(nèi)數(shù)據(jù)到類質(zhì)心的平均距離;ωi、ωj分別為第i個(gè)和第j個(gè)類的類向量,其歐氏距離表示類間距離。DBI 越小,則聚類效果越好。

5 本文方法流程

本文方法流程如圖1 所示,主要包括典型樣本訓(xùn)練、特征提取與預(yù)處理、DAE 網(wǎng)絡(luò)特征降維、基于改進(jìn)的MBKM算法聚類以及用戶行為分析與畫像。

圖1 本文方法流程圖Fig.1 Flowchart of proposed method

典型樣本訓(xùn)練是本文所提方法的基礎(chǔ),訓(xùn)練好DAE 模型應(yīng)用于總體樣本的特征優(yōu)化后,本文采用系統(tǒng)抽樣方法對(duì)典型樣本進(jìn)行抽取,即等距抽樣。需要注意的是,在確定抽樣方法前,需要校驗(yàn)樣本的均衡性,當(dāng)樣本不均衡時(shí),需要采取數(shù)據(jù)增強(qiáng)、分層抽樣等策略。

6 算例分析

6.1 數(shù)據(jù)來(lái)源與實(shí)驗(yàn)平臺(tái)

本文利用愛(ài)爾蘭智能電表的計(jì)量數(shù)據(jù)[19]對(duì)所提方法進(jìn)行驗(yàn)證,該數(shù)據(jù)來(lái)源于愛(ài)爾蘭電力和天然氣行業(yè)監(jiān)管機(jī)構(gòu)CER(Commission for Energy Regula‐tion)每隔半小時(shí)記錄一次的用電量數(shù)據(jù)。實(shí)驗(yàn)硬件平臺(tái)是64 位Windows 系統(tǒng),該系統(tǒng)采用Intel core(i7),3.40 GHz 處理器,8 GB RAM。深度學(xué)習(xí)框架基于Keras(基于TensorFlow1.2)實(shí)現(xiàn)。

6.2 用戶用電行為特征聚類

6.2.1 多層DAE網(wǎng)絡(luò)的構(gòu)建

本文隨機(jī)抽取總樣本的10%作為典型樣本,共提取9 種用戶用電行為特征,以用于訓(xùn)練網(wǎng)絡(luò)。所構(gòu)建的多層DAE網(wǎng)絡(luò)參數(shù)見(jiàn)附錄A表A3。網(wǎng)絡(luò)共7層,采用全連接層,在全連接層Dense1與全連接層Dense2之間增加Dropout 正則化處理(神經(jīng)元失活率為0.5);從輸入層到全連接層Dense3為編碼結(jié)構(gòu),其將特征壓縮至2 維;從全連接層Dense3到輸出層為解碼結(jié)構(gòu)。網(wǎng)絡(luò)訓(xùn)練共迭代200 次。圖2 為DAE 網(wǎng)絡(luò)訓(xùn)練誤差曲線,由圖可見(jiàn),在迭代約30 次后DAE網(wǎng)絡(luò)有效收斂。

圖2 DAE網(wǎng)絡(luò)訓(xùn)練誤差曲線Fig.2 Training error curve of DAE network

降維維度是通過(guò)不同數(shù)據(jù)壓縮比例下數(shù)據(jù)的信號(hào)重構(gòu)誤差和信息保留率來(lái)確定的。當(dāng)維度為2時(shí),信號(hào)重構(gòu)誤差eη=0.86,信息保留率為90%;當(dāng)維度為5 時(shí),信號(hào)重構(gòu)誤差eη=0.82,信息保留率為95%??梢?jiàn),維度降低并未損失過(guò)多信息,因此可令維度為2。

6.2.2 多層DAE網(wǎng)絡(luò)的特征優(yōu)化效果測(cè)試

為了證明所構(gòu)建的DAE 網(wǎng)絡(luò)的優(yōu)化效果,本文從聚類指標(biāo)、計(jì)算時(shí)長(zhǎng)等方面對(duì)比本文所構(gòu)建的多層DAE 網(wǎng)絡(luò)、標(biāo)準(zhǔn)主成分分析PCA(Principal Com‐ponent Analysis)、截?cái)嗥娈愔捣纸釺SVD(Truncated Singular Value Decomposition)、單層AE 以及多層AE的特征降維效果。

從數(shù)據(jù)集中隨機(jī)抽取1 000 條用戶數(shù)據(jù)作為測(cè)試樣本,提取用電特征并將其維度降至2、采用Kmeans++算法進(jìn)行聚類,結(jié)果對(duì)比如附錄A 表A4 所示。由表可見(jiàn):與未降維的結(jié)果相比,降維后聚類效果得到明顯提升,計(jì)算時(shí)間明顯縮短;本文方法與PCA 和TSVD 的計(jì)算時(shí)間相近,但聚類效果差別明顯;單層AE以及多層AE的效果不如本文的多層DAE,這說(shuō)明DAE的模型泛化能力較好。

6.2.3 基于改進(jìn)MBKM算法與典型樣本的超參數(shù)優(yōu)化

本節(jié)對(duì)典型樣本進(jìn)行訓(xùn)練,利用訓(xùn)練完成的DAE 網(wǎng)絡(luò)與改進(jìn)MBKM 算法,以抽取的典型樣本作為輸入,確定全局樣本最優(yōu)聚類數(shù)Kop、改進(jìn)MBKM算法最優(yōu)超參數(shù)(εop與bop)。

選取典型訓(xùn)練樣本,利用改進(jìn)MBKM 算法得到圖3,并進(jìn)行最優(yōu)聚類數(shù)Kop的判定。由圖可見(jiàn):當(dāng)聚類數(shù)為2 和3 時(shí),Sil 較大,當(dāng)聚類數(shù)增至4 時(shí),Sil 大幅下降,這說(shuō)明聚類數(shù)增至4 之后聚類效果不佳;在聚類數(shù)增至3 后,SSE 減小的幅度變緩,這說(shuō)明再增加聚類數(shù)的效果提升不明顯,即聚類數(shù)為3 時(shí)是肘點(diǎn)。綜上,可以確定最優(yōu)聚類數(shù)Kop=3。

圖3 聚類數(shù)與Sil、SSE的關(guān)系圖Fig.3 Relationship diagram of clustering number vs. Sil and SSE

選取典型樣本的用戶數(shù)據(jù)作為超參數(shù)尋優(yōu)樣本,設(shè)置ε的取值范圍為[0,0.04],間隔為0.005;設(shè)置b的取值范圍為[50,400],間隔為50。附錄A 圖A1 為在ε與b初始測(cè)試樣本下的Sil 分?jǐn)?shù)熱圖,由圖可見(jiàn),不同的參數(shù)組合具有不同的聚類效果。設(shè)置GPBOA 的迭代次數(shù)為30,迭代過(guò)程中超參數(shù)與優(yōu)化目標(biāo)Sil 之間的對(duì)應(yīng)關(guān)系如附錄A 表A5 所示。由表可見(jiàn),當(dāng)?shù)螖?shù)為24 時(shí),Sil 出現(xiàn)最大值,迭代24 次之后的Sil呈現(xiàn)下降趨勢(shì),最終得到最優(yōu)超參數(shù)bop=122、εop=0.03096。

6.2.4 聚類效果與計(jì)算時(shí)間對(duì)比

在不同數(shù)據(jù)集大小下,將改進(jìn)MBKM 算法、傳統(tǒng)MBKM 算法、K-means++算法、利用層次方法的平衡迭代規(guī)約和聚類BIRCH(Balanced Iterative Re‐ducing and Clustering using Hierarchies)算法、基于高斯混合模型的期望最大值聚類EM-GMM(Expected Maximum clustering based on Gaussian Mixture Model)算法、譜聚類SPC(SPectral Clustering)算法進(jìn)行比較,各算法的聚類效果如附錄A 表A6所示。不同算法的收斂時(shí)間如附錄A 圖A2 所示。由表A6 可知:BIRCH算法、K-means++算法、傳統(tǒng)MBKM算法與改進(jìn)MBKM 算法的聚類指標(biāo)均明顯優(yōu)于EM-GMM算法與SPC 算法,其中K-means++算法、傳統(tǒng)MBKM算法與改進(jìn)MBKM 算法的效果優(yōu)于BIRCH 算法;未經(jīng)超參數(shù)優(yōu)化與質(zhì)心優(yōu)化的傳統(tǒng)MBKM 算法的聚類效果較差;相較于K-means++算法,以Sil指數(shù)為超參數(shù)優(yōu)化目標(biāo)的改進(jìn)MBKM 算法的性能得到明顯提升,不僅在聚類效果的整體指標(biāo)上與K-means++算法十分接近,而且Sil指數(shù)更優(yōu)。由圖A2(a)可知,SPC算法收斂時(shí)間最長(zhǎng),呈現(xiàn)指數(shù)增長(zhǎng)。由圖A2(b)可知,數(shù)據(jù)集大小在0~10 000 范圍內(nèi)時(shí),K-means++算法與改進(jìn)MBKM 算法的收斂時(shí)間差別不大,但隨著數(shù)據(jù)集繼續(xù)擴(kuò)大,K-means++算法的收斂時(shí)間增長(zhǎng)明顯,而改進(jìn)MBKM 算法的收斂時(shí)間呈現(xiàn)緩慢的線性增長(zhǎng)趨勢(shì),在分析更大的數(shù)據(jù)集時(shí),改進(jìn)MBKM算法的優(yōu)勢(shì)將更明顯。

6.3 基于特征互信息計(jì)算的用電行為分析

本節(jié)應(yīng)用所提方法對(duì)1 000 個(gè)不同用戶在同一天的用電數(shù)據(jù)進(jìn)行聚類。圖4為經(jīng)過(guò)DAE降維后的聚類情況,共分為3類用戶,第1類用戶的數(shù)量最多。

圖4 降維特征的聚類結(jié)果Fig.4 Clustering results of dimension reduction features

聚類中心與行為特征的相關(guān)圖如附錄A 圖A3所示。用戶行為特征的互信息計(jì)算結(jié)果如表1 所示。由表可知:X1—X3與降維特征間的互信息相對(duì)較大,平均值在6以上;X4、X5、X7—X9與降維特征間的互信息相對(duì)較小,平均值在4以下。由圖A3(a)可知,X1—X3與各類用戶的統(tǒng)計(jì)值區(qū)分明顯。綜上可知,在初始特征空間中,X1—X3是主要分類特征。由圖A3(b)可知,Y1與各類用戶的統(tǒng)計(jì)值區(qū)分明顯,而Y2與各類用戶的統(tǒng)計(jì)值區(qū)分不明顯。

表1 初始特征與降維特征的互信息Table 1 Mutual information between initial features and dimension reduction features

3類用戶的初始特征統(tǒng)計(jì)如附錄A表A7所示,3類用戶的用電屬性特點(diǎn)如附錄A 圖A4 所示。第1類用戶的X1—X3中心值與另外2 類用戶的差別明顯,第1 類用戶的X1中心值為94.715 9%,約為第2類用戶的4.8 倍,約為第3 類用戶的1.7 倍;3 類用戶的用電高峰約出現(xiàn)在11:00—14:00,這與降溫負(fù)荷關(guān)系密切;第2類用戶的峰谷相距時(shí)間為10.3793 h,第1 類與第3 類用戶的負(fù)荷啟停規(guī)律較相似。對(duì)比3 類用戶的指標(biāo)可知,不同類型用戶在不同維度的用電特征上存在較大差異:第1 類用戶用電波動(dòng)最大,峰期負(fù)載率X6中心值最高,而谷期負(fù)載率X7中心值最低,這類用戶多為商業(yè)等用戶;第2 類用戶的用電最平穩(wěn),多為輕工業(yè)等用戶;第3 類用戶的負(fù)荷有一定的波動(dòng)性,整體負(fù)載率也較高,這類用戶多為居民用戶。

7 結(jié)論

本文提出一種適用于海量用戶用電特征聚類與分析的方法,可為電力需求管理、電力營(yíng)銷方案制定等工作提供支撐,并應(yīng)用愛(ài)爾蘭智能電表的計(jì)量數(shù)據(jù)對(duì)所提方法進(jìn)行了驗(yàn)證,得到以下結(jié)論:

1)構(gòu)建DAE 網(wǎng)絡(luò)進(jìn)行特征降維,與典型特征降維方法相比,所提方法在特征可視化、保留全局信息、信號(hào)重構(gòu)等方面更優(yōu);

2)將MBKM 算法應(yīng)用于海量電力負(fù)荷數(shù)據(jù)的聚類,并對(duì)算法在質(zhì)心優(yōu)化與超參數(shù)優(yōu)化兩方面進(jìn)行改進(jìn),實(shí)驗(yàn)結(jié)果表明,與其他算法相比,本文算法在收斂速度與聚類效果上表現(xiàn)更優(yōu);

3)通過(guò)計(jì)算降維前、后特征間的互信息可有效篩選關(guān)鍵特征,實(shí)現(xiàn)用戶用電行為畫像。

附錄見(jiàn)本刊網(wǎng)絡(luò)版(http://www.epae.cn)。

猜你喜歡
降維用電聚類
Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
用電安全
用煤用電用氣保障工作的通知
安全用電知識(shí)多
降維打擊
海峽姐妹(2019年12期)2020-01-14 03:24:40
用電安全要注意
基于DBSACN聚類算法的XML文檔聚類
基于改進(jìn)的遺傳算法的模糊聚類算法
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
拋物化Navier-Stokes方程的降維仿真模型
开封市| 德州市| 上虞市| 阿拉善盟| 拜城县| 郸城县| 轮台县| 岫岩| 商都县| 应城市| 贡山| 武强县| 壶关县| 岳普湖县| 伊春市| 富锦市| 盐山县| 富川| 若羌县| 廉江市| 汉川市| 合作市| 合山市| 高淳县| 石棉县| 巴林右旗| 理塘县| 凌海市| 安化县| 海安县| 临沂市| 三穗县| 屯门区| 安徽省| 舞钢市| 来宾市| 蒙山县| 西峡县| 桐乡市| 乡宁县| 洛浦县|