朱 克,張 莉,王笑一,張 浩,李 瑋
(1.國(guó)家電網(wǎng)有限公司營(yíng)銷部, 北京 100031;2.國(guó)家電網(wǎng)有限公司客戶服務(wù)中心,天津 300300;3.北京中電普華信息技術(shù)有限公司,北京 100031)
電力行業(yè)被視為我國(guó)國(guó)民經(jīng)濟(jì)的支柱性基礎(chǔ)能源行業(yè),其占據(jù)舉足輕重的地位[1]。傳統(tǒng)電網(wǎng)日益繁雜,存在數(shù)據(jù)量龐大且冗余等問(wèn)題,智能電網(wǎng)安全運(yùn)行存在較大困難[2-4]。隨著現(xiàn)代技術(shù)的發(fā)展,電力工業(yè)的發(fā)展與時(shí)代同步,國(guó)內(nèi)外專家對(duì)智能電網(wǎng)進(jìn)行了研究,部署智能采集系統(tǒng)采集用戶用電行為信息?;诖髷?shù)據(jù)技術(shù),迫切需要通過(guò)多維數(shù)據(jù)統(tǒng)計(jì)、歷史數(shù)據(jù)比較、電流電壓過(guò)閾值判斷等綜合過(guò)程,實(shí)現(xiàn)對(duì)電力用戶異常用電行為的監(jiān)測(cè)[5]。
李波等[6]通過(guò)聯(lián)合竊電檢測(cè)方法,依據(jù)網(wǎng)絡(luò)特征,結(jié)合粒子群算法以及支持向量機(jī)算法對(duì)竊電實(shí)現(xiàn)縱向檢測(cè),但其消耗成本極高且處理數(shù)據(jù)量規(guī)模有限;李晉國(guó)等[7]研究基于優(yōu)化后的非線性權(quán)重優(yōu)化粒子群優(yōu)化算法,實(shí)現(xiàn)異常用電行為檢測(cè),在提升檢測(cè)精度的同時(shí),誤差收斂速度較高,但其考慮因素不全面,可能導(dǎo)致突發(fā)情況頻頻發(fā)生。
為解決用戶側(cè)用電行為異常應(yīng)急處理問(wèn)題,采用大數(shù)據(jù)處理技術(shù)對(duì)用電數(shù)據(jù)進(jìn)行采集、聚類、處理等操作,提取龐大數(shù)據(jù)量中的特征數(shù)據(jù),從時(shí)間、空間、用戶多個(gè)維度深入剖析用電行為與各因素之間的關(guān)聯(lián)度,加強(qiáng)理解用戶行為[8,9],便于更好地實(shí)現(xiàn)用戶行為監(jiān)測(cè)。由此,本文提出一種基于大數(shù)據(jù)聚合的電力用戶行為實(shí)時(shí)云監(jiān)測(cè)方法,實(shí)現(xiàn)電力用戶行為的高效精準(zhǔn)監(jiān)測(cè)。
搜集、整理電力用戶行為大數(shù)據(jù),歸納總結(jié)其中核心信息,對(duì)電力企業(yè)運(yùn)營(yíng)戰(zhàn)略決策以及故障的實(shí)時(shí)排查、監(jiān)測(cè)電力企業(yè)平穩(wěn)運(yùn)行具有重大意義。云計(jì)算優(yōu)勢(shì)在于其可控規(guī)模龐大,在云計(jì)算基礎(chǔ)上,存儲(chǔ)并計(jì)算超大規(guī)模數(shù)據(jù)集[10],提出一種基于云計(jì)算大數(shù)據(jù)聚合的電力用戶行為實(shí)時(shí)云監(jiān)測(cè)方法。用圖1展示基于大數(shù)據(jù)聚合的電力用戶行為實(shí)時(shí)云監(jiān)測(cè)平臺(tái)架構(gòu)形式。
圖1 電力用戶行為實(shí)時(shí)云監(jiān)測(cè)平臺(tái)架構(gòu)形式
該平臺(tái)將基礎(chǔ)設(shè)施、終端、安全設(shè)備等采集到的電力用戶行為大數(shù)據(jù)存儲(chǔ)至數(shù)據(jù)層的關(guān)系型數(shù)據(jù)庫(kù)中,處理層調(diào)用采集層存儲(chǔ)數(shù)據(jù),利用大數(shù)據(jù)處理技術(shù)對(duì)數(shù)據(jù)進(jìn)行降維、清晰、標(biāo)準(zhǔn)化等操作提升數(shù)據(jù)質(zhì)量,應(yīng)用層利用處理完成的數(shù)據(jù)采用M-BIRCH算法完成用戶用電行為異常檢測(cè),最終通過(guò)顯示層展現(xiàn)監(jiān)測(cè)結(jié)果,完成電力用戶行為實(shí)時(shí)云監(jiān)測(cè)。
1.1.1 大數(shù)據(jù)處理
電力企業(yè)采集到的數(shù)據(jù)質(zhì)量未能滿足異常值檢測(cè)規(guī)則,且伴隨空值、數(shù)據(jù)混亂、數(shù)據(jù)差異較大等多樣弊端,要進(jìn)行的大數(shù)據(jù)處理步驟為一降維、二清洗、三標(biāo)準(zhǔn)化。
1.1.2 數(shù)據(jù)降維
降低數(shù)據(jù)維度,即采用較少新特征變量替代原始數(shù)據(jù)特征變量,使其內(nèi)部無(wú)關(guān)聯(lián),通過(guò)新變量得到交易時(shí)的重要信息。減小數(shù)據(jù)規(guī)模、簡(jiǎn)化計(jì)算流程、清除全部噪聲數(shù)據(jù)三方向?yàn)閿?shù)據(jù)降維目標(biāo)。通過(guò)主成分分析法完成數(shù)據(jù)降維處理[11],其步驟如下:
a.搭建數(shù)據(jù)協(xié)方差矩陣;
b.分別計(jì)算協(xié)方差矩陣的特征值以及特征變量;
c.將特征值依據(jù)其貢獻(xiàn)度排列;
d.選取前K個(gè)特征值當(dāng)作主要成分后把數(shù)據(jù)轉(zhuǎn)換至新數(shù)據(jù)空間內(nèi),對(duì)其開(kāi)展降維處理,且該數(shù)據(jù)空間采用新特征向量搭建完成。
1.1.3 數(shù)據(jù)清洗
及時(shí)挖掘、更改數(shù)據(jù)集內(nèi)部異常數(shù)據(jù),促使數(shù)據(jù)質(zhì)量進(jìn)一步提升。缺失數(shù)據(jù)、重復(fù)數(shù)據(jù)、不一致數(shù)據(jù)為數(shù)據(jù)清洗的三大類別。
a.依據(jù)數(shù)據(jù)規(guī)則對(duì)不一致數(shù)據(jù)進(jìn)行偏差檢測(cè)并改正。
b.對(duì)于缺失數(shù)據(jù),可進(jìn)行補(bǔ)齊數(shù)據(jù)、清除元組及不予處置。為最大程度保留原始數(shù)據(jù)完整性,本次采用填補(bǔ)缺失數(shù)據(jù)方法。圖2為缺失數(shù)據(jù)填補(bǔ)流程圖。
圖2 缺失數(shù)據(jù)填補(bǔ)流程圖
c.計(jì)算相似度并以此判定重疊與否,若重復(fù)則合并或者清除。計(jì)算距離獲取相似度,即N維空間內(nèi)的兩點(diǎn)間實(shí)際距離。N維空間的距離用公式(1)描述:
(1)
1.1.4 數(shù)據(jù)標(biāo)準(zhǔn)化
各類數(shù)據(jù)源不同,其單位、量綱存在差異,為促使不同來(lái)源數(shù)據(jù)進(jìn)行對(duì)比分析,對(duì)其進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理,清除不同單位、量綱。用公式(2)描述數(shù)據(jù)標(biāo)準(zhǔn)化:
(2)
其中:樣本最大值以及最小值分別選取max、min描述。
1.2.1 BIRCH算法
BIRCH作為層次聚類算法,其聚類思想采用聚類特征以及特征樹(shù)(CF)概括描述,BIRCH定義:
對(duì)于簇{Xi}(i=1,2,3,…,N),其具有N個(gè)d維數(shù)據(jù)點(diǎn),用公式(3)描述特征向量定義:
CF=(N,LS,SS)
(3)
聚類特征定理為:用CF1=(N1,LS1,SS1)及CF2=(N2,LS2,SS2)以及CF1+CF2=(N1+N2,LS1+LS2,SS1+SS2)分別描述兩個(gè)類的聚類特征以及融合獲取的新類特征。
該算法計(jì)算中心、半徑以及類間距離等皆通過(guò)聚類特征完成。
層次聚類的特征位于CF樹(shù)內(nèi),由兩個(gè)參數(shù)分支因子B以及閾值T的高度平衡樹(shù)構(gòu)成CF樹(shù)。其中,各非葉節(jié)點(diǎn)的最大個(gè)數(shù)取決于分支因子,位于樹(shù)內(nèi)葉子節(jié)點(diǎn)中的子聚類最長(zhǎng)直徑由閾值大小決定。CF樹(shù)可將全部數(shù)據(jù)讀入內(nèi)存,也可分別讀入數(shù)據(jù)項(xiàng)于外存上。
1.2.2 M-BIRCH算法
M-BIRCH算法基于BIRCH聚類算法獲取的初次結(jié)果進(jìn)行二次分析以求取更為精準(zhǔn)的結(jié)果[12]。
用P描述電力用戶行為異常概率,百分比、目前類中平均距離以及點(diǎn)與類內(nèi)部其余點(diǎn)的平均距離分別用davg、dnew描述,閾值用T描述。
需先對(duì)新啟的數(shù)據(jù)點(diǎn)進(jìn)行計(jì)數(shù),再繼續(xù)處理。
當(dāng)該數(shù)據(jù)點(diǎn)包含在原有聚類塊時(shí),BIRCH聚類算法依據(jù)設(shè)置好的閾值T,對(duì)聚類特征數(shù)值進(jìn)行預(yù)運(yùn)算以及校正處理,將處理結(jié)果融入到聚類塊內(nèi);反之,采集該數(shù)據(jù)點(diǎn)目前聚類塊中所有數(shù)據(jù)點(diǎn)的距離平均值dnew,將其與當(dāng)前聚類塊的距離平均值davg進(jìn)行對(duì)比。
當(dāng)davg乘以初始擬定的百分比P的數(shù)值大于dnew,完成聚類塊中聚類特征值的校正操作后,向聚類塊中融入校正結(jié)果。反之,運(yùn)算后續(xù)聚類塊,若不相符則搭建新聚類塊[13]?;贛-BIRCH算法的云監(jiān)測(cè)平臺(tái)大數(shù)據(jù)聚類算法流程如下所示:
M-BIRCH-Cluster(T,dnew,davg,P),
{首先,累積數(shù)據(jù)流于滑動(dòng)窗口并采用BIRCH算法對(duì)數(shù)據(jù)量進(jìn)行聚類,各聚類塊依據(jù)其輸出結(jié)果進(jìn)行分割}
For(未抵達(dá)數(shù)據(jù)流末端){
選取其中某個(gè)新數(shù)據(jù)點(diǎn)讀入;
For(挨個(gè)計(jì)算已有聚類塊){
If(T閾值≥最大直徑){該數(shù)據(jù)點(diǎn)被吸入聚類塊并改正聚類特征值}
Else{數(shù)據(jù)點(diǎn)及當(dāng)前聚類塊內(nèi)全部數(shù)據(jù)點(diǎn)的距離平均值}
采集該聚類塊的距離平均值davg,
If(davg乘以初始擬定的百分比P數(shù)值大于dnew)
{該數(shù)據(jù)點(diǎn)被吸入聚類塊并改正聚類特征值}
Else{該數(shù)據(jù)點(diǎn)與下一個(gè)聚類塊同步計(jì)算}
不滿足上述條件,則搭建新聚類塊
}}
選取M-BIRCH算法提煉獲取用戶簇典型用點(diǎn)曲線,同時(shí)分別采用相似度度量三條曲線:用戶每日用電數(shù)據(jù)實(shí)際量曲線、用戶典型用電數(shù)據(jù)曲線以及用戶所在簇典型用電曲線三條曲線,實(shí)現(xiàn)基于大數(shù)據(jù)聚合的電力用戶行為實(shí)時(shí)云監(jiān)測(cè)方法設(shè)計(jì)[14]。
1.3.1 單一用戶典型曲線提取
用戶用電過(guò)程中的偶然情況發(fā)生頻繁,分析單一用戶典型曲線可杜絕該類情況的發(fā)生,提取的曲線需要依據(jù)不同時(shí)間點(diǎn)的平均用電數(shù)據(jù)繪制而成。各用戶曲線用公式(3)描述:
(3)
其中:用x1i、xtk描述第i個(gè)用戶第t時(shí)間點(diǎn)平均值、第t時(shí)間點(diǎn)第k天的用戶用點(diǎn)數(shù)據(jù)值,n為所選數(shù)據(jù)樣本天數(shù),N用于描述該曲線的總點(diǎn)數(shù)。
1.3.2 簇典型曲線提取
采用M-BIRCH算法進(jìn)行聚類,分析多用戶典型用電曲線,獲取各個(gè)簇的聚類中心,并且各用戶所屬簇聚類中心為該用戶簇典型曲線。
1.3.3 相似度度量
選用歐氏距離度量用戶每日實(shí)時(shí)用電曲線數(shù)值x1i、典型用電曲線數(shù)值x2i之間的相似度,以此判斷用戶用電行為差異[15]。歐氏距離用公式(4)描述:
(4)
其中:用N描述兩種負(fù)荷曲線中總數(shù)據(jù)點(diǎn)數(shù)。
用戶單日用電實(shí)時(shí)曲線上數(shù)據(jù)值X以及該用戶所在簇的簇典型用電曲線上數(shù)據(jù)值Y對(duì)比趨勢(shì)上的度量為皮爾森相關(guān)系數(shù)作用,反映出用戶實(shí)際用電數(shù)據(jù)曲線以及日常習(xí)慣用電趨勢(shì)之間的差別,生成皮爾森相關(guān)系數(shù):
(5)
選取某市電力公司的2000名用戶用電行為數(shù)據(jù)樣本集,將本文方法與文獻(xiàn)[6]方法、文獻(xiàn)[7]方法進(jìn)行對(duì)比驗(yàn)證,前者為基于網(wǎng)絡(luò)特征與用戶行為分析的監(jiān)測(cè)方法,后者為基于NWPSO-BP神經(jīng)網(wǎng)絡(luò)的監(jiān)測(cè)方法。分別從性能分析、聚類效果、監(jiān)測(cè)準(zhǔn)確性三方面開(kāi)展驗(yàn)證。
采取SSQ(Sum of Square Distance)方法,對(duì)其他方法與本文方法的算法應(yīng)用過(guò)程進(jìn)行同質(zhì)化處理,計(jì)算全部點(diǎn)與各個(gè)聚類中心之間的距離,判斷算法聚類質(zhì)量高低,當(dāng)SSQ數(shù)值越高,證明聚類質(zhì)量越低,反之則質(zhì)量越高。
將改進(jìn)前后的BIRCH算法與M-BIRCH算法分別進(jìn)行對(duì)比,采取同等數(shù)量、大小以及閾值子聚類對(duì)數(shù)據(jù)流進(jìn)行聚類。并分別選取20000個(gè)、200000個(gè)數(shù)據(jù)點(diǎn)進(jìn)行聚類操作,比較SSQ值與聚類質(zhì)量閾值,圖3為20000點(diǎn)下同等閾值的結(jié)果曲線圖。
圖3 20000點(diǎn)下同等閾值的結(jié)果曲線
分析圖3可知,處理20000個(gè)數(shù)據(jù)點(diǎn),緊密比值為0時(shí),改進(jìn)前后兩種算法的SSQ值均處于最大值,分別為9.70、9.62;當(dāng)緊密值為1.6時(shí)兩種算法的聚類SSQ值到達(dá)最優(yōu)狀態(tài),此時(shí)SSQ值分別為9.18、9.07。實(shí)驗(yàn)證明,本文方法應(yīng)用的改進(jìn)后的M-BIRCH算法的聚類質(zhì)量更高。
分析圖4可知,處理200000個(gè)數(shù)據(jù)點(diǎn)時(shí),無(wú)論緊密比值為何值,改進(jìn)后的M-BIRCH算法聚類的SSQ值均小于改進(jìn)前的BIRCH算法的SSQ值。這說(shuō)明數(shù)據(jù)量越大,本文方法應(yīng)用的M-BIRCH算法的聚類優(yōu)勢(shì)越顯著,聚類數(shù)據(jù)質(zhì)量更高。
圖4 200000點(diǎn)下同等閾值的結(jié)果曲線
歸納上述兩組實(shí)驗(yàn)結(jié)果并總結(jié)規(guī)律,緊密比值趨近1.6時(shí),本文方法應(yīng)用的M-BIRCH算法達(dá)到最優(yōu)狀態(tài)并獲得優(yōu)秀的結(jié)果。當(dāng)數(shù)據(jù)規(guī)模擴(kuò)大時(shí)該算法性能優(yōu)化性顯著提升,適用于計(jì)算大數(shù)據(jù)量的數(shù)據(jù)流聚類。
為進(jìn)一步衡量本文方法聚類性能,采用本文方法對(duì)用戶用電行為數(shù)據(jù)進(jìn)行聚類,并應(yīng)用肘部法則判定最優(yōu)聚類數(shù)量。用圖5描述本文方法聚類效果。
圖5 本文方法聚類效果
分析圖5可知,本文方法聚類結(jié)果與肘部法則判定聚類結(jié)果一致,說(shuō)明本文方法聚類準(zhǔn)確。
提取聚類結(jié)果中各簇的簇中心,用于描述該簇的簇典型用電曲線,3類簇典型用電曲線用圖6描述。
分析圖6可知,本文方法可有效依據(jù)聚類獲取的各簇的簇中心獲取用戶的典型用電曲線,用于分析用戶不同時(shí)間段的用電行為。
圖6 3類簇典型用電曲線
選取一定規(guī)模的訓(xùn)練集開(kāi)展試驗(yàn),歐氏距離及皮爾森相關(guān)系數(shù)度量閾值用a、b描述,分別取值為0.57和0.89,用表1描述用戶行為異常檢測(cè)度量閾值判斷標(biāo)準(zhǔn)。
本文采用2021年6-8月數(shù)據(jù)對(duì)用戶用電行為展開(kāi)測(cè)試,在測(cè)試時(shí)發(fā)現(xiàn)MT-015用戶存在異常情況,為2021年7月19日度量結(jié)果,其度量結(jié)果為0.47以及0.64。參考表1監(jiān)測(cè)用戶用電行為異常值,圖7為描述其用戶用電曲線。
根據(jù)圖7分析可知,該用戶在出現(xiàn)用電波峰時(shí)向后平移,相比平日用電情況存在較大差異,說(shuō)明該用戶的用電行為是異常的。實(shí)驗(yàn)結(jié)果表明,本文方法可以有效獲取電力用戶行為異常監(jiān)測(cè)結(jié)果。
圖7 用戶用電曲線圖
采用ROC以及AUC兩項(xiàng)指標(biāo)驗(yàn)證本文方法監(jiān)測(cè)準(zhǔn)確性,并加以分析獲得較為精準(zhǔn)的監(jiān)測(cè)結(jié)果。當(dāng)ROC曲線靠近左上角時(shí)表明監(jiān)測(cè)性能為佳,反之則存在偏差;ROC曲線下的面積用AUC描述,其代表一個(gè)概率,AUC數(shù)值越趨近于1則表明該方法監(jiān)測(cè)性能越優(yōu)秀。將三種方法進(jìn)行對(duì)比驗(yàn)證,用圖8描述三種方法監(jiān)測(cè)準(zhǔn)確性。
圖8 監(jiān)測(cè)準(zhǔn)確性
根據(jù)圖8分析可知,文獻(xiàn)[7]方法表現(xiàn)較差,其AOC曲線距離左上角偏遠(yuǎn),AUC面積為0.7145,整體效果最差;文獻(xiàn)[6]方法曲線較為接近左上角,但不及本文方法優(yōu)秀,其AUC面積為0.8266,略低于本文方法,監(jiān)測(cè)準(zhǔn)確性結(jié)果不佳;本文方法對(duì)電力用戶行為異常情況實(shí)現(xiàn)快速監(jiān)測(cè),且監(jiān)測(cè)結(jié)果ROC曲線最為接近左上角,其AUC面積為三種方法中的最大值,證明本文方法監(jiān)測(cè)結(jié)果的準(zhǔn)確性更好。
本文方法采用云計(jì)算搭建方法基本架構(gòu),基于大數(shù)據(jù)技術(shù)處理數(shù)據(jù),采用優(yōu)化后的M-BIRCH聚類算法聚
類大數(shù)據(jù),并對(duì)電力用戶用電行為異常情況進(jìn)行監(jiān)測(cè)。實(shí)驗(yàn)結(jié)果表明,本文所提方法聚類的SSQ值始終最低、聚類質(zhì)量高、監(jiān)測(cè)效果優(yōu)秀且準(zhǔn)確性極高,能夠精準(zhǔn)監(jiān)測(cè)電力用戶異常行為,達(dá)到預(yù)期目標(biāo),為電力企業(yè)平穩(wěn)運(yùn)行提供保障,可安心投入應(yīng)用。