摘要:為了充分發(fā)揮用戶負(fù)荷的可調(diào)節(jié)潛力,提出了一種基于近鄰傳播聚類-K均值聚類的工業(yè)用戶用電模式挖掘方法。首先,比較K均值聚類和近鄰穿傳播聚類-K均值聚類的優(yōu)缺點(diǎn)。在工業(yè)用戶的選取上,選擇最佳聚類數(shù)均為3的工業(yè)用戶負(fù)荷數(shù)據(jù)作為被分析對象以便聚類,借助MATLAB工具對用戶負(fù)荷數(shù)據(jù)進(jìn)行聚類,得到了3組所需的聚類中心,再繪制成曲線以便觀察和后續(xù)提取特征指標(biāo)。
關(guān)鍵詞:近鄰傳播聚類-K均 值聚類 工業(yè)用戶 可調(diào)節(jié)潛力評估 評估指標(biāo)體系 多準(zhǔn)則決策法
中國分類號:
Mining MethodsfofrMining Industrial User the Electricity Consumption PatternModeofIndustrial Users Based on Adjacentffinity Propagation Clustering-K-mMeans Clustering
ZONG Yi ZHENG Gang NAN Yu
( Kaifeng Power Supply Company,State Grid Henan Electric Power Company Kaifeng Power Supply Company, Kaifeng, Henan Province,471000 China)
Abstract:This paper proposes aA method ofminingthe electricity consumption mode of miningindustrial users electricity consumption pattern based on nearest neighboraffinity propagation clustering-K-means clustering is proposed to give full play to the adjustable potential of user loads. Firstly, it comparesing the advantages and disadvantages of k-means clustering andaffinity propagation clustering-K-means clustering. In the selection of industrial users,it selects the industrial user load data with the best clustering number of33 are selected as the analysised object for clustering.,With the help of MATLABMvhavxz2+/DBdITNYzUCr/99hGpiIL9ZZ5UQZjPEYDk= tools, clustersthe user load datawith the help of theMATLAB tool, are clusteredand toobtains the three groups ofrequired cluster centers,which are then drawn into curves for observation and thesubsequent extraction of characteristic indicators.
KeyWords:AffinityNearest NeighborPpropagation Cclustering-K-means cClustering; Industrial users; Adjustable potential assessment; Evaluation index system; Multi-criteria decision-making method
數(shù)據(jù)挖掘是目前數(shù)據(jù)庫領(lǐng)域和人工智能領(lǐng)域研究的重點(diǎn)方向,數(shù)據(jù)挖掘是從數(shù)據(jù)庫的許多數(shù)據(jù)找出先前未知的、隱含的有潛在利益的信息的不平凡歷程。發(fā)現(xiàn)的知識能運(yùn)用在運(yùn)籌控制、查詢數(shù)據(jù)優(yōu)化、信息檢索分類等[1]。
Chen J [2]和WANG M [3]比較了各種聚類算法如K均值聚類、K-modes算法、模糊聚類算法和圖論算法等的優(yōu)缺點(diǎn)以及適用的場景。徐青山 等人[4]以模糊C均值聚類的方法(FCM)為基礎(chǔ),對每個(gè)用戶的負(fù)荷數(shù)據(jù)進(jìn)行聚類分析,并提出計(jì)算用戶中斷速率和中斷特性的二次聚類模型。徐青山 等人[5]提出了結(jié)合Ward系統(tǒng)聚類法對重要用戶的負(fù)荷數(shù)據(jù)進(jìn)行聚類分析的改善模糊C均值法。孫毅 等人[6]以日負(fù)荷曲線為基礎(chǔ),利用模糊C均值聚類和模式識別原理,分類綜合用戶所屬用電行業(yè)。任炳俐 等人[7]提出降低維度的關(guān)鍵性指標(biāo),采用傳統(tǒng)的K-means聚類算法,聚類分析單一負(fù)荷,然后得出用戶典型的日負(fù)荷曲線。
1K均值聚類及其特點(diǎn)
K均值聚類算法是Mac Queen提出的一種無監(jiān)督聚類算法,其選擇對象均為最小誤差函數(shù),從而可以將所有劃分成給定的K個(gè)簇。
K均值聚類是一種硬聚類,隸屬度很明確,只有0和1這兩個(gè)值。需要事先確定最終聚類劃分?jǐn)?shù)目,除此之外還要正確選取加權(quán)模糊度參數(shù),受主觀影響較大,滿足兩個(gè)條件后才能獲得較好的聚類效果,本文采用近鄰傳播聚類算法,該算法人為主觀影響較小,無 須根據(jù)先驗(yàn)經(jīng)驗(yàn)來確定聚類數(shù)目和中心且最終聚類效果相較而言較為穩(wěn)定。
2基于近鄰傳播聚類-K均值的用電模式聚類
近鄰傳播聚類(簡稱AP)算法是2007年在Science雜志上提出的一種聚類算法。AP聚類算法在聚類的過程中涉及到了以下幾種變化量。相似度矩陣S,該矩陣中的數(shù)值反映的數(shù)據(jù)序列中各個(gè)數(shù)據(jù)點(diǎn)之間的相似度,例如假設(shè) 存在數(shù)據(jù)集X={x_1,x_2,…,x_n },則數(shù)據(jù)x_i和數(shù)據(jù)x_j之間的相似度即為矩陣S中的元素s(i,j),計(jì)算方法如下:
s(i,j)=-||x_i-x_j ||^2 (i≠j) (1)
在數(shù)據(jù)更新過程中,還存在兩個(gè)信息矩陣,即吸引信息矩陣和歸屬信息矩陣,分別用r和a表示。在更新結(jié)束之后如果確定數(shù)據(jù)j為數(shù)據(jù)i的聚類中心,那么兩個(gè)信息矩陣的值以及j需要滿足:
arg? max┬j {a(i,j)+r(i,j)} (2)
AP聚類算法主要步驟如下:
步驟1:針對某一數(shù)據(jù)序列X={X_1,X_2,…X_n },根據(jù)式(1)構(gòu)建相似度矩陣S,選用合適的參考值p。根據(jù)所需要的聚類數(shù)目將矩陣S中最大值/最小值/中值填入對角線中。
步驟2:吸引矩陣和歸屬矩陣的初始化,r=0,a=0,開始更新吸引信息矩陣r(i,j)和歸屬信息矩陣a(i,j)。r(i,j)更新計(jì)算方法如下。
r(i,j)=S(i,j)-max┬(j^'≠j) {a(i,j^' )+S(i,j^' ) } (3)
由于是第一次迭代,歸屬矩陣的值為零,因此定義r(i,j)的值為i,j之間的相似度S(i,j)與i和其他候選聚類中心(即,其 他不為j的數(shù)據(jù)點(diǎn))之間的最大相似度之差。歸屬信息矩陣a(i,j)更新計(jì)算方法如下。
當(dāng)i≠j時(shí):
a(i,j)=min(0,r(j,j)+∑_(i^'?{i,j}) max(0,r(i',j))) (4)
當(dāng)i=j時(shí):
a(j,j)=∑_(i^'≠j) max(0,r(i',j)) (5)
同時(shí),當(dāng)吸引信息矩陣和歸屬引入阻尼系數(shù)之后的更新公式如下:
r_(t+1) (i,j)=λr_t (i,j)+(1-λ)r_(t+1) (i,j) (6)
式 (6)中,r_(t+1) (i,j)和r_t (i,j)分別表示當(dāng)前的吸引信息矩陣和前一次更新的吸引信息矩陣,兩個(gè)不同迭代次數(shù)的矩陣用阻尼系數(shù)聯(lián)系;
a_(t+1) (i,j)=λa_t (i,j)+(1-λ)a_(t+1) (i,j) (7)
式 (7)中,a_(t+1) (i,j)和a_t (i,j)分別表示當(dāng)前的歸屬信息矩陣和前一次更新的歸屬信息矩陣,同樣的,兩個(gè)不同迭代次數(shù)的矩陣用阻尼系數(shù)聯(lián)系。
步驟3:重復(fù)執(zhí)行步驟2,按照步驟2中的順序,先對吸引信息r(i,j)更新,利用已更新的r(i,j)對歸屬信息a(i,j)進(jìn)行更新。綜合考慮這兩種在各個(gè)數(shù)據(jù)點(diǎn)之間傳遞的信息,遍歷每一個(gè)數(shù)據(jù)點(diǎn),判斷其成為聚類中心的可能性。
AP聚類算法不需要事先確定最終聚類結(jié)果的類數(shù)目,并且不需要事先指定聚類中心,同時(shí)聚類結(jié)果比較穩(wěn)定。
3 算例分析
3.1 用戶負(fù)荷數(shù)據(jù)
為得到正常、中斷、錯(cuò)時(shí)三種聚類數(shù)據(jù),因此本文在數(shù)據(jù)集中選取1組最佳聚類數(shù)目均為3的不同行業(yè)的工業(yè)用戶一年365天每天96點(diǎn)負(fù)荷數(shù)據(jù)來首先進(jìn)行聚類分析。用戶信息 行業(yè)類型為特種陶瓷制品制造。
這個(gè)用戶為篩選出來的最佳聚類數(shù)為3的用戶,以MATLAB作為聚類工具來對工業(yè)用戶數(shù)據(jù)進(jìn)行聚類分析得到3組聚類中心數(shù)據(jù),對這三組數(shù)據(jù)進(jìn)行繪圖以便觀察。得到聚類中心C的部分?jǐn)?shù)據(jù)如表1所示 。
3.2 仿真結(jié)果分析
根據(jù)聚類得到的3組聚類中心,繪制出的正常、中斷、錯(cuò)時(shí)功率曲線如圖1所示:
如圖1 所示,用戶1的三種用電模式較為明顯,其負(fù)荷曲線中正常工作模式曲線的高峰時(shí)段大約在第20 個(gè)至第60 個(gè)點(diǎn)范圍內(nèi),且高峰時(shí)段和低峰時(shí)段的差值較大,曲線波動(dòng)較大。用戶1主要在高峰時(shí)段進(jìn)行中斷工作,在低峰時(shí)段也進(jìn)行了少量的中斷工作,說明用戶關(guān)閉了部分生產(chǎn)設(shè)備和生活用電設(shè)備如空調(diào)、照明等,但一部分生產(chǎn)設(shè)備仍在正常運(yùn)行。在進(jìn)行錯(cuò)時(shí)工作時(shí)是將高峰時(shí)段的負(fù)荷轉(zhuǎn)移至了第60個(gè)至第96 個(gè)點(diǎn)范圍內(nèi)。
5結(jié)論
本文將特種陶瓷制品制造工業(yè)用戶負(fù)荷數(shù)據(jù)進(jìn)行聚類分析。在工業(yè)用戶的選取上,選擇1組最佳聚類數(shù)均為3的工業(yè)用戶負(fù)荷數(shù)據(jù)作為被分析對象以便聚類,以MATLAB作為聚類工具來對工業(yè)用戶數(shù)據(jù)進(jìn)行聚類得到了3組所需的聚類中心,再繪制成曲線以便觀察和后續(xù)提取特征指標(biāo)。通過對比3組用戶的工作曲線中,還可以判斷其具體的中斷和錯(cuò)時(shí)時(shí)段和方式 。
參 考 文 獻(xiàn)
楊佳興.基于數(shù)據(jù)挖掘和聚類算法的通用航空航材分類方法研究[D].中國民用航空飛行學(xué)院, 2021.
CHEN J,ZHUX Z,LIU H W.A mutual neighbor-based clustering method and its medical applications[J].Computers in Biology and Medicine,150(2022) 106184.
WANG M, FU W, HE X, et al.A survey on large-scale machine learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2022,34(6): 2574–2594.
徐青山,呂亞娟,楊斌.工商業(yè)用戶負(fù)荷中斷速率及中斷容量特性分析[J].電力需求側(cè)管理,2019,21(3):21-25,1.
徐青山,呂亞娟,孫虹, 等.大用戶多維度可中斷特性精細(xì)化分析[J].電工技術(shù)學(xué)報(bào),2020,35(S1):284-293.
孫毅,毛燁華,李澤坤, 等.面向電力大數(shù)據(jù)的用戶負(fù)荷特性和可調(diào)節(jié)潛力綜合聚類方法[J].中國電機(jī)工程學(xué)報(bào),2021,41(18):6259-6271.
任炳俐,張振高,王學(xué)軍, 等.基于用電采集數(shù)據(jù)的需求響應(yīng)削峰潛力評估方法[J].電力建設(shè),2016,37(11):64-70.