聯(lián)合知識圖譜與改進高斯混合模型的電力用戶聚類方法

2022-02-08 01:03朱韻攸王迥源

重慶理工大學(xué)學(xué)報(自然科學(xué)) 2022年12期

吉濤，何軼，朱韻攸，王迥源，申強，廖勇

(1.國網(wǎng)重慶市電力公司信息通信分公司，重慶 401120；2.國網(wǎng)重慶市電力公司, 重慶 400014；3.重慶大學(xué) 微電子與通信工程學(xué)院，重慶 400044)

0 引言

目前，為了適應(yīng)科學(xué)環(huán)保的經(jīng)濟發(fā)展模式，智能電網(wǎng)成為了目前電力工業(yè)關(guān)注的熱點。然而，與傳統(tǒng)電網(wǎng)相比，智能電網(wǎng)的終端用戶信息以及各種電氣設(shè)備數(shù)據(jù)急劇增加，因此對用戶側(cè)進行數(shù)據(jù)的采集、傳輸和存儲并進行行為分析和管理是目前電力系統(tǒng)面臨的一大難點，同時這決定了智能電網(wǎng)的可靠運行[1]。

傳統(tǒng)的用戶劃分方式只考慮了用戶的單一特征屬性，忽略了目前用戶數(shù)據(jù)的多樣性，同時傳統(tǒng)的數(shù)據(jù)處理方法也無法很好地挖掘數(shù)據(jù)之前的相關(guān)性。因此，如何對電力用戶側(cè)的行為進行精準分析是當(dāng)前重要的研究課題[2]。

聚類方法是處理隨機數(shù)據(jù)的一類代表性方法，如基于原型聚類、層次聚類、密度聚類等都可以對未知特征的數(shù)據(jù)進行挖掘。其中高斯混合模型(gaussian mixture model,GMM)聚類作為原型聚類的代表方法，由于其良好的聚類性能而被廣泛研究。蔡秋娜等[3]利用用戶的負荷數(shù)據(jù)使用GMM方法進行聚類，提取其典型日負荷曲線，并采用支持向量機方法，根據(jù)用戶類別與其典型日負荷曲線之間的關(guān)系，在訓(xùn)練集上建立分類模型，并據(jù)此對新的用戶進行行業(yè)分類。李婉婉等[4]采用GMM聚類方法對車站微機監(jiān)測系統(tǒng)中采集的功率數(shù)據(jù)進行分類，根據(jù)結(jié)果建立概率神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集和測試集，結(jié)果表明基于 GMM 聚類和概率神經(jīng)網(wǎng)絡(luò)的方法可以改善不收斂、誤差大等問題。薛琳[5]首先提取電力用戶的行為特征，借助GMM方法得到不同質(zhì)量的電力用戶，以條件互信息為標準進行更優(yōu)用戶的篩選，最后借助長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)進行負荷預(yù)測。上述3種方法雖然都借助GMM方法進行聚類分析，但只有文獻[3]和文獻[5]提及了電力用戶的聚類分析，并且文獻[3]使用GMM方法對電力用戶進行聚類分析，但是沒有對其行為特征進行進一步挖掘，而文獻[5]的方法存在輸入特征增加而難以建模的問題。所以基于GMM的電力用戶數(shù)據(jù)分析還需進一步的研究。

另一方面，知識圖譜(knowledge graph,KG)也被稱作知識域映射地圖或知識域可視化，KG目前在智能電網(wǎng)領(lǐng)域的應(yīng)用主要面向用戶服務(wù)、設(shè)備運維、知識管理等方面。徐蕙等[6]針對電網(wǎng)企業(yè)的數(shù)據(jù)資源無法被智能分析與管理等問題，提出基于KG的語義搜索方法，相比于傳統(tǒng)的關(guān)鍵詞搜索，該方法的性能得到有效提升。周帆等[7]針對模型管理等相關(guān)業(yè)務(wù)的問題解答，利用電力調(diào)度模型構(gòu)建了KG，并實現(xiàn)了智能問答系統(tǒng)的構(gòu)建。由此可得，KG在智能電網(wǎng)中的應(yīng)用還有很大的發(fā)展空間。李金星等[8]通過使用BiLSTM-CRF模型對電網(wǎng)故障分析和電網(wǎng)調(diào)度領(lǐng)域進行分析，利用KG技術(shù)，獲取到各電網(wǎng)間的拓撲關(guān)系以及電網(wǎng)故障信息，提高了電網(wǎng)維修的效率。上述方法均表征了基于KG的電網(wǎng)管理方案要比傳統(tǒng)的方法高效，因此KG技術(shù)在智能電網(wǎng)中的應(yīng)用還有很大的發(fā)展空間。

為進一步提升對電力系統(tǒng)用戶的管理，本文提出聯(lián)合KG和期望最大化[9](expectation maximization,EM)的GMM聚類方法，簡稱KGEG方法。該方法主要包括2個步驟：① 利用KG，將復(fù)雜的文本轉(zhuǎn)換為GMM方法所需要的輸入；② 利用EM方法對上一步驟中獲得的數(shù)據(jù)進行GMM聚類，實現(xiàn)對數(shù)據(jù)隱藏的相關(guān)性進行聚類分析。最后將所提方法應(yīng)用在電力公司的用戶數(shù)據(jù)分析中，得到電力公司用戶分群，并通過評價指標將該方法與其他方法進行對比，以驗證所提方法的可行性和有效性。

1 KGEG方法

1.1 KG預(yù)處理

KG采用四元組表示知識，知識元可以表示為：kej={cj,pj,rj,aj}，其中cj,pj,rj,aj分別代表概念、實體、關(guān)系和屬性，由ɡ個知識元組成的知識域記為kud={ke1,ke2,…,keg}。知識域、知識元的關(guān)系如圖1所示：

圖1 知識域與知識元示意圖

對于復(fù)雜文本，KG可以有效分析文本的核心概念以及關(guān)鍵內(nèi)容，對于聚類方法，需要規(guī)范的輸入數(shù)據(jù)x=[x1,x2,…,xn]T，通過KG得到文本的知識元節(jié)點后再進行聚類，避免手動處理聚類所需要的數(shù)據(jù)，其原理如圖2所示。

圖2(a)為KG預(yù)處理過程的抽象描述，圖2(b)為具體過程。記文本數(shù)據(jù)輸入為s，通過KG預(yù)處理文本數(shù)據(jù)后，得到聚類方法輸入x=fKG(s)，下一小節(jié)將描述基于GMM的聚類方法。

圖2 KG預(yù)處理過程框圖

1.2 高斯混合聚類

對于所有的輸入樣本集合D={x1,x2,…,xm}，假設(shè)這些數(shù)據(jù)分為k類，對于其中的一個輸入x，其服從于高斯混合分布，因此概率密度函數(shù)為：

(1)

式中，p(x|vi,Ci)表示其中的一個成分，服從均值為vi、方差為Ci的高斯分布：

(2)

式中：vi和Ci分別為均值、協(xié)方差，(·)T為轉(zhuǎn)置運算。對于式(2)，其參數(shù)為vi和Ci。記隱變量p(yj=i)=γji為樣本xi是來自第j個高斯分布成分的概率，通過下式，能夠判定xj第i個高斯成分：

maxγji,j=1,2,…,k

(3)

為了求解以上參數(shù)，構(gòu)建以下對數(shù)似然函數(shù)：

(4)

對于均值vi，其偏導(dǎo)數(shù)為：

(5)

(6)

(7)

(8)

最后，對于參數(shù)αi，注意到δi存在約束，引入拉格朗日乘子法：

(9)

(10)

(11)

vi、Ci以及δi這3個參數(shù)均需要分模型p(xj|vi,Ci)的概率，根據(jù)式(12)，結(jié)合貝葉斯公式，可以得到p(yj=i|xj)為：

(12)

由于第i個分模型需要參數(shù)vi和Ci，因此式(12)又需要參數(shù)vi、Ci和αi，參數(shù)和模型交替迭代，達到最大似然估計的目的，該方法即為EM方法的原理。在初始化模型參數(shù)(αi,vi,Ci)后，反復(fù)更新均值、協(xié)方差、分模型概率3個參數(shù)，直到這些參數(shù)在下次迭代時收斂為止。方法1描述了基于KG預(yù)處理的GMM聚類方法的過程：

方法1：KGEG方法

輸入：復(fù)雜文本s

輸出：聚類簇劃分θ={θ1,θ2,…,θk}

過程：

1.復(fù)雜文本查詢轉(zhuǎn)換為聚類輸入x=fKG(s)

2.隨機從x中選取k個數(shù)據(jù)xinit={x1′,x2′,…,xk′}作為初始聚類的中心點

4.令αj=dj/n；令vj=xj′，j=1,2,…,k；令Cj=COV(θj)

5.Δαi=∞,Δvi=∞,ΔCi=∞

6.while

7.forj=1,2,…,n

9.(i=1,2,…,k)

10.end for

11.fori=1,2,…,k

15.end for

16.until Δaiand Δviand ΔCi

17.fori=1,2,…,n

18.根據(jù)式計算每個xi的簇類別ξj，劃分到簇θξj

19.end for

2 聚類有效性評價

判斷聚類標準的指標有很多，本文從內(nèi)部、外部以及整體3個方面選擇評價指標，包括緊湊度CI[10]、FM[11-12]、Adjusted-Rand(AR)[13]以及分離度(degree of separation,DS)，其中CI為內(nèi)部評價指標，F(xiàn)M和AR為外部評價指標，DS為選取的整體評價指標。

2.1 內(nèi)部評價

CI指標：從數(shù)據(jù)簇的內(nèi)部來判斷聚類的效果，用于體現(xiàn)一個簇的數(shù)據(jù)集的聚集程度，若一個簇內(nèi)的數(shù)據(jù)越相似，則CI指標越高，也說明了聚類效果優(yōu)秀[14]。

計算簇內(nèi)CI的方法如式(13)，其中n為總樣本數(shù)，每個樣本由p個向量組成：X={x1,x2,…,xn}，X?Rp，c為最后聚類分簇數(shù)，U是一個維度為c*n矩陣，uij為數(shù)據(jù)j對第i類的支持度，若該支持度越大，說明其包含的信息越多；V是一個維度為c*p的矩陣，表示聚類原型；并且采用的計算距離方式為歐氏距離。

(13)

2.2 外部評價

使用外部評價指標的過程一般是將聚類方法用于現(xiàn)有的標準測試數(shù)據(jù)集中，再利用相應(yīng)的指標進行評判方法劃分的準確程度[15]，經(jīng)典的外部聚類評價指標如FM指標和AR指標等。

1) FM

如下式所示，計算FM指標的過程為：

(14)

FM指標為精度和召回的幾何平均數(shù)，取值范圍為0～1，一般該值越大，則說明該聚類方法劃分的簇與標準結(jié)果越接近，只有當(dāng)聚類結(jié)果完全正確時，IFM=1。

2) AR

首先，如下設(shè)置對應(yīng)的參數(shù)的式子：

(15)

(16)

(17)

(18)

(19)

AR是蘭德系數(shù)的改進版本，為去掉隨機標簽對評估結(jié)果的影響，取值范圍在0～1，該值越大，也代表了聚類效果很好。

2.3 全局評價

DS表示了劃分后各個簇的分離界是否清晰，之間的界線越清晰，即DS越高，則聚類效果更好。

簇間DS公式如式(20)和式(21)所示：

Fij=(uij-α)2

(20)

(21)

如下式為整體分離度，通過將所有子簇的DS相加獲得：

(22)

式中:α表示懲罰系數(shù)，其默認取值為0.5；Fij表示模糊偏差，主要用于加強隸屬度矩陣特征。模糊集合的DS為簇之間的模糊偏差做積運算。

3 應(yīng)用案例分析

3.1 數(shù)據(jù)處理

在進行聚類之前，需要對數(shù)據(jù)先進行預(yù)處理，以保證數(shù)據(jù)具備規(guī)范的格式，也保證聚類的質(zhì)量。

3.1.1數(shù)據(jù)準備

首先盡量選取能對聚類產(chǎn)生較大影響的數(shù)據(jù)特征作為聚類的特征對象，這是后續(xù)聚類分析的基礎(chǔ)。

1) 特征屬性的選取

參考電力通信中已有的對用戶分析的研究，確定出能有效體現(xiàn)用戶行為的特征，通過這些特征來細分，并建立對應(yīng)的指標體系，能大大加強管理者對其中業(yè)務(wù)組織的管理并改善服務(wù)質(zhì)量。如表1所示，本文的聚類特征屬性分成了四大類，分別為用戶消費能力、掉電容納水平、用戶欠費評估以及用戶安全等級。通過這些方面的指標特征，能整體地分析電力用戶所屬的大致群體。

表1 用戶分群評估信息

2) 數(shù)據(jù)采集

本文選用了10 000位電力信通用戶的數(shù)據(jù)，通過上文選取的評估特征進行提取，表2為其中的一些用戶的消費能力數(shù)據(jù)信息。

用戶掉電容納水平選取的部分數(shù)據(jù)如表3所示，包括了用電類型、合同容量等類別。

表4為部分用戶的欠費評估數(shù)據(jù)信息，這些數(shù)據(jù)能較為全面地體現(xiàn)用戶繳費的一個積極度與誠信度。

表2 用戶消費能力信息

表3 用戶掉電容納水平

表4 用戶欠費評估信息

用戶的設(shè)備風(fēng)險的信息如表5所示，通過安全檢查不合格次數(shù)等類別屬性可以判斷用戶對用電安全的整體素質(zhì)，包含的用電量和合同量的匹配度通過式(30)得到：

(23)

式中:γ為用電匹配度；β為實際用電量；α為合同中包含用電量。

表5 用戶安全等級信息

3.1.2數(shù)據(jù)標準化

為保證聚類時的數(shù)據(jù)規(guī)范統(tǒng)一并且完整，還需要對數(shù)據(jù)進行標準化處理。

1) 空缺處理

由于選用的隨機用戶數(shù)據(jù)在收集時不完整，存在空缺信息，需要對這種情況進行處理。譬如部分用戶存在掉電后投訴次數(shù)的數(shù)據(jù)為空，為了保證聚類的過程的正常運行以及結(jié)果的準確，采用平均值填空的方法進行補充數(shù)據(jù)，具體來說，通過找到該類特征數(shù)據(jù)的眾數(shù)值進行補充，而對于缺失屬性量大于2的數(shù)據(jù)直接進行刪除。

2) 噪聲數(shù)據(jù)處理

在選用的數(shù)據(jù)中還存在數(shù)據(jù)噪聲，若其中的數(shù)據(jù)遠遠不在該類屬性數(shù)據(jù)的范圍之內(nèi)，那么可以確定該數(shù)據(jù)為噪聲數(shù)據(jù)，需要進行處理，本文采用了箱型圖自動識別噪聲數(shù)據(jù)，即通過2個閾值U、L，其中U為所有數(shù)據(jù)中該類屬性的大小的前1/4數(shù)據(jù)的閾值，而L為所有數(shù)據(jù)中該類屬性的后1/4數(shù)據(jù)的閾值，取2個閾值的差為Q，則上界設(shè)定為U+1.5Q，下界設(shè)定為L-1.5Q，超過上界以及低于下界的數(shù)據(jù)都為噪聲數(shù)據(jù)，將該條數(shù)據(jù)刪除處理。

3) 不一致數(shù)據(jù)處理

在選取的數(shù)據(jù)中也存在少量數(shù)據(jù)混亂的情況，如不同類別的數(shù)據(jù)位置相反，如將用電合同容量填寫到了繳費形式處，或者將安全檢查不合格次數(shù)寫到了用電匹配量處，這樣存在的數(shù)據(jù)較少，對于這樣的數(shù)據(jù)，通過中值法來進行處理，具體為：通過統(tǒng)計該類屬性的中位數(shù)來替代該類數(shù)據(jù)。

將這些數(shù)據(jù)標準化處理后，就得到了本文聚類時的最終數(shù)據(jù)。

3.2 結(jié)果評價

本小節(jié)將本文所提方法與傳統(tǒng)方法中的層次聚類方法以及K-Means方法進行了仿真對比，使用的數(shù)據(jù)是由電力公司提供的用戶數(shù)據(jù)，通過對比不同測試結(jié)果指標綜合分析評價本文所提方法的性能。

1) 聚類結(jié)果

為了使聚類結(jié)果更具代表性，本文只選擇對聚類結(jié)果有影響的特征變量進行操作。首先從電力公司提供的用戶信息中選取10 000名用戶信息，并對這些數(shù)據(jù)信息進行數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)清洗，然后使用本文所提KGEG方法對數(shù)據(jù)進行分析，聚類結(jié)果以及每一類用戶群的特征均值分布情況如圖3、圖4所示。

圖3 KGEG聚類結(jié)果

圖4 3種用戶群特征

表6展示了聚類結(jié)果的詳細信息，即電力公司用戶數(shù)據(jù)經(jīng)所提KGEG方法處理后的結(jié)果。從表中可以得出所分三類用戶的各項參數(shù)的平均值，對這些聚類數(shù)據(jù)結(jié)果進行分析能夠使電力公司為用戶提供更加具有科學(xué)依據(jù)的服務(wù)方案。

表6 用戶聚類結(jié)果

2) 結(jié)果分析

將聚類后的數(shù)據(jù)進行分析整理，其結(jié)果如表7所示。從表7可以看出，電力用戶被分成了三類群體，下面對這三類用戶群體分別進行分析。

表7 用戶聚類結(jié)果提取

用戶群1：該類用戶在總用戶群中占有一定的比率，具體為40%，同時該類用戶的消費水平較高，平均月消費水平為14.76萬元；該類用戶的拖欠金額平均為3.15萬元，說明這些用戶拖欠電費比較多；該群體主要是大工業(yè)用戶群，他們的合同容量高達400 KVA，用電需求非常高；并且該類用戶群的安全意識比較高，用電匹配度高達96%?？偟膩碚f，用戶群1對電力公司而言是優(yōu)質(zhì)的客戶群。

用戶群2：該用戶群具有最多的數(shù)量，占總用戶數(shù)的50%。這些用戶的每月平均消費額為2.53萬元，消費水平相對是最低的；該類用戶的拖欠金額平均為0.21萬元，該類用戶的誠信水平較高，拖欠金額較少；該群體主要是工商業(yè)用戶群，他們的合同容量僅為70 KVA，用電需求不高；這些用戶的用電安全意識薄弱，因為其用電匹配度為0.88。因此，用戶群2對電力公司而言是中等的客戶群。

用戶群3：該用戶群的數(shù)量是最小的，即只占總用戶10%的數(shù)量。該類用戶的每月平均消費額為5.15萬元，消費處于中等水平；該類用戶的拖欠金額平均為2.87萬元，該類用戶的誠信水平一般，拖欠金額中等；該群體主要是農(nóng)業(yè)生產(chǎn)用戶群，他們的合同容量為160 KVA，用電需求較高；該類用戶群的整體安全用電意識是最差的，因為用電匹配度僅為0.79?？偟膩碚f，用戶群3對電力公司而言是一般的客戶群。

根據(jù)上述方法得到最后的聚類結(jié)果，電力公司可以針對不同的用戶群制定不同的銷售方案，能夠滿足不同用戶群的需求，提高電力公司的銷售量，同時獲取更大的用戶滿意度，以此來提高整體電力公司客服效率、提高客服滿意度并減少客服開銷。

3) 聚類質(zhì)量評價

為了對本文所提KGEG方法的聚類效果進行評價，本節(jié)將所提KGEG方法、層次聚類方法以及K-Means方法對電力公司信通用戶數(shù)據(jù)的仿真結(jié)果評價指標進行了對比，為了防止出現(xiàn)偶然誤差，本文對數(shù)據(jù)集進行了100次重復(fù)實驗，最后計算采樣數(shù)據(jù)的平均值作為最后的評價標準。通過五項指標來測試評價所提方法與其他兩類方法的聚類效果，分別為AR指標、FM指標、DS指標、CI指標以及運行時間。具體聚類指標如表8所示。

表8 用戶聚類指標

從表8可以看出，在用戶樣本數(shù)為10 000的情況下，本文所提KGEG方法的各項評價指標均要優(yōu)于K-Means方法和層次聚類方法。并且，從表中還可以得出所提KGEG方法的AR指標和FM指標均要接近于1，說明所提KGEG方法能夠取得非常好的聚類效果，因為得到的聚類簇與數(shù)據(jù)原始簇非常接近。對比這幾種方法的DS指標，可以看出所提KGEG方法的結(jié)果均要低于層次聚類方法和K-Means方法，雖然與層次聚類方法的結(jié)果有些接近，但是所提方法在這3個方法中的結(jié)果值是最低的，說明所提KGEG方法的聚類后的簇的分離度要比層次聚類方法和K-Means方法聚類后簇的分離度更大，聚類效果更好。在CI指標上，所提KGEG方法明顯要優(yōu)于層次聚類方法和K-Means聚類方法，說明所提KGEG方法聚類后的簇具有很好的緊湊度。但是所提KGEG方法的運行時間要高于K-Means方法，運行時間是第二長的，運行時間最長的為層次聚類方法。雖然所提KGEG方法的運行時間略長于K-Means方法，但是其余的各項指標性能都要遠遠高于K-Means方法，并且KGEG方法的運行時間只比K-Means方法高1.4 s，方法復(fù)雜度的提升是完全可以接受的?？偟膩碚f，所提KGEG方法能夠取得比其他2種方法更好的聚類效果，只是運行時間稍長。

4 結(jié)論

針對電力用戶聚類問題，提出了一種聯(lián)合KG和EM的GMM方法，簡稱KGEG方法。該方法首先采用KG對復(fù)雜電力用戶文本數(shù)據(jù)進行預(yù)處理，得到聚類方法的輸入，接著采用基于EM方法的GMM聚類方法，能夠有效提高聚類的全局尋優(yōu)能力。通過對給定的電力用戶數(shù)據(jù)進行仿真驗證，以標準聚類質(zhì)量評價指標進行對比，結(jié)果表明所提KGEG方法相比于傳統(tǒng)聚類方法能夠得到更好的聚類結(jié)果、分類效果和全局尋優(yōu)性能，驗證了所提方法的可行性和有效性。

由于本文在驗證時采用的數(shù)據(jù)集較小，方法的泛化能力體現(xiàn)不夠，所以下一階段的研究重點將使用更大數(shù)據(jù)集對所提方法進行進一步地測試驗證，另外還考慮將所提方法應(yīng)用于電力公司數(shù)據(jù)分析的其他領(lǐng)域。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡