吉 濤,何 軼,朱韻攸,王迥源,申 強,廖 勇
(1.國網(wǎng)重慶市電力公司信息通信分公司, 重慶 401120;2.國網(wǎng)重慶市電力公司, 重慶 400014;3.重慶大學(xué) 微電子與通信工程學(xué)院, 重慶 400044)
目前,為了適應(yīng)科學(xué)環(huán)保的經(jīng)濟發(fā)展模式,智能電網(wǎng)成為了目前電力工業(yè)關(guān)注的熱點。然而,與傳統(tǒng)電網(wǎng)相比,智能電網(wǎng)的終端用戶信息以及各種電氣設(shè)備數(shù)據(jù)急劇增加,因此對用戶側(cè)進行數(shù)據(jù)的采集、傳輸和存儲并進行行為分析和管理是目前電力系統(tǒng)面臨的一大難點,同時這決定了智能電網(wǎng)的可靠運行[1]。
傳統(tǒng)的用戶劃分方式只考慮了用戶的單一特征屬性,忽略了目前用戶數(shù)據(jù)的多樣性,同時傳統(tǒng)的數(shù)據(jù)處理方法也無法很好地挖掘數(shù)據(jù)之前的相關(guān)性。因此,如何對電力用戶側(cè)的行為進行精準分析是當(dāng)前重要的研究課題[2]。
聚類方法是處理隨機數(shù)據(jù)的一類代表性方法,如基于原型聚類、層次聚類、密度聚類等都可以對未知特征的數(shù)據(jù)進行挖掘。其中高斯混合模型(gaussian mixture model,GMM)聚類作為原型聚類的代表方法,由于其良好的聚類性能而被廣泛研究。蔡秋娜等[3]利用用戶的負荷數(shù)據(jù)使用GMM方法進行聚類,提取其典型日負荷曲線,并采用支持向量機方法,根據(jù)用戶類別與其典型日負荷曲線之間的關(guān)系,在訓(xùn)練集上建立分類模型,并據(jù)此對新的用戶進行行業(yè)分類。李婉婉等[4]采用GMM聚類方法對車站微機監(jiān)測系統(tǒng)中采集的功率數(shù)據(jù)進行分類,根據(jù)結(jié)果建立概率神經(jīng)網(wǎng)絡(luò)的訓(xùn)練集和測試集,結(jié)果表明基于 GMM 聚類和概率神經(jīng)網(wǎng)絡(luò)的方法可以改善不收斂、誤差大等問題。薛琳[5]首先提取電力用戶的行為特征,借助GMM方法得到不同質(zhì)量的電力用戶,以條件互信息為標準進行更優(yōu)用戶的篩選,最后借助長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)進行負荷預(yù)測。上述3種方法雖然都借助GMM方法進行聚類分析,但只有文獻[3]和文獻[5]提及了電力用戶的聚類分析,并且文獻[3]使用GMM方法對電力用戶進行聚類分析,但是沒有對其行為特征進行進一步挖掘,而文獻[5]的方法存在輸入特征增加而難以建模的問題。所以基于GMM的電力用戶數(shù)據(jù)分析還需進一步的研究。
另一方面,知識圖譜(knowledge graph,KG)也被稱作知識域映射地圖或知識域可視化,KG目前在智能電網(wǎng)領(lǐng)域的應(yīng)用主要面向用戶服務(wù)、設(shè)備運維、知識管理等方面。徐蕙等[6]針對電網(wǎng)企業(yè)的數(shù)據(jù)資源無法被智能分析與管理等問題,提出基于KG的語義搜索方法,相比于傳統(tǒng)的關(guān)鍵詞搜索,該方法的性能得到有效提升。周帆等[7]針對模型管理等相關(guān)業(yè)務(wù)的問題解答,利用電力調(diào)度模型構(gòu)建了KG,并實現(xiàn)了智能問答系統(tǒng)的構(gòu)建。由此可得,KG在智能電網(wǎng)中的應(yīng)用還有很大的發(fā)展空間。李金星等[8]通過使用BiLSTM-CRF模型對電網(wǎng)故障分析和電網(wǎng)調(diào)度領(lǐng)域進行分析,利用KG技術(shù),獲取到各電網(wǎng)間的拓撲關(guān)系以及電網(wǎng)故障信息,提高了電網(wǎng)維修的效率。上述方法均表征了基于KG的電網(wǎng)管理方案要比傳統(tǒng)的方法高效,因此KG技術(shù)在智能電網(wǎng)中的應(yīng)用還有很大的發(fā)展空間。
為進一步提升對電力系統(tǒng)用戶的管理,本文提出聯(lián)合KG和期望最大化[9](expectation maximization,EM)的GMM聚類方法,簡稱KGEG方法。該方法主要包括2個步驟:① 利用KG,將復(fù)雜的文本轉(zhuǎn)換為GMM方法所需要的輸入;② 利用EM方法對上一步驟中獲得的數(shù)據(jù)進行GMM聚類,實現(xiàn)對數(shù)據(jù)隱藏的相關(guān)性進行聚類分析。最后將所提方法應(yīng)用在電力公司的用戶數(shù)據(jù)分析中,得到電力公司用戶分群,并通過評價指標將該方法與其他方法進行對比,以驗證所提方法的可行性和有效性。
KG采用四元組表示知識,知識元可以表示為:kej={cj,pj,rj,aj},其中cj,pj,rj,aj分別代表概念、實體、關(guān)系和屬性,由ɡ個知識元組成的知識域記為kud={ke1,ke2,…,keg}。知識域、知識元的關(guān)系如圖1所示:
圖1 知識域與知識元示意圖
對于復(fù)雜文本,KG可以有效分析文本的核心概念以及關(guān)鍵內(nèi)容,對于聚類方法,需要規(guī)范的輸入數(shù)據(jù)x=[x1,x2,…,xn]T,通過KG得到文本的知識元節(jié)點后再進行聚類,避免手動處理聚類所需要的數(shù)據(jù),其原理如圖2所示。
圖2(a)為KG預(yù)處理過程的抽象描述,圖2(b)為具體過程。記文本數(shù)據(jù)輸入為s,通過KG預(yù)處理文本數(shù)據(jù)后,得到聚類方法輸入x=fKG(s),下一小節(jié)將描述基于GMM的聚類方法。
圖2 KG預(yù)處理過程框圖
對于所有的輸入樣本集合D={x1,x2,…,xm},假設(shè)這些數(shù)據(jù)分為k類,對于其中的一個輸入x,其服從于高斯混合分布,因此概率密度函數(shù)為:
(1)
式中,p(x|vi,Ci)表示其中的一個成分,服從均值為vi、方差為Ci的高斯分布:
(2)
式中:vi和Ci分別為均值、協(xié)方差,(·)T為轉(zhuǎn)置運算。對于式(2),其參數(shù)為vi和Ci。記隱變量p(yj=i)=γji為樣本xi是來自第j個高斯分布成分的概率,通過下式,能夠判定xj第i個高斯成分:
maxγji,j=1,2,…,k
(3)
為了求解以上參數(shù),構(gòu)建以下對數(shù)似然函數(shù):
(4)
對于均值vi,其偏導(dǎo)數(shù)為:
(5)
(6)
(7)
(8)
最后,對于參數(shù)αi,注意到δi存在約束,引入拉格朗日乘子法:
(9)
(10)
(11)
vi、Ci以及δi這3個參數(shù)均需要分模型p(xj|vi,Ci)的概率,根據(jù)式(12),結(jié)合貝葉斯公式,可以得到p(yj=i|xj)為:
(12)
由于第i個分模型需要參數(shù)vi和Ci,因此式(12)又需要參數(shù)vi、Ci和αi,參數(shù)和模型交替迭代,達到最大似然估計的目的,該方法即為EM方法的原理。在初始化模型參數(shù)(αi,vi,Ci)后,反復(fù)更新均值、協(xié)方差、分模型概率3個參數(shù),直到這些參數(shù)在下次迭代時收斂為止。方法1描述了基于KG預(yù)處理的GMM聚類方法的過程:
方法1:KGEG方法
輸入:復(fù)雜文本s
輸出:聚類簇劃分θ={θ1,θ2,…,θk}
過程:
1.復(fù)雜文本查詢轉(zhuǎn)換為聚類輸入x=fKG(s)
2.隨機從x中選取k個數(shù)據(jù)xinit={x1′,x2′,…,xk′}作為初始聚類的中心點
4.令αj=dj/n;令vj=xj′,j=1,2,…,k;令Cj=COV(θj)
5.Δαi=∞,Δvi=∞,ΔCi=∞
6.while
7.forj=1,2,…,n
9.(i=1,2,…,k)
10.end for
11.fori=1,2,…,k
15.end for
16.until Δaiand Δviand ΔCi 17.fori=1,2,…,n 18.根據(jù)式計算每個xi的簇類別ξj,劃分到簇θξj 19.end for 判斷聚類標準的指標有很多,本文從內(nèi)部、外部以及整體3個方面選擇評價指標,包括緊湊度CI[10]、FM[11-12]、Adjusted-Rand(AR)[13]以及分離度(degree of separation,DS),其中CI為內(nèi)部評價指標,F(xiàn)M和AR為外部評價指標,DS為選取的整體評價指標。 CI指標:從數(shù)據(jù)簇的內(nèi)部來判斷聚類的效果,用于體現(xiàn)一個簇的數(shù)據(jù)集的聚集程度,若一個簇內(nèi)的數(shù)據(jù)越相似,則CI指標越高,也說明了聚類效果優(yōu)秀[14]。 計算簇內(nèi)CI的方法如式(13),其中n為總樣本數(shù),每個樣本由p個向量組成:X={x1,x2,…,xn},X?Rp,c為最后聚類分簇數(shù),U是一個維度為c*n矩陣,uij為數(shù)據(jù)j對第i類的支持度,若該支持度越大,說明其包含的信息越多;V是一個維度為c*p的矩陣,表示聚類原型;并且采用的計算距離方式為歐氏距離。 (13) 使用外部評價指標的過程一般是將聚類方法用于現(xiàn)有的標準測試數(shù)據(jù)集中,再利用相應(yīng)的指標進行評判方法劃分的準確程度[15],經(jīng)典的外部聚類評價指標如FM指標和AR指標等。 1) FM 如下式所示,計算FM指標 的過程為: (14) FM指標為精度和召回的幾何平均數(shù),取值范圍為0~1,一般該值越大,則說明該聚類方法劃分的簇與標準結(jié)果越接近,只有當(dāng)聚類結(jié)果完全正確時,IFM=1。 2) AR 首先,如下設(shè)置對應(yīng)的參數(shù)的式子: (15) (16) (17) (18) (19) AR是蘭德系數(shù)的改進版本,為去掉隨機標簽對評估結(jié)果的影響,取值范圍在0~1,該值越大,也代表了聚類效果很好。 DS表示了劃分后各個簇的分離界是否清晰,之間的界線越清晰,即DS越高,則聚類效果更好。 簇間DS公式如式(20)和式(21)所示: Fij=(uij-α)2 (20) (21) 如下式為整體分離度,通過將所有子簇的DS相加獲得: (22) 式中:α表示懲罰系數(shù),其默認取值為0.5;Fij表示模糊偏差,主要用于加強隸屬度矩陣特征。模糊集合的DS為簇之間的模糊偏差做積運算。 在進行聚類之前,需要對數(shù)據(jù)先進行預(yù)處理,以保證數(shù)據(jù)具備規(guī)范的格式,也保證聚類的質(zhì)量。 3.1.1數(shù)據(jù)準備 首先盡量選取能對聚類產(chǎn)生較大影響的數(shù)據(jù)特征作為聚類的特征對象,這是后續(xù)聚類分析的基礎(chǔ)。 1) 特征屬性的選取 參考電力通信中已有的對用戶分析的研究,確定出能有效體現(xiàn)用戶行為的特征,通過這些特征來細分,并建立對應(yīng)的指標體系,能大大加強管理者對其中業(yè)務(wù)組織的管理并改善服務(wù)質(zhì)量。如表1所示,本文的聚類特征屬性分成了四大類,分別為用戶消費能力、掉電容納水平、用戶欠費評估以及用戶安全等級。通過這些方面的指標特征,能整體地分析電力用戶所屬的大致群體。 表1 用戶分群評估信息 2) 數(shù)據(jù)采集 本文選用了10 000位電力信通用戶的數(shù)據(jù),通過上文選取的評估特征進行提取,表2為其中的一些用戶的消費能力數(shù)據(jù)信息。 用戶掉電容納水平選取的部分數(shù)據(jù)如表3所示,包括了用電類型、合同容量等類別。 表4為部分用戶的欠費評估數(shù)據(jù)信息,這些數(shù)據(jù)能較為全面地體現(xiàn)用戶繳費的一個積極度與誠信度。 表2 用戶消費能力信息 表3 用戶掉電容納水平 表4 用戶欠費評估信息 用戶的設(shè)備風(fēng)險的信息如表5所示,通過安全檢查不合格次數(shù)等類別屬性可以判斷用戶對用電安全的整體素質(zhì),包含的用電量和合同量的匹配度通過式(30)得到: (23) 式中:γ為用電匹配度;β為實際用電量;α為合同中包含用電量。 表5 用戶安全等級信息 3.1.2數(shù)據(jù)標準化 為保證聚類時的數(shù)據(jù)規(guī)范統(tǒng)一并且完整,還需要對數(shù)據(jù)進行標準化處理。 1) 空缺處理 由于選用的隨機用戶數(shù)據(jù)在收集時不完整,存在空缺信息,需要對這種情況進行處理。譬如部分用戶存在掉電后投訴次數(shù)的數(shù)據(jù)為空,為了保證聚類的過程的正常運行以及結(jié)果的準確,采用平均值填空的方法進行補充數(shù)據(jù),具體來說,通過找到該類特征數(shù)據(jù)的眾數(shù)值進行補充,而對于缺失屬性量大于2的數(shù)據(jù)直接進行刪除。 2) 噪聲數(shù)據(jù)處理 在選用的數(shù)據(jù)中還存在數(shù)據(jù)噪聲,若其中的數(shù)據(jù)遠遠不在該類屬性數(shù)據(jù)的范圍之內(nèi),那么可以確定該數(shù)據(jù)為噪聲數(shù)據(jù),需要進行處理,本文采用了箱型圖自動識別噪聲數(shù)據(jù),即通過2個閾值U、L,其中U為所有數(shù)據(jù)中該類屬性的大小的前1/4數(shù)據(jù)的閾值,而L為所有數(shù)據(jù)中該類屬性的后1/4數(shù)據(jù)的閾值,取2個閾值的差為Q,則上界設(shè)定為U+1.5Q,下界設(shè)定為L-1.5Q,超過上界以及低于下界的數(shù)據(jù)都為噪聲數(shù)據(jù),將該條數(shù)據(jù)刪除處理。 3) 不一致數(shù)據(jù)處理 在選取的數(shù)據(jù)中也存在少量數(shù)據(jù)混亂的情況,如不同類別的數(shù)據(jù)位置相反,如將用電合同容量填寫到了繳費形式處,或者將安全檢查不合格次數(shù)寫到了用電匹配量處,這樣存在的數(shù)據(jù)較少,對于這樣的數(shù)據(jù),通過中值法來進行處理,具體為:通過統(tǒng)計該類屬性的中位數(shù)來替代該類數(shù)據(jù)。 將這些數(shù)據(jù)標準化處理后,就得到了本文聚類時的最終數(shù)據(jù)。 本小節(jié)將本文所提方法與傳統(tǒng)方法中的層次聚類方法以及K-Means方法進行了仿真對比,使用的數(shù)據(jù)是由電力公司提供的用戶數(shù)據(jù),通過對比不同測試結(jié)果指標綜合分析評價本文所提方法的性能。 1) 聚類結(jié)果 為了使聚類結(jié)果更具代表性,本文只選擇對聚類結(jié)果有影響的特征變量進行操作。首先從電力公司提供的用戶信息中選取10 000名用戶信息,并對這些數(shù)據(jù)信息進行數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)清洗,然后使用本文所提KGEG方法對數(shù)據(jù)進行分析,聚類結(jié)果以及每一類用戶群的特征均值分布情況如圖3、圖4所示。 圖3 KGEG聚類結(jié)果 圖4 3種用戶群特征 表6展示了聚類結(jié)果的詳細信息,即電力公司用戶數(shù)據(jù)經(jīng)所提KGEG方法處理后的結(jié)果。從表中可以得出所分三類用戶的各項參數(shù)的平均值,對這些聚類數(shù)據(jù)結(jié)果進行分析能夠使電力公司為用戶提供更加具有科學(xué)依據(jù)的服務(wù)方案。 表6 用戶聚類結(jié)果 2) 結(jié)果分析 將聚類后的數(shù)據(jù)進行分析整理,其結(jié)果如表7所示。從表7可以看出,電力用戶被分成了三類群體,下面對這三類用戶群體分別進行分析。 表7 用戶聚類結(jié)果提取 用戶群1:該類用戶在總用戶群中占有一定的比率,具體為40%,同時該類用戶的消費水平較高,平均月消費水平為14.76萬元;該類用戶的拖欠金額平均為3.15萬元,說明這些用戶拖欠電費比較多;該群體主要是大工業(yè)用戶群,他們的合同容量高達400 KVA,用電需求非常高;并且該類用戶群的安全意識比較高,用電匹配度高達96%??偟膩碚f,用戶群1對電力公司而言是優(yōu)質(zhì)的客戶群。 用戶群2:該用戶群具有最多的數(shù)量,占總用戶數(shù)的50%。這些用戶的每月平均消費額為2.53萬元,消費水平相對是最低的;該類用戶的拖欠金額平均為0.21萬元,該類用戶的誠信水平較高,拖欠金額較少;該群體主要是工商業(yè)用戶群,他們的合同容量僅為70 KVA,用電需求不高;這些用戶的用電安全意識薄弱,因為其用電匹配度為0.88。因此,用戶群2對電力公司而言是中等的客戶群。 用戶群3:該用戶群的數(shù)量是最小的,即只占總用戶10%的數(shù)量。該類用戶的每月平均消費額為5.15萬元,消費處于中等水平;該類用戶的拖欠金額平均為2.87萬元,該類用戶的誠信水平一般,拖欠金額中等;該群體主要是農(nóng)業(yè)生產(chǎn)用戶群,他們的合同容量為160 KVA,用電需求較高;該類用戶群的整體安全用電意識是最差的,因為用電匹配度僅為0.79??偟膩碚f,用戶群3對電力公司而言是一般的客戶群。 根據(jù)上述方法得到最后的聚類結(jié)果,電力公司可以針對不同的用戶群制定不同的銷售方案,能夠滿足不同用戶群的需求,提高電力公司的銷售量,同時獲取更大的用戶滿意度,以此來提高整體電力公司客服效率、提高客服滿意度并減少客服開銷。 3) 聚類質(zhì)量評價 為了對本文所提KGEG方法的聚類效果進行評價,本節(jié)將所提KGEG方法、層次聚類方法以及K-Means方法對電力公司信通用戶數(shù)據(jù)的仿真結(jié)果評價指標進行了對比,為了防止出現(xiàn)偶然誤差,本文對數(shù)據(jù)集進行了100次重復(fù)實驗,最后計算采樣數(shù)據(jù)的平均值作為最后的評價標準。通過五項指標來測試評價所提方法與其他兩類方法的聚類效果,分別為AR指標、FM指標、DS指標、CI指標以及運行時間。具體聚類指標如表8所示。 表8 用戶聚類指標 從表8可以看出,在用戶樣本數(shù)為10 000的情況下,本文所提KGEG方法的各項評價指標均要優(yōu)于K-Means方法和層次聚類方法。并且,從表中還可以得出所提KGEG方法的AR指標和FM指標均要接近于1,說明所提KGEG方法能夠取得非常好的聚類效果,因為得到的聚類簇與數(shù)據(jù)原始簇非常接近。對比這幾種方法的DS指標,可以看出所提KGEG方法的結(jié)果均要低于層次聚類方法和K-Means方法,雖然與層次聚類方法的結(jié)果有些接近,但是所提方法在這3個方法中的結(jié)果值是最低的,說明所提KGEG方法的聚類后的簇的分離度要比層次聚類方法和K-Means方法聚類后簇的分離度更大,聚類效果更好。在CI指標上,所提KGEG方法明顯要優(yōu)于層次聚類方法和K-Means聚類方法,說明所提KGEG方法聚類后的簇具有很好的緊湊度。但是所提KGEG方法的運行時間要高于K-Means方法,運行時間是第二長的,運行時間最長的為層次聚類方法。雖然所提KGEG方法的運行時間略長于K-Means方法,但是其余的各項指標性能都要遠遠高于K-Means方法,并且KGEG方法的運行時間只比K-Means方法高1.4 s,方法復(fù)雜度的提升是完全可以接受的??偟膩碚f,所提KGEG方法能夠取得比其他2種方法更好的聚類效果,只是運行時間稍長。 針對電力用戶聚類問題,提出了一種聯(lián)合KG和EM的GMM方法,簡稱KGEG方法。該方法首先采用KG對復(fù)雜電力用戶文本數(shù)據(jù)進行預(yù)處理,得到聚類方法的輸入,接著采用基于EM方法的GMM聚類方法,能夠有效提高聚類的全局尋優(yōu)能力。通過對給定的電力用戶數(shù)據(jù)進行仿真驗證,以標準聚類質(zhì)量評價指標進行對比,結(jié)果表明所提KGEG方法相比于傳統(tǒng)聚類方法能夠得到更好的聚類結(jié)果、分類效果和全局尋優(yōu)性能,驗證了所提方法的可行性和有效性。 由于本文在驗證時采用的數(shù)據(jù)集較小,方法的泛化能力體現(xiàn)不夠,所以下一階段的研究重點將使用更大數(shù)據(jù)集對所提方法進行進一步地測試驗證,另外還考慮將所提方法應(yīng)用于電力公司數(shù)據(jù)分析的其他領(lǐng)域。2 聚類有效性評價
2.1 內(nèi)部評價
2.2 外部評價
2.3 全局評價
3 應(yīng)用案例分析
3.1 數(shù)據(jù)處理
3.2 結(jié)果評價
4 結(jié)論