劉明群,何 鑫,覃日升,姜 訸,孟 賢
(云南電網(wǎng)有限責(zé)任公司電力科學(xué)研究院,云南 昆明 650217)
近年來,配電網(wǎng)電壓監(jiān)測系統(tǒng)建設(shè)加強(qiáng)了對配電網(wǎng)電壓、電流等數(shù)據(jù)的管理與計算分析,實現(xiàn)了電網(wǎng)故障預(yù)警、電壓準(zhǔn)實時在線監(jiān)測等功能[1]。然而,由于配電網(wǎng)規(guī)模和配電網(wǎng)監(jiān)測數(shù)據(jù)日益增大,傳統(tǒng)在線監(jiān)測方法已無法滿足監(jiān)測系統(tǒng)對數(shù)據(jù)挖掘的快速性和準(zhǔn)確性要求。因此,為保障配電網(wǎng)安全可靠運(yùn)行,配電網(wǎng)電壓監(jiān)測系統(tǒng)數(shù)據(jù)異常檢測方法研究具有重要意義。
聚類算法通過對配電網(wǎng)電壓數(shù)據(jù)聚類,挖掘數(shù)據(jù)特征、區(qū)分?jǐn)?shù)據(jù)類型、實現(xiàn)實時故障預(yù)警。聚類算法可分為劃分聚類法、層次聚類法和密度聚類法等,其中劃分聚類法計算效率較高,但需事先假定聚類數(shù)值[2],包括K-means、K-medoids和CLARA算法。特別地,K-means算法原理簡單且效率高,非常適合配電網(wǎng)電壓數(shù)據(jù)在線監(jiān)測;K-means算法僅在多項式時間內(nèi)收斂到局部最優(yōu)解[3],但合理地選擇初值將有利于收斂到全局最優(yōu)解。文獻(xiàn)[4]采用K-means++算法選取K-means算法初值,但運(yùn)用K-means算法要事先假定聚類數(shù)。聚類數(shù)可根據(jù)樣本情況判斷[5],然而,在相關(guān)經(jīng)驗不足或數(shù)據(jù)量過大等情況下無法給出最佳聚類數(shù)。對于靜態(tài)數(shù)據(jù)庫而言,聚類數(shù)不會改變,但當(dāng)在線監(jiān)測系統(tǒng)數(shù)據(jù)庫是動態(tài)時,聚類數(shù)會隨著配電網(wǎng)故障等問題的產(chǎn)生而動態(tài)變化,導(dǎo)致K-means算法的聚類效果變差[6],因而需要其他算法輔助選擇聚類數(shù)。
為解決聚類數(shù)選擇問題,目前已有學(xué)者提出多種聚類數(shù)選擇算法。文獻(xiàn)[7]提出輪廓系數(shù)法,算法原理簡單且只需給定聚類數(shù)上限,對最佳聚類數(shù)估計效果很好,但計算速度較慢,不適合在線監(jiān)測配電網(wǎng)電壓;文獻(xiàn)[8]運(yùn)用DBI算法為K-means算法選取聚類數(shù),DBI算法對最佳聚類數(shù)估計效果較好,但計算速度稍慢;文獻(xiàn)[9]運(yùn)用Canopy算法快速自適應(yīng)選取聚類數(shù),但該算法需根據(jù)交叉驗證法或先驗知識設(shè)定松閾值和緊閾值,且緊閾值嚴(yán)重影響聚類數(shù)的選取,因此算法自適應(yīng)能力不夠強(qiáng);文獻(xiàn)[10-11]運(yùn)用elbow method選取聚類數(shù),該方法因簡單直觀且計算速度快而被廣泛應(yīng)用,但常常因“肘部點”不明顯而無法估計最佳聚類數(shù)。上述常用算法存在自適應(yīng)能力不強(qiáng)、計算速度慢和準(zhǔn)確率不夠高等問題,不適合異常數(shù)據(jù)在線檢測。
針對上述常用算法問題,本文提出一種快速選取聚類數(shù)的自適應(yīng)算法。所提算法基于elbow method和輪廓系數(shù)法,首先利用自適應(yīng)變化閾值求解聚類數(shù)下限,接著在聚類數(shù)上、下限內(nèi)計算輪廓系數(shù)。為提高算法速度,提出“一個極大值”規(guī)則,避免計算所有輪廓系數(shù)。該算法充分考慮elbow method的快速性和輪廓系數(shù)法的高準(zhǔn)確率特點,為K-means算法自動選取聚類數(shù),使K-means算法在線監(jiān)測成為可能。最后,為評價所提算法,以2個實際配網(wǎng)電壓數(shù)據(jù)為例,通過仿真對比其他聚類數(shù)選擇算法。結(jié)果表明,相比于所對比算法,所提算法能以最高準(zhǔn)確率和最快計算速度自適應(yīng)選取最佳聚類數(shù)。
K-means是一種基于劃分的無監(jiān)督聚類算法,能將數(shù)據(jù)集分成k類,其中k是事先假定的。K-means算法隨機(jī)產(chǎn)生k個聚類中心,根據(jù)最近鄰原則將數(shù)據(jù)點歸類離其最近的聚類中心,形成k個類,并重新計算各類的聚類中心,重復(fù)上述步驟直到聚類中心不再改變位置或達(dá)到規(guī)定的迭代次數(shù)。
K-means算法聚類的目標(biāo)是使各類誤差平方和(sum of the squared errors, SSE)最小,即
(1)
式中Ci為第i個聚類;p為Ci中的樣本點;mi為Ci的聚類中心,即Ci中所有樣本的均值;eSSE為所有樣本的聚類誤差,代表聚類效果的好壞。
根據(jù)拉格朗日定理和最小二乘法原理,確保SSE最小的聚類中心[3]應(yīng)滿足:
(2)
由式(2)可得:
(3)
其中,ni為第i聚類的樣本總量。因此,聚類中心是該聚類數(shù)據(jù)的平均值。K-means算法每一次迭代將聚類中心取為該聚類樣本的平均值,確保SSE在本次迭代內(nèi)達(dá)到最小,交替采用最近鄰原則和以均值計算聚類中心,使SSE不斷下降,直到平衡收斂。
結(jié)合elbow method和輪廓系數(shù),提出改進(jìn)的elbow method和輪廓系數(shù)算法(improved elbow method and silhouette coefficient,IES),用于自適應(yīng)確定聚類數(shù),從而與K-means算法結(jié)合為自適應(yīng)K-means算法。對于假定的聚類數(shù)上限kmax,首先,IES算法基于elbow method的聚類評價指標(biāo)SSE值確定聚類數(shù)下限kmin;然后,在聚類數(shù)搜索范圍[kmin,kmax]內(nèi)基于輪廓系數(shù)搜尋最佳聚類數(shù)k*,并利用提出的“一個極大值”規(guī)則避免計算[kmin,kmax]內(nèi)所有聚類數(shù)對應(yīng)的輪廓系數(shù)。當(dāng)最佳聚類數(shù)確定后,可用K-means算法進(jìn)行聚類。
IES算法的核心是在一定的定義域內(nèi)利用輪廓系數(shù)尋找最佳聚類數(shù)。使輪廓系數(shù)最大的聚類數(shù)為最佳聚類數(shù)k*。輪廓系數(shù)法一般在定義域[2,kmax]內(nèi)計算每一個聚類數(shù)k對應(yīng)的輪廓系數(shù),但輪廓系數(shù)計算速度慢,不滿足配電網(wǎng)在線監(jiān)測的快速性要求。因此,IES算法利用計算速度更快的SSE確定聚類數(shù)下限kmin,將定義域范圍縮小為[kmin,kmax]。
聚類數(shù)為k時elbow method的誤差平方和記為eSSE(k)。k=i時的相對SSE定義為
(4)
式中eSSE(1)為k=1時eSSE(k)的值,也是其最大值。
由于eSSE(k)、相對SSE單調(diào)遞減且離散不可導(dǎo),無法用極值點和拐點估計最佳聚類數(shù),因此考慮設(shè)置閾值來估計聚類數(shù)下限。同時,由于不同數(shù)據(jù)集的手肘曲線不同,因而所設(shè)置閾值應(yīng)隨之自適應(yīng)變化。
定義取值范圍為(0,1)的常數(shù)Kelbow,稱為手肘系數(shù)。隨著k的增大,相對SSE從eSSE(1)%開始下降,當(dāng)k=kmax時,相對SSE最大下降量為eSSE(1)%-eSSE(kmax)%,而當(dāng)相對SSE下降量達(dá)到最大下降量的Kelbow倍時,對應(yīng)的相對SSE定義為手肘閾值eSSE,elbow%,可計算如下:
eSSE,elbow%=eSSE(1)%-Kelbow(eSSE(1)%-
eSSE(kmax)%)=100%-Kelbow·
(100%-eSSE(kmax)%)
(5)
根據(jù)大量仿真經(jīng)驗,取Kelbow=0.5,則
(6)
利用式(6),將聚類數(shù)下限kmin取為使eSSE(k)%≤eSSE,elbow%成立的最小k值。
在聚類數(shù)上限為kmax以及Kelbow=0.5時,kmax對應(yīng)人為限定的相對SSE最大下降量,所選的kmin使相對SSE下降量達(dá)到最大下降量的一半以上。應(yīng)指出,IES算法解出的kmin≥2。
手肘閾值具有自適應(yīng)性,因為當(dāng)k>k*后eSSE(k)%變化緩慢,即使kmax較大,eSSE(kmax)%仍接近于eSSE(k*)%,而不同數(shù)據(jù)集的eSSE(k*)%不同,因此,由eSSE(kmax)%計算的手肘閾值也隨之自適應(yīng)變化。對不同數(shù)據(jù)集,當(dāng)kmax等于樣本總數(shù)時,均有eSSE(kmax)=eSSE(kmax)%=0[3],由式(6)可知,手肘閾值達(dá)到其最小值eSSE,elbow%=50%,手肘閾值恒為常數(shù)且不隨數(shù)據(jù)集不同而變化,因此kmax可取值較大,但不應(yīng)過大。
不同Kelbow取值影響IES算法計算時間和準(zhǔn)確率(能否解出k*)。若降低Kelbow,手肘閾值將增大,使得解出的kmin變小,有利于IES算法解出k*(若kmin>k*,則IES算法無法解出k*),但kmin變小又會使得輪廓系數(shù)法的定義域[kmin,kmax]范圍變大,不利于縮短輪廓系數(shù)法計算時間。同樣分析Kelbow增大的情況,可知Kelbow不應(yīng)過大或過小。由此也能看出,手肘閾值隨數(shù)據(jù)集不同而自適應(yīng)增大或減小,是在自適應(yīng)兼顧IES算法對不同數(shù)據(jù)集的準(zhǔn)確率和計算速度。實際應(yīng)用中可根據(jù)配網(wǎng)電壓歷史數(shù)據(jù)進(jìn)行測試,適當(dāng)調(diào)整Kelbow取值。改進(jìn)elbow method確定聚類數(shù)下限流程如圖1所示。
圖1 改進(jìn)elbow method確定聚類數(shù)下限流程Figure 1 The flowchart of determinizing the lower limit of clustering number with the improved elbow method
具體步驟如下:
1)讀取人為設(shè)定的kmax和數(shù)據(jù)集;2)對k=1、kmax分別進(jìn)行K-means聚類,對聚類結(jié)果應(yīng)用式(1)計算SSE,即eSSE(1)、eSSE(kmax);3)結(jié)合式(4)、(6)計算eSSE,elbow%,令k=2;4)對當(dāng)前k值進(jìn)行K-means聚類并計算eSSE(k);5)采用式(4)計算eSSE(k)%;6)判斷eSSE(k)%≤eSSE,elbow%是否成立,不成立則令k自增1并返回步驟4),成立則跳出循環(huán)進(jìn)入步驟7);7)記錄此時的k為kmin,該流程結(jié)束。
聚類數(shù)為k時相應(yīng)的輪廓系數(shù)記為S(k)?;谳喞禂?shù)搜尋最佳聚類數(shù),在[kmin,kmax]區(qū)間內(nèi)利用輪廓系數(shù)算法搜尋最佳聚類數(shù)。然而,為確保大于最佳聚類數(shù)k*,聚類數(shù)上限kmax的設(shè)置可能會過大,而輪廓系數(shù)計算速度慢,對[kmin,kmax]區(qū)間內(nèi)每一個聚類數(shù)k計算輪廓系數(shù)將消耗大量時間。
為提高算法速度,IES算法借鑒gap statistic算法中“一個標(biāo)準(zhǔn)錯誤”(1-standard-error)的規(guī)則[12](文獻(xiàn)[13]也在其他算法中使用該規(guī)則),提出“一個極大值”規(guī)則,即令聚類數(shù)k在[kmin,kmax]區(qū)間內(nèi)每次增加1,依次計算輪廓系數(shù)S(k),當(dāng)S(k)首次出現(xiàn)極大值時停止計算S(k)。使用該規(guī)則得到多個輪廓系數(shù),選其中最大值對應(yīng)的k為最佳聚類數(shù)k*。當(dāng)S(k)在定義域[kmin,kmax]內(nèi)不存在極大值時,“一個極大值”規(guī)則失效,需計算定義域內(nèi)所有S(k),選最大值對應(yīng)的k為k*。本文中“一個極大值”規(guī)則在k=K生效是指:對于K>kmin,當(dāng)k增大到K+1時,出現(xiàn)S(k)的極大值S(K),IES算法停止計算S(k)。S(K)為極大值是指:S(K)>S(K-1)且S(K)>S(K+1)。
“一個極大值”規(guī)則避免計算所有輪廓系數(shù),相當(dāng)于降低了實際假定的kmax,從而提高算法速度。
聚類數(shù)下限確定后應(yīng)用“一個極大值”規(guī)則,在定義域[kmin,kmax]內(nèi)利用輪廓系數(shù)法求解最佳聚類數(shù)。在已計算不同聚類數(shù)對應(yīng)的輪廓系數(shù)中自動尋找最大輪廓系數(shù),所對應(yīng)聚類數(shù)為最佳聚類數(shù)k*,從而實現(xiàn)自適應(yīng)確定聚類數(shù)?;谳喞禂?shù)自適應(yīng)確定聚類數(shù)流程如圖2所示。
圖2 基于輪廓系數(shù)自適應(yīng)確定聚類數(shù)流程Figure 2 The flowchart of determinizing the clustering number with the improved elbow method based on the silhouette coefficient adaptive determination
具體步驟如下:
1)建立空數(shù)組{S},令k=kmin;2)對當(dāng)前k值進(jìn)行K-means聚類,接著對聚類結(jié)果計算輪廓系數(shù)并放入數(shù)組{S};3)若數(shù)組{S}中的元素已達(dá)3個及以上,則說明可以判斷是否出現(xiàn)極大值,進(jìn)入步驟4),否則令k自增1并回到步驟2);4)判斷是否出現(xiàn)極大值,即S[-2]>S[-3]、S[-2]>S[-1]是否同時成立,其中S[-1]是數(shù)組{S}倒數(shù)第1個元素,即本次循環(huán)計算得到的輪廓系數(shù);S[-2]、S[-3]分別是倒數(shù)第2、3個元素,若不出現(xiàn)極大值,令k自增1并回到步驟2),若出現(xiàn)極大值則跳出循環(huán)進(jìn)入步驟5);5)在數(shù)組{S}中尋找最大輪廓系數(shù),并記錄對應(yīng)的聚類數(shù)為最佳聚類數(shù)k*,IES算法結(jié)束。
IES算法從圖1流程開始至圖2流程結(jié)束。自適應(yīng)確定聚類數(shù)的IES算法與K-means算法結(jié)合為自適應(yīng)K-means算法。正常運(yùn)行時配電網(wǎng)電壓數(shù)據(jù)波動范圍較穩(wěn)定,因此,可利用K-means算法對正常運(yùn)行數(shù)據(jù)聚類并得到聚類中心,通過判斷新輸入數(shù)據(jù)到聚類中心距離是否超過距離閾值H,從而判斷數(shù)據(jù)是否異常。
H=(h1,h2,…,hk)表示各聚類的閾值,其中k是聚類數(shù),聚類中數(shù)據(jù)到聚類中心距離的最大值乘以常數(shù)D作為H,綜合考慮文獻(xiàn)[14]、[15]的實驗結(jié)果,取D=1.04。若某數(shù)據(jù)X到k個聚類中心Ci距離均超過相應(yīng)閾值,則判定為異常數(shù)據(jù),即異常數(shù)據(jù)滿足:
|X-Ci|>hi,i=1,2,…,k
(7)
IES算法能在異常檢測中更新正常數(shù)據(jù)最佳聚類數(shù),并能在發(fā)生異常時幫助挖掘異常數(shù)據(jù)特征。隨著歷史正常運(yùn)行數(shù)據(jù)的不斷增多,正常數(shù)據(jù)的最佳聚類數(shù)可能改變,因此,每隔一段時間需用IES算法自適應(yīng)求解并更新最佳聚類數(shù)。當(dāng)發(fā)生異常時,在分析數(shù)據(jù)異常模式之前,為充分利用當(dāng)前所有異常數(shù)據(jù),可通過IES算法對當(dāng)前所有正常和異常數(shù)據(jù)的最佳聚類數(shù)自適應(yīng)快速求解,然后利用K-means算法將異常與正常數(shù)據(jù)一起聚類,為挖掘異常數(shù)據(jù)特征和探測異常來源提供信息。除上述基于自適應(yīng)K-means聚類的方法,文獻(xiàn)[14]還利用了其他方法分析數(shù)據(jù)異常模式。
基于自適應(yīng)K-means的實時異常檢測總流程如圖3所示,具體步驟如下:
1)對配電網(wǎng)電壓歷史正常運(yùn)行數(shù)據(jù)進(jìn)行K-means聚類,并根據(jù)聚類得到的最優(yōu)聚類中心和聚類結(jié)果更新距離閾值H;2)計算新輸入數(shù)據(jù)到各個聚類中心的距離并與距離閾值比較;3)若新輸入數(shù)據(jù)屬于異常數(shù)據(jù)則標(biāo)記為異常,否則將其加入歷史正常運(yùn)行數(shù)據(jù);當(dāng)歷史正常運(yùn)行數(shù)據(jù)新增數(shù)量達(dá)到一定量時,利用IES算法求解并更新最佳聚類數(shù);4)將異常數(shù)據(jù)與歷史正常運(yùn)行數(shù)據(jù)共同作為新的數(shù)據(jù)集DS;5)IES算法根據(jù)事先假定聚類數(shù)上限計算數(shù)據(jù)集DS的最佳聚類數(shù)k*;6)用K-means將數(shù)據(jù)集DS分為k*個聚類;7)利用K-means聚類結(jié)果分析數(shù)據(jù)異常模式。
以2個實際配電網(wǎng)電壓數(shù)據(jù)集為例(記為D1和D2),與DBI算法和輪廓系數(shù)法進(jìn)行仿真比較,驗證所提IES算法的有效性。
D1有1 000個樣本點,每個點對應(yīng)一個時刻三相電壓有效值。為體現(xiàn)所提IES算法的普適性,對A、B、C三相電壓分別加入異常數(shù)據(jù)進(jìn)行實驗。對于A相電壓,隨機(jī)抽取10%,即100個正常數(shù)據(jù),并加上4%~10%噪聲,生成1個數(shù)據(jù)集,重復(fù)進(jìn)行50次,生成50個數(shù)據(jù)集,記為A組數(shù)據(jù)(注意:每個數(shù)據(jù)集只含10%異常數(shù)據(jù),其中50個正常數(shù)據(jù)加上正噪聲4%~10%,50個正常數(shù)據(jù)加上負(fù)噪聲-10%~-4%)。用同樣方法對B、C相電壓各生成50個數(shù)據(jù)集,分別記為B、C組數(shù)據(jù)。
D2有4 000個樣本點,每個點對應(yīng)一個時刻三相電壓有效值。為說明選取不同聚類數(shù)對聚類效果的影響,對A、B、C三相電壓均加入異常數(shù)據(jù)進(jìn)行實驗。對于A相,隨機(jī)抽取15%,即600個正常數(shù)據(jù),在±5%處加高斯分布隨機(jī)函數(shù)G作為噪聲。設(shè)正常數(shù)據(jù)值為Ndata,則加噪聲后的值為Ndata·(1±0.05)+G。用同樣方法處理B、C相電壓,最終得到的數(shù)據(jù)集記為D2noise。
各算法對最佳聚類數(shù)估計的準(zhǔn)確率定義為
(8)
式中N為實驗次數(shù),對A、B、C三相電壓的每一組數(shù)據(jù)實驗50次,故N=50;NT為對最佳聚類數(shù)估計正確的次數(shù)。
對于A、B、C三相電壓的3組數(shù)據(jù),最佳聚類數(shù)為3,即分為1個正常數(shù)據(jù)聚類和2個異常數(shù)據(jù)聚類。用DBI算法、輪廓系數(shù)法和IES算法估計所有數(shù)據(jù)集的最佳聚類數(shù)k*,若k*=3則估計正確,若k*≠3則估計錯誤。
由于出現(xiàn)異常時需用自適應(yīng)K-means算法對正常和異常數(shù)據(jù)聚類,聚類效果影響下一步分析數(shù)據(jù)異常模式,因此,需說明K-means對正常和異常數(shù)據(jù)聚類時不同最佳聚類數(shù)估計值對聚類效果的影響。為方便說明,簡化為分析二分類異常檢測效果,再給出異常檢測效果評價指標(biāo)。對于二分類異常檢測,可根據(jù)真實和檢測情況將檢測結(jié)果分為4類,如表1所示,TN為實際正常且被檢測為正常的樣本,F(xiàn)P為實際正常但被檢測為異常的樣本,F(xiàn)N為實際異常但被檢測為正常的樣本,TP為實際異常且被檢測為異常的樣本。
表1 檢測結(jié)果分類Table 1 Classification of test results
對于異常檢測,相比于不將正常樣本判定為異常,更重要的是檢測到更多的異常點[16]。因此,采用召回率評估異常檢測效果,其值越高意味著檢測到越多真實異常點,其最大值為1。召回率:
(9)
計算環(huán)境如下:計算機(jī)CPU為Core i7-10700,內(nèi)存16 GB,主頻2.90 GHz,操作系統(tǒng)為Windows 10(64 bit),數(shù)據(jù)分析工具為Python 3、Jupyter NoteBook。
對A、B、C三相電壓的3組數(shù)據(jù)分別用3種算法進(jìn)行最佳聚類數(shù)估計,為滿足在線監(jiān)測的自適應(yīng)性,應(yīng)取足夠大的聚類數(shù)上限kmax,以保證其大于最佳聚類數(shù),因此取kmax=20,實驗結(jié)果如表2~4所示。
表2 對A組數(shù)據(jù)應(yīng)用3種算法Table 2 Three algorithms are applied to group A data
表3 對B組數(shù)據(jù)應(yīng)用3種算法Table 3 Three algorithms are applied to group B data
表4 對C組數(shù)據(jù)應(yīng)用3種算法Table 4 Three algorithms are applied to group C data
由表2可以看出,輪廓系數(shù)法和IES算法對最佳聚類數(shù)的估計值穩(wěn)定為3;DBI算法的估計值僅在2、3之間波動,其中,對于A組9個數(shù)據(jù)集,DBI算法解出k*=2,其余41個數(shù)據(jù)集解出k*=3。對表3、4不再贅述。根據(jù)表2~4,計算3種算法對A、B、C三相電壓的3組數(shù)據(jù)最佳聚類數(shù)估計的準(zhǔn)確率ω,如表5所示。
表5 3種算法準(zhǔn)確率Table 5 Accuracy of three algorithms accuracy %
由于3種算法對k*的估計值只有2和3,因此分別取k*=2、3,對A、B、C三相電壓的3組數(shù)據(jù)進(jìn)行K-means聚類,其中,k*=3時將聚類后的2個異常數(shù)據(jù)聚類合并,從而得到正常和異常數(shù)據(jù)二分類(注意:實際中不將異常數(shù)據(jù)聚類合并,因為會損失異常數(shù)據(jù)特征信息,此處僅是為了計算召回率)。計算不同k*取值下各組數(shù)據(jù)召回率均值,如表6所示。
表6 不同k*取值下各組數(shù)據(jù)召回率均值Table 6 Mean recall rates of data in each group under different k* values
由表6可見,選取合適的聚類數(shù)能大幅提升異常檢測效果。對于A、B、C三相電壓的3組數(shù)據(jù)取k*=2顯然不合適,而在表2~4中,DBI算法對k*的估計值多次為2,結(jié)合表5可知輪廓系數(shù)法對最佳聚類數(shù)估計的準(zhǔn)確率比DBI算法更高,而IES算法保持了輪廓系數(shù)法的高準(zhǔn)確率。
為進(jìn)一步說明輪廓系數(shù)法和IES算法在準(zhǔn)確率方面比DBI算法更適合為K-means選擇最佳聚類數(shù),對A組數(shù)據(jù)中某一數(shù)據(jù)集進(jìn)行K-means聚類,取k*=3,聚類結(jié)果如圖4所示,可明顯區(qū)分3類數(shù)據(jù),但對于該數(shù)據(jù)集,DBI算法解出k*=2,而輪廓系數(shù)法和IES算法解出k*=3。
圖4 k*=3時K-means算法聚類結(jié)果Figure 4 Clustering results of K-means algorithm when k* =3
圖4中聚類2、3為異常數(shù)據(jù)類,聚類1為正常數(shù)據(jù)類,此時召回率的值為1,表明K-means算法適合對該數(shù)據(jù)集聚類,而輪廓系數(shù)法和IES算法比DBI算法更適合為K-means選擇最佳聚類數(shù)。
為說明選取不同聚類數(shù)對聚類效果的影響,分別取聚類數(shù)為2~9,對數(shù)據(jù)集D2noise進(jìn)行K-means聚類;為方便計算各聚類結(jié)果的召回率,人為將異常數(shù)據(jù)聚類合并,從而得到正常和異常數(shù)據(jù)二分類。數(shù)據(jù)集D2noise召回率隨聚類數(shù)變化曲線如圖5所示,可見召回率隨著聚類數(shù)增大而增大,說明聚類效果越來越好,當(dāng)聚類數(shù)為7、8、9時達(dá)到最大值1。應(yīng)指出,3種聚類數(shù)選擇算法對于D2noise的最佳聚類數(shù)估計值均為7。
圖5 數(shù)據(jù)集D2noise召回率隨聚類數(shù)變化曲線Figure 5 The curve of recall rate of D2noise changing with clustering number
進(jìn)一步分析發(fā)現(xiàn),聚類數(shù)大于7時會發(fā)生模型過擬合。聚類數(shù)分別為7、8時數(shù)據(jù)集D2noise的K-means聚類結(jié)果如圖6、7所示。對比圖6、7可知,圖6為最佳聚類,而圖7中將正常數(shù)據(jù)過擬合為2個聚類(聚類4、7),不利于對數(shù)據(jù)進(jìn)行分析。
圖6 聚類數(shù)為7時數(shù)據(jù)集D2noise的K-means聚類結(jié)果Figure 6 K-means clustering results of D2noise when the clustering number is 7
用3種算法對A組50個數(shù)據(jù)集估計最佳聚類數(shù),記錄平均運(yùn)行時間和最小、最大運(yùn)行時間,如表7所示,可見輪廓系數(shù)法的最小運(yùn)行時間大于DBI算法最大運(yùn)行時間,從運(yùn)行時間均值也能看出DBI算法運(yùn)行速度更快。IES算法的運(yùn)行時間均值小于其他2個算法,計算速度最快,最符合在線監(jiān)測的快速性。IES算法運(yùn)行時間波動范圍大于其他2個算法,是因為對于50個數(shù)據(jù)集,IES算法均解出kmin=3,但“一個極大值”規(guī)則在不同的聚類數(shù)k值(k>3)處生效,因此,不同數(shù)據(jù)集的計算量不同,導(dǎo)致運(yùn)行時間波動。
表7 3種算法運(yùn)行時間對比Table 7 Running time comparison of three algorithms
綜上所述,盡管DBI算法計算速度稍快于輪廓系數(shù)法,但DBI算法準(zhǔn)確率是3種算法中最低的。與DBI算法相比,IES算法不僅計算速度更快,而且準(zhǔn)確率更高;與輪廓系數(shù)法相比,IES算法不僅保持相同的準(zhǔn)確率,而且計算速度更快。因此,IES算法兼顧準(zhǔn)確率和計算速度,在保證高準(zhǔn)確率的前提下縮短了計算時間,提高了K-means算法在線監(jiān)測的準(zhǔn)確率和高效性。
K-means聚類算法計算速度快、準(zhǔn)確率高,適合配電網(wǎng)在線監(jiān)測,但當(dāng)假定聚類數(shù)不合適時,可能導(dǎo)致聚類結(jié)果不理想。本文提出了一種快速選取聚類數(shù)的自適應(yīng)IES算法,為K-means算法自動選取聚類數(shù),使K-means算法在線監(jiān)測配電網(wǎng)成為可能。以召回率評價二分類異常檢測效果為例,說明為K-means選取合適聚類數(shù)對異常檢測的重要性。IES算法首先利用自適應(yīng)變化閾值求解聚類數(shù)下限,接著在聚類數(shù)上、下限內(nèi)計算輪廓系數(shù)。為提高算法速度,提出“一個極大值”規(guī)則,避免計算所有輪廓系數(shù)。所提IES算法有如下優(yōu)點。
1)自適應(yīng)能力強(qiáng)。IES算法只需給定聚類數(shù)上限這一參數(shù),且該上限允許較大,即使動態(tài)數(shù)據(jù)庫的最佳聚類數(shù)發(fā)生一定的改變,也能保證大于最佳聚類數(shù)。所提出用于確定聚類數(shù)下限的閾值可隨數(shù)據(jù)集不同而自適應(yīng)變化,從而自適應(yīng)兼顧IES算法準(zhǔn)確率和計算速度。
2)計算速度快。IES算法利用計算迅速的SSE求解聚類數(shù)下限,縮小了最佳聚類數(shù)的搜尋范圍,又利用所提出的“一個極大值”規(guī)則減少計算量,提高了計算速度。
3)準(zhǔn)確率高。IES算法充分利用了輪廓系數(shù)高準(zhǔn)確率的特點。
算例表明,所提IES算法能自適應(yīng)快速選取最佳聚類數(shù),與輪廓系數(shù)法相比,IES算法準(zhǔn)確率相同而計算速度更快,與DBI算法相比,IES算法不僅準(zhǔn)確率更高,而且計算速度更快。因此,IES算法兼顧準(zhǔn)確率和計算速度,更有利于應(yīng)用于配電網(wǎng)在線監(jiān)測。