劉詩語,吳鳴,2*,李睿哲
(1.上海電力大學(xué)電子與信息工程學(xué)院,上海 200090;2.中國電力科學(xué)研究院有限公司,北京 100192)
隨著智能電網(wǎng)的建設(shè),電力系統(tǒng)的智能化程度逐漸提升,電力負(fù)荷數(shù)據(jù)變得易于感知和測量,由此累積的用戶負(fù)荷數(shù)據(jù)具有高維度、多類型和大體量等特點[1]。通過負(fù)荷數(shù)據(jù)挖掘和用電模式識別,獲取用戶用電特征,為電網(wǎng)規(guī)劃設(shè)計、用電客戶精細(xì)分類和制定用電計劃提供有力支撐[2-3]。
聚類算法可以有效提取用戶用電的負(fù)荷特征,充分挖掘用戶用電信息,發(fā)掘其中的相似點以用來分析用戶用電模式[4]。目前,各種聚類分析方法已被應(yīng)用于電力負(fù)荷聚類中,包含基于劃分[5]、基于密度[6]、基于層次[7]的聚類算法等。如今,不少學(xué)者都使用歐式距離作為相似性判據(jù)進(jìn)行負(fù)荷曲線的聚類研究。文獻(xiàn)[8]通過奇異值分解的方式將原始負(fù)荷數(shù)據(jù)進(jìn)行變換旋轉(zhuǎn)至新坐標(biāo)系中,進(jìn)而得到對應(yīng)的奇異值并以此確定負(fù)荷數(shù)據(jù)降維的權(quán)重大小,最后利用加權(quán)K-means方法進(jìn)行聚類。文獻(xiàn)[9]對負(fù)荷數(shù)據(jù)進(jìn)行多維分析和降維,然后采用高斯混合模型提取數(shù)據(jù)的低維特征,以用于海量化負(fù)荷數(shù)據(jù)集的聚類研究。文獻(xiàn)[10]采用卷積自編碼器提取負(fù)荷數(shù)據(jù)的時序特征,再用自定義的聚類層對低維特征軟化分,最后采用KL(Kullback-Leibler)散度作為損失函數(shù)對卷積自編碼器和自定義聚類層進(jìn)行聯(lián)合優(yōu)化,得到聚類結(jié)果。文獻(xiàn)[11]對原始負(fù)荷數(shù)據(jù)提取,得到日峰谷差率、日負(fù)荷率、日最大利用時間等7個日負(fù)荷特征指標(biāo),使用熵權(quán)法對各指標(biāo)配置權(quán)重進(jìn)行聚類分析,從而提高聚類效率。文獻(xiàn)[12]通過多維縮放(multi-dimensional scaling,MDS)對原始電力負(fù)荷數(shù)據(jù)進(jìn)行非線性降維進(jìn)而獲得低維數(shù)據(jù)特征,對低維特征進(jìn)行加權(quán)K-means聚類,進(jìn)而獲得聚類結(jié)果。然而,海量化和高維化的負(fù)荷數(shù)據(jù)往往存在模糊的簇邊界,上述方法只考慮簇內(nèi)距離判斷簇相似度,而忽略簇間距離的影響,導(dǎo)致聚類質(zhì)量較低。由于存在簇間模糊樣本,也可能會增加聚類算法的迭代次數(shù),進(jìn)而降低計算效率。
鑒于以上方法僅考慮簇內(nèi)距離,而忽略簇間模糊樣本導(dǎo)致聚類質(zhì)量下降等問題,有學(xué)者提出考慮簇內(nèi)、簇間距離的聚類方式并獲得不錯的進(jìn)展。文獻(xiàn)[13]提出增強(qiáng)的軟子空間聚類方法,該方法擴(kuò)大簇間距離的方式是最大化全局中心與各個簇中心的距離。但該方法移動簇中心的效果較差,最大化全局中心與每個簇中心的距離并不等同于最大化簇間距離,即最大化任意兩個簇之間的距離,當(dāng)簇間分布不均勻時會反而會導(dǎo)致幾個相近的簇中心更緊湊。
針對以上問題,現(xiàn)提出基于多維縮放(MDS)和KICIC(a weightingK-means clustering approach by integrating intra-cluster and inter-cluster distances)的聚類算法,通過MDS對原始數(shù)據(jù)非線性降維提取原始數(shù)據(jù)的低維特征,將獲取的低維特征矩陣和歸一化的特征向量作為輸入,再通過KICIC算法最大化簇間距離和最小化簇內(nèi)距離來對日負(fù)荷曲線進(jìn)行聚類。對此,通過將改進(jìn)的算法和傳統(tǒng)算法在聚類有效性指標(biāo)上對比分析,以期能夠在聚類效率和質(zhì)量方面得到提升,為在需求側(cè)實現(xiàn)有序用電管理做準(zhǔn)備。
假設(shè)給定一個由m條負(fù)荷曲線和n維數(shù)據(jù)所構(gòu)成的X=[X1,X2,…,Xm]為m×n階實矩陣,其中第i條負(fù)荷曲線表示為Xi=[xi1,xi2,…,xin],n為負(fù)荷曲線的數(shù)據(jù)維度,由此可以計算出n維數(shù)據(jù)的距離矩陣D=[tij]∈Rm×m。MDS算法是為獲得原始數(shù)據(jù)樣本在d′維空間的表示,Z∈Rd′×m,d′≤n[14]。Z=[Z1,Z2,…,Zn]是n×m的數(shù)據(jù)輸入矩陣;Zi=[zi1,zi2,…,zim]表示第i個數(shù)據(jù)對象。
(1)
(2)
(3)
(4)
(5)
(6)
(7)
將式(2)~式(7)代入式(1)可得
(8)
由式(8)可計算內(nèi)積矩陣B,對矩陣B進(jìn)行特征值分解,即
B=VΛVT
(9)
式(9)中:Λ=diag(λ1,λ2,…,λd)是內(nèi)積矩陣B的特征值所組成的對角矩陣,對應(yīng)的特征值由大到小排列,V是對應(yīng)的特征向量矩陣。由式(9)及B=ZTZ可知
(10)
具體算法步驟如下:
步驟1對于給定的數(shù)據(jù)集矩陣X,求得距離矩陣D∈Rm×m,同時確定低維空間的維數(shù)d′。
步驟2以距離矩陣D∈Rm×m的元素tij為輸入,通過式(5)~式(7)計算出結(jié)果并代入式(8)求內(nèi)積矩陣B。
步驟3對內(nèi)積矩陣B做特征值分解B=VΛVT,取Λ=diag(λ1,λ2,…,λd)前d′個最大的特征值構(gòu)成對角矩陣Λd′,Vd′為相應(yīng)的特征向量矩陣,通過式(10)求低維矩陣Z。
傳統(tǒng)聚類算法一般采用簇內(nèi)歐式距離作相似性判據(jù)。然而,實際的負(fù)荷數(shù)據(jù)往往存在模糊的簇邊界。如圖1所示,簇邊界處的數(shù)據(jù)可能會產(chǎn)生誤分,進(jìn)而降低聚類質(zhì)量。由于存在簇間模糊樣本,也可能會增加聚類算法的迭代次數(shù),降低計算效率。
圖1 簇間樣本模糊圖Fig.1 Inter-cluster sample fuzzy map
對此提出集成簇內(nèi)距離和簇間距離的KICIC聚類方式,該聚類方式通過在子空間內(nèi)最大化簇中心與其他簇樣本的歐式距離的方式對簇間距離最大化,同時對簇內(nèi)距離進(jìn)行最小化處理以提升簇內(nèi)緊密度,基于該思想設(shè)計了該算法的目標(biāo)函數(shù),然后,通過迭代優(yōu)化目標(biāo)函數(shù)獲得算法的更新規(guī)則,最后,根據(jù)更新規(guī)則給出了算法的執(zhí)行過程。KICIC算法的目標(biāo)函數(shù)為
S=S(U,W,R)
(11)
約束條件為
(12)
式中:R=[R1,R2,…,Rk]為k個簇中心向量組成的簇中心矩陣,Rp=[rp1,rp2,…,rpm]為第p個簇中心;W=[W1,W2,…,Wk]為k個特征權(quán)重向量;U為數(shù)據(jù)對象分配矩陣,該矩陣為n×k的0-1矩陣,uip=1為第i個特征被分到第p個簇。
2.1.1 數(shù)據(jù)選取
本實驗的數(shù)據(jù)集來源于SEAI(sustainable energy authority of ireland)發(fā)布的2009—2013年愛爾蘭智能電表實測數(shù)據(jù),該數(shù)據(jù)集以30 min為時間間隔,每日可采集48數(shù)據(jù)點。距今較近的2013年用戶用電數(shù)據(jù)作為本文的實驗數(shù)據(jù)。
2.1.2 異常數(shù)據(jù)的識別與修正
現(xiàn)實中采集的負(fù)荷數(shù)據(jù),往往會出現(xiàn)環(huán)境因素干擾、測量設(shè)備故障、通信中斷等問題,引起數(shù)據(jù)異?;騺G失[15]。負(fù)荷數(shù)據(jù)異?;蛉笔Р粐?yán)重時,通過多階拉格朗日內(nèi)插法進(jìn)行數(shù)據(jù)的矯正或填充,負(fù)荷曲線的數(shù)據(jù)缺失嚴(yán)重時則剔除該負(fù)荷曲線,如式(13)所示。計算某點數(shù)據(jù)相對前一點的數(shù)據(jù)變化率,若超過一定閾值則視為異常數(shù)據(jù)點,如式(14)所示,也可以用多階拉格朗日內(nèi)插法對該點數(shù)據(jù)予以修正。
(13)
式(13)中:x(t)為異常數(shù)據(jù)點的修正值;a1、b1為向前和向后所取的樣本點數(shù)目,一般取4~6。
(14)
式(14)中:x(t)表示t時刻數(shù)據(jù)點,p表示該點的數(shù)據(jù)變化率,超過設(shè)定的變化率閾值p=0.75視為異常數(shù)據(jù)點,用多階拉格朗日內(nèi)插法對該點數(shù)據(jù)予以修正。
2.1.3 數(shù)據(jù)歸一化處理
收集的不同用戶負(fù)荷數(shù)據(jù)的幅值可能會有較大差異,對不同數(shù)量級的負(fù)荷數(shù)據(jù)直接聚類會使聚類結(jié)果缺乏可靠性。在本研究中,對此使用最大值歸一化原理處理負(fù)荷數(shù)據(jù)。該處理方法的表達(dá)式為
(15)
式(15)中:xij是第i條負(fù)荷曲線的采樣點j處的數(shù)據(jù),x′ij為對應(yīng)點的歸一化數(shù)據(jù),然后通過元素x′ij可獲得歸一化矩陣X′。
2.1.4 數(shù)據(jù)平滑處理
實際上,在負(fù)荷數(shù)據(jù)的測量和采集過程中常出現(xiàn)信號干擾和測量誤差等情況會直接造成電力負(fù)荷曲線出現(xiàn)一定程度的波動,對數(shù)據(jù)進(jìn)行平滑處理能減少噪聲影響,更加突顯曲線的走勢。而高斯法能較好地濾除噪聲,采用高斯法對數(shù)據(jù)進(jìn)行平滑處理,進(jìn)一步反映出曲線總體走勢[16]。負(fù)荷數(shù)據(jù)預(yù)處理前后的變化見圖2。
圖2 負(fù)荷曲線的修正和平滑處理Fig.2 Correction and smoothing of the load curve
不同于K-means等傳統(tǒng)聚類算法,KICIC是集成簇內(nèi)和簇間距離的新型聚類算法,該算法需要對目標(biāo)函數(shù)進(jìn)行迭代更新,因此,對于較大的樣本量,KICIC算法計算過程復(fù)雜,易造成計算效率低下等問題,對此設(shè)計MDS算法對數(shù)據(jù)降維處理以提升KICIC算法的聚類效率和質(zhì)量?;贛DS的理論可知,若降低到d′維空間中去,則取出前d′個最大特征值,這說明該維空間的權(quán)重可以通過對應(yīng)的特征值大小體現(xiàn)。對此,使用MDS降維得到特征矩陣Z用作KICIC算法的輸入,基于MDS方法得到的特征值λ歸一化處理后作為KICIC算法的權(quán)重向量W,可以提高KICIC聚類算法的速度和性能。
2.2.1 MDS-KICIC目標(biāo)函數(shù)
KICIC算法目標(biāo)函數(shù)[式(11)]的第三項即為的特征權(quán)重項,由于特征權(quán)重向量W由MDS降維后已經(jīng)給出,該項不參與迭代,可以對目標(biāo)函數(shù)進(jìn)行優(yōu)化,表達(dá)式為
(16)
約束條件為
(17)
在該目標(biāo)函數(shù)中,需要求解兩個參數(shù)矩陣:數(shù)據(jù)對象分配矩陣U和簇中心矩陣R。常用的優(yōu)化求解目標(biāo)函數(shù)S的方法是固定其中一個參數(shù)矩陣,然后求解另一個參數(shù)矩陣。特征權(quán)重矩陣W已知,進(jìn)而降低聚類計算復(fù)雜度。此外,MDS-KICIC算法使用降維得到特征矩陣Z作為輸入,而不是高維的數(shù)據(jù)信息,從而提高算法分析海量數(shù)據(jù)能力。
目標(biāo)函數(shù)的優(yōu)化原則是通過不斷迭代分配矩陣U和簇中心矩陣R的值使目標(biāo)函數(shù)S達(dá)到最小。固定簇中心矩陣R,目標(biāo)函數(shù)S(U,R)可以最小化當(dāng)且僅當(dāng)
(18)
可以看出,式(18)是把數(shù)據(jù)對象分配到帶權(quán)距離最小的簇中。
固定數(shù)據(jù)對象分配矩陣U,目標(biāo)函數(shù)S(U,R)可以最小化當(dāng)且僅當(dāng)
(19)
固定簇中心矩陣R,最優(yōu)化目標(biāo)函數(shù)(16)可得到式(18),同理固定分配矩陣U,最優(yōu)化目標(biāo)函數(shù)(16)可得到式(19)。
整體算法步驟如下:
步驟1對于給定的數(shù)據(jù)集X,經(jīng)過MDS降維得到特征矩陣Z和特征值向量。
步驟2使用MDS降維得到特征矩陣Z和歸一化處理后的特征值向量用作KICIC算法的輸入和權(quán)重向量,并隨機(jī)簇中心矩陣R。
步驟3固定矩陣R,通過式(18)得到分配矩陣U;固定分配矩陣U,再通過式(19)得到簇中心矩陣R。
步驟4迭代計算。計算目標(biāo)函數(shù)(16)是否最小,若是則算法結(jié)束,否則重復(fù)步驟3。整體算法流程如圖3所示。
圖3 整體算法流程圖Fig.3 Overall algorithm flow chart
2.2.2 聚類有效性指標(biāo)
由于文中所選的是無標(biāo)簽數(shù)據(jù)集,其類別未提前確定,需使用內(nèi)部評價指標(biāo)對聚類效果進(jìn)行評判。本文選取戴維森堡丁指數(shù)(davies-bouldin,DBI)和卡林斯基-哈拉巴斯指數(shù)(calinski-harabaz index,CHI)分析聚類質(zhì)量。簇內(nèi)相似度越高,簇間相似度越低,則聚類質(zhì)量越優(yōu)。上述指標(biāo)的計算公式如下。
(1)DBI指標(biāo)。
(20)
(21)
(2)CHI指標(biāo)。
s(N)=[trB(k)/(k-1)]/[trW(k)/(n-k)]
(22)
式(22)中:n為聚類樣本的數(shù)目;k為聚類的類別數(shù)目;trB(k)為簇間離差矩陣的跡;trW(k)為簇內(nèi)離差矩陣的跡。CHI是通過計算簇間分離度和簇內(nèi)緊密度的比值得出,所以簇間越分散,簇內(nèi)越緊密,CHI越大,得到的聚類質(zhì)量越優(yōu)。
文章中的實驗是在配置有AMD R5-4600H,CPU 3.0 GHz,RAM16GB的PC上實現(xiàn)的。為驗證文中方法的有效性,以K-means算法、MDS-WK-means算法和KICIC算法作為文中的對比方法。
文中數(shù)據(jù)來源于SEAI所發(fā)布的愛爾蘭智能電表實際測量數(shù)據(jù),共選取2013年某工作日1 346條日負(fù)荷曲線數(shù)據(jù),每30 min進(jìn)行一次采樣,每條負(fù)荷曲線得到48個采樣點。由于數(shù)據(jù)缺失或異常,預(yù)處理后得到1 229條數(shù)據(jù)曲線,進(jìn)而形成1 229×48階的數(shù)據(jù)矩陣。
MDS處理數(shù)據(jù)矩陣,降到d′維通過計算累計貢獻(xiàn)率Sd′可得,d′≥4時累計貢獻(xiàn)率Sd′可以達(dá)到95%以上。因此,輸入矩陣X經(jīng)過MDS降維處理后表示為一個1 229×4的特征矩陣Z,可求得4個維度對應(yīng)的權(quán)重向量為W0=[0.585,0.337,0.049,0.029]。
通過對不同聚類數(shù)目的DBI指標(biāo)觀察,如圖4所示,觀測到DBI指標(biāo)在聚類個數(shù)k=4時取得最小值。因而,文中的聚類個數(shù)選擇k=4進(jìn)行分析。
圖4 聚類數(shù)與DBI指標(biāo)的關(guān)系Fig.4 Relationship between the number of clusters and DBI index
基于文中聚類算法得到的聚類結(jié)果如圖5所示。從00:00—24:00共計48個時間段,該算法將1 229條日負(fù)荷曲線分成4類。各類負(fù)荷曲線的數(shù)量分別為312、224、408和285。傳統(tǒng)K-means聚類算法的各種負(fù)荷曲線數(shù)分別為306、224、406和293。文中方法的聚類結(jié)果如圖5所示。
圖5 聚類仿真結(jié)果Fig.5 Clustering simulation results
圖6為4類用戶負(fù)荷曲線的聚類中心,每類用戶都有相異的用電特點,表現(xiàn)的四種類型依次有:雙峰、平峰、單峰和錯峰。第一類用戶屬于雙峰型用戶,有兩個用電高峰,分別在7:00—11:30以及14:30—20:00,同時該類用戶大部分功率都在高峰時間內(nèi)消耗,該類用戶多為學(xué)校、寫字樓和機(jī)關(guān)單位等,用電穩(wěn)定并且規(guī)律。第二類用戶屬于平峰型用戶,該部分負(fù)荷水平相對較高且整日負(fù)荷變化不大,該類負(fù)荷屬于保障類型負(fù)荷,多屬于供水、供熱、供能等基礎(chǔ)設(shè)施。第三類是單峰型用戶,在22:00—次日6:00屬于休息時間,該時段的用電量較少,而該類用戶的用電量主要集中在6:30—17:00,用電量提升較快并且處于較高負(fù)荷水平,該部分用戶多為小工業(yè)用戶。第四類用戶屬于錯峰型用戶,在18:00—23:00用電高峰,并且在凌晨時段仍有較高負(fù)荷,由于該部分用戶用電時間多為晚上,這表明其用戶可能有很大的潛力遵循需求側(cè)管理策略來避免高峰期的用電行為。
圖6 典型日負(fù)荷曲線聚類中心Fig.6 Cluster center of a typical daily load curve
通過對表1中10次測試得到的聚類指標(biāo)平均值的對比分析,相較于直接進(jìn)行聚類,其他三種算法在指標(biāo)上更優(yōu),而MDS-KICIC算法比KICIC算法聚類效率提升了60.23%,比K-means算法聚類效率提升71.41%。本文所采用的算法使負(fù)荷的簇內(nèi)距離最小,簇間距離最大,充分考慮簇內(nèi)和簇間距離,使聚類中心盡可能地遠(yuǎn)離非類樣本,降低非類樣本的干擾,增加聚類精度,加快聚類迭代過程。
表1 4種算法聚類結(jié)果對比Table 1 Comparison of clustering results of 4 algorithms
因此,文中算法比傳統(tǒng)的K-means、MDS-WK-means和KICIC算法運行時間更短,聚類質(zhì)量更高。
結(jié)合表2可知,第一類用戶屬于雙峰型用戶,該部分用戶的負(fù)荷系數(shù)、最小負(fù)荷率相對適中;在負(fù)荷系數(shù)和最小負(fù)荷率方面來看,第二類用戶的數(shù)據(jù)均為最高,這表明第二類用戶比其他類用戶的需求側(cè)管理潛力較??;第三類用戶的負(fù)荷系數(shù)、最小負(fù)荷率最低,該類用戶曲線相較于前兩種更平滑,而且該類用戶最小值時間和峰值時間與前者也有所不同;第四類用戶的峰值時間不同,同時該類用戶用電高峰多集中在夜間,這表明,相較于前三類用戶,第四類用戶需求側(cè)管理的潛力更大。
表2 典型日負(fù)荷曲線聚類中心特征總結(jié)Table 2 Summary of typical daily load curve clustering center characteristics
(1)提出基于MDS-KICIC的電力負(fù)荷聚類方法,首先采用MDS降低負(fù)荷數(shù)據(jù)的維數(shù),對負(fù)荷數(shù)據(jù)的低維特征進(jìn)行提取,并通過特征值向量確定KICIC的權(quán)重向量,減少迭代計算的次數(shù),最后結(jié)合KICIC算法獲得最終聚類結(jié)果。算例研究表明,本文算法與傳統(tǒng)的K-means、MDS-WK-means以及KICIC聚類方法相比,本文所提方法可充分考慮數(shù)據(jù)的簇內(nèi)和簇間距離,進(jìn)一步提高聚類的質(zhì)量和效率,并對不同類簇的用戶用電特征進(jìn)行分析,有助于電網(wǎng)進(jìn)行負(fù)荷建模、負(fù)荷特性模擬和需求側(cè)響應(yīng)等工作。
(2)通過本文方法對負(fù)荷類型分析可知,愛爾蘭某地區(qū)存在4種不同的用電類型,分別是雙峰型、平峰型、單峰型和錯峰型,這也符合國內(nèi)部分地區(qū)負(fù)荷曲線的走勢。其中平峰型的需求側(cè)管理的潛力較小,錯峰型的需求側(cè)管理潛力較大,錯峰型用戶更有利于解決不同類用戶間的需求側(cè)管理。
針對海量化的數(shù)據(jù),考慮到高維數(shù)據(jù)同時具有不同類簇的特征,因此在后續(xù)的研究中可以通過對目標(biāo)函數(shù)進(jìn)行修改以適應(yīng)復(fù)雜的簇結(jié)構(gòu),進(jìn)一步提升算法的應(yīng)用領(lǐng)域范圍。