劉家丞,吳 江,劉鵬遠,2,徐占伯,李曉鵬,管曉宏
(1. 智能網(wǎng)絡(luò)與網(wǎng)絡(luò)安全教育部重點實驗室(西安交通大學),陜西省西安市 710049;2. 國網(wǎng)陜西省電力公司西安供電公司,陜西省西安市 710048)
近年來,能源互聯(lián)網(wǎng)架構(gòu)下的電力數(shù)據(jù)資源急劇增長[1]。電力大數(shù)據(jù)分析具有從用電客戶精確定位,到電力生產(chǎn)反饋指導(dǎo),再到國民經(jīng)濟精準還原的全方位價值[1-2]。大數(shù)據(jù)技術(shù)在智能電網(wǎng)中的應(yīng)用主 要 集 中 在 需 求 響 應(yīng)[3-4]、負 荷 預(yù) 測[5-7]、故 障 診斷[8-9]、異常用電檢測[10-11],還可用于研究電動汽車充電站部署[12]、光伏設(shè)備技術(shù)性能分析[13]等新興負荷問題。
電力系統(tǒng)天然呈現(xiàn)分布式特征,在供給側(cè)和需求側(cè)都有所體現(xiàn)。供給側(cè)方面,電網(wǎng)接入了眾多分布在全國各地的微電網(wǎng)和發(fā)電站[14];需求側(cè)方面,諸如居民用電、商業(yè)用電多離散分布在各城市中,其用電數(shù)據(jù)通常存儲在不同地理位置的電力數(shù)據(jù)中心[15]。
在區(qū)域電網(wǎng)背景下,應(yīng)用機器學習進行電力大數(shù)據(jù)分析,若采用獨立式訓(xùn)練會由于樣本數(shù)據(jù)量少導(dǎo)致結(jié)果差;而集中式訓(xùn)練對于具有分布式屬性的電力大數(shù)據(jù),則需進行跨中心的數(shù)據(jù)調(diào)度。因此,當數(shù)據(jù)量急劇增加時會產(chǎn)生以下3 個問題[16],使得傳統(tǒng)的集中式機器學習在分布式大數(shù)據(jù)環(huán)境下不可行。
1)隱私保護問題
在智能電網(wǎng)中存在許多隱私保護的問題[17],例如智能電表收集到的負荷數(shù)據(jù)可以用于監(jiān)測電網(wǎng)狀態(tài)[18],然而從截獲的數(shù)據(jù)中可以辨別出用戶的活動,使得用戶隱私受到威脅[19]。電網(wǎng)通常對傳輸?shù)臄?shù)據(jù)進行加密來保證其安全性,但仍有密鑰管理等問題[20]。
2)數(shù)據(jù)時延問題
數(shù)據(jù)在網(wǎng)絡(luò)中傳播需要經(jīng)過多個轉(zhuǎn)發(fā)節(jié)點,導(dǎo)致數(shù)據(jù)時延,短時間進行大量數(shù)據(jù)的傳輸更會加重時延。滿足使用需求的拓撲設(shè)計模型已經(jīng)被提出[21],但數(shù)據(jù)越多,傳輸時延越大,可能會造成電網(wǎng)的控制性能惡化,帶來更大的成本[19]。
3)傳輸成本問題
電網(wǎng)大數(shù)據(jù)進行跨數(shù)據(jù)中心的傳輸會占據(jù)大量的稀缺帶寬資源[22],并且跨數(shù)據(jù)中心傳輸?shù)某杀具h超在一個數(shù)據(jù)中心內(nèi)進行傳輸?shù)某杀荆?9]。
為避免以上問題,同時實現(xiàn)區(qū)域電網(wǎng)下多地理節(jié)點的負荷特性分析,本文研究了地理分布式情景下的負荷特征聚類算法。針對隱私保護問題,采用基于主成分分析(PCA)-負荷指標的特征加權(quán)組合算法,提取原始數(shù)據(jù)的抽象特征,實現(xiàn)用戶數(shù)據(jù)脫敏??紤]地理節(jié)點之間的拓撲關(guān)系,設(shè)計基于參數(shù)共識的分布式聚類算法,使數(shù)據(jù)中心之間僅傳輸極少量的拓撲特征,降低數(shù)據(jù)時延,并可構(gòu)建全局聚類模型。針對傳輸成本問題,搭建考慮特征遷移的遷移學習框架,在原有模型基礎(chǔ)上快速構(gòu)建新模型,減少跨數(shù)據(jù)中心的交互次數(shù)。本文選取愛爾蘭電網(wǎng)和中國北方部分城市電網(wǎng)的實際負荷數(shù)據(jù)進行測試,驗證所提地理分布式協(xié)同聚類算法的有效性。
能源互聯(lián)網(wǎng)架構(gòu)下,電力系統(tǒng)覆蓋全國千家萬戶,電力數(shù)據(jù)也在電力用戶與電網(wǎng)的交互中不斷產(chǎn)生。為了最大限度減小基礎(chǔ)服務(wù)設(shè)施與電力終端用戶之間時延以及方便監(jiān)管區(qū)域電力用戶,電力數(shù)據(jù)中心通常分散建立在不同地理位置的各個城市中,呈現(xiàn)典型的地理分布式屬性[23]。然而,考慮到數(shù)據(jù)的隱私保護問題,這些數(shù)據(jù)中心通常相互獨立存儲、獨立維護,彼此間難以相互通信,形成了電力數(shù)據(jù)孤島。針對這類處理地理分布數(shù)據(jù)集的機器學習應(yīng)用,可以稱之為“地理分布機器學習”[23]。相較于傳統(tǒng)分布式針對復(fù)雜問題分而劃之解決,地理分布式更注重在克服地理隔離的困難下搭建模型。
傳統(tǒng)聚類模型的構(gòu)建,通常需要一次訪問多個區(qū)域的數(shù)據(jù),考慮到隱私保護及傳輸成本等問題,原始數(shù)據(jù)難以在各電力數(shù)據(jù)孤島之間進行通信,往往僅能傳輸少量脫敏信息,如模型參數(shù)等[24]。本文針對數(shù)據(jù)孤島背景下的數(shù)據(jù)中心提出了地理分布式協(xié)同聚類框架,該框架允許地理分布式數(shù)據(jù)中心在僅傳輸少量脫敏參數(shù)的情況下獨立搭建聚類模型,使得每個數(shù)據(jù)中心都能生成一個具有全局信息的聚類模型,且不同的聚類模型受不同地理位置影響呈現(xiàn)地理分布式特性,如圖1 所示。
圖1 地理分布式協(xié)同聚類框架Fig.1 Framework of geo-distributed collaborative clustering
第2 至4 章將分別闡述圖1 所展示特征提取模塊的特征加權(quán)組合算法、模型構(gòu)建模塊中考慮密度峰值信息[25]的分布式聚類算法以及遷移學習模塊的特征遷移算法。
在聚類模型構(gòu)建之前,首先需要提取適合模型的負荷特征。特征提取一方面可以將原始的用戶負荷數(shù)據(jù)抽象為難以理解的特征數(shù)據(jù),實現(xiàn)數(shù)據(jù)脫敏、用戶隱私保護;另一方面也可以降維壓縮龐大的用戶數(shù)據(jù),大大減少傳輸成本。
本文采用將PCA 特征與負荷指標特征加權(quán)組合的方式,針對用戶的月負荷數(shù)據(jù)進行特征降維提取處理,以兩電網(wǎng)6 月數(shù)據(jù)為例,該數(shù)據(jù)原始維度為1 440 維。PCA 降維特征較為抽象,不能很好地說明原始數(shù)據(jù)的物理意義;負荷指標是先驗知識,反映電力負荷的經(jīng)驗特性,但很多重要的抽象特征卻無法體現(xiàn)。兩類特征反映不同的特性,組合在一起可以獲得更全面的負荷信息。
通過特征加權(quán)組合,電網(wǎng)6 月數(shù)據(jù)集最終的特征維度可壓縮至12 維,相較于原始數(shù)據(jù)降低了1 428 維,極大減小了數(shù)據(jù)傳輸量,降低了傳輸成本。同時,文獻[26]證明加權(quán)組合的特征聚類效果要顯著優(yōu)于單獨使用以上二者時的結(jié)果。
各節(jié)點通過特征加權(quán)組合算法完成特征提取,即可將提取到的特征用于構(gòu)建分布式聚類模型。分布式聚類算法的第1 步是在各節(jié)點進行密度峰值聚類,并借助多節(jié)點結(jié)果求眾數(shù),共同確定統(tǒng)一的聚類中心數(shù)目;第2 步是一個迭代過程,該過程首先采用K-means 算法進行一次聚類構(gòu)建局部聚類模型并獲得局部模型參數(shù),接著通過參數(shù)共識算法使各節(jié)點模型參數(shù)交互計算并返回給原節(jié)點模型,最后各節(jié)點再根據(jù)返回的新參數(shù)進行一輪模型更新,此時完成一輪迭代。該算法會反復(fù)執(zhí)行從局部聚類到模型更新的過程,直至整個模型收斂,最終每個節(jié)點都會得到一個全局聚類模型。接下來將逐步介紹本文模型中的密度峰值聚類算法、參數(shù)共識以及分布式Kmeans 算法。
本文采用密度峰值的快速聚類(clustering by fast search and density peak,CFSFDP)算法[25]預(yù)先確定K-means 算法所需的類簇數(shù)目。對于每一個數(shù)據(jù),該算法需要計算局部密度和相對距離這兩個參數(shù)。當數(shù)據(jù)點局部密度和相對距離都大于其他點時,該數(shù)據(jù)點被定義為聚類中心,進一步地計算存在多少這樣的數(shù)據(jù)點,從而可以確定類簇數(shù)目。
各節(jié)點首先采用密度峰值算法確定各自的類簇數(shù)目,隨后統(tǒng)計所有節(jié)點類簇數(shù)目的眾數(shù),以該數(shù)作為之后局部聚類和分布式聚類的聚類數(shù)量,可以避免單個節(jié)點異常結(jié)果,該過程僅需在初始化時進行一次。本文選取一個典型節(jié)點繪制“局部密度ρ-相對距離δ”決策圖。由圖2 可知,有4 個點的局部密度和相對距離遠大于其他數(shù)據(jù)點,最終本文確定類簇數(shù)目為4。
圖2 CFSFDP 算法決策圖Fig.2 Decision graph of CFSFDP algorithm
考慮到單個數(shù)據(jù)節(jié)點獨立聚類時,所用到的用戶數(shù)量較少、類別較為單調(diào),難以獲得理想的聚類效果。參數(shù)共識算法可以將每個節(jié)點得到的模型參數(shù)進行整合,構(gòu)建得到擁有所有節(jié)點特征的全局模型。該算法僅利用抽象的模型參數(shù),實現(xiàn)了數(shù)據(jù)脫敏,同時極大壓縮了傳輸數(shù)據(jù),降低了數(shù)據(jù)時延。
參數(shù)共識是多個參與節(jié)點在預(yù)設(shè)規(guī)則下,通過節(jié)點信息交互,從而獲得對各節(jié)點均適用參數(shù)的過程。該共識問題的數(shù)學表述如下:記加權(quán)無向圖為G=(V,E,A),其邊集和頂點集分別為E、V,邊的加權(quán)鄰接矩陣為A=(auv)。定義與節(jié)點v直接相連節(jié)點所組成的集合為Uv={u∈V:(u,v)∈E},zv為節(jié)點v的觀測值。若對于節(jié)點v與u,存在zv=zu,則稱v與u共識。進一步地,若圖中所有節(jié)點v與j,均存在zv=zu,就稱圖G達到共識狀態(tài)[27]。
本文中各節(jié)點采用的共識策略為平均共識。該算法獲得的共識結(jié)果是各節(jié)點的參數(shù)均值,其中的加權(quán)鄰接矩陣需為雙隨機矩陣,本文采用文獻[28]給定的一種方式構(gòu)造該矩陣,具體公式描述可見3.3 節(jié)。
分布式聚類模型主要基于K-means 算法,由局部聚類、參數(shù)共識、全局更新3 個階段組成。Kmeans 算法的基本思想是將數(shù)據(jù)集中的所有數(shù)據(jù)劃分為K個類別,使得不同類別的數(shù)據(jù)呈現(xiàn)較大差異,而同一類別中的數(shù)據(jù)表現(xiàn)相似。本文采用歐氏距離作為評價數(shù)據(jù)相似度的指標。
局部聚類階段,各節(jié)點首先構(gòu)建各自的局部聚類模型。記t時刻節(jié)點v的第k個聚類中心為cv,k(t),Cv(t)=[cv,1(t),cv,2(t),…,cv,K(t)] 為t時刻節(jié)點v的類簇中心集?;趥鹘y(tǒng)K-means 算法的局部聚類模型在多地理節(jié)點背景下的表達式為[29]:
式中:Iv,k為節(jié)點v中屬于類簇k的數(shù)據(jù)點集合。根據(jù)以上表達式即可完成局部聚類模型搭建。
參數(shù)共識階段,首先需要在局部聚類模型的基礎(chǔ)上計算得到數(shù)據(jù)總數(shù)與特征矢量之和這兩個模型參數(shù)。記節(jié)點v在t+1 時刻屬于類簇k的數(shù)據(jù)總數(shù)為Pv,k(t+1),矢量之和為Qv,k(t+1),表達式為:
式中:auv為節(jié)點v與節(jié)點u的鄰接權(quán)重;?為參數(shù)共識算法的迭代次數(shù);A為拓撲圖結(jié)構(gòu)映射的鄰接矩陣,表征地理節(jié)點之間的連接關(guān)系。
A矩陣借助隨機數(shù)在以下兩個條件的約束下計算構(gòu)建[27]:一是A為雙隨機矩陣,其各行、各列之和皆為1;二是對于鄰居節(jié)點u和v,需滿足auv≥ξ,avv≥ξ,其中ξ為任意小的正數(shù)。經(jīng)過快速迭代收斂,各節(jié)點的模型參數(shù)可以達到共識狀態(tài)。
全局更新階段,各節(jié)點獲取參數(shù)共識后的模型參數(shù),并通過該參數(shù)計算新的類簇中心。記共識停止步驟為Φ,并通過下式計算類簇中心cv,k(t+1):
經(jīng)過上述3 個階段,節(jié)點v完成了分布式聚類算法的一次迭代,之后算法會再次進行局部聚類到參數(shù)共識再到全局更新的整個過程。當算法達到規(guī)定迭代次數(shù)或cv,k(t+1)收斂時,該分布式聚類算法停止。實驗證明分布式K-means 是可以收斂的[29]。
該算法在節(jié)點之間僅傳輸模型參數(shù),即使被截獲也無法獲得用戶信息,實現(xiàn)了數(shù)據(jù)脫敏,解決了用戶隱私保護問題。此外,相較于原本需要在節(jié)點之間傳輸千萬條數(shù)據(jù),該算法僅需傳輸2 個參數(shù)數(shù)據(jù),大大降低了數(shù)據(jù)時延。但是算法中的共識步驟增加了節(jié)點之間的交互更新次數(shù),模型收斂速度有所降低,傳輸成本問題仍需進一步改善。
綜上,本文所提分布式聚類方法首先采用PCA-負荷指標的加權(quán)組合算法對各節(jié)點用戶負荷數(shù)據(jù)進行特征提取,隨后通過密度峰值聚類確定統(tǒng)一的類簇數(shù)目。在此基礎(chǔ)上,分布式聚類模型基于K-means 算法,以聚類中心作為共識參數(shù),通過局部聚類、參數(shù)共識、全局更新3 個階段反復(fù)迭代更新,直至模型收斂,最終各節(jié)點都可構(gòu)建出適用的模型且模型的聚類中心一致。
當數(shù)據(jù)分布發(fā)生變化時,傳統(tǒng)機器學習方法需重新進行建模,遷移學習則能夠解決傳統(tǒng)機器學習無法適用于訓(xùn)練集與測試集屬于不同特征空間的問題[30]。本文采用遷移成分分析(transfer component analysis,TCA)算法進行遷移學習,使得新模型可快速迭代收斂,減少了各節(jié)點之間的數(shù)據(jù)交互次數(shù),從而降低了傳輸成本。
TCA 算法是一種基于特征的遷移學習[31],可以解決源域與目標域數(shù)據(jù)分布不同的問題,其目的是將源域與目標域的特征變換到同一特征空間下使得二者近似服從相同的分布進行學習。在遷移學習之前,采用最大平均差異(maximum mean discrepancy,MMD)距離來評估源域與目標域之間的可遷移性。該距離最小為0,表征源域與目標域分布完全相同;距離大于1 表示可遷移性較差,易產(chǎn)生負遷移。TCA 算法中存在超參數(shù)優(yōu)化問題,不同的超參數(shù)最終獲得的結(jié)果也會有所不同。本文采用網(wǎng)格化搜索的方式,比對選取最好的遷移學習結(jié)果,從而確定合適的超參數(shù)[32]。
針對分布式聚類的遷移學習,當有新的數(shù)據(jù)中心融入該拓撲圖中時,原拓撲結(jié)構(gòu)將發(fā)生改變。一方面,對于新節(jié)點的數(shù)據(jù),采用數(shù)據(jù)規(guī)約方法將其轉(zhuǎn)換為與原有數(shù)據(jù)相似的范圍,并通過與原有節(jié)點相同的特征提取方法獲得新節(jié)點特征,隨后計算新節(jié)點與原有節(jié)點之間的MMD 距離,當距離小于1 時判斷源域與目標域之間具備可遷移性,并通過TCA算法使新節(jié)點與原有節(jié)點的特征近似服從相同的分布;另一方面,新節(jié)點將獲得并采納原先構(gòu)建全局模型的模型參數(shù),隨后通過參數(shù)共識算法與其余節(jié)點重新進行迭代共識,直至新模型收斂。
本文選取2010 年愛爾蘭電網(wǎng)數(shù)據(jù)集CER[33-34]和2019 年中國北方部分城市電網(wǎng)負荷數(shù)據(jù)為研究對象,驗證本文所提分布式聚類算法的有效性。其中,愛爾蘭電網(wǎng)數(shù)據(jù)分屬6 個獨立的數(shù)據(jù)中心,共6 085 個用戶,時間粒度為30 min;中國北方部分城市電網(wǎng)數(shù)據(jù)分屬4 個獨立的數(shù)據(jù)中心,共219 個用戶,時間粒度為1 h。
為更好驗證算法的可行性,本文以全局數(shù)據(jù)點與類簇中心之間距離的誤差平方和(sum of squared errors,SSE)作為算法收斂的判斷條件之一,對比展示傳統(tǒng)集中式K-means 聚類、無特征加權(quán)組合分布式算法與本文所提分布式K-means 算法聚類收斂情況,SSE 的計算表達式為:
以愛爾蘭電網(wǎng)6 月負荷數(shù)據(jù)為例,各類算法收斂情況如圖3 所示。
圖3 算法收斂結(jié)果對比Fig.3 Comparison of algorithm convergence results
由圖3 可見,3 種聚類算法均能在迭代一定次數(shù)后收斂,表明了分布式聚類算法的可收斂性。無特征加權(quán)組合分布式聚類的SSE 相較于分布式和集中式聚類收斂更慢,且收斂效果更差,驗證了特征加權(quán)組合算法的有效性。同時,分布式初始的SSE 相較于集中式聚類算法大,但經(jīng)過1 次迭代后能夠斷崖式收斂到與集中式聚類相近甚至相同的位置。這是因為多個獨立分布的數(shù)據(jù)節(jié)點由于局部信息不同,初始化類簇中心時也會有非常大的差距,經(jīng)過1 次參數(shù)共識,各節(jié)點利用大區(qū)域特征達到共識狀態(tài),從而實現(xiàn)加速收斂。
為驗證分布式聚類算法的有效性,本文對比分析了不同算法聚類結(jié)果情況,算法包括集中式聚類、分布式聚類、獨立式聚類、基于密度的有噪空間聚類(density-based spatial clustering of applications with noise,DBSCAN)、層次聚類和分布式密度聚類(density based distributed clustering,DBDC)[35],其中獨立式聚類算法是指各個節(jié)點僅進行局部聚類而不進行參數(shù)共識??紤]到不同類型電力用戶的負荷偏度和負荷散度之間具有較大差異,根據(jù)這兩個指標可以更直觀地區(qū)分不同用戶[26],因而圖4 選取了負荷數(shù)據(jù)中負荷偏度和散度作為橫縱坐標,以愛爾蘭電網(wǎng)2010 年6 月與中國北方城市電網(wǎng)2019 年6 月負荷數(shù)據(jù)為例,繪制3 種算法對用戶負荷的分類情況。愛爾蘭電網(wǎng)結(jié)果如圖4 和附錄B 圖B1 所示,中國北方城市電網(wǎng)結(jié)果見附錄B 圖B2 和圖B3。
由圖4 可以看出,集中式、分布式和層次聚類算法都能很好地將用戶負荷分為4 種類型(Ⅰ、Ⅱ、Ⅲ、Ⅳ型),且4 種類型之間的界限較為明顯;DBSCAN和DBDC 算法能將用戶有層次地分為4 種類型,但類型界限不清晰且噪聲點過多;而獨立式聚類結(jié)果非常差,類簇之間差距很小,難以看出用戶分類情況。分析其原因在于DBSCAN 和DBDC 算法根據(jù)樣本間距和樣本密度逐步尋找類簇,而電力用戶數(shù)據(jù)樣本密度不均勻且間距差較大,導(dǎo)致很多高耗能的工商業(yè)用戶易被識別為噪聲點。DBDC 算法更是由于地理節(jié)點樣本數(shù)量少、間距大且節(jié)點之間沒有進行有效通信,難以進行有效聚類。而獨立式聚類中,各個節(jié)點僅利用各自的局部信息進行分類,而局部信息本身由于地理分布不同,導(dǎo)致各節(jié)點局部信息之間差異較大,進一步影響了聚類結(jié)果。對比圖4 與附錄B 圖B1 至圖B3 可以看到,分布式聚類得到的結(jié)果和集中式聚類基本相同,且分布式聚類中各節(jié)點模型基本一致,是因為分布式聚類采用了參數(shù)共識策略,各節(jié)點之間能夠有效傳遞不同的區(qū)域特征,使得每個節(jié)點最終都享有全局信息,并能收斂得到很好的聚類模型。為了更量化地反映各個聚類模型所得結(jié)果的差異性,本文對6 種聚類模型采用輪廓系數(shù)(silhouette coefficient,SC)、戴維森堡丁指數(shù)(Davies-Bouldin index, DBI) 、 CH (Calinski-Harabasz,CH)指標和鄧恩指數(shù)(Dunn validity index,DVI)衡量對負荷用戶分類的效果。SC 綜合了內(nèi)聚度和分離度兩種系數(shù),其數(shù)值范圍為[-1,1],越接近于1,效果越好;DBI 計算類簇內(nèi)平均距離和類簇之間最小距離的比值,該值越小,聚類效果越好;CH 指標計算類簇內(nèi)各點與類簇中心的距離平方和來評估類內(nèi)的緊密程度,該值越大說明類簇自身越緊密;DVI 綜合衡量簇內(nèi)和簇間距離,其值越大說明聚類效果越好。以愛爾蘭電網(wǎng)2010 年6 月與中國北方部分城市電網(wǎng)2019 年6 月負荷數(shù)據(jù)為例,進行20 次實驗并取各指標的均值,不同算法聚類結(jié)果的性能指標和計算時長見附錄B 表B1。
圖4 CER 聚類結(jié)果Fig.4 Clustering results of CER
由附錄B 表B1 可知,本文所提分布式聚類多數(shù)指標都能達到最佳,集中式與分布式協(xié)同聚類算法結(jié)果相近,層次聚類法各項指標居中,而獨立式聚類、DBSCAN 和DBDC 結(jié)果最差,證明分布式聚類算法可以通過參數(shù)共識步驟實現(xiàn)數(shù)據(jù)集中訓(xùn)練并獲得較好的效果。從DBI 簇間指標來看,層次聚類能夠?qū)崿F(xiàn)非常好的不同簇間劃分,分布式和集中式聚類的簇間劃分次之;從CH 簇內(nèi)指標來看,分布式聚類簇內(nèi)劃分最好,集中式劃分次之,層次聚類簇內(nèi)劃分稍差;從SC、DVI 綜合指標來看,分布式和集中式聚類能夠很好地平衡簇內(nèi)和簇間距離,實現(xiàn)優(yōu)質(zhì)分類,層次聚類綜合而言沒有分布式K-means 算法好,而獨立式聚類、DBSCAN 和DBDC 在樣本數(shù)據(jù)量小、樣本間距較大的情況下表現(xiàn)最差。從算法耗時來看,分布式聚類的計算時長遠小于集中式聚類和DBDC 算法,略大于獨立式、層次聚類法和DBSCAN 算法。集中式聚類由于所用數(shù)據(jù)量較大,多次迭代計算耗時也較大;DBDC 算法為了實現(xiàn)分布式聚類進行了多次劃分導(dǎo)致計算耗時增大;層次聚類和DBSCAN 僅進行一次聚類或劃分,算法復(fù)雜度小,因而耗時最少;分布式和獨立式聚類的單節(jié)點數(shù)據(jù)量小,計算耗時也較小。
進一步對比集中式和分布式聚類算法數(shù)據(jù)傳輸量和時間的不同,如附錄B 表B2 所示??梢院苊黠@看到,分布式聚類的數(shù)據(jù)傳輸量約是集中式的千分之一,傳輸速度比集中式快約3 000 倍。因為分布式聚類在各節(jié)點之間僅傳輸兩個脫敏的模型參數(shù),實現(xiàn)了用戶數(shù)據(jù)隱私保護的同時也大大降低了數(shù)據(jù)的傳輸時延。但相較于集中式僅需傳輸一次數(shù)據(jù),分布式聚類由于共識算法需要多次傳輸?shù)?增加了模型構(gòu)建時間。然而分布式僅比獨立式聚類慢約1 s,這也證明了參數(shù)共識步驟耗時極小。
綜上結(jié)果可以看出,在地理分布式的背景下,分布式聚類算法綜合簇內(nèi)和簇間的劃分最好,實現(xiàn)了數(shù)據(jù)脫敏并減少了傳輸成本,且計算速度遠快于集中式聚類和DBDC 算法。
為驗證算法的可遷移性,選取愛爾蘭電網(wǎng)和中國北方部分城市電網(wǎng)負荷數(shù)據(jù)分別進行分布式聚類并將聚類結(jié)果簡單拼接到同一坐標中,如附錄C 圖C1 所示。可以看出,兩地電網(wǎng)用戶分布不同,具有不同的區(qū)域地理特征。以愛爾蘭電網(wǎng)數(shù)據(jù)作為源域,中國北方部分城市電網(wǎng)數(shù)據(jù)作為目標域,計算兩者之間的MMD 距離為0.112,證明兩地數(shù)據(jù)特征分布有所不同且具備可遷移性。接下來將對兩地數(shù)據(jù)集采用TCA 算法進一步驗證模型可遷移性。
選取愛爾蘭電網(wǎng)負荷數(shù)據(jù)先構(gòu)建包含6 個地理節(jié)點的分布式聚類模型,隨后將中國北方城市電網(wǎng)4 個地理節(jié)點的負荷數(shù)據(jù)依次加入拓撲圖中作為新加入的地理節(jié)點,分布式聚類模型類簇中心移動遷移情況如附錄C 圖C1(d)所示,遷移前后評價指標見表C1。
對比圖C1(c)和(d)可以看到,經(jīng)過特征遷移后兩地電網(wǎng)中均有部分用戶的歸類發(fā)生偏移且類簇中心也有輕微偏移,最終可以收斂得到容納兩地數(shù)據(jù)的新聚類模型,說明分布式聚類遷移學習具有很好的效果。根據(jù)附錄C 表C1,特征遷移后DBI、CH、SC 指標相較于遷移前略差,是由于兩電網(wǎng)用戶數(shù)據(jù)分布不同,經(jīng)過特征遷移類簇中心發(fā)生移動,原有的小部分用戶被重新分配導(dǎo)致指標略差。而MMD 距離遷移后趨近于0,說明兩電網(wǎng)特征分布近乎相同,也證明本文所提分布式聚類算法能夠在原有節(jié)點的基礎(chǔ)上融入新節(jié)點實現(xiàn)在線快速聚類,可以較好地應(yīng)用在遷移學習框架下。
采用分布式聚類模型進行聚類,標記所得聚類結(jié)果每一類的類簇中心作為典型用電負荷用戶,根據(jù)標記抽取原始負荷數(shù)據(jù)集的典型用戶負荷數(shù)據(jù),可以繪制出對應(yīng)4 類典型負荷曲線進行分析,結(jié)果見圖5 和附錄D 圖D1。
圖5 分布式協(xié)同聚類典型用戶負荷曲線Fig.5 Typical user load curves of distributed collaborative clustering
以電網(wǎng)6 月數(shù)據(jù)結(jié)果為例,如圖5 所示,可以看出用戶用電模式豐富多變,Ⅰ型用戶負荷水平普遍很高,一般有兩個高峰用電時段,集中在08:00—12:00 和14:00—18:00 時段,晚間仍有高負荷水平,屬于高負荷部分迎峰用電;Ⅱ型曲線負荷水平比其他3 類都低且較為均勻,用電量基本不超過0.8 MW,高峰用電通常在06:00—09:00、12:00—14:00 和19:00—23:00 這3 個時段,屬于低負荷迎峰用電;Ⅲ型用戶日間08:00—19:00 時段的負荷水平較大,午間和晚間有負荷小峰值,夜間負荷水平急速下降,是典型的日間高負荷用電;Ⅳ型用戶06:00—11:00 和14:00—19:00 時段負荷水平較高,夜間用電趨近于0,峰谷形態(tài)與Ⅱ型互補,屬于低負荷部分迎峰用電。
采用本文所提的分布式聚類算法,可以清楚地將電網(wǎng)負荷用戶劃分成4 類負荷用戶類型,為電網(wǎng)后期運行、規(guī)劃打下基礎(chǔ),也證明了該算法的有效性和可行性。
本文針對地理分布式背景下的電力數(shù)據(jù),構(gòu)建了考慮特征遷移的分布式聚類模型框架,提出了一種基于參數(shù)共識利用局部信息得到全局聚類模型的分布式協(xié)同聚類算法。算法針對單地理節(jié)點采用PCA-負荷指標獲得加權(quán)組合特征,考慮密度峰值信息確定類簇數(shù)目,通過參數(shù)共識利用局部模型參數(shù)使得每一個電力數(shù)據(jù)中心獲得包含全局信息的全局聚類模型。針對新加入的數(shù)據(jù)中心,采用TCA 算法進行遷移學習,實現(xiàn)在線構(gòu)建分布式聚類模型。通過算法對比試驗表明,本文所提的分布式協(xié)同聚類算法能夠在地理分布式背景下借助少量脫敏數(shù)據(jù)傳輸,實現(xiàn)用戶隱私保護,有效降低數(shù)據(jù)時延,同時能保留區(qū)域特征,并利用整體區(qū)域特征實現(xiàn)加速收斂、快速構(gòu)建全局聚類模型,獲得很好的負荷用戶分類效果,幫助分析電力用戶負荷特性。
然而,算法中的共識步驟需要節(jié)點之間多次交互迭代,傳輸成本問題仍有待進一步解決。此外,多個地理節(jié)點聚類數(shù)目要求一致的條件稍顯苛刻,限制了方法的應(yīng)用。在今后的研究工作中,一方面需要改善參數(shù)共識算法,減少節(jié)點之間交互;另一方面也需增強算法的靈活性,對不同地理節(jié)點不同聚類數(shù)目也可構(gòu)建和遷移模型。
附錄見本刊網(wǎng)絡(luò)版(http://www.aeps-info.com/aeps/ch/index.aspx),掃英文摘要后二維碼可以閱讀網(wǎng)絡(luò)全文。