袁兆祥, 余春生
(1. 國網(wǎng)經(jīng)濟(jì)技術(shù)研究院有限公司, 北京 102209; 2. 德信東源智能科技(北京)有限公司 科技研發(fā)中心, 北京 100088)
隨著我國電力營銷管理系統(tǒng)、營配系統(tǒng)、生產(chǎn)管理系統(tǒng)和計(jì)量自動(dòng)化系統(tǒng)建設(shè)的不斷加快,企業(yè)逐漸積累了豐富的信息系統(tǒng)應(yīng)用經(jīng)驗(yàn)及電能數(shù)據(jù)資源[1].但國內(nèi)對(duì)電能數(shù)據(jù)的分析與應(yīng)用尚處于較為落后的狀態(tài),對(duì)于宏觀電能數(shù)據(jù)分析缺少預(yù)見性、精益性和實(shí)時(shí)性[2].
結(jié)算抄表在電力工程數(shù)據(jù)管理中起著重要的作用,傳統(tǒng)的抄表方式需要工作人員手工錄制數(shù)據(jù),存在著漏抄、錯(cuò)抄和估抄的問題,這對(duì)線損、預(yù)測及計(jì)費(fèi)等后續(xù)分析工作帶來了較大的困難[3-4].而計(jì)量自動(dòng)化系統(tǒng)的投入使用,不僅能有效改善傳統(tǒng)抄表方式所帶來的困難,且能搜集電網(wǎng)各區(qū)域的能耗信息,確保電力供給和電力資源質(zhì)量的平穩(wěn)安全[5].大數(shù)據(jù)采集與監(jiān)視系統(tǒng)、地理信息系統(tǒng)和高級(jí)策略系統(tǒng)的投入使用在提升電力工程建設(shè)效率的同時(shí),系統(tǒng)中積累的大量電能數(shù)據(jù)仍面臨著以下挑戰(zhàn):1)數(shù)據(jù)規(guī)范性、準(zhǔn)確性和完整性;2)數(shù)據(jù)搜索與數(shù)據(jù)聚合;3)系統(tǒng)與數(shù)據(jù)采集間的數(shù)據(jù)共享;4)數(shù)據(jù)計(jì)算與大規(guī)模數(shù)據(jù)存儲(chǔ).電力工程數(shù)據(jù)完整性是電力系統(tǒng)正常運(yùn)行的基本條件[6-7],是后期高級(jí)應(yīng)用分析的基礎(chǔ).
本文主要研究電力工程數(shù)據(jù)的完整性,提出了一種基于DBSCAN聚類算法[8-9]的電力工程數(shù)據(jù)完整性分析方法,從大規(guī)模電力工程數(shù)據(jù)中快速找出所缺失的數(shù)據(jù),并對(duì)其進(jìn)行形態(tài)分析.
DBSCAN(density based spatial clustering of applications with noise)是一種基于密度的聚類算法,該算法根據(jù)所設(shè)置的半徑Eps和樣本數(shù)目MinPts將待聚類數(shù)據(jù)分為核心點(diǎn)、邊界點(diǎn)和噪聲點(diǎn)3類,其中,在半徑為Eps的圓內(nèi)至少包含MinPts個(gè)樣本的點(diǎn)稱為核心點(diǎn);在半徑為Eps的圓內(nèi),樣本數(shù)量少于MinPts個(gè)樣本且落在核心點(diǎn)鄰域內(nèi)的點(diǎn)稱為邊界點(diǎn);而既不是邊界點(diǎn)又不是核心點(diǎn)的則被稱為噪聲點(diǎn).相比于K-means聚類算法,該算法無需事先確定聚類中心的數(shù)量,并可以識(shí)別出任意形狀的簇類,且具有較強(qiáng)的抗噪聲能力.
該算法通過定義直接密度可達(dá)和密度相連的概念,來確定每一個(gè)樣本所屬的聚類中心.直接密度可達(dá)即對(duì)于給定的半徑Eps和樣本數(shù)目MinPts,從樣本p直接到達(dá)樣本q需要滿足
(1)
式中,NEps(q)為樣本q的樣本范圍.密度相連即存在樣本滿足p和q關(guān)于半徑Eps與MinPts均是密度可達(dá)的.具體的DBSCAN聚類算法如下:
1) 設(shè)置數(shù)據(jù)集D、半徑Eps和樣本數(shù)目MinPts;
2) 判斷輸入樣本點(diǎn)是否為核心點(diǎn);
3) 若輸入樣本為核心點(diǎn),找出其鄰域內(nèi)所有直接密度可達(dá)點(diǎn);
4) 重復(fù)步驟2)、3),直至所有樣本判斷完成;
5) 合并一些密度可達(dá)對(duì)象,并根據(jù)所有核心點(diǎn)鄰域內(nèi)的直接密度可達(dá)點(diǎn)找到最大密度相連點(diǎn)的集合;
6) 重復(fù)執(zhí)行步驟5),直至遍歷完所有核心點(diǎn)鄰域.
傳統(tǒng)的數(shù)據(jù)完整性分析方法取決于一個(gè)或多個(gè)數(shù)據(jù)分析師對(duì)數(shù)據(jù)的分析,其性能受分析師對(duì)數(shù)據(jù)熟悉程度的影響.而基于DBSCAN的數(shù)據(jù)完整性分析方法是基于數(shù)據(jù)挖掘理論,從電力工程數(shù)據(jù)中發(fā)現(xiàn)潛在的數(shù)據(jù)缺失風(fēng)險(xiǎn),該方法能有效應(yīng)對(duì)數(shù)據(jù)急劇增加的情況,并能實(shí)現(xiàn)對(duì)數(shù)據(jù)的高級(jí)描述.其主要過程包括:
1) 數(shù)據(jù)獲取.使用電力工程計(jì)量自動(dòng)化系統(tǒng)獲取發(fā)電場、配電網(wǎng)、變電站和用電數(shù)據(jù),并構(gòu)造數(shù)據(jù)集.
2) 數(shù)據(jù)預(yù)處理.對(duì)采集到的各種數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、格式統(tǒng)一和歸一化處理,得到健康有效的數(shù)據(jù).
3) 特征構(gòu)造.使用預(yù)處理后的數(shù)據(jù)構(gòu)造有效特征來表征所采集的數(shù)據(jù)集.
4) 聚類分析.使用DBSCAN算法對(duì)數(shù)據(jù)集各特征進(jìn)行聚類分析,分析缺失數(shù)據(jù)的數(shù)量分布及同步性特征,為電力工程系統(tǒng)進(jìn)一步整改提供參考.
電力工程中的數(shù)據(jù)包括實(shí)時(shí)電力運(yùn)行數(shù)據(jù)、用戶檔案數(shù)據(jù)和系統(tǒng)報(bào)警數(shù)據(jù)等.其中,電力運(yùn)行數(shù)據(jù)主要包括各類計(jì)量終端的通信流量數(shù)據(jù)、瞬時(shí)量數(shù)據(jù)及表碼數(shù)據(jù).通信流量數(shù)據(jù)可以用于判斷計(jì)量終端的運(yùn)行狀態(tài);瞬時(shí)量數(shù)據(jù)為用戶實(shí)時(shí)用電功率、電壓與電流等信息;表碼數(shù)據(jù)為用戶累計(jì)用電有功表碼和無功表碼信息.本文使用電能表計(jì)量終端每15 min采集一次表碼數(shù)據(jù),并每隔1 h向智能終端發(fā)送一次數(shù)據(jù).各數(shù)據(jù)具體說明如下:
1) 瞬時(shí)量數(shù)據(jù).包括用戶的總有功功率、三相有功功率、三相電流值及三相電壓值等用電信息,其部分?jǐn)?shù)據(jù)如表1所示.
2) 表碼數(shù)據(jù).表碼數(shù)據(jù)主要為用戶的累計(jì)用電信息,其包含的內(nèi)容如表2所示,其中,費(fèi)率類型包括總電量、正常情況、高峰、低谷和超高峰等不同時(shí)段的計(jì)費(fèi)標(biāo)準(zhǔn).
表1 瞬時(shí)量數(shù)據(jù)示例Tab.1 Examples of instantaneous data
表2 表碼數(shù)據(jù)示例Tab.2 Examples of table code data
使用上文采集的瞬時(shí)量數(shù)據(jù)和表碼數(shù)據(jù)進(jìn)行數(shù)據(jù)完整性分析.考慮到數(shù)據(jù)每間隔1 h采集一次,本文主要選取瞬時(shí)數(shù)據(jù)的計(jì)量點(diǎn)、時(shí)間與功率3類數(shù)據(jù),選取表碼數(shù)據(jù)的計(jì)量點(diǎn)、時(shí)間及正向有功表碼3類數(shù)據(jù)進(jìn)行后續(xù)分析.考慮到智能計(jì)量終端可能存在記錄時(shí)間不齊和通訊故障等問題,導(dǎo)致相應(yīng)時(shí)間上的計(jì)量數(shù)據(jù)整條缺失,本文主要通過分析缺失數(shù)據(jù)的形態(tài)來判斷數(shù)據(jù)缺失的類型.
本文將具體的數(shù)值信息進(jìn)行去值化,使用‘1’表示某一時(shí)刻存在瞬時(shí)數(shù)據(jù)和表碼數(shù)據(jù),使用‘0’表示某一時(shí)刻缺失瞬時(shí)數(shù)據(jù)及表碼數(shù)據(jù).數(shù)據(jù)預(yù)處理過程如下:
1) 掃描采集的數(shù)據(jù),獲取計(jì)量點(diǎn)編碼POINTID;
2) 將每一個(gè)計(jì)量點(diǎn)按照月份和時(shí)刻設(shè)定為31×24的數(shù)組,并初始化為0;
3) 使用數(shù)值判斷程序判斷每個(gè)計(jì)量點(diǎn)在響應(yīng)數(shù)組位上是否存在數(shù)據(jù)及其是否為NULL,若存在數(shù)據(jù)且不為NULL,則給數(shù)組的相應(yīng)位賦值1;
4) 統(tǒng)計(jì)每個(gè)計(jì)量點(diǎn)的數(shù)據(jù)缺失數(shù)量,并記為ERRORNUM.
本文預(yù)處理后的部分瞬時(shí)量數(shù)據(jù)和表碼數(shù)據(jù)分別如表3、4所示.表3、4中分別用Pi和BMi(i=0,1,…,23)表示24個(gè)時(shí)刻的數(shù)據(jù)值.
表3 預(yù)處理后的瞬時(shí)數(shù)據(jù)Tab.3 Instantaneous data after preprocessing
表4 預(yù)處理后的表碼數(shù)據(jù)Tab.4 Table code data after preprocessing
使用DBSCAN聚類算法分析所采集的電力工程數(shù)據(jù)前,需針對(duì)不同的問題對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行特征構(gòu)造和特征分析,以適應(yīng)相應(yīng)的問題與模式.本文根據(jù)電能表與智能終端數(shù)據(jù)缺失數(shù)量及數(shù)據(jù)缺失同步性的特點(diǎn),分別構(gòu)造了不同的特征組合并進(jìn)行了有效性分析.
2.3.1 電能表與智能終端數(shù)據(jù)缺失數(shù)量分析
本文分別使用電能表的表碼、終端的表碼以及電能表的瞬時(shí)量、終端的瞬時(shí)量分析所采集的電力工程數(shù)據(jù)的缺失數(shù)量.
數(shù)據(jù)缺失量特征格式如表5所示,表5中顯示了所采集數(shù)據(jù)的全部特征數(shù)據(jù)缺失數(shù)量,其中,M_POINTID和F_POINTID分別為電能表與終端的計(jì)量點(diǎn);電能表的表碼和終端的表碼缺失數(shù)量分別為MBM、FBM;電能表的瞬時(shí)量和終端的瞬時(shí)量缺失數(shù)量分別為MSSL、FSSL;4種特征缺失數(shù)量的總和為MISSNUM.
表5 數(shù)據(jù)缺失量分析特征格式Tab.5 Feature format of data missing amount analysis
為保證聚類分析的有效型,本文排除了運(yùn)行正常的計(jì)量終端及拆除、損壞或無信號(hào)的計(jì)量終端,即4個(gè)特征量均為0和均為24的樣本,共統(tǒng)計(jì)了53 903個(gè)計(jì)量終端采集的313 346條有效數(shù)據(jù).各特征具體統(tǒng)計(jì)結(jié)果如表6所示.
表6 各特征缺失數(shù)據(jù)統(tǒng)計(jì)結(jié)果Tab.6 Statistical results of missing data with respective feature
從表6的統(tǒng)計(jì)結(jié)果可以看出,電能表的瞬時(shí)量和表碼數(shù)據(jù)的缺失值明顯少于終端上的缺失值,由此表明,終端數(shù)據(jù)的不完整性更嚴(yán)重.分別分析終端和電能表的數(shù)據(jù)可知,電能表上表碼數(shù)據(jù)的缺失數(shù)量比瞬時(shí)量的缺失數(shù)量少24.7%;而終端上瞬時(shí)量的缺失數(shù)量比表碼的缺失數(shù)量少13.2%.分析結(jié)果表明,終端上數(shù)據(jù)的波動(dòng)情況更為穩(wěn)定.
2.3.2 電能表與智能終端數(shù)據(jù)缺失同步性分析
本文將終端和電能表上的表碼數(shù)據(jù)按異或的方式編碼,以判斷終端與電能表數(shù)據(jù)缺失的同步性,特征數(shù)據(jù)構(gòu)造如表7所示,其中,DIFNUM表示差異值的數(shù)量.
表7 數(shù)據(jù)缺失同步性的特征數(shù)據(jù)格式Tab.7 Feature data format of data missing synchronization
表7中,XOR0~XOR23分別表示24個(gè)時(shí)刻終端的表碼數(shù)據(jù)和電能表數(shù)據(jù)在對(duì)應(yīng)時(shí)刻的異或值,用于表示電能表與智能終端數(shù)據(jù)缺失形態(tài)上的差異.其中,表碼數(shù)據(jù)和電能表數(shù)據(jù)同時(shí)存在用0表示,表碼數(shù)據(jù)與電能表數(shù)據(jù)中有一個(gè)缺失時(shí)則用1表示.同時(shí),本文刪除電能表與智能終端數(shù)據(jù)缺失同步的情況,即異或數(shù)據(jù)全為0的數(shù)據(jù)樣本.
使用本文介紹的DBSCAN聚類算法對(duì)提取的電力工程數(shù)據(jù)進(jìn)行聚類分析,并分析不同半徑Eps時(shí)所得到的不同聚類結(jié)果.
本文分析了聚類半徑分別為5和10的電能表與智能終端的聚類結(jié)果,分別如圖1、2所示.用不同的顏色表示不同的聚類中心,每個(gè)聚類中心顯示了類簇樣本的數(shù)量.圖1共有8個(gè)聚類中心,圖2共有4個(gè)聚類中心,兩圖均表明終端數(shù)據(jù)的缺失值(FBM、FSSL)要多于電能表數(shù)據(jù)的缺失值(MBM、MSSL),且大部分?jǐn)?shù)據(jù)點(diǎn)的缺失量較少,而缺失值大的數(shù)據(jù)點(diǎn)只占少部分.
圖1 半徑為5時(shí)的聚類結(jié)果Fig.1 Cluster results with a radius of 5
上述實(shí)驗(yàn)結(jié)果表明,使用DBSCAN聚類算法可以有效地分析電力工程數(shù)據(jù)的完整性及其缺失的形態(tài)分布,且可設(shè)置不同的聚類參數(shù),從多角度分析數(shù)據(jù)缺失的狀態(tài).
本文提出了一種基于DBSCAN聚類算法的電力工程完整性分析方法,從電力工程數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、特征提取和聚類分析4個(gè)層面介紹了具體的分析方法,并使用該方法分析了電能表與智能終端數(shù)據(jù)缺失數(shù)量與數(shù)據(jù)缺失同步性.對(duì)采集的數(shù)據(jù)進(jìn)行多角度分析的結(jié)果表明,提出的方法可以有效地分析電力工程數(shù)據(jù)的完整性及其缺失的形態(tài)分布,這對(duì)于提高電力工程數(shù)據(jù)的完整性和分析用戶的用電情況均具有較好的參考價(jià)值.