謝瀚陽,彭澤武,唐重陽,肖嘯,魏理豪
(1.廣東電網(wǎng)有限責任公司信息中心, 廣州 510062; 2.深圳市康拓普信息技術(shù)有限公司,廣東 深圳 518034)
隨著科學技術(shù)的不斷進步,電網(wǎng)的智能化水平也越來越高,也因此在電網(wǎng)運行和設備監(jiān)測的過程中產(chǎn)生了大量的數(shù)據(jù)[1-2],例如系統(tǒng)運行數(shù)據(jù)、設備狀態(tài)數(shù)據(jù)、用戶需求數(shù)據(jù)等等。另外,物聯(lián)網(wǎng)技術(shù)和云計算的蓬勃發(fā)展,也進一步增強了電網(wǎng)數(shù)據(jù)的體量和復雜度。如此龐大的數(shù)據(jù)體系難免會帶來一些數(shù)據(jù)質(zhì)量問題,如數(shù)據(jù)缺失、數(shù)據(jù)冗余、數(shù)據(jù)異常等。數(shù)據(jù)質(zhì)量的好壞不僅關(guān)乎電網(wǎng)應用分析的可靠性與正確性,還會對電力系統(tǒng)的穩(wěn)定運行產(chǎn)生影響[3-4]。所以,進行高效可靠的數(shù)據(jù)質(zhì)量管理對電力系統(tǒng)具有重要意義。
數(shù)據(jù)質(zhì)量維護是數(shù)據(jù)質(zhì)量管理的重要組成部分[5],可以有效檢測出問題數(shù)據(jù)并進行篩除,是改善數(shù)據(jù)質(zhì)量的重要組成部分。不少學者在數(shù)據(jù)質(zhì)量維護方面作出了相關(guān)的貢獻。
文獻[6]以CIM/E文本為載體,改進多源數(shù)據(jù)篩選較優(yōu)質(zhì)量數(shù)據(jù)的手段,由借助主站狀態(tài)估計對現(xiàn)場數(shù)據(jù)進行反饋,提高了電網(wǎng)調(diào)度系統(tǒng)的整體數(shù)據(jù)質(zhì)量;文獻[7]從多源多時空角度出發(fā),基于配網(wǎng)SCADA數(shù)據(jù)提出一種用于綜合檢測與修正電壓數(shù)據(jù)質(zhì)量的策略,并通過算例證明了所提方法能有效檢測出不滿足精度要求的電壓數(shù)據(jù);文獻[8]設計一種考慮多維度電網(wǎng)調(diào)度數(shù)據(jù)質(zhì)量的綜合分析與評價系統(tǒng),為電網(wǎng)調(diào)度人員提供更為直觀的綜合數(shù)據(jù)考核與評價手段。
近年來,數(shù)據(jù)挖掘技術(shù)在電網(wǎng)數(shù)據(jù)管理中的應用也越來越廣泛[9-10]。文獻[11]針對電能質(zhì)量檢測問題,應用數(shù)據(jù)挖掘技術(shù),提出了一種的電能質(zhì)量數(shù)據(jù)分析處理體系,并應以某城市電網(wǎng)為例,獲得了良好的效果;文獻[12]建立基于數(shù)據(jù)挖掘的營銷分析方法模型,成功用于分析給定市場環(huán)境中各種因素之間價格變化的層次關(guān)系。文獻[13]對模糊角力分析進行改進,并用于電網(wǎng)不良數(shù)據(jù)的檢測與辨識,獲得良好成效。
關(guān)于電力數(shù)據(jù)質(zhì)量檢測已有不少研究,但仍存在以下問題:
(1)大多檢測方法對全部樣本進行統(tǒng)一分析,但隨著數(shù)據(jù)量的不斷增長,逐漸出現(xiàn)檢測效率低下的問題;
(2)對數(shù)據(jù)的質(zhì)量好壞評價已有較多研究,但對于數(shù)據(jù)的問題定位研究相對較少。
基于數(shù)據(jù)挖掘技術(shù),針對不同系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)特點有所不同的特點,結(jié)合使用決策樹算法與數(shù)據(jù)離群檢測兩種方法,提高數(shù)據(jù)檢測的效率的同時,快速定位數(shù)據(jù)的問題類型,便于開展數(shù)據(jù)修復與改進。
科學技術(shù)的不斷發(fā)展使電網(wǎng)的智能化和信息化水平大大提高,對電網(wǎng)數(shù)據(jù)的需求量也逐漸增大。智能電網(wǎng)系統(tǒng)可以通過數(shù)據(jù)采集與監(jiān)控系統(tǒng)、能量管理系統(tǒng)等,實時獲取相關(guān)生產(chǎn)和運行數(shù)據(jù)。智能電網(wǎng)將獲取的源頭數(shù)據(jù)存儲進入數(shù)據(jù)庫,并進行相關(guān)管理。與此同時,用戶則可通過用戶訪問接口、手機APP等訪問所需數(shù)據(jù)[14]。該數(shù)據(jù)邏輯結(jié)構(gòu)如圖1所示。
圖1 電力數(shù)據(jù)傳輸邏輯結(jié)構(gòu)圖Fig.1 Logical structure diagram of power data transmission
隨著電網(wǎng)體系規(guī)模的不斷擴大,其運行過程中產(chǎn)生的數(shù)據(jù)量也越來越豐富,這其中蘊含著大量的信息,是可以影響發(fā)電、輸配電、用戶用電管理的決策指標的基礎。但由于設備故障、認為原因等,電力數(shù)據(jù)可能會存在一些誤差甚至是錯誤,這不僅不能為電力系統(tǒng)提供可靠的數(shù)據(jù)分析基礎,而且可能因此帶來決策錯誤,影響整個系統(tǒng)的良好運行。圖2指出電力數(shù)據(jù)傳輸過程中可能會遇到的問題。
圖2 電力數(shù)據(jù)主要問題Fig.2 Main problems of power data
(1)格式錯誤。所獲取的數(shù)據(jù)格式應是統(tǒng)一的,不滿足格式的數(shù)據(jù)組應視為不合格。另外在數(shù)據(jù)傳送過程中,可能會出現(xiàn)亂碼等錯誤,這也是格式檢查的重要方向;
(2)精度錯誤。在數(shù)據(jù)獲取和傳輸過程中,所有數(shù)據(jù)的精度都應保持一致,精度與規(guī)定不一致的數(shù)據(jù)應為不合格;
(3)數(shù)據(jù)越限。每個數(shù)據(jù)都有自身約束范圍,數(shù)據(jù)應在規(guī)定范圍內(nèi);
(4)數(shù)據(jù)冗余。數(shù)據(jù)傳輸過程中可能存在重復記錄的問題,因此會產(chǎn)生數(shù)據(jù)冗余;
(5)數(shù)據(jù)缺失。在數(shù)據(jù)獲取和用戶訪問端,所獲取的數(shù)據(jù)量應一致,不能存在缺失記錄或缺失字段;
(6)合理性問題。所獲取數(shù)據(jù)都應滿足電力系統(tǒng)運行要求,各數(shù)據(jù)之間互相約束,數(shù)據(jù)段不滿足運行條件的為不合格數(shù)據(jù)段。
為了快速準確地篩選質(zhì)量差的數(shù)據(jù),結(jié)合使用數(shù)據(jù)挖掘技術(shù)中的決策樹法和離群檢測法,充分利用決策樹的快速分類和離群檢測法在數(shù)據(jù)相關(guān)性檢測的優(yōu)勢,可操作性和準確度更高。
決策樹算法是分類算法的一種。它首先要預處理原始數(shù)據(jù),然后通過對原始數(shù)據(jù)的初步分析建立分類規(guī)則,分類規(guī)則一般以樹的形式出現(xiàn),通過建立的樹對樣本訓練集進行實質(zhì)的分析[15-16]。
采用最經(jīng)典的ID3算法建立相關(guān)決策樹。在該算法中,各類別的不確定性是判斷分類效果的標準。這里用信息增益值描述該標準,其中信息增益值越高,不確定性越低。具體的步驟如下:
設S是包含m個數(shù)據(jù)樣本的集合,分類特性共n個,記為Bi(1,2...n),其中Bi所包含的樣本數(shù)為mi,則對于S的總信息熵為:
(1)
令Sj是集合S中特性Bi類別中有j個數(shù)據(jù)點的子集,則屬性Bi的信息熵為:
(2)
式中I(Sj)是Sj分至各個屬性的信息熵。
屬性Bi在集合S的信息增益G(S,Bi)為:
G(S,Bi)=I(D)-I(D,Bi)
(3)
G(S,Bi)越大,說明屬性Bi對分類起到的作用越大。所以,決策樹的分支節(jié)點應是信息增益最大的特性。
構(gòu)建時序數(shù)據(jù)質(zhì)量檢測順序決策樹時,決策樹算法需要使用歷史數(shù)據(jù)訓練集。選取某地區(qū)的典型歷史數(shù)據(jù),并形成數(shù)據(jù)訓練集,具體如表1所示。
表1 電網(wǎng)數(shù)據(jù)訓練集Tab.1 Power grid data training set
輸入訓練集經(jīng)過決策樹算法可形成初始決策流程,指標檢測順序如圖3所示。
圖3 指標決策順序Fig.3 Order of indicator decision
由上述分析可知,電力數(shù)據(jù)的格式錯誤、精度錯誤、數(shù)據(jù)越限、數(shù)據(jù)冗余、數(shù)據(jù)缺失等問題的檢測方式相對簡單,可對該數(shù)據(jù)點獨立進行檢測。但數(shù)據(jù)的合理性問題需要綜合考慮整體運行情況,檢測相對更為復雜,引入離群檢測法對數(shù)據(jù)合理性進行分析。
離群點檢測用于檢測數(shù)據(jù)樣本中明顯偏離于其他數(shù)據(jù)的樣本,該類樣本不能滿足數(shù)據(jù)的普遍特征或行為,是數(shù)據(jù)挖掘技術(shù)的重要研究方向[17-18]。離群點檢測方法按照數(shù)據(jù)挖掘技術(shù)的不同可分為基于統(tǒng)計的離群檢測、基于深度的離群檢測、基于聚類的離群檢測等。本文采用基于距離的利離群檢測對數(shù)據(jù)合理性問題進行分析,篩選出不合格的數(shù)據(jù)。
聚類的思想主要是利用數(shù)據(jù)樣本和各類別間的相互關(guān)系[19-20],通過把樣本劃分為不同的類,使得同一分類內(nèi)的數(shù)據(jù)點相似性最大,而不同分類之間的差異性最高。所采用的離群檢測方法主要分為兩個階段:首先采用K-means將數(shù)據(jù)進行聚類;然后針對每個數(shù)據(jù)樣本,計算其到距其最近類中心的距離,將該距離記為離群度量值。如果該數(shù)據(jù)樣本的離群度量值偏大,則為離群數(shù)據(jù);反之,就是正常數(shù)據(jù)。
假設數(shù)據(jù)樣本X={x1,x2, …,xi, …,xn},設定分類數(shù)目為M,形成M個簇T={tm,m=1, 2, …,M}
步驟1:首先隨機選擇M個數(shù)據(jù)序列作為初始聚類中心c1,c2,…cM;
步驟2:計算每個數(shù)據(jù)序列和每個聚類中心的距離,把數(shù)據(jù)序列分配給距它距離最小的聚類中心,直到全部數(shù)據(jù)序列都被分配。計算各類聚類中心cm到所有屬于tm簇的元素xi的距離平方和為:
(4)
步驟3:計算各類數(shù)據(jù)序列距其所在類別中心cm的距離平方和L(T)。
(5)
式中rmi表示類別判定系數(shù),當xi∈tm,rmi=1;反之,rmi=0。聚類中心更新為各類別中全部數(shù)據(jù)序列的平均值;
步驟4:返回步驟2,直至各聚類中心都不發(fā)生改變且L(T)小于設定參考值,聚類結(jié)束。
引入BMP指標來確定數(shù)據(jù)樣本的最佳分類數(shù)和評估聚類結(jié)果[21-22]。BWP是描述某樣本分類和它相鄰類別關(guān)系的指標,數(shù)學表達式如下:
(6)
式中Dw為聚類距離,表示最小類間距離和類內(nèi)距離之和;Dn為聚類離差距離,表示最小類間距離和類內(nèi)距離之差。
BWP基于樣本幾何結(jié)構(gòu)對數(shù)據(jù)進行分析,BWP數(shù)值越大,說明數(shù)據(jù)樣本的聚類效果越準確。
數(shù)據(jù)質(zhì)量維護流程圖如圖4所示。
圖4 數(shù)據(jù)質(zhì)量維護流程圖Fig.4 Flow chart of data quality maintenance process
在電網(wǎng)運行過程中,以下幾種情況可能會導致異常數(shù)據(jù)的產(chǎn)生:
(1)量測數(shù)據(jù)在傳輸過程中出現(xiàn)偶然性誤差,可能導致數(shù)據(jù)冗余、格式不正確、數(shù)據(jù)缺失、精度不足等問題;
(2)量測或傳輸系統(tǒng)故障、受到干擾引起的異常,可能導致數(shù)據(jù)冗余、數(shù)據(jù)越限等問題;
(3)電力系統(tǒng)各個量測點非同時測量,可能會引起數(shù)據(jù)合理性不足等問題[23]。
以某地區(qū)配電網(wǎng)某檢測點為研究對象,結(jié)合本文提出的時序數(shù)據(jù)質(zhì)量維護體系,對該地區(qū)某時段內(nèi)電力數(shù)據(jù)進行分析。該點相關(guān)數(shù)據(jù)參數(shù)取值范圍為:電壓U∈[198,235.4],電流I∈[0,288.68],有功功率P∈[0,200],無功功率Q∈[0,120]。為了便于對比分析,本文僅列出部分樣本數(shù)據(jù),如表2所示。
表2 部分樣本數(shù)據(jù)Tab.2 Partial sample data
通過文中的時序數(shù)據(jù)質(zhì)量維護體系可以分析出數(shù)據(jù)是否有格式錯誤、精度錯誤、數(shù)據(jù)越限、數(shù)據(jù)冗余、數(shù)據(jù)缺失等問題,得到如表3所示結(jié)果。
表3 電網(wǎng)數(shù)據(jù)訓練集Tab.3 Power grid data training set
在樣本中,有的數(shù)據(jù)點沒有上述問題,但是否存在合理性問題仍需通過離群檢測法進行判斷。有上述分析可知,共20個樣本數(shù)據(jù)需進行離群檢測。采用基于聚類的離群檢測法,樣本集分類個數(shù)依據(jù)BWP指標確定。不同分類數(shù)的BWP指標變化如圖5所示。
由圖5可知,最佳分組數(shù)為六組。當分組數(shù)為6時,結(jié)果如圖6所示。
圖5 不同分類數(shù)的BWP指標Fig.5 BWP indices of different classification numbers
圖6 離群檢測結(jié)果示意圖Fig.6 Schematic diagram of outlier detection results
可以看出,數(shù)據(jù)點2、7、15、21明顯偏離其余大類,為不合理數(shù)據(jù)。為了驗證結(jié)果的準確性,對上述四個數(shù)據(jù)點的各項數(shù)據(jù)進行深入分析,各數(shù)據(jù)點存在問題如下:
(1)數(shù)據(jù)點2的B、C兩相電壓和三相電流值相比于其他合理數(shù)據(jù)都明顯偏低,因此作為孤立點是合理的;
(2)數(shù)據(jù)點7和數(shù)據(jù)點15相接近,但相比于B集群它們的無功功率值都偏大不少,因此作為孤立點是合理的;
(3)數(shù)據(jù)點21的C相電壓和有功功率值相比于C集群的其他數(shù)據(jù)明顯偏低很多,因此數(shù)據(jù)點21作為孤立點也是合理的。
為了確保未標識數(shù)據(jù)均為正確數(shù)據(jù),根據(jù)所有樣本數(shù)據(jù)間的物理關(guān)聯(lián)關(guān)系進行狀態(tài)估計,監(jiān)測結(jié)果如圖7所示,圖中1表示數(shù)據(jù)異常,0表示數(shù)據(jù)正常。
圖7 狀態(tài)估計檢測結(jié)果示意圖Fig.7 Schematic diagram of state estimation detection results
由圖7可知所提方法與狀態(tài)估計法檢測結(jié)果一致。經(jīng)上述分析可知,通過文中的時序數(shù)據(jù)質(zhì)量維護可有效快速發(fā)現(xiàn)各數(shù)據(jù)點存在的問題,定位問題數(shù)據(jù),并確定數(shù)據(jù)的問題類型,為運行維護人員確定數(shù)據(jù)問題原因,提高數(shù)據(jù)可靠性奠定基礎。
基于數(shù)據(jù)挖掘技術(shù)提出一種時序數(shù)據(jù)質(zhì)量維護體系,通過該檢測體系,可有效發(fā)現(xiàn)問題數(shù)據(jù)點,并進行篩除,主要結(jié)論如下:
(1)不同地區(qū)的數(shù)據(jù)特點不同,為了提高檢測速度,本身首先利用決策樹法對歷史數(shù)據(jù)進行分析,得出適應于該地區(qū)的數(shù)據(jù)問題檢測順序,可在一定程度上提高計算效率;
(2)與其他數(shù)據(jù)問題不同,數(shù)據(jù)的合理性問題檢測較為復雜。引入基于聚類的離群檢測法對所獲取的數(shù)據(jù)進行分析,可有效篩選出問題數(shù)據(jù);
(3)提出一種時序數(shù)據(jù)質(zhì)量維護體系,不僅可以定位問題數(shù)據(jù),還可以確定數(shù)據(jù)出現(xiàn)的問題,保證用于電網(wǎng)分析與規(guī)劃的數(shù)據(jù)的可靠性,同時也利于及時發(fā)現(xiàn)問題數(shù)據(jù),快速定位問題點,便于快速修復與改進。