孫瀅濤,張鋒明,陳水標,葛 晶
(國網(wǎng)紹興供電公司,紹興 312000)
隨著智能電網(wǎng)的建設(shè)與發(fā)展,電力部門在發(fā)電、輸電、變電、配電、用電和調(diào)度6大環(huán)節(jié)中,安裝和部署了大量數(shù)據(jù)采集傳感器。這些傳感器每天會產(chǎn)生大量來源各異、結(jié)構(gòu)多樣、形式不同的電力數(shù)據(jù),是當(dāng)前電力大數(shù)據(jù)的主要來源。通過對電力大數(shù)據(jù)進行有效挖掘,可以大力推動電網(wǎng)從傳統(tǒng)以物理模型為核心的業(yè)務(wù)模式轉(zhuǎn)向以數(shù)據(jù)為基礎(chǔ)的業(yè)務(wù)模式[1-2]。
然而由于數(shù)據(jù)來源不同,對相同數(shù)據(jù)的統(tǒng)計口徑不同,操作人員錄入習(xí)慣差異及缺乏統(tǒng)一的數(shù)據(jù)質(zhì)量管理體系,經(jīng)常會導(dǎo)致異常數(shù)據(jù)的產(chǎn)生。異常數(shù)據(jù)往往蘊藏著電力系統(tǒng)產(chǎn)生故障的相關(guān)信息,能夠為電網(wǎng)技術(shù)人員深入了解電力系統(tǒng)運行狀態(tài),提高異常事件查處命中率等提供幫助,因此具有巨大的研究價值。早期的異常檢測多采用人工巡檢方式,效率低且準確率不高,隨著電力大數(shù)據(jù)技術(shù)的發(fā)展,如何在大量、多源、異構(gòu)數(shù)據(jù)中,快速、準確地實現(xiàn)對異常數(shù)據(jù)的自動化檢測,成為當(dāng)前的研究熱點[3-5]。
目前,國內(nèi)外學(xué)者針對電力大數(shù)據(jù)異常檢測的研究主要可分為基于統(tǒng)計的異常檢測方法、基于聚類的異常檢測方法和基于分類的異常檢測方法。①基于統(tǒng)計的異常檢測方法認為正常數(shù)據(jù)服從相同的概率分布模型,而異常數(shù)據(jù)的概率分布模型與正常數(shù)據(jù)存在區(qū)別,因此通過對數(shù)據(jù)的統(tǒng)計模型進行分析便可實現(xiàn)對數(shù)據(jù)集中的異常值進行檢測。文獻[6]和文獻[7]分別介紹了基于有參數(shù)統(tǒng)計模型的異常數(shù)據(jù)檢測方法和基于無參數(shù)統(tǒng)計模型的異常數(shù)據(jù)檢測方法,實驗結(jié)果表明,該方法在數(shù)據(jù)統(tǒng)計規(guī)律簡單且數(shù)據(jù)量不大時,能獲得較好的檢測性能。然而電力大數(shù)據(jù)具有典型的時間強耦合、高維復(fù)雜等特點,在這種情況下,該類方法往往不能得到很好的檢測結(jié)果。②基于聚類的異常檢測方法是當(dāng)前應(yīng)用最廣的一種方法,其思路是利用K-means(K-均值),根據(jù)密度的聚類DBSCAN(densitybased spatial clustering of applications with noise)等聚類方法對數(shù)據(jù)集進行分析,聚類后不屬于任何聚類簇或者離聚類中心較遠的數(shù)據(jù)點即判定為異常數(shù)據(jù)。文獻[8]利用K-近鄰K-NN(K-nearest neigh?bor)對DBSCAN進行優(yōu)化,提出一種改進的快速密度峰值聚類算法實現(xiàn)對電力大數(shù)據(jù)異常值的檢測;文獻[9]對傳統(tǒng)K-means算法初始聚類中心的選取策略進行優(yōu)化,提出一種改進K-means算法的異常檢測方法,該方法能在有效降低迭代次數(shù)的同時獲得較高的聚類準確率和異常檢測性能;文獻[10]針對竊電等異常用電行為,提出一種模糊聚類算法對智能電表收集到的數(shù)據(jù)進行分析,并對采樣的真實數(shù)據(jù)集開展實驗,驗證了算法對異常用電行為檢測的有效性。然而基于聚類的異常檢測算法性能受聚類簇個數(shù)影響較大,目前常用的主觀試湊法存在運算量大和主觀性強的問題,對不同數(shù)據(jù)集獲得的結(jié)果往往差異較大,魯棒性不足。③基于分類的異常檢測方法在對電力大數(shù)據(jù)進行分析的基礎(chǔ)上,利用低維特征向量對原始高維數(shù)據(jù)進行表征,有效降低算法復(fù)雜度,然后利用模式分類方法對特征向量進行分類識別,自動確定異常數(shù)據(jù)[11]。文獻[12]首先利用隨機森林算法自動選擇電力數(shù)據(jù)中重要性較高的特征,然后利用雙向長短期記憶LSTM(long short-term memory)網(wǎng)絡(luò)進行分類,自動實現(xiàn)網(wǎng)絡(luò)異常行為的檢測;文獻[13]從額定電壓偏離度、電壓不平衡度、電流不平衡度、電流相關(guān)系數(shù)和日用電量離散系數(shù)5個維度提取特征,實現(xiàn)對正常、疑似和異常3種用電行為的有效檢測。
本文在上述研究的基礎(chǔ)上,提出一種基于多域特征提取的電力大數(shù)據(jù)異常檢測方法。首先,提取波動性、趨勢性和變動性特征等9維特征對電力數(shù)據(jù)時間序列進行表征;然后,利用相關(guān)向量機RVM(relevance vector machine)自動選擇最優(yōu)2維特征構(gòu)成特征向量;最后,采用支撐向量數(shù)據(jù)描述SVDD(support vector data description)構(gòu)造一類分類器,對特征向量進行分類,從而實現(xiàn)對異常數(shù)據(jù)檢測。針對SVDD核參數(shù)σ和懲罰因子C的設(shè)置問題,將磷蝦KH(krill herd)算法引入SVDD優(yōu)化領(lǐng)域,提升算法收斂精度;基于某地電網(wǎng)用戶電力負荷數(shù)據(jù)開展實驗,實驗結(jié)果表明所提方法能夠?qū)崿F(xiàn)對所有異常數(shù)據(jù)的正確檢測,當(dāng)信噪比低至-6 dB時依然能夠獲得較好的檢測性能,具有較強噪聲魯棒性。
電力大數(shù)據(jù)是一種物理信息耦合,可以將與時間緊密相關(guān)的數(shù)據(jù)集合,作為典型的1維時間序列x(t)進行處理,其中,x(t)為t時刻的采樣值,t=1,2,…,E,E為時間序列總長度。由于x(t)具備高維、非線性、結(jié)構(gòu)復(fù)雜和大規(guī)模等特點,直接進行分析要消耗大量的運算資源,異常檢測效率低。同時數(shù)據(jù)中不可避免地會存在量測噪聲和隨機誤差等問題,也會影響檢測結(jié)果的準確性和可靠性。因此需要對原始數(shù)據(jù)進行處理以降低檢測算法的運算復(fù)雜度并提升噪聲穩(wěn)健性。
特征提取是機器學(xué)習(xí)和模式識別領(lǐng)域中一種常用的數(shù)據(jù)降維手段,通過對原始高維數(shù)據(jù)進行分析,從中創(chuàng)造凝練出一些特征,這些特征能夠準確描述原始數(shù)據(jù)的本質(zhì)屬性,從而達到數(shù)據(jù)降維的同時降低噪聲等隨機誤差影響的目的[14]。本節(jié)將針對電力數(shù)據(jù)隨時間變化特征,從波動性、趨勢性和變動性3個維度提取9維特征,對原始時間序列x(t)進行描述和表征。
1.1.1 波動性特征
1.1.2 趨勢性特征
1.1.3 變動性特征
得到9維特征后,可以直接將其作為特征向量輸入到分類器中進行分類識別和異常檢測,但由于本文采用的是人工特征提取方法,提取的特征中不可避免地會存在一些冗余特征,這些特征的存在不僅不會增加對分類識別和異常檢測的有用信息,相反可能會降低檢測性能的可靠性。因此有必要進行特征選擇,進一步對9維特征進行降維,選取對檢測性能有重要影響的少數(shù)特征。
RVM是在2001年被提出的一種貝葉斯框架下的模式分類算法,與支撐向量機SVM(support vec?tor machine)類似,RVM也是利用核函數(shù)將低維空間中的線性不可分問題轉(zhuǎn)化為高維空間的線性可分問題,但在3個方面又優(yōu)于SVM:①具備更高的稀疏性,能夠自動完成特征選擇;②特征選擇與分類識別采用相同的優(yōu)化函數(shù),能夠獲得更優(yōu)的分類性能;③核函數(shù)的選擇不再依賴于摩西準則,能夠提供概率式的預(yù)測。因此本文采用RVM進一步對特征進行分析,自動實現(xiàn)最優(yōu)特征組合的選擇。
對于1個訓(xùn)練樣本的特征向量集合{ym,zm},其中,m=1,…,M,M為訓(xùn)練樣本總數(shù);ym為特征向量;zm∈{0 ,1}為類別標號。RVM分類問題的優(yōu)化函數(shù)可表示為
式中:K(y,ym)為核函數(shù);y、w分別為模型中的待求變量;wm為第m個訓(xùn)練樣本對應(yīng)權(quán)重;ε為高斯白噪聲。
為了對輸入特征對應(yīng)的目標值做出概率預(yù)測,RVM將sigmoid函數(shù)引入,此時似然函數(shù)可表示為
式中,σ[·]為沖擊函數(shù)。
為了構(gòu)建完整貝葉斯模型,進一步對模型中參數(shù)的先驗分布進行構(gòu)建,假設(shè)w服從0均值、方差為α-1的高斯分布,而α-1和噪聲方差τ-1的先驗分布為伽馬分布,即
式中:a=b=c=d=10-6為超參數(shù),不提供任何信息;α為方差α-1的逆;αm為α的第m個分量;τ為噪聲方差τ-1的倒數(shù)。
模型求解通常采用變分貝葉斯期望最大VBEM(variational bayes expectation maximization)算法,求解過程中大部分α?xí)呄驘o窮大,對應(yīng)的w則趨于0,從而實現(xiàn)了權(quán)值向量的稀疏化,迭代終止時不為0的權(quán)值對應(yīng)的特征向量即為最終要選擇的最優(yōu)特征組合[15]。
KH算法是Gandomi等學(xué)者于2012年提出的一種模擬KH活動規(guī)律的優(yōu)化算法,其基本思想是將覓食過程中KH的位置狀態(tài)作為優(yōu)化問題的解,隨著時間的推移KH逐漸聚集于食物所在地,即不斷尋找最優(yōu)解。作為一種隨機搜索算法,KH算法具備控制參數(shù)少、實現(xiàn)簡單等優(yōu)點,同時算法迭代過程中同時包含全局尋優(yōu)和局部尋優(yōu)兩種策略,兩種策略并行搜索使算法兼有局部開發(fā)與全局勘探的平衡[18]。因此本文將KH算法引入SVDD參數(shù)優(yōu)化領(lǐng)域,利用KH算法對SVDD中核參數(shù)σ和懲罰因子C進行優(yōu)化,提出KH算法優(yōu)化的SVDD即KHSVDD的一類分類方法。
圖1給出了本文所提基于特征提取和改進SVDD的電力數(shù)據(jù)異常檢測算法的流程。由圖1可以看出,算法從左到右包含2個階段,分別為訓(xùn)練階段和測試階段;從上到下又可以分為2個層次,第1層為電力數(shù)據(jù)特征表示,第2層為特征數(shù)據(jù)異常檢測。
圖1 所提算法流程Fig.1 Flow chart of the proposed algorithm
1)訓(xùn)練階段具體步驟
步驟1將獲取的正常電力數(shù)據(jù)構(gòu)成訓(xùn)練樣本集作為訓(xùn)練階段的算法輸入。相對于其他異常檢測方法需要正常數(shù)據(jù)和異常數(shù)據(jù)2種數(shù)據(jù)集,本文所提方法只需實際中容易獲取的正常樣本即可完成訓(xùn)練,降低了數(shù)據(jù)獲取難度。
步驟2根據(jù)式(1)~(9)對訓(xùn)練數(shù)據(jù)集提取9維特征構(gòu)成特征向量,實現(xiàn)原始高維數(shù)據(jù)的降維,并降低算法運算復(fù)雜度。
步驟3采用第2.2節(jié)中的RVM算法自動進行特征選擇,得到低維特征向量。在剔除冗余特征的同時能夠進一步降低算法運算復(fù)雜度,提升算法實時性。
步驟4將步驟3得到的特征向量作為SVDD分類器的輸入完成最優(yōu)分類面的求解,在這一過程中,運用第2.2節(jié)KH算法對SVDD的核參數(shù)σ和懲罰因子C進行全局尋優(yōu),提升算法穩(wěn)健性。
2)測試階段具體步驟
步驟1輸入測試數(shù)據(jù)(正常數(shù)據(jù)或異常數(shù)據(jù))。
步驟2根據(jù)訓(xùn)練階段中步驟3選擇的低維特征向量提取特征,構(gòu)成測試數(shù)據(jù)的特征向量。
步驟3利用訓(xùn)練階段步驟4得到的最優(yōu)SVDD分類面對特征向量進行分類,給出數(shù)據(jù)是否正常的判決結(jié)果。
3)所提方法的優(yōu)勢
(1)由于導(dǎo)致電力數(shù)據(jù)出現(xiàn)異常的原因很多,且發(fā)生時機較為隨機,通常難以獲得足夠的異常數(shù)據(jù)集,而所提方法只需正常樣本一類數(shù)據(jù)即可完成模型訓(xùn)練,降低了數(shù)據(jù)獲取難度,適合應(yīng)用于電力大數(shù)據(jù);
(2)通過9維特征提取和RVM自動特征選擇大大降低了訓(xùn)練階段的運算復(fù)雜度;
(3)KH算法優(yōu)化SVDD KH-SVDD(krill herd op?timized SVDD)分類器能夠獲得更優(yōu)的分類性能和魯棒性;
(4)測試階段直接提取訓(xùn)練階段RVM選擇的特征,降低了特征提取的運算量,提升了算法的實時性。
在電力大數(shù)據(jù)范圍內(nèi),電力負荷數(shù)據(jù)是一種典型的終端數(shù)據(jù),隨時間連續(xù)變化,曲線特征明顯,能夠很好地反映用戶的用電習(xí)慣,因此本文以電力用戶的月平均負荷數(shù)據(jù)作為研究對象。選取某地電網(wǎng)98個用戶的連續(xù)用電負荷數(shù)據(jù)開展實驗,其中85戶為正常用戶,13戶為異常用戶,異常用戶比例為13.27%。實驗中首先隨機從85個正常用戶中選取80個用戶數(shù)據(jù)作為訓(xùn)練樣本集,剩余5個正常用戶和13個異常用戶作為測試樣本集。
根據(jù)圖1算法流程,首先對80組正常用戶電力數(shù)據(jù)提取9維特征,同時由第2.1節(jié)可以看出不同特征對應(yīng)的度量單位是不一致的,因此需要對其進行歸一化處理。本文采用Z-score歸一化方法,利用數(shù)據(jù)的均值和標準差對數(shù)據(jù)進行處理,使歸一化后的數(shù)據(jù)集合服從均值為0,方差為1的標準正態(tài)分布,從而消除不同度量單位的影響。Z-score歸一化方法的表達式為
式中:f為原始數(shù)據(jù);f′為歸一化后的數(shù)據(jù);mean(f)、std(f)分別為f的均值和方差。
采用RVM對訓(xùn)練數(shù)據(jù)特征集合進行分析和自動特征選擇,迭代終止時9維特征對應(yīng)的權(quán)值如圖2所示。由圖2可知,特征2和特征8對應(yīng)的權(quán)值較大,而特征1、特征3、特征4~7、特征9對應(yīng)的權(quán)值均較?。ㄐ∮?.1),即RVM自動選取特征2和特征8作為最優(yōu)特征組合。
圖2 RVM特征選擇結(jié)果Fig.2 Feature selection results of RVM
為了判斷RVM選擇的特征是否最優(yōu),運用相關(guān)矩陣對9維特征的線性相關(guān)程度進行分析,特征之間相關(guān)性越大,表明特征之間包含較多的重疊冗余信息,可以只取其中一個作為最優(yōu)特征代替。表1給出了相關(guān)矩陣,由表1可以看出特征1、特征3與特征2之間的相關(guān)系數(shù)較大,而特征5~7、特征9與特征8之間的相關(guān)系數(shù)較大,表明特征2和特征8包含了9維特征中的大部分有用信息,驗證了RVM特征提取的有效性。特征4的幾何平均數(shù)與其他8維特征的相關(guān)性均較小,但是RVM并沒有將其選為最優(yōu)特征,究其原因在于幾何平均數(shù)更適合分析具有等比或近似等比關(guān)系的數(shù)據(jù),而用戶電力負荷數(shù)據(jù)是累加關(guān)系,因此幾何平均數(shù)特征并不適合本文的應(yīng)用場景。
表1 特征相關(guān)性分析Tab.1 Feature correlation analysis
得到訓(xùn)練特征集合后,利用訓(xùn)練特征對SVDD分類器進行訓(xùn)練,同時采用KH算法對SVDD的核參數(shù)σ和懲罰因子C進行優(yōu)化,迭代過程中σ和C的變化曲線如圖3所示。由圖3可知,經(jīng)大約20次迭代,KH-SVDD算法收斂,此時最優(yōu)參數(shù)組合為σ*=0.3,C*=8.5。
圖3 KH算法優(yōu)化SVDD參數(shù)過程Fig.3 Optimization of SVDD parameters by the KH algorithm
在得到最優(yōu)SVDD分類面后,根據(jù)圖1所示流程,算法進入測試階段。首先對測試數(shù)據(jù)提取RVM選擇的2維特征構(gòu)成特征向量,利用最優(yōu)SVDD分類器進行分類判決實現(xiàn)異常檢測。圖4給出了最終的判決結(jié)果,由圖4可知,測試數(shù)據(jù)中的13組異常樣本全部落在最優(yōu)分類面之外,測試樣本中的5組正常樣本全部落在最優(yōu)分類面以內(nèi),表明測試數(shù)據(jù)集中的所有樣本均被正確判決,驗證了所提方法的有效性。
圖4 所提方法異常檢測結(jié)果Fig.4 Results of anomaly detection using the proposed method
接收機工作特性ROC(receiver operating char?acteristic)曲線被廣泛應(yīng)用于評估分類模型的性能。圖5給出了對本文所提模型進行評估計算得到的ROC曲線,其中,橫軸為模型的虛警概率FPR(false positive rate),縱軸為模型的檢測概率TPR(true positive rate);同時為了對比,在圖5中也給出了相同條件下采用文獻[9]中模型計算得到的ROC曲線,可以看出所提模型的ROC曲線更靠近于二維平面的左上方,曲線下面積AUC(area under curve)值大于文獻[9]方法,因此可以獲得更優(yōu)的分類性能。
圖5 不同方法ROC曲線Fig.5 ROC curves of different methods
為了進一步驗證所提方法在噪聲等隨機誤差存在情況下的穩(wěn)健性,采取向測試數(shù)據(jù)加入高斯白噪聲的方式構(gòu)建不同信噪比的測試數(shù)據(jù)集,本文信噪比定義為
式中:為信號的平均功率;Pε為高斯噪聲信號ε的功率。
表2和表3分別給出了不同信噪比條件下所提方法和文獻[9]方法得到的檢測結(jié)果混淆矩陣。由表2可知,當(dāng)信噪比高于-2 dB時,所提方法均可以正確完成異常數(shù)據(jù)檢測;當(dāng)信噪比低于-4 dB時,所提方法能夠?qū)崿F(xiàn)對所有異常數(shù)據(jù)的檢測,此時1組正常樣本被判決為異常數(shù)據(jù),出現(xiàn)了虛警;當(dāng)信噪比低至-6 dB時,所提方法依舊能夠?qū)崿F(xiàn)對所有異常數(shù)據(jù)的檢測,只有2組正常樣本被判決為異常數(shù)據(jù)。同樣由表3所示結(jié)果可以看出,采用文獻[9]所提方法在信噪比為0 dB時所有異常數(shù)據(jù)均被正確檢測,但此時1組正常數(shù)據(jù)被錯誤判決為異常樣本;當(dāng)信噪比高于2 dB時,文獻[9]所提方法方能對所有數(shù)據(jù)實現(xiàn)正確分類識別。表2、表3結(jié)果表明,所提方法的異常檢測性能明顯優(yōu)于文獻[9]方法,并且具有更強的噪聲魯棒性,在低信噪比條件下能夠有效實現(xiàn)異常檢測。
表2 不同信噪比下異常檢測結(jié)果(所提方法)Tab.2 Results of anomaly detection at different SNRs(using the proposed method)
表3 不同信噪比下異常檢測結(jié)果(文獻[9]方法)Tab.3 Results of anomaly detection at different SNRs(using the method in Ref.[9])
針對電力大數(shù)據(jù)非線性、高維度、時間強耦合的特點,本文提出一種多特征提取和KH-SVDD的電力數(shù)據(jù)異常檢測方法。首先,采用特征提取思路實現(xiàn)對高維電力數(shù)據(jù)時間序列的降維,利用9維波動性、趨勢性和變動性特征對時間序列進行表征。然后,采用RVM進行特征選擇,自動確定最優(yōu)特征組合作為特征向量輸入到SVDD分類器進行分類判決;針對SVDD參數(shù)選擇問題將KH算法引入,對核參數(shù)σ和懲罰因子C進行全局尋優(yōu),提升異常檢測性能。最后,通過對某地電網(wǎng)用戶電力負荷數(shù)據(jù)進行異常檢測實驗,實驗結(jié)果表明,所提方法能夠有效實現(xiàn)異常用電檢測,提升電力稽查自動化程度和稽查效率,節(jié)省人力物力,具有較高應(yīng)用前景。