王 璞,謝曉娜
(1.國能大渡河流域水電開發(fā)有限公司,四川成都 610041;2.成都信息工程大學(xué)自動化學(xué)院,四川成都 610225)
電力系統(tǒng)中通過各種智能設(shè)備采集的數(shù)據(jù)蘊(yùn)藏著許多與系統(tǒng)運(yùn)行狀態(tài)有關(guān)的信息。但是實(shí)際運(yùn)行中由于受到多種環(huán)境因素干擾,數(shù)據(jù)存在一定的誤差或異常,影響了系統(tǒng)狀態(tài)估計的準(zhǔn)確性。文獻(xiàn)[1]指出現(xiàn)有電力異常數(shù)據(jù)檢測方法主要是基于狀態(tài)估計計算的傳統(tǒng)方法和基于數(shù)據(jù)挖掘的非傳統(tǒng)方法,如基于神經(jīng)網(wǎng)絡(luò)[2-4]、聚類分析[5-8]及間歇統(tǒng)計[9]等方法。其中,基于聚類分析的檢測方法在準(zhǔn)確度、穩(wěn)定性及聚類效果方面表現(xiàn)較好,得到了廣泛應(yīng)用。文獻(xiàn)[5]提出了一種基于改進(jìn)K-means 算法的電力數(shù)據(jù)異常檢測方法。文獻(xiàn)[10]提出了一種將PFCM 算法和改進(jìn)粒子群優(yōu)化算法相結(jié)合的電力大數(shù)據(jù)異常檢測方法。
為解決FCM 算法易受噪聲數(shù)據(jù)影響及初始化敏感的問題,提出一種基于改進(jìn)FCM 算法的電力異常數(shù)據(jù)檢測方法。首先基于距離測度的公理化定義給出一個新的距離測度計算公式,在此基礎(chǔ)上提出一種改進(jìn)的FCM 算法,并采用螢火蟲算法[11](Firefly Algorithm,F(xiàn)A)對FCM 算法的初始化聚類中心進(jìn)行優(yōu)化,再依據(jù)3σ原理提出了異常數(shù)據(jù)檢測方法,最后通過對比實(shí)驗,對該方法的有效性進(jìn)行驗證。
FCM 是通過構(gòu)建目標(biāo)函數(shù)來獲得數(shù)據(jù)分類結(jié)果的一種求解算法[12]。對于給定數(shù)據(jù)集X={x1,x2,…,xn},其中xi為含有d個屬性的數(shù)據(jù)對象(1 ≤i≤n),劃分?jǐn)?shù)據(jù)集為c個類簇(2 ≤c≤n-1),聚類中心為V=(v1,v2,…vc),其優(yōu)化目標(biāo)函數(shù)為:
式中,μij為每個樣本隸屬于類簇的程度;dij為每個樣本到聚類中心的歐氏距離;m為模糊指數(shù),一般取值為2。利用拉格朗日乘子法得到隸屬度μij和聚類中心vj的更新式為:
螢火蟲算法(AF)受自然界中螢火蟲相互吸引而移動的啟發(fā)實(shí)現(xiàn)解空間搜索,從而得到最優(yōu)解。螢火蟲間相互吸引主要取決于亮度和吸引度兩個因素,較亮的螢火蟲吸引較暗的螢火蟲向其移動,最終導(dǎo)致所有螢火蟲都趨向最亮的螢火蟲,其所在位置就是解空間中最優(yōu)的位置。在FA 目標(biāo)優(yōu)化問題求解時,螢火蟲的亮度通常直接由給定問題的目標(biāo)函數(shù)決定,吸引度和位置的定義[13]如下。
定義1螢火蟲i與j之間的吸引度為:
式中,β0是最大吸引度,γ是光吸收因子,rij是兩只螢火蟲之間的歐氏距離。
定義2螢火蟲i向螢火蟲j移動的位置為:
式中,si、sj分別表示螢火蟲i、j在解空間所處的位置;α表示步長因子,可設(shè)為[0,1]的常數(shù);εi為服從均勻分布的隨機(jī)數(shù)。
距離測度用于衡量各個樣本之間的相似程度,包括歐氏距離、曼哈頓距離和切比雪夫距離等。其中歐氏距離只考慮數(shù)據(jù)點(diǎn)之間的局部一致性特征,忽略了全局一致性特征[14],為此存在無法準(zhǔn)確刻畫現(xiàn)實(shí)世界中含噪數(shù)據(jù)復(fù)雜結(jié)構(gòu)的問題??紤]方差是一個衡量數(shù)據(jù)集分散程度的度量,下面引入方差改進(jìn)歐氏距離,在距離測度的公理化定義下,提出一種新的距離測度計算公式。
定義3給定數(shù)據(jù)集X={x1,x2,…,xn},其距離測度需要滿足以下四個基本性質(zhì):
1)非負(fù)性:d(xi,xj)≥0;
2)自反性:當(dāng)且僅當(dāng)xi=xj時,d(xi,xj)=0;
3)對稱性:d(xi,xj)=d(xj,xi);
4)直遞性:d(xi,xk)+d(xk,xj)≥d(xi,xj)。
定義4給定數(shù)據(jù)集X={x1,x2,…,xn},其中xi是包含d個屬性的數(shù)據(jù)對象(1 ≤i≤n),其改進(jìn)的距離測度定義為:
定理1由式(6)確定的距離測度滿足定義3 給出的四個公理性條件。
聚類利用距離度量建立相似性矩陣來計算樣本之間的相似度,從而確定樣本的所屬類別,因此選擇合適的距離度量直接影響了FCM 算法的聚類性能。通常FCM 算法選擇歐氏距離,而歐氏距離無法準(zhǔn)確刻畫復(fù)雜數(shù)據(jù)結(jié)構(gòu)的限制,導(dǎo)致FCM 算法在實(shí)際應(yīng)用中處理含噪或異常值的數(shù)據(jù)集時往往無法得到較佳的聚類結(jié)果。為了增強(qiáng)FCM 算法的噪聲魯棒性,根據(jù)新型距離測度建立相似度矩陣,提出一種改進(jìn)FCM 算法,使得目標(biāo)函數(shù)不僅反映樣本之間的相似程度,還反映樣本集全局的分散程度,表示如下:
通過求解偏導(dǎo)數(shù)得到隸屬度μij和聚類中心vj分別為:
由此,在目標(biāo)函數(shù)最小化過程中,利用式(9)和(10)對隸屬度矩陣和聚類中心進(jìn)行更新,然后獲得最優(yōu)解,最終依據(jù)最大隸屬度值確定樣本其所屬的類別。
以往FCM 算法采用梯度下降方法尋找最優(yōu)解。若初始值選擇不當(dāng)則會使算法陷入局部最優(yōu),進(jìn)而影響FCM 算法的聚類結(jié)果。考慮螢火蟲算法與粒子群算法和遺傳算法相比在全局尋優(yōu)方面更具有優(yōu)勢,文中在文獻(xiàn)[15]的基礎(chǔ)上,利用螢火蟲算法對聚類中心進(jìn)行優(yōu)化,然后再將所獲得的聚類中心作為聚類算法初始值進(jìn)行聚類。具體思路:每一只螢火蟲代表一個聚類中心,它的位置向量用聚類中心矩陣來表示,利用聚類算法的目標(biāo)函數(shù)給出螢火蟲的亮度公式為:
可見,螢火蟲亮度與目標(biāo)函數(shù)成反比,螢火蟲的亮度越高表明目標(biāo)函數(shù)越小,則其所在位置越好。
基于上述討論,文中首先利用螢火蟲算法尋優(yōu)獲得最優(yōu)聚類中心,然后將其作為聚類算法的聚類中心初始值進(jìn)行聚類,最終獲得最優(yōu)劃分和聚類結(jié)果。文中算法流程圖如圖1 所示。
圖1 算法流程圖
圖2 給出了FCM 算法、PSO-PFCM[10]算法和文中算法對含噪數(shù)據(jù)集聚類所得的隸屬度,可見,對于前面300 個數(shù)據(jù)點(diǎn),三種算法所得的類別劃分結(jié)果與數(shù)據(jù)集的實(shí)際分布情況一致,表明三種算法都能獲得數(shù)據(jù)正確的劃分結(jié)果。但進(jìn)一步觀察,圖2(c)中數(shù)據(jù)樣本對歸屬類的隸屬度值更高,反之則更低,表明文中算法的類別之間劃分更加清晰,聚類效果更好;同時,后100 個噪聲點(diǎn)的隸屬度均更小,與前面數(shù)據(jù)樣本的隸屬度變化規(guī)律截然不同,表明噪聲對文中算法聚類過程的影響極小,可以忽略噪聲帶來的干擾,具有更強(qiáng)的噪聲魯棒性。
圖2 三種算法的隸屬度對比
選取某水電廠2022 年5 月的真實(shí)發(fā)電量數(shù)據(jù)進(jìn)行電力異常數(shù)據(jù)檢測實(shí)驗,采樣頻率為1 次/h,共155條發(fā)電量曲線。發(fā)電機(jī)的超負(fù)荷運(yùn)行或發(fā)電機(jī)振動失步等不可預(yù)知因素導(dǎo)致測量數(shù)據(jù)含有誤差,為此,各個機(jī)組的發(fā)電量曲線分布特性各不相同。首先采用各條曲線的最大值和最小值對數(shù)據(jù)進(jìn)行歸一化處理,然后采用FCM 算法和文中算法將155 條發(fā)電量曲線劃分為五類,提取各個類別曲線及其對應(yīng)的特征曲線,結(jié)果如圖3 所示。從圖3 可見,文中方法提取的聚類中心曲線與發(fā)電量曲線的形態(tài)更加一致,尤其在曲線趨勢變化較大時,文中算法的聚類中心幅值明顯與發(fā)電量更接近。
圖3 兩種算法聚類結(jié)果對比
在獲得發(fā)電量曲線分類結(jié)果與精確提取各類特征曲線的基礎(chǔ)上,文中依據(jù)3σ原理對異常數(shù)據(jù)進(jìn)行檢測,所得的部分異常數(shù)據(jù)如表1 所示??梢姡摲椒軌驕?zhǔn)確地檢測出電力數(shù)據(jù)異常值。
表1 部分異常數(shù)據(jù)
文中提出了一種基于改進(jìn)FCM 算法的電力異常數(shù)據(jù)檢測方法,克服了FCM 算法因采用歐氏距離而對噪聲數(shù)據(jù)敏感和易陷入局部最優(yōu)的不足。實(shí)驗結(jié)果表明文中算法所獲得的聚類結(jié)果類別劃分更清晰、噪聲魯棒性更強(qiáng),并且能夠準(zhǔn)確檢測出電力異常數(shù)據(jù)。后續(xù)將利用更多聚類有效性指標(biāo)來進(jìn)一步分析文中算法性能,并結(jié)合特征提取方法應(yīng)用于高維電力數(shù)據(jù)的異常檢測。