吳 嶸
(南京理工大學 南京 210094)
大數(shù)據(jù)挖掘是從大量數(shù)據(jù)中有效地發(fā)現(xiàn)有價值的、不明顯的信息,這種涉及從數(shù)據(jù)中提取信息的過程也是一種探索性數(shù)據(jù)分析[1]。大數(shù)據(jù)挖掘是從存儲在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中的大量數(shù)據(jù)中發(fā)現(xiàn)有趣的信息,如模式、關聯(lián)、變化、異常和重要結構的過程[2]。大數(shù)據(jù)挖掘通常用于非常大的數(shù)據(jù)庫,由于數(shù)據(jù)庫的復雜性和容量龐大,使得它通常是不能被解讀或分析。大數(shù)據(jù)挖掘的目的是從這些大型數(shù)據(jù)庫中發(fā)現(xiàn)有用的信息,這種過程被稱為數(shù)據(jù)庫知識發(fā)現(xiàn)(Knowledge Discovery in Databases,KDD)[3]。大數(shù)據(jù)挖掘涉及數(shù)據(jù)庫技術、統(tǒng)計學、機器學習、高性能計算、模式識別、神經網(wǎng)絡、數(shù)據(jù)可視化、信息檢索等多學科的技術集成[4~5]。大數(shù)據(jù)挖掘中的一個常見問題是查找數(shù)據(jù)屬性之間的關聯(lián)。大數(shù)據(jù)挖掘任務有以下類別[6~8]:分類描述;關聯(lián)分析;聚類分析;孤立點分析;進化分析。
故障是指與觀察到的變量或與設備相關聯(lián)的計算參數(shù)在可接受范圍內發(fā)生了偏離,即故障是一個過程異?;虬Y狀??偟膩碚f,故障與設備或儀表的正常行為相背離。它們可能出現(xiàn)在基本設備或其控制儀器中,并代表著性能惡化、部分故障或全部故障。故障分析的目的是通過行為異常識別系統(tǒng)來保證操作成功。由于適當?shù)倪^程監(jiān)控,使停機時間最小化,改善了操作的安全性,降低了制造成本。一般來說,故障分析的過程可分為三個主要步驟[9]:報警、識別、評估。
電力系統(tǒng)是一個最復雜的人工系統(tǒng),其安全、穩(wěn)定、經濟可靠運行,在社會經濟的發(fā)展中起著非常重要的作用。為了解決電力系統(tǒng)故障分析這一難題,必須對電力系統(tǒng)本身及其復雜性不斷提高分析、運行和控制水平。當電力系統(tǒng)從正常運行狀態(tài)到異常運行故障時,其電量可能發(fā)生顯著變化。繼電保護器就是利用電力的突然變化來判別電力系統(tǒng)是否發(fā)生故障或運行異常。通過對電力測量與正常系統(tǒng)參數(shù)的對比,可以檢測出故障類型和故障位置。此外,還可以實現(xiàn)選擇性故障排除。
在本研究中,全局信息將被引入后備保護系統(tǒng)中。在某些故障后,利用電源管理單元(Phasor Measurement Unit,PMU)進行實時測量,并對電量變化的特征進行查找。然后對故障分量和故障區(qū)段進行快速準確的分析,最終完成故障隔離?;诮y(tǒng)計理論,還將對非線性復雜系統(tǒng)進行大量的基礎研究,采用大數(shù)據(jù)挖掘中的聚類分析技術解決電氣工程中的故障檢測問題。
考慮一個帶有電阻器(R)、電感器(L)和電容器(C)的電路。每一個元件在回路中連接電路,包含一個元件的電路部分稱為支路。支路連接的點稱為節(jié)點。在這個最簡單的測試中,有三個分支和節(jié)點,見圖1所示。
令iR,iL和iC分別代表經過對應電阻R,電感器L和電容器C的電流,同樣地,vR,vL和vC分別代表電路的三個支路上的電壓。如果認為水是通過管道流動的,那么電流就像水的流量一樣,電壓就像水的壓力一樣。基爾霍夫電流定律指出,流入一個節(jié)點的總電流必須等于從該節(jié)點流出的電流。這意味著在討論的電路中電流關系為按圖1所示的方向定位分支,則
基爾霍夫電壓定律指出,所有回路電壓降之和為零。則
對于電路元件的性質和決定變量的規(guī)律研究中,電阻器是由電流iR和電壓vR之間的關系確定。因此只考慮一個線性電阻,根據(jù)歐姆定律,可得
其中,R>0為常數(shù),vR和iR互為非線性函數(shù)關系。電感器的特點是電流對時間的導數(shù)diL/dt,對于電感器的電壓vL,根據(jù)法拉第定律,可得
其中,常數(shù)L>0被稱為電感。電感器是通過一個線圈制作構成,線圈中電流變化引起的磁場在線圈上產生電壓降。電容器的特點是電壓對時間的導數(shù)dvC/dt,對于電容器的電流iC為
其中,常數(shù)C>0被稱為電容。
分類是大數(shù)據(jù)挖掘領域的經典課題之一[10]。聚類是將數(shù)據(jù)對象分類成一組不相交類的過程,稱為簇,因此類中的對象之間具有高度的相似性[11]。聚類是無監(jiān)督分類的一個分支。“分類”是指將數(shù)據(jù)對象分配給一組類的過程?!盁o監(jiān)督”意味著集群不依賴于預定義的類,而對數(shù)據(jù)對象進行分類[12]。聚類分析的應用包括以下三個方面[13]:
1)識別原始數(shù)據(jù)中的簇;
2)確定原始數(shù)據(jù)中簇的個數(shù);
3)驗證原始數(shù)據(jù)中發(fā)現(xiàn)的簇。
聚類分析具有很強的數(shù)據(jù)分析能力,已成功應用于各個領域的研究。
假設有n個樣本,每個樣本有m個指標,觀測數(shù)據(jù)可以表示為αij(i=1,…,n,j=1,…,m)。最常用的描述關系程度的測量是距離dij通常表示樣本ξ(i)和η(j)之間的距離。常用的距離定義包括:
1)Minkovski距離:
2)Lance距離[14]:
3)馬氏距離:
其中,S-1是樣本協(xié)方差矩陣的逆矩陣。
4)斜空間距離[15]:
為了克服相對論的影響,我們可以定義斜空間的距離:
其中,ρkl是ξ(k)與η(l)的相關系數(shù)。
考慮IEEE-9總線系統(tǒng),圖2是它的電路原理圖。在電力網(wǎng)的結構中,總線1出現(xiàn)單相接地故障。通過BPA程序,相應變量的向量值只在每個周期中輸出一次。相應變量使用實際測量的數(shù)據(jù),可以進行故障和非故障的元件分析(故障和非故障段)。
圖2 IEEE-9總線系統(tǒng)電氣圖
在計算IEEE-9總線系統(tǒng)后,可以得到五個時刻T-1、T0(故障)、T1、T2和T3的節(jié)點相電壓,如表1所示。
表1 節(jié)點相電壓
圖3是基于節(jié)點相電壓的聚類分析樹狀圖。整個聚類分析過程遵循從高到低(從近到遠)的相似性原則,順序是:
步驟1:總線C與總線B結合并形成新的總線B;
步驟2:總線3與總線2結合并形成新的總線2;
步驟3:總線A與總線2結合并形成新的總線2;
步驟4:總線2與支路1結合并形成新的支路1;
步驟5:支路3與支路2結合并形成新的支路2;
步驟6:支路2與支路1結合并形成新的支路1;
步驟7:總線B與總線1結合并形成新的總線1;
步驟8:總線1與支路1結合并形成新的支路1。
圖3 基于節(jié)點相電壓的聚類分析樹狀圖
從圖3可以很容易地看出,總線1與其他總線有著顯著的不同,其故障特征是明顯的。這些結果與預先設定的故障位置完全相同,因此我們可以通過基于節(jié)點相電壓的聚類分析來確定故障位置。
通過BPA程序,可以得到五個時刻T-1、T0(故障)、T1、T2和T3的節(jié)點負序電壓,圖表2所示。
表2 節(jié)點負序電壓
整個聚類分析過程仍然按照相似性原則進行,從高到低(從近到遠)的相似原則,順序是:
步驟1:總線A與總線2結合并形成新的總線2;
步驟2:總線3與總線2結合并形成新的總線2;
步驟3:總線C與總線B結合并形成新的總線B;
步驟4:總線2與支路1結合并形成新的支路1;
步驟5:支路3與支路2結合并形成新的支路2;
步驟6:支路2與支路1結合并形成新的支路1;
步驟7:總線B與總線1結合并形成新的總線1;
步驟8:總線1與支路1結合并形成新的支路1。
圖4 基于負序電壓聚類分析樹狀圖
從整個聚類過程分析中,總線1與其他節(jié)點的相似性最低(與其他節(jié)點的距離最遠)。圖4顯示了基于節(jié)點負序電壓的聚類分析,總線1和其他總線的差異更明顯。因此,利用基于節(jié)點負序電壓的聚類分析也能有效地識別出故障點。
這些實例充分證明了大數(shù)據(jù)挖掘理論可以對故障部分進行分析。
在電力系統(tǒng)的控制中,特別是在電力系統(tǒng)的廣域后備保護中,保護裝置的準確、快速、可靠性能的前提是相應的故障類型和故障位置可以快速識別并準確定義。在本研究中,全局信息已經被引入到后備保護系統(tǒng)中?;诖髷?shù)據(jù)挖掘理論,主要利用聚類分析技術來尋找電量的顯著變化特征。然后,對故障部件和故障部分進行快速準確的識別,最后完成故障分析。本文的主要技術貢獻和創(chuàng)新在于將全局信息引入到電氣工程中,為電氣工程的故障分析開發(fā)新的應用。
大數(shù)據(jù)挖掘被定義為從大型數(shù)據(jù)庫中自動提取有效、新穎、潛在有用且全面的信息挖掘過程。它在學術和應用科學研究中得到了廣泛的應用,在這些研究中,數(shù)據(jù)集是通過實驗產生的。大數(shù)據(jù)挖掘理論的最重要特征是其跨學科性和普遍性。大數(shù)據(jù)挖掘在很大程度上與機器學習有關,在機器學習中,科學家開發(fā)算法和技術來發(fā)現(xiàn)和描述數(shù)據(jù)中的潛在規(guī)律。因此,大數(shù)據(jù)挖掘為信息處理、模式識別和人工智能等許多領域提供了有用的技術。
參考文獻
[1]王元卓,賈巖濤,劉大偉,等.基于開放網(wǎng)絡知識的信息檢索與數(shù)據(jù)挖掘[J].計算機研究與發(fā)展,2015,52(02):456-474.
[2]李濤,曾春秋,周武柏,等.大數(shù)據(jù)時代的數(shù)據(jù)挖掘——從應用的角度看大數(shù)據(jù)挖掘[J].大數(shù)據(jù),2015,1(04):57-80.
[3]趙建華.半監(jiān)督學習在網(wǎng)絡入侵分類中的應用研究[J].計算機應用研究,2014,31(06):1874-1876.
[4]馬昱欣,曹震東,陳為.可視化驅動的交互式數(shù)據(jù)挖掘方法綜述[J].計算機輔助設計與圖形學學報,2016,28(01):1-8.
[5]梁吉業(yè),錢宇華,李德玉,等.大數(shù)據(jù)挖掘的粒計算理論與方法[J].中國科學:信息科學,2015,45(11):1355-1369.
[6]吉根林,趙斌.面向大數(shù)據(jù)的時空數(shù)據(jù)挖掘綜述[J].南京師大學報(自然科學版),2014,37(01):1-7.
[7]何清,莊福振,曾立,等,譚慶.PDMiner:基于云計算的并行分布式數(shù)據(jù)挖掘工具平臺[J].中國科學:信息科學,2014,44(07):871-885.
[8]賀瑤,王文慶,薛飛.基于云計算的海量數(shù)據(jù)挖掘研究[J].計算機技術與發(fā)展,2013,23(02):69-72.
[9]許侃,范春菊.不同電壓等級部分耦合線路的單回線故障分析[J].電力系統(tǒng)自動化,2015,39(12):81-87.
[10]陳新.數(shù)據(jù)挖掘分類方法中的決策樹算法探究[J].電腦知識與技術,2013,9(35):7904-7905,7910.
[11]鄧曦輝.軟件工程領域中的異常數(shù)據(jù)挖掘算法[J].電子技術與軟件工程,2016(24):188.
[12]王競哲.基于聚類分析的數(shù)據(jù)挖掘算法研究[J].信息化建設,2016(06):36.
[13]李昀昊,王建學,王秀麗.基于混合聚類分析的電力系統(tǒng)網(wǎng)損評估方法[J].電力系統(tǒng)自動化,2016,40(01):60-65.
[14]Li Junguo,Zeng Yanan,Wang,Jianqiang.Simulation of Flow Field of Oxygen Lance Gas Jet Utilized for 50 t Con?verter[J].Journal of Iron and Steel Research(Interna?tional),2011,18(04):11-18.
[15]Gen Chao,Liu Jie,Xi Kai,et al.Monte Carlo evaluation of spatial multiple-bit upset sensitivity to oblique inci?dence[J].Chinese Physics B,2013,22(05):661-668.