王爽+趙會洋
摘 要:發(fā)電站正常高效運行對保障社會發(fā)展和人民生活極其重要。電站運行中產(chǎn)生大量的故障記錄數(shù)據(jù),將數(shù)據(jù)挖掘技術(shù)應(yīng)用于電站設(shè)備故障的大數(shù)據(jù)分析,發(fā)現(xiàn)隱藏在數(shù)據(jù)中的有用信息,有助于電站管理工作改革和設(shè)備管理技術(shù)創(chuàng)新。根據(jù)某發(fā)電集團(tuán)設(shè)備故障統(tǒng)計報告,制定了相應(yīng)的數(shù)據(jù)分析方案,研究了文本挖掘、關(guān)聯(lián)分析、聚類分析等多種數(shù)據(jù)挖掘方法的關(guān)鍵技術(shù),詳述了這些技術(shù)在電站故障分析中的應(yīng)用方法及效果。
關(guān)鍵詞:電站設(shè)備故障;數(shù)據(jù)挖掘;文本挖掘;關(guān)聯(lián)規(guī)則;聚類
DOIDOI:10.11907/rjdk.162187
中圖分類號:TP319
文獻(xiàn)標(biāo)識碼:A文章編號:1672-7800(2016)012-0121-03
0 引言
電力大數(shù)據(jù)的信息挖掘和利用將給電力企業(yè)帶來新一輪商業(yè)模式轉(zhuǎn)變和價值創(chuàng)新。文獻(xiàn)[1]~[8]研究了數(shù)據(jù)挖掘技術(shù)在火電廠設(shè)備故障診斷、狀態(tài)預(yù)測方面的應(yīng)用;文獻(xiàn)[9]~[11]研究了數(shù)據(jù)挖掘技術(shù)在核電廠中的應(yīng)用,主要用于異常值檢測和抗震性推斷等;文獻(xiàn)[12]~[13]研究了數(shù)據(jù)挖掘技術(shù)在風(fēng)力發(fā)電廠中的應(yīng)用,主要用于風(fēng)力、風(fēng)速的預(yù)測;文獻(xiàn)[14]~[15]研究了數(shù)據(jù)挖掘技術(shù)在水電站和太陽能發(fā)電中的應(yīng)用。這些研究的開展多基于電站設(shè)備運行的實時數(shù)據(jù),雖然研究成果在一定程度上促進(jìn)了電站的健康高效運行和科學(xué)管理,但研究范圍不全面。本文將基于大量的設(shè)備故障歷史統(tǒng)計數(shù)據(jù),運用文本挖掘、關(guān)聯(lián)規(guī)則、聚類等多種數(shù)據(jù)挖掘技術(shù)展開研究,發(fā)現(xiàn)其中隱藏的有用信息,為電站的運行管理提供決策支持。
1 數(shù)據(jù)分析方案設(shè)計與數(shù)據(jù)預(yù)處理
研究所用數(shù)據(jù)來自某大型發(fā)電集團(tuán)2008-2014年設(shè)備運行故障月度報告。報告有word和pdf兩種格式,每份報告主要內(nèi)容有設(shè)備運行故障統(tǒng)計概況、具體案例描述等。案例描述提供了設(shè)備故障發(fā)生的時間、地點、原因等信息,信息的數(shù)據(jù)類型有日期、數(shù)字、文本等。根據(jù)數(shù)據(jù)源的這些特點,制定了如圖1所示的數(shù)據(jù)分析方案。
在數(shù)據(jù)預(yù)處理環(huán)節(jié),首先要將各種數(shù)據(jù)源中的有用信息提取出來。數(shù)據(jù)提取的原則是便于分析且盡可能少地丟失信息,最終將數(shù)據(jù)整理成兩張Excel表,分別是設(shè)備運行故障總表和設(shè)備運行故障明細(xì)表,它們的結(jié)構(gòu)和樣本數(shù)據(jù)示例如表1和表2所示。由于數(shù)據(jù)條目較多,在此僅列出每張表的少數(shù)幾條數(shù)據(jù)。對于文字內(nèi)容描述較多的字段,僅列出一條較為完整的數(shù)據(jù)來說明問題,其它條目內(nèi)容用“略”來代替。表1中的類別1到類別4從粗到細(xì)分別描述了設(shè)備故障類別,每條樣本數(shù)據(jù)展現(xiàn)不同類別的故障在特定時間所發(fā)生的項數(shù)和具體原因描述。表2較為詳細(xì)地描述了每臺設(shè)備故障發(fā)生的時間、單位、省份、機(jī)組號、機(jī)組容量、類別、事件描述、原因分析和處理情況。
缺失值處理和數(shù)據(jù)類型處理是數(shù)據(jù)預(yù)處理環(huán)節(jié)中另外兩個重要工作。缺失值處理方法有刪除含有缺失值的個案和可能值插補缺失值。可能值插補缺失值方法有:均值插補、極大似然估計、多重插補等。根據(jù)具體分析任務(wù),由分析目的選擇缺失值處理方法。以表1為例,當(dāng)分析文字型數(shù)據(jù)時,由于缺失量較少,采取了刪除含有缺失值個案的方法;當(dāng)分析故障項數(shù)時,采取了同類別均值插補方法。數(shù)據(jù)類型處理就是根據(jù)數(shù)據(jù)的特征和分析目的確定數(shù)據(jù)字段類型。以表1為例,時間為日期型,類別1~4為因子型,故障項數(shù)為數(shù)字型,故障描述為字符型。完成數(shù)據(jù)預(yù)處理環(huán)節(jié)后,利用多種數(shù)據(jù)挖掘方法對數(shù)據(jù)進(jìn)行隱藏信息挖掘。
2 文本挖掘研究與應(yīng)用
文本挖掘中最重要的工作就是分詞,分詞算法采用中國科學(xué)院計算技術(shù)研究所的中文分詞算法ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)。ICTCLAS基于隱馬爾可夫模型HMM(Hidden Markov Model)實現(xiàn),HMM定義如下:
一個隱馬爾科夫模型是一個三元組(∏,A,B)。其中,∏是初始狀態(tài)的概率分布,∏=(πi),πi表示在t=1時刻,狀態(tài)為si的概率;
A為狀態(tài)轉(zhuǎn)移矩陣,A=(aij),aij=P(qt+1=sj|qt=si),表示在t時刻、狀態(tài)為si的條件下,在t+1時刻狀態(tài)是sj的概率;
B為混淆矩陣,B=(bjk),bjk=P(ok|sj),表示在隱含狀態(tài)是sj條件下,觀察狀態(tài)為ok的概率。
將文本挖掘技術(shù)應(yīng)用于電站故障數(shù)據(jù)挖掘步驟如下:①詞典調(diào)整。分詞的依據(jù)是詞典,通常詞典中只包含常用詞匯,因此,在對諸如電力專業(yè)領(lǐng)域數(shù)據(jù)進(jìn)行文本分析時,需要根據(jù)分析要求加入一定量的專業(yè)詞匯;②分詞。利用ICTCLAS分詞算法對文本字段進(jìn)行分詞;③詞性過濾。為了突出故障原因,需要去掉一些無關(guān)的詞,例如形容詞、數(shù)量詞、副詞等;④構(gòu)建語料庫并處理。構(gòu)建語料庫后就可以進(jìn)一步處理,例如去除停用詞、標(biāo)點符號、數(shù)字、空格等;⑤構(gòu)建詞條文檔矩陣(Term-Document Matrix,TDM)并處理。TDM中列出了每個詞條在文檔中出現(xiàn)的頻次,可以去除頻次較低的詞條項,或進(jìn)行其它與頻次有關(guān)的處理;⑥畫文本特征詞云。通過畫文本特征詞云直觀地展示文本挖掘結(jié)果。通過詞云展示,可以從大數(shù)據(jù)中發(fā)現(xiàn)熱點問題。
通過對表1中停機(jī)故障的描述字段進(jìn)行文本挖掘,得到如圖2所示結(jié)果。通過圖2的分析結(jié)果可以看出,停機(jī)異常多是由鍋爐故障引起的,較為重要的原因是液體泄漏和電氣設(shè)備跳閘。通過對表1中停機(jī)和降出力兩類故障的描述字段對比分析,得到如圖3所示結(jié)果。通過對圖3的分析可以看出,停機(jī)異常的主要原因是鍋爐和汽機(jī)的液體泄漏及電氣保護(hù),而降出力異常多是由風(fēng)機(jī)和煤質(zhì)差引起的。
3 關(guān)聯(lián)規(guī)則分析與應(yīng)用
關(guān)聯(lián)規(guī)則是描述數(shù)據(jù)庫中數(shù)據(jù)項之間所存在關(guān)系的規(guī)則,即根據(jù)一個事務(wù)中某些項的出現(xiàn)可導(dǎo)出另一些項在同一事務(wù)中也出現(xiàn),亦即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。關(guān)聯(lián)規(guī)則廣泛應(yīng)用于金融、電子商務(wù)等行業(yè)。金融行業(yè)可以通過關(guān)聯(lián)規(guī)則挖掘出很多與客戶有關(guān)的關(guān)聯(lián)關(guān)系,從而為制定營銷策略提供依據(jù)。電子購物網(wǎng)站使用關(guān)聯(lián)規(guī)則挖掘,可設(shè)置商品促銷組合、進(jìn)行商品推薦、定向投放廣告等。
關(guān)聯(lián)規(guī)則的代表算法有Apriori、FP-tree等。本文利用Apriori方法,對表1中的不同類別關(guān)系進(jìn)行關(guān)聯(lián)分析,分析結(jié)果如圖4所示。由分析得到:運行設(shè)備故障導(dǎo)致停機(jī)故障,停機(jī)原因主要是鍋爐問題。
4 聚類分析研究與應(yīng)用
聚類分析是利用科學(xué)的度量方法,將一組數(shù)據(jù)按照相似性和差異性分為幾個類別,目的是使屬于同一類別的數(shù)據(jù)相似性盡可能大,不同類別數(shù)據(jù)間的相似性盡可能小。聚類分析應(yīng)用于許多領(lǐng)域,如商務(wù)智能、圖像模式識別、Web搜索和生物學(xué)等。將聚類分析方法應(yīng)用于電站的故障數(shù)據(jù)分析分類及分析結(jié)果如下:
(1)按設(shè)備故障的宏觀類型對省份進(jìn)行聚類。使用的數(shù)據(jù)字段有表2中的故障類別(停機(jī)、降出力、檢修)、省份兩個字段。根據(jù)分析結(jié)果,電力集團(tuán)可發(fā)現(xiàn)各省份子公司設(shè)備故障存在相似之處,并據(jù)此制定分類管理政策。實行分類管理,可以節(jié)約人力、物力、財力等資源。
(2)按設(shè)備故障的宏觀類型對單位進(jìn)行聚類。使用的數(shù)據(jù)字段有表2中的故障類別(停機(jī)、降出力、檢修)、單位兩個字段。如果兩個發(fā)電公司在故障類別上表現(xiàn)出較大的相似性,聚類算法會將它們聚為一類,電力集團(tuán)可根據(jù)故障類別實現(xiàn)更細(xì)粒度的管理。
(3)按故障設(shè)備的容量對省份或單位進(jìn)行聚類。使用的數(shù)據(jù)字段有表2中的容量、單位兩個字段。由于相同容量的發(fā)電設(shè)備在實現(xiàn)技術(shù)、制造單位方面可能存在相似之處,電力集團(tuán)也可以通過這個分析結(jié)果對企業(yè)進(jìn)行分類管理。
根據(jù)上述方法(1),使用Centroid聚類算法對數(shù)據(jù)進(jìn)行聚類,得到如圖5所示的分析結(jié)果。由圖5可知,聚類結(jié)果分為7類。其中,內(nèi)蒙古、黑龍江、山東、四川構(gòu)成一類,湖北、陜西、云南、貴州、遼寧4個省份的故障發(fā)生情況具有較大相似性分為一類,江蘇、山西、寧夏、河北、河南、福建、新疆分為一類,安徽、青海等省份分為一類。
5 結(jié)語
數(shù)據(jù)挖掘技術(shù)已經(jīng)用于電力系統(tǒng)分析并取得了一定的研究成果。在大數(shù)據(jù)背景下,其應(yīng)用將更加廣泛和深入。本文從新的數(shù)據(jù)視角對電站設(shè)備故障進(jìn)行分析,研究了文本挖掘、關(guān)聯(lián)規(guī)則、聚類等數(shù)據(jù)挖掘技術(shù)在電站設(shè)備故障分析中的應(yīng)用,研究結(jié)論對電力企業(yè)管理決策制定和設(shè)備故障技術(shù)創(chuàng)新都有一定幫助。下一步將重點進(jìn)行以下研究工作:①針對數(shù)據(jù)進(jìn)行更加深入細(xì)致的剖析,發(fā)現(xiàn)其中更多的隱藏信息;②引入更豐富的數(shù)據(jù)挖掘技術(shù)應(yīng)用于電力數(shù)據(jù)分析中。
參考文獻(xiàn):
[1] 劉寶玲,何鈞,曾暄.嵌套式數(shù)據(jù)挖掘技術(shù)在電站工況分析中的應(yīng)用[J].電站系統(tǒng)工程,2014(5):13-15.
[2] 邱鳳翔,司風(fēng)琪,徐治皋.電站關(guān)聯(lián)規(guī)則的主元分析挖掘方法及傳感器故障檢測[J].中國電機(jī)工程學(xué)報,2009(5):97-102.
[3] 牛培峰,張澤,王懷寶.基于模糊聚類神經(jīng)網(wǎng)絡(luò)的電站鍋爐故障診斷研究[J].微計算機(jī)信息,2010(7):40-42.
[4] ZHENG L K,F(xiàn)ENG K,XIAO X Q,et al.Early warning of power plant equipment based on massive real-time data mining technology[J].ICFMM,2014(6):1487-1490.
[5] BAO A,PAN W G,WANG W H,et al.Advances in data mining and applications in power plants[J].ICEESD,2011(10):347-487.
[6] JIN T,F(xiàn)U Z G.Application of data mining in power plant unburned carbon in fly ash modeling[J].FSKD,2010(8):2761-2765.
[7] YANG P.Fault diagnosis system for boilers in thermal power plant by data mining[J].Journal of Information and Computational Science,2006(3):117-127.
[8] ZENG D L,YANG T T,CHENG X,et al.Application of data mining method in real-time optimal load dispatching of power plant[J].Zhongguo Dianji Gongcheng Xuebao,2010,30(4):109-114.
[9] LIU D P,ZHENG K T,YAN Q Q,et al.Application of data stream outlier mining techniques in steam generator safety early warning system of nuclear power plant[J].ICMTMA,2013(1):287-290.
[10] MU Y,XIA H,LIU Y K.Study on fault diagnosis technology for nuclear power plants based on time series data mining[J].Hedongli Gongcheng,2011,32(5):45-48.
[11] SHU Y F.Inference of power plant quake-proof information based on interactive data mining approach[J].Advanced Engineering Informatics,2007,21(3):257-267.
[12] OZKAN M B,KK D,TERCIYANLI F,et al.A data mining-based wind power forecasting method:results for wind power plants in Turkey[J].DaWaK,2013(8):268-276.
[13] COLAK I,SAGIROGLU S,DEMIRTAS M,et al.A data mining approach:analyzing wind speed and insolation period data in Turkey for installations of wind and solar power plants[J].Energy Conversion and Management,2013,65(1):185-197.
[14] OHANA I,BEZERRA U H,VIEIRA J P A.Data-mining experiments on a hydroelectric power plant[J].IET Generation,Transmission and Distribution,2012,6(5):395-403.
[15] MACIEJEWSKI H,VALENZUELA L,BERENGUEL M,et al.Analyzing solar power plant performance through data mining[J].Journal of Solar Energy Engineering,2008,130(4):0445031-0445033.
(責(zé)任編輯:杜能鋼)