韋古強杜冠洲凌俊斌
(1.都城偉業(yè)集團有限公司,北京 100020;2.國網(wǎng)江蘇省電力公司經(jīng)濟技術研究院,江蘇 南京 210008)
基于隨機森林算法的風電機組故障智能診斷預警模型
韋古強1杜冠洲1凌俊斌2
(1.都城偉業(yè)集團有限公司,北京 100020;2.國網(wǎng)江蘇省電力公司經(jīng)濟技術研究院,江蘇 南京 210008)
文章針對清潔能源企業(yè)中風電機組頻發(fā)問題,在行業(yè)內(nèi)風電機組常見故障以及故障診斷技術進行分析的基礎上,對某集團風電機組企業(yè)進行實地調(diào)研,獲取影響故障發(fā)生的關鍵因素,構建故障識別指標體系,采用隨機森林算法構建了風電機組故障智能診斷預警模型。
隨機森林算法;風電機組;故障診斷;預警模型;故障識別指標體系
風力發(fā)電作為新能源產(chǎn)業(yè)技術之一,其不污染環(huán)境、不消耗化石燃料的特點,在當今世界大力發(fā)展保護環(huán)境和走可持續(xù)發(fā)展道路的強大背景之下,已得到社會各方面的全面認可,在過去的幾年里,風力發(fā)電年增長率都保持穩(wěn)定上升的勢頭,已然成為世界公認的增長最快的可再生能源。在我國,大部分風力發(fā)電機組主要安裝在西部偏遠、沿海等風能充足地區(qū),由于自然環(huán)境和負荷不穩(wěn)定等因素,使得風電機組運行故障頻出,而機組故障會直接影響風力發(fā)電的安全性和經(jīng)濟性。為了實現(xiàn)風力發(fā)電的長期穩(wěn)定發(fā)展和提高自身的能源競爭力,就必須實現(xiàn)對風力發(fā)電機組故障的提早預判和快速診斷,提高發(fā)機組效率,實現(xiàn)企業(yè)的經(jīng)濟利益最大化。
在風電機組故障診斷過程中,想要通過診斷分析達到預定的目標,還必須對風電機組的設備故障診斷方法有所了解。風電機組故障診斷方法大體可以分為傳統(tǒng)診斷方法、數(shù)學診斷方法和智能故障診斷方法等。所謂的傳統(tǒng)診斷方法是指在狀態(tài)監(jiān)測技術之上,對其數(shù)據(jù)進行分析,結合數(shù)據(jù)挖掘方法對風電機組設備故障進行診斷;數(shù)學診斷方法主要是采用一些數(shù)據(jù)理論基于數(shù)學公式,數(shù)學模型對機組故障進行診斷,主要包括故障樹分析、小波分析、模糊診斷、灰色系統(tǒng)診斷以及分形幾何與混沌分析等;智能診斷方法主要是基于數(shù)據(jù)挖掘的算法,通過算法建立模型實現(xiàn)對風電機組的故障診斷,主要的算法包括神經(jīng)網(wǎng)絡、隨機森林、遺傳算法、蟻群算法、粒子群算法等。而本文就使用智能故障診斷方法中的隨機森林算法實現(xiàn)對風電機組的故障智能診斷。
通過對風電機組常見故障進行分析,可以得知風電機組故障來源是多方面的,每個部件的性能都直接影響風電機組的正常運行,另外,各部件運行參數(shù)的采集技術也是受多種因素影響的。通過實際調(diào)研,我們選取了影響風電機組故障發(fā)生的14個關鍵因素,涉及風電機組的風輪、齒輪箱、發(fā)電機、電氣系統(tǒng)、變槳系統(tǒng)等各個部件。具體如表1所示:
表1 風電機組故障評價指標
3.1 模型概述
隨機森林(RF)是一種分類性能良好的組合分類算法,它以決策樹回歸樹作為基分類器,通過裝袋(Bagging)的方法生成不同的訓練樣本集。在決策樹的構建過程中,采用隨機的方法劃分節(jié)點樣本集。隨機森林(RF)可以看作是樹分類器的集合,其中x是輸入向量,是服從獨立、同分布的隨機向量。關于分類問題,隨機森林的輸出為簡單多數(shù)投票方法的結果;關于回歸問題,隨機森林的輸出為決策樹輸出結果的簡單平均。隨機森林算法的具體實現(xiàn)步驟如下:
首先,通過裝袋(Bagging)的方法生成k個不同的訓練樣本集。當樣本數(shù)據(jù)容量很大時,全樣本數(shù)據(jù)中有接近37%的樣本未被抽中,這些樣本數(shù)據(jù)被稱之為袋外數(shù)據(jù)(Out Of Bag,OOB),袋外數(shù)據(jù)用來評價隨機森林算法的性能。
其次,每個訓練樣本集構建一棵分類決策樹,k個訓練樣本集產(chǎn)生了k個分類決策樹。設樣本的特征數(shù)為M,在每棵樹的劃分節(jié)點上,從M個特征變量中隨機地選取m(m<M)個特征變量,然后從m個特征變量中選出一個最優(yōu)的特征變量,依此作為分類決策樹節(jié)點分裂時的內(nèi)部節(jié)點。每棵決策樹的生長都不進行剪枝。
最后,基于構建好的多個分類決策樹,對新的未知樣本進行預測,依據(jù)每個樹分類器投票結果的簡單多數(shù)投票法來決定未知樣本的分類結果。
信息熵與信息增益:
信息熵:表示了信息的不確定性(混亂程度),熵越大,信息越混亂,越難預測,則該指標提供的信息量越小,該指標的權重越小,越不重要。對分類系統(tǒng)來說,類別C是變量,它可能的取值是,而每一個類別出現(xiàn)的概率是,因此n就是類別的總數(shù)。此時分類系統(tǒng)的熵就可以表示為:
信息增益是針對一個一個的特征而言的,就是看一個特征t,系統(tǒng)有它和沒它的時候信息量各是多少,兩者的差值就是這個特征給系統(tǒng)帶來的信息量,即增益。系統(tǒng)含有特征t的時候信息量很好計算,就是剛才的式子,它表示的是包含所有特征時系統(tǒng)的信息量。
在分類系統(tǒng)中,屬性的選擇以及決策樹的分裂根據(jù)信息增益來進行選擇,針對根節(jié)點以及子節(jié)點選擇信息增益最大的屬性變量,然后采用遞歸的方法構建整個決策樹和隨機森林。針對風電機組故障診斷問題,結合上節(jié)監(jiān)測數(shù)據(jù)指標,構建基于隨機森林算法的風電機組故障智能診斷預警模型。其構建流程如圖1所示:
圖1 建模流程
3.2 實例分析
為了驗證算法的有效性和準確性,本文選取了風電機組故障數(shù)據(jù),使用RStudio軟件進行診斷應用分析,依據(jù)前文構建的指標體系,樣本輸入屬性為13個,風電機組是否正常運行作為輸出屬性,然后對數(shù)據(jù)進行分析處理及模型求解。相關參數(shù)設置為:隨即森林算法選取500棵樹,訓練樣本和測試樣本占比為(0.8,0.2),節(jié)點隨機分裂特征數(shù)量設置為5,通過分析,模型結果如下:
表2 模型輸出結果
圖2 隨機森林OOB錯判率和決策樹棵數(shù)
從表2可以看出,針對風電機組是否正常運行,包外數(shù)據(jù)誤差率OOB為2.7%,說明模型的整體分類效果非常理想。隨機森林錯判率隨著決策樹棵數(shù)的增加不斷的減小,最終收斂為一個較小的定值。模型診斷結果分析:
表3 數(shù)據(jù)診斷結果
通過對測試集的8條數(shù)據(jù)進行診斷分析,預測全部正確,說明模型的診斷效果比較理想。可以得知:根據(jù)測試結果,第1、4、6、8個風電機組正常運行,第2、3、5、7個風電機組發(fā)出預警信息,并且應該馬上啟動相應的預案措施,防止發(fā)生更大的安全事故及經(jīng)濟損失。為了提高模型的性能,在實際應用中,應該盡可能收集風電機組更多的歷史故障和正常數(shù)據(jù),使得模型盡可能覆蓋所有情況的特征,并且可以定期一個月對模型訓練一次,及時更新模型,不斷提高模型的準確性。
本文針對新能源風電機組故障頻發(fā)問題進行分析,構建了風電機組故障智能診斷預警模型,采用隨機森林算法對風電機組歷史數(shù)據(jù)進行訓練學習,挖掘出影響風電機組故障發(fā)生的各因素的特征模式,確定出發(fā)生故障各指標的閾值,根據(jù)設備實時運行對風電機組進行在線故障診斷預警,為風電機組故障的監(jiān)測起到一定的技術支撐,從而有效地降低風電機組維修成本,提高風電機組的利用效率。
[1]龍泉,劉永前,楊勇平.狀態(tài)監(jiān)測與故障診斷在風電機組上的應用[J].現(xiàn)代電力,2008,25(6).
[2]程洪機,呂振.設備狀態(tài)監(jiān)測與故障診斷技術的基本原理與方法[J].山東建材,2000,(4).
[3]楊偉,賈石峰.基于RBF神經(jīng)網(wǎng)絡的風力發(fā)電機組故障診斷研究[J].電氣傳動自動化,2009,31(2).
[4]李永東.中國風力發(fā)電的發(fā)展現(xiàn)狀和前景[J].電氣時代,2006,(3).
[5]陳建華,李華,蔣錦峰.電力市場條件下發(fā)電設備可靠性與經(jīng)濟性關系探討[J].中國電力,2001,34(7).
(責任編輯:小 燕)
TH862
1009-2374(2017)07-0197-02
10.13535/j.cnki.11-4406/n.2017.07.093
韋古強(1986-),男,都城偉業(yè)集團有限公司副主管,高級工程師,碩士,研究方向:房地產(chǎn)、公共建筑。
A