李晉 錢旭 劉珠峰 范旭峰(.中國礦業(yè)大學(北京)機電與信息工程學院,北京市海淀區(qū),0008; .中國電信江蘇分公司,江蘇省南京市,0000; .天地(常州)自動化股份有限公司,江蘇省常州市,05)
?
基于決策樹優(yōu)化粗糙集的設備故障診斷指標集約簡的方法研究?
李晉1錢旭1劉珠峰2范旭峰3
(1.中國礦業(yè)大學(北京)機電與信息工程學院,北京市海淀區(qū),100083; 2.中國電信江蘇分公司,江蘇省南京市,210000; 3.天地(常州)自動化股份有限公司,江蘇省常州市,213015)
摘 要特征指標集的約簡對于機電設備運行狀態(tài)準確可靠的監(jiān)測是非常重要的,為此設計了一種基于粗糙集的屬性約簡方法。該方法首先將時域及頻域信號特征作為條件屬性,故障類型作為決策屬性,建立故障決策表。利用決策樹不純度的減少量對決策表中的連續(xù)屬性數(shù)據(jù)進行離散化處理,然后采用粗糙集對離散化后的決策表進行約簡,約簡后的故障規(guī)則決策表可以使設備的故障診斷變得更為簡單有效。最后分別采用實驗室軸承數(shù)據(jù)和礦用帶式輸送機軸承數(shù)據(jù)設計試驗進行驗證,試驗結果表明,在保證設備狀態(tài)監(jiān)測結果可靠的情況下,該方法能夠有效地對屬性指標集進行約簡,降低工作計算量和減少不確定因素的影響。
關鍵詞屬性約簡 決策樹 粗糙集 指標集
滾動軸承作為旋轉機械中最常用的支承部件,盡管結構較為簡單,卻是旋轉機械中最重要的零件,在很大程度上能夠影響到整體設備的性能。據(jù)不完全統(tǒng)計,由滾動軸承引起的旋轉機械故障約有30%。從設備狀態(tài)監(jiān)測的早期階段,滾動軸承就被作為主要的研究對象,針對設備多樣的失效方式,也出現(xiàn)了多種狀態(tài)監(jiān)測與故障診斷方法?;谡駝?、溫度及噪聲的故障診斷技術的靈敏度比較如圖1所示。
圖1 基于振動、溫度及噪聲的故障診斷技術的靈敏度比較
由圖1可以看出,基于振動分析的故障診斷方法對于設備部件早期故障的診斷較為敏感,故本文選取軸承的振動信號建立指標體系。由于指標集往往存在冗余和重疊的指標,對于軸承運行狀態(tài)的判斷存在一定干擾且增加了計算復雜度,因此迫切需要一種能夠在保持指標集分類能力不變的條件下,刪除掉重要性較低或是不相關的指標,建立簡單和可靠的指標體系的方法。
本文選取軸承的振動信息建立指標集,以粗糙集的屬性分類質量作為指標集約簡條件,利用基于不純度減少量的決策樹方法對連續(xù)數(shù)值的樣本進行離散化處理。試驗結果表明,約簡后指標集的分類能力優(yōu)于未約簡的指標集,提升了系統(tǒng)的整體性能。
選取軸承振動信號作為研究對象,從不同空間以及不同域對其運行狀態(tài)進行全面的刻畫和描述。通過對時域和頻域的分析,依據(jù)振動信號的統(tǒng)計特征參數(shù)建立指標集,包括均值、方根幅值、傾斜度、峭度、峰峰值、波形指標、峰值指標和峭度指標這8個時域特征指標,以及均值頻率、標準差、特征3、特征4、頻率中心和均方根頻率這6個頻域特征指標。時域信號特征主要反映了時域信號的振幅、能量大小及其隨時間分布情況,頻域信號特征主要反映了頻域信號能量的大小、主頻帶位置的變化和頻譜的分散或者集中程度。
粗糙集理論是建立在分類機制的基礎上的,主要用于發(fā)現(xiàn)不確定的數(shù)據(jù)或是噪聲數(shù)據(jù)之間的聯(lián)系,是數(shù)據(jù)挖掘中的一項重要結論。粗糙集理論的主要思想是利用已知的知識庫,將不精確或不確定的知識用已知知識庫中的知識來刻畫,并通過引入核知識等概念與方法,對現(xiàn)有的知識進行簡化提煉,去除冗余信息,這些精煉的知識便于存儲和使用。近年來,粗糙集理論已成為一個新的學術熱點,在知識獲取、知識發(fā)現(xiàn)以及決策分析等領域得到了較為廣泛的研究與應用。
3.1粗糙集理論的相關定義
3.1.1知識表達與決策系統(tǒng)
知識表達系統(tǒng)可以表示為一個四元組,即S=(U,R,V,F),其中,U={x1,x2,…,xn}為對象的非空有限集合,稱為論域,它是全體樣本的集合;R=C∪D為屬性的非空有限集合,其中子集C為條件屬性集,反映對象的特征,D為決策屬性集,反映對象的類別;V為屬性值的集合; F:U×R->V是一個信息函數(shù),用于確定U中每一個對象X的屬性值。
3.1.2不可分辨關系
在粗糙集中,論域U中的對象可用多種信息來描述,當兩個不同的對象由相同的屬性來描述時,這兩個對象在該系統(tǒng)中就可被歸為同一類。它們之間的關系稱之為不可分辨關系。
即對于任一屬性子集P?R定義P的不可區(qū)分關系Ind(p)見式(1):
式中:a——屬性子集P的數(shù)值。
如果(x,y)∈P,則稱x,y是P不可分的,不可分辨關系實際上是一種等價關系。
3.1.3上、下近似集
(1)上近似集是指根據(jù)現(xiàn)有知識R,判斷U中一定屬于和可能屬于集合X的對象所組成的集合,見式(2),[x]R表示包含元素x∈U的R等價類,即表示與記錄x具有等價關系R的記錄歸為一類:
式中:[x]R——等價關系R下所包含元素x的等價類。
(2)下近似集是指根據(jù)現(xiàn)有知識R,判斷U中肯定屬于集合X的對象所組成的集合,見式(3):
3.1.4知識的依賴性
給定知識表達系統(tǒng)S=(U,R,V,F),P ?R。當k=γp、(Q)=|Posp(Q)|/|U| 時,稱知識Q是k度依賴于知識P的,式中Posp(Q)表示相對與R的正區(qū)域。
3.2基于決策樹的連續(xù)樣本特征離散化處理
粗糙集只能處理離散化的數(shù)據(jù),而用于設備狀態(tài)監(jiān)測系統(tǒng)的特征信號數(shù)據(jù)實際上是連續(xù)的。因此,首先要對原始特征數(shù)據(jù)進行離散化處理。離散化處理的原則是屬性離散化空間維數(shù)盡可能少,屬性值被離散化后保留的信息應盡可能的多。已有用于連續(xù)屬性離散化的方法主要有經(jīng)驗分割法、等距分割法、等頻分割法、Na?veScaler算法、Semi Na?veScaler算法、布爾邏輯和RST相結合的離散化算法、SOM網(wǎng)格法和GA法等。
決策樹作為一種結構簡單、搜索效率較高的分類器,可以從一組無規(guī)則、無次序的事例中推理出決策樹表示形式的分類規(guī)則。決策樹分類方法基于自上而下的遞歸方式,在決策樹的內(nèi)部節(jié)點進行數(shù)據(jù)值的比較,根據(jù)屬性值的差異判斷從該點向下的分類原則,在決策樹的葉子節(jié)點得到結論。本文選用決策樹方法對連續(xù)屬性進行離散,設計算法如下:
(1)依據(jù)屬性重要性對各屬性從大到小進行排序,得到屬性序列ck={c1、c2……cn},其中k代表第k個屬性,n為屬性數(shù)目;
(2)對ck每個屬性中的屬性值依據(jù)數(shù)值大小進行排序;
(3)選擇重要性最低的屬性采用基于決策樹的方法進行離散,計算每一次分裂后節(jié)點的不純度,定義見式(4):
繼續(xù)節(jié)點t進行分裂,得到節(jié)點tl和tr,計算節(jié)點的不純度減少量△I(t) ,當△I(t)小于一定閾值時停止分裂,并設定當前值為離散的數(shù)值節(jié)點,且k=n-1,定義見式(5):
(4)選擇對第k個屬性的屬性值進行離散化處理,每一次分裂結果都查看屬性決策表是否引入新的沖突,如果否保留當前分裂結果;否則,返回上一次分裂結果,并設定離散節(jié)點,且k=k-1;
(5)重復步驟(4),直到k=0時停止。
3.3屬性約簡
知識約簡是粗糙集理論研究的核心內(nèi)容之一,知識庫中的屬性并非同等重要,其中某些知識可能是冗余的。知識約簡就是在保證知識庫分類能力不變的前提下,刪除其中不相關或不重要的知識。這就啟示我們要考慮條件屬性和決策屬性之間的條件熵信息。因此可以認為,在決策表中添加某個屬性引起的條件信息熵變化的大小可以反映該屬性的重要程度。本文基于CEBARKCC算法進行屬性約簡,屬性約簡算法整體流程圖如圖2所示。
圖2 屬性約簡算法整體流程圖
振動信號對設備運行狀態(tài)的監(jiān)測進行研究,提取時域特征指標8維以及頻域特征指標6維構成指標集?;跊Q策樹方法對連續(xù)數(shù)值的樣本進行離散化處理,并采用粗糙集方法對離散后的指標集約簡,分別采用實驗室軸承數(shù)據(jù)和礦用帶式輸送機電機軸承的真實運行數(shù)據(jù)進行驗證。
4.1實驗室軸承數(shù)據(jù)
4.1.1屬性約簡
試驗數(shù)據(jù)來自美國西儲大學(Case Western ReserveUniversity)軸承故障試驗的數(shù)據(jù),試驗裝置包括1個1.47kW的電機、1個轉矩傳感器以及電子控制設備。試驗采用SKF公司的6205-2RS型的深溝球軸承,且電機轉速為1797r/min,數(shù)字信號的采樣頻率為12000Hz?;陔娀鸹夹g模擬了設備正常運行、內(nèi)圈單點故障、外圈單點故障及滾動體單點故障這3種故障類型的數(shù)據(jù),建立屬性決策表見表1。
表1 屬性決策表
由表1可以看出,每一列代表一類屬性特征,最后一列D代表該樣本所屬的類別,其中0代表正常, 1代表內(nèi)圈故障,2代表外圈故障,3代表滾動體故障。表中的每一行為一條樣本數(shù)據(jù)。對表1中的數(shù)據(jù)采用本文上述方法進行離散化處理,數(shù)值離散后的屬性決策表見表2。
表2 數(shù)值離散后的屬性決策表
基于表2采用粗糙集方法進行屬性約簡,得到約簡后的屬性集及各屬性的重要性見表3,由表2可以看出,離散化處理后的屬性決策表保持了與表3數(shù)值屬性的一致性,而且使數(shù)據(jù)變的更為簡單和直觀。
表3 約簡后的屬性決策表
分別基于約簡前、后的指標集采用支持向量機的故障診斷方法進行試驗,試驗結果性能采用召回率(Recall)、準確率(Precision)和綜合評價指標(F1值)進行驗證。
Recall=正確分類的樣本數(shù)/ (正確分類的樣本數(shù)+本該屬于該類但誤分它類的樣本數(shù));
Precision=正確分類的樣本數(shù)/ (正確分類的樣本數(shù)+錯誤分到該類的樣本數(shù));
共選中30條測試數(shù)據(jù),測試數(shù)據(jù)均未用于屬性約簡,系統(tǒng)原型采用Matlab語言編程實現(xiàn),基于支持向量機的故障診斷結果對比—實驗室數(shù)據(jù)見表4。
表4 基于支持向量機的故障診斷結果對比—實驗室數(shù)據(jù)
由表4可以看出,在不改變數(shù)據(jù)一致性的前提下,對設備故障診斷的指標集進行采用本文設計的方法進行約簡,由于刪除掉冗余屬性,約簡后設備運行各狀態(tài)的性能評估指標均高于屬性約簡前,且用于單條樣本故障診斷的平均時間由0.916s下降到了0.632s。
4.2礦用帶式輸送機電機軸承的真實運行數(shù)據(jù)
試驗數(shù)據(jù)來源于山西晉煤集團成莊礦帶式輸送機電機軸承的3個月真實運行數(shù)據(jù),電機型號為YB355M-4,轉速為1485r/min,軸承型號為2322Z2,軸承尺寸為(內(nèi)徑×外徑×寬度): 110mm×240mm×50mm,數(shù)字信號的采樣頻率為2000Hz。
基于軸承數(shù)據(jù)建立屬性決策表,并對屬性決策表進行離散化處理和屬性約簡(具體步驟與實驗室軸承數(shù)據(jù)一致,不再重復描述)?;谥С窒蛄繖C的故障診斷結果對比—礦用軸承運行數(shù)據(jù)見表5。
表5 基于支持向量機的故障診斷結果對比—礦用軸承運行數(shù)據(jù)
由表5可以看出,基于礦用設備軸承運行數(shù)據(jù)的試驗結果與實驗室軸承數(shù)據(jù)基本一致,屬性約簡后的性能評估指標均優(yōu)于屬性約簡前。但由于礦用設備真實運行環(huán)境較為復雜,噪聲較為嚴重,礦用帶式輸送機電機軸承的真實運行數(shù)據(jù)相比于實驗室軸承數(shù)據(jù)各項評估指標均略有下降。
(1)基于決策樹的方法對設備運行狀態(tài)的樣本連續(xù)數(shù)值進行離散化處理,
并對決策表進行屬性約簡,最后利用支持向量機的方法基于集外樣本數(shù)據(jù),分別對約簡前、后的屬性集進行故障診斷試驗,對比試驗結果表明,本文設計的連續(xù)屬性離散化方法及屬性約簡模型均有效。(2)在采用決策樹方法進行連續(xù)屬性離散化時,需要預先設置閾值,用于判斷節(jié)點是否停止分裂。由于閾值的設定會直接影響離散化結果,如何設計一種自適應的閾值計算方法需要進一步研究。
參考文獻:
[1] 潘羅平.基于健康評估和劣化趨勢預測的水電機組故障診斷系統(tǒng)研究[D].中國水利水電研究院,2013
[2] 張韌.旋轉機械故障特征提取技術及其系統(tǒng)研究[D].浙江大學,2004
[3] 陳仁祥.振動譜表征空間滾動軸承壽命狀態(tài)方法研究[D].重慶大學,2012
[4] 郭小薈,馬小平.基于粗糙集的故障診斷特征提取[J].計算機工程與應用,2007(1)
[5] 陳小青,劉覺民,黃英偉等.采用改進人工魚群優(yōu)化粗糙集算法的變壓器故障診斷[J].高壓技術, 2012(6)
[6] 辛士波,孫超.基于主成分分析法的煤礦安全生產(chǎn)預警分析研究[J].中國煤炭,2010(11)
[7] Robert.Analyingdiscretizationofcontinuousattributesgivenamonotonicdiscriminationfunction[J]. IntelligentDataAnalysis,1997(1)
[8] HungSonNguyen.Discretizationproblemforrough sets methods[C]//ProcoftheFirstIntConfon RoughSetsandCurrentTrendsinComputing.Spring Verlag,1998
[9] 王平.基于粗糖集屬性約簡的分類箅法研究與應用[D].大連理工大學,2013
(責任編輯王雅琴)
★煤礦安全★
★煤炭科技·加工轉化——同煤集團化工廠協(xié)辦★
Methodstudyofreductiononindexsetofequipmentfaultdiagnosis basingupondecision-makingtreeroughsetoptimization
LiJin1,QianXu1,LiuZhufeng2,FanXufeng3
(1.SchoolofMechanicalElectronic&InformationEngineering,ChinaUniversity ofMining&Technology,Beijing,Haidian,Beijing100083,China; 2.JiangsuBranchCompanyofChinaTelecommunicationsCo.,Ltd.,Nanjing,Jiangsu210000,China; 3.Tiandi(Changzhou)AutomationCo.,Ltd.,Changzhou,Jiangsu213015,China)
AbstractReductionofcharacteristicindexsetisvitalforaccurateandreliablemonitoringofelectromechanicalequipmentoperatingstatus,thustheauthorsdesignedareductionmethodbasinguponrough set.Themethoddefinedtime-domainsignalcharacteristicandfrequencydomainsignalasconditionalattribution,definedfaulttypeasdecisionattribution,andestablishedfaultdecisiontable. Theauthors conducteddiscretizationofcontinuousattributedatainthedecisiontablebyusingimpurityleveldecrementofdecision-makingtree,andthenusedroughsettoreductthediscretizationdecisiontable.Theequipmentfaultdiagnosiswasmoresimpleandeasierafterusingthefault-ruleofdecisiontable.Afterrespectivelytestingoflaboratorybearingdataandminingribbonconveyerbearingdata,theresultsshowed thatthemethodwaseffectiveforattributesindexsetreductionandreducedcalculatedquantityandimpactsofuncertainfactorsifthemonitoringresultsofequipmentstatuswerereliable.
Keywordsattributesreduction,decision-makingtree,roughset,indexset
中圖分類號TD614
文獻標識碼A
基金項目:?天地科技科研項目(2014-TDGZZD-01)綜采挖掘工作面裝備狀態(tài)監(jiān)測與故障診斷系統(tǒng)研究
作者簡介:李晉(1985-),男,山西大同人,在讀博士研究生,主要研究方向為模式識別與人工智能。