張家賓,張金春,李日華,李超亞
(海軍航空工程學院1.研究生大隊;2.基礎部,山東煙臺264001)
近年來,國內外在故障模式識別方面成果顯著,取得了很大的突破.應用較廣泛的方法有神經網絡識別法、專家系統(tǒng)方法、粗糙集法以及模糊診斷方法等.基于神經網絡的故障診斷方法雖然能直接從樣本獲取規(guī)則知識,但訓練模型繁雜、訓練樣本要求大等缺點使其應用范圍大大縮小;專家診斷法則需要經常對數(shù)據(jù)庫進行維護更新,隨著信息化發(fā)展速度加快,維護專家系統(tǒng)的成本將成倍增加;而模糊診斷方法的模糊隸屬度函數(shù)難以確定也限制了其應用[1].可拓學是廣東工業(yè)大學蔡文教授提出的一種解決現(xiàn)實矛盾問題的有效學科體系,基元、可拓集合以及關聯(lián)函數(shù)理論是其精髓所在.通過基元模型的建立,把現(xiàn)實問題形式化,且對問題有定性和定量方面的分析[2].基于可拓學理論的故障識別方法已有廣泛的研究,將這種方法和數(shù)據(jù)挖掘技術結合起來,則為面對大量數(shù)據(jù)的故障診斷方法開辟了一條新的途徑[3].
可拓數(shù)據(jù)挖掘技術是將可拓學和數(shù)據(jù)挖掘技術相結合用于處理基于大量數(shù)據(jù)的故障診斷問題.基于可拓數(shù)據(jù)挖掘技術的故障識別方法基本流程依次為:數(shù)據(jù)預處理、特征提取、經典域,節(jié)域確定、權重確定、關聯(lián)函數(shù)構建、綜合判斷故障模式。
數(shù)據(jù)預處理是將提取的原始數(shù)據(jù)樣本進行清洗并轉換成機器語言能夠識別的數(shù)據(jù)形式.所謂數(shù)據(jù)清洗就是將不完整的、有噪聲的和不一致的數(shù)據(jù)通過填充缺失值、平滑噪聲和識別離群點等方式來糾正數(shù)據(jù)中的不一致情況.通過進一步對數(shù)據(jù)泛化、規(guī)范化以及屬性的重新構造等方法將數(shù)據(jù)轉換或者統(tǒng)一成適合數(shù)據(jù)挖掘的形式.
特征提取能約簡模型中冗余的屬性特征,提取出對可拓數(shù)據(jù)挖掘效果影響較明顯的特征.同時選擇的數(shù)據(jù)集的特征要為后續(xù)的數(shù)據(jù)挖掘功能服務.因為提取的數(shù)據(jù)集的特點不同對不同的數(shù)據(jù)挖掘算法的最終效果影響程度也是不同的.如提取的記錄數(shù)、特征數(shù)會影響分類的精度和速度,離群點分布的特點會影響聚類的效果等.常用的特征提取方法有主成分分析法,粗糙集算法等[4].
可拓學的基礎理論為物元模型的構建.物元M=(O,C,V),O代表物元的對象,C代表提取的特征,V代表與特征對應的取值范圍.
在故障識別中不同的故障所對應的各個特征的取值范圍為相應的故障模式對應的經典域.例如取第j類故障模式對應有n類特征,此種模式下各特征相應的取值范圍Vjn=〈ajn,bjn〉,則故障模式j對應的經典域物元為
OU表示故障類型的全體且VUn=〈aUn,bUn〉?Vjn,則故障模式對應的節(jié)域為
令待測樣本為Mx,
其中,x1,x2…xn為待檢驗樣本的n個特征值.
經典域和節(jié)域邊界的確定對故障識別的精確度有很大的影響,因此經典域和節(jié)域的確定顯得尤為重要.傳統(tǒng)的確定方法多采用統(tǒng)計學的方法,例如利用數(shù)據(jù)挖掘方法得出各個特征的均值μij和方差σij,根據(jù)正態(tài)分布理論中的3σ原理來構造相應的經典域,即處于正態(tài)分布中的99.7%的數(shù)據(jù)在< μij-3σij,μij+3σij> 變化范圍中[5].而物元模型的節(jié)域一般取特征對應的最大值和最小值邊界,這種方法可以使同一模式的大部分數(shù)據(jù)落入所構建的經典域中,準確性較高.
模型中不同特征的權重值反映了各個特征對最終的模式識別結果影響程度,即各個指標對結果的重要度.權重計算方法根據(jù)樣本數(shù)據(jù)的有無可分為定性賦權法和定量賦權法.這兩種方法各有利弊,定性賦權法易受主觀因素的影響,而定量賦權法又需要標準的數(shù)據(jù)[6].常用的權值確定方法有專家評分法、二元排序對比法、層次分析法以及模糊統(tǒng)計法等.
基于粗糙集理論的權重確定方法,利用單個影響因素在全體特征集合中的重要度,確定指標的權重值,適用于大量的模糊數(shù)據(jù)的處理.粗糙集處理信息無需任何先驗知識,避免了主觀因素的影響.粗糙集和模糊集相結合還能對不完備數(shù)據(jù)信息進行說明,同時在數(shù)據(jù)分析方面粗糙集也是一個很好的數(shù)據(jù)處理工具.
在粗糙集理論中知識代表一種分類的能力.設R為U上一個等價的關系,知識就是R對U劃分的結果.對于給定的知識庫K=(U,R),對應的每個子集X?U及一個等價的關系集R∈ind(K),其中ind(K)代表K中的所有等價關系族[7].定義R的兩個子集:
定義POSR(X)=(X)為集合關于R的正區(qū)域.令S=(U,A,V,f)為一個知識表達系統(tǒng),其中U表示總域,A=C∪D且C∩D=φ,f表示一種映射關系,C代表系統(tǒng)的條件屬性集,而D表示決策屬性集[8].條件屬性集和決策屬性集共同構成決策表,且決策屬性對條件屬性的依賴度定義為
表示D是k度依賴于C.
同理可以得到屬性子集C′?C關于D的重要度定義為
對重要度進行歸一化處理,得到第i個條件屬性的權重系數(shù)值
基于粗糙集的權重確定方法能在保留關鍵信息的前提下,對不確定信息進行分析,識別出信息之間的依賴關聯(lián)關系,比傳統(tǒng)的權重確定方法具有更高的客觀性.
關聯(lián)函數(shù)表示待測樣本和已確定的模式之間的關聯(lián)度,即確定待測樣本和哪種模式更親密,是整個模型建立的關鍵點.
對于確定的區(qū)間X0?X,令X0=<a,b>,X=<c,d> .
點x關于區(qū)間X0和X組成的區(qū)間套的位值,即x和區(qū)間X0和X的位置關系為
則待測樣本與各類的關聯(lián)度K(最優(yōu)點在區(qū)間中點)為
基于矩定義的關聯(lián)函數(shù)的構建一般采用區(qū)間中點作為最優(yōu)點,也可以根據(jù)實際情況選擇端點或其他的區(qū)間點.
計算待測樣本Ox和每一類故障模式的經典域的關聯(lián)度
其中,ωi為權重系數(shù),且有
將關聯(lián)度進行排序,對比關聯(lián)值的大小,判斷故障模式.
筆者綜合分析某型汽車發(fā)動機的工作狀態(tài)及相應的特征數(shù)據(jù),測試了發(fā)動機6個指標的狀態(tài)數(shù)據(jù),分別為發(fā)動機冷卻液溫度t1、發(fā)動機平均轉速t2、噴油霧直徑t3、進氣口端最大壓力t4、進氣口的平均溫度t5、節(jié)氣門的開度最大值t6.同時對應的故障類型有4種,分別為Ⅰ發(fā)動機冷卻系統(tǒng)故障,Ⅱ排氣系統(tǒng)故障,Ⅲ氣缸噴油嘴工作異常,Ⅳ機體本身故障[10].測得100組數(shù)據(jù)如表1所示.
表1 發(fā)動機原始狀態(tài)數(shù)據(jù)Tab.1 Data of original engine state
利用粗糙集算法對數(shù)據(jù)進行屬性約簡和權重計算[11].經計算,進氣口最大壓力和節(jié)氣門的開度最大值兩個特征與其他特征關聯(lián)度大,為冗余特征,被約簡掉.約減后特征記為e1~e4.
利用粗糙集法對剩余特征進行權重計算,最后得到4個特征的權重值為
綜合分析發(fā)動機的故障模式,建立物元模型為
對約簡后的數(shù)據(jù)進行標準化(除以每一列的最大值),結果如表2所示.
表2 標準化后特征值數(shù)據(jù)Tab.2 Data of characteristic value after standardization
根據(jù)正態(tài)分布的3σ原則確定4種故障狀態(tài)的經典域,如表3所示.
表3 各故障模式經典域Tab.3 Classical domain of the fault modes
根據(jù)關聯(lián)函數(shù)的構建法則,構建樣本與各個故障模式的關聯(lián)函數(shù).
取一個待測樣本,標準化后為
計算樣本和各個故障模式的綜合關聯(lián)度,可得表4.
表4 綜合關聯(lián)度對比Tab.4 The comparison of comprehensive correlative degree
由表4可知,樣本屬于第3種故障即氣缸噴油嘴工作異常,同時可以看到樣本發(fā)動機的第二種故障模式的關聯(lián)度為0.465,說明此樣本也可能發(fā)生第二種故障,需進一步實驗驗證.
矩值距離法是通過比較待測樣本和故障模式的距離來判斷故障模式.上述的汽車發(fā)動機故障診斷模型的4個特征從不同的方面反映了發(fā)動機故障的特性.在固定的模式下各個特征是在一定的區(qū)間范圍內變化,則取區(qū)間的均值可以代表這種故障的特點.經計算區(qū)間的均值點分別如表5所示.
表5 故障對應特征均值Tab.5 Characteristic means corresponding to different faults
則待測樣本和故障類型的距離定義為
其中xj為待測樣本,sij為不同模式對應的特征均值.
得到特測樣本和4種故障的距離為
取di的最小值0.1020對應的故障類型,即為第3種故障.但觀察di值可以發(fā)現(xiàn)第3和第2種距離值比較接近,這可能造成故障識別的不準確.
對比兩種方法,雖然都是基于距離的故障診斷方法,但可拓學中的距離是基于矩和位值定義的點和經典域區(qū)間的距離.而基于矩值距離法則只是度量了點列和點列之間的歐氏距離.另一方面基于可拓學的故障診斷方法考慮了各個特征的權重,而基于矩的距離法則沒有考慮這個因素.
可拓數(shù)據(jù)挖掘方法可以對故障模式進行判斷并有針對性地進行維修.但如果可以把故障遏制在即將發(fā)生的狀態(tài),則可以大幅減少資源浪費,因此對故障的預防研究尤為重要.
可拓學的可拓分類思想不同于經典集合描述的確定性的分類,也不同于模糊集合描述的模糊性的分類.可拓分類描述的是事物的變化性.從而可以通過實施變換發(fā)現(xiàn)潛在的故障威脅,達到故障預防的目的.
設U為論域,u∈U,k是U到實數(shù)域I的一個映射,T=(Tu,Tk,Tu)是給定的變換,則
為論域U上的一個可拓集.
經典集與可拓集如圖1所示.和經典集相比可拓集多了經變換后的兩個域.
圖2 經典集與可拓集Fig.2 The classic set and extension set
其中V~+為正可拓域,表示變換前不符合,但變換后符合要求的論域部分.V~-為負可拓域,表示變換前符合要求,但變換后不符合要求的論域部分.這種潛在的部分為故障的預防提供了一種思路.
在故障模式識別時,假定論域U為健康狀態(tài)下對應的所有特征的狀態(tài)值集合.經由某一變換,存在一個負可拓域V~-,其中的狀態(tài)值對應的現(xiàn)存狀態(tài)雖然是一個健康狀態(tài),但存在向故障狀態(tài)轉化的隱患.針對這種狀態(tài)引入一個警戒值,即分析V~-中的狀態(tài)值區(qū)間,確定出此區(qū)間內各個特征對應的特征值區(qū)間.當檢測到狀態(tài)值處于這個區(qū)間時,即采取措施有針對性地進行預防,以防止故障的發(fā)生[12].
在對汽車電噴發(fā)動機進行故障分析時,發(fā)現(xiàn)均速狀態(tài)下,發(fā)動機轉速處于1 000 r/min以下,冷卻液在100℃以下時都可以正常工作.但實際上如果發(fā)動機轉速和冷卻液溫度一直處在上限附近居高不下,就應該進行檢查保養(yǎng),避免出現(xiàn)故障.
記錄多臺發(fā)動機運行10 h相應的故障情況,結果如表6所示.
表6 故障測試結果Tab.6 Faults test results
表6中向量區(qū)間表示10 h內冷卻液的最高溫度在其區(qū)間內,時間代表處于對應的最高溫度所持續(xù)的時間.1代表在橫縱坐標條件下發(fā)生了故障,0代表未發(fā)生故障.由表6可知若冷卻液溫度高于85℃時,發(fā)動機一定發(fā)生故障.在(80,85)溫度區(qū)間內,若持續(xù)時間高于6 h,則也代表其發(fā)生了故障.在溫度區(qū)間(80,85)內存在發(fā)生故障的風險,即為發(fā)生故障的負可拓域.定義區(qū)間(80,85)內的某個值為警戒值,當發(fā)動機長期處于此溫度下時,則進行故障檢驗,預防故障的發(fā)生.
將可拓學數(shù)據(jù)挖掘技術應用于設備故障診斷,既能將問題定量化、形式化,又能解決大量的數(shù)據(jù)處理問題.采用粗糙集技術進行模型特征的屬性約簡,同時確定出各特征的權重值,保證了權值的客觀性和穩(wěn)定性.汽車發(fā)動機故障識別的實例驗證了基于關聯(lián)度故障診斷方法的有效性.最后對基于可拓分類思想的故障預防方法的探討,為故障預防提供了一種思路.但由于數(shù)據(jù)可能存在的不穩(wěn)定性,僅僅依靠統(tǒng)計學的方法確定模式的經典域,可能會導致計算有偏差,這也是今后要改進的一個方向.
[1]邵曉非,寧媛,劉耀文,等.電力系統(tǒng)故障診斷方法綜述與展望[J].工業(yè)控制計算機,2012,12:4-5.Shao X F,Ning Y,Liu Y W,et al.Review and prospect of fault diagnosis in power system[J].The Industrial Control Computer,2012,12:4-5.
[2]Yang C Y,Cai W.Extenics:Theory,Method and Application[M].Beijing:Science Press,2013:25-32.
[3]楊春燕,李衛(wèi)華,李小妹.矛盾問題智能化處理的理論與方法研究進展[J].廣東工業(yè)大學學報,2011,28(1):86-93.Yang C Y,Li W H,Li X M.Recent research progress in theories and methods for the intelligent disposal of contradictorg problems[J].Journal of Guangdong University of Technology,2011,28(1):86-93.
[4]李兆飛.振動故障分形特征提取及診斷方法研究[D].重慶:重慶大學自動化學院,2013.
[5]溫樹勇,李衛(wèi)華.本體知識拓展分析樹在可拓策略生成系統(tǒng)的應用[J].智能系統(tǒng)學報,2014,12(3):23-28.Wen S Y,Li W H.Application of ontology knowledge expansion analysis tree in the extension strategy generation system[J].CAAI Transanction on Intelligent System,2014,12(3):23-28.
[6]譚宗鳳.基于粗糙集的權重確定方法研究[D].桂林:廣西師范大學計算機科學與信息工程學院,2012.
[7]陳超,陳性元,汪永偉,等.基于粗糙集理論的冗余規(guī)則處理方法[J].計算機工程與設計,2014,35(1):21-27.Chen C,Chen X Y,Wang Y W,et al.Processing method of redundant rules based on rough set theory[J].Computer Engineering and Design,2014,35(1):21-27.
[8]李輝.基于粗糙集與模糊綜合評價的供應商風險評價研究[D].武漢:武漢科技大學管理學院,2011.
[9]楊春燕,蔡文.可拓集中關聯(lián)函數(shù)的研究進展[J].廣東工業(yè)大學學報,2012,29(2):7-14.Yang C Y,Cai W.Recent research progress in dependent functions in extension sets[J].Journal of Guangdong University of Technology,2012,29(2):7-14.
[10]劉麗芳.汽車發(fā)動機故障診斷系統(tǒng)[D].太原:太原理工大學信息工程學院,2012.
[11]楊帆,葛金娟,張彩麗.基于主元分析的可拓診斷模型及其應用研究[J].計算機測量與控制,2009,17(11):2167-2169.Yang F,Ge J J,Zhang C L.Research on component analysis based extensi on fault diagnose model and its application[J].Computer Measurement and Control,2009,17(11):2167-2169.
[12]趙燕偉,蘇楠.可拓設計[M].北京:科學出版社.2010:29-35.