李長偉,雷文平,董辛?xí)F,李永耀
(1.鄭州大學(xué)機械工程學(xué)院振動工程研究所,河南鄭州 450001)(2.鄭州恩普特科技股份有限公司,河南鄭州 450001)
在基于軸承振動信號的故障診斷方法中,大多數(shù)是基于知識規(guī)則的,發(fā)展得也較為成熟。但這些診斷方法依然存在一些難以克服的缺點,比如知識的獲取較為困難,知識規(guī)則庫的維護較為復(fù)雜等。為了解決這些問題,引入CBR技術(shù)。CBR是運用歷史上發(fā)生過的事情來解決新出現(xiàn)的問題、理解新情況的一種新興人工智能方法學(xué),是不同于基于知識推理的一種學(xué)習(xí)模式[1]。CBR比較擅于解決知識缺乏、不便建立模型、存有大量規(guī)則之外的結(jié)構(gòu)化或者半結(jié)構(gòu)化的問題。因此利用CBR方法做軸承故障診斷具有較高的應(yīng)用價值,并且CBR系統(tǒng)解決問題的能力也會隨著案例庫的擴展而提升,具有較好的成長性。
作為CBR技術(shù)核心模塊的案例庫,對故障診斷結(jié)果有著決定性的影響,為了獲得較好的案例庫模塊,則需要對其進行優(yōu)化。案例庫主要是由各個子案例組成,案例庫的優(yōu)化即是對子案例的優(yōu)化,子案例主要有其屬性特征來表征,則最終的優(yōu)化目標(biāo)即是對屬性特征的優(yōu)化。
在屬性特征優(yōu)化方面,文獻[2]采用Filter 結(jié)合Wrapper 的特征選擇方法解決特征冗余問題,雖然結(jié)合了兩者的優(yōu)點,但計算過程繁瑣,耗時較長;文獻[3]在特征選取中提出了一種CFS 方法,該方法擁有Filter 和Wrapper 的優(yōu)點,不僅計算速度快而且還適用于離散型和連續(xù)型數(shù)據(jù);文獻[4]在CBR系統(tǒng)中采用GA算法實現(xiàn)了特征權(quán)重優(yōu)化問題,并取得了一定的效果;文獻[5]在語音的識別系統(tǒng)中運用GA?CFS 方法解決特征約減問題,并證明了其可行性。因此,這里在案例推理軸承故障診斷中引入了GA?CFS方法,并利用XJTU?SY 滾動軸承加速壽命試驗數(shù)據(jù)驗證了該方法的可行性[6]。
CBR 是將新出現(xiàn)的問題稱作目標(biāo)案例,而將歷史上出現(xiàn)的問題稱作源案例。CBR先是將已經(jīng)解決過的目標(biāo)案例化作源案例,再轉(zhuǎn)過來由源案例指引新的案例求解的一種方法。Kolodner在1983年領(lǐng)導(dǎo)研發(fā)了基于案例推理的CYRUS系統(tǒng),隨后在不同領(lǐng)域又產(chǎn)生了PROTOS、HYPO 以及CABARET 等基于案例推理的應(yīng)用系統(tǒng)。目前CBR過程主要分為4個階段:案例的檢索、復(fù)用、修改和保存[7]。當(dāng)有新案例產(chǎn)生時,基本過程,如圖1 所示。首先,要求出案例的特征;其次,在已經(jīng)利用GA?CFS方法構(gòu)建好的案例庫中使用KNN 算法計算源案例與目標(biāo)案例之間的相似性,根據(jù)兩者之間的相似度啟用案例的重用或修改或保存機制,最終得到源案例的解。
圖1 基本流程Fig.1 Basic Process
CFS是一種關(guān)于屬性子集價值的啟發(fā)式評價算法,該算法用于評估特征子集的價值或優(yōu)點,考慮了單個特征與預(yù)測類別標(biāo)簽之間相互關(guān)聯(lián)度。CFS的核心思想有兩個方面[3]:(1)優(yōu)良特征子集與類別標(biāo)簽高度相關(guān);(2)優(yōu)良特征子集的屬性特征彼此之間不相關(guān)。該方法計算速度快,不僅適用于離散型的數(shù)據(jù)還適用于連續(xù)型的數(shù)據(jù),其屬性子集評價函數(shù)如下:
式中:r(f,c)—各個屬性特征f與類別c之間的相關(guān)系數(shù);N—的是樣本總數(shù)。屬性特征彼此之間相關(guān)性系數(shù)也適用式(2)。r(f,c)的絕對值越大,說明f和c的相關(guān)程度越好,當(dāng)r(f,c)的絕對值接近于0,則認為f和c之間相關(guān)性弱或者完全無關(guān)。
在1961 年Johns 首次將K近鄰算法使用在分類問題中,在1967年文獻[8]提出K近鄰算法,該方法簡單有效,也是應(yīng)用較為廣泛的模式識別算法之一。該算法的原理是:假設(shè)已經(jīng)存在一個案例集,當(dāng)有新案例時,在該已有案例集中找到與新案例相似性最大或者距離最小的K個案例,若這K個案例中的多數(shù)均屬于某個類別,就把該新案例歸為該類別。
對案例推理技術(shù)來說,KNN算法的重要性在于以下幾方面:
(1)該算法是基于距離的相似性計算方法,簡單易于實現(xiàn),且具有較好的分類性能;(2)該算法給出了案例與空間之間的映射關(guān)系;(3)該技術(shù)和其他技術(shù)融合的能力非常強。
遺傳算法是一種搜索方法,該方法仿照了自然界的自然選擇和自然遺傳機制[9]。該方法首先通過計算當(dāng)前群體的最適應(yīng)值,再根據(jù)該值生成新一代群體,通過這樣的方法不斷的壓縮搜索空間,進而找到或者近似找到搜索目標(biāo)。
篩選過程,如圖2所示。
圖2 遺傳算法基本流程Fig.2 Basic Process of Genetic Algorithm
具體步驟如下[10]:
(1)將參數(shù)特征進行編碼,染色體長度等于屬性特征個數(shù),染色體基因為1時表示選中該屬性特征,染色體基因為0時表示未選中該屬性特征;
(2)定義適應(yīng)函數(shù),引入CFS方法,將CFS的計算結(jié)果作為適應(yīng)值;
(3)設(shè)定遺傳策略,分為設(shè)定群體大小,選擇、雜交和變異三個遺傳算子,確定變異概率和雜交概率等,根據(jù)經(jīng)驗設(shè)置以上參數(shù)的取值范圍:群體規(guī)模(20~200)、雜交概率(0.6~1.0)、變異概率(0.005~0.1)、選擇策略為輪盤賭方式;
(4)設(shè)置初始化群體,隨機生成一個初始種群,種群規(guī)模一般設(shè)定在(100~200)之間,并且以最大迭代次數(shù)作為停止條件;
(5)計算每個個體適應(yīng)值;
(6)按照遺傳策略,對群體進行遺傳操作,生成新一代群體;
(7)判斷是否滿足要求,或者達到預(yù)定迭代次數(shù),否則就返回(6),重復(fù)操作,直到滿足要求為止。
經(jīng)過GA?CFS初步篩選后得到了一組優(yōu)良屬性子集,現(xiàn)需要求解各個屬性子集中的特征權(quán)重,并從該組屬性子集其中選出符合要求的子集,實現(xiàn)過程為:利用GA算法實現(xiàn)特征子集的權(quán)重計算和選擇,GA步驟同1.4,不同之處為:(1)染色體的基因編碼采用(0~1)之間的浮點數(shù),表示特征權(quán)重大??;(2)采用軸承的診斷準(zhǔn)確率為適應(yīng)度值,該準(zhǔn)確率是由加權(quán)后的KNN算法得出。最后依據(jù)屬性子集的診斷準(zhǔn)確率得出符合要求的屬性子集。
利用XJTU?SY滾動軸承加速壽命試驗數(shù)據(jù)建立案例庫驗證這里的方法。該數(shù)據(jù)包含了3種工況下15個滾動軸承的全壽命周期振動信號,試驗滾動軸承型號LDKUER204,采樣頻率25.6kHz,采樣間隔1min,采樣點數(shù)32768。CBR的案例庫中含有1680個軸承案例,其中包含外圈故障案例751個、內(nèi)圈故障案例167個、保持架故障案例247個、內(nèi)圈故障和外圈故障共存的案例18個和四個部位故障共存的案例297個,以及正常案例200個。利用文獻[11]中的全矢譜技術(shù)融合這些雙通道數(shù)據(jù),得到融合后的時域振動數(shù)據(jù)和主振矢數(shù)據(jù)。
在已選擇的1680個案例中,分別在時域振動信號和主振矢中提取9個時域特征和11個頻域特征[2]。此20個特征的排列順序依次是峰值、均方根值、峭度、波形因子、脈沖指標(biāo)、裕度指標(biāo)、峰值因子、絕對均值、標(biāo)準(zhǔn)差、轉(zhuǎn)頻幅值、頻域峰值、頻域均值、頻域標(biāo)準(zhǔn)差、頻域均方根值、頻域峭度、頻域波形因子、頻域脈沖指標(biāo)、頻域裕度指標(biāo)、頻域峰值因子、頻域重心,即特征序號從(1~20)。
在已選擇的20個特征中必定存在特征冗余,這些特征與分類標(biāo)簽相關(guān)性差,可能存在反作用,降低分類準(zhǔn)確率。依照上文20個屬性特征的排列順序,求出在屬性特征個數(shù)依次累加時所對應(yīng)的準(zhǔn)確率。如圖3所示,可以看到含有不同個數(shù)特征時準(zhǔn)確率有高有低,充分說明該組屬性特征存在冗余性,需要對其進行優(yōu)化處理。采用GA?CFS方法對屬性特征進行粗選,其中種群規(guī)模為100,交叉和變異概率分別為0.9、0.1,最大停止迭代次數(shù)200。經(jīng)過計算得到一組屬性特征子集及其與類別標(biāo)簽的適應(yīng)度值。每迭代一次得到一個最優(yōu)特征子集,被選中的特征在圖4中用“*”表示,未選中的特征用空白表示,每一代篩選出的屬性子集所對應(yīng)的適應(yīng)值,如圖5所示。從所篩選出的第23代到200代的特征子集的適應(yīng)度值保持穩(wěn)定不變,因此選擇前24代特征子集,如圖4所示。其中不相同的特征子集共有7個,分別是第1、2、4、5、6、7、23代特征子集。該組特征子集中的關(guān)鍵特征存在差異性,也說明了構(gòu)成案例庫的各個案例存在差異性,且特征之間也并非相互獨立。
圖3 特征個數(shù)所對應(yīng)的正確率Fig.3 The Correct Rate Corresponding to the Number of Features
圖4 特征子集篩選Fig.4 Feature Subset Screening
圖5 特征子集與其適應(yīng)度值Fig.5 Feature Subset and its Fitness Value
針對初選的7個特征子集的權(quán)重問題,選擇GA算法,采用診斷準(zhǔn)確率作為適應(yīng)值,對特征子集做進一步篩選,其中最大迭代次數(shù)為200,種群規(guī)模為100,交叉和變異概率分別為0.9、0.1。對每個子集的診斷正確率求解10次,然后求取平均正確率,最終結(jié)果,如表1所示。在未匹配權(quán)重時,經(jīng)過特征約減后的診斷正確率不僅高于原始子集的正確率,而且特征個數(shù)減少至一半以下;在匹配權(quán)重之后,各個子集的平均診斷正確率均超過93%。說明在分類計算中進行特征約減和匹配特征權(quán)重不僅可以較大程度的降低計算時間,而且可以顯著提高診斷正確率。關(guān)于特征子集的選擇,根據(jù)表1對比情況,按照計算時間和準(zhǔn)確率的實際需求確定。這里在案例庫構(gòu)建中選擇第23代屬性特征子集,準(zhǔn)確率為0.9373,且特征個數(shù)最少。其包含7個屬性,分別是波形因子、峰值因子、轉(zhuǎn)頻幅值、頻域均值、頻域波形因子、頻域脈沖指標(biāo)、頻域峰值因子。
表1 屬性特征子集正確率對比Tab.1 Comparison of Attribute Feature Subset Correctness
這里采用mycbr 建模平臺搭建案例推理的故障診斷系統(tǒng)。按照GA?CFS和加權(quán)KNN方法,把選好的7個關(guān)鍵特征及權(quán)重錄入系統(tǒng)的屬性設(shè)置界面,屬性值設(shè)置為true,其他屬性值設(shè)置為false,并選擇歐氏距離作為相似性計算方法,如圖6所示。
圖6 特征選擇和權(quán)重匹Fig.6 Feature Selection and Weight Matching
然后將這1680個案例錄入到案例庫中。當(dāng)有新案例時,求出目其關(guān)鍵特征,填入檢索界面,如圖7所示。即可以求解出新案例與源案例的相似性,根據(jù)相似性是否超過預(yù)設(shè)的閾值,即可判斷是否啟用案例重用、修改或者存儲機制,得出新案例的解。
圖7 案例檢索Fig.7 Case Retrieval
這里提出了一種GA?CFS結(jié)合案例推理的軸承故障診斷方法,設(shè)計了GA、CFS和KNN特征選擇策略,并運用XJTU?SY滾動軸承加速壽命試驗數(shù)據(jù)搭建診斷系統(tǒng)。該方法不僅獲取故障知識容易,而且優(yōu)化后的特征子集冗余性低。此外,通過GA加權(quán)的方式提高了KNN算法的診斷準(zhǔn)確率。最終通過實驗驗證,分類準(zhǔn)確率超過了93%,證明了該方法的可行性。