王梓杰,周新志,2,寧 芊,2
(1.四川大學(xué) 電子信息學(xué)院,成都 610065;2.電子信息控制重點(diǎn)實(shí)驗(yàn)室,成都 610036)
現(xiàn)代工業(yè)科技在信息化技術(shù)發(fā)展下,航天、通信和工業(yè)等各領(lǐng)域工程系統(tǒng)日趨龐大復(fù)雜,考慮到復(fù)雜系統(tǒng)的可靠性、安全性和經(jīng)濟(jì)性,以診斷與預(yù)測(cè)技術(shù)為核心的PHM[1-2](故障預(yù)測(cè)和健康管理系統(tǒng))技術(shù)成為設(shè)備與系統(tǒng)保障的重要基礎(chǔ)和技術(shù)支撐。PHM主要包括故障診斷、故障預(yù)測(cè)和健康管理三個(gè)核心部分,其中故障診斷預(yù)測(cè)又可以分為故障分類[3]和趨勢(shì)預(yù)測(cè)[4]等方向,目前的故障趨勢(shì)預(yù)測(cè)主要通過傳感器提取機(jī)械部件的時(shí)間序列物理量進(jìn)行分析診斷,這些時(shí)間序列往往是非線性的,對(duì)于這類問題,常常用機(jī)器學(xué)習(xí)算法解決。文獻(xiàn)[5]等基于神經(jīng)網(wǎng)絡(luò)信息融合對(duì)舵面系統(tǒng)故障趨勢(shì)進(jìn)行預(yù)測(cè),但是神經(jīng)網(wǎng)絡(luò)在趨勢(shì)預(yù)測(cè)中收斂速度緩慢[6-7],同時(shí)網(wǎng)絡(luò)的運(yùn)算和結(jié)構(gòu)參數(shù)依靠經(jīng)驗(yàn)設(shè)置,調(diào)參優(yōu)化缺乏理論指導(dǎo);文獻(xiàn)[8]等人使用HMM/SVM串聯(lián)結(jié)構(gòu)模型進(jìn)行聯(lián)合預(yù)測(cè),取得優(yōu)于任一單一算法的故障預(yù)測(cè)效果;文獻(xiàn)[9]等人提出一種基于ARMA的趨勢(shì)預(yù)測(cè)方法,但是容易出現(xiàn)調(diào)參復(fù)雜的問題。在實(shí)際的故障趨勢(shì)預(yù)測(cè)中,往往具有多組物理量[10],同時(shí)針對(duì)每一組時(shí)間序列的非線性數(shù)據(jù),都可以提取很多頻域和時(shí)域特征量用于趨勢(shì)預(yù)測(cè)和故障分類[11],而在將特征量輸入算法作為趨勢(shì)預(yù)測(cè)前,為了減少運(yùn)算量提高精度,往往需要去除特征量中的冗余和干擾性的數(shù)據(jù),這些數(shù)據(jù)無法準(zhǔn)確反映趨勢(shì)并且有重負(fù)數(shù)據(jù)冗余,因此在預(yù)測(cè)之前對(duì)數(shù)據(jù)進(jìn)行降維預(yù)處理在某些應(yīng)用場(chǎng)景下能顯著提高預(yù)測(cè)精度,例如PCA、KPCA等特征降維與特征融合方法[12]。而隨機(jī)森林算法[13](Random forest)是利用多棵樹對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè)的一種算法,它既可以應(yīng)用在分類問題中,也可以用來做回歸分析。隨機(jī)森林相對(duì)于傳統(tǒng)的決策樹算法,具有不剪枝也能避免數(shù)據(jù)過擬合的特點(diǎn),同時(shí)具備很快的訓(xùn)練速度,并且參數(shù)調(diào)整簡(jiǎn)單,在默認(rèn)參數(shù)下往往就能夠具備較好的回歸預(yù)測(cè)效果。文中使用軸承退化過程的實(shí)驗(yàn)數(shù)據(jù),選取BP(back propagation)神經(jīng)網(wǎng)絡(luò)模型作為參照模型進(jìn)行趨勢(shì)回歸效果比較。
在機(jī)械軸承故障趨勢(shì)預(yù)測(cè)中,由于環(huán)境噪聲和設(shè)備的工況因素,傳感器采集到的數(shù)據(jù)一般帶有噪聲,對(duì)這些時(shí)間序列物理量直接進(jìn)行處理受噪聲干擾較大得到的預(yù)測(cè)精度不高;在趨勢(shì)預(yù)測(cè)中,機(jī)械的退化與故障反映在時(shí)序波形中有時(shí)并不能及時(shí)反映故障的開始時(shí)間,而是存在一定的時(shí)移;因此對(duì)傳感器采集到的數(shù)據(jù)進(jìn)行時(shí)域和頻域的特征提取,本文所使用的數(shù)據(jù)集為,并且在不清楚不同特征量對(duì)于趨勢(shì)預(yù)測(cè)的貢獻(xiàn)率和相關(guān)度的情況下進(jìn)行趨勢(shì)預(yù)測(cè)往往得到的結(jié)果并不理想,因此在沒有足夠物理含義和先驗(yàn)知識(shí)的情況下,需要采取方法對(duì)特征量進(jìn)行降維處理。
主成分分析[14](Principal Component Analysis,后文簡(jiǎn)稱為PCA)是最常用的線性降維方法,對(duì)于原有的高維特征數(shù)據(jù),利用坐標(biāo)變換的思想,通過線性關(guān)系的投影,將高維的數(shù)據(jù)映射到低維的數(shù)據(jù)空間中表示,數(shù)據(jù)的對(duì)應(yīng)關(guān)系并非簡(jiǎn)單的將原有高維數(shù)據(jù)進(jìn)行信息量的刪減,而是在高維向低維的坐標(biāo)映射中對(duì)相關(guān)性特征量進(jìn)行了整合,得到之前特征量的協(xié)方差矩陣,這里的特征量是一個(gè)經(jīng)過重構(gòu)的全新正交特征量。一方面去除原始數(shù)據(jù)中各維度數(shù)據(jù)間的線性關(guān)系對(duì)于最終分類或者預(yù)測(cè)算法的精度影響,另一方面,在樣本數(shù)據(jù)不多,但是數(shù)據(jù)本身維度卻相對(duì)較高的情況下提高算法分類或者預(yù)測(cè)的精度。得到低維度的特征量后,保留占據(jù)絕大多數(shù)影響的特征量,能在保留住較多的原數(shù)據(jù)點(diǎn)的特性的同時(shí)進(jìn)一步降低特征數(shù)據(jù)的維度。PCA的計(jì)算過程中不需要人為的設(shè)定參數(shù)或是根據(jù)任何經(jīng)驗(yàn)?zāi)P蛯?duì)計(jì)算進(jìn)行干預(yù),最后的結(jié)果只與數(shù)據(jù)相關(guān)。但是,如果用戶對(duì)觀測(cè)對(duì)象有一定的先驗(yàn)知識(shí),掌握了數(shù)據(jù)的一些特征,卻無法通過參數(shù)化等方法對(duì)處理過程進(jìn)行干預(yù),可能會(huì)得不到預(yù)期的效果。是丟失原始數(shù)據(jù)信息最少的一種線性降維方式。因?yàn)镻CA相對(duì)于其他的降維方法,對(duì)于原始數(shù)據(jù)的信息和關(guān)聯(lián)性丟失較少。設(shè)定一個(gè)PCA的執(zhí)行步驟如下:
1)構(gòu)建m*n階的變量矩陣,其中m為樣本數(shù)量,n為原始數(shù)據(jù)的維數(shù);
2)將m*n階的變量矩陣X的每一行,即原始數(shù)據(jù)的一個(gè)屬性,進(jìn)行數(shù)據(jù)的歸一化處理;
3)求出協(xié)方差矩陣C,并對(duì)其特征值和特征向量進(jìn)行求解;
4) 將特征值從大到小進(jìn)行排序,選擇其中最大的k個(gè),然后將其對(duì)應(yīng)的k個(gè)特征向量分別作為列向量組成特征矩陣M;
5)即可以求得原n維的原始高維數(shù)據(jù)降維到k維后的數(shù)據(jù)Y=XM。
矩陣Y是由數(shù)據(jù)協(xié)方差矩陣前k個(gè)最大的特征值對(duì)應(yīng)的特征向量作為列向量構(gòu)成的。這些特征向量形成一組正交基并且最好地保留了數(shù)據(jù)中的信息。
相較于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)和貝葉斯算法,決策樹是以實(shí)例為基礎(chǔ)的算法,通過不斷的對(duì)樣本歸納學(xué)習(xí)從而對(duì)分類以及預(yù)測(cè)等問題進(jìn)行概率計(jì)算。決策樹本身的構(gòu)造并不需要相關(guān)樣本數(shù)據(jù)領(lǐng)域的先驗(yàn)知識(shí)或者參數(shù)設(shè)置,因此,決策樹很適用于探索性的應(yīng)用。決策樹本身是一個(gè)樹結(jié)構(gòu)(可以是二叉樹或非二叉樹)。它表示對(duì)象屬性和對(duì)象值之間的一種映射,樹中的每一個(gè)節(jié)點(diǎn)表示對(duì)象屬性的判斷條件,其分支表示符合節(jié)點(diǎn)條件的對(duì)象。樹的葉子節(jié)點(diǎn)表示對(duì)象所屬的預(yù)測(cè)結(jié)果。使用決策樹進(jìn)行決策的過程就是從根節(jié)點(diǎn)開始,測(cè)試待分類和待遇測(cè)項(xiàng)中相應(yīng)的特征屬性和特征值,并按照其值選擇輸出分支,將葉子節(jié)點(diǎn)存放的類別作為決策結(jié)果。構(gòu)造決策樹的關(guān)鍵步驟是分裂屬性。所謂分裂屬性就是在某個(gè)節(jié)點(diǎn)處按照某一特征屬性的不同劃分構(gòu)造不同的分支,其目標(biāo)是讓一個(gè)分裂子集中待分類項(xiàng)屬于同一類別。
在此基礎(chǔ)上J.Ross Quinlan于1986年提出ID3算法,采用信息增益最大的特征;Breiman等人于1984年提出CART算法利用基尼指數(shù)最小化準(zhǔn)則進(jìn)行特征選擇;J.Ross Quinlan于1993年提出C4.5算法,采用信息增益比選擇特征。
隨機(jī)森林(Random Forest)是Leo Breiman和Adele Cutler在2001年提出的一個(gè)新的組合分類器算法,在此之后,Deitterich在模型中引入了隨即節(jié)點(diǎn)優(yōu)化的思想,對(duì)隨機(jī)森里進(jìn)行了進(jìn)一步完善,運(yùn)用了Leo Breiman的“套袋”思想構(gòu)建了控制方差的決策樹集合。隨機(jī)森林算法利用多個(gè)CART(Classification And Regression Tree)作為元分類器,用套袋算法制造有差異的訓(xùn)練樣本集,同時(shí)在構(gòu)建單棵樹時(shí),隨機(jī)地選擇特征對(duì)內(nèi)部節(jié)點(diǎn)進(jìn)行屬性分裂。因此隨機(jī)森林能較好容忍噪聲,并且具有較好的分類性能。實(shí)際應(yīng)用中隨機(jī)森林作為一種多功能的機(jī)器學(xué)習(xí)算法,除了執(zhí)行回歸、分類的任務(wù),同時(shí)也用于處理缺失值、異常值以及其他數(shù)據(jù)探索中,作為一種降維手段。通常隨機(jī)森林通過以下步驟運(yùn)作:
1)我們?cè)O(shè)定一個(gè)樣本個(gè)數(shù)為N的樣本集,M表示變量的數(shù)目;
2)每個(gè)節(jié)點(diǎn)都將隨機(jī)選擇m(m 3)從樣本集(N個(gè)樣本)中以可放回取樣的方式,取樣N次,形成一組訓(xùn)練集(即bootstrap取樣)。并使用這棵樹預(yù)測(cè)剩余類別并評(píng)估其誤差。 4)對(duì)于每一個(gè)節(jié)點(diǎn),隨機(jī)選擇m個(gè)基于此點(diǎn)上的變量。根據(jù)這m個(gè)變量,計(jì)算其最佳的分裂點(diǎn)。 5)每棵決策樹都最大可能地進(jìn)行生長(zhǎng)而不進(jìn)行剪枝(Pruning),通過對(duì)所有的決策樹進(jìn)行加總來預(yù)測(cè)新的數(shù)據(jù)。 圖1 原始數(shù)據(jù)振動(dòng)幅值圖 本次針對(duì)隨機(jī)森林算法在軸承診斷中的應(yīng)用,選擇美國(guó)辛辛那提大學(xué)智能系統(tǒng)維護(hù)中心提供的滾動(dòng)軸承全壽命周期加速軸承性能退化實(shí)驗(yàn)數(shù)據(jù)進(jìn)行趨勢(shì)預(yù)測(cè)實(shí)驗(yàn)。該數(shù)據(jù)為提取的加速度時(shí)間序列,采樣的時(shí)間間隔是10 min,采樣頻率是20 kHz,采樣點(diǎn)數(shù)為20480個(gè),實(shí)驗(yàn)數(shù)據(jù)記錄了從軸承完好到發(fā)生故障的全壽命周期過程,總共984條數(shù)據(jù),本文截取其中后期從正常運(yùn)行工況到具備退化趨勢(shì)的一段數(shù)據(jù)進(jìn)行實(shí)驗(yàn),圖1是軸承運(yùn)行后期的第700條數(shù)據(jù)的振動(dòng)信號(hào)幅值圖。 由于原始數(shù)據(jù)點(diǎn)數(shù)較多,且具有一定的噪聲干擾,需要對(duì)原始數(shù)據(jù)進(jìn)行壓縮處理,提取特征量進(jìn)行分析預(yù)測(cè)。參考文獻(xiàn)(KPCA),從每一節(jié)數(shù)據(jù)中提取10個(gè)頻域特征量和15個(gè)時(shí)域特征量,共計(jì)25個(gè)特征量進(jìn)行主成分分析,其中時(shí)域特征量如時(shí)域均值趨勢(shì)如圖2,頻域均方根值如圖3所示。 圖2 時(shí)域均值趨勢(shì) 圖3 頻域均方根值 對(duì)數(shù)據(jù)的趨勢(shì)分析得到:從500點(diǎn)開始,數(shù)值呈現(xiàn)上升趨勢(shì),物理上的表現(xiàn)即反映軸承產(chǎn)生性能退化,并且在700點(diǎn)位置左右有第一個(gè)波峰。在所有25個(gè)特征值里,反映軸承實(shí)際退化趨勢(shì)的有18個(gè),為了降低數(shù)據(jù)冗余,提高預(yù)測(cè)精度,選取了這18個(gè)特征量進(jìn)行PCA主成分分析對(duì)高維特征量進(jìn)行降維,經(jīng)過主成分分析得到前四個(gè)分量的貢獻(xiàn)率如表1所示,其中分量1的貢獻(xiàn)率超過95%,為96.3334%,依照PCA中選取貢獻(xiàn)率位85%以上的特征分量的原則,選擇貢獻(xiàn)率最高的分量作為隨機(jī)森林預(yù)測(cè)效果的實(shí)驗(yàn)數(shù)據(jù)。 表1 部分特征分量貢獻(xiàn)率 % 3.3.1 隨機(jī)森林預(yù)測(cè)模型構(gòu)建 根據(jù)所采用的實(shí)驗(yàn)數(shù)據(jù)和隨機(jī)森林的輸入輸出和結(jié)構(gòu),首先確定訓(xùn)練集和預(yù)測(cè)數(shù)據(jù),參考數(shù)據(jù)分析結(jié)果,將PCA降維處理后得到的984個(gè)數(shù)據(jù)點(diǎn)中能正確反映軸承故障退化趨勢(shì)的數(shù)據(jù)段中,701~900數(shù)據(jù)點(diǎn)作為訓(xùn)練集,901~920數(shù)據(jù)點(diǎn)作為預(yù)測(cè)數(shù)據(jù),并建立訓(xùn)練集的訓(xùn)練樣本特征空間S=[X,Y],其中X為訓(xùn)練集樣本空間如下: (1) (2) X的列數(shù)為26,為預(yù)測(cè)的步長(zhǎng),試驗(yàn)中分別選擇10、15、20、25和30作為步長(zhǎng),實(shí)驗(yàn)結(jié)果顯示當(dāng)步長(zhǎng)為25時(shí)隨機(jī)森林預(yù)測(cè)模型具備最佳的預(yù)測(cè)效果,因此預(yù)測(cè)步長(zhǎng)為25。隨機(jī)森林的樹的數(shù)量選定100~1000,以100為步長(zhǎng)步進(jìn),得到的結(jié)果為樹的數(shù)量設(shè)定為500時(shí)具有較好的預(yù)測(cè)精度。mtry設(shè)置為25,其他參數(shù)設(shè)置為默認(rèn)值。 3.3.2 實(shí)驗(yàn)結(jié)果分析 為了驗(yàn)證本文采用的隨機(jī)森林的預(yù)測(cè)效果,選取BP神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)比較兩者的預(yù)測(cè)精度。選用R方和RMSE以及MSE作為衡量預(yù)測(cè)值和實(shí)際值擬合優(yōu)度的標(biāo)準(zhǔn),圖4為原始數(shù)據(jù)點(diǎn)、隨機(jī)森林預(yù)測(cè)數(shù)據(jù)點(diǎn)和BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)數(shù)據(jù)點(diǎn)對(duì)比圖。 圖4 隨機(jī)森林與BP神經(jīng)網(wǎng)絡(luò)對(duì)比圖 從圖4可以看到,神經(jīng)網(wǎng)絡(luò)在較為平緩的部分預(yù)測(cè)值就出現(xiàn)了較大的偏差,并且有明顯的預(yù)測(cè)延遲的情況,而隨機(jī)森林的預(yù)測(cè)趨勢(shì)不但在較為平緩的地方和實(shí)際值一致,并且很好的反映了真實(shí)值在出現(xiàn)較大波峰時(shí)的趨勢(shì)情況,不僅實(shí)際反映退化趨勢(shì),同時(shí)具備精度較高的預(yù)測(cè)數(shù)值。表2為隨機(jī)森林算法和BP神經(jīng)網(wǎng)絡(luò)算法預(yù)測(cè)效果的RMSE值、R方值以及MSE值的比較結(jié)果??梢钥吹诫S機(jī)森林模型的R方值為0.9257,相比BP神經(jīng)網(wǎng)絡(luò)模型的0.8077提高了14.6%;RMSE值相對(duì)于神經(jīng)網(wǎng)絡(luò),降低了55%;隨機(jī)森林模型的MSEMSE值相較于BP神經(jīng)網(wǎng)絡(luò)的MSE值要小一個(gè)數(shù)量級(jí)。 表2 算法預(yù)測(cè)結(jié)果參數(shù)比較 提出了一種PCA-隨機(jī)森林算法用于提高機(jī)械故障診斷的趨勢(shì)預(yù)測(cè)精度。分析了PCA降維與隨機(jī)森林算法的建模,使用實(shí)際的軸承故障數(shù)據(jù)進(jìn)行了趨勢(shì)預(yù)測(cè)實(shí)驗(yàn)驗(yàn)證,并取用BP神經(jīng)網(wǎng)絡(luò)模型作為參照組,來對(duì)比隨機(jī)森林模型的預(yù)測(cè)效果,使用R方和RMSE以及MSE作為預(yù)測(cè)趨勢(shì)的精度評(píng)價(jià)指標(biāo),根據(jù)實(shí)驗(yàn)結(jié)果,BP神經(jīng)網(wǎng)絡(luò)在軸承趨勢(shì)預(yù)測(cè)中精度相對(duì)較低,并且不能很好的反映軸承退化趨勢(shì);隨機(jī)森林模型相對(duì)具備更高的預(yù)測(cè)精度,用時(shí)擬合效果較好。然而隨著使用的樹的數(shù)量增加,如本文中在精度較高的情況下,設(shè)置樹的數(shù)量為500棵,在較大的數(shù)據(jù)處理下,會(huì)對(duì)計(jì)算機(jī)造成比一般算法更大的計(jì)算壓力,預(yù)測(cè)時(shí)間也會(huì)顯著增加,后期將對(duì)隨機(jī)森林的其他參數(shù)進(jìn)行改進(jìn)提高運(yùn)算速度以及趨勢(shì)預(yù)測(cè)精度。 [1] 王曉勇. 故障預(yù)測(cè)和健康管理(PHM)及其應(yīng)用[J]. 中國(guó)電子商務(wù),2013(3):120-120. [2] 劉恩朋,楊占才,靳小波. 國(guó)外故障預(yù)測(cè)與健康管理系統(tǒng)開發(fā)平臺(tái)綜述[J]. 測(cè)控技術(shù),2014,33(9):1-4. [3] 曾聲奎,Pecht M G,吳際. 故障預(yù)測(cè)與健康管理(PHM)技術(shù)的現(xiàn)狀與發(fā)展[J]. 航空學(xué)報(bào),2005,26(5):626-632. [4] 續(xù)媛君,潘宏俠. 設(shè)備故障趨勢(shì)預(yù)測(cè)的分析與應(yīng)用[J]. 振動(dòng)、測(cè)試與診斷,2006,26(4):305-308. [5] 李 斌,章衛(wèi)國(guó),寧東方,等. 基于神經(jīng)網(wǎng)絡(luò)技術(shù)的飛機(jī)舵面故障趨勢(shì)預(yù)測(cè)研究[J]. 系統(tǒng)仿真學(xué)報(bào),2008(21):5840-5842. [6] Feng Z,Chu F,Song X. Application of general regression neural network to vibration trend prediction of Rotating machinery[M]. Advances in Neural Networks - ISNN 2004. Springer Berlin Heidelberg,2004:367-371. [7] Hajnayeb A,Ghasemloonia A,Khadem S E,et al. Application and comparison of an ANN-based feature selection method and the genetic algorithm in gearbox fault diagnosis[J]. Expert Systems with Applications,2011,38(8):10205-10209. [8] 謝松汕,許寶杰,吳國(guó)新,等. 基于 HMM/SVM 的風(fēng)電設(shè)備故障趨勢(shì)預(yù)測(cè)方法研究[J]. 計(jì)算機(jī)測(cè)量與控制,2014,22(1):39-41. [9] 李 波,趙 潔,郭 晉. 設(shè)備故障評(píng)估新指標(biāo)及基于ARMA的預(yù)測(cè)系統(tǒng)[J]. 系統(tǒng)工程與電子技術(shù),2011,33(1):98-101. [10] Rauber T W,Boldt F D A,Varej?o F M. Heterogeneous Feature Models and Feature Selection Applied to Bearing Fault Diagnosis[J]. IEEE Transactions on Industrial Electronics,2015,62(1):637-646. [11] 李 兵,張培林,任國(guó)全,等. 基于互信息的滾動(dòng)軸承故障特征選擇方法[J]. 測(cè)試技術(shù)學(xué)報(bào),2009,23(2):183-188. [12] 張 恒,趙榮珍. 故障特征選擇與特征信息融合的加權(quán)KPCA方法研究[J]. 振動(dòng)與沖擊,2014,33(9):89-93. [13] Surhone L M,Tennoe M T,Henssonow S F,et al. Random Forest[J]. Machine Learning,2010,45(1):5-32. [14] Tipping M E,Bishop C M. Probabilistic Principal Component Analysis[J]. Journal of the Royal Statistical Society,2010,61(3):611-622. [15] Quinlan J R. Induction on decision tree[J]. Machine Learning,1986,1(1):81-106.3 基于隨機(jī)森林的故障趨勢(shì)預(yù)測(cè)
3.1 實(shí)驗(yàn)數(shù)據(jù)
3.2 特征提取與PCA降維
3.3 實(shí)驗(yàn)方案及結(jié)果分析
4 結(jié)語