KPCA與LTSA融合的轉(zhuǎn)子故障數(shù)據(jù)集降維算法

2021-03-09 09:08趙榮珍陳昱吉

蘭州理工大學(xué)學(xué)報(bào) 2021年1期

趙榮珍, 陳昱吉

(蘭州理工大學(xué) 機(jī)電工程學(xué)院, 甘肅蘭州 730050)

旋轉(zhuǎn)機(jī)械狀態(tài)識(shí)別與故障診斷過程是典型的模式識(shí)別過程.在人工智能故障辨識(shí)技術(shù)發(fā)展中,特征提取是基礎(chǔ),識(shí)別方法是核心[1].

轉(zhuǎn)子故障是旋轉(zhuǎn)機(jī)械中最為常見且危害性巨大的一大類問題.對(duì)于旋轉(zhuǎn)機(jī)械系統(tǒng)的狀態(tài)監(jiān)測(cè),一般需要用多個(gè)傳感器在多個(gè)關(guān)鍵部位采集信息,然后從信號(hào)集合的時(shí)域、頻域、時(shí)頻域等多個(gè)方面提取出能夠全面反映故障狀態(tài)的特征量[2].顯然,這種信息利用方式使得經(jīng)特征提取獲得的故障狀態(tài)特征難以避免地存在著冗余特征,由此引發(fā)出了需要找出有效算法消除冗余信息,即降低數(shù)據(jù)維數(shù)的新問題.并且這種算法還必須具備能夠充分挖掘出敏感、本質(zhì)的故障特征信息矢量,降低故障分類的復(fù)雜度,提高故障識(shí)別精度等優(yōu)點(diǎn).

在關(guān)于降維問題的研究中,優(yōu)勢(shì)互補(bǔ)是一類開始受到關(guān)注的新興降維學(xué)習(xí)研究方向.Varini等[3]提出使用測(cè)地距離替代歐氏距離來進(jìn)行鄰域選擇,以有效地解決LLE算法在鄰域選擇過程中有可能會(huì)產(chǎn)生短路的問題,提升LLE算法的性能.劉元等[4]提出的核矩陣融合ISOMAP算法與LTSA(local tangent space alignment)算法,可以獲取流形結(jié)構(gòu)下全局與局部的特征信息.陳如清[5]通過引入Laplacian特征映射,提出了一種基于改進(jìn)最大方差展開的特征提取算法,在改進(jìn)算法中,局部以歐式距離、全局以測(cè)地線距離為尺度度量數(shù)據(jù)間的差異性,以更好地反映數(shù)據(jù)集的內(nèi)在幾何性質(zhì)；此外,借鑒LLE算法思路,通過最小化近鄰點(diǎn)間距離實(shí)現(xiàn)流形結(jié)構(gòu)保持.馬萍等[6]引入正交約束的概念,提出了低維敏感特征提取方法,有效利用局部與全局結(jié)構(gòu)保持,提取敏感故障特征,有助于提高故障的識(shí)別率.

一般來說,描述數(shù)據(jù)結(jié)構(gòu)的特征量包括兩種.其一,是全局距離關(guān)系,它描述的是數(shù)據(jù)整體結(jié)構(gòu),反映的是數(shù)據(jù)外部形態(tài).其二,是局部鄰域關(guān)系,它描述的是數(shù)據(jù)近鄰點(diǎn)排列,反映的是數(shù)據(jù)內(nèi)在屬性.核主成份分析(kernel principal component analysis,KPCA)能夠最大限度地保持全局分布信息方差不變,提取出故障信息的非線性特征,得到對(duì)故障狀態(tài)的最佳描述[7].局部切空間排列(LTSA)是一種有效的流形學(xué)習(xí)降維算法,能夠較好地探求高維數(shù)據(jù)集的低維流形結(jié)構(gòu),并且廣泛應(yīng)用于高維數(shù)據(jù)的可視化、人臉識(shí)別、遙感圖像分類等各領(lǐng)域[8].

本研究欲探討KPCA與LTSA相結(jié)合實(shí)現(xiàn)算法優(yōu)勢(shì)互補(bǔ)的轉(zhuǎn)子故障數(shù)據(jù)集降維算法.欲為轉(zhuǎn)子故障數(shù)據(jù)集的分類提供一種更優(yōu)的理論依據(jù).

1 相關(guān)降維算法原理簡介

數(shù)據(jù)集Xn×D由n個(gè)D維的數(shù)據(jù)向量xi組成,降維就是將高維數(shù)據(jù)集X轉(zhuǎn)化為d維的數(shù)據(jù)集Y,其中本征維數(shù)d?D,同時(shí)盡可能地保持原高維數(shù)據(jù)的幾何結(jié)構(gòu)信息.降維的意義在于降低了時(shí)間和空間的復(fù)雜度,實(shí)現(xiàn)了數(shù)據(jù)的可視化,因此可提高數(shù)據(jù)挖掘的速度.

1.1 KPCA算法原理

KPCA算法是一種非線性主元分析方法.該算法的主要思想是:首先在原始樣本集X={xi|i=1,2,…,n;xi∈Rd}輸入后,利用非線性映射函數(shù)Φ(x)將X變換到高維特征空間G,然后在這個(gè)新的空間G中完成主成分分析.KPCA通過引用滿足Mercer條件的核函數(shù)來替換特征空間中樣本的內(nèi)積運(yùn)算,借此處理“維數(shù)災(zāi)難”問題.

1.2 LTSA算法原理

LTSA算法是非線性數(shù)據(jù)集降維的主要方法之一[9].該算法的主要步驟是:首先找出每個(gè)數(shù)據(jù)點(diǎn)的鄰近點(diǎn),用鄰域中低維切空間坐標(biāo)近似地表示局部的非線性幾何特征；然后,通過變換矩陣將各數(shù)據(jù)點(diǎn)鄰域切空間的局部坐標(biāo)映射到統(tǒng)一的全局坐標(biāo)上；最后,將求解整體嵌入坐標(biāo)問題轉(zhuǎn)換為求解矩陣的特征值問題,實(shí)現(xiàn)高維數(shù)據(jù)的維數(shù)約簡.

在上述兩種算法中,KPCA具有較強(qiáng)的綜合原始數(shù)據(jù)全局分布方差特征信息的能力,能有效地提取非線性特征信息,但是它對(duì)數(shù)據(jù)樣本的局部幾何關(guān)系的處理能力較弱.LTSA是一種假設(shè)全局非線性、局部線性的數(shù)據(jù)降維方法,能很好地對(duì)部分非線性數(shù)據(jù)進(jìn)行降維.LTSA在稠密采樣時(shí)能夠基本描述原始數(shù)據(jù)的拓?fù)鋷缀谓Y(jié)果,但稀疏采樣時(shí)的低維嵌入結(jié)果則較為雜亂,無法反映數(shù)據(jù)的幾何結(jié)構(gòu).鑒于上述兩種算法各自的優(yōu)缺點(diǎn),故本研究欲將這兩個(gè)算法融合,使新的算法可以同時(shí)保持這兩種算法的優(yōu)點(diǎn),使提取到的特征更有效,實(shí)現(xiàn)保留更多信息的效果.

2 KPCA和LTSA融合的降維算法設(shè)計(jì)

根據(jù)節(jié)1的分析,為了充分利用非線性數(shù)據(jù)集的全局與局部特征信息,本小節(jié)欲借助核矩陣K提出融合全局與局部特征信息的降維算法.根據(jù)Mercer定理可得:若K1、K2是核矩陣,則K1+K2、αK1(α≥0)也應(yīng)該是核矩陣.因此,一種最簡單的能同時(shí)保持?jǐn)?shù)據(jù)集局部特性和全局特性的特征矩陣就可寫為K1+K2[10]形式.

考慮到K1和K2是兩個(gè)不同參考系下的量,這兩個(gè)矩陣的數(shù)值會(huì)有很大的差距.所以需要引入一個(gè)平衡參數(shù),以靈活調(diào)整這兩個(gè)量在整個(gè)算法中的比重[11].本研究提出的一種既可以保持?jǐn)?shù)據(jù)點(diǎn)間的全局距離關(guān)系又可以保持局部鄰域關(guān)系的核矩陣,可表示為

KKPCA-LTSA=(1-α)KKPCA+αKLTSA

(1)

式中:α為引入的平衡參數(shù).

核函數(shù)KKPCA-LTSA融合了KKPCA與KLTSA的優(yōu)點(diǎn),能夠反映出一個(gè)數(shù)據(jù)集X的全局與局部的特征信息,KPCA和LTSA兩種算法的核矩陣求取過程如下:

1) 保持全局距離的核KKPCA

在KPCA算法運(yùn)算中,通常假定映射函數(shù)Φ(x1),Φ(x2),…,Φ(xn)的均值是0.由于通過核函數(shù)計(jì)算的核矩陣并不能保證滿足該條件,所以需要對(duì)矩陣K進(jìn)行雙中心化,即B=-HKH/2；其中，H=I-eeT/n,e= [1, 1,…,1]T.

對(duì)矩陣B進(jìn)行特征值分解,得到低維嵌入坐標(biāo),矩陣B是半正定的.設(shè)

(2)

式中:β為一較小的值.加入擾動(dòng)因子后,KKPCA應(yīng)為正定的,那么KKPCA可以作為KPCA算法的核矩陣.

2) 保持近鄰關(guān)系的核KLTSA

在LTSA算法運(yùn)算中,令矩陣T=λmaxI-M,其中,λmax是矩陣M的最大特征值,M=ΦΦT.由于矩陣M存在0特征值和對(duì)應(yīng)的特征向量e,則由T的前第2～(d+1)個(gè)最大的特征值對(duì)應(yīng)的特征向量組成全局低維嵌入坐標(biāo)Y.

對(duì)矩陣T進(jìn)行雙向中心化,消掉矩陣T的最大特征值對(duì)應(yīng)的特征向量e,得到：

(3)

式中:N為樣本個(gè)數(shù);e=[1, 1,…,1]T.

為了將式(2)和式(3)按照式(1)進(jìn)行融合,本節(jié)所設(shè)計(jì)的融合算法具體實(shí)現(xiàn)步驟如下:

輸入:X={x1,x2,x3,…,xn│xi∈Rd}

輸出:Y={y1,y2,y3,…,yd│yj∈Rn,n≤d}

Step1:用k近鄰法確定每個(gè)數(shù)據(jù)點(diǎn)的鄰域.

Step3:確定低維坐標(biāo)Y

引入約束條件YTY=I,對(duì)新的核矩陣KKPCA-LTSA=(1-α)KKPCA+αKLTSA進(jìn)行特征值分解,計(jì)算前d個(gè)最大的特征值{λ1,λ2,…,λd}和對(duì)應(yīng)的特征向量{v1,v2,…,vd},即可求得:

3 實(shí)驗(yàn)結(jié)果

為驗(yàn)證節(jié)2算法的有效性,本研究使用圖1所示的雙跨轉(zhuǎn)子實(shí)驗(yàn)臺(tái)為對(duì)象.通過模擬四種典型故障,即:軸承松動(dòng)、動(dòng)靜碰摩、質(zhì)量不平衡和軸系不對(duì)中,以及正常狀態(tài)獲取實(shí)驗(yàn)數(shù)據(jù).實(shí)驗(yàn)臺(tái)在6個(gè)關(guān)鍵截面的相互垂直方位上共布置了12個(gè)電渦流傳感器，采集轉(zhuǎn)子系統(tǒng)的振動(dòng)信號(hào).此外還在電機(jī)端安置了第13個(gè)通道電渦流傳感器,用來拾取轉(zhuǎn)速信號(hào).設(shè)置驅(qū)動(dòng)電機(jī)的轉(zhuǎn)速為2 800 r/min、采樣頻率為5 000 Hz.

圖1 雙跨轉(zhuǎn)子實(shí)驗(yàn)臺(tái)Fig.1 Double-span rotor test bench

每種故障共50組樣本,從振動(dòng)信號(hào)的時(shí)域、頻域、時(shí)頻域中提取不同的故障特征量,表1為從每個(gè)通道信號(hào)中提取的量化特征情況.由于該特征集含有大量干擾及不敏感特征,因此需要通過特征選擇算法進(jìn)行特征篩選.本研究利用類間可分性算法[12],從12×23=276個(gè)特征集中選取其中110個(gè)敏感特征作為輸入特征集.圖2為提取的雙跨轉(zhuǎn)子故障數(shù)據(jù)集在三維空間的描述情況.

表1 各通道故障特征參數(shù)Tab.1 Fault characteristic parameters for each channel

圖2 原始數(shù)據(jù)樣本Fig.2 Samples from raw data

將提取的雙跨轉(zhuǎn)子故障數(shù)據(jù)集經(jīng)過KPCA-LTSA算法進(jìn)行處理，其中通過多次模擬和分析，選取了權(quán)重因子α為0.6、0.7和0.8,同時(shí)再單獨(dú)使用KPCA、LTSA等算法進(jìn)行處理.由于近鄰參數(shù)k的選擇影響鄰域圖的構(gòu)造,故本文采用了trial-and-error方法[13]找出最佳k,取k=8；算法的降維維數(shù)d采用基于最大似然估計(jì)(maximum likelihood estimate,MLE)[14]的本征維數(shù)估計(jì)方法確定,取d=3.得到的降維后樣本在三維空間中的特征量分布情況見圖3.

圖3 基于不同算法的測(cè)試樣本的降維結(jié)果Fig.3 Dimensionality reduction results of tested samples based on different algorithms

根據(jù)類間可分性判據(jù)[15]對(duì)圖3進(jìn)行分析,即:同類樣本內(nèi)的距離越小,異類樣本間的距離越大,則數(shù)據(jù)的可分性越好.從圖3可看出:在三維空間描述情況下,不同α取值的圖3a、3b、3c都成功實(shí)現(xiàn)降維,能很好地將正常和故障的特征數(shù)據(jù)分離,而且故障特征數(shù)據(jù)之間也可以很好地分開,幾乎不存在重疊區(qū).特別是圖3a中α=0.7時(shí),KPCA-LTSA算法的降維效果最好.而圖3b中各故障部分樣本間的距離較小,降維效果未達(dá)到最佳狀態(tài),說明此時(shí)權(quán)重因子的取值還可以再優(yōu)化.圖3c中各故障狀態(tài)間的距離較大,但其同類樣本內(nèi)的距離沒有圖3a大,這說明此時(shí)權(quán)重因子的取值沒有圖3a時(shí)的合適.圖3d的KPCA算法的降維效果最差,雖然不對(duì)中、不平衡和松動(dòng)三類故障數(shù)據(jù)基本被分開成為三類,但是各故障間存在著一定程度的交叉混疊,尤其是軸承松動(dòng)與正常狀態(tài)大部分是混淆的.圖3e的LTSA算法降維后的各故障間交叉重疊較少,但部分狀態(tài)間的距離較為接近,差別較小,不易于分類,尤其是不對(duì)中和松動(dòng)兩種故障最為接近.從總體上來說,節(jié)2提出的融合算法明顯優(yōu)于單獨(dú)使用KPCA或LTSA算法的降維效果.

分析比較KPCA算法、LTSA算法和α=0.7時(shí)KPCA-LTSA算法的降維效果及識(shí)別率,結(jié)果見表2.可以看出,KPCA-LTSA算法性能要高于KPCA或LTSA算法的,這說明KPCA-LTSA算法具有較強(qiáng)的全局與局部判別信息挖掘能力,表明本研究提出的KPCA-LTSA算法比傳統(tǒng)的降維算法能夠獲得更高的故障識(shí)別精度.

表2 分類辨識(shí)算法及其 KNN 辨識(shí)準(zhǔn)確率Tab.2 Classification identification algorithm and its KNN identification accuracy

4 結(jié)論

本文通過研究KPCA算法和LTSA算法的優(yōu)劣性,提出了KPCA與LTSA融合的故障數(shù)據(jù)集維數(shù)約簡的故障分類辨識(shí)算法.該算法能夠綜合考慮全局距離關(guān)系和局部鄰域關(guān)系,對(duì)故障類別的分類更準(zhǔn)確、更全面,適用于多類樣本問題.經(jīng)過模擬雙跨轉(zhuǎn)子實(shí)驗(yàn)臺(tái)故障的實(shí)驗(yàn),結(jié)果顯示,與其他降維算法相比，KPCA-LTSA具有更強(qiáng)的降維能力,更高的故障識(shí)別精度.并且該算法可以根據(jù)實(shí)際需要靈活調(diào)整KPCA和LTSA算法的權(quán)重關(guān)系,使用時(shí)可以通過多次實(shí)驗(yàn),解出最合適的權(quán)重因子α,使降維效果達(dá)到最理想狀態(tài).這種融合降維算法可為旋轉(zhuǎn)機(jī)械中高維、非線性、大規(guī)模故障數(shù)據(jù)集的處理，提供一種優(yōu)秀的、全面多層次的降維與故障分類解決方案.