国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于皮爾遜相關(guān)系數(shù)的滾動(dòng)軸承混合域特征選擇方法

2022-05-27 08:26王海瑞常夢(mèng)容
化工自動(dòng)化及儀表 2022年3期
關(guān)鍵詞:皮爾遜特征選擇頻域

肖 楊 李 亞 王海瑞 常夢(mèng)容

(昆明理工大學(xué)信息工程與自動(dòng)化學(xué)院)

時(shí)域、頻域、時(shí)頻域各類特征作為具有顯著類別差異信息的非平穩(wěn)統(tǒng)計(jì)特征,能有效提高滾動(dòng)軸承狀態(tài)監(jiān)測(cè)和故障診斷的性能和效率,因此研究人員在此方面開展了廣泛的研究[1]。 熊鵬博和王曉東提出了一種基于多時(shí)域特征與支持向量機(jī)(Support Vector Machines,SVM)的單向閥故障診斷方法[2]。 馬欣欣和郭敏將采集到的信號(hào)進(jìn)行集合經(jīng)驗(yàn)?zāi)B(tài)分解 (Ensemble Empirical Mode Decomposition,EEMD), 得到若干個(gè)固有模態(tài)函數(shù)分量(IMF)[3],然后在前三階IMF的基礎(chǔ)上提取時(shí)域、頻域和希爾伯特域特征,融合提取的特征組成多域特征向量組,最后送入支持向量機(jī)分類器中進(jìn)行分類。 彭濤等對(duì)原始信號(hào)分別生成時(shí)域、頻域狀態(tài)特征[4],并利用多分辨率小波分解生成時(shí)頻域狀態(tài)特征, 構(gòu)建出144個(gè)表征原始振動(dòng)信號(hào)特征的混合域特征集。 李大江提出一種基于局部均值分解(LMD)和共空間模式(CSP)的時(shí)-頻-空多域特征提取方法[5]。

上述研究中用于分析的數(shù)據(jù)集包含數(shù)百個(gè)特征(或?qū)傩裕渲写蠖鄶?shù)可能與故障診斷系統(tǒng)任務(wù)無關(guān)或冗余,因此,特征提取、特征降維和特征篩選顯得尤其重要。 戴豪民等采用加權(quán)最大相關(guān)最小冗余的特征選擇方法[6],選取7個(gè)有效特征向量,輸入至SVM得到不錯(cuò)的效果。 Tang X H等利用特征對(duì)特征的最大信息系數(shù)(MIC)得到的弱相關(guān)特征子集和特征對(duì)類別的最大信息系數(shù)(MIC)得到的強(qiáng)相關(guān)特征子集[7],通過交集運(yùn)算合并為最終的診斷特征集,在一定程度上減少了特征數(shù)量。 白麗麗等利用拉普拉斯(LP)對(duì)能表征狀態(tài)的特征進(jìn)行選擇[8],將選擇得到的數(shù)據(jù)輸入到鯨魚算法優(yōu)化的SVM進(jìn)行模式識(shí)別,證明了特征提取的有效性。 但這些降維方法對(duì)軸承故障的特征集線性相關(guān)性過高且包含大量的冗余信息,所得到的低維空間對(duì)原始信號(hào)的解釋具有一定的片面性。

為了解決單域特征難以表達(dá)原始信號(hào)的振動(dòng)規(guī)律、高維特征容易發(fā)生過擬合并且容易引發(fā)維數(shù)災(zāi)難的問題,同時(shí)處理好冗余性、相關(guān)性問題, 筆者提出了基于皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient,PCC)的滾動(dòng)軸承混合域特征選擇方法,通過多元信息特征向量組確定一組高質(zhì)量特征來進(jìn)行穩(wěn)定的預(yù)測(cè)。 首先從原始信號(hào)中提取6個(gè)時(shí)域無量綱向量、10個(gè)時(shí)域有量綱向量、4個(gè)頻域特征向量、6個(gè)小波變換特征向量和10 個(gè)自適應(yīng)噪聲的完整集成經(jīng)驗(yàn)?zāi)B(tài)分解(CEEMDAN)特征向量,結(jié)合提取出的特征參數(shù),構(gòu)造軸承故障混合域特征集。其次,運(yùn)用PCC進(jìn)行特征選擇, 對(duì)提取的混合域特征進(jìn)行相關(guān)性分析,根據(jù)相關(guān)性,從特征集中剔除不相關(guān)和冗余的特征,提取出易于識(shí)別的低維主特征向量。 最后將低維特征集導(dǎo)入到隨機(jī)森林中作為模式識(shí)別的輸入。

1 混合域特征集的構(gòu)成

1.1 時(shí)域特征集

時(shí)域信息是以時(shí)間為變量描繪出信號(hào)的波形,作為衡量信號(hào)特征的重要指標(biāo)[9]。時(shí)域信號(hào)包括量綱特征參數(shù)和無量綱特征參數(shù)[10]。 筆者主要引入6個(gè)時(shí)域無量綱參數(shù)、10個(gè)時(shí)域有量綱參數(shù),組成16維時(shí)域特征向量構(gòu)成時(shí)域特征集,包括最大值、最小值、峰值、峰峰值、平均值、絕對(duì)平均值、方根幅值、方差、標(biāo)準(zhǔn)差、有效值、峭度、偏度、波形因子、峰值因子、脈沖因子和峪度因子。

1.2 頻域特征集

頻域信息是以頻率為變量描繪出頻率信號(hào)的幅度,作為衡量信號(hào)特征的重要指標(biāo)。 筆者通過提取4個(gè)常用的頻域特征向量來構(gòu)成頻域特征集,包括平均頻率、重心頻率、均方根頻率和頻率標(biāo)準(zhǔn)差。 在構(gòu)造頻域特征集之前,采用傅里葉分析對(duì)原始信號(hào)進(jìn)行處理。

1.3 時(shí)頻域特征集

1.3.1 小波時(shí)頻域特征集

小波分解主要是以短時(shí)傅里葉變換的理論為基礎(chǔ)通過小波函數(shù)對(duì)時(shí)間序列進(jìn)行細(xì)致描述[11],因此可在不同維度進(jìn)行信號(hào)分析[12]。 若滾動(dòng)軸承在某一時(shí)刻發(fā)生突變,單獨(dú)依靠原始信號(hào)并不能對(duì)故障點(diǎn)進(jìn)行準(zhǔn)確描述,需要從時(shí)間序列的不同維度對(duì)信號(hào)進(jìn)行分析,包括整體性分析和局部分析,因此通過小波分解的方法能夠?qū)r(shí)間序列進(jìn)行全面的刻畫,從而準(zhǔn)確定位故障振動(dòng)沖擊時(shí)刻[13]。

1.3.2 CEEMDAN分解時(shí)頻域特征集

CEEMDAN方法通過自適應(yīng)加入白噪聲,克服了EEMD方法的模態(tài)混疊問題, 獲得了較好的模態(tài)分離譜,同時(shí)提高了運(yùn)算效率[14],因此筆者提取CEEMDAN分解后的各分量的時(shí)頻域特征,包括排列熵和瞬時(shí)能量,確保達(dá)到一個(gè)良好的特征分析效果。

2 特征選擇

特征選擇的目的不僅僅是為數(shù)據(jù)降維,還要消除冗余和無關(guān)的特性[15]。 通過度量特征間的相關(guān)性,可以消除冗余特征。 兩個(gè)特征之間的相關(guān)性越強(qiáng),它們之間的冗余性和可替代性就越強(qiáng)[16]。 此外,通過測(cè)量特征與類別之間的相關(guān)性,可以消除不相關(guān)的特征。 特征選擇一般包括3個(gè)步驟:

a. 搜索。 在特征空間中搜索特征子集,每個(gè)子集被稱為一個(gè)狀態(tài),由選定的特性組成。

b. 評(píng)價(jià)。 輸入一個(gè)狀態(tài)(子集),通過評(píng)價(jià)函數(shù)或預(yù)置的閾值輸出評(píng)價(jià)值,使評(píng)價(jià)值達(dá)到最優(yōu)值。

c. 分類。 使用最終的特征集完成分類算法。

皮爾遜相關(guān)系數(shù)是由卡爾·皮爾遜提出的,定義為秩變量之間的相關(guān)系數(shù)[17]。 對(duì)于容量為n的樣本,將n個(gè)原始數(shù)據(jù)轉(zhuǎn)換為等級(jí)數(shù)據(jù),相關(guān)系數(shù)為:

其中,rxy表示兩個(gè)變量x、y之間的線性相關(guān)程度,rxy的值在-1和+1之間;x=[x1,x2,…,xn],y=[y1,x2,…,yn];、分別為xi、yi的平均值。

若rxy>0,表示兩個(gè)變量正相關(guān),即一個(gè)變量的值越大,另一個(gè)變量的值也越大;若rxy<0,則表示兩個(gè)變量負(fù)相關(guān);當(dāng)rxy=0時(shí),表示x和y不相關(guān)。 相關(guān)系數(shù)絕對(duì)值越大,相關(guān)性越強(qiáng);相關(guān)系數(shù)絕對(duì)值越接近0,相關(guān)性越弱[18]。 一般情況下,變量的相關(guān)強(qiáng)度由以下取值范圍來判斷:相關(guān)系數(shù)絕對(duì)值在0.8~1.0,非常強(qiáng)相關(guān);在0.6~0.8,強(qiáng)相關(guān);在0.4~0.6,中等相關(guān);在0.2~0.4,弱相關(guān);在0.0~0.2,非常弱相關(guān)或不相關(guān)。

3 實(shí)驗(yàn)

3.1 軸承故障數(shù)據(jù)說明

實(shí)驗(yàn)采用的是美國(guó)凱斯西儲(chǔ)大學(xué)軸承數(shù)據(jù)中心采集的軸承故障數(shù)據(jù)集。 數(shù)據(jù)集包含正常、內(nèi)圈故障、滾動(dòng)體故障和外圈故障(6點(diǎn)鐘方向)4種不同狀態(tài)的數(shù)據(jù), 除正常數(shù)據(jù)外每種狀態(tài)有3種故障深度類型, 直徑分別為0.177 8、0.355 6、0.533 4 mm,即共10類故障類別。軸承電機(jī)載荷為0,軸承轉(zhuǎn)速為1 797 r/min。 每類數(shù)據(jù)劃分為115個(gè)分類樣本,10類總共1 150個(gè)樣本。 訓(xùn)練集大小為700,即每類70個(gè),測(cè)試集為450個(gè),每類45個(gè)。 分類情況見表1, 其中IF、RF、OF分別為內(nèi)圈、 滾動(dòng)體、外圈故障(6點(diǎn)鐘方向)。

表1 軸承數(shù)據(jù)集描述

3.2 實(shí)驗(yàn)特征提取

本實(shí)驗(yàn)中, 每類原始時(shí)間序列的總長(zhǎng)度為117 760,將其切分為115份,每份長(zhǎng)度為1 024,分別提取每段時(shí)間序列的時(shí)域、頻域以及時(shí)頻域共36個(gè)特征。 原始特征向量記為A1,A2, …,An,n=1024,提取出新的特征向量表示為B1,B2,…,Bm,m=36(m<n),fi為其對(duì)應(yīng)映射函數(shù),可表示為:

Bi=fi(A1,A2,…,An),i∈[1,m]

1~10為有量綱向量時(shí)域特征, 分別為最大值、最小值、峰值、峰峰值、平均值、絕對(duì)平均值、方根幅值、方差、標(biāo)準(zhǔn)差和有效值;11~16為無量綱向量時(shí)域特征,分別為峭度、偏度、波形因子、峰值因子、 脈沖因子和裕度因子;17~20為頻域特征,分別為平均頻率、重心頻率、頻率均方根和頻率標(biāo)準(zhǔn)差。

時(shí)頻特征主要提取小波變換和CEEMDAN相關(guān)特征。 其中, 小波變換將原始振動(dòng)信號(hào)進(jìn)行3層分解,劃分成8個(gè)子頻帶。 由于前4個(gè)子頻帶包含了原始信號(hào)的大部分能量, 因此提取前4個(gè)子頻帶小波尺度熵, 再提取信號(hào)的小波能量譜熵和小波奇異熵, 構(gòu)成其中一個(gè)時(shí)頻特征子集。

分別對(duì)10類信號(hào)原始信號(hào)進(jìn)行CEEMDAN分解,得到8個(gè)固有模態(tài)分量,如圖1所示。 第1個(gè)分量信號(hào)的振動(dòng)頻率比其他分量的大, 而第2~6分量相比其他分量振動(dòng)頻率更符合高次諧波的特征,所有分量能量大多集中在第2~6個(gè)分量中,并且在時(shí)間周期范圍內(nèi)具有正弦波的特性,屬于有效分量。 而剩余分量含有的能量信息較少,振動(dòng)沖擊特征不突出,與原始信號(hào)無太大關(guān)系,可視為無效分量。 因此,選取第2~6分量,并提取出各個(gè)模態(tài)的排列熵和瞬時(shí)能量,作為整個(gè)故障診斷數(shù)據(jù)的一個(gè)子集。

圖1 CEEMDAN分解圖

3.3 實(shí)驗(yàn)分析

本次實(shí)驗(yàn)將提取到的混合域特征進(jìn)行相關(guān)性分析,分別計(jì)算每個(gè)特征向量與其他特征的皮爾遜相關(guān)系數(shù)值,并求其絕對(duì)值。 由于離群值對(duì)皮爾遜相關(guān)性分析較為敏感,若特征中存在離群點(diǎn),則計(jì)算結(jié)果將小于實(shí)際計(jì)算結(jié)果,從而對(duì)特征分析產(chǎn)生錯(cuò)誤的判斷, 圖2為隨機(jī)抽取部分特征散點(diǎn)分布圖。

本實(shí)驗(yàn)用中位數(shù)對(duì)離群點(diǎn)進(jìn)行替換處理,以確保皮爾遜相關(guān)系數(shù)的有效性。 圖2a顯示未處理前皮爾遜相關(guān)系數(shù)值為0.434, 由圖明顯可得出兩個(gè)特征向量存在相關(guān)關(guān)系, 但由于離群值的干擾,相關(guān)系數(shù)減小,使得計(jì)算結(jié)果與實(shí)際分布產(chǎn)生較大誤差,由中位數(shù)替代之后,重新計(jì)算皮爾遜相關(guān)系數(shù)為0.632, 計(jì)算結(jié)果符合特征規(guī)律。 表2為圖2a~d未處理和已處理的相關(guān)系數(shù)值變化情況。

表2 圖2a~d相關(guān)系數(shù)在離群點(diǎn)處理前后的變化

圖2 隨機(jī)抽取部分特征散點(diǎn)分布

設(shè)置皮爾遜相關(guān)系數(shù)閾值為0.450,再分別統(tǒng)計(jì)每類特征與其他特征的相關(guān)性的強(qiáng)弱, 大于0.450說明具有強(qiáng)相關(guān)性, 小于0.450說明特征之間弱相關(guān),并根據(jù)弱相關(guān)性大小進(jìn)行排序。 表3為計(jì)算的平均皮爾遜相關(guān)系數(shù)值,按由弱到強(qiáng)進(jìn)行排序。

表3 計(jì)算的平均皮爾遜相關(guān)系數(shù)值

(續(xù)表3)

皮爾遜相關(guān)系數(shù)越大相關(guān)性越強(qiáng),對(duì)于故障診斷越不利,因此需要篩選出相關(guān)性較弱的特征向量。 第1個(gè)特征向量與其他特征向量的相關(guān)性最弱,相關(guān)系數(shù)平均值僅為0.036,接近于零,對(duì)于分類具有較好的表現(xiàn)。而相關(guān)性最高的幾個(gè)特征向量的值已經(jīng)超過閾值,表明其本身包含的特征信息與其他特征向量重復(fù)概率較大, 可以剔除。

為了更直觀地比較特征間的相關(guān)關(guān)系, 同時(shí)選取具有最小相關(guān)關(guān)系的特征向量(CEEMDAN第一分量的排列熵值) 和具有最大相關(guān)關(guān)系的特征向量(峰峰值)進(jìn)行相關(guān)性實(shí)驗(yàn),如圖3、4所示,每個(gè)特征隨機(jī)抽取4個(gè)特征與之進(jìn)行分析,繪制散點(diǎn)圖。為了排除隨機(jī)實(shí)驗(yàn)的影響,本次實(shí)驗(yàn)共進(jìn)行了5次,統(tǒng)計(jì)每次實(shí)驗(yàn)的平均相關(guān)系數(shù)值,結(jié)果見表4。

圖3 CEEMDAN第一分量排列熵與隨機(jī)特征相關(guān)關(guān)系散點(diǎn)圖

圖4 峰峰值與隨機(jī)特征相關(guān)關(guān)系散點(diǎn)圖

表4 5次實(shí)驗(yàn)平均相關(guān)系數(shù)

由圖3、4可知,基于CEEMDAN第一分量的排列熵與其他特征均無明顯的相關(guān)性特點(diǎn),點(diǎn)的分布規(guī)律較為均勻, 大多數(shù)表現(xiàn)為弱相關(guān)關(guān)系,是較為理想的分類特征。 而峰峰值與其他特征的分布特點(diǎn)是由左下角分布到右上角,呈現(xiàn)較強(qiáng)的正相關(guān)關(guān)系,點(diǎn)的分布擬合接近一條直線,不具有分類利用價(jià)值。

由表4數(shù)據(jù)可計(jì)算出峰峰值與其余全部特征的平均相關(guān)系數(shù)SAVG為0.462,已經(jīng)大于0.450的閾值,且在進(jìn)行隨機(jī)實(shí)驗(yàn)時(shí),相關(guān)系數(shù)浮動(dòng)較大。 而CEEMDAN第一分量排列熵的SAVG僅為0.036 1,遠(yuǎn)低于峰峰值的,并且在進(jìn)行隨機(jī)抽取時(shí),其實(shí)驗(yàn)結(jié)果均在平均值上下較小范圍內(nèi)浮動(dòng),具有較強(qiáng)魯棒性。 同時(shí),將篩選后的特征向量集進(jìn)行故障診斷,建立7個(gè)診斷模型進(jìn)行準(zhǔn)確率對(duì)比,模型分別為基于原始時(shí)域的故障診斷方法、基于原始頻域的故障診斷方法、基于原始時(shí)頻域的故障診斷方法、基于最大信息系數(shù)(MIC)的故障診斷方法、基于PCA降維的故障診斷方法以及基于原始混合域特征的故障診斷方法,分類方法采用隨機(jī)森林(rf)進(jìn)行分類,MIC-rf模型和PCA-rf模型均在本實(shí)驗(yàn)特征向量集下進(jìn)行特征降維或篩選,具體數(shù)據(jù)見表5。

表5 7種分類模型性能比較

首先從準(zhǔn)確率方面進(jìn)行分析,基于原始頻域的故障診斷方法準(zhǔn)確率約為81.00%,說明頻域特征表現(xiàn)力不強(qiáng),對(duì)故障不能進(jìn)行很好的識(shí)別。 而基于MIC的故障診斷方法和基于PCA的故障診斷方法由于特征選擇錯(cuò)誤,導(dǎo)致重要性較高的特征被剔除,準(zhǔn)確率僅約為85.00%。 識(shí)別準(zhǔn)確率最高的為筆者所提出的方法和基于原始混合域的故障診斷方法,準(zhǔn)確率可達(dá)約97.00%,因此可看出混合域特征集經(jīng)過PCC篩選后, 重要性較高的特征向量得以保留,相關(guān)性較強(qiáng)的特征被剔除。

再?gòu)倪\(yùn)行時(shí)間角度進(jìn)行分析, 通過表5可看出基于MIC的故障診斷方法由于其近似算法計(jì)算時(shí)間較長(zhǎng), 導(dǎo)致其診斷時(shí)間遠(yuǎn)遠(yuǎn)超過其他模型。剩余模型的診斷時(shí)間相比MIC模型較好, 但與筆者提出的方法也有一定差距。 同時(shí),從表中可看出雖然基于原始混合域的故障診斷模型準(zhǔn)確率較高,但筆者提出的方法僅需約2 s便達(dá)到較高準(zhǔn)確率,與原始混合域的故障診斷模型相比診斷時(shí)間縮短近2倍。 因此,從診斷準(zhǔn)確率和運(yùn)行時(shí)間進(jìn)行綜合考慮,筆者提出的基于皮爾遜相關(guān)系數(shù)的研究方法具有更大的優(yōu)勢(shì)。

4 結(jié)論

4.1 針對(duì)單個(gè)特征故障診斷精度不高、特征提取和特征集構(gòu)建困難的問題,分別從原始信號(hào)的時(shí)域、 頻域和時(shí)頻域提取各個(gè)維度的綜合特征參數(shù),充分利用了不同維度的有效信息。

4.2 為解決高維數(shù)據(jù)冗余性過高、相關(guān)性較強(qiáng)的缺點(diǎn),提出利用皮爾遜相關(guān)系數(shù)對(duì)混合域特征集進(jìn)行特征篩選,降低特征集相關(guān)性,為后續(xù)故障識(shí)別提供較為合理干凈的數(shù)據(jù)。

4.3 所提的基于皮爾遜相關(guān)系數(shù)的混合域軸承故障診斷方法,分類準(zhǔn)確率可達(dá)97.32%,相比其他方法有較為明顯的優(yōu)勢(shì), 在進(jìn)行特征選擇后,準(zhǔn)確率未出現(xiàn)明顯下降,具有較高的工程應(yīng)用價(jià)值。

猜你喜歡
皮爾遜特征選擇頻域
基于鄰域區(qū)間擾動(dòng)融合的無監(jiān)督特征選擇算法框架
基于頻域的聲信號(hào)計(jì)權(quán)改進(jìn)算法
現(xiàn)代統(tǒng)計(jì)學(xué)之父:卡爾·皮爾遜
現(xiàn)代統(tǒng)計(jì)學(xué)之父:卡爾·皮爾遜
Excel在水文學(xué)教學(xué)中的應(yīng)用
卡方分布的探源
頻域稀疏毫米波人體安檢成像處理和快速成像稀疏陣列設(shè)計(jì)
基于詞向量的文本特征選擇方法研究
網(wǎng)絡(luò)控制系統(tǒng)有限頻域故障檢測(cè)和容錯(cuò)控制
基于特征聚類集成技術(shù)的在線特征選擇