林曇濤,牛青波,馬天旭,王強(qiáng),朱永生
(1.西安交通大學(xué) 現(xiàn)代設(shè)計(jì)與轉(zhuǎn)子軸承系統(tǒng)教育部重點(diǎn)實(shí)驗(yàn)室,西安 710049;2.洛陽(yáng)軸承研究所有限公司, 河南 洛陽(yáng) 471039)
軸承是機(jī)械設(shè)備的關(guān)鍵部件,對(duì)其運(yùn)行狀態(tài)進(jìn)行有效的監(jiān)測(cè)診斷具有重要意義。隨著軟件、硬件技術(shù)的不斷更新迭代,軸承監(jiān)測(cè)診斷正朝著自動(dòng)化、智能化、集成化的方向發(fā)展[1]。具備多源傳感器集成的智能軸承技術(shù)將是新的研究趨勢(shì),而作為核心的智能軸承診斷算法更是關(guān)鍵,聲-振融合的故障診斷方法優(yōu)于單獨(dú)使用振動(dòng)信號(hào)的方法,可用于開展智能軸承故障診斷方法的研究。
通常,聲-振融合診斷所用的信號(hào)都有著相同的采樣率,例如文獻(xiàn)[2]利用S變換提取聲音信號(hào)的時(shí)頻特征,與振動(dòng)信號(hào)分解模態(tài)分量得到的二點(diǎn)排列熵共同組成特征向量,并使用支持向量機(jī)實(shí)現(xiàn)了減速器的故障診斷。智能軸承的電路硬件需要高度集成,硬件的性能有限,無(wú)法同時(shí)使用很高的采樣率對(duì)多源物理量進(jìn)行采集和處理,需要根據(jù)傳感器的頻響特性綜合考慮采樣率,因此所采集的聲音信號(hào)與振動(dòng)信號(hào)有著不同的采樣率。對(duì)于不同采樣率下的聲-振融合:文獻(xiàn)[3]使用一路二維卷積神經(jīng)網(wǎng)絡(luò)提取聲音信號(hào)小波時(shí)頻特征,并使用另一路一維卷積神經(jīng)網(wǎng)絡(luò)提取振動(dòng)信號(hào)特征,采用改進(jìn)的證據(jù)理論進(jìn)行決策融合診斷;文獻(xiàn)[4]利用了2路一維卷積神經(jīng)網(wǎng)絡(luò)分別提取聲音信號(hào)與振動(dòng)信號(hào)的特征,通過(guò)全連接層進(jìn)行決策融合?;诰矸e神經(jīng)網(wǎng)絡(luò)的方法往往只關(guān)注信號(hào)的局部平移不變特征,而沒有充分考慮全局的時(shí)序關(guān)聯(lián)性;另外,末端融合方法也沒有充分考慮特征提取過(guò)程中聲音信號(hào)與振動(dòng)信號(hào)的關(guān)聯(lián)。
考慮信號(hào)的時(shí)序特征進(jìn)行故障診斷主要通過(guò)引入循環(huán)神經(jīng)網(wǎng)絡(luò)及其變種來(lái)實(shí)現(xiàn),然而,循環(huán)神經(jīng)網(wǎng)絡(luò)也存在無(wú)法并行計(jì)算以及難以訓(xùn)練的缺點(diǎn)。目前,完全摒棄卷積神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),僅使用自注意力機(jī)制(Self-Attention)[5]的Transformer具有同時(shí)提取局部特征與全局時(shí)序相關(guān)性的特點(diǎn),而且能夠像卷積神經(jīng)網(wǎng)絡(luò)一樣進(jìn)行并行計(jì)算,在自然語(yǔ)言處理、目標(biāo)檢測(cè)、圖像識(shí)別等領(lǐng)域的性能已超過(guò)了各類基于卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)的模型:因此,本文引入Transformer架構(gòu)作為聲-振融合診斷模型的基本模式,以加強(qiáng)信號(hào)的時(shí)序特征提取能力。
針對(duì)末端融合方法沒有充分考慮特征提取過(guò)程中聲音信號(hào)與振動(dòng)信號(hào)的關(guān)聯(lián)的問(wèn)題,除了在最終故障分類階段進(jìn)行聲-振數(shù)據(jù)融合,本文還利用交叉自注意力機(jī)制(Cross Self-Attention)[6]使聲音信號(hào)與振動(dòng)信號(hào)在特征提取過(guò)程中進(jìn)行交互與融合,以此增強(qiáng)聲-振數(shù)據(jù)融合的性能。
綜上所述,本文提出一種基于Transformer的聲-振交叉融合模型,將聲音、振動(dòng)時(shí)域信號(hào)拆分成持續(xù)時(shí)間相同的短時(shí)幀進(jìn)行時(shí)序?qū)R,然后送入診斷模型實(shí)現(xiàn)從輸入時(shí)域信號(hào)到輸出故障類型的智能軸承端到端故障診斷。
自注意力機(jī)制可以看作一種非局部濾波操作,通過(guò)估計(jì)所有位置的注意力分?jǐn)?shù)[7]并根據(jù)分?jǐn)?shù)收集相應(yīng)的輸入來(lái)計(jì)算序列中每個(gè)位置的響應(yīng)。如圖1所示,對(duì)于輸入X=[x1,x2,…,xn]∈Rn×d,最終的輸出序列為Y=[y1,y2,…,yn]∈Rn×d,其計(jì)算過(guò)程為
Y=SA(Q,K,V)=Softmax(A)·V=
(1)
(2)
式中:n為序列長(zhǎng)度;d為維度數(shù);Q,K,V為3個(gè)中間矩陣,Q,K,V∈Rn×d;Wq,Wk,Wv為3個(gè)不同的線性變換矩陣,Wq,Wk,Wv∈Rd×d;SA(·)為自注意力計(jì)算;A為自注意力矩陣,A∈Rn×n,其中的各個(gè)元素表示X中兩兩元素之間的注意力分?jǐn)?shù)。
圖1 自注意力機(jī)制示意圖
SMHA(Q′,K′,V′)=concat(H1,…,Hh)·W,
(3)
Hi=SA(Qi,Ki,Vi);i=1,2,…,h,
式中:Q′,K′,V′分別由Qi,Ki,Vi拼接組成;W為線性變換矩陣,W∈Rd×d;concat(·)為拼接操作。
圖2 多頭自注意力機(jī)制示意圖
Transformer編碼器的結(jié)構(gòu)如圖3所示,主要分為3個(gè)部分:
1)位置編碼。由于自注意力機(jī)制并未考慮序列中元素的位置關(guān)系,需對(duì)輸入序列X進(jìn)行位置編碼以加入位置信息,即
PE(X)=X+P,
(4)
式中:P為參數(shù)可隨模型訓(xùn)練過(guò)程更新的位置矩陣,P∈Rn×d。
2) 殘差連接。Transformer使用了殘差連接加強(qiáng)信息流動(dòng)以提高性能,并結(jié)合層歸一化操作優(yōu)化訓(xùn)練過(guò)程,即
RC=LN[X+SA(X)],
(5)
式中:RC(·)為殘差連接操作;LN(·)為層歸一化操作;當(dāng)使用多頭注意力時(shí),使用SMHA(·)代替SA(·)。
3) 前饋網(wǎng)絡(luò)。Transformer中的前饋網(wǎng)絡(luò)由2個(gè)線性變換層與1個(gè)非線性激活層組成,即
NFFN(X)=W2·f(W1·X),
(6)
式中:NFFN(·)為前饋網(wǎng)絡(luò);W1,W2分別為2個(gè)線性層的參數(shù);f(·)為非線性激活函數(shù),如GELU。
圖3 Transformer編碼器
為有效提取不同采樣率下聲音信號(hào)與振動(dòng)信號(hào)的特征并進(jìn)行聯(lián)合故障診斷,提出了一種基于Transformer的聲-振交叉融合診斷模型,如圖4a所示:模型包含短時(shí)令牌生成、特征交叉融合與決策融合3個(gè)階段,輸入為同一時(shí)期采集的原始聲音信號(hào)與振動(dòng)信號(hào),輸出為故障類型,能夠?qū)崿F(xiàn)端到端的滾動(dòng)軸承聲-振融合故障診斷。
信號(hào)的時(shí)頻分析往往比單獨(dú)的時(shí)域分析或頻域分析蘊(yùn)含著更為豐富的特征,因此本文采用短時(shí)傅里葉變換對(duì)原始時(shí)域信號(hào)進(jìn)行分析,即將時(shí)域信號(hào)分幀后再進(jìn)行快速傅里葉變換,同時(shí)從時(shí)間與短時(shí)局部頻率這2個(gè)維度進(jìn)行分析。
圖4 聲-振交叉融合診斷模型
設(shè)一次采樣采集長(zhǎng)度為L(zhǎng)s的聲音信號(hào)S∈RLs×1和長(zhǎng)度為L(zhǎng)v的振動(dòng)信號(hào)V∈RLv×1,以聲音信號(hào)為例進(jìn)行說(shuō)明。
(7)
(8)
通過(guò)上述流程得到的s1與v1的個(gè)數(shù)都為n且一一對(duì)應(yīng),由此實(shí)現(xiàn)不同采樣率聲音信號(hào)與振動(dòng)信號(hào)的時(shí)序?qū)R。
為實(shí)現(xiàn)聲音信號(hào)與振動(dòng)信號(hào)在特征層次的融合,通過(guò)所設(shè)計(jì)的聲-振交叉融合Transformer模塊進(jìn)行兩者特征提取過(guò)程的交互與融合。
(9)
(10)
(11)
(12)
(13)
(14)
(15)
最后,由2路基本的M層、N層Transformer編碼器以及L層串聯(lián)的交叉注意力模塊組成的交叉融合Transformer編碼器可串聯(lián)K次,以獲得更深的網(wǎng)絡(luò)結(jié)構(gòu)。
模型中添加的類別令牌最初由隨機(jī)初始化的參數(shù)構(gòu)成,并不包含任何有關(guān)故障診斷的信息。隨著聲-振數(shù)據(jù)在網(wǎng)絡(luò)中流動(dòng),由于自注意力機(jī)制的特點(diǎn),在特征提取過(guò)程中,通過(guò)計(jì)算與當(dāng)前輸入的各個(gè)短時(shí)令牌之間的相關(guān)性分?jǐn)?shù),有關(guān)故障類型的信息被添加到類別令牌中。因此,在診斷階段,僅使用聲-振類別令牌的信息進(jìn)行融合決策,以減少使用全部包令牌序列進(jìn)行診斷所帶來(lái)的信息冗余。
(16)
式中:fsL(·),fvL(·)分別為2個(gè)線性變換;ξs,ξv為對(duì)應(yīng)輸出的邏輯值,ξs,ξv∈R1×nc;nc為故障類別數(shù)。
對(duì)ξs與ξv進(jìn)行融合并轉(zhuǎn)換成對(duì)應(yīng)nc個(gè)故障類別的概率,即
p=Softmax(ξs⊕ξv),
p=[p1,…,pnc]T∈R1×nc,
(17)
式中:⊕為逐元素相加。
本文研究所用聲-振數(shù)據(jù)采集于如圖5所示的智能軸承試驗(yàn)臺(tái),所開發(fā)的7014智能軸承安裝于試驗(yàn)臺(tái)的主軸上并施加軸向載荷。智能軸承在端面集成了單通道硅麥克風(fēng)與兩通道(x軸、y軸)振動(dòng)傳感器,通過(guò)無(wú)線模塊將采集的聲音信號(hào)與振動(dòng)信號(hào)發(fā)送到上位機(jī),聲音信號(hào)與振動(dòng)信號(hào)的采樣率分別為48,32 kHz。
圖5 智能軸承試驗(yàn)臺(tái)
通過(guò)激光加工在內(nèi)、外圈及保持架上刻槽模擬軸承裂紋故障,在鋼球上模擬麻點(diǎn)缺陷,如圖6所示。試驗(yàn)樣本包括槽寬0.4,0.6,0.8 mm的內(nèi)、外圈故障,缺陷直徑0.4,0.6,0.8 mm的鋼球故障以及槽寬0.6 mm的保持架故障,加上正常軸承共計(jì)11種類型。試驗(yàn)包含了3種轉(zhuǎn)速(900,1 500,2 100 r/min)與3種載荷(1,2,3 kN)組成的9種工況。
圖6 不同故障的7014軸承
在本試驗(yàn)中,使用聲音信號(hào)與x軸振動(dòng)信號(hào)進(jìn)行聲-振融合診斷,僅對(duì)11類軸承狀態(tài)進(jìn)行區(qū)分,不考慮工況。每個(gè)樣本包含4 800個(gè)數(shù)據(jù)點(diǎn)的聲音信號(hào)與3 200個(gè)數(shù)據(jù)點(diǎn)的振動(dòng)信號(hào),采用窗口重疊(重疊率為0.5)的方式進(jìn)行數(shù)據(jù)增強(qiáng)。90%的數(shù)據(jù)用于訓(xùn)練,剩下10%的數(shù)據(jù)用于測(cè)試,不考慮輕微的樣本不平衡,最終的數(shù)據(jù)集見表1。
表1 智能軸承聲-振數(shù)據(jù)集
試驗(yàn)?zāi)P偷膮?shù)見表2,訓(xùn)練過(guò)程中選擇Adam優(yōu)化器,批大小為128,學(xué)習(xí)率為0.002 8,進(jìn)行200個(gè)epoch的迭代。取模型在最后10個(gè)epoch的測(cè)試準(zhǔn)確率的平均值作為評(píng)價(jià)指標(biāo)。
表2 模型配置參數(shù)
模型在測(cè)試階段的總體準(zhǔn)確率為89.51%。所繪制的分類混淆矩陣如圖7所示:對(duì)于比較明顯的內(nèi)、外圈故障,準(zhǔn)確率很高;而對(duì)于微弱的球故障,性能有所下降,尤其是故障直徑0.4 mm的微弱球故障,有36%被識(shí)別為保持架故障;盡管故障類別的識(shí)別率有所下降,但模型對(duì)有無(wú)故障的識(shí)別率依舊有著良好的表現(xiàn),故障檢出率為100%,誤報(bào)率為2%。
圖7 所提方法混淆矩陣
為驗(yàn)證模型的融合特征提取能力,通過(guò)t-SNE[8]對(duì)模型輸入特征與中間特征進(jìn)行降維可視化,如圖8所示:原始時(shí)域特征雜亂無(wú)章,經(jīng)過(guò)特征提取后,同類型的故障聚類在一起;球故障與保持架故障的分離效果不是很好,尤其是B08,很大部分與C混疊在一起。因此,除了少部分非常微弱的故障,模型所提取的特征能夠很好區(qū)別不同類型的故障。
圖8 t-SNE特征可視化
使用的基線系統(tǒng)來(lái)自于基本Vit(Vison Transformer)[9],其原本輸入的數(shù)據(jù)為[3,h,w],其中3表示圖像RGB三通道,h,w分別表示圖像的高和寬。為適合故障診斷任務(wù),將其輸入數(shù)據(jù)改為[2,1,4 800],其中的2個(gè)通道可均為聲音或振動(dòng),也可分別為1個(gè)聲音和1個(gè)振動(dòng)。由于單個(gè)樣本的振動(dòng)通道只有3 200個(gè)數(shù)據(jù)點(diǎn),因此對(duì)于空缺處補(bǔ)零。
不同方法所使用的數(shù)據(jù)類型及其診斷結(jié)果見表3:無(wú)論是基線Transformer,還是交叉融合Transformer,使用聲-振融合方法的準(zhǔn)確率均高于單獨(dú)使用聲音或振動(dòng)信號(hào)的方法,說(shuō)明聲-振融合故障診斷的Transformer模型優(yōu)于使用單數(shù)據(jù)源的模型。
表3 不同方法準(zhǔn)確率
交叉融合Transformer模型的訓(xùn)練過(guò)程如圖9所示:振動(dòng)信號(hào)的表現(xiàn)最好,聲音信號(hào)的表現(xiàn)最差,聲-振融合信號(hào)介于兩者之間且十分接近振動(dòng)信號(hào)。
圖9 交叉融合Transformer的訓(xùn)練過(guò)程可視化
綜上所述,使用聲-振交叉融合信號(hào)雖然使模型訓(xùn)練性能有所下降,但降幅微乎其微且?guī)?lái)了有效的精度提升。雖然聲音信號(hào)更容易受到環(huán)境噪聲的污染,在試驗(yàn)中也表現(xiàn)出較低的準(zhǔn)確率;但不可否認(rèn)的是,聲音信號(hào)中包含著某些振動(dòng)信號(hào)無(wú)法捕捉到的故障信息,從而使聲-振融合信號(hào)的準(zhǔn)確率有所提升。聲-振交叉融合Transformer模型比聲-振基線Transformer模型的準(zhǔn)確率提升了0.59%,也說(shuō)明使用交叉融合機(jī)制對(duì)提高聲-振融合的性能有著重要作用。
本文提出一種使用聲-振交叉融合Transformer的智能軸承故障診斷方法,并通過(guò)故障案例證明該方法的有效性。本文僅研究了單路聲音與單路振動(dòng)信號(hào)的融合診斷,仍存在一定的局限性,隨著機(jī)械設(shè)備中各類傳感器的不斷增加,后續(xù)將開展多路聲音與多路振動(dòng)信號(hào)的處理與融合診斷研究,為軸承及主機(jī)設(shè)備的運(yùn)行安全提供更有效的保障。