黃雅靜,廖愛華,丁亞琦,楊 洋,師 蔚,胡定玉,3
(1 上海工程技術(shù)大學(xué) 城市軌道交通學(xué)院,上海 201620;2 上海地鐵維護(hù)保障有限公司 車輛分公司,上海 200235;3 上海工程技術(shù)大學(xué) 上海市軌道交通振動與噪聲控制技術(shù)工程研究中心,上海 201620)
在智能制造、工業(yè)大數(shù)據(jù)和工業(yè)4.0集成創(chuàng)新的推動下,現(xiàn)代工業(yè)正在經(jīng)歷一場從傳統(tǒng)制造業(yè)到智能制造業(yè)的新革命,智能故障診斷也隨著現(xiàn)代工業(yè)的發(fā)展而活躍于多個應(yīng)用領(lǐng)域中。傳統(tǒng)的智能故障診斷方法,如支持向量機(jī)(SVM)、神經(jīng)網(wǎng)絡(luò)(MLP)等,依賴于專業(yè)知識和特征選取,且受限于模型淺層結(jié)構(gòu),已不能滿足高精度的現(xiàn)代故障診斷要求。近年來,深度學(xué)習(xí)因其強(qiáng)大的深度特征提取能力,為機(jī)械智能故障診斷提供了全新的解決方法。
常見的深度學(xué)習(xí)方法主要包括:卷積神經(jīng)網(wǎng)絡(luò)(CNN)、自 編 碼 器(AE)、深 度 置 信 網(wǎng) 絡(luò)(DBN)等。各種研究證明,這些深度學(xué)習(xí)模型在機(jī)器健康監(jiān)測應(yīng)用中已經(jīng)獲得一定成果。然而,在實(shí)際工業(yè)環(huán)境中,采集到的信號通常包含各種干擾和非平穩(wěn)狀態(tài),使得故障診斷模型難以達(dá)到理想的診斷精度。為克服外界干擾,提高非平穩(wěn)工況下模型的診斷性能,目前基于深度學(xué)習(xí)的故障診斷方法主要分為增強(qiáng)模型輸入和復(fù)雜化模型結(jié)構(gòu)兩個方向。Cheng等人利用局部二進(jìn)制卷積層代替?zhèn)鹘y(tǒng)的卷積層,并將連續(xù)小波變換頻譜圖作為輸入,提出一種連續(xù)小波變換-局部二元卷積神經(jīng)網(wǎng)絡(luò)(CWTLBCNN)的故障診斷模型。Long等人采用一種基于反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)和softmax分類器改進(jìn)的堆疊式自動編碼器(SAE),對一維振動信號進(jìn)行增強(qiáng),將增強(qiáng)后的數(shù)據(jù)集轉(zhuǎn)換成二維灰度圖像來訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN)。Shao等人提出一種基于集成深度自編碼器(EDAEs)的軸承故障診斷方法,使用含不同激活函數(shù)的自編碼器無監(jiān)督學(xué)習(xí)信號特征,并設(shè)計聯(lián)合策略進(jìn)行特征分類。Zhang等人提出了一種混合注意力改進(jìn)的殘差網(wǎng)絡(luò)(HA-ResNet),用于風(fēng)力發(fā)電機(jī)齒輪箱故障診斷。HA-ResNet結(jié)合通道注意力機(jī)制與卷積層改進(jìn)模型的非線性特征提取能力,在仿真數(shù)據(jù)和實(shí)測數(shù)據(jù)上都表現(xiàn)出優(yōu)越的性能。
然而,上述的故障診斷方法大多基于信號處理知識和多種深度學(xué)習(xí)模型的堆疊。經(jīng)過信號處理技術(shù)后的模型輸入實(shí)際上帶入了先驗(yàn)決策,并且過于復(fù)雜的模型堆疊會降低訓(xùn)練速度、耗費(fèi)大量算力??紤]到振動信號通常表現(xiàn)出的多尺度特性,部分研究人員將其作為一種全新的信號增強(qiáng)方法。Jiang等人提出一種多尺度卷積網(wǎng)絡(luò)(MSCNN)的齒輪箱故障診斷方法,以粗粒度信號作為模型的輸入,用于提取多尺度特征。Huang等人提出一種改進(jìn)的多尺度卷積神經(jīng)網(wǎng)絡(luò)(MC-CNN),該網(wǎng)絡(luò)不僅能自適應(yīng)地提取故障特征,而且能融合輸入信號的多尺度信息,增強(qiáng)對來自不同故障狀態(tài)的信號的區(qū)分能力。上述提及的2種多尺度模型,雖然通過計算信號的粗粒度或是使用不同卷積核大小的卷積層來實(shí)現(xiàn)信號增強(qiáng),均可以提高模型的診斷精度,但隨著信號采集過程中不可避免的噪聲干擾和負(fù)載變化的日益加劇,模型的特征提取能力還有待進(jìn)一步提高。
近年來,越來越多的研究人員為增強(qiáng)模型特征學(xué)習(xí)能力而引入注意力機(jī)制。朱浩等人提出一種基于注意力機(jī)制和Inception網(wǎng)絡(luò)結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò),模型在各種工況下都具有強(qiáng)診斷性能。Li等人將注意力機(jī)制用于軸承智能故障診斷,幫助網(wǎng)絡(luò)定位輸入的信息數(shù)據(jù)段,并可視化網(wǎng)絡(luò)學(xué)習(xí)到的診斷知識。目前,基于自注意力的Transformer深層神經(jīng)網(wǎng)絡(luò)模型在自然語言處理、甚至整個深度學(xué)習(xí)領(lǐng)域上都迅速全面掀起了新熱潮。其中,構(gòu)成Transformer模型的自注意力機(jī)制引起了廣泛關(guān)注,并且已經(jīng)成功運(yùn)用于機(jī)器視覺領(lǐng)域。
考慮到多尺度卷積神經(jīng)網(wǎng)絡(luò)在機(jī)械故障診斷領(lǐng)域的成功運(yùn)用,以及當(dāng)前自注意力機(jī)制的迅猛發(fā)展,本文提出一種多尺度卷積神經(jīng)網(wǎng)絡(luò)結(jié)合自注意力特征融合機(jī)制(SA-MCNN)的故障診斷方法。該模型使用核數(shù)成倍的卷積層提取信號的多尺度信息,用自注意力機(jī)制為多尺度特征加權(quán)融合,獲得能夠分辨故障類型的最終特征。
一個卷積模塊主要包含卷積層、激活函數(shù)和池化層。其中,卷積層由多個卷積核構(gòu)成,通過窗口滑動的方式計算特征映射。卷積層具有稀疏交互和參數(shù)共享的優(yōu)點(diǎn),減少了模型參數(shù)的數(shù)量。卷積層的計算公式為:
激活函數(shù)對卷積層的輸出進(jìn)行非線性轉(zhuǎn)換,常見的激活函數(shù)有、、等。以函數(shù)為例,經(jīng)過激活函數(shù)的特征為:
池化層通常位于卷積層后,通過下采樣的方式過濾掉不重要的特征,降低特征維數(shù)并減少網(wǎng)絡(luò)參數(shù)。最常見的池化為最大池化層,選取每個池化塊的最大值,即:
注意力機(jī)制是一種將可用計算資源的分配,偏向信號中信息量最大部分的手段。不僅可以自動選擇被關(guān)注部分,還可以自適應(yīng)增強(qiáng)所關(guān)注部分。自注意力機(jī)制是將單個序列的不同位置相關(guān)聯(lián)的注意力機(jī)制,通過關(guān)注同一序列中的所有位置,計算序列中每個位置的響應(yīng)。自注意力機(jī)制的原理如圖1所示。
圖1 自注意力機(jī)制Fig.1 Self-attention mechanism
首先,單個樣本的個序列[,,…,x]通過自適應(yīng)線性映射,被轉(zhuǎn)換成3個長度為的向量q、k、v(1,…,),分別將不同序列的q、k、v并聯(lián),組合成矩陣、、,根據(jù)式(4)計算矩陣、的乘積[,…,S],為個序列間的權(quán)值集合;再根據(jù)式(5)獲取標(biāo)準(zhǔn)化后的權(quán)值S=[S,…,S]。即:
然后,使用函數(shù)將權(quán)值轉(zhuǎn)換成概率形式[,…,P],其公式分別見式(6)、式(7):
最后根據(jù)式(8)獲取加權(quán)矩陣:
整個自注意力過程見式(9):
考慮到振動信號的多尺度特性,將本文提出的SA-MCNN網(wǎng)絡(luò)用于軸承故障診斷。SA-MCNN模型結(jié)構(gòu)如圖2所示。其中包含多尺度特征學(xué)習(xí)、多尺度特征融合和分類三部分。對此擬做研究分述如下。
圖2 SA-MCNN網(wǎng)絡(luò)框架Fig.2 The architecture of the proposed SA-MCNN
不同核大小的卷積層具有不同的頻率分辨率,SA-MCNN模型的多尺度信號提取過程依賴于核數(shù)成倍的卷積層。在SA-MCNN中,第一層均使用核數(shù)較大的卷積層,提取信號不同時間尺度的信息;然后以并行方式,學(xué)習(xí)不同時間尺度上的有用故障特征。隨著網(wǎng)絡(luò)加深,卷積層的核數(shù)不斷減小、而通道數(shù)增多,能夠獲得包含更豐富和互補(bǔ)診斷信息的多尺度特征。由圖2可知,SA-MCNN的卷積模塊中加入了批量歸一化(BN)層,且網(wǎng)絡(luò)分支的末端加入了全局平均池化(GAP)層。BN層在整個訓(xùn)練過程中實(shí)現(xiàn)激活值的穩(wěn)定分布,提高網(wǎng)絡(luò)的特征學(xué)習(xí)能力和泛化能力,GAP層匯總了空間信息,降低最后輸出特征的維度,有效防止網(wǎng)絡(luò)過擬合發(fā)生。
多尺度特征提取后,如何融合多尺度特征,使得各個尺度信息互補(bǔ),對于后續(xù)故障類型識別至關(guān)重要。常見的方法為各個尺度特征串聯(lián),再通過全連接層分類。然而不同尺度特征的重要程度不同,甚至同一尺度特征間各個特征值的重要程度也不相同。
考慮到自注意力機(jī)制能夠計算同一序列不同位置響應(yīng)的特性,本文提出一種基于自注意力的特征融合機(jī)制。多尺度特征融合過程如圖3所示。
圖3 自注意力多尺度特征融合機(jī)制Fig.3 Self-attention multi-scale feature fusion mechanism
基于自注意力的特征融合機(jī)制,能夠考慮每個尺度特征的每個特征值與其它各特征值間的關(guān)系,自適應(yīng)地為不同尺度特征賦予權(quán)重,實(shí)現(xiàn)特征跨通道、跨位置的交互。特征融合機(jī)制能夠充分利用特征互補(bǔ)特性,獲取含有分類信息的特征,提高模型的診斷精度。
基于SA-MCNN的軸承故障診斷流程如圖4所示,其故障診斷步驟如下:
圖4 基于SA-MCNN的軸承故障診斷流程Fig.4 Flow chart of bearing fault diagnosis based on SA-MCNN
使用傳感器采集不同工況、不同健康狀態(tài)下的軸承振動信號,將信號截斷成單個樣本并打上標(biāo)簽。
帶有標(biāo)簽的樣本被隨機(jī)分成訓(xùn)練集和測試集。訓(xùn)練集用于訓(xùn)練SA-MCNN網(wǎng)絡(luò),模型的損失函數(shù)通過梯度反向傳播優(yōu)化模型參數(shù),經(jīng)過多次迭代后模型訓(xùn)練完畢。
將測試集代入訓(xùn)練好的SA-MCNN模型中,預(yù)測未知軸承的健康狀態(tài),并通過已知標(biāo)簽計算診斷精度,驗(yàn)證模型的有效性。
本文使用美國凱斯西儲大學(xué)軸承數(shù)據(jù)集驗(yàn)證SA-MCNN模型性能。驗(yàn)證對象為驅(qū)動端的軸承振動 數(shù) 據(jù),軸 承 型 號 為SKF6205,采 樣 頻 率 為12 kHz。實(shí)驗(yàn)數(shù)據(jù)包含3種不同負(fù)載工況,軸承健康狀態(tài)共有10類。其中,電火花加工不同故障程度的軸承內(nèi)圈、外圈以及滾動體的單點(diǎn)故障,故障大小為7 mils、14 mils和21 mils,分別對應(yīng)故障直徑0.177 8 mm、0.355 6 mm和0.533 4 mm。
考慮到軸承轉(zhuǎn)速和采樣頻率,為使樣本包含軸承旋轉(zhuǎn)一周以上的信息,本文選取1 024個點(diǎn)為一個輸入樣本。由于故障信號的長度有限,為獲取足夠的樣本個數(shù),使用滑動重疊采樣方法,針對每一故障軸承,分別獨(dú)立獲取訓(xùn)練樣本500個,測試樣本100個。信號滑動重疊采樣方法示意如圖5所示。根據(jù)負(fù)載工況的不同,分別構(gòu)建數(shù)據(jù)集、、,各軸承數(shù)據(jù)集的描述詳見表1。以數(shù)據(jù)集為例,由負(fù)載為1馬力時的軸承訓(xùn)練集和測試集組成。
圖5 信號滑動重疊采樣方法Fig.5 Signal sliding overlap sampling method
表1 軸承數(shù)據(jù)集描述Tab.1 The description of bearing dataset
SA-MCNN的模型(見圖2)具有不同尺度大小的分支,為獲取最好的模型性能和節(jié)省計算成本,本節(jié)討論模型的尺度大小和模型深度對診斷精度的影響。整個研究過程基于數(shù)據(jù)集,批量大小為50,學(xué)習(xí)率為0.002。
3.2.1 模型尺度大小影響
振動信號通常表現(xiàn)出多尺度特性,在SAMCNN中利用不同核大小的卷積層,提取軸承信號的多尺度信息。尺度個數(shù)的增多為模型帶來更豐富信息的同時,也會增大網(wǎng)絡(luò)的復(fù)雜程度和訓(xùn)練難度,造成不必要的計算損失。本文選擇固定模型深度為2層,僅對1~4個尺度對模型性能影響進(jìn)行研究。其中,卷積核大小為64及其倍數(shù)。不同尺度大小的模型診斷精度和訓(xùn)練時間如圖6所示。
由圖6可知,隨著信號尺度的增多,網(wǎng)絡(luò)的診斷精度不斷提高,但訓(xùn)練時間也在快速增加。比較單尺度和多尺度的診斷精度可見,多尺度網(wǎng)絡(luò)明顯優(yōu)于傳統(tǒng)的卷積網(wǎng)絡(luò)。當(dāng)尺度大小為3時,模型的診斷精度達(dá)到最高,且訓(xùn)練時長居中。
圖6 不同信號尺度個數(shù)下的診斷精度和訓(xùn)練時間對比Fig.6 Comparison of prediction accuracy and training time under different signal scales
3.2.2 模型深度大小影響
隨著故障診斷模型的加深、卷積模塊的增多,所提取的特征更加可分。但是模型加深必然造成模型復(fù)雜化,且容易導(dǎo)致過擬合。本文在尺度為3的基礎(chǔ)上,討論了1~3層模型深度對模型性能的影響。不同深度的模型診斷精度和訓(xùn)練時間如圖7所示。當(dāng)模型深度為3時,可以達(dá)到100%的診斷精度。
圖7 不同卷積層數(shù)下的診斷精度和訓(xùn)練時間對比Fig.7 Comparison of prediction accuracy and training time under different number of convolutional layers
3.3.1 穩(wěn)態(tài)條件下的模型性能
基于上述模型參數(shù)分析,最終確定SA-MCNN模型框架的尺度為3、深度為3。詳細(xì)的SA-MCNN模型參數(shù)詳見圖2和表2。以數(shù)據(jù)集為例,整個模型訓(xùn)練過程的學(xué)習(xí)曲線和混淆矩陣如圖8所示。由圖8可見,模型具有很好的性能表現(xiàn),沒有出現(xiàn)過擬合。此外,為證明自注意力特征融合機(jī)制的優(yōu)越性,使用t-SEN方法,可視化3個尺度的特征和融合后的特征。圖9為單一尺度特征分布。由圖9可以看出大部分不同類別的信號特征分布重疊混亂,使得模型難以診斷信號類別。而在圖9(d)中,融合后的信號特征由于自注意力機(jī)制自適應(yīng)為不同尺度特征加權(quán),增強(qiáng)與故障類別相關(guān)的信號同時抑制干擾特征,使得不同類別的信號特征完全可分。
表2 SA-MCNN模型參數(shù)Tab.2 Parameters of SA-MCNN
圖8 SA-MCNN的學(xué)習(xí)曲線和混淆矩陣Fig.8 The learning curve and confusion matrix of SA-MCNN model
圖9 SA-MCNN多尺度特征分布可視化Fig.9 The multi-scale feature distribution visualization of SAMCNN
3.3.2 跨負(fù)載工況下的性能分析
在實(shí)際工業(yè)環(huán)境中,工作負(fù)載會根據(jù)生產(chǎn)需求而不定時變化,因此采集到的數(shù)據(jù)樣本通常具有非穩(wěn)態(tài)特性。本節(jié)主要研究SA-MCNN模型對于可變負(fù)載的適應(yīng)能力,并同時與MCNN、MSCNN、MCCNN、CNN這4種模型進(jìn)行對比。MCNN為SAMCNN模型不添加自注意力特征融合機(jī)制,直接將并行學(xué)習(xí)到的多尺度特征串聯(lián),并與全連接層相接判斷信號類別。MSCNN和MC-CNN為2種不同的多尺度卷積神經(jīng)網(wǎng)絡(luò)。其中,MSCNN使用不同尺度的粗粒度信號并行學(xué)習(xí)多尺度特征,MC-CNN則使用不同核大小卷積層串聯(lián)學(xué)習(xí)多尺度特征。CNN為不包含GAP層的SA-MCNN模型的第一個分支。表3中描述了4種跨負(fù)載工況。以工況為例,表1中的數(shù)據(jù)集、構(gòu)成訓(xùn)練集,數(shù)據(jù)集構(gòu)成測試集,用于驗(yàn)證經(jīng)、數(shù)據(jù)集訓(xùn)練后的模型在數(shù)據(jù)集上的泛化性能。每一種工況下訓(xùn)練集樣本為12 000個,測試集樣本6 000個。數(shù)據(jù)集為3種負(fù)載的混合狀態(tài),訓(xùn)練樣本15 000個,測試樣本3 000個??缲?fù)載工況下,不同模型的診斷精度見表4。
表3 跨負(fù)載數(shù)據(jù)集Tab.3 The dataset description under cross-domain variable load
表4 跨負(fù)載工況下5種模型診斷精度Tab.4 The diagnostic accuracy of 5 models under cross-domain variable load %
在、、三個跨負(fù)載工況下,多尺度卷積模型的診斷精度明顯高于傳統(tǒng)CNN,表明多尺度特征學(xué)習(xí)能夠增強(qiáng)模型的輸入信息,提高模型的診斷性能。而在4種多尺度模型中,SA-MCNN模型的平均診斷精度達(dá)到98.95%,較MCNN、MSCNN、MCCNN三種模型分別提高了2.48%、2.89%、2.27%。說明SA-MCNN模型在跨負(fù)載工況下表現(xiàn)出強(qiáng)魯棒性,具有很強(qiáng)的模型泛化能力。同時,對比SAMCNN和MCNN的診斷精度,進(jìn)一步證明了自注意力特征融合機(jī)制的優(yōu)越性。
3.3.3 負(fù)載變化工況下抗噪性能分析
軸承的工作環(huán)境復(fù)雜,通常同時伴隨負(fù)載變化和強(qiáng)噪聲污染問題。選擇表3中數(shù)據(jù)集,模擬變負(fù)載工況,的訓(xùn)練集用于訓(xùn)練模型,驗(yàn)證SAMCNN、MCNN、MSCNN、MC-CNN、CNN這5種模型在變負(fù)載工況下的抗噪性能。在的測試集中加入高斯白噪聲獲得信噪比為-4 dB至10 dB的復(fù)合信號,模擬實(shí)際噪聲環(huán)境中采集到的軸承信號,用于檢測訓(xùn)練后的模型精度。以獲取信噪比為-4 dB的復(fù)合信號為例,獲取復(fù)合信號的過程如圖10所示。由圖10可以看出,原始信號的周期性沖擊被明顯掩蓋,這將不利于后續(xù)的故障診斷。不同信噪比下模型的診斷精度如圖11所示。
圖10 原始信號、噪聲信號及信噪比為-4 dB的復(fù)合信號Fig.10 Original signal,noise signal and composite signal with a SNR of-4 dB
圖11中,SA-MCNN在不同信噪比下的平均診斷精度達(dá)到95.41%,抗噪性能明顯優(yōu)于其它模型。當(dāng)信噪比為-4 dB時,SA-MCNN模型的診斷精度為83.07%,約高于其它模型10%。此時,3種多尺度模型MCNN、MSCNN、MC-CNN的診斷精度較傳統(tǒng)CNN模型相差較小,可能是由于多尺度模型在增加多尺度信息的同時,也會增多噪聲,導(dǎo)致模型診斷精度無法明顯提高。但是,SA-MCNN由于自注意力特征融合機(jī)制的加入,模型能夠自適應(yīng)融合并增強(qiáng)有效特征,從而使得診斷精度有明顯提高。隨著信噪比的不斷增加,模型的診斷精度均不斷增大,且多尺度模型的診斷精度明顯高于傳統(tǒng)CNN。當(dāng)信噪比大于6 dB時,SA-MCNN的診斷精度達(dá)到100%。比較MCNN和SA-MCNN的診斷精度,可以看出,自注意力特征融合機(jī)制的加入能夠明顯增強(qiáng)模型的抗噪性能。實(shí)驗(yàn)結(jié)果表明,SA-MCNN在負(fù)載變化和噪聲環(huán)境的同時作用下,依然具有較強(qiáng)的泛化能力和抗干擾能力。
圖11 負(fù)載變化時不同信噪比下模型的診斷精度Fig.11 The diagnostic accuracy of 5 models under different SNRs with the changing loads
本文結(jié)合多尺度卷積神經(jīng)網(wǎng)絡(luò)和自注意力特征融合機(jī)制提出一種軸承故障診斷方法SA-MCNN,經(jīng)驗(yàn)證得出如下結(jié)論:
(1)在穩(wěn)態(tài)工況下,SA-MCNN模型能夠達(dá)到100%的診斷精度。經(jīng)t-SEN方法可視化的特征分布表明,多尺度卷積神經(jīng)網(wǎng)絡(luò)和自注意力特征融合機(jī)制的結(jié)合可以在不同尺度上捕獲互補(bǔ)和豐富的診斷信息,極大提高了模型特征學(xué)習(xí)能力和診斷精度。
(2)對比其它多尺度模型,SA-MCNN在跨負(fù)載和噪聲工況下表現(xiàn)出明顯優(yōu)勢。在跨負(fù)載工況下,模型的平均診斷精度為98.95%,具有強(qiáng)魯棒性。在負(fù)載變化的噪聲工況下,模型的診斷精度始終高于其它方法,平均診斷精度達(dá)到95.14%,具有較強(qiáng)的抗干擾能力。