張永宏, 邵 凡, 趙曉平, 王麗華, 呂凱揚, 張中洋
(1.南京信息工程大學(xué) 自動化學(xué)院,南京 210044;2.南京信息工程大學(xué) 計算機與軟件學(xué)院,南京 210044;3.南京信息工程大學(xué) 江蘇省網(wǎng)絡(luò)監(jiān)控中心,南京 210044)
滾動軸承是旋轉(zhuǎn)機械中的重要部件,隨著現(xiàn)代機械儀器、設(shè)備向高速和精密方向發(fā)展,對滾動軸承的可靠性要求愈來愈高。但實際工業(yè)場景中,滾動軸承因載荷大、沖擊強等惡劣工況,極易產(chǎn)生故障。相較于實驗室流程操作所產(chǎn)生的固定故障類型,工業(yè)場景下滾動軸承的故障類型復(fù)雜多樣[1]。利用已有的狀態(tài)監(jiān)控數(shù)據(jù),如何識別無歷史記錄的故障類型(即未見類故障)、提高未見類故障識別的準(zhǔn)確性成為研究難點,具有顯著的工程應(yīng)用價值和需求。
本文重點關(guān)注在不停機檢查的情況下,依靠現(xiàn)有類型固定的故障數(shù)據(jù),完成工業(yè)場景中未見類軸承故障的識別。這種故障診斷方式在沒有目標(biāo)故障類型樣本的條件下完成,擺脫了對共享故障類型的依賴,因此零樣本故障診斷更接近工程應(yīng)用場景的實際情況。由于實際應(yīng)用場景的制約,與一般的故障識別相比,零樣本故障識別具有以下特點:①參與測試的目標(biāo)故障(未見類故障)和參與模型訓(xùn)練的故障(可見類故障)在故障類型上沒有交集;②識別結(jié)果具有較好的泛化性,能夠真正擴展到實際工業(yè)場景中;③識別模型適用場景廣泛,且無需反復(fù)進行模型參數(shù)重設(shè)和模型優(yōu)化。
此外,本文還關(guān)注高效的模型設(shè)計,在減少模型參數(shù)的同時保持其性能,即模型輕量化。卷積核分解是一種常用的輕量化方法,如GhostNet[2]使用Ghost模塊替換卷積層,減少了計算成本,Xception[3]、MobileNet[4]和MBDS-CNN[5]均使用深度可分離卷積代替標(biāo)準(zhǔn)卷積以實現(xiàn)輕量化。模型輕量化具有以下優(yōu)勢:①模型對內(nèi)存和處理器性能的要求低;②分布式訓(xùn)練中的數(shù)據(jù)交換少;③適應(yīng)更廣泛的嵌入式、移動端設(shè)備。
當(dāng)前,數(shù)據(jù)驅(qū)動的故障診斷方法已經(jīng)成功運用于機械故障診斷[6],包括自動編碼器[7-8]、卷積神經(jīng)網(wǎng)絡(luò)[9-10]和深度置信網(wǎng)絡(luò)[11]等。但是,上述方法依賴于大量訓(xùn)練數(shù)據(jù)以優(yōu)化模型,而實際工程場景中的帶標(biāo)簽數(shù)據(jù)難以獲取。近年來,為了克服實際工程場景中故障樣本采集的困難,基于深度遷移學(xué)習(xí)的方法被廣泛應(yīng)用,其基本流程是從易獲取的故障數(shù)據(jù)(源域)中學(xué)習(xí)知識,幫助識別難以采集或采集代價高昂的故障(目標(biāo)域)[12-13]。雷亞國等[14]將殘差網(wǎng)絡(luò)與最大均值差異項、偽標(biāo)記學(xué)習(xí)結(jié)合,提出了一種無需目標(biāo)故障樣本標(biāo)記信息的高精度遷移學(xué)習(xí)方法。Lu等[15]提出域自適應(yīng)模型,完成了變工況下的滾動軸承診斷任務(wù)。此外,還有學(xué)者構(gòu)建了基于生成對抗思想[16-17]和實例[18]的遷移學(xué)習(xí)模型。盡管深度遷移學(xué)習(xí)方法不需要來自目標(biāo)域的帶標(biāo)簽樣本,但其重點解決的是源域和目標(biāo)域的域偏移問題,前提是源域與目標(biāo)域具有標(biāo)簽相同的故障。然而本文考慮的零樣本問題在源域和目標(biāo)域沒有標(biāo)簽上的交集,因此,深度遷移學(xué)習(xí)不符合零樣本的要求。
綜合上述分析,本文引入零樣本學(xué)習(xí)(zero-shot learning, ZSL)方法以解決零樣本條件下未見類故障的識別問題。ZSL方法僅將可見類樣本用作訓(xùn)練數(shù)據(jù),實現(xiàn)對未見類的分類。Lampert等[19]首次提出ZSL的概念,對毫無關(guān)聯(lián)的訓(xùn)練集和測試集完成了對象檢測,提出了直接屬性預(yù)測(direct attribute prediction, DAP)方法,利用非線性支持向量機來學(xué)習(xí)屬性,再使用訓(xùn)練好的支持向量機預(yù)測未見類樣本的屬性。此外,Lampert等[20]還提出了間接從標(biāo)簽中學(xué)習(xí)屬性的間接屬性預(yù)測(indirect attribute prediction, IAP)方法。為了將可見類中學(xué)習(xí)到的投影函數(shù)更好地推廣到未見類中,Kodirov等[21]提出了語義自編碼器(semantic autoencoder, SAE),編碼器將全局視覺特征向量投影到語義空間中,通過優(yōu)化解碼器重構(gòu)原始視覺特征給網(wǎng)絡(luò)施加約束,提升了識別精度。在故障診斷領(lǐng)域,GAO等[22]提出了基于壓縮堆疊自編碼器的零樣本學(xué)習(xí)方法,使用已知工況下的數(shù)據(jù)訓(xùn)練模型,成功診斷出未知工作負載下的軸承故障。但該方法未能將故障信號的特征投影到高維屬性空間,本質(zhì)上沒有突破類別邊界,不符合零樣本的要求。FENG等[23]針對零樣本條件下的工業(yè)故障診斷任務(wù),定義了有別于圖像識別領(lǐng)域的輔助信息即故障屬性(故障的原因、位置、影響等),其試驗結(jié)果驗證了零樣本條件下故障診斷的可行性,但該方法未考慮各故障屬性之間的相關(guān)性。
針對以上不足,為了實現(xiàn)零樣本條件下未見類軸承故障的診斷,本文提出了MLZSL故障診斷方法。首先,對振動信號做短時傅里葉變換并劃分訓(xùn)練集(可見類)和測試集(未見類);其次,構(gòu)建輕量化特征提取模型RDSCNN,提取可見類和未見類各樣本的特征;然后將可見類樣本的特征用于訓(xùn)練多標(biāo)簽屬性學(xué)習(xí)網(wǎng)絡(luò),再識別未見類樣本的屬性;最后計算屬性向量與各屬性標(biāo)簽的余弦距離,完成對未見類軸承故障的診斷。試驗顯示,MLZSL方法相較于經(jīng)典的零樣本方法(DAP、IAP、SAE)取得了更準(zhǔn)確的診斷結(jié)果。
RDSCNN特征提取模型中結(jié)合了殘差學(xué)習(xí)機制和深度可分離卷積層,相關(guān)理論介紹如下。
在深度神經(jīng)網(wǎng)絡(luò)中,理論上網(wǎng)絡(luò)的層數(shù)越深,其輸出的特征表示能力越強。但隨著深度的不斷增加,網(wǎng)絡(luò)會發(fā)生退化,準(zhǔn)確率也隨之下降。He等[24]所提出的殘差卷積神經(jīng)網(wǎng)絡(luò)(residual neural network, ResNet)引入殘差模塊解決了網(wǎng)絡(luò)退化問題,殘差學(xué)習(xí)模塊的結(jié)構(gòu)如圖1所示。
圖1 殘差學(xué)習(xí)模塊結(jié)構(gòu)Fig.1 Structure of residual learning module
殘差模塊在從輸入到輸出的單一映射基礎(chǔ)上添加了來自輸入的跳躍連接[25],將淺層的輸出加到深層的輸出上,最終輸出如下
H(x)=F(x)+x
(1)
式中:x為上一層的輸出;H(x)為殘差模塊的輸出;F(x)為對x的線性或非線性調(diào)整。若淺層輸出x已經(jīng)提供足夠完備的特征,以致對特征x的任意改變都會增加損失時,F(xiàn)(x)將不做任何學(xué)習(xí),整個模塊相當(dāng)于恒等映射,由此改變網(wǎng)絡(luò)的前向和后向傳遞方式,對網(wǎng)絡(luò)加深起到優(yōu)化作用。
深度可分離卷積由深度卷積和逐點卷積兩個過程組成。在深度卷積過程中,每次卷積只在單個通道上進行,輸出與輸入具有相同通道數(shù)量的特征圖;在逐點卷積過程中,對深度卷積過程輸出的特征圖做1×1卷積,重復(fù)該過程n次即可增加輸出通道數(shù)至n層,其具體操作如圖2所示。
圖2 深度可分離卷積結(jié)構(gòu)Fig.2 Structure of depthwise separable convolution
假設(shè)輸入圖片大小為m×m×3,欲輸出通道為n的特征圖,使用傳統(tǒng)卷積需要n個k×k×3的卷積核移動(m-k+1)2次,總體運算次數(shù)如下
3nk2(m-k+1)2
(2)
使用深度可分離卷積進行運算時,在深度卷積過
程中3個k×k×1的卷積核移動(m-k+1)2次;在逐點卷積過程中n個1×1×3的卷積核移動(m-k+1)2次。深度可分離卷積總體運算次數(shù)如下
3(k2+n)(m-k+1)2
(3)
整體而言,本文所提出的MLZSL方法包括特征提取和屬性學(xué)習(xí)兩個階段。其中,特征提取階段的核心任務(wù)是RDSCNN模型的構(gòu)建和使用;屬性學(xué)習(xí)階段通過搭建多標(biāo)簽屬性學(xué)習(xí)網(wǎng)絡(luò),直接從樣本特征中學(xué)習(xí)故障屬性并完成未見類樣本的診斷。
深度神經(jīng)網(wǎng)絡(luò)能夠提取海量數(shù)據(jù)中的抽象特征,為了充分發(fā)揮深度神經(jīng)網(wǎng)絡(luò)的特征提取能力,同時加速模型收斂和避免網(wǎng)絡(luò)退化問題,本文提出了RDSCNN模型。模型主要由深度可分離卷積層、卷積層、最大池化層、平均池化層、全連接層以及殘差連接組成,如圖3所示。RDSCNN模型以三通道的時頻圖像作為輸入,通過卷積層和深度可分離卷積層不斷優(yōu)化特征,加入殘差連接減少特征損失,設(shè)置卷積層和池化層步長以下采樣方式減小空間維度,最終由全連接層輸出一維特征。模型采用Relu作為非線性激活函數(shù),加快模型訓(xùn)練速度。 為了防止模型出現(xiàn)梯度消失的問題,對每一層卷積運算的結(jié)果做批量歸一化處理,使其符合標(biāo)準(zhǔn)的正態(tài)分布,消除層與層之間的量級差異。
圖3 特征提取網(wǎng)絡(luò)Fig.3 Feature extraction network
RDSCNN模型在試驗中分為模型訓(xùn)練和特征提取兩個階段。在模型訓(xùn)練階段,首先將模型與Softmax函數(shù)組合,訓(xùn)練集數(shù)據(jù)由正向傳播經(jīng)過模型各層和Softmax函數(shù)運算到達類輸出層,然后將輸出結(jié)果代入交叉熵損失函數(shù)如式(4)所示。
(4)
在特征提取階段,采用已經(jīng)訓(xùn)練好的RDSCNN模型對整個數(shù)據(jù)集進行特征提取,在特征層得到數(shù)據(jù)的低維特征向量表示。
總體而言,RDSCNN模型具有輕量化的網(wǎng)絡(luò)結(jié)構(gòu),模型結(jié)合了深度可分離卷積、非線性激活函數(shù)Relu和殘差學(xué)習(xí)機制等,使得參數(shù)量大大降低、收斂速度更快、訓(xùn)練時間更短,在保留特征信息的同時降低了數(shù)據(jù)維度,加速了后續(xù)的屬性學(xué)習(xí)過程。
本文提出的多標(biāo)簽屬性學(xué)習(xí)網(wǎng)絡(luò)旨在學(xué)習(xí)樣本特征中的故障屬性,構(gòu)造可見類和未見類故障特征在高維屬性空間的嵌入,最終實現(xiàn)故障的診斷。
本文提供了滾動軸承故障的細粒度屬性描述,其主要基于滾動軸承故障的損傷程度(7 mil、14 mil、21 mil)、工作負載(0、1 hp、2 hp)和損傷位置(滾子B、內(nèi)圈IR、外圈OR),如表1所示。依據(jù)故障類別yi是否擁有各個細粒度屬性可以得到一個與之對應(yīng)的9維二值屬性矢量Ai。
表1 滾動軸承故障屬性Tab.1 Rolling bearing fault attributes
每個故障特征xi對應(yīng)一個9維的屬性矢量Ai,即一個實例樣本擁有多個標(biāo)簽,因此,本文將屬性矢量的學(xué)習(xí)過程看作一個具有9個標(biāo)簽的多標(biāo)簽分類問題,其多標(biāo)簽屬性空間為29。為了應(yīng)對輸出空間復(fù)雜度的指數(shù)性增長,本文挖掘了標(biāo)簽之間的相關(guān)性,將屬性矢量A依據(jù)屬性描述的類別作互斥屬性切分,得到三個細分屬性矢量a、b、c,與屬性描述對應(yīng),即原屬性矢量A=concat(a,b,c),將輸出空間減少為3×23,大大降低了屬性學(xué)習(xí)難度。
多標(biāo)簽屬性學(xué)習(xí)網(wǎng)絡(luò)有監(jiān)督地為每個細分屬性矢量構(gòu)造一個屬性學(xué)習(xí)器,分別記為F1,F(xiàn)2和F3。在測試階段,使用這些屬性學(xué)習(xí)器對每一個未見類樣本預(yù)測細分屬性矢量。三個屬性學(xué)習(xí)器的映射關(guān)系如圖4所示。
圖4 屬性學(xué)習(xí)器映射關(guān)系Fig.4 Mapping of attribute learners
以屬性學(xué)習(xí)器F1為例,從故障特征xi到細分屬性矢量ai的推理過程可表示為f:xi→ai,本文通過搭建全連接神經(jīng)網(wǎng)絡(luò)實現(xiàn)該推理過程,網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
圖5 屬性學(xué)習(xí)器F1網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Architecture of attribute learner F1
(5)
(6)
對得到的細分屬性矢量完成拼接,計算其與各故障屬性標(biāo)簽的余弦距離如式(7)所示,最終取距離最近的故障標(biāo)簽作為其預(yù)測標(biāo)簽yu。
(7)
整體上,多標(biāo)簽屬性學(xué)習(xí)網(wǎng)絡(luò)由三個屬性學(xué)習(xí)器F1、F2和F3組成,各屬性學(xué)習(xí)器分別學(xué)習(xí)一組細分屬性矢量,組合得到樣本的預(yù)測屬性標(biāo)簽,最終推導(dǎo)得出樣本的故障類別。
基于MLZSL方法的故障診斷流程如圖6所示,主要包含故障信號預(yù)處理、特征提取和屬性學(xué)習(xí)三個階段,各階段的具體步驟如下。
圖6 MLZSL故障診斷流程Fig.6 MLZSL fault diagnosis process
故障信號預(yù)處理階段:對采集得到的故障信號數(shù)據(jù)做預(yù)處理。首先將每一類的信號序列數(shù)據(jù)切分成一定數(shù)量的樣本;然后對所有信號樣本做短時傅里葉變換,得到維數(shù)為64×64×3的時頻圖數(shù)據(jù)集;最后按照數(shù)據(jù)的類別標(biāo)簽將其劃分為訓(xùn)練集(可見類)和測試集(未見類)。
特征提取階段:構(gòu)建RDSCNN模型對所有樣本完成特征提取。首先組合RDSCNN模型和Softmax層,將訓(xùn)練集作為輸入調(diào)整模型參數(shù);然后保存訓(xùn)練好的RDSCNN模型的各層參數(shù);最后加載保存的參數(shù),借助模型降低輸入時頻圖數(shù)據(jù)的維度,得到可見類和未見類的故障特征向量。
屬性學(xué)習(xí)階段:使用屬性學(xué)習(xí)網(wǎng)絡(luò)預(yù)測樣本屬性并推導(dǎo)其標(biāo)簽。首先,以可見類樣本特征作為輸入,訓(xùn)練屬性學(xué)習(xí)網(wǎng)絡(luò)中的各屬性學(xué)習(xí)器;然后使用屬性學(xué)習(xí)器預(yù)測未見類樣本的細分屬性矢量,拼接得到完整屬性向量;最終計算其與各故障屬性標(biāo)簽的余弦距離,完成未見類故障樣本的診斷。
試驗數(shù)據(jù)采用的是凱斯西儲大學(xué)提供的軸承故障數(shù)據(jù)集[26],試驗臺由電動機、扭矩傳感器、測力計和控制電子設(shè)備組成。本文從采樣頻率為12 kHz的驅(qū)動端數(shù)據(jù)中,依據(jù)不同的工作負載、損傷位置和損傷程度選取了共30類數(shù)據(jù)進行試驗。其中包括健康數(shù)據(jù)3類,故障數(shù)據(jù)27類,所選取數(shù)據(jù)的類別組成如表2所示。
表2 試驗數(shù)據(jù)種類Tab.2 Kinds of test data
滾動軸承故障信號的三種損傷位置分別為內(nèi)圈(IR)、滾子(B)和外圈(OR),三種工作負載分別為0(1 hp=746 W)、1 hp和2 hp,三種損傷程度分別為7 mil(1 mil=0.025 4 mm)、14 mil和21 mil。表2中滾動軸承故障的具體類別,例如‘IR007_0’中‘IR’代表該故障的故障位置是內(nèi)圈,‘007’表示該類故障的損傷程度為7 mil,‘_0’表示其工作負載為0。表中各類別試驗數(shù)據(jù)的采樣頻率為12 kHz,每一類數(shù)據(jù)取連續(xù)102 912點,窗口滑動截取1 024個點作為樣本,窗重疊50%,每一類數(shù)據(jù)得到200個樣本,最終共獲取6 000個樣本。
試驗前對原始數(shù)據(jù)進行短時傅里葉變換,以獲得數(shù)據(jù)中隨時間變化的頻譜信息,使用Hanmming窗作為窗函數(shù)并預(yù)設(shè)了窗函數(shù)長度為120,窗重疊度為50%,最終獲得30類數(shù)據(jù)的共6 000張時頻圖樣本。
依據(jù)零樣本的原則對數(shù)據(jù)集進行劃分,在27類故障數(shù)據(jù)中隨機選取6類故障樣本作為測試集(未見類),剩余數(shù)據(jù)類別組成訓(xùn)練集(可見類)??偣策M行四次隨機選取,在四種數(shù)據(jù)集劃分方式下得到數(shù)據(jù)集A、B、C、D,表3展示了各數(shù)據(jù)集下的測試類別。在每一種數(shù)據(jù)劃分方式下,數(shù)據(jù)集中的訓(xùn)練樣本數(shù)為4 800,測試樣本數(shù)為1 200。
表3 試驗數(shù)據(jù)集Tab.3 The test data sets
試驗首先由RDSCNN模型從時頻圖樣本中提取易于學(xué)習(xí)屬性的特征向量,再將特征向量輸入到多標(biāo)簽屬性學(xué)習(xí)器,識別故障的屬性,最后計算與標(biāo)簽屬性之間的余弦距離得到故障類別。
(1) 特征提取試驗與結(jié)果分析
根據(jù)第2.1節(jié)所述的RDSCNN模型結(jié)構(gòu)搭建網(wǎng)絡(luò),通過反復(fù)試驗最終確定RDSCNN模型的相關(guān)超參數(shù)如表4所示。按照輸出特征圖的大小,表4將整個網(wǎng)絡(luò)劃分為五個模塊,模塊一輸入大小為64×64×3的時頻圖樣本,從模塊一至模塊四,依次減小特征圖大小,最終輸出大小為1×128的特征向量。
表4 RDSCNN模型超參數(shù)設(shè)置Tab.4 Hyper-parameters of RDSCNN
RDSCNN模型在特征提取階段為使用較大感受野,模塊一中殘差連接卷積核設(shè)置為3×3。為了保留局部細節(jié),模塊二和模塊三中跳躍連接卷積核設(shè)置為1×1,模塊四中最后池化層為降低輸出維數(shù)將池化窗口設(shè)置為8×8,其余模塊主干網(wǎng)絡(luò)中卷積核和池化窗口均設(shè)置為3×3。整個網(wǎng)絡(luò)的卷積核數(shù)量遞增以充分映射特征,各卷積層中卷積核的數(shù)目與輸出的第三個維度一致,在降低特征圖大小的同時增加特征深度。
RDSCNN模型在訓(xùn)練階段使用交叉熵損失函數(shù),并采用指數(shù)衰減法自動調(diào)整學(xué)習(xí)率,設(shè)置初始學(xué)習(xí)率為0.02,衰減步長為40,衰減率為0.97,設(shè)置單批次樣本數(shù)為100個。
為了驗證RDSCNN模型相比當(dāng)前主流的特征提取模型在特征提取效率和性能上的優(yōu)越性,本文將其與ResNet50、VGG16和CNN(由5層卷積層和3層全連接層組成)模型進行對比。表5顯示了RDSCNN、ResNet50、VGG16和CNN四種不同模型的總參數(shù)量、收斂穩(wěn)定所需要epoch(所有訓(xùn)練樣本在模型中完成了一次正向傳遞和一次反向傳遞)的數(shù)目和訓(xùn)練200個epoch所用的時長。各模型在訓(xùn)練過程中準(zhǔn)確率和損失的變化情況如圖7所示,為提高對比效果,僅截取前200個epoch進行展示。
表5 特征提取模型訓(xùn)練情況對比Tab.5 Comparison of feature extraction models
(a) RDSCNN模型
(b) ResNet50模型
(c) VGG16模型
(d) CNN模型圖7 不同特征提取模型的準(zhǔn)確率和損失變化情況Fig.7 Accuracy and loss of different feature extraction models
通過表5可以知道,RDSCNN模型的參數(shù)量僅為924 064,CNN模型的參數(shù)量為其十倍左右,而ResNet50和VGG16模型的參數(shù)量均在其十倍以上;其次,RDSCNN模型訓(xùn)練200個epoch所用的時間僅為223.2 s,較其他三種模型更短;此外,RDSCNN模型在訓(xùn)練125epoch時已經(jīng)收斂穩(wěn)定,ResNet50模型在訓(xùn)練150epoch時收斂穩(wěn)定,如圖7中虛線處所示,而VGG16和CNN模型在訓(xùn)練200epoch時仍未穩(wěn)定收斂。除此之外,從圖7中還可以看出,借助卷積網(wǎng)絡(luò)在自適應(yīng)特征學(xué)習(xí)上的優(yōu)勢,各模型的訓(xùn)練準(zhǔn)確率都很高,但是在VGG16和CNN模型的訓(xùn)練過程中存在一定的過擬合,其驗證集的準(zhǔn)確率均低于訓(xùn)練集的準(zhǔn)確率。綜上所述,相較于其他三種特征提取模型,RDSCNN模型在模型參數(shù)量、收斂速度和訓(xùn)練效果等方面具有明顯優(yōu)勢。
為進一步驗證RDSCNN模型的特征提取能力,采用t-SNE降維算法將原始輸入和所提取特征按相似度投影到2維空間中進行分析。在RDSCNN、ResNet50、VGG16和CNN四種特征提取模型中,VGG16和CNN模型的訓(xùn)練效果較差,ResNet50模型的訓(xùn)練效果更接近RDSCNN模型,因此選擇ResNet50模型與RDSCNN模型進行特征降維對比。以數(shù)據(jù)集C為例,將測試集樣本作為RDSCNN模型和ResNet50模型的輸入,學(xué)習(xí)得到樣本的特征。對原始輸入和兩個模型輸出的樣本特征分別進行t-SNE降維可視化,可視化結(jié)果如圖8所示。
(a) 原始樣本輸入
(b) RDSCNN模型輸出
(c) ResNet50模型輸出圖8 原始輸入和不同模型的輸出特征可視化Fig.8 Visualization of original input and different models’ output characteristics
圖8(a)為原始輸入的可視化結(jié)果,可以看出原始輸入包含很多冗余信息,難以區(qū)分各類樣本。圖8(b)為RDSCNN模型輸出特征的可視化結(jié)果,經(jīng)過RDSCNN模型提取特征后,6類故障樣本之間界限清晰,完全被區(qū)分開,且不同標(biāo)簽的樣本在2維空間中分布很集中,沒有錯分的異類樣本。圖8(c)為ResNet50模型輸出特征的可視化結(jié)果,圖中各類樣本之間有一定的區(qū)分性,但界限不清晰,紅色虛線圈中部分還存在錯分現(xiàn)象。對比圖8(b)和圖8(c)可知,RDSCNN模型所提取的特征在相同標(biāo)簽下聚合得更集中,可分性更好。
為驗證所提取特征的有效性,本文對所提取的特征進行了分類效果的對比。表6展示了基于同一數(shù)據(jù)集,使用RDSCNN、MLDAM[27]、CNN-RF[28]、1DRCAE方法進行分類試驗的精度。可以看出,RDSCNN模型的分類準(zhǔn)確率為99.93%,優(yōu)于其他方法。
表6 各先進識別器的分類精度Tab.6 Classification accuracy of advanced recognizers %
總體而言,RDSCNN模型在參數(shù)量最少的情況下,模型的訓(xùn)練速度更快,具有更好的特征提取能力。
(2) 多標(biāo)簽屬性學(xué)習(xí)試驗與結(jié)果分析
試驗按照2.2節(jié)中的屬性設(shè)置原則,為每種滾動軸承故障定義了9維的屬性矢量Ai∈R9,以提供故障特征在屬性空間映射的對象。該屬性矢量由滾動軸承故障的細粒度屬性描述推理得到,屬性描述基于滾動軸承故障的損傷程度、工作負載和損傷位置?;趯傩灾g的相關(guān)性對互斥屬性進行切分,得到三個細分屬性矢量a、b、c,三個細分屬性矢量均屬于實向量空間R3。試驗采用熱獨編碼的方式對與故障標(biāo)簽yi對應(yīng)的細分屬性矢量ai、bi、ci進行編碼,編碼維度為3,得到向量映射onehot(ai)、onehot(bi)、onehot(ci),則與故障標(biāo)簽yi對應(yīng)的屬性矢量編碼為Ai=concat(onehot(ai,bi,ci)),例如B007_1的損傷程度為7 mil、工作負載為1 hp、損傷位置為滾子,其屬性矢量編碼為‘100 010 100’。依據(jù)此原則,試驗為所有滾動軸承健康狀況定義了對應(yīng)的屬性矢量。
本試驗的屬性學(xué)習(xí)網(wǎng)絡(luò)由三個結(jié)構(gòu)參數(shù)相同的屬性學(xué)習(xí)器構(gòu)成,其超參數(shù)設(shè)置如表7所示。屬性學(xué)習(xí)網(wǎng)絡(luò)將特征提取網(wǎng)絡(luò)輸出的特征映射到屬性空間,單個屬性學(xué)習(xí)器由三層全連接層組成,前兩層使用Relu作為激活函數(shù),提高收斂效率,最后一層使用Softmax輸出分類結(jié)果,選取Adam作為優(yōu)化器,學(xué)習(xí)率設(shè)置為1×10-4。為防止屬性學(xué)習(xí)器過擬合,在前兩層中引入dropout,并分別設(shè)置keep_prob分別為0.5和0.7。
表7 屬性學(xué)習(xí)器超參數(shù)設(shè)置Tab.7 Hyper-parameters of attribute learner
在表3中的四種數(shù)據(jù)集下,使用屬性學(xué)習(xí)網(wǎng)絡(luò)識別訓(xùn)練集(可見類)和測試集(未見類)的各個屬性,試驗結(jié)果中各屬性的平均識別準(zhǔn)確率如圖9所示。
圖9 不同數(shù)據(jù)集劃分方式下的屬性識別準(zhǔn)確率Fig.9 Attribute recognition accuracy under different data set partition methods
橫向?qū)Ρ葓D9中多標(biāo)簽屬性學(xué)習(xí)網(wǎng)絡(luò)對四種數(shù)據(jù)集的識別準(zhǔn)確率,可知各類識別精度受數(shù)據(jù)集劃分方式的影響不大,平均準(zhǔn)確率波動在±4%左右,具有較強的泛化性。多標(biāo)簽屬性學(xué)習(xí)網(wǎng)絡(luò)對各屬性的識別精度均高于33.3%的隨機水平,以數(shù)據(jù)集A為例,多標(biāo)簽屬性學(xué)習(xí)網(wǎng)絡(luò)對測試集在損傷位置、工作負載和損傷程度上的屬性識別準(zhǔn)確率分別為79.5%、46.2%和64%,對訓(xùn)練集的識別準(zhǔn)確率分別為97.5%、97.1%和96.8%,如圖9中折線所示。因為試驗遵循零樣本設(shè)置,所有的測試集樣本均未參與訓(xùn)練,且參與訓(xùn)練的測試集與訓(xùn)練集樣本沒有標(biāo)簽上的交集,因此測試集和訓(xùn)練集的識別準(zhǔn)確率無法進行比較。試驗結(jié)果證明所提出的屬性學(xué)習(xí)網(wǎng)絡(luò)可以有效學(xué)習(xí)故障屬性。
由多標(biāo)簽屬性學(xué)習(xí)網(wǎng)絡(luò)得到測試集樣本對應(yīng)的屬性矢量后,通過計算各樣本屬性矢量與各類故障屬性編碼之間的余弦距離,最終確定故障類別。在四種數(shù)據(jù)集下,對比MLZSL方法與其他零樣本學(xué)習(xí)方法的識別準(zhǔn)確率,如表8所示。
表8 軸承狀態(tài)的識別準(zhǔn)確率Tab.8 Identification accuracy of bearing states
IAP方法將屬性層置于訓(xùn)練集標(biāo)簽層與測試集標(biāo)簽層之間,通過遷移訓(xùn)練集樣本的標(biāo)簽與屬性信息來預(yù)測測試集樣本的標(biāo)簽,識別效果較差,平均識別準(zhǔn)確率最低,僅為47.7%。DAP方法引入了中間層,從訓(xùn)練集樣本中學(xué)習(xí)屬性分類器,直接預(yù)測測試集樣本的屬性,但DAP沒有學(xué)習(xí)到屬性之間的關(guān)系,其平均識別準(zhǔn)確率為53.6%,略高于IAP方法。SAE方法使用了自編碼器的結(jié)構(gòu),要求特征輸入映射到屬性層后,能夠重新映射回原來的特征,通過這一結(jié)構(gòu)盡可能保留特征信息,擁有較高的準(zhǔn)確率,平均識別準(zhǔn)確率為61.7%。MLZSL方法通過有監(jiān)督的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)與屬性相關(guān)的特征,多標(biāo)簽屬性學(xué)習(xí)網(wǎng)絡(luò)從特征中預(yù)測測試集樣本的屬性,同時考慮了屬性之間的關(guān)系,其平均診斷準(zhǔn)確率為80.3%,高于其他三種方法,如表8所示。
為了更清晰地展示MLZSL方法對測試集故障的識別效果,將其與準(zhǔn)確率較高的SAE方法進行對比,以數(shù)據(jù)集C為例,繪制了兩種方法屬性識別結(jié)果的混淆矩陣,如圖10所示。
(a) SAE方法
(b) MLZSL方法圖10 MLZSL方法和SAE方法的屬性預(yù)測混淆矩陣Fig.10 Attribute prediction confusion matrix of MLZSL and SAE
圖10(a)和圖10(b)中,從左至右依次是損傷程度、工作負載和損傷位置的屬性識別混淆矩陣,橫坐標(biāo)表示屬性的預(yù)測類別,縱坐標(biāo)表示屬性的真實類別。對比SAE方法和MLZSL方法對損傷程度、工作負載和損傷位置的屬性識別混淆矩陣可知:(1)對于故障樣本的損傷程度,用SAE方法識別屬性時,三種損傷程度屬性均有大量樣本被錯分,例如圖10(a)中,損傷程度為7 mil的故障樣本僅有202個被準(zhǔn)確識別;而采用MLZSL方法后,對損傷程度的預(yù)測準(zhǔn)確率大大提升,例如在圖10(b)中,損傷程度為7 mil的樣本有296個被準(zhǔn)確識別,比SAE方法增加了94個。(2)使用SAE方法識別故障樣本的工作負載屬性時,三種工作負載的預(yù)測情況很差,例如圖10(a)中,工作負載1 hp和2 hp分別只有184和168個樣本被準(zhǔn)確識別;采用MLZSL方法后,工作負載預(yù)測準(zhǔn)確率得到很大改善,例如圖10(b)中,工作負載1 hp和2 hp中被正確識別的樣本數(shù)分別增加了51和78個。(3)在預(yù)測樣本的損傷位置屬性時,SAE方法僅對損傷位置B的預(yù)測結(jié)果較好,其余屬性均存在不同程度的錯分,例如圖10(a)中,損傷位置IR有172個樣本被錯分為OR;而使用MLZSL方法識別損傷位置IR時,如圖10(b)所示,總共僅有77個樣本被錯分,其余屬性被準(zhǔn)確識別的樣本也顯著增多。綜上可知,MLZSL方法在各個屬性上的誤判數(shù)目均低于SAE方法,對各屬性的識別能力更優(yōu)秀,且具有較高的診斷準(zhǔn)確率。
綜合上述試驗驗證,MLZSL方法在零樣本條件下,能夠更準(zhǔn)確的學(xué)習(xí)屬性并預(yù)測故障類別,且具有較好的泛化性。
本文提出的MLZSL方法由RDSCNN特征提取模型和多標(biāo)簽屬性學(xué)習(xí)網(wǎng)絡(luò)組成。MLZSL方法實現(xiàn)了故障特征空間到故障屬性空間的映射,將可見類的故障屬性遷移到未見類,有效地診斷了未見類故障,試驗結(jié)果表明:
(1) 與常用的特征提取模型相比,RDSCNN模型參數(shù)量少、收斂速度快、訓(xùn)練耗時短。該模型提取的特征具有更好的可分性,從所提取的特征中能夠更有效的學(xué)習(xí)與屬性相關(guān)的信息。
(2) 多標(biāo)簽屬性學(xué)習(xí)網(wǎng)絡(luò)可以同時映射多個互斥屬性,降低了模型復(fù)雜度,同時提升了診斷的準(zhǔn)確率,在不同的測試數(shù)據(jù)集中都能夠診斷未見類樣本,泛化性較好。
(3) 所提出的MLZSL故障診斷方法為每一類故障提供了由屬性組成的故障輔助標(biāo)簽,這一屬性層介于故障特征層和故障類別層之間。所定義的屬性跨越了故障類別界限,不同類別的故障可以共享這些屬性。
MLZSL故障診斷方法能夠在零樣本條件下識別未見類故障,適用范圍更廣,其輕量化的模型結(jié)構(gòu)使其診斷結(jié)果具有很高的時效性,為零樣本條件下的軸承故障診斷提供了解決方法。