田威威,陳俊杰,林意
(1. 江南大學(xué) 人工智能與計(jì)算機(jī)學(xué)院, 江蘇 無(wú)錫 214122;2. 西門子中國(guó)研究院, 北京 100000)
在工業(yè)生產(chǎn)中,軸承是旋轉(zhuǎn)機(jī)械的關(guān)鍵部件,由于長(zhǎng)期連續(xù)工作在高載荷和高轉(zhuǎn)速下,輕則會(huì)影響工廠企業(yè)的正常運(yùn)作,重則會(huì)造成重大的經(jīng)濟(jì)損失,甚至出現(xiàn)毀機(jī)事故和人員傷亡。因此在早期有效地診斷軸承是否有故障具有十分重要的意義[1]。
運(yùn)用傳統(tǒng)的機(jī)器學(xué)習(xí)方法進(jìn)行故障診斷[2-4]需要大量的帶標(biāo)簽樣本以訓(xùn)練分類器。而在實(shí)際生產(chǎn)中,軸承運(yùn)行所產(chǎn)生的實(shí)時(shí)振動(dòng)數(shù)據(jù)本身并無(wú)標(biāo)簽。同時(shí),由于軸承種類繁多且工況復(fù)雜(如轉(zhuǎn)速、溫度及其他工作環(huán)境的變化),數(shù)據(jù)的分布差異巨大,因此已有的帶標(biāo)簽樣本并不一定適用于新近產(chǎn)生的數(shù)據(jù),以此訓(xùn)練出的分類器更是難以滿足需求。
為達(dá)到減小數(shù)據(jù)分布差異的目的,考慮使用遷移成分分析(TCA),其在故障診斷領(lǐng)域已有不少應(yīng)用[5-6]。TCA由Pan等[7-8]提出,該算法將最大均值差異(MMD)[9]與主成分分析(PCA)[10-11]相結(jié)合,在領(lǐng)域之間尋找一種共享的特征表示,試圖在減少數(shù)據(jù)分布差異的同時(shí)保持原始數(shù)據(jù)的內(nèi)部屬性。經(jīng)過(guò)這種處理后的數(shù)據(jù)可以直接利用傳統(tǒng)分類器對(duì)數(shù)據(jù)進(jìn)行跨工況的訓(xùn)練和泛化。
在傳統(tǒng)的TCA軸承故障診斷方法中,通過(guò)處理反應(yīng)軸承狀態(tài)信息的振動(dòng)信號(hào)可以從中提取出軸承的特征,以便對(duì)軸承的狀態(tài)進(jìn)行分析從而判斷軸承是否出現(xiàn)了故障,出現(xiàn)了何種故障。傳統(tǒng)的方法從時(shí)域、頻域及時(shí)頻域3個(gè)方面進(jìn)行特征提取。然而在實(shí)際現(xiàn)場(chǎng)中,信號(hào)干擾或者生產(chǎn)環(huán)境等因素會(huì)弱化軸承振動(dòng)信號(hào)的規(guī)律性,使得在頻譜上難以準(zhǔn)確看到相應(yīng)分布特征。當(dāng)采用詞包模型時(shí),把每一時(shí)間幀下能量在頻率維度上的分布看成一個(gè)單詞,則每段信號(hào)就表示成了由各個(gè)單詞組成的一篇篇文檔,這就可以直接從數(shù)據(jù)的角度去揭示能量分布的這種規(guī)律性。
在此基礎(chǔ)上,筆者提出一種基于遷移成分分析和詞包模型的診斷算法,通過(guò)遷移成分分析將源域頻譜數(shù)據(jù)(有標(biāo)簽)和目標(biāo)域頻譜數(shù)據(jù)(無(wú)標(biāo)簽)映射到同一分布下,對(duì)遷移后的數(shù)據(jù)建立詞包模型,以詞包的形式表示各個(gè)樣本,以此為特征訓(xùn)練出相應(yīng)分類器對(duì)軸承進(jìn)行診斷。實(shí)驗(yàn)結(jié)果表明,該方法能夠?qū)⒁褬?biāo)記的數(shù)據(jù)用于訓(xùn)練分類器對(duì)新近產(chǎn)生的軸承數(shù)據(jù)進(jìn)行分類,以達(dá)到故障診斷的目的。使用該方法,運(yùn)用一種工況下的軸承數(shù)據(jù)作訓(xùn)練對(duì)另一工況下的軸承進(jìn)行診斷具有顯著的成效。
TCA是一種遷移學(xué)習(xí)方法,所謂遷移學(xué)習(xí),即把已訓(xùn)練好的模型(源域)遷移到新的模型(目標(biāo)域)來(lái)幫助新模型訓(xùn)練。在滾動(dòng)軸承領(lǐng)域,由于軸承之間具有相似性,所以它們的振動(dòng)數(shù)據(jù)之間應(yīng)當(dāng)具有可遷移性。
和主成分分析(PCA)方法一樣,遷移成分分析本質(zhì)上是一種降維算法,而TCA在拉近數(shù)據(jù)分布距離上更有優(yōu)勢(shì)。
早期的詞包模型(BOW)主要用于解決文本分析問(wèn)題,如分析文檔集、文檔和單詞三者間的相互關(guān)系。陳俊杰等[12]創(chuàng)造性地將其運(yùn)用于軸承特征提取,并在基于該提取方式的軸承故障診斷中取得了極佳的效果。
其主要思想為對(duì)軸承振動(dòng)信號(hào)進(jìn)行短時(shí)傅里葉變換后得到頻譜,將每個(gè)頻譜片段視為一個(gè)單詞,可以表示為1組V維的向量w=(0,…,1,…,0),其中wv=0,wu=1(v≠u)。
每個(gè)頻譜可以由N個(gè)頻譜片段組成,相當(dāng)于由單詞組成文檔,即w=(w1,…wn,…,wN),其中wn是第n個(gè)頻譜片段。
每個(gè)頻譜中的單個(gè)頻譜片段也可表示為wi=(wi1,wi2,…,wiV),從而可以將頻譜表示為w=(w1,w2,…,wV),成為詞包模型,整個(gè)頻譜集合的詞包模型如下:
(1)
詞包模型本質(zhì)上是將特征以文本表示,雖然可以作為軸承的特征,但是由于每1維度之間并不具有相同的映射關(guān)系,所以失去了可遷移性。為了達(dá)到變工況軸承故障診斷的目的,考慮在詞包模型完全建立之前進(jìn)行遷移。此時(shí),特征的表示形式為頻譜能量分布矩陣,能量分布矩陣由多個(gè)分布片段組成。該矩陣由振動(dòng)信號(hào)經(jīng)短時(shí)傅里葉變換得到,每個(gè)分布片段之間完整地保留了相應(yīng)的映射關(guān)系,在這樣的情況下進(jìn)行遷移成分分析可以更好地將該工況的能量分布矩陣遷移到另一工況的數(shù)據(jù)分布下。
源域頻譜能量分布矩陣經(jīng)過(guò)遷移后,其數(shù)據(jù)分布已更接近于目標(biāo)域工況下軸承的能量分布矩陣,因而使用在其基礎(chǔ)上訓(xùn)練的分類器對(duì)目標(biāo)域工況下的軸承進(jìn)行診斷可以取得良好的效果。
遷移詞包模型建立流程如圖1所示。
圖1 遷移詞包模型建立流程Fig. 1 TCA-BOW model establishment process
對(duì)軸承進(jìn)行診斷,首先要根據(jù)軸承的振動(dòng)信號(hào)提取特征。通過(guò)對(duì)振動(dòng)信號(hào)進(jìn)行短時(shí)傅里葉變換獲取其能量分布并建立相應(yīng)的詞包模型是一種有效的特征提取方式。
2.1.1 能量分布
短時(shí)傅里葉變換(STFT)[13]是一種線性時(shí)頻變換,定義為
(2)
式中:t為時(shí)間;f為頻率;x為源信號(hào);γ為窗函數(shù),可視為某段信號(hào)在某段時(shí)間內(nèi)的局部頻譜。
P(m,n)=|T(m,n)|2。
(3)
圖2為軸承4種不同狀態(tài)下其振動(dòng)信號(hào)的能量分布。
圖2 各狀態(tài)下的能量分布Fig. 2 Energy distribution in each state
功率譜密度(PSD)的分布矩陣MP如式(4)所示,其中Nt,Nf分別是時(shí)域和頻域的片段數(shù)目。
(4)
2.1.2 遷移成分分析
對(duì)源域信號(hào)及目標(biāo)域信號(hào)進(jìn)行短時(shí)傅里葉變換可以得到兩者的PSD。但此時(shí)這些PSD 并不處于同一分布,源域與目標(biāo)域距離過(guò)大,據(jù)此建立的詞包模型難以準(zhǔn)確地描述軸承的故障情況。分布情況如圖3所示,其中紅色為源域,藍(lán)色為目標(biāo)域。
在這種情況下使用TCA拉近兩者的距離,使它們趨于同一分布從而提取出準(zhǔn)確的特征。對(duì)m段源域信號(hào)及n段目標(biāo)域信號(hào)(每段信號(hào)長(zhǎng)度相同)進(jìn)行短時(shí)傅里葉變換,得到m+n個(gè)Nt*Nf的矩陣,把這些矩陣分為(m+n)*Nt個(gè)時(shí)間片段,每個(gè)時(shí)間片段上均為一個(gè)1 *Nf的數(shù)組,表示該時(shí)間片段能量在頻域上的分布情況。再以這m*Nt個(gè)1*Nf的數(shù)組為源域,n*Nt個(gè)1*Nf的數(shù)組為目標(biāo)域進(jìn)行TCA,經(jīng)過(guò)降維之后可以得到m*Nt個(gè)1 *Nf′的數(shù)組(Nf′ 圖3 源域目標(biāo)域 PSD分布對(duì)比Fig. 3 Comparison of PSD distribution between source domain and target domain 圖4 遷移后源域目標(biāo)域PSD分布對(duì)比Fig. 4 Comparison of PSD distribution between source domain and target domain after TCA 由圖4可知源域數(shù)據(jù)PSD與目標(biāo)域數(shù)據(jù)PSD經(jīng)過(guò)遷移后分布近似相同,在這種情況下建立的詞包模型能夠更好地描述源域及目標(biāo)域所指軸承的狀態(tài)特征。 2.1.3 詞包模型建立 得到源域及目標(biāo)域遷移后的特征之后,便可以建立相應(yīng)的詞包模型。 對(duì)已知的所有分布情況做k-means聚類,每個(gè)分布表示為1 *Nf的數(shù)組,聚成k類,據(jù)此創(chuàng)建一個(gè)大小為k的詞匯表,其中每個(gè)單詞單獨(dú)地對(duì)應(yīng)某1個(gè)聚類結(jié)果,如圖5所示。 F=[n(1),…,n(i),…,n(k)], (5) 式中n(i) 是單詞wi在文檔中出現(xiàn)的次數(shù)。 圖5 聚類Fig. 5 Clustering 圖6 詞包Fig. 6 Bag of words 在不同情況下,k的取值也不盡相同,圖7為凱斯西儲(chǔ)大學(xué)數(shù)據(jù)集下某次遷移過(guò)程中某個(gè)軸承狀態(tài)的診斷錯(cuò)誤率隨k值的變化。選取其中錯(cuò)誤率最低的相應(yīng)k值進(jìn)行診斷。 圖7 準(zhǔn)確率隨k值的變化Fig. 7 Accuracy changes with k 以源域數(shù)據(jù)做訓(xùn)練,以目標(biāo)域數(shù)據(jù)做測(cè)試,構(gòu)造相應(yīng)的詞包模型并訓(xùn)練若干分類器,包括SVM、KNN等,從中選擇效果較好的分類器作為最終的分類器,不同的數(shù)據(jù)集下不同分類器的表現(xiàn)也不盡相同。 整個(gè)算法流程如圖8所示。 圖8 基于TCA和詞包模型的軸承故障診斷流程Fig. 8 The process of bearing diagnosis based on TCA-BOW 在本次實(shí)驗(yàn)中,筆者將該算法應(yīng)用于西門子SQI-MFS實(shí)驗(yàn)平臺(tái)數(shù)據(jù)集、美國(guó)凱斯西儲(chǔ)大學(xué)公開(kāi)數(shù)據(jù)集以及機(jī)械故障預(yù)防技術(shù)協(xié)會(huì)MFPT(machinery failure prevention technology)數(shù)據(jù)集。 3.1.1 SQI-MFS數(shù)據(jù)集 圖9 西門子SQI-MFS實(shí)驗(yàn)平臺(tái)Fig. 9 Siemens SQI-MFS experiment platform SQI-MFS 實(shí)驗(yàn)平臺(tái)由電機(jī)、變頻器、軸承和支架組成(圖9所示)。其中軸承型號(hào)為MBER-16K,實(shí)驗(yàn)臺(tái)可以模擬各類軸承在不同轉(zhuǎn)速和不同負(fù)載下的運(yùn)行狀態(tài)。實(shí)驗(yàn)中采集了36種運(yùn)行狀態(tài)下振動(dòng)數(shù)據(jù),分別為: 3種負(fù)載情況( 0,1,3 個(gè)轉(zhuǎn)子負(fù)載) × 3種轉(zhuǎn)速( 600,1 200,1 800 r /min) × 4種軸承(健康、滾珠、內(nèi)圈、外圈) 。 3.1.2 凱斯西儲(chǔ)大學(xué)數(shù)據(jù)集 美國(guó)西儲(chǔ)大學(xué)實(shí)驗(yàn)平臺(tái)由1個(gè)電機(jī),1個(gè)轉(zhuǎn)矩,1個(gè)傳感器,1個(gè)功率計(jì)以及電子控制設(shè)備組成,其中被測(cè)試軸承種類為SKF軸承,實(shí)驗(yàn)中采集了16種狀態(tài)下的信號(hào),包括4種負(fù)載( 0,735,1 470,2 205 W),4種故障狀態(tài) ( 健康、滾珠、內(nèi)圈、外圈)。其中,0 W負(fù)載下電機(jī)轉(zhuǎn)速為1 797 r /min,735 W負(fù)載下電機(jī)轉(zhuǎn)速為1 772 r /min,1 470 W負(fù)載下電機(jī)轉(zhuǎn)速為1 750 r / min,2 205 W負(fù)載下電機(jī)轉(zhuǎn)速為1 730 r /min。 3.1.3 機(jī)械故障預(yù)防技術(shù)協(xié)會(huì)MFPT數(shù)據(jù)集 該數(shù)據(jù)集由機(jī)械故障預(yù)防技術(shù)協(xié)會(huì)(MFPT)[14]提供。一個(gè)帶有NICE 軸承的實(shí)驗(yàn)臺(tái)收集了 270 磅負(fù)載下基線條件下的加速度數(shù)據(jù)(健康數(shù)據(jù)),采樣頻率為97 656 Hz,持續(xù) 6 s。共跟蹤了10個(gè)外圈和7個(gè)內(nèi)圈故障數(shù)據(jù)情況,其中外圈故障包括在 270 磅負(fù)載下,采樣頻率為 97 656 Hz,持續(xù)6 s的3個(gè)數(shù)據(jù),以及在 11,23,45,68,91,113和136 kg磅負(fù)載下,采樣頻率為48 828 Hz,持續(xù) 3 s的 7 個(gè)數(shù)據(jù);內(nèi)圈故障包括在 0,23,45,68,91,113和136 kg磅負(fù)載下,采樣頻率為48 848 Hz,持續(xù)3 s的7個(gè)數(shù)據(jù)。 針對(duì)這3個(gè)數(shù)據(jù)集以某種工況下數(shù)據(jù)為源域,再以另一種工況下的數(shù)據(jù)為目標(biāo)域進(jìn)行TCA遷移,得到新的數(shù)據(jù)并建立詞包模型以訓(xùn)練出相應(yīng)的分類器后對(duì)目標(biāo)域數(shù)據(jù)進(jìn)行分類。具體步驟如下: 步驟1 選取某種工況下4種軸承狀態(tài)(健康、滾珠故障、內(nèi)圈故障、外圈故障)每種振動(dòng)信號(hào)的10個(gè)片段,共計(jì)40個(gè)信號(hào)片段作為源域數(shù)據(jù)。 步驟2 選取另一種工況下的某種軸承狀態(tài)的10個(gè)信號(hào)片段作為目標(biāo)域數(shù)據(jù)。 步驟3 使用TCA和詞包模型對(duì)軸承故障進(jìn)行診斷,得出診斷結(jié)果。 步驟4 重復(fù)步驟2,3,得到以4種軸承狀態(tài)數(shù)據(jù)為源域數(shù)據(jù)的40個(gè)診斷結(jié)果。 步驟5 計(jì)算并得到準(zhǔn)確率。 3.2.1 與傳統(tǒng)遷移成分分析對(duì)比 在傳統(tǒng)的遷移成分分析中,通常從時(shí)域、頻域、時(shí)頻域中獲取數(shù)據(jù)的特征。其在時(shí)域上提取峰值、平均幅值等13個(gè)時(shí)域特征。在時(shí)域上對(duì)頻譜進(jìn)行分析,提取頻域統(tǒng)計(jì)特征并選取重心頻率等5個(gè)頻域特征。對(duì)數(shù)據(jù)進(jìn)行小波包分解,得到8個(gè)時(shí)頻域特征[15]。 1)西門子SQI數(shù)據(jù)集。 在西門子SQI數(shù)據(jù)集下將負(fù)載數(shù)量固定不變,進(jìn)行跨頻率的診斷,診斷結(jié)果如表1所示。 表1 SQI下基于各種特征提取方式的遷移成分分析準(zhǔn)確率對(duì)比 從表1可以看出在西門子SQI數(shù)據(jù)集下使用詞包模型進(jìn)行特征提取再進(jìn)行TCA,雖然在個(gè)別情況下準(zhǔn)確率不算理想,但總體而言,相對(duì)于使用時(shí)域特征及時(shí)頻域特征可以得到更高的準(zhǔn)確率。在實(shí)際實(shí)驗(yàn)中,使用頻域特征進(jìn)行遷移成分分析得到的結(jié)果不太理想,所有的軸承均被診斷為外圈故障。 2)凱斯西儲(chǔ)大學(xué)數(shù)據(jù)集。 在凱斯西儲(chǔ)大學(xué)數(shù)據(jù)集下進(jìn)行跨負(fù)載數(shù)量的軸承故障診斷。由于0負(fù)載滾珠故障數(shù)據(jù)缺失,故涉及0負(fù)載數(shù)據(jù)的忽略滾珠故障狀態(tài),僅對(duì)30個(gè)源域信號(hào)進(jìn)行計(jì)算,診斷結(jié)果如表2所示。 表2 凱斯西儲(chǔ)數(shù)據(jù)集下基于各種特征提取方式的遷移成分分析準(zhǔn)確率對(duì)比 從表2可以看出在凱斯西儲(chǔ)數(shù)據(jù)集下使用詞包模型進(jìn)行特征提取再進(jìn)行TCA效果不錯(cuò)。整體而言比時(shí)域特征更高,與小波包分解差距不大。在實(shí)際實(shí)驗(yàn)中,使用頻域特征進(jìn)行遷移成分分析得到的結(jié)果也不太理想,所有的軸承均被診斷為內(nèi)圈故障。 3)MFPT數(shù)據(jù)集。 MFPT數(shù)據(jù)集中僅有3個(gè)軸承狀態(tài)(健康、內(nèi)圈故障、外圈故障),因此只對(duì)這3種軸承狀態(tài)進(jìn)行研究。在實(shí)驗(yàn)過(guò)程中,由于健康數(shù)據(jù)均來(lái)自270磅負(fù)載情況下,所以只計(jì)算內(nèi)圈及外圈共20個(gè)診斷結(jié)果的準(zhǔn)確率,診斷結(jié)果如表3所示。 表3 MFPT數(shù)據(jù)集下基于各種特征提取方式的遷移成分分析準(zhǔn)確率對(duì)比 從表3中可以看出,在MFPT數(shù)據(jù)集下,使用詞包模型進(jìn)行特征提取再進(jìn)行TCA效果極佳。相對(duì)于時(shí)域特征及小波包分解具有更高的準(zhǔn)確性與穩(wěn)定性。在實(shí)際實(shí)驗(yàn)中,使用頻域特征進(jìn)行遷移成分分析得到的結(jié)果仍然不太理想,所有的軸承均被診斷為外圈故障。 3.2.2 與其他方法對(duì)比 在詞包模型的基礎(chǔ)上,分別運(yùn)用TCA、PCA及核主成分分析(KPCA)算法對(duì)多組數(shù)據(jù)取平均值,結(jié)果如圖10所示。 圖10 詞包模型TCA、詞包模型PCA、詞包模型KPCA的對(duì)比Fig. 10 Comparison of TCA-BOW, PCA-BOW and KPCA-BOW 由圖10可知,使用TCA進(jìn)行診斷時(shí),隨著數(shù)據(jù)組數(shù)的增加,準(zhǔn)確率漸漸趨于穩(wěn)定,始終保持在90%以上,相對(duì)地,使用PCA進(jìn)行計(jì)算時(shí)準(zhǔn)確率并不穩(wěn)定且效果不佳,而KPCA雖然使用效果比PCA好但與TCA還是有一定的差距。 1)提出一種使用遷移成分分析和詞包模型的變工況軸承故障診斷算法,對(duì)不同工況下的軸承振動(dòng)信號(hào)進(jìn)行遷移成分分析并建立相應(yīng)的詞包模型,并以此訓(xùn)練出分類器進(jìn)行診斷。 2)在西門子SQI-MFS數(shù)據(jù)集、凱斯西儲(chǔ)大學(xué)數(shù)據(jù)集、MFPT數(shù)據(jù)集下進(jìn)行實(shí)驗(yàn)后,發(fā)現(xiàn)傳統(tǒng)遷移成分分析使用的時(shí)域、頻域及時(shí)頻域特征整體而言效果欠佳,尤其是在頻域下直接進(jìn)行TCA效果較差(即使預(yù)先進(jìn)行了歸一標(biāo)準(zhǔn)化),相對(duì)而言,同時(shí)使用詞包模型特征與TCA效果更佳。 3)實(shí)驗(yàn)證明了本算法在變工況軸承故障診斷方面的有效性,對(duì)于復(fù)雜工況下的生產(chǎn),使用這種算法可以以較低的成本完成軸承故障診斷。2.2 分類
3 實(shí)驗(yàn)結(jié)果
3.1 實(shí)驗(yàn)數(shù)據(jù)
3.2 實(shí)驗(yàn)內(nèi)容
4 結(jié)束語(yǔ)