朱曦海倫,易燦燦
(1.武漢科技大學(xué)冶金裝備及其控制教育部重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430081;2.武漢科技大學(xué)機(jī)械傳動(dòng)與制造工程湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430081)
對(duì)于機(jī)械設(shè)備中無(wú)法直接診斷的故障常采用多種傳感器對(duì)故障部位進(jìn)行測(cè)量,然后對(duì)數(shù)據(jù)分析分析判斷故障類型。該方法具有高效、不需拆解、診斷準(zhǔn)確等優(yōu)點(diǎn)。實(shí)際獲得的信號(hào)通常是復(fù)雜的非平穩(wěn)信號(hào),無(wú)法直接診斷出機(jī)械的類型[1?2]。在實(shí)際工程運(yùn)用中,采集到的數(shù)據(jù)往往需要大量的存儲(chǔ)空間,降維后的數(shù)據(jù)除去無(wú)用的特征,利于計(jì)算[3]。對(duì)原始數(shù)據(jù)做出降維處理后,通過(guò)聚類分析可以看到數(shù)據(jù)在低緯空間的映射情況。聚類問(wèn)題包含較多的簇,而聚類對(duì)象與簇之間并沒(méi)有顯式的對(duì)應(yīng)關(guān)系,這是聚類問(wèn)題的困難所在[4]。常用降維聚類的方法有PCA(主成分分析)、LDA(三層貝葉斯)、MDS(多位標(biāo)度分析),PCA[5]方法雖然映射了數(shù)據(jù)的整體信息,但是沒(méi)有映射出類間信息。LDA[6]方法雖然映射了分類信息,但是當(dāng)樣本信息大量存在時(shí),類間信息不明,算法失效,還會(huì)出現(xiàn)過(guò)擬合數(shù)據(jù)。MDS[7](多位標(biāo)度分析)保留了數(shù)據(jù)的原始相對(duì)關(guān)系,但是需要嚴(yán)格輸入要求,較為耗時(shí)。
針對(duì)上述問(wèn)題,將T?分布隨機(jī)近鄰嵌入與聚類問(wèn)題相結(jié)合[8?9],高位數(shù)據(jù)空間結(jié)構(gòu)映射到低維空間主要通過(guò)超圖鄰接矩陣和KL散度實(shí)現(xiàn),之后再做聚類處理。
t?SNE算法是文獻(xiàn)[10]在2008年提出的,屬于流行學(xué)習(xí)算法,可對(duì)非線性的數(shù)據(jù)做處理。t?SNE算法在對(duì)數(shù)據(jù)進(jìn)行降維的同時(shí),可以保持?jǐn)?shù)據(jù)在高緯空間中的低維流行結(jié)構(gòu),從而實(shí)現(xiàn)映射。
該算法的在高位空間和低維空間的相似性主要通過(guò)KL(Kullback?Leibler)散度衡量,在高位空間和低維空間分別采用高斯分布和t?分布,通過(guò)使這兩個(gè)分布的相似性盡可能一致得到映射。
其余個(gè)體是0,矩陣H的每一列都用作特征。設(shè)高維數(shù)據(jù)點(diǎn)為X={x1,x2,…,xn},它對(duì)應(yīng)矩陣H,在這里引入t?SNE,將其作為在低維空間的映射,高位空間的距離在低維空間保持相似,距離較大的結(jié)構(gòu)保持較大的距離,距離較小的結(jié)構(gòu)保持較小距離。Y={y1,y2,…,yn}為低維空間映射出的點(diǎn),那么xi,xj在低維空間中所映射點(diǎn)的聯(lián)合概率是:
式中:σi—方差,其中心在xi的高斯分布中。
yi,yj為低維空間的映射點(diǎn),可由t?SNE計(jì)算,在理想條件時(shí),可得到Qij=Pij,此時(shí)yi和yj需對(duì)xi和xj做出相似度較高的建模。通常Qij與Pij有誤差,需要使得誤差降到最小,使用代價(jià)函數(shù)來(lái)衡量誤差:
式(5)梯度表示為:
這里使用梯度下降法對(duì)代價(jià)函數(shù)做最小化處理,將相對(duì)較大的動(dòng)向量加入到漸變中,以加快優(yōu)化過(guò)程并防止其陷入不適當(dāng)?shù)木植孔钚≈?。帶?dòng)量項(xiàng)梯度變化用公式表示為:
式中:Y(t)—經(jīng)過(guò)迭代t次后得到的解;
η—梯度變化中的學(xué)習(xí)效率;
α(t)—變化后的動(dòng)量項(xiàng)。
在獲得與H行相對(duì)應(yīng)的低維空間數(shù)據(jù)點(diǎn)表示后進(jìn)行聚類。如果在聚類過(guò)程中類的增長(zhǎng)速率太慢,就會(huì)被認(rèn)作是一個(gè)離群值,但是沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)來(lái)定義增長(zhǎng)速率,這是使用者自行確定的,而且類選擇代表會(huì)比較消耗時(shí)間。改進(jìn)算法是對(duì)密度進(jìn)行分層凝聚的聚類算法,作為簇終止條件,有必要預(yù)先確定簇?cái)?shù)。
首先將每個(gè)數(shù)據(jù)對(duì)象視為一個(gè)單獨(dú)的類,然后繼續(xù)合并這些類,直到達(dá)到退出條件停止。改進(jìn)算法對(duì)原始數(shù)據(jù)集中的點(diǎn)密度進(jìn)行計(jì)算,然后計(jì)算偏差點(diǎn)集P,其余的點(diǎn)組成數(shù)據(jù)集S。根據(jù)數(shù)據(jù)集密度不同對(duì)進(jìn)行分層,并對(duì)密度最高的兩層和密度最低的兩層進(jìn)行分層聚類?;趦杉?jí)聚類結(jié)果,對(duì)整個(gè)數(shù)據(jù)集S進(jìn)行聚合和分層聚類。
最后,根據(jù)接近原理,將點(diǎn)集P中的點(diǎn)分為點(diǎn)集S中已經(jīng)分類的點(diǎn),從而完成了原始數(shù)據(jù)集D的聚類。改進(jìn)的算法使用了密度分層技術(shù),這不僅使算法更有效,而且還允許算法處理不同大小的類。步驟如下:
(1)在數(shù)據(jù)集D中找到每個(gè)數(shù)據(jù)點(diǎn)的密度,點(diǎn)密度是特定區(qū)域中的點(diǎn)數(shù)。該表達(dá)式定義為:
式中:dij—點(diǎn)i和點(diǎn)j的距離;
dc—截?cái)嗑嚯x。
(2)數(shù)據(jù)集D中有部分點(diǎn)為偏差點(diǎn),選取其中部分密度最小的15%點(diǎn)排除,剩余的所有點(diǎn)為數(shù)據(jù)集S。偏差點(diǎn)是首先設(shè)置一個(gè)截?cái)嗝芏炔⒄业叫∮诮財(cái)嗝芏鹊拿芏赛c(diǎn)集的過(guò)程,如下所示:
式中:ρc—預(yù)先設(shè)定的截?cái)嗝芏龋?/p>
n—小于截?cái)嗝芏鹊狞c(diǎn)數(shù)。
(3)數(shù)據(jù)集S中最密集的20%點(diǎn)形成數(shù)據(jù)集B,根據(jù)聚合層次聚類方法將其分為大約2k個(gè)類別。獲取數(shù)據(jù)集B的過(guò)程類似于查找偏差點(diǎn)的過(guò)程。i和j是不同的數(shù)據(jù)點(diǎn),兩個(gè)簇u和p之間的距離表示為:
(4)數(shù)據(jù)集S的最小密度點(diǎn)的大約25%組成了數(shù)據(jù)集L,根據(jù)聚合層次聚類方法將其分為大約2k個(gè)類別?;趯哟尉垲?,根據(jù)凝聚的層次聚類方法,將整個(gè)數(shù)據(jù)集S聚類為大約k個(gè)類別。
(5)最后,P個(gè)數(shù)據(jù)偏差點(diǎn)被劃分為最接近的S類,從而完成了所有D數(shù)據(jù)的分組。
改進(jìn)的算法受參數(shù)截?cái)嗑嚯x和截?cái)嗝芏扔绊戄^小。整個(gè)收集過(guò)程都依賴于計(jì)算數(shù)據(jù)點(diǎn)之間的距離,而無(wú)需復(fù)雜的公式。改進(jìn)了分層算法,在最高和最低密度層上進(jìn)行分層分組的思想是提高算法的效率以及處理密度不均分布式數(shù)據(jù)集。
軸承主要用于機(jī)械設(shè)備的旋轉(zhuǎn)零件,誤差信號(hào)通常是非線性且不穩(wěn)定的,并且包含大量的缺陷和噪聲成分[11],從這些信號(hào)中提取故障特征是診斷故障的關(guān)鍵。
有許多仿真的故障模型,最經(jīng)典的是Randall[12]提出的。模擬信號(hào)是:
式中:s(t)—周期性的沖擊分量;A0—共振幅度;fr—調(diào)制頻率;φA、φw、CA—常數(shù);C—衰減系數(shù);T—兩次沖擊之間的平均時(shí)間,T=—故障的特征頻率;fn—諧振頻率;n(t)—高斯白噪聲的成分。
外圈故障、內(nèi)圈故障和滾動(dòng)元件故障為常見(jiàn)的軸承故障,模擬這三種故障將調(diào)制頻率分別設(shè)置為fr=0,fr=fr,fr=fre。
需要指出的是,fr是轉(zhuǎn)動(dòng)頻率,fre是保持器頻率。外圈故障頻率f0、內(nèi)圈故障頻率fi和滾動(dòng)件故障頻率f0,如表1所示。
表1 滾動(dòng)軸承的故障特征頻率Tab.1 Fault Characteristic Frequency of Rolling Bearing
部分參數(shù),如表2 所示。采樣頻率和采樣點(diǎn)分別設(shè)置為4096Hz和4096點(diǎn)。三種故障的時(shí)頻域圖,如圖1所示。
表2 內(nèi)圈故障仿真信號(hào)的參數(shù)選擇Tab.2 Parameter Selection of Inner Race Fault Simulation Signal
圖1 三種仿真信號(hào)的時(shí)頻域Fig.1 Time?Frequency Domain of Three Kinds of Simulation Signals
對(duì)三組故障信號(hào)作頻譜分析,可以看到軸承故障信號(hào)的頻域特征變化不明顯,僅通過(guò)頻率特征對(duì)不同的故障進(jìn)行識(shí)別較為困難,使用上述提出的方法15組信號(hào)進(jìn)行計(jì)算。三種仿真信號(hào)的聚類分析圖,如圖2所示。
圖2 提出方法仿真信號(hào)聚類結(jié)果Fig.2 Clustering Results of Simulation Signals Provided by the Proposed Method
從圖2中可以看到,三種故障的信號(hào)不管是在2D圖,還是3D圖中均被分開(kāi),而且三種故障之間沒(méi)有重疊部分,在3D圖中的外圈故障有極少部分信號(hào)偏移,沒(méi)有形成良好的聚類效果,總體來(lái)說(shuō)三種仿真信號(hào)的核心點(diǎn)被正確地挑選出來(lái)。主成分分析和K均值計(jì)算結(jié)果圖,如圖3所示。
圖3 PCA與K均值聚類結(jié)果Fig.3 Clustering Results of PCA and K?means
與圖2 比較,聚類效果較差。可以看到,采用主成分分析(PCA)進(jìn)行聚類的數(shù)據(jù)全部交錯(cuò)在一起,沒(méi)有找到各個(gè)類別的聚類中心,類間也沒(méi)有分開(kāi),沒(méi)有達(dá)到理想的聚類效果。采用K均值聚類的數(shù)據(jù)有分開(kāi)的趨勢(shì),部分?jǐn)?shù)據(jù)找到類內(nèi)中心,類間距離較主成分分析的效果要好,但是整體仍然沒(méi)有達(dá)到理想的聚類效果。
本實(shí)驗(yàn)分析采用的實(shí)驗(yàn)臺(tái)裝置原理圖,如圖4 所示。由電機(jī)、單級(jí)圓柱齒輪減速器和磁粉制動(dòng)器組成,單級(jí)圓柱齒輪減速器由大小兩個(gè)齒輪嚙合在一起,齒數(shù)分別為37和20,模數(shù)為3。振動(dòng)加速度傳感器安裝位置,如圖4所示。
圖4 齒輪故障實(shí)驗(yàn)裝置及傳感器布置示意圖Fig.4 Schematic Diagram of Gear Failure Test Device and Sensor Arrangement
選取了正常、斷齒、磨損工況三種齒輪,將三種齒輪分別安裝在試驗(yàn)臺(tái)中,采集振動(dòng)信號(hào)。實(shí)驗(yàn)中不加負(fù)載,將高速軸轉(zhuǎn)速調(diào)至363r/min,采樣頻率2000Hz,時(shí)間2s,本實(shí)驗(yàn)齒輪箱的尺寸比較小,而且具有較大的剛性,所以組裝的折斷齒,磨損和正常工作狀態(tài)信號(hào)都受到齒輪固定螺栓振動(dòng)的影響。15個(gè)信號(hào)組的時(shí)頻域圖,如圖5所示。對(duì)信號(hào)組的頻譜分析表明,信號(hào)的頻域特征沒(méi)有明顯變化。
圖5 三種齒輪的時(shí)頻域圖Fig.5 Time?Frequency Domain of Three Signals
下面采用齒輪故障數(shù)據(jù)集對(duì)聚類算法的分類效果進(jìn)行測(cè)試,同時(shí)引入常用聚類算法作為對(duì)比。聚類效果的2D圖,如圖6(a)所示。從圖中可以看到各類別相互重疊,沒(méi)有完全分開(kāi);齒輪故障數(shù)據(jù)集的分布,如圖6(b)所示。從圖中可以看到,數(shù)據(jù)集包含三類數(shù)據(jù),三類數(shù)據(jù)的核心點(diǎn)被正確地挑選出來(lái);采用的十五組數(shù)據(jù)均被準(zhǔn)確地聚類,類內(nèi)之間沒(méi)有重合情況,類間有重合情況,因?yàn)樯倭繑?shù)據(jù)存在較大的相似度。
圖6 提出方法齒輪故障聚類結(jié)果Fig.6 Gear Fault Clustering Results by the Proposed Method
為了說(shuō)明該方法的效果,采用主成分分析的聚類方法和K均值聚類算法作為對(duì)比,運(yùn)用主成分分析的聚類結(jié)果,如圖7所示。從圖中可以看到三類數(shù)據(jù)重合在一起,類間與類內(nèi)均沒(méi)有分開(kāi),而且同類數(shù)據(jù)出現(xiàn)了丟失的情況,沒(méi)有達(dá)到聚類的效果。采用K 均值算法的聚類結(jié)果,如圖8 所示??梢钥吹脚c主成分分析的結(jié)果相比,有明顯的改善效果,兩類數(shù)據(jù)已經(jīng)到達(dá)了聚類效果,少量數(shù)據(jù)存在重合,第三類數(shù)據(jù)出現(xiàn)了大量丟失情況,沒(méi)有達(dá)到聚類效果。
圖7 主成分分析聚類結(jié)果Fig.7 Clustering Results of Principal Component Analysis
圖8 K均值聚類結(jié)果Fig.8 Results of K?Means Clustering
與基于相空間和T分布隨機(jī)近鄰嵌入的聚類方法相比,整體數(shù)據(jù)集的聚類效果并不明顯,沒(méi)有達(dá)到完整的聚類效果。為了量化對(duì)比3種聚類算法的分類效果,分別計(jì)算了3類數(shù)據(jù)的分類正確率,如表3所示。
表3 不同方法數(shù)據(jù)分類正確率Tab.3 Data Classification Accuracy by Different Methods
通過(guò)T分布隨機(jī)近鄰嵌入聚類方法將高維空間結(jié)構(gòu)高度相似映射到低維空間,并且使用改進(jìn)的聚類算法得到最后的結(jié)果。通過(guò)軸承仿真數(shù)據(jù)和實(shí)驗(yàn)測(cè)得的齒輪故障數(shù)據(jù)分析表明:
t?SNE算法與改進(jìn)的密度聚類算法相結(jié)合可以對(duì)數(shù)據(jù)進(jìn)行聚類分析,而且改進(jìn)的t?SNE 聚類算法比PCA、K 均值聚類算法明顯地提高聚類質(zhì)量,獲得了更加優(yōu)越的效果。因此,基于t?SNE降維特征提取方法改進(jìn)的聚類算法能夠適用于機(jī)械設(shè)備故障診斷中。