徐傳超,劉 月,付經(jīng)倫
(1. 中國(guó)科學(xué)院工程熱物理研究所,北京 100190;2. 中國(guó)科學(xué)院大學(xué), 北京 100049)
近年來(lái),故障預(yù)測(cè)與健康管理(Prognostic and Health Management,PHM)逐漸成為高端裝備研發(fā)的管的重點(diǎn)研發(fā)方向,部件及整機(jī)的可維護(hù)性、使用壽命和智能化也逐漸成為產(chǎn)品設(shè)計(jì)的重要考量因素。
軸承作為高端裝備中的常用部件,一定場(chǎng)景下針對(duì)其建立完善的狀態(tài)監(jiān)測(cè)、故障診斷和保護(hù)隔離系統(tǒng)是必要的,其中故障診斷技術(shù)是維持裝備安全穩(wěn)定運(yùn)行的重要手段[1],受到越來(lái)越多的重視。常規(guī)的故障診斷方法有:基于模型分析的方法、基于定性經(jīng)驗(yàn)知識(shí)的方法和基于數(shù)據(jù)驅(qū)動(dòng)的方法。
傳統(tǒng)的故障診斷方法由于所建立的物理模型的限制,已經(jīng)無(wú)法滿(mǎn)足人們的要求,而設(shè)備大量的運(yùn)行數(shù)據(jù)由于能夠很好地反映設(shè)備運(yùn)行的狀態(tài)和機(jī)理,逐漸被用于故障診斷,基于數(shù)據(jù)驅(qū)動(dòng)的方法也逐漸成為故障診斷的發(fā)展方向。目前基于數(shù)據(jù)驅(qū)動(dòng)方法主要包括:統(tǒng)計(jì)方法、信號(hào)處理和基于人工智能的方法[2],其中,統(tǒng)計(jì)方法受限于統(tǒng)計(jì)分析理論,其適用范圍較小有限。信號(hào)處理技術(shù)是軸承故障分析的重要方法,以傅立葉變換[3]、小波包分析[4]、Hilbert-Huang變換[5]等方法為代表。信號(hào)處理方法基于信號(hào)分析技術(shù)提取時(shí)頻域特征參數(shù)并對(duì)系統(tǒng)狀態(tài)進(jìn)行表征,這個(gè)過(guò)程仍然會(huì)有數(shù)據(jù)的信息損失[6]?;谌斯ぶ悄芗夹g(shù)的故障診斷方法不需要特定數(shù)學(xué)模型,基于足夠的歷史數(shù)據(jù)通過(guò)計(jì)算機(jī)進(jìn)行學(xué)習(xí)、推理和決策等就可以實(shí)現(xiàn)故障診斷[7],在眾多基于人工智能技術(shù)的故障診斷方法中,典型的代表有基于人工神經(jīng)網(wǎng)絡(luò)的方法[8]、基于支持向量機(jī)的方法[9]和基于模糊邏輯的方法[10]。同時(shí)機(jī)器學(xué)習(xí)的經(jīng)典分類(lèi)方法還包括決策樹(shù)、隨機(jī)森林、極限決策樹(shù)等。其中基于人工神經(jīng)和支持向量機(jī)的故障診斷方法在利用數(shù)據(jù)的時(shí)候,都是將各個(gè)故障數(shù)據(jù)當(dāng)作單一時(shí)刻多變量對(duì)系統(tǒng)狀態(tài)的表征,沒(méi)有考慮單一變量在時(shí)間尺度上的連續(xù)性,從而丟失時(shí)間序列這一表征設(shè)備故障情況的重要特征。利用單一變量的時(shí)間序列來(lái)判定故障類(lèi)型可以用統(tǒng)計(jì)方法和信號(hào)處理方法來(lái)解決,但兩種方法都有其自身缺點(diǎn),所以探索一種基于時(shí)間序列且能克服上述兩種方法缺陷的故障診斷方法就很有必要。
Jia Minping[11]等人提出了一種基于時(shí)間序列自回歸模型的VPMCD(基于變量預(yù)測(cè)模型的模式識(shí)別)故障診斷方法,將自回歸參數(shù)作為故障特征量進(jìn)行診斷。何強(qiáng)[12]等人開(kāi)發(fā)了一種混合時(shí)間序列卷積神經(jīng)網(wǎng)絡(luò)模型。對(duì)原始信號(hào)直接進(jìn)行特征提取。有效地對(duì)滾動(dòng)軸承故障進(jìn)行了分類(lèi)。劉布宇[13]提出了一種自適應(yīng)深度卷積診斷模型,該模型同時(shí)利用了卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短時(shí)間記憶網(wǎng)路,其中后者被用于時(shí)間序列分析功能的實(shí)現(xiàn),該方法在實(shí)際工況的驗(yàn)證實(shí)驗(yàn)中表現(xiàn)突出?;诖?,本研究通過(guò)對(duì)時(shí)間序列信號(hào)進(jìn)行相關(guān)性計(jì)算以保留信號(hào)在時(shí)間維度的特征,并構(gòu)建表征故障的相關(guān)性矩陣,將其變換為故障特征圖片后再用卷積神經(jīng)網(wǎng)絡(luò)分類(lèi)實(shí)現(xiàn)故障診斷。
本文的研究方法主要用到了格萊姆角場(chǎng)理論(Gramian Angular Field,GAF)和卷積神經(jīng)網(wǎng)絡(luò),通過(guò)GAF理論可以將軸承故障信號(hào)的時(shí)間序列變換為表征其故障情況的圖片,再由卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)強(qiáng)大的圖片識(shí)別能力,對(duì)所生成的圖片進(jìn)行分類(lèi),即間接對(duì)軸承故障信號(hào)進(jìn)行分類(lèi),并結(jié)合機(jī)器學(xué)習(xí)常規(guī)分類(lèi)方法對(duì)比分析分類(lèi)效果。
針對(duì)以上問(wèn)題,本文參考文獻(xiàn)[14],得到將時(shí)間序列轉(zhuǎn)化為圖像的方法——格萊姆角場(chǎng)方法,這一方法能夠?qū)⒁粋€(gè)變量的時(shí)間序列變換為正方形的圖像,圖像中每個(gè)像素的橫縱位置信息都代表了對(duì)應(yīng)時(shí)間序列元素值,像素顏色代表了時(shí)間序列對(duì)應(yīng)元素之間相關(guān)性,變換過(guò)程如圖1。
圖1 GAF變換過(guò)程
給定一個(gè)n維時(shí)間序列X={x1,x2,…,xn},并將值縮放到區(qū)間[-1,1]內(nèi)
(1)
(2)
式中,ti表示元素的時(shí)間次序,N表示時(shí)間次序的上限,是調(diào)節(jié)極坐標(biāo)系統(tǒng)張成空間的常數(shù)因子。隨著時(shí)間的增加,元素值會(huì)在極坐標(biāo)系下呈現(xiàn)特殊的形狀。方程(2)的編碼映射具有兩個(gè)重要的性質(zhì)。首先,當(dāng)φ∈[0,π]時(shí),這種編碼映射被雙射為cos(φ)是單調(diào)的。給定一個(gè)時(shí)間序列,該映射在極坐標(biāo)系統(tǒng)中產(chǎn)生有且只有一個(gè)結(jié)果,且具有唯一的反函數(shù)。
其次,相比笛卡爾坐標(biāo),極坐標(biāo)能夠保持元素間絕對(duì)的時(shí)間關(guān)系。
將縮放后的時(shí)間序列轉(zhuǎn)換到極坐標(biāo)系后,角度時(shí)間序列仍然保留了原有時(shí)間序列元素在時(shí)間尺度上的關(guān)系,而角度值之間的計(jì)算可以量化對(duì)應(yīng)元素之間的相關(guān)性。本文用角度和的余弦值來(lái)計(jì)算元素之間的相關(guān)程度,即使用GASF變換,其定義如下
(3)
(4)
GASF變換保留了時(shí)間序列元素的時(shí)間相關(guān)性。因?yàn)镚(i,j||i-j|=k)表示指定時(shí)間間隔k后通過(guò)間隔延伸方向疊加得到的相關(guān)關(guān)系,在主對(duì)角線(xiàn)上,利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的高層特征可以近似地重構(gòu)時(shí)間序列。但是,當(dāng)行時(shí)間序列的長(zhǎng)度為n時(shí),Gramian矩陣的尺寸為n×n,GASF會(huì)變得尺寸很大,不利于計(jì)算。分段聚合近似方法(Piecewise Aggregation Approximation,PAA)可以在保持趨勢(shì)和平滑時(shí)間序列的條件下減小GASF的尺寸,有效地降低后續(xù)工作的計(jì)算量,是應(yīng)用“GAF+CNN”方法重要的數(shù)據(jù)預(yù)處理方法。
Le Cun等人受人類(lèi)大腦生物學(xué)的啟發(fā),于1994年提出了卷積結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò)模型[15,16]。卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)應(yīng)用成熟的網(wǎng)絡(luò)架構(gòu),在計(jì)算機(jī)視覺(jué)領(lǐng)域?qū)崿F(xiàn)了諸多令人意想不到的效果,從原理上,一個(gè)標(biāo)準(zhǔn)的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)主要由卷積層、池化層和全連接層等核心層次構(gòu)成。
每一個(gè)卷積層由多個(gè)卷積核構(gòu)成,每個(gè)卷積層的參數(shù)均通過(guò)反向傳播的參數(shù)優(yōu)化訓(xùn)練得到,輸入信號(hào)的局部區(qū)域經(jīng)過(guò)卷積后,通過(guò)激活函數(shù)進(jìn)行非線(xiàn)性映射,得到輸入信號(hào)的特征,其數(shù)學(xué)表達(dá)如下
(5)
池化層的主要功能是對(duì)卷積后的數(shù)據(jù)進(jìn)行降采樣,降低特征空間維度和模型參數(shù)規(guī)模,常用的有最大池化和平均池化。實(shí)現(xiàn)分類(lèi)功能則是將卷積層和池化層提取的圖像特征,與全連接層中定義的權(quán)重參數(shù)相乘,壓縮類(lèi)別數(shù)個(gè)輸出參數(shù),這些輸出參數(shù)代表神經(jīng)網(wǎng)絡(luò)對(duì)輸入數(shù)據(jù)所屬類(lèi)別的概率估計(jì),將概率最大的類(lèi)別確定為分類(lèi)結(jié)果。
“GAF+CNN”方法的主要思路是從時(shí)間維度用類(lèi)Gram矩陣計(jì)算和評(píng)估變量在不同時(shí)刻的相關(guān)性進(jìn)而實(shí)現(xiàn)故障特征提取,不涉及傅里葉分解和小波分解等非時(shí)間維度的分析方法,出于嚴(yán)謹(jǐn)考慮,對(duì)照方法也應(yīng) 從時(shí)間維度入手。因此對(duì)照方法所用的數(shù)據(jù)集由原始軸承故障數(shù)據(jù)進(jìn)行時(shí)域特征值計(jì)算得到。
結(jié)合前言綜述部分,對(duì)照方法選定為支持向量機(jī)(Support Vector Machine, SVM)、隨機(jī)森林(Random Forest, RF)和決策樹(shù)(Decision tree)三個(gè)經(jīng)典的故障診斷方法。
支持向量機(jī)最開(kāi)始用于線(xiàn)性可分問(wèn)題,經(jīng)過(guò)改進(jìn),基于核函數(shù)和凸優(yōu)化方法的非線(xiàn)性支持向量機(jī)能已經(jīng)能夠很好地解決多分類(lèi)問(wèn)題。
隨機(jī)森林由于簡(jiǎn)單的原理和較低的計(jì)算成本,已經(jīng)成為綜合學(xué)習(xí)的一種代表性技術(shù),已經(jīng)應(yīng)用于各種回歸和分類(lèi)問(wèn)題。該算法的關(guān)鍵在于,通過(guò)引入“隨機(jī)特征選擇”, 大大提高了算法的泛化性能。
決策樹(shù)算法是常見(jiàn)的機(jī)器學(xué)習(xí)方法,基于樣本的屬性進(jìn)行分類(lèi),對(duì)分類(lèi)結(jié)果進(jìn)行信息熵計(jì)算進(jìn)而評(píng)估分類(lèi)效果。
2.4.1 GAF變換方法設(shè)計(jì)
GAF變換方法具有詳細(xì)的數(shù)學(xué)推演過(guò)程,這對(duì)編程十分有利,結(jié)合python語(yǔ)言對(duì)該方法進(jìn)行程序編寫(xiě)。從軸承故障時(shí)間序列數(shù)據(jù)集中提取時(shí)間序列并統(tǒng)一時(shí)間序列長(zhǎng)度,然后調(diào)用Pyts功能包中Image.GramianAngularField方法,在GAF的兩種子方法GASF和GADF中選擇GASF作為二維圖像生成方法,實(shí)現(xiàn)時(shí)間序列到二維圖像的變換,將得到的圖片保存并做好標(biāo)記從而得到用于故障診斷的圖像數(shù)據(jù)。程序框圖如圖2。
圖2 GAF變換的實(shí)現(xiàn)方法
2.4.2 用于圖像分類(lèi)的卷積神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)
基于CNN的故障診斷方法可以看作特征提取與分類(lèi)兩個(gè)步驟, 相比與傳統(tǒng)的基于人工特征的經(jīng)典機(jī)器學(xué)習(xí)分類(lèi)方法,利用卷積核提取特征具有自適應(yīng)性,可以構(gòu)建人工無(wú)法構(gòu)建的特征,為分類(lèi)提供新通道。卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖3所示,使用的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為三個(gè)卷積池化單元和一個(gè)輸出單元。
圖3 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖
本文所用數(shù)據(jù)來(lái)自開(kāi)源數(shù)據(jù)集,由辛辛那提大學(xué)智能維護(hù)系統(tǒng)中心(IMS)提供。數(shù)據(jù)由軸承試驗(yàn)臺(tái)產(chǎn)生。4個(gè)軸承安裝在同一軸上,該軸通過(guò)直流電機(jī)和皮帶的連接驅(qū)動(dòng),測(cè)試時(shí)軸轉(zhuǎn)速保持2000rpm。通過(guò)彈簧機(jī)構(gòu)向軸和軸承施加60001b的徑向負(fù)荷。油循環(huán)系統(tǒng)用于調(diào)節(jié)潤(rùn)滑油的流量和溫度,排除干擾變量。在油反饋管中安裝了磁堵,以收集潤(rùn)滑油碎片,碎片可以有效評(píng)估軸承退化情況。當(dāng)吸附在磁性插頭上的碎片超過(guò)一定水平時(shí),采集停止。兩個(gè)PCB 353B353高靈敏度石英加速度計(jì)安裝在每個(gè)軸承上(水平方向和垂直方向各一個(gè))。振動(dòng)數(shù)據(jù)每20分鐘通過(guò)NI DAQ6062E數(shù)據(jù)采集卡采集一次。采樣頻率為20 kHz,數(shù)據(jù)長(zhǎng)度為20480個(gè)點(diǎn),數(shù)據(jù)由LabView程序采集,傳感器布局見(jiàn)圖4。
圖4 傳感器布局示意圖
原始數(shù)據(jù)包(IMS-Rexnord Bearing data .zip)中包含三組數(shù)據(jù)。每個(gè)數(shù)據(jù)集描述一個(gè)從測(cè)試到失效的實(shí)驗(yàn)。每個(gè)數(shù)據(jù)集由單獨(dú)的文件組成,這些文件是按指定間隔記錄的1秒振動(dòng)信號(hào)日志。每個(gè)文件包含20480個(gè)樣本點(diǎn),采樣頻率設(shè)置為20 kHz。數(shù)據(jù)文件中的每行記錄都是一個(gè)樣本點(diǎn)。
用于驗(yàn)證的數(shù)據(jù)集是基于原始數(shù)據(jù)包整理得到的有故障標(biāo)記的數(shù)據(jù)集,涉及的軸承狀態(tài)類(lèi)別包括:初次磨合提前、軸承正常、疑似正在惡化、嚴(yán)重磨損、內(nèi)圈故障、滾動(dòng)體故障等,分別用數(shù)字0~9標(biāo)記。單個(gè)樣本的如圖5。
圖5 時(shí)間序列曲線(xiàn)
考慮到當(dāng)時(shí)間序列尺寸較長(zhǎng)時(shí),計(jì)算量巨大,對(duì)原始數(shù)據(jù)進(jìn)行降維很重要,本文采用PAA方法,其原理如圖6:
圖6 PAA算法原理示意
作為一種常用的數(shù)據(jù)降維方法,可以在有效降低數(shù)據(jù)規(guī)模的前提下盡可能保留原始數(shù)據(jù)特征,為后續(xù)的計(jì)算提供了極大便利。通過(guò)對(duì)長(zhǎng)度為n的序列S=(s1,s2,…,sn)轉(zhuǎn)化為另一條長(zhǎng)度為m的序列Q=(q1,q2,…,qm)實(shí)現(xiàn)時(shí)間序列的數(shù)據(jù)降維和特征表示,其中,n>m, 且令k=n/m。新序列中任意元素qi滿(mǎn)足
(6)
參考方法中決策樹(shù)、RF和SVM需要人為設(shè)計(jì)特征,時(shí)域特征是區(qū)分序列差異的重要指標(biāo),上述參考分類(lèi)方法的實(shí)現(xiàn)就基于以下時(shí)域特征值:tf1~tf16,具體含義見(jiàn)表1。
表1 時(shí)間序列在時(shí)域的特征值
圖7 分類(lèi)效果比較
本文的卷積神經(jīng)網(wǎng)絡(luò)模型的建立基于Python的Torch深度學(xué)習(xí)庫(kù)[17], 電腦硬件配置信息為Intel(R) Xeon(R) W-2133 處理器 8GB內(nèi)存Windows 10系統(tǒng)。按照7:3的經(jīng)驗(yàn)比例隨機(jī)劃分?jǐn)?shù)據(jù)集,得到554個(gè)樣本的訓(xùn)練集和238個(gè)樣本的測(cè)試集。卷積核大小設(shè)置為3×3,保證模型有足夠的特征提取能力,又能夠?qū)崿F(xiàn)快速訓(xùn)練。
在相同的數(shù)據(jù)集下,“GAF+CNN”方法的準(zhǔn)確率在給定經(jīng)驗(yàn)參數(shù)的條件下為52.5%,隨著時(shí)域特征數(shù)量的增加,隨機(jī)森林的準(zhǔn)確率出現(xiàn)一定波動(dòng),支持向量機(jī)的準(zhǔn)確率處于較低水平,決策樹(shù)的準(zhǔn)確率先上升后穩(wěn)定。設(shè)置時(shí)域特征的個(gè)數(shù)為16能夠充分挖掘?qū)φ辗椒ㄔ跁r(shí)間維度上的分類(lèi)能力。在時(shí)域特征數(shù)為16的條件下,隨機(jī)森林、支持向量機(jī)和決策樹(shù)的準(zhǔn)確率分別為61.5%、8.4%和90.2%。4種方法的實(shí)驗(yàn)結(jié)果如圖7所示。
實(shí)驗(yàn)結(jié)果表明:在時(shí)間維度上,“GAF+CNN”方法分類(lèi)效果一般,其診斷準(zhǔn)確率低于決策樹(shù),略低于隨機(jī)森林,但優(yōu)于支持向量機(jī)。
本文實(shí)現(xiàn)了一種間接的軸承故障信號(hào)分類(lèi)方法,從時(shí)間序列的角度對(duì)軸承故障進(jìn)行了分類(lèi),驗(yàn)證了該方法的可行性。該方法具有以下優(yōu)缺點(diǎn):
優(yōu)點(diǎn):
1)以時(shí)間序列為切入點(diǎn)構(gòu)造特征圖像,,將變量在不同時(shí)刻數(shù)值之間的相關(guān)性作為時(shí)間尺度的特征,理論上有利于提高軸承故障的診斷精度。
2)變時(shí)間為空間,將時(shí)序信號(hào)轉(zhuǎn)化為圖像,有利于引入深度學(xué)習(xí)先進(jìn)的特征提取方法和分類(lèi)方法,進(jìn)而提高故障診斷的準(zhǔn)確度。
3)本文考察的方法是單變量時(shí)間序列分類(lèi)方法,可以作為多變量時(shí)間序列分類(lèi)方法的基礎(chǔ)方法,工程應(yīng)用場(chǎng)景需要解決的主要問(wèn)題是多變量時(shí)間序列分類(lèi)問(wèn)題,所以本文考察的方法具有明晰的應(yīng)用價(jià)值。
缺點(diǎn):
1)從結(jié)果上看,該方法的分類(lèi)效果不是很理想,還需要進(jìn)一步挖掘方法的性能。
2)GAF+CNN方法的特征提取環(huán)節(jié),利用了神經(jīng)網(wǎng)絡(luò)自適應(yīng)的特點(diǎn),會(huì)受限于神經(jīng)網(wǎng)絡(luò)本身的特征提取原理,在本文的數(shù)據(jù)集上遜色于人為設(shè)計(jì)的時(shí)域特征。
3)GAF圖像變換過(guò)程和PAA序列近似過(guò)程不可避免地會(huì)有信息損失,不利于后續(xù)的特征提取和分類(lèi)工作。