機器學習在故障檢測與診斷領域應用綜述

2021-04-02 02:13翟嘉琪楊希祥程玉強

計算機測量與控制 2021年3期

翟嘉琪，楊希祥，程玉強，李亮

(國防科技大學空天科學學院，長沙 410005)

0 引言

隨著科技的發(fā)展和制造工藝的進步，設備或系統(tǒng)的復雜度不斷增加，在使用過程中的任何異?；蚬收喜粌H直接影響產(chǎn)品的使用，而且還可能造成嚴重的安全事故。經(jīng)過長期的實踐和經(jīng)驗，要使設備或系統(tǒng)能夠安全、可靠、有效地運行，必須要對其進行故障檢測與診斷。實踐證明,堅持開展設備狀態(tài)監(jiān)測，有效地實施故障檢測與診斷技術可以早期發(fā)現(xiàn)故障,避免重大安全事故的發(fā)生,保障設備系統(tǒng)正常運行。

1967年，美國國家宇航局(NASA)就開始關注故障診斷相關研究，創(chuàng)立了MFPG(美國機械故障預防小組)，標志著故障診斷技術的誕生，隨后歐洲的發(fā)達國家和日本也開展了故障檢測與診斷技術的研究。隨著故障檢測與診斷技術所產(chǎn)生經(jīng)濟效益和安全價值不斷增加，越來越多的研究人員投入其中，并得以迅速發(fā)展。目前已成功應用于航天、軍事、核能、電力、化工、冶金等行業(yè)。

故障檢測與診斷的終極目標是盡可能迅速準確地檢測出故障,并及時對檢測出的故障做出判斷,最后依據(jù)診斷結果采取相應的措施，一般評價指標有以下幾個部分：1)實時性：在發(fā)生故障時,應迅速對故障的發(fā)生進行檢測和判斷；2)故障的誤報率、漏報率和錯報率：誤報指的是未發(fā)生故障卻報出故障;漏報指的是發(fā)生故障卻未報出故障;錯報發(fā)生故障，但報出的故障信息與實際故障不一致；3)靈敏度和魯棒性，靈敏度指的是對故障信號感應的靈敏程度，魯棒性是指在干擾、噪聲、建模等誤差情況下穩(wěn)定完成故障診斷任務的能力；4)故障定位能力：是指故障診斷系統(tǒng)區(qū)分不同故障的能力；5)準確性：對故障大小進行正確判斷的程度。

早期的故障檢測與診斷主要依賴于專家或技術人員的決策，然而專業(yè)人員容易受到壓力、疲勞、心理因素、自身知識水平、技能等影響，做出與實際狀態(tài)相差較大的分析，從而產(chǎn)生錯誤的判斷。隨著傳感器、無線通信、移動終端、計算機等的發(fā)展，基于模型的故障診斷方法最先發(fā)展起來，這種方法需要針對待測對象建立精確的數(shù)學模型，需要完整認識待測對象的深層知識,不依賴于歷史數(shù)據(jù)或已知的故障數(shù)據(jù)，因此可以診斷出未知的故障。隨著技術的不斷進步，待測對象不斷復雜化、大型化、非線性化、系統(tǒng)化，建立精確的數(shù)學模型難度越來越大，各設備之間存在的耦合，使得模型難度也會成指數(shù)增加?；谛盘柼幚淼姆椒ú恍枰_的數(shù)學模型，回避了基于模型的故障診斷方法的難點,而是基于待測對象的信號模型，分析測得的信號數(shù)據(jù)提取特征信號值，根據(jù)特征值是否異常來判斷待測對象是否發(fā)生故障，該方法基本不依賴于待測對象的模型，既適用于線性系統(tǒng)又可適用非線性系統(tǒng),但是它只是對待測對象的信號數(shù)據(jù)進行分析，對系統(tǒng)高維信號之間的耦合性和關聯(lián)度挖掘不夠，沒有更加深入地利用待測對象的深層信息。

隨著傳感器技術、計算機技術、工藝技術和網(wǎng)絡技術的迅猛發(fā)展，人類對知識的認識、管理和應用水平的提高，使得設備或系統(tǒng)數(shù)據(jù)的獲取、存儲、傳輸、加工、分析和利用得到了有效提升，其中機器學習具有快速處理大量數(shù)據(jù)、分析提取有效信息等優(yōu)點，已被越來越多地應用于故障檢測與診斷技術(fault detection and diagnosis，F(xiàn)DD)中來[1]。

鑒于機器學習技術的發(fā)展日新月異，國內(nèi)基于機器學習應用于故障檢測與診斷技術的相關研究仍處于起步階段，缺乏對基于機器學習的故障檢測與診斷方法的系統(tǒng)介紹，與當前基于深度學習或某一確定方法的故障診斷綜述性文章相比，本文系統(tǒng)地從機器學習在故障檢測與診斷領域的應用中的基本概念、國內(nèi)外現(xiàn)狀、算法模型分類比較、關鍵技術及未來發(fā)展等若干層次對當前的相關研究進行說明，為進一步深入研究和拓展故障檢測和診斷的機器學習算法模型奠定了基礎。

1 基于機器學習的故障檢測與診斷的基本概念及分類

1.1 機器學習

機器學習是一門多領域交叉學科，涉及計算機科學(人工智能、理論計算機科學)、數(shù)學(概率和數(shù)理統(tǒng)計、信息科學、控制理論)、心理學(人類問題求解和記憶模型)、生物學/遺傳學(遺傳算法、神經(jīng)網(wǎng)絡)，專門研究計算機怎樣模擬或實現(xiàn)人類的學習行為，以獲取新的知識或技能，重新組織已有的知識結構使之不斷改善自己的性能，圖一是機器學習的簡單模型。環(huán)境提供外界信息，類似教師的角色；學習環(huán)節(jié)處理環(huán)境提供的信息，相當于各種學習算法，以便改善知識庫中的知識；知識庫以某種知識表示存儲信息；執(zhí)行環(huán)節(jié)利用知識庫中的知識來完成某種任務，并把執(zhí)行情況回送至學習環(huán)節(jié)。從數(shù)學的角度上看，機器學習是對于輸入X,嘗試尋找能輸出預期y的f函數(shù)。機器學習問題也可以理解為求最優(yōu)解，在求解最優(yōu)參數(shù)時，往往沒有閉式解即明確答案，因此我們需要比較各種機器學習模型在同一個問題上的優(yōu)劣性，最終得到最合適的模型[2]。

圖1 機器學習模型

基于學習形式的不同，通常可將機器學習算法分為有監(jiān)督學習、無監(jiān)督學習以及強化學習三類：

1)有監(jiān)督學習(Supervised Learning)：用已知某種或某些特性的樣本作為訓練集，以建立一個數(shù)學模型，再用已建立的模型來預測并輸出未知樣本。當輸出為離散的，學習任務為分類任務；當輸出為連續(xù)的，學習任務為回歸任務。監(jiān)督學習主要被用于解決分類和回歸的問題。常見的算法有：決策樹、人工神經(jīng)網(wǎng)絡算法、支持向量機、樸素貝葉斯、K近鄰、邏輯回歸、隨機森林。

2)無監(jiān)督學習(Unsupervised Learning)：沒有對訓練樣本的信息進行標記，其目標是通過對無標記樣本的學習來發(fā)現(xiàn)數(shù)據(jù)內(nèi)在的聯(lián)系和規(guī)律，為后續(xù)的數(shù)據(jù)分析進一步提供依據(jù)。無監(jiān)督學習便于壓縮數(shù)據(jù)存儲、減少計算量、提升算法速度，還可以避免正負樣本偏移引起的分類錯誤問題，主要用于經(jīng)濟預測、異常檢測、數(shù)據(jù)挖掘、圖像處理、模式識別等領域，常見的算法有：聚類算法、降維算法，主成分分析。

3)強化學習(Reinforcement Learning)：該算法描述的是一個與環(huán)境交互的學習過程，把環(huán)境的反饋作為輸入，通過學習則能達到其目標的最優(yōu)動作。強化學習的組成部分：reward(獎勵)、agent(智能體)、environment(環(huán)境)、state(狀態(tài))、action(行為)，強化學習的目的為選擇action用以最大化所有未來的reward的總和。常見的算法有：TD(λ)算法、Q-learning算法，Sarsa算法。

1.2 故障檢測和診斷技術

隨著生產(chǎn)制造技術的快速發(fā)展，許多設備和系統(tǒng)的結構已變得越來越復雜，由于各種復雜性和運行因素(自身磨損、外部環(huán)境)的影響，設備的性能和系統(tǒng)的狀態(tài)會隨著使用時間增加而逐漸退化，若不及時進行狀態(tài)監(jiān)測和故障診斷，必將發(fā)生故障，而一旦出現(xiàn)故障，最終可能會導致嚴重的安全事故。為提高設備或系統(tǒng)的安全性和可靠性，故障檢測與診斷技術(fault detection and diagnosis，F(xiàn)DD)應運而生。故障檢測與診斷技術包括故障檢測、故障分離和故障識別、故障決策，能夠判斷設備或系統(tǒng)狀態(tài)是否正常、故障發(fā)生的時間和位置，確定故障的類型，并在分離出故障后確定故障大小和特性，給出發(fā)生故障后的解決措施。

故障檢測主要判斷設備或系統(tǒng)是否發(fā)生了故障和指明發(fā)生故障的時間。故障檢測主要起監(jiān)控作用，當故障發(fā)生時，系統(tǒng)或設備的輸出參數(shù)便會偏離正常的目標參數(shù)，甚至超出給定的閾值范圍。故障檢測技術利用這些提取到的故障數(shù)據(jù)或者處理后的故障數(shù)據(jù)進行故障檢測，這些故障數(shù)據(jù)信息包含過程故障或系統(tǒng)故障的特征，所以可以用來檢測系統(tǒng)的運行過程是否發(fā)生故障，然后根據(jù)故障發(fā)生情況確定故障發(fā)生的時間。清華大學教授周東華從故障診斷的角度分析，提出了定性分析方法和定量分析方法，前者分為圖論方法、專家系統(tǒng)方法以及定性仿真，后者可分為基于解析模型的方法和基于數(shù)據(jù)驅動的方法[3]如圖2。

圖2 故障檢測分類

故障診斷是指當設備或系統(tǒng)出現(xiàn)故障時，依據(jù)其實際的狀態(tài)及表征參數(shù)的變化判斷是否發(fā)生故障，若發(fā)生故障，就確定故障的位置、大小、時刻、原因等信息。故障診斷的最終目標是盡可能迅速地、準確地去檢測出故障，并對該故障作出分離和判斷，最終依據(jù)診斷結果給出需要采取的相應措施[4]。

根據(jù)采用的特征描述和決策方法的差異，故障診斷方法可以劃分成基于知識的方法、基于解析模型的方法、基于信號處理的方法3種[5],如圖3。

圖3 故障診斷分類

2 機器學習算法在故障檢測方法中的應用與發(fā)展

機器學習的目標是通過某種機器學習算法得到輸入輸出間的關系，并能夠利用這種關系對給定的輸入盡可能準確的給出系統(tǒng)未知的輸出。而故障檢測與診斷的目標就是利用測試數(shù)據(jù)(傳感器、文字、語音、視頻等)來尋求測試數(shù)據(jù)和故障之間的聯(lián)系，因此可以認為故障檢測與診斷本質(zhì)上也是一個機器學習問題。隨著技術的不斷進步，當前工業(yè)過程可以獲得大量的狀態(tài)數(shù)據(jù)，而機器學習正好能通過算法模型對這些數(shù)據(jù)進行處理，從而實時檢測整個過程中設備或系統(tǒng)的故障狀態(tài)，并能夠基于數(shù)據(jù)對設備或系統(tǒng)進行故障診斷。故障檢測是故障診斷的前提，前者用來確定系統(tǒng)是否發(fā)生了故障以及發(fā)生故障的時間，而后者是在檢測出故障之后，確定故障的類型或者位置。機器學習在故障檢測領域的應用主要包括主元分析(PCA)、隨機森林等。

2.1 主元分析法(PCA)

在實際故障檢測中，通常會選擇能夠反映研究對象的變量來進行觀測，而在系統(tǒng)結構日益復雜變量信息過多時，會增加研究對象的復雜性。

PCA是將獲得的待測對象到的高維歷史數(shù)據(jù)組成一個矩陣，進行一系列矩陣運算后確定若干正交向量(向量個數(shù)遠小于維數(shù))，歷史數(shù)據(jù)在這些正交向量上的投影反映數(shù)據(jù)變化最大的幾個方向，舍去數(shù)據(jù)變化較小的方向，由此可將高維數(shù)據(jù)降維表示。主元分析用于故障檢測的主要思想是把在正常過程中獲得的數(shù)據(jù)，最大限度地保持原有信息不受損失，將這些數(shù)據(jù)高度相關的過程變量投影到低維空間中，獲得能夠表述系統(tǒng)內(nèi)部關系的幾個主要成分，即主元模型。即把多個不同的相關量換成少量幾個獨立的變量，并對這幾個獨立變量進行統(tǒng)計檢驗分析，進而判斷系統(tǒng)是否偏離正常工況[6]。用這些數(shù)據(jù)來判定實際研究對象中T2統(tǒng)計量、殘差空間的SPE統(tǒng)計量等是否超過已設定的過程監(jiān)控指標，從而判斷系統(tǒng)是否發(fā)生故障。

PCA已經(jīng)成功應用于化工過程、半導體過程、機械過程、廢水處理、核工業(yè)過程、空氣檢測處理等[7]；余莎莎等提出了基于PCA模型的故障檢測方法，根據(jù)平方預測誤差和其閾值大小的比較，利用該方法已成功建立了空調(diào)系統(tǒng)故障檢測模型，用來判斷系統(tǒng)是否發(fā)生故障[8]；周福娜等基于PCA的故障檢測方法通過分析檢測數(shù)據(jù)和主元模型之間的差異來判斷系統(tǒng)是否出現(xiàn)故障[9]。

PCA對數(shù)據(jù)降維處理有著絕佳的優(yōu)勢，但是仍存在兩個問題：1)線性分解方法壓縮和提取不充分；2)線性方法的結果不可靠，在較小的主元中可能含有重要的非線性信息，導致重要信息的丟失，因此可以結合其他方法進行優(yōu)化。為了克服傳統(tǒng)主元分析因模式復合現(xiàn)象而無法進行多故障診斷和診斷結果難以解釋的不足，周福娜等提出了指定元分析(DCA)的方法，建立了多故障診斷理論的空間投影框架,這種方法可以將檢測出的異常轉化為觀測數(shù)據(jù)在故障子空間上的投影能量的顯著性檢測問題，這種方法能夠有效解決指定模式非正交情況下的多故障診斷問題[10];梁艷等針對實際化工過程會受到不同程度非高斯擾動影響的問題，提出一種基于廣義互熵主元分析的故障檢測方法，并將其應用于天納森-伊斯曼過程進行故障檢測，與傳統(tǒng)PCA方法對比后，該方法在處理非高斯的故障檢測方面表現(xiàn)出良好的性能，有較低的誤報率和漏報率[11];Lv等提出使用聚類原則對研究對象劃分成子空間，使用貝葉斯方法融合子空間的信息進行決策，在青霉素發(fā)酵過程中驗證該方法，并與多向主元分析(MPCA)進行對比，有效提高故障檢測正確率[12]。

2.2 隨機森林方法

美國科學院院士 Breiman等人在2001年提出隨機森林算法[13]，這種算法將集成了分類與回歸決策樹(classification and regression tree，CART)。隨機森林是Bagging的一個擴展變體，而Bagging是并行式集成學習方法最著名的代表，給定包含m個樣本的數(shù)據(jù)集，隨機取一個樣本放入采樣集中，再將其放入初始數(shù)據(jù)集，使得下次采樣仍能被選中，經(jīng)m次取樣后得到m個采樣集，初始訓練集中有的在采樣集中多次出現(xiàn)，有的從未出現(xiàn)，采樣出T個含m個訓練樣本的采樣集，基于每個采樣集訓練一個基學習器，再結合這些基學習器，使用簡單投票法對分類任務進行預測輸出，使用簡單平均法對回歸任務進行預測輸出。隨機森林以決策樹為基學習器構建Bagging集成，傳統(tǒng)決策樹在選擇劃分屬性是在當前節(jié)點的屬性集合(d個)中選擇一個最優(yōu)屬性；在RF中，先從決策樹中的每個節(jié)點的屬性集合中隨機選擇一個包含k個屬性的子集，再從子集中選擇一個最優(yōu)屬性用于劃分，其中k控制了隨機性的引入程度。隨機森林由于其算法簡單、容易實現(xiàn)、計算量小、處理高維度數(shù)據(jù)以及分類速度快等特點，被用于故障檢測中。

Iftikhar Ahmad等提出了一種基于數(shù)據(jù)的電力電纜系統(tǒng)的故障診斷系統(tǒng)，利用小波分析和倒譜分析得到特征變量，比較了k-近鄰、k-NN，ANN、隨機森林、分類回歸樹(CART)以及增強型CART等6種方法[14]；Sanghyuk Lee利用相似性度量和隨機森林算法對航空系統(tǒng)進行故障檢測，使用距離信息設計了相似性度量，通過隨機森林算法技進行相似性度量權重計算，并提供數(shù)據(jù)優(yōu)先級，[15]；Jong Oh 等使用隨機森林分析了神經(jīng)元數(shù)據(jù)集，并衡量了數(shù)據(jù)中每個輸入變量之間的相對重要性，可以極大地減少變量的數(shù)量，保留原始數(shù)據(jù)的可識別性[16];Quiroz J C提出一種基于隨機森林算法的LS-PMSM(直線啟動永磁同步電機)故障檢測方法，基于隨機森林算法得到電機的特征數(shù)據(jù)的特征重要性排序,使得輸入模型的特征數(shù)量降低，并將其與決策樹、樸素貝葉斯分類器、邏輯回歸、以及支持向量機等進行比較，隨機森林的進度更高，可將該方法應用于工業(yè)生產(chǎn)過程的狀態(tài)監(jiān)測[17]。

隨機森林方法可以對故障進行有效的檢測，但是沒有考慮到數(shù)據(jù)之間的自相關和互相關關系，大量的耦合特性會影響隨機森林模型的精確度，同時，由于隨機森林方法至少需要兩類數(shù)據(jù)進行訓練，現(xiàn)有單類隨機森林方法采用原始投票多數(shù)方法檢測故障，沒有構建相應的統(tǒng)計量，因此當數(shù)據(jù)量有限，且變量之間存在耦合時，單類隨機森林方法無法很好實現(xiàn)及時、有效的故障檢測，因此需要對隨機森林算法進行改進和優(yōu)化。Mariela Cerrada提出基于遺傳算法的特征獲取與隨機森林模型相結合的齒輪故障檢測方法,利用遺傳算法從振動信號中提取時間、頻率和時域的特征子集，將其應用于隨機森林的訓練,直到隨機森林模型的性能達到最佳[18]；針對單棵決策樹模型分類方法精度不高，容易出現(xiàn)過擬合等問題，郝姜偉等提出使用組合單決策樹來提高計算精度的隨機森林算法，并將其應用于飛機發(fā)動機故障檢測中[19]；曹玉蘋等提出一種新的基于動態(tài)單類隨機森林的故障檢測方法，這種方法針對高維化工過程中存在的非線性和動態(tài)特性，根據(jù)正常狀態(tài)下的過程數(shù)據(jù)的反分布產(chǎn)生離群點數(shù)據(jù)，同時利用典型變量分析方法對正常數(shù)據(jù)進行相關性分析,利用典型變量空間數(shù)據(jù)(正常數(shù)據(jù)和離群點數(shù)據(jù)在典型變量空間的投影)訓練隨機森林[20]；陳宇韜等提出一種基于極端森林的故障檢測方法，該方法利用pearson相關性分析去掉線性相關性較弱和非主要特征的變量，使得樣本維度降低，利用最大信息系數(shù)獲得主要特征參數(shù)的相關系數(shù)，消除冗余變量提高故障檢測精度，已成功應用于大型風電機組發(fā)電機的故障檢測，結構說明該方法具有更低的漏報率、誤報率和更好的實時性[21]。

3 機器學習算法在故障診斷領域的應用與發(fā)展

故障診斷技術發(fā)展至今，已經(jīng)提出了較多的方法，從開始的基于解析模型方法到現(xiàn)在的基于機器學習方法，在不需要太多的先驗知識以及系統(tǒng)精確解析模型的情況下完成系統(tǒng)的故障診斷，機器學習擁有很廣泛的應用空間，其在故障診斷領域的應用主要包括決策樹、神經(jīng)網(wǎng)絡和支持向量機等。

3.1 基于決策樹的故障診斷方法

決策樹是一種基本的分類與回歸方法，一般的，一顆決策樹包含根節(jié)點(一個)、內(nèi)部節(jié)點(n個)和葉節(jié)點(m個)，葉節(jié)點對應于事件的決策結果(m個)，內(nèi)部節(jié)點對應于一個屬性測試(n個)；根節(jié)點包含的樣本全集根據(jù)屬性測試的結果被劃分到節(jié)點中，從根節(jié)點至每個葉結點的路徑對應了一個判定測試序列。決策樹的構造是一個遞歸的過程，有3種情形會導致遞歸返回：(1)當前結點包含的樣本全屬于同一類別，這時直接將該節(jié)點標記為葉節(jié)點，并設為相應的類別(無需劃分)；(2)當前屬性集為空，或是所有樣本在所有屬性上取值相同，這時將該節(jié)點標記為葉節(jié)點，并將其類別設為該節(jié)點所含樣本最多的類別(無法劃分)；(3)當前結點包含的樣本集合為空，這時也將該節(jié)點標記為葉節(jié)點，并將其類別設為父節(jié)點中所含樣本最多的類(不能劃分)。

圖4 決策樹結構

決策樹可以進行自學，不需要任何專家知識，可以根據(jù)設備自行生成決策系統(tǒng)。決策樹算法是以實例為基礎的歸納學習算法,以表達的知識簡單直觀、高推理效率、易于提取顯示規(guī)則、計算量相對較小、可以顯示重要決策屬性和較高的分類準確率等優(yōu)點而得到廣泛的應用。董明提出了一種利用屬于模式識別范疇的決策樹C4.5法進行油浸式電力變壓器故障診斷的方法，實現(xiàn)了變壓器故障由粗到細的逐級劃分,有利于提高診斷的準確性[22]；Wang D提出了基于集成決策樹電網(wǎng)故障診斷方法，使用屬性選擇機制將大量的電力信號屬性組成子集，每個子集都是經(jīng)過訓練的單獨決策樹，和多個決策樹模型一起投票進行電網(wǎng)故障診斷，結果很好地表明該方法有較高的穩(wěn)定性和準確性[23]；王小樂等提出了一種基于決策樹的在軌衛(wèi)星故障診斷知識挖掘方法，能夠提高知識的準確率同時降低誤警率[24]；Huang等針對燃料電池發(fā)動機的故障診斷，提出一種結合了C4.5決策樹和故障診斷專家系統(tǒng)的診斷方法，原始數(shù)據(jù)在經(jīng)過數(shù)據(jù)預處理和特征選擇后，導入訓練集，將規(guī)則存儲在知識庫，對故障進行分類，實現(xiàn)燃料電池的故障診斷[25]；Feng等提出一種基于決策樹的變壓器絕緣故障診斷新的方法，不僅具有快速的歸納學習能力和分類速度，而且能有效壓縮數(shù)據(jù)和內(nèi)存[26]。

決策樹算法在信息增益進行選擇時，可能出現(xiàn)的偏向問題，會對取值較多的屬性有所偏向，在某些特殊的情況下，通過其確定出的信息使用價值并不高，因此可以與其他算法結合，實現(xiàn)更好的故障診斷。劉偉等提出一種基于決策樹與模糊推理脈沖神經(jīng)網(wǎng)絡的輸出電網(wǎng)故障診斷方法，結果表明該方法在單類型和多類型故障信息丟失時，依然能夠正確診斷出故障元件[27]；王同輝等針對某型號的變流器在工作過程中出現(xiàn)逆變過流故障的原因進行分析，提出了一種基于EOVW指數(shù)和決策樹相結合的系統(tǒng)診斷方案，利用小波分析算法提取變流器的輸出電壓、電流等信號特征,基于決策樹的數(shù)據(jù)挖掘思維和分類功能,實現(xiàn)了對變流器逆變過流故障的識別和有效定位[28]；Sumana De等基于案例推理方法設計，采用決策樹和雅克卡相似度方法，決策樹用于將案例存儲到案例庫庫中，Jaccard相似度算法計算新案例和存儲案例之間的相似度，將案例聚類成決策樹，有利于與提高汽車故障診斷效率[29]。

3.2 基于支持向量機的故障診斷方法

支持向量機(Support Vector Machine)是一種基于統(tǒng)計學習理論的有監(jiān)督學習方法，在1995年由前蘇聯(lián)教授Cortes和 Vapnik提出，由于在分類任務中的卓越性能，很快成為機器學習的主流技術。與傳統(tǒng)學習方法不同，支持向量機通過尋求最小結構化風險來提高學習機的泛化能力，實現(xiàn)經(jīng)驗風險和置信范圍的最小化，在統(tǒng)計樣本量較小的情況下，達到良好統(tǒng)計規(guī)律目的，主要用于分類和回歸問題。例如，訓練樣本中有兩類標識過的樣本點，根據(jù)支持向量機算法建立訓練模型,模型可以將實心點和空心點代表兩類樣本，H代表最優(yōu)分類線，H1和H2與H平行，且同時經(jīng)過距離最優(yōu)分類線最近的點，分類間隔指的是H1和H2之間的距離。對于高維數(shù)據(jù)集(N)，則需要N-1維的對象對數(shù)據(jù)進行分隔，這個對象就是超平面，從概念上說，支持向量是那些離分隔超平面最近的數(shù)據(jù)點，它們決定了最優(yōu)分類超平面的位置。支持向量機算法的目標就是最大化支持向量到分隔面的距離，求解最優(yōu)超平面(能夠將樣本數(shù)據(jù)準確地分開，同時使得分類間隔最大)。由于支持向量機方法在小樣本、高維模式識別以及非線性問題中所表現(xiàn)出的優(yōu)異性能在故障檢測與診斷領域引起了廣泛研究。

圖5 支持向量機最優(yōu)超平面

Poyhonen S等將支持向量機算法應用于在電機故障診斷，成功將電機健康功率譜和故障功率分類，識別出故障[30]；Gao JunFeng等將SVM用于往復式泵閥門故障診斷中，能夠識別和診斷故障閥門的故障類型和位置，與BP神經(jīng)網(wǎng)絡相比，SVM在機械故障檢測中具有更大優(yōu)勢[31]；肖健華分析了支持向量機模式分類的原理，指出最優(yōu)分類面上的樣本相對于兩類誤判而言是等概率的而非等風險的，提出了診斷可信度函數(shù)，并在特征空間中，對最優(yōu)分類面進行重新設計[32]；胡壽松根據(jù)SVM能在訓練樣本很小的情況下達到分類推廣的作用，將其作為殘差分類器得到故障檢測與診斷信息[33]。

為了彌補支持向量機算法在故障檢測與診斷中的不足，會將其與其他算法進行結合優(yōu)化改進，提高其在故障診斷中的精度和效率。Li等在了解了多尺度動態(tài)熵僅考慮低頻分量中的故障信息，可能會丟棄隱藏在高頻分量中的故障信息，提出了一種基于分層動態(tài)熵和支持向量機的滾動軸承故障診斷方法，可以有效提取高、低頻分量中的故障信息[34]；Zhou等針對現(xiàn)有模型在少量訓練樣本可用時的故障識別準確率不高，提出了基于集合經(jīng)驗模態(tài)分解、加權置換熵和改進支持向量機集成分類器相集合的故障診斷方法，該方法可以有效檢測軸承故障[35]；阮婉瑩等則是針對滾動軸承故障振動信號特點(非平穩(wěn)性、低信噪比)，而變分模態(tài)分解排列熵可以將非平穩(wěn)信號分解轉化成若干平穩(wěn)模態(tài)分量，經(jīng)過粒子群算法優(yōu)化的支持向量機在小樣本、非線性和高維模式識別問題中優(yōu)勢明顯提高，因此提出了基于變分模態(tài)分解排列熵和粒子群優(yōu)化支持向量機的故障診斷方法，提高了滾動軸承故障診斷準確率[36]；Gangsar針對某些電機工作條件下，存在數(shù)據(jù)或信息有限的問題，因此提出了基于小波包變換與SVM相結合的故障診斷方法，同時考慮了不同小波的影響，成功用于檢測和隔離感應電動機的各種故障[37]；Liu等根據(jù)不同的數(shù)據(jù)來源，分別通過KNN檢測異常值以及KNN識別邊界點兩種方法來定義支持向量機中的分類超平面，用于解決故障檢測中的計算負擔、不平衡數(shù)據(jù)與異常數(shù)據(jù)的問題，并對高速列車的制動系統(tǒng)進行故障診斷[38]；何慶飛等提出了一種基于灰色理論和支持向量機的液壓泵故障診斷和壽命預測的方法，在了解基于支持向量機算法所建立的模型精度較低等缺陷后，利用灰色累加生成操作對原始數(shù)據(jù)進行處理以增強數(shù)據(jù)的規(guī)律性，使用最小最終誤差預測準則來確定嵌入維數(shù)和相關參數(shù)，使用支持向量機進行預測，最終利用灰色累減生成操作對預測數(shù)據(jù)進行還原，得到預測結果，灰色支持向量機預測性能與灰色模型、單一支持向量機模型相比最優(yōu)[39]。

3.3 基于神經(jīng)網(wǎng)絡的故障診斷方法

現(xiàn)代設備日趨大型化、復雜化、自動化和連續(xù)化，在設備或系統(tǒng)工作過程中采集的數(shù)據(jù)通常具有維度高數(shù)據(jù)大(在每個采樣的時間點可能會得到幾十或上百個維度)、時間序列鮮明以及數(shù)據(jù)集不平衡等3個特點。神經(jīng)網(wǎng)絡具有自學習能力、非線性映射能力、對任意函數(shù)逼近能力、并行計算能力和容錯能力，正好可以基于這些數(shù)據(jù)進行故障診斷。神經(jīng)網(wǎng)絡用語故障診斷的步驟通常如下：

1)通過信號監(jiān)測與分析，抽取反映被測對象的特征參數(shù)作為網(wǎng)絡的輸入；

2)對被測對象的狀態(tài)進行編碼；

3)進行網(wǎng)絡設計，確定網(wǎng)絡層數(shù)和各層神經(jīng)元數(shù)；

4)用各種狀態(tài)數(shù)據(jù)組成訓練樣本，輸入網(wǎng)絡，進行訓練，確定個單元的連接權值；

5)把待測隊長的特征參數(shù)作為網(wǎng)絡的輸入，根據(jù)輸出確定待測對象的狀態(tài)類別。

本文主要介紹兩種方法：卷積神經(jīng)網(wǎng)絡(convolutional neural networks，CNN)和遞歸神經(jīng)網(wǎng)絡(recurrent neural networks，RNN)。

3.3.1 基于卷積神經(jīng)網(wǎng)絡的故障檢測與診斷

卷積神經(jīng)網(wǎng)絡(CNN)是有一種監(jiān)督學習方法，最初由Yann Lecun 于1994年提出，并首次將其用于手寫數(shù)字識別[40]，也是第一批能使用反向傳播有效訓練的網(wǎng)絡之一。該模型是一種特殊的多層感知器或前饋神經(jīng)網(wǎng)絡，通常包含輸入層、卷積層、池化層、全連接層和輸出層，卷積層通過將輸入數(shù)據(jù)通過核函數(shù)進行卷積輸出特征映射；池化層主要是通過池化函數(shù)對該層的輸入進行調(diào)整，減少模型的可訓練參數(shù)，提高統(tǒng)計效率并且減少對參數(shù)的存儲需求；全連接層通過整合所有的局部特征進而得到全局特征，用于后續(xù)分類。CNN網(wǎng)絡的訓練類似于傳統(tǒng)的人工神經(jīng)網(wǎng)絡訓練方法,采用BP算法將誤差逐層反向傳遞,使用梯度下降法調(diào)整各層之間的參數(shù)。CNN可對輸入進行提取，得到局部特征并逐層組合抽象生成高層特征,可有效實現(xiàn)故障診斷與識別[41]。其能夠避免對圖像、語言等大量復雜信號的前期處理工作,輸入的直接是原始數(shù)據(jù)，并從中學習到不同層級的特征，近年來卷積神經(jīng)網(wǎng)絡在多個領域都得到應用，如語音識別、人臉識別、通用物體識別、運動分析甚至腦電波分析方面等。

圖6 卷積神經(jīng)網(wǎng)絡結構圖

基于CNN算法的優(yōu)越性，即使仍處于探索階段，但是已經(jīng)有很多研究人員將CNN成功應用于故障診斷中。魏東等首次提出了采用具有兩個分類器的CNN網(wǎng)絡結構,這樣就有兩個輸出序列,該方法只用了一個網(wǎng)絡結構就實現(xiàn)了對兩種非獨立分類問題的分類,因此就可以解決兩個故障診斷選項中的非獨立分類問題[42]；Olivier Janssens等則采用卷積神經(jīng)網(wǎng)絡的方法從數(shù)據(jù)中自動學習用于軸承故障檢測的特征，實現(xiàn)齒輪箱的故障檢測與分類問題，與基于隨機森林分類器的故障診斷準確率相比，有明顯提高[43]；而zhi等人針對基于齒輪箱的振動信號對故障的敏感，提出了一種基于CNN算法的齒輪箱故障識別和分類的實現(xiàn)方法，通過振動對信號進行預處理，使得能量在頻譜峰值處保持其形狀，與專家經(jīng)驗系統(tǒng)等傳統(tǒng)的故障診斷方法相比，具有可靠性高以及分辨率高等優(yōu)點[44]；Appana 等提出了一種基于聲發(fā)射分析的軸承診斷方法，利用 CNN 自動提取包絡譜中的滾動軸承缺陷特征信息，實現(xiàn)故障診斷[45]；曾雪瓊等使用小波變換、變換、短時傅里葉變換3種時頻方法，將故障信號轉換成時頻譜圖作為 CNN的輸入，通過分析時頻圖實現(xiàn)變速箱的智能故障診斷[46]。程誠等利用卷積神經(jīng)網(wǎng)絡在識別位移、縮放以及其他形式扭曲不變性的二維圖形的優(yōu)勢,提出了一種結合雷達圖和CNN分類算法的故障診斷算法,該算法利用雷達圖對數(shù)據(jù)進行可視化表示并將其轉換為二維圖像數(shù)據(jù),建立合適的卷積神經(jīng)網(wǎng)絡模型，使其能夠根據(jù)雷達圖提供的信息進行故障診斷，該方法已經(jīng)成功應用于工業(yè)過程[47]；Jing等提出了一種能夠自適應地從原始數(shù)據(jù)中學習特征并發(fā)現(xiàn)新的故障敏感特征的特征自動提取方法，卷積神經(jīng)網(wǎng)絡能夠直接學習振動信號的頻率數(shù)據(jù)(原始數(shù)據(jù)、頻譜數(shù)據(jù)以及組合時頻數(shù)據(jù))從而提取特征參數(shù)，該方法已經(jīng)成功對某型號的齒輪箱進行了故障診斷，與其他診斷方法相比，CNN有更高的診斷精度[48]；張偉為了檢測軸承故障，直接利用卷積神經(jīng)網(wǎng)絡處理時域振動信號,通過分析振動信號的特點,提出了一種卷積神經(jīng)網(wǎng)絡框架WDCNN模型，構造了第一層大卷積核以及多層小卷積核的WDCNN模型，在CWRU數(shù)據(jù)庫上的識別率可以達到100%[49]；Guo Xiaojie等提出了一種基于改進算法的分層學習速率自適應深度卷積神經(jīng)網(wǎng)絡，并將其應用于軸承故障診斷和嚴重程度判定中，根據(jù)測試設備的軸承故障數(shù)據(jù)樣本對神經(jīng)網(wǎng)絡進行多次訓練，最終表明該方法在故障模式識別和故障規(guī)模評價方面有著很好的效果[50]。

3.3.2 循環(huán)神經(jīng)網(wǎng)絡(RNN)

循環(huán)神經(jīng)網(wǎng)絡是從大腦皮層中關于記憶的神經(jīng)回路和循環(huán)反饋系統(tǒng)研究中獲得的靈感。一般的神經(jīng)網(wǎng)絡中，雖然層與層之間的節(jié)點是有連接的，但同一層內(nèi)部的節(jié)點不連通。RNN具有一個循環(huán)結構，使得網(wǎng)絡在某時刻k的輸出不僅與k時刻的輸入有關，還和k時刻以前的輸出有關，這使得RNN有一定的記憶力，能夠獲取多個時間步以前的信息。RNN與處理序列和列表類數(shù)據(jù)密切相關，能夠挖掘數(shù)據(jù)中的時序信息，具有充分利用語義信息的深度表達能力，在語言模型和文本生成、機器翻譯、語音識別、生成圖像描述和時頻標記等方面有出色的應用，但是不能很好的處理長時依賴的問題。目前應用于故障診斷領域的有Elman、長短期記憶(LSTM)和門控循環(huán)單元(GRU)3種循環(huán)神經(jīng)網(wǎng)絡,其中作為RNN變體結構的LSTM和GRU的應用最多，這些變體網(wǎng)絡可以幫助解決 RNN 中零點梯度的消失問題。

RNN能夠提高故障診斷效率,同時改善了現(xiàn)有神經(jīng)網(wǎng)絡故障診斷方法,使其能夠適用于復雜設備或系統(tǒng)的實時故障診斷,具有收斂速度快、精度高、穩(wěn)定性好、擴展性好等優(yōu)勢。Azzam I等提出了一種無線傳感器網(wǎng)絡動態(tài)模型及其在傳感器節(jié)點故障檢測的方法，基于 RNN算法模型對傳感器、傳感器節(jié)點的動力學以及傳感器的內(nèi)部連接耦合性進行建模,神經(jīng)網(wǎng)絡的輸入包括傳感器模型的先前輸出以及相鄰傳感器的當前和先前輸出，神經(jīng)網(wǎng)絡輸出和拓撲結構(基于反向傳播型)在一般非線性傳感器模型的基礎上進行改進，并與卡爾曼濾波方法進行比較，該方法有著更高的檢測診斷效率[51]；Talebi等采用兩種RNN分別識別一般未知的執(zhí)行器和傳感器故障，在非線性系統(tǒng)的狀態(tài)和傳感器不確定性較大或含有干擾的情況下,根據(jù)修改的反向傳播方案更新神經(jīng)網(wǎng)絡的權重，考慮了地球低軌道衛(wèi)星姿控系統(tǒng)中用于姿態(tài)確定和控制的磁力矩型制動器和磁強計型傳感器，并在姿控系統(tǒng)的故障診斷中驗證了該方法的有效性和準確性[52]；Piotr等研究了基于循環(huán)神經(jīng)網(wǎng)絡和混沌工程進行魯棒性故障檢測的問題，提出的方法中的主要部分是由復雜的動態(tài)神經(jīng)單元組成的局部循環(huán)網(wǎng)絡，可獲得混沌行為，采用全局和局部優(yōu)化方法的雙相策略，為了提高效率，混沌工程與退火算法相結合，同時提出了殘差評價的遞歸量化分析，并在對模擬工業(yè)數(shù)據(jù)的建模任務中對該方法進行了驗證[53]；Yuan等提出了一種基于長短期記憶神經(jīng)網(wǎng)絡在復雜操作、混合故障和強噪聲的情況下獲得診斷和預測的方法，并通過3種不同的RNN變體(簡單的RNN，LSTM，GRU)對NASA提供的飛機渦輪發(fā)動機健康監(jiān)測數(shù)據(jù)集進行測試，結果證明LSTM在故障診斷和剩余使用壽命的效果最好[54]；循環(huán)神經(jīng)網(wǎng)絡(RNN)能夠很好地處理序列數(shù)據(jù)以及可變序列數(shù)據(jù)的能力,被廣泛應用于數(shù)據(jù)識別等方面，但RNN存在梯度彌散或梯度爆炸問題導致無法解決長期依賴問題，而LSTM可以通過防過擬合、小批量組合、自適應學習率等優(yōu)化技術建立長時依賴模型，許寅使用LSTM對航天器的實測數(shù)據(jù)進行學習和預測，可以實現(xiàn)航天器在軌狀態(tài)的高精度的中長期預測[55]；牛哲文等提出一種風功率預測模型,該模型以風電場風功率歷史數(shù)據(jù)以及風速、風向等數(shù)值天氣預報數(shù)據(jù)作為輸入對風功率進行預測，考慮到風功率預測中輸入數(shù)據(jù)的波動性和不確定性,在傳統(tǒng)門控循環(huán)單元(GRU)神經(jīng)網(wǎng)絡的基礎上融合卷積神經(jīng)網(wǎng)絡(CNN),以提高模型對原始數(shù)據(jù)的特征提取和降維能力,并引入dropout技術減少模型中的過擬合現(xiàn)象，結果表明在短期風功率預測精度和運算速度方面要優(yōu)于LSTM[56]。

4 結束語

機器學習已經(jīng)成為當前技術發(fā)展熱點，并由于其良好的自學習、識別、分類能力，在故障檢測與診斷技術中受到了越來越多的關注。本文系統(tǒng)介紹了機器學習和故障檢測以及故障診斷的概念、分類，深入了解了基于機器學習的故障檢測與故障診斷方法。重點介紹了基于PCA和隨機森林的故障檢測方法，給出了兩種方法的基本思路以及國內(nèi)外的研究現(xiàn)狀；基于機器學習的故障診斷方法主要包括決策樹、支持向量機以及神經(jīng)網(wǎng)絡，將重點放在最近比較新的CNN和RNN在故障診斷中的應用，給出了這幾種方法的研究現(xiàn)狀。通過對相關文獻的梳理總結，機器學習在機故障檢測和診斷領域仍有如下幾個方面需要研究：

1)目前在故障檢測與診斷領域應用的機器學習方法還是根據(jù)設備或系統(tǒng)的歷史故障數(shù)據(jù)進行訓練，必須要將故障數(shù)據(jù)累積到一定量才能進行分析，但是故障數(shù)據(jù)的完整收集難以實現(xiàn)，如何根據(jù)有限的故障數(shù)據(jù)進行故障分析預測將會是今后發(fā)展的一個重要趨勢；

2)目前的方法大多是基于大量的離線數(shù)據(jù)進行分析，數(shù)據(jù)采集過程隨著先進儀器設備的發(fā)展也會越來越容易，如何對海量數(shù)據(jù)進行壓縮、提取等數(shù)據(jù)預處理技術，以及在線實時數(shù)據(jù)分析的技術方法的發(fā)展，將直接影響到后續(xù)基于數(shù)據(jù)的故障檢測與診斷；

3)機器學習算法的運用現(xiàn)狀還僅僅局限于材料試件與局部構件，設備的復雜度、精細度以及設備間的耦合，距離實現(xiàn)重大設備或系統(tǒng)整體的故障檢測和診斷還有較大的差距，這是未來機器學習算法需要突破的一個重大難點；

4)機器學習模型多種多樣，每種模型都有自己的優(yōu)缺點，同時機器學習又具有良好的學習能力，這是實現(xiàn)智能故障診斷的一個有力武器。如何能夠實現(xiàn)機器學習各模型間的有效結合，揚長避短，可能是未來研究的一個方向；

5)由于信號處理方法可以診斷針對采集到的原始收據(jù)進行分析，基于分析模型的方法可以涵蓋系統(tǒng)的各種機理知識、數(shù)據(jù)知識和經(jīng)驗知識，而機器學習則可以實現(xiàn)故障診斷的自學習，因此可以對這3種方法的方法進一步融合，如何使得三者相互支持、相互補充將會成為一個有意義的研究方向。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡