朱振杰, 杜付鑫, 楊旺功
(1. 山東大學(xué) a. 高效潔凈機(jī)械制造教育部重點(diǎn)實(shí)驗(yàn)室,b. 機(jī)械工程國(guó)家級(jí)實(shí)驗(yàn)教學(xué)示范中心,c. 機(jī)械工程學(xué)院,山東 濟(jì)南 250061; 2. 北京林業(yè)大學(xué) 信息學(xué)院,北京 100083)
工業(yè)4.0概念的提出代表著智能化時(shí)代的來(lái)臨。為了適應(yīng)世界制造產(chǎn)業(yè)的發(fā)展新需求,我國(guó)需要利用各種信息化技術(shù)手段促進(jìn)工業(yè)制造產(chǎn)業(yè)的新變革[1]; 但是,隨著各種設(shè)備不斷增多并趨于更加智能化,現(xiàn)代工業(yè)系統(tǒng)變得越來(lái)越復(fù)雜,在整個(gè)系統(tǒng)運(yùn)行過(guò)程中發(fā)生各種各樣故障的概率也越來(lái)越大,在某些情況下可能引起系統(tǒng)的整體癱瘓[2],因此,必須對(duì)工業(yè)系統(tǒng)進(jìn)行實(shí)時(shí)、準(zhǔn)確的監(jiān)測(cè),從而保證系統(tǒng)安全穩(wěn)定運(yùn)行[3-4]。
工業(yè)系統(tǒng)的監(jiān)測(cè)任務(wù)需要對(duì)出現(xiàn)故障進(jìn)行及時(shí)檢測(cè)與識(shí)別,但是,現(xiàn)代工業(yè)系統(tǒng)十分復(fù)雜,故障的檢測(cè)與識(shí)別面臨巨大的挑戰(zhàn)。傳統(tǒng)的監(jiān)測(cè)方法存在故障檢測(cè)精度不高、處理速度慢的問(wèn)題。此外,大部分監(jiān)測(cè)方法僅進(jìn)行故障檢測(cè),對(duì)故障的類型無(wú)法做到準(zhǔn)確識(shí)別[5-6],機(jī)器學(xué)習(xí)技術(shù)作為一種先進(jìn)的計(jì)算機(jī)輔助手段[7-9],能夠有效解決該問(wèn)題,對(duì)此,研究人員提出了許多的相關(guān)方法。例如,張成等[10]提出了一種基于加權(quán)k近鄰(KNN)規(guī)則的多模態(tài)間歇過(guò)程故障檢測(cè)方法,將原始數(shù)據(jù)投影到低維空間,對(duì)過(guò)程數(shù)據(jù)進(jìn)行降維以便降低計(jì)算復(fù)雜度,然后通過(guò)加權(quán)KNN聚類完成過(guò)程故障檢測(cè)任務(wù)。作為一種使用最廣泛的數(shù)據(jù)降維算法,多元統(tǒng)計(jì)的主成分分析(PCA)在高維數(shù)據(jù)特征提取方面具有優(yōu)異的性能,因此,趙曉君等[11]提出將PCA和KNN聚類相結(jié)合設(shè)計(jì)了一種通用的在線故障診斷算法。類似地,Yang等[12]提出了基于PCA-支持向量機(jī)的生物化學(xué)產(chǎn)品制造過(guò)程故障診斷與檢測(cè)方法,同樣得到了較好的準(zhǔn)確性。
孿生支持向量機(jī)(twin support vector machine,TWSVM)是一種新型的基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)方法[13]。作為傳統(tǒng)SVM的一種變形算法,TWSVM不僅繼承了其優(yōu)秀的學(xué)習(xí)能力,而且運(yùn)行效率提高了4倍。本文中利用PCA-TWSVM實(shí)現(xiàn)故障類型的識(shí)別。首先,采用PCA方法對(duì)涉及的復(fù)雜故障變量進(jìn)行降維,并對(duì)提取的主要故障變量進(jìn)行判斷,完成故障檢測(cè);然后,利用TWSVM進(jìn)行故障類型的識(shí)別,結(jié)合PCA方法實(shí)現(xiàn)系統(tǒng)監(jiān)測(cè),進(jìn)一步改善工業(yè)系統(tǒng)故障的識(shí)別綜合性能。
在進(jìn)行常規(guī)的Logistic回歸分析之前,本文中利用統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案軟件SPSS 19.0 的PCA主成分提取功能來(lái)進(jìn)行故障變量的數(shù)據(jù)降維,操作界面如圖1所示。
作為一種最常用的線性降維方法,PCA能夠在盡量保證信息量不丟失的情況下,通過(guò)投影對(duì)原始特征進(jìn)行降維。假設(shè)模型樣本由工業(yè)系統(tǒng)故障特征變量構(gòu)成,每個(gè)樣本有n個(gè)特征,需要從這些特征變量中提取主要影響因子。m個(gè)訓(xùn)練樣本為x1,x2,…,xm,對(duì)應(yīng)的標(biāo)準(zhǔn)差為S1,S2, …,Sm, 那么標(biāo)準(zhǔn)化變換的方法為
圖1 統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案軟件SPSS19.0的主成分分析降維操作界面
Yj=aj1x1+aj2x2+…+ajmxm,j=1,2,…,m,
(1)
式中ajm為訓(xùn)練樣本xm對(duì)應(yīng)的系數(shù)因子。
從j=1開(kāi)始依次對(duì)式(1)的變換結(jié)果進(jìn)行主成分分析。首先,如果Y1的數(shù)值等于相應(yīng)特征值的正交單位向量的2范數(shù),且Y1的方差最大,則可以確定Y1為第一主成分;其次,如果Y2的數(shù)值等于相應(yīng)特征值的正交單位向量的2范數(shù),Y1與Y2的協(xié)方差為0且Y2的方差最大,則可以確定Y2為第二主成分。按照上述方法重復(fù)進(jìn)行m次,以此類推可以得到多個(gè)主成分。
在累積方差貢獻(xiàn)率計(jì)算過(guò)程中,第i個(gè)主成分Yi的貢獻(xiàn)率ηi為
(2)
則前m個(gè)主成分的總貢獻(xiàn)率c為
(3)
式中:λi為主成分矩陣的特征值;k為保留主成分個(gè)數(shù)。
圖2為累積方差貢獻(xiàn)率示意圖,一般情況下確保c的值大于85%。在這個(gè)條件下可以確保損失的
圖2 累積方差貢獻(xiàn)率示意圖
信息不至于太多,也能夠達(dá)到減少變量、簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu)的目的,提取出反映工業(yè)系統(tǒng)整體過(guò)程的前k個(gè)主成分。以其中一個(gè)公因子為例,其統(tǒng)計(jì)分析的表達(dá)式為
F1=-0.16Z1+0.161Z2+0.145Z3+0.199Z4-
0.131Z5-0.167Z6+0.137Z7+0.174Z8+
0.131Z9-0.037Z7+0.174Z8+0.131Z9-
0.037Z10,
(4)
式中:F1為某個(gè)數(shù)據(jù)樣本;Z1—Z10分別為不同公因子; 數(shù)字代表變量間的相關(guān)系數(shù),數(shù)值越大時(shí)相關(guān)性越大。
故障檢測(cè)可以通過(guò)偏離程度的大小來(lái)實(shí)現(xiàn),而PCA故障檢測(cè)的建立需要2個(gè)統(tǒng)計(jì)量,即HotellingT2統(tǒng)計(jì)量(簡(jiǎn)稱T2統(tǒng)計(jì)量)和平方預(yù)報(bào)誤差(square prediction error,SPE)統(tǒng)計(jì)量。T2統(tǒng)計(jì)量的計(jì)算公式為
(5)
式中:Λ=diag(λ1,λ2,…,λk)為前k個(gè)主成分的特征值矩陣;yi為測(cè)試數(shù)據(jù)歸一化后的樣本向量;P為主成分模型的負(fù)荷矩陣。
T2統(tǒng)計(jì)量的控制限L為
(6)
式中:α為置信度;F(k,m-1),α為自由度為(k,m-1)的F分布臨界值。
當(dāng)置信度為α?xí)r,SPE統(tǒng)計(jì)量σSPE為
(7)
式中:I-PPT為殘差子空間的投影;I為單位矩陣。
SPE統(tǒng)計(jì)量的控制限Q為
(8)
其中
(9)
(10)
式中cα為高斯分布水平是1-α的置信極限。
本文中選擇T2統(tǒng)計(jì)量和SPE統(tǒng)計(jì)量都大于各自的控制限作為故障檢測(cè)的標(biāo)準(zhǔn)。
作為傳統(tǒng)機(jī)器學(xué)習(xí)(SVM分支)的一種改進(jìn)版本,TWSVM尋找的是一對(duì)不平行的超平面,因此具有更加優(yōu)異的分類能力,非常適用于解決近似類型的樣本分類問(wèn)題[14-17]。此外,與傳統(tǒng)SVM相比,TWSVM進(jìn)行2個(gè)SVM型問(wèn)題求解,因此計(jì)算效率更高。當(dāng)樣本個(gè)數(shù)為m時(shí),標(biāo)準(zhǔn)SVM的時(shí)間復(fù)雜度約為O(m3),而TWSVM時(shí)間復(fù)雜度為O[2(m/2)3],計(jì)算時(shí)間約為標(biāo)準(zhǔn)SVM計(jì)算時(shí)間的1/4。
在實(shí)際應(yīng)用案例中,大多數(shù)據(jù)樣本都不是簡(jiǎn)單的二元分類。由于在故障數(shù)據(jù)特征空間中進(jìn)行簡(jiǎn)單的線性TWSVM分類已經(jīng)無(wú)法得到令人滿意的分類結(jié)果,因此,對(duì)于非線性分類問(wèn)題,即線性不可分時(shí),需要引入核函數(shù)解決該問(wèn)題。假設(shè)在n維實(shí)數(shù)空間n中,樣本總數(shù)為m=m1+m2,其中m1為正類樣本點(diǎn)個(gè)數(shù),m2為負(fù)類樣本點(diǎn)個(gè)數(shù),那么尋求非線性TWSVM超平面的方法為
K(xT,CT)u1+b1=0,K(xT,CT)u2+b2=0 ,
(11)
式中:K為核函數(shù), 采用高斯核徑向基核函數(shù)作為TWSVM核函數(shù);x為輸入樣本矩陣;C=(AB)T,其中A為由正類樣本組成的m1×n型樣本矩陣,B為由負(fù)類樣本組成的m2×n型矩陣;u1、u2分別為正、負(fù)類樣本的超平面法向量;b1、b2分別為正、負(fù)類樣本的超平面偏移量。
同理,通過(guò)以下2個(gè)二次規(guī)劃可以求解得到將正、負(fù)類樣本劃分開(kāi)的平面[13-14]:
s.t.K(B,CT)u1+e2b1≥e2,
(12)
s.t.K(A,CT)u2+e1b2≥e1,
(13)
然后求解分類的超平面,采用的分類決策函數(shù)為
(14)
結(jié)合PCA方法,通過(guò)TWSVM對(duì)特征變量進(jìn)行故障類型識(shí)別的具體實(shí)施步驟如圖3所示。
圖3 基于主成分分析(PCA)-孿生支持向量機(jī)(TWSVM)的故障類型識(shí)別步驟
為了驗(yàn)證本文中提出的PCA-TWSVM故障類型識(shí)別方法的性能,在MATLAB仿真平臺(tái)利用加利福尼亞大學(xué)歐文分校(UCI)提出的用于機(jī)器學(xué)習(xí)的標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)UCI[15]進(jìn)行驗(yàn)證分析。從UCI數(shù)據(jù)庫(kù)中選取了隸屬工業(yè)過(guò)程數(shù)據(jù)集中的Steel Plates Faults(鋼板故障)數(shù)據(jù)集,共包含7類故障,特征維數(shù)為27。具體實(shí)驗(yàn)樣本數(shù)據(jù)集參數(shù)見(jiàn)表1,其中隨機(jī)選擇了800個(gè)樣本作為測(cè)試樣本。實(shí)驗(yàn)過(guò)程中每一類樣本的分類如表2所示。
表1 實(shí)驗(yàn)數(shù)據(jù)集參數(shù)
表2 樣本分類情況
由于本數(shù)據(jù)集的特征數(shù)較多,因此先利用 PCA方法對(duì)每個(gè)類別的數(shù)據(jù)樣本進(jìn)行降維處理,設(shè)置c大于或等于90%,計(jì)算出相應(yīng)的主成分個(gè)數(shù)為9。最后計(jì)算出不同置信度時(shí)的T2統(tǒng)計(jì)量和SPE統(tǒng)計(jì)量結(jié)果,如圖4所示。從圖中可以看出:當(dāng)置信度α=0.85、0.95時(shí),有較多的正常數(shù)據(jù)存在錯(cuò)誤判斷; 當(dāng)置信度α=0.99時(shí),T2、SPE統(tǒng)計(jì)量的結(jié)果中超過(guò)控制限的數(shù)據(jù)均相對(duì)較少,因此,對(duì)于Steel Plates Faults數(shù)據(jù)集的故障檢測(cè),置信度α的最佳取值為0.99。后續(xù)結(jié)合PCA的TWSVM故障類型識(shí)別中,置信度α取值也為0.99。
(a)Hotelling T 2統(tǒng)計(jì)量
(b)SPE統(tǒng)計(jì)量圖4 不同置信度α?xí)r的Hotelling T 2統(tǒng)計(jì)量和平方預(yù)報(bào)誤差(SPE)統(tǒng)計(jì)量及控制限
在上述PCA故障數(shù)據(jù)集降維處理之后,進(jìn)行TWSVM故障類型識(shí)別實(shí)驗(yàn),并且與現(xiàn)有的加權(quán)KNN[10]、PCA-KNN[11]和PCA-SVM[12]3種類型識(shí)別方法進(jìn)行對(duì)比分析。為了驗(yàn)證方法的可行性,實(shí)驗(yàn)重復(fù)進(jìn)行20次,測(cè)試樣本與訓(xùn)練樣本的設(shè)置見(jiàn)表2。4種方法的故障識(shí)別準(zhǔn)確率如圖5所示,綜合性能對(duì)比見(jiàn)表3。從結(jié)果對(duì)比可以看出,相比于其他3種方法,本文中提出的PCA-TWSVM方法的識(shí)別效果最好,運(yùn)行時(shí)間也有效縮短,對(duì)于故障類型識(shí)別具有更好的綜合性能。
KNN—k鄰近算法; PCA—主成分分析算法; SVM—支持向量機(jī); TWSVM—孿生支持向量機(jī)。圖5 不同方法的鋼板故障識(shí)別的準(zhǔn)確率
表3 不同方法對(duì)鋼板故障類型的綜合識(shí)別性能
本文中提出利用PCA實(shí)現(xiàn)工業(yè)系統(tǒng)故障的檢測(cè),并使用TWSVM方法進(jìn)行故障類型的識(shí)別。通過(guò)UCI數(shù)據(jù)庫(kù)中的Steel Plates Faults數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)測(cè)試,得出如下結(jié)論:相比加權(quán)KNN、PCA-KNN和PCA-SVM這3種方法,PCA-TWSVM方法在工業(yè)系統(tǒng)故障類型識(shí)別方面具有更高的準(zhǔn)確率和執(zhí)行效率。