郭金玉, 韓建斌, 李 元
(沈陽化工大學(xué) 信息工程學(xué)院, 遼寧 沈陽 110142)
隨著生產(chǎn)力的發(fā)展,化工過程變得日趨集成化和復(fù)雜化.及時(shí)而有效地檢測出故障對于保證產(chǎn)品質(zhì)量、生產(chǎn)安全都有著至關(guān)重要的作用.近年來,多變量統(tǒng)計(jì)學(xué)作為一種有效的數(shù)據(jù)驅(qū)動(dòng)方法,已成功應(yīng)用于化工過程檢測與監(jiān)視,并成為工業(yè)界和學(xué)術(shù)界的研究熱點(diǎn)[1].多變量統(tǒng)計(jì)過程監(jiān)視的本質(zhì)是將過程數(shù)據(jù)壓縮以提取出有用的信息用于故障檢測和診斷.以PCA和PLS為代表的多元統(tǒng)計(jì)方法在過程監(jiān)視中受到了廣泛關(guān)注,通過構(gòu)造統(tǒng)計(jì)量即可實(shí)現(xiàn)對生產(chǎn)過程的在線監(jiān)視.由PCA和PLS拓展出來的一些算法也取得了一定的發(fā)展[2-4].
隨著化工過程日趨復(fù)雜化,化工連續(xù)生產(chǎn)過程的非線性特征越來越顯著,使得當(dāng)今對故障檢測技術(shù)的要求越來越高.因此如何通過算法挖掘數(shù)據(jù)的高維非線性結(jié)構(gòu),提取原始數(shù)據(jù)中更多有用的信息,成為故障診斷研究的一個(gè)重要方面.為了提取數(shù)據(jù)的非線性特征,運(yùn)用核技巧或核函數(shù)技術(shù),將傳統(tǒng)的線性技術(shù)進(jìn)行核化.鄧曉剛等[5]提出一種基于KPCA的非線性故障診斷方法.MENG Yafeng等[6]提出一種基于核PCA的模糊支持向量機(jī)算法,并將其成功應(yīng)用于雷達(dá)發(fā)射信號的分類中.許潔等[7]將核主元分析和多重核學(xué)習(xí)支持向量機(jī)算法相結(jié)合,提出一種基于KPCA和MKL-SVM的非線性過程監(jiān)控與故障診斷算法,提高了故障檢測和故障診斷的速度.ZHAO Xiaoqiang等[8]提出了一種改進(jìn)的FVS-KPCA用于TE過程的故障檢測算法,降低了運(yùn)算復(fù)雜度,提高了故障檢測性能.但是這些算法在對TE過程數(shù)據(jù)進(jìn)行特征映射時(shí)都是全局投影,丟失了數(shù)據(jù)的局部拓?fù)浣Y(jié)構(gòu)信息.
近幾年,作為一種新的線性降維算法,局部保持投影(Locality Preserving Projections,LPP)被提出用來挖掘潛在的數(shù)據(jù)流形結(jié)構(gòu)[9].LPP的基本思路是找到一個(gè)最優(yōu)投影方向從而使在這個(gè)方向上的投影能保留原始數(shù)據(jù)的近鄰結(jié)構(gòu).LPP秉承了數(shù)據(jù)局部結(jié)構(gòu)保持的特點(diǎn),已被成功應(yīng)用于間歇過程的故障診斷中[10].值得注意的是,LPP所獲取的投影向量是非正交的,因而增加了數(shù)據(jù)誤差重構(gòu)方面的難度.CAI Deng等[11]又提出正交局部保持投影(Orthogonal Locality Preserving Projections,OLPP),在LPP的基礎(chǔ)上增加一個(gè)正交化的約束條件,通過迭代計(jì)算得到相互正交的投影方向.經(jīng)實(shí)驗(yàn)驗(yàn)證,OLPP比LPP具有更好的局部保持特性.
MIAO Aimin等[12]嘗試將核函數(shù)技術(shù)和正交鄰域保持嵌入技術(shù)相結(jié)合運(yùn)用到連續(xù)過程中進(jìn)行統(tǒng)計(jì)過程監(jiān)視,算法顯示出一定的優(yōu)越性.本文嘗試將核函數(shù)技術(shù)和投影向量間正交性原理融入局部保持投影算法中,提出了一種新的核正交局部保持投影(Kernel Orthogonal Locality Preserving Projections,KOLPP)用于工業(yè)統(tǒng)計(jì)過程故障診斷的非線性算法.
通常,輸入空間的非線性數(shù)據(jù)在高維非線性投影之后很可能被線性可分.針對這種情況,借用核函數(shù)技術(shù)來拓展OLPP算法,稱之為KOLPP.在KOLPP算法中,原始數(shù)據(jù)被投影到高維特征空間后,新的數(shù)據(jù)集具有線性關(guān)系并且易于計(jì)算處理,即KOLPP算法能夠獲取線性算法OLPP丟失的非線性結(jié)構(gòu).
KOLPP是以LPP為基礎(chǔ)的,因此,引入LPP代價(jià)函數(shù),在這個(gè)代價(jià)函數(shù)中引入線性變換矩陣,得到非線性特征.利用滿足Mercer定理的核函數(shù)隱式在高維特征空間求解.
設(shè)輸入訓(xùn)練樣本集X={xi},i=1,2,…,N,X∈Rm×N.KOLPP算法如下:
(1) 選擇非線性映射φ:Rm→F,將輸入空間Rm映射到高維特征空間F,得到φ:φ(X)=[φ(x1),φ(x2),…,φ(xN)],從而在特征空間進(jìn)行Y=ATφ(X)的降維變換,將他們映射為l(l?N)維空間中的新樣本數(shù)據(jù)點(diǎn),其中A=[a1,a2,…,al].因?yàn)锳是由φ:φ(X)=[φ(x1),φ(x2),…,φ(xN)]張成的,因此存在一組系數(shù)a,使得
(1)
LPP代價(jià)函數(shù)可以轉(zhuǎn)化成:
2ATφ(X)Lφ(X)A
(2)
其中
(3)
通過代入(1)和K(xi,xj)=〈φ(xi),φ(xj)〉可以得到:
(4)
(2) 考慮約束條件:aTKDKa=1,其中a是向量,K和D是矩陣.a與a1都表示的是向量.向量a可以取不同的值.核空間LPP可以轉(zhuǎn)化成求解如下廣義方程的最小特征值所對應(yīng)的特征向量:
KLKTa=λKDKTa
(5)
其中:D是對角矩陣;L是拉普拉斯矩陣,L=D-W,Dii=∑jWij.
(6)
(3) 計(jì)算正交基函數(shù),正交基為A=[a1,a2,…,al],令A(yù)(l-1)=[a1,a2,…,al-1],Γ(l-1)=[A(l-1)]T(KDKT)-1A(l-1).
① 取正交基矩陣A的一個(gè)向量,其中a1是矩陣A中的一個(gè)向量.a1由廣義特征方程KLKTa=λKDKTa的最小特征值所對應(yīng)的特征向量得到:
(7)
② KOLPP的第l個(gè)特征值對應(yīng)的特征向量al由式(8)得到:
alTKDKTal=1
(8)
利用Lagrange乘數(shù),以上最小化問題可以轉(zhuǎn)化為如下方程:
(9)
通過求解以上方程,al為以下方程的最小特征值對應(yīng)的特征向量求得:
{I-(XDXT)-1A(l-1)[Γ(l-1)]-1·
[A(l-1)]Τ}(KDKT)-1KLKTal=λal
(10)
(4)對于輸入樣本X:φ(xi)→yi=ATφ(xi),其中A=[a1,a2…,al].
基于KOLPP的離線建模過程如下:
(4) 利用訓(xùn)練集計(jì)算Q統(tǒng)計(jì)量.
(5) 采用KDE確定Q統(tǒng)計(jì)量的控制限.
基于KOLPP的在線檢測和診斷過程如下:
(1) 對新來樣本數(shù)據(jù)Xnew,根據(jù)訓(xùn)練集的均值和方差進(jìn)行標(biāo)準(zhǔn)化.
(4) 計(jì)算待測樣本的Q統(tǒng)計(jì)量.
(5) 比較待測樣本的Q統(tǒng)計(jì)量與控制限,判斷統(tǒng)計(jì)量是否超出控制限.
(6) 計(jì)算出每個(gè)過程變量對Q統(tǒng)計(jì)量的貢獻(xiàn),繪成直方圖可以得到該統(tǒng)計(jì)量的貢獻(xiàn)圖.在第n個(gè)采樣時(shí)刻,第i個(gè)樣本的變量j對Q的貢獻(xiàn)為:
(11)
根據(jù)貢獻(xiàn)率的高低判斷哪個(gè)變量發(fā)生了故障.
Eastman 化學(xué)公司開發(fā)的Tennessee Esatman(田納西-伊斯曼過程)過程模擬器提供了一個(gè)實(shí)際的工業(yè)過程仿真平臺,近年來已經(jīng)被廣泛用于驗(yàn)證各種故障檢測與診斷方法,現(xiàn)已成為一種國際上通用的標(biāo)準(zhǔn)仿真模型[13-16].這個(gè)過程模型首先是以FORTRAN源代碼的形式提供給過程控制學(xué)術(shù)界,主要描述了裝置、物料和能量之間的非線性關(guān)系.TE過程包括5個(gè)主要操作單元、4種氣體進(jìn)料、2個(gè)氣液放熱反應(yīng)生成的2種主產(chǎn)品、2個(gè)衍生放熱反應(yīng)生成的2種副產(chǎn)品等,過程機(jī)理復(fù)雜性極高,變量較多.具體模型流程如圖1所示.
TE過程在仿真數(shù)據(jù)集中包含了所有41個(gè)測量變量和11個(gè)控制變量(不包含反應(yīng)器的攪拌速度),總共有52個(gè)觀測變量.TE過程數(shù)據(jù)包含正常狀態(tài)和21種不同的故障狀態(tài),每種狀態(tài)分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)兩部分.訓(xùn)練數(shù)據(jù)為480個(gè)樣本,而測試數(shù)據(jù)為960個(gè)樣本.在故障測試數(shù)據(jù)中,每3 min采樣1次,過程仿真時(shí)間為48 h,故障出現(xiàn)在第9 h開始的時(shí)候,即從第161個(gè)采樣時(shí)刻開始引入故障.
圖1 TE過程工藝流程
將核正交局部保持投影應(yīng)用到TE過程中,并與KPCA和OLPP算法進(jìn)行比較.3種算法潛變量的個(gè)數(shù)都選擇為20個(gè),KOLPP和KPCA的核參數(shù)β為3 500.本文選取TE數(shù)據(jù)的故障1、2、7和14來驗(yàn)證算法的有效性.
圖2~圖5分別為故障1、2、7和14的檢測圖.圖中的虛線和實(shí)線分別對應(yīng)Q統(tǒng)計(jì)量95 %和99 %的控制限.
圖2 故障1的檢測圖
圖3 故障2的檢測圖
從圖2~圖5可知,前150個(gè)時(shí)刻KPCA算法都有明顯的超過控制限的情況,說明KPCA算法的誤報(bào)率最高.在圖2、圖3和圖4中OLPP算法也有一定的誤報(bào)率.KOLPP算法在前150個(gè)時(shí)刻基本沒有超過控制限的情況.
3種算法的具體檢測結(jié)果如表1所示.運(yùn)用誤報(bào)率、漏報(bào)率及2個(gè)指標(biāo)的和(錯(cuò)誤率)來衡量算法的好壞,3種指標(biāo)分別用FA、MA和ER表示.
圖4 故障7的檢測圖
圖5 故障14的檢測圖
表1 3種算法的故障檢測結(jié)果
由表1可以看出:對4個(gè)故障進(jìn)行檢測,KOLPP算法能保證在最低的誤報(bào)率下,有較好的檢測效果.與KPCA、OLPP算法相比,KOLPP的錯(cuò)誤率指標(biāo)ER最低,故障檢測效果最好,驗(yàn)證了該算法的有效性.
運(yùn)用KOLPP算法,計(jì)算4種故障在第161個(gè)采樣時(shí)刻Q統(tǒng)計(jì)量的貢獻(xiàn)率,如圖6所示,根據(jù)貢獻(xiàn)率的高低判斷哪個(gè)變量發(fā)生了故障.從圖6可以看出,引起4種故障的主要變量分別是變量21、變量13、變量4和變量51.
表2是在Matlab7.1平臺下KPCA、OLPP和KOLPP 3種算法故障檢測所需的CPU時(shí)間(CPU:Pentium Dual-core 2.93 GHz RAM:1.96 GB).由表2可以看出:OLPP算法運(yùn)行時(shí)間最短,這是由于OLPP是線性算法.KPCA和KOLPP算法的運(yùn)行時(shí)間較長,因?yàn)闇y試樣本在向低維空間上投影時(shí),需要計(jì)算核矩陣.本文算法在錯(cuò)誤率較低的情況下,運(yùn)行時(shí)間相對較短.
圖6 各故障的Q統(tǒng)計(jì)量貢獻(xiàn)圖
表2 3種算法Q統(tǒng)計(jì)量故障檢測的CPU時(shí)間對比
提出一種基于核正交局部保持投影的連續(xù)過程故障診斷算法.利用核函數(shù)技術(shù)將其投影到高維的非線性空間中,提取工業(yè)過程數(shù)據(jù)中的非線性信息.在保證投影矩陣中各向量正交的同時(shí),通過局部保持投影算法進(jìn)行線性映射.最后,將KOLPP算法用于工業(yè)過程的統(tǒng)計(jì)監(jiān)視.TE過程的仿真結(jié)果表明,該算法在錯(cuò)誤率較低的情況下,運(yùn)行時(shí)間相對較短.
[1] 周東華,李鋼,李元.數(shù)據(jù)驅(qū)動(dòng)的工業(yè)過程故障診斷技術(shù):基于主元分析與偏最小二乘的方法[M].北京:科學(xué)出版社,2011:1-76.
[2] LI Y,ZHANG X M.Diffusion Maps Basedk-nearest-neighbor Rule Technique for Semiconductor Manufacturing Process Fault Detection[J].Chemometrics and Intelligent Laboratory Systems,2014,136:47-57.
[3] 郭金玉,齊蕾蕾,李元.基于DMOLPP的間歇過程在線故障檢測[J].儀器儀表學(xué)報(bào),2015,36(1):134-142.
[4] 郭小萍,李婷,李元.基于魯棒測地線距離的復(fù)雜間歇過程故障檢測[J].儀器儀表學(xué)報(bào),2014,35(12):2681-2689.
[5] 鄧曉剛,田學(xué)民.一種基于KPCA的非線性故障診斷方法[J].山東大學(xué)學(xué)報(bào)(工學(xué)版),2005,35(3):103-106.
[6] MENG Y F,REN M Q,Cai J Y,et al.Research on Radar Emitters Classification with Fuzzy Support Vector Machines[C]//IEEE.Proceedings of the International Forum on Information Technology and Applications.Washing,DC:IEEE Computer Society,2009:161-164.
[7] 許潔,胡壽松.基于KPCA和MKL-SVM的非線性過程監(jiān)控與故障診斷[J].儀器儀表學(xué)報(bào),2010,31(11):2428-2433.
[8] ZHAO X Q,WANG X M,YANG W,et al.An Improved FVS-KPCA Method of Fault Detection on TE Process[C]//IEEE.2012 Third International Conference on Digital Manufacturing and Automation.Washing,DC:IEEE Computer Society,2012:186-189.
[9] HE X F,NIYOGI P.Locality Preserving Projections(LPP)[J].Advances in Neural Information Processing Systems,2002,16(1):186-197.
[10] HU K L,YANG J Q.Multivariate Statistical Process Control Based on Multiway Locality Preserving Projections[J].Journal of Process Control,2008,18(7/8):797-807.
[11] CAI D,HE X,HAN J,et al.Orthogonal Laplacianfaces for Face Recognition[J].IEEE Transactions on Image Processing,2006,15(11):3608-3614.
[12] MIAO A M,SONG Z H,WEN Q J,et al.Process Monitoring Based on Generalized Orthogonal Neighborhood Preserving Embedding[J].IFAC Proceedings Volumes,2012,45(15):148-153.
[13] DOWNS J J,VOGEL E F.A Plant-Wide Industrial Process Control Problem[J].Computers and Chemical Engineering,1993,17(3):245-255.
[14] MCAVOY T J,YE N.Base Control for the Tennessee Eastman Problem[J].Computers and Chemical Engineering,1994,18(5):383-413.
[15] LEE G,HAN C H,YOON E S.Multiple-Fault Diagnosis of the Tennessee Eastman Process Based on System Decomposition and Dynamic PLS[J].Industrial and Engineering Chemistry Research,2004,43(25):8037-8048.
[16] YIN S,DING S X,HAGHANI A,et al.A Comparison Study of Basic Data-Driven Fault Diagnosis and Process Monitoring Methods on the Benchmark Tennessee Eastman Process[J].Journal of Process Control,2012,22(9):1567-1581.