翟 超,熊偉麗
(江南大學(xué) 輕工過程先進控制教育部重點實驗室,江蘇 無錫 214122)
隨著傳感和檢測技術(shù)飛速發(fā)展,工業(yè)生產(chǎn)的信息化程度不斷提高,產(chǎn)生了大量的生產(chǎn)過程數(shù)據(jù),因而多元統(tǒng)計過程監(jiān)控(MSPM)方法得到了廣泛應(yīng)用。其中主元分析(Principal component analysis,PCA)、偏最小二乘(Plus least square,PLS)和獨立元分析(Independent component analysis,ICA)等是比較經(jīng)典的多元統(tǒng)計監(jiān)控方法[1-3]。針對工業(yè)過程呈現(xiàn)的不同特征,研究者們對3種經(jīng)典方法進行了一系列改進[4-9]。其中,Nguyen等[6]提出了使用核技巧計算非線性主元的核主元分析法(Key PCA,KPCA),無需考慮非線性優(yōu)化問題,具有更加優(yōu)越的性能。針對PCA不能解決非高斯過程監(jiān)測的問題,Ge等[7]提出了一種基于獨立元分析-主元分析(ICA-PCA)的故障監(jiān)測方法,通過提取過程的高斯和非高斯信息用于故障檢測和診斷。Zhou等[8]提出一種全潛投影偏最小二乘方法,對PLS的主元及殘差空間進行了二次分解,質(zhì)量相關(guān)故障和無關(guān)故障的監(jiān)測性能在一定程度上同時得到了提升。然而這些方法都是建立一個全局模型,沒有考慮到生產(chǎn)過程中的局部信息,容易忽略局部產(chǎn)生的故障。
在現(xiàn)代工業(yè)中,以大規(guī)模和多個操作單元為特征的生產(chǎn)過程越來越多。而當(dāng)這樣的生產(chǎn)過程發(fā)生故障時,可能只有部分變量受到影響,這時若只建立全局模型,那么局部信息可能會被淹沒,因此,多塊或分布式過程監(jiān)控成為一種有效的解決方案。國內(nèi)外學(xué)者已經(jīng)提出多種多塊監(jiān)控方法來獲得復(fù)雜過程變量之間的關(guān)系,并能夠反映過程的局部特性[10-15]。Macgregor等[12]提出了多塊投影方法,為每個子塊以及整個過程建立監(jiān)控圖表。Westerhuis等[13]從算法角度比較了傳統(tǒng)PCA和PLS方法,先根據(jù)已有知識對變量進行分塊,再用其分別對子塊建模,最后將結(jié)果融合。這些分塊方法要求熟悉工業(yè)過程并具備一定的先驗知識,當(dāng)先驗知識相對匱乏時,模型建立變得十分困難。因此基于數(shù)據(jù)的變量分塊方法成為了研究熱點。一種基于故障的變量選擇和基于貝葉斯推斷的分布式方法由Jiang等[14]提出,首先使用優(yōu)化算法為每個故障識別最佳變量子集,其次對每個子塊進行PCA監(jiān)測模型的建立,最后通過貝葉斯推斷來融合所有子集的監(jiān)測結(jié)果。Huang等[15]考慮過程的高斯特性,對過程分塊,分別用DPCA和DICA 方法對相應(yīng)子塊進行監(jiān)控。
上述多塊監(jiān)測方法在分析各過程變量之間關(guān)系的基礎(chǔ)上,通過構(gòu)建一些規(guī)則將變量分塊,取得了優(yōu)于單一模型的監(jiān)測效果,但是僅使用了過程數(shù)據(jù)的觀測值,并沒有挖掘隱含在數(shù)據(jù)中的其他有效信息。顧炳斌等[16]提出了一種新的分塊思想,同時提取過程數(shù)據(jù)觀測值、累計誤差和變化率信息,將原始數(shù)據(jù)集擴充為3個子塊分別監(jiān)測,最終將子塊的監(jiān)測結(jié)果融合,利用了數(shù)據(jù)中隱含的信息使得監(jiān)測效果有所提升。
為了在考慮過程局部信息的同時,挖掘并利用數(shù)據(jù)集中的其他特征信息,提出一種分層信息提取的多塊PCA故障監(jiān)測方法。首先通過計算變量之間的互信息值對過程變量進行分塊,提取局部信息;其次對分塊后的變量塊進一步提取累計誤差和二階差分等信息,將變量塊擴充為多個信息子塊,使得子塊同時包含過程的局部信息和數(shù)據(jù)集的特征信息;再對每個信息子塊采用PCA方法進行建模并監(jiān)控,最后將所有子塊的監(jiān)測結(jié)果進行貝葉斯融合輸出。在TE過程的仿真實驗中,驗證了所提方法優(yōu)于傳統(tǒng)監(jiān)測方法,提升了監(jiān)測性能。
PCA作為一種降維方法,在保留工業(yè)過程主要信息的同時,將高維的過程數(shù)據(jù)投影至正交的低維子空間,目前在故障監(jiān)控領(lǐng)域得到了廣泛應(yīng)用[1]。假設(shè)過程變量數(shù)據(jù)矩陣為X∈Rn×m,對其標準化預(yù)處理后進行主元分析可得
X=TPT+E
(1)
式中:T∈Rn×k為得分矩陣,P∈Rm×k為載荷矩陣,E∈Rn×m為殘差矩陣。
利用PCA進行過程監(jiān)測時,分別在主元空間和殘差空間中構(gòu)造T2和SPE統(tǒng)計量,根據(jù)其是否超限來判斷過程是否發(fā)生故障。假設(shè)一個新的測試樣本為x∈Rm×1,在PCA監(jiān)測模型中其T2和SPE統(tǒng)計量分別為
(2)
SPE=xT(I-PPT)x≤SPElim
(3)
傳統(tǒng)的多塊建模方法依靠對過程變量進行選擇來對過程分塊,從而獲得生產(chǎn)過程的局部信息。本文考慮到信息的多樣性,在變量分塊后,進一步對每個變量塊提取累計誤差和二階差分等信息,挖掘原始數(shù)據(jù)集中的隱含信息,將每個變量塊進一步擴充為同時包含局部信息和特征信息的信息子塊,再對所有子塊進行分塊監(jiān)測。分層信息提取的多塊建模方法與傳統(tǒng)多塊建模方法對比如圖1所示。
本文通過計算變量之間的互信息值對過程變量進行分塊,以提取過程的局部信息?;バ畔⑹切畔⒄撝械母拍?用于判斷一個隨機變量與另一個隨機變量之間重疊信息量的大小,也能用于衡量兩個變量之間的相關(guān)程度。兩個變量之間互信息值的大小決定其相關(guān)性的強弱[17-19]。互信息的計算公式為
(4)
式中:p(x,y)為兩個變量x和y的聯(lián)合概率密度,p(x)和p(y)為兩個變量的邊緣概率密度。
考慮到概率密度函數(shù)的獲取難度較大,所以一般情況下互信息可由式(5)計算。
I(x,y)=H(x)+H(y)-H(x,y)
(5)
式中:H(x)和H(y)分別為變量x和y的邊緣熵,H(x,y)為兩個變量的聯(lián)合熵,其計算公式為
(6)
(7)
(8)
假設(shè)原始數(shù)據(jù)集為X∈Rn×m,m為變量個數(shù)。通過計算各變量之間互信息值大小,對m個過程變量進行分塊,提取過程局部信息,將原始數(shù)據(jù)集分為b個子塊,即X=[X1,X2,…,Xb]∈Rn×m。
2.2.1 累計誤差信息
累計誤差信息是通過計算一定時間段內(nèi)累計的觀測值信息與預(yù)設(shè)標準值的差所得到的信息。故障發(fā)生時,若過程變量表現(xiàn)出微小的變化以及緩慢的偏移,過程的累計誤差信息可以在一定程度上放大這種變化或偏移,使得這類故障更容易被監(jiān)測到,從而提升監(jiān)測效果[16]。
假設(shè)標準化后的過程變量數(shù)據(jù)集經(jīng)過變量選擇分塊后的某一變量塊為Xb∈Rn×b,其均值為0。將標準值設(shè)定為變量的均值,那么將樣本值相加即可得到累計誤差信息。將前T個時刻的累計誤差信息作為新的特征信息,構(gòu)造新的特征信息子塊Xbl∈R(n-T)×b。第t個時刻的累計誤差為
(9)
式中:xl(t)表示t時刻的累計誤差信息,x(t)為該變量塊中t時刻的樣本。由于原始數(shù)據(jù)中前T個樣本用來構(gòu)造新的特征,因此新的特征數(shù)據(jù)集會損失T個樣本。
2.2.2 二階差分信息
二階差分是指在數(shù)據(jù)進行一次差分的基礎(chǔ)上,對差分后的數(shù)據(jù)再進行差分,可以進一步反映過程的動態(tài)特征。當(dāng)某個或某些故障導(dǎo)致相關(guān)變量產(chǎn)生振蕩而不單單是幅值變化時,觀測值信息和累計誤差信息均無法很好地對故障進行監(jiān)測。而對數(shù)據(jù)進行二階差分后,能夠有效地觀測到此類故障,通過提取該信息用于建模,能夠更好地對此類故障進行監(jiān)測。
假設(shè)標準化后的過程變量數(shù)據(jù)集經(jīng)過變量選擇分塊后的某一變量塊為Xb∈Rn×b,通過對每個時刻變量求取二階差分構(gòu)造新的特征信息子塊Xbd∈R(n-2)×b,t時刻的二階差分信息為
xd(t)=(x(t)-x(t-1))-(x(t-1)-x(t-2))
(10)
式中:xd(t)為t時刻的二階差分信息,x(t)為該變量塊中t時刻的樣本。
通過對變量子塊提取累計誤差及二階差分信息,得到信息子塊Xbl和Xbd,結(jié)合原始數(shù)據(jù)觀測值信息Xb,將每個變量塊擴充為3個信息子塊,每個信息子塊包含了過程的局部信息和數(shù)據(jù)集的特征信息。
首先,計算各個變量之間的互信息值,通過互信息值對變量進行分塊,以提取過程局部信息。
其次,對利用互信息值劃分的各個子塊,提取其累計誤差信息和二階差分信息,與原始數(shù)據(jù)觀測值信息共同將每個變量子塊擴充為3個特征信息子塊。
進一步,采用PCA方法對所得的信息子塊進行故障監(jiān)測,得到各個信息塊的統(tǒng)計量與控制限。
最后,為了得到一個直觀的監(jiān)測指標,基于貝葉斯推斷,對所有子塊的監(jiān)測結(jié)果進行融合,并將結(jié)果作為最終的統(tǒng)計監(jiān)測指標。
對于一個測試樣本xtest,在貝葉斯方法中,其在第i個子塊中T2統(tǒng)計量故障的條件概率為
(11)
PT2(xtest,i)=PT2(xtest,i|N)PT2(N)+
PT2(xtest,i|F)PT2(F)
(12)
條件概率PT2(xtest,i|N)和PT2(xtest,i|F)定義分別為
(13)
(14)
(15)
同理,經(jīng)過BIC融合后的SPE統(tǒng)計量可由式(16)計算。
(16)
分層信息提取的多塊PCA(Hierarchical information extraction PCA,HIEPCA)故障監(jiān)測方法的流程如圖2所示,以下對算法具體實施過程進行詳細描述。
(1)對正常數(shù)據(jù)集X0進行標準化處理,獲得數(shù)據(jù)集X。
(2)計算數(shù)據(jù)集中變量之間的互信息值,并根據(jù)互信息值的大小對變量進行分塊,生成b個變量子塊。
(3)對分類過后的每個變量子塊分別提取累計誤差信息和二階差分信息,與原始數(shù)據(jù)信息共同組成新的信息子塊,最終生成3×b個信息子塊。
(4)對生成的所有信息子塊中建立PCA模型,并計算子塊的故障控制限。
(5)對于新的測試樣本,經(jīng)過標準化處理后按照步驟2和3中的方法得到新的測試樣本。
(6)對每個信息子塊進行監(jiān)測,得到各信息子塊的監(jiān)測結(jié)果。
(7)對各子塊的監(jiān)測結(jié)果采用貝葉斯方法,得到BIC統(tǒng)計量,作為最終的監(jiān)測結(jié)果。
TE仿真過程由伊斯曼化學(xué)公司創(chuàng)建,旨在提供一個基于工業(yè)過程的真實測試平臺用以評估過程控制和監(jiān)控性能。該過程包括5個主體部分:反應(yīng)器、冷凝器、壓縮機、分離器和汽提塔[21]。整個過程共包含53個變量,其中有22個測量變量,12個操作變量,以及19個成分變量,TE過程的詳細描述可參考文獻[22],本文選取測量變量和操作變量(除去攪拌速度外)用于建模和監(jiān)測。TE過程設(shè)定的不同故障共有21中,包括16種已知故障和5種未知故障。分別采集正常工況下和各種故障工況下的960個樣本作為訓(xùn)練和故障測試集,故障樣本中的故障均從第161個點開始產(chǎn)生。
圖3展示了33個變量之間的互信息值,不同顏色對應(yīng)其大小(范圍為0~1)。大多數(shù)變量之間的互信息值不超過0.2,因此,本文將0.2作為互信息閾值。若兩個變量之間互信息值超過閾值,當(dāng)故障發(fā)生時,其受到的影響相似,將其分入一個子塊將更容易檢測到故障。例如變量12和29的互信息值達到0.996 6,變量15和30的互信息值為0.996 3,則將變量12和29分為一塊,同理將變量15和30分為一塊。將與其他所有變量之間互信息值均小于閾值0.2的變量分入一個子塊中進行監(jiān)測,共將33個過程變量分為8個子塊。具體的變量分塊結(jié)果如表1所示。
表1 變量分塊結(jié)果
對于經(jīng)過第一層信息提取后的變量子塊,以第一個變量子塊X1∈R960×2為例(包含變量12、29),進行特征信息提取。首先計算前T個時刻的累計誤差信息,仿真中取T=5,構(gòu)造累計誤差特征信息子塊X1l∈R955×2;然后根據(jù)二階差分信息計算方法可得特征信息子塊X1d∈R958×2;觀測值信息即為變量子塊數(shù)據(jù)X1∈R960×2。由于累計誤差信息寬度T取值為5,在進行監(jiān)測時將損失前5個樣本,因此最后由第一個變量子塊進行第二層信息提取后擴展成的觀測值、累計誤差以及二階差分信息子塊分別為X1∈R955×2,X1l∈R955×2,X1d∈R955×2。同理,對剩下所有變量子塊進行特征信息提取,8個變量子塊擴展為24個特征信息子塊。
對每個特征信息子塊建立PCA監(jiān)測模型,得到子塊的T2和SPE故障控制限后,本文采用貝葉斯方法將所有子塊的結(jié)果融合為一個BIC監(jiān)測指標。對于測試樣本xtest,以計算BICT2統(tǒng)計量為例,首先由PCA模型計算出其在每個子塊中的故障統(tǒng)計量,然后由式(11)和(12)計算出其在每個子塊中出現(xiàn)故障的條件概率(α取0.99),之后根據(jù)式(15)得最終的BICT2統(tǒng)計量,同理可得BICSPE統(tǒng)計量。在BIC監(jiān)測指標下,兩種統(tǒng)計量控制限均為1-α即0.01。當(dāng)樣本的監(jiān)測統(tǒng)計量高于控制限則判斷為故障樣本。
表2分別給出了針對TE過程的不同故障,3種分塊方法,即基于互信息變量分塊(Mutual information PCA,MIPCA),多塊信息提取(Multi-block information PCA,MBIPCA)以及本文方法HIEPCA下最優(yōu)子塊的監(jiān)測結(jié)果(各故障最低漏報率及對應(yīng)的故障編號在表2中加粗表示)。
表2 各方法下最優(yōu)子塊漏報率
從表2可以看出,大部分故障情況下本文方法的最優(yōu)子塊的監(jiān)測結(jié)果優(yōu)于前兩種方法的最優(yōu)子塊的監(jiān)測結(jié)果,說明經(jīng)過局部信息和特征信息提取的兩層分塊后,子塊中包含更多對故障敏感的有效信息,能夠獲得更好的監(jiān)測效果。對于故障10和19,最優(yōu)子塊分別為子塊14和子塊18,即分別對應(yīng)由變量子塊5(含變量18,19,31)所擴展的累計信息誤差信息子塊和變量子塊6(含變量7,13,16,20,27)擴展的二階差分信息子塊,圖4和5分別為變量18和27特征信息。
由圖4(b)可知,對變量18進行累計誤差信息提取后,與原始數(shù)據(jù)即觀測值信息相比,故障樣本的數(shù)據(jù)幅值顯著增大,因此更容易檢測到此故障。由圖5(c)可知,對變量27進行二階差分信息提取后,正常樣本與故障樣本差異變得非常明顯,更有利于該故障的檢測。同時,表3給出了3種方法融合所有子塊后最終的監(jiān)測結(jié)果。不難看出,由于進行了分層分塊,本文方法在大部分故障情況下的監(jiān)測結(jié)果優(yōu)于前兩種方法。
表3 各方法下TE過程故障漏報率
為進一步說明本文方法的性能,選取故障10和故障20的監(jiān)測結(jié)果做詳細分析。故障10為TE過程中進料C溫度的隨機變化,圖6展示了在3種方法下最優(yōu)子塊的監(jiān)測結(jié)果和融合子塊后的最終監(jiān)測結(jié)果(圖6(a)、(b)、(c)為最優(yōu)子塊監(jiān)測結(jié)果,圖6(d)、(e)、(f)為最終監(jiān)測結(jié)果)。在MBIPCA方法中,故障10最優(yōu)子塊的SPE漏報率為65.33%。在MIPCA方法中,最優(yōu)子塊的SPE漏報率為23.28%。在本文方法中,最優(yōu)子塊的漏報率為21.78%,監(jiān)測效果優(yōu)于前兩種方法的最優(yōu)子塊。融合所有子塊監(jiān)測結(jié)果,最終故障10的漏報率僅為15.27%,說明在分層提取信息進行監(jiān)測能夠達到優(yōu)于單一分塊方法的監(jiān)測效果。
故障20是一種未知故障,其監(jiān)測結(jié)果由圖7所示,該故障在MBIPCA方法和MIPCA方法中的最優(yōu)子塊對應(yīng)的SPE統(tǒng)計量漏報率分別為35.29%和36.8%,監(jiān)測效果相差不大。在本文方法中,最優(yōu)子塊的SPE統(tǒng)計量漏報率僅為22.53%,為3種方法中最低,融合所有子塊的監(jiān)測結(jié)果,最終故障20的漏報率僅為12.39%,大大提升了監(jiān)測效果。在3種方法的最終監(jiān)測結(jié)果即圖(d)、(e)和(f)中也可以看到,MBIPCA和MIPCA方法下的BICSPE統(tǒng)計量與故障控制限有明顯相交,而HIEPCA方法中的BICSPE統(tǒng)計量基本都在故障控制限之上,尤其是在第300到第750故障樣本點之間,漏報率非常低,監(jiān)測效果較前兩種方法有顯著提升。
本文提出了一種分層信息提取的多塊PCA故障監(jiān)測方法,在考慮到過程局部信息的同時,挖掘了數(shù)據(jù)的隱含信息。通過計算過程變量之間的互信息值實現(xiàn)對過程變量分塊,基于觀測值信息進一步對每個變量塊提取累計誤差信息和二階差分信息,實現(xiàn)了局部和特征信息的分層提取,并采用貝葉斯方法對每個子塊的監(jiān)測結(jié)果進行融合。TE過程的仿真實驗體現(xiàn)了本文方法的有效性和性能,相比于傳統(tǒng)的多塊監(jiān)測方法能夠獲得更好的監(jiān)測效果。