鄭天標(biāo),肖應(yīng)旺
(廣東技術(shù)師范大學(xué) 自動化學(xué)院,廣州 510665)
近年來,關(guān)于多元統(tǒng)計過程的監(jiān)控策略可謂百花齊放,早期由于主成分分析方法(principal components analysis,PCA)擁有良好的降維能力被普遍應(yīng)用,但由于PCA 不適用于非線性系統(tǒng),Sch?lkopf 等人[1]提出了核主元分析法(kernel principal components analysis,KPCA),KPCA 通過非線性映射函數(shù)將原始輸入空間映射到高維特征空間,然后再利用特征空間中映射數(shù)據(jù)點的內(nèi)積就可解決非線性問題.吳天昊等人[2]將KPCA 引入核電廠設(shè)備在線監(jiān)控領(lǐng)域中,使監(jiān)測手段提供更為早期的預(yù)報警.呂寧等人[3]提出一種改進(jìn)的多向核主元分析故障診斷模型,使得非線性主元能夠在高維特征空間中被快速提取.吳洪艷等人[4]提出了基于小波的KPCA 故障監(jiān)測方法,降低了KPCA 計算的復(fù)雜性,縮短了計算時間.霍特林的T2統(tǒng)計量和Q統(tǒng)計量(也稱平方預(yù)測誤差,squared prediction error,SPE)是PCA 與KPCA 在過程監(jiān)控中常用的兩個統(tǒng)計量指標(biāo).T2統(tǒng)計量用于監(jiān)控模型空間的變化,而Q統(tǒng)計量用于監(jiān)控剩余空間的變化.然而,T2和Q統(tǒng)計量僅適用于高斯分布過程的監(jiān)控.借鑒文獻(xiàn)[5-8]提出的算法,本文采用核密度估計(kernel density estimation,KDE)方法推導(dǎo)核主元分析的控制限; 然后,比較了基于高斯分布統(tǒng)計量控制限的KPCA 和KPCA-KDE 在田納西伊斯曼(TE)過程中的故障檢測性能.結(jié)果表明,基于KPCA-KDE 的監(jiān)測方法比基于高斯假設(shè)的KPCA 具有更好的性能.
給定m個訓(xùn)練樣本Xk∈Rn,k=1,2,···,m,由非線性映射可以映射到高維特征空間.特征空間中的協(xié)方差矩陣為:
其中,λ是CF的特征值,滿足λ ≥0,a∈RF是對應(yīng)的特征向量(a≠0).特征向量可表示為映射數(shù)據(jù)點的線性組合如下:
用φ(X)兩邊同時左乘式(2):
將式(1)、式(3)代入式(4),得:
不直接對式(1)中CF的進(jìn)行特征值分解并找到特征值和主成分,而采用核技巧,定義一個m×m的核矩陣,如式(6):
對于所有i,j=1,···,m引入核函數(shù)的形式k(x,y)=(φ(x),φ(y))在式(5)使內(nèi)積的計算〈φ(xi),φ(xi)〉在特征空間中作為輸入數(shù)據(jù)的函數(shù).在特征空間中不需要進(jìn)行非線性映射和計算內(nèi)積.對于核矩陣,將式(5)重寫為:
注意,k=1,···,m,因此,式(7)可以表示為:
式(8)等價于特征值問題:
更進(jìn)一步,核矩陣可以表示為式(10):
其中,U是一個m×m矩陣,其中每個元素都等于1/m.Kctr的特征值分解相當(dāng)于 ?F中的PCA.本質(zhì)上相當(dāng)于解決式(9)中的特征值問題,它產(chǎn)生特征向量為α1,α2,···,αm,相應(yīng)的特征值為λ1≥λ2≥···≥λm.
由于核矩陣Kctr是對稱的,故導(dǎo)出的主元是標(biāo)準(zhǔn)正交的,即:
應(yīng)用內(nèi)核技巧,這可以表示為:
特征空間中第j個樣本的霍特林的T2,其KPCA故障檢測表達(dá)式為:
其中,Zi,j,i=1,···,q表示第j個樣本的主元得分,q為保留主元的數(shù)量,Ω-1表示保留主元對應(yīng)的特征值矩陣的逆.從T2的分布可估計其控制極限.如果所有采樣都是高斯分布的,那么F 分布的控制限對應(yīng)于一個顯著性水平 α,T2,可以表示為:
其中,Fq,m-q,α為顯著性水平 α對應(yīng)的自由度為條件下的F 分布臨界值.Choi 等人[9]還提出了對Q統(tǒng)計量的簡化計算.對于第j個樣本:
如果所有分?jǐn)?shù)都是正態(tài)分布,Q統(tǒng)計量在100(1-α)%置信水平的控制極限可以推導(dǎo)如下:
KDE 是從一組隨機(jī)樣本中使用合適的平滑概率密度函數(shù)對數(shù)據(jù)集進(jìn)行擬合的過程.它被廣泛應(yīng)用于概率密度函數(shù)(probability density functions,PDFS)的估計,特別是單變量的隨機(jī)數(shù)據(jù)[10-13].盡管這些統(tǒng)計特征的過程是多變量的,因為兩者都是單變量的,所以KDE可應(yīng)用于T2和Q統(tǒng)計.給定一個隨機(jī)變量y,從其m個樣本中獲得它的概率密度函數(shù)g(y),yj,j=1,···,m如下:
其中,k為核函數(shù),h為帶寬或平滑參數(shù).基于Cheng 等人[14]提出的選擇帶寬的最佳方法,本文在連續(xù)范圍內(nèi)對密度函數(shù)積分得到概率.因此,假設(shè)PDF 在指定的顯著水平上,y小于c的概率為:
T2Q
因此,監(jiān)測統(tǒng)計量(和 )的控制限可由各自的概率密度函數(shù)估算值計算:
對于一個以均值為中心的觀測樣本,使用訓(xùn)練例子計算相應(yīng)的核向量Xj,j=1,···,m如下:
然后將測試核向量標(biāo)準(zhǔn)化,如式(23)所示:
u1=1/m[1,···,1]T∈?m.計算相應(yīng)的得分向量(核主元)Ztt:
也可寫成:
用向量形式表示為:
其中,A=[α1,···,αm].
TR1.獲取正常運(yùn)行條件下的數(shù)據(jù)(NOC),使用數(shù)據(jù)集中代表不同變量的列的均值和標(biāo)準(zhǔn)差對數(shù)據(jù)進(jìn)行規(guī)范化;
TR2.決定內(nèi)核函數(shù)的類型并確定內(nèi)核參數(shù);
TR3.構(gòu)造NOC 數(shù)據(jù)的核矩陣并將其中心化;
TR4.獲得特征值及其對應(yīng)的特征向量,并將其按降序排列;
TR5.使用式(11)對特征向量進(jìn)行正交化;
TR6.使用式(13)得到非線性得分向量;
TR7.根據(jù)核化NOC 數(shù)據(jù),利用式(14)和式(16)計算監(jiān)控性能指標(biāo)(T2和Q);
TR8.用式(20)、式(21)確定T2和Q的控制限值.
TT1.獲取測試樣本Xtt并使用離線步驟1 中的均值和標(biāo)準(zhǔn)差進(jìn)行規(guī)范化;
TT2.用式(22)獲得樣本的核向量;
TT3.據(jù)式(23)對核向量進(jìn)行中心化;
TT4.據(jù)式(25)求出測試樣本的主元值;
TT5.將測試樣本的T2和Q與模型建立階段得到的各自控制極限進(jìn)行比較;
TT6.如果T2和Q都小于它們的監(jiān)控統(tǒng)計數(shù)據(jù),則過程處于控制之中.如果T2或Q超過控制限度,則過程失控,進(jìn)行故障識別,識別故障的來源.基于核主元分析與核密度估計的非線性過程故障監(jiān)測與識別流程圖見圖1.
圖1 基于KPCA-KDE 的故障監(jiān)測流程圖
在檢測到故障之后,重要的是要識別與故障關(guān)聯(lián)最緊密的變量,以便于確定故障發(fā)生的原因.
貢獻(xiàn)圖是一種常用的故障識別方法,它顯示了各變量對故障區(qū)域的高統(tǒng)計指標(biāo)值的貢獻(xiàn).然而,由于轉(zhuǎn)換后的過程變量與原始過程變量之間存在非線性關(guān)系,基于非線性PCA 的故障識別不像線性主成分分析那樣簡單.
在本文中,使用Petzold 等人[15]提出的敏感性分析原理識別故障變量.該方法基于Deng 等人[16]研究的方法,計算因參數(shù)變化而引起系統(tǒng)輸出變化的變化率.給定一個測試數(shù)據(jù)向量Xi∈?n,第i個變量對監(jiān)測指標(biāo)的貢獻(xiàn)定義為:
其中,ai=?T2/?xi,bi=?Q/?xi.
在使用多元統(tǒng)計方法的故障識別中,一種獲得變量貢獻(xiàn)的有效方法,即通過對定義T2和Q的函數(shù)在參考故障瞬間進(jìn)行階躍微分得到偏導(dǎo)數(shù)的方法來識別故障[17].
TE 過程是基于真實工業(yè)過程的模擬[18],具有較強(qiáng)的非線性和動態(tài)特性,Chiang 等人[19]把它用作評價和比較過程監(jiān)控的基準(zhǔn)過程.該過程由分離器、壓縮機(jī)、反應(yīng)器、汽提器和冷凝器5 個關(guān)鍵部件和編碼為A 到H 的8 個部件組成,共采樣960 個,變量53 個,其中連續(xù)變量22 個,3 個成分分析器采樣的成分測量值19 個,TE 過程中的操縱變量為12 個.采樣每隔3 分鐘進(jìn)行一次,而每個故障在采樣數(shù)160 處引入.McAvoy等人[20]闡述了干擾和基線操作的信息工藝條件.
T2Q
由于 和 數(shù)據(jù)具有互補(bǔ)性,因此聯(lián)合使用它們進(jìn)行故障檢測.由于可檢測到的過程變化并不總是同時發(fā)生在模型空間和剩余空間中,故當(dāng)任一監(jiān)控統(tǒng)計數(shù)據(jù)檢測到故障時,即檢測到故障.
由于從化學(xué)過程獲得的測量通常是有噪聲的,統(tǒng)計量可能會隨機(jī)地超過其控制限.這相當(dāng)于在沒有實際發(fā)生故障的情況下統(tǒng)計量可能超過控制限,即虛假警報.換句話說,一個統(tǒng)計量可能會超過它的控制限一次,但是如果沒有出現(xiàn)故障,在隨后的監(jiān)控中,統(tǒng)計量可能不會總是保持在它的控制限之上.相反,如果在連續(xù)的測量中統(tǒng)計量保持在其控制限以上,則可能發(fā)生故障.van Sprang 等人[21]使用故障檢測規(guī)則解決了假警報的問題.檢測規(guī)則也為比較不同的監(jiān)測方法提供了統(tǒng)一的依據(jù).在本文中,當(dāng)一個統(tǒng)計量在至少兩個連續(xù)監(jiān)控中超過其控制限時,即認(rèn)為發(fā)生了故障.所有實驗在使用基于此準(zhǔn)則的數(shù)據(jù)進(jìn)行測試時,都記錄了一個零的誤報率的數(shù)據(jù)來用于評估不同技術(shù)的監(jiān)視性能.性能監(jiān)控基于3 個指標(biāo): 故障檢出率(fault detection rate,FDR)、誤報率(false alarm rate,FAR)和檢測延遲(detection delay,DD).故障檢出率是正確識別的故障樣本的百分比:
其中,nfc為正確識別的故障樣本數(shù),ntf為故障樣本總數(shù).FAR是指在工廠正常運(yùn)行期間,正常樣本中被確定為故障(或異常)的百分比:
其中,nnf表示被識別為故障的正常樣本的數(shù)量,ntf為正常樣本的總數(shù)量.檢測延遲為檢測到引入故障之前經(jīng)過的時間.
使用TE 流程的故障11 顯示了基于KPCA 的故障檢測.故障11 是反應(yīng)堆冷卻水入口溫度的隨機(jī)變化,圖2 顯示了故障的監(jiān)控圖.實線代表監(jiān)測指標(biāo),紅線和綠線分別代表基于高斯分布和基于KDE 的99%置信水平的控制限值.在T2控制圖中,基于KDE 的控制限值都低于基于高斯分布的控制限值.即與基于高斯分布的控制限相比,監(jiān)測指標(biāo)超出基于KDE 的控制限的程度更大.意味著使用基于KDE 的KPCA 技術(shù)的控制限比使用基于高斯分布的控制限具有更高的監(jiān)控性能.
圖2 故障11 的監(jiān)視圖
圖3 顯示了故障14 在ω=40時KPCA 和KPCAKDE 的監(jiān)視圖表.該故障表現(xiàn)為反應(yīng)堆冷卻水閥卡死,大多數(shù)統(tǒng)計過程監(jiān)測方法都能很容易地檢測出該故障.在ω=40時,KPCA 和KPCA-KDE 結(jié)果一樣,在ω=10時,KPCA 記錄的誤報率為8.13%,而KPCA-KDE 的仍為零.此外,當(dāng)保留25 個主元個數(shù)時,KPCA 記錄的誤報率也同樣高.相反,KPCA-KDE 方法仍然沒有記錄任何假警報.通過研究KPCA 和KPCA-KDE 所有20 個故障的檢出率,結(jié)果表明,與相應(yīng)的基于高斯分布的方法進(jìn)行比較,KDE 具有較高的故障檢出率; 此外,基于KDE 的檢測延遲等于或低于其他方法.這意味著基于KDE 控制限的方法比基于高斯分布的同類方法更早地檢測出故障.因此,相對于使用基于高斯假設(shè)的控制限,將基于KDE 的控制限方法與基于KPCA 的故障檢測方法相結(jié)合,可提供更好的監(jiān)控效果.
圖3 ω=40故障14 基于KPCA 的監(jiān)視圖
以故障11 為例,顯示了基于KPCA-KDE 的故障識別.故障11 的出現(xiàn)引起反應(yīng)堆冷卻水流量的變化,從而導(dǎo)致反應(yīng)堆溫度波動.在圖4 中所示的樣本300處,基于T2和Q的貢獻(xiàn)圖均正確識別了兩個故障變量.變量9 是反應(yīng)堆溫度,變量32 對應(yīng)于反應(yīng)堆冷卻水流速.盡管控制回路有可能在經(jīng)過較長時間后補(bǔ)償反應(yīng)堆溫度的變化,但是通過貢獻(xiàn)圖可以正確識別出在引入故障后早期受影響的兩個變量的波動.
圖4 故障11 的貢獻(xiàn)圖
為了測試KPCA-KDE 技術(shù)的性能,通過改變兩個參數(shù)進(jìn)行故障檢測: 帶寬和保留的主元數(shù)量.表1 顯示,當(dāng)保留25 個主元時,KPCA 記錄的FAR 值也同樣高.相反,KPCA-KDE 方法仍然沒有記錄任何假報警.因此,除了提供更高的FDR 和更早的檢測外,KPCAKDE 比基于高斯假設(shè)的KPCA 方法監(jiān)控性能更好,當(dāng)故障及早發(fā)現(xiàn)時,操作人員將有更多的時間找出故障的根本原因,以便采取補(bǔ)救措施.其次,雖然有方法可獲得開發(fā)過程監(jiān)控模型的最優(yōu)設(shè)計參數(shù),但不能保證最優(yōu)值一直使用.造成這種情況的原因可能是人員缺乏經(jīng)驗,以及對流程本身缺乏了解.因此,監(jiān)控方法性能越好,就更利于過程監(jiān)控.
表1 在保留不同數(shù)量主元時的監(jiān)測結(jié)果
本文研究了基于KPCA-KDE 技術(shù)的非線性過程故障檢測與識別.在這種方法中,用于構(gòu)建控制圖的控制限是直接從監(jiān)測指標(biāo)的概率密度函數(shù)得到的,而不是基于高斯分布的控制限.將該方法應(yīng)用于田納西伊斯曼過程,并與基于高斯假設(shè)的核主成分分析方法進(jìn)行了性能比較.結(jié)果表明,基于KPCA-KDE 比基于高斯分布的KPCA 檢測到的故障更多、更早.研究還表明,基于KDE 的控制限比基于高斯假設(shè)的控制限更符合監(jiān)測統(tǒng)計量的實際分布,因此具有更好的監(jiān)控性能.接下來的研究工作是設(shè)計更優(yōu)化的方法,既在復(fù)雜的環(huán)境中更能迅速準(zhǔn)確的檢測出故障,此外,將KPCAKDE 結(jié)合自適應(yīng)算法也是一個有價值的研究方向.