董潔 張偉 彭開香 馬亮
質量異常的故障檢測與量化評估技術是保證安全生產及獲得可靠產品質量的有效手段,是當前國際過程控制領域的研究熱點之一[1].復雜工業(yè)過程的非線性、高維度特性給其應用帶來了極大的挑戰(zhàn).因此,有必要建立準確可靠的監(jiān)測模型質量異常的故障診斷,為現(xiàn)場維護提供支持.
隨著分布式控制系統(tǒng)(Distributed control systems,DCS)的廣泛應用,多元統(tǒng)計過程監(jiān)測(Multivariate statistical process monitoring,MSPM)方法得到了廣泛的關注[2?3].主成分分析(Principal component analysis,PCA)作為MSPM 的典型方法,通過將高維空間分解為主元子空間和殘差子空間,進而采用T2和平方預測誤差(Square predicted error,SPE)統(tǒng)計量進行檢測,近年來廣泛地應用到故障檢測領域[4?5].然而,基于PCA 的故障檢測技術聚焦于故障是否發(fā)生,而忽略了由過程變量引起的故障是否會影響最終產品的質量.于是,以偏最小二乘(Partial least squares,PLS)、典型相關分析(Canonical correlation analysis,CCA)等為核心技術的質量異常檢測(Quality abnormality detection,QAD)研究成果不斷涌現(xiàn).PLS 立足于兩組變量之間的協(xié)方差最大化.近年來基于PLS 及其相關擴展模型的質量異常檢測技術層出不窮.Zhou等[6]將PLS 提取過程變量中與質量相關空間的優(yōu)勢與主成分分析相結合,構建了全潛結構投影(Total-partial least squares,T-PLS)模型,實現(xiàn)了質量異常檢測.Ding等[7]針對靜態(tài)過程,提出了一種改進偏最小二乘(Modified partial least squares,MPLS)算法,提高了分解后子空間可解釋性和關鍵性能指標檢測能力.Huang等[8]通過核偏最小二乘法(Kernel partial least squares,KPLS)將主成分分析與質量異常檢測相結合,提高了質量監(jiān)測的有效性.Wang等[9]從模型魯棒性的角度將正交信號校正(Orthogonal signal correction,OSC)與改進偏最小二乘(Modified partial least square,MPLS)方法相結合,提高了模型對微小故障的敏感性,增加了建模的復雜度,但其檢測性能與MPLS相當.Jiang等[10]通過開發(fā)基于MATLAB 的面向關鍵性能指標的故障檢測工具箱,對基于多變量統(tǒng)計分析的眾多面向關鍵性能指標監(jiān)測方法從建模原理、準確性、檢測敏感性等多角度對比分析,進一步驗證了MPLS 具有高計算效率,OSC-MPLS 具有良好的故障檢測能力和靈敏性.與PLS不同的是,CCA 通過最大化兩組變量的相關系數來獲得質量相關的投影矩陣,取得了大量研究成果[11].Chen等[12]將CCA 應用于動態(tài)過程殘差信號的構建,提高了模型對動態(tài)過程的檢測性能.Zhang等[13]將CCA與分布式思想相結合,改善了傳統(tǒng)的質量異常檢測的效果.但是,復雜工業(yè)過程的數據往往具有非線性、非高斯等特性,傳統(tǒng)的MSPM 方法遭遇一定瓶頸.支持向量數據描述(Support vector data description,SVDD)算法最早由Tax等[14]提出.由于其對具有非線性、非高斯特性的數據具有很好的適應能力,已經廣泛地應用到復雜工業(yè)過程的故障檢測領域.為了提高模型的檢測能力,基于SVDD 的故障檢測方法不斷涌現(xiàn).Khediri等[15]將核技術與SVDD相結合,實現(xiàn)了多模態(tài)過程的非線性故障檢測.Zhang等[16]采用間隙度量進行數據預處理,實現(xiàn)了流程工業(yè)的廠級監(jiān)控.Zhu等[17]采用粒子群優(yōu)化算法對SVDD 進行改進,實現(xiàn)了檢測模型的自適應更新,具有重要的現(xiàn)實意義.
故障檢測雖然能夠通過報警提示質量異常,但卻不能給出故障根源、傳播路徑以及故障程度的量化信息.近年來國內外眾多學者對相關問題進行了大量研究[18?19].但是,這些研究專注于故障根源與傳播路徑辨識,缺少對故障進行準確的量化評估,輕則造成維護費用的增加,重則會導致故障的蔓延和惡化.因此,不同于故障根源與傳播路徑辨識,對質量異常故障進行合理評估能夠為維護人員提供更好的決策支持.Luo等[20]提出了一種采用兩級判別指標的方案,將故障劃分為嚴重故障、輕微故障和無害故障,實現(xiàn)了故障等級評估.Song等[21]將過程變量空間劃分為3 個性能相關的子空間,并在此基礎上進行了故障的嚴重程度分析.Yang等[22]在操作性能評估的過程中采用加權主成分分析(Weighted principal component analysis,WPCA)的方法針對系統(tǒng)不同的性能狀態(tài)分別建立檢測模型,采用T2統(tǒng)計量構建健康指標,實現(xiàn)了對系統(tǒng)狀態(tài)的等級劃分.以上方法雖然能夠從檢測的角度對故障進行分析,但是并沒有給出精確的量化評估結果.為此,Guo等[23]采用拉普拉斯特征映射(Laplacian eigenmap,LE)進行低維投影,得到了更加準確的退化指標.Yan等[24]在評估指標的構建過程中綜合考慮不同操作條件,實現(xiàn)了多工況的狀態(tài)監(jiān)測.Sun等[25]在設備健康監(jiān)測中采用了核稀疏表示的局部線性嵌入算法(Kernel sparse representation–local linear embedding algorithm,KS-LLE)對軸承的不同故障程度進行了量化評估,得到了良好的評估效果.Atamuradov等[26]采用基于特征融合的監(jiān)測方法,實現(xiàn)了電機系統(tǒng)的狀態(tài)評估.上述方法雖然能夠實現(xiàn)量化評估,但并未分辨出故障是否造成質量異常,進而不能提供準確合理的維護建議.
針對上述問題,本文提出了一種新的工業(yè)過程質量異常檢測與故障量化評估(Fault quantitative assessment,FQA)方法.對比已有的工作,本文的主要貢獻歸納如下: 1)采用彈性網絡(Elastic net,EN)算法構建了更加可靠的質量相關的變量候選集,能夠為后續(xù)的檢測與評估提供支持;2) 采用CCA 算法強化了候選集變量與質量變量的關系,并通過SVDD 實現(xiàn)了質量異常檢測;3)從優(yōu)化近鄰點距離的角度改進了局部線性嵌入(Local linear embedding,LLE)算法,并提出了CCA-ELLE 算法,將質量異常的故障樣本投影到二維空間進行量化分析,實現(xiàn)了準確的故障量化評估.
復雜工業(yè)過程測量變量較多,變量間存在多重共線性.為了降低候選變量集的信息冗余,需要對過程變量進行特征選擇.為了更好地結合質量相關信息,考慮采用正則化的方法進行變量選擇.
給定輸入矩陣X∈Rn×m,n為樣本個數,m為變量維數,Y∈Rn×1代表輸出變量.x∈R1×m,y∈R1×1為樣本在X和Y中對應的元素.標準的最小二乘算法的思想是最小化殘差平方和
式中,s決定EN 的收縮程度.當s →0 時全部的變量會被消除.相反,當s →∞時算法逼近標準的最小二乘算法.參數η可以調節(jié)兩種懲罰項的權重,當η=1 時該算法為基本的嶺回歸算法,當η=0 時為基本的LASSO 算法.本文將過程變量作為EN算法的輸入變量,質量變量作為輸出變量,通過合理選擇收縮參數s,構建質量相關的最優(yōu)變量候選集.
為了增強過程變量與質量變量的關系,同時降低數據的多重共線性,采用CCA 算法構建質量相關的特征矩陣.首先,獲得一對投影向量α和β,使得隨機變量u=αTX與v=βTY具有最大的相關系數ρ=corr(u,v).目標函數為
式中,特征值λ為隨機變量u與v的相關系數.由于特征矩陣由過程變量構成,因此只需計算投影向量α.
取最大的前d項特征值對應的特征向量作為投影向量
其中,I(1:d) 為d維單位矩陣,Woffline∈Rp×d,p為變量維度,d為投影變量的維度.
在線測試階段,測試樣本Xtest經過如下處理:
式中,C可以調節(jié)容錯率,R為超球體的半徑,a為超球體的中心.通過拉格朗日乘子法并轉化為對偶問題,則目標函數轉化為
式中,σi(i=1,···,n) 為樣本ui對應的拉格朗日乘子.σi0 的樣本稱為支持向量.內積的計算引入了核函數 (ui,uj)=exp(?∥ui ?uj∥/ρ2),參數ρ可根據經驗調節(jié).因此,得到超球體中心a和半徑R
于是,測試樣本是否為故障狀態(tài)可以通過如下方式判別:
給定測試樣本的最優(yōu)典型相關變量集Utest∈Rl×d,計算如下:
式中,l代表測試樣本數量.LLE 算法包括以下3個步驟[24]:
步驟1.獲取每個樣本的近鄰點集合.樣本的近鄰點集合包含k項元素,可以通過k近鄰的方法得到.
步驟2.計算樣本與其近鄰點的連接權重w,可以通過最小化重構誤差
得到權重矩陣W∈Rl×l,其中,Ui∈Utest為選取的樣本近鄰點,wi為近鄰點對應的權重向量.在權重矩陣的取值過程中,不屬于近鄰域的樣本權重為零.在接下來的運算過程中W保持不變.
步驟3.給定yi為Ui的低維空間投影,通過最小化重構誤差得到目標函數
目標函數等價于
LLE 算法只考慮了重構誤差,計算權值的條件為近鄰點之間保持線性關系,也就是只考慮了近鄰點間的拓撲結構.在構建近鄰點集合之后,并沒有考慮樣本數據與其近鄰點的距離信息.因此,樣本點與其距離較小的近鄰點的權重可能會比與較遠距離近鄰點的權重小.這將會導致通過LLE 建立的模型不準確,并且會嚴重影響評估的準確性.
為此,本文提出了增強LLE (Enhansed LLE,ELLE)算法.建立如下目標函數
式中,JW是LLE 算法的目標函數.JQ為反映近鄰點與樣本點距離的目標函數,τ為調節(jié)兩部分權重的參數.矩陣化表示為
式中,Q∈Rl×l表示樣本點與其近鄰點距離的權重矩陣.為了提高算法對非線性數據的處理能力,Q矩陣元素的計算引入了核方法
其中,Ui和Uj為不同樣本點.權重矩陣Q增強了樣本點與其近鄰點的距離.由于距離的計算函數為減函數,距離較小的近鄰點對應的值相比于距離較遠的近鄰點對應的值更大.參數δ可以調節(jié)衰減率.
ELLE 算法的目標函數表示為
后續(xù)的計算過程與LLE 算法相同.
與LLE 算法類似,ELLE 算法會保留原始數據的拓撲結構,低維數據保留著高維數據的局部幾何結構.定義正常狀態(tài)的樣本中心點與原點構成的方向向量為,測試樣本點與原點構成的方向向量為.定義,故障的嚴重程度指標定義為SI(i),取值范圍為 [ 0?,360?].計算方法為
其中,arccos(·,·) 為兩方向向量內積的反余弦函數,此處計算的值為角度.由于故障程度定義在二維空間,指標計算要在 [ 0?,360?] 的范圍內.評估方法示意圖如圖1 所示,樣本故障程度滿足SI(2)>SI(1).為了更直觀地進行比較,使評估結果更具有普遍意義,同時提高評估結果的精度和可靠性,采用每一種狀態(tài)的樣本中心點代表當前狀態(tài),對評估結果進行歸一化.
圖1 評估指標示意圖Fig.1 Schematic diagram of evaluation indicator
本文提出的質量異常檢測與故障量化評估框架包含離線建模和在線檢測兩部分.
2.3.1 離線階段
1)獲取正常狀態(tài)的過程數據,并進行數據預處理(z-score 標準化,數據平滑處理).
2)采用EN 算法構建質量相關的變量候選集,為之后的質量異常檢測與故障量化評估提供支持.
3)采用CCA 算法獲得投影矩陣Woffline∈Rp×d和變量集Uopt,同時將Uopt送入SVDD 模型中訓練檢測模型.
2.3.2 在線階段
1)獲取測試數據Xtest∈Rl×p,并進行數據預處理(z-score 標準化,數據平滑處理).
2)送入已建立的CCA 模型,獲得典型相關特征矩陣Utest∈Rl×d,進而送入SVDD 模型進行判別.根據式(16)的計算結果,如果出現(xiàn)質量異常,則進行下一步,否則,繼續(xù)執(zhí)行檢測部分.
3)采用ELLE 進行投影,得到二維空間表示的樣本Ytest∈Rl×2,進而獲得表征測試樣本的方向向量和表征正常樣本的方向向量.
4)計算測試樣本間方向向量的夾角,即故障的量化評估指標SI(i).
所提方案的流程圖如圖2 所示.
圖2 質量異常檢測與故障量化評估流程圖Fig.2 Flowchart of QAD and FQE
TE (Tennessee-Eastman)過程由5 個主要單元: 反應器、冷凝器、壓縮機、分離器、汽提塔組成;存在8種成分,其中,A,B,C,D,E 為反應物,G,H 為產物,F 為副產物[28].本文的實驗是在模態(tài)1 的基礎上完成的.22 個過程變量作為過程監(jiān)測的目標變量,詳細情況見表1.TE 過程的Simulink 仿真模型含有28 中不同的故障類型,每一種故障可以通過設置參數來決定是否注入.對同一種類型的故障可以通過設置參數來調節(jié)注入故障的嚴重程度(Fault severity,FS),FS 的調節(jié)范圍為 [ 0,1],代表過程從 FS=0 到 FS=1 的不同狀態(tài).
表1 TE 過程變量Table 1 Process variables in the TE process
本文提出的算法存在兩個主要參數: 特征維數d和近鄰點數量k.下面分別討論各參數對算法評估效果的影響.
1) CCA 特征融合后的特征維數d
較少的特征維數會破壞原始數據的近鄰結構,而維數較高則會引入冗余信息.在參數分析過程中,分別將d設置為3,4,5,6,7.仿真結果見圖3(a).
圖3 參數分析Fig.3 Analysis of parameters
2)近鄰點數量k
近鄰點選擇較少會破壞原始數據的近鄰結構,近鄰點選擇較多則會忽略數據的局部特征.在參數分析過程中,分別將k設置為16,18,20,22,24.仿真結果如圖3(b).
圖3 中橫坐標代表從 FS=0 到 FS=1 的6種不同的故障工況,縱坐標代表量化評估結果.為了進行準確的量化評估,評估結果需要滿足兩個條件:1)不同過程狀態(tài)的評估結果需符合實際故障程度;2)相鄰過程狀態(tài)的評估結果間隔均勻.可以看出,圖3(a)中d=5 的曲線和圖3(b)中k=20 的曲線均為最優(yōu)情況.因此本文的特征維數設置為d=5,近鄰點數量設置為k=20.
采用EN 算法對正常狀態(tài)的數據樣本進行分析,選取產物G 的成分含量作為質量變量,式(5)中的參數設置為η=0.2,構建了質量相關的最優(yōu)變量候選集X={x1,x2,x3,x4,x7,x10,x13,x20,x21}.為了驗證所提方案,本文選取TE 過程標準故障類型2 進行驗證,通過對TE 過程注入不同程度的故障,獲得了相應的測試數據.具體情況見表2.
表2 驗證數據集Table 2 Data sets used for validation
為了驗證CCA-SVDD 算法的有效性和優(yōu)越性,選擇廣泛應用于質量異常檢測的KPLS 算法進行對比,控制限的置信度設置為95%.兩種方法檢測結果如圖4 所示.
圖4 兩種方法的故障檢測結果Fig.4 Detection results of the two methods
從表3 的對比結果可以看出,傳統(tǒng)的KPLS 方法存在較高的誤報率,而本文提出的CCA-SVDD算法在保證高檢測率與較低計算復雜度的前提下,大大降低了誤報率,檢測效果良好.上述實驗均在MATLAB R2019b 平臺上完成,硬件配置為: i5@1.6 GHz,RAM 6 GB.
表3 兩種方法的性能比較Table 3 Comparison of the two methods
為了驗證所提故障量化評估方案的有效性,本文采用TE 過程標準故障類型2 進行驗證,式(25)的參數設置為τ=0.8.表2 中的生成故障數據集對應的FD 值滿足遞增的關系.
首先,采用TE 過程標準故障類型2 進行驗證.將正常狀態(tài)(*)與故障狀態(tài)(·)的數據用兩種標識符號來表示,從圖5 中可以看出,兩種狀態(tài)的樣本點具有清晰的樣本中心,并且故障狀態(tài)樣本點的分布說明了過程從正常狀態(tài)到故障狀態(tài)是有向分布的,而且樣本點與原點構成的方向向量能夠很好地反映狀態(tài)的轉變過程.
圖5 CCA-ELLE 二維投影Fig.5 CCA-ELLE-based two-dimensional projection
圖6 是通過TE 模型生成的不同程度故障數據對所提方案進行驗證的結果.圖中不同的故障程度采用不同類型的標識符號表示.可以看出,隨著故障程度的不斷增加,測試樣本點與原點構成的方向向量具有連續(xù)變化的趨勢,并且隨著數據的不斷延伸,不同類型的樣本點可清晰地分開.
圖6 兩種方法的二維投影Fig.6 Two-dimensional projection results of the two methods
圖7(a)和圖7(b)為兩種方法的量化評估結果.圖7 (c)和圖7(d)為歸一化的評估結果.可以看出,評估指標越接近1,故障狀態(tài)偏離正常狀態(tài)越大,故障程度越高.并且傳統(tǒng)的LLE 算法對于故障程度4 的評估結果與案例不符.而本文改進的CCAELLE 算法可以準確地量化評估不同程度的故障,而且不同程度的故障樣本點的間隔較均勻,與驗證案例相符.
圖7 兩種方法的量化評估結果Fig.7 Evaluation results of the two methods
本文提出了一種新的工業(yè)過程質量異常檢測與量化評估框架.首先,采用彈性網絡算法篩選出可靠的質量相關的變量候選集;其次,提出了CCASVDD 算法進行質量異常監(jiān)測,并取得良好效果;再次,從優(yōu)化近鄰點距離的角度提出了ELLE 算法,并與CCA 相結合實現(xiàn)了質量異常故障的量化評估;最后,通過TE 過程進行仿真驗證,并與傳統(tǒng)的方法進行對比分析,實驗結果驗證了所提方法的優(yōu)越性和有效性.下一步的工作是將所提框架應用到多故障多種程度的質量異常檢測與故障量化評估中.