王偉兵
河鋼股份有限公司邯鄲分公司信息自動(dòng)化部,河北 邯鄲 056000
隨著科學(xué)技術(shù)的發(fā)展,現(xiàn)代工業(yè)系統(tǒng)的規(guī)模和復(fù)雜程度也日益增加。熱處理爐設(shè)備[1]在退火過(guò)程中有著十分重要的地位,其運(yùn)行狀態(tài)對(duì)產(chǎn)品質(zhì)量產(chǎn)生了直接的影響。因此,對(duì)?;癄t的運(yùn)行過(guò)程監(jiān)測(cè)方法的研究顯得十分重要。多元統(tǒng)計(jì)的方法[2]是目前較為常用的過(guò)程監(jiān)測(cè)方法,慢特征分析(SFA)作為一種全新的特征提取和降維方法,近年來(lái)受到了廣泛關(guān)注。它能夠從時(shí)序信號(hào)中提取出變化最緩慢的成分,有效表征系統(tǒng)所固有的本質(zhì)屬性,這些成分被稱為慢特征。然而傳統(tǒng)的SFA只是對(duì)數(shù)據(jù)做了一個(gè)映射變換,并不能實(shí)現(xiàn)數(shù)據(jù)的降維,在實(shí)際的熱處理設(shè)備工業(yè)背景下,生產(chǎn)過(guò)程復(fù)雜,數(shù)據(jù)變量少則數(shù)十個(gè),多則上千個(gè)。即使變量維度不大,如果盲目地放入算法中,將不能保證監(jiān)測(cè)的有效性,可能會(huì)出現(xiàn)漏報(bào)或誤報(bào)的現(xiàn)象,對(duì)于熱處理爐的過(guò)程監(jiān)測(cè)存在一定的挑戰(zhàn)性。
在SFA方法的基礎(chǔ)上,文章提出了ReliefF-SFA方法,將原有方法進(jìn)行擴(kuò)展,先對(duì)數(shù)據(jù)進(jìn)行映射變換得到慢特征;然后采用ReliefF方法選取權(quán)重大的變量放入主子空間,其余的放入殘余子空間,使其能夠判斷是否發(fā)生故障。
慢特征分析(SFA)是Wiskott[3]提出的一種從快速變化的時(shí)序信號(hào)中提取不變或慢變特征的方法,它作為一種新的特征提取方法受到廣泛關(guān)注。慢特征表征了數(shù)據(jù)所屬事物的固有性質(zhì),在時(shí)序信號(hào)的分析中發(fā)揮了重要的作用,其通過(guò)將主元分析應(yīng)用于輸入信號(hào)的白化和白化后信號(hào)的一階時(shí)間導(dǎo)數(shù),從而提取出一組按時(shí)間慢度從小到大排列的不相關(guān)特征。因此,慢特征分析具有挖掘工業(yè)過(guò)程真實(shí)情況的潛力,其詳細(xì)步驟可參照文獻(xiàn)[4-5]。
FReliefF算法是基于Relief算法[6-7]的一種特征選擇算法,Relief作為經(jīng)典的特征權(quán)重算法,根據(jù)各個(gè)特征與類別的相關(guān)性賦予各個(gè)特征權(quán)重,但是其缺點(diǎn)是局限于處理二分類問(wèn)題。
ReliefF算法應(yīng)用于多類問(wèn)題,需要每次從樣本訓(xùn)練集里面隨機(jī)抽取某一樣本D,然后從同于D類的樣本集中選出D的k個(gè)近鄰樣本,從每個(gè)不同于D類的樣本集中均選出k個(gè)近鄰樣本,接著特征權(quán)重全部更新,其表達(dá)如下式:
式中:diff(A,Ri,Rj)為樣本Ri和樣本Rj在特征A上的差,其計(jì)算公式為Mj(C),表示C中的第j個(gè)最鄰近樣本。其表達(dá)如下式:
相關(guān)學(xué)者在Relief基礎(chǔ)上提出了ReliefF算法,從而解決了多分類問(wèn)題。ReliefF的偽代碼如下所述。
通過(guò)對(duì)SFA算法的分析可知,它只是完成了一次投影變換,使得輸出代表了原數(shù)據(jù)最本質(zhì)的特征,然而其無(wú)法去除數(shù)據(jù)冗余特征。ReliefF算法能計(jì)算出每個(gè)特征的權(quán)重值,將對(duì)分類起到積極作用的特征權(quán)重予以保留,從而實(shí)現(xiàn)數(shù)據(jù)的降維。文章提出ReliefF-SFA的方法,基本思路是通過(guò)慢特征分析將正常工況下的數(shù)據(jù)和故障數(shù)據(jù)轉(zhuǎn)換成對(duì)應(yīng)的慢特征,并給這些不同類的特征打上標(biāo)簽,作為ReliefF算法的輸入,再通過(guò)ReliefF算法,計(jì)算出每個(gè)特征的權(quán)重值,該特征權(quán)重越大,則該特征的分類能力越強(qiáng)。最后通過(guò)設(shè)置閾值,篩選出對(duì)故障識(shí)別能力強(qiáng)的特征放進(jìn)主子空間中,將對(duì)故障識(shí)別能力弱的特征放進(jìn)殘差空間中。
(1)對(duì)m維輸入向量進(jìn)行中心標(biāo)準(zhǔn)化得到x(t)。
(2)輸入矩陣進(jìn)行白化:z(t) =S(x(t)),矩陣S是白化矩陣,可由對(duì)x(t)進(jìn)行主成分分析確定。
且λ1≤λ2≤...≤λJ,則輸出信號(hào)如下:
(4)通過(guò)公式(1)將正常工況下的數(shù)據(jù)和故障數(shù)據(jù)轉(zhuǎn)換成對(duì)應(yīng)的慢特征,并給這些不同類的特征打上標(biāo)簽,作為ReliefF算法的訓(xùn)練樣本集。
(5)設(shè)置ReliefF算法中樣本抽樣次數(shù)為c,近鄰點(diǎn)個(gè)數(shù)設(shè)置為k,并將所有特征的權(quán)重值置0。
(6)執(zhí)行c次循環(huán),每次循環(huán)執(zhí)行以下步驟:①在特征yj的樣本集中隨機(jī)選擇一個(gè)樣本R。②從同類樣本中找到k個(gè)最近鄰樣本Hj,從每個(gè)不同類(C≠class(R))樣本中都找到k個(gè)最近鄰樣本Mj。③循環(huán)計(jì)算R的m個(gè)不同特征的權(quán)值(yj為其中某一個(gè)特征):
式中:yj為某一個(gè)特征;W(yj)為特征權(quán)重;diff (yj,Ri,Hj)為樣本R與近鄰樣本Hj在第yj個(gè)特征上的距離;p(C)為類的分布概率。
(7)計(jì)算出所有的特征權(quán)重后,采取貢獻(xiàn)率的方法設(shè)置閾值δ,若W(yj)>δ,則放入主子空間Y中,其余的放入殘余空間Ye中。
針對(duì)熱處理爐工作過(guò)程,文章主要選取了?;癄t的入口溫度、輻射管的溫度、風(fēng)機(jī)電流等36個(gè)變量作為主要監(jiān)測(cè)的過(guò)程數(shù)據(jù);按照5s的間距取,一共形成1500組正常數(shù)據(jù)。利用正常的1000組數(shù)據(jù)對(duì)慢特征分析進(jìn)行建模,轉(zhuǎn)變成1000個(gè)慢特征,并標(biāo)記為類型0。經(jīng)查閱,歷史故障數(shù)據(jù)集一共有兩種故障:第一種故障是加熱一區(qū)的傳感器測(cè)量值偏移故障;第二種故障是加熱三區(qū)的傳感器測(cè)量值偏移故障。
從這兩種故障中提取1000組數(shù)據(jù),轉(zhuǎn)變成慢特征并標(biāo)記為類型1、類型2。將1000組正常數(shù)據(jù)對(duì)應(yīng)的慢特征和這兩種故障數(shù)據(jù)對(duì)應(yīng)的慢特征組成3000×36的數(shù)據(jù)矩陣,作為ReliefF算法的輸入,設(shè)置ReliefF算法中的k值為10。其得到的36個(gè)特征權(quán)重?cái)?shù)值按順序排列后如圖1所示。按照貢獻(xiàn)率的原則,確定閾值為0.01,即權(quán)重大于0.01的放入主子空間(共27個(gè)),其余放入殘余空間。
圖1 不同特征權(quán)重柱狀圖
為了驗(yàn)證基于ReliefF-SFA方法過(guò)程監(jiān)測(cè)的有效性,文章將ReliefF-SFA算法與SFA算法進(jìn)行比較,并通過(guò)監(jiān)測(cè)氣墊爐運(yùn)行過(guò)程來(lái)驗(yàn)證該方法的有效性。該數(shù)據(jù)是從某生產(chǎn)線上以5s為間隔采集的數(shù)據(jù),包括正常數(shù)據(jù)1500個(gè)(1000個(gè)用于建模,500個(gè)用于測(cè)試)??刂葡逓?8%的置信度,如果統(tǒng)計(jì)量的值超過(guò)控制限,則表示發(fā)生了故障;如果統(tǒng)計(jì)量的值沒(méi)有超過(guò)控制限,則表示系統(tǒng)正常運(yùn)行。在該試驗(yàn)中,在第50個(gè)數(shù)據(jù)后引入故障,兩種方法的故障檢測(cè)率如表1所示。以故障2為例,ReliefF-SFA與SFA算法的比較如圖2、圖3所示。
表1 SFA和RSFA的故障檢測(cè)率
圖2 SFA在故障2下的監(jiān)測(cè)效果圖
圖3 ReliefF-SFA在故障2下的監(jiān)測(cè)效果圖
從圖2、圖3中可以看出,ReliefF-SFA方法比SFA方法能更好地檢測(cè)出故障,在前50個(gè)點(diǎn)中,兩種方法的統(tǒng)計(jì)量都位于控制限之下,即都是正常數(shù)據(jù)。然而在SFA中,第50個(gè)點(diǎn)后的統(tǒng)計(jì)量不全超過(guò)控制限,存在漏報(bào)的問(wèn)題,通過(guò)比較,ReliefF-SFA在兩個(gè)子空間能很好地檢測(cè)出故障。
文章針對(duì)慢特征分析方法不能降維的問(wèn)題,提出一種基于ReliefF-SFA慢特征分析的過(guò)程監(jiān)測(cè)方法,首先對(duì)數(shù)據(jù)進(jìn)行投影變換,得到了慢特征;然后將正常和故障數(shù)據(jù)的慢特征放入ReliefF算法中,選取了對(duì)故障識(shí)別能力強(qiáng)的一些特征,實(shí)現(xiàn)了維度的下降。