林 濤,張 達(dá),王建君
(河北工業(yè)大學(xué)人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300130)
傳感器廣泛應(yīng)用于各種控制系統(tǒng)中,以獲取各種物理量的數(shù)據(jù)。由于惡劣的工況環(huán)境,電池耗盡,自然老化等各種因素導(dǎo)致控制系統(tǒng)中的傳感器易發(fā)生故障。故障傳感器采集的數(shù)據(jù)可靠性低,這些可靠性低的數(shù)據(jù)會(huì)造成控制系統(tǒng)后續(xù)的決策、判斷失去意義[1]。因此,從傳感器的輸出數(shù)據(jù)中提取故障信號(hào)以便及時(shí)的對(duì)其故障進(jìn)行診斷,具有很大的現(xiàn)實(shí)意義。
文獻(xiàn)[2]利用小波變換來判斷傳感器是否發(fā)生故障,如果發(fā)生故障則用BP神經(jīng)網(wǎng)絡(luò)對(duì)傳感器輸出數(shù)據(jù)進(jìn)行預(yù)測(cè),通過計(jì)算預(yù)測(cè)值與實(shí)際輸出值之間的殘差大于閾值的頻率進(jìn)行故障類型的識(shí)別。該方法的小波的基函數(shù)一旦選定,就會(huì)使得模型的轉(zhuǎn)換特性固定,從而導(dǎo)致模型的自適應(yīng)能力變?nèi)酢N墨I(xiàn)[3]對(duì)傳感器的輸出信號(hào)進(jìn)行經(jīng)驗(yàn)?zāi)B(tài)分解,得到一組模態(tài)函數(shù),將每個(gè)模態(tài)函數(shù)的樣本熵作為傳感器的故障特征,這些特征通過SRC分類器分類得到傳感器的故障狀態(tài)。該方法特征提取時(shí)所用的樣本熵具有單一尺度和無法描述局部排列結(jié)構(gòu)的局限性。文獻(xiàn)[4]與文獻(xiàn)[5]分別通過徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(RBF)和廣義回歸神經(jīng)網(wǎng)絡(luò)(GRNN)對(duì)時(shí)序數(shù)據(jù)預(yù)測(cè),如果預(yù)測(cè)值與傳感器實(shí)際輸出之間的差值超過閾值就將傳感器的運(yùn)行狀態(tài)判定為故障。這兩種方法將殘差與固定值進(jìn)行比較,只能診斷出傳感器有沒有發(fā)生故障,無法診斷出傳感器發(fā)生了何種故障,在故障診斷的功能上具有一定的局限性。
集成經(jīng)驗(yàn)?zāi)B(tài)分解(EEMD)是一種新型自適應(yīng)信號(hào)處理方法,無需設(shè)置小波基函數(shù),適用于分析處理非平穩(wěn)、非線性信號(hào)[6],分解后的本征模態(tài)分量有利于傳感器輸出數(shù)據(jù)宏觀結(jié)構(gòu)信息的提取。排列熵能夠反應(yīng)時(shí)序數(shù)據(jù)的局部排列結(jié)構(gòu)[7]。多尺度加權(quán)排列熵是對(duì)排列熵的改進(jìn),能夠克服排列熵?zé)o法反應(yīng)時(shí)序數(shù)據(jù)的幅值信息和單一尺度的局限性。Releif算法能夠得到各特征的權(quán)重,有利于故障特征的降維。長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)是改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò),其通過對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)細(xì)胞結(jié)構(gòu)的改進(jìn),有效的解決節(jié)點(diǎn)之間信息記憶力下降的問題,被廣泛應(yīng)用于各種分類問題[8]。
傳感器故障特征包含在其輸出數(shù)據(jù)的宏觀結(jié)構(gòu)、局部排列結(jié)構(gòu)、幅值和各個(gè)尺度中[9]。為了充分提取故障特征和高效準(zhǔn)確的識(shí)別故障類型,本文提出一種基于經(jīng)驗(yàn)多尺度加權(quán)排列熵與特征選擇長(zhǎng)短期記憶網(wǎng)絡(luò)組合算法(EMWPE-Relief-LSTM)的傳感器故障診斷方法。該方法在構(gòu)造特征向量時(shí)首先利用集成經(jīng)驗(yàn)?zāi)B(tài)分解將傳感器輸出信號(hào)分解成不同頻率的本征模態(tài)分量,然后用峭度與方差這兩個(gè)指標(biāo)篩選出包含最多傳感器故障信息的本征模態(tài)分量,最后將所選本征模態(tài)分量的多尺度加權(quán)排列熵(EMWPE)構(gòu)造為故障特征向量。由于特征向量的維數(shù)較高,可能導(dǎo)致識(shí)別的精度低,耗時(shí)長(zhǎng),因此需要對(duì)特征降維。本文采用Relief算法得到特征向量各特征的權(quán)重,通過設(shè)定權(quán)重閾值,去除相關(guān)性低的特征,實(shí)現(xiàn)降維。特征向量降維之后,需要使用多分類器進(jìn)行故障診斷,本文采用長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)分類器識(shí)別傳感器故障。將特征向量輸入分類器實(shí)現(xiàn)傳感器故障診斷。
集成經(jīng)驗(yàn)?zāi)B(tài)分解是一種新型的自適應(yīng)信號(hào)處理方法,適用于分析傳感器故障這類具有非線性、非平穩(wěn)性特點(diǎn)的信號(hào)。集成經(jīng)驗(yàn)?zāi)B(tài)算法步驟如下[10]:
1)將白噪聲信號(hào)nm(t)加入原始信號(hào)x(t)上后得到新的信號(hào)xm(t),xm(t)形式如式(1)所示
xm(t)=x(t)+nm(t)
(1)
式中,nm(t)表示第m次添加的白噪聲,xm(t)表示第m次加完白噪聲后的待處理信號(hào);
2)采用EMD對(duì)信號(hào)xm(t)分解,得到不同頻率的本征模態(tài)分量(IMF)。分解后原始信號(hào)與分解信號(hào)滿足式(2)
(2)
式中ci,m表示第m次EMD分解后得到的第i個(gè)IMFs分量,I是IMF的數(shù)量,rm表示殘余分量。
3)重復(fù)步驟1)和步驟2)共M次,得到IMF集合為[{c1,m(t)},{c2,m(t)},…,{cM,m(t)}],其中m=1,2,…,I;
4)利用白噪聲的頻譜均值為0的特征,將步驟3)中的各IMFs求平均值得到IMF分量,IMF各分量值如式(3)所示
(3)
式中,cj(t)為第j個(gè)EEMD分解到的IMF分量;
排列熵(PE)是度量時(shí)間序列復(fù)雜性的一種方法,其通過領(lǐng)域值比較,并將這些數(shù)值映射成符號(hào)模式序列來實(shí)現(xiàn)對(duì)時(shí)間序列信號(hào)復(fù)雜性的度量,度量值大小只與任意兩采樣點(diǎn)有關(guān),具有良好的魯棒性和抗噪聲能力[11]。但是排列熵存在無法反應(yīng)時(shí)序數(shù)據(jù)中幅值特征和單一尺度的缺點(diǎn),對(duì)于傳感器采集的時(shí)序數(shù)據(jù)來說,其故障特征不僅包含在排序結(jié)構(gòu)中,還包含在幅值和多個(gè)尺度中。加權(quán)排列熵(WPE)是對(duì)排列熵的一種改進(jìn),加權(quán)排列熵如式(4)所示[12],從式(4)中可以發(fā)現(xiàn)加權(quán)排列熵將時(shí)序數(shù)據(jù)的幅值引入了排列熵。加權(quán)排列熵同時(shí)反應(yīng)了時(shí)序數(shù)據(jù)的順序結(jié)構(gòu)和幅值信息,相比于排列熵其對(duì)噪聲的魯棒性更好。
(4)
式中pw(πk)為時(shí)間序列的K種排列模式,每種模式πk的加權(quán)概率值。pw(πk)形式如式(5)所示。
(5)
式中m是嵌入維數(shù),τ是時(shí)間延遲。
雖然WPE改進(jìn)了PE不能反應(yīng)幅值信息的缺點(diǎn),但是其只能在單一的尺度上反應(yīng)時(shí)序數(shù)據(jù)的順序結(jié)構(gòu)信息和幅值信息,無法估算在不同尺度上的復(fù)雜度。多尺度加權(quán)排列熵(MWPE)結(jié)合了加權(quán)排列熵(WPE)與多尺度分析,能夠描述不同尺度下的加權(quán)排列熵。多尺度加權(quán)排列熵(MWPE)的計(jì)算過程如下:
(6)
2)分別計(jì)算每個(gè)尺度的加權(quán)排列熵,這個(gè)排列熵就是MWPE, MWPE的形式如式(7)所示。
(7)
式中x是時(shí)間序列,s是尺度因子,m是嵌入維數(shù),τ是時(shí)間延遲。
Relief算法是一種特征權(quán)重算法,其通過各個(gè)特征與類別的相關(guān)性賦予特征不同的權(quán)重。權(quán)值越大表明該參數(shù)對(duì)目標(biāo)的分類能力越強(qiáng)[13]。設(shè)定權(quán)值的閾值,移除小于閾值的參數(shù)可以實(shí)現(xiàn)特征降維。Relief算法步驟如下:
1)隨機(jī)選擇樣本數(shù)據(jù)R;
2)從與R同一類的樣本中找到最近鄰樣本H,從不同類的樣本中找到最近鄰樣本M;
3)如果R的某特征與H的距離大于與M的距離,降低該特征的權(quán)重,反之增加該特征的權(quán)重。更新特征屬性p的權(quán)值如式(8)所示
(8)
式中,x為參數(shù)樣本;p∈P;H(x)為x的同類最近鄰點(diǎn)。M(x)為不同類的最近鄰點(diǎn)。diff()函數(shù)形式如式(9)
(9)
4)重復(fù)m次步驟3),得到各特征的平均權(quán)重
LSTM是增加了記憶功能的循環(huán)神經(jīng)網(wǎng)絡(luò),能夠解決時(shí)序數(shù)據(jù)后面的節(jié)點(diǎn)對(duì)前面節(jié)點(diǎn)的信息記憶力下降的問題[14]。在組成結(jié)構(gòu)上LSTM的隱藏層有三個(gè)門,分別為輸入門,遺忘門,輸出門。這些門的輸出值的大小都在0和1之間,輸出值的大小決定了通過門的輸入量的大小。LSTM通過這三個(gè)門來實(shí)現(xiàn)了對(duì)輸出值狀態(tài)和隱藏層狀態(tài)的保護(hù)和控制。
圖1為標(biāo)準(zhǔn)的LSTM隱藏層細(xì)胞結(jié)構(gòu),設(shè)輸入時(shí)間序列為(x,x2,…,xt,…,xn),則在t時(shí)刻隱藏層各個(gè)門之間滿足式(10)-(15)。
it=σ(Wi*Xt+Ui*ht-1+Vi*Ct-1+bi)
(10)
gt=tanh(Wc*xt+Uc*Ht-1+bc)
(11)
ft=σ(Wf*xt+Uf*ht-1+bf)
(12)
Ct=it*g+ft*Ct-1
(13)
Ot=σ(W0*xt+U0*ht-1)
(14)
ht=Ot*tanh(Ct)
(15)
式中ft為遺忘門的激活值,Ot為輸出門的激活值。ht和ht-1時(shí)間步t和時(shí)間步t-1時(shí)記憶單元的輸出。ct和ct-1分別為時(shí)間步t和時(shí)間步t-1記憶單元的狀態(tài)為記憶單元候選狀態(tài)。
圖1 標(biāo)準(zhǔn)LSTM細(xì)胞結(jié)構(gòu)
基于經(jīng)驗(yàn)多尺度加權(quán)排列熵與特征選擇長(zhǎng)短期記憶網(wǎng)絡(luò)組合算法(EMWPE-Relief-LSTM)的傳感器故障診斷方法在對(duì)傳感器故障診斷時(shí)分為故障特征提取、故障特征降維、故障特征識(shí)別三個(gè)階段。算法完整的工作流程如圖1所示,其步驟可總結(jié)如圖2。
1)使用集成經(jīng)驗(yàn)?zāi)B(tài)分解對(duì)傳感器待檢測(cè)信號(hào)分解,分解成4個(gè)不同頻率的本征模態(tài)分量(IMFs),利用峭度和方差篩選出包含傳感器故障特征最多的IMF;
2)計(jì)算所選IMF的多尺度加權(quán)排列熵,將其構(gòu)造為傳感器故障特征向量;
3)通過Relief算法去除相關(guān)性較低的特征,實(shí)現(xiàn)對(duì)故障特征向量的降維;
4)將降維后的特征向量輸入LSTM分類器實(shí)現(xiàn)傳感器的故障識(shí)別。
圖2 傳感器故障診斷流程圖
本文使用河北某公司2017-2018年NO2氣體傳感器所采集的數(shù)據(jù)作為原始數(shù)據(jù)。在原始數(shù)據(jù)中注入了偏差故障、漂移故障、沖擊故障、恒值故障,每種故障類型有5000組數(shù)據(jù)。注入偏差故障的偏差常數(shù)為平均值的30%-70%,注入漂移故障的漂移常數(shù)為原始值的5%-10%,注入沖擊故障的沖擊波幅值為平均值的2-3倍,注入恒值故障的恒定值為平均值的1-2倍。傳感器正常狀態(tài)的數(shù)據(jù)與故障狀態(tài)的數(shù)據(jù)如圖3所示。
圖3 傳感器健康數(shù)據(jù)與故障數(shù)據(jù)
4.2.1 集成經(jīng)驗(yàn)?zāi)B(tài)分解
采用集成經(jīng)驗(yàn)?zāi)B(tài)分解將傳感器輸出的時(shí)間序列數(shù)據(jù)分解。分解后如圖4所示,原始數(shù)據(jù)被分解為4個(gè)不同頻率的本征模態(tài)分量。
圖4 原始數(shù)據(jù)和本征模態(tài)的波形
4.2.2 本征模態(tài)分量選擇
峭度和方差對(duì)沖擊信號(hào)和偏差信號(hào)十分敏感[15],所以本文通過峭度和方差這兩個(gè)指標(biāo)來對(duì)集成經(jīng)驗(yàn)?zāi)B(tài)分解的本征模態(tài)分量(IMFs)進(jìn)行篩選。篩選的目的是數(shù)據(jù)降噪和找到包含最多故障信息的本征模態(tài)分量。
不同頻率本征模態(tài)分量的峭度和方差如圖5所示,從圖中可以發(fā)現(xiàn),低頻IMF分量的峭度和方差遠(yuǎn)大于其余幾個(gè)分量。根據(jù)峭度和方差對(duì)傳感器故障信號(hào)的敏感特性可以發(fā)現(xiàn)低頻本征模態(tài)分量包含了最多的傳感器故障信息。
圖5 IMF的峭度和方差
4.2.3 特征向量的構(gòu)造
將低頻本征模態(tài)分量的多尺度加權(quán)排列熵構(gòu)造為傳感器故障診斷的特征向量。本文多尺度加權(quán)排列熵的尺度數(shù)為13,所以特征向量的維數(shù)為13維。不同故障的特征向量如圖6(a)所示,從圖中可以發(fā)現(xiàn)所構(gòu)造的特征向量能夠很好的區(qū)分不同的故障。
中低頻,中高頻,高頻所構(gòu)造的特征向量如圖6(b)、圖6(c)、圖6(d)所示,從圖中可以發(fā)現(xiàn)利用低頻所構(gòu)造的特征向量對(duì)不同故障的區(qū)分度明顯要高于這三個(gè)頻段。對(duì)比結(jié)果驗(yàn)證了選擇低頻本征模態(tài)分量的多尺度加權(quán)排列熵作為傳感器故障診斷特征向量的優(yōu)越性。
圖6 不同頻率本征模態(tài)分量的EWMPE
上節(jié)所構(gòu)造特征向量的特征維數(shù)為13維,高維使得分類算法在運(yùn)算時(shí)需要較多的計(jì)算資源和時(shí)間,同時(shí)高維中某些相關(guān)性較低的特征可能會(huì)對(duì)分類造成反作用,這些缺點(diǎn)會(huì)降低算法的可用性。為了提高算法的可用性,采用Relief選擇算法來降低特征向量的維數(shù)。圖7為通過Relief算法得到的特征向量13個(gè)特征的特征權(quán)值。選定權(quán)值閾值為0.13,保留權(quán)值最高的5個(gè)屬性組成降維后的特征向量。
圖7 特征分量的權(quán)重
將選中的特征作為L(zhǎng)STM分類器的輸入,所選特征及其識(shí)別的精度和算法消耗的時(shí)間如表1所示。從表1中可以發(fā)現(xiàn),權(quán)重最大的5個(gè)特征的分類準(zhǔn)確率略大于所有特征的分類準(zhǔn)確率,同時(shí)算法所消耗的時(shí)間減少了一半。這表明特征權(quán)重比較小的特征在實(shí)際中可能對(duì)分類造成反作用,也表明了采用Relief降維可以有效的提高算法的可用性。
表1 不同特征向量的平均準(zhǔn)確率和耗時(shí)
將故障特征輸入LSTM分類器,識(shí)別傳感器的故障類型。
實(shí)驗(yàn)采用的LSTM分類器的連接層節(jié)點(diǎn)數(shù)為50,損失函數(shù)為交叉熵,dropout參數(shù)值為0.3,訓(xùn)練方法為時(shí)間反向傳播法(BPTT)。為了降低由于數(shù)據(jù)集劃分對(duì)模型造成的影響,本文使用了10折交叉驗(yàn)證。首先將原始數(shù)據(jù)分為了10份,然后每次挑取其中的一份作為測(cè)試集,其余的9份作為訓(xùn)練集,重復(fù)10次后,得到了10個(gè)模型及其測(cè)試的指標(biāo),最后計(jì)算10組指標(biāo)的平均值作為10折交叉驗(yàn)證下的性能指標(biāo)。
表2是LSTM分類器對(duì)故障特征向量的分類結(jié)果。對(duì)于傳感器的沖擊故障和傳感器的恒值故障,故障識(shí)別準(zhǔn)確率為100%,這是因?yàn)闆_擊故障與恒值故障使得傳感器輸出序列的局部結(jié)構(gòu)發(fā)生了顯著的變化。正常狀態(tài)、偏差故障和漂移故障都有很小的偏差,主要是因?yàn)楫?dāng)偏差常數(shù)和漂移率較小時(shí),其局部結(jié)構(gòu)與傳感器正常時(shí)輸出序列的結(jié)構(gòu)變化不明顯,所以導(dǎo)致故障識(shí)別時(shí)存在一定的錯(cuò)誤。
表2 傳感器不同故障的診斷結(jié)果
為了進(jìn)一步說明本文所提方法的優(yōu)越性,本文選擇與排列熵作為特征提取方法的PE-Relief-LSTM算法,文獻(xiàn)[3]所提的EEMD-樣本熵-SRC算法,文獻(xiàn)[16]所提的改進(jìn)粒子濾波算法對(duì)比。表3給出了不同算法的診斷準(zhǔn)確度和耗時(shí)。從表3中可以看出PE-Relief-LSTM算法的診斷準(zhǔn)確率要遠(yuǎn)遠(yuǎn)小于本文所提算法,這是由于本文所提算法在故障特征提取時(shí),綜合提取了宏觀結(jié)構(gòu)、局部排列結(jié)構(gòu)、幅值和多尺度特征。相較于PE-Relief-LSTM算法只提取局部排列特征,本文所提方法的特征提取更加全面。文獻(xiàn)[3]所提方法耗時(shí)時(shí)間遠(yuǎn)遠(yuǎn)大于本文所提方法,且診斷精度略低于本文所提方法,這是由于其沒有對(duì)特征向量降維,高維特征向量會(huì)大大增加算法的耗時(shí),且其中權(quán)重低的特征還可能對(duì)分類起反作用。文獻(xiàn)[16]所提方法由于無需每次進(jìn)行EEMD分解,所以耗時(shí)略小于本文所提方法,但本文所提方法的精度比其高5%,這是由于本文所提方法能夠更加全面的提取故障特征。
本文所提方法綜合考慮了診斷精度和診斷耗時(shí)時(shí)間,能夠在使用較低的時(shí)間達(dá)到較高的傳感器故障診斷準(zhǔn)確率,具有很強(qiáng)的應(yīng)用價(jià)值。
表3 故障診斷方法比較
為了準(zhǔn)確和高效的識(shí)別傳感器故障,本文充分提取了傳感器宏觀、微觀和各個(gè)尺度的特征,綜合運(yùn)用了Relief降維和LSTM分類算法,提出了一種基于經(jīng)驗(yàn)多尺度加權(quán)排列熵與特征選擇長(zhǎng)短期記憶網(wǎng)絡(luò)組合算法(EMWPE-Relief-LSTM)的傳感器故障診斷方法。
本文提出的方法對(duì)于不同的傳感器檢測(cè)效率不同。對(duì)于NO2氣體傳感器,本文提出的傳感器故障診斷方法的平均準(zhǔn)確率達(dá)到99.3%,綜合效果優(yōu)于PE-Relief-LSTM、EEMD-樣本熵-SRC、改進(jìn)粒子濾波算法。
綜上所述,EMWPE-Relief-LSTM算法在傳感器故障診斷中取得了較為理想的效果,為今后傳感器的故障診斷提供了新的思路。