郭鵬飛,魏才盛,殷澤陽,陳琪鋒
中南大學(xué)自動化學(xué)院,長沙 410083
隨著航天工業(yè)的發(fā)展,現(xiàn)代航天器越發(fā)先進(jìn)與復(fù)雜。由于航天器所處空間環(huán)境存在直接輻射、巨大溫差以及與空間碎片碰撞可能等多種風(fēng)險,即使最大程度提高航天器系統(tǒng)部件的可靠性,也不可能完全消除異常與故障。尤其是能源與控制等復(fù)雜系統(tǒng)內(nèi)部件發(fā)生故障,將導(dǎo)致整個空間飛行任務(wù)的失敗。因而開發(fā)先進(jìn)的航天器異常檢測和故障診斷技術(shù)成為近年來航天器可靠性領(lǐng)域亟待解決的難題。
為了解決上述難題,研究人員先后開發(fā)了多種故障診斷技術(shù),并在航天器中廣泛應(yīng)用,促進(jìn)了航天器故障診斷與異常檢測水平的提升。文獻(xiàn)[1]針對火星樣本采集返回任務(wù)的軌道推進(jìn)器故障診斷,基于定量模型分析方法,通過魯棒極點配置濾波器,檢測和隔離推進(jìn)器故障。文獻(xiàn)[2]針對航天器實時自主診斷問題,提出基于定性模型分析的方法,利用沖突識別實現(xiàn)衛(wèi)星電源系統(tǒng)的故障源定位,提高定性分析算法的性能。盡管上述方法均可滿足航天任務(wù)中的異常檢測與故障診斷要求,但都依賴從人類專家處獲取的關(guān)于空間系統(tǒng)或航天器模型的準(zhǔn)確完整的先驗知識,存在算法通用性差、易受模型不確定性影響的缺陷[3]。為了消除基于模型和專家經(jīng)驗知識方法的局限性,數(shù)據(jù)驅(qū)動的故障診斷方法應(yīng)運而生[4]。文獻(xiàn)[5]對數(shù)據(jù)驅(qū)動的航天器故障診斷與異常檢測方法進(jìn)行了詳盡總結(jié)。文獻(xiàn)[6]提出了一種深度歸一化卷積神經(jīng)網(wǎng)絡(luò),有效地處理了不平衡數(shù)據(jù)下故障分類的問題。文獻(xiàn)[7]針對衛(wèi)星陀螺儀故障檢測中存在的冗余依賴、微小故障覆蓋問題,提出一種基于長短時(Long-Short Term Memory, LSTM)神經(jīng)網(wǎng)絡(luò)的故障檢測方法。
足量的訓(xùn)練樣本是以上異常檢測算法實現(xiàn)的基礎(chǔ),作為安全性能要求極高的機(jī)器,航天器內(nèi)部有數(shù)千個遙測信道,所傳輸?shù)臄?shù)據(jù)是航天器內(nèi)部多個系統(tǒng)組件連續(xù)產(chǎn)生的多維時間序列,詳細(xì)描述了溫度、輻射、功率和計算資源等方面的實時信息[8]。通過監(jiān)測這些遙測信道、采用數(shù)據(jù)驅(qū)動的異常檢測方法是及時發(fā)現(xiàn)航天器異常癥狀、避免失控等災(zāi)難性情況發(fā)生的重要途經(jīng)。為此,文獻(xiàn)[9]提出一種遷移學(xué)習(xí)的方法,將代價敏感的一維卷積網(wǎng)絡(luò)模型進(jìn)行遷移,在標(biāo)簽數(shù)據(jù)較少情況下解決了航天器遙測數(shù)據(jù)異常檢測問題。然而,計算和存儲能力的提高導(dǎo)致遙測數(shù)據(jù)量增加,且航天器工況復(fù)雜、數(shù)據(jù)參數(shù)多,依靠專家知識和人力資本為航天器遙測數(shù)據(jù)更新標(biāo)簽的難度大,因此無監(jiān)督學(xué)習(xí)逐漸應(yīng)用到航天器信號的異常檢測中。文獻(xiàn)[10]提出了一種利用變分自動編碼器(Auto-Encoder, AE)重建概率的異常檢測方法,仿真結(jié)果證明該方法能有效提升異常檢測性能。
自動編碼器由全連接神經(jīng)網(wǎng)絡(luò)搭建,存在對于時間序列順序信息刻畫能力不足的缺陷。為捕捉時序信號前后關(guān)聯(lián)特征從而彌補以上缺陷,文獻(xiàn)[11]利用LSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)搭建航天器遙測數(shù)據(jù)信號預(yù)測模型。該方法通過控制信息參數(shù)的傳輸狀態(tài),實現(xiàn)了長距離特征捕捉,使其在時序信號異常檢測場景中比傳統(tǒng)前饋神經(jīng)網(wǎng)絡(luò)更具優(yōu)越性。文獻(xiàn)[12]針對標(biāo)簽不完整的數(shù)據(jù)樣本,提出了一種基于模糊聚類和LSTM神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)異常分析方法,實現(xiàn)了運載火箭氧渦輪泵數(shù)據(jù)驅(qū)動的自動故障檢測預(yù)警。文獻(xiàn)[13]提出的長短期記憶自編碼器(LSTM-Auto Encoder, LSTM-AE)信號重建方法在無監(jiān)督時序信號處理上已取得顯著效果,但是LSTM神經(jīng)網(wǎng)絡(luò)提取的特征通常不含可解釋的物理含義,無法為故障源頭的梳理提供指導(dǎo),即存在可解釋性不足的局限性。而Transformer模型[14]所特有的自我注意力權(quán)重分布可以體現(xiàn)出與整個時間序列的豐富關(guān)聯(lián),自該模型提出以來已在多個領(lǐng)域取得了進(jìn)展,包括自然語言處理[15]、機(jī)器視覺[16]和時間序列異常檢測[17]。
綜上所述,本文將Transformer模型中的注意力機(jī)制應(yīng)用于無監(jiān)督狀態(tài)下的時間序列異常檢測,通過注意力層提取數(shù)據(jù)長距離特征關(guān)系,再通過自動編碼層逐一對各個時間窗內(nèi)的數(shù)據(jù)重建,最后分析輸入信號與重建信號的殘差進(jìn)行異常檢測,并通過分析可視化注意力關(guān)系矩陣滿足設(shè)備異常后的故障分析需求。通過在美國大氣和空間物理實驗室(LASP)所提供的航天器遙測信號數(shù)據(jù)集[18]與實驗室衛(wèi)星姿軌半實物仿真平臺收集的航天器飛輪轉(zhuǎn)速數(shù)據(jù)集上進(jìn)行實驗,驗證了本文所提方法在航天器異常檢測中的有效性與可解釋性。
航天器運行過程受諸多不確定因素影響,容易產(chǎn)生突發(fā)性或常規(guī)性故障。通過分析航天器遙測數(shù)據(jù),可有效降低航天器各系統(tǒng)風(fēng)險、保障航天器安全運行。
如圖1所示,航天器遙測數(shù)據(jù)以多通道時序信號形式呈現(xiàn),判斷某時刻是否發(fā)生故障需結(jié)合歷史數(shù)據(jù)的走向與趨勢。此外,相當(dāng)部分航天器在異常發(fā)生前,遙測數(shù)據(jù)會出現(xiàn)細(xì)微異變,這些異變的發(fā)生或臨近異常時刻或于極早時刻。因此,如何精準(zhǔn)把握各時刻遙測數(shù)據(jù)的聯(lián)系、剔除冗長數(shù)據(jù)中的無意義特征是提高航天器異常檢測效率的關(guān)鍵。此外,由于航天器遙測數(shù)據(jù)量巨大,難以為其定義和更新標(biāo)稱范圍。因此,需要從摻雜異常情況的歷史數(shù)據(jù)中歸納出具備辨識異常情況能力的檢測算法。
圖1 航天器遙測數(shù)據(jù)示例圖
注意力機(jī)制起源于人類眼球?qū)ξ矬w進(jìn)行觀察時的注意力分布規(guī)律,該機(jī)制可以幫助觀察者在復(fù)雜多變的圖像中獲取所需的目標(biāo)信息。針對時序數(shù)據(jù),各窗口內(nèi)的時序信號所承載的信息重要性有很大差異,注意力機(jī)制的作用在于挖掘出各時間窗口間所關(guān)聯(lián)的重要信息。
具體而言,首先將m個維度為n×1的矢量分別與3個不同的權(quán)重矩陣Wq,Wk,Wv相乘,計算得到查詢矩陣Q=[Q1,Q2,…,Qm],鍵矩陣K=[K1,K2,…,Km],值矩陣V=[V1,V2,…,Vm],計算過程為:
(1)
(2)
式中:A(·)表示為求取注意力得分矩陣的函數(shù),SoftMax(·)為歸一化指數(shù)函數(shù)。
多頭注意力機(jī)制是注意力機(jī)制的改進(jìn),其可以將每組輸入映射到不同的子表示空間,使得模型可以在不同子表示空間中關(guān)注不同的位置。在避免權(quán)重矩陣出現(xiàn)偏差導(dǎo)致模型性能急劇退化的同時,更全面地挖掘時序間的多維關(guān)聯(lián)情況。整個計算過程可表示為:
(3)
式中:hs是第s組單頭注意力機(jī)制下的注意力得分矩陣,M為多頭注意力得分矩陣,WO為輸出變換矩陣,Concat(·)為矩陣拼接函數(shù)。
1.3 自動編碼器
自動編碼器是深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的一種變形,主要功能為利用神經(jīng)網(wǎng)絡(luò)提取壓縮特征,再將壓縮特征還原為輸入信號。若能較為完整地重建輸入信號,則證明神經(jīng)網(wǎng)絡(luò)所提取的壓縮特征具有較好的代表性?;A(chǔ)的自動編碼器結(jié)構(gòu)由1個編碼器和1個解碼器組成,而堆疊自動編碼器可以通過網(wǎng)絡(luò)層堆疊形成深度自動編碼器,以分層的方式實現(xiàn)降維,在更深的隱藏層中獲得更有價值的特征,從而在解碼過程中更好地重建數(shù)據(jù)。
(4)
式中:W1為編碼區(qū)兩相鄰全連接層之間的權(quán)重矩陣,b1為編碼區(qū)兩相鄰全連接層之間的偏置向量,f(·)為非線性的激活函數(shù)。
(5)
式中:W2為解碼區(qū)兩相鄰全連接層之間的權(quán)重矩陣,b2為解碼區(qū)兩相鄰全連接層之間的偏置向量。
由于自動編碼器的目標(biāo)是最大程度復(fù)原輸入信號,因此其損失函數(shù)L一般定義為:
(6)
在分析注意力機(jī)制與自動編碼器原理后,提出一種融合注意力機(jī)制的航天器重建信號異常檢測方法。挖掘輸入信號特征,利用降維特征重建信號,分析重建信號與原始信號的殘差是無標(biāo)簽時序數(shù)據(jù)異常檢測的常用方法,該方法的核心在于能否提取到足夠具有代表性的輸入信號特征。傳統(tǒng)自動編碼器的全連接結(jié)構(gòu)面對長序列重建問題時存在無法捕捉長距離依賴關(guān)系的缺陷,而LSTM的循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)雖能解決長距離依賴問題,但其所提取特征不含可解釋意義。為解決上述算法的局限性,本節(jié)提出一種航天器信號重建模型,重建流程如圖2所示。
圖2 航天器信號重建流程圖
步驟1對采集的航天器信號進(jìn)行預(yù)處理。數(shù)據(jù)預(yù)處理的主要目的是將異源異構(gòu)的航天器信號規(guī)范化,以便展開重建工作,同時,預(yù)處理也是影響后期重建誤差序列分析的重要因素。
由于航天器采集的信號源自不同通道,具有不同物理含義,屬于異源異構(gòu)數(shù)據(jù),其量綱不同、數(shù)量級差別大,需要通過歸一化排除量綱的作用,加速模型收斂,提高模型精度。本文采取Min-max歸一化手段,這是一種線性歸一化方法,不會對數(shù)據(jù)分布產(chǎn)生影響。然后對數(shù)據(jù)進(jìn)行維度變換,將原本的時序信號轉(zhuǎn)換為m個維度為n×1的矢量,從而組合相鄰時段數(shù)據(jù),以窗口形式將其合并,然后輸入注意力層,挖掘不同時間窗間的關(guān)聯(lián)特征。
步驟2在注意力層利用注意力機(jī)制捕捉不同時間窗口間的時序相關(guān)性,使各時間窗口內(nèi)的數(shù)據(jù)融合其他時間窗口的重要信息。同時由于注意力得分的引入,可為航天器信號出現(xiàn)異常后的故障溯源提供有益指導(dǎo)。
步驟3將包含豐富時序特征的各時間窗口數(shù)據(jù)輸入自動編碼層,在自動編碼層通過堆疊自動編碼器前半部分將輸入信號減少到低維空間中,以獲得數(shù)據(jù)的壓縮表示。由于輸入信號中各時間窗口已通過注意力機(jī)制融合其他時間窗口特征,因此各個時間窗口內(nèi)序列壓縮后提取到的特征不存在長距離依賴問題,是擁有更全面、更具代表性的降維特征。再通過網(wǎng)絡(luò)的后半部分對壓縮序列執(zhí)行相反操作,以嘗試重建原始輸入。
在本模型中,需重建的信號并非自動編碼層的輸入信號,而是經(jīng)過預(yù)處理后輸入到注意力層的m段維度為n×1的向量形式信號,因此重構(gòu)誤差LT可表示為:
(7)
整個過程不需要數(shù)據(jù)標(biāo)簽,屬于無監(jiān)督學(xué)習(xí)。其克服了常規(guī)神經(jīng)網(wǎng)絡(luò)無法捕捉長距離信號前后關(guān)聯(lián)的問題,且所提取特征含有可解釋物理含義。
基于以上流程,求取重建后的信號與輸入信號的殘差序列,即誤差重構(gòu)序列。通過分析誤差重構(gòu)序列的平均值與標(biāo)準(zhǔn)差,劃定閾值,重建誤差大于閾值的信號診斷為異常信號。
將重建誤差序列分割為多段誤差重構(gòu)子序列,為每段子序列確定閾值,重建誤差超過閾值的點判為異常點,誤差重構(gòu)序列異常檢測流程如圖3所示。
圖3 基于重建誤差的異常檢測示例
εi=μ(Ei)+zσ(Ei)
(8)
式中:μ(·)為求取向量所有元素均值的函數(shù),σ(·)表示計算向量所有元素標(biāo)準(zhǔn)差的函數(shù),z為權(quán)重系數(shù)。
為驗證本文算法的異常檢測性能、可解釋性以及對不同數(shù)據(jù)樣本的適應(yīng)能力,選取以下2個數(shù)據(jù)集進(jìn)行仿真校驗。分別為:1)美國NASA合作實驗室LASP提供的航天器遙測信號;2)北京靈思創(chuàng)奇開發(fā)的衛(wèi)星姿軌半實物仿真平臺仿真收集的航天器飛輪轉(zhuǎn)速數(shù)據(jù)集。以上兩個數(shù)據(jù)集均為航天器重要遙測通道信號的集合,數(shù)據(jù)量滿足實驗需求且未添加標(biāo)簽。
LASP數(shù)據(jù)集包含以下5個跨度10年的時間序列:航天器電池溫度(SBT)、航天器總線電壓(SBV)、航天器總線電流(SBC)、航天器反作用飛輪轉(zhuǎn)速(RPM)、航天器反作用飛輪溫度(RWT)。
實驗室衛(wèi)星姿軌半實物仿真平臺型號為FW5動量輪,其性能參數(shù)為:最大轉(zhuǎn)速4500 r/min、最大角動量5 mNms、最大輸出力矩1.5 mNm。實驗室衛(wèi)星姿軌半實物仿真平臺實拍如圖4,從左至右依次為:星載工控機(jī)、主機(jī)、飛輪與顯示器。
圖4 FW5動量輪實拍
首先,對本文重建信號異常檢測模型可解釋性進(jìn)行仿真分析。航天器信號出現(xiàn)可檢測到的異常前,往往已經(jīng)存在不易發(fā)現(xiàn)的微小異常。而注意力得分反映了當(dāng)前時間窗口序列與其他時間窗口序列間的關(guān)聯(lián),如果存在早于檢測時刻的異??赏ㄟ^注意力得分進(jìn)行異常溯源,為后續(xù)異常原因分析提供有價值的指導(dǎo)。本部分仿真結(jié)果如圖5~6所示。
圖5 異常點關(guān)聯(lián)度分析示例
以反作用飛輪轉(zhuǎn)速重建誤差中某時段為例,該時段內(nèi)包含4個時間窗口,1個時間窗口內(nèi)有32個采樣點。如圖5所示,該時間段第4時間窗口檢測出異常值0.140,在第3時間窗口內(nèi)存在一點0.125接近該事件窗口的閾值。將該時段注意力得分可視化,由圖6可以看到時間窗口3和4之間關(guān)聯(lián)度較大,僅次于相同時間窗口注意力得分,因而可判定時間窗口4內(nèi)的異??勺匪葜?xí)r間窗口3。
圖6 注意力得分矩陣可視化結(jié)果示例
由以上示例可知,本模型因引入注意力機(jī)制,可利用各時間窗口間的注意力得分獲得異常點的更多信息,供后續(xù)故障分析。
因航天器遙測數(shù)據(jù)缺少標(biāo)簽,故采用以下方法分析異常檢測結(jié)果:首先求得LSTM-AE[13]與本文方法檢測出的異常點索引的并集,將該集合中的點從數(shù)據(jù)集中刪除;從時域的角度設(shè)計一種航天器遙測信號故障樣本生成方法—振動銳化。通過振動銳化法改變信號峰值、振動能量和局部升降梯度,模擬異常信號[19],振動銳化處理如式所示:
(9)
式中:XA為某時刻遙測信號經(jīng)過振動銳化處理后的異常值,XG為該時刻初始值,而Xw為包含XG所在時間窗口所有數(shù)據(jù)的向量,ηA為放縮因子,ηA∈(0.5,1.5),λA為混合因子,λA∈[0,1),γ為銳化因子,γ∈(1,3]。
振動銳化效果如圖7所示,以飛輪轉(zhuǎn)速重建誤差為例,圖中實線為原始信號,虛線為振動銳化處理后的異常信號,共生成兩處異常點。
圖7 異常值生成示例
航天器信號異常檢測并非簡單的分類問題,故只利用準(zhǔn)確率來評價異常檢測算法的性能過于片面。異常檢測過程中存在虛警和漏警情況,為反映異常檢測過程中上述兩種情況發(fā)生的概率,需要計算出模型檢測的準(zhǔn)確率pa與召回率pr:
(10)
(11)
式中:Tp為正常樣本被檢測為正常樣本的數(shù)目;Fp為異常樣本被誤檢為正常樣本的數(shù)目;Fn表示正常樣本被誤檢為異常樣本的數(shù)目。
本文采用改進(jìn)F1值評價指標(biāo)評價模型優(yōu)劣,該評價指標(biāo)綜合了準(zhǔn)確率與召回率,可以整體評價異常檢測模型的性能。改進(jìn)F1值定義如下:
(12)
式中:pa為準(zhǔn)確率,pr為召回率,α為調(diào)和因子。由于航天器異常檢測漏警情況危害遠(yuǎn)大于虛警,故設(shè)置α∈(0,1)。
通過對比堆疊自動編碼器、LSTM-AE、單頭注意力機(jī)制下的本文模型以及多頭注意力機(jī)制下的本文模型關(guān)于航天器5個通道遙測信號與FW5動量輪仿真數(shù)據(jù)的異常檢測準(zhǔn)確率、召回率與改進(jìn)F1值驗證算法性能,相關(guān)仿真結(jié)果如表1與圖8所示。
表1 異常檢測模型性能
圖8 模型準(zhǔn)確率與召回率的比較
由表1與圖8可知,堆疊自編碼器異常檢測準(zhǔn)確率與召回率最低,算法性能最差;LSTM-AE模型召回率最高,即漏警情況發(fā)生最少;而加入多頭注意力機(jī)制的本文模型綜合性能更好,異常檢測準(zhǔn)確率可達(dá)94.2%,召回率達(dá)到93.0%;改進(jìn)F1值為4種方法中最高,達(dá)到1.0407。
針對缺少專家標(biāo)注情況下的航天器異常檢測問題,提出了一種融合注意力機(jī)制的航天器重建信號異常檢測方法。該方法能夠借助注意力機(jī)制提取時間序列長距離窗口間的關(guān)聯(lián)信息,并通過堆疊自動編碼器重建信號。該重建方法最大程度保留了原始信號的重要特征,因而具有更高的異常檢測精準(zhǔn)度。除此之外,本文研究了注意力關(guān)系可視化矩陣對于航天器設(shè)備異常后的故障分析能力的積極影響。通過在LASP提供的衛(wèi)星遙感數(shù)據(jù)集與FW5動量輪轉(zhuǎn)速仿真數(shù)據(jù)集的實驗研究,證明了本文算法能夠有效解決航天器多源通道的異常檢測問題,并且達(dá)到了94.2%的平均準(zhǔn)確率與93.0%的平均召回率。改進(jìn)F1值相較LSTM-AE提高了0.0271,相較堆疊自動編碼器提高了0.5568,且相較其他異常檢測算法可解釋能力更優(yōu)。