基于ARIMA和XGBoost算法的輔逆系統(tǒng)故障預(yù)測

2021-01-11 06:20:58吳強(qiáng)屈利杰

大連交通大學(xué)學(xué)報 2021年1期

吳強(qiáng),屈利杰

(中車南京浦鎮(zhèn)車輛有限公司，江蘇南京 210000)*

截至2019年9月30日，我國內(nèi)地累計(jì)有39個城市開通運(yùn)營，軌道交通線路總計(jì)6333.3 km，新增運(yùn)營線路571.9 km.城市軌道交通的迅猛發(fā)展，設(shè)備的安全性也備受關(guān)注.車輛是其重要載體，目前對車輛的研究技術(shù)在不斷的改進(jìn)和加強(qiáng)，牽引、輔逆、制動、車門、空調(diào)等系統(tǒng)日趨復(fù)雜，因而發(fā)生故障的類型更加多樣化，如何基于車載和軌旁系統(tǒng)數(shù)據(jù)來提前進(jìn)行故障預(yù)警預(yù)測，是PHM系統(tǒng)成功與否的關(guān)鍵所在.國內(nèi)外研究機(jī)構(gòu)和企業(yè)都在這一領(lǐng)域做了大量的嘗試與驗(yàn)證.在故障預(yù)測的研究方面，早期研究多關(guān)注單個設(shè)備部件.近年來，隨著軌道交通行業(yè)數(shù)據(jù)的積累，基于深度學(xué)習(xí)的智能運(yùn)維逐漸興起[1-2].

目前常用的故障預(yù)警方法有：

(1)固定閾值法[3-4]：通常根據(jù)專家經(jīng)驗(yàn)知識設(shè)定閾值范圍.該方法優(yōu)點(diǎn)是簡單，缺點(diǎn)是需要大量依賴人工經(jīng)驗(yàn)，不適用于周期性變化的數(shù)據(jù)，維護(hù)困難，準(zhǔn)確性較差.

(2)基于數(shù)據(jù)驅(qū)動的預(yù)測技術(shù)[5-6]，是通過設(shè)備生命周期中大量的數(shù)據(jù)信息，通過學(xué)習(xí)獲得輸入和輸出的映射關(guān)系，并在內(nèi)部建立非透明、非線性和不針對特定目標(biāo)的預(yù)測模型，實(shí)現(xiàn)對設(shè)備未來狀態(tài)的預(yù)測.對于復(fù)雜系統(tǒng)來講，因其本身結(jié)構(gòu)的復(fù)雜性，使得建立與之相對應(yīng)的物理模型是很困難的.

(3)基于統(tǒng)計(jì)分析的預(yù)測[7-8]，利用實(shí)際生產(chǎn)中積累的經(jīng)驗(yàn)數(shù)據(jù)對產(chǎn)品進(jìn)行分析，得到參數(shù)信息，并利用設(shè)備性能數(shù)據(jù)統(tǒng)計(jì)出各類故障概率密度函數(shù)，形成動態(tài)模型，同時使用性能數(shù)據(jù)對參數(shù)信息持續(xù)性修正，不斷提高預(yù)測精度.

(4)基于時間序列的預(yù)測：李向前等人[9-10]提出了檢測時間序列中異常值的方法.此外，當(dāng)前流行的異常檢測算法還有：基于分類，基于聚類，基于最近鄰，基于信息理論，這些方法應(yīng)用到不同領(lǐng)域的異常檢測中，能有效提高檢測的準(zhǔn)確度.

但是以上方法在目前軌道交通領(lǐng)域都只能部分借鑒，原因是現(xiàn)有系統(tǒng)采集的數(shù)據(jù)量少，故障時的負(fù)樣本更少.本文提出了利用XGBoost和ARIMA算法來預(yù)測某類模擬量的趨勢，并給出相應(yīng)的預(yù)警信息.

(1)采用XGBoost算法擬合各工況下輔逆溫度變化曲線；

(2)利用擬合曲線與實(shí)際值偏差做正態(tài)分布，定義警告閾值線和錯誤閾值線；

(3)ARIMA算法預(yù)測后三天的趨勢走向，并通過與警告閾值線和錯誤閾值線的比較給出相關(guān)預(yù)警的信息提示.

1 輔逆溫度曲線擬合

由于XGBoost模型可以控制模型的復(fù)雜度，防止模型過擬合，并且在樣本缺失時，可以自動學(xué)習(xí)分裂方向，本文通過綜合比較，引入XGBoost模型.XGBoost在迭代過程中通過樹的深度和數(shù)量自適應(yīng)擬合輔逆系統(tǒng)溫度變化情況，并在迭代過程中，通過正則項(xiàng)，防止模型過擬合，提高預(yù)測輔逆系統(tǒng)溫度的準(zhǔn)確性.因此，本文采用基于XGBoost算法的輔逆系統(tǒng)溫度預(yù)測模型，公式如下所示：

(1)

XGBoost訓(xùn)練優(yōu)化的目標(biāo)公式如下：

(2)

(3)

2 數(shù)據(jù)整理與分析

2.1 數(shù)據(jù)整理

本文所采用的原始數(shù)據(jù)來自于某條實(shí)際運(yùn)營的地鐵車輛，共包含11列車載數(shù)據(jù)集，時間跨度為2019年02月01日～2019年06月30日，數(shù)據(jù)采樣周期為0.5 s，文件大小約為380 GB.

車載數(shù)據(jù)通過4G物聯(lián)網(wǎng)傳輸，采樣周期應(yīng)為0.5s，但是傳輸不穩(wěn)定導(dǎo)致時間記錄不連續(xù)，數(shù)據(jù)存在大量缺失和異常值.為了解決原始數(shù)據(jù)集質(zhì)量和存儲問題，對數(shù)據(jù)進(jìn)行整理，剔除缺損值，只選取測點(diǎn)數(shù)量較為完整的文件，共1654個文件，通過優(yōu)化數(shù)據(jù)存儲類型，可降低內(nèi)存消耗，提高算法的收斂速度.

利用專家經(jīng)驗(yàn)、機(jī)理研究和前期的數(shù)據(jù)探索，發(fā)現(xiàn)輔逆溫度的變化與列車的外部溫度、空壓機(jī)的運(yùn)行情況、空調(diào)的運(yùn)行情況等有著直接的關(guān)系，數(shù)據(jù)探索情況見圖1.在曲線擬合的過程中，選取了數(shù)據(jù)集里的CTDU_空調(diào)_列車外部溫度，HC1CT_空調(diào)_A1車外部溫度，HC2CT_空調(diào)_B1車外部溫度，CTPCBC_制動_空壓機(jī)組1運(yùn)行，CTDC_空調(diào)_A1車空調(diào)能耗值，CTDC_空調(diào)_B1車空調(diào)功率等，來擬合輔逆溫度的變化曲線，并與實(shí)際值A(chǔ)C1CT_輔助_A1車逆變模塊溫度做比較分析，對比結(jié)果見圖2.

在算法生成過程中，采用分車交叉驗(yàn)證，應(yīng)對不同列車自身數(shù)據(jù)分布差異，提供算法的魯棒性和泛化能力.

(a)輔逆溫度與空調(diào)功率之間的關(guān)系

(b)輔逆溫度與輔逆功率之間的關(guān)系

(c)輔逆溫度與空壓機(jī)啟停之間的關(guān)系

(d)輔逆溫度與制動電阻風(fēng)機(jī)啟停之間的關(guān)系

圖2 輔逆溫度擬合曲線與實(shí)際曲線的對比

本文采用決策樹、隨機(jī)森林、梯度提升樹算法、XGBoost分別擬合輔逆系統(tǒng)溫度變化曲線，結(jié)果如表1所示，其中R2代表絕對系數(shù)，MAE表示預(yù)測結(jié)果絕對誤差的平均值，MSE表示均方誤差.通過比較表1中的數(shù)據(jù)發(fā)現(xiàn)，采用XGBoost模型預(yù)測輔逆系統(tǒng)溫度時的R2更接近于1，為0.952 3，說明采用XGBoost模型擬合輔逆系統(tǒng)溫度效果更好；運(yùn)用XGBoost模型預(yù)測輔逆系統(tǒng)溫度時MAE值最小，為1.046，說明采用XGBoost模型預(yù)測輔逆系統(tǒng)溫度有更好的魯棒性；采用XGBoost模型預(yù)測輔逆系統(tǒng)溫度時MSE值最大，為1.998，說明采用XGBoost模型預(yù)測輔逆系統(tǒng)溫度有更好的精確度.所以，經(jīng)過對比發(fā)現(xiàn)，使用XGBoost算法預(yù)測輔逆系統(tǒng)溫度時的精確度更高，魯棒性更好.

表1 不同算法之間的比較

2.2 殘差分布

選取2019年4～5月的車載數(shù)據(jù)集作為樣本集，采用已訓(xùn)練好的XGBoost算法擬合出輔逆溫度的曲線，以天為單位，計(jì)算出實(shí)際輔逆溫度和擬合輔逆溫度之間的偏差，繪制偏差分布如圖3所示.

圖3 實(shí)際值與擬合值偏差的分布

計(jì)算統(tǒng)計(jì)所有列車偏差分布，提取殘差分布的統(tǒng)計(jì)特征，整體分布均值0.021 2，標(biāo)準(zhǔn)差為1.31，中位數(shù)為-0.069 6，數(shù)值范圍在[-9.15, 7.87]，近似服從正態(tài)分布.因此，使用正態(tài)分布的標(biāo)準(zhǔn)差判斷逆變模塊溫度是否存在異常趨勢.

本文定義誤差超過均值±2倍標(biāo)準(zhǔn)差之外的點(diǎn)判定為預(yù)警點(diǎn)，誤差超過均值±3倍標(biāo)準(zhǔn)差之外的點(diǎn)判定為誤差點(diǎn).

通過以上定義，統(tǒng)計(jì)測試該時間段內(nèi)每列車每天對應(yīng)異常數(shù)據(jù)點(diǎn)的比例，尋找趨勢線，為確保統(tǒng)計(jì)數(shù)據(jù)的有效，要求當(dāng)天數(shù)據(jù)滿足以下條件：①剔除異常的溫度數(shù)據(jù)；②要求當(dāng)天滿足列車速度大于0的數(shù)據(jù)大于50個采樣點(diǎn).

求取以上異常點(diǎn)的比例，作為下一步時間序列預(yù)測的基礎(chǔ)數(shù)據(jù).

3 時間序列預(yù)測

ARIMA模型[11](差分自回歸移動平均模型，Auto-regressive Integrated Moving Average Model)，是一種較高精度的時間序列預(yù)測分析方法，模型簡單，只需要內(nèi)生變量，不需要借助其它外生變量，是20世紀(jì)70年代美國統(tǒng)計(jì)學(xué)家GEP-Box和英國統(tǒng)計(jì)學(xué)家GMJenkins建立的一種隨機(jī)時間序列模型.基于預(yù)測對象隨時間變化形成的數(shù)據(jù)序列，建立數(shù)學(xué)模型.模型通過后，利用建立的方程中的過去值來預(yù)測下一個時間段的數(shù)據(jù).

ARIMA(p,d,q)的公式：

(4)

本文以異常點(diǎn)比例日線作為待預(yù)測目標(biāo)，使用ARIMA進(jìn)行建模.經(jīng)過ADF-Test等平穩(wěn)性檢驗(yàn)，警告閾值線、錯誤閾值線均需要進(jìn)行一階差分后趨于平穩(wěn).通過對ACF圖和PACF圖的分析，得到ARIMA參數(shù)如下：

警告閾值線：ARIMA(6，1，1)

錯誤閾值線：ARIMA(5，1，1)

利用ARIMA模型預(yù)測各列車輔逆溫度的趨勢，如圖4所示.根據(jù)測試結(jié)果可知，T4編組、T6編組、T8編組、T10編組預(yù)測的警告閾值線和錯誤閾值線整體都在設(shè)定的警告閾值線和錯誤閾值線之下，均未報出異常，與實(shí)際列車運(yùn)營情況相吻合.后期會持續(xù)針對實(shí)際運(yùn)行數(shù)據(jù)樣本對模型進(jìn)行預(yù)測.

(a)T4

(b)T6

(c)T8

(d)T10

4 結(jié)論

本文提出了XGBoost和ARIMA算法來預(yù)測列車輔逆系統(tǒng)溫度變化趨勢，并通過數(shù)據(jù)探索、曲線擬合、時序預(yù)測等方法進(jìn)行實(shí)踐，預(yù)測的整體結(jié)果與實(shí)際情況相吻合.但是由于輔逆超溫的異常數(shù)據(jù)樣本極少，后期還需要結(jié)合更多的樣本進(jìn)行訓(xùn)練，來提高算法的魯棒性和泛化能力.此方法對列車運(yùn)營過程中存在的負(fù)樣本較少的實(shí)際應(yīng)用提供了一種新的探索方法，對健康診斷系統(tǒng)故障預(yù)測有借鑒和指導(dǎo)意義.