吳強(qiáng),屈利杰
(中車南京浦鎮(zhèn)車輛有限公司,江蘇 南京 210000)*
截至2019年9月30日,我國內(nèi)地累計(jì)有39個城市開通運(yùn)營,軌道交通線路總計(jì)6333.3 km,新增運(yùn)營線路571.9 km.城市軌道交通的迅猛發(fā)展,設(shè)備的安全性也備受關(guān)注.車輛是其重要載體,目前對車輛的研究技術(shù)在不斷的改進(jìn)和加強(qiáng),牽引、輔逆、制動、車門、空調(diào)等系統(tǒng)日趨復(fù)雜,因而發(fā)生故障的類型更加多樣化,如何基于車載和軌旁系統(tǒng)數(shù)據(jù)來提前進(jìn)行故障預(yù)警預(yù)測,是PHM系統(tǒng)成功與否的關(guān)鍵所在.國內(nèi)外研究機(jī)構(gòu)和企業(yè)都在這一領(lǐng)域做了大量的嘗試與驗(yàn)證.在故障預(yù)測的研究方面,早期研究多關(guān)注單個設(shè)備部件.近年來,隨著軌道交通行業(yè)數(shù)據(jù)的積累,基于深度學(xué)習(xí)的智能運(yùn)維逐漸興起[1-2].
目前常用的故障預(yù)警方法有:
(1)固定閾值法[3-4]:通常根據(jù)專家經(jīng)驗(yàn)知識設(shè)定閾值范圍.該方法優(yōu)點(diǎn)是簡單,缺點(diǎn)是需要大量依賴人工經(jīng)驗(yàn),不適用于周期性變化的數(shù)據(jù),維護(hù)困難,準(zhǔn)確性較差.
(2)基于數(shù)據(jù)驅(qū)動的預(yù)測技術(shù)[5-6],是通過設(shè)備生命周期中大量的數(shù)據(jù)信息,通過學(xué)習(xí)獲得輸入和輸出的映射關(guān)系,并在內(nèi)部建立非透明、非線性和不針對特定目標(biāo)的預(yù)測模型,實(shí)現(xiàn)對設(shè)備未來狀態(tài)的預(yù)測.對于復(fù)雜系統(tǒng)來講,因其本身結(jié)構(gòu)的復(fù)雜性,使得建立與之相對應(yīng)的物理模型是很困難的.
(3)基于統(tǒng)計(jì)分析的預(yù)測[7-8],利用實(shí)際生產(chǎn)中積累的經(jīng)驗(yàn)數(shù)據(jù)對產(chǎn)品進(jìn)行分析,得到參數(shù)信息,并利用設(shè)備性能數(shù)據(jù)統(tǒng)計(jì)出各類故障概率密度函數(shù),形成動態(tài)模型,同時使用性能數(shù)據(jù)對參數(shù)信息持續(xù)性修正,不斷提高預(yù)測精度.
(4)基于時間序列的預(yù)測:李向前等人[9-10]提出了檢測時間序列中異常值的方法.此外,當(dāng)前流行的異常檢測算法還有:基于分類,基于聚類,基于最近鄰,基于信息理論,這些方法應(yīng)用到不同領(lǐng)域的異常檢測中,能有效提高檢測的準(zhǔn)確度.
但是以上方法在目前軌道交通領(lǐng)域都只能部分借鑒,原因是現(xiàn)有系統(tǒng)采集的數(shù)據(jù)量少,故障時的負(fù)樣本更少.本文提出了利用XGBoost和ARIMA算法來預(yù)測某類模擬量的趨勢,并給出相應(yīng)的預(yù)警信息.
(1)采用XGBoost算法擬合各工況下輔逆溫度變化曲線;
(2)利用擬合曲線與實(shí)際值偏差做正態(tài)分布,定義警告閾值線和錯誤閾值線;
(3)ARIMA算法預(yù)測后三天的趨勢走向,并通過與警告閾值線和錯誤閾值線的比較給出相關(guān)預(yù)警的信息提示.
由于XGBoost模型可以控制模型的復(fù)雜度,防止模型過擬合,并且在樣本缺失時,可以自動學(xué)習(xí)分裂方向,本文通過綜合比較,引入XGBoost模型.XGBoost在迭代過程中通過樹的深度和數(shù)量自適應(yīng)擬合輔逆系統(tǒng)溫度變化情況,并在迭代過程中,通過正則項(xiàng),防止模型過擬合,提高預(yù)測輔逆系統(tǒng)溫度的準(zhǔn)確性.因此,本文采用基于XGBoost算法的輔逆系統(tǒng)溫度預(yù)測模型,公式如下所示:
(1)
XGBoost訓(xùn)練優(yōu)化的目標(biāo)公式如下:
(2)
(3)
本文所采用的原始數(shù)據(jù)來自于某條實(shí)際運(yùn)營的地鐵車輛,共包含11列車載數(shù)據(jù)集,時間跨度為2019年02月01日~2019年06月30日,數(shù)據(jù)采樣周期為0.5 s,文件大小約為380 GB.
車載數(shù)據(jù)通過4G物聯(lián)網(wǎng)傳輸,采樣周期應(yīng)為0.5s,但是傳輸不穩(wěn)定導(dǎo)致時間記錄不連續(xù),數(shù)據(jù)存在大量缺失和異常值.為了解決原始數(shù)據(jù)集質(zhì)量和存儲問題,對數(shù)據(jù)進(jìn)行整理,剔除缺損值,只選取測點(diǎn)數(shù)量較為完整的文件,共1654個文件,通過優(yōu)化數(shù)據(jù)存儲類型,可降低內(nèi)存消耗,提高算法的收斂速度.
利用專家經(jīng)驗(yàn)、機(jī)理研究和前期的數(shù)據(jù)探索,發(fā)現(xiàn)輔逆溫度的變化與列車的外部溫度、空壓機(jī)的運(yùn)行情況、空調(diào)的運(yùn)行情況等有著直接的關(guān)系,數(shù)據(jù)探索情況見圖1.在曲線擬合的過程中,選取了數(shù)據(jù)集里的CTDU_空調(diào)_列車外部溫度,HC1CT_空調(diào)_A1車外部溫度,HC2CT_空調(diào)_B1車外部溫度,CTPCBC_制動_空壓機(jī)組1運(yùn)行,CTDC_空調(diào)_A1車空調(diào)能耗值,CTDC_空調(diào)_B1車空調(diào)功率等,來擬合輔逆溫度的變化曲線,并與實(shí)際值A(chǔ)C1CT_輔助_A1車逆變模塊溫度做比較分析,對比結(jié)果見圖2.
在算法生成過程中,采用分車交叉驗(yàn)證,應(yīng)對不同列車自身數(shù)據(jù)分布差異,提供算法的魯棒性和泛化能力.
(a)輔逆溫度與空調(diào)功率之間的關(guān)系
(b)輔逆溫度與輔逆功率之間的關(guān)系
(c)輔逆溫度與空壓機(jī)啟停之間的關(guān)系
(d)輔逆溫度與制動電阻風(fēng)機(jī)啟停之間的關(guān)系
圖2 輔逆溫度擬合曲線與實(shí)際曲線的對比
本文采用決策樹、隨機(jī)森林、梯度提升樹算法、XGBoost分別擬合輔逆系統(tǒng)溫度變化曲線,結(jié)果如表1所示,其中R2代表絕對系數(shù),MAE表示預(yù)測結(jié)果絕對誤差的平均值,MSE表示均方誤差.通過比較表1中的數(shù)據(jù)發(fā)現(xiàn),采用XGBoost模型預(yù)測輔逆系統(tǒng)溫度時的R2更接近于1,為0.952 3,說明采用XGBoost模型擬合輔逆系統(tǒng)溫度效果更好;運(yùn)用XGBoost模型預(yù)測輔逆系統(tǒng)溫度時MAE值最小,為1.046,說明采用XGBoost模型預(yù)測輔逆系統(tǒng)溫度有更好的魯棒性;采用XGBoost模型預(yù)測輔逆系統(tǒng)溫度時MSE值最大,為1.998,說明采用XGBoost模型預(yù)測輔逆系統(tǒng)溫度有更好的精確度.所以,經(jīng)過對比發(fā)現(xiàn),使用XGBoost算法預(yù)測輔逆系統(tǒng)溫度時的精確度更高,魯棒性更好.
表1 不同算法之間的比較
選取2019年4~5月的車載數(shù)據(jù)集作為樣本集,采用已訓(xùn)練好的XGBoost算法擬合出輔逆溫度的曲線,以天為單位,計(jì)算出實(shí)際輔逆溫度和擬合輔逆溫度之間的偏差,繪制偏差分布如圖3所示.
圖3 實(shí)際值與擬合值偏差的分布
計(jì)算統(tǒng)計(jì)所有列車偏差分布,提取殘差分布的統(tǒng)計(jì)特征,整體分布均值0.021 2,標(biāo)準(zhǔn)差為1.31,中位數(shù)為-0.069 6,數(shù)值范圍在[-9.15, 7.87],近似服從正態(tài)分布.因此,使用正態(tài)分布的標(biāo)準(zhǔn)差判斷逆變模塊溫度是否存在異常趨勢.
本文定義誤差超過均值±2倍標(biāo)準(zhǔn)差之外的點(diǎn)判定為預(yù)警點(diǎn),誤差超過均值±3倍標(biāo)準(zhǔn)差之外的點(diǎn)判定為誤差點(diǎn).
通過以上定義,統(tǒng)計(jì)測試該時間段內(nèi)每列車每天對應(yīng)異常數(shù)據(jù)點(diǎn)的比例,尋找趨勢線,為確保統(tǒng)計(jì)數(shù)據(jù)的有效,要求當(dāng)天數(shù)據(jù)滿足以下條件:①剔除異常的溫度數(shù)據(jù);②要求當(dāng)天滿足列車速度大于0的數(shù)據(jù)大于50個采樣點(diǎn).
求取以上異常點(diǎn)的比例,作為下一步時間序列預(yù)測的基礎(chǔ)數(shù)據(jù).
ARIMA模型[11](差分自回歸移動平均模型,Auto-regressive Integrated Moving Average Model),是一種較高精度的時間序列預(yù)測分析方法,模型簡單,只需要內(nèi)生變量,不需要借助其它外生變量,是20世紀(jì)70年代美國統(tǒng)計(jì)學(xué)家GEP-Box和英國統(tǒng)計(jì)學(xué)家GMJenkins建立的一種隨機(jī)時間序列模型.基于預(yù)測對象隨時間變化形成的數(shù)據(jù)序列,建立數(shù)學(xué)模型.模型通過后,利用建立的方程中的過去值來預(yù)測下一個時間段的數(shù)據(jù).
ARIMA(p,d,q)的公式:
(4)
本文以異常點(diǎn)比例日線作為待預(yù)測目標(biāo),使用ARIMA進(jìn)行建模.經(jīng)過ADF-Test等平穩(wěn)性檢驗(yàn),警告閾值線、錯誤閾值線均需要進(jìn)行一階差分后趨于平穩(wěn).通過對ACF圖和PACF圖的分析,得到ARIMA參數(shù)如下:
警告閾值線:ARIMA(6,1,1)
錯誤閾值線:ARIMA(5,1,1)
利用ARIMA模型預(yù)測各列車輔逆溫度的趨勢,如圖4所示.根據(jù)測試結(jié)果可知,T4編組、T6編組、T8編組、T10編組預(yù)測的警告閾值線和錯誤閾值線整體都在設(shè)定的警告閾值線和錯誤閾值線之下,均未報出異常,與實(shí)際列車運(yùn)營情況相吻合.后期會持續(xù)針對實(shí)際運(yùn)行數(shù)據(jù)樣本對模型進(jìn)行預(yù)測.
(a)T4
(b)T6
(c)T8
(d)T10
本文提出了XGBoost和ARIMA算法來預(yù)測列車輔逆系統(tǒng)溫度變化趨勢,并通過數(shù)據(jù)探索、曲線擬合、時序預(yù)測等方法進(jìn)行實(shí)踐,預(yù)測的整體結(jié)果與實(shí)際情況相吻合.但是由于輔逆超溫的異常數(shù)據(jù)樣本極少,后期還需要結(jié)合更多的樣本進(jìn)行訓(xùn)練,來提高算法的魯棒性和泛化能力.此方法對列車運(yùn)營過程中存在的負(fù)樣本較少的實(shí)際應(yīng)用提供了一種新的探索方法,對健康診斷系統(tǒng)故障預(yù)測有借鑒和指導(dǎo)意義.