陳美霞,梁師嵩,胡佳喬
(中車南京浦鎮(zhèn)車輛有限公司,南京 210031)
在城軌列車運行中,列車牽引力通過輪軌滾動接觸界面上的黏著與蠕滑來傳遞,輪軌間的黏著—蠕滑特性直接影響列車牽引和制動性能。車輪在原地轉(zhuǎn)動沒有前進(jìn)的現(xiàn)象稱為空轉(zhuǎn),而車輪在鋼軌上只有滑動沒有滾動的現(xiàn)象則稱為滑行[1]??辙D(zhuǎn)會導(dǎo)致輪軌擦傷,而嚴(yán)重的擦傷往往是鋼軌疲勞失效的重要原因之一?;袝纬绍囕啿羵?,車輪擦傷不僅會使列車運行時車輛/軌道產(chǎn)生強(qiáng)烈振動,還會導(dǎo)致車輪軸承、車軸和軌道的損傷,影響行車安全,增加維修費用;此外,車輪踏面擦傷還會造成輪軌黏著性能進(jìn)一步降低。
目前城軌列車均已采取一系列的措施應(yīng)對空轉(zhuǎn)滑行問題,比如噴沙、降低牽引力、制動壓力修正等方法[2-8],雖有一定的效果,但空轉(zhuǎn)滑行現(xiàn)象始終難以完全避免,特別是位于進(jìn)出站區(qū)段站臺區(qū)域,車輛啟停、軌面污染等都會導(dǎo)致空轉(zhuǎn)/滑行問題更加突出。
輕微的空轉(zhuǎn)/滑行現(xiàn)象對于列車運行沒有太大影響和安全隱患,經(jīng)過常規(guī)的日常檢修即可處理,但較為嚴(yán)重的空轉(zhuǎn)/滑行現(xiàn)象可能需要及時識別出來并對其進(jìn)行緊急處理。較為嚴(yán)重的空轉(zhuǎn)/滑行現(xiàn)象在列車運行中即可視為異常,文中的目的就是識別出此類異常。因為空轉(zhuǎn)/滑行和列車速度、負(fù)載、駕駛模式、路段等息息相關(guān),不適合使用單一的標(biāo)準(zhǔn)進(jìn)行判斷。所以文中針對該問題,提出了一種基于孤立森林的異常檢測方法。通過對空轉(zhuǎn)/滑行的次數(shù)進(jìn)行監(jiān)測、統(tǒng)計、分析,并對之建模,進(jìn)而判斷列車或軌道是否存在潛在風(fēng)險??辙D(zhuǎn)/滑行是列車軸速變化的體現(xiàn),當(dāng)列車在低黏著條件下制動或牽引運行時,系統(tǒng)將檢測到空轉(zhuǎn)或者滑行,如短時間內(nèi)次數(shù)異常,則可推測黏著條件較差或者速度傳感器故障,存在擦輪、冒進(jìn)、抱死或牽引變流器故障風(fēng)險。
孤立森林(Isolation Forest)算法因其具有易于理解、開銷小、時間復(fù)雜度低等特點,所以采用孤立森林來實現(xiàn)空轉(zhuǎn)/滑行的異常檢測。孤立森林算法的步驟如下[9-11]:
(1)首先要獲取原始數(shù)據(jù)集,集中的數(shù)據(jù)都具有共同的多維特征。
(2)設(shè)置樣本集大小n和孤立樹的數(shù)量m。構(gòu)建一棵孤立樹需要從原始數(shù)據(jù)集抽樣出n個數(shù)據(jù),作為這棵孤立樹的樣本數(shù)據(jù)集。
(3)在樣本數(shù)據(jù)集中,隨機(jī)選擇數(shù)據(jù)的一個特征,并算出樣本集的數(shù)據(jù)在此特征上的所有值范圍,在這個范圍中隨機(jī)選一個值,根據(jù)這個特征值對樣本集進(jìn)行劃分,將樣本中特征值小于該值的數(shù)據(jù)劃分到節(jié)點的左子節(jié)點,特征值大于該值的數(shù)據(jù)劃分到節(jié)點的右子節(jié)點。
(4)分別在左右2 個子節(jié)點的數(shù)據(jù)集上重復(fù)第3 步的過程,不斷隨機(jī)選擇特征進(jìn)行劃分,直到子節(jié)點上只有1 個節(jié)點無法再分或者節(jié)點達(dá)到了樹的最大深度。
(5)構(gòu)建好孤立樹后,需要計算每個數(shù)據(jù)在孤立樹上的路徑長度。計算方法以遍歷二叉搜索樹的方式從孤立樹中搜索每個數(shù)據(jù),在孤立樹中根據(jù)節(jié)點的分支條件不斷向下搜索,每向下一次則路徑長度加1。最后找到數(shù)據(jù)點后,返回路徑長度記為h(x)。
(6)計算待測數(shù)據(jù)在孤立森林中的平均路徑長度,然后帶入公式計算出異常指數(shù),計算公式為式(1)~式(3):
式中:E(h(x))為數(shù)據(jù)x在所有樹中的路程長度均值;c(n)為n個點構(gòu)建的二叉搜索樹的平均路徑長度;ξ為歐拉常數(shù);S(x,n)中x為數(shù)據(jù)編號,n為樣本集大小,S為數(shù)據(jù)x在由n個數(shù)據(jù)的樣本集構(gòu)成的孤立樹中的異常指數(shù)。S(x,n)的值與E(h(x))相關(guān),E(h(x))越小,說明數(shù)據(jù)越早被孤立出來,則S值越大,表示該數(shù)據(jù)異常程度越高,反之S值越小則異常程度越低。S的取值范圍為[0,1],在正常情況下,數(shù)據(jù)集中正常數(shù)據(jù)的異常指數(shù)都會在0.5 左右。
首先通過數(shù)據(jù)探索性分析,了解已知數(shù)據(jù),探索變量間的相互關(guān)系,以此確定與上述背景技術(shù)中提出的問題密切相關(guān)的參數(shù);然后針對這一系列參數(shù)進(jìn)行數(shù)據(jù)預(yù)處理,完成模型特征構(gòu)建;接著將構(gòu)建好的特征參數(shù)輸入模型,進(jìn)行模型構(gòu)建調(diào)參;最后將實時數(shù)據(jù)經(jīng)過預(yù)處理后持續(xù)輸入已構(gòu)建好的模型,開始在線運行,以此實現(xiàn)列車當(dāng)前空轉(zhuǎn)和滑行次數(shù)的異常檢測??傮w方案如圖1所示。
圖1 總體方案
模型相關(guān)的特征數(shù)據(jù)一般分為類別特征數(shù)據(jù)和數(shù)字特征數(shù)據(jù),對于類別特征數(shù)據(jù),可做以下分析:類別特征箱形圖可視化、類別特征的小提琴圖可視化、類別特征的柱形圖可視化類別、特征類別頻數(shù)可視化等。
對于數(shù)字特征數(shù)據(jù),可做以下分析:相關(guān)性分析、特征值分布偏度和峰值、數(shù)字特征的分布可視化、數(shù)字特征相互之間的關(guān)系可視化、多變量互相回歸關(guān)系可視化等。
數(shù)據(jù)預(yù)處理分3 步:空值、異常值處理,模型特征構(gòu)造,數(shù)據(jù)降維。
(1)空值、異常值處理:空值是指某一條數(shù)據(jù)缺失某些參數(shù)數(shù)值,如果缺失參數(shù)數(shù)量不多且影響不大可不處理;如果缺失數(shù)據(jù)太多,選擇刪除;如果缺失參數(shù)不多且重要,可采用插值補(bǔ)全方法處理,包括采用均值、中位數(shù)、眾數(shù)等補(bǔ)充。異常值是指數(shù)據(jù)格式錯誤或者明顯超出參數(shù)數(shù)值合理范圍的數(shù)據(jù),該部分?jǐn)?shù)據(jù)同樣可采用刪除或者清空后補(bǔ)全的方法進(jìn)行處理。
(2)模型特征構(gòu)造:構(gòu)造統(tǒng)計特征,例如均值、求和、比例、標(biāo)準(zhǔn)差等;構(gòu)造時間特征,包括相對時間和絕對時間,工作日、雙休日、節(jié)假日等;構(gòu)造地理信息特征,包括坐標(biāo)區(qū)域、分布編碼等;特征非線性變換,包括取對數(shù)log、平方、開平方根等;通過特征組合、特征交叉構(gòu)造新特征。
(3)數(shù)據(jù)降維:如果需要,可采用主成分分析(PCA)、獨立成分分析(ICA)、線性判別分析(LDA)等方法降維。
文中輸入數(shù)據(jù)空值、異常值較少,主要采取刪除和補(bǔ)全的方式進(jìn)行處理。特征構(gòu)造如下:
線路(編碼)
車輛編號(編碼)
時間段(按5 min 進(jìn)行時間切片,然后編碼)
各時間段內(nèi)牽引檢測滑行次數(shù)
各時間段內(nèi)制動檢測滑行次數(shù)
各時間段內(nèi)乘客負(fù)載均值
各時間段內(nèi)乘客負(fù)載峰值
各時間段內(nèi)列車速度均值
各時間段內(nèi)列車速度峰值
各時間段內(nèi)列車速度峰值/均值
實際的工作中,地質(zhì)工程投資時非常復(fù)雜的,會受到多方面因素影響,上述安全投資模型是在特定條件下建立的,和地質(zhì)工程實際情況具有一定的差距。但是實際工作中我們能夠以這一模型作為借鑒,從而提升投資的科學(xué)有效性,降低其風(fēng)險。比如,地質(zhì)工程成本中包含有形成本和無形成本,如事故發(fā)生后引發(fā)的執(zhí)政危機(jī),因此,政府相關(guān)部門會強(qiáng)制性的要求相關(guān)企業(yè)在左右決策點的右部進(jìn)行投資,以便于進(jìn)一步確保工程的安全性。
所用特征數(shù)據(jù)維度較小,不進(jìn)行降維處理。
空轉(zhuǎn)/滑行異常檢測模型構(gòu)建流程如圖2所示。
圖2 空轉(zhuǎn)/滑行模型構(gòu)建流程圖
文中算法相關(guān)參數(shù)經(jīng)過調(diào)參之后設(shè)置如下:孤立樹數(shù)量=50,孤立樹最大深度=10,每棵樹訓(xùn)練樣本數(shù)量=100,異常比例=0.005。模型構(gòu)建以及調(diào)參完成之后,利用Python 中joblib 軟件包保存到本地備用。
模型應(yīng)用步驟如下:
(1)首先通過Python 中joblib 軟件包加載上一步中已構(gòu)建完成的模型。
(2)接收實時數(shù)據(jù),數(shù)據(jù)預(yù)處理。
(3)將處理好的數(shù)據(jù)輸入到已加載的模型。
(4)根據(jù)模型輸出判斷輸入數(shù)據(jù)的異常與否。
(5)將結(jié)果反饋至上一層應(yīng)用系統(tǒng)。
以下將以南京—寧溧線車輛為例,描述整個方案的實施過程,模型相關(guān)參數(shù)均可根據(jù)不同應(yīng)用場景和需求進(jìn)行調(diào)整。南京—寧溧線目前有T0~T11 總共12 輛車在線運行,其中針對每一輛車的實施方案均一致,下面以T4 為例進(jìn)行說明。
從空轉(zhuǎn)/滑行產(chǎn)生的基本原理可以推導(dǎo)出與之相關(guān)的關(guān)鍵參數(shù)主要有車輛載重、駕駛模式、車輛速度、軌面溫濕度等,抽取T4 車輛某年7 月11日0 點至7 月12 日0 點的運行數(shù)據(jù)進(jìn)行展示,如圖3、圖4 所示??梢园l(fā)現(xiàn),車輛載重、車輛駕駛模式、車輛速度變化情況基本一致,每個站點附近速度會產(chǎn)相應(yīng)生變化,車輛各軸的載重也會因為乘客上下車發(fā)生波動,根據(jù)站點ID 變化情況可以看出每跑完一遍線路駕駛模式會有短暫的變化。而空轉(zhuǎn)/滑行發(fā)生時間的附近,以上各參數(shù)均有相應(yīng)的變化。
圖3 南京寧溧線T4 車運行參數(shù)變化情況
圖4 南京寧溧線T4 車運行站點停穩(wěn)信息變化情況
進(jìn)一步將數(shù)據(jù)按5 min的時間長度進(jìn)行切分統(tǒng)計,T4 車 某年7 月11 日10 點~11 點相 關(guān)參數(shù) 統(tǒng)計信息如圖5、圖6 所示??梢钥闯?,滑行事件主要發(fā)生在10∶00∶00 至10∶05∶00 之間,這個區(qū)間發(fā)生滑行的車廂轉(zhuǎn)向架載重均值、載重峰值均較大。而該時間段內(nèi),在速度峰值較高的情況下,平均速度卻很小,說明該區(qū)間內(nèi)存在較大減速操作。綜上可知,載重均值、載重峰值、速度均值、速度峰值、速度峰值均值比均與空轉(zhuǎn)/滑行有一定的關(guān)聯(lián)。
圖5 南京寧溧線T4 車空轉(zhuǎn)/滑行統(tǒng)計(7-11 10:00~ 7-11 11:00)
圖6 南京寧溧線T4 車載重及速度信息統(tǒng)計(7-11 10:00~ 7-11 11:00)
在上述數(shù)據(jù)探索分析過程中發(fā)現(xiàn)有部分時間數(shù)據(jù)缺失,主要采取刪除的方式處理,重要數(shù)據(jù)采取補(bǔ)全措施。
根據(jù)數(shù)據(jù)探索分析結(jié)果,主要特征構(gòu)造如下:
5 min 內(nèi)A1 車B2 架空轉(zhuǎn)次數(shù)
5 min 內(nèi)B1 車B1 架空轉(zhuǎn)次數(shù)
5 min 內(nèi)B1 車B2 架空轉(zhuǎn)次數(shù)
5 min 內(nèi)B2 車B1 架空轉(zhuǎn)次數(shù)
5 min 內(nèi)B2 車B2 架空轉(zhuǎn)次數(shù)
5 min 內(nèi)A2 車B1 架空轉(zhuǎn)次數(shù)
5 min 內(nèi)牽引檢測A1 車B2 架滑行次數(shù)
5 min 內(nèi)牽引檢測B1 車B1 架滑行次數(shù)
5 min 內(nèi)牽引檢測B1 車B2 架滑行次數(shù)
5 min 內(nèi)牽引檢測B2 車B1 架滑行次數(shù)
5 min 內(nèi)牽引檢測B2 車B2 架滑行次數(shù)
5 min 內(nèi)牽引檢測A2 車B1 架滑行次數(shù)
5 min 內(nèi)制動檢測A1 車滑行次數(shù)
5 min 內(nèi)制動檢測B1 車滑行次數(shù)
5 min 內(nèi)制動檢測B2 車滑行次數(shù)
5 min 內(nèi)制動檢測A2 車滑行次數(shù)
5 min 內(nèi)乘客負(fù)載均值
5 min 內(nèi)乘客負(fù)載峰值
5 min 內(nèi)列車速度均值
5 min 內(nèi)列車速度峰值
5 min 內(nèi)列車速度峰值/均值
首先通過數(shù)據(jù)預(yù)處理步驟準(zhǔn)備好模型訓(xùn)練數(shù)據(jù),文中選取南京—寧溧線T4 車某年7 月11 日0點至7 月12 日0 點數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),按5 min的時間長度進(jìn)行切片,然后按照上一步進(jìn)行處理,最后獲取288 條訓(xùn)練數(shù)據(jù)。
模型算法孤立森林相關(guān)參數(shù)經(jīng)過調(diào)參之后設(shè)置如下:孤立樹數(shù)量=50,孤立樹最大深度=10,每棵樹訓(xùn)練樣本數(shù)量=100,異常比例=0.005。將訓(xùn)練數(shù)據(jù)輸入模型,開始訓(xùn)練。待模型訓(xùn)練完成之后,利用模型分辨訓(xùn)練數(shù)據(jù)中的異常數(shù)據(jù),得到1條與實際情況一致的異常數(shù)據(jù):
[ 0,0,0,0,0,0,6,5,6,0,0,0,12,6,0,0,……]
以上數(shù)據(jù)對應(yīng)字段含義依次為:
5 min 內(nèi)A1 車B2 架空轉(zhuǎn)次數(shù)
5 min 內(nèi)B1 車B1 架空轉(zhuǎn)次數(shù)
5 min 內(nèi)B1 車B2 架空轉(zhuǎn)次數(shù)
5 min 內(nèi)B2 車B1 架空轉(zhuǎn)次數(shù)
5 min 內(nèi)B2 車B2 架空轉(zhuǎn)次數(shù)
5 min 內(nèi)A2 車B1 架空轉(zhuǎn)次數(shù)
5 min 內(nèi)牽引檢測A1 車B2 架滑行次數(shù)
5 min 內(nèi)牽引檢測B1 車B1 架滑行次數(shù)
5 min 內(nèi)牽引檢測B1 車B2 架滑行次數(shù)
5 min 內(nèi)牽引檢測B2 車B1 架滑行次數(shù)
5 min 內(nèi)牽引檢測B2 車B2 架滑行次數(shù)
5 min 內(nèi)牽引檢測A2 車B1 架滑行次數(shù)
5 min 內(nèi)制動檢測A1 車滑行次數(shù)
5 min 內(nèi)制動檢測B1 車滑行次數(shù)
5 min 內(nèi)制動檢測B2 車滑行次數(shù)
5 min 內(nèi)制動檢測A2 車滑行次數(shù)
模型構(gòu)建完成之后,利用Python 中joblib 軟件包保存為本地文件備用。
首先采用Python 腳本加載上一步驟中保存下來的模型文件,然后將實時數(shù)據(jù)按照第2 步驟中的方法進(jìn)行預(yù)處理,隨后輸入模型,通過模型的predict 方法獲取模型判斷結(jié)果,最后將模型結(jié)果以及相關(guān)數(shù)據(jù)一同反饋至上一層應(yīng)用系統(tǒng)。
采用南京寧—溧線T4 車某年7 月12 日0 點至7 月20 日0 點數(shù)據(jù)模擬實時數(shù)據(jù)輸入模型,得到2條與實際情況一致的異常數(shù)據(jù):
[ 0,0,0,3,3,0,0,0,0,0,0,0,0,0,0,0,……]
[12,23,15,16,21,27,0,0,0,0,0,0,0,0,0,0,……]
前6 項分別為:
5 min 內(nèi)A1 車B2 架空轉(zhuǎn)次數(shù)
5 min 內(nèi)B1 車B1 架空轉(zhuǎn)次數(shù)
5 min 內(nèi)B1 車B2 架空轉(zhuǎn)次數(shù)
5 min 內(nèi)B2 車B1 架空轉(zhuǎn)次數(shù)
5 min 內(nèi)B2 車B2 架空轉(zhuǎn)次數(shù)
5 min 內(nèi)A2 車B1 架空轉(zhuǎn)次數(shù)
空轉(zhuǎn)/滑行異常難以準(zhǔn)確檢測的問題,文中提出基于孤立森林的檢測方法可以很好地解決。從實施案例可以看出,對于車輛空轉(zhuǎn)/滑行異常的識別達(dá)到了預(yù)期的效果。后續(xù)計劃進(jìn)一步優(yōu)化算法,收集更多的訓(xùn)練數(shù)據(jù)(包括正常和異常數(shù)據(jù)),以達(dá)到更加精確的判斷結(jié)果。