楊四輩
(北京全路通信信號研究設(shè)計院集團有限公司,北京 100070)
我國高速鐵路列車運行控制系統(tǒng)多采用CTCS-2級和CTCS-3級,應(yīng)答器系統(tǒng)在信息傳輸媒介均發(fā)揮著至關(guān)重要的作用。
在實際的使用中,往往出現(xiàn)因為應(yīng)答器報文錯誤而導(dǎo)致的高鐵列車緊急制動等事故多次發(fā)生,嚴重影響列車運行效率,甚至危及旅客的生命財產(chǎn)安全。因此亟需對應(yīng)答器報文有效性可用性等做出判斷。然而,應(yīng)答器數(shù)量龐大,其所包含數(shù)據(jù)信息數(shù)量龐大、種類繁多,面對如此海量的數(shù)據(jù),從中篩選出不一致的信息,降低數(shù)據(jù)誤差導(dǎo)致的不良影響,是一個急需解決的問題。
近些年來,計算機科學(xué)技術(shù)發(fā)展迅速,其處理分析數(shù)據(jù)的速度及能力高速提升,使得數(shù)據(jù)挖掘的作用得到更好發(fā)揮。
應(yīng)答器報文數(shù)據(jù)信息又有復(fù)雜多樣和隱蔽性的特點,把數(shù)據(jù)挖掘技術(shù)應(yīng)用于應(yīng)答器報文的數(shù)據(jù)分析,必將提高工作效率和計算結(jié)果的準確度,使應(yīng)答器報文分析系統(tǒng)具有真正的實用價值。
對于應(yīng)答器報文信息的研究從未中斷,主要包括:朱曉航等充分研究基于FPGA的應(yīng)答器報文編碼和譯碼;邢毅等從應(yīng)用層面,分析高鐵列車運行控制系統(tǒng)應(yīng)答器報文應(yīng)用原則;劉長波等人提出一種采用仿真方法對應(yīng)答器報文進行動態(tài)驗證的方法:即通過使用計算機對聯(lián)鎖設(shè)備和列控中心設(shè)備進行仿真,驗證應(yīng)答器報文中的相關(guān)信息是否正確,這種方法在通號實驗室普遍推廣并為理論研究提供了良好的思路。但尚未有基于數(shù)據(jù)挖掘算法對應(yīng)答器報文數(shù)據(jù)信息進行系統(tǒng)性的結(jié)構(gòu)分析和報文內(nèi)容一致性驗證。
數(shù)據(jù)挖掘(Data mining)是用人工智能、專家系統(tǒng)、統(tǒng)計方法和計算機數(shù)據(jù)存儲的交叉方法在大的數(shù)據(jù)集中發(fā)現(xiàn)規(guī)律的計算方式。
數(shù)據(jù)挖掘過程的總體目標是從一個數(shù)據(jù)集中提取信息,并將其轉(zhuǎn)換成可理解的結(jié)構(gòu),以進一步使用。而這一總體目標同對應(yīng)答器報文信息的處理是一致的,所以可以使用數(shù)據(jù)挖掘技術(shù)進行應(yīng)答器報文信息的處理。數(shù)據(jù)挖掘技術(shù)的算法有很多種,但是針對應(yīng)答器報文信息的特點,要選擇合適算法。
基于密度的聚類算法,是為了挖掘有任意形狀特性的類別而專門設(shè)計的。此算法把一個類別看成數(shù)據(jù)集中大于某特定值的一個大區(qū)域。DBSCAN和OPTICS是兩個典型的算法。
主要的聚類算法分類如表1所示。
表1 常見的聚類算法Tab. 1 Common Clustering Algorithm
基于各種聚類算法的優(yōu)劣,結(jié)合高速鐵路應(yīng)答器報文數(shù)據(jù)的信息特征,選取K-means聚類算法,進行應(yīng)答器數(shù)據(jù)挖掘技術(shù)中的數(shù)據(jù)分析算法。
基于K-means聚類分析的應(yīng)答器數(shù)據(jù)分析流程如圖1所示,主要包含以下幾個步驟。
1) 應(yīng)答器原始數(shù)據(jù)的提取。
2) 應(yīng)答器報文數(shù)據(jù)解析。
3) 解析后數(shù)據(jù)的分類存儲與預(yù)處理。
4) 采用K-means進行聚類分析,得到分類結(jié)果。
5) 對分類結(jié)果進行數(shù)據(jù)一致性分析,判定應(yīng)答器報文數(shù)據(jù)的一致性。
應(yīng)答器報文數(shù)據(jù)主要功能需求及C/S結(jié)構(gòu)的基本特征,應(yīng)答器報文數(shù)據(jù)分析系統(tǒng)界面布局如圖2所示,包括系統(tǒng)工具欄區(qū)、報文數(shù)據(jù)顯示區(qū)、解析數(shù)據(jù)顯示區(qū)和日志及報警信息顯示4部分。
雖然應(yīng)答器數(shù)據(jù)量大,但是其解析數(shù)據(jù)擁有結(jié)構(gòu)清晰的特點,對于使用大數(shù)據(jù)分析的方法,難免大材小用,且不易于工程化的設(shè)計和實現(xiàn),因此可以考慮采用小型化、輕便的數(shù)據(jù)分析工具來實現(xiàn)基于K-means的應(yīng)答器數(shù)據(jù)分析。
應(yīng)答器報文讀取功能模塊是整個應(yīng)答器報文數(shù)據(jù)分析系統(tǒng)的基礎(chǔ),其主要完成應(yīng)答器報文數(shù)據(jù)的正確、高效讀取,并注入整個系統(tǒng)平臺,為平臺的正常正確運行提供基礎(chǔ)數(shù)據(jù)支撐。應(yīng)答器報文讀取模塊的程序框架,如表2所示。
圖1 基于K-means聚類分析的應(yīng)答器數(shù)據(jù)分析流程Fig.1 The Balise data analysis process based on K-means
圖2 應(yīng)答器報文數(shù)據(jù)分析系統(tǒng)界面布局Fig.2 The operation interface of balise message data analysis system
表2 應(yīng)答器報文讀取模塊的程序框架Tab. 2 Program frame of the balise message reading module
應(yīng)答器報文解析功能模塊是整個應(yīng)答器報文數(shù)據(jù)分析系統(tǒng)的一個核心模塊,其主要完成應(yīng)答器報文數(shù)據(jù)解碼功能,主要包含應(yīng)答器原始數(shù)據(jù)進制轉(zhuǎn)換、數(shù)據(jù)位數(shù)檢查、應(yīng)答器報文幀頭解析、用戶信息寶解析等功能,其程序框架,如表3所示。
結(jié)合應(yīng)答器報文讀取報文、報文解析、數(shù)據(jù)分析、數(shù)據(jù)顯示等主要功能需求,實現(xiàn)界面包含系統(tǒng)工具欄區(qū)、報文數(shù)據(jù)顯示區(qū)、解析數(shù)據(jù)顯示區(qū)和日志及報警信息顯示4部分,集應(yīng)答器報文解析、報文組包、基于數(shù)據(jù)挖掘的應(yīng)答器報文分析、分析結(jié)果顯示于一體的應(yīng)答器報文分析系統(tǒng),系統(tǒng)應(yīng)答器報文解析界面如圖3所示。
應(yīng)答器報文數(shù)據(jù)分析系統(tǒng)界面需清晰友好、操作簡單,能夠完全實現(xiàn)報文讀取報文、報文解析、數(shù)據(jù)分析、數(shù)據(jù)顯示等功能,在一定程度上具備系統(tǒng)的準確性、互操作性、依從性、安全性以及功能要求等。
表3 應(yīng)答器報文解析模塊的程序框架Tab. 3 Program frame of the balise message parsing module
圖3 應(yīng)答器報文數(shù)據(jù)分析系統(tǒng)運行界面Fig.3 The operation interface of balise message data analysis system
應(yīng)答器報文數(shù)據(jù)分析系統(tǒng)進行應(yīng)答器數(shù)據(jù)分析,相比于以往的人工數(shù)據(jù)校驗工作,效率大大提升,并且準確率也得到保障,降低了因人為疏忽導(dǎo)致的數(shù)據(jù)校驗誤差。
如圖4所示,通過對國內(nèi)某高鐵線路的應(yīng)答器信息進行數(shù)據(jù)解析、存儲,并經(jīng)過基于K-means數(shù)據(jù)挖掘算法的分析得到全線的分相區(qū)信息、坡度信息、固定限速信息、應(yīng)答器鏈接信息、特殊軌道區(qū)段信息、大號碼道岔信息等分類簇,并且分類簇的數(shù)據(jù)具備相同的屬性,從而為進行不同應(yīng)答器描述的同一信息的一致性分析奠定數(shù)據(jù)基礎(chǔ)。
圖4 分相區(qū)信息聚類分析結(jié)果Fig.4 The results of clustering analysis of the phase separation zone information
經(jīng)過應(yīng)答器報文數(shù)據(jù)分析系統(tǒng)對圖4所示的全線分相區(qū)的分類匯總信息,進行數(shù)據(jù)的一致性分析,可以很直觀的得到,全線對于同一分相區(qū)的信息雖然在不同的應(yīng)答器中進行描述,但是對于同一分相區(qū)信息的描述與高速鐵路應(yīng)答器應(yīng)用原則的要求一致,并且同一分相區(qū)的位置(反映到數(shù)據(jù)中就是公里標)一致,如圖5所示,描述分相區(qū)信息的曲線完全重合。
圖5 分相區(qū)信息一致性分析結(jié)果Fig.5 The results of consistency analysis of the phase separation zone information
同樣,以該高鐵線路某區(qū)間的坡度信息為例,其聚類分析后的數(shù)據(jù)分類簇如圖6所示,其中可以看到對于某段坡度信息的描述,少則在某一組應(yīng)答器單獨描述,多則可以達到12個應(yīng)答器組之多,可見如果對于該線路所描述的所有坡度信息進行人工的數(shù)據(jù)一致性分析,是非常龐大的工作量,需要耗費相當(dāng)大的人力和物力。但是應(yīng)答器報文數(shù)據(jù)分析系統(tǒng)實現(xiàn)對于數(shù)據(jù)的查看、分析和輔助完善更加便捷、高效。
圖6 坡度信息聚類分析結(jié)果Fig.6 The results of clustering analysis of the slope information
經(jīng)過本文所研發(fā)的應(yīng)答器報文數(shù)據(jù)分析系統(tǒng)對圖6所示的全線坡度的分類匯總信息,進行數(shù)據(jù)的一致性分析可以很直觀的得到,全線對于同一坡度的描述雖然在不同的應(yīng)答器中,但是對于同一坡度信息的描述有5處描述的不一致,如圖7所示。
1) 有2組應(yīng)答器對于同一坡度位置的坡度信息描述不一致的4處。
2) 有3組應(yīng)答器對于同一坡度位置的坡度信息描述不一致的1處。
以地面應(yīng)答器報文驗證需求為出發(fā)點,結(jié)合應(yīng)答器的本身特性,對應(yīng)答器應(yīng)用進行分析,提出基于數(shù)據(jù)挖掘的應(yīng)答器報文數(shù)據(jù)分析方法,對高速鐵路列控系統(tǒng)的應(yīng)答器報文驗證工作有一定的參考價值和實用意義。
但也存在不足:實現(xiàn)算法依個人觀點總結(jié)所得,算法較簡單,究其原因,是實現(xiàn)思路、驗證方法過于簡單,未能使檢測結(jié)果滿足所有的現(xiàn)實情況所致。其次對應(yīng)答器報文的驗證只局限于地面設(shè)備,未能加入車載接受信息過程對整個測試過程的影響。
我國對于應(yīng)答器系統(tǒng)的研制起步相對較晚,類似于應(yīng)答器報文數(shù)據(jù)驗證等很多操作還需人工手動完成,時間長且工作效率低。在大量的應(yīng)答器報文信息編制工作及保證應(yīng)答器報文數(shù)據(jù)正確性、安全性方面仍需進一步改進。因此開發(fā)全自動化的應(yīng)答器報文數(shù)據(jù)驗證工具,通過對應(yīng)答器報文進行解碼譯碼驗證數(shù)據(jù)包格式正確性,并與工程數(shù)據(jù)表對應(yīng)數(shù)據(jù)比對,以檢驗其內(nèi)容的正確性。為后續(xù)應(yīng)答器報文數(shù)據(jù)分析提供可靠真實的依據(jù)。