黃魯江
鐵路信號集中監(jiān)測系統(tǒng)(Centralized Signaling Monitoring,CSM)不僅對室內(nèi)信號系統(tǒng)的關(guān)鍵設(shè)備進(jìn)行監(jiān)控,還監(jiān)測室外道岔、信號機(jī)、軌道電路的狀態(tài)等[1]。計算機(jī)聯(lián)鎖系統(tǒng)中的電務(wù)維修機(jī),主要負(fù)責(zé)記錄聯(lián)鎖系統(tǒng)中聯(lián)鎖機(jī)的運(yùn)行狀態(tài)、采集和驅(qū)動、站場表示、各種板塊故障等信息,但仍然缺乏對一些關(guān)鍵設(shè)備(如交換機(jī)、工控機(jī)等)運(yùn)行情況的監(jiān)測。從運(yùn)維方面來看,計算機(jī)聯(lián)鎖系統(tǒng)并沒有一個完整的維護(hù)工具(軟件)來監(jiān)控整個系統(tǒng)內(nèi)各個關(guān)鍵設(shè)備的運(yùn)行情況,既缺少系統(tǒng)整體運(yùn)行情況的關(guān)鍵信息,也缺少支持自動化維護(hù)的詳細(xì)數(shù)據(jù)。
自動化運(yùn)維能夠大幅度提高維護(hù)的自動化程度,彌補(bǔ)人力維護(hù)質(zhì)量不高、響應(yīng)速度不快的缺點(diǎn),已廣泛應(yīng)用于電力、IT等行業(yè)[2-4]。它在計算機(jī)聯(lián)鎖系統(tǒng)中的應(yīng)用,將彌補(bǔ)部分關(guān)鍵設(shè)備的監(jiān)控缺失,提高手動維護(hù)模式的效率和準(zhǔn)確率,解決現(xiàn)階段缺乏高效的運(yùn)維機(jī)制和運(yùn)維工具的難題。
本文將自動化運(yùn)維的概念引入到計算機(jī)聯(lián)鎖系統(tǒng)的維護(hù)中,使計算機(jī)聯(lián)鎖系統(tǒng)的維護(hù)和監(jiān)測變得更加準(zhǔn)確和完善,從而為進(jìn)一步的智能化維護(hù)提供基礎(chǔ)數(shù)據(jù)。
計算機(jī)聯(lián)鎖系統(tǒng)自動化運(yùn)維的目標(biāo)是在最少的人工干預(yù)下,通過自動化運(yùn)維工具,保證計算機(jī)聯(lián)鎖系統(tǒng)7×24 h高效穩(wěn)定運(yùn)行。
1)實(shí)現(xiàn)設(shè)備監(jiān)控自動化。對計算機(jī)聯(lián)鎖系統(tǒng)中運(yùn)行的各種關(guān)鍵設(shè)備狀態(tài)進(jìn)行實(shí)時監(jiān)控,隨時發(fā)現(xiàn)各設(shè)備已經(jīng)發(fā)生的或潛在的異常情況;輸出系統(tǒng)中關(guān)鍵設(shè)備的日常運(yùn)行報表,進(jìn)而評估系統(tǒng)整體運(yùn)行狀況。
2)完善故障預(yù)警和處理流程。采用可視化技術(shù),提供更加直觀、完善的故障報警信息和故障處理操作指導(dǎo),提高故障定位準(zhǔn)確率,降低維護(hù)人員故障定位和故障處理的難度;同時,根據(jù)不同等級的故障對維護(hù)人員進(jìn)行通知,減少故障時間,降低故障影響。
3)實(shí)現(xiàn)預(yù)測性維護(hù)。它是自動化運(yùn)維的一個最重要目標(biāo),自動化運(yùn)維獲取的大量設(shè)備數(shù)據(jù)都是實(shí)現(xiàn)預(yù)測性維護(hù)的數(shù)據(jù)基礎(chǔ),預(yù)測性維護(hù)將在不斷提高維護(hù)人員工作效率的同時,準(zhǔn)確地預(yù)測系統(tǒng)異常,可提高計算機(jī)聯(lián)鎖系統(tǒng)運(yùn)行的穩(wěn)定性。
4)提高計算機(jī)聯(lián)鎖系統(tǒng)安裝、調(diào)試、運(yùn)營、維護(hù)各階段的效率,完善維護(hù)體驗(yàn)。自動化運(yùn)維是通過自動化的手段協(xié)助維護(hù)人員提高產(chǎn)品運(yùn)行的可靠性,所以功能的簡潔、直觀和高效可以最大程度降低維護(hù)人員的掌握和操作難度。
5)實(shí)現(xiàn)故障的預(yù)警、恢復(fù)、存檔一體化功能。在故障出現(xiàn)之前,維護(hù)人員應(yīng)該能在任何時間、任何地點(diǎn)接收到告警信息,并及時處理問題,消除故障隱患;當(dāng)故障發(fā)生后,需要有足夠完善的故障處理策略和指導(dǎo)措施,幫助維護(hù)人員在最短時間內(nèi)將系統(tǒng)恢復(fù)正常。自動生成故障報告并存檔相關(guān)故障數(shù)據(jù)記錄,方便后續(xù)查閱。
自動化運(yùn)維覆蓋計算機(jī)聯(lián)鎖系統(tǒng)產(chǎn)品從安裝調(diào)試到運(yùn)營維護(hù)多個不同階段,可分為2類工具:一類是安裝調(diào)試及數(shù)據(jù)升級階段的自動化部署和配置工具;另一類是產(chǎn)品正式投入使用后的運(yùn)維監(jiān)控和維護(hù)診斷工具。
安裝調(diào)試及軟件數(shù)據(jù)升級階段的主要目標(biāo)是實(shí)現(xiàn)軟件、數(shù)據(jù)、工具等的自動部署、自動配置和批量操作。
1)自動部署。在傳統(tǒng)的安裝調(diào)試階段中,工程師在安裝部署維修機(jī)、操作機(jī)的軟件、數(shù)據(jù)、工具時,需要經(jīng)歷原始文件的拷貝、手動點(diǎn)擊安裝工具、人工選擇數(shù)據(jù)及配置的路徑、進(jìn)行反復(fù)多次的復(fù)制黏貼操作,工作效率低,易出現(xiàn)遺漏和錯誤。
自動化運(yùn)維工具實(shí)現(xiàn)自動完成數(shù)據(jù)軟件部署和工具安裝。工程師只需要將聯(lián)鎖系統(tǒng)安裝調(diào)試所需的相關(guān)數(shù)據(jù)、軟件、工具存放在U盤中(或者指定文件夾),插上U盤后即可自動完成工具的自動安裝、軟件數(shù)據(jù)的版本(MD5)核對和自動部署。同時可以生成自動部署報告,用于工程師核對和項(xiàng)目歸檔。
不同于權(quán)限,敏感API信息包含每個API的平均調(diào)用次數(shù),所以惡意特征的表現(xiàn)方式會更加明顯,通過反編譯得到每個應(yīng)用的API調(diào)用情況,結(jié)合調(diào)用次數(shù)建立基于敏感API的特征向量,并輸入分類器中。實(shí)驗(yàn)結(jié)果如表3所示。
2)自動配置。在傳統(tǒng)的安裝調(diào)試階段,工程師需要進(jìn)行工控機(jī)的多項(xiàng)系統(tǒng)配置,甚至某些配置相對復(fù)雜,工程師每次都需要根據(jù)手冊一步步進(jìn)行操作,工作量大。
自動化運(yùn)維工具只需要工程師通過前端交互頁面,選擇配置清單,即可自動根據(jù)配置清單修改機(jī)器中系統(tǒng)的相關(guān)配置;同時還可以產(chǎn)生自動配置報告,用于工程師核對和項(xiàng)目歸檔。
3)批量操作。雖然單站的計算機(jī)聯(lián)鎖系統(tǒng)中工控機(jī)數(shù)量并不多,但如果是一條線幾十個站都需要對工控機(jī)進(jìn)行部署和配置,就需要工程師進(jìn)行大量重復(fù)的工作。
自動化維護(hù)工具使工程師可以通過運(yùn)維工具前端交互頁面,選擇多臺機(jī)器,配置需要進(jìn)行的操作,即可實(shí)現(xiàn)工具的批量安裝、軟件數(shù)據(jù)的批量部署和系統(tǒng)配置的批量修改等。
4)自動化測試。計算機(jī)聯(lián)鎖系統(tǒng)安裝調(diào)試階段,除了有些必須人工參與的安裝調(diào)試過程,還有一些可以通過自動化實(shí)現(xiàn)的過程,比如繼電器的點(diǎn)對點(diǎn)測試。傳統(tǒng)的方式需要人工進(jìn)行核對,但是人工核對方式無法做到枚舉。比如測試一個繼電器的吸起,人工很難監(jiān)測只有一個繼電器吸起而所有除該繼電器外的其他繼電器都沒有吸起。但是如果通過自動化工具完全可以實(shí)現(xiàn)繼電器的點(diǎn)對點(diǎn)測試。諸如此類的一些測試,都可以開發(fā)并合到自動化運(yùn)維工具中。
軟件數(shù)據(jù)升級階段依然可以通過自動化運(yùn)維工具的自動部署功能,完成軟件和數(shù)據(jù)的版本核對、軟件和數(shù)據(jù)的自動部署;同時可以自動生成升級報告,用于工程師核對和項(xiàng)目歸檔。
計算機(jī)聯(lián)鎖系統(tǒng)的維護(hù)子系統(tǒng),現(xiàn)階段仍停留在主要對聯(lián)鎖機(jī)的相關(guān)硬件及軟件監(jiān)督和分析上,缺失其他重要設(shè)備的關(guān)鍵信息。
而運(yùn)營階段的自動化運(yùn)維,是對計算機(jī)聯(lián)鎖系統(tǒng)中主要設(shè)備的監(jiān)控、報警、維護(hù)指導(dǎo)及系統(tǒng)運(yùn)行報告的生成。其功能包括如下幾部分。
1)工控機(jī)類。工控機(jī)是系統(tǒng)中維修機(jī)或操作機(jī)軟件運(yùn)行的載體,其穩(wěn)定運(yùn)行是計算機(jī)聯(lián)鎖系統(tǒng)穩(wěn)定運(yùn)行的基礎(chǔ),所以對工控機(jī)的監(jiān)測內(nèi)容主要包括:CPU占用率、內(nèi)存占用率、網(wǎng)卡發(fā)送接收速率、網(wǎng)卡發(fā)送接收異常數(shù)據(jù)統(tǒng)計、硬盤使用率、重要進(jìn)程運(yùn)行狀態(tài)監(jiān)督及內(nèi)存占用率;工控機(jī)出廠時間、連續(xù)運(yùn)行時間;硬盤使用率;操作系統(tǒng)異常日志的報警、異常進(jìn)程監(jiān)測;維修機(jī)或操作機(jī)軟件運(yùn)行時間、軟件異常報警等。
2)網(wǎng)絡(luò)類。計算機(jī)聯(lián)鎖系統(tǒng)各運(yùn)行設(shè)備之間通過網(wǎng)絡(luò)通道進(jìn)行通信,因此網(wǎng)絡(luò)的穩(wěn)定是計算機(jī)聯(lián)鎖系統(tǒng)穩(wěn)定運(yùn)營的重要前提,其主要監(jiān)測內(nèi)容包括:交換機(jī)的CPU占用率、內(nèi)存占用率,每個端口的流量統(tǒng)計、異常數(shù)據(jù)統(tǒng)計;交換機(jī)和各端口的運(yùn)行時間、交換機(jī)電源狀態(tài)、交換機(jī)負(fù)載監(jiān)測和預(yù)測;網(wǎng)絡(luò)流量監(jiān)測和預(yù)測、網(wǎng)絡(luò)中各設(shè)備通道狀態(tài)監(jiān)測、網(wǎng)絡(luò)數(shù)據(jù)備份。
3)聯(lián)鎖機(jī)類。聯(lián)鎖機(jī)是計算機(jī)聯(lián)鎖系統(tǒng)的核心設(shè)備,是計算機(jī)聯(lián)鎖系統(tǒng)安全、穩(wěn)定運(yùn)行的關(guān)鍵。其主要監(jiān)測內(nèi)容包括:板卡性能的CPU占用率、溫度、內(nèi)存占用率、電壓;系統(tǒng)及板卡的連續(xù)運(yùn)行時間;故障的自動報警、自動分析、處理措施指引等。
4)系統(tǒng)類。主要功能包括:定期的系統(tǒng)檢測報告;日志自動拷貝、自動分析;系統(tǒng)各設(shè)備的電源監(jiān)督和報警;UPS的運(yùn)行參數(shù)監(jiān)督和報警。
5)環(huán)境變量監(jiān)測。監(jiān)測系統(tǒng)運(yùn)行環(huán)境的溫度、濕度、灰塵等,有助于系統(tǒng)的穩(wěn)定運(yùn)行和對設(shè)備壽命的預(yù)測報警。
6)版本管理。主要功能包括:板卡、工控機(jī)等設(shè)備的硬件序列號及版本管理;維修機(jī)軟件、操作機(jī)軟件、聯(lián)鎖機(jī)軟件及聯(lián)鎖數(shù)據(jù)的版本管理,版本變更確認(rèn);交換機(jī)軟件及配置版本管理等。
傳統(tǒng)的計劃性維護(hù)是一種預(yù)防性維護(hù),是按照固定周期進(jìn)行的一些常規(guī)性檢查和測試。預(yù)測性維護(hù)不是基于固定周期的維護(hù)策略,而是利用收集到的設(shè)備歷史數(shù)據(jù)對設(shè)備進(jìn)行評估,進(jìn)而計算出需要維護(hù)的時間,或者判斷是否有必要進(jìn)行維護(hù)操作。而自動化運(yùn)維的重要性,在于保證計算機(jī)聯(lián)鎖系統(tǒng)在維護(hù)階段能高效、準(zhǔn)確地實(shí)施維護(hù)措施,可取消周期性維護(hù)中不必要的工作,減少人工維護(hù)的工作量。系統(tǒng)不再需要定期的維護(hù),而是利用大量的設(shè)備歷史數(shù)據(jù),編制預(yù)測性維護(hù)策略和預(yù)估設(shè)備剩余使用壽命。
自動化運(yùn)維在此階段的主要功能包括:硬盤使用壽命評估和預(yù)測;工控機(jī)壽命評估和預(yù)測;電源類設(shè)備壽命評估和預(yù)測;聯(lián)鎖機(jī)硬件板卡壽命評估和預(yù)測;系統(tǒng)負(fù)載使用率統(tǒng)計及預(yù)測(幫助維護(hù)人員了解繼電器或者室外設(shè)備的使用頻率)。
對于突發(fā)性故障,自動化運(yùn)維工具提供了更合理、更完善的故障排查策略和指導(dǎo)措施。主要功能包括:電纜、配線的可視化顯示;聯(lián)鎖邏輯關(guān)系和故障邏輯的可視化顯示;故障排查步驟的直觀引導(dǎo)等。
當(dāng)故障發(fā)生時,故障排查步驟不再是紙質(zhì)形式的流程圖,而是更直觀、更具有操作性的引導(dǎo)步驟,使得維護(hù)人員對故障的排查處理更加便捷和高效,幫助維護(hù)人員減少故障處理時間,降低故障影響。
計算機(jī)聯(lián)鎖系統(tǒng)的維護(hù)仍然停留在人工維護(hù)階段,主要原因在于系統(tǒng)中無法提供支持自動化運(yùn)維的相關(guān)數(shù)據(jù)。自動化運(yùn)維的全面實(shí)現(xiàn)將依靠并推動以下幾方面關(guān)鍵技術(shù)的發(fā)展。
1)人工智能算法及數(shù)據(jù)挖掘技術(shù)。該技術(shù)已經(jīng)在相關(guān)行業(yè)有了廣泛的研究和應(yīng)用。例如:網(wǎng)絡(luò)質(zhì)量的監(jiān)測、原因定位、預(yù)診斷[6],硬盤壽命預(yù)測[7],電源壽命預(yù)測[8],工程圖紙的電子化[9]以及基于數(shù)據(jù)挖掘技術(shù)的故障診斷[10-11]。雖然相關(guān)的技術(shù)發(fā)展迅速,并且已經(jīng)實(shí)際投入應(yīng)用,但是在自動化運(yùn)維領(lǐng)域的研究并不多,一方面相關(guān)智能算法在參數(shù)尋找、調(diào)優(yōu)等方面仍具有較大的應(yīng)用困難;另一方面相關(guān)設(shè)備的數(shù)據(jù)來自不同廠商、不同時期的產(chǎn)品,可能存在較大數(shù)據(jù)差異,而且對算法的泛化能力及參數(shù)適用性也帶來挑戰(zhàn)。人工智能算法將自動化運(yùn)維向智能化運(yùn)維推進(jìn),存在挑戰(zhàn)的同時也面臨著巨大的機(jī)遇。
設(shè)備壽命預(yù)測、故障分析、圖像識別等技術(shù)必將在自動化運(yùn)維方面帶來深遠(yuǎn)的影響和廣泛的應(yīng)用。
2)硬件監(jiān)測技術(shù)。受限于硬件技術(shù),現(xiàn)階段的計算機(jī)聯(lián)鎖硬件產(chǎn)品相對落后,主要的硬件資源都用于核心業(yè)務(wù)(安全校驗(yàn)、聯(lián)鎖邏輯計算)的運(yùn)算,沒有足夠的資源去完成監(jiān)測類任務(wù)和診斷類任務(wù)。隨著硬件技術(shù)的更新迭代,計算機(jī)聯(lián)鎖系統(tǒng)中的硬件設(shè)備將具備更高的計算機(jī)速度和內(nèi)存容量,有更多的資源去完成監(jiān)測類和診斷類的任務(wù),這些改變對計算機(jī)聯(lián)鎖系統(tǒng)的監(jiān)測有著重要意義,也使得自動化運(yùn)維成為可能。自動化運(yùn)維的需求也將推動計算機(jī)聯(lián)鎖系統(tǒng)中軟件和硬件的發(fā)展。
3)可視化技術(shù)。作為人機(jī)交互技術(shù)的綜合體現(xiàn),當(dāng)自動化運(yùn)維產(chǎn)生了龐大的數(shù)據(jù)信息時,可視化技術(shù)相比其他呈現(xiàn)方式更加具有直觀性、高效性、前瞻性、趣味性等強(qiáng)有力的特點(diǎn)。自動化運(yùn)維中的可視化包括4個方面:監(jiān)測指標(biāo)、設(shè)備狀態(tài)、硬件結(jié)構(gòu)原理、邏輯關(guān)系(聯(lián)鎖邏輯和故障邏輯)等。
4)遠(yuǎn)程通信技術(shù)。計算機(jī)聯(lián)鎖系統(tǒng)是一個封閉系統(tǒng),為保障系統(tǒng)的安全性,傳統(tǒng)計算機(jī)聯(lián)鎖系統(tǒng)的網(wǎng)絡(luò)與外網(wǎng)是隔離的。自動化運(yùn)維的一個重要功能是系統(tǒng)發(fā)生異?;蛘邎缶瘯r,能及時通知維護(hù)人員。隨著第五代移動通信網(wǎng)絡(luò)(5G)的應(yīng)用,實(shí)現(xiàn)信息安全、高效、穩(wěn)定的遠(yuǎn)程傳輸,將進(jìn)一步推動自動化運(yùn)維在計算機(jī)聯(lián)鎖系統(tǒng)中的應(yīng)用。
計算機(jī)聯(lián)鎖系統(tǒng)產(chǎn)品提供商,不僅僅提供安全、可靠的計算機(jī)聯(lián)鎖產(chǎn)品,同時應(yīng)該提供更加專業(yè)的、用戶體驗(yàn)更好的運(yùn)維工具,為維修人員提供更加自動化和智能化的維護(hù)策略,使得計算機(jī)聯(lián)鎖系統(tǒng)更加穩(wěn)定可靠運(yùn)行。
隨著技術(shù)的發(fā)展,計算機(jī)聯(lián)鎖系統(tǒng)也經(jīng)歷著產(chǎn)品的升級和迭代,系統(tǒng)運(yùn)維愈發(fā)重要。自動化運(yùn)維工具不僅能覆蓋現(xiàn)階段計算機(jī)聯(lián)鎖系統(tǒng)維護(hù)的缺失部分,還可以提高系統(tǒng)的維護(hù)效率、準(zhǔn)確率,使系統(tǒng)運(yùn)維管理更加規(guī)范化、標(biāo)準(zhǔn)化。計算機(jī)聯(lián)鎖系統(tǒng)的自動化運(yùn)維主要實(shí)現(xiàn)了監(jiān)控、部署、維護(hù)事件、系統(tǒng)健康檢測、報告生成等多項(xiàng)自動化。自動化運(yùn)維工具既為計算機(jī)聯(lián)鎖系統(tǒng)的維護(hù)提供了重要手段,也將進(jìn)一步促進(jìn)計算機(jī)聯(lián)鎖系統(tǒng)的發(fā)展。