徐德龍
(1.中國鐵道科學(xué)研究院集團有限公司通信信號研究所,北京 100081; 2.國家鐵路智能運輸系統(tǒng)工程技術(shù)研究中心,北京 100081)
經(jīng)過30多年的發(fā)展,我國車站計算機聯(lián)鎖系統(tǒng)在普速鐵路和高速鐵路都得到了廣泛應(yīng)用,現(xiàn)已進入成熟運用階段[1]。截止到2017年底,全路已超過6 000個車站采用計算機聯(lián)鎖,占全路車站總數(shù)的70%[2-3]。計算機聯(lián)鎖為鐵路信號的關(guān)鍵系統(tǒng),是信號系統(tǒng)的核心,同時也是進路信息的源頭,為相關(guān)信號系統(tǒng)輸出基礎(chǔ)信息,其可靠性、可維護性不言而喻。隨著大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等技術(shù)的應(yīng)用,在鐵路電務(wù)維護和保障體系中,實現(xiàn)故障原因的智能分析、故障定位等新功能被提上日程,進一步提升計算機聯(lián)鎖電務(wù)維修機的能力形成了廣泛共識。本文提出了計算機聯(lián)鎖運維智能診斷方面的典型顯示方法,重點結(jié)合演繹推理和模糊推理進行了故障診斷定位技術(shù)的研究。
國內(nèi)外各鐵路信號控制系統(tǒng)都在朝著智能化運營維護方向發(fā)展,路內(nèi)企業(yè)也開始研究維修診斷技術(shù)。
(1)國外信號設(shè)備的智能化方面
國外很多國家都很重視計算機聯(lián)鎖設(shè)備的智能運營維護。如英國 Westinghouse公司研制的SSI計算機聯(lián)鎖系統(tǒng)配置有技術(shù)人員終端,通過該設(shè)備對系統(tǒng)運行狀態(tài)進行記錄,并通過該終端實現(xiàn)遠程診斷;龐巴迪公司的EBILOCK計算機聯(lián)鎖系統(tǒng)配置有維護診斷中心(MDC)設(shè)備,通過該設(shè)備收集、分析系統(tǒng)的性能、診斷信息和報警信息,并通過該設(shè)備實現(xiàn)遠程監(jiān)視;德國西門子公司的 SIMIS-W計算機聯(lián)鎖系統(tǒng)配置有服務(wù)與診斷計算機,通過該計算機記錄系統(tǒng)狀態(tài)信息、聯(lián)鎖出現(xiàn)的錯誤及故障信息。
(2)國內(nèi)信號設(shè)備維護技術(shù)方面
我國全面推廣的信號集中監(jiān)測系統(tǒng),信號集中監(jiān)測通過連接相關(guān)信號系統(tǒng)和單元,獲取信息并用于故障報警和分析,對于維護發(fā)揮了一定的作用。單個系統(tǒng)方面,ZPW-2000A軌道電路研制故障定位診斷系統(tǒng),可對室內(nèi)、室外設(shè)備的11段故障給出精確的故障診斷和定位[4]。相關(guān)學(xué)者對鐵道信號安全計算機監(jiān)測技術(shù)提出了數(shù)據(jù)降維和模型訓(xùn)練的方法[5]。
多年來,行業(yè)內(nèi)都把重點都聚焦在影響系統(tǒng)安全功能的部分[6-7]。而在維護方面,基層維護人員遇到問題時不知道如何查詢,更多是依靠專業(yè)人員分析,維修機可用性不高。因此,需要研究一種計算機聯(lián)鎖運維智能診斷方法,將現(xiàn)有的維修機升級為具有智能診斷能力的維修機。其技術(shù)路線和方法是:首先是全面記錄聯(lián)鎖系統(tǒng)的大數(shù)據(jù)信息,建立信息數(shù)據(jù)庫;其次是優(yōu)化界面顯示方法,便于識別;再次是基于圖形和狀態(tài)以及推理方法推斷出故障位置或區(qū)域,實現(xiàn)故障定位智能化。
大數(shù)據(jù)信息是故障診斷的重要基礎(chǔ)。電力系統(tǒng)在開展故障診斷方面有很多的研究,文獻[8]介紹了電力系統(tǒng)故障診斷的時序模糊邏輯推理方法,指出故障診斷的基礎(chǔ)是警報信號的正確性和完整性。計算機聯(lián)鎖的智能故障診斷同樣也需要完整、準(zhǔn)確的大數(shù)據(jù)信息。
計算機聯(lián)鎖系統(tǒng)主要靠軟件實現(xiàn)系統(tǒng)功能,運行的軟件具有不可見性和不可觸摸性[9-10]。維修機作為計算機聯(lián)鎖系統(tǒng)中重要的運維實現(xiàn)設(shè)備,首先要做到從值班員操作到現(xiàn)場設(shè)備動作、列車行駛以及聯(lián)鎖系統(tǒng)自身狀態(tài)等全過程都要有據(jù)可查。因此,要將聯(lián)鎖的運行信息按類別細化并儲存。如表1所示,將系統(tǒng)信息分操作、驅(qū)采、報警、狀態(tài)、提示、系統(tǒng)6類信息,并將每類信息細化為來源、時間、類型、信息名稱、內(nèi)容、狀態(tài)6個維度,以上信息形成聯(lián)鎖系統(tǒng)信息大數(shù)據(jù)庫的關(guān)鍵信息,表1為大數(shù)據(jù)信息的內(nèi)容、狀態(tài)等基本要求。
在推理技術(shù)方面,國內(nèi)學(xué)者對不確定性推理的原理、方法等已研究多年,為人工智能、專家系統(tǒng)的發(fā)展提供了理論基礎(chǔ)[11]。文獻[12]分析了對概率推理、D-S證據(jù)推理和模糊推理3種常用的不確定性推理方法,文獻[13]闡述了演繹推理和模糊推理在潛艇攻擊中的運用。本文對演繹推理和模糊推理兩種理論基本原理研究的基礎(chǔ)上,將計算機聯(lián)鎖智能診斷的需求結(jié)合推理技術(shù)進行應(yīng)用研究。
所謂演繹推理(Deductive Reasoning),就是從多個被認(rèn)為正確的前提出發(fā),通過推導(dǎo)即“演繹”,得出具體陳述或個別結(jié)論的邏輯過程[12]。演繹推理是從一般(或普遍)到特殊的推理。如果用公式來表達演繹推理,可以表述為式(1)的形式。
大前提如果M,則P
小前提S是M
結(jié)論S是P
(1)
其中,大前提是已知的一般原理,小前提是事件,結(jié)論是根據(jù)一般原理對事件做出的判斷。演繹推理的方法可以應(yīng)用到計算機聯(lián)鎖運維中,將基本維修常識作為大前提,故障情況作為小前提,以此得出故障分析的結(jié)論。例如聯(lián)鎖機脫機的故障分析如式(2)所示。
大前提主機籠板卡故障,會脫機
小前提CAN通信板是主機籠的板卡
結(jié)論CAN通信板故障,會脫機
(2)
這個例子中的大前提、小前提皆為事實。推理形式也是嚴(yán)格無誤的,因此,可以確定推理結(jié)論是正確可信的。在故障發(fā)生時,往往會有多條故障報警,如板卡故障、脫機等故障會同時發(fā)生,可以結(jié)合演繹推理的結(jié)論,推理出真正的故障點。
大系統(tǒng)發(fā)生故障時,故障現(xiàn)象往往比較復(fù)雜,且可能伴隨著多處報警,此時一般都不具備演繹推理的條件,因此要采用不確定性推理技術(shù)進行模糊推理問題。其原理是借用經(jīng)典演繹推理的基本框架,用模糊集方法來模擬人思維的推理過程[14]。如果用公式來表達模糊推理,可以表述為式(3)的形式。
大前提如果M,則P
小前提S是M′
結(jié)論S是P′
(3)
應(yīng)用模糊推理時,M到P是一種模糊關(guān)系,根據(jù)模糊關(guān)系以及M與M′的相似程度,得出結(jié)論P′。在具體的模糊推理問題中,一般由專家經(jīng)驗或通過大量試驗等辦法來獲取大前提。因此,將我國鐵路積累的案例庫和運用數(shù)據(jù)作為模糊推理的大前提是充分的,以式(4)的故障案例為例,說明模糊推理的應(yīng)用。
大前提維修機與其他通信全斷,為維修機網(wǎng)線故障
小前提操作機A、B與維修機1網(wǎng)通信中斷
結(jié)論維修機至1網(wǎng)交換機的網(wǎng)線故障
(4)
這個例子中的大前提并非嚴(yán)格意義的準(zhǔn)確,但從經(jīng)驗或概率角度,這確實是最可能的情況。當(dāng)通信中斷報警時,因為通道中有交換機等設(shè)備,且一般會致使多個邏輯通道中斷發(fā)生,在短暫時間內(nèi)不可能精確判斷出故障位置。采用模糊推理的方法,能快速給出結(jié)論,替代專家的思維分析。
結(jié)合主流的計算機聯(lián)鎖系統(tǒng)實例,對設(shè)備硬件故障、通信故障、繼電接口故障3種典型故障進行智能分析研究。
設(shè)備硬件故障種類較多,如UPS、聯(lián)鎖機電源、聯(lián)鎖機采集驅(qū)動、聯(lián)鎖機CPU、聯(lián)鎖機機籠、聯(lián)鎖機通信板、視頻分配/放大器、工控機主板、工控機以太網(wǎng)卡、交換機等。其中,電源故障、板卡方面故障比較典型。故障顯示及定位首要的工作是顯示機柜模型,顯示方法有平面示意、三維顯示等。本文采用三維模型的方式顯示硬件設(shè)備,直觀、多角度的顯示故障位置,便于維修人員對照實物設(shè)備快速找到對應(yīng)部件,從而實現(xiàn)硬件問題的快速維修處理[15]。本文設(shè)計機柜三維模型窗口,并在窗口內(nèi)顯示綜合柜、聯(lián)鎖柜、擴展柜的三維模型,如圖1所示。
4.1.1 顯示方法
當(dāng)機柜內(nèi)的設(shè)備故障或狀態(tài)異常時,以聯(lián)鎖系統(tǒng)信息大數(shù)據(jù)信息作為基礎(chǔ),在機柜圖對應(yīng)板卡位置顯示紅色。當(dāng)設(shè)備整體機籠停機時,整體機籠顯示紅色方框。如聯(lián)鎖機停機,將對應(yīng)聯(lián)鎖機機籠以紅色方框顯示;驅(qū)采機停機,將對應(yīng)驅(qū)采機機籠以紅色方框顯示。如圖1所示,電源故障報警發(fā)生時,機柜中的電源模塊會顯示為紅色。為了便于維護人員識別備品,可對模塊彈出,顯示故障電源的三維視圖。
4.1.2 推理應(yīng)用
以上故障顯示方法需要依據(jù)信息大數(shù)據(jù)和推理方法找出故障點,故障定位分析如下。
(1)基于演繹推理的精準(zhǔn)故障定位方法
仍以式(2)的脫機故障為例。式(2)故障現(xiàn)象為聯(lián)鎖機Ⅱ系脫機,并且Ⅱ系CAN通信板報警,可以得出本次故障為Ⅱ系CAN通信板故障導(dǎo)致了Ⅱ系脫機。通過演繹推理的結(jié)論,確定故障點后,在機柜圖上將故障部位用紅色方框表示出來,便于維修人員進行故障處理。
(2)基于模糊推理的粗略故障定位方法
在很多硬件故障中,并不能準(zhǔn)確地確定故障部位,如工控機重啟故障,因系統(tǒng)組成設(shè)備多,故障情況也相對復(fù)雜。因此,歸類匯總非常重要。首先需要對工控機故障點進行梳理,找出故障點的突出問題;再結(jié)合常見的故障現(xiàn)象,在經(jīng)驗庫中將各種工控機故障進行歸類,確定優(yōu)先排查范圍。如表2所示,根據(jù)行業(yè)內(nèi)關(guān)于計算機聯(lián)鎖運用情況的數(shù)據(jù),工控機的故障點為工控機整機、主板、以太網(wǎng)卡、聲卡、硬盤/電子盤、電源、顯卡,其中主板和電源故障率突出。
表2 計算機聯(lián)鎖系統(tǒng)工控機故障器材統(tǒng)計(2008年~2017年)
表2的數(shù)據(jù)可以作為工控機方面故障推理的基礎(chǔ)數(shù)據(jù),根據(jù)故障率高低設(shè)定優(yōu)先排查范圍,將故障率高的故障點作為推理的大前提。通過模糊推理,如式(5)所示,工控機重啟最大可能的故障范圍就是主板和電源問題,發(fā)生監(jiān)控A機多次黑屏、重啟問題,將在機柜圖上推出的故障部位用黃色方框表示出來。
大前提工控機重啟了,為主板或電源問題
小前提監(jiān)控A機多次黑屏、重啟
結(jié)論監(jiān)控A機主板或電源有問題
(5)
本文采用網(wǎng)絡(luò)狀態(tài)圖來實時顯示聯(lián)鎖系統(tǒng)的通信狀況,狀態(tài)圖中包括通信設(shè)備、通信線路的狀態(tài),如圖2所示。為了便于維護人員與現(xiàn)場設(shè)備一一對應(yīng),通信線路顯示的內(nèi)容為通信線路的實際連接,即為物理通道。其中,綠色線條表示該物理通道的所有邏輯連接均通信正常,黃色線條表示該物理通道的邏輯連接有部分通信正常、部分通信中斷,紅色線條表示該物理通道的所有邏輯連接均通信中斷[16]。設(shè)備狀態(tài)包括主控、備用、非主控非備用、離線4種狀態(tài)。其中,綠色為主控狀態(tài),黃色為備用狀態(tài),白色為運行但非主控非備用狀態(tài),紅色為離線狀態(tài)。
圖2 通信圖形顯示示意
若網(wǎng)絡(luò)圖物理連接線為紅色或黃色時,需排查相連接的設(shè)備是否運行,以及連接線通道的各邏輯連接是否正常。邏輯連接狀態(tài)的排查是一個難點,可通過以下技術(shù)方案解決。①當(dāng)鼠標(biāo)移動至對應(yīng)物理連接線附近時,通過ToolTip文字提示顯示物理通道的所有邏輯通道連接狀態(tài)。②通過點擊按鈕,以彈出的對話框的方式顯示設(shè)備所有的邏輯通道連接狀態(tài)。以上為人工判斷故障點的方式。
采用自動判斷方式,因通信狀態(tài)相對復(fù)雜,很難準(zhǔn)確推斷出故障點,更適合采用模糊推理法確定故障部位,然后在網(wǎng)絡(luò)圖上將推理后的結(jié)論用黃色方框表示出來。以分析維修機與操作機I網(wǎng)通信中斷的故障為例,根據(jù)經(jīng)驗庫的大前提,得出結(jié)論。
如式(4)所示,操作機A、B與維修機I網(wǎng)通信中斷,根據(jù)大前提,推斷為維修機網(wǎng)線故障,結(jié)合小前提的故障現(xiàn)象,進一步推理和縮小故障范圍,得出維修機至I網(wǎng)交換機的網(wǎng)線故障為最大可能的故障點。
4.3.1 繼電接口信息狀態(tài)顯示方法
繼電接口故障也是運維過程中發(fā)生頻次比較高的故障,同時也是分析難度比較大的故障。針對道岔、信號機、區(qū)段的相關(guān)繼電器的輸入、輸出,采用如圖3所示的狀態(tài)方波圖的形式,選取關(guān)注的信息,生成信息狀態(tài)時序圖,定時顯示輸入和輸出信息的吸起、落下狀態(tài)。其中,選取信息方式有2種,一是根據(jù)選擇的設(shè)備(道岔、信號機、區(qū)段)名稱,自動關(guān)聯(lián)該設(shè)備相關(guān)的所有采集、驅(qū)動繼電器;二是不針對具體信號設(shè)備時,可從采集板、驅(qū)動板中選擇相應(yīng)的采集、驅(qū)動信息。以202號道岔為例,經(jīng)復(fù)選操作后,自動選擇202號道岔所有繼電器,形成道岔動作的時序圖,縱坐標(biāo)包括DCJ、FCJ、SFJ、DBJ、FBJ、DFH信息,橫坐標(biāo)包括定位狀態(tài)、反位操縱道岔、道岔轉(zhuǎn)動開始、轉(zhuǎn)動過程中、返回反位表示、停止輸出6個時間點的狀態(tài),直觀地顯示相關(guān)信息的動作過程。
圖3 繼電接口故障顯示示意
在時序圖中,時序線狀態(tài)數(shù)值為0時,代表當(dāng)前繼電器為落下狀態(tài),狀態(tài)數(shù)值為1時,代表當(dāng)前繼電器為吸起狀態(tài)。
4.3.2 狀態(tài)推理
演繹推理的應(yīng)用。以道岔在定位時混入反位表示致使聯(lián)鎖無表示為例。發(fā)生道岔無表示故障,可能原因是列車通過道岔時擠岔、電路故障,或采集信息混線。在式(6)中,道岔失去表示前在定位,因混入反位狀態(tài)表示,DBJ、FBJ全為“1”,聯(lián)鎖系統(tǒng)依據(jù)故障安全原則,將道岔位置狀態(tài)表示邏輯狀態(tài)置為“0”,控制臺道岔顯示無表示[17]。對于此種采集故障,人工分析需要對聯(lián)鎖軟件有一定的了解,但若維修機能直接顯示出故障點,則能減少勞動強度。以7號道岔無表示為例,分析推理應(yīng)用。
(6)
通過以上推理,維修機可將聯(lián)鎖軟件的處理方式作為大前提,按照式(3)的原理推理后,確定出7號道岔系因混入反位表示導(dǎo)致故障,在狀態(tài)方波圖顯示的分析結(jié)果,將幫助維護人員快速找到故障點。
模糊推理的應(yīng)用。以道岔向反位操縱,F(xiàn)CJ和SFJ能驅(qū)動,但仍為定位表示為例。首先確定該情況的大前提。正常情況下,操縱道岔后,道岔位置狀態(tài)表示應(yīng)當(dāng)相應(yīng)的發(fā)生變化,由定位狀態(tài)表示變?yōu)榉次粻顟B(tài)表示,道岔的定位狀態(tài)表示(DBJ)表示狀態(tài)值應(yīng)由“1”變?yōu)椤?”,或者由反位狀態(tài)表示變?yōu)槎ㄎ粻顟B(tài)表示[17];如果超出一定的時間后,道岔位置狀態(tài)表示仍未發(fā)生變動,則說明道岔出現(xiàn)故障。第一種情況是道岔此時無法操到位而實際處于對應(yīng)側(cè)表示回不來的四開狀態(tài),室內(nèi)為假表示;第二種情況是因電路故障而造成的無法輸出或動作的情況。在現(xiàn)場使用中,道岔原表示不動的原因顯然是第二種情況居多。在式(7)中,35號道岔不能搬到反位,道岔定位表示不斷,F(xiàn)CJ和SFJ已經(jīng)驅(qū)動。通過推理確定35號道岔不能轉(zhuǎn)換的可能原因是繼電器故障,因此,在狀態(tài)方波圖中將對應(yīng)信息以方框顯示。
(7)
(1)首次提出維修機記錄信息的格式、內(nèi)容,建議形成聯(lián)鎖系統(tǒng)信息大數(shù)據(jù),作為維修機智能化的基礎(chǔ)數(shù)據(jù)。
(2)改進維修機的典型界面,提出了硬件、通信、繼電接口的顯示方法。包括基于三維模型的硬件顯示、基于物理通道的通信狀態(tài)顯示、基于狀態(tài)圖的接電接口顯示。
(3)首次將演繹推理和模糊推理運用至計算機聯(lián)鎖智能運維技術(shù)中,并結(jié)合3個典型故障進行推理運用。
(4)提出了提高維修效率的技術(shù)方法,為技術(shù)開發(fā)提供了技術(shù)支撐,工程化后將進一步提高系統(tǒng)的可維護性。