王 緯
(中國鐵路鄭州局集團(tuán)有限公司鄭州電務(wù)段,鄭州 450000)
信號系統(tǒng)網(wǎng)絡(luò)傳輸故障是信息設(shè)備維護(hù)人員日常設(shè)備維護(hù)與應(yīng)急故障處理的重要方面,而網(wǎng)絡(luò)傳輸故障中網(wǎng)絡(luò)傳輸通道丟包類故障,具有時(shí)斷時(shí)續(xù),時(shí)好時(shí)壞的故障現(xiàn)象。若長時(shí)間沒有找到故障原因,會造成通道信息擁堵與延時(shí),進(jìn)一步發(fā)展為網(wǎng)絡(luò)通道中斷故障,對鐵路行車運(yùn)輸造成嚴(yán)重的影響。
網(wǎng)絡(luò)通道丟包故障具有很強(qiáng)的迷惑性與不確定性,對電務(wù)維護(hù)人員是一個(gè)不小的挑戰(zhàn),如何能夠迅速找到故障原因并采取措施處理,將故障影響與延時(shí)降到最小顯得尤為重要。針對信號系統(tǒng)網(wǎng)絡(luò)通道丟包故障,筆者根據(jù)網(wǎng)絡(luò)通道故障處理的經(jīng)驗(yàn),總結(jié)歸納出應(yīng)急故障處理與日常維護(hù)檢查的3個(gè)重點(diǎn)方面,并且提出相應(yīng)的維護(hù)建議。
2.1.1 TDCS/CTC系統(tǒng)路由器2T模塊接口線
鐵路局網(wǎng)絡(luò)管理中心系統(tǒng)顯示:管內(nèi)隴海線商丘運(yùn)轉(zhuǎn)場與商丘直通場CTC系統(tǒng)網(wǎng)絡(luò)通道A出現(xiàn)嚴(yán)重丟包、堵塞延遲,導(dǎo)致兩站間的網(wǎng)絡(luò)通道一會中斷延遲、一會恢復(fù)正常的故障現(xiàn)象。現(xiàn)場維護(hù)人員查看兩站的CTC設(shè)備指示燈狀態(tài),未發(fā)現(xiàn)異常;中心維護(hù)人員從遠(yuǎn)程分別登錄兩站的路由器A,查看端口工作狀態(tài),發(fā)現(xiàn)對應(yīng)端口物理狀態(tài)正常(up),而通信協(xié)議工作異常(down)。采取打環(huán)的方法進(jìn)一步縮小故障范圍,對兩站分別打近端環(huán),觀察端口信息均能看到環(huán)(looped)。但看到環(huán)并不意味著兩站站內(nèi)信息設(shè)備網(wǎng)絡(luò)通道沒有丟包故障,這就是通道丟包與通道中斷故障處理的區(qū)別。進(jìn)一步在兩站近端環(huán)進(jìn)行Ping測試,對路由器相應(yīng)S端口Ping,并按照通道接受最大的包容量進(jìn)行通信測試,查看其丟包率。發(fā)現(xiàn)商丘直通場的丟包率較高,達(dá)到30%,遠(yuǎn)遠(yuǎn)超出正常范圍,初步判斷為商丘直通場站內(nèi)CTC系統(tǒng)網(wǎng)絡(luò)傳輸丟包引起,將故障范圍縮小至商丘直通場站內(nèi)CTC系統(tǒng)設(shè)備。
維護(hù)人員查看其CTC網(wǎng)絡(luò)傳輸設(shè)備,發(fā)現(xiàn)協(xié)議轉(zhuǎn)換器收發(fā)指示燈時(shí)而正常閃亮,時(shí)而有發(fā)無收,判斷可能為該站對商丘運(yùn)轉(zhuǎn)場網(wǎng)絡(luò)通道A的協(xié)議轉(zhuǎn)換板卡性能不良導(dǎo)致,隨即更換該協(xié)議轉(zhuǎn)換器板卡,但網(wǎng)絡(luò)通道故障依舊。維護(hù)人員再次對CTC系統(tǒng)網(wǎng)絡(luò)傳輸設(shè)備進(jìn)行仔細(xì)觀察、分析,通過對比,發(fā)現(xiàn)該站CTC系統(tǒng)路由器A的2T模塊上V.35線接頭與其他接頭相比,彎度略大且往外突出、有彎折。觸碰該V.35線接頭,并查看路由器A對應(yīng)端口狀態(tài),該端口通道進(jìn)行Ping測試有時(shí)斷時(shí)續(xù)現(xiàn)象,通道傳輸質(zhì)量(reliability)指數(shù)在255~170之間變化,說明該線頭存在接觸不良,導(dǎo)致該端口通道傳輸質(zhì)量時(shí)好時(shí)壞直至通道中斷現(xiàn)象,隨即更換該端口V.35線,故障恢復(fù)正常,試驗(yàn)良好,且再未發(fā)生故障。
2.1.2 TCC系統(tǒng)信號安全數(shù)據(jù)網(wǎng)ODF架光纖通道
管內(nèi)鄭焦城際南陽寨站列控中心(TCC)維修機(jī)報(bào)警顯示:TCC與信號安全數(shù)據(jù)網(wǎng)A中斷10 s,且當(dāng)天連續(xù)發(fā)生2次。由于TCC與信號安全數(shù)據(jù)網(wǎng)2次中斷10 s后均自動恢復(fù)正常,對行車未造成影響。
垂直天窗內(nèi),維護(hù)人員趕赴現(xiàn)場查看TCC網(wǎng)絡(luò)傳輸設(shè)備,其交換機(jī)、路由器、防火墻均工作正常,未發(fā)現(xiàn)異常。隨后查看該TCC系統(tǒng)與信號安全數(shù)據(jù)網(wǎng)之間的ODF光纖架,在觸碰該ODF架時(shí), TCC維修機(jī)再次報(bào)警顯示其與信號安全數(shù)據(jù)網(wǎng)中斷,且10 s后自動恢復(fù)正常。隨后將故障范圍縮小至ODF光纖架。仔細(xì)觀察后發(fā)現(xiàn),在ODF架底座的外邊側(cè)面處有一根光纖有略彎折痕跡,試驗(yàn)拉開該ODF架底座均出現(xiàn)報(bào)警,確定為該光纖彎折后造成的性能不良,隨后配合相關(guān)通信人員更換該光纖后恢復(fù)正常,試驗(yàn)良好。
綜上所述,針對線路接觸不良引起的網(wǎng)絡(luò)通道故障的維護(hù)建議:電務(wù)維護(hù)人員日常維護(hù)巡視中,應(yīng)注意信號系統(tǒng)網(wǎng)絡(luò)傳輸設(shè)備的連接線處,如交換機(jī)上的網(wǎng)線、路由器2T模塊的接口線、協(xié)議轉(zhuǎn)換器的TX/RX同軸纜、ODF架光纖等。重點(diǎn)查看這些線路接口處與連線有無接觸不良,彎折損傷等,必要時(shí)可在垂直天窗內(nèi)觸碰查看其網(wǎng)絡(luò)通道狀態(tài),從而判斷該設(shè)備與線路性能,若發(fā)現(xiàn)異常,則應(yīng)立即采取相應(yīng)措施,避免對行車運(yùn)輸造成嚴(yán)重影響。
2.2.1 路由器配置參數(shù)未擦除干凈
管內(nèi)京廣線廣武站TDCS系統(tǒng)與相鄰車站東雙橋、焦作東TDCS的網(wǎng)絡(luò)通信,經(jīng)常出現(xiàn)丟包、通道堵塞及延遲現(xiàn)象。由于都是與廣武站相鄰的車站TDCS系統(tǒng)發(fā)生此類丟包現(xiàn)象,首先查看廣武站TDCS系統(tǒng)設(shè)備狀態(tài),均未發(fā)現(xiàn)異常情況。維護(hù)人員遠(yuǎn)程登錄該站路由器,發(fā)現(xiàn)其路由器的各端口(S口與F口)配置與工作狀態(tài)均正常,未發(fā)現(xiàn)異常情況。進(jìn)行Ping測試,丟包率一直很低;進(jìn)行tracert測試,對其發(fā)送到相鄰車站目的地址的數(shù)據(jù)包進(jìn)行追蹤,發(fā)現(xiàn)該數(shù)據(jù)包的傳輸路徑并未直接通過相連通道傳給鄰站,而是繞到相距較遠(yuǎn)的幾個(gè)站后再到相鄰車站。
繼續(xù)深入分析,其沒有直接傳輸?shù)洁徴径抢@一大圈后到達(dá),有兩種可能:一是由于交換機(jī)設(shè)置有生成樹協(xié)議(STP),為防止網(wǎng)絡(luò)廣播風(fēng)暴而對某條鏈路出現(xiàn)人為設(shè)置邏輯斷路情況;二是由于路由器內(nèi)部的路由選擇協(xié)議中靜態(tài)路由部分設(shè)置有問題造成。
根據(jù)上述兩個(gè)基本判斷,先從簡單的路由器內(nèi)部路由選擇協(xié)議查看,其路由器為思科(CISCO)2800系列,使用EIGRP路由選擇協(xié)議,其EIGRP內(nèi)部具有靜態(tài)路由配置功能,通過設(shè)置靜態(tài)路由協(xié)議,可以使其在路由選擇和尋找最優(yōu)路徑時(shí)節(jié)省大量時(shí)間與網(wǎng)絡(luò)資源,在TDCS/CTC網(wǎng)絡(luò)中具有優(yōu)勢,因此廣泛采用。輸入“SH RUNNING”命令,查看路由器配置,對比中心備份的路由配置表發(fā)現(xiàn),其EIGRP中,多出兩條靜態(tài)路由network配置語句。經(jīng)過與車站IP地址表對比,發(fā)現(xiàn)多出兩條靜態(tài)路由network配置語句中的目的IP地址為鄭州南、小李莊站的IP地址,那么就會出現(xiàn)在與有些鄰站傳遞信息中,其路由路徑要走到鄭州南、小李莊站等后再回到廣武站,從而產(chǎn)生信息傳遞路徑過長,傳輸效率低、網(wǎng)絡(luò)通道偶爾出現(xiàn)丟包、甚至通道堵塞、延遲等現(xiàn)象。
進(jìn)一步調(diào)查問題原因,判斷為對路由器內(nèi)部配置時(shí)未擦除干凈所致,其原有的EIGRP協(xié)議中的靜態(tài)路由保存在新的路由協(xié)議中。針對此類問題,發(fā)現(xiàn)對某些CISCO路由器先進(jìn)行輸入“Erase startup-config”擦除命令,然后輸入“reload”重啟命令,有時(shí)需要多次才能擦除干凈,只有維護(hù)人員確認(rèn)該路由擦除干凈后,方可寫入新的配置文件。否則,就會出現(xiàn)上述故障現(xiàn)象。
2.2.2 路由器端口屬性設(shè)置不匹配
管內(nèi)隴海線商丘站CTC系統(tǒng)發(fā)生通道數(shù)據(jù)包丟包率較高、甚至出現(xiàn)網(wǎng)絡(luò)通道堵塞、延時(shí)等情況,維護(hù)人員遠(yuǎn)程登錄路由器,查看其端口“INPUT ERROR錯(cuò)誤包”與“CRC校驗(yàn)碼”兩項(xiàng)數(shù)值,數(shù)值較大且還在繼續(xù)增長,通道傳輸質(zhì)量指數(shù)未達(dá)到255,表明通道連接不穩(wěn)定,丟包率較高。查看對應(yīng)端口的屬性與狀態(tài),發(fā)現(xiàn)路由器F0/1端口配置的工作方式為半雙工模式(half-duplex),并非全雙工模式(full-duplex)。
隨后,維護(hù)人員通過將端口工作方式由半雙工模式改為全雙工模式后,其網(wǎng)絡(luò)通道通信良好,丟包率大大降低。
此外,TDCS/CTC系統(tǒng)中的交換機(jī)與路由器之間,其對應(yīng)端口的工作方式不同(一方為半雙工、一方為全雙工)、端口速率不同(一方為100 M、一方為10 M),也會導(dǎo)致其出現(xiàn)網(wǎng)絡(luò)丟包現(xiàn)象。
綜上所述,針對路由器等傳輸設(shè)備配置錯(cuò)誤引起的網(wǎng)絡(luò)通道故障的維護(hù)建議:交換機(jī)、路由器作為信號系統(tǒng)網(wǎng)絡(luò)傳輸與信息交換的核心,電務(wù)維護(hù)人員應(yīng)該對其網(wǎng)絡(luò)配置的方法、標(biāo)準(zhǔn)化操作步驟及命令語言熟練掌握,制定相關(guān)交換機(jī)與路由器的標(biāo)準(zhǔn)化操作步驟,采取雙人配置作業(yè)方式進(jìn)行,一人作業(yè)、一人盯控,確保網(wǎng)絡(luò)傳輸設(shè)備配置正確,工作正常。遇到突發(fā)故障,能通過查看路由器、交換機(jī)配置與端口屬性,迅速找到故障原因,采取應(yīng)急措施恢復(fù)正常。
2.3.1 防火墻設(shè)置
管內(nèi)京九線梁堤頭站至商丘北I場間下行線6655G軌道電路、商丘北II場至梁堤頭站間上行線6658G軌道電路瞬間出現(xiàn)紅光帶,并且相應(yīng)的區(qū)間信號機(jī)出現(xiàn)紅閃狀態(tài),說明梁堤頭站自律機(jī)接收不到801線路所區(qū)間信號機(jī)及區(qū)間軌道狀態(tài),隨后又立即恢復(fù)正常。
維護(hù)人員通過查看CTC系統(tǒng)自律機(jī)日志確定故障原因?yàn)榱旱填^站自律機(jī)與801線路所自律機(jī)之間連接中斷,從而使商丘北I場、II場信息無法傳送到梁堤頭站,進(jìn)一步調(diào)查研究,發(fā)現(xiàn)梁堤頭站自律機(jī)與801線路所自律機(jī)之間存在連接不穩(wěn)定,即兩站自律機(jī)A環(huán)網(wǎng)絡(luò)存在丟包嚴(yán)重的情況。
維護(hù)人員登錄梁堤頭站路由器A,從路由器A上ping交換機(jī)A的A環(huán)地址,發(fā)現(xiàn)丟包嚴(yán)重,懷疑路由器A到交換機(jī)A之間線路存在問題。隨即將防火墻A甩開,再從路由器A上ping交換機(jī)A的A環(huán)地址,網(wǎng)絡(luò)正常,沒有丟包情況。綜上情況,確定為CTC系統(tǒng)防火墻A導(dǎo)致網(wǎng)絡(luò)丟包引起的故障。為了查清安全隱患,將段管內(nèi)京九線8個(gè)站CTC系統(tǒng)的其余15臺防火墻一并發(fā)回廠家進(jìn)行調(diào)查,初步懷疑為京九線8個(gè)站網(wǎng)絡(luò)安全策略與中心安全邊界系統(tǒng)兼容性與協(xié)調(diào)性存在問題。
2.3.2 網(wǎng)絡(luò)與信息安全
隨著 “棱鏡門”事件、勒索病毒(WannaCry)的全球性爆發(fā)及持續(xù)性的發(fā)酵,網(wǎng)絡(luò)與信息安全逐漸成為信號系統(tǒng)維護(hù)管理的重要方面。而網(wǎng)絡(luò)威脅、欺騙與分布式拒絕服務(wù)(Distributed Denial of Service,DDoS)攻擊均會造成信號系統(tǒng)網(wǎng)絡(luò)傳輸?shù)闹袛嗯c信息完整性、保密性及可用性的破壞,嚴(yán)重的網(wǎng)絡(luò)攻擊甚至?xí)斐烧麄€(gè)信號系統(tǒng)網(wǎng)絡(luò)的癱瘓。
近幾年,全路已經(jīng)出現(xiàn)多起因網(wǎng)絡(luò)與信息安全造成的案例,下面簡單介紹幾個(gè)典型案例:某鐵路局對殺毒軟件升級,該版本病毒庫將卡斯柯車站車務(wù)終端業(yè)務(wù)程序的daemon.exe程序作為木馬誤殺威脅予以清除,程序關(guān)閉后無法再啟動,導(dǎo)致大面積車務(wù)終端業(yè)務(wù)程序陸續(xù)出現(xiàn)異常;某鐵路局中心網(wǎng)絡(luò)爆發(fā)W32.Downadup病毒,大量終端網(wǎng)絡(luò)共享功能受到影響而不能使用,調(diào)度臺之間的數(shù)據(jù)共享調(diào)取失敗,只能通過手動調(diào)取,TDCS/CTC程序不能正常運(yùn)行,網(wǎng)絡(luò)運(yùn)行速度緩慢,大量終端服務(wù)器死機(jī),影響行車2 h。
目前,在高速、普速線的CTC調(diào)度中心及各高鐵車站開通并啟用了網(wǎng)絡(luò)安全系統(tǒng)2.0,普速線CTC車站采取防火墻來對數(shù)據(jù)流量包進(jìn)行訪問控制、包過濾等安全防范措施,而管內(nèi)的TDCS 2.0以下系統(tǒng)幾乎沒有網(wǎng)絡(luò)安全防范設(shè)備。
在該段內(nèi)信息設(shè)備車間生產(chǎn)維修中心搭建TDCS系統(tǒng)網(wǎng)絡(luò)安全模擬測試平臺,以段管內(nèi)東雙橋與廣武站為測試案例,在現(xiàn)階段未安裝防火墻、入侵檢測系統(tǒng)等網(wǎng)絡(luò)安全防護(hù)設(shè)備前提下,在TDCS系統(tǒng)模擬測試平臺,使用NMAP、NETWOX、NETTAG與Wireshark軟 件, 先利用NMAP掃描設(shè)備端口狀態(tài)與信息,利用NETWOX、NETTAG等軟件,封裝發(fā)送偽造信息,進(jìn)行IP地址欺騙、ARP欺騙、ICMP路由重定向攻擊及TCP SYN FLOOD拒絕服務(wù)攻擊,并利用Wireshark軟件查看網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)流,最終各項(xiàng)欺騙與攻擊均成功實(shí)現(xiàn),說明該系統(tǒng)存在嚴(yán)重的網(wǎng)絡(luò)安全隱患。
關(guān)于網(wǎng)絡(luò)安全設(shè)備維護(hù)建議:第一,信號系統(tǒng)盡可能安裝相應(yīng)的網(wǎng)絡(luò)安全設(shè)備,通過網(wǎng)絡(luò)安全硬件設(shè)備(防火墻、入侵檢測等)與防火墻、殺毒軟件等,保護(hù)信號系統(tǒng)網(wǎng)絡(luò)與信息安全,既有的網(wǎng)絡(luò)安全設(shè)備盡快升級到網(wǎng)絡(luò)安全系統(tǒng)2.0;第二,建立完善、全面、分層次化的信息安全制度管理與規(guī)范,建立相應(yīng)的信息安全管理組織或機(jī)構(gòu),構(gòu)建科學(xué)、嚴(yán)謹(jǐn)?shù)男畔踩芾碇贫?,加?qiáng)信息安全認(rèn)知與人員任用控制的人員管理模式來達(dá)到提升安全的目的;第三,在有條件的情況下建立信號系統(tǒng)網(wǎng)絡(luò)信息安全模擬平臺,對防火墻、入侵檢測等網(wǎng)絡(luò)安全設(shè)備深入了解,在運(yùn)用前先進(jìn)行模擬測試,看是否能夠防范IP地址欺騙、ARP欺騙、ICMP路由重定向攻擊、TCP SYN FLOOD拒絕服務(wù)攻擊等網(wǎng)絡(luò)攻擊,建立完整、詳細(xì)的日志審查體系,確保網(wǎng)絡(luò)安全設(shè)備配置良好后,再進(jìn)入現(xiàn)場進(jìn)行安裝或升級。
信號系統(tǒng)網(wǎng)絡(luò)傳輸丟包故障,不僅有線路接口接觸不良、路由器配置或端口屬性不匹配等傳統(tǒng)問題,還要面臨防火墻的策略配置與兼容性、網(wǎng)絡(luò)欺騙、威脅與攻擊等新型問題,這對新時(shí)期的電務(wù)維護(hù)人員是挑戰(zhàn)也是機(jī)遇。在日益更新的信號系統(tǒng)技術(shù)面前,只有不斷學(xué)習(xí)總結(jié),探索研究才能為鐵路運(yùn)輸保駕護(hù)航。