陳曉輝 張磊
【摘 要】在傳輸故障處理中,誤碼故障是較為常見(jiàn)、同時(shí)又較難處理的一種。本文通過(guò)一個(gè)實(shí)例闡述了此類(lèi)故障處理的方法,著重提出依靠信號(hào)流來(lái)梳理傳輸網(wǎng)絡(luò)、處理故障的思路。
【關(guān)鍵詞】單向通道保護(hù)環(huán);VC4;誤碼;打環(huán)
我們知道傳輸誤碼的產(chǎn)生主要包括幾類(lèi):光功率過(guò)高、光功率過(guò)低、光纖頭不清潔、單板故障、板間配合不好、時(shí)鐘故障、母版故障以及接地不良、溫高等。解決此類(lèi)故障的方法主要包括:告警性能分析法、逐段環(huán)回法和替換法等。下面簡(jiǎn)要介紹一下最近我部門(mén)處理的一起接入環(huán)誤碼故障,本次故障的處理基本涵蓋了大多數(shù)此類(lèi)故障的處理方法。通過(guò)對(duì)信號(hào)流的分析準(zhǔn)確定位故障區(qū)間,最終排除了故障,其處理過(guò)程也為我們今后的工作提供了寶貴的經(jīng)驗(yàn)。
該環(huán)(拓?fù)鋱D)是由華為Optix 155/622光端機(jī)組成的單向通道保護(hù)環(huán),富邦大廈為SNCP節(jié)點(diǎn),全環(huán)為集中型業(yè)務(wù),東方醫(yī)療為中心站,其他各站分別對(duì)東方醫(yī)療配置了32個(gè)2M。業(yè)務(wù)配置均為“西收東發(fā)”,如圖中箭頭所示。
1.故障現(xiàn)象
我們通過(guò)詳細(xì)的查詢告警和性能,發(fā)現(xiàn)了大量低階誤碼上報(bào):?jiǎn)恬R公司支路板個(gè)別通道上報(bào)BIP-EXC(誤碼過(guò)量),所有在用通道均有誤碼上報(bào);北國(guó)商城支路板的8、9、10三個(gè)通道上報(bào)BIP-EXC;建華商場(chǎng)支路板有遠(yuǎn)端誤碼上報(bào);東方醫(yī)療對(duì)應(yīng)喬馬公司的相應(yīng)通道上報(bào)遠(yuǎn)端誤碼,收建華商場(chǎng)的業(yè)務(wù)通道上報(bào)誤碼、誤碼秒,對(duì)應(yīng)北國(guó)商城的3條通道有遠(yuǎn)端誤碼上報(bào)。
此外,我們注意到光板性能正常,沒(méi)有高階誤碼(光纜線路故障可能性?。┖椭羔樥{(diào)整(時(shí)鐘故障可能性較小)等,其他各站均無(wú)異常。
通過(guò)查詢業(yè)務(wù)配置,我們發(fā)現(xiàn)出現(xiàn)告警的業(yè)務(wù)均為第2個(gè)VC4,順時(shí)針時(shí)隙占用為:東方醫(yī)療到建華商城占用1~29個(gè)2M時(shí)隙;東方醫(yī)療到富邦大廈占用30~32時(shí)隙;東方醫(yī)療到喬馬公司占用33~63時(shí)隙。
通過(guò)分析故障現(xiàn)象及業(yè)務(wù)配置,我們可以初步定位于建華商場(chǎng)、維爾康和富邦大廈三站之間,交叉板、光板的可能性最大。
2.處理過(guò)程
由于本次故障的處理過(guò)程比較復(fù)雜,也經(jīng)歷了多次定位,以下分四個(gè)步驟,力圖闡述一個(gè)完整的處理過(guò)程:
2.1通過(guò)更改配置的方式恢復(fù)在用業(yè)務(wù)
由于喬馬公司收東方醫(yī)療報(bào)誤碼,且主用接收方向?yàn)槲飨?,因此將喬馬的主用接收方向改為收東向,查詢性能,誤碼不再上報(bào)。
由于北國(guó)商城收東方醫(yī)療的3個(gè)通道報(bào)BIP-EXC,該時(shí)隙在富邦大廈(SNCP節(jié)點(diǎn))接收的也是主環(huán)西向光板,因此在富邦大廈將該時(shí)隙主用接收方向改為東向。查詢性能,誤碼也不再上報(bào)。而建華商場(chǎng)收東方醫(yī)療沒(méi)有誤碼,由此可以看出富邦大廈的東向、建華商場(chǎng)的西向應(yīng)該都沒(méi)有問(wèn)題。(可見(jiàn)故障點(diǎn)應(yīng)該在建華商場(chǎng)、維爾康和富邦大廈三站之間)
由于東方醫(yī)療收建華商場(chǎng)的2板位報(bào)誤碼,主用方向?yàn)槭瘴飨?,因此將主用方向改為收取東向。
至此,全環(huán)誤碼消失,業(yè)務(wù)恢復(fù)。
2.2選取2條業(yè)務(wù)跟蹤監(jiān)測(cè)來(lái)縮小定位范圍
選取第2個(gè)VC4的17和38兩個(gè)時(shí)隙(均沒(méi)有在用業(yè)務(wù))分別配置到維爾康和富邦大廈,另一端仍在東方醫(yī)療,其余各站穿通,端站信號(hào)方向均為“西收東發(fā)”,時(shí)隙占用如下:東方醫(yī)療2-PD1-17到維爾康1-PD1-20占用第17時(shí)隙;東方醫(yī)療6-PD1-38到富邦大廈1-PD1-20占用第38時(shí)隙。
通過(guò)網(wǎng)管查看這兩條電路的性能,維爾康收東方醫(yī)療報(bào)遠(yuǎn)端誤碼;富邦收東方醫(yī)療報(bào)本端誤碼塊、誤碼秒;東方醫(yī)療收維爾康報(bào)本端誤碼秒;東方醫(yī)療收富邦報(bào)遠(yuǎn)端誤碼。由此可見(jiàn),故障定位于維爾康東向光板、富邦大廈西向光板以及兩站交叉板之間。
維護(hù)人員首先到維爾康更換了東向光板,無(wú)效;從網(wǎng)管硬復(fù)位主用交叉板,交叉板倒換后(從網(wǎng)管做交叉板的倒換,并沒(méi)有引起相應(yīng)網(wǎng)元支路通道的PS倒換告警),誤碼仍沒(méi)有恢復(fù)。然后趕到富邦大廈,同樣得,更換單板以及倒換交叉板后均無(wú)效。最后檢查了機(jī)房環(huán)境溫度和接地情況,未發(fā)現(xiàn)異常。
難道是故障定位錯(cuò)誤?還是兩塊交叉板都?jí)牧耍赡苄院苄。?/p>
2.3通過(guò)對(duì)VC4打環(huán),進(jìn)行精確定位
由于只選擇了兩條電路進(jìn)行測(cè)試,我們對(duì)結(jié)論的可靠性產(chǎn)生了懷疑,于是決定分別在各端站對(duì)整個(gè)第2個(gè)VC4進(jìn)行打環(huán),具體操作如下:
通過(guò)步驟1,我們已經(jīng)將相應(yīng)端站的主用接收方向做了更改,東方醫(yī)療-喬馬公司、東方醫(yī)療-北國(guó)商城、東方醫(yī)療-建華商場(chǎng)三端路由的主用方向已經(jīng)改為了一致路由,即已經(jīng)“化環(huán)為鏈”了,因此具備了打環(huán)的條件(否則如果打環(huán)時(shí)業(yè)務(wù)配置仍為“西收東發(fā)”,就會(huì)中斷許多業(yè)務(wù),這也是我們開(kāi)始并沒(méi)有采用打環(huán)操作的原因)
我們首先將喬馬公司不在用的十條業(yè)務(wù)主用“收”配回到西向(用作測(cè)試),這十條通道的誤碼重新上報(bào)。然后在富邦大廈的東向光板對(duì)第2個(gè)VC4打外環(huán)(此時(shí)東方醫(yī)療收建華的業(yè)務(wù)已改為東向,不受影響,北國(guó)商城的業(yè)務(wù)因收取備環(huán)方向而受到了影響,操作前已經(jīng)過(guò)用戶同意),查性能,喬馬的誤碼不再上漲,觀察15分鐘后誤碼完全消失;接著在富邦大廈的西向光板對(duì)第2個(gè)VC4打內(nèi)環(huán),喬馬的誤碼再次上報(bào)。至此,我們認(rèn)為故障點(diǎn)就在富邦大廈,由于已經(jīng)換過(guò)西向光板,因此主用交叉板有重大嫌疑。
維護(hù)人員攜帶交叉板到站后,首先拔除了主用交叉板,讓備板工作。這時(shí)東方醫(yī)療、喬馬和富邦的支路板上報(bào)了許多PS告警(而在網(wǎng)管上做交叉板倒換操作,支路板是沒(méi)有PS告警的),等PS告警消失后,查詢性能,誤碼不再上報(bào)。
此時(shí)我們有了疑問(wèn),為什么在網(wǎng)管對(duì)交叉板進(jìn)行復(fù)位倒換時(shí),業(yè)務(wù)并沒(méi)有恢復(fù),而拔除了主用交叉板后,業(yè)務(wù)就恢復(fù)了呢?是不是由于設(shè)備上“壞板”對(duì)好的備板產(chǎn)生影響,使得備板也不能正常工作呢?
帶著疑問(wèn),我們將帶去的交叉板插到主用交叉位置上。這時(shí)網(wǎng)管馬上又出現(xiàn)了大量誤碼(產(chǎn)生誤碼的通道并沒(méi)有變化),可見(jiàn)不是交叉板的問(wèn)題。接著我們拔出了主用時(shí)鐘板,誤碼依舊,看來(lái)也不是時(shí)鐘板的問(wèn)題。最后拿手電筒查詢了母板槽道,“沒(méi)有倒針現(xiàn)象”。
此時(shí)我們還注意到,原主用交叉板為“SS13GTC”,而備用交叉板為“SS12GTC”,這兩種單板工作模式出廠默認(rèn)都設(shè)為“12模式”,即支持“時(shí)分交叉”,可以完全互為備份。雖然如此,由于原備用交叉為SS12GTC,而我們更換的交叉板均為SS13GTC,會(huì)不會(huì)出現(xiàn)版本不匹配而不能協(xié)調(diào)工作呢?我們本地網(wǎng)曾經(jīng)上過(guò)一批交叉板,由于該板電源模塊的問(wèn)題導(dǎo)致一塊單板不在位,整個(gè)網(wǎng)元單板脫管。
2.4再次更換兩塊交叉板后,更換母板子架
我們?cè)俅螖y帶兩塊版本一致的交叉板替換了子架的單板,誤碼仍沒(méi)有消除。此時(shí),我們認(rèn)定為母板問(wèn)題。更換母板子架后,插回原來(lái)各單板,業(yè)務(wù)完全恢復(fù)。
3.故障原因及處理建議
我們?cè)俅螜z查了母板的9槽位,發(fā)現(xiàn)最下面倒數(shù)第二行的幾根針確實(shí)“歪了”,上次沒(méi)有看清楚,以為是灰塵。由于某些針的接觸不良,導(dǎo)致通過(guò)此處的第二個(gè)VC4的傳輸錯(cuò)誤。母板故障需要更換子架,所以這是我們最不希望看到的結(jié)果。而在傳輸故障定位中,母板問(wèn)題又往往是最后考慮的。
通過(guò)本次故障我們看到誤碼故障的產(chǎn)生原因有很多,處理的方法又極為復(fù)雜。誤碼故障的處理集中體現(xiàn)了對(duì)傳輸系統(tǒng)的理解和對(duì)信號(hào)流走向的把握。以小見(jiàn)大,傳輸故障的處理乃至傳輸網(wǎng)絡(luò)的構(gòu)建都需要對(duì)傳輸系統(tǒng)有深入的了解,具有“全程全網(wǎng)”的概念,要站在全局的角度來(lái)處理個(gè)別問(wèn)題;同時(shí)也要把理論吃透,把SDH網(wǎng)絡(luò)的信號(hào)流和基本模塊搞清楚,在處理問(wèn)題時(shí)能夠定位到模塊,而不僅僅是單板。我們?cè)趯?shí)際的工程建設(shè)和維護(hù)過(guò)程中,一些被忽視的細(xì)節(jié)往往會(huì)導(dǎo)致今后網(wǎng)絡(luò)的不穩(wěn)定,甚至造成無(wú)法估量的經(jīng)濟(jì)損失。比如在工程建設(shè)時(shí),不佩戴防靜電手鐲,身上的靜電就有可能擊穿單板;在拔插單板時(shí),插入的不牢靠就有可能造成母版倒針和接觸不良。還有些不良習(xí)慣,當(dāng)時(shí)并沒(méi)有產(chǎn)生告警,也沒(méi)有任何性能事件上報(bào),可在幾個(gè)月后,甚至幾年后對(duì)網(wǎng)絡(luò)運(yùn)行產(chǎn)生嚴(yán)重影響,而在一個(gè)環(huán)路多個(gè)故障的同時(shí)發(fā)生就有可能是災(zāi)難性的故障。這些都要求我們的工程和維護(hù)人員在工作中要嚴(yán)格要求自己,嚴(yán)格按照操作規(guī)程實(shí)施,并不斷提高自己的專(zhuān)業(yè)理論知識(shí),積累故障處理的經(jīng)驗(yàn)。