OLT作為局端設(shè)備,主要用于對(duì)終端業(yè)務(wù)的控制和承載,同時(shí)在整個(gè)接入網(wǎng)絡(luò)中,OLT也作為承上啟下的“業(yè)務(wù)橋梁”,承擔(dān)著故障處理的“分水嶺”的重要責(zé)任。一旦OLT設(shè)備發(fā)生異常故障,就會(huì)給終端業(yè)務(wù)造成十分嚴(yán)重的影響。
圖1 大量報(bào)錯(cuò)打印信息
在日常維護(hù)工作當(dāng)中,OLT所引起的故障,大家都已經(jīng)十分熟悉了,而本文則主要給大家分享一種日常不常見的OLT脫管故障及處理方法。
近 日,有 同事發(fā)現(xiàn)某地的烽火GPON機(jī)房5516-01 OLT Telnet登錄失敗,也無(wú)法ping通,專業(yè)網(wǎng)管顯示設(shè)備脫管。
步驟1:現(xiàn)場(chǎng)登錄主控盤上,發(fā)現(xiàn)有大量報(bào)錯(cuò)打印,如圖1所示。
步驟2:這是交換芯片的ParityError報(bào)錯(cuò),芯片廠商的相關(guān)資料如下:
1.概念:ParityError稱為軟失效,軟失效是指由于高能粒子單元對(duì)芯片晶元的撞擊,產(chǎn)生大量的電子空穴對(duì),當(dāng)這些帶電粒子的帶電量與芯片存儲(chǔ)單元的閥值電荷量相當(dāng)時(shí),將會(huì)導(dǎo)致芯片比特翻轉(zhuǎn)而引起單/多比特錯(cuò)誤。
2.產(chǎn)生原因:芯片尺寸越來(lái)越小,功耗越來(lái)越低,晶體管的節(jié)點(diǎn)電壓和工作電壓都隨之降低,使得芯片也越來(lái)越容易產(chǎn)生軟失效的問(wèn)題。
軟失效的原因分為如下兩大類:芯片封裝材料中放射性元素產(chǎn)生的alpha粒子,1%的錯(cuò)誤是多比特錯(cuò)誤;宇宙射線的高能中子和低能中子,30%的錯(cuò)誤是多比特錯(cuò)誤。
3.失效概率:一般儲(chǔ)存器芯片廠家都會(huì)給出芯片的軟失效率(SER)。
單 位 FIT(Fail In Time),即每109個(gè)小時(shí)芯片發(fā)生軟失效的錯(cuò)誤數(shù)。根據(jù)芯片儲(chǔ)存容量的不同一般表為FIT/Mb,其中1FIT/Mb=1fail per 109hrs per 106bits=1015fail/bithour。瑞薩提供的SER,封裝材料alpha粒子引起的SER為126FIT/Mb,宇宙射線一起的 SER為 98FIT/Mb。
4.處理機(jī)制:
問(wèn)題現(xiàn)象:某個(gè)表項(xiàng)或者寄存器出現(xiàn)比特翻轉(zhuǎn),導(dǎo)致業(yè)務(wù)中斷。
處理機(jī)制:芯片內(nèi)部硬件周期性快速的檢查所有表項(xiàng),若檢測(cè)到某個(gè)表項(xiàng)出現(xiàn)PARITY/ECC錯(cuò)誤,則通知CPU,CPU使用該表項(xiàng)的軟備份配置重新刷新該表項(xiàng)進(jìn)行恢復(fù)。
注意事項(xiàng):軟件需要備份存儲(chǔ)所有相關(guān)表項(xiàng)的配置值,若表項(xiàng)很大,則會(huì)耗費(fèi)CPU大量?jī)?nèi)存。
步驟3:經(jīng)過(guò)以上分析,以及結(jié)合現(xiàn)場(chǎng)問(wèn)題的報(bào)錯(cuò)打印信息,確定了該問(wèn)題是由于主控盤的交換芯片的軟失效導(dǎo)致。
根據(jù)以上排查和分析,確認(rèn)問(wèn)題原因是由于主控盤的交換芯片的軟失效導(dǎo)致。
1.通過(guò)查詢失效業(yè)務(wù)的相關(guān)寄存器,如果發(fā)現(xiàn)有EVEN_PARITY=1,則存在軟失效問(wèn)題,此時(shí)只能重啟單盤解決。
2.如果重啟后仍然上報(bào)EVEN_PARITY并且不消失,請(qǐng)更換機(jī)盤。
OLT軟失效脫管故障的發(fā)生,從無(wú)法登錄OLT設(shè)備進(jìn)行查看,到維護(hù)人員初步判斷懷疑是鏈路故障、光模塊故障、設(shè)備是否掉電。而失效過(guò)程中并沒(méi)有收到OLT所帶用戶上報(bào)故障,趕到現(xiàn)場(chǎng)也沒(méi)有發(fā)現(xiàn)設(shè)備斷電、端口指示燈正常,有數(shù)據(jù)燈閃爍。
如何快速尋找并正確定位處理至關(guān)重要,維護(hù)人員現(xiàn)場(chǎng)通過(guò)采用串口線連接設(shè)備,采集設(shè)備日志信息發(fā)送給廠家,分析出產(chǎn)生故障原因,進(jìn)而采取針對(duì)性的排錯(cuò)舉措。