葛中魁
【摘要】 文章依據(jù)中國聯(lián)通集約化運(yùn)維為背景,依托河南聯(lián)通現(xiàn)有網(wǎng)管系統(tǒng)監(jiān)控的實(shí)際情況,全面分析移動(dòng)網(wǎng)無線網(wǎng)絡(luò)監(jiān)控保障中關(guān)鍵問題,并通過研究分析,制定相應(yīng)的對(duì)策,確保集約化維護(hù)后,支撐系統(tǒng)安全穩(wěn)定地運(yùn)行。河南聯(lián)通根據(jù)集團(tuán)集約化維護(hù)體系的整體部署,于2014年開始進(jìn)行“集中網(wǎng)管、集中監(jiān)控、集中派單”的集中化維護(hù)體系建設(shè)。為無線專業(yè)“三集中”支撐系統(tǒng)的穩(wěn)定性提供手段,同時(shí)對(duì)其他專業(yè)也有借鑒意義。
【關(guān)鍵詞】 移動(dòng)無線網(wǎng) 集中監(jiān)控 關(guān)鍵問題 解決
中國聯(lián)通2014年提出以提高網(wǎng)絡(luò)質(zhì)量、提升維護(hù)效率和效益為目標(biāo),全面推進(jìn)面向業(yè)務(wù)質(zhì)量和客戶感知的運(yùn)維轉(zhuǎn)型,逐步建立集約化維護(hù)體系。
集中監(jiān)控作為集約化維護(hù)最關(guān)鍵的一環(huán),承擔(dān)著設(shè)備告警監(jiān)視、設(shè)備故障告警派單的基礎(chǔ)保障。而移動(dòng)無線網(wǎng)絡(luò)因設(shè)備復(fù)雜,網(wǎng)元數(shù)量龐大,告警量巨大的特點(diǎn),更是監(jiān)控和派單中的難點(diǎn)。本文僅從移動(dòng)綜合網(wǎng)管系統(tǒng)中無線專業(yè)集中監(jiān)控關(guān)鍵問題著手進(jìn)行分析和解決。
一、集中監(jiān)控系統(tǒng)概述
1.1網(wǎng)管系統(tǒng)架構(gòu)
移動(dòng)網(wǎng)管系統(tǒng)從網(wǎng)絡(luò)架構(gòu)上可分為網(wǎng)元、設(shè)備網(wǎng)管,專業(yè)綜合網(wǎng)管和多專業(yè)綜合網(wǎng)管。設(shè)備網(wǎng)管管理各種網(wǎng)元設(shè)備,包括操作維護(hù)、配置、性能、告警、安全等,設(shè)備網(wǎng)管通過北向接口將配置、性能、告警等上報(bào)給專業(yè)綜合網(wǎng)管解析、處理、入庫,并進(jìn)行后期匯總等工作。對(duì)于告警,還需要通過消息及時(shí)送往上層監(jiān)控平臺(tái)呈現(xiàn)。專業(yè)綜合網(wǎng)管通過北向接口將告警、性能等信息送往上級(jí)總部綜合網(wǎng)管系統(tǒng)和多專業(yè)綜合網(wǎng)管。
1.2河南聯(lián)通移動(dòng)網(wǎng)集中監(jiān)控現(xiàn)狀
河南聯(lián)通移動(dòng)綜合網(wǎng)管作為移動(dòng)網(wǎng)基礎(chǔ)網(wǎng)絡(luò)管理平臺(tái),實(shí)現(xiàn)了同各設(shè)備廠家網(wǎng)管和總部網(wǎng)管的互聯(lián)。已利用該系統(tǒng)進(jìn)行故障集中監(jiān)控、性能數(shù)據(jù)采集、網(wǎng)絡(luò)維護(hù)、生產(chǎn)分析等工作,在河南聯(lián)通日常運(yùn)維工作和網(wǎng)絡(luò)分析工作中發(fā)揮了重要的作用,為設(shè)備維護(hù)、網(wǎng)絡(luò)規(guī)劃、市場(chǎng)發(fā)展提供強(qiáng)有力的支撐。
二、集中監(jiān)控系統(tǒng)問題分析
2.1 設(shè)備網(wǎng)管與網(wǎng)元連接不穩(wěn)定
設(shè)備網(wǎng)管與網(wǎng)元接口,G網(wǎng)和W網(wǎng)均通過基站控制器(BSC/RNC)后管理模塊連接,LTE是設(shè)備網(wǎng)管直接與基站通信,設(shè)備網(wǎng)管均集中在省網(wǎng)管中心機(jī)房。接口不穩(wěn)定主要原因主要有以下幾個(gè)方面:DCN網(wǎng)絡(luò)瞬斷、廠家自身私有接口不穩(wěn)定、基站控制器的后管理模塊故障等。
接口不穩(wěn)定會(huì)導(dǎo)致一部分告警丟失、告警清除不掉的情況,給日常維護(hù)造成漏判、誤判,同時(shí)會(huì)導(dǎo)致考核數(shù)據(jù)不準(zhǔn)確。
2.2 設(shè)備網(wǎng)管與綜合網(wǎng)管連接不穩(wěn)定
設(shè)備網(wǎng)管與移動(dòng)綜合網(wǎng)管告警接口存在多種,有SOCKET、CORBA、人機(jī)命令、數(shù)據(jù)庫等。各種接口及在現(xiàn)網(wǎng)應(yīng)用中的現(xiàn)狀如下:
SOCKET接口:Socket接口采用TCP/IP協(xié)議,telnet到指定端口,兩端分別設(shè)置成Client端和Server端,實(shí)時(shí)接受網(wǎng)元告警消息?,F(xiàn)網(wǎng)使用中,此類接口較不穩(wěn)定,網(wǎng)絡(luò)稍有抖動(dòng)就會(huì)出現(xiàn)告警丟失的情況。
CORBA接口:將私有接口轉(zhuǎn)換成標(biāo)準(zhǔn)接口,可有效保證數(shù)據(jù)完整性和安全性。CORBA接口偶爾也會(huì)出現(xiàn)網(wǎng)絡(luò)抖動(dòng)或訂閱失效導(dǎo)致告警丟失。
人機(jī)命令接口:綜合網(wǎng)管通過程序配置向OMC發(fā)指令進(jìn)行告警偵聽。此接口同樣存在較嚴(yán)重的告警丟失情況。接口較不穩(wěn)定。
數(shù)據(jù)庫接口:綜合網(wǎng)管通過數(shù)據(jù)庫驅(qū)動(dòng)軟件直接連接數(shù)據(jù)庫查詢。在數(shù)據(jù)庫不出故障的情況下,接口非常穩(wěn)定,但不具有及時(shí)性。
2.3 無線網(wǎng)元上報(bào)告警格式問題
無線設(shè)備廠家告警分別從兩類網(wǎng)元上報(bào):BSC/RNC和基站。BSC/RNC上除產(chǎn)生BSC/RNC全局性告警外,還有針對(duì)基站的接口告警,無法把兩者區(qū)分。維護(hù)中BSC/RNC和基站告警的重要性不同,在網(wǎng)管上無法根據(jù)告警標(biāo)題做級(jí)別重定義,因此存在無法定位網(wǎng)元和級(jí)別的問題。
2.4 無線網(wǎng)元告警數(shù)量巨大
統(tǒng)計(jì)全省無線告警數(shù)量情況,全部無線網(wǎng)絡(luò)告警量每天在30-35萬條之間,BSC/RNC的告警量8-10萬條之間。提取全省無線BSC/RNC一周告警做分析,工程割接占比達(dá)到58.64%,資源負(fù)荷類告警占32.98%,設(shè)備硬件軟件告警只占7.2%。如此大量的告警,如果不進(jìn)行告警梳理,將割接和不影響業(yè)務(wù)的告警進(jìn)行篩選和級(jí)別重定義,無法形成派單和處理。
三、問題解決
3.1 設(shè)備網(wǎng)管與網(wǎng)元連接
廠家私有接口問題解決措施
設(shè)備網(wǎng)管和網(wǎng)元間各廠家均是私有接口,理論上來說出現(xiàn)問題的概率偏小,但愛立信G網(wǎng)設(shè)備丟失告警的概率偏高。
解決方案:通過在廠家OMC上部署告警同步程序,根據(jù)網(wǎng)管設(shè)備處理能力選取合理的同步周期,比對(duì)設(shè)備網(wǎng)管告警與BSC/RNC后管理模塊告警的一致性,進(jìn)行同步。
DCN網(wǎng)絡(luò)中斷、后管理模塊故障監(jiān)控措施
設(shè)備中斷都有類似“網(wǎng)元斷鏈”或“網(wǎng)元連接中斷”的告警出現(xiàn),通過監(jiān)控此類告警判斷某些網(wǎng)元是否連接故障,并根據(jù)告警產(chǎn)生時(shí)間長短,逐級(jí)提升告警級(jí)別;另外綜合網(wǎng)管上編制PING各BSC/RNC后管理模塊IP地址的小程序,在值班巡檢時(shí)檢查。
3.2 綜合網(wǎng)管與設(shè)備網(wǎng)管連接
監(jiān)控OMC上報(bào)告警。綜合網(wǎng)管上編寫程序,監(jiān)視各個(gè)設(shè)備網(wǎng)管北向接口告警信息,某個(gè)OMC在一定周期內(nèi)(如10分鐘)無告警消息報(bào)送即產(chǎn)生告警并發(fā)送手機(jī)短信。
綜合網(wǎng)管和設(shè)備網(wǎng)管之間告警同步??紤]到SOCKET、人機(jī)命令等接口沒有同步機(jī)制,即使是CORBA接口,訂閱同步及對(duì)所有告警分析,因告警量大,受到設(shè)備處理能力限制,河南聯(lián)通采取的措施是數(shù)據(jù)庫同步。
3.3 無線網(wǎng)元上報(bào)告警格式問題
基站小區(qū)告警產(chǎn)生在BSC/RNC上的情況相當(dāng)多,必須進(jìn)行全面的梳理,并不斷核對(duì)觀察,篩選出告警標(biāo)題。通過細(xì)化修改綜合網(wǎng)管的解析文件,把這些告警對(duì)象匹配到基站和小區(qū)上面。
3.4 無線網(wǎng)元上報(bào)告警數(shù)量巨大
工程預(yù)約實(shí)現(xiàn)工程告警過濾 。工程預(yù)約的功能是將某個(gè)時(shí)間段內(nèi)計(jì)劃割接的網(wǎng)元信息導(dǎo)入到網(wǎng)管系統(tǒng),綜合網(wǎng)管告警監(jiān)控系統(tǒng)會(huì)將割接時(shí)間段內(nèi)的此網(wǎng)元告警標(biāo)記為工程狀態(tài),并且不生成告警工單派發(fā)。錄入的信息包含節(jié)點(diǎn)類、端口類、小區(qū)割接類、未入網(wǎng)網(wǎng)元預(yù)約等。
通過告警標(biāo)準(zhǔn)化梳理重新定義告警級(jí)別。告警標(biāo)準(zhǔn)化梳理,并重新定義告警級(jí)別是集中監(jiān)控必不可少的環(huán)節(jié)。河南聯(lián)通告警級(jí)別共分6級(jí):重大、嚴(yán)重、主要、輕微、警告、不確定。不同級(jí)別告警影響業(yè)務(wù)的程度不同,采取不同的處理時(shí)限。
告警關(guān)聯(lián)規(guī)則設(shè)置。告警關(guān)聯(lián)就是將基本同一時(shí)間發(fā)生的有一定相關(guān)性的告警進(jìn)行關(guān)聯(lián)分析,分衍生關(guān)聯(lián)、主次關(guān)聯(lián)、閾值升級(jí)。通過告警關(guān)聯(lián),能有效降低高級(jí)別的告警數(shù)量和派單數(shù)量。
3.5 其他輔助措施
告警短信輔助監(jiān)控。通過與短信網(wǎng)關(guān)接口,設(shè)置設(shè)備重大和嚴(yán)重告警、設(shè)備網(wǎng)管與綜合網(wǎng)管斷連告警發(fā)送短信給相關(guān)維護(hù)責(zé)任人,輔助監(jiān)控。
智能巡檢配合。智能巡檢是利用人機(jī)命令接口,向網(wǎng)元設(shè)備發(fā)指令提取實(shí)時(shí)的各種鏈路狀態(tài)、CPU負(fù)荷、重要告警等信息,將提取的報(bào)告解析與預(yù)先設(shè)置的標(biāo)準(zhǔn)或門限比對(duì),判斷設(shè)備是否正常。對(duì)巡檢結(jié)果會(huì)以報(bào)告的方式提供給維護(hù)人員查閱,同時(shí)設(shè)置異常巡檢結(jié)果直接轉(zhuǎn)告警。
四、總結(jié)
在聯(lián)通如此龐大而且多種制式網(wǎng)絡(luò)并存的情況下,集約化運(yùn)維是一項(xiàng)巨大而復(fù)雜的工程,而集中監(jiān)控系統(tǒng)是關(guān)鍵。對(duì)跨專業(yè)的告警關(guān)聯(lián)要做細(xì)致分析和梳理,特別是基站主設(shè)備與傳輸、動(dòng)環(huán)專業(yè)告警關(guān)聯(lián)是定位基站故障原因的關(guān)鍵要素。與相關(guān)的系統(tǒng)協(xié)同配合,如電子運(yùn)維的精細(xì)化派單、資源管理系統(tǒng)的完善等,與之相匹配的管理流程也要及時(shí)跟進(jìn)。
參 考 文 獻(xiàn)
[1]夏海濤,詹志強(qiáng) 新一代網(wǎng)絡(luò)管理技術(shù) 北京郵電大學(xué)出版社 2004
[2]中國聯(lián)通OSS/WCDMA網(wǎng)綜合網(wǎng)管系統(tǒng)與網(wǎng)元管理系統(tǒng)間接口技術(shù)規(guī)范 2013