陳 煉
陳 煉:中國(guó)鐵通集團(tuán)廣東分公司 工程師 510080 廣州
鐵通省級(jí)IP城域網(wǎng)的管理范圍,一般包括集團(tuán)骨干網(wǎng)絡(luò)節(jié)點(diǎn)、省干網(wǎng)絡(luò)、省網(wǎng)NDC數(shù)據(jù)中心以及下轄若干個(gè)地市城域網(wǎng),管理設(shè)備數(shù)千臺(tái),約百萬(wàn)數(shù)量級(jí)的寬帶接入用戶,覆蓋了路由器、BRAS、交換機(jī)、DSLAM、OLT、ONU等設(shè)備類型,涉及到思科、華為、中興、烽火、港灣等廠商的數(shù)十種型號(hào)。網(wǎng)內(nèi)大量的設(shè)備對(duì)日常運(yùn)營(yíng)維護(hù)管理能力提出了較高的要求。就管理手段而言,部分設(shè)備廠家提供了專業(yè)網(wǎng)管 (EMS),但缺乏統(tǒng)一高效的監(jiān)控和管理手段,直接影響了鐵通省級(jí)IP城域網(wǎng)的維護(hù)水平和運(yùn)行質(zhì)量,具體問(wèn)題如下。
1.故障診斷時(shí)間長(zhǎng)。網(wǎng)管人員需要同時(shí)監(jiān)控多個(gè)網(wǎng)管的告警信息。當(dāng)網(wǎng)絡(luò)出現(xiàn)故障時(shí),維護(hù)人員需要在多個(gè)網(wǎng)管系統(tǒng)之間切換,甚至可能還要登錄到網(wǎng)元設(shè)備上判斷故障點(diǎn),故障排查時(shí)間長(zhǎng)。
2.?dāng)?shù)據(jù)格式不統(tǒng)一。各個(gè)廠家專業(yè)網(wǎng)管提供的數(shù)據(jù)格式和內(nèi)容不同,側(cè)重點(diǎn)也不同,有的側(cè)重于設(shè)備配置和告警監(jiān)控,有的側(cè)重于網(wǎng)元設(shè)備資源和性能管理。
3.缺少面向全網(wǎng)的歷史統(tǒng)計(jì)性數(shù)據(jù)。各廠家的專業(yè)網(wǎng)管往往在設(shè)備配置管理方面非常完備,但缺少對(duì)整個(gè)網(wǎng)絡(luò)的歷史統(tǒng)計(jì),不能給運(yùn)維人員提供前瞻性建議。
隨著寬帶接入市場(chǎng)的蓬勃發(fā)展,用戶對(duì)網(wǎng)絡(luò)服務(wù)質(zhì)量的要求不斷提高,急需一套完整的IP城域網(wǎng)網(wǎng)絡(luò)管理系統(tǒng),以實(shí)現(xiàn)網(wǎng)絡(luò)資源管理、故障監(jiān)控、性能監(jiān)測(cè)與統(tǒng)計(jì)分析等功能。為此,廣東鐵通進(jìn)行了互聯(lián)網(wǎng)省級(jí)綜合網(wǎng)管建設(shè)工程。
根據(jù)廣東鐵通的網(wǎng)絡(luò)及業(yè)務(wù)需求,采用省集中方式統(tǒng)一規(guī)劃建設(shè)IP城域網(wǎng)網(wǎng)絡(luò)管理平臺(tái),實(shí)現(xiàn)面向全省IP城域網(wǎng)網(wǎng)絡(luò)的監(jiān)控和管理。目前已實(shí)現(xiàn)對(duì)城域網(wǎng)核心層、匯聚層和接入層設(shè)備的監(jiān)控和管理。
根據(jù)鐵通IP城域網(wǎng)日常管理工作內(nèi)容,將系統(tǒng)功能要求分為告警與性能監(jiān)控、資源與拓?fù)涔芾?、安全管理、?bào)表管理等四大部分。
1.告警與性能監(jiān)控。為了統(tǒng)一監(jiān)控網(wǎng)絡(luò)的運(yùn)行質(zhì)量,IP城域網(wǎng)網(wǎng)管需要對(duì)設(shè)備的告警信息進(jìn)行采集、預(yù)處理,需要支持確認(rèn)、恢復(fù)、升級(jí)、重定義、查詢統(tǒng)計(jì)等功能,監(jiān)控被管設(shè)備的性能信息,包括網(wǎng)元設(shè)備的CPU利用率、內(nèi)存利用率、硬盤(pán)利用率、環(huán)境參數(shù)等,并對(duì)性能數(shù)據(jù)支持門(mén)限告警、查詢統(tǒng)計(jì)等功能。流量是IP網(wǎng)絡(luò)維護(hù)的重要指標(biāo),采集設(shè)備端口的流量數(shù)據(jù)得到帶寬利用率,以圖形化的方式進(jìn)行展示和監(jiān)控。
2.資源與拓?fù)涔芾?。了解IP網(wǎng)絡(luò)的資源狀態(tài),支持對(duì)被管設(shè)備的資源與拓?fù)涔芾?,包括資源和設(shè)備配置信息采集、維護(hù)、查詢統(tǒng)計(jì)等功能,以及對(duì)被管設(shè)備之間的拓?fù)溥B接關(guān)系進(jìn)行發(fā)現(xiàn)、瀏覽、增刪和查改等操作。
3.安全管理。根據(jù)鐵通IP城域網(wǎng)的維護(hù)體系組織情況,支持對(duì)網(wǎng)絡(luò)設(shè)備的分權(quán)、分域管理,即要求系統(tǒng)能夠根據(jù)用戶名及其相關(guān)聯(lián)的角色,對(duì)用戶的操作進(jìn)行功能范圍和區(qū)域范圍控制,同時(shí)記錄操作日志以備日后審計(jì)。
4.報(bào)表管理。被管理網(wǎng)絡(luò)的各項(xiàng)統(tǒng)計(jì)信息需要通過(guò)報(bào)表進(jìn)行統(tǒng)計(jì)呈現(xiàn),支持常見(jiàn)告警、性能、資源等方面的統(tǒng)計(jì)報(bào)表,同時(shí)支持特殊管理需求的自定義報(bào)表。
IP城域網(wǎng)綜合網(wǎng)管系統(tǒng)采用分布式、模塊化、組件化設(shè)計(jì),符合NGOSS構(gòu)架,充分保證系統(tǒng)的開(kāi)放、靈活、先進(jìn)性。廣東鐵通IP城域網(wǎng)網(wǎng)管分為數(shù)據(jù)采集層、數(shù)據(jù)匯聚層、業(yè)務(wù)處理層和UI呈現(xiàn)層等4層。
1.?dāng)?shù)據(jù)采集層。完成接口協(xié)議轉(zhuǎn)換,根據(jù)設(shè)備的接口類型,將不同設(shè)備的數(shù)據(jù)和消息轉(zhuǎn)換為統(tǒng)一的內(nèi)部格式,傳到數(shù)據(jù)匯聚層進(jìn)行處理。該層支持基于SNMP、TL1、Telnet、SYSLOG等網(wǎng)管協(xié)議的數(shù)據(jù)采集。
2.?dāng)?shù)據(jù)匯聚層。采用統(tǒng)一的管理對(duì)象模型來(lái)描述網(wǎng)絡(luò)中的管理對(duì)象和事件消息。統(tǒng)一的管理對(duì)象模型能夠?qū)崿F(xiàn)跨廠家、跨設(shè)備類型的統(tǒng)一描述,使復(fù)雜的異構(gòu)網(wǎng)絡(luò)以統(tǒng)一的面貌呈現(xiàn)給網(wǎng)管操作者。
3.業(yè)務(wù)處理層。該層基于統(tǒng)一的管理對(duì)象模型,實(shí)現(xiàn)了多種網(wǎng)絡(luò)管理業(yè)務(wù),包括資源管理、拓?fù)涔芾怼⑿阅芄芾?、?bào)表、安全管理等業(yè)務(wù),并為UI呈現(xiàn)層提供遠(yuǎn)程業(yè)務(wù)調(diào)用接口,實(shí)現(xiàn)了業(yè)務(wù)邏輯集中處理。
4.UI呈現(xiàn)層。采用Java Swing技術(shù),生成IP城域網(wǎng)網(wǎng)管的數(shù)據(jù)呈現(xiàn)和操作的界面。
2.3.1 告警采集、預(yù)處理與呈現(xiàn)
告警管理是IP城域網(wǎng)綜合網(wǎng)管的重要功能,通過(guò)對(duì)網(wǎng)內(nèi)多種異構(gòu)設(shè)備的告警采集、預(yù)處理和統(tǒng)一呈現(xiàn),維護(hù)人員可以在單獨(dú)界面上,以統(tǒng)一的方式監(jiān)控網(wǎng)內(nèi)所有設(shè)備的告警。IP城域網(wǎng)綜合網(wǎng)管實(shí)現(xiàn)了基于SNMP TRAP、TL1、SYSLOG等多種接口協(xié)議的告警采集。SNMP TRAP主要用于對(duì)路由器、交換機(jī)等設(shè)備的告警采集,通過(guò)配置設(shè)備,將 SNMP TRAP的目標(biāo)地址設(shè)置為網(wǎng)管告警采集機(jī),即可接收設(shè)備的告警;TL1協(xié)議是基于文本格式的網(wǎng)管接口協(xié)議,在IP綜合網(wǎng)管中主要用于面向xPON設(shè)備專業(yè)網(wǎng)管(EMS)的信息采集;SYSLOG協(xié)議主要用于對(duì)防火墻等設(shè)備的告警采集。
為了實(shí)現(xiàn)告警的統(tǒng)一預(yù)處理與呈現(xiàn),IP城域網(wǎng)網(wǎng)管中提出了告警服務(wù)器的概念 (Alarm Server)。Alarm Server負(fù)責(zé)管理全局告警列表,主要功能包括:告警消息同資源信息的關(guān)聯(lián)、告警預(yù)處理、更新告警全局列表、向客戶端發(fā)送告警消息等。多個(gè)告警采集機(jī)將收到的告警信息格式化之后,發(fā)至預(yù)先設(shè)定的Alarm Server,由Alarm Server進(jìn)行相關(guān)處理之后,再發(fā)送到各個(gè)訂閱了告警消息的客戶端呈現(xiàn)。
系統(tǒng)采用上述的告警處理結(jié)構(gòu),統(tǒng)一了告警處理流程,便于后續(xù)添加新的告警源;增加告警相關(guān)新功能時(shí)只要修改Alarm Server即可,方便升級(jí)與部署;Alarm Server可以部署在多臺(tái)專用服務(wù)器上,實(shí)現(xiàn)了處理能力的線性擴(kuò)展。
2.3.2 高效的性能指標(biāo)采集
IP城域網(wǎng)綜合網(wǎng)管的重要功能是設(shè)備性能監(jiān)控和性能分析,要求網(wǎng)管實(shí)現(xiàn)大規(guī)模的性能指標(biāo)采集,這也是綜合網(wǎng)管同設(shè)備廠家專業(yè)網(wǎng)管的重要區(qū)別之一。通常專業(yè)網(wǎng)管在性能指標(biāo)方面只實(shí)現(xiàn)少量指標(biāo)的測(cè)試功能,無(wú)法提供大規(guī)模、長(zhǎng)時(shí)間、細(xì)粒度的性能指標(biāo)采集。為了實(shí)現(xiàn)在較短的采集周期內(nèi)(通常是5 min),對(duì)大量的性能指標(biāo) (數(shù)十萬(wàn)數(shù)量級(jí))進(jìn)行大規(guī)模采集,必須仔細(xì)考慮性能指標(biāo)的采集、入庫(kù)的速度。
性能采集模塊的基本設(shè)計(jì)思路是建立性能采集任務(wù)表,由調(diào)度程序?qū)θ蝿?wù)表進(jìn)行周期性掃描,獲得采集任務(wù)的基本信息。任務(wù)調(diào)度程序在相應(yīng)的時(shí)間點(diǎn)啟動(dòng)采集進(jìn)程,進(jìn)行指標(biāo)采集和入庫(kù)。在廣東鐵通IP網(wǎng)管性能采集模塊的設(shè)計(jì)上,考慮了下面幾點(diǎn)。
1.?dāng)?shù)據(jù)庫(kù)連接池。主要用于解決數(shù)據(jù)入庫(kù)的性能瓶頸。采集機(jī)在拿到數(shù)據(jù)之后,需要將數(shù)據(jù)寫(xiě)入數(shù)據(jù)庫(kù)進(jìn)行后續(xù)分析,通常需要:①打開(kāi)數(shù)據(jù)庫(kù)連接,②寫(xiě)入數(shù)據(jù),③關(guān)閉數(shù)據(jù)庫(kù)連接3個(gè)步驟。實(shí)際測(cè)試發(fā)現(xiàn),在每次寫(xiě)入的性能數(shù)據(jù)規(guī)模較小(數(shù)十個(gè)字節(jié))情況下,步驟①③占用了大量的時(shí)間。解決這一問(wèn)題有2個(gè)方案:第一,增加步驟②中的數(shù)據(jù)寫(xiě)入的規(guī)模,使步驟①③在入庫(kù)過(guò)程中占用時(shí)間比例縮小;第二,建立數(shù)據(jù)庫(kù)連接池,在每個(gè)采集機(jī)為性能采集保持若干個(gè)數(shù)據(jù)庫(kù)連接,省去步驟①③。通過(guò)分析發(fā)現(xiàn),在現(xiàn)有的性能數(shù)據(jù)入庫(kù)場(chǎng)景中,多次小規(guī)模寫(xiě)入和一次大規(guī)模寫(xiě)入的單條性能數(shù)據(jù)平均時(shí)間開(kāi)銷是類似的,并且增加數(shù)據(jù)緩存后會(huì)較大地增加設(shè)計(jì)復(fù)雜度。所以,采用了方案二建立數(shù)據(jù)庫(kù)連接池,其規(guī)模需要通過(guò)試驗(yàn)確定。
2.多線程并發(fā)處理。SNMP采集的基本過(guò)程如圖1所示。其中,較大的時(shí)間開(kāi)銷是設(shè)備響應(yīng)時(shí)間,即從SNMP管理程序發(fā)出請(qǐng)求消息,到收到響應(yīng)消息之間占用的時(shí)間。考慮利用多線程技術(shù),在同一個(gè)采集進(jìn)程中同時(shí)發(fā)起對(duì)若干個(gè)設(shè)備多個(gè)性能指標(biāo)的采集。由于線程間的調(diào)度會(huì)占用一部分處理器開(kāi)銷,過(guò)大的并發(fā)線程數(shù)量可能會(huì)導(dǎo)致整體效率下降,所以并不是并發(fā)線程的數(shù)量越大,采集的效率就會(huì)越高。由于網(wǎng)絡(luò)因素和網(wǎng)絡(luò)設(shè)備SNMP代理程序的性能情況并不確定,性能采集程序的最佳并發(fā)線程個(gè)數(shù)需要通過(guò)試驗(yàn)來(lái)確定。
圖1 SNMP采集過(guò)程
廣東鐵通IP城域網(wǎng)綜合網(wǎng)管的建設(shè),將歸屬?gòu)V東鐵通的鐵通集團(tuán)骨干網(wǎng)廣東節(jié)點(diǎn)、省干網(wǎng)絡(luò)、省網(wǎng)NDC數(shù)據(jù)中心,以及下轄地市城域網(wǎng)全部納入了統(tǒng)一管理。通過(guò)在網(wǎng)絡(luò)運(yùn)維中使用該網(wǎng)管,網(wǎng)絡(luò)管理人員可以快速、準(zhǔn)確、完整地了解網(wǎng)絡(luò)運(yùn)行的狀態(tài)和相關(guān)信息,對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行及時(shí)的監(jiān)測(cè)、調(diào)整和優(yōu)化,實(shí)現(xiàn)了提高網(wǎng)絡(luò)的運(yùn)營(yíng)效率、寬帶服務(wù)品質(zhì),降低網(wǎng)絡(luò)管理成本,提高網(wǎng)絡(luò)維護(hù)效率,保證廣東鐵通IP城域網(wǎng)能夠提供穩(wěn)定、高效的互聯(lián)網(wǎng)接入服務(wù)。
[1] TMF 053 v4.0.The NGOSS Technology Neutral Architecture(TNA)[S].2004.
[2] J.Case,et al,RFC 1157.A Simple Network Management Protocol(SNMP) [M].1990.
[3] Telcordia,GR-831-CORE,Operations Application Messages-Language For Operations Application Messages[M],1996.