李呂生
摘 要:文章以校園網(wǎng)絡(luò)管理系統(tǒng)的研究與實現(xiàn)為研究課題,針對作者在這次研發(fā)中參與的部分工作進(jìn)行描述。以故障管理模塊中的故障監(jiān)測為例,簡單介紹了日常工作中遇到的部分網(wǎng)絡(luò)故障問題,分析了SNMP網(wǎng)絡(luò)管理系統(tǒng)的結(jié)構(gòu)和收集被代理網(wǎng)絡(luò)設(shè)備信息的重要性,詳細(xì)說明了自動完成檢測網(wǎng)絡(luò)故障的步驟。
關(guān)鍵詞:網(wǎng)絡(luò)管理;故障監(jiān)測;SNMP
引言
由于某民辦高校的網(wǎng)絡(luò)管理經(jīng)費有限,我們結(jié)合長遠(yuǎn)規(guī)劃及現(xiàn)有網(wǎng)絡(luò)架構(gòu)情況,針對網(wǎng)絡(luò)管理系統(tǒng)展開自主研發(fā)。在參考同等高校的網(wǎng)絡(luò)設(shè)備監(jiān)控管理模式的同時,也綜合自身情況研發(fā)了一套滿足當(dāng)前校園網(wǎng)絡(luò)設(shè)備管理需求的系統(tǒng),有效解決設(shè)備廠商不統(tǒng)一、跨區(qū)域、結(jié)構(gòu)復(fù)雜、故障漏報等問題。本系統(tǒng)采用基于SNMP協(xié)議研發(fā),對校園內(nèi)的網(wǎng)絡(luò)設(shè)備進(jìn)行智能監(jiān)控,實現(xiàn)網(wǎng)絡(luò)設(shè)備24小時自動監(jiān)測。當(dāng)交換機(jī)或鏈路出現(xiàn)異常情況時能夠?qū)崟r檢測到故障,為網(wǎng)絡(luò)管理人員提供可靠的故障監(jiān)測結(jié)果,減少排查工作量,及時解決問題,保持網(wǎng)絡(luò)穩(wěn)定運行。
1 在工作中遇到的問題
結(jié)合在高校網(wǎng)絡(luò)中心工作的這幾年經(jīng)驗,總結(jié)了一些日常較常見的網(wǎng)絡(luò)故障,如設(shè)備硬件問題、系統(tǒng)軟件問題、環(huán)路問題,攻擊問題,病毒問題等等。網(wǎng)絡(luò)異常問題的發(fā)生,都會影響設(shè)備的運行和參數(shù)的變化。通過故障問題的分析,對故障監(jiān)測的研究帶來一定的幫助。
1.1 網(wǎng)絡(luò)設(shè)備故障
網(wǎng)絡(luò)設(shè)備故障一般分為硬件故障和系統(tǒng)故障,當(dāng)硬件或系統(tǒng)發(fā)生故障時,都會造成網(wǎng)絡(luò)異?;蚓W(wǎng)絡(luò)中斷現(xiàn)象。
(1)硬件故障主要是設(shè)備在運行過程中散發(fā)大量熱量,如果熱量無法散發(fā),設(shè)備的溫度就會過高,導(dǎo)致網(wǎng)絡(luò)不穩(wěn)定出現(xiàn)丟包或延時等情況。嚴(yán)重時燒壞設(shè)備電源或主板。網(wǎng)絡(luò)設(shè)備運行環(huán)境潮濕,網(wǎng)線和水晶頭將會氧化或發(fā)霉,導(dǎo)致接觸不良、端口損壞或信號衰減等情況,無法上網(wǎng)或網(wǎng)絡(luò)延時。
(2)系統(tǒng)故障主要是設(shè)備系統(tǒng)出錯或配置不當(dāng)?shù)葘?dǎo)致系統(tǒng)出現(xiàn)錯誤。先判斷問題,需要重啟的根據(jù)流程重啟,如果重啟后還沒消除錯誤的,再補丁或升級系統(tǒng)。配置不當(dāng)也會導(dǎo)致交換機(jī)丟包、無法獲取IP等情況。
1.2 廣播風(fēng)暴問題
廣播風(fēng)暴問題在校園網(wǎng)絡(luò)中比較常見,由各種原因造成的廣播風(fēng)暴,都會產(chǎn)生大量數(shù)據(jù)包,并且占用大量帶寬,導(dǎo)致網(wǎng)速變慢或網(wǎng)絡(luò)癱瘓。產(chǎn)生廣播風(fēng)暴的原因主要有:
(1)端口問題。網(wǎng)絡(luò)設(shè)備端口異常,引起端口不停發(fā)送大量的數(shù)據(jù)包,產(chǎn)生了大量無用的數(shù)據(jù)包,而造成大量廣播風(fēng)暴。
(2)環(huán)路問題。環(huán)路產(chǎn)生的原因是路由協(xié)議設(shè)置不正確或一根網(wǎng)線的兩端插在同一個交換機(jī)上造成的,導(dǎo)致產(chǎn)生大量廣播數(shù)據(jù)包不斷循環(huán),即使用戶可以成功獲取IP地址,也無法上網(wǎng)。
(3)網(wǎng)絡(luò)病毒及ARP欺騙。網(wǎng)絡(luò)病毒在入侵主機(jī)后,通過網(wǎng)絡(luò)進(jìn)行傳播,占用網(wǎng)絡(luò)帶寬,產(chǎn)生大量的廣播風(fēng)暴造成網(wǎng)絡(luò)堵塞;ARP欺騙主要是偽造數(shù)據(jù)包,會造成網(wǎng)絡(luò)不穩(wěn)定,嚴(yán)重導(dǎo)致網(wǎng)絡(luò)癱瘓。
2 研究思路與SNMP體系結(jié)構(gòu)
2.1 研究思路
建立一套針對校園網(wǎng)絡(luò)獨特的實時網(wǎng)絡(luò)設(shè)備監(jiān)控系統(tǒng),對設(shè)備進(jìn)行實時監(jiān)控和故障檢測,自動收集和分析網(wǎng)絡(luò)設(shè)備性能指標(biāo)及相關(guān)信息。系統(tǒng)實現(xiàn)故障有效自動監(jiān)測,監(jiān)測到的故障節(jié)點通過網(wǎng)絡(luò)拓?fù)鋱D顯示設(shè)備存活狀態(tài),實現(xiàn)WEB界面化管理,可方便各級網(wǎng)絡(luò)管理員能夠及時了解和掌握整個網(wǎng)絡(luò)狀態(tài)及故障信息,有利于網(wǎng)絡(luò)管理人員對故障的排除工作。
校園網(wǎng)絡(luò)實時監(jiān)控系統(tǒng)故障監(jiān)測模塊的搭建根據(jù)校園當(dāng)前環(huán)境綜合考慮,本系統(tǒng)采用SNMP的模型結(jié)構(gòu)。后面將詳細(xì)介紹SNMP協(xié)議、MIB管理信息庫的結(jié)構(gòu)及原理、數(shù)據(jù)收集和網(wǎng)絡(luò)故障自動檢測的實現(xiàn)步驟等。系統(tǒng)結(jié)構(gòu)如圖1所示。
2.2 SNMP體系結(jié)構(gòu)
網(wǎng)絡(luò)管理的研究非常廣泛,主要針對平臺化、自動化、智能化、分布式等方向研究,但在采用協(xié)議和算法各有不同。被監(jiān)控、監(jiān)測的網(wǎng)絡(luò)設(shè)備包括:交換機(jī)、路由器、服務(wù)器等等,考慮到目前的網(wǎng)絡(luò)設(shè)備普遍都支持SNMP協(xié)議,而且SNMP協(xié)議在大型及復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)中易于實現(xiàn)和擴(kuò)展性,數(shù)據(jù)通信產(chǎn)生的流量少,不會造成網(wǎng)絡(luò)堵塞,所以本系統(tǒng)采用SNMP協(xié)議,對校園現(xiàn)有幾個廠商的網(wǎng)絡(luò)設(shè)備進(jìn)行故障監(jiān)測。先分析基于SNMP的體系結(jié)構(gòu)組成部分:
(1)基于WEB的網(wǎng)絡(luò)管理平臺
基于WEB的網(wǎng)絡(luò)管理平臺主要是根據(jù)SNMP協(xié)議收集被管理設(shè)備的信息,通過Web服務(wù)器來實現(xiàn)對瀏覽器界面進(jìn)行監(jiān)視和管理。平臺化具有較強(qiáng)的移動性,在特定的區(qū)域內(nèi)都可通過網(wǎng)絡(luò)進(jìn)行管理,極大方便網(wǎng)絡(luò)管理人員對整個校園網(wǎng)絡(luò)的運行狀態(tài)進(jìn)行監(jiān)視。
(2)代理Agent
對支持SNMP的網(wǎng)絡(luò)設(shè)備進(jìn)行相關(guān)的SNMP配置,打開SNMP功能接受WEB的網(wǎng)絡(luò)管理平臺管理及監(jiān)控。SNMP代理主要收集設(shè)備性能及其他運行狀態(tài)的信息,并且記錄到MIB管理信息庫中。WEB的網(wǎng)絡(luò)管理平臺向被管理設(shè)備代理的MIB信息庫發(fā)出查詢請求,根據(jù)請求代理MIB返回相應(yīng)的結(jié)果。另外,被管理設(shè)備也會主動向網(wǎng)絡(luò)管理系統(tǒng)發(fā)送Trap報告。
(3)相關(guān)網(wǎng)絡(luò)協(xié)議
關(guān)于支持SNMP協(xié)議的網(wǎng)絡(luò)設(shè)備,網(wǎng)絡(luò)管理平臺與網(wǎng)絡(luò)設(shè)備之間通過SNMP協(xié)議進(jìn)行互相傳遞信息。另外對于不支特SNMP的網(wǎng)絡(luò)設(shè)備可以采用其他協(xié)議如LLDP鏈路層發(fā)現(xiàn)協(xié)議、OSPF路由鄰居協(xié)議、STP生成樹協(xié)議、ARP地址解析協(xié)議等相關(guān)協(xié)議。
(4)MIB管理信息庫
MIB管理信息庫采用的是對象標(biāo)識符OID及樹形結(jié)構(gòu)。通過SNMP協(xié)議遍歷被管理設(shè)備中MIB的對象。MIB-2包括了11個對象組,比MIB-1增加了3個對象組。MIB管理信息庫設(shè)定了網(wǎng)絡(luò)設(shè)備被訪信息,而且對象組還定義了被訪對象屬性。MIB對象記錄了端口狀態(tài)、連接信息、差錯率等。
3 動態(tài)數(shù)據(jù)收集研究
動態(tài)數(shù)據(jù)的收集主要是實現(xiàn)全自動收集不同廠商網(wǎng)絡(luò)設(shè)備的運行狀態(tài)相關(guān)信息,深入了解網(wǎng)絡(luò)設(shè)備的SNMP協(xié)議和MIB庫,不同廠商的設(shè)備MIB庫有所不同。動態(tài)數(shù)據(jù)的收集協(xié)議分別為:一種是基于SNMP協(xié)議收集相關(guān)信息,另一種是通過ICMP、RIP、OSPF、DNS等網(wǎng)絡(luò)協(xié)議收集相關(guān)信息。目前采用網(wǎng)絡(luò)管理系統(tǒng)通過SNMP協(xié)議向被代理Agent設(shè)備收集SNMP報文。SNMP報文包括各項相關(guān)的參數(shù),其中具有5種PDU協(xié)議,主要用來建立網(wǎng)絡(luò)管理系統(tǒng)和被代理Agent設(shè)備之間的信息的傳遞。其中g(shù)et-request、get-next-request、get-response為網(wǎng)絡(luò)管理系統(tǒng)向被代理設(shè)備傳遞信息,被代理設(shè)備接收端口為161。另外set-request、trap被代理設(shè)備向網(wǎng)絡(luò)管理系統(tǒng)發(fā)送報文,網(wǎng)絡(luò)管理系統(tǒng)接收的端口為162。收集數(shù)據(jù)操作方式分為:循環(huán)定時收集和管理人員操作收集。循環(huán)定時收集是在管理平臺設(shè)置收集的間隔時間,根據(jù)間隔時間循環(huán)收集,對收集到的數(shù)據(jù)進(jìn)行故障分析。管理人員操作收集是通過管理人員對管理平臺的收集功能進(jìn)行操作,這種操作方式也可以稱為實時收集,但只用于臨時的監(jiān)測。
4 故障監(jiān)測實現(xiàn)
4.1 故障發(fā)現(xiàn)
本系統(tǒng)監(jiān)測故障模塊是對被管設(shè)備動態(tài)中的接口利用率、丟包、延時、性能信息進(jìn)行自動監(jiān)測。監(jiān)測主要通過閾值、Trap報文、MIB庫的對象等方式實現(xiàn),然后監(jiān)測的故障節(jié)點在網(wǎng)絡(luò)拓?fù)鋱D上顯示。如圖2所示。
(1)監(jiān)測閾值。根據(jù)設(shè)定的規(guī)則對網(wǎng)絡(luò)設(shè)備運行狀態(tài)的各項參數(shù)閾值進(jìn)行監(jiān)測,主要包括延時、丟包率、接口利用率、CPU和內(nèi)存利用率等。對各項閾值的設(shè)置,是根據(jù)現(xiàn)場的網(wǎng)絡(luò)環(huán)境及設(shè)備性能指標(biāo)進(jìn)行合理配置。如果某端口出現(xiàn)延時時間過長,通過實時監(jiān)測端口信息來計算當(dāng)前值是否達(dá)到預(yù)設(shè)閾值,當(dāng)前值超過預(yù)設(shè)閾值時,可能故障將要發(fā)生,并提供故障預(yù)測功能。
(2)監(jiān)測陷阱Trap報文。被代理設(shè)備啟動SNMP功能,而SNMP功能內(nèi)設(shè)有Trap模塊具有主動發(fā)送Trap報告功能,它是用來向網(wǎng)絡(luò)管理平臺發(fā)送特定的重要事件。當(dāng)被管網(wǎng)絡(luò)設(shè)備運行狀態(tài)發(fā)生異常情況或當(dāng)前閾值超過預(yù)定的閾值范圍時,觸發(fā)Trap規(guī)則主動向網(wǎng)絡(luò)管理平臺Trap信息接收器發(fā)送警報。網(wǎng)絡(luò)管理系統(tǒng)運行時Trap信息接收器自動開啟,并托盤后臺進(jìn)程運行,當(dāng)Trap信息接收器接收到Trap報告后,通過算法對Trap事件表進(jìn)行取值分析,根據(jù)設(shè)定的規(guī)則對故障信息進(jìn)行分類。
(3)MIB庫的對象監(jiān)測。網(wǎng)絡(luò)管理系統(tǒng)通過SNMP協(xié)議讀取被管網(wǎng)絡(luò)設(shè)備的MIB庫的各項對象參數(shù)信息,對MIB庫的對象包括路由表、接口利用率、CUP溫度等相關(guān)的信息,根據(jù)設(shè)置的間隔時間循環(huán)對MIB庫中的各項變量信息進(jìn)行監(jiān)測,分析MIB庫的對象組參數(shù),掌握當(dāng)前網(wǎng)絡(luò)運行的狀況。
(4)故障在網(wǎng)絡(luò)拓?fù)浔O(jiān)視。網(wǎng)絡(luò)拓?fù)涫峭ㄟ^可視化圖形監(jiān)視整過校園的網(wǎng)絡(luò)設(shè)備的連接情況,并且具有各節(jié)點的網(wǎng)絡(luò)設(shè)備的性能狀態(tài)、接口利用率等相關(guān)信息。網(wǎng)絡(luò)拓?fù)鋱D嵌入故障監(jiān)測信息,對檢測到網(wǎng)絡(luò)異常通過動態(tài)網(wǎng)絡(luò)拓?fù)鋱D中呈現(xiàn)出來,方便網(wǎng)絡(luò)管理員監(jiān)視和管理。
4.2 故障監(jiān)測實現(xiàn)
實現(xiàn)校園網(wǎng)絡(luò)設(shè)備的故障監(jiān)測主要由三部分組成:(1)故障監(jiān)測主要對閾值、MIB庫、Trap報文的檢測。(2)故障分析主要對收集到的MIB庫的信息和Trap報文進(jìn)行處理。(3)故障輸出主要對接口利用率、丟包、延遲、環(huán)路等故障通過圖標(biāo)顯示,而且部分故障直接在網(wǎng)絡(luò)拓?fù)鋱D上提示,網(wǎng)絡(luò)管理員通過管理界面能及時發(fā)現(xiàn)校園網(wǎng)絡(luò)的故障,也可以根據(jù)實際需求選擇全校所有網(wǎng)絡(luò)設(shè)備、匯聚層、接入層或單臺交換機(jī),進(jìn)行查看當(dāng)前或選擇某時間段的運行狀態(tài)。網(wǎng)絡(luò)故障監(jiān)測實現(xiàn)流程圖如圖3所示。
監(jiān)測校園網(wǎng)絡(luò)中心核心交換機(jī)的接口利用率為例,檢測到核心交換機(jī)每一個接口的詳細(xì)信息,根據(jù)數(shù)據(jù)傳輸雙向性的原理,對接入和發(fā)送的數(shù)據(jù)進(jìn)行計算。如果接口的利用率小于80%時,警報線段顯示綠色,表示端口正常狀態(tài)。當(dāng)某一個端口的利用率達(dá)到80%-90%時,警報線段顯示黃色表示利用率預(yù)警狀態(tài)。當(dāng)端口利用率91%-100%時,警報線段狀態(tài)顯示紅色表示端口利用率過高處于嚴(yán)重狀態(tài)。當(dāng)端口的利用率過高會造成網(wǎng)絡(luò)擁塞并且出現(xiàn)丟棄包現(xiàn)象。在監(jiān)測過程中網(wǎng)絡(luò)處于運行狀態(tài),監(jiān)測的結(jié)果將以數(shù)據(jù)表顯示,如圖4所示。
5 結(jié)束語
本文從日常網(wǎng)絡(luò)故障存在的問題、SNMP的體系結(jié)構(gòu)、SNMP協(xié)議、MIB管理信息庫、動態(tài)數(shù)據(jù)收集來研究故障監(jiān)測。SNMP協(xié)議在本系統(tǒng)中起到關(guān)鍵作用,MIB管理信息庫的實時收集為故障監(jiān)測提高時效性。通一個網(wǎng)絡(luò)管理平臺的故障監(jiān)測模塊掌握整個校園的網(wǎng)絡(luò)運行狀況,通過故障監(jiān)測及時發(fā)現(xiàn)網(wǎng)絡(luò)存在的問題,方便網(wǎng)絡(luò)管理員日常管理和維護(hù)。在測試運行中效果非常好,故障監(jiān)測數(shù)據(jù)自動完成、及時、準(zhǔn)確。另外校園網(wǎng)比較龐大而復(fù)雜,由于實時采集網(wǎng)絡(luò)設(shè)備動態(tài)數(shù)據(jù)等要求較高,對于網(wǎng)絡(luò)特殊的異常情況導(dǎo)致部分信息收集不及時需要進(jìn)一步研究。
參考文獻(xiàn)
[1]魏楚元.大型園區(qū)網(wǎng)絡(luò)建設(shè)與管理[M].北京:機(jī)械工業(yè)出版社,2015.
[2]肖眾.高校校園網(wǎng)網(wǎng)絡(luò)運維管理系統(tǒng)研究與實現(xiàn)[D].河北工業(yè)大學(xué),2014.
[3]楊麗.基于WEB的網(wǎng)管系統(tǒng)的智能配置設(shè)計與實現(xiàn)[D].北京郵電大學(xué),2012.
[4]權(quán)卓.基于SNMP的分布式網(wǎng)絡(luò)管理系統(tǒng)的設(shè)計與實現(xiàn)[D].西安電子科技大學(xué),2010.