孔小婧 王強
摘 要:目前我們面臨的網(wǎng)絡(luò)的規(guī)模和復(fù)雜與日俱增。管理人員如何保障網(wǎng)絡(luò)穩(wěn)定、可靠的運行,是一個非常重要的問題。深入了解網(wǎng)絡(luò)故障的起因,對于網(wǎng)絡(luò)管理和保障正常運轉(zhuǎn)具有重要意義。本文以SNMP協(xié)議為主,著重介紹SNMP在網(wǎng)絡(luò)故障分析和網(wǎng)絡(luò)管理中的應(yīng)用。
關(guān)鍵詞:網(wǎng)絡(luò)管理;故障監(jiān)控;SNMP;SNMP4J
中圖分類號:G40-057 文獻標(biāo)識碼:A
Abstract:We are faced with the network size and complexity grow with each passing day.Management personnel to ensure network stability,reliable operation,is a very important problem.Further understanding of the causes of network fault,the network management and guarantee the normal operation has the important significance.Based on the SNMP protocol, introduces the application of SNMP in the network fault analysis and network management.
Keywords:network management;fault monitoring;SNMP
1 引言(Introduction)
及時處理網(wǎng)絡(luò)故障是網(wǎng)絡(luò)管理的重要工作之一。我們都希望網(wǎng)絡(luò)可靠。當(dāng)網(wǎng)絡(luò)中出現(xiàn)故障時,網(wǎng)絡(luò)管理器能夠查到故障并排除,保障網(wǎng)絡(luò)的暢通。
故障管理可分為三個功能模塊:
(1)檢測和報警:故障監(jiān)視代理負(fù)責(zé)隨時記錄系統(tǒng)在出現(xiàn)故障時的內(nèi)容以及引起故障原因,并且負(fù)責(zé)把這些信息記錄在運行日志中。如采用輪詢通信來管理網(wǎng)絡(luò),那么管理程序就會定期訪問運行日志,以便發(fā)現(xiàn)問題;對于重要的網(wǎng)絡(luò)故障的檢測,代理會主動向有關(guān)管理者報告錯誤事件。另外,對出錯報警的數(shù)量、報告的頻率也要控制,避免增加網(wǎng)絡(luò)負(fù)擔(dān)。
(2)網(wǎng)絡(luò)故障預(yù)測:對各種容易引起網(wǎng)絡(luò)故障的參數(shù)設(shè)定極限值,及時監(jiān)督參數(shù)的變化,如果超過門限值,就立即警報。例如當(dāng)出錯產(chǎn)生的分組碎片數(shù)達到一定值時就開始警報,表示網(wǎng)絡(luò)通信狀況惡化,出錯率開始上升。
(3)診斷功能:一旦網(wǎng)絡(luò)出現(xiàn)故障時,能夠及時鏈路測試,找出鏈路中的故障和引起故障的原因。
例如可以進行下列測試:
a.鏈接測試;
b.數(shù)據(jù)完整性測試;
c.協(xié)議完整性測試;
d.數(shù)據(jù)飽和測試
e.鏈接飽和測試;
f.環(huán)路測試;
g功能測試;
h.診斷測試。
2 故障監(jiān)測技術(shù)(Fault monitoring technology)
2.1 ICMP監(jiān)控技術(shù)
ICMP是“Internet Control Message Protocol”(Internet控制消息協(xié)議)的縮寫?!板e誤偵測與回報機制”它是一個讓我們能夠檢測鏈路的連接狀況,確保連接的準(zhǔn)確性。
它在網(wǎng)絡(luò)中主要作用包括:
(1)偵測遠(yuǎn)端主機是否存在。
(2)建立及維護路由資料。
(3)重導(dǎo)資料傳送路徑。
(4)資料流量控制。
通過ICMP,我們可以判斷主機網(wǎng)絡(luò)連接是否正常。如果不正常,就可以初步判斷主機關(guān)機或者網(wǎng)絡(luò)連接不正常。在實際網(wǎng)絡(luò)管理中經(jīng)常使用的ping命令,用來檢查本機與目標(biāo)主機的聯(lián)通是否正常[1]。
2.2 HTTP監(jiān)控技術(shù)
HTTP協(xié)議(Hypertext transfer protocol)一個互聯(lián)網(wǎng)服務(wù)器與工作站之間的超文本傳輸協(xié)議。它對于減少網(wǎng)絡(luò)負(fù)擔(dān)、提高瀏覽器的效率有著不可替代的作用。
客戶與Web服務(wù)器通過一個稱為瀏覽器(browser)的專門的應(yīng)用程序進行交互。瀏覽器負(fù)責(zé)正確地顯示文檔。瀏覽器還負(fù)責(zé)接受用戶的輸入,通常是讓用戶選擇對另一個文檔的引用,然后去獲取并顯示被選文檔。
通過HTTP協(xié)議,我們可以判斷Web服務(wù)或本地網(wǎng)絡(luò)配置是否運行正常。
2.3 SNMP監(jiān)控技術(shù)
在這里我們主要通過SNMP協(xié)議輪詢管理信息庫(MIB),獲得相應(yīng)的狀態(tài)位信息,從而評價網(wǎng)絡(luò)的運行狀況,并揭示網(wǎng)絡(luò)當(dāng)前的運行狀態(tài),如哪個網(wǎng)段接近通信負(fù)載的最大能力或鏈路出錯等。
MIB中包括三類信息:實時信息、非實時信息、靜態(tài)信息。
實時信息,就是根據(jù)網(wǎng)絡(luò)狀況反映出來的實時信息,當(dāng)然數(shù)值也是在不斷變化中。如Interface組中的ifInOctets、ifOutOctets、ifInErrors等。
另一類非實時信息。它的信息內(nèi)容相對穩(wěn)定,如ipRouteTable表。
還有一類是靜態(tài)信息,它在相當(dāng)長的時間,內(nèi)呈現(xiàn)出相對穩(wěn)定的狀態(tài)或者對應(yīng)值無變化,例如System組中顯示部分的信息。
在SNMP監(jiān)測技術(shù)中,我們主要關(guān)注MIB中的實時信息,監(jiān)測實時信息的變化,從而了解主機或網(wǎng)絡(luò)存在的故障。如果能夠在MIB中設(shè)置合適的關(guān)聯(lián)閥值,漲跌出設(shè)定的閥值時就會報警的話,那么就可以做到早發(fā)現(xiàn)早處理,避免網(wǎng)絡(luò)故障給我們帶來的麻煩。
SNMP還支持主動發(fā)送trap消息給被管理主機,報告當(dāng)前網(wǎng)絡(luò)運行狀態(tài)。這樣就能把網(wǎng)絡(luò)當(dāng)前的狀態(tài)及時報告給網(wǎng)管,減少和避免可能出現(xiàn)的網(wǎng)絡(luò)故障。endprint
3 SNMP獲得網(wǎng)絡(luò)信息的方法(Method of SNMP to
obtain the network information)
管理工作站向代理獲取管理信息的途徑有兩種:一是輪詢(poll),由管理站向代理發(fā)出查詢信息,代理處理后會給詢問方送出有關(guān)消息。其次是陷阱(trap),如果本地設(shè)備和鏈路運行狀態(tài)發(fā)生問題時,就及時向外發(fā)出檢測的故障內(nèi)容。
3.1 輪詢
管理站主要是依靠輪詢收集需要的信息,輪詢的頻率會對管理的效果影響很大。因此,需要提高網(wǎng)絡(luò)管理的輪詢策略,找到一個合適的輪詢頻率。
比較麻煩的是,我們在設(shè)定的輪詢頻率時,會考慮網(wǎng)絡(luò)規(guī)模以及網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜程度,還有代理有多少。具體頻率多少合適,沒有標(biāo)準(zhǔn),需要結(jié)合實際情況反復(fù)試驗,最終得出與管理站本身的處理速度匹配,網(wǎng)絡(luò)負(fù)擔(dān)較輕的參數(shù)。
3.2 陷阱
陷阱是通知SNMP管理器在代理或節(jié)點上已發(fā)生的重大事件的異步消息。陷阱在未經(jīng)請求的情況下發(fā)送到被配置來接收它們的SNMP管理器。這樣的設(shè)計有缺陷,當(dāng)網(wǎng)絡(luò)每個環(huán)節(jié)突然斷電,代理就不能發(fā)出警告。陷阱在網(wǎng)絡(luò)管理方面的作用很有限,對于端口故障、連接失敗、設(shè)備啟動可以發(fā)出警告信息。除此以外就無能為力了。在這種狀況下,就需要系統(tǒng)輪詢的方法來檢查網(wǎng)絡(luò)設(shè)備了。
4 故障的判斷策略(Method to judge the fault)
檢測故障的檢測手段是確定故障的關(guān)鍵,它可以及時準(zhǔn)確了解告警信息的。但是,經(jīng)常有些網(wǎng)絡(luò)故障用一種手段不能準(zhǔn)確的監(jiān)測出來,需要增加多種監(jiān)測手段。如果對某種故障采用的監(jiān)測手段過多,就會有過多的告警信息,增加故障排查的難度。
為了確認(rèn)故障,要對產(chǎn)生的警告信息進行過濾分析。過濾告警信息有多種方法,如閾值過濾、分組過濾、優(yōu)先級過濾等。通過過濾會取出大量冗余的告警信息,有利于針對主要問題進行分析和判斷。
4.1 簡單的MIB監(jiān)測管理
當(dāng)一個網(wǎng)絡(luò)管理員接手一個新網(wǎng)絡(luò)管理工作時,首先會設(shè)定MIB庫對象的上限或是下限值。MIB的內(nèi)容對于解決網(wǎng)絡(luò)故障會起到很大的作用。當(dāng)管理站進行常規(guī)輪詢時,凡是超過門限值的MIB對象,就會報一個故障信息。這種故障報告內(nèi)容只有哪個MIB上的哪個MIB對象越界了,對于越界情況不作任何處理。原因分析、修復(fù)故障等由管理員來完成。這種故障管理的成本低、管理能力弱,這就要求管理員的管理水平相對要高。
4.2 基于專家系統(tǒng)的智能管理
目前專家系統(tǒng)已相對成熟,它對于解決網(wǎng)絡(luò)管理中的一些簡單問題很有作用的。如實時性、協(xié)調(diào)管理等實際應(yīng)用效果很好。專家系統(tǒng)也經(jīng)常被應(yīng)用到神經(jīng)網(wǎng)絡(luò)以及人工智能等。它的特性非常適合用于大型網(wǎng)絡(luò)的管理。
(1)處理不確定性的能力
網(wǎng)絡(luò)系統(tǒng)是一個分布式系統(tǒng),它由各種大大小小的結(jié)點組成,如主機、路由器、交換機等。這些結(jié)點及結(jié)點上運行的各種軟件構(gòu)成了網(wǎng)絡(luò)中的資源。網(wǎng)絡(luò)管理要對所轄的網(wǎng)絡(luò)設(shè)備進行監(jiān)管,保持網(wǎng)絡(luò)高效運行。如果對系統(tǒng)資源狀態(tài)都能及時了解,那么專家系統(tǒng)就能很好地運作。因為整個系統(tǒng)設(shè)備一直是會變化的,當(dāng)網(wǎng)絡(luò)管理得到某個狀態(tài)信息時,有可能發(fā)出信息的那個設(shè)備的狀態(tài)已經(jīng)改變了。故此管理系統(tǒng)只能了解整個系統(tǒng)的局部情況,得到的系統(tǒng)信息不完整,因此對網(wǎng)絡(luò)的管理就必須要求管理系統(tǒng)能夠在信息不完整的情況下,根據(jù)有限的信息對網(wǎng)絡(luò)資源管理和控制[3]。
(2)協(xié)作能力和層次性
目前,我們網(wǎng)絡(luò)的規(guī)模和結(jié)構(gòu)已經(jīng)達到很高的程度,網(wǎng)絡(luò)管理也應(yīng)隨網(wǎng)絡(luò)的擴展采取相應(yīng)方法。單一的管理方式肯定不能管理好當(dāng)前的網(wǎng)絡(luò),必須采取多種多樣的管理模式。各種網(wǎng)絡(luò)管理系統(tǒng)之間都能夠相互融合,為管理者提供有用的信息和作用。而每個子系統(tǒng)只要管理好自己轄下的網(wǎng)絡(luò)就可。此外,如果把層次概念引入到網(wǎng)絡(luò)管理中,能使網(wǎng)絡(luò)管理架構(gòu)清晰,提高網(wǎng)絡(luò)管理效率。分級輪詢分級向上報告。網(wǎng)絡(luò)專家管理系統(tǒng)的協(xié)調(diào)性以及層次性是目前人工智能方面研究的熱點之一。
(3)適應(yīng)系統(tǒng)變化的能力
由于網(wǎng)絡(luò)系統(tǒng)一直處在不斷的變化,因此網(wǎng)絡(luò)管理系統(tǒng)也應(yīng)該有適應(yīng)變化的能力,比較常規(guī)的做法就是不斷輪詢網(wǎng)絡(luò)資源是否改變并且根據(jù)反饋的信息進行網(wǎng)絡(luò)管理和控制。這種管理方法一般稱作“數(shù)據(jù)驅(qū)動”,管理控制是建立在管理者得到的數(shù)據(jù)基礎(chǔ)上的。
(4)解釋和推理能力
網(wǎng)絡(luò)管理系統(tǒng)應(yīng)具有綜合解釋低層信息的能力,并且推斷出一些有用的可能信息,而不是簡單地詢問底層代理。并將這些高層的信息應(yīng)用到對網(wǎng)絡(luò)系統(tǒng)的管理和控制。
5 故障報警策略(Fault alarm strategy)
當(dāng)發(fā)生網(wǎng)絡(luò)故障后,應(yīng)盡快通知網(wǎng)絡(luò)管理員,以減少故障帶來的不便和損失。報警策略主要有以下幾種方式:
(1)給網(wǎng)絡(luò)管理員發(fā)送郵件報告故障情況。
(2)給網(wǎng)絡(luò)管理員發(fā)送手機信息報告故障情況。
(3)管理站調(diào)用相關(guān)程序來發(fā)出預(yù)設(shè)音樂提示發(fā)生網(wǎng)絡(luò)故障。
可以用一種或幾種以上方式來報告故障信息。
6 故障恢復(fù)策略(Fault recovery strategy)
網(wǎng)絡(luò)故障恢復(fù)策略是:當(dāng)網(wǎng)絡(luò)出現(xiàn)故障時,首先利用迂回路由打通網(wǎng)絡(luò),或者使用備用資源來保障網(wǎng)絡(luò)的暢通。
恢復(fù)策略主要包含以下幾種:
(l)隔離包含故障的設(shè)備,利用其余資源繼續(xù)提供網(wǎng)絡(luò)服務(wù)。這種策略通常會減少網(wǎng)絡(luò)可提供的服務(wù)。
(2)將故障設(shè)備提供的網(wǎng)絡(luò)服務(wù)切換到預(yù)備設(shè)備上。
(3)使用環(huán)或者網(wǎng)絡(luò)本身具有的異徑功能來保障網(wǎng)絡(luò)暢通。
7 結(jié)論(Conclusion)
網(wǎng)絡(luò)管理的重要內(nèi)容就是要確保網(wǎng)絡(luò)運行正常,網(wǎng)絡(luò)故障的監(jiān)測是這項工作中比較棘手的事情。如何運用SNMP監(jiān)測網(wǎng)絡(luò)運行狀況,本文提出了一些監(jiān)控的可行的方法,以便在解決網(wǎng)絡(luò)故障時有章可循。
參考文獻(References)
[1] 郭軍.網(wǎng)絡(luò)管理(第二版).北京:北京郵電大學(xué)出版社,2001.
[2] 雷震甲.計算機網(wǎng)絡(luò)管理.西安:西安電子科技大學(xué)出版社,2006.
[3] 張鵬.基于多Agent的分布式網(wǎng)絡(luò)管理技術(shù)及其在性能管理中的研究與實踐[D].西安交通大學(xué)博士論文,2001.
作者簡介:
孔小婧(1983-),女,學(xué)士,講師.研究領(lǐng)域:計算機網(wǎng)絡(luò).
王 強(1962-),男,學(xué)士,講師.研究領(lǐng)域:計算機網(wǎng)絡(luò),通訊.endprint
3 SNMP獲得網(wǎng)絡(luò)信息的方法(Method of SNMP to
obtain the network information)
管理工作站向代理獲取管理信息的途徑有兩種:一是輪詢(poll),由管理站向代理發(fā)出查詢信息,代理處理后會給詢問方送出有關(guān)消息。其次是陷阱(trap),如果本地設(shè)備和鏈路運行狀態(tài)發(fā)生問題時,就及時向外發(fā)出檢測的故障內(nèi)容。
3.1 輪詢
管理站主要是依靠輪詢收集需要的信息,輪詢的頻率會對管理的效果影響很大。因此,需要提高網(wǎng)絡(luò)管理的輪詢策略,找到一個合適的輪詢頻率。
比較麻煩的是,我們在設(shè)定的輪詢頻率時,會考慮網(wǎng)絡(luò)規(guī)模以及網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜程度,還有代理有多少。具體頻率多少合適,沒有標(biāo)準(zhǔn),需要結(jié)合實際情況反復(fù)試驗,最終得出與管理站本身的處理速度匹配,網(wǎng)絡(luò)負(fù)擔(dān)較輕的參數(shù)。
3.2 陷阱
陷阱是通知SNMP管理器在代理或節(jié)點上已發(fā)生的重大事件的異步消息。陷阱在未經(jīng)請求的情況下發(fā)送到被配置來接收它們的SNMP管理器。這樣的設(shè)計有缺陷,當(dāng)網(wǎng)絡(luò)每個環(huán)節(jié)突然斷電,代理就不能發(fā)出警告。陷阱在網(wǎng)絡(luò)管理方面的作用很有限,對于端口故障、連接失敗、設(shè)備啟動可以發(fā)出警告信息。除此以外就無能為力了。在這種狀況下,就需要系統(tǒng)輪詢的方法來檢查網(wǎng)絡(luò)設(shè)備了。
4 故障的判斷策略(Method to judge the fault)
檢測故障的檢測手段是確定故障的關(guān)鍵,它可以及時準(zhǔn)確了解告警信息的。但是,經(jīng)常有些網(wǎng)絡(luò)故障用一種手段不能準(zhǔn)確的監(jiān)測出來,需要增加多種監(jiān)測手段。如果對某種故障采用的監(jiān)測手段過多,就會有過多的告警信息,增加故障排查的難度。
為了確認(rèn)故障,要對產(chǎn)生的警告信息進行過濾分析。過濾告警信息有多種方法,如閾值過濾、分組過濾、優(yōu)先級過濾等。通過過濾會取出大量冗余的告警信息,有利于針對主要問題進行分析和判斷。
4.1 簡單的MIB監(jiān)測管理
當(dāng)一個網(wǎng)絡(luò)管理員接手一個新網(wǎng)絡(luò)管理工作時,首先會設(shè)定MIB庫對象的上限或是下限值。MIB的內(nèi)容對于解決網(wǎng)絡(luò)故障會起到很大的作用。當(dāng)管理站進行常規(guī)輪詢時,凡是超過門限值的MIB對象,就會報一個故障信息。這種故障報告內(nèi)容只有哪個MIB上的哪個MIB對象越界了,對于越界情況不作任何處理。原因分析、修復(fù)故障等由管理員來完成。這種故障管理的成本低、管理能力弱,這就要求管理員的管理水平相對要高。
4.2 基于專家系統(tǒng)的智能管理
目前專家系統(tǒng)已相對成熟,它對于解決網(wǎng)絡(luò)管理中的一些簡單問題很有作用的。如實時性、協(xié)調(diào)管理等實際應(yīng)用效果很好。專家系統(tǒng)也經(jīng)常被應(yīng)用到神經(jīng)網(wǎng)絡(luò)以及人工智能等。它的特性非常適合用于大型網(wǎng)絡(luò)的管理。
(1)處理不確定性的能力
網(wǎng)絡(luò)系統(tǒng)是一個分布式系統(tǒng),它由各種大大小小的結(jié)點組成,如主機、路由器、交換機等。這些結(jié)點及結(jié)點上運行的各種軟件構(gòu)成了網(wǎng)絡(luò)中的資源。網(wǎng)絡(luò)管理要對所轄的網(wǎng)絡(luò)設(shè)備進行監(jiān)管,保持網(wǎng)絡(luò)高效運行。如果對系統(tǒng)資源狀態(tài)都能及時了解,那么專家系統(tǒng)就能很好地運作。因為整個系統(tǒng)設(shè)備一直是會變化的,當(dāng)網(wǎng)絡(luò)管理得到某個狀態(tài)信息時,有可能發(fā)出信息的那個設(shè)備的狀態(tài)已經(jīng)改變了。故此管理系統(tǒng)只能了解整個系統(tǒng)的局部情況,得到的系統(tǒng)信息不完整,因此對網(wǎng)絡(luò)的管理就必須要求管理系統(tǒng)能夠在信息不完整的情況下,根據(jù)有限的信息對網(wǎng)絡(luò)資源管理和控制[3]。
(2)協(xié)作能力和層次性
目前,我們網(wǎng)絡(luò)的規(guī)模和結(jié)構(gòu)已經(jīng)達到很高的程度,網(wǎng)絡(luò)管理也應(yīng)隨網(wǎng)絡(luò)的擴展采取相應(yīng)方法。單一的管理方式肯定不能管理好當(dāng)前的網(wǎng)絡(luò),必須采取多種多樣的管理模式。各種網(wǎng)絡(luò)管理系統(tǒng)之間都能夠相互融合,為管理者提供有用的信息和作用。而每個子系統(tǒng)只要管理好自己轄下的網(wǎng)絡(luò)就可。此外,如果把層次概念引入到網(wǎng)絡(luò)管理中,能使網(wǎng)絡(luò)管理架構(gòu)清晰,提高網(wǎng)絡(luò)管理效率。分級輪詢分級向上報告。網(wǎng)絡(luò)專家管理系統(tǒng)的協(xié)調(diào)性以及層次性是目前人工智能方面研究的熱點之一。
(3)適應(yīng)系統(tǒng)變化的能力
由于網(wǎng)絡(luò)系統(tǒng)一直處在不斷的變化,因此網(wǎng)絡(luò)管理系統(tǒng)也應(yīng)該有適應(yīng)變化的能力,比較常規(guī)的做法就是不斷輪詢網(wǎng)絡(luò)資源是否改變并且根據(jù)反饋的信息進行網(wǎng)絡(luò)管理和控制。這種管理方法一般稱作“數(shù)據(jù)驅(qū)動”,管理控制是建立在管理者得到的數(shù)據(jù)基礎(chǔ)上的。
(4)解釋和推理能力
網(wǎng)絡(luò)管理系統(tǒng)應(yīng)具有綜合解釋低層信息的能力,并且推斷出一些有用的可能信息,而不是簡單地詢問底層代理。并將這些高層的信息應(yīng)用到對網(wǎng)絡(luò)系統(tǒng)的管理和控制。
5 故障報警策略(Fault alarm strategy)
當(dāng)發(fā)生網(wǎng)絡(luò)故障后,應(yīng)盡快通知網(wǎng)絡(luò)管理員,以減少故障帶來的不便和損失。報警策略主要有以下幾種方式:
(1)給網(wǎng)絡(luò)管理員發(fā)送郵件報告故障情況。
(2)給網(wǎng)絡(luò)管理員發(fā)送手機信息報告故障情況。
(3)管理站調(diào)用相關(guān)程序來發(fā)出預(yù)設(shè)音樂提示發(fā)生網(wǎng)絡(luò)故障。
可以用一種或幾種以上方式來報告故障信息。
6 故障恢復(fù)策略(Fault recovery strategy)
網(wǎng)絡(luò)故障恢復(fù)策略是:當(dāng)網(wǎng)絡(luò)出現(xiàn)故障時,首先利用迂回路由打通網(wǎng)絡(luò),或者使用備用資源來保障網(wǎng)絡(luò)的暢通。
恢復(fù)策略主要包含以下幾種:
(l)隔離包含故障的設(shè)備,利用其余資源繼續(xù)提供網(wǎng)絡(luò)服務(wù)。這種策略通常會減少網(wǎng)絡(luò)可提供的服務(wù)。
(2)將故障設(shè)備提供的網(wǎng)絡(luò)服務(wù)切換到預(yù)備設(shè)備上。
(3)使用環(huán)或者網(wǎng)絡(luò)本身具有的異徑功能來保障網(wǎng)絡(luò)暢通。
7 結(jié)論(Conclusion)
網(wǎng)絡(luò)管理的重要內(nèi)容就是要確保網(wǎng)絡(luò)運行正常,網(wǎng)絡(luò)故障的監(jiān)測是這項工作中比較棘手的事情。如何運用SNMP監(jiān)測網(wǎng)絡(luò)運行狀況,本文提出了一些監(jiān)控的可行的方法,以便在解決網(wǎng)絡(luò)故障時有章可循。
參考文獻(References)
[1] 郭軍.網(wǎng)絡(luò)管理(第二版).北京:北京郵電大學(xué)出版社,2001.
[2] 雷震甲.計算機網(wǎng)絡(luò)管理.西安:西安電子科技大學(xué)出版社,2006.
[3] 張鵬.基于多Agent的分布式網(wǎng)絡(luò)管理技術(shù)及其在性能管理中的研究與實踐[D].西安交通大學(xué)博士論文,2001.
作者簡介:
孔小婧(1983-),女,學(xué)士,講師.研究領(lǐng)域:計算機網(wǎng)絡(luò).
王 強(1962-),男,學(xué)士,講師.研究領(lǐng)域:計算機網(wǎng)絡(luò),通訊.endprint
3 SNMP獲得網(wǎng)絡(luò)信息的方法(Method of SNMP to
obtain the network information)
管理工作站向代理獲取管理信息的途徑有兩種:一是輪詢(poll),由管理站向代理發(fā)出查詢信息,代理處理后會給詢問方送出有關(guān)消息。其次是陷阱(trap),如果本地設(shè)備和鏈路運行狀態(tài)發(fā)生問題時,就及時向外發(fā)出檢測的故障內(nèi)容。
3.1 輪詢
管理站主要是依靠輪詢收集需要的信息,輪詢的頻率會對管理的效果影響很大。因此,需要提高網(wǎng)絡(luò)管理的輪詢策略,找到一個合適的輪詢頻率。
比較麻煩的是,我們在設(shè)定的輪詢頻率時,會考慮網(wǎng)絡(luò)規(guī)模以及網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜程度,還有代理有多少。具體頻率多少合適,沒有標(biāo)準(zhǔn),需要結(jié)合實際情況反復(fù)試驗,最終得出與管理站本身的處理速度匹配,網(wǎng)絡(luò)負(fù)擔(dān)較輕的參數(shù)。
3.2 陷阱
陷阱是通知SNMP管理器在代理或節(jié)點上已發(fā)生的重大事件的異步消息。陷阱在未經(jīng)請求的情況下發(fā)送到被配置來接收它們的SNMP管理器。這樣的設(shè)計有缺陷,當(dāng)網(wǎng)絡(luò)每個環(huán)節(jié)突然斷電,代理就不能發(fā)出警告。陷阱在網(wǎng)絡(luò)管理方面的作用很有限,對于端口故障、連接失敗、設(shè)備啟動可以發(fā)出警告信息。除此以外就無能為力了。在這種狀況下,就需要系統(tǒng)輪詢的方法來檢查網(wǎng)絡(luò)設(shè)備了。
4 故障的判斷策略(Method to judge the fault)
檢測故障的檢測手段是確定故障的關(guān)鍵,它可以及時準(zhǔn)確了解告警信息的。但是,經(jīng)常有些網(wǎng)絡(luò)故障用一種手段不能準(zhǔn)確的監(jiān)測出來,需要增加多種監(jiān)測手段。如果對某種故障采用的監(jiān)測手段過多,就會有過多的告警信息,增加故障排查的難度。
為了確認(rèn)故障,要對產(chǎn)生的警告信息進行過濾分析。過濾告警信息有多種方法,如閾值過濾、分組過濾、優(yōu)先級過濾等。通過過濾會取出大量冗余的告警信息,有利于針對主要問題進行分析和判斷。
4.1 簡單的MIB監(jiān)測管理
當(dāng)一個網(wǎng)絡(luò)管理員接手一個新網(wǎng)絡(luò)管理工作時,首先會設(shè)定MIB庫對象的上限或是下限值。MIB的內(nèi)容對于解決網(wǎng)絡(luò)故障會起到很大的作用。當(dāng)管理站進行常規(guī)輪詢時,凡是超過門限值的MIB對象,就會報一個故障信息。這種故障報告內(nèi)容只有哪個MIB上的哪個MIB對象越界了,對于越界情況不作任何處理。原因分析、修復(fù)故障等由管理員來完成。這種故障管理的成本低、管理能力弱,這就要求管理員的管理水平相對要高。
4.2 基于專家系統(tǒng)的智能管理
目前專家系統(tǒng)已相對成熟,它對于解決網(wǎng)絡(luò)管理中的一些簡單問題很有作用的。如實時性、協(xié)調(diào)管理等實際應(yīng)用效果很好。專家系統(tǒng)也經(jīng)常被應(yīng)用到神經(jīng)網(wǎng)絡(luò)以及人工智能等。它的特性非常適合用于大型網(wǎng)絡(luò)的管理。
(1)處理不確定性的能力
網(wǎng)絡(luò)系統(tǒng)是一個分布式系統(tǒng),它由各種大大小小的結(jié)點組成,如主機、路由器、交換機等。這些結(jié)點及結(jié)點上運行的各種軟件構(gòu)成了網(wǎng)絡(luò)中的資源。網(wǎng)絡(luò)管理要對所轄的網(wǎng)絡(luò)設(shè)備進行監(jiān)管,保持網(wǎng)絡(luò)高效運行。如果對系統(tǒng)資源狀態(tài)都能及時了解,那么專家系統(tǒng)就能很好地運作。因為整個系統(tǒng)設(shè)備一直是會變化的,當(dāng)網(wǎng)絡(luò)管理得到某個狀態(tài)信息時,有可能發(fā)出信息的那個設(shè)備的狀態(tài)已經(jīng)改變了。故此管理系統(tǒng)只能了解整個系統(tǒng)的局部情況,得到的系統(tǒng)信息不完整,因此對網(wǎng)絡(luò)的管理就必須要求管理系統(tǒng)能夠在信息不完整的情況下,根據(jù)有限的信息對網(wǎng)絡(luò)資源管理和控制[3]。
(2)協(xié)作能力和層次性
目前,我們網(wǎng)絡(luò)的規(guī)模和結(jié)構(gòu)已經(jīng)達到很高的程度,網(wǎng)絡(luò)管理也應(yīng)隨網(wǎng)絡(luò)的擴展采取相應(yīng)方法。單一的管理方式肯定不能管理好當(dāng)前的網(wǎng)絡(luò),必須采取多種多樣的管理模式。各種網(wǎng)絡(luò)管理系統(tǒng)之間都能夠相互融合,為管理者提供有用的信息和作用。而每個子系統(tǒng)只要管理好自己轄下的網(wǎng)絡(luò)就可。此外,如果把層次概念引入到網(wǎng)絡(luò)管理中,能使網(wǎng)絡(luò)管理架構(gòu)清晰,提高網(wǎng)絡(luò)管理效率。分級輪詢分級向上報告。網(wǎng)絡(luò)專家管理系統(tǒng)的協(xié)調(diào)性以及層次性是目前人工智能方面研究的熱點之一。
(3)適應(yīng)系統(tǒng)變化的能力
由于網(wǎng)絡(luò)系統(tǒng)一直處在不斷的變化,因此網(wǎng)絡(luò)管理系統(tǒng)也應(yīng)該有適應(yīng)變化的能力,比較常規(guī)的做法就是不斷輪詢網(wǎng)絡(luò)資源是否改變并且根據(jù)反饋的信息進行網(wǎng)絡(luò)管理和控制。這種管理方法一般稱作“數(shù)據(jù)驅(qū)動”,管理控制是建立在管理者得到的數(shù)據(jù)基礎(chǔ)上的。
(4)解釋和推理能力
網(wǎng)絡(luò)管理系統(tǒng)應(yīng)具有綜合解釋低層信息的能力,并且推斷出一些有用的可能信息,而不是簡單地詢問底層代理。并將這些高層的信息應(yīng)用到對網(wǎng)絡(luò)系統(tǒng)的管理和控制。
5 故障報警策略(Fault alarm strategy)
當(dāng)發(fā)生網(wǎng)絡(luò)故障后,應(yīng)盡快通知網(wǎng)絡(luò)管理員,以減少故障帶來的不便和損失。報警策略主要有以下幾種方式:
(1)給網(wǎng)絡(luò)管理員發(fā)送郵件報告故障情況。
(2)給網(wǎng)絡(luò)管理員發(fā)送手機信息報告故障情況。
(3)管理站調(diào)用相關(guān)程序來發(fā)出預(yù)設(shè)音樂提示發(fā)生網(wǎng)絡(luò)故障。
可以用一種或幾種以上方式來報告故障信息。
6 故障恢復(fù)策略(Fault recovery strategy)
網(wǎng)絡(luò)故障恢復(fù)策略是:當(dāng)網(wǎng)絡(luò)出現(xiàn)故障時,首先利用迂回路由打通網(wǎng)絡(luò),或者使用備用資源來保障網(wǎng)絡(luò)的暢通。
恢復(fù)策略主要包含以下幾種:
(l)隔離包含故障的設(shè)備,利用其余資源繼續(xù)提供網(wǎng)絡(luò)服務(wù)。這種策略通常會減少網(wǎng)絡(luò)可提供的服務(wù)。
(2)將故障設(shè)備提供的網(wǎng)絡(luò)服務(wù)切換到預(yù)備設(shè)備上。
(3)使用環(huán)或者網(wǎng)絡(luò)本身具有的異徑功能來保障網(wǎng)絡(luò)暢通。
7 結(jié)論(Conclusion)
網(wǎng)絡(luò)管理的重要內(nèi)容就是要確保網(wǎng)絡(luò)運行正常,網(wǎng)絡(luò)故障的監(jiān)測是這項工作中比較棘手的事情。如何運用SNMP監(jiān)測網(wǎng)絡(luò)運行狀況,本文提出了一些監(jiān)控的可行的方法,以便在解決網(wǎng)絡(luò)故障時有章可循。
參考文獻(References)
[1] 郭軍.網(wǎng)絡(luò)管理(第二版).北京:北京郵電大學(xué)出版社,2001.
[2] 雷震甲.計算機網(wǎng)絡(luò)管理.西安:西安電子科技大學(xué)出版社,2006.
[3] 張鵬.基于多Agent的分布式網(wǎng)絡(luò)管理技術(shù)及其在性能管理中的研究與實踐[D].西安交通大學(xué)博士論文,2001.
作者簡介:
孔小婧(1983-),女,學(xué)士,講師.研究領(lǐng)域:計算機網(wǎng)絡(luò).
王 強(1962-),男,學(xué)士,講師.研究領(lǐng)域:計算機網(wǎng)絡(luò),通訊.endprint