王 威
摘要:本文論述了網(wǎng)絡(luò)故障的一般分類;一般網(wǎng)絡(luò)故障的解決步驟。
關(guān)鍵詞:網(wǎng)絡(luò)故障;實例;故障排查
當(dāng)今的網(wǎng)絡(luò)互聯(lián)環(huán)境是復(fù)雜的,必須要建立一個系統(tǒng)化的故障處理思想并合理應(yīng)用于實際中,以將一個復(fù)雜的問題隔離、分解,從而及時修復(fù)網(wǎng)絡(luò)故障。下面簡要介紹一下網(wǎng)絡(luò)故障的一般處理方法。
一、網(wǎng)絡(luò)故障的一般分類
1. 連通性問題
硬件、媒介、電源故障。
2. 配置錯誤
3. 性能問題
4. 網(wǎng)絡(luò)擁塞
5. 到目的地不是最佳路由
6. 供電不足
7. 路由環(huán)路
8. 網(wǎng)絡(luò)錯誤
二、一般網(wǎng)絡(luò)故障的解決步驟
故障處理系統(tǒng)化的基本思想是系統(tǒng)地將由故障可能的原因所構(gòu)成的一個大集合縮減(或隔離)成幾個小的子集,從而使問題的復(fù)雜度迅速下降。
網(wǎng)絡(luò)故障解決的一般處理流程:
故障處理的實例:
用戶網(wǎng)段廣播包過多造成該網(wǎng)段的服務(wù)器FTP業(yè)務(wù)傳輸速度慢。
該案例組網(wǎng)如上:某校園網(wǎng)的三個局域網(wǎng),其中10.11.56.0為一個用戶網(wǎng)段,10.11.56.118為一個日志服務(wù)器;10.15.0.0是一個集中了很多應(yīng)用服務(wù)器的網(wǎng)段。
1. 故障現(xiàn)象描述
用戶反映“日志服務(wù)器與備份服務(wù)器間備份發(fā)生的問題”。
這個問題是連續(xù)出現(xiàn),還是間斷出現(xiàn)的?是完全不能備份,還是備份的速度慢(即性能下降)?
哪個或哪些局域網(wǎng)服務(wù)器受到影響,地址是什么?
正確的故障現(xiàn)象描述是:
在網(wǎng)絡(luò)的高峰期,日志服務(wù)器10.11.56.11到集中備份服務(wù)器10.15.254.253之間進(jìn)行備份時,FTP傳輸速度很慢,大約是0.6 Mbps。
2. 相關(guān)信息搜集
搜集有助于查找故障原因的詳細(xì)信息;
向受影響的用戶、網(wǎng)絡(luò)人員或其他關(guān)鍵人員提出問題;
根據(jù)故障描述性質(zhì),使用各種工具搜集情況,如網(wǎng)絡(luò)管理系統(tǒng)、協(xié)議分析儀、相關(guān)display和debug命令等。
3. 經(jīng)驗判斷和理論分析
我們現(xiàn)在能夠確定是一個網(wǎng)絡(luò)性能下降問題。那么,是網(wǎng)段10.11.56.0的性能問題,是中間網(wǎng)絡(luò)的性能問題,還是10.15.0.0網(wǎng)段的性能問題呢?
4. 各種可能原因列表
該步驟列出根據(jù)經(jīng)驗判斷和理論分析后總結(jié)的各種可能原因。
如上述案例,可能原因如下:
網(wǎng)段10.11.56.0的性能問題,其原因可能為:
日志服務(wù)器A的性能問題;
10.11.56.0網(wǎng)絡(luò)的網(wǎng)關(guān)性能問題;
10.11.56.0網(wǎng)絡(luò)本身的性能問題。
5. 對每一原因?qū)嵤┡佩e方案
根據(jù)所列出的可能原因制訂故障排查計劃,分析最有可能的原因,確定一次只對一個變量進(jìn)行操作,這種方法使你能夠重現(xiàn)某一故障的解決辦法。如果有多個變量同時被改變,而問題得以解決,那么如何判斷哪個變量導(dǎo)致了故障發(fā)生呢?
6. 觀察故障排查結(jié)果
當(dāng)我們對某一原因執(zhí)行了排錯方案后,需要對結(jié)果進(jìn)行分析,判斷問題是否解決,是否引入了新的問題。如果問題解決,那么就可以直接進(jìn)入文檔化過程;如果沒有解決問題,那么就需要再次循環(huán)進(jìn)行到故障排查過程。
7. 循環(huán)進(jìn)行故障排查過程
在進(jìn)行下一循環(huán)之前必須做的事情就是將網(wǎng)絡(luò)恢復(fù)到實施上一方案前的狀態(tài)。如果保留上一方案對網(wǎng)絡(luò)的改動,很可能導(dǎo)致新的問題。
8. 循環(huán)進(jìn)行故障排查過程
可能原因1:網(wǎng)絡(luò)10.11.56.0到網(wǎng)絡(luò)10.15.0.0的路由不是最佳路由。
制訂方案:在10.11.56.0網(wǎng)段的網(wǎng)關(guān)上使用“tracert 10.15.245.253”命令,發(fā)現(xiàn)探測報文返回時長僅為10 ms。
可能原因2:日志服務(wù)器A的性能問題。
制訂方案:測試同一網(wǎng)段的主機C和日志服務(wù)器間的FTP傳輸速度,是6 Mbps,正常。
可能原因3:10.11.56.0網(wǎng)絡(luò)的網(wǎng)關(guān)性能問題。
制訂方案:測試主機C和備份服務(wù)器B間FTP傳輸速度是7 Mbps,正常。
可能原因4:10.11.56.0網(wǎng)絡(luò)本身的性能問題。
制訂方案:在網(wǎng)段10.11.56.0的以太網(wǎng)交換機上使用命令“show mac”,輸出如下:
Port Rcv-Unicast Rcv-MulticastRcv-Broadcast
----------------- -------
6/3210317812 0 8665
Port Xmit-Unicast Xmit-MulticastXmit-Broadcast
------------------------
6/32 66679872866522474038
(輸出的廣播∶輸出的單播比例為1∶3,太大了。)
PortRcv-Octet Xmit-Octet
------ ---------- --------------
6/32 140948293581516443041
在網(wǎng)段10.15.0.0上的以太網(wǎng)交換機上使用命令“show mac”輸出如下:
Port Rcv-Unicast Rcv-MulticastRcv-Broadcast
-------- ---------- ---------
6/36 557802870285
Port Xmit-UnicastXmit-Multicast Xmit-Broadcast
-------- -------------- - -------
6/36 27879749190257119430
(廣播∶單播比例=1∶270,屬于正常。)
Port Rcv-Octet Xmit-Octet
-------- ------------ ------------
6/3667172587081 4998816809
由此得知,網(wǎng)段10.11.56.0上廣播包和單播包比例為1∶3,確實太大了。
這是一個網(wǎng)絡(luò)布局不恰當(dāng)?shù)膯栴},需要重新安排服務(wù)器的位置,將服務(wù)器移動10.15.0.0網(wǎng)段后,故障解決。
9. 故障處理過程文檔化
當(dāng)最終排除了網(wǎng)絡(luò)故障后,流程的最后一步就是對所做的工作進(jìn)行文字記錄。
文檔記錄主要包括以下幾個方面:
故障現(xiàn)象描述及收集的相關(guān)信息;
網(wǎng)絡(luò)拓?fù)鋱D繪制;
網(wǎng)絡(luò)中使用的設(shè)備清單和介質(zhì)清單;
網(wǎng)絡(luò)中使用的協(xié)議清單和應(yīng)用清單;
故障發(fā)生的可能原因;
對每一可能原因制訂的方案和實施結(jié)果;
本次排錯的心得體會。
參考文獻(xiàn):
[1]周明天.TCP/IP網(wǎng)絡(luò)原理與技術(shù)[M].北京:清華大學(xué)出版社,1996.
[2]王旭,張軍譯.程序員參考手冊[M].北京:清華大學(xué)出版社,2004.
(遼陽市遼化職業(yè)中專)