在網(wǎng)絡(luò)運(yùn)維中,經(jīng)常要查看交換機(jī)端口,一個看端口狀態(tài),一個看端口信息。端口信息中含有大量的數(shù)據(jù)信息,包括狀態(tài)、地址、帶寬、輸入輸出包、廣播包、錯誤包、CRC包等。認(rèn)真觀察、分析這些數(shù)據(jù)信息,有助于解決網(wǎng)絡(luò)故障。本文介紹兩個案例,就是通過查看交換機(jī)端口信息發(fā)現(xiàn)問題,從而找到相應(yīng)解決方案。
注:本文使用的命令是銳捷交換機(jī)的命令,其他品牌的交換機(jī),請使用對應(yīng)的命令。
一天早上剛上班,就發(fā)現(xiàn)學(xué)校的計電樓報斷網(wǎng)了。馬上查看網(wǎng)絡(luò)設(shè)備監(jiān)控流量圖,發(fā)現(xiàn)確實網(wǎng)絡(luò)斷了,且從昨天起已經(jīng)斷網(wǎng)并自動回復(fù)了幾次(如圖1)。
圖1 計電樓流量圖
圖2 匯聚交換機(jī)端口13的信息
因已經(jīng)斷網(wǎng)無法遠(yuǎn)程操作,于是讓學(xué)院的人把匯聚交換機(jī)重啟,重啟后網(wǎng)絡(luò)正常,可不到2個小時又?jǐn)嗑W(wǎng)了。查看流量圖未發(fā)現(xiàn)匯聚交換機(jī)流量異常,各端口流量也正常。再次重啟后進(jìn)入?yún)R聚交換機(jī)查看,以前此棟樓有過ARP包異常,sh nfpp arp-guard hosts未發(fā)現(xiàn)異常,sh cpu、 sh memory 也正常,sh interfaces gigabitEthernet一個個端口查看,感覺1/13端口廣播包有些異常,廣播數(shù)據(jù)包感覺有些大(如圖2)。 然后sh int counters summary,發(fā)現(xiàn)13及14口的InBroadcastPkts數(shù)據(jù)比其他端口至少多出一位(如圖3)。
當(dāng)時正在下大雨,不想到現(xiàn)場抓包,馬上把13、14口關(guān)閉。觀察中,到下午14點(diǎn)上班時,計電樓整體網(wǎng)絡(luò)正常,因為13、14端口各接一層樓的2臺接入交換機(jī),有近200個信息點(diǎn),不可能關(guān)閉太久。據(jù)端口信息判斷故障原因是廣播包太多,而此樓的交換機(jī)未做廣播網(wǎng)暴控制。交換機(jī)收到廣播、未注冊組播、未知單播3種報文后都會做廣播處理,如果端口沒有開啟風(fēng)暴控制,端口對收到廣播包的速率將不做限制。當(dāng)局域網(wǎng)中存在過量這3種數(shù)據(jù)流時,就會導(dǎo)致網(wǎng)絡(luò)變慢和報文傳輸超時機(jī)率大大增加,這便是廣播風(fēng)暴。
廣播風(fēng)暴控制是通過控制端口接收廣播包的速率,將只允許通過所設(shè)定帶寬、每秒允許通過的報文數(shù)或者每秒允許通過的千比特數(shù)的數(shù)據(jù)流,超出限定范圍部分的數(shù)據(jù)流將被丟棄,直到數(shù)據(jù)流恢復(fù)正常,從而避免形成網(wǎng)絡(luò)風(fēng)暴。于是在13、14端口增加使命命令stormcontrol broadcast level 2(銳捷交換機(jī)默認(rèn)是1%),然后把端口打開,再迅速進(jìn)入相應(yīng)的接入交換機(jī),對所有用戶端口也增加stormcontrol broadcast level 2,通過 sh in gi及 sh in gi co su不斷查看匯聚交換機(jī)的13、14端口只信息,廣播包還在增長中,但速度不快,到下班時計電樓的網(wǎng)絡(luò)都是正常的,第二天也是正常的。但感覺stormcontrol broadcast level 2有些太小,把14口改成level 5,隨后幾天繼續(xù)觀察,再沒有斷網(wǎng),用戶也能正常上網(wǎng)。雖然不知道是哪里是什么原因產(chǎn)生了大量的廣播包,但通過廣播風(fēng)暴控制將此次斷網(wǎng)故障解決了。
圖3 匯聚交換機(jī)各端口的進(jìn)出數(shù)據(jù)統(tǒng)計
圖4 端口信息顯示有大量的錯誤包及CRC包
學(xué)校另一個校區(qū)一個新裝修的辦公室內(nèi)多個用戶反映網(wǎng)絡(luò)總是中斷,Ping網(wǎng)關(guān)時通時斷,延時大。重啟小交換機(jī)問題沒有解決,電腦直接接信息點(diǎn)后還是有網(wǎng)絡(luò)中斷現(xiàn)象,而其他辦公室的網(wǎng)絡(luò)都是正常的。初步判斷是信息點(diǎn)、網(wǎng)線或相應(yīng)交換機(jī)端口有問題。
進(jìn)入相應(yīng)交換機(jī)查看,sh cpu、sh memor正常,用 show interface,show interface counter查看,發(fā)現(xiàn)對應(yīng)的端口信息上有大量錯誤包及CRC包(如圖4)。CRC錯包一般是接口、雙工異常、時鐘與MTU中否一致、物理鏈路問題造成的,出現(xiàn)CRC錯包后,首先要排除物理鏈路的影響。
重新?lián)懿辶怂ь^,再測試還是有問題,找一個正常端口把有問題的網(wǎng)線插上問題依舊,判斷是網(wǎng)線有問題。把根網(wǎng)線2頭的水晶頭重做并測試正常后,插入交換機(jī),并換到一個正常的交換機(jī)端口,再次測試,Ping網(wǎng)關(guān)正常,電腦打開網(wǎng)頁也正常了,在交換機(jī)新的端口信息上沒有出現(xiàn)錯誤包了。故障原因是此辦公室是新裝修的,網(wǎng)線的水晶頭未做好造成的。
交換機(jī)的端口信息提供了大量的信息,包括括狀態(tài)、地址、帶寬、輸入輸出包、廣播包、錯誤包、CRC包等,認(rèn)真觀察、分析這些數(shù)據(jù)信息,有助于解決網(wǎng)絡(luò)故障。第一個案例是發(fā)現(xiàn)某些端口有大量的廣播包,通過風(fēng)暴控制來抑制,從而保障網(wǎng)絡(luò)正常運(yùn)行。第二個案例是發(fā)現(xiàn)某個端口有大量的錯誤包、CRC包,通過交叉替換發(fā)現(xiàn)是網(wǎng)線水晶頭有問題,重做水晶頭解決問題。在網(wǎng)絡(luò)運(yùn)維中經(jīng)常要查看交換機(jī)端口信息,通過分析這些信息有助于解決網(wǎng)絡(luò)故障。