引言:基于策略的路由比傳統(tǒng)路由更靈活,它使網(wǎng)絡(luò)管理者不僅能夠根據(jù)目的地址,而且能夠根據(jù)協(xié)議類型、報文大小、應(yīng)用、IP源地址或者其他的策略來選擇轉(zhuǎn)發(fā)路徑。筆者結(jié)合工作實際,介紹一則策略路由帶來的隱蔽故障的發(fā)生和解決。
最近單位發(fā)生一起奇怪的網(wǎng)絡(luò)故障,問題原因很簡單,但找到問題卻頗費周折。
先介紹一下我單位市局城域網(wǎng)絡(luò)的基本情況。
七個區(qū)市局共十個辦公地點,通過MSTP專線與市局連接,其中兩個區(qū)市局(區(qū)市1、區(qū)市10)的互聯(lián)網(wǎng)出口也在市局。市局互聯(lián)網(wǎng)出口有兩條,一條是聯(lián)通100M,一條是電信10M。市局新上上網(wǎng)行為管理設(shè)備(如圖1)。
防火墻接口配置說明:Eth10電信互聯(lián)網(wǎng)出口、Eth11聯(lián)通互聯(lián)網(wǎng)出口、Eth12內(nèi)網(wǎng)口、Eth13 DMZ區(qū)(如圖2)。
某日,區(qū)市一位工作人員反映不能連接互聯(lián)網(wǎng),訪問市局、省局等正常。初步分析:
除區(qū)市1,其他區(qū)市局用戶訪問互聯(lián)網(wǎng)均正常,說明互聯(lián)網(wǎng)線路沒有問題。
將區(qū)市1與區(qū)市10路由器、交換機的配置做對比未發(fā)現(xiàn)異常。
由于以前網(wǎng)絡(luò)運行一直平穩(wěn),這次故障是新上的上網(wǎng)行為管理設(shè)備后發(fā)生,于是跳過上網(wǎng)行為管理設(shè)備直接通過防火墻訪問互聯(lián)網(wǎng),這時發(fā)現(xiàn)區(qū)市1訪問互聯(lián)網(wǎng)恢復(fù)正常。第二天將上網(wǎng)行為管理設(shè)備又重新接入,區(qū)市1訪問互聯(lián)網(wǎng)正常未受影響。
一段時間后,一天晚上,區(qū)市1訪問互聯(lián)網(wǎng)又完全斷掉,第二天自行恢復(fù)。
幾天后,區(qū)市1訪問互聯(lián)網(wǎng)又?jǐn)嗟?,這次采取以下措施均不奏效。
1.隔離上網(wǎng)行為管理設(shè)備。
2.重新啟動區(qū)市1網(wǎng)絡(luò)設(shè)備。
3.區(qū)市1交換機上的計算機連接網(wǎng)線全部撥掉,在市局遠程telnet,測試。
以上措施可排除內(nèi)部病毒和網(wǎng)絡(luò)攻擊及上網(wǎng)行為管理設(shè)備造成的故障。
這次故障排查測試時,發(fā)現(xiàn)在區(qū)市1的路由器和交換機上Ping市局互聯(lián)網(wǎng)出口結(jié)果不同:路由器Ping市局防火墻上的聯(lián)通外網(wǎng)互聯(lián)地址221.215.210.153可達,交換機Ping市局防火墻上的聯(lián)通外網(wǎng)互聯(lián)地址221.215.210.153不 可達。而且在區(qū)市1交換機上tracert市局防火墻的外網(wǎng)地址,只能跟蹤到內(nèi)網(wǎng)口地址,這表明區(qū)市1的路由配置沒有問題,問題出在市局的防火墻上,市局的防火墻收到了來自區(qū)市1網(wǎng)段10.xx.83.0/24的互聯(lián)網(wǎng)連接請求,但不能轉(zhuǎn)發(fā)到互聯(lián)網(wǎng)出口。
圖1 全市拓撲結(jié)構(gòu)
圖2 防火墻接口配置
可是為什么其他網(wǎng)段的流量轉(zhuǎn)發(fā)正常呢?到防火墻管理界面仔細查看才發(fā)現(xiàn),互聯(lián)網(wǎng)出口的電信線路是不可達的,有一條在界面上非常隱蔽的策略路由(網(wǎng)絡(luò)管理——路由-策略路由a中的一條路由)將區(qū)市1的流量分配到電信線路。聯(lián)系運營商說因線路欠費被關(guān)閉,線路重新開啟后,一切恢復(fù)正常。
故障恢復(fù)后又做測試如下:
1.電信線路正常時,在城陽區(qū)的交換機上跟蹤互聯(lián)網(wǎng)地址:
2.將市局防火墻上電信互聯(lián)網(wǎng)接口的網(wǎng)線拔掉時:
此時,因為電信互聯(lián)網(wǎng)出口為Down的狀態(tài),防火墻會跳過策略路由,將包轉(zhuǎn)發(fā)到聯(lián)通出口221.215.210.153。
3.關(guān)閉機房電線互聯(lián)網(wǎng)線路的光纖收發(fā)器(模擬遠端線路故障)
此時,電信互聯(lián)網(wǎng)出口為Up的狀態(tài),但對端地址219.147.6.81不可達,就出現(xiàn)了類似前期欠費斷網(wǎng)的情況。
這次故障處理受到運營商線路時停時續(xù)和對新網(wǎng)絡(luò)上網(wǎng)行為設(shè)備了解不夠等因素的干擾,在診斷測試時雖然發(fā)現(xiàn)在區(qū)市1的路由器和交換機上測試結(jié)果不同,也沒有仔細分析,沒有抓住問題的本質(zhì)。直到徹底斷網(wǎng)才重新審視關(guān)鍵線索,延長了維修時間。
之所以路由器和交換機上測試結(jié)果不同,是因為路由器、交換機上有多個接口時,常規(guī)Ping的時候會選擇最短路徑的接口,區(qū)市1交換機上全部是10.xx.83.0/24,它 的包到達到防火墻后被轉(zhuǎn)發(fā)到了電信互聯(lián)網(wǎng)出口,電信線路此時斷掉,所以Ping聯(lián)通互聯(lián)網(wǎng)100M互聯(lián)地址時不通。而區(qū)市1路由器最短路徑的接口(10.xx.74.7)的包到達到防火墻后被轉(zhuǎn)發(fā)到聯(lián)通互聯(lián)網(wǎng)100M出口,自然Ping與其直聯(lián)的聯(lián)通互聯(lián)網(wǎng)100M互聯(lián)地址時是通的。
通過這次事件得到以下提示,要快速高效的進行網(wǎng)絡(luò)故障排除,網(wǎng)絡(luò)管理人員一定要有扎實的基本功,深入學(xué)習(xí)底層協(xié)議和網(wǎng)絡(luò)設(shè)備的通信原理,判斷時篤信不疑才能少受各種意外現(xiàn)象影響。網(wǎng)絡(luò)配置要專人負責(zé),配置及修改要有詳細記錄文檔,臨時測試的配置要即用即刪。管理人員要整理完備詳細的網(wǎng)絡(luò)系統(tǒng)檔案,網(wǎng)絡(luò)有變動時及時更新。