董亞洲 鄭志剛
摘 要:機房管理員在工作中,經(jīng)常會遇到各種各樣的交換機故障,造成網(wǎng)絡(luò)不能正常運行,影響我們的工作、學(xué)習(xí)和生活??焖?、準(zhǔn)確的查出故障并排除故障是一個管理員的工作職責(zé),本文就常見的故障類型和排障步驟作一個簡單的介紹。
關(guān)鍵詞:交換機;硬件故障;軟件故障
交換機,英文名稱為“SWITCH”。常用以太網(wǎng)交換機之間的連接可以通過兩種方式:堆疊和級聯(lián)。堆疊是指通過交換機自帶的堆疊線纜,把多個交換機的堆疊模塊進行連接。級聯(lián)是指通過交叉雙絞線把兩臺或多臺交換機連在一起。由于各個廠商的技術(shù)不同,堆疊和級聯(lián)的交換機個數(shù)也不相同。
交換機是交換以太網(wǎng)的核心設(shè)備,交換機一旦出現(xiàn)故障,與它相連接的內(nèi)網(wǎng)設(shè)備可能出現(xiàn)網(wǎng)絡(luò)功能癱瘓。這對于一個網(wǎng)絡(luò)管理員來說交換機故障的診斷與排除的尤其重要。
1 交換機常見故障分類
所有交換機故障一般可以分為硬件故障和軟件故障兩大類。硬故障是指網(wǎng)絡(luò)設(shè)備本身的硬件系統(tǒng)發(fā)生了故障,這類故障一般智能通過更換硬件設(shè)備來解決。交換機的硬件故障主要指電源、背板、模塊、端口等部件的故障,可以分為以下幾類:
1.1 電源故障
由于外部供電不穩(wěn)定,或者電源線路老化或者雷擊等原因?qū)е码娫磽p壞而不能正常工作。由于電源緣故而導(dǎo)致機內(nèi)其他部件損壞的事情也經(jīng)常發(fā)生。
如果面板上的POWER指示燈是綠色的,就表明是正常的;如果該指示燈滅了,則說明交換機沒有正常供電。這類問題很容易發(fā)現(xiàn),也很容易解決,同時也是最容易預(yù)防的。
針對這類故障,首先應(yīng)該做好外部電源的供應(yīng)工作,一般通過引入獨立的電力線來提供獨立的電源,并添加穩(wěn)壓器來避免瞬間高壓或低壓現(xiàn)象。如果條件允許,可以添加UPS(不間斷電源)來保證交換機的正常供電。
1.2 端口故障
這是最常見的硬件故障,無論是光纖端口還是雙絞線的RJ-45端口,在插拔接頭時一定要小心。如果不小心把光纖插頭弄臟,可能導(dǎo)致光纖端口污染不能正常通信。如果在搬運時不小心,更可能導(dǎo)致端口物理損壞。
一般情況下,是某一個或者幾個端口損壞。所以,在排除了端口所連計算機的故障后,可以通過更換所連端口,來判斷其是否損壞。
1.3 模塊故障
交換機是由很多模塊組成,比如:堆疊模塊、管理模塊(也叫控制模塊)、擴展模塊等等。這些模塊發(fā)生故障的幾率較少,不過一旦出現(xiàn)問題,就會遭受巨大的經(jīng)濟損失。導(dǎo)致此類故障可能的可能性有:插拔模塊不小心,搬運交換機時受到碰撞,電源不穩(wěn)定等。
1.4 背板故障
交換機的各個模塊都是接插在背板上的。如果環(huán)境潮濕,電路板受潮短路;或者元器件因高溫、雷擊等因素而受損造成電路板不能正常工作。比如:散熱性能不好或環(huán)境溫度太高導(dǎo)致機內(nèi)溫度升高,致使元器件燒壞。在外部電源正常供電的情況下,如果交換機的各個內(nèi)部模塊都不能正常工作,那就可能是背板壞了。對此類故障,唯一的辦法就是換背板。
從上面的幾種硬件故障來看,機房環(huán)境不佳極易導(dǎo)致各種硬件故障,所以我們在建設(shè)機房時,必須先做好防雷接地以及供電電源、室內(nèi)溫度、室內(nèi)濕度、防電磁干擾、防靜電等環(huán)境的建設(shè),為網(wǎng)絡(luò)設(shè)備的正常工作,提供良好的環(huán)境。
2 交換機的軟件故障
所謂軟故障是指系統(tǒng)、配置上的故障,就是指因為誤操作,錯誤配置,病毒等引起的網(wǎng)絡(luò)設(shè)備的故障,這類故障通常能夠通過更改設(shè)置,重新安裝軟件來排除,它可以分為以下幾類:
2.1 系統(tǒng)錯誤
交換機系統(tǒng)是硬件和軟件的結(jié)合體。在交換機內(nèi)部有一個可刷新的只讀存儲器,它保存這臺交換機所必須的軟件系統(tǒng)。這類也和我們常見的WINDOWS、LINUX一樣,由于當(dāng)時設(shè)計的原因,存在一些漏洞,在條件合適時,會導(dǎo)致交換機滿載、丟包、錯包等情況的發(fā)生。
對于此類問題,我們需要養(yǎng)成經(jīng)常瀏覽設(shè)備廠商的網(wǎng)站的習(xí)慣,如果有新的系統(tǒng)推出或者新的補丁,請及時更新。
2.2 配置不當(dāng)
初學(xué)者對交換機不熟悉,或者由于各種交換機配置不一樣,管理員往往在配置交換機時,難免會出現(xiàn)配置錯誤。比如:VLAN劃分不正確導(dǎo)致網(wǎng)絡(luò)不通,端口被錯誤的關(guān)閉,交換機和網(wǎng)卡的模式配置不匹配等原因。這類故障有時很難發(fā)現(xiàn),需要一定的經(jīng)驗積累。
如果不能確保配置有問題,請先恢復(fù)出廠默認配置,然后再一步一步的配置。
2.3 密碼丟失
這可能是每個管理員都曾經(jīng)經(jīng)歷過的。一旦忘記密碼,都可以通過一定的操作步驟來恢復(fù)或重置系統(tǒng)密碼。有的則比較簡單,在交換機上按下一個按鈕就可以了。而有的交換機則通過一定的操作步驟才能解決。
此類情況一般在人為遺忘或者交換機發(fā)生故障后導(dǎo)致數(shù)據(jù)丟失,才會發(fā)生這種故障。
2.4 外部因素
由于病毒或者黑客攻擊等情況的存在,有可能某臺主機向所連接的端口發(fā)送大量不符合封裝原則的數(shù)據(jù)包,造成交換機處理器過分繁忙,致使數(shù)據(jù)包來不及轉(zhuǎn)發(fā),進而導(dǎo)致緩沖區(qū)溢出產(chǎn)生丟包現(xiàn)象。還有一種情況就是廣播風(fēng)暴,它不僅會占用大量的網(wǎng)絡(luò)帶寬,而且還將占用大量的CPU處理時間。網(wǎng)絡(luò)如果長時間被大量的廣播數(shù)據(jù)包所占用,正常的點對點通信就無法正常進行,網(wǎng)絡(luò)速度就會變慢或者癱瘓。
3 交換機故障的一般排障步驟
交換機的故障多種多樣,不同的故障有不同的表現(xiàn)形式。故障分析時要通過各種現(xiàn)象,靈活運用排除方法(如排除法、對比法、替換法),找出故障所在,并及時解除。
3.1 排除法
當(dāng)我們面對故障現(xiàn)象并分析問題時,無意中就已經(jīng)學(xué)會使用排除法來確定發(fā)生故障的方向了。這種方法是指依據(jù)所觀察到的故障現(xiàn)象,盡可能全面的列舉出所有可能發(fā)生的故障,然后逐個分析、排除。在排除時要遵循由簡到繁的原則,提高效率。使用這種方法可以應(yīng)對各種各樣的故障,但維護人員需要有較強的邏輯性思維,對交換機知識有全面深入的了解。
3.2 對比法
所謂對比法,就是利用現(xiàn)有的、相同型號的且能夠正常運行的交換機作為參考對象,和故障交換機之間進行對比,從而找出故障點。這種方法簡單有效,尤其是系統(tǒng)配置上的故障,只要簡單的對比一下就能找出配置的不同點,但是有時要找一臺型號相同、配置相同的交換機也不是件易事。
3.3 替換法
替換法是指使用正常的交換機部件來替換可能有故障的部件,從而找出故障點的方法。它主要用于硬件故障的診斷,但需要注意的是替換的部件必須是相同品牌、相同型號的同類交換機所有。
4 為了使排障工作有章可循,我們可以在故障分析時,按照以下的原則來分析
4.1 由遠到近
由于交換機的一般故障(如:端口故障)都是通過所連接計算機而發(fā)現(xiàn)的,所以經(jīng)常從客戶端開始檢查。我們可以沿著客戶端計算機——端接模塊——水平線纜——跳線——交換機這樣一條路線,逐個檢查,先排除遠端故障的可能。
4.2 由軟到硬
誰都不想動不動就拿螺絲刀去先拆了它再說,所以在檢查時,總是先從系統(tǒng)配置或系統(tǒng)軟件上著手進行排查。如果軟件上不能解決問題,那就是硬件有問題了。比如:某端口不好用,那我們可以先檢查用戶所連接的端口是否不在相應(yīng)的VLAN中,或者該端口是否被其他的管理員關(guān)閉,或者配置上的其他原因。如果排除了系統(tǒng)和配置上的各種可能,那就可以懷疑到真正的問題所在——硬件故障上。
4.3 先易后難
在遇到故障分析所得的可能性較多、較雜時,必須先從通過簡單操作或配置來著手排除。這樣可以加快故障排除的速度,提高效率。
5 總結(jié)
由于交換機故障現(xiàn)象多種多樣,沒有固定的排障步驟,而有的故障往往具有明確的方向性,一眼就能識別得出。所以只能根據(jù)具體情況具體分析,我們主要以預(yù)防為主,要注意機房的環(huán)境衛(wèi)生,溫度和濕度;操作時按規(guī)范要求進行;做好軟件及配置文件的備份工作。當(dāng)發(fā)生故障時,及時認真做好故障處理情況記錄,以積累自己的經(jīng)驗。
[參考文獻]
[1]劉曉輝,肖鐵嶺,姜貴平,等,編著.《網(wǎng)絡(luò)故障現(xiàn)場處理實踐》.