引言:在企業(yè)日常的應(yīng)用中,網(wǎng)絡(luò)管理人員往往會忽略POE與非POE交換機的區(qū)別,經(jīng)常將一些不支持POE供電的設(shè)備接入POE交換機。盡管大部分的網(wǎng)絡(luò)設(shè)備能夠承受微弱的電壓變化,但是仍然有少數(shù)的設(shè)備,特別是一些老舊型號的設(shè)備對于電壓穩(wěn)定性的要求特別高,如果沒有手動關(guān)閉POE交換機對應(yīng)端口的供電功能,將會對設(shè)備的穩(wěn)定運行帶來影響。本文將介紹一起由POE供電引發(fā)的故障及排查方法。
PoE(Power Over Ethernet)供電俗稱以太網(wǎng)供電,是指在現(xiàn)有的以太網(wǎng)布線基礎(chǔ)架構(gòu)不做任何改動的情況下,在為一些基于IP的終端傳輸信號的同時,還能為此類設(shè)備提供直流供電的技術(shù)。POE供電已成為利用以太網(wǎng)同時傳送數(shù)據(jù)和電功率的最新標準規(guī)范,并保持了與現(xiàn)存以太網(wǎng)系統(tǒng)和用戶的兼容性。
隨著IP電話、無線AP、網(wǎng)絡(luò)監(jiān)控等設(shè)備被大量引入,POE供電由于具備技術(shù)成熟、維護簡單、布線方便等優(yōu)點得到了廣泛應(yīng)用,給企業(yè)信息化建設(shè)帶來了極大便利。但是不久前,筆者所在單位發(fā)生了一起網(wǎng)絡(luò)故障,最終排查出的故障原因正是由于POE供電不當所引起。下面將對該故障及排查過程進行詳細介紹。
圖1 改造后的Internet出口拓撲圖
不久前,筆者所在單位進行網(wǎng)絡(luò)改造,目的是對Internet出口架構(gòu)進行優(yōu)化,加強Internet線路保障水平。主要工作是在原有的聯(lián)通Internet線路之外,額外引入一條移動的Internet線路作為備用線路。同時,更新出口互聯(lián)交換機以及撤除老式防毒墻(原互聯(lián)交換機及防毒墻已使用6年,嚴重老化)。經(jīng)過前期準備及緊張的調(diào)試后,網(wǎng)絡(luò)改造工作順利完成,經(jīng)過測試,Internet出口功能和性能都達到了預(yù)期,改造后的出口拓撲如下圖1所示。
正當大家還沉浸在改造成功的喜悅中,問題出現(xiàn)了:改造后第二天上午9:30左右,聯(lián)通線路突然中斷,筆者趕緊利用traceroute命令進行排查,發(fā)現(xiàn)內(nèi)網(wǎng)路由均正常,但是從單位防火墻到運營商局端設(shè)備間數(shù)據(jù)不能正常跳轉(zhuǎn),說明問題應(yīng)該出現(xiàn)在防火墻或者局端。登錄防火墻檢查狀態(tài),發(fā)現(xiàn)CPU利用率、內(nèi)存、并發(fā)連接數(shù)等關(guān)鍵指標均正常,但是使用Ping命令去測試聯(lián)通線路局端網(wǎng)關(guān),卻無法Ping通;而Ping移動線路局端網(wǎng)關(guān),卻能夠正常Ping通,這樣就排除了防火墻的問題,證明故障肯定出現(xiàn)在防火墻之外的局端。
接著檢查了光貓的狀態(tài),發(fā)現(xiàn)TX(發(fā)送)口和RX(接收)口指示燈時斷時續(xù),這與正常時的狀態(tài)不一致,說明光貓收發(fā)數(shù)據(jù)不正常。重啟光貓,線路立即恢復(fù)了正常。但是到11:00左右,線路又一次中斷,現(xiàn)象與之前一模一樣,但是這次故障時間很短,大概只持續(xù)了1分多鐘,筆者還沒來得及做任何操作,線路已經(jīng)自行恢復(fù)正常了。
從故障現(xiàn)象初步分析,聯(lián)通線路中斷的根源很可能是光貓,那么更換光貓后故障應(yīng)該可以解決。于是聯(lián)系聯(lián)通客服人員,要求更換光貓。下午5:30下班后,聯(lián)通人員到達現(xiàn)場,更換了光貓,測試亦未發(fā)現(xiàn)任何異常。
第三天早上8:10左右,聯(lián)通線路再次閃斷2分鐘,由此看來,故障并不是由光貓自身導(dǎo)致的。在排除線路、設(shè)備等硬件故障后,筆者考慮到了電流、電壓的問題。但是經(jīng)過儀器實際檢測,機房電源、UPS設(shè)備以及插線板的電壓都非常穩(wěn)定,而且機房其他設(shè)備也沒有出現(xiàn)類似問題,所以能夠排除機房電源的問題。
為了盡快解決這個問題,我們采用了“最近變更回退”的方法進行排查。由于這次故障是在進行網(wǎng)絡(luò)改造后出現(xiàn)的,必須分析這次改造所涉及的變更操作,并與改造前的正常狀態(tài)進行對比,必要時進行回退操作。主要變更操作有如下三項:
1.防火墻上新接入一條移動Internet線路,設(shè)置了若干條源地址路由,供部分服務(wù)器使用。
2.撤掉了位于防火墻和運營商局端的一臺老式防毒墻,該防毒墻一直以透明網(wǎng)橋的模式接入。
3. 更新升級了互聯(lián)交換機。由原來的思科2960百兆交換機更換為思科3560千兆交換機。
下面就按照上述三條變更操作逐步進行分析。
1.該操作主要是進行了路由變更,屬于“軟變更”。通過仔細核對防火墻配置文件,發(fā)現(xiàn)并無問題,而且故障現(xiàn)象是線路時斷時續(xù),如果屬于路由設(shè)置錯誤,一般不會出現(xiàn)如此現(xiàn)象,所以能夠排除該變更的可能性。
2.該項操作屬于“硬變更”,由于防毒墻屬于透明網(wǎng)橋接入,所以撤掉防毒墻的操作并不會影響網(wǎng)絡(luò)的運行,反而能夠減少一個故障點,所以也能夠排除可能性。
3.該項操作屬于“硬變更”,前期通過檢測,新更換的思科3560交換機運行狀態(tài)正常,能夠排除交換機硬件損壞的可能性。由于交換機上采用的是默認配置,所以不會出現(xiàn)由于人為配置錯誤而導(dǎo)致網(wǎng)絡(luò)故障的可能。但是由于新舊交換機型號和IOS內(nèi)核版本并不一致,所以不能完全排除交換機自身的原因。
為了確定交換機是否為故障源頭,筆者將原來的2960交換機重新上線,替換下3560交換機。經(jīng)過兩天的測試,聯(lián)通線路沒有出現(xiàn)任何故障,由此看來,故障源頭已經(jīng)確定為交換機,原因肯定是新舊交換機的邏輯屬性不一致,從而引發(fā)與之互聯(lián)的光貓狀態(tài)異常。
筆者仔細對兩款交換機的邏輯屬性進行了對比,有如下兩點屬性不同:第一,2960交換機都是百兆端口,而3560交換機都是千兆端口。第二,2960交換機不支持POE端口供電,而3560交換機支持POE端口供電。
光貓的以太網(wǎng)接口為百兆全雙工模式,而3560交換機為千兆接口,盡管當前絕大多數(shù)網(wǎng)絡(luò)設(shè)備均支持端口速率自適應(yīng),但是還是存在端口速率不匹配的可能性。通過Console口登錄3560交換機,進入接口模式,輸入“speed 100”和“duplex full”兩條命令,將對應(yīng)接口強制指定為百兆全雙工模式。改完后測試兩天,線路仍然頻繁出現(xiàn)閃斷現(xiàn)象,所以排除了端口速率不匹配的因素。
POE供電系統(tǒng)是由供電端設(shè)備(PSE, Power Sourcing Equipment)和受電端設(shè)備(PD, Powered Device)兩部分組成;其供電流程如下所示:
1.檢測:一開始,POE設(shè)備在端口輸出很小的電壓,直到其檢測到線纜終端的連接為一個支持IEEE 802.3af標準的受電端設(shè)備。
2.PD端設(shè)備分類:當檢測到受電端設(shè)備PD之后,POE設(shè)備可能會為PD設(shè)備進行分類,并且評估此PD設(shè)備所需的功率損耗。
3.開始供電:在一個可配置時間(一般小于15μs)的啟動期內(nèi),PSE設(shè)備開始從低電壓向PD設(shè)備供電,直至提供48V的直流電源。
4.為PD設(shè)備提供穩(wěn)定可靠的48V直流電,滿足PD設(shè)備不高于 15.4W的功耗。
5.若PD設(shè)備從網(wǎng)絡(luò)上斷開時,PSE就會快速地(一般在300~400ms之內(nèi))停止為PD設(shè)備供電,并重復(fù)檢測過程以檢測線纜的終端是否連接PD設(shè)備。
從上述流程中可以看出,3560交換機承擔PSE角色,光貓成為PD角色;在PSE檢測階段,3560交換機會持續(xù)向光貓輸出極小的電壓,而由于光貓是利用外接電源供電,不支持POE供電,所以這個檢測電壓可能會對光貓的工作電壓帶來一定沖擊,如果光貓對工作電壓的穩(wěn)定性要求很高,那么檢測電壓很可能會造成光貓運行異常。
為驗證結(jié)果,筆者登錄3560交換機,在接口配置模式 下,輸 入“power inline never”命令,強制關(guān)閉對應(yīng)接口的POE供電功能。后經(jīng)過測試觀察,聯(lián)通線路再沒有出現(xiàn)異常。
這起故障發(fā)生的原因值得深思,網(wǎng)絡(luò)管理人員經(jīng)常會忽視網(wǎng)絡(luò)設(shè)備的電壓、電流等物理參數(shù),殊不知這些參數(shù)是設(shè)備正常運行最重要的條件。盡管POE供電的測試電壓極小,一般不會對設(shè)備產(chǎn)生影響,但是為了防微杜漸,在實際工作中最好將POE和非POE設(shè)備區(qū)分開,以免造成難以排查的故障隱患。