賴彩明 中國聯(lián)通江西省分公司云網(wǎng)運(yùn)營中心 南昌市 330096
王榮 萬賢平 中國聯(lián)通南昌市分公司云網(wǎng)運(yùn)營中心 南昌市 330000
為實(shí)現(xiàn)資源整合、統(tǒng)一管理和集中維護(hù),南昌各高校已逐步完成校園網(wǎng)數(shù)字化改造。校園網(wǎng)成為了一張大的局域網(wǎng),擁有防火墻/路由器、BRAS、交換機(jī)、AAA等網(wǎng)絡(luò)設(shè)備,學(xué)生能通過統(tǒng)一的身份認(rèn)證訪問校園內(nèi)外相關(guān)資源。
網(wǎng)絡(luò)故障的原因有很多,有可能是網(wǎng)絡(luò)設(shè)備故障,也有可能是服務(wù)器系統(tǒng)故障,還有可能是軟件故障,當(dāng)出現(xiàn)網(wǎng)絡(luò)故障時(shí),網(wǎng)絡(luò)管理員要收集故障信息,對(duì)故障進(jìn)行逐步分析排查,及時(shí)恢復(fù)業(yè)務(wù)。
對(duì)于校園網(wǎng)來說,核心網(wǎng)絡(luò)設(shè)備出現(xiàn)故障可能是最嚴(yán)重的問題,核心設(shè)備一旦宕機(jī),直接影響校園全部用戶,從故障的出現(xiàn)到業(yè)務(wù)恢復(fù),少則幾十分鐘,從則幾十小時(shí),這將導(dǎo)致巨大的損失。
這時(shí),雙機(jī)熱備就起著關(guān)鍵作用。雙機(jī)熱備特指基于高可用系統(tǒng)中的兩臺(tái)服務(wù)器的熱備,故得名雙機(jī)熱備,雙機(jī)高可用按工作中的切換方式分為:主-備方式(Active-Standby方式)和雙主機(jī)方式(Active-Active方式),主-備方式即指的是一臺(tái)服務(wù)器處于某種業(yè)務(wù)的激活狀態(tài)(即Active狀態(tài)),另一臺(tái)服務(wù)器處于該業(yè)務(wù)的備用狀態(tài)(即Standby狀態(tài))。而雙主機(jī)方式通常指兩種不同業(yè)務(wù)分別在兩臺(tái)服務(wù)器上互為主備狀態(tài)(即Active-Standby和Standby-Active狀態(tài))。
因?yàn)锽RAS在網(wǎng)絡(luò)中起到了關(guān)鍵且不可替代的作用,所以在校園網(wǎng)中,最常見的熱備方式就是對(duì)BRAS進(jìn)行雙機(jī)熱備。
某高校核心網(wǎng)架構(gòu)為防火墻+BRAS(雙機(jī)熱備)+交換機(jī)模式。其中,BRAS位于網(wǎng)絡(luò)的二層與三層之間,向下完成業(yè)務(wù)匯聚和控制,向上數(shù)據(jù)路由轉(zhuǎn)發(fā),是校園網(wǎng)中的關(guān)鍵設(shè)備。在此類組網(wǎng)的實(shí)際維護(hù)中也可能會(huì)碰到一些問題,撰寫本文的目的是通過分析校園網(wǎng)雙機(jī)熱備下的VPDN故障處理過程,以提升網(wǎng)絡(luò)維護(hù)水平。
校園網(wǎng)核心層設(shè)備為2臺(tái)防火墻,負(fù)責(zé)校園網(wǎng)出口流量的轉(zhuǎn)發(fā)和NAT轉(zhuǎn)換。匯聚層設(shè)備為2臺(tái)ME60(BRAS),負(fù)責(zé)與AAA聯(lián)動(dòng),用戶IP地址分配等功能。ME60與防火墻交叉組網(wǎng),同時(shí)以V字形組網(wǎng)并啟用VRRP+BFD。BFD1監(jiān)測(cè)peer狀態(tài),BFD2檢測(cè)ME60-1的鏈路狀態(tài),BFD3檢測(cè)ME60-2的鏈路狀態(tài)。正常情況下,ME60-1為主,ME60-2為備。當(dāng)ME60-1的下行鏈路出現(xiàn)故障,BFD1和BFD2會(huì)DOWN,ME60-1通過這監(jiān)測(cè)兩個(gè)BFD狀態(tài),由主用降為備用。同時(shí),ME60-2監(jiān)測(cè)到BFD1中斷,BFD3正常,則由備用升為主用。
主設(shè)備優(yōu)先級(jí)為200,如果當(dāng)兩條上行鏈路都斷掉的話,優(yōu)先級(jí)降為80,切換為備。同時(shí)對(duì)下行的鏈路track BFD PEER和LINK的狀態(tài)監(jiān)測(cè)。
兩臺(tái)ME60配置相同的IP地址池、QOS參數(shù)等信息,保證共有屬性的一致性。對(duì)于用戶信息,只需要IP路由可達(dá),通過TCP協(xié)議進(jìn)行備份。為解決PPPOE的radius認(rèn)證精確綁定問題,VRRP+為NAS-PORT-ID和NAS-IP-Adress配置統(tǒng)一的虛擬標(biāo)識(shí),保證主備設(shè)備信息完全一致。
校園用戶反映無法通過ME60撥號(hào)到遠(yuǎn)端LNS,現(xiàn)場(chǎng)測(cè)試用戶端撥號(hào)不成功,用戶停止在驗(yàn)證用戶名密碼狀態(tài)后無反應(yīng)。
通過在LNS側(cè)抓包分析,發(fā)現(xiàn)LNS同終端用戶完成LCP協(xié)商后,通過CHAP認(rèn)證挑戰(zhàn)請(qǐng)求用戶,但此時(shí)又收到用戶的LCP協(xié)商請(qǐng)求,所以LNS無法繼續(xù)進(jìn)行下一步流程。
通過在主BRAS上行口和LNS側(cè)抓包對(duì)比,發(fā)現(xiàn)主ME60只發(fā)出一份,而LNS卻能收到兩份??紤]到兩臺(tái)ME60是雙機(jī)熱備組網(wǎng),,因此另一份報(bào)文可能為備ME60發(fā)出去的,在備ME60上行口抓包確認(rèn)發(fā)出了一份相同的報(bào)文。
我們繼續(xù)在匯聚交換機(jī)分別與兩臺(tái)BRAS相連的上行鏈路抓包發(fā)現(xiàn),發(fā)現(xiàn)交換機(jī)將原本只應(yīng)該發(fā)送至主設(shè)備的報(bào)文同時(shí)發(fā)送至了備用設(shè)備,備用ME60將此報(bào)文正常轉(zhuǎn)發(fā)到LNS,導(dǎo)致LNS收到2份相同的報(bào)文。在交換機(jī)上根據(jù)報(bào)文的目的MAC地址0000-03ea-eb84查看MAC轉(zhuǎn)發(fā)表,確定該MAC從聚合口Eth-Trunk11學(xué)到,不存在MAC地址漂移。因此交換機(jī)應(yīng)該按MAC轉(zhuǎn)發(fā)表將此報(bào)文轉(zhuǎn)發(fā)至Eth-Trunk11,在Eth-Trunk12上抓到該相同報(bào)文是不正常的。
通過與用戶再次溝通,進(jìn)一步了解到,學(xué)校近期將老校區(qū)出口割接到新校區(qū)校園網(wǎng),接入用戶數(shù)激增,導(dǎo)致交換機(jī)Slot2的MAC地址數(shù)量溢出。用戶緊急聯(lián)系設(shè)備廠家調(diào)配板卡并完成擴(kuò)容后,業(yè)務(wù)恢復(fù)正常,故障解決。
通過逐步分析,發(fā)現(xiàn)故障原因?yàn)榻粨Q機(jī)MAC超過閥值,用戶側(cè)上行單撥報(bào)文被泛洪到廣播域所有端口。一般組網(wǎng)下MAC地址超閥,不影響業(yè)務(wù)(會(huì)增加廣播包流量),但恰好學(xué)校組網(wǎng)為兩臺(tái)BRAS雙機(jī)熱備,備用BRAS收到上行報(bào)文后,通過同步的用戶表項(xiàng)正常轉(zhuǎn)發(fā),導(dǎo)致LNS收到2份相同報(bào)文,認(rèn)證失敗。通過分析此案例,我們可以吸取經(jīng)驗(yàn),在日常維護(hù)中定期檢查交換機(jī)板卡用戶MAC數(shù)量,提前進(jìn)行擴(kuò)容。
網(wǎng)絡(luò)故障分析與維護(hù)是一項(xiàng)專業(yè)的工作,當(dāng)今網(wǎng)絡(luò)技術(shù)更新迭代非常快。因此需要網(wǎng)絡(luò)工程師不斷學(xué)習(xí)和積累工作經(jīng)驗(yàn),這樣才能使自身技術(shù)得到不斷提升并能適應(yīng)網(wǎng)絡(luò)的發(fā)展。同時(shí),也能幫助人們從互聯(lián)網(wǎng)當(dāng)中獲得更多有價(jià)值的幫助,讓互聯(lián)網(wǎng)能更好地造福于民。