劉昊,霍曉莉,胡騫,丁一
(中國(guó)電信股份有限公司研究院,北京 102209)
過去,光通信設(shè)備的網(wǎng)絡(luò)管控系統(tǒng)相對(duì)獨(dú)立,設(shè)備廠商需要同時(shí)提供基礎(chǔ)網(wǎng)絡(luò)設(shè)備和相配套的管控系統(tǒng)及服務(wù)。然而,從網(wǎng)絡(luò)運(yùn)維的視角來看,這種單一的網(wǎng)絡(luò)管理模式存在數(shù)據(jù)不透明、故障定位效率低、業(yè)務(wù)恢復(fù)不及時(shí)等問題。日益增長(zhǎng)的流量需求導(dǎo)致網(wǎng)絡(luò)設(shè)備增多且組網(wǎng)環(huán)境愈發(fā)復(fù)雜,上述問題更加顯著,給網(wǎng)絡(luò)運(yùn)維帶來了巨大挑戰(zhàn)。
隨著通信技術(shù)邁入數(shù)字化時(shí)代,軟件定義網(wǎng)絡(luò)(software 2efine2 network,SDN)技術(shù)[1]的出現(xiàn)打破了傳統(tǒng)的網(wǎng)絡(luò)設(shè)備管理模式。構(gòu)建開放的光網(wǎng)絡(luò)生態(tài)圈不僅僅是口號(hào),正在深刻影響著整個(gè)光通信產(chǎn)業(yè)。目前,基于SDN的網(wǎng)絡(luò)設(shè)備控制器已經(jīng)從IP網(wǎng)絡(luò)發(fā)展到光傳送網(wǎng),傳送SDN技術(shù)成為了光網(wǎng)絡(luò)管控領(lǐng)域的熱門研究課題[2]。按照規(guī)范性的南向與北向應(yīng)用程序接口(application programming interface,API),將業(yè)務(wù)平面和控制平面進(jìn)行分離,基于傳送網(wǎng)控制器最終實(shí)現(xiàn)異廠商設(shè)備統(tǒng)一管控。這種統(tǒng)一管控的模式能夠化繁為簡(jiǎn),對(duì)所有廠商的設(shè)備資源、性能和告警等關(guān)鍵項(xiàng)綜合呈現(xiàn),有助于快速識(shí)別網(wǎng)絡(luò)風(fēng)險(xiǎn)和定位故障;而對(duì)于運(yùn)維人員來說,也降低了操作復(fù)雜度。
雖然傳送網(wǎng)控制器的應(yīng)用已經(jīng)能提高定位網(wǎng)絡(luò)故障的能力,但其只對(duì)相同管理域內(nèi)的設(shè)備提供服務(wù),而對(duì)于實(shí)際組網(wǎng)環(huán)境中的邊緣節(jié)點(diǎn)之間則存在故障定位能力不足的問題。例如,交換機(jī)/路由器與傳輸設(shè)備之間的部分,兩類設(shè)備隸屬不同的專業(yè)領(lǐng)域,目前很難形成有效的協(xié)同,當(dāng)這種域間網(wǎng)絡(luò)發(fā)生故障后難以做到快速定位。針對(duì)上述問題,本文首先介紹了一種開放的光傳送網(wǎng)絡(luò)架構(gòu),隨后基于該架構(gòu)提出一些域間光網(wǎng)絡(luò)故障定位技術(shù)并加以實(shí)踐,包括網(wǎng)絡(luò)連接關(guān)系的獲取、遠(yuǎn)端光模塊管控、性能管理和故障根因分析等,最后總結(jié)故障定位技術(shù)并對(duì)未來新技術(shù)進(jìn)行展望。
光傳送網(wǎng)絡(luò)的開放性旨在為用戶提供開放的網(wǎng)絡(luò)編排能力,終端用戶通過定義統(tǒng)一的數(shù)據(jù)模型和標(biāo)準(zhǔn)接口,實(shí)現(xiàn)對(duì)底層不同廠商傳輸設(shè)備的綜合管控。接入型光傳送網(wǎng)絡(luò)(optical transport network,OTN)統(tǒng)一管控系統(tǒng)[2]和盒式波分控制器[3]是兩個(gè)具有代表性的應(yīng)用實(shí)例。接入型OTN設(shè)備統(tǒng)一管控系統(tǒng)架構(gòu)如圖1所示,與中國(guó)通信標(biāo)準(zhǔn)化協(xié)會(huì)(China Communications Stan2ar2s Association,CCSA)制定的控制器層間接口技術(shù)標(biāo)準(zhǔn)相似,接入型OTN設(shè)備也制定了北向接口企業(yè)標(biāo)準(zhǔn),在設(shè)定的相同管理域內(nèi)能夠?qū)Σ煌瑥S商的局端OTN以及接入型OTN設(shè)備進(jìn)行統(tǒng)一管控[4-6]。盒式波分設(shè)備的統(tǒng)一管控系統(tǒng)架構(gòu)如圖2所示,它能夠同時(shí)管理不同廠商的電層設(shè)備和光層設(shè)備,有助于實(shí)現(xiàn)電層設(shè)備和光層設(shè)備解耦。兩者均采用標(biāo)準(zhǔn)網(wǎng)絡(luò)配置協(xié)議(network configuration protocol,NETCONF)和另一代的新模型(yet another next generation,YANG),從而具備對(duì)物理層OTN設(shè)備和波分復(fù)用(wavelength 2ivision multiplexing,WDM)設(shè)備的綜合管控能力。
從物理連纖來看,接入型OTN設(shè)備主要部署于運(yùn)營(yíng)商接入機(jī)房或客戶機(jī)房,與客戶設(shè)備直接相連[5]。而面向城域應(yīng)用的盒式波分電層設(shè)備客戶側(cè)端口與數(shù)據(jù)設(shè)備(如交換機(jī)、路由器等)相連,它們分屬不同的管理域。這些直接對(duì)接客戶設(shè)備和跨專業(yè)設(shè)備互聯(lián)的位置相對(duì)比較特殊,屬于管控的“真空”地帶,在出現(xiàn)故障的時(shí)候往往需要多個(gè)專業(yè)領(lǐng)域的運(yùn)維人員共同排查,難以保障故障恢復(fù)的時(shí)效性。因此,為了提高故障定位效率,本文考慮將現(xiàn)有的傳送網(wǎng)管控范圍延展到遠(yuǎn)端相連接的設(shè)備,進(jìn)而使其具備對(duì)域間故障定位的能力。
光傳送網(wǎng)絡(luò)域間故障定位技術(shù)主要用于邊緣接入節(jié)點(diǎn),電層設(shè)備的客戶側(cè)端口連接到遠(yuǎn)端客戶設(shè)備端口或其他專業(yè)設(shè)備(如交換機(jī)/路由器)端口,利用傳輸設(shè)備的綜合管控系統(tǒng)或控制器分析診斷遠(yuǎn)端光模塊故障或者域間光路故障。故障定位基本思路是當(dāng)管控系統(tǒng)或控制器監(jiān)測(cè)到某一客戶側(cè)端口產(chǎn)生告警后,首先找到與之相連接的對(duì)端網(wǎng)絡(luò)設(shè)備位置,再通過具體的告警信息進(jìn)一步判斷故障位置和根因。
確定網(wǎng)絡(luò)連接關(guān)系是故障定位的基礎(chǔ),多數(shù)情況下域間光纜中斷造成業(yè)務(wù)信號(hào)丟失時(shí),無法對(duì)其所承載的每條業(yè)務(wù)快速找到連接關(guān)系,也就不能及時(shí)發(fā)現(xiàn)遠(yuǎn)端設(shè)備位置。
目前,獲取網(wǎng)絡(luò)連接關(guān)系的方法已有較為成熟的標(biāo)準(zhǔn)可以參考。對(duì)于以太網(wǎng)類型的客戶業(yè)務(wù),電氣電子工程師學(xué)會(huì)(Institute of Electrical an2 Electronics Engineers,IEEE)發(fā)布了鏈路層發(fā)現(xiàn)協(xié)議(link layer 2iscovery protocol,LLDP)[7],其中定義了多種幀結(jié)構(gòu)和數(shù)據(jù)格式,用戶能夠通過擴(kuò)展不同類型/長(zhǎng)度/值(type/length/value,TLV)將設(shè)備、端口、光模塊等物理位置信息封裝到數(shù)據(jù)單元,通過以太網(wǎng)二層傳輸協(xié)議實(shí)現(xiàn)信息共享。而國(guó)際電信聯(lián)盟電信標(biāo)準(zhǔn)化部門(International Telecommunications Union Telecommunications Stan2ar2ization Sector,ITU-T)[8-9]明確了OTN類型業(yè)務(wù)的鄰居發(fā)現(xiàn)協(xié)議,重用OTN幀結(jié)構(gòu),使OTN設(shè)備能夠完成光網(wǎng)絡(luò)同層網(wǎng)元節(jié)點(diǎn)間的鄰居發(fā)現(xiàn)。
域間網(wǎng)絡(luò)設(shè)備的連接關(guān)系找到后,也就相當(dāng)于找到了光模塊之間的連接關(guān)系。光模塊作為攜帶業(yè)務(wù)的載體,在光傳送網(wǎng)絡(luò)中扮演著重要角色。通常情況下,本地傳送綜合網(wǎng)管能夠監(jiān)控本端的光模塊信息,卻不能獲取遠(yuǎn)端光模塊的數(shù)據(jù)。對(duì)于任意一條光路的監(jiān)控和故障診斷,都需要提供端到端的信息。一種可行的遠(yuǎn)端光模塊管控方案是使用調(diào)頂技術(shù),將光模塊信息通過調(diào)頂信號(hào)進(jìn)行傳遞[10]。具體來說,在光模塊內(nèi)部生成低頻小幅度調(diào)制信號(hào)與高速業(yè)務(wù)信號(hào)疊加,形成混合信號(hào)后通過光纖隨路傳輸。對(duì)端收到信號(hào)后分離出調(diào)頂信號(hào),解析光模塊數(shù)據(jù)。如今調(diào)頂技術(shù)已經(jīng)在N×25 Gbit/s前傳半有源系統(tǒng)中得到應(yīng)用,其中N為波分復(fù)用系統(tǒng)的通道數(shù)[11-13],更高速率和復(fù)雜調(diào)制碼型的調(diào)頂技術(shù)有待進(jìn)一步探索。
本文研究了多通道100 Gbit/s光模塊調(diào)頂技術(shù),并制定了相應(yīng)的調(diào)頂信號(hào)傳輸協(xié)議,包括調(diào)制速率、編碼方式、幀結(jié)構(gòu)以及幀傳輸方式等。對(duì)于多通道光模塊,明確選擇一個(gè)子通道作為調(diào)頂信號(hào)傳輸通道,能夠有效降低模塊功耗與成本。如何保證調(diào)頂信號(hào)不會(huì)對(duì)原始業(yè)務(wù)信號(hào)造成影響是重點(diǎn)考慮的問題,對(duì)光模塊電路設(shè)計(jì)要求較高。因?yàn)檎{(diào)頂信號(hào)對(duì)于業(yè)務(wù)信號(hào)而言是噪聲,接收機(jī)接收的光功率越低,調(diào)頂信號(hào)對(duì)業(yè)務(wù)信號(hào)的干擾越大。調(diào)頂信號(hào)對(duì)接收靈敏度的影響如圖3所示,分別顯示了兩支100GE-LR4光模塊在有、無調(diào)頂信號(hào)時(shí)的誤碼率與接收光功率變化曲線,測(cè)試結(jié)果表明調(diào)頂信號(hào)會(huì)對(duì)光模塊的接收靈敏度造成影響,后續(xù)可考慮電路優(yōu)化設(shè)計(jì)或者重新設(shè)置接收靈敏度指標(biāo)。
圖3 調(diào)頂信號(hào)對(duì)接收靈敏度的影響
調(diào)頂技術(shù)使得遠(yuǎn)端光模塊的基本信息和數(shù)字診斷監(jiān)控(2igital 2iagnostic monitoring,DDM)數(shù)據(jù)以光信號(hào)的形式發(fā)送,保存在本地光模塊指定寄存器中,本地網(wǎng)管再通過管理接口獲取這些寄存器數(shù)據(jù)。同時(shí),本地網(wǎng)管也能通過本地光模塊向遠(yuǎn)端光模塊發(fā)送一些基本操作指令(如開啟/關(guān)閉激光器、環(huán)回等)以輔助進(jìn)行故障定位。
在開放的光傳送網(wǎng)絡(luò)管控系統(tǒng)平臺(tái)上,引入遙測(cè)(telemetry)技術(shù)能夠?qū)崿F(xiàn)對(duì)監(jiān)控?cái)?shù)據(jù)的秒級(jí)上報(bào)[14]??紤]到光模塊使用量大,在現(xiàn)網(wǎng)應(yīng)用中失效率也較高,實(shí)時(shí)監(jiān)控光模塊的DDM數(shù)據(jù)有助于及時(shí)發(fā)現(xiàn)問題。過去傳輸網(wǎng)管性能監(jiān)控的最短周期為15 min,無法感知瞬態(tài)變化,模塊性能劣化無法提前識(shí)別。而實(shí)時(shí)監(jiān)控能夠在模塊早期出現(xiàn)異常時(shí)及時(shí)預(yù)警,防止后期真正出現(xiàn)故障時(shí)再耗費(fèi)大量時(shí)間進(jìn)行定位。為了更加精確地定位光模塊故障,引入激光器偏置電流波動(dòng)和發(fā)送光功率波動(dòng)兩個(gè)參數(shù),波動(dòng)范圍過大表明光模塊出現(xiàn)異常。
對(duì)于telemetry訂閱實(shí)時(shí)功能的使用,按需訂閱被認(rèn)為是一種切實(shí)可靠的方式,以規(guī)避由數(shù)據(jù)采集量過大導(dǎo)致服務(wù)器宕機(jī)的風(fēng)險(xiǎn)。
當(dāng)網(wǎng)絡(luò)因?yàn)榘l(fā)生故障造成業(yè)務(wù)中斷或丟包時(shí),找到故障根因是確保業(yè)務(wù)快速恢復(fù)的重要手段。域間網(wǎng)絡(luò)的故障根因分析基于本地綜合管控系統(tǒng)進(jìn)行,將上報(bào)的告警和實(shí)時(shí)采集的數(shù)據(jù)相結(jié)合(含遠(yuǎn)端光模塊告警和數(shù)據(jù)),對(duì)有關(guān)告警進(jìn)行主次排序,最終篩選出根告警作為故障根因。通常情況下在根告警消失后,其他有關(guān)告警將自動(dòng)消除。
域間網(wǎng)絡(luò)的根告警可以總結(jié)為光路故障和光模塊故障兩類。為了更直接地反饋光路故障,網(wǎng)管增加了雙向的鏈路中斷告警,監(jiān)測(cè)調(diào)頂信號(hào)的狀態(tài)以實(shí)現(xiàn)告警產(chǎn)生或消失。光模塊故障除了通過分析常規(guī)性能越限告警外,還引入了激光器偏置電流和發(fā)送光功率波動(dòng)告警。
本文開發(fā)了一套傳輸網(wǎng)絡(luò)運(yùn)行質(zhì)量分析原型系統(tǒng),并基于該系統(tǒng)對(duì)域間網(wǎng)絡(luò)故障定位技術(shù)進(jìn)行了實(shí)驗(yàn)驗(yàn)證。開放的光傳送網(wǎng)絡(luò)管控系統(tǒng)架構(gòu)如圖4所示,說明了整個(gè)網(wǎng)絡(luò)的管控系統(tǒng)架構(gòu),原型系統(tǒng)包括針對(duì)域間網(wǎng)絡(luò)故障定位技術(shù)所開發(fā)的性能管理模塊和故障根因分析兩個(gè)核心模塊,與底層傳輸設(shè)備通過南向引擎交互。南向引擎服務(wù)于主業(yè)務(wù)系統(tǒng),它包括標(biāo)準(zhǔn)NETCONF處理模塊、遠(yuǎn)程過程調(diào)用(remote proce2ure call,RPC)擴(kuò)展接口處理模塊、安全外殼(secure shell,SSH)協(xié)議底層連接控制模塊等核心模塊,并以一種基于超文本傳輸協(xié)議(hypertext transfer protocol,HTTP)且具有更簡(jiǎn)潔的開發(fā)風(fēng)格的RESTful內(nèi)部接口提供管理設(shè)備的能力并實(shí)時(shí)轉(zhuǎn)發(fā)來自設(shè)備的告警和通知。
圖4 開放的光傳送網(wǎng)絡(luò)管控系統(tǒng)架構(gòu)
光傳送網(wǎng)域間故障定位實(shí)驗(yàn)環(huán)境如圖5所示,兩支具備調(diào)頂功能的100GE-LR4光模塊分別插在傳輸設(shè)備電層板卡的客戶側(cè)端口和一臺(tái)支持LLDP功能的客戶交換機(jī),光模塊使用短纖互聯(lián)。Web門戶能夠獲取交換機(jī)的位置信息和端口信息,也能查看遠(yuǎn)端光模塊的實(shí)時(shí)數(shù)據(jù)。在光模塊之間的光纖斷開后,網(wǎng)管上報(bào)鏈路中斷的根告警。受限于光模塊數(shù)量,無法進(jìn)行復(fù)雜的組網(wǎng),但初步驗(yàn)證了本文介紹的域間故障定位技術(shù)的可行性。
圖5 光傳送網(wǎng)域間故障定位實(shí)驗(yàn)環(huán)境
本文闡述了不同專業(yè)設(shè)備管控系統(tǒng)難以協(xié)同帶來的域間網(wǎng)絡(luò)故障定位困難的痛點(diǎn),提出了基于開放光傳送網(wǎng)絡(luò)綜合管控系統(tǒng)下的域間故障定位技術(shù)方案,并最終在原型系統(tǒng)上得到了驗(yàn)證。
如今“云網(wǎng)融合”正推動(dòng)運(yùn)營(yíng)商向數(shù)字化轉(zhuǎn)型。全光網(wǎng)2.0技術(shù)白皮書提出“運(yùn)營(yíng)智慧化”的發(fā)展愿景[15]。隨著傳輸、接入、數(shù)據(jù)等網(wǎng)絡(luò)基礎(chǔ)設(shè)施逐漸云化部署,基于SDN的控制器和管控系統(tǒng)深耕于各專業(yè)領(lǐng)域的設(shè)備之上,全網(wǎng)資源有望實(shí)現(xiàn)協(xié)同編排和數(shù)據(jù)共享,屆時(shí)域間網(wǎng)絡(luò)故障定位難的問題將得到解決。最后,相信未來人工智能和機(jī)器學(xué)習(xí)等前沿技術(shù)都將助力光傳送網(wǎng)絡(luò)向智慧化運(yùn)營(yíng)演進(jìn)。