李紅霞,楊潔艷,肖 琦(中國(guó)聯(lián)通重慶分公司,重慶 401131)
當(dāng)前,在數(shù)字化轉(zhuǎn)型背景下,隨著網(wǎng)元數(shù)量的不斷增加,業(yè)務(wù)也越來(lái)越復(fù)雜,網(wǎng)絡(luò)運(yùn)營(yíng)系統(tǒng)面臨排障效率低、跨專(zhuān)業(yè)故障定位困難、排障周期長(zhǎng)等諸多問(wèn)題,越來(lái)越不能夠滿足智能運(yùn)維的需要。為減輕一線維護(hù)人員的工作量,提升網(wǎng)絡(luò)智能化運(yùn)維水平,打造智能排障創(chuàng)新能力,顯得尤為重要。
根據(jù)智能運(yùn)維建設(shè)需求,智能運(yùn)維創(chuàng)新能力由一系列關(guān)鍵網(wǎng)絡(luò)能力構(gòu)成,需要打造網(wǎng)絡(luò)拓?fù)溥€原、跨域故障定位和故障自愈等關(guān)鍵能力。
拓?fù)溥€原即還原網(wǎng)絡(luò)中設(shè)備間的物理連接關(guān)系,以及以此為基礎(chǔ)的業(yè)務(wù)真實(shí)路徑和流向。通過(guò)探針自動(dòng)采集和準(zhǔn)確還原全網(wǎng)跨域物理拓?fù)?、業(yè)務(wù)路徑,提供拓?fù)鋽?shù)據(jù)服務(wù),支撐網(wǎng)絡(luò)和業(yè)務(wù)可視化,提高維護(hù)與故障分析效率和準(zhǔn)確率,縮短故障處理時(shí)長(zhǎng)。拓?fù)溥€原算法如圖1所示。
圖1 拓?fù)溥€原算法
結(jié)合實(shí)際的網(wǎng)絡(luò)情況,采用OSS上單域鏈路解析、IP+MASK 計(jì)算、帶約束條件的最短路徑計(jì)算、環(huán)路識(shí)別計(jì)算等算法。
a)OSS 單域鏈路解析:從設(shè)備網(wǎng)管上獲取單域,比如IPRAN、DWDM 組網(wǎng)的內(nèi)部物理連接信息、電路配置信息等,并解析入庫(kù)。
b)IP+MASK 計(jì)算算法:基于TCP/IP 協(xié)議,三層IP網(wǎng)絡(luò)中互連的一組三層接口,只有處于同一IP 子網(wǎng)中時(shí),報(bào)文才能轉(zhuǎn)發(fā)互通。通過(guò)對(duì)接口配置的IP 地址及對(duì)應(yīng)的子網(wǎng)掩碼進(jìn)行“二進(jìn)制相與計(jì)算”,可以得到每個(gè)接口對(duì)應(yīng)的IP 子網(wǎng)號(hào),若兩邊子網(wǎng)號(hào)一致,則可以認(rèn)為它們?nèi)龑踊ミB。
c)最短路徑計(jì)算算法:對(duì)于L3 VPN、VPLS、Na?tive IP 組網(wǎng)下的動(dòng)態(tài)網(wǎng)絡(luò),設(shè)備通過(guò)IGP 的最短路徑進(jìn)行路由計(jì)算,運(yùn)維人員在手動(dòng)創(chuàng)建業(yè)務(wù)時(shí),一般選定最短路徑進(jìn)行業(yè)務(wù)創(chuàng)建,以節(jié)省網(wǎng)絡(luò)資源的占用。通過(guò)模擬系統(tǒng)自動(dòng)創(chuàng)建業(yè)務(wù)或運(yùn)維人員手動(dòng)創(chuàng)建業(yè)務(wù),系統(tǒng)自動(dòng)判斷或手動(dòng)選擇業(yè)務(wù)的源宿節(jié)點(diǎn),用帶約束條件的最短路徑算法(如Dijkstra 算法)完成現(xiàn)網(wǎng)業(yè)務(wù)的最短路徑推導(dǎo)計(jì)算。約束條件基于設(shè)備類(lèi)型、源宿網(wǎng)元列表、設(shè)備名稱(chēng)關(guān)鍵字、VPN Peer、基站和網(wǎng)關(guān)等進(jìn)行設(shè)定。
d)環(huán)路識(shí)別計(jì)算算法:結(jié)合通信組網(wǎng)特點(diǎn),將其綜合融入到深度優(yōu)先搜索算法(Depth First Search,DFS)中,通過(guò)網(wǎng)絡(luò)分層后,進(jìn)行圖集抽取,并結(jié)合深度優(yōu)先搜索算法,識(shí)別環(huán)鏈,過(guò)濾重復(fù)環(huán)后,識(shí)別最小環(huán)。
現(xiàn)網(wǎng)中,有很多故障是由于其他專(zhuān)業(yè)引起的關(guān)聯(lián)故障,需要跨域診斷定位根因派單,否則簡(jiǎn)單按各專(zhuān)業(yè)的告警派單會(huì)出現(xiàn)較多的重復(fù)派單。
比如某日某基站機(jī)房報(bào)市電故障,導(dǎo)致機(jī)房關(guān)聯(lián)的1個(gè)IPRAN 退服,4個(gè)基站退服。故障所關(guān)聯(lián)的3個(gè)專(zhuān)業(yè)(傳輸、動(dòng)環(huán)、無(wú)線)派發(fā)故障工單3 張,而實(shí)際故障根因是動(dòng)環(huán)專(zhuān)業(yè)停電??缬蛟\斷定位根因派單如圖2所示。
圖2 跨域診斷定位根因派單
因此,如何定位由于其他專(zhuān)業(yè)引起的跨域故障定位問(wèn)題,分析故障產(chǎn)生原因和故障處理顯得尤為重要。故障定位基于拓?fù)浣?,依?lài)故障時(shí)空類(lèi)、根因推導(dǎo)算法,可實(shí)現(xiàn)跨域故障根因的快速定位,流程如圖3所示。
圖3 跨域故障定位流程
跨域故障定位,涉及拓?fù)浣<夹g(shù),從空間維度將傳輸網(wǎng)絡(luò)用數(shù)學(xué)拓?fù)淠P兔枋霾⒐┛缬蚰K調(diào)用處理,從基站開(kāi)始,分段建立傳輸拓?fù)?。跨域故障定位主要步驟如下。
a)抽取通用TOPO 路徑表(link)數(shù)據(jù),計(jì)算TOPO二層資源模型。
b)RCA 引擎調(diào)用Redis 高速緩存中的TOPO 二層資源數(shù)據(jù)。
c)篩選需要進(jìn)行根因分析的告警信息。
d)抽取告警字段中的值組成資源模型ID,如該字段在資源庫(kù)中存在,則建立告警和TOPO 資源模型的映射關(guān)系。
e)標(biāo)注TOPO路徑中受影響的資源節(jié)點(diǎn)。
f)分析受影響的資源節(jié)點(diǎn)是否出現(xiàn)對(duì)應(yīng)的告警。
g)將關(guān)聯(lián)結(jié)果回寫(xiě)到告警的字段。
根據(jù)平時(shí)處理故障的經(jīng)驗(yàn)積累,將專(zhuān)家經(jīng)驗(yàn)轉(zhuǎn)化為平臺(tái)自動(dòng)化診斷能力。比如:以前需要人工憑經(jīng)驗(yàn)對(duì)同一時(shí)間、同一區(qū)域、同一機(jī)房等資源和告警信息進(jìn)行拓?fù)潢P(guān)聯(lián)分析定位告警,現(xiàn)在將專(zhuān)家經(jīng)驗(yàn)規(guī)則統(tǒng)一梳理匯總,利用系統(tǒng)AI能力生成動(dòng)力、無(wú)線、傳輸跨域關(guān)聯(lián)場(chǎng)景自動(dòng)診斷邏輯規(guī)則。系統(tǒng)根據(jù)告警類(lèi)別自動(dòng)適配診斷場(chǎng)景規(guī)則,自動(dòng)發(fā)起診斷指令,根據(jù)診斷查詢結(jié)果自動(dòng)進(jìn)行邏輯判斷,智能定位故障根因,并快速呈現(xiàn)給一線維護(hù)人員,實(shí)現(xiàn)對(duì)故障精準(zhǔn)定位,提高故障處理效率。
基于集團(tuán)架構(gòu)進(jìn)行研發(fā),北向告警對(duì)接集團(tuán)智能監(jiān)控,南向由統(tǒng)一指令平臺(tái)對(duì)接網(wǎng)管監(jiān)控中心,分析基站側(cè)和射頻單元的主告警與子告警之間關(guān)聯(lián)信息,以及參數(shù)閾值等性能類(lèi)異常的故障信息。統(tǒng)一指令平臺(tái)通過(guò)CLI、MML、NETCONF 等接口對(duì)可以復(fù)位恢復(fù)的故障下發(fā)相應(yīng)的修復(fù)指令,實(shí)現(xiàn)無(wú)線單域故障自愈,減少維護(hù)人員上站次數(shù),縮短故障歷時(shí)。故障自愈能力流程如圖4所示。
圖4 故障自愈能力流程
平臺(tái)遵循集團(tuán)OSS 集約化框架,按照模塊化結(jié)構(gòu)設(shè)計(jì),由采集層(告警和資源采集探針)、業(yè)務(wù)處理層(RCA 分析模塊、告警診斷模塊、算法庫(kù)、流程策略處理模塊)和數(shù)據(jù)展現(xiàn)層(數(shù)據(jù)標(biāo)準(zhǔn)化裝配及轉(zhuǎn)發(fā))構(gòu)成,平臺(tái)框架如圖5 所示。智能排障平臺(tái)各功能模塊與統(tǒng)一指令平臺(tái)、資源平臺(tái)、EMS(網(wǎng)管系統(tǒng))、智能監(jiān)控系統(tǒng)和沃工單系統(tǒng)通過(guò)專(zhuān)用接口進(jìn)行數(shù)據(jù)交互和協(xié)同,實(shí)現(xiàn)網(wǎng)絡(luò)告警自動(dòng)采集、自動(dòng)化分析處理和結(jié)果輸出。其主要工作機(jī)制流程包括通過(guò)告警采集探針(Socket 協(xié)議)與ESB 對(duì)接,接收智能監(jiān)控轉(zhuǎn)發(fā)的實(shí)時(shí)告警;跨域自動(dòng)診斷模塊通過(guò)從資源管理平臺(tái)采集資管數(shù)據(jù),還原出業(yè)務(wù)路徑和告警采集探針接收的告警,并進(jìn)行跨域根因定位;故障自動(dòng)愈合模塊通過(guò)告警觸發(fā)診斷流程,通過(guò)指令探針與指令平臺(tái)對(duì)接,將指令下發(fā)至各個(gè)專(zhuān)業(yè)網(wǎng)管,實(shí)現(xiàn)故障診斷和故障自愈等功能。
圖5 平臺(tái)框架
通過(guò)挖掘算法進(jìn)行分析,實(shí)現(xiàn)對(duì)故障預(yù)處理流程的智能發(fā)現(xiàn),形成故障處理規(guī)則庫(kù),根據(jù)規(guī)則庫(kù)實(shí)現(xiàn)故障自動(dòng)診斷?;诠收蠘?shù)、AI 診斷結(jié)果分析出的故障原因,評(píng)估是否可進(jìn)行遠(yuǎn)程自愈恢復(fù),對(duì)于可以進(jìn)行遠(yuǎn)程自愈的設(shè)備告警,通過(guò)下發(fā)指令到設(shè)備,查詢?cè)O(shè)備軟硬件狀態(tài)、配置信息、License 等信息后,定位出故障原因。對(duì)無(wú)線3G/4G/5G 設(shè)備下發(fā)指令(如重啟設(shè)備、修改配置信息等)進(jìn)行遠(yuǎn)程故障恢復(fù),達(dá)到故障自動(dòng)診斷和自動(dòng)恢復(fù)的效果。
在傳送網(wǎng)故障中,之前只是采集告警信息來(lái)自動(dòng)派發(fā)工單。工單到達(dá)維護(hù)人員手中時(shí),只有散亂的數(shù)個(gè)工單,其中包含一堆散亂的告警信息,沒(méi)有用來(lái)判斷告警之間邏輯關(guān)系的網(wǎng)絡(luò)拓?fù)湫畔ⅲ瑹o(wú)法定位故障。因此必須由人工將告警信息與拓?fù)鋱D進(jìn)行比對(duì)分析后,推斷告警間的邏輯關(guān)系,定位出故障的根因告警再進(jìn)行人工派單。具備環(huán)路自動(dòng)識(shí)別能力后,系統(tǒng)根據(jù)資源信息自動(dòng)識(shí)別出傳輸環(huán)路,進(jìn)而生成告警間的關(guān)聯(lián)關(guān)系,按根因告警自動(dòng)壓縮派單,并自動(dòng)定位故障點(diǎn)。
以XX/YY 設(shè)備離線為例,在實(shí)施前,通過(guò)人工定位環(huán)路情況,手工派發(fā)1張傳送故障工單,且無(wú)線自動(dòng)派發(fā)11 張故障工單。實(shí)施后,系統(tǒng)自動(dòng)判斷根因是1環(huán)斷2 點(diǎn):2020?07?11 21:31:16,XX?ATN950B?CSG和YY?ATN950B?CSG 報(bào)設(shè)備離線,導(dǎo)致環(huán)上8 個(gè)IPRAN退服,27個(gè)基站退服,自動(dòng)派發(fā)1張故障工單。
通過(guò)環(huán)路自動(dòng)識(shí)別,對(duì)故障根因進(jìn)行分析后,只派出1張故障工單,這不僅壓縮了無(wú)效工單,減少了維護(hù)人員工作量,而且由人工派單人工定位改為自動(dòng)派單自動(dòng)定位,大大提升了故障處理效率。
同時(shí),實(shí)現(xiàn)環(huán)路自動(dòng)識(shí)別也是后續(xù)實(shí)現(xiàn)拓?fù)溥€原(故障工單中包含除傳送網(wǎng)外還有無(wú)線、動(dòng)環(huán)、數(shù)據(jù)等專(zhuān)業(yè)網(wǎng)絡(luò)的拓?fù)湫畔ⅲ?、多?zhuān)業(yè)跨域關(guān)聯(lián)分析及故障拓?fù)淇梢暬ü收瞎沃谐尸F(xiàn)拓?fù)鋱D及端到端路由)等重要功能的前提和基礎(chǔ)。
以跨域關(guān)聯(lián)告警為例,方案實(shí)施前,傳輸人工定位故障環(huán)路情況,手工派發(fā)11 張故障工單,并且無(wú)動(dòng)力相關(guān)信息。方案實(shí)施后,結(jié)合無(wú)線、傳輸、動(dòng)環(huán)3 個(gè)專(zhuān)業(yè)的告警信息,成功診斷某基站機(jī)房報(bào)動(dòng)環(huán)電源告警,導(dǎo)致5個(gè)IPRAN斷鏈,10個(gè)基站退服。
通過(guò)跨域關(guān)聯(lián)告警能力識(shí)別,成功定位根因是由于承載網(wǎng)管系統(tǒng)告警,網(wǎng)元斷鏈信號(hào)丟失(LOS),導(dǎo)致匯聚節(jié)點(diǎn)及其關(guān)聯(lián)的傳輸16 個(gè)IPRAN 退服,83 個(gè)基站退服,最后將320條告警壓縮至1張工單。
以定位診斷、壓縮故障時(shí)長(zhǎng)為例,從多條網(wǎng)管告警判定出根因告警為CPRI接口異常告警,診斷指令逐步排除電源和單板自身問(wèn)題,最后定位為光模塊故障,從而減少人力投入,壓縮故障時(shí)長(zhǎng)。
通過(guò)基于機(jī)器學(xué)習(xí)+專(zhuān)家經(jīng)驗(yàn)生成故障分析樹(shù),系統(tǒng)自動(dòng)診斷并下發(fā)修復(fù)指令,實(shí)現(xiàn)故障自愈,從而減少上站次數(shù)。2020 年11 月11 日09 點(diǎn)52 分,某小區(qū)出現(xiàn)小區(qū)不可用主告警及多條衍生告警,經(jīng)過(guò)系統(tǒng)診斷和復(fù)位自愈處理,09點(diǎn)59分告警清除。
從第3 章試點(diǎn)效果案例分析可見(jiàn),基于AI 能力的智能運(yùn)維創(chuàng)新平臺(tái)對(duì)故障定位、根因分析、故障自愈方面具有顯著成效,在提升效率、支撐市場(chǎng)和提升網(wǎng)絡(luò)能力這3個(gè)方面取得了顯著成效。
建設(shè)智能運(yùn)維創(chuàng)新能力積極響應(yīng)了數(shù)字化轉(zhuǎn)型要求,提升了網(wǎng)絡(luò)智能化運(yùn)營(yíng)水平,并推動(dòng)了網(wǎng)絡(luò)智能化應(yīng)用工具在網(wǎng)絡(luò)運(yùn)營(yíng)生產(chǎn)中的使用。該創(chuàng)新平臺(tái)最早實(shí)現(xiàn)功能達(dá)標(biāo)上線,無(wú)線基站智能診斷實(shí)現(xiàn)從零到全覆蓋,覆蓋率達(dá)100%(超出中國(guó)聯(lián)通集團(tuán)要求指標(biāo)15%),故障診斷方式實(shí)現(xiàn)從人工到自動(dòng),診斷成功率為94%(超出中國(guó)聯(lián)通集團(tuán)要求指標(biāo)14%),跨域工單和告警壓縮率達(dá)到87%,告警準(zhǔn)確性為99.5%,故障修復(fù)時(shí)長(zhǎng)下降12%,在行業(yè)內(nèi)處領(lǐng)先地位。
通過(guò)將環(huán)路識(shí)別、診斷自愈等創(chuàng)新手段應(yīng)用于單域19 類(lèi)、跨域8 類(lèi)網(wǎng)絡(luò)生產(chǎn)故障場(chǎng)景,提升一線支撐和一線經(jīng)驗(yàn)指導(dǎo)水平,取得支撐市場(chǎng)、賦能一線的良好效果,系統(tǒng)功能實(shí)用性突出。
通過(guò)智能運(yùn)維故障工單壓縮,提升工單壓縮率,工單量減少15%~20%,年均減少維護(hù)成本650 萬(wàn)元。試點(diǎn)可自動(dòng)定位故障根因,故障診斷成功率已達(dá)到94%,減少故障修復(fù)時(shí)長(zhǎng)10~20 min。結(jié)合智能監(jiān)控和指令平臺(tái)的運(yùn)用,實(shí)現(xiàn)單域故障自愈,對(duì)小區(qū)、斷站、射頻單元告警進(jìn)行自動(dòng)愈合,自愈率達(dá)到5%,減少上站耗時(shí)2 592 h。整體試點(diǎn)效果如表1 所示,故障派單從最基礎(chǔ)的自動(dòng)化—告警—工單模式,通過(guò)智能運(yùn)維平臺(tái),實(shí)現(xiàn)了智能化—故障—工單模式,具有故障智能定位以及原因分析的能力。
表1 整體試點(diǎn)效果
目前,智能運(yùn)維系統(tǒng)經(jīng)過(guò)建設(shè)完善,一直穩(wěn)定運(yùn)行。年處理告警量達(dá)150 余萬(wàn)次,覆蓋網(wǎng)元達(dá)8 萬(wàn)余個(gè),涉及資源量達(dá)24萬(wàn)條,基站設(shè)備54 000余個(gè)、傳輸端口143 000 余個(gè)、傳輸拓?fù)?1 000 余條、動(dòng)力機(jī)房30 000 多個(gè),涉及算法和關(guān)聯(lián)規(guī)則共53 條。后續(xù)計(jì)劃拓展覆蓋更多專(zhuān)業(yè)域、豐富完善專(zhuān)家經(jīng)驗(yàn)規(guī)則,通過(guò)不斷迭代優(yōu)化智能排障和智能監(jiān)控關(guān)聯(lián)規(guī)則,從網(wǎng)絡(luò)拓?fù)?、時(shí)空方面進(jìn)一步深化告警關(guān)聯(lián)邏輯、壓縮工單,逐步達(dá)到故障智能診斷和根因定位的全專(zhuān)業(yè)覆蓋,實(shí)現(xiàn)智能化一故障一工單模式,對(duì)最終實(shí)現(xiàn)故障工單全流程自動(dòng)閉環(huán)管控、網(wǎng)絡(luò)態(tài)勢(shì)感知自動(dòng)預(yù)測(cè)、故障隱患自動(dòng)發(fā)現(xiàn)處理和業(yè)務(wù)服務(wù)等級(jí)協(xié)議(SLA)端到端可視等網(wǎng)絡(luò)自智能力,構(gòu)建網(wǎng)絡(luò)智慧運(yùn)營(yíng)體系有著重要意義。