國(guó)網(wǎng)北京市順義供電公司 徐 震 呂昕宇 朱達(dá)川 仇遠(yuǎn)航 賈夢(mèng)頔
網(wǎng)絡(luò)設(shè)備出現(xiàn)故障后,關(guān)聯(lián)設(shè)備無(wú)法利用網(wǎng)絡(luò)設(shè)備發(fā)送信息,也不能確定故障實(shí)際情況,在短期內(nèi)會(huì)產(chǎn)生較多的告警信息,主要包括主告警和衍生告警,豐富網(wǎng)管設(shè)備的告警信息,同時(shí)增加了告警處理工作的難度,管理人員很難根據(jù)告警信息確定故障根網(wǎng)元[1]。
當(dāng)前確定故障根網(wǎng)元的過程中主要采用人工分析法和告警關(guān)聯(lián)分析法,此外可劃分告警關(guān)聯(lián)分析法為基于規(guī)則的關(guān)聯(lián)和基于案例的關(guān)聯(lián)等。其中基于專家經(jīng)驗(yàn)和規(guī)則及案例的關(guān)聯(lián)缺乏適應(yīng)性和拓展性,不利于精確性的定位問題;根據(jù)數(shù)據(jù)挖掘和人工神經(jīng)網(wǎng)絡(luò)的關(guān)聯(lián)方法綜合考慮網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)元特性,關(guān)聯(lián)結(jié)構(gòu)缺乏準(zhǔn)確性,因此無(wú)法滿足實(shí)際工作需求。引入新業(yè)務(wù)和新技術(shù)的過程中,不利于發(fā)揮出傳統(tǒng)告警關(guān)聯(lián)的作用。當(dāng)前網(wǎng)絡(luò)監(jiān)控工作運(yùn)營(yíng)中,業(yè)務(wù)增長(zhǎng)和關(guān)聯(lián)處理工作缺乏適應(yīng)性。
不斷增多告警量,卻沒有提高告警監(jiān)控效率,因?yàn)楦婢亢凸收狭恐g缺乏對(duì)應(yīng)性,從而嚴(yán)重浪費(fèi)人力資源。發(fā)生單個(gè)故障將會(huì)產(chǎn)生大量的告警信息,監(jiān)控人員需要逐條處理告警信息,因此延長(zhǎng)了工作時(shí)間,且很難定位根因網(wǎng)元[2]。因?yàn)橥ㄐ啪W(wǎng)絡(luò)具有復(fù)雜的結(jié)構(gòu),同時(shí)涉及到巨大的數(shù)據(jù)量,不斷擴(kuò)大網(wǎng)絡(luò)規(guī)模后將會(huì)增加網(wǎng)絡(luò)異常告警處理難度。持續(xù)性的引入新技術(shù)和新業(yè)務(wù)后將會(huì)加劇網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性,告警信息將會(huì)呈現(xiàn)出爆炸式增長(zhǎng),故障定位難度也會(huì)因此增加,在未來發(fā)展過程中很難提高運(yùn)維效率。
當(dāng)前主要是根據(jù)關(guān)聯(lián)規(guī)則和傳統(tǒng)維護(hù)經(jīng)驗(yàn)實(shí)現(xiàn)告警關(guān)聯(lián)和故障定位,但已缺乏挖掘價(jià)值,而利用基于大數(shù)據(jù)關(guān)聯(lián)算法缺乏精確性,無(wú)法在實(shí)際生產(chǎn)中利用。通過分析多次故障,可根據(jù)告警關(guān)聯(lián)模式和傳統(tǒng)工作經(jīng)驗(yàn)提出基于距離的告警關(guān)聯(lián)大數(shù)據(jù)分析算法。
因?yàn)榫W(wǎng)絡(luò)事件之間缺乏關(guān)聯(lián)性,因此大數(shù)據(jù)分析的核心是利用相關(guān)關(guān)系分析法,量化不同數(shù)據(jù)的數(shù)理關(guān)系,可根據(jù)網(wǎng)絡(luò)時(shí)間段距離分析網(wǎng)絡(luò)時(shí)間的相關(guān)性,通常距離較小說明相關(guān)性較大,因此可根據(jù)距離度量?jī)蓷l告警信息的相關(guān)性[3]。網(wǎng)絡(luò)事件間的發(fā)生事件差和實(shí)踐發(fā)生位置的拓?fù)潢P(guān)系影響到網(wǎng)絡(luò)實(shí)踐距離,針對(duì)告警信息,告警發(fā)生時(shí)間差和發(fā)生位置間拓?fù)渚嚯x關(guān)系關(guān)系到告警距離。因此通過自定義告警距離和自學(xué)習(xí)最優(yōu)距離閾值,利用機(jī)器學(xué)習(xí)算法聚類和分類海量的告警信息,可自動(dòng)關(guān)聯(lián)同一類別的告警。
圖1 基于距離的告警關(guān)聯(lián)算法
根據(jù)告警時(shí)間和現(xiàn)網(wǎng)拓?fù)涠x兩條告警信息的距離:d(a1,a2)=W1×d(t1,t2)+W1×d(ne1,ne2),告警距離數(shù)值d(a1,a2)處于0~1范圍內(nèi),獲得數(shù)值較小說明兩條告警直接具有很強(qiáng)的關(guān)聯(lián)性。如果距離數(shù)值在0.4以內(nèi)說明兩條告警屬于同一種告警;時(shí)間距離d(t1,t2):結(jié)合兩條告警的時(shí)間差判斷是否處于時(shí)間窗t范圍內(nèi),如差值小于時(shí)間窗說明兩條告警具有很強(qiáng)的關(guān)聯(lián)度,反之說明二者缺乏關(guān)聯(lián)性。
網(wǎng)元距離d(ne1,ne2):根據(jù)告警網(wǎng)元,提取告警信息特征和資源數(shù)據(jù),因此計(jì)算網(wǎng)元距離,提取的信息包括網(wǎng)元名稱和網(wǎng)元類型等,網(wǎng)元距離計(jì)算框架主要主要包括兩個(gè)判斷邏輯獨(dú)立的部分,可結(jié)合實(shí)際情況合理調(diào)整[4]。其中第一部分為精細(xì)化計(jì)算網(wǎng)元距離,主要是判斷網(wǎng)元是否相等、是否存在鏈路關(guān)系,需根據(jù)鏈路表完成判斷工作;第二部分是大粒度計(jì)算網(wǎng)元距離。如難以獲得精確性的計(jì)算結(jié)果,需根據(jù)專業(yè)業(yè)務(wù)相關(guān)性邏輯完成判斷??赏卣共⒍ㄖ泼坎糠值臉I(yè)務(wù)邏輯。實(shí)現(xiàn)告警關(guān)聯(lián),需根據(jù)網(wǎng)元類型接口字典表判斷上位樹立的專業(yè)。
根據(jù)告警相異度確定告警距離,利用機(jī)器學(xué)習(xí)算法聚類和分類海量的告警信息。如可利用DBSCAN聚類算法自動(dòng)化定量定簇告警特征。利用K-近鄰分類算法確定輸入樣本最接近的K個(gè)鄰居,因此完成告警分類,每個(gè)告警具有唯一類編號(hào)簇。樣本數(shù)量直接關(guān)系到算法的時(shí)間復(fù)雜度,需要比較樣本個(gè)體[5]。
利用智能監(jiān)控應(yīng)用平臺(tái)主要包括采集和計(jì)算及應(yīng)用三方面:采集層可互通全網(wǎng)故障管理系統(tǒng)和EOMS工單系統(tǒng)告警以及工單數(shù)據(jù);計(jì)算層可聚類和分析海量數(shù)據(jù),同時(shí)可實(shí)時(shí)算法挖掘;應(yīng)用層主要包括PC端和手機(jī)端兩種方式。平臺(tái)上層主要包括多維告警分析和告警實(shí)時(shí)關(guān)聯(lián)以及故障定位。
多維告警分析。接入全網(wǎng)告警,可在多個(gè)維度提取告警特征,因此確定特征向量。在多個(gè)方面訓(xùn)練特征向量可建立預(yù)測(cè)模型,因此確定問題網(wǎng)元,并在日常監(jiān)控生產(chǎn)流程中納入問題網(wǎng)元,閉環(huán)解決問題[6];告警實(shí)時(shí)關(guān)聯(lián)和規(guī)則挖掘。根據(jù)告警時(shí)間和線網(wǎng)拓?fù)涞染S度,建立告警距離核心算法模型,實(shí)時(shí)分析每一條告警,并確定唯一的標(biāo)簽,確定相近時(shí)間內(nèi)網(wǎng)元告警的關(guān)聯(lián)性。根據(jù)平臺(tái)輸出的實(shí)時(shí)關(guān)聯(lián)規(guī)則可精確性的判斷故障,持續(xù)性的優(yōu)化告警關(guān)聯(lián)規(guī)則,可提高告警壓縮比例,故障命中率也會(huì)因此提高;快速定位故障。問題網(wǎng)元具有唯一的故障根網(wǎng)元,根據(jù)告警關(guān)聯(lián)輸出信息可塊定位故障根網(wǎng)元。平臺(tái)利用電信網(wǎng)絡(luò)智能監(jiān)控功能,有利于提高一線網(wǎng)絡(luò)運(yùn)維水平,可專項(xiàng)分析告警和工單等運(yùn)維數(shù)據(jù),一體化的發(fā)現(xiàn)、定位、處理問題。打通網(wǎng)絡(luò)監(jiān)控生產(chǎn)流程的各個(gè)環(huán)節(jié)。
聚合原有關(guān)聯(lián)規(guī)則:以下是2020年12月12日某運(yùn)營(yíng)商4個(gè)試點(diǎn)省運(yùn)行結(jié)果,利用基于距離的告警關(guān)聯(lián)算法,智能監(jiān)控應(yīng)用平臺(tái)可聚合原有規(guī)則:專業(yè)內(nèi)無(wú)線(A?。?、核心(B?。⒊休d(C?。?、傳輸(D?。┘翱鐚I(yè)核心-承載(B?。┑膫鹘y(tǒng)告警關(guān)聯(lián)規(guī)則數(shù)量(個(gè))、新規(guī)則刷領(lǐng)(個(gè))、規(guī)則準(zhǔn)確性驗(yàn)證分別為45/4/>90%,65/3/>90%,17/2/>90%,35/2/>90%,15/4/70%左右(缺乏詳細(xì)的資源數(shù)據(jù))。
提高告警壓縮比:根據(jù)試點(diǎn)省運(yùn)行結(jié)果,通過基于距離的告警關(guān)聯(lián)算法,可提高智能監(jiān)控應(yīng)用平臺(tái)的告警壓縮比。通過不同專業(yè)壓縮比提升數(shù)據(jù)可看出,其中具有明顯提升效果的為核心專業(yè)和承載專業(yè),無(wú)線專業(yè)因?yàn)樵瓉聿渴鹆巳斯ね诰蜿P(guān)聯(lián)規(guī)則,因此壓縮比提升效果并不明顯:專業(yè)內(nèi)無(wú)線(A省)、核心(B省)、承載(C?。?、傳輸(D省)及跨專業(yè)核心-承載(B?。┑脑懈婢瘔嚎s比、目前告警壓縮比分別為3:1/5:1,1.5:1/8:1,1.3:1/10:1,1.1:1/3:1,1.6:1/4:1。
測(cè)試故障案例:2020年5月自動(dòng)重啟某個(gè)MSS,其中55個(gè)網(wǎng)元發(fā)生較多的告警,并可實(shí)現(xiàn)自動(dòng)關(guān)聯(lián),利用原有人工挖掘方式的告警關(guān)聯(lián)規(guī)則很難實(shí)現(xiàn)告警關(guān)聯(lián),利用基于距離的告警關(guān)聯(lián)算法可獲得顯著的告警壓縮效果。
引入資源拓?fù)湫畔ⅲ和ㄟ^建模和量化可自動(dòng)關(guān)聯(lián)相關(guān)告警,故障命中率因此提高。如沒有引入核心網(wǎng)和承載網(wǎng)的直連關(guān)系將會(huì)引發(fā)網(wǎng)元故障。根據(jù)傳統(tǒng)告警關(guān)聯(lián)算法很難關(guān)聯(lián)海量的告警,利用新算法引入pool信息,確定核心網(wǎng)和承載網(wǎng)的直連關(guān)系,可壓縮多條告警為一張工單使工單故障命中率因此提高[7]。
綜上,在今后發(fā)展過程中,需不斷完善智能監(jiān)控應(yīng)用平臺(tái)的功能,滿足一線生產(chǎn)需求。可接入實(shí)時(shí)告警,實(shí)時(shí)掃描和智能分析全專業(yè)告警。引入更加精確的資源信息,并聯(lián)基本信息和工程信息等維度,可更加精確的定位故障。此外可引入人工智能技術(shù),優(yōu)分析告警關(guān)聯(lián)性,在全網(wǎng)應(yīng)用告警關(guān)聯(lián)大數(shù)據(jù)分析算法,提升網(wǎng)絡(luò)監(jiān)控生產(chǎn)的智能化和自動(dòng)化。