薛 銳 中國(guó)移動(dòng)通信集團(tuán)黑龍江有限公司運(yùn)維管理部主任
劉春華 中國(guó)移動(dòng)通信集團(tuán)黑龍江有限公司綜合室分析員
王景堯 中國(guó)信息通信研究院技術(shù)與標(biāo)準(zhǔn)研究所高級(jí)工程師
一種新型網(wǎng)絡(luò)告警管理系統(tǒng)設(shè)計(jì)
薛銳中國(guó)移動(dòng)通信集團(tuán)黑龍江有限公司運(yùn)維管理部主任
劉春華中國(guó)移動(dòng)通信集團(tuán)黑龍江有限公司綜合室分析員
王景堯中國(guó)信息通信研究院技術(shù)與標(biāo)準(zhǔn)研究所高級(jí)工程師
網(wǎng)絡(luò)故障的解決很大程度上依賴網(wǎng)絡(luò)告警管理和快速診斷,高效的網(wǎng)絡(luò)故障管理對(duì)保障網(wǎng)絡(luò)正常運(yùn)行、提高網(wǎng)絡(luò)穩(wěn)定性具有重要作用。本文基于模擬退火的人工神經(jīng)網(wǎng)絡(luò)技術(shù)對(duì)網(wǎng)絡(luò)告警信息進(jìn)行管理,通過(guò)聯(lián)想記憶的方式發(fā)掘出告警信息背后的真實(shí)原因。本文所提出的算法已經(jīng)在電信運(yùn)營(yíng)商的實(shí)際網(wǎng)絡(luò)中得到了應(yīng)用,并取得了較好的效果。
電信網(wǎng)絡(luò)管理 告警分析 模擬退火
隨著我國(guó)信息服務(wù)的不斷發(fā)展,電信網(wǎng)絡(luò)的穩(wěn)定運(yùn)行已經(jīng)成為保障民生的重要任務(wù)。因此,當(dāng)網(wǎng)絡(luò)發(fā)生故障時(shí),運(yùn)營(yíng)商必須準(zhǔn)確地檢測(cè)到故障,在最短時(shí)間內(nèi)找到網(wǎng)絡(luò)故障的原因,以最快的速度解決網(wǎng)絡(luò)故障,修復(fù)網(wǎng)絡(luò)故障,確保通信網(wǎng)絡(luò)正常穩(wěn)定的運(yùn)行。
網(wǎng)絡(luò)故障的解決很大程度上依賴網(wǎng)絡(luò)告警管理和快速診斷,高效的網(wǎng)絡(luò)故障管理對(duì)保障網(wǎng)絡(luò)正常運(yùn)行、提高網(wǎng)絡(luò)穩(wěn)定性具有重要作用。然而,由于電信網(wǎng)絡(luò)規(guī)模越來(lái)越大,一旦通信網(wǎng)絡(luò)出現(xiàn)的故障,往往會(huì)引發(fā)海量告警事件,形成“告警風(fēng)暴”,使故障被淹沒(méi)在大量的告警信息中而難以及時(shí)發(fā)現(xiàn)。與此同時(shí),告警信息本身不確定又加大了故障診斷的難度。
網(wǎng)絡(luò)故障管理的關(guān)鍵就是對(duì)告警信息進(jìn)行相關(guān)性分析。迄今為止,告警的相關(guān)性的研究主要基于專家系統(tǒng),通過(guò)預(yù)先設(shè)定的規(guī)則是進(jìn)行分析最常用的方法之一。但是,規(guī)則庫(kù)的建立過(guò)分依賴于專家的實(shí)踐經(jīng)驗(yàn),具有極大的主觀色彩且無(wú)法隨著網(wǎng)絡(luò)的改變而實(shí)時(shí)更新。因此,隨著網(wǎng)絡(luò)日益復(fù)雜,這種方法已經(jīng)很難滿足當(dāng)前電信網(wǎng)絡(luò)的需要。
針對(duì)以上問(wèn)題,本文基于模擬退火的人工神經(jīng)網(wǎng)絡(luò)技術(shù)對(duì)網(wǎng)絡(luò)告警信息進(jìn)行管理,通過(guò)聯(lián)想記憶的方式發(fā)掘出告警信息背后的真實(shí)原因。本文所提出的算法已經(jīng)在電信運(yùn)營(yíng)商的實(shí)際網(wǎng)絡(luò)中得到了應(yīng)用,并取得了較好的效果,本文成果對(duì)于相關(guān)研究的開(kāi)展有著很好的借鑒意義。
在通信網(wǎng)絡(luò)中,所有網(wǎng)絡(luò)故障都可以視為一些最基本的“原子”網(wǎng)絡(luò)故障單獨(dú)或疊加產(chǎn)生的。因此,網(wǎng)絡(luò)故障可以看作是通過(guò)網(wǎng)絡(luò)所表現(xiàn)出來(lái)的“行為”來(lái)判斷其背后的故障組成。這可以看作是類似的旅行商問(wèn)題(TSP)、最短路徑問(wèn)題這樣的一類最優(yōu)化問(wèn)題,即通過(guò)優(yōu)化得到網(wǎng)絡(luò)故障原因的“最優(yōu)”組成,其具體的作用機(jī)制可以由圖1所示模式描述。
圖1 網(wǎng)絡(luò)告警與網(wǎng)絡(luò)故障的關(guān)聯(lián)關(guān)系網(wǎng)絡(luò)
上述問(wèn)題是運(yùn)籌學(xué)和組合優(yōu)化領(lǐng)域中的NP問(wèn)題,相關(guān)領(lǐng)域已經(jīng)積累了大量的理論研究,但是其在相關(guān)行業(yè)上的應(yīng)用依然是一個(gè)巨大的難題。近年來(lái),人們提出了一些不依賴于具體問(wèn)題的直接搜索方法。例如,模擬退火算法(SimulatedAnnealing,SA)就是近年來(lái)備受重視的一類軟計(jì)算方法。
模擬退火算法是1983年5.KirkPatrick首次提出的,其可以求解各類非線性問(wèn)題,且常常以較大概率求得近似解,具有很強(qiáng)的工程應(yīng)用意義。同時(shí),這種方法對(duì)目標(biāo)函數(shù)和約束函數(shù)要求較少,因此其在結(jié)構(gòu)優(yōu)化中顯得尤為重要。
模擬退火算法在搜索策略上與傳統(tǒng)的梯度搜索方法不同,該方法通過(guò)引入適當(dāng)?shù)碾S機(jī)因素,來(lái)模擬物理系統(tǒng)退火過(guò)程的自然機(jī)理?!巴嘶稹钡倪^(guò)程就是不僅接收使目標(biāo)函數(shù)變“好”的步驟,同時(shí)也以一定的概率接受使目標(biāo)函數(shù)值變“差”。模擬退火算法通過(guò)對(duì)物理過(guò)程的模擬提高了算法的可行性,對(duì)于工程實(shí)踐有著巨大的指導(dǎo)意義。
(1)網(wǎng)絡(luò)告警的預(yù)處理
在真實(shí)網(wǎng)絡(luò)中,網(wǎng)絡(luò)告警是多種信息的組合。根據(jù)ITU-TX.733標(biāo)準(zhǔn),告警一般含有以下方面的屬性信息:設(shè)備名稱、設(shè)備類型、告警級(jí)別、告警類型、告警狀態(tài)、告警時(shí)間等。如何選擇告警屬性來(lái)分析通信網(wǎng)絡(luò)中的故障信息,是告警管理的一項(xiàng)重要任務(wù)。
在通信網(wǎng)絡(luò)中,告警與故障之間的關(guān)系錯(cuò)綜復(fù)雜,并非一一對(duì)應(yīng)的關(guān)系,即在一個(gè)復(fù)雜的通信網(wǎng)絡(luò)中,僅僅通過(guò)告警信息無(wú)法直接確定出現(xiàn)的故障。因此,需要對(duì)不同告警之間的關(guān)聯(lián)性進(jìn)行挖掘,依據(jù)告警的特征定義來(lái)確定網(wǎng)絡(luò)故障的根源。
然而,僅僅原始告警信息挖掘網(wǎng)絡(luò)故障的準(zhǔn)確率依然較差。因此,除了對(duì)告警屬性的提取,還需要對(duì)告警信息進(jìn)行預(yù)處理,使之轉(zhuǎn)化成為適合網(wǎng)絡(luò)告警合并的“告警事務(wù)”。
所謂“告警事務(wù)”是指對(duì)原始告警信息進(jìn)行的時(shí)間同步化處理后,得到的告警項(xiàng)集合。例如,對(duì)于觀察時(shí)段,用滑動(dòng)步長(zhǎng)Δs在時(shí)間軸上進(jìn)行推移,開(kāi)始下一個(gè)時(shí)間窗口進(jìn)行告警事務(wù)的提取。如圖2所示,其中,W1,W2,…,W5告警事件包括A、B、C、D共4種,隨著時(shí)間窗口的滑動(dòng),可以得到不同的告警事務(wù)。
其中,W1,W2,…,W5為取的告警事務(wù),通過(guò)將同一時(shí)間窗口內(nèi)的告警合并。形成含有一定歷史記錄的“事務(wù)”信息。從而將原本離散、孤立的告警變換成為定量、可處理的事件單元,并為后期的告警管理提供可靠的前提。
(2)模擬退火在告警關(guān)聯(lián)中的應(yīng)用
構(gòu)造起告警事務(wù)后,需要對(duì)告警與故障之間的關(guān)聯(lián)進(jìn)行標(biāo)注,來(lái)描述告警與故障之間的相對(duì)重要性。告警與故障之間的關(guān)系可以通過(guò)前文所述的網(wǎng)絡(luò)結(jié)果進(jìn)行表征。通過(guò)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)的定量化構(gòu)建,就可以得到網(wǎng)絡(luò)故障與告警事務(wù)之間的相關(guān)度和影響性,使之更接近于真實(shí)網(wǎng)絡(luò)中告警產(chǎn)生的原因,挖掘出頻繁度偏低而興趣度偏高的關(guān)聯(lián)信息,同時(shí)也解決了告警信息不確定、不完整等問(wèn)題。
圖2 網(wǎng)絡(luò)告警事務(wù)的生成方式
為了解決上述問(wèn)題,本文采用模擬退火的方法對(duì)故障與告警之間的關(guān)聯(lián)進(jìn)行分析。在物理中,讓多粒子系統(tǒng)達(dá)到最低能量的方法稱之為“退火”。具體過(guò)程為:更新系統(tǒng)的狀態(tài)序列:設(shè)系統(tǒng)中某粒子相初始狀態(tài)i,其對(duì)應(yīng)能量為Ei;選取其中某個(gè)粒子產(chǎn)生微小變化,得到一個(gè)新?tīng)顟B(tài)j,對(duì)應(yīng)能量Ej;如果,則更新?tīng)顟B(tài)。最終系統(tǒng)處于狀態(tài)i和狀態(tài)j幾率比值等于的玻爾茲曼因子,即:
其中,P(t)在溫度t時(shí)的粒子能量為Ei的概率分布函數(shù),KB為玻爾茲曼常數(shù)為分配函數(shù)。
設(shè)L(S,f)為優(yōu)化問(wèn)題中的一個(gè)實(shí)例,S表示解空間,f:S→R表示解空間到實(shí)數(shù)域的映射,t為模擬退火過(guò)程中溫度的控制參數(shù)。設(shè)L(S,f)中存在最優(yōu)解,f(i)、f(j)分別是某對(duì)應(yīng)于i、j目標(biāo)函數(shù)值,則備選解由i過(guò)渡到j(luò)的概率為:
對(duì)于本文所述的告警合并這一“最優(yōu)化”問(wèn)題,其本質(zhì)是一種學(xué)習(xí)問(wèn)題,即通過(guò)訓(xùn)練數(shù)據(jù)對(duì)故障和告警的相互影響關(guān)系進(jìn)行分析。具體而言,假設(shè)故障與告警之間相關(guān)的實(shí)際概率分布為Q(α),模擬退火的任務(wù)就是通過(guò)隨機(jī)仿真獲得給定樣本的概率分布P(α)用來(lái)對(duì)分布Q(α)進(jìn)行學(xué)習(xí),其學(xué)習(xí)的精度可由Kullback-Leibler距離來(lái)衡量:
告警合并的學(xué)習(xí)的過(guò)程是基于相對(duì)熵的梯度下降算法,即對(duì)于初始網(wǎng)絡(luò),按照下式更新結(jié)構(gòu)中的每一個(gè)邊的權(quán)重(概率):
其中,η是學(xué)習(xí)的步長(zhǎng),注意到在前文構(gòu)建的連接告警和故障的網(wǎng)絡(luò)結(jié)構(gòu)中,P(α)具有固有明確的權(quán)值構(gòu)成,而Q(α)則不然。因此,對(duì)于相鄰的節(jié)點(diǎn)集合(α,β)有:
其中,Si(α,β)表示系統(tǒng)處于狀態(tài)i時(shí)的網(wǎng)絡(luò)連接結(jié)構(gòu)。在學(xué)習(xí)過(guò)程中,通過(guò)不斷減低溫度使系統(tǒng)“活躍”程度逐步降低,最終使得系統(tǒng)趨于收斂。因此,通過(guò)對(duì)給定樣本的學(xué)習(xí),就可以定量地給出網(wǎng)絡(luò)故障導(dǎo)致告警的概率。
通過(guò)訓(xùn)練好的網(wǎng)絡(luò)可以對(duì)告警背后的網(wǎng)絡(luò)故障進(jìn)行判斷,不僅可以容易地實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)告警的合并,同時(shí)可以直接向網(wǎng)絡(luò)管理人員發(fā)送更容易理解的網(wǎng)絡(luò)故障判斷,從而提升網(wǎng)絡(luò)管理的效率,并極大降低網(wǎng)絡(luò)管理的開(kāi)銷。
(3)算法驗(yàn)證
為了驗(yàn)證本文所提出算法的有效性,采用天津移動(dòng)的現(xiàn)網(wǎng)數(shù)據(jù)對(duì)告警進(jìn)行分析。通過(guò)對(duì)10萬(wàn)條告警數(shù)據(jù)的分析,通過(guò)模擬退火算法構(gòu)建告警—故障的對(duì)應(yīng)網(wǎng)絡(luò)結(jié)構(gòu),并基于此結(jié)構(gòu)對(duì)告警樣本進(jìn)行分析。
在訓(xùn)練中,對(duì)于某一個(gè)告警事務(wù)的故障判斷學(xué)習(xí)過(guò)程如圖3所示,其中橫縱兩軸代表了該告警事務(wù)為故障1和故障2的概率??梢钥吹剑S著訓(xùn)練次數(shù)的不斷增長(zhǎng),對(duì)于該告警事務(wù)的判斷不斷發(fā)生變化,并最終落入結(jié)束點(diǎn)中,即將該告警事務(wù)作為故障1的大概率原因。
同時(shí),本文對(duì)訓(xùn)練樣本和分類準(zhǔn)確地影響進(jìn)行了模擬,結(jié)果如圖4所示??梢钥吹?,隨著訓(xùn)練樣本數(shù)量以指數(shù)提升,本文所提出的算法正確率首先出現(xiàn)了快速提升,繼而保持在70%左右的水平??梢?jiàn),通過(guò)增加訓(xùn)練樣本數(shù)量可以大大提升原有網(wǎng)絡(luò)管理系統(tǒng)的性能。目前,該算法目前已經(jīng)在運(yùn)營(yíng)商實(shí)際的網(wǎng)絡(luò)中得到了初步的推廣和應(yīng)用,并取得了較好的成果。
網(wǎng)絡(luò)故障診斷是網(wǎng)絡(luò)管理功能中的重要組成部分,它負(fù)責(zé)檢測(cè)、收集、處理、分析以及預(yù)測(cè)網(wǎng)絡(luò)中的故障信息。有效的網(wǎng)絡(luò)故障診斷需要對(duì)網(wǎng)絡(luò)告警進(jìn)行有效的處理,并及時(shí)找出網(wǎng)絡(luò)中最關(guān)鍵的故障。本文基于模擬退火的思想提出了一種網(wǎng)絡(luò)告警合并的方法,該方法可以通過(guò)對(duì)告警的分析找到引起告警最大概率的網(wǎng)絡(luò)故障,從而幫助網(wǎng)絡(luò)管理人員更加準(zhǔn)確的對(duì)網(wǎng)絡(luò)進(jìn)行管理和維護(hù)。本文所提出的算法目前已經(jīng)在運(yùn)營(yíng)商的實(shí)際網(wǎng)絡(luò)中進(jìn)行了小規(guī)模驗(yàn)證,并取得了顯著成效。未來(lái)隨著相關(guān)領(lǐng)域的研究和工程化的不斷深入,相關(guān)工作將產(chǎn)生巨大的科研和經(jīng)濟(jì)效益。
圖3 基于模擬退火的網(wǎng)絡(luò)故障判斷訓(xùn)練結(jié)果
圖4 算法準(zhǔn)確率隨樣本數(shù)量變化
2015-10-20)