邵臻磊
摘要:在日常綜合監(jiān)控過程中,一旦產(chǎn)生網(wǎng)絡故障,海量告警集中呈現(xiàn),告警的多種類型導致同一故障源生成多張故障單,影響判斷故障點的時限。為解決告警關(guān)聯(lián)準確率低、查詢效率低的問題,該文基于原有關(guān)聯(lián)算法進行改進,提出新的計數(shù)關(guān)聯(lián)算法,通過增加閾值臨界點的分析,生成新的根源故障,統(tǒng)一關(guān)聯(lián)相關(guān)告警和子故障單,實現(xiàn)跨專業(yè)告警的關(guān)聯(lián)派單,提高維護人員的工作效率,及時排除真正的故障,以達到網(wǎng)絡通信的安全目標。
關(guān)鍵詞:回溯算法;計數(shù)算法;閾值
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2016)04-0056-02
1 概述
隨著通信信息網(wǎng)絡技術(shù)的飛速發(fā)展,通信運營商的全業(yè)務經(jīng)營使網(wǎng)絡規(guī)模不斷發(fā)展,城域網(wǎng)、傳輸網(wǎng)、交換網(wǎng)、核心網(wǎng)、綜合平臺等網(wǎng)管告警激增,為維護全網(wǎng)業(yè)務穩(wěn)定運行,實施告警監(jiān)控[[1]],有效告警分析[[2]],告警數(shù)據(jù)挖掘[[3]],告警關(guān)聯(lián)[[4-5]],及時派發(fā)故障單處理網(wǎng)絡設備告警是網(wǎng)絡質(zhì)量保障的基本要求。
絕大多數(shù)網(wǎng)絡事件來源于網(wǎng)絡設備告警,當上層網(wǎng)絡設備發(fā)生故障時,會產(chǎn)生批量告警,其中多數(shù)是連帶的下聯(lián)的設備產(chǎn)生的衍生告警,在大量的告警產(chǎn)生時,真正重要的根源告警會淹沒在次要告警中,導致監(jiān)控人員的處理不及時,進而導致故障的處理時間增加?,F(xiàn)有的關(guān)聯(lián)告警由于關(guān)聯(lián)效率低、匹配準確率低的問題,在設備擴容告警增加的情況下缺點逐漸被放大,本文基于現(xiàn)有的關(guān)聯(lián)規(guī)則進行優(yōu)化,提出新的計數(shù)關(guān)聯(lián)算法,通過增加閾值分析、設備性能緩存優(yōu)化等措施,提高告警的關(guān)聯(lián)率,從而實現(xiàn)告警的壓縮、整理、統(tǒng)一、歸納,提高監(jiān)控人員判斷告警的準確性和效率,從而保障全網(wǎng)絡的安全穩(wěn)定運行。
2 告警關(guān)聯(lián)機制
2.1告警類型
由于運營商網(wǎng)絡的復雜多樣性,涉及傳輸網(wǎng)、移動交換網(wǎng)、核心網(wǎng)、數(shù)據(jù)城域網(wǎng)、綜合平臺系統(tǒng)等不同業(yè)務和網(wǎng)絡,涵蓋系統(tǒng)服務器和網(wǎng)絡設備等幾十種廠商,比如傳輸網(wǎng)重要告警有:LOS、LOF、光功率異常、網(wǎng)元丟失、網(wǎng)元連通性中斷、單板告警等。移動網(wǎng)重要告警有:基站斷站、失聯(lián)告警、節(jié)點丟失、退服告警、接口告警、SCTP鏈路告警等。核心網(wǎng)重要告警有:LINK down、時鐘告警、網(wǎng)元告警等。數(shù)據(jù)城域網(wǎng)重要告警有:光功率異常、溫度異常、上聯(lián)端口down、CPU使用率過高、非物理層故障等。告警的多樣化呈現(xiàn)使得基層維護人員很難在第一時間判斷故障點,大大增加處理故障的時間。
以上簡單呈現(xiàn)了幾種常見的影響批量故障的不同業(yè)務網(wǎng)的告警表示方式,但是不同廠商的設備故障告警代碼均不同,需仔細甄別,統(tǒng)一收納進入綜合網(wǎng)管系統(tǒng)予以應用,使基層維護人員能統(tǒng)一收集上報告警列表,最終進行不同業(yè)務間的告警匹配及關(guān)聯(lián),統(tǒng)一處理故障單。
2.2現(xiàn)有告警關(guān)聯(lián)算法
由于缺乏有效手段對跨專業(yè)設備的故障告警進行歸納統(tǒng)一整理,導致同一根源故障影響下不同專業(yè)的告警出現(xiàn)重復派單。對此,現(xiàn)有實現(xiàn)告警關(guān)聯(lián)的方法是回溯關(guān)聯(lián)算法[[6-8]]:視新到達的故障告警為根源告警,查詢與該告警相關(guān)的資源數(shù)據(jù)庫和所有歷史告警,判斷是否有歷史告警為該故障引起的關(guān)聯(lián)子告警。但是該算法并不理想,存在以下問題:
1)匹配效率低,即子告警先于根源告警到達才能有效匹配
2)查詢效率低,即查詢過程中計算量巨大,現(xiàn)有數(shù)據(jù)庫和硬件設備難以滿足
3 優(yōu)化告警關(guān)聯(lián)機制
針對原有的回溯關(guān)聯(lián)算法匹配效率低、查詢效率低的缺點,這里提出采用一種新的計數(shù)關(guān)聯(lián)算法:假定到達的故障告警為子告警,查詢并標記上聯(lián)設備,并記錄所有設備單位時間段內(nèi)被標志的次數(shù)。若超過閾值則衍生出新告警,并由新告警對歷史告警進行關(guān)聯(lián)壓縮。
以下為計數(shù)關(guān)聯(lián)算法流程圖:
通過圖1可看出,計數(shù)關(guān)聯(lián)算法重點實現(xiàn)標記故障單的累積,當累積值達到特定閾值時,觸發(fā)系統(tǒng)生成新的根源告警,并生成一張根源故障單,將已有的子告警生成的故障單和后續(xù)判斷為同一上聯(lián)設備影響下的子告警生成的故障單均關(guān)聯(lián)到此根源故障單,進行統(tǒng)一派單維修,這樣就有以下優(yōu)勢:
1) 告警關(guān)聯(lián)匹配效率高:可將根源告警前后所產(chǎn)生的所有告警均統(tǒng)一整理納入根告警。
2) 查詢效率高:通過調(diào)用根源告警涉及上聯(lián)設備比對,并通過緩存設備,無需全網(wǎng)比對,效率值更優(yōu)化。
從圖2可看出,由于資源查詢模塊的增加,降低了綜合資源系統(tǒng)的壓力,提高了查詢效率,針對子告警所涉及的上聯(lián)設備查詢做緩存,并針對設定的閾值分析,產(chǎn)生第5步的衍生告警,通過綜合告警系統(tǒng)關(guān)聯(lián)所有相關(guān)告警,提高匹配效率。
計數(shù)關(guān)聯(lián)算法對于根源告警和子告警到達先后無要求,匹配效率顯著提高。同時計算量也顯著下降。為驗證計數(shù)關(guān)聯(lián)算法優(yōu)化效率的提升,從近3個月的資源數(shù)據(jù)中調(diào)用告警資源:假設綜合資源數(shù)據(jù)庫記錄數(shù)為10萬條,廠商網(wǎng)管告警歷史表記錄數(shù)為100萬條。比較兩種的算法的運算效率。
由表1的對比結(jié)果所用時間顯示:回溯關(guān)聯(lián)算法1258ms>計數(shù)關(guān)聯(lián)算法486ms
計數(shù)關(guān)聯(lián)算法所用時間更少,效率值更高。由于提高了查詢效率,從廠商網(wǎng)管告警歷史數(shù)據(jù)庫中調(diào)用的資源從原有的100萬條明顯減少到1000條,并且在提高告警匹配度的前提下,后續(xù)子告警無需重復計算資源系統(tǒng),直接匹配上聯(lián)相同設備,關(guān)聯(lián)至根源告警,減少計算次數(shù),從而降低計算的時間。使用優(yōu)化計數(shù)關(guān)聯(lián)算法較原有的回溯關(guān)聯(lián)算法效率提高近3倍。
4 結(jié)束語
本文分析了通信網(wǎng)綜合告警系統(tǒng)的告警呈現(xiàn)和關(guān)聯(lián)匹配問題,優(yōu)化研究計數(shù)關(guān)聯(lián)原則,通過緩存設備的增加,提高資源查詢效率和告警匹配正確率,結(jié)合故障處理問題中的實際情況,達到優(yōu)化流程、提高效率、增強用戶感知度的效果。在海量的告警中,如何抓住根本、提高告警關(guān)聯(lián)正確率、快速定位故障點、實施故障的排查與修復仍是運維系統(tǒng)中的重中之重,后續(xù)針對廠商告警翻轉(zhuǎn)頻繁,綜合告警判斷不明確導致系統(tǒng)無法呈現(xiàn)告警的難點,仍將進一步地探究。
參考文獻:
[1] 丘夏.綜合網(wǎng)管告警收集系統(tǒng)的研究與設計[J].企業(yè)科技與發(fā)展,2013(1):11-13.
[2] 石永革,梅玉潔,石峰. 通信網(wǎng)網(wǎng)管告警過濾機制的研究與應用[J].計算機工程與設計,2008,29(9):2169-2171.
[3] 宋丹茹.網(wǎng)絡故障告警與分析系統(tǒng)的研究[J].信息通信,2013(1):100.
[4] 趙丹丹,吳會敏,艾醫(yī).基于通信網(wǎng)絡中U2000網(wǎng)管告警壓縮模型的研究[J].新技術(shù)新工藝,2015,36(8):109-111.
[5] 王省,張小纓.系統(tǒng)告警故障分析的研究與應用[J]. 信息系統(tǒng)工程,2012(10):96-97.
[6] 趙群英.回溯算法及其改進型的分析與比較[J]. 電腦知識與技術(shù),2011,7(22):5436-5438.
[7] 王鳳紅.回溯算法[J].中國現(xiàn)代教育裝備,2011(14):88-90.
[8] Attia El-Fergany,Optimal allocation of multi-type distributed generators using backtracking search optimization algorithm[J]. International Journal of Electrical Power & Energy Systems,2015(64):1197-1205.