[邱傳寧]
隨著電信網(wǎng)絡(luò)云網(wǎng)一體化轉(zhuǎn)型的不斷深入,網(wǎng)絡(luò)設(shè)備的高度集中,各類型設(shè)備硬件及軟件運維壓力持續(xù)增大。在傳統(tǒng)運維模式中,當網(wǎng)絡(luò)運行出現(xiàn)異常,產(chǎn)生告警時,運維管理人員通過告警定位信息,查看網(wǎng)管告警、性能日志去查找和定位故障信息,這種方法已無法滿足面向用戶感知的網(wǎng)絡(luò)網(wǎng)絡(luò)智能運維需求,傳統(tǒng)依賴人工的運維手段逐漸向自動化、智能化的運維手段轉(zhuǎn)變。運維模式逐漸趨向主動監(jiān)測分析業(yè)務(wù)、網(wǎng)絡(luò)、設(shè)備各層面的運行情況,主動發(fā)現(xiàn)網(wǎng)絡(luò)隱患和業(yè)務(wù)質(zhì)量下降趨勢,彌補設(shè)備告警的不足。
與此同時,由于電信運營網(wǎng)絡(luò)的分拆整合,部門的重組調(diào)整,網(wǎng)絡(luò)工程師流動性加大,這就要求將專家維護經(jīng)驗固化和沉淀下來,起到降本增效的作用。還可將固化的電信維護操作案例作為新員工專業(yè)培訓教材,通過經(jīng)典案例的學習,解決新員工培訓上崗周期長的問題。
現(xiàn)有的日志分析技術(shù),主要以網(wǎng)絡(luò)和信息安全審計為目的,對接入平臺終端用戶的登錄情況、設(shè)備操作行為等進行記錄和檢測,審計是否存在繞行等異常登錄,高危的敏感操作是否按單施工,以及其他的違規(guī)操作。
針對上述電信網(wǎng)絡(luò)現(xiàn)狀以及運維訴求的痛點,本文提出了一種基于日志數(shù)據(jù)分析的智能網(wǎng)絡(luò)運維方法,通過分析處理海量操作日志數(shù)據(jù),獲取成功維護經(jīng)驗,從而將優(yōu)秀專家維護經(jīng)驗固化,引入大數(shù)據(jù)和AI 來替代重復工作,解決復雜和難點問題,為提升運營商的運維水平打下夯實基礎(chǔ)。
網(wǎng)絡(luò)設(shè)備硬件、軟件在運維過程中,產(chǎn)生了海量的操作日志數(shù)據(jù),本文以日志采集處理架構(gòu)ELK(ElasticSearch全文檢索數(shù)據(jù)庫、Logstash 日志采集器和Kibana 可視化數(shù)據(jù)搜索)為基礎(chǔ),對日志數(shù)據(jù)進行采集、清洗以及分析。通過操作日志數(shù)據(jù)分析,回溯網(wǎng)絡(luò)設(shè)備故障工單告警產(chǎn)生信息,故障閉環(huán)信息,對于網(wǎng)管所執(zhí)行操作能成功排除故障的案例,獲取其成功維護經(jīng)驗,自動生成專家經(jīng)驗庫,用以指導同類故障處理,并通過預先定義的告警項、觸發(fā)器、故障動作等,做到實時故障預警、故障恢復,評估可實現(xiàn)約10%的網(wǎng)絡(luò)設(shè)備故障自動修復,從而有效提升故障處理的時效性,實現(xiàn)網(wǎng)絡(luò)設(shè)備運維智能化、自動化。
與現(xiàn)有技術(shù)相比,本文利用大數(shù)據(jù)架構(gòu),分析操作日志數(shù)據(jù),回溯故障工單,獲取成功維護經(jīng)驗,提高了運維效率及可靠性,同時自動生成經(jīng)典維護案例,實現(xiàn)運維知識的高效傳遞。
本文介紹的基于操作日志分析的智能運維設(shè)計方法,操作日志分析以大數(shù)據(jù)ELK 平臺為基礎(chǔ),包含了ElasticSearch 全文檢索數(shù)據(jù)庫、Logstash 日志采集器和Kibana 可視化數(shù)據(jù)搜索,系統(tǒng)架構(gòu)設(shè)計如圖1 所示。
圖1 系統(tǒng)架構(gòu)設(shè)計
Logstash 具有實時傳輸能力的數(shù)據(jù)采集引擎,以Logstash 進行日志數(shù)據(jù)、故障工單數(shù)據(jù)的采集和解析,再將數(shù)據(jù)傳送到ElasticSearch 數(shù)據(jù)庫。
ElasticSearch 是一個實時的分布式搜索和分析引擎,ElasticSearch 提供的API 是基于HTTP 協(xié)議的RESTful API,可以用于全文搜索和分析,使用字段、數(shù)值范圍檢索,指定時間范圍查詢的大數(shù)據(jù)檢索,使海量數(shù)據(jù)可以達到秒級響應(yīng)。運維日志分析引擎利用ElasticSearch API 封裝了自定義的運維日志分析模塊,按運維需求,結(jié)合故障工單數(shù)據(jù),對經(jīng)過采集、清洗過的4A 操作日志、網(wǎng)管操作日志進行分析,獲取成功維護經(jīng)驗。
Kibana 為ElasticSearch 提供了分析和可視化的Web接口,通過Kibana 使用戶能連接ElasticSearch 搜索引擎,進行搜索、統(tǒng)計數(shù)據(jù),并能對Elasticsearch API 封裝的自定義運維日志分析規(guī)則進行驗證,生成各種維度表格和圖形。
基于操作日志分析的智能運維模型,從網(wǎng)絡(luò)安全和運維的需求出發(fā),提出基于大數(shù)據(jù)海量日志分析基礎(chǔ)上進行的智能安全感知算法,擁有日志全文搜索、可視化多維分析等核心功能,通過前端WEB 界面進行分析與展示,實現(xiàn)統(tǒng)一管理、隱患分析、故障定位、安全預警等分析功能,給運維人員提供價值最大化的日志數(shù)據(jù)信息。實現(xiàn)“面向設(shè)備”、“面向網(wǎng)絡(luò)”的傳統(tǒng)監(jiān)控模式轉(zhuǎn)變?yōu)椤懊嫦蚩蛻簟弊詣踊?、智能化的主動運維模式。
當網(wǎng)絡(luò)設(shè)備運行出現(xiàn)異常,網(wǎng)絡(luò)集中告警監(jiān)控系統(tǒng)檢測到異常并實時生成故障工單,派修至相關(guān)責任部門,相關(guān)部門遠程集中維護人員開始故障處理,通過4A 平臺授權(quán)登錄,接入各網(wǎng)管執(zhí)行維護操作,排查故障。以上大量網(wǎng)內(nèi)故障處理以及日常運維操作過程產(chǎn)生的海量操作日志數(shù)據(jù)經(jīng)過ELK 平臺處理后,進入日志分析模塊。日志分析從故障工單入口,通過回溯網(wǎng)絡(luò)設(shè)備故障工單告警產(chǎn)生關(guān)鍵信息,故障閉環(huán)信息,對操作日志進行分析,將網(wǎng)管所執(zhí)行操作能成功排除故障的案例,打上經(jīng)驗標簽,成功維護經(jīng)驗權(quán)重值置“1”,獲取成功維護經(jīng)驗,運維操作日志分析邏輯流程如圖2 所示。
圖2 日志分析邏輯流程圖
以下通過實例分析,進一步論證在大數(shù)據(jù)ELK 平臺基礎(chǔ)上,對運維操作日志分析,回溯網(wǎng)絡(luò)設(shè)備故障工單,獲取成功維護經(jīng)驗邏輯的有效性和可行性。
如圖1 系統(tǒng)架構(gòu)設(shè)計所示,日志數(shù)據(jù)、故障工單數(shù)據(jù)通過Logstash 數(shù)據(jù)采集引擎采集,并傳送到ElasticSearch數(shù)據(jù)庫。ElasticSearch 運維日志分析模塊按運維梳理規(guī)則,提取故障工單關(guān)鍵信息;比對分析故障關(guān)鍵信息與操作日志;利用匹配出的操作日志數(shù)據(jù),回溯到故障工單“結(jié)單信息”;生成成功維護經(jīng)驗數(shù)據(jù),存儲到專家經(jīng)驗庫。
以某故障為例,如圖3,故障標題“2012 烽火江珠中80*(40/100)Gb/sDWDM 系統(tǒng)OOP_HIGH”。
圖3 故障工單
實例處理步驟1:提取故障工單關(guān)鍵信息,對應(yīng)圖2步驟1。
故障工單-“故障描述”(故障內(nèi)容)字段查找網(wǎng)絡(luò)設(shè)備告警產(chǎn)生關(guān)鍵信息如下:
【告警時間】:2021-02-22 15:54:40
【告警位置】:/Ems=廣東二干烽火100G 波分網(wǎng)管/Ne=04-01-江門炮臺
-OTM-珠海方向/Shelf=1-3/Board=49/Port=1
【告警信息】:OOP_HIGH
實例處理步驟2:將故障關(guān)鍵信息與ELK 平臺采集清洗后的操作日志匹配,對應(yīng)圖2 步驟2。
EMS 網(wǎng)管操作日志數(shù)據(jù)如圖4 所示,其中“操作對象”與故障工單關(guān)鍵信息中的“告警位置”相關(guān)聯(lián)匹配,對于關(guān)聯(lián)上的操作日志,同時關(guān)聯(lián)故障工單“告警時間”與操作日志“操作時間”(在告警時間后2 小時內(nèi)),搜索關(guān)聯(lián)操作,查找“操作指令”(詳細信息)。
圖4 EMS 網(wǎng)管操作日志
光保護網(wǎng)管操作日志數(shù)據(jù)詳見圖5,其中“局站”與故障工單關(guān)鍵信息中的“告警位置”相關(guān)聯(lián)匹配,對于關(guān)聯(lián)上的操作日志,同時關(guān)聯(lián)故障工單“告警時間”與操作日志“操作時間”(在告警時間后2 小時內(nèi)),搜索關(guān)聯(lián)操作,查找“當前路由(切換指令)”,匹配出對應(yīng)該故障工單的操作日志數(shù)據(jù)“備”到“主”的切換操作。
圖5 光保護網(wǎng)管操作日志
實例處理步驟3:利用以上匹配出的操作日志數(shù)據(jù),回溯到故障工單“結(jié)單信息”,對應(yīng)圖2 步驟3。
如圖6 所示,匹配結(jié)果與所執(zhí)行操作一致,根據(jù)網(wǎng)管執(zhí)行操作動作,故障得以清除,插入新增字段“經(jīng)驗獲取”標志權(quán)值為“1”,對應(yīng)圖2 步驟4。
實例處理步驟5:生成成功維護經(jīng)驗數(shù)據(jù),存儲到專家經(jīng)驗庫
故障工單“經(jīng)驗獲取”標簽值為“1”,作為成功維護經(jīng)驗數(shù)據(jù)固化到專家經(jīng)驗庫,對應(yīng)圖2 步驟5。
圖6 故障工單結(jié)單信息
通過以上實例說明,基于操作日志分析,回溯故障工單,獲取成功維護經(jīng)驗進行固化的方法,在電信大數(shù)據(jù)平臺的基礎(chǔ)上,利用人工智能自學習的運維模式,自動生成專家經(jīng)驗庫,并通過優(yōu)秀專家維護經(jīng)驗的指導和學習,也保證運維人員隊伍的維護水平,從而保障網(wǎng)絡(luò)安全、穩(wěn)定的運行,讓網(wǎng)絡(luò)維護優(yōu)化工作更加面向客戶,以提升客戶對網(wǎng)絡(luò)的感知。
利用大數(shù)據(jù)框架分析處理海量操作日志數(shù)據(jù),獲取成功維護經(jīng)驗,從而將優(yōu)秀專家維護經(jīng)驗固化和沉淀下來,解決了網(wǎng)絡(luò)運維工程師流動性趨增的問題。并按運維需求預設(shè)告警觸發(fā)器,故障動作,實現(xiàn)故障自動預警,自動修復。