高歡歡 劉建建 葉仙英 張志 張雅婧 中國(guó)電信山東分公司
關(guān)鍵字:弱人工智能 無(wú)人值守 協(xié)議棧 故障工單智能排障 智慧化維護(hù)
隨著網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大,以及山東電信“一級(jí)管理、兩級(jí)維護(hù),建設(shè)大本地網(wǎng)”的維護(hù)體系的逐步推進(jìn),在監(jiān)控值班工作中,網(wǎng)管只能起到針對(duì)故障的監(jiān)控,自動(dòng)化和智能化水平日益成為短板,不足以支撐海量的集約化監(jiān)控維護(hù)工作,大量基礎(chǔ)性和重復(fù)性工作仍需要維護(hù)人員人工介入,效率低下。同時(shí)在中國(guó)電信未來(lái)即將重構(gòu)的智能化網(wǎng)絡(luò)中,必須提前布局,注意弱人工智能手段的應(yīng)用和開(kāi)發(fā),建立與智能化網(wǎng)絡(luò)相匹配的維護(hù)模式。
在當(dāng)前的電信網(wǎng)絡(luò)監(jiān)控值班實(shí)際運(yùn)行環(huán)境中,主要存在以下各方面的問(wèn)題:
(1)繁重的維護(hù)工作量和人員相對(duì)不足的矛盾性,決定了監(jiān)控值班人員必須嚴(yán)格控制,無(wú)法覆蓋全部專業(yè);
(2)每班次兩人監(jiān)控值班,在輪休、用餐等情景下,單人值守時(shí)間段內(nèi),難以高效率高質(zhì)量處理跨專業(yè)故障工單;
(3)當(dāng)前故障工單內(nèi)嵌預(yù)處理指導(dǎo)意見(jiàn)(文本)方式,無(wú)法形成實(shí)際有效指導(dǎo);
(4)不同故障工單的聯(lián)動(dòng)處理自動(dòng)化程度較低,需要人工介入進(jìn)行歸并。
山東電信前期已完成了告警壓縮整治、工單歸并、資源系統(tǒng)改造和跨專業(yè)關(guān)聯(lián),工單數(shù)量大幅降低,下降至每天600條左右(見(jiàn)圖1),持續(xù)分析故障工單構(gòu)成,可以發(fā)現(xiàn)具有以下三個(gè)特點(diǎn):
(1) 關(guān)聯(lián)壓縮后,同一故障仍然存在導(dǎo)致多條工單情形;
(2)批處理故障工單時(shí),需要人工介入,綜合網(wǎng)管性能因素,耗時(shí)較長(zhǎng);
(3) 割接等情形屏蔽工單操作無(wú)法精準(zhǔn)、完全屏蔽;
總體來(lái)說(shuō),實(shí)際無(wú)效或低效故障工單占比較高,跨專業(yè)監(jiān)控值班人員在甄別和判障處理時(shí),形成巨大工作量和壓力。因此采用基于協(xié)議棧的全專業(yè)故障工單弱人工智能處理系統(tǒng),針對(duì)所有故障工單自動(dòng)進(jìn)行甄別和處理。
圖1 工單流轉(zhuǎn)及當(dāng)前形勢(shì)
建設(shè)面向值班人員的值班系統(tǒng),以全專業(yè)協(xié)議棧為邏輯依據(jù),針對(duì)派發(fā)的故障工單自動(dòng)進(jìn)行智能判障和工單的流轉(zhuǎn)處理。分別面向監(jiān)控、維護(hù)及管理人員,提供集中化統(tǒng)一的安全評(píng)估界面,全面助力一鍵式自助安全評(píng)估工作落地。
2.2.1 邏輯框架
如圖2所示,自動(dòng)故障處理整體框架按照專業(yè)模型,從上到下依次為平臺(tái)、交換、IP網(wǎng)和傳輸,每個(gè)專業(yè)層之間增設(shè)本專業(yè)的硬件和動(dòng)環(huán)類故障。
圖2 專業(yè)框架模型
根據(jù)圖2模型,進(jìn)一步根據(jù)目前山東電信的主流協(xié)議棧,參考當(dāng)前主要業(yè)務(wù):業(yè)務(wù)平臺(tái)、各類應(yīng)用、語(yǔ)音、寬帶、ITV等,細(xì)化協(xié)議棧架構(gòu)模型,見(jiàn)圖3。
圖3 全專業(yè)協(xié)議棧模型
2.2.2 軟件系統(tǒng)實(shí)現(xiàn)原理
業(yè)務(wù)邏輯確定后,在系統(tǒng)開(kāi)發(fā)設(shè)計(jì)上采用松耦合架構(gòu),按照邏輯將高頻率段落片段化,智能判障時(shí),根據(jù)不同的網(wǎng)絡(luò)故障,系統(tǒng)自動(dòng)調(diào)用段落完成故障全流程,類似搭積木見(jiàn)圖4 。這樣的優(yōu)點(diǎn)雖然前期復(fù)雜,但是勝在可以積累,越到后期優(yōu)勢(shì)越大。
圖4 松耦合架構(gòu)示意圖
2.2.3 智能判障工作流程
故障工單進(jìn)入值班助手之后,workflow針對(duì)工單自動(dòng)進(jìn)行分析,在協(xié)議棧模型定位入口,根據(jù)協(xié)議棧的邏輯關(guān)系進(jìn)行遞歸查詢并找到具體故障源以及影響范圍。
自動(dòng)處理得到的故障定位、影響范圍、影響用戶數(shù)反饋到工單上,并根據(jù)處理結(jié)果進(jìn)行結(jié)單或者工單轉(zhuǎn)派,當(dāng)轉(zhuǎn)派給處理工位時(shí),將處理指導(dǎo)意見(jiàn)添加到工單上。
分析半年近10萬(wàn)條工單發(fā)現(xiàn),“IP電路不通”告警工單占比達(dá)30%,且網(wǎng)絡(luò)層次低,邏輯相對(duì)簡(jiǎn)單。按照協(xié)議棧模型編寫(xiě)處理流程見(jiàn)圖5:
圖5 “IP電路不通”處理流程
將處理流程編寫(xiě)進(jìn)值班助手系統(tǒng)智能判障模塊之后,驗(yàn)證工單可以實(shí)現(xiàn)智能處理以及自動(dòng)轉(zhuǎn)派,滿足需求。
在電信實(shí)際網(wǎng)絡(luò)故障工單的智能處理過(guò)程中,安全機(jī)制和容錯(cuò)機(jī)制是最重要的兩個(gè)角度,其優(yōu)先級(jí)高于自動(dòng)處理。
怎么保證系統(tǒng)不會(huì)引發(fā)安全隱患以及在處理過(guò)程中不會(huì)導(dǎo)致二次故障,首先對(duì)終端進(jìn)行安全改造和掃描,其次對(duì)賬號(hào)進(jìn)行嚴(yán)格權(quán)限控制,嚴(yán)格控制只執(zhí)行查詢類指令,保證不會(huì)誘發(fā)安全隱患。
故障工單的處理有嚴(yán)格的時(shí)效要求,一旦系統(tǒng)bug或者死循環(huán)導(dǎo)致工單丟失或延誤,超過(guò)了處理時(shí)限會(huì)導(dǎo)致系統(tǒng)錯(cuò)誤甚至故障延誤。為了解決這一問(wèn)題,值班助手系統(tǒng)設(shè)計(jì)容錯(cuò)機(jī)制,滿足以下三者任一條件:需要登錄的設(shè)備三次無(wú)法連接、自動(dòng)處理流程15分鐘無(wú)反應(yīng)和重要故障,直接強(qiáng)制跳轉(zhuǎn)人工處理,并對(duì)值班人員進(jìn)行聲光提醒。
通過(guò)本課題的研究,設(shè)計(jì)了基于全專業(yè)協(xié)議棧的智能判障模型,并開(kāi)發(fā)了值班助手系統(tǒng),將自動(dòng)故障處理流程固化到值班助手系統(tǒng)內(nèi),不僅極大提高了自動(dòng)化水平,將故障工單的處理高度標(biāo)準(zhǔn)化,進(jìn)一步提升故障處理的準(zhǔn)確性,同時(shí)也是應(yīng)對(duì)未來(lái)智能化網(wǎng)絡(luò)而進(jìn)行的智能化維護(hù)方式的轉(zhuǎn)型,未來(lái)可以進(jìn)一步采用人工智能神經(jīng)網(wǎng)絡(luò),建立模型訓(xùn)練模型,實(shí)現(xiàn)強(qiáng)人工智能。