黃兵明,喬治,黃劍鋒,趙慧英,馬瑞濤(.中國聯(lián)通研究院,北京 00048;.中國聯(lián)合網(wǎng)絡(luò)通信集團有限公司,北京 00045;.北京神州泰岳軟件股份有限公司,北京 000)
與4G 網(wǎng)絡(luò)相比,一方面5G 網(wǎng)絡(luò)設(shè)備具備云化架構(gòu)的技術(shù)特征,軟硬件模塊及接口更加復(fù)雜,網(wǎng)絡(luò)系統(tǒng)的操作和維護難度大幅度提升。另一方面,微服務(wù)、網(wǎng)絡(luò)切片等新技術(shù)的引入使得5G網(wǎng)絡(luò)管理對象數(shù)量暴增,新的網(wǎng)絡(luò)形態(tài)和網(wǎng)絡(luò)規(guī)模為網(wǎng)絡(luò)告警分析帶來了極大的挑戰(zhàn),告警分析處理工作量逐漸呈幾何級數(shù)增加。
在當(dāng)前的日常運維工作中,運維人員在分析各類告警時一般會采用聚類關(guān)聯(lián)算法,對不同的告警數(shù)據(jù)進行聚類和壓縮。告警處理系統(tǒng)中典型的算法有Apriori[1?2]和FP?Growth 算法等,還有從統(tǒng)計角度和可信度角度對關(guān)聯(lián)規(guī)則挖掘算法進行的研究。Aprior 算法執(zhí)行過程中需要對告警事務(wù)數(shù)據(jù)庫反復(fù)進行全量掃描,并且會產(chǎn)生大量的候選項集,算法執(zhí)行效率較低。FP?Growth 算法通過構(gòu)造頻繁模式樹這種比較緊湊的數(shù)據(jù)結(jié)構(gòu),將頻繁模式信息進行壓縮,本質(zhì)上是一種深度優(yōu)先搜索算法?;谏鲜龅湫偷木垲愃惴ㄩ_發(fā),業(yè)內(nèi)進行了很多電信告警關(guān)聯(lián)規(guī)則的挖掘應(yīng)用,也有很多系統(tǒng)基于大數(shù)據(jù)技術(shù)進行電信告警關(guān)聯(lián)規(guī)則的挖掘?qū)崿F(xiàn)。但以上告警關(guān)聯(lián)分析技術(shù)中都或多或少存在如下2個問題。
a)由于在告警關(guān)聯(lián)分析過程中缺乏對全量的原始告警數(shù)據(jù)時空特征的融合分析,重要的告警信息被噪聲告警淹沒會導(dǎo)致漏報,大量噪聲告警數(shù)據(jù)的混雜同樣會導(dǎo)致誤報。很多在時間、空間維度上都毫無關(guān)聯(lián)的原始告警數(shù)據(jù)堆積在一起,導(dǎo)致真實的告警關(guān)聯(lián)關(guān)系很難被洞察或無法被算法挖掘出來,尤其是對聚類算法的計算效率和收斂性帶來很大的影響,直接導(dǎo)致告警關(guān)聯(lián)分析結(jié)果的準(zhǔn)確性降低。
b)當(dāng)前對告警數(shù)據(jù)關(guān)聯(lián)的分析過程中,缺乏對告警根因分析的高效結(jié)合。通常的聚類算法只簡單反應(yīng)了一般性數(shù)據(jù)的關(guān)聯(lián)性,沒有考慮告警間的業(yè)務(wù)關(guān)系特點,例如網(wǎng)絡(luò)不同層級的各類告警,從業(yè)務(wù)拓撲來看源自于同一個根告警。頻繁項集包含過多次生告警關(guān)系項,干擾了關(guān)聯(lián)關(guān)系的判斷。上述研究中提到的算法方案很難分析出告警事件的關(guān)聯(lián)根因,無法實現(xiàn)告警數(shù)據(jù)的進一步高效壓縮。所以,研究如何通過各層級告警的根因智能分析定位,實現(xiàn)對不同層級的告警高效收斂和壓縮具有重要意義。
針對以上問題和需求,本文提出了一套網(wǎng)絡(luò)告警智能分析和壓縮的綜合解決方案。方案利用時空特征數(shù)據(jù)預(yù)處理技術(shù),高效過濾掉無關(guān)聯(lián)的噪聲告警數(shù)據(jù),并在此基礎(chǔ)上提出應(yīng)用GCN 和XGBoost 這2 種算法的融合模型進行根因智能分析定位。根據(jù)根因分析結(jié)果發(fā)現(xiàn)和清除衍生關(guān)聯(lián)告警集,實現(xiàn)各層級各類告警數(shù)據(jù)的智能關(guān)聯(lián)壓縮,從而有效減小告警派單量,提升告警處理質(zhì)量和效率。
本文提出的網(wǎng)絡(luò)告警智能分析和壓縮的綜合解決方案整體流程如圖1所示,方案關(guān)鍵步驟如下。
圖1 綜合告警智能分析總體解決方案流程
a)數(shù)據(jù)采集和預(yù)處理,包括全量的告警數(shù)據(jù)、故障數(shù)據(jù)、資源數(shù)據(jù)的采集和預(yù)處理。預(yù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)補充、數(shù)據(jù)規(guī)范化處理等。
b)時空特征融合處理,包括對告警、故障數(shù)據(jù)進行時間特征分析預(yù)處理、資源空間關(guān)聯(lián)特征分析預(yù)處理,實現(xiàn)對無關(guān)噪聲數(shù)據(jù)的精準(zhǔn)剔除,提升數(shù)據(jù)質(zhì)量。
c)多維數(shù)據(jù)特征提取,包括告警、故障數(shù)據(jù)的時間特征、語義特征、網(wǎng)元資源位置特征、資源關(guān)聯(lián)特征等的提取。
d)多維數(shù)據(jù)向量生成,基于提取的多維數(shù)據(jù)特征,統(tǒng)一編排生成多維數(shù)據(jù)向量。
e)多維告警根因定位,調(diào)用GCN 算法模型,對多維告警和故障數(shù)據(jù)進行根因定位分析,輸出故障告警根因。
f)根因告警關(guān)聯(lián)分析,對GCN 算法模型輸出的故障告警根因,調(diào)用XGBoost算法模型,對所有的告警數(shù)據(jù)進行關(guān)聯(lián)分析,輸出根因關(guān)聯(lián)告警集。
g)根因關(guān)聯(lián)告警評估,進一步分析告警根因和管理告警集的相關(guān)性,輸出高相關(guān)度根因告警?關(guān)聯(lián)告警集。
h)根因關(guān)聯(lián)告警壓縮,基于根因高相關(guān)度關(guān)聯(lián)告警集對非根因告警進行高效壓縮,對同一根因?qū)е碌母鲗蛹壐婢M行匯聚,壓縮為同一根因故障告警進行派單。
本文提出的非關(guān)聯(lián)數(shù)據(jù)剝離技術(shù)主要由2個關(guān)鍵步驟組成:告警數(shù)據(jù)時間關(guān)聯(lián)性(時間特征)分析和告警數(shù)據(jù)資源關(guān)聯(lián)性(空間特征)分析,精準(zhǔn)剔除無效噪聲數(shù)據(jù),提升數(shù)據(jù)質(zhì)量,最大限度提升告警關(guān)聯(lián)分析算法的運算效率和準(zhǔn)確性,其關(guān)鍵流程如圖2所示。
圖2 時空特征融合處理關(guān)鍵流程
首先,抽取一個分析周期(如可以定義一個分析周期為1個月)的告警數(shù)據(jù)和故障數(shù)據(jù),利用按需定義的特征化函數(shù)對上述數(shù)據(jù)進行特征提取,生成告警和故障時間特征向量。
然后設(shè)計一個滑動時間窗口,滑動時間窗口大小和時間步長可以根據(jù)不同的事件類型進行調(diào)整。將一個窗口周期內(nèi)的異常特征事件定義為一個異常事件項集,這樣能減少對不存在時間關(guān)聯(lián)關(guān)系的告警、故障事件數(shù)據(jù)的無效分析,提升告警關(guān)聯(lián)分析的效率和準(zhǔn)確性。
最后進行物理和虛擬化空間中資源關(guān)聯(lián)關(guān)系分析,即對上一步篩選得到的告警、故障事件數(shù)據(jù)項集再基于資源的物理、邏輯關(guān)聯(lián)關(guān)系,進行下一步的數(shù)據(jù)清洗?;谫Y源拓撲進行關(guān)聯(lián)切片處理,把相關(guān)聯(lián)的資源形成切片集,獲取同時具備時間關(guān)聯(lián)性和切片集資源相關(guān)性的告警數(shù)據(jù),形成資源關(guān)聯(lián)告警項集。
將非資源關(guān)聯(lián)異常事件數(shù)據(jù)從項集中剔除,從而避免對不存在資源關(guān)聯(lián)關(guān)系異常事件的無效分析,進一步提升告警關(guān)聯(lián)分析的效率和準(zhǔn)確性。
本節(jié)重點描述了一種基于人工智能(AI)的智能根因告警壓縮技術(shù),即通過構(gòu)建的AI 算法模型,將通過2.2 小節(jié)處理后的告警數(shù)據(jù)收斂到同一故障根因,減少實際派單數(shù)量并進行優(yōu)化策略派單,實現(xiàn)故障派單的壓縮合并,減少重復(fù)派單。智能根因告警壓縮技術(shù)的算法模型訓(xùn)練方案如圖3所示。
圖3 告警壓縮算法模型訓(xùn)練方案
本文提出的智能根因定位AI 算法模型采用GCN算法和XGBoost算法級聯(lián)的融合算法方案。GCN 算法定位同一時間窗口內(nèi)、滿足資源空間相關(guān)性的各層級告警數(shù)據(jù)的根因類型和故障節(jié)點,XGBoost 算法根據(jù)GCN 輸出的根因類型和故障節(jié)點計算出根因關(guān)聯(lián)告警集。
GCN AI 算法可以利用拓撲連接性和節(jié)點特征處理圖結(jié)構(gòu)數(shù)據(jù),即基于圖神經(jīng)網(wǎng)絡(luò)的算法模型經(jīng)過大數(shù)據(jù)訓(xùn)練后可以準(zhǔn)確捕獲拓撲信息。對于目標(biāo)電信網(wǎng)絡(luò),本文使用屬性圖G=(V,E)編碼它的拓撲信息。其中,vi∈V是圖中的第i個節(jié)點,節(jié)點vi具備屬性Xvi,節(jié)點對(uj,vi)∈E表示圖中2 個節(jié)點之間的邊,邊(uj,vi)具備屬性euj,vi∈E。對于電信網(wǎng)絡(luò),GCN中的一個節(jié)點可以是一個物理設(shè)備,也可以是引發(fā)告警數(shù)據(jù)的故障根因的邏輯節(jié)點。GCN 中相鄰節(jié)點之間的物理連接或邏輯連接用圖形的邊進行表征。本文采用GCN算法智能判斷每個節(jié)點是否發(fā)生了故障問題,并判斷故障問題的具體根因類型。
圖卷積神經(jīng)網(wǎng)絡(luò)中節(jié)點vi的表征信息通過聚合其相鄰節(jié)點的表征信息進行迭代更新,GCN 節(jié)點vi的表征可以在n次迭代后捕獲其n階鄰居的信息。本文根因定位GCN算法使用的逐層傳播規(guī)則如下:
在GCN 定位出根因結(jié)果的基礎(chǔ)上,調(diào)用XGBoost分類算法進行進一步的根因關(guān)聯(lián)告警集智能分析,挖掘根因告警和其他各層級告警之間的強關(guān)聯(lián)關(guān)系。
首先,基于根因告警和關(guān)聯(lián)層級告警樣例數(shù)據(jù)進行XGBoost 建模訓(xùn)練,得到最優(yōu)的XGBoost 算法模型參數(shù)集。建模過程中可以學(xué)習(xí)到對應(yīng)告警數(shù)據(jù)集的特征重要度信息,并保存在模型的Feature_importances_屬性中。通過網(wǎng)絡(luò)搜索方法進行交叉驗證實驗評估,選出XGBoost在候選參數(shù)中的最優(yōu)超參數(shù)。
其中,Gj為所有屬于第j個葉子結(jié)點的樣本的gi總和,Hj為所有屬于第j個葉子結(jié)點的樣本的hi總和。
通過XGBoost 分類算法,進行根因關(guān)聯(lián)告警集的相關(guān)性分析,輸出最優(yōu)相關(guān)性的根因關(guān)聯(lián)告警集。將得到的根因告警集進行合并,進一步剔除其余高相關(guān)性的各層級告警,實現(xiàn)對根因關(guān)聯(lián)告警的有效壓縮。
經(jīng)初步過濾的海水有一部分供給其它用戶,大部分匯合PAP粗過濾器過來的海水一起進入細過濾器,使98%直徑大于或等于5 μm的懸浮顆粒被除去。為了提高過濾效果,在細過濾器的入口處注入兩種化學(xué)藥劑:聚合物和殺蟲劑,殺蟲劑每周注入一次,在不注殺蟲劑期間注入次氯酸鈉進行殺菌。
基于本文的技術(shù)創(chuàng)新研究成果,中國聯(lián)通某省分公司在5G 云網(wǎng)動環(huán)告警場景中對本文提出的電信網(wǎng)絡(luò)告警智能壓縮技術(shù)進行了試點驗證。本次試點旨在實現(xiàn)對冗余告警的壓縮和高效精準(zhǔn)的故障根因定位,減少根因故障關(guān)聯(lián)告警工單派發(fā)量,提升故障告警處理效率,減輕運維人員的故障工單處理負擔(dān),提效降本。
本節(jié)通過實例重點分析5G云網(wǎng)動環(huán)告警場景中,如何對數(shù)據(jù)時空特征的處理、基于GCN 根因定位及根因關(guān)聯(lián)告警集的生成以及算法的實現(xiàn)方式等方面進行適配和改進,從而更有效地解決告警關(guān)聯(lián)壓縮分析問題。實例對省分公司現(xiàn)網(wǎng)環(huán)境共4 周的5G 云網(wǎng)動環(huán)告警數(shù)據(jù)進行了根因關(guān)聯(lián)分析和關(guān)聯(lián)告警壓縮,主要為以下幾個過程。
3.2.1 告警原始數(shù)據(jù)時間特征分析
通過現(xiàn)網(wǎng)一級網(wǎng)管和二級網(wǎng)管采集了4 周的5G云網(wǎng)故障數(shù)據(jù)、全量告警數(shù)據(jù)以及云網(wǎng)資源關(guān)聯(lián)數(shù)據(jù),并進行了數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)補充、數(shù)據(jù)規(guī)范化等處理。例如剔除關(guān)鍵字段(如告警編碼、告警標(biāo)題、告警設(shè)備等)有缺失的告警數(shù)據(jù),并根據(jù)業(yè)務(wù)層級和物理意義進行字段定義及格式對齊、數(shù)值歸一化處理等。
在此基礎(chǔ)上進一步進行5G 云網(wǎng)動環(huán)全量告警數(shù)據(jù)的時間特征分析和聚類,剔除關(guān)聯(lián)的聚類項非時間窗口以外的噪聲數(shù)據(jù),如圖4 所示?;诠こ虒嵺`數(shù)據(jù)分析出相關(guān)告警的發(fā)散期為nmin,則時間窗口為nmin(n一般在10 左右),i=時段寬度/n;當(dāng)i>2 時,針對各個時間段進行時間滑動窗口聚類。
圖4 5G云網(wǎng)動環(huán)全量告警數(shù)據(jù)時間特征分析
3.2.2 告警原始數(shù)據(jù)空間特征分析
將不同索引來源的告警和故障數(shù)據(jù)根據(jù)資源關(guān)聯(lián)關(guān)系進行整合和篩選,基于資源拓撲進行切片處理,把相關(guān)聯(lián)的資源形成切片集獲取切片集相關(guān)資源的告警數(shù)據(jù),形成告警庫。使用K?Means 算法結(jié)合滑動時間窗口算法,對告警庫的告警數(shù)據(jù)進行聚類處理,形成時空特征融合告警事務(wù)集。5G 云網(wǎng)動環(huán)全量告警數(shù)據(jù)空間特征分析如圖5所示。
圖5 5G云網(wǎng)動環(huán)全量告警數(shù)據(jù)空間特征分析
對于基于故障場景數(shù)據(jù)及通過時間特征和空間特征匯聚后的向量化多層級告警數(shù)據(jù),通過調(diào)用已構(gòu)建的GCN 算法模型對數(shù)據(jù)進行分析,輸出告警數(shù)據(jù)的根因類型和所在故障節(jié)點。
通過XGBoost 算法分析出告警根因強關(guān)聯(lián)的各層級告警集,并在此基礎(chǔ)上計算根因故障與關(guān)聯(lián)告警的關(guān)聯(lián)度,篩選出根因高相關(guān)度(建議關(guān)聯(lián)度大于0.85)的關(guān)聯(lián)告警集。部分根因關(guān)聯(lián)告警集及關(guān)聯(lián)度樣例數(shù)據(jù)如表1所示。
表1 根因關(guān)聯(lián)告警集及關(guān)聯(lián)度樣例數(shù)據(jù)
3.2.4 通過根因告警壓縮關(guān)聯(lián)告警集派單
基于根因高相關(guān)度關(guān)聯(lián)告警集對非根因告警進行高效壓縮,對同一根因?qū)е碌母鲗蛹壐婢M行匯聚,壓縮為同一根因故障告警,統(tǒng)一合并派發(fā)根因告警處理工單。
在某省分公司5G 動環(huán)專業(yè)一個月內(nèi)挖掘有效根因匯聚壓縮規(guī)則9+條,通過基于根因分析故障告警匯聚大大壓縮了符合派單條件的告警數(shù)量,工單量壓縮率(符合派單條件的告警數(shù)量/實際派單數(shù)量)達到31倍以上,大幅減少了人工逐級排查的工作量,縮短了排障時間,提高了工作效能,降低了工作成本,大大減輕了工單處理部門的工作壓力,應(yīng)用成效顯著。部分根因關(guān)聯(lián)告警集壓縮的效果如表2所示。
表2 根因關(guān)聯(lián)告警壓縮效果分析
實際應(yīng)用成效表明,本文提出的融合時空特征的智能根因分析告警壓縮技術(shù),可有效實現(xiàn)故障精準(zhǔn)定界和告警壓縮、派單壓縮,提升電信網(wǎng)絡(luò)運維的自動化、智能化運維保障能力,同時顯著降低人力投入成本,具有重要的工程應(yīng)用價值和社會經(jīng)濟價值。但現(xiàn)階段仍存在一些問題,例如算法獲得關(guān)聯(lián)規(guī)則可解釋性較差等。為解決該問題,未來可考慮引入知識圖譜等技術(shù),整合更多的數(shù)據(jù),包括網(wǎng)絡(luò)性能信息、業(yè)務(wù)狀態(tài)信息、拓撲信息、工單信息等,將規(guī)則進一步擴展沉淀為完整閉環(huán)的知識圖譜,全面關(guān)聯(lián)網(wǎng)絡(luò)告警,準(zhǔn)確定位網(wǎng)絡(luò)故障。