基于數(shù)據(jù)挖掘的通信網(wǎng)絡(luò)故障分類研究

2023-01-14 14:49:00朱圳劉立芳齊小剛

智能系統(tǒng)學報 2022年6期

關(guān)鍵詞：網(wǎng)絡(luò)故障數(shù)據(jù)挖掘準確率

朱圳，劉立芳，齊小剛

（1.西安電子科技大學計算機科學與技術(shù)學院，陜西西安 710071;2.西安電子科技大學數(shù)學與統(tǒng)計學院，陜西西安 710071）

隨社會的快速發(fā)展，對于網(wǎng)絡(luò)的需求也越來越大。智能手機、智能設(shè)備、智能家居等的出現(xiàn)，增大了網(wǎng)絡(luò)的使用。傳統(tǒng)通信網(wǎng)絡(luò)面臨著前所未有的增長，對網(wǎng)絡(luò)的需求和使用也在增大，導致網(wǎng)絡(luò)負擔變大。因此通信網(wǎng)絡(luò)經(jīng)常發(fā)生故障，故障以告警的形式進行上報，一旦某處發(fā)生網(wǎng)絡(luò)故障，網(wǎng)絡(luò)中就會產(chǎn)生大量告警信息，如何快速定位網(wǎng)絡(luò)故障類型是一個難題，而傳統(tǒng)研究基本都在關(guān)注告警之間的關(guān)聯(lián)規(guī)則。在文獻[1]中將群智能算法用于關(guān)聯(lián)規(guī)則的挖掘，并應(yīng)用于通信領(lǐng)域。文獻[2]同樣利用群智能算法中的蟻群算法進行告警的關(guān)聯(lián)分析。文獻[3-5]都是基于頻繁模式樹的關(guān)聯(lián)規(guī)則方法，該方法提高了算法的運行效率。除關(guān)聯(lián)規(guī)則模式挖掘之外，序列模式也頻繁地應(yīng)用在通信告警領(lǐng)域，序列模式挖掘考慮時間上的順序，從而效果更佳。文獻[6]使用的是序列模式挖掘。文獻[7-8]都是基于序列模式挖掘的實際應(yīng)用。除研究通信網(wǎng)絡(luò)的告警關(guān)聯(lián)和序列模式，還有一些國內(nèi)外的研究學者研究網(wǎng)絡(luò)的故障定位，也取得了一些不錯的成果。2002 年Steinder 等[9]提出一種基于貝葉斯網(wǎng)絡(luò)的故障定位技術(shù)，貝葉斯網(wǎng)絡(luò)根據(jù)網(wǎng)絡(luò)拓撲和通信協(xié)議構(gòu)建，并使用Pearl’s iterative 算法進行概率推理，但該方法只能用于單連通網(wǎng)絡(luò)。許多學者引入貝葉斯網(wǎng)絡(luò)為網(wǎng)絡(luò)故障事件的關(guān)系建立模型[10]。王開選等[11]指出了故障傳播模型下的故障定位問題是NP 困難(non-deterministic polynomial)問題，并提出一種啟發(fā)式的最小損失故障定位算法。同時故障診斷系統(tǒng)也被開發(fā)和使用，華為諾亞方舟實驗室開發(fā)了診斷系統(tǒng)，通過對歷史數(shù)據(jù)的分析和構(gòu)建知識圖譜，并根據(jù)知識圖譜進行推理，可以以問答的形式輔助工程師找到故障根因[12]。王迎春等[13]使用規(guī)則進行故障定位，規(guī)則使用條件-結(jié)果的語句形式表示，該定位方法主要需要解決規(guī)則知識庫構(gòu)建的問題。初始進行故障診斷多數(shù)依賴專家，根據(jù)專家經(jīng)驗和網(wǎng)絡(luò)資源等關(guān)聯(lián)性建立故障推理樹，并完成故障定位[13]。趙燦明等[14]采用二分圖模型考慮了通信網(wǎng)絡(luò)中故障位置對告警信息的影響，旨在解決大范圍的故障告警下故障定位問題。

為實現(xiàn)通信網(wǎng)絡(luò)故障分類，本文提出基于數(shù)據(jù)挖掘的通信網(wǎng)絡(luò)告警分類算法。首先，針對干凈的告警數(shù)據(jù)和故障數(shù)據(jù)，對其進行特征工程，將挖掘到的特征與原數(shù)據(jù)合并，得到便于模型訓練的數(shù)據(jù)集；然后，基于集成學習模型對數(shù)據(jù)集進行模型訓練與預測，并與文獻[15]中的基于卷積神經(jīng)網(wǎng)絡(luò)故障分類進行對比實驗，最終獲得通信網(wǎng)絡(luò)故障類型。

1 相關(guān)概念

1.1 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘[16]是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘分為有標簽和無標簽挖掘兩大類。有標簽數(shù)據(jù)可以用來進行分類或者預測任務(wù)，無標簽數(shù)據(jù)可以用來進行聚類或者關(guān)聯(lián)分析等。

1.2 特征工程

特征工程[17]是指將數(shù)據(jù)轉(zhuǎn)換為能更好地表示潛在問題的特征的方法，從而提升機器學習的性能。特征工程就是對數(shù)據(jù)的特征或者數(shù)據(jù)進行分析，將數(shù)據(jù)轉(zhuǎn)換成可以更好地表示問題的潛在特征，從而提高機器學習的性能。特征工程主要包括以下幾個重要的作用。

1）轉(zhuǎn)換數(shù)據(jù)格式。這也是數(shù)據(jù)預處理中一個重要的環(huán)節(jié)，但這里的轉(zhuǎn)換數(shù)據(jù)不僅僅針對干凈數(shù)據(jù)，也針對臟數(shù)據(jù)。有些數(shù)據(jù)以表格為主，無法直接拿來預處理，需要轉(zhuǎn)換數(shù)據(jù)格式，這也屬于特征工程的范疇。

2）確定特征。原始的數(shù)據(jù)中可能存在多列屬性，但并非所有的屬性都可以用作模型訓練的特征，特征是可以標識問題的重要屬性，而不能標識問題的屬性稱為普通屬性。

3）提高學習性能。特征工程最大的作用就是獲取最佳的數(shù)據(jù)，最佳的數(shù)據(jù)可以更好地標識問題，進行機器學習訓練時可以得到更好的效果。

1.3 集成學習

集成學習[18]是將若干個基學習器(分類器、回歸器)組合之后產(chǎn)生一個新的學習器。相比單一模型，集成學習模型在準確性、穩(wěn)定性、魯棒性和泛化能力上都有很好的效果。一般來說，集成學習可以分為3 類：1)減少方差（Bagging），即防止過擬合；2)減少偏差（Boosting），即提高訓練樣本正確率；3)提升預測結(jié)果（Stacking），即提高驗證精度。

1) Bagging：通過對樣本數(shù)據(jù)集進行有放回地重復采樣，生成多個采樣子集，并行地訓練出多個模型，測試階段集成多個模型的泛化輸出，常常采樣直接平均的做法。Bagging 執(zhí)行流程如圖1所示。

圖1 Bagging 執(zhí)行流程Fig.1 Bagging execution process

2) Boosting：其思想是采用串行訓練過程來訓練模型。同樣是利用數(shù)據(jù)集來訓練多個模型，但Boosting 的最大特征是后訓練的模型會考慮前訓練模型的誤差，具體做法就是對于前訓練模型中出錯的樣本加大權(quán)重，稱為賦權(quán)法。賦權(quán)法的應(yīng)用使得每個樣本對于訓練模型的誤差起到的作用是不同的，而后訓練模型會采用貪心算法去不斷適應(yīng)訓練集，力爭將每個訓練樣本的誤差都盡量降低。Boosting 執(zhí)行流程如圖2 所示。

圖2 Boosting 執(zhí)行流程Fig.2 Boosting execution process

3) Stacking: 該方法是將多個不同基學習器得到的輸出作為輸入，訓練一個新模型，得到最終結(jié)果。具體過程如下：

①將訓練數(shù)據(jù)集隨機劃分為兩個數(shù)據(jù)集；

②一個用于訓練多個基學習器，一個用于測試這幾個基學習器；

③將②得到的預測結(jié)果作為輸入，訓練1 個更好的分類器。在第2 個集合上測試這幾個學習器。

2 基于數(shù)據(jù)挖掘的特征構(gòu)造法

2.1 數(shù)據(jù)處理與特征構(gòu)造

從數(shù)據(jù)中提取出可以用于模型訓練的數(shù)據(jù)特征，比如將時間做處理，時間可以提取出年、月、日等，并且還可以根據(jù)時間來判斷當前是工作日還是休息日，不同的時間點網(wǎng)絡(luò)的負擔情況是不一樣的，這些因素都可能影響網(wǎng)絡(luò)的質(zhì)量情況。分析網(wǎng)絡(luò)告警標題，由于標題是文本數(shù)據(jù)，可以對其進行文本的提取處理，可能某些告警標題就是對應(yīng)著相關(guān)的故障類型，這樣的告警標題更能表征故障類型。還可以根據(jù)告警或者故障發(fā)生的基站或小區(qū)名稱進行分組處理，得到一些其他的特征信息[19-24]，比如某個小區(qū)出現(xiàn)故障或者告警的頻率、故障發(fā)生的時間等。

1）針對告警標題做TF-IDF

告警標題：故障發(fā)生時所上報的告警名稱，不同的告警標題表示不同的告警類型，如ETH_LOS表示端口接收不到信號、RHUB 與pRRU 間鏈路異常告警和用戶面故障告警表示接口異常。

TF-IDF：一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)，TF 表示某個詞出現(xiàn)的頻率，IDF 表示逆文本頻率指數(shù)。IDF 的主要思想是：如果包含某個詞的文檔越少，IDF 越大，則說明該詞具有很好的類別區(qū)分能力。

使用TF-IDF 對告警標題進行轉(zhuǎn)換，對每個告警標題中的詞統(tǒng)計，將文本信息換為數(shù)值信息。處理后的告警數(shù)據(jù)變成表1 的形式。為了方便記錄生成的詞特征，用 idf_i表示第i個詞。

表1 TF-IDF 處理后新增的特征Table 1 New features after TF-IDF processing

2）處理告警的時間特征

告警數(shù)據(jù)的時間特征主要是考慮告警的發(fā)生時間信息，將告警的發(fā)生時間進行處理，提取出告警發(fā)生時所在的月份、是在工作日還是周末等。處理后的告警時間特征如表2 所示。

表2 告警數(shù)據(jù)時間處理后特征Table 2 Characteristics of alarm data after time processing

3）處理故障時間特征

當網(wǎng)絡(luò)發(fā)生故障時，統(tǒng)計故障發(fā)生日期、故障發(fā)生的時間是否在周末、故障發(fā)生的所在的時間段、是否在工作日和故障持續(xù)時間等特征。處理后的故障時間特征如表3 所示。

表3 網(wǎng)絡(luò)故障時間處理后特征據(jù)Table 3 Characteristics after network fault time processing

4）比率特征

比率特征是將前面處理后得到的特征進行求比例，比如：求每個告警標題出現(xiàn)的次數(shù)，當前故障中告警標題的種類，求告警標題在每個小區(qū)的比例情況，求解每個小時發(fā)生告警的比例情況等。處理后的特征如表4 所示。

表4 相關(guān)特征的比例特征Table 4 Proportional features of related features

將上述這些經(jīng)過特征處理后的所有特征進行合并，得到最終的訓練集數(shù)據(jù)，并將得到的最新數(shù)據(jù)集用到集成學習模型。

2.2 特征選擇

經(jīng)過數(shù)據(jù)處理和特征構(gòu)造后共得到183 個屬性，并不能將所有的屬性作為特征加入到模型中進行訓練，有些屬性可能會影響模型的效果。本文所使用的數(shù)據(jù)量近20 000 個樣本，每個樣本有83 個特征的數(shù)據(jù)量，如果全部用于訓練，將對機器要求非常高，同時算法運行時間也較慢，因此需要對屬性進行篩選，使用LightGBM 模型進行特征篩選。

LightGBM[25]是2017 年由微軟團隊開源的集成學習模型，該模型是對梯度提升樹優(yōu)化的模型。該模型訓練速度快、內(nèi)存占用小，被廣泛運用在數(shù)據(jù)科學競賽中。該模型可以用來評估特征的重要性，對數(shù)據(jù)訓練后，可以通過模型的feature_importance()函數(shù)獲取特征的重要性值，該函數(shù)對訓練完的各特征進行重要性排序。特征篩選流程如圖3 所示。

圖3 特征篩選流程圖Fig.3 Feature screening flow chart

經(jīng)LightGBM 的重要性評估后，有24 個特征的重要性值為0，說明這些特征對最終分類結(jié)果沒有作用，將這些特征剔除。通過特征重要性函數(shù)可以發(fā)現(xiàn)特征重要性值為0 的特征多數(shù)為時間相關(guān)的特征，如告警發(fā)生的小時、告警發(fā)生是否在周末等，說明時間特征對故障分類的重要性較低。而告警標題經(jīng)過TF-IDF 處理后得到的特征，特征的重要性值較高，說明告警標題對故障分類有著重要的作用。

3 實驗與分析

為驗證提出算法的性能情況，本部分通過實驗進行性能分析。與文獻[15]中的基于卷積神經(jīng)網(wǎng)絡(luò)的故障分類算法進行對比實驗，通過實驗分析可以看出提出的基于數(shù)據(jù)挖掘的通信網(wǎng)絡(luò)故障分類算法有更高的分類準確率，且時間也相對比CNN 快，因此提出的方法在故障分類的準確率上是有優(yōu)勢的。所有實驗均在帶有8RAM 和1T 硬盤的Interi(R)、Core(TM)i5-4 790 CPU@3.6 GHz 的計算機上進行，并使用Python 語言和Java 語言一起實現(xiàn)。

3.1 實驗數(shù)據(jù)集

實驗所使用的數(shù)據(jù)如表5 所示，其主要包括電力、硬件、軟件、傳輸和動環(huán)故障五大故障。告警序列 Alarmi表示第i個告警，其中每個告警中又包含告警發(fā)生和告警清除的時間、告警標題名稱、告警發(fā)生站點等信息。

表5 實驗數(shù)據(jù)Table 5 Experimental data

3.2 算法的評價指標

分類是機器學習中常見的任務(wù)，常見的評價指標有準確率、精確率、召回率、F1-score、ROC曲線等。混淆矩陣如表6 所示，其中TP (true positive)表示真正類，即樣本為正且預測也為正；FN(false negative)表示假負類，即樣本為正預測為負；FP (false positive)表示假正類，即樣本為負預測為正；TN (true negative)表示真負類，即樣本為負且預測為負。

表6 數(shù)據(jù)檢測結(jié)果Table 6 Data test result

準確率為

準確率是分類問題中直觀的評價指標，有明顯弊端，在各分類樣本比重不均勻時，占比較大的分類會影響準確性的評價。

精確率為

精度率是描述分類器不將負樣本預測為正樣本的能力。

召回率為

召回率是描述分類器找出全部真正樣本的能力。

F1-score 為

式中：P代表精準度；R代表召回率；F1-score 越大，說明模型越穩(wěn)定。

3.3 算法的高效性驗證

圖4(a)中，對比在新數(shù)據(jù)集下3 種不同集成學習模型的分類準確率差異，可以得到在不同K折交叉驗證下，每個模型的分類準確率都在提高。當K≥7時，LightGBM 和CatBoost 的分類準確率基本趨于不變，而XGBoost 的分類準確率隨K值變大而變大；當K≥9時，XGBoost 的分類準確率也趨于穩(wěn)定，基本都在83.50%。從圖中可明顯看出在新數(shù)據(jù)集下，XGBoost 的分類準確率比Light-GBM 和CatBoost 模型的分類準確率高，而Cat-Boost 的分類準確率又高于LightGBM。綜上所述，3 種集成學習模型的分類準確率大小分別是XGBoot＞CatBoost＞LightGBM。

考慮到數(shù)據(jù)類型存在一定的不均衡性，從模型的F1-score 值來對比一下3 種集成學習模型的性能差異。在圖4(b) 中可以看出在不同K值下3 種集成學習模型的F1-score 也不同，當K不斷增大時只有XGBoost 模型的F1-score 在不斷變化，而LightGBM 和CatBoost 模型的F1-score 沒有變化。對于XGBoost 集成學習模型，隨著K值的增加F1-score 越來越大，說明模型越來越穩(wěn)定，當K=10 時，9=F1-score＜K的值，說明模型的穩(wěn)定性下降了。為了說明XGBoost 集成學習模型在K=9時的效果最佳，對XGboost 模型多做幾組K＞10 的實驗，進一步對比K值對該模型的影響。

圖4 不同K 值下的結(jié)果Fig.4 Results under different K values

從圖5 可以看出，當 6 ≤K＜9時，XGBoost 模型的F1-score 值越來越大；當K＞9時，XGBoost 模型的F1-score 值越來越?。划擪=9時，XGBoost 模型穩(wěn)定性最好。

圖5 不同K 值下的F1-scoreFig.5 F1-score under different K values

為了證明本文提出的基于數(shù)據(jù)挖掘的方法比文獻[15]中基于卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)故障分類效果好，進一步做對比實驗，將新數(shù)據(jù)集在集成學習模型上的結(jié)果和文獻[15]中基于CNN 的結(jié)果進行對比分析。

從圖6(a)可以看出，隨著訓練集數(shù)據(jù)量增大，基于CNN 網(wǎng)絡(luò)故障分類算法和本文提出的方法在不同集成學習模型下的分類準確率都在提高，在相同訓練集數(shù)據(jù)量時，本文提出的方法在XGBoost 集成學習模型下的分類準確率高于CNN 算法。CNN 算法的分類準確率高于LightGBM 和CatBoost 集成學習模型，說明基于CNN 的網(wǎng)絡(luò)故障分類算法有一定的效果。如果在數(shù)量集足夠多的情況下，可能CNN 算法的分類效果會更好，但是由于數(shù)據(jù)量有限，就目前數(shù)據(jù)來看，XGBoost 集成學習模型的分類準確率更高。其主要原因是：本文提出的基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)故障分類算法考慮告警和故障之間的潛在特征，并將告警相關(guān)的特征進行了處理，挖掘到的特征可以更好地區(qū)分故障類別。而文獻[15]中提出的基于卷積神經(jīng)網(wǎng)絡(luò)的故障分類算法，并沒有考慮告警標題、時間等潛在信息，只是將告警和故障根據(jù)時間進行劃分，所以信息挖掘不充分。

圖6(b) 中，對比幾種模型運行時間的差異，從圖可得，隨數(shù)據(jù)量增大，所有模型的運行時間都增大。4 種模型的運行時間：CatBoost＞CNN＞XGBoost＞LightBG。雖然LightGBM 的運行時間最短，但準確率最小。而新數(shù)據(jù)集在XGBoost 集成學習模型下的運行時間小于CNN，因此，本文提出的方法所得到的新數(shù)據(jù)集在XGBoost 這種集成學習模型下的效果最好。

圖6 不同數(shù)據(jù)規(guī)模下的結(jié)果Fig.6 Results under different data scales

綜上所述，本文提出的基于數(shù)據(jù)挖掘方法所得到的新數(shù)據(jù)集，在XGBoost 集成學習模型上有更好的分類準確率和更快的分類結(jié)果，可以用于通信網(wǎng)絡(luò)故障分類。但所提出的方法也存在一定的缺點，所使用的數(shù)據(jù)量有局限，未來如果可以獲取到更多的有效數(shù)據(jù)集，可以再做進一步的研究。

4 結(jié)束語

本文根據(jù)通信網(wǎng)絡(luò)告警數(shù)據(jù)和網(wǎng)絡(luò)故障數(shù)據(jù)，進行數(shù)據(jù)挖掘和特征構(gòu)造，得到一些潛在的特征信息，將潛在特征與原數(shù)據(jù)一同進行模型的訓練與預測，從結(jié)果可以看出得到的新數(shù)據(jù)集在XGBoost 集成學習模型上的分類準確率更高。其次，從XGBoost 和CNN 算法的運行時間來看，XGBoost 的運行時間更短，可以在短時間內(nèi)得到網(wǎng)絡(luò)的故障類型。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡