国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于無監(jiān)督學(xué)習(xí)的無線網(wǎng)絡(luò)性能異常檢測方法

2022-07-18 08:58:00吳艷芹胡華偉
無線電通信技術(shù) 2022年4期
關(guān)鍵詞:二叉樹成功率聚類

張 樂,吳艷芹,楊 昊,張 平,胡華偉

(1.中國電信股份有限公司研究院,北京 102209;2.中國電信股份有限公司福建分公司,福建 福州 350001)

0 引言

無線網(wǎng)絡(luò)作為運營商網(wǎng)絡(luò)中重要的一部分,一旦發(fā)生性能劣化,會對用戶體驗帶來較大影響,實時監(jiān)控網(wǎng)絡(luò)運行的狀況,電信運營需要發(fā)現(xiàn)潛在的問題并對已發(fā)生問題的區(qū)域和設(shè)備進(jìn)行準(zhǔn)確、及時的定位分析。由于人工篩查性能異常具有滯后性,難以早期發(fā)現(xiàn),且已有的案例和經(jīng)驗難以復(fù)用和擴(kuò)展,因此規(guī)則高度依賴于運營專家的經(jīng)驗,而且維護(hù)難度大。

鑒于以上問題,本文利用無監(jiān)督學(xué)習(xí)及統(tǒng)計分析技術(shù)對性能指標(biāo)數(shù)據(jù)進(jìn)行診斷識別,對性能異常實現(xiàn)早期快速識別,進(jìn)一步提升用戶體驗以及網(wǎng)絡(luò)質(zhì)量。

1 問題描述

性能異常問題主要包含如何定義性能劣化、性能雪崩,以及如何根據(jù)不同場景、不同時段、不同指標(biāo)合理設(shè)定閾值。如圖1所示,性能劣化和性能雪崩的定義并無明確的界限,主要在于性能指標(biāo)異常程度的不同,通常情況下性能雪崩相對于性能劣化的異常程度更嚴(yán)重,而如何合理設(shè)定閾值則是本文希望解決的問題。

圖1 性能劣化與性能雪崩

現(xiàn)今對于性能劣化的判斷規(guī)則,無一例外均高度依賴于運營專家的經(jīng)驗,需要長年累月的積累,形成過程耗時耗力,且并不一定完全合理。而且規(guī)則中告警/預(yù)警準(zhǔn)確度比較高的同時伴有一定滯后性,無法做到提前發(fā)現(xiàn)和提前預(yù)警,且各地運營規(guī)則不同,不易形成一套具有普適性的規(guī)則閾值生成方法。

2 性能異常檢測算法

相對于現(xiàn)有性能異常問題診斷方法,智能算法通過對小區(qū)的關(guān)鍵性能指標(biāo)的數(shù)據(jù)進(jìn)行分析,采用統(tǒng)計學(xué)方法、聚類算法等獲取更加合理的性能異常門限[1]。本文提出的算法大體上可以分為三類:一類為基于統(tǒng)計學(xué)特征(如3-sigma檢測、同比/環(huán)比檢測等);第二類為基于密度(如異常點/離群點檢測算法、孤立森林算法等);第三類為基于聚類(如K均值算法+異常點/離群點檢測算法等)。

2.1 基于統(tǒng)計特征的異常檢測

(1) 3-sigma檢測

基于3-sigma的異常檢測算法(Anomaly Detection Algorithm),其算法的核心思想是[2-4]:假定數(shù)據(jù)集滿足正態(tài)分布,計算數(shù)據(jù)集的數(shù)學(xué)期望μ和方差σ2,并且利用少量的Cross Validation集來確定一個閾值ε;當(dāng)給出一個新的點時,定義異常值的方法為,若該值與平均值的偏差超過ε,則判斷為異常點。

(2) 同比/環(huán)比檢測

通過設(shè)置規(guī)則和閾值[5-7],可以對指標(biāo)同比突降、指標(biāo)環(huán)比下降等進(jìn)行監(jiān)控,增加指標(biāo)檢測手段。

2.2 基于密度的異常檢測

2.2.1 LOF檢測法

LOF(Local Outlier Factor)算法主要涉及的概念[8-9]:

①d(p,o):兩點p和o之間的距離。

②k-distance:第k距離。

對于點p的第k距離dk(p)定義如下:dk(p)=d(p,o),并且滿足:

a.在數(shù)據(jù)集中至少有不包括p在內(nèi)的k個點o′∈C{x≠p},滿足d(p,o′)≤d(p,o);

b.在數(shù)據(jù)集中最多存在不包含p點在內(nèi)的k-1個點o′∈C{x≠p},滿足d(p,o′)

其中點p的第k距離,即距離p點第k遠(yuǎn)的點的距離值,不包含p,如下圖2(a)。

(a) 第k距離

③ 第k距離鄰域,點p的第k距離鄰域Nk(p),就是點p的第k距離半徑內(nèi)的所有的點,包括第k距離所對應(yīng)的點,因此,p的第k鄰域點的個數(shù)|Nk(p)|≥k。

④ 可達(dá)距離,點o到點p的第k可達(dá)距離定義為:

k(p,o)=max{k-distance(o),d(p,o)},

其中,k(p,o)表示o點到p點的第k可達(dá)距離,至少是o的第k距離,或者為o、p間的真實距離。如圖2(b),o1到p的第5可達(dá)距離為d5(p,o1),o2到p的第5可達(dá)距離為d5(p,o2)。

⑤ 局部可達(dá)密度,點p的局部可達(dá)密度表示為:

其中,點p的局部可達(dá)密度越高,點p越有可能與當(dāng)前的領(lǐng)域內(nèi)其他的點屬于同一簇,密度越低,點p越可能是離群點。

⑥ 局部離群因子,點p的局部離群因子表示為:

局部離群因子的值約接近1,標(biāo)識點p的與鄰域內(nèi)的其他點越有可能是同一簇;局部離群因子的值越大,則表明點p的密度值越小,與p的鄰域內(nèi)其他點的密度越不一致,則點p越可能是異常點[10-12]。

2.2.2 孤立森林算法(Ifortst)

以二維數(shù)據(jù)為例,如圖3所示,圖中A點和B點為離群點,希望將點A和點B單獨切分出來[13]。先隨機(jī)指定一個維度,當(dāng)前維度的取值區(qū)間捏隨機(jī)選擇一個切割點p,按照該切割點將數(shù)據(jù)集進(jìn)行左右切割,切割為兩個子集,將小于p點的節(jié)點放在左子集,大于等于p點的節(jié)點放在右子集。然后,在左右兩組子集中,重復(fù)上述步驟,不斷指定維度對數(shù)據(jù)集進(jìn)行切分,構(gòu)造新的子集,直到每個數(shù)據(jù)子集僅剩一個數(shù)據(jù)點,無法再繼續(xù)分割,或者剩下的數(shù)據(jù)全部相同為止。

圖3 孤立森林算法異常點切割

由圖3可知,點B處在較為稀疏的位置,與其他的點距離較遠(yuǎn),通過少量的分割就可以將點B分割出來,點A處在較為稀疏的位置,需要的分割次數(shù)更多一些。孤立森林算法采用二叉樹去對數(shù)據(jù)集進(jìn)行分割,被分割的數(shù)據(jù)點在二叉樹中所處的深度反應(yīng)了該條數(shù)據(jù)的“疏離”程度。整個算法大致可以分為兩步:

步驟1訓(xùn)練:在總數(shù)據(jù)集中,隨機(jī)抽取多個樣本,作為構(gòu)建多棵二叉樹的訓(xùn)練集。

構(gòu)建一棵二叉樹時,先從總數(shù)據(jù)集中抽取樣本容量為n的樣本集,然后隨機(jī)選擇一個特征維度作為該樣本集的根節(jié)點,并隨機(jī)在特征的取值區(qū)間選擇一個值,將樣本集劃分為左右子集,然后分別在左右子集中,重復(fù)上述步驟,直到滿足如下條件:

① 數(shù)據(jù)不可再分,即只包含一條數(shù)據(jù),或者全部數(shù)據(jù)相同。

② 二叉樹達(dá)到限定的最大深度。

步驟2預(yù)測:根據(jù)多棵二叉樹的結(jié)果,計算每個數(shù)據(jù)點的異常分值。

數(shù)據(jù)x的異常分值計算:先要估算x在每棵二叉樹中的深度,即從根節(jié)點到葉子節(jié)點經(jīng)過的邊的個數(shù)。設(shè)二叉樹的訓(xùn)練樣本中落在x所在葉子節(jié)點的樣本數(shù)為T.size,則數(shù)據(jù)x在這棵二叉樹上的路徑長度h(x),可以用這個公式計算:

h(x)=e+C(T.size),

其中,e為數(shù)據(jù)x在二叉樹深度,C(T.size)為一個修正值,它表示該二叉樹的平均路徑長度。一般的,C(n)的計算公式如下:

其中,H(n-1)可用ln(n-1)+0.5772156649估算,此處的常數(shù)是歐拉常數(shù)。結(jié)合多棵二叉樹,數(shù)據(jù)x最終的異常分值如下:

其中,E(h(x))表示數(shù)據(jù)x在多棵二叉樹的深度的平均值,需對多棵樹的結(jié)果進(jìn)行歸一化。

從上述對異常分值的計算可以看出,如果數(shù)據(jù)x在每棵樹中的平均深度越短,得分越接近1,則數(shù)據(jù)點x越異常;如果平均深度越短,得分越接近0,則x越可能是個正常點。

2.3 基于聚類的異常檢測

KMeans算法原理簡單,容易實現(xiàn),可解釋度較強(qiáng),故此采用KMeans算法做聚類分析。

KMeans聚類算法:選擇初始化的k個樣本作為聚類中心,其中k為聚類的類別數(shù)。計算數(shù)據(jù)集中每個樣本到k個聚類中心的距離,將樣本歸類到距離最近的類中,然后重新計算每個類的質(zhì)心,重復(fù)以上步驟,直到迭代次數(shù),或者最小誤差小于特定閾值為止。這樣最終確定每個樣本所屬的類及每個類的質(zhì)心。

3 算法實驗及結(jié)果分析

3.1 數(shù)據(jù)準(zhǔn)備

實驗中所用的性能數(shù)據(jù)為選定市區(qū)2021年6月-8月的數(shù)據(jù),包括RRC連接成功率、E-RAB連接成功率、eNodeB內(nèi)切換成功率、X2接口切換成功率及S1接口切換成功率等性能指標(biāo)。

3.2 基于統(tǒng)計特征實驗分析

基于統(tǒng)計特征的性能異常檢測方法利用各異常指標(biāo)的質(zhì)量信息的均值和標(biāo)準(zhǔn)差來劃定閾值,將“質(zhì)量信息小于百分比均值-(a*標(biāo)準(zhǔn)差)”劃定為異常(a為系數(shù),此處等于3),與原始標(biāo)定的結(jié)果(小時粒度達(dá)到門限)做比較。

其部分結(jié)果和案例如表1所示,通過表1不難發(fā)現(xiàn)盡管各異常指標(biāo)質(zhì)量信息分布有所不同,但通過調(diào)整樣本的分布,可以使得劃定的閾值滿足各異常指標(biāo)的檢測結(jié)果,均可達(dá)到較好效果。

表1 基于統(tǒng)計特征的性能異常檢測結(jié)果和案例

3.3 基于密度的實驗分析

3.3.1 基于LOF算法

(1) 原始數(shù)據(jù)異常檢測

采集某市區(qū)兩個月運行的現(xiàn)網(wǎng)數(shù)據(jù)中字段列表1的38種性能數(shù)據(jù)作為樣本集,隨機(jī)選取70%作為訓(xùn)練集,剩余30%作為測試集,利用LOF算法進(jìn)行建模,調(diào)整參數(shù)使得模型盡可能學(xué)習(xí)到更多有效特征。

為了方便評價模型的好壞,樣本集需要進(jìn)行標(biāo)注,相當(dāng)于半監(jiān)督學(xué)習(xí)。在參數(shù)n_neighbors= 3 000時效果最好,AUC值為0.580 3。

(2) 歸一化數(shù)據(jù)后異常檢測

此處只將數(shù)值型特征進(jìn)行歸一化處理,百分比型特征不做處理,構(gòu)成新的數(shù)據(jù)集用于訓(xùn)練模型,分別嘗試了3種不同的歸一化方法:分位數(shù)歸一、正則歸一和10為底的log函數(shù)歸一化處理。

經(jīng)過歸一化處理以后,數(shù)據(jù)的分布更加合理,模型的泛化能力更強(qiáng),分位數(shù)歸一在參數(shù)n_neighbors= 40時,AUC最大值達(dá)到了0.946 5;正則化歸一在參數(shù)n_neighbors= 180時,AUC最大值達(dá)到了0.930 4;10為底的log函數(shù)歸一化處理在參數(shù)n_neighbors= 22時,AUC最大值達(dá)到了0.905 7,歸一化效果明顯。

3.3.2 基于IForest算法

訓(xùn)練集與測試集LOF算法所用訓(xùn)練集與測試集歸一化前一樣,利用LOF算法進(jìn)行建模,調(diào)整參數(shù)使得模型盡可能學(xué)習(xí)到更多有效特征。

在參數(shù)n_estimators=200,contamination= 0.15時效果最好,AUC為0.620 7。

3.4 基于聚類的實驗分析

基于密度的算法中用量信息數(shù)值往往很大,對密度結(jié)果影響也很大,鑒于此,先對各異常指標(biāo)的用量信息處理歸一化后做KMeans聚類分析[14-15],將聚得的類再進(jìn)行LOF異常值檢測。

其中聚類類別分為8類時效果最好,AUC值為0.970 6,準(zhǔn)確率為0.994 1,相對于基于密度的方法有了較大提高。

3.5 結(jié)果分析

以效果最好的基于聚類的異常檢測方法為例,分別統(tǒng)計了RRC連接成功率、ERAB連接成功率、eNodeB站內(nèi)切換成功率、X2內(nèi)切換成功率和S1內(nèi)切換成功率5類指標(biāo)的異常檢測結(jié)果,具體如圖4所示。

由圖4可知,基于聚類的異常檢測算法對各項指標(biāo)的異常判斷較為均衡,同時準(zhǔn)確率高,達(dá)到了對于性能異常檢測的預(yù)期。

圖4 聚類異常檢測部分指標(biāo)結(jié)果

4 結(jié)論

本文針對無線網(wǎng)絡(luò)性能異常檢測問題,提出了3種無監(jiān)督異常檢測方法,分別為基于統(tǒng)計特征的異常檢測、基于密度的異常檢測、基于聚類的異常檢測,并采用實際性能數(shù)據(jù)對各種異常檢測方法進(jìn)行測試。實驗結(jié)果表明,異常檢測算法中基于聚類的算法效果最好,AUC值為0.970 6,準(zhǔn)確率為0.994 1。本文通過將AI 技術(shù)應(yīng)用于無線網(wǎng)絡(luò)性能預(yù)測,幫助運維人員及時掌握無線網(wǎng)絡(luò)的運行狀況與趨勢,實現(xiàn)性能劣化預(yù)測預(yù)判,增強(qiáng)主動運維能力,防患于未然,有效提升客戶體驗。

猜你喜歡
二叉樹成功率聚類
CSP真題——二叉樹
電腦報(2022年37期)2022-09-28 05:31:07
成功率超70%!一張冬棚賺40萬~50萬元,羅氏沼蝦今年將有多火?
二叉樹創(chuàng)建方法
如何提高試管嬰兒成功率
如何提高試管嬰兒成功率
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
一種由層次遍歷和其它遍歷構(gòu)造二叉樹的新算法
基于改進(jìn)的遺傳算法的模糊聚類算法
研究發(fā)現(xiàn):面試排第四,成功率最高等4則
海峽姐妹(2015年5期)2015-02-27 15:11:00
一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
元氏县| 桃园市| 衡山县| 衡阳县| 沅陵县| 安泽县| 宜川县| 大竹县| 牡丹江市| 宜兰市| 北票市| 东阿县| 修文县| 托里县| 邳州市| 乌拉特中旗| 永修县| 龙南县| 嘉善县| 松原市| 肃南| 安西县| 兴山县| 新巴尔虎左旗| 平定县| 甘洛县| 鞍山市| 鹤山市| 梅河口市| 萨迦县| 于都县| 尚义县| 团风县| 洛浦县| 芮城县| 梁平县| 昌吉市| 杭锦旗| 安新县| 寻乌县| 桦川县|