基于數(shù)據(jù)挖掘的光纖通信網(wǎng)絡異常數(shù)據(jù)檢測研究

2020-04-12 14:17

應用光學 2020年6期

（內(nèi)蒙古農(nóng)業(yè)大學計算機與信息工程學院，內(nèi)蒙古呼和浩特 010018）

引言

隨著計算機網(wǎng)絡應用與光纖傳感技術的不斷發(fā)展，基于光纖傳輸?shù)幕ヂ?lián)網(wǎng)絡被大量應用于生活、生產(chǎn)等領域，由于光纖傳感網(wǎng)絡具有通信容量大、傳輸距離遠、成本低等特點[1-2]，所以得到了廣泛推廣及應用。隨著光纖傳輸網(wǎng)絡中用戶端以指數(shù)量級增長，通信故障造成的異常數(shù)據(jù)也不斷增多。在規(guī)模巨大的互聯(lián)網(wǎng)數(shù)據(jù)中快速分析識別異常數(shù)據(jù)并加以定位是十分困難的，因為數(shù)據(jù)傳輸過程中不可能將所有信息全部獲取后才完成分析及信息識別，所以必然有很多信息在傳輸過程中被省略，這些省略的信息中不可避免的存在有效信息，從而導致信息熵的增加，降低了現(xiàn)有通信故障檢測效率[3]。

光纖通信網(wǎng)絡[4]中異常數(shù)據(jù)的識別需要從當前所有數(shù)據(jù)中提取異常數(shù)據(jù)的數(shù)據(jù)特征及模式結構，將異常數(shù)據(jù)特征與模式結構作為訓練樣本進行學習，從而對大數(shù)據(jù)中其他故障終端產(chǎn)生的異常數(shù)據(jù)進行快速精確識別[5]。利用該算法找出異常數(shù)據(jù)所對應的各變量間的邏輯關系。光纖傳感網(wǎng)絡中數(shù)據(jù)量巨大，采用大數(shù)據(jù)挖掘技術能夠更好地將異常數(shù)據(jù)特征提取出來。傳統(tǒng)的識別方法主要包括：BP神經(jīng)網(wǎng)絡[6]、時序分析法[7]、遺傳算法[8]、粗糙集[9]等。BP神經(jīng)網(wǎng)絡可適用于此類非線性問題并且具有一定的自學習能力，但在數(shù)據(jù)量很大時容易陷入局部極值問題[10]；時序分析法是基于時間順序?qū)?shù)據(jù)進行統(tǒng)計分析的方法，本質(zhì)是統(tǒng)計規(guī)律的總結，它是網(wǎng)絡中異常數(shù)據(jù)分析的常見方法，對具備先驗知識的數(shù)據(jù)分類簡單易實現(xiàn)，但預測精度較差[11]；遺傳算法可實現(xiàn)多個體同時比較，有利于多參數(shù)協(xié)調(diào)優(yōu)化，其本質(zhì)是參數(shù)權值的動態(tài)調(diào)整，這與網(wǎng)絡數(shù)據(jù)交互是十分相似的，但其算子參數(shù)選擇大多靠經(jīng)驗完成，在海量數(shù)據(jù)中容易陷入局部極值解[12]；粗糙集的最大優(yōu)勢是能處理不完整、不精確的數(shù)據(jù)，對不確定特征屬性的識別具有一定幫助，但易受噪聲影響，穩(wěn)定性差[13-15]。由此可見，現(xiàn)有算法各有特色，但對于日漸龐大的數(shù)據(jù)規(guī)模和異常數(shù)據(jù)種類，采用信息熵作為目標函數(shù)完成異常數(shù)據(jù)的挖掘可以限定實際尋優(yōu)范圍。本文利用自主機器學習的數(shù)據(jù)挖掘技術實現(xiàn)多算法融合，設計了熵目標函數(shù)最優(yōu)化算法。該算法的優(yōu)勢在于信息熵解算本身就是面向海量數(shù)據(jù)的，且是針對信息值的，不需要先驗數(shù)據(jù)特征。

1 異常數(shù)據(jù)特征屬性分類

1.1 樣本屬性分類

采用挖掘技術[16]中的聚類算法對異常數(shù)據(jù)進行特征聚類。設所有待檢測數(shù)據(jù)點集合為M，其中存在N個異常數(shù)據(jù)樣本集合。異常數(shù)據(jù)樣本對應的權值為cj（t），j=1，2，…，K；異常數(shù)據(jù)聚類權值為c′i（t?1），i=1，2，…，K′。異常數(shù)據(jù)樣本對應的權值由其可能造成的錯誤嚴重程度給出，通常由數(shù)據(jù)用戶提供。將Kt個異常數(shù)據(jù)樣本xj（1）歸類到K個聚類中心，則異常數(shù)據(jù)聚類中心可表示為

式中：μij是異常數(shù)據(jù)樣本相對聚類中心的模糊隸屬度（集合成員若被定義為0 或1，則成員介于[0，1]之間的集合可稱之為“模糊隸屬度”，用于表達具有不確定性的數(shù)據(jù)。），1≤i≤K′，1≤j≤Kt。

設存在n個d維的異常數(shù)據(jù)特征集合，表示為X=（x1,x2,…,xn），則每個特征xi所對應的密度指標可表示為

式中：ra為異常數(shù)據(jù)特征xi的鄰域區(qū)間半徑，設該區(qū)間中密度最大值為x1，則密度指標為D1。若xl是第l次的異常數(shù)據(jù)聚類中心，其密度指標有Dl，則（2）式有：

式中，rb為異常數(shù)據(jù)特征密度指標的鄰域區(qū)間半徑。由此可見，異常數(shù)據(jù)的特征可由Dk+1/D1的比值進行分選，比值越小，則其聚類結果越好。

1.2 特征提取優(yōu)化

基于屬性特征密度的判據(jù)可以完成特征分類，但是Dk+1/D1閾值的選取直接影響了聚類質(zhì)量，故本文設計了利用高階統(tǒng)計量作為模型補償參數(shù)的特征提取優(yōu)化算法。設數(shù)據(jù)集合為M={m1,m2,…,mm}，個體最優(yōu)解集合為Pi={pi1,pi2,…,pid}，全局最優(yōu)解集合為Pg={pg1,pg2,…,pgd}，在則異常數(shù)據(jù)判斷更新策略有

式中：xid表示第i個節(jié)點在第d維中的異常數(shù)據(jù)集合中的一個數(shù)據(jù)點；{C1，C2}為優(yōu)化加速系數(shù)；{r1，r2}為[0,1]的隨機值，由此構建的模型可使數(shù)據(jù)具有更好的相關性。首先，將求解分布聚類的最大值，有

然后，求解平均粒度，有：

式中：dij（t）為第j個采樣點i維上的分布聚類；d為異常數(shù)據(jù)維度；m為總樣本M中的數(shù)據(jù)個數(shù)。最后，設高階統(tǒng)計量的數(shù)據(jù)聚類度是k，則其函數(shù)可表示為

對k值的循環(huán)迭代即可實現(xiàn)對特征提取參數(shù)優(yōu)化選擇。

2 異常數(shù)據(jù)檢測與實現(xiàn)

2.1 函數(shù)構建

在上述異常數(shù)據(jù)特征優(yōu)化提取的基礎上，對光纖傳感網(wǎng)絡中的所有待測數(shù)據(jù)進行檢測。由光纖故障導致的異常數(shù)據(jù)類型有很多，使異常數(shù)據(jù)的屬性結構各不相同，故單純采用傳統(tǒng)的樣本方差或平方差形式會造成識別誤差大的問題。本文提出了基于熵目標函數(shù)最優(yōu)化的異常數(shù)據(jù)檢測算法，根據(jù)光纖網(wǎng)絡中異常數(shù)據(jù)隨機性強的特點，引入熵描述數(shù)據(jù)的不確定度，設t時刻異常數(shù)據(jù)特征為X（t），對第i個樣本屬性而言，P（xi（t））為樣本屬性xi（t）的概率，則熵H有：

結合樣本方差S2有：

將（8）式和（9）式作為異常數(shù)據(jù)判別依據(jù)后，熵目標函數(shù)有：

式中：α和β為權重系數(shù)，α+β=1，α>0，β>0。該函數(shù)即為異常數(shù)據(jù)檢測函數(shù)。

2.2 算法實現(xiàn)

為了獲得光纖通信網(wǎng)絡中異常數(shù)據(jù)識別的最優(yōu)函數(shù)值，實現(xiàn)算法步驟如下：

1）在初始時刻t=0時，將光纖網(wǎng)絡中已有的異常數(shù)據(jù)特征參數(shù)載入算法，自動檢索半徑設為R，信息特征閾值設為T，迭代次數(shù)為i；

2）將光纖網(wǎng)絡中異常數(shù)據(jù)屬性特征X（t）構建的目標函數(shù)F（xi（t））作為目標值，將τ設為目標的值，構建符合檢索半徑R的適應度函數(shù)：

3）帶入初值后獲得標的值的初值F（R,0），經(jīng)過算法迭代令F（R,0）趨近F的全局最優(yōu)解Fbest，從而得到f（R,0），判別依據(jù)有：

4）在所有待測數(shù)據(jù)集合M中循環(huán)運行（9）式和（10）式，從而獲得Fbest和f（R,0），當f（R,τ）>f（R,0），更新Fbest和f（R,0）；否則，進入下一個數(shù)據(jù)檢測循環(huán)；

5）將P（xi（t））映射到搜索域中，導入下式：

將輸出數(shù)據(jù)與f（R,0）進行比較，若大于f（R,0），用F（R,i）替換Fbest，f（R,i）替換f（R,0）；若小于等于f（R,0），則設i=i+1，轉(zhuǎn)入判斷下一個數(shù)據(jù)的異常判斷概率計算，直至結束；

6）循環(huán)得到迭代后的f（R,i），與T進行比較，當f（R,i）T時，結束循環(huán)，輸出Fbest；

7）將Fbest帶入異常數(shù)據(jù)檢測函數(shù)計算標的值，結束運行。

由此完成算法，流程圖如圖1所示。

圖1 熵目標函數(shù)優(yōu)化算法流程圖Fig.1 Flow chart of optimization algorithm for entropy objective function

2.3 算法評價

為了驗證算法具有更好的適用性，主要從數(shù)據(jù)融合率、檢測精度、檢測耗時以及誤檢率4個方面進行分析。數(shù)據(jù)融合率用于考察算法對不同數(shù)據(jù)的融合能力；檢測精度用于考察對異常數(shù)據(jù)物理位置的計算精度；檢測耗時用于描述算法的處理速度；誤檢率用于檢出異常點與總點數(shù)之比，是最直接反映算法性能的評價參數(shù)。

3 實驗

為了驗證本算法的異常數(shù)據(jù)檢測精度及運算速度，實驗在VS2005 平臺下利用C#語言完成。系統(tǒng)包括主頻3.0 GHz的CPU、2 GB的內(nèi)存和Xeon e5 型服務器。將異常數(shù)據(jù)狀態(tài)信息、光時域反射儀（optical time domain reflectometer，OTDR）測試信息進行對比，從而進行評價。

3.1 數(shù)據(jù)狀態(tài)分類

針對實驗室光纖網(wǎng)絡服務器系統(tǒng)2019年的通信記錄信息，分別將狀態(tài)信息、OTDR測試信息以及數(shù)據(jù)占用率等進行了對比，并按照光纖網(wǎng)絡系統(tǒng)中不同的狀態(tài)組合進行了對比，M{M1，M2，…，Mn}就是數(shù)據(jù)集合，則測試數(shù)據(jù)如表1所示。

對所有光纖通信網(wǎng)中的狀態(tài)數(shù)據(jù)進行匯總，然后利用本算法進行分類識別，對異常數(shù)據(jù)進行標記，并與OTDR測試結果對比，分析算法數(shù)據(jù)識別的能力。為了保證訓練效果，取50組正常數(shù)據(jù)（P）與50組各類不同異常數(shù)據(jù)（Q）構建樣本，分別采用時序分析法（常用的數(shù)據(jù)規(guī)律統(tǒng)計方法，與其對比可以體現(xiàn)出本算法處理結果與數(shù)據(jù)統(tǒng)計規(guī)律的符合程度。）與BP神經(jīng)網(wǎng)絡（常用的參數(shù)權重調(diào)整方法，與其對比可以體現(xiàn)出本算法最終參數(shù)選擇的適應度。）進行對比。

表1 異常數(shù)據(jù)與光纖網(wǎng)絡狀態(tài)測試表Table1 Abnormal data and fiber network state test

3.2 結果對比

驗證集為1 000組隨機通信數(shù)據(jù)，訓練后分別求取3種算法的數(shù)據(jù)融合率、檢測精度、檢測耗時以及誤檢率，結果如圖2所示。數(shù)據(jù)融合率為原始數(shù)據(jù)與融合數(shù)據(jù)之差再與原始數(shù)據(jù)的比，該指標反映了算法特征分類的能力。當在特征提取過程中選取的聚類精度不同時，相同屬性的數(shù)據(jù)融合效果如圖2（a）所示，3種方法結果在精度較低時相近，隨著識別精度的提高，本算法略優(yōu)于其它兩種算法；如圖2（b）所示，本算法的檢測精度基本不隨樣本個數(shù)的增大而減小，其均值約為95.7%，時序法均值約為84.6%，BP神經(jīng)網(wǎng)絡法會隨著數(shù)據(jù)量增大而明顯下降；如圖2（c）所示，本算法與BP神經(jīng)網(wǎng)絡法的收斂時間相近，時序法計算速度受樣本總量的影響較大；如圖2（d）所示，本算法和BP神經(jīng)網(wǎng)絡法的誤檢率波動較小，本算法效果最好，平均誤檢率僅為1.67%，BP神經(jīng)網(wǎng)絡法次之，為4.05%，而時序法受樣本個數(shù)增加而出現(xiàn)較大偏差。綜上所述，本算法對異常數(shù)據(jù)的屬性分類具有很好的效果，在檢測精度與誤檢率上相比傳統(tǒng)方法均具有一定提升。

圖2 不同算法數(shù)據(jù)處理性能對比Fig.2 Comparison of data processing performance by different algorithms

4 結論

本文提出了一種基于熵目標函數(shù)最優(yōu)化的異常數(shù)據(jù)檢測算法。利用對數(shù)據(jù)屬性的特征分類完成對異常數(shù)據(jù)特征的提取，再通過高階統(tǒng)計量的大數(shù)據(jù)聚類迭代完成樣本數(shù)據(jù)熵目標函數(shù)的最優(yōu)計算。實驗對1 000組光纖通信數(shù)據(jù)進行分類，并與傳統(tǒng)檢測方法進行對比，結果顯示，本算法在檢測精度上具有明顯優(yōu)勢，并且在數(shù)據(jù)融合率、檢測耗時以及誤檢率方面也略強于傳統(tǒng)算法，具有一定的應用價值。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡