国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)挖掘的光纖通信網(wǎng)絡異常數(shù)據(jù)檢測研究

2020-04-12 14:17
應用光學 2020年6期
關鍵詞:光纖網(wǎng)絡聚類精度

(內(nèi)蒙古農(nóng)業(yè)大學 計算機與信息工程學院,內(nèi)蒙古 呼和浩特 010018)

引言

隨著計算機網(wǎng)絡應用與光纖傳感技術的不斷發(fā)展,基于光纖傳輸?shù)幕ヂ?lián)網(wǎng)絡被大量應用于生活、生產(chǎn)等領域,由于光纖傳感網(wǎng)絡具有通信容量大、傳輸距離遠、成本低等特點[1-2],所以得到了廣泛推廣及應用。隨著光纖傳輸網(wǎng)絡中用戶端以指數(shù)量級增長,通信故障造成的異常數(shù)據(jù)也不斷增多。在規(guī)模巨大的互聯(lián)網(wǎng)數(shù)據(jù)中快速分析識別異常數(shù)據(jù)并加以定位是十分困難的,因為數(shù)據(jù)傳輸過程中不可能將所有信息全部獲取后才完成分析及信息識別,所以必然有很多信息在傳輸過程中被省略,這些省略的信息中不可避免的存在有效信息,從而導致信息熵的增加,降低了現(xiàn)有通信故障檢測效率[3]。

光纖通信網(wǎng)絡[4]中異常數(shù)據(jù)的識別需要從當前所有數(shù)據(jù)中提取異常數(shù)據(jù)的數(shù)據(jù)特征及模式結構,將異常數(shù)據(jù)特征與模式結構作為訓練樣本進行學習,從而對大數(shù)據(jù)中其他故障終端產(chǎn)生的異常數(shù)據(jù)進行快速精確識別[5]。利用該算法找出異常數(shù)據(jù)所對應的各變量間的邏輯關系。光纖傳感網(wǎng)絡中數(shù)據(jù)量巨大,采用大數(shù)據(jù)挖掘技術能夠更好地將異常數(shù)據(jù)特征提取出來。傳統(tǒng)的識別方法主要包括:BP神經(jīng)網(wǎng)絡[6]、時序分析法[7]、遺傳算法[8]、粗糙集[9]等。BP神經(jīng)網(wǎng)絡可適用于此類非線性問題并且具有一定的自學習能力,但在數(shù)據(jù)量很大時容易陷入局部極值問題[10];時序分析法是基于時間順序?qū)?shù)據(jù)進行統(tǒng)計分析的方法,本質(zhì)是統(tǒng)計規(guī)律的總結,它是網(wǎng)絡中異常數(shù)據(jù)分析的常見方法,對具備先驗知識的數(shù)據(jù)分類簡單易實現(xiàn),但預測精度較差[11];遺傳算法可實現(xiàn)多個體同時比較,有利于多參數(shù)協(xié)調(diào)優(yōu)化,其本質(zhì)是參數(shù)權值的動態(tài)調(diào)整,這與網(wǎng)絡數(shù)據(jù)交互是十分相似的,但其算子參數(shù)選擇大多靠經(jīng)驗完成,在海量數(shù)據(jù)中容易陷入局部極值解[12];粗糙集的最大優(yōu)勢是能處理不完整、不精確的數(shù)據(jù),對不確定特征屬性的識別具有一定幫助,但易受噪聲影響,穩(wěn)定性差[13-15]。由此可見,現(xiàn)有算法各有特色,但對于日漸龐大的數(shù)據(jù)規(guī)模和異常數(shù)據(jù)種類,采用信息熵作為目標函數(shù)完成異常數(shù)據(jù)的挖掘可以限定實際尋優(yōu)范圍。本文利用自主機器學習的數(shù)據(jù)挖掘技術實現(xiàn)多算法融合,設計了熵目標函數(shù)最優(yōu)化算法。該算法的優(yōu)勢在于信息熵解算本身就是面向海量數(shù)據(jù)的,且是針對信息值的,不需要先驗數(shù)據(jù)特征。

1 異常數(shù)據(jù)特征屬性分類

1.1 樣本屬性分類

采用挖掘技術[16]中的聚類算法對異常數(shù)據(jù)進行特征聚類。設所有待檢測數(shù)據(jù)點集合為M,其中存在N個異常數(shù)據(jù)樣本集合。異常數(shù)據(jù)樣本對應的權值為cj(t),j=1,2,…,K;異常數(shù)據(jù)聚類權值為c′i(t?1),i=1,2,…,K′。異常數(shù)據(jù)樣本對應的權值由其可能造成的錯誤嚴重程度給出,通常由數(shù)據(jù)用戶提供。將Kt個異常數(shù)據(jù)樣本xj(1)歸類到K個聚類中心,則異常數(shù)據(jù)聚類中心可表示為

式中:μij是異常數(shù)據(jù)樣本相對聚類中心的模糊隸屬度(集合成員若被定義為0 或1,則成員介于[0,1]之間的集合可稱之為“模糊隸屬度”,用于表達具有不確定性的數(shù)據(jù)。),1≤i≤K′,1≤j≤Kt。

設存在n個d維的異常數(shù)據(jù)特征集合,表示為X=(x1,x2,…,xn),則每個特征xi所對應的密度指標可表示為

式中:ra為異常數(shù)據(jù)特征xi的鄰域區(qū)間半徑,設該區(qū)間中密度最大值為x1,則密度指標為D1。若xl是第l次的異常數(shù)據(jù)聚類中心,其密度指標有Dl,則(2)式有:

式中,rb為異常數(shù)據(jù)特征密度指標的鄰域區(qū)間半徑。由此可見,異常數(shù)據(jù)的特征可由Dk+1/D1的比值進行分選,比值越小,則其聚類結果越好。

1.2 特征提取優(yōu)化

基于屬性特征密度的判據(jù)可以完成特征分類,但是Dk+1/D1閾值的選取直接影響了聚類質(zhì)量,故本文設計了利用高階統(tǒng)計量作為模型補償參數(shù)的特征提取優(yōu)化算法。設數(shù)據(jù)集合為M={m1,m2,…,mm},個體最優(yōu)解集合為Pi={pi1,pi2,…,pid},全局最優(yōu)解集合為Pg={pg1,pg2,…,pgd},在則異常數(shù)據(jù)判斷更新策略有

式中:xid表示第i個節(jié)點在第d維中的異常數(shù)據(jù)集合中的一個數(shù)據(jù)點;{C1,C2}為優(yōu)化加速系數(shù);{r1,r2}為[0,1]的隨機值,由此構建的模型可使數(shù)據(jù)具有更好的相關性。首先,將求解分布聚類的最大值,有

然后,求解平均粒度,有:

式中:dij(t)為第j個采樣點i維上的分布聚類;d為異常數(shù)據(jù)維度;m為總樣本M中的數(shù)據(jù)個數(shù)。最后,設高階統(tǒng)計量的數(shù)據(jù)聚類度是k,則其函數(shù)可表示為

對k值的循環(huán)迭代即可實現(xiàn)對特征提取參數(shù)優(yōu)化選擇。

2 異常數(shù)據(jù)檢測與實現(xiàn)

2.1 函數(shù)構建

在上述異常數(shù)據(jù)特征優(yōu)化提取的基礎上,對光纖傳感網(wǎng)絡中的所有待測數(shù)據(jù)進行檢測。由光纖故障導致的異常數(shù)據(jù)類型有很多,使異常數(shù)據(jù)的屬性結構各不相同,故單純采用傳統(tǒng)的樣本方差或平方差形式會造成識別誤差大的問題。本文提出了基于熵目標函數(shù)最優(yōu)化的異常數(shù)據(jù)檢測算法,根據(jù)光纖網(wǎng)絡中異常數(shù)據(jù)隨機性強的特點,引入熵描述數(shù)據(jù)的不確定度,設t時刻異常數(shù)據(jù)特征為X(t),對第i個樣本屬性而言,P(xi(t))為樣本屬性xi(t)的概率,則熵H有:

結合樣本方差S2有:

將(8)式和(9)式作為異常數(shù)據(jù)判別依據(jù)后,熵目標函數(shù)有:

式中:α和β為權重系數(shù),α+β=1,α>0,β>0。該函數(shù)即為異常數(shù)據(jù)檢測函數(shù)。

2.2 算法實現(xiàn)

為了獲得光纖通信網(wǎng)絡中異常數(shù)據(jù)識別的最優(yōu)函數(shù)值,實現(xiàn)算法步驟如下:

1)在初始時刻t=0時,將光纖網(wǎng)絡中已有的異常數(shù)據(jù)特征參數(shù)載入算法,自動檢索半徑設為R,信息特征閾值設為T,迭代次數(shù)為i;

2)將光纖網(wǎng)絡中異常數(shù)據(jù)屬性特征X(t)構建的目標函數(shù)F(xi(t))作為目標值,將τ設為目標的值,構建符合檢索半徑R的適應度函數(shù):

3)帶入初值后獲得標的值的初值F(R,0),經(jīng)過算法迭代令F(R,0)趨近F的全局最優(yōu)解Fbest,從而得到f(R,0),判別依據(jù)有:

4)在所有待測數(shù)據(jù)集合M中循環(huán)運行(9)式和(10)式,從而獲得Fbest和f(R,0),當f(R,τ)>f(R,0),更新Fbest和f(R,0);否則,進入下一個數(shù)據(jù)檢測循環(huán);

5)將P(xi(t))映射到搜索域中,導入下式:

將輸出數(shù)據(jù)與f(R,0)進行比較,若大于f(R,0),用F(R,i)替換Fbest,f(R,i)替換f(R,0);若小于等于f(R,0),則設i=i+1,轉(zhuǎn)入判斷下一個數(shù)據(jù)的異常判斷概率計算,直至結束;

6)循環(huán)得到迭代后的f(R,i),與T進行比較,當f(R,i)T時,結束循環(huán),輸出Fbest;

7)將Fbest帶入異常數(shù)據(jù)檢測函數(shù)計算標的值,結束運行。

由此完成算法,流程圖如圖1所示。

圖1 熵目標函數(shù)優(yōu)化算法流程圖Fig.1 Flow chart of optimization algorithm for entropy objective function

2.3 算法評價

為了驗證算法具有更好的適用性,主要從數(shù)據(jù)融合率、檢測精度、檢測耗時以及誤檢率4個方面進行分析。數(shù)據(jù)融合率用于考察算法對不同數(shù)據(jù)的融合能力;檢測精度用于考察對異常數(shù)據(jù)物理位置的計算精度;檢測耗時用于描述算法的處理速度;誤檢率用于檢出異常點與總點數(shù)之比,是最直接反映算法性能的評價參數(shù)。

3 實驗

為了驗證本算法的異常數(shù)據(jù)檢測精度及運算速度,實驗在VS2005 平臺下利用C#語言完成。系統(tǒng)包括主頻3.0 GHz的CPU、2 GB的內(nèi)存和Xeon e5 型服務器。將異常數(shù)據(jù)狀態(tài)信息、光時域反射儀(optical time domain reflectometer,OTDR)測試信息進行對比,從而進行評價。

3.1 數(shù)據(jù)狀態(tài)分類

針對實驗室光纖網(wǎng)絡服務器系統(tǒng)2019年的通信記錄信息,分別將狀態(tài)信息、OTDR測試信息以及數(shù)據(jù)占用率等進行了對比,并按照光纖網(wǎng)絡系統(tǒng)中不同的狀態(tài)組合進行了對比,M{M1,M2,…,Mn}就是數(shù)據(jù)集合,則測試數(shù)據(jù)如表1所示。

對所有光纖通信網(wǎng)中的狀態(tài)數(shù)據(jù)進行匯總,然后利用本算法進行分類識別,對異常數(shù)據(jù)進行標記,并與OTDR測試結果對比,分析算法數(shù)據(jù)識別的能力。為了保證訓練效果,取50組正常數(shù)據(jù)(P)與50組各類不同異常數(shù)據(jù)(Q)構建樣本,分別采用時序分析法(常用的數(shù)據(jù)規(guī)律統(tǒng)計方法,與其對比可以體現(xiàn)出本算法處理結果與數(shù)據(jù)統(tǒng)計規(guī)律的符合程度。)與BP神經(jīng)網(wǎng)絡(常用的參數(shù)權重調(diào)整方法,與其對比可以體現(xiàn)出本算法最終參數(shù)選擇的適應度。)進行對比。

表1 異常數(shù)據(jù)與光纖網(wǎng)絡狀態(tài)測試表Table1 Abnormal data and fiber network state test

3.2 結果對比

驗證集為1 000組隨機通信數(shù)據(jù),訓練后分別求取3種算法的數(shù)據(jù)融合率、檢測精度、檢測耗時以及誤檢率,結果如圖2所示。數(shù)據(jù)融合率為原始數(shù)據(jù)與融合數(shù)據(jù)之差再與原始數(shù)據(jù)的比,該指標反映了算法特征分類的能力。當在特征提取過程中選取的聚類精度不同時,相同屬性的數(shù)據(jù)融合效果如圖2(a)所示,3種方法結果在精度較低時相近,隨著識別精度的提高,本算法略優(yōu)于其它兩種算法;如圖2(b)所示,本算法的檢測精度基本不隨樣本個數(shù)的增大而減小,其均值約為95.7%,時序法均值約為84.6%,BP神經(jīng)網(wǎng)絡法會隨著數(shù)據(jù)量增大而明顯下降;如圖2(c)所示,本算法與BP神經(jīng)網(wǎng)絡法的收斂時間相近,時序法計算速度受樣本總量的影響較大;如圖2(d)所示,本算法和BP神經(jīng)網(wǎng)絡法的誤檢率波動較小,本算法效果最好,平均誤檢率僅為1.67%,BP神經(jīng)網(wǎng)絡法次之,為4.05%,而時序法受樣本個數(shù)增加而出現(xiàn)較大偏差。綜上所述,本算法對異常數(shù)據(jù)的屬性分類具有很好的效果,在檢測精度與誤檢率上相比傳統(tǒng)方法均具有一定提升。

圖2 不同算法數(shù)據(jù)處理性能對比Fig.2 Comparison of data processing performance by different algorithms

4 結論

本文提出了一種基于熵目標函數(shù)最優(yōu)化的異常數(shù)據(jù)檢測算法。利用對數(shù)據(jù)屬性的特征分類完成對異常數(shù)據(jù)特征的提取,再通過高階統(tǒng)計量的大數(shù)據(jù)聚類迭代完成樣本數(shù)據(jù)熵目標函數(shù)的最優(yōu)計算。實驗對1 000組光纖通信數(shù)據(jù)進行分類,并與傳統(tǒng)檢測方法進行對比,結果顯示,本算法在檢測精度上具有明顯優(yōu)勢,并且在數(shù)據(jù)融合率、檢測耗時以及誤檢率方面也略強于傳統(tǒng)算法,具有一定的應用價值。

猜你喜歡
光纖網(wǎng)絡聚類精度
熱連軋機組粗軋機精度控制
基于深度學習的光纖網(wǎng)絡鏈路故障診斷與定位方法
基于多模式匹配算法的網(wǎng)絡安全入侵檢測系統(tǒng)設計
超高精度計時器——原子鐘
基于K-means聚類的車-地無線通信場強研究
分析誤差提精度
基于DSPIC33F微處理器的采集精度的提高
基于高斯混合聚類的陣列干涉SAR三維成像
基于Spark平臺的K-means聚類算法改進及并行化實現(xiàn)
6億戶
夏河县| 菏泽市| 灌阳县| 漯河市| 贡山| 苍梧县| 宜君县| 饶河县| 文登市| 通渭县| 司法| 明溪县| 阳谷县| 阿拉善右旗| 石阡县| 普宁市| 珠海市| 仪征市| 密山市| 桃园市| 宣汉县| 黑龙江省| 托克托县| 丰原市| 永安市| 博湖县| 新余市| 万源市| 林西县| 京山县| 墨竹工卡县| 雷州市| 昂仁县| 宁河县| 宿松县| 新邵县| 铜梁县| 武冈市| 汝阳县| 永定县| 响水县|