(內(nèi)蒙古農(nóng)業(yè)大學 計算機與信息工程學院,內(nèi)蒙古 呼和浩特 010018)
隨著計算機網(wǎng)絡應用與光纖傳感技術的不斷發(fā)展,基于光纖傳輸?shù)幕ヂ?lián)網(wǎng)絡被大量應用于生活、生產(chǎn)等領域,由于光纖傳感網(wǎng)絡具有通信容量大、傳輸距離遠、成本低等特點[1-2],所以得到了廣泛推廣及應用。隨著光纖傳輸網(wǎng)絡中用戶端以指數(shù)量級增長,通信故障造成的異常數(shù)據(jù)也不斷增多。在規(guī)模巨大的互聯(lián)網(wǎng)數(shù)據(jù)中快速分析識別異常數(shù)據(jù)并加以定位是十分困難的,因為數(shù)據(jù)傳輸過程中不可能將所有信息全部獲取后才完成分析及信息識別,所以必然有很多信息在傳輸過程中被省略,這些省略的信息中不可避免的存在有效信息,從而導致信息熵的增加,降低了現(xiàn)有通信故障檢測效率[3]。
光纖通信網(wǎng)絡[4]中異常數(shù)據(jù)的識別需要從當前所有數(shù)據(jù)中提取異常數(shù)據(jù)的數(shù)據(jù)特征及模式結構,將異常數(shù)據(jù)特征與模式結構作為訓練樣本進行學習,從而對大數(shù)據(jù)中其他故障終端產(chǎn)生的異常數(shù)據(jù)進行快速精確識別[5]。利用該算法找出異常數(shù)據(jù)所對應的各變量間的邏輯關系。光纖傳感網(wǎng)絡中數(shù)據(jù)量巨大,采用大數(shù)據(jù)挖掘技術能夠更好地將異常數(shù)據(jù)特征提取出來。傳統(tǒng)的識別方法主要包括:BP神經(jīng)網(wǎng)絡[6]、時序分析法[7]、遺傳算法[8]、粗糙集[9]等。BP神經(jīng)網(wǎng)絡可適用于此類非線性問題并且具有一定的自學習能力,但在數(shù)據(jù)量很大時容易陷入局部極值問題[10];時序分析法是基于時間順序?qū)?shù)據(jù)進行統(tǒng)計分析的方法,本質(zhì)是統(tǒng)計規(guī)律的總結,它是網(wǎng)絡中異常數(shù)據(jù)分析的常見方法,對具備先驗知識的數(shù)據(jù)分類簡單易實現(xiàn),但預測精度較差[11];遺傳算法可實現(xiàn)多個體同時比較,有利于多參數(shù)協(xié)調(diào)優(yōu)化,其本質(zhì)是參數(shù)權值的動態(tài)調(diào)整,這與網(wǎng)絡數(shù)據(jù)交互是十分相似的,但其算子參數(shù)選擇大多靠經(jīng)驗完成,在海量數(shù)據(jù)中容易陷入局部極值解[12];粗糙集的最大優(yōu)勢是能處理不完整、不精確的數(shù)據(jù),對不確定特征屬性的識別具有一定幫助,但易受噪聲影響,穩(wěn)定性差[13-15]。由此可見,現(xiàn)有算法各有特色,但對于日漸龐大的數(shù)據(jù)規(guī)模和異常數(shù)據(jù)種類,采用信息熵作為目標函數(shù)完成異常數(shù)據(jù)的挖掘可以限定實際尋優(yōu)范圍。本文利用自主機器學習的數(shù)據(jù)挖掘技術實現(xiàn)多算法融合,設計了熵目標函數(shù)最優(yōu)化算法。該算法的優(yōu)勢在于信息熵解算本身就是面向海量數(shù)據(jù)的,且是針對信息值的,不需要先驗數(shù)據(jù)特征。
采用挖掘技術[16]中的聚類算法對異常數(shù)據(jù)進行特征聚類。設所有待檢測數(shù)據(jù)點集合為M,其中存在N個異常數(shù)據(jù)樣本集合。異常數(shù)據(jù)樣本對應的權值為cj(t),j=1,2,…,K;異常數(shù)據(jù)聚類權值為c′i(t?1),i=1,2,…,K′。異常數(shù)據(jù)樣本對應的權值由其可能造成的錯誤嚴重程度給出,通常由數(shù)據(jù)用戶提供。將Kt個異常數(shù)據(jù)樣本xj(1)歸類到K個聚類中心,則異常數(shù)據(jù)聚類中心可表示為
式中:μij是異常數(shù)據(jù)樣本相對聚類中心的模糊隸屬度(集合成員若被定義為0 或1,則成員介于[0,1]之間的集合可稱之為“模糊隸屬度”,用于表達具有不確定性的數(shù)據(jù)。),1≤i≤K′,1≤j≤Kt。
設存在n個d維的異常數(shù)據(jù)特征集合,表示為X=(x1,x2,…,xn),則每個特征xi所對應的密度指標可表示為
式中:ra為異常數(shù)據(jù)特征xi的鄰域區(qū)間半徑,設該區(qū)間中密度最大值為x1,則密度指標為D1。若xl是第l次的異常數(shù)據(jù)聚類中心,其密度指標有Dl,則(2)式有:
式中,rb為異常數(shù)據(jù)特征密度指標的鄰域區(qū)間半徑。由此可見,異常數(shù)據(jù)的特征可由Dk+1/D1的比值進行分選,比值越小,則其聚類結果越好。
基于屬性特征密度的判據(jù)可以完成特征分類,但是Dk+1/D1閾值的選取直接影響了聚類質(zhì)量,故本文設計了利用高階統(tǒng)計量作為模型補償參數(shù)的特征提取優(yōu)化算法。設數(shù)據(jù)集合為M={m1,m2,…,mm},個體最優(yōu)解集合為Pi={pi1,pi2,…,pid},全局最優(yōu)解集合為Pg={pg1,pg2,…,pgd},在則異常數(shù)據(jù)判斷更新策略有
式中:xid表示第i個節(jié)點在第d維中的異常數(shù)據(jù)集合中的一個數(shù)據(jù)點;{C1,C2}為優(yōu)化加速系數(shù);{r1,r2}為[0,1]的隨機值,由此構建的模型可使數(shù)據(jù)具有更好的相關性。首先,將求解分布聚類的最大值,有
然后,求解平均粒度,有:
式中:dij(t)為第j個采樣點i維上的分布聚類;d為異常數(shù)據(jù)維度;m為總樣本M中的數(shù)據(jù)個數(shù)。最后,設高階統(tǒng)計量的數(shù)據(jù)聚類度是k,則其函數(shù)可表示為
對k值的循環(huán)迭代即可實現(xiàn)對特征提取參數(shù)優(yōu)化選擇。
在上述異常數(shù)據(jù)特征優(yōu)化提取的基礎上,對光纖傳感網(wǎng)絡中的所有待測數(shù)據(jù)進行檢測。由光纖故障導致的異常數(shù)據(jù)類型有很多,使異常數(shù)據(jù)的屬性結構各不相同,故單純采用傳統(tǒng)的樣本方差或平方差形式會造成識別誤差大的問題。本文提出了基于熵目標函數(shù)最優(yōu)化的異常數(shù)據(jù)檢測算法,根據(jù)光纖網(wǎng)絡中異常數(shù)據(jù)隨機性強的特點,引入熵描述數(shù)據(jù)的不確定度,設t時刻異常數(shù)據(jù)特征為X(t),對第i個樣本屬性而言,P(xi(t))為樣本屬性xi(t)的概率,則熵H有:
結合樣本方差S2有:
將(8)式和(9)式作為異常數(shù)據(jù)判別依據(jù)后,熵目標函數(shù)有:
式中:α和β為權重系數(shù),α+β=1,α>0,β>0。該函數(shù)即為異常數(shù)據(jù)檢測函數(shù)。
為了獲得光纖通信網(wǎng)絡中異常數(shù)據(jù)識別的最優(yōu)函數(shù)值,實現(xiàn)算法步驟如下:
1)在初始時刻t=0時,將光纖網(wǎng)絡中已有的異常數(shù)據(jù)特征參數(shù)載入算法,自動檢索半徑設為R,信息特征閾值設為T,迭代次數(shù)為i;
2)將光纖網(wǎng)絡中異常數(shù)據(jù)屬性特征X(t)構建的目標函數(shù)F(xi(t))作為目標值,將τ設為目標的值,構建符合檢索半徑R的適應度函數(shù):
3)帶入初值后獲得標的值的初值F(R,0),經(jīng)過算法迭代令F(R,0)趨近F的全局最優(yōu)解Fbest,從而得到f(R,0),判別依據(jù)有:
4)在所有待測數(shù)據(jù)集合M中循環(huán)運行(9)式和(10)式,從而獲得Fbest和f(R,0),當f(R,τ)>f(R,0),更新Fbest和f(R,0);否則,進入下一個數(shù)據(jù)檢測循環(huán);
5)將P(xi(t))映射到搜索域中,導入下式:
將輸出數(shù)據(jù)與f(R,0)進行比較,若大于f(R,0),用F(R,i)替換Fbest,f(R,i)替換f(R,0);若小于等于f(R,0),則設i=i+1,轉(zhuǎn)入判斷下一個數(shù)據(jù)的異常判斷概率計算,直至結束;
6)循環(huán)得到迭代后的f(R,i),與T進行比較,當f(R,i)
7)將Fbest帶入異常數(shù)據(jù)檢測函數(shù)計算標的值,結束運行。
由此完成算法,流程圖如圖1所示。
圖1 熵目標函數(shù)優(yōu)化算法流程圖Fig.1 Flow chart of optimization algorithm for entropy objective function
為了驗證算法具有更好的適用性,主要從數(shù)據(jù)融合率、檢測精度、檢測耗時以及誤檢率4個方面進行分析。數(shù)據(jù)融合率用于考察算法對不同數(shù)據(jù)的融合能力;檢測精度用于考察對異常數(shù)據(jù)物理位置的計算精度;檢測耗時用于描述算法的處理速度;誤檢率用于檢出異常點與總點數(shù)之比,是最直接反映算法性能的評價參數(shù)。
為了驗證本算法的異常數(shù)據(jù)檢測精度及運算速度,實驗在VS2005 平臺下利用C#語言完成。系統(tǒng)包括主頻3.0 GHz的CPU、2 GB的內(nèi)存和Xeon e5 型服務器。將異常數(shù)據(jù)狀態(tài)信息、光時域反射儀(optical time domain reflectometer,OTDR)測試信息進行對比,從而進行評價。
針對實驗室光纖網(wǎng)絡服務器系統(tǒng)2019年的通信記錄信息,分別將狀態(tài)信息、OTDR測試信息以及數(shù)據(jù)占用率等進行了對比,并按照光纖網(wǎng)絡系統(tǒng)中不同的狀態(tài)組合進行了對比,M{M1,M2,…,Mn}就是數(shù)據(jù)集合,則測試數(shù)據(jù)如表1所示。
對所有光纖通信網(wǎng)中的狀態(tài)數(shù)據(jù)進行匯總,然后利用本算法進行分類識別,對異常數(shù)據(jù)進行標記,并與OTDR測試結果對比,分析算法數(shù)據(jù)識別的能力。為了保證訓練效果,取50組正常數(shù)據(jù)(P)與50組各類不同異常數(shù)據(jù)(Q)構建樣本,分別采用時序分析法(常用的數(shù)據(jù)規(guī)律統(tǒng)計方法,與其對比可以體現(xiàn)出本算法處理結果與數(shù)據(jù)統(tǒng)計規(guī)律的符合程度。)與BP神經(jīng)網(wǎng)絡(常用的參數(shù)權重調(diào)整方法,與其對比可以體現(xiàn)出本算法最終參數(shù)選擇的適應度。)進行對比。
表1 異常數(shù)據(jù)與光纖網(wǎng)絡狀態(tài)測試表Table1 Abnormal data and fiber network state test
驗證集為1 000組隨機通信數(shù)據(jù),訓練后分別求取3種算法的數(shù)據(jù)融合率、檢測精度、檢測耗時以及誤檢率,結果如圖2所示。數(shù)據(jù)融合率為原始數(shù)據(jù)與融合數(shù)據(jù)之差再與原始數(shù)據(jù)的比,該指標反映了算法特征分類的能力。當在特征提取過程中選取的聚類精度不同時,相同屬性的數(shù)據(jù)融合效果如圖2(a)所示,3種方法結果在精度較低時相近,隨著識別精度的提高,本算法略優(yōu)于其它兩種算法;如圖2(b)所示,本算法的檢測精度基本不隨樣本個數(shù)的增大而減小,其均值約為95.7%,時序法均值約為84.6%,BP神經(jīng)網(wǎng)絡法會隨著數(shù)據(jù)量增大而明顯下降;如圖2(c)所示,本算法與BP神經(jīng)網(wǎng)絡法的收斂時間相近,時序法計算速度受樣本總量的影響較大;如圖2(d)所示,本算法和BP神經(jīng)網(wǎng)絡法的誤檢率波動較小,本算法效果最好,平均誤檢率僅為1.67%,BP神經(jīng)網(wǎng)絡法次之,為4.05%,而時序法受樣本個數(shù)增加而出現(xiàn)較大偏差。綜上所述,本算法對異常數(shù)據(jù)的屬性分類具有很好的效果,在檢測精度與誤檢率上相比傳統(tǒng)方法均具有一定提升。
圖2 不同算法數(shù)據(jù)處理性能對比Fig.2 Comparison of data processing performance by different algorithms
本文提出了一種基于熵目標函數(shù)最優(yōu)化的異常數(shù)據(jù)檢測算法。利用對數(shù)據(jù)屬性的特征分類完成對異常數(shù)據(jù)特征的提取,再通過高階統(tǒng)計量的大數(shù)據(jù)聚類迭代完成樣本數(shù)據(jù)熵目標函數(shù)的最優(yōu)計算。實驗對1 000組光纖通信數(shù)據(jù)進行分類,并與傳統(tǒng)檢測方法進行對比,結果顯示,本算法在檢測精度上具有明顯優(yōu)勢,并且在數(shù)據(jù)融合率、檢測耗時以及誤檢率方面也略強于傳統(tǒng)算法,具有一定的應用價值。