龍穎 袁明蘭 胡雪
摘要:針對正常上網(wǎng)所產(chǎn)生的網(wǎng)絡流量遠遠大于攻擊、入侵等非正常手段產(chǎn)生的異常流量的特點,通過對傳統(tǒng)FCM算法進行改進,引入新的聚類中心矩陣計算方法來計算落入平均半徑范圍內的流量數(shù)據(jù)的對象數(shù)量,根據(jù)該數(shù)量更新聚類中心矩陣,對流量數(shù)據(jù)進行聚類,并識別出網(wǎng)絡異常流量。對改進FCM算法、傳統(tǒng)FCM、HCM的效果進行比較分析發(fā)現(xiàn),改進FCM雖然處理時間較HCM長,但對噪聲抑制較好,錯分率較低。
關鍵詞:FCM;流量檢測;聚類
隨著網(wǎng)絡帶寬逐漸增加、存儲介質的容量逐漸增大、服務器計算能力逐漸增強,促使了數(shù)據(jù)產(chǎn)生的成本越來越低,從而造成網(wǎng)絡數(shù)據(jù)急劇膨脹。如何快速、準確對網(wǎng)絡流量進行識別和分類是網(wǎng)絡入侵檢測中亟待解決的問題?;谀:腇CM算法作為一種無監(jiān)督的分類方法[1],表現(xiàn)了樣本與樣本之間的聯(lián)系,建立了數(shù)據(jù)樣本對類別的不確定性描述,已廣泛應用于機器學習、數(shù)據(jù)挖掘、圖像分割、海量數(shù)據(jù)分析等領域[2]。在網(wǎng)絡流量檢測中,往往基于以下假設,即網(wǎng)絡正常流量的數(shù)量遠遠大于異常流量,異常流量在數(shù)據(jù)中將會呈現(xiàn)出比較特殊的性質,F(xiàn)CM能通過識別正常類別比例來確定異常的類別。
1傳統(tǒng)FCM算法描述
設有待分類的樣本集為 ,n是樣本集合中的元素個數(shù),q是特征空間維數(shù)。將樣本集X劃分為c類,然后將n個樣本分別屬于c個類的隸屬度矩陣記為 ,其中 表示第k個樣本 屬于第i個類別的隸屬度, 應
滿足:
在目標函數(shù)中,樣本與類別的聚類距離度量的一般表達式為:
M為 階的對稱正定矩陣。聚類的準則為取 的極小值 。
為 階矩陣,表示聚類中心矩陣
為第i類的聚類中心
2改進FCM獲取初始聚類中心和聚類中心矩陣
對于給定的數(shù)據(jù)集 ,定義 為歐式距離,在聚類初期,不斷更新數(shù)據(jù)對象間的平均距離Mean_d,若以 點為中心,Mean_d為半徑范圍內落入的數(shù)據(jù)對象越多,表明該對象作為聚類中心的可能越大。計算出每個數(shù)據(jù)對象以Mean_d為半徑,落入該區(qū)間的數(shù)據(jù)對象數(shù)目,將區(qū)間內數(shù)據(jù)對象數(shù)目最多的一個對象作為初始聚類點 ,對于任意 如果
3異常判定
在聚類中心矩陣生成后,對每個聚類中心Mean_d范圍內的數(shù)據(jù)對象數(shù)量進行判斷,依據(jù)經(jīng)驗,在網(wǎng)絡訪問所產(chǎn)生的流量中,正常流量的數(shù)量是遠遠大于異常流量,那么正常流量聚類所產(chǎn)生的類所包含的數(shù)據(jù)對象數(shù)目應遠遠大于異常流量所聚成的對象的數(shù)目。因此可以對聚類中心矩陣中每類的數(shù)據(jù)對象數(shù)目進行簡單排序,聚類中心中所含數(shù)據(jù)對象遠遠少于正常值的即為異常流量。
4結果與結論
為驗證算法有效性,利用matlab2018a對數(shù)據(jù)進行仿真,運行環(huán)境為win10,Intel?Core?i7-8750H,CPU@2.4Ghz,RAM16GB。從HTTP DATASET CSIC數(shù)據(jù)集中,按4:1的比例對正常流量數(shù)據(jù)和異常流量數(shù)據(jù)進行分別抽樣,隨機抽取一萬條記錄進行數(shù)據(jù)清洗和規(guī)范化,并通過數(shù)據(jù)規(guī)約對數(shù)據(jù)進行降維采樣,盡量保持原有數(shù)據(jù)集的有關特性,減少需要處理的數(shù)據(jù)量,最終形成五組HTTP DATASET CSIC的六維子集。將改進后的P_FCM算法與傳統(tǒng)FCM、HCM算法進行性能比較,模糊權重指數(shù)為2。分別對數(shù)據(jù)樣本進行聚類,聚類結果如表4.1所示
比較三種算法對數(shù)據(jù)樣本集的聚類結果,三種算法聚類效果比較接近,本文算法的運行時間大于FCM算法和HCM算法,但準確率高于FCM和HCM,由于HCM是硬劃分的聚類分析技
術,聚類時間較低,算法效果不及基于模糊劃分的FCM和本文算法。
對數(shù)據(jù)集添加5%的噪聲,比較三種算法對噪聲的抑制能力,添加噪聲后的數(shù)據(jù)樣本聚類結果如表4.2所示。
因傳統(tǒng)FCM對初始數(shù)據(jù)敏感[3,4],對于含噪數(shù)據(jù)的識別效果不佳,迭代次數(shù)增加后算法處理時間迅速增加,錯分率有所上升。HCM算法運行速度快,但錯分率較高。本文算法聚類中心矩陣是通過多次迭代生成的,在對噪聲的抑制上比傳統(tǒng)FCM和HCM表現(xiàn)好。
通過理論分析和實驗發(fā)現(xiàn),在模擬實驗環(huán)境下,基于改進FCM算法的網(wǎng)絡異常流量檢測具有聚類速度較快,分類好的特點,算法魯棒性較好,能正確、及時發(fā)現(xiàn)網(wǎng)絡異常流量,為網(wǎng)絡異常流量實時檢測提供技術支持。
參考文獻:
[1] ?劉麗珍,宋瀚濤,陸玉昌.無標記訓練樣本的Web文本分類方法[J].計算機科學,2006(03):200-201+211.
[2] ?宋國權,李金鋒.基于聚類算法的腦部MR圖像分割[J].中國醫(yī)療設備,2017,32(01):26-29.
[3] ?L. Parsons,E. Haque,and H. Liu. Subspace Clustering for High Dimensional Data:A Review[J]. SIGKDD Explorations,2004,6(1):90-105.
[4] ?K. Beyer J. Goldstein,R. Ramakrishnan. When is Nearest Neighbor ?Meaningful [A]. Proceeding of the CIDT[C]. 1999,pp. 217-235.
作者簡介:龍穎(1988-),女,講師,研究方向為模式識別與智能計算。
基金項目:重慶市教育委員會科學技術研究項目(No.KJ1751484)