基于模糊C均值的數(shù)據(jù)流入侵檢測算法

2012-07-13 03:06:34王春霞侯艷麗

電子設(shè)計(jì)工程 2012年4期

王春霞，侯艷麗

（商丘師范學(xué)院計(jì)算機(jī)與信息技術(shù)學(xué)院，河南商丘 476000）

隨著Internet的快速發(fā)展，越來越多的信息通過網(wǎng)絡(luò)來傳輸和存儲，網(wǎng)絡(luò)安全顯得越來越重要。目前常見的網(wǎng)絡(luò)安全技術(shù)主要有加密、數(shù)字簽名、身份認(rèn)證、訪問控制、防火墻技術(shù)和入侵檢測技術(shù)等。

入侵檢測作為模式識別的分支，其主要任務(wù)是通過監(jiān)視系統(tǒng)或網(wǎng)絡(luò)流量、系統(tǒng)審計(jì)記錄等來發(fā)現(xiàn)與識別對系統(tǒng)和網(wǎng)絡(luò)的入侵企圖和入侵行為[1]。將數(shù)據(jù)挖掘技術(shù)應(yīng)用于入侵檢測以提高系統(tǒng)性能，已成為入侵檢測技術(shù)研究和發(fā)展的重要趨勢，當(dāng)前的挖掘方法，通常建立在對整個數(shù)據(jù)集進(jìn)行等同學(xué)習(xí)的基礎(chǔ)上，而實(shí)際的檢測數(shù)據(jù)是連續(xù)到達(dá)、快速更新的，基于數(shù)據(jù)集難以真實(shí)反映當(dāng)前網(wǎng)絡(luò)數(shù)據(jù)的行為特征，所以需要面向入侵檢測的數(shù)據(jù)流進(jìn)行數(shù)據(jù)挖掘。聚類作為無監(jiān)督模式識別的一個組成部分，可作為一種數(shù)據(jù)壓縮技術(shù)用于大型數(shù)據(jù)庫，它不需要任何先驗(yàn)知識的特性，適合面向大量數(shù)據(jù)的入侵檢測需求。因此，基于聚類的入侵檢測得到廣泛研究，文中基于模糊C均值聚類提出了一種的數(shù)據(jù)流入侵檢測算法。

1 相關(guān)工作

近年來，利用聚類技術(shù)進(jìn)行數(shù)據(jù)流入侵檢測的研究有許多，如OH-S等人利用聚類技術(shù)建立用戶的正常行為規(guī)則[2]，俞研等人利用K均值聚類算法進(jìn)行數(shù)據(jù)流的異常入侵檢測[3]，李建國等人利用高效的混合聚類算法進(jìn)行數(shù)據(jù)流的異常檢測[4]，周剛等人利用聚類技術(shù)和小波技術(shù)進(jìn)行DDos的入侵流分析[5]，這些方法在一定程度上可以有效的檢測數(shù)據(jù)流入侵，但它們都是將待處理數(shù)據(jù)嚴(yán)格劃分到某個類中，而實(shí)際上的數(shù)據(jù)在性態(tài)和類屬方面存在不確定性，更適合進(jìn)行模糊聚類。但模糊聚類存在下不足之處：1）需要多次迭代，無法直接運(yùn)用到大數(shù)據(jù)集特別是數(shù)據(jù)流中；2）需事先確定聚類數(shù)目，為此，文中提出一種基于加權(quán)模糊聚類的數(shù)據(jù)流入侵檢測算法，該算法首先利用增量聚類得到概要信息和類數(shù)，在此基礎(chǔ)上定義新的加權(quán)模糊特征并對其模糊聚類。

2 基于模糊聚類的入侵檢測算法

2.1 系統(tǒng)模型

當(dāng)前的入侵檢測算法通常是在整個數(shù)據(jù)集上進(jìn)行計(jì)算的，由于網(wǎng)絡(luò)數(shù)據(jù)的海量和快速到達(dá)等特性，使得現(xiàn)有入侵檢測算法易受系統(tǒng)資源的限制，效率不高同時，網(wǎng)絡(luò)數(shù)據(jù)的行為特征隨時間不斷的變化，對當(dāng)前入侵行為的檢測往往更加依賴于近期的網(wǎng)絡(luò)數(shù)據(jù)作出判斷，而基于整個數(shù)據(jù)集進(jìn)行入侵檢測，收歷史數(shù)據(jù)的影響，不利用準(zhǔn)確的檢測入侵行為。因?yàn)?，文中采用了一種兩階段的入侵檢測模型。圖1給出了系統(tǒng)模型的示意圖，它由概要信息生成模塊和入侵檢測兩大模塊組成。文中利用文獻(xiàn)[6]提出的方法來提取類的概要信息，然后利用模糊聚類算法對數(shù)據(jù)流入侵檢測進(jìn)行分析。

圖1 基于數(shù)據(jù)流聚類分析的入侵檢測模型Fig.1 Intrusion detection model of data stream based on clustering analysis

2.2 生成概要信息模塊

在概要信息生成模塊中，通過對不斷到達(dá)的網(wǎng)絡(luò)數(shù)據(jù)流進(jìn)行單次掃描聚類，生成了描述原始網(wǎng)絡(luò)數(shù)據(jù)流的概要信息[6]。事實(shí)上，用戶對于最近的數(shù)據(jù)更感興趣。因此，只需要對少量的近期數(shù)據(jù)進(jìn)行細(xì)節(jié)分析，而對大量的歷史數(shù)據(jù)，僅給出一個概要。在存儲概要信息時，采用文獻(xiàn)[5]中提出的基于時間窗口模型的金字塔時間框架的結(jié)構(gòu)。這樣，只需要一個較小的數(shù)據(jù)窗口，就可以存儲概要信息，大大減少了系統(tǒng)對內(nèi)存的需求。

概要信息用聚類得到的子聚類及其特征值CF來表示。CF定義為描述包含 d維數(shù)據(jù)集的{…Xi，Xi+1，Xi+2}的聚類信息的（2d+2）元組，即設(shè)給定一個子類中的 d維數(shù)據(jù)集，則有聚類特征矢量 CF=（S，D，n，t），其中，n為子類中數(shù)據(jù)的數(shù)量，t為該特征矢量的存儲時刻。

設(shè)x為數(shù)據(jù)點(diǎn)ot的屬性值，y為子類Ci中心的屬性值，則數(shù)據(jù)點(diǎn)ot至子類Ci中心的距離為：

2.3 入侵檢測模塊

文中算法首先對順序到達(dá)的數(shù)據(jù)流做增量聚類，生成m個簇，當(dāng)接受到檢測請求時，統(tǒng)計(jì)c個簇中包含記錄條數(shù)大于閾值θ的聚類數(shù)目c，把該值作為模糊C均值聚類的簇?cái)?shù)，將c簇的代表信息作為模糊聚類的初始簇特征CF1，將m個簇作為m條虛擬記錄，根據(jù)最大隸屬度原則，人工標(biāo)記各個簇類型。

1）置t=1，根據(jù)公式（1）計(jì)算n條虛擬記錄到CF1中每個初始簇特征的距離，并由公式（2）得到每條記錄屬于每個簇的隸屬度矩陣 U（t）。

2）根據(jù) U（t）利用公式（3）計(jì)算每個簇的質(zhì)心 V（k）。

3）若‖Jm（U（k），V（k）-Jm（U（k-1），V（k-1））‖≤ε（ε 為事先設(shè)定的迭代誤差閾值），算法停止；否則，t=t+1，轉(zhuǎn)公式（2）。

3 實(shí)驗(yàn)及分析

文中采用的實(shí)驗(yàn)數(shù)據(jù)是基于KDD CUP’99數(shù)據(jù)集[7]作為實(shí)驗(yàn)數(shù)據(jù)集，此數(shù)據(jù)集包含了500萬條網(wǎng)絡(luò)連接記錄，每條網(wǎng)絡(luò)連接記錄有7個分類屬性和34個數(shù)值屬性。數(shù)據(jù)集包含4種主要的攻擊類型：DoS：拒絕服務(wù)攻擊；Probe：掃描與探測行為；R2L：對遠(yuǎn)程主機(jī)的未授權(quán)訪問；U2R：對超級用戶權(quán)限的未授權(quán)的訪問。

表1給出了對KDD CUP’99數(shù)據(jù)集整體的檢測結(jié)果。從表中可以看出，對DoS攻擊、R2L和U2R攻擊，文中算法和文獻(xiàn)[4]算法的誤報(bào)率相差不大，但檢測率明顯優(yōu)于文獻(xiàn)[4]算法。而對于Probe攻擊，兩種算法的檢測率相差不大，但文中算法誤報(bào)率稍微低于文獻(xiàn)[4]算法。

表1 入侵檢測結(jié)果Tab.1 Experimental result of intrusion detection

4 結(jié)束語

文中提出一種基于模糊聚類的兩階段數(shù)據(jù)流入侵檢測算法，首先采用增量聚類算法對數(shù)據(jù)流中的記錄進(jìn)行聚類，以對數(shù)據(jù)流的分布特征進(jìn)行準(zhǔn)確描述，然后用模糊 C均值算法對代表信息進(jìn)行聚類，檢測不同階段的入侵行為。模糊聚類通過多次迭代，能更準(zhǔn)確地反映數(shù)據(jù)特性，簇?cái)?shù)由增量聚類的結(jié)果決定。實(shí)驗(yàn)證實(shí)該算法可以有效檢測數(shù)據(jù)流入侵。

[1]正軍，李建華.入侵檢測技術(shù)[M].北京：清華大學(xué)出版社，2004.

[2]Oh S，Kang J，Byun Y.Intrusion detection based on clustering a data stream[C]//Proc.of the 3rd ACIS int’l Conf.on software engineering research，management and applicatioin.Mount pleasant，2005：220-227.

[3]俞研，郭山清，黃皓.基于數(shù)據(jù)流的異常入侵檢測[J].計(jì)算機(jī)科學(xué)，2007，34（5）：66-71.

YU Yan，GUO Shan-qing，HUANG Hao.Anomaly intrusion detection based on data stream[J].Computer Science，2007，34（5）：66-71.

[4]李建國，胡學(xué)鋼.高效的混合聚類算法及其在異常檢測中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用， 2010， 30（7）：75-78.

LI Jian-guo，HU Xue-gang.Efficient mixed clustering algorithm and its application in anomaly detection[J].Computer Application，2010，30（7）：75-78.

[5]周剛，劉淵，陳曉光.基于小波的DDos入侵流分析[J].計(jì)算機(jī)工程，2008，34（15）：156-158.

ZHOU Gang，LIU Yuan，CHEN Xiao-guang.Analysis of DDos traffic based on wavelet[J].Computer Engineering，2008，34（15）：156-158.

[6]Aggarwal C C，HAN Jia-wei，WANG Jian-yong，et al.A framework for clustering evolving data streams[C]//Proc.of the 29th Int’l Conf.on Very Large Data Bases，2003：81-92.

[7]KDD99.KDD99 Cup Dataset[EB/OL]. （1999-06-05.）http：//kdd.ics.uci.edu/databases/kddcup99/kddcup99.html.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡