王春霞,侯艷麗
(商丘師范學(xué)院 計(jì)算機(jī)與信息技術(shù)學(xué)院,河南 商丘 476000)
隨著Internet的快速發(fā)展,越來越多的信息通過網(wǎng)絡(luò)來傳輸和存儲,網(wǎng)絡(luò)安全顯得越來越重要。目前常見的網(wǎng)絡(luò)安全技術(shù)主要有加密、數(shù)字簽名、身份認(rèn)證、訪問控制、防火墻技術(shù)和入侵檢測技術(shù)等。
入侵檢測作為模式識別的分支,其主要任務(wù)是通過監(jiān)視系統(tǒng)或網(wǎng)絡(luò)流量、系統(tǒng)審計(jì)記錄等來發(fā)現(xiàn)與識別對系統(tǒng)和網(wǎng)絡(luò)的入侵企圖和入侵行為[1]。將數(shù)據(jù)挖掘技術(shù)應(yīng)用于入侵檢測以提高系統(tǒng)性能,已成為入侵檢測技術(shù)研究和發(fā)展的重要趨勢,當(dāng)前的挖掘方法,通常建立在對整個數(shù)據(jù)集進(jìn)行等同學(xué)習(xí)的基礎(chǔ)上,而實(shí)際的檢測數(shù)據(jù)是連續(xù)到達(dá)、快速更新的,基于數(shù)據(jù)集難以真實(shí)反映當(dāng)前網(wǎng)絡(luò)數(shù)據(jù)的行為特征,所以需要面向入侵檢測的數(shù)據(jù)流進(jìn)行數(shù)據(jù)挖掘。聚類作為無監(jiān)督模式識別的一個組成部分,可作為一種數(shù)據(jù)壓縮技術(shù)用于大型數(shù)據(jù)庫,它不需要任何先驗(yàn)知識的特性,適合面向大量數(shù)據(jù)的入侵檢測需求。因此,基于聚類的入侵檢測得到廣泛研究,文中基于模糊C均值聚類提出了一種的數(shù)據(jù)流入侵檢測算法。
近年來,利用聚類技術(shù)進(jìn)行數(shù)據(jù)流入侵檢測的研究有許多,如OH-S等人利用聚類技術(shù)建立用戶的正常行為規(guī)則[2],俞研等人利用K均值聚類算法進(jìn)行數(shù)據(jù)流的異常入侵檢測[3],李建國等人利用高效的混合聚類算法進(jìn)行數(shù)據(jù)流的異常檢測[4],周剛等人利用聚類技術(shù)和小波技術(shù)進(jìn)行DDos的入侵流分析[5],這些方法在一定程度上可以有效的檢測數(shù)據(jù)流入侵,但它們都是將待處理數(shù)據(jù)嚴(yán)格劃分到某個類中,而實(shí)際上的數(shù)據(jù)在性態(tài)和類屬方面存在不確定性,更適合進(jìn)行模糊聚類。但模糊聚類存在下不足之處:1)需要多次迭代,無法直接運(yùn)用到大數(shù)據(jù)集特別是數(shù)據(jù)流中;2)需事先確定聚類數(shù)目,為此,文中提出一種基于加權(quán)模糊聚類的數(shù)據(jù)流入侵檢測算法,該算法首先利用增量聚類得到概要信息和類數(shù),在此基礎(chǔ)上定義新的加權(quán)模糊特征并對其模糊聚類。
當(dāng)前的入侵檢測算法通常是在整個數(shù)據(jù)集上進(jìn)行計(jì)算的,由于網(wǎng)絡(luò)數(shù)據(jù)的海量和快速到達(dá)等特性,使得現(xiàn)有入侵檢測算法易受系統(tǒng)資源的限制,效率不高同時,網(wǎng)絡(luò)數(shù)據(jù)的行為特征隨時間不斷的變化,對當(dāng)前入侵行為的檢測往往更加依賴于近期的網(wǎng)絡(luò)數(shù)據(jù)作出判斷,而基于整個數(shù)據(jù)集進(jìn)行入侵檢測,收歷史數(shù)據(jù)的影響,不利用準(zhǔn)確的檢測入侵行為。因?yàn)?,文中采用了一種兩階段的入侵檢測模型。圖1給出了系統(tǒng)模型的示意圖,它由概要信息生成模塊和入侵檢測兩大模塊組成。文中利用文獻(xiàn)[6]提出的方法來提取類的概要信息,然后利用模糊聚類算法對數(shù)據(jù)流入侵檢測進(jìn)行分析。
圖1 基于數(shù)據(jù)流聚類分析的入侵檢測模型Fig.1 Intrusion detection model of data stream based on clustering analysis
在概要信息生成模塊中,通過對不斷到達(dá)的網(wǎng)絡(luò)數(shù)據(jù)流進(jìn)行單次掃描聚類,生成了描述原始網(wǎng)絡(luò)數(shù)據(jù)流的概要信息[6]。事實(shí)上,用戶對于最近的數(shù)據(jù)更感興趣。因此,只需要對少量的近期數(shù)據(jù)進(jìn)行細(xì)節(jié)分析,而對大量的歷史數(shù)據(jù),僅給出一個概要。在存儲概要信息時,采用文獻(xiàn)[5]中提出的基于時間窗口模型的金字塔時間框架的結(jié)構(gòu)。這樣,只需要一個較小的數(shù)據(jù)窗口,就可以存儲概要信息,大大減少了系統(tǒng)對內(nèi)存的需求。
概要信息用聚類得到的子聚類及其特征值CF來表示。CF定義為描述包含 d維數(shù)據(jù)集的{…Xi,Xi+1,Xi+2}的聚類信息的(2d+2)元組,即設(shè)給定一個子類中的 d維數(shù)據(jù)集,則有聚類特征矢量 CF=(S,D,n,t),其中,n為子類中數(shù)據(jù)的數(shù)量,t為該特征矢量的存儲時刻。
設(shè)x為數(shù)據(jù)點(diǎn)ot的屬性值,y為子類Ci中心的屬性值,則數(shù)據(jù)點(diǎn)ot至子類Ci中心的距離為:
文中算法首先對順序到達(dá)的數(shù)據(jù)流做增量聚類,生成m個簇,當(dāng)接受到檢測請求時,統(tǒng)計(jì)c個簇中包含記錄條數(shù)大于閾值θ的聚類數(shù)目c,把該值作為模糊C均值聚類的簇?cái)?shù),將c簇的代表信息作為模糊聚類的初始簇特征CF1,將m個簇作為m條虛擬記錄,根據(jù)最大隸屬度原則,人工標(biāo)記各個簇類型。
1)置t=1,根據(jù)公式(1)計(jì)算n條虛擬記錄到CF1中每個初始簇特征的距離,并由公式(2)得到每條記錄屬于每個簇的隸屬度矩陣 U(t)。
2)根據(jù) U(t)利用公式(3)計(jì)算每個簇的質(zhì)心 V(k)。
3)若‖Jm(U(k),V(k)-Jm(U(k-1),V(k-1))‖≤ε(ε 為事先設(shè)定的迭代誤差閾值),算法停止;否則,t=t+1,轉(zhuǎn)公式(2)。
文中采用的實(shí)驗(yàn)數(shù)據(jù)是基于KDD CUP’99數(shù)據(jù)集[7]作為實(shí)驗(yàn)數(shù)據(jù)集,此數(shù)據(jù)集包含了500萬條網(wǎng)絡(luò)連接記錄,每條網(wǎng)絡(luò)連接記錄有7個分類屬性和34個數(shù)值屬性。數(shù)據(jù)集包含4種主要的攻擊類型:DoS:拒絕服務(wù)攻擊;Probe:掃描與探測行為;R2L:對遠(yuǎn)程主機(jī)的未授權(quán)訪問;U2R:對超級用戶權(quán)限的未授權(quán)的訪問。
表1給出了對KDD CUP’99數(shù)據(jù)集整體的檢測結(jié)果。從表中可以看出,對DoS攻擊、R2L和U2R攻擊,文中算法和文獻(xiàn)[4]算法的誤報(bào)率相差不大,但檢測率明顯優(yōu)于文獻(xiàn)[4]算法。而對于Probe攻擊,兩種算法的檢測率相差不大,但文中算法誤報(bào)率稍微低于文獻(xiàn)[4]算法。
表1 入侵檢測結(jié)果Tab.1 Experimental result of intrusion detection
文中提出一種基于模糊聚類的兩階段數(shù)據(jù)流入侵檢測算法,首先采用增量聚類算法對數(shù)據(jù)流中的記錄進(jìn)行聚類,以對數(shù)據(jù)流的分布特征進(jìn)行準(zhǔn)確描述,然后用模糊 C均值算法對代表信息進(jìn)行聚類,檢測不同階段的入侵行為。模糊聚類通過多次迭代,能更準(zhǔn)確地反映數(shù)據(jù)特性,簇?cái)?shù)由增量聚類的結(jié)果決定。實(shí)驗(yàn)證實(shí)該算法可以有效檢測數(shù)據(jù)流入侵。
[1]正軍,李建華.入侵檢測技術(shù)[M].北京:清華大學(xué)出版社,2004.
[2]Oh S,Kang J,Byun Y.Intrusion detection based on clustering a data stream[C]//Proc.of the 3rd ACIS int’l Conf.on software engineering research,management and applicatioin.Mount pleasant,2005:220-227.
[3]俞研,郭山清,黃皓.基于數(shù)據(jù)流的異常入侵檢測[J].計(jì)算機(jī)科學(xué),2007,34(5):66-71.
YU Yan,GUO Shan-qing,HUANG Hao.Anomaly intrusion detection based on data stream[J].Computer Science,2007,34(5):66-71.
[4]李建國,胡學(xué)鋼.高效的混合聚類算法及其在異常檢測中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用, 2010, 30(7):75-78.
LI Jian-guo,HU Xue-gang.Efficient mixed clustering algorithm and its application in anomaly detection[J].Computer Application,2010,30(7):75-78.
[5]周剛,劉淵,陳曉光.基于小波的DDos入侵流分析[J].計(jì)算機(jī)工程,2008,34(15):156-158.
ZHOU Gang,LIU Yuan,CHEN Xiao-guang.Analysis of DDos traffic based on wavelet[J].Computer Engineering,2008,34(15):156-158.
[6]Aggarwal C C,HAN Jia-wei,WANG Jian-yong,et al.A framework for clustering evolving data streams[C]//Proc.of the 29th Int’l Conf.on Very Large Data Bases,2003:81-92.
[7]KDD99.KDD99 Cup Dataset[EB/OL]. (1999-06-05.)http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html.