汪莉
(長江大學(xué)工程技術(shù)學(xué)院 湖北 荊州 434020)
入侵檢測的目的是為了發(fā)現(xiàn)系統(tǒng)或用戶行為的異常,其實(shí)質(zhì)歸結(jié)為對從各種渠道獲得的反映網(wǎng)絡(luò)狀況和網(wǎng)絡(luò)行為的安全審計(jì)數(shù)據(jù)的分析處理。然而,操作系統(tǒng)的日益復(fù)雜化和網(wǎng)絡(luò)數(shù)據(jù)流量的急劇膨脹,導(dǎo)致了安全審計(jì)數(shù)據(jù)同樣以驚人的速度遞增。驟增的數(shù)據(jù)背后隱藏著許多與安全有關(guān)的重要信息,如何從包含大量冗余信息的數(shù)據(jù)中提取出具有代表性的入侵模式是入侵檢測的關(guān)鍵,而靠傳統(tǒng)數(shù)據(jù)檢索機(jī)制和統(tǒng)計(jì)分析方法不能滿足安全信息有效提取的需要。數(shù)據(jù)挖掘能夠從海量數(shù)據(jù)中提取出隱含的、事先未知的、潛在有用的信息和知識,很好地解決了這些問題。
盡管將數(shù)據(jù)挖掘引入入侵檢測研究,以此建立的檢測模型在適應(yīng)性和可擴(kuò)展性方面具有優(yōu)勢并得到實(shí)驗(yàn)驗(yàn)證,但進(jìn)行檢測時仍存在一定困難:
此類模型通過訓(xùn)練集中的行為特征學(xué)習(xí),對已知入侵和攻擊行為具備較高的檢測率和較低的誤報(bào)率;而對于未在訓(xùn)練集出現(xiàn)的和全新的入侵行為,則出現(xiàn)較低的檢測率和較高的誤檢率,這種現(xiàn)象對于大多數(shù)檢測模型有普遍性。
由于現(xiàn)有入侵檢測中的數(shù)據(jù)挖掘算法需要對大量已標(biāo)識的歷史數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí),然后才能進(jìn)行測試數(shù)據(jù)集的檢測,造成了對訓(xùn)練集數(shù)據(jù)的強(qiáng)烈依賴性,訓(xùn)練集數(shù)據(jù)的分布特征決定了檢測算法的性能;而訓(xùn)練集數(shù)據(jù)的獲取及其真實(shí)性在現(xiàn)實(shí)環(huán)境中不能完全保證,造成了檢測模型較高的計(jì)算成本和相對局限性。
現(xiàn)在國內(nèi)外已有一些研究機(jī)構(gòu)利用數(shù)據(jù)挖掘進(jìn)行入侵檢測,針對一些入侵行為獲得了較為理想的結(jié)果。采用數(shù)據(jù)挖掘技術(shù)來構(gòu)造入侵檢測模型,優(yōu)勢在于:
基于數(shù)據(jù)挖掘的檢測方法可以從大量數(shù)據(jù)中挖掘出不易被明顯看出的重要特征和規(guī)則,能分析大量審計(jì)數(shù)據(jù)并提取對入侵行為的最具概括性的描述,使得構(gòu)造出的特征能夠更加精確、有效地區(qū)分用戶的正常行為和異常行為。
在入侵檢測中,收集到的數(shù)據(jù)越多,分析結(jié)果就越準(zhǔn)確。如何從海量數(shù)據(jù)中提取出入侵行為和正常行為的最顯著區(qū)別,傳統(tǒng)方法對此無能為力,而數(shù)據(jù)挖掘技術(shù)能從海量數(shù)據(jù)中提取有價(jià)值的信息,很好地解決了這個問題。
應(yīng)用數(shù)據(jù)挖掘方法的檢測系統(tǒng)不是基于預(yù)定義的檢測模型,而是通過機(jī)器學(xué)習(xí)算法從審計(jì)數(shù)據(jù)中學(xué)習(xí)到的模型,因此對于新型攻擊及已知攻擊的變種具有適應(yīng)性。
同樣的數(shù)據(jù)挖掘工具能用于多個數(shù)據(jù)源,不依賴于任何系統(tǒng)而存在,因而當(dāng)檢測環(huán)境變化時檢測系統(tǒng)不需要做什么改動,具有較強(qiáng)的可擴(kuò)展性。
近年來數(shù)據(jù)挖掘技術(shù)的快速發(fā)展已從很多領(lǐng)域中得到了大量的算法,一些算法尤其適用于入侵檢測。目前有以下幾種常用于入侵檢測的數(shù)據(jù)挖掘算法:
關(guān)聯(lián)規(guī)則分析方法的目的是以規(guī)則的形式給出隱藏在數(shù)據(jù)中各屬性間的相互關(guān)系。在入侵檢測系統(tǒng)中,用戶的正常行為和惡意的入侵行為都將反映到審計(jì)記錄數(shù)據(jù)中,不論是正常行為還是異常行為,都將留下一條或多條記錄。這些記錄都不是孤立的,記錄內(nèi)部的屬性或記錄之間都存在某些必然的聯(lián)系。利用關(guān)聯(lián)分析找出入侵行為的各種屬性之間的相關(guān)特性,或者是提取出某種操作和入侵行為之間或各種入侵行為之間的相互關(guān)系等知識。
序列分析發(fā)現(xiàn)不同數(shù)據(jù)記錄之間的相關(guān)性,獲取序列模式模型。序列模式分析和關(guān)聯(lián)分析相似,其目的也是為了挖掘數(shù)據(jù)的聯(lián)系,但序列模式分析的側(cè)重點(diǎn)在于分析數(shù)據(jù)間的前后關(guān)系,發(fā)現(xiàn)系統(tǒng)審計(jì)事件中頻繁發(fā)生的事件序列。可以為最后生成入侵檢測模型提供時間統(tǒng)計(jì)屬性,即使用序列分析方法對各種入侵行為和某些操作發(fā)生的先后關(guān)系做出歸納。
分類分析是一種有監(jiān)督的學(xué)習(xí)方法,它通過分析實(shí)例數(shù)據(jù),提取數(shù)據(jù)項(xiàng)的特征屬性,并建立一個分類函數(shù)或分類模型,該函數(shù)或模型能把數(shù)據(jù)集中的數(shù)據(jù)映射到某個給定的類上。分類過程首先考察分類數(shù)據(jù)的屬性,通過訓(xùn)練數(shù)據(jù)集對系統(tǒng)進(jìn)行訓(xùn)練,找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型,以便將收集到的數(shù)據(jù)歸類到某個預(yù)定義的類標(biāo)記下。為了構(gòu)建這樣的一個分類模型,需要一個樣本數(shù)據(jù)庫作為訓(xùn)練集,樣本數(shù)據(jù)庫中的每一個元組與大型數(shù)據(jù)庫中的元組包含著同樣的屬性集,并且每一個元組有一個已知的類標(biāo)記。
聚類分析是將數(shù)據(jù)集分成由類似的對象組成的多個類的過程,由聚類所生成的同一類中的對象彼此相似,不同類中的對象相異。聚類算法用于對未經(jīng)標(biāo)記的訓(xùn)練數(shù)據(jù)進(jìn)行特征分析,把具有相似特征的數(shù)據(jù)歸于一類,可以在不具備完整領(lǐng)域知識背景的情況下執(zhí)行入侵檢測功能。與分類分析方法不同,聚類分析的輸入集是一組未標(biāo)定的記錄,也就是說此時輸入的記錄沒有被進(jìn)行任何分類,而是通過聚類算法采用全自動方式獲得的,而所依據(jù)的這些規(guī)則是由聚類分析工具定義的。
在網(wǎng)絡(luò)安全問題日益突出的今天,如何迅速而有效地利用基于數(shù)據(jù)挖掘的入侵檢測系統(tǒng)發(fā)現(xiàn)各種入侵行為,對于保證系統(tǒng)和網(wǎng)絡(luò)資源的安全十分重要。傳統(tǒng)的基于人工建模的入侵檢測技術(shù)已經(jīng)越來越無法適應(yīng)新的網(wǎng)絡(luò)環(huán)境,而基于數(shù)據(jù)挖掘的入侵檢測系統(tǒng)能從大量的審計(jì)數(shù)據(jù)中自動產(chǎn)生精確適用的檢測模型,使入侵檢測系統(tǒng)適用于任何計(jì)算環(huán)境。
[1]唐正軍.網(wǎng)絡(luò)入侵檢測系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[M].北京:電子工業(yè)出版社,2002.
[2]李守國.數(shù)據(jù)挖掘技術(shù)在入侵檢測中應(yīng)用研究[D].南京航空航天大學(xué),2005.
[3]郭愛偉.入侵檢測系統(tǒng)分類算法的研究[D].中北大學(xué),2006.