潘興鑫
中圖分類號(hào):TN915.08文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1673-0992(2009)05-041-02
摘要數(shù)據(jù)挖掘是一種通用的數(shù)據(jù)處理技術(shù),它從大量的數(shù)據(jù)中提取人們感興趣的內(nèi)容的過程。將數(shù)據(jù)挖掘技術(shù)應(yīng)用到網(wǎng)絡(luò)安全當(dāng)中,建立網(wǎng)絡(luò)入侵檢測系統(tǒng),是數(shù)據(jù)挖掘技術(shù)應(yīng)用的一個(gè)新領(lǐng)域。本文介紹了數(shù)據(jù)挖掘技術(shù)在入侵檢測中運(yùn)用的必要性、必然性和可行性。
關(guān)鍵詞:數(shù)據(jù)挖掘;入侵檢測;必要性;必然性;可行性
隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)的資源共享程度進(jìn)一步加強(qiáng),在資源共享的過程中,網(wǎng)絡(luò)安全問題備受重視,傳統(tǒng)的入侵檢測系統(tǒng)面對(duì)海量的信息數(shù)據(jù),不能及時(shí)有效的分析處理這些數(shù)據(jù),而數(shù)據(jù)挖掘技術(shù)的運(yùn)用正好能夠滿足入侵檢測系統(tǒng)的要求,合理的分析數(shù)據(jù),有效處理數(shù)據(jù)。
一、數(shù)據(jù)挖掘技術(shù)與入侵檢測分析
數(shù)據(jù)挖掘是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)集中識(shí)別有效的、新穎的、潛在有用的,以及最終可理解的模式的過程。它是一門涉及面很廣的交叉學(xué)科,包括機(jī)器學(xué)習(xí)、數(shù)理統(tǒng)計(jì)、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)庫、模式識(shí)別、粗糙集、模糊數(shù)學(xué)等相關(guān)技術(shù)。由于它是一門受到來自各種不同領(lǐng)域的研究者關(guān)注的交叉性學(xué)科,因此導(dǎo)致了很多不同的術(shù)語名稱。其中,最常用的術(shù)語是“知識(shí)發(fā)現(xiàn)”和“數(shù)據(jù)挖掘”。相對(duì)來講,數(shù)據(jù)挖掘主要流行于統(tǒng)計(jì)界、數(shù)據(jù)分析、數(shù)據(jù)庫和管理信息系統(tǒng)界;而知識(shí)發(fā)現(xiàn)則主要流行于人工智能和機(jī)器學(xué)習(xí)界。
入侵檢測是一種試圖通過觀察行為、安全日志或?qū)徲?jì)資料來檢測發(fā)現(xiàn)針對(duì)計(jì)算機(jī)或網(wǎng)絡(luò)入侵的技術(shù),這種檢測通過手工或?qū)<蚁到y(tǒng)軟件對(duì)日志或其他網(wǎng)絡(luò)信息進(jìn)行分析來完成。而更廣義的說法是:識(shí)別企圖侵入系統(tǒng)非法獲得訪問權(quán)限行為的過程,它通過對(duì)計(jì)算機(jī)系統(tǒng)或計(jì)算機(jī)網(wǎng)絡(luò)中的若干關(guān)鍵點(diǎn)收集信息并對(duì)其進(jìn)行分析,從中發(fā)現(xiàn)系統(tǒng)或網(wǎng)絡(luò)中是否有違反安全策略的行為和被攻擊的跡象。作為一種積極主動(dòng)地安全防護(hù)技術(shù),入侵檢測提供了對(duì)內(nèi)部攻擊、外部攻擊和誤操作的實(shí)時(shí)防護(hù),在網(wǎng)絡(luò)系統(tǒng)受到危害之前攔截和對(duì)入侵做出響應(yīng)。強(qiáng)大的入侵檢測軟件的出現(xiàn)極大的方便了網(wǎng)絡(luò)的管理,其實(shí)時(shí)報(bào)警為網(wǎng)絡(luò)安全增加了又一道保障。
計(jì)算機(jī)網(wǎng)絡(luò)中每天都會(huì)產(chǎn)生海量的網(wǎng)絡(luò)數(shù)據(jù),主機(jī)也會(huì)產(chǎn)生大量的系統(tǒng)數(shù)據(jù)和日志信息。能否從如此豐富的歷史數(shù)據(jù)中找到我們所感興趣的信息,這是最為關(guān)鍵的一點(diǎn),也是最為困難的一點(diǎn)。數(shù)據(jù)挖掘正是一種可以從包含大量冗余信息的數(shù)據(jù)里快速提取出盡可能多的有用信息的數(shù)據(jù)分析工具。因此研究者從數(shù)據(jù)的角度找到了數(shù)據(jù)挖掘和入侵檢測的交匯點(diǎn),將二者結(jié)合起來,并在實(shí)踐中證明了將數(shù)據(jù)挖掘應(yīng)用于入侵檢測的可行性。目前,將數(shù)據(jù)挖掘應(yīng)用于入侵檢測已經(jīng)成為一個(gè)研究熱點(diǎn)。在這個(gè)研究領(lǐng)域,影響比較大的主要是Columbia University的Wenke Lee研究組和Portnoy,后繼的研究者大多沿襲了Wenke Lee和Portnoy的研究路線,并在此基礎(chǔ)上作了相應(yīng)改進(jìn)或者采用數(shù)據(jù)挖掘與其他智能技術(shù)相結(jié)合的方法。
二、數(shù)據(jù)挖掘在入侵檢測中運(yùn)用的必要性
入侵檢測就是通過運(yùn)用一些分析方法對(duì)數(shù)據(jù)進(jìn)行分析、提煉、評(píng)價(jià),再識(shí)別出正常和異常的數(shù)據(jù)或者對(duì)潛在的新型入侵做出預(yù)測。在入侵檢測技術(shù)中采用數(shù)據(jù)挖掘技術(shù)有以下幾點(diǎn)必要性:
第一,網(wǎng)絡(luò)結(jié)構(gòu)日趨復(fù)雜,網(wǎng)上業(yè)務(wù)種類和業(yè)務(wù)數(shù)量急劇增多,網(wǎng)絡(luò)管理人員進(jìn)行決策的依據(jù)是反映網(wǎng)絡(luò)狀況和網(wǎng)絡(luò)行為的海量歷史數(shù)據(jù),顯然沒有必要也不應(yīng)該把所有的原始數(shù)據(jù)全部提交給網(wǎng)絡(luò)管理人員,而是要對(duì)其進(jìn)行分析,生成與管理和決策問題相關(guān)的信息。
第二,由于時(shí)間的變化,數(shù)據(jù)也發(fā)生變化,數(shù)據(jù)中所含有的信息和知識(shí)也隨之發(fā)生變化,因此舊的模型需要更新,這就要求重新在數(shù)據(jù)挖掘系統(tǒng)上,在包含新數(shù)據(jù)的情況下來建立新的模型,然后將新的模型用于應(yīng)用系統(tǒng)。
第三,數(shù)據(jù)挖掘技術(shù)能夠解決從數(shù)據(jù)角度對(duì)網(wǎng)絡(luò)性能進(jìn)行評(píng)價(jià)的問題。數(shù)據(jù)挖掘是一個(gè)從數(shù)據(jù)集數(shù)據(jù)庫中提取隱含的、明顯未知的、具有潛在用處的信息的過程。數(shù)據(jù)挖掘的結(jié)構(gòu)是一個(gè)概念化知識(shí),該知識(shí)反映了數(shù)據(jù)的內(nèi)在特性,是對(duì)數(shù)據(jù)所包含的信息的更高層次的抽象。如果把數(shù)據(jù)挖掘技術(shù)應(yīng)用到入侵檢測中,以偵聽到的數(shù)據(jù)集作為分析對(duì)象,運(yùn)用分類分析方法和聯(lián)系分析方法就可以對(duì)業(yè)務(wù)進(jìn)行分類并能找到數(shù)據(jù)之間的相互關(guān)系,這樣就可以從數(shù)據(jù)角度去評(píng)價(jià)審計(jì)數(shù)據(jù)集,從而達(dá)到了入侵檢測的目標(biāo)。
第四,由于不同來源的數(shù)據(jù)具有不同的性質(zhì),也就要求采用不同的數(shù)據(jù)挖掘算法發(fā)現(xiàn)其中隱藏的規(guī)律;而不同的數(shù)據(jù)挖掘算法也要求采用不同的特征數(shù)據(jù),因此,對(duì)于不同類型的入侵檢測數(shù)據(jù),采用不同的數(shù)據(jù)挖掘算法發(fā)現(xiàn)其中的規(guī)則。對(duì)描述系統(tǒng)缺陷和已知攻擊方法的數(shù)據(jù),由于決策樹方法具有較高的精度和效率,我們采用分類判定樹算法進(jìn)行處理,以發(fā)現(xiàn)其中的分類規(guī)則,對(duì)于審計(jì)數(shù)據(jù)采用分類和關(guān)聯(lián)分析相結(jié)合的方法,以發(fā)現(xiàn)關(guān)鍵屬性間的協(xié)同工作,對(duì)于系統(tǒng)調(diào)用序列數(shù)據(jù),則采用序列模式挖掘算法,對(duì)于IP數(shù)據(jù)包等時(shí)態(tài)數(shù)據(jù),將有關(guān)屬性按時(shí)間排成序列,采用時(shí)態(tài)數(shù)據(jù)挖掘方法進(jìn)行分析。
三、數(shù)據(jù)挖掘在入侵檢測中運(yùn)用的必然性
入侵檢測是一種新興的關(guān)于計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)安全問題的解決方案。主要有兩種,濫用檢測和異常檢測。濫用檢測是對(duì)利用已知的系統(tǒng)缺陷和已知的入侵方法進(jìn)行入侵活動(dòng)的檢測。濫用檢測的優(yōu)點(diǎn)是可以有針對(duì)性地建立高效的入侵檢測系統(tǒng),其主要缺陷是不能檢測未知的入侵,也不能檢測已知入侵的變種,因此可能發(fā)生漏報(bào)。異常入侵由用戶的異常行為和對(duì)電腦資源的異常使用產(chǎn)生。異常檢測需要建立目標(biāo)系統(tǒng)及其用戶的正?;顒?dòng)模型,然后基于這個(gè)模型對(duì)系統(tǒng)和用戶的實(shí)際活動(dòng)進(jìn)行審計(jì),以判定用戶的行為是否對(duì)系統(tǒng)構(gòu)成威脅。由于入侵檢測系統(tǒng)本身應(yīng)用的特殊性,要求它具有準(zhǔn)確性、全局性、可擴(kuò)展性、可伸縮性以及環(huán)境適應(yīng)性和本身的魯棒性。到目前為止,研究人員已經(jīng)提出或?qū)崿F(xiàn)了許多方法,但是沒有一種模型能夠完全滿足以上這些要求。而數(shù)據(jù)挖掘技術(shù)則正好在智能性、自適應(yīng)性以及可操作性方面有著特殊的優(yōu)勢(shì),喬治梅森大學(xué)的研發(fā)人員發(fā)展了關(guān)聯(lián)挖掘在入侵檢測方面的重要的應(yīng)用,并提出了一種新型的應(yīng)用于異常檢測的多重檢測方法。綜合各種最新的研究成果并應(yīng)用后挖掘技術(shù),將濫用檢測和異常檢測融為一體,采用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)基于內(nèi)容的智能化入侵檢測系統(tǒng)IDSDM (Intrusion Detection System using Data Mining techniques),對(duì)在IDS(Intrusion Detection System)系統(tǒng)中最大限度上發(fā)揮數(shù)據(jù)挖掘技術(shù)的優(yōu)點(diǎn)作了一個(gè)有益的嘗試。
四、數(shù)據(jù)挖掘在入侵檢測中運(yùn)用的可行性
數(shù)據(jù)挖掘通常應(yīng)用于市場行銷、金融投資、生產(chǎn)制造等領(lǐng)域,但在入侵檢測設(shè)計(jì)領(lǐng)域中運(yùn)用數(shù)據(jù)挖掘技術(shù)對(duì)網(wǎng)絡(luò)業(yè)務(wù)進(jìn)行分析也具有明顯優(yōu)勢(shì)。其可行性主要表現(xiàn)在以下幾個(gè)方面:首先,網(wǎng)絡(luò)中檢測的數(shù)據(jù)種類繁多,監(jiān)測到的數(shù)據(jù)量量非常大,具有穩(wěn)定的數(shù)據(jù)來源,非常適合進(jìn)行數(shù)據(jù)挖掘。其次,網(wǎng)絡(luò)中偵聽到的數(shù)據(jù)按其所具有的不同屬性是可以進(jìn)行分類的,同時(shí),不同的數(shù)據(jù)之間的確存有某種相關(guān)性,如一個(gè)連接往往伴隨另一個(gè)連接發(fā)生。因此,運(yùn)用數(shù)據(jù)挖掘技術(shù)對(duì)審計(jì)數(shù)據(jù)進(jìn)行挖掘能夠得到有價(jià)值的信息。再次,從各種渠道所獲得的審計(jì)數(shù)據(jù)經(jīng)過加工處理之后適合運(yùn)用數(shù)據(jù)挖掘中的聯(lián)系分析方法?,F(xiàn)在國內(nèi)外己有一些研究機(jī)構(gòu)利用數(shù)據(jù)挖掘和神經(jīng)網(wǎng)絡(luò)技術(shù)進(jìn)行入侵檢測,釗對(duì)一些入侵行為獲得了較為理想的結(jié)果。美國哥倫比亞大學(xué)的Wenky Lcc在他的論文中詳細(xì)論述了將一種數(shù)據(jù)挖掘框架用于構(gòu)建入侵檢測規(guī)則和模型的方案,得到了一些實(shí)驗(yàn)數(shù)據(jù)和仿真結(jié)果,進(jìn)而在理論上和實(shí)驗(yàn)上證明了將數(shù)據(jù)挖掘技術(shù)應(yīng)用于入侵檢測的可行性。無論是異常檢測還是濫用檢測,都可利用數(shù)據(jù)挖掘技術(shù)提高檢測的精度。
參考文獻(xiàn):
[1]劉文濤.Linux網(wǎng)絡(luò)入侵檢測系統(tǒng)[M].北京:電子工業(yè)出版社.2004
[2]唐國軍、李建華.入侵檢測技術(shù)[M].北京:清華大學(xué)出版社.2004
[3]Rebecca Gurley Brace.入侵檢測原理[M].北京:人民郵電出版社.2001
[4]康曉東.基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)[M].北京:機(jī)械工業(yè)出版社.2004
[5]盧勇、曹陽等.基于數(shù)據(jù)挖掘的入侵檢測系統(tǒng)框架[J].武漢大學(xué)學(xué)報(bào).2002.2