劉飛飛
摘 要: 目前入侵檢測(cè)技術(shù)已成為網(wǎng)絡(luò)安全管理的重要選擇,在檢測(cè)準(zhǔn)確率得到保障的同時(shí),各類應(yīng)用對(duì)入侵檢測(cè)的實(shí)時(shí)性也提出了較高的要求。針對(duì)入侵檢測(cè)系統(tǒng)檢測(cè)海量高維的網(wǎng)絡(luò)數(shù)據(jù)效率較低的問題,闡述了特征選擇的相關(guān)概念及分類,分析了入侵檢測(cè)中的特征選擇問題,探討了基于Filter方式的特征選擇技術(shù)在入侵檢測(cè)中的應(yīng)用方法,并指出特征選擇技術(shù)在入侵檢測(cè)中應(yīng)用的不足之處。
關(guān)鍵詞: 網(wǎng)絡(luò)攻擊; 入侵檢測(cè); 特征選擇; Filter
中圖分類號(hào):TP393.4 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2018)09-41-04
Abstract: Intrusion detection technology has become an important choice for network security management. At the same time, all kinds of applications have put forward higher requirements for the real-time detection of intrusion. In view of the low efficiency of the intrusion detection system in detecting massive and high-dimensional network data, the related concepts and classification of feature selection are elaborated, and the feature selection problem in intrusion detection is analyzed. This paper discusses the application of Filter based feature selection in intrusion detection and points out the shortcomings of the application of feature selection in intrusion detection.
Key words: network attack; intrusion detection; feature selection; Filter
0 引言
入侵檢測(cè)技術(shù)通過不斷地對(duì)主機(jī)上收集或網(wǎng)絡(luò)上捕獲的數(shù)據(jù)進(jìn)行分析,來發(fā)現(xiàn)攻擊或者異常的網(wǎng)絡(luò)行為,并進(jìn)行有效地響應(yīng),最大程度地提升網(wǎng)絡(luò)的安全性。入侵檢測(cè)技術(shù)具有主動(dòng)防御的特性,是防火墻等技術(shù)的有效補(bǔ)充,也是網(wǎng)絡(luò)安全體系構(gòu)建過程中不可或缺的重要的組成部分。近年來,伴隨網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大,網(wǎng)絡(luò)攻擊呈現(xiàn)出多樣化、復(fù)雜化及并發(fā)性等特點(diǎn),以DDos為代表的大規(guī)模分布式的網(wǎng)絡(luò)攻擊成為主流,海量攻擊數(shù)據(jù)的出現(xiàn)對(duì)于入侵檢測(cè)的檢測(cè)速度和準(zhǔn)確率提出了更高的要求。目前,常用的入侵檢測(cè)系統(tǒng)主要通過對(duì)網(wǎng)絡(luò)攻擊數(shù)據(jù)的特征分析比對(duì)來發(fā)現(xiàn)攻擊行為,然而網(wǎng)絡(luò)數(shù)據(jù)的特征往往很多,這會(huì)嚴(yán)重影響入侵檢測(cè)的實(shí)時(shí)性及性能。將機(jī)器學(xué)習(xí)中的特征選擇技術(shù)應(yīng)用到入侵檢測(cè)中,可以去掉一些無關(guān)的冗余的特征,這在一定程度上提高入侵檢測(cè)的效率,成為如今入侵檢測(cè)技術(shù)研究的一個(gè)熱點(diǎn)。
1 特征選擇技術(shù)
1.1 特征選擇的概念
機(jī)器學(xué)習(xí)是人工智能的核心技術(shù),在各個(gè)領(lǐng)域得到了非常廣泛地應(yīng)用,它通過對(duì)訓(xùn)練樣本特征的學(xué)習(xí)來對(duì)未知的樣本做出預(yù)測(cè)[1]。在實(shí)際的應(yīng)用中,訓(xùn)練數(shù)據(jù)的特征繁多,對(duì)數(shù)據(jù)進(jìn)行特征分析、建模所耗費(fèi)的時(shí)間會(huì)很長(zhǎng);同時(shí),數(shù)據(jù)特征的個(gè)數(shù)太多,也會(huì)導(dǎo)致建立的模型更加復(fù)雜,不利于使用推廣。特征選擇可以通過相關(guān)算法約減數(shù)據(jù)中不相關(guān)的、冗余的或存在相互依賴關(guān)系的特征,從而降低計(jì)算的復(fù)雜度,提高學(xué)習(xí)算法分類的精度,建立簡(jiǎn)潔、易于理解的算法模型。簡(jiǎn)單地說,從數(shù)據(jù)的原始特征中選擇更有利于學(xué)習(xí)分類的特征的過程就是特征選擇。
1.2 特征選擇的過程
特征選擇在滿足某種評(píng)價(jià)函數(shù)的前提下,從大量的數(shù)據(jù)候選特征中找出最有用的最優(yōu)的最能夠反映數(shù)據(jù)屬性的特征子集,這是一個(gè)窮舉的過程。特征選擇的過程一般會(huì)包括子集產(chǎn)生、子集評(píng)價(jià)、停止準(zhǔn)則及子集驗(yàn)證四個(gè)主要步驟,如圖1所示。
⑴ 子集產(chǎn)生:采用搜索的方法來產(chǎn)生待評(píng)估的特征子集。首先要確定一個(gè)集合的開始點(diǎn),可以是不包含任何特征的空集、包含數(shù)據(jù)全部特征的全集或者是隨機(jī)的一個(gè)特征子集;然后在搜索的過程中通過反復(fù)加入特征、反復(fù)移除特征、反復(fù)加入或移除特征以及隨機(jī)產(chǎn)生子集等方式來選定最終的用于下一步評(píng)估的特征子集。
⑵ 子集評(píng)價(jià):使用評(píng)估函數(shù)對(duì)子集產(chǎn)生過程中獲得的特征子集進(jìn)行度量,將得到的評(píng)估值與之前得到的最優(yōu)子集進(jìn)行比較,如果評(píng)估表現(xiàn)更好,則替換之前的最優(yōu)子集。最優(yōu)子集的選定與評(píng)估函數(shù)的關(guān)系非常密切,評(píng)估函數(shù)反映了特征子集區(qū)分不同的類標(biāo)簽的分類的能力。
⑶ 停止準(zhǔn)則:用于防止子集搜索進(jìn)入窮舉或死循環(huán)過程,停止準(zhǔn)則依賴于子集產(chǎn)生和子集評(píng)價(jià)的過程,一般是一個(gè)閾值,可以是生成的特征子集數(shù)量的值、特征子集搜索的迭代次數(shù)以及評(píng)估值等。子集產(chǎn)生和子集評(píng)價(jià)是一個(gè)循環(huán)重復(fù)執(zhí)行的過程,當(dāng)滿足停止準(zhǔn)則時(shí),將輸出進(jìn)入下一步驗(yàn)證的候選最優(yōu)特征子集。
⑷ 子集驗(yàn)證:通過先驗(yàn)知識(shí)、仿真數(shù)據(jù)集或真實(shí)的數(shù)據(jù)集對(duì)候選最優(yōu)特征子集進(jìn)行各種不同的測(cè)試,并對(duì)結(jié)果進(jìn)行分析,驗(yàn)證所選特征子集的有效性。
1.3 特征選擇的分類
在特征選擇的過程中,搜索策略及評(píng)價(jià)準(zhǔn)則的確定是關(guān)鍵的步驟。根據(jù)所使用的搜索策略及評(píng)價(jià)函數(shù)的不同,可以對(duì)特征選擇方法進(jìn)行分類,以比較不同方法的特點(diǎn)[2]。
⑴ 根據(jù)搜索策略分類
在產(chǎn)生特征子集的時(shí)候,可以根據(jù)特征搜索方式的不同分為全局最優(yōu)搜索、啟發(fā)式搜索和隨機(jī)搜索三類。全局最優(yōu)搜索,又叫窮舉搜索,它能夠從全部特征集中搜索到每一個(gè)特征,最終形成最優(yōu)特征子集,但是計(jì)算的開銷較大,計(jì)算時(shí)間會(huì)隨著特征數(shù)量的增加呈指數(shù)級(jí)增長(zhǎng)。啟發(fā)式搜索,也稱為序列搜索,依據(jù)某種次序分步向當(dāng)前已有的特征子集中加入或者刪除特征,直到找到指定數(shù)目的最優(yōu)特征子集,它的計(jì)算復(fù)雜度較小,也比較容易實(shí)現(xiàn),但是可能陷入局部最優(yōu)。隨機(jī)搜索由設(shè)定的初始參數(shù)值,隨機(jī)選定一個(gè)起始的特征子集,然后根據(jù)特定的啟發(fā)信息,對(duì)特征子集進(jìn)行修正。該方法能夠避免局部最優(yōu)解的出現(xiàn),但是相關(guān)模型參數(shù)很難確定。
⑵ 根據(jù)評(píng)價(jià)函數(shù)分類
根據(jù)特征選擇過程中,評(píng)價(jià)函數(shù)與機(jī)器學(xué)習(xí)算法的結(jié)合方式,將特征選擇方法分為三種:嵌入式(Embedded)、過濾式(Filter)和封裝式(Wrapper)[3]。在嵌入式中,特征選擇作為組成部分嵌入到機(jī)器學(xué)習(xí)算法中,也就是說分類學(xué)習(xí)的過程就是特征選擇的過程。特征的評(píng)價(jià)過程獨(dú)立、不依賴于學(xué)習(xí)算法的就是過濾式特征選擇方法,它通過特征子集內(nèi)部信息來對(duì)特征子集的好壞進(jìn)行評(píng)判,由于執(zhí)行的效率比較高而被廣泛使用。封裝式是指直接利用選擇的特征子集對(duì)訓(xùn)練樣本進(jìn)行分類,用分類的精度來衡量特征子集的優(yōu)劣,它的準(zhǔn)確度較高,但是計(jì)算代價(jià)太大,較少使用。
2 入侵檢測(cè)中的特征選擇問題
將特征選擇技術(shù)應(yīng)用到入侵檢測(cè)系統(tǒng)中,最主要的任務(wù)是選擇合適的方法確定特征與待檢測(cè)分類目標(biāo)的相關(guān)性以及特征與訓(xùn)練、檢測(cè)的數(shù)據(jù)集合之間的相關(guān)性,確定與待匹配分類最相關(guān)的特征,在確保分類精度的前提下,使得所選的特征子集的數(shù)目最小,從而提高入侵系統(tǒng)的檢測(cè)效率。
2.1 特征的相關(guān)性
John、Blum及Caruana等給出了機(jī)器學(xué)習(xí)中的特征相關(guān)性的定義,并進(jìn)行了闡述分析。假定A和B是樣本集合S中的兩個(gè)樣本;C表示目標(biāo)函數(shù),同時(shí)C(A)表示A樣本的類別;Xi(A)代表A樣本的第i個(gè)特征的值。相關(guān)性的有關(guān)定義如下。
定義1 如果Xi是兩個(gè)樣本A、B僅有的不相同的特征,同時(shí)C(A)≠C(B),則表明特征Xi和目標(biāo)函數(shù)C是相關(guān)的。
定義2 樣本集合S中,兩個(gè)樣本A、B分屬于不同類別,并且僅有一個(gè)相異的特征Xi,那么特征Xi與樣本集合S就是強(qiáng)相關(guān)的;如果去除部分特征后,特征Xi成為樣本集合S中的強(qiáng)相關(guān)特征,則說明特征Xi和樣本集S是弱相關(guān)的。
定義3 給定一個(gè)分類學(xué)習(xí)算法L,存在一個(gè)特征集合A,如果說將特征Xi加入特征集合A中(Xi∪A),算法L的分類的準(zhǔn)確性提高,則表明對(duì)于樣本集A來說,特征Xi與學(xué)習(xí)分類算法L是增益性相關(guān)的。
如果兩個(gè)特征完全相關(guān),就說明存在冗余特征。特征集合中一般會(huì)包含四類特征:不相關(guān)特征、冗余特征、弱相關(guān)但不冗余的特征及強(qiáng)相關(guān)特征,其中最優(yōu)特征子集中包含全部的強(qiáng)相關(guān)和弱相關(guān)但不冗余的特征。
2.2 特征選擇模型
鑒于計(jì)算易行性、執(zhí)行效率等的考慮,入侵檢測(cè)中使用較多的特征選擇算法基本上屬于過濾式的,特征選擇的度量函數(shù)的一般形式如公式⑴所示。
其中,xi是一個(gè)二值變量,用于表示第i個(gè)特征Fi是否被選擇,xi=1時(shí)表示選擇,xi=0時(shí)表示不選擇;Ai(x)、Bi(x)代表兩個(gè)線性函數(shù);a0和b0則是兩個(gè)常量。此時(shí),特征選擇問題就轉(zhuǎn)化為求解函數(shù)最大值的問題,即maxGeFS(x),x∈{0,1}n。入侵檢測(cè)中,經(jīng)常用到的關(guān)聯(lián)性特征選擇方法、最大相關(guān)最小冗余特征選擇方法等在進(jìn)行特征選擇度量時(shí)均使用類似的函數(shù)。
⑴ 關(guān)聯(lián)性特征選擇方法
1999年hall提出了基于關(guān)聯(lián)性的特征選擇方法CFS(correlation-based feature selection),它通過Pearson相關(guān)系數(shù)來計(jì)算特征集中特征與類,以及特征與特征之間的相關(guān)性,然后采用啟發(fā)式的搜索策略來獲取最終的最優(yōu)特征子集。搜索過程中,CFS通過評(píng)估值Merit來進(jìn)行特征的選擇,Merit的計(jì)算如公式⑵。
公式⑵中,s表示具有k個(gè)特征的特征集,表示特征與類的相關(guān)系數(shù)的平均值,表示特征與特征之間的相關(guān)系數(shù)的平均值。當(dāng)特征與類之間的相關(guān)性越高,而特征與特征之間的相關(guān)性越小時(shí),merit的值就會(huì)越大。CFS采用啟發(fā)式搜索策略時(shí),初始的特征集可以為空,首先選擇單個(gè)與類相關(guān)性最大的特征加入到最優(yōu)特征子集中;然后,將所有候選特征與已選定特征進(jìn)行組合,并計(jì)算merit的值,將使得merit的值最大的特征加入最優(yōu)特征子集;最終遍歷整個(gè)特征集,得到最優(yōu)特征子集[4]。
CFS在進(jìn)行特征選擇時(shí),遵循了“特征與類之間的相關(guān)性較高,特征與特征之間的相關(guān)性較低”的原則,不但可以刪除與類不相關(guān)的特征,同時(shí),剔除了冗余特征,常用于特征集的降維,可以很大程度上優(yōu)化提高分類的精度。
⑵ 最大相關(guān)最小冗余特征選擇方法
2005年P(guān)eng提出了基于互信息的過濾式特征選擇方法MRMR(minimal redundancy maximal relevancy),以特征與類以及特征與特征之間的互信息為依據(jù),來選擇獲取與類之間最大相關(guān)性,同時(shí)特征之間最小冗余的特征子集。假定S為特征集合,xi為集合S中的特征,C為目標(biāo)類別,I(xi,C)表示特征xi與目標(biāo)類C之間的互信息,I(xi,xj)代表兩個(gè)不同特征之間的互信息,則集合S與類C之間的最大相關(guān)性和不同特征xi和xj之間的最小冗余的定義如公式⑶、⑷所示。
為了得到的特征與目標(biāo)類最相關(guān),同時(shí)特征之間冗余最小,MRMR的特征選取計(jì)算準(zhǔn)則如公式⑸所示。
MRMR方法一般使用增量搜索的方式來進(jìn)行特征選擇,假設(shè)已經(jīng)選擇了m-1個(gè)特征,然后從剩余的特征集合S-Sm-1中,選擇第m個(gè)特征,滿足公式6。每次新增一個(gè)特征,直至被選擇的特征的數(shù)量達(dá)到某個(gè)指定的值。MRMR方法具有較高的執(zhí)行速度,選擇的特征子集更具有魯棒性。
3 特征選擇在入侵檢測(cè)中的應(yīng)用
入侵檢測(cè)數(shù)據(jù)中的特征數(shù)量與分類的精度之間并不存在特定的線性關(guān)系,反而特征的數(shù)目超出一定的值時(shí),會(huì)明顯降低分類器的性能。在實(shí)際應(yīng)用過程中,存在一些不包含或包含很少系統(tǒng)狀態(tài)信息,對(duì)分類沒有明顯作用的無關(guān)冗余特征,它們對(duì)最終的檢測(cè)結(jié)果沒有影響卻會(huì)增加系統(tǒng)的檢測(cè)時(shí)間。建立基于特征選擇技術(shù)的輕量級(jí)入侵檢測(cè)系統(tǒng),將會(huì)有效降低數(shù)據(jù)的維度,提高系統(tǒng)分類的精度和檢測(cè)效率。特征選擇技術(shù)引入后,入侵檢測(cè)系統(tǒng)的數(shù)據(jù)檢測(cè)過程一般包括:數(shù)據(jù)離散化、特征選擇、數(shù)據(jù)預(yù)處理、入侵檢測(cè)和報(bào)告入侵?jǐn)?shù)據(jù)等五個(gè)階段,如圖2所示。
過濾式特征選擇方法多應(yīng)用于離散型數(shù)據(jù),因此,在進(jìn)行特征選擇之前,需要對(duì)原始數(shù)據(jù)中的連續(xù)型數(shù)據(jù)進(jìn)行離散化處理,連續(xù)型數(shù)據(jù)離散化一般包含排序、選擇分割點(diǎn)、分裂或者合并等步驟,常見的有等寬、等頻、基于信息熵等的離散化算法。原始數(shù)據(jù)離散化處理以后,經(jīng)過CFS、MRMR、Relief-F等特征選擇算法,就可以約簡(jiǎn)為少數(shù)的幾個(gè)有效相關(guān)的特征。在進(jìn)入分類器進(jìn)行訓(xùn)練之前,為了提高分類的性能,還需要對(duì)約簡(jiǎn)后的數(shù)據(jù)進(jìn)行歸一化等的相關(guān)預(yù)處理,以便將單位及取值范圍存在差異的不同的特征值縮放在同一個(gè)值域空間上,例如0.1到1.0或-1.0到1.0。預(yù)處理完成后的數(shù)據(jù)用于訓(xùn)練構(gòu)建Bayes、SVM及Decision tree等分類器,并利用分類器對(duì)網(wǎng)絡(luò)中實(shí)時(shí)捕獲的數(shù)據(jù)進(jìn)行檢測(cè),發(fā)現(xiàn)報(bào)告出現(xiàn)的入侵異常數(shù)據(jù)。大量的實(shí)踐證明,基于特征選擇的輕量級(jí)的入侵檢測(cè)系統(tǒng)在檢測(cè)率、誤檢率、檢測(cè)時(shí)間等方面都表現(xiàn)出了突出的優(yōu)越性[5]。
4 小結(jié)
特征選擇技術(shù)可以通過選擇相關(guān)性強(qiáng)冗余性低的特征子集來減少原始數(shù)據(jù)中的特征數(shù)目,成為目前入侵檢測(cè)系統(tǒng)提升檢測(cè)速度的常用技術(shù)?;谔卣鬟x擇技術(shù)構(gòu)建入侵檢測(cè)系統(tǒng)需要重點(diǎn)研究?jī)蓚€(gè)問題:一是特征選擇算法的選擇;二是分類器的選取與優(yōu)化。另外,網(wǎng)絡(luò)攻擊的手段不斷更新,新的入侵類型層出不窮,入侵檢測(cè)系統(tǒng)在能夠快速檢測(cè)海量數(shù)據(jù)的同時(shí),還要具備發(fā)現(xiàn)未知攻擊的能力,才可以真正加強(qiáng)入侵檢測(cè)系統(tǒng)的防御能力,因此,這也將成為未來特征選擇技術(shù)更好地應(yīng)用于入侵檢測(cè)系統(tǒng)的重要研究方向之一。
參考文獻(xiàn)(References):
[1] 張麗新,王家欽,趙雁南等.機(jī)器學(xué)習(xí)中的特征選擇[J].計(jì)算機(jī)科學(xué),2004.31(11):180-184
[2] 毛勇,周曉波,夏錚等.特征算法研究綜述[J].模式識(shí)別與人工智能,2007.20(2):211-217
[3] 邱玉祥.特征選擇和集成學(xué)習(xí)及其在入侵檢測(cè)中的應(yīng)用[D].南京師范大學(xué),2008:6-10
[4] 肖旎旖.基于相關(guān)性和冗余性分析的特征選擇算法研究[D].大連理工大學(xué),2013:3-5
[5] 田俊峰,黃紅艷,常新峰.特征選擇的輕量級(jí)入侵檢測(cè)系統(tǒng)[J].計(jì)算機(jī)工程與應(yīng)用,2009.45(4):111-114