陳猛
摘 要:本文提出了一種集成基于EP的分類器用于數(shù)據(jù)流入侵檢測(cè)的模型EEPCDS(Ensemble of EP-based Classifiers on Data Stream)。該模型選擇滑動(dòng)窗口中的多個(gè)時(shí)間段數(shù)據(jù)來(lái)生成多個(gè)EP分類器,并且通過(guò)加權(quán)投票表決對(duì)未知樣本進(jìn)行分類,檢測(cè)入侵行為。EEPCDS能適應(yīng)數(shù)據(jù)流環(huán)境下的概念漂移,并且能實(shí)現(xiàn)較好的目標(biāo)類召回率和精度的平衡,以及較高的分類準(zhǔn)確率。
關(guān)鍵詞:入侵檢測(cè);EP;數(shù)據(jù)流
中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-5168(2019)19-0011-02
Abstract: This paper proposed a new approach, called EEPCDS (Ensemble of EP-based Classifiers on Data Stream), for intrusion detection on Data Stream. EEPCDS constructs fixed number of EP-based Classifiers from different chunks, and integrated these classifiers for intrusion detection. EEPCDS not only has a high accuracy, but also achieves a good balance of recall and precision.
Keywords: intrusion detection;EP;data stream
1 研究背景
入侵檢測(cè)是信息安全中研究較多的領(lǐng)域,其實(shí)質(zhì)上是分類問(wèn)題,分類出正常數(shù)據(jù)或異常數(shù)據(jù),進(jìn)而進(jìn)行不同處理,保護(hù)系統(tǒng)免受攻擊。
數(shù)據(jù)流環(huán)境下存在概念漂移[1],而且由于數(shù)據(jù)流動(dòng)到達(dá),因此,到達(dá)速度快且數(shù)據(jù)量過(guò)于巨大,難以全部存儲(chǔ)。找到最能反映當(dāng)前數(shù)據(jù)分布的足夠數(shù)據(jù),訓(xùn)練出分類模型,對(duì)待分類數(shù)據(jù)快速準(zhǔn)確地識(shí)別出是否異常,是筆者提出的算法所要解決的難點(diǎn)問(wèn)題。
本文提出的算法模型是集成基于EP的分類器用于數(shù)據(jù)流入侵檢測(cè)。該模型選擇滑動(dòng)窗口中的多個(gè)時(shí)間段數(shù)據(jù)來(lái)生成多個(gè)EP分類器,并且通過(guò)加權(quán)投票表決對(duì)未知樣本進(jìn)行分類,檢測(cè)入侵行為。
2 入侵檢測(cè)的性能評(píng)價(jià)
入侵檢測(cè)問(wèn)題中,筆者把數(shù)據(jù)區(qū)分為攻擊類和非攻擊類2種。對(duì)于入侵檢測(cè)性能,不能僅僅考慮分類準(zhǔn)確率,更要關(guān)注攻擊類數(shù)據(jù)的分類情況。為此,引入召回率([r])、精度([p])2個(gè)概念。
(1)
(2)
其中,[pos]是檢驗(yàn)數(shù)據(jù)集中攻擊類樣本的總數(shù);[true_pos]是被正確分類的攻擊類樣本數(shù);而[false_pos]是被錯(cuò)誤地分類為攻擊類樣本的樣本數(shù)。使用[F]度量,可以使召回率和精度平衡,更好地反映出入侵檢測(cè)性能。
(3)
[其中,][λ]可設(shè)為0.5。
3 EP分類的背景知識(shí)
假設(shè)[DB]為訓(xùn)練數(shù)據(jù)集,含有[N]個(gè)樣本,分別屬于[m]個(gè)已知類[c1,c2,…,cm]。每個(gè)樣本有[s]個(gè)不同的屬性,項(xiàng)是屬性名和屬性值的對(duì)偶。令[I]是樣本中出現(xiàn)的項(xiàng)的全集,[I]的子集[X?I]稱作項(xiàng)集。
3.1 定義1:支持度(Support)和增長(zhǎng)率(GR)
設(shè)[DB]為訓(xùn)練數(shù)據(jù)集,[D]是[DB]的子集。項(xiàng)集[X]在[D]上的支持度為:
(4)
其中,[countDX]是[D]中包含[X]的樣本個(gè)數(shù);當(dāng)[D]代表[ci]類樣本集合時(shí),[supDX]則反映出[X]在[ci]類樣本出現(xiàn)的頻率。
項(xiàng)集[X]從[D’]到[D]的增長(zhǎng)率[grD’→DX]定義如下:
(5)
如果[D]代表[ci]類樣本集,[D’]代表非[ci]類樣本集,那[grD’→DX]是項(xiàng)集[X]從非[ci]類到[ci]類支持度變化程度的度量,記作[griX]。
3.2 定義2
當(dāng)[D]和[D’]分別是[ci]類和非[ci]類樣本的集合時(shí),給定增長(zhǎng)率閾值[ρ>1],如果項(xiàng)集[X]從[D’]到[D]的增長(zhǎng)率[grD’→DX≥ρ],則稱[X]是從[D’]到[D]的EP(Emerging Pattern),又稱[ci]類的EP。
EP是一個(gè)項(xiàng)集,其支持度(出現(xiàn)頻率)從類A(B)到類B(A)顯著地增加,因此具有很好的區(qū)分能力?;贓P的分類方法在運(yùn)行期間,需要設(shè)定支持度和增長(zhǎng)率的閾值,并挖掘滿足支持度和增長(zhǎng)率閾值的EP。在對(duì)新樣本[S]進(jìn)行分類時(shí),算法會(huì)聚合[S]中的[ci]類EP的區(qū)分能力,得到[S]屬于[ci]類的得分,并將[S]分到具有最高得分的類[2]。
4 EEPCDS模型設(shè)計(jì)
在本文中,筆者引入滑動(dòng)窗口機(jī)制,使用最近一段時(shí)間流入的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。假設(shè)[BW]是一個(gè)基本窗口,對(duì)應(yīng)一個(gè)數(shù)據(jù)流子序列;[SW]是一個(gè)滑動(dòng)窗口,對(duì)應(yīng)一個(gè)連續(xù)的基本窗口序列,表示為[SW=BW1,…,BWi,…,BWK],在基本窗口[BWi]訓(xùn)練得到對(duì)應(yīng)的基分類器為[Ci],利用多個(gè)分類器集成來(lái)提高分類準(zhǔn)確率。
在入侵檢測(cè)問(wèn)題中,筆者更關(guān)注攻擊類,因?yàn)閷⒐纛悩颖惧e(cuò)誤地分類為非攻擊類樣本的代價(jià)是非常巨大的。在給單個(gè)基分類器賦予權(quán)重時(shí),考慮該基分類器將樣本分類到攻擊類的數(shù)目,數(shù)目較大,筆者就應(yīng)賦予其較高的權(quán)重。
在此,設(shè)[Fi](1≤[i]≤5)為第[i]個(gè)基訓(xùn)分類器在練數(shù)據(jù)集上對(duì)稀有類分類的[F-]度量值。[D]是待分類樣本集,第[i]個(gè)基分類器將[D]中樣本分到稀有類的數(shù)目為[Ki]。第[i]個(gè)基分類器的權(quán)重[wi]用式(6)計(jì)算:
(6)
本文提出的集成異種分類器的數(shù)據(jù)流入侵檢測(cè)模型EEPCDS(Ensemble of by eEP-based Classifiers on Data Stream)在滑動(dòng)窗口[SW]內(nèi)訓(xùn)練5個(gè)基于EP的基分類器。當(dāng)滑動(dòng)到第[K+1]個(gè)基本窗口時(shí),先讓每個(gè)基分類器[Ci]獨(dú)立地做出預(yù)測(cè);然后,通過(guò)計(jì)算基分類器[Ci]將樣本分類到攻擊類的數(shù)量情況,根據(jù)式(6),賦予[Ci]權(quán)重,將權(quán)重最小的基分類器[Cl]移出集合[E],在基本窗口[K+1]上學(xué)習(xí)得到分類器基于EP的分類器[CK+1],加入集合[E]。具體算法如下。
EEPCDS(D,E)//其中[D]為[BWK+1]的數(shù)據(jù);[E]為基分類器集合。
①初始時(shí),構(gòu)造5個(gè)基于EP的分類器。②while(滑動(dòng)到基本窗口[BWK+1]){。③for([Ci∈E]){計(jì)算[Ci]在[D]上的[F-]度量;//公式(3);計(jì)算[Ci]對(duì)應(yīng)權(quán)重[wi];} ?//公式(6)。④在[D]上構(gòu)造基于EP的分類器,替換出權(quán)重最小的基分類器[Cl]。⑤}。
5 結(jié)語(yǔ)
本文提出了一種集成基于EP的分類器用于數(shù)據(jù)流入侵檢測(cè)的模型EEPCDS (Ensemble of EP-based Classifiers on Data Stream),模型中使用多個(gè)時(shí)間段的數(shù)據(jù)學(xué)習(xí)生成多個(gè)EP分類器,并且通過(guò)加權(quán)投票表決對(duì)未知樣本進(jìn)行分類,發(fā)現(xiàn)攻擊類數(shù)據(jù),檢測(cè)入侵行為。EEPCDS使用滑動(dòng)窗口機(jī)制適應(yīng)概念漂移的影響,并且能實(shí)現(xiàn)較好的目標(biāo)類召回率和精度平衡,以及較高的分類準(zhǔn)確率。
參考文獻(xiàn):
[1]Widmer G, Kubat M. Learning in the presence of concept drift and hidden contexts[J]. Machine Learning,1996(1):69-101.
[2]范明,劉孟旭,趙紅領(lǐng).一種基于基本顯露模式的分類算法[J].計(jì)算機(jī)科學(xué),2004(11):211-214.