集成基于EP的分類器用于數(shù)據(jù)流入侵檢測(cè)

2019-09-10 07:22陳猛

河南科技 2019年19期

陳猛

摘要：本文提出了一種集成基于EP的分類器用于數(shù)據(jù)流入侵檢測(cè)的模型EEPCDS（Ensemble of EP-based Classifiers on Data Stream）。該模型選擇滑動(dòng)窗口中的多個(gè)時(shí)間段數(shù)據(jù)來(lái)生成多個(gè)EP分類器，并且通過(guò)加權(quán)投票表決對(duì)未知樣本進(jìn)行分類，檢測(cè)入侵行為。EEPCDS能適應(yīng)數(shù)據(jù)流環(huán)境下的概念漂移，并且能實(shí)現(xiàn)較好的目標(biāo)類召回率和精度的平衡，以及較高的分類準(zhǔn)確率。

關(guān)鍵詞：入侵檢測(cè);EP;數(shù)據(jù)流

中圖分類號(hào)：TP311.13 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1003-5168（2019）19-0011-02

Abstract： This paper proposed a new approach， called EEPCDS （Ensemble of EP-based Classifiers on Data Stream）， for intrusion detection on Data Stream. EEPCDS constructs fixed number of EP-based Classifiers from different chunks， and integrated these classifiers for intrusion detection. EEPCDS not only has a high accuracy， but also achieves a good balance of recall and precision.

Keywords： intrusion detection;EP;data stream

1 研究背景

入侵檢測(cè)是信息安全中研究較多的領(lǐng)域，其實(shí)質(zhì)上是分類問(wèn)題，分類出正常數(shù)據(jù)或異常數(shù)據(jù)，進(jìn)而進(jìn)行不同處理，保護(hù)系統(tǒng)免受攻擊。

數(shù)據(jù)流環(huán)境下存在概念漂移[1]，而且由于數(shù)據(jù)流動(dòng)到達(dá)，因此，到達(dá)速度快且數(shù)據(jù)量過(guò)于巨大，難以全部存儲(chǔ)。找到最能反映當(dāng)前數(shù)據(jù)分布的足夠數(shù)據(jù)，訓(xùn)練出分類模型，對(duì)待分類數(shù)據(jù)快速準(zhǔn)確地識(shí)別出是否異常，是筆者提出的算法所要解決的難點(diǎn)問(wèn)題。

本文提出的算法模型是集成基于EP的分類器用于數(shù)據(jù)流入侵檢測(cè)。該模型選擇滑動(dòng)窗口中的多個(gè)時(shí)間段數(shù)據(jù)來(lái)生成多個(gè)EP分類器，并且通過(guò)加權(quán)投票表決對(duì)未知樣本進(jìn)行分類，檢測(cè)入侵行為。

2 入侵檢測(cè)的性能評(píng)價(jià)

入侵檢測(cè)問(wèn)題中，筆者把數(shù)據(jù)區(qū)分為攻擊類和非攻擊類2種。對(duì)于入侵檢測(cè)性能，不能僅僅考慮分類準(zhǔn)確率，更要關(guān)注攻擊類數(shù)據(jù)的分類情況。為此，引入召回率（[r]）、精度（[p]）2個(gè)概念。

（1）

（2）

其中，[pos]是檢驗(yàn)數(shù)據(jù)集中攻擊類樣本的總數(shù);[true_pos]是被正確分類的攻擊類樣本數(shù);而[false_pos]是被錯(cuò)誤地分類為攻擊類樣本的樣本數(shù)。使用[F]度量，可以使召回率和精度平衡，更好地反映出入侵檢測(cè)性能。

（3）

[其中，][λ]可設(shè)為0.5。

3 EP分類的背景知識(shí)

假設(shè)[DB]為訓(xùn)練數(shù)據(jù)集，含有[N]個(gè)樣本，分別屬于[m]個(gè)已知類[c1，c2，…，cm]。每個(gè)樣本有[s]個(gè)不同的屬性，項(xiàng)是屬性名和屬性值的對(duì)偶。令[I]是樣本中出現(xiàn)的項(xiàng)的全集，[I]的子集[X?I]稱作項(xiàng)集。

3.1 定義1：支持度（Support）和增長(zhǎng)率（GR）

設(shè)[DB]為訓(xùn)練數(shù)據(jù)集，[D]是[DB]的子集。項(xiàng)集[X]在[D]上的支持度為：

（4）

其中，[countDX]是[D]中包含[X]的樣本個(gè)數(shù);當(dāng)[D]代表[ci]類樣本集合時(shí)，[supDX]則反映出[X]在[ci]類樣本出現(xiàn)的頻率。

項(xiàng)集[X]從[D’]到[D]的增長(zhǎng)率[grD’→DX]定義如下：

（5）

如果[D]代表[ci]類樣本集，[D’]代表非[ci]類樣本集，那[grD’→DX]是項(xiàng)集[X]從非[ci]類到[ci]類支持度變化程度的度量，記作[griX]。

3.2 定義2

當(dāng)[D]和[D’]分別是[ci]類和非[ci]類樣本的集合時(shí)，給定增長(zhǎng)率閾值[ρ>1]，如果項(xiàng)集[X]從[D’]到[D]的增長(zhǎng)率[grD’→DX≥ρ]，則稱[X]是從[D’]到[D]的EP（Emerging Pattern），又稱[ci]類的EP。

EP是一個(gè)項(xiàng)集，其支持度（出現(xiàn)頻率）從類A（B）到類B（A）顯著地增加，因此具有很好的區(qū)分能力?；贓P的分類方法在運(yùn)行期間，需要設(shè)定支持度和增長(zhǎng)率的閾值，并挖掘滿足支持度和增長(zhǎng)率閾值的EP。在對(duì)新樣本[S]進(jìn)行分類時(shí)，算法會(huì)聚合[S]中的[ci]類EP的區(qū)分能力，得到[S]屬于[ci]類的得分，并將[S]分到具有最高得分的類[2]。

4 EEPCDS模型設(shè)計(jì)

在本文中，筆者引入滑動(dòng)窗口機(jī)制，使用最近一段時(shí)間流入的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。假設(shè)[BW]是一個(gè)基本窗口，對(duì)應(yīng)一個(gè)數(shù)據(jù)流子序列;[SW]是一個(gè)滑動(dòng)窗口，對(duì)應(yīng)一個(gè)連續(xù)的基本窗口序列，表示為[SW=BW1，…，BWi，…，BWK]，在基本窗口[BWi]訓(xùn)練得到對(duì)應(yīng)的基分類器為[Ci]，利用多個(gè)分類器集成來(lái)提高分類準(zhǔn)確率。

在入侵檢測(cè)問(wèn)題中，筆者更關(guān)注攻擊類，因?yàn)閷⒐纛悩颖惧e(cuò)誤地分類為非攻擊類樣本的代價(jià)是非常巨大的。在給單個(gè)基分類器賦予權(quán)重時(shí)，考慮該基分類器將樣本分類到攻擊類的數(shù)目，數(shù)目較大，筆者就應(yīng)賦予其較高的權(quán)重。

在此，設(shè)[Fi]（1≤[i]≤5）為第[i]個(gè)基訓(xùn)分類器在練數(shù)據(jù)集上對(duì)稀有類分類的[F-]度量值。[D]是待分類樣本集，第[i]個(gè)基分類器將[D]中樣本分到稀有類的數(shù)目為[Ki]。第[i]個(gè)基分類器的權(quán)重[wi]用式（6）計(jì)算：

（6）

本文提出的集成異種分類器的數(shù)據(jù)流入侵檢測(cè)模型EEPCDS（Ensemble of by eEP-based Classifiers on Data Stream）在滑動(dòng)窗口[SW]內(nèi)訓(xùn)練5個(gè)基于EP的基分類器。當(dāng)滑動(dòng)到第[K+1]個(gè)基本窗口時(shí)，先讓每個(gè)基分類器[Ci]獨(dú)立地做出預(yù)測(cè);然后，通過(guò)計(jì)算基分類器[Ci]將樣本分類到攻擊類的數(shù)量情況，根據(jù)式（6），賦予[Ci]權(quán)重，將權(quán)重最小的基分類器[Cl]移出集合[E]，在基本窗口[K+1]上學(xué)習(xí)得到分類器基于EP的分類器[CK+1]，加入集合[E]。具體算法如下。

EEPCDS（D，E）//其中[D]為[BWK+1]的數(shù)據(jù);[E]為基分類器集合。

①初始時(shí)，構(gòu)造5個(gè)基于EP的分類器。②while（滑動(dòng)到基本窗口[BWK+1]）{。③for（[Ci∈E]）{計(jì)算[Ci]在[D]上的[F-]度量;//公式（3）;計(jì)算[Ci]對(duì)應(yīng)權(quán)重[wi];} ?//公式（6）。④在[D]上構(gòu)造基于EP的分類器，替換出權(quán)重最小的基分類器[Cl]。⑤}。

5 結(jié)語(yǔ)

本文提出了一種集成基于EP的分類器用于數(shù)據(jù)流入侵檢測(cè)的模型EEPCDS （Ensemble of EP-based Classifiers on Data Stream），模型中使用多個(gè)時(shí)間段的數(shù)據(jù)學(xué)習(xí)生成多個(gè)EP分類器，并且通過(guò)加權(quán)投票表決對(duì)未知樣本進(jìn)行分類，發(fā)現(xiàn)攻擊類數(shù)據(jù)，檢測(cè)入侵行為。EEPCDS使用滑動(dòng)窗口機(jī)制適應(yīng)概念漂移的影響，并且能實(shí)現(xiàn)較好的目標(biāo)類召回率和精度平衡，以及較高的分類準(zhǔn)確率。

參考文獻(xiàn)：

[1]Widmer G， Kubat M. Learning in the presence of concept drift and hidden contexts[J]. Machine Learning，1996（1）：69-101.

[2]范明，劉孟旭，趙紅領(lǐng).一種基于基本顯露模式的分類算法[J].計(jì)算機(jī)科學(xué)，2004（11）：211-214.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

集成基于EP的分類器用于數(shù)據(jù)流入侵檢測(cè)