国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

集成基于EP的分類器用于數(shù)據(jù)流入侵檢測(cè)

2019-09-10 07:22陳猛
河南科技 2019年19期
關(guān)鍵詞:數(shù)據(jù)流入侵檢測(cè)

陳猛

摘 要:本文提出了一種集成基于EP的分類器用于數(shù)據(jù)流入侵檢測(cè)的模型EEPCDS(Ensemble of EP-based Classifiers on Data Stream)。該模型選擇滑動(dòng)窗口中的多個(gè)時(shí)間段數(shù)據(jù)來(lái)生成多個(gè)EP分類器,并且通過(guò)加權(quán)投票表決對(duì)未知樣本進(jìn)行分類,檢測(cè)入侵行為。EEPCDS能適應(yīng)數(shù)據(jù)流環(huán)境下的概念漂移,并且能實(shí)現(xiàn)較好的目標(biāo)類召回率和精度的平衡,以及較高的分類準(zhǔn)確率。

關(guān)鍵詞:入侵檢測(cè);EP;數(shù)據(jù)流

中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-5168(2019)19-0011-02

Abstract: This paper proposed a new approach, called EEPCDS (Ensemble of EP-based Classifiers on Data Stream), for intrusion detection on Data Stream. EEPCDS constructs fixed number of EP-based Classifiers from different chunks, and integrated these classifiers for intrusion detection. EEPCDS not only has a high accuracy, but also achieves a good balance of recall and precision.

Keywords: intrusion detection;EP;data stream

1 研究背景

入侵檢測(cè)是信息安全中研究較多的領(lǐng)域,其實(shí)質(zhì)上是分類問(wèn)題,分類出正常數(shù)據(jù)或異常數(shù)據(jù),進(jìn)而進(jìn)行不同處理,保護(hù)系統(tǒng)免受攻擊。

數(shù)據(jù)流環(huán)境下存在概念漂移[1],而且由于數(shù)據(jù)流動(dòng)到達(dá),因此,到達(dá)速度快且數(shù)據(jù)量過(guò)于巨大,難以全部存儲(chǔ)。找到最能反映當(dāng)前數(shù)據(jù)分布的足夠數(shù)據(jù),訓(xùn)練出分類模型,對(duì)待分類數(shù)據(jù)快速準(zhǔn)確地識(shí)別出是否異常,是筆者提出的算法所要解決的難點(diǎn)問(wèn)題。

本文提出的算法模型是集成基于EP的分類器用于數(shù)據(jù)流入侵檢測(cè)。該模型選擇滑動(dòng)窗口中的多個(gè)時(shí)間段數(shù)據(jù)來(lái)生成多個(gè)EP分類器,并且通過(guò)加權(quán)投票表決對(duì)未知樣本進(jìn)行分類,檢測(cè)入侵行為。

2 入侵檢測(cè)的性能評(píng)價(jià)

入侵檢測(cè)問(wèn)題中,筆者把數(shù)據(jù)區(qū)分為攻擊類和非攻擊類2種。對(duì)于入侵檢測(cè)性能,不能僅僅考慮分類準(zhǔn)確率,更要關(guān)注攻擊類數(shù)據(jù)的分類情況。為此,引入召回率([r])、精度([p])2個(gè)概念。

(1)

(2)

其中,[pos]是檢驗(yàn)數(shù)據(jù)集中攻擊類樣本的總數(shù);[true_pos]是被正確分類的攻擊類樣本數(shù);而[false_pos]是被錯(cuò)誤地分類為攻擊類樣本的樣本數(shù)。使用[F]度量,可以使召回率和精度平衡,更好地反映出入侵檢測(cè)性能。

(3)

[其中,][λ]可設(shè)為0.5。

3 EP分類的背景知識(shí)

假設(shè)[DB]為訓(xùn)練數(shù)據(jù)集,含有[N]個(gè)樣本,分別屬于[m]個(gè)已知類[c1,c2,…,cm]。每個(gè)樣本有[s]個(gè)不同的屬性,項(xiàng)是屬性名和屬性值的對(duì)偶。令[I]是樣本中出現(xiàn)的項(xiàng)的全集,[I]的子集[X?I]稱作項(xiàng)集。

3.1 定義1:支持度(Support)和增長(zhǎng)率(GR)

設(shè)[DB]為訓(xùn)練數(shù)據(jù)集,[D]是[DB]的子集。項(xiàng)集[X]在[D]上的支持度為:

(4)

其中,[countDX]是[D]中包含[X]的樣本個(gè)數(shù);當(dāng)[D]代表[ci]類樣本集合時(shí),[supDX]則反映出[X]在[ci]類樣本出現(xiàn)的頻率。

項(xiàng)集[X]從[D’]到[D]的增長(zhǎng)率[grD’→DX]定義如下:

(5)

如果[D]代表[ci]類樣本集,[D’]代表非[ci]類樣本集,那[grD’→DX]是項(xiàng)集[X]從非[ci]類到[ci]類支持度變化程度的度量,記作[griX]。

3.2 定義2

當(dāng)[D]和[D’]分別是[ci]類和非[ci]類樣本的集合時(shí),給定增長(zhǎng)率閾值[ρ>1],如果項(xiàng)集[X]從[D’]到[D]的增長(zhǎng)率[grD’→DX≥ρ],則稱[X]是從[D’]到[D]的EP(Emerging Pattern),又稱[ci]類的EP。

EP是一個(gè)項(xiàng)集,其支持度(出現(xiàn)頻率)從類A(B)到類B(A)顯著地增加,因此具有很好的區(qū)分能力?;贓P的分類方法在運(yùn)行期間,需要設(shè)定支持度和增長(zhǎng)率的閾值,并挖掘滿足支持度和增長(zhǎng)率閾值的EP。在對(duì)新樣本[S]進(jìn)行分類時(shí),算法會(huì)聚合[S]中的[ci]類EP的區(qū)分能力,得到[S]屬于[ci]類的得分,并將[S]分到具有最高得分的類[2]。

4 EEPCDS模型設(shè)計(jì)

在本文中,筆者引入滑動(dòng)窗口機(jī)制,使用最近一段時(shí)間流入的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。假設(shè)[BW]是一個(gè)基本窗口,對(duì)應(yīng)一個(gè)數(shù)據(jù)流子序列;[SW]是一個(gè)滑動(dòng)窗口,對(duì)應(yīng)一個(gè)連續(xù)的基本窗口序列,表示為[SW=BW1,…,BWi,…,BWK],在基本窗口[BWi]訓(xùn)練得到對(duì)應(yīng)的基分類器為[Ci],利用多個(gè)分類器集成來(lái)提高分類準(zhǔn)確率。

在入侵檢測(cè)問(wèn)題中,筆者更關(guān)注攻擊類,因?yàn)閷⒐纛悩颖惧e(cuò)誤地分類為非攻擊類樣本的代價(jià)是非常巨大的。在給單個(gè)基分類器賦予權(quán)重時(shí),考慮該基分類器將樣本分類到攻擊類的數(shù)目,數(shù)目較大,筆者就應(yīng)賦予其較高的權(quán)重。

在此,設(shè)[Fi](1≤[i]≤5)為第[i]個(gè)基訓(xùn)分類器在練數(shù)據(jù)集上對(duì)稀有類分類的[F-]度量值。[D]是待分類樣本集,第[i]個(gè)基分類器將[D]中樣本分到稀有類的數(shù)目為[Ki]。第[i]個(gè)基分類器的權(quán)重[wi]用式(6)計(jì)算:

(6)

本文提出的集成異種分類器的數(shù)據(jù)流入侵檢測(cè)模型EEPCDS(Ensemble of by eEP-based Classifiers on Data Stream)在滑動(dòng)窗口[SW]內(nèi)訓(xùn)練5個(gè)基于EP的基分類器。當(dāng)滑動(dòng)到第[K+1]個(gè)基本窗口時(shí),先讓每個(gè)基分類器[Ci]獨(dú)立地做出預(yù)測(cè);然后,通過(guò)計(jì)算基分類器[Ci]將樣本分類到攻擊類的數(shù)量情況,根據(jù)式(6),賦予[Ci]權(quán)重,將權(quán)重最小的基分類器[Cl]移出集合[E],在基本窗口[K+1]上學(xué)習(xí)得到分類器基于EP的分類器[CK+1],加入集合[E]。具體算法如下。

EEPCDS(D,E)//其中[D]為[BWK+1]的數(shù)據(jù);[E]為基分類器集合。

①初始時(shí),構(gòu)造5個(gè)基于EP的分類器。②while(滑動(dòng)到基本窗口[BWK+1]){。③for([Ci∈E]){計(jì)算[Ci]在[D]上的[F-]度量;//公式(3);計(jì)算[Ci]對(duì)應(yīng)權(quán)重[wi];} ?//公式(6)。④在[D]上構(gòu)造基于EP的分類器,替換出權(quán)重最小的基分類器[Cl]。⑤}。

5 結(jié)語(yǔ)

本文提出了一種集成基于EP的分類器用于數(shù)據(jù)流入侵檢測(cè)的模型EEPCDS (Ensemble of EP-based Classifiers on Data Stream),模型中使用多個(gè)時(shí)間段的數(shù)據(jù)學(xué)習(xí)生成多個(gè)EP分類器,并且通過(guò)加權(quán)投票表決對(duì)未知樣本進(jìn)行分類,發(fā)現(xiàn)攻擊類數(shù)據(jù),檢測(cè)入侵行為。EEPCDS使用滑動(dòng)窗口機(jī)制適應(yīng)概念漂移的影響,并且能實(shí)現(xiàn)較好的目標(biāo)類召回率和精度平衡,以及較高的分類準(zhǔn)確率。

參考文獻(xiàn):

[1]Widmer G, Kubat M. Learning in the presence of concept drift and hidden contexts[J]. Machine Learning,1996(1):69-101.

[2]范明,劉孟旭,趙紅領(lǐng).一種基于基本顯露模式的分類算法[J].計(jì)算機(jī)科學(xué),2004(11):211-214.

猜你喜歡
數(shù)據(jù)流入侵檢測(cè)
應(yīng)用數(shù)據(jù)流分析排除起動(dòng)機(jī)不轉(zhuǎn)故障的研究
數(shù)據(jù)流和波形診斷技術(shù)在發(fā)動(dòng)機(jī)故障診斷中的應(yīng)用
數(shù)據(jù)流安全查詢技術(shù)綜述
多Agent的創(chuàng)新網(wǎng)絡(luò)入侵檢測(cè)方法仿真研究
基于入侵檢測(cè)的數(shù)據(jù)流挖掘和識(shí)別技術(shù)應(yīng)用
藝術(shù)類院校高效存儲(chǔ)系統(tǒng)的設(shè)計(jì)
利用數(shù)據(jù)流進(jìn)行電控故障診斷的案例分析
基于關(guān)聯(lián)規(guī)則的計(jì)算機(jī)入侵檢測(cè)方法
帕薩特轎車怠速抖動(dòng)、尾氣超標(biāo)故障的診斷與排除
基于Φ—OTDR的分布式入侵檢測(cè)系統(tǒng)的應(yīng)用綜述