国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多步的多分類器在入侵檢測中的研究

2021-03-16 13:29:16江澤濤馬偉康
計算機(jī)應(yīng)用與軟件 2021年3期
關(guān)鍵詞:特征選擇分類器分類

江澤濤 馬偉康

(桂林電子科技大學(xué)廣西圖像圖形與智能處理重點(diǎn)實(shí)驗(yàn)室 廣西 桂林 541004)

0 引 言

網(wǎng)絡(luò)的快速發(fā)展帶來了巨大的便利,同時也帶來了一系列安全問題,如何提高網(wǎng)絡(luò)的主動防御能力、增強(qiáng)網(wǎng)絡(luò)的安全性成為了研究熱點(diǎn)。入侵檢測[1]的概念于1980年就已經(jīng)被提出。隨后便出現(xiàn)了入侵檢測系統(tǒng)[2],并成為了網(wǎng)絡(luò)安全中的一道重要防線。

機(jī)器學(xué)習(xí)的出現(xiàn)使得網(wǎng)絡(luò)安全得到了極大的發(fā)展。機(jī)器學(xué)習(xí)中的分類算法能夠應(yīng)用到入侵檢測[3-5]當(dāng)中,識別“正?!焙汀胺钦!毙畔?,將機(jī)器學(xué)習(xí)引入到入侵檢測當(dāng)中極大地推動了入侵檢測系統(tǒng)的研究。由于網(wǎng)絡(luò)需要及時響應(yīng)的特點(diǎn),因此必須要提高入侵檢測算法的準(zhǔn)確度和效率。文獻(xiàn)[6]使用SMOTE對數(shù)據(jù)進(jìn)行平衡處理,之后在處理后的數(shù)據(jù)上使用GBDT算法進(jìn)行分類。文獻(xiàn)[7]利用不同的離散化與特征選擇算法生成具有差異的多個最優(yōu)特征子集,并對每個特征子集進(jìn)行歸一化處理,用分類算法對提取后的特征進(jìn)行學(xué)習(xí)建模。文獻(xiàn)[8]提出模型決策樹,該方法具備一定的抗過擬合能力,但在處理缺失數(shù)據(jù)時存在一定的困難。文獻(xiàn)[9]是針對一種新穎的攻擊方法,該攻擊方法是篡改訓(xùn)練數(shù)據(jù),導(dǎo)致支持向量機(jī)在建模過程中學(xué)習(xí)到了錯誤的數(shù)據(jù),使得入侵檢測系統(tǒng)的檢測率降低,通過獲取該攻擊樣本,提出使用支持向量機(jī)解決該類型攻擊。文獻(xiàn)[10]提出了一種將K-means和隨機(jī)森林結(jié)合的方法,首先對數(shù)據(jù)進(jìn)行預(yù)處理,再對處理后的數(shù)據(jù)使用K-means方法進(jìn)行聚類操作,最后使用隨機(jī)森林對數(shù)據(jù)進(jìn)行分類操作,在一定程度上提高了準(zhǔn)確率并且減少了訓(xùn)練時間。上述方法在處理入侵檢測過程中對多種數(shù)據(jù)類型的數(shù)據(jù)集都采用單一的分類器,而單一的分類器并非對每種類型數(shù)據(jù)的分類的效果都是最好的。

針對多數(shù)據(jù)類型檢測問題,本文提出了一種基于多步的集成分類器方法,該方法通過對數(shù)據(jù)進(jìn)行預(yù)處理和降維操作,去除數(shù)據(jù)中冗余特征,減少噪音數(shù)據(jù)對分類結(jié)果的影響。使用處理后的訓(xùn)練集構(gòu)建多種分類器,完成訓(xùn)練后,檢驗(yàn)各個分類器的性能,選出針對每種類別中分類效果最好的分類器,使用多步分類完成對多類別數(shù)據(jù)的分類。

1 多步分類模型及實(shí)現(xiàn)

1.1 多步分類模型圖

現(xiàn)代網(wǎng)絡(luò)傳輸數(shù)據(jù)中總是混雜著多種類型的數(shù)據(jù),不同類型的數(shù)據(jù)之間或有很大差異或又十分相似。對于差異很大的數(shù)據(jù),在分類時相對容易,并能得到不錯的分類效果。但對于相似的數(shù)據(jù),則較難分類或者易錯分類,因而較難得到很好的分類結(jié)果。本文使用的KDD CUP99 10%數(shù)據(jù)集數(shù)據(jù)分布如表1。

分析KDD CUP99 10%訓(xùn)練集,可知DoS類型的數(shù)據(jù)占總訓(xùn)練集約80%,建立DoS的分類器模型時可以得到很好的擬合效果。但R2L和U2R分別只有52條和1 126條記錄,并且這兩個類型的數(shù)據(jù)和Normal的數(shù)據(jù)很相似,為此先將U2R和R2L合并為一種數(shù)據(jù)類型,再提出多步分類模型,該模型在進(jìn)行多步分類時遵循以下原則:(1) Normal是正常類型數(shù)據(jù),將各種攻擊類型分離出后,剩余的數(shù)據(jù)便是Normal類型,將其最后分出是為了避免過多的攻擊數(shù)據(jù)被誤檢為正常數(shù)據(jù)。(2) 其余數(shù)據(jù)的分類順序按照模型擬合度依次將不同的數(shù)據(jù)類型分類出來。根據(jù)以上兩條原則可知Normal應(yīng)該最后被分離出,其余類型數(shù)據(jù)的模型擬合度由高到低分別為DoS、Probe、R2L、U2R。

數(shù)據(jù)分類步驟如下:1) 對數(shù)據(jù)進(jìn)行預(yù)處理,預(yù)處理操作包括數(shù)據(jù)標(biāo)準(zhǔn)化[11]和特征選擇。2) 選取對DOS類型數(shù)據(jù)分類效果較好的分類器1對預(yù)處理后的數(shù)據(jù)進(jìn)行分類操作,此時得到DoS類型的數(shù)據(jù)和Rest1(剩余部分)數(shù)據(jù),此時Rest1數(shù)據(jù)中還混雜有Probe、R2L、U2R和Normal四種類型的數(shù)據(jù)。3) 選取對Probe類型分類效果較好的分類器2,對Rest1數(shù)據(jù)進(jìn)行分類,分類完成后得出Probe類型的數(shù)據(jù)和Rest2數(shù)據(jù),此時Rest2數(shù)據(jù)中混雜有R2L、U2R和Normal三種類型的數(shù)據(jù)。4) R2L和U2R這兩種類型的數(shù)據(jù)較為相似本文中將R2L和U2R作為相同的類型的數(shù)據(jù),選取對Normal類型數(shù)據(jù)分類效果較好的分類器3,完成分類操作后得到Normal類型和R2L、U2R類型的數(shù)據(jù),完成分類操作。

使用該方法會在每次分類過程中經(jīng)過對比選取對某一類型最優(yōu)的分類器,這種操作會得到更好的分類效果。針對入侵檢測系統(tǒng)多步分類模型圖如圖1所示。

圖1 多步分類模型圖

1.2 改進(jìn)的特征選擇方法

在高維的數(shù)據(jù)中總是存在一些冗余的特征,這些特征會使一些分類器產(chǎn)生過擬合現(xiàn)象并且對分類結(jié)果產(chǎn)生較大的影響。對數(shù)據(jù)進(jìn)行特征選擇[12]可以降低數(shù)據(jù)復(fù)雜度,減少數(shù)據(jù)噪聲對分類結(jié)果的影響,使得模型泛化能力更強(qiáng),預(yù)防過擬合問題,增加模型可讀性。根據(jù)特征選擇的形式又可以將特征選擇方法分為:過濾法(Filter)、包裝法(Wrapper)和嵌入法(Embedded)3種。本文使用Embedded式特征選擇中的基于學(xué)習(xí)器的特征選擇方法。

Embedded式特征選擇是將特征選擇過程與學(xué)習(xí)器訓(xùn)練過程融為一體,兩者在同一個過程中完成。在基于樹的特征選擇方法中,使用基于樹的預(yù)測模型可以用來計算特征的重要程度,因此可以用來消除不相關(guān)的特征?;跇涞哪P褪鞘褂没嵯禂?shù)或者均方差對特征進(jìn)行選擇,而在最近鄰模型中是通過計算特征之間的距離對數(shù)據(jù)進(jìn)行分類。為了增強(qiáng)選出特征的普適性,本文使用多種機(jī)器學(xué)習(xí)模型(支持向量機(jī)、決策樹、隨機(jī)森林等)進(jìn)行特征選擇,對每種模型得出的結(jié)果按照特征重要性由高到低排序,選出特征中對分類結(jié)果影響較大的特征。但學(xué)習(xí)器在選擇特征過程中存在著不同學(xué)習(xí)器打分不一定相同的現(xiàn)象,因此使用相對投票法即預(yù)測為得票最多的標(biāo)記,若同時有多個標(biāo)記獲最高票,則從中隨機(jī)選取一個選取排名較高的特征。

(1)

圖2 特征選擇模型圖

本文選用多種學(xué)習(xí)器并進(jìn)行多次實(shí)驗(yàn),對每種類型的數(shù)據(jù)都單獨(dú)進(jìn)行特征選擇,避免不同特征對不同類型的數(shù)據(jù)產(chǎn)生的影響不同,因此分別對本文中四組類型的數(shù)據(jù)分別進(jìn)行特征選擇,得到對每種類型分類效果最好的特征。選取出現(xiàn)頻率最高的一些特征,有利于增強(qiáng)被選出特征的普適性。

1.3 改進(jìn)的Bagging學(xué)習(xí)器

Bagging[13]是在樣本數(shù)量為M的原始訓(xùn)練集中隨機(jī)且有放回地抽取樣本數(shù)量為N的子訓(xùn)練集,構(gòu)成n個樣本空間,每個樣本空間的總樣本數(shù)N總是小于原始訓(xùn)練集的樣本數(shù)量M,使用抽取出的子訓(xùn)練集構(gòu)建估計器,把這些估計器的預(yù)測結(jié)果結(jié)合起來形成最終的預(yù)測結(jié)果。因此Bagging具有較強(qiáng)的泛化能力,能夠有效地降低模型的方差,但對于訓(xùn)練集的擬合程度較差,也就是模型存在較大的偏倚。

在進(jìn)行多步分類過程中,選擇Bagging分類器對Normal、R2L、U2R數(shù)據(jù)進(jìn)行分類時存在結(jié)果不穩(wěn)定的現(xiàn)象。分析后發(fā)現(xiàn),在KDD99訓(xùn)練集中R2L和U2R的數(shù)據(jù)量分別為1 126和52條,而Normal的數(shù)據(jù)量多達(dá)97 278條,Bagging分類器采用有放回的隨機(jī)取樣方法,在取樣得到的子訓(xùn)練集中可能只包含極少的R2L和U2R數(shù)據(jù)甚至無法取到R2L和U2R數(shù)據(jù),因此造成分類結(jié)果不穩(wěn)定。本文改進(jìn)Bagging取樣方法,按照比例有放回地隨機(jī)抽取各個類型中的樣本,得到較為平衡的子訓(xùn)練集,保證每次取樣都能完整地將每種類型的樣本包含到子訓(xùn)練集中,這種改進(jìn)有利于減少模型的偏倚問題,使分類結(jié)果較為穩(wěn)定。將改進(jìn)后的Bagging稱為B-Bagging(Balance-Bagging)。取樣方法如下:

(2)

式中:k為某類型樣本中所要選出的數(shù)據(jù)量;n為某類型樣本中總的數(shù)據(jù)量;N為整個樣本集中的數(shù)據(jù)量;P為子訓(xùn)練樣本的總數(shù)據(jù)量。

1.4 多步分類實(shí)現(xiàn)

使用多步分類算法需要對數(shù)據(jù)進(jìn)行多次分類操作,在每次分類操作時選取分類器對分類結(jié)果有著很大的影響。對不同類型的數(shù)據(jù)選擇合適的分類器對分類結(jié)果有著積極的影響,能提高分類準(zhǔn)確率。

設(shè)訓(xùn)練集T={x1,x2,…,xn}每個樣本為42維,包含41個特征和最后一列數(shù)據(jù)標(biāo)簽。數(shù)據(jù)標(biāo)簽共有4類(U2R和R2L合并為1類),在建模時需要選取每種標(biāo)簽進(jìn)行建模。多步分類算法的實(shí)現(xiàn)如算法1和算法2所示。

算法1分類器模型選取

輸入:數(shù)據(jù)集T。

輸出:三種分類器模型。

步驟1根據(jù)式(1)對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。

步驟2將DoS類型的數(shù)據(jù)取出,使用不同學(xué)習(xí)器的特征選擇算法對數(shù)據(jù)的特征進(jìn)行多次排序,按照分類影響重要性由高至低依次排序。使用投票法思想將多次出現(xiàn)的重要特征選取出來。其余類型的數(shù)據(jù)特征選擇使用和DoS相同的特征選擇方法。

步驟3使用特征選擇后的數(shù)據(jù)分別建立分類器,取出DoS類型數(shù)據(jù)集D進(jìn)行標(biāo)記,并將余下的數(shù)據(jù)集P標(biāo)記為同一類,共形成了兩類數(shù)據(jù),使用數(shù)據(jù)訓(xùn)練分類器模型。完成建模后去除DoS類型的數(shù)據(jù)。

步驟4使用步驟3分別對Probe、R2L和U2R訓(xùn)練分類器模型,直至完成使用類型模型的建立。

步驟5輸出三種分類器模型。

完成分類器建模后可以使用分類器模型對待分類數(shù)據(jù)進(jìn)行分類操作,設(shè)待分類數(shù)據(jù)集M={x1,x2,…,xn},該數(shù)據(jù)集中每個樣本有41維特征不包含標(biāo)簽。

算法2分類器分類

輸入:數(shù)據(jù)集M。

輸出:分類結(jié)果。

步驟1根據(jù)式(1)對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。

步驟2復(fù)制數(shù)據(jù)集M,得到相同的數(shù)據(jù)集M′。

步驟3首先從數(shù)據(jù)集中分類得出DoS類型數(shù)據(jù),選出對DoS類型數(shù)據(jù)有著積極影響的特征,使用分類器模型完成第一次分類,得出DoS類型數(shù)據(jù)和Rest1數(shù)據(jù)。

步驟4從數(shù)據(jù)集M′中刪除DoS類數(shù)據(jù),得到數(shù)據(jù)集N,復(fù)制數(shù)據(jù)集N得到相同的數(shù)據(jù)集N′。按照數(shù)據(jù)類型的分類順序,重復(fù)步驟3,直至分類完成。

步驟5輸出分類結(jié)果。

2 實(shí) 驗(yàn)

本實(shí)驗(yàn)采用KDD CUP99數(shù)據(jù)集,使用訓(xùn)練集建立分類器模型,測試集測試分類器的性能。在KDD CUP99數(shù)據(jù)集中,數(shù)據(jù)共有五大類:NORMAL、Probe、DoS、U2R、R2L。其中:Probe類包括6小類,DoS類包括10小類,U2R類包括8小類,R2L類包括15小類。這五大類數(shù)據(jù)的分布極其不平衡,比如在訓(xùn)練集中DoS類的數(shù)據(jù)多達(dá)391 458記錄,而數(shù)據(jù)量最少的為U2R僅僅只有52條記錄。使用準(zhǔn)確率(Accuracy)、檢測率(DR)和誤檢率(FAR)作為算法的評價標(biāo)準(zhǔn)。

(3)

(4)

2.1 數(shù)據(jù)預(yù)處理操作

KDD CUP99數(shù)據(jù)集是入侵檢測做模型分析時最常用到的數(shù)據(jù)集之一,因此本文中采用KDD CUP99的10%訓(xùn)練集(共494 021條數(shù)據(jù))建立學(xué)習(xí)器模型,使用KDD CUP99的測試集(共311 027條數(shù)據(jù))驗(yàn)證模型效果,該數(shù)據(jù)集每行表示一個記錄,每條記錄有41維特征和一個類標(biāo)簽。在該數(shù)據(jù)集中的某些特征值為非數(shù)值類型,因此首先對數(shù)據(jù)中的非數(shù)值類型值轉(zhuǎn)換為數(shù)值型。例如第二列特征Protocol-type,其值有三種協(xié)議:tcp、udp、icmp。對其進(jìn)行數(shù)值化處理,將tcp、udp、icmp依次轉(zhuǎn)化為0、1、2,如表2所示。

表2 非數(shù)值類型特征轉(zhuǎn)化為數(shù)值類型

在入侵檢測過程中,對給定的數(shù)據(jù)集進(jìn)行分類操作。這需要準(zhǔn)確分辨出哪些是正常數(shù)據(jù),哪些是異常數(shù)據(jù)。因此,本文將訓(xùn)練集中正常數(shù)據(jù)的類標(biāo)簽Normal的替換為‘0’,其余非正常數(shù)據(jù)標(biāo)簽Probe、DoS依次替換為‘1’,‘2’,U2R和R2L 替換為‘3’。

對數(shù)據(jù)完成標(biāo)準(zhǔn)化操作,數(shù)據(jù)標(biāo)準(zhǔn)化又稱去均值和方差按比例縮放,表示原始值與均值之間差多少個標(biāo)準(zhǔn)差,是一個相對值,所以它也有去除量綱的效果。同時,它還有兩個額外的好處:均值為0,標(biāo)準(zhǔn)差為1。對數(shù)據(jù)進(jìn)行Z-score標(biāo)準(zhǔn)化處理:

(5)

KDD數(shù)據(jù)集中,每條數(shù)據(jù)包含41個特征,一些特征對分類結(jié)果有較小或者沒有影響,因此需要進(jìn)行特征選擇操作。本文使用基于學(xué)習(xí)器的特征選擇方法選擇重要特征,主要用到了支持向量機(jī)、KNN、決策樹、GBDT、LightGBM五種學(xué)習(xí)器。對每次選取的特征按照重要性進(jìn)行排序,得到五種特征排序結(jié)果,選取在五種排序里重要性較大的特征進(jìn)行實(shí)驗(yàn)對比,最終選取實(shí)驗(yàn)結(jié)果較好的特征。對DoS類型的數(shù)據(jù)一共選取了15維的特征,Probe類型的數(shù)據(jù)一共選取了19維的特征,R2L和U2R一共選取了18維的特征。所選取的特征對分類結(jié)果有著積極的影響,被去除的特征對分類結(jié)果影響較小或者是一些噪音數(shù)據(jù)影響分類結(jié)果。各個類型數(shù)據(jù)選取的特征如表3所示。

表3 各個攻擊類型所選取的重要特征

續(xù)表3

2.2 實(shí)驗(yàn)?zāi)P团c結(jié)果分析

在多步分類過程中,經(jīng)過對比實(shí)驗(yàn)選出對各種類型數(shù)據(jù)分類效果最好的分類器。對DoS類型數(shù)據(jù)使用支持向量機(jī)分類器,對Probe類型數(shù)據(jù)使用決策樹分類器,對U2R和R2L使用B-Bagging分類器。分類器如圖3所示。

圖3 分類器模型圖

因?yàn)閁2R和R2L的訓(xùn)練樣本數(shù)量只有1 178條記錄,因此在建立B-Bagging的模型時需要重新調(diào)整訓(xùn)練集中Normal、U2R和R2L樣本數(shù)量的比例,在實(shí)驗(yàn)中發(fā)現(xiàn)提升U2R和R2L訓(xùn)練樣本的比例能提高其檢測率并降低誤檢率。使用KDD CUP99的驗(yàn)證集對建立的模型進(jìn)行測試并與其他方法進(jìn)行對比,得到各個類型的檢測率和誤檢率分別如表4和表5所示。

表4 各種方法的檢測率對比結(jié)果

表5 各種方法對數(shù)據(jù)集總體的檢測率和誤檢率對比

可以看出,使用支持向量機(jī)使得DoS的檢測率達(dá)到了99.55%且誤檢率僅為5.23%;決策樹對Probe的檢測率達(dá)到了90.88%且誤檢率僅為6.74%;B-Bagging方法使U2R和R2L的檢測率達(dá)到了52.16%且誤檢率僅為8%。各個攻擊類型數(shù)據(jù)的檢測率都有相應(yīng)的提高,并且總體的檢測率也有一定提升,但總體的誤檢率有所增高,原因是正常數(shù)據(jù)被預(yù)測為非正常數(shù)據(jù)的樣本增多,這在現(xiàn)實(shí)生活中,可能會影響用戶訪問網(wǎng)絡(luò)的體驗(yàn),但增強(qiáng)了網(wǎng)絡(luò)的安全性,因此也在合理范圍內(nèi)。U2R和R2L在KDD訓(xùn)練集中共有1 178個樣本,相比較總體的49萬條樣本所占比例極低,這對在KDD測試集的31萬條樣本中檢測16 417條的U2R和R2L帶來了一定難度,但在使用了本文的B-Bagging方法后也帶來了較高的提升。在網(wǎng)絡(luò)中U2R和R2L會帶來更大的危害,提升U2R和R2L的檢測率對增強(qiáng)網(wǎng)絡(luò)的安全具有更大的意義。各方法的檢測率和誤檢率的對比分別如圖4、圖5所示。

圖4 不同方法的檢測率對比

圖5 不同方法的誤檢率對比

3 結(jié) 語

針對每種特征對每種數(shù)據(jù)分類時的影響并不相同和不同的分類器對不同類型數(shù)據(jù)分類結(jié)果存在差異的問題,本文采用了多步分類的方法并將相似度較高的U2R和R2L合并為一類,同時采用不同的分類器對每種類型的數(shù)據(jù)進(jìn)行分類。該方法能充分利用數(shù)據(jù)特征對分類結(jié)果產(chǎn)生的積極影響,并且選取針對每種類型數(shù)據(jù)最優(yōu)的分類器進(jìn)行分類,達(dá)到最好的分類效果。實(shí)驗(yàn)結(jié)果表明該方法切實(shí)可行,采用檢測率和誤檢率這兩個評價指標(biāo)與其他方法進(jìn)行對比可以看出該方法對分類效果的提升。為進(jìn)一步提高算法的性能與準(zhǔn)確率,下一步考慮將深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)相結(jié)合用到入侵檢測系統(tǒng)當(dāng)中。

猜你喜歡
特征選擇分類器分類
分類算一算
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
BP-GA光照分類器在車道線識別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
教你一招:數(shù)的分類
Kmeans 應(yīng)用與特征選擇
電子制作(2017年23期)2017-02-02 07:17:06
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機(jī)的TSK分類器
聯(lián)合互信息水下目標(biāo)特征選擇算法
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
嘉兴市| 商南县| 元氏县| 藁城市| 鹤庆县| 濮阳市| 景东| 龙岩市| 简阳市| 轮台县| 铁力市| 马山县| 曲水县| 文水县| 嘉鱼县| 金平| 亚东县| 洱源县| 三亚市| 郯城县| 丰县| 紫云| 江安县| 新津县| 元谋县| 玉山县| 白城市| 马公市| 清镇市| 额济纳旗| 镇巴县| 安溪县| 晋宁县| 民和| 洪洞县| 沙湾县| 襄垣县| 周口市| 栾川县| 固始县| 土默特左旗|