自適應(yīng)分箱特征選擇的快速網(wǎng)絡(luò)入侵檢測系統(tǒng)

2021-01-29 04:30劉景美高源伯

西安電子科技大學(xué)學(xué)報 2021年1期

劉景美，高源伯

(西安電子科技大學(xué) 綜合業(yè)務(wù)網(wǎng)理論及關(guān)鍵技術(shù)國家重點實驗室，陜西西安 710071)

近來年，隨著大數(shù)據(jù)、工業(yè)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等新型技術(shù)的發(fā)展，安全威脅和網(wǎng)絡(luò)攻擊也隨之增多，網(wǎng)絡(luò)安全面臨著新的挑戰(zhàn)，安全形勢嚴(yán)峻[1]。因此，設(shè)計一套能夠準(zhǔn)確高效識別各種網(wǎng)絡(luò)攻擊的網(wǎng)絡(luò)入侵檢測系統(tǒng)，已成為現(xiàn)如今亟待解決的一個問題。

為提高網(wǎng)絡(luò)入侵檢測的準(zhǔn)確率，研究者們在機器學(xué)習(xí)、深度學(xué)習(xí)中探索新的算法并將其應(yīng)用于此[2-6]。然而，這些算法普遍存在訓(xùn)練時間和檢測時間較長的問題，針對這一問題，很多研究者利用特征選擇[7-14]，將原始高維數(shù)據(jù)降為低維數(shù)據(jù)，從而減少訓(xùn)練和檢測的時間。

文獻(xiàn)[15]設(shè)計了一種基于多目標(biāo)優(yōu)化與logistic回歸的封裝器，有效提高了準(zhǔn)確率，然而，這種算法以logistic回歸模型的預(yù)測結(jié)果為優(yōu)化目標(biāo)，每一輪都需要重新訓(xùn)練模型，算法時間復(fù)雜度較高，時間較長。文獻(xiàn)[16]利用基于信息增益的過濾器與深度學(xué)習(xí)模型設(shè)計的入侵檢測系統(tǒng)，準(zhǔn)確率相對較高，但是，在特征選擇方面，由于入侵檢測數(shù)據(jù)集同時存在連續(xù)型和離散型數(shù)據(jù)，且數(shù)據(jù)分布不均勻，采用基于信息增益的過濾器算法運行時間相對較長。針對這一問題，筆者提出了一種基于信息增益的自適應(yīng)分箱特征選擇算法，對入侵檢測數(shù)據(jù)集中的連續(xù)型數(shù)據(jù)進(jìn)行自適應(yīng)分箱處理，從而降低計算復(fù)雜度，提高特征選擇階段的效率。

將提出的自適應(yīng)分箱特征選擇算法與LightGBM集成學(xué)習(xí)模型相結(jié)合，設(shè)計了一種快速網(wǎng)絡(luò)入侵檢測系統(tǒng)，在保證較高準(zhǔn)確率的條件下大大降低了模型訓(xùn)練和入侵檢測的時間。通過在網(wǎng)絡(luò)入侵檢測領(lǐng)域常用數(shù)據(jù)集NSL-KDD上測試，表明文中算法在準(zhǔn)確率和訓(xùn)練時間上均優(yōu)于隨機森林、AdaBoost等現(xiàn)有算法。

1 基于信息增益的自適應(yīng)分箱特征選擇

信息增益是衡量通過得知特征X的信息從而對所要預(yù)測類別Y的信息的不確定性減少的程度；通過計算數(shù)據(jù)集中每個特征相對于類別標(biāo)簽的信息增益，從而得到各特征對預(yù)測類別的貢獻(xiàn)程度，之后通過選取信息增益較大的特征生成新的特征子集，達(dá)到數(shù)據(jù)降維的目的，進(jìn)而保證系統(tǒng)在較高準(zhǔn)確率的條件下降低訓(xùn)練和檢測時間。信息增益的計算公式為

IG(Y|X)=H(Y)-H(Y|X) ，

(1)

其中，H(Y)為數(shù)據(jù)集中類別Y的信息熵，對于含有n個類別的數(shù)據(jù)集，Y={y1，y2，…，yn}，其計算公式為

(2)

其中，P(yi)為在數(shù)據(jù)集的所有類別中yi的出現(xiàn)的概率。H(Y|X)的計算為

(3)

其中，m為特征X中的取值個數(shù)，P(xj)是特征X為xj的概率，P(yi|xj)是在特征X為xj的條件下類別Y為yi的概率。

對于傳統(tǒng)的基于信息增益的特征選擇，在計算P(yi|xj)時，要計算特征X取特征值時的條件概率。在入侵檢測系統(tǒng)的數(shù)據(jù)中，同時存在連續(xù)型數(shù)據(jù)和離散型數(shù)據(jù)，對于取值較少的離散型數(shù)據(jù)來說，這種計算量并不大，但是對于連續(xù)型數(shù)據(jù)和取值較多的離散型數(shù)據(jù)來說，這無疑是一個巨大的計算開銷。對于一個有m種取值的特征，其時間復(fù)雜度為O(m)，以NSL-KDD數(shù)據(jù)集為例，該數(shù)據(jù)集中的特征“dst_bytes”共有9 326種取值；如果直接對其進(jìn)行信息增益的計算，那么計算量是很大的，因此，對該特征不同取值進(jìn)行分組成為了一個必然趨勢。然而，由于網(wǎng)絡(luò)入侵檢測數(shù)據(jù)集中數(shù)據(jù)分布不平衡的特點，如果直接按數(shù)值或樣本個數(shù)來平均分組，那么分組后的特征無法很好地表示原始特征的分布情況。為此，設(shè)計了一種基于信息增益的自適應(yīng)分箱特征選擇算法。

以含有n個樣本點的特征X為例，該算法過程如下：

(3)按分箱后的結(jié)果將同一箱子中的樣本記為同一特征值，計算各特征的信息增益。

這種算法與傳統(tǒng)的基于信息增益的特征選擇算法結(jié)果相近，但運算效率大大提高。這里的時間復(fù)雜度由原來的O(m)降至O(mbox)，m為特征取值的數(shù)量，隨訓(xùn)練集中特征取值的變化而變化；mbox是預(yù)先設(shè)置的分箱數(shù)量，為常數(shù)。因此，本算法將時間復(fù)雜度從傳統(tǒng)算法的線性階降低為常數(shù)階。對于連續(xù)值特征，mbox?m，以分箱數(shù)為20的特征選擇算法為例，對于NSL-KDD數(shù)據(jù)集中的“dst_bytes”特征，時間復(fù)雜度從原來的O(9 326)降至為O(20)，有效降低了運行時間，提高了程序的效率。

2 基于自適應(yīng)分箱特征選擇與LightGBM的快速網(wǎng)絡(luò)入侵檢測系統(tǒng)框架

圖1 入侵檢測系統(tǒng)框架圖

設(shè)計的基于自適應(yīng)分箱特征選擇與LightGBM的快速網(wǎng)絡(luò)入侵檢測系統(tǒng)整體框圖如圖1所示。對于原始訓(xùn)練集，首先進(jìn)行數(shù)據(jù)預(yù)處理，將原始數(shù)據(jù)集標(biāo)準(zhǔn)化處理并去除無效特征；再通過基于信息增益的自適應(yīng)分箱特征選擇算法，對原始數(shù)據(jù)集的所有特征按照各特征的信息增益進(jìn)行排序，選取信息增益較大的n個特征生成維度較低的數(shù)據(jù)子集；之后利用LightGBM集成學(xué)習(xí)對特征選擇后的訓(xùn)練集進(jìn)行訓(xùn)練，訓(xùn)練出所需的網(wǎng)絡(luò)入侵檢測模型。在系統(tǒng)性能驗證階段，將對測試集按照之前訓(xùn)練集中相同的預(yù)處理和特征選擇方法進(jìn)行操作；之后通過文中的入侵檢測系統(tǒng)進(jìn)行檢測；將檢測結(jié)果與真實結(jié)果相對比，從而計算出本系統(tǒng)檢測的準(zhǔn)確率等性能指標(biāo)，全面評估本系統(tǒng)綜合性能。

2.1 數(shù)據(jù)預(yù)處理

對于原始數(shù)據(jù)的數(shù)據(jù)預(yù)處理，主要采用了零均值標(biāo)準(zhǔn)化和去除無效特征的方法。

(4)

在去除無效特征階段，將遍歷所有特征，去除特征值惟一的特征。在NSL-KDD數(shù)據(jù)集中，由于特征“num_outbound_cmds”中所有的特征值均為0，因此該特征無法起到有效預(yù)測作用，所以刪除該特征。

2.2 基于LightGBM的集成學(xué)習(xí)模型

LightGBM是一種基于梯度單邊采樣(Gradient-based One-Side Sampling ，GOSS)與互斥特征捆綁(Exclusive Feature Bundling ，EFB)的梯度提升決策樹(Gradient Boosting Decision Tree ，GBDT)模型。針對之前的GBDT模型訓(xùn)練時間較長，且時間消耗主要在于最佳分割點確定上這一問題，LightGBM在決策樹的特征選擇與分割點確定方面，采用了直方圖算法。這種算法將原來連續(xù)的特征值進(jìn)行分箱處理，在之后的訓(xùn)練模型時使用這些分箱結(jié)果構(gòu)建直方圖，大大減少了對分裂點選擇的時間，提高了訓(xùn)練和檢測的效率[17]。

為減少每次迭代過程中樣本的數(shù)量，并對預(yù)測效果不好的樣本加強訓(xùn)練，LightGBM引入了GOSS算法。對于經(jīng)過上一輪訓(xùn)練過后的樣本，計算每個樣本的梯度。每個樣本的梯度可以表示該樣本預(yù)測的錯誤程度。為此，通過GOSS算法保留所有梯度較大的實例，對于梯度較小的實例則采取按照一定比例隨機采樣的策略。

在計算每個樣本的梯度方面，設(shè)O為決策樹中某個固定節(jié)點上的訓(xùn)練數(shù)據(jù)集。定義該節(jié)點在點d處分割特征j的方差增益為

(5)

(6)

其中，Al={xi∈A：Xij≤d}，Ar={xi∈A：Xij>d}，Bl={xi∈B：Xij≤d}，Br={xi∈B：Xij>d}。

在網(wǎng)絡(luò)入侵檢測領(lǐng)域，通常情況下數(shù)據(jù)集是相對稀疏的，因此有些特征會存在互斥特性，即不同時取非零的情況。針對這一情況，LightGBM還引入了EFB對數(shù)據(jù)中的互斥特征進(jìn)行捆綁，從而進(jìn)一步降低模型的計算復(fù)雜度。通過EFB可以將多個特征捆綁為一個束bundle，這樣就將計算復(fù)雜度從原來的O(#data×#feature)降為O(#data×#bundle)，從而進(jìn)一步降低模型在訓(xùn)練和檢測階段的時間復(fù)雜度，提高運行效率。

3 實驗仿真結(jié)果與分析

本實驗操作系統(tǒng)環(huán)境為Windows 10，電腦硬件cup為i7-5 500 U，8 GB內(nèi)存，在Python 3.7軟件環(huán)境中編程實現(xiàn)。設(shè)置了特征選擇的結(jié)果比較實驗和整體系統(tǒng)模型的性能比較實驗。

3.1 數(shù)據(jù)集介紹與分析

為有效驗證網(wǎng)絡(luò)入侵檢測系統(tǒng)的性能，采用網(wǎng)絡(luò)入侵檢測系統(tǒng)領(lǐng)域常用的數(shù)據(jù)集NSL-KDD[18]。NSL-KDD數(shù)據(jù)集分為訓(xùn)練集和測試集，訓(xùn)練集共包括125 973條有效數(shù)據(jù)，測試集共包括22 544條有效數(shù)據(jù)。由于本數(shù)據(jù)集在不同類別樣本之間的數(shù)量存在不平衡現(xiàn)象，在訓(xùn)練集中對部分少數(shù)類別攻擊樣本進(jìn)行了隨機過采樣；之后，隨機選取訓(xùn)練集中的90%作為訓(xùn)練數(shù)據(jù)，10%的數(shù)據(jù)作為驗證數(shù)據(jù)從而訓(xùn)練模型。最后通過在測試集的檢測結(jié)果驗證本系統(tǒng)的性能。

在特征方面，NSL-KDD數(shù)據(jù)集中共包括41維特征和1維結(jié)果標(biāo)簽，在41維特征中，僅7維特征是離散型數(shù)據(jù)，其他34維特征均為連續(xù)型數(shù)據(jù)，該數(shù)據(jù)集數(shù)據(jù)數(shù)值的分布特點符合大多數(shù)網(wǎng)絡(luò)入侵檢測領(lǐng)域數(shù)據(jù)的特點，因此，如果直接對數(shù)據(jù)集進(jìn)行基于信息增益的特征選擇，則時間復(fù)雜度將會很大，嚴(yán)重影響了程序運行效率；而使用文中提出的基于信息增益的自適應(yīng)分箱特征選擇，時間復(fù)雜度將大大降低，在保證達(dá)到所需特征選擇需求的條件下，有效提高程序的運行效率。

3.2 特征選擇的結(jié)果比較實驗

在特征選擇性能比較實驗方面，首先對提出的特征選擇算法與傳統(tǒng)基于信息增益特征選擇算法進(jìn)行對比，在NSL-KDD的訓(xùn)練集上進(jìn)行實驗。利用傳統(tǒng)的基于信息增益的特征選擇算法與分箱數(shù)量設(shè)置為20的文中算法，在NSL-KDD的訓(xùn)練集上信息增益排名前8的特征及結(jié)果如表1所示。結(jié)果表明，在信息增益排名前8的特征中，雖然有個別幾個特征的順序不是完全一致，但在排名前8的特征中，所選擇的體征種類完全相同，僅存在部分信息增益差距較小的特征出現(xiàn)順序不一致的現(xiàn)象。這種信息增益大體一致的結(jié)果，能夠滿足選擇特征的需求。在運行時間方面，基于信息增益的特征選擇運行時間為824.43 s，而筆者提出的基于信息增益的自適應(yīng)分箱特征選擇算法僅用時27.35 s，相比于傳統(tǒng)的特征選擇算法，所用時間減少了約96.68%，大大提高了程序的效率。

表1 兩種特征選擇算法結(jié)果比較

3.3 入侵檢測系統(tǒng)性能比較實驗

對于網(wǎng)絡(luò)入侵檢測系統(tǒng)方面的比較實驗，首先對基于自適應(yīng)分箱特征選擇算法與LightGBM的入侵檢測系統(tǒng)進(jìn)行仿真實驗。在設(shè)計的基于特征選擇與LightGBM的網(wǎng)絡(luò)入侵檢測系統(tǒng)中，首先需要確定特征選擇的數(shù)量。由基于自適應(yīng)分箱特征選擇算法計算的信息增益排名結(jié)果可以看出，前3個特征的信息增益均在0.28以上，遠(yuǎn)高于其他特征，且前8個特征的信息增益均大于0.1。為此，將主要研究選取前3個特征和前8個特征的特征子集。為全面研究不同特征的預(yù)測結(jié)果，并驗證選取3個特征和8個特征的準(zhǔn)確率情況，在利用自適應(yīng)分箱算法計算的信息增益的排序結(jié)果中，按照排序順序依次選取不同數(shù)量的特征進(jìn)行實驗。不同的特征選擇在LightGBM分類器下的準(zhǔn)確率如圖2所示。由圖可知，當(dāng)選擇特征數(shù)量大于3時，在驗證集的準(zhǔn)確率已經(jīng)很高且趨于平穩(wěn)。在測試集中，選用3個特征時準(zhǔn)確率也相對較高；在選擇特征數(shù)量為8時，驗證集中已經(jīng)處于較高的平穩(wěn)水平，在訓(xùn)練集中準(zhǔn)確率也相對較高?？梢钥闯觯x用3個特征和8個特征兩種情況性能表現(xiàn)相對較好。

為進(jìn)一步研究不同迭代次數(shù)時，選取的3個特征和8個特征的數(shù)據(jù)子集與原始數(shù)據(jù)集的性能情況，分別在驗證集和測試集中對文中算法進(jìn)行仿真驗證。在驗證集和訓(xùn)練集中，不同迭代數(shù)量的準(zhǔn)確率結(jié)果分別如圖3和圖4所示。由圖3可知，迭代次數(shù)在100到200之間，在驗證集中的準(zhǔn)確率大幅提升，當(dāng)?shù)螖?shù)大于200時，3種情況的準(zhǔn)確率均提升緩慢，特別是當(dāng)?shù)螖?shù)大于500時，準(zhǔn)確率曲線趨于平穩(wěn)。為保證系統(tǒng)能夠在保證較高準(zhǔn)確率的條件下實現(xiàn)快速網(wǎng)絡(luò)入侵檢測，選取迭代次數(shù)為650。3種情況的詳細(xì)性能比較如表2所示。

圖2 不同特征準(zhǔn)確率折線圖

表2 不同特征性能對照表

在圖3的驗證集中，雖然原始數(shù)據(jù)集的準(zhǔn)確率始終保持高于其他兩種情況，但是在圖4的測試集中，通過特征選擇的3特征數(shù)據(jù)子集準(zhǔn)確率整體高于其他兩種情況，這與3個特征集中的特征有關(guān)。原始數(shù)據(jù)集存在大量的冗余和噪聲，在驗證集中，通過多次迭代優(yōu)化，會引導(dǎo)模型趨于有效區(qū)分驗證集中攻擊和正常樣本的方向訓(xùn)練。然而，此時所選取特征和特征值的劃分點很有可能只滿足驗證集的數(shù)據(jù)分布特點而不滿足整體數(shù)據(jù)集，這將導(dǎo)致模型過擬合；雖然在驗證集上的準(zhǔn)確率很高，但泛化能力不強。而選用的3特征數(shù)據(jù)子集，三個特征的信息增益遠(yuǎn)高于其他特征。這三個特征與類別標(biāo)簽的相關(guān)性較強，能夠為檢測類別提供可靠依據(jù)，以及為入侵檢測系統(tǒng)有效區(qū)分攻擊和正常流量提供可靠保證。

圖3 驗證集準(zhǔn)確率迭代曲線圖

通過表2中對三種情況的詳細(xì)性能指標(biāo)對比，選用3種特征的數(shù)據(jù)子集在準(zhǔn)確率和F1(精確率和召回率的調(diào)和函數(shù))值這兩個核心指標(biāo)上均優(yōu)于其他兩種情況。特別是在訓(xùn)練和檢測時間上，選用3種特征的數(shù)據(jù)子集的訓(xùn)練時間僅約為原始數(shù)據(jù)集時間的一半，大大提高了模型訓(xùn)練效率，且測試時間也均少于其他兩種情況，縮短了模型訓(xùn)練和入侵檢測的時間。

為進(jìn)一步評估文中設(shè)計的網(wǎng)絡(luò)入侵檢測系統(tǒng)的綜合性能，還設(shè)置了多種預(yù)測模型的綜合對比實驗。引入了現(xiàn)有網(wǎng)絡(luò)入侵檢測的主流算法K近鄰(K-Nearest Neighbor，KNN)、決策樹(Decision Tree ，DT)、Adaboost、隨機森林(Random Forest ，RF)、支持向量機(Support Vector Machine ，SVM)、GBDT和XGBoost。將上一組實驗中表現(xiàn)性能最好的選用3個特征的LightGBM模型與這些算法進(jìn)行詳細(xì)的對比分析，各算法詳細(xì)的性能表現(xiàn)如表3所示。

表3 不同入侵檢測模型性能對比表

對于網(wǎng)絡(luò)入侵檢測系統(tǒng)來說，準(zhǔn)確率和F1值是評判系統(tǒng)整體性能優(yōu)劣的主要標(biāo)準(zhǔn)。在這兩個指標(biāo)的比較中，筆者提出的基于特征選擇與LightGBM的入侵檢測系統(tǒng)均優(yōu)于其他算法。在精確率方面，KNN和DT兩個算法相對較高，但是其召回率較低，如果將其應(yīng)用于實際網(wǎng)絡(luò)入侵檢測環(huán)境中，將會對網(wǎng)絡(luò)系統(tǒng)造成很大的損失。在訓(xùn)練時間方面，筆者設(shè)計的入侵檢測系統(tǒng)的訓(xùn)練時間均小于除KNN外的其他算法(KNN無需學(xué)習(xí)新的模型)，能夠?qū)崿F(xiàn)模型的快速訓(xùn)練。對于利用多種單一模型的集成學(xué)習(xí)來說，在提高準(zhǔn)確率的同時會延長模型訓(xùn)練和檢測時間。Adaboost和隨機森林雖然在準(zhǔn)確率方面較單一模型有所提高，但是其訓(xùn)練時間過長。對于SVM來說，由于其計算的復(fù)雜度較高，雖然準(zhǔn)確率相對較高，但是其訓(xùn)練和檢測時間過長，難以部署在實際場景中。通過以上性能對比分析，無論是在檢測的準(zhǔn)確率還是模型的訓(xùn)練時間方面，文中所述算法整體性能優(yōu)于其他現(xiàn)有算法。

4 結(jié)束語

與傳統(tǒng)基于信息增益的特征選擇算法相比，筆者提出的基于信息增益的自適應(yīng)分箱特征選擇算法在保證結(jié)果與之前算法相近的條件下，大大降低了時間復(fù)雜度，速度更快。在NSL-KDD訓(xùn)練集的實驗中，與傳統(tǒng)算法相比，本算法時間縮短了約96.68%。筆者設(shè)計的基于自適應(yīng)分箱特征選擇與LightGBM的快速網(wǎng)絡(luò)入侵檢測系統(tǒng)，準(zhǔn)確率更高且模型訓(xùn)練速度相對較快。通過在NSL-KDD數(shù)據(jù)集上的實驗結(jié)果可知，該系統(tǒng)的準(zhǔn)確率高達(dá)93.32%，且訓(xùn)練時間僅為10.33 s，對于22 544條的測試集樣本，檢測時間僅0.88 s，可用于網(wǎng)絡(luò)入侵檢測場景。未來，將進(jìn)一步探索入侵檢測領(lǐng)域各特征之間的潛在關(guān)系，研究更好的降維方式，在較快速度的同時，進(jìn)一步提高入侵檢測系統(tǒng)的準(zhǔn)確率。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡