国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

自適應(yīng)分箱特征選擇的快速網(wǎng)絡(luò)入侵檢測系統(tǒng)

2021-01-29 04:30劉景美高源伯
關(guān)鍵詞:特征選擇增益準(zhǔn)確率

劉景美,高源伯

(西安電子科技大學(xué) 綜合業(yè)務(wù)網(wǎng)理論及關(guān)鍵技術(shù)國家重點實驗室,陜西 西安 710071)

近來年,隨著大數(shù)據(jù)、工業(yè)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等新型技術(shù)的發(fā)展,安全威脅和網(wǎng)絡(luò)攻擊也隨之增多,網(wǎng)絡(luò)安全面臨著新的挑戰(zhàn),安全形勢嚴(yán)峻[1]。因此,設(shè)計一套能夠準(zhǔn)確高效識別各種網(wǎng)絡(luò)攻擊的網(wǎng)絡(luò)入侵檢測系統(tǒng),已成為現(xiàn)如今亟待解決的一個問題。

為提高網(wǎng)絡(luò)入侵檢測的準(zhǔn)確率,研究者們在機器學(xué)習(xí)、深度學(xué)習(xí)中探索新的算法并將其應(yīng)用于此[2-6]。然而,這些算法普遍存在訓(xùn)練時間和檢測時間較長的問題,針對這一問題,很多研究者利用特征選擇[7-14],將原始高維數(shù)據(jù)降為低維數(shù)據(jù),從而減少訓(xùn)練和檢測的時間。

文獻(xiàn)[15]設(shè)計了一種基于多目標(biāo)優(yōu)化與logistic回歸的封裝器,有效提高了準(zhǔn)確率,然而,這種算法以logistic回歸模型的預(yù)測結(jié)果為優(yōu)化目標(biāo),每一輪都需要重新訓(xùn)練模型,算法時間復(fù)雜度較高,時間較長。文獻(xiàn)[16]利用基于信息增益的過濾器與深度學(xué)習(xí)模型設(shè)計的入侵檢測系統(tǒng),準(zhǔn)確率相對較高,但是,在特征選擇方面,由于入侵檢測數(shù)據(jù)集同時存在連續(xù)型和離散型數(shù)據(jù),且數(shù)據(jù)分布不均勻,采用基于信息增益的過濾器算法運行時間相對較長。針對這一問題,筆者提出了一種基于信息增益的自適應(yīng)分箱特征選擇算法,對入侵檢測數(shù)據(jù)集中的連續(xù)型數(shù)據(jù)進(jìn)行自適應(yīng)分箱處理,從而降低計算復(fù)雜度,提高特征選擇階段的效率。

將提出的自適應(yīng)分箱特征選擇算法與LightGBM集成學(xué)習(xí)模型相結(jié)合,設(shè)計了一種快速網(wǎng)絡(luò)入侵檢測系統(tǒng),在保證較高準(zhǔn)確率的條件下大大降低了模型訓(xùn)練和入侵檢測的時間。通過在網(wǎng)絡(luò)入侵檢測領(lǐng)域常用數(shù)據(jù)集NSL-KDD上測試,表明文中算法在準(zhǔn)確率和訓(xùn)練時間上均優(yōu)于隨機森林、AdaBoost等現(xiàn)有算法。

1 基于信息增益的自適應(yīng)分箱特征選擇

信息增益是衡量通過得知特征X的信息從而對所要預(yù)測類別Y的信息的不確定性減少的程度;通過計算數(shù)據(jù)集中每個特征相對于類別標(biāo)簽的信息增益,從而得到各特征對預(yù)測類別的貢獻(xiàn)程度,之后通過選取信息增益較大的特征生成新的特征子集,達(dá)到數(shù)據(jù)降維的目的,進(jìn)而保證系統(tǒng)在較高準(zhǔn)確率的條件下降低訓(xùn)練和檢測時間。信息增益的計算公式為

IG(Y|X)=H(Y)-H(Y|X) ,

(1)

其中,H(Y)為數(shù)據(jù)集中類別Y的信息熵,對于含有n個類別的數(shù)據(jù)集,Y={y1,y2,…,yn},其計算公式為

(2)

其中,P(yi)為在數(shù)據(jù)集的所有類別中yi的出現(xiàn)的概率。H(Y|X)的計算為

(3)

其中,m為特征X中的取值個數(shù),P(xj)是特征X為xj的概率,P(yi|xj)是在特征X為xj的條件下類別Y為yi的概率。

對于傳統(tǒng)的基于信息增益的特征選擇,在計算P(yi|xj)時,要計算特征X取特征值時的條件概率。在入侵檢測系統(tǒng)的數(shù)據(jù)中,同時存在連續(xù)型數(shù)據(jù)和離散型數(shù)據(jù),對于取值較少的離散型數(shù)據(jù)來說,這種計算量并不大,但是對于連續(xù)型數(shù)據(jù)和取值較多的離散型數(shù)據(jù)來說,這無疑是一個巨大的計算開銷。對于一個有m種取值的特征,其時間復(fù)雜度為O(m),以NSL-KDD數(shù)據(jù)集為例,該數(shù)據(jù)集中的特征“dst_bytes”共有9 326種取值;如果直接對其進(jìn)行信息增益的計算,那么計算量是很大的,因此,對該特征不同取值進(jìn)行分組成為了一個必然趨勢。然而,由于網(wǎng)絡(luò)入侵檢測數(shù)據(jù)集中數(shù)據(jù)分布不平衡的特點,如果直接按數(shù)值或樣本個數(shù)來平均分組,那么分組后的特征無法很好地表示原始特征的分布情況。為此,設(shè)計了一種基于信息增益的自適應(yīng)分箱特征選擇算法。

以含有n個樣本點的特征X為例,該算法過程如下:

(3)按分箱后的結(jié)果將同一箱子中的樣本記為同一特征值,計算各特征的信息增益。

這種算法與傳統(tǒng)的基于信息增益的特征選擇算法結(jié)果相近,但運算效率大大提高。這里的時間復(fù)雜度由原來的O(m)降至O(mbox),m為特征取值的數(shù)量,隨訓(xùn)練集中特征取值的變化而變化;mbox是預(yù)先設(shè)置的分箱數(shù)量,為常數(shù)。因此,本算法將時間復(fù)雜度從傳統(tǒng)算法的線性階降低為常數(shù)階。對于連續(xù)值特征,mbox?m,以分箱數(shù)為20的特征選擇算法為例,對于NSL-KDD數(shù)據(jù)集中的“dst_bytes”特征,時間復(fù)雜度從原來的O(9 326)降至為O(20),有效降低了運行時間,提高了程序的效率。

2 基于自適應(yīng)分箱特征選擇與LightGBM的快速網(wǎng)絡(luò)入侵檢測系統(tǒng)框架

圖1 入侵檢測系統(tǒng)框架圖

設(shè)計的基于自適應(yīng)分箱特征選擇與LightGBM的快速網(wǎng)絡(luò)入侵檢測系統(tǒng)整體框圖如圖1所示。對于原始訓(xùn)練集,首先進(jìn)行數(shù)據(jù)預(yù)處理,將原始數(shù)據(jù)集標(biāo)準(zhǔn)化處理并去除無效特征;再通過基于信息增益的自適應(yīng)分箱特征選擇算法,對原始數(shù)據(jù)集的所有特征按照各特征的信息增益進(jìn)行排序,選取信息增益較大的n個特征生成維度較低的數(shù)據(jù)子集;之后利用LightGBM集成學(xué)習(xí)對特征選擇后的訓(xùn)練集進(jìn)行訓(xùn)練,訓(xùn)練出所需的網(wǎng)絡(luò)入侵檢測模型。在系統(tǒng)性能驗證階段,將對測試集按照之前訓(xùn)練集中相同的預(yù)處理和特征選擇方法進(jìn)行操作;之后通過文中的入侵檢測系統(tǒng)進(jìn)行檢測;將檢測結(jié)果與真實結(jié)果相對比,從而計算出本系統(tǒng)檢測的準(zhǔn)確率等性能指標(biāo),全面評估本系統(tǒng)綜合性能。

2.1 數(shù)據(jù)預(yù)處理

對于原始數(shù)據(jù)的數(shù)據(jù)預(yù)處理,主要采用了零均值標(biāo)準(zhǔn)化和去除無效特征的方法。

(4)

在去除無效特征階段,將遍歷所有特征,去除特征值惟一的特征。在NSL-KDD數(shù)據(jù)集中,由于特征“num_outbound_cmds”中所有的特征值均為0,因此該特征無法起到有效預(yù)測作用,所以刪除該特征。

2.2 基于LightGBM的集成學(xué)習(xí)模型

LightGBM是一種基于梯度單邊采樣(Gradient-based One-Side Sampling ,GOSS)與互斥特征捆綁(Exclusive Feature Bundling ,EFB)的梯度提升決策樹(Gradient Boosting Decision Tree ,GBDT)模型。針對之前的GBDT模型訓(xùn)練時間較長,且時間消耗主要在于最佳分割點確定上這一問題,LightGBM在決策樹的特征選擇與分割點確定方面,采用了直方圖算法。這種算法將原來連續(xù)的特征值進(jìn)行分箱處理,在之后的訓(xùn)練模型時使用這些分箱結(jié)果構(gòu)建直方圖,大大減少了對分裂點選擇的時間,提高了訓(xùn)練和檢測的效率[17]。

為減少每次迭代過程中樣本的數(shù)量,并對預(yù)測效果不好的樣本加強訓(xùn)練,LightGBM引入了GOSS算法。對于經(jīng)過上一輪訓(xùn)練過后的樣本,計算每個樣本的梯度。每個樣本的梯度可以表示該樣本預(yù)測的錯誤程度。為此,通過GOSS算法保留所有梯度較大的實例,對于梯度較小的實例則采取按照一定比例隨機采樣的策略。

在計算每個樣本的梯度方面,設(shè)O為決策樹中某個固定節(jié)點上的訓(xùn)練數(shù)據(jù)集。定義該節(jié)點在點d處分割特征j的方差增益為

(5)

(6)

其中,Al={xi∈A:Xij≤d},Ar={xi∈A:Xij>d},Bl={xi∈B:Xij≤d},Br={xi∈B:Xij>d}。

在網(wǎng)絡(luò)入侵檢測領(lǐng)域,通常情況下數(shù)據(jù)集是相對稀疏的,因此有些特征會存在互斥特性,即不同時取非零的情況。針對這一情況,LightGBM還引入了EFB對數(shù)據(jù)中的互斥特征進(jìn)行捆綁,從而進(jìn)一步降低模型的計算復(fù)雜度。通過EFB可以將多個特征捆綁為一個束bundle,這樣就將計算復(fù)雜度從原來的O(#data×#feature)降為O(#data×#bundle),從而進(jìn)一步降低模型在訓(xùn)練和檢測階段的時間復(fù)雜度,提高運行效率。

3 實驗仿真結(jié)果與分析

本實驗操作系統(tǒng)環(huán)境為Windows 10,電腦硬件cup為i7-5 500 U,8 GB內(nèi)存,在Python 3.7軟件環(huán)境中編程實現(xiàn)。設(shè)置了特征選擇的結(jié)果比較實驗和整體系統(tǒng)模型的性能比較實驗。

3.1 數(shù)據(jù)集介紹與分析

為有效驗證網(wǎng)絡(luò)入侵檢測系統(tǒng)的性能,采用網(wǎng)絡(luò)入侵檢測系統(tǒng)領(lǐng)域常用的數(shù)據(jù)集NSL-KDD[18]。NSL-KDD數(shù)據(jù)集分為訓(xùn)練集和測試集,訓(xùn)練集共包括125 973條有效數(shù)據(jù),測試集共包括22 544條有效數(shù)據(jù)。由于本數(shù)據(jù)集在不同類別樣本之間的數(shù)量存在不平衡現(xiàn)象,在訓(xùn)練集中對部分少數(shù)類別攻擊樣本進(jìn)行了隨機過采樣;之后,隨機選取訓(xùn)練集中的90%作為訓(xùn)練數(shù)據(jù),10%的數(shù)據(jù)作為驗證數(shù)據(jù)從而訓(xùn)練模型。最后通過在測試集的檢測結(jié)果驗證本系統(tǒng)的性能。

在特征方面,NSL-KDD數(shù)據(jù)集中共包括41維特征和1維結(jié)果標(biāo)簽,在41維特征中,僅7維特征是離散型數(shù)據(jù),其他34維特征均為連續(xù)型數(shù)據(jù),該數(shù)據(jù)集數(shù)據(jù)數(shù)值的分布特點符合大多數(shù)網(wǎng)絡(luò)入侵檢測領(lǐng)域數(shù)據(jù)的特點,因此,如果直接對數(shù)據(jù)集進(jìn)行基于信息增益的特征選擇,則時間復(fù)雜度將會很大,嚴(yán)重影響了程序運行效率;而使用文中提出的基于信息增益的自適應(yīng)分箱特征選擇,時間復(fù)雜度將大大降低,在保證達(dá)到所需特征選擇需求的條件下,有效提高程序的運行效率。

3.2 特征選擇的結(jié)果比較實驗

在特征選擇性能比較實驗方面,首先對提出的特征選擇算法與傳統(tǒng)基于信息增益特征選擇算法進(jìn)行對比,在NSL-KDD的訓(xùn)練集上進(jìn)行實驗。利用傳統(tǒng)的基于信息增益的特征選擇算法與分箱數(shù)量設(shè)置為20的文中算法,在NSL-KDD的訓(xùn)練集上信息增益排名前8的特征及結(jié)果如表1所示。結(jié)果表明,在信息增益排名前8的特征中,雖然有個別幾個特征的順序不是完全一致,但在排名前8的特征中,所選擇的體征種類完全相同,僅存在部分信息增益差距較小的特征出現(xiàn)順序不一致的現(xiàn)象。這種信息增益大體一致的結(jié)果,能夠滿足選擇特征的需求。在運行時間方面,基于信息增益的特征選擇運行時間為824.43 s,而筆者提出的基于信息增益的自適應(yīng)分箱特征選擇算法僅用時27.35 s,相比于傳統(tǒng)的特征選擇算法,所用時間減少了約96.68%,大大提高了程序的效率。

表1 兩種特征選擇算法結(jié)果比較

3.3 入侵檢測系統(tǒng)性能比較實驗

對于網(wǎng)絡(luò)入侵檢測系統(tǒng)方面的比較實驗,首先對基于自適應(yīng)分箱特征選擇算法與LightGBM的入侵檢測系統(tǒng)進(jìn)行仿真實驗。在設(shè)計的基于特征選擇與LightGBM的網(wǎng)絡(luò)入侵檢測系統(tǒng)中,首先需要確定特征選擇的數(shù)量。由基于自適應(yīng)分箱特征選擇算法計算的信息增益排名結(jié)果可以看出,前3個特征的信息增益均在0.28以上,遠(yuǎn)高于其他特征,且前8個特征的信息增益均大于0.1。為此,將主要研究選取前3個特征和前8個特征的特征子集。為全面研究不同特征的預(yù)測結(jié)果,并驗證選取3個特征和8個特征的準(zhǔn)確率情況,在利用自適應(yīng)分箱算法計算的信息增益的排序結(jié)果中,按照排序順序依次選取不同數(shù)量的特征進(jìn)行實驗。不同的特征選擇在LightGBM分類器下的準(zhǔn)確率如圖2所示。由圖可知,當(dāng)選擇特征數(shù)量大于3時,在驗證集的準(zhǔn)確率已經(jīng)很高且趨于平穩(wěn)。在測試集中,選用3個特征時準(zhǔn)確率也相對較高;在選擇特征數(shù)量為8時,驗證集中已經(jīng)處于較高的平穩(wěn)水平,在訓(xùn)練集中準(zhǔn)確率也相對較高??梢钥闯觯x用3個特征和8個特征兩種情況性能表現(xiàn)相對較好。

為進(jìn)一步研究不同迭代次數(shù)時,選取的3個特征和8個特征的數(shù)據(jù)子集與原始數(shù)據(jù)集的性能情況,分別在驗證集和測試集中對文中算法進(jìn)行仿真驗證。在驗證集和訓(xùn)練集中,不同迭代數(shù)量的準(zhǔn)確率結(jié)果分別如圖3和圖4所示。由圖3可知,迭代次數(shù)在100到200之間,在驗證集中的準(zhǔn)確率大幅提升,當(dāng)?shù)螖?shù)大于200時,3種情況的準(zhǔn)確率均提升緩慢,特別是當(dāng)?shù)螖?shù)大于500時,準(zhǔn)確率曲線趨于平穩(wěn)。為保證系統(tǒng)能夠在保證較高準(zhǔn)確率的條件下實現(xiàn)快速網(wǎng)絡(luò)入侵檢測,選取迭代次數(shù)為650。3種情況的詳細(xì)性能比較如表2所示。

圖2 不同特征準(zhǔn)確率折線圖

表2 不同特征性能對照表

在圖3的驗證集中,雖然原始數(shù)據(jù)集的準(zhǔn)確率始終保持高于其他兩種情況,但是在圖4的測試集中,通過特征選擇的3特征數(shù)據(jù)子集準(zhǔn)確率整體高于其他兩種情況,這與3個特征集中的特征有關(guān)。原始數(shù)據(jù)集存在大量的冗余和噪聲,在驗證集中,通過多次迭代優(yōu)化,會引導(dǎo)模型趨于有效區(qū)分驗證集中攻擊和正常樣本的方向訓(xùn)練。然而,此時所選取特征和特征值的劃分點很有可能只滿足驗證集的數(shù)據(jù)分布特點而不滿足整體數(shù)據(jù)集,這將導(dǎo)致模型過擬合;雖然在驗證集上的準(zhǔn)確率很高,但泛化能力不強。而選用的3特征數(shù)據(jù)子集,三個特征的信息增益遠(yuǎn)高于其他特征。這三個特征與類別標(biāo)簽的相關(guān)性較強,能夠為檢測類別提供可靠依據(jù),以及為入侵檢測系統(tǒng)有效區(qū)分攻擊和正常流量提供可靠保證。

圖3 驗證集準(zhǔn)確率迭代曲線圖

通過表2中對三種情況的詳細(xì)性能指標(biāo)對比,選用3種特征的數(shù)據(jù)子集在準(zhǔn)確率和F1(精確率和召回率的調(diào)和函數(shù))值這兩個核心指標(biāo)上均優(yōu)于其他兩種情況。特別是在訓(xùn)練和檢測時間上,選用3種特征的數(shù)據(jù)子集的訓(xùn)練時間僅約為原始數(shù)據(jù)集時間的一半,大大提高了模型訓(xùn)練效率,且測試時間也均少于其他兩種情況,縮短了模型訓(xùn)練和入侵檢測的時間。

為進(jìn)一步評估文中設(shè)計的網(wǎng)絡(luò)入侵檢測系統(tǒng)的綜合性能,還設(shè)置了多種預(yù)測模型的綜合對比實驗。引入了現(xiàn)有網(wǎng)絡(luò)入侵檢測的主流算法K近鄰(K-Nearest Neighbor,KNN)、決策樹(Decision Tree ,DT)、Adaboost、隨機森林(Random Forest ,RF)、支持向量機(Support Vector Machine ,SVM)、GBDT和XGBoost。將上一組實驗中表現(xiàn)性能最好的選用3個特征的LightGBM模型與這些算法進(jìn)行詳細(xì)的對比分析,各算法詳細(xì)的性能表現(xiàn)如表3所示。

表3 不同入侵檢測模型性能對比表

對于網(wǎng)絡(luò)入侵檢測系統(tǒng)來說,準(zhǔn)確率和F1值是評判系統(tǒng)整體性能優(yōu)劣的主要標(biāo)準(zhǔn)。在這兩個指標(biāo)的比較中,筆者提出的基于特征選擇與LightGBM的入侵檢測系統(tǒng)均優(yōu)于其他算法。在精確率方面,KNN和DT兩個算法相對較高,但是其召回率較低,如果將其應(yīng)用于實際網(wǎng)絡(luò)入侵檢測環(huán)境中,將會對網(wǎng)絡(luò)系統(tǒng)造成很大的損失。在訓(xùn)練時間方面,筆者設(shè)計的入侵檢測系統(tǒng)的訓(xùn)練時間均小于除KNN外的其他算法(KNN無需學(xué)習(xí)新的模型),能夠?qū)崿F(xiàn)模型的快速訓(xùn)練。對于利用多種單一模型的集成學(xué)習(xí)來說,在提高準(zhǔn)確率的同時會延長模型訓(xùn)練和檢測時間。Adaboost和隨機森林雖然在準(zhǔn)確率方面較單一模型有所提高,但是其訓(xùn)練時間過長。對于SVM來說,由于其計算的復(fù)雜度較高,雖然準(zhǔn)確率相對較高,但是其訓(xùn)練和檢測時間過長,難以部署在實際場景中。通過以上性能對比分析,無論是在檢測的準(zhǔn)確率還是模型的訓(xùn)練時間方面,文中所述算法整體性能優(yōu)于其他現(xiàn)有算法。

4 結(jié)束語

與傳統(tǒng)基于信息增益的特征選擇算法相比,筆者提出的基于信息增益的自適應(yīng)分箱特征選擇算法在保證結(jié)果與之前算法相近的條件下,大大降低了時間復(fù)雜度,速度更快。在NSL-KDD訓(xùn)練集的實驗中,與傳統(tǒng)算法相比,本算法時間縮短了約96.68%。筆者設(shè)計的基于自適應(yīng)分箱特征選擇與LightGBM的快速網(wǎng)絡(luò)入侵檢測系統(tǒng),準(zhǔn)確率更高且模型訓(xùn)練速度相對較快。通過在NSL-KDD數(shù)據(jù)集上的實驗結(jié)果可知,該系統(tǒng)的準(zhǔn)確率高達(dá)93.32%,且訓(xùn)練時間僅為10.33 s,對于22 544條的測試集樣本,檢測時間僅0.88 s,可用于網(wǎng)絡(luò)入侵檢測場景。未來,將進(jìn)一步探索入侵檢測領(lǐng)域各特征之間的潛在關(guān)系,研究更好的降維方式,在較快速度的同時,進(jìn)一步提高入侵檢測系統(tǒng)的準(zhǔn)確率。

猜你喜歡
特征選擇增益準(zhǔn)確率
“增益”還是“損耗”?挑戰(zhàn)性工作要求對工作?家庭增益的“雙刃劍”影響*
有源環(huán)路低通中運放帶寬對相噪的影響
基于增益調(diào)度與光滑切換的傾轉(zhuǎn)旋翼機最優(yōu)控制
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
多層螺旋CT技術(shù)診斷急性闌尾炎的效果及準(zhǔn)確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
頸椎病患者使用X線平片和CT影像診斷的臨床準(zhǔn)確率比照觀察
寬頻帶增益放大器的設(shè)計與測試
基于智能優(yōu)化算法選擇特征的網(wǎng)絡(luò)入侵檢測
故障診斷中的數(shù)據(jù)建模與特征選擇