国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于特征增強的深度學(xué)習(xí)入侵檢測算法

2023-06-15 09:27:12唐群玲張興蘭
計算機技術(shù)與發(fā)展 2023年6期
關(guān)鍵詞:集上類別樣本

唐群玲,張興蘭

(北京工業(yè)大學(xué) 信息學(xué)部,北京 100124)

0 引 言

互聯(lián)網(wǎng)飛速發(fā)展的同時也帶來了很多安全問題,任何企圖危害計算機或網(wǎng)絡(luò)資源的行為都被定義為入侵。該文主要從入侵檢測方面來解決網(wǎng)絡(luò)安全問題。

傳統(tǒng)的入侵檢測技術(shù)已經(jīng)暴露出以下弊端:第一,當(dāng)前入侵的數(shù)據(jù)量大,傳統(tǒng)的入侵檢測技術(shù)難以處理,比如分布式拒絕攻擊,在一分鐘內(nèi)就能產(chǎn)生幾十萬條攻擊數(shù)據(jù),對系統(tǒng)的性能要求很高。第二,隨著技術(shù)的發(fā)展,攻擊的形式也在不停變化,由于入侵檢測屬于防御手段,這使得入侵檢測面臨新型攻擊時顯得束手無策。第三,在入侵檢測數(shù)據(jù)中存在不平衡現(xiàn)象,例如入侵?jǐn)?shù)據(jù)中Dos攻擊的數(shù)量遠大于正常流量的數(shù)據(jù)。

類別不平衡,指的是當(dāng)信息集中一個類別數(shù)據(jù)數(shù)量大大地超過了另一類別樣本數(shù),在實際的分析應(yīng)用中,如垃圾郵件分析、電話欺詐分析等過程中都出現(xiàn)了數(shù)據(jù)不平衡現(xiàn)象。入侵檢測中的樣本是類別不平衡數(shù)據(jù),數(shù)據(jù)不平衡很容易導(dǎo)致針對少數(shù)攻擊的高誤報檢測率。類別不平衡往往導(dǎo)致性能降低,甚至分類失敗。對于一般的分類器的訓(xùn)練而言,在非平衡的數(shù)據(jù)集下很容易訓(xùn)練出一個正確率很高,而召回率很低的分類器。不平衡數(shù)據(jù)面臨的最大問題是過擬合,會因為樣本數(shù)太少,偏向訓(xùn)練樣本,從而造成召回率很低的結(jié)果。解決類別不平衡造成的召回率低的問題是一個很有意義的研究課題。

特征對于模型分類的影響可以與梯度信息建立起密切的聯(lián)系。在卷積神經(jīng)網(wǎng)絡(luò)中,不同的卷積層可以學(xué)習(xí)到不同的特征,將這些特征組合到一起時,就會描述一個特定的對象,這就意味著特征提取的質(zhì)量,對最后的分類結(jié)果有著重要的影響。因此,該文提出了一種基于特征增強的深度學(xué)習(xí)入侵檢測方法,通過一個輔助網(wǎng)絡(luò)來自適應(yīng)地學(xué)習(xí)不同特征對類別預(yù)測的重要性,并利用學(xué)習(xí)到的特征重要性來動態(tài)調(diào)整分類模型對不同特征的關(guān)注度,使模型更加關(guān)注對分類結(jié)果有積極作用的特征,同時抑制模型對冗余特征的學(xué)習(xí),通過這種方式提升模型的準(zhǔn)確率。最后在NSL-KDD和CICIDS2017數(shù)據(jù)集上進行了實驗,并與多個模型進行對比,實驗結(jié)果表明,該方法在2個數(shù)據(jù)集上都取得了不錯的效果。

1 相關(guān)工作

1.1 數(shù)據(jù)增強的發(fā)展與研究現(xiàn)狀

近年來,異常檢測任務(wù)中大多數(shù)缺乏標(biāo)記數(shù)據(jù),并且數(shù)據(jù)類別不平衡。為了解決數(shù)據(jù)不平衡導(dǎo)致性能降低,甚至分類失敗的問題,在早期對數(shù)據(jù)增強產(chǎn)生新樣本的方法是圍繞原樣本進行操作,如移位[1]、旋轉(zhuǎn)[2]、縮放[3-4]、裁剪[3-5]、翻轉(zhuǎn)[5-6]等來擴大數(shù)據(jù)集。Nitesh V. Chawla提出了SMOTE,對小類進行插值產(chǎn)生額外的小類數(shù)據(jù)[7],以及ADSYN,根據(jù)學(xué)習(xí)難度的不同,對不同的少數(shù)類別的樣本使用加權(quán)分布。SMOTE和ADSYN都是使用過采樣技術(shù)進行數(shù)據(jù)增強。EasyEnsemble方法使用集成的機制,把大類分割成若干個小集合給不同的學(xué)習(xí)器使用,對各個學(xué)習(xí)器都進行了欠采樣,且通過全局分析不遺漏重要數(shù)據(jù)[8]。雖然現(xiàn)在已經(jīng)開發(fā)了幾種過采樣或數(shù)據(jù)增強方案來平衡不同類別的數(shù)據(jù),但是通常只是合成觀察或者復(fù)制得到的數(shù)據(jù),并不能提高數(shù)據(jù)的多樣性。張志武等人[9]提出LSTM深度學(xué)習(xí)框架下自適應(yīng)不平衡數(shù)據(jù)方法。對多數(shù)類進行多組欠采樣,并分別與少數(shù)類樣本組合成多組平衡的訓(xùn)練數(shù)據(jù)集,然后分別對每組訓(xùn)練數(shù)據(jù)學(xué)習(xí)一個LSTM模型,最后通過集成學(xué)習(xí)方法獲得最終結(jié)果,能提高類別不平衡數(shù)據(jù)的深度學(xué)習(xí)性能。這些方法都是從數(shù)據(jù)集入手,解決類別不平衡問題,采用數(shù)據(jù)增強的方法,使得數(shù)據(jù)較為均衡,進而提高分類準(zhǔn)確率。

1.2 入侵檢測

在文獻[10]中首次將機器學(xué)習(xí)引入入侵檢測中,目的是對于網(wǎng)絡(luò)異常進行檢測和判斷,且進一步識別該攻擊行為。文獻[11]中提出了k最近鄰和支持向量機算法,這是常用的數(shù)據(jù)挖掘算法。文獻[12]在入侵檢測算法中引入了支持向量機,但是隨著數(shù)據(jù)量的增加,傳統(tǒng)的機器學(xué)習(xí)算法更適合解決小樣本問題,對于復(fù)雜的入侵檢測系統(tǒng)不能更好地進行特征提取,導(dǎo)致誤檢率升高等問題出現(xiàn)。

入侵檢測技術(shù)主要是通過特征的提取和特征的分類來達到檢測和判斷的目的。從大量數(shù)據(jù)中提取特征從而進行分類,這是非常關(guān)鍵的步驟。文獻[13]提出了基于一維卷積神經(jīng)網(wǎng)絡(luò)的入侵檢測方法,可自動提取原始數(shù)據(jù)的特征。文獻[14]提出了RNN進行入侵檢測的可能性,它是通過將數(shù)據(jù)流量建模為狀態(tài)序列來完成入侵檢測行為。文獻[15]提出將長短期神經(jīng)網(wǎng)絡(luò)(LSTM)應(yīng)用于入侵檢測,長短期神經(jīng)網(wǎng)絡(luò)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),也是經(jīng)典的深度學(xué)習(xí)方法之一,能夠有效地解決數(shù)據(jù)訓(xùn)練時出現(xiàn)的梯度消失和梯度爆炸問題。文獻[16-18]將卷積神經(jīng)網(wǎng)絡(luò)(CNN)也應(yīng)用于入侵檢測。文獻基于RNN-SVM的入侵檢測方法研究,該入侵檢測系統(tǒng)以HDFS作為文件存儲平臺,以Spark作為數(shù)據(jù)預(yù)處理平臺,Tensorflow作為模型訓(xùn)練測試平臺,能處理海量數(shù)據(jù),利用RNN對特征進行提取,同時利用SVM分類器,對低維特征具有良好的分類能力,對降維后的特征進行分類,降低漏報率和誤報率。

2 方 法

基于特征增強的入侵檢測模型的結(jié)構(gòu)如圖1所示。與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)不同,在卷積最后一層添加了一個輔助網(wǎng)絡(luò),先對卷積神經(jīng)網(wǎng)絡(luò)提取的特征進行增強,再送入全連接層進行分類。

圖1 模型架構(gòu)

整體任務(wù)流程為:設(shè)輸入的樣本數(shù)據(jù)為X=[x1,x2,…,xn],其中X∈Rn×1,n為輸入樣本的特征數(shù)目,模型的目標(biāo)是正確對輸入流量進行預(yù)測。

2.1 特征增強

特征增強本質(zhì)上是讓模型更加關(guān)注對分類結(jié)果有積極作用的特征。該文設(shè)計了兩種增強特征方法,首先受到顯著圖的啟發(fā),根據(jù)樣本的標(biāo)簽類別來計算與其相關(guān)的重要通道。計算方法如式(1)所示:

(1)

(2)

(3)

在得到gl后,對原始特征圖zl進行增強,計算方法如式(4)所示:

(4)

(5)

(6)

其中,α∈(0,1)是超參數(shù)。

2.2 訓(xùn)練方法

在實際操作中,特征增強模塊應(yīng)用于模型的倒數(shù)第二層,即全連接層之前的卷積模塊。該文提出的是設(shè)計一個輔助網(wǎng)絡(luò)輔助特征增強的方法,因此它有自己的損失函數(shù),需要與原始網(wǎng)絡(luò)的損失函數(shù)一起進行訓(xùn)練。通道增強模塊的損失函數(shù)如式(7)所示:

L(x,y)=LCE(p,y)+γLCE(a,y)

(7)

其中,LCE(·)為交叉熵?fù)p失函數(shù);p和a分別是原始網(wǎng)絡(luò)和輔助網(wǎng)絡(luò)的預(yù)測結(jié)果;γ∈(0,1)是一個超參數(shù),用來平衡原始網(wǎng)絡(luò)和輔助網(wǎng)絡(luò)的預(yù)測結(jié)果。

3 實驗與結(jié)果分析

3.1 實驗環(huán)境與參數(shù)設(shè)置

該文主要將深度學(xué)習(xí)模型應(yīng)用到入侵檢測的實驗中,并對比了每個模型的結(jié)果。實驗是在Linux系統(tǒng)下進行的;顯卡使用的是GTX 2080Ti;深度學(xué)習(xí)模型是使用Pytorch框架搭建的。

3.2 數(shù)據(jù)集及預(yù)處理

(1)NSL-KDD數(shù)據(jù)集。

NSL-KDD數(shù)據(jù)集是KDD 99數(shù)據(jù)集的改進,NSL-KDD數(shù)據(jù)集的訓(xùn)練集中不包含冗余記錄,所以分類器不會偏向更頻繁的記錄。NSL-KDD數(shù)據(jù)集的測試集中沒有重復(fù)的記錄,使得檢測率更為準(zhǔn)確。訓(xùn)練和測試中的記錄數(shù)量設(shè)置是合理的,這使得在整套實驗上運行實驗成本低廉而無需隨機選擇一小部分。因此,不同研究工作的評估結(jié)果將是一致的和可比較的。NSL-KDD數(shù)據(jù)集解決了KDD99數(shù)據(jù)集中存在的固有問題。NSL-KDD數(shù)據(jù)集由于缺少基于入侵檢測網(wǎng)絡(luò)的公共數(shù)據(jù)集,所以NSL-KDD數(shù)據(jù)集仍然存在一些問題,同時也不是現(xiàn)有真實網(wǎng)絡(luò)的完美代表。但它仍然可以用作有效的基準(zhǔn)數(shù)據(jù)集,以幫助研究人員比較不同的入侵檢測方法。表1展示了NSL-KDD數(shù)據(jù)集中的攻擊類型。

表1 NSL-KDD數(shù)據(jù)集詳細攻擊

(2)CICIDS2017數(shù)據(jù)集。

CICIDS2017數(shù)據(jù)集包含了大量最新的攻擊場景,這個數(shù)據(jù)集不僅包含了最新的網(wǎng)絡(luò)攻擊,也滿足了現(xiàn)實世界攻擊的所有標(biāo)準(zhǔn)。這個數(shù)據(jù)集其中一個明顯的缺點是數(shù)據(jù)量非常龐大,跨越了八個文件。此外數(shù)據(jù)集包含冗余記錄以及一些缺省值,且數(shù)據(jù)集本質(zhì)上是高度不平衡的。

對于分散存在的問題可以通過合并各種數(shù)據(jù)文件得以解決且刪除缺失的值,在實際檢測過程開始之前對數(shù)據(jù)集進行采樣,可以克服高容量的缺點。在抽樣之前,必須先解決類別不平衡問題,如果是平衡數(shù)據(jù)集,所有類標(biāo)簽實例的發(fā)生概率將增加。解決類別不平衡問題的主要方法之一是重新給類貼標(biāo)簽,包括將多數(shù)類分裂形成更多的類,或?qū)⑸贁?shù)類合并成一個類,以此減少類別不平衡問題。表2展示了CICIDS2017數(shù)據(jù)集標(biāo)簽合并后的結(jié)果。

表2 CICIDS2017數(shù)據(jù)集新攻擊標(biāo)簽的特征

3.2.1 在NSL-KDD數(shù)據(jù)集上的實驗

對于NSL-KDD數(shù)據(jù)集的處理主要包括數(shù)值化、特征擴充以及歸一化三個步驟:

(1)數(shù)值化。

在NSL-KDD數(shù)據(jù)集中,含有三種字符類型的特征,然而神經(jīng)網(wǎng)絡(luò)并不能很好地處理字符類型的特征,因此在將數(shù)據(jù)送入神經(jīng)網(wǎng)絡(luò)進行學(xué)習(xí)之前,需要對字符類型的特征進行處理。在數(shù)據(jù)集中,三種字符類型的特征分別是協(xié)議類型、目標(biāo)主機服務(wù)類型以及連接狀態(tài)。該文將字符類型的特征處理成one-hot的形式,例如協(xié)議類型的值有3種,處理成one-hot的形式后,3種值分別被處理成[0,0,1][0,1,0][1,0,0]。其他特征的處理方式類似,最終,數(shù)據(jù)集中的每條樣本的特征長度為121維。

(2)特征擴充。

該文提出的方法主要依托卷積神經(jīng)網(wǎng)絡(luò)來提取樣本特征,因此在特征提取過程中,需要將樣本轉(zhuǎn)化成圖片數(shù)據(jù)的格式。在數(shù)值化以后,樣本的長度被處理成為121維,再通過維度轉(zhuǎn)化,將121維的向量轉(zhuǎn)化成11×11的矩陣。針對某些卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)不能很好地處理小維度的樣本的問題,將11×11維的矩陣擴充成32×32的矩陣,擴充的特征用0進行填充。值得注意的是,針對LSTM等網(wǎng)絡(luò),則不需要再進行維度轉(zhuǎn)化和特征擴充的操作。

(3)歸一化。

在樣本特征中,由于衡量特征的量綱不同,會導(dǎo)致特征之間有很大的數(shù)值差異,會影響模型的判斷。在對樣本進行數(shù)值化以后,再進行歸一化處理,消除量綱不同帶來的數(shù)據(jù)差異。采用最大-最小歸一化的方法,將所有特征的值統(tǒng)一到[0,1]之間,如公式(8)所示:

(8)

其中,x是原始數(shù)據(jù),xmin是所有樣本中同一特征中的最小值,xmax是所有樣本中同一特征中的最大值,xnorm是原始數(shù)據(jù)歸一化后的結(jié)果。

將處理后的數(shù)據(jù)集可視化后可以發(fā)現(xiàn),不同類別的數(shù)據(jù)樣本之間有著明顯的不同特征,將標(biāo)簽為Normal和DoS的部分樣本進行了可視化,結(jié)果如圖2所示。

圖2 NSL-KDD數(shù)據(jù)集中部分樣本可視化

3.2.2 在CICIDS2017數(shù)據(jù)集上的實驗

在原始CICIDS2017數(shù)據(jù)集中存在特征缺失的現(xiàn)象,因此在處理數(shù)據(jù)前,先將特征缺失的樣本進行刪除。并且為了解決類別不平衡的問題,根據(jù)文獻[19],將特征相似的類別進行合并,生成新的標(biāo)簽。最后將處理后的數(shù)據(jù)集進行數(shù)值化、特征擴展以及歸一化的操作,操作過程與NSL-KDD一致。同時,將標(biāo)簽為Normal和Attack的部分樣本進行了可視化,結(jié)果如圖3所示。

圖3 CICIDS2017數(shù)據(jù)集中部分樣本可視化

3.3 評價指標(biāo)

該文使用準(zhǔn)確率AC、精確率P、召回率R以及F1-Score作為實驗結(jié)果的評價指標(biāo),其公式定義如下:

(9)

(10)

(11)

(12)

其中,TN(True Negative)是預(yù)測結(jié)果為Negative,且預(yù)測正確的數(shù)量;TP(True Positive)是預(yù)測結(jié)果為Positive,且預(yù)測正確的數(shù)量;FN(False Negative)是預(yù)測結(jié)果為Negative,且預(yù)測錯誤的數(shù)量;FP(False Positive)是預(yù)測結(jié)果為Positive,且預(yù)測錯誤的數(shù)量。

3.4 結(jié)果與分析

3.4.1 在NSL-KDD數(shù)據(jù)集上的實驗

在劃分測試集上的實驗:

在實驗過程中,使用了5折交叉驗證,即將原始訓(xùn)練集平均劃分為5等份,其中4份用來訓(xùn)練模型,1份用來測試模型,并且訓(xùn)練集與測試集中的樣本沒有重疊,最終的實驗結(jié)果去平均值。使用了ResNet-50、VGG-19以及LSTM進行對照,實驗結(jié)果如表3所示。

表3 在NSL-KDD劃分?jǐn)?shù)據(jù)集上的結(jié)果 %

從實驗結(jié)果可以看出,在準(zhǔn)確率上,ResNet-50比LSTM高0.22百分點,VGG-19要比LSTM高0.06百分點,這說明卷積神經(jīng)網(wǎng)絡(luò)提取特征的能力要優(yōu)于LSTM,而該文提出的方法在準(zhǔn)確率上要比ResNet-50和VGG-19分別高0.14百分點和0.3百分點。顯然該文提出的方法要優(yōu)于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)分類模型。

在原始測試集上的實驗:

該文也使用了原始的測試集KDDTest+進行了實驗,原始測試集中存在訓(xùn)練集中不存在的樣本,并且類別不平衡的影響更加明顯,可以檢驗?zāi)P偷姆夯芰?。在實驗過程中,依舊使用ResNet-50、VGG-19以及LSTM進行對照,實驗結(jié)果如表4所示。

表4 在NSL-KDD原始測試集上的結(jié)果 %

從結(jié)果中可以看出,該文提出的方法與其他方法相比,在每個指標(biāo)上都取得了最高的分?jǐn)?shù)。其中與ResNet-50相比,準(zhǔn)確率提升了2.19百分點;與LSTM相比,準(zhǔn)確率提升了5.18百分點。這說明傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)并不能很好地提取相關(guān)特征,尤其是在類別不平衡的數(shù)據(jù)集上。而該文提出的方法可以著重使模型關(guān)注與分類密切相關(guān)的特征,而削弱噪聲特征對分類結(jié)果的影響。在類別不平衡的數(shù)據(jù)集下,模型可以在只有獲得少量樣本的情況下,提取到更加重要的特征,提升模型在不平衡數(shù)據(jù)集下的準(zhǔn)確率,也進一步提升了模型的泛化能力。

3.4.2 在CICIDS2017數(shù)據(jù)集上的實驗

在劃分測試集上的實驗:

由于CICIDS2017數(shù)據(jù)集并沒有提供專門用于模型評估的測試集,因此在實驗過程中,需要手動劃分訓(xùn)練集和測試集。數(shù)據(jù)集的劃分步驟與NSL-KDD一致,同樣使用了5折交叉驗證的方法。對比模型使用了ResNet-50、VGG-19以及LSTM,實驗結(jié)果如表5所示。

表5 在CICIDS2017數(shù)據(jù)集上的結(jié)果 %

處理后的數(shù)據(jù)集在一定程度上解決了類別不平衡的問題,因此每個模型在測試集上都獲得了良好的表現(xiàn),但該文提出的方法在不同指標(biāo)上的表現(xiàn)更加突出。提出的方法在準(zhǔn)確率上,比ResNet-50提高了0.39百分點,比LSTM的方法提高了0.82百分點。結(jié)果表明,提出的方法使得模型在不同數(shù)據(jù)集上都有了不錯的性能提升。

3.4.3 模型效率分析

該文提出的方法可以看作是一個附加的輔助網(wǎng)絡(luò),為了研究該方法的效率,展示了ResNet-18模型在3×32×32大小的樣本下的訓(xùn)練時間和推斷時間,如表6所示。在訓(xùn)練過程中,原始的ResNet-18模型訓(xùn)練每個Batch平均需要95 s,修改的模型需要103 s,其中每個Batch包含128個樣本。在測試過程中,原始的ResNet-18模型在測試階段需要0.007 s;而修改的模型則需要0.011 s。從實驗結(jié)果中可以看出,提出的方法并沒有導(dǎo)致太多的額外計算時間消耗。

表6 時間損耗的結(jié)果 s

4 結(jié)束語

構(gòu)建了一個特征增強的方法,使用梯度得分來獲取對模型分類有益的特征,同時為了避免在反向求導(dǎo)獲得梯度信息的過程中造成資源的浪費,通過使用一個輔助網(wǎng)絡(luò),在訓(xùn)練過程中與原始分類網(wǎng)絡(luò)一起訓(xùn)練。通過這種方法,使模型在訓(xùn)練過程中,重點關(guān)注對分類結(jié)果有促進作用的特征,同時減少不重要特征的影響,使模型的準(zhǔn)確率有了明顯的提升。今后需要進一步提升模型提取特征的能力,增強模型在類別不平衡數(shù)據(jù)集上的表現(xiàn),并提升模型的運行效率。

猜你喜歡
集上類別樣本
用樣本估計總體復(fù)習(xí)點撥
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
推動醫(yī)改的“直銷樣本”
復(fù)扇形指標(biāo)集上的分布混沌
隨機微分方程的樣本Lyapunov二次型估計
村企共贏的樣本
服務(wù)類別
新校長(2016年8期)2016-01-10 06:43:59
論類別股東會
商事法論集(2014年1期)2014-06-27 01:20:42
中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
正蓝旗| 嵊州市| 华阴市| 青海省| 江油市| 禹城市| 桐乡市| 曲松县| 诸暨市| 麟游县| 凤山市| 虎林市| 绵竹市| 时尚| 牙克石市| 庆云县| 遵义市| 福海县| 金秀| 宁陕县| 黄梅县| 大丰市| 淳安县| 石景山区| 斗六市| 岳阳市| 嘉兴市| 昌平区| 普定县| 寿宁县| 仲巴县| 西林县| 磐安县| 泾源县| 长子县| 郸城县| 禄丰县| 大石桥市| 泰州市| 玉环县| 泗洪县|