張?zhí)煸?陳 偉 劉宇嘯
(南京郵電大學(xué)計(jì)算機(jī)學(xué)院 南京 210023)
(403803607@qq.com)
隨著科技的快速發(fā)展,人們?cè)谙硎芫W(wǎng)絡(luò)帶來的更加豐富便捷生活的同時(shí),也面臨著日益嚴(yán)重的網(wǎng)絡(luò)安全問題.中國(guó)互聯(lián)網(wǎng)信息中心發(fā)布的第50次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》中指出,截至2022年6月,中國(guó)電信、中國(guó)移動(dòng)和中國(guó)聯(lián)通總計(jì)監(jiān)測(cè)發(fā)現(xiàn)分布式拒絕服務(wù)攻擊316542起,工業(yè)和信息化部網(wǎng)絡(luò)安全威脅和漏洞信息共享平臺(tái)總計(jì)接報(bào)網(wǎng)絡(luò)安全事件7415654件.隨著網(wǎng)絡(luò)安全事件的不斷發(fā)生,網(wǎng)絡(luò)入侵檢測(cè)[1-2]已成為網(wǎng)絡(luò)生態(tài)系統(tǒng)中最關(guān)鍵的問題之一.提升入侵檢測(cè)有效識(shí)別惡意流量[3]的性能已成為網(wǎng)絡(luò)安全技術(shù)發(fā)展的必然要求.
傳統(tǒng)的機(jī)器學(xué)習(xí)方法,如貝葉斯網(wǎng)絡(luò)[4]、支持向量機(jī)[5]、決策樹[6]、隨機(jī)森林[7]、K最近鄰[8]等,都是通過學(xué)習(xí)已存在的入侵或者正常模式的網(wǎng)絡(luò)數(shù)據(jù)包的特征來發(fā)現(xiàn)異常.Wester等人[9]使用樹增強(qiáng)樸素貝葉斯分類器用于計(jì)算機(jī)網(wǎng)絡(luò)流量的基于異常的入侵檢測(cè);周杰英等人[10]基于隨機(jī)森林進(jìn)行特征轉(zhuǎn)換,再使用梯度提升決策時(shí)模型進(jìn)行多分類網(wǎng)絡(luò)入侵檢測(cè),模型收斂較快、精度較高、泛化能力好;江澤濤等人[11]針對(duì)入侵檢測(cè)效率低的問題,提出基于感知哈希矩陣的最近鄰入侵檢測(cè)算法.
然而,機(jī)器學(xué)習(xí)算法對(duì)特征依賴度較高,且難以學(xué)習(xí)網(wǎng)絡(luò)流量數(shù)據(jù)的復(fù)雜和非線性關(guān)系.深度學(xué)習(xí)作為表征學(xué)習(xí)的代表,能夠在高維海量數(shù)據(jù)中獲取其本質(zhì)特征,進(jìn)而提高分類準(zhǔn)確率,被廣泛應(yīng)用于入侵檢測(cè)中.常用的深度學(xué)習(xí)方法有卷積神經(jīng)網(wǎng)絡(luò)[12-13]、循環(huán)神經(jīng)網(wǎng)絡(luò)[14]、自編碼器[15]、深度信念網(wǎng)絡(luò)[16]、膠囊網(wǎng)絡(luò)[17]等.Mirsky等人[18]提出的核心算法KitNET使用1組自編碼器,以集成方式產(chǎn)生重構(gòu)誤差區(qū)分正常流量和異常流量.在此基礎(chǔ)之上,Li等人[19]將網(wǎng)絡(luò)流量數(shù)據(jù)分為稀疏矩陣和稠密矩陣,利用隨機(jī)森林選出重要特征,根據(jù)AP聚類完成特征分組,輸入KitNET得到1組RMSE值,再對(duì)RMSE求平均值作為重構(gòu)誤差,最后利用Kmeans算法區(qū)分正常/異常流量,縮短了檢測(cè)時(shí)間,有效提高了預(yù)測(cè)精度;Azizjon等人[20]利用1維卷積神經(jīng)網(wǎng)絡(luò)用于網(wǎng)絡(luò)流量數(shù)據(jù)的異常檢測(cè);Imrana等人[21]使用雙向LSTM(long short-term memory network)提升對(duì)U2R和U2L攻擊的檢測(cè)精度;Zhang等人[22]結(jié)合CNN和LSTM,采用多尺度CNN分析數(shù)據(jù)集空間特征,然后利用LSTM對(duì)時(shí)序特征進(jìn)行處理,最后模型利用時(shí)空特征來分類,具有較高的準(zhǔn)確率、較低的誤報(bào)率.
本文圍繞網(wǎng)絡(luò)流量的入侵檢測(cè)模型展開研究,提出了一種基于多尺度時(shí)空殘差網(wǎng)絡(luò)的入侵(multi-scale spatial-temporal residual network,MS-ST-RNet)檢測(cè)方法.首先使用log1p平滑處理對(duì)偏度較大的特征進(jìn)行轉(zhuǎn)換,優(yōu)化數(shù)據(jù)分布;然后分別利用1維多尺度卷積和長(zhǎng)短期記憶網(wǎng)絡(luò)分別提取網(wǎng)絡(luò)流量數(shù)據(jù)的空間特征和時(shí)序特征,并進(jìn)行融合;接著基于殘差網(wǎng)絡(luò)的思想添加“直接/恒等映射”,避免網(wǎng)絡(luò)退化問題;最后通過全連接層和softmax函數(shù)對(duì)網(wǎng)絡(luò)流量進(jìn)行分類.
本文的主要貢獻(xiàn)如下:
1) 考慮前后流量數(shù)據(jù)的時(shí)序關(guān)聯(lián),采用多條流量為整體,挖掘多條數(shù)據(jù)的時(shí)間相關(guān)性.相較于傳統(tǒng)的采用單條流量提取特征,本文的方式更有利于長(zhǎng)短期記憶網(wǎng)絡(luò)提取時(shí)序特征.
2) 在數(shù)據(jù)預(yù)處理階段,為避免數(shù)據(jù)偏度較大而對(duì)模型性能造成影響,采用log1p平滑處理對(duì)部分特征進(jìn)行轉(zhuǎn)換,使其更加服從高斯分布.通過數(shù)據(jù)樣本分布的可視化以及轉(zhuǎn)化前后與標(biāo)簽的皮爾遜相關(guān)性對(duì)比,證明平滑處理的有效性.
3) 在特征提取階段,用1維多尺度卷積層提取數(shù)據(jù)樣本的空間特征,用長(zhǎng)短期記憶網(wǎng)絡(luò)提取數(shù)據(jù)樣本的時(shí)序特征,并進(jìn)行融合,提升模型的表征能力;添加恒等映射,使得深層網(wǎng)絡(luò)可以融合淺層、中層、高層網(wǎng)絡(luò)的特征,防止網(wǎng)絡(luò)退化問題.
4) 在入侵檢測(cè)數(shù)據(jù)集UNSW_NB15上進(jìn)行了充分實(shí)驗(yàn),證明了本文模型解決網(wǎng)絡(luò)退化問題的有效性、超參數(shù)選擇的正確性以及相比常見深度學(xué)習(xí)模型的優(yōu)越性.
本文所提出的入侵檢測(cè)模型基于1維卷積、長(zhǎng)短期記憶網(wǎng)絡(luò)以及殘差網(wǎng)絡(luò)的融合,下面就有關(guān)概念和預(yù)備知識(shí)予以介紹.
1維卷積指卷積濾波器窗口只在一個(gè)方向上滑動(dòng)并進(jìn)行卷積操作,定義如下:
y=σ(W*x+b).
(1)
其中:x為卷積層輸入;y為卷積層輸出;W∈Pk為卷積層的濾波器權(quán)值函數(shù);b∈Pd為卷積層偏置,σ為激活函數(shù),k為濾波器長(zhǎng)度,d為特征維度.
1維卷積層可以對(duì)網(wǎng)絡(luò)流量數(shù)據(jù)進(jìn)行固定尺度的空間特征提取.
圖1 LSTM網(wǎng)絡(luò)結(jié)構(gòu)
ft=sigmoid(Wf·[ht-1,xt]+bf),
(2)
it=sigmoid(Wi·[ht-1,xt]+bi),
(3)
(4)
ot=sigmoid(Wo·[ht-1,xt]+bo),
(5)
(6)
ht=ot*tanh(ct).
(7)
其中:xt為時(shí)刻t的輸入;ct為時(shí)刻t的單元狀態(tài);ht為時(shí)刻t的隱藏狀態(tài)(初始時(shí)刻隱藏狀態(tài)為0);W與b分別為各個(gè)結(jié)構(gòu)之間的權(quán)重與偏置值.
在深度學(xué)習(xí)中,隨著網(wǎng)絡(luò)層數(shù)的加深,除了增加計(jì)算資源消耗以及產(chǎn)生過擬合問題外,還會(huì)出現(xiàn)梯度消失或者爆炸問題,導(dǎo)致淺層網(wǎng)絡(luò)參數(shù)無法更新.當(dāng)網(wǎng)絡(luò)很深時(shí),模型效果不僅沒有提升,甚至很可能變差,即產(chǎn)生了網(wǎng)絡(luò)退化的問題.這是因?yàn)樯顚泳W(wǎng)絡(luò)在前向傳播的過程中,隨著網(wǎng)絡(luò)加深,網(wǎng)絡(luò)獲得的信息逐層減少,使用殘差網(wǎng)絡(luò)的思想,添加一系列殘差塊,構(gòu)造“直接/恒等映射”的跳躍連接,使下一層不僅包括該層的信息,還包括該層經(jīng)非線性變換后的新信息,使得信息層次更為豐富.
融合CNN、LSTM及殘差網(wǎng)絡(luò),本文提出了一種基于MS-ST-RNet的入侵檢測(cè)模型,主要由數(shù)據(jù)預(yù)處理以及MS-ST-RNet這2大模塊組成,模型架構(gòu)如圖2所示,符號(hào)定義如表1所示.
表1 符號(hào)定義
2.1.1 數(shù)據(jù)預(yù)處理
平滑處理很容易被忽略掉,導(dǎo)致模型的結(jié)果總是達(dá)不到一定標(biāo)準(zhǔn),可以對(duì)偏度較大的數(shù)據(jù)用平滑處理進(jìn)行轉(zhuǎn)換,使其更加服從高斯分布.
數(shù)據(jù)集中可能存在各種字符串型特征,而實(shí)際上機(jī)器學(xué)習(xí)、深度學(xué)習(xí)模型需要的數(shù)據(jù)是數(shù)值型的,因?yàn)橹挥袛?shù)值型才能進(jìn)行計(jì)算.因此,對(duì)于非數(shù)值型特征state,proto,service,需要進(jìn)行相應(yīng)編碼將其量化.本文選擇scikit-learn中函數(shù)OneHotEncoder將非數(shù)值型數(shù)據(jù)轉(zhuǎn)換為數(shù)值型數(shù)據(jù).
不同特征的數(shù)量級(jí)不同導(dǎo)致計(jì)算結(jié)果的不同,數(shù)量級(jí)大的特征會(huì)起決定性作用,而數(shù)量級(jí)小的特征作用可能被忽略.例如,在本文采用的數(shù)據(jù)集中,dur特征范圍在[0,53],而sload特征范圍在[0,1872000000],這2個(gè)特征具有不同的數(shù)量級(jí).因此為了消除特征間數(shù)量級(jí)差異對(duì)入侵檢測(cè)的影響,本文用scikit-learn中的StandardScaler()對(duì)特征進(jìn)行標(biāo)準(zhǔn)化處理,使其服從均值為0、方差為1的標(biāo)準(zhǔn)正態(tài)分布.
2.1.2 MS-ST-RNet模型
將經(jīng)過數(shù)據(jù)預(yù)處理的網(wǎng)絡(luò)流量數(shù)據(jù)輸入MS-ST-RNet進(jìn)行深度時(shí)空特征提取.MS-ST-RNet由若干個(gè)多尺度時(shí)空殘差模塊堆疊而成,每個(gè)模塊的輸入與輸出維度相同.利用函數(shù)reshape將多維輸出1維化,再經(jīng)過全連接層將提取到的時(shí)空特征綜合起來.最后采用softmax函數(shù)作為分類器實(shí)現(xiàn)網(wǎng)絡(luò)流量分類,獲得網(wǎng)絡(luò)流量分類結(jié)果.
多尺度時(shí)空殘差模塊為MS-ST-RNet的核心模塊.MS-ST-RNet通過多尺度時(shí)空殘差模塊的多尺度1維卷積層增加網(wǎng)絡(luò)寬度,提取空間特征;通過LSTM提取數(shù)據(jù)間的時(shí)序特征,并將空間特征和時(shí)序特征進(jìn)行特征融合,增強(qiáng)模型表征能力以及泛化能力;通過堆疊多個(gè)多尺度時(shí)空殘差模塊增加網(wǎng)絡(luò)深度,添加恒等映射,將網(wǎng)絡(luò)淺層、中層以及高層特征進(jìn)行融合,使信息層次更加豐富,避免深層網(wǎng)絡(luò)出現(xiàn)梯度消失、梯度爆炸、網(wǎng)絡(luò)退化等問題.
多尺度時(shí)空殘差模塊在多尺度時(shí)空模塊的基礎(chǔ)上添加“直接/恒等映射”,如圖3所示:
2.2.1 多尺度1維卷積層
網(wǎng)絡(luò)流量的識(shí)別不能僅依賴于一些離散的局部特征,而應(yīng)該通過多個(gè)不同尺度的卷積核來提取不同大小的流量特征,并將其融合以獲得多組局部特征.本文通過多尺度1維卷積層實(shí)現(xiàn)多尺度網(wǎng)絡(luò)流量數(shù)據(jù)的空間特征提取,使用的卷積濾波器長(zhǎng)度分別為3,5,7.通過逐項(xiàng)相加實(shí)現(xiàn)多尺度空間特征融合,單個(gè)元素信息量增加的同時(shí)可以保持特征維度不變,降低后續(xù)運(yùn)算開銷.利用BN層進(jìn)行批歸一化,使數(shù)據(jù)服從或近似服從標(biāo)準(zhǔn)正態(tài)分布,加快神經(jīng)網(wǎng)絡(luò)的收斂速度,防止梯度爆炸、梯度消失以及過擬合現(xiàn)象.選擇ReLU作為激活函數(shù)放大特征間差異,增加網(wǎng)絡(luò)稀疏性,使得最終提取出的多尺度空間融合特征更具代表性,提升網(wǎng)絡(luò)泛化能力.
2.2.2 LSTM
為避免長(zhǎng)序列訓(xùn)練過程中出現(xiàn)的梯度消失和梯度爆炸的問題,本文通過LSTM提取網(wǎng)絡(luò)流量數(shù)據(jù)的時(shí)序特征,同多尺度1維卷積層,使用BN進(jìn)行批歸一化并選擇ReLU作為激活函數(shù),之后再與多尺度空間特征進(jìn)行融合.LSTM層的輸出維度由隱藏單元個(gè)數(shù)決定.由于后續(xù)要與多尺度空間特征進(jìn)行特征融合,并添加恒等映射進(jìn)行殘差連接,因此本文將隱藏單元個(gè)數(shù)設(shè)置為多尺度時(shí)空殘差模塊的輸入數(shù)據(jù)維度,即經(jīng)過數(shù)據(jù)預(yù)處理過程的網(wǎng)絡(luò)流量數(shù)據(jù)維度.
2.2.3 殘差學(xué)習(xí)
為解決網(wǎng)絡(luò)退化問題,本文通過構(gòu)造“直接/恒等映射”的跳躍連接方式實(shí)現(xiàn)殘差擬合.多尺度時(shí)空殘差映射如下:
xout=x+F(x)=x+xout_fin.
(8)
其中:x和xout分別為多尺度時(shí)空殘差學(xué)習(xí)的輸入與輸出;xout_fin為多尺度時(shí)空殘差模塊提取到的時(shí)空融合特征;F(x)為殘差映射.同多尺度1維卷積層以及LSTM,使用BN進(jìn)行批歸一化并選擇ReLU作為激活函數(shù),優(yōu)化數(shù)據(jù)分布,得到多尺度時(shí)空殘差模塊的最終輸出.
添加恒等映射后,伴隨著網(wǎng)絡(luò)加深網(wǎng)絡(luò)性能不下降,深層網(wǎng)絡(luò)效果比淺層好,解決了網(wǎng)絡(luò)退化問題.
本文實(shí)驗(yàn)訓(xùn)練和測(cè)試均在Windows10操作系統(tǒng)環(huán)境下進(jìn)行,CPU為AMD Ryzen 7 5800H with Radeon Graphics 3.20GHz,16GB內(nèi)存.開發(fā)語言為Python,集成開發(fā)環(huán)境為Pycharm和Jupyter Notebook.Pytorch作為最流行的深度學(xué)習(xí)庫之一,可以執(zhí)行大規(guī)模的數(shù)值計(jì)算,方便地搭建網(wǎng)絡(luò)模型,實(shí)現(xiàn)本文的MS-ST-RNet.
為了評(píng)估MS-ST-RNet的檢測(cè)性能,用混淆矩陣計(jì)算出基礎(chǔ)指標(biāo)后,本文采用精確率P(precision)、召回率R(recall)、F1值、準(zhǔn)確率Acc(accuracy)和AUC作為模型效果的評(píng)估指標(biāo).
精確率是預(yù)測(cè)出的正樣本中預(yù)測(cè)正確的比例,召回率是預(yù)測(cè)正確的正樣本占所有正樣本的比例,F1值是精確率和召回率的加權(quán)調(diào)和平均,準(zhǔn)確率是預(yù)測(cè)正確的樣本占總樣本的比例.計(jì)算如下:
(9)
(10)
(11)
(12)
AUC是ROC曲線覆蓋的面積,ROC是假陽性(FPR)與真陽性率(TPR)之間的關(guān)系曲線,FPR和TPR分別為x,y軸.計(jì)算如下:
(13)
(14)
其中:TP是預(yù)測(cè)為正實(shí)際也為正的樣本個(gè)數(shù);TN是預(yù)測(cè)為負(fù)實(shí)際也為負(fù)的樣本個(gè)數(shù);FP是預(yù)測(cè)為正實(shí)際為負(fù)的樣本個(gè)數(shù);FN是預(yù)測(cè)為負(fù)實(shí)際為正的樣本個(gè)數(shù).
本文實(shí)驗(yàn)選用的數(shù)據(jù)集是UNSW_NB15,該數(shù)據(jù)集是2015年澳大利亞網(wǎng)絡(luò)安全中心(ACCS)實(shí)驗(yàn)室利用IXIA PerfectStorm工具生成的,比傳統(tǒng)的KDD-99和NSL-KDD數(shù)據(jù)集更具現(xiàn)代網(wǎng)絡(luò)流量代表性.官方提供了分割好的訓(xùn)練集和測(cè)試集,數(shù)據(jù)共有45個(gè)特征.
模型具體結(jié)構(gòu)在第2節(jié)已給出,去除id、攻擊類別和標(biāo)簽,剩余42維特征,采用2.1.1節(jié)中的數(shù)據(jù)預(yù)處理方式,最終數(shù)據(jù)維度變?yōu)?94維,送入多尺度時(shí)空殘差網(wǎng)絡(luò),再通過全連接層和softmax函數(shù)得到最終的二分類結(jié)果.
在機(jī)器學(xué)習(xí)或深度學(xué)習(xí)中,研究者需要在訓(xùn)練開始之前依據(jù)自身經(jīng)驗(yàn)和專業(yè)知識(shí)設(shè)置一些參數(shù),選擇1組相對(duì)最優(yōu)的參數(shù)訓(xùn)練模型,這些參數(shù)不會(huì)根據(jù)網(wǎng)絡(luò)優(yōu)化進(jìn)行迭代更新,被稱為超參數(shù).經(jīng)過多次實(shí)驗(yàn)調(diào)整參數(shù),本文選擇了以下超參數(shù)訓(xùn)練MS-ST-RNet,如表2所示:
表2 實(shí)驗(yàn)超參數(shù)設(shè)置
合適的學(xué)習(xí)率能夠使目標(biāo)函數(shù)在合適的時(shí)間內(nèi)收斂到最小值,學(xué)習(xí)率越大輸出誤差對(duì)參數(shù)的影響就越大,參數(shù)更新就越快,但同時(shí)受到異常數(shù)據(jù)的影響也就越大,很容易發(fā)散.迭代次數(shù)過小,網(wǎng)絡(luò)不能得到最優(yōu)參數(shù);迭代次數(shù)過大,網(wǎng)絡(luò)容易過擬合.經(jīng)過多次調(diào)整,本文的學(xué)習(xí)率為0.001、迭代次數(shù)為12時(shí),效果較好.優(yōu)化器是Adam,損失函數(shù)為交叉熵?fù)p失函數(shù).
為了說明本文模型解決網(wǎng)絡(luò)退化問題的有效性以及超參數(shù)選擇的正確性,本文進(jìn)行了多組實(shí)驗(yàn),包括log1p平滑處理前后的效果對(duì)比、不同深度的多尺度時(shí)空網(wǎng)絡(luò)與MS-ST-RNet的對(duì)比以及不同超參數(shù)帶來的實(shí)驗(yàn)結(jié)果對(duì)比.
1) log1p平滑處理前后對(duì)比.
選擇連續(xù)特征,將其平滑處理之前及l(fā)og1p平滑處理之后與“l(fā)abel”標(biāo)簽的皮爾遜相關(guān)性作對(duì)比,如表3所示.選擇與“l(fā)abel”相關(guān)性的絕對(duì)值明顯增加的特征進(jìn)行平滑處理,因?yàn)槠交幚碇竽芨玫伢w現(xiàn)樣本特征.
表3 平滑處理前后與“l(fā)abel”的相關(guān)性對(duì)比
2) 不同深度的多尺度時(shí)空網(wǎng)絡(luò)與MS-ST-RNet的對(duì)比.
為驗(yàn)證MS-ST-RNet解決網(wǎng)絡(luò)退化問題的有效性,本文構(gòu)建了不同深度的多尺度時(shí)空網(wǎng)絡(luò)(multi-scale spatial-temporal network,MS-ST-Net)與MS-ST-RNet進(jìn)行對(duì)比,各個(gè)模型介紹如下:
MS-ST-Net-1由1個(gè)多尺度時(shí)空模塊組成;MS-ST-Net-5由5個(gè)多尺度時(shí)空模塊堆疊而成;MS-ST-Net-10由10個(gè)多尺度時(shí)空模塊堆疊而成;MS-ST-RNet-1由1個(gè)多尺度時(shí)空殘差模塊組成;MS-ST-RNet-5由5個(gè)多尺度時(shí)空殘差模塊堆疊而成;MS-ST-RNet-10由10個(gè)多尺度時(shí)空殘差模塊堆疊而成.
MS-ST-Net與MS-ST-RNet的性能評(píng)估結(jié)果如表4所示:
表4 MS-ST-Net與MS-ST-RNet(本文)的性能對(duì)比
通過縱向?qū)Ρ瓤芍?隨著網(wǎng)絡(luò)加深,與MS-ST-Net-1相比,MS-ST-Net-5和MS-ST-Net-10的模型性能明顯減弱,存在網(wǎng)絡(luò)退化問題;而添加恒等映射的殘差網(wǎng)絡(luò)MS-ST-RNet-1,MS-ST-RNet-5,MS-ST-RNet-10,模型性能隨著網(wǎng)絡(luò)深度的增加而有所提升,具備更高的精確率、召回率、準(zhǔn)確率、F1值以及AUC值.通過橫向?qū)Ρ瓤芍?網(wǎng)絡(luò)深度相同時(shí),MS-ST-Net-1和MS-ST-RNet-1的性能相近,但MS-ST-RNet-5相比MS-ST-Net-5,MS-ST-RNet-10相比MS-ST-Net-10性能明顯提升.
因此,在淺層網(wǎng)絡(luò)中,MS-ST-RNet和MS-ST-Net性能相近;但在深層網(wǎng)絡(luò)中,MS-ST-RNet表現(xiàn)出相當(dāng)優(yōu)秀的效果,具備更強(qiáng)的網(wǎng)絡(luò)入侵檢測(cè)能力.
3) 不同超參數(shù)帶來的實(shí)驗(yàn)結(jié)果對(duì)比.
迭代次數(shù)對(duì)損失值和準(zhǔn)確率的影響如圖4所示.
圖4 迭代次數(shù)對(duì)模型的影響曲線
隨著迭代次數(shù)的增加,深度學(xué)習(xí)網(wǎng)絡(luò)中權(quán)重的更新次數(shù)也在增加,網(wǎng)絡(luò)從欠擬合到慢慢進(jìn)入優(yōu)化擬合狀態(tài),在此過程中驗(yàn)證集損失值呈現(xiàn)螺旋式下降趨勢(shì),迭代次數(shù)為12時(shí),網(wǎng)絡(luò)已經(jīng)能夠很好地訓(xùn)練.迭代次數(shù)高于12時(shí),出現(xiàn)過擬合的情況,模型損失值升高,性能降低且訓(xùn)練時(shí)間變長(zhǎng).所以本文將迭代次數(shù)設(shè)置為12.
本文將常用深度學(xué)習(xí)模型應(yīng)用到UNSW_ NB15數(shù)據(jù)集上,如不同深度的CNN,LSTM,GRU,CNN-LSTM,CNN-GRU,各模型的檢測(cè)性能如表5所示:
表5 不同深度學(xué)習(xí)模型在UNSW_ NB15數(shù)據(jù)集的性能評(píng)估結(jié)果對(duì)比
由表5可知,GRU在數(shù)據(jù)集UNSW_NB15上效果優(yōu)于CNN和LSTM,具備較優(yōu)的網(wǎng)絡(luò)流量入侵檢測(cè)性能;混合模型的整體性能優(yōu)于單一模型,采用CNN進(jìn)行空間特征提取后,LSTM和GRU性能都有提升;MS-ST-RNet-1與GRU-1,MS-ST-Net-1性能接近,但是當(dāng)網(wǎng)絡(luò)層數(shù)較深時(shí),MS-ST-RNet-10比其他同深度的模型明顯表現(xiàn)更好,各項(xiàng)指標(biāo)都在98%以上,再一次說明了本文模型的優(yōu)越性和有效性.
考慮到現(xiàn)有的入侵檢測(cè)方法存在特征提取不佳、分類準(zhǔn)確率低以及泛化能力弱等問題,本文融合了1維CNN、LSTM以及殘差網(wǎng)絡(luò),提出基于多尺度時(shí)空殘差網(wǎng)絡(luò)的入侵檢測(cè)系統(tǒng).通過log1p平滑處理改善數(shù)據(jù)樣本分布,證明網(wǎng)絡(luò)流量數(shù)據(jù)預(yù)處理的有效性;然后利用1維多尺度卷積以及LSTM分別提取網(wǎng)絡(luò)流量數(shù)據(jù)的空間特征和時(shí)序特征并進(jìn)行融合,提升了模型表征能力;添加恒等映射防止梯度消失、梯度爆炸并解決了網(wǎng)絡(luò)退化問題;最后通過全連接層以及softmax函數(shù)對(duì)數(shù)據(jù)樣本進(jìn)行二分類,實(shí)現(xiàn)高效、準(zhǔn)確的網(wǎng)絡(luò)入侵檢測(cè).皮爾遜相關(guān)性對(duì)比實(shí)驗(yàn)表明,經(jīng)過log1p平滑處理之后,數(shù)據(jù)分布更加均勻,能更好體現(xiàn)樣本特征;有效性驗(yàn)證實(shí)驗(yàn)結(jié)果表明,通過添加“直接/恒等”映射可提升網(wǎng)絡(luò)流量入侵檢測(cè)能力并解決網(wǎng)絡(luò)退化問題;超參數(shù)實(shí)驗(yàn)結(jié)果表明,本文設(shè)置較優(yōu)的超參數(shù),有利于網(wǎng)絡(luò)的優(yōu)化擬合;與常用的深度學(xué)習(xí)模型(不同深度的CNN,LSTM,GRU,CNN-LSTM,CNN-GRU)的對(duì)比實(shí)驗(yàn)表明,本文提出的模型性能更優(yōu).
下一步本文將進(jìn)行以下研究:UNSW_NB15訓(xùn)練集中樣本是不平衡的,本文未進(jìn)行不平衡樣本處理,未來可以通過過采樣、欠采樣等方法從多數(shù)類中刪除樣本或者向少數(shù)類中添加樣本,并實(shí)現(xiàn)多分類入侵檢測(cè).