肖耿毅
(桂林師范高等??茖W校數(shù)學與計算機技術(shù)系,廣西 桂林 541199)
互聯(lián)網(wǎng)具有開放性和包容性,但是容易受到外部入侵。入侵檢測是一種及時檢測和報告未經(jīng)授權(quán)的訪問或異常的技術(shù),網(wǎng)絡入侵檢測系統(tǒng)是用于保護系統(tǒng)免受非法攻擊的重要網(wǎng)絡防御工具。入侵檢測系統(tǒng)主要包含三種手段:第一種為基于特征的檢測方法,這種方法具有較高的預測和檢測精度,但需要入侵和攻擊的先驗知識或經(jīng)驗;第二種為基于統(tǒng)計算法的檢測方法,這種方法對于常規(guī)網(wǎng)絡入侵檢測率高,但其學習能力較差;第三種為基于機器學習的檢測方法,其有效性完全取決于機器學習算法的有效性。建立一個有效的網(wǎng)絡入侵檢測系統(tǒng),充分利用新的機器學習方法是一項具有挑戰(zhàn)性的任務。從對象的角度來看,與正常的網(wǎng)絡行為相比,不同類型的惡意攻擊具有相當不平衡的分布。網(wǎng)絡入侵行為復雜的、冗長的特征給構(gòu)建有效的檢測系統(tǒng)帶來了嚴峻的挑戰(zhàn)。為了解決這些問題,本文提出一種新的網(wǎng)絡入侵檢測方法,即基于稀疏主成分空間嵌入與加權(quán)核極限學習機的網(wǎng)絡入侵檢測方法,它包含了稀疏主成分空間嵌入算法以及加權(quán)核極限學習機。
網(wǎng)絡入侵數(shù)據(jù)的較多特征不僅會影響檢測速度,還會影響檢測精度。由于高維空間的信息數(shù)據(jù)是可以以非常小的信息損失在低維空間中進行表示的,因而降維可能會產(chǎn)生較低維度的數(shù)據(jù),從而可以減少網(wǎng)絡入侵數(shù)據(jù)的特征,當前的降維算法有主成分分析法、局部線性嵌入法、核主成分分析法等等。由于網(wǎng)絡入侵數(shù)據(jù)中有很多是稀疏的,這些降維算法對網(wǎng)絡入侵數(shù)據(jù)處理效果不佳,難以很好地提取稀疏數(shù)據(jù)的信息。因此,本文提出稀疏主成分空間嵌入算法(SPCSE)以約簡網(wǎng)絡入侵數(shù)據(jù)的特征,稀疏主成分空間嵌入算法是基于稀疏主成分的特征約簡的降維算法,稀疏主成分空間嵌入可以減少特征提取后的數(shù)據(jù)信息丟失,從而不僅提高算法提取的特征準確度,還能提高算法的效率。
極限學習機(ELM)是一種求解單隱層神經(jīng)網(wǎng)絡的算法,極限學習機在保證學習精度的前提下比傳統(tǒng)的單層神經(jīng)網(wǎng)絡有著更高的效率。為了改進極限學習機的網(wǎng)絡入侵的檢測效果,提出一種加權(quán)核極限學習機算法(WKELM),在加權(quán)極限學習機中引入了核函數(shù),通過采用核函數(shù)代替包含激活函數(shù)的加權(quán)極限學習機隱層隨機特征映射,這些隱層隨機特征映射可以提高加權(quán)極限學習機的非線性處理能力和魯棒性。由于粒子群優(yōu)化算法存在局部優(yōu)化等問題,提出采用柯西粒子群優(yōu)化算法進行加權(quán)核極限學習機的參數(shù)優(yōu)化。采用KDDCUP99數(shù)據(jù)集樣本作為本文的實驗數(shù)據(jù),網(wǎng)絡入侵類型主要為Dos、Probe、R2L、U2R,通過實驗測試基于稀疏主成分空間嵌入與加權(quán)核極限學習機的網(wǎng)絡入侵檢測方法用于識別正常、Dos、Probe、R2L、U2R這5種網(wǎng)絡狀態(tài)的可行性。
高維空間的信息數(shù)據(jù)是可以以非常小的信息損失在低維空間中進行表示的。對于給定的數(shù)據(jù)集,降維可能會產(chǎn)生較低維度的數(shù)據(jù),從而可以減少網(wǎng)絡入侵數(shù)據(jù)的特征。由于網(wǎng)絡入侵數(shù)據(jù)中有很多是稀疏的,這些降維算法對網(wǎng)絡入侵數(shù)據(jù)處理效果不佳,難以很好地提取稀疏數(shù)據(jù)的信息,對此,本文提出一種稀疏主成分空間嵌入算法以約簡網(wǎng)絡入侵數(shù)據(jù)的特征。稀疏主成分空間嵌入算法是提取稀疏主成分并對特征約簡的降維算法,稀疏主成分就是以主成分為基礎(chǔ)將主成分的系數(shù)向量進行稀疏化,使絕對值較小的系數(shù)壓縮為零。
(1)
解決下述優(yōu)化問題以產(chǎn)生稀疏回歸系數(shù)
(2)
約束條件:DD
=I
式中:D
,E
是最小化準則的參數(shù)矩陣,β
是范數(shù)-2懲罰參數(shù)。由稀疏主成分空間嵌入算法構(gòu)造的抽樣誤差遵循關(guān)于零均值的對稱分布,這導致稀疏主成分空間嵌入在降維后更好地保留了歐氏距離。因此,稀疏主成分空間嵌入可以減少特征提取后的數(shù)據(jù)信息丟失,同時降低特征提取的計算復雜度。
極限學習機是黃廣斌提出的一種求解單隱層前饋神經(jīng)網(wǎng)絡的算法,其輸入層和隱層之間的連接是隨機分配的。與傳統(tǒng)的單層神經(jīng)網(wǎng)絡相比,極限學習機在保證學習精度的前提下保證更高的效率。經(jīng)過訓練的極限學習機模型將會比反向傳播神經(jīng)網(wǎng)絡具有更高的精度和速度。極限學習機的數(shù)學模型表達為
(3)
式中:h
(x
)為特征映射函數(shù)矩陣,H
=[h
(x
),…,h
(x
)]為隱含層特征映射矩陣,T
=[t
,…,t
]為訓練目標矩陣。對于加權(quán)極限學習機算法,為了最小化輸出權(quán)重并最小化每個樣本的加權(quán)累積誤差,非平衡學習的加權(quán)極限學習機優(yōu)化問題可以描述為
最小化
(4)
約束條件
α
為輸出權(quán)重向量,α
=H
T
,W
是用于加權(quán)的對角矩陣。對于加權(quán)極限學習機,采用核函數(shù)代替包含激活函數(shù)的加權(quán)極限學習機隱層隨機特征映射,有利于提高加權(quán)極限學習機的非線性處理能力和魯棒性。
(5)
式中:C
為懲罰因子,I
為單位矩陣。引入核函數(shù)代替特征矩陣HH
,核極限學習機數(shù)學模型表達為(6)
加權(quán)極限學習機定義一個內(nèi)核矩陣,因而,加權(quán)極限學習機分類器的輸出函數(shù)為
(7)
式中:C
是加權(quán)極限學習機算法的正則化系數(shù)。加權(quán)極限學習機的懲罰因子C
以及高斯徑向基核函數(shù)的參數(shù)ε
需要優(yōu)化。粒子群優(yōu)化算法是一種群體智能優(yōu)化算法,它從鳥群在多維搜索空間中的社會行為演化而來。一旦找到了食物的來源,領(lǐng)頭的鳥就會傳送這些信息,以便其它鳥群也能找到食物。粒子群優(yōu)化算法隨機生成一組粒子,這些粒子根據(jù)式(8)與式(9)在搜索空間中移動以更新每個粒子的位置和速度以搜索最佳結(jié)果。
v
(t
+1)=λ
·v
(t
)+c
·rand
·(pbest
(t
)-x
(t
))+c
·rand
·(gbest
(t
)-x
(t
))(8)
x
(t
+1)=x
(t
)+v
(t
+1)(9)
式中:λ
是權(quán)重系數(shù),pbest
是單個粒子的最佳先前經(jīng)驗,gbest
是所有群中的全局最佳經(jīng)驗,c
、c
是加速度常數(shù),c
、c
取值為2,rand
是0與1之間的隨機數(shù)。該算法采用柯西分布進行初始粒子的選取,標準柯西密度函數(shù)表示為
(10)
由于加權(quán)核極限學習機的懲罰因子C
以及高斯徑向基核函數(shù)的參數(shù)ε
的選擇對其的識別能力有很大的影響,所以應用柯西粒子群優(yōu)化算法選擇加權(quán)核極限學習機的懲罰因子C
以及高斯徑向基核函數(shù)的參數(shù)ε
。首先定義一個粒子,該粒子包括加權(quán)極限學習機的懲罰因子C
以及高斯徑向基核函數(shù)的參數(shù)ε
,利用標準柯西密度函數(shù),產(chǎn)生一組初始的粒子;其次,定義適合度函數(shù),評估每個粒子的適合度;再次,根據(jù)式(8)與式(9)更新每個粒子的位置和速度,評估當前粒子的適合度;最后,如果滿足終止條件,優(yōu)化過程結(jié)束,同時獲取加權(quán)核極限學習機的懲罰因子C
以及高斯徑向基核函數(shù)的參數(shù)ε
。圖1描述了基于稀疏主成分空間嵌入與加權(quán)核極限學習機(SPCSE-WKELM)的網(wǎng)絡入侵檢測流程,該網(wǎng)絡入侵檢測流程中將網(wǎng)絡入侵數(shù)據(jù)高維特征集分為訓練樣本集與測試樣本集,通過稀疏主成分空間嵌入算法分別將訓練樣本集與測試樣本集進行降維,從而分別獲取低維特征集訓練樣本集與低維特征集測試樣本集,利用低維特征集訓練樣本集以及柯西粒子群優(yōu)化算法對加權(quán)極限學習機的懲罰因子C以及高斯徑向基核函數(shù)的參數(shù)ε進行優(yōu)化,從而獲取稀疏主成分空間嵌入與加權(quán)核極限學習機的網(wǎng)絡入侵檢測模型,采用低維特征集測試樣本集對稀疏主成分空間嵌入與加權(quán)核極限學習機的網(wǎng)絡入侵檢測模型進行測試。
圖1 基于SPCSE-WKELM的網(wǎng)絡入侵檢測流程圖
網(wǎng)絡入侵類型主要為Dos、Probe、R2L、U2R。本文采用500個KDDCUP99數(shù)據(jù)集樣本作為本文的實驗數(shù)據(jù),該實驗數(shù)據(jù)包含正常、Dos、Probe、R2L、U2R這5種網(wǎng)絡狀態(tài)。其中300個KDDCUP99數(shù)據(jù)集樣本作為本文的訓練數(shù)據(jù),200個KDDCUP99數(shù)據(jù)集樣本作為本文的測試數(shù)據(jù),這200個KDDCUP99數(shù)據(jù)集樣本包括正常樣本40個,Dos入侵樣本40個,Probe入侵樣本40個,R2L入侵樣本40個以及U2R入侵樣本40個。通過稀疏主成分空間嵌入算法分別降低訓練樣本以及測試樣本的特征維數(shù),選定柯西粒子群優(yōu)化算法參數(shù),采用柯西粒子群優(yōu)化算法選擇加權(quán)核極限學習機的懲罰因子C以及高斯徑向基核函數(shù)的參數(shù)ε,建立SPCSE-WKELM網(wǎng)絡入侵檢測模型。分別采用WKELM網(wǎng)絡入侵檢測模型、ELM網(wǎng)絡入侵檢測模型與網(wǎng)絡入侵SPCSE-WKELM檢測模型進行比較。WKELM網(wǎng)絡入侵檢測模型、ELM網(wǎng)絡入侵檢測模型與SPCSE-WKELM網(wǎng)絡入侵檢測模型分別對正常、Dos、Probe、R2L、U2R的識別率如表1所示。圖2展示了SPCSE-WKELM的網(wǎng)絡入侵檢測結(jié)果,SPCSE-WKELM對正常樣本識別率100%,Dos入侵樣本識別率95%,對Probe入侵樣本識別率97.5%,對R2L入侵樣本識別率100%,對U2R入侵樣本識別率100%。圖3展示了WKELM的網(wǎng)絡入侵檢測結(jié)果,WKELM對正常樣本識別率100%,Dos入侵樣本識別率95%,對Probe入侵樣本識別率87.5%,對R2L入侵樣本識別率95%,對U2R入侵樣本識別率97.5%。WKELM對Probe入侵樣本識別率較低。圖4展示了ELM的網(wǎng)絡入侵檢測結(jié)果,ELM對正常樣本識別率97.5%,Dos入侵樣本識別率92.5%,對Probe入侵樣本識別率87.5%,對R2L入侵樣本識別率90%,對U2R入侵樣本識別率92.5%。ELM對Probe入侵樣本識別率以及對R2L入侵樣本識別率較低。從表2可以看出,SPCSE-WKELM對于網(wǎng)絡入侵的檢測精度98.5%,WKELM對于網(wǎng)絡入侵的檢測精度95%,ELM對于網(wǎng)絡入侵的檢測精度92%??梢钥闯?,SPCSE-WKELM對于網(wǎng)絡入侵的檢測精度遠高于WKELM以及ELM對于網(wǎng)絡入侵的檢測精度。
圖2 基于SPCSE-WKELM的網(wǎng)絡入侵檢測結(jié)果
圖3 基于WKELM的網(wǎng)絡入侵檢測結(jié)果
圖4 基于ELM的網(wǎng)絡入侵檢測結(jié)果
表1 各模型對正常、Dos、Probe、R2L、U2R的識別率
表2 各模型對網(wǎng)絡入侵的檢測精度
為了解決網(wǎng)絡入侵行為復雜的、冗長的特征給構(gòu)建有效的檢測系統(tǒng)帶來的問題以及提高網(wǎng)絡入侵檢測效果,本文提出一種新的網(wǎng)絡入侵檢測方法,即基于稀疏主成分空間嵌入與加權(quán)核極限學習機的網(wǎng)絡入侵檢測方法,給出基于稀疏主成分空間嵌入與加權(quán)核極限學習機的網(wǎng)絡入侵檢測流程,并通過實驗結(jié)果表明本文提出的基于稀疏主成分空間嵌入與加權(quán)核極限學習機的網(wǎng)絡入侵檢測方法對于網(wǎng)絡入侵的檢測結(jié)果優(yōu)于傳統(tǒng)的極限學習機和加權(quán)核極限學習機,從而證明了本文提出的基于稀疏主成分空間嵌入與加權(quán)核極限學習機的網(wǎng)絡入侵檢測方法的有效性。本文貢獻在于:
1) 提出一種稀疏主成分空間嵌入算法以約簡網(wǎng)絡入侵數(shù)據(jù)的特征。這種算法是基于稀疏主成分的特征約簡的降維算法,稀疏主成分空間嵌入可以減少特征提取后的數(shù)據(jù)信息丟失。
2) 提出一種加權(quán)核極限學習機算法,它采用核函數(shù)代替包含激活函數(shù)的加權(quán)極限學習機隱層隨機特征映射,有利于提高算法的非線性處理能力和魯棒性,采用基于柯西粒子群優(yōu)化算法進行加權(quán)核極限學習機的參數(shù)優(yōu)化。