基于自編碼網(wǎng)絡(luò)和聚類的入侵檢測技術(shù)

2019-05-17 02:51:44周康，萬良

計(jì)算機(jī)技術(shù)與發(fā)展 2019年5期

周康，萬良

(1.貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，貴州貴陽 550025；2.貴州大學(xué) 軟件與理論研究所，貴州貴陽 550025)

0 引言

隨著網(wǎng)絡(luò)安全問題的層出不窮，傳統(tǒng)入侵檢測方法已經(jīng)不符合時(shí)代需要，好的入侵檢測方法應(yīng)滿足準(zhǔn)確性高、較好的適應(yīng)性和檢測的實(shí)時(shí)性要求。對(duì)于傳統(tǒng)的入侵檢測方法，前人做了較多研究。例如，Denatious等[1]提出了利用聚類、關(guān)聯(lián)規(guī)則等聯(lián)合數(shù)據(jù)挖掘方法進(jìn)行入侵檢測；Chitrakar等[2]組合應(yīng)用鄰近聚類算法和SVM算法來構(gòu)建異常檢測模型；Srinoy等[3]將隸屬度綜合運(yùn)用粗糙模糊聚類方法實(shí)現(xiàn)數(shù)據(jù)容量的約簡，實(shí)現(xiàn)特征降維等。這些方法都在入侵檢測領(lǐng)域取得了突破性進(jìn)展，而模糊C均值算法(fuzzy C-means，F(xiàn)CM)最早由Bezdek[4]于1984年提出，使用歐氏距離貼近的模糊隸屬度矩陣方法表達(dá)分類。Wang[5]和Lee[6]等將FCM方法應(yīng)用于IDS中，證明了FCM具有良好的分類性能。

特征空間維數(shù)過多是導(dǎo)致IDS檢測速率低的主要原因。黃思慧[7]提出了一種PCA-ELM的入侵檢測算法，在時(shí)間上和檢測正確率上都有所改進(jìn)；Kuang等[8]提出混合的KPCA方法與遺傳算法(GA)、單獨(dú)的KPCA方法對(duì)高維數(shù)據(jù)降維后代入分類器進(jìn)行入侵識(shí)別；EDL Hoz[9]將主成分分析(PCA)降維和自組織映射(SOM)聚類進(jìn)行入侵檢測，是一種常規(guī)高效的做法。

前人的研究都在輸入特征維度上進(jìn)行降維，提高了檢測時(shí)間，但在特征維度空間呈現(xiàn)非線性特征時(shí)，無法較大地提高檢測速度。因此文中旨在保證高分類精度的條件下，最大限度地學(xué)習(xí)到低維特征空間的高維數(shù)據(jù)表示，以提高檢測速度。

文中將自編碼網(wǎng)絡(luò)(autoencoder network，AN)[10]應(yīng)用于入侵檢測領(lǐng)域，使用遺傳算法優(yōu)化FCM算法聚類中心避免陷入局部最優(yōu)，并將自編碼網(wǎng)絡(luò)降維和主成分分析降維進(jìn)行比較，以及對(duì)比FCM和SVM，softmax分類算法，證明AN-GA-FCM入侵檢測模型具有較高的檢測速率和檢測正確率。

1 深度學(xué)習(xí)模型

1.1 自編碼網(wǎng)絡(luò)

(1)

其中，f(X)為sigmoid激活函數(shù)函數(shù)。

該網(wǎng)絡(luò)激活方式是隱藏層h1的輸入由上一層h0的輸出x和它的權(quán)重W乘積激活。h2的輸入同樣由h2的輸出x'和它的權(quán)重W'乘積激活，直到所有的隱藏層都被激活。

1.2 RBM神經(jīng)網(wǎng)絡(luò)

自編碼網(wǎng)絡(luò)的核心組件之一是受限玻爾茲曼機(jī)網(wǎng)絡(luò)(restricted Boltzmann machine，RBM)，通過對(duì)自編碼網(wǎng)絡(luò)每兩個(gè)隱藏層進(jìn)行預(yù)訓(xùn)練得到高維空間映射到低維空間的矩陣表示。RBM包含兩層，可見層(visible layer)和隱藏層(hidden layer)。神經(jīng)元之間連接是層內(nèi)無連接，層間全連接，其所有節(jié)點(diǎn)滿足全概率分布p(v|h)，即Boltzmann分布。通過使用更多的隱藏單元適應(yīng)更復(fù)雜分布，增強(qiáng)其建模能力。RBM的能量函數(shù)定義如下：

E(v,h)=-b'v-c'h-h'Wv

(2)

其中，W表示連接隱藏單元和可見單元的權(quán)重；b,c分別表示可見層和隱藏層的偏移量。

由于RBM的性質(zhì)，即當(dāng)給定可見層神經(jīng)元的狀態(tài)時(shí)，各隱藏層神經(jīng)元的激活條件獨(dú)立；反之當(dāng)給定隱藏層神經(jīng)元的狀態(tài)時(shí)，可見層神經(jīng)元的激活也條件獨(dú)立，即：

(3)

(4)

其中，Z為歸一化因子。

訓(xùn)練的目的是使聯(lián)合概率最大，能量函數(shù)值最小。給定可見層(或隱藏層)所有神經(jīng)元狀態(tài)，隱藏層(或可見層)上某個(gè)神經(jīng)單元被激活(取值為1)的概率，計(jì)算P(hk=1|v)(或P(vk=1|h))推導(dǎo)得到：

(5)

(6)

通過參數(shù)調(diào)整，從隱藏層獲得的可見層vk和原來的可見層v如果一樣，那么所獲得的隱藏層就是可見層的另一種表達(dá)。

由于可見單元和隱藏單元概率條件獨(dú)立，樣本p(x)可以通過馬爾可夫鏈?zhǔn)諗俊?/p>

1.3 Gibbs采樣

在RBM中，使用Gibbs采樣[12]作為轉(zhuǎn)換算子，樣本包含了可見單元和隱藏單元集合，但它們是條件獨(dú)立的，因此樣本p(x)可通過馬爾可夫鏈?zhǔn)諗?。在這個(gè)過程中，給定隱藏單元值同時(shí)對(duì)可見單元進(jìn)行采樣，同樣給定可見單元值同時(shí)對(duì)隱藏單元采樣。馬爾可夫鏈中的一個(gè)步驟如下：

h(n+1)～sigm(W'v(n)+c)

(7)

v(n+1)～sigm(W'h(n)+b)

(8)

其中，h(n)為馬爾可夫鏈第n步所有隱藏單元集合。當(dāng)t→∞就可以得到樣本最精確的概率值。

1.4 CD-k算法

利用Gibbs采樣和馬爾可夫鏈求概率分布最大值的方法，其迭代收斂次數(shù)無法保障，難以確定步長。對(duì)比分歧算法(contrastive divergence，CD)是Hinton提出的快速訓(xùn)練RBM的方法，并在實(shí)踐中取得了很好的效果[13]。CD算法的目的是希望p(v)≈ptrain(v)，即數(shù)據(jù)分布差異性最小。兩個(gè)概率分布的差異性表示為Kullback-Leibler(KL)，即：

(9)

(10)

(11)

實(shí)驗(yàn)證明，在n次迭代后，通過梯度修正參數(shù)θ，CD值必將趨近于0。

2 自編碼網(wǎng)絡(luò)的入侵檢測模型構(gòu)建

2.1 自編碼網(wǎng)絡(luò)特征提取模型構(gòu)建

文中設(shè)計(jì)的自編碼網(wǎng)絡(luò)結(jié)構(gòu)由數(shù)據(jù)輸入層、中間4層RBM隱藏層和輸出層組成[15]，實(shí)現(xiàn)過程如下：

(1)預(yù)訓(xùn)練過程。通過RBM預(yù)訓(xùn)練獲得生成模型權(quán)值參數(shù)，計(jì)算W和b的殘差，利用梯度下降法更新W和b，使得輸出更好地表示輸入。

(2)展開。在經(jīng)過多層RBM網(wǎng)絡(luò)預(yù)訓(xùn)練后，編碼器和解碼器使用得到的權(quán)值作為自編碼網(wǎng)絡(luò)的初始權(quán)值。將預(yù)訓(xùn)練得到的RBM網(wǎng)絡(luò)連接起來并按照自編碼網(wǎng)絡(luò)結(jié)構(gòu)展開。

(3)權(quán)值微調(diào)。按照重構(gòu)誤差最小化原則對(duì)自編碼網(wǎng)絡(luò)進(jìn)行調(diào)整，依次經(jīng)過解碼器和編碼器利用反向傳播算法[16]對(duì)整個(gè)自編碼網(wǎng)絡(luò)進(jìn)行權(quán)值微調(diào)。通過前向傳播的方法，對(duì)每一層的神經(jīng)元進(jìn)行前向傳導(dǎo)計(jì)算，利用前向傳播公式得到各層的激活值。

2.2 自編碼網(wǎng)絡(luò)訓(xùn)練過程

訓(xùn)練階段主要過程包括以下幾個(gè)步驟：

(1)輸入可見層變量H={h1,h2,…,hn}和隱藏層變量V={v1,v2,…,vn}，輸出模型參數(shù)θ={W,a,b}；

(2)初始化RBM網(wǎng)絡(luò)權(quán)值Wij=ai=bj=0(i,j∈Z+)和迭代次數(shù)k；

(3)將每個(gè)輸入特征變量vi賦值給v0；

(4)對(duì)所有可見單元和隱藏單元，根據(jù)式7、式8求得初始狀態(tài)和更新狀態(tài)下的聯(lián)合概率分布梯度，并代入式11來更新θ={W,a,b}，即：

（二）醫(yī)療服務(wù)價(jià)格定價(jià)權(quán)限各省高度集中。定價(jià)權(quán)高度集中，全國各省的醫(yī)療服務(wù)定價(jià)權(quán)都在省一級(jí)，各省所屬地市的經(jīng)濟(jì)發(fā)展水平不同、財(cái)政級(jí)次及補(bǔ)助比例不同、設(shè)備的檔次不同，使用頻次不同，各地群眾的支付能力不同、醫(yī)保的支付標(biāo)準(zhǔn)不同，用統(tǒng)一標(biāo)準(zhǔn)定價(jià)，各地的適應(yīng)差異較大。醫(yī)療服務(wù)價(jià)格扭曲導(dǎo)致了醫(yī)療服務(wù)行為的偏移，醫(yī)療服務(wù)市場的價(jià)值取向出現(xiàn)問題，導(dǎo)致醫(yī)療市場混亂。所以，適應(yīng)新的衛(wèi)生體制改革需要，價(jià)格必須及時(shí)調(diào)整，才能保證醫(yī)療服務(wù)成本的補(bǔ)償機(jī)制健全，醫(yī)療服務(wù)行為的偏移得到糾正；

(12)

(13)

(14)

如果k=t，保存模型參數(shù)，算法結(jié)束，如果k>t，則t=t+1，轉(zhuǎn)向步驟2。

2.3 權(quán)值微調(diào)

(15)

最后，更新每個(gè)網(wǎng)絡(luò)模型參數(shù)θij=θij+Δθij。如果k=t，則保存微調(diào)后的參數(shù)，算法結(jié)束，如果k>t，t=t+1，回到步驟2。

3 GA-FCM分類器構(gòu)建

3.1 模糊C-均值聚類算法(FCM)

假設(shè)X={x1,x2,…,xn}為n維數(shù)據(jù)樣本，c(2≤c≤n)為類別數(shù)，{L1,L2,…,Lc}為分類類別，U={U1,U2,…,Un}為n個(gè)樣本隸屬度矩陣。各類別的聚類中心v={v1,v2,…,vc}，μk(xi)為第i個(gè)樣本對(duì)于類別Lk的隸屬度(簡寫為μik)。則目標(biāo)函數(shù)Jb的表達(dá)式為：

(16)

計(jì)算隸屬度μik和c個(gè)聚類中心{vi}，分別對(duì)Jb求極值有：

(17)

(18)

其中每個(gè)樣本對(duì)于各個(gè)聚類的隸屬度和為1。使用式17、式18反復(fù)修改聚類中心和隸屬度進(jìn)行迭代，使目標(biāo)函數(shù)Jb趨于穩(wěn)定，完成各類聚類中心和各樣本對(duì)每個(gè)類的隸屬度。

3.2 遺傳算法實(shí)現(xiàn)

遺傳算法是一種全局尋優(yōu)方式，具有強(qiáng)大的空間搜索能力[18]，兩者結(jié)合使用避免FCM算法陷入局部最優(yōu)。過程如下：

(2)適應(yīng)度函數(shù)：按優(yōu)勝劣汰的機(jī)制，適應(yīng)度函數(shù)值越小，繁衍幾率越大。排序得到分配函數(shù)：FintV=ranking(Jb)

(3)選擇算子：采用隨機(jī)遍歷抽樣(SUS)。

(4)交叉算子：采用單點(diǎn)交叉算子。

(5)變異算子：以初始概率產(chǎn)生變異基因數(shù)，用隨機(jī)方法選出變異基因。如果是變異基因，那么它將進(jìn)行0,1互變。

3.3 GA-FCM算法流程

基于遺傳算法優(yōu)化的模糊C-均值聚類算法模型描述如下：

(1)初始化GA-FCM算法模型參數(shù)，包括模糊C-均值算法最大迭代次數(shù)N，目標(biāo)函數(shù)的終止容限D(zhuǎn)，種群個(gè)體大小sizepop，最大進(jìn)化次數(shù)MAXGEN，變異概率Pm。

(2)隨機(jī)初始化c個(gè)聚類中心，并生成初始種群Chrom，對(duì)每個(gè)聚類中心用式17計(jì)算各樣本隸屬度，以及每個(gè)個(gè)體適應(yīng)度fi，i=1,2,…,sizepop。

(3)設(shè)初始遺傳代數(shù)循環(huán)計(jì)數(shù)變量gen=0。

(5)若Gen

4 實(shí)驗(yàn)結(jié)果及分析

4.1 數(shù)據(jù)預(yù)處理

對(duì)KDD’99數(shù)據(jù)集[19]進(jìn)行預(yù)處理作為自編碼網(wǎng)絡(luò)輸入數(shù)據(jù)，主要包括數(shù)值化和歸一化過程。

(1)數(shù)值化和歸一化。原始KDD’99數(shù)據(jù)集中包含了41個(gè)特征屬性，其中3個(gè)為字符型特征屬性，分別為protocol_type(網(wǎng)絡(luò)協(xié)議類型)、service(目標(biāo)主機(jī)網(wǎng)絡(luò)服務(wù)類型)、flag(連接正?；蝈e(cuò)誤的狀態(tài))。protocol_type包含3種協(xié)議類型，service包含70種服務(wù)類型，flag包含11種狀態(tài)。文中分別對(duì)這3種字符型數(shù)值進(jìn)行二進(jìn)制數(shù)值化編碼處理，最后將數(shù)據(jù)集進(jìn)行區(qū)間[0，1]歸一化操作,得到處理后的數(shù)據(jù)集。

具體過程見表1。

表1 數(shù)據(jù)集編碼

(2)數(shù)據(jù)集選擇。每個(gè)數(shù)據(jù)集隨機(jī)抽取，包含正常連接數(shù)據(jù)樣本和入侵?jǐn)?shù)據(jù)樣本，如表2所示。

表2 數(shù)據(jù)集組成

4.2 模型參數(shù)選擇實(shí)驗(yàn)分析

自編碼網(wǎng)絡(luò)的深度對(duì)特征降維有著重要影響，直接影響數(shù)據(jù)集維度和分類效果。Hinton的研究指出3層RBM網(wǎng)絡(luò)已能提取有效的特征用于分類任務(wù)[20]。

實(shí)驗(yàn)設(shè)置5種不同AN-GAFCM網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行性能對(duì)比分析。設(shè)置AN2-GAFCM、AN3-GAFCM、AN4-GAFCM、AN5-GAFCM、AN6-GAFCM的RBM網(wǎng)絡(luò)結(jié)構(gòu)為122-60-5、122-80-40-5、122-110-70-40-5、122-110-80-50-25-5和122-110-80-60-40-20-5。結(jié)果表明使用5層自編碼網(wǎng)絡(luò)結(jié)構(gòu)性能最佳。

4.3 不同分類器檢測性能對(duì)比

將AN5-GA-FCM模型與傳統(tǒng)入侵檢測模型做實(shí)驗(yàn)對(duì)比，通過常用PCA降維算法、SVM分類算法，以及神經(jīng)網(wǎng)絡(luò)中的Softmax分類算法進(jìn)行實(shí)驗(yàn)，AC(%)表示準(zhǔn)確率，TD(s)表示檢測時(shí)間，比較如表3、圖1和圖2所示。

表3 不同分類器的檢測性能對(duì)比

續(xù)表3

圖1 不同算法的正確率

圖2 不同算法的檢測時(shí)間

結(jié)果表明，文中提出的自編碼網(wǎng)絡(luò)結(jié)合遺傳算法優(yōu)化的模糊C-均值算法模型具有較高的檢測率和較低的檢測時(shí)間。應(yīng)用自編碼網(wǎng)絡(luò)降維效果優(yōu)于傳統(tǒng)PCA降維算法，使用GA-FCM算法分類在檢測時(shí)間和檢測率上優(yōu)于Softmax、SVM、FCM。

5 結(jié)束語

檢測入侵異常行為，需要檢測龐大復(fù)雜的數(shù)據(jù)流量，特征選擇的好壞直接影響檢測效果。針對(duì)網(wǎng)絡(luò)數(shù)據(jù)流量的稀疏多樣性等特點(diǎn)，將自編碼網(wǎng)絡(luò)特征降維深度學(xué)習(xí)方法用于處理入侵檢測數(shù)據(jù)方面，并提出一種改進(jìn)縮短檢測時(shí)間的優(yōu)化模糊聚類算法GA-FCM。通過分類算法和降維算法的對(duì)比，證明AN-GA-FCM算法模型具有較高的檢測率和較短的運(yùn)行時(shí)間。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡