国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于自編碼網(wǎng)絡(luò)和聚類的入侵檢測技術(shù)

2019-05-17 02:51:44康,萬
關(guān)鍵詞:降維聚類編碼

周 康,萬 良

(1.貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴州 貴陽 550025;2.貴州大學(xué) 軟件與理論研究所,貴州 貴陽 550025)

0 引 言

隨著網(wǎng)絡(luò)安全問題的層出不窮,傳統(tǒng)入侵檢測方法已經(jīng)不符合時(shí)代需要,好的入侵檢測方法應(yīng)滿足準(zhǔn)確性高、較好的適應(yīng)性和檢測的實(shí)時(shí)性要求。對(duì)于傳統(tǒng)的入侵檢測方法,前人做了較多研究。例如,Denatious等[1]提出了利用聚類、關(guān)聯(lián)規(guī)則等聯(lián)合數(shù)據(jù)挖掘方法進(jìn)行入侵檢測;Chitrakar等[2]組合應(yīng)用鄰近聚類算法和SVM算法來構(gòu)建異常檢測模型;Srinoy等[3]將隸屬度綜合運(yùn)用粗糙模糊聚類方法實(shí)現(xiàn)數(shù)據(jù)容量的約簡,實(shí)現(xiàn)特征降維等。這些方法都在入侵檢測領(lǐng)域取得了突破性進(jìn)展,而模糊C均值算法(fuzzy C-means,F(xiàn)CM)最早由Bezdek[4]于1984年提出,使用歐氏距離貼近的模糊隸屬度矩陣方法表達(dá)分類。Wang[5]和Lee[6]等將FCM方法應(yīng)用于IDS中,證明了FCM具有良好的分類性能。

特征空間維數(shù)過多是導(dǎo)致IDS檢測速率低的主要原因。黃思慧[7]提出了一種PCA-ELM的入侵檢測算法,在時(shí)間上和檢測正確率上都有所改進(jìn);Kuang等[8]提出混合的KPCA方法與遺傳算法(GA)、單獨(dú)的KPCA方法對(duì)高維數(shù)據(jù)降維后代入分類器進(jìn)行入侵識(shí)別;EDL Hoz[9]將主成分分析(PCA)降維和自組織映射(SOM)聚類進(jìn)行入侵檢測,是一種常規(guī)高效的做法。

前人的研究都在輸入特征維度上進(jìn)行降維,提高了檢測時(shí)間,但在特征維度空間呈現(xiàn)非線性特征時(shí),無法較大地提高檢測速度。因此文中旨在保證高分類精度的條件下,最大限度地學(xué)習(xí)到低維特征空間的高維數(shù)據(jù)表示,以提高檢測速度。

文中將自編碼網(wǎng)絡(luò)(autoencoder network,AN)[10]應(yīng)用于入侵檢測領(lǐng)域,使用遺傳算法優(yōu)化FCM算法聚類中心避免陷入局部最優(yōu),并將自編碼網(wǎng)絡(luò)降維和主成分分析降維進(jìn)行比較,以及對(duì)比FCM和SVM,softmax分類算法,證明AN-GA-FCM入侵檢測模型具有較高的檢測速率和檢測正確率。

1 深度學(xué)習(xí)模型

1.1 自編碼網(wǎng)絡(luò)

(1)

其中,f(X)為sigmoid激活函數(shù)函數(shù)。

該網(wǎng)絡(luò)激活方式是隱藏層h1的輸入由上一層h0的輸出x和它的權(quán)重W乘積激活。h2的輸入同樣由h2的輸出x'和它的權(quán)重W'乘積激活,直到所有的隱藏層都被激活。

1.2 RBM神經(jīng)網(wǎng)絡(luò)

自編碼網(wǎng)絡(luò)的核心組件之一是受限玻爾茲曼機(jī)網(wǎng)絡(luò)(restricted Boltzmann machine,RBM),通過對(duì)自編碼網(wǎng)絡(luò)每兩個(gè)隱藏層進(jìn)行預(yù)訓(xùn)練得到高維空間映射到低維空間的矩陣表示。RBM包含兩層,可見層(visible layer)和隱藏層(hidden layer)。神經(jīng)元之間連接是層內(nèi)無連接,層間全連接,其所有節(jié)點(diǎn)滿足全概率分布p(v|h),即Boltzmann分布。通過使用更多的隱藏單元適應(yīng)更復(fù)雜分布,增強(qiáng)其建模能力。RBM的能量函數(shù)定義如下:

E(v,h)=-b'v-c'h-h'Wv

(2)

其中,W表示連接隱藏單元和可見單元的權(quán)重;b,c分別表示可見層和隱藏層的偏移量。

由于RBM的性質(zhì),即當(dāng)給定可見層神經(jīng)元的狀態(tài)時(shí),各隱藏層神經(jīng)元的激活條件獨(dú)立;反之當(dāng)給定隱藏層神經(jīng)元的狀態(tài)時(shí),可見層神經(jīng)元的激活也條件獨(dú)立,即:

(3)

(4)

其中,Z為歸一化因子。

訓(xùn)練的目的是使聯(lián)合概率最大,能量函數(shù)值最小。給定可見層(或隱藏層)所有神經(jīng)元狀態(tài),隱藏層(或可見層)上某個(gè)神經(jīng)單元被激活(取值為1)的概率,計(jì)算P(hk=1|v)(或P(vk=1|h))推導(dǎo)得到:

(5)

(6)

通過參數(shù)調(diào)整,從隱藏層獲得的可見層vk和原來的可見層v如果一樣,那么所獲得的隱藏層就是可見層的另一種表達(dá)。

由于可見單元和隱藏單元概率條件獨(dú)立,樣本p(x)可以通過馬爾可夫鏈?zhǔn)諗俊?/p>

1.3 Gibbs采樣

在RBM中,使用Gibbs采樣[12]作為轉(zhuǎn)換算子,樣本包含了可見單元和隱藏單元集合,但它們是條件獨(dú)立的,因此樣本p(x)可通過馬爾可夫鏈?zhǔn)諗?。在這個(gè)過程中,給定隱藏單元值同時(shí)對(duì)可見單元進(jìn)行采樣,同樣給定可見單元值同時(shí)對(duì)隱藏單元采樣。馬爾可夫鏈中的一個(gè)步驟如下:

h(n+1)~sigm(W'v(n)+c)

(7)

v(n+1)~sigm(W'h(n)+b)

(8)

其中,h(n)為馬爾可夫鏈第n步所有隱藏單元集合。當(dāng)t→∞就可以得到樣本最精確的概率值。

1.4 CD-k算法

利用Gibbs采樣和馬爾可夫鏈求概率分布最大值的方法,其迭代收斂次數(shù)無法保障,難以確定步長。對(duì)比分歧算法(contrastive divergence,CD)是Hinton提出的快速訓(xùn)練RBM的方法,并在實(shí)踐中取得了很好的效果[13]。CD算法的目的是希望p(v)≈ptrain(v),即數(shù)據(jù)分布差異性最小。兩個(gè)概率分布的差異性表示為Kullback-Leibler(KL),即:

(9)

(10)

(11)

實(shí)驗(yàn)證明,在n次迭代后,通過梯度修正參數(shù)θ,CD值必將趨近于0。

2 自編碼網(wǎng)絡(luò)的入侵檢測模型構(gòu)建

2.1 自編碼網(wǎng)絡(luò)特征提取模型構(gòu)建

文中設(shè)計(jì)的自編碼網(wǎng)絡(luò)結(jié)構(gòu)由數(shù)據(jù)輸入層、中間4層RBM隱藏層和輸出層組成[15],實(shí)現(xiàn)過程如下:

(1)預(yù)訓(xùn)練過程。通過RBM預(yù)訓(xùn)練獲得生成模型權(quán)值參數(shù),計(jì)算W和b的殘差,利用梯度下降法更新W和b,使得輸出更好地表示輸入。

(2)展開。在經(jīng)過多層RBM網(wǎng)絡(luò)預(yù)訓(xùn)練后,編碼器和解碼器使用得到的權(quán)值作為自編碼網(wǎng)絡(luò)的初始權(quán)值。將預(yù)訓(xùn)練得到的RBM網(wǎng)絡(luò)連接起來并按照自編碼網(wǎng)絡(luò)結(jié)構(gòu)展開。

(3)權(quán)值微調(diào)。按照重構(gòu)誤差最小化原則對(duì)自編碼網(wǎng)絡(luò)進(jìn)行調(diào)整,依次經(jīng)過解碼器和編碼器利用反向傳播算法[16]對(duì)整個(gè)自編碼網(wǎng)絡(luò)進(jìn)行權(quán)值微調(diào)。通過前向傳播的方法,對(duì)每一層的神經(jīng)元進(jìn)行前向傳導(dǎo)計(jì)算,利用前向傳播公式得到各層的激活值。

2.2 自編碼網(wǎng)絡(luò)訓(xùn)練過程

訓(xùn)練階段主要過程包括以下幾個(gè)步驟:

(1)輸入可見層變量H={h1,h2,…,hn}和隱藏層變量V={v1,v2,…,vn},輸出模型參數(shù)θ={W,a,b};

(2)初始化RBM網(wǎng)絡(luò)權(quán)值Wij=ai=bj=0(i,j∈Z+)和迭代次數(shù)k;

(3)將每個(gè)輸入特征變量vi賦值給v0;

(4)對(duì)所有可見單元和隱藏單元,根據(jù)式7、式8求得初始狀態(tài)和更新狀態(tài)下的聯(lián)合概率分布梯度,并代入式11來更新θ={W,a,b},即:

(二)醫(yī)療服務(wù)價(jià)格定價(jià)權(quán)限各省高度集中。定價(jià)權(quán)高度集中,全國各省的醫(yī)療服務(wù)定價(jià)權(quán)都在省一級(jí),各省所屬地市的經(jīng)濟(jì)發(fā)展水平不同、財(cái)政級(jí)次及補(bǔ)助比例不同、設(shè)備的檔次不同,使用頻次不同,各地群眾的支付能力不同、醫(yī)保的支付標(biāo)準(zhǔn)不同,用統(tǒng)一標(biāo)準(zhǔn)定價(jià),各地的適應(yīng)差異較大。醫(yī)療服務(wù)價(jià)格扭曲導(dǎo)致了醫(yī)療服務(wù)行為的偏移,醫(yī)療服務(wù)市場的價(jià)值取向出現(xiàn)問題,導(dǎo)致醫(yī)療市場混亂。所以,適應(yīng)新的衛(wèi)生體制改革需要,價(jià)格必須及時(shí)調(diào)整,才能保證醫(yī)療服務(wù)成本的補(bǔ)償機(jī)制健全,醫(yī)療服務(wù)行為的偏移得到糾正;

(12)

(13)

(14)

如果k=t,保存模型參數(shù),算法結(jié)束,如果k>t,則t=t+1,轉(zhuǎn)向步驟2。

2.3 權(quán)值微調(diào)

(15)

最后,更新每個(gè)網(wǎng)絡(luò)模型參數(shù)θij=θij+Δθij。如果k=t,則保存微調(diào)后的參數(shù),算法結(jié)束,如果k>t,t=t+1,回到步驟2。

3 GA-FCM分類器構(gòu)建

3.1 模糊C-均值聚類算法(FCM)

假設(shè)X={x1,x2,…,xn}為n維數(shù)據(jù)樣本,c(2≤c≤n)為類別數(shù),{L1,L2,…,Lc}為分類類別,U={U1,U2,…,Un}為n個(gè)樣本隸屬度矩陣。各類別的聚類中心v={v1,v2,…,vc},μk(xi)為第i個(gè)樣本對(duì)于類別Lk的隸屬度(簡寫為μik)。則目標(biāo)函數(shù)Jb的表達(dá)式為:

(16)

計(jì)算隸屬度μik和c個(gè)聚類中心{vi},分別對(duì)Jb求極值有:

(17)

(18)

其中每個(gè)樣本對(duì)于各個(gè)聚類的隸屬度和為1。使用式17、式18反復(fù)修改聚類中心和隸屬度進(jìn)行迭代,使目標(biāo)函數(shù)Jb趨于穩(wěn)定,完成各類聚類中心和各樣本對(duì)每個(gè)類的隸屬度。

3.2 遺傳算法實(shí)現(xiàn)

遺傳算法是一種全局尋優(yōu)方式,具有強(qiáng)大的空間搜索能力[18],兩者結(jié)合使用避免FCM算法陷入局部最優(yōu)。過程如下:

(2)適應(yīng)度函數(shù):按優(yōu)勝劣汰的機(jī)制,適應(yīng)度函數(shù)值越小,繁衍幾率越大。排序得到分配函數(shù):FintV=ranking(Jb)

(3)選擇算子:采用隨機(jī)遍歷抽樣(SUS)。

(4)交叉算子:采用單點(diǎn)交叉算子。

(5)變異算子:以初始概率產(chǎn)生變異基因數(shù),用隨機(jī)方法選出變異基因。如果是變異基因,那么它將進(jìn)行0,1互變。

3.3 GA-FCM算法流程

基于遺傳算法優(yōu)化的模糊C-均值聚類算法模型描述如下:

(1)初始化GA-FCM算法模型參數(shù),包括模糊C-均值算法最大迭代次數(shù)N,目標(biāo)函數(shù)的終止容限D(zhuǎn),種群個(gè)體大小sizepop,最大進(jìn)化次數(shù)MAXGEN,變異概率Pm。

(2)隨機(jī)初始化c個(gè)聚類中心,并生成初始種群Chrom,對(duì)每個(gè)聚類中心用式17計(jì)算各樣本隸屬度,以及每個(gè)個(gè)體適應(yīng)度fi,i=1,2,…,sizepop。

(3)設(shè)初始遺傳代數(shù)循環(huán)計(jì)數(shù)變量gen=0。

(5)若Gen

4 實(shí)驗(yàn)結(jié)果及分析

4.1 數(shù)據(jù)預(yù)處理

對(duì)KDD’99數(shù)據(jù)集[19]進(jìn)行預(yù)處理作為自編碼網(wǎng)絡(luò)輸入數(shù)據(jù),主要包括數(shù)值化和歸一化過程。

(1)數(shù)值化和歸一化。原始KDD’99數(shù)據(jù)集中包含了41個(gè)特征屬性,其中3個(gè)為字符型特征屬性,分別為protocol_type(網(wǎng)絡(luò)協(xié)議類型)、service(目標(biāo)主機(jī)網(wǎng)絡(luò)服務(wù)類型)、flag(連接正?;蝈e(cuò)誤的狀態(tài))。protocol_type包含3種協(xié)議類型,service包含70種服務(wù)類型,flag包含11種狀態(tài)。文中分別對(duì)這3種字符型數(shù)值進(jìn)行二進(jìn)制數(shù)值化編碼處理,最后將數(shù)據(jù)集進(jìn)行區(qū)間[0,1]歸一化操作,得到處理后的數(shù)據(jù)集。

具體過程見表1。

表1 數(shù)據(jù)集編碼

(2)數(shù)據(jù)集選擇。每個(gè)數(shù)據(jù)集隨機(jī)抽取,包含正常連接數(shù)據(jù)樣本和入侵?jǐn)?shù)據(jù)樣本,如表2所示。

表2 數(shù)據(jù)集組成

4.2 模型參數(shù)選擇實(shí)驗(yàn)分析

自編碼網(wǎng)絡(luò)的深度對(duì)特征降維有著重要影響,直接影響數(shù)據(jù)集維度和分類效果。Hinton的研究指出3層RBM網(wǎng)絡(luò)已能提取有效的特征用于分類任務(wù)[20]。

實(shí)驗(yàn)設(shè)置5種不同AN-GAFCM網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行性能對(duì)比分析。設(shè)置AN2-GAFCM、AN3-GAFCM、AN4-GAFCM、AN5-GAFCM、AN6-GAFCM的RBM網(wǎng)絡(luò)結(jié)構(gòu)為122-60-5、122-80-40-5、122-110-70-40-5、122-110-80-50-25-5和122-110-80-60-40-20-5。結(jié)果表明使用5層自編碼網(wǎng)絡(luò)結(jié)構(gòu)性能最佳。

4.3 不同分類器檢測性能對(duì)比

將AN5-GA-FCM模型與傳統(tǒng)入侵檢測模型做實(shí)驗(yàn)對(duì)比,通過常用PCA降維算法、SVM分類算法,以及神經(jīng)網(wǎng)絡(luò)中的Softmax分類算法進(jìn)行實(shí)驗(yàn),AC(%)表示準(zhǔn)確率,TD(s)表示檢測時(shí)間,比較如表3、圖1和圖2所示。

表3 不同分類器的檢測性能對(duì)比

續(xù)表3

圖1 不同算法的正確率

圖2 不同算法的檢測時(shí)間

結(jié)果表明,文中提出的自編碼網(wǎng)絡(luò)結(jié)合遺傳算法優(yōu)化的模糊C-均值算法模型具有較高的檢測率和較低的檢測時(shí)間。應(yīng)用自編碼網(wǎng)絡(luò)降維效果優(yōu)于傳統(tǒng)PCA降維算法,使用GA-FCM算法分類在檢測時(shí)間和檢測率上優(yōu)于Softmax、SVM、FCM。

5 結(jié)束語

檢測入侵異常行為,需要檢測龐大復(fù)雜的數(shù)據(jù)流量,特征選擇的好壞直接影響檢測效果。針對(duì)網(wǎng)絡(luò)數(shù)據(jù)流量的稀疏多樣性等特點(diǎn),將自編碼網(wǎng)絡(luò)特征降維深度學(xué)習(xí)方法用于處理入侵檢測數(shù)據(jù)方面,并提出一種改進(jìn)縮短檢測時(shí)間的優(yōu)化模糊聚類算法GA-FCM。通過分類算法和降維算法的對(duì)比,證明AN-GA-FCM算法模型具有較高的檢測率和較短的運(yùn)行時(shí)間。

猜你喜歡
降維聚類編碼
Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達(dá)圖像配準(zhǔn)
《全元詩》未編碼疑難字考辨十五則
降維打擊
海峽姐妹(2019年12期)2020-01-14 03:24:40
子帶編碼在圖像壓縮編碼中的應(yīng)用
電子制作(2019年22期)2020-01-14 03:16:24
Genome and healthcare
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
基于改進(jìn)的遺傳算法的模糊聚類算法
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
拋物化Navier-Stokes方程的降維仿真模型
武宣县| 昭通市| 筠连县| 武定县| 武宣县| 萝北县| 将乐县| 进贤县| 孟连| 卓尼县| 寿光市| 格尔木市| 本溪市| 台南市| 凭祥市| 荔浦县| 平武县| 安化县| 华蓥市| 苍溪县| 廉江市| 衢州市| 南和县| 营山县| 大庆市| 新源县| 万宁市| 墨江| 千阳县| 绥化市| 宁阳县| 温宿县| 福安市| 城步| 阿城市| 新乡县| 当雄县| 阜康市| 镇安县| 眉山市| 高密市|