国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

改進(jìn)的遺傳模糊聚類算法及其在入侵檢測中的應(yīng)用

2013-08-21 03:32李新宇
關(guān)鍵詞:入侵檢測遺傳算法

(湖南第一師范學(xué)院 外語系外語教學(xué)綜合實驗中心,長沙 410205)

摘 要:本文提出了基于改進(jìn)遺傳算法的特征加權(quán)模糊聚類算法(IG-WFCM),通過對樣本數(shù)據(jù)集進(jìn)行聚類劃分,以此來確定數(shù)據(jù)所屬的類別。并通過入侵檢測仿真實驗對該算法進(jìn)行了測試,結(jié)果表明本文的算法是可行的,在一定程度上提高了入侵檢測算法的性能和效率。

關(guān)鍵詞:遺傳算法;模糊聚類算法;入侵檢測

中圖分類號:TP393.08 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9599 (2013) 09-0000-02

模糊C-均值聚類是利用模糊理論進(jìn)行數(shù)據(jù)分析的經(jīng)典聚類算法,由于其能比較客觀地反映現(xiàn)實模型,所以在數(shù)據(jù)挖掘、入侵檢測等很多領(lǐng)域都獲得了有效的應(yīng)用[1,2]。遺傳算法(GA)是一種模擬自然進(jìn)化過程來進(jìn)行查找最優(yōu)解的高效全局優(yōu)化搜索算法[3],應(yīng)用非常廣泛。本文結(jié)合這兩種算法的特點(diǎn),提出了一種基于遺傳算法的模糊聚類算法,并通過仿真實驗對其在入侵檢測中的表現(xiàn)進(jìn)行研究。

1 模糊C-均值聚類算法基本原理

模糊C-均值聚類(FCM)算法基本原理:通過優(yōu)化目標(biāo)函數(shù)計算每個樣本點(diǎn)對所有類別中心的隸屬度,從而自動將樣本分成c個模糊類別。

設(shè)樣本集,X={X1,X2,…,Xn}則特征向量樣本,Xi=(Xi1,Xi2,…,Xim),xik為樣本xi的第k個屬性值。樣本集X的c個模糊子類別為X1,X2,…XC,V=(V1,V2,…VC),Vj為類別Xj的聚類中心,隸屬度矩陣U=(uij),xi對于Xj的隸屬關(guān)系為uij。

(1-1)

(1-2)

Jm為目標(biāo)函數(shù),表示樣本到類別中心的距離平方和,dik=ㄧㄧXi-Vkㄧㄧ即樣本xi到第k個類別中心Vk之間的歐式距離,模糊加權(quán)指數(shù)m∈(1,∞),其用來控制隸屬度矩陣U的模糊程度,根據(jù)大量實驗可知,m值一般取[1.5,2.5]。利用拉格朗日乘數(shù)法,結(jié)合條件∑ck=1Uik=1,Uik∈[0,1],i=1,2,∧,n,k=1,2,..,c

可得:

Uik=[∑cj=1(dik/dij)2/(m-1)]-1 (1-3)

Vk=∑ni=1(Uik)mxi/∑ni=1(Uik)m (1-4)

設(shè)置終止條件 ,通過式(1.3)和式(1.4)迭代計算,使目標(biāo)函數(shù)Jm趨向最小,達(dá)到收斂的目的。

2 屬性處理及初始化聚類中心

鑒于網(wǎng)絡(luò)數(shù)據(jù)屬性值之間的度量單位存在較大差異,為了減少對聚類結(jié)果的影響,需要對數(shù)據(jù)的屬性進(jìn)行預(yù)處理[5]。若X={x1,x2,...,xn}為樣本集,則容量為n,維數(shù)為m,Xif表示第i個樣本第f個屬性值。xi包含r個連續(xù)型屬性C1,C2,…,Cr和s個離散型屬性T1,T2,…,Ts

本文對于離散型屬性值采用基于不同狀態(tài)的實數(shù)編碼方式。N(tik)、N(tjk)分別表示屬性Tk在樣本集X中取值為tik和tjk的數(shù)量,dt(i,j)即樣本xi和xj之間的離散型屬性距離。

dt(i,j)=∑sk=1(N(tik))/N(tik)N(tjk)*λ(tik,tjk) (1-5)

λ(tik,tjk)={0(tik=tjk;)1(tik≠tjk) (1-6)

式(1-7)中Xif即為標(biāo)準(zhǔn)化后的連續(xù)型屬性值,設(shè)R1,R2,…,Rr分別是連續(xù)型屬性C1,C2,…,Cr的取值范圍。mf=1/n∑ni=1xif,sf=1/n∑ni=1(Xif-mf)。

xif=xif-mf/sf (1-7)

dc(i,j)=ω1(x`i1-x`j1)2+ω2(x`i2-x`j2)2+∧+ωr(x`ir-x`jr)2 (1-8)

ωf=Rf/∑rk=1Rk,對連續(xù)型屬性距離值dc(i,j)進(jìn)行歸一化處理如下:

d`c(i,j)=dc(i,j)/max{dc(i,j)} (1-9)

最后,樣本xi和xj的混合屬性距離即為DH(i,j)。

DH(i,j)=r/(r+s)*d`c(i,j)+s/(r+s)*dt(i,j) (1-10)

本文初始化聚類中心的確定采取文獻(xiàn)5的方法,預(yù)先不設(shè)定聚類數(shù)目C,而是通過啟發(fā)式聚類來自動確定聚類數(shù)目,從而劃分聚類類別。網(wǎng)絡(luò)數(shù)據(jù)樣本集第一個聚類中心的計算可以采用屬性算術(shù)平均值和屬性最高頻率取值的方法[5]。

令第一個聚類中心V1的連續(xù)型屬性向量A=(a1,a2,…,ak,…,ar),離散型屬性向量B=(b1,b2,...,bk,…,bs)。ak為連續(xù)型屬性Ck的算術(shù)平均值,bk為離散型屬性Tk的最高頻率值。

ak=1/n∑nj=1xjk, k=1,2,…,r (1-11)

v1=A+B=(a1,a2,∧,ar,b1,b2,∧,bs) (1-12)

3 IG-WFCM算法在入侵檢測中的應(yīng)用

本文針對模糊聚類算法的特點(diǎn),提出了基于改進(jìn)遺傳算法的特征加權(quán)模糊聚類(IG-WFCM)算法,并通過在入侵檢測系統(tǒng)進(jìn)行測試,對訓(xùn)練數(shù)據(jù)集劃分聚類,計算待測數(shù)據(jù)與聚類中心Vi的最小距離di,若di大于聚類寬度閾值,則為異常數(shù)據(jù)。

Step1.對輸入的訓(xùn)練數(shù)據(jù)集初始化;將原始樣本集劃分成Cmax-1種不同的聚類,聚類數(shù)目為Ck,并找出對應(yīng)的Ck個初始聚類中心;

Step2.對Ck個初始聚類中心進(jìn)行染色體編碼,形成初始種群。

Step3.針對種群中的個體進(jìn)行FCM聚類運(yùn)算,計算UCk和VCk,由此迭代,最后得出目標(biāo)函數(shù)Jm;

Step4.對第t-1代種群進(jìn)行選擇操作,形成種群P'(t-1);對于種群P'(t-1)進(jìn)行交叉操作,形成種群P''(t-1);對種群P''(t-1)的個體進(jìn)行變異操作,形成第t代種群P(t)。

Step5.根據(jù)其聚類中心矩陣計算出群體中個體的隸屬度矩陣,再計算對應(yīng)的目標(biāo)函數(shù)Jm,求出目標(biāo)函數(shù)的平均值Jm=1/n∑nk=1Jm(k),若t=0,則t=t+1且返回Step3,如果t≥Gmax或者︱Jm(t)-Jm(t-1)︳<ε,則轉(zhuǎn)下一步Step6,否則t=t+1,返回Step3繼續(xù)迭代。

Step6.選取最優(yōu)個體,并對其進(jìn)行聚類的評價。

Step7.如果Ck

Step8.利用評價函數(shù)選取最優(yōu)聚類數(shù),輸出訓(xùn)練數(shù)據(jù)集的最優(yōu)聚類結(jié)果。

Step9.計算聚類的寬度閾值,對測試數(shù)據(jù)進(jìn)行檢測。

4 仿真實驗

4.1 樣本數(shù)據(jù)集的選取

本文實驗選用的樣本數(shù)據(jù)是KDD CUP 1999入侵?jǐn)?shù)據(jù)集中的數(shù)據(jù),它是目前入侵檢測領(lǐng)域權(quán)威的測試數(shù)據(jù)[6]。數(shù)據(jù)集中的入侵類型可分為:R2L、DoS、U2R、Probing四類。本文訓(xùn)練數(shù)據(jù)集中的數(shù)據(jù)皆為正常數(shù)據(jù),測試數(shù)據(jù)集通過隨機(jī)無回放的方式采樣得到。本文分別采用基于IG-WFCM算法與基于傳統(tǒng)FCM算法的方法對表1中的5個測試數(shù)據(jù)集進(jìn)行了仿真對比檢測實驗。

表1 測試數(shù)據(jù)集

4.2 實驗結(jié)果

本文模糊加權(quán)系數(shù)m設(shè)置為2,F(xiàn)CM的目標(biāo)函數(shù)收斂誤差為10-5,遺傳算法種群規(guī)模N=30,遺傳迭代終止閾值為10-4,最大遺傳代數(shù)Gmax=100,交叉概率Pc=0.8,變異概率Pm=0.01。圖1為基于IG-WFCM算法和基于FCM算法的檢測率(detection rate)和誤警率(false Positive rate)的對比曲線圖。

圖1 算法檢測率和誤警率對比曲線

通過實驗表明本文的IG-WFCM算法具有可行性,其平均檢測率達(dá)到80.1%,平均誤警率保持為1.605%左右,而FCM算法平均檢測率為56.8%,平均誤警率為2.32%。

5 結(jié)束語

本文提出了基于改進(jìn)遺傳算法的特征加權(quán)模糊聚類算法(IG-WFCM),通過仿真實驗表明,基于IG-WFCM的入侵檢測算法能夠有效地降低誤警率,提高檢測率,對入侵檢測系統(tǒng)性能的提高有一定的意義。

參考文獻(xiàn):

[1]戴文華.基于遺傳算法的文本分類及聚類研究[M].北京:科學(xué)出版社,2008.

[2]周世兵,徐振源,唐旭清.新的K-均值算法最佳聚類數(shù)確定方法[J].計算機(jī)工程與應(yīng)用,2010,46(16):27-31.

[3]Maulik U,Bandyopadhyay S.Genetic algorithm-based clustering techn-ique[J].Pattern Recognition.2000,33(9):1455-1465.

[4]黃敏明,林柏鋼.基于遺傳算法的模糊聚類入侵檢測研究[J].通信學(xué)報,2009,30(11):140-145.

[5]周鐵軍,李新宇.基于加權(quán)特征的無監(jiān)督模糊聚類入侵檢測研究[J],湘潭大學(xué)自然科學(xué)學(xué)報,2011,33:01,98-102.

[6]胡昌振.網(wǎng)絡(luò)入侵檢測原理與技術(shù)[M].北京:北京理工大學(xué)出版社,2006.

作者簡介:李新宇(1984-),男,湖南益陽人,湖南第一師范學(xué)院助教,碩士,主要從事網(wǎng)絡(luò)與信息安全,數(shù)字圖像處理研究。

猜你喜歡
入侵檢測遺傳算法
遺傳算法對CMAC與PID并行勵磁控制的優(yōu)化
基于自適應(yīng)遺傳算法的CSAMT一維反演
一種基于遺傳算法的聚類分析方法在DNA序列比較中的應(yīng)用
基于遺傳算法和LS-SVM的財務(wù)危機(jī)預(yù)測
多Agent的創(chuàng)新網(wǎng)絡(luò)入侵檢測方法仿真研究
協(xié)同進(jìn)化在遺傳算法中的應(yīng)用研究
基于改進(jìn)的遺傳算法的模糊聚類算法