国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于異類數(shù)據(jù)挖掘的網(wǎng)絡(luò)潛在威脅檢測方法研究

2020-07-31 01:52白玲玲
關(guān)鍵詞:異類信息熵數(shù)據(jù)挖掘

白玲玲

(安徽省中共阜陽市黨校 教務(wù)處,安徽 阜陽 236000)

0 引言

網(wǎng)絡(luò)已經(jīng)深入千家萬戶,隨著網(wǎng)絡(luò)的不斷發(fā)展,越來越多的不法分子通過攻擊網(wǎng)絡(luò)、傳播網(wǎng)絡(luò)病毒等不正當(dāng)?shù)膼毫有袨閬碇\取利益。網(wǎng)絡(luò)時刻面臨各種各樣的威脅,相比網(wǎng)絡(luò)入侵、病毒入侵等可以實時監(jiān)測并使用相關(guān)技術(shù)預(yù)防的威脅行為,散布不法信息、非法獲取數(shù)據(jù)等行為帶來的網(wǎng)絡(luò)潛在威脅,是近年來網(wǎng)絡(luò)安全研究領(lǐng)域的重點研究方向[1]。

傳統(tǒng)的網(wǎng)絡(luò)威脅檢測方法只能從大量的數(shù)據(jù)流中篩選出異常數(shù)據(jù),篩選過程中需要對實驗數(shù)據(jù)進(jìn)行迭代檢測,不僅影響檢測效率,還會導(dǎo)致網(wǎng)絡(luò)潛在威脅檢測精度不高。數(shù)據(jù)挖掘能夠按照設(shè)定的標(biāo)準(zhǔn),應(yīng)用算法快速地搜索大量數(shù)據(jù)中隱藏的信息[2],還能夠?qū)ν诰蛐畔⑦M(jìn)行自動化分析,做出歸納性的總結(jié),找出數(shù)據(jù)間的潛在聯(lián)系,提高數(shù)據(jù)搜索的效率。網(wǎng)絡(luò)的快速發(fā)展使得網(wǎng)絡(luò)潛在威脅數(shù)據(jù)不再是以前的單一類型,異類數(shù)據(jù)挖掘是在原有的數(shù)據(jù)挖掘基礎(chǔ)上提出的。異類數(shù)據(jù)挖掘算法能夠針對不同類別數(shù)據(jù)同時進(jìn)行挖掘,提高了數(shù)據(jù)搜索的效率。

為此,本文引入了異類挖掘技術(shù),對網(wǎng)絡(luò)潛在威脅進(jìn)行檢測。為驗證本文方法具體效果,設(shè)計對比實驗,得到了與預(yù)測符合的結(jié)果,證明了本文方法的有效性。

1 基于異類數(shù)據(jù)挖掘的網(wǎng)絡(luò)潛在威脅檢測方法

1.1 潛在威脅數(shù)據(jù)預(yù)處理及映射

從龐大的網(wǎng)絡(luò)中,使用異類數(shù)據(jù)挖掘獲取了網(wǎng)絡(luò)潛在威脅的相關(guān)數(shù)據(jù)。這些數(shù)據(jù)種類不同,采集的數(shù)據(jù)中可能包含大量的重復(fù)數(shù)據(jù)以及一些與網(wǎng)絡(luò)潛在威脅無關(guān)的正常數(shù)據(jù)[3]。因此,在檢測網(wǎng)絡(luò)潛在威脅之前,需要對異類數(shù)據(jù)挖掘獲取的威脅數(shù)據(jù)進(jìn)行預(yù)處理。根據(jù)數(shù)據(jù)集合中數(shù)據(jù)量的大小,設(shè)定數(shù)據(jù)過濾器的參數(shù),使用數(shù)據(jù)過濾器對挖掘的網(wǎng)絡(luò)潛在威脅數(shù)據(jù)進(jìn)行過濾,過濾出網(wǎng)絡(luò)潛在威脅中的冗余數(shù)據(jù)。數(shù)據(jù)過濾后使用聚類算法對數(shù)據(jù)屬性進(jìn)行聚類,以此實現(xiàn)將網(wǎng)絡(luò)潛在威脅數(shù)據(jù)和網(wǎng)絡(luò)正常運行數(shù)據(jù)分離[4]。數(shù)據(jù)分離流程圖如圖1所示。

圖1 數(shù)據(jù)分離過程Fig.1 Data separation process

從過濾器篩選出的數(shù)據(jù)集合中隨機抽取n個完全不相似的數(shù)據(jù),將其作為聚類算法的聚類中心,將數(shù)據(jù)集合中的數(shù)據(jù)依次與n個聚類中心做相似度比較。將數(shù)據(jù)歸至與其相似度較大的聚類中心所在簇中。相似度就是兩個數(shù)據(jù)間的距離,具體計算公式如下:

(1)

式中,p為相似度計算的參數(shù),xi為聚類時的聚類中心數(shù)據(jù),yi為待聚類處理的數(shù)據(jù)。sim(x,y)數(shù)值越小,說明兩個數(shù)據(jù)越相似[5]。由于數(shù)據(jù)聚類時選取的聚類中心是隨機抽取的,生成數(shù)據(jù)簇后,計算每一簇的均值來重新選取數(shù)據(jù)聚類中心。重復(fù)迭代選取聚類中心,直至出現(xiàn)最優(yōu)聚類結(jié)果。計算所有聚類中心數(shù)據(jù)之間的距離,將與其它數(shù)據(jù)相似度最低的聚類中心數(shù)據(jù)所在簇分離。被分離出的數(shù)據(jù)集合即為使用異類數(shù)據(jù)挖掘時,誤采的網(wǎng)絡(luò)運行正常數(shù)據(jù)。

對數(shù)據(jù)集合聚類后,為了便于后續(xù)利用數(shù)據(jù)實現(xiàn)網(wǎng)絡(luò)潛在威脅檢測,將數(shù)據(jù)歸一化。若聚類處理后的數(shù)據(jù)集合為X,X={x1,x2,…,xm},按照下式轉(zhuǎn)換為[0,1]區(qū)間上的數(shù)值:

(2)

式中,xmin為數(shù)據(jù)集合中的最小數(shù)值,xmax為數(shù)據(jù)集合中的最大數(shù)值,x′為歸一化處理后的數(shù)據(jù)[6]。數(shù)據(jù)歸一化處理后,將數(shù)據(jù)按照聚類中心形成對應(yīng)的數(shù)據(jù)集合。為便于對網(wǎng)絡(luò)潛在威脅檢測,將數(shù)據(jù)集合按照圖2所示的數(shù)據(jù)映射規(guī)則,映射到網(wǎng)絡(luò)潛在威脅檢測空間中。

圖2 數(shù)據(jù)映射規(guī)則Fig.2 Data mapping rules

由于網(wǎng)絡(luò)潛在威脅種類過多,在檢測空間中生成網(wǎng)絡(luò)潛在威脅森林,使預(yù)處理后的數(shù)據(jù)映射到對應(yīng)威脅樹的節(jié)點上。

1.2 建立網(wǎng)絡(luò)潛在威脅森林

為更好量化處理大規(guī)模的網(wǎng)絡(luò)潛在威脅,建立網(wǎng)絡(luò)潛在威脅森林。將網(wǎng)絡(luò)威脅數(shù)據(jù)映射至網(wǎng)絡(luò)威脅樹的節(jié)點上,多個威脅樹組成威脅森林。為避免因異類數(shù)據(jù)挖掘的網(wǎng)絡(luò)威脅潛在數(shù)據(jù)過多,導(dǎo)致威脅樹的數(shù)目隨之增加,使得處理、檢測網(wǎng)絡(luò)潛在威脅的資源消耗過多,建立如圖3所示的多層次網(wǎng)絡(luò)潛在威脅樹。

圖3 網(wǎng)絡(luò)潛在威脅樹關(guān)系示意圖Fig.3 Network potential threat tree relationship diagram

上圖中,網(wǎng)絡(luò)潛在威脅樹T1被威脅樹T2完全覆蓋后,威脅樹T1成為威脅樹T2的一個子樹。同時,威脅樹T2與威脅樹T3之間只有兩個節(jié)點重疊,說明威脅樹T2與威脅樹T3是部分重疊的關(guān)系。按照上圖中的關(guān)系組成威脅森林后,在實際的網(wǎng)絡(luò)潛在威脅檢測時會出現(xiàn)較高的數(shù)據(jù)冗余,從而導(dǎo)致檢測效率低下[7]。因此,利用潛在威脅樹之間存在重疊的關(guān)系,將威脅樹合并如下圖的形式,生成威脅森林。

圖4 威脅森林示意圖Fig.4 Illustration of threat forest

如上圖所示的結(jié)構(gòu)能夠節(jié)省存儲空間,可以描述多種網(wǎng)絡(luò)潛在威脅行為。建立這種網(wǎng)絡(luò)潛在威脅森林,在生成一個根節(jié)點后,可以擁有多個子節(jié)點,這些子節(jié)點每一個都代表不同的網(wǎng)絡(luò)潛在威脅行為或者狀態(tài)[8]。每一子節(jié)點下方可以再次分出多個子節(jié)點,將相同類型的網(wǎng)絡(luò)潛在威脅映射至子節(jié)點上。如此,能夠獲得不同網(wǎng)絡(luò)潛在威脅序列中出現(xiàn)相同的威脅狀態(tài)。若異類數(shù)據(jù)挖掘搜索到的網(wǎng)絡(luò)潛在威脅數(shù)據(jù)過多,可以增加威脅樹的層次,不僅減少了逐層描述網(wǎng)絡(luò)威脅需要生成使用的數(shù)據(jù)存儲節(jié)點,還在保證網(wǎng)絡(luò)威脅描述完整效果的前提下,節(jié)省了運行基于異類數(shù)據(jù)挖掘的網(wǎng)絡(luò)潛在威脅檢測方法的存儲空間。

為生成上述的威脅森林,將2.1處理后的網(wǎng)絡(luò)潛在威脅數(shù)據(jù)分割成由若干個威脅步驟連接組成的序列,每一個威脅步驟之間都存在一定的因果關(guān)系[9]。威脅森林中每一樹上的節(jié)點根據(jù)這種因果關(guān)系相互連接,并將異類數(shù)據(jù)挖掘的威脅行為分割、組成和轉(zhuǎn)化。之后在連接關(guān)系的基礎(chǔ)上,將生成的威脅樹集中間的冗余,即重疊節(jié)點部分去掉,生成威脅森林。

生成威脅森林后,根據(jù)最小子樹的生成原則,威脅森林會在網(wǎng)絡(luò)潛在威脅匹配時,解析再聚合,生成網(wǎng)絡(luò)潛在威脅的聚合集合[10]。之后再對聚合集合處理,以實現(xiàn)對網(wǎng)絡(luò)潛在威脅的檢測。

1.3 網(wǎng)絡(luò)潛在威脅匹配

將威脅森林解析再生成的數(shù)據(jù)集合進(jìn)行處理,根據(jù)網(wǎng)絡(luò)潛在威脅的特征元素,生成威脅匹配矩陣。

(3)

公式(3)中,a、b分別表示網(wǎng)絡(luò)潛在威脅的特征元素,max{|a|,|b|}表示取特征元素a、b之中字符較長的字符長度[11]。由此定義威脅匹配矩陣如下:

(4)

公式(4)中,Svu為匹配元素特征,并且Svu滿足Svu=sim(ev,eu)。建立網(wǎng)絡(luò)潛在威脅匹配矩陣后,使用網(wǎng)絡(luò)匹配算法,實現(xiàn)對網(wǎng)絡(luò)潛在威脅的檢測[12]。

(5)

公式(5)中,wip表示節(jié)點在匹配模版圖中節(jié)點i關(guān)聯(lián)的屬性,wjp在待匹配的網(wǎng)絡(luò)潛在威脅數(shù)據(jù)圖中節(jié)點j關(guān)聯(lián)的屬性,h和p分別為節(jié)點在模板圖和待匹配的網(wǎng)絡(luò)潛在威脅數(shù)據(jù)圖中關(guān)聯(lián)屬性的數(shù)目。當(dāng)圖中的拓?fù)潢P(guān)系相同并且語義近似時,判定為相似性值最高。

由此,可以分析出圖匹配就是將模板圖中的某一節(jié)點與待匹配的網(wǎng)絡(luò)潛在威脅數(shù)據(jù)圖中某一節(jié)點匹配。具體匹配算法的執(zhí)行步驟如圖5所示。

圖5 匹配算法的執(zhí)行步驟Fig.5 Steps of the matching algorithm

圖6 根節(jié)點匹配對圖Fig.6 Pair graph of Root node matching

生成匹配對之后,計算鄰居根節(jié)點分值。分值越高的根節(jié)點越先匹配。當(dāng)所有匹配模板圖中的節(jié)點都匹配完成后,輸出原待匹配圖中已被匹配的節(jié)點。將節(jié)點上的數(shù)據(jù)經(jīng)過網(wǎng)絡(luò)威脅森林,輸出對應(yīng)網(wǎng)絡(luò)潛在威脅數(shù)據(jù)。至此,完成了基于異類數(shù)據(jù)挖掘的網(wǎng)絡(luò)潛在威脅檢測方法的設(shè)計。

2 方法驗證

本文設(shè)計了基于異類數(shù)據(jù)挖掘的網(wǎng)絡(luò)潛在威脅檢測方法,為驗證該檢測方法的性能,選擇仿真實驗。通過實驗測試,驗證本文設(shè)計的檢測方法具有一定的優(yōu)越性。

2.1 驗證準(zhǔn)備

實驗采用對比實驗的方式,實驗的參考組為基于序列分析的網(wǎng)絡(luò)潛在威脅檢測方法,測試組為本文設(shè)計的基于異類數(shù)據(jù)挖掘的網(wǎng)絡(luò)潛在威脅檢測方法。選用DARPA2000數(shù)據(jù)集合作為測試集合。數(shù)據(jù)集合放置在由25臺主機拓?fù)溥B接組成的模擬網(wǎng)絡(luò)環(huán)境中。實驗對比指標(biāo)為誤測率,即兩個檢測方法檢測的網(wǎng)絡(luò)威脅行為事件中被誤判為網(wǎng)絡(luò)威脅的網(wǎng)絡(luò)正常行為事件的總占比。嚴(yán)格按照驗證步驟,完成實驗驗證,得出相關(guān)結(jié)論。

2.2 實驗指標(biāo)

2.2.1 信息熵對比

數(shù)據(jù)冗余去除效果能夠影響網(wǎng)絡(luò)潛在威脅檢測效率。因此,需要對數(shù)據(jù)冗余去除效果進(jìn)行檢驗。信息熵能夠表述網(wǎng)絡(luò)數(shù)據(jù)的信息量,檢測去冗余處理后的網(wǎng)絡(luò)數(shù)據(jù)的信息熵可以獲得數(shù)據(jù)冗余去除情況,信息熵越小,檢測所用的時間也就越短,效率越高。反之,信息熵越大,檢測用時就會越長,檢測效率也就越低。

為此,本文通過檢測出不同方法下的網(wǎng)絡(luò)數(shù)據(jù)信息熵情況來體現(xiàn)數(shù)據(jù)冗余去除效果。信息熵計算公式為:

H(x)=-∑P(xi)log(2,P(xi)),i=1,2,3,…,n

(6)

其中,P(x)表示輸出概率函數(shù),x隨機變量,i表示時間。

2.2.2 潛在威脅數(shù)據(jù)歸一化對比

在上述基礎(chǔ)上對去除冗余數(shù)據(jù)后的潛在威脅數(shù)據(jù)進(jìn)行歸一化處理。歸一化結(jié)果越接近實際值,網(wǎng)絡(luò)潛在威脅的檢測精準(zhǔn)度越高;反之,檢測精度也就越低。

2.2.3 誤測率

誤測率能夠直接體現(xiàn)檢測準(zhǔn)確性。誤測率越低,說明網(wǎng)絡(luò)潛在威脅檢測準(zhǔn)確率越準(zhǔn)確;反之,檢測結(jié)果越差。

2.3 驗證結(jié)果

2.3.1 信息熵對比

為了驗證不同方法的去冗余效果,對基于異類數(shù)據(jù)挖掘的方法、基于ACK序號步長的方法以及基于IPv6的方法進(jìn)行信息熵計算,實驗結(jié)果如下所示。

根據(jù)圖7可知,用不同的方法對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行處理,獲得的信息熵不同。當(dāng)時間為0.5 s時,基于IPv6的方法信息熵為0.04,基于ACK序號步長的方法信息熵僅為0.12,而基于異類數(shù)據(jù)挖掘的方法(即本文方法)的信息熵僅為0.01,信息熵最小,也就是說信息量最低,冗余數(shù)據(jù)的去除效果也就越好。當(dāng)時間增加到5 s時,網(wǎng)絡(luò)信息量隨之增大,三種方法的信息熵都會增大,但兩種傳統(tǒng)方法的信息熵明顯超過0.60,而本文方法的信息熵僅增加到0.06,不足傳統(tǒng)方法的1/10。這說明用本文方法能夠在大量數(shù)據(jù)中提取到有效信息,冗余去除率最佳,能夠有效提升網(wǎng)絡(luò)潛在威脅檢測效率。

2.3.2 潛在威脅數(shù)據(jù)歸一化結(jié)果對比

為了驗證本文方法的網(wǎng)絡(luò)潛在威脅數(shù)據(jù)檢測精度,以基于ACK序號步長的網(wǎng)絡(luò)潛在威脅檢測方法(以下簡稱為傳統(tǒng)方法)與本文方法為例,獲得數(shù)據(jù)歸一化結(jié)果,如圖8所示。

圖8 不同方法下數(shù)據(jù)歸一化結(jié)果Fig.8 Data normalization results under different methods

分析圖8,對比兩種方法下的數(shù)據(jù)歸一化結(jié)果。在2.0 s、3.0 s、4.0 s以及5.0 s下,分別對比此時實驗歸一化值與實際值,明顯本文方法與實際結(jié)果更加接近,而傳統(tǒng)方法歸一化結(jié)果與實際結(jié)果不符??傮w來看,傳統(tǒng)方法與實際結(jié)果偏差較大,本文方法能夠獲得與實際結(jié)果基本一致的歸一化值。這是因為本文方法通過構(gòu)建網(wǎng)絡(luò)潛在威脅樹,將檢測結(jié)果進(jìn)行了潛在威脅匹配,獲得了較為精準(zhǔn)的檢測結(jié)果。

2.3.3 誤測率對比

將實驗數(shù)據(jù)隨機均勻分為10組,10組數(shù)據(jù)組成數(shù)據(jù)子集,每一子集中都包含不同比例的網(wǎng)絡(luò)潛在威脅數(shù)據(jù)記錄數(shù)據(jù)。將歸一化處理后的數(shù)據(jù)輸入至實驗驗證的模擬網(wǎng)絡(luò)中,獲得不同檢測方法下的檢測誤測率并記錄。對實驗數(shù)據(jù)分析,完成實驗驗證。實驗驗證結(jié)果如下表所示。

表1 檢測方法誤測率Table 1 Detection method error rate

分析表1中的數(shù)據(jù),本文方法的誤測率整體低于傳統(tǒng)方法的誤測率。在進(jìn)行第4、7、9組數(shù)據(jù)子集的檢測時,本文方法的誤測率僅為0.01%,文獻(xiàn)[2]方法的誤檢率最低為0.32%,文獻(xiàn)[4]方法的誤檢率最低為0.37%,均遠(yuǎn)遠(yuǎn)超過本文方法。綜合分析上表可知,本文方法誤測率最高為0.05%,不超過0.1%,說明本文方法能夠保證連續(xù)高精度的檢測。計算兩個檢測方法平均誤測率,本文方法的平均誤測率為0.028%,文獻(xiàn)[2]方法的平均誤測率為0.416%,文獻(xiàn)[4]方法的平均誤測率為0.385%,綜上所述,本文設(shè)計基于異類數(shù)據(jù)挖掘的網(wǎng)絡(luò)潛在威脅檢測方法的誤測率更低,精準(zhǔn)度更高。

3 結(jié)束語

網(wǎng)絡(luò)的廣泛應(yīng)用使其面臨眾多威脅,為此本文研究了基于異類數(shù)據(jù)挖掘的網(wǎng)絡(luò)潛在威脅檢測方法。該方法利用異類數(shù)據(jù)挖掘技術(shù),獲取網(wǎng)絡(luò)潛在威脅數(shù)據(jù),經(jīng)過一系列的處理,最終實現(xiàn)對網(wǎng)絡(luò)潛在威脅的檢測。通過與傳統(tǒng)檢測技術(shù)的對比實驗,證明了本文設(shè)計的基于異類數(shù)據(jù)挖掘的檢測技術(shù)具有優(yōu)越性。

1)信息熵較低,除冗余效果好,能夠在大量數(shù)據(jù)中提取到有效信息,能夠有效提升網(wǎng)絡(luò)潛在威脅檢測效率。

2)通過構(gòu)建網(wǎng)絡(luò)潛在威脅樹,匹配潛在威脅數(shù)據(jù)檢測結(jié)果,獲得了與實際結(jié)果基本一致的歸一化值,提升了檢測精度。

3)基于異類數(shù)據(jù)挖掘的網(wǎng)絡(luò)潛在威脅檢測方法的誤測率更低,平均誤測率僅為0.028,精準(zhǔn)度更高,應(yīng)用性更強。

本文方法未考慮網(wǎng)絡(luò)傳輸干擾,今后將對此進(jìn)行深入研究。

猜你喜歡
異類信息熵數(shù)據(jù)挖掘
改進(jìn)支持向量機在特征數(shù)據(jù)挖掘中的智能應(yīng)用
基于信息熵可信度的測試點選擇方法研究
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于事故數(shù)據(jù)挖掘的AEB路口測試場景
近似邊界精度信息熵的屬性約簡
一種基于信息熵的雷達(dá)動態(tài)自適應(yīng)選擇跟蹤方法
軟件工程領(lǐng)域中的異常數(shù)據(jù)挖掘算法
基于信息熵和未確知測度理論的供應(yīng)鏈風(fēng)險系數(shù)定量測度模型研究
毛毛蟲中的異類
魚中的異類