国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進的樸素貝葉斯的入侵檢測方法*

2020-06-08 10:08:48歐陽廣津
通信技術 2020年5期
關鍵詞:特征選擇樸素貝葉斯

歐陽廣津

(1.黔南民族師范學院 實驗實訓中心,貴州 都勻 558000;2.黔南民族師范學院 計算機與信息學院,貴州 都勻 558000)

0 引 言

隨著信息安全的重要性逐步上升,如何有效并準確地防范網絡入侵攻擊以保障服務器和主機的安全性受到各界的重視。常見的手段是在內網的出口處部署硬件防火墻對其進出數據進行過濾,避免網絡上的計算機對其主機進行攻擊。

Kaspersky2019 年的互聯網安全威脅調查報告顯示[1],2019 年共發(fā)生來自世界各國和地區(qū)的攻擊975 491 360 次,其中一年中有19.8%的用戶計算機遭受了至少一次惡意Web 攻擊。因此,針對網絡攻擊的入侵檢測研究顯得愈發(fā)重要。當前,入侵檢測系統(tǒng)(Intrusion Detection System,IDS)已經成為大多數局域網和校園網必不可少的基礎設施。

入侵檢測系統(tǒng)是一種網絡安全設備,可以通過監(jiān)控進出的數據流,檢查是否有可疑活動或網絡攻擊,并及時發(fā)出警示和主動采取措施。然而,隨著互聯網的發(fā)展,網絡攻擊手段和方式層出不窮,如何準確在海量的網絡事件中將正常事件(Normal)和異常事件(Anomaly)區(qū)分出來,是檢驗入侵檢測性能的指標。根據文獻[2],主流的入侵檢測系統(tǒng)主要分為基于主機和基于網絡兩大類?;谥鳈C是指將入侵檢測系統(tǒng)安裝在網絡體系結構中重要的主機上,讀取該主機上重要日志文件和審計記錄等來對其進行檢測?;诰W絡是指入侵檢測系統(tǒng)安裝在網絡的核心節(jié)點上,系統(tǒng)會讀進出網絡的數據進行檢測。目前,大部分的入侵檢測系統(tǒng)是基于網絡入侵檢測系統(tǒng)[3]。

衡量一個入侵檢測系統(tǒng)的性能指標是準確率和誤報率。一個優(yōu)秀的入侵檢測系統(tǒng)應該能夠提供高準確率和低誤報率。目前,許多入侵檢測常和其他技術相結合。文獻[4]提出一種改進的樸素貝葉斯入侵檢測系統(tǒng),在貝葉斯模式上引入屬性加值算法,能有效簡化數據模型的復雜度;文獻[5]提出一種新型加權粗糙樸素貝葉斯算法,通過對數據集進行約簡,再利用最大似然估計對數條件對其尋找最優(yōu)值;文獻[6]提出一種基于特征選擇的入侵檢測方法,利用特征選擇和離散化處理數據集,建立了對應的模型。

本文在之前研究的基礎上,提出一種新型的樸素貝葉斯算法,在原有樸素貝葉斯模型上巧妙引入卡方檢驗算法,篩選數據集中的特征,避免維數災難,最后結合實驗測試與傳統(tǒng)樸素貝葉斯算法進行比較,對入侵檢測事件分類的準確率和召回率都有明顯提升。

本文第1 節(jié)詳細介紹特征選擇和改進后的樸素貝葉斯算法;第2 節(jié)采用經典的KDD99 數據集對本算法的入侵檢測進行模擬實驗,并給出實驗結果,同時與傳統(tǒng)算法進行比較;第3 節(jié)對論文的工作進行總結,并闡述其中的不足。

1 基于改進的樸素貝葉斯的入侵檢測方法

1.1 特征選擇

特征選擇是數據預處理中的重要過程,是指從給定的數據集中選擇相關的特征過程。通過篩選重要的特征子集,降低數據維度,減少分類器建模的時間,提高入侵檢測的準確率。事實上,當特征數量超過一定限度時,會導致數據建模的結果變差。數據集中某些特征沒有包含或者包含極少信息,對于建模影響很小。

卡方檢驗又稱χ2檢驗,由英國人K.Pearson 于1900 年提出,是一種假設檢驗方法。它對于獨立的行、列表等進行檢驗,以及檢驗某個連續(xù)變量分布是否與理論分布一致,常用于獨立性或者相關性檢驗。它的基本思想是統(tǒng)計樣本理論值與實際值的偏離程度。χ2越大表示兩者偏離越大,分布不符合,χ2越小,表示兩者分布趨向符合[7]。

卡方檢驗的基本公式:

其中,A為實際值,T為理論值,χ2用于衡量實際值與理論值的偏離程度。由于平方的存在,當存在偏移時,差異會被放大。

1.2 基于改進的樸素貝葉斯

貝葉斯定理是概率論中在已知一些條件下某事件發(fā)生的概率,基本公式為:

其中:P(A|B)指已知B 發(fā)生后A 的條件概率,通常也稱后驗概率;P(A)是A 的先驗概率;P(B|A)是已知A 發(fā)生后B 的條件概率;P(B)是B 的先驗概率。

樸素貝葉斯(Naive Bayes)法是基于貝葉斯定理與特征條件獨立假設的分類方法[8]。樸素貝葉斯簡化了計算模型,假設樣本中各個特征相互獨立且互不影響。在這種情況下,概率的計算非常簡單。實踐證明,它是目前使用度最廣泛的分類模型之一。在文獻[9]中,Levent Koc 等人提出了一種基于隱藏貝葉斯分類器的入侵檢測,解決了高維度和高特征相關的數據流分類。文獻[10]中,Dr.Saurabh Mukherjee 提出了一種基于特征縮減的樸素貝葉斯算法,通過提取特征識別影響較大的特征,并應用在構建貝葉斯模型中,達到較高的準確率。

本文在以上論文的基礎上,針對前文的不足,提出了一種新型改進的樸素貝葉斯檢測方法。引入特征選擇卡方檢驗和數值歸一化等預處理手段,降低數據集的復雜度和特征數量,以提升樸素貝葉斯分類器的準確率,核心算法如下。

設輸入n χ?? 為n維向量的集合,輸出空間為類標記集合Y={c1,c2,…,ck},輸入為特征向量x∈χ,輸出為類標記為y∈Y。訓練數據集T={(x1,y1),(x2,y2),…,(xN,yN)},假 設xi={},xi是 第i個 樣 本 的 第j個 特 征,xi(j)∈{aj1,aj2,…,ajsj},ajl是第j個特征可能取的第l個值。其中,j=1,2,…,n,l=1,2,…,Sj,yi={c1,c2,…,ck}。

(1)對數據集進行歸一化,消除特征之間范圍不同而導致的結果影響,歸一化公式為:

其中max為樣本數據集中的最大值,min為樣本數據集中的最小值。

(2)通過卡方檢驗抽取數據集中的特征,得到精簡特征的數據集。

(3)計算樣本的先驗概率P(Y=ck):

其中:N為樣本總和;I為指示函數;括號內為真則指示函數等于1,反之為0。

(4)計算樣本的條件概率P(X(j)=ajl|Y=ck):

(5)后驗概率計算根據樸素貝葉斯定理,可以得出:

由于分母對所有ck都是相同的,所以有:

將式(4)和式(5)帶入式(7),可以計算出實例x的分類。

1.3 改進樸素貝葉斯檢測流程

通過前文的描述,可以得到改進樸素貝葉斯檢測流程如圖1 所示。

根據圖1 的流程結構可知:首先對訓練數據進行預處理,通過歸一化操作將數值范圍縮小在同一區(qū)間;其次,采用卡方檢驗對預處理后的數據進行特征抽取得到精簡的數據集;再次,使用樸素貝葉斯算法對原有數據集進行建模,形成貝葉斯分類器;最后,對測試數據進行預處理,使用貝葉斯分類器對其所有數據進行分類,得出分類結果。

圖1 基于改進的樸素貝葉斯流程

2 實驗與結果

2.1 KDD99 數據集

整個訓練過程采用的數據集為KDD99數據集。KDD99 來源于美國國防部高級計劃署DARPA 的入侵檢測評估項目,是網絡入侵檢測的標準數據集[11],收集了9 周時間的網絡連接和審計數據。本文采用kddcup.data10percent.gz 訓練集,總共494 021 條記錄。測試集用采用corrected.gz,總共311 029 條記錄,其中特征包含4 大類標簽,分別為DoS、R2L、U2R 和PROBE。39 種攻擊類型,其中22 種攻擊類型出現在訓練集中,另外17 種攻擊類型出現在測試集中。4 大類標簽和描述如表1 所示。

表1 異常類型

2.2 實驗結果與分析

為了準確評價分類器的性能,采用混淆矩陣真正(TP)和真負(TN)、假正(FP)和假負(FN)?;煜仃囉脕韺Ψ诸惼髟谟柧殧祿系哪P瓦M行評價,如表2 所示。

表2 混淆矩陣

True Positive(TP)是將正類預測為正類數,True Negative(TN)將負類預測為負類數,False Positive(FP)將負類預測為正類數誤報,False Negative(FN)將正類預測為負類數漏報。因此,準確率計算公式為:

召回率計算公式為:

實驗過程中環(huán)境平臺為Windows10 64 位, CPU Intel i5-7300HQ 2.50 GHz,內存16 GB,編程工具PyCharm 2018,訓練集使用kddcup.data10percent.gz, 測試集使用corrected.gz,實驗結果如表3 所示。

表3 實驗結果

3 結 語

本文提出了基于改進的樸素貝葉斯的入侵檢測方法,在卡方檢驗的基礎上,先針對數據特征進行預處理,降低數據維度,然后對數據建立貝葉斯模型,并用KDD99 數據集進行測試檢驗。實驗結果顯示,該算法能顯著提升了準確率和召回率。在特征抽取的大小方面,特征如果過小,則數據模型的準確率降低;如果特征過大,在建立模型階段會花費大量時間,也會影響建模的性能。因此,特征抽取的大小將是下一步研究的重點。

猜你喜歡
特征選擇樸素貝葉斯
隔離樸素
樸素的安慰(組詩)
四川文學(2020年11期)2020-02-06 01:54:30
他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
當代陜西(2019年23期)2020-01-06 12:18:04
最神奇最樸素的兩本書
當代陜西(2019年9期)2019-05-20 09:47:38
貝葉斯公式及其應用
Kmeans 應用與特征選擇
電子制作(2017年23期)2017-02-02 07:17:06
基于貝葉斯估計的軌道占用識別方法
聯合互信息水下目標特征選擇算法
一種基于貝葉斯壓縮感知的說話人識別方法
電子器件(2015年5期)2015-12-29 08:43:15
IIRCT下負二項分布參數多變點的貝葉斯估計
山东省| 青神县| 宝鸡市| 金阳县| 页游| 安达市| 舒城县| 惠安县| 阿鲁科尔沁旗| 衡南县| 钟山县| 襄樊市| 丰原市| 渝中区| 江永县| 竹北市| 安陆市| 德江县| 平顶山市| 南京市| 扬州市| 汝城县| 八宿县| 辰溪县| 新安县| 翁源县| 婺源县| 兴宁市| 青浦区| 沙河市| 泸州市| 齐齐哈尔市| 阳泉市| 开江县| 沁源县| 宿州市| 普定县| 温宿县| 黑河市| 潢川县| 页游|