基于樸素貝葉斯的社交網(wǎng)絡入侵行為取證模型構(gòu)建

2021-01-12 08:25朱敏

廊坊師范學院學報(自然科學版) 2020年4期

朱敏

（湄洲灣職業(yè)技術(shù)學院，福建莆田 351119）

0 引言

近年來，網(wǎng)絡不斷延伸到社會各個領(lǐng)域，網(wǎng)絡中的機密信息大量增加，網(wǎng)絡安全技術(shù)的重要性日益凸顯，如何有效檢測信息，確定網(wǎng)絡數(shù)據(jù)安全，成為當前亟待解決的問題［1］。

近年來，隨著網(wǎng)絡用戶和信息的增加，網(wǎng)絡攻擊的數(shù)量也在增加。入侵檢測技術(shù)是發(fā)現(xiàn)一系列威脅信息資源完整性、機密性和可用性的惡意行為的有效安全手段。對于網(wǎng)絡大量事件數(shù)據(jù)，入侵檢測技術(shù)能夠在考慮最佳分類率的同時，準確地對正常和異常事件進行分類，以達到過濾網(wǎng)絡攻擊事件、降低誤報率的目的［2-3］。

當前提出的入侵檢測行為取證模型多是利用數(shù)據(jù)挖掘?qū)崿F(xiàn)入侵檢測，通過數(shù)據(jù)挖掘檢測網(wǎng)絡中的誤用信息和異常信息，利用匹配法分析網(wǎng)絡流量中的攻擊行為和樣本。數(shù)據(jù)挖掘法雖然能夠降低錯誤檢測率、加快檢測速度，但是數(shù)據(jù)挖掘法過于依賴訓練集，如果訓練集中不存在異常檢測和誤用檢測的模型，則無法匹配［4］。

本文基于已有研究，應用樸素貝葉斯構(gòu)建了一種新的社交網(wǎng)絡入侵行為取證模型，在樸素貝葉斯模型上引入調(diào)控參數(shù)，通過分析精確度來確定最佳性能，利用實驗驗證取證模型的有效性，實驗結(jié)果表明，該模型能夠有效檢測到入侵行為。

1 基于樸素貝葉斯的社交網(wǎng)絡入侵檢測分析

本文通過建立改進的神經(jīng)網(wǎng)絡模型擴展已有的入侵檢測框架，基于特征選擇和離散化預處理的思想，分析網(wǎng)絡中海量數(shù)據(jù)的復雜度和虛警率，從而減少分析時間、提高分析速度。本文提出的算法不同于傳統(tǒng)的入侵檢測模型，在進行網(wǎng)絡事件分類時，通過合理地選擇和調(diào)整參數(shù)，有效地調(diào)整正確分類率和錯誤分類率，并結(jié)合學習和訓練等機械方法，得到最佳的分類結(jié)果。本算法不受應用領(lǐng)域的限制，具有很強的靈活性和可擴展性，能對各種概率事件進行分類［5-6］。本算法有如下優(yōu)點：（1）快速分類，降低了算法的復雜性；（2）虛警率低、漏檢率低、誤報率低；（3）結(jié)構(gòu)適應性和靈活性良好；（4）具有較好的穩(wěn)定性和擴展性。

貝葉斯網(wǎng)絡的內(nèi)部結(jié)構(gòu)為圖形化網(wǎng)絡結(jié)構(gòu)，這種結(jié)構(gòu)能夠有效減少概率推理時間，提高應用價值。樸素貝葉斯網(wǎng)絡如圖1所示。

圖1 樸素貝葉斯網(wǎng)絡

樸素貝葉斯網(wǎng)絡雖然網(wǎng)絡結(jié)構(gòu)簡單，但是內(nèi)部節(jié)點都是父節(jié)點，這些父節(jié)點具備自己的屬性，并且沒有連接［7-8］。

貝葉斯方法的知識表達為判別函數(shù)，而非參數(shù)方法為判別函數(shù)。數(shù)據(jù)挖掘在機器學習中的應用主要有決策樹方法、規(guī)則歸納法、產(chǎn)生規(guī)則的決策樹方法和規(guī)則表示法［9］。該方法分為兩部分：一是建立入侵分類模型，二是對入侵進行分類，圖2為具體步驟。

當前入侵檢測中建立分類模型的方法有很多種，其原理和策略也不盡相同，通過研究決策樹和數(shù)學表達公式來展示模型結(jié)果。

圖2 入侵檢測分類過程圖

分析標記連接記錄數(shù)據(jù)實現(xiàn)新訓練，這樣可以有效減少重復和評價花費的時間，根據(jù)特征分析完成分類進行檢測，連接記錄被輸入到分類器，然后分類器會輸出記錄所屬的類別［10-11］。

2 基于樸素貝葉斯的社交網(wǎng)絡入侵行為取證模型構(gòu)建

入侵行為取證模型是入侵檢測技術(shù)中的一個重要組成部分，貝葉斯網(wǎng)絡能夠建立廣泛的認知行為模型，具有神經(jīng)網(wǎng)絡所沒有的概率推理能力［12］。本文以貝葉斯概率理論為基礎，建立取證模型，它不僅具有理論基礎，而且具有表達和推理的能力。入侵行為取證模型如圖3所示。

圖3 基于樸素貝葉斯的社交網(wǎng)絡入侵行為取證模型

決定理論是主觀貝葉斯歸納理論的重要組成部分，它在完全智能條件下估計局部知識狀態(tài)的主觀概率，再用貝葉斯公式修正發(fā)生概率，最后根據(jù)預測值和修正概率進行優(yōu)化。這種方法的核心思想是利用測驗前的概率估計測驗后的概率［13］。

本文基于貝葉斯決策理論，建立并簡化了樸素貝葉斯分類模型。這種方法具有簡單、速度快、分類精度高的特點。核心算法如下：

計算步驟為：

（1）計算訓練樣本Cj的概率，表達為P(Cj)，計算公式為：

其中，cj對應的訓練樣本數(shù)據(jù)集為表示訓練的總樣本數(shù)據(jù)集。

（2）分析訓練樣本中的特征?a，特征值在網(wǎng)絡事件類別出現(xiàn)的相對概率值P(ai∣cj) ，計算公式為：

（3）根據(jù)上述公式得到訓練樣本中的特征值，計算公式為：

（4）利用樸素貝葉斯網(wǎng)絡得到獨立假設，分析入侵行為概率，計算公式為：

基于事件的貝葉斯網(wǎng)絡是入侵檢測的基本實現(xiàn)方法。為獲得能夠真實反映樣本間關(guān)系的有向無環(huán)網(wǎng)絡拓撲，對貝葉斯網(wǎng)絡結(jié)構(gòu)進行了研究，本文的貝葉斯網(wǎng)絡能夠在數(shù)據(jù)中顯示潛在的條件無關(guān)關(guān)系和概率分布函數(shù)。

貝葉斯網(wǎng)絡社交網(wǎng)絡入侵行為取證模型依據(jù)參數(shù)學習方法的特點，可將參數(shù)估計劃分為經(jīng)典統(tǒng)計估計和貝葉斯統(tǒng)計估計兩類，通常采用矩估計和極大似然估計兩種方法進行統(tǒng)計參數(shù)估計。

貝葉斯網(wǎng)絡分為兩個階段，分別是結(jié)構(gòu)學習和參數(shù)學習，結(jié)構(gòu)學習通過網(wǎng)絡拓撲結(jié)構(gòu)來實現(xiàn)信息分析，探索網(wǎng)絡內(nèi)部節(jié)點變量學習條件概率。

貝葉斯網(wǎng)絡能夠很好地訓練樣本數(shù)據(jù)，利用研究對數(shù)據(jù)和先驗知識進行分析，從而得到最好的網(wǎng)絡拓撲結(jié)構(gòu)。貝葉斯網(wǎng)絡的推理方式包括因果分析、診斷分析和支持分析。因果推理采用的是自下向上的推理，在分析原因后得出結(jié)論，根據(jù)已知的證據(jù)驗證不同情況下出現(xiàn)的不同現(xiàn)象；診斷推理是利用結(jié)論分析原因，在確定推理結(jié)果后，確定原因所發(fā)生的概率；支持推理是通過驗證不同原因之間的相互影響，從而分析數(shù)據(jù)。貝葉斯網(wǎng)絡作為概率網(wǎng)絡，通過統(tǒng)計學研究知識分類，在大型數(shù)據(jù)庫中，判斷不同的屬性值，提高方法的準確性。

基于樸素貝葉斯的社交網(wǎng)絡入侵行為取證模型的入侵檢測流程如圖4所示。在第一階段分析網(wǎng)絡流量數(shù)據(jù)，在辨別不同取證類型后，獲得映射集，映射集合為，通過訓練完成數(shù)據(jù)的離散化處理和特征選擇，即實現(xiàn)數(shù)據(jù)的預處理，在預處理中將有效數(shù)據(jù)過濾出來，根據(jù)統(tǒng)計結(jié)果得到先驗概率通過映射關(guān)系，確定集中數(shù)據(jù)集，從而能夠檢測到整個社交網(wǎng)絡內(nèi)部入侵行為。在第二階段，提取整個框架中的數(shù)據(jù)，借鑒離散化和特征選擇的思想把提取的網(wǎng)絡數(shù)據(jù)具象化，簡化內(nèi)部冗余數(shù)據(jù)和不重要的特征數(shù)據(jù)，通過降低社交網(wǎng)絡入侵時間復雜度和空間復雜度，提高社交網(wǎng)絡入侵行為檢測的精度。

圖4 取證模型入侵檢測流程

3 實驗驗證

為了驗證本文提出的基于樸素貝葉斯的社交網(wǎng)絡入侵行為取證模型的有效性，設定對比實驗，分別與基于信息增益的社交網(wǎng)絡入侵行為取證模型以及基于數(shù)據(jù)挖掘的社交網(wǎng)絡入侵行為取證模型進行對比。本文選用的實驗數(shù)據(jù)來自于KDDCUP入侵檢測數(shù)據(jù)集，KDD入侵檢測數(shù)據(jù)集內(nèi)部的數(shù)據(jù)來源主要有兩個部分：

（1）7 周時間訓練數(shù)據(jù)，網(wǎng)絡連接記錄大約為5000000個。

（2）異常攻擊類型。共有22種攻擊類型，可以具體化為4類主要的攻擊種類，如表1所示。實驗過程如圖5所示。設置的實驗參數(shù)表2所示。

表1 異常種類描述方式

圖5 檢測實驗過程

表2 實驗參數(shù)

根據(jù)上述參數(shù)進行實驗，比較不同的入侵取證模型分析異常類型匹配度的準確率，得到的分析結(jié)果如圖6所示。

圖6 入侵匹配度實驗結(jié)果

根據(jù)圖6 可知，本文提出的基于樸素貝葉斯的社交網(wǎng)絡入侵行為取證模型具有很強的信息匹配能力，能夠匹配到所有的入侵行為，精準地分析出所有的入侵類型，從而實現(xiàn)行為取證。樸素貝葉斯的社交網(wǎng)絡入侵行為取證模型內(nèi)部的訓練樣本值通過不斷擴展，逐漸降低條件概率的誤差，提高模型自身的連續(xù)學習能力和擴展能力，使入侵檢測能力有所增強。

本文提出的入侵模型通過建立決策樹和分類模型，連接神經(jīng)網(wǎng)絡，構(gòu)建大型數(shù)據(jù)庫，在大型數(shù)據(jù)庫中提取信息，從而提高分析的準確度。

在確定入侵匹配度后，分析不同模型的入侵取證匹配范圍，取證匹配范圍如表3所示。

表3 取證匹配范圍

由表3 可知，本文提出的入侵行為取證模型取證范圍遠遠大于傳統(tǒng)的取證模型匹配范圍，能夠?qū)崿F(xiàn)數(shù)據(jù)的分析匹配，使絕大多數(shù)的信息都能夠?qū)崿F(xiàn)匹配。

4 結(jié)語