国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度加權(quán)特征學習的網(wǎng)絡(luò)安全態(tài)勢評估

2022-08-16 09:34楊宏宇張梓鋅
信息安全學報 2022年4期
關(guān)鍵詞:態(tài)勢威脅網(wǎng)絡(luò)安全

楊宏宇 ,張梓鋅 ,張 良

1 中國民航大學安全科學與工程學院 天津 中國 300300

2 中國民航大學計算機科學與技術(shù)學院 天津 中國 300300

3 亞利桑那大學信息學院 圖森 美國 AZ 85721

1 引言

隨著通信技術(shù)和云計算技術(shù)的發(fā)展,現(xiàn)今幾乎所有的行業(yè)都開始應(yīng)用計算機網(wǎng)絡(luò)進行辦公[1]。與此同時,惡意攻擊或破壞造成的網(wǎng)絡(luò)安全事件也越來越普遍,網(wǎng)絡(luò)和信息系統(tǒng)面臨著眾多網(wǎng)絡(luò)攻擊的威脅[2]。因此,全面掌握網(wǎng)絡(luò)的整體安全狀態(tài)是一個亟待解決的熱點問題。網(wǎng)絡(luò)安全態(tài)勢評估(network security situation assessment,NSSA)可以根據(jù)相關(guān)安全事件構(gòu)建合適的模型,進而評估網(wǎng)絡(luò)系統(tǒng)整體所遭受的威脅程度,幫助安全管理人員掌握當前網(wǎng)絡(luò)狀況[3-4]。

目前,國內(nèi)外相關(guān)研究已取得一定成果[5]。Lu等[6]將網(wǎng)絡(luò)安全態(tài)勢分為主機安全態(tài)勢和網(wǎng)絡(luò)攻擊態(tài)勢兩部分,設(shè)計權(quán)重和計算規(guī)則以計算網(wǎng)絡(luò)安全態(tài)勢。Agrawal 等[7]基于模糊分析網(wǎng)絡(luò)過程評估標準的權(quán)重,并通過模糊對稱技術(shù)評估軟件的安全性。此外,還有層次分析法(analytic hierarchy process,AHP)[8-9]、集對分析法[10]、模糊數(shù)學[11]等方法,但此類運用數(shù)學模型的方法受主觀因素影響較大,沒有客觀的標準。Alali 等[12]提出利用模糊邏輯推理系統(tǒng)改進網(wǎng)絡(luò)安全風險評估模型,并綜合分析了脆弱性、威脅、可能性和影響等四個方面從而得出風險評估結(jié)果。楊宏宇等[13]基于自修正系數(shù)修勻法,通過熵關(guān)聯(lián)度、自適應(yīng)解和時變加權(quán)馬爾可夫鏈改進網(wǎng)絡(luò)安全態(tài)勢的預(yù)測結(jié)果。此外,還有運用概率和知識推理的方法如貝葉斯網(wǎng)絡(luò)[14-15]、模糊推理[16]、D-S 證據(jù)理論[17]等,這些方法依賴于專家知識庫和大量的規(guī)則推理,在海量數(shù)據(jù)的網(wǎng)絡(luò)環(huán)境下存在模型構(gòu)建困難、操作復(fù)雜等問題。楊宏宇等[18]基于無監(jiān)督學習,提出一種通過解析多源網(wǎng)絡(luò)流量評估網(wǎng)絡(luò)威脅的態(tài)勢評估方法。該方法具有較強的網(wǎng)絡(luò)威脅特征識別能力,對網(wǎng)絡(luò)威脅態(tài)勢評估有效性的提升提供了可行的思路。Hong 等[19]則將灰色關(guān)聯(lián)分析理論和支持向量機(support vector machine,SVM)算法用于網(wǎng)絡(luò)安全態(tài)勢預(yù)測,實驗結(jié)果表明該模型具有更高的網(wǎng)絡(luò)風險預(yù)測精度。但此類運用模式分類的方法在實時環(huán)境中提取特征困難,建模時間長,不易于理解。

為了應(yīng)對日益復(fù)雜的網(wǎng)絡(luò)威脅和攻擊,網(wǎng)絡(luò)安全技術(shù)不斷地被更新和發(fā)展,研究人員開始嘗試利用深度學習的方法研究網(wǎng)絡(luò)安全問題。Lin 等[20]基于門控循環(huán)單元(gate recurrent unit,GRU)、雙向門控循環(huán)單元(bi-directional gate recurrent unit,BiGRU)等多種神經(jīng)網(wǎng)絡(luò)模型對UNSW-NB15 數(shù)據(jù)集進行檢測,結(jié)果表明,與其他模型相比,BiGRU 的準確率最高。文獻[21]將改進的LSTM 應(yīng)用于KDD99 數(shù)據(jù)集,實驗證明該方法可有效地理解和評估網(wǎng)絡(luò)安全態(tài)勢。文獻[22]設(shè)計了一種基于對抗學習的態(tài)勢評估模型AEDNN,解決了傳統(tǒng)方法面對大量數(shù)據(jù)時效率低的問題。Chakravarthi 等[23]提出一種基于深度自動編碼器(auto-encoder,AE)提取特征的入侵檢測方法,得到了表征能力更強的特征,但使用該方法訓練網(wǎng)絡(luò)模型時存在梯度消失的問題。Moradi 等[24]將基于堆疊式自動編碼器提取特征的特征學習和孤立森林相結(jié)合,獲得了良好的檢測結(jié)果,但文中僅檢測有無攻擊發(fā)生,無法滿足攻擊類型進行細分與檢測需要。文獻[25]將MapReduce 和SVM 相結(jié)合并應(yīng)用于網(wǎng)絡(luò)安全態(tài)勢預(yù)測,解決了SVM 訓練時間長的缺點,但未對網(wǎng)絡(luò)態(tài)勢進行全面的評估,無法反映網(wǎng)絡(luò)的整體態(tài)勢情況。Shone 等[26]將非對稱深度自編碼器的無監(jiān)督特征學習應(yīng)用于入侵檢測并取得了較好的檢測結(jié)果,但該方法在少數(shù)攻擊類別上的檢測率為0,存在著攻擊類型樣本數(shù)失衡導致的弱檢測問題。

近年來,一些研究人員嘗試用注意力機制對深度學習網(wǎng)絡(luò)進行改進,以提高安全檢測的性能。Liu等[27]采用基于注意力機制的深度神經(jīng)網(wǎng)絡(luò)進行web攻擊的實時檢測,在真實的網(wǎng)絡(luò)流量上證明了該方法的可行性。Arnav 等[28]將一種基于注意力機制的自動編碼器應(yīng)用于異常檢測,實驗證明該方法相對于其他自動編碼器變體具有更高的檢測性能。Yang等[29]用注意力機制改進LSTM 并將其用于威脅檢測,取得了較好的檢測效果。

針對目前網(wǎng)絡(luò)安全態(tài)勢評估方法在獲取先驗知識、提取特征、構(gòu)建模型、實時性等方面存在的不足,為了有效、全面地評估網(wǎng)絡(luò)安全態(tài)勢,本文提出一種基于深度加權(quán)特征學習的網(wǎng)絡(luò)安全態(tài)勢評估方法。通過并行稀疏自動編碼器(parallel sparse auto-encoder,PSAE)高效、準確地提取不同攻擊類型的特征并與數(shù)據(jù)原始特征融合,采用注意力機制改進BiGRU 網(wǎng)絡(luò)(attention-based BiGRU,ATBiGRU),再使用改進后的網(wǎng)絡(luò)模型(parallel sparse auto-encoder-attention-based BiGRU,PSAE-ATBiGRU)進行網(wǎng)絡(luò)威脅檢測,根據(jù)測試結(jié)果計算網(wǎng)絡(luò)安全態(tài)勢量化值。

2 基于PSAE 的特征提取與融合

2.1 稀疏自動編碼器

自動編碼器(AE)是一種無監(jiān)督的特征提取算法,其結(jié)構(gòu)如圖1所示。AE結(jié)合了編碼器以及解碼器,并使用反向傳播將它們聯(lián)系在一起。編碼器將輸入轉(zhuǎn)換為低維抽象來提取原始特征并學習數(shù)據(jù)表示,解碼器接收低維表示并重建原始特征。

圖1 自動編碼器網(wǎng)絡(luò)結(jié)構(gòu)圖Figure 1 AE’s network structure

稀疏自動編碼器(sparse auto-encoder,SAE)[30]是在AE 基礎(chǔ)上的改進。SAE 為了避免簡單地從輸出到輸入的映射,在隱藏層上添加了稀疏性約束,增加模型的泛化能力,獲得更好的特征描述。SAE 通過反向傳播獲得權(quán)重矩陣,選擇Sigmoid函數(shù)g(z)=1/(1+e–z)用于激活神經(jīng)網(wǎng)絡(luò)層中的神經(jīng)元。神經(jīng)元的稀疏性由神經(jīng)元的輸出決定。如果神經(jīng)元的輸出接近1,認為它是活動的。如果神經(jīng)元的輸出接近0 時,認為它是不活動的。在使用反向傳播的SAE 中,損失函數(shù)為

其中,m指輸入神經(jīng)元數(shù),K指隱藏神經(jīng)元數(shù),xi指輸入數(shù)據(jù),yi指輸出數(shù)據(jù)。在上式中,β控制神經(jīng)元的稀疏程度,ρ表示網(wǎng)絡(luò)中神經(jīng)元的期望激活水平,表示第j個神經(jīng)元的平均激活水平。此外,KL散度的計算公式為

除了稀疏約束之外,通常還會通過L2 正則化避免模型過擬合的問題,因此最終的損失函數(shù)為

其中,λ指正則化參數(shù),n指層數(shù),k指當前層數(shù),W和V指權(quán)重矩陣,b1和b2指偏置項。

2.2 PSAE 特征提取器的設(shè)計

特征學習是一種僅對屬性子集的數(shù)據(jù)行為進行建模的技術(shù),它可有效顯示檢測性能與數(shù)據(jù)模型質(zhì)量之間的相關(guān)性。通過使用新特征對網(wǎng)絡(luò)進行訓練,可以提高網(wǎng)絡(luò)分類效率和分類準確性。因此可通過特征提取與融合來增強原始特征的表征能力,從而提高分類的準確性。

此外,NSL-KDD 數(shù)據(jù)集[31]包含多種攻擊類型,且這些類型的信息分布各不相同,通過單個SAE 進行特征提取時間長且無法很好的擬合不同攻擊的分布。因此可用多個特征提取器分別學習每種攻擊的分布規(guī)律,更好的表達不同攻擊類型之間的信息差異。

本文設(shè)計的基于PSAE 的特征提取器結(jié)構(gòu)如圖2所示。首先,將數(shù)據(jù)預(yù)處理之后的數(shù)據(jù)集按照不同的攻擊類型輸入SAE 特征提取器進行特征提取。其中,SAE 隱藏層神經(jīng)元的數(shù)量等于其編碼器所學習的輸入數(shù)據(jù)壓縮表示的個數(shù)。編碼器對原始數(shù)據(jù)進行壓縮,解碼器重構(gòu)原始輸入數(shù)據(jù)的特征表示。訓練完成后,將編碼器輸出結(jié)果作為代表原始數(shù)據(jù)的特征,即可完成特征提取功能。最后,將提取的特征與原始特征融合,輸入至ATBiGRU 模型進行訓練。其中,PSAE 的訓練及特征提取過程如算法1 所示。

圖2 基于PSAE 的特征提取器Figure 2 Feature extractor based on PSAE

算法1.PSAE 的訓練及特征提取

輸入:不同網(wǎng)絡(luò)威脅的攻擊類型數(shù)據(jù):X0,X1,X2,…,XC–1,其中Xi表示攻擊類型為i的所有樣本數(shù)據(jù):Xi={xi0,xi1,…,xi(n–1)}

3 ATBiGRU 網(wǎng)絡(luò)模型

3.1 BiGRU 網(wǎng)絡(luò)和注意力機制

BiGRU 是GRU 的改進版本,其結(jié)構(gòu)圖如圖3 所示。BiGRU 在每個時刻的輸入會經(jīng)過兩個方向相反的GRU,其輸出結(jié)果綜合考慮這兩個GRU 的輸出。因此,BiGRU 可以學習過去和將來狀態(tài)與當前狀態(tài)之間的時序關(guān)系,有助于提取更深層次的特征信息[32]。

圖3 BiGRU 結(jié)構(gòu)圖Figure 3 BiGRU’s structure

注意力模型是Treisman 和Gelade 提出的類似于人腦的資源分配模型[33],它通過對目標數(shù)據(jù)進行加權(quán)運算來突出關(guān)鍵特征,較好地提升了模型的擬合效果。因此,本文引入注意力機制,幫助模型可以更有效地學習潛在層特征,并對顯著影響最終檢測結(jié)果的關(guān)鍵特征進行加權(quán),使獲得的特征信息更合理、更準確,進而提高模型的檢測精度及模型的魯棒性。

3.2 ATBiGRU 網(wǎng)絡(luò)設(shè)計

首先,由于網(wǎng)絡(luò)威脅流量屬于時間序列事件,即當前時間的攻擊類型由當前時刻的數(shù)據(jù)和先前時刻的數(shù)據(jù)共同決定,因此通過BiGRU 可有效學習網(wǎng)絡(luò)威脅流量間的表征關(guān)系,增強檢測網(wǎng)絡(luò)的特征學習能力。其次,文獻[34]基于GRU 設(shè)計了一種分層注意力網(wǎng)絡(luò),該網(wǎng)絡(luò)在選取句子關(guān)鍵詞匯的任務(wù)上取得了較為不錯的成績??紤]到數(shù)據(jù)樣本中不同時刻的特征信息冗余且對當前攻擊類型的分類與檢測有不同的貢獻,這與關(guān)鍵詞匯的選取問題有著相似性,因此采用注意力機制對關(guān)鍵特征加權(quán),實現(xiàn)對BiGRU 網(wǎng)絡(luò)模型的改進。圖4 展示了本文設(shè)計的ATBiGRU 模型結(jié)構(gòu),ATBiGRU 的具體步驟設(shè)計如下:

圖4 ATBiGRU 模型結(jié)構(gòu)Figure 4 ATBiGRU’s structure

步驟1給定若干條具有n個維度的樣本,其中第i條表示為Xi={xi0,xi1,…,xi(n–1)},對應(yīng)真實標簽為Yi。將其輸入BiGRU 網(wǎng)絡(luò)模型,學習樣本間的時序關(guān)系,并進行編碼。通過BiGRU 函數(shù)對前向和反向兩個隱藏狀態(tài)加權(quán)求和,獲得各個隱藏層的狀態(tài)hij

步驟2使用注意力機制計算每個特征應(yīng)分配的概率權(quán)重,突出網(wǎng)絡(luò)威脅流量特征中的關(guān)鍵信息,計算局部特征向量,由公式(5)~(7)計算注意力層的權(quán)重系數(shù)以及局部特征向量

其中,dij指使用softmax函數(shù)歸一化操作得到的隱藏層狀態(tài),hij指BiGRU 模型的輸出,Au指加權(quán)系數(shù),fu指偏置項,du指隨機初始化的注意力矩陣。aij指不同概率權(quán)重和每個隱藏層狀態(tài)的乘積之和,si指由hij與aij加權(quán)求和得到的局部特征向量。

步驟3將步驟2的局部特征向量si輸入BiGRU網(wǎng)絡(luò)模型,與步驟2 相似,全局特征向量v由概率權(quán)重ai進一步計算得到,由公式(8)~(11)計算注意力層的權(quán)重系數(shù)以及全局特征向量

其中,Au、fw和dw分別表示第2 層注意力機制的權(quán)重系數(shù)矩陣、偏置項和隨機初始化的注意力矩陣。

步驟4將步驟3 的結(jié)果通過Dense 層進一步提取特征,最后在softmax 輸出層輸出分類結(jié)果Y(Xi)

其中,Ww指分類器權(quán)重系數(shù)矩陣,bv表示分類器偏置,輸出Y(Xi)表示模型預(yù)測結(jié)果。

步驟5將預(yù)測結(jié)果與原始標簽對比并計算誤差loss

4 基于PSAE-ATBiGRU的網(wǎng)絡(luò)安全態(tài)勢評估方法

4.1 網(wǎng)絡(luò)安全態(tài)勢評估框架

本文提出的網(wǎng)絡(luò)安全態(tài)勢評估模型結(jié)構(gòu)如圖5所示。該模型主要包括數(shù)據(jù)預(yù)處理、PSAE-ATBiGRU網(wǎng)絡(luò)威脅檢測和網(wǎng)絡(luò)安全態(tài)勢評估3 個部分。

圖5 網(wǎng)絡(luò)安全態(tài)勢評估模型結(jié)構(gòu)Figure 5 Network security situation assessment framework

(1) 數(shù)據(jù)預(yù)處理:對采集的網(wǎng)絡(luò)流量數(shù)據(jù)進行特征數(shù)值化、特征約簡、特征最大最小值歸一化、平衡數(shù)據(jù)等預(yù)處理,之后將數(shù)據(jù)輸入至PSAE-ATBiGRU網(wǎng)絡(luò)威脅檢測模型中進行訓練。

(2) PSAE-ATBiGRU 網(wǎng)絡(luò)威脅檢測:將數(shù)據(jù)測試集輸入經(jīng)過訓練的威脅檢測模型中,根據(jù)模型輸出結(jié)果記錄各種攻擊類型的發(fā)生次數(shù)以及誤報消減矩陣,用以計算網(wǎng)絡(luò)安全態(tài)勢值。

(3) 網(wǎng)絡(luò)安全態(tài)勢評估:依據(jù)PSAE-ATBiGRU 網(wǎng)絡(luò)威脅檢測模型的檢測結(jié)果構(gòu)建網(wǎng)絡(luò)安全態(tài)勢量化指標,計算網(wǎng)絡(luò)安全態(tài)勢值并進行網(wǎng)絡(luò)安全態(tài)勢評估。

4.2 網(wǎng)絡(luò)安全態(tài)勢量化評估

網(wǎng)絡(luò)安全態(tài)勢評估結(jié)果通過影響網(wǎng)絡(luò)安全的威脅嚴重度和威脅影響度確定。

(1) 威脅嚴重度

威脅嚴重度由各類攻擊發(fā)生的次數(shù)、誤報消減矩陣、各類攻擊的威脅嚴重因子三項指標得出。其中,各類攻擊發(fā)生的次數(shù)、誤報消減矩陣由PSAEBiGRU 模型測試的結(jié)果得到;各類攻擊的威脅嚴重因子在攻擊威脅嚴重等級的基礎(chǔ)上,使用權(quán)系數(shù)生成法[35]計算得出。具體計算過程如下:

1) 獲取各類攻擊發(fā)生的次數(shù)

從測試數(shù)據(jù)集中隨機選取若干組數(shù)據(jù),并將其輸入到PSAE-ATBiGRU 模型中,對其進行攻擊類型檢測,模型輸出的各類攻擊發(fā)生的次數(shù)為Ci,其中i代表攻擊類型。

2) 獲取誤報消減矩陣

誤報消減矩陣為n階矩陣,其中n代表模型測試結(jié)果的攻擊類型個數(shù)。設(shè)數(shù)據(jù)集中n個攻擊類型的下標集合為A={1,2,…,n},aij是模型測試結(jié)果為攻擊類型i的樣本個數(shù)中誤報為攻擊類型j的相對概率。將訓練集輸入訓練完成的威脅檢測模型中,獲得各種攻擊類型發(fā)生的次數(shù)。根據(jù)模型測試結(jié)果與實際的攻擊類型次數(shù)計算aij,得到模型的誤報消減矩陣P

然后,計算各類攻擊發(fā)生的修正次數(shù)Di

3) 獲取各類攻擊的威脅嚴重因子

根據(jù)所采集的網(wǎng)絡(luò)數(shù)據(jù)集中各類數(shù)據(jù)類型的主要攻擊影響確定其威脅等級,然后再使用權(quán)系數(shù)生成算法獲取并計算各類攻擊的威脅嚴重因子。本文采用的數(shù)據(jù)集為NSL-KDD 數(shù)據(jù)集,包括4 種網(wǎng)絡(luò)攻擊類型和1 種正常流量類型,其基本情況如表1所示。

由于權(quán)系數(shù)生成算法[35]可在已知各類攻擊的威脅等級的情況下,計算各種攻擊類型的威脅嚴重因子。所以,在本文的評估方法中,依據(jù)表1 確定各種攻擊類型的威脅等級,再使用權(quán)系數(shù)生成算法計算威脅嚴重因子。設(shè)計具體處理過程如下:

表1 5 種數(shù)據(jù)類型的主要攻擊影響Table 1 The main attack effects of the five data types

按照攻擊對網(wǎng)絡(luò)的威脅程度可將n種攻擊分為f(1≤f≤n)個不同的威脅等級,等級k的威脅嚴重因子lk

通過權(quán)系數(shù)生成算法得到各類攻擊的威脅嚴重因子Qi,根據(jù)式(14)將各類攻擊發(fā)生的次數(shù)Ci修正得到Di。最后,計算威脅嚴重度Ti

(2) 威脅影響度

機密性(confidentiality,C)度量攻擊對信息資源的機密性的影響;完整性(integrity,I)度量攻擊對完整性造成的影響;可用性(availability,A)度量攻擊給受影響組件的性能帶來的影響。通用漏洞評分系統(tǒng)(common vulnerability scoring system,CVSS)[36]中機密性、完整性、可用性的影響程度和分數(shù)如表2 所示。

表2 C、I、A 的影響分數(shù)Table 2 Impact scores of C、I、A

首先,根據(jù)表1 中各種攻擊類型對機密性、完整性、可用性的影響程度進行等級劃分并排序。

然后,結(jié)合表2,采用對數(shù)函數(shù)量化方法[37]計算得到各種攻擊類型的威脅影響度Pi

其中,Coni、Inti、Avai分別指攻擊類型i的C、I、A影響分數(shù),w1、w2、w3分別對應(yīng)C、I、A的權(quán)重。

(3) 網(wǎng)絡(luò)安全態(tài)勢值

首先,計算得到網(wǎng)絡(luò)安全態(tài)勢值R

其中,N表示有N個樣本,n表示有n種攻擊類型,Cn表示Normal類型出現(xiàn)的次數(shù)。由于正常的網(wǎng)絡(luò)流量對于網(wǎng)絡(luò)環(huán)境無危害,因此Normal類型的威脅嚴重度和威脅影響度為0,只需計算n–1種攻擊類型對網(wǎng)絡(luò)安全態(tài)勢的影響即可。

然后,根據(jù)R值的區(qū)間,參考《國家突發(fā)公共事件總體應(yīng)急預(yù)案》[38]和Snort 手冊劃分網(wǎng)絡(luò)安全態(tài)勢評估等級,該安全態(tài)勢評估等級包括:安全、低危、中危、高危和超危5 個等級,對應(yīng)的態(tài)勢值區(qū)間和具體的說明如表3 所示。

表3 網(wǎng)絡(luò)安全態(tài)勢評估等級劃分表Table 3 Classification table of network security situation assessment

5 實驗與結(jié)果

為驗證本文方法對網(wǎng)絡(luò)安全態(tài)勢評估的有效性和全面性,通過實驗驗證PSAE特征提取器和注意力機制對基礎(chǔ)模型BiGRU 性能的提升效果。同時,通過與典型方法的對比實驗,驗證本文方法應(yīng)用于網(wǎng)絡(luò)安全態(tài)勢評估的客觀性與可行性。

上述實驗均在 Ubuntu 系統(tǒng)上進行,使用TensorFlow 編程實現(xiàn)網(wǎng)絡(luò)搭建,并采用TensorFlow-GPU[39]加速網(wǎng)絡(luò)訓練。實驗配置為:Intel(R) Xeon(R)Silver 處理器、32GRAM、顯卡為RTX2060、內(nèi)存16G。

5.1 數(shù)據(jù)集描述與數(shù)據(jù)預(yù)處理

由于NSL-KDD 數(shù)據(jù)集解決了KDD99 數(shù)據(jù)集的故有問題[40],其訓練集KDDTrain+不包含冗余記錄、測試集KDDTest+不包含重復(fù)記錄、訓練集和測試集記錄數(shù)量設(shè)置合理,故選取NSL-KDD 數(shù)據(jù)集進行實驗。NSL-KDD 數(shù)據(jù)集的基本信息如表4 所示。

表4 NSL-KDD 數(shù)據(jù)集信息Table 4 NSL-KDD dataset information

數(shù)據(jù)預(yù)處理過程包括特征數(shù)值化、特征約簡、特征最大最小值歸一化、平衡數(shù)據(jù)四項操作。

(1) 特征數(shù)值化

訓練網(wǎng)絡(luò)模型時需要將分類特征轉(zhuǎn)化為連續(xù)值進行輸入,NSL-KDD 數(shù)據(jù)集中包括三個分類特征,因此,通過獨熱編碼(One-Hot)將其轉(zhuǎn)化為分類向量來表示每個特征。例如,“protocol_type”的屬性“tcp”、“udp”和“icmp”將分別轉(zhuǎn)換為(1,0,1),(1,0,0)和(1,1,0)分類特征向量。用相同的方法將其余兩個分類特征轉(zhuǎn)化為對應(yīng)的分類向量。完成所有轉(zhuǎn)換后,將數(shù)據(jù)集的特征維度從41 個擴展為122 個。

(2) 特征約簡

NSL-KDD 數(shù)據(jù)集中有15 個特征為零值,由于它們的零值不會對模型訓練結(jié)果產(chǎn)生影響且刪除這些特征可以降低維度并提高訓練效率,因此,刪除這些冗余的特征,將數(shù)據(jù)集的特征維度從122 個縮減為107 個。

(3) 特征最大最小歸一化

NSL-KDD 數(shù)據(jù)集中部分特征的最大值和最小值之間的范圍差異很大,例如“duration”中最大值和最小值之間的差異最大為58329,最小為0,“srcbytes”和“dst-bytes”等特征也存在較大差異。為消除特征之間單位和尺度差異對模型訓練帶來的影響,應(yīng)對特征進行歸一化處理,提升模型的訓練效果。為此,將特征映射至[0,1]區(qū)間

其中,x表示特征原始值,xmin表示特征最小值,xmax表示特征最大值。

(4) 平衡數(shù)據(jù)

從表4 可見,NSL-KDD 數(shù)據(jù)集數(shù)據(jù)類型分布不平衡,訓練集KDDTrain+中Normal 類有67343 條數(shù)據(jù),而U2R 和R2L 僅包含52 和995 條數(shù)據(jù),不同攻擊類型數(shù)據(jù)量失衡會導致模型的弱檢測問題。因此,為了提高模型的檢測效果,本文采用ADASYN 算法[41],根據(jù)數(shù)據(jù)分布情況對不同類別的樣本采樣不同數(shù)量的新樣本,進而解決數(shù)據(jù)不平衡問題。

5.2 評價定義

為評估模型的性能,實驗選擇正確分類為正常的樣本數(shù)TN(True Negatives)、錯誤分類為正常的攻擊樣本數(shù)FN(False Negatives)、正確分類為攻擊的樣本數(shù)TP(True Positives)、錯誤分類為攻擊的正常樣本數(shù)FP(False Positives)用于定義以下指標:

準確率(Precision,P),指學習模型正確預(yù)測為攻擊的個數(shù)與學習模型預(yù)測為攻擊的樣本總數(shù)的百分比,表示為

召回率(Recall,R),指學習模型正確預(yù)測為攻擊的個數(shù)與真實類別為攻擊的樣本總數(shù)的百分比,表示為

F1 值(F1-score,F1),綜合考慮了P和R,是衡量模型檢測性能的重要指標,表示為

5.3 模型訓練與模型檢測

實驗選取訓練集KDDTrain+中的125973 條數(shù)據(jù)作為訓練集進行學習,預(yù)訓練學習率為le-3,當準確率20 輪內(nèi)不再提升時,將學習率減少為原來的0.5倍,每一批次輸入1024 條數(shù)據(jù),網(wǎng)絡(luò)迭代訓練200次。訓練完成后,選取測試集KDDTest+中的22543條數(shù)據(jù)作為測試集進行威脅檢測。

為了分析本文所提模型PSAE-ATBiGRU 的威脅檢測準確率,與原始模型BiGRU、僅用PSAE 對原始模型進行改進的模型PSAE-BiGRU 和僅用注意力機制改進的模型ATBiGRU 進行對比,圖6 展示了訓練過程中測試集在4 種模型上的準確率變化情況。

圖6 4 種模型的威脅檢測準確率Figure 6 Threat detection accuracy of four models

首先,從圖6 我們可以看到,在訓練過程中,迭代次數(shù)為40 次附近時模型的準確率波動較大,但后期準確率趨于穩(wěn)定。這是由于我們在訓練過程中,采用了動態(tài)的學習率調(diào)整策略,訓練早期學習率較大,模型還未很好的擬合數(shù)據(jù)的分布,導致模型在最優(yōu)解附近震蕩。訓練后期,模型已經(jīng)可以較好的擬合數(shù)據(jù)分布,此時學習率動態(tài)調(diào)整到較小的值,準確率趨于穩(wěn)定。

其次,由圖6 可見,與BiGRU 模型相比,PSAEBiGRU 和ATBiGRU 兩種模型的準確率分別提高了2.85%和3.64%,本文模型的準確率為82.13%,比BiGRU 模型提高了5.28%。原因在于本文模型采用PSAE 提高原始數(shù)據(jù)的表征能力,通過注意力機制進行加權(quán)特征學習,突出了上述兩種方法的優(yōu)點。

分別從準確率、召回率和F1 值方面比較分析上述4 種模型,實驗結(jié)果見圖7。其中,縱坐標表示模型評價得分,數(shù)字越大表明模型性能越好。對比結(jié)果表明,本文模型的準確率、召回率、F1 值均優(yōu)于其他3 個模型。與BiGRU、PSAE-BiGRU 和ATBiGRU模型相比,本文模型的準確率分別提高了5.28%、2.43%、1.64%;召回率分別提高了5.65%、2.58%、1.42%;F1 值分別提高了5.46%、2.5%和1.53%。

圖7 4 種模型的準確率、召回率、F1 值Figure 7 Accuracy,recall,and F1 of four models

5.4 網(wǎng)絡(luò)安全態(tài)勢評估結(jié)果與分析

為評估網(wǎng)絡(luò)的整體態(tài)勢,須對影響網(wǎng)絡(luò)安全的威脅嚴重度和威脅影響度兩個影響因素進行量化評估。首先,通過網(wǎng)絡(luò)威脅測試獲取各類攻擊發(fā)生的次數(shù)和誤報消減矩陣,再結(jié)合各類攻擊的威脅嚴重因子確定威脅嚴重度。然后,結(jié)合4.2 節(jié)各類攻擊的威脅影響度計算網(wǎng)絡(luò)安全態(tài)勢值。最后,依據(jù)態(tài)勢值區(qū)間對照表3 確定網(wǎng)絡(luò)的整體安全態(tài)勢評估結(jié)果。

隨機從測試集中選取100 組相同數(shù)據(jù)數(shù)量的測試樣本集合。將其作為輸入數(shù)據(jù)對 BiGRU、PSAE-BiGRU、ATBiGRU 和PSAE-ATBiGRU 4 種模型進行100 組測試實驗,采用本文態(tài)勢值量化方法得到基于上述4 種模型的網(wǎng)絡(luò)安全態(tài)勢值,結(jié)合網(wǎng)絡(luò)的實際態(tài)勢值計算每種模型的網(wǎng)絡(luò)安全態(tài)勢值測試誤差值。通過將式(16)中的Di替換為測試樣本中各種攻擊類型的實際次數(shù),由式(17)、(18)計算得到實際態(tài)勢值。圖8 展示了其中20 組的歸一化態(tài)勢值測試誤差值λ。

圖8 4 種模型的網(wǎng)絡(luò)安全態(tài)勢測試誤差Figure 8 The network security situation test errors of four models

由圖8 可見,BiGRU 模型的誤差值最大,而在此模型上改進的PSAE-BiGRU 和ATBiGRU 模型的誤差值均小于BiGRU 模型,驗證了本文方法的有效性。與3 種模型相比,基于本文模型PSAE-BiGRU得到網(wǎng)絡(luò)安全態(tài)勢值與真實值的測試誤差值λ最小,這說明本文方法對網(wǎng)絡(luò)安全威脅的檢測能力更突出,計算出的網(wǎng)絡(luò)安全態(tài)勢值更符合實際的網(wǎng)絡(luò)安全態(tài)勢情況。

為進一步驗證評估結(jié)果的客觀性與真實性,從NSL-KDD 測試集中隨機選取相同數(shù)量的測試樣本,采用SVM[25]、LSTM[21]、BiGRU[20]、AEDNN[22]、PSAE-ATBiGRU 模型進行威脅檢測實驗。根據(jù)威脅檢測結(jié)果獲取每個模型在每組測試實驗中各類攻擊發(fā)生的次數(shù)。最后,結(jié)合每個模型的誤報消減矩陣、各類攻擊的威脅嚴重因子、各類攻擊的C、I、A影響分數(shù),采用4.2 節(jié)態(tài)勢值計算方法得到基于上述5種模型的網(wǎng)絡(luò)安全態(tài)勢值。圖9 展示了其中20 組實驗的網(wǎng)絡(luò)態(tài)勢值對比結(jié)果。

由圖9可見,PSAE-ATBiGRU模型得到的網(wǎng)絡(luò)安全態(tài)勢值和真實的態(tài)勢值始終位于同一態(tài)勢評估區(qū)間,而SVM、LSTM、BiGRU 和AEDNN 模型得到的態(tài)勢值存在與真實態(tài)勢值不在同一區(qū)間的情況。如:在第2、15 組中,SVM、LSTM、BiGRU 和AEDNN模型的網(wǎng)絡(luò)安全態(tài)勢評估結(jié)果為中危,而真實的態(tài)勢情況為低危;在第3 組中,SVM、LSTM、BiGRU和AEDNN 模型的網(wǎng)絡(luò)安全態(tài)勢評估結(jié)果為中危,而真實的態(tài)勢情況為高危。這表明,PSAE-ATBiGRU模型的態(tài)勢評估結(jié)果更貼合實際的網(wǎng)絡(luò)態(tài)勢情況。

圖9 5 種模型的網(wǎng)絡(luò)安全態(tài)勢值對比Figure 9 Comparison of network security situation values of five models

此外,圖9 的部分測試結(jié)果中,SVM、LSTM、BiGRU、AEDNN 和PSAE-ATBiGRU 模型的態(tài)勢值均與真實的態(tài)勢值在同一態(tài)勢評估區(qū)間,但是,PSAE-ATBiGRU 模型得到的網(wǎng)絡(luò)安全態(tài)勢值始終與真實的態(tài)勢值更接近。如:在第1、6 組中,5 個模型的態(tài)勢值與真實的態(tài)勢值均在同一態(tài)勢評估區(qū)間,但是PSAE-ATBiGRU 模型的態(tài)勢值與真實態(tài)勢值之間的誤差更小。這表明,PSAE-ATBiGRU 模型對網(wǎng)絡(luò)威脅的表征能力更強。

從測試數(shù)據(jù)集中隨機選取10 組相同數(shù)量的測試樣本,模擬某一時間段內(nèi)網(wǎng)絡(luò)受到的威脅攻擊情況并進行測試實驗。在10 個相同時間段內(nèi),分別采用SVM、LSTM、BiGRU、AEDNN 和PSAE-ATBiGRU模型計算網(wǎng)絡(luò)安全態(tài)勢值與實際安全態(tài)勢值對比誤差,然后計算每段時間內(nèi)5 種模型的均方根誤差值。由表5 可見,AEDNN 模型的均方根誤差值小于SVM、LSTM 和BiGRU,因為該模型應(yīng)用UOSW 算法[22]提高了U2R 和R2L 兩種少訓練樣本類別的準確率。此外,PSAE-ATBiGRU 模型的均方根誤差值最小,其學習結(jié)果優(yōu)于其他4 種模型,由該模型得到的安全態(tài)勢值與真實安全態(tài)勢值最接近,其檢測效果更符合實際。

表5 5 種模型的均方根誤差值Table 5 Root mean square errors of five models

表6 具體展示了由本文方法得到的10 個時間段內(nèi)的安全態(tài)勢評估結(jié)果與實際態(tài)勢情況。由表6 可見,本文方法計算的態(tài)勢值與實際態(tài)勢值之間存在些許差異,但評估結(jié)果落在了相同的區(qū)域,根據(jù)表3定義的網(wǎng)絡(luò)安全態(tài)勢等級,本文方法的態(tài)勢評估結(jié)果與實際情況相符。

表6 態(tài)勢值和網(wǎng)絡(luò)安全態(tài)勢評估情況Table 6 Situation value and network security situation assessment

6 結(jié)論

本文提出了一種基于深度加權(quán)特征學習的網(wǎng)絡(luò)安全態(tài)勢評估方法。該方法使用并行特征提取方法有效增強提取特征對原始數(shù)據(jù)的表征能力,應(yīng)用注意力機制對BiGRU 網(wǎng)絡(luò)進行改進從而確定不同特征的最佳權(quán)重。通過PSAE-ATBiGRU 對網(wǎng)絡(luò)威脅進行檢測并根據(jù)檢測結(jié)果以及誤報消減矩陣評估網(wǎng)絡(luò)安全態(tài)勢。通過與BiGRU、LSTM、SVM、AEDNN 等方法的評估對比實驗,表明本文方法獲得的網(wǎng)絡(luò)安全態(tài)勢評估結(jié)果的有效性和可靠性更具優(yōu)勢。

在未來的研究中,擬考慮將本文模型應(yīng)用于更多種類的網(wǎng)絡(luò)安全數(shù)據(jù)集的威脅檢測。除此之外,研究更加有效的優(yōu)化算法以提高模型建模速度,進一步減少模型的訓練和測試時間。

猜你喜歡
態(tài)勢威脅網(wǎng)絡(luò)安全
歷史虛無主義的新近演化態(tài)勢與特征
人類的威脅
2019年12月與11月相比汽車產(chǎn)銷延續(xù)了增長態(tài)勢
匯市延續(xù)小幅震蕩態(tài)勢
新量子通信線路保障網(wǎng)絡(luò)安全
上網(wǎng)時如何注意網(wǎng)絡(luò)安全?
網(wǎng)絡(luò)安全監(jiān)測數(shù)據(jù)分析——2015年11月
搞笑圖片
我國擬制定網(wǎng)絡(luò)安全法
5月份工業(yè)經(jīng)濟運行態(tài)勢良好
扎囊县| 桦川县| 吉林省| 阳春市| 井研县| 十堰市| 汉寿县| 建平县| 永州市| 盐池县| 永安市| 临汾市| 濮阳县| 宝坻区| 兴义市| 西青区| 新宾| 双城市| 宁都县| 信宜市| 全州县| 舟山市| 深泽县| 务川| 咸阳市| 若尔盖县| 北票市| 弋阳县| 东丽区| 南城县| 太保市| 保靖县| 凤城市| 阳春市| 新竹市| 平阴县| 文山县| 玉环县| 上饶市| 思茅市| 大渡口区|