国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于GRU和K-means算法的入侵檢測模型與方法研究

2022-04-01 07:08:06昊,郝寬,姜
企業(yè)科技與發(fā)展 2022年11期
關(guān)鍵詞:特征提取聚類對象

李 昊,郝 寬,姜 偉

(哈爾濱師范大學 計算機科學與信息工程學院,黑龍江 哈爾濱 150025)

0 引言

隨著互聯(lián)網(wǎng)及網(wǎng)絡(luò)應(yīng)用的飛速發(fā)展,人們的生產(chǎn)生活已經(jīng)深度依賴網(wǎng)絡(luò),人們從互聯(lián)網(wǎng)中獲取信息也變得極為便利,這就難以避免海量的數(shù)據(jù)信息通過網(wǎng)絡(luò)進行傳播。互聯(lián)網(wǎng)提高了人們的生活生產(chǎn)效率與質(zhì)量,但同時,一系列網(wǎng)絡(luò)安全問題也相應(yīng)產(chǎn)生,比如網(wǎng)絡(luò)入侵,不論是個人、企業(yè),還是政府、軍隊的信息,一旦被不法分子竊取、篡改,極有可能造成無法彌補的損失。

傳統(tǒng)的基于防火墻等的靜態(tài)安全防范技術(shù)已然無法滿足當前網(wǎng)絡(luò)安全的需求,為了更好地應(yīng)對當前的網(wǎng)絡(luò)安全問題,現(xiàn)在更多應(yīng)用主動防御的網(wǎng)絡(luò)入侵檢測系統(tǒng)。但是隨著網(wǎng)絡(luò)攻擊智能化,網(wǎng)絡(luò)入侵檢測系統(tǒng)也面臨著巨大的挑戰(zhàn),需要對入侵檢測技術(shù)進行不斷研究。

在網(wǎng)絡(luò)流量中,惡意的網(wǎng)絡(luò)攻擊往往隱藏在大量的正常行為中。它在網(wǎng)絡(luò)流量中表現(xiàn)出高度的隱身性和模糊性,使得網(wǎng)絡(luò)入侵檢測系統(tǒng)難以保證檢測的準確性和及時性。研究機器學習和深度學習在入侵檢測問題上的應(yīng)用,提出了一種結(jié)合GRU網(wǎng)絡(luò)和K-means的算法模型進行入侵行為檢測。首先,利用GRU網(wǎng)絡(luò)對網(wǎng)絡(luò)行為進行信息特征提取,實現(xiàn)全面有效的特征學習。其次,使用K-means算法對前置輸入進行聚類,對于那些暫時無法進行屬性判斷的流量行為,再次進行特征提取后使用K-means算法進行分類,有效減少傳統(tǒng)二分類入侵檢測對于暫時無法判斷的流量行為的誤判動作。

1 相關(guān)知識

1.1 GRU網(wǎng)絡(luò)

CHO等[1]提出了門控循環(huán)單元(gated recurrentunit,GRU)。相比于長短期記憶網(wǎng)絡(luò)(LSTM,Long Short-Term Memory),GRU網(wǎng)絡(luò)具有更為簡潔的模型,GRU中去除了細胞狀態(tài),有重置門和更新門兩個門限結(jié)構(gòu),重置門確定如何將前一時刻的記憶與新的輸入信息相結(jié)合,表示前一時刻信息的忽略程度,值越大代表忽略的信息程度越小。更新門代表前一時刻信息對當前狀態(tài)的傾向程度,用于控制前一時刻的狀態(tài)信息被帶入到當前狀態(tài)中的程度,值越大代表影響越大[2]。GRU結(jié)構(gòu)在多種場景下被證實有效,具有計算方便、訓練速度更快的特點,同時可以很好地將長距離的信息進行依賴保存,有效解決梯度問題。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)用于分析或預(yù)測順序數(shù)據(jù)[3],這使得它成為入侵檢測的一個可行的候選對象,因為網(wǎng)絡(luò)流量數(shù)據(jù)本質(zhì)上是順序的[3]:

上式中,zt代表更新門,rt代表重置門,tanh為雙曲正切函數(shù),σ為Sigmoid函數(shù),w為t時刻的權(quán)值矩陣。

基于這些特點,本研究采用GRU網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

圖1 GRU網(wǎng)絡(luò)結(jié)構(gòu)圖

1.2 K-means算法

聚類算法一般分為劃分聚類和層次聚類,K-means算法是Macqueen在1967年提出的一種劃分聚類算法[4]。K-means算法是一種基于劃分的無監(jiān)督的聚類算法,利用數(shù)據(jù)對象間的距離作為相似性的評價指標[5]。傳統(tǒng)的K-means算法如下:對給定包含n個對象的數(shù)據(jù)集x:x={x1,x2,x3,…,xn},其中每個對象都具有m個維度的屬性,依據(jù)對象間的相似性,最終將n個對象聚集到指定的k個類簇中,每個對象屬于且僅屬于一個聚簇類,這個對象到這個類簇中心距離為最小。

K-means算法的實現(xiàn)步驟。①初始化k個聚類中心:{C1,C2,C3,…,Ck},1

圖2 K-means算法流程圖

2 基于K-means算法的入侵檢測模型與方法

2.1 入侵檢測算法整體流程

構(gòu)建的基于GRU網(wǎng)絡(luò)和K-means算法的入侵檢測方法,其整體流程主要包括兩大部分:一部分為預(yù)處理數(shù)據(jù),使用GRU網(wǎng)絡(luò)對數(shù)據(jù)特征進行提??;另一部分為使用K-means算法對上步驟輸入的數(shù)據(jù)進行聚類劃分。

在進行特征提取之前,需要先對所選數(shù)據(jù)進行預(yù)處理,在這個階段,主要工作是將數(shù)據(jù)集中的字符型特征使用One-hot進行數(shù)值化轉(zhuǎn)換,再劃分訓練集、測試集。采用Train_Test_Split()函數(shù)劃分數(shù)據(jù)集來盡量平均劃分數(shù)據(jù)樣本,減少人為主觀原因帶來的誤差。Train_Test_Split()是交叉驗證中常用的函數(shù),對目標數(shù)據(jù)集的劃分具有隨機的、按比例的功能,將目標數(shù)據(jù)集劃分為訓練數(shù)據(jù)集(Train Data) 和測試數(shù)據(jù)集(Testdata)。

2.2 基于GRU網(wǎng)絡(luò)的特征提取

待檢測的網(wǎng)絡(luò)輸入數(shù)據(jù)復(fù)雜度一般較高,導致RNN網(wǎng)絡(luò)的結(jié)構(gòu)較為復(fù)雜,容易出現(xiàn)梯度消失等問題。在GRU的單元結(jié)構(gòu)中,無須考慮循環(huán)神經(jīng)網(wǎng)絡(luò)中的隱藏層的細胞狀態(tài),LSTM網(wǎng)絡(luò)中的輸入門和遺忘門被替代,減少了相應(yīng)網(wǎng)絡(luò)的參數(shù)數(shù)量,提高了模型收斂性能,降低了時間復(fù)雜度。同時,網(wǎng)絡(luò)流量數(shù)據(jù)是具有時序特征的序列數(shù)據(jù),例如DDos攻擊,就是使用短時間內(nèi)對某服務(wù)大量訪問的手段達到使被攻擊服務(wù)不可用的目的,而GRU能對具有時序特征的數(shù)據(jù)進行很好的處理。融合GRU網(wǎng)絡(luò)的部分主要對數(shù)據(jù)進行特征提取及數(shù)據(jù)降維處理。主要步驟如下:①將上一層的輸入進行整合;②對數(shù)據(jù)進行長距離依賴特征提??;③將特征張量化后輸出;④對下一層邊界域中數(shù)據(jù)進行處理(如圖3所示)。

圖3 GRU網(wǎng)絡(luò)特征提取示意圖

3 實驗與結(jié)果分析

3.1 數(shù)據(jù)集

在真實的網(wǎng)絡(luò)環(huán)境中,每時每刻產(chǎn)生的數(shù)據(jù)流量都是巨大的,并且具有分布不均的特點。仿真實驗使用的數(shù)據(jù)9數(shù)據(jù)集中冗余和重復(fù)的樣本,樣本分布較KDDCup 99更合理。KDD99產(chǎn)出于1999年第三屆國集為NSLKDD,NSL-KDD是KDDCup 99的改進版本[6],主要是消除了KDDCup 9際知識發(fā)現(xiàn)和數(shù)據(jù)挖掘工具大賽。此數(shù)據(jù)集共有大約500萬條數(shù)據(jù),共收集了9個星期。

3.2 實驗環(huán)境

本實驗使用的機器配置如下。處理器:11th Gen Intel(R)Core(TM)i5-11320H@3.20 GHz;內(nèi)存:16.0 GB(單通道);硬盤:512GB(SSD)。

軟件環(huán)境及版本如下。操作系統(tǒng):Windows 10家庭中文版21H2;集成開發(fā)環(huán)境:PyCharm 2021.1;編程語言:Python 3.6。

3.3 評價指標

實驗評價指標是入侵檢測中常用的評價指標,分別為:準確率(Accuracy)、召回率(Recal)l、精確率(Precision)、F1 (F1-score)。

準確率(Accuracy)表示模型對給定樣本判別能力:

召回率(Recall)表示真實攻擊樣本在所有攻擊樣本中的比例:

精確率(Precision)表示真實攻擊樣本在被預(yù)測為攻擊樣本中的比例:

F1(F1-score)表示整體指標及Recall與Precision兩項指標:

以上指標中,TP為預(yù)測為非入侵的正樣本;TN為預(yù)測為入侵的負樣;FN為預(yù)測為入侵的正樣本;FP為預(yù)測為非入侵的負樣本。

3.4 實驗分析與結(jié)果

對同一數(shù)據(jù)集,用隨機函數(shù)選出訓練數(shù)據(jù)集,進行5次共得到5組隨機訓練集,在每組數(shù)據(jù)集上進行3輪訓練,取平均值,各指標見表1。

表1 不同訓練集模型檢測效果

除了已提出的模型,作為對照實驗,使用同一數(shù)據(jù)集在不同模型進行相關(guān)的實驗,結(jié)果對比見表2。

表2 不同模型檢測效果

通過橫向和縱向?qū)Ρ?,可以得出算法模型具有一定的?yōu)勢。但是在實驗過程中也發(fā)現(xiàn),對于流量相對較小的攻擊,無法充分學習其特征,從而導致檢測結(jié)果并不理想。在實際的環(huán)境中,攻擊行為越來越隱蔽且方式新奇,對于如何更好地及時檢測出這種攻擊行為,提高模型泛化能力仍是未來研究的重點。

4 結(jié)語

機器學習與深度學習逐漸和入侵檢測領(lǐng)域交叉結(jié)合,取得了較好的效果。對入侵檢測進行了深入研究與設(shè)計,在神經(jīng)網(wǎng)絡(luò)方面選取了結(jié)構(gòu)更為簡潔的GRU網(wǎng)絡(luò),提出了一種結(jié)合GRU網(wǎng)絡(luò)及K-means算法的混合入侵檢測方法,在兼顧檢測效率、精度及可靠性的同時,盡量控制成本。實驗結(jié)果表明,提出的方法為入侵檢測方法模型拓展了思路,具有一定的可行性,值得繼續(xù)深入研究。

猜你喜歡
特征提取聚類對象
神秘來電
睿士(2023年2期)2023-03-02 02:01:09
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
攻略對象的心思好難猜
意林(2018年3期)2018-03-02 15:17:24
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
Bagging RCSP腦電特征提取算法
基于熵的快速掃描法的FNEA初始對象的生成方法
區(qū)間對象族的可鎮(zhèn)定性分析
基于改進的遺傳算法的模糊聚類算法
一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
基于MED和循環(huán)域解調(diào)的多故障特征提取
长白| 米易县| 尚义县| 黎城县| 石泉县| 合山市| 北辰区| 三门峡市| 曲阳县| 汝南县| 渝北区| 香港| 霞浦县| 抚宁县| 伊川县| 汉寿县| 南华县| 汶川县| 邢台市| 察雅县| 渑池县| 太原市| 万源市| 咸丰县| 驻马店市| 泰和县| 城市| 崇左市| 乌兰浩特市| 讷河市| 大宁县| 平远县| 大厂| 遂平县| 贵阳市| 阳高县| 青州市| 丹棱县| 三门峡市| 西华县| 莆田市|