任守東,陳 亮,佟曉童,李繪妍,張 晶
(1.國網(wǎng)撫順供電公司,遼寧 撫順 113008;2.國網(wǎng)遼寧省電力有限公司,遼寧 沈陽 110006)
終端計(jì)算機(jī)與終端操作用戶如今面臨的巨大挑戰(zhàn)之一便是網(wǎng)絡(luò)入侵行為,其所帶來的損失后果也是極其嚴(yán)重的。如網(wǎng)絡(luò)入侵行為發(fā)生在終端設(shè)備穩(wěn)定運(yùn)行的進(jìn)程中,極有可能造成文件損壞、主機(jī)癱瘓等后果,更嚴(yán)重的甚至?xí)?duì)網(wǎng)絡(luò)產(chǎn)生不可逆的威脅。入侵檢測(cè)技術(shù)是一種更為先進(jìn)的信息安全技術(shù),有著持續(xù)監(jiān)控網(wǎng)絡(luò)中的計(jì)算機(jī)及網(wǎng)絡(luò)數(shù)據(jù)的作用,并且能夠?qū)σ恍┐嬖谟诰W(wǎng)絡(luò)中的惡意或不良行為做出識(shí)別與檢測(cè)。相比于已廣泛應(yīng)用的但卻僅僅起到了阻擋外部網(wǎng)絡(luò)入侵作用的防火墻技術(shù)而言,入侵檢測(cè)技術(shù)在具備防火墻性能的基礎(chǔ)上,還具備了檢測(cè)網(wǎng)絡(luò)內(nèi)部的一些惡意行為的特性。其工作原理是收集并分析網(wǎng)絡(luò)中的入侵行為,如對(duì)網(wǎng)絡(luò)日志的處理,對(duì)網(wǎng)絡(luò)信息的檢測(cè)與監(jiān)聽或?qū)θ罩竞蛿?shù)據(jù)包的分析與排除。網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)具有實(shí)時(shí)監(jiān)測(cè)識(shí)別惡意入侵行為的性能,這些入侵行為大都來源于網(wǎng)絡(luò)的內(nèi)部和外部。在監(jiān)測(cè)到入侵行為的同時(shí),便可以向用戶發(fā)出警告,能夠避免網(wǎng)絡(luò)系統(tǒng)遭到惡意行為的傷害,從而使計(jì)算機(jī)內(nèi)部一些重要的信息能夠得到妥善的保存。
隨著人工智能方法的普及,入侵檢測(cè)技術(shù)也逐漸朝著智能化的方向發(fā)展。智能化的快速發(fā)展以機(jī)器學(xué)習(xí)為相應(yīng)的基礎(chǔ),這也是因?yàn)橛?jì)算機(jī)性能的提升及科技的飛速進(jìn)步。而到目前為止,以人工智能或機(jī)器學(xué)習(xí)為基礎(chǔ)的網(wǎng)絡(luò)入侵檢測(cè)技術(shù)所存在的問題,如耗時(shí)長(zhǎng)、檢測(cè)率低、處理數(shù)據(jù)效率低且量小等,依然有待解決。因此,提出基于機(jī)器學(xué)習(xí)和大數(shù)據(jù)技術(shù)的網(wǎng)絡(luò)入侵檢測(cè)技術(shù),根據(jù)大數(shù)據(jù)分析技術(shù)的網(wǎng)絡(luò)入侵原理,將GRU(Gate Recurrent Unit)與SVM(Support Vector Machines)分類算法相結(jié)合,提高分類精度,最后選擇當(dāng)前標(biāo)準(zhǔn)的網(wǎng)絡(luò)入侵檢測(cè)數(shù)據(jù)集進(jìn)行仿真實(shí)驗(yàn),驗(yàn)證基于機(jī)器學(xué)習(xí)和大數(shù)據(jù)分析技術(shù)的網(wǎng)絡(luò)入侵檢測(cè)的有效性和優(yōu)越性。
計(jì)算機(jī)網(wǎng)絡(luò)入侵檢測(cè)防御體系,是一種以大數(shù)據(jù)技術(shù)為基礎(chǔ)而形成的新型計(jì)算機(jī)網(wǎng)絡(luò)安全防御方式,其具有更為高效且全面地檢測(cè)并將一些計(jì)算機(jī)網(wǎng)絡(luò)信息的安全問題進(jìn)行處理的能力。主要過程可以分為以下步驟:
(1)對(duì)網(wǎng)絡(luò)中的數(shù)據(jù)進(jìn)行抽取,以行為特征為根據(jù)來抽取網(wǎng)絡(luò)行為;
(2)對(duì)相應(yīng)數(shù)據(jù)進(jìn)行預(yù)處理,從而能夠得到具有相對(duì)一致性的數(shù)據(jù)模式,具體方式為,將上述以抽取方式所得到的行為特征數(shù)據(jù)完成清洗,集成并進(jìn)行轉(zhuǎn)化等預(yù)處理步驟;
(3)以構(gòu)建起入侵檢測(cè)的行為模型為手段,對(duì)網(wǎng)絡(luò)安全進(jìn)行防護(hù)檢測(cè),從而最終達(dá)到攔截并響應(yīng)相關(guān)非法網(wǎng)絡(luò)行為的目的。
基于上述步驟,在抽取并預(yù)處理相關(guān)數(shù)據(jù)的過程中,應(yīng)制定相關(guān)的數(shù)據(jù)處理規(guī)則,從而解決數(shù)據(jù)來源復(fù)雜、量大且格式嚴(yán)重不統(tǒng)一的難題。最終達(dá)到能夠確保數(shù)據(jù)的完善與有效的同時(shí)使數(shù)據(jù)的質(zhì)量也有所提高的目的。大數(shù)據(jù)技術(shù)的基礎(chǔ),就是完成數(shù)據(jù)的收集與入侵模型的構(gòu)建步驟后,最終能夠通過所得到的入侵行為特征,來判別處理一系列的網(wǎng)絡(luò)行為。
GRU神經(jīng)網(wǎng)絡(luò)是Cho等人在2014年提出的比LSTM網(wǎng)絡(luò)更高效的版本。它比LSTM網(wǎng)絡(luò)結(jié)構(gòu)更簡(jiǎn)單,效果更佳,也解決了RNN的長(zhǎng)時(shí)記憶和梯度問題。
GRU模型有更新門和重置門兩個(gè)門。具體結(jié)構(gòu)如圖1所示:
圖1 GRU神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
圖中代表更新門,代表重置門,這一切都來自于之前傳遞的狀態(tài)(-1)和當(dāng)前節(jié)點(diǎn)的輸入(),計(jì)算公式如下:
=(·[(-1),()])
(1)
=(·[(-1),()])
(2)
(3)
(4)
最后為GRU神經(jīng)網(wǎng)絡(luò)更新階段。在此階段中,將更新門用于選擇和遺忘。更新階段的表達(dá)式如式(4)所示。更新門的范圍為0~1,門控信號(hào)越趨近于1,說明它記憶的數(shù)據(jù)越多,而越趨近于0,越是被遺忘。
SVM是一種監(jiān)督學(xué)習(xí)模型,可在分類和回歸分析之間分析數(shù)據(jù)。它的基本思想是定義一個(gè)函數(shù)空間中間隔最大的線性分類器。SVM分類器還包括允許非線性分類的核技術(shù)。SVM分類器的學(xué)習(xí)策略是最優(yōu)分類超平面,其中這個(gè)超平面必須滿足分類要求,在保證分類精度的同時(shí),最大化超平面兩側(cè)的空白空間。SVM的主要思想如下:給定一組數(shù)據(jù)集={(,),(,),…,(,)},其中,∈,∈{-1,1},=1,2,…,,
滿足:
(·+)≥1
(5)
使得:
(6)
根據(jù)拉格朗日對(duì)偶,求解原問題的對(duì)偶問題即可得到最優(yōu)解,經(jīng)過轉(zhuǎn)換后為:
(7)
將目標(biāo)公式加負(fù)號(hào)后,把求解最大值問題轉(zhuǎn)換為最小值問題,經(jīng)過轉(zhuǎn)換后為:
(8)
經(jīng)過計(jì)算得到解后,我們進(jìn)一步根據(jù)求解和,得到最大分離超平面和分類決策函數(shù)。
根據(jù)SVM分類器的特點(diǎn),使用SVM分類器代替Softmax方法,將此方法作為GRU模型的輸出,并通過使用交叉熵函數(shù)來計(jì)算損失。
圖2是GRU-SVM模型的示意圖,由圖可知,模型前-1個(gè)為GRU單元,包括到-1個(gè)各種狀態(tài),以及到-1個(gè)不同的輸入,得到輸出結(jié)果的方法為SVM分類器。
圖2 GRU-SVM模型示意圖
GRU-SVM模型流程圖如圖3所示。首先將數(shù)據(jù)集輸入模型中,初始化神經(jīng)網(wǎng)絡(luò)權(quán)重和偏置,然后計(jì)算神經(jīng)網(wǎng)絡(luò)參數(shù)。通過比較損失函數(shù)與理想值的差異,迭代優(yōu)化權(quán)重和方差,通過不斷訓(xùn)練,構(gòu)建理想的神經(jīng)網(wǎng)絡(luò)模型。
圖3 GRU-SVM模型流程圖
采用從一個(gè)模擬的美國空軍局域網(wǎng)上采集來的9個(gè)星期的網(wǎng)絡(luò)連接數(shù)據(jù)集——NSL-KDD數(shù)據(jù)集,主要目的是對(duì)GRU-SVM模型的網(wǎng)絡(luò)入侵檢測(cè)效率進(jìn)行相應(yīng)的分析,這其中包含了9800條數(shù)據(jù)。由此可見,而每一條記錄都是由56個(gè)入侵行為特征及一個(gè)網(wǎng)絡(luò)行為類型所組成的。NSL-KDD數(shù)據(jù)集是由1類正常行為和4類入侵行為組成,實(shí)驗(yàn)應(yīng)對(duì)數(shù)據(jù)進(jìn)行部分隨機(jī)抽取完成。文中采用以RNN和LSTM算法為基礎(chǔ)的網(wǎng)絡(luò)入侵檢測(cè)法來進(jìn)行對(duì)比測(cè)試研究,從而增加了GRU-SVM模型的網(wǎng)絡(luò)入侵檢測(cè)結(jié)果的說服力。
統(tǒng)計(jì)基于GRU-SVM模型、RNN-SVM模型和LSTM-SVM模型的網(wǎng)絡(luò)入侵檢測(cè)方法對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,并對(duì)測(cè)試樣本進(jìn)行檢測(cè),檢測(cè)結(jié)果如圖4~圖6所示。
圖4 正確率對(duì)比
圖5 誤檢率對(duì)比
圖6 漏檢率對(duì)比
由圖可知,基于RNN-SVM模型的網(wǎng)絡(luò)入侵檢測(cè)的正確率最低,誤檢率和漏檢率最高,難以建立理想的網(wǎng)絡(luò)入侵檢測(cè)模型;基于GRU-SVM模型的網(wǎng)絡(luò)入侵檢測(cè)效果要明顯優(yōu)于基于RNN-SVM模型和LSTM-SVM模型,說明SVM分類器與GRU神經(jīng)網(wǎng)絡(luò)結(jié)合與另外兩個(gè)模型相比具有明顯的分類優(yōu)勢(shì),基于GRU-SVM模型的網(wǎng)絡(luò)入侵檢測(cè)成功率相當(dāng)高,網(wǎng)絡(luò)入侵行為的漏檢率與誤檢率明顯降低,相對(duì)于其他檢測(cè)模型,基于GRU-SVM模型的網(wǎng)絡(luò)入侵檢測(cè)整體效果得到了有效改善,可以保證網(wǎng)絡(luò)安全。
統(tǒng)計(jì)基于RNN-SVM模型、LSTM-SVM模型與GRU-SVM模型的網(wǎng)絡(luò)入侵時(shí)間,如表1所示。
表1 網(wǎng)絡(luò)入侵檢測(cè)時(shí)間對(duì)比
從表中可以看出,相對(duì)于基于RNN-SVM模型和LSTM-SVM模型的,基于GRU-SVM模型的網(wǎng)絡(luò)入侵檢測(cè)時(shí)間明顯減少,這充分表明了時(shí)間一致的情況下,GRU-SVM模型的網(wǎng)絡(luò)入侵檢測(cè)效率更高,可以滿足檢測(cè)大規(guī)模網(wǎng)絡(luò)入侵的需要。
基于探索并研究網(wǎng)絡(luò)入侵領(lǐng)域,提出了以大數(shù)據(jù)技術(shù)和機(jī)器學(xué)習(xí)為基礎(chǔ)的入侵檢測(cè)方法,首先描述了大數(shù)據(jù)分析技術(shù)中的網(wǎng)絡(luò)入侵基本原理,然后將GRU神經(jīng)網(wǎng)絡(luò)與SVM分類算法進(jìn)行融合,從而實(shí)現(xiàn)了分類精度有所提高的效果,最后進(jìn)行一系列仿真實(shí)驗(yàn),其中實(shí)驗(yàn)挑選符合當(dāng)前標(biāo)準(zhǔn)的網(wǎng)絡(luò)入侵檢測(cè)所形成的數(shù)據(jù)集來完成。最終結(jié)果顯示,本文所提出的方法能夠高效、高標(biāo)準(zhǔn)地檢測(cè)網(wǎng)絡(luò)入侵,對(duì)網(wǎng)絡(luò)系統(tǒng)的安全具有更多的保障。由于采用數(shù)據(jù)集相比真實(shí)的網(wǎng)絡(luò)數(shù)據(jù)有較小的噪音,而且冗余信息較少,所以提出的模型在真實(shí)環(huán)境中的性能可能較差,需要嘗試獲取真實(shí)的網(wǎng)絡(luò)數(shù)據(jù),來對(duì)模型進(jìn)行改進(jìn),使模型能真正應(yīng)用于實(shí)際的網(wǎng)絡(luò)入侵檢測(cè)中。