基于大數(shù)據(jù)的互聯(lián)網(wǎng)異常流量檢測研究

2018-05-14 08:55李寧

成都工業(yè)學(xué)院學(xué)報 2018年4期

李寧

摘要：為了提高網(wǎng)絡(luò)異常流量檢測結(jié)果的準(zhǔn)確性，研究基于大數(shù)據(jù)分析的網(wǎng)絡(luò)異常流量檢測方法，并運用Matlab軟件對其進行驗證，采用支持向量機算法來建立云計算平臺中的網(wǎng)絡(luò)流量檢測模型，運用現(xiàn)有的數(shù)據(jù)樣本對建立的檢測模型進行訓(xùn)練，增強其泛化能力。實驗結(jié)果表明，基于大數(shù)據(jù)的網(wǎng)絡(luò)異常流量檢測模型能夠提高檢測準(zhǔn)確率28.3%，而耗時僅為常規(guī)單機網(wǎng)絡(luò)異常流量檢測方法的12.6%。

關(guān)鍵詞：大數(shù)據(jù);異常流量檢測;云計算;支持向量機

中圖分類號：TP393文獻標(biāo)志碼：A

文章編號：2095-5383（2018）04-0034-05

隨著互聯(lián)網(wǎng)與人們的生活越發(fā)緊密，網(wǎng)絡(luò)異常事件也越發(fā)頻繁，對網(wǎng)絡(luò)的質(zhì)量和可靠性提出了直接而嚴(yán)重的挑戰(zhàn)。如能在短時間內(nèi)發(fā)現(xiàn)網(wǎng)絡(luò)異常事件，就可高效應(yīng)對并提高網(wǎng)絡(luò)通信的安全性。一方面，為保證網(wǎng)絡(luò)的相對安全，網(wǎng)絡(luò)供應(yīng)商和用戶簽署了不少的通信協(xié)議，但這些協(xié)議漏洞較多，此外，網(wǎng)絡(luò)主流產(chǎn)品存在不完善之處、操作員對管轄內(nèi)的主機存在疏于管理、木馬病毒等問題，都會對網(wǎng)絡(luò)安全提出挑戰(zhàn)。另一方面，隨著網(wǎng)絡(luò)在人類生活中的普及，網(wǎng)絡(luò)數(shù)據(jù)海量劇增，各種應(yīng)用App越發(fā)多樣，通信數(shù)據(jù)逐日劇增，如何確保企業(yè)信息的安全和對異常流量的監(jiān)測已成為當(dāng)代企業(yè)發(fā)展的一大難題。所以，對海量的數(shù)據(jù)流量進行監(jiān)測，已成為當(dāng)前互聯(lián)網(wǎng)行業(yè)的核心挑戰(zhàn)難題[1-2]。

網(wǎng)絡(luò)流量異常檢測問題可簡化認定為流量分類問題，即對一個流量狀態(tài)判別為正常流量或異常流量兩種。當(dāng)檢測結(jié)果為異常流量時，系統(tǒng)就會采取相應(yīng)的防范動作;反之，就不用進行處理。目前流量檢測模型主要是以統(tǒng)計學(xué)理論為基礎(chǔ)發(fā)展而來的，檢測模型的建立方法與檢測結(jié)果的準(zhǔn)確性息息相關(guān)，現(xiàn)有的建模方法主要有神經(jīng)網(wǎng)絡(luò)和支持向量機兩種。當(dāng)采用神經(jīng)網(wǎng)絡(luò)方法來對檢測模型進行建模時有一個檢測前提，即檢測樣本數(shù)必須達到一定數(shù)量才能保證其檢測結(jié)果的準(zhǔn)確性，反之檢測結(jié)果會存在誤差。由于在實際應(yīng)用時，檢測樣本數(shù)量是隨機的，并且還存在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)難以確定的問題，故采用神經(jīng)網(wǎng)絡(luò)方法來對流量異常檢測存在一定限制。相比之下，支持向量機就沒有這么多的限制，因其更具強大學(xué)習(xí)能力，故流量異常檢測常運用支持向量機來建立檢測模型。然而隨著數(shù)據(jù)規(guī)模的增大，支持向量機在保證檢測精度的前提下，耗費的時間越來越長，不足以滿足使用要求。隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展，云平臺處理數(shù)據(jù)能力也越發(fā)全面，尤其在解決大規(guī)模網(wǎng)絡(luò)流量異常監(jiān)測問題時更為突出，它可以將一個大的問題劃分為多個小問題，然后基于Hadoop平臺對這些小問題分散解決，并對這些分散結(jié)果進行匯總，得到最終的網(wǎng)絡(luò)流量監(jiān)測結(jié)果[3-4]。

為了保證檢測結(jié)果的準(zhǔn)確性，本文研究一種基于大數(shù)據(jù)分析的網(wǎng)絡(luò)異常流量檢測方法，并運用Matlab軟件對其進行驗證，仿真結(jié)果表明，本文設(shè)計的檢測模型應(yīng)用效果良好，優(yōu)于對比模型。

1網(wǎng)絡(luò)異常流量分析及數(shù)據(jù)特征提取

本文以影響網(wǎng)絡(luò)安全的網(wǎng)絡(luò)異常流量的檢測為主要研究內(nèi)容，核心任務(wù)是對入侵事件等網(wǎng)絡(luò)異常流量進行識別分類。運用現(xiàn)有的數(shù)據(jù)樣本對建立的檢測模型進行訓(xùn)練，增強其泛化能力。然后運用現(xiàn)有的數(shù)據(jù)樣本對訓(xùn)練后的識別分析模型做檢驗，驗證其識別效果。

本文研究的異常流量類型主要分為4種：DOS攻擊類型、U2R攻擊類型、R2L攻擊類型以及Probing攻擊類型。要想從海量數(shù)據(jù)中精準(zhǔn)識別影響網(wǎng)絡(luò)安全的異常流量，需要對所有數(shù)據(jù)特征進行提取、分析、驗證等步驟來對入侵事件進行識別和分類。本文應(yīng)用15種入侵事件的特征數(shù)據(jù)[5]：

1）持續(xù)工作時間：service_continuance;2）離散的不間斷協(xié)議：continued_protocol;3）離散的工作種類：type_service;4）離散的常規(guī)行為或入侵事件：regular or assault;5）離散的接點狀態(tài)：connection_state;6）不間斷的分片事故總數(shù)：error_num_fragmentation;7）不間斷的失敗登陸記錄總數(shù)：num_failed_attempts;8）不間斷的由數(shù)據(jù)源到目標(biāo)的數(shù)據(jù)比特數(shù)：src_dst_bytes;9）不間斷的目前和過去2 s時間段內(nèi)相同目標(biāo)地址的銜接總數(shù)：same_dst_count;10）不間斷的目前和過去2 s時間段內(nèi)相同工作類型的銜接總數(shù)：same_service_count;11）不間斷的目前和過去2 s時間段內(nèi)相同目標(biāo)地址中錯誤SYN銜接占比：syn_error_proportion;12）不間斷的目前和過去2 s時間段內(nèi)相同工作類型中錯誤SYN銜接占比：srv_error_proportion;13）不間斷的目前和過去2 s時間段內(nèi)相同工作類型中不同目標(biāo)地址銜接的占比：dst_diff_host_proportion;14）不間斷的前100個銜接中與目前地址和服務(wù)均相同的銜接的占比：service_host_same_srv_proportion;15）持續(xù)的創(chuàng)建新文件個數(shù)：num_file_operations。

2大數(shù)據(jù)分析模型

2.1基于Hadoop的大數(shù)據(jù)分析系統(tǒng)框架

隨著待處理數(shù)據(jù)規(guī)模的劇增，計算硬件系統(tǒng)的發(fā)展已滿足不了應(yīng)用要求，單臺計算機處理數(shù)據(jù)速度過于緩慢，效率低下，故云計算系統(tǒng)應(yīng)運而生。在該系統(tǒng)中，以Hadoop作為平臺基礎(chǔ)，以Map/Reduce操作作為工具來對數(shù)據(jù)進行分布式處理，提高計算效率。Hadoop工作原理如圖 1 所示[6]。

基于Hadoop平臺對網(wǎng)絡(luò)異常流量進行識別操作流程如下：

1）操作人員向Hadoop平臺提交網(wǎng)絡(luò)流量檢測請求：首先使用Job Client指令從Job Tracker中獲得網(wǎng)絡(luò)流量檢測作業(yè)地址。然后工程JAR包開始運行，使用Job Client指令把程序可識別的網(wǎng)絡(luò)流量特征數(shù)據(jù)和一些相關(guān)數(shù)據(jù)文件Copy到HDFS中。最后通過Job Client指令把上述作業(yè)發(fā)送至Job Tracker中，Job Tracker再對數(shù)據(jù)信息執(zhí)行檢查動作，并從HDFS中獲取作業(yè)分類情況，為后面的執(zhí)行動作做準(zhǔn)備。

2）分配及初始化作業(yè)任務(wù)：Job Tracker模塊在收到作業(yè)任務(wù)后會立即執(zhí)行任務(wù)初始化操作，并且會對獲取的任務(wù)進行隊列排布。在Hadoop平臺中運用作業(yè)調(diào)度器可實現(xiàn)對該任務(wù)的調(diào)度動作。通過對Task Tracker心跳情況進行分析，Job Tracker模塊會依據(jù)分析結(jié)果對在各節(jié)點上進行任務(wù)布置，因為在DataNode模塊上也會放置一些特征數(shù)據(jù)，故在MapTask動作的執(zhí)行過程中，Job Tracker可以直接獲取輸入數(shù)據(jù)，減少網(wǎng)絡(luò)損耗[7]。

3）作業(yè)任務(wù)Map動作過程：在任務(wù)分配完成之后，就進入Map階段，該階段所需的數(shù)據(jù)及JAR文件都可從HDFS中提取，并且會在本地磁盤中進行儲存。對JAR文件和數(shù)據(jù)加載動作的實現(xiàn)是依靠對計算機Java虛擬機的執(zhí)行，此時Task Tracker就會收到數(shù)據(jù)塊，開始對作業(yè)任務(wù)進行處理。在Map動作過程中，需要對文件庫中的網(wǎng)絡(luò)流量特征和輸入網(wǎng)絡(luò)流量特征兩者間進行測試，之后將文件庫中的網(wǎng)絡(luò)流量類別和距離測試的結(jié)果作為最終輸出結(jié)果的鍵值對進行輸出，Map動作的最終結(jié)果會在本地計算機磁盤中存儲。

4）作業(yè)任務(wù)Reduce動作過程：系統(tǒng)在獲得Map動作階段的計算結(jié)果后，就開始執(zhí)行Reduce動作，對網(wǎng)絡(luò)流量進行分類。MapReduce動作的分類標(biāo)準(zhǔn)是依照上一階段計算得到的鍵值對，當(dāng)中間結(jié)果鍵值相同時就會將與之相對應(yīng)的網(wǎng)絡(luò)流量特征向量進行整理與合并，之后通過ReduceTask模塊對合并結(jié)果再次進行整理。ReduceTask模塊可以對MapTask的輸出結(jié)果進行排序，排序后得到的網(wǎng)絡(luò)流量分類結(jié)果會在HDFS模塊中進行存儲。

5）結(jié)束網(wǎng)絡(luò)流量分類動作：在Reduce動作完成之后，JobTracker會對任務(wù)狀態(tài)進行判斷，在確定任務(wù)完成后會執(zhí)行相應(yīng)動作，并且操作者也可以通過JobTracker模塊來獲取任務(wù)運行的結(jié)果參數(shù)。最后系統(tǒng)會通過JobTracker模塊清空當(dāng)前作業(yè)狀態(tài)，刪除Map動作產(chǎn)生的相應(yīng)中間數(shù)據(jù)，操作者可以通過HDFS模塊進行結(jié)果數(shù)據(jù)查看[8]。

2.2分類器模型建立

BP神經(jīng)網(wǎng)絡(luò)可用于建立網(wǎng)絡(luò)流量檢測模型。應(yīng)用BP神經(jīng)網(wǎng)絡(luò)對網(wǎng)絡(luò)流量進行識別時需要經(jīng)過大量的矩陣運算，盡管MapReduce平臺具有高效計算優(yōu)勢，但是由于神經(jīng)網(wǎng)絡(luò)自身結(jié)構(gòu)原因，最優(yōu)參數(shù)結(jié)果的獲得需要多次反復(fù)的計算優(yōu)化才能獲得，這就制約了該算法在MapReduce平臺的應(yīng)用，由于MapReduce平臺單次不能實現(xiàn)神經(jīng)網(wǎng)絡(luò)計算任務(wù)，需要多次循環(huán)多練優(yōu)化操作，所以采用BP神經(jīng)網(wǎng)絡(luò)算法在MapReduce平臺建立的網(wǎng)絡(luò)流量檢測模型不但不會縮減計算時間，更有可能加長計算時間，故該類算法不適用于MapReduce模型。

所以本文采用支持向量機算法來建立云計算平臺中的網(wǎng)絡(luò)流量檢測模型。支持向量機是一種用于機器學(xué)習(xí)的方法，它是以統(tǒng)計學(xué)習(xí)理論作為基礎(chǔ)，通過尋找結(jié)構(gòu)化風(fēng)險最小為途徑來增強其學(xué)習(xí)能力，以此來達到經(jīng)驗風(fēng)險和置信范圍最小的目的。正是基于這種能力，該算法才可以實現(xiàn)從少數(shù)量樣本中，獲得最優(yōu)統(tǒng)計規(guī)律，即尋求出正、負分類的最大間隔。

目前采用支持向量機算法來建立的網(wǎng)絡(luò)異常流量檢測模型通常是由單臺計算機獨立完成的，對計算機硬件系統(tǒng)要求較高?，F(xiàn)在云計算Hadoop平臺為采用支持向量機算法建立網(wǎng)絡(luò)異常流量檢測模型提供了便捷，能夠充分發(fā)揮MapReduce模型的高效率計算特征，詳細過程如圖2所示。

MapReduce模型中整體支持向量AllSVs的獲得是通過Map和Reduce兩步操作。通過Map操作獲得訓(xùn)練數(shù)據(jù)支持向量SVs;通過Reduce操作對SVs進行收集，進而建立整體的AllSVs模塊。實際測試操作流程首先運用Map操作來對各測試數(shù)據(jù)子集進行計算，進而獲得各分量結(jié)果Rs，然后運用Reduce操作對各分量結(jié)果Rs進行統(tǒng)計，獲得最終的識別結(jié)果[11]。

3網(wǎng)絡(luò)異常流量檢測分析實例

3.1實驗平臺搭建

使用KDD CUP99數(shù)據(jù)集中的數(shù)據(jù)進行網(wǎng)絡(luò)異常流量檢測分析。選取包括DOS 攻擊、R2L 攻擊、U2R攻擊、Probing 攻擊四類異常流量數(shù)據(jù)以及正常流量數(shù)據(jù)在內(nèi)的10 000條數(shù)據(jù)用于檢測分析。建立4組實驗樣本，各個實驗樣本中各類型流量的數(shù)據(jù)數(shù)量如表2所示。

為了對所有網(wǎng)絡(luò)流量檢測的識別方法做出宏觀評價，一般采用反饋率（recall）和準(zhǔn)確率（precision）這兩個參數(shù)來衡量檢測方法的好壞。

其中：TP為已經(jīng)準(zhǔn)確識別動作A特征的樣本數(shù)量;FN為沒有識別動作A特征的樣本數(shù)量;FP為被錯誤識別動作A特征的樣本數(shù)量。

3.2檢測系統(tǒng)測試分析

使用單機平臺下SVM算法建立的網(wǎng)絡(luò)異常檢測模型和本文研究大數(shù)據(jù)分析平臺下的網(wǎng)絡(luò)異常檢測模型進行對比分析，各個實驗樣本下的檢測準(zhǔn)確率對比如圖3所示。

各實驗樣本的檢測準(zhǔn)確率對比表明，本文研究的檢測模型的平均識別率為68.5%，使用單機平臺下SVM算法建立的網(wǎng)絡(luò)異常檢測模型的平均識別率為40.2%，本文研究的基于大數(shù)據(jù)的網(wǎng)絡(luò)異常流量檢測模型能夠提高28.3%的檢測準(zhǔn)確率。

在當(dāng)前大數(shù)據(jù)環(huán)境下，檢測模型不僅要滿足日益增長的對準(zhǔn)確率的要求，同時還要滿足一定的檢測實時性。通過多次實驗對比使用本文提出的網(wǎng)絡(luò)異常流量檢測方法和常規(guī)的單機網(wǎng)絡(luò)異常流量檢測方法進行檢測的耗時對比，如圖4所示。

耗時對比顯示，使用本文提出的網(wǎng)絡(luò)異常流量檢測耗時僅為常規(guī)單機網(wǎng)絡(luò)異常流量檢測的12.6%，說明本文提出的檢測方法具有更好的實時性。

4結(jié)論

1）為了保證檢測結(jié)果的準(zhǔn)確性，本文研究基于大數(shù)據(jù)分析的網(wǎng)絡(luò)異常流量檢測方法，并運用Matlab軟件對其進行驗證。

2）本文研究的基于大數(shù)據(jù)的網(wǎng)絡(luò)異常流量檢測模型能夠提高28.3%的檢測準(zhǔn)確率。

3）使用本文提出的網(wǎng)絡(luò)異常流量檢測方法的檢測耗時僅為常規(guī)單機網(wǎng)絡(luò)異常流量檢測方法的12.6%，說明本文提出的檢測方法相比常規(guī)方法具有更好的實時性。

參考文獻：[1]陳勝，朱國勝，祁小云，等.基于機器學(xué)習(xí)的網(wǎng)絡(luò)異常流量檢測研究[J].信息通信，2017（12）：3942.

[2]張楠，李洪敏，盧敏，等.網(wǎng)絡(luò)異常流量檢測方法[J].兵工自動化，2016，35（9）：6669.

[3]張曉艷.基于機器學(xué)習(xí)的網(wǎng)絡(luò)異常流量檢測方法[J].現(xiàn)代電子技術(shù)，2015，38（23）：7679.

[4]李洪洋.淺析網(wǎng)絡(luò)異常流量分析檢測研究與實現(xiàn)[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用，2013（10）：6364.

[5]宋玲，常磊.變異粒子群優(yōu)化的 BP 神經(jīng)網(wǎng)絡(luò)在入侵檢測中的應(yīng)用[J].智能系統(tǒng)學(xué)報， 2013（6）：558563.

[6]蒲曉川.大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)流量異常檢測研究[J].現(xiàn)代電子技術(shù)，2018，41（3）：8487.

[7]陳洪.基于云計算的大規(guī)模圖像檢索后臺處理系統(tǒng)實現(xiàn)[D].成都：西南交通大學(xué)，2013.

[8]梁世磊.基于Hadoop平臺的隨機森林算法研究及圖像分類系統(tǒng)實現(xiàn)[D].廈門：廈門大學(xué)，2014.

[9]張水波，康飛，李祥飛.基于支持向量機的建設(shè)工程項目經(jīng)理勝任力評價[J].中國軟科學(xué)，2013（11）：8390.

[10]劉治翔，謝春雪，毛君，等.空心陰極真空電弧焊接的引弧機理及參數(shù)優(yōu)化[J].振動.測試與診斷，2018，38（3）：614618.

[11]朱啟敏.基于云計算平臺的神經(jīng)網(wǎng)絡(luò)計算方法及其應(yīng)用研究[D].廣州：華南理工大學(xué)，2014.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于大數(shù)據(jù)的互聯(lián)網(wǎng)異常流量檢測研究