李寧
摘要:為了提高網(wǎng)絡(luò)異常流量檢測結(jié)果的準(zhǔn)確性,研究基于大數(shù)據(jù)分析的網(wǎng)絡(luò)異常流量檢測方法,并運用Matlab軟件對其進行驗證,采用支持向量機算法來建立云計算平臺中的網(wǎng)絡(luò)流量檢測模型,運用現(xiàn)有的數(shù)據(jù)樣本對建立的檢測模型進行訓(xùn)練,增強其泛化能力。實驗結(jié)果表明,基于大數(shù)據(jù)的網(wǎng)絡(luò)異常流量檢測模型能夠提高檢測準(zhǔn)確率28.3%,而耗時僅為常規(guī)單機網(wǎng)絡(luò)異常流量檢測方法的12.6%。
關(guān)鍵詞:大數(shù)據(jù);異常流量檢測;云計算;支持向量機
中圖分類號:TP393文獻標(biāo)志碼:A
文章編號:2095-5383(2018)04-0034-05
隨著互聯(lián)網(wǎng)與人們的生活越發(fā)緊密,網(wǎng)絡(luò)異常事件也越發(fā)頻繁,對網(wǎng)絡(luò)的質(zhì)量和可靠性提出了直接而嚴(yán)重的挑戰(zhàn)。如能在短時間內(nèi)發(fā)現(xiàn)網(wǎng)絡(luò)異常事件,就可高效應(yīng)對并提高網(wǎng)絡(luò)通信的安全性。一方面,為保證網(wǎng)絡(luò)的相對安全,網(wǎng)絡(luò)供應(yīng)商和用戶簽署了不少的通信協(xié)議,但這些協(xié)議漏洞較多,此外,網(wǎng)絡(luò)主流產(chǎn)品存在不完善之處、操作員對管轄內(nèi)的主機存在疏于管理、木馬病毒等問題,都會對網(wǎng)絡(luò)安全提出挑戰(zhàn)。另一方面,隨著網(wǎng)絡(luò)在人類生活中的普及,網(wǎng)絡(luò)數(shù)據(jù)海量劇增,各種應(yīng)用App越發(fā)多樣,通信數(shù)據(jù)逐日劇增,如何確保企業(yè)信息的安全和對異常流量的監(jiān)測已成為當(dāng)代企業(yè)發(fā)展的一大難題。所以,對海量的數(shù)據(jù)流量進行監(jiān)測,已成為當(dāng)前互聯(lián)網(wǎng)行業(yè)的核心挑戰(zhàn)難題[1-2]。
網(wǎng)絡(luò)流量異常檢測問題可簡化認定為流量分類問題,即對一個流量狀態(tài)判別為正常流量或異常流量兩種。當(dāng)檢測結(jié)果為異常流量時,系統(tǒng)就會采取相應(yīng)的防范動作;反之,就不用進行處理。目前流量檢測模型主要是以統(tǒng)計學(xué)理論為基礎(chǔ)發(fā)展而來的,檢測模型的建立方法與檢測結(jié)果的準(zhǔn)確性息息相關(guān),現(xiàn)有的建模方法主要有神經(jīng)網(wǎng)絡(luò)和支持向量機兩種。當(dāng)采用神經(jīng)網(wǎng)絡(luò)方法來對檢測模型進行建模時有一個檢測前提,即檢測樣本數(shù)必須達到一定數(shù)量才能保證其檢測結(jié)果的準(zhǔn)確性,反之檢測結(jié)果會存在誤差。由于在實際應(yīng)用時,檢測樣本數(shù)量是隨機的,并且還存在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)難以確定的問題,故采用神經(jīng)網(wǎng)絡(luò)方法來對流量異常檢測存在一定限制。相比之下,支持向量機就沒有這么多的限制,因其更具強大學(xué)習(xí)能力,故流量異常檢測常運用支持向量機來建立檢測模型。然而隨著數(shù)據(jù)規(guī)模的增大,支持向量機在保證檢測精度的前提下,耗費的時間越來越長,不足以滿足使用要求。隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,云平臺處理數(shù)據(jù)能力也越發(fā)全面,尤其在解決大規(guī)模網(wǎng)絡(luò)流量異常監(jiān)測問題時更為突出,它可以將一個大的問題劃分為多個小問題,然后基于Hadoop平臺對這些小問題分散解決,并對這些分散結(jié)果進行匯總,得到最終的網(wǎng)絡(luò)流量監(jiān)測結(jié)果[3-4]。
為了保證檢測結(jié)果的準(zhǔn)確性,本文研究一種基于大數(shù)據(jù)分析的網(wǎng)絡(luò)異常流量檢測方法,并運用Matlab軟件對其進行驗證,仿真結(jié)果表明,本文設(shè)計的檢測模型應(yīng)用效果良好,優(yōu)于對比模型。
1網(wǎng)絡(luò)異常流量分析及數(shù)據(jù)特征提取
本文以影響網(wǎng)絡(luò)安全的網(wǎng)絡(luò)異常流量的檢測為主要研究內(nèi)容,核心任務(wù)是對入侵事件等網(wǎng)絡(luò)異常流量進行識別分類。運用現(xiàn)有的數(shù)據(jù)樣本對建立的檢測模型進行訓(xùn)練,增強其泛化能力。然后運用現(xiàn)有的數(shù)據(jù)樣本對訓(xùn)練后的識別分析模型做檢驗,驗證其識別效果。
本文研究的異常流量類型主要分為4種:DOS攻擊類型、U2R攻擊類型、R2L攻擊類型以及Probing攻擊類型。要想從海量數(shù)據(jù)中精準(zhǔn)識別影響網(wǎng)絡(luò)安全的異常流量,需要對所有數(shù)據(jù)特征進行提取、分析、驗證等步驟來對入侵事件進行識別和分類。本文應(yīng)用15種入侵事件的特征數(shù)據(jù)[5]:
1)持續(xù)工作時間:service_continuance;2)離散的不間斷協(xié)議:continued_protocol;3)離散的工作種類:type_service;4)離散的常規(guī)行為或入侵事件:regular or assault;5)離散的接點狀態(tài):connection_state;6)不間斷的分片事故總數(shù):error_num_fragmentation;7)不間斷的失敗登陸記錄總數(shù):num_failed_attempts;8)不間斷的由數(shù)據(jù)源到目標(biāo)的數(shù)據(jù)比特數(shù):src_dst_bytes;9)不間斷的目前和過去2 s時間段內(nèi)相同目標(biāo)地址的銜接總數(shù):same_dst_count;10)不間斷的目前和過去2 s時間段內(nèi)相同工作類型的銜接總數(shù):same_service_count;11)不間斷的目前和過去2 s時間段內(nèi)相同目標(biāo)地址中錯誤SYN銜接占比:syn_error_proportion;12) 不間斷的目前和過去2 s時間段內(nèi)相同工作類型中錯誤SYN銜接占比:srv_error_proportion;13) 不間斷的目前和過去2 s時間段內(nèi)相同工作類型中不同目標(biāo)地址銜接的占比:dst_diff_host_proportion;14)不間斷的前100個銜接中與目前地址和服務(wù)均相同的銜接的占比:service_host_same_srv_proportion;15)持續(xù)的創(chuàng)建新文件個數(shù):num_file_operations。
2大數(shù)據(jù)分析模型
2.1基于Hadoop的大數(shù)據(jù)分析系統(tǒng)框架
隨著待處理數(shù)據(jù)規(guī)模的劇增,計算硬件系統(tǒng)的發(fā)展已滿足不了應(yīng)用要求,單臺計算機處理數(shù)據(jù)速度過于緩慢,效率低下,故云計算系統(tǒng)應(yīng)運而生。在該系統(tǒng)中,以Hadoop作為平臺基礎(chǔ),以Map/Reduce操作作為工具來對數(shù)據(jù)進行分布式處理,提高計算效率。Hadoop工作原理如圖 1 所示[6]。
基于Hadoop平臺對網(wǎng)絡(luò)異常流量進行識別操作流程如下:
1)操作人員向Hadoop平臺提交網(wǎng)絡(luò)流量檢測請求:首先使用Job Client指令從Job Tracker中獲得網(wǎng)絡(luò)流量檢測作業(yè)地址。然后工程JAR包開始運行,使用Job Client指令把程序可識別的網(wǎng)絡(luò)流量特征數(shù)據(jù)和一些相關(guān)數(shù)據(jù)文件Copy到HDFS中。最后通過Job Client指令把上述作業(yè)發(fā)送至Job Tracker中,Job Tracker再對數(shù)據(jù)信息執(zhí)行檢查動作,并從HDFS中獲取作業(yè)分類情況,為后面的執(zhí)行動作做準(zhǔn)備。
2)分配及初始化作業(yè)任務(wù):Job Tracker模塊在收到作業(yè)任務(wù)后會立即執(zhí)行任務(wù)初始化操作,并且會對獲取的任務(wù)進行隊列排布。在Hadoop平臺中運用作業(yè)調(diào)度器可實現(xiàn)對該任務(wù)的調(diào)度動作。通過對Task Tracker心跳情況進行分析,Job Tracker模塊會依據(jù)分析結(jié)果對在各節(jié)點上進行任務(wù)布置,因為在DataNode模塊上也會放置一些特征數(shù)據(jù),故在MapTask動作的執(zhí)行過程中,Job Tracker可以直接獲取輸入數(shù)據(jù),減少網(wǎng)絡(luò)損耗[7]。
3)作業(yè)任務(wù)Map動作過程:在任務(wù)分配完成之后,就進入Map階段,該階段所需的數(shù)據(jù)及JAR文件都可從HDFS中提取,并且會在本地磁盤中進行儲存。對JAR文件和數(shù)據(jù)加載動作的實現(xiàn)是依靠對計算機Java虛擬機的執(zhí)行,此時Task Tracker就會收到數(shù)據(jù)塊,開始對作業(yè)任務(wù)進行處理。在Map動作過程中,需要對文件庫中的網(wǎng)絡(luò)流量特征和輸入網(wǎng)絡(luò)流量特征兩者間進行測試,之后將文件庫中的網(wǎng)絡(luò)流量類別和距離測試的結(jié)果作為最終輸出結(jié)果的鍵值對進行輸出,Map動作的最終結(jié)果會在本地計算機磁盤中存儲。
4)作業(yè)任務(wù)Reduce動作過程:系統(tǒng)在獲得Map動作階段的計算結(jié)果后,就開始執(zhí)行Reduce動作,對網(wǎng)絡(luò)流量進行分類。MapReduce動作的分類標(biāo)準(zhǔn)是依照上一階段計算得到的鍵值對,當(dāng)中間結(jié)果鍵值相同時就會將與之相對應(yīng)的網(wǎng)絡(luò)流量特征向量進行整理與合并,之后通過ReduceTask模塊對合并結(jié)果再次進行整理。ReduceTask模塊可以對MapTask的輸出結(jié)果進行排序,排序后得到的網(wǎng)絡(luò)流量分類結(jié)果會在HDFS模塊中進行存儲。
5)結(jié)束網(wǎng)絡(luò)流量分類動作:在Reduce動作完成之后,JobTracker會對任務(wù)狀態(tài)進行判斷,在確定任務(wù)完成后會執(zhí)行相應(yīng)動作,并且操作者也可以通過JobTracker模塊來獲取任務(wù)運行的結(jié)果參數(shù)。最后系統(tǒng)會通過JobTracker模塊清空當(dāng)前作業(yè)狀態(tài),刪除Map動作產(chǎn)生的相應(yīng)中間數(shù)據(jù),操作者可以通過HDFS模塊進行結(jié)果數(shù)據(jù)查看[8]。
2.2分類器模型建立
BP神經(jīng)網(wǎng)絡(luò)可用于建立網(wǎng)絡(luò)流量檢測模型。應(yīng)用BP神經(jīng)網(wǎng)絡(luò)對網(wǎng)絡(luò)流量進行識別時需要經(jīng)過大量的矩陣運算,盡管MapReduce平臺具有高效計算優(yōu)勢,但是由于神經(jīng)網(wǎng)絡(luò)自身結(jié)構(gòu)原因,最優(yōu)參數(shù)結(jié)果的獲得需要多次反復(fù)的計算優(yōu)化才能獲得,這就制約了該算法在MapReduce平臺的應(yīng)用,由于MapReduce平臺單次不能實現(xiàn)神經(jīng)網(wǎng)絡(luò)計算任務(wù),需要多次循環(huán)多練優(yōu)化操作,所以采用BP神經(jīng)網(wǎng)絡(luò)算法在MapReduce平臺建立的網(wǎng)絡(luò)流量檢測模型不但不會縮減計算時間,更有可能加長計算時間,故該類算法不適用于MapReduce模型。
所以本文采用支持向量機算法來建立云計算平臺中的網(wǎng)絡(luò)流量檢測模型。支持向量機是一種用于機器學(xué)習(xí)的方法,它是以統(tǒng)計學(xué)習(xí)理論作為基礎(chǔ),通過尋找結(jié)構(gòu)化風(fēng)險最小為途徑來增強其學(xué)習(xí)能力,以此來達到經(jīng)驗風(fēng)險和置信范圍最小的目的。正是基于這種能力,該算法才可以實現(xiàn)從少數(shù)量樣本中,獲得最優(yōu)統(tǒng)計規(guī)律,即尋求出正、負分類的最大間隔。
目前采用支持向量機算法來建立的網(wǎng)絡(luò)異常流量檢測模型通常是由單臺計算機獨立完成的,對計算機硬件系統(tǒng)要求較高?,F(xiàn)在云計算Hadoop平臺為采用支持向量機算法建立網(wǎng)絡(luò)異常流量檢測模型提供了便捷,能夠充分發(fā)揮MapReduce模型的高效率計算特征,詳細過程如圖2所示。
MapReduce模型中整體支持向量AllSVs的獲得是通過Map和Reduce兩步操作。通過Map操作獲得訓(xùn)練數(shù)據(jù)支持向量SVs;通過Reduce操作對SVs進行收集,進而建立整體的AllSVs模塊。實際測試操作流程首先運用Map操作來對各測試數(shù)據(jù)子集進行計算,進而獲得各分量結(jié)果Rs,然后運用Reduce操作對各分量結(jié)果Rs進行統(tǒng)計,獲得最終的識別結(jié)果[11]。
3網(wǎng)絡(luò)異常流量檢測分析實例
3.1實驗平臺搭建
使用KDD CUP99數(shù)據(jù)集中的數(shù)據(jù)進行網(wǎng)絡(luò)異常流量檢測分析。選取包括DOS 攻擊、R2L 攻擊、U2R攻擊、Probing 攻擊四類異常流量數(shù)據(jù)以及正常流量數(shù)據(jù)在內(nèi)的10 000條數(shù)據(jù)用于檢測分析。建立4組實驗樣本,各個實驗樣本中各類型流量的數(shù)據(jù)數(shù)量如表2所示。
為了對所有網(wǎng)絡(luò)流量檢測的識別方法做出宏觀評價,一般采用反饋率(recall)和準(zhǔn)確率(precision)這兩個參數(shù)來衡量檢測方法的好壞。
其中:TP為已經(jīng)準(zhǔn)確識別動作A特征的樣本數(shù)量;FN為沒有識別動作A特征的樣本數(shù)量;FP為被錯誤識別動作A特征的樣本數(shù)量。
3.2檢測系統(tǒng)測試分析
使用單機平臺下SVM算法建立的網(wǎng)絡(luò)異常檢測模型和本文研究大數(shù)據(jù)分析平臺下的網(wǎng)絡(luò)異常檢測模型進行對比分析,各個實驗樣本下的檢測準(zhǔn)確率對比如圖3所示。
各實驗樣本的檢測準(zhǔn)確率對比表明,本文研究的檢測模型的平均識別率為68.5%,使用單機平臺下SVM算法建立的網(wǎng)絡(luò)異常檢測模型的平均識別率為40.2%,本文研究的基于大數(shù)據(jù)的網(wǎng)絡(luò)異常流量檢測模型能夠提高28.3%的檢測準(zhǔn)確率。
在當(dāng)前大數(shù)據(jù)環(huán)境下,檢測模型不僅要滿足日益增長的對準(zhǔn)確率的要求,同時還要滿足一定的檢測實時性。通過多次實驗對比使用本文提出的網(wǎng)絡(luò)異常流量檢測方法和常規(guī)的單機網(wǎng)絡(luò)異常流量檢測方法進行檢測的耗時對比,如圖4所示。
耗時對比顯示,使用本文提出的網(wǎng)絡(luò)異常流量檢測耗時僅為常規(guī)單機網(wǎng)絡(luò)異常流量檢測的12.6%,說明本文提出的檢測方法具有更好的實時性。
4結(jié)論
1)為了保證檢測結(jié)果的準(zhǔn)確性,本文研究基于大數(shù)據(jù)分析的網(wǎng)絡(luò)異常流量檢測方法,并運用Matlab軟件對其進行驗證。
2)本文研究的基于大數(shù)據(jù)的網(wǎng)絡(luò)異常流量檢測模型能夠提高28.3%的檢測準(zhǔn)確率。
3) 使用本文提出的網(wǎng)絡(luò)異常流量檢測方法的檢測耗時僅為常規(guī)單機網(wǎng)絡(luò)異常流量檢測方法的12.6%,說明本文提出的檢測方法相比常規(guī)方法具有更好的實時性。
參考文獻:[1]陳勝,朱國勝,祁小云,等.基于機器學(xué)習(xí)的網(wǎng)絡(luò)異常流量檢測研究[J].信息通信,2017(12):3942.
[2]張楠,李洪敏,盧敏,等.網(wǎng)絡(luò)異常流量檢測方法[J].兵工自動化,2016,35(9):6669.
[3]張曉艷.基于機器學(xué)習(xí)的網(wǎng)絡(luò)異常流量檢測方法[J].現(xiàn)代電子技術(shù),2015,38(23):7679.
[4]李洪洋.淺析網(wǎng)絡(luò)異常流量分析檢測研究與實現(xiàn)[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2013(10):6364.
[5]宋玲, 常磊.變異粒子群優(yōu)化的 BP 神經(jīng)網(wǎng)絡(luò)在入侵檢測中的應(yīng)用[J].智能系統(tǒng)學(xué)報, 2013(6):558563.
[6]蒲曉川.大數(shù)據(jù)環(huán)境下的網(wǎng)絡(luò)流量異常檢測研究[J].現(xiàn)代電子技術(shù),2018,41(3):8487.
[7]陳洪.基于云計算的大規(guī)模圖像檢索后臺處理系統(tǒng)實現(xiàn)[D].成都:西南交通大學(xué),2013.
[8]梁世磊.基于Hadoop平臺的隨機森林算法研究及圖像分類系統(tǒng)實現(xiàn)[D].廈門:廈門大學(xué),2014.
[9]張水波,康飛,李祥飛.基于支持向量機的建設(shè)工程項目經(jīng)理勝任力評價[J].中國軟科學(xué),2013(11):8390.
[10]劉治翔,謝春雪,毛君,等.空心陰極真空電弧焊接的引弧機理及參數(shù)優(yōu)化[J].振動.測試與診斷,2018,38(3):614618.
[11]朱啟敏.基于云計算平臺的神經(jīng)網(wǎng)絡(luò)計算方法及其應(yīng)用研究[D].廣州:華南理工大學(xué),2014.