李明桂,肖 毅,陳劍鋒,許 杰
(中國(guó)電子科技集團(tuán)公司第三十研究所,四川 成都 610041)
基于大數(shù)據(jù)的安全事件挖掘框架*
李明桂,肖 毅,陳劍鋒,許 杰
(中國(guó)電子科技集團(tuán)公司第三十研究所,四川 成都 610041)
安全態(tài)勢(shì)感知是掌控網(wǎng)絡(luò)空間的聽(tīng)覺(jué)和視覺(jué),安全事件的獲取是安全態(tài)勢(shì)感知的基礎(chǔ)。在大數(shù)據(jù)時(shí)代,安全事件的挖掘是一個(gè)典型的大數(shù)據(jù)問(wèn)題。運(yùn)用大數(shù)據(jù)技術(shù)進(jìn)行網(wǎng)絡(luò)安全研究,構(gòu)建了一種安全事件挖掘框架,結(jié)合在線反饋和離線分析兩種方式,從海量、多源、異構(gòu)的原始數(shù)據(jù)中,提取有效的安全事件,發(fā)現(xiàn)安全風(fēng)險(xiǎn)、潛在威脅和未知攻擊。挖掘結(jié)果可用于安全態(tài)勢(shì)感知、攻擊追蹤溯源、攻擊知識(shí)學(xué)習(xí)等進(jìn)一步研究。
大數(shù)據(jù) 安全事件 數(shù)據(jù)挖掘 機(jī)器學(xué)習(xí)
自棱鏡計(jì)劃曝光以后,國(guó)家層面在網(wǎng)絡(luò)空間安全領(lǐng)域相繼展開(kāi)大動(dòng)作,網(wǎng)絡(luò)安全領(lǐng)導(dǎo)小組成立、世界互聯(lián)網(wǎng)安全大會(huì)在烏鎮(zhèn)召開(kāi)、國(guó)家網(wǎng)絡(luò)安全宣傳周設(shè)定,網(wǎng)絡(luò)空間的安全越來(lái)越受到全社會(huì)的關(guān)注。
關(guān)注網(wǎng)絡(luò)空間安全,需要能夠全面感知網(wǎng)絡(luò)安全態(tài)勢(shì),而安全事件是網(wǎng)絡(luò)安全態(tài)勢(shì)感知的基礎(chǔ),這就要求能夠快速、高效、準(zhǔn)確地發(fā)現(xiàn)網(wǎng)絡(luò)安全事件。安全事件的提取依賴于以主動(dòng)方式獲取的探針數(shù)據(jù)和以被動(dòng)方式接收的上報(bào)數(shù)據(jù)。探針數(shù)據(jù)是指操作系統(tǒng)、防火墻、入侵檢測(cè)等產(chǎn)生的日志信息或告警信息。上報(bào)數(shù)據(jù)則是指網(wǎng)絡(luò)用戶、運(yùn)營(yíng)商等主動(dòng)上報(bào)的威脅信息。在大規(guī)模網(wǎng)絡(luò)環(huán)境中,數(shù)量龐大、類型不一的安全防護(hù)設(shè)備將產(chǎn)生大數(shù)據(jù)級(jí)、格式多樣的日志、告警和威脅信息。在此背景下,傳統(tǒng)的數(shù)據(jù)挖掘或安全分析方法就不再適用了。
在大規(guī)模網(wǎng)絡(luò)環(huán)境中,安全事件的挖掘已經(jīng)成為一個(gè)大數(shù)據(jù)問(wèn)題,需要借助大數(shù)據(jù)分析技術(shù)予以解決。
大數(shù)據(jù)分析是指用以解決大數(shù)據(jù)問(wèn)題的,包括集成、存儲(chǔ)、處理、分析、評(píng)估、預(yù)測(cè)等在內(nèi)的方法[1]。它具有兩層涵義:其一是處理的數(shù)據(jù)量非常龐大,這是一個(gè)存儲(chǔ)問(wèn)題;其二是如何對(duì)海量的數(shù)據(jù)進(jìn)行分析,這是一個(gè)計(jì)算問(wèn)題。因而,現(xiàn)有的大數(shù)據(jù)技術(shù)都可以被劃分為存儲(chǔ)和計(jì)算兩個(gè)層面。
國(guó)外針對(duì)大數(shù)據(jù)的研究開(kāi)展較早,已經(jīng)取得了頗為豐碩的成果,形成了以Hadoop為基礎(chǔ)的大數(shù)據(jù)生態(tài)系統(tǒng)[2],包括HDFS、GFS、MapReduce、YARN、Spark、Storm、HBase、BigTable、Hive、Mahout、Pig、Impala、Dremel、Kafka、Flume、Lucene、Zookeeper等。
在大數(shù)據(jù)發(fā)展的短短幾年間,Hadoop從一種邊緣技術(shù)已然成為大數(shù)據(jù)分析事實(shí)上的標(biāo)準(zhǔn)。
Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式存儲(chǔ)和計(jì)算的軟件框架。Hadoop框架最核心的設(shè)計(jì)就是HDFS和MapReduce,HDFS為海量數(shù)據(jù)提供存儲(chǔ),則MapReduce為海量數(shù)據(jù)提供計(jì)算。Hadoop平臺(tái)廣泛應(yīng)用于大數(shù)據(jù)處理,得益于其自身在數(shù)據(jù)提取、轉(zhuǎn)換和加載(ETL)方面上的天然優(yōu)勢(shì)。Hadoop的分布式架構(gòu),將大數(shù)據(jù)處理引擎盡可能的靠近存儲(chǔ),對(duì)例如像ETL這樣的批處理操作相對(duì)合適,因?yàn)轭愃撇僮鞯呐幚斫Y(jié)果直接走向存儲(chǔ)。Hadoop的MapReduce功能實(shí)現(xiàn)了將單個(gè)任務(wù)打碎,并將碎片任務(wù)發(fā)送(Map)到多個(gè)節(jié)點(diǎn)上,之后再以單個(gè)數(shù)據(jù)集的形式加載(Reduce)到數(shù)據(jù)倉(cāng)庫(kù)里。
雖然我國(guó)在大數(shù)據(jù)領(lǐng)域的研究起步較晚,但我國(guó)是一個(gè)天然的數(shù)據(jù)大國(guó),擁有著絕對(duì)量數(shù)據(jù)資源。目前,國(guó)內(nèi)針對(duì)大數(shù)據(jù)的研究正如火如荼。比如,中國(guó)計(jì)算機(jī)協(xié)會(huì)(CCF)專門(mén)成立了大數(shù)據(jù)專家委員會(huì),可以看出大數(shù)據(jù)在國(guó)內(nèi)已經(jīng)受到了足夠的重視。國(guó)內(nèi)廠商的研究成果主要以百度、阿里巴巴、騰訊等互聯(lián)網(wǎng)巨頭和中國(guó)移動(dòng)、中國(guó)電信、中國(guó)聯(lián)通等電信運(yùn)營(yíng)商為代表,尤以“BAT”三巨頭為最。其中,百度成立了深度學(xué)習(xí)研究院開(kāi)展大數(shù)據(jù)和深度神經(jīng)網(wǎng)絡(luò)的研究,已經(jīng)面向市場(chǎng)推出了“百度預(yù)測(cè)”、“百度大數(shù)據(jù)引擎”產(chǎn)品。阿里巴巴繼推出阿里云之后,又高調(diào)打造大數(shù)據(jù)平臺(tái)服務(wù)。騰訊也開(kāi)放了大數(shù)據(jù)基礎(chǔ)平臺(tái),提供大數(shù)據(jù)技術(shù)框架。然而,眼下國(guó)內(nèi)的大數(shù)據(jù)產(chǎn)品大都基于國(guó)外開(kāi)源軟件修改而來(lái),且研究進(jìn)度明顯滯后于美國(guó)等發(fā)達(dá)國(guó)家,天然的海量數(shù)據(jù)資源還沒(méi)有能力充分加以利用。
在大規(guī)模網(wǎng)絡(luò)環(huán)境中,安全事件的挖掘是一個(gè)大數(shù)據(jù)問(wèn)題。大數(shù)據(jù)問(wèn)題需要具體問(wèn)題具體分析。落實(shí)到安全事件的挖掘這個(gè)問(wèn)題上,大數(shù)據(jù)的分析技術(shù)使我們看到了從海量的原始數(shù)據(jù)中發(fā)現(xiàn)安全威脅的可能。
挖掘網(wǎng)絡(luò)安全事件,需要結(jié)合離線和在線兩種方式,離線方式以深層分析為主,在線方式以快速反饋為先,兩者互為補(bǔ)充。在線方式用于實(shí)時(shí)或準(zhǔn)實(shí)時(shí)地捕捉短時(shí)間高并發(fā)的攻擊行為,例如,端口掃描、嗅探、DDoS等。而離線的方式能夠發(fā)現(xiàn)更深層次的威脅,例如周期或潛伏期較長(zhǎng)的APT類攻擊。
基于上述思想,提出一種安全事件挖掘系統(tǒng)框架,如圖1所示。
圖1 安全事件挖掘系統(tǒng)框架
在線反饋平臺(tái)接入網(wǎng)絡(luò)中,在線收集和處理原始數(shù)據(jù),實(shí)時(shí)或準(zhǔn)實(shí)時(shí)地給出安全事件的挖掘結(jié)果。離線分析平臺(tái)在線下收集和分析全網(wǎng)的歷史數(shù)據(jù),利用聚類、關(guān)聯(lián)和深度學(xué)習(xí)等方法,深層次地挖掘安全事件。離線平臺(tái)注重挖掘結(jié)果,適當(dāng)弱化時(shí)延的要求,在線平臺(tái)則強(qiáng)調(diào)分析的實(shí)時(shí)性,容忍一定的遺漏,兩者為補(bǔ)充。
安全事件處理平臺(tái)維護(hù)全局的安全事件庫(kù),用于進(jìn)一步的處理,如安全態(tài)勢(shì)感知、攻擊追蹤溯源、攻擊知識(shí)學(xué)習(xí)等。
3.1 在線反饋平臺(tái)
在線反饋平臺(tái)收集原始數(shù)據(jù),并對(duì)其進(jìn)行并行化ETL處理。這是因?yàn)?,原始?shù)據(jù)具有多源異構(gòu)性,需要對(duì)其進(jìn)行清洗,去除冗余、統(tǒng)一格式,以便后續(xù)分析。數(shù)據(jù)清洗時(shí),只保留事件挖掘所關(guān)心的字段信息,并按照預(yù)先定義的數(shù)據(jù)格式存于數(shù)據(jù)庫(kù)中。挖掘引擎利用并行化聚類算法從數(shù)據(jù)庫(kù)中挖掘有效的安全事件,并轉(zhuǎn)交給安全事件處理平臺(tái)進(jìn)一步分析。挖掘引擎中的深度學(xué)習(xí)訓(xùn)練模塊以規(guī)則庫(kù)為依據(jù)在線地進(jìn)行訓(xùn)練,訓(xùn)練完畢的深度學(xué)習(xí)算法可用于離線分析,同時(shí),離線平臺(tái)會(huì)將新的事件挖掘結(jié)果抽象成規(guī)則用于更新在線平臺(tái)的規(guī)則庫(kù)。在線反饋平臺(tái)基本架構(gòu)如圖2所示。
圖2 在線反饋平臺(tái)基本架構(gòu)
在線反饋平臺(tái)基于Spark框架,Spark采用內(nèi)存計(jì)算方式對(duì)批量數(shù)據(jù)進(jìn)行流處理,具有高效的計(jì)算能力和并發(fā)處理能力[3],特別適用于在線分析的情形。此外,Spark的流計(jì)算與深度學(xué)習(xí)數(shù)據(jù)交互簡(jiǎn)單,學(xué)習(xí)成本較低,資源可統(tǒng)一規(guī)劃,并且能夠充分利用足夠量的在線數(shù)據(jù)作為訓(xùn)練樣本。此外,由于Hadoop不支持迭代[4],因而不能用于深度學(xué)習(xí)的訓(xùn)練過(guò)程,即便通過(guò)復(fù)雜的設(shè)計(jì)使深度學(xué)習(xí)訓(xùn)練能夠在Hadoop上實(shí)現(xiàn),其效率也將是非常不理想的。這也是在線反饋平臺(tái)基于Spark框架的另一個(gè)原因。
各數(shù)據(jù)源通過(guò)數(shù)據(jù)高速公路進(jìn)入在線反饋平臺(tái)。數(shù)據(jù)高速公路選用Kafka,由Linked in提供,是一種分布式消息系統(tǒng),其數(shù)據(jù)消費(fèi)方式支持pull模式,具有O(1)復(fù)雜度的持久化和很高的吞吐率。憑借這些特性,Kafka非常適用于在線反饋平臺(tái)對(duì)高并發(fā)數(shù)據(jù)的在線計(jì)算。
通過(guò)并行化的ETL過(guò)程對(duì)多源異構(gòu)的原始數(shù)據(jù)進(jìn)行預(yù)處理。ETL的并行化是因?yàn)椋阂环矫?,?shù)據(jù)吞吐量大,并行化能夠大大提高處理效率;另一方面,Spark是基于MapReduce原理構(gòu)建的,并行化能夠較為容易的實(shí)現(xiàn)。
經(jīng)過(guò)ETL的數(shù)據(jù)存放于數(shù)據(jù)庫(kù)中,數(shù)據(jù)庫(kù)選用Shark。Shark類似于Hadoop上的Hive[5],本質(zhì)上是通過(guò)Hive的HQL解析,把HQL翻譯成Spark上的RDD操作,然后通過(guò)Hive的metadata獲取數(shù)據(jù)庫(kù)里的表信息,實(shí)際存放于HDFS的數(shù)據(jù)和文件會(huì)由Shark獲取并放到Spark上計(jì)算。
挖掘引擎對(duì)高并發(fā)數(shù)據(jù)進(jìn)行實(shí)時(shí)或準(zhǔn)實(shí)時(shí)處理,采用批量流計(jì)算模型。與MapReduce調(diào)度計(jì)算不同,流計(jì)算是對(duì)數(shù)據(jù)的調(diào)度。流計(jì)算能夠?qū)α魇綌?shù)據(jù)進(jìn)行實(shí)時(shí)或準(zhǔn)實(shí)時(shí)處理,能夠根據(jù)計(jì)算的規(guī)模進(jìn)行彈性資源擴(kuò)展,能夠靈活數(shù)據(jù)處理任務(wù)之間的依賴關(guān)系,較為適合對(duì)數(shù)據(jù)的在線分析與處理,但是流計(jì)算不適合海量數(shù)據(jù)處理的情形。選用Spark Streaming能夠很好的解決這個(gè)問(wèn)題。Spark Strea-ming是一種小規(guī)模批處理系統(tǒng),它將數(shù)據(jù)分成很小的batch在Spark上處理,其數(shù)據(jù)吞吐率很高,并且可以與YARN[6]和Hadoop共享計(jì)算資源。
在線反饋平臺(tái)對(duì)在線數(shù)據(jù)流進(jìn)行實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的分析,強(qiáng)調(diào)快速高效的處理能力,適當(dāng)弱化對(duì)安全事件的挖掘結(jié)果的準(zhǔn)確度要求。挖掘引擎的主要功能是挖掘安全事件和判決威脅類型,對(duì)于不確定的疑難事件,交由離線分析平臺(tái)進(jìn)一步處理。
3.2 離線分析平臺(tái)
離線分析平臺(tái)收集全部歷史數(shù)據(jù),經(jīng)ETL后,存放于數(shù)據(jù)倉(cāng)庫(kù)之中。另外,數(shù)據(jù)倉(cāng)庫(kù)還存儲(chǔ)在線反饋平臺(tái)轉(zhuǎn)交的疑難事件數(shù)據(jù)。離線分析平臺(tái)維護(hù)著一個(gè)已知的安全事件倉(cāng)庫(kù),事件倉(cāng)庫(kù)中的安全事件來(lái)自離線平臺(tái)分析的結(jié)果和在線平臺(tái)反饋的結(jié)果。挖掘引擎結(jié)合該事件倉(cāng)庫(kù)對(duì)數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)進(jìn)行深層分析,將最新的事件挖掘結(jié)果交由安全事件處理平臺(tái)進(jìn)一步處理,并把最新的事件保存于事件倉(cāng)庫(kù)中。同時(shí),離線平臺(tái)將新型安全事件抽象形成規(guī)則,用于在線平臺(tái)的規(guī)則庫(kù)更新。離線分析平臺(tái)基本架構(gòu)如圖3所示。
圖3 離線分析平臺(tái)基本架構(gòu)
離線分析平臺(tái)承載PB級(jí)的數(shù)據(jù)量,規(guī)模可達(dá)到數(shù)千服務(wù)器節(jié)點(diǎn),需要進(jìn)行海量數(shù)據(jù)的持久化和非實(shí)時(shí)批處理計(jì)算,采用分布式存儲(chǔ)和計(jì)算的Hadoop框架。分布式存儲(chǔ)要求使大量服務(wù)器的物理存儲(chǔ)聚合,統(tǒng)一訪問(wèn),采用HDFS的分布式文件系統(tǒng)[7]。分布式計(jì)算要求將分布式存儲(chǔ)上的海量數(shù)據(jù)做分布式處理,盡可能調(diào)度計(jì)算而不是調(diào)度數(shù)據(jù),即各節(jié)點(diǎn)獨(dú)立計(jì)算,并將計(jì)算結(jié)果匯總得出最終結(jié)果,采用MapReduce的計(jì)算模型[8]。在Hadoop框架上,基于MapReduce模型實(shí)現(xiàn)ETL并行化、關(guān)聯(lián)分析并行化、聚類分析并行化以及高并發(fā)海量數(shù)據(jù)的深度學(xué)習(xí),基于HDFS分布式文件系統(tǒng)、HBase數(shù)據(jù)庫(kù)和Hive數(shù)據(jù)倉(cāng)庫(kù),提供海量數(shù)據(jù)的存儲(chǔ)能力。
離線平臺(tái)分析的數(shù)據(jù)吞吐量很大,為T(mén)B以上量級(jí)。數(shù)據(jù)源來(lái)自大量的、不同類型的設(shè)備節(jié)點(diǎn),需要被送到多個(gè)目的地。轉(zhuǎn)運(yùn)的數(shù)據(jù)可以容許很少量的丟失,也可以容許一定的亂序。基于上述原因,采用Flume收集歷史數(shù)據(jù)。Flume是一個(gè)高可用、高可靠、分布式的海量日志采集、聚合和傳輸系統(tǒng),能夠滿足吞吐量大、數(shù)據(jù)源結(jié)構(gòu)復(fù)雜、數(shù)據(jù)一致性要求稍低等的環(huán)境要求[9]。
挖掘引擎包含三部分,并行化聚類、并行化關(guān)聯(lián)、深度學(xué)習(xí)。并行化聚類與在線反饋平臺(tái)相似,用于從數(shù)據(jù)倉(cāng)庫(kù)中提取有效安全事件,并判別威脅類型。并行化關(guān)聯(lián)挖掘用于深層次地威脅發(fā)現(xiàn),基于數(shù)據(jù)倉(cāng)庫(kù)中的原始數(shù)據(jù)集和平臺(tái)的事件倉(cāng)庫(kù)中的已知安全事件,進(jìn)行深入的關(guān)聯(lián)規(guī)則分析,找出多個(gè)安全事件背后隱藏的聯(lián)系,并將一次成體系的系列攻擊動(dòng)作產(chǎn)生的系列安全事件歸并為一個(gè)新的安全事件,另外,通過(guò)將確定的安全事件與關(guān)聯(lián)關(guān)系結(jié)合,還能發(fā)現(xiàn)還未啟動(dòng)的、潛在的威脅。采用在線反饋系統(tǒng)中訓(xùn)練完成的深度學(xué)習(xí)算法,結(jié)合事件倉(cāng)庫(kù)的已知安全事件集,從數(shù)據(jù)倉(cāng)庫(kù)的原始數(shù)據(jù)集合中挖掘全部已知威脅和部分未知攻擊。
離線分析平臺(tái)對(duì)歷史數(shù)據(jù)進(jìn)行并行化的關(guān)聯(lián)分析和深層挖掘,強(qiáng)調(diào)安全事件挖掘結(jié)果的嚴(yán)謹(jǐn)性,適當(dāng)弱化對(duì)處理延時(shí)的要求,但關(guān)注并行化處理效率,即不要求實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的給出分析結(jié)論,卻需要在可接受的時(shí)間內(nèi)給出準(zhǔn)確的挖掘結(jié)果。
3.3 事件處理平臺(tái)
安全事件處理平臺(tái)基于已獲取的安全事件進(jìn)一步分析,包括但不局限于安全態(tài)勢(shì)感知、攻擊追蹤溯源、攻擊知識(shí)學(xué)習(xí),其基本架構(gòu)如圖4所示。
圖4 安全事件處理平臺(tái)基本架構(gòu)
安全事件處理平臺(tái)接收來(lái)自離線分析平臺(tái)和在線反饋平臺(tái)的安全事件挖掘結(jié)果,存儲(chǔ)于數(shù)據(jù)倉(cāng)庫(kù)中,形成全局事件倉(cāng)庫(kù)。安全態(tài)勢(shì)感知系統(tǒng)、攻擊追蹤溯源系統(tǒng)、攻擊知識(shí)學(xué)習(xí)系統(tǒng)提取事件倉(cāng)庫(kù)的數(shù)據(jù)進(jìn)行業(yè)務(wù)分析。
安全態(tài)勢(shì)感知系統(tǒng),從事件倉(cāng)庫(kù)中提取安全事件,通過(guò)SQL查詢獲取安全事件統(tǒng)計(jì)結(jié)果,利用特定的態(tài)勢(shì)評(píng)估模型進(jìn)行安全態(tài)勢(shì)評(píng)估,利用特定的態(tài)勢(shì)預(yù)測(cè)算法進(jìn)行安全態(tài)勢(shì)預(yù)測(cè),進(jìn)而通過(guò)可視化方法將態(tài)勢(shì)現(xiàn)狀和預(yù)測(cè)結(jié)果呈現(xiàn)出來(lái)。
攻擊追蹤溯源系統(tǒng),對(duì)事件倉(cāng)庫(kù)中的全部安全事件做關(guān)聯(lián)規(guī)則分析,依據(jù)事件關(guān)聯(lián)結(jié)果,構(gòu)建攻擊路徑模型,利用圖論經(jīng)典算法進(jìn)行分析,找出攻擊源頭,進(jìn)而獲取攻擊者IP地址、地理位置和真實(shí)身份信息。
攻擊知識(shí)學(xué)習(xí)系統(tǒng),基于對(duì)全局安全事件的特定分析,標(biāo)記出可疑節(jié)點(diǎn),提取可疑節(jié)點(diǎn)的真實(shí)IP等關(guān)鍵信息,建立攻擊者檔案庫(kù),再對(duì)可疑節(jié)點(diǎn)的行為建模分析,將攻擊者的行為抽象成某種特征,形成攻擊行為特征庫(kù)。攻擊知識(shí)學(xué)習(xí)系統(tǒng)的重要輸出就是攻擊者檔案庫(kù)、攻擊行為特征庫(kù),它們可以作為知識(shí)庫(kù)幫助挖掘引擎從海量數(shù)據(jù)中發(fā)現(xiàn)安全事件或安全事件集。
安全態(tài)勢(shì)感知是網(wǎng)絡(luò)空間對(duì)抗的耳與目,而安全事件的提取是安全態(tài)勢(shì)感知的基礎(chǔ)。本文利用大數(shù)據(jù)分析技術(shù),構(gòu)建了一種安全事件挖掘系統(tǒng)框架。主要包含三個(gè)部分,以在線反饋平臺(tái)和離線分析平臺(tái)相互配合,有效地監(jiān)測(cè)各類安全事件,其結(jié)果交由安全事件處理平臺(tái)作進(jìn)一步分析處理。本文提出的方法為部署大規(guī)模網(wǎng)絡(luò)環(huán)境下的安全態(tài)勢(shì)感知、攻擊追蹤溯源等業(yè)務(wù)系統(tǒng)提供了一種技術(shù)思路。
[1] 劉師語(yǔ),周淵平,杜江.基于HADOOP分布式系統(tǒng)的數(shù)據(jù)處理分析[J].通信技術(shù), 2013,46(09): 99-102. LIU Shi-yu, ZHOU Juan-ping, DU Jiang. Analysis of Massive Data Processing based on Hadoop Cluster[J]. Communications Technology, 2013, 46(09): 99-102.
[2] 張鋒軍.大數(shù)據(jù)技術(shù)研究綜述[J].通信技術(shù),2014,47(11):1240-1248. ZHANG Feng-jun. Overview on Big Data Technology[J]. Communications Technology,2014,47(11):1240-1248.
[3] ZAHARIA M, CHOWDHURY M, DAS T, et al. Fast and interactive analytics over Hadoop data with Spark [J]. USENIX, 2012, 37(04): 45-51.
[4] BIFET A. Mining Big Data in Real Time [J]. Informatica (Slovenia), 2013, 37(01): 15-20.
[5] THUSOO A, SARMA J S, JAIN N, et al. Hive: a warehousing solution over a map-reduce framework [J]. Proceedings of the VLDB Endowment, 2009,2(02):1626-1629.
[6] KULKARNI A P, KHANDEWAL M. Survey on Hadoop and Introduction to YARN [J]. International Journal of Emerging Technology and Advanced Engineering, 2014, 4(05): 82-87.
[7] BORTHAKUR D. The hadoop distributed file system: Architecture and design [J]. Hadoop Project Website, 2007, 11(2007): 21.
[8] DEAN J, GHEMAWAT S. MapReduce: simplified data processing on large clusters [J]. Communications of the ACM, 2008, 51(01): 107-113.
[9] LOGANATHAN A, SINHA A, MUTHURAMAKRISHNAN V, et al. A Systematic Approach to Big Data [J]. International Journal of Information & Computation Technology, 2014, 4(09): 869-878.
LI Ming-gui (1989- ),male,graduate student,majoring in information security and big data;
肖 毅(1970—),男,碩士,研究員,主要研究方向?yàn)橥ㄐ排c信息安全;
XIAO Yi (1970- ),male,M. Sci.,research fellow,mainly engaged in telecommunication and information security;
陳劍鋒(1983—),男,博士,高級(jí)工程師,主要研究方向?yàn)樾畔踩c云計(jì)算;
CHEN Jian-feng(1983- ),male,Ph. D.,senior engineer,specialized in information security and cloud computing;
許 杰(1978—),男,博士,工程師,主要研究方向?yàn)樾畔踩c大數(shù)據(jù)。
XU Jie(1978- ),male,Ph. D.,engineer,majoring in information security and big data.
National Natural Science Foundation Project (No.61202043)
Big Data-based Framework for Security Event Mining
LI Ming-gui, XIAO Yi, CHEN Jian-feng, XU Jie
(No.30 Institute of CETC, Chengdu Sichuan 610041, China)
Security situation awareness is,just like the eyes and ears,to grasp and control the cyber space. Further,the acquisition of security event is the basis for security situation awareness. In the era of big data, security event mining is also a typical big data problem. This paper proposes a framework for mining security event by on-line and off-line mode. It provides a solution to detect security risks, potential threats and unknown attacks from the massive, multi-source, heterogeneous raw data. Moreover, the mined results can be used for implementing further processing,including security situation awareness,attack-source tracking attack-knowledge learning.
big data; security event; data mining; machine learning
date:2014-10-07;Revised date:2015-02-04
國(guó)家自然科學(xué)基金項(xiàng)目(No.61202043)
TP309
A
1002-0802(2015)03-0346-05
李明桂(1989—),男,碩士研究生,主要研究方向?yàn)樾畔踩c大數(shù)據(jù);
10.3969/j.issn.1002-0802.2015.03.019
2014-10-07;
2015-02-04