肖圣龍,陳 昕,李 卓,2
(1.北京信息科技大學 計算機學院,北京 100101; 2.網(wǎng)絡文化與數(shù)字傳播北京市重點實驗室,北京 100101) (*通信作者電子郵箱chenxin@bistu.edu.cn)
面向社會安全事件的分布式神經(jīng)網(wǎng)絡攻擊行為分類方法
肖圣龍1,陳 昕1*,李 卓1,2
(1.北京信息科技大學 計算機學院,北京 100101; 2.網(wǎng)絡文化與數(shù)字傳播北京市重點實驗室,北京 100101) (*通信作者電子郵箱chenxin@bistu.edu.cn)
大數(shù)據(jù)時代下,社會安全事件呈現(xiàn)出數(shù)據(jù)多樣化、數(shù)據(jù)量快速遞增等特點,社會安全事件的事態(tài)與特性分析決策面臨巨大的挑戰(zhàn)。高效、準確識別社會安全事件中的攻擊行為的類型,并為社會安全事件處置決策提供幫助,已經(jīng)成為國家與網(wǎng)絡空間安全領域的關鍵性問題。針對社會安全事件攻擊行為分類,提出一種基于Spark平臺的分布式神經(jīng)網(wǎng)絡分類算法(DNNC)。DNNC算法通過提取攻擊行為類型的相關屬性作為神經(jīng)網(wǎng)絡的輸入數(shù)據(jù),建立了各屬性與攻擊類型之間的函數(shù)關系并生成分布式神經(jīng)網(wǎng)絡分類模型。實驗結果表明,所提出DNNC算法在全球恐怖主義數(shù)據(jù)庫所提供的數(shù)據(jù)集上,雖然在部分攻擊類型上準確率有所下降,但平均準確率比決策樹算法提升15.90個百分點,比集成決策樹算法提升8.60個百分點。
社會安全;大數(shù)據(jù);Spark分布式系統(tǒng);神經(jīng)網(wǎng)絡;分類算法
社會安全事件主要包括恐怖襲擊事件、經(jīng)濟安全事件和涉外突發(fā)事件等[1],社會安全事件頻繁發(fā)生,給人民群眾的生命和財產(chǎn)帶來嚴重損害[2]。本文以恐怖事件為例分析社會安全事件。近幾年,恐怖事件發(fā)生的數(shù)量急劇增加[3]。在1970年—2015年期間,全球恐怖事件數(shù)據(jù)庫(Global Terrorism Database, GTD)(http://www.start.umd.edu/gtd/)收集超過156 000個來自200多個國家和地區(qū)[4]的恐怖主義事件。根據(jù)GTD搜集的數(shù)據(jù),可以發(fā)現(xiàn)從2012年—2015年,恐怖襲擊的數(shù)量增加了52 134件,3年的時間發(fā)生的恐怖事件數(shù)量是過去45年總數(shù)量的1/3。如今,我們生活在大數(shù)據(jù)時代,大量的信息被產(chǎn)生,被收集并存儲在數(shù)據(jù)存儲系統(tǒng)中[5],如何在大數(shù)據(jù)量的背景下,分析社會安全事件各個屬性之間復雜的內部關系,針對社會安全事件攻擊類型實現(xiàn)快速準確的分類,給社會安全事件預警和分析提供數(shù)據(jù)支撐,成為一個備受關注的問題。
分析社會安全事件攻擊行為,可以發(fā)現(xiàn)社會安全事件攻擊行為類型與許多因素有關,各因素與社會安全事件攻擊行為類型呈現(xiàn)非線性關系。神經(jīng)網(wǎng)絡采用廣泛互聯(lián)的結構與有效的學習機制來模擬人腦信息處理的過程,是人工智能發(fā)展中的重要方法,在諸如手寫體識別、圖像標注、語義理解和語音識別等技術領域取得了非常成功的應用[6]。BP神經(jīng)網(wǎng)絡在人工神經(jīng)網(wǎng)絡模型中最廣泛的一種網(wǎng)絡模型,是多層前向神經(jīng)網(wǎng)絡的一種,可用任意精度逼近任意非線性函數(shù),逼近性能尤其明顯[7]。根據(jù)社會安全事件攻擊行為類型特征進行指標提取,映射指標與社會安全事件攻擊行為類型的關系,訓練各個指標的權重,模擬出社會安全事件攻擊行為類型的網(wǎng)絡模型,實現(xiàn)社會安全事件攻擊行為類型分類。
受學習速率的限制,BP神經(jīng)算法需要花費幾個小時甚至更長的時間來完成訓練任務[6]。隨著互聯(lián)網(wǎng)的發(fā)展,傳統(tǒng)的大數(shù)據(jù)計算平臺涌現(xiàn)出了一批新的大數(shù)據(jù)處理框架,包括Apache Hadoop、Dyrad、Yahoo S4、Apache Spark等,作為最流行的大數(shù)據(jù)處理框架Spark[8],吸引了越來越多的關注,而基于彈性分布式數(shù)據(jù)集(Resilient Distributed Dataset, RDD)的Spark編程模式在實際項目中的應用也越來越廣[9]?;赟park的分布式神經(jīng)網(wǎng)絡將神經(jīng)網(wǎng)絡的訓練任務分發(fā)到多個主機同時進行訓練,可以提高訓練速度。本文針對社會安全事件攻擊行為分類,提出了一種基于Spark平臺的分布式神經(jīng)網(wǎng)絡分類(Distributed Neural Network Classification, DNNC)算法。
社會安全事件中,恐怖事件比重較大,嚴重破壞社會穩(wěn)定與發(fā)展。為了減少恐怖事件的發(fā)生,降低恐怖事件的發(fā)生數(shù)量,世界各個國家各個科研機構都進行大量的研究人員投入。各個科研機構根據(jù)近40多年來收集的GTD,分析恐怖事件發(fā)生的原因,對恐怖事件進行分類,研究各個類別攻擊的不同點,以及各個類別之間存在的相關性,預測恐怖事件的發(fā)生,并對恐怖事件進行預警。
Freilich等[10]總結了社會安全事件中恐怖主義事件的一些特殊問題,概括了恐怖事件的各種描述方法,評估了各種描述方法之間的優(yōu)缺點,加深了對社會安全事件中恐怖主義事件的理解。Meierrieks等[11]根據(jù)1984年—2007年共58個國家的樣本數(shù)據(jù),研究了藥物生意對恐怖主義事件的影響,其研究結果表明藥物的上漲會減少社會安全事件中恐怖主義事件的發(fā)生。Lutz等[12]介紹了全球化的思想和恐怖主義事件的定義,分析了恐怖主義事件對旅游和外國投資的影響,得出全球化會導致社會混亂,社會混亂將導致恐怖主義事件的發(fā)生;反過來,恐怖主義事件會影響旅游業(yè)和外國投資。
Sakhare等[13]先對犯罪數(shù)據(jù)進行整體分析,根據(jù)1 000條犯罪記錄數(shù)據(jù)集抽取了20個犯罪特征,并運用J48決策樹算法對犯罪人員進行分類,通過混淆矩陣、TP(True Positive)率、FP(False Positive)率、分類精度、召回率、F檢驗、MCC(Matthews Correlation Coefficient)值等屬性檢驗J48算法決策樹的可靠性和穩(wěn)定性,分類結果用于確定是否懷疑特殊人員可能進行犯罪。Sakhare等[14]提出了可以將數(shù)據(jù)挖掘算法運用在犯罪和刑事數(shù)據(jù)源方面,用于識別犯罪嫌疑人的犯罪活動,同時使用J48、樸素的貝葉斯和JRip算法對犯罪樣本和犯罪庫進行識別,識別率最高的算法用來識別潛在的犯罪嫌疑人,其實驗結果表明貝葉斯是最有效的和花費時間最少的算法。Joshi等[15]基于計算機處理器的分支預測技術提出了HB(History Bit)算法,該算法通過對屬性的優(yōu)先級進行分類,根據(jù)分類的前后賦予不同分組的權重,其實驗結果表明,HB算法分類的準確性比傳統(tǒng)的貝葉斯和決策樹有顯著的提高。
Sivaraman等[5]基于GTD提出了一種集成決策樹分類算法。該算法集成J48、C4.5,通過提取17個恐怖事件攻擊相關屬性訓練集成決策樹,以實現(xiàn)恐怖事件攻擊類型識別,其實驗結果表明,與單一的決策樹算法相比,該算法在召回率和準確率方面有顯著提升。Sheikh[16]使用1970年—2014年的GTD恐怖事件數(shù)據(jù),針對發(fā)生的恐怖事件進行預測建模,根據(jù)城市、攻擊類型、目錄類型、聲稱模式、武器的攻擊類型和動機等屬性通過分類技術對未來恐怖襲擊進行預測。Wu等[17]基于傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡開發(fā)了一個新型遞歸神經(jīng)網(wǎng)絡,并建立一個Situation-Aware公共安全評估平臺,該平臺基于GTD為每個國家,預測恐怖襲擊風險水平,以及哪個國家最有可能受到潛在的恐怖組織的攻擊。Strang等[18]使用Hadoop大數(shù)據(jù)處理平臺在Google新聞上收集大量復雜的恐怖主義信息,運用統(tǒng)計產(chǎn)品與服務解決方案(Statistical Product and Service Solutions, SPSS)軟件分析恐怖組織的意識形態(tài)和恐怖襲擊類型的關系。
綜上所述,在面向社會安全的恐怖事件攻擊行為分類上,現(xiàn)有算法分類的準確性不高,為此本文提出的基于Spark平臺的DNNC算法以提高攻擊行為分類的準確性。將大數(shù)據(jù)處理技術運用在面向社會安全的恐怖攻擊行為分類問題,可以快速地從大量龐雜的數(shù)據(jù)堆里分析出有用的信息,挖掘數(shù)據(jù)的有用價值,提高社會安全事件攻擊行為分類的準確性。社會安全攻擊行為準確分類,可以提高社會安全事件分析的效率,可以更加準確地分析和總結出不同社會安全事件發(fā)生的原因,針對不同的類別的社會安全事件,應該如何進行提前防范和預警,降低事件發(fā)生帶來的損失。
大數(shù)據(jù)時代下,出現(xiàn)很多大數(shù)據(jù)處理框架。在計算方面,主要有MapReduce框架[19-20]和Spark框架[21-22]。Spark是加州大學伯克利分校AMP(Algorithms, Machines, and People)實驗室開源的計算框架,基于內存計算的Spark在計算效率上是基于磁盤計算的MapReduce的100倍。Spark逐漸形成了自己的生態(tài)圈,如圖1所示,并成為Apache頂級項目,是現(xiàn)今最流行的開源分布式大數(shù)據(jù)計算平臺,非常適合迭代的機器學習任務[23]。
圖1 Spark生態(tài)圈
Spark生態(tài)圈即伯克利數(shù)據(jù)分析棧(Berkeley Data Analytics Stack, BDAS)包含了Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等組件,Spark Core提供內存計算框架、Spark Streaming的實時處理應用、Spark SQL的即席查詢、MLlib或MLbase的機器學習和GraphX的圖處理,它們由加州大學伯克利分校AMP實驗室提供,能夠無縫地集成并提供一站式解決平臺。
2.2.1 算法流程
源數(shù)據(jù)是對一個恐怖事件進行詳細描述,存在數(shù)據(jù)不規(guī)范、類型不統(tǒng)一、數(shù)據(jù)缺失、數(shù)據(jù)重復、數(shù)據(jù)異常等問題,無法直接對數(shù)據(jù)進行模型訓練,必須對源數(shù)據(jù)進行數(shù)據(jù)處理,隨后將預處理的數(shù)據(jù)傳入到分布式神經(jīng)網(wǎng)絡進行模型訓練,實現(xiàn)面向社會安全恐怖事件分類。算法主要包括6個步驟:
1)數(shù)據(jù)抽取。
源數(shù)據(jù)中addnotes等屬性是對事件的一些補充描述,對攻擊行為分類關系不大,可直接刪去。summary屬性簡要介紹事件發(fā)生的過程,其中包括事件發(fā)生的時間、地點等,可以通過其他屬性進行表示,可直接刪去summary屬性。country和country_txt,region和region_txt等,存在重復定義,保留country、region等這類編號屬性,將文字描述屬性country_txt、region_txt等屬性直接刪去。Nhostkid等屬性在幾萬條事件記錄中只有3 000多條有對應的屬性值,數(shù)據(jù)嚴重缺失,提供的有用信息較少,直接刪去。通過對源數(shù)據(jù)進行數(shù)據(jù)抽取,刪除無用或者作用較小的屬性,保留有用的屬性。有用的屬性包括國家編號、地區(qū)編號、經(jīng)度、維度、武器編號、死亡人數(shù)、受傷人數(shù)、目標子類型編號等。
2)數(shù)據(jù)轉換。
源數(shù)據(jù)經(jīng)過數(shù)據(jù)抽取后,得到相對有價值的數(shù)據(jù),該數(shù)據(jù)類型也存在一定的規(guī)范性,但還是無法直接進行模型訓練,抽取后的數(shù)據(jù)存在的主要問題是數(shù)據(jù)類型不統(tǒng)一,有的屬性字段是日期類型,有的是字符串類型,有的是數(shù)值類型等。模型訓練需要的數(shù)據(jù)是量化后的數(shù)值類型數(shù)據(jù),針對無法進行計算的非數(shù)值型屬性字段,需要進行數(shù)據(jù)類型轉換,例如對字符串類型的數(shù)據(jù),通過按英文字母排序,將排序的編號作為該屬性的一個映射值。
3)數(shù)據(jù)預處理。
數(shù)據(jù)預處理階段主要完成填充缺失數(shù)據(jù)值、刪除異常值數(shù)據(jù)和重復數(shù)據(jù)。缺失值填充主要使用拉格朗日插值法;對異常值數(shù)據(jù)主要采用箱型圖分析法來檢查重復數(shù)據(jù),對重復的數(shù)據(jù)記錄只保留其中一條。
4)數(shù)據(jù)規(guī)范化。
不同評價指標往往具有不同的量綱,數(shù)值間的差別可能很大,不進行處理會影響數(shù)據(jù)分析的結果。為了消除指標之間的量綱和取值范圍差異的影響,需要進行標準化處理,將數(shù)據(jù)按照比例進行縮放,使之落入一個特定的區(qū)域,以便于進行綜合分析。本文使用最小-最大值規(guī)范化也稱為離差標準化,對原始數(shù)據(jù)進行線性變換,將數(shù)值映射到區(qū)間[0,1]內,轉換公式如式(1)所示:
(1)
其中:max為樣本數(shù)據(jù)的最大值;min為樣本數(shù)據(jù)的最小值;max-min為極差。離差標準化保留原來數(shù)據(jù)中存在的關系,是消除量綱和數(shù)據(jù)取值范圍影響的最簡單方法。
5)數(shù)據(jù)相關性分析。
數(shù)據(jù)進行規(guī)范化之后就可以直接運用于模型的訓練。為了進一步提高模型的可靠性,還需對數(shù)據(jù)各屬性進行相關性分析,對每個屬性則進行兩兩相關性計算,相關性分析主要使用Person相關系數(shù),兩個屬性存在較高的相關性,即Person相關系數(shù)接近1,在兩個屬性中舍棄與目標屬性相關性較低的屬性。
6)模型訓練與事件分類。
將處理后的數(shù)據(jù)作為模型的輸入數(shù)據(jù),同時為模型設置初始化參數(shù),然后對模型進行訓練。訓練結束后,可以獲得各個神經(jīng)網(wǎng)絡層的權重,通過權重可以得面向社會安全分類模型,最后對社會安全事件進行分類。
2.2.2 算法設計
基于Spark分布式平臺實現(xiàn)分布式神經(jīng)網(wǎng)絡算法對社會安全事件攻擊行為進行分類,系統(tǒng)整體結構如圖2所示。
圖2展示了分布式神經(jīng)網(wǎng)絡系統(tǒng)整體結構,整個系統(tǒng)搭建在Spark分布式平臺上,數(shù)據(jù)存儲使用分布式文件系統(tǒng)。整個系統(tǒng)包含4個節(jié)點,也就是4臺主機,分別是1臺Master和3臺Worker。Master節(jié)點是控制節(jié)點,進行任務調度和分配;Worker節(jié)點是計算節(jié)點,進行模型訓練。
圖2 分布式神經(jīng)網(wǎng)絡系統(tǒng)整體結構
Worker節(jié)點都是使用三層前饋神經(jīng)網(wǎng)絡,輸入層有n個神經(jīng)元,隱含層有p個神經(jīng)元,輸出層有m個神經(jīng)元。社會安全事件攻擊行為數(shù)據(jù),在經(jīng)過數(shù)據(jù)處理后生成規(guī)范的數(shù)據(jù),存儲在分布式文件系統(tǒng),長度為n的社會安全事件攻擊行為序列數(shù)據(jù)x=x1x2…xn,則分別輸入到計算節(jié)點進行計算,其他變量和函數(shù)的定義如下。
隱含層輸入向量:g=(g1,g2,…,gp)
隱含層輸出向量:h=(h1,h2,…,hp)
輸出層輸入向量:s=(s1,s2,…,sm)
輸出層輸出向量:y=(y1,y2,…,ym)
期望輸出向量:d=(d1,d2,…,dm)
輸入層到隱含層的連接權值:wih
隱含層到輸出層的連接權值:who
隱含層各神經(jīng)元的閾值:bh
輸出層各神經(jīng)元的閾值:bo
樣本數(shù)據(jù)個數(shù):k=1,2,…,t
權重學習率:η
利用輸出層各神經(jīng)元的y(k)和隱含層各神經(jīng)元的輸出來修正連接權值who(k):
(2)
(3)
利用隱含層各神經(jīng)元的h(k)和輸入層各神經(jīng)元的輸入修正連接權值wih(k):
(4)
(5)
計算全局誤差:
(6)
面向社會安全事件的分布式神經(jīng)網(wǎng)絡系統(tǒng)中,Master節(jié)點進行權重的廣播和權重的回收,Worker節(jié)點獲取Master節(jié)點廣播的權重,進行模型訓練。詳細構成如下:
1)Master節(jié)點進行初始化模型參數(shù),隨機生成初始權重,并通過broadcast(廣播)的方式把模型的初始化參數(shù)和初始權重傳到各個Worker節(jié)點上。
2)各個Worker節(jié)點根據(jù)broadcast得到模型的初始化參數(shù)和初始化權重,對各自的神經(jīng)網(wǎng)絡模型進行初始化,根據(jù)分配的數(shù)據(jù)訓練神經(jīng)網(wǎng)絡模型,調整權重,使誤差值e不斷減小。訓練結束后,將最終調整的權重傳遞給Master節(jié)點。
3)Master節(jié)點收集各個Worker節(jié)點的權重,計算更新權重w′,判斷全局誤差最小值是否小于設定值,或者循環(huán)次數(shù)是否達到設定值:兩個條件有一個成立,結束循環(huán),全局誤差最小的權重作為最終模型的訓練參數(shù),得到社會安全事件攻擊行為分類模型;兩個條件都沒有達到,進行步驟4)。
4)將更新權重w′重新broadcast到各個Worker節(jié)點。各個Worker節(jié)點進行新一輪的循環(huán)。
基于BP神經(jīng)網(wǎng)絡和分布式系統(tǒng)架構設計DNNC算法。
算法1 DNNC算法。
輸入 攻擊行為類型識別輸入樣本x。
輸出 模型訓練后的權重wih和who。
1)Master節(jié)點:初始化權重wih=rand(-1,1),who=rand(-1,1),bh=rand(-1,1),bo=rand(-1,1),并將初始化參數(shù)進行廣播。
2)Worker節(jié)點:分別根據(jù)式(2)、(4)計算權重更新量Δwho和Δwih(k)。
3)Worker節(jié)點:分別根據(jù)式(3)、(5)計算更新權重,根據(jù)式(6)計算全局誤差,并將更新權重和全局誤差傳回Master節(jié)點。
4)Master節(jié)點:根據(jù)傳回的權重進行權重,并將權重從新分發(fā)給各個Worker節(jié)點。
5)重復2)~4),直到全局誤差小于設定值或者循環(huán)次數(shù)到達最大值。
實驗使用的測試平臺為搭建的Spark分布式集群,集群規(guī)模為本校計算中心分配的4個虛擬計算節(jié)點,每個節(jié)點的操作系統(tǒng)為Centos6.5,4核CPU,內存為16 GB,存儲為50 GB,Hadoop版本為2.6.5,Spark版本為1.6.0,開發(fā)環(huán)境為IDEA2016.2.5。
本文實驗使用了GDT全球恐怖事件數(shù)據(jù)庫2012年—2015年的47 000多條記錄,源數(shù)據(jù)記錄了恐怖事件的事件編號、國家、地區(qū)、事件發(fā)生的經(jīng)度、事件發(fā)生的緯度、攻擊類型等80個屬性,數(shù)據(jù)集的部分數(shù)據(jù)如表1所示。
表1 全球恐怖事件數(shù)據(jù)集的部分數(shù)據(jù)
根據(jù)GTD,對數(shù)據(jù)進行攻擊行為分類統(tǒng)計,統(tǒng)計信息如表2所示。
表2 攻擊行為分類統(tǒng)計信息
分布式神經(jīng)網(wǎng)絡結構為三層:第一層是輸入層,第二層是隱含層,第三層是輸出層。輸入神經(jīng)元個數(shù)為10,隱含神經(jīng)元個數(shù)為15,輸出神經(jīng)元個數(shù)為8;每組數(shù)據(jù)量為50個;最大循環(huán)次數(shù)1 000;數(shù)據(jù)訓練集和測試集比例為4∶1;隱含層激活函數(shù)為tanh();初始學習率為2.0;學習率調整比例為1.0,輸出函數(shù)為sigm()。
模型訓練完成后,得到分布式神經(jīng)網(wǎng)絡模型權重wih和who,根據(jù)得到的權重進行攻擊類型識別,本文提出的DNNC算法的識別準確率如表3所示。
表3 DNNC算法的識別準確率
本文算法與決策樹算法和集成決策樹算法[5]的比較結果如表4所示。
表4 幾種算法準確率比較
實驗結果表明:本文提出的DNNC算法僅部分攻擊類型上識別準確率有所下降(主要因為DNNC考慮的是全局最優(yōu)),但總體優(yōu)勢明顯。DNNC算法的平均準確率比決策樹算法提升15.90個百分點,比集成決策樹算法提升8.60個百分點。DNNC算法對社會安全事件進行分類,能更加準確地學習各個屬性與分類目標之間存在的關系,通過各個層之間的變換,關聯(lián)各個屬性,挖掘各個屬性之間存在的隱含關系,相對于決策樹,每次只考慮一個屬性值進行決策分類,更具有優(yōu)勢,分類準確性更高。
本文分析了恐怖事件攻擊行為的數(shù)據(jù)特征,從數(shù)據(jù)的層面挖掘攻擊行為與哪些屬性具有相關性、哪些屬性影響攻擊行為的類別;同時提出了分布式神經(jīng)網(wǎng)絡分類算法,來解決恐怖事件攻擊行為分類問題。神經(jīng)網(wǎng)絡的非線性擬合特性可以準確地構建恐怖事件攻擊行為分類模型,而Spark作為基于內存計算的分布式平臺,非常適合反復進行迭代的神經(jīng)網(wǎng)絡算法,能提高神經(jīng)網(wǎng)絡訓練速度。結合神經(jīng)網(wǎng)絡和Spark分布式平臺的優(yōu)勢,將其運用于恐怖事件攻擊行為的分類,比傳統(tǒng)的恐怖事件分類算法更有優(yōu)勢,識別率更高。但從社會安全事件攻擊行為分類問題上看,對于樣本數(shù)量較小的攻擊類別的識別率還需要進一步提高。從大數(shù)據(jù)背景看,對分布式神經(jīng)網(wǎng)絡算法訓練速度的提高,也將是下一步工作研究的重點。
References)
[1] 國務院. 國家突發(fā)公共事件總體應急預案[J]. 中國中醫(yī)基礎醫(yī)學雜志, 2006, 12(1):77-79.(State Council. National emergency response plan for public emergencies [J]. Chinese Journal of Basic Medicine in Traditional Chinese Medicine,2006, 12(1):77-79.)
[2] 孫越恒, 王文俊, 遲曉彤, 等. 基于多維時間序列模型的社會安全事件關聯(lián)關系挖掘與預測[J]. 天津大學學報 (社會科學版), 2016, 18(2): 97-102. (SUN Y H, WANG W J, CHI X T, et al. Correlation mining and prediction of social security events based on multi-dimensional time series model[J]. Journal of Tianjin University (Social Sciences), 2016, 18(2): 97-102.)
[3] BACKER D A, BHAVNANI R, HUTH P K. Peace and Conflict 2016[M]. Oxford: Routledge, 2016: 67.
[4] KLUCH S P, VAUX A. The non-random nature of terrorism: an exploration of where and how global trends of terrorism have developed over 40 years[J]. Studies in Conflict amp; Terrorism, 2016, 39(12): 1031-1049.
[5] SIVARAMAN R, SRINIVASAN S, CHANDRASEKERAN R M. Big data on terrorist attacks: an analysis using the ensemble classifier approach[EB/OL]. [2017- 01- 10]. http://edlib.net/2015/icidret/icidret2015042.pdf.
[6] 焦李成, 楊淑媛, 劉芳, 等. 神經(jīng)網(wǎng)絡七十年: 回顧與展望[J]. 計算機學報, 2016, 39(8): 1697-1716. (JIAO L C, YANG S Y, LIU F, et al. Seventy years beyond neural networks: retrospect and prospect [J]. Chinese Journal of Computers, 2016, 39(8): 1697-1716.)
[7] 劉暢. BP神經(jīng)網(wǎng)絡的權值快速計算法及其逼近性能分析[J]. 科技視界, 2016(11): 130-131. (LIU C. Fuzzy calculation method and approximation performance analysis of BP neural network [J]. Science amp; Technology View, 2016(11): 130-131.)
[8] SALEHIAN S, YAN Y. Comparison of spark resource managers and distributed file systems[C]// Proceedings of the 2016 IEEE International Conferences on Big Data and Cloud Computing, Social Computing and Networking, Sustainable Computing and Communications. Piscataway, NJ: IEEE, 2016: 567-572.
[9] LIU T, FANG Z, ZHAO C, et al. Parallelization of a series of extreme learning machine algorithms based on spark[C]// Proceedings of the 2016 IEEE/ACIS 15th International Conference on Computer and Information Science. Piscataway, NJ: IEEE, 2016: 1-5.
[10] FREILICH J D, LAFREE G. Measurement issues in the study of terrorism: introducing the special issue[J]. Studies in Conflict and Terrorism, 2016, 39(7/8): 569-579.
[11] MEIERRIEKS D, SCHNEIDER F. The short-and long-run relationship between the illicit drug business and terrorism[J]. Applied Economics Letters, 2016, 23(18): 1274-1277.
[12] LUTZ B J, LUTZ J M. Globalization, terrorism, and the economy[M]// LUTZ B J, LUTZ J M. Globalization and the Economic Consequences of Terrorism. Berlin: Springer, 2017: 1-30.
[13] SAKHARE N N, JOSHI S A. Classification of criminal data using J48-decision tree algorithm[J]. IFRSA International Journal of Data Warehousing amp; Mining, 2014, 4(3): 167-171.
[14] SAKHARE N, JOSHI S. Criminal identification system based on data mining[C]// Proceedings of the 3rd International Conference on Recent Trends in Engineering and Technology. Chandwad, Nashik, India: [s.n.], 2014.
[15] JOSHI S, SAKHARE N. History bits based novel algorithm for classification of structured data[C]// Proceedings of the 2015 IEEE International Advance Computing Conference. Piscataway, NJ: IEEE, 2015: 609-612.
[16] SHEIKH H R. Use of predictive modeling for prediction of future terrorist attacks in Pakistan[EB/OL]. [2017- 01- 10]. http://koha.isra.edu.pk: 8080/jspui/handle/123456789/59.
[17] WU S, LIU Q, BAI P, et al. SAPE: a system for situation-aware public security evaluation[C]// Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence. Menlo Park: AAAI Press, 2016: 4401-4402.
[18] STRANG K D, SUN Z. Analyzing relationships in terrorism big data using Hadoop and statistics[J]. Journal of Computer Information Systems, 2017, 57(1): 67-75.
[19] DEAN J, GHEMAWAT S. MapReduce: simplified data processing on large clusters[J]. Communications of the ACM, 2008, 51(1): 107-113.
[21] ZAHARIA M, CHOWDHURY M, FRANKLIN M J, et al. Spark: cluster computing with working sets[C]// HotCloud 2010: Proceedings of the 2nd USENIX Conference on Hot Topics in Cloud Computing. Berkeley: USENIX Association, 2010: 10.
[22] ZAHARIA M, CHOWDHURY M, DAS T, et al. Resilient distributed datasets: a fault-tolerant abstraction for in-memory cluster computing[C]// Proceedings of the 9th USENIX Conference on Networked Systems Design and Implementation. Berkeley: USENIX Association, 2012: 2.
[23] MENG X, BRADLEY J, YUVAZ B, et al. MLlib: machine learning in Apache Spark[J]. The Journal of Machine Learning Research, 2016, 17(1): 1235-1241.
Distributedneuralnetworkforclassificationofattackbehaviortosocialsecurityevents
XIAO Shenglong1*, CHEN Xin1, LI Zhuo1,2
(1.SchoolofComputerScience,BeijingInformationScienceandTechnologyUniversity,Beijing100101,China;2.BeijingKeyLaboratoryofInternetCultureandDigitalDissemination,Beijing100101,China)
In the era of big data, the social security data becomes more diverse and its amount increases rapidly, which challenges the analysis and decision of social security events significantly. How to accurately categorize the attack behavior in a short time and support the analysis and decision making of social security events becomes an urgent problem needed to be solved in the field of national and cyberspace security. Aiming at the behavior of aggression in social security events, a new Distributed Neural Network Classification (DNNC) algorithm was proposed based on the Spark platform. The DNNC algorithm was used to analyze the related features of the attack behavior categories, and the features were used as the input of the neural network. Then the function relationship between the individual features and attack categories were established, and a neural network classification model was generated to classify the attack categories of social security events. Experimental results on the data provided by the global terrorism database show that the proposed algorithm can improve the average accuracy by 15.90 percentage points compared with the decision tree classification, and by 8.60 percentage points compared with the ensemble decision tree classification, only decreases the accuracy on part attack type.
social security; big data; Spark distributed system; neural network; classification algorithm
2017- 04- 24;
2017- 06- 14。
國家自然科學基金資助項目(61370065,61502040);國家科技支撐計劃項目(2015BAK12B00)。
肖圣龍(1991—),男,福建莆田人,碩士研究生,主要研究方向:大數(shù)據(jù)分析、網(wǎng)絡安全; 陳昕(1965—),男,江西南昌人,教授,博士生導師,博士,CCF高級會員,主要研究方向:大數(shù)據(jù)分析、網(wǎng)絡安全; 李卓(1983—),男,河南南陽人,講師,博士,CCF會員,主要研究方向:移動無線網(wǎng)絡、分布式計算。
1001- 9081(2017)10- 2794- 05
10.11772/j.issn.1001- 9081.2017.10.2794
TP391.41
A
This work is partially supported by the National Natural Science Foundation of China (61370065, 61502040), the National Key Technology Research and Development Program of the Ministry of Science and Technology of China (2015BAK12B00).
XIAOShenglong, born in 1991, M. S. candidate. His research interests include big data analysis, network security.
CHENXin, born in 1965, Ph. D., professor. His research interests include big data analysis, network security.
LIZhuo, born in 1983, Ph. D., lecturer. His research interests include mobile wireless network, distributed computing.