趙蕓 趙敏
摘 要:恐怖襲擊不但會造成大量人員傷亡和財產(chǎn)損失,還會造成群眾恐慌,對社會穩(wěn)定有很大影響。旨在從數(shù)據(jù)分析角度,依據(jù)相關(guān)數(shù)據(jù)對恐怖襲擊中蘊藏的信息加以分析,為防恐反恐提供有用信息。針對基于危害的恐怖襲擊事件分級,根據(jù)GTD上1998-2017年數(shù)據(jù)信息進行數(shù)據(jù)提取,考慮到很多變量大面積缺失數(shù)據(jù),首先對這些變量的重要性作簡易評估并進行刪減,然后對數(shù)據(jù)進行清洗和補充,最后根據(jù)特征提取和降維后的數(shù)據(jù),分出事件對應(yīng)的恐怖襲擊級別。結(jié)果表明,深度學(xué)習(xí)中的深度置信網(wǎng)絡(luò)(DBN)可以用于提取和減少預(yù)處理數(shù)據(jù),且DBN可自動實現(xiàn)上述功能,無需太多人為干預(yù)。
關(guān)鍵詞:數(shù)據(jù)處理;恐怖襲擊;深度置信網(wǎng)絡(luò)(DBN);特征提取;降維
DOI:10. 11907/rjdk. 182618 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
中圖分類號:TP319文獻標(biāo)識碼:A 文章編號:1672-7800(2019)007-0173-04
A Quantitative Hierarchical Study of Terrorist Attacks
Using Deep Belief Networks
ZHAO Yun, ZHAO Min
(School of Photoelectric Information and Computer Engineering,
University?of?Shanghai?for?Science?and?Technology, Shanghai 200093,China)
Abstract:The occurrence of terrorist attacks will not only lead to a large number of casualties and losses of property, but also cause public panic, which has a great impact on social stability and hinder people's normal work and life order. This paper aims to analyze the information contained in terrorist attacks from the perspective of data analysis according to relevant data, so as to provide useful information for counter-terrorism and counter-terrorism prevention. In view of the classification based on the harm of terrorist attacks, we first extract the data from 1998-2017 according to the GDT (Global Terrorism Databas), considering there are many variables the missing data of large area, so we first make a simple assessment of the importance of these variables, subtract them, and then clean and supplement the data. Finally, we distinguish the level of terror attack corresponding to part of the incident according to the feature extraction and dimensionality reduction data. The deep belief networks (DBN) in deep learning can be used to extract and reduce preprocessing data. DBN can do this automatically without much human intervention.
Key Words: data processing; terrorist attacks; deep belief networks (DBN); feature extraction; dimensionality reduction
作者簡介:趙蕓(1993-),女,上海理工大學(xué)光電信息與計算機工程學(xué)院碩士研究生,研究方向為數(shù)據(jù)分析;趙敏(1979-),女,博士,上海理工大學(xué)光電信息與計算機工程學(xué)院講師,研究方向為預(yù)測控制分析。
0 引言
自從“9.11”恐怖事件發(fā)生至今,恐怖主義襲擊給各國人民帶來了巨大痛苦,人民生命、財產(chǎn)安全和地區(qū)穩(wěn)定受到嚴(yán)重威脅。據(jù)官方報道統(tǒng)計,僅2014年一年的恐怖襲擊事件就達到了16 818起,100多個國家深受恐怖主義威脅和傷害[1]。目前,恐怖襲擊事件已成為全球和平與地區(qū)穩(wěn)定的主要威脅,并引起了世界各國關(guān)注。但是,隨著記錄恐怖襲擊事件的數(shù)據(jù)規(guī)模越來越大,如何從大量數(shù)據(jù)中提取隱藏信息,根據(jù)災(zāi)害對恐怖襲擊事件進行分類,并根據(jù)事件特點發(fā)現(xiàn)恐怖襲擊事件的制造者,從而對未來反恐態(tài)勢進行可行性分析,成為需要認(rèn)真思考的重要問題。
近些年,一些文章用定量分析方法對恐怖襲擊相關(guān)問題進行研究[2]。還有一些學(xué)者利用博弈論識別恐怖網(wǎng)絡(luò)中的關(guān)鍵恐怖分子,由Shapley值衡量合作博弈的重要性,以及將博弈論的中心測量法用于更好地說明互連子網(wǎng)絡(luò)之間的強度大小,并對其作敏感性分析,從而對恐怖襲擊事件進行分類[3,4]。上述研究使用更多定量分析方法研究恐怖主義事件,并提供減少恐怖主義或災(zāi)害損失發(fā)生的可能性,但是對以往發(fā)生的恐怖襲擊事件分級研究文章較少。因此,本文通過研究深度置信網(wǎng)絡(luò)(Deep Belief Networks,DBN)為恐怖襲擊分級研究開拓一種新思路[5]。
針對目前GTD(Global Terrorism Databas,全球恐怖主義數(shù)據(jù)庫)的恐怖襲擊事件,本文對以往發(fā)生過的恐怖襲擊事件進行分級[6]。人們以往對災(zāi)難性事件比如地震、交通事故、氣象災(zāi)害等進行分級是社會管理中的重要任務(wù),通常評分一般采用主觀方法,權(quán)威組織或部門選擇幾個主要指標(biāo),強制性規(guī)定分級標(biāo)準(zhǔn),如國家《道路交通事故處理辦法》第6條關(guān)于交通事故的標(biāo)準(zhǔn)分類,主要根據(jù)人員傷亡和經(jīng)濟損失程度劃分。然而,恐怖襲擊事件的危害不僅取決于傷亡和經(jīng)濟損失兩個方面,還取決于時間、地理位置、目標(biāo)指標(biāo)和許多其它因素,因此難以通過使用上述分類方法形成統(tǒng)一標(biāo)準(zhǔn)?;贕TD歷年數(shù)據(jù)和其它相關(guān)信息,結(jié)合現(xiàn)代信息處理技術(shù),采用DBN建立基于數(shù)據(jù)分析的量化分級模型[7,8]。本文選取幾個事件按危害程度分為5級,并表示每一個事件的級數(shù)。
1 數(shù)據(jù)處理過程
1.1 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理流程見圖1。
圖1 數(shù)據(jù)預(yù)處理流程
1.2 數(shù)據(jù)篩選
參數(shù)選取原則是掌握主要特征的實用性和可行性??植酪u擊與多種因素有關(guān),使用一些指標(biāo)描述恐怖事件且不錯過有用信息是一種兩難選擇。對恐怖事件進行分級時,應(yīng)主要考慮發(fā)生時間、地點、武器類型及受害者類型等。所選變量應(yīng)捕獲主要特征,并應(yīng)盡可能多地使用信息,但所選參數(shù)不應(yīng)過多。因此,有必要預(yù)處理1988-2017年的海量數(shù)據(jù)。
剔除不能用數(shù)學(xué)模型進行處理的文字信息以及與題目相關(guān)性不大的信息,如地名、犯罪組織名稱、事件描述、攻擊類型、攻擊武器等,在初始數(shù)據(jù)135類信息中篩選出29類與題目相關(guān)且重要的數(shù)據(jù)信息。
1.3 數(shù)據(jù)清洗
數(shù)據(jù)清理指刪除、改正數(shù)據(jù)庫錯誤、數(shù)據(jù)缺失、格式錯誤和冗余數(shù)據(jù)。數(shù)據(jù)清理不但是為了改正錯誤數(shù)據(jù),而且是為了使每個來自單獨系統(tǒng)的數(shù)據(jù)一致性更強,也是為了后期數(shù)據(jù)處理更方便快捷。數(shù)據(jù)清洗包含兩個方面:處理缺失數(shù)據(jù)和處理異常數(shù)據(jù)。
針對缺失數(shù)據(jù),通常思路是使用其它可選值進行替代。當(dāng)缺失數(shù)據(jù)量很小時,可以采取人工填充方式,使用具有特定意義的常量進行填充,如0等;也可使用均值進行填充,如使用與該屬性相同的數(shù)據(jù)均值填充,或?qū)?shù)據(jù)進行分類后使用同類數(shù)據(jù)均值進行填充。
針對異常數(shù)據(jù)(通常指那些偏離隨機變量分布的數(shù)據(jù)和錯誤數(shù)據(jù)),一般采取如下方式:①分桶法,首先將有序數(shù)據(jù)存儲在不同桶中,并使用相鄰數(shù)據(jù)的平均值、中值、邊界值代替異常數(shù)據(jù);②回歸法,使用回歸函數(shù)擬合替代錯誤數(shù)據(jù);③聚類法,通常采用聚類函數(shù)對數(shù)據(jù)進行聚類,錯誤數(shù)據(jù)往往是某些離群點,從而可以選擇剔除該數(shù)據(jù)或?qū)ζ溥M行替換。
在本體數(shù)據(jù)清洗過程中,考慮到相關(guān)數(shù)據(jù)有很多變量大面積缺失,因此對這些變量的重要性作簡易評估,進行刪減,然后對數(shù)據(jù)進行清洗和補充。主要對某些變量中的空白項,權(quán)衡變量特性后,根據(jù)均值、眾數(shù)填充或補零的方法對數(shù)據(jù)進行清洗。通過清理得到29組具有代表性的數(shù)據(jù),如表1所示。
表1 清理后數(shù)據(jù)類型
2 DBN建模
2.1 DBN模型簡介
DBN在2006年主要由Hinton[9]提出,已被廣泛用作深度學(xué)習(xí)模型,并且在圖像和語音識別領(lǐng)域應(yīng)用非常廣泛。首先從結(jié)構(gòu)上說,多層沒有監(jiān)督的受限波爾茲曼機(Restricted Boltzmann Machine,RBM)和一層有監(jiān)督的反向傳播(Back-Propagation,BP)構(gòu)成了DBN,如圖2所示。
DBN的訓(xùn)練包括“預(yù)訓(xùn)練(Pre-Training)”和“微調(diào)(Fine-Tuning)”兩部分。在預(yù)訓(xùn)練階段,DBN以分層訓(xùn)練模式訓(xùn)練每一層RBM,并且將下一層RBN隱藏層的輸出當(dāng)作上一層RBN可見層的輸入。
在微調(diào)階段,使用監(jiān)督學(xué)習(xí)方法對最后一級BP網(wǎng)絡(luò)進行微調(diào),并且實際輸出值與預(yù)期輸出值的誤差是反向一層一層傳播的[10-17]。
2.2 受限玻爾茲曼機(RBM)
RBM是一個基于能量的模型EBM(Energy-Based Model),由可見層和隱藏層組成。如圖3所示,[v]、[h]為可見層和隱藏層,[w]表示可見層與隱藏層之間的連接權(quán)重。對于可見和隱藏層,連接關(guān)系是所有神經(jīng)元連接在層之間,并且層內(nèi)無神經(jīng)元連接。
圖3 RBM原理
設(shè)可見層和隱藏層都是二進制量,其中神經(jīng)元分別為[I]、[J]個,并且[vi]、[hi]表示第[i]和第[j]個可見層與隱含層神經(jīng)元。對于集合([v],[h]),RBM作為系統(tǒng)能量,定義為:
[E(v,h|θ)=-i=1Iaivi-j=1Jbihi-i=1Ij=1Jwijvihj]? ? ? (1)
其中,[θ=(wij,ai,bj)]是參數(shù),[wij]為可見層節(jié)點[vi]與隱含層節(jié)點[hi]的偏置值。由能量函數(shù)可得到[(v,h)]聯(lián)合概率分布。
[p(v,h|θ)=e-E(v,h|θ)/Z(θ)]? ? ? ? ?(2)
其中,[Z(θ)=vhe-E(v,h|θ)/Z(θ)]是歸一化項。實際運用時,最重要的是RBM下的觀測變量分布,[p(v|θ)]也稱似然函數(shù),即聯(lián)合概率[p(v,h|θ)]的邊緣分布。
由于RBM層內(nèi)神經(jīng)元無連接的特殊結(jié)構(gòu),當(dāng)可見層節(jié)點給定時,每個隱含層節(jié)點之間激活狀態(tài)互不相干,則第[j]個隱含層節(jié)點的激活概率為:
[p(hj=1|v,θ)=σ(bj+i=1Iviwji)]? ? (3)
其中,[σ(x)=1/(1+e-x)]為sigmoid函數(shù)。同樣,當(dāng)隱含層節(jié)點給定時,第[i]個可見層的概率為:
[p(vi=1|h,θ)=σ(ai+j=1jhjwji)]? ? ?(4)
RBM以迭代式訓(xùn)練,其目標(biāo)是為了導(dǎo)出參數(shù)[θ=(wij,ai,bj)]的值,以適應(yīng)給定的訓(xùn)練數(shù)據(jù)??梢郧笥?xùn)練集上最大對數(shù)的似然函數(shù),得到參數(shù)(設(shè)樣本為[T]),即:
[θ*=argθmaxL(θ)=argθmaxt=1Tlnp(v(t)|θ)]? ? ?(5)
由Hinton[9]提出的對比散度(Contrastive Divergence,CD)算法更新參數(shù):
[Δwij=ε(vihjdata-vihjrecon)]? ? ?(6)
[Δai=ε(vidata-virecon)]? ? ? ? (7)
[Δbj=ε(hjdata-hjrecon)]? ? ? ?(8)
其中,[ε]為Pre-Training的學(xué)習(xí)率,[?data]是定義訓(xùn)練數(shù)據(jù)級分布的數(shù)學(xué)期望,[?recon]是重新定義之后模型分布的數(shù)學(xué)期望[18]。
2.3 BP網(wǎng)絡(luò)
BP網(wǎng)絡(luò)是一個分類器,具有監(jiān)督功能[19,20]。其中,特征向量的輸入逐層傳入輸出層,以獲得預(yù)測的分類類別。將實際分類結(jié)果與預(yù)期分類值進行比較以獲得錯誤值,然后逐層返回以微調(diào)DBN參數(shù)。反向傳播需要計算每一層[δ],即靈敏度,并使用從上到下傳遞的權(quán)重參數(shù)修改網(wǎng)絡(luò)。
對于輸出層,[oi]第[i]個節(jié)點的實際輸出為所需輸出,則[δ](靈敏度)的計算公式為:
[δi=oi(1-oi)(di-oi)]? ? ?(9)
對于隱含層[l],[δ](靈敏度)的計算公式為:
[δli=yli(1-yli)jwlijδl+1j]? ? ?(10)
在計算每一層之后,根據(jù)式(11)、(12)更新DBN的網(wǎng)絡(luò)權(quán)重。
[wlij=wlij+εfine-tuning×yliδl+1j]? ?(11)
[blj=blj+εfine-tuning×δl+1j]? ?(12)
3 實驗過程
3.1 實驗環(huán)境
Matlab是一款專業(yè)數(shù)學(xué)軟件,功能強大,應(yīng)用場景廣泛[21]。本文基于Matlab中對恐怖襲擊的定量分級進行模擬。
3.2 主要過程
圖4是模型主要流程。
圖4 基本流程
主要步驟:
(1)通過數(shù)據(jù)篩選和數(shù)據(jù)清理之后,將原始數(shù)據(jù)中135個變量信息處理至29個具有代表性的變量信息。
(2)采用深度置信網(wǎng)絡(luò)(DBN)對數(shù)據(jù)進行特征提取和降維,深度置信網(wǎng)絡(luò)可自動實施上述功能,而無需太多人為操作[21]。篩選出地理位置信息(精度、維度)、時間(日、月)后,得到了25個代表變量信息,并對特征值進行排序,如表2、圖5所示。
表2 特征值排序
圖5 25類數(shù)據(jù)信息的特征值排序
通過K-means方法調(diào)用K-means函數(shù)對所有恐怖襲擊事件進行聚類分析,得到所有恐怖襲擊事件的危險程度分級(5級)。將表1中挑選的10個事件同危險程度分級進行匹配后,得到其危害級別,如表4所示(事件編號是根據(jù)GTD中數(shù)據(jù)信息選取的部分?jǐn)?shù)據(jù)編號)。
表4 典型事件危害級別
4 結(jié)語
本文采用深度置信網(wǎng)絡(luò)(DBN)對非線性數(shù)據(jù)進行降維、特征提取,并且對歷年恐怖襲擊事件進行分級,在Matlab中調(diào)用深度置信網(wǎng)絡(luò)可自動實現(xiàn)上述功能,而無需太多人為操作。本文研究僅提取一些事件進行分析,主要是數(shù)據(jù)處理,為預(yù)測恐怖事件和防止恐怖襲擊奠定了基礎(chǔ)。下一步研究可從時間特征中找到恐怖襲擊概率高的地區(qū),更好地防止恐怖襲擊發(fā)生。
參考文獻:
[1] 傅子洋,徐榮貞,劉文強. 基于貝葉斯網(wǎng)絡(luò)的恐怖襲擊預(yù)警模型研究[J]. 災(zāi)害學(xué),2016,31(3):184-189.
[2] FRIEDMAN N,GOLDSZMIDT M,WYNER A. On the application of the bootstrap for computing confidence measures on features of induced Bayesian networks[J]. AI & STAT,1999(7): 189-208.
[3] 趙國敏,劉茂,張青松, 等. 基于博弈論的地鐵車站恐怖襲擊風(fēng)險定量研究[J]. 安全與環(huán)境學(xué)報, 2006, 6(3):47-50.
[4] MAJOR J A. Advanced techniques for modeling terrorism risk[J]. Journal of Risk Finance, 2002,4 (1):15-24.
[5] 王雷,王欣,趙秋紅. 基于和聲搜索算法優(yōu)化支持向量機的突發(fā)暴恐事件分級研究[J]. 管理理論,2016,28(8):125-132.
[6] LINDELAUF R H A,HUSSLASGE B G M. Cooperative game theoretic analysis of terrorist networks: the cases of Jemash Islamiyah and AI Qaeda[J]. European Journal of Operational Research,2013,229(1):230-238.
[7] 王振,劉茂. 定量風(fēng)險分析在恐怖襲擊風(fēng)險評估中的應(yīng)用[J]. 公共安全, 2006(7):18-22.
[8] 張亞軍,劉宗田,周文. 基于深度信念網(wǎng)絡(luò)的事件識別[J]. 電子學(xué)報,2017(6):1415-1423.
[9] HINTON G E,SALAKHUTDINOV R. Reducing the dimensionality of data with neural networks [J]. Science,2006,313(5768): 504-507.
[10] YU D, DENG L. Deep Learning and its applications to signal and information processing[J]. IEEE Signal Processing Magazine,2011, 28(1):145-154.
[11] AREL I,ROSE C,KARNOWSKI T. Deep machine learning-a new frontier in artificial intelligence[J]. IEEE Computational Intelligence Magazine, 2010, 5(4): 13-18.
[12] BENGIO Y. Learning deep architectures for AI[J]. Foundation and Trends in Machine Learning, 2009, 2(1): 1-127.
[13] BENGIO Y,COURVILLE A,VINCENT P. Representation learning: a review and new perspectives[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(8):1798-1828.
[14] ANTHES G. Deep learning comes of age[J]. Communications of the ACM,2013,56(6):13-15.
[15] JONES N. The learning machines[J]. Nature,2014,505(7428): 146-148.
[16] 胡曉林,朱軍. 深度學(xué)習(xí):機器學(xué)習(xí)領(lǐng)域的新熱點[J]. 中國計算機學(xué)會通訊,2013,9(7):64-69.
[17] 余凱,賈磊,陳雨強,等. 深度學(xué)習(xí)的昨天、今天和明天[J]. 計算機研究與發(fā)展,2013,50(9):1799-1804.
[18] 呂啟,竇勇,牛新,等. 基于DBN模型的遙感圖像分類[J]. 計算機研究與發(fā)展,2014,51(9):1911-1918.
[19] 陳翠平. 基于深度信念網(wǎng)絡(luò)的文本分類算法[J]. 計算機系統(tǒng)應(yīng)用, 2015, 24(2):121-126.
[20] HINTON G E,OSINDERO S,THE Y. A fast learning algorithm for deep belief nets[J]. Neural Computation,2006,18(7):1527-1554.
[21] 劉亮,劉君,尹斐. 基于MATLAB環(huán)境的實時仿真研究[J].微計算機信息,2006,22(7):250-252.
(責(zé)任編輯:何 麗)