国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

未來反恐態(tài)勢預(yù)測研究

2019-10-11 11:24冒偉
軟件導(dǎo)刊 2019年7期
關(guān)鍵詞:自然語言處理

摘 要:通過對全球恐怖主義數(shù)據(jù)庫(GTD)進行分析,為未來反恐防恐行動提供有價值的信息支持,提出利用大數(shù)據(jù)挖掘方法對未來反恐態(tài)勢進行分析。首先采用N-gram模型對原始數(shù)據(jù)中的motive屬性進行挖掘,分析恐怖襲擊事件發(fā)生的主要動機。其次通過AR自回歸模型,對恐襲造成的死亡人數(shù)進行預(yù)測。最后通過構(gòu)建TreeMap圖,展示未來全球某些重點地區(qū)的反恐態(tài)勢,從恐怖事件發(fā)起動機、死亡人數(shù)、重點地區(qū)3個方面對未來恐怖襲擊進行預(yù)測。實驗結(jié)果顯示,采用大數(shù)據(jù)分析預(yù)測精度較高。

關(guān)鍵詞:N-gram模型;AR自回歸模型;TreeMap圖;自然語言處理

DOI:10. 11907/rjdk. 182602 開放科學(xué)(資源服務(wù))標識碼(OSID):

中圖分類號:TP301文獻標識碼:A 文章編號:1672-7800(2019)007-0028-04

Research on Future Counter-terrorism Situation Based on Big Data Analysis

MAO Wei

(School of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Technology,Shanghai 200093,China)

Abstract: The analysis of data in the global terrorism database (GTD) can provide reliable and valuable information support for future counter-terrorism and counter-terrorism operations. This paper proposes the method of big data mining to analyze and study the future counter-terrorism situation. First, n-gram model is used to mine motive attributes in original data and analyze the main motivation of terrorist attacks. Secondly, AR autoregressive model was used to predict the death toll caused by terrorist attacks. Finally, TreeMap map was constructed to show the counter-terrorism situation in some key regions of the world in the future. The obtained results are used to predict future terrorist attacks from three aspects: the motivation of terrorist incidents, the number of deaths, and key areas. Experimental results show that the prediction accuracy of big data analysis is relatively high.

Key Words: N-gram model; AR autoregressive model; TreeMap diagram; natural language processing

作者簡介:冒偉(1993-),男,上海理工大學(xué)光電信息與計算機工程學(xué)院碩士研究生,研究方向為機器學(xué)習(xí)、自然語言處理。

0 引言

2001年9月11日美國發(fā)生恐怖襲擊事件已經(jīng)過去了17年??植酪u擊不僅造成重大人員傷亡和財產(chǎn)損失,而且給世界帶來巨大的心理陰影,嚴重擾亂社會秩序,阻礙世界經(jīng)濟發(fā)展。在信息時代,通過對恐怖襲擊事件相關(guān)數(shù)據(jù)進行分析,了解受害者、兇手、傷亡和后果等信息,可更深入探尋近20年恐怖襲擊事件發(fā)生規(guī)律,為未來的反恐防恐行動提供有價值的信息支持。

文獻[1]提出應(yīng)用改進神經(jīng)網(wǎng)絡(luò)模型對恐怖襲擊進行預(yù)測,利用BP神經(jīng)網(wǎng)絡(luò)實現(xiàn)風(fēng)險指數(shù)預(yù)測,并結(jié)合遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)的初始值和閾值。但該方法預(yù)測模型的外推年份由專家評估而定,存在一定的主觀性,而且使用遺傳算法對BP神經(jīng)網(wǎng)絡(luò)進行改進,時間復(fù)雜度較高。文獻[2]利用隱馬爾可夫模型與貝葉斯網(wǎng)絡(luò)方法,通過分析一些先前發(fā)生的事件預(yù)測未來一段時間可能發(fā)動的恐怖活動。該方法檢測過程獲取的情報信息較少,一定程度上影響了模型結(jié)果的精確度。文獻[3]利用改進的隨機森林算法對犯罪進行預(yù)測,但由于缺少實際應(yīng)用數(shù)據(jù),分類精度和分類可靠性得不到保證。文獻[4]利用加權(quán)貝葉斯方法預(yù)測恐怖組織行為,所提算法在準確度及時間復(fù)雜度上優(yōu)于CAPE算法,但存在計算繁瑣、耗時長等問題。

針對以上問題,本文對全球恐怖主義數(shù)據(jù)庫(GTD)中1998-2017年世界發(fā)生的恐怖襲擊事件記錄進行分析。首先采用自然語言處理中常用的N-gram模型對原始數(shù)據(jù)中的motive屬性進行挖掘[5],分析恐怖襲擊事件發(fā)生的主要動機。具體采用二元Bi-gram和三元Tri-gram生成詞云方法[6-7],分析出大部分恐襲事件動機與宗教暴力及武裝暴力有關(guān)[8]。其次,通過對歷史數(shù)據(jù)進行分析,得出歷年恐襲造成的死亡人數(shù)隨時間變化折線圖,將2014年后的數(shù)據(jù)作為訓(xùn)練對象,通過AR自回歸模型[9-11],對2018年恐襲造成的死亡人數(shù)進行預(yù)測,結(jié)果為18 934人左右。通過繪制歷年各地區(qū)恐襲死亡人數(shù)折線圖,分析出中東、北亞、南亞和亞撒哈拉地區(qū)是近幾年恐襲死亡人員重災(zāi)區(qū)。最后,通過構(gòu)建TreeMap圖,獲得歷史上國家死亡人數(shù)和受傷人數(shù)樹形圖,發(fā)現(xiàn)伊拉克、尼日利亞、阿富汗、敘利亞是全球恐怖襲擊重災(zāi)區(qū),需要動用國際力量重點防范。

1 數(shù)據(jù)預(yù)處理

(1)動機(motive)分析。需對全球恐怖主義數(shù)據(jù)庫(GTD)中motive字段中出現(xiàn)的常見詞/無意義的詞進行過濾,如“Unknown”,“attack”,“specific”,“motive”,“sources”,“unknown”,“claimed”,“targeted”,“carried”,“noted”,“incident”,“stated”,“responsibility”,“the”,這些詞沒有包含有價值的信息,會對分析產(chǎn)生干擾。

(2)時間特性分析。主要關(guān)注事件死亡人數(shù)和受傷人數(shù)。從死亡人數(shù)出發(fā)去評判襲擊事件影響程度、地區(qū)受災(zāi)程度以及預(yù)測來年可能產(chǎn)生的恐怖襲擊所造成的死亡人數(shù),預(yù)測未來幾年恐怖襲擊態(tài)勢。

2 模型建立

動機分析指挖掘恐怖襲擊兇手的主要作案動機[13-14]。通過挖掘原始數(shù)據(jù)里的motive屬性,對動機進行詳細分析[15-16]。采用自然語言處理中常用的N-gram模型[17],它是一種基于統(tǒng)計語言模型的算法,其基本思想是將文本里的內(nèi)容按照字節(jié)進行大小為n的滑動窗口操作,從而形成長度是n 的字節(jié)片段序列。每一個字節(jié)片段稱為gram,再對所有g(shù)ram的出現(xiàn)頻度進行統(tǒng)計,并且按照事先設(shè)定好的閾值進行過濾,形成關(guān)鍵gram列表,也就是該文本的向量特征空間,列表中的每一種gram就是一個特征向量維度。該模型基于馬爾科夫假設(shè),即假設(shè)在一段文本中第N個詞的出現(xiàn)只與前面n-1個詞相關(guān),與其它任何詞都不相關(guān)?;谶@樣一種假設(shè),可以評估文本中每個詞出現(xiàn)的概率,整句的概率就是各個詞出現(xiàn)概率的乘積,這些概率可通過直接從語料中統(tǒng)計N個詞同時出現(xiàn)的次數(shù)得到。本文采用常用的二元Bi-Gram和三元Tri-Gram生成詞云[18]。

針對時空分析,采用自回歸AR模型預(yù)測2018年恐怖襲擊可能造成的死亡人數(shù)。自回歸模型是一種用于處理時間序列預(yù)測的回歸模型,是用同一變量之前的表現(xiàn)情況預(yù)測該變量本期的表現(xiàn)。本文中需要預(yù)測的變量即為2018年恐怖襲擊造成的死亡人數(shù),而訓(xùn)練數(shù)據(jù)即為往年的死亡人數(shù)。

3 模型求解

3.1 動機分析

動機分析采用基于N-gram模型的關(guān)鍵詞提取算法,具體流程如下:

求解過程偽代碼:

輸入:[(w1,w2,w3,?,wn)]

計算:[P(w1,w2?,wm)=P(w1)*P(w2|w1)*P(w3|w1,w2)?][P(wm|][w1,w2,?,wm-1)]

二元-gram模型計算公式: [P(w1,w2,?,wm)=i=1mP][(wi|wi-1)]

三元-gram模型計算公式: [P(w1,w2,?,wm)=i=1mP][(wi|wi-2,wi-1)]

輸出:概率最大的N個[(w1,w2,w3,?wn)]詞序列

根據(jù)計算結(jié)果,使用二元Bi-gram和三元Tri-gram生成的詞云如圖1、圖2所示。其中詞短語越大其出現(xiàn)的概率越高,也相對更重要。

圖1 二元Bi-gram模型詞云

圖2 三元Tri-gram模型詞云

根據(jù)詞云生成結(jié)果,可發(fā)現(xiàn)最常見的詞組包括:“trend sectarian violence”,“l(fā)arger sectarian violence”,“l(fā)arger trend violence”,“sectarian violence iraqs”,“trend violence related”,“violence iraqs sunni”,“iraqs sunni minority”等。

通過對這些常見詞組分析得到如下結(jié)論:①大部分恐怖襲擊事件的動機都和宗教暴力及武裝暴力有關(guān);②伊拉克是恐怖襲擊的重災(zāi)區(qū);③larger 等詞匯暗示了近幾年恐怖襲擊的程度與規(guī)模還會繼續(xù)增長。

3.2 時空特性分析

為對未來態(tài)勢進行較為準確的評估,首先需要對歷史數(shù)據(jù)進行分析。以時間年份為橫坐標,死亡人數(shù)為縱坐標,繪制歷年恐襲造成的死亡人數(shù)折線圖,如圖3所示。

圖3 歷年恐襲造成的死亡人數(shù)折線

通過對圖3進行分析,可以很直觀地看出2014年是恐怖襲擊造成死亡人數(shù)最多的年份,此后死亡人數(shù)呈線性降低態(tài)勢。截取2014年后的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),因為其符合AR自回歸模型所要求的變量之間存在線性關(guān)系的要求。利用自回歸模型對2018年死亡人數(shù)進行預(yù)測,模型公式如下:

[X=c+i=1pφiXt-i+εt]? ? ?(1)

式(1)中,c是常數(shù)項,[εt]為隨機誤差值。通過計算,預(yù)測2018年死亡人數(shù)應(yīng)該在 18 934左右。

圖4 2018年恐襲死亡人數(shù)預(yù)測

4 反恐態(tài)勢預(yù)測

為研究下一年全球或某些重點地區(qū)的反恐態(tài)勢,繪制歷年各地區(qū)恐怖襲擊造成的死亡人數(shù)折線圖,如圖5所示。從圖5可以發(fā)現(xiàn),中東、北亞、南亞和亞撒哈拉地區(qū)是這幾年死亡人數(shù)重災(zāi)區(qū)域,其中,中東、北亞、南亞都有放緩趨勢,但是亞撒哈拉地區(qū)2017年略有增長,從而判斷其在2018年可能會有小幅增長。對重點反恐地區(qū)進行預(yù)測,構(gòu)建TreeMap圖[19-20],從而獲得歷史上國家死亡人數(shù)和受傷人數(shù)樹形圖,如圖6所示。圖6中,正方形面積越大,代表該國家該年份恐怖襲擊造成的死亡人數(shù)越多,同時顏色越深,代表恐怖襲擊造成的受傷人數(shù)越多。

圖5 歷年恐襲造成的各地區(qū)死亡人數(shù)

圖6 各國歷年恐襲造成死亡/受傷人數(shù)

從圖6可以發(fā)現(xiàn),伊拉克、尼日利亞、阿富汗、敘利亞仍是恐怖襲擊的重災(zāi)區(qū),雖然死亡人數(shù)逐年下降,但其規(guī)模從全球角度看依然很大,因此這些地區(qū)需要重點防范。

5 結(jié)語

采用N-gram模型有效挖掘了恐怖襲擊的常見動機,并通過詞云進行可視化分析,形象直觀。使用自回歸模型對恐怖襲擊可能造成的死亡人進行量化預(yù)測,從而有效預(yù)測未來的恐怖襲擊事態(tài)。構(gòu)建了TreeMap圖,從樹狀圖中可以發(fā)現(xiàn),伊拉克、尼日利亞、阿富汗、敘利亞仍然是恐怖襲擊重災(zāi)區(qū)。本文采用大數(shù)據(jù)挖掘方法,有效分析預(yù)測了全球恐怖事件發(fā)展態(tài)勢,較傳統(tǒng)方法在預(yù)測精度上有了顯著提高。

參考文獻:

[1] 項寅. 基于改進神經(jīng)網(wǎng)絡(luò)的恐怖襲擊風(fēng)險預(yù)警系統(tǒng)[J]. 災(zāi)害學(xué), 2018(1):32-33.

[2] 戰(zhàn)兵,韓銳. 基于隱馬爾可夫的恐怖事件預(yù)測模型[J]. 解放軍理工大學(xué)學(xué)報:自然科學(xué)版,2015,16(4): 386-393.

[3] 孫菲菲,曹卓,肖曉雷. 基于隨機森林的分類器在犯罪預(yù)測中的應(yīng)用研究[J]. 情報雜志,2014,33(10): 148-152.

[4] 薛安榮,毛文淵,王孟頔,等. 基于貝葉斯方法和變化表的恐怖行為預(yù)測算法[J]. 計算機科學(xué),2016, 43(12): 130-134.

[5] TRIPATHY A,AGRAWAL A,RATH S K. Classification of sentiment reviews using n-gram machine learning approach[J]. Expert Systems with Applications, 2016(57):117-126.

[6] DURRANI N,SCHMID H,F(xiàn)RASER A,et al. The operation sequence model—combining n-gram-based and phrase-based statistical machine translation[J]. Computational Linguistics,2015,41(2): 185-214.

[7] POPOVI? M. Chrf: character n-gram f-score for automatic mt evaluation[C]. Proceedings of the Tenth Workshop on Statistical Machine Translation,2015: 392-395.

[8] GOLDWATER S. Anlp lecture 6 n-gram models and smoothing[EB/OL]. https://onlinelibrary.wiley.com/journal/18673899,2018.

[9] WANG C,CHAN K S. Quasi-likelihood estimation of a censored autoregressive model with exogenous variables[J]. Journal of the American Statistical Association, 2018, 113(523): 1135-1145.

[10] PALM B G, ALVES D I, VU V T, et al. Autoregressive model for multi-pass sar change detection based on image stacks[C]. Image and Signal Processing for Remote Sensing XXIV,International Society for Optics and Photonics, 2018.

[11] KALLIOVIRTA L, MEITZ M, SAIKKONEN P. A gaussian mixture autoregressive model for univariate time series[J]. Journal of Time Series Analysis, 2015, 36(2): 247-266.

[12] 褚曉敏,朱巧明,周國棟. 自然語言處理中的篇章主次關(guān)系研究[J]. 計算機學(xué)報,2017,40(4): 842-860.

[13] CONNEAU A,SCHWENK H,BARRAULT L,et al. Very deep convolutional networks for natural language processing[J]. arXiv preprint, 2016(4):394-399.

[14] BROWN D, DALTON J, HOYLE H. Spatial forecast methods for terrorist events in urban environments[C].International Conference on Intelligence and Security Informatics. Springer, Berlin, Heidelberg, 2004: 426-435.

[15] CLAUSET A,WOODARD R. Estimating the historical and future probabilities of large terrorist events[J]. The Annals of Applied Statistics, 2013, 7(4): 1838-1865.

[16] NAJGEBAUER A,ANTKIEWICZ R,CHMIELEWSKI M,et al. The prediction of terrorist threat on the basis of semantic association acquisition and complex network evolution[J]. Journal of Telecommunications and Information Technology, 2008(3): 14-20.

[17] 吳應(yīng)良,韋崗,李海洲. 一種基于 N-gram 模型和機器學(xué)習(xí)的漢語分詞算法[J]. 電子與信息學(xué)報, 2001, 23(11): 1148-1153.

[18] 徐志明,王曉龍. N-gram 語言模型的數(shù)據(jù)平滑技術(shù)[J]. 計算機應(yīng)用研究,1999,16(7): 37-39.

[19] 艾廷華,周夢杰,陳亞婕. 專題地圖屬性信息的 LOD 表達與 TreeMap 可視化[J]. 測繪學(xué)報,2014,42(3): 1-3.

[20] 周寧,陳旭毅,曾楨. 主題數(shù)據(jù)模型的可視化挖掘方法應(yīng)用研究[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn),2010,26(7/8):22-26.

(責任編輯:杜能鋼)

猜你喜歡
自然語言處理
基于LSTM自動編碼機的短文本聚類方法
自然語言處理與司法案例
基于組合分類算法的源代碼注釋質(zhì)量評估方法
詞向量的語義學(xué)規(guī)范化
肥西县| 衢州市| 台湾省| 万载县| 通山县| 鄂州市| 开原市| 南溪县| 大连市| 信丰县| 沐川县| 元江| 海城市| 抚远县| 武平县| 柘荣县| 体育| 吉木萨尔县| 佛坪县| 黑水县| 象州县| 赤水市| 开封市| 锡林浩特市| 嘉荫县| 新平| 蓬安县| 如东县| 堆龙德庆县| 若羌县| 定南县| 延川县| 平潭县| 垫江县| 滁州市| 黎平县| 诏安县| 团风县| 德钦县| 新龙县| 通城县|