邱凌峰,胡嘯峰,顧海碩,唐 正,鄭超慧,沈 兵
(1. 中國人民公安大學 信息技術與網絡安全學院,北京 102623;2. 安全防范技術與風險評估公安部重點實驗室,北京 102623)
當前,全球范圍內恐怖襲擊事件頻發(fā),嚴重影響了相關國家和地區(qū)的穩(wěn)定。根據全球恐怖主義數據庫統計,全球范圍內發(fā)生的恐怖襲擊次數從2006年的2 836次大幅增長至2016年的16 425次,2016年有所下降,但仍達到了13 170次。近幾年的重大恐怖襲擊事件有 “1.14”印尼雅加達恐怖襲擊事件、“3.1”中國昆明火車站暴恐事件、“4.3”俄羅斯圣彼得堡地鐵自殺式爆炸事件和“4.7”瑞典斯德哥爾摩市中心卡車沖撞事件等。因此,面對日益嚴峻的國際反恐形勢,針對全球范圍內的恐怖襲擊風險分析和防控工作極為必要。
針對各個國家未來一段時間內可能面臨的恐怖襲擊次數進行預測,可以提前發(fā)現全球范圍內恐怖襲擊的熱點地區(qū),為國際反恐組織和相關國家研究恐怖主義行為規(guī)律和重點防控工作提供決策支持。關于恐怖襲擊的預測,國內外學者進行了大量的研究,Petroff V B等[1]提出了關于具體恐怖襲擊事件預警的隱馬爾可夫模型。戰(zhàn)兵等[2]基于隱馬爾可夫模型,利用恐怖襲擊的主體、客體、手段及資源等,預測將來可能發(fā)生的恐怖事件;傅子洋等[3]基于貝葉斯網絡,利用恐怖襲擊的攻擊方式、政治經濟目的和恐怖分子人數等預測襲擊發(fā)生后的人員傷亡和財產損失;薛榮安等[4]基于貝葉斯和變化表的方法,利用恐怖組織的意識形態(tài)、宗教信仰、政治主張和經濟情況等預測恐怖組織的行為;項寅[5]基于改進的神經網絡,預測21類恐怖襲擊目標面臨的風險;胡成等[6]利用社會網絡分析法挖掘暴力恐怖活動的社會網絡特征,提出暴力恐怖分子及恐怖襲擊地點的預警思路。已有的預測研究大多為微觀層面的事后分析,即利用襲擊發(fā)生后獲得的信息維度,分析具體的恐怖主義行為或事件等。而利用恐怖襲擊發(fā)生前的信息,對宏觀層面的恐怖襲擊熱點地區(qū)進行預測的研究仍十分匱乏。
根據已有研究,經濟因素[7](如人口老齡化、城鎮(zhèn)化等)、安全因素[8](如移民危機、民族分裂等)和政治因素[9](如教義信仰、文明沖突等)與恐怖襲擊的發(fā)生密切相關。脆弱國家指數考慮了一個國家經濟、政治、社會和凝聚力四方面的因素,因此,本文利用2006-2016年的脆弱國家指數數據和全球恐怖主義數據庫數據,基于多種機器學習模型,對全球范圍內各個國家遭受的恐怖襲擊次數進行回歸預測。
脆弱國家指數(Fragile States Index)[10],由美國和平基金會和美國《外交政策》共同編制。該數據庫共從社會、經濟、政治和安全四個維度對全球得到認可的主權國家進行評分。評分來源于內容分析、專家調查和公開的統計數據[11],最后將不同尺度的數據標準化為12項0~10的數字(保留1位小數)(表1)。
表1 脆弱國家指數介紹
全球恐怖主義數據庫(以下簡稱GTD)是由美國反恐研究聯合會(Study of Terrorism and Responses to Terrorism, START)與馬里蘭大學(University of Maryland)聯合建立的一個開源數據庫,記錄了1970-2016年超過140 000個恐怖襲擊事件信息,每條數據包含了國家、年份、死傷人數和使用武器等共135個信息。這些數據來源于媒體文章、電子新聞檔案、現有的數據集、書籍和期刊以及法律文件,被認為是記錄全球恐主義活動最全面的數據庫[12-13]。
圖1展示了本文模型的構建流程,包括數據庫關聯,數據預處理,數據集劃分,模型訓練及預測,結果分析,具體流程如下。
圖1 恐怖襲擊預測模型框架
(1)數據庫關聯:利用透視表計算2006-2016年間,GTD中各個國家每年遭受的恐怖襲擊次數,然后通過國家名稱將Fragile States Index數據庫與GTD關聯,剔除缺失數據,最終保留了共1 920條數據,每條數據包含國家名稱、年份、脆弱國家指數的12項特征及相應的恐怖襲擊次數。
(2)數據預處理:對數據進行初步分析,發(fā)現各個國家每年遭受的恐怖襲擊次數差別較大,最大值為3 925次,最小值為0次,平均47次,因此,本文利用python3.6中sklearn模型庫的StandarScaler模塊對特征及目標值進行了標準化處理[14]。
(3)數據集劃分:對數據集的劃分主要考慮兩點,一是本文模型屬于時序預測模型,即利用歷史數據進行模型訓練,然后對未來一年內的各個國家遭受的恐怖襲擊次數進行預測;二是訓練集和測試集都必須包含每個國家的恐怖襲擊數據。因此,本文將2006-2015年的數據劃分為訓練集(1 744條),2016年的數據劃分為測試集(178條)。
(4)模型評價及結果分析:本文模型屬于回歸模型,其擬合優(yōu)度采用確定系數R2評價,R2越接近1,模型擬合程度越好。對特征進行重要性排序,挖掘對恐怖襲擊風險影響最大的因素。選取最優(yōu)模型的預測結果,通過Arcgis10.2軟件進行可視化處理,挖掘全球恐怖襲擊熱點地區(qū)。
本文選取線性回歸(Linear Regression)[15]、隨機梯度下降(Stochastic gradient descent)[16]、支持向量機(Support Vector Regression)[17]、K近鄰(K-neighbors)[18-19]、決策樹(Decision Tree)[19]、隨機森林(Random Forest)[20]共6種機器學習回歸模型,對2016年全球各國的恐怖襲擊次數進行預測。根據文獻[21],R2達到0.5以上時,模型擬合程度較好。表2是不同機器學習模型的回歸性能比較,結果顯示,隨機森林、K近鄰和決策樹表現最優(yōu),R2分別達到了0.75、0.74和0.67。
為進一步分析全球恐怖襲擊趨勢及熱點地區(qū),本文利用Arcgis軟件,基于自然間斷點分級法[22]對比了2016年全球恐怖襲擊次數的真實值與隨機森林模型的預測值(圖2)。
表2 多種機器學習算法回歸性能比較
從整體上看,隨機森林模型預測的總體情況符合2016年全球恐怖襲擊的實際情況,其中,中東和中亞等恐怖襲擊重災區(qū)預測準確。而在恐怖襲擊次數偏少的北非、南亞的部分地區(qū)、東歐和加勒比海地區(qū)出現了預測次數偏多的情況,其中,東歐預測偏高的情況較為突出。2011年以來,整個歐洲,尤其是東歐的烏克蘭,面臨著民族分裂勢力發(fā)起的以軍事斗爭為主的各類恐怖主義威脅。此后,歐洲采取了多方面的反恐措施,遭受的恐怖襲擊次數也從2015年的1 008次急劇下降為2016年的391次,但東歐的社會、政治和經濟等仍處于不穩(wěn)定的狀態(tài)[8],這可能是導致東歐地區(qū)預測偏高的原因。
從國家層面上看,恐怖襲擊次數達366次以上(一年內平均每天都發(fā)生恐怖襲擊)的有伊拉克、阿富汗、印度、巴基斯塔、菲律賓、索馬里、土耳其、尼日利亞、也門、敘利亞和利比亞共12個國家,除了土耳其和尼日利亞預測明顯偏低外,其他10個國家都能準確預測。說明遭受恐怖襲擊越嚴重的地區(qū),社會、政治、經濟和安全四個方面的因素對恐怖襲擊次數的刻畫能力越強。
基于平均不純度減少(mean decrease impurity)[23]和平均準確率減少(Mean decrease accuracy)[24]算法,利用隨機森林模型對12個特征進行了重要性排序。由表3可知,兩種算法得出的特征重要性排序中,“安全機構、公共服務、人權法治和集團之間的矛盾”4個特征均排在前五名,其中,“安全機構和集團之間的矛盾”為安全性指標,“公共服務和人權法治”為政治性指標,說明一個國家的政治狀況及凝聚力與恐怖襲擊風險相關性較強。
“安全機構”在兩種算法中的得分,分別是第二名特征的1.7倍和9.5倍,對恐怖襲擊次數的刻畫能力最強。對“安全機構”的打分,主要考慮了一個國家面臨的安全威脅(如爆炸、叛亂運動政變或恐怖主義)和嚴重的犯罪因素(如有組織犯罪和謀殺,以及公民對國內安全的信任),以及管理當局對武裝抵抗,特別是暴力起義和叛亂的表現等。
“集團之間的矛盾”考慮了不同集團之間的分歧和分裂(如種族矛盾,某些集團的自治權、自決權或政治獨立性被剝奪)。“公共服務”考慮了國家提供的基本服務(如健康,教育,水和衛(wèi)生)和國家通過有效的警務來保護其公民的能力(如打擊恐怖主義和暴力)?!叭藱喾ㄖ巍笨紤]了國家中基本人權的保護程度、是否廣泛濫用法律、是否存在專制,獨裁或軍事統治等。
圖2 2016年全球恐怖襲擊真實值與預測值對比圖
平均不純度減少平均準確率減少特征重要性排名特征重要性排名安全機構0.351安全機構3.801公共服務0.202人權法治0.412人權法治0.093集團之間的矛盾0.403集團之間的矛盾0.064政府的正當性0.384人口壓力0.065公共服務0.295境內難民和流離失所者0.056精英階層的自私0.196經濟發(fā)展不均衡0.057經濟不景氣0.137政府的正當性0.048經濟發(fā)展不均衡0.118外部干涉0.049外部干涉0.059經濟不景氣0.0310人力及智力的海外流失0.0210人力及智力的海外流失0.0211境內難民和流離失所者0.0211精英階層的自私0.0212人口壓力0.0212
綜上可以發(fā)現,較為重要的4個特征中,除了“人權法治”,評分時均考慮了與恐怖主義相關的因素。
本文利用脆弱國家指數數據庫和全球恐怖主義數據庫,基于多種機器學習模型,對全球各個國家遭受的恐怖襲擊次數進行回歸預測。結果顯示,預測隨機森林、K近鄰和決策樹模型表現表現優(yōu)異,R2分別達到了0.75、0.74和0.67。利用Arcgis軟件對隨機森林預測結果進行可視化,發(fā)現隨機森林模型的預測結果整體符合實際情況,尤其在恐怖襲擊高發(fā)的中東和中亞地區(qū)預測較為準確。基于平均不純度減少和平均準確性減少算法,對12個特征進行了重要性排序,發(fā)現安全機構、公共服務、人權法治和集團之間的矛盾對預測結果的刻畫能力最強。本文的預測模型能夠從宏觀上預測全球恐怖襲擊的熱點地區(qū),挖掘恐怖襲擊的相關因素,為反恐組織和相關國家的防控工作提供決策支持。