唐正 朱衍丞 邱凌峰
摘 要:為分析恐怖組織不同維度的特征數(shù)據(jù)及特征之間的內(nèi)在聯(lián)系,在全球恐怖主義數(shù)據(jù)庫中選取5個典型國際恐怖組織,基于特征畫像,運用統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)、關(guān)聯(lián)規(guī)則挖掘以及地理信息系統(tǒng)數(shù)據(jù)分析方法,對恐怖襲擊特征屬性進(jìn)行分析。結(jié)果表明,5個恐怖組織偏好不同的襲擊區(qū)域,但普遍偏好炸彈/炸藥與槍支類武器;在特征關(guān)聯(lián)上,攻擊類型、目標(biāo)類型和武器類型3類屬性的特征關(guān)聯(lián)較為明顯。該方法在反恐情報分析中適用于挖掘不同涉恐人員的特征差異。
關(guān)鍵詞:恐怖組織;特征畫像;全球恐怖主義數(shù)據(jù)庫;關(guān)聯(lián)規(guī)則挖掘;梯度提升決策樹
DOI:10. 11907/rjdk. 182658
中圖分類號:TP319文獻(xiàn)標(biāo)識碼:A文章編號:1672-7800(2019)001-0128-04
Abstract: In order to effectively analyze multidimensional characteristic data of terrorist organizations and the interrelationship between the characteristic data, we select five typical international terrorist organizations from the Global Terrorism Database. Based on feature profiling, we use the method of statistics, machine learning, association rule mining and geographic information system to analyze the attacking characteristic attributes. According to the results, attacking preferences of the five typical terrorist organizations are considerably related to the attack regions but they all prefer to choose the weapons of explosives/bombs and firearms; in the association characteristic attributes, the associations of the three types of attributes, namely attack type, target type and weapon type are obviously correlated. The method is suitable for mining the characteristics of different potential terrorists in the intelligence analysis of counter-terrorism.
0 引言
近年來,世界范圍內(nèi)的恐怖襲擊事件頻發(fā),恐怖組織數(shù)量繁多,造成了生命、財產(chǎn)等重大損失,并引發(fā)了公眾恐慌、社會動蕩等一系列重大社會問題。研究恐怖組織的特征屬性及內(nèi)在聯(lián)系對反恐情報分析具有重要作用,是當(dāng)前國內(nèi)外反恐情報工作關(guān)注的重點[1-4]。
隨著目前大數(shù)據(jù)處理能力的不斷提升,利用恐怖組織特征數(shù)據(jù)進(jìn)行反恐情報分析等相關(guān)研究受到越來越多學(xué)者關(guān)注。位珍珍[5]通過對恐怖襲擊目標(biāo)和襲擊手段等特點的分析,總結(jié)出“后9·11時代”恐怖主義現(xiàn)狀及發(fā)展趨勢;趙法棟等[6]通過對恐怖組織的研究,揭示了恐怖組織的襲擊行為模式;曾向紅等[7]對“基地”組織和“伊斯蘭國”兩個影響力較大的恐怖組織進(jìn)行了組織結(jié)構(gòu)分析;薛安榮等[8]基于貝葉斯方法對恐怖組織改變其行為策略的問題進(jìn)行研究。
以往研究均在不同層面上對恐怖組織特征屬性進(jìn)行分析,從而為反恐情報分析工作提供決策支持。當(dāng)前研究對靜態(tài)屬性特征的分析仍較為欠缺,對各類特征之間的關(guān)聯(lián)性及重要性分析也存在不足。如何從大量涉恐?jǐn)?shù)據(jù)中對恐怖組織及涉恐人員特征屬性實現(xiàn)多維度、多角度、分層次的分析研判是目前國內(nèi)外研究的重點。特征畫像是指以人員為主體[9]對其各維度特征進(jìn)行分析。因此,本文基于特征畫像,綜合多種數(shù)據(jù)分析方法,在全球恐怖主義數(shù)據(jù)庫(GTD)中選擇5個典型國際恐怖組織(塔利班、光輝道路、哥倫比亞革命武裝力量、伊斯蘭國和索馬里青年黨),對其靜態(tài)屬性數(shù)據(jù)進(jìn)行挖掘與分析,從而實現(xiàn)對恐怖組織特征的刻畫,為反恐情報工作提供決策支持。
1 數(shù)據(jù)來源與數(shù)據(jù)預(yù)處理
本文的恐怖襲擊事件數(shù)據(jù)來源于全球恐怖主義數(shù)據(jù)庫(Global Terrorism Database,GTD)[10-12],該數(shù)據(jù)庫是全球恐怖主義研究與恐怖主義預(yù)警中心(START)開發(fā)的數(shù)據(jù)庫,是目前最全面的恐怖襲擊事件開源數(shù)據(jù)庫之一[13-14]。本文基于GTD數(shù)據(jù)庫中全部約170 000條可用數(shù)據(jù)(1970- 2016年),綜合考慮襲擊次數(shù)和組織規(guī)模,選取塔利班(Taliban)、光輝道路(Shining Path)、哥倫比亞革命武裝力量(FARC)、伊斯蘭國(ISIL)和索馬里青年黨(Al-Shabaab)5個典型國際恐怖組織,對其主要特征進(jìn)行分析。
綜合考慮數(shù)據(jù)完整性與相關(guān)性,本文選擇襲擊月份(imonth)、襲擊地區(qū)(region)、攻擊類型(attacktype1)、襲擊目標(biāo)類型(targtype1)、使用武器類型(weaptype1)、死亡人數(shù)(nkill)6個維度特征刻畫恐怖組織基本特點。其中,攻擊類型、襲擊目標(biāo)類型和使用武器類型均存在“未知類型(unknown)”這一子類型,由于其不能體現(xiàn)恐怖組織選擇偏好,無法對特征屬性進(jìn)行刻畫,本文將“未知類型(unknown)”剔除。
基于目標(biāo)類別的相似性,將襲擊目標(biāo)類型中“政府(一般)”、“政府(外交)”和“暴力政黨”合并為“政府類”;將“軍隊”、“警察”合并為“軍隊警察類”;將“墮胎診所”、“教育機(jī)構(gòu)”、“新聞媒體”和“NGO(非政府組織)”合并為“社會組織和機(jī)構(gòu)類”;將“食物或水供應(yīng)處”、“電信(基礎(chǔ)設(shè)施)”、“公用設(shè)備”、“機(jī)場和飛機(jī)”、“海事(包括港口和海運設(shè)施)”和“交通設(shè)施(除航空外)”合并為“基礎(chǔ)設(shè)施類”。通過以上歸類,目標(biāo)類型的類別更為明確,特點更為突出。
將使用武器類型(weaptype1)特征中武器種類相似的類別進(jìn)行合并。本文將“生物”、“化學(xué)品”、“放射性”和“核”合并為“核生化類”。
根據(jù)我國《生產(chǎn)安全事故報告和調(diào)查處理條例》相關(guān)規(guī)定,將死亡人數(shù)(nkill)分為3個等級,分別為:“死亡少于10人”、“死亡11~30人”與“超過30人死亡”。
2 恐怖組織主要特征刻畫
為分析恐怖組織在恐怖襲擊中的選擇偏好,即攻擊類型、襲擊目標(biāo)以及武器類型特點,本文利用雷達(dá)圖統(tǒng)計方法,對恐怖組織3類特征進(jìn)行刻畫。
如圖1所示為典型國際恐怖組織攻擊類型的選擇偏好,不同組織對攻擊類型選擇偏好各不相同,本文選取暗殺、武裝攻擊、爆炸、綁架和設(shè)施/基礎(chǔ)設(shè)施攻擊5個類別進(jìn)行刻畫。5個恐怖組織均傾向于首選爆炸類攻擊類型,武裝攻擊類是塔利班、光輝道路、哥倫比亞革命武裝力量和索馬里青年黨的第二選擇,但伊斯蘭國的第二選擇是綁架類;針對典型國際恐怖組織目標(biāo)類型選擇偏好,本文選取商業(yè)場所、政府、軍隊警察、社會機(jī)構(gòu)、基礎(chǔ)設(shè)施以及私人公民和財產(chǎn)6個類別進(jìn)行刻畫。軍隊警察類是塔利班、光輝道路、哥倫比亞革命武裝力量和索馬里青年黨的第一選擇,但伊斯蘭國傾向于攻擊私人公民類。光輝道路的目標(biāo)選擇中,商業(yè)場所、政府、軍隊警察、基礎(chǔ)設(shè)施和私人公民財產(chǎn)5類目標(biāo)被襲擊次數(shù)均很高,說明光輝道路無明顯選擇偏好;對于使用武器類型的選擇偏好,本文選取核生化、槍支、炸彈/炸藥、燃燒和近戰(zhàn)5個類別進(jìn)行刻畫。5個恐怖組織均傾向于首選炸彈/炸藥類武器類型,槍支是5個恐怖組織的第二選擇。
3 不同恐怖組織差異性分析
本文利用梯度提升決策樹算法,以不同特征作為分類屬性對恐怖組織進(jìn)行分類預(yù)測,并分析不同特征屬性對恐怖組織刻畫的貢獻(xiàn)度。通過機(jī)器學(xué)習(xí)方法,可定量分析各類特征對恐怖組織類型劃分方面的貢獻(xiàn)度。
3.1 分類算法介紹與數(shù)據(jù)集構(gòu)建
梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)是一種應(yīng)用十分廣泛的算法,能夠快速學(xué)習(xí)數(shù)據(jù)中的潛在聯(lián)系,生成推薦結(jié)果。其中Gradient Boosting 是一種基于用戶回歸與分類問題的機(jī)器學(xué)習(xí)技術(shù),利用多棵分類決策樹,并將所有樹的結(jié)論相加作為最終答案。GBDT不需要復(fù)雜的超參數(shù)(hyper-parameter),也不需要太多參數(shù)調(diào)試(parameter-tune)即可具有很好的學(xué)習(xí)能力[15-17]??紤]到本文要使用多種屬性對5個恐怖組織進(jìn)行預(yù)測,普通決策樹無法實現(xiàn)該情況下的分類,故選擇GBDT作為分類算法。
本文選定上述5個恐怖組織作為分類目標(biāo),選擇襲擊時間、襲擊地區(qū)、攻擊類型、襲擊目標(biāo)類型、使用武器類型與死亡人數(shù)6個維度特征作為分類屬性。其次將所選數(shù)據(jù)劃分為訓(xùn)練樣本與測試樣本,通過梯度提升決策樹對以上屬性進(jìn)行預(yù)測學(xué)習(xí),建立分類器,利用測試樣本對構(gòu)建的分類器進(jìn)行分類測試。利用python 3.6中的random工具包按照0.05的比例在數(shù)據(jù)記錄中隨機(jī)抽取測試樣本,重復(fù)抽取100次進(jìn)行分類測試,觀察分類結(jié)果。
本文選擇精確率與召回率作為分類結(jié)果評價指標(biāo)。機(jī)器學(xué)習(xí)中常用評價指標(biāo)主要為精確率(Precision)和召回率(Recall)。精確率表示樣本中分類正確的正樣本與所有分類為正樣本的個數(shù)比,而召回率用于衡量分類正確的正樣本與所有正樣本個數(shù)之比[18],其中被分類為某特定恐怖組織的樣本作為本次實驗的正樣本。設(shè)分類正確的集合為A,錯誤集合為B,則有:
本文旨在通過分類器對不同恐怖組織襲擊偏好進(jìn)行刻畫,應(yīng)關(guān)注測試集中每個組織分類情況,即該恐怖組織是否被正確分類,若分類錯誤則應(yīng)被歸為哪一類。因此,選擇召回率作為分類結(jié)果評價指標(biāo)。
基于基尼不純度,利用Scikit-learn中的重要度排序模塊對特征屬性進(jìn)行重要度排序。對分類具有較大貢獻(xiàn)度的屬性,其重要度也較高。
3.2 實驗過程與結(jié)果分析
本文選擇100次分類結(jié)果標(biāo)準(zhǔn)差作為衡量分類器魯棒性的評價標(biāo)準(zhǔn)。經(jīng)過計算,5個恐怖組織平均精確率標(biāo)準(zhǔn)差在0.02~0.06之間波動,平均召回率的標(biāo)準(zhǔn)差在0.01~0.04之間波動,表明分類器對該數(shù)據(jù)集具有較好的適應(yīng)能力,魯棒性較強(qiáng)。取100次分類均值作為最終分類結(jié)果,設(shè)平均精確率標(biāo)準(zhǔn)差為[S(P)],平均召回率標(biāo)準(zhǔn)差為[S(R)]:
表1為基于6個維度特征的典型恐怖組織分類結(jié)果,其中分類詳情為測試樣本被分類為哪些組織及其相關(guān)數(shù)量。以光輝道路分類詳情為例,0、209、18、0和0分別表示光輝道路被分類為塔利班、光輝道路、哥倫比亞革命武裝力量、伊斯蘭國和索馬里青年黨的數(shù)量,可以看出有209個樣本被正確分類,18個樣本被錯誤分類為哥倫比亞革命武裝力量。由于分類器已被證明具有較好的魯棒性,故僅選擇1組分類詳情進(jìn)行展示。結(jié)果表明,塔利班、光輝道路、伊斯蘭國和索馬里青年黨的召回率均很高,塔利班、伊斯蘭國和索馬里青年黨甚至達(dá)到100%,哥倫比亞革命武裝力量的召回率為0.27,其大部分被錯誤分類為光輝道路,說明哥倫比亞革命武裝力量特征與光輝道路很相似。如表2所示為各類特征重要度排序,襲擊地區(qū)特征的重要度為85.5%,說明恐怖組織的區(qū)域性特點很強(qiáng),而其它特征對于刻畫恐怖組織的貢獻(xiàn)度相對較低。
4 恐怖組織不同特征關(guān)聯(lián)性分析
恐怖組織各類特征屬性之間存在一定關(guān)聯(lián)性,對其關(guān)聯(lián)性進(jìn)行挖掘,可掌握其發(fā)動恐怖襲擊的選擇偏好,為反恐情報分析提供支持。本文通過關(guān)聯(lián)規(guī)則挖掘算法對每個恐怖組織分別建立一個數(shù)據(jù)集,分析每個數(shù)據(jù)集中特征之間的關(guān)聯(lián)性。
4.1 算法介紹
關(guān)聯(lián)算法是數(shù)據(jù)挖掘中的一類重要算法,主要目的是從一個數(shù)據(jù)集中發(fā)現(xiàn)項之間的隱藏關(guān)系,其在分類上屬于單維、單層及布爾關(guān)聯(lián)規(guī)則,主要算法為Apriori算法。Apriori算法分為兩步:①以迭代方式,根據(jù)用戶設(shè)定的支持度檢索出數(shù)據(jù)中的頻繁項集;②利用這些頻繁項集構(gòu)造出滿足用戶設(shè)定最小信任度的強(qiáng)關(guān)聯(lián)規(guī)則[19]。
本文進(jìn)行關(guān)聯(lián)規(guī)則挖掘的特征變量選定為襲擊時間、攻擊類型、襲擊目標(biāo)類型、使用武器類型和死亡人數(shù)共5類,其中最小信任度設(shè)為0.75。
4.2 結(jié)果分析
通過對每個數(shù)據(jù)集進(jìn)行關(guān)聯(lián)規(guī)則挖掘,篩選后得到結(jié)果如表3所示。
分析結(jié)果表明,恐怖組織最常發(fā)動的攻擊類型是武裝攻擊和爆炸類,發(fā)動這兩類攻擊更傾向于使用炸彈/炸藥和槍支類武器,因此恐怖組織之間的相似度很高,這也是表3分類結(jié)果不理想的原因。不同恐怖組織特征屬性之間的關(guān)聯(lián)特點也不同,如塔利班傾向于使用燃燒類武器發(fā)動設(shè)施/基礎(chǔ)設(shè)施類攻擊;光輝道路傾向于使用槍支類武器對政府類目標(biāo)實施暗殺行為;哥倫比亞革命武裝力量也傾向于使用槍支對政府及私人公民財產(chǎn)類目標(biāo)進(jìn)行襲擊;伊斯蘭國傾向于使用近戰(zhàn)類武器,對私人公民財產(chǎn)類目標(biāo)進(jìn)行綁架;索馬里青年黨的特征屬性則無顯著關(guān)聯(lián)。
5 結(jié)語
本文基于GTD數(shù)據(jù),對恐怖組織主要特征進(jìn)行刻畫,利用梯度提升決策樹算法對恐怖組織進(jìn)行分類,并通過關(guān)聯(lián)規(guī)則挖掘?qū)植澜M織特征之間的關(guān)聯(lián)性進(jìn)行分析,結(jié)果表明:①對于攻擊類型特征,5個典型國際恐怖組織均傾向于首選爆炸類,武裝攻擊是塔利班、光輝道路、哥倫比亞革命武裝力量和索馬里青年黨的第二攻擊類型,但伊斯蘭國的第二選擇是綁架類;②對于襲擊目標(biāo)類型特征,軍隊警察類是塔利班、光輝道路、哥倫比亞革命武裝力量和索馬里青年黨襲擊目標(biāo)的首選,但伊斯蘭國傾向于攻擊私人公民類,光輝道路襲擊各類目標(biāo)均很頻繁,其無明顯選擇偏好;③對于武器類型特征,5個恐怖組織均傾向于首選炸彈/炸藥類武器,第二選擇是槍支;④5個典型國際恐怖組織的區(qū)域性特征十分明顯,因此全球反恐應(yīng)因地制宜,針對不同區(qū)域特點進(jìn)行精準(zhǔn)反恐;⑤5個典型國際恐怖組織普遍偏好武裝攻擊和爆炸類攻擊模式,但不同恐怖組織的特征關(guān)聯(lián)不同,塔利班組織傾向于使用燃燒類武器發(fā)動設(shè)施/基礎(chǔ)設(shè)施類攻擊,光輝道路傾向于使用槍支類武器對政府類目標(biāo)實施暗殺行為,哥倫比亞革命武裝力量也傾向于使用槍支對政府及私人公民財產(chǎn)類目標(biāo)進(jìn)行襲擊,伊斯蘭國組織傾向于使用近戰(zhàn)類武器類型,以私人公民和財產(chǎn)為目標(biāo)進(jìn)行綁架。通過所挖掘的特征關(guān)聯(lián)有助于掌控恐怖襲擊風(fēng)險源頭,為情報分析及風(fēng)險防控提供有力支持。
參考文獻(xiàn):
[1] 鄧博. 恐怖分子個人數(shù)據(jù)的主要構(gòu)成及其運用[J]. 國防科技, 2015,36(6):81-89.
[2] 李本先,張薇,梅建明,等. 大數(shù)據(jù)在反恐情報工作中的應(yīng)用研究[J]. 情報雜志,2014(12):1-5.
[3] 周相坤,陳揚(yáng)帆, 王帥響. 反恐情報中恐怖分子個人數(shù)據(jù)運用研究[J]. 中國公共安全:學(xué)術(shù)版,2016(3) :18-21.
[4] 梅建明. 論反恐情報的特征與作用[J]. 江西警察學(xué)院學(xué)報, 2009(1):52-55.
[5] 位珍珍. 后911時代恐怖主義的GTD數(shù)據(jù)分析[J]. 情報雜志, 2017,36(7):10-15.
[6] 趙法棟, 莊弘煒, 金振興. 基于MLE的恐怖組織襲擊行為模式實證研究[J]. 復(fù)雜系統(tǒng)與復(fù)雜性科學(xué), 2014,11(4):19-22.
[7] 曾向紅, 梁晨. 從“基地”組織到“伊斯蘭國”——國際恐怖主義組織結(jié)構(gòu)的演化[J]. 中東問題研究, 2016(1):43-75.
[8] 薛安榮,毛文淵,王孟頔,等. 基于貝葉斯方法和變化表的恐怖行為預(yù)測算法[J]. 計算機(jī)科學(xué), 2016,43(12):130-134.
[9] 趙剛,姚興仁. 基于用戶畫像的異常行為檢測模型[J]. 信息網(wǎng)絡(luò)安全,2017(7):18-24.
[10] National Consortium for the Study of Terrorism and Responses to Terrorism (START).Database, global terrorism[EB/OL]. https://www.start.umd.edu/gtd.
[11] GODWIN A, CHANG R, KOSARA R, et al. Visual analysis of entity relationships in the Global Terrorism Database[C]. Spie Defense & Security Symposium. International Society for Optics and Photonics, 2008.
[12] XIAO W D, CHENG Z, YANG S, et al. Improvement of parallel sets and its application in analyzing Global Terrorism Database[J]. Journal of National University of Defense Technology, 2011,33(1):115-119.
[13] LAFREE G, DUGAN L. Introducing the Global Terrorism Database[J]. Terrorism & Political Violence, 2007,19(2):181-204.
[14] LAFREE G. The Global Terrorism Database: accomplishments and challenges[J]. Perspectives on Terrorism, 2010.
[15] 柯國霖. 梯度提升決策樹(GBDT)并行學(xué)習(xí)算法研究[D]. 廈門:廈門大學(xué),2016.
[16] LIU J Y,DING Y,TAO L I. Classification of flight delay based on GBDT[J]. Mathematics in Practice & Theory, 2018.
[17] SAKHNOVICH A. On the GBDT version of the B?cklund-Darboux transformation and? its applications to linear and nonlinear equations and Weyl theory[J]. Mathematical Modelling of Natural Phenomena, 2012,5(4):340-389.
[18] 葛恭豪. 機(jī)器學(xué)習(xí)算法原理及效率分析[J]. 電子世界, 2018(1):65-66.
[19] 陳苗, 馬燕. 數(shù)據(jù)挖掘在高校學(xué)生成績預(yù)警中的應(yīng)用研究[J]. 電腦知識與技術(shù), 2017,13(4):204-206.
(責(zé)任編輯:黃 健)