基于聚類的反恐情報異常數(shù)據(jù)分析方法研究

2019-11-07 09:28李勇男

現(xiàn)代情報 2019年10期

李勇男

摘要：[目的/意義]通過異常檢測可以在海量涉恐數(shù)據(jù)中發(fā)現(xiàn)異常信息，為反恐預警提供重要情報。[方法/過程]首先利用聚類將基礎數(shù)據(jù)分為不同的簇，識別出其中區(qū)別于大部分數(shù)據(jù)對象的異常人員，然后設計一種專門的相似度綜合度量參數(shù)用于計算與恐怖分子最相似的人員。[結果/結論]該方法為檢測異常人員數(shù)據(jù)提供了一種可以參考的思路，用于從多種來源數(shù)據(jù)中快速找出涉恐敏感程度較高的人員，有望提高反恐情報分析的效率，實現(xiàn)精準打擊重點涉恐人員和恐怖活動。

關鍵詞：數(shù)據(jù)挖掘;異常檢測;聚類分析;相似度;反恐情報

Abstract：[Purpose/Significance]Outlier detection from mass fundamental data could provide important information about latent terrorists for early warning of counter-terrorism.[Method/Process]Abnormal people that differed from most data objects must be identified by using clustering method to classify mass terror related data with composite properties.Additionally，abnormal people acted as the basic data source to find terror related people.These subjects who were excavated out had the larger degree of similarity with terrorists.[Result/Conclusion]This method provided an idea to detect high sensitivity people from multiple data streams.It could accelerate the speed of handling counter-terrorism intelligence and provide reference for counter-terrorism disposition by means of swiftly finding the terror related people.

Key words：data mining;outlier detection;clustering;degree of similarity;counter terrorism intelligence

國新辦于2019年3月18日發(fā)布了《新疆的反恐、去極端化斗爭與人權保障》白皮書，其中提到90年代以來我國新疆等地至少發(fā)生了數(shù)千起暴力恐怖襲擊案件，對大量無辜群眾的生命財產(chǎn)造成巨大傷害[1]?；诖髷?shù)據(jù)技術從海量涉恐數(shù)據(jù)中挖掘情報信息，對恐怖活動提前做出預測，打早打小進而將恐怖活動消滅在萌芽中，有效減輕或者避免恐怖主義活動帶來的影響，實現(xiàn)情報主導的預防性反恐策略，是我國反恐工作的重心?！吨腥A人民共和國反恐怖主義法》[2]專門設置了第四章“情報信息”對反恐情報信息工作提出了明確的具體要求。通過各種渠道收集到海量的涉恐數(shù)據(jù)后，如何充分利用這些數(shù)據(jù)發(fā)現(xiàn)涉恐線索是一個值得研究的問題。

異常檢測是數(shù)據(jù)挖掘中的一種常用方法，是指給定若干對象，發(fā)現(xiàn)其中明顯不同或與其他數(shù)據(jù)不一致的部分對象。利用異常檢測可以在海量基礎數(shù)據(jù)中將“疑似”恐怖分子和與之相關的暴恐線索找出來，再由情報專家研判對應的情報線索是否有參考價值。在谷歌學術搜索中涉及反恐情報異常檢測的外文文獻主要包括適用于各類犯罪調查的不同異常檢測技術綜述[3]、恐怖犯罪模式研究[4]、行為分析[5]、隱私保護[6]、網(wǎng)絡入侵檢測[7]等方向。在中國知網(wǎng)、萬方、百度學術搜索等知名中文文獻數(shù)據(jù)庫中，相關的研究主要包括恐怖襲擊模式的異常檢測[8]、視頻異常[9]、網(wǎng)絡入侵檢測[10]、通話記錄異常挖掘[11]、動物嗅覺探測異常[12]等。本文將研究如何利用異常檢測的方法在基礎數(shù)據(jù)中挖掘“疑似”涉恐人員數(shù)據(jù)。

1 異常檢測理論

異常檢測（Outlier Detection）又稱異常挖掘、離群點檢測、例外挖掘、稀有事件檢測等，是指發(fā)現(xiàn)與大部分其他對象不同的對象[13]。具體的數(shù)學表述為給定N個數(shù)據(jù)點或對象的集合，預期的異常點個數(shù)k，找出其中不一致的排序前k個對象或數(shù)據(jù)點[14]。一般系統(tǒng)中異常數(shù)據(jù)的成因主要包括測量、輸入錯誤或系統(tǒng)運行錯誤等。異常檢測目前常用于醫(yī)療診斷、保險或銀行業(yè)的欺詐檢測、海關或民航等部門的安全檢查、電子商務中的犯罪檢測、網(wǎng)絡安全中的入侵檢測、災害氣象預報等領域。

2 反恐情報中的異常數(shù)據(jù)分析

一般的異常數(shù)據(jù)的挖掘分析主要需要解決兩個子問題[15]：1）如何度量異常;2）如何有效發(fā)現(xiàn)異常。對于反恐情報分析中的異常檢測，目標是從大量基礎數(shù)據(jù)中將“疑似”的涉恐人員數(shù)據(jù)找出來，首先要解決如何度量涉恐人員的問題，其次解決選擇何種有效的異常檢測方法進行涉恐人員數(shù)據(jù)挖掘。在發(fā)現(xiàn)異常的方法選擇上又要同時考慮涉恐屬性特點和基礎數(shù)據(jù)類型。因此反恐情報中的異常人員數(shù)據(jù)檢測必須分別考慮3個子問題：1）如何度量異常;2）如何根據(jù)涉恐人員數(shù)據(jù)屬性特點選擇檢測方法;3）如何根據(jù)基礎數(shù)據(jù)類型選擇檢測方法。本節(jié)將從這3個子問題分別論述基于聚類的異常檢測較適合反恐情報中的異常人員數(shù)據(jù)檢測。

2.1 反恐情報中的“異常”度量標準

度量涉恐人員要根據(jù)反恐情報分析專家的經(jīng)驗和統(tǒng)計數(shù)據(jù)設定具體“異?！钡亩攘恐笜恕Ｓ捎诋惓．a(chǎn)生的機制是不確定的，通過異常檢測的方法挖掘出的僅僅是“疑似”異常數(shù)據(jù)，這些“疑似”數(shù)據(jù)是否是實際的涉恐異常數(shù)據(jù)，只能根據(jù)具體應用由領域內的專家來判斷，而不是由異常檢測方法本身來解釋說明。在反恐情報分析中，通過一些常用的異常度量方法只能找出系統(tǒng)中的異常人員，這些異常人員可能是盜竊團伙分子、販毒人員、黑社會背景人員、詐騙嫌疑人等涉及其他犯罪的人員，與反恐情報分析的目標數(shù)據(jù)不符。反恐情報的異常檢測必須能找出涉及暴力恐怖襲擊的人員，這就要求必須通過已破獲暴恐案件中的統(tǒng)計數(shù)據(jù)和反恐專家的經(jīng)驗總結出涉恐特征。異常檢測就是找出最符合這些涉恐特征的數(shù)據(jù)，即與這些涉恐數(shù)據(jù)的相似度最大或相異度最小的數(shù)據(jù)。

2.2 適合涉恐人員屬性特點的異常數(shù)據(jù)挖掘方法

選擇有效方法要符合涉恐人員的屬性特點，適合混合屬性數(shù)據(jù)挖掘分析。涉恐人員的屬性特征中既包含連續(xù)數(shù)值屬性也包含分類離散屬性[16]，屬于混合屬性數(shù)據(jù)。從技術路線角度來看，常用的異常檢測主要包括基于統(tǒng)計、距離、密度、聚類等方法[17]?；诮y(tǒng)計的方法假定數(shù)據(jù)符合某種分布，例如正態(tài)分布、泊松分布等，建立在標準的統(tǒng)計學基礎上，一般對于單個屬性數(shù)據(jù)非常有效，而涉恐基礎數(shù)據(jù)屬性眾多且統(tǒng)計分布未知，并不符合這類方法;基于距離的方法和基于密度的方法較適合具有連續(xù)數(shù)值屬性的數(shù)據(jù)，涉恐數(shù)據(jù)屬性中的確存在一些連續(xù)數(shù)值屬性，但是更多的是大量分類離散屬性，同時這種方法計算復雜度比較高，所以不建議采用;基于聚類的方法是將大量數(shù)據(jù)進行分簇處理，分簇后每個簇內的數(shù)據(jù)更接近，各個簇之間的數(shù)據(jù)相差較大，聚類完成后遠離大簇的小數(shù)據(jù)量簇或者孤立數(shù)據(jù)點即為異常數(shù)據(jù)。聚類方法中有一部分適合于分類離散屬性的處理，涉恐基礎數(shù)據(jù)中含有大量的分類離散屬性，少量連續(xù)數(shù)值屬性例如身高、體重、年齡、財產(chǎn)狀況等也可以按照區(qū)間離散化的方式轉換為分類離散屬性，所以可以考慮采用聚類的方法進行涉恐人員的異常檢測。先選擇適合分類離散屬性的聚類方法將海量基礎數(shù)據(jù)聚類分簇，找出異常數(shù)據(jù)，然后再在異常數(shù)據(jù)中檢測涉恐人員。

2.3 適合無監(jiān)督類型基礎數(shù)據(jù)的異常數(shù)據(jù)挖掘方法

本文主要考慮基礎數(shù)據(jù)中沒有涉恐人員類別標號的情況。從異常數(shù)據(jù)是否具有類標號（正?；虍惓＃┮约邦悩颂柕睦贸潭确诸悾惓z測方法可以分為有監(jiān)督的異常檢測方法（可以理解為有涉恐人員類別和其他正常人員或普通人員類別的信息）、無監(jiān)督的異常檢測方法（可以理解為基礎數(shù)據(jù)中沒有人員類別信息）以及半監(jiān)督的異常檢測方法（可以理解為基礎數(shù)據(jù)中有正常人員的類別信息，但是沒有關于涉恐人員的類別信息）[18]。有監(jiān)督的方法本質上屬于根據(jù)基礎數(shù)據(jù)訓練數(shù)據(jù)挖掘分類模型，然后利用建模對未知人員數(shù)據(jù)分類識別涉恐人員，作者已經(jīng)做過此類研究[19-20]。本文將重點研究基礎數(shù)據(jù)沒有涉恐人員類別信息的情況，即無監(jiān)督和半監(jiān)督的情況。前文所述的聚類方法在海量未知類別數(shù)據(jù)快速分類時處理速度較快，這一點也非常適合反恐情報分析。

3 基于聚類的反恐情報異常數(shù)據(jù)分析

通過前文的分析可知，反恐情報分析中的異常數(shù)據(jù)挖掘可以分為兩步。第一步采用聚類的方式將原始海量基礎數(shù)據(jù)分為幾個簇，找出其中的小簇和孤立數(shù)據(jù)作為待判斷的樣本數(shù)據(jù)。第二步定義一種適合涉恐人員數(shù)據(jù)混合屬性特征的相似度或相異度度量方法，找出與已有恐怖分子特征最接近的數(shù)據(jù)，即為通過異常檢測找出來的涉恐人員。筆者曾做過關于涉恐數(shù)據(jù)聚類分析的研究[21-22]，核心內容是將涉恐人員基礎數(shù)據(jù)分簇，然后基于每個簇判定涉恐等級，所有的連續(xù)數(shù)據(jù)屬性按照區(qū)間劃分轉換為分類離散屬性，離散屬性之間按照廣義雅卡爾系數(shù)或者公共鏈接數(shù)計算相似度。這一方法也可以直接用于未知類別的基礎人員數(shù)據(jù)分簇，因此下文將不再討論聚類過程的細節(jié)，感興趣的讀者可以查閱筆者發(fā)表的相關文獻。

如圖1所示為本文設計的反恐情報異常數(shù)據(jù)挖掘流程。首先要收集到海量的基礎數(shù)據(jù)作為情報分析的數(shù)據(jù)來源。原始的數(shù)據(jù)不適合直接展開異常檢測，要進行數(shù)據(jù)的預處理將其轉換為標準化數(shù)據(jù)，便于展開挖掘過程[23]。第一次數(shù)據(jù)預處理除了常規(guī)的數(shù)據(jù)清洗、數(shù)據(jù)集成等操作外，還要進行數(shù)據(jù)離散化處理即將所有的連續(xù)數(shù)值屬性全部轉換為有序的分類離散屬性。數(shù)據(jù)預處理的過程中，不同數(shù)據(jù)之間滿足獨立性，可以采用并行計算的方式分別處理，提高處理效率。準備好基礎數(shù)據(jù)后利用適合分類離散屬性的聚類方法，將標準化的數(shù)據(jù)分簇，大數(shù)據(jù)量的簇被認定為正常數(shù)據(jù)或普通數(shù)據(jù)，小簇和孤立數(shù)據(jù)點保存作為下一步異常檢測的基礎數(shù)據(jù)。

為使最后異常檢測的結果更加精確，獲得下一步開始前的基礎數(shù)據(jù)后，再次進行數(shù)據(jù)預處理，將所有的數(shù)據(jù)屬性特征做進一步轉換。如果在第一次數(shù)據(jù)預處理時將所有數(shù)據(jù)的格式轉換一步到位，則數(shù)據(jù)量太大會消耗過多的計算時間和計算資源，降低情報分析的效率，所以數(shù)據(jù)預處理過程可以分兩次進行。第二次數(shù)據(jù)預處理將所有分類離散屬性進一步分為有序離散屬性、二元離散屬性和其他普通多元離散屬性。第二次數(shù)據(jù)預處理后生成適合綜合計算所有屬性相似度的數(shù)據(jù)。

最后根據(jù)已有的恐怖分子的屬性特征值統(tǒng)計，計算每個異常數(shù)據(jù)對象的相似度，并設最小相似度閾值，找出其中滿足最小閾值的即為涉恐人員。其中恐怖分子的屬性特征值統(tǒng)計為已知量，由已破獲暴恐案件中的數(shù)據(jù)計算得出。評估數(shù)據(jù)相似度的過程必須綜合考慮多重涉恐屬性，具體的量化標準由下文討論的涉恐敏感程度度量方法計算得出。計算出滿足閾值的“疑似”重點涉恐人員后，繼續(xù)由有經(jīng)驗的情報分析員進行人工研判。此外，還要進行驗證反饋，根據(jù)實際調查結果，更新恐怖分子特征統(tǒng)計數(shù)據(jù)，不斷提高異常檢測的準確度。

4 涉恐敏感程度度量方法

本節(jié)將設計一種計算涉恐人員敏感程度的量化方法，通過計算與恐怖分子的相似度來量化敏感程度，該方法能夠覆蓋各種類型的涉恐屬性特征。我國涉恐人員的特征比較明顯，具體可以參考《識別宗教極端活動（75種具體表現(xiàn)）基礎知識》[24]、2016年1月1日起正式施行的《中華人民共和國反恐怖主義法》、2017年3月29日頒布的《新疆維吾爾自治區(qū)去極端化條例》以及一些媒體公開報道的暴恐案件。表1中的虛擬樣本集即參考這些特征隨機生成，下文的相似度計算也以這些屬性特征為例展開。本文聲明，這些虛擬樣本數(shù)據(jù)完全根據(jù)涉恐數(shù)據(jù)的特征隨機生成，不包含任何敏感數(shù)據(jù)。同時，表中的數(shù)據(jù)僅用于表述異常檢測分析的流程，實際反恐情報分析中涉恐屬性更多，必須列舉出所有重要涉恐屬性，提高異常檢測的科學性和準確性。

4.1 合并同類項

這些涉恐特征中有一部分存在一定的共性，為了提高情報分析的效率，可以將具有一定共性的涉恐特征合并，使得涉恐特征更集中，計算相似度時目標性更強，結果更精確。例如表1中的虛擬樣本數(shù)據(jù)集，“極端思想表現(xiàn)”屬性中“抵制正常體育活動”、“抵制正常娛樂活動”可以合并為“抵制正常文體活動”，“非法活動”屬性中“攜帶非法宣傳品”、“私藏暴恐音頻視頻”可以合并為“持有非法宣傳資料”。表2所示為合并同類項后的虛擬樣本集。以“私制/囤積武器”屬性為例，恐怖分子的統(tǒng)計特征值為{5/8囤積易燃易爆物+2/8囤積炸彈零件+1/8囤積冷兵器}。在反恐情報分析的異常檢測中，這些均作為已知數(shù)據(jù)，在多次異常檢測時無需重復計算，只需對原始基礎數(shù)據(jù)統(tǒng)一計算1次即可。兩表中的數(shù)據(jù)僅用于說明恐怖分子涉恐特征的統(tǒng)計方法。在大量數(shù)據(jù)統(tǒng)計中，可將比例非常小的特征值直接舍棄，提高計算效率。

4.2 初步聚類的相似度度量

初步聚類過程中的相似度度量采用廣義雅卡爾系數(shù)。在聚類過程中，為了快速完成初步分類過程，連續(xù)數(shù)值屬性轉換為分類離散屬性，所有離散屬性的處理沒有區(qū)別，直接代入公式計算雅卡爾系數(shù)。當通過聚類選出所有異常數(shù)據(jù)后，基礎數(shù)據(jù)量已經(jīng)變小，再直接用雅卡爾系數(shù)統(tǒng)一計算相似度則不夠精確。在計算基礎數(shù)據(jù)與恐怖分子相似度時將分類離散屬性進一步分為有序離散屬性、二元離散屬性以及其他多元離散屬性。

4.4 連續(xù)數(shù)值屬性的度量

恐怖分子的連續(xù)數(shù)值屬性主要包括身高、體重、年齡、財產(chǎn)狀況等。一般情況下，連續(xù)數(shù)值屬性最簡單、最精確的度量是采用各種標準距離例如曼哈頓距離、歐幾里得距離、切比雪夫距離等進行計算。但是，與其他思想傾向、極端活動等屬性特征不同，恐怖分子的這些連續(xù)數(shù)值屬性沒有一個明確的可參考值，一種比較可行的方式是按照統(tǒng)計數(shù)據(jù)將這些連續(xù)屬性離散化，部分屬性還可以合并同類項，例如身高、體重、年齡綜合為身體素質，設為是否適合實施暴恐活動，例如分為{好，一般，較弱}，還可根據(jù)實際需要進一步細分，顯然離散化后的涉恐屬性特征依然是有序的。

4.5 二元離散屬性的度量

通過新聞報道中可以看出，歐洲的恐怖襲擊很多與中東難民有關，純粹的原住居民較少[26-27]。從國際宗教極端主義的傳播來看，這些暴恐分子的宗教信仰、文化背景、生活習俗等各方面也與“伊斯蘭國”、“基地組織”等恐怖組織更接近，因此更容易被宗教極端主義洗腦。所以根據(jù)其特征可以設定二元離散屬性的值，一種為敏感屬性值（值為1），其他全部設為非敏感屬性值（值為0）。我國也可以參考歐洲的情況根據(jù)暴恐案件的統(tǒng)計數(shù)據(jù)，將一部分屬性篩選出來，采用二元離散屬性度量。二元離散屬性的度量一般采用簡單匹配系數(shù)或二元離散屬性的雅卡爾系數(shù)。涉恐二元離散屬性在度量時，顯然敏感涉恐屬性值對反恐情報分析更有意義，且原始基礎數(shù)據(jù)中非敏感屬性值占大多數(shù)，本文采用更關注敏感屬性的雅卡爾系數(shù)來計算兩個數(shù)據(jù)的相似度。即s2=f11/（f11+f10+f01），角標的0和1表示兩個數(shù)據(jù)對應屬性值分別為0和1的情況。

5 結語

本文提出了一種基于聚類的反恐情報異常數(shù)據(jù)挖掘分析方法，主要研究了在反恐情報中如何度量異常和如何發(fā)現(xiàn)異常兩個問題。其中度量異常的方式為與已掌握恐怖分子的屬性特征統(tǒng)計數(shù)據(jù)計算相似度，相似度大的即為涉恐人員。如何發(fā)現(xiàn)異常則分兩個步驟，第一步先用適合分類離散屬性的聚類方法對原始數(shù)據(jù)進行聚類分簇，聚類過程中將原始數(shù)據(jù)集中的連續(xù)數(shù)值屬性全部轉換為分類離散屬性處理，第二步在聚類分析結果的基礎上逐一利用與恐怖分子的相似度檢測異常數(shù)據(jù)點即涉恐人員，這種處理方式效率較高，非常適合大數(shù)據(jù)量的反恐情報分析。在第二步計算相似度時，每種屬性所占的比重需要根據(jù)實際反恐經(jīng)驗和驗證反饋不斷調整，本文旨在說明這種處理方式，具體的比重參數(shù)只能由真實數(shù)據(jù)統(tǒng)計得出。文中使用一組虛擬數(shù)據(jù)描述了異常數(shù)據(jù)挖掘分析的詳細過程，在實際的反恐情報分析中還要與其他的量化分析方法組成完整的方法體系，相互補充，才能提供最完整、最可靠的情報信息。期望本文的研究可以為提高反恐情報分析效率，精確打擊恐怖主義活動提供有益的參考。

參考文獻

[1]新華網(wǎng).新疆的反恐、去極端化斗爭與人權保障[EB/OL].http：//www.xinhuanet.com//2019-03/18/c_1124247196.htm，2019-03-18.

[2]中國人大網(wǎng).中華人民共和國反恐怖主義法[EB/OL].http：//www.npc.gov.cn/npc/xinwen/2018-06/12/content_2055871.htm，2019-03-18.

[3]Singh K，Upadhyaya S.Outlier Detection：Applications and Techniques[J].International Journal of Computer Science Issues，2012，9（1）：307-323.

[4]Khan N G，Bhagat V B.Effective Data Mining Approach for Crime-terrorpattern Detection Using Clustering Algorithm Technique[J].Engineering Research and Technology International Journal，2013，2（4）：2043-2048.

[5]Cao L.Behavior Informatics and Analytics：Let Behavior Talk[C]//Data Mining Workshops，2008.ICDMW08.IEEE International Conference on.IEEE，2008：87-96.

[6]Challagalla A，Dhiraj S S S，Somayajulu D V L N，et al.Privacy Preserving Outlier Detection Using Hierarchical Clustering Methods[C]//Computer Software and Applications Conference Workshops.IEEE，2010：152-157.

[7]Agarwal A.Multi Agent Based Approach for Network Intrusion Detection Using Data Mining Concept[J].Journal of Global Research in Computer Science，2012，3（3）：29-32.

[8]陳沖.反恐情報分析中的缺失數(shù)據(jù)處理和異常值檢測[D].北京：中國科學院大學，2015.

[9]余昊.基于底層特征的視頻異常事件檢測算法研究與實現(xiàn)[D].上海：上海交通大學，2015.

[10]肖政宏.無線傳感器網(wǎng)絡異常入侵檢測技術研究[D].長沙：中南大學，2012.

[11]王家定.基于復雜網(wǎng)絡理論和通話記錄的用戶行為異常識別研究[D].合肥：中國科學技術大學，2013.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于聚類的反恐情報異常數(shù)據(jù)分析方法研究