張海濤,王斌君,張洪濤
(1.中國人民公安大學,北京 100038;2.哈爾濱市公安局,黑龍江哈爾濱 150001)
公安情報信息挖掘技術(shù)研究綜述
張海濤1,2,王斌君1,張洪濤2
(1.中國人民公安大學,北京 100038;2.哈爾濱市公安局,黑龍江哈爾濱 150001)
隨著國家對情報工作的重視程度不斷強化及公共安全部門的現(xiàn)實需求,使公安情報工作面臨著更高、更嚴格的要求,公安情報工作的重要性與難度正在不斷加大。在此背景下,對國內(nèi)外公安情報挖掘技術(shù)進行梳理,對各技術(shù)方法的基本思想、技術(shù)特點及應(yīng)用領(lǐng)域進行系統(tǒng)分析,比較它們的性能差異和各自存在的優(yōu)缺點,并對現(xiàn)狀進行總結(jié),提出了存在的問題與研究的方向,目標是為實現(xiàn)公安情報為國內(nèi)安全及警務(wù)戰(zhàn)略服務(wù)。
公安情報;數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;知識發(fā)現(xiàn)
2013年11月中央國安委成立,統(tǒng)籌協(xié)調(diào)涉及國家安全的重大事項和重要工作,委員會的目的是推進組建負責情報、軍隊、外交、公安等內(nèi)容的國家安全,其中一項重要工作是整合國家原先分散的情報搜集與分析能力,彰顯了情報信息在國家安全戰(zhàn)略中的重要位置。現(xiàn)實中,國際與國內(nèi)錯綜復(fù)雜環(huán)境使得情報愈加成為國家安全的保障,而公安情報是其中的重要組成部分。公安情報在“情報主導(dǎo)警務(wù)”警務(wù)模式下已經(jīng)取得了一些進展,發(fā)揮了情報先導(dǎo)作用,有力地推動了公安工作的發(fā)展。但鑒于我國正處于經(jīng)濟轉(zhuǎn)軌和社會改革轉(zhuǎn)型的特殊時期,社會矛盾復(fù)雜尖銳,世情、國情和網(wǎng)情相互交織和影響,使得公安情報收集工作面臨嚴峻復(fù)雜的形勢,也提出了更迫切的要求。
情報主導(dǎo)警務(wù)的新型模式給公安情報工作提出了明確的指導(dǎo)原則,促使公安相關(guān)情報部門將信息化建設(shè)擺在了重要位置,通過信息化意識與技能的提高,加強了情報部門對情報信息的獲取、研判與使用能力;通過積極發(fā)揮情報先導(dǎo)的作用,相關(guān)部門以國家金盾工程建設(shè)為契機,努力創(chuàng)新,投入了大量經(jīng)費建設(shè)情報基礎(chǔ)設(shè)施,研究開發(fā)了一批適于面向偵查實踐所需要的情報分析系統(tǒng),培養(yǎng)了很多素質(zhì)較高的情報工作人員,改善了公安部門傳統(tǒng)低效率的情報工作的落后局面,為國家安全與政治穩(wěn)定、維護社會公共安全以及預(yù)防、制止與懲治犯罪發(fā)揮了重大作用??傊睬閳笫蔷瘎?wù)的靈魂,是公安情報部門體現(xiàn)偵查能力的最高標準,是公安機關(guān)及其他安全部門發(fā)揮職能作用和完善打擊能力的關(guān)鍵手段。
關(guān)于公安情報范疇的認識,公安情報學界看法不一[1],這里借用警察法的規(guī)定圈定公安情報范疇。警察法規(guī)定,人民警察的任務(wù)是維護國家安全,維護社會治安秩序,保護公民的人身安全、人身自由和合法財產(chǎn),保護公共財產(chǎn),預(yù)防、制止和懲治違法犯罪活動。針對性地,公安情報可理解為:公安情報是對公安機關(guān)職能范圍內(nèi)涉及國家安全與社會公共安全相關(guān)的信息進行分析研判的結(jié)果,其內(nèi)容主要涉及國內(nèi)安全、社會穩(wěn)定、社會公共安全及其相關(guān)危害因素。區(qū)別于商業(yè)情報、軍事情報等其他情報現(xiàn)象,公安情報信息強調(diào)的是針對國內(nèi)安全、社會維穩(wěn)和社會公共安全及社會秩序的情報因素挖掘;情報做為一種必需品,其目標是幫助公安及國內(nèi)其他安全相關(guān)部門維護國家安全、社會穩(wěn)定,維護社會公共安全和治安秩序,對潛在含攻擊性、與安全密切相關(guān)的,可能危害國家安全與社會穩(wěn)定的活動提供預(yù)警與輔助打擊支持。
公安情報技術(shù)是建立在數(shù)據(jù)源基礎(chǔ)上的,并應(yīng)用于公安情報工作各環(huán)節(jié)的技術(shù)手段。公安情報技術(shù)涵蓋范圍廣泛,以下章節(jié)著重闡述情報體系中最為核心的情報挖掘技術(shù)。公安情報源不僅包括各種公安系統(tǒng)內(nèi)部業(yè)務(wù)信息,還包括互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等在內(nèi)的一切社會信息與分析研判后的調(diào)查結(jié)果等。公安情報技術(shù)的研究驅(qū)動源自情報主導(dǎo)警務(wù)的客觀需求,研究人員既有公安情報工作一線實戰(zhàn)專家,也有公安及其他科研院??蒲腥藛T,技術(shù)路線特點是一線實戰(zhàn)人員基于具體情報工作經(jīng)驗,更注重追求直接的、現(xiàn)實的、操作性的技術(shù)細節(jié),大多采用較成熟的理論與技術(shù);而理論研究者傾向于對情報理論與情報挖掘方法的創(chuàng)新。
2.1 數(shù)據(jù)挖掘方法
數(shù)據(jù)挖掘是從包含有大量不完全的、有噪聲的應(yīng)用數(shù)據(jù)的數(shù)據(jù)庫或數(shù)據(jù)倉庫中發(fā)現(xiàn)未知、隱含且有規(guī)律性的、可理解的、有利于決策的信息和知識的過程。做為一門綜合性的技術(shù),數(shù)據(jù)挖掘不僅包含各種數(shù)據(jù)挖掘算法,還與統(tǒng)計學、數(shù)據(jù)庫技術(shù)、人工智能、機器學習等多個領(lǐng)域的理論相互交織。公安實戰(zhàn)人員可以利用各種分析工具在大量的公安數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)間的關(guān)聯(lián)性,使用這些模型和關(guān)系可以幫助決策部門基于數(shù)據(jù)間的潛在關(guān)聯(lián)性做出評估、預(yù)測與決策。目前,國內(nèi)外執(zhí)法部門都在研究和探討面向相關(guān)職能領(lǐng)域中的數(shù)據(jù)挖掘理論方法和技術(shù)。傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)如關(guān)聯(lián)分析、分類、聚類、預(yù)測分析都可以應(yīng)用于具有大數(shù)據(jù)特征的違法犯罪信息領(lǐng)域。其中,關(guān)聯(lián)規(guī)則模式及其改進型應(yīng)用最為廣泛,其基本思想是發(fā)現(xiàn)頻繁性至少和預(yù)定義的最小支持度一樣的所有頻集,然后由頻集產(chǎn)生強關(guān)聯(lián)規(guī)則,選擇那些超過設(shè)定支持度和可信度的關(guān)聯(lián)規(guī)則為可行性關(guān)聯(lián)規(guī)則。如文獻[2]通過在傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘算法(Apriori)基礎(chǔ)上引入敏感參數(shù),生成一種增量關(guān)聯(lián)規(guī)則挖掘算法來應(yīng)用于犯罪行為分析中,有效地挖掘出犯罪行為信息庫中的新的增量犯罪行為,為公安機關(guān)在打擊、預(yù)警新的犯罪行為時提供決策依據(jù)。文獻[3]針對傳統(tǒng)Apriori算法低效率問題,提出了一種適合關(guān)系數(shù)據(jù)庫中關(guān)聯(lián)規(guī)則挖掘的IMM_Apriori算法,通過對基于矩陣的算法進行改進,引入刪除壓縮技術(shù)提高了算法性能,有效地解決了Apriori算法在發(fā)現(xiàn)頻繁2-項集時的效率瓶頸問題。ADVESE是美國國土安全部提出的一個研究實驗方案,做為一個龐大的數(shù)據(jù)挖掘系統(tǒng),能夠處理海量的數(shù)據(jù)實體,這些數(shù)據(jù)來源相當廣泛,包括財政記錄、電話記錄、電子郵件、博客信息、網(wǎng)站索引以及一些電子信息記錄,通過關(guān)聯(lián)規(guī)則的挖掘,利用這些信息系統(tǒng)可實現(xiàn)對任何一個美國公民進行評估,以判斷該公民是否為恐怖分子的可能性?!袄忡R”計劃背后的數(shù)據(jù)支撐系統(tǒng)Accumulo在數(shù)據(jù)庫中存儲多種來源的數(shù)據(jù)以進行關(guān)聯(lián)規(guī)則的挖掘。
近年來,文本信息挖掘作為數(shù)據(jù)挖掘領(lǐng)域的新興的分支得到了迅猛發(fā)展,其涵蓋多種技術(shù),包括文本分類,信息抽取、自然語言處理和數(shù)據(jù)挖掘技術(shù)。目的是從來源于web或者數(shù)據(jù)庫中的大量的非結(jié)構(gòu)化或者半結(jié)構(gòu)化的文本數(shù)據(jù)中獲得用戶感興趣的模式。目前,文本挖掘在多個領(lǐng)域中得到了應(yīng)用,包括在信息檢索、互聯(lián)網(wǎng)輿情分析、信息過濾等領(lǐng)域,做為文本挖掘的一個重要內(nèi)容,文本分類或聚類算法基本思想是按照一種監(jiān)督或非監(jiān)督的預(yù)定義類別體系,根據(jù)集合中文本的內(nèi)容為每個文檔進行類別的自動判別過程。如文獻[4]應(yīng)用文本分類和聚類技術(shù)于入境人員的犯罪記錄,將入境人員分為高度危險分子,普通危險分子和一般人員等,從而有利于公安部門決定重點審查對象。此外還有文檔自動摘要[5]等相關(guān)犯罪文本挖掘技術(shù)的研究和應(yīng)用。國外文本挖掘技術(shù)也很好地應(yīng)用于犯罪信息領(lǐng)域,如文獻[6]將文本信息挖掘技術(shù)用于從案件敘述性文本中自動識別出人名、地名、作案手段、作案工具等。信息抽取一般作為犯罪數(shù)據(jù)挖掘的基礎(chǔ),信息抽取后可使用其他數(shù)據(jù)挖掘方法進行犯罪分析[7],Hsinchun chen,wingyan Chung等人在COPLINK項目[8]中應(yīng)用了文本信息挖掘技術(shù)。2006年,Wang G.,Chen H.等人利用字符串比較方法檢測以往數(shù)據(jù)庫案件文本記錄中相同的詐騙信息,從而實現(xiàn)同一犯罪詐騙的識別[9]。2007年,S.Appavu alias Balamurugan,Ramasamy Rajaram將基于決策樹的文本分類方法應(yīng)用于e-mail分類系統(tǒng)中,在截獲的電子郵件中通過文本自動分類發(fā)現(xiàn)含有犯罪行為的郵件,從而挖掘出犯罪嫌疑人或者犯罪組織結(jié)構(gòu)[10]。此外,文本挖掘還有文本自動摘要,模式識別[11],文本聚類等技術(shù)在犯罪領(lǐng)域中的研究和應(yīng)用。
時至今日,數(shù)據(jù)挖掘的研究和開發(fā)雖已取得了令人矚目的進展,但仍有一些亟待解決和完善的課題,如挖掘算法的關(guān)鍵效率和可擴放性,數(shù)據(jù)的時序性挖掘,缺陷數(shù)據(jù)的處理,挖掘結(jié)果的可理解性等,另外面對處理海量數(shù)據(jù)時,如何提高算法效率是關(guān)聯(lián)規(guī)則挖掘的一個難點,現(xiàn)有的關(guān)聯(lián)規(guī)則挖掘方法研究主要集中在效率提高、相關(guān)性分析、關(guān)聯(lián)規(guī)則的維護及擴展應(yīng)用等方面,但是大規(guī)模應(yīng)用仍受到很多問題的困擾,仍面臨著諸多挑戰(zhàn)。文本信息挖掘同樣面臨眾多難點,如海量的數(shù)據(jù)處理問題、半結(jié)構(gòu)化或無結(jié)構(gòu)化文本特征提取及特征空間的高維性、類別歸屬的模糊性問題,使得自動文本分類在許多方面的表現(xiàn)難以令人滿意,一系列原因?qū)е略趯嶋H使用中,大量隱藏的可用性信息無法充分地挖掘出來為實際辦案所用。
2.2 知識發(fā)現(xiàn)方法
知識發(fā)現(xiàn)是交叉性研究領(lǐng)域,概念邊界模糊,在某種程度上也可稱之為數(shù)據(jù)挖掘,知識抽取或信息發(fā)現(xiàn)等。從技術(shù)上講,知識發(fā)現(xiàn)是指從數(shù)據(jù)集中按照某種方法抽取暗含的新的模式,經(jīng)過一系列處理之后,得到想要的知識??梢哉f狹義的數(shù)據(jù)挖掘是知識發(fā)現(xiàn)過程的一個步驟,但是,狹義的知識發(fā)現(xiàn)過程卻包含在廣義的數(shù)據(jù)挖掘過程中,兩種概念相互交錯,很難明確區(qū)分。目前很多知識發(fā)現(xiàn)算法在功能上已經(jīng)遠超過了數(shù)據(jù)挖掘當初所界定的范圍,因此,此處只與狹義的數(shù)據(jù)挖掘概念相比較,以引出知識發(fā)現(xiàn)方法概念,較好地概括知識發(fā)現(xiàn)領(lǐng)域中所包含的理論、技術(shù)和方法。知識發(fā)現(xiàn)從任務(wù)類型上可以劃分為分類、聚類、相關(guān)性分組或依賴時間的預(yù)測等任務(wù)。知識發(fā)現(xiàn)任務(wù)在發(fā)現(xiàn)目標、層算法及工具體系上各有不同,但通常包含兩個子任務(wù),即實體識別與關(guān)系抽取。關(guān)系抽取任務(wù)是由美國國防高級研究計劃委員會(Defense Advanced Research Projects Agency)資助的消息理解會議(Message Understanding Conference,MUC)提出,目標是通過推動兩種子任務(wù)的研究,實現(xiàn)情報挖掘技術(shù)的發(fā)展。MUC制定了實體關(guān)系抽取任務(wù)的各種規(guī)范及相應(yīng)評價體系。實體關(guān)系抽取研究的重點與難點是語義關(guān)系抽取,語義關(guān)系抽取是一種從非結(jié)構(gòu)化數(shù)據(jù)中準確地提取有用信息和知識的新興數(shù)據(jù)挖掘技術(shù),抽取的目標是發(fā)現(xiàn)數(shù)據(jù)集中兩個不同實體之間的語義關(guān)系。語義關(guān)系抽取應(yīng)用領(lǐng)域廣泛,包括國防事業(yè),Web行業(yè)分析,商業(yè)競爭分析,安全情報分析等都富有應(yīng)用前景,國外基于此技術(shù)的突出代表是英國執(zhí)法部門的I2系統(tǒng),通過將偵查部門獲取的信息進行數(shù)據(jù)整合,并利用關(guān)聯(lián)、匹配、可視化、語義抽取等技術(shù)實現(xiàn)情報信息的自動分析與可視化操作,可有效地從大量數(shù)據(jù)中挖掘出有價值的信息。另外,文獻[12]通過引入實體關(guān)系模型,用關(guān)系樹的方法抽取案情信息中的實體關(guān)系,然后提出發(fā)現(xiàn)犯罪網(wǎng)絡(luò)重要人物的算法,算法明顯提高了破解具有社會網(wǎng)絡(luò)特征的犯罪網(wǎng)絡(luò)的辦案水平。文獻[13]將語義關(guān)聯(lián)發(fā)現(xiàn)應(yīng)用于國家安全領(lǐng)域,通過乘客與危險分子名單的關(guān)聯(lián)來計算乘客的危險值,指導(dǎo)登機檢查,以保證國家安全。
網(wǎng)絡(luò)數(shù)據(jù)的模糊性、復(fù)雜性特點,需要針對從原始的網(wǎng)絡(luò)數(shù)據(jù)中提取出社會網(wǎng)絡(luò),從Web數(shù)據(jù)中抽取社會網(wǎng)絡(luò)涉及到對復(fù)雜語義的理解以確定節(jié)點關(guān)聯(lián)的語義?;谏鐣W(wǎng)絡(luò)的知識挖掘旨在從網(wǎng)絡(luò)結(jié)構(gòu)中挖掘出有意義的模式和知識。隨著WEB 2.0的發(fā)展,社會化網(wǎng)絡(luò)挖掘逐漸成為當前數(shù)據(jù)挖掘的新熱點。如基于社會網(wǎng)絡(luò)方法的犯罪組織關(guān)系挖掘[14],文章利用社會網(wǎng)絡(luò)分析方法對犯罪組織關(guān)系進行研究,通過計算網(wǎng)絡(luò)的中心性指標,提出犯罪組織中心人物及相互關(guān)系的判定方法。文獻[15]研究了如何通過中心度測量來發(fā)現(xiàn)恐怖組織社會網(wǎng)絡(luò)中的重要節(jié)點,以及如何通過可視化技術(shù)進行網(wǎng)絡(luò)分析,從而發(fā)現(xiàn)網(wǎng)絡(luò)中隱含的信息。文獻[16]利用社會網(wǎng)絡(luò)分析方法對多個具體案例展開分析,歸結(jié)出兩種基本構(gòu)型的網(wǎng)絡(luò)單元(“核心型”和“搭伙型”)來識別跨境毒品犯罪網(wǎng)絡(luò),提出在案件偵查經(jīng)營中要特別注意網(wǎng)絡(luò)聯(lián)結(jié)性權(quán)重大的重要角色。文獻[17]基于復(fù)雜網(wǎng)絡(luò)建模的方法建立了具有無標度特征、小世界特征和層次特征的犯罪組織網(wǎng)絡(luò),采用社會網(wǎng)絡(luò)分析中的中心度方法來識別組織中的關(guān)鍵成員,并基于網(wǎng)絡(luò)密度變化值考察不同犯罪組織結(jié)構(gòu)的運行效率及安全性,為打擊犯罪組織的活動制訂針對性的策略提出了構(gòu)建方案。國外也有學者通過對已有犯罪組織數(shù)據(jù)分析,運用社會網(wǎng)絡(luò)分析法對各種犯罪組織結(jié)構(gòu)進行研究,如Krebs[18]利用社會網(wǎng)絡(luò)分析方法識別9·11事件中恐怖組織的核心成員;Jonathan[19]采用動力學分析法研究成員遞減性對原組織結(jié)構(gòu)的影響;Carlo[20]對加拿大黑社會犯罪組織和9·11恐怖組織的安全性和組織效率進行了對比研究。知識發(fā)現(xiàn)技術(shù)對于情報領(lǐng)域的深入研究起到支撐作用,應(yīng)該進一步拓展知識發(fā)現(xiàn)在情報領(lǐng)域的應(yīng)用,豐富完善情報體系,針對知識發(fā)現(xiàn)用于情報挖掘體系的研究,文獻[21]提倡將知識發(fā)現(xiàn)技術(shù)用于情報收集與處理的各個階段,將統(tǒng)計方法、人工智能技術(shù)應(yīng)用于情報收集、情報管理與情報分析等各個階段,從不同層面促進情報工作的深入與問題的解決,通過使用主動式專題搜索引擎,深度挖掘敏感信息內(nèi)容;采用知識發(fā)現(xiàn)領(lǐng)域中的結(jié)構(gòu)發(fā)現(xiàn)與內(nèi)容發(fā)現(xiàn)技術(shù),提取暗含的組織及其關(guān)聯(lián)關(guān)系;用分類、聚類等技術(shù)實現(xiàn)對情報信息的自動類別劃分;通過統(tǒng)計分析、可視化及預(yù)測等技術(shù),對情報進行自動分析與理解。
目前知識發(fā)現(xiàn)方法大多基于數(shù)據(jù)挖掘的思想,技術(shù)上與數(shù)據(jù)挖掘有著千絲萬縷的聯(lián)系,兩者仍存在著許多理論上的問題有待解決,如數(shù)據(jù)的巨量性,動態(tài)性,噪聲與稀疏性,發(fā)現(xiàn)模式的可理解性,復(fù)雜數(shù)據(jù)庫處理,數(shù)據(jù)類型多樣性及復(fù)雜語義處理等問題?;陬悇e劃分的知識發(fā)現(xiàn),其研究雖已取得了矚目的成就,并在各個領(lǐng)域得到很好的應(yīng)用,但仍面臨著許多需解決的問題,如針對噪音數(shù)據(jù)的處理;基于如非均衡數(shù)據(jù)等的知識發(fā)現(xiàn)困難,文本分類、聚類算法效率較低,無法將半結(jié)構(gòu)化的網(wǎng)頁或者非結(jié)構(gòu)化的文本數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),不能有效處理未登錄詞,在語義相關(guān)度計算方面沒有實質(zhì)突破,導(dǎo)致在處理復(fù)雜相關(guān)語句時性能欠佳。
2.3 其他方法
文獻[22]設(shè)計一種基于統(tǒng)計學習方法,從多個層次對文本的態(tài)度傾向進行研判分析,基于此角度了解網(wǎng)民發(fā)帖的態(tài)度,情感傾向等。提出的方法提高了網(wǎng)絡(luò)監(jiān)察工作中文本信息提取的針對性和可用性;將這項技術(shù)應(yīng)用到公安情報收集分析工作中,設(shè)計了一套能夠融合到公安大情報平臺中的文本傾向性分類器,通過細化分析及對網(wǎng)絡(luò)中有價值的文本進行態(tài)度標注,提高了公安情報收集工作的效率。然而僅對情感的分析與識別不能滿足對于情報挖掘的技術(shù)要求,實際上影響傾向性分析的因素很多,如文本處理中的分詞技術(shù)、詞性標注、句法依存分析和語義標注等直接影響到傾向性分析結(jié)果,特別是涉及到語義分析技術(shù)這一難關(guān)時,更是需要相關(guān)理論的進一步創(chuàng)新。關(guān)于其他情報挖掘技術(shù),世界各國對此都嚴加保密,美國“多條件反恐信息交換系統(tǒng)”這一著名情報分析系統(tǒng),可知的資料顯示其基于知識庫并采用貝葉斯分析推斷的一般專家系統(tǒng)模式。
世界主要國家都對情報技術(shù)的研究投入巨大,情報獲取能力已上升為一個國家的硬實力的具體表現(xiàn),公安情報對于我國國內(nèi)安全與社會穩(wěn)定至關(guān)重要,隨著情報主導(dǎo)警務(wù)模式的推進,公安實踐已愈加依賴情報先行。目前的情報挖掘主要技術(shù)基本上建立在數(shù)據(jù)挖掘與知識發(fā)現(xiàn)思想基礎(chǔ)之上,具體的技術(shù)發(fā)展可直接體現(xiàn)為這兩個領(lǐng)域的相關(guān)理論技術(shù)創(chuàng)新,從圖1中可以看出,情報挖掘相關(guān)理論、技術(shù)分屬領(lǐng)域邊界比較模糊,學科特點是具有明顯的交叉性與綜合性,未來的理論與技術(shù)創(chuàng)新極可能出現(xiàn)學科交錯的領(lǐng)域,可能會產(chǎn)生新的學科生長點及獲得原創(chuàng)性科學成果來提高情報挖掘能力。未來可進一步發(fā)展海量多源數(shù)據(jù)融合與可視化分析理論與技術(shù),云情報理論、網(wǎng)絡(luò)深度搜索技術(shù)、復(fù)雜語義處理技術(shù)等。
圖1 公安情報挖掘主要技術(shù)關(guān)系圖
目前的公安情報信息挖掘技術(shù)主要是引入數(shù)據(jù)倉庫、數(shù)據(jù)挖掘和知識發(fā)現(xiàn)等領(lǐng)域理論方法,各種方法思想交錯,很難明確區(qū)分異同,但主旨都是從海量的數(shù)據(jù)中挖掘出隱含的,有價值的信息以利于決策分析。大多數(shù)方法都是基于數(shù)據(jù)挖掘思想與知識發(fā)現(xiàn)思想,并在實際工程領(lǐng)域取得了大量應(yīng)用性成果,但歸結(jié)起來,目前情報挖掘技術(shù)所取得的只是“摘取的最低枝頭上的果實”,理論上還需要繼續(xù)展開深入研究,另外,多源數(shù)據(jù)融合及海量信息的挖掘與情報智能分析技術(shù)亟待進一步創(chuàng)新。從實踐角度看,情報挖掘難點之一是在信息不完整和模糊情況下如何進行分析、研判的理論與技術(shù),如何克服在人類思維的過程中存在著思維定勢和認知偏見,表面上看似無關(guān)而實質(zhì)上卻包含關(guān)聯(lián)性的瑣碎信息片段中如何挖掘出有價值的重要情報。公安情報部門面臨的困境是獲得的情報質(zhì)量低下,一些情報停留在表面活動現(xiàn)象的記錄上,沒有深層次、高質(zhì)量的綜合分析,造成表層信息多、預(yù)警性的信息少;缺乏對數(shù)據(jù)信息的深度抽取和理解,造成顯性信息多,隱性信息少。這里需要指出的是,社會上對網(wǎng)絡(luò)輿情分析的研究較多,它是情報信息挖掘的一個重要方向,但主要是基于公開信息,針對輿情熱點檢測,民眾態(tài)度傾向分析、輿情傳播機制及輿情導(dǎo)控方面展開研究,此類研究受資源所限,直接針對公安案情線索與國安政情類信息情報挖掘的研究較少。
[1]謝曉專.公安情報學的研究對象與內(nèi)容論綱[J].情報科學,2013,31(9):128-131.
[2]杜威,等.增量關(guān)聯(lián)規(guī)則挖掘算法在犯罪行為中的應(yīng)用研究[J].中國人民公安大學學報,2011,2(2):56-58.
[3]常朝穩(wěn),代永衛(wèi),等.關(guān)聯(lián)規(guī)則在公安情報信息系統(tǒng)中的應(yīng)用[J].計算機工程與應(yīng)用,2008,44(5):209-212.
[4]夏詠梅.基于文本挖掘的分類與聚類技術(shù)[J].情報探索,2005,3(3).
[5]XU J,CHEN H.Criminal network analysis and visualization[J].Communications of the ACM,2005,48(6): 107.
[6]CHAU M,XU J,CHEN H.Extracting meaningful entities from police narrative reports[C]∥Proceedings of the 2002 annual national conference on Digital government research.Digital Gorernment Society of North America,2002:1-5.
[7]LEE W,STOLFO S I,MOK K W.A data mining framework for building intrusion diction models[C]∥Security and Privacy,1999.Proceedings of the 1999 IEEE Symposium on IEEE,1999:120-132.
[8]CHEN H,CHUNG W,QIN Y,et al.Crime data mining:an overview and case studies[C]∥Proceedings of the 2003 annual national conference on Digital government research.Digtal Government Society of North America,2003:1-5.
[9]WANG G A,CHEN H,XU J J,et al.Automatically detecting criminal identity deception:a adaptive detective algorithm[J].System,Man and Cybernetics,Part A: Systems and Humans,IEEE Transactions on,2006,36 (5):988-999.
[10]RAIARAM R,BACAMURUGAN A.Suspicious E-mail detection via decision tree:A data mining approach[J].CIT.Journal of computing and information technology,2007,15(2):161-169.
[11]WU T,POTTNGER W M.A semi-supervised algorithm for pattern discovery in information extraction from textual data[M]∥Adrances in Knowledge Discovery and Data Mining.Springer Berlin Heidelberg,2003:117-123.
[12]周利娟,等.基于實體關(guān)系的犯罪網(wǎng)絡(luò)識別機制[J].計算機應(yīng)用研究,2011,28(3):998-1002.
[13]SHETH A,ALEMAN-MEZA B,ARPINAR I B,et al.Semantic association identification and knowledge discovery for national security applications[J].Journal of Database Management(JDM),2005,16(1):33-53.
[14]楊莉莉,楊永川.基于社會網(wǎng)絡(luò)的犯罪組織關(guān)系挖掘[J].計算機工程,2009,35(15):91-93.
[15]YANG C C.Knowledge discovery and information visualization for terrorist social networks[M]∥Intelligence and security informatics.Springer Berlin Heidelberg,2008:45-64.
[16]黃慧霞.跨境毒品犯罪組織結(jié)構(gòu)的社會網(wǎng)絡(luò)分析[J].中國人民公安大學學報,2010(1):29-38.
[17]陳鵬,袁宏永.犯罪組織結(jié)構(gòu)的社會網(wǎng)絡(luò)分析[J].清華大學學報:自然科學版,2011,51(8):1097-1101.
[18]KREBS V E.Mapping networks of terrorist cells[J].Connections,2002,24(3):43-52.
[19]FARLEY J D.Breaking A1 Qaeda cells:A mathematical analysis of counterterrorism operations(A guide for risk assessment and decision making)[J].Studies in Conflict&Terrorism,2003,26:399-411.
[20]MORSELLI C,GIGUERE C,PETIT K.The efficiency security trade-off in criminal networks[J].Social Networks,2007,29(1):143-153.
[21]謝毓湘,欒悉道,等.知識發(fā)現(xiàn)在互聯(lián)網(wǎng)情報收集與處理中的應(yīng)用[J].計算機工程與應(yīng)用,2006(25):9 -11.
[22]武鴻浩,楊永川.文本傾向性分析技術(shù)在公安大情報系統(tǒng)中的應(yīng)用研究[J].技術(shù)研究,2011(5):89-90.
(責任編輯 陳小明)
D035.31
中央高校基本科研業(yè)務(wù)費專項資金和公安理論及軟科學研究計劃(2013LLYJGADX003)項目資助。
張海濤(1982—),男,黑龍江人,2012級博士研究生,研究方向為信息安全、計算機犯罪偵查。