国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多源數(shù)據(jù)情報偵查方法研究

2022-03-28 06:28:26薛亞龍劉梓濘
浙江警察學(xué)院學(xué)報 2022年1期
關(guān)鍵詞:多源偵查人員情報

王 法,薛亞龍,劉梓濘

(1.浙江警察學(xué)院,浙江 杭州 310053)(2.寧夏警官職業(yè)學(xué)院,寧夏 銀川 750021)

在多源數(shù)據(jù)驅(qū)動創(chuàng)新時代,人們在社會生活與生產(chǎn)中會產(chǎn)生海量復(fù)雜動態(tài)的多源數(shù)據(jù)。與傳統(tǒng)實體情報偵查資源有所不同,多源數(shù)據(jù)情報偵查源在數(shù)據(jù)的含量指數(shù)、規(guī)模類別以及形態(tài)屬性等方面都有著本質(zhì)性的區(qū)別,促使偵查人員不得不關(guān)注和重視多源數(shù)據(jù)潛在的情報價值。以多源數(shù)據(jù)為情報偵查的核心構(gòu)成要素,以多源數(shù)據(jù)的挖掘算法和智慧情報偵查互相融合為銜接橋梁,探討多源數(shù)據(jù)情報偵查的不同應(yīng)用算法,已逐漸成為多源數(shù)據(jù)驅(qū)動創(chuàng)新時代情報偵查發(fā)展的必然趨勢。誠然,多源數(shù)據(jù)情報偵查方法具有多視角、多層次反映犯罪情勢發(fā)展的涉案數(shù)據(jù)關(guān)聯(lián)聚類價值優(yōu)勢。通過對涉案多源數(shù)據(jù)的挖掘與分析,偵查人員能夠高效精確地挖掘與犯罪情勢具有各種關(guān)聯(lián)性的涉案數(shù)據(jù)數(shù)理關(guān)系,從而為多源數(shù)據(jù)情報偵查決策提供客觀準(zhǔn)確的數(shù)據(jù)情報支撐。鑒于此,提出和引入基于多源數(shù)據(jù)的情報偵查方法研究范式,不僅是多源數(shù)據(jù)應(yīng)用于社會各行業(yè)各領(lǐng)域的必然趨勢,而且是現(xiàn)代情報偵查工作轉(zhuǎn)型和變革的內(nèi)在需求,更是預(yù)防和打擊犯罪的必然選擇。

一、多源數(shù)據(jù)情報偵查的內(nèi)涵與屬性

多源數(shù)據(jù)最早被應(yīng)用于軍事領(lǐng)域,隨后逐步被拓展應(yīng)用到地理測繪、數(shù)據(jù)傳感、金融預(yù)測等社會行業(yè)領(lǐng)域中。對多源數(shù)據(jù)加以利用能夠更全面、更充分地了解相關(guān)實際狀況,基于多源數(shù)據(jù)的研究也才更具有說服力。[1]從情報價值的研究角度而言,依據(jù)多源數(shù)據(jù)的不同類別和屬性而對其展開深度的算法挖掘與分析,對多源數(shù)據(jù)驅(qū)動創(chuàng)新時代的情報偵查工作具有重要作用。一方面,對多源數(shù)據(jù)的挖掘與分析既可保證情報偵查分析的全面性,而且通過多源數(shù)據(jù)情報源以及不同算法分析結(jié)果之間的互相驗證,還可以進(jìn)一步提高現(xiàn)代情報偵查工作的高效性和精確性;另一方面,從單一領(lǐng)域情報偵查研究轉(zhuǎn)向全領(lǐng)域情報偵查研究,綜合利用各種多源數(shù)據(jù)的挖掘與分析結(jié)果,更能突出現(xiàn)代情報偵查工作的智能性和嚴(yán)謹(jǐn)性。因此,多源數(shù)據(jù)驅(qū)動創(chuàng)新時代賦予了多源數(shù)據(jù)情報偵查新的內(nèi)涵與屬性。

(一)多源數(shù)據(jù)情報偵查的內(nèi)涵

結(jié)合多源數(shù)據(jù)的屬性范疇和現(xiàn)代情報偵查工作的價值需求,多源數(shù)據(jù)情報偵查首先應(yīng)該包括五個方面的重要理念。一是依靠多源數(shù)據(jù)的情報理念。雖然傳統(tǒng)實體的部分樣本數(shù)據(jù)具有重要的情報價值,但是多源數(shù)據(jù)驅(qū)動創(chuàng)新時代的多源數(shù)據(jù)卻能夠提供更加精確和客觀的挖掘分析,進(jìn)而全面提高現(xiàn)代情報偵查工作的優(yōu)質(zhì)性和高效性。二是多源數(shù)據(jù)挖掘算法的科學(xué)性。在多源數(shù)據(jù)情報偵查應(yīng)用過程中,偵查人員需要轉(zhuǎn)變在傳統(tǒng)情報偵查方法中過于依賴人工的傳統(tǒng)思維模式,樹立“不是我在偵查,而是我在偵查中”的思維理念,確立多源數(shù)據(jù)挖掘算法在應(yīng)用過程中的科學(xué)性。第三,倡導(dǎo)多源數(shù)據(jù)共建共享的觀念。偵查主體必須倡導(dǎo)多源數(shù)據(jù)共建共享的觀念,破除或減少“數(shù)據(jù)孤島”“數(shù)據(jù)壁壘”等現(xiàn)象的發(fā)生,從而改變情報偵查部門各自為戰(zhàn)的偵查局面。第四,采取多源數(shù)據(jù)融合的技術(shù)方法。偵查人員獲取的多源數(shù)據(jù)情報源既包括符號型、數(shù)值型等多源數(shù)據(jù),又包括文字型、圖片型等多源數(shù)據(jù),還包括結(jié)構(gòu)型、非結(jié)構(gòu)型、異構(gòu)型、半結(jié)構(gòu)型等多源數(shù)據(jù)。只有對不同類別形態(tài)、不同屬性結(jié)構(gòu)等多源數(shù)據(jù)情報源應(yīng)用數(shù)據(jù)融合的技術(shù)方法,才能提高對多源數(shù)據(jù)挖掘與分析的客觀性和準(zhǔn)確性。第五,重視多源數(shù)據(jù)的動態(tài)性。傳統(tǒng)情報偵查數(shù)據(jù)源更多屬于孤立、靜態(tài)的內(nèi)部型數(shù)據(jù),而多源數(shù)據(jù)情報源更多是由內(nèi)部型和外部型互相整合所形成的聯(lián)動數(shù)據(jù),時刻會隨著數(shù)據(jù)犯罪情勢①的變化而變化,所以,必須特別重視多源數(shù)據(jù)的動態(tài)性特點。這也是由多源數(shù)據(jù)的內(nèi)在屬性范疇所決定的。

基于以上分析,筆者認(rèn)為,多源數(shù)據(jù)情報偵查的內(nèi)涵是:偵查人員以反映犯罪情勢的多源數(shù)據(jù)為基礎(chǔ)和依據(jù),采取Map-reduce多模態(tài)檢索算法、協(xié)同過濾推薦算法、仿射數(shù)據(jù)傳播聚類算法等不同的多源數(shù)據(jù)算法,深入挖掘分析不同多源數(shù)據(jù)與犯罪情勢之間潛在的各種具有關(guān)聯(lián)性數(shù)理關(guān)系,從而實現(xiàn)多源數(shù)據(jù)引導(dǎo)情報偵查。

(二)多源數(shù)據(jù)情報偵查的屬性

從多源數(shù)據(jù)的內(nèi)涵范疇和現(xiàn)代情報偵查的應(yīng)然價值需求而言,這兩者之間存在高度的關(guān)聯(lián)性和較強(qiáng)的相似性。每個不同的多源數(shù)據(jù)都具有很強(qiáng)的情報偵查價值,甚至可以說情報偵查價值就是對不同多源數(shù)據(jù)內(nèi)在數(shù)理關(guān)系進(jìn)行關(guān)聯(lián)聚類的挖掘與體現(xiàn)。顯然,多源數(shù)據(jù)情報偵查是多源數(shù)據(jù)和現(xiàn)代情報偵查工作的有機(jī)結(jié)合體。與傳統(tǒng)情報偵查相比較,雖然多源數(shù)據(jù)情報偵查與其存在諸如智能性、價值性、偵查性等相同特性,但是兩者之間具有本質(zhì)性的屬性差異。在多源數(shù)據(jù)驅(qū)動創(chuàng)新時代,多源數(shù)據(jù)情報偵查具有價值需求敏感性、數(shù)據(jù)來源多源性、挖掘分析智能性、場景應(yīng)用嵌入性等四個方面的獨特屬性。

1.價值需求敏感性。能夠主動有效地獲取情報偵查需求,并對其進(jìn)行適時調(diào)整是多源數(shù)據(jù)情報偵查的首要屬性。目前,關(guān)于情報偵查價值需求敏感性的預(yù)設(shè)和挖掘分析方法還沒有形成成熟的機(jī)制,尤其是在數(shù)據(jù)模型構(gòu)建、需求識別演算、算法調(diào)整策略、啟發(fā)修正模式等方面缺乏深度的研究,致使偵查人員難以及時地根據(jù)數(shù)據(jù)犯罪情勢的發(fā)展變化對其進(jìn)行快速的修正和重建。所以,在多源數(shù)據(jù)情報偵查方法的應(yīng)用過程中,偵查人員首先必須具備對情報偵查價值需求敏感性的意識和技能。例如,當(dāng)獲取購買數(shù)據(jù)、注冊數(shù)據(jù)、檢索數(shù)據(jù)、旅游數(shù)據(jù)、瀏覽數(shù)據(jù)等不同類別形態(tài)的多源數(shù)據(jù)情報源后,偵查人員需要在情報偵查價值需求敏感性意識支配下將其與數(shù)據(jù)犯罪情勢之間潛在的關(guān)聯(lián)性進(jìn)行挖掘與分析,完成對數(shù)據(jù)犯罪情勢中相關(guān)構(gòu)成要素的智能數(shù)據(jù)刻畫,從而為多源數(shù)據(jù)情報偵查的場景應(yīng)用提供優(yōu)質(zhì)高效的決策支持。誠然,多源數(shù)據(jù)情報偵查既包含多源數(shù)據(jù)的屬性范疇,又包含情報偵查的應(yīng)然價值導(dǎo)向需求,這也就必然決定了其具有顯著的價值需求敏感性。偵查人員在價值需求敏感性的指導(dǎo)和引領(lǐng)支配中,能夠更快、更優(yōu)地對不同多源數(shù)據(jù)情報源進(jìn)行挖掘分析和關(guān)聯(lián)聚類,從而提高多源數(shù)據(jù)情報偵查場景應(yīng)用的敏感性和高效性。

2.數(shù)據(jù)來源多源性。如何通過不同多源數(shù)據(jù)挖掘分析出與犯罪情勢具有關(guān)聯(lián)性的各種數(shù)理關(guān)系,從而為情報偵查決策提供科學(xué)準(zhǔn)確的數(shù)據(jù)支持,是迫切需要解決的關(guān)鍵性問題。傳統(tǒng)情報偵查決策往往都是依賴犯罪現(xiàn)場勘查、摸底排隊、調(diào)查訪問、偵查實驗等偵查措施而獲取相關(guān)的決策數(shù)據(jù),缺乏多維、動態(tài)、全面等多源的情報數(shù)據(jù)支持,導(dǎo)致情報偵查決策具有突出的片面性、靜態(tài)性、選擇性,從而無法從數(shù)據(jù)情報源頭保證情報偵查決策的全面性、準(zhǔn)確性和科學(xué)性。多源數(shù)據(jù)情報偵查方法卻能從數(shù)據(jù)情報源頭上解決上述關(guān)于情報決策的根本問題。例如,從多源數(shù)據(jù)的類別形態(tài)方面看,既包括符號型、數(shù)值型、文本型的多源數(shù)據(jù),又包括圖片型、字符型、碎片型的多源數(shù)據(jù);[2]從多源數(shù)據(jù)的屬性結(jié)構(gòu)方面看,不僅包括結(jié)構(gòu)型、非結(jié)構(gòu)型等多源數(shù)據(jù),還包括異構(gòu)型、半結(jié)構(gòu)型等多源數(shù)據(jù);[3]從多源數(shù)據(jù)的來源部門看,既有來自公安系統(tǒng)的內(nèi)部型多源數(shù)據(jù),也有來自互聯(lián)網(wǎng)、企事業(yè)單位、個人社交等方面外部型多源數(shù)據(jù)。顯然,多源數(shù)據(jù)情報偵查具有典型的數(shù)據(jù)來源多源屬性。同時,通過對多源數(shù)據(jù)采取數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)倉庫構(gòu)建等數(shù)據(jù)預(yù)處理技術(shù),將實時數(shù)據(jù)與歷史數(shù)據(jù)、外部數(shù)據(jù)與內(nèi)部數(shù)據(jù)、社會數(shù)據(jù)與傳感數(shù)據(jù)、線下數(shù)據(jù)與線上數(shù)據(jù)等不同類別形態(tài)、屬性結(jié)構(gòu)的多源數(shù)據(jù)進(jìn)行數(shù)據(jù)融合,促使多源數(shù)據(jù)情報偵查的決策更加具有全面性和精確性。顯然,多源數(shù)據(jù)情報偵查的數(shù)據(jù)來源多樣性不僅能夠減少數(shù)據(jù)情報源的不確定性,還能夠保證數(shù)據(jù)情報決策的客觀性,從而提高多源數(shù)據(jù)情報偵查決策的科學(xué)性和合理性。

3.挖掘分析智能性。隨著多源數(shù)據(jù)呈指數(shù)級地迅猛增長,對其進(jìn)行定量分析越來越受到關(guān)注和重視。對多源數(shù)據(jù)的定性分析往往具有個性化、主觀性等鮮明特點,不同的多源數(shù)據(jù)會因不同的人、算法、技術(shù)方法等出現(xiàn)不同的數(shù)據(jù)解讀;而多源數(shù)據(jù)的定量分析則具有可復(fù)制性、客觀性等突出特點,不會因為不同的人或技術(shù)方法等因素影響而出現(xiàn)不同的挖掘分析結(jié)果。[4]顯然,在多源數(shù)據(jù)情報偵查的挖掘分析過程中,定性分析有利于充分發(fā)揮偵查人員的主觀能動性而避免出現(xiàn)情報偵查的思維盲區(qū),而定量分析則有利于實現(xiàn)多源數(shù)據(jù)情報偵查的資源共建共享。鑒于多源數(shù)據(jù)情報偵查的現(xiàn)實應(yīng)然價值需求,其挖掘與分析的過程具有將定性分析和定量分析互相結(jié)合的智能性,這是由多源數(shù)據(jù)情報偵查的內(nèi)在本質(zhì)屬性所決定的。誠然,偵查人員在多源數(shù)據(jù)情報偵查挖掘與分析的具體過程中,既包括偵查人員定性的智能分析,如偵查人員的偵查思維、偵查經(jīng)驗、偵查方法等;又包括多源數(shù)據(jù)定量的智能分析,如對涉案的不同多源數(shù)據(jù)情報源所采取的鏈路預(yù)測、關(guān)聯(lián)聚類、熱點矩陣,以及時空錨點預(yù)測、離群數(shù)據(jù)檢測等智能算法。所以,若要根據(jù)不同的場景應(yīng)用而選擇對不同的多源數(shù)據(jù)情報源進(jìn)行挖掘與分析,就需要將各種多源數(shù)據(jù)進(jìn)行數(shù)據(jù)融合,然后使其與情報偵查價值需求互相統(tǒng)一,再采取與其相適應(yīng)的智能挖掘分析方法。這也是提高實現(xiàn)多源數(shù)據(jù)情報偵查應(yīng)然價值的必然要求。

4.場景應(yīng)用嵌入性。隨著多源數(shù)據(jù)情報源與現(xiàn)代情報偵查價值導(dǎo)向需求的發(fā)展,將場景應(yīng)用嵌入情報偵查業(yè)務(wù)過程將成為一種新型的情報偵查決策服務(wù)模式。不同的情報偵查場景應(yīng)用需要預(yù)設(shè)不同的價值需求和算法選擇,為了全面提升多源數(shù)據(jù)情報偵查應(yīng)用的可復(fù)制性、可推廣性,依據(jù)多源數(shù)據(jù)情報偵查的價值需求和算法的關(guān)聯(lián)聚類性,可以將其場景應(yīng)用嵌入分為專項維度的場景應(yīng)用、領(lǐng)域維度的場景應(yīng)用、政策維度的場景應(yīng)用和協(xié)作維度的場景應(yīng)用四個部分。

(1)專項維度的場景應(yīng)用。偵查人員應(yīng)該積極主動地將多源數(shù)據(jù)情報偵查融入專項維度的場景應(yīng)用中,以多源數(shù)據(jù)過程嵌入和情報偵查決策快速反應(yīng)為原則,構(gòu)建“數(shù)據(jù)挖掘+情報研判+智慧偵查”聯(lián)動型情報偵查的專項維度場景應(yīng)用。通過采取多源數(shù)據(jù)的關(guān)聯(lián)聚類、情報報告的自動生成、情報偵查經(jīng)驗的修正等挖掘分析流程,全面發(fā)揮偵查人員在數(shù)據(jù)預(yù)處理、數(shù)據(jù)倉庫構(gòu)建、數(shù)據(jù)挖掘模型平臺設(shè)計等方面的價值優(yōu)勢,客觀、科學(xué)、高效地為專項維度的場景應(yīng)用提供多源數(shù)據(jù)情報偵查的決策服務(wù)。

(2)領(lǐng)域維度的場景應(yīng)用。領(lǐng)域維度的場景應(yīng)用主要是指偵查人員對不同多源數(shù)據(jù)從數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)倉庫構(gòu)建、數(shù)據(jù)融合、數(shù)據(jù)關(guān)聯(lián)、數(shù)據(jù)聚類等流程進(jìn)行挖掘分析,將多源數(shù)據(jù)的挖掘分析結(jié)果轉(zhuǎn)化為多源數(shù)據(jù)情報偵查決策的情報支持,助推領(lǐng)域情報偵查工作形成較有利的態(tài)勢。

(3)政策維度的場景應(yīng)用。政策維度的場景應(yīng)用主要是針對多源數(shù)據(jù)情報偵查過程中涉及情報偵查計劃、刑事政策、偵查制度等重大問題,尤其是涉及重特大案件情報偵查的規(guī)劃和論證、情報偵查決策的制定、情報偵查制度的建立,以及情報偵查計劃的實施和檢驗、情報偵查決策的反饋和修正等具體場景的應(yīng)用,以服務(wù)偵查決策,提升決策內(nèi)容的整體性。

(4)協(xié)作維度的場景應(yīng)用。協(xié)作維度的場景應(yīng)用主要是通過構(gòu)建嵌入開放式多源數(shù)據(jù)情報偵查的算法挖掘分析框架模型,幫助偵查人員全面熟悉和掌握鏈路預(yù)測、關(guān)聯(lián)聚類、離群數(shù)據(jù)檢測等不同算法的價值優(yōu)勢,促使不同偵查人員之間能夠及時有效地進(jìn)行數(shù)據(jù)融合、數(shù)據(jù)倉庫構(gòu)建等情報偵查協(xié)作的共建共享,提高多源數(shù)據(jù)情報偵查的協(xié)作水平和管理創(chuàng)新。

二、多源數(shù)據(jù)情報偵查平臺設(shè)計

為了提高多源數(shù)據(jù)情報偵查流程模型構(gòu)建的科學(xué)性和高效性,以多源數(shù)據(jù)情報源為主線,以鏈路預(yù)測、關(guān)聯(lián)聚類、離群數(shù)據(jù)檢測等數(shù)據(jù)挖掘算法為技術(shù)方法,以實現(xiàn)情報偵查的應(yīng)然價值為核心目標(biāo),探索多源數(shù)據(jù)情報偵查的平臺設(shè)計。依據(jù)多源數(shù)據(jù)情報偵查的不同屬性,其平臺設(shè)計可以采取多源數(shù)據(jù)分布式的框架進(jìn)行構(gòu)建,以保證多源數(shù)據(jù)情報偵查應(yīng)用的準(zhǔn)確性、一致性和安全性。(如下圖所示)

多源數(shù)據(jù)情報偵查平臺設(shè)計示意圖

多源數(shù)據(jù)情報偵查平臺的設(shè)計主要以“確立情報偵查價值需求——多源數(shù)據(jù)的挖掘分析——情報的處理與研判——情報的傳遞與供給”為基本思路,總體按照“多源數(shù)據(jù)挖掘分析——多源數(shù)據(jù)融合與場景應(yīng)用形成——情報偵查決策與價值需求匹配”為平臺設(shè)計框架??傮w而言,多源數(shù)據(jù)情報偵查的平臺設(shè)計方案主要包括多源數(shù)據(jù)端、多源數(shù)據(jù)融合、多源數(shù)據(jù)情報偵查決策應(yīng)用、情報偵查價值需求匹配四個部分。

第一,多源數(shù)據(jù)端。數(shù)據(jù)匯集是多源數(shù)據(jù)挖掘分析的前提,而多源數(shù)據(jù)的挖掘分析不僅是多源數(shù)據(jù)情報偵查應(yīng)用的關(guān)鍵環(huán)節(jié),而且是實現(xiàn)多源數(shù)據(jù)情報偵查應(yīng)然價值的重要保障。由于多源數(shù)據(jù)存在類別形態(tài)多樣、權(quán)限歸屬離散、屬性動態(tài)復(fù)雜等突出問題,[5]需要線上和線下進(jìn)行數(shù)據(jù)匯集,然后對其采取數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)倉庫構(gòu)建,以及數(shù)據(jù)管理和數(shù)據(jù)共享等數(shù)據(jù)預(yù)處理技術(shù),從而為多源數(shù)據(jù)情報偵查的應(yīng)用提供前提和重要支撐。

第二,多源數(shù)據(jù)融合。數(shù)據(jù)融合是整個多源數(shù)據(jù)挖掘與分析平臺設(shè)計中最為重要的程序,主要任務(wù)是解決多源數(shù)據(jù)挖掘分析不全面、不準(zhǔn)確、不統(tǒng)一等相關(guān)問題。按照對多源數(shù)據(jù)進(jìn)行關(guān)聯(lián)聚類的具體要求,可以采用底層融合、中層融合、高層融合等層次性的數(shù)據(jù)融合技術(shù)方法。其中,底層融合的任務(wù)是對多源數(shù)據(jù)的形態(tài)類別、來源渠道、加權(quán)系數(shù)、領(lǐng)域特征等進(jìn)行挖掘和歸約,主要采取動態(tài)數(shù)據(jù)爬取、常態(tài)固定采集等方式完成數(shù)據(jù)融合;中層融合的目標(biāo)是提升多源數(shù)據(jù)的可信度和關(guān)聯(lián)性,主要通過構(gòu)建多源數(shù)據(jù)與數(shù)據(jù)犯罪情勢之間的時空矩陣關(guān)系、數(shù)據(jù)序列權(quán)重關(guān)系、情報對象社交關(guān)系、情報服務(wù)與數(shù)據(jù)挖掘算法關(guān)系等數(shù)據(jù)關(guān)聯(lián)規(guī)則庫,從而提高多源數(shù)據(jù)情報偵查的決策質(zhì)量;高層融合是多源數(shù)據(jù)情報偵查數(shù)據(jù)融合的核心,也是連接多源數(shù)據(jù)情報偵查決策應(yīng)用的橋梁和平臺,主要通過關(guān)聯(lián)聚類融合、圖譜融合、檢索融合、領(lǐng)域融合等方式實現(xiàn)。

第三,多源數(shù)據(jù)情報偵查決策應(yīng)用。結(jié)合多源數(shù)據(jù)的內(nèi)涵屬性和情報偵查的價值需求,多源數(shù)據(jù)情報偵查決策應(yīng)用的設(shè)計主要包括情報偵查場景應(yīng)用和情報偵查決策方式兩個部分。情報偵查場景應(yīng)用具體包括專項維度場景應(yīng)用、領(lǐng)域維度場景應(yīng)用、政策維度場景應(yīng)用、協(xié)作維度場景應(yīng)用四個方面,而情報偵查決策方式則具體包括智能情報檢索、個性情報推薦、專案情報定制和智慧情報預(yù)測四項內(nèi)容。

第四,情報偵查價值需求匹配。多源數(shù)據(jù)情報偵查的平臺設(shè)計是面向各級各類案件所需情報偵查服務(wù)的方案,偵查人員與情報偵查價值需求都依賴于多源數(shù)據(jù)情報偵查平臺設(shè)計的科學(xué)性和合理性。同時,在提供情報偵查場景應(yīng)用和決策方式的過程中,偵查人員需要及時收集關(guān)于情報規(guī)則構(gòu)建與反饋、情報場景應(yīng)用反饋與修正、情報偵查應(yīng)用評估與反饋等相關(guān)信息,推動對多源數(shù)據(jù)情報偵查平臺設(shè)計方案進(jìn)行實時的修正和改進(jìn)。

三、多源數(shù)據(jù)情報偵查的流程模型構(gòu)建

傳統(tǒng)情報偵查的流程主要包括情報搜集、情報控制、情報存儲、情報傳輸、情報分析和情報利用等,而多源數(shù)據(jù)情報偵查的流程與其有著本質(zhì)的區(qū)別。特別是在多源數(shù)據(jù)驅(qū)動創(chuàng)新時代背景下,多源數(shù)據(jù)情報偵查的流程更加強(qiáng)調(diào)多源數(shù)據(jù)融合、數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)倉庫構(gòu)建以及情報偵查決策的應(yīng)用與反饋修正等,從而形成具有需求性、多源性、智能性、動態(tài)性等特點的現(xiàn)代智能情報偵查新流程。結(jié)合多源數(shù)據(jù)情報偵查的內(nèi)涵屬性和平臺設(shè)計方案,多源數(shù)據(jù)情報偵查流程的主要原理體現(xiàn)在四個節(jié)點上。首先,需要明確情報偵查的價值需求,分析情報偵查的主要目標(biāo),明確制定情報偵查的計劃、流程、指標(biāo)體系等任務(wù),選擇情報偵查的技術(shù)方法。然后,明確收集多源數(shù)據(jù)的類型、途徑、策略,匯集多源數(shù)據(jù)的收集結(jié)果。同時,需要對各種符號型、數(shù)值型、圖片型等多源數(shù)據(jù)采取數(shù)據(jù)融合,完成多源數(shù)據(jù)情報偵查的數(shù)據(jù)倉庫構(gòu)建。其次,采取數(shù)據(jù)濾重、數(shù)據(jù)去噪、數(shù)據(jù)降維等多源數(shù)據(jù)的清洗技術(shù)方法,完成其類別形態(tài)的統(tǒng)一標(biāo)準(zhǔn),再利用關(guān)聯(lián)分析、聚類分析、離群分析、演化分析等方法完成對涉案不同多源數(shù)據(jù)的挖掘與分析。再次,通過對多源數(shù)據(jù)挖掘分析出來的各種結(jié)果進(jìn)行解讀,研判其內(nèi)在的原理和離群數(shù)據(jù)產(chǎn)生的原因,并且撰寫情報偵查的決策報告。最后,根據(jù)情報偵查的價值需求,對多源數(shù)據(jù)情報偵查的應(yīng)用進(jìn)行實時檢測、價值評估和反饋修正等。

依據(jù)多源數(shù)據(jù)情報偵查流程的主要原理,可以將多源數(shù)據(jù)情報偵查流程劃分為情報偵查價值的需求預(yù)設(shè)、多源數(shù)據(jù)的檢索與匯集、多源數(shù)據(jù)的融合、多源數(shù)據(jù)的清洗與處理等七個模塊。

(一)情報偵查價值的需求預(yù)設(shè)模塊

多源數(shù)據(jù)情報偵查的任務(wù)是數(shù)據(jù)犯罪情勢分析,還是犯罪行為的動態(tài)監(jiān)測?是挖掘關(guān)鍵性數(shù)據(jù)、分析報告,還是偵查推理判斷、情報歸類提煉,或者是提供情報偵查決策方案?是情報偵查價值分析,還是多源數(shù)據(jù)的算法應(yīng)用?對于這些問題,偵查人員需要提前就情報偵查價值的需求進(jìn)行預(yù)設(shè)。情報偵查價值的需求預(yù)設(shè)主要包括兩個層面。第一層,情報偵查價值的需求預(yù)設(shè)包括挖掘分析多源數(shù)據(jù)、情報研判和決策等,而預(yù)設(shè)對象則是某一類案或某一個案的數(shù)據(jù)犯罪情勢構(gòu)成要素。第二層,情報偵查價值的需求預(yù)設(shè)屬于數(shù)據(jù)挖掘、數(shù)據(jù)算法、數(shù)據(jù)融合、數(shù)據(jù)倉庫構(gòu)建和數(shù)據(jù)關(guān)聯(lián)規(guī)則等方面的主題。為了快速高效地實現(xiàn)多源數(shù)據(jù)情報偵查的應(yīng)然價值,還需要對情報偵查對象進(jìn)行挖掘和建模。在傳統(tǒng)情報偵查過程中,側(cè)重于采取定性分析方法對情報偵查對象進(jìn)行挖掘分析,而在多源數(shù)據(jù)情報偵查過程中則會更多使用定量分析方法。在制定情報偵查計劃、選擇偵查途徑、擬采取偵查措施類型等之前,類案情報偵查對象往往需要偵查人員全面客觀地掌握當(dāng)前數(shù)據(jù)犯罪情勢、傳統(tǒng)情報偵查經(jīng)驗和不足、國內(nèi)外情報偵查比較典型的成功做法以及情報偵查發(fā)展態(tài)勢等,從而促使情報偵查價值的需求預(yù)設(shè)更加具有客觀性和精確性。對于個案情報偵查對象,偵查人員以前會采取調(diào)查訪問、摸底排隊等方式進(jìn)行分析研判,這不但難以及時獲得情報支持,還導(dǎo)致情報偵查價值的需求預(yù)設(shè)效果出現(xiàn)偏差甚至偵查錯誤。然而,在多源數(shù)據(jù)驅(qū)動創(chuàng)新時代,類案情報偵查對象和個案情報偵查對象都亟需偵查人員通過情報偵查價值的需求預(yù)設(shè)及時高效地挖掘與分析涉案數(shù)據(jù)、犯罪構(gòu)成要素、犯罪過程計劃和決策實施等方面的情報需求。例如,通過對涉案虛擬注冊數(shù)據(jù)、旅游數(shù)據(jù)、住宿數(shù)據(jù)、買賣數(shù)據(jù)、檢索瀏覽數(shù)據(jù)等不同多源數(shù)據(jù)情報源的挖掘分析,即可對犯罪情勢中的各構(gòu)成要素進(jìn)行數(shù)據(jù)刻畫和數(shù)據(jù)鑒別,進(jìn)而能夠準(zhǔn)確驗證情報偵查價值的需求預(yù)設(shè)。在確定情報偵查價值的需求預(yù)設(shè)之后,必然要求偵查人員明確多源數(shù)據(jù)情報偵查的目標(biāo)任務(wù),并根據(jù)目標(biāo)任務(wù)及其時效性制定情報偵查計劃,構(gòu)建情報偵查流程,確定情報偵查評估指標(biāo)體系,以及選擇合適的多源數(shù)據(jù)挖掘分析算法等。

(二)多源數(shù)據(jù)的檢索與匯集模塊

多源數(shù)據(jù)檢索與匯集流程的任務(wù)是確定多源數(shù)據(jù)檢索與匯集的來源途徑、范圍、類別,制定匯集策略和實施匯集技術(shù)方法,并對其結(jié)果進(jìn)行評估和反饋。[6]一方面,多源數(shù)據(jù)匯集與獲取是多源數(shù)據(jù)情報偵查開展的前提和基礎(chǔ)。按照對多源數(shù)據(jù)挖掘分析的不同過程,可以將多源數(shù)據(jù)匯集與獲取具體劃分為尋找數(shù)據(jù)、下載數(shù)據(jù)、提取數(shù)據(jù)三個環(huán)節(jié)。可以通過多源數(shù)據(jù)檢索選擇和確定哪里有實現(xiàn)情報價值所需的多源數(shù)據(jù),發(fā)現(xiàn)和尋找所需的多源數(shù)據(jù)并進(jìn)行下載或復(fù)制,然后從數(shù)據(jù)倉庫構(gòu)建中提取所需的多源數(shù)據(jù)。在情報數(shù)據(jù)匯集系統(tǒng)中,偵查人員可以根據(jù)情報偵查的情勢變化而對存儲在數(shù)據(jù)庫中的多源數(shù)據(jù)進(jìn)行實時更新,并及時對更新后的多源數(shù)據(jù)進(jìn)行分類、歸約、標(biāo)引等,主要包括對多源數(shù)據(jù)匯集范圍的選擇、匯集周期的確定、匯集內(nèi)容的過濾、匯集存儲的標(biāo)引、匯集結(jié)果的解析和匯集決策的推薦等過程。情報數(shù)據(jù)匯集系統(tǒng)中除了選擇和確定的URL多源數(shù)據(jù)列表之外,還有特定的多源數(shù)據(jù)頻繁項目數(shù)據(jù)集,共同構(gòu)成多源數(shù)據(jù)情報偵查的數(shù)據(jù)詞表體系。另一方面,多源數(shù)據(jù)匯集后,需要對多源數(shù)據(jù)的規(guī)模、關(guān)聯(lián)性、時效性、權(quán)威性和真?zhèn)涡缘冗M(jìn)行數(shù)據(jù)評估和反饋。例如,偵查人員需要對多源數(shù)據(jù)的規(guī)模是否能夠滿足情報偵查的價值需求、多源數(shù)據(jù)的類別形態(tài)是否多維全面、多源數(shù)據(jù)的挖掘分析是否精確有效、多源數(shù)據(jù)的挖掘算法是否科學(xué)合理、多源數(shù)據(jù)的來源途徑是否合法可靠等進(jìn)行評估和反饋,從而確保多源數(shù)據(jù)的檢索和匯集與情報偵查的價值需求高度匹配和融合。

(三)多源數(shù)據(jù)的融合模塊

構(gòu)建多源數(shù)據(jù)情報偵查流程模型過程所表現(xiàn)出的最主要特征是數(shù)據(jù)融合。將通過不同途徑和方法所獲取匯集的不同類別形態(tài)的各種多源數(shù)據(jù)情報源聚類在一起,使其形成格式統(tǒng)一、權(quán)重加權(quán)系數(shù)相同或相似、應(yīng)用目標(biāo)可視多樣的頻繁項目數(shù)據(jù)集,該過程即為多源數(shù)據(jù)融合。[7]顯然,多源數(shù)據(jù)融合主要解決的是利用不同的多源數(shù)據(jù)情報源進(jìn)行數(shù)據(jù)轉(zhuǎn)換和協(xié)作,使不同的多源數(shù)據(jù)進(jìn)行迭代式的互相彌補(bǔ),實現(xiàn)對多源數(shù)據(jù)的挖掘更加全面、客觀和精確。一方面,實現(xiàn)同一情報偵查價值需求的多源數(shù)據(jù)可能是由不同的客戶端、不同的途徑來源、不同的數(shù)據(jù)倉庫等組成;另一方面,多源數(shù)據(jù)的類別形態(tài)具有典型的多樣性,既包括結(jié)構(gòu)型、非結(jié)構(gòu)型、半結(jié)構(gòu)型、異構(gòu)型等多源數(shù)據(jù),又包括符號型、數(shù)值型、文本型、圖片型等多源數(shù)據(jù),造成多源數(shù)據(jù)的類別形態(tài)具有顯著的動態(tài)性和多樣性。這些不同的多源數(shù)據(jù)能夠從不同維度反映和揭示犯罪情勢的構(gòu)成要素,進(jìn)而對經(jīng)過數(shù)據(jù)融合后新的多源數(shù)據(jù)進(jìn)行相關(guān)性分析,能夠更加深入地挖掘分析其與犯罪情勢具有關(guān)聯(lián)性的各種內(nèi)在數(shù)理關(guān)系,為多源數(shù)據(jù)情報偵查的價值需求預(yù)設(shè)、情報偵查決策的應(yīng)用提供強(qiáng)有力的數(shù)據(jù)支持和數(shù)據(jù)參考。根據(jù)多源數(shù)據(jù)情報偵查的應(yīng)然價值現(xiàn)實需求,多源數(shù)據(jù)的數(shù)據(jù)融合主要涉及多源數(shù)據(jù)的同步與更新、共享與轉(zhuǎn)換、匯集與清洗、倉庫構(gòu)建與集成、互補(bǔ)與映射、關(guān)聯(lián)與聚類、歸約與加權(quán)權(quán)重、共同相鄰與衍生相鄰等方面,每個多源數(shù)據(jù)的數(shù)據(jù)融合都需要不同的數(shù)據(jù)技術(shù)處理方法。[8]不同多源數(shù)據(jù)或其數(shù)據(jù)節(jié)點之間都具有一定程度的互補(bǔ)性,可以采取數(shù)據(jù)交叉印證、數(shù)據(jù)路徑測量、數(shù)據(jù)時序矩陣等算法進(jìn)行數(shù)據(jù)融合。多源數(shù)據(jù)的融合模塊不僅能夠降低和消除不同多源數(shù)據(jù)情報源之間的差異性和異構(gòu)性,還能夠有效提高多源數(shù)據(jù)情報偵查挖掘與分析的完整性和聚類性。

(四)多源數(shù)據(jù)的清洗與處理模塊

在多源數(shù)據(jù)情報偵查的挖掘分析過程中,各種多源數(shù)據(jù)呈現(xiàn)出海量復(fù)雜、類別形態(tài)多樣、指數(shù)級增長、結(jié)構(gòu)動態(tài)各異等特點,而如何構(gòu)建成格式標(biāo)準(zhǔn)統(tǒng)一的多源數(shù)據(jù)是多源數(shù)據(jù)清洗與處理亟需解決的問題。要建立高效的多源數(shù)據(jù)質(zhì)量挖掘與分析評估體系,對涉案的不同多源數(shù)據(jù)情報源展開數(shù)據(jù)校對、數(shù)據(jù)過濾、數(shù)據(jù)去噪等技術(shù)處理,從而優(yōu)質(zhì)高效地完成對多源數(shù)據(jù)的清洗與處理。從多源數(shù)據(jù)的內(nèi)涵屬性和情報偵查的特殊價值而言,多源數(shù)據(jù)的清洗與處理主要包括數(shù)據(jù)過濾、數(shù)據(jù)識別、數(shù)據(jù)降維和數(shù)據(jù)重名區(qū)分等。通過不同途徑匯集的多源數(shù)據(jù)難以避免數(shù)據(jù)的重復(fù)現(xiàn)象,因此,在對其進(jìn)行挖掘分析之前需要進(jìn)行數(shù)據(jù)的重名區(qū)分。有些重復(fù)的多源數(shù)據(jù)的類別形態(tài)可能一樣,有些重復(fù)的多源數(shù)據(jù)則可能會出現(xiàn)完全不一樣的類別形態(tài),這就要求偵查人員首先對多源數(shù)據(jù)進(jìn)行分析與識別,把同配多源數(shù)據(jù)的不同類別形態(tài)進(jìn)行融合歸一,比如對縮寫與全稱、同義與轉(zhuǎn)換、縮略與合并、重構(gòu)與兼并等多源數(shù)據(jù)的清洗與處理。此外,多源數(shù)據(jù)的清洗與處理還包括數(shù)據(jù)去噪、數(shù)據(jù)查漏、數(shù)據(jù)補(bǔ)缺等。例如,偵查人員需要對海量、動態(tài)的多源數(shù)據(jù)進(jìn)行去噪、查漏和補(bǔ)缺,對高維復(fù)雜的多源數(shù)據(jù)進(jìn)行數(shù)據(jù)降維處理等。所以,多源數(shù)據(jù)清洗與處理的模塊能夠全面提升多源數(shù)據(jù)情報偵查挖掘分析的客觀性和高效性。

(五)多源數(shù)據(jù)的挖掘分析模塊

從多源數(shù)據(jù)情報偵查的關(guān)聯(lián)聚類效果而言,多源數(shù)據(jù)的挖掘分析主要包括離群分析、計量分析、演化分析、模式分析、網(wǎng)絡(luò)分析、關(guān)聯(lián)分析、共現(xiàn)分析、聚類分析和矩陣分析等方法。[9]例如,偵查人員通過模式分析法可以挖掘分析數(shù)據(jù)犯罪情勢中的犯罪模式類型,通過關(guān)聯(lián)分析法可以分析與涉嫌犯罪具有關(guān)聯(lián)性的各種數(shù)理關(guān)系,通過聚類分析法可以對犯罪主體、犯罪時空、犯罪痕跡、犯罪過程等進(jìn)行類別聚類分析,通過矩陣分析法可以挖掘分析某類型或某個案犯罪的情報偵查預(yù)測。為了提升對多源數(shù)據(jù)挖掘分析的精確性,可以采取以下幾種典型的挖掘分析方法。第一,計量挖掘分析法。計量挖掘分析的對象主要包括犯罪主體、犯罪時空、犯罪痕跡、犯罪客體和犯罪過程等刑事案件的構(gòu)成要素,具體方法又包括犯罪統(tǒng)計排序法、犯罪周期時序法、犯罪數(shù)量空間分布法和犯罪類型增長法等。計量挖掘分析的主要功能包括對犯罪主體的發(fā)現(xiàn)和識別、多源數(shù)據(jù)情報源的特征選擇、數(shù)據(jù)犯罪情勢的熱點預(yù)測等,這些功能有助于偵查人員及時掌握數(shù)據(jù)犯罪情勢,從而作出有利于偵查情勢發(fā)展的多源數(shù)據(jù)情報偵查決策。第二,關(guān)聯(lián)挖掘分析法。相關(guān)性原理作為多源數(shù)據(jù)情報偵查方法的主要原理,對涉案多源數(shù)據(jù)的挖掘與分析提供了強(qiáng)有力的理論支撐和保障。常用的關(guān)聯(lián)挖掘分析法主要包括鏈路預(yù)測關(guān)聯(lián)法、數(shù)據(jù)關(guān)聯(lián)規(guī)則法、數(shù)據(jù)聚類關(guān)聯(lián)法等,[10]其功能是挖掘涉案的多源數(shù)據(jù)情報源與數(shù)據(jù)犯罪情勢之間的數(shù)理關(guān)系。第三,網(wǎng)絡(luò)挖掘分析法。網(wǎng)絡(luò)挖掘分析的對象主要是網(wǎng)絡(luò)多源數(shù)據(jù)的類別形態(tài)、演化規(guī)律、模型機(jī)制、機(jī)構(gòu)屬性和數(shù)據(jù)路徑等,主要是通過對網(wǎng)絡(luò)多源數(shù)據(jù)的密度分布、聚類規(guī)則、數(shù)據(jù)距離、加權(quán)權(quán)重系數(shù)、相鄰數(shù)據(jù)節(jié)點等進(jìn)行挖掘分析,尋找和發(fā)現(xiàn)其與數(shù)據(jù)犯罪情勢相關(guān)的各種數(shù)據(jù)節(jié)點、數(shù)據(jù)連邊、共同數(shù)據(jù)相鄰閾值等,快速地獲知多源數(shù)據(jù)情報偵查的價值需求和決策分解任務(wù)。第四,演化挖掘分析法。演化挖掘分析主要包括對過去犯罪行為的梳理總結(jié)、對目前犯罪動態(tài)的實時檢測、對數(shù)據(jù)犯罪情勢的預(yù)測等三個方面。其中,對過去犯罪行為的梳理總結(jié)可以采取多源數(shù)據(jù)時序分析、犯罪周期分析等方法;對目前犯罪動態(tài)的實時檢測可以采取數(shù)據(jù)漸變矩陣分析、數(shù)據(jù)異常突增分析等;對數(shù)據(jù)犯罪情勢的預(yù)測可以采取犯罪情景預(yù)測分析、犯罪數(shù)據(jù)趨勢外推分析等方法。顯然,偵查人員應(yīng)該依據(jù)不同的情報偵查價值需求采取不同的多源數(shù)據(jù)挖掘分析方法,提高對多源數(shù)據(jù)情報源挖掘的精確性。

(六)多源數(shù)據(jù)情報的發(fā)現(xiàn)與凝練模塊

對涉案的不同多源數(shù)據(jù)情報源進(jìn)行挖掘分析之后,需要對挖掘分析的結(jié)果進(jìn)行解讀和論證,及時發(fā)現(xiàn)犯罪情勢的變化規(guī)律,并將其轉(zhuǎn)換為多源數(shù)據(jù)情報偵查決策的數(shù)據(jù)情報支持和參考。其中,對多源數(shù)據(jù)挖掘分析結(jié)果的解讀主要依靠情報偵查的假設(shè)論證、多源數(shù)據(jù)規(guī)律的挖掘統(tǒng)計、多源數(shù)據(jù)的離群數(shù)據(jù)檢測、情報偵查決策應(yīng)用的反饋和修正等方法,而對多源數(shù)據(jù)離群結(jié)果的解讀則依靠多源數(shù)據(jù)的離群算法、情報偵查決策的強(qiáng)弱突變驗證法、多源數(shù)據(jù)挖掘結(jié)果的多元協(xié)同歸約法等。對多源數(shù)據(jù)挖掘分析結(jié)果的解讀和對多源數(shù)據(jù)離群結(jié)果的解讀是檢驗多源數(shù)據(jù)情報偵查價值需求的感知和決策反饋應(yīng)用的重要指標(biāo)。顯然,對多源數(shù)據(jù)情報發(fā)現(xiàn)與凝練模塊的構(gòu)建,不僅是制定多源數(shù)據(jù)情報偵查價值需求的應(yīng)然要求,而且是提高多源數(shù)據(jù)情報偵查決策效率的必然選擇。誠然,在多源數(shù)據(jù)情報發(fā)現(xiàn)與凝練的流程中,通過對涉案的各種多源數(shù)據(jù)情報源的挖掘分析,不僅能夠發(fā)現(xiàn)犯罪情勢變化的時序特征和時空矩陣類別,而且能夠?qū)Ψ缸锴閯葸M(jìn)行模擬預(yù)測,從而提高多源數(shù)據(jù)情報偵查場景應(yīng)用的高效性。

(七)情報偵查決策報告的撰寫與傳遞模塊

在構(gòu)建多源數(shù)據(jù)情報偵查流程模型過程中,偵查人員需要圍繞情報偵查的價值需求廣泛收集涉案的各種多源數(shù)據(jù)情報源,采取神經(jīng)網(wǎng)絡(luò)、決策樹、鏈路預(yù)測和區(qū)塊鏈等多種關(guān)聯(lián)聚類的數(shù)據(jù)挖掘算法,實時預(yù)測犯罪情勢,并將對多源數(shù)據(jù)情報源所挖掘與分析出來的各種關(guān)聯(lián)數(shù)理關(guān)系有效地融合到多源數(shù)據(jù)情報偵查的決策應(yīng)用中,從而形成多源數(shù)據(jù)情報偵查決策報告。情報偵查決策報告的撰寫與傳遞模塊不僅能夠服務(wù)于情報偵查的價值需求感知、數(shù)據(jù)挖掘算法的選擇、多源數(shù)據(jù)的互相融合和數(shù)據(jù)情報挖掘分析師的建立等,而且具有多源數(shù)據(jù)情報源的倉庫構(gòu)建、多源數(shù)據(jù)情報偵查的平臺設(shè)計管理和流程模型構(gòu)建、多源數(shù)據(jù)情報偵查決策實施的反饋與修正等價值功能。依據(jù)情報偵查決策報告撰寫的屬性范疇不同,可以將其內(nèi)容分為為偵查人員提供情報偵查的價值需求感知分析、多源數(shù)據(jù)挖掘算法的不同價值優(yōu)勢、多源數(shù)據(jù)情報偵查決策實施方案的選擇和反饋修正等。情報偵查決策報告的類型主要包括多源數(shù)據(jù)情報偵查的動態(tài)簡報、決策參考報告、深度情報價值分析報告、數(shù)據(jù)化的犯罪情勢預(yù)測報告等。情報偵查決策報告的撰寫包括淺入淺出、深入深出、淺入深出、深入淺出四種方式。同時,依據(jù)多源數(shù)據(jù)情報偵查的傳遞功能價值不同,可以將情報偵查決策報告的傳遞分為制定情報傳遞的范式、選擇情報傳遞的時效、情報傳遞的恰當(dāng)接收、情報傳遞的應(yīng)用反饋和情報傳遞失察的研判等具體過程。情報偵查決策報告的傳遞要求選擇科學(xué)的情報傳遞方式,在恰當(dāng)合理的時空內(nèi)傳遞給急需的偵查人員。所以,為了實現(xiàn)情報偵查決策報告撰寫與傳遞模塊的價值,必須明確情報偵查決策報告類型、科學(xué)設(shè)計情報偵查決策報告結(jié)構(gòu)、合理選擇情報偵查決策報告內(nèi)容、重點突出情報偵查決策報告結(jié)論、嚴(yán)格控制情報偵查決策報告的篇幅和傳遞范圍等相關(guān)要求。

四、多源數(shù)據(jù)情報偵查的應(yīng)用算法探討

在多源數(shù)據(jù)情報的挖掘與分析過程中,多源數(shù)據(jù)情報源的價值密度較低,需要采用Map-reduce多模態(tài)檢索算法等多源數(shù)據(jù)算法對其進(jìn)行挖掘與分析。同時,多源數(shù)據(jù)情報源還具有更新速度特快的顯著特點,這要求多源數(shù)據(jù)情報偵查應(yīng)用算法應(yīng)當(dāng)具有收斂速度快、耗時慢等高效的算法優(yōu)勢。顯然,偵查人員不僅需要將涉案“軟數(shù)據(jù)”與“硬數(shù)據(jù)”、內(nèi)部型數(shù)據(jù)與外部型數(shù)據(jù)、虛擬數(shù)據(jù)與實體數(shù)據(jù)等不同類別形態(tài)的多源數(shù)據(jù)情報源進(jìn)行聯(lián)動整合,還需要將符號型數(shù)據(jù)、數(shù)值型數(shù)據(jù)、圖片型數(shù)據(jù)和文本型數(shù)據(jù)等不同屬性結(jié)構(gòu)的多源數(shù)據(jù)情報源進(jìn)行科學(xué)高效的融合。所以,偵查人員應(yīng)該轉(zhuǎn)變傳統(tǒng)數(shù)據(jù)情報偵查的價值導(dǎo)向,積極主動挖掘不同的多源數(shù)據(jù)情報源與數(shù)據(jù)犯罪情勢之間的各種關(guān)聯(lián)數(shù)理關(guān)系,全面提升多源數(shù)據(jù)情報偵查預(yù)測和決策的精確度,及時為預(yù)防和打擊犯罪提供有效的應(yīng)對措施。

(一)Map-reduce多模態(tài)檢索算法

Map-reduce多模態(tài)檢索算法是Hadoop多源數(shù)據(jù)算法中的一部分,主要用于對不同的系統(tǒng)、層次、形態(tài)等多模態(tài)的多源數(shù)據(jù)進(jìn)行挖掘處理,可以將其部署在多源數(shù)據(jù)情報偵查的分布式數(shù)據(jù)倉庫中,進(jìn)而完成對不同多源數(shù)據(jù)情報源的運(yùn)算與歸約。[11]Map-reduce多模態(tài)檢索算法具有典型的易于控制、收斂速度快、運(yùn)算效率高等突出特點,其運(yùn)算過程主要分為Reduce-task和Map-task兩部分。利用Map-reduce多模態(tài)檢索算法可以將對多源數(shù)據(jù)情報源的挖掘任務(wù)細(xì)分為數(shù)個子任務(wù),降低多源數(shù)據(jù)融合的復(fù)雜度,再把多源數(shù)據(jù)情報偵查的子任務(wù)分配給Map-task,并由Reduce-task運(yùn)算和匯總Map-task所挖掘分析的數(shù)據(jù)結(jié)果。在接收到涉案情報偵查價值需求的檢索任務(wù)后,數(shù)據(jù)倉庫中的各多源數(shù)據(jù)會根據(jù)HDFS的預(yù)設(shè)對Master的數(shù)據(jù)節(jié)點、數(shù)據(jù)連邊進(jìn)行數(shù)據(jù)情報檢索,并將檢索后所形成的多源數(shù)據(jù)聚類頻繁項目子集調(diào)度給Map-task。同時,還需要在Map-task運(yùn)算階段將多源數(shù)據(jù)情報偵查的任務(wù)目標(biāo)部署在Split的數(shù)據(jù)運(yùn)算函數(shù)映射中,使用反復(fù)的數(shù)據(jù)迭代運(yùn)算②這一數(shù)據(jù)挖掘分析中的典型技術(shù)算法,通過先取一個粗糙的數(shù)據(jù)節(jié)點相似度近似值,然后用同一個遞推公式,反復(fù)校正此閾值,直至符合預(yù)定精度要求為止,從而完成對涉案多源數(shù)據(jù)降維空間轉(zhuǎn)換的Map-reduce多模態(tài)檢索和字典求解。而在Map-reduce多模態(tài)檢索運(yùn)算的Reduce-task階段,可以通過Shuffle計算挖掘分析出不同多源數(shù)據(jù)之間數(shù)據(jù)節(jié)點的相鄰權(quán)重加權(quán)系數(shù),并依據(jù)其系數(shù)的相似度或近似值而尋找和挖掘與數(shù)據(jù)犯罪情勢具有內(nèi)在關(guān)聯(lián)性的各種數(shù)理關(guān)系。顯然,Map-reduce多模態(tài)檢索算法主要從多源數(shù)據(jù)情報源的完整程度和準(zhǔn)確程度兩個方面進(jìn)行挖掘分析。只有Map-reduce多模態(tài)檢索結(jié)果與數(shù)據(jù)犯罪情勢發(fā)展的客觀實際相符合時,才表明多源數(shù)據(jù)情報偵查應(yīng)用的準(zhǔn)確性和客觀性。還可以根據(jù)Map-reduce多模態(tài)檢索結(jié)果與涉案多源數(shù)據(jù)情報源總數(shù)的比例,計算部分未知檢索結(jié)果與其所有數(shù)據(jù)的占有比例閾值,進(jìn)而降低或消除多源數(shù)據(jù)情報偵查應(yīng)用的離群度和冗余度。所以,采取Map-reduce多模態(tài)檢索算法能夠提升對涉案多源數(shù)據(jù)情報源挖掘的完整性和準(zhǔn)確性,從而全面提高多源數(shù)據(jù)情報偵查應(yīng)用的客觀性和精確性。

(二)協(xié)同過濾推薦算法

協(xié)同過濾推薦算法的原理是統(tǒng)計與目標(biāo)用戶有著相同興趣的用戶,或者有同樣經(jīng)驗的用戶群體,歸納該用戶群體感興趣的信息,將這些信息推薦給目標(biāo)用戶。[13]通過采取協(xié)同過濾推薦算法能夠挖掘與分析犯罪嫌疑人潛在的個性喜好,從而有利于對犯罪嫌疑人或數(shù)據(jù)犯罪情勢展開多源數(shù)據(jù)情報的刻畫,且該算法所形成情報偵查預(yù)測和決策的質(zhì)量都比較高。依據(jù)多源數(shù)據(jù)情報偵查所針對的數(shù)據(jù)犯罪情勢客體不同,可以將協(xié)同過濾推薦算法分為基于用戶的協(xié)同過濾推薦算法和基于項目的協(xié)同過濾推薦算法兩部分。其中,基于用戶的協(xié)同過濾推薦算法主要是指采取數(shù)據(jù)統(tǒng)計的運(yùn)算方法發(fā)現(xiàn)與犯罪嫌疑人具有相同或相似個性喜好的其他犯罪嫌疑人;而基于項目的協(xié)同過濾推薦算法主要是指通過對涉案犯罪嫌疑人的個性喜好、犯罪空間時序的系數(shù)、犯罪痕跡的鑒別和犯罪對象的選擇等情報偵查項目的挖掘分析,再通過尋找和運(yùn)算與其存在相似性的情報偵查需求項目,實時代替基于用戶的協(xié)同過濾推薦算法。

結(jié)合多源數(shù)據(jù)情報偵查的特殊價值需求和平臺設(shè)計,可以將多源數(shù)據(jù)情報偵查的協(xié)同過濾推薦算法具體分為以下幾個步驟。首先,匯集數(shù)據(jù)犯罪情勢的多源數(shù)據(jù)情報源。此處的多源數(shù)據(jù)情報源主要是基于不同情報偵查價值需求項目的多源數(shù)據(jù)。偵查人員可依據(jù)數(shù)據(jù)犯罪情勢來分析判斷該算法對數(shù)據(jù)的適合性。同時,多源數(shù)據(jù)情報偵查的應(yīng)用平臺也會根據(jù)犯罪嫌疑人的涉嫌犯罪行為自動對存儲在數(shù)據(jù)倉庫中的不同多源數(shù)據(jù)情報源展開挖掘與分析,從而快速高效地發(fā)現(xiàn)其與數(shù)據(jù)犯罪情勢之間潛在的各種關(guān)聯(lián)數(shù)理關(guān)系。其次,對多源數(shù)據(jù)進(jìn)行近關(guān)聯(lián)搜索,將已挖掘和待挖掘多源數(shù)據(jù)的節(jié)點相似度作為兩者之間的權(quán)重加權(quán)系數(shù)③,依據(jù)已挖掘多源數(shù)據(jù)的節(jié)點權(quán)重加權(quán)系數(shù)能夠獲取待挖掘多源數(shù)據(jù)的節(jié)點權(quán)重加權(quán)系數(shù),達(dá)到對不同多源數(shù)據(jù)情報源的關(guān)聯(lián)聚類效果。例如,偵查人員可以采取正弦相似度算法、余弦相似度算法和皮爾森相似度算法等技術(shù)方法完成對多源數(shù)據(jù)的最近鄰搜索。最后,形成情報偵查決策的推薦結(jié)果。根據(jù)多源數(shù)據(jù)最近鄰收集所運(yùn)算和獲得的數(shù)據(jù)節(jié)點權(quán)重加權(quán)系數(shù)閾值,使挖掘分析出的關(guān)聯(lián)數(shù)理關(guān)系作為情報偵查決策的依據(jù),并將所形成的情報偵查決策及時推薦給有情報偵查價值需求的偵查人員。相較于傳統(tǒng)情報偵查的數(shù)據(jù)推薦算法,協(xié)同過濾推薦算法受到多源數(shù)據(jù)情報偵查中歷史數(shù)據(jù)和更新數(shù)據(jù)的影響或制約比較小,所以,采取多源數(shù)據(jù)情報偵查的協(xié)同過濾推薦算法,不僅能夠保障對不同多源數(shù)據(jù)的數(shù)據(jù)節(jié)點權(quán)重加權(quán)系數(shù)挖掘分析的穩(wěn)定性,還能夠提升多源數(shù)據(jù)情報偵查挖掘與分析應(yīng)用的高效性。

(三)仿射數(shù)據(jù)傳播聚類算法

仿射數(shù)據(jù)傳播聚類算法是指主要利用不同多源數(shù)據(jù)情報源之間互相傳播的技術(shù)方法形成頻繁項目數(shù)據(jù)集合的聚類中心,從而實現(xiàn)各個多源數(shù)據(jù)節(jié)點自動關(guān)聯(lián)聚類的一種智能數(shù)據(jù)挖掘算法。相較于傳統(tǒng)的數(shù)據(jù)關(guān)聯(lián)聚類算法,仿射數(shù)據(jù)傳播聚類算法不需要對多源數(shù)據(jù)情報源的數(shù)據(jù)形態(tài)類別、聚類初始中心、數(shù)據(jù)連邊和數(shù)據(jù)路徑等權(quán)重加權(quán)系數(shù)進(jìn)行提前預(yù)設(shè)。任何一個多源數(shù)據(jù)的數(shù)據(jù)節(jié)點都具有潛在關(guān)聯(lián)聚類中心的價值,通過采取數(shù)據(jù)迭代算法就能夠自動形成多源數(shù)據(jù)頻繁項目數(shù)據(jù)集合的聚類中心,促使多源數(shù)據(jù)情報偵查應(yīng)用的結(jié)果更具有精確性。從仿射數(shù)據(jù)傳播聚類算法的價值優(yōu)勢角度來說,可以將其在多源數(shù)據(jù)情報偵查中的應(yīng)用分為兩個步驟。

第二步,運(yùn)算和挖掘獲取多源數(shù)據(jù)互相傳播的吸引值和歸屬值。多源數(shù)據(jù)的吸引值主要是將不同多源數(shù)據(jù)從數(shù)據(jù)節(jié)點i傳播到作為潛在多源數(shù)據(jù)頻繁項目集合關(guān)聯(lián)聚類中心數(shù)據(jù)節(jié)點k的相似度閾值,即R(i,k);而潛在數(shù)據(jù)節(jié)點k′的歸屬值可通過在R(i,k)中插入數(shù)據(jù)節(jié)點i來獲取。同時,多源數(shù)據(jù)的歸屬值是從多源數(shù)據(jù)頻繁項目集合中潛在關(guān)聯(lián)聚類中心數(shù)據(jù)節(jié)點k傳播到數(shù)據(jù)節(jié)點i的相似度閾值,即A(i,k)。顯然,多源數(shù)據(jù)的歸屬值不僅揭示了數(shù)據(jù)節(jié)點k作為數(shù)據(jù)節(jié)點i關(guān)聯(lián)聚類中心適配的權(quán)重加權(quán)程度,而且在一定程度上反映了數(shù)據(jù)節(jié)點k對其他潛在數(shù)據(jù)節(jié)點的吸引值大小。多源數(shù)據(jù)情報偵查的仿射數(shù)據(jù)傳播聚類算法,一方面具有降低數(shù)據(jù)挖掘運(yùn)算的耗時量和提高多源數(shù)據(jù)利用率的功能;另一方面,還促使多源數(shù)據(jù)情報偵查應(yīng)用具有較強(qiáng)的便捷性和實用性等價值優(yōu)勢,更加有利于多源數(shù)據(jù)情報偵查應(yīng)然價值的高效實現(xiàn)。

(四)圖卷積網(wǎng)絡(luò)多源算法

圖卷積網(wǎng)絡(luò)多源算法最早是由學(xué)者Thomas Kipf提出的,主要原理是通過對不同多源數(shù)據(jù)的數(shù)據(jù)節(jié)點相似度特征進(jìn)行卷積并采取圖的方式進(jìn)行挖掘分析,具有數(shù)據(jù)收斂速度快、運(yùn)算耗時少、成本低等顯著特征。[14]圖卷積網(wǎng)絡(luò)多源算法的應(yīng)用平臺主要包括輸入層、隱藏層和輸出層三個部分。其中,輸入層主要輸入不同多源數(shù)據(jù)的節(jié)點共同矩陣和相鄰矩陣,目的是挖掘與分析不同數(shù)據(jù)節(jié)點之間相似度的權(quán)重加權(quán)系數(shù);隱藏層的任務(wù)是利用Relu算法、Dropout算法等挖掘算法對不同類別形態(tài)、不同屬性范疇的多源數(shù)據(jù)分布進(jìn)行數(shù)據(jù)倉庫構(gòu)建,防止出現(xiàn)數(shù)據(jù)冗余、數(shù)據(jù)重復(fù)等現(xiàn)象;輸出層的作用是將所挖掘和構(gòu)建數(shù)據(jù)倉庫中的多源數(shù)據(jù)轉(zhuǎn)化成行為的數(shù)據(jù)預(yù)測閾值。

多源數(shù)據(jù)情報偵查的圖卷積網(wǎng)絡(luò)多源算法具有數(shù)據(jù)收斂速度快、運(yùn)算客觀性強(qiáng)和情報偵查預(yù)測精確度高等顯著價值優(yōu)勢,多源數(shù)據(jù)情報偵查的情報價值需求可通過圖卷積網(wǎng)絡(luò)多源算法得以實現(xiàn)。多源數(shù)據(jù)情報偵查的圖卷積網(wǎng)絡(luò)多源算法可分為以下六個步驟。第一步,多源數(shù)據(jù)的預(yù)處理。在獲取到涉案各種多源數(shù)據(jù)情報源之后,采取數(shù)據(jù)清洗、數(shù)據(jù)過濾等技術(shù)方法對其進(jìn)行數(shù)據(jù)預(yù)處理,再將經(jīng)過數(shù)據(jù)預(yù)處理的多源數(shù)據(jù)轉(zhuǎn)化為多源數(shù)據(jù)頻繁項目的本體集合并以RDF的類別形態(tài)予以存儲。第二步,構(gòu)建多源數(shù)據(jù)的拓?fù)鋱D。以RDF類別形態(tài)的多源數(shù)據(jù)頻繁項目本體集合為數(shù)據(jù)模型構(gòu)建多源數(shù)據(jù)的拓?fù)鋱D,該本體集合中所有多源數(shù)據(jù)的總數(shù)量就是其構(gòu)建拓?fù)鋱D的數(shù)據(jù)節(jié)點總數(shù)。可以采用One-hot稀疏數(shù)據(jù)矩陣⑤來表示多源數(shù)據(jù)拓?fù)鋱D的矩陣特征,促使構(gòu)建多源數(shù)據(jù)的拓?fù)鋱D更加客觀合理。同時,還可以根據(jù)不同數(shù)據(jù)節(jié)點之間相似度權(quán)重加權(quán)系數(shù)的差異性,將其構(gòu)建為兩個具有無向型的多源數(shù)據(jù)拓?fù)鋱D。第三步,多源數(shù)據(jù)的實例化張量。為了提升多源數(shù)據(jù)情報偵查挖掘與分析應(yīng)用的精確性,需要對已構(gòu)建的多源數(shù)據(jù)拓?fù)鋱D采取實例化張量運(yùn)算,主要包括數(shù)據(jù)節(jié)點矩陣、共同相鄰數(shù)據(jù)路徑矩陣、數(shù)據(jù)節(jié)點相似度、數(shù)據(jù)節(jié)點的距離標(biāo)簽,以及數(shù)據(jù)連邊的無向圖等實例化的張量運(yùn)算。第四步,構(gòu)建圖卷積網(wǎng)絡(luò)多源算法模型。為避免和降低在圖卷積網(wǎng)絡(luò)多源算法中出現(xiàn)數(shù)據(jù)過擬合等離群異?,F(xiàn)象,可采取Leaky-relu函數(shù)對涉案的多源數(shù)據(jù)進(jìn)行非線性激活,并利用Soft-max函數(shù)對圖卷積網(wǎng)絡(luò)多源算法展開Adam模型優(yōu)化,從而提升圖卷積網(wǎng)絡(luò)多源算法模型的科學(xué)性。第五步,訓(xùn)練多源數(shù)據(jù)集。將多源數(shù)據(jù)拓?fù)鋱D中數(shù)據(jù)節(jié)點A、B作為被訓(xùn)練多源數(shù)據(jù)集的對象,依據(jù)數(shù)據(jù)距離、數(shù)據(jù)路徑、數(shù)據(jù)閾值、共同相鄰或衍生相鄰的數(shù)據(jù)節(jié)點等不同的數(shù)據(jù)節(jié)點屬性范疇,將其作為訓(xùn)練多源數(shù)據(jù)集的相似度模型輸入來源。然后,通過圖卷積網(wǎng)絡(luò)多源算法模型挖掘與分析最合適多源數(shù)據(jù)情報偵查應(yīng)用的特征矩陣Abest和相鄰矩陣Bbest。第六步,多源數(shù)據(jù)集的測試。在挖掘分析最合適多源數(shù)據(jù)情報偵查挖掘分析的特征矩陣Abest和相鄰矩陣Bbest之后,將其應(yīng)用于不同多源數(shù)據(jù)頻繁項目集的測試。在多源數(shù)據(jù)集的測試過程中,首先選擇和確定多源數(shù)據(jù)X、Y作為被測試的數(shù)據(jù)節(jié)點,然后分別計算數(shù)據(jù)節(jié)點X、Y的數(shù)據(jù)距離、數(shù)據(jù)路徑、相似度閾值、權(quán)重加權(quán)系數(shù)和數(shù)據(jù)連邊等,最后將上述多源數(shù)據(jù)節(jié)點X、Y的計算結(jié)果代入圖卷積網(wǎng)絡(luò)多源算法的運(yùn)算模型進(jìn)行挖掘與分析,其輸出的結(jié)果即為多源數(shù)據(jù)情報偵查的數(shù)理關(guān)系挖掘分析結(jié)果。

(五)異構(gòu)傳感數(shù)據(jù)融合目標(biāo)識別算法

傳統(tǒng)的數(shù)據(jù)情報偵查算法為了降低數(shù)據(jù)挖掘的計算量,往往采用單一數(shù)據(jù)特征選擇的靜態(tài)目標(biāo)識別算法,對類別形態(tài)、格式標(biāo)準(zhǔn)、內(nèi)涵屬性等相同或相似的同源數(shù)據(jù)具有較好的情報偵查挖掘分析價值。然而,隨著多源數(shù)據(jù)情報源的不斷產(chǎn)生,傳統(tǒng)單一數(shù)據(jù)特征選擇的靜態(tài)目標(biāo)識別算法已難以適應(yīng)多源數(shù)據(jù)驅(qū)動創(chuàng)新時代情報偵查工作的價值需求。基于此,提出和引入一種特殊的異構(gòu)傳感數(shù)據(jù)融合目標(biāo)識別算法顯得尤為必要。依據(jù)對不同異構(gòu)多源數(shù)據(jù)情報偵查的情報價值需求和流程模型構(gòu)建,可以將異構(gòu)傳感數(shù)據(jù)融合目標(biāo)識別算法具體分為三個步驟。第一步,異構(gòu)多源數(shù)據(jù)的融合。異構(gòu)多源數(shù)據(jù)的融合主要包括多源數(shù)據(jù)目標(biāo)狀態(tài)的融合和多源數(shù)據(jù)目標(biāo)特性的融合兩個部分。將通過不同情報偵查途徑所獲取的各種異構(gòu)多源數(shù)據(jù)進(jìn)行數(shù)據(jù)匯集、數(shù)據(jù)清洗、數(shù)據(jù)集成等數(shù)據(jù)預(yù)處理之后,再采取多傳感器的數(shù)據(jù)目標(biāo)跟蹤技術(shù)將各種多源數(shù)據(jù)的目標(biāo)狀態(tài)進(jìn)行互相融合,從而完成對多源數(shù)據(jù)情報源的數(shù)據(jù)目標(biāo)挖掘和跟蹤。同時,在對多源數(shù)據(jù)目標(biāo)狀態(tài)融合的基礎(chǔ)上,還需要進(jìn)一步對數(shù)據(jù)倉庫中不同多源數(shù)據(jù)的類別形態(tài)和內(nèi)涵屬性進(jìn)行挖掘與分析,完成對多源數(shù)據(jù)目標(biāo)特性的融合應(yīng)用。顯然,通過對異構(gòu)多源數(shù)據(jù)的融合應(yīng)用,一方面在多源數(shù)據(jù)情報偵查的數(shù)據(jù)倉庫構(gòu)建過程中能夠有效降低和消除冗余數(shù)據(jù)、重復(fù)數(shù)據(jù)、多維數(shù)據(jù)等離群多源數(shù)據(jù)出現(xiàn)的概率;另一方面,還具有提升后續(xù)異構(gòu)傳感數(shù)據(jù)融合目標(biāo)識別算法高效、客觀的運(yùn)算價值。第二步,提取多源數(shù)據(jù)的目標(biāo)特征。異構(gòu)傳感數(shù)據(jù)融合目標(biāo)識別算法的關(guān)聯(lián)數(shù)理關(guān)系挖掘分析主要有數(shù)據(jù)識別目標(biāo)特征、數(shù)據(jù)空間特征、數(shù)據(jù)統(tǒng)計特征、數(shù)據(jù)閾值變換特征等技術(shù)方法。其中的數(shù)據(jù)識別目標(biāo)特征方法主要是通過對多源數(shù)據(jù)的抽象提取所獲得,能夠揭示和反映出不同多源數(shù)據(jù)識別目標(biāo)特征的本質(zhì)屬性區(qū)別。例如,偵查人員可以采用直方圖的方式選擇和提取多源數(shù)據(jù)識別目標(biāo)的特征,圖像的灰度級表示不同多源數(shù)據(jù)識別目標(biāo)特征的空間分布??衫弥狈綀D的圖像區(qū)域大小M×N(M、N為坐標(biāo)值)標(biāo)定多源數(shù)據(jù)在該圖上的可識別目標(biāo)特征,不同多源數(shù)據(jù)的可識別目標(biāo)特征分別通過公式F(Mk)=Nk來具體計算標(biāo)定。其中,k的閾值范圍為[0,L-1]。此外,還可以通過余弦頻譜、正弦頻譜、傅里葉頻譜等技術(shù)方法挖掘和提取不同多源數(shù)據(jù)的目標(biāo)特征。第三步,實現(xiàn)情報偵查的目標(biāo)識別。在異構(gòu)傳感數(shù)據(jù)融合目標(biāo)識別算法過程中,沖突閾值表示不同多源數(shù)據(jù)目標(biāo)識別之間的權(quán)重沖突概率,而影響和制約沖突閾值的要素比較多。若多源數(shù)據(jù)M1和M2的沖突閾值較高時,則可以將兩者進(jìn)行數(shù)據(jù)融合;若兩者之間的權(quán)重沖突概率特別高時,則需要先采取關(guān)聯(lián)聚類算法降低權(quán)重沖突概率,再進(jìn)行調(diào)整融合??上葘⒉煌嘣磾?shù)據(jù)之間的沖突閾值提前進(jìn)行預(yù)設(shè),為了確保偵查目標(biāo)識別的精確性和客觀性,需要對其沖突閾值和概率進(jìn)行不斷的檢驗和修正。通過調(diào)整和修改不同多源數(shù)據(jù)之間的沖突閾值和概率來確保偵查目標(biāo)識別的準(zhǔn)確性,既考慮了不同多源數(shù)據(jù)內(nèi)涵屬性之間的兼容性,又合理解決了沖突閾值和概率過高等相關(guān)問題。因此,采用異構(gòu)傳感數(shù)據(jù)融合目標(biāo)識別算法不僅能夠全面降低和減少多源數(shù)據(jù)情報偵查應(yīng)然價值和實際效果之間的差異性,還能夠大幅度提升多源數(shù)據(jù)情報偵查目標(biāo)識別的準(zhǔn)確性和高效性。

(六)數(shù)據(jù)分類壓縮算法

PPM壓縮算法、旋轉(zhuǎn)門算法等傳統(tǒng)數(shù)據(jù)情報偵查算法往往存在有損壓縮的缺陷,已難以滿足多源數(shù)據(jù)驅(qū)動創(chuàng)新時代情報偵查工作的價值需求,所以,需要引入數(shù)據(jù)分類壓縮算法⑥的多源數(shù)據(jù)情報偵查應(yīng)用方法。結(jié)合數(shù)據(jù)分類壓縮算法的價值優(yōu)勢和多源數(shù)據(jù)情報偵查的實際需求導(dǎo)向,可以將多源數(shù)據(jù)情報偵查的數(shù)據(jù)分類壓縮算法分為四個方面。一是多源數(shù)據(jù)的劃分。根據(jù)不同多源數(shù)據(jù)情報源被壓縮的算法平臺設(shè)計,可以將其劃分為多源數(shù)據(jù)的時間戳壓縮和多源數(shù)據(jù)的質(zhì)量碼壓縮兩個部分。其中,多源數(shù)據(jù)的時間戳壓縮主要是尋找和匯集涉案多源數(shù)據(jù)情報源時的時間戳,這不僅能夠提升多源數(shù)據(jù)情報偵查決策的準(zhǔn)確性,而且能夠保障數(shù)據(jù)倉庫構(gòu)建、數(shù)據(jù)集成等多源數(shù)據(jù)情報偵查流程模型的完整性和時序性。而多源數(shù)據(jù)的質(zhì)量碼壓縮是分析判斷對多源數(shù)據(jù)情報源挖掘和分析工作狀態(tài)的質(zhì)量碼,主要包括連續(xù)型、離群型、Bool型等類型。根據(jù)多源數(shù)據(jù)情報偵查的不同情報價值需求,多源數(shù)據(jù)的質(zhì)量碼壓縮可以采取不同的數(shù)據(jù)閾值[0,1]表示其不同的數(shù)據(jù)精度。二是多源數(shù)據(jù)時間戳和質(zhì)量碼的壓縮。先預(yù)置一個多源數(shù)據(jù)時間戳和質(zhì)量碼壓縮的基準(zhǔn)閾值,通過處理其他多源數(shù)據(jù)時間戳和質(zhì)量碼壓縮而獲取兩者之間的數(shù)據(jù)序列差值,并對相等或不相等的多源數(shù)據(jù)時間戳和質(zhì)量碼壓縮之間的差值進(jìn)行記錄和存儲,再采取數(shù)據(jù)節(jié)點匹配的RLE算法⑦完成多源數(shù)據(jù)時間戳和質(zhì)量碼的壓縮目標(biāo)。三是多源數(shù)據(jù)數(shù)值的壓縮。在使用數(shù)據(jù)分類壓縮算法對不同多源數(shù)據(jù)進(jìn)行數(shù)值壓縮的過程中,不但要考慮各數(shù)值壓縮之間的差異性,而且還需要考慮不同多源數(shù)據(jù)之間的類別形態(tài)、內(nèi)涵屬性、數(shù)據(jù)路徑和數(shù)據(jù)距離等。例如,針對不同數(shù)值型多源數(shù)據(jù)之間權(quán)重加權(quán)系數(shù)波動性較小的特點,可以直接對此類型的多源數(shù)據(jù)進(jìn)行數(shù)值壓縮。對于符號型、文本型等不同類型的多源數(shù)據(jù),可以先預(yù)設(shè)一個多源數(shù)據(jù)數(shù)值壓縮的基準(zhǔn)值和固定差值范圍,并對多源數(shù)據(jù)的字典采取初始化操作。同時,根據(jù)不同多源數(shù)據(jù)的記錄和存儲以及其基準(zhǔn)值之間差值的范圍,尋找相對應(yīng)的數(shù)據(jù)節(jié)點字符串索引,再采取LZ78算法⑧等技術(shù)方法完成對多源數(shù)據(jù)數(shù)值的壓縮任務(wù)。四是數(shù)據(jù)分類壓縮算法的性能測試。為了提升多源數(shù)據(jù)情報偵查預(yù)測和決策應(yīng)用的精確性,需要對數(shù)據(jù)分類壓縮的算法進(jìn)行性能測試,主要從多源數(shù)據(jù)時間戳、質(zhì)量碼和數(shù)值壓縮等方面展開檢驗和修正。顯然,相較于傳統(tǒng)的數(shù)據(jù)情報偵查方法,數(shù)據(jù)分類壓縮算法更加能夠滿足多源數(shù)據(jù)情報偵查的應(yīng)用價值需求。多源數(shù)據(jù)情報偵查的數(shù)據(jù)分類壓縮算法兼顧了對涉案多源數(shù)據(jù)挖掘與分析的效率和質(zhì)量,這不僅有利于降低數(shù)據(jù)的收斂耗時和數(shù)值的壓縮時間,還有利于提高多源數(shù)據(jù)情報偵查應(yīng)用的高效性和優(yōu)質(zhì)性。

五、結(jié)語

基于多源數(shù)據(jù)的情報偵查方法是多源數(shù)據(jù)驅(qū)動創(chuàng)新時代的新型數(shù)據(jù)情報偵查方法,并且包括Map-reduce多模態(tài)檢索算法、協(xié)同過濾推薦算法、仿射數(shù)據(jù)傳播聚類算法、圖卷積網(wǎng)絡(luò)多源算法、異構(gòu)傳感數(shù)據(jù)融合目標(biāo)識別算法、數(shù)據(jù)分類壓縮算法等多種多源數(shù)據(jù)情報偵查方法,且不同的多源數(shù)據(jù)情報偵查方法有著不同的算法價值優(yōu)勢。基于此,引入多源數(shù)據(jù)情報偵查方法的研究范式既是必要的,也是及時的。以多源數(shù)據(jù)情報偵查的內(nèi)涵與屬性為研究邏輯起點,提出多源數(shù)據(jù)情報偵查的平臺設(shè)計方案,構(gòu)建多源數(shù)據(jù)情報偵查的流程模型,探討多源數(shù)據(jù)情報偵查的應(yīng)用算法,這不僅有助于提高多源數(shù)據(jù)融合的準(zhǔn)確率和關(guān)聯(lián)聚類的挖掘率,而且能夠增強(qiáng)多源數(shù)據(jù)溯源的客觀性和情報偵查價值應(yīng)用的高效性,從而實現(xiàn)由“等待需要”向“創(chuàng)造需求”轉(zhuǎn)變的應(yīng)然情報偵查價值。

注釋:

①數(shù)據(jù)犯罪情勢主要是通過數(shù)據(jù)對犯罪情勢進(jìn)行描繪,將犯罪情勢諸要素進(jìn)行量化,以數(shù)據(jù)及數(shù)理關(guān)系描繪犯罪情勢,從而為多源數(shù)據(jù)情報偵查提供科學(xué)準(zhǔn)確的數(shù)據(jù)基礎(chǔ)。

②數(shù)據(jù)迭代運(yùn)算是數(shù)據(jù)挖掘分析中的一類典型技術(shù)算法,其原理是先取一個粗糙的數(shù)據(jù)節(jié)點相似度近似值,然后用同一個遞推公式,反復(fù)校正此閾值,直至符合預(yù)定精度要求為止。該算法主要應(yīng)用于BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練、卡爾曼濾波五組核心遞推公式、赫爾默特方差分量估計、拱壩溢流壩計算點位徑向距離等方面。

③所謂權(quán)重加權(quán)系數(shù)是指在數(shù)據(jù)挖掘分析過程中,為了顯示若干數(shù)據(jù)在數(shù)據(jù)倉庫總數(shù)據(jù)源中所具有的重要程度,分別給予不同的比例系數(shù)。權(quán)重加權(quán)系數(shù)主要分為自重權(quán)數(shù)系數(shù)與加重權(quán)數(shù)系數(shù)兩種,權(quán)重加權(quán)系數(shù)閾值的大小與所挖掘分析的目標(biāo)重要程度有關(guān)。

④數(shù)據(jù)適配度主要是通過對數(shù)據(jù)源使用適當(dāng)?shù)腡ransact-SQL語句映射Fill(可更改DataSet中的數(shù)據(jù)以匹配數(shù)據(jù)源中的數(shù)據(jù))和Update(可更改數(shù)據(jù)源中的數(shù)據(jù)以匹配DataSet中的數(shù)據(jù))來提供這一橋梁銜接,從而提高數(shù)據(jù)在SQL Server數(shù)據(jù)庫進(jìn)行挖掘分析的性能和準(zhǔn)確率。

⑤在數(shù)據(jù)被轉(zhuǎn)換和融合后,存在部分?jǐn)?shù)據(jù)不能直接被分配或存儲在數(shù)據(jù)倉庫的數(shù)據(jù)分類器中被挖掘分析的情況,而數(shù)據(jù)分類器往往默認(rèn)數(shù)據(jù)是連續(xù)的,并且是有序的。為了解決上述問題,其中一種典型的解決方法是采用獨熱編碼即One-hot稀疏數(shù)據(jù)矩陣,One-hot稀疏數(shù)據(jù)矩陣方法是使用N位數(shù)據(jù)寄存器來對N個數(shù)據(jù)進(jìn)行編碼,每個數(shù)據(jù)都有獨立的寄存器位,并且數(shù)據(jù)和寄存器隨機(jī)對應(yīng)組合,在任何時候都是一對一有效,即只有一個寄存器位有效,主要具有解決數(shù)據(jù)分類器不好處理屬性數(shù)據(jù)的問題和在一定程度上擴(kuò)充數(shù)據(jù)屬性特征的作用。

⑥數(shù)據(jù)分類壓縮算法是指各種數(shù)據(jù)在被數(shù)據(jù)清洗、數(shù)據(jù)集成等存儲在數(shù)據(jù)分類器之后,采取縮減數(shù)據(jù)量而提高其處理、傳輸、存儲和挖掘分析效率,減少數(shù)據(jù)的冗余和存儲的空間等,并且對壓縮后的數(shù)據(jù)進(jìn)行重構(gòu)(或者叫做還原,解壓縮)后與原來的數(shù)據(jù)完全相同。

⑦RLE(Run LengthEncoding行程編碼)算法是一個簡單高效的無損數(shù)據(jù)壓縮算法,其基本思路是把數(shù)據(jù)看成一個線性序列,而這些數(shù)據(jù)序列組織方式分成兩種情況,一種是連續(xù)的重復(fù)數(shù)據(jù)塊,另一種是連續(xù)的不重復(fù)數(shù)據(jù)塊。對于連續(xù)的重復(fù)數(shù)據(jù)快采用的壓縮策略是用一個字節(jié)表示數(shù)據(jù)塊重復(fù)的次數(shù),然后在這個數(shù)據(jù)重數(shù)屬性字節(jié)后面存儲對應(yīng)的數(shù)據(jù)字節(jié)本身;對于連續(xù)不重復(fù)的數(shù)據(jù)序列,表示方法和連續(xù)的重復(fù)數(shù)據(jù)塊序列的表示方法一樣,只不過前面的數(shù)據(jù)重數(shù)屬性字節(jié)的內(nèi)容為1。

⑧LZ78算法主要通過對輸入緩存數(shù)據(jù)進(jìn)行預(yù)先掃描與它維護(hù)的字典中的數(shù)據(jù)進(jìn)行匹配來實現(xiàn)處理更新后的數(shù)據(jù),在找到字典中不能匹配的數(shù)據(jù)之前它掃描所有的數(shù)據(jù),輸出數(shù)據(jù)在字典中的位置、匹配的長度以及找不到匹配的數(shù)據(jù),并且將結(jié)果數(shù)據(jù)添加到字典中。

猜你喜歡
多源偵查人員情報
ETC拓展應(yīng)用場景下的多源異構(gòu)交易系統(tǒng)
情報
情報
情報
基于GNSS硬件在環(huán)的多源融合定位高逼真仿真方法
偵查人員出庭作證問題研究
法制博覽(2018年19期)2018-01-23 02:10:52
我國偵查人員出庭作證制度的構(gòu)建
偵查人員出庭作證的困境及完善策略
一種利用點特征和互信息的多源遙感影像配準(zhǔn)方法
遙感信息(2015年3期)2015-12-13 07:26:54
交接情報
高碑店市| 霞浦县| 五寨县| 孟津县| 琼海市| 肇州县| 军事| 苍梧县| 包头市| 中宁县| 青浦区| 江口县| 宁波市| 安岳县| 房产| 昆明市| 托克逊县| 揭阳市| 天全县| 黎平县| 皋兰县| 呼和浩特市| 宜城市| 威海市| 阜南县| 苍梧县| 平阴县| 平湖市| 西城区| 得荣县| 江门市| 刚察县| 临武县| 安新县| 安丘市| 子洲县| 武陟县| 肥城市| 临沂市| 龙游县| 奉贤区|