王云峰 寧曉希
摘 要:針對當前刑偵海量檔案數(shù)據(jù)信息,首先在分析其數(shù)據(jù)跨平臺、復雜化和多樣性特點的基礎上,設計了刑偵數(shù)據(jù)倉庫的概念模型、邏輯模型和物理模型;接著針對刑偵數(shù)據(jù)倉庫及數(shù)據(jù)挖掘技術(shù),對已有的刑偵檔案數(shù)據(jù)進行信息整合和數(shù)據(jù)挖掘,獲取大量的有用知識,這些知識在促進刑偵研究工作的同時,對一線的實際刑偵工作具有很大的參考價值;最后,文章給出了面向刑偵檔案數(shù)據(jù)信息的倉庫模型,針對其數(shù)據(jù)挖掘系統(tǒng)框架提出了相應的數(shù)據(jù)挖掘方法,為進一步的刑偵數(shù)據(jù)信息聯(lián)機分析處理和有用信息挖掘以及為公安安全防范決策服務。
關(guān)鍵詞:刑偵數(shù)據(jù)倉庫;模型設計;主題事實表;數(shù)據(jù)挖掘
中圖分類號:TP311.1 文獻標識碼:B
Model Design and Application of Data Mining Based on the Data
Warehouse of Criminal Investigation
WANG Yunfeng1,NING Xiaoxi2
(1.Key Laboratory of Evidence of Science and Technology Research and Application,Institute of Public Security Technology,Gansu Institute of Political Science and Law,Lanzhou 730070,China;
2.Academic Research Division of Gansu Institute of Political Science and Law,Lanzhou 730070,China)
Abstract:Firstly the conceptual model,logic model and physical model of the data warehouse of criminal investigation are analysis and designed by characteristic of the data of criminal investigation;then according to the data warehouse and data mining technology,information integration and data mining on archives of criminal investigation which have been done,and plenty of useful knowledge is obtained,and which might have great value for criminal investigation study and on site work.Last system framework and data mining method based on the data warehouse of criminal investigation have been gave,which beneficial to online analytical processing,useful information mining and public security making.
Keywords:data warehouse of criminal investigation;model design;fact table of theme;data mining
1 引言(Introduction)
目前,隨著社會政治、經(jīng)濟和科學技術(shù)的高速發(fā)展,現(xiàn)代犯罪行為表現(xiàn)出了速度化、智能化、高科技化的特點[1],國際上目前狀況的安全信息化技術(shù)發(fā)展迅猛,公安信息化技術(shù)的發(fā)展使公安刑偵數(shù)據(jù)倉庫模型設計成為刑偵數(shù)據(jù)倉庫研究的核心問題之一,而與數(shù)據(jù)倉庫技術(shù)發(fā)展相輔相成的數(shù)據(jù)挖掘技術(shù),雖然在很多領域的研究取得了進展,但在我國公安刑偵工作的研究中尚處于初級階段[2]。因此,面對我國目前的這種情況,將數(shù)據(jù)挖掘技術(shù)應用于刑偵工作,及時發(fā)現(xiàn)新的規(guī)則,以提高執(zhí)法效率與快速反應能力、及時的預防與打擊犯罪行為,成為公安工作中急需解決的問題[3]。但是公安工作具有其自身的規(guī)律和特殊性,當前在實際刑偵工作中針對公安刑偵數(shù)據(jù)倉庫及其數(shù)據(jù)挖掘算法的應用較少,需要加大對其的研究工作,解決目前面臨的諸多問題。本文首先針對公安刑偵數(shù)據(jù)信息復雜化多樣性的特點,提出利用當前公安現(xiàn)有計算機信息系統(tǒng)資源及其網(wǎng)絡,形成統(tǒng)一標準,將公安各類檔案數(shù)據(jù)信息有機結(jié)合起來,構(gòu)建具有統(tǒng)一標準,覆蓋范圍廣泛,信息準確,反應迅速,各部門相互協(xié)調(diào)運行的跨地區(qū)、跨部門的信息交換和共享平臺,形成用于公安刑偵的數(shù)據(jù)倉庫操作平臺;接著,針對數(shù)據(jù)挖掘技術(shù)在刑偵工作中存在的問題進行了分析研究,并在此基礎上建立一個基于數(shù)據(jù)挖掘技術(shù)的刑偵檔案信息整合及綜合查詢/查證和分析系統(tǒng),幫助一線民警對跨地區(qū)、跨部門的刑偵檔案數(shù)據(jù)進行檢索和挖掘,從已有的刑偵檔案數(shù)據(jù)信息中找出相關(guān)的犯罪線索及規(guī)律,為刑偵檔案數(shù)據(jù)的信息處理提供科學依據(jù),提高整個公安系統(tǒng)的整體協(xié)調(diào)能力和工作效率,有利于進一步的刑偵數(shù)據(jù)信息聯(lián)機分析處理和有用信息挖掘以及為公安安全防范決策服務。
2 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘有關(guān)概念(Relevant concepts
on data warehouse and data mining)
我們知道,數(shù)據(jù)庫是用于事務處理的,而數(shù)據(jù)倉庫是由大量的相關(guān)數(shù)據(jù)集成而來的,是用于決策分析的。數(shù)據(jù)倉庫將大量的數(shù)據(jù)庫的數(shù)據(jù)按決策需求進行統(tǒng)一、綜合和重新組織,然后以數(shù)據(jù)倉庫的形式進行存儲。目前,用于刑偵數(shù)據(jù)倉庫涉及到的數(shù)據(jù)量極為龐大,并且根據(jù)案件的情節(jié)和后果,如何查明案件性質(zhì)、作案過程以及案件反映當事人和社會等相關(guān)更深層次的問題,傳統(tǒng)的數(shù)據(jù)庫數(shù)據(jù)建模方法已經(jīng)顯得過于陳舊,無法適應當前現(xiàn)狀。傳統(tǒng)數(shù)據(jù)庫那種面向事務型分析處理工作的數(shù)據(jù)建模方法顯得力不存心,而數(shù)據(jù)倉庫數(shù)據(jù)的建模是面向數(shù)據(jù)分析為決策提供服務的,它包含大量的歷史數(shù)據(jù)、當前細節(jié)數(shù)據(jù)以及綜合數(shù)據(jù),因此,其采用多維數(shù)據(jù)模型的數(shù)據(jù)建模方法,完成對數(shù)據(jù)倉庫中數(shù)據(jù)的建模和組織。數(shù)據(jù)挖掘是從大量數(shù)據(jù)中,根據(jù)某種算法及規(guī)則,提取出隱藏在數(shù)據(jù)中的有用及人們感興趣的信息,為人們的正確決策提供服務。用數(shù)據(jù)庫管理系統(tǒng)來存儲數(shù)據(jù),用機器學習方法來分析數(shù)據(jù),挖掘大量數(shù)據(jù)背后的知識,這兩者的結(jié)合促成了數(shù)據(jù)挖掘技術(shù)的產(chǎn)生[4,5]。
3 刑偵數(shù)據(jù)倉庫模型設計(Model design on Data
warehouse of criminal investigation)
3.1 概念模型設計
3.1.1 確定主題域及其內(nèi)容
面對目前刑偵數(shù)據(jù)信息的復雜化多樣性,構(gòu)建刑偵數(shù)據(jù)倉庫需要對刑偵數(shù)據(jù)信息特點及對刑偵數(shù)據(jù)倉庫進行具體的研究和分析,需要首先從目前刑偵檔案數(shù)據(jù)的實際情況,將其從現(xiàn)場實際進行具體抽象,也就是將現(xiàn)實的決策分析環(huán)境抽象成一個概念數(shù)據(jù)模型的過程分析。然后,將此概念模型邏輯化[6]。通過分析及研究,刑偵數(shù)據(jù)倉庫中的主題域定義如下,如圖1所示。
圖1 刑偵數(shù)據(jù)倉庫主題域
Fig.1 Subject fields of data warehouse
(1)人員:指刑偵數(shù)據(jù)倉庫中所有案件所涉及到的相關(guān)人員。
人員主題分析:在此處我們將人員分為數(shù)據(jù)倉庫的所有全部人員和涉及到違法犯罪的有關(guān)人員。
(2)物證:指在現(xiàn)場偵查過程中,能夠在依法情況下搜集到的各種客觀存在的物品或痕跡,其外部特征、物質(zhì)屬性、所處位置以及狀態(tài)能夠證明案件事實情況。
物證主題分析:在偵查破案中,物證起著非常關(guān)鍵的作用,對案件的偵破速度、案件性質(zhì)和相關(guān)結(jié)果往往能起到?jīng)Q定的作用。以物證為主題,能為查明案件事實提供線索和依據(jù)的同時,發(fā)現(xiàn)許多相關(guān)隱藏的潛在關(guān)系,對案件的串并、數(shù)據(jù)挖掘及刑偵研究提供支持和保障。
(3)案件:指刑偵業(yè)務數(shù)據(jù)庫內(nèi)所有涉及到的案件。
案件主題分析:案件主題分為未破案件和已破案件兩類,在刑偵工作中案件的偵破是目的,數(shù)據(jù)倉庫中以案件做主題進行數(shù)據(jù)組織,便于對案件進行特性分析統(tǒng)計及數(shù)據(jù)挖掘,可以完成邏輯模型向數(shù)據(jù)倉庫模型轉(zhuǎn)化,為數(shù)據(jù)倉庫概念模型設計、邏輯模型設計和物理模型設計提供了可靠的設計方案。
(4)組織:指刑偵數(shù)據(jù)倉庫中違反犯罪涉案人員所在的組織。
組織主題分析:組織主題分為團伙犯罪,同監(jiān)舍關(guān)系和社會關(guān)系三種類型。組織主題發(fā)現(xiàn)許多相關(guān)隱藏的潛在關(guān)系,有利于案件的串并、數(shù)據(jù)挖掘及刑偵研究。
(5)地域主題:指有關(guān)案件發(fā)生的地域。
地域主題分析:地域主題有利于實際工作中犯罪的預防、現(xiàn)有警力的合理配置和領導的安全防范決策。因為不同的地域違法犯罪具有不同的特性,地域主題使地域性、區(qū)域性的犯罪特征和犯罪趨勢等相關(guān)規(guī)則通過數(shù)據(jù)挖掘得以實現(xiàn)。
3.1.2 確定系統(tǒng)邊界
對于當前刑偵數(shù)據(jù)倉庫的模型設計,必須根據(jù)現(xiàn)實情況,在明確需求分析的情況下,首先要下大工夫?qū)嵉乜疾煺{(diào)研等,確切刑偵案件辦案的整個具體流程,通過流程顯示系統(tǒng)所實現(xiàn)的功能,然后確定系統(tǒng)邊界,如圖2所示。
圖2 刑偵案件辦案流程
Fig.2 Criminal investigative processes
其次通過系統(tǒng)需求分析,明確系統(tǒng)相關(guān)業(yè)務部分的業(yè)務流程和功能需求情況,將刑偵案件辦案流程中所需信息資源和整個案件的所有數(shù)據(jù)信息進行定義,進行數(shù)據(jù)的抽取、轉(zhuǎn)換和裝載,通過E-R模型來實現(xiàn)本刑偵數(shù)據(jù)倉庫的概念模型。數(shù)據(jù)倉庫為不同的用戶隨時提供各種輔助決策的隨機查詢、綜合數(shù)據(jù)或趨勢分析等信息,以數(shù)據(jù)倉庫為基礎,結(jié)合聯(lián)機分析處理和數(shù)據(jù)挖掘為不同目的的決策提供支持。綜合刑偵數(shù)據(jù)倉庫數(shù)據(jù)的多維特性及聯(lián)機分析處理,傳統(tǒng)的數(shù)據(jù)流圖描述已經(jīng)不能滿足需要,因此系統(tǒng)采用多維立方體模型來描述[7]。
3.2 邏輯模型設計
對于刑偵數(shù)據(jù)倉庫的數(shù)據(jù)信息來說,針對其信息組織特點和概念模型的多維特性,一般采取星型模式來實現(xiàn)刑偵案件數(shù)據(jù)集市和刑偵案件數(shù)據(jù)倉庫邏輯模型設計[8],如圖3所示。
圖3 刑偵數(shù)據(jù)倉庫邏輯模型
Fig.3 Logic model of data warehouse
星型模型是由“事實表”(大表)以及多個“維表”(小表)所組成。在該模式中,中間是事實表,周圍是維表。星型模型邏輯模型設計階段,主要進行的工作是針對刑偵數(shù)據(jù)倉庫的事實數(shù)據(jù)進行主題域分析、確定當前要裝載的主題、粒度層次劃分、關(guān)系模式、數(shù)據(jù)分割策略、定義記錄系統(tǒng)等。通過確定決策分析需求,從需求中識別出事實,確定維表等,就可以用包含主題的事實表和多個維表來執(zhí)行偵查、分析及安全防范等決策支持的相關(guān)查詢。具體內(nèi)容如下:
比如針對報警人、受害人及案件操作等的維表:
報警人信息維:報警人身份證號、報警人姓名、報警人性別、報警人電話號碼、報警人年齡、報警人職業(yè)、報警人地址、報警人報警時間等。
受害人信息維:受害人唯一編號、受害人身份證號、受害人姓名、受害人性別、受害人電話號碼、受害人年齡、受害人職業(yè)、受害人地址、受害人物品等。
案件操作歷史維:操作權(quán)限、系統(tǒng)操作序號、案件編號、操作時間、操作記錄、操作人編號或姓名等。
同理也可描述事實信息維表:
案件基本信息維:案件負責人編號、案件編號、報警人姓名、受害人編號、案件登記時間、案件操作號、案件操作記錄等。
案件流程信息表:案件編號、案件當前狀態(tài)、案件操作號、案件操作記錄等。
針對完成的刑偵案件各部分概念結(jié)構(gòu)模塊,需要進一步分析各模塊對刑偵數(shù)據(jù)倉庫總體框架的匹配及功能服務,符合需求分析后就可以進行數(shù)據(jù)倉庫的設計及實現(xiàn),當然,也可以相對獨立的開發(fā)其相關(guān)獨立的或從屬的數(shù)據(jù)集市。眾所周知,就當前的絕大多數(shù)的刑偵數(shù)據(jù)倉庫,其數(shù)據(jù)來源不一而足,有針對一個省或市的信息,也有來自不同的區(qū)域或部門的,更有來自不同平臺或不同系統(tǒng)的。因此,要構(gòu)建數(shù)據(jù)集市或數(shù)據(jù)倉庫,首先要對這些數(shù)據(jù)進行統(tǒng)一的規(guī)格化處理,經(jīng)過統(tǒng)一的格式對數(shù)據(jù)進行抽取、清洗、轉(zhuǎn)換及裝載等過程,才能構(gòu)成數(shù)據(jù)集市;而相關(guān)獨立的或從屬的數(shù)據(jù)集市的完成,可升級到完整的刑偵數(shù)據(jù)倉庫。
3.3 物理模型設計
從邏輯模型即星型模型到物理模型設計的轉(zhuǎn)換完全遵循傳統(tǒng)的數(shù)據(jù)庫設計方法。針對刑偵數(shù)據(jù)倉庫的數(shù)據(jù),其物理模型設計需要確定一個最適合應用要求的物理結(jié)構(gòu),即估計存儲容量、確定數(shù)據(jù)的存儲計劃、確定索引策略、確定數(shù)據(jù)存放位置及確定存儲分配等。在星型模型中,不管是其綜合事實表還是其維表,一般情況下都是轉(zhuǎn)變?yōu)閷奈锢頂?shù)據(jù)庫表進行存儲,但由于刑偵數(shù)據(jù)倉庫的綜合事實表包含涉案案件的眾多基本信息,其數(shù)據(jù)量龐大,而其維表雖然包含各方面的具體細節(jié)信息(如受害人信息),但其數(shù)據(jù)量相對來說不是很大,因此在物理模型設計過程中,完成前面描述有關(guān)內(nèi)容外,還需要認真解決多維數(shù)據(jù)庫管理系統(tǒng)對數(shù)據(jù)的訪問的效率及靈活程度,所以要用多種數(shù)據(jù)挖掘方法對數(shù)據(jù)進行切片、分割、鉆取和旋轉(zhuǎn)等,以便動態(tài)地考察匯總數(shù)據(jù)和細節(jié)數(shù)據(jù)的關(guān)系,為安全防范決策提供技術(shù)支持。
目前,高速存儲設備(如硬盤)已成為主要存儲媒介,其存取速度不但與數(shù)據(jù)存放的位置有關(guān),而且還與存儲設備本身的存取速度有關(guān)。因此,對于刑偵數(shù)據(jù)倉庫中其記錄龐大的事實表,其涉案案件的基本數(shù)據(jù)信息按其多維性可以考慮分區(qū)存放,而反映其細節(jié)數(shù)據(jù)的各種維表,則可以比較集中的存放于相對獨立的某個表空間。一般情況下還必須建立相關(guān)表的索引,但索引也是在消耗大量的磁盤空間的基礎上,提高數(shù)據(jù)的讀取速度,同時,索引也會帶來數(shù)據(jù)更新速度降低的問題。因此不同系統(tǒng)物理模型設計應根據(jù)具體的硬件環(huán)境和決策需求合理地進行選擇,在首先要保證數(shù)據(jù)倉庫穩(wěn)定性及有效滿足倉庫應用者需求的基礎上,盡量減少有用信息獲取時間,提高數(shù)據(jù)倉庫的應用效率,為進一步的刑偵數(shù)據(jù)挖掘或相關(guān)決策指揮服務。綜上所述,針對公安數(shù)據(jù)信息分布性共享的特點,刑偵數(shù)據(jù)倉庫物理模型一般采取分布存儲方式。
4 刑偵數(shù)據(jù)倉庫的數(shù)據(jù)挖掘(Data mining on Data
warehouse of criminal investigation)
對于刑事案件信息數(shù)據(jù)倉庫的數(shù)據(jù)挖掘,首先要明確數(shù)據(jù)挖掘的任務或目的,如要進行數(shù)據(jù)的分類、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)或序列模式發(fā)現(xiàn)等達到什么樣的目的。目前,我們可以分別進行犯罪嫌疑人基本信息、作案規(guī)律特點有關(guān)信息、損失物品信息、現(xiàn)場痕跡物證信息等的數(shù)據(jù)挖掘,同時,如果與被盜搶機動車信息和CCIC(中國國家犯罪信息中心)連接的話,將可以進行更深層次的數(shù)據(jù)挖掘。有了確定的數(shù)據(jù)挖掘目的,才能針對其挖掘任務有選擇性地決定使用什么樣的挖掘算法才能達到更好的目的。比如對于犯罪嫌疑人信息的數(shù)據(jù)挖掘,我們可以對數(shù)據(jù)進行切片、分割、鉆取和旋轉(zhuǎn)等操作,進行作案規(guī)律特點庫和現(xiàn)場痕跡物證庫等的信息分析比對,實施相應的數(shù)據(jù)挖掘算法,獲取有用的模式,為打擊違反犯罪及公安安全防范提供決策服務。刑偵數(shù)據(jù)倉庫的數(shù)據(jù)挖掘方法如圖4所示。
圖4 刑偵數(shù)據(jù)倉庫的數(shù)據(jù)挖掘
Fig.4 Data mining on data warehouse
5 結(jié)論(Conclusion)
隨著犯罪信息的數(shù)字化和網(wǎng)絡化,在現(xiàn)代刑事偵查及公安工作中,利用數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)進行偵查破案,運用系統(tǒng)科學優(yōu)化數(shù)據(jù)倉庫以及多層多目標交互式?jīng)Q策建立和優(yōu)化數(shù)據(jù)倉庫等,顯得越來越重要;而將數(shù)據(jù)挖掘技術(shù)這門新興科學有效地應用于刑偵工作不但是順應潮流,而且是目前公安工作現(xiàn)實斗爭的迫切需要。在我們實際的刑事偵查工作中,各地區(qū)一線的刑偵部門已經(jīng)積累了大量的刑偵檔案文件,這些數(shù)據(jù)通過刑偵數(shù)據(jù)倉庫的模型設計,實施其跨平臺的海量數(shù)據(jù)的信息整合和數(shù)據(jù)挖掘,然后就可以獲取大量的有用知識,這些知識不僅對于刑偵研究還是對于一線的刑偵工作,具有非常深刻的科學理論意義和重要的實用價值。本文針對刑偵檔案數(shù)據(jù),對刑偵數(shù)據(jù)倉庫模型設計和數(shù)據(jù)挖掘進行了初步的探討,同時,面向刑偵數(shù)據(jù)倉庫,給出了刑偵數(shù)據(jù)挖掘的系統(tǒng)框架及挖掘方法。我們將針對刑事偵查研究與實際工作中的一些實際問題,在未來的研究中,逐步完善試驗平臺,結(jié)合科學技術(shù)的發(fā)展,嘗試給出不同的解決方案,進一步深入研究相關(guān)算法在實際中的應用。
參考文獻(References)
[1] 李小青.論公安刑偵數(shù)據(jù)倉庫建模[J].廣州市公安管理干部學
院學報,2008,67(1):18-24.
[2] 黃維金,顧益軍.刑偵檔案文本挖掘系統(tǒng)平臺中的文本精煉初
探[J].中國人民公安大學學報(自然科學版),2006,48(2):75-77.
[3] 張輝.數(shù)據(jù)挖掘技術(shù)及其在刑偵工作中的應用[J].信息技術(shù)與
信息化開發(fā)與應用,2005,4:111-113.
[4] 麥永浩.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘方法研究及其在公安信息建設
中的應用[D].華東理工大學博士學位論文.2000:102-105.
[5] 李敬社,張小木,黃澤貴.數(shù)據(jù)挖掘技術(shù)的方法和最新進展[J].
現(xiàn)代電子技術(shù),2004,(6):54-56.
[6] 陳海燕.基于HIS的數(shù)據(jù)倉庫的建設及數(shù)據(jù)挖掘[D].2004.6-10.
[7] 金光,等.基于數(shù)據(jù)挖掘決策樹的犯罪風險預測模型[J].計算
機工程與應用,2003,2:112-114.
[8] 金光,等.數(shù)據(jù)挖掘技術(shù)在犯罪行為分析中的應用[J].寧波大
學學報(理工版),2002,15(3):56-58.
作者簡介:
王云峰(1968-),男,工學博士,副教授.研究領域:公安技
術(shù),模式識別,智能控制,信息安全.
寧曉希(1972-),男,工學碩士,講師.研究領域:網(wǎng)絡安
全,信息安全.