胡幸杰
摘要:該文根據(jù)市公安局的需求建立PGIS綜合查詢系統(tǒng),介紹了PGIS綜合查詢系統(tǒng)的設(shè)計(jì)。著重介紹了基于向量空間的方法對(duì)海量數(shù)據(jù)庫(kù)的分析研究,對(duì)往常案件進(jìn)行分析,找出與當(dāng)前案件相類似的案件,使警方對(duì)案件做出正確的判斷,讓公安機(jī)關(guān)第一時(shí)間有效地預(yù)防和打擊罪犯,從而快速破案。
關(guān)鍵詞:PGIS;相似度;案件
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)04-0063-03
Abstract: According to the demand of the city public security bureau to build PGIS comprehensive query system, this paper introduces the design of PGIS integrated query system. Introducing the vector space method to analysis and study of massive databases,analyzing the usual case, finding out similar case to the current case .It can help the police to judge the case, make the public security organ effectively preventing and cracking down on criminals, make the police to solve problems at the first time.
Key words: PGIS; Similarity; Case
隨著電子信息的快速發(fā)展,計(jì)算機(jī)辦公占據(jù)了公安機(jī)關(guān)主要的辦公方法,隨著案件的增加,數(shù)據(jù)庫(kù)中的數(shù)據(jù)量也越來(lái)越大,面對(duì)大量的數(shù)據(jù)庫(kù),警務(wù)人員無(wú)從下手,可是這大量的數(shù)據(jù)庫(kù)中包含了很多重要的信息,若人為的從中找出有用信息來(lái)幫助破案,等同于大海撈針。數(shù)據(jù)挖掘技術(shù)可以很好的解決這個(gè)問(wèn)題,它可以很快很準(zhǔn)確的在海量的數(shù)據(jù)庫(kù)中發(fā)現(xiàn)我們想要尋找的東西,挖掘出一些潛在的信息,通過(guò)這些信息可以幫助警務(wù)人員破案。根據(jù)案件的實(shí)際情況,警用會(huì)對(duì)周邊進(jìn)行盤查,人為的盤查可能會(huì)出現(xiàn)漏查、重查的現(xiàn)象,在PGIS中可以很好案件周邊情況有很好的掌握,所以PGIS查詢系統(tǒng)的建設(shè)迫在眉睫。
1 PGIS綜合查詢系統(tǒng)設(shè)計(jì)
1.1 案件查詢
結(jié)合關(guān)系數(shù)據(jù)庫(kù)和圖層文件實(shí)現(xiàn)通過(guò)案件相關(guān)屬性對(duì)案件進(jìn)行空間定位和基本信息展示,并可對(duì)案件進(jìn)行周邊查詢(可自定義查詢范圍0-2000米),包括網(wǎng)吧、旅館、盤查查詢、視頻查詢、重點(diǎn)人員查詢等。網(wǎng)吧查詢不僅可以查詢出周邊網(wǎng)吧的信息,同時(shí)也支持查詢上網(wǎng)記錄,旅館周邊查詢具有同樣的功能。盤查查詢可以查詢出周邊出現(xiàn)過(guò)得可疑人員,幫助警方快速鎖定人員。重點(diǎn)人員可以根據(jù)時(shí)間段查詢出在案件周邊一定范圍內(nèi)出現(xiàn)過(guò)得重點(diǎn)人員,并能展示它們的前科信息。
1.2 盤查查詢
支持屬性查詢和空間查詢相結(jié)合的查詢方法??梢粤私獾侥骋坏貐^(qū)盤查情況。同時(shí)支持查詢某警員的在某時(shí)間段內(nèi)盤查采集的情況,是公安機(jī)關(guān)考察業(yè)績(jī)的重要指標(biāo)之一。
1.3 網(wǎng)吧查詢
同樣支持屬性查詢和空間查詢相結(jié)合的查詢方法,對(duì)某一地區(qū)的網(wǎng)吧分布情況進(jìn)行了解??刹樵兂瞿硶r(shí)間段內(nèi)上網(wǎng)人員信息。可根據(jù)相關(guān)屬性進(jìn)行上網(wǎng)人員軌跡查詢,在PGIS中展示出上網(wǎng)人員的一個(gè)詳細(xì)的軌跡圖。幫助警務(wù)人員掌握人員的活動(dòng)軌跡。
1.4 旅館查詢
擁有與網(wǎng)吧相同的功能。
1.5 案件相似度查詢
PGIS綜合查詢系統(tǒng)旨在結(jié)合屬性查詢和空間查詢?cè)赑GIS中查詢出案件、網(wǎng)吧、旅館、視頻等信息,并在PGIS中展現(xiàn)且定位其位置。網(wǎng)吧查詢中上網(wǎng)記錄查詢可以查詢出上網(wǎng)人員上網(wǎng)記錄,并可在PGIS中展現(xiàn)其上網(wǎng)軌跡,幫助警務(wù)人員對(duì)人員進(jìn)行分析。旅館查詢中的住宿記錄查詢具有同樣的功能。利用周邊查詢系統(tǒng)可對(duì)案件周邊進(jìn)行相關(guān)性的查詢,包括網(wǎng)吧、旅館、公安視頻、盤查查詢以及重點(diǎn)人員查詢。通過(guò)網(wǎng)吧查詢和旅館查詢可以查詢出上網(wǎng)人員信息和住宿人員信息。通過(guò)重點(diǎn)人員查詢可以快速查找出曾在那件周邊出現(xiàn)過(guò)得重點(diǎn)人員,并可查詢重點(diǎn)人員的犯罪前科。通過(guò)這一系列的設(shè)計(jì),警務(wù)人員可以快速的對(duì)案件有個(gè)大概的掌控,對(duì)其周邊情況有所了解,可以針對(duì)查詢結(jié)果進(jìn)行排查,達(dá)到不錯(cuò)不漏不重的效果。
2 案件相似度設(shè)計(jì)
2.1 文本分詞
由于市公安局的犯罪數(shù)據(jù)庫(kù)中簡(jiǎn)要案情中包含了簡(jiǎn)要的案件描述,所以案件的大部分信息都是以文本的形式存放在數(shù)據(jù)庫(kù)中,所以需要對(duì)這個(gè)字段進(jìn)行文本相似度分析,確定相似程度。
首先需要將簡(jiǎn)要案情進(jìn)行分詞,將其轉(zhuǎn)換成一個(gè)個(gè)詞條。當(dāng)前中文分詞算法主要可以分為三大類:基于詞典的方法、基于統(tǒng)計(jì)的方法、基于規(guī)則的方法[3]。該文中對(duì)簡(jiǎn)要案情的分詞采用中國(guó)科學(xué)院計(jì)算技術(shù)研究所研發(fā)的NLPIR(原ICTCLAS)系統(tǒng),該系統(tǒng)主要包括中文分詞、詞性標(biāo)注、新詞識(shí)別、同時(shí)支持用戶詞典等功能。分詞速度為500kb/s,分詞精度超過(guò)大部分中文分詞,可以達(dá)到98.45%,是世界上最好用的漢語(yǔ)詞法分析器[6]。
分詞后有很多與案件無(wú)關(guān)的詞語(yǔ)(如連詞,副詞,標(biāo)點(diǎn)符號(hào)等)對(duì)案件分析的影響非常大,而且在大部分文本中都會(huì)出現(xiàn),這時(shí)我們應(yīng)該在分詞后對(duì)這些詞句進(jìn)行過(guò)濾,將文本中出現(xiàn)的連詞、副詞等一些與案件無(wú)關(guān)的詞刪除,這樣可以提高判斷的準(zhǔn)確性。
2.2 建模
要進(jìn)行挖掘必須將文本詞匯轉(zhuǎn)換成計(jì)算機(jī)能夠識(shí)別的語(yǔ)言,必須對(duì)文本詞匯進(jìn)行建模,常用的方法有向量空間模型、概率模型、語(yǔ)言模型[7]。
向量空間模型很好的將自然語(yǔ)言轉(zhuǎn)換成數(shù)學(xué)模型,將自然語(yǔ)言轉(zhuǎn)換成一個(gè)個(gè)詞條對(duì)應(yīng)于多維空間中的點(diǎn),從而轉(zhuǎn)換成多維空間中兩個(gè)向量之間的比較。當(dāng)然向量空間也存在他的局限性,它沒(méi)有考慮到文本的語(yǔ)義順序,在長(zhǎng)篇的文章之中,語(yǔ)義順序很重要,兩句話詞一樣順序不一樣意思也就不一樣了。公安機(jī)關(guān)的簡(jiǎn)要案情為對(duì)案件經(jīng)過(guò)的大致描述,一般為一兩句話,使用向量空間模型是最好的選擇。
通過(guò)大量的試驗(yàn)測(cè)試結(jié)果可知該應(yīng)用程序的相似度計(jì)算比較接近人工判斷的結(jié)果,符合公安機(jī)關(guān)的要求。
4 結(jié)束語(yǔ)
本系統(tǒng)能很準(zhǔn)確的將案件定位到地圖中,并展示案件的信息,對(duì)軌跡的展現(xiàn)非常清晰明了,可以很好的幫助警務(wù)人員掌握案件信息,以及案件周邊的環(huán)境,人員的活動(dòng)路徑,對(duì)后期的排查、詢問(wèn)有很大的幫助。在周邊查詢中可以顯示案件周邊重點(diǎn)人員信息,分析出案件的相似案件,可以加速破案效率。通過(guò)公安機(jī)關(guān)一段時(shí)間的運(yùn)行,證明該系統(tǒng)是完全可行的。
參考文獻(xiàn):
[1] PGIS平臺(tái)服務(wù)二次開(kāi)發(fā)手冊(cè)[Z].公安部信息中心.2011
[2] Piatetsky-Shapiro,F(xiàn)rawley,Knowledge Discovery in Database[M] .MIT Press.
[3] 科顯毅,朱倩.文本挖掘[M].北京:科學(xué)出版社,2010.
[4] 邵峰晶,丁忠清,王金龍,等.數(shù)據(jù)挖掘原理與算法[M]. 2版. 北京:科學(xué)出版社,2009.
[5] 徐洪波,程學(xué)旗,王斌,等.文本挖掘與機(jī)器學(xué)習(xí)[J].信息技術(shù)快報(bào),2005,3(2):1-3
[6] 中科院.自然語(yǔ)言處理與信息檢索共享平臺(tái)[EB/OL].http://ictclas.nlpir.org/docs.
[7] 許洪波,程學(xué)旗,王斌,等.文本挖掘與機(jī)器學(xué)習(xí)[J].信息技術(shù)快報(bào),2005,3(2):1-3.
[8] 楊振瑜,王效岳,白如江. 國(guó)外主要可視化數(shù)據(jù)挖掘開(kāi)源軟件的比較分析研究 [J].圖書(shū)館理論與實(shí)踐,2013(5).