国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于python中文分詞的卷宗信息邏輯研究

2021-04-20 14:38裴炳森張新宇邢欣濤王銘杰
關(guān)鍵詞:筆錄流程圖分詞

◆裴炳森 張新宇 邢欣濤 王銘杰

基于python中文分詞的卷宗信息邏輯研究

◆裴炳森 張新宇 邢欣濤 王銘杰

(中國(guó)人民公安大學(xué)信息網(wǎng)絡(luò)安全學(xué)院 北京 102623)

詢問(wèn)/訊問(wèn)筆錄是公安工作目前使用較多的文本材料,然而在實(shí)際調(diào)研和實(shí)習(xí)中發(fā)現(xiàn)卷宗有錄入筆誤和不合邏輯等問(wèn)題。卷宗送交至檢察院時(shí)往往被駁回?cái)?shù)次修改,除了送檢程序等問(wèn)題外,由于一些主客觀因素,導(dǎo)致筆錄信息需要經(jīng)常性的反復(fù)查驗(yàn),輕則增加了工作量,嚴(yán)重則造成案卷信息錯(cuò)誤。本文基于python中文分詞的Jieba組件對(duì)筆錄內(nèi)容進(jìn)行文本分析,提取時(shí)間、地點(diǎn)、事件等關(guān)鍵詞,并與標(biāo)準(zhǔn)庫(kù)進(jìn)行比對(duì),提示并糾正錯(cuò)誤并生成流程圖,有效減少了民警工作量,對(duì)一線執(zhí)法有較好的實(shí)際作用。

筆錄卷宗;文本分析;Jieba組件;一線執(zhí)法

在文本分析方面,國(guó)外對(duì)英文文本提取信息的研究較為成熟,例如STALKER、WHISK、SRV等系統(tǒng),對(duì)英文文本信息提取效率較高。與英文文本信息提取技術(shù)相比,由于漢語(yǔ)語(yǔ)法復(fù)雜,中文文本分析技術(shù)相對(duì)滯后。但是近年來(lái)中文互聯(lián)網(wǎng)文本數(shù)據(jù)指數(shù)上升,針對(duì)其的文本分析也漸漸發(fā)展并應(yīng)用。文獻(xiàn)[1-2]利用python研究了中文文本分析以及構(gòu)建了可視化平臺(tái),文獻(xiàn)[4-5]使用Python中的結(jié)巴工具進(jìn)行了分詞研究和技術(shù)實(shí)現(xiàn)。

隨著文本分析在各個(gè)領(lǐng)域逐漸應(yīng)用,如文獻(xiàn)[6]在教育領(lǐng)域進(jìn)行了文本情感分析探索,文獻(xiàn)[7]將文本分析服務(wù)于疫情防控。然而在公安工作的應(yīng)用較少。隨著數(shù)據(jù)警務(wù)的發(fā)展,應(yīng)該充分利用公安筆錄這一數(shù)據(jù)以更好的打擊辦案。為使公安工作更加高效準(zhǔn)確,結(jié)合實(shí)際調(diào)研發(fā)現(xiàn)公安工作卷宗筆錄仍需人工多次反復(fù)審核。受主客觀不同因素影響,會(huì)有“犯罪發(fā)生時(shí)長(zhǎng)”錄入錯(cuò)誤,“距離”與“時(shí)間”不匹配等信息錯(cuò)誤問(wèn)題,例如某兩地之間相距20公里,駕車(chē)大概20~30分鐘,而筆錄中卻出現(xiàn)5min的現(xiàn)象。本文針對(duì)現(xiàn)存問(wèn)題首先設(shè)立自己的標(biāo)準(zhǔn)比對(duì)條件,著眼于訊問(wèn)/詢問(wèn)筆錄中的關(guān)鍵詞,基于python環(huán)境的Jieba工具進(jìn)行中文分詞和關(guān)鍵詞提取,通過(guò)事先爬取的知識(shí)庫(kù)與筆錄信息進(jìn)行比對(duì),智能檢測(cè),最后根據(jù)筆錄內(nèi)容生成流程圖,自動(dòng)提示錯(cuò)誤信息,以達(dá)到避免重復(fù)核查的目的。

1 卷宗信息分析原理

1.1 中文分詞和關(guān)鍵詞提取

本文基于python的Jieba組件利用隱馬爾卡夫模型(HMM),TF-IDf和TextRank算法,構(gòu)建VSM向量空間模型,實(shí)時(shí)計(jì)算并智能核對(duì),是針對(duì)案件信息的大膽嘗試。對(duì)于地理位置信息,首先依據(jù)圖1所示的 Viterbi 算法,通過(guò)訓(xùn)練出隱馬爾科夫(HMM)相關(guān)的模型,然后進(jìn)行求解,得到最優(yōu)的狀態(tài)序列,最后通過(guò)深度學(xué)習(xí)輸出分詞結(jié)果。同時(shí)融合基于頻率的TF-IDF算法和基于排序的TextRank算法綜合運(yùn)用提取關(guān)鍵詞,構(gòu)建VSM向量空間模型。Jieba庫(kù)提供了三種模式的分詞方式,針對(duì)筆錄的特征,本文主要采用精確模式進(jìn)行分詞,如下所示為“從南城縣家園小區(qū)110號(hào)樓出來(lái),通過(guò)駕車(chē)至天天市場(chǎng)在李翠花家盜竊得到的手機(jī)”的分析源碼。

import jieba.analyse

#導(dǎo)入自定義詞典

jieba.load_userdict("./dic.txt")

#精確模式

text="從南城縣家園小區(qū)110號(hào)樓出來(lái),通過(guò)駕車(chē)至天天市場(chǎng)在李翠花家盜竊得到的手機(jī)"

seg_list = jieba.cut(text, cut_all = False)

print(u"分詞結(jié)果:")

print(",".join(seg_list))

#獲取關(guān)鍵詞

tags = jieba.analyse.extract_tags(text,topK=5)

print(u"關(guān)鍵詞:")

print(" ".join(tags))

圖1 Viterbi 算法處理流程

1.2 知識(shí)庫(kù)搭建

公安工作筆錄分析需要極其豐富的知識(shí)庫(kù),在對(duì)地理位置分析中通過(guò)Python爬蟲(chóng)工具首先向“高德地圖”發(fā)送Request,申請(qǐng)”Web服務(wù)API”密鑰,拼接HTTP請(qǐng)求URL;然后正常獲取到Response后接收HTTP請(qǐng)求返回的數(shù)據(jù)響應(yīng)體,轉(zhuǎn)化為Json格式。如下為解析數(shù)據(jù)部分源碼。利用網(wǎng)絡(luò)爬蟲(chóng)將整個(gè)目標(biāo)數(shù)據(jù)獲取后轉(zhuǎn)化為文本信息,形成一個(gè)可進(jìn)行比對(duì)的信息庫(kù),并進(jìn)一步對(duì)數(shù)據(jù)進(jìn)行挖掘處理,為數(shù)據(jù)提供最為基本的支撐[9]。如圖2、圖3所示為獲取的縣級(jí)行政區(qū)域點(diǎn)狀圖和詳細(xì)信息。將含有更詳細(xì)的地名信息、距離信息、往返時(shí)間信息的知識(shí)庫(kù)應(yīng)用于筆錄處理。知識(shí)庫(kù)的構(gòu)建對(duì)于筆錄錯(cuò)誤信息有重要的參考作用,在依據(jù)地理位置和時(shí)間信息做出分析時(shí),要考慮客觀實(shí)際因素于案情實(shí)際狀況。后續(xù)再根據(jù)實(shí)際工作需要和以往的筆錄信息構(gòu)建出“交通工具庫(kù)”、“作案類型庫(kù)”、“作案工具庫(kù)”等知識(shí)庫(kù)便于進(jìn)一步文本分析。

def get_json(url):

# 讀取數(shù)據(jù)

uh = urllib.request.urlopen(url)

data = uh.read().decode()

# 解析數(shù)據(jù)

try:

json_data = json.loads(data)

except:

json_data = None

if not json_data or 'status' not in json_data or json_data['status'] != 0:

print('json數(shù)據(jù)獲取失敗')

else:

#輸出Json數(shù)據(jù)

print(json.dumps(json_data, indent=4, ensure_ascii=False))

return json_data

圖2 點(diǎn)狀圖

圖3 縣級(jí)行政區(qū)域信息

1.3 被訊問(wèn)人行動(dòng)流程可視化

在生成流程圖時(shí),引入wordcloud和matplotlib庫(kù)、安裝Graphviz[10]賦予關(guān)鍵詞相應(yīng)的節(jié)點(diǎn)屬性、連接線屬性等屬性信息。根據(jù)提取到的地理、時(shí)間信息等關(guān)鍵詞,由地理信息知識(shí)庫(kù)分析兩者距離,通過(guò)時(shí)間智能校對(duì)檢測(cè)。后續(xù)需要對(duì)交通工具、作案手段等關(guān)鍵詞同時(shí)提取并分析。根據(jù)筆錄內(nèi)容生成被詢問(wèn)/訊問(wèn)人活動(dòng)流程可視化報(bào)告,將有助于理清案件線索,檢查是否出現(xiàn)不匹配問(wèn)題,并且?guī)椭笃诩m錯(cuò)。如圖4所示為可視化處理流程。

圖4 可視化處理流程

1.4 卷宗智能比對(duì)

根據(jù)實(shí)際案件要素與筆錄中的錄入信息進(jìn)行比對(duì),發(fā)現(xiàn)錯(cuò)誤并且提示。并由關(guān)鍵要素(時(shí)間,事件,地點(diǎn),交通工具)生成流程圖。例如:計(jì)算A地到B地的距離,依據(jù)程序依賴的知識(shí)庫(kù),統(tǒng)計(jì)不同交通工具時(shí)間范圍,與筆錄中獲取的作案工具關(guān)鍵詞和時(shí)間關(guān)鍵詞進(jìn)行比對(duì),若不在合理范圍內(nèi),提示錯(cuò)誤信息,并提示合理的時(shí)間范圍。最后完成中文分詞,作案信息提取,錯(cuò)誤信息提示,并生成流程圖。如圖5所示為智能比對(duì)流程。

圖5 處理流程

2 實(shí)驗(yàn)

2.1 數(shù)據(jù)源

結(jié)合實(shí)際調(diào)研與實(shí)習(xí)經(jīng)驗(yàn),數(shù)據(jù)源以模擬的公安工作筆錄進(jìn)行訓(xùn)練,數(shù)據(jù)都經(jīng)過(guò)處理不涉及任何公安秘密。本文以強(qiáng)奸、盜竊為作案類型,汽車(chē)為作案交通工具以及構(gòu)造的地理位置為模型進(jìn)行分析。

2.2 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)環(huán)境為Windows10操作系統(tǒng)、4G運(yùn)行內(nèi)存、Python環(huán)境。導(dǎo)入Jieba、tkinter、python_docx-0.8.10-py2.py3-none-any.whl、wordcloud、matplotlib等庫(kù)并安裝Graphviz。

Python提供IDE工具,Jieba作為第三方中文分詞庫(kù),tkinter庫(kù)用于程序窗口化,docx庫(kù)引入文本文件,wordcloud、matplotlib和Graphviz用于生成流程圖并且展示。

2.3 實(shí)驗(yàn)方法

首先加載程序打開(kāi)需要的分析筆錄,根據(jù)應(yīng)用的知識(shí)庫(kù),使用Jieba工具進(jìn)行分詞,完成了分詞檢測(cè)后提取作案信息。根據(jù)知識(shí)庫(kù)比對(duì)完成了錯(cuò)誤信息提示,最后根據(jù)筆錄信息生成了流程圖得到了智能分析結(jié)果。根據(jù)比對(duì)信息,一線民警能夠快速知曉被訊問(wèn)/詢問(wèn)人言語(yǔ)間的邏輯漏洞,使案件進(jìn)展相對(duì)較為清晰,從而做出正確的預(yù)測(cè)和判斷,同時(shí)避免了人為錄入錯(cuò)誤,減小了工作量。

2.4 實(shí)驗(yàn)結(jié)果

對(duì)筆錄進(jìn)行Jieba分詞檢測(cè)后如圖6所示。其中根據(jù)分詞結(jié)果提取到的作案信息和錯(cuò)誤信息如表1和表2所示。最后生成的流程圖如圖7所示。

圖6 筆錄分詞結(jié)果

圖7 流程圖生成

表1 作案信息

表2 錯(cuò)誤信息

3 結(jié)語(yǔ)

本文基于Python中文分詞的Jieba工具對(duì)公安工作筆錄進(jìn)行了分析,結(jié)合部分加載的知識(shí)庫(kù),經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,有效完成了分詞,作案信息提取,錯(cuò)誤信息提示,并生成流程圖等功能。公安工作是一項(xiàng)嚴(yán)謹(jǐn)且工作量巨大的任務(wù),該項(xiàng)目提供了筆錄智慧分析的設(shè)想和雛形。為更好全面應(yīng)用于公安實(shí)戰(zhàn),還需要用大量的數(shù)據(jù)進(jìn)行訓(xùn)練。同時(shí)出于公安工作的特殊性,完備知識(shí)庫(kù)的建立應(yīng)該基于公安內(nèi)網(wǎng)PGIS[11]的信息以及實(shí)時(shí)或定期的數(shù)據(jù)更新。

[1]宋永生,黃蓉美,王軍.基于Python的數(shù)據(jù)分析與可視化平臺(tái)研究[J].現(xiàn)代信息科技,2019,3(21):7-9.

[2]祝永志,荊靜.基于Python語(yǔ)言的中文分詞技術(shù)的研究[J].通信技術(shù),2019,52(07):1612-1619.

[3]李澤,古超,龍政.基于Python的文本分析方法研究[J].電腦編程技巧與維護(hù),2018(04):25-26+51.

[4]曾小芹.基于Python的中文結(jié)巴分詞技術(shù)實(shí)現(xiàn)[J].信息與電腦(理論版),2019,31(18):38-39+42.

[5]徐博龍.應(yīng)用Jieba和Wordcloud庫(kù)的詞云設(shè)計(jì)與優(yōu)化[J].福建電腦,2019,35(06):25-28.

[6]歐陽(yáng)元新,王樂(lè)天,李想,蒲菊華,熊璋.教育領(lǐng)域反饋文本情感分析方法及應(yīng)用研究[J].計(jì)算機(jī)教育,2020(06):80-84.

[7]李燕萍,陳文.后疫情時(shí)代我國(guó)人力資源服務(wù)業(yè)發(fā)展轉(zhuǎn)型:基于疫情防控常態(tài)化下人力資源服務(wù)政策文本分析[J].中國(guó)人力資源開(kāi)發(fā),2020,37(10):18-32.

[8]謝春艷.基于python的Flickr地理標(biāo)簽照片信息的爬蟲(chóng)[J].電腦與信息技術(shù),2019,27(06):39-41.

[9]繆治,任敏敏.基于網(wǎng)絡(luò)爬蟲(chóng)的地理空間信息采集方法[J].電腦知識(shí)與技術(shù),2019,15(18):9-10.

[10]張偉欣. 基于Graphviz的ProM模式提取插件圖形系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].哈爾濱工業(yè)大學(xué),2015.

[11]田野,楊帆,胡磊,易民盛.大數(shù)據(jù)環(huán)境下警用地理信息系統(tǒng)運(yùn)維方案的研究[J].科學(xué)技術(shù)創(chuàng)新,2019(30):69-71.

猜你喜歡
筆錄流程圖分詞
總覺(jué)得哪里有問(wèn)題
分詞在英語(yǔ)教學(xué)中的妙用
結(jié)巴分詞在詞云中的應(yīng)用
結(jié)巴分詞在詞云中的應(yīng)用
陳述申辯筆錄的格式規(guī)范
女神筆錄
寧??h村級(jí)權(quán)力清單36條
《天津醫(yī)藥》稿件處理流程圖
《天津醫(yī)藥》稿件處理流程圖
《天津醫(yī)藥》稿件處理流程圖