国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

涉黑涉惡類警情的特征分析方法研究

2020-07-14 02:36:06邱明月崔年冬
法制與社會 2020年18期
關(guān)鍵詞:自然語言處理警情

邱明月 崔年冬

關(guān)鍵詞 自然語言處理 涉黑涉惡 警情 Python I2

基金項目:中央高?;究蒲袠I(yè)務(wù)費專項資金項目:基于NLP的涉黑涉惡警情的特征分析與可視化研究(編號:LGYB2 02012)。

作者簡介:邱明月,南京森林警察學院,講師,博士,研究方向:數(shù)據(jù)挖掘、公安情報學;崔年冬,南京森林警察學院公安情報學學生。

中圖分類號:D631 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A ? ? ? ? ? ? ? ? ? ? ? ?DOI:10.19387/j.cnki.1009-0592.2020.06.340

一、背景

伴隨著大數(shù)據(jù)時代的到來,大數(shù)據(jù)在社會的各個領(lǐng)域都得到了廣泛的應(yīng)用。現(xiàn)如今,大數(shù)據(jù)是朝著“未來社會發(fā)展的趨勢”發(fā)展,習總書記也不斷強調(diào)了科技以及大數(shù)據(jù)在公安工作中的應(yīng)用前景,將大數(shù)據(jù)戰(zhàn)略提升到了國家的層次。在目前公安行業(yè)對大數(shù)據(jù)與人工智能等熱門關(guān)鍵技術(shù)應(yīng)用的過程中,充分利用了業(yè)務(wù)系統(tǒng)產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù),如人員數(shù)據(jù)、軌跡數(shù)據(jù)、交通數(shù)據(jù)等。但是近些年來黑惡勢力犯罪形式的不斷變化又給公安機關(guān)開展工作帶來了不少的挑戰(zhàn)。

當今社會隨著現(xiàn)代信息技術(shù)的發(fā)展和普及,使得黑惡勢力犯罪分子具有過去多得多的犯罪手段、方式和犯罪環(huán)境。犯罪分子的高學歷化、高智商化,犯罪工具的現(xiàn)代化、智能化趨勢讓現(xiàn)在的掃黑除惡工作越來越難開展。他們利用現(xiàn)代網(wǎng)絡(luò)設(shè)施和交通工具,使得作案的空間和時間都得到空前的擴展和延伸。犯罪分子進行有組織的團伙作案,利用現(xiàn)代化的手段逃避公安機關(guān)的追查的趨勢也越來越明顯。因此,公安機關(guān)實戰(zhàn)部門如何利用好大數(shù)據(jù)技術(shù)來打擊黑惡勢力犯罪成為當今政府部門以及全社會關(guān)注的熱點問題。

2018年1月中旬, 黨中央和國務(wù)院部署了《關(guān)于開展掃黑除惡專項斗爭的通知》,從而決定在全國范圍內(nèi)開展一項為期三年的掃黑除惡專項斗爭。這個經(jīng)歷是這一階段進行十多年打黑除惡斗爭后,對黑惡暗黑勢力展開的一場更全面更深入更有效的打擊斗爭。涉黑犯罪是我國社會治理中面臨的重大挑戰(zhàn),在全球化網(wǎng)絡(luò)時代,如何利用大數(shù)據(jù)打擊黑社會犯罪已經(jīng)成為各國政府所應(yīng)解決的重大問題。

二、相關(guān)概念

(一)自然語言處理

自然語言處理是人工智能和語言學相結(jié)合的交叉學科,主要研究如何讓計算機處理并應(yīng)用人類語言??梢哉f,計算機視覺和語音識別是人工智能領(lǐng)域的感知智能,而 NLP 屬于人工智能領(lǐng)域的認知智能,因而相對更難。在深度學習的發(fā)展過程中也與之類似,語音和圖像提前獲得突破,而 NLP 這兩年才漸漸在機器翻譯等領(lǐng)域大展身手。

(二)Python

Python是一種跨平臺的計算機程序設(shè)計語言,是一種面向?qū)ο蟮膭討B(tài)類型語言。基于Python的網(wǎng)絡(luò)爬蟲十分完備,可以分布式、多線程地對網(wǎng)頁進行抓取。Python提供了多個能實現(xiàn)http請求的功能模塊例如urlib庫、resquests庫;以及可以解析網(wǎng)頁頁面的功能模塊例如BeautifuleSoup庫、lxml庫等,可以很有效得實現(xiàn)對各種網(wǎng)頁頁面的抓取、數(shù)據(jù)采集的任務(wù)。

(三)網(wǎng)絡(luò)爬蟲

網(wǎng)絡(luò)爬蟲,是按照既定的規(guī)則自動抓取萬維網(wǎng)信息的程序或者腳本,他們廣泛地運用于互聯(lián)網(wǎng)的搜索引擎或者其他類似的網(wǎng)站中?;旧峡梢苑譃?類:第一類是通用網(wǎng)絡(luò)爬蟲,指搜索引擎爬蟲,類似于百度、谷歌等這種大型的搜索引擎,其特點是根據(jù)一定的策略,用特定的計算機程序,將互聯(lián)網(wǎng)上的信息加以收集并對信息進行篩選和排序后展示給用戶,搜索引擎由搜索者、用戶界面、索引器和搜索器4部分組成。第二類是聚焦爬蟲,是指可以有選擇地爬取那些事先處理好的主題相關(guān)的網(wǎng)絡(luò)爬蟲,與一般形式的網(wǎng)絡(luò)爬蟲相比,聚焦網(wǎng)絡(luò)爬蟲需要爬取與主旨相關(guān)的內(nèi)容,極大地節(jié)約了硬件和網(wǎng)絡(luò)資源。第三類是增量網(wǎng)絡(luò)爬蟲,是指有間隔地進行信息收集,一段時間內(nèi)重新爬取數(shù)據(jù)進行數(shù)據(jù)更新。第四類是深層網(wǎng)絡(luò)爬蟲,深層網(wǎng)絡(luò)需要通過登錄提交數(shù)據(jù)后,才能進行頁面提取信息。

三、警情數(shù)據(jù)的預處理與篩選

從基層公安部門獲得的原始數(shù)據(jù)來源各異,表示方式也不盡相同,還會有很多字段值的缺失等情況出現(xiàn)。所以在收集到人員的各類數(shù)據(jù)之后,需要進行指標的預處理與篩選。指標的預處理是一項重要的工作,直接影響到模型的準確性與可用性。如果直接未經(jīng)篩選將全部的數(shù)據(jù)導入預測模型,會造成模型的多余、運行的速度減緩以及預測的準確度下降等不同問題。因此,我們在模型運算之前,將指標數(shù)據(jù)的篩選和預處理是一項重要的難點工作。由于數(shù)據(jù)樣本中影響因素繁多且數(shù)量較大,還有缺失值的出現(xiàn),容易導致分析的結(jié)果很難達到一個較為準確的水平,所以需要首先進行數(shù)據(jù)指標的預處理工作。數(shù)據(jù)的預處理可包括屬性指標量化、數(shù)值化賦值、缺失值處理以及數(shù)據(jù)歸一化處理等。比如:按出生日期將犯罪嫌疑人的年齡分為老年、中年、青年三種類型,制定出指標的分類變量。根據(jù)犯罪嫌疑人的性別,1表示“男”,2表示“女”。將指標進行數(shù)值化賦值。然后,將經(jīng)過歸一化處理過的數(shù)據(jù)輸入到后續(xù)的模型中。

在涉黑涉惡類警情分析中,有些指標因素相對于人員涉黑涉惡行為的發(fā)生影響是具有相關(guān)性的??梢酝ㄟ^模糊數(shù)、相關(guān)分析等處理與篩選出具有代表性的影響指標。這樣,通過小部分的指標就可以進行某些預測,目的用來提高模型的準確度。同時,可以針對這些變量進行特征分析,對影響犯罪的重要因素進行排序,得出影響涉黑涉惡案件的犯罪因素的重要性順序表。

四、基于NLP的涉黑涉惡類警情的特征分析與可視化

(一)涉黑涉惡類數(shù)據(jù)的預處理

屬性指標量化:將采集到的屬性指標進行量化,可通過模糊數(shù)來進行區(qū)間劃分。

數(shù)值化賦值:采集到的人員指標中如果有連續(xù)性的數(shù)據(jù),可以通過運用連續(xù)函數(shù)進行數(shù)值轉(zhuǎn)換。例如:對于活動軌跡和前科記錄這樣具有時間特征的連續(xù)性數(shù)據(jù),可以運用連續(xù)函數(shù)對其進行賦值。

缺失值處理:數(shù)據(jù)采集中,缺失數(shù)據(jù)的情況時有發(fā)生。由于缺失值對于之后的對模型的準確性與可用性影響較大,所以應(yīng)采用科學有效的方法進行填充。填充方法包括:人工填充、特殊值填充、關(guān)聯(lián)規(guī)則填充以及其他眾多的統(tǒng)計以及數(shù)據(jù)挖掘算法進行填充。

數(shù)據(jù)歸一化處理:由于采集到的數(shù)據(jù)范圍不同,所以對數(shù)據(jù)做歸一化處理,以加快模型的收斂以及預測的準確率。

(二)涉黑涉惡類案件詞庫的建立

通過如圖1三種方式建立涉黑涉惡類案件詞庫:

1.基于歷史警情數(shù)據(jù)的文本挖掘。通過收集到的歷史相關(guān)警情案件數(shù)據(jù),運用自然語言處理等方式對關(guān)鍵詞進行提取與分析。

2.基于基層民警經(jīng)驗總結(jié)分析。通過調(diào)查問卷、座談訪問等方式,對基層民警關(guān)于涉惡涉惡案件的詞匯進行經(jīng)驗總結(jié)。

3.基于新媒體語境的網(wǎng)絡(luò)爬蟲。通過網(wǎng)絡(luò)爬蟲等工具,對微博、天涯、知乎等新媒體主流平臺進行涉黑涉惡類詞匯的網(wǎng)絡(luò)爬取。

圖1:涉黑涉惡類案件詞庫的建立

(三)重要性特征排序與可視化呈現(xiàn)

通過人工神經(jīng)網(wǎng)絡(luò)模型、決策樹模型等對涉黑涉惡類警情進行重要性分析與排序。訓練樣本:通過數(shù)據(jù)預處理后的70%數(shù)據(jù)用作訓練模型的樣本數(shù)據(jù)。根據(jù)人工神經(jīng)網(wǎng)絡(luò)等模型的自適應(yīng)等特點,對樣本數(shù)據(jù)的內(nèi)在的潛在規(guī)律進行機器學習。模型運用:將訓練好的模型對案件的重要性特征進行分析。用剩余的30%數(shù)據(jù)作為測試樣本輸入模型中進行測試,以檢驗?zāi)P偷念A測效果。隨后,運用Python、I2等技術(shù)對上述數(shù)據(jù)庫進行實時動態(tài)連接,以保證動態(tài)化警情數(shù)據(jù)特征能夠得到實時反饋。

五、結(jié)語

涉黑涉惡警情的特征分析不僅可以對基層公安工作提供有力的數(shù)據(jù)參考,也使得公安大數(shù)據(jù)在實際的公安工作中得到有效的運用。通過運用自然語言處理、人工神經(jīng)網(wǎng)絡(luò)模型等模型算法,將采集到的與涉黑涉惡案件相關(guān)的大量指標數(shù)據(jù)進行分析,并推斷出影響涉黑涉惡案件的重要指標與影響因素。運用案件的相關(guān)特征做出可視化云圖,以指導公安機關(guān)的警力部署,提高出警效率和質(zhì)量。

參考文獻:

[1]廣東省掃黑除惡專項斗爭領(lǐng)導小組,省委政法委.應(yīng)對三個難題 統(tǒng)籌強力攻堅 深入推進掃黑除惡專項斗爭打擊工作[N].人民公安報,2018-10-19(003).

[2]杜曉旭,賈小云.基于Python的新浪微博爬蟲分析[J].軟件,2019,40(4):182-185.

[3]張昌繁,陳利高,劉曉波,龔建.基于NPL-NMC系統(tǒng)的 測量子系統(tǒng)的建模與優(yōu)化[J].原子能科學技術(shù),2016,50(4):698-704.

[4]張繼光.許淵沖研究現(xiàn)狀的可視化分析及其啟示[J].西安外國語大學學報,2020,28(1):87-92.

猜你喜歡
自然語言處理警情
不能吃的餃子
派出所工作(2017年9期)2017-05-30 10:48:04
“霉神”彥哥
派出所工作(2017年9期)2017-05-30 10:48:04
警情多,賴別人的嘴?
派出所工作(2017年9期)2017-05-30 10:48:04
基于組合分類算法的源代碼注釋質(zhì)量評估方法
面向機器人導航的漢語路徑自然語言組塊分析方法研究
漢哈機器翻譯中的文字轉(zhuǎn)換技術(shù)研究
HowNet在自然語言處理領(lǐng)域的研究現(xiàn)狀與分析
科技視界(2016年5期)2016-02-22 11:41:39
警情支持系統(tǒng)之構(gòu)建研究
马龙县| 濮阳市| 西乌| 沙雅县| 宜川县| 闸北区| 屯留县| 濮阳市| 疏附县| 祁门县| 班玛县| 呼伦贝尔市| 和硕县| 兴和县| 苏尼特右旗| 新安县| 彭山县| 泾阳县| 永宁县| 正定县| 东港市| 辉南县| 兴化市| 辽宁省| 琼中| 静海县| 玛多县| 郯城县| 吉木乃县| 荔波县| 九江市| 报价| 洛川县| 栾川县| 温宿县| 梧州市| 皮山县| 绥中县| 平度市| 江门市| 曲阜市|