国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

顧及時(shí)空特征的海關(guān)緝私數(shù)據(jù)抽取模型

2023-09-02 19:30李效峪邱明月潘汝佳孫古月李林繁
法制博覽 2023年13期
關(guān)鍵詞:研判走私結(jié)構(gòu)化

李效峪 邱明月 潘汝佳 孫古月 李林繁

南京森林警察學(xué)院,江蘇 南京 210023

一、研究背景

全國(guó)各地海關(guān)緝私在情報(bào)研判模型建設(shè)過程中,圍繞情報(bào)研判建模和實(shí)際應(yīng)用前途,針對(duì)模型內(nèi)容都作了一些探索實(shí)踐,也取得了較為明顯的初步實(shí)戰(zhàn)應(yīng)用成效。但經(jīng)初步分析,目前情報(bào)研判建模仍以顯性的“點(diǎn)對(duì)點(diǎn)”比對(duì)建模為主[1]??蓺w納為以下四方面:

第一,缺少對(duì)象的匹配多元化,且模型容錯(cuò)率較低,綜合深度挖掘分析潛在關(guān)聯(lián)少;第二,個(gè)人或部門的分離研判占較大部分,缺少配合機(jī)制的健全和普及,進(jìn)而導(dǎo)致分析研判結(jié)果缺乏實(shí)際操作性及實(shí)戰(zhàn)指導(dǎo)前瞻性;第三,傳統(tǒng)的情報(bào)研判模型基于協(xié)同的“技戰(zhàn)流”實(shí)戰(zhàn)研判少;第四,依賴研發(fā)人員的手動(dòng)開發(fā)操作,這便對(duì)現(xiàn)有的技術(shù)人才的業(yè)務(wù)能力有較高的需求,倘若具有優(yōu)秀建模能力的專業(yè)警力技術(shù)資源有限,在實(shí)戰(zhàn)中會(huì)大大限制情報(bào)研判模型的操作潛力。

此外,現(xiàn)行數(shù)據(jù)分析提取模型還存在“數(shù)據(jù)共享難、信息關(guān)聯(lián)性差、缺乏跨地域情報(bào)信息的協(xié)作”的信息孤島問題,各地海關(guān)緝私部門信息化、智能化發(fā)展情況差別較大,在數(shù)據(jù)庫的建設(shè)和使用領(lǐng)域開發(fā)程度較淺,基本停滯在亟待開發(fā)的階段,運(yùn)用和推廣較難,開發(fā)潛力較大。因此緝私情報(bào)之間難以實(shí)現(xiàn)高質(zhì)量、有關(guān)聯(lián)的互通,較深層次的海關(guān)緝私非結(jié)構(gòu)化專業(yè)數(shù)據(jù)的開發(fā)更是少之又少。面對(duì)數(shù)量龐大、結(jié)構(gòu)化程度低的緝私信息數(shù)據(jù),海關(guān)緝私部門要如何正確地進(jìn)行儲(chǔ)存和處理是情報(bào)能否實(shí)現(xiàn)價(jià)值的關(guān)鍵所在。海關(guān)緝私專業(yè)非結(jié)構(gòu)化數(shù)據(jù)的利用率低,主要體現(xiàn)在其無序性、雜亂性、復(fù)雜性,而多數(shù)海關(guān)緝私部門在面臨工作量大而復(fù)雜的海關(guān)緝私業(yè)務(wù)的現(xiàn)實(shí)情況時(shí),對(duì)此類信息類型大都選擇棄置,不愿耗費(fèi)有限的優(yōu)質(zhì)警力進(jìn)行深度的信息挖掘提取。

二、研究思路

針對(duì)當(dāng)下的走私犯罪案件,利用傳統(tǒng)的信息抽取方法難以適應(yīng)其智能化、高科技化和共享化的特點(diǎn),若僅靠傳統(tǒng)的坐等報(bào)案、調(diào)查訪問等按部就班的工作模式已難以勝任日益發(fā)展的緝私工作和履行打擊、服務(wù)、參謀三大重要職能[2]。隨著信息社會(huì)的發(fā)展和網(wǎng)絡(luò)的普及,情報(bào)信息工作在偵查辦案中的重要性必將更加明顯、突出,偵查工作對(duì)它的依賴程度亦將越來越大[3],由線索到人、由人到案的偵查工作思路和以情報(bào)信息工作為核心[4],依托高效能的信息處理模型主導(dǎo)案源及偵辦緝私工作,已成為緝私工作發(fā)展的迫切要求。

知識(shí)圖譜作為邏輯推理智能中認(rèn)知領(lǐng)域的核心技術(shù),本質(zhì)上是一種揭示各種概念實(shí)體之間聯(lián)系的語義學(xué)習(xí)網(wǎng)絡(luò),是一種結(jié)構(gòu)性的語義學(xué)習(xí)知識(shí)庫,用于將各種事物及其相互關(guān)系信息進(jìn)行形式化的描述、集成并聚合大批的知識(shí),從而更好地實(shí)現(xiàn)對(duì)知識(shí)的快速反饋和推理。知識(shí)圖譜及相關(guān)技術(shù)能有針對(duì)性地解決上述問題,但就實(shí)際情況而言,公安知識(shí)圖譜的構(gòu)建方法基于但不等同于其他類型知識(shí)圖譜的構(gòu)建方法,它依托于實(shí)戰(zhàn)性強(qiáng)、專業(yè)性強(qiáng)的公安信息,效能和使用也應(yīng)傾斜于公安機(jī)關(guān)和海關(guān)的業(yè)務(wù)領(lǐng)域。本研究從處理公安機(jī)關(guān)和海關(guān)部門案件過程中收集的信息情報(bào)出發(fā),進(jìn)行公安領(lǐng)域知識(shí)圖譜的本體建模,并研究出可實(shí)現(xiàn)基本信息共享,根據(jù)案件類型智能化生成知識(shí)圖譜的文本系統(tǒng)。通過構(gòu)建知識(shí)圖譜這種方式,應(yīng)用在緝私案件文本挖掘和抽取實(shí)戰(zhàn)方面,從而達(dá)到從海量案件文本庫中挖掘非結(jié)構(gòu)數(shù)據(jù)、隱藏性數(shù)據(jù)等信息,進(jìn)而組織關(guān)聯(lián)形成有效的情報(bào)線索的研究目的。

三、研究意義

海關(guān)緝私情報(bào)知識(shí)來源于對(duì)每一個(gè)案例的攻克、打磨與總結(jié),無論是基于主觀歸納還是機(jī)器學(xué)習(xí)方法,這都是一種從信息到情報(bào)知識(shí)的抽象過程。這些情報(bào)知識(shí)再經(jīng)過儲(chǔ)存、管理、共享組成知識(shí)庫,最后按決策需求被檢索和應(yīng)用于個(gè)案推理。在情報(bào)知識(shí)的生命周期中,海關(guān)緝私信息抽取模型在公安情報(bào)工作中的研究與應(yīng)用意義在于情報(bào)知識(shí)抽取自動(dòng)化。將目前人工為主機(jī)器為輔的情報(bào)過程升級(jí)為機(jī)器為主人工為輔的情報(bào)過程,助力深化可解釋、大規(guī)模、統(tǒng)一集約的海關(guān)緝私情報(bào)智能化體系。

(一)信息抽取

信息抽取是一種數(shù)據(jù)從非結(jié)構(gòu)化到結(jié)構(gòu)化的組織過程。海關(guān)緝私數(shù)據(jù)中存在著大量的非結(jié)構(gòu)化數(shù)據(jù),如何將這些數(shù)據(jù)結(jié)構(gòu)化以利用現(xiàn)在的結(jié)構(gòu)化數(shù)據(jù)處理生態(tài)是海關(guān)緝私業(yè)務(wù)中一個(gè)重要需求。情報(bào)概念下的信息抽取需要將非結(jié)構(gòu)化的數(shù)據(jù)抽取轉(zhuǎn)化為“人、事、物、時(shí)間、地點(diǎn)、組織、關(guān)系”等情報(bào)要素的結(jié)構(gòu)化數(shù)據(jù),以形成情報(bào)研判的信息集合,這是傳統(tǒng)關(guān)系型和非關(guān)系型數(shù)據(jù)庫無法做到的。

(二)數(shù)據(jù)整合

海關(guān)緝私數(shù)據(jù)來源廣泛、種類繁多,文本、圖像、視頻、音頻、地理信息數(shù)據(jù)等紛繁復(fù)雜的數(shù)據(jù)都需要存儲(chǔ)在信息系統(tǒng)中,這些數(shù)據(jù)數(shù)量巨大而且質(zhì)量良莠不齊、數(shù)據(jù)結(jié)構(gòu)大多不同。傳統(tǒng)列式、行式關(guān)系型儲(chǔ)存技術(shù)無法高效合理組織這種多模態(tài)數(shù)據(jù),而以多模態(tài)非關(guān)系型圖數(shù)據(jù)庫為首作為NewSQL 存儲(chǔ)方案,則能很好地對(duì)這些信息進(jìn)行管理和存儲(chǔ),極大地加快檢索查詢的速度。

(三)聯(lián)合作戰(zhàn)

海關(guān)緝私部門中單方偵破在案件偵破中發(fā)揮的功能有極大的局限性,例如一個(gè)走私保護(hù)動(dòng)物的案件可能涉及刑偵、網(wǎng)安、地方打私等多部門的信息。在情報(bào)主導(dǎo)的警務(wù)模式中,知識(shí)圖譜能夠很方便地通過后臺(tái)接口共享各部門的數(shù)據(jù)、共享情報(bào)研判知識(shí),融合各部門的知識(shí)情報(bào),便于案件線索的深度挖掘,讓各部門的協(xié)作發(fā)揮“1+1>2”的作用。

四、緝私案件數(shù)據(jù)抽取設(shè)計(jì)路線

(一)路線設(shè)計(jì)

海關(guān)緝私工作在落地偵辦前通常需要厘清幾大基本問題,我們可以概括為“5w+1h 疑問”,分別是:在哪里發(fā)生、何時(shí)發(fā)生的、為何發(fā)生、走私何物、走私行為人如何走私及走私動(dòng)機(jī)。海關(guān)緝私信息抽取受緝私案件性質(zhì)所限,時(shí)空要素的不同對(duì)案件走向和情報(bào)經(jīng)營(yíng)方式存在較大影響。故海關(guān)緝私信息在提取各要素時(shí),所需要參照的時(shí)間、空間要素所占比重更高。沿用普通的刑事案件信息抽取分析模型效果不佳,而時(shí)空的信息是串聯(lián)起緝私個(gè)案甚至是系列案件的關(guān)鍵。緝私信息提取是在計(jì)算機(jī)環(huán)境下,將緝私知識(shí)及緝私專業(yè)信息要素表現(xiàn)為計(jì)算機(jī)可以接受的符號(hào)以及能夠存儲(chǔ)的結(jié)構(gòu)形式。在數(shù)據(jù)世界中,緝私知識(shí)的主體對(duì)象——走私現(xiàn)象或事物,將抽象為緝私實(shí)體,而其具有的各種特征則抽象為時(shí)間、空間、屬性、狀態(tài)、過程、關(guān)系等關(guān)鍵信息要素。

總體上,根據(jù)知識(shí)的類型、特征及其邏輯關(guān)系,緝私知識(shí)可以劃分為三個(gè)層次:概念層、實(shí)體層和關(guān)系層。其中,實(shí)體知識(shí)可以分為三個(gè)子層次,包括基本特征(時(shí)間、空間、屬性、行為)、狀態(tài)特征和過程特征;關(guān)系知識(shí)可以分為兩個(gè)子層次:概念關(guān)系和特征關(guān)系。按照知識(shí)的層次劃分,可以形成不同粒度的緝私知識(shí)語義單元[5]。通過分層、分維度對(duì)所有相關(guān)信息進(jìn)行整合,以便于情報(bào)研判部門對(duì)案件的下一步進(jìn)行研判。

(二)數(shù)據(jù)來源

本模型實(shí)驗(yàn)數(shù)據(jù)主要來源于專門機(jī)關(guān)、社會(huì)部門和互聯(lián)網(wǎng)輿情等幾大方向。數(shù)據(jù)樣本涉及刑事案件上百宗,案值近百億元,涉稅金額超數(shù)十億元,數(shù)據(jù)統(tǒng)計(jì)指標(biāo)結(jié)果均排在全國(guó)前列。專門機(jī)關(guān)數(shù)據(jù)是本文本信息提取模型的核心實(shí)驗(yàn)數(shù)據(jù)。此次文本信息提取模型的未來展望就是為海關(guān)總署打擊走私專項(xiàng)情報(bào)中心提供全方位的數(shù)據(jù)支撐和情報(bào)抓手,為情報(bào)主導(dǎo)警務(wù)提供更廣闊的實(shí)踐平臺(tái)和更多元的拓展思路。

(三)設(shè)計(jì)路徑

目前,非結(jié)構(gòu)化的文本、語音、圖像、視頻和音頻等各類型的數(shù)據(jù)抽取有待進(jìn)一步深挖研究。為了貼合實(shí)戰(zhàn)單位信息處理簡(jiǎn)易化需求,并將所得緝私案件文本內(nèi)容物盡其用,模型以文本數(shù)據(jù)為主,針對(duì)緝私案事件文本中時(shí)間、地名、關(guān)系、屬性、人物、事件等關(guān)鍵要素的自然語言描述特點(diǎn),實(shí)現(xiàn)海關(guān)緝私文本信息抽取方法。

本模型擬進(jìn)行緝私案事件的信息抽取,主要研究?jī)?nèi)容包括以下幾個(gè)方面:一是選取不同類型、不同內(nèi)容和不同形式的緝私案件文本信息,構(gòu)建緝私案件樣本庫;二是將案件中的文本信息進(jìn)行分詞與詞性標(biāo)注;三是實(shí)現(xiàn)實(shí)體識(shí)別、特征信息抽取,如圖1 所示。通過與海關(guān)系統(tǒng)、公安系統(tǒng)等緝私案事件相關(guān)結(jié)構(gòu)化數(shù)據(jù)的信息融合,實(shí)現(xiàn)緝私案事件信息的多層次、多粒度語義集成。

1.文本信息預(yù)處理

將數(shù)據(jù)中的走私地點(diǎn)、走私時(shí)間、走私物品、走私人員、走私動(dòng)機(jī)、主要走私方法按照一定標(biāo)準(zhǔn)進(jìn)行提取并標(biāo)注詞性,提取標(biāo)準(zhǔn)根據(jù)海關(guān)緝私部門實(shí)戰(zhàn)中常見案件特征并參考相關(guān)國(guó)家標(biāo)準(zhǔn)制定。

2.模型構(gòu)建

本實(shí)驗(yàn)知識(shí)本體基于文本結(jié)構(gòu)化后的數(shù)據(jù)依據(jù)“循環(huán)法”構(gòu)建,具體步驟如下:

(1)本體需求分析并考查可復(fù)用本體。公安專業(yè)本體構(gòu)建領(lǐng)域,針對(duì)海關(guān)查獲對(duì)走私類案件文本數(shù)據(jù)進(jìn)行本體建模。在進(jìn)行了相關(guān)文獻(xiàn)調(diào)研之后,在公安海關(guān)緝私方面并無相關(guān)構(gòu)建的本體。但是公安領(lǐng)域本體能基于通用領(lǐng)域的本體知識(shí)庫進(jìn)行拓展。本研究基于百科知識(shí)樹TermTree 進(jìn)行拓展。

(2)建立領(lǐng)域核心概念。對(duì)文本結(jié)構(gòu)化后的數(shù)據(jù)按照走私物品的不同進(jìn)行匯總統(tǒng)計(jì),記錄每一個(gè)字段中詞項(xiàng)的詞頻,篩選出詞頻中的高頻詞,得到該走私物品下案件的核心概念?;谶@些核心概念來搭建本體模式層中的知識(shí)節(jié)點(diǎn)。

(3)建立概念分類層級(jí)并定義知識(shí)節(jié)點(diǎn)。將這些核心概念要素根據(jù)走私地點(diǎn)、走私時(shí)間、走私物品、走私人員、走私動(dòng)機(jī)、主要走私方法進(jìn)行分類,對(duì)象的屬性層級(jí)參照OpenSchema 的語義描述構(gòu)建。

(4)本體評(píng)價(jià)與進(jìn)化。本體在應(yīng)用中需要根據(jù)實(shí)際需求進(jìn)行不斷更新維護(hù),針對(duì)新的案件信息重新回到第一步進(jìn)行需求分析,重新運(yùn)行本體構(gòu)建的生命周期,本研究通過設(shè)立開源倉庫,以開源協(xié)作的方式進(jìn)行領(lǐng)域本體構(gòu)建的生態(tài)循環(huán)。

這種可根據(jù)案件文本生成圖譜的方法,首先通過知識(shí)標(biāo)注來將緝私知識(shí)數(shù)據(jù)庫中的知識(shí)信息映射到案件文本信息上,然后通過解析文本中的實(shí)體關(guān)系繪制文本語義所描述的圖譜。這種方法能為緝私案件文本挖掘提供一種創(chuàng)新的文本結(jié)構(gòu)化途徑,有助于從龐大的案件文本庫中挖掘隱藏的實(shí)體關(guān)聯(lián),形成情報(bào)線索。

五、前景展望

傳統(tǒng)的緝私情報(bào)分析結(jié)果展示主要是依靠文字描述、表格和簡(jiǎn)單的統(tǒng)計(jì)圖,情報(bào)分析人員難以從中發(fā)現(xiàn)情報(bào)串并與研判的依據(jù)和規(guī)律。隨著信息技術(shù)的進(jìn)步和情報(bào)分析需求的不斷增長(zhǎng),對(duì)于大型的緝私情報(bào)素材集合,迫切需要一種能夠確定緝私情報(bào)素材之間的關(guān)系和蘊(yùn)含的知識(shí),并表示為相關(guān)人員可以方便理解的可視化形式的技術(shù)[6]。實(shí)現(xiàn)海關(guān)緝私數(shù)據(jù)自動(dòng)化抽取,為各地不同海關(guān)緝私部門信息化發(fā)展不平衡導(dǎo)致的數(shù)據(jù)分析能力落差,提供了現(xiàn)實(shí)的解決方案,節(jié)省了大量警力資源的同時(shí),深度挖掘數(shù)據(jù)的價(jià)值,并為各種大數(shù)據(jù)智能應(yīng)用持續(xù)賦能,為后續(xù)緝私情報(bào)抽取、關(guān)聯(lián)、研判的計(jì)算與應(yīng)用提供基礎(chǔ),對(duì)于大型的緝私情報(bào)素材集合,實(shí)現(xiàn)一種能夠描述情報(bào)的特征維度和各特征之間關(guān)系的情報(bào)要素表達(dá)模型將成為可能。

猜你喜歡
研判走私結(jié)構(gòu)化
徐州市超前研判 做好春節(jié)安全防范
促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
涉逃證走私行為司法解釋的方法論反思——以法釋〔2014〕10號(hào)第21條為切入
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
研判當(dāng)前貨幣政策走勢(shì)的“量”與“價(jià)”
研判當(dāng)前貨幣政策的“變”與“不變”
基于CRF文本挖掘的事故研判分析
智辨走私販
廣東破獲“1·26”特大走私毒品案 繳毒約717公斤
基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索