李效峪 邱明月 潘汝佳 孫古月 李林繁
南京森林警察學(xué)院,江蘇 南京 210023
全國(guó)各地海關(guān)緝私在情報(bào)研判模型建設(shè)過程中,圍繞情報(bào)研判建模和實(shí)際應(yīng)用前途,針對(duì)模型內(nèi)容都作了一些探索實(shí)踐,也取得了較為明顯的初步實(shí)戰(zhàn)應(yīng)用成效。但經(jīng)初步分析,目前情報(bào)研判建模仍以顯性的“點(diǎn)對(duì)點(diǎn)”比對(duì)建模為主[1]??蓺w納為以下四方面:
第一,缺少對(duì)象的匹配多元化,且模型容錯(cuò)率較低,綜合深度挖掘分析潛在關(guān)聯(lián)少;第二,個(gè)人或部門的分離研判占較大部分,缺少配合機(jī)制的健全和普及,進(jìn)而導(dǎo)致分析研判結(jié)果缺乏實(shí)際操作性及實(shí)戰(zhàn)指導(dǎo)前瞻性;第三,傳統(tǒng)的情報(bào)研判模型基于協(xié)同的“技戰(zhàn)流”實(shí)戰(zhàn)研判少;第四,依賴研發(fā)人員的手動(dòng)開發(fā)操作,這便對(duì)現(xiàn)有的技術(shù)人才的業(yè)務(wù)能力有較高的需求,倘若具有優(yōu)秀建模能力的專業(yè)警力技術(shù)資源有限,在實(shí)戰(zhàn)中會(huì)大大限制情報(bào)研判模型的操作潛力。
此外,現(xiàn)行數(shù)據(jù)分析提取模型還存在“數(shù)據(jù)共享難、信息關(guān)聯(lián)性差、缺乏跨地域情報(bào)信息的協(xié)作”的信息孤島問題,各地海關(guān)緝私部門信息化、智能化發(fā)展情況差別較大,在數(shù)據(jù)庫的建設(shè)和使用領(lǐng)域開發(fā)程度較淺,基本停滯在亟待開發(fā)的階段,運(yùn)用和推廣較難,開發(fā)潛力較大。因此緝私情報(bào)之間難以實(shí)現(xiàn)高質(zhì)量、有關(guān)聯(lián)的互通,較深層次的海關(guān)緝私非結(jié)構(gòu)化專業(yè)數(shù)據(jù)的開發(fā)更是少之又少。面對(duì)數(shù)量龐大、結(jié)構(gòu)化程度低的緝私信息數(shù)據(jù),海關(guān)緝私部門要如何正確地進(jìn)行儲(chǔ)存和處理是情報(bào)能否實(shí)現(xiàn)價(jià)值的關(guān)鍵所在。海關(guān)緝私專業(yè)非結(jié)構(gòu)化數(shù)據(jù)的利用率低,主要體現(xiàn)在其無序性、雜亂性、復(fù)雜性,而多數(shù)海關(guān)緝私部門在面臨工作量大而復(fù)雜的海關(guān)緝私業(yè)務(wù)的現(xiàn)實(shí)情況時(shí),對(duì)此類信息類型大都選擇棄置,不愿耗費(fèi)有限的優(yōu)質(zhì)警力進(jìn)行深度的信息挖掘提取。
針對(duì)當(dāng)下的走私犯罪案件,利用傳統(tǒng)的信息抽取方法難以適應(yīng)其智能化、高科技化和共享化的特點(diǎn),若僅靠傳統(tǒng)的坐等報(bào)案、調(diào)查訪問等按部就班的工作模式已難以勝任日益發(fā)展的緝私工作和履行打擊、服務(wù)、參謀三大重要職能[2]。隨著信息社會(huì)的發(fā)展和網(wǎng)絡(luò)的普及,情報(bào)信息工作在偵查辦案中的重要性必將更加明顯、突出,偵查工作對(duì)它的依賴程度亦將越來越大[3],由線索到人、由人到案的偵查工作思路和以情報(bào)信息工作為核心[4],依托高效能的信息處理模型主導(dǎo)案源及偵辦緝私工作,已成為緝私工作發(fā)展的迫切要求。
知識(shí)圖譜作為邏輯推理智能中認(rèn)知領(lǐng)域的核心技術(shù),本質(zhì)上是一種揭示各種概念實(shí)體之間聯(lián)系的語義學(xué)習(xí)網(wǎng)絡(luò),是一種結(jié)構(gòu)性的語義學(xué)習(xí)知識(shí)庫,用于將各種事物及其相互關(guān)系信息進(jìn)行形式化的描述、集成并聚合大批的知識(shí),從而更好地實(shí)現(xiàn)對(duì)知識(shí)的快速反饋和推理。知識(shí)圖譜及相關(guān)技術(shù)能有針對(duì)性地解決上述問題,但就實(shí)際情況而言,公安知識(shí)圖譜的構(gòu)建方法基于但不等同于其他類型知識(shí)圖譜的構(gòu)建方法,它依托于實(shí)戰(zhàn)性強(qiáng)、專業(yè)性強(qiáng)的公安信息,效能和使用也應(yīng)傾斜于公安機(jī)關(guān)和海關(guān)的業(yè)務(wù)領(lǐng)域。本研究從處理公安機(jī)關(guān)和海關(guān)部門案件過程中收集的信息情報(bào)出發(fā),進(jìn)行公安領(lǐng)域知識(shí)圖譜的本體建模,并研究出可實(shí)現(xiàn)基本信息共享,根據(jù)案件類型智能化生成知識(shí)圖譜的文本系統(tǒng)。通過構(gòu)建知識(shí)圖譜這種方式,應(yīng)用在緝私案件文本挖掘和抽取實(shí)戰(zhàn)方面,從而達(dá)到從海量案件文本庫中挖掘非結(jié)構(gòu)數(shù)據(jù)、隱藏性數(shù)據(jù)等信息,進(jìn)而組織關(guān)聯(lián)形成有效的情報(bào)線索的研究目的。
海關(guān)緝私情報(bào)知識(shí)來源于對(duì)每一個(gè)案例的攻克、打磨與總結(jié),無論是基于主觀歸納還是機(jī)器學(xué)習(xí)方法,這都是一種從信息到情報(bào)知識(shí)的抽象過程。這些情報(bào)知識(shí)再經(jīng)過儲(chǔ)存、管理、共享組成知識(shí)庫,最后按決策需求被檢索和應(yīng)用于個(gè)案推理。在情報(bào)知識(shí)的生命周期中,海關(guān)緝私信息抽取模型在公安情報(bào)工作中的研究與應(yīng)用意義在于情報(bào)知識(shí)抽取自動(dòng)化。將目前人工為主機(jī)器為輔的情報(bào)過程升級(jí)為機(jī)器為主人工為輔的情報(bào)過程,助力深化可解釋、大規(guī)模、統(tǒng)一集約的海關(guān)緝私情報(bào)智能化體系。
信息抽取是一種數(shù)據(jù)從非結(jié)構(gòu)化到結(jié)構(gòu)化的組織過程。海關(guān)緝私數(shù)據(jù)中存在著大量的非結(jié)構(gòu)化數(shù)據(jù),如何將這些數(shù)據(jù)結(jié)構(gòu)化以利用現(xiàn)在的結(jié)構(gòu)化數(shù)據(jù)處理生態(tài)是海關(guān)緝私業(yè)務(wù)中一個(gè)重要需求。情報(bào)概念下的信息抽取需要將非結(jié)構(gòu)化的數(shù)據(jù)抽取轉(zhuǎn)化為“人、事、物、時(shí)間、地點(diǎn)、組織、關(guān)系”等情報(bào)要素的結(jié)構(gòu)化數(shù)據(jù),以形成情報(bào)研判的信息集合,這是傳統(tǒng)關(guān)系型和非關(guān)系型數(shù)據(jù)庫無法做到的。
海關(guān)緝私數(shù)據(jù)來源廣泛、種類繁多,文本、圖像、視頻、音頻、地理信息數(shù)據(jù)等紛繁復(fù)雜的數(shù)據(jù)都需要存儲(chǔ)在信息系統(tǒng)中,這些數(shù)據(jù)數(shù)量巨大而且質(zhì)量良莠不齊、數(shù)據(jù)結(jié)構(gòu)大多不同。傳統(tǒng)列式、行式關(guān)系型儲(chǔ)存技術(shù)無法高效合理組織這種多模態(tài)數(shù)據(jù),而以多模態(tài)非關(guān)系型圖數(shù)據(jù)庫為首作為NewSQL 存儲(chǔ)方案,則能很好地對(duì)這些信息進(jìn)行管理和存儲(chǔ),極大地加快檢索查詢的速度。
海關(guān)緝私部門中單方偵破在案件偵破中發(fā)揮的功能有極大的局限性,例如一個(gè)走私保護(hù)動(dòng)物的案件可能涉及刑偵、網(wǎng)安、地方打私等多部門的信息。在情報(bào)主導(dǎo)的警務(wù)模式中,知識(shí)圖譜能夠很方便地通過后臺(tái)接口共享各部門的數(shù)據(jù)、共享情報(bào)研判知識(shí),融合各部門的知識(shí)情報(bào),便于案件線索的深度挖掘,讓各部門的協(xié)作發(fā)揮“1+1>2”的作用。
海關(guān)緝私工作在落地偵辦前通常需要厘清幾大基本問題,我們可以概括為“5w+1h 疑問”,分別是:在哪里發(fā)生、何時(shí)發(fā)生的、為何發(fā)生、走私何物、走私行為人如何走私及走私動(dòng)機(jī)。海關(guān)緝私信息抽取受緝私案件性質(zhì)所限,時(shí)空要素的不同對(duì)案件走向和情報(bào)經(jīng)營(yíng)方式存在較大影響。故海關(guān)緝私信息在提取各要素時(shí),所需要參照的時(shí)間、空間要素所占比重更高。沿用普通的刑事案件信息抽取分析模型效果不佳,而時(shí)空的信息是串聯(lián)起緝私個(gè)案甚至是系列案件的關(guān)鍵。緝私信息提取是在計(jì)算機(jī)環(huán)境下,將緝私知識(shí)及緝私專業(yè)信息要素表現(xiàn)為計(jì)算機(jī)可以接受的符號(hào)以及能夠存儲(chǔ)的結(jié)構(gòu)形式。在數(shù)據(jù)世界中,緝私知識(shí)的主體對(duì)象——走私現(xiàn)象或事物,將抽象為緝私實(shí)體,而其具有的各種特征則抽象為時(shí)間、空間、屬性、狀態(tài)、過程、關(guān)系等關(guān)鍵信息要素。
總體上,根據(jù)知識(shí)的類型、特征及其邏輯關(guān)系,緝私知識(shí)可以劃分為三個(gè)層次:概念層、實(shí)體層和關(guān)系層。其中,實(shí)體知識(shí)可以分為三個(gè)子層次,包括基本特征(時(shí)間、空間、屬性、行為)、狀態(tài)特征和過程特征;關(guān)系知識(shí)可以分為兩個(gè)子層次:概念關(guān)系和特征關(guān)系。按照知識(shí)的層次劃分,可以形成不同粒度的緝私知識(shí)語義單元[5]。通過分層、分維度對(duì)所有相關(guān)信息進(jìn)行整合,以便于情報(bào)研判部門對(duì)案件的下一步進(jìn)行研判。
本模型實(shí)驗(yàn)數(shù)據(jù)主要來源于專門機(jī)關(guān)、社會(huì)部門和互聯(lián)網(wǎng)輿情等幾大方向。數(shù)據(jù)樣本涉及刑事案件上百宗,案值近百億元,涉稅金額超數(shù)十億元,數(shù)據(jù)統(tǒng)計(jì)指標(biāo)結(jié)果均排在全國(guó)前列。專門機(jī)關(guān)數(shù)據(jù)是本文本信息提取模型的核心實(shí)驗(yàn)數(shù)據(jù)。此次文本信息提取模型的未來展望就是為海關(guān)總署打擊走私專項(xiàng)情報(bào)中心提供全方位的數(shù)據(jù)支撐和情報(bào)抓手,為情報(bào)主導(dǎo)警務(wù)提供更廣闊的實(shí)踐平臺(tái)和更多元的拓展思路。
目前,非結(jié)構(gòu)化的文本、語音、圖像、視頻和音頻等各類型的數(shù)據(jù)抽取有待進(jìn)一步深挖研究。為了貼合實(shí)戰(zhàn)單位信息處理簡(jiǎn)易化需求,并將所得緝私案件文本內(nèi)容物盡其用,模型以文本數(shù)據(jù)為主,針對(duì)緝私案事件文本中時(shí)間、地名、關(guān)系、屬性、人物、事件等關(guān)鍵要素的自然語言描述特點(diǎn),實(shí)現(xiàn)海關(guān)緝私文本信息抽取方法。
本模型擬進(jìn)行緝私案事件的信息抽取,主要研究?jī)?nèi)容包括以下幾個(gè)方面:一是選取不同類型、不同內(nèi)容和不同形式的緝私案件文本信息,構(gòu)建緝私案件樣本庫;二是將案件中的文本信息進(jìn)行分詞與詞性標(biāo)注;三是實(shí)現(xiàn)實(shí)體識(shí)別、特征信息抽取,如圖1 所示。通過與海關(guān)系統(tǒng)、公安系統(tǒng)等緝私案事件相關(guān)結(jié)構(gòu)化數(shù)據(jù)的信息融合,實(shí)現(xiàn)緝私案事件信息的多層次、多粒度語義集成。
1.文本信息預(yù)處理
將數(shù)據(jù)中的走私地點(diǎn)、走私時(shí)間、走私物品、走私人員、走私動(dòng)機(jī)、主要走私方法按照一定標(biāo)準(zhǔn)進(jìn)行提取并標(biāo)注詞性,提取標(biāo)準(zhǔn)根據(jù)海關(guān)緝私部門實(shí)戰(zhàn)中常見案件特征并參考相關(guān)國(guó)家標(biāo)準(zhǔn)制定。
2.模型構(gòu)建
本實(shí)驗(yàn)知識(shí)本體基于文本結(jié)構(gòu)化后的數(shù)據(jù)依據(jù)“循環(huán)法”構(gòu)建,具體步驟如下:
(1)本體需求分析并考查可復(fù)用本體。公安專業(yè)本體構(gòu)建領(lǐng)域,針對(duì)海關(guān)查獲對(duì)走私類案件文本數(shù)據(jù)進(jìn)行本體建模。在進(jìn)行了相關(guān)文獻(xiàn)調(diào)研之后,在公安海關(guān)緝私方面并無相關(guān)構(gòu)建的本體。但是公安領(lǐng)域本體能基于通用領(lǐng)域的本體知識(shí)庫進(jìn)行拓展。本研究基于百科知識(shí)樹TermTree 進(jìn)行拓展。
(2)建立領(lǐng)域核心概念。對(duì)文本結(jié)構(gòu)化后的數(shù)據(jù)按照走私物品的不同進(jìn)行匯總統(tǒng)計(jì),記錄每一個(gè)字段中詞項(xiàng)的詞頻,篩選出詞頻中的高頻詞,得到該走私物品下案件的核心概念?;谶@些核心概念來搭建本體模式層中的知識(shí)節(jié)點(diǎn)。
(3)建立概念分類層級(jí)并定義知識(shí)節(jié)點(diǎn)。將這些核心概念要素根據(jù)走私地點(diǎn)、走私時(shí)間、走私物品、走私人員、走私動(dòng)機(jī)、主要走私方法進(jìn)行分類,對(duì)象的屬性層級(jí)參照OpenSchema 的語義描述構(gòu)建。
(4)本體評(píng)價(jià)與進(jìn)化。本體在應(yīng)用中需要根據(jù)實(shí)際需求進(jìn)行不斷更新維護(hù),針對(duì)新的案件信息重新回到第一步進(jìn)行需求分析,重新運(yùn)行本體構(gòu)建的生命周期,本研究通過設(shè)立開源倉庫,以開源協(xié)作的方式進(jìn)行領(lǐng)域本體構(gòu)建的生態(tài)循環(huán)。
這種可根據(jù)案件文本生成圖譜的方法,首先通過知識(shí)標(biāo)注來將緝私知識(shí)數(shù)據(jù)庫中的知識(shí)信息映射到案件文本信息上,然后通過解析文本中的實(shí)體關(guān)系繪制文本語義所描述的圖譜。這種方法能為緝私案件文本挖掘提供一種創(chuàng)新的文本結(jié)構(gòu)化途徑,有助于從龐大的案件文本庫中挖掘隱藏的實(shí)體關(guān)聯(lián),形成情報(bào)線索。
傳統(tǒng)的緝私情報(bào)分析結(jié)果展示主要是依靠文字描述、表格和簡(jiǎn)單的統(tǒng)計(jì)圖,情報(bào)分析人員難以從中發(fā)現(xiàn)情報(bào)串并與研判的依據(jù)和規(guī)律。隨著信息技術(shù)的進(jìn)步和情報(bào)分析需求的不斷增長(zhǎng),對(duì)于大型的緝私情報(bào)素材集合,迫切需要一種能夠確定緝私情報(bào)素材之間的關(guān)系和蘊(yùn)含的知識(shí),并表示為相關(guān)人員可以方便理解的可視化形式的技術(shù)[6]。實(shí)現(xiàn)海關(guān)緝私數(shù)據(jù)自動(dòng)化抽取,為各地不同海關(guān)緝私部門信息化發(fā)展不平衡導(dǎo)致的數(shù)據(jù)分析能力落差,提供了現(xiàn)實(shí)的解決方案,節(jié)省了大量警力資源的同時(shí),深度挖掘數(shù)據(jù)的價(jià)值,并為各種大數(shù)據(jù)智能應(yīng)用持續(xù)賦能,為后續(xù)緝私情報(bào)抽取、關(guān)聯(lián)、研判的計(jì)算與應(yīng)用提供基礎(chǔ),對(duì)于大型的緝私情報(bào)素材集合,實(shí)現(xiàn)一種能夠描述情報(bào)的特征維度和各特征之間關(guān)系的情報(bào)要素表達(dá)模型將成為可能。