陳彥光, 劉海順, 李春楠, 劉 靜, 孫媛媛
(1. 大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 遼寧 大連 116024;2. 大連市人民檢察院 技術(shù)處 遼寧 大連 116011)
近年來(lái),我國(guó)不斷深入推進(jìn)“智慧司法”建設(shè).隨著中國(guó)裁判文書網(wǎng)、中國(guó)庭審公開(kāi)網(wǎng)等平臺(tái)的相繼建成運(yùn)行,我國(guó)司法公開(kāi)達(dá)到前所未有的廣度和深度.若能以網(wǎng)絡(luò)上海量的案例信息為基礎(chǔ)構(gòu)建知識(shí)圖譜,將產(chǎn)生巨大價(jià)值.知識(shí)圖譜是用于描述海量實(shí)體、實(shí)體屬性及實(shí)體間關(guān)系的有效工具[1].隨著語(yǔ)義網(wǎng)絡(luò)的快速發(fā)展,互聯(lián)網(wǎng)上出現(xiàn)了大量的知識(shí)圖譜,如國(guó)外的YAGO、國(guó)內(nèi)的開(kāi)放中文知識(shí)圖譜OpenKG.CN等.但以上知識(shí)圖譜都是面向通用領(lǐng)域的,面向?qū)I(yè)領(lǐng)域尤其是司法領(lǐng)域的知識(shí)圖譜尚寥寥無(wú)幾. 國(guó)內(nèi)外在司法領(lǐng)域進(jìn)行自然語(yǔ)言處理和數(shù)據(jù)挖掘研究均已有報(bào)道.國(guó)外方面,文獻(xiàn)[2]發(fā)明了一種基于荷蘭案例法的法律推薦系統(tǒng);文獻(xiàn)[3]結(jié)合司法領(lǐng)域的信息檢索技術(shù),設(shè)計(jì)了一個(gè)司法問(wèn)答系統(tǒng);文獻(xiàn)[4]基于Okapi檢索模型,提出了一種改進(jìn)的法律判決信息提取方法;文獻(xiàn)[5]提出了奧地利法律的表示方法,并構(gòu)建了司法知識(shí)圖譜.國(guó)內(nèi)方面,文獻(xiàn)[6]介紹了法律知識(shí)庫(kù)的設(shè)計(jì)思路及框架;文獻(xiàn)[7]運(yùn)用語(yǔ)義標(biāo)注技術(shù)構(gòu)建刑事審判本體實(shí)例庫(kù);文獻(xiàn)[8]將文本挖掘技術(shù)應(yīng)用于法律事務(wù),可以讓不熟悉專業(yè)用語(yǔ)的群眾更有效地獲得相關(guān)查詢;文獻(xiàn)[9-10]實(shí)現(xiàn)了對(duì)法律文書的罪名預(yù)測(cè);文獻(xiàn)[11]將定罪過(guò)程建模為多標(biāo)簽分類問(wèn)題,解決了定罪過(guò)程中出現(xiàn)的動(dòng)態(tài)標(biāo)簽問(wèn)題和標(biāo)簽分布不平衡問(wèn)題.近年來(lái),在垂直領(lǐng)域的中文知識(shí)圖譜構(gòu)建技術(shù)方面,針對(duì)醫(yī)療和化學(xué)等領(lǐng)域的數(shù)據(jù)處理、知識(shí)獲取和命名實(shí)體識(shí)別技術(shù)等方法也有一些研究[12-14].
本文以涉毒類案件為例,提出了一種面向刑事案例的知識(shí)圖譜構(gòu)建系統(tǒng),系統(tǒng)主要包含案例信息提取算法、復(fù)雜案例的案情抽取模型和案件要素抽取算法.刑事判決書文檔以內(nèi)容劃分,可以分為單人、單情節(jié)的簡(jiǎn)單案例文檔,以及涉及多個(gè)犯罪嫌疑人或多個(gè)犯罪情節(jié)的復(fù)雜案例文檔,二者區(qū)別在于復(fù)雜案例文檔中案情描述部分占據(jù)很大篇幅,難以通過(guò)規(guī)則對(duì)其案情描述進(jìn)行提取.現(xiàn)有的對(duì)刑事判決書的文本挖掘研究以簡(jiǎn)單案例為主,直接對(duì)復(fù)雜案例進(jìn)行挖掘存在困難.本文在知識(shí)圖譜構(gòu)建系統(tǒng)中運(yùn)用了一種迭代方法,利用簡(jiǎn)單案例的信息抽取結(jié)果訓(xùn)練適用于復(fù)雜案例的信息抽取模型,從而為在缺少人工標(biāo)注數(shù)據(jù)集的情況下進(jìn)行復(fù)雜案例信息抽取提供了一種思路.
依照裁判文書的結(jié)構(gòu)特征,基于司法案例的知識(shí)圖譜構(gòu)建流程如圖1所示.由圖1可以看出,本文的主要方法包含3個(gè)部分:案例信息提取算法的設(shè)計(jì)、復(fù)雜案例案情抽取模型的設(shè)計(jì)以及案件要素抽取算法的設(shè)計(jì).
圖1 基于司法案例的知識(shí)圖譜構(gòu)建流程Fig.1 Flow chart of the knowledge graph construction based on judicial cases
1.1.1案例本體結(jié)構(gòu)定義 本體是對(duì)一個(gè)特定領(lǐng)域的重要概念的形式化描述.在本文定義的案例本體結(jié)構(gòu)中,根元素為案例的刑事判決書,涵蓋全部案例信息.案例本體和實(shí)例對(duì)照如表1所示.其中針對(duì)本體結(jié)構(gòu)中的犯罪情節(jié),定義其實(shí)例為該案例的案情描述,本文中出現(xiàn)的犯罪情節(jié)是指本體結(jié)構(gòu)中的犯罪情節(jié)部分.
表1 案例本體和實(shí)例對(duì)照Tab.1 Comparison of case ontology and instance
1.1.2信息提取規(guī)則設(shè)計(jì) 通過(guò)分析大量的刑事判決書內(nèi)容,可以發(fā)現(xiàn)刑事判決書的內(nèi)容組織形式相對(duì)規(guī)范,且在每個(gè)部分有標(biāo)志性詞語(yǔ)可作為信息提取的關(guān)鍵點(diǎn).依照定義的案例本體結(jié)構(gòu),分別為需要抽取的信息構(gòu)造語(yǔ)法規(guī)則,同時(shí)注意對(duì)現(xiàn)有的規(guī)則進(jìn)行補(bǔ)充完善,盡量覆蓋每份刑事判決書的全部信息.
1.1.3案例信息提取流程 案例信息提取流程如圖2所示.由于刑事判決書的內(nèi)容格式相對(duì)規(guī)范,直接使用正則表達(dá)式和信息提取規(guī)則對(duì)各部分信息進(jìn)行提取.
圖2 案例信息提取流程Fig.2 Flow chart of case information extraction
案例信息提取算法在簡(jiǎn)單案例上效果良好,但在復(fù)雜案例上難以將全部犯罪情節(jié)提取出來(lái).針對(duì)此問(wèn)題,將復(fù)雜案例的判決書文本劃分為句子集合,利用文本分類方法將這些句子分為案情描述句和非案情描述句兩類.實(shí)驗(yàn)結(jié)果表明,句子分類模型對(duì)復(fù)雜案例案情描述提取的準(zhǔn)確率,與案例信息提取算法對(duì)簡(jiǎn)單案例案情描述提取的準(zhǔn)確率相當(dāng).對(duì)復(fù)雜案例犯罪情節(jié)以外的其他案例信息依然使用案例信息提取算法進(jìn)行提取.
1.2.1基于卷積神經(jīng)網(wǎng)絡(luò)的文本分類方法 卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一類深度前饋人工神經(jīng)網(wǎng)絡(luò),在計(jì)算機(jī)視覺(jué)和語(yǔ)音識(shí)別方面取得了顯著成果.2014年,文獻(xiàn)[15]提出用CNN進(jìn)行文本分類的方法.CNN句子分類模型結(jié)構(gòu)簡(jiǎn)單,輸入層既可以使用初始化的詞向量,也可以使用預(yù)訓(xùn)練的詞向量;隱藏層使用一維卷積操作提取文本特征;輸出層使用Softmax分類器基于文本特征預(yù)測(cè)分類結(jié)果.
1.2.2基于CNN的案情描述句子分類模型 對(duì)復(fù)雜案例的案情描述和非案情描述進(jìn)行分類,但是缺少基于復(fù)雜案例的案情描述句和非案情描述句標(biāo)注數(shù)據(jù)集,直接構(gòu)造可用于訓(xùn)練句子分類模型的數(shù)據(jù)集需要一定的時(shí)間和人力成本.考慮到復(fù)雜案例的案情描述句和簡(jiǎn)單案例的案情描述句在語(yǔ)法和語(yǔ)義上具有一致性,一個(gè)簡(jiǎn)單案例通常只有一個(gè)案情描述句,可通過(guò)案例信息提取算法直接提取出來(lái).一個(gè)復(fù)雜案例有幾個(gè)到幾十個(gè)案情描述句,單個(gè)句子均與上述實(shí)例類似.對(duì)非案情描述部分而言,簡(jiǎn)單案例和復(fù)雜案例在句子級(jí)上也具有一致性.因此,由簡(jiǎn)單案例的案例信息提取結(jié)果構(gòu)造訓(xùn)練集,訓(xùn)練句子分類模型,以對(duì)復(fù)雜案例的案情描述進(jìn)行提取,模型的測(cè)試集是基于復(fù)雜案例構(gòu)造的.在句子分類模型的選擇上,選擇了CNN句子分類模型[15].該模型是輕量級(jí)的,不會(huì)占用過(guò)多的時(shí)間成本,并且具有較好的魯棒性,在一定程度上能滿足知識(shí)圖譜構(gòu)建的需要.
以訓(xùn)練好的CNN句子分類模型為中心,前置判決書文本預(yù)處理模塊,后置案情描述輸出模塊,將該模型包裝為復(fù)雜案例的案情抽取模型,嵌入知識(shí)圖譜構(gòu)建系統(tǒng).模型的輸入為判決書文檔,輸出為犯罪情節(jié).該模型為復(fù)雜案例犯罪情節(jié)的提取提供了一個(gè)解決方案.實(shí)驗(yàn)結(jié)果表明,將判決書分為簡(jiǎn)單案例判決書和復(fù)雜案例判決書,以簡(jiǎn)單案例為基礎(chǔ)迭代處理復(fù)雜案例的方法是完全可行的.
“三個(gè)一”精準(zhǔn)化鉆井實(shí)現(xiàn)了技術(shù)措施監(jiān)控由事后處理向事前控制的轉(zhuǎn)變。以往井隊(duì)做出技術(shù)決策后對(duì)公司技術(shù)部門存在不報(bào)或瞞報(bào)問(wèn)題,只有技術(shù)措施執(zhí)行不下去或出現(xiàn)復(fù)雜故障的時(shí)候才向技術(shù)部門匯報(bào)。對(duì)此公司技術(shù)部門采取以下措施:
將刑事判決書的內(nèi)容分為案情描述和非案情描述兩個(gè)部分.針對(duì)刑事判決書中的案情描述,通過(guò)自然語(yǔ)言處理技術(shù)進(jìn)行深入分析,在實(shí)體識(shí)別的基礎(chǔ)上提取構(gòu)成刑事案件的基本要素即案件要素,結(jié)合關(guān)系類型構(gòu)建“實(shí)體-關(guān)系-實(shí)體”三元組.
1.3.1案件要素識(shí)別過(guò)程 在進(jìn)行案例信息提取之后,針對(duì)案情描述部分,依照自然語(yǔ)言處理的通用流程,使用語(yǔ)言技術(shù)平臺(tái)LTP[16]進(jìn)行分詞、詞性標(biāo)注及命名實(shí)體識(shí)別處理.
由于面向司法領(lǐng)域,因此需要構(gòu)造詞典對(duì)案情描述中涉及的名詞如罪名、犯罪動(dòng)作、毒品類案件中的非法毒品名稱等進(jìn)行定義.在對(duì)通用的命名實(shí)體進(jìn)行識(shí)別之后,結(jié)合實(shí)際辦案情況,對(duì)命名實(shí)體識(shí)別的結(jié)果進(jìn)行二次處理,添加非法毒品名稱等類型的實(shí)體,使用BIEOS標(biāo)注方案進(jìn)行表示,最終得到犯罪情節(jié)中的犯案時(shí)間、犯案地點(diǎn)、涉案人、涉案毒品等案件要素信息.
1.3.2關(guān)系定義 本文旨在構(gòu)建對(duì)提供量刑建議有參考價(jià)值的知識(shí)圖譜,因此重點(diǎn)考慮與量刑有關(guān)的關(guān)系類型,對(duì)其他信息暫不考慮.
以涉毒類案件為例,常見(jiàn)的罪名有三類:販賣毒品罪、非法持有毒品罪、容留他人吸毒罪.上述三類罪名中與量刑相關(guān)的犯罪動(dòng)作可劃分為五類,分別為“賣”“買”“持有”“容留”“吸食”;針對(duì)被告人的判決結(jié)果,可將刑罰也劃分為五類,分別為“罰金”“拘役”“有期徒刑”“無(wú)期徒刑”“死刑”.
1.3.3三元組構(gòu)建 針對(duì)非結(jié)構(gòu)化的案情描述,按照定義的關(guān)系類型,結(jié)合語(yǔ)句的語(yǔ)法結(jié)構(gòu)設(shè)定規(guī)則,將識(shí)別案件要素以三元組形式存儲(chǔ).
在確定三元組中兩個(gè)實(shí)體的關(guān)系時(shí),需要通過(guò)分析語(yǔ)法結(jié)構(gòu)中的主謂關(guān)系等進(jìn)行判別.對(duì)文本進(jìn)行依存句法分析,確定語(yǔ)句中各要素之間的句法關(guān)系.依存句法分析是將句子由一個(gè)文本序列轉(zhuǎn)化為一棵結(jié)構(gòu)化的依存分析樹,通過(guò)依存樹上的關(guān)系標(biāo)記來(lái)表示案件要素之間的關(guān)系.
為將每個(gè)案件的犯罪情節(jié)和案例的基本信息聯(lián)系起來(lái),將案例信息同樣存儲(chǔ)為數(shù)據(jù)表的格式,刑事判決書的文書編號(hào)作為外鍵和犯罪情節(jié)的數(shù)據(jù)表進(jìn)行關(guān)聯(lián).針對(duì)每個(gè)情節(jié)的犯案時(shí)間和地點(diǎn),同樣存儲(chǔ)在數(shù)據(jù)表中,通過(guò)指代該情節(jié)三元組的ID值與犯罪情節(jié)的數(shù)據(jù)表相關(guān)聯(lián).
使用的數(shù)據(jù)集為中國(guó)裁判文書網(wǎng)公布的涉毒類案件的刑事判決書,涉毒類案件主要以三類罪名為主,分別為販賣毒品罪、非法持有毒品罪和容留他人吸毒罪.其中販賣毒品案件209 055份,非法持有毒品案件30 927份,容留他人吸毒案件88 600份.根據(jù)簡(jiǎn)單案例和復(fù)雜案例的刑事判決書案情描述部分的書寫結(jié)構(gòu)不同,首先篩選出簡(jiǎn)單案例共247 865份,其余都?xì)w為復(fù)雜案例.
根據(jù)所定義的案例本體結(jié)構(gòu)和提取規(guī)則,設(shè)計(jì)了案例信息提取算法,實(shí)現(xiàn)了案例信息的提取和存儲(chǔ).實(shí)驗(yàn)采用328 582份案例的刑事判決書文本文檔為數(shù)據(jù)集,依據(jù)信息抽取過(guò)程中出現(xiàn)的問(wèn)題,不斷對(duì)規(guī)則進(jìn)行修正和補(bǔ)充,得到最終的案例信息提取算法.
由于數(shù)據(jù)無(wú)標(biāo)注,需要人工對(duì)算法進(jìn)行評(píng)估.對(duì)三類案件的簡(jiǎn)單案例分別隨機(jī)抽取130份進(jìn)行統(tǒng)計(jì),每組進(jìn)行三次實(shí)驗(yàn),采用準(zhǔn)確率和召回率兩個(gè)指標(biāo)作為模型的評(píng)價(jià)標(biāo)準(zhǔn).本文中的準(zhǔn)確率和召回率都是以每篇刑事判決書文檔為單位進(jìn)行定義,準(zhǔn)確率和召回率的計(jì)算公式如下:
針對(duì)三類案件分別進(jìn)行案例信息提取實(shí)驗(yàn),其中販賣毒品罪、非法持有毒品罪和容留他人吸毒罪在文檔級(jí)別的準(zhǔn)確率分別為80.15%、82.34%和81.04%,召回率分別為93.47%、97.26%和94.94%.
由于提取的案例信息中的犯罪情節(jié)部分規(guī)定必須準(zhǔn)確涵蓋該案例的案情描述內(nèi)容,不可以缺少信息,也不能夠包括多余的信息,如證據(jù)、證人證言、公訴機(jī)關(guān)的指控意見(jiàn)等,所以對(duì)準(zhǔn)確率的定義比較嚴(yán)格.而在真實(shí)的刑事判決書中,由于辦案人員寫作風(fēng)格的不同,部分文書中案情描述會(huì)夾雜著證據(jù)、證人證言等內(nèi)容,因此整體而言,案例信息提取算法的總體準(zhǔn)確率主要受犯罪情節(jié)提取準(zhǔn)確率的影響,但三類案件準(zhǔn)確率的平均值都達(dá)到了80%以上.由實(shí)驗(yàn)結(jié)果可以看出,本文的案例信息提取算法可以將刑事判決書中的案例信息有效地抽取出來(lái).
首先針對(duì)販賣毒品類案件訓(xùn)練了CNN句子分類模型.隨機(jī)選取簡(jiǎn)單案例的案情描述句子1 000句作為正例,字長(zhǎng)度大于20的非案情描述句子1 000句作為負(fù)例,以此構(gòu)成訓(xùn)練集,另外在復(fù)雜案例中按上述要求各取300句構(gòu)成測(cè)試集.分別使用初始化詞向量和預(yù)訓(xùn)練詞向量進(jìn)行兩組實(shí)驗(yàn),準(zhǔn)確率分別為65.38%和75.26%,其中預(yù)訓(xùn)練詞向量由30余萬(wàn)份判決書文檔使用Gensim訓(xùn)練得到.
通過(guò)實(shí)驗(yàn)可知,使用預(yù)訓(xùn)練詞向量的效果更好,所以使用預(yù)訓(xùn)練詞向量進(jìn)行后續(xù)實(shí)驗(yàn).由于訓(xùn)練集樣本過(guò)少,得到的模型不足以被系統(tǒng)使用,故將訓(xùn)練集擴(kuò)大到5 000句正例和5 000句負(fù)例,將測(cè)試集擴(kuò)大到1 000句正、負(fù)例.當(dāng)訓(xùn)練集規(guī)模達(dá)到10 000句時(shí),準(zhǔn)確率可達(dá)到91.51%,與案例信息提取算法對(duì)簡(jiǎn)單案例的案情描述提取結(jié)果相當(dāng),因此該分類模型可以被系統(tǒng)采用.在10 000句訓(xùn)練集的基礎(chǔ)上,還分別基于SVM分類模型、邏輯回歸模型和隨機(jī)森林方法進(jìn)行了對(duì)比實(shí)驗(yàn),準(zhǔn)確率分別為85.34%、84.15%和84.40%,結(jié)果均弱于本文采用的CNN句子分類模型.
驗(yàn)證了CNN句子分類模型的效果之后,又分別針對(duì)非法持有毒品類案件和容留他人吸毒類案件訓(xùn)練了CNN句子分類模型.以準(zhǔn)確率作為參考指標(biāo)衡量模型的提取效果,販賣毒品罪、非法持有毒品罪和容留他人吸毒罪的實(shí)驗(yàn)結(jié)果分別為91.51%、93.24%和89.77%.
構(gòu)建的知識(shí)圖譜中包含非犯罪情節(jié)和犯罪情節(jié)兩部分內(nèi)容.非犯罪情節(jié)部分是指通過(guò)案例信息提取算法提取的案例基本信息表;犯罪情節(jié)部分是圍繞定義的五類犯罪關(guān)系和五類判決結(jié)果關(guān)系,將與量刑相關(guān)的文字描述處理為多個(gè)結(jié)構(gòu)化的三元組形式,然后進(jìn)行存儲(chǔ),形成犯罪情節(jié)信息表,同時(shí)將犯罪情節(jié)的時(shí)間和地點(diǎn)也存儲(chǔ)為數(shù)據(jù)表的形式,構(gòu)成基于司法案例的知識(shí)圖譜.
以“陳某容留他人吸毒案(2017)川1 681刑初63號(hào)”文件為例,其中針對(duì)犯罪情節(jié)的描述為:“1. 2017年4月初的一天,被告人陳某在華鎣市XX路XX號(hào)其家中容留王某某吸食毒品甲基苯丙胺(冰毒).2. 2017年4月21日晚,被告人陳某在華鎣市XX路XX號(hào)容留柏某、王某吸食毒品甲基苯丙胺……”;針對(duì)判決結(jié)果的描述為:“判處有期徒刑九個(gè)月,并處罰金人民幣6 000元”.
以此為基礎(chǔ)構(gòu)建的三元組形式示例如表2所示.可以看出,用本文的方法準(zhǔn)確地將犯罪情節(jié)中的各個(gè)案件要素抽取出來(lái),并與關(guān)系對(duì)應(yīng),形成“實(shí)體-關(guān)系-實(shí)體”三元組形式,同時(shí)將被告人的判決結(jié)果處理為數(shù)字化形式,刑期以[年, 月, 日]的形式存儲(chǔ),可以進(jìn)行對(duì)案件情節(jié)和判決結(jié)果的統(tǒng)計(jì).
以三類涉毒類案件為數(shù)據(jù)基礎(chǔ)進(jìn)行了知識(shí)圖譜的構(gòu)建,建成的知識(shí)圖譜中“實(shí)體-關(guān)系-實(shí)體”三元組共274萬(wàn)余個(gè),包含涉及量刑的犯罪情節(jié)和判決結(jié)果的信息.基于本文構(gòu)建的知識(shí)圖譜,可以方便地進(jìn)行查詢、統(tǒng)計(jì)等應(yīng)用.表3給出了三類案件簡(jiǎn)單案例中的罰金分布統(tǒng)計(jì)情況.
表2 量刑相關(guān)的三元組形式示例Tab.2 Form of the triples related to measurement of penalty
表3 三類案件簡(jiǎn)單案例中的罰金分布統(tǒng)計(jì)情況Tab.3 Statistics of fines in simple cases of the three crimes
針對(duì)2004—2017年公開(kāi)的30余萬(wàn)份涉毒類案件刑事判決書,構(gòu)建了面向涉毒類刑事案件的知識(shí)圖譜.基于所構(gòu)建的知識(shí)圖譜,可實(shí)現(xiàn)對(duì)相關(guān)案件關(guān)鍵情節(jié)和判決結(jié)果的統(tǒng)計(jì)分析,為司法文書的智能化處理提供數(shù)據(jù)基礎(chǔ).下一步的工作將對(duì)已構(gòu)建的知識(shí)圖譜進(jìn)行完善,對(duì)指代同一事物的實(shí)體進(jìn)行實(shí)體消歧,同時(shí)繼續(xù)挖掘判決書的文本特征,改進(jìn)案件要素提取算法,訓(xùn)練針對(duì)多類案件的多分類模型,以及評(píng)估多分類模型的優(yōu)良性.