結(jié)合網(wǎng)絡(luò)表示學(xué)習(xí)和文本卷積網(wǎng)絡(luò)的類案發(fā)現(xiàn)

2022-01-25 18:54梁鴻翔張步燁李煒卓程茜雅

計(jì)算機(jī)工程與應(yīng)用 2022年2期

梁鴻翔，張步燁，李煒卓，程茜雅

1.中國(guó)航天科工集團(tuán)第二研究院，北京 100854

2.東南大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院，南京 211189

3.東南大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院，南京 211189

在智能革命時(shí)代背景下，“智慧法院”的建設(shè)正如火如荼地進(jìn)行，并已取得階段性實(shí)效。與此同時(shí)，如何對(duì)法院系統(tǒng)中豐富的案例進(jìn)行語(yǔ)義檢索并有效地利用已經(jīng)成為了智慧司法研究的共識(shí)[1]?！巴覆煌小币恢笔怯绊懰痉ü帕Φ闹匾蛑?，也是司法體制改革與檢察改革所關(guān)注的重要問(wèn)題[2]。作為智慧法院的核心應(yīng)用之一，相似裁判文書的發(fā)現(xiàn)（簡(jiǎn)稱類案發(fā)現(xiàn)）有助于解決司法過(guò)程中的裁判尺度不統(tǒng)一、類案不同、量刑不規(guī)范等問(wèn)題。

然而，衡量裁判文書之間的相似性是一項(xiàng)重大挑戰(zhàn)，主要表現(xiàn)在以下兩個(gè)方面[2]：一方面，裁判文書通常正文篇幅較長(zhǎng)且結(jié)構(gòu)復(fù)雜，往往難以提取裁判文書中的核心要素；另一方面，單個(gè)裁判文書可能牽涉到不同的法律問(wèn)題。例如，對(duì)于網(wǎng)絡(luò)虛擬財(cái)產(chǎn)盜竊案件的定性，不同法院持有不同觀點(diǎn)。一部分法院認(rèn)為網(wǎng)絡(luò)虛擬財(cái)產(chǎn)不屬于現(xiàn)實(shí)財(cái)產(chǎn)，不符合盜竊罪的構(gòu)成要件，故不構(gòu)成盜竊罪，應(yīng)以非法獲取計(jì)算機(jī)信息系統(tǒng)數(shù)據(jù)罪定罪處罰。也有其他法院認(rèn)為網(wǎng)絡(luò)虛擬財(cái)產(chǎn)也凝結(jié)了他人無(wú)差別的人類勞動(dòng)，屬于財(cái)產(chǎn)，應(yīng)以盜竊罪定罪處罰。上述問(wèn)題均給衡量文書之間的相似性帶來(lái)了巨大挑戰(zhàn)。

近些年來(lái)，國(guó)內(nèi)外學(xué)者嘗試從不同的角度設(shè)計(jì)模型來(lái)克服上述挑戰(zhàn)。例如，王君澤等人[3]嘗試將裁判文書對(duì)篇章結(jié)構(gòu)和語(yǔ)言表述方面的特征進(jìn)行建模利用，并設(shè)計(jì)相應(yīng)的案情相似度模型來(lái)發(fā)現(xiàn)裁判文書的相似性。王祿生[4]通過(guò)構(gòu)建法律圖譜，并利用圖譜的結(jié)構(gòu)化信息來(lái)提升相似裁判文書的發(fā)現(xiàn)效果。相對(duì)的，印度學(xué)者[5-6]嘗試用引文網(wǎng)絡(luò)來(lái)對(duì)裁判文書進(jìn)行建模，并取得了一定的效果。除此之外，一些學(xué)者嘗試將類案發(fā)現(xiàn)轉(zhuǎn)化為分類任務(wù)[7]，利用監(jiān)督學(xué)習(xí)模型來(lái)進(jìn)行建模，從而根據(jù)預(yù)測(cè)的分類結(jié)果進(jìn)行相似案件的發(fā)現(xiàn)[8-10]。

然而，將上述方法運(yùn)用在真實(shí)的類案發(fā)現(xiàn)場(chǎng)景卻存在兩點(diǎn)局限性。首先，真實(shí)的裁判文書的罪名種類較多且判決的粗細(xì)粒度不同，僅利用裁判文書在篇章結(jié)構(gòu)和語(yǔ)言表述來(lái)提取的特征無(wú)法保證其對(duì)多類罪名的泛化能力。另一方面，真實(shí)場(chǎng)景中的裁判文書數(shù)量十分巨大，基于網(wǎng)絡(luò)關(guān)聯(lián)的方法雖然可以構(gòu)建關(guān)于裁判文書的語(yǔ)義網(wǎng)絡(luò)，但仍然無(wú)法勝任大規(guī)模的網(wǎng)絡(luò)計(jì)算，且無(wú)法有效地將法律的先驗(yàn)知識(shí)與標(biāo)簽信息進(jìn)行融合。相對(duì)而言，基于監(jiān)督學(xué)習(xí)的分類模型雖然可以在整體上保證類案發(fā)現(xiàn)的精度，但判斷的罪名一旦存在偏差，輸出的結(jié)果則會(huì)給法律工作人員帶來(lái)較差的體驗(yàn)。

為此，本文提出了一種基于網(wǎng)絡(luò)表示學(xué)習(xí)和文本卷積網(wǎng)絡(luò)的類案發(fā)現(xiàn)方法。方法分別從無(wú)監(jiān)督與有監(jiān)督的視角來(lái)編碼裁判文書中的信息，并在原有模型的基礎(chǔ)上利用法律知識(shí)體系進(jìn)行了改進(jìn)。最終，方法采用設(shè)計(jì)的投票機(jī)制將兩類模型的輸出結(jié)果進(jìn)行融合。實(shí)驗(yàn)表明，本文提出的方法較已有方法能在類案發(fā)現(xiàn)任務(wù)中取得更好的效果。

1 研究現(xiàn)狀

對(duì)于相似裁判文書發(fā)現(xiàn)任務(wù)，可以將其視為相似文本發(fā)現(xiàn)的一類特殊情況[11]。目前的文本相似度計(jì)算方法主要包括基于統(tǒng)計(jì)的方法和基于語(yǔ)義嵌入的方法兩大類。

基于統(tǒng)計(jì)的方法主要是統(tǒng)計(jì)文本中各詞項(xiàng)的出現(xiàn)頻度，以詞頻信息為基礎(chǔ)來(lái)計(jì)算文本之間的相似度，其代表為詞頻-逆文檔頻率（term frequency-inverse document frequency，TF-IDF）[12]。方法首先將已有裁判文書中的詞進(jìn)行收集。然后，針對(duì)每一個(gè)文檔，將其拆解成多個(gè)詞，并利用詞頻與逆文檔頻率公式得到每個(gè)詞的TF-IDF值。最終，集合中的每一個(gè)文檔可以由所有詞所組成的向量進(jìn)行表示，其中每一維的取值為詞所相應(yīng)的TF-IDF值。如果該詞未在裁判文書中出現(xiàn)，對(duì)應(yīng)的維度取值為0。相對(duì)的，概率潛在語(yǔ)義分析（probabilistic latent semantic analysis，PLSA）[13]和潛在狄利克雷分布（latent dirichlet allocation，LDA）[14]的提出不僅提高了向量空間模型的計(jì)算效率，同時(shí)也降低了多義性和同義詞的影響。

隨著詞嵌入技術(shù)的興起，越來(lái)越多基于語(yǔ)言模型的無(wú)監(jiān)督嵌入模型被研發(fā)出來(lái)，并逐步運(yùn)用到相似文本的計(jì)算中來(lái)。Par2Vec[15]模型作為Word2Vec[16]的拓展，它對(duì)文本中包含的每一個(gè)單詞進(jìn)行逐一預(yù)測(cè)，但并不會(huì)考慮單詞的順序或是更加復(fù)雜的信息。這種方法證實(shí)了通過(guò)訓(xùn)練一個(gè)文檔向量去衡量?jī)蓚€(gè)文檔的相似性是可行的。BERT（bidirectional encoder representations from transformers）[17]是繼Word2Vec之后，谷歌提出的一種大規(guī)模預(yù)訓(xùn)練方法。BERT使用Transformer[18]作為框架，能夠更好地捕獲語(yǔ)句的前向后向關(guān)系，Transformer中的Self-Attention改善了長(zhǎng)距離文本的表示效果。此外，BERT利用訓(xùn)練語(yǔ)句中被遮蓋的詞和預(yù)測(cè)文檔中的下一句話進(jìn)行訓(xùn)練，從而加強(qiáng)了預(yù)訓(xùn)練的效果。

近些年來(lái)，國(guó)內(nèi)外學(xué)者嘗試將文本相似度的技術(shù)引入到相似裁判文書發(fā)現(xiàn)的任務(wù)中來(lái)。王君澤等人[3]依據(jù)裁判文書的書寫規(guī)范，設(shè)計(jì)了案件事實(shí)部分的抽取策略;同時(shí)，他們依據(jù)詞性的不同對(duì)裁判文書中的詞項(xiàng)進(jìn)行分類，并根據(jù)不同類詞性的重要程度來(lái)設(shè)計(jì)了一個(gè)案情相似的計(jì)算模型。王祿生[4]則提出了利用法律圖譜的思路來(lái)描述案件畫像，這不僅可以解決類案發(fā)現(xiàn)識(shí)別準(zhǔn)確率低的問(wèn)題，同時(shí)也有助于法官來(lái)梳理案件的情節(jié)。相對(duì)的，印度學(xué)者M(jìn)inocha等人[5]發(fā)現(xiàn)了國(guó)外裁判文書引用網(wǎng)絡(luò)的特殊性。由于基于案件文本特征的相似度計(jì)算策略往往不如引用網(wǎng)絡(luò)的相似度計(jì)算策略，因此，他們嘗試?yán)靡木W(wǎng)絡(luò)來(lái)對(duì)裁判文書進(jìn)行建模。Kumar等人[6]則進(jìn)一步利用“段落銜接”的方法來(lái)改善引文網(wǎng)絡(luò)在相似裁判文書發(fā)現(xiàn)上的效果。除此之外，也有部分學(xué)者嘗試將類案發(fā)現(xiàn)轉(zhuǎn)化為多分類任務(wù)[7]，利用有監(jiān)督學(xué)習(xí)模型根據(jù)裁判文書中的罪名標(biāo)簽進(jìn)行建模。在預(yù)測(cè)的過(guò)程中，再根據(jù)預(yù)測(cè)罪名的概率分布來(lái)進(jìn)行相似案件的推送[8-10]。

可以發(fā)現(xiàn)，目前關(guān)于相似裁判文書發(fā)現(xiàn)的各類研究工作仍存在不足。王君澤等人[3]與王祿生[4]的工作雖然考慮了法律先驗(yàn)知識(shí)的重要性，但對(duì)于標(biāo)注提出了很高的要求，人工參與的代價(jià)巨大。因此，面對(duì)罪名種類多樣的裁判文書，該類方法的泛化能力十分受限。相對(duì)的，Minocha等人[5]與Kumar等人[6]提出的引文網(wǎng)絡(luò)則屬于無(wú)監(jiān)督學(xué)習(xí)模型的。面對(duì)上百萬(wàn)份的法律文書，方法雖然可以構(gòu)建關(guān)于裁判文書的語(yǔ)義網(wǎng)絡(luò)，但仍然無(wú)法勝任大規(guī)模網(wǎng)絡(luò)計(jì)算且無(wú)法有效地將法律的先驗(yàn)知識(shí)與標(biāo)簽信息進(jìn)行融合。相對(duì)而言，基于監(jiān)督學(xué)習(xí)的分類模型[8-10]雖然能夠在整體上保證類案發(fā)現(xiàn)任務(wù)的準(zhǔn)確率，但罪名判斷一旦出現(xiàn)錯(cuò)誤，全部錯(cuò)誤的文書推送則會(huì)給法律工作者人員帶來(lái)較差的體驗(yàn)。

本文提出的方法則是將無(wú)監(jiān)督學(xué)習(xí)模型與有監(jiān)督的模型的優(yōu)勢(shì)進(jìn)行結(jié)合，并在原有模型的基礎(chǔ)上利用法律知識(shí)體系對(duì)其負(fù)采樣策略進(jìn)行了改進(jìn)。最終，方法基于提出的投票機(jī)制將兩類模型的輸出結(jié)果進(jìn)行融合，從而得到更好的類案發(fā)現(xiàn)結(jié)果。

2 研究方法

2.1 方法技術(shù)路線

在介紹本文提出的方法之前，首先給出相似裁判文書的建模描述。

相似裁判文書建模.給定裁判文書的集合D，相似裁判文書的建模在于學(xué)習(xí)到一個(gè)目標(biāo)函數(shù)f:D×D→R+，使得f(di,dj)能夠度量任何兩個(gè)裁判文書di,dj∈D的語(yǔ)義相似度。

圖1為文中相似裁判文書發(fā)現(xiàn)的具體處理流程。對(duì)于獲取到的裁判文書，方法首先采用文本嵌入學(xué)習(xí)模型對(duì)裁判文書以及相應(yīng)的法律實(shí)體進(jìn)行預(yù)訓(xùn)練，得到它們的初始向量表示。隨后，方法將裁判文書與法律實(shí)體的向量表示分別輸入到法律網(wǎng)絡(luò)模塊與罪名預(yù)測(cè)模塊中，并利用網(wǎng)絡(luò)表示學(xué)習(xí)模型與文本卷積網(wǎng)絡(luò)模型進(jìn)行相應(yīng)的模型訓(xùn)練。最后，方法根據(jù)設(shè)計(jì)的投票機(jī)制將兩類模型的輸出結(jié)果進(jìn)行有效融合，并將前k條相似的裁判文書進(jìn)行推送。

圖1 技術(shù)路線概覽Fig.1 Overview of technique route

2.2 文本預(yù)處理

對(duì)于獲取到的裁判文書，方法首先對(duì)裁判文書進(jìn)行中文分詞。考慮到中文描述上的差異性，方法對(duì)不同俗稱的法律實(shí)體名稱按法律術(shù)語(yǔ)進(jìn)行歸一化處理（如：案由與起訴罪名）。同時(shí)，對(duì)一些復(fù)雜的法律實(shí)體描述字段進(jìn)行簡(jiǎn)化（如：盜竊的贓物、犯案時(shí)間），以此來(lái)緩解模型訓(xùn)練時(shí)詞條的長(zhǎng)尾現(xiàn)象。

本文利用文本嵌入學(xué)習(xí)模型對(duì)裁判文書以及分詞得到的實(shí)體進(jìn)行預(yù)訓(xùn)練，得到裁判文書與法律實(shí)體預(yù)訓(xùn)練后的初始向量表示。具體地說(shuō)，方法利用BERT[17]來(lái)捕獲詞在語(yǔ)句中的前向后向關(guān)系。相比于早期的Word2Vec[16]、Par2Vec[15]，BERT使用Transformer[18]作為框架，其中的Self-Attention可以提高長(zhǎng)距離文本的表示效果。除此之外，BERT利用訓(xùn)練語(yǔ)句中被遮蓋的詞和預(yù)測(cè)文檔中的下一句話進(jìn)行訓(xùn)練，從而加強(qiáng)了預(yù)訓(xùn)練的效果。

通過(guò)文本預(yù)訓(xùn)練的方式能夠在一定程度上保留法律實(shí)體（詞項(xiàng)）在裁判文書中的語(yǔ)義信息，而生成的文本詞向量能夠使得法律網(wǎng)絡(luò)模塊與罪名預(yù)測(cè)模塊獲得更好的輸出結(jié)果。

2.3 法律網(wǎng)絡(luò)模塊

網(wǎng)絡(luò)表示是銜接網(wǎng)絡(luò)原始數(shù)據(jù)和網(wǎng)絡(luò)應(yīng)用任務(wù)的橋梁，記作G=(V,E)，其中V是節(jié)點(diǎn)集合，E是邊的集合，邊e=(vi,vj)∈E表示了節(jié)點(diǎn)vi到vj的一條邊[19]。網(wǎng)絡(luò)的鄰接矩陣定義為A∈R|V|×|V|，其中如果(vi,vj)∈E則Aij=1，否則Aij=0。鄰接矩陣是信息網(wǎng)絡(luò)中的一種簡(jiǎn)單直接的關(guān)聯(lián)表達(dá)形式。鄰接矩陣A的每一行描述了一個(gè)節(jié)點(diǎn)和所有其他節(jié)點(diǎn)的鏈接關(guān)系，可以看作是對(duì)應(yīng)節(jié)點(diǎn)的一種表示。

盡管鄰接矩陣表示直接，但這樣的網(wǎng)絡(luò)表示受到計(jì)算效率問(wèn)題的影響。可以發(fā)現(xiàn)，鄰接矩陣A需要占用|V|×|V|的存儲(chǔ)空間。這在|V|增長(zhǎng)到百萬(wàn)級(jí)時(shí)，計(jì)算的代價(jià)通常是不可接受的。另一方面，鄰接矩陣中絕大部分的數(shù)值為0，這種數(shù)據(jù)的稀疏性使得統(tǒng)計(jì)學(xué)習(xí)方法快速有效的應(yīng)用變得十分困難。為此，研究者們提出了網(wǎng)絡(luò)表示學(xué)習(xí)的思路[19]，他們嘗試將網(wǎng)絡(luò)中的節(jié)點(diǎn)編碼為低維稠密的實(shí)值向量v∈Rd，其中d?|V|，在模型編碼的過(guò)程中，通過(guò)擬定的目標(biāo)函數(shù)將網(wǎng)絡(luò)的結(jié)構(gòu)信息與實(shí)體之間的語(yǔ)義關(guān)聯(lián)進(jìn)行有效的保留。

受到該類網(wǎng)絡(luò)表示學(xué)習(xí)的啟發(fā)，本文首先利用裁判文書以及相應(yīng)它們關(guān)聯(lián)的法律實(shí)體（詞項(xiàng)）來(lái)構(gòu)建成法律網(wǎng)絡(luò)，通過(guò)網(wǎng)絡(luò)表示學(xué)習(xí)模型來(lái)學(xué)習(xí)它們的語(yǔ)義向量表示，繼而計(jì)算裁判文書之間的語(yǔ)義相似度。本文使用網(wǎng)絡(luò)表示學(xué)習(xí)模型為L(zhǎng)INE[20]。為了更好地區(qū)分LINE模型中的一階鄰接關(guān)系與二階鄰接關(guān)系，將構(gòu)建的法律網(wǎng)絡(luò)的節(jié)點(diǎn)分為上下兩層，上層的節(jié)點(diǎn)用裁判文書的ID來(lái)表示其唯一性，下層的節(jié)點(diǎn)為所有的法律實(shí)體，當(dāng)法律實(shí)體在相應(yīng)的裁判文書出現(xiàn)時(shí)，則在兩個(gè)節(jié)點(diǎn)之間添加一條邊，構(gòu)建的法律網(wǎng)絡(luò)樣式如圖2所示。

圖2 基于LINE的法律網(wǎng)絡(luò)建模Fig.2 Legal network modeling based on LINE

由于在類案發(fā)現(xiàn)業(yè)務(wù)中裁判文書之間的鄰接關(guān)系未知，因此在法律網(wǎng)絡(luò)模塊中直接采用了LINE的二階鄰接關(guān)系來(lái)進(jìn)行建模。在二階鄰接關(guān)系中，LINE模型假設(shè)兩個(gè)節(jié)點(diǎn)（裁判文書）共享連接的其他節(jié)點(diǎn)越多，那么這兩個(gè)節(jié)點(diǎn)彼此越相似。這些共享的節(jié)點(diǎn)（法律實(shí)體）被視為特定的“上下文”，并且假設(shè)在“上下文”上具有相似分布的節(jié)點(diǎn)是相似的。為了維持二階鄰接關(guān)系，LINE模型要求每一個(gè)低維表示節(jié)點(diǎn)所指定的上下文的條件分布接近經(jīng)驗(yàn)分布。相應(yīng)的目標(biāo)函數(shù)定義如下：

其中，O2表示LINE二階鄰接關(guān)系的損失函數(shù)，vi表示標(biāo)號(hào)為i的節(jié)點(diǎn)，V表示節(jié)點(diǎn)上下文節(jié)點(diǎn)的集合（這里指的是兩跳以內(nèi)的節(jié)點(diǎn)）。為前節(jié)點(diǎn)的聲譽(yù)值，其中wik為每個(gè)節(jié)點(diǎn)出度的權(quán)重，p2(?|vi)表示節(jié)點(diǎn)的條件分布，表示節(jié)點(diǎn)的經(jīng)驗(yàn)分布，d(?,?)表示兩個(gè)分布的距離。LINE通過(guò)最大化這個(gè)概率來(lái)更新節(jié)點(diǎn)的向量表示。模型對(duì)序列中的每個(gè)節(jié)點(diǎn)計(jì)算它的條件概率，即該節(jié)點(diǎn)出現(xiàn)的情況下序列中其他節(jié)點(diǎn)出現(xiàn)的概率的log值。

由于整體優(yōu)化公式（1）代價(jià)太高，為此方法采用了文獻(xiàn)[16]的負(fù)采樣策略，根據(jù)每條邊(ui,uj)∈E的噪聲分布進(jìn)行負(fù)采樣。具體的目標(biāo)函數(shù)如公式（2）所示：

其中，σ=1/(1+exp(-x))為sigmoid函數(shù)，ui、uj表示網(wǎng)絡(luò)中的節(jié)點(diǎn)的向量表示，為文獻(xiàn)[16]定義的負(fù)采樣分布。簡(jiǎn)單來(lái)說(shuō)，對(duì)于每條邊(ui,uj)∈E，在節(jié)點(diǎn)集合V中按負(fù)采樣分布尋找其他的節(jié)點(diǎn)進(jìn)行替換生成一個(gè)負(fù)例(ui,uj′)或者(ui′,uj)。

由于法律的專有名詞之間可能存在一定的邏輯關(guān)聯(lián)，因此本文嘗試?yán)梅芍R(shí)體系的弱層次關(guān)系對(duì)負(fù)采樣所替換的實(shí)體進(jìn)行約束。具體來(lái)說(shuō)，當(dāng)節(jié)點(diǎn)ui或者uj為知識(shí)體系中的專有名詞（如著作權(quán)），那么該專有名詞的上位概念（如知識(shí)產(chǎn)權(quán)）與下位概念（如軟件開發(fā)權(quán)）均不能作為替換節(jié)點(diǎn)ui′或者uj′。除此之外，當(dāng)兩個(gè)實(shí)體在裁判文書中的點(diǎn)互信息（pointwise mutual information）大于一定閾值時(shí)，負(fù)采樣過(guò)程應(yīng)將該類配對(duì)的情況予以排除。

2.4 罪名預(yù)測(cè)模塊

模塊采用的罪名預(yù)測(cè)模型為文本卷機(jī)網(wǎng)絡(luò)模型TextCNN[21]，它是將卷積神經(jīng)網(wǎng)絡(luò)CNN應(yīng)用到文本分類任務(wù)，利用多個(gè)不同大小的核函數(shù)來(lái)提取句子中的關(guān)鍵信息（類似于多窗口大小的n-gram），從而能夠更好地捕捉局部相關(guān)性。

基于TextCNN的罪名預(yù)測(cè)模塊如圖3所示。首先，根據(jù)BERT預(yù)訓(xùn)練好的詞向量矩陣輸入到文本中得到每個(gè)詞語(yǔ)的向量表示。然后，將詞向量序列依次送入由卷積層、激活層和池化層構(gòu)成的特征抽取器，提取文本的語(yǔ)義特征。最后，將特征向量送入由兩層全連接層和一層激活層組成的分類器，進(jìn)行分類預(yù)測(cè)，輸出每項(xiàng)罪名的分類概率。

圖3 文本卷積網(wǎng)絡(luò)的整體框圖Fig.3 Whole diagram of TextCNN

考慮裁判文書的內(nèi)容較長(zhǎng)，但段落之間的關(guān)系和邏輯性較為緊密，因此用TextCNN來(lái)進(jìn)行建模較為合理。此外，TextRNN[22]與FastText[23]同樣可以用于罪名的分類判斷，但從裁判文書罪名分類的實(shí)際應(yīng)用效果上來(lái)看，TextCNN較兩者更加合適。

2.5 模塊融合

基于LINE的網(wǎng)絡(luò)表示模型應(yīng)用在類案發(fā)現(xiàn)中分為線下與線上兩個(gè)部分：（1）當(dāng)裁判文書已經(jīng)存在于構(gòu)建的法律網(wǎng)絡(luò)中（線下），則直接利用裁判文書之間的向量表示來(lái)計(jì)算它們之間的相似度。（2）對(duì)于新的裁判文書（線上），由于未出現(xiàn)在法律網(wǎng)絡(luò)中，因此需要根據(jù)裁判文書所關(guān)聯(lián)的實(shí)體來(lái)獲得它們之間的相似度。通用的做法是利用關(guān)聯(lián)實(shí)體向量的算術(shù)平均來(lái)表示該裁判文書的語(yǔ)義向量[24]，相關(guān)的公式定義如下：

其中，n為裁判文書所關(guān)聯(lián)的法律實(shí)體個(gè)數(shù)，ei為基于網(wǎng)絡(luò)表示學(xué)習(xí)模型訓(xùn)練后的法律實(shí)體向量表示。類似的，已存在網(wǎng)絡(luò)中的裁判文書也需要通過(guò)它們關(guān)聯(lián)的法律實(shí)體向量來(lái)表示其語(yǔ)義向量，以此來(lái)統(tǒng)一相似裁判文書的計(jì)算。

相對(duì)的，基于TextCNN的罪名預(yù)測(cè)模塊，可以直接根據(jù)新輸入的罪名得到相應(yīng)罪名的分類概率。本文將概率最大的罪名作為分類的結(jié)果。

考慮LINE與TextCNN分別采用無(wú)監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)的策略。因此，在相似文書發(fā)現(xiàn)時(shí)，本文采用投票的機(jī)制進(jìn)一步對(duì)兩類模型結(jié)果進(jìn)行融合。具體的融合策略如算法1所示。在得到LINE模型推送的前1 000條相似度裁判文書以及TextCNN模型判斷的罪名類別CType后，首先統(tǒng)計(jì)前1 000條裁判文書中的罪名類型與數(shù)量。當(dāng)CType屬于排名前3種罪名類別時(shí)，根據(jù)具體的排名以及相應(yīng)罪名的數(shù)量進(jìn)行相似文書的推送。步驟3、4返回的是保留罪名類型為CType的前k條相似文書，步驟5、6返回的是保留罪名類型為Type1的前k條相似文書。當(dāng)CType不屬于排名前3種罪名類型時(shí)，直接返回原LINE模型推送的前k條相似文書。

算法1基于LINE與TextCNN的投票策略

輸入：基于LINE模型獲得的前1 000條推送裁判文書集合D，基于TextCNN獲取的罪名分類CType

輸出：前k條相似的文書

1.[Typei,Numi]←降序統(tǒng)計(jì)集合D的罪名類型與數(shù)量

2.If CType∈{Type1,Type2,Type3}

3.If CType=={Type1}or(Num1≤500)

4.return LINE的推送結(jié)果中罪名類型為CType的前k條相似文書

5.else if(Num1>500)

6.return LINE的推送結(jié)果中罪名類型為Type1的前k條相似文書

7.else

8.return LINE推送結(jié)果的前k條相似文書

3 結(jié)果與討論

3.1 數(shù)據(jù)來(lái)源

實(shí)驗(yàn)的數(shù)據(jù)來(lái)自于國(guó)雙提供的裁判文書，將其細(xì)分為小規(guī)模數(shù)據(jù)集（記作Legal-Small）與全數(shù)據(jù)集（記作Whole-Small），具體統(tǒng)計(jì)如表1所示。

表1 裁判文書數(shù)據(jù)集統(tǒng)計(jì)Table 1 Statistics of data sets of judgment documents

小規(guī)模數(shù)據(jù)集總計(jì)20 635份。一共包含詐騙罪，盜竊罪，毒品走私罪，尋釁滋事罪，危險(xiǎn)駕駛罪，搶劫罪，拐賣婦女兒童罪，生產(chǎn)、銷售假藥罪，非法持有、私藏槍支彈藥罪，開設(shè)賭場(chǎng)罪10種類常見的罪名類型。對(duì)于評(píng)估樣本，本文從法信網(wǎng)（http：//www.faxin.cn/）上基于詐騙罪，盜竊罪，走私、販賣、運(yùn)輸、制造毒品罪，尋釁滋事罪，危險(xiǎn)駕駛罪隨機(jī)各自選取了5份案例進(jìn)行評(píng)估測(cè)試。

全數(shù)據(jù)集總計(jì)160 112份。一共涉及法律案由中涉及一級(jí)到三級(jí)共365類常見的罪名類型。對(duì)于評(píng)估樣本，本文從法信網(wǎng)上基于詐騙罪、交通肇事罪、盜竊罪、制造毒品罪、走私毒品罪、非法吸收公眾存款罪隨機(jī)各自選取了10份案例進(jìn)行評(píng)估測(cè)試。

3.2 對(duì)比方法與評(píng)估方式

為了驗(yàn)證本文提出方法在相似裁判文書發(fā)現(xiàn)中的有效性。實(shí)驗(yàn)分別選取TF-IDF[12]、LDA[14]、Par2Vec[15]、BERT[17]、TextCNN[21]、DeepWalk[25]、LINE[20]來(lái) 進(jìn) 行對(duì)比。其中TF-IDF、LDA為相似文本任務(wù)中統(tǒng)計(jì)方法的代表，本文通過(guò)詞項(xiàng)的統(tǒng)計(jì)數(shù)值來(lái)組成向量，以此來(lái)獲得裁判文書的向量表示。Par2Vec、BERT為文本嵌入學(xué)習(xí)方法的代表，本文利用其端到端的思想直接訓(xùn)練得到裁判文書的向量表示。TextCNN為罪名文本分類模型。預(yù)測(cè)時(shí)，模型根據(jù)的罪名輸出類別進(jìn)行過(guò)濾推送。DeepWalk、LINE為網(wǎng)絡(luò)表示學(xué)習(xí)模型的代表（GraRep[26]與Node2Vec[27]等模型由于實(shí)驗(yàn)室工作站硬件條件不足，無(wú)法在該數(shù)據(jù)集上進(jìn)行訓(xùn)練），建模的方式與本文中的法律網(wǎng)絡(luò)模塊一致（見2.3節(jié)）。本文的方法則是基于改進(jìn)后的LINE與TextCNN模型，結(jié)合設(shè)計(jì)的投票機(jī)制提出的聯(lián)合方法，記為L(zhǎng)egal-E。其中文本預(yù)處理選用BERT作為預(yù)選訓(xùn)練模型來(lái)獲得裁判文書與法律實(shí)體的初始向量表示。上述方法均在PyTorch（https：//pytorch.org/）與OpenNE（https：//github.com/thunlp/OpenNE）平臺(tái)的幫助下以Python語(yǔ)言進(jìn)行實(shí)現(xiàn)，實(shí)驗(yàn)訓(xùn)練與測(cè)試均采用個(gè)人工作站進(jìn)行完成，其中CPU為安擎E5-2620V4*2，內(nèi)存為128 GB。針對(duì)中文描述的裁判文書，方法選用結(jié)巴中文分詞工具（https：//github.com/fxsjy/jieba）來(lái)對(duì)其描述內(nèi)容進(jìn)行中文分詞處理。

實(shí)驗(yàn)共邀請(qǐng)3位人民檢察院的法律專家對(duì)類案發(fā)現(xiàn)的結(jié)果進(jìn)行評(píng)估，重點(diǎn)從罪名和犯罪情節(jié)兩方面來(lái)進(jìn)行度量。簡(jiǎn)單來(lái)說(shuō)，如果推送裁判文書與測(cè)試文書中的罪名和犯罪情節(jié)都一致，記1.0分。如果罪名不對(duì)，記0分。如果罪名相符但情節(jié)偏差較大，則記0.5分。具體評(píng)估公式如下：

其中，scoreij表示第j位專家對(duì)推送的第i篇裁判文書進(jìn)行打分，k為方法推送的裁判文書數(shù)量，在實(shí)驗(yàn)評(píng)估中k=10。

3.3 實(shí)驗(yàn)結(jié)果與原因分析

小規(guī)模數(shù)據(jù)集的類案發(fā)現(xiàn)實(shí)驗(yàn)結(jié)果如表2所示。整體來(lái)說(shuō)，TF-IDF與LDA在P@10的指標(biāo)上均好于文本嵌入學(xué)習(xí)模型Par2Vec與BERT，可以發(fā)現(xiàn)詞頻相對(duì)于文檔上下文在類案發(fā)現(xiàn)任務(wù)中發(fā)揮了更大的作用。相對(duì)的，BERT對(duì)文本序列的正向與反向詞之間的依存關(guān)系均進(jìn)行了建模，因此效果較Par2Vec更好。而單獨(dú)的TextCNN則因?yàn)閱蝹€(gè)案例的罪名預(yù)測(cè)出現(xiàn)了部分誤判，導(dǎo)致整體的類案發(fā)現(xiàn)效果不佳。基于網(wǎng)絡(luò)表示學(xué)習(xí)的DeepWalk與LINE整體要好于上述模型，表明了該類模型構(gòu)建的網(wǎng)絡(luò)可以更好地建模裁判文書與實(shí)體之間的語(yǔ)義關(guān)聯(lián)。

表2 類案發(fā)現(xiàn)在Legal-Small數(shù)據(jù)集中P@10的實(shí)驗(yàn)結(jié)果Table 2 Experimental results of similar case discover on Legal-Small in terms of P@10

本文提出的方法Legal-E則有效地結(jié)合了有監(jiān)督學(xué)習(xí)模型與無(wú)監(jiān)督學(xué)習(xí)模型的優(yōu)勢(shì)，并采用設(shè)計(jì)的投票機(jī)制的將結(jié)果進(jìn)行融合，因此，它能在單個(gè)案例與整體類案發(fā)現(xiàn)任務(wù)中同時(shí)取得最佳的效果。

表3列出了上述方法在整體數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。由于LINE模型在法律整體數(shù)據(jù)集構(gòu)建的網(wǎng)絡(luò)上無(wú)法訓(xùn)練，因此，在Legal-E的法律網(wǎng)絡(luò)模塊中，方法采用DeepWalk模型進(jìn)行替代?？梢园l(fā)現(xiàn)，由于罪名種類和文書數(shù)量的增多，原有對(duì)比模型的P@10數(shù)值均出現(xiàn)了不同程度的下降。然而，當(dāng)它們?nèi)谌胱锩袛嗄K與投票機(jī)制之后，推送的效果均有明顯的提升。Legal-E依然在大部分任務(wù)上取得了最佳的效果。值得注意的是，當(dāng)基準(zhǔn)方法TF-IDF與LDA加入罪名判斷模塊后，均可以達(dá)到與Legal-E相當(dāng)?shù)慕Y(jié)果。但就推送時(shí)間而言，受益于網(wǎng)絡(luò)表示學(xué)習(xí)中裁判文書與法律實(shí)體的低維向量表示，平均推送時(shí)間均在0.1 s內(nèi)完成。

表3 類案發(fā)現(xiàn)在Legal-Whole數(shù)據(jù)集中P@10的實(shí)驗(yàn)結(jié)果Table 3 Experimental results of similar case discover on Legal-Whole in terms of P@10

實(shí)驗(yàn)進(jìn)一步對(duì)小規(guī)模訓(xùn)練數(shù)據(jù)進(jìn)行了等比例劃分，來(lái)分析裁判文書數(shù)量對(duì)模型的推送精度的影響。關(guān)于盜竊罪的類案發(fā)現(xiàn)結(jié)果如表4所示。整體而言，當(dāng)裁判文書數(shù)量越大時(shí)，上述模型的P@10均有所提升，類案發(fā)現(xiàn)效果會(huì)變好。然而，Par2Vec與BERT的變化趨勢(shì)并不穩(wěn)定。分析認(rèn)為，主要是該類方法側(cè)重建模文檔的上下文，而忽略了詞頻在推送任務(wù)中的效果。

表4 不同比例訓(xùn)練樣本在盜竊罪上的類案發(fā)現(xiàn)結(jié)果Table 4 Results of similar case discover on larceny with different proportions of training samples

就時(shí)間開銷而言，TF-IDF能在100 s內(nèi)完成Legal-Small數(shù)據(jù)集的訓(xùn)練。其他模型均需要30 min以上才能完成。這里較為耗時(shí)的模型主要為BERT與LINE模型。前者需要考慮文本前后之間的依存關(guān)系，后者的時(shí)間復(fù)雜度與網(wǎng)絡(luò)邊的數(shù)量是多項(xiàng)式相關(guān)的，因此需要耗費(fèi)更多的時(shí)間。

4 結(jié)束語(yǔ)

本文提出了一種基于網(wǎng)絡(luò)表示學(xué)習(xí)與文本卷積網(wǎng)絡(luò)的聯(lián)合方法用于類案發(fā)現(xiàn)的研究。方法通過(guò)設(shè)計(jì)較為合理的投票機(jī)制將無(wú)監(jiān)督學(xué)習(xí)模型與有監(jiān)督的模型的優(yōu)勢(shì)進(jìn)行結(jié)合，并進(jìn)一步利用法律知識(shí)體系中的弱層次關(guān)系對(duì)網(wǎng)絡(luò)表示學(xué)習(xí)進(jìn)行負(fù)采樣改進(jìn)。實(shí)驗(yàn)結(jié)果表明，本文提出的聯(lián)合方法在P@10指標(biāo)上優(yōu)于對(duì)比模型，有效地提升了推送準(zhǔn)確率。本文下一步的工作將從多重罪名與少樣本罪名方向進(jìn)行類案發(fā)現(xiàn)的探索研究。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡