梁鴻翔,張步燁,李煒卓,程茜雅
1.中國(guó)航天科工集團(tuán)第二研究院,北京 100854
2.東南大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,南京 211189
3.東南大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,南京 211189
在智能革命時(shí)代背景下,“智慧法院”的建設(shè)正如火如荼地進(jìn)行,并已取得階段性實(shí)效。與此同時(shí),如何對(duì)法院系統(tǒng)中豐富的案例進(jìn)行語(yǔ)義檢索并有效地利用已經(jīng)成為了智慧司法研究的共識(shí)[1]?!巴覆煌小币恢笔怯绊懰痉ü帕Φ闹匾蛑?,也是司法體制改革與檢察改革所關(guān)注的重要問(wèn)題[2]。作為智慧法院的核心應(yīng)用之一,相似裁判文書的發(fā)現(xiàn)(簡(jiǎn)稱類案發(fā)現(xiàn))有助于解決司法過(guò)程中的裁判尺度不統(tǒng)一、類案不同、量刑不規(guī)范等問(wèn)題。
然而,衡量裁判文書之間的相似性是一項(xiàng)重大挑戰(zhàn),主要表現(xiàn)在以下兩個(gè)方面[2]:一方面,裁判文書通常正文篇幅較長(zhǎng)且結(jié)構(gòu)復(fù)雜,往往難以提取裁判文書中的核心要素;另一方面,單個(gè)裁判文書可能牽涉到不同的法律問(wèn)題。例如,對(duì)于網(wǎng)絡(luò)虛擬財(cái)產(chǎn)盜竊案件的定性,不同法院持有不同觀點(diǎn)。一部分法院認(rèn)為網(wǎng)絡(luò)虛擬財(cái)產(chǎn)不屬于現(xiàn)實(shí)財(cái)產(chǎn),不符合盜竊罪的構(gòu)成要件,故不構(gòu)成盜竊罪,應(yīng)以非法獲取計(jì)算機(jī)信息系統(tǒng)數(shù)據(jù)罪定罪處罰。也有其他法院認(rèn)為網(wǎng)絡(luò)虛擬財(cái)產(chǎn)也凝結(jié)了他人無(wú)差別的人類勞動(dòng),屬于財(cái)產(chǎn),應(yīng)以盜竊罪定罪處罰。上述問(wèn)題均給衡量文書之間的相似性帶來(lái)了巨大挑戰(zhàn)。
近些年來(lái),國(guó)內(nèi)外學(xué)者嘗試從不同的角度設(shè)計(jì)模型來(lái)克服上述挑戰(zhàn)。例如,王君澤等人[3]嘗試將裁判文書對(duì)篇章結(jié)構(gòu)和語(yǔ)言表述方面的特征進(jìn)行建模利用,并設(shè)計(jì)相應(yīng)的案情相似度模型來(lái)發(fā)現(xiàn)裁判文書的相似性。王祿生[4]通過(guò)構(gòu)建法律圖譜,并利用圖譜的結(jié)構(gòu)化信息來(lái)提升相似裁判文書的發(fā)現(xiàn)效果。相對(duì)的,印度學(xué)者[5-6]嘗試用引文網(wǎng)絡(luò)來(lái)對(duì)裁判文書進(jìn)行建模,并取得了一定的效果。除此之外,一些學(xué)者嘗試將類案發(fā)現(xiàn)轉(zhuǎn)化為分類任務(wù)[7],利用監(jiān)督學(xué)習(xí)模型來(lái)進(jìn)行建模,從而根據(jù)預(yù)測(cè)的分類結(jié)果進(jìn)行相似案件的發(fā)現(xiàn)[8-10]。
然而,將上述方法運(yùn)用在真實(shí)的類案發(fā)現(xiàn)場(chǎng)景卻存在兩點(diǎn)局限性。首先,真實(shí)的裁判文書的罪名種類較多且判決的粗細(xì)粒度不同,僅利用裁判文書在篇章結(jié)構(gòu)和語(yǔ)言表述來(lái)提取的特征無(wú)法保證其對(duì)多類罪名的泛化能力。另一方面,真實(shí)場(chǎng)景中的裁判文書數(shù)量十分巨大,基于網(wǎng)絡(luò)關(guān)聯(lián)的方法雖然可以構(gòu)建關(guān)于裁判文書的語(yǔ)義網(wǎng)絡(luò),但仍然無(wú)法勝任大規(guī)模的網(wǎng)絡(luò)計(jì)算,且無(wú)法有效地將法律的先驗(yàn)知識(shí)與標(biāo)簽信息進(jìn)行融合。相對(duì)而言,基于監(jiān)督學(xué)習(xí)的分類模型雖然可以在整體上保證類案發(fā)現(xiàn)的精度,但判斷的罪名一旦存在偏差,輸出的結(jié)果則會(huì)給法律工作人員帶來(lái)較差的體驗(yàn)。
為此,本文提出了一種基于網(wǎng)絡(luò)表示學(xué)習(xí)和文本卷積網(wǎng)絡(luò)的類案發(fā)現(xiàn)方法。方法分別從無(wú)監(jiān)督與有監(jiān)督的視角來(lái)編碼裁判文書中的信息,并在原有模型的基礎(chǔ)上利用法律知識(shí)體系進(jìn)行了改進(jìn)。最終,方法采用設(shè)計(jì)的投票機(jī)制將兩類模型的輸出結(jié)果進(jìn)行融合。實(shí)驗(yàn)表明,本文提出的方法較已有方法能在類案發(fā)現(xiàn)任務(wù)中取得更好的效果。
對(duì)于相似裁判文書發(fā)現(xiàn)任務(wù),可以將其視為相似文本發(fā)現(xiàn)的一類特殊情況[11]。目前的文本相似度計(jì)算方法主要包括基于統(tǒng)計(jì)的方法和基于語(yǔ)義嵌入的方法兩大類。
基于統(tǒng)計(jì)的方法主要是統(tǒng)計(jì)文本中各詞項(xiàng)的出現(xiàn)頻度,以詞頻信息為基礎(chǔ)來(lái)計(jì)算文本之間的相似度,其代表為詞頻-逆文檔頻率(term frequency-inverse document frequency,TF-IDF)[12]。方法首先將已有裁判文書中的詞進(jìn)行收集。然后,針對(duì)每一個(gè)文檔,將其拆解成多個(gè)詞,并利用詞頻與逆文檔頻率公式得到每個(gè)詞的TF-IDF值。最終,集合中的每一個(gè)文檔可以由所有詞所組成的向量進(jìn)行表示,其中每一維的取值為詞所相應(yīng)的TF-IDF值。如果該詞未在裁判文書中出現(xiàn),對(duì)應(yīng)的維度取值為0。相對(duì)的,概率潛在語(yǔ)義分析(probabilistic latent semantic analysis,PLSA)[13]和潛在狄利克雷分布(latent dirichlet allocation,LDA)[14]的提出不僅提高了向量空間模型的計(jì)算效率,同時(shí)也降低了多義性和同義詞的影響。
隨著詞嵌入技術(shù)的興起,越來(lái)越多基于語(yǔ)言模型的無(wú)監(jiān)督嵌入模型被研發(fā)出來(lái),并逐步運(yùn)用到相似文本的計(jì)算中來(lái)。Par2Vec[15]模型作為Word2Vec[16]的拓展,它對(duì)文本中包含的每一個(gè)單詞進(jìn)行逐一預(yù)測(cè),但并不會(huì)考慮單詞的順序或是更加復(fù)雜的信息。這種方法證實(shí)了通過(guò)訓(xùn)練一個(gè)文檔向量去衡量?jī)蓚€(gè)文檔的相似性是可行的。BERT(bidirectional encoder representations from transformers)[17]是繼Word2Vec之后,谷歌提出的一種大規(guī)模預(yù)訓(xùn)練方法。BERT使用Transformer[18]作為框架,能夠更好地捕獲語(yǔ)句的前向后向關(guān)系,Transformer中的Self-Attention改善了長(zhǎng)距離文本的表示效果。此外,BERT利用訓(xùn)練語(yǔ)句中被遮蓋的詞和預(yù)測(cè)文檔中的下一句話進(jìn)行訓(xùn)練,從而加強(qiáng)了預(yù)訓(xùn)練的效果。
近些年來(lái),國(guó)內(nèi)外學(xué)者嘗試將文本相似度的技術(shù)引入到相似裁判文書發(fā)現(xiàn)的任務(wù)中來(lái)。王君澤等人[3]依據(jù)裁判文書的書寫規(guī)范,設(shè)計(jì)了案件事實(shí)部分的抽取策略;同時(shí),他們依據(jù)詞性的不同對(duì)裁判文書中的詞項(xiàng)進(jìn)行分類,并根據(jù)不同類詞性的重要程度來(lái)設(shè)計(jì)了一個(gè)案情相似的計(jì)算模型。王祿生[4]則提出了利用法律圖譜的思路來(lái)描述案件畫像,這不僅可以解決類案發(fā)現(xiàn)識(shí)別準(zhǔn)確率低的問(wèn)題,同時(shí)也有助于法官來(lái)梳理案件的情節(jié)。相對(duì)的,印度學(xué)者M(jìn)inocha等人[5]發(fā)現(xiàn)了國(guó)外裁判文書引用網(wǎng)絡(luò)的特殊性。由于基于案件文本特征的相似度計(jì)算策略往往不如引用網(wǎng)絡(luò)的相似度計(jì)算策略,因此,他們嘗試?yán)靡木W(wǎng)絡(luò)來(lái)對(duì)裁判文書進(jìn)行建模。Kumar等人[6]則進(jìn)一步利用“段落銜接”的方法來(lái)改善引文網(wǎng)絡(luò)在相似裁判文書發(fā)現(xiàn)上的效果。除此之外,也有部分學(xué)者嘗試將類案發(fā)現(xiàn)轉(zhuǎn)化為多分類任務(wù)[7],利用有監(jiān)督學(xué)習(xí)模型根據(jù)裁判文書中的罪名標(biāo)簽進(jìn)行建模。在預(yù)測(cè)的過(guò)程中,再根據(jù)預(yù)測(cè)罪名的概率分布來(lái)進(jìn)行相似案件的推送[8-10]。
可以發(fā)現(xiàn),目前關(guān)于相似裁判文書發(fā)現(xiàn)的各類研究工作仍存在不足。王君澤等人[3]與王祿生[4]的工作雖然考慮了法律先驗(yàn)知識(shí)的重要性,但對(duì)于標(biāo)注提出了很高的要求,人工參與的代價(jià)巨大。因此,面對(duì)罪名種類多樣的裁判文書,該類方法的泛化能力十分受限。相對(duì)的,Minocha等人[5]與Kumar等人[6]提出的引文網(wǎng)絡(luò)則屬于無(wú)監(jiān)督學(xué)習(xí)模型的。面對(duì)上百萬(wàn)份的法律文書,方法雖然可以構(gòu)建關(guān)于裁判文書的語(yǔ)義網(wǎng)絡(luò),但仍然無(wú)法勝任大規(guī)模網(wǎng)絡(luò)計(jì)算且無(wú)法有效地將法律的先驗(yàn)知識(shí)與標(biāo)簽信息進(jìn)行融合。相對(duì)而言,基于監(jiān)督學(xué)習(xí)的分類模型[8-10]雖然能夠在整體上保證類案發(fā)現(xiàn)任務(wù)的準(zhǔn)確率,但罪名判斷一旦出現(xiàn)錯(cuò)誤,全部錯(cuò)誤的文書推送則會(huì)給法律工作者人員帶來(lái)較差的體驗(yàn)。
本文提出的方法則是將無(wú)監(jiān)督學(xué)習(xí)模型與有監(jiān)督的模型的優(yōu)勢(shì)進(jìn)行結(jié)合,并在原有模型的基礎(chǔ)上利用法律知識(shí)體系對(duì)其負(fù)采樣策略進(jìn)行了改進(jìn)。最終,方法基于提出的投票機(jī)制將兩類模型的輸出結(jié)果進(jìn)行融合,從而得到更好的類案發(fā)現(xiàn)結(jié)果。
在介紹本文提出的方法之前,首先給出相似裁判文書的建模描述。
相似裁判文書建模.給定裁判文書的集合D,相似裁判文書的建模在于學(xué)習(xí)到一個(gè)目標(biāo)函數(shù)f:D×D→R+,使得f(di,dj)能夠度量任何兩個(gè)裁判文書di,dj∈D的語(yǔ)義相似度。
圖1為文中相似裁判文書發(fā)現(xiàn)的具體處理流程。對(duì)于獲取到的裁判文書,方法首先采用文本嵌入學(xué)習(xí)模型對(duì)裁判文書以及相應(yīng)的法律實(shí)體進(jìn)行預(yù)訓(xùn)練,得到它們的初始向量表示。隨后,方法將裁判文書與法律實(shí)體的向量表示分別輸入到法律網(wǎng)絡(luò)模塊與罪名預(yù)測(cè)模塊中,并利用網(wǎng)絡(luò)表示學(xué)習(xí)模型與文本卷積網(wǎng)絡(luò)模型進(jìn)行相應(yīng)的模型訓(xùn)練。最后,方法根據(jù)設(shè)計(jì)的投票機(jī)制將兩類模型的輸出結(jié)果進(jìn)行有效融合,并將前k條相似的裁判文書進(jìn)行推送。
圖1 技術(shù)路線概覽Fig.1 Overview of technique route
對(duì)于獲取到的裁判文書,方法首先對(duì)裁判文書進(jìn)行中文分詞。考慮到中文描述上的差異性,方法對(duì)不同俗稱的法律實(shí)體名稱按法律術(shù)語(yǔ)進(jìn)行歸一化處理(如:案由與起訴罪名)。同時(shí),對(duì)一些復(fù)雜的法律實(shí)體描述字段進(jìn)行簡(jiǎn)化(如:盜竊的贓物、犯案時(shí)間),以此來(lái)緩解模型訓(xùn)練時(shí)詞條的長(zhǎng)尾現(xiàn)象。
本文利用文本嵌入學(xué)習(xí)模型對(duì)裁判文書以及分詞得到的實(shí)體進(jìn)行預(yù)訓(xùn)練,得到裁判文書與法律實(shí)體預(yù)訓(xùn)練后的初始向量表示。具體地說(shuō),方法利用BERT[17]來(lái)捕獲詞在語(yǔ)句中的前向后向關(guān)系。相比于早期的Word2Vec[16]、Par2Vec[15],BERT使用Transformer[18]作為框架,其中的Self-Attention可以提高長(zhǎng)距離文本的表示效果。除此之外,BERT利用訓(xùn)練語(yǔ)句中被遮蓋的詞和預(yù)測(cè)文檔中的下一句話進(jìn)行訓(xùn)練,從而加強(qiáng)了預(yù)訓(xùn)練的效果。
通過(guò)文本預(yù)訓(xùn)練的方式能夠在一定程度上保留法律實(shí)體(詞項(xiàng))在裁判文書中的語(yǔ)義信息,而生成的文本詞向量能夠使得法律網(wǎng)絡(luò)模塊與罪名預(yù)測(cè)模塊獲得更好的輸出結(jié)果。
網(wǎng)絡(luò)表示是銜接網(wǎng)絡(luò)原始數(shù)據(jù)和網(wǎng)絡(luò)應(yīng)用任務(wù)的橋梁,記作G=(V,E),其中V是節(jié)點(diǎn)集合,E是邊的集合,邊e=(vi,vj)∈E表示了節(jié)點(diǎn)vi到vj的一條邊[19]。網(wǎng)絡(luò)的鄰接矩陣定義為A∈R|V|×|V|,其中如果(vi,vj)∈E則Aij=1,否則Aij=0。鄰接矩陣是信息網(wǎng)絡(luò)中的一種簡(jiǎn)單直接的關(guān)聯(lián)表達(dá)形式。鄰接矩陣A的每一行描述了一個(gè)節(jié)點(diǎn)和所有其他節(jié)點(diǎn)的鏈接關(guān)系,可以看作是對(duì)應(yīng)節(jié)點(diǎn)的一種表示。
盡管鄰接矩陣表示直接,但這樣的網(wǎng)絡(luò)表示受到計(jì)算效率問(wèn)題的影響。可以發(fā)現(xiàn),鄰接矩陣A需要占用|V|×|V|的存儲(chǔ)空間。這在|V|增長(zhǎng)到百萬(wàn)級(jí)時(shí),計(jì)算的代價(jià)通常是不可接受的。另一方面,鄰接矩陣中絕大部分的數(shù)值為0,這種數(shù)據(jù)的稀疏性使得統(tǒng)計(jì)學(xué)習(xí)方法快速有效的應(yīng)用變得十分困難。為此,研究者們提出了網(wǎng)絡(luò)表示學(xué)習(xí)的思路[19],他們嘗試將網(wǎng)絡(luò)中的節(jié)點(diǎn)編碼為低維稠密的實(shí)值向量v∈Rd,其中d?|V|,在模型編碼的過(guò)程中,通過(guò)擬定的目標(biāo)函數(shù)將網(wǎng)絡(luò)的結(jié)構(gòu)信息與實(shí)體之間的語(yǔ)義關(guān)聯(lián)進(jìn)行有效的保留。
受到該類網(wǎng)絡(luò)表示學(xué)習(xí)的啟發(fā),本文首先利用裁判文書以及相應(yīng)它們關(guān)聯(lián)的法律實(shí)體(詞項(xiàng))來(lái)構(gòu)建成法律網(wǎng)絡(luò),通過(guò)網(wǎng)絡(luò)表示學(xué)習(xí)模型來(lái)學(xué)習(xí)它們的語(yǔ)義向量表示,繼而計(jì)算裁判文書之間的語(yǔ)義相似度。本文使用網(wǎng)絡(luò)表示學(xué)習(xí)模型為L(zhǎng)INE[20]。為了更好地區(qū)分LINE模型中的一階鄰接關(guān)系與二階鄰接關(guān)系,將構(gòu)建的法律網(wǎng)絡(luò)的節(jié)點(diǎn)分為上下兩層,上層的節(jié)點(diǎn)用裁判文書的ID來(lái)表示其唯一性,下層的節(jié)點(diǎn)為所有的法律實(shí)體,當(dāng)法律實(shí)體在相應(yīng)的裁判文書出現(xiàn)時(shí),則在兩個(gè)節(jié)點(diǎn)之間添加一條邊,構(gòu)建的法律網(wǎng)絡(luò)樣式如圖2所示。
圖2 基于LINE的法律網(wǎng)絡(luò)建模Fig.2 Legal network modeling based on LINE
由于在類案發(fā)現(xiàn)業(yè)務(wù)中裁判文書之間的鄰接關(guān)系未知,因此在法律網(wǎng)絡(luò)模塊中直接采用了LINE的二階鄰接關(guān)系來(lái)進(jìn)行建模。在二階鄰接關(guān)系中,LINE模型假設(shè)兩個(gè)節(jié)點(diǎn)(裁判文書)共享連接的其他節(jié)點(diǎn)越多,那么這兩個(gè)節(jié)點(diǎn)彼此越相似。這些共享的節(jié)點(diǎn)(法律實(shí)體)被視為特定的“上下文”,并且假設(shè)在“上下文”上具有相似分布的節(jié)點(diǎn)是相似的。為了維持二階鄰接關(guān)系,LINE模型要求每一個(gè)低維表示節(jié)點(diǎn)所指定的上下文的條件分布接近經(jīng)驗(yàn)分布。相應(yīng)的目標(biāo)函數(shù)定義如下:
其中,O2表示LINE二階鄰接關(guān)系的損失函數(shù),vi表示標(biāo)號(hào)為i的節(jié)點(diǎn),V表示節(jié)點(diǎn)上下文節(jié)點(diǎn)的集合(這里指的是兩跳以內(nèi)的節(jié)點(diǎn))。為前節(jié)點(diǎn)的聲譽(yù)值,其中wik為每個(gè)節(jié)點(diǎn)出度的權(quán)重,p2(?|vi)表示節(jié)點(diǎn)的條件分布,表示節(jié)點(diǎn)的經(jīng)驗(yàn)分布,d(?,?)表示兩個(gè)分布的距離。LINE通過(guò)最大化這個(gè)概率來(lái)更新節(jié)點(diǎn)的向量表示。模型對(duì)序列中的每個(gè)節(jié)點(diǎn)計(jì)算它的條件概率,即該節(jié)點(diǎn)出現(xiàn)的情況下序列中其他節(jié)點(diǎn)出現(xiàn)的概率的log值。
由于整體優(yōu)化公式(1)代價(jià)太高,為此方法采用了文獻(xiàn)[16]的負(fù)采樣策略,根據(jù)每條邊(ui,uj)∈E的噪聲分布進(jìn)行負(fù)采樣。具體的目標(biāo)函數(shù)如公式(2)所示:
其中,σ=1/(1+exp(-x))為sigmoid函數(shù),ui、uj表示網(wǎng)絡(luò)中的節(jié)點(diǎn)的向量表示,為文獻(xiàn)[16]定義的負(fù)采樣分布。簡(jiǎn)單來(lái)說(shuō),對(duì)于每條邊(ui,uj)∈E,在節(jié)點(diǎn)集合V中按負(fù)采樣分布尋找其他的節(jié)點(diǎn)進(jìn)行替換生成一個(gè)負(fù)例(ui,uj′)或者(ui′,uj)。
由于法律的專有名詞之間可能存在一定的邏輯關(guān)聯(lián),因此本文嘗試?yán)梅芍R(shí)體系的弱層次關(guān)系對(duì)負(fù)采樣所替換的實(shí)體進(jìn)行約束。具體來(lái)說(shuō),當(dāng)節(jié)點(diǎn)ui或者uj為知識(shí)體系中的專有名詞(如著作權(quán)),那么該專有名詞的上位概念(如知識(shí)產(chǎn)權(quán))與下位概念(如軟件開發(fā)權(quán))均不能作為替換節(jié)點(diǎn)ui′或者uj′。除此之外,當(dāng)兩個(gè)實(shí)體在裁判文書中的點(diǎn)互信息(pointwise mutual information)大于一定閾值時(shí),負(fù)采樣過(guò)程應(yīng)將該類配對(duì)的情況予以排除。
模塊采用的罪名預(yù)測(cè)模型為文本卷機(jī)網(wǎng)絡(luò)模型TextCNN[21],它是將卷積神經(jīng)網(wǎng)絡(luò)CNN應(yīng)用到文本分類任務(wù),利用多個(gè)不同大小的核函數(shù)來(lái)提取句子中的關(guān)鍵信息(類似于多窗口大小的n-gram),從而能夠更好地捕捉局部相關(guān)性。
基于TextCNN的罪名預(yù)測(cè)模塊如圖3所示。首先,根據(jù)BERT預(yù)訓(xùn)練好的詞向量矩陣輸入到文本中得到每個(gè)詞語(yǔ)的向量表示。然后,將詞向量序列依次送入由卷積層、激活層和池化層構(gòu)成的特征抽取器,提取文本的語(yǔ)義特征。最后,將特征向量送入由兩層全連接層和一層激活層組成的分類器,進(jìn)行分類預(yù)測(cè),輸出每項(xiàng)罪名的分類概率。
圖3 文本卷積網(wǎng)絡(luò)的整體框圖Fig.3 Whole diagram of TextCNN
考慮裁判文書的內(nèi)容較長(zhǎng),但段落之間的關(guān)系和邏輯性較為緊密,因此用TextCNN來(lái)進(jìn)行建模較為合理。此外,TextRNN[22]與FastText[23]同樣可以用于罪名的分類判斷,但從裁判文書罪名分類的實(shí)際應(yīng)用效果上來(lái)看,TextCNN較兩者更加合適。
基于LINE的網(wǎng)絡(luò)表示模型應(yīng)用在類案發(fā)現(xiàn)中分為線下與線上兩個(gè)部分:(1)當(dāng)裁判文書已經(jīng)存在于構(gòu)建的法律網(wǎng)絡(luò)中(線下),則直接利用裁判文書之間的向量表示來(lái)計(jì)算它們之間的相似度。(2)對(duì)于新的裁判文書(線上),由于未出現(xiàn)在法律網(wǎng)絡(luò)中,因此需要根據(jù)裁判文書所關(guān)聯(lián)的實(shí)體來(lái)獲得它們之間的相似度。通用的做法是利用關(guān)聯(lián)實(shí)體向量的算術(shù)平均來(lái)表示該裁判文書的語(yǔ)義向量[24],相關(guān)的公式定義如下:
其中,n為裁判文書所關(guān)聯(lián)的法律實(shí)體個(gè)數(shù),ei為基于網(wǎng)絡(luò)表示學(xué)習(xí)模型訓(xùn)練后的法律實(shí)體向量表示。類似的,已存在網(wǎng)絡(luò)中的裁判文書也需要通過(guò)它們關(guān)聯(lián)的法律實(shí)體向量來(lái)表示其語(yǔ)義向量,以此來(lái)統(tǒng)一相似裁判文書的計(jì)算。
相對(duì)的,基于TextCNN的罪名預(yù)測(cè)模塊,可以直接根據(jù)新輸入的罪名得到相應(yīng)罪名的分類概率。本文將概率最大的罪名作為分類的結(jié)果。
考慮LINE與TextCNN分別采用無(wú)監(jiān)督學(xué)習(xí)與有監(jiān)督學(xué)習(xí)的策略。因此,在相似文書發(fā)現(xiàn)時(shí),本文采用投票的機(jī)制進(jìn)一步對(duì)兩類模型結(jié)果進(jìn)行融合。具體的融合策略如算法1所示。在得到LINE模型推送的前1 000條相似度裁判文書以及TextCNN模型判斷的罪名類別CType后,首先統(tǒng)計(jì)前1 000條裁判文書中的罪名類型與數(shù)量。當(dāng)CType屬于排名前3種罪名類別時(shí),根據(jù)具體的排名以及相應(yīng)罪名的數(shù)量進(jìn)行相似文書的推送。步驟3、4返回的是保留罪名類型為CType的前k條相似文書,步驟5、6返回的是保留罪名類型為Type1的前k條相似文書。當(dāng)CType不屬于排名前3種罪名類型時(shí),直接返回原LINE模型推送的前k條相似文書。
算法1基于LINE與TextCNN的投票策略
輸入:基于LINE模型獲得的前1 000條推送裁判文書集合D,基于TextCNN獲取的罪名分類CType
輸出:前k條相似的文書
1.[Typei,Numi]←降序統(tǒng)計(jì)集合D的罪名類型與數(shù)量
2.If CType∈{Type1,Type2,Type3}
3.If CType=={Type1}or(Num1≤500)
4.return LINE的推送結(jié)果中罪名類型為CType的前k條相似文書
5.else if(Num1>500)
6.return LINE的推送結(jié)果中罪名類型為Type1的前k條相似文書
7.else
8.return LINE推送結(jié)果的前k條相似文書
實(shí)驗(yàn)的數(shù)據(jù)來(lái)自于國(guó)雙提供的裁判文書,將其細(xì)分為小規(guī)模數(shù)據(jù)集(記作Legal-Small)與全數(shù)據(jù)集(記作Whole-Small),具體統(tǒng)計(jì)如表1所示。
表1 裁判文書數(shù)據(jù)集統(tǒng)計(jì)Table 1 Statistics of data sets of judgment documents
小規(guī)模數(shù)據(jù)集總計(jì)20 635份。一共包含詐騙罪,盜竊罪,毒品走私罪,尋釁滋事罪,危險(xiǎn)駕駛罪,搶劫罪,拐賣婦女兒童罪,生產(chǎn)、銷售假藥罪,非法持有、私藏槍支彈藥罪,開設(shè)賭場(chǎng)罪10種類常見的罪名類型。對(duì)于評(píng)估樣本,本文從法信網(wǎng)(http://www.faxin.cn/)上基于詐騙罪,盜竊罪,走私、販賣、運(yùn)輸、制造毒品罪,尋釁滋事罪,危險(xiǎn)駕駛罪隨機(jī)各自選取了5份案例進(jìn)行評(píng)估測(cè)試。
全數(shù)據(jù)集總計(jì)160 112份。一共涉及法律案由中涉及一級(jí)到三級(jí)共365類常見的罪名類型。對(duì)于評(píng)估樣本,本文從法信網(wǎng)上基于詐騙罪、交通肇事罪、盜竊罪、制造毒品罪、走私毒品罪、非法吸收公眾存款罪隨機(jī)各自選取了10份案例進(jìn)行評(píng)估測(cè)試。
為了驗(yàn)證本文提出方法在相似裁判文書發(fā)現(xiàn)中的有效性。實(shí)驗(yàn)分別選取TF-IDF[12]、LDA[14]、Par2Vec[15]、BERT[17]、TextCNN[21]、DeepWalk[25]、LINE[20]來(lái) 進(jìn) 行 對(duì)比。其中TF-IDF、LDA為相似文本任務(wù)中統(tǒng)計(jì)方法的代表,本文通過(guò)詞項(xiàng)的統(tǒng)計(jì)數(shù)值來(lái)組成向量,以此來(lái)獲得裁判文書的向量表示。Par2Vec、BERT為文本嵌入學(xué)習(xí)方法的代表,本文利用其端到端的思想直接訓(xùn)練得到裁判文書的向量表示。TextCNN為罪名文本分類模型。預(yù)測(cè)時(shí),模型根據(jù)的罪名輸出類別進(jìn)行過(guò)濾推送。DeepWalk、LINE為網(wǎng)絡(luò)表示學(xué)習(xí)模型的代表(GraRep[26]與Node2Vec[27]等模型由于實(shí)驗(yàn)室工作站硬件條件不足,無(wú)法在該數(shù)據(jù)集上進(jìn)行訓(xùn)練),建模的方式與本文中的法律網(wǎng)絡(luò)模塊一致(見2.3節(jié))。本文的方法則是基于改進(jìn)后的LINE與TextCNN模型,結(jié)合設(shè)計(jì)的投票機(jī)制提出的聯(lián)合方法,記為L(zhǎng)egal-E。其中文本預(yù)處理選用BERT作為預(yù)選訓(xùn)練模型來(lái)獲得裁判文書與法律實(shí)體的初始向量表示。上述方法均在PyTorch(https://pytorch.org/)與OpenNE(https://github.com/thunlp/OpenNE)平臺(tái)的幫助下以Python語(yǔ)言進(jìn)行實(shí)現(xiàn),實(shí)驗(yàn)訓(xùn)練與測(cè)試均采用個(gè)人工作站進(jìn)行完成,其中CPU為安擎E5-2620V4*2,內(nèi)存為128 GB。針對(duì)中文描述的裁判文書,方法選用結(jié)巴中文分詞工具(https://github.com/fxsjy/jieba)來(lái)對(duì)其描述內(nèi)容進(jìn)行中文分詞處理。
實(shí)驗(yàn)共邀請(qǐng)3位人民檢察院的法律專家對(duì)類案發(fā)現(xiàn)的結(jié)果進(jìn)行評(píng)估,重點(diǎn)從罪名和犯罪情節(jié)兩方面來(lái)進(jìn)行度量。簡(jiǎn)單來(lái)說(shuō),如果推送裁判文書與測(cè)試文書中的罪名和犯罪情節(jié)都一致,記1.0分。如果罪名不對(duì),記0分。如果罪名相符但情節(jié)偏差較大,則記0.5分。具體評(píng)估公式如下:
其中,scoreij表示第j位專家對(duì)推送的第i篇裁判文書進(jìn)行打分,k為方法推送的裁判文書數(shù)量,在實(shí)驗(yàn)評(píng)估中k=10。
小規(guī)模數(shù)據(jù)集的類案發(fā)現(xiàn)實(shí)驗(yàn)結(jié)果如表2所示。整體來(lái)說(shuō),TF-IDF與LDA在P@10的指標(biāo)上均好于文本嵌入學(xué)習(xí)模型Par2Vec與BERT,可以發(fā)現(xiàn)詞頻相對(duì)于文檔上下文在類案發(fā)現(xiàn)任務(wù)中發(fā)揮了更大的作用。相對(duì)的,BERT對(duì)文本序列的正向與反向詞之間的依存關(guān)系均進(jìn)行了建模,因此效果較Par2Vec更好。而單獨(dú)的TextCNN則因?yàn)閱蝹€(gè)案例的罪名預(yù)測(cè)出現(xiàn)了部分誤判,導(dǎo)致整體的類案發(fā)現(xiàn)效果不佳。基于網(wǎng)絡(luò)表示學(xué)習(xí)的DeepWalk與LINE整體要好于上述模型,表明了該類模型構(gòu)建的網(wǎng)絡(luò)可以更好地建模裁判文書與實(shí)體之間的語(yǔ)義關(guān)聯(lián)。
表2 類案發(fā)現(xiàn)在Legal-Small數(shù)據(jù)集中P@10的實(shí)驗(yàn)結(jié)果Table 2 Experimental results of similar case discover on Legal-Small in terms of P@10
本文提出的方法Legal-E則有效地結(jié)合了有監(jiān)督學(xué)習(xí)模型與無(wú)監(jiān)督學(xué)習(xí)模型的優(yōu)勢(shì),并采用設(shè)計(jì)的投票機(jī)制的將結(jié)果進(jìn)行融合,因此,它能在單個(gè)案例與整體類案發(fā)現(xiàn)任務(wù)中同時(shí)取得最佳的效果。
表3列出了上述方法在整體數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。由于LINE模型在法律整體數(shù)據(jù)集構(gòu)建的網(wǎng)絡(luò)上無(wú)法訓(xùn)練,因此,在Legal-E的法律網(wǎng)絡(luò)模塊中,方法采用DeepWalk模型進(jìn)行替代??梢园l(fā)現(xiàn),由于罪名種類和文書數(shù)量的增多,原有對(duì)比模型的P@10數(shù)值均出現(xiàn)了不同程度的下降。然而,當(dāng)它們?nèi)谌胱锩袛嗄K與投票機(jī)制之后,推送的效果均有明顯的提升。Legal-E依然在大部分任務(wù)上取得了最佳的效果。值得注意的是,當(dāng)基準(zhǔn)方法TF-IDF與LDA加入罪名判斷模塊后,均可以達(dá)到與Legal-E相當(dāng)?shù)慕Y(jié)果。但就推送時(shí)間而言,受益于網(wǎng)絡(luò)表示學(xué)習(xí)中裁判文書與法律實(shí)體的低維向量表示,平均推送時(shí)間均在0.1 s內(nèi)完成。
表3 類案發(fā)現(xiàn)在Legal-Whole數(shù)據(jù)集中P@10的實(shí)驗(yàn)結(jié)果Table 3 Experimental results of similar case discover on Legal-Whole in terms of P@10
實(shí)驗(yàn)進(jìn)一步對(duì)小規(guī)模訓(xùn)練數(shù)據(jù)進(jìn)行了等比例劃分,來(lái)分析裁判文書數(shù)量對(duì)模型的推送精度的影響。關(guān)于盜竊罪的類案發(fā)現(xiàn)結(jié)果如表4所示。整體而言,當(dāng)裁判文書數(shù)量越大時(shí),上述模型的P@10均有所提升,類案發(fā)現(xiàn)效果會(huì)變好。然而,Par2Vec與BERT的變化趨勢(shì)并不穩(wěn)定。分析認(rèn)為,主要是該類方法側(cè)重建模文檔的上下文,而忽略了詞頻在推送任務(wù)中的效果。
表4 不同比例訓(xùn)練樣本在盜竊罪上的類案發(fā)現(xiàn)結(jié)果Table 4 Results of similar case discover on larceny with different proportions of training samples
就時(shí)間開銷而言,TF-IDF能在100 s內(nèi)完成Legal-Small數(shù)據(jù)集的訓(xùn)練。其他模型均需要30 min以上才能完成。這里較為耗時(shí)的模型主要為BERT與LINE模型。前者需要考慮文本前后之間的依存關(guān)系,后者的時(shí)間復(fù)雜度與網(wǎng)絡(luò)邊的數(shù)量是多項(xiàng)式相關(guān)的,因此需要耗費(fèi)更多的時(shí)間。
本文提出了一種基于網(wǎng)絡(luò)表示學(xué)習(xí)與文本卷積網(wǎng)絡(luò)的聯(lián)合方法用于類案發(fā)現(xiàn)的研究。方法通過(guò)設(shè)計(jì)較為合理的投票機(jī)制將無(wú)監(jiān)督學(xué)習(xí)模型與有監(jiān)督的模型的優(yōu)勢(shì)進(jìn)行結(jié)合,并進(jìn)一步利用法律知識(shí)體系中的弱層次關(guān)系對(duì)網(wǎng)絡(luò)表示學(xué)習(xí)進(jìn)行負(fù)采樣改進(jìn)。實(shí)驗(yàn)結(jié)果表明,本文提出的聯(lián)合方法在P@10指標(biāo)上優(yōu)于對(duì)比模型,有效地提升了推送準(zhǔn)確率。本文下一步的工作將從多重罪名與少樣本罪名方向進(jìn)行類案發(fā)現(xiàn)的探索研究。