李大鵬, 趙琪琿, 邢鐵軍, 趙大哲
(1. 東北大學(xué) 計算機(jī)科學(xué)與工程學(xué)院, 遼寧 沈陽 110169; 2. 東軟集團(tuán)股份有限公司, 遼寧 沈陽 110179)
近年來,隨著人工智能等新一代信息技術(shù)的發(fā)展,司法辦案智能化成為司法領(lǐng)域信息技術(shù)的研究熱點,尤其是案件判決預(yù)測(legal judgment prediction,簡稱LJP)日益受到關(guān)注[1].LJP使用自然語言處理等技術(shù)分析案件卷宗文本,預(yù)測案件罪名、刑罰和適用法律等判決結(jié)果,該技術(shù)是司法機(jī)關(guān)智能輔助辦案系統(tǒng)的核心關(guān)鍵技術(shù)之一,可以減少法官、檢察官等辦案人員的大量案件分析工作并輔助其作出決策,提高工作效率,減少犯錯的風(fēng)險.同時,缺少法律知識的普通人也可通過該技術(shù)了解他們所關(guān)心案件的預(yù)期判決情況.
LJP包括罪名預(yù)測、刑期預(yù)測等多個子任務(wù).近年來隨著計算能力的提高及深度學(xué)習(xí)技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等方法被廣泛地應(yīng)用在LJP領(lǐng)域.2017年,Luo等[2]使用支持向量機(jī)和循環(huán)神經(jīng)網(wǎng)絡(luò)預(yù)測案件的適用罪名和適用法律,為LJP任務(wù)提出了新的解決方法.同年Vaswani等[3]提出了基于多頭自注意力機(jī)制的Transformer模型,提高了文本特征的提取能力.2018年,Google公布BERT(bidirectional encoder representation from transformers)在11項NLP(natural language processing)任務(wù)中刷新紀(jì)錄[4],引起了業(yè)界的廣泛關(guān)注.陳劍等[5]在司法文書命名實體識別問題上引入BERT模型,有效提升了實體識別效果.近兩年,許多學(xué)者對深度學(xué)習(xí)在LJP領(lǐng)域的應(yīng)用進(jìn)行了深入的探索.Li等[6]在2019年設(shè)計了一個基于注意力循環(huán)神經(jīng)網(wǎng)絡(luò)模型,同時完成案件的罪名預(yù)測、刑期預(yù)測和法條推薦任務(wù).2020年,Xu等[7]提出了一種新型的基于Bi-GRU(bidirectional gated recurrent unit)神經(jīng)網(wǎng)絡(luò)的多任務(wù)LJP框架,引入了被告人位置信息和不同刑期的注意力提升預(yù)測的準(zhǔn)確率;同年,Xu等[8]提出了一種基于圖蒸餾算子的端到端注意力模型LADAN,該模型通過利用相似罪名之間的差異很好地解決了LJP任務(wù)中罪名易混淆的問題.
2018年“中國法研杯”司法人工智能挑戰(zhàn)賽(CAIL2018)提出了刑事案件的罪名預(yù)測、法條推薦和刑期預(yù)測三個LJP挑戰(zhàn)任務(wù),罪名預(yù)測和法條推薦任務(wù)準(zhǔn)確率均達(dá)到95%以上,相比較而言,刑期預(yù)測任務(wù)準(zhǔn)確率較差.產(chǎn)生這種情況的原因主要有兩個:1)分析數(shù)據(jù)的不全面.CAIL2018的刑期預(yù)測任務(wù)是通過分析一段描述案件犯罪情節(jié)的文本來預(yù)測刑期,而在實際的司法實踐中,法官或檢察官在量刑時需要考慮的因素不僅僅包括被告人的犯罪情節(jié),還包括被告人的基本信息(例如健康狀況、年齡、前科等)、被捕后的態(tài)度表現(xiàn)(坦白、自首、立功情節(jié)等)等其他因素,僅僅依靠犯罪情節(jié)來預(yù)測量刑結(jié)果是不準(zhǔn)確的.2)預(yù)測模型的局限性.首先,刑期預(yù)測是歸結(jié)為分類問題還是回歸問題還沒有定論,相比較而言,用回歸方式預(yù)測刑期效果較差,準(zhǔn)確率不高;其次,模型如何能夠提取案件文本深層次的語義特征并生成有效表征案件文本的向量表示也是影響刑期預(yù)測準(zhǔn)確性的關(guān)鍵問題.
為了解決已有研究中存在的上述問題,本文提出一種基于多通道分層注意力循環(huán)神經(jīng)網(wǎng)絡(luò)(multi-channel hierarchical attentive recurrent neural network,MHARNN)的司法案件刑期預(yù)測模型.相比傳統(tǒng)刑期預(yù)測模型,本文在以下三個方面進(jìn)行了改進(jìn):1)BERT預(yù)訓(xùn)練模型,使用BERT預(yù)訓(xùn)練中文詞向量作為MHARNN模型的輸入,其強(qiáng)大的詞向量表征能力能夠有效提升分類器性能.2)多通道模式,MHARNN模型引入多通道模式,將被告人基本信息、犯罪情節(jié)和被告人態(tài)度表現(xiàn)三類文本信息分別輸入到編碼器中各自生成向量表示,最后三個表示向量拼接后再輸入到分類器中.3)分層注意力機(jī)制,MHARNN模型引入基于分層注意力機(jī)制的Bi-GRU神經(jīng)網(wǎng)絡(luò)模型來進(jìn)行輸入文本隱含特征的提取,其中分層注意力機(jī)制可以從詞語和句子兩個層面捕獲不同詞語和不同句子對于刑期預(yù)測任務(wù)的重要性.實驗結(jié)果表明,相比其他刑期預(yù)測模型,本文模型預(yù)測準(zhǔn)確率等性能得到了顯著提高.
為了完成案件的刑期預(yù)測,本文提出了MHARNN刑期預(yù)測模型,如圖1所示,模型可分為三個層次.
圖1 刑期預(yù)測模型
1) 輸入層.輸入層引入多通道模式和BERT中文預(yù)訓(xùn)練模型,將被告人基本信息、犯罪情節(jié)和態(tài)度表現(xiàn)三類文本轉(zhuǎn)化為BERT 詞向量序列輸入到模型編碼層中.
2) 編碼層.本文選擇使用Bi-GRU神經(jīng)網(wǎng)絡(luò)作為編碼器用于生成三類文本的向量表示.編碼器是一個雙層結(jié)構(gòu),首先將詞向量序列作為輸入并結(jié)合詞語級注意力上下文向量cpw,cfw和caw生成句子向量,再將生成的多個句子向量序列作為輸入并結(jié)合句子級注意力上下文向量cps,cfs和cas生成三類文本的向量,包括基本信息向量dp、犯罪情節(jié)向量df和態(tài)度表現(xiàn)向量da.
3) 輸出層.本文將dp,df和da拼接在一起后輸入到Softmax分類器中.分類器會輸出不同刑期區(qū)間的概率分布Pt,從而得出該案件的刑期預(yù)測結(jié)果.
相比于傳統(tǒng)的預(yù)測模型將案件文書整體輸入到編碼器中,MHARNN模型多通道模式的優(yōu)勢可歸納為如下兩點:1) 多通道模式下各類輸入信息擁有單獨的編碼器,編碼器能夠更好地學(xué)習(xí)深層特征,生成的向量表示也能夠更準(zhǔn)確地表征輸入文本數(shù)據(jù),從而提高模型的預(yù)測準(zhǔn)確率;2) 多通道模式下,模型的輸入也更加靈活,比如被告人的態(tài)度表現(xiàn),除了可以將文本向量作為輸入外,也可以使用One-hot編碼對被告人的坦白、自首和立功等情節(jié)進(jìn)行編碼,生成一個代表被告人態(tài)度表現(xiàn)的向量,之后可以將其輸入到一個多層感知機(jī)中生成與其他兩個通道相同維度的特征向量.
案件文本可以視作具有兩層結(jié)構(gòu)的序列集合,即一個案件文本是多個句子組成的序列集合,而其中每個句子則是由多個詞語組成的序列集合.如圖2所示,本文基于Bi-GRU神經(jīng)網(wǎng)絡(luò)構(gòu)建一個具有兩層結(jié)構(gòu)的編碼器來學(xué)習(xí)案件文本的向量表示,兩層結(jié)構(gòu)分為詞語級編碼器和句子級編碼器.
假設(shè)一個文本由n個句子組成,其中第i個句子si(i∈[1,n])包含m個詞語,用wij(j∈[1,m])表示該句子中的第j個詞語,則文本表示向量d可以表示為
d=f([s1,s2,…,sn]) ,
(1)
si=g([wi1,wi2,…,wim]) .
(2)
其中f和g函數(shù)分別代表句子級編碼器和詞語級編碼器.
圖2 雙層文本編碼器
本文選擇Bi-GRU神經(jīng)網(wǎng)絡(luò)構(gòu)建文本編碼器.GRU是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種變體, GRU有兩個門,分別為更新門和重置門.更新門控制前一時刻的狀態(tài)信息被輸入到當(dāng)前狀態(tài)中的程度,更新門的值越大說明前一時刻的狀態(tài)信息輸入越多.重置門控制忽略前一時刻的狀態(tài)信息的程度,重置門的值越小說明忽略的信息越多.在任意時刻t,GRU的隱藏狀態(tài)計算如式(3)~式(6)所示.
rt=σ(Wrxt+Urht-1+br);
(3)
zt=σ(Wzxt+Uzht-1+bz);
(4)
(5)
(6)
其中:rt表示更新門結(jié)果;zt表示重置門結(jié)果;ht-1代表上一時刻隱藏狀態(tài);xt表示輸入的文本序列信息;Wr,Wz,Wn為權(quán)重參數(shù);σ是sigmoid函數(shù); ⊙代表兩個矩陣求Hadamard積的操作.Bi-GRU通過引入第二個層來擴(kuò)展單向的GRU網(wǎng)絡(luò),在這個層中隱藏的連接以相反的順序流動,從而有效利用文本中的上下文信息.給定一組文本數(shù)據(jù)[x1,x2,…,xT],其中第t個元素為xt(t∈[1,T]).對于xt,前向GRU隱藏狀態(tài)hft和后向GRU隱藏狀態(tài)hbt分別為
hft=GRU([x1,x2,…,xt]) ,
(7)
hbt=GRU([xT,xT-1,…,xt]) .
(8)
最后通過拼接ht=[hft,hbt]作為最終的Bi-GRU輸出.
對于一個案件文本來說,每個句子包含的信息不同,對于量刑預(yù)測結(jié)果的影響是不同的.同樣,一個句子中的詞語既可能是與案情緊密相關(guān)的詞語,也可能是無關(guān)的詞語,它們對于量刑預(yù)測結(jié)果的重要性也是不同的.因此,本文在模型中引入分層注意力機(jī)制,給不同的句子或詞語賦予不同的權(quán)重,從而摒棄一些噪音數(shù)據(jù),以此來提高分類器的性能.注意力機(jī)制本質(zhì)上是為了對數(shù)據(jù)中更有價值的部分分配較多的計算資源.
如圖3所示,本文引入全局的注意力上下文向量cw和cs[9],分別參與詞語級和句子級的注意力計算,生成句子表示向量s和文本表示向量d.使用隨機(jī)值初始化cw和cs,并在模型訓(xùn)練過程中迭代優(yōu)化.給定一組GRU編碼器輸出[hi1,hi2,…,hiM],每個詞的注意力值為[αi1,αi2,…,αiM],其中αij∈[0,1],∑jαij=1.句子表示向量si計算過程如下:
uij=tanh(Wwhij+bw) ,
(9)
(10)
si=∑jαijhij.
(11)
同理,文本表示向量d的計算過程如下:
ui=tanh(Wshi+bs) ,
(12)
(13)
d=∑iαihi.
(14)
其中:Ww,Ws分別是詞語級和句子級的權(quán)重參數(shù);bw,bs分別是詞語級和句子級的偏置參數(shù).通過如上的計算過程,就可以計算結(jié)合了分層注意力機(jī)制的文本表示向量.
Softmax分類器的輸入是來自三個通道的文本向量拼接后形成的向量d:
d=[dp,df,da] ,
(15)
p=softmax(Wpd+bp) .
(16)
將案件表示向量d輸入到分類器后會得到屬于各個刑期標(biāo)簽的概率pi(pi∈[0,1],i∈[1,I]),其中pi代表案件刑期屬于該區(qū)間的概率,I是刑期區(qū)間劃分的標(biāo)簽數(shù)量.由于刑期預(yù)測問題屬于單分類問題,選取概率值最大的區(qū)間為刑期預(yù)測結(jié)果.
本文使用交叉熵作為模型的損失函數(shù),記為LossF:
(17)
其中,ri表示標(biāo)簽指示變量,如果該預(yù)測結(jié)果和樣本案件的標(biāo)簽相同就是1,否則是0.
圖3 雙層注意力機(jī)制
目前,國內(nèi)公開的司法案件數(shù)據(jù)集較少,比較知名的是2018年“中國法研杯”提供的 CAIL2018數(shù)據(jù)集[10].CAIL2018數(shù)據(jù)集涵蓋了202個罪名共260余萬份真實案件,可用于LJP相關(guān)模型的訓(xùn)練和測試.但通過分析發(fā)現(xiàn),CAIL2018中的案件數(shù)據(jù)僅包含被告人姓名(已脫敏),并不包含被告人詳細(xì)信息,即無法獲取被告人的年齡、身體狀況及前科等與量刑結(jié)果息息相關(guān)的信息,同時,部分案件也沒有被告人的態(tài)度表現(xiàn)信息.基于此種情況,本文通過中國裁判文書網(wǎng)收集了海量案件判決書,得益于其比較規(guī)范的格式;通過程序?qū)⑴袥Q書中的被告人基本信息、犯罪情節(jié)、態(tài)度表現(xiàn)、罪名和判決結(jié)果等內(nèi)容自動提取并結(jié)構(gòu)化為實驗數(shù)據(jù)集.該數(shù)據(jù)集中的案件數(shù)據(jù)包含了模型所需的完整內(nèi)容,可以有效驗證本文提出的MHARNN模型的性能.實驗數(shù)據(jù)集涵蓋了58個罪名共20萬個案件,所有案件均是單被告人且判罰結(jié)果均是有期或無期徒刑(不考慮緩刑).數(shù)據(jù)集不同罪名案件數(shù)量的分布是不均衡的,數(shù)量最多的前10個罪名的案件占數(shù)據(jù)集案件總數(shù)的72.1%.本文將數(shù)據(jù)集隨機(jī)分為三部分作為訓(xùn)練集、驗證集、測試集,三者的文書數(shù)量比例約為8∶1∶1.
本文將刑期歸一化處理為以月份為單位的時間常數(shù),然后劃分成不同的區(qū)間(單罪名有期徒刑最少為6個月,最多為15年,數(shù)罪并罰不超過25年),例如6~8個月、8~12個月,每個區(qū)間為一個類別,其中無期徒刑單獨歸類.具體劃分規(guī)則見表1.
表1 刑期區(qū)間劃分
針對從網(wǎng)上下載的案件判決書,數(shù)據(jù)預(yù)處理主要包括三個步驟.
1) 結(jié)構(gòu)化:首先通過關(guān)鍵字對判決書進(jìn)行段落級別的劃分,將其分為包含基本信息、犯罪情節(jié)、態(tài)度表現(xiàn)和判決結(jié)果等段落,然后通過關(guān)鍵字和正則表達(dá)式從判決結(jié)果中提取罪名、刑期等信息,最終將一份判決書結(jié)構(gòu)化為實驗所需的數(shù)據(jù)樣本.
2) 數(shù)據(jù)清洗:針對包含基本信息、犯罪情節(jié)和態(tài)度表現(xiàn)的文本,去掉其中的冗余詞、停用詞以及語氣助詞等沒有意義的內(nèi)容.
3) 向量化:將清洗后的三部分文本進(jìn)行分詞,然后使用中文預(yù)訓(xùn)練模型ALBERT_TINY將文本中的詞轉(zhuǎn)為詞向量,詞向量的維度設(shè)置為400.
為了驗證本文提出的MHARNN模型在刑期預(yù)測性能方面的優(yōu)越性,在相同數(shù)據(jù)集上進(jìn)行一系列對比實驗,包括:
1) 從分析模型性能優(yōu)越性的角度,選擇了CAIL2018比賽中使用的TextCNN[11],RCNN[12],DPCNN[13]和HAN[14]四種刑期預(yù)測模型與本文提出的MHARNN模型進(jìn)行比較.考慮到這些模型不是多通道模型,在實驗過程中,將三類數(shù)據(jù)按照基本信息、犯罪情節(jié)和態(tài)度表現(xiàn)的順序整合在一起輸入到模型中.
2) 從分析BERT詞向量、多通道數(shù)據(jù)和雙層注意力機(jī)制對性能影響的角度,設(shè)計了多組消融實驗進(jìn)行分析比較.
實驗選擇TensorFlow工具訓(xùn)練以上提到的所有神經(jīng)網(wǎng)絡(luò)模型,超參數(shù)設(shè)定隱藏層數(shù)為3,隱藏層節(jié)點數(shù)為200,被告人基本信息、犯罪情節(jié)和態(tài)度表現(xiàn)的Embedding長度分別設(shè)置為50,100和50.本文使用Adam算法來優(yōu)化訓(xùn)練過程,學(xué)習(xí)率設(shè)置為0.001,Dropout設(shè)置為0.5;使用宏精度(macro-precision,MP)和宏召回率(macro-recall, MR)和宏F1分?jǐn)?shù)三個指標(biāo)來評價模型性能.
在相同數(shù)據(jù)集上,不同文本分類模型在刑期預(yù)測任務(wù)上的實驗結(jié)果如表2所示.
表2 不同模型結(jié)果對比
從結(jié)果可以看到, MHARNN模型取得了所有對比模型中最好的效果,此外,引入注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)模型HAN也取得了較好的性能.相較于HAN模型,MHARNN模型的F1分?jǐn)?shù)提升了14%.從5類模型的實驗結(jié)果可見,TextCNN和DPCNN的性能較差,即卷積神經(jīng)網(wǎng)絡(luò)在自然語言處理任務(wù)上的效果沒有循環(huán)神經(jīng)網(wǎng)絡(luò)的效果好,畢竟案件文本作為序列數(shù)據(jù),使用循環(huán)神經(jīng)網(wǎng)絡(luò)模型處理更加適合.參考CAIL2018的刑期預(yù)測任務(wù)的準(zhǔn)確率, MHARNN模型在MP和MR性能上均得到顯著的提升.但是,相比于罪名預(yù)測和法條推薦任務(wù),刑期預(yù)測任務(wù)的F1分?jǐn)?shù)仍然相對較低,除了前文分析的原因外,數(shù)罪并罰導(dǎo)致刑期變化以及案件情節(jié)的復(fù)雜性仍是困擾刑期預(yù)測任務(wù)的難題.
為了深入分析多通道數(shù)據(jù)和雙層注意力機(jī)制對刑期預(yù)測任務(wù)性能的影響,設(shè)計消融實驗進(jìn)行分析比較.模型名字中w/o是without的縮寫,w/o BERT代表用word2vec詞向量替代BERT,w/o attention模型即無雙層注意力機(jī)制;w/o hierarchical模型即不使用包括詞語級和句子級的雙層Bi-GRU編碼器,輸入文本后直接通過Bi-GRU編碼器獲得文本表示向量;w/o persona模型是指輸入文本只有犯罪情節(jié)和態(tài)度表現(xiàn)內(nèi)容;w/o attitude模型是指輸入文本只有犯罪情節(jié)和基本信息內(nèi)容.實驗結(jié)果如表3所示.
表3 消融實驗結(jié)果
從實驗結(jié)果可知,本文模型中使用的BERT詞向量、注意力機(jī)制以及分層編碼器均有效提高了刑期預(yù)測的性能,沒有它們,分類性能都有一定程度的下降.BERT預(yù)訓(xùn)練模型通過雙向訓(xùn)練Transformer編碼器從海量的無標(biāo)注語料中學(xué)習(xí)詞語信息特征、語言學(xué)特征和一定程度的語義信息特征,具有強(qiáng)大的詞向量表征能力.使用BERT Word Embedding作為輸入,使模型F1分?jǐn)?shù)提升6%.注意力機(jī)制給不同的句子或詞語賦予不同的權(quán)重,起到了摒棄噪音數(shù)據(jù)的效果.而從數(shù)據(jù)類別來看,態(tài)度表現(xiàn)內(nèi)容對刑期預(yù)測任務(wù)的影響更大,因為被告人的態(tài)度表現(xiàn)與量刑的從輕和從重判罰息息相關(guān).基本信息內(nèi)容中對量刑有影響的是年齡(如未成年人)、身體狀況(如聾啞人)和前科(如累犯認(rèn)定)等信息,可見大部分案件的基本信息內(nèi)容對量刑結(jié)果的影響較小,但對少量案件來說,缺少基本信息內(nèi)容會造成較大的預(yù)測誤差,可見三類數(shù)據(jù)一起輸入到模型中才會提高預(yù)測準(zhǔn)確率.
針對案件判決預(yù)測中的刑期預(yù)測任務(wù),本文提出一種基于多通道分層注意力循環(huán)神經(jīng)網(wǎng)絡(luò)的司法案件刑期預(yù)測模型.該模型引入了BERT預(yù)訓(xùn)練模型、多通道模式和分層注意力機(jī)制,能夠有效提升刑期預(yù)測的準(zhǔn)確率.對比實驗結(jié)果表明,多通道分層注意力循環(huán)神經(jīng)網(wǎng)絡(luò)模型的學(xué)習(xí)能力更強(qiáng),具備學(xué)習(xí)深層次語義特征的能力,從而有效提升刑期預(yù)測的性能.下一步工作主要包含兩個方面:一方面需要進(jìn)一步提升該模型在刑期預(yù)測方面的性能;另一方面,針對數(shù)罪并罰案件在模型架構(gòu)上進(jìn)一步改進(jìn).