周法國, 劉文, 葛逸凡, 李夷進(jìn)
(中國礦業(yè)大學(xué)(北京)機(jī)電與信息工程學(xué)院, 北京 100083)
2020年最高人民法院工作報(bào)告指出,地方各級(jí)人民法院和專門人民法院受理案件3 080.5×104件,而在2010年,這個(gè)數(shù)字為1 170×104件。由于法律工作的專業(yè)性,面對(duì)龐大且不斷增長(zhǎng)的各類糾紛,從事司法相關(guān)工作的人員缺口也越來越大。2015年3月25日,最高人民法院信息化建設(shè)工作領(lǐng)導(dǎo)小組首次提出智能法院的概念,2018年開始舉辦的司法人工智能挑戰(zhàn)賽[1]也加速了司法人工智能研發(fā),促進(jìn)了學(xué)科發(fā)展。將人工智能應(yīng)用與司法領(lǐng)域有很多場(chǎng)景,如司法判決預(yù)測(cè)、相似案件匹配以及信息抽取等。
司法判決預(yù)測(cè)指的是依靠真實(shí)案情陳述文本,確定案件的最終判決。它在智能司法中發(fā)揮著不可替代的作用。它不僅能為法律工作者提供參考,也能為不了解法律相關(guān)知識(shí)的普通人提供法律建議。
司法判決預(yù)測(cè)的研究工作已經(jīng)進(jìn)行了幾十年。早期的研究人員使用數(shù)學(xué)計(jì)算方法來分析影響決策的事實(shí)因素并預(yù)測(cè)罪名。但是只有特征明顯的案例和規(guī)模較小的數(shù)據(jù)集才會(huì)有一定的效果,很難將方法進(jìn)行推廣。后來,隨著機(jī)器學(xué)習(xí)的發(fā)展,研究人員開始從案情陳述中提取有效特征,并通過機(jī)器學(xué)習(xí)方法進(jìn)行預(yù)測(cè),如樸素貝葉斯或支持向量機(jī)等[2]。然而,這些方法對(duì)手動(dòng)特征有嚴(yán)重的依賴,很難在更大的數(shù)據(jù)集上收集特征。近年來,隨著深度學(xué)習(xí)在自然語言處理、計(jì)算機(jī)視覺和語音方面的成功,神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于對(duì)案情陳述文本進(jìn)行建模。
然而,罪名預(yù)測(cè)在現(xiàn)實(shí)場(chǎng)景中仍然存在兩個(gè)主要挑戰(zhàn):少樣本罪名和易混淆罪名預(yù)測(cè),并且有些容易混淆的罪名往往樣本數(shù)量少。一方面,在真實(shí)司法數(shù)據(jù)集中,不同罪名的案件數(shù)量極不平衡,前10種罪名占數(shù)據(jù)集中近80%的案件;后10種罪名在數(shù)據(jù)集中的占比不到0.2%。在少樣本數(shù)據(jù)類別較多的情況下,一般的深度學(xué)習(xí)模型表現(xiàn)不佳。為了解決這個(gè)問題,Wang等[3]引入Mixup方法進(jìn)行數(shù)據(jù)增強(qiáng),同時(shí)提出使用圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取并增強(qiáng)。Zhang等[4]使用基于共同信息的損失函數(shù)解決樣本不平衡問題。另一方面,在真實(shí)的司法數(shù)據(jù)集中,還存在一些難以區(qū)分的罪名,如放火罪和失火罪、濫發(fā)林木罪和盜伐林木罪等。這些罪名在案情描述上極其相似,但司法判決結(jié)果卻各不相同。為了區(qū)分相似罪名在案情陳述上的細(xì)微差別,Xu等[5]提出了使用圖神經(jīng)網(wǎng)絡(luò)來提取法律文本之間的易區(qū)分特征,從而提高模型識(shí)別能力。Hu等[6]引入10個(gè)具有區(qū)分性的罪名屬性標(biāo)簽,為區(qū)分混淆罪名提供了幫助,同時(shí)人工標(biāo)注只需要少量的工作,但模型可解釋性欠佳。Zhong等[7]提出了QAjudge,提高了司法判決預(yù)測(cè)可解釋性。殷敏等[8]結(jié)合支持向量機(jī)與預(yù)測(cè)解釋框架,對(duì)影響因素進(jìn)行分析,提高預(yù)測(cè)結(jié)果解釋性。張虎等[9]對(duì)裁判文書進(jìn)行要素抽取,提高模型預(yù)測(cè)效果,但子任務(wù)間耦合度較高。王婉臻等[10]總結(jié)了近年來人工智能在司法判決預(yù)測(cè)領(lǐng)域的研究成果。
綜上,提出一種基于BERT(bidirectional encoder representations from transformer)預(yù)訓(xùn)練模型和雙向門控循環(huán)單元(bidirectional gated recurrent unit,BiGRU)的混合模型提升性能,并借鑒了Hu等[6]提出的罪名屬性標(biāo)簽思想,使用自注意力機(jī)制對(duì)每個(gè)屬性標(biāo)簽進(jìn)行對(duì)應(yīng)的特征提取,同時(shí)利用10個(gè)屬性標(biāo)簽增強(qiáng)司法判決預(yù)測(cè)任務(wù)的可解釋性,并通過實(shí)驗(yàn)證明所提方法的有效性。
自注意力使得每個(gè)詞向量都能考慮整句話的前后文相關(guān)信息[11],假設(shè)向量a1、a2、a3表示某句案情陳述所提取的特征向量,那么自注意力層的流程操作如圖1所示。
通過輸入向量a1、a2、a3,得到輸出向量b1、b2、b3。其中每一個(gè)bi都是考慮過整句信息的,具體流程如下。首先對(duì)每一個(gè)向量a,都要計(jì)算自身和其余向量之間的注意力分?jǐn)?shù),也就是找到序列中的相關(guān)向量,計(jì)算方式有很多,采用常見的點(diǎn)積進(jìn)行計(jì)算,具體地,由向量a1乘以矩陣Wq計(jì)算得出q1,再由其余向量如a2乘以矩陣Wk得到k2,最后計(jì)算q1和k2的點(diǎn)積,即可得出向量a1和向量a2之間的注意力分?jǐn)?shù)。值得注意的是,每一個(gè)向量ai均要與a1進(jìn)行計(jì)算,包括a1本身。
圖1 自注意力機(jī)制結(jié)構(gòu)圖Fig.1 Self-attention mechanism structure diagram
(1)
式(1)中:qi為查詢向量;ki為特征向量;Wq和Wk為系數(shù)矩陣,隨模型訓(xùn)練進(jìn)行計(jì)算更新。
經(jīng)過上述計(jì)算得到向量a1和其他向量的相關(guān)程度a1,1、a1,2、a1,3,然后采用常見的softmax進(jìn)行歸一化處理得到注意力分?jǐn)?shù)α′1,1、α′1,2、α′1,3,其表達(dá)式為
(2)
將向量ai乘以矩陣Wv得到對(duì)應(yīng)的向量vi,將vi與式(2)得到的注意力分?jǐn)?shù)相乘并求和得到b1,其余向量bi的計(jì)算方式類似,故不再贅述。計(jì)算過程可表示為
(3)
式(3)中:vi為值向量;系數(shù)矩陣Wq、Wk、Wv由神經(jīng)網(wǎng)絡(luò)通過大量文本語料訓(xùn)練得到。
自注意力機(jī)制自2017年開始受到研究人員的廣泛關(guān)注,并將其應(yīng)用于自然語言處理的各個(gè)任務(wù)中。
BERT模型是基于Transformer的網(wǎng)絡(luò)模型,僅使用其編碼器部分。因此在介紹BERT前,首先進(jìn)行Transformer介紹,2017年 Google團(tuán)隊(duì)提出了Transformer新型網(wǎng)絡(luò)架構(gòu),它完全基于注意力機(jī)制,如今已有多種變體[12],其模型結(jié)構(gòu)如圖2所示。
圖2 Transformer模型結(jié)構(gòu)圖Fig.2 Transformer model structure diagram
自注意力使用注意力機(jī)制來推斷句子中標(biāo)記之間的關(guān)系,并學(xué)習(xí)同一個(gè)句子的表示。在Transformer中,自注意力是通過縮放點(diǎn)積注意力和多頭注意力來實(shí)現(xiàn)的。
(4)
式(4)中:Q、K和V分別為query、key和value序列;dk為k的維數(shù)。
多頭注意力之所以如此命名,是因?yàn)樗蕾囉诙鄠€(gè)注意力實(shí)例。將從輸入向量中獲得的K、Q和V乘以不同的學(xué)習(xí)矩陣,以生成多組K、Q和V。每組K、Q和V都被送入縮放的點(diǎn)積注意力函數(shù)并返回輸出值。然后將所有返回的頭連接為矩陣并投影以得出最終值。與單頭注意力相比,多頭注意力擴(kuò)展了模型在不同位置處理信息的能力,而不會(huì)增加總計(jì)算成本,計(jì)算公式為
(5)
在自注意力層之后,是一個(gè)完全連接的前饋網(wǎng)絡(luò)(fully connect feedforword network, FFN),獨(dú)立地應(yīng)用于輸入序列的每個(gè)位置。自注意力的輸出被送到一個(gè)線性函數(shù),然后是一個(gè)Relu函數(shù),最后后用另一個(gè)線性函數(shù)進(jìn)行投影,可表示為
FFN(x)=max(0,xW1+b1)W2+b2
(6)
式(6)中:Wi為權(quán)重矩陣;bi為偏置向量;x為輸入的向量。
編碼器和解碼器層中每個(gè)子層的輸出通過殘差連接和層歸一化進(jìn)行修改。殘差連接被提出來解決深度卷積神經(jīng)網(wǎng)絡(luò)中增加的訓(xùn)練錯(cuò)誤和模型性能的下降,殘差學(xué)習(xí)將輸入添加到神經(jīng)網(wǎng)絡(luò)層的輸出。層歸一化使用層中所有輸入值的均值和標(biāo)準(zhǔn)差對(duì)神經(jīng)網(wǎng)絡(luò)層中的輸入值進(jìn)行歸一化,這種歸一化加速了神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時(shí)間。
與考慮序列中標(biāo)記順序的循環(huán)神經(jīng)網(wǎng)絡(luò)相比,Transformer結(jié)構(gòu)不存儲(chǔ)位置信息。為了解決這個(gè)問題,在編碼器和解碼器堆棧的入口處的輸入中添加了位置編碼。Transformer中的位置編碼采用正弦函數(shù)對(duì)序列中的位置信息進(jìn)行編碼,因?yàn)樗梢院敛毁M(fèi)力地處理相對(duì)位置,位置編碼PE的表達(dá)式為
PEpos,2i=sin(pos/10 0002i/dmodel)
PEpos,2i+1=cos(pos/10 0002i/dmodel)
(7)
式(7)中:pos為位置;i為維度;dmodel為詞向量維數(shù)。
BERT是預(yù)訓(xùn)練語言表示的最先進(jìn)模型,通過執(zhí)行掩碼語言模型任務(wù)和下一句預(yù)測(cè)任務(wù)來考慮雙向表示[13],適合處理文本數(shù)據(jù)。
通過隨機(jī)屏蔽輸入序列中特定百分比的標(biāo)記并基于未屏蔽標(biāo)記預(yù)測(cè)被屏蔽標(biāo)記來處理輸入序列的左右上下文。在將日志序列中的標(biāo)記轉(zhuǎn)換為嵌入向量之前,選擇了15%的標(biāo)記并替換為[MASK]標(biāo)記。在實(shí)踐中,[MASK]標(biāo)記不會(huì)出現(xiàn)在微調(diào)過程中。為了減輕這個(gè),當(dāng)一個(gè)標(biāo)記被屏蔽之后,80%的時(shí)候這個(gè)標(biāo)記都會(huì)被替換為[MASK]標(biāo)記,10%會(huì)替換成語料庫里隨機(jī)的詞,還有10%不變,BERT的目標(biāo)函數(shù)只考慮被屏蔽的標(biāo)記的預(yù)測(cè)。
NSP(next sentence prediction)專為需要理解句子關(guān)系的下游任務(wù)而設(shè)計(jì)。在預(yù)訓(xùn)練中,下一句預(yù)測(cè)從語料庫中生成由兩個(gè)句子A和B組成的句子對(duì)。給定前面的句子A,50%的時(shí)候B是A之后的后續(xù)句子,而50%的時(shí)候B是來自語料庫的隨機(jī)句子。為了區(qū)分兩個(gè)句子,在每個(gè)句子的末尾注入了一個(gè)特殊的標(biāo)記[SEP]。此外,在輸入樣本的開頭插入了[CLS]標(biāo)記。[CLS]表示可以饋送到輸出層進(jìn)行分類。在將這些特殊標(biāo)記合并到輸入序列中后,將段嵌入添加到標(biāo)記嵌入和位置嵌入中。段嵌入暗示每個(gè)標(biāo)記屬于哪個(gè)句子。NSP任務(wù)使用IsNext或NotNext標(biāo)簽來確定句對(duì)之間是否存在連接。因此,NSP損失函數(shù)被視為二元分類損失。
介紹GRU(gated recurrent unit)之前,首先需要了解RNN(recurrent neural network),它是一種具有記憶功能的人工神經(jīng)網(wǎng)絡(luò)。RNN之所以被稱為循環(huán)神經(jīng)網(wǎng)絡(luò),是因?yàn)樗鼈兛梢詫W(xué)習(xí)并保存過去的信息,然后將其用于未來的預(yù)測(cè),可表示為
ht=tanh[Wx(t)xt+Uh(t)ht-1+b)
(8)
式(8)中:xt為時(shí)間t的輸入;ht為單元在時(shí)間t的隱藏信息;Wx(t)為x在t時(shí)刻的權(quán)重矩陣;Uh(t)為ht-1在時(shí)間t的權(quán)重矩陣;b為偏差。
在t時(shí)刻,新的輸入和上一個(gè)單元格的記憶同時(shí)輸入,在兩個(gè)不同的權(quán)重矩陣的作用下組合成一個(gè)新的向量。這個(gè)向量包含了當(dāng)前的輸入信息和之前的記憶,在激活函數(shù)tanh的激活下,得到了t時(shí)刻新的隱藏記憶。然后輸入下一個(gè)以時(shí)間t的信息作為輸入的單元格。
循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)在處理長(zhǎng)文本時(shí)容易出現(xiàn)梯度消失的問題,因此產(chǎn)生了長(zhǎng)短期記憶(long-short-term-memory,LSTM),它是一種用于深度學(xué)習(xí)領(lǐng)域的長(zhǎng)期短期存儲(chǔ)網(wǎng)絡(luò),可以學(xué)習(xí)長(zhǎng)期依賴,LSTM在每個(gè)時(shí)刻t都引入了細(xì)胞狀態(tài)Ct,用于表示當(dāng)前時(shí)刻保存的信息。LSTM的具體步驟如下。
步驟1決定哪些信息將被稱為“遺忘門”的sigmoid層放棄或保留在細(xì)胞狀態(tài)中。門的輸入是隱藏特征ht-1和當(dāng)前時(shí)刻輸入xt,輸出是細(xì)胞狀態(tài)Ct-1的權(quán)重(0-1)矩陣,其中1代表“完全保留”,0代表“完全擺脫”,遺忘門的表達(dá)式為
ft=σ(Wfxt+Ufht-1+bf)
(9)
(10)
步驟2中,通過從輸入門獲得的信息更新舊的細(xì)胞狀態(tài)Ct-1。首先,將“遺忘門”中得到的ft與Ct-1相乘,對(duì)舊信息進(jìn)行過濾,確定舊信息的保留和丟棄,乘以1表示信息完全保留,乘以0表示信息完全丟棄。然后將輸入門中得到的結(jié)果相乘,得到需要添加的新信息,將更新后的舊信息組合起來,形成新信息記錄在細(xì)胞狀態(tài)中,可表示為
(11)
步驟3需要從細(xì)胞狀態(tài)決定這個(gè)重復(fù)模塊的輸出是什么。首先,生成一個(gè)加權(quán)矩陣,通過一個(gè)sigmoid層來決定細(xì)胞狀態(tài)的輸出部分,其中“1”代表輸出所有信息,“0”代表什么都不輸出。然后,通過tanh函數(shù)將單元格狀態(tài)的值推到-1和1之間,然后將其乘以加權(quán)矩陣以輸出決定的單元格狀態(tài)ht部分,如式(12)所示。
(12)
式中:ft為遺忘門;it為輸入門;ot為輸出門;Wi、Wo、Wf、WC為不同門控機(jī)制對(duì)輸入xt的權(quán)重;Ui、Uo、Uf、UC為不同門控機(jī)制對(duì)隱藏特征ht的權(quán)重;bi、bo、bf、bC為偏置向量;σ為sigmoid函數(shù),作用是把數(shù)據(jù)范圍映射在0~1內(nèi),成為門控制信號(hào);ct為當(dāng)前t時(shí)刻的存儲(chǔ)單元信息
GRU是LSTM的一種變體,它將遺忘門和輸入門組合成一個(gè)“更新門”,并且還合并了單元狀態(tài)和隱藏狀態(tài),將長(zhǎng)期和短期信息保持在一起。因此,與傳統(tǒng)的LSTM相比,GRU的效率更高[14],算法流程可表示為
(13)
GRU繼承了RNN的優(yōu)勢(shì),也解決了RNN在長(zhǎng)文本下梯度消失的問題。但GRU只能順序進(jìn)行,也就是說只能聯(lián)系前文信息。BiGRU能同時(shí)關(guān)注到上下文信息,適合處理長(zhǎng)文本任務(wù)。
傳統(tǒng)的基于深度學(xué)習(xí)的司法判決預(yù)測(cè)方法,存在各種各樣的問題,有些方法需要借助額外法條任務(wù)輔助,有些方法從未考慮少樣本罪名和易混淆罪名預(yù)測(cè)場(chǎng)景或者僅考慮一種情況,有些方法使用不同的網(wǎng)絡(luò)模型進(jìn)行偽數(shù)據(jù)生成來解決數(shù)據(jù)不平衡問題,有些方法則沒有考慮司法判決預(yù)測(cè)任務(wù)的特殊性而進(jìn)行可解釋性分析。因此,使用BERT模型和BiGRU模型進(jìn)行文本的特征提取,通過添加AATT模塊(罪名屬性標(biāo)簽?zāi)K)輔助司法判決預(yù)測(cè)任務(wù),緩解了易混淆罪名判別問題,借助10個(gè)罪名屬性標(biāo)簽,可以提升模型對(duì)混淆罪名的識(shí)別準(zhǔn)確率。例如,放火罪和失火罪在案情描述中內(nèi)容極度相似,但在罪名屬性標(biāo)簽故意犯罪中,兩種罪名的標(biāo)簽具有區(qū)分性,放火罪的故意犯罪標(biāo)簽為是,失火罪的故意犯罪標(biāo)簽為否,為混淆罪名的判別提供輔助。同時(shí),AATT模塊還有另一個(gè)功能,就是通過添加自注意力機(jī)制生成可視化圖來緩解司法判決預(yù)測(cè)可解釋性。
為了緩解司法數(shù)據(jù)集樣本極度不平衡的問題,提出罪名分類權(quán)重方案,具體如下:首先用數(shù)據(jù)集樣本總數(shù)除以各個(gè)罪名在數(shù)據(jù)集中的數(shù)量得到初步權(quán)重信息,通過對(duì)權(quán)重信息的分析觀察,將權(quán)重值縮小 2 000 倍,得到的最小權(quán)重值為0.001 746,最大權(quán)重值為9.594 875。通過上述簡(jiǎn)單計(jì)算,將所有罪名分類的權(quán)重值壓縮在10以內(nèi),需要注意的是,為了模型總體效果不受影響,故將權(quán)重值不足1的所有權(quán)重變?yōu)?,減少權(quán)重對(duì)樣本數(shù)量很多的罪名的影響,同時(shí)使少樣本罪名權(quán)重提升,增強(qiáng)其性能表現(xiàn)。最后在罪名分類和屬性標(biāo)簽分類中均添加自注意力機(jī)制,通過可視化來增強(qiáng)算法的可解釋性,總體算法流程如圖3所示。
圖3 算法流程圖Fig.3 Flowchart of the algorithm
所使用的數(shù)據(jù)集均來自中國裁判文書網(wǎng)公開的真實(shí)案件判決。數(shù)據(jù)集分布如表1所示,數(shù)據(jù)集中的罪名屬性標(biāo)簽說明如表2所示。
表1 不同數(shù)據(jù)集分布Table 1 Distribution of different datasets
表2 罪名屬性標(biāo)簽信息Table 2 Charge attribute tag information
所使用的評(píng)價(jià)指標(biāo)為司法判決預(yù)測(cè)常用的Acc(準(zhǔn)確率)、P(精確率)、R(召回率)和F1(綜合考慮P和R的指標(biāo)),計(jì)算公式為
(14)
式(14)中:TP為預(yù)測(cè)為正例且預(yù)測(cè)正確;TN為預(yù)測(cè)為負(fù)例且預(yù)測(cè)正確;FP為預(yù)測(cè)為正例且預(yù)測(cè)錯(cuò)誤;FN為預(yù)測(cè)為負(fù)例且預(yù)測(cè)錯(cuò)誤。
圖4展示了模型訓(xùn)練過程中損失函數(shù)loss和Acc的變化趨勢(shì)。其中,模型的訓(xùn)練損失前期快速下降后期趨于穩(wěn)定,驗(yàn)證損失穩(wěn)中有降;模型的訓(xùn)練準(zhǔn)確率無限接近于1,驗(yàn)證準(zhǔn)確率穩(wěn)步提升并趨于穩(wěn)定。綜上所述,所提出的BGAAT(BERT BiGRU attribute self-attention)網(wǎng)絡(luò)模型符合深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)訓(xùn)練客觀規(guī)律,結(jié)果也符合預(yù)期。
表3展示了模型在3個(gè)數(shù)據(jù)集上的表現(xiàn),并與基線模型及研究人員近兩年提出的模型進(jìn)行對(duì)比,由表中可以看出,本文模型效果有顯著提升。
借助更為詳細(xì)的罪名屬性標(biāo)簽,提高模型效果的同時(shí)也將屬性標(biāo)簽預(yù)測(cè)時(shí)的權(quán)重進(jìn)行了可視化,如圖5所示,由于案情描述文本過長(zhǎng),僅選擇3處進(jìn)行展示。圖5中案例為尋釁滋事罪,可以看出各屬性對(duì)關(guān)鍵信息權(quán)重更高,在提升性能的同時(shí)更好的解釋了模型根據(jù)哪些內(nèi)容進(jìn)行罪名屬性預(yù)測(cè),提高了模型的可解釋性。
為了說明模型在少樣本罪名預(yù)測(cè)上的準(zhǔn)確性,部分研究人員把數(shù)據(jù)集分為3部分,其中數(shù)據(jù)集中罪名出現(xiàn)次數(shù)小于10次的定義為少樣本罪名,數(shù)據(jù)集中罪名出現(xiàn)次數(shù)大于100次的定義為高頻罪名,中間部分定義為中頻。
由表4可知,所提出的司法判決預(yù)測(cè)方案在保證中高頻罪名預(yù)測(cè)效果的前提下,顯著提高了模型在少樣本罪名分類中的有效性,具體表現(xiàn)為保證中高頻罪名預(yù)測(cè)任務(wù)中的F1指標(biāo)不降低甚至有微弱提升的前提下,顯著提升模型在少樣本罪名預(yù)測(cè)任務(wù)中的F1值。
圖4 模型訓(xùn)練過程中指標(biāo)變化趨勢(shì)Fig.4 Trend of metrics during model training
表3 3個(gè)數(shù)據(jù)集上各模型的效果對(duì)比Table 3 Comparison of the effects of each model on the three datasets
圖5 罪名和屬性標(biāo)簽的權(quán)重分布Fig.5 Distribution of charge and attribute labels
為了說明模型在易混淆罪名預(yù)測(cè)上的有效性,以常見的4組易混淆罪名為例,進(jìn)行有效性分析和效果對(duì)比,它們分別是盜伐林木罪與濫伐林木罪、行賄罪與受賄罪、放火罪與失火罪、搶奪罪與搶劫罪。表5展示了本文模型與其他模型在易混淆罪名預(yù)測(cè)下評(píng)價(jià)指標(biāo)F1值的比較結(jié)果。
為了更好地說明這些工作的有效性,進(jìn)行了一系列的消融實(shí)驗(yàn),驗(yàn)證所提出的AATT模塊、標(biāo)簽屬性損失權(quán)重以及各個(gè)罪名分類權(quán)重對(duì)模型性能的影響。
首先是AATT模塊對(duì)司法判決預(yù)測(cè)結(jié)果的影響,表6展示了添加前后的結(jié)果,可以看出雖然Acc
表4 低頻罪名預(yù)測(cè)Table 4 Low-frequency charge prediction
表5 易混淆罪名預(yù)測(cè)Table 5 Confusing charge prediction
表6 AATT模塊添加前后對(duì)比Table 6 Comparison of AATT module added and not added
值僅有微弱的提升,但F1值提高了8.7個(gè)百分點(diǎn),說明本模塊對(duì)模型性能有明顯的輔助作用。
其次是罪名屬性標(biāo)簽損失權(quán)重對(duì)司法判決預(yù)測(cè)結(jié)果的影響,在多任務(wù)模型中損失權(quán)重的分配會(huì)對(duì)模型產(chǎn)生極大的影響,不同的權(quán)重分配會(huì)導(dǎo)致模型更關(guān)注某一個(gè)罪名屬性標(biāo)簽信息,影響模型整體效果。表7顯示了不同的標(biāo)簽屬性損失權(quán)重產(chǎn)生的預(yù)測(cè)結(jié)果,可以看出,在罪名分類權(quán)重與罪名屬性標(biāo)簽權(quán)重比例為2∶1時(shí),模型的Acc、F1值更高,效果表現(xiàn)更好。
最后是各個(gè)罪名分類的權(quán)重對(duì)模型性能的影響,由于引入10個(gè)罪名屬性標(biāo)簽,司法判決預(yù)測(cè)任務(wù)模型變?yōu)槎嗳蝿?wù)模型,焦點(diǎn)損失函數(shù)無法適用。并且司法判決預(yù)測(cè)任務(wù)數(shù)據(jù)集罪名分布極其不均衡,故添加罪名分類權(quán)重并對(duì)權(quán)重壓縮范圍進(jìn)行對(duì)比實(shí)驗(yàn)得到最優(yōu)方案。如表8所示。
表7 不同標(biāo)簽屬性權(quán)重對(duì)比Table 7 Comparison of different label attributes weights
表8 不同分類權(quán)重對(duì)比Table 8 Comparison of different classification weights
目前的司法判決預(yù)測(cè)算法存在很多問題,例如模型性能欠佳,過于依賴偽樣本生成或外部法條預(yù)測(cè)任務(wù),沒有考慮少樣本和易混淆場(chǎng)景下的性能表現(xiàn)或者僅考慮其中一種情況,在可解釋性方面沒有細(xì)分等問題。結(jié)合BERT和BiGRU深度學(xué)習(xí)網(wǎng)絡(luò),同時(shí)借鑒了罪名屬性標(biāo)簽的思想,提出BGAAT網(wǎng)絡(luò)模型。使用BERT預(yù)訓(xùn)練模型進(jìn)行文本向量化表示,使用BiGRU網(wǎng)絡(luò)進(jìn)行特征提取并通過訓(xùn)練更新參數(shù),最后將自注意力機(jī)制應(yīng)用在每一個(gè)罪名屬性標(biāo)簽中并進(jìn)行分類,通過可視化圖形提高模型可解釋性。本文算法在司法判決預(yù)測(cè)任務(wù)中Acc、F1指標(biāo)均優(yōu)于其他算法,并在少樣本罪名預(yù)測(cè)和易混淆罪名預(yù)測(cè)場(chǎng)景中均有明顯提升,可視化圖形也有良好的解釋性效果,從而提高模型在司法判決預(yù)測(cè)任務(wù)的效果。