蔡怡蕾,李尚,葉麟,張宏莉
(哈爾濱工業(yè)大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,哈爾濱 150001)
目前司法刑事案件在其審查判決過程中,主要依靠法官等一系列的司法工作者對案件進(jìn)行審查,并依據(jù)國家律法和案件真實情況對其進(jìn)行理解和決策分析,從而對案件進(jìn)行可信、公正地判決。依據(jù)中國對刑事案件判案依據(jù)的有關(guān)規(guī)定,在不與《中華人民共和國憲法》等國家級法規(guī)相抵觸的前提下,可參考地方相應(yīng)的法律法規(guī)進(jìn)行審判,且法官在案件量刑中擁有一定程度的自由裁量權(quán)。因此,會造成針對同一案件,不同的地區(qū)、不同的法官對案件判決的側(cè)重點不同的情況,從而導(dǎo)致對案件的量刑有失偏頗。而且近年來刑事案件一審判決數(shù)量顯著增加,而司法工作者人數(shù)反而有縮減趨勢。目前司法判決中的主要矛盾即是日益增長的數(shù)據(jù)與不平衡、不充分的司法人力和司法公正之間的矛盾,如何更好的滿足人民群眾對司法的需求,減輕司法工作人員的繁重負(fù)擔(dān)是當(dāng)今司法領(lǐng)域亟需解決的問題。近年來,隨著科技的發(fā)展,人工智能技術(shù)日趨完善,利用人工智能技術(shù)處理海量數(shù)據(jù),將計算機技術(shù)引入司法領(lǐng)域已經(jīng)成為不可阻擋的趨勢,是當(dāng)下“案多人少”、效率低等問題的有效解決辦法。
當(dāng)前司法領(lǐng)域中,“AI+”正處于發(fā)展階段,現(xiàn)有方法還不夠成熟,無法滿足人民群眾對智慧司法的需求?,F(xiàn)如今已有的案件判決中存在著很多高質(zhì)量的判決案例,且隨著社會的發(fā)展數(shù)據(jù)量不斷增多,這足以為“人工智能+司法”提供良好的數(shù)據(jù)基礎(chǔ)。本文借助歷史案件數(shù)據(jù),采用合適的模型對案件量刑進(jìn)行學(xué)習(xí),使其逐漸承擔(dān)法官的案件決策工作,為法官提供決策建議,逐步解放法官,減輕司法工作者工作負(fù)擔(dān),使其更加高效、公正的進(jìn)行司法決策,從而促進(jìn)司法工作的透明性和可信度的提高。同時,智慧司法可打破非司法工作者與專業(yè)人士之間的壁壘,使法律判決的結(jié)果更加可信。
本文以司法決策為目的,著重研究司法決策中的輔助量刑問題,結(jié)合人工智能和領(lǐng)域知識對案件進(jìn)行剖析,充分發(fā)揮計算機科學(xué)與其他學(xué)科相結(jié)合的優(yōu)勢,努力打造透明、公正的司法量刑,為人民群眾提供公開合法的司法判決,對于維護(hù)司法公正,構(gòu)建法治社會具有重要意義。
早在上世紀(jì)五十年代,研究學(xué)者就意識到了智慧司法的重要性,提出將法律領(lǐng)域信息化,結(jié)合計算機領(lǐng)域知識推出自動檢索和案件判決模型?,F(xiàn)如今,智慧司法主要方向包括案件分類、輔助量刑、證據(jù)推理、法律推理、類案推送、文書編寫、法律問答以及信息檢索與查詢等[1]。
在刑期預(yù)測方面,林等人在強盜罪和恐嚇取財罪2 個罪名的案件中提取出21 個要素標(biāo)簽,并增加自動提取特征標(biāo)簽,通過對標(biāo)簽一系列的分析后,對這2 種罪名進(jìn)行罪名分類和刑期預(yù)測[2];Li等人使用多通道層次注意力神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)案件事實、被告人基本信息以及法律法規(guī)之間的內(nèi)在聯(lián)系和深層語義,從而構(gòu)造罪名預(yù)測、法律推薦以及刑期預(yù)測的統(tǒng)一框架,在評估指標(biāo)上都達(dá)到了新的高度[3];Zhong等人認(rèn)為法律判決預(yù)測中罪名預(yù)測、法條推薦、刑期預(yù)測、罰款預(yù)測等各個子任務(wù)之間存在一定的拓?fù)湟蕾囆?,因此將該依賴關(guān)系轉(zhuǎn)化為圖結(jié)構(gòu),構(gòu)建包含拓?fù)潢P(guān)系的多任務(wù)學(xué)習(xí)框架進(jìn)行司法判決多任務(wù)共同預(yù)測,從而提高法律判決的可信性和可解釋性[4];Yang等人基于LJP 子任務(wù)之間的關(guān)系,提出可以基于注意力機制的多角度雙向神經(jīng)網(wǎng)絡(luò),通過前向預(yù)測和后向驗證,顯著提高了各子任務(wù)的預(yù)測準(zhǔn)確率[5];Chen等人基于案件罪名進(jìn)行刑期預(yù)測,提出針對罪名的特征篩選機制的深度神經(jīng)網(wǎng)絡(luò)模型,該模型可針對多罪名案件進(jìn)行刑期預(yù)測,提高了基于各個罪名的刑期預(yù)測以及總刑期預(yù)測的準(zhǔn)確率[6]。在司法判決預(yù)測(LJP)中,還有其它各類子問題,如證據(jù)推理問題中,Vlek等人認(rèn)為所有案件的判決必須經(jīng)過一系列的證據(jù)推理,為案件準(zhǔn)確判決提供堅實基礎(chǔ),同時結(jié)合敘述性和辯論性方法,通過貝葉斯網(wǎng)絡(luò)生成不同證據(jù)的概率值,從而還原真實的案件信息[7];Walker等人提供了一個用于建模復(fù)雜法律推理的可視框架,該框架基于多謂詞默認(rèn)邏輯將法律法規(guī)與專家知識進(jìn)行結(jié)合,在規(guī)則推論和證據(jù)評估上發(fā)揮巨大作用[8]。在案件分類問題中,Luo等人基于案件事實的信息構(gòu)建罪名預(yù)測模型框架,提出基于Attention 機制的深度神經(jīng)網(wǎng)絡(luò)對案件事實部分和法律法規(guī)部分進(jìn)行向量表示,并將法律法規(guī)信息融入案件事實,從而實現(xiàn)罪名預(yù)測[9];Wang等人根據(jù)法律文本以及案件描述的文本特點,將罪名預(yù)測問題劃分為分層多標(biāo)簽分類問題,將父子標(biāo)簽進(jìn)行匹配,從而優(yōu)化案件罪名預(yù)測問題[10]。
近年來,隨著人工智能的發(fā)展,“AI+NLP”問題取得了一系列的突出成果,其中一些基礎(chǔ)神經(jīng)網(wǎng)絡(luò)模型得到業(yè)界廣泛認(rèn)可,如Word2Vec、卷積神經(jīng)網(wǎng)絡(luò)以及循環(huán)神經(jīng)網(wǎng)絡(luò)等。在此基礎(chǔ)之上,業(yè)界學(xué)者對其進(jìn)行深入研究,并產(chǎn)生了許多具有跨時代意義的研究成果。ELMo(Embeddings from Language Models)模型開辟了多義詞向量的大門,該模型不同于以往單詞與向量之間的一一映射的固定模式,而是考慮到語法和語義的復(fù)雜性,結(jié)合上下文產(chǎn)生適合當(dāng)前語言環(huán)境的詞向量[11];BERT 的提出是NLP領(lǐng)域內(nèi)重要的里程碑,在11 個NLP 任務(wù)中取得卓越表現(xiàn),訓(xùn)練出的Word-Level 向量變成Sentence-Level 的向量,下游具體NLP 任務(wù)調(diào)用更方便[12];Yang 針對文本結(jié)構(gòu)提出層次注意力機制(Hierarchical Attention Networks,HAN),該注意力機制可以將模型結(jié)構(gòu)拆分為2 部分,分別為句子級別的Attention 結(jié)構(gòu)和單次級別的Attention 結(jié)構(gòu),在文本分類任務(wù)上準(zhǔn)確率有大幅度提升[13];Google 團(tuán)隊與2017 年提出自注意力機制(Self-Attention)在業(yè)界引起極大轟動,解決了RNN 系列注意力機制中存在的參數(shù)多,速度慢等問題,在各個任務(wù)上均取得優(yōu)秀表現(xiàn)[14]。
基于多通道自注意力機制的刑事案件輔助量刑技術(shù)模型的基本結(jié)構(gòu)如圖1 所示。該模型將被告人基本信息、案件事實描述與法律條文進(jìn)行融合,構(gòu)建刑事案件的輔助量刑模型。本文將該模型的輸入輸出形式化的表示如式(1)(2)所示。
圖1 基于多通道自注意力機制的刑事案件輔助量刑技術(shù)模型基本結(jié)構(gòu)圖Fig.1 The basic structure of criminal case auxiliary sentencing technology model based on multi-channel self-attention mechanism
其中,Sp為被告人基本信息,包括被告人犯罪歷史、精神狀況等信息;Sa為法律條文知識庫,中國法律條文甚多,其中涉及到量刑的法條主要為《中華人民共和國刑法》,本文主要研究的是刑事案件中的故意傷害罪,但由于案情中所出現(xiàn)的情況較多,可能會涉及到除《中華人民共和國刑法》第二百三十四條以外的其它條文,如針對自首情節(jié)的第六十七條法文、針對未成年人犯故意傷害罪量刑規(guī)定的第十七條條文等;Sf為案件事實描述,該部分含有被告人進(jìn)行犯罪的原因、實施過程、犯罪性質(zhì)、犯罪后果、對社會危害程度以及犯罪后悔過態(tài)度等信息,該部分是量刑的主要信息部分;Rt為刑期的判決結(jié)果,由于本文采用回歸的方法對刑期進(jìn)行預(yù)測,因此,Rt為向量空間的一個非負(fù)實數(shù)。
利用上述模型進(jìn)行刑期預(yù)測的步驟如下:
(1)輸入數(shù)據(jù)在經(jīng)過分詞后進(jìn)行向量化表示,構(gòu)成詞向量矩陣;
(2)以被告人基本信息和案件事實描述為輸入,將其輸入至法條提取器中,對法律條文知識庫中的法律條文數(shù)據(jù)進(jìn)行提取,找出和當(dāng)前案件可能有關(guān)系的前若干條法律條文,并將其作為法律條文部分的輸入,本文中該法條提取器為SVM 分類器;
(3)將各部分輸入數(shù)據(jù)輸入到Embedding 層,對詞向量進(jìn)行進(jìn)一步的調(diào)節(jié),為后續(xù)工作提供良好基礎(chǔ);
(4)將各部分的輸入通過編碼器進(jìn)行文檔編碼,鑒于注意力機制在自然語言處理中表現(xiàn)出來的優(yōu)異能力,此部分采用多頭自注意力機制進(jìn)行文檔編碼處理,被告人基本信息、案件事實描述和法律條文的向量表示分別表示為dp、df和da;
(5)將法律條文的文檔表示da輸入到文檔聚合器中,將被告人基本信息dp和案件事實描述df聯(lián)合起來形成2 部分的上下文向量表示,并以此作為文檔聚合器注意力機制的Query 部分進(jìn)行編碼計算形成向量表示dw;
(6)最后,將文檔聚合器所生成向量dw輸入至多層感知機(MLP)中進(jìn)行刑期預(yù)測回歸計算。
法條提取器是根據(jù)被告人基本信息和案件事實描述,在法律條文知識庫中選取其可能依據(jù)的前若干條法律條文,法條提取過程如圖2 所示。
圖2 法條提取過程圖Fig.2 The process of law extraction
本文采用TF-IDF 進(jìn)行文本特征處理,得到文本中每個詞的特征值。在使用SVM 進(jìn)行文本多分類時,采用OVO 的方法,將多標(biāo)簽分類問題轉(zhuǎn)化為多個二分類問題。在OVO 方法中,若要對文本進(jìn)行n分類,在其中包含n(n-1)/2 個分類器。本文中法律條文知識庫為《中華人民共和國刑法》集合,其中包括有452 條法律法規(guī)。
本文采用多頭自注意力機制進(jìn)行文檔編碼,其原因在于:
(1)自注意力機制比CNN 和RNN 神經(jīng)網(wǎng)絡(luò)參數(shù)少,計算復(fù)雜度低;
(2)自注意力機制不同于基于RNN 的注意力機制,其可實現(xiàn)并行計算,速度較快;
(3)自注意力機制進(jìn)行計算時采用詞與詞之間直接進(jìn)行相似度計算的方法,使每兩個單詞之間的距離均為1,解決了RNN 網(wǎng)絡(luò)中過長序列導(dǎo)致的長期以來關(guān)系削弱的問題;
(4)多頭注意力機制在自注意力機制的基礎(chǔ)上進(jìn)行擴(kuò)展,從以往的一個關(guān)注點增至多個關(guān)注點,每個頭學(xué)習(xí)到不同表示空間的特征,側(cè)重點各有不同,從而更加全面學(xué)習(xí)文本信息。
自注意力機制基本結(jié)構(gòu)如圖3 所示。文本中的每個單詞都要和其它所有詞進(jìn)行相似度計算,以學(xué)習(xí)到句子內(nèi)部關(guān)系。在計算相似度時,為防止點積計算結(jié)果過大,選取縮放點積的方法對其進(jìn)行調(diào)節(jié),即在點積計算后除以尺度標(biāo)度,其中dk為詞向量維度;之后對相似度值歸一化為概率分布,其中,并且∈[0,1] ;將權(quán)重向量再乘以Value 后再將各向量進(jìn)行相加,得到最終的Attention值。其公式如式(3)所示。
圖3 自注意力機制基本模型結(jié)構(gòu)Fig.3 The structure of self-attention mechanism
其中,Q為Query;K為Key;V為Value。Q,K,V3 個矩陣均是文本詞向量矩陣進(jìn)行線性變化得到的,其公式(4)、公式(5)和公式(6)如下,其中Q'=K'=V'。
多頭自注意力機制的基本模型結(jié)構(gòu)如圖4 所示,其本質(zhì)是構(gòu)造多個不同自注意力機制,在對不同的注意力機制計算得到結(jié)果后,將結(jié)果進(jìn)行拼接,通過線性層的轉(zhuǎn)化得到最終的注意力值,計算公式如式(7)所示。的注意力結(jié)果;W*是權(quán)重矩陣;b*為偏置。為使
圖4 多頭注意力機制基本模型結(jié)構(gòu)Fig.4 The structure of multi-h(huán)ead Attention mechanism
其中,headi表示多頭自注意力機制的第i個頭每個頭都有各自的側(cè)重點,每個自注意力機制的輸入需不同,headi計算公式(8)所示。
其中,Wi為第i個頭計算所需的權(quán)重矩陣,不同的頭進(jìn)行線性變換所使用的權(quán)重矩陣不同,從而使注意力更為廣泛。
文檔聚合器中使用的方法在自注意力機制的基礎(chǔ)上進(jìn)行改進(jìn),在式(3)Self-Attention 中計算Query時所使用并非法條信息,而是使用被告人基本信息和案件事實描述的上下文向量,由式(9)經(jīng)線性變化得到。Query 的計算方法如式(10)所示。
其中,dp為被告人基本信息向量表示,df為案件事實描述向量表示。
文本中實驗數(shù)據(jù)均爬取自中國裁判文書網(wǎng)(http:/ /wenshu.court.gov.cn/),本文主要爬取關(guān)于故意傷害罪有關(guān)裁判文書一審判決書,其中北京市11 003 條,湖北省10 956 條,河南省12 955 條,山東省11 692條。裁判文書格式較為固定,如圖5 所示,方便對裁判文書中被告人基本信息、案件事實描述以及案件判決中罪名、所涉及《中華人民共和國刑法》法條以及刑期進(jìn)行信息提取。
圖5 判決文書示例Fig.5 The example of judgment document
3.2.1 部分參數(shù)調(diào)節(jié)
(1)法條提取器參數(shù)調(diào)節(jié):使用SVM 進(jìn)行刑期提取的實驗評判結(jié)果見表1,其中刑期預(yù)測誤差采用平均絕對誤差(MAE)進(jìn)行衡量。由實驗結(jié)果可知,隨著法條提取條數(shù)的增加,法條的召回率逐漸增加,即分類器對正確標(biāo)簽識別率增加。考慮到召回率增加到一定程度會使刑期預(yù)測的誤差增大,且模型的訓(xùn)練時間增加,本文中選取7為法條提取數(shù)量;
表1 法條提取數(shù)量對比實驗結(jié)果Tab.1 Comparative experiment on the number of law strips extracted
(2)文檔編碼器參數(shù)調(diào)節(jié):實驗結(jié)果見表2,其中刑期預(yù)測誤差采用平均絕對誤差(MAE)進(jìn)行衡量。由此可見,其實驗與理論相一致,刑期預(yù)測的誤差隨著頭數(shù)量的增多而有一定程度的增加,但到達(dá)一定程度后會呈現(xiàn)下降趨勢,且頭的數(shù)量與每一輪的訓(xùn)練時間成正比。
表2 多頭注意力機制中頭的數(shù)量對比實驗Tab.2 The comparative experiment on the number of heads in the multi-h(huán)ead attention mechanism
3.2.2 刑期預(yù)測
本文中使用的實驗基線模型有以下幾個:
(1)LSTM-Linear:LSTM-Linear 模型以LSTM網(wǎng)絡(luò)對文本進(jìn)行向量化表示,最后通過全連接層對刑期進(jìn)行預(yù)測;
(2)BiLSTM-Linear:考慮到文本中某一詞語不僅與前文有關(guān),后續(xù)文本同樣對其有所影響,因此采用Bi-LSTM 模型對文本進(jìn)行向量化表示,更好的學(xué)習(xí)到全文特征,之后再采用全連接層對刑期進(jìn)行預(yù)測;
(3)Fact_Law_Info_NN:Fact_Law_Info_NN 模型即基于多通道自注意力機制的刑事案件量刑模型;
(4)Fact_Law_NN:為了驗證本文中加入被告人基本信息的有效性,F(xiàn)act_Law_NN 模型在Fact_Law_Info_NN 模型的基礎(chǔ)上減少被告人基本信息通道,其余結(jié)構(gòu)與參數(shù)不變,進(jìn)行刑期預(yù)測。
本文中所采用的評價指標(biāo)有以下幾種,其中y為預(yù)測值,為真實值:
(1)平均絕對誤差(MAE),式(11)。
(2)對稱平均絕對百分比誤差(SMAPE),式(12)。
(3)精準(zhǔn)匹配率(Exact Match,EM),預(yù)測值和真實值相等的數(shù)量占總數(shù)量的百分比,∑()為真實值與預(yù)測值相等的數(shù)量,式(13)。
(4)ACC_p%:預(yù)測值與真實值誤差在p%以內(nèi)的比值,式(14)。其中,∑((y≥(1-p%) )∧(y≤(1+p%) ))為預(yù)測值y∈[(1-p%),(1+p%) ]的數(shù)量,本文中選取p=10、p=20 以及p=30 這3 個值。
實驗結(jié)果見表3。從實驗結(jié)果可見,MAE在Fact_Law_Info_NN 模型上的結(jié)果最好,在ACC_10%指標(biāo)上提升了近5%,F(xiàn)act_Law_Info_NN 的精準(zhǔn)匹配率同樣在各個模型中脫穎而出。綜合來看,F(xiàn)act_Law_Info_NN 模型在刑期預(yù)測任務(wù)上具有最好的表現(xiàn)效果。
表3 實驗結(jié)果Tab.3 The results of experimental
為了考察不同階段刑期預(yù)測的情況,現(xiàn)將刑期分為以下幾段:(1)0~6 個月;(2)6~12 個月;(3)12~36 個月;(4)36~120 個月;(5)120 個月以上。在Fact_Law_Info_NN 模型上對其進(jìn)行各個階段準(zhǔn)確率的實驗。其計算方式如式(15)所示。
其中,y為預(yù)測值;為真實值;Count(y∈[a,b))為y取值在區(qū)間[a,b)的個數(shù)。實驗結(jié)果如圖6 所示。
圖6 刑期分段準(zhǔn)確率Fig.6 Accuracy rate of sentence
由實驗結(jié)果可見,刑期在[6,12)和[36,120)區(qū)間的準(zhǔn)確率較高,其主要原因如下:
(1)刑期較低的案件其案件較為簡單,所犯罪行較輕,此時認(rèn)罪態(tài)度、被害人諒解程度對其影響較大,且法官存在自由裁量權(quán)。除此之外,部分人為因素也會導(dǎo)致對于相似案件的判決差別較大;
(2)刑期較高的案件,往往較為復(fù)雜,對于案件的判決影響因素較多,因此相較于中間階段的刑期準(zhǔn)確率較低。
考慮到不同地方法院對案件的判決具有細(xì)微差別的量刑方法,因此,將不同省份的數(shù)據(jù)分別單獨提取并采用Fact_Law_Info_NN 模型進(jìn)行訓(xùn)練,實驗結(jié)果見表4。由實驗結(jié)果可見,各個省份的準(zhǔn)確率均不同,但大多低于全數(shù)據(jù)集的準(zhǔn)確率,其原因主要有以下兩點:
表4 各省份實驗結(jié)果Tab.4 Experimental results of different provinces
(1)不同的省份在刑事案件量刑中均依據(jù)《中華人民共和國刑法》,但是不同地方根據(jù)當(dāng)?shù)貙嶋H情況對其在法定范圍內(nèi)進(jìn)行調(diào)整。同時,法官具有一定的自由裁量權(quán),因此導(dǎo)致不同地方對相似案件的量刑有所不同;
(2)各個省份的訓(xùn)練數(shù)據(jù)集較少,當(dāng)訓(xùn)練迭代一定輪次后,出現(xiàn)過擬合現(xiàn)象,且此現(xiàn)象的出現(xiàn)較訓(xùn)練全數(shù)據(jù)集更早,因此其準(zhǔn)確率不如全數(shù)據(jù)集的準(zhǔn)確率高。
本文圍繞刑事案件的輔助量刑進(jìn)行研究,提出基于多通道自注意力機制的刑事案件輔助量刑模型,通過對被告人基本信息、案件事實描述以及法律法規(guī)的深層次學(xué)習(xí),將其結(jié)合表示,從而對刑期進(jìn)行預(yù)測。在實驗驗證中,本文所提出模型在MAE、SMAPE、EM以及ACC_10%等測量指標(biāo)上均具有優(yōu)越性。在MAE指標(biāo)上,基于多通道自注意力機制的刑事案件輔助判決模型達(dá)到最優(yōu),其將誤差降低至4.34,在ACC_10%等指標(biāo)上,該模型相較于其他模型有所提升。在此基礎(chǔ)上,將刑期進(jìn)行分段,評估不同階段刑期預(yù)測的準(zhǔn)確率。同時,本文將各個省份的數(shù)據(jù)分別進(jìn)行訓(xùn)練,以驗證不同省份數(shù)據(jù)對于該模型的靈敏度影響。