楊通超,唐向紅,2
(1.貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;2.貴州大學(xué)省部共建公共大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室,貴州貴陽(yáng) 550025)
司法判決預(yù)測(cè)任務(wù)主要包含法條預(yù)測(cè)、罪名預(yù)測(cè)和刑期預(yù)測(cè),其中法條預(yù)測(cè)旨在根據(jù)案情信息,尋找出適用于案情描述的法條。案情描述信息往往錯(cuò)綜復(fù)雜,致使法官和律師不得不反復(fù)閱讀與分析案情,從眾多法條中尋找適合于該案情的法條,從而大大延長(zhǎng)了案件審判周期,增加了審判難度。法條預(yù)測(cè)作為智慧法院建設(shè)的重要一環(huán),一方面減輕了法官和律師審判的負(fù)擔(dān),造就更高效的法庭;另一方面,法條預(yù)測(cè)的好壞會(huì)直接影響罪名預(yù)測(cè)和刑期預(yù)測(cè)結(jié)果。因此,法條預(yù)測(cè)意義重大。
特別地,程豪等[1]指出了涉毒法條的易混淆性,其案情描述存在差異性很小的情況,但這種細(xì)微差別可能對(duì)應(yīng)不同的法條規(guī)定,使得審判結(jié)果截然不同。如圖1 所示的案情描述差異性示例,兩個(gè)案情都包含“駕駛”“車(chē)”“車(chē)內(nèi)查獲”等元素,但是分別被判為運(yùn)輸和非法持有毒品罪,在相同毒品級(jí)別的情況下,其刑期卻相差巨大。法條預(yù)測(cè)大體可分為基于規(guī)則、基于機(jī)器學(xué)習(xí)和基于神經(jīng)網(wǎng)絡(luò)三大類(lèi)。
Fig.1 Examples of similarity in case descriptions圖1 案情描述相似性示例
基于規(guī)則的法條預(yù)測(cè):通過(guò)手動(dòng)定義大量規(guī)則,當(dāng)案情滿足某些條件時(shí),根據(jù)規(guī)則匹配相應(yīng)法條,其特點(diǎn)是人力資源耗費(fèi)多、泛化能力差[2];基于機(jī)器學(xué)習(xí)的法條預(yù)測(cè):采用隨機(jī)森林、支持向量機(jī)、樸素貝葉斯等方法對(duì)案情文本作分類(lèi),其特點(diǎn)是具有一定的可解釋性,可取得較穩(wěn)定的效果[3-5];基于神經(jīng)網(wǎng)絡(luò)的法條預(yù)測(cè):此類(lèi)方法利用神經(jīng)網(wǎng)絡(luò)從不同角度挖掘與增強(qiáng)案情信息,或?qū)ふ曳l之間的相關(guān)性,并一條條地輸出法條。由于其具有較強(qiáng)的泛化能力和優(yōu)異性能,基于神經(jīng)網(wǎng)絡(luò)的方法是目前法條預(yù)測(cè)的主流方法[6-12]。
然而,現(xiàn)有方法并未充分利用涉毒案件法條的文本知識(shí)。為了解決該問(wèn)題,本文引入知識(shí)圖譜補(bǔ)全算法KGBERT,將其改進(jìn)后成為KG-Lawformer 算法,將案情描述和法條文本分別看作三元組中的頭實(shí)體和尾實(shí)體描述信息,使用KG-Lawformer 算法進(jìn)行其之間連接關(guān)系的學(xué)習(xí),預(yù)測(cè)出案情與法條之間的對(duì)應(yīng)關(guān)系。實(shí)驗(yàn)結(jié)果證明,該方法有效提升了涉毒案件法條預(yù)測(cè)的有效性。
KG-BERT(BERT for Knowledge Graph Completion)[13]是應(yīng)用于知識(shí)圖譜補(bǔ)全領(lǐng)域的算法。傳統(tǒng)補(bǔ)全算法僅探索實(shí)體與實(shí)體之間的連接關(guān)系[14],KG-BERT 將實(shí)體進(jìn)行語(yǔ)義上的擴(kuò)充,并將擴(kuò)充后的語(yǔ)義描述作為實(shí)體特征,如將實(shí)體“蘋(píng)果”的語(yǔ)義擴(kuò)充為“蘋(píng)果為世界四大水果之一,性味甘酸而平,無(wú)毒,具有生津止渴、益脾止瀉、和胃降逆的功效?!比缓髮U(kuò)充后的語(yǔ)義特征輸入BERT 預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,進(jìn)行特征提取與分類(lèi)預(yù)測(cè)。
BERT 和Lawformer 同為預(yù)訓(xùn)練語(yǔ)言模型,BERT 預(yù)訓(xùn)練數(shù)據(jù)是公共領(lǐng)域的維基百科[15],而Lawformer 采用法律領(lǐng)域真實(shí)的民事和刑事案件數(shù)據(jù)作為預(yù)訓(xùn)練語(yǔ)料庫(kù)[16]。兩者在預(yù)訓(xùn)練過(guò)程中的異同如表1所示。
KG-Lawformer 模型結(jié)構(gòu)如圖2 所示,輸入格式為頭實(shí)體、關(guān)系和尾實(shí)體描述組成的三元組,將輸入序列第一個(gè)字符[CLS]的輸出作為分類(lèi)結(jié)果輸出。頭實(shí)體(Head Entity)對(duì)應(yīng)案情描述的字序列,如“王某在房間販賣(mài)毒品給李某”,尾實(shí)體(Tail Entity)對(duì)應(yīng)法條描述的字序列,如“明知是毒品而非法銷(xiāo)售……”,關(guān)系(Relation)對(duì)應(yīng)“正確連接”或“錯(cuò)誤連接”的字序列,實(shí)體和關(guān)系序列固定用[SEP]字符隔開(kāi)。整體輸入是由各個(gè)部分的字序列、位置順序序列和句子標(biāo)識(shí)序列進(jìn)行向量嵌入后的聯(lián)合輸入,詳情可參考文獻(xiàn)[15]。
Table 1 Similarities and differences between BERT and Lawformer表1 BERT與Lawformer異同
不同于原生BERT,這里實(shí)體都采用相同的句子標(biāo)識(shí)向量eA,關(guān)系用向量eB表示,位置向量i∈{1,2,3,...,512}由[SEP]隔開(kāi)后重新開(kāi)始計(jì)算,并對(duì)字向量、位置標(biāo)識(shí)向量和句子標(biāo)識(shí)向量3 部分向量輸入原生的雙向Transformer編碼機(jī)制。隱藏層最后一層第一個(gè)字符C 的輸出向量為C∈RH,H 為BERT 模型隱藏狀態(tài)的向量維度大小。在字符C 處接入一個(gè)全連接層的分類(lèi)網(wǎng)絡(luò),參數(shù)W∈RH。最終,對(duì)于輸入的一組頭、尾實(shí)體和關(guān)系三元組s=(h,r,t),其得分函數(shù)為st=f(h,r,t)=sigmoid(CWT)。其中,st是一個(gè)二維向量,滿足st0,st1∈[0,1],且st0+st1=1。給定正例三元組集合D+和負(fù)例三元組集合D-,交叉熵?fù)p失函數(shù)計(jì)算公式如式(1)所示。
式中,yt∈{0,1}為三元組標(biāo)簽(負(fù)例或正例),負(fù)例t′由隨機(jī)替換尾實(shí)體產(chǎn)生,如式(2)所示。
其中,Et為所有法條描述組成的尾實(shí)體集合。如果隨機(jī)負(fù)例三元組已經(jīng)在正例三元組集合中,則拋棄該負(fù)例三元組,最后輸入模型通過(guò)梯度下降優(yōu)化模型參數(shù)。
Fig.2 KG-Lawformer model structure圖2 KG-Lawformer模型結(jié)構(gòu)
模型輸入為知識(shí)圖譜中三元組結(jié)構(gòu)對(duì)應(yīng)的描述字符串,其中知識(shí)圖譜由若干結(jié)點(diǎn)和邊組成,三元組由兩個(gè)結(jié)點(diǎn)和一個(gè)關(guān)系構(gòu)成,表達(dá)了兩個(gè)結(jié)點(diǎn)之間的事實(shí)關(guān)系。如“[拜登,總統(tǒng),美國(guó)]”表達(dá)了“拜登是美國(guó)總統(tǒng)”這一事實(shí),正確的事實(shí)標(biāo)簽為1。相反的,如果將連接關(guān)系改為“平民”,組成三元組“[拜登,平民,美國(guó)]”,就會(huì)得到一個(gè)不成立的三元組,對(duì)應(yīng)標(biāo)簽為0。
模型三元組的結(jié)點(diǎn)分為案情描述結(jié)點(diǎn)和法條描述結(jié)點(diǎn),例如案情描述結(jié)點(diǎn)“2014 年5 月份以來(lái),被告人陳某在貞豐縣珉谷鎮(zhèn)多次販賣(mài)毒品大麻給吸毒人員曾某人吸食,并容留吸毒人員易某在自家倉(cāng)庫(kù)內(nèi)吸食毒品海洛因”和法條描述結(jié)點(diǎn)“明知是毒品而非法銷(xiāo)售…”。模型三元組的關(guān)系有“正確連接”和“錯(cuò)誤連接”兩種,如上示例可構(gòu)成一個(gè)正例“[被告人陳某在貞豐縣珉谷鎮(zhèn)多次販賣(mài)…,正確連接,明知是毒品而非法銷(xiāo)售…]”,和一個(gè)負(fù)例[被告人陳某在貞豐縣珉谷鎮(zhèn)多次販賣(mài)…,錯(cuò)誤連接,明知是毒品而非法銷(xiāo)售…]”。為了讓法條描述結(jié)點(diǎn)更具特征性,本文構(gòu)建并加入了不同犯罪類(lèi)型的高頻語(yǔ)義特征信息,如表2 所示,例如“非法種植毒品原植物罪”相應(yīng)的強(qiáng)語(yǔ)義特征詞有種植、播種、種在、撒在等。
在多標(biāo)簽分類(lèi)任務(wù)(一個(gè)案例對(duì)應(yīng)一個(gè)或多個(gè)標(biāo)簽)中,區(qū)別于傳統(tǒng)方法,KG-Lawformer 能快速預(yù)測(cè)法條而不用訓(xùn)練多個(gè)二分類(lèi)模型,具體做法是:①模型訓(xùn)練階段:對(duì)于一個(gè)訓(xùn)練集中的案例,分別與所有標(biāo)簽進(jìn)行1-1 的輸入(其中有正例和負(fù)例),從而訓(xùn)練模型;②模型預(yù)測(cè)階段:對(duì)于一個(gè)需要預(yù)測(cè)的案例,分別與所有標(biāo)簽進(jìn)行1-1 的輸入(其中有正例和負(fù)例),取所有輸出結(jié)果中1 所對(duì)應(yīng)的標(biāo)簽作為該案例對(duì)應(yīng)的預(yù)測(cè)標(biāo)簽集合;③整個(gè)過(guò)程只需要訓(xùn)練一個(gè)模型。
Table 2 High-frequency semantic features of different crime types表2 不同犯罪類(lèi)型高頻語(yǔ)義特征
實(shí)驗(yàn)數(shù)據(jù)集來(lái)源于貴州省高級(jí)人民法院2010-2019年有關(guān)單被告人多犯罪類(lèi)型的涉毒案件,共16 480 條。為聚焦涉毒法條預(yù)測(cè),只對(duì)《刑法》中有關(guān)涉毒的法條,即第347~357 條進(jìn)行預(yù)測(cè)。數(shù)據(jù)集總表如表3 所示,訓(xùn)練集與測(cè)試集按7.5:2.5的比例進(jìn)行隨機(jī)抽取。
Table 3 Overview of data set表3 數(shù)據(jù)集總表
從表3 可以看出,真實(shí)數(shù)據(jù)的分布是極不均衡的。各標(biāo)簽案件數(shù)量中,最多數(shù)據(jù)和最少數(shù)據(jù)量比達(dá)到127:1,因而考驗(yàn)了模型對(duì)少量數(shù)據(jù)的識(shí)別能力。為驗(yàn)證模型是否能均衡識(shí)別出各個(gè)法條,評(píng)價(jià)指標(biāo)采用準(zhǔn)確率accuracy(Acc)、宏精確率macro-precision(MP)、宏召回率macro-recall(MR)和宏macro-F1(MF1)作為評(píng)價(jià)指標(biāo),分別為Acc=其 中,,n表示數(shù)據(jù)的標(biāo)簽數(shù)量。
TFIDF+SVM:淺層模型,使用詞頻—逆文本頻率(TFIDF)提取輸入的文本特征,并采用支持向量機(jī)(SVM)作為分類(lèi)[17]。
TextCNN:采用卷積神經(jīng)網(wǎng)(Convolutional Neural Networks)對(duì)句子級(jí)別進(jìn)行語(yǔ)義抽取與分類(lèi),在一些自然處理任務(wù)中具有不錯(cuò)的表現(xiàn)[18]。
BiLSTM:能獲取句子的長(zhǎng)距離依賴,是自然語(yǔ)言處理任務(wù)中比較常用的方法,在一些任務(wù)中具有較好性能[19]。
BERT:基于雙向Transformer 層模型,一經(jīng)推出,在包括文本分類(lèi)、閱讀理解等各項(xiàng)自然語(yǔ)言處理任務(wù)中展現(xiàn)出強(qiáng)大的性能[15]。
對(duì)于以上所有模型,設(shè)置案件文本最大長(zhǎng)度為128 個(gè)字;對(duì)于淺層模型,采用詞袋TF-IDF 作為特征輸入;對(duì)于所有神經(jīng)網(wǎng)絡(luò)模型,使用Adam 優(yōu)化器優(yōu)化損失函數(shù),設(shè)置學(xué)習(xí)率為0.001。特別地,BiLSTM 中每個(gè)LSTM 大小為128。TextCNN 模型卷積核窗口為(1,2,3,4),大小為128。
實(shí)驗(yàn)結(jié)果如表4 所示,從表中可以看出,各項(xiàng)指標(biāo)中KG-Lawformer 都優(yōu)于對(duì)比模型。分析實(shí)驗(yàn)結(jié)果可得到以下結(jié)論:①該模型能有效提升法條預(yù)測(cè)性能;②由于數(shù)據(jù)稀疏性較強(qiáng),法條編號(hào)為“第347 條”的案件數(shù)量占總案件的93%,導(dǎo)致測(cè)試級(jí)的精確率(Acc)都大于90%;③宏準(zhǔn)確率(MP)和宏召回率(MR)作為兩個(gè)相互均衡、相互制約的指標(biāo),除本文模型外,BiLSTM 也取得了不錯(cuò)的結(jié)果,原因是其在長(zhǎng)文本語(yǔ)義提取中具有優(yōu)勢(shì);④宏F1 值(MF1)是最能反映模型優(yōu)劣的指標(biāo),本文模型的該值最大,反映了其在數(shù)據(jù)不均衡情況下依然有良好的學(xué)習(xí)表現(xiàn),且能較好地學(xué)習(xí)到小量數(shù)據(jù)特征;⑤KG-BERT 模型性能最差,甚至不如只使用BERT 模型,造成該情況的原因?yàn)椋菏褂脝蜝ERT模型的預(yù)測(cè)方法是同時(shí)訓(xùn)練多個(gè)二分類(lèi)模型,降低了預(yù)測(cè)難度,使BERT 取得了接近0.5 的MF1 值,而KG-BERT 只使用一個(gè)模型預(yù)測(cè)多標(biāo)簽任務(wù),在KG-BERT 模型基于維基百科語(yǔ)料庫(kù)進(jìn)行預(yù)訓(xùn)練且實(shí)驗(yàn)數(shù)據(jù)標(biāo)簽分布十分稀疏的背景下,KG-BERT 無(wú)法有效區(qū)分各個(gè)標(biāo)簽之間微小的差異,從而惰性地將大部分案件都分類(lèi)到數(shù)量較多的“347”標(biāo)簽上,造成Acc高而其他指標(biāo)低的現(xiàn)象。
Table 4 Experimental results表4 實(shí)驗(yàn)結(jié)果
本文對(duì)KG-Lawformer 進(jìn)行消融實(shí)驗(yàn),驗(yàn)證法條知識(shí)在法條預(yù)測(cè)中是否有效。KG-Lawformer 模型輸入包含案情信息和法條信息兩部分,Lawformer 模型輸入只包含案情信息。消融實(shí)驗(yàn)所使用的評(píng)價(jià)指標(biāo)與3.1 節(jié)一樣,都為Acc、MP、MR 和MF1,模型輸入文本長(zhǎng)度均為128,2 個(gè)epoch,學(xué)習(xí)率為10e-5。消融實(shí)驗(yàn)結(jié)果如表5 所示,可以看出在每個(gè)指標(biāo)上,KG-Lawformer 都優(yōu)于僅輸入案情信息的模型,體現(xiàn)了法條知識(shí)在法條預(yù)測(cè)任務(wù)中的有效性。
Table 5 Results of ablation experiments表5 消融實(shí)驗(yàn)結(jié)果
本文針對(duì)涉毒案件法條預(yù)測(cè)任務(wù)中存在案情信息易混淆的問(wèn)題,提出使用基于KG-BERT 改進(jìn)后的KG-Lawfromer 模型。實(shí)驗(yàn)結(jié)果證明,該方法有效提升了涉毒案件法條的預(yù)測(cè)性能,同時(shí)該方法作為多標(biāo)簽分類(lèi)模型,區(qū)別于傳統(tǒng)模型需要進(jìn)行多次二分類(lèi)實(shí)驗(yàn),該模型僅需進(jìn)行一次訓(xùn)練與預(yù)測(cè),從而大大提升了效率。本文模型還存在以下問(wèn)題:法條文本的定義靈活多樣,哪個(gè)定義能最大程度提升法條預(yù)測(cè)的性能尚不明確;知識(shí)圖譜補(bǔ)全算法如何結(jié)合矢量偏移模型進(jìn)一步提升模型性能。在未來(lái)工作中,將嘗試將不同法條文本作為輸入特征,同時(shí)探索結(jié)合transE模型[15]等矢量偏移模型的可能性。