李艾林
摘 要:法律文書智能化處理作為司法人工智能技術的基礎工作,特別是基于裁判文書的法律判決預測逐漸引起自然語言處理領域?qū)W者的關注。罪名預測作為是法律判決預測的重要子任務,決定著自動量刑、案件推薦等任務的準確率。本文以海量的刑事裁判文書為數(shù)據(jù)集,利用HanLP對裁判文書文本進行分詞和詞性標注,再借助word2vec工具訓練詞向量進行文本表示,通過對比實驗SVM-TFIDF和深度神經(jīng)網(wǎng)絡學習(DPCNN)算法實現(xiàn)罪名預測。實驗結(jié)果表明,本文方法能夠較好的實現(xiàn)罪名自動預測。
關鍵詞:司法人工智能 自然語言處理 罪名預測 深度神經(jīng)網(wǎng)絡
中圖分類號:DF81文獻標識碼:A文章編號:1003-9082(2019)11-0-02
公正是法治的生命,證據(jù)是訴訟的靈魂。但是,在傳統(tǒng)的司法領域中,由于各種主客觀因素的影響,不可避免的會出現(xiàn)量刑偏差。近年來,研究人員開始在法律的背景下應用人工智能(artificial intelligence , AI)技術來補充和增強法律[1]。隨著司法人工智能技術的不斷融合發(fā)展,希望能進一步防范冤假錯案、避免“類案不同判”、破解“案多人少”難題。
近些年,基于深度學習的自然語言處理技術快速發(fā)展,利用深度學習算法解決諸如分詞、詞性標注、機器翻譯、信息抽取、分類、自動摘要等問題的模型逐漸成為研究主流。法律判決預測 (legal judgment prediction, LJP )是一項自然語言處理技術在法律領域上的應用,不僅能夠提高法律專業(yè)人士的工作效率、給予更加專業(yè)的法律建議,而且能打消部分技術壁壘,使得公眾更為廣泛的了解法律知識,清楚案件形勢。本文主要研究法律判決預測環(huán)節(jié)中的罪名預測子任務,通過神經(jīng)網(wǎng)絡模型研究適用于司法文書罪名自動預測。
一、相關工作
罪名預測指機器在分析案件事實描述之后預測法律案件的罪名,如欺詐、盜竊或殺人等罪名。目前,大多數(shù)現(xiàn)有工作都是在文本分類框架下進行研究,由于公開案例的局限性,早期工作通常對少數(shù)案例的判決結(jié)果進行統(tǒng)計分析,而不是進行預測。隨著機器學習的發(fā)展,越來越多的法律研究工作采用機器學習的方法提取稀疏特征解決罪名預測問題。Liu 等人[5]在罪名預測任務中考慮了短語特征信息。 Lin 等人[4]融合21種法律要素解決案例分類問題。Luo等人[2]采用基于注意力機制的神經(jīng)網(wǎng)絡模型在罪名預測任務中融入法條信息,使罪名預測更具有合理性。Hu 等人[3]把罪名分為10大類,通過人工將相關罪名屬性信息進行標記,在此基礎上,利用神經(jīng)網(wǎng)絡模型解決易混淆罪名問題。
二、裁判文書數(shù)據(jù)處理
1.數(shù)據(jù)說明
本項目采用 CAIL2018 發(fā)布裁判文書數(shù)據(jù),該數(shù)據(jù)由 2676075 份刑事裁判文書、183條刑法條文、202 條罪名以及刑期等相關信息組成,每份裁判文書結(jié)構(gòu)良好分為若干個部分,如案件事實描述、法院觀點、當事人、判決結(jié)果和其他信息;然后將刑事裁判數(shù)據(jù)集進行劃分,劃分策略為訓練集(97%)和驗證集(3%)。上述裁判文書數(shù)據(jù)分布很不均勻,例如在罪名分布中,盜竊和故意傷害罪名占數(shù)據(jù)的大部分,而引誘和敲詐勒索罪名占數(shù)據(jù)的很少一部分,這個問題也為罪名預測的準確分析提供了難度。
2.數(shù)據(jù)預處理
裁判文書屬于文本數(shù)據(jù),文本由各類字詞句構(gòu)成,每類裁判文書文本經(jīng)過分詞之后,均有部分字詞對于裁判文書的主題無關,如:“判決書”,“意見書”等司法術語占 90%以上。為了提高后續(xù)模型訓練效率和準確率,必須去除主題無關和無意義的詞匯數(shù)據(jù)質(zhì)量很大程度地影響后續(xù)模型的訓練效果,為提高數(shù)據(jù)質(zhì)量,本文對裁判文書進行大量的預處理工作。首先是數(shù)據(jù)清洗,去除一些無效樣本。其次,根據(jù)分詞和分句的分析結(jié)果,對部分詞語以及一些無效短句作為停用詞予以去除。再次,將大量的干擾信息進行歸一化處理。
3.文本表示
文字是人類認知過程中產(chǎn)生的高層認知抽象實體,因此,需要將其轉(zhuǎn)換為計算機可以處理的數(shù)據(jù)類型,即向量。目前文本表示主要包括兩類方法one hot encoding和word-embedding方法。其中,one hot encoding方法主要應用的詞袋模型(BOW)+TF-IDF技術,優(yōu)點是簡單粗暴配合LR效果也不賴,缺點也明顯,維度太高且有詞義鴻溝問題,不適合大語料。word-embedding方法中的word2vec +TF-IDF加權(quán)平均方法訓練詞向量效率和效果均表現(xiàn)不俗,首先通過word2vec訓練詞向量,再通過簡單的詞加權(quán)/關鍵tag加權(quán)/tf-idf加權(quán)平均得到文檔向量表示。根據(jù)當前研究熱點,結(jié)合本文數(shù)據(jù)體量要求,本文采用word2vec進行文本表示。
三、學習模型
本文借鑒劉宗林等[6]的相關工作進行學習模型的建立。裁判文書中都是基于段落對案情進行描述的,而段落由一系列句子組成。那么,段落編碼問題可以轉(zhuǎn)換對詞和句子進行序列編碼,即基于詞級別的序列編碼和詞級別的注意力機制和基于句子級別的序列編碼和句子級別的注意力機制。
為了能夠充分捕捉文本上下文特征信息,本文采用雙向長短期記憶神經(jīng)網(wǎng)絡(bi-directional long short-term memory , BiLSTM)對詞和句子進行編碼。那么,對于案情描述可以進行這樣輸入: ,則詞的向量集合 作為神經(jīng)網(wǎng)絡模型的輸入。那么,將詞向量集合經(jīng)過式(1)得到BiLSTM的隱層向量表示。
為了解決BiLSTM隱層向量對詞語重要程度信息缺失的問題,本文利用注意力機制(attention)得到詞級別的向量表示。注意力機制的計算公式如下:
式(2)中,N表示詞的數(shù)量;g表示最終的向量; 表示詞的貢獻度值;W是權(quán)重矩陣; 表示全局向量,以達到區(qū)分有信息詞和無信息詞。其中,初始值利用隨機初始化形式產(chǎn)生,并且在訓練過程中不斷進行權(quán)值更新,BiLSTM 的隱層向量表示作為輸入。
采用交叉熵損失函數(shù)作為目標函數(shù),先利用式(3)的Softmax計算金標答案概率;最后再采用式(4)的交叉熵損失函數(shù)計算真實概率分布與預測概率分布的差距。
四、實驗及結(jié)果分析
1.實驗設置
目前,自然語言處理研究領域成熟的分詞工具包括 JieBa、HanLP、LTP;由于缺乏法言法語專用詞典,那么在沒有詞典的情況下,HanLp 的分詞效果最佳。因此,本文采用HanLP分詞器(http://hanlp.com/)對案情描述進行中文分詞。使用Word2vec在CAIL2018全部數(shù)據(jù)集上訓練外部詞向量。詞向量中的向量維度設置為200,BiLSTM隱層維度設置為200, Dropout值設置為0.5,批處理大小為70,優(yōu)化器采用的是Adam ( adaptive moment estimation ),學習率為0.001。
2.評價方法
刑事裁判文書數(shù)據(jù)存在數(shù)據(jù)分布不平衡問題,僅有不足300條訓練數(shù)據(jù)的罪名數(shù)量占到50%以上,而有3000條以上訓練數(shù)據(jù)的罪名僅有7個。因此,本文采用分類任務中的微平均F1值(Micro-F1-measure)、宏平均F1值(Macro-F1- measure) 以及這上述兩類的平均值作為模型的評價指標作為模型評價指標。
3.實驗模型
實驗中采用以下模型進行對比分析:
SVM-TFIDF:利用TF-IDF抽取案情描述部分的特征信息。其中 TF-IDF 提取的特征個數(shù)設置為5000,并且使SVM 作為分類器。
DPCNN:它能夠?qū)W習更復雜的非線性特征,提取更深層次特征,從而高效地建立長距離文本的語義。
4.實驗結(jié)果及分析
實驗結(jié)果如表(1)所示,本文采用了SVM-TFIDF 和DPCNN模型對罪名預測進行了對比實驗。實驗結(jié)果表明,基于DPCNN罪名預測模型的罪名預測的性能較好。但是,實驗中仍然存在一些罪名的預測準確率不高的問題,比如對破壞交通設施罪名的預測。通過對實驗進一步的研究發(fā)現(xiàn),破壞交通設施的訓練數(shù)據(jù)不足100條,而其他幾個罪名的至少300條訓練數(shù)據(jù),訓練數(shù)據(jù)極度不均衡。 因此,本文方法在訓練數(shù)據(jù)不足的情況下還不能達到很好的效果。
另外,本文通過對預測結(jié)果的觀察,發(fā)現(xiàn)導致實驗結(jié)果準確度不高的另外一個原因是存在大量的易混淆罪名案例,實驗模型無法辨識,例如存在很多的盜竊案例被預測成為非法侵入住宅。
五、結(jié)論
本文借助自然語言處理相關技術理論,基本實現(xiàn)了對裁判文書罪名的自動預測,但是實驗過程中仍然存在諸多問題,如訓練資源不均衡、易混淆罪名等。接下來,本文將圍繞兩方面工作進行開展,首先,對相關算法和模型進行對比實驗分析并及時優(yōu)化;其次,建立優(yōu)質(zhì)的覆蓋面廣的刑事案件術語詞匯庫。
參考文獻
[1]Firat O , Cho K , Sankaran B , et al. Multi-way, multilingual neural machine translation[J]. Computer Speech & Language, 2016:S0885230816301097.
[2]Luo B , Feng Y , Xu J , et al. Learning to Predict Charges for Criminal Cases with Legal Basis[J]. 2017.
[3]Zikun Hu, Xiang Li, Cunchao Tu, Zhiyuan Liu, and Maosong Sun. 2018. Few-shot charge prediction with discriminative legal attributes[J]. In Proceedings of COLING.
[4]Liu C L , Hsieh C D . Exploring Phrase-Based Classification of Judicial Documents for Criminal Charges in Chinese[C]// International Conference on Foundations of Intelligent Systems. Springer-Verlag, 2006.
[5]LIN W C , KUO T T , CHANG T J.Exploiting machine learning models for Chinese legal documents labeling, case classification , and sentencing prediction [C]// Proceedings of the 24th Conference on Computational Linguistics and Speech Processing (ROCLING 2012) .Chung-Li, Taiwan, China :ACL-CLP, 2012: 140-141.
[6] 劉宗林, 張梅山, 甄冉冉,等.融入罪名關鍵詞的法律判決預測多任務學習模型[J]. 清華大學學報 (自然科學版), 2019,59(7):497-503.