馬建剛 馬應龍
摘 要:基于海量的司法文書進行的高效司法文檔分類有助于目前的司法智能化應用,如類案推送、文書檢索、判決預測和量刑輔助等。面向通用領域的文本分類方法因沒有考慮司法領域文本的復雜結(jié)構(gòu)和知識語義,導致司法文本分類的效能很低。針對該問題提出了一種語義驅(qū)動的方法來學習和分類司法文書。首先,提出并構(gòu)建了面向司法領域的領域知識模型以清晰表達文檔級語義;然后,基于該模型對司法文檔進行相應的領域知識抽取;最后,利用圖長短期記憶模型(Graph LSTM)對司法文書進行訓練和分類。實驗結(jié)果表明該方法在準確率和召回率方面明顯優(yōu)于常用的長短期記憶(LSTM)模型、多類別邏輯回歸和支持向量機等方法。
關鍵詞:司法大數(shù)據(jù);領域知識模型;文本分類;智慧檢務;圖長短期記憶模型
中圖分類號: TP309
文獻標志碼:A
Abstract: Efficient document classification techniques based on large-scale judicial documents are crucial to current judicial intelligent application, such as similar case pushing, legal document retrieval, judgment prediction and sentencing assistance. The general-domain-oriented document classification methods are lack of efficiency because they do not consider the complex structure and knowledge semantics of judicial documents. To solve this problem, a semantic-driven method was proposed to learn and classify judicial documents. Firstly, a domain knowledge model oriented to judicial domain was proposed and constructed to express the document-level semantics clearly. Then, domain knowledge was extracted from the judicial documents based on the model. Finally, the judicial documents were trained and classified by using Graph Long Short-Term Memory (Graph LSTM) model. The experimental results show that, the proposed method is superior to Long Short-Term Memory (LSTM) model, Multinomial Logistic Regression (MLR) and Support Vector Machine (SVM) in accuracy and recall.
Key words: judicial big data; domain knowledge model; text categorization; smart procuratorate; Graph Long Short-Term Memory (Graph LSTM) model
0 引言
司法機關通過多年的信息化建設應用已經(jīng)積累了海量的司法文書,如最高檢察院檢察信息公開網(wǎng)2016年一年就發(fā)布起訴書779478份,最高法院的中國裁判文書網(wǎng)已發(fā)布判決書4677萬份(截止2018年6月),為開展司法智能化建設應用(如智慧法院、智慧檢務[1])提供了數(shù)據(jù)基礎?;诤A康乃痉ㄎ臅M行高效的司法文檔分類對目前的司法智能化應用極富價值,如類案推送、文書檢索、判決預測和量刑輔助等。
由于司法文檔本身的復雜結(jié)構(gòu)司法文檔分類是一項具有挑戰(zhàn)性的任務[2]。文本自動分類在自然語言處理領域是經(jīng)典的問題。常用的傳統(tǒng)文本分類方法有詞頻逆文檔頻率(Term Frequency-Inverse Document Frequency, TF-IDF)[3]、詞袋(Bag Of Words, BOW)模型[4]、向量空間模型(Vector Space Model, VSM)[5]、LDA (Latent Dirichlet Allocation)主題模型[6]等;然而,這些方法往往由于其文本表示通常是高維度高稀疏而導致特征表達能力很弱,針對司法文本的分類結(jié)果并不理想。許多研究基于機器學習方法的分類器來分類司法文檔[7-8],如K最近鄰(K-Nearest Neighbors, KNN)、支持向量機(Support Vector Machine, SVM)[9-10]、最大熵[11]、決策樹[12]等。
面向司法領域的文本分類方法需要考慮特定司法領域文本的復雜結(jié)構(gòu)和知識語義以提高司法文本分類的效能[13]。司法文書的文本分類應用對分類準確率有著極高的要求,且司法領域文本數(shù)量大、文本結(jié)構(gòu)復雜。馬建剛等[14]結(jié)合司法文檔語義背景知識提出了一種基于知識塊摘要和詞轉(zhuǎn)移距離的高效司法文檔分類方法,針對詞轉(zhuǎn)移距離模型在處理短文本時具有更好效能的特點,抽取司法文檔的核心知識塊摘要,進而將針對司法文檔的分類轉(zhuǎn)換成針對司法文檔知識塊摘要的分類,提高了分類的效能;然而,文獻[14]中對于確定從司法文檔所抽取的知識塊摘要中哪些屬于對分類至關重要的核心知識塊摘要還需要領域?qū)<胰斯じ深A和確認,在一定程度上降低了司法文檔分類的自動化程度、增加了相應的人工成本開銷。
針對上述問題,本文提出了一種語義驅(qū)動的深度學習方法來進行司法文本分類。首先,針對具體司法領域構(gòu)建對應的司法領域知識本體以清晰表達文檔級語義;然后,基于領域本體檢測司法文檔中是否存在與領域知識本體中的術語對應或相似的知識信息,為每一個司法文檔生成對應的向量模型;接著,利用圖長短期記憶(Graph Long Short-Term Memory, Graph LSTM)模型[15]對司法文書進行訓練和分類;最后,通過實驗驗證了所提方法的有效性。實驗結(jié)果表明,該方法要顯著優(yōu)于常用的長短期記憶模型、多類別的邏輯回歸模型和支持向量機方法。本文方法與文獻[14]方法雖然都利用了領域背景知識,但處理方法上有以下不同:1)本文方法利用領域本體生成司法文檔對應的向量表示而不用獲取知識塊摘要;2)在領域知識本體構(gòu)建后,本文方法的司法文檔分類后續(xù)過程皆可以自動化進行,無需領域?qū)<疫M一步人工干預;最后,本文方法利用Graph LSTM深度學習模型進行司法文檔自動化分類。
1 司法文書領域知識模型
一個司法文書包含大量信息,但文檔中不同部分的信息對分析司法文檔的價值是不一樣的。因此,構(gòu)造一個司法文書領域的知識模型對分析司法文書有很大幫助?;诜缸飿?gòu)成理論構(gòu)建司法文書領域知識模型,模型包含犯罪構(gòu)成的四要件,即:主體、客體、主觀方面、客觀方面??陀^方面又包括危害行為和危害結(jié)果,同時還包括文書基本信息(如文號)和判決結(jié)果信息。本文以交通肇事罪為例建立了司法文書領域知識模型(Legal Document Model, LDM),如圖1所示。交通肇事罪的判決書主要包括文檔基本信息、主體、客觀方面、判決結(jié)果等部分。其中文檔基本信息包括判決書文號、審判機關、公訴機關、審判員和審判日期等信息。主體和客觀方面這兩個概念來自刑法中的犯罪構(gòu)成要件。主體指被告人的信息,包括姓名、職業(yè)、年齡、出生日期、是否有前科、是否累犯等信息。交通肇事罪的客觀方面會涉及機動車輛類型、危害行為和危害結(jié)果等,危害行為包括醉酒駕駛、追逐競駛等,危害結(jié)果則包括人員傷亡、財產(chǎn)損失等。交通肇事罪的判決結(jié)果的主刑包括拘役、有期徒刑等。
2 基于LDM的司法文書自動化知識抽取
自動化知識抽取包括兩部分:一是抽取出客觀方面部分,這部分內(nèi)容主要決定了案件的判決結(jié)果。二是抽取出司法文書中的判決結(jié)果部分,并標準化判決結(jié)果,依此為司法文書分類,獲得可供實驗用的帶標簽的數(shù)據(jù)集。對每一個司法文書,使用一個可擴展標記語言(eXtensible Markup Language, XML)文件來保存抽取得到的知識,XML文件的樹結(jié)構(gòu)取自于LDM的結(jié)構(gòu),并與之完全相同。XML文件中的各元素所存儲的正是一個司法文書中與LDM的各節(jié)點相關的信息,如在圖1所示的LDM中,客觀方面分支下存有一個酒駕節(jié)點,若在一個判決書中檢測到犯罪嫌疑人存在酒駕行為,那么在與該判決書對應的XML文件中代表酒駕的元素的值將被設置為1;若未檢測到,將被設置為0。
本文采用基于詞語相似度匹配和規(guī)則的方法來抽取客觀方面部分的知識。需要抽取的知識由LDM確定,不同罪名對應的LDM不同。從圖1所示的LDM中可以看到,客觀方面中存在兩種需要抽取的知識:一是定性的知識,如酒駕、追逐競駛,只有兩種結(jié)果,在XML文件中用0代表沒有,用1代表有;二是定量的知識,如死亡人數(shù)、重傷人數(shù),這種知識需要提取具體的數(shù)字。對于定性的知識,首先將判決書分詞,然后使用編輯距離判斷判決書中的各詞與代表待抽取知識的詞是否相似,若檢測到存在這樣一個相似的詞,則將XML文件中該元素的值設置為1,否則為0。編輯距離是一種計算詞語相似度的算法,計算式如下:
例如在抽取酒駕時,如果判決書中存在“喝酒”“酒駕”“醉酒駕駛”等詞語時,那么通過編輯距離就能將這些詞語判定為酒駕的相似詞,就能判定犯罪嫌疑人存在酒駕行為,并在XML文件中將對應元素的值設置為1,這種做法,也是基于判決書中可能存在的用詞不規(guī)范以及自然語言的多樣性考慮的。對于定量的知識,則采用基于規(guī)則的方法抽取,如死亡人數(shù),會利用“死亡*人”這一規(guī)則在判決書中尋找符合的句子,其中“*”代表死亡人數(shù),若能找到,則將“*”的值填入XML文件的元素中;若無法找到,則填入0,代表無人死亡。
同樣的,本文采用基于規(guī)則的方法抽取審判結(jié)果。在司法文檔中,審判結(jié)果具有固定的用語和結(jié)構(gòu),即被告人+姓名+犯+罪名+判處+判決結(jié)果。利用這個規(guī)則,很容易就能提取出判決結(jié)果。本文所抽取的審判結(jié)果主要是主刑部分,這樣就能得到形如“有期徒刑五年六個月”的判決結(jié)果部分。這里的“五年六個月”中的五和六在文檔中是漢字而不是阿拉伯數(shù)字,審判結(jié)果的標準化指的是將漢字轉(zhuǎn)化為阿拉伯數(shù)字,同時將月轉(zhuǎn)換為年,即將“五年六個月”轉(zhuǎn)化為5.5年。這樣做是為了方便根據(jù)刑期對司法文檔進行分類。
對于一個保存了抽取所得知識的XML文件來說,可以很容易地使用一個向量來表示整個XML的重要信息,如XML中含有n個元素,那么可以用一個n維的向量來代表這個XML文件,向量的每一個分量表示XML文件的一個元素值。這個向量可以被認為是保存了一個判決書的關鍵特征,基于此向量,可以作進一步的研究,如分類、聚類等。這種做法簡單明了,不足的是會丟失XML的結(jié)構(gòu)信息。
3 基于Graph LSTM的司法文書分類
3.1 LSTM模型
LSTM是一種循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network, RNN)的變體,主要用于序列建模,其使用門機制處理信息,解決了RNN學習過程中的梯度消失問題,從而有效地學習到長距離依賴信息。在LSTM網(wǎng)絡內(nèi)部,存在三種門:輸入門、遺忘門和輸出門。此外,相較于普通RNN模型,LSTM內(nèi)部除了狀態(tài)h之外還有單元狀態(tài)c。LSTM用兩個門來控制單元狀態(tài)c的內(nèi)容:一個是遺忘門,它決定了上一時刻的單元狀態(tài)ct-1有多少保留到當前時刻ct;另一個是輸入門,它決定了當前時刻網(wǎng)絡的輸入xt有多少保存到單元狀態(tài)ct。LSTM用輸出門來控制單元狀態(tài)ct有多少輸出到LSTM的當前的輸出值ht。遺忘門公式為:
3.2 基于Graph LSTM的司法文書表示和分類
3.2.1 Graph LSTM
Graph LSTM是一種使用LSTM對圖類型的數(shù)據(jù)進行編碼的方式,通常來說這里的圖指的是有向無環(huán)圖,對于無向圖和帶環(huán)的圖,可以通過拆分的方法將其轉(zhuǎn)換為有向無環(huán)圖。在Graph LSTM中,一個節(jié)點的向量表示是通過其子節(jié)點的向量表示學習得來的,具體而言,若一個節(jié)點q擁有n個子節(jié)點,則將這n個子節(jié)點視為一個序列,然后通過LSTM進行序列建模,即將n個子節(jié)點的向量表示輸入到一個LSTM中,最終LSTM的輸出即為q的向量表示。對圖中所有節(jié)點做如此遞歸的操作,最終可得到整個圖的向量表示。除無子節(jié)點的節(jié)點之外,每個節(jié)點都有一個與之相對應的LSTM,即不同節(jié)點的LSTM參數(shù)不共享。
3.2.2 司法文書表示和分類
對一份判決書進行基于LDM的自動化知識抽取后可以得到一個XML文件。以圖1所示的交通肇事罪為例,得到的XML文件包括兩部分:一是客觀方面部分;二是審判結(jié)果部分。其中:客觀方面部分經(jīng)過Graph LSTM處理,得到一個向量表示,被認為是判決書所描述案情的高級特征;審判結(jié)果部分中主刑的刑期,則被用來當作分類的標準,即分類結(jié)果。希望本文的模型能對一個判決書中的案情,也就是案件的客觀方面部分進行分類,得出相應的結(jié)果,即刑期。
圖2展示了Graph LSTM對XML信息處理的部分內(nèi)容,生成的XML文件是樹結(jié)構(gòu),樹是一種簡單意義上的圖,所以也可使用Graph LSTM對其處理。圖中空心小圓代表葉子節(jié)點,XML中屬于同一個父節(jié)點的葉子節(jié)點組成了一組序列信息,將這組序列信息輸入到一個LSTM中,即可得到其父節(jié)點的表示,如圖2中,h人員傷亡代表“人員傷亡”節(jié)點的表示,是由“死亡人數(shù)”“重傷人數(shù)”節(jié)點的信息經(jīng)由一個LSTM生成的,而“人員傷亡”“財產(chǎn)損失”等節(jié)點的表示又能生成節(jié)點“危害結(jié)果”的表示,按這種方式即可遞歸地得到客觀方面的表示,即h客觀方面,最后即可通過softmax層完成分類,目標函數(shù)是負對數(shù)似然函數(shù)。
對于一個未經(jīng)審判的案件,給出其情節(jié),也就是判決書的客觀方面部分,訓練好的模型可以對其自動分類,即給出其刑期,或者推送類似情節(jié)的已判決案件,以供司法人員參考,具體分類過程如圖3所示。其中多層感知機(Multi-Layer Perceptron, MLP)是為了增強模型的特征表達能力。
4 實驗驗證與分析
4.1 數(shù)據(jù)集
實驗所用數(shù)據(jù)集為交通肇事罪判決書,來源于中國裁判文書網(wǎng)(http://wenshu.court.gov.cn/),共10000份,使用其中的80%作為訓練集,10%作為驗證集,10%作為測試集,數(shù)據(jù)集的劃分是通過隨機選擇實現(xiàn)的。如前文所說,根據(jù)判決結(jié)果中主刑的刑期進行分類,具體而言,根據(jù)最高人民法院《關于審理交通肇事刑事案件具體應用法律若干問題的解釋》中的規(guī)定將其刑期劃分為4個區(qū)間,即:0到6個月,6個月以上到3年,3年以上到7年,以及7年以上。
4.2 對比的算法
將本文提出的LDM+Graph LSTM模型與多個算法進行了比較,包括傳統(tǒng)的機器學習方法和基于深度學習的算法,傳統(tǒng)方法有多類別邏輯回歸(Multinomial Logistic Regression, MLR)和SVM,深度學習方法有普通的LSTM。
4.2.1? 多類別邏輯回歸
多類別的邏輯回歸無法處理圖數(shù)據(jù)結(jié)構(gòu),一種方法是使用一個n維向量(n-vector)作為特征,該向量來自于經(jīng)知識提取之后得到的XML文件,具體可見第2章節(jié)所述。在本實驗中,根據(jù)交通肇事罪的LDM,n取30。另一種方法是使用經(jīng)典的TF-IDF方法,對于一篇判決書,首先去除審判結(jié)果部分,然后將剩余文本的TF-IDF向量作為特征輸入到多類別邏輯回歸中。
4.2.2 SVM
與多類別邏輯回歸相同,基于SVM的方法的輸入也是兩種,即n維向量和TF-IDF向量。
4.2.3 普通LSTM
普通LSTM對去掉審判結(jié)果之后的剩余文本進行序列建模。首先,對文本進行分詞等預處理,得到一組詞;然后,將所有詞按順序輸入到一個LSTM中,得到文本的向量表示,繼而通過SoftMax函數(shù)進行分類。詞由詞向量表示,詞向量使用的是Word2Vec,在整個數(shù)據(jù)集上訓練得到,維度為200。
4.3 模型參數(shù)和訓練
使用JIEBA[16]分詞作為分詞工具,在實驗中,Graph LSTM中各LSTM的隱藏層單元數(shù)設置為50,并且使用帶動量的隨機梯度下降法優(yōu)化目標函數(shù),批處理的大小為64,學習率設為0.01,動量大小為0.9。
4.4 結(jié)果分析
實驗中使用準確率、召回率和F值作為指標衡量分類效果,其中,F(xiàn)值為準確率和召回率的調(diào)和平均值,F(xiàn)值= 準確率*召回率*2/(準確率+召回率)。在各數(shù)據(jù)集上不同方法的實驗結(jié)果如表1所示,表中的Graph LSTM代表本文使用的基于LDM和Graph LSTM的模型。實驗結(jié)果表明,相較其他方法,本文的模型在準確率和召回率上都得到了最好的結(jié)果。
對于基于傳統(tǒng)機器學習的文本分類方法來說,影響分類效果的因素除了分類方法之外,特征的選擇也是很重要的。從表1中可以看到,對于多類別的邏輯回歸和SVM這兩種方法,使用經(jīng)過基于LDM的知識提取得到的n維向量作為特征比使用TF-IDF特征能顯著地提高分類效果,這證明了經(jīng)知識提取之后的特征能有效地表達案件情節(jié)。
本文模型的分類效果相較于上述使用了n維向量作為特征的兩種方法也有很大提升,原因是經(jīng)過提取所得的知識具有特定結(jié)構(gòu),而n維向量丟失了這種結(jié)構(gòu)信息,但Graph LSTM能較好地考慮結(jié)構(gòu)信息,因此其分類效果更好。
本文還通過實驗探索了數(shù)據(jù)集的規(guī)模大小對Graph LSTM分類效果的影響,并與傳統(tǒng)機器學習方法對比,結(jié)果如圖4所示。由圖4可以看出,在樣本數(shù)量較少的情況下,Graph LSTM受限于數(shù)據(jù)集規(guī)模,分類效果不如傳統(tǒng)的機器學習方法;當逐漸增大數(shù)據(jù)集規(guī)模后,Graph LSTM的分類效果迅速提升,在數(shù)據(jù)集規(guī)模達到6000份之后,分類效果不再提升,這也是深度學習模型的常見現(xiàn)象。而SVM的分類效果始終變化不大,也就是說,SVM對數(shù)據(jù)集規(guī)模并不敏感。
5 結(jié)語
本文針對司法文書的相似性分析、實現(xiàn)類案推送為司法人員提供智能輔助辦案服務的應用場景,提出了一種語義驅(qū)動的司法文檔學習分類方法。該方法使用司法領域知識構(gòu)建了基于領域知識的模型LDM;基于LDM使用結(jié)合詞語相似度和規(guī)則的自動化方法從原始司法文件中提取結(jié)構(gòu)化的知識,并保存到XML文件中;將抽取得到的知識作為原始文本的高級語義特征,并使用Graph LSTM進行分類,相比傳統(tǒng)分類方法,顯著地提高了分類的效果。
參考文獻 (References)
[1] 馬建剛.檢察實務中的大數(shù)據(jù)[M].北京:中國檢察出版社,2017:17-23.(MA J G. Procuratorial Big Data [M]. Beijing: China Procurational Press, 2017: 17-23.)
[2] BOELLA G, CARO L D, HUMPHREYS L, et al. Eunomos, a legal document and knowledge management system for the Web to provide relevant, reliable and up-to-date information on the law [J]. Artificial Intelligence and Law, 2016, 24(3): 245-283.
[3] JING L P, HUANG H K, SHI H B. Improved feature selection approach TF-IDF in text mining [C]// Proceedings of the 2003 International Conference on Machine Learning and Cybernetics. Piscataway, NJ: IEEE, 2003: 944-946.
[4] GALGANI F, COMPTON P, HOFFMANN A. LEXA: building knowledge bases for automatic legal citation classification [J]. Expert Systems with Applications, 2015, 42(17/18): 6391-6407.
[5] HAMMOUDA K M, KAMEL M S. Phrase-based document similarity based on an index graph model [C]// Proceedings of the 2002 IEEE International Conference on Data Mining. Washington, DC: IEEE Computer Society, 2002: 203-210.
[6] BLEI D M, NG A Y, JORDAN M I, et al. Latent Dirichlet allocation [J]. Journal of Machine Learning Research, 2003, 3(4/5): 993-1022.
[7] ROITBLAT H L, KERSHAW A, OOT P. Document categorization in legal electronic discovery: computer classification vs. manual review [J]. Journal of the American Society for Information Science and Technology, 2010, 61(1):70-80.
[8] NOORTWIJK K V, NOORTWIJK K C. Automatic document classification in integrated legal content collections [C]// ICAIL 2017: Proceedings of the 16th International Conference on Artificial Intelligence and Law. New York: ACM, 2017: 129-134.查不到
[9] SULEA O, ZAMPIERI M, MALMASI S, et al. Exploring the use of text classification in the legal domain [C]// ASAIL 2017: Proceedings of the Second Workshop on Automated Detection, Extraction and Analysis of Semantic Information in Legal Texts. New York: ACM, 2017: 419-424. https://arxiv.org/pdf/1710.09306.pdf. 查不到
[10] SARIC F, DALBELO BASIC B, MOENS M F, et al. Multi-label classification of croatian legal documents using EuroVoc thesaurus [C]// SPLeT 2014: Proceedings of the 2014 Workshop on Semantic Processing of Legal Texts. Reykjavik: European Language Resources Association, 2014: 716-723.
[11] BAJWA I S, KARIM F, NAEEM M A, et al. A semi supervised approach for catchphrase classification in legal text documents [J]. Journal of Computers, 2017, 12(5): 451-461.
[12] SILVESTRO L D, SPAMPINATO D, TORRISI A. Automatic classification of legal textual documents using C4.5 [EB/OL]. [2018-10-15]. Catania: ITTIG:1-8. http://www.ittig.cnr.it/Ricerca/Testi/Spampinato-Di_Silvestro-Torrisi2009.pdf.
[13] NALLAPATI R, MANNING C D. Legal docket-entry classifica-tion: where machine learning stumbles [C]// EMNLP 2008: Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2008: 438-446.
[14] 馬建剛,張鵬,馬應龍.基于知識塊摘要和詞轉(zhuǎn)移距離的高效司法文檔分類[J].計算機應用,2019,39(5):1293-1298.(MA J G, ZHANG P, MA Y L. Efficient judicial document classification based on knowledge block summarization and word movers distance [J]. Journal of Computer Applications, 2019, 39(5):1293-1298.)
[15] PENG N, POON H, QUIRK C, et al. Cross-sentence n-ary relation extraction with graph LSTMs [C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2017: 101-115.
[16] SUN J J. Jieba Chinese word segmentation tool [EB/OL]. [2018-10-15]. https://github.com/fxsjy/jieba.