国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于卷積神經(jīng)網(wǎng)絡(luò)的輔助分案方法研究

2022-03-23 02:09敖紹林秦永彬黃瑞章陳艷平劉麗娟鄭慶華陳昌恒程少芬
大數(shù)據(jù) 2022年2期
關(guān)鍵詞:審判卷積語義

敖紹林,秦永彬,2,黃瑞章,2,陳艷平,2,劉麗娟,鄭慶華,陳昌恒,程少芬

1. 貴州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴州 貴陽 550025;2. 公共大數(shù)據(jù)國家重點(diǎn)實(shí)驗(yàn)室,貴州 貴陽 550025;3. 貴州師范學(xué)院,貴州 貴陽 550025;4. 西安交通大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,陜西 西安 710049;5. 貴州省高級(jí)人民法院,貴州 貴陽 550081

0 引言

案件分配是訴訟程序的重要環(huán)節(jié),也是審判管理的重要內(nèi)容,對合理調(diào)配法院審判資源、激發(fā)法官辦案積極性具有關(guān)鍵作用。我國法院分案制度改革的歷史脈絡(luò)大致是從人工指定分案發(fā)展為計(jì)算機(jī)隨機(jī)分案。目前我國各級(jí)法院的分案方法還是簡單隨機(jī)分案,具體表現(xiàn)是以法官分配到的案件數(shù)量相等為目標(biāo)的均衡分案和不考慮法官專業(yè)能力、案件性質(zhì)的完全隨機(jī)分案(比如搖號(hào)分案),存在人案不適問題。

隨著國家提出建設(shè)智慧法院[1]和實(shí)行員額制改革,現(xiàn)有分案方法已無法適應(yīng)新型辦案機(jī)制。在員額制改革的背景下,法官團(tuán)隊(duì)進(jìn)一步實(shí)現(xiàn)專業(yè)化、精英化、職業(yè)化。筆者認(rèn)為應(yīng)將案件分配給擅長審判這類案件的法官。針對上述問題,本文的研究目標(biāo)是將案件自動(dòng)分配給擅長審判此類案件的法官,形成專業(yè)化的辦案模式,避免司法腐敗,提高辦案質(zhì)效。然而,實(shí)現(xiàn)自動(dòng)分案目前還存在以下兩個(gè)研究難點(diǎn)。

● 表示困難。法院系統(tǒng)存儲(chǔ)了法官的基本信息和歷史審判數(shù)據(jù),其中多為文本信息和元數(shù)據(jù)。如何在法官表示中融合法官抽象語義特征并體現(xiàn)法官擅長的審判領(lǐng)域是實(shí)現(xiàn)自動(dòng)分案的一個(gè)難點(diǎn)。

● 匹配困難。如何將案件表示和法官表示自動(dòng)映射到一個(gè)高階語義空間,自動(dòng)獲取案件表示和法官表示中的關(guān)聯(lián)語義信息,計(jì)算案件和法官匹配度是實(shí)現(xiàn)自動(dòng)分案的另一個(gè)難點(diǎn)。

針對以上難點(diǎn),本文提出融合審判質(zhì)量的法官表示方法,以突出法官擅長的審判領(lǐng)域。利用案情事實(shí)描述表示案件,然后利用三元組損失(triplet loss)技術(shù)調(diào)節(jié)卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN),使其更好地學(xué)習(xí)法官表示和案件表示的語義特征向量。本文主要貢獻(xiàn)如下。

● 提出一種融合案件審判質(zhì)量的法官表示方法。通過審判質(zhì)量評價(jià)指標(biāo),得出法官在各類案件下的審判質(zhì)量權(quán)重。利用法官審判質(zhì)量高的案件語義特征表示法官擅長的審判領(lǐng)域,從而在法官表示中融合法官擅長領(lǐng)域的抽象語義信息。

● 提出利用CNN學(xué)習(xí)案件和法官的語義特征向量,通過相似性函數(shù)自動(dòng)計(jì)算案件和法官的匹配度。該方法構(gòu)造了一個(gè)三元組,該三元組由案件表示、擅長審判此案件的法官表示和不擅長審判此案件的法官表示組成。在高階語義空間中,利用三元組損失技術(shù)調(diào)節(jié)CNN,使其更好地學(xué)習(xí)案件表示和法官表示的語義特征向量,然后在非線性空間中計(jì)算案件和法官特征向量間的余弦相似度,用向量相似度表示案件和法官的匹配度。

本文的分案方法不同于均衡分案,更不同于庭長指定分案。該方法通過同時(shí)考慮法官擅長審判領(lǐng)域和案件信息實(shí)現(xiàn)自動(dòng)分案,減少了案件分配過程中的人為干擾因素,以人案匹配為目標(biāo),實(shí)現(xiàn)公正、合理的分案。

1 相關(guān)工作

本文利用融合案件審判質(zhì)量表示法官,利用案情事實(shí)描述表示案件。基于卷積神經(jīng)網(wǎng)絡(luò)和余弦相似度方法實(shí)現(xiàn)案件和法官的自動(dòng)匹配。其主要工作涉及文本表示、裁判文書的分析與應(yīng)用兩個(gè)方面。

早期的文本表示主要基于向量空間模型。代表方法是詞頻-逆文檔頻率(term frequency-inverse document frequency,TF-IDF)[2]。TF-IDF根據(jù)詞在文檔集中的重要度來表示文檔,忽略了詞的上下文關(guān)系,無法表示語義。這一時(shí)期的文本表示方法無法表示文本間詞的位置信息及上下文語義信息。文本分布式表示的提出旨在解決上述缺陷,早期主要是基于主題模型的方法,這類方法從文本庫中發(fā)現(xiàn)文本的代表性主題,由此計(jì)算每篇文檔的主題分布,代表方法有概率潛在語義分析(probabilistic latent semantic analysis,PLSA)模型[3]和隱含狄利克雷分布(latent Dirichlet allocation,LDA)模型[4]。裁判文書數(shù)據(jù)具有邏輯關(guān)系嚴(yán)謹(jǐn)、時(shí)序關(guān)系與因果關(guān)系明顯等典型特征,利用基于向量空間模型和主題模型的文本表示方法無法較好地體現(xiàn)其語義關(guān)系。近年來,深度學(xué)習(xí)技術(shù)的發(fā)展較好地提升了文本表征能力,這一類方法可被統(tǒng)稱為基于神經(jīng)網(wǎng)絡(luò)的文本表示方法。Bengio Y等人[5]在2003年提出神經(jīng)網(wǎng)絡(luò)語言模型(neural network language model,NNLM),用神經(jīng)網(wǎng)絡(luò)建模n-gram,進(jìn)而得到表征單詞語義的詞向量。2013年,Mikolov T等人[6-7]提出著名的word2vec模型來訓(xùn)練詞向量,語義上相似或相關(guān)的詞得到的表示向量相近。在word2vec之后詞的分布式表示技術(shù)得到了長足的發(fā)展。2014年P(guān)ennington J等人[8]提出Glove模型,對詞向量進(jìn)行全局意義上的學(xué)習(xí)。2017年Bojanowski P等人[9]提出FastText模型,以學(xué)習(xí)詞的形態(tài)學(xué)信息。直到ELMo[10]、BERT(bidirectional encoder representation from transformer)[11]等模型被提出,文本語義表示才開始在考慮詞的形態(tài)學(xué)信息的同時(shí)兼顧上下文語義信息。另外,由于TF-IDF在特征提取方面存在缺點(diǎn),2014年Kim Y[12]提出了Text-CNN模型,利用CNN捕捉局部特征能力強(qiáng)的特點(diǎn),將句子經(jīng)過卷積層、池化層得到句子的表示,在文本分類任務(wù)上取得了不錯(cuò)的效果。2019年馮興杰等人[13]提出基于多注意力的CNN問題相似度計(jì)算模型,與基于循環(huán)神經(jīng)網(wǎng)絡(luò)的模型相比,該模型對問句的識(shí)別能力更強(qiáng)。Chiu J P C等人[14]設(shè)計(jì)了一種雙向長短期記憶(bi-directional long short-term memory,Bi-LSTM)和CNN結(jié)合的神經(jīng)網(wǎng)絡(luò)模型,實(shí)驗(yàn)證明了該模型能較好地獲得句子的結(jié)構(gòu)化表示。

本文研究如何表示法官以突出法官擅長的審判領(lǐng)域,以及如何實(shí)現(xiàn)法官和案件的自動(dòng)匹配。這涉及表示向量在非線性空間的高階語義匹配問題,本文研究利用深度學(xué)習(xí)方法獲取句子的抽象語義表示。

隨著國家司法信息化建設(shè)的推進(jìn),提高案件受理、審判、執(zhí)行、監(jiān)督等各環(huán)節(jié)的信息化水平,促進(jìn)司法公平正義成為必然的趨勢,分案過程自動(dòng)化、智能化對于促進(jìn)國家司法信息化體系建設(shè)具有重要的推動(dòng)作用。關(guān)于分案制度,最高人民法院在相關(guān)文件中多次對建立“隨機(jī)分案為主,指定分案為輔”的分案方式提出指導(dǎo)意見[15]。目前世界各國都在積極探索隨機(jī)分案制度。

在美國,州法院使用計(jì)算機(jī)進(jìn)行隨機(jī)分案,而聯(lián)邦法院通過人為考慮案件的爭議點(diǎn)和復(fù)雜性實(shí)現(xiàn)分案[16-17]。在德國[18],先對案件的分配工作做出安排,在之后的一個(gè)審判年度內(nèi),新受理案件都必須按照預(yù)先安排進(jìn)行分配。在中國,北京國雙科技有限公司[19]通過建立案件、法官實(shí)體數(shù)據(jù)以及兩者之間的關(guān)系,利用分案因素,從法官實(shí)體數(shù)據(jù)中匹配法官列表,將待分配案件隨機(jī)分配給法官列表中的法官。廣州大學(xué)[20]基于機(jī)器學(xué)習(xí)方法和人工決策相結(jié)合的模式實(shí)現(xiàn)自動(dòng)分案。陳芳序[21]以法官工作量為導(dǎo)向,打破以往以案件為導(dǎo)向的分案思維,利用統(tǒng)計(jì)學(xué)相關(guān)知識(shí)進(jìn)行Pearson相關(guān)性分析,實(shí)現(xiàn)對案件工作量的評估,從而確認(rèn)法官工作量,在工作量較小的N-1個(gè)法官中隨機(jī)選擇一個(gè)法官分配案件。該方法為了平衡法官工作量,只考慮案件因素實(shí)現(xiàn)分案,往往會(huì)造成人案不適,降低公眾對司法的信任。王小新[22]以江蘇省法院試行的刑事案件難易程度權(quán)重為基礎(chǔ),通過將案件審理難度看作二分類問題,利用Logistic回歸方法構(gòu)建個(gè)案審理難度評估模型,判斷不同法官審理同一案件的難度系數(shù),以全院審理案件難度系數(shù)最小為約束實(shí)現(xiàn)案件的最優(yōu)分配。

在這些研究的基礎(chǔ)上,本文提出基于卷積神經(jīng)網(wǎng)絡(luò)模型的輔助分案方法。針對現(xiàn)有方法存在的人案不適、人情案、關(guān)系案等弊端,提出一種融合案件審判質(zhì)量的法官表示方法,利用法官審判質(zhì)量高的案件語義特征表示法官擅長的審判領(lǐng)域,從而在法官表示中融合法官擅長領(lǐng)域的抽象語義信息。最后,利用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)案件與法官的匹配,從而實(shí)現(xiàn)高效率分案。

2 分案模型的實(shí)現(xiàn)

本文基于卷積神經(jīng)網(wǎng)絡(luò)獲取法官和案件的語義特征表示,利用相似性函數(shù)計(jì)算案件和任何一個(gè)法官的匹配度,再通過分案模塊得出推薦法官。本文方法的分案流程如圖1所示,主要包括案件審判質(zhì)量評價(jià)模塊、表示模塊、匹配度估算模塊、分案模塊。

圖1 本文方法的分案流程

本文首先對數(shù)據(jù)進(jìn)行預(yù)處理,通過表示模塊得到案件和法官的表示。通過匹配度估算模塊自動(dòng)計(jì)算案件和法官的匹配度,得出案件和任何一個(gè)法官的匹配度。最后基于分案模塊將案件和所有法官的匹配度按大小排序,輸出匹配度較大的前N個(gè)法官,即案件推薦的TopN個(gè)承辦法官。

2.1 融合案件審判質(zhì)量的法官表示方法

傳統(tǒng)案件分配僅將案由作為唯一分案標(biāo)準(zhǔn),忽略了法官擅長的審判領(lǐng)域,無法保證為案件分配的法官擅長審判此類案件,常常造成人案不適。為了解決這一問題,本文提出融合案件審判質(zhì)量的法官表示方法,以突出法官專長。法官的歷史審判案件眾多,不同案件的審判質(zhì)量高低不同。本文認(rèn)為法官審判質(zhì)量較高的案件就是法官擅長審判的案件,利用這類案件語義信息能反映法官的專長、判案思維、審判習(xí)慣。

2011年最高人民法院在《關(guān)于開展案件質(zhì)量評估工作的指導(dǎo)意見》[23]中公布了31項(xiàng)用于評估法院整體案件審判質(zhì)量的指標(biāo)。本文從中選取一審改判發(fā)回重審率、案均審理時(shí)間、法定正常審限內(nèi)結(jié)案率3個(gè)指標(biāo)評估法官個(gè)人對案件的審判質(zhì)量。法官對任何一類案件的審判質(zhì)量權(quán)重計(jì)算如下:

其中,wj表示法官對任何一類案件的審判質(zhì)量權(quán)重;j=1,…,m表示案由數(shù),則每一個(gè)法官在m類案由下有m個(gè)權(quán)重值;?、γμj是調(diào)節(jié)因子;θ表示法定正常審限內(nèi)結(jié)案率;α表示一審改判發(fā)回重審率;β表示案均審理時(shí)間。分子分母加1的目的是對式子進(jìn)行平滑處理。

在m類案由下,比較同一法官不同類別下的wj值,權(quán)重值越高,法官對該類案件的審判質(zhì)量越高。本文認(rèn)為審判質(zhì)量最高的這類案件是法官擅長審判的案件。由此可以得到任何一個(gè)法官擅長審判的案件類型和不擅長審判的案件類型,保證后續(xù)實(shí)驗(yàn)合理構(gòu)建三元組數(shù)據(jù)。通過對裁判文書的分析,筆者發(fā)現(xiàn)案情事實(shí)描述是案件判決的主要依據(jù)。由此,本文抽取案情事實(shí)描述構(gòu)成案件的表示。法官的表示則由多個(gè)案件的案情特征構(gòu)成。

實(shí)驗(yàn)時(shí)考慮到法官表示文本的長度,規(guī)定構(gòu)成法官表示的案件個(gè)數(shù)為5。本文通過設(shè)定參數(shù)ε改變構(gòu)成法官表示的案件語義特征。ε表示構(gòu)成法官表示的案件中有多少案件屬于其審判質(zhì)量較高的案件類別。當(dāng)ε的值大于0.5時(shí),構(gòu)成法官表示的案件中超過50%的案件屬于其審判質(zhì)量較高的案件。筆者認(rèn)為,ε值越接近1,法官表示的抽象語義越能體現(xiàn)法官擅長的審判領(lǐng)域。

2.2 基于CNN的案件與法官自動(dòng)匹配方法

CNN是一類包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),其特有的卷積和池化結(jié)構(gòu)能以較小的計(jì)算量提取有價(jià)值的特征。句子中具有豐富的語義信息,CNN可以利用多個(gè)不同尺寸的卷積核從不同角度獲取句子豐富的語義特征。本文采用CNN處理案件和法官表示文本,獲取案件和法官的抽象語義表示,用相似度函數(shù)計(jì)算向量相似度,自動(dòng)評估法官和案件的匹配度?;贑NN的匹配模型結(jié)構(gòu)如圖2所示。

圖2 基于CNN的匹配模型結(jié)構(gòu)

本文利用CNN獲取案件和法官表示,借鑒人臉識(shí)別的思想,采用三元組損失來調(diào)節(jié)CNN的網(wǎng)絡(luò)結(jié)構(gòu),使其更好地學(xué)習(xí)案件和法官的語義特征表示。人臉識(shí)別任務(wù)指輸入一張人臉圖像,在數(shù)據(jù)集中尋找同一個(gè)人的圖像。通常的做法是構(gòu)建三元組(a,p,n)。其中,a是基準(zhǔn)正例,表示輸入圖像;p是正例,表示與輸入圖像中的人物是同一個(gè)人的圖像;n是負(fù)例,表示與輸入圖像中的人物是不同人的圖像。此類檢索任務(wù)常用三元組損失調(diào)整網(wǎng)絡(luò)參數(shù),目標(biāo)是使同類照片在編碼空間中的距離盡量小,使不同類照片在編碼空間中的距離盡量大。上述三元組損失的目標(biāo)函數(shù)是:

其中,d(a,p)、d(a,n)分別表示a和p、a和n的向量的距離,margin是閾值參數(shù)。通過最小化L,d(a,p)趨于0,d(a,n)遠(yuǎn)大于d(a,p)與margin的和。

將上述x到f(x)的映射變換過程進(jìn)行形式化表示。令L=l1,l2,l3,…,表示案情事實(shí)描述,其中l(wèi)i表示文本中的第i個(gè)字。在嵌入層,基于預(yù)訓(xùn)練的中文維基百科字向量表W,每一個(gè)li都被映射成一個(gè)向量。其中,W∈RS×K,S表示字典大小,K表示向量維度。假設(shè)輸入模型的文本序列長度為s,經(jīng)嵌入表示得到文本的向量序列為x=[x1,x2,…,xs],其中xi∈RK。該過程可表示為:

然后將x輸入卷積層提取局部特征,卷積操作由濾波器完成,令濾波器尺寸為Wc∈Rh×K,其中,h表示濾波器移動(dòng)的窗口大小。該過程可表示為:

其中,b∈R表示偏置量;f表示非線性函數(shù),將卷積輸出結(jié)果做一次非線性映射,本文使用ReLU激活函數(shù);*表示卷積。在文本操作中,常設(shè)置大小不同的多個(gè)窗口以獲取不同粒度信息的特征向量,例如h=(3,5,7)時(shí),獲得特征向量表示為[c1,c2,c3]。對每組特征向量進(jìn)行池化操作以獲取文本中更有價(jià)值的特征,本文采用最大池化操作。該過程形式化表示為:

這里f(x)就是文本被CNN學(xué)習(xí)到的語義特征表示,其中,t表示卷積窗口的數(shù)量。

對于任何一個(gè)待分配案件x,基于法官庫,構(gòu)建得到三元組數(shù)據(jù),經(jīng)過卷積匹配模型,得到,計(jì)算與。若有M個(gè)法官就有M個(gè)相似度值,用相似度值表示匹配值,通過比較M個(gè)值的大小,輸出前N(N<M)個(gè)匹配值較高的法官作為案件的推薦法官。

3 實(shí)驗(yàn)與結(jié)果

為了驗(yàn)證本文方法的高效性和有效性,在相同數(shù)據(jù)集下將本文分案方法和傳統(tǒng)分案方法、傳統(tǒng)機(jī)器學(xué)習(xí)算法和深度學(xué)習(xí)方法進(jìn)行了實(shí)驗(yàn)對比分析。通過改變參數(shù)ε的值來改變法官表示的組成特征,分析ε對結(jié)果的影響。

3.1 實(shí)驗(yàn)數(shù)據(jù)

實(shí)驗(yàn)數(shù)據(jù)來源于貴州省某法院的買賣合同糾紛和民間借貸糾紛兩類案件。本文抽取2016—2019年間買賣合同糾紛案件(共2096個(gè))和民間借貸糾紛案件(共3110個(gè))作為實(shí)驗(yàn)原始數(shù)據(jù)。數(shù)據(jù)質(zhì)量在很大程度上會(huì)影響模型的訓(xùn)練效果,本文首先對5206個(gè)案件卷宗數(shù)據(jù)進(jìn)行預(yù)處理。首先,刪除數(shù)據(jù)源中的傳票、通知書等圖片數(shù)據(jù)以及非判決書文本數(shù)據(jù);其次,根據(jù)關(guān)鍵字正則匹配提取案件案情描述,刪除無法有效提取案情的案件;最后,利用哈爾濱工業(yè)大學(xué)的語言技術(shù)平臺(tái)(language technology platform,LTP)對案情要素進(jìn)行分析處理,將“公訴機(jī)關(guān)指控”等詞語以及人名、車牌號(hào)、電話號(hào)碼、地名等歸一化。經(jīng)過清洗,數(shù)據(jù)中涉及法官18個(gè),共有案件1546個(gè),其中民間借貸糾紛案件1114個(gè),買賣合同糾紛案件432個(gè)。每個(gè)案件只有一個(gè)審判法官。

本文的研究目標(biāo)是將案件分配給更擅長審判此類案件的法官。抽取案情事實(shí)描述表示案件。為了保證分案結(jié)果具有實(shí)際意義以及防止實(shí)驗(yàn)出現(xiàn)過擬合問題。生成數(shù)據(jù)集時(shí),首先將案件按8∶1∶1切分成訓(xùn)練集、驗(yàn)證集以及測試集。接著,在切分得到的訓(xùn)練集案件下,按照第2.1節(jié)的審判質(zhì)量權(quán)重計(jì)算方法計(jì)算審判質(zhì)量權(quán)重,通過比較兩類案件的審判質(zhì)量權(quán)重,得到法官擅長審判和不擅長審判的案件類型。通過設(shè)置參數(shù)的值,得到法官表示?;诖?,利用不同部分的案件對應(yīng)構(gòu)建三元組數(shù)據(jù)數(shù)據(jù)集。在數(shù)據(jù)集中,保證每一個(gè)案件的審判法官都是擅長審判此類案件的法官。數(shù)據(jù)集情況見表1。

表1 數(shù)據(jù)集情況

3.2 評價(jià)指標(biāo)

本文的實(shí)驗(yàn)?zāi)繕?biāo)是給案件推薦N個(gè)法官。采用正確率ACC作為實(shí)驗(yàn)結(jié)果的評價(jià)指標(biāo)。正確率的大小取決于推薦法官的個(gè)數(shù),推薦法官個(gè)數(shù)越多,正確率越高。正確率的計(jì)算方法如下:

其中,Z表示測試集案件的個(gè)數(shù),count表示在測試集中為每一個(gè)案件推薦的N個(gè)法官中包含該案件的原審法官的案件個(gè)數(shù),這里Z恒等于156。在生成數(shù)據(jù)集時(shí)保證了原審法官一定擅長審判此案件。count的值由N的大小決定。N越大,推薦法官個(gè)數(shù)越多,那么推薦法官中包含原審法官的可能性就越大。

3.3 本文分案方法的實(shí)驗(yàn)結(jié)果

本文基于Triplet CNN在N為1、3、5、7時(shí)進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表2。

從表2可以看出,只推薦1個(gè)法官的正確率只有86.54%。隨著推薦法官個(gè)數(shù)的增多,正確率逐漸增大,當(dāng)推薦法官個(gè)數(shù)為7時(shí),正確率已經(jīng)高達(dá)98.72%。這證明了本文的法官推薦方法是高效并且高精準(zhǔn)度的,融合審判質(zhì)量的法官表示方法確實(shí)能很好地體現(xiàn)法官擅長領(lǐng)域信息。根據(jù)第2.1節(jié)和第2.2節(jié)可知,這樣的結(jié)果是合理的。因?yàn)槿魏我粋€(gè)案件只有一個(gè)法官擅長,針對每個(gè)案件,只有一個(gè)法官的匹配度最高。當(dāng)N逐漸增大時(shí),推薦法官中包含原審法官的概率隨之增大,正確率自然越高。

表2 本文方法實(shí)驗(yàn)結(jié)果

3.4 本文方法與傳統(tǒng)分案方法的實(shí)驗(yàn)對比分析

目前我國法院系統(tǒng)中的分案方法主要為簡單隨機(jī)分案。在實(shí)踐中,簡單隨機(jī)分案方法主要為搖號(hào)分案和均衡分案兩種分案方法。搖號(hào)分案指將法院所有法官編號(hào),每個(gè)法官的編號(hào)都是唯一的。法院接收到新的案件后,利用計(jì)算機(jī)程序隨機(jī)產(chǎn)生一個(gè)號(hào)碼,號(hào)碼對應(yīng)的法官就是程序?yàn)榘讣峙涞姆ü?。均衡分案是在搖號(hào)分案的基礎(chǔ)上,增加保證每個(gè)法官在一段時(shí)間內(nèi)的承辦案件數(shù)量基本相等這一約束條件,即每次分案優(yōu)先將案件分給現(xiàn)有案件承辦數(shù)較少的法官。本文在同一數(shù)據(jù)集上對搖號(hào)分案和均衡分案方法進(jìn)行了實(shí)驗(yàn)。本文方法與傳統(tǒng)分案方法的實(shí)驗(yàn)結(jié)果對比見表3。

實(shí)驗(yàn)時(shí),在任何一個(gè)N值下,搖號(hào)分案和均衡分案都做100組實(shí)驗(yàn),然后計(jì)算平均值得到該N值下的正確率。從表3可以看出,搖號(hào)分案在推薦Top1法官時(shí),正確率只有5.40%。這是合理的。因?yàn)閾u號(hào)分案是不考慮法官擅長領(lǐng)域和案件信息的完全隨機(jī)分案,本文實(shí)驗(yàn)數(shù)據(jù)中有18個(gè)法官,每次隨機(jī)分配正確的概率只有十八分之一,即正確率只有5.56%左右。由此可知,本文的實(shí)驗(yàn)結(jié)果是擬合于實(shí)際結(jié)果的。同樣,均衡分案本質(zhì)上也是隨機(jī)分案,它的實(shí)驗(yàn)結(jié)果與搖號(hào)分案相差不大。但均衡分案增加了在一段時(shí)間內(nèi)保證每個(gè)法官承辦的案件數(shù)量基本相等這一約束條件,因此其正確率稍高一點(diǎn)。

從表3可以看出,本文方法的實(shí)驗(yàn)結(jié)果明顯優(yōu)于傳統(tǒng)分案方法。在Top1時(shí),本文方法推薦法官的精準(zhǔn)度比搖號(hào)分案和均衡分案高80%以上。這一實(shí)驗(yàn)結(jié)果證明使用本文分案方法不僅可以實(shí)現(xiàn)案件的自動(dòng)分配,還能顯著提高案件分配的精準(zhǔn)度,實(shí)現(xiàn)人案相適。

表3 本文方法與傳統(tǒng)分案方法的實(shí)驗(yàn)結(jié)果對比

3.5 本文方法與機(jī)器學(xué)習(xí)算法的實(shí)驗(yàn)對比分析

為了進(jìn)一步驗(yàn)證本文方法的有效性,本文另選取TF-IDF以及BM25算法獲取案件和法官特征向量,結(jié)合余弦相似度計(jì)算案件和法官的匹配度,并對匹配度進(jìn)行排序,從而實(shí)現(xiàn)分案。本文在同一數(shù)據(jù)集上進(jìn)行對應(yīng)的實(shí)驗(yàn),分案結(jié)果見表4。通過實(shí)驗(yàn)發(fā)現(xiàn),本文方法的性能明顯優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)算法。BM25算法是改進(jìn)的TF-IDF算法,TF-IDF是根據(jù)詞在文本中的重要度來獲取文本特征表示的,TF值在理論上可以無限大,但BM25算法在TF計(jì)算方法中增加了常量以限制TF值的增長極限,并且考慮了文檔長度,因此BM25算法對文檔的表征能力要優(yōu)于TF-IDF算法。本文使用卷積神經(jīng)網(wǎng)絡(luò)從多角度捕捉文本特征,卷積神經(jīng)網(wǎng)絡(luò)考慮了詞的上下文信息,對文本的表征能力明顯優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)算法。

表4 本文方法與機(jī)器學(xué)習(xí)算法的實(shí)驗(yàn)結(jié)果對比

3.6 本文方法與深度學(xué)習(xí)方法的實(shí)驗(yàn)對比分析

本組實(shí)驗(yàn)在同一數(shù)據(jù)集情況下,將本文方法與現(xiàn)有常用的深度學(xué)習(xí)方法進(jìn)行比較,實(shí)驗(yàn)結(jié)果見表5?;鶞?zhǔn)模型如下。

表5 本文方法與深度學(xué)習(xí)方法的實(shí)驗(yàn)結(jié)果對比

● Triplet Bi-LSTM(Tri-BiLSTM):利用Bi-LSTM獲取案件和法官的特征表示,設(shè)置最大序列長度為512。

● Triplet BERT(Tri-BERT):利用BERT獲取案件和法官的特征表示,設(shè)置最大序列長度為512。

● Triplet AlBERT(Tri-ALBERT)[24]:該模型是谷歌提出的基于BERT的改進(jìn)模型,本文利用該模型獲取案件和法官的特征表示,設(shè)置最大序列長度為512。

由表5可知,在Top1下本文方法的分案效果優(yōu)于其他方法。BERT及ALBERT都是大規(guī)模語料的預(yù)訓(xùn)練模型,預(yù)想對文本的表征能力應(yīng)該優(yōu)于CNN。但通過對裁判文書數(shù)據(jù)的分析,案件的案情文本長度大多在1500以上,個(gè)別案情文本長度甚至超過3000,而BERT能接收的最大序列長度為512,因此用BERT模型獲取案情文本特征表示時(shí)會(huì)丟失較多語義信息。并且根據(jù)裁判文書的書寫規(guī)范,案情事實(shí)描述通常以“公訴機(jī)關(guān)指控”“某某地某某區(qū)檢察院指控”“經(jīng)審理查明”等固定短語開頭,以“上述事實(shí),有公訴機(jī)關(guān)當(dāng)庭出示,并經(jīng)庭審質(zhì)證的被告人MM在公安機(jī)關(guān)的供述及戶籍證明,xxx等證據(jù)證實(shí),足以認(rèn)定”等固定句式結(jié)尾。由此可以看出,案情的關(guān)鍵信息應(yīng)集中在案情文本的中間部分,而不是案情描述的開頭和結(jié)尾,而BERT的序列長度約定使其提取的關(guān)鍵信息受到限制,從而在分案效果上不如基于CNN的分案方法。另外,預(yù)想LSTM的表現(xiàn)能力應(yīng)該優(yōu)于CNN。根據(jù)上述分析,雖然LSTM能捕捉序列的長距離依賴關(guān)系,但由于案情文本長度過長,LSTM的循環(huán)機(jī)制決定其對較長文本的特征提取更關(guān)注序列的末尾,而案情描述結(jié)尾的內(nèi)容不能較好地體現(xiàn)案情信息,故本文方法是優(yōu)于基于LSTM的分案方法的。

3.7 參數(shù)ε對實(shí)驗(yàn)結(jié)果的影響

從第2.1節(jié)可知,構(gòu)成法官表示的案情特征是由參數(shù)ε決定的。隨著ε的變化,構(gòu)成法官表示的案情事實(shí)描述可能有部分或全部是法官審判質(zhì)量較低的案件類型?;诒疚哪P停WC模型參數(shù)設(shè)置不變,本文在參數(shù)ε=1.0、0.5、0.1下分別進(jìn)行了實(shí)驗(yàn)。當(dāng)ε=1.0時(shí),構(gòu)成法官表示的案件都屬于審判質(zhì)量較高的案件類別。當(dāng)ε=0.5時(shí),構(gòu)成法官表示的案件個(gè)數(shù)中有50%從其審判質(zhì)量較高的案件類別中隨機(jī)選擇,另外50%從其案件審判質(zhì)量較低的案件類別中隨機(jī)選擇。同樣,當(dāng)ε=0.1時(shí),構(gòu)成法官表示的案件個(gè)數(shù)中有10%從其審判質(zhì)量較高的案件類別中隨機(jī)選擇,另外90%從其案件審判質(zhì)量較低的案件類別中隨機(jī)選擇。不同參數(shù)值下本文方法的實(shí)驗(yàn)結(jié)果見表6。

從表6可以看出,在ε=1、0.5、0.1情況下,ε=1時(shí)實(shí)驗(yàn)效果最好。這一實(shí)驗(yàn)結(jié)果表明,用法官審判質(zhì)量較高的案件來表示法官能更好地體現(xiàn)法官擅長的領(lǐng)域信息,用CNN提取法官表示特征,能實(shí)現(xiàn)更加精準(zhǔn)的分案。隨著ε的變化,構(gòu)成法官表示的特征也發(fā)生變化。若法官表示中包含其審判質(zhì)量較低的案件,會(huì)導(dǎo)致CNN提取的抽象語義特征向量不能很好地突出法官擅長的領(lǐng)域,無法更精準(zhǔn)地匹配案件,最終導(dǎo)致正確率降低。

表6 不同參數(shù)值下本文方法的實(shí)驗(yàn)結(jié)果

4 結(jié)束語

筆者希望打破法院系統(tǒng)中傳統(tǒng)人定分案的局面,解決人為干擾案件分配、人案不適、人情案等問題,探索一種以人案相適為目標(biāo)的輔助分案方法。本文提出了一種融合案件審判質(zhì)量的法官表示方法,利用法官審判質(zhì)量較高的案件語義特征,綜合反映法官擅長的審判領(lǐng)域,從而在法官表示中融合法官擅長領(lǐng)域的抽象語義信息。用案情事實(shí)描述表示案件。采用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)案件表示和法官表示中不同粒度的抽象語義特征表征向量,計(jì)算案件和多個(gè)法官的表征向量間的余弦相似度,用向量相似度表示案件與法官的匹配度,輸出前N個(gè)匹配值較高的法官作為案件的推薦法官。該方法可為案件推薦擅長審判此類型案件的法官,實(shí)現(xiàn)專案專辦,形成專業(yè)化辦案模式,避免關(guān)系案、金錢案等弊端,提高辦案質(zhì)效。本文分案方法避免了在分案過程中的人為因素干擾,保證了分案過程留痕可查,促進(jìn)司法公開、公正。未來筆者將結(jié)合繁簡分流思想進(jìn)行分案,并擬融合推薦系統(tǒng)方法,以取得更好的分案效果。

猜你喜歡
審判卷積語義
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測定
真實(shí)場景水下語義分割方法及數(shù)據(jù)集
審判執(zhí)行不停擺 公平正義不止步
Chapter 20 Extreme torment 第20章 極度懲罰
一種基于卷積神經(jīng)網(wǎng)絡(luò)的地磁基準(zhǔn)圖構(gòu)建方法
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
一種并行不對稱空洞卷積模塊①
“五個(gè)到位”推動(dòng)未成年人案件審判試點(diǎn)工作
“吃+NP”的語義生成機(jī)制研究
漢語依憑介詞的語義范疇
弋阳县| 商洛市| 清水县| 同德县| 上蔡县| 宽城| 枝江市| 图木舒克市| 罗甸县| 沁源县| 江阴市| 茂名市| 云安县| 金平| 新沂市| 阳高县| 天镇县| 巴里| 甘德县| 富阳市| 吉安县| 交口县| 加查县| 望城县| 新巴尔虎左旗| 正阳县| 道真| 黄石市| 宝坻区| 如东县| 东山县| 综艺| 章丘市| 儋州市| 贵定县| 神木县| 台北县| 兰坪| 商洛市| 浦北县| 额济纳旗|