曹重陽,楊品莉
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)
由于司法領(lǐng)域中各種司法文件種類繁多、數(shù)量巨大、案件復(fù)雜等特點(diǎn),司法信息自動(dòng)化已經(jīng)迫在眉睫。司法信息自動(dòng)化有助于實(shí)現(xiàn)司法信息共享[1],完善司法業(yè)務(wù)流程,優(yōu)化司法系統(tǒng),極大地提高相關(guān)從業(yè)人員工作效率。
近年來,深度學(xué)習(xí)加持下的自然語言處理技術(shù)得到了迅猛發(fā)展,其中越來越多的相關(guān)技術(shù),例如實(shí)體識(shí)別[2]、知識(shí)圖譜[3]等被運(yùn)用到司法領(lǐng)域,這極大促進(jìn)了司法信息自動(dòng)化,提高了司法領(lǐng)域的發(fā)展。法律案例文本中存在大量司法領(lǐng)域?qū)嶓w,例如“張三”、“安徽省人民法院”、案卷編號(hào)、犯罪類型等,這些司法領(lǐng)域?qū)嶓w的準(zhǔn)確識(shí)別是后續(xù)實(shí)現(xiàn)司法事件抽取,構(gòu)建司法領(lǐng)域知識(shí)圖譜等技術(shù)的前提。
命名實(shí)體識(shí)別(NER)的任務(wù)是在句子中找到一個(gè)實(shí)體的開始和結(jié)束,并為這個(gè)實(shí)體指定一個(gè)類。由于命名實(shí)體識(shí)別在問題生成[4]、關(guān)系提取[5]和參考文獻(xiàn)分辨率[6]方面的潛在幫助,命名實(shí)體識(shí)別在自然語言處理領(lǐng)域得到了廣泛研究。命名實(shí)體識(shí)別通常被看作是一個(gè)序列標(biāo)注任務(wù),神經(jīng)模型通常包含三個(gè)部分:詞嵌入層、上下文編碼器層和解碼器層[10-12],不同命名實(shí)體識(shí)別模型之間的差異主要體現(xiàn)在這三層。命名實(shí)體識(shí)別的方法大致可以分為有監(jiān)督、半監(jiān)督、無監(jiān)督和混合方法幾種。有監(jiān)督的實(shí)體識(shí)別方法:數(shù)量巨大的已標(biāo)注語料庫作為模型的輸入,比較流行的方法有隱馬爾可夫模型、最大熵模型、支持向量機(jī)、決策樹和條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)等,其中,基于CRFs的模型在實(shí)體識(shí)別任務(wù)上獲得了比較好了效果。半監(jiān)督的實(shí)體識(shí)別方法:數(shù)據(jù)規(guī)模小的已標(biāo)注的小數(shù)據(jù)集(種子數(shù)據(jù))作為模型的輸入,讓模型自舉學(xué)習(xí)數(shù)據(jù)的內(nèi)在結(jié)構(gòu),大體思路是使用大量的無標(biāo)注語料庫訓(xùn)練了一個(gè)雙向神經(jīng)網(wǎng)絡(luò)語言模型,然后使用這個(gè)訓(xùn)練好的語言模型來獲取當(dāng)前要標(biāo)注詞的語言模型向量,然后將該向量作為特征加入到原始的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)模型中。無監(jiān)督的實(shí)體識(shí)別方法:利用詞匯資源(如WordNet)等進(jìn)行上下文聚類。近年來,算力得到不斷提升,各種神經(jīng)模型被引入命名實(shí)體識(shí)別以避免手工制作的特征[7-9],基于深度學(xué)習(xí)的命名實(shí)體識(shí)別方法也展現(xiàn)出很高的識(shí)別準(zhǔn)確率,此類方法無需大量人工特征,只需詞向量和字符向量便可以產(chǎn)生很不錯(cuò)的識(shí)別性能,若再加入高質(zhì)量的詞典特征可以是性能更強(qiáng)。此類方法主要思路是把實(shí)體識(shí)別等價(jià)為一個(gè)序列標(biāo)注任務(wù),比較經(jīng)典的是GRUCRF(Gated Recurrent Unit,GRU)和BiLSTM-CRF[13]等RNN模型。
最近,Transformer[14]開始在各種NLP任務(wù)中盛行,如機(jī)器翻譯[14]、語言建模[15]和預(yù)訓(xùn)練模型[16]。Transform?er Encoder采用全連接的自我注意結(jié)構(gòu)對(duì)遠(yuǎn)程上下文進(jìn)行建模,這是RNNs的缺點(diǎn)。此外,Transformer比RNNs具有更充分利用GPUs并行計(jì)算的能力。然而,在命名實(shí)體識(shí)別任務(wù)中,Transformer Encoder已經(jīng)被報(bào)告表現(xiàn)不佳[17],因?yàn)樗炔桓兄嚯x,又不感知方向。這個(gè)問題在司法裁定書的實(shí)體識(shí)別任務(wù)中更為嚴(yán)重。如圖1所示,觀察裁定書發(fā)現(xiàn):“審判長(zhǎng)、審判員”的后面一般是姓名,“罪犯”的后面一般是姓名,“犯”的后面一般是犯罪類型等;此外詞與詞之間的距離也很重要,因?yàn)橹挥羞B續(xù)的文字才能形成一個(gè)實(shí)體,每個(gè)實(shí)體之間是有間隔的??傊瑢?shí)體方向和實(shí)體距離對(duì)司法實(shí)體識(shí)別任務(wù)十分重要。
圖1 裁定書標(biāo)記文本
基于此,本文提出一種距離感知和方向感知的Transformer Encoder模型(DDATE)用于司法領(lǐng)域?qū)嶓w識(shí)別系統(tǒng),實(shí)驗(yàn)表明這種距離感知和方向感知是十分有效的。此外本文不僅使用DDATE建模詞級(jí)上下文,還使用它建模字符級(jí)特征。字符編碼器不但能夠有效捕獲字符級(jí)特征,而且減緩了OOV問題[8-9,18]。在命名實(shí)體識(shí)別中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)被廣泛作為字符編碼器[11,19],其有限的感受野限制了字符編碼能力[17],而DDATE作為字符編碼器能夠感知長(zhǎng)程上下文且更高效的利用GPUs的并行計(jì)算。本文的總體流程圖如圖2所示,首先對(duì)司法案例文本進(jìn)行規(guī)范格式和去除空格等操作,把已標(biāo)記文本作為實(shí)驗(yàn)數(shù)據(jù)集并輸入模型,不同的模型在合理的實(shí)驗(yàn)配置下分別進(jìn)行訓(xùn)練后,對(duì)比各個(gè)模型的實(shí)體識(shí)別效果。綜上所述,本文利用DDATE對(duì)字符級(jí)特征和字級(jí)特征進(jìn)行建模,在合理的實(shí)驗(yàn)配置下,與基于BiLSTM-CRF模型和普通Transformer模型相比,DDATE大大提升了司法實(shí)體識(shí)別的性能。
圖2 司法領(lǐng)域?qū)嶓w識(shí)別流程
本文利用DDATE進(jìn)行裁定書的實(shí)體識(shí)別,整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 DDAFE模型
為了緩解數(shù)據(jù)稀疏性和OOV的問題,大多數(shù)NER模型采用了CNN字符編碼器。由于Transformer能充分利用GPU的并行性,且具有不同感受野和提取不連續(xù)字符的特征的能力,因此將Transformer作為字符編碼器是一項(xiàng)很有意義的工作。最終的詞嵌入是前訓(xùn)練的詞嵌入和字符編碼器提取的特征的合并。
Transformer在2017年被Vaswani提出[14],它在各種NLP任務(wù)中取得了巨大的成功。Transformer Encoder首先接受一個(gè)矩陣H∈Rl×d,其中l(wèi)是序列長(zhǎng)度,d是輸入維度。然后三個(gè)大小為Rl×dk的可學(xué)習(xí)矩陣Wq,Wk,Wv與H相乘分別得到Q,K,V,其中dk是超參數(shù),公式如下:
其中Qt是第t個(gè)token的query向量,j是上下文token的下標(biāo)。Kj是第j個(gè)token的key向量,當(dāng)使用多組Wq,Wk,Wv時(shí),稱為多頭自注意力,其計(jì)算公式為:
其中n是head個(gè)數(shù),h是head索引,通常dk×n=d,所以的大小為WO的大小為Rd×d。多頭注意力的輸出被前饋網(wǎng)絡(luò)進(jìn)一步處理,可以表示為:
其中W1∈Rd×dff,W2∈Rdff×d,b1∈Rdff,b2∈Rd是可學(xué)習(xí)參數(shù),dff是超參數(shù)。Transformer Encoder的其他組件還有層歸一化和殘差連接。
由于Transformer中使用的自注意力機(jī)制不感知距離,為了避免這一不足,文獻(xiàn)[14]使用了正弦位置嵌入,第t個(gè)token的位置嵌入可以用如下公式表示:
因此,為了使Transformer具有距離感知和方向感知的屬性,提升司法實(shí)體識(shí)別的準(zhǔn)確率,本文基于文獻(xiàn)[17,20-21],改進(jìn)的注意力的公式如下:
其中t是目標(biāo)token的索引,j是上下文token的索引。為了得到Hdk∈Rl×dk,首先在第二維分割H為d/dk個(gè)部分,然后每個(gè)head使用一部分。u∈Rdk,v∈Rdk是可學(xué)習(xí)參數(shù)。Rt-j∈Rdk是相關(guān)位置編碼,是兩個(gè)token的注意力分?jǐn)?shù),是第t個(gè)token在某一相對(duì)位置上的偏置,是第j個(gè)token的偏置是某一距離和方向上的偏置。
本文為了減少參數(shù)量,沒有使用Wk,避免了兩個(gè)可學(xué)習(xí)參數(shù)的直接相乘,因?yàn)樗鼈兛梢杂靡粋€(gè)可學(xué)習(xí)參數(shù)表示。多頭注意力仍然利用公式(6)。如圖3所示,上述改進(jìn)的能夠感知距離和方向的Transformer En?coder既被作為字符編碼器,又被作為詞編碼器。
為了利用不同標(biāo)簽之間的依賴關(guān)系,所提出的模型和所有對(duì)比實(shí)驗(yàn)的模型均使用了條件隨機(jī)場(chǎng)。給定序列,金標(biāo)準(zhǔn)標(biāo)簽,所有的有效標(biāo)簽序列的可能性計(jì)算公式如下:
把裁判文書網(wǎng)下載的1000份裁定書作為本文的數(shù)據(jù)集,主要包括減刑案件、假釋案件以及暫予監(jiān)外案件三種案件的裁判文書,隨機(jī)將其分為6:2:2,分別作為訓(xùn)練集、驗(yàn)證集和測(cè)試集。首先進(jìn)行文本處理,將1000份裁判文書規(guī)范格式,去掉空格;然后標(biāo)記標(biāo)簽,利用語料標(biāo)注工具YDEEA將裁定書標(biāo)記為BIO字標(biāo)簽形式,標(biāo)記好文本后讓法學(xué)專家進(jìn)行修改和完善。如表1所示,本實(shí)驗(yàn)定義了5類實(shí)體類別:姓名、地點(diǎn)、司法單位、案卷編號(hào)、犯罪類型,即11類字標(biāo)簽。
表1 BIO字標(biāo)簽類別
在實(shí)體識(shí)別任務(wù)上,最常用的指標(biāo)為F1值(F-measure),為了和對(duì)比實(shí)驗(yàn)進(jìn)行充分評(píng)估,本文還采用準(zhǔn)確率(precision)、召回率(recall)作為評(píng)價(jià)指標(biāo)。三個(gè)評(píng)價(jià)指標(biāo)的計(jì)算公式如下所示:
所有實(shí)驗(yàn)環(huán)境由存儲(chǔ)空間為8GB的NVIDIA RTX 2070 GPU和PyTorch 1.3框架實(shí)現(xiàn)。實(shí)驗(yàn)中使用的超參數(shù)的設(shè)置如表2所示。
表2 訓(xùn)練BiLSTM-CRF模型參數(shù)設(shè)置
2.4.1 BiLSTM-CRF
長(zhǎng)短期記憶模型(LSTM)改進(jìn)了RNN的長(zhǎng)度依賴問題,能夠獲取任意長(zhǎng)度的上下文特征信息。BiLSTM[18]模型由前向LSTM模型和后向LSTM模型組成,可以得到雙向的語義信息。本文實(shí)現(xiàn)了BiLSTM-CRF模型,其實(shí)驗(yàn)結(jié)果如圖4和表3所示。
表3 不同模型的評(píng)價(jià)指標(biāo)比較
圖4 不同模型的評(píng)價(jià)指標(biāo)比較
2.4.2 GRU-CRF
門控循環(huán)單元(GRU)是LSTM的變體,它較LSTM網(wǎng)絡(luò)的結(jié)構(gòu)更加簡(jiǎn)單,只留下能夠分別獲取序列中長(zhǎng)距離依賴關(guān)系和斷距離依賴關(guān)系的更新門和重置門,文也實(shí)現(xiàn)了GRU-CRF模型。如表3和圖4所示,在三個(gè)評(píng)價(jià)指標(biāo)上,所提出的模型DDATE與BiLSTMCRF和GRU-CRF模型相比,實(shí)體識(shí)別性能提升明顯。在F1值、召回率和準(zhǔn)確率上,DDATE比BiLSTMCRF模型大約分別提升0.6、0.5、0.6。
2.4.3 Transformer-CRF
所提出的模型DDATE是在Transformer Encoder的基礎(chǔ)上進(jìn)行改進(jìn)的,本文在合理的實(shí)驗(yàn)配置下,讓普通的Transformer也用于字符編碼器和詞編碼器。如表3和圖4所示,在F1值和召回率評(píng)價(jià)指標(biāo)上,Trans?former-CRF模型高于基于RNNs的模型。但卻與所提出的模型DDATE有較大差距。
根據(jù)表3,DDATE模型的F1值為0.928,召回率為0.914,準(zhǔn)確率為0.941,表明本文所提出的方法具有很好的司法實(shí)體識(shí)別性能。
圖5 是減刑、假釋以及暫予監(jiān)外的裁判文書中的姓名、地點(diǎn)、司法單位、案卷編號(hào)、犯罪類型等5類實(shí)體進(jìn)行識(shí)別的F1值??梢娫诓门形臅胁煌瑢?shí)體類型的識(shí)別中,DDATE模型的實(shí)體識(shí)別性能均優(yōu)于Trans?former-CRF模型。此外發(fā)現(xiàn)司法單位這類實(shí)體的評(píng)價(jià)指標(biāo)比較低,這可能是由于司法單位實(shí)體在裁判文書的位置比較復(fù)雜,其前后文字變化較大,這影響了基于Transformers模型的實(shí)體識(shí)別性能。
圖5 所提出的模型對(duì)不同實(shí)體識(shí)別的性能比較
本文所提出的DDATE模型用于司法領(lǐng)域?qū)嶓w識(shí)別系統(tǒng),使該系統(tǒng)能在法學(xué)專家的容忍下,準(zhǔn)確的識(shí)別出減刑案件,假釋案件及暫予監(jiān)外案件的裁判文書中的姓名、司法單位、地點(diǎn)、案卷編號(hào)、犯罪類型等實(shí)體,優(yōu)化司法業(yè)務(wù)系統(tǒng),極大地提高相關(guān)從業(yè)人員的工作效率,為實(shí)現(xiàn)司法信息自動(dòng)化,研究司法事件抽取,構(gòu)建司法領(lǐng)域知識(shí)圖譜打下了基礎(chǔ)。
該實(shí)體識(shí)別系統(tǒng)也存在一些待改進(jìn)的地方,例如可以通過增加語料,實(shí)現(xiàn)更多司法實(shí)體類別如法條的識(shí)別;還可以通過細(xì)分實(shí)體類別,如姓名類進(jìn)一步分出被告人,來獲得更準(zhǔn)確的實(shí)體識(shí)別結(jié)果。接下來將融合公共數(shù)據(jù)集與司法領(lǐng)域的數(shù)據(jù)集來訓(xùn)練模型,這在一定程度上,能有助于模型識(shí)別更多的重要實(shí)體和提升司法領(lǐng)域?qū)嶓w識(shí)別的性能。此外,可以發(fā)現(xiàn)圖5中的司法單位這類實(shí)體識(shí)別指標(biāo)低于其他實(shí)體,這是由于如果某類實(shí)體在裁判文書中的前后文字的改變幅度大,基于Transformers的模型受長(zhǎng)程上下文的影響,使該類實(shí)體識(shí)別性能下降,這是基于Transformers的模型與生俱來的瓶頸。DDATE雖然能夠感知到裁判文書中文字的距離和方向,大大提高了司法實(shí)體識(shí)別的性能,卻逃脫不了這種瓶頸屬性。因此,下一步將繼續(xù)改進(jìn)Transformers結(jié)構(gòu),使其能對(duì)實(shí)體周圍的文字進(jìn)行權(quán)重優(yōu)化,進(jìn)一步提升司法領(lǐng)域?qū)嶓w識(shí)別系統(tǒng)的性能。