国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向法律文本的三元組抽取模型

2021-05-17 05:31:24陳彥光孫媛媛王治政張書(shū)晨
計(jì)算機(jī)工程 2021年5期
關(guān)鍵詞:三元組實(shí)體樣本

陳彥光,王 雷,孫媛媛,王治政,張書(shū)晨

(1.大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024;2.遼寧省人民檢察院第三檢察部,沈陽(yáng) 110033)

0 概述

隨著中國(guó)司法信息的不斷公開(kāi)化,最高人民法院生效裁判文書(shū)全部在中國(guó)裁判文書(shū)網(wǎng)上公布,除法律有特殊規(guī)定的以外。在中國(guó)裁判文書(shū)網(wǎng)上的大量開(kāi)源刑事判決書(shū)文檔中蘊(yùn)藏著重要的法律信息,但對(duì)于這些通過(guò)自然語(yǔ)言形式記錄的刑事判決書(shū)文檔,機(jī)器無(wú)法直接進(jìn)行深層含義的理解,而自動(dòng)化信息提取技術(shù)能將非結(jié)構(gòu)化的自然語(yǔ)言文本轉(zhuǎn)化為結(jié)構(gòu)化的三元組形式,挖掘出文本中具有一定潛藏價(jià)值的內(nèi)容,并通過(guò)命名實(shí)體識(shí)別(Named Entity Recognition,NER)和關(guān)系抽取將非結(jié)構(gòu)化的刑事判決書(shū)文本處理為結(jié)構(gòu)化的三元組。刑事判決書(shū)中的案件事實(shí)描述文本s被表示為多個(gè)<e1,r,e2>三元組的形式,其中,e1和e2分別表示三元組的頭實(shí)體和尾實(shí)體,r表示兩個(gè)實(shí)體之間的關(guān)系類(lèi)型[1]。

知識(shí)圖譜以結(jié)構(gòu)化的形式表示知識(shí),通過(guò)對(duì)非結(jié)構(gòu)化文本中難以理解的信息進(jìn)行挖掘與分析,提高非結(jié)構(gòu)化文本的查詢(xún)性能及可解釋性,通常作為搜索引擎、問(wèn)答系統(tǒng)等實(shí)際應(yīng)用中的底層支撐技術(shù)。目前,知識(shí)圖譜的相關(guān)研究受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,研究人員提出了許多知識(shí)圖譜構(gòu)建方法,但構(gòu)建出的知識(shí)圖譜多數(shù)面向通用領(lǐng)域,其中三元組抽取是知識(shí)圖譜構(gòu)建過(guò)程中的關(guān)鍵步驟。本文提出一個(gè)面向法律文本的三元組抽取模型,對(duì)非結(jié)構(gòu)化的案件事實(shí)描述文本進(jìn)行結(jié)構(gòu)化表示。將三元組的抽取過(guò)程看作二階段流水線(xiàn)結(jié)構(gòu),先進(jìn)行命名實(shí)體識(shí)別,再將識(shí)別結(jié)果應(yīng)用于關(guān)系抽取階段得到相應(yīng)的三元組表示。

1 相關(guān)工作

非結(jié)構(gòu)化文本中的三元組抽取可分為命名實(shí)體識(shí)別和關(guān)系抽取兩個(gè)階段。命名實(shí)體識(shí)別用于提取文本中具有特定含義的實(shí)體短語(yǔ),如人名、地名以及專(zhuān)有名詞等。關(guān)系抽取對(duì)于文本中給定的實(shí)體對(duì),通過(guò)上下文語(yǔ)義理解識(shí)別出實(shí)體之間的關(guān)系類(lèi)型。

早期的命名實(shí)體識(shí)別工作主要包括基于規(guī)則和詞典的命名實(shí)體識(shí)別方法與基于統(tǒng)計(jì)的命名實(shí)體識(shí)別方法?;谝?guī)則和詞典的命名實(shí)體識(shí)別方法需要語(yǔ)言學(xué)專(zhuān)家和領(lǐng)域?qū)W者歸納規(guī)則模板和領(lǐng)域詞典,通過(guò)匹配算法完成命名實(shí)體識(shí)別?;诮y(tǒng)計(jì)的命名實(shí)體識(shí)別方法學(xué)習(xí)標(biāo)注語(yǔ)料的訓(xùn)練過(guò)程并分析文本的語(yǔ)言特征,主要包括基于支持向量機(jī)(Support Vector Machine,SVM)的命名實(shí)體識(shí)別方法[2]、基于隱馬爾科夫模型(Hidden Markov Model,HMM)的命名實(shí)體識(shí)別方法[3]以及基于條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)的命名實(shí)體識(shí)別方法[4]等。但這些早期工作對(duì)特征選擇的要求較高,較大程度地依賴(lài)詞典以及特征工程。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,使用神經(jīng)網(wǎng)絡(luò)進(jìn)行命名實(shí)體識(shí)別的方法逐漸成為當(dāng)前中文命名實(shí)體識(shí)別的主要研究方向[5-7]。由于基于神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識(shí)別模型可以自動(dòng)化地學(xué)習(xí)文本特征,從而減少對(duì)手工特征的依賴(lài)。目前主流的用于命名實(shí)體識(shí)別的神經(jīng)網(wǎng)絡(luò)模型為雙向長(zhǎng)短期記憶網(wǎng)絡(luò)結(jié)合條件隨機(jī)場(chǎng)(Bidirectional Long Short-Term Memory+Condition Random Field,BiLSTM+CRF)。近些年,在司法領(lǐng)域,許多學(xué)者對(duì)基于法律文書(shū)的命名實(shí)體識(shí)別方法開(kāi)展了大量的相關(guān)研究工作[8-10]。

關(guān)系抽取工作一般可分為基于機(jī)器學(xué)習(xí)的關(guān)系抽取方法和基于深度學(xué)習(xí)的關(guān)系抽取方法?;跈C(jī)器學(xué)習(xí)的關(guān)系抽取方法將關(guān)系抽取轉(zhuǎn)化為分類(lèi)任務(wù),對(duì)兩個(gè)實(shí)體之間的關(guān)系類(lèi)型進(jìn)行預(yù)測(cè),該類(lèi)方法先整合詞性特征、實(shí)體類(lèi)型、句法依存關(guān)系以及WordNet 語(yǔ)義信息等語(yǔ)言學(xué)特征,再通過(guò)最大熵模型[11]、支持向量機(jī)模型[12-14]等基于統(tǒng)計(jì)模型的分類(lèi)器對(duì)關(guān)系進(jìn)行分類(lèi)。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,研究人員提出了許多基于深度學(xué)習(xí)的關(guān)系抽取方法,通過(guò)對(duì)輸入文本及實(shí)體位置信息等進(jìn)行向量化表示,利用神經(jīng)網(wǎng)絡(luò)模型自動(dòng)提取文本特征,預(yù)測(cè)實(shí)體對(duì)之間的關(guān)系類(lèi)型,主要包括基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法[15-17]、基于循環(huán)神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法[18-19]以及兩者相結(jié)合的關(guān)系抽取方法[20]。隨著自注意力機(jī)制研究的深入[21-22],一些學(xué)者將Transformer 架構(gòu)[23]應(yīng)用于關(guān)系抽取任務(wù),利用基于Transformer 的雙向編碼器表示(Bidirectional Encoder Representations from Transformer,BERT)[24]進(jìn)行關(guān)系抽?。?5]并取得了較好的效果。

近年來(lái),預(yù)訓(xùn)練語(yǔ)言模型研究發(fā)展迅速,基于上下文信息捕捉單詞的語(yǔ)義知識(shí),通過(guò)在大規(guī)模語(yǔ)料上進(jìn)行預(yù)訓(xùn)練,從而實(shí)現(xiàn)文本上下文相關(guān)特征的表示。在預(yù)訓(xùn)練語(yǔ)言模型研究中,一般通過(guò)特征集成和模型微調(diào)方式實(shí)現(xiàn)對(duì)預(yù)訓(xùn)練模型參數(shù)的遷移。特征集成方式將語(yǔ)言模型學(xué)習(xí)到的文本表示當(dāng)作下游任務(wù)的輸入特征進(jìn)行應(yīng)用,例如文獻(xiàn)[26]提出的ELMo 可在變化的語(yǔ)言語(yǔ)境下對(duì)詞進(jìn)行復(fù)雜特征建模。模型微調(diào)方式以整個(gè)預(yù)訓(xùn)練語(yǔ)言模型為基礎(chǔ),通過(guò)加入任務(wù)輸出部分并對(duì)整個(gè)模型參數(shù)進(jìn)行微調(diào)實(shí)現(xiàn)預(yù)訓(xùn)練模型的應(yīng)用,例如:文獻(xiàn)[24]提出的BERT 模型通過(guò)Transformer 編碼器堆疊而成,實(shí)現(xiàn)對(duì)文本的雙向特征表示,在11 項(xiàng)自然語(yǔ)言處理任務(wù)中取得了最佳成績(jī);文獻(xiàn)[27]提出的自回歸預(yù)訓(xùn)練模型XLNet,在多項(xiàng)自然語(yǔ)言處理任務(wù)中取得了明顯的性能提升。

2 司法三元組抽取模型

對(duì)于案件事實(shí)描述文本s,本文提出的司法三元組抽取模型能夠?qū)⑴c其具有等價(jià)語(yǔ)義的三元組以<e1,r,e2>的形式進(jìn)行預(yù)測(cè)。司法三元組抽取模型以BERT 預(yù)訓(xùn)練語(yǔ)言模型為基礎(chǔ),搭建一個(gè)二階段的流水線(xiàn)結(jié)構(gòu),主要包括實(shí)體識(shí)別模塊和關(guān)系抽取模塊兩部分。實(shí)體識(shí)別模塊用于對(duì)案件事實(shí)描述中具有特定含義的實(shí)體短語(yǔ)進(jìn)行定位和分類(lèi),關(guān)系抽取模塊旨在預(yù)測(cè)非結(jié)構(gòu)化文本中每一對(duì)實(shí)體之間的關(guān)系類(lèi)型。在關(guān)系抽取模塊中,為強(qiáng)調(diào)給定實(shí)體對(duì)的位置和內(nèi)容,借鑒文獻(xiàn)[1]工作,在文本表示中加入實(shí)體信息的整合過(guò)程。針對(duì)流水線(xiàn)結(jié)構(gòu)中的冗余實(shí)體對(duì)信息所造成的影響,通過(guò)加入實(shí)體對(duì)篩選過(guò)程以減少無(wú)用信息的累積,并在關(guān)系抽取模塊訓(xùn)練時(shí),在訓(xùn)練集中適當(dāng)增加負(fù)樣本,以增強(qiáng)模型魯棒性,本文提出兩種策略來(lái)完善關(guān)系抽取模塊的訓(xùn)練過(guò)程。此外,為進(jìn)行有監(jiān)督的模型訓(xùn)練以及驗(yàn)證模型在刑事判決書(shū)文本上的三元組抽取性能,本文以刑事判決書(shū)中的案件事實(shí)描述部分為數(shù)據(jù)基礎(chǔ),通過(guò)自然語(yǔ)言處理工具進(jìn)行機(jī)器粗標(biāo)與人工標(biāo)注相結(jié)合的方式,構(gòu)造一個(gè)面向涉毒類(lèi)刑事案件的實(shí)體關(guān)系提取數(shù)據(jù)集。

司法三元組抽取模型的整體架構(gòu)如圖1 所示,其中,wi表示輸入文本的向量化表示,hi表示經(jīng)過(guò)BERT模型編碼得到的上下文語(yǔ)義向量,N表示輸入序列長(zhǎng)度,Trm 表示BERT 模型中的Transformer 編碼器單元。司法三元組抽取模型針對(duì)涉毒類(lèi)案件刑事判決書(shū)文本進(jìn)行研究,通過(guò)實(shí)體識(shí)別模塊和關(guān)系抽取模塊,實(shí)現(xiàn)對(duì)涉毒類(lèi)刑事案件的結(jié)構(gòu)化三元組抽取。

圖1 司法三元組抽取模型的整體架構(gòu)Fig.1 The overall architecture of legal triplet extraction model

2.1 預(yù)訓(xùn)練語(yǔ)言模型

BERT 模型由多層雙向Transformer 編碼器堆疊而成,通過(guò)在大規(guī)模語(yǔ)料上進(jìn)行無(wú)監(jiān)督預(yù)訓(xùn)練獲得文本的特征表示。BERT 模型的輸入部分可對(duì)單句及句子對(duì)進(jìn)行表示,對(duì)于給定的字符,輸入向量包括詞嵌入信息、位置信息和分句信息3 類(lèi)信息表示,并且在BERT 原始模型中具有‘[CLS]’、‘[SEP]’和‘[MASK]’3 種特殊字符:‘[CLS]’符號(hào)置于每個(gè)輸入序列的首位,其對(duì)應(yīng)的輸出向量為該序列的向量表示,可直接用于分類(lèi)任務(wù);‘[SEP]’符號(hào)用于句子對(duì)作為輸入時(shí)分隔序列中的兩個(gè)句子,針對(duì)單句子作為輸入的情況,將‘[SEP]’符號(hào)置于句子尾;‘[MASK]’符號(hào)應(yīng)用在預(yù)訓(xùn)練階段的覆蓋語(yǔ)言模型中。

BERT 模型通過(guò)覆蓋語(yǔ)言模型(Masked Language Model,MLM)任務(wù)以及下一句預(yù)測(cè)(Next Sentence Prediction,NSP)任務(wù)完成對(duì)模型參數(shù)的預(yù)訓(xùn)練。在覆蓋語(yǔ)言模型任務(wù)中,輸入序列的部分字符通過(guò)‘[MASK]’符號(hào)被隨機(jī)覆蓋,該任務(wù)的目標(biāo)是通過(guò)上下文文本預(yù)測(cè)被覆蓋的字符,得到字符的雙向上下文表示。下一句預(yù)測(cè)任務(wù)針對(duì)句子對(duì)輸入,預(yù)測(cè)兩句是否為文本中的連續(xù)語(yǔ)句,以此捕捉句子對(duì)之間的關(guān)系。在經(jīng)過(guò)大規(guī)模語(yǔ)料預(yù)訓(xùn)練后,針對(duì)特定任務(wù),還需使用任務(wù)相關(guān)的數(shù)據(jù)集對(duì)BERT 模型進(jìn)行微調(diào),從而得到適用于具體任務(wù)的模型參數(shù)。

2.2 實(shí)體識(shí)別模塊

實(shí)體識(shí)別模塊是司法三元組抽取模型的主要模塊之一,將刑事判決書(shū)案件事實(shí)描述部分中的命名實(shí)體全部標(biāo)記處理,具體包括人名、地名、時(shí)間、毒品類(lèi)型和毒品重量5 類(lèi)實(shí)體。針對(duì)輸入文本中的每個(gè)字符,實(shí)體識(shí)別模塊將預(yù)測(cè)該字符是否屬于實(shí)體的一部分并給出實(shí)體類(lèi)型,由此將實(shí)體識(shí)別過(guò)程轉(zhuǎn)化為字符級(jí)的分類(lèi)任務(wù),預(yù)測(cè)指定字符的實(shí)體位置和實(shí)體類(lèi)型,通過(guò)在以BERT 模型為基礎(chǔ)的編碼層上添加一個(gè)多分類(lèi)器進(jìn)行實(shí)現(xiàn)。

按照BERT 的輸入格式,將案件事實(shí)描述文本處理為向量,作為實(shí)體識(shí)別模塊的輸入,該向量包含詞嵌入、位置信息以及分句信息三部分。此外,在句首和句尾分別插入‘[CLS]’符號(hào)和‘[SEP]’符號(hào)。在模型微調(diào)過(guò)程中,使用編碼層最后一層的隱層向量作為序列的特征表示,并通過(guò)多標(biāo)簽分類(lèi)器對(duì)序列中的每個(gè)字符進(jìn)行預(yù)測(cè)。標(biāo)簽序列x的分布可表示為:

其中,HER為編碼層最后一層的隱層向量表示。

在實(shí)體識(shí)別模塊中,在BERT 模型的基礎(chǔ)上添加字符級(jí)多分類(lèi)器形成實(shí)體識(shí)別模塊的模型結(jié)構(gòu)。為使實(shí)體識(shí)別模塊可以利用BERT 模型預(yù)訓(xùn)練階段學(xué)習(xí)的文本特征,并學(xué)習(xí)下游的實(shí)體識(shí)別任務(wù),還需對(duì)整個(gè)模型進(jìn)行微調(diào)。首先通過(guò)載入預(yù)訓(xùn)練后的BERT 模型權(quán)重對(duì)實(shí)體識(shí)別模塊進(jìn)行初始化;然后利用面向涉毒類(lèi)刑事案件的實(shí)體識(shí)別數(shù)據(jù)集對(duì)實(shí)體識(shí)別模塊進(jìn)行有監(jiān)督訓(xùn)練,完成相應(yīng)參數(shù)的微調(diào)。由此得到的實(shí)體識(shí)別模塊既包含預(yù)訓(xùn)練階段的通用文本特征知識(shí),又對(duì)法律實(shí)體識(shí)別任務(wù)進(jìn)行了學(xué)習(xí)。對(duì)于訓(xùn)練樣本{(si,xi)}|Ni=1,其中,si和xi分別代表實(shí)體識(shí)別模塊訓(xùn)練集中第i條樣本的真實(shí)標(biāo)簽和預(yù)測(cè)標(biāo)簽,N為訓(xùn)練集中的樣本數(shù),使用交叉熵作為損失函數(shù)對(duì)實(shí)體識(shí)別模塊的參數(shù)θER進(jìn)行學(xué)習(xí):

2.3 實(shí)體對(duì)篩選過(guò)程

實(shí)體對(duì)篩選過(guò)程的作用是減輕流水線(xiàn)結(jié)構(gòu)中的冗余實(shí)體信息所造成的影響。該過(guò)程對(duì)實(shí)體識(shí)別模塊的結(jié)果進(jìn)行整合,選擇可能具有關(guān)系的實(shí)體對(duì)并過(guò)濾不可能形成三元組的實(shí)體。在對(duì)司法三元組進(jìn)行抽取的流水線(xiàn)中,實(shí)體對(duì)篩選過(guò)程置于實(shí)體識(shí)別模塊后及關(guān)系抽取模塊前。首先對(duì)文本中通過(guò)實(shí)體識(shí)別模塊提取出的實(shí)體進(jìn)行兩兩組合,形成實(shí)體對(duì)集合;然后通過(guò)關(guān)系類(lèi)型分析,得出可能形成三元組的實(shí)體類(lèi)型組合規(guī)則;最后依照這些規(guī)則對(duì)實(shí)體對(duì)集合進(jìn)行篩選,得到可能存在關(guān)系的實(shí)體對(duì),輸入關(guān)系抽取模塊中預(yù)測(cè)其關(guān)系。

2.4 關(guān)系抽取模塊

關(guān)系抽取模塊旨在通過(guò)上下文囊括的語(yǔ)義信息判斷文本中給定的實(shí)體對(duì)存在的關(guān)系類(lèi)型。為實(shí)現(xiàn)關(guān)系抽取模塊的功能,給定一個(gè)描述文本s以及兩個(gè)目標(biāo)實(shí)體e1和e2,在文本中插入實(shí)體定位字符以供模型獲取實(shí)體信息。實(shí)體定位字符分別為‘[E11]’、‘[E12]’、‘[E21]’和‘[E22]’4 個(gè)字符。針對(duì)三元組的頭實(shí)體e1,將字符‘[E11]’和‘[E12]’分別置于e1的首部和尾部,確定e1的具體位置。針對(duì)三元組的尾實(shí)體e2,按照相同的方式,在e2首尾插入‘[E21]’和‘[E22]’字符進(jìn)行定位。

關(guān)系抽取模塊由編碼層、融合層和分類(lèi)層三部分組成,編碼層用于提取文本特征及實(shí)體特征,融合層可將實(shí)體對(duì)的特征信息與上下文特征進(jìn)行整合,分類(lèi)層用于對(duì)文本中的每個(gè)實(shí)體對(duì)存在的關(guān)系類(lèi)型進(jìn)行預(yù)測(cè)。

2.4.1 編碼層

編碼層以BERT 模型為基礎(chǔ)對(duì)文本進(jìn)行向量表示,分別對(duì)輸入序列和實(shí)體對(duì)進(jìn)行特征提取。將學(xué)習(xí)到的‘[CLS]’符號(hào)所對(duì)應(yīng)的特征向量作為整個(gè)序列s的全局特征,通過(guò)Hs進(jìn)行表示。將BERT 模型最后一層的隱層向量看作是序列中每個(gè)字符的編碼向量,以h進(jìn)行表示。為得到序列中的實(shí)體特征,對(duì)與頭實(shí)體e1和尾實(shí)體e2相關(guān)的字符進(jìn)行向量表示:

其中,E1和E2分別為實(shí)體e1和e2所對(duì)應(yīng)的特征向量,m1和m2、n1和n2分別對(duì)應(yīng)兩個(gè)實(shí)體e1、e2在序列s中的開(kāi)始和結(jié)束位置。

2.4.2 融合層

融合層用于對(duì)編碼層輸出的序列特征Hs和實(shí)體特征E1、E2進(jìn)行整合,從而在序列特征中加入相應(yīng)的實(shí)體對(duì)信息。為能夠更好地學(xué)習(xí)各特征向量之間的關(guān)系,添加可訓(xùn)練的參數(shù)矩陣Ws和We,以對(duì)序列特征和實(shí)體特征所占的權(quán)重進(jìn)行動(dòng)態(tài)調(diào)整。在經(jīng)過(guò)特征向量融合后,序列特征Hs和實(shí)體特征E1、E2將整合為一個(gè)新的序列表示向量S,其中包含序列s的全局文本信息以及其中的實(shí)體信息,具體表示為:

2.4.3 分類(lèi)層

分類(lèi)層基于最終的序列表示S對(duì)關(guān)系類(lèi)型進(jìn)行分類(lèi),通過(guò)Softmax 分類(lèi)器對(duì)文本中給定實(shí)體對(duì)存在的關(guān)系類(lèi)型分布y進(jìn)行預(yù)測(cè):

p(y|s)=Softmax(S) (6)

在關(guān)系抽取模塊中,以BERT 模型為基礎(chǔ),通過(guò)加入特征融合層和關(guān)系分類(lèi)層形成關(guān)系抽取模塊的模型結(jié)構(gòu)。首先載入經(jīng)過(guò)預(yù)訓(xùn)練的BERT 模型權(quán)重作為關(guān)系抽取模型的初始權(quán)重,使得關(guān)系抽取模型具備預(yù)訓(xùn)練階段學(xué)習(xí)的知識(shí);然后通過(guò)在面向涉毒類(lèi)刑事案件的關(guān)系抽取數(shù)據(jù)集上進(jìn)行監(jiān)督訓(xùn)練,并對(duì)模型參數(shù)進(jìn)行微調(diào),實(shí)現(xiàn)可用于法律文書(shū)關(guān)系抽取任務(wù)的模型。在訓(xùn)練過(guò)程中,通過(guò)交叉熵?fù)p失函數(shù)對(duì)關(guān)系抽取模塊參數(shù)θRE進(jìn)行學(xué)習(xí):

3 實(shí)驗(yàn)與結(jié)果分析

3.1 數(shù)據(jù)集構(gòu)建

為實(shí)現(xiàn)中國(guó)司法領(lǐng)域的信息抽取,以涉毒類(lèi)刑事判決書(shū)文本為基礎(chǔ),將其中的案件事實(shí)描述部分使用規(guī)則提取,在此基礎(chǔ)上通過(guò)自然語(yǔ)言處理工具進(jìn)行機(jī)器粗標(biāo)與人工標(biāo)注相結(jié)合的模式,標(biāo)注出涉及到的法律實(shí)體及其之間的關(guān)系類(lèi)型。選取涉毒類(lèi)刑事案件中最具代表的販賣(mài)毒品、非法持有毒品和容留他人吸毒3類(lèi)案件作為研究主體,將1 750份刑事判決書(shū)中的案件事實(shí)描述文本作為原始語(yǔ)料,在此基礎(chǔ)上進(jìn)行標(biāo)注形成數(shù)據(jù)集。

針對(duì)命名實(shí)體識(shí)別任務(wù),使用BIO 標(biāo)注策略區(qū)分實(shí)體邊界并預(yù)設(shè)人名、地名、時(shí)間、毒品類(lèi)型和毒品重量5 類(lèi)實(shí)體。司法領(lǐng)域?qū)嶓w識(shí)別數(shù)據(jù)集中共包括19 321 個(gè)實(shí)體。針對(duì)關(guān)系抽取任務(wù),參考《中華人民共和國(guó)刑法》并結(jié)合3 類(lèi)涉毒類(lèi)案件的判決依據(jù),預(yù)定義持有(possess)、販賣(mài)(給人)(sell_drug_to)、販賣(mài)(毒品)(traffic_in)和非法容留(provide_shelter_for)4 種關(guān)系類(lèi)型,這4 種關(guān)系涵蓋了3 類(lèi)涉毒類(lèi)案件中的犯罪行為。

將1 750 條經(jīng)過(guò)實(shí)體關(guān)系標(biāo)注的案件事實(shí)描述文本以4∶1 的比例進(jìn)行隨機(jī)劃分,分別作為司法領(lǐng)域?qū)嶓w關(guān)系提取的訓(xùn)練集和測(cè)試集。訓(xùn)練集和測(cè)試集中實(shí)體與關(guān)系的統(tǒng)計(jì)情況分別如表1 和表2所示。

表1 數(shù)據(jù)集中實(shí)體類(lèi)型的統(tǒng)計(jì)情況Table 1 Statistics of entity types in the dataset

表2 數(shù)據(jù)集中關(guān)系類(lèi)型的統(tǒng)計(jì)情況Table 2 Statistics of relation types in the dataset

3.2 數(shù)據(jù)預(yù)處理與參數(shù)設(shè)置

由于本文三元組抽取模型采用流水線(xiàn)結(jié)構(gòu),因此會(huì)產(chǎn)生大量不存在關(guān)系類(lèi)型的實(shí)體對(duì),這些冗余的實(shí)體對(duì)將會(huì)對(duì)關(guān)系抽取模塊的識(shí)別性能造成影響。為使關(guān)系抽取模塊能更好地學(xué)習(xí)這種無(wú)關(guān)系類(lèi)型的實(shí)體對(duì)特征,在訓(xùn)練過(guò)程中將不存在關(guān)系類(lèi)型的實(shí)體組合作為負(fù)樣本,以一定的比例添加到訓(xùn)練集中。

此外,本文還考慮關(guān)系方向性,即三元組<e1,ra,e2>和<e2,rb,e1>,這兩個(gè)三元組的實(shí)體集合是一致的,但頭尾實(shí)體位置互換,因此其存在的關(guān)系類(lèi)型ra和rb是不同的,對(duì)于這一類(lèi)頭尾實(shí)體位置互換的三元組所存在的兩個(gè)關(guān)系ra和rb,本文稱(chēng)其互為反向關(guān)系。關(guān)系的方向性對(duì)關(guān)系抽取模塊的訓(xùn)練也有一定的影響,尤其在關(guān)系類(lèi)型販賣(mài)(給人)和非法容留中較為明顯,由于在這兩種關(guān)系中,頭實(shí)體和尾實(shí)體對(duì)應(yīng)的實(shí)體類(lèi)型都為人名且表達(dá)形式相近,因此會(huì)對(duì)關(guān)系類(lèi)型的預(yù)測(cè)產(chǎn)生影響。為使關(guān)系抽取模塊能更好地學(xué)習(xí)關(guān)系的方向性,在訓(xùn)練過(guò)程中,將訓(xùn)練集中正樣本所對(duì)應(yīng)的反向關(guān)系作為負(fù)樣本添加到訓(xùn)練集中。

在實(shí)驗(yàn)設(shè)置上,命名實(shí)體識(shí)別模塊使用谷歌開(kāi)源的中文BERT(BERT-Base,Chinese)模型,在此基礎(chǔ)上進(jìn)行微調(diào)完成對(duì)法律實(shí)體的識(shí)別,關(guān)系抽取模塊分別使用中文BERT(BERT-Base,Chinese)模型和RoBERTa 模型進(jìn)行實(shí)驗(yàn),其他參數(shù)設(shè)置如表3所示。

表3 實(shí)體識(shí)別模塊與關(guān)系抽取模塊的參數(shù)設(shè)置Table 3 Parameters setting of entity recognition module and relation extraction module

3.3 結(jié)果分析

在實(shí)驗(yàn)中,三元組抽取模型性能由精確率(P)、召回率(R)以及F1 值(F)進(jìn)行評(píng)估。評(píng)價(jià)指標(biāo)的計(jì)算方式如下:

其中,ncorrect_num表示司法三元組抽取模型對(duì)所有實(shí)例抽取正確的三元組個(gè)數(shù),npredict_num表示司法三元組抽取模型預(yù)測(cè)出的三元組總數(shù),ntrue_num表示實(shí)際的三元組總數(shù)。其中,抽取出的三元組只有在兩個(gè)實(shí)體e1和e2以及關(guān)系r都預(yù)測(cè)正確的情況下才被判定為正確的三元組。

實(shí)驗(yàn)采用3 組不同的神經(jīng)網(wǎng)絡(luò)模型組合作為基線(xiàn)模型:組合模型1 中實(shí)體識(shí)別使用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)結(jié)合條件隨機(jī)場(chǎng)的模型(BiLSTM+CRF),關(guān)系抽取應(yīng)用雙向門(mén)循環(huán)單元結(jié)合注意力機(jī)制的模型(BiGRU+ATT);組合模型2 中實(shí)體識(shí)別使用本文模型,關(guān)系抽取使用BiGRU+ATT;組合模型3 中實(shí)體識(shí)別使用BiLSTM+CRF,關(guān)系抽取使用本文模型。不同的模型組合對(duì)三元組的抽取效果如表4 所示,可以看出,本文提出的司法三元組抽取模型優(yōu)于其他的組合模型,相比基于循環(huán)神經(jīng)網(wǎng)絡(luò)的組合模型1的F1 值提高了28.1 個(gè)百分點(diǎn)。由組合模型3 的F1值高于組合模型2 的F1 值這一結(jié)果可以看出,本文關(guān)系抽取模塊相比實(shí)體識(shí)別模塊更有助于抽取性能的提升。

表4 組合模型與本文模型的三元組抽取結(jié)果對(duì)比Table 4 Comparison of triplet extraction results of the combination models and the proposed model %

由于流水線(xiàn)結(jié)構(gòu)中會(huì)產(chǎn)生大量不存在關(guān)系類(lèi)型的實(shí)體對(duì),因此為使關(guān)系抽取模塊更加全面地學(xué)習(xí)這些無(wú)關(guān)系類(lèi)型的實(shí)體對(duì)特征,在訓(xùn)練階段通過(guò)添加負(fù)例樣本完善關(guān)系抽取模型的訓(xùn)練過(guò)程。

3.3.1 正負(fù)樣本比例對(duì)三元組抽取的影響

在實(shí)驗(yàn)中正負(fù)樣本的比例對(duì)三元組的抽取效果產(chǎn)生了一定的影響。通過(guò)采用相同的隨機(jī)種子,隨機(jī)篩選不同比例的負(fù)樣本添加到關(guān)系抽取模塊的訓(xùn)練集中,確定用于訓(xùn)練關(guān)系抽取模塊的最佳正負(fù)樣本比例,分別選取正負(fù)樣本比例為無(wú)負(fù)樣本、1∶2、1∶3、1∶5 和1∶7 進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表5 所示。

表5 基于不同正負(fù)樣本比例的三元組抽取結(jié)果對(duì)比Table 5 Comparison of triplet extraction results based on different positive/negative instance ratios %

隨著關(guān)系抽取任務(wù)的訓(xùn)練集中負(fù)例樣本占比逐漸增加,三元組抽取模型的整體抽取性能不斷提升,F(xiàn)1 值由無(wú)負(fù)樣本的36.3%提升至正負(fù)樣本比例為1∶7 的77.8%,提高了41.5 個(gè)百分點(diǎn)。這也證明了添加適當(dāng)比例的負(fù)樣本對(duì)關(guān)系抽取模塊的訓(xùn)練過(guò)程具有積極作用,由實(shí)驗(yàn)結(jié)果中精確率的大幅提升也可看出,關(guān)系抽取模塊通過(guò)負(fù)樣本學(xué)習(xí)可更全面地學(xué)習(xí)不存在關(guān)系類(lèi)型的實(shí)體對(duì)所具有的特征,能夠更好地分辨出無(wú)關(guān)系類(lèi)型的實(shí)體對(duì)。

3.3.2 反向關(guān)系對(duì)三元組抽取的增益效果

為驗(yàn)證反向關(guān)系對(duì)三元組抽取結(jié)果的影響,通過(guò)將正樣本的反向關(guān)系作為負(fù)樣本添加到訓(xùn)練集中,使關(guān)系抽取模塊對(duì)關(guān)系方向性進(jìn)行更好的學(xué)習(xí),并選擇具有不同正負(fù)樣本比例的訓(xùn)練集分別進(jìn)行實(shí)驗(yàn),結(jié)果如表6 所示,其中,“√”表示添加反向關(guān)系,“×”表示未添加反向關(guān)系。

表6 添加反向關(guān)系的三元組抽取結(jié)果對(duì)比Table 6 Comparison of triplet extraction results of adding inverse relation %

由實(shí)驗(yàn)結(jié)果可以看出,關(guān)系方向性對(duì)關(guān)系抽取模塊的訓(xùn)練過(guò)程十分重要,通過(guò)將正樣本的反向關(guān)系添加到訓(xùn)練集中,使得本文模型對(duì)三元組抽取的精確率和召回率都有所提升,在無(wú)負(fù)樣本、正負(fù)樣本比例為1∶2 和1∶5 的條件下,F(xiàn)1 值分別提高了13.5、17.0 和16.4 個(gè)百分點(diǎn)。由此說(shuō)明將正樣本的反向關(guān)系作為負(fù)樣本進(jìn)行模型訓(xùn)練這一策略能有效提升關(guān)系抽取模塊的預(yù)測(cè)能力,有助于模型更好地區(qū)分具有相似頭尾實(shí)體的實(shí)體對(duì)特征。

3.3.3 不同預(yù)訓(xùn)練語(yǔ)言模型對(duì)三元組抽取的影響

本文對(duì)關(guān)系抽取模塊所使用的預(yù)訓(xùn)練語(yǔ)言模型進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果如表7 所示,可以看出使用基于RoBERTa 模型的關(guān)系抽取模塊可更好地進(jìn)行關(guān)系預(yù)測(cè),在三元組抽取結(jié)果上達(dá)到79.6%的F1 值。

表7 在1∶5 正負(fù)樣本比例下不同預(yù)訓(xùn)練語(yǔ)言模型的三元組抽取結(jié)果對(duì)比Table 7 Comparison of triplet extraction results of different pretrained language models with the positive/negative instance ratio of 1∶5 %

4 結(jié)束語(yǔ)

本文建立一種將非結(jié)構(gòu)化刑事判決書(shū)文本轉(zhuǎn)化為結(jié)構(gòu)化三元組形式的司法三元組抽取模型。該模型將預(yù)訓(xùn)練的BERT 模型作為主體,在此基礎(chǔ)上分別對(duì)實(shí)體識(shí)別模塊和關(guān)系抽取模塊進(jìn)行微調(diào),并搭建三元組抽取的流水線(xiàn)結(jié)構(gòu),實(shí)現(xiàn)對(duì)非結(jié)構(gòu)化文本的信息提取。實(shí)驗(yàn)結(jié)果表明,該模型相比基于循環(huán)神經(jīng)網(wǎng)絡(luò)的組合模型的F1 值提高了28.1 個(gè)百分點(diǎn),并通過(guò)加入兩項(xiàng)針對(duì)關(guān)系抽取模塊的訓(xùn)練策略能提升三元組抽取性能。下一步將繼續(xù)優(yōu)化本文模型的三元組抽取效果,并以此為基礎(chǔ)構(gòu)建司法知識(shí)圖譜進(jìn)行表示學(xué)習(xí)及知識(shí)推理等工作。

猜你喜歡
三元組實(shí)體樣本
基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
特征標(biāo)三元組的本原誘導(dǎo)子
用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
關(guān)于余撓三元組的periodic-模
推動(dòng)醫(yī)改的“直銷(xiāo)樣本”
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
横峰县| 改则县| 玉屏| 元谋县| 全州县| 香河县| 尼玛县| 安新县| 濮阳县| 南澳县| 汉中市| 房产| 轮台县| 洛隆县| 蓝田县| 类乌齐县| 东乡族自治县| 永兴县| 星子县| 松溪县| 龙海市| 灵丘县| 安塞县| 永兴县| 西峡县| 三河市| 揭西县| 牙克石市| 日喀则市| 鹤峰县| 彰武县| 广宁县| 灵台县| 重庆市| 长汀县| 陆川县| 遂宁市| 慈利县| 桓台县| 伊金霍洛旗| 莲花县|