国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于匹配策略和社區(qū)注意力機(jī)制的法律文書(shū)命名實(shí)體識(shí)別

2022-04-12 04:15郭力華王素格符玉杰裴文生
中文信息學(xué)報(bào) 2022年2期
關(guān)鍵詞:法律文書(shū)關(guān)聯(lián)性命名

郭力華, 李 旸,王素格,3,陳 鑫, 符玉杰,裴文生

(1. 山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,山西 太原 030006;2. 山西財(cái)經(jīng)大學(xué) 金融學(xué)院,山西 太原 030006;3. 山西大學(xué) 計(jì)算智能與中文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,山西 太原 030006;4. 北京市律典通科技有限公司,山西 太原 030006)

0 引言

在各類司法案件中,法律文書(shū)是記錄案件信息的主要載體,其關(guān)鍵要素實(shí)體(證據(jù)名、證據(jù)內(nèi)容、卷宗號(hào)等)可以作為調(diào)查、公訴以及判決等環(huán)節(jié)的關(guān)鍵性內(nèi)容。若將大量法律文書(shū)中的證據(jù)名、證據(jù)內(nèi)容和卷宗號(hào)等實(shí)體進(jìn)行準(zhǔn)確識(shí)別,可以提升司法案件的辦案效率,緩解司法工作人員的工作壓力。命名實(shí)體識(shí)別作為自然語(yǔ)言處理的一項(xiàng)基礎(chǔ)性工作,在通用領(lǐng)域中已經(jīng)取得了很好的效果。然而,在司法領(lǐng)域,證據(jù)名和證實(shí)內(nèi)容與以往的人名、地名以及組織機(jī)構(gòu)名相比其長(zhǎng)度較長(zhǎng),且實(shí)體內(nèi)部以及實(shí)體之間都存在一定的關(guān)聯(lián)性。例如,“被告人戶籍信息表[證據(jù)名](證據(jù)卷P23[卷宗號(hào)])。證實(shí)被告人肖某、男,1989年6月25日出生于貴州省平壩縣,作案時(shí)已達(dá)刑事責(zé)任年齡[證實(shí)內(nèi)容]”,其中證據(jù)名實(shí)體“被告人戶籍信息表”與證實(shí)內(nèi)容相關(guān)聯(lián),而且證實(shí)內(nèi)容實(shí)體中的“1989年6月25日出生”與“刑事責(zé)任年齡”相關(guān)聯(lián)。對(duì)于識(shí)別準(zhǔn)確程度要求較高的法律文書(shū),邊界判別至關(guān)重要,僅使用現(xiàn)有的分詞方法會(huì)出現(xiàn)分詞錯(cuò)誤,從而導(dǎo)致錯(cuò)誤傳遞問(wèn)題;另一方面,若使用詞典資源,則需要大量人工標(biāo)注等問(wèn)題[1]。由于長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)在序列到序列問(wèn)題中有選擇性“記憶力”優(yōu)勢(shì),因此,基于LSTM-CRF模型[2]在通用領(lǐng)域的一般命名實(shí)體識(shí)別中取得了不錯(cuò)的性能,但是面對(duì)長(zhǎng)度較長(zhǎng)的法律文書(shū)命名實(shí)體識(shí)別,若僅采用LSTM,在較長(zhǎng)的序列中,先輸入的內(nèi)容將被后續(xù)輸入的內(nèi)容稀釋或覆蓋,而基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的方法只能獲得局部信息。對(duì)于圖網(wǎng)絡(luò)Lattice-LSTM[1]和Collaborative Graph Network模型[3],兩者都需要外部詞典獲得分詞邊界信息,而詞典匹配的詞作為結(jié)點(diǎn)構(gòu)造圖網(wǎng)絡(luò)的過(guò)程較為復(fù)雜,模型訓(xùn)練參數(shù)量也較大。Ma等[4]提出一種利用匹配詞分區(qū)簡(jiǎn)化使用詞典的方法,避免了構(gòu)造復(fù)雜的圖網(wǎng)絡(luò),但是在計(jì)算匹配詞權(quán)重時(shí)采用了靜態(tài)詞頻,而在法律文書(shū)中某些證據(jù)要素僅在特定段落位置出現(xiàn),導(dǎo)致它們的詞頻權(quán)重較小。

針對(duì)上述問(wèn)題,本文在字級(jí)別提出了一種基于最大正向匹配策略和社區(qū)注意力機(jī)制的法律文書(shū)命名實(shí)體識(shí)別方法(FMM-CAM)。首先利用最大正向匹配策略獲取句子中與詞典匹配的所有詞,再將其按字在詞中的位置分類存放在B、M、E和S四個(gè)匹配詞社區(qū)中。由于Xu等[5]利用自注意力機(jī)制獲得相似法律條文和案件事實(shí)之間的關(guān)聯(lián)性信息,在區(qū)分易混淆法律條文中取得了較好的性能,因此,本文受其啟發(fā)利用社區(qū)自注意力機(jī)制,在匹配詞社區(qū)中獲得匹配詞的關(guān)聯(lián)性權(quán)重。同時(shí),利用Word2Vec獲得法律文書(shū)中每個(gè)字對(duì)應(yīng)的向量表示,并將其和對(duì)應(yīng)的中文BERT預(yù)訓(xùn)練模型的字向量進(jìn)行拼接編碼,以解決一詞多義的問(wèn)題。在此基礎(chǔ)上,將字的編碼信息和詞的信息相融合,通過(guò)一個(gè)BiLSTM進(jìn)行建模,獲得新的語(yǔ)義表示。最后利用CRF將句子進(jìn)行解碼,獲得最優(yōu)標(biāo)記序列。實(shí)驗(yàn)結(jié)果表明,本文方法可以對(duì)法律文書(shū)中證據(jù)名、證實(shí)內(nèi)容和卷宗號(hào)等長(zhǎng)實(shí)體進(jìn)行有效識(shí)別。

1 相關(guān)工作

命名實(shí)體識(shí)別是關(guān)系抽取和問(wèn)答系統(tǒng)等許多自然語(yǔ)言處理任務(wù)中的基礎(chǔ)任務(wù)。早期主要由語(yǔ)言學(xué)家依據(jù)數(shù)據(jù)集的特征人工構(gòu)建特定規(guī)則模板或者詞典,此類方法人工成本高,泛化能力差。在現(xiàn)有的工作中主要分為兩類,一是統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法,例如,支持向量機(jī)(SVM)、隱馬爾可夫(HMM)和條件隨機(jī)場(chǎng)(CRF)等,其中,CRF是利用內(nèi)部及上下文特征信息對(duì)某一個(gè)位置進(jìn)行標(biāo)注,且其目標(biāo)函數(shù)不僅考慮輸入狀態(tài)的特征函數(shù),還包含了標(biāo)簽轉(zhuǎn)移特征函數(shù),在命名實(shí)體識(shí)別中取得了較好的效果,但是這些方法都受到了特征工程的困擾。隨著深度學(xué)習(xí)的迅速發(fā)展,同時(shí)考慮到CRF的優(yōu)勢(shì),目前大多數(shù)工作將CNN和LSTM等深度學(xué)習(xí)方法和CRF方法相結(jié)合。例如,Collobert等[6]采用CNN-CRF模型進(jìn)行命名實(shí)體識(shí)別,其優(yōu)勢(shì)利用CNN捕獲句子中局部關(guān)鍵特征,對(duì)特定領(lǐng)域的短實(shí)體識(shí)別取得了較好的性能。LSTM可以解決長(zhǎng)序列中梯度彌散問(wèn)題,通過(guò)構(gòu)造一種特殊的有選擇性記憶的門(mén)控機(jī)制,可以捕獲長(zhǎng)距離的上下文信息。Huang等[7]提出了一種BiLSTM-CRF模型的命名實(shí)體識(shí)別方法,該方法利用BiLSTM獲得文本序列的上下文特征信息,并利用CRF作為模型的解碼層。Rei等[8]在BiLSTM-CRF的基礎(chǔ)上融合了注意力機(jī)制,彌補(bǔ)了LSTM存在選擇性記憶的缺點(diǎn)。通過(guò)注意力機(jī)制動(dòng)態(tài)的獲取BiLSTM編碼器的中間信息,最后通過(guò)CRF關(guān)聯(lián)序列標(biāo)簽信息。在字級(jí)別的中文命名實(shí)體識(shí)別上,Zhang[1]提出了一種Lattice-LSTM模型,之后,Sui等[3]在該模型上進(jìn)行了改進(jìn),提出了性能更好的協(xié)同圖網(wǎng)絡(luò)(Collaborative Graph Network)。

相比于通用領(lǐng)域的命名體實(shí)體,法律領(lǐng)域的研究相對(duì)較少,謝云[9]提出了一種基于片段級(jí)別的GCNN-LSTM模型。王禮敏[10]提出了一種基于多任務(wù)學(xué)習(xí)模型的法律文書(shū)命名實(shí)體識(shí)別。

上述方法大多數(shù)是針對(duì)長(zhǎng)度比較短的實(shí)體進(jìn)行識(shí)別,且沒(méi)有考慮到法律文書(shū)中實(shí)體之間緊密的依賴關(guān)系,若直接在法律文書(shū)上進(jìn)行長(zhǎng)實(shí)體識(shí)別其效果并不理想。針對(duì)長(zhǎng)實(shí)體識(shí)別任務(wù),王得賢等人[11]提出了基于字和詞的BiLSTM和注意力模型的法律文書(shū)命名實(shí)體識(shí)別,其利用BiLSTM隱藏層獲得字序列的分詞信息,但受到LSTM長(zhǎng)距離記憶被稀釋和覆蓋的局限性,在法律文書(shū)中某些長(zhǎng)度較長(zhǎng)實(shí)體的邊界識(shí)別會(huì)受到影響。因此,本文提出了一種利用最大正向匹配策略和社區(qū)注意力機(jī)制的法律文書(shū)命名實(shí)體識(shí)別方法(FMM-CAM),該方法基于字級(jí)別的且利用最大正向匹配策略,獲得詞典分詞信息的社區(qū)注意力方法。

2 法律文書(shū)命名實(shí)體識(shí)別模型

本文的目標(biāo)是識(shí)別法律文書(shū)中的證據(jù)名、證實(shí)內(nèi)容、卷宗號(hào)等較長(zhǎng)實(shí)體,且實(shí)體間關(guān)聯(lián)性較強(qiáng)。為了準(zhǔn)確獲取長(zhǎng)實(shí)體邊界信息,本文采用了最大正向匹配原則,通過(guò)字典樹(shù)查找與該字匹配的所有詞,最大正向匹配過(guò)程如圖1所示。

圖1 最大正向匹配策略的匹配過(guò)程圖

為了獲得證據(jù)等實(shí)體之間的關(guān)聯(lián)關(guān)系,本文利用自注意力機(jī)制計(jì)算句子中每個(gè)字對(duì)應(yīng)的所有匹配詞之間的關(guān)聯(lián)性權(quán)重,然后將獲得的長(zhǎng)實(shí)體邊界信息和實(shí)體間的關(guān)聯(lián)性權(quán)重融入到模型中,從而建立法律文書(shū)命名實(shí)體識(shí)別模型FMM-CAM。該模型主要包括字符編碼模塊、BERT表示模塊、匹配詞分區(qū)模塊、自注意力模塊、社區(qū)匹配詞壓縮模塊、語(yǔ)義表示模塊和解碼模塊七個(gè)模塊,整體結(jié)構(gòu)如圖2所示。

圖2 模型整體結(jié)構(gòu)圖

2.1 字符編碼模塊

其中,ev×d1表示字向量的嵌入映射,v表示詞表大小,d1表示向量維度。

2.2 BERT表示模塊

其中,bv×d2表示BERT中文預(yù)訓(xùn)練詞嵌入映射,v表示詞表大小,d2表示字向量維度。

2.3 匹配詞分區(qū)模塊

利用字級(jí)別的命名實(shí)體識(shí)別,可以避免分詞帶來(lái)的錯(cuò)誤累積問(wèn)題,但是字級(jí)別缺乏詞的邊界信息,也會(huì)影響命名實(shí)體識(shí)別的效果。因此,為了準(zhǔn)確獲得詞的邊界信息,將法律文書(shū)句子S={c1,…,ci,…,cn}中每個(gè)字ci,利用最大正向匹配策略與一個(gè)外部字典樹(shù)進(jìn)行匹配,然后將與字ci匹配的所有詞按照字ci在匹配詞中的位置分配到四個(gè)社區(qū)。B(ci)為以字符ci開(kāi)頭的匹配詞社區(qū);M(ci)為包含字ci且ci不作為開(kāi)頭或結(jié)束位置的字匹配詞社區(qū);E(ci)為以字符ci結(jié)尾的匹配詞社區(qū);S(ci)為以單個(gè)字符ci作為匹配詞社區(qū),詳細(xì)匹配社區(qū)的信息如式(3)~式(6)所示。

B(ci)={wi,k=ci,ci+1,...,ck|wi,k∈L,i

(3)

M(ci)={wj,k=cj,...,ci,...,ck|wj,k∈L,1≤j

(4)

E(ci)={wj,i=cj,cj+1,...,ci|wj,i∈L,1≤j≤i}

(5)

S(ci)={ci|ci∈L}

(6)

其中,L為外部詞典,n表示該句子中字的個(gè)數(shù)。

如果某一個(gè)字符ci對(duì)應(yīng)的社區(qū)為空,則將“None”添加到該空社區(qū)中。具體實(shí)例如圖3所示。

圖3 匹配詞分區(qū)圖

2.4 自注意力模塊

其中,w表示句子S中包含字ci的匹配詞,d3表示匹配詞的嵌入維度,a(wi,w)為匹配詞wi與w的關(guān)聯(lián)性權(quán)重。

2.5 社區(qū)匹配詞壓縮模塊

(10)

(11)

(12)

(13)

圖4 匹配詞社區(qū)壓縮計(jì)算示例圖

2.6 語(yǔ)義表示模塊

2.7 解碼模塊

由于相鄰標(biāo)簽之間具有一定的關(guān)聯(lián)性,因此,CRF通過(guò)加入狀態(tài)轉(zhuǎn)移,使其在預(yù)測(cè)標(biāo)簽時(shí)保證上下文具有關(guān)聯(lián)性。這些轉(zhuǎn)移參數(shù)可以在訓(xùn)練時(shí)被CRF層自動(dòng)習(xí)得。因此,模型的最后一層采用CRF進(jìn)行解碼。

其中,Ai,j表示在轉(zhuǎn)移矩陣中標(biāo)簽yi轉(zhuǎn)移到標(biāo)簽yj的值。

給定句子S,標(biāo)簽序列y的條件概率如式(18)所示。

其中,YS為給定句子S的所有可能標(biāo)簽序列。

標(biāo)簽序列的log似然函數(shù)如式(19)所示。

解碼時(shí)輸出分?jǐn)?shù)最高的預(yù)測(cè)序列為y*,如式(20)所示。

3 實(shí)驗(yàn)

為了驗(yàn)證本文方法對(duì)法律文書(shū)中長(zhǎng)實(shí)體邊界識(shí)別的有效性,采用Pytorch實(shí)現(xiàn)本文所提出的模型,運(yùn)行環(huán)境為Python3.7。本文所有的實(shí)驗(yàn)都在一臺(tái)NVIDIA TITAN Xp GPU上進(jìn)行。

3.1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

本文采用與文獻(xiàn)[11]相同的數(shù)據(jù)集,該數(shù)據(jù)集包含刑事、民事領(lǐng)域共5 000條句子。其中,數(shù)據(jù)集的訓(xùn)練集、驗(yàn)證集和測(cè)試集的文本數(shù)分別為: 4 000、500和500。本文方法是字級(jí)別的,因此,將該數(shù)據(jù)集處理為單個(gè)字的標(biāo)注數(shù)據(jù),標(biāo)注實(shí)體為三類: 證據(jù)名(EDN)、證實(shí)內(nèi)容(EDC)和卷宗號(hào)(EDA)。為了細(xì)化詞的邊界,將原來(lái)的BIO標(biāo)簽修改為BMESO形式,其中,B,M和E分別表示實(shí)體的第一個(gè)字、中間字和最后一個(gè)字,S和O分別表示單字實(shí)體和非實(shí)體字。

本文選用精確率P、召回率R和F1值為法律文書(shū)命名實(shí)體識(shí)別結(jié)果的評(píng)價(jià)指標(biāo)。法律文書(shū)識(shí)別的三類實(shí)體的示例見(jiàn)表1。

表 1 法律文書(shū)實(shí)體示例

黑體字表示屬于實(shí)體

3.2 實(shí)驗(yàn)設(shè)計(jì)

為了驗(yàn)證本文提出方法的性能,在法律文書(shū)數(shù)據(jù)集上將本文方法FMM-CAM與以下六種方法進(jìn)行對(duì)比實(shí)驗(yàn)。

BiLSTM-CRF: 該模型是通用領(lǐng)域廣泛使用的方法,主要使用BiLSTM和CRF聯(lián)合。

CNN-LSTM-CRF[12]: 該模型主要使用CNN、BiLSTM和CRF聯(lián)合。

Att-LSTM-CRF[8]: 該模型在LSTM-CRF模型基礎(chǔ)上運(yùn)用自注意力機(jī)制獲取長(zhǎng)序列中詞語(yǔ)間的上下文關(guān)系。

Lattice-LSTM[1]: 該模型顯式地利用字序列之間的關(guān)系獲得分詞信息。

JCWA-DLSTM[11]: 該模型使用RNNLM預(yù)訓(xùn)練模型形成字與詞對(duì)應(yīng)表示,通過(guò)自注意力機(jī)制獲得每個(gè)詞的權(quán)重,再拼接兩個(gè)BiLSTM獲得字、詞上下文信息,最后將字和詞的信息,通過(guò)一個(gè)CRF獲得分?jǐn)?shù)最高的標(biāo)簽序列。

SoftLexicon(LSTM)+BERT[4]: 該模型利用外部詞典產(chǎn)生字在匹配詞的位置信息,用于確定分詞邊界信息。

3.3 實(shí)驗(yàn)設(shè)置

模型訓(xùn)練階段,初始學(xué)習(xí)率設(shè)置為0.001 5,優(yōu)化采用Adamax[13],其學(xué)習(xí)率的邊界范圍更簡(jiǎn)單。經(jīng)過(guò)反復(fù)測(cè)試,結(jié)合本文數(shù)據(jù)的特點(diǎn),實(shí)驗(yàn)參數(shù)設(shè)置如表2所示。

表2 實(shí)驗(yàn)參數(shù)設(shè)置

3.4 實(shí)驗(yàn)結(jié)果分析

利用3.2節(jié)設(shè)計(jì)的六種方法以及直接利用BERT模型進(jìn)行微調(diào)與本文方法FMM-CAM進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見(jiàn)表3。

表3 不同方法實(shí)驗(yàn)結(jié)果

由表3可以看出:

(1) 本文提出的FMM-CAM模型在精確率P、召回率R和F1值評(píng)價(jià)指標(biāo)中,均優(yōu)于其他六種模型,說(shuō)明本文方法識(shí)別法律文書(shū)中證據(jù)等實(shí)體關(guān)聯(lián)性較強(qiáng)且長(zhǎng)度較長(zhǎng)的實(shí)體是有效的,BERT(fine-tune)模型也證明,在基于字級(jí)別的中文命名實(shí)體識(shí)別中,利用詞信息對(duì)準(zhǔn)確獲得實(shí)體的邊界信息是重要的。

(2) JCWA-DLSTM和Att-LSTM-CRF兩個(gè)模型均使用了自注意力機(jī)制,其效果均優(yōu)于沒(méi)有使用自注意力機(jī)制的BiLSTM-CRF、CNN-LSTM-CRF和Lattice-LSTM模型,說(shuō)明自注意力機(jī)制有助于學(xué)習(xí)句子內(nèi)部實(shí)體間相關(guān)聯(lián)的依賴關(guān)系。SoftLexicon(LSTM)+BERT在三個(gè)評(píng)價(jià)指標(biāo)上均高于JCWA-DLSTM,主要原因是采用了外部詞典可以獲得所有與該字相關(guān)的匹配詞,增加詞的邊界信息。而本文FMM-CAM模型在三項(xiàng)評(píng)價(jià)指標(biāo)上均高于SoftLexicon(LSTM)+BERT,說(shuō)明本文方法一方面使用自注意力機(jī)制增強(qiáng)了關(guān)聯(lián)性較強(qiáng)實(shí)體權(quán)重,使法律文書(shū)長(zhǎng)實(shí)體的邊界識(shí)別更為準(zhǔn)確。另一方面,通過(guò)詞典匹配,使其匹配的詞更加全面,提升了實(shí)體識(shí)別的召回率。

3.5 消融實(shí)驗(yàn)

為了驗(yàn)證FMM-CAM模型在各個(gè)部分的性能,本文設(shè)計(jì)了消融實(shí)驗(yàn)。將模型去除字編碼(Word2Vec)模塊記為-Word2Vec,將模型去掉BERT表示模塊記為-BERT。將匹配詞社區(qū)自注意力模塊替換為靜態(tài)的詞頻權(quán)重計(jì)算,得到模型記作-Self_attention。四種模型在法律文書(shū)數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果如表4所示。

表4 消融驗(yàn)證實(shí)驗(yàn)結(jié)果

由表4實(shí)驗(yàn)結(jié)果可以看出:

(1) FMM-CAM相比-Word2Vec模型和-BERT,在三種指標(biāo)上均有提升,說(shuō)明Word2Vec和BERT的聯(lián)合使用有利于命名實(shí)體識(shí)別。而-BERT在三種指標(biāo)上下降較多,說(shuō)明中文BERT預(yù)訓(xùn)練模型的字嵌入所表達(dá)語(yǔ)義信息更為準(zhǔn)確。

(2) -Self_attention與FMM-CAM的性能相比,其性能下降明顯,說(shuō)明基于自注意力機(jī)制的匹配詞關(guān)聯(lián)性權(quán)重的計(jì)算對(duì)法律文書(shū)長(zhǎng)實(shí)體邊界的識(shí)別是有效的。

綜上所述,本文的 FMM-CAM充分利用了Word2Vec和BERT聯(lián)合表示以及自注意力機(jī)制,使其在法律文書(shū)的長(zhǎng)命名實(shí)體識(shí)別上取得了較好的效果。

3.6 模型領(lǐng)域泛化性實(shí)驗(yàn)

為了驗(yàn)證本文FMM-CAM模型在其他領(lǐng)域中的適用性,選用了社交領(lǐng)域的Weibo數(shù)據(jù)集和 Resume 簡(jiǎn)歷數(shù)據(jù)集,并選擇性能較好的模型SoftLexicon(LSTM)+BERT[4]進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示。

表5 模型領(lǐng)域泛化性實(shí)驗(yàn)結(jié)果

由表5實(shí)驗(yàn)結(jié)果可以看出:

FMM-CAM模型不僅對(duì)法律文書(shū)中的證據(jù)名、證實(shí)內(nèi)容、卷宗號(hào)等關(guān)聯(lián)性較強(qiáng)的長(zhǎng)實(shí)體識(shí)別具有較好的效果,而且在社交和簡(jiǎn)歷領(lǐng)域的效果也超過(guò)了現(xiàn)有的SoftLexicon(LSTM)[4]模型。充分說(shuō)明本文提出的FMM-CAM模型具有較好的領(lǐng)域適應(yīng)性。

4 結(jié)束語(yǔ)

本文采用字級(jí)別的最大正向匹配策略,提出了FMM-CAM法律文書(shū)命名實(shí)體識(shí)別方法。該方法利用了Word2Vec和BERT聯(lián)合表示以及自注意力機(jī)制,使其與詞典匹配詞信息更加充分和全面。與目前通用領(lǐng)域性能較好的方法相比,本文方法在法律文書(shū)中較長(zhǎng)且具有較強(qiáng)關(guān)聯(lián)性的證據(jù)名、證實(shí)內(nèi)容和卷宗號(hào)實(shí)體的邊界確定上取得了較好的效果,從而提升了法律文書(shū)實(shí)體識(shí)別的性能。另外,值得指出的是,本文還在Weibo和Resume簡(jiǎn)歷領(lǐng)域的數(shù)據(jù)集驗(yàn)證了FMM-CAM方法,均取得了較好的性能,說(shuō)明本文方法不僅可以用于法律文書(shū)中的長(zhǎng)命名實(shí)體識(shí)別,而且可以用于其他領(lǐng)域的命名實(shí)體識(shí)別中。

猜你喜歡
法律文書(shū)關(guān)聯(lián)性命名
基于單元視角的關(guān)聯(lián)性閱讀教學(xué)策略淺探
瀝青分子量及其分布與短期熱老化性能的關(guān)聯(lián)性研究
飲用油茶與糖尿病患病風(fēng)險(xiǎn)的關(guān)聯(lián)性分析
新時(shí)代法律文書(shū)課程教學(xué)創(chuàng)新有效策略研究
破解債務(wù)人“履行難”問(wèn)題研究——法律文書(shū)生效后的提存探析
命名——助力有機(jī)化學(xué)的學(xué)習(xí)
ECG檢查T(mén)波動(dòng)態(tài)變化與急性心肌梗死患者LVEF的關(guān)聯(lián)性分析
有一種男人以“暖”命名
為一條河命名——在白河源
論法律文書(shū)的概念修正