摘 要:共指消解是確定上下文中的代詞或名詞短語所指的具體對象或?qū)嶓w,是自然語言處理(Natural LanguageProcessing,NLP)的基本任務(wù)之一,對理解文本語義具有重要意義。現(xiàn)有的方法主要集中在一般領(lǐng)域的代詞、所有格和名詞短語的解析上,針對法律領(lǐng)域的研究較少。為了更好地學(xué)習(xí)法律文本中的知識,并消除共同指代現(xiàn)象,提出一種基于圖神經(jīng)網(wǎng)絡(luò)的法律文本共指消解模型(Graph Neural Network for Coreference Resolution,CRGNN)。所提CRGNN 可以促進(jìn)法律文本挖掘中的一系列后續(xù)任務(wù)。利用預(yù)訓(xùn)練語言模型和雙向門控循環(huán)單元(Bidirectional Gate RecurrentUnit,BiGRU)對法律文本進(jìn)行編碼;使用基于元任務(wù)的動態(tài)圖卷積網(wǎng)絡(luò)(Meta Dynamic Graph Convolutional Network,MDGCN)整合實體之間的引用關(guān)系;使用前饋神經(jīng)網(wǎng)絡(luò)(FeedForward Neural Network,FFNN)和Biaffine 模型為候選對進(jìn)行加權(quán)評估。CRGNN 可以有效識別實體之間的引用關(guān)系,并對實體依賴關(guān)系進(jìn)行建模。在法庭記錄文件數(shù)據(jù)集上進(jìn)行大量實驗,結(jié)果表明所提CRGNN 模型達(dá)到89. 76% 的F1 分?jǐn)?shù),均高于現(xiàn)有基準(zhǔn)模型。
關(guān)鍵詞:自然語言處理;共指消解;法律文本;預(yù)訓(xùn)練語言模型;圖神經(jīng)網(wǎng)絡(luò)
中圖分類號:TP311 文獻(xiàn)標(biāo)志碼:A 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
文章編號:1003-3114(2024)03-0587-10
0 引言
共指消解是自然語言處理(Natural LanguageProcessing,NLP)的一項基本任務(wù)[1-4],對于許多NLP 下游任務(wù)至關(guān)重要,例如信息提?。郏担荨柎穑郏叮莺蜋C(jī)器翻譯[7]等。共指消解的目的是將文檔中的實體聚類到不同的簇中。Choubey 等[8]提出一種事件共指解析的迭代方法,該方法通過訓(xùn)練兩個不同的分類器來逐步構(gòu)建事件的聚類過程,以識別文檔內(nèi)和跨文檔的事件提及。
近年來,隨著開源的高質(zhì)量法律文本數(shù)量增多,NLP 被廣泛應(yīng)用于法律文本挖掘的各種任務(wù)中,例如法律判決預(yù)測、法律文本分類、法人實體識別和案例事實分析。然而,基于法律文本的共指消解研究仍有待發(fā)展。Gupta 等[9]使用條件隨機(jī)場來檢測數(shù)據(jù)集中的提及,首先使用二元分類器來生成候選提及對,并使用規(guī)則模板進(jìn)一步創(chuàng)建參考組。然而,該方法嚴(yán)重依賴手工提取的特征,無法捕獲連續(xù)的上下文信息。
NLP 已廣泛應(yīng)用于法律領(lǐng)域的文本挖掘任務(wù)。例如,Chalkidis 等[10]使用邏輯回歸和支持向量機(jī),以解決合同成分提取問題。實驗表明,將機(jī)器學(xué)習(xí)與手動編寫的后處理規(guī)則相結(jié)合,通過混合方法可以獲得最佳結(jié)果。Merchant 等[11]提出一種基于潛在語義分析的自動文本摘要系統(tǒng),可從冗長的文本中提取要點,并減少編輯的工作量。最近,Yang 等[12]提出一種多視角雙反饋網(wǎng)絡(luò),該網(wǎng)絡(luò)由法律判決預(yù)測任務(wù)的前向預(yù)測和后向驗證組成,并利用多個子任務(wù)之間的拓?fù)湟蕾囮P(guān)系來提高預(yù)測性能。Ji 等[13]提出一種端到端模型來學(xué)習(xí)庭審記錄中不同句子中的證據(jù)鏈,采用共享編碼器和獨立解碼器進(jìn)行多任務(wù)學(xué)習(xí)。
共指消解在許多領(lǐng)域得到了廣泛的研究。Clark 等[14]提出一種整合實體級信息的方法,構(gòu)建集群排名模型,對由集群層編碼的分布式表示進(jìn)行評分。文獻(xiàn)[15]使用生物醫(yī)學(xué)文本的端到端模型,并結(jié)合特定領(lǐng)域的特征來提高模型性能。Luan 等[16]通過利用不同句子的關(guān)系執(zhí)行多任務(wù)學(xué)習(xí),共同識別科學(xué)文章中的實體、關(guān)系和共指簇。Chen 等[17]在英語數(shù)據(jù)集上為共指消解任務(wù)提供了幾個基準(zhǔn)模型,該數(shù)據(jù)集基于中國初高中學(xué)生的英語閱讀理解測試構(gòu)建。Cardellino 等[18]提出一種將特定領(lǐng)域?qū)嶓w與通用領(lǐng)域本體對齊的方法,以增強(qiáng)法律領(lǐng)域本體表示。然而,在法律領(lǐng)域,針對發(fā)言人的共指消解研究較少[19]。
本文利用提及排序模型探討了法庭筆錄文件中說話者的共指消解問題。不同于起訴狀、傳票、公證文書等法律文書,訴訟文書是當(dāng)事人在司法活動中所作的事實陳述和辯論的記錄。
現(xiàn)有模型無法直接用于法律文本的共指消解,原理如下:① 與普通文本不同,法律文本嚴(yán)謹(jǐn),專業(yè)性強(qiáng),知識豐富。② 數(shù)據(jù)集內(nèi)的文件來自不同省份的真實法律案件,雖然格式類似,但記錄方式不同(比如縮略語)。換句話說,法庭筆錄文件涉及多個發(fā)言人,每個發(fā)言人都可以用多種方式提及。③ 法庭筆錄文件描述了解決民事糾紛的司法程序。該文件以雙方對話的形式記錄,沒有標(biāo)準(zhǔn)化的書面格式。
由于涉及事實陳述和反對意見的段落相對較長,并且冗長的文本增加了模型的計算復(fù)雜度,導(dǎo)致實體分散在文本中。如何充分利用上下文信息并對實體依賴關(guān)系進(jìn)行建模,是亟需解決的關(guān)鍵問題。為此,提出一種基于圖神經(jīng)網(wǎng)絡(luò)的法律文本共指消解模型(Graph Neural Network for Coreference Resolu-tion,CRGNN),該模型包含四個步驟:① 由于冗長文本帶有稀疏實體,選擇包含預(yù)定義實體的句子作為模型的輸入;② 采用預(yù)訓(xùn)練的語言模型ELMo(Embeddings from Language Models)[20]和BERT(Bidirectional Encoder Representation from Transformers)[21]作為詞向量的來源,雙向門控循環(huán)單元(BidirectionalGate Recurrent Unit,BiGRU)[22]和注意力機(jī)制[23]用于生成實體表示;③ 為了有效地利用上下文信息,構(gòu)建包含實體及其提及關(guān)系、映射關(guān)系的文檔級別圖譜;④ 采用多重評分機(jī)制,對先行詞之間的依賴關(guān)系進(jìn)行建模,生成候選分?jǐn)?shù)。
1 相關(guān)定義
針對發(fā)言人的共指消解任務(wù)是共指消解任務(wù)的一個重要子任務(wù),目的是在法庭筆錄文件中與發(fā)言人相關(guān)的三種實體(縮略語實體、姓名實體和身份實體)之間建立共指鏈接。
定義1 映射方案。提出兩種解決方案來形式化發(fā)言人的共指消解問題:① 縮略語實體與姓名實體的映射記為A-N,即在縮略語實體和姓名實體之間建立共指鏈接;② 縮略語實體與身份實體的映射記為A-S,即在縮略語實體和身份實體之間建立共指鏈接。其中,姓名實體和身份實體之間的映射關(guān)系可以通過自定義規(guī)則從句子中提取出來。上述兩種映射方案按不同順序解決實體共指問題,將實體之間的關(guān)系提取轉(zhuǎn)化為基于文檔的共指消解問題。