摘 要:文檔級事件抽取面臨論元分散和多事件兩大挑戰(zhàn),已有工作大多采用逐句抽取候選論元的方式,難以建??缇涞纳舷挛男畔?。為此,提出了一種基于多粒度閱讀器和圖注意網(wǎng)絡的文檔級事件抽取模型,采用多粒度閱讀器實現(xiàn)多層次語義編碼,通過圖注意力網(wǎng)絡捕獲實體對之間的局部和全局關系,構建基于實體對相似度的剪枝完全圖作為偽觸發(fā)器,全面捕捉文檔中的事件和論元。在公共數(shù)據(jù)集ChFinAnn和DuEE-Fin上進行了實驗,結果表明提出的方法改善了論元分散問題,提升了模型事件抽取性能。
關鍵詞:多粒度閱讀器; 圖注意力網(wǎng)絡; 文檔級事件抽取
中圖分類號:TP391 文獻標志碼:A
文章編號:1001-3695(2024)08-012-2329-07
doi:10.19734/j.issn.1001-3695.2024.01.0001
Document level event extraction based on multi granularityreaders and graph attention networks
Xue Songdong, Li Yonghao, Zhao Hongyan
(School of Computer Science & Technology, Taiyuan University of Science & Technology, Taiyuan 030024, China)
Abstract:Document level event extraction faces two major challenges: argument dispersion and multiple events. Most exis-ting work adopts the method of extracting candidate arguments sentence by sentence, which makes it difficult to model contextual information across sentences. Therefore, this paper proposed a document level event extraction model based on multi granularity readers and graph attention networks. It used multi-granularity readers to achieve multi-level semantic encoding, and used the graph attention network to capture local and global relations between entity pairs. It constructed a pruned complete graph based on entity pair similarity as a pseudo trigger to comprehensively capture events and arguments in the document. Experiments conducted on the public datasets of ChFinAnn and DuEE-Fin show that the proposed method improves the problem of argument dispersion and enhances model’s event extraction performance.
Key words:multi-granularity reader; graph attention network; document-level event extraction
0 引言
事件抽?。╡vent extraction,EE)旨在從非結構化文本中識別事件及其事件論元(參與事件的實體),是信息抽取的重要任務之一。目前的研究主要集中在句子級事件抽?。╯entence level event extraction,SEE)[1]任務上,側重于從一個句子中識別事件觸發(fā)詞[2]、確定事件類型、識別論元以及判斷論元角色。然而,一個事件往往會分布在多個句子或整篇文檔中,句子級的事件抽取無法滿足人工智能和自然語言處理相關領域的應用需求。因此,近些年來文檔級事件抽取引起了學者們的研究熱潮。
文檔級事件抽?。╠ocument level event extraction,DEE)是從文檔中確定事件類型、識別論元及判斷論元角色[3]。與句子級事件抽取相比,文檔級事件抽取面臨論元分散和多事件兩個挑戰(zhàn)。論元分散問題是指一個事件的論元可能分散在多個句子中;多事件問題是指一篇文檔中可能會同時存在多個事件。如圖1所示,該示例來自于ChFinAnn數(shù)據(jù)集(https://github.com/dolphin-zs/Doc2EDAG),文檔級事件抽取的任務就是從左邊給定的文檔中抽取出所有事件、對應論元以及論元角色,并以結構化形式表示。該文檔包含了兩個“質押事件”,其中第一個“質押事件”涉及到的事件論元角色包括“質押人、質押股份、質權人、持有股份總數(shù)、總持有比率、質押股份總數(shù)、起始日期、釋放日期”,這些論元分散在文檔中的第5、8和10個句子中;第二個“質押事件”涉及到的事件論元角色包括“質押人、質押股份、質權人、起始日期、釋放日期”,這些論元分散在文檔中的第5和7個句子中。如何從文檔的多個句子中識別出每一個事件的多個論元是一項極其復雜和極具挑戰(zhàn)性的工作,它不僅需要考慮句內(nèi)局部信息,還要考慮文檔中句間的全局信息。
目前,DEE任務的研究主要分為串行預測和并行預測兩種。串行預測先預測事件類型,再確定其預定義的論元角色順序,然后按照預定義論元角色順序對論元進行二元分類,判斷論元與論元角色是否匹配。DCFEE模型[4]利用遠程監(jiān)督方法擴展訓練語料庫,對逐個句子提取觸發(fā)詞和論元,將觸發(fā)詞和論元與當前句子連接,利用卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)[5]判斷當前句子是否為關鍵句,同時提出一種補全策略,從關鍵事件所在句子的周圍句子中獲得論元進行補全,但該方法沒有考慮論元識別階段的誤差傳遞。Doc2EDAG[6]提出將論元識別問題轉換為基于論元的有向無環(huán)圖(directed acyclic graph,DAG)的路徑擴展問題,從而實現(xiàn)了無觸發(fā)詞的事件類型檢測。確定事件類型后,通過預定義論元角色的順序生成有向無環(huán)圖進行識別,由于DAG的每條路徑都表示一個事件,所以需要通過論元節(jié)點來擴展路徑。有向無環(huán)圖的生成類似于表格的填寫,根據(jù)預定義論元角色一步步填寫論元。通過預定義角色順序逐個確定論元,理論上可以提取一個文檔中的多個事件,解決了文檔中的多事件問題。然而當事件論元出現(xiàn)在不同句子時,通過Transformer[7]融合句子和論元信息很難捕獲內(nèi)部依賴關系。為此,GIT模型[8]基于Doc2EDAG提出了異構圖和tracker模塊,異構圖用于捕獲不同句子和論元提及之間的全局交互,tracker模塊用于存儲已解碼的事件記錄。但在同一事件中,先捕獲的論元信息不能考慮到后面捕獲的實體信息。張虎等人[9]提出一種基于多粒度實體異構圖的篇章級事件抽取方法,該方法主要的創(chuàng)新點在于它結合了句子級和段落級實體抽取,并利用圖卷積網(wǎng)絡(graph convolution network,GCN)[10]來增強對文檔上下文的感知,能夠有效地處理跨句信息,從而提高了事件抽取的精度和效果。但同時段落級方法可能忽略了文檔中不同部分事件之間更廣泛的上下文,而且其相對復雜的模型和較高的資源需求是需要考慮的問題。綜上所述,采用串行預測方法對單個論元提取時,僅考慮了前面已識別的論元,無法利用所有論元的上下文語義信息,影響了模型性能。
針對上述文檔級事件抽取串行預測方法的局限性,有學者提出并行預測的文檔級事件抽取方法,其核心思想是把論元和論元角色的識別問題轉換成一種生成任務,不僅能夠解決串行預測僅關注局部論元信息的問題,而且極大地提高了模型的解碼速度。例如PTPCG模型[11]將論元組合表示為一個修剪的完全圖,把重要論元作為一組具有雙向連接的偽觸發(fā)器,其他普通論元以定向方式與這些偽觸發(fā)器連接,并設計了一種具有非自回歸解碼策略的高效事件論元組合提取算法。但該模型采用雙向長短時記憶網(wǎng)絡(bi-directional long short-term memoU0UrENzyRVH+hlcFjvB/WAhguFd4hDMKUbz1+DM1jJo=ry,BiLSTM)[12]提取論元組合,主要關注局部信息,難以捕獲全局語義信息,導致實體抽取質量不高。DEE-CF模型[13]通過分割文檔為不同的段落,優(yōu)化了模型抽取范圍,能夠充分抽取更細致的語義信息。利用BiLSTM獲取局部的段落特征信息和全局的文檔序列特征信息,結合局部與全局視角的優(yōu)勢,增強了模型對文檔級事件的理解能力。DE-RCGNN模型[14]結合了閱讀理解和圖神經(jīng)網(wǎng)絡來解決篇章級事件抽取中的挑戰(zhàn),有效地利用了論元角色先驗信息和篇章級信息來提高事件元素抽取的準確性和整體性能,但該方法需要對每個事件論元角色構建問答,導致樣本數(shù)量增加,降低了運行效率。
綜合考慮上述文檔級事件抽取模型的優(yōu)缺點,本文提出了一種新的非自回歸文檔級事件抽取模型——基于多粒度閱讀器和圖注意力網(wǎng)絡的文檔級事件抽取模型(MGR-GATPCG)。該模型引入多粒度閱讀器有效整合分散在不同句子中的論元信息,提高模型對文檔全局上下文的捕獲能力;提出一種滾雪球式的圖注意力網(wǎng)絡[15]來增強跨句論元間復雜關系的交互,有助于處理文檔中的多事件問題;采用一種非自回歸解碼策略,并行處理多個論元,提高模型解碼速度和效率,而且避免了串行預測中的誤差累積問題,使模型在考慮全局信息的同時,快速準確地識別和分類事件論元??傊?,本文的主要貢獻如下:
a)構建了一種新的基于多粒度閱讀器的文檔級事件語義表示模型,從局部到全局對文檔進行不同粒度語義編碼,并提出一種門控機制的信息融合方法,動態(tài)地聚合句子級上下文信息和文檔級上下文信息,實現(xiàn)局部信息和全局信息的融合。
b)提出了一種滾雪球式的圖注意力網(wǎng)絡方法,融合句內(nèi)的論元信息和句間的論元信息,從而增強實體語義表示,為觸發(fā)器的確定提供了保障。
c)在ChFinAnn和DuEE-Fin數(shù)據(jù)集上進行大量對比實驗,結果表明本文模型的性能在大多評價指標上優(yōu)于先進的基線模型,并采用消融實驗驗證了模型各個模塊的性能。
1 MGR-GATPCG模型
本文模型MGR-GATPCG架構如圖2所示,包括基于多粒度閱讀器的語義表示、候選論元識別、滾雪球式的圖注意力網(wǎng)絡方法、事件類型檢測和事件檢測五個子模塊。其中基于多粒度閱讀器的語義表示模塊對文檔分別進行文檔級和句子級編碼,采用一種基于門控機制[16]的信息融合方法來融合不同粒度的信息;候選論元識別模塊利用CRF層獲取論元提及,將論元提及與預定義論元提及類型拼接后進行最大池化,獲得候選論元;滾雪球式的圖注意力網(wǎng)絡方法模塊對論元提及進行局部語義編碼和全局語義編碼,得到最終論元集;事件類型檢測模塊對句子采用最大池化方法進行二分類事件類型檢測;事件檢測模塊計算論元對之間的相似度,構建剪枝完全圖的相鄰矩陣;最后對相鄰矩陣解碼組合后,進行事件類型、論元角色與論元配對,最終生成事件。
1.1 基于多粒度閱讀器的語義表示
雖然同粒度嵌入層的詞嵌入的初始化詞是相同的,但每個標記的上下文表示在編碼時會因其所在句子的上下文或段落的上下文中不同而有所不同。為了實現(xiàn)不同粒度(句子級和文檔級)上下文感知的語義表示,本文提出一種基于多粒度閱讀器的文檔級語義表示方法。首先,模型使用BiLSTM對句子級信息進行編碼,以捕獲句子內(nèi)部的細節(jié)和上下文語義信息。然后,通過maxpooling對這些句子編碼進行整合,并使用Transformer模型強大的自注意力機制來捕獲句子之間的復雜關系和全文檔的上下文信息。此外,為了在更宏觀的層面上捕捉文檔的整體結構和長距離依賴關系,直接對文檔使用Bi-LSTM進行編碼,該編碼策略增強了不同粒度的上下文信息處理——從細粒度的句子級編碼到粗粒度的文檔級編碼,使模型不僅能夠理解每個句子內(nèi)的細節(jié)信息,同時也能夠把握整個文檔的結構,為文檔級事件抽取提供全面的信息支持。
具體來說,給定一個輸入的文檔D={Si}Ni=1,它由N個句子組成,其中Si={wj}Mj=1,每個句子由M個單詞序列組成。本文模型構建了兩個子模塊(BiLSTMsent-Transformer和 BiLSTMdoc)分別進行句子級和文檔級上下文表示。該模塊句子級的上下文表示為{(Si)1…(Si)j},文檔級的上下文表示為{(S1)1…(S1)j…(Si)1…(Si)j}。
1.1.1 基于句子級的文檔編碼
在句子級編碼子模塊中,首先采用BiLSTMsent依次對文檔中的每個句子進行編碼,具體表示如下:
{(Si)1,(Si)2,…,(Si)j}=BiLSTMsent({(Si)1,(Si)2,(Si)j})(1)
其中:Si代表第i個句子;(Si)j表示第Si句子中的第j個詞嵌入。然后對所有句子內(nèi)的詞嵌入使用maxpooling方法后,使用Transformer對文檔中的所有詞嵌入和句子表示進行編碼,得到基于句子級的文檔編碼,其中‖用來連接句子表示:
{(S1)1…(S1)j…(Si)1…(Si)j}=
Transformer({(S1)1…(S1)j…(Si)1…(Si)j‖Si})(2)
1.1.2 基于文檔級編碼
在文檔級子編碼模塊中,本文依然采用一個BiLSTM編碼器(BiLSTMdoc)應用于整個文檔,以捕獲文檔中標記間的依賴關系:
{P^(S1)1…P^(S1)j…P^(Si)1…P^(Si)j}=
BiLSTMdoc({(S1)1…(S1)j…(Si)1…(Si)j})(3)
其中:P^(Si)j是經(jīng)過編碼的文檔級上下文表示。
1.1.3 融合不同粒度的文檔編碼
為了融合在句子級((Si)j)和文檔級(P^(Si)j)學習到的語義信息,本文提出一種門控融合算法,融合局部語義信息和全局語義信息,具體如式(4)(5)所示。
g(Si)j=sigmoid(w1(Si)j+w2P^(Si)j+b)(4)
p(Si)j=g(Si)j⊙(Si)j+(1-g(Si)j)⊙(Si)j(5)
其中:符號⊙表示門控裝置;w1和w2是可訓練參數(shù);g(Si)j是門控融合計算的門向量,該向量由句子級表示(Si)j和文檔級表示P^(Si)j組成,以控制從兩個表示中合并信息的多少;g(Si)j為最終標簽序列。
1.2 候選論元識別
通過考慮標簽之間的依賴關系,對神經(jīng)網(wǎng)絡的輸出進行全局約束,以生成最佳的標簽序列。本文在上節(jié)網(wǎng)絡的輸出層之后添加了一個條件隨機場(conditional random fields,CRF)[17]層,用于對每個標記位置的標簽進行歸一化概率計算。
最后,根據(jù)文獻[6],本文將融合不同粒度的文檔編碼進行候選論元識別,建模為序列標記任務。通過候選論元識別,從給定的句子Si中獲得候選論元集ε= {ei}|Na|i=1,|Na|為識別出的候選論元個數(shù)。論元抽取的訓練目標是最小化每個句子的負對數(shù)似然損失Lner,如式(6)所示。
Lner=-∑Si∈Dlog P(ySi|P(Si)j)(6)
其中:ySi是輸入序列Si的黃金標簽序列;P(Si)j為預測的標簽序列,在推理過程中,該文采用Viterbi[18]算法解碼最大概率標簽序列。
本文在詞嵌入級層上采用最大池化(maxpooling)操作以獲得最終候選論元嵌入i,該方法已被文獻[6]證明了對下游子模塊有效。通過查找嵌入表將預測的論元類型轉換為向量。將論元ei與論元類型嵌入li拼接起來,得到論元提及表示i =(ei‖li)∈Euclid ExtraaBpda,其中da=dh+dl, dl表示li的維數(shù)。最后,對一個論元的所有提及表示進行聚合,然后通過最大池化方法確定最終候選論元的標簽序列。
1.3 滾雪球式的圖注意力網(wǎng)絡方法
為了更好地建模論元語義表示,本文使用了圖注意力網(wǎng)絡對論元集ε={i}|ε|i=1進行局部編碼和全局編碼。
首先,根據(jù)文檔級事件抽取存在的知識進行句內(nèi)論元語義交互和句間論元語義交互。句內(nèi)論元語義交互的依據(jù)是基于在同一句子中的論元更有可能是同一事件的論元的先驗知識。句間論元語義交互的依據(jù)是包含相同論元的句子往往敘述相同的事件?;谝陨现R以及文獻[19],本文使用圖注意力網(wǎng)絡對實體集進行局部編碼和全局編碼。
a)局部語義編碼。本文采用一個圖注意力網(wǎng)絡,在不同句子中提取相同論元提及,然后將這些不同句子中的所有相關論元提及與當前論元提及連接組成局部圖注意力網(wǎng)絡。例如,在圖2滾雪球式的圖注意力網(wǎng)絡方法中,候選論元A、B和C在同一句子中,B和D在同一句子中,E和F分別在另外的單獨句子中。由于B同時在兩個句子中,則對A、B、C和D四個候選論元進行局部語義編碼。
b)全局語義編碼。與整個文檔中的論元進行交互的方法可以在更宏觀的層面上理解事件的上下文,包括跨句子或跨段落的論元關系。同時,在處理包含多個相互關聯(lián)事件的長文檔時,能夠提供更豐富的語義信息,從而提高事件抽取的準確性和效率。往往數(shù)據(jù)集中句子中出現(xiàn)的單個候選論元很大可能是起始日期或者結束日期,局部語義編碼無法獲取文檔全部的論元信息。為此,在全局語義編碼中候選論元的鄰接矩陣由它與所有的其他論元提及連接組成全局圖注意力網(wǎng)絡。
一般來說,GAT層的輸入是一個無向無權圖G =(V,E),鄰接矩陣F和G分別代表局部注意力網(wǎng)絡和全局注意力網(wǎng)絡的邊,節(jié)點屬性向量為論元集ε。本文用D′表示GAT輸出。為了獲得圖中不同節(jié)點對被關注節(jié)點的重要性,本文在圖中采用了注意力機制,注意力評分αij表示鄰居節(jié)點j對被關注節(jié)點i的重要程度:
αij=exp(σ(aT[Wi‖Wj]))∑k∈Niexp(σ(aT[Wi‖Wk]))(7)
其中:σ為LeakyReLU[20]激活函數(shù);a∈Euclid ExtraaBp2D′為全連通層;W∈Euclid ExtraaBpD′×D為權重矩陣;Ni為節(jié)點i的鄰居。
模型采用帶有K個頭的多頭注意機制從不同的表征子空間中捕獲更多的信息,得到最終實體集ε′={e′i}|ε|i=1,如式(8)所示。
e′i=σ(1k∑Kk=1∑j∈NiαkijWkj)(8)
其中:αkij表示第k個注意力機制計算得到的歸一化注意力系數(shù);Wk是相應輸入線性變化的權重矩陣;e′i為平均K個頭的GAT輸出特征。
1.4 事件類型檢測
對于文檔D,本文遵循文獻[6],對每種事件類型進行二元分類。將事件檢測Ldet的損失函數(shù)定義為二元交叉熵損失。通過對預測序列中每個句子表示P(Si)j作最大池化,獲得文檔中每個句子的文檔感知表示hSi。由于文檔中會包含多種事件類型,為了預測文檔中的事件類型,對文檔表示hSi上的每種事件類型進行二元分類。這里將文檔感知表示hSi輸送到多個前饋網(wǎng)絡中,以判斷每個事件預測是否為空:
ydec=softmax(hSiWte)(9)
其中:Wte∈Euclid ExtraaBpd×2表示t種事件的可學習參數(shù),t∈T,T是數(shù)據(jù)集中所有預定義的事件類型。最后使用得到的預測值ydec和黃金數(shù)據(jù)yi求二元交叉熵損失函數(shù):
Ldec=-[yilog ydec+(1-yi)log(1-ydec)](10)
1.5 事件檢測
1.5.1 完全圖構建
在文檔級事件抽取任務的研究中,傳統(tǒng)的觸發(fā)詞識別方法面臨著明顯的局限性,即單一句子或局部文本片段往往不足以準確識別和分類復雜事件。這是因為事件的全貌可能分散在文檔的多個部分,包括跨句子甚至跨段落的信息。為了克服這些限制,本文提出了一個創(chuàng)新的模型設計,結合了偽觸發(fā)器和完全圖的構建,旨在全面捕捉文檔中的事件和論元之間的關系。
為此,本文模型引入了偽觸發(fā)器,即不依賴于傳統(tǒng)意義上的觸發(fā)詞,而且根據(jù)觸發(fā)器常有的兩個作用:a)觸發(fā)器可用于識別論元組合;b)觸發(fā)器可用于區(qū)分不同的論元組合,實現(xiàn)對論元間關系的全面捕捉,采用了完全圖的構建方法。為此,本文設計了一個重要性分數(shù)來評估論元可以作為偽觸發(fā)器的可能性。形式上,通過縮放點積[6]作為重要性分數(shù):
ei=e′i×WTi+bi(11)
ej=e′j×WTj+bj(12)
Aij=eTiejdk(13)
其中:Aij表示相似度矩陣;Wi、Wj∈Euclid ExtraaBpda×da和bi、bj ∈Euclid ExtraaBpda是語義空間線性投影的可訓練參數(shù)。對于論元集中的任意兩個偽觸發(fā)器a(i)t和a(j)t,它們是雙向連接的,其中相鄰矩陣y(i,j)A=y(j,i)A=1。對于論元集中的偽觸發(fā)器a(i)t和普通論元a(j)0,它們之間用一個定向鏈接連接,即y(i,j)A= 1。此外,每個論元a(i)都有一個自循環(huán)連接,即y(i,i)A=1。重要性分數(shù)Aij作為預測分數(shù),在訓練中,本文使用二元交叉熵函數(shù)來表示組合損失:
Lcomb=-1|A|∑j∑i[y(i,j)Alog Aij+(1-y(i,j)A)log(1-Aij)](14)
在重要性分數(shù)Aij中,通過式(15)確定候選論元之間的聯(lián)系,其中γ為閾值。
ij=1 Aij≥γ0otherwise(15)
1.5.2 非自回歸組合解碼
基于預測的相鄰矩陣ij,使用非自回歸解碼算法提取事件論元組合。本文采用文獻[11]提出的方法,首先,通過分析節(jié)點的出度信息,可以識別所有的偽觸發(fā)器,并將它們組成一個集合。偽觸發(fā)器是指具有非零出度(除了自循環(huán))的論元。對于只有一個偽觸發(fā)器的情況,所有的組合都是以該偽觸發(fā)器為中心的樹結構。對于偽觸發(fā)器數(shù)量大于1的情況,采用Brown-Kerbosch(BK)算法[21]來查找所有可能的集合。這樣可以對事件觸發(fā)器進行更準確的識別和分類。
在每個集合中,本文利用偽觸發(fā)器的鄰居節(jié)點執(zhí)行交集操作,以找到共同共享的普通論元。普通論元是指在集合中不是偽觸發(fā)器的普通論元。通過提取普通論元,可以更全面地描述事件,并捕捉到不同論元之間的關系和聯(lián)系。通過這種組合方式,可以建立事件的整體框架結構,并進一步推斷和預測事件的其他屬性。由于非自回歸解碼不涉及基于DAG的多步驟圖鏈接依賴,所以該方法具有較快的訓練和推理速度。
1.5.3 事件記錄生成
從修剪的完全圖中獲得論元組合集之后,下一步是將這些組合填充到事件表中,使所有的組合都與事件類型和論元角色匹配。本文遵從文獻[11],對于所有事件類型TP={tj}|Tp|j=1和論元角色組合C,執(zhí)行笛卡爾積,得到所有類型組合對{〈tj,rk〉|1≤j≤|TP|,1≤k≤|C|}。對于每一對〈tj,rk〉,使用事件相關的前饋神經(jīng)網(wǎng)絡(feedforward neural network,F(xiàn)NN)作為分類器來獲得角色rk中所有論元εk的可能論元角色。損失函數(shù)采用二元交叉熵函數(shù),如式(16)(17)所示。
p(j)role(tj|rk)=sigmoid(FFNj(εk))(16)
Lrole=-∑k∑i[y(j,k)rolelog p(j)role(tj|rk)+(1-y(j,k)role)log(1-log p(j)role(tj|rk))](17)
其中:y(j,k)role角色是最符合ck的黃金答案。為了適應角色分類的損失計算,每個預測組合都使用黃金組合進行評估,它們具有相同的事件類型和相同的參數(shù)。其余不匹配的論元不參與損失計算。
1.6 優(yōu)化
MGR-PTPCG模型是一個端到端的模型,在訓練時采用聯(lián)合訓練策略[22]??倱p失為所有損失的加權和,表示為
Lall=λ1Lner+λ2Ldet+λ3Lcomb+λ4Lrole(18)
其中:λ1、λ2、λ3、λ4是超參數(shù),用于平衡各種損失。
2 實驗
2.1 數(shù)據(jù)集
本文使用文獻[6]的公共數(shù)據(jù)集ChFinAnn和百度發(fā)布的金融領域數(shù)據(jù)集DuEE-Fin來評估本文模型。其中ChFinAnn數(shù)據(jù)集采用大量的金融文本構建。它由32 040個文檔組成,是迄今為止最大的文檔級事件抽取數(shù)據(jù)集。它主要關注股權凍結(EF)、股權回購(ER)、股權減持(EU)、股權增持(EO)和股權質押(EP)五種事件類型,共有35種不同的論元角色。本文遵循數(shù)據(jù)集的標準分割,根據(jù)8∶1∶1的比例劃分了訓練集、驗證集和測試集。在該數(shù)據(jù)集中,每個文檔大約包含20個句子,平均由912個詞組成。每個事件記錄平均涉及6句話,29%的文檔包含了多個事件。DuEE-Fin共包含13個已定義好的事件類型和1.15萬篇中文篇章(存在部分非目標篇章作為負樣例),其中6 900個作為訓練集,1 150個作為驗證集,3 450個作為測試集。
2.2 實驗設置與實現(xiàn)方法
實驗環(huán)境:Intel Xeon Platinum 8358P CPU @ 2.60 GHz 100 GB內(nèi)存,Linux,GPU處理器為4塊RTX 3090(24 GB)的獨立顯卡。
a)實現(xiàn)方法與模型架構設置。本文模型使用PyTorch框架實現(xiàn)。MGR-PTPCG模型包括基于多粒度閱讀器的語義表示、候選論元識別、滾雪球式的圖注意力網(wǎng)絡方法、事件類型檢測和事件檢測五個子模塊?;诙嗔6乳喿x器的語義表示模塊采用兩層BiLSTM進行文檔級編碼,使用兩層BiLSTM進行句子級編碼,同時使用兩層Transformer對經(jīng)過maxpooling的句子進行句子級編碼,使用門控機制融合文檔級編碼和句子級編碼,以便進行事件檢測和論元提取。候選論元識別模塊將經(jīng)過CRF得到的實體論元與實體論元類型拼接得到候選論元集。滾雪球式的圖注意力網(wǎng)絡模塊采用了兩個圖注意網(wǎng)絡組成的局部注意力和全局注意力進行論元編碼,通過門控機制動態(tài)融合論元上下文信息。事件類型檢測模塊中,使用softmax對經(jīng)過多粒度閱讀器的語義表示的句子進行二元分類,確定事件類型。事件檢測模塊中,對候選論元集進行縮放點積作為重要性分數(shù),γ為閾值確定候選論元之間的聯(lián)系,生成完全圖。對所有事件類型和論元角色通過笛卡爾積作組合,對每個類型與角色對使用FFFM2NIozSOZfNCQIXjL4DHjGrgJ4OH/N7mwU+UHSLU+A=N作分類器來獲得符合該角色的候選論元。
b)參數(shù)設置。圖注意力網(wǎng)絡用了八個多頭注意力,輸入維度為800,激活函數(shù)采用LeakyReLU函數(shù)。使用與文獻[6]相同的詞匯表,并隨機初始化dh=768和dl=32的所有嵌入。使用Adam[23] 優(yōu)化器,學習率為5E-4, 批量訓練大小為32。λ1、λ2、λ3、λ4的權重分別為0.05、1.0、1.0、1.0,γ為0.5。按照文獻[6]的設置,本文訓練了100個epoch。
2.3 基線模型
為了驗證本文模型的有效性,本實驗采用的基線模型如下:
a)DCFEE[4]:提出了一種關鍵事件檢測方法,以指導事件表,該事件表中填充了來自關鍵事件提及和周圍句子的論元。DCFEE有兩個版本,DCFEE-o只從一個文檔中提取一個事件,而DCFEE-m是從一個文檔中提取多個事件。
b)Doc2EDAG[6]:提出了一種DEE的端到端模型,該模型將DEE轉換為基于實體路徑擴展填充事件表的事件抽取模式。有一個簡單的Doc2EDAG基線,名為GreedyDec,它只貪婪地填充一個事件表條目。
c)PTPCG[11]:使用非自回歸解碼算法,對在自動選擇的偽觸發(fā)器的指導下構造的剪枝完全圖進行事件論元組合提取。
d)MEHG[9]:提出一種結合句子級和段落級的文檔級實體抽取,并利用圖卷積神經(jīng)網(wǎng)絡來增強對文檔的上下文感知,之后使用與GIT相同的實體路徑擴展填充時的事件抽取模式。
e)DE-RCGNN[14]:提出一種結合閱讀理解和圖神經(jīng)網(wǎng)絡的模型來解決篇章級事件抽取中的挑戰(zhàn),利用論元角色先驗信息和篇章級信息來提高事件元素抽取的準確性和整體性能。
2.4 評估模型
本文采用了Doc2EDAG模型使用的評價準則,并選擇在開發(fā)集上F1得分最高的檢查點在測試集上進行評估。具體來說,對于每個篇章的所有黃金事件,采用不放回的方式預測事件類型相同且論元角色正確數(shù)量最多的事件,并以此作為模型的預測結果,分別采用精度(P)、召回率(R)和F1值(F1分數(shù))進行評測。由于事件類型通常包括多個角色,所以論元角色評測采用Micro-F1指標。 計算過程如式(19)~(21)所示。
p=nrightargpredarg s(19)
R=nrightarggoldarg s(20)
F1=2×precision×recallprecision+recall(21)
其中:nrightarg是指事件類型相同且論元角色正確的數(shù)量;predarg s是所有預測論元的數(shù)量;gold arg s是所有黃金論元的數(shù)量。
2.5 實驗結果
2.5.1 在ChFinAnn數(shù)據(jù)集上的實驗
本文首先在ChFinAnn的測試集上進行了實驗,實驗結果如表1所示。從結果可以看出:MGR-GATPCG模型在大部分事件類型上均取得了最好的F1值;與MEHG模型相比,在EF、ER、EU、EP 上的F1值分別提高了1.1、0.3、0.7、0.7百分點,與DE-RCGNN模型相比,本文模型在EF、ER、EU、EP上的F1分別提高了1.1、1.3、2.1、0.4百分點。這一性能的提升主要歸因于本文模型融合了句子級和文檔級的語義信息,以及它有效地利用圖注意力網(wǎng)絡獲取更全面的語義信息。模型特別在EF、ER、EU、EP事件類型上展現(xiàn)出優(yōu)越的性能,這證明了其在捕獲文檔中復雜事件結構和細節(jié)方面的有效性。尤其是,在處理那些跨句子或跨段落的事件時,本文模型能夠更準確地識別和鏈接相關的信息,從而提高了事件抽取的準確度。雖然在EO任務上,本文模型性能并未達到最佳,分析原因可能包括非自回歸模型在論元角色和論元交互生成任務上的訓練難度較高,以及ChFinAnn數(shù)據(jù)集在EO任務上的占比最高,導致模型容易過擬合。
2.5.2 基于預測論元vs基于黃金論元的實驗比較
為了證明論元質量對事件抽取效果的影響,本文將采用黃金論元代替預測論元進行事件檢測和論元識別任務,比較不同模型使用預測論元和黃金論元時的F1值。從實驗結果表2可以看出,當采用黃金論元替代預測論元進行事件檢測和論元識別任務時,所有模型的性能都有所提高。這一點在模型中表現(xiàn)尤為明顯,其采用黃金論元得到的F1值達到了87.6%,不僅高于其他模型,而且比采用預測論元時高出了6.1百分點。這一結果強調(diào)了優(yōu)化論元識別精度的重要性。模型通過引入多粒度閱讀器和圖注意網(wǎng)絡,有效提高了論元識別的準確性,并增強了論元對的語義編碼,從而在采用預測論元時就已經(jīng)展現(xiàn)出了較高的性能。此外,滾雪球式的圖注意網(wǎng)絡方法進一步增強了模型處理黃金論元時的性能,使其在論元質量較高時能夠更好地捕捉事件的復雜性和細節(jié),從而提高了事件抽取的整體效果。
2.5.3 單事件和多事件抽取實驗
為了進一步驗證本文模型在ChFinAnn數(shù)據(jù)集上的每種事件類型下的F1綜合表示,對文檔級事件抽取任務的性能,本文將數(shù)據(jù)集分為單事件(S)和多事件(M)進行實驗。具體方法是根據(jù)文檔的索引對事件類型進行標記,單事件表示一個文檔只涉及一個事件類型,而多事件表示一個文檔涉及多個同類型或不同類型的事件,實驗結果如表3所示。
所有模型在處理單事件文檔時的性能普遍優(yōu)于多事件文檔。這一現(xiàn)象表明,文檔中事件數(shù)量的增加給事件抽取任務帶來了額外的復雜性。特別是對于多事件文檔,事件之間可能存在相互作用和依賴,這要求模型不僅要能夠識別出事件本身,還要準確理解和表示這些事件之間的關系。
特別是在處理多事件文檔上,本文模型的優(yōu)勢更為明顯。這一結果可能歸因于模型采用了多粒度閱讀器語義表示和滾雪球式的圖注意網(wǎng)絡,這些技術提高了模型對文檔中不同粒度信息的捕獲能力,以及對事件之間復雜關系的建模能力。多粒度閱讀器能夠從不同層次上理解文檔,捕獲從細節(jié)到整體的不同信息,這對于識別和區(qū)分文檔中的單個或多個事件至關重要。滾雪球式的圖注意力網(wǎng)絡通過動態(tài)構建和更新論云之間的關系圖,有效地增強了模型對論元間復雜相互作用的理解。這種方法有助于處理包含多個相關事件的復雜文檔。
2.5.4 在DuEE-Fin數(shù)據(jù)集上的實驗
為了進一步驗證本文模型的通用性,本文也在DuEE-Fin數(shù)據(jù)集上進行了實驗,實驗結果如表4所示。
從結果看,本文模型在驗證集和測試集上都取得了最優(yōu)的性能,這表明該模型在準確性、完整性和泛化能力方面均表現(xiàn)出色。這是由于模型可能采用了多粒度閱讀器,能夠同時捕獲句子級和文檔級的信息,從而提高了對文檔全局語義的理解能力。這使得模型在處理論元分散和多事件問題時更為有效。通過圖注意力網(wǎng)絡,模型能夠捕獲論元對之間的復雜語義關系,全面豐富的語義表示有助于模型更準確地理解和抽取與事件相關的信息。
2.5.5 消融實驗
為了進一步評估模型各個模塊的貢獻,本文進行了以下的消融實驗,結果如表5所示。其中,-MG-reader表示去掉多粒度閱讀器;-part GAT表示去掉局部圖注意網(wǎng)絡;-global GAT表示去掉全局圖注意網(wǎng)絡。
從表5的實驗結果可以看出,在MGR-GATPCG模型的基礎上去掉多粒度閱讀器的語義表示模塊后,EF、ER、EU、EO、EP的F1值分別下降了3.1、2.1、2.7、1.7、1.8百分點,反映了多粒度閱讀器在提升文檔編碼的精細度和論元識別精度方面的關鍵作用。多粒度閱讀器通過捕捉文檔不同層次的語義信息,為模型提供了豐富的上下文表示,從而增強了模型對事件結構和論元關系的理解。去掉局部GAT模塊后,EF、ER、EU、EO、EP的F1值分別下降了8.2、9.0、8.4、7.5、8.1百分點,F(xiàn)1值下降最多,局部GAT在促進句內(nèi)論元與句間論元之間的語義編碼和相互作用中發(fā)揮了至關重要的作用。局部GAT通過精細化的注意力機制,強化了模型對于句內(nèi)外論元關系的捕捉,對于維護事件的內(nèi)部一致性和上下文關聯(lián)性至關重要。去掉全局GAT模塊后,EF、ER、EU、EO、EP的F1值分別下降了5.1、6.5、5.5、6.1、6.8百分點。全局GAT的去除雖然對模型性能的影響略小于局部GAT,但仍然十分顯著,特別是在提供全局語義信息和支持跨句子論元關系構建方面。全局GAT通過整合文檔級別的信息,確保了模型能夠理解和利用跨越多個句子的論元關系,對于處理文檔中分散的、跨句子的論元及其相互作用極為關鍵。
2.6 案例分析
為了進一步分析所提模型的效果,對本文模型MGR-GATPCG和PTPCG模型的圖1股權質押(event pledge,EP)事件案例預測結果進行比較,如圖3所示。從圖中可以看出本文模型正確預測了持有股份總數(shù)、總持有比率、質押股份總數(shù)和起始日期的事件記錄,而PTPCG預測不到起始日期、總持有比率等事件論元角色。將PTPCG模型的錯誤預測歸為兩類。首先,PTPCG未能充分考慮更多的上下文信息,降低了論元識別的精度,影響了最終事件抽取的效果;其次,PTPCG未能充分提取跨句之間論元的交互,不能幫助論元對獲取更多語義信息。本文模型通過基于多粒度閱讀器的語義表示和滾雪球的圖注意力網(wǎng)絡方法提升了論元識別的精度,從而促進了論元對的語義交互,提升了事件抽取的性能。
3 結束語
本文提出了一種基于多粒度閱讀器的語義表示模型對文檔進行不同粒度的編碼,以獲取更細致的語義信息,進而改善因抽取特征不充分而造成的事件類型及論元標簽錯誤問題;采用滾雪球式的圖注意網(wǎng)絡方法對論元對進行局部編碼和全局編碼,增強了事件抽取的上下文語義表示,從而提升了論元識別和事件抽取性能。大量實驗對比證明了本文模型的有效性。未來的工作中,將會進一步探索外部知識在事件抽取和論元識別任務上的應用。
參考文獻:
[1]朱藝娜, 曹陽, 鐘靖越, 等. 事件抽取技術研究綜述[J]. 計算機科學, 2022,49(12): 264-273. (Zhu Yina, Cao Yang, Zhong Jingyue, et al. A review of event extraction technology[J]. Compu-ter Science, 2022, 49(12): 264-273.)
[2]趙宇豪, 陳艷平, 黃瑞章, 等. 基于跨度回歸的中文事件觸發(fā)詞抽?。跩]. 應用科學學報, 2023,41(1): 95-106. (Zhao Yuhao, Chen Yanping, Huang Ruizhang, et al. Chinese event triggered word extraction based on span regression[J]. Journal of Applied Science, 2023, 41(1): 95-106.)
[3]王人玉, 項威, 王邦, 等. 文檔級事件抽取研究綜述[J]. 中文信息學報, 2023, 37(6): 1-14. (Wang Renyu, Xiang Wei, Wang Bang, et al. A review of research on document level event extraction[J]. Journal of Chinese Information Processing, 2023, 37(6): 1-14.)
[4]Hang Yang, Chen Yubo, Liu Kang, et al. DCFEE: a document-level Chinese financial event extraction system based on automatically labeled training data[C]//Proc of ACL 2018, System Demonstrations. Stroudsburg, PA: Association for Computational Linguistics, 2018: 50-55.
[5]O’Shea K, Nash R. An introduction to convolutional neural networks [EB/OL]. (2015-12-02). https://arxiv.org/abs/1511.08458.
[6]Zheng Shun, Cao Wei, Xu Wei, et al. Doc2EDAG: an end-to-end document-level framework for Chinese financial event extraction[EB/OL]. (2019-09-23). https://arxiv.org/abs/1904.07535.
[7]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [EB/OL]. (2023-08-02). https://arxiv.org/abs/1706.03762.
[8]Xu Runxin, Liu Tianyu, Li Lei, et al. Document-level event extraction via heterogeneous graph-based interaction model with a tracker[EB/OL]. (2021-05-31). https://arxiv.org/abs/2105.14924.
[9]張虎, 張廣軍. 基于多粒度實體異構圖的篇章級事件抽取方法[J]. 計算機科學, 2023, 50(5): 255-261. (Zhang Hu, Zhang Guangjun. Document-level event extraction based on multi-granularity entity heterogeneous graph[J]. Computer Science, 2023, 50(5): 255-261.)
[10]徐冰冰, 岑科廷, 黃俊杰, 等. 圖卷積神經(jīng)網(wǎng)絡綜述[J]. 計算機學報, 2020, 43(5): 755-780. (Xu Bingbing, Cen Keting, Huang Junjie, et al. Overview of graph convolutional neural networks[J]. Journal of Computer Science, 2020, 43(5): 755-780.)
[11]Zhu Tong, Qu Xiaoye, Chen Wenliang, et al. Efficient document-level event extraction via pseudo-trigger-aware pruned complete graph[EB/OL]. (2022-10-04). https://arxiv.org/abs/2112.06013.
[12]Sepp H, Jürgen S. Long short-term memory[J]. Neural Computer, 1997, 9(8): 1735-1780.
[13]葛君偉, 喬蒙蒙, 方義秋. 基于上下文融合的文檔級事件抽取方法[J]. 計算機應用研究, 2022, 39(1): 48-53. (Ge Junwei, Qiao Mengmeng, Fang Yiqiu. Document level event extraction method based on context fusion[J]. Application Research of Computers, 2022, 39(1): 48-53.)
[14]張亞君, 譚紅葉. 基于閱讀理解與圖神經(jīng)網(wǎng)絡的篇章級事件抽取[J]. 中文信息學報, 2023, 37(8): 95-103. (Zhang Yajun, Tan Hongye. Document-level event extraction based on reading comprehension and graph neural networks[J]. Journal of Chinese Information Processing, 2023, 37(8): 95-103.)
[15]Velickovic P, Cucurull G, Casanova A, et al. Graph attention networks[EB/OL]. (2017-10-30). https://arxiv.org/abs/1710.10903.
[16]陳佳麗, 洪宇, 王捷, 等. 利用門控機制融合依存與語義信息的事件檢測方法[J]. 中文信息學報, 2020, 34(8): 51-60. (Chen Jiali, Hong Yu, Wang Jie, et al. Combination of dependency and semantic information via gated mechanism for event detection[J]. Journal of Chinese Information Processing, 2020, 34(8): 51-60.)
[17]Lafferty J D, McCallum A, Pereira F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]//Proc of the 18th International Conference on Machine Learning. San Francisco, CA: Morgan Kaufmann Publishers Inc., 2001: 282-289.
[18]Forney G D. The Viterbi algorithm[J]. Proc of the IEEE, 1973, 61(3): 268-278.
[19]Huang Yusheng, Jia Weijia. Exploring sentence community for document-level event extraction[M]//Moens M F, Huang Xuanjing, Specia L, et al. Findings of the Association for Computational Linguistics: EMNLP 2021. Stroudsburg, PA: Association for Computational Linguistics, 2021: 340-351.
[20]Xu Bing, Wang Naiyan, Chen Tianqi, et al. Empirical evaluation of rectified activations in convolutional network[EB/OL]. (2015-05-05). https://arxiv.org/abs/1505.00853.
[21]Bron C, Kerbosch J. Algorithm 457: finding all cliques of an undirected graph[J]. Communications of the ACM, 1973, 16(9): 575-577.
[22]Bengio S, Vinyals O, Jaitly N, et al. Scheduled sampling for sequence prediction with recurrent neural networks[EB/OL]. (2015-06-09). https://arxiv.org/abs/1506.03099.
[23]Kinga D P, Ba J. A method for stochastic optimization[EB/OL]. (2014-12-22). https://arxiv.org/abs/1412.6980.