国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于圖卷積網(wǎng)絡(luò)融合依存信息的事件檢測(cè)方法

2023-10-17 23:52:06張紫月王羽徐建
計(jì)算機(jī)應(yīng)用研究 2023年10期

張紫月 王羽 徐建

摘 要:句子級(jí)別細(xì)粒度的事件檢測(cè)任務(wù)旨在對(duì)觸發(fā)詞進(jìn)行識(shí)別與分類(lèi)。針對(duì)現(xiàn)有事件檢測(cè)方法中存在的過(guò)度平滑及缺乏依存類(lèi)型信息的問(wèn)題,提出了一種基于圖卷積網(wǎng)絡(luò)融合依存信息的事件檢測(cè)方法。該模型首先使用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)句子進(jìn)行編碼,同時(shí)根據(jù)依存分析構(gòu)建多階句法圖和依存句法圖;然后利用圖卷積網(wǎng)絡(luò)融合句子的依存信息,從而有效地利用多跳信息和依存標(biāo)簽信息。在自動(dòng)文本抽取數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),在觸發(fā)詞識(shí)別和分類(lèi)這兩個(gè)子任務(wù)中分別取得了81.7%和78.6%的F1值。結(jié)果顯示,提出的方法能更加有效地捕獲句子中的事件信息,提升了事件檢測(cè)的效果。

關(guān)鍵詞:依存信息; 圖卷積網(wǎng)絡(luò); 事件檢測(cè); 多階句法圖; 依存句法圖

中圖分類(lèi)號(hào):TP391.1 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2023)10-013-2967-05

doi:10.19734/j.issn.1001-3695.2023.03.0097

Event detection based on dependency information and graph convolutional network

Zhang Ziyue1, Wang Yu2,3, Xu Jian1

(1.School of Computer Science & Engineering, Nanjing University of Science & Technology, Nanjing 210094, China; 2.Science & Technology on Information Systems Engineering Laboratory, National University of Defense Technology, Changsha 410003, China; 3.The 28th Research Institute of China Electronics Technology Group Corporation, Nanjing 210007, China)

Abstract:The fine-grained event detection task at the sentence level aims at identifying and classifying triggers. To solve the problem of over-smoothing and lack of dependency type information in existing event detection methods, this paper proposed an event detection method based on dependency information and graph convolutional network(GCN). This method firstly used bi-directional long short-term memory(Bi-LSTM) networks to encode the sentence, and constructed a multi-order syntactic graph and a dependent syntactic graph based on the dependency analysis. Then it used GCN to aggregate the sentences dependency information, which effectively utilized the multi-hop information and the dependent type information. On automatic content extraction (ACE) dataset, the proposed method achieved 81.7% and 78.6% F1 values in the two subtasks of trigger identification and classification. Results show that the proposed method can capture event information in sentences more effectively, and improve the effect of event detection.

Key words:dependency information; GCN; event detection; multi-order syntactic graph; dependent syntactic graph

0 引言

隨著信息技術(shù)的飛速發(fā)展,每日產(chǎn)生的數(shù)據(jù)和信息的數(shù)量都呈指數(shù)級(jí)爆炸式增長(zhǎng),而且這些數(shù)據(jù)和信息大多趨向于非結(jié)構(gòu)化或者半結(jié)構(gòu)化。如果沒(méi)有任何文本自動(dòng)化處理技術(shù)的支持,想要高效率地利用這些非結(jié)構(gòu)化的數(shù)據(jù)是很非常困難的。事件抽取作為信息抽?。?]的一種特殊形式,因其能夠自動(dòng)從人類(lèi)語(yǔ)言中提取事件而受到越來(lái)越多的關(guān)注。在需求和質(zhì)量不斷提高的今天,各領(lǐng)域的事件抽取可以幫助相關(guān)人員從海量信息中快速抽取相關(guān)內(nèi)容,提高工作時(shí)效性,為定量分析提供技術(shù)支持。事件抽取任務(wù)研究的是從非結(jié)構(gòu)化文本中將事件信息提取為結(jié)構(gòu)化形式,結(jié)構(gòu)化形式主要描述發(fā)生的現(xiàn)實(shí)世界事件的“誰(shuí)、何時(shí)、何地、什么、為什么”和“如何”。根據(jù)ACE2005中的事件抽取任務(wù)定義,事件是指在特定的時(shí)間和地點(diǎn),由一個(gè)或多個(gè)角色參與的某件事的特定發(fā)生或者狀態(tài)的改變[2]。事件抽取任務(wù)可以分為事件檢測(cè)(event detection,ED)和事件論元抽?。╡vent argument extraction,EAE) 兩個(gè)子任務(wù)。本文主要研究的是第一個(gè)子任務(wù)——事件檢測(cè),旨在識(shí)別出句子中的觸發(fā)詞并對(duì)其事件類(lèi)型進(jìn)行分類(lèi)。如圖1所示,事件檢測(cè)系統(tǒng)需要識(shí)別出該句子中存在的觸發(fā)詞“fired”,并將其正確分類(lèi)為事件類(lèi)型“Attack”。

依存句法分析可以反映句子中詞之間的依存關(guān)系,是自然語(yǔ)言處理的基礎(chǔ)任務(wù)。依存句法樹(shù)包含了豐富的結(jié)構(gòu)信息,對(duì)事件檢測(cè)任務(wù)有著十分重要的幫助[3~8]。ACE2005數(shù)據(jù)集中,“nsubj”“dobj”和“nmod”占觸發(fā)相關(guān)依賴(lài)標(biāo)簽的32.2%(在所有40個(gè)依賴(lài)關(guān)系中,每個(gè)關(guān)系平均占2.5%)[8],這意味著同時(shí)建模句法結(jié)構(gòu)和依存類(lèi)型標(biāo)簽對(duì)于充分利用依存分析樹(shù)來(lái)進(jìn)一步提高事件檢測(cè)任務(wù)的性能至關(guān)重要。在現(xiàn)有的事件檢測(cè)方法中,與基于序列的方法[6,7]相比,基于依存句法樹(shù)構(gòu)建圖卷積網(wǎng)絡(luò)(GCN)的方法[3~5,8]能夠更好地捕獲每個(gè)候選觸發(fā)詞與其相關(guān)實(shí)體或其他觸發(fā)詞之間的關(guān)系,獲得更好的性能。

盡管這些基于依存句法分析的方法取得了巨大成功,但仍然存在兩個(gè)問(wèn)題:

a)過(guò)度平滑問(wèn)題。通常對(duì)于給定的候選觸發(fā)詞,其相關(guān)單詞通常是多跳的,例如圖1所示的句子,觸發(fā)詞“fired”可以被分類(lèi)為“End-Position”類(lèi)型或“Attack”類(lèi)型。觀(guān)察單詞“fired”的依存關(guān)系,路徑“guns-possession-unit-fired-mortars”可提供有效信息將該事件更大概率判斷為“Attack”類(lèi)型而不是“End-Position”類(lèi)型。文獻(xiàn)[5]統(tǒng)計(jì)超過(guò)一半的事件相關(guān)實(shí)體需要一次以上的跳躍才能到達(dá)相應(yīng)的觸發(fā)詞。為了捕獲多跳關(guān)系,大多數(shù)方法[3,8]均采用堆疊多個(gè)GCN層來(lái)達(dá)到效果,但是會(huì)導(dǎo)致過(guò)度平滑的問(wèn)題,層數(shù)太多相鄰節(jié)點(diǎn)的表示會(huì)趨于一致。

b)缺乏依存類(lèi)型信息。依存類(lèi)型標(biāo)簽可以作為預(yù)測(cè)單詞是否為觸發(fā)詞的重要參考信息,如圖1所示,依存類(lèi)型“nsubj”(名詞主語(yǔ))和“dobj”(直接賓語(yǔ))表示單詞“unit”和“mortars”分別是“fired”的主語(yǔ)和賓語(yǔ),且與“fired”具有依存關(guān)系“nmod”(名詞復(fù)合修飾語(yǔ))的單詞表示該事件所襲擊的目標(biāo)。根據(jù)依存類(lèi)型標(biāo)簽信息可以判斷出“fired”為該句子的事件觸發(fā)詞,并且預(yù)測(cè)出其事件類(lèi)型為“Attack”。然而現(xiàn)有的大多數(shù)基于GCN的事件檢測(cè)方法[3~5]只考慮依存句法樹(shù)中的路徑,忽略掉其依存類(lèi)型標(biāo)簽信息。

為解決上述問(wèn)題,本文提出一種基于圖卷積網(wǎng)絡(luò)融合依存信息的事件檢測(cè)方法(event detection based on dependency information and graph convolutional network,DIGCN)。首先根據(jù)輸入句子的依存句法樹(shù)分別生成多階句法圖和依存句法圖,采用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bidirectional long short-term memory,Bi-LSTM)[9]對(duì)句子進(jìn)行編碼來(lái)獲取句子的語(yǔ)義表示,為捕捉長(zhǎng)距離依賴(lài)關(guān)系,使用圖卷積網(wǎng)絡(luò)融合依存信息進(jìn)行建模。在ACE2005基準(zhǔn)數(shù)據(jù)集上對(duì)DIGCN模型進(jìn)行評(píng)估,實(shí)驗(yàn)結(jié)果顯示了DIGCN模型在事件檢測(cè)任務(wù)上的有效性。本文的貢獻(xiàn)如下:a)構(gòu)建了依存信息的增強(qiáng)表示模塊,將依存類(lèi)型標(biāo)簽信息引入GCN模型;b)提出了一個(gè)基于圖卷積網(wǎng)絡(luò)的事件檢測(cè)模型DIGCN,可以更好地將多跳信息和依存類(lèi)型標(biāo)簽信息融合,對(duì)句子中的事件觸發(fā)詞進(jìn)行識(shí)別和分類(lèi)。

1 相關(guān)工作

早期對(duì)于事件抽取的研究多利用人工構(gòu)造事件模式和文本特征,如詞匯特征、句法特征和語(yǔ)義特征[10]。然而,設(shè)計(jì)這些特征非常耗時(shí),而且不容易適應(yīng)其他任務(wù)或新領(lǐng)域。

隨著神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,由于其可以捕獲復(fù)雜的語(yǔ)義關(guān)系并顯著改進(jìn)事件檢測(cè)任務(wù)的效果,越來(lái)越多的研究集中于神經(jīng)網(wǎng)絡(luò)模型。Chen等人[6]提出了一種動(dòng)態(tài)多池卷積神經(jīng)網(wǎng)絡(luò)(DMCNN),通過(guò)動(dòng)態(tài)多池層來(lái)評(píng)估句子的每個(gè)部分。單詞之間的句法依賴(lài)信息也可以用于增強(qiáng)基本的RNN結(jié)構(gòu),例如Sha等人[11]設(shè)計(jì)了dbRNN模型,引入句法信息。

一個(gè)句子中存在多個(gè)事件,一個(gè)事件的論元存在于不同的句子或者文檔級(jí)別的事件抽取任務(wù)都面臨同一個(gè)挑戰(zhàn),即長(zhǎng)期依賴(lài)性,最普遍的解決辦法就是利用依存句法分析。圖卷積網(wǎng)絡(luò)的節(jié)點(diǎn)表示單詞,邊表示有向句法弧,有助于緩解這一挑戰(zhàn)。Nguyen等人[3]首次將GCN應(yīng)用于事件檢測(cè)任務(wù),研究了基于句法依存樹(shù)的卷積神經(jīng)網(wǎng)絡(luò)來(lái)進(jìn)行事件檢測(cè)任務(wù)。為了處理同一句子中存在多個(gè)事件的挑戰(zhàn),Liu等人[4]提出了一種聯(lián)合多事件抽取框架JMEE,通過(guò)引入基于注意力的GCN來(lái)建模依存圖信息,聯(lián)合提取多個(gè)事件觸發(fā)詞和論元。Ahmad等人[12]使用圖形注意力轉(zhuǎn)換編碼器(GATE)學(xué)習(xí)長(zhǎng)程依存關(guān)系,并將其應(yīng)用于跨語(yǔ)言關(guān)系和事件抽取任務(wù)。

對(duì)于給定的候選觸發(fā)詞,其相關(guān)實(shí)體通常是多跳的。有兩種方式可以捕獲多跳信息,一種方法是堆疊多個(gè)GCN層[8,13],另一種方法則是將一階圖擴(kuò)展到高階圖[5]。Yan等人[5]提出MOGANED模型,將一階句法圖擴(kuò)展到高階句法圖,并使用圖注意力網(wǎng)絡(luò)以克服堆疊多個(gè)圖卷積層時(shí)的過(guò)度平滑問(wèn)題。Cui等人[8]考慮到依存類(lèi)型標(biāo)簽對(duì)于觸發(fā)詞檢測(cè)可能很重要,提出關(guān)系感知圖卷積網(wǎng)絡(luò)EE-GCN。Liu等人[13]使用注意力機(jī)制融合句法結(jié)構(gòu)和潛在依賴(lài)關(guān)系,在提高事件檢測(cè)任務(wù)性能的同時(shí)使用殘差連接解決圖信息消失問(wèn)題。Xie等人[14]提出了一種基于自適應(yīng)圖生成的事件檢測(cè)方法AGGED,具有自適應(yīng)圖生成模塊和門(mén)控多信道圖卷積機(jī)制,且使用單個(gè)圖卷積層來(lái)聚集用于事件檢測(cè)的信息。Mi等人[15]提出一種簡(jiǎn)單有效的模型DualGAT,利用句法和語(yǔ)義關(guān)系的互補(bǔ)性來(lái)緩解利用句法關(guān)系帶來(lái)的冗余問(wèn)題。

2 DIGCN模型

2.1 問(wèn)題描述

事件檢測(cè)任務(wù)可以被建模為一個(gè)序列標(biāo)注任務(wù)。給定一個(gè)長(zhǎng)度為n的句子W={w1,w2,…,wn},其中wi表示該句的第i個(gè)單詞。由于事件觸發(fā)詞可能包含多個(gè)單詞,采用BIO(begin,inside,outside)標(biāo)注模式進(jìn)行序列標(biāo)注,將每個(gè)元素標(biāo)注為“B-X”“I-X”或者“O”,其中“X”代表事件類(lèi)型,“O”表示元素不屬于X類(lèi)型,“B”和“I”表示元素在觸發(fā)詞中的位置,例如觸發(fā)詞“go off”屬于“Attack”類(lèi)型的事件,則將其標(biāo)記為“B-Attack I-Attack”來(lái)解決觸發(fā)詞由多個(gè)單詞構(gòu)成的問(wèn)題。由于觸發(fā)詞的類(lèi)型標(biāo)簽是事先定義好的,根據(jù)BIO標(biāo)注格式和NONE標(biāo)簽,可將標(biāo)簽的數(shù)量記為2L+1,其中L是預(yù)定義事件類(lèi)型的數(shù)量。

2.2 模型框架

本文提出的基于圖卷積網(wǎng)絡(luò)融合依存信息的事件檢測(cè)模型框架如圖2所示。該模型分為句子編碼層、圖構(gòu)建模塊、融合依存信息的圖卷積網(wǎng)絡(luò)層和觸發(fā)詞識(shí)別與分類(lèi)層四個(gè)模塊。

a)詞向量使用skip-gram模型預(yù)訓(xùn)練,該層結(jié)合詞匯特征表示輸入句子的編碼,將句子中每一個(gè)單詞轉(zhuǎn)換為固定長(zhǎng)度的實(shí)值向量。

b)圖構(gòu)建模塊對(duì)句子的句法依賴(lài)樹(shù)分別構(gòu)建多階句法圖和依存句法圖,將句子中的單詞token作為節(jié)點(diǎn),將單詞之間的句法弧作為邊。

c)將句子編碼層輸出的句子編碼和圖構(gòu)建模塊的輸出送入圖卷積網(wǎng)絡(luò)進(jìn)行建模,經(jīng)過(guò)圖卷積之后的輸出融合了依存標(biāo)簽信息和多跳信息。

d)在觸發(fā)詞識(shí)別與分類(lèi)層,將融合依存信息的圖卷積網(wǎng)絡(luò)層得到的最終句子表示向量輸入前饋神經(jīng)網(wǎng)絡(luò),結(jié)合softmax對(duì)句子中的每一個(gè)單詞進(jìn)行分類(lèi),識(shí)別句子中的觸發(fā)詞并對(duì)其事件類(lèi)型進(jìn)行分類(lèi)。

2.3 句子編碼模塊

句子編碼模塊的輸入為目標(biāo)句子W={w1,w2,…,wn},句子固定長(zhǎng)度n以截?cái)嗷蛱钛a(bǔ)的方式來(lái)確定。為了補(bǔ)充輸入特征,句子編碼模塊利用詞性特征、實(shí)體信息以及上下文特征來(lái)克服獨(dú)立分析句子的不足,通過(guò)連接以下向量將每個(gè)單詞wi轉(zhuǎn)換為實(shí)值向量xi:

a)wi的詞嵌入向量。與之前的研究工作[5,16]相同,本文使用在NYT語(yǔ)料庫(kù)上利用skip-gram模型預(yù)訓(xùn)練的詞嵌入,得到wordi。

b)wi的實(shí)體類(lèi)型嵌入向量。句子中的實(shí)體用BIO模式標(biāo)注,通過(guò)查找嵌入表將每個(gè)實(shí)體類(lèi)型標(biāo)簽映射到一個(gè)實(shí)值嵌入,得到對(duì)應(yīng)的實(shí)體類(lèi)型向量entityi。

c)wi的詞性標(biāo)注(part-of-speech tagging,POS)嵌入向量。與實(shí)體類(lèi)型向量相同,查找隨機(jī)初始化的POS嵌入矩陣生成,得到對(duì)應(yīng)的POS嵌入向量posi。

根據(jù)上述特征表示,wi的輸入嵌入可定義為

其中:dword、dentity和dpos分別表示詞嵌入、實(shí)體類(lèi)型嵌入和POS標(biāo)簽嵌入維數(shù)。輸入句子W轉(zhuǎn)換成實(shí)值向量序列X=[x1,x2,…,xn],然后采用Bi-LSTM網(wǎng)絡(luò)捕獲每個(gè)單詞的上下文信息,將單詞表示編碼為

其中:LSTM 和LSTM 分別表示正向LSTM和反向LSTM;[,]表示連接操作。經(jīng)過(guò)Bi-LSTM編碼后得到上下文向量序列P=[p1,p2,…,pn]作為圖卷積網(wǎng)絡(luò)層的輸入。

2.4 圖構(gòu)建模塊

對(duì)于一個(gè)長(zhǎng)度為n的句子W={w1,w2,…,wn},進(jìn)行依存句法分析得到依存句法樹(shù)。將句子中每一個(gè)單詞作為一個(gè)節(jié)點(diǎn),根據(jù)依存關(guān)系構(gòu)造該句子的依存句法圖,記為G={V,E}。其中V={v1,v2,…,vn}包含了n個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)vi對(duì)應(yīng)一個(gè)單詞wi,E表示每個(gè)節(jié)點(diǎn)間邊的集合。若節(jié)點(diǎn)vi與vj之間有依存關(guān)系,則存在邊(vi,vj)∈E為節(jié)點(diǎn)vi到vj的正向句法邊,記該句法邊(vi,vj)標(biāo)簽類(lèi)型為K(vi,vj);為了保證信息的反向傳輸,同時(shí)添加標(biāo)簽類(lèi)型為K′(vi,vj)的反向句法邊(vj,vi)。在此基礎(chǔ)上為每個(gè)節(jié)點(diǎn)添加一個(gè)自環(huán)(vi,vi)引入節(jié)點(diǎn)自身的信息,然后通過(guò)句子的依存句法圖分別構(gòu)建多階句法圖和依存句法圖。

1)多階句法圖

每個(gè)依存句法樹(shù)都可以用一個(gè)鄰接矩陣表示為一階句法圖。設(shè)A為一階句法圖的鄰接矩陣,由句子W的依存句法樹(shù)生成。A包含三個(gè)維數(shù)均為n×n的子矩陣,分別為上述正向、反向及自循環(huán)邊構(gòu)成的Aalong(a)、Arev(b)和Aloop(c)[17]。

在多階句法圖中,隨著階數(shù)越來(lái)越高,句法邊所對(duì)應(yīng)的依存類(lèi)型標(biāo)簽數(shù)量將劇增。為減少模型訓(xùn)練時(shí)的參數(shù)量,本文在構(gòu)建多階句法圖時(shí)將類(lèi)型標(biāo)簽K(vi,vj)的定義簡(jiǎn)化為

即多階句法圖中的類(lèi)型標(biāo)簽K(vi,vj)僅具有三個(gè)類(lèi)型。為方便計(jì)算,如果依存句法樹(shù)中存在從wi到wj的句法邊,則直接令正向句法圖Aalong中對(duì)應(yīng)元素ai,j=1,否則為0;同理構(gòu)建反向句法圖Arev為Aalong的轉(zhuǎn)置矩陣,即Arev=ATalong 。Aloop則為一個(gè)單位矩陣。對(duì)于多階句法圖,設(shè)K階句法圖的鄰接矩陣為AKsubg=(Asubg)K,其中subg∈{along,rev,loop}。

如圖3所示,AKsubg記錄了Asubg中的K跳路徑。由于Aloop是一個(gè)單位矩陣,所以AKloop=Aloop。為了描述方便,在下文中使用aK、bK、cK分別表示AKalong、AKrev和AKloop。由依存句法樹(shù)生成的這些二進(jìn)制鄰接矩陣作為后續(xù)圖卷積模塊的輸入。

2)依存句法圖

與普通一階句法圖不同的是依存句法圖中類(lèi)型標(biāo)簽K(vi,vj)的定義。在實(shí)驗(yàn)中,對(duì)句子進(jìn)行依存分析得到的句法分析樹(shù)中包含約50種不同的語(yǔ)法關(guān)系,為引入關(guān)系類(lèi)型信息,根據(jù)語(yǔ)法關(guān)系來(lái)初始化一個(gè)類(lèi)型標(biāo)簽映射表。如果句法圖中存在從wi到wj的句法邊,且依存類(lèi)型標(biāo)簽K(vi,vj)=ti,j,其中ti,j點(diǎn)wi指向節(jié)點(diǎn)wj的正向句法邊的依存類(lèi)型,則反向句法邊(vj,vi)依存類(lèi)型標(biāo)簽可記為tj,i,例如,如果ti,j為nmod,則tj,i記為#nmod。隨后查找類(lèi)型標(biāo)簽映射表將依存類(lèi)型ti,j映射為實(shí)值向量eti,j∈Euclid Math TwoRApp,即一個(gè)p維向量。不同于句法圖的二進(jìn)制鄰接矩陣,最終得到包含依存關(guān)系標(biāo)簽信息的鄰接張量E∈Euclid Math TwoRApn×n×p。

2.5 融合依存信息的圖卷積網(wǎng)絡(luò)模塊

為了更好地融合語(yǔ)句的語(yǔ)義特征和句法特征,充分利用將多跳信息與句法類(lèi)型標(biāo)簽信息,該模塊以句子編碼層輸出的語(yǔ)句上下文編碼序列P=[p1,p2,…,pn] 、圖構(gòu)建模塊輸出的多階句法圖AKsubg 和依存句法圖生成的鄰接張量E作為GCN層的輸入。

首先,對(duì)句子編碼層生成的序列P添加所對(duì)應(yīng)單詞的依存關(guān)系標(biāo)簽信息。其中WT將依存類(lèi)型的實(shí)值嵌入向量eti,j映射為與其對(duì)應(yīng)編碼pj相同維度的向量,最后將兩個(gè)向量拼接起來(lái)作為單詞wj依存信息的增強(qiáng)表示:

得到融合依存關(guān)系標(biāo)簽信息的特征表示j后,根據(jù)文獻(xiàn)[18]中的圖卷積方法,對(duì)節(jié)點(diǎn)特征信息進(jìn)行卷積操作,其計(jì)算為

其中:W和b為權(quán)重矩陣和偏置;aki,j為k階句法圖中正向弧所構(gòu)建的矩陣中所對(duì)應(yīng)的元素;σ表示激活函數(shù)。

對(duì)于k階句法圖Ak,其包含三個(gè)維數(shù)均為n×n的子矩陣ak、bk和ck,為充分利用句法圖的特征表示,通過(guò)式(7)得到對(duì)應(yīng)于階句法圖的三個(gè)子矩陣的特征:

其中:⊕表示進(jìn)行元素級(jí)別的相加操作,計(jì)算得到每個(gè)候選觸發(fā)詞wi的一組k階的特征表示hki。最后聚合每個(gè)單詞wi的多階表示hki得到最終融合多跳信息的特征表示,如式(9)所示。

2.6 觸發(fā)詞識(shí)別與分類(lèi)模塊

從融合依存信息的圖卷積模塊中得到所有單詞的表示之后,將其送入全連接層中,完成最終的觸發(fā)詞識(shí)別和分類(lèi)。

其中:Wt將單詞表示h轉(zhuǎn)換成了針對(duì)每個(gè)事件標(biāo)簽的分值,bt是偏置項(xiàng)。sotfmax函數(shù)常用于多分類(lèi)問(wèn)題,代表了某個(gè)元素被取到的概率,本文選擇條件概率最高的事件類(lèi)型為相對(duì)應(yīng)的候選觸發(fā)詞的預(yù)測(cè)結(jié)果。

2.7 損失函數(shù)

由于數(shù)據(jù)中“O”標(biāo)簽的數(shù)量遠(yuǎn)遠(yuǎn)大于事件標(biāo)簽的數(shù)量,參考文獻(xiàn)[5,16]在訓(xùn)練過(guò)程中使用偏差損失函數(shù)來(lái)增強(qiáng)事件類(lèi)型標(biāo)簽的影響。偏差損失函數(shù)公式如下:

其中:Ns是句子的數(shù)量;ni是第i句中的字?jǐn)?shù);I(O)是區(qū)分標(biāo)簽“O”和事件類(lèi)型標(biāo)簽的切換函數(shù)。定義如下:

其中:α為偏置權(quán)重。α越大,事件類(lèi)型標(biāo)簽對(duì)模型的影響越大。

3 實(shí)驗(yàn)及分析

3.1 數(shù)據(jù)集

在實(shí)驗(yàn)中,本文使用了英文基準(zhǔn)數(shù)據(jù)集ACE2005EN(ACE05),對(duì)于ACE05,其包含了599個(gè)文檔,預(yù)定義了33種事件類(lèi)型。遵循之前的研究[5~8,16]對(duì)其進(jìn)行預(yù)處理,將文檔分為訓(xùn)練集、開(kāi)發(fā)集和測(cè)試集,分別包含529、30和40篇文檔。

3.2 評(píng)價(jià)指標(biāo)

本文采用事件抽取領(lǐng)域中最常用的精確率(precision,P),召回率(recall,R)和F1值測(cè)度(F1-score)作為評(píng)價(jià)指標(biāo)。

將事件檢測(cè)分為觸發(fā)詞識(shí)別和觸發(fā)詞分類(lèi)兩個(gè)步驟分別進(jìn)行評(píng)估。對(duì)于模型預(yù)測(cè)結(jié)果,被預(yù)測(cè)為正的樣本中實(shí)際為正的比例叫做精確率;被預(yù)測(cè)為正的樣本占全部正樣本的比例叫做召回率,而F1值是精確值和召回率的調(diào)和均值。

其中:TP是將正類(lèi)預(yù)測(cè)為正類(lèi)的數(shù)目;FP是將負(fù)類(lèi)預(yù)測(cè)為正類(lèi)的錯(cuò)誤預(yù)測(cè)數(shù);FN是將正類(lèi)預(yù)測(cè)為負(fù)類(lèi)的錯(cuò)誤預(yù)測(cè)數(shù)。

3.3 實(shí)驗(yàn)設(shè)置

本文模型使用StanfordCoreNLP工具包來(lái)預(yù)處理數(shù)據(jù),獲取句子分詞、詞性標(biāo)注及依存句法分析樹(shù)。單詞表示模塊采用在NYT語(yǔ)料庫(kù)上使用skip-gram算法預(yù)訓(xùn)練的單詞嵌入,維數(shù)為100;詞性標(biāo)注標(biāo)簽、實(shí)體類(lèi)型和依賴(lài)項(xiàng)標(biāo)簽嵌入都是隨機(jī)初始化的;分別用25維和50維向量隨機(jī)初始化詞性標(biāo)注標(biāo)簽、實(shí)體類(lèi)型和依賴(lài)標(biāo)簽嵌入;Bi-LSTM和DIGCN的隱藏狀態(tài)大小分別設(shè)置為100和150;參數(shù)優(yōu)化采用SGD進(jìn)行,學(xué)習(xí)率為0.1,批處理大小為30。使用參數(shù)為1E-5的L2正則化,以避免過(guò)擬合,dropout率應(yīng)用于單詞嵌入和隱藏狀態(tài)為0.6。通過(guò)填充較短的句子和刪除較長(zhǎng)的句子,將句子的最大長(zhǎng)度設(shè)置為50,將多階句法圖的最高階K設(shè)為2。

3.4 實(shí)驗(yàn)結(jié)果與分析

為了全面評(píng)估本文提出的模型,將其與一系列基線(xiàn)和最先進(jìn)的模型在觸發(fā)詞識(shí)別和觸發(fā)詞分類(lèi)任務(wù)上的表現(xiàn)進(jìn)行比較。

a)GCN-ED [3],首次將GCN引入事件檢測(cè)任務(wù)。

b)JMEE [4],引入句法弧代替句子級(jí)別的順序建模,增強(qiáng)信息流,并使用自注意力機(jī)制增強(qiáng)GCN模型。

c)MOGANED [5],利用多階句法表示和分層注意力網(wǎng)絡(luò)來(lái)進(jìn)行事件檢測(cè)。

d)EE-GCN [8],利用了句法依存關(guān)系標(biāo)簽并建模了單詞間的關(guān)系,提出關(guān)系感知的聚合模塊和上下文感知的關(guān)系更新模塊。

e)Gated-GCN [19],提出通過(guò)門(mén)控機(jī)制過(guò)濾噪聲信息,更好地利用依存信息。

f)SA-GRCN [13],引入了一種自我關(guān)注機(jī)制,以更好地建模單詞相關(guān)性。

g)MHGEE [20],使用異構(gòu)圖神經(jīng)網(wǎng)絡(luò)來(lái)聚集相關(guān)事件的信息,從而捕獲事件之間的相關(guān)性。

表1顯示了不同方法之間的性能比較??梢杂^(guān)察到,本文的DIGCN模型在觸發(fā)詞識(shí)別和分類(lèi)任務(wù)上都有著最高的F1值和召回率。與最佳基線(xiàn)模型相比,在觸發(fā)詞識(shí)別任務(wù)上召回率和F1值分別提高了2.1%和1.2%,觸發(fā)詞分類(lèi)任務(wù)上召回率和F1值分別提高了2.9%和0.7%。

對(duì)于僅使用依存句法結(jié)構(gòu)信息的方法,如GCN-ED、JMEE、MOGANED、MHGEE,表現(xiàn)明顯低于其他方法,說(shuō)明依存標(biāo)簽的類(lèi)型能夠?yàn)槭录z測(cè)提供關(guān)鍵信息,同時(shí)MOGANED利用GAT作為基本編碼器,在精度方面有所提升,注意力機(jī)制有助于句法結(jié)構(gòu)信息的利用,但還是存在細(xì)粒度信息不足的問(wèn)題。DIGCN引入依存類(lèi)型標(biāo)簽對(duì)單詞進(jìn)行增強(qiáng)表示,可以更好地捕獲細(xì)粒度的觸發(fā)詞相關(guān)特征信息,檢測(cè)到更多的觸發(fā)詞,體現(xiàn)出合理使用句法結(jié)構(gòu)的依存類(lèi)型標(biāo)簽信息可以提高事件檢測(cè)的性能。對(duì)于通過(guò)堆疊多層GCN來(lái)捕獲多跳信息的方法,如EE-GCN、SA-GRCN,表現(xiàn)好于僅使用句法結(jié)構(gòu)的方法,但不如DIGCN,原因在于本文方法通過(guò)構(gòu)建高階句法圖引入GCN模型來(lái)獲取多跳信息,克服了過(guò)度平滑問(wèn)題,顯示了多階句法結(jié)構(gòu)的有效性。

3.5 消融實(shí)驗(yàn)

本文的DIGCN模型主要由依存信息增強(qiáng)和基于多跳關(guān)系的GCN模塊組成。為證明每個(gè)模塊的有效性,針對(duì)ACE2005數(shù)據(jù)集進(jìn)行消融實(shí)驗(yàn)分別驗(yàn)證依存類(lèi)型標(biāo)簽和多跳信息是否有助于事件檢測(cè)任務(wù)的性能改進(jìn)。實(shí)驗(yàn)結(jié)果如表2所示。

a)依存類(lèi)型標(biāo)簽信息增強(qiáng)(TYPE)。為了研究依存類(lèi)型標(biāo)簽是否有助于性能改進(jìn),取消信息增強(qiáng)表示,類(lèi)型化的依存類(lèi)型標(biāo)簽信息被移除。結(jié)果F1值下降了1%,表明類(lèi)型依存標(biāo)簽信息在DIGCN中起著重要作用。

b)多跳信息(multi-hop,MH)。刪除多跳信息表示模塊,即僅使用一階句法圖來(lái)進(jìn)行實(shí)驗(yàn),會(huì)對(duì)結(jié)果造成F1值的0.8%影響,驗(yàn)證了多階表示提供的多跳信息為事件檢測(cè)任務(wù)提供了更多的信息。

c)TYPE&MH。同時(shí)刪除了依存類(lèi)型標(biāo)簽信息增強(qiáng)模塊和多跳信息模塊,然后模型退化為普通GCN。可以觀(guān)察到性能降低了4.8%,再次證實(shí)了DIGCN模型的有效性。

d)Bi-LSTM。刪除Bi-LSTM模塊,模型在兩個(gè)任務(wù)上性能都明顯下降許多,說(shuō)明Bi-LSTM在GCN模型之前可以捕獲一些重要的上下文信息,以提高模型在事件檢測(cè)任務(wù)上的性能。

3.6 多階表示對(duì)模型影響

本實(shí)驗(yàn)旨在驗(yàn)證多階表示的階數(shù)及平面結(jié)構(gòu)對(duì)于DIGCN模型的影響,分別驗(yàn)證了階數(shù)K在1~3階及K=1階時(shí)通過(guò)疊加GCN層數(shù)L獲取多跳信息,以及模型在ACE2005數(shù)據(jù)集上F1性能的變化。

實(shí)驗(yàn)結(jié)果如表3所示。為了驗(yàn)證階數(shù)K對(duì)模型的影響,在對(duì)比實(shí)驗(yàn)中保持L=1,即本文方法所使用的平面結(jié)構(gòu)??梢园l(fā)現(xiàn)其他實(shí)驗(yàn)結(jié)果都低于階數(shù)K=2時(shí)的表現(xiàn),在K=1時(shí)的性能最差,表明一階句法不足以表示上下文的深層語(yǔ)義信息,高階句法關(guān)系在事件檢測(cè)中發(fā)揮著重要作用。性能存在先升后降的趨勢(shì),并在K=2時(shí)達(dá)到峰值,因?yàn)榇蠖鄶?shù)高階路徑都是無(wú)用的,并且會(huì)大大加劇路徑稀疏性問(wèn)題。

為了驗(yàn)證平面結(jié)構(gòu)的有效性,在對(duì)比實(shí)驗(yàn)中設(shè)置階數(shù)K=1,即使用一階句法圖,然后將其變?yōu)槠胀℅CN模型,通過(guò)疊加GCN層數(shù)L來(lái)達(dá)到捕獲多跳信息的效果。觀(guān)察表3可知,DIGCNK=1,L=2時(shí)效果最好,但在觸發(fā)詞分類(lèi)任務(wù)上F1分?jǐn)?shù)較DIGCNK=2,L=1方法低0.8%,說(shuō)明通過(guò)多階句法圖來(lái)捕獲多跳信息更為有效,同時(shí)說(shuō)明了平面結(jié)構(gòu)的有效性。

3.7 案例分析

為了進(jìn)一步闡明DIGCN模型性能的優(yōu)越性,本節(jié)給出具體案例的實(shí)驗(yàn)結(jié)果,比較不同模型對(duì)同一個(gè)句子的觸發(fā)詞識(shí)別與分類(lèi)的結(jié)果。對(duì)于此測(cè)試中選取的案例如表4所示。

對(duì)于第一句話(huà),由于比較簡(jiǎn)短,Bi-LSTM方法無(wú)法提取有效信息,將單詞“Explosions”識(shí)別為“Attack”類(lèi)型的觸發(fā)詞;而基于GCN的方法可以根據(jù)句法關(guān)系判斷出單詞“Explosions”沒(méi)有目標(biāo),并不是事件的觸發(fā)詞。第二句中“talks”屬于出現(xiàn)頻率較高的單詞,使得事件檢測(cè)模型無(wú)法檢測(cè)到由“talks”觸發(fā)的“Meet”類(lèi)型事件;然而,本文方法考慮了“talks”和其他實(shí)體之間的依存標(biāo)簽信息,實(shí)現(xiàn)了正確的分類(lèi)。第三句,普通的基于GCN的方法將其進(jìn)行了錯(cuò)誤歸類(lèi),可能原因在于單詞“Prison”誤導(dǎo),將“taken”歸類(lèi)為“Arrest”類(lèi)型的觸發(fā)詞;由于本文方法考慮了多跳信息及依存類(lèi)型,通過(guò)路徑“taken-given-authorities”和標(biāo)簽(advcl:to,nsubj,compound)的信息對(duì)其進(jìn)行了正確的分類(lèi)。從以上實(shí)驗(yàn)結(jié)果可以看出,DIGCN模型不僅能夠捕獲細(xì)粒度的觸發(fā)詞相關(guān)特征信息,對(duì)具有歧義性的觸發(fā)詞分類(lèi)也具有明顯優(yōu)勢(shì),因此能夠更好地完成事件檢測(cè)任務(wù)。

4 結(jié)束語(yǔ)

針對(duì)句子級(jí)別細(xì)粒度的事件檢測(cè)任務(wù),本文提出了一種基于圖卷積網(wǎng)絡(luò)融合依存信息的事件檢測(cè)模型,使用依存關(guān)系標(biāo)簽增強(qiáng)特征表示并引入圖卷積網(wǎng)絡(luò)結(jié)合多跳信息。在ACE2005數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),證明了DIGCN模型在事件檢測(cè)任務(wù)上的有效性。在未來(lái)的工作中,將考慮將本文工作應(yīng)用于信息抽取相關(guān)的任務(wù)上。

參考文獻(xiàn):

[1]陳燁,周剛,盧記倉(cāng).多模態(tài)知識(shí)圖譜構(gòu)建與應(yīng)用研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2021,38(12):3535-3543.(Chen Ye, Zhou Gang, Lu Jicang. Survey on construction and application research for multi-modal knowledge graphs[J].Application Research of Computers,2021,38(12):3535-3543.)

[2]Doddington G, Mitchell A, Przybocki M, et al. The automatic content extraction (ACE) program-tasks, data, and evaluation[C]//Proc of the 4th International Conference on Language Resources and Revaluation.Lisbon,Portugal:European Language Resources Association,2004:837-840.

[3]Nguyen T H, Grishman R. Graph convolutional networks with argument-aware pooling for event detection[C]//Proc of the 32nd AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:5900-5907.

[4]Liu Xiao, Luo Zhunchen, Huang Heyan. Jointly multiple events extraction via attention-based graph information aggregation[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2018:1247-1256.

[5]Yan Haoran, Jin Xiaolong, Meng Xiangbin, et al. Event detection with multi-order graph convolution and aggregated attention[C]//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2019:5766-5770.

[6]Chen Yubo, Xu Liheng, Liu Kang, et al. Event extraction via dynamic multi-pooling convolutional neural networks[C]//Proc of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2015:167-176.

[7]Nguyen T H, Cho K, Grishman R. Joint event extraction via recurrent neural networks[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Stroudsburg,PA:Association for Computational Linguistics,2016:300-309.

[8]Cui Shiyao, Yu Bowen, Liu Tingwen, et al. Edge-enhanced graph convolution networks for event detection with syntactic relation[C]//Findings of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2020:2329-2339.

[9]Schuster M, Paliwal K. Bidirectional recurrent neural networks[J].IEEE Trans on Signal Processing,1997,45(11):2673-2681.

[10]Hong Yu, Zhang Jianfeng, Ma Bin, et al. Using cross-entity infe-rence to improve event extraction[C]//Proc of the 49th Annual Mee-ting of the Association for Computational Linguistics:Human Language Technologies.Stroudsburg,PA:Association for Computational Linguistics,2011:1127-1136.

[11]Sha Lei, Qian Feng, Chang Baobao, et al. Jointly extracting event triggers and arguments by dependency-bridge RNN and tensor-based argument interaction[C]//Proc of the 32nd AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:5916-5923.

[12]Ahmad W U, Peng Nanyun, Chang Kaiwei. GATE: graph attention transformer encoder for cross-lingual relation and event extraction[C]//Proc of AAAI Conference on Artificial Intelligence.2021:12462-12470.

[13]Liu Anan, Xu Ning, Liu Haozhe. Self-attention graph residual convolutional networks for event detection with dependency relations[C]//Findings of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2021:302-311.

[14]Xie Zhipeng, Tu Yumin. A graph convolutional network with adaptive graph generation and channel selection for event detection[C]//Proc of AAAI Conference on Artificial Intelligence.2022:11522-11529.

[15]Mi Jiaxin, Hu Po, Li Peng. Event detection with dual relational graph attention networks[C]//Proc of the 29th International Confe-rence on Computational Linguistics.[S.l.]:International Committee on Computational Linguistics,2022:1979-1989.

[16]Chen Yubo, Yang Hang, Liu Kang, et al. Collective event detection via a hierarchical and bias tagging networks with gated multi-level attention mechanisms[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2018:1267-1276.

[17]Marcheggiani D, Titov I. Encoding sentences with graph convolutional networks for semantic role labeling[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2017:1506-1515.

[18]Kipf T N, Welling M. Semi-supervised classification with graph con-volutional networks[EB/OL].(2017-02-22).https://arxiv.org/pdf/1609.02907.pdf.

[19]Lai V D, Nguyen T N, Nguyen T H. Event detection: gate diversity and syntactic importance scores for graph convolution neural networks[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2020:5405-5411.

[20]Zhang Mingyu, Fang Fang, Li Hao, et al. MHGEE: event extraction via multi-granularity heterogeneous graph[C]//Proc of the 22nd International Conference on Computational Science.Cham:Springer,2022:473-487.

[21]Mikolov T, Chen Kai, Corrado G, et al. Efficient estimation of word repre-sentations in vector space[EB/OL].(2013-09-07).https://arxiv.org/pdf/1301.3781.pdf.

收稿日期:2023-03-29;修回日期:2023-05-10

基金項(xiàng)目:國(guó)防基礎(chǔ)科研計(jì)劃國(guó)防科技重點(diǎn)實(shí)驗(yàn)室穩(wěn)定支持項(xiàng)目;國(guó)家自然科學(xué)基金資助項(xiàng)目

作者簡(jiǎn)介:張紫月(1999-),女,湖北襄陽(yáng)人,碩士研究生,主要研究方向?yàn)樽匀徽Z(yǔ)言處理、事件抽??;王羽(1989-),男,江蘇揚(yáng)州人,工程師,碩士,主要研究方向?yàn)樽匀徽Z(yǔ)言處理;徐建(1979-),男(通信作者),江蘇江陰人,教授,博導(dǎo),博士,主要研究方向?yàn)閿?shù)據(jù)挖掘、知識(shí)圖譜(dolphin.xu@njust.edu.cn).

澳门| 博乐市| 澄江县| 桂东县| 甘泉县| 宁强县| 太湖县| 苏州市| 巩留县| 江都市| 光泽县| 申扎县| 深州市| 西乌| 弋阳县| 兴化市| 丽水市| 南江县| 万源市| 成武县| 望奎县| 北川| 岗巴县| 安阳市| 开鲁县| 乌恰县| 桂阳县| 庆安县| 岗巴县| 浑源县| 娄底市| 玉龙| 柳河县| 通山县| 镇安县| 神池县| 象山县| 陆河县| 吉水县| 淳安县| 九龙城区|