劉 瀏,蔣國(guó)權(quán),環(huán)志剛,劉姍姍,劉 茗,丁 鯤
(1.國(guó)防科技大學(xué)第六十三研究所,江蘇南京 210007;2.宿遷學(xué)院信息工程學(xué)院,江蘇宿遷 223800)
事件共指消解是自然語(yǔ)言處理領(lǐng)域的重要任務(wù)之一,被廣泛應(yīng)用于機(jī)器閱讀理解、信息抽取、機(jī)器問(wèn)答等場(chǎng)景[1–2]。相較于實(shí)體共指消解,事件共指消解具有更高的挑戰(zhàn)性,并且研究相對(duì)較少。它的任務(wù)是將指向現(xiàn)實(shí)世界中同一事件提及的不同事件提及聚合在共同的事件鏈中[3–4]。事件主要由觸發(fā)詞和事件論元構(gòu)成。觸發(fā)詞是觸發(fā)事件的詞,能夠用于直接描述事件,而論元包括事件的其他重要信息,如施事者、受事者、時(shí)間和地點(diǎn)等[5]。以事件S1和S2為例:
S1:On Friday morning,in an unusually rapid response,the M umbaipolice arrested one of the five attackers at Volte Gallery,and the police said they had identified theothers。
S2:“One of the five hasbeen seized and he adm itted to being in Volte Gallery along w ith some others”,Singh said at a news conference Friday afternoon.
S1和S2的觸發(fā)詞分別是“arrested”和“seized”,事件類(lèi)型為“Justice:A rrest-Jail”。在S1和S2中,受事者分別為有著相同語(yǔ)義的“one of the five attackers”和“Oneof the five”。此外,S1和S2中事件發(fā)生的地點(diǎn)相同,均為“Volte Gallery”。因此,S1和S2是共指的事件提及,并可以將其歸為同一事件鏈:{arrested,seized}。
已有的大部分事件共指消解工作通常直接使用標(biāo)注好的事件信息[6],這類(lèi)方法嚴(yán)重依賴標(biāo)注數(shù)據(jù)并且泛化性差。現(xiàn)階段的研究主要在未標(biāo)注語(yǔ)料中進(jìn)行事件共指消解,這類(lèi)方法更具挑戰(zhàn)性和實(shí)際意義[3,7–8]。Peng等[7]設(shè)計(jì)一個(gè)事件抽取和事件共指消解的端到端模型,從未標(biāo)注文本中抽取事件信息并進(jìn)行共指消解,但沒(méi)有過(guò)濾的事件信息會(huì)導(dǎo)致錯(cuò)誤傳遞。Lu等[8]提出一種聯(lián)合學(xué)習(xí)模型,聯(lián)合學(xué)習(xí)事件檢測(cè)任務(wù)、事件回指檢測(cè)和事件共指消解任務(wù),聯(lián)合模型的各個(gè)子任務(wù)相互促進(jìn),可以有效緩解錯(cuò)誤傳遞問(wèn)題,使模型達(dá)到最佳的性能。
事件論元作為事件的關(guān)鍵信息,在事件共指消解任務(wù)中被廣泛使用[3,9–10]。使用事件論元解決共指消解通?;谌缦录僭O(shè):如果兩個(gè)事件提及是共指的,那么它們對(duì)應(yīng)角色的論元也是共指的。Lu等[3]使用BERT隱式建模事件論元,聯(lián)合學(xué)習(xí)事件檢測(cè)和事件共指消解,提出了顯式建模論元的積極效果。Lu等[9]不區(qū)分事件和論元,使用span代替它們,基于SpanBERT模型聯(lián)合學(xué)習(xí)事件共指消解和實(shí)體共指消解,并通過(guò)添加軟約束和硬約束來(lái)限制結(jié)果。Chen等[10]只利用觸發(fā)詞和部分論元解決事件共指,遺漏了部分重要論元信息。目前主要有3種使用論元信息的方法:1)用預(yù)訓(xùn)練語(yǔ)言模型隱式建模事件論元[3];2)顯式建模事件論元,但對(duì)論元角色不予區(qū)分[9];3)顯式建模論元并區(qū)分其角色,但論元不充分,丟失部分重要信息[10]。本文采用的是顯式的建模論元信息,并且將論元?jiǎng)澐譃?種角色,使其更具一般性。這種劃分方式既能夠區(qū)別對(duì)待不同角色的論元,又能夠防止一些未知角色論元的遺漏。
由于BERT和SpanBERT等預(yù)訓(xùn)練語(yǔ)言模型[11–12]在自然語(yǔ)言處理任務(wù)上獲得顯著成功,大多數(shù)事件共指消解方法使用該類(lèi)模型隱式地獲取事件提及的上下文信息。雖然預(yù)訓(xùn)練語(yǔ)言模型強(qiáng)大的詞嵌入能力允許觸發(fā)詞隱式地蘊(yùn)含上下文信息,但論元作為事件的重要組成部分,顯式引入它們作為一種特征對(duì)解決事件共指問(wèn)題有重要意義[13–14]。同時(shí),相較于觸發(fā)詞,事件論元更為復(fù)雜。一方面,不同類(lèi)型的事件具有不同角色的事件論元(事件子類(lèi)型“Marry”的事件論元有3種角色,而事件子類(lèi)型“Attack”有5種),并且同種角色論元可能不止一個(gè)。另一方面,事件提及中的部分論元可能缺失,例如:S1中角色為“交通工具”的論元為“A 30-foot Cuban patrol boat”,但S2中沒(méi)有對(duì)應(yīng)角色的論元。為了合理使用論元信息解決事件共指消解,本文首先將所有事件的論元角色劃分為:施事者(agent)、受事者(patient)、時(shí)間(time)、地點(diǎn)(place)和其他(other),前4種是事件的基本信息,“其他”包含無(wú)法劃分到前4種中的論元信息。例如,事件類(lèi)型“Attack”的論元信息包含在{agent:A ttacker;paintent:Target;time:Time; place:Place;other:Instrument}集合中,其中論元角色“Instrument”被劃為“other”。這種改進(jìn)的劃分方式,既可以滿足分別處理對(duì)應(yīng)角色論元的需求,也保證所有的論元都囊括其中,不會(huì)致使某些論元缺失。但是論元也容易引入噪聲,并且不同事件類(lèi)型對(duì)不同論元的敏感度具有差異性。
此外,事件共指消解的輸入通常依賴于上游事件抽取的結(jié)果,這種管道方式容易造成錯(cuò)誤的傳遞。同時(shí),共指事件對(duì)于事件提及的數(shù)量來(lái)說(shuō)具有明顯的稀疏性,即單鏈?zhǔn)录紦?jù)相對(duì)較大的比重,這就導(dǎo)致模型容易出現(xiàn)偏差,降低其泛化能力。
針對(duì)上述問(wèn)題,本文提出了一種端到端的事件共指消解方法。該方法主要貢獻(xiàn)有:第一,使用置信分?jǐn)?shù)和門(mén)控機(jī)制自適應(yīng)地控制論元的信息流,從而降低噪聲干擾的同時(shí)提高論元對(duì)不同事件類(lèi)型的敏感度。第二,通過(guò)重建事件鏈緩解由事件共指鏈分布稀疏導(dǎo)致的模型學(xué)習(xí)偏差。第三,在ACE2005數(shù)據(jù)集上驗(yàn)證了本文模型的先進(jìn)性。
本文模型主要包括4個(gè)組件:事件抽取、提及編碼器、共指得分器和共指鏈重構(gòu),工作流程如圖1所示。第1步,通過(guò)事件抽取模塊獲取事件提及的觸發(fā)詞和論元信息;第2步,使用提及編碼器獲取觸發(fā)詞和論元的嵌入表示;第3步,對(duì)上述表示進(jìn)行二次計(jì)算,并進(jìn)行拼接以獲取事件提及的表示;第4步,通過(guò)得分器計(jì)算事件對(duì)的共指分?jǐn)?shù);第5步,使用修剪算法對(duì)事件共指鏈進(jìn)行重構(gòu)。
圖1 事件共指消解模型結(jié)構(gòu)Fig. 1 Architecture of event coreference resolution model
為得到較為準(zhǔn)確的事件信息,采用OneIE[15]方法來(lái)提取事件提及的觸發(fā)詞和論元信息。OneIE作為性能比較突出的事件抽取方法之一,在ACE2005數(shù)據(jù)集上獲得了較好的效果。根據(jù)OneIE模型預(yù)測(cè)的論元信息,將其劃分為前文中提到的5種角色,并且為每個(gè)論元保留一個(gè)置信分?jǐn)?shù)。
提及編碼的輸入是一個(gè)包含n個(gè)tokens和k個(gè)事件提及{m1,m2,···,mk}的文檔D。提及編碼器如圖2所示。
圖2 提及編碼器的結(jié)構(gòu)Fig.2 Structure of mention encoder
模型首先使用Transform er編碼器為每個(gè)輸入token形成上下文表示,用X=(x1,x2,···,x n)表示編碼器的輸出,其中x i∈Rd,d表示每個(gè)token編碼后的向量維度。對(duì)于每個(gè)mi,用si和ei分別表示觸發(fā)詞(或論元)的開(kāi)始和結(jié)束索引,它的觸發(fā)詞t i被定義為其token嵌入的平均值:
式中,t i表示提及mi的觸發(fā)詞。但是,如上所述,提及mi對(duì)應(yīng)的論元可能不止一個(gè),并且來(lái)自信息抽取中的錯(cuò)誤可能會(huì)對(duì)事件共指消解產(chǎn)生負(fù)面影響。為此,在事件抽取時(shí)為每個(gè)論元分配一個(gè)置信分?jǐn)?shù)c∈(0,1],它表示該論元是提及mi對(duì)應(yīng)角色r的論元的概率。當(dāng)論元置信分?jǐn)?shù)c越接近1時(shí),使用它引入錯(cuò)誤的可能性越小,反之亦然。為了緩解錯(cuò)誤傳遞帶來(lái)的消極影響,在論元的表示中引入置信分?jǐn)?shù),對(duì)應(yīng)角色r的論元定義如下:
式(2)~(3)中,r∈{agent,patient,time,p lace,other},為提及mi對(duì)應(yīng)角色r的第l個(gè)論元,分別表示第l個(gè)論元的開(kāi)始和結(jié)束索引,c表示第l個(gè)論元的置信分?jǐn)?shù),u表示mi對(duì)應(yīng)角色r的論元個(gè)數(shù)。在獲得mi對(duì)應(yīng)角色r的所有論元表示后,采用池化策略(Pooling)得到最終的論元。當(dāng)mi對(duì)應(yīng)角色r的論元為缺省或不存在時(shí),使用一個(gè)d維0向量表示。
給定兩個(gè)提及mi和mj,觸發(fā)詞對(duì)和對(duì)應(yīng)角色r論元對(duì)的表示分別被定義為:
式(4)~(5)中,F(xiàn)FNNt是的前饋神經(jīng)網(wǎng)絡(luò),編碼mi和mj的論元級(jí)相似性。
為進(jìn)一步緩解錯(cuò)誤傳遞和獲取事件提及上下文中最有用的信息,受到Lai等[13]的啟發(fā),設(shè)計(jì)了一種門(mén)控過(guò)濾機(jī)制,利用觸發(fā)詞過(guò)濾論元中的噪聲,如圖3所示。
圖3 門(mén)控模塊的結(jié)構(gòu)Fig.3 Structure of the gated module
對(duì)于每個(gè)事件提及mi,模型將從所有的候選提及yi中為它分配一個(gè)先行詞mj或者虛擬先行詞 ε:mj∈yi,yi={ε,m1,m2,···,mi–1}。虛擬先行詞代表兩種情況:1)mi不是事件提及;2)mi是事件提及,但它與前面的所有事件提及都不共指。本文設(shè)定s(i,ε)=0。兩個(gè)提及共指的一個(gè)必要的條件是有相同的事件子類(lèi)型,因此僅將具有相同事件子類(lèi)型的提及對(duì)作為候選共指提及對(duì)。
最直接的構(gòu)建事件共指鏈的方法是從每個(gè)候選事件提及中找到最好的(共指得分最高的)事件提及[8]:
但這種貪婪算法只考慮局部一致性,無(wú)法保證全局最佳。為此,文獻(xiàn)[12]設(shè)計(jì)了一種類(lèi)型指導(dǎo)的解碼機(jī)制保證事件鏈的全局一致性。不同于上述方法,本文基于共指鏈分布的稀疏性設(shè)計(jì)了一種新的成鏈算法。從大量的實(shí)驗(yàn)中觀察到單鏈(singleton)占比遠(yuǎn)比共指鏈占比高,因此需要再次考慮單鏈的合法性。此外,將提及數(shù)大于2的事件鏈視為長(zhǎng)鏈(long-chain)。事件鏈的復(fù)雜度隨事件鏈的長(zhǎng)度增加而提升,因此額外驗(yàn)證長(zhǎng)鏈中每個(gè)提及的合法性。具體地,給定文檔D中的事件提及{m1,m2,···,mk},模型首先通過(guò)上述貪婪算法得到最初的事件共指鏈,然后再使用事件鏈重構(gòu)算法1得到最終的事件共指鏈。
在算法1中,對(duì)于D中每個(gè)事件鏈ci(ci∈C,C={c1,c2,···,cl}),用鏈中所有提及表示的平均池化表示該鏈。算法1中第2~8行驗(yàn)證單鏈。對(duì)于文檔D中的每個(gè)單鏈ci,使用模型訓(xùn)練得到的scorer(第2.3節(jié))分別計(jì)算ci與其他事件鏈cj(cj∈(C–{ci}))的共指得分,如果ci和cj的得分最高且大于閾值ω1,合并ci和cj并更新事件鏈。算法1中第9~15行,對(duì)于每個(gè)長(zhǎng)度大于2的事件鏈c,依次計(jì)算鏈中每個(gè)事件提及m和c–{m}的得分,如果得分小于閾值ω2,就認(rèn)為m和c中其他提及共指的概率較低,因此移出c并將其作為一個(gè)單鏈更新事件共指鏈。然后再次使用算法1,對(duì)D中的所有單鏈和長(zhǎng)鏈進(jìn)行一次重構(gòu)。
模型的目標(biāo)是輸出文檔中的所有事件共指鏈。當(dāng)一個(gè)事件提及的預(yù)測(cè)先行詞是它的真實(shí)共指事件時(shí),認(rèn)為這個(gè)預(yù)測(cè)的先行詞是正確的先行詞。為了讓模型得到最佳結(jié)果,本文優(yōu)化所有正確的先行詞的邊際對(duì)數(shù)似然[16]:
式(14)~(15)中,GOLD(i)表示mi的真實(shí)共指事件鏈,如果mi不存在真實(shí)共指事件,則GOLD(i)={ε},P(i,j)表示mi與mj共指的概率。
在ACE2005數(shù)據(jù)集[17]上進(jìn)行所有的實(shí)驗(yàn),該數(shù)據(jù)集包含599個(gè)文檔。為實(shí)驗(yàn)結(jié)果的公正性,選取與文獻(xiàn)[8]和[14]相同的40個(gè)新聞文章作為測(cè)試集進(jìn)行實(shí)驗(yàn),并且隨機(jī)選擇30個(gè)其他的不同題材的文檔作為驗(yàn)證集,剩余529個(gè)文檔用作模型的訓(xùn)練集。
實(shí)驗(yàn)結(jié)果分析指標(biāo)沿用文獻(xiàn)[8]中的CoNLL和AVG指標(biāo)來(lái)衡量。CoNLL分?jǐn)?shù)是B3[18]、MUC[19]和CEAFe[20]3個(gè)指標(biāo)的平均值,AVG分?jǐn)?shù)是B3、MUC、CEAFe和BLANC[21]的平均值。
使用SpanBERT作為T(mén)ransformer編碼器[12,22]。在實(shí)驗(yàn)中對(duì)于不同的任務(wù)設(shè)置不同的學(xué)習(xí)率,Span-BERT的學(xué)習(xí)率為5×10-5,任務(wù)學(xué)習(xí)率為5×10-4。在提及編碼器中,設(shè)置SpanBERT的編碼維度d=768,并且設(shè)置FFNN的維度p=500,深度為1。在算法1中,設(shè)置閾值ω1和ω2均為0。設(shè)置dropout=0.5,每次訓(xùn)練的batch的大小設(shè)置為8,epoch=50。
1)Baseline模型僅采用觸發(fā)詞作為事件共指消解的特征,即式(11)的f ij只包含式(4)中t ij。
2)SSED+SupervisedExtended與SSED+MSEP的不同是前者使用文獻(xiàn)[23]中的事件表示方法,后者在前者的基礎(chǔ)上提出了MSEP模型,該模型將事件元素抽象成5類(lèi)元素從而實(shí)現(xiàn)事件的結(jié)構(gòu)化向量表示。
3)CDGM[8]使用事件提及對(duì)的觸發(fā)詞以符號(hào)特征來(lái)計(jì)算事件共指得分。為了使模型能夠更好地學(xué)習(xí)穩(wěn)定信號(hào),CDGM+Noise模型在其訓(xùn)練過(guò)程中對(duì)符號(hào)特征隨機(jī)增加噪聲。
表1為端到端模型在ACE2005數(shù)據(jù)集上整體的結(jié)果。本文使用OneIE來(lái)抽取事件提及、類(lèi)型和論元。表1表明,相比于先前的工作,本文模型取得了最佳的效果,在CoNLL和AVG兩個(gè)指標(biāo)與其他經(jīng)典模型相比平均提升了5.67%和6.24%。相較于方法SSED,本文的方法和CDGM方法都有明顯的優(yōu)勢(shì),這是因?yàn)樵趯?duì)論元信息表示上都采用了門(mén)控機(jī)制過(guò)濾噪聲,因此效果提升較為明顯。雖然本文與CDGM方法都使用OneIE作為事件抽取模塊,同時(shí)也采用門(mén)控機(jī)制對(duì)事件信息進(jìn)行過(guò)濾,但是后采用的是隱式手段將事件提及中的論元信息包含在觸發(fā)詞和符號(hào)特征中。同時(shí),SSED和CDGM這兩種方法沒(méi)有處理由事件共指鏈稀疏性導(dǎo)致的模型訓(xùn)練偏差問(wèn)題。因此本文模型獲得了較優(yōu)的結(jié)果。
表1 端到端模型結(jié)果對(duì)比Tab.1 Results of end-to-end models
為了更好地分析模型的有效性,本節(jié)使用數(shù)據(jù)集中標(biāo)注的事件提及進(jìn)行實(shí)驗(yàn)。為此,實(shí)驗(yàn)將論元的置信分?jǐn)?shù)c全部設(shè)置為1,這表示論元信息是完全可信的,實(shí)驗(yàn)結(jié)果見(jiàn)表2。由表2可知,相比于其他模型,本文模型在真實(shí)的事件提及上的實(shí)驗(yàn)結(jié)果平均提升了5.17%和4.9%,進(jìn)一步說(shuō)明了本文方法的有效性。但是相較于表1的結(jié)果,容易發(fā)現(xiàn)目前端到端模型還需要進(jìn)一步優(yōu)化,即使對(duì)事件信息抽取結(jié)果進(jìn)行過(guò)濾,依然無(wú)法彌補(bǔ)其誤差導(dǎo)致的錯(cuò)誤傳遞問(wèn)題。
表2 基于事件標(biāo)注的實(shí)驗(yàn)結(jié)果Tab.2 Experimental results based on event annotation
為進(jìn)一步探索模型各組件的效果,在ACE2005數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn)。表3為對(duì)事件論元進(jìn)行消融實(shí)驗(yàn)的結(jié)果。由表3可知:首先,當(dāng)刪除論元置信分?jǐn)?shù)(–confidence)時(shí),即所有論元置信分?jǐn)?shù)設(shè)置為1,CoNLL和AVG指標(biāo)分別下降了0.74%和1.04%,這說(shuō)明引入論元置信分?jǐn)?shù)對(duì)緩解信息抽取階段的錯(cuò)誤具有積極作用。其次,當(dāng)刪除對(duì)應(yīng)角色為‘other’的事件論元(–other)時(shí),即只使用角色為agent、patient、time和place的4種論元,CoNLL和AVG指標(biāo)分別下降了1.25%和1.58%,表明角色為‘other’的論元中包含了被遺漏信息,這論證了本文對(duì)論元角色劃分的合理性。當(dāng)刪除所有論元信息(–all argument),即只使用觸發(fā)詞時(shí),由表3可以看出,模型的效果下降2.90%和4.03%。實(shí)驗(yàn)結(jié)果再次驗(yàn)證了顯示引入論元信息的有效性。最后,本文不區(qū)分論元角色,直接使用所有論元表示的平均池化替代區(qū)分后的論元(+all argument(mean)),由表3可以看出,不區(qū)分論元角色的模型效果下降了1.03%和1.44%。論元作為參與事件的關(guān)鍵角色,區(qū)分不同角色的論元,更容易讓模型理解論元中的信息,提升模型的效果。
表3 消融實(shí)驗(yàn)結(jié)果Tab.3 Results of ablation experiment
最后對(duì)重構(gòu)共指鏈算法(–reconstruct)進(jìn)行消融研究的結(jié)果表明,當(dāng)直接使用貪婪算法構(gòu)建事件鏈并將其作為最終的事件共指鏈時(shí),CoNLL和AVG指標(biāo)分別下降了0.85%和1.48%。這就驗(yàn)證了本文重構(gòu)事件共指鏈算法對(duì)提高共指消解模型性能具有正面的效果。
本文提出了一種利用顯式論元信息和重構(gòu)事件鏈的端到端事件共指消解方法。該方法利用門(mén)控和置信分?jǐn)?shù)等方法緩解事件自動(dòng)化抽取導(dǎo)致的錯(cuò)誤信息傳播問(wèn)題。同時(shí)通過(guò)重構(gòu)事件鏈算法減少由共指事件稀疏帶來(lái)的模型學(xué)習(xí)偏差。相較于現(xiàn)有模型,本文模型在端到端事件共指消解任務(wù)上具有一定的先進(jìn)性,其中在CoNLL以及AVG指標(biāo)上平均高出基線模型5.67%和6.24%。但該模型依然存在改進(jìn)的空間。在未來(lái)工作中,將進(jìn)一步研究如何利用聯(lián)合學(xué)習(xí)嘗試解決端到端模型中不同任務(wù)模塊間存在的信息錯(cuò)誤傳遞問(wèn)題。同時(shí)還需要針對(duì)跨文本事件共指消解這一難題進(jìn)行研究。