国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于跨語言數(shù)據(jù)增強的事件同指消解方法

2022-04-19 09:27:10程昊熠李培峰朱巧明
中文信息學報 2022年3期
關(guān)鍵詞:短句語料實例

程昊熠,李培峰,朱巧明

(1.蘇州大學 計算機科學與技術(shù)學院,江蘇 蘇州 215006;2.江蘇省計算機信息技術(shù)處理重點實驗室,江蘇 蘇州 215006)

0 引言

事件同指消解任務(wù)是自然語言處理領(lǐng)域中一項具有挑戰(zhàn)性的工作,是自然語言理解的一個主要基礎(chǔ),如話題檢測[1]、信息抽取[2]和閱讀理解[3]等都需要用到事件同指消解。事件同指消解負責判斷文本中的兩個事件句是否指向真實世界中同一件事,并將它們聚合到同一個事件鏈。以事件S1和S2為例:

S1: The way wecaughtthat guy was by coordinating with our allies.

S2: The same weekend theyarrestedthe guy, we had.

事件S1的觸發(fā)詞是“caught”,事件S2的觸發(fā)詞是“arrested”。雖然兩個事件的觸發(fā)詞不同,但中文意思都是“被抓捕”,且二者的施事者與受事者相近。此外,兩個事件的事件類型都是“Justice”,因此二者屬于同指關(guān)系,并入同一個事件鏈中。

目前,現(xiàn)存的通用語料庫都存在規(guī)模較小、語言單一的問題。ACE2005英文語料庫中含有4 090條事件鏈,中文語料庫中含有2 521條事件鏈,KBP語料庫含有3 335條事件鏈。語料庫規(guī)模太小會導致模型無法充分學習,性能低下。為了解決語料庫規(guī)模較小的問題,目前通用的方法有兩種。第一種方法是使用機器翻譯工具將源語料庫翻譯成其他語言,這樣既增強了語料庫的規(guī)模,又可以利用源語料庫中的標注信息,從而確保增加語料的標注質(zhì)量。第二種方法是使用強化學習[4]的方法在一堆未標注的語料上進行自動標注,這種方法可以實現(xiàn)標注語料的自動化,節(jié)省成本,增加語料的來源,但是自動標注的質(zhì)量可能會稍有遜色。本文使用第一種方法進行相關(guān)實驗。

事件同指消解用于判別兩個事件之間是否具有同指關(guān)系,但其面臨的問題是每個詞語通常都會有多個語義??缯Z言學習是解決這個問題的一種有效方式,可以借助詞語的其他語言形式來明確其語義,補充結(jié)構(gòu)信息,從而幫助模型尋找出事件語義、結(jié)構(gòu)之間的不同與相似之處。一般而言,有兩種常用的跨語言學習方法。一種方式是首先在某一語言上訓練一個模型,然后把該模型應用到另一種語言。另一種方式是通過共享模型參數(shù)進行多語言間的跨語言學習。本文則在語料庫數(shù)據(jù)增強的基礎(chǔ)上進行中英文語料的跨語言學習,通過跨語言學習的方法,讓中英文互補各自的不足之處,降低翻譯質(zhì)量對實驗的影響。

為了解決語料庫規(guī)模較小、語義多樣性以及事件句含有多個事件的問題,本文設(shè)計了一種基于跨語言數(shù)據(jù)增強的神經(jīng)網(wǎng)絡(luò)模型ECR_CDA(Event Coreference Resolution on Cross-lingual Data Augmentation)。該方法使用機器翻譯工具來擴充語料庫規(guī)模,解決語料庫規(guī)模較小的問題。利用事件觸發(fā)詞的依存詞和論元自動抽取事件實例短句,解決句中存在多個事件的問題,最大程度地減小無關(guān)事件的影響。使用跨語言學習的方法借助中文來明確英文單詞的語義,補充結(jié)構(gòu)信息,幫助模型通過多個語言尋找出事件之間語義與結(jié)構(gòu)的不同之處,提升英文事件同指消解任務(wù)的性能。

1 相關(guān)工作

目前,事件同指消解的研究建立在實體同指消解[5]研究的基礎(chǔ)之上,早期的事件同指消解研究大都使用基于概率或者圖的傳統(tǒng)機器學習方法。Chen等[6]設(shè)計的事件對同指消解分類器引入了一系列事件對屬性,比如觸發(fā)詞、時態(tài)、極性等是否一致。Chen等[7]提出了一種基于圖模型的聚類方法,使用最小圖切割的方法來優(yōu)化糾正事件鏈,將不屬于該鏈的事件句剔除出去。Liu等[8]設(shè)計了最大熵分類器,并引入了100多種特征進行實驗。Lu等[9]提出了一種基于馬爾科夫鏈的聯(lián)合推理模型用于糾正分類器產(chǎn)生的錯誤結(jié)果。Liu等[10]設(shè)計了一種基于圖的模型分類器,將事件合并成一個無向圖,然后將非同指的事件從圖中剔除出去。在其他領(lǐng)域中,Zhu等[11]使用機器翻譯工具將英文語料庫和中文語料庫翻譯成對應的中文語料庫和英文語料庫來擴充語料庫規(guī)模,然后使用最大熵分類器對擴充后的中英文語料庫同時進行事件抽取。她做過對比實驗,用最大熵分類器對原來的語料庫進行實驗,性能有所降低。傳統(tǒng)機器學習方法總體來說所需特征較多,且使用工具抽取的特征中會包含錯誤信息,對分類器的性能造成不良影響。

如今,神經(jīng)網(wǎng)絡(luò)方法已經(jīng)成為自然語言處理領(lǐng)域的一種主流方法。相較于傳統(tǒng)方法,神經(jīng)網(wǎng)絡(luò)方法特征工程較少、分類準度高、效率高、可移植性強。Krause等[12]在KBP語料庫中首先使用神經(jīng)網(wǎng)絡(luò)方法在事件同指消解任務(wù)上進行研究,先用卷積池化網(wǎng)絡(luò)抽取事件句和觸發(fā)詞上下文的特征信息,然后引入事件對匹配特征來輔助判別事件對之間是否存在同指關(guān)系。Fang等[13]在KBP語料庫中主要使用目前較為火熱的注意力機制抽取事件句中的重要信息,并結(jié)合事件句之間的線性相似度與事件對匹配特征來判別事件對之間是否存在同指關(guān)系。程昊熠[14]使用CNN、Bi-LSTM和注意力機制多角度提取事件特征,在KBP語料上取得了很好的效果。Huang等[15]重點關(guān)注事件之間論元的兼容性,發(fā)現(xiàn)同指的事件對之間論元的兼容性更強。他首先使用未標注的語料學習事件之間論元的兼容性強弱,然后通過Bi-LSTM的基礎(chǔ)模型判斷事件之間的同指關(guān)系。Urbizu等[16]為了解決巴斯克語語料庫規(guī)模較小的問題,引入了規(guī)模較大的英文語料庫,通過跨語言詞向量編碼的方式擴大訓練集的規(guī)模,在巴斯克語測試集上的實驗結(jié)果顯示,性能有略微的提升。在其他研究領(lǐng)域中,Ananya等[17]在關(guān)系識別任務(wù)中,利用單詞的詞性、依存路徑、觸發(fā)詞上下文等信息,通過共享圖卷積網(wǎng)絡(luò)在單一語言的語料庫中訓練,在其余語言的語料庫上進行測試。目前,跨語言方法還未在事件同指消解領(lǐng)域應用,本文在這方面進行了嘗試。

2 基于中英跨語言數(shù)據(jù)增強的事件同指消解模型

為了解決ACE2005語料庫規(guī)模較小和事件句中存在多個事件的問題,本文提出了一個基于中英跨語言數(shù)據(jù)增強的事件同指消解模型ECR_CDA。ECR_CDA主要使用機器翻譯工具擴充語料庫,利用事件觸發(fā)詞的依存詞和論元來抽取事件實例短句,并結(jié)合事件實例短句間的線性與非線性相似度[18]和事件對特征來輔助判別兩個事件句是否同指。該模型主要分為以下6個部分: ①使用Google機器翻譯工具擴充語料庫;②利用觸發(fā)詞的依存詞和論元抽取事件實例短句;③引入詞性信息和單詞在句中距離觸發(fā)詞的相對位置信息,豐富事件句信息,并結(jié)合事件對特征輔助分類器;④對中英文事件句通過共享參數(shù)的方式進行跨語言學習;⑤通過激活函數(shù)后,將置信度大于0.5的分類作為同指關(guān)系;⑥利用事件鏈上事件之間的傳遞性設(shè)計了全局優(yōu)化方法。其結(jié)構(gòu)如圖1所示。

2.1 數(shù)據(jù)增強

為了解決語料庫規(guī)模較小導致神經(jīng)網(wǎng)絡(luò)模型無法充分學習的問題,使用機器翻譯工具來擴充語料庫規(guī)模。語料擴充流程如圖2所示。

圖2 語料擴充流程圖

其中,將源中文語料翻譯成目標英文語料,并入源英文語料生成英文語料。將源英文語料翻譯成目標中文語料,并入源中文語料生成中文語料。觸發(fā)詞是事件同指消解任務(wù)中的關(guān)鍵,為了在目標語料中確定觸發(fā)詞的位置,在源語料中事先將觸發(fā)詞用“[]”標注起來。這樣,在翻譯好的目標語料中,“[]”所標注的詞語就是觸發(fā)詞。由于事件匹配特征只需判斷屬性是否相同,因此事件屬性不需要翻譯。

2.2 事件實例短句抽取

在事件同指消解任務(wù)中所使用的公共語料都存在著一個事件句中存在多個觸發(fā)詞的問題,即句中存在多個事件。事件同指消解任務(wù)是判斷兩個事件之間的同指關(guān)系,而模型的輸入是兩個事件句。如果事件句中存在多個事件,那么無關(guān)事件會影響模型的判斷。為了解決該問題,并希望用中文來明確英文單詞的具體語義,本文設(shè)計了中文事件實例短句抽取方法。抽取流程如下:

(1)使用依存詞分析工具得出每個詞語的依存詞。

(2)將觸發(fā)詞對應的依存詞單獨抽取出來,與論元放在一起,形成邊界確定詞語組。

(3)查詢邊界,確定詞語組中詞語在句中的位置,選取最左側(cè)和最右側(cè)的單詞確定事件實例短句的起始與截止位置,從而抽取出該段事件實例短句。

例1: 剛剛宣誓就任的行政長官董建華也應邀參加成立典禮并且致詞。

“就任”的邊界確定詞語組為“宣誓、董建華、應邀,剛剛宣誓就任的行政長官、行政長官”,“成立”的邊界確定詞語組為“典禮、參加、應邀”?!熬腿巍钡氖录嵗叹錇椤皠倓傂木腿蔚男姓L官董建華也應邀”,“成立”的事件實例短句為“應邀參加成立典禮”。可見,事件句中的兩個事件就很好地被拆分開來,從而達到抽取出事件實例短句的目的。此外,在實驗過程中也嘗試計算英文事件實例短句間的相似度,也嘗試通過共享參數(shù)的方式同時計算英文以及中文事件實例短句間的相似度,但三者之間的實驗性能相當,最終選擇使用中文事件實例短句。

2.3 輸入層

事件中單詞之間是相互獨立的,為了彌補輸入事件順序結(jié)構(gòu)信息的缺失,為每個單詞賦予一個它們各自到觸發(fā)詞的距離作為其位置信息(Loc)。此外,單詞的詞性信息(POS)代表每個單詞所扮演的語法角色,比如某個單詞是主語或者形容詞等。由于單詞、詞性信息和位置信息之間一一對應,因此將①事件句(Sen)、②事件句中每個單詞的詞性信息(POS)、③事件句中每個單詞的位置信息(Loc)、④中文事件實例短句(OE)、⑤事件對匹配特征(P)作為輸入。

此外,ACE 2005中、英文語料庫均提供了事件類型及事件子類型、形態(tài)、極性、泛型、時態(tài)和觸發(fā)詞。本文利用這些標注信息組成事件對匹配特征: ①事件類型是否一致(type)、②事件子類型是否一致(sub)、③形態(tài)是否一致(mod)、④極性是否一致(pol)、⑤泛型是否一致(gen)、⑥時態(tài)是否一致(tense)、⑦觸發(fā)詞是否一致(trig)。

對于需要判別是否存在同指關(guān)系的事件句(文中的下標1和下標2屬于目標英文語料中事件e1和e2的特征信息,下標3和下標4屬于目標中文語料中事件e3和e4的特征信息,e1對應e3,e2對應e4),使用英文詞向量矩陣得到英文事件句向量Sen1和Sen2,詞性標注特征向量POS1、POS2、POS3和POS4,使用中文詞向量矩陣得到中文事件句向量Sen3和Sen4,中文事件實例短句向量OE1和OE2。對于單詞的位置信息,使用隨機的詞嵌入矩陣將它隨機映射成100維的位置向量Loc1、Loc2、Loc3和Loc4。

首先,將事件句向量、詞性向量和位置向量拼接在一起,形成新的事件句向量E1、E2、E3和E4。如式(1)所示。

Ei=Concat(Seni,POSi,Loci)i=1,2,3,4

(1)

將事件對匹配特征和兩個事件句在文檔內(nèi)的距離dis融合成向量P,如式(2)所示。

P=Concat(type,sub,mod,pol,gen,tense,trig,dis)

(2)

2.4 跨語言學習模塊

通過共享模型參數(shù)的方式實現(xiàn)中英跨語言學習,借助中文來解決英文單詞中存在語義不明確的問題,使得模型從兩種語言上學習到事件之間語義與結(jié)構(gòu)的不同之處。

通過卷積神經(jīng)網(wǎng)絡(luò)挖掘出事件句中詞與詞之間的相互信息C1、C2、C3和C4,如式(3)所示。

Ci=Conv(Ei)i=1,2,3,4

(3)

在對事件句進行卷積操作時,使用Bi-LSTM神經(jīng)網(wǎng)絡(luò)獲取單詞的上下文信息,提取事件句的全局信息H1、H2、H3和H4,如式(4)所示。

(4)

注意力機制目前在自然語言處理領(lǐng)域十分火熱,其作用有目共睹。通過給句中每個單詞賦予權(quán)重,將事件句向量E1、E2、E3、E4和權(quán)重WE1、WE2、WE3、WE4做點積操作,可以使得事件句中每個單詞的詞向量間差異性擴大,從而獲得事件句的重要信息A1、A2、A3和A4,如式(5)所示。

Ai=Ei⊙WEii=1,2,3,4

(5)

將互信息、全局信息和重要信息合并在一起,經(jīng)過卷積池化層得到跨語言學習向量Q1、Q2、Q3和Q4,如式(6)所示。

Qi=ConvAndPool(Concat(Ci,Hi,Ai))i=1,2,3,4

(6)

此外,中文能幫助明確英文的具體語義,幫助模型從多種語言角度尋找出事件之間語義、結(jié)構(gòu)的差異性。因此,本文通過計算兩個中文事件實例短句之間的線性相似度與非線性相似度,來更加準確地得到英文事件之間的相似度。相似度計算方法如式(7)所示。

(7)

2.5 輸出層

將跨語言學習向量Qi、線性相似度LS、非線性相似度NS和事件對特征向量P拼接在一起形成向量V,如式(8)所示。

V=Concat(Qi,LS,NS,P)i=1,2,3,4

(8)

V向量放入使用Relu激活函數(shù)的全連接分類器中,如式(9)所示。

Vh=α(Wh×V+b)

(9)

通過sigmoid層得出事件間的置信度,如果該值大于0.5,則該事件對是同指關(guān)系,否則不是同指關(guān)系。如式(10)所示。

score=sigmoid(W0×Vh+b0)

(10)

2.6 全局優(yōu)化

由于事件鏈存在傳遞性,事件對之間的關(guān)系會相互沖突。例如,有兩個同指事件對(ei,ej)和(ej,ek),如果ei和ej同指,ej和ek同指,那么ei和ek就應該同指。但是,模型可能會將ei和ek判定為非同指。為了解決該問題,ECR_CDA模型設(shè)計了一個全局優(yōu)化方法,對事件鏈進行優(yōu)化糾正,規(guī)則如下: ①如果ei、ej同指,ej、ek同指,則ei和ek同指;②如果ei、ej非同指,ej、ek非同指,則ei和ek非同指;③如果ei、ej同指,ej、ek非同指,則ei和ek非同指;4)如果ei、ej非同指,ej、ek同指,則ei和ek非同指。具體如式(11)所示。

(11)

3 實驗

3.1 實驗設(shè)置

本文使用Google機器翻譯工具翻譯ACE 2005中英文語料。由于ACE2005中文語料庫中負例(非同指的事件對)太多,使得正負例比例嚴重失調(diào)。因此,剔除中文語料庫中不含有同指事件對的文檔和事件類型不相同的事件對。本文使用Links、MUC[19]、B3[20]和BLANC[21]四種評測方法來評估模型性能,并且報告以上四個指標的均值A(chǔ)VG。

在超參數(shù)的設(shè)置方面,中文詞向量矩陣使用了維基百科的預訓練向量,詞向量的維度設(shè)為300,英文詞向量矩陣使用了glove的預訓練向量,詞向量的維度設(shè)為300。為了防止過擬合,Dropout的值設(shè)為0.5。將Bi-LSTM神經(jīng)元設(shè)置為50維,CNN神經(jīng)元設(shè)置為100維。

3.2 實驗結(jié)果

為了體現(xiàn)基于中英跨語言學習的神經(jīng)網(wǎng)絡(luò)模型ECR_CDA的優(yōu)越性,本文使用了3個基準系統(tǒng)。

(1)Liu: Liu[8]在2014年使用傳統(tǒng)分類器的方法做的實驗;

(2)Krause: Krause[12]在2016年第一次使用神經(jīng)網(wǎng)絡(luò)的方法在ACE2005英文語料庫上做的實驗;

(3)Fang: 使用可分解注意力機制模型在ACE2005英文語料庫上做的實驗。

實驗結(jié)果如表1所示。

表1 英文模型性能比較 (單位: %)

從表1可以看出:

(1)與Liu的傳統(tǒng)分類器相比,ECR_CDA在4種評測指標上均大幅度超過了Liu。Liu的傳統(tǒng)機器學習的方法使用了大量特征,這些使用工具抽取的特征往往會存在一些錯誤,積攢的錯誤特征就會使得分類器分類錯誤。而ECR_CDA這種神經(jīng)網(wǎng)絡(luò)方法只使用了少量的特征信息,就在性能上有提升,可以看出神經(jīng)網(wǎng)絡(luò)方法的確在某些方面大大優(yōu)于傳統(tǒng)機器學習方法。

(2)與Krause相比,ECR_CDA在4種評測指標上均大幅度超過了Krause。Krause首次使用神經(jīng)網(wǎng)絡(luò)方法在ACE2005英文語料庫上進行了嘗試,他在輸入中將事件句和位置信息進行了融合,抽取了觸發(fā)詞前后各3個單詞作為輸入特征,然后使用CNN提取句內(nèi)單詞與單詞之間的局部特征,位置信息的融入正好彌補了CNN忽視句內(nèi)單詞的順序結(jié)構(gòu)的缺點。但是,CNN只考慮了詞與詞之間的順序關(guān)系,而判別一對事件句是否同指需要從事件句整體考慮,Krause恰恰忽略了這一問題。因此,ECR_CDA除了使用CNN提取局部特征,還使用Bi-LSTM提取單詞的上下文信息,從事件句整體考慮二者的同指關(guān)系,ECR_CDA的結(jié)果說明了全局信息的重要性。

(3)與Fang相比,ECR_CDA在Links評測指標上提升了9.31%,在性能均值上提升了4.34%。Links是對模型判別的事件對結(jié)果進行評測,MUC、B3、BLANC則是評測事件鏈的結(jié)果。Links的大幅度提升表明ECR_CDA模型能較好地區(qū)分兩個事件句之間的差異性,這是由于ECR_CDA中引入了中文事件實例短句的線性相似度與非線性相似度。該方法不僅最大程度上降低無關(guān)事件的影響,而且計算得到的事件句之間的差異性也可以幫助ECR_CDA來判別事件的同指關(guān)系。事件對評測指標的提升促進了事件鏈評測指標的提升,ECR_CDA相較于Fang在事件鏈上的評測指標均提升3%左右。Fang在輸入過程中,將詞性信息單獨作為一個輸入,并沒有像ECR_CDA那樣與事件句進行拼接。錯誤的詞性信息會影響模型的判別,而詞性和單詞拼接在一起,會降低錯誤的詞性信息的影響程度。此外,F(xiàn)ang主要依靠注意力機制來提取事件句的重要信息,而忽略了事件句本身的局部信息和全局信息。

3.3 實驗分析

為了分析ECR_CDA中各個模塊的作用性,設(shè)計了4個對比實驗進行對比分析,具體如表2所示。其中,①OEM: 沒有擴充語料庫,沒有使用中英跨語言學習方法,沒有引入事件實例短句;②NE: 在OEM基礎(chǔ)上引入事件實例短句的相似度計算;③OE: 擴充語料庫,引入事件實例短句,沒有使用中英跨語言學習方法;④ECR_CDA: 既使用中英跨語言學習方法擴充語料庫,也引入事件實例短句。

表2 英文對比實驗

從表2可以看出:

(1)OEM沒有擴充語料,沒有使用跨語言方法,且沒有引入事件實例短句。NE在OEM的基礎(chǔ)上引入了事件實例短句,和OEM相比,在事件對性能Links、B3和BLANC上均提升4%左右,性能均值提升了3.17%。事件實例短句的引入可以消除多余無關(guān)詞語的干擾,再輔以線性與非線性相似度的計算,均發(fā)揮了重要作用。此外,NE與Fang相比,F(xiàn)ang抽取觸發(fā)詞的前后三個單詞形成事件短句,和本文抽取的事件實例短句類似。但Fang抽取的事件短句有很大的不穩(wěn)定性,固定抽取觸發(fā)詞前后三個單詞所形成的事件短句中結(jié)構(gòu)信息、事件的論元信息會大大缺失,從而導致該短句是殘缺的。而本文提出的事件實例短句抽取方法很好地解決了這一問題。

按照Fang抽取事件短句的方法,對例1中的觸發(fā)詞“就任”抽取的事件短句是: 剛剛宣誓就任的行政長官,觸發(fā)詞“成立”抽取的事件短句是: 也應邀參加成立典禮并且致詞。結(jié)合例1抽取出來的事件實例短句來看,“就任”抽取的事件短句缺少了很重要的論元“董建華”,“成立”抽取的事件短句多了一個“致辭”,而“致辭”有潛力成為一個事件的觸發(fā)詞,會增加冗余信息。而按照本文提出的事件實例短句抽取方法卻很好地解決了這些問題。

(2)OE系統(tǒng)進行了語料庫的擴充,沒有使用中英跨語言學習方法。性能均值和NE系統(tǒng)相比提升了1.56%。由此可見,語料庫的擴充是有效的措施。ACE 2005中英文語料庫的來源相同,引入源中文語料庫的目標英文語料庫可以增大源英文語料庫的規(guī)模,較小的語料庫規(guī)模會使得模型無法充分學習,容易出現(xiàn)過擬合的現(xiàn)象,增大語料庫的規(guī)模恰恰解決了這一問題。事件對性能Links的提升可以看出ECR_CDA可以更好地識別出同指事件對。

(3)ECR_CDA系統(tǒng)既擴充了語料庫,又進行中英跨語言學習,在英文語料庫上進行了實驗。相較于其余兩個系統(tǒng),ECR_CDA在四個評測指標上均有較大的提升。與OE相比,Links提升了4.47%,MUC、B3、BLANC均提升了2%左右,最終性能均值提升了2.54%。ECR_CDA與OE均擴充了語料庫的規(guī)模,但ECR_CDA同時使用了中英跨語言學習的方法,Links的大幅度提升可以看出中英跨語言學習方法能夠幫助模型更好地判定同指關(guān)系,Links的提升促進了事件鏈性能的提升。中文可以幫助明確英文單詞的語義,在中英跨語言學習模塊訓練過程中,中文語義的明確可以從側(cè)面幫助模型更好地學習到英文事件之間的相似與不同之處。同時,中文事件實例短句的相似度計算的引入,可進一步幫助模型對同指關(guān)系的判定,如例2所示。

例2: S1: I’m not saying take the threat offorce;S1的中文: 我不是說以武力相威脅;S1的中文事件實例短句:武力。

S2: I’m saying we don’t need to useforceright now;S2的中文: 我是說我們不需要立即使用武力;S2的中文事件實例短句: 我們不需要立即使用武力。

例2中,S1與S2是非同指關(guān)系。由于S1與S2的觸發(fā)詞都是“force”,都是否定句,二者的事件類型都是“Conflict”,事件子類型都是“Attack”,模型會將二者誤判為同指關(guān)系。但引入中文和事件實例短句相似度計算后,由于S1中文與S2中文的相似度非常低,二者的結(jié)構(gòu)信息不同,且中文事件實例短句之間的長度不同、相似度低,模型會將其糾正為非同指關(guān)系。中英跨語言學習與中文事件實例短句相似度計算的結(jié)合使用,可幫助糾正英文事件同指消解任務(wù)的錯誤判定。

此外,本文同時在ACE2005中文測試集上進行五倍交叉驗證實驗,使用MUC、B3、BLANC和CEAFe[22]四種評測方法,對四個系統(tǒng)進行對比分析。①Huan[23]: 使用門控注意力機制在ACE2005中文語料上做的實驗;②Base: 沒有擴充語料,也沒有中英跨語言學習;③ECC: 僅僅擴充語料;④ECR_CDA: 擴充語料并做跨語言學習。中文對比實驗結(jié)果如表3所示。

表3 中文對比實驗

從表3可以看出: ①與Huan相比,ECR_CDA在各項指標上均有下降,存在以下原因: 中文十分復雜,翻譯難度巨大。在將英文翻譯成中文的過程中,Google翻譯工具翻譯得很直白,并沒有考慮語言的先后順序與結(jié)構(gòu)信息,導致翻譯的中文事件與英文事件原本的語義差距十分巨大,該現(xiàn)象在翻譯長句的時候尤為明顯。此外,英文中有許多人名、地名、機構(gòu)名等縮寫名稱,這些名稱在翻譯過程中是個很大的障礙。錯誤的中文語義與結(jié)構(gòu)信息的引入,給實驗帶來了很多噪聲,嚴重影響了模型的訓練學習。②相較于Base,ECC在四個評測指標上均有小幅度的提升,在性能均值上提升了1.42%。可以看出,適當?shù)財U充語料庫規(guī)模,可以使得神經(jīng)網(wǎng)絡(luò)模型學習得更加充分,從而提升分類準確度。③雖然ECR_CDA較于Huan性能有所下降,但與ECC相比在四個評測指標上均提升了5%左右,性能均值相較于ECC提升了4.13%。由此可見,中英跨語言學習的方法能夠幫助模型從多種語言角度彌補各自語言的語義與結(jié)構(gòu)的缺陷,但是還得密切關(guān)注引入的額外語料的質(zhì)量問題,質(zhì)量低下的語料的引入,會給實驗帶來噪聲,效果往往會適得其反。

4 總結(jié)與展望

本文針對語料庫規(guī)模較小導致模型容易過擬合的問題,使用機器翻譯工具擴充語料庫規(guī)模。針對事件句包含多個事件的問題,設(shè)計了事件實例短句抽取方法,依據(jù)觸發(fā)詞的依存詞和論元抽取事件實例短句,設(shè)計了一種基于中英跨語言學習的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)ECR_CDA,使得中英文語義、結(jié)構(gòu)之間相互補充學習,再計算中文事件實例短句之間的線性與非線性相似度來輔助判別同指關(guān)系。最后,使用全局優(yōu)化方法來優(yōu)化修正事件鏈。實驗結(jié)果表明,該跨語言學習方法很好地提升了事件同指消解的性能,優(yōu)于目前最好的基準系統(tǒng)。未來的工作重點是端到端事件同指消解。

猜你喜歡
短句語料實例
短句,讓表達更豐富
十幾歲(2022年34期)2022-12-06 08:06:24
短句—副詞+謂語
娃娃畫報(2019年8期)2019-08-05 18:21:56
短句—謂語+賓語
娃娃畫報(2019年8期)2019-08-05 18:21:56
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
華語電影作為真實語料在翻譯教學中的應用
《苗防備覽》中的湘西語料
國內(nèi)外語用學實證研究比較:語料類型與收集方法
完形填空Ⅱ
完形填空Ⅰ
長句變短句方法例談
九台市| 南宁市| 太仆寺旗| 淮滨县| 杭锦后旗| 韩城市| 肇州县| 武功县| 扶余县| 筠连县| 榆社县| 仪陇县| 扎赉特旗| 平远县| 渝中区| 斗六市| 江西省| 古蔺县| 永川市| 天全县| 桂东县| 保康县| 聊城市| 洛阳市| 肃宁县| 纳雍县| 进贤县| 房产| 宾阳县| 交口县| 浠水县| 深水埗区| 峨眉山市| 富阳市| 铜川市| 抚远县| 兴安县| 邻水| 丹棱县| 德保县| 鹰潭市|