国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

增強依存結(jié)構(gòu)表達的零樣本跨語言事件論元角色分類*

2024-03-19 11:10:26張遠洋貢正仙
計算機工程與科學 2024年3期
關(guān)鍵詞:論元編碼分類

張遠洋,貢正仙,孔 芳

(蘇州大學計算機科學與技術(shù)學院,江蘇 蘇州 215006)

1 引言

自動事件抽取能快速定位與提取關(guān)鍵信息,是當今輿情追蹤、信息推送等熱點領(lǐng)域的核心技術(shù)之一。事件一般包括觸發(fā)詞(Trigger)和論元(Argument),其中,觸發(fā)詞標志著事件的發(fā)生和事件類型,論元是構(gòu)成事件參與者的實體,擁有特定的角色。

如圖1所示,文本“米洛舍維奇被迫逃離貝爾格勒”中的“逃離”一詞為觸發(fā)詞,觸發(fā)了“Movement-Transport”類型的事件,論元實體“米洛舍維奇”“貝爾格勒”作為該事件的參與者,對應著各自的角色:“Artifact” 和“Place”。

Figure 1 Instance of event text圖1 事件文本實例

事件論元角色分類任務是對當前的事件文本,在給定觸發(fā)詞的情況下,判斷在該觸發(fā)詞所代表的事件中候選論元實體所承擔的角色。文本中事件的表述形式多變,其標注工作也較為復雜,比如 ACE2005事件標注語料將事件細分為了33種類型,論元分為了36種角色,其標注工作需要耗費大量人力。目前在語料資源較為豐富的英文上,事件論元角色分類已取得較好的性能[1-3],但其它更多的語言由于語料缺失,無法有效地完成有監(jiān)督的模型訓練。

跨語言事件論元角色分類是指模型在源語言事件文本中學習到語義和結(jié)構(gòu)信息后,再對目標語言文本中包含的候選論元進行分類。根據(jù)目標語言可以提供的語料數(shù)量,跨語言一般會面對零樣本(Zero-shot)和少樣本(Few-shot)應用場景。本文研究零樣本跨語言的處理方法在源語言事件文本中進行充分訓練模型后,直接將模型應用于無標注資源的目標語言進行測試。

跨語言技術(shù)的核心是建立語言間特征的映射或者挖掘不同語言的特征表示并將其投射到統(tǒng)一空間中。前者一般通過雙語對齊資源,例如平行語料和雙語詞典等,將源語言的相關(guān)特征遷移到目標語言[1,2];也可以通過機器翻譯技術(shù)將2種語言轉(zhuǎn)換成1種語言進行處理[3],但該方法受限于機器翻譯的質(zhì)量,翻譯較差的文本會出現(xiàn)關(guān)鍵特征的部分甚至全部缺失,進而會影響模型的最終性能。對于后者,近年來蓬勃發(fā)展的多語言/跨語言預訓練模型,例如mBERT(multilingual Bidirectional Encoder Representations from Transformers)[4]和XLM-R[5]可以將不同語言的文本投影到同一詞匯語義空間,使得構(gòu)建跨語言特征表示的方法得到越來越多的關(guān)注。如在跨語言文本分類任務中,徐月梅等[6]借助生成對抗網(wǎng)絡(luò)構(gòu)建帶類別特征的雙語詞向量;施憶雪等[7]通過主題模型構(gòu)建中越語言對應的主題關(guān)鍵詞的類別特征。

上述工作主要依賴詞匯語義表達來建模不同語言的類別相關(guān)性,在跨語言事件論元角色分類任務中,當前的研究主要基于文本的依存結(jié)構(gòu)建模,用以消除不同語言間語序差異、文本長度差異等問題,構(gòu)建相應的網(wǎng)絡(luò)結(jié)構(gòu),如GCN(Graph Convolutional Network)[8]、Transformer[9]以及Transformer的變體GATE(Graph Attention Transformer Encoder)[9],然而這些模型依然存在相應的缺陷,GCN無法完成觸發(fā)詞到候選論元的長距離建模;一般Transformer編碼無法建模結(jié)構(gòu)性信息;GATE基于依存結(jié)構(gòu)建模了長距離依賴但是缺少對觸發(fā)詞到候選論元路徑的關(guān)注。

因此,本文提出基于增強依存結(jié)構(gòu)表達的方法完成跨語言事件論元角色分類,從事件文本的語義依存樹中構(gòu)建觸發(fā)詞到候選論元依存節(jié)點路徑,該路徑反映了從觸發(fā)詞到候選論元的語義信息傳遞,且信息傳遞的平均距離小于序列層面的平均距離,更能緩解不同語言下文本長度的差異性,對路徑信息進行建模后,可以對一般主流模型中的缺陷進行補足:(1)彌補了GCN無法建模觸發(fā)詞到候選論元的長距離結(jié)構(gòu)信息;(2)較好地基于依存語義關(guān)系構(gòu)建不同語言間的共性結(jié)構(gòu),彌補一般Transformer編碼器缺少的結(jié)構(gòu)信息;(3)對觸發(fā)詞到候選論元的依存路徑進行了連續(xù)性建模,彌補了GATE缺少的關(guān)鍵路徑信息。

本文實驗在ACE2005數(shù)據(jù)集上進行,分別用英文、中文和阿拉伯文中的1種為源語言訓練模型,以另外2種語言為目標語言進行測試。為了驗證該方法的有效性和通用性,本文構(gòu)建了多個主流模型并嘗試將本文提出的方法與它們相聯(lián)合。實驗結(jié)果表明,本文方法可以有效提升跨語言事件論元角色分類的性能。

2 相關(guān)工作

2.1 單語言事件論元角色分類

事件論元角色分類工作是在給定事件觸發(fā)詞和事件類型情況下,對圍繞該事件的待分類候選論元實體進行角色判斷。在單語言下,該工作已獲得了較深入的研究。Li等[10]針對中文論元角色分類,提出了基于事件相關(guān)性的全局論元推理模型,探索不同論元角色之間的語義關(guān)聯(lián)。Wang等[11]針對不同的論元角色類型提出了高階分層模型,在36種論元角色基礎(chǔ)上,提出了8種更高階的類別,在一定程度上對論元之間角色共性進行構(gòu)建。Wei等[12]不再顯式地將觸發(fā)詞融入模型,而以機器閱讀理解的方式探尋論元和論元之間隱藏的相關(guān)性,能有效地實現(xiàn)對隱式論元的角色分類。Ma等[13]利用外部無標注數(shù)據(jù)構(gòu)建偽標注事件抽取語料,擴充了訓練數(shù)據(jù),并在Transformer編碼模塊,根據(jù)輸入文本詞與詞之間的語義依存情況,調(diào)整注意力機制的權(quán)重分數(shù),增加關(guān)聯(lián)性較強的詞與詞之間的交互,使得文本交互表達更具有語義關(guān)聯(lián)性。Ye等[14]引入了自動學習問題模板的prompt模型,將問題模板同待處理事件文本相拼接,送入預訓練模型后生成論元對應角色類別。

Figure 2 Semantic dependency tree for event text圖2 事件文本語義依存樹

2.2 跨語言事件論元角色分類

單語言下事件論元角色分類的研究已有多種有效方法,但跨語言事件論元角色分類的研究還處于探索階段。2019年Subburathinam等[8]首次探索了深度學習框架下的零樣本跨語言事件論元角色分類任務。該項研究工作不僅利用現(xiàn)成的詞性標注特征和多語言詞嵌入表示,還按照依存樹形成的鄰接矩陣,使用圖卷積網(wǎng)絡(luò)來建模詞匯之間存在的某種關(guān)系。2020年Lu等[15]基于依存樹以Tree-LSTM(Tree Long Short-Term Memory)模型實現(xiàn)文本結(jié)構(gòu)化交互,同時以Transformer編碼模型對文本進行序列化交互,分別獲得文本的結(jié)構(gòu)信息和序列信息下的表達,增加不同語言之間的一致性。2021年Nguyen等[16]進一步考慮依存結(jié)構(gòu)中的關(guān)系類型,在圖卷積神經(jīng)網(wǎng)絡(luò)中加入依存關(guān)系類型的向量映射矩陣作為詞匯節(jié)點交互時的信息補充,避免卷積時粗糙地將子節(jié)點信息進行聚合。然而基于依存結(jié)構(gòu)建模的圖神經(jīng)網(wǎng)絡(luò)在實現(xiàn)跨語言遷移時也存在一定的缺陷,即在長距離依存路徑下無法有效地完成信息的多跳傳遞。如在阿拉伯語中,觸發(fā)詞和論元的平均依存距離為12,在圖卷積網(wǎng)絡(luò)中二者作為事件的關(guān)鍵構(gòu)成元素,卻難以實現(xiàn)信息交互。同年,Ahmad等[9]提出GATE模型,與上述方法不同,該工作僅使用Transformer[17]編碼,該編碼模塊在詞匯節(jié)點的交互階段保證了所有的信息傳遞不受距離限制,以詞匯間的依存距離調(diào)整相互之間的注意力權(quán)重,使得詞匯的交互僅限于依存距離閾值以內(nèi),實現(xiàn)了結(jié)構(gòu)的交互和長距離下信息的傳遞。

綜上所述,不同語言間的結(jié)構(gòu)特征對跨語言事件論元抽取任務非常重要。在上述研究基礎(chǔ)上,本文通過分析不同語言的論元和事件觸發(fā)詞在依存結(jié)構(gòu)上的分布規(guī)律,提出對觸發(fā)詞到候選論元的依存路徑進行額外編碼的方法,從而進一步提高跨語言事件候選論元角色分類的性能。

3 增強依存結(jié)構(gòu)表達的跨語言事件論元角色分類

3.1 依存結(jié)構(gòu)對跨語言任務的重要性分析

Subburathinam等[8]研究表明依存分析結(jié)構(gòu)樹可以避免不同語言下序列表達的不一致性,緩解主賓謂、主謂賓等語序差異。特別地,在事件論元角色分類任務中,由于事件論元和觸發(fā)詞共同組成一個事件,其相互之間語義關(guān)聯(lián)性非常高,使得二者在序列表達距離較遠的情況下,仍能在依存結(jié)構(gòu)中距離較近。

不僅如此,不同語言事件文本的表達在依存結(jié)構(gòu)層面還具有相似性。如圖2所示,中英文的事件文本實例均為“meet”類事件,中文實例中事件觸發(fā)詞“見”對應的事件中,論元“他”和“丈夫”均為“Person”角色;英文事例中事件觸發(fā)詞“meeting”所對應的事件中,論元“President Bush”和“several Arab leaders”也都是“Person”角色。

綜上所述,將依存結(jié)構(gòu)表示融合到跨語言事件論元角色分類模型中是必要的。

3.2 基于依存結(jié)構(gòu)的跨語言事件論元角色分類模型

本文提出的基于增強依存結(jié)構(gòu)的跨語言事件論元角色分類模型的框架如圖3所示,主要包含文本編碼器模塊、角色分類器以及事件依存路徑編碼模塊。具體工作可細分為以下5個過程:

Figure 3 Framework for cross-lingual event argument role classfication model based on enhanced dependency structure representation圖3 基于增強依存結(jié)構(gòu)的跨語言事件論元角色分類模型框架

(1)將不同語言的詞匯映射到同一向量空間:本文模型使用凍結(jié)參數(shù)的mBERT預訓練模型直接對包含n個詞的事件文本進行編碼,得到每個詞匯的稠密向量嵌入表示。若mBERT分詞模塊把詞匯劃分為多個子詞時,則將多個子詞輸出的平均池化作為原詞匯表示hw。

(2)語言學特征拼接:本文利用UDPipe[18]語言學解析工具( https://ufal.mff.cuni.cz/udpipe),獲得每個詞的詞性hp、實體類型he和依存關(guān)系類型hd3類語言學特征,并聯(lián)合事件類型特征ht,將它們的嵌入表示(初始隨機,后隨模型訓練進行學習)與(1)中的詞匯表示hw相拼接得到聯(lián)合嵌入表示ha。

(3)文本編碼器:編碼器接受長度可變的序列,并將其轉(zhuǎn)換為具有固定維度的輸出。在端到端的學習過程中,編碼器會自動調(diào)整參數(shù)使得網(wǎng)絡(luò)關(guān)注關(guān)鍵特征的表示。為了驗證(4)中事件依存路徑信息編碼器的有效性和通用性,本文構(gòu)建了適合跨語言遷移任務的3種主流模型(參見2.2節(jié)相關(guān)研究部分),包括GCN、Transformer以及GATE模型。本部分內(nèi)容的詳細描述見3.3節(jié)。

(4)事件依存路徑編碼:與(3)中關(guān)注句子全局特征表示的文本編碼器不同,此處采用BiGRU(Bidirectional Gated Recurrent Unit)網(wǎng)絡(luò)對觸發(fā)詞和候選論元在依存結(jié)構(gòu)樹上的路徑信息進行額外編碼,最終通過與(3)的聯(lián)合來增益角色分類的判斷。這是本文的工作重點,詳細描述見3.4節(jié)。

(5)角色分類器:基于編碼后的文本及事件依存路徑信息表示對候選論元角色進行分類。

3.3 文本編碼器

根據(jù)前文相關(guān)工作的調(diào)研結(jié)果,本文選取了3個有代表性的跨語言事件論元角色分類工作中使用的文本編碼模型。這3個代表性模型因為采用的網(wǎng)絡(luò)不同,對文本中詞匯之間關(guān)聯(lián)信息的編碼方法也各不相同。

3.3.1 GCN文本結(jié)構(gòu)化編碼

(1)

節(jié)點鄰接矩陣為An×n,第i個詞和第j個詞在依存樹中相互鄰接時Aij=1,反之Aij=0。Wl表示第l層可學習參數(shù)矩陣,b(l)表示可學習偏置,di表示第i個節(jié)點的度數(shù)。最終輸出帶依存結(jié)構(gòu)信息的編碼表示。

3.3.2 Transformer文本序列編碼

Transformer[17]編碼器,每層包括自注意力模塊、前饋神經(jīng)網(wǎng)絡(luò)及標準化層。Transformer編碼器接收輸入序列的向量表示h∈Rn×d,其中,n表示序列長度,d表示向量維度,將H={h}映射到Q,V,K后進行自注意力計算。Q=hWQ,V=hWV,K=hWK,其中,WQ,WK,WV均為屬于Rd×dk的可學習參數(shù)矩陣,dk為超參數(shù),實驗時dk=64。自注意力編碼如式(2)所示:

(2)

自注意力編碼層的輸出x進一步輸入到前饋神經(jīng)網(wǎng)絡(luò)層,如式(3)所示:

FFN(x)=max(0,xW1+b1)W2+b2

(3)

其中,W1,W2,b1,b2分別表示可學習的參數(shù),W1∈Rd×dff,W2∈Rdff×d,b1∈Rdff,b2∈Rd,dff表示高維映射維度。

3.3.3 GATE文本結(jié)構(gòu)化編碼

GATE[9]是以Transformer編碼器為核心框架的跨語言遷移模型,其核心注意力模塊的輸入與式(2)一致,但最大的不同之處在于,其計算模塊中額外加入了詞與詞之間在依存結(jié)構(gòu)下的距離偏置M,公式調(diào)整如式(4)所示:

(4)

其中,F(·)表示歸一化函數(shù);M∈Rn×n決定2個詞之間是否相互關(guān)注。M的取值如式(5)所示:

(5)

其中,δ表示距離閾值,Dij表示輸入文本中詞匯節(jié)點i和詞匯節(jié)點j在依存樹中的距離。

3.4 BiGRU事件依存路徑信息編碼

前文描述的GCN圖神經(jīng)網(wǎng)絡(luò)或者Transformer編碼器按照依存結(jié)構(gòu)中詞與詞的連接進行編碼,能夠有效地對依存關(guān)系進行表示。但是,上述工作對所有詞匯間存在的依存關(guān)系都一視同仁地進行編碼,雖然某些模型后期有調(diào)整,比如GATE通過依存距離矩陣屏蔽了一些無關(guān)的依存節(jié)點,從而在注意力模塊使得每個詞能關(guān)注更加重要(有限的距離范圍內(nèi))的依存節(jié)點,在此過程中,沒有區(qū)別對待觸發(fā)詞/論元和其它詞。然而根據(jù)依存樹限制了詞匯節(jié)點的交互距離,也造成了觸發(fā)詞和論元在依存樹上完整關(guān)聯(lián)路徑信息的缺失。因為直觀上,觸發(fā)詞和論元都是事件的重要組成元素,相互的語義關(guān)聯(lián)度更高,且二者之間的依存路徑也會包含與事件信息較為相關(guān)的詞匯節(jié)點。因此,若對觸發(fā)詞和論元之間的路徑直接建模,將為事件論元角色的分類提供重要幫助。

如表1所示的ACE2005數(shù)據(jù)集中的事件文本實例,觸發(fā)詞“見”到論元“丈夫”,以及“meeting”到“President Bush”,考慮對如上依存路徑信息的利用,或?qū)⒃黾硬煌Z言的事件論元角色判斷在依存結(jié)構(gòu)上的統(tǒng)一性,有利于事件論元角色分類。于是,本文提出一種改進的跨語言事件論元角色分類方法,在基于依存結(jié)構(gòu)的一般跨語言模型結(jié)構(gòu)上,加入BiGRU網(wǎng)絡(luò)建模事件觸發(fā)詞到候選論元的依存路徑節(jié)點信息,增加對事件候選論元的關(guān)注,在依存結(jié)構(gòu)上構(gòu)建不同語言共有的事件表達特征。

3.4.1 BiGRU網(wǎng)絡(luò)

BiGRU是雙向的GRU[20]網(wǎng)絡(luò),其中GRU網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)的一種變體,有效地緩解了RNN的反向傳播時梯度消失的問題,且相較于LSTM又有著更少的參數(shù)量,不易發(fā)生過擬合,適合當前小規(guī)模事件文本的訓練。網(wǎng)絡(luò)中包含更新門“z”和重置門“r”。在t-1時刻輸出為ht-1,在t時刻BiGRU更新狀態(tài)如式(6)~式(8)所示:

rt=δ(Weret+Whrht-1+br)

(6)

zt=δ(Wezet+Whh(rt·ht-1)+bz)

(7)

(8)

(9)

(10)

Table 1 Dependency path of trigger word to argument in event text表1 事件文本中觸發(fā)詞到論元的依存路徑

3.4.2 事件依存路徑信息編碼

{gt,gp1,…,gpk-1,ga}=BiGRU(ρ)

(11)

(12)

其中,BiGRU為雙向GRU網(wǎng)絡(luò),FFNN為前饋神經(jīng)網(wǎng)絡(luò)。

如圖4所示,抽取“President Bush is going to be meeting with several Arab leaders”中觸發(fā)詞“meeting”到候選論元“Bush President”的依存路徑得到“meeting going Bush President”,之后將其表示拼接語言學特征后輸入到BiGRU網(wǎng)絡(luò)。構(gòu)建依存路徑的算法如算法1所示。

算法1 構(gòu)建從觸發(fā)詞到候選論元的依存路徑Input:List,L={li}ni=1,consisting of n word nodes,li is parent position of i-th word node,觸發(fā)詞位置Pt,候選論元位置Pa。Output:觸發(fā)詞到候選論元的依存路徑L_t2a。 1.在L中,從觸發(fā)詞位置Pt向上逐個遍歷其祖先節(jié)點,并保存到列表ancestors_t中。 2.在L中,從候選論元位置Pa向上逐個遍歷其祖先節(jié)點,并保存到列表ancestors_a中。 3.取ancestors_t 和ancestors_a 交集得到觸發(fā)詞到候選論元的公共祖先節(jié)點,并將其保存到集合ances-tors_c 中。 4.依據(jù)公共祖先節(jié)點集合ancestors_c 建立其中的每個節(jié)點的父子關(guān)系,形成字典c_p_dict,其中鍵為當前節(jié)點位置,值為當前節(jié)點的子節(jié)點位置 。 5.遍歷字典c_p_dict,遍歷到當前節(jié)點時,如果其在c_p_dict對應的子節(jié)點位置為空,則當前節(jié)點為觸發(fā)詞和候選論元的最近公共祖先節(jié)點記作lca。 6.在L 中從觸發(fā)詞位置Pt向上遍歷到lca,期間經(jīng)過的節(jié)點位置保存列表 L_t2lca中。 7.在L 中從候選論元位置Pa向上遍歷到lca,期間經(jīng)過的節(jié)點位置保存列表 L_a2lca中。 8.刪除 L_t2lca中的最后一個節(jié)點,逆轉(zhuǎn)L_a2lca的順序,將二者前后合并得到從觸發(fā)詞到候選論元的依存路徑節(jié)點L_t2a。Return:L_t2a

4 實驗與結(jié)果分析

4.1 數(shù)據(jù)集與評價指標

實驗基于ACE2005的事件標注數(shù)據(jù)集,包含了中文、英文和阿拉伯文3種語言,定義了33種事件類型及圍繞這些事件類型的36種論元角色(包含1種非論元角色),如表2所示。為了證明本文模型的有效性,采取了與之前工作一致的數(shù)據(jù)劃分[8,9],同樣在給定事件觸發(fā)詞和候選論元的情況下,判斷候選論元在觸發(fā)詞所代表事件中的角色。建模階段所用的語言學特征由UDPipe工具解析得到,包含9種實體類型、16種詞性類型和35種依存關(guān)系類型。

評價標準與一般事件抽取任務相同,當候選論元所對應的事件類型、位置以及分類角色都與語料標注一致時,該候選論元角色分類才算正確。計算精確率和召回率后得到F1值,代表模型的性能。

Table 2 Event distribution of three languages表2 3種語言的事件分布

4.2 實驗設(shè)置

為證明事件依存路徑信息編碼模塊的有效性,本文選取了當前在跨語言事件論元角色分類任務上性能較高的模型作為對比基線模型,在其基礎(chǔ)上添加本文提出的事件依存路徑信息編碼模塊加以比較。這些基線模型輸入的文本及特征的嵌入表示是一致的(參見3.2節(jié)),但在網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)上存在一些差異,具體如下:

CL_GCN[9]:該模型以圖卷積網(wǎng)絡(luò)為編碼框架,隱藏層維度為200,編碼層數(shù)為2。在源語言上進行訓練,在目標語言上進行測試。

Transformer編碼器:使用傳統(tǒng)的多頭注意力結(jié)構(gòu)對文本進行序列層面的交互,隱藏層維度為512,編碼層數(shù)為1。在源語言上進行訓練,在目標語言上進行測試。

GATE:當前跨語言事件論元角色分類的任務上的SOTA(State-Of-The-Art)模型,該模型將借助依存樹為Transformer 編碼層的注意力分數(shù)計算添加依存距離偏置,隱藏層維度為512,編碼層數(shù)為1,注意力頭數(shù)為8,其中受依存距離改動的注意力頭數(shù)為4,依存距離的閾值為1,1,2,2。在源語言上進行訓練,在目標語言上進行測試。

BiGRU:本文編碼依存路徑的網(wǎng)絡(luò)結(jié)構(gòu),輸入維度為512,隱藏層維度為200。

4.3 主要結(jié)果及分析

4.3.1 跨語言性能比較

表3中A2B表示模型在A語言上訓練后,在B語言上測試。En、Zh、Ar分別表示英文、中文和阿拉伯文,CL_GCN、Transformer和GATE表示3個基準模型,GATE表現(xiàn)最好,平均性能達到了61.3%。沒有基于依存結(jié)構(gòu)的Transformer編碼模型超過了CL_GCN,平均性能達到55.6%。本文認為CL_GCN模型雖能根據(jù)依存結(jié)構(gòu)中詞匯節(jié)點的鄰接矩陣建立結(jié)構(gòu)相似性,但是缺少建模長距離依賴的能力;而Transformer模型已被大量的研究證明具有長距離建模的能力。GATE模型是建立在Transformer編碼基礎(chǔ)上的,既具有長距離建模能力,又通過依存結(jié)構(gòu)的距離調(diào)整了注意力權(quán)重,篩除了一些無關(guān)的節(jié)點,所以相較于一般Transformer編碼模型,平均性能提升了5.7%,這一結(jié)果顯示出基于依存結(jié)構(gòu)特征表示對跨語言遷移的重要性,與前文3.1節(jié)中的分析一致。

表3中的實驗結(jié)果也表明,加入事件依存路徑編碼信息之后,3個改進的基準模型(模型名稱后加path標識的)的平均性能均得到提高,其中,提升最明顯的是Transformer編碼模型,平均提升了5.9%,特別是對于阿拉伯文到中文的跨語言遷移(Ar2Zh),甚至超出了最好的GATE模型;其次是CL_GCN模型的平均性能提升了5.5%;即使對于此前達到SOTA性能的GATE模型,也將其性能平均提升了1.3%。

4.3.2 性能提升分析

為了進一步解釋性能提升的原因,本文展示基準模型加入path后準確率P和召回率R的提升率,并加以分析。如表4所示,可以觀察到,從觸發(fā)詞到論元的依存平均距離小于序列距離,且Ar>Zh>En。

Table 4 Average sequence distance and averagedependency distance from trigger to argument表4 觸發(fā)詞到論元的序列和依存距離的平均值

Table 3 Performance of different models after adding event dependency path module表3 加入事件依存路徑模塊后不同模型的性能 %

從圖5中可以看出,對于基于依存結(jié)構(gòu)編碼的模型CL_GCN,從平均距離較短的語言遷移到平均距離較長的語言時(En2Ar,Ez2Zh,Zh2Ar),召回率R提升率更高。容易理解,由于引入path模塊后延長了觸發(fā)詞和候選論元的建模距離,從而能召回更多的論元。而模型從平均距離較長的語言遷移到平均距離較短的語言時(Zh2En,Ar2Zh,Ar2En),準確率P的提升率更高。同樣,這是由于path模塊增強了來自于依存結(jié)構(gòu)的信息表達,使得信息能連續(xù)地從觸發(fā)詞到候選論元傳遞,模型對于觸發(fā)詞和候選論元相距較近時的角色判斷更為準確。

Figure 5 Improvement rate of precision P and recall R of CL_GCN after adding path module圖5 加入path后CL_GCN的 準確率P和召回率R的提升率

從圖6中可以看出,對于基于依存結(jié)構(gòu)編碼的模型GATE,在Ar2En和Ar2Eh上召回率R提升更高,是因為GATE可以通過其部分正常的注意力機制進行長距離建模,適應阿拉伯文,但是受限于距離閾值的注意力模塊使得模型只能關(guān)注到部分距離以內(nèi)的詞,因此加入path模塊后可以召回更多論元,提升召回率R。而Zh2Ar的準確率P提高,則是因為GATE已經(jīng)結(jié)合結(jié)構(gòu)信息和序列信息具有了長距離編碼的能力,加入path后可以提高論元角色判斷的準確率。

對于沒有基于依存結(jié)構(gòu)編碼的Transformer編碼器,加入path模塊后較高地提升了從短距離語言到長距離語言En2Ar和Zh2Ar的召回率R,如圖7所示。這是由于觸發(fā)詞到候選論元的距離通常小于序列層面的距離,而path模塊恰好為Transformer編碼器提供了從依存結(jié)構(gòu)層面的編碼信息,從而召回更多的論元。對于準確率P的提升,則是較好地結(jié)合了不同語言在依存結(jié)構(gòu)表現(xiàn)出的事件共性,論元角色的判斷更準確。En2Zh的準確率和召回率提升相近,主要是依存結(jié)構(gòu)起到了對論元的召回和準確識別角色的作用。Ar2Zh,Ar2En和Zh2En的準確率P提升較多的原因則是相符于CL_GCN中更容易幫助模型獲得短距離依存結(jié)構(gòu)信息的能力;Zh2Ar和En2Ar則是體現(xiàn)通過依存路徑縮短信息交互距離,召回更多的論元,提升召回率R。

因此,本文認為事件依存路徑編碼模塊path具有建模不同語言間的依存結(jié)構(gòu)共性和事件共性的能力,緩解了不同語言的序列表達差異性,從而更好地將源語言中的事件論元信息遷移到目標語言。

Figure 6 Improvement rate of precision P and recall R of GATE after adding path module圖6 加入path后GATE的準確率P 和召回率R的提升率

Figure 7 Improvement rate of precision and recall of Transformr encoder after adding path module圖7 加入path后Transformer編碼模型的 準確率P和召回率R的提升率

4.3.3 單語言下的性能比較

本文分別對3種語言進行單語言下的性能對比實驗,進一步驗證事件依存路徑模塊對事件論元角色判斷的有效性。

表5中的實驗結(jié)果顯示,3種基準模型在單語言下訓練和測試時,加入path模塊,其性能仍然提升明顯。這說明基于依存結(jié)構(gòu)的跨語言模型在事件信息的表征上仍然存在不足,而事件依存路徑信息模塊(path)可以一定程度上彌補,使之更充分地學習到依存路徑節(jié)點中蘊含的重要事件信息。

Table 5 Performance of different models after adding event dependency path module in single language表5 單語言上加入事件依存路徑模塊后不同模型的性能 %

5 結(jié)束語

本文提出了圍繞事件依存路徑建模的跨語言事件論元角色分類方法,其中事件依存路徑是指從觸發(fā)詞到候選論元的依存路徑,對此建模不僅能體現(xiàn)事件文本在不同語言表達下的依存結(jié)構(gòu)共性,還能將觸發(fā)詞到候選論元的依存節(jié)點進行連續(xù)性建模,能更好地幫助候選論元的角色分類。此外,該方法能夠靈活地與一般文本編碼模型進行結(jié)合,在SOTA模型GATE上分類F1值平均提升了1.3%。

本文雖然從依存結(jié)構(gòu)層面建模不同語言在事件文本表達上的共性,但不同語言的事件文本對應的依存樹仍然存在較大差異。例如,在ACE2005語料中,英文事件文本較短,其依存樹的寬度和深度也較小;而阿拉伯文的事件文本較長,其依存樹的寬度和深度較大,這也導致二者對應的依存結(jié)構(gòu)具有較大差異。在未來將會考慮根據(jù)依存關(guān)系對依存樹進行啟發(fā)式修剪,進一步增加不同語言在依存結(jié)構(gòu)上的相似性,爭取再次提高跨語言事件論元角色分類的性能。

猜你喜歡
論元編碼分類
分類算一算
基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達圖像配準
《全元詩》未編碼疑難字考辨十五則
子帶編碼在圖像壓縮編碼中的應用
電子制作(2019年22期)2020-01-14 03:16:24
分類討論求坐標
Genome and healthcare
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
成分重量和粵方言雙及物結(jié)構(gòu)的論元語序
基于論元結(jié)構(gòu)和題元指派對漢語處置義“把”字句的句法語義分析
桓台县| 凉山| 大新县| 梁山县| 新化县| 扎兰屯市| 祁阳县| 东明县| 通道| 庐江县| 铜山县| 衡东县| 加查县| 潍坊市| 萨嘎县| 剑阁县| 皮山县| 南华县| 江口县| 修武县| 湖州市| 昌图县| 翁牛特旗| 浙江省| 七台河市| 贡山| 颍上县| 元江| 菏泽市| 平谷区| 醴陵市| 霍林郭勒市| 正镶白旗| 泰和县| 石门县| 红河县| 玛纳斯县| 高碑店市| 柳河县| 新民市| 安平县|