廖 闊, 丁 效, 秦 兵, 劉 挺, 黃虎杰
(哈爾濱工業(yè)大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院, 哈爾濱150001)
事件通常指包含參與者在內(nèi)的某種動作或情況的發(fā)生,或事件狀態(tài)的改變。 在粒度上,事件介于詞與句子之間,與詞相比,事件通常包含多個詞,用來描述事件的發(fā)生及事件的組成要素,是一種語義更完備的文本單元;與句子相比,事件更關(guān)注對現(xiàn)實世界中動作或變化的描述,是對現(xiàn)實世界一種更細(xì)粒度的刻畫。 在形式上,事件的組成要素通常包括事件的觸發(fā)詞或類型、事件的參與者、事件發(fā)生的時間或地點等,與純自然語言形式的文本相比,事件是現(xiàn)實世界中信息的一種更為結(jié)構(gòu)化的表示形式。 事件在粒度上與形式上的特點使得對其進(jìn)行表示時,面臨著與其他文本單元不同的問題,由此引出了事件表示學(xué)習(xí)的概念。 將結(jié)構(gòu)化的事件信息表示為機(jī)器可以理解的形式,對許多自然語言理解任務(wù)都十分必要,例如:腳本預(yù)測與故事生成。 早期的研究大多采用離散的事件表示,隨著深度學(xué)習(xí)的發(fā)展,人們開始嘗試使用深度神經(jīng)網(wǎng)絡(luò)為事件學(xué)習(xí)稠密的向量表示,同時逐步有研究探索將事件內(nèi)信息、事件間信息、外部知識等多種類型的信息融入事件表示中,下面將分別對以上研究進(jìn)行介紹。
早期的研究主要基于離散的事件表示,通常將事件表示為由事件元素構(gòu)成的元組。 Kim 等將事件表示為三元組(Oi,P,t),給定對象的集合O, 其中Oi?O 為對象的謂詞,P 為對象間的關(guān)系或?qū)傩?,t為事件發(fā)生的時間[1]。 Radinsky 等進(jìn)一步將角色加入事件表示中,每個事件包含標(biāo)記事件發(fā)生的動作或狀態(tài)P,一個或多個事件的實施者O1, 一個或多個事件作用的對象O2,一個或多個使事件發(fā)生的工具O3,以及一或多個地點O4, 以及時間戳t, 記為六元組(P,O1,O2,O3,O4,t)[2]。 Ding 等將其簡化為(O1,P,O2,T) 形式的元組,其中P 為事件動作,O1為施事者,O2為受事者, T 為時間戳,一個事件只包含一個施事者和一個受事者[3]Chambers 與Jurafsky 在腳本事件預(yù)測任務(wù)中,提出了Predicate-GR 事件表示方法,該任務(wù)中與同一個角色相關(guān)的事件按照時間順序整理成事件鏈,Predicate-GR 將每個事件表示為動作以及動作與角色之間的依存關(guān)系構(gòu)成的二元組[4],例如: (arrest,obj) 表示一個逮捕事件,且事件鏈關(guān)聯(lián)的角色在該事件中為賓語,即被逮捕的對象。 因為同一個事件鏈中的角色是相同的,因此無需將角色加入事件表示中。
離散的事件表示面臨稀疏性的問題。 為了緩解稀疏性,一系列工作提出基于語義知識庫對事件進(jìn)行泛化。 Ding 等基于WordNet 將各事件元素中的單詞還原為詞干,之后將事件動作詞泛化為其在VerbNet 中的類別名稱,得到泛化事件[3],例如:單詞“adds”首先被還原為詞干“add”,之后被泛化為VerbNet 中的類別名“multiply_class”。 Zhao 等將事件元素中的名詞泛化為其在WordNet 中的上位詞,將動詞泛化為其在VerbNet 的類別,之后在所有事件中的單詞組成的詞對(bi-gram)中篩選頻率最高的詞對,稱為“高頻共現(xiàn)詞對(FCOPA)”,作為泛化后的事件[5]。 例如,“Hudson killed Andrew”首先被泛化為“people murder-42.1 people”,之后高頻共現(xiàn)詞對“murder-42.1 people”被作為一個泛化的事件。
自2013 年起,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,人們開始探索為文本學(xué)習(xí)分布式的語義表示。 分布式語義表示將文本單元(如字、詞等)嵌入到向量空間中,每個文本單元的語義信息由所有語義單元在向量空間中的位置共同決定。 這種分布式的語義表示通常具有良好的性質(zhì)。 例如,相關(guān)性較強(qiáng)(語義相近)的文本單元具有相似的向量表示,并且在很大程度上緩解了文本單元的稀疏性。 在這一系列工作的基礎(chǔ)上,基于分布式語義的稠密的事件表示應(yīng)運而生。 稠密的事件表示通常以預(yù)訓(xùn)練的詞向量為基礎(chǔ),根據(jù)事件結(jié)構(gòu)對事件元素的詞向量進(jìn)行語義組合,為事件計算低維、稠密的向量表示。 按照組合的方式,可以分為基于詞向量參數(shù)化加法的事件表示與基于張量神經(jīng)網(wǎng)絡(luò)的事件表示。
基于詞向量參數(shù)化加法的事件表示方法將事件元素的詞向量進(jìn)行相加或拼接后,輸入一個參數(shù)化的函數(shù),將相加或拼接后的向量映射到事件向量空間。 Weber 等對事件元素的詞向量求均值,作為一種基線方法[6]。 Li 等將事件元素的詞向量進(jìn)行拼接作為事件的向量表示[7]。 Granroth-Wilding 等提出EventComp 方法,將事件元素的詞向量拼接后,輸入多層全連接神經(jīng)網(wǎng)絡(luò),對事件元素的詞向量進(jìn)行組合[8]。 作為詞向量參數(shù)化加法的一種特例,Lee等直接使用Predicate-GR 的向量表示作為事件的向量表示,從而省略了將事件元素的詞向量進(jìn)行組合的步驟[9]。
Tilk 等與Hong 等對事件元素向量求和或求均值作為事件表示,但額外考慮事件元素的角色,同一個詞出現(xiàn)在事件的不同角色中時,使用不同的詞向量[10-11]。 設(shè)詞表大小為, 角色數(shù)量為, 詞向量的維數(shù)為H,不同角色的詞向量構(gòu)成了三維的張量T ∈R|V|×|R|×H。 為了減少模型的參數(shù)數(shù)量,進(jìn)一步將該張量分解為F 個一階張量乘積的形式,使用三個矩陣A,B,C 代替原本的三維張量T, 公式(1):
設(shè)r 為表示角色的獨熱(one-hot)向量,角色r對應(yīng)的詞向量矩陣為T 的一個切片,表示為公式(2):
最終,對于每個事件元素,分別在該事件元素對應(yīng)角色的詞向量矩陣中查找其詞向量,并將所有事件元素的詞向量進(jìn)行組合作為事件向量。
基于詞向量參數(shù)化加法的事件表示充分利用了事件元素的詞向量信息,但在建模事件元素間的交互上較為薄弱。 盡管這些方法均取得了一定的效果,但其加性本質(zhì)使得難以對事件表面形式的細(xì)微差異進(jìn)行建模。 例如,在這些方法下,“She throw football(她扔足球)”與“She throw bomb(她扔炸彈)”會得到相近的向量表示,盡管兩個事件語義上并不相似。 為了解決這一問題,人們陸續(xù)提出了基于張量神經(jīng)網(wǎng)絡(luò)的事件表示方法。 這一系列方法使用雙線性張量運算組合事件的元素,設(shè)事件兩個元素的向量分別為v1,v2∈Rd,三維張量T ∈Rk×d×d是張量神經(jīng)網(wǎng)絡(luò)的參數(shù),則雙線性張量運算的計算方式如公式(3):
其中,計算結(jié)果vcomp是一個k 維向量,它的每一個維度i 上的元素是由向量v1,矩陣Ti和向量v2做矩陣乘法得到的。 在雙線性張量運算中,模型以乘性的方式捕獲了事件論元的交互,使得即使事件論元只有細(xì)微的表面差異,也能夠在事件表示中體現(xiàn)出語義上的較大差別。
Ding 等在2015 年提出了Neural Tensor Network模型,簡稱NTN,模型結(jié)構(gòu)如圖1 所示。 該工作考慮(O1,P,O2)三元組形式的事件結(jié)構(gòu),其中O1為事件的施事者,P 為事件的動作或觸發(fā)詞, O2為事件的受事者,此處用同樣的符號表示三種事件元素的詞向量。 模型首先對施事者和動作詞、動作詞和受事者進(jìn)行組合,再對得到的兩個向量進(jìn)行組合,得到最終的事件表示E[12]。 每次組合由一個雙線性張量運算,一個常規(guī)的線性運算與激活函數(shù)f 組成,計算方法如公式(4)~(6)所示:
圖1 Neural Tensor Network 模型結(jié)構(gòu)Fig. 1 Architecture of Neural Tensor Network
Weber 等在2018 年提出了Predicate Tensor 模型與Role-Factored Tensor 模型,模型結(jié)構(gòu)如圖2 所示。 該工作同樣考慮(s,p,o) 三元組形式的事件,其中s 為主語,p 為謂語,o 為賓語,并考慮使用三維張量P 建模謂語p,并用該張量對主語s 和賓語o進(jìn)行語義組合得到事件向量e[6],其每個元素ei的計算過程如公式(7):
該方法需要為每個謂語單詞學(xué)習(xí)一個單獨的三維張量,但謂語的集合非常大,在實踐中不可行。Predicate Tensor 方法由謂語的詞向量p 動態(tài)地計算張量P,并用動態(tài)計算的張量對主語和賓語進(jìn)行語義組合。 其中,W 與U 為模型參數(shù),設(shè)詞向量的維數(shù)為d,W 與U 均為大小為d ×d ×d 的三維張量,見公式(8)和公式(9):
Role-Factored Tensor 方法單獨地對事件的主語及謂語、謂語及賓語進(jìn)行語義組合,組合后的兩個向量通過線性變換后相加得到事件向量,見公式(10)~(12):
圖2 Predicate Tensor Model 與Role-Factored Tensor Model 模型結(jié)構(gòu)Fig. 2 Architecture of Predicate Tensor Model and Role-Factored Tensor Model
基于張量神經(jīng)網(wǎng)絡(luò)的事件表示方法面臨“維度災(zāi)難”的問題,限制了該方法在許多領(lǐng)域的應(yīng)用。Ding 等在2019 年提出使用低秩張量分解(Low-Rank Tensor Decomposition),將張量神經(jīng)網(wǎng)絡(luò)中的三階張量參數(shù)使用維度較小的張量進(jìn)行近似,以減少模型的參數(shù)[13]。 圖3 為低秩張量分解運算的示意圖。 具體地,將模型中的三階張量參數(shù)T 替換為T1∈Rk×d×r,T2∈Rk×r×d,t ∈Rk×d三個參數(shù),使用Tappr作為T 的近似,其每個切片是通過公式(12)計算得到的:
圖3 低秩張量分解示意圖Fig. 3 An illustration of low-rank tensor decomposition
Ding 等在事件相似度、腳本事件預(yù)測、股市預(yù)測多個任務(wù)上的實驗結(jié)果表明:使用低秩張量分解,可以在減少模型參數(shù)的同時取得與原模型相當(dāng)?shù)男Ч?,有些任?wù)上甚至取得了比原模型更好的性能。
稠密的事件表示使用深度學(xué)習(xí)的方法,將事件嵌入到向量空間中,為了使嵌入后的向量保留豐富的語義信息,需要為事件表示設(shè)計合適的訓(xùn)練目標(biāo)。一種學(xué)習(xí)事件表示的方式是直接使用下游任務(wù)作為訓(xùn)練目標(biāo),這種方式學(xué)習(xí)得到的事件表示往往只在特定的任務(wù)上具有較好的效果,而缺乏較好的泛化能力。 其他學(xué)習(xí)事件表示的方法,包括基于事件本身的結(jié)構(gòu)信息與事件在文本中的分布信息構(gòu)造自監(jiān)督的訓(xùn)練目標(biāo),在大量文本上進(jìn)行預(yù)訓(xùn)練;以及使用知識庫指導(dǎo)事件表示的學(xué)習(xí),在事件表示中融入外部知識。 下文具體介紹基于事件內(nèi)信息的事件表示學(xué)習(xí)、基于事件間信息的事件表示學(xué)習(xí)與融合外部知識的事件表示學(xué)習(xí)。
基于事件內(nèi)信息的事件表示學(xué)習(xí)充分利用了事件的結(jié)構(gòu)信息,通常采用自編碼的思想,由事件表示恢復(fù)出事件元素,并由此構(gòu)建訓(xùn)練目標(biāo),使得事件表示中盡可能地保留事件元素的信息。
Ding 等在2015 年提出以區(qū)分正確的事件元組與被破壞的事件元組作為事件表示的訓(xùn)練目標(biāo)。 該方法首先使用開放事件抽取工具ReVerb 從大量新聞文本中抽取包含施事者、事件動作、受事者的事件元組E =(O1,P,O2),將事件論元中的單詞隨機(jī)替換為詞表中的其他單詞,構(gòu)造被破壞的事件元組Er=(,P,O2)。 事件元組經(jīng)過NTN 模型嵌入到向量空間中,并進(jìn)一步由函數(shù)f 映射一個分?jǐn)?shù)。 訓(xùn)練目標(biāo)為使正確的事件元組分?jǐn)?shù)高于被破壞的事件元組,具體使用最大邊際損失進(jìn)行計算[12],其中, λ為L2 正則項,公式(13):
Tilk 等在2016 年提出NNRF 方法,使用事件表示預(yù)測事件角色作為訓(xùn)練目標(biāo)。 該方法中,事件的結(jié)構(gòu)被表示為包含謂詞、論元的元組,其中每個事件論元被限制為一個單詞,并被分配一個預(yù)先定義好的角色。 事件元組首先由事件表示模型嵌入到向量空間中,得到事件向量h。 之后,對于每種事件中的每種角色t,使用一個分類器對整個詞表進(jìn)行分類,以預(yù)測唯一正確的事件角色詞作為訓(xùn)練目標(biāo)。 為了緩解事件角色數(shù)較多帶來的分類器參數(shù)量大的問題,該方法進(jìn)一步將分類器中的參數(shù)進(jìn)行分解,采用事件角色的獨熱向量t 與各分類器共享的模型參數(shù)Ac,Bc,Cc動態(tài)地計算每種角色的預(yù)測結(jié)果[10],見公式(14)和公式(15):
其中, oc是該角色上每個單詞的概率分布,使用該概率分布計算交叉熵?fù)p失,作為模型的訓(xùn)練目標(biāo)。
Hong 等在Tilk 等的基礎(chǔ)上,提出NNRF-MT 方法,進(jìn)一步引入角色分類的訓(xùn)練目標(biāo),輸入事件表示h 與單詞wt,由分類器預(yù)測該單詞在事件中的角色類別[14]。 類似地,該分類器的參數(shù)按照詞表進(jìn)行分解,由單詞的獨熱向量wt與共享的參數(shù)Ar,Br,Cr動態(tài)地為每個單詞計算預(yù)測結(jié)果[11],公式(15)和公式(16):
其中, or是該單詞屬于每種角色的概率分布,使用該概率分布計算交叉熵?fù)p失作為角色分類的訓(xùn)練目標(biāo)。 最后,對角色預(yù)測與角色分類的損失進(jìn)行加權(quán)平均得到最終的損失,采用多任務(wù)學(xué)習(xí)(Multi-Task)的形式同時優(yōu)化兩個訓(xùn)練目標(biāo),對事件表示進(jìn)行學(xué)習(xí)。
事件的發(fā)生并不是獨立的,而是按照事件演化規(guī)律接連地發(fā)生,因此良好的事件表示,除了充分保留事件論元的信息外,還應(yīng)該含有事件的演化規(guī)律信息。 為了捕獲事件間的演化規(guī)律,一系列研究提出考慮事件間的交互,利用事件在文本中的分布信息指導(dǎo)事件表示學(xué)習(xí)。 開放事件抽取工作[]的進(jìn)展,使得挖掘事件在文本中的分布信息成為可能,為這一系列的工作提供了基礎(chǔ)。 具體地,這一系列工作可以分為基于事件對的方法、基于事件鏈條的方法與基于事件圖的方法。
Granroth-Wilding 等在2016 年提出了基于事件對的EventComp 方法,利用事件對的順承關(guān)系作為事件表示的訓(xùn)練目標(biāo)。 該方法首先從大規(guī)模文本中自動抽取事件鏈條,將事件鏈條拆分為多個滿足順承關(guān)系的事件對,并通過隨機(jī)采樣的方法構(gòu)造不滿足順承關(guān)系的事件對。 之后,使用全連接網(wǎng)絡(luò)對事件對是否滿足順承關(guān)系進(jìn)行分類,使用分類器的輸出計算交叉熵?fù)p失,作為事件表示的訓(xùn)練目標(biāo)。 具體地,對于第i 個訓(xùn)練樣本中的事件對(e0i,e1i),使用全連接網(wǎng)絡(luò)計算兩個事件的相關(guān)性分?jǐn)?shù)coh(e0i,e1i), 并與事件對的真實類別pi∈{0,1}計算交叉熵?fù)p失[8],公式(17):
Weber 等在該方法的基礎(chǔ)上,在事件鏈條的窗口中采樣滿足順承關(guān)系的事件對,并以余弦相似度度量事件向量的相關(guān)性分?jǐn)?shù),采用最大邊際損失作為訓(xùn)練目標(biāo)。 具體地,對于一個輸入事件ei, et為事件鏈條中ei前后窗口中的一個事件,en為從整個語料中隨機(jī)采樣的一個事件, sim(ei,et) 為兩個事件的余弦相似度,使用(ei,et) 與(ei,en) 兩個事件對的相似度計算最大邊際損失[6],公式(18):
Wang 等采用事件鏈條信息指導(dǎo)事件表示的學(xué)習(xí),其訓(xùn)練方式為給定事件鏈條中的上下文事件,預(yù)測下一個會發(fā)生的事件。 上下文事件和候選結(jié)尾事件首先被拼接為完整的事件鏈條,之后每個事件的向量表示被輸入長短時記憶網(wǎng)絡(luò)(LSTM),得到上下文相關(guān)的事件表示,基于上下文相關(guān)的事件表示計算,計算候選事件與每個上下文事件的相關(guān)性得分,并由該得分計算交叉熵?fù)p失作為訓(xùn)練目標(biāo)[14]。具體地,對于上下文事件e1,…,ei,…,en-1與候選事件ec,采用公式(19)~公式(22)計算其上下文相關(guān)的向量表示:
其中, e (ei) ,e(ec) 為事件ei,ec的初始事件表示,hi,hc為其上下文相關(guān)的向量表示,h0為隨機(jī)初始化的向量。 候選事件ec與上下文事件ei的相關(guān)性分?jǐn)?shù)si由一個全連接網(wǎng)絡(luò)計算, Wsi,Wsc,bs為該網(wǎng)絡(luò)的參數(shù),ec作為候選事件的概率s 為其與所有上下文事件相關(guān)性的均值。 最終由該概率值計算交叉熵?fù)p失作為模型的訓(xùn)練目標(biāo),公式(23):
Zhao 等由自動抽取的因果事件對構(gòu)造抽象的因果事件圖,并提出基于圖嵌入的事件表示學(xué)習(xí)方法Dual-CET,在因果事件圖上學(xué)習(xí)事件表示[7]。 這一方法為圖中每個事件節(jié)點以及原因關(guān)系、結(jié)果關(guān)系學(xué)習(xí)一個向量表示[5],對于一個因果事件對(c,e) ,定義其能量函數(shù)為公式(24):
其中,c 為原因事件向量,e 為結(jié)果事件向量,t為原因關(guān)系向量, τ 為結(jié)果關(guān)系向量。 訓(xùn)練目標(biāo)為使正確因果事件對的能量低于隨機(jī)構(gòu)造的錯誤因果事件對,公式(25):
其中,P+為所有正確因果事件對的集合,P-為所有錯誤因果事件對的集合, γ 為最大邊際損失的超參數(shù),α 為正則項系數(shù)。
Li 等進(jìn)一步使用圖神經(jīng)網(wǎng)絡(luò)在事件圖上學(xué)習(xí)事件表示。 該工作考慮事件間的順承關(guān)系,從大規(guī)模文本中抽取事件鏈后構(gòu)建敘事事件圖,并使用門控圖神經(jīng)網(wǎng)絡(luò)(GGNN)在事件圖上學(xué)習(xí)事件表示,該模型的輸入為事件節(jié)點的初始向量表示,輸出為融合圖結(jié)構(gòu)信息的事件向量。 與Granroth-Wilding等相同,該方法使用預(yù)測事件鏈條的后續(xù)事件作為訓(xùn)練任務(wù),但將訓(xùn)練目標(biāo)替換為最大邊際損失[7],公式(26):
其中,N 為訓(xùn)練樣本數(shù), sIy為第I 個訓(xùn)練樣本中正確候選事件的得分,sIj為該樣本中錯誤候選事件的得分。
基于事件內(nèi)與事件間信息的事件表示學(xué)習(xí)方法,考慮了事件的結(jié)構(gòu)信息以及事件在文本中的分布信息,但忽略了文本中未顯式提及的常識知識。例 如, “Steve Jobs quits Apple” 與“John leaves Starbucks”盡管具有相似的結(jié)構(gòu),但“Steve Jobs”是“Apple”公司的CEO,而“John”與“Starbucks”并無特殊關(guān)系,因此兩個事件會對它們的客體產(chǎn)生不同的影響。 為了解決這一問題,一系列工作提出將外部知識融入事件表示學(xué)習(xí)中,為事件表示補(bǔ)充文本中沒有顯示提及的信息。
Ding 等在2016 年提出將實體關(guān)系知識融入事件表示,這種知識可以從知識圖譜如YAGO,F(xiàn)reebase 中獲取。 該方法的示意圖如圖4 所示,對于一個事件元組(A,P,O),首先在知識圖譜中找到包含事件施事者A 或受事者O 的三元組(e1,R,e2),其中e1為頭實體,e2為尾實體,R 為兩個實體間的關(guān)系。 之后,采用公式(27)的張量神經(jīng)網(wǎng)絡(luò)為(e1,R,e2) 三元組計算得分[15]:
其中,μR,HR,VR,bR為特定于關(guān)系R 的參數(shù)。給定一個來自知識圖譜中的正確三元組與隨機(jī)替換頭實體或尾實體后的錯誤三元組,使用最大邊際損失訓(xùn)練正確三元組的得分高于錯誤三元組。 訓(xùn)練過程中,頭實體或尾實體的詞向量在反向傳播時被更新,使其含有來自知識圖譜的實體關(guān)系信息,進(jìn)而使事件中的施事者或受事者通過共享詞向量的形式融入這一信息。
圖4 融合實體關(guān)系知識的事件表示學(xué)習(xí)框架結(jié)構(gòu)Fig. 4 Architecture of event representation learning framework enhanced with entity relation knowledge
Lee 等在2018 年提出將情感以及事件主體的有生性信息融入事件表示中。 事件的情感極性會影響后續(xù)事件的發(fā)生。 例如:帶有積極情感的事件“Jenny liked the food”后,往往不會發(fā)生帶有消極情感的事件“She scolded the server”。 事件元素的有生性也是很有價值的信息,有些事件的主體只能是有生的,還有些事件的含義在主體是無生命事物時會發(fā)生變化。 例如:“This song is sick”與“This person is sick”。 該工作將情感極性劃分為“消極”、“中性”和“積極”3 個類別,將有生性劃分為“有生命”、“無生命”和“未知”3 個類別,并將每個類別映射為一個嵌入向量,訓(xùn)練事件表示與其情感類別、有生性類別的嵌入向量盡可能相似[9]。
Ding 等在2019 年提出將意圖、情感等有關(guān)參與者心理狀態(tài)的常識知識融入事件表示中,以幫助更好 地 建 模 事 件 語 義。 例 如: “PersonX threw basketball”與“PersonY threw bomb”兩個事件盡管字面上相近,但考慮兩個事件的意圖,“扔籃球”可能是為了鍛煉身體,“扔炸彈”可能是為了殺傷敵人,因此考慮意圖信息可以較好地區(qū)分兩個事件;再如,“PersonX broke record”與“PersonY broke vase”兩個事件也在字面上相近,但“打破花瓶”帶有消極的情感,“打破紀(jì)錄”帶有積極的情感,因此考慮情感極性信息可以較好地區(qū)分兩個事件。 該工作提出了一種多任務(wù)(Multi-Task)學(xué)習(xí)方法,加入了兩個額外的訓(xùn)練目標(biāo),在事件表示中融入意圖和情感的信息:對于意圖,使用長短時記憶網(wǎng)絡(luò),將意圖文本編碼為一個向量,使用最大邊際損失訓(xùn)練事件向量與意圖向量盡可能相似;對于情感信息,使用全連接網(wǎng)絡(luò)對事件向量進(jìn)行情感分類,并與真實的情感極性標(biāo)簽計算交叉熵?fù)p失。 兩個額外的訓(xùn)練目標(biāo)與基于事件內(nèi)或事件間信息的訓(xùn)練目標(biāo)進(jìn)行加權(quán)平均,得到最終的損失。 該方法的示意圖如圖5 所示。 事件的意圖和情感信息可由ATOMIC 事件常識數(shù)據(jù)集與SenticNet 情感字典得到。 實驗結(jié)果表明意圖、情感信息在事件相似度、腳本事件預(yù)測、股市預(yù)測任務(wù)上都帶來了有效的提升[13]。
本文對事件表示方法的發(fā)展進(jìn)行了概述。 早期的研究大多基于離散的事件表示,隨著深度學(xué)習(xí)的發(fā)展,人們開始探索為事件學(xué)習(xí)稠密的向量表示,其中基于張量神經(jīng)網(wǎng)絡(luò)的方法取得了令人矚目的效果。 在事件表示的學(xué)習(xí)方法上,在融合事件內(nèi)信息和事件間信息的基礎(chǔ)之上,融合外部知識的方法帶來了新的突破。 本文對各種事件表示方法的特點進(jìn)行了梳理和總結(jié),以期為后續(xù)工作提供參考。
圖5 融合意圖、情感信息的事件表示學(xué)習(xí)框架結(jié)構(gòu)Fig. 5 Architecture of event representation learning framework enhanced with intent and sentiment information