国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于序列到序列模型的事件識別

2019-08-05 07:42:08張俊青
中文信息學(xué)報 2019年6期
關(guān)鍵詞:基準(zhǔn)文檔向量

張俊青,孔 芳

(蘇州大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)

0 引言

事件抽取是當(dāng)前自然語言處理(natural language processing,NLP)領(lǐng)域的研究熱點之一,具有重要的理論及應(yīng)用價值,不僅推動數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)等學(xué)科理論的發(fā)展,而且其研究成果被廣泛應(yīng)用于信息檢索等領(lǐng)域。事件抽取首先進(jìn)行事件識別,即判別給定句子是否表示事件描述,如果是,則對事件描述進(jìn)行類別的判定;識別出事件后再尋找事件的各個參與對象,并為他們分配相應(yīng)的語義角色。顯然,事件識別是事件抽取的基礎(chǔ),它的性能將直接影響后續(xù)事件參與對象的語義角色的識別。

具體而言,事件識別又包含兩個子任務(wù):事件觸發(fā)詞識別和事件類型確定。例如,給定句子,“Portillo acknowledged he had killed two of his former students.”事件觸發(fā)詞識別將識別出觸發(fā)詞“killed”觸發(fā)了一個事件,而事件類型確定過程則將該事件歸為“Life.Die”類別?;谑录R別的結(jié)果,后續(xù)事件論元的識別將進(jìn)一步識別出該“Die”事件的攻擊者是“Portillo”,受害者是“two of his former students”。

目前,事件識別所用的語料主要有Doddington等[1]使用的ACE數(shù)據(jù),Kim等[2]使用的BioNLP分享的生物醫(yī)療數(shù)據(jù)和Dubbin等[3]使用的TACKBP數(shù)據(jù)。事件抽取相關(guān)的研究方法主要分為基于特征的方法和基于詞表示的方法兩類。其中,基于特征抽取的研究工作,大多數(shù)學(xué)者是基于句子級別信息進(jìn)行事件抽取,代表性的工作有Ahn等[4]、Grishman等[5]、Li等[6]。然而,對于有些事件,只考慮句子級別信息很難判斷事件所屬的類型,于是部分學(xué)者把目光放轉(zhuǎn)向跨句子的事件推理,如Gupta等[7],Hong等[8],Liao等[9],以及跨文檔的事件推理,如Ji等[10]。近年來,深度學(xué)習(xí)在自然語言處理任務(wù)中表現(xiàn)優(yōu)異,眾多學(xué)者也開始專注基于詞表示方法的事件識別研究,代表性工作包括:Nguyen等[11]利用卷積神經(jīng)網(wǎng)絡(luò)來自動學(xué)習(xí)一些特征完成觸發(fā)詞的識別;Chen等[12]在管道框架上,利用動態(tài)多池化卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行事件抽??;Nguyen等[13]構(gòu)建雙向循環(huán)神經(jīng)網(wǎng)絡(luò),利用記憶單元捕獲論元和觸發(fā)詞之間的依賴關(guān)系,同時完成論元和觸發(fā)詞的抽取工作;Duan等[14]通過循環(huán)神經(jīng)網(wǎng)絡(luò)利用詞向量和文檔向量的方法提高事件識別的性能。

基于句子級別的事件識別[15-16],雖然有其可取之處,但忽略了文檔中的其他信息,限制了事件識別的性能。例如,給定句子,“Elop is the one that needs to go[注]從“ENG_DF_001471_20140717_G00A0FRCS”文檔中選取”。基于句子級別的事件識別模型在識別該句子時,由于信息不足,不能充分理解Elop是從公司離職的語意,難以把觸發(fā)詞“go”識別為End-Position事件。但如果充分考慮事件的上下文信息,比如該文檔主旨是Stephen Elop 從Microsoft離職,那么觸發(fā)詞“go”觸發(fā)的事件類型就比較容易判別了。

此外,語料統(tǒng)計分析發(fā)現(xiàn),相似的事件經(jīng)常出現(xiàn)在相同的文檔中,比如Attack,Injure,Die事件經(jīng)常出現(xiàn)在同一個文檔,但是很少和Transfer Money事件同時出現(xiàn)。換言之,一個文檔中發(fā)生的事件具有一種很強(qiáng)的聯(lián)系。

綜上所述,為了減少因抽取大量特征而消耗的時間與精力,并把文檔信息應(yīng)用于事件抽取中,本文針對事件識別任務(wù)展開,提出了一個序列到序列(Seq2Seq)的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)模型,并在模型中引入注意力機(jī)制,對局部的詞、實體和全局的文檔信息進(jìn)行統(tǒng)一向量化。在KBP2016測試集上的實驗證明了本文方法的有效性,實驗結(jié)果表明,觸發(fā)詞識別的F1值達(dá)到了58.56%,比實驗基準(zhǔn)1和基準(zhǔn)2分別提高了3.76%和2.60%,而事件類型判別的F1值達(dá)到了51.82%,比實驗基準(zhǔn)1和基準(zhǔn)2分別提高了4.83%和1.19%。

1 任務(wù)描述

根據(jù)TAC-KBP2016的定義,事件是發(fā)生的事情或?qū)е履撤N狀態(tài)的改變,共有8大類型和18個子類型,具體如表1所示。

表1 TACKBP2016數(shù)據(jù)集上定義的事件類型

下面引入KBP測評中與事件相關(guān)的術(shù)語。

實體:現(xiàn)實世界中一個對象或者一組對象。

觸發(fā)詞:可以清晰表達(dá)出事件發(fā)生的主要詞匯。

事件類型:事件所屬的類型。

真?zhèn)涡裕罕鎰e事件所屬的REALIS類別(Actual,Generic,Other)。

本文著重于事件識別任務(wù),具體包括事件觸發(fā)詞識別和事件類型確定兩個子任務(wù)。例如,針對句子“Portillo acknowledged he had killed two of his former students”,事件識別系統(tǒng)需要識別出觸發(fā)詞“killed”和其觸發(fā)的事件類型“Life.Die”。根據(jù)先前的工作[8],我們把類型分成18子類型和None類型。

2 模型

本節(jié)將詳細(xì)地描述Seq2Seq模型。假設(shè)W=w1w2…wn代表句子,n代表句子的長度,wi表示句子的第i個詞。E=e1e2…ek表示在該句子中的實體,k表示句子中實體的數(shù)量。本文將事件識別任務(wù)看作對觸發(fā)詞及其他詞的序列標(biāo)注問題,對于wi詞,對其分配子類型標(biāo)簽(18類之一)或None類型標(biāo)簽。

2.1 句子編碼

句向量是Seq2Seq模型的基礎(chǔ),本節(jié)將詳解句向量的構(gòu)建過程。將句子W編碼成向量X,X中包含如下四個方面信息:

(1)W中wi的詞向量,詞表示可以自動學(xué)習(xí)詞之間隱藏的豐富特征,將從預(yù)訓(xùn)練好的詞向量中查找[注]https://github.com/stanfordnlp/GloVe。

(2)E中ej的實體向量,使用Stanford工具包[注]https://stanfordnlp.github.io/CoreNLP對句子進(jìn)行實體識別,向量隨機(jī)初始化。

(3)W中wi詞性向量,詞性是用Sanford工具包進(jìn)行抽取的,并采取隨機(jī)初始化向量的方法構(gòu)建詞性向量表。

(4)W的文檔向量,文檔還有句子之外其他的信息,并且一個文檔中所發(fā)生的事件總是相關(guān)的,比如Attack 、Die和Injure事件,很有可能發(fā)生在同一個文檔中。本文通過PV-DM模型[17]訓(xùn)練文檔向量,由使式(1)最大化所得:

(1)

其中,w1,w2,…,wn是文檔中包含的詞,wt-m,…,wt+m是wt的上下文,m的窗口大小為7,doc是包含訓(xùn)練數(shù)據(jù)的向量,與詞向量維度相同的隨機(jī)初始化向量。

預(yù)測的工作主要通過多元分類器完成,例如softmax算法,如式(2)所示。

(2)

式(2)中,ywi是詞wi非正則化的統(tǒng)一概率,計算方法如式(3)所示。

y=b+Uh(wt|wt -m,…,wt +m,doc)

(3)

式(3)中,b、U是softmax參數(shù),h是將wt|wt -m,…,wt +m,doc級聯(lián)或求平均得到。由于doc是共享的,每次訓(xùn)練中輸入都包含該向量,因此能表達(dá)文檔的主旨信息。

綜上可知,最終的輸入向量是由上述向量拼接組合而成,把句子W映射成向量X,作為Seq2Seq模型的輸入。

2.2 Seq2Seq模型

由于我們使用了BahdanauAttention[18]注意x機(jī)制的Seq2Seq網(wǎng)絡(luò)模型,輸出序列為式(4)。即隱藏狀態(tài)si、語義向量ci和時間i-1的輸出yi-1經(jīng)過非線性變換得到時間i的輸出yi。

P(yi|y1,…,yi-1,X)=g(yi-1,si,ci)

(4)

對于隱藏狀態(tài)si,經(jīng)隱藏狀態(tài)si-1、語義向量c和時間i-1的輸出yi-1非線性變換得到,如式(5)所示。

si=f(si -1,yi -1,ci)

(5)

圖1 輸入句子“The attack by insurgents occurred on Saturday”后,識別事件Conflict.Attack示意圖

隱藏狀態(tài)ci等于Tx個輸入向量與其權(quán)重相乘求和,具體如式(6)所示。

(6)

式(6)中權(quán)重向量αij由式(7)得到,式(7)中mij由式(8)得到,式(8)中函數(shù)a通常為非線性函數(shù)。

簡而言之,相互獨立的四種向量拼接成輸入向量X,向量X進(jìn)入Seq2Seq模型中,注意力機(jī)制通過給四種向量不同的權(quán)重以表達(dá)句子不同成分對事件識別的影響,再經(jīng)過解碼階段得到相應(yīng)的序列類別,根據(jù)交叉熵得到預(yù)測與標(biāo)準(zhǔn)類別的損失值,同步更新權(quán)重。

3 實驗

3.1 基準(zhǔn)平臺

參加KBP2016測評隊伍中,觸發(fā)詞識別F1值最高的為Mihaylov 和Frank[19]的模型,觸發(fā)詞分類F1值最高的為Lu和Ng[20]的模型;Yang[21]等將事件識別當(dāng)作序列化標(biāo)注任務(wù),在KBP2016測試集結(jié)果表明,其方法達(dá)到了先進(jìn)水平。因此,本文選擇了兩類基準(zhǔn)平臺。

基準(zhǔn)1Mihaylov 和Frank把事件觸發(fā)詞識別當(dāng)作序列化標(biāo)注任務(wù),使用詞、詞性與依存關(guān)系等構(gòu)建詞向量,作為雙向LSTM模型的輸入向量,通過softmax進(jìn)行標(biāo)簽分類,在KBP2016語料上觸發(fā)詞的識別F1值為54.80%。 Lu和Ng的UTD1模型先對訓(xùn)練集合測試集進(jìn)行詞性還原,把測試集中詞的詞性還原和訓(xùn)練集中詞的詞性還原相同的詞作為候選觸發(fā)詞;其次利用Stanford CoreNLP抽取候選觸發(fā)詞的語義依存關(guān)系,對于動詞性候選觸發(fā)詞,提取該詞的主客體頭部信息;對于名詞性候選觸發(fā)詞,提取該詞的施事與受事頭部信息;最后把提取的信息作為k近鄰模型輸入特征,對候選觸發(fā)詞進(jìn)行識別與分類。在KBP2016語料上對觸發(fā)詞分類結(jié)果的F1值為46.99%。

基準(zhǔn)2Yang等首先使用最大池化的卷積神經(jīng)網(wǎng)絡(luò)獲得字表示,其次利用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)獲得詞表示,最后通過CRF進(jìn)行推理獲得最終的標(biāo)注標(biāo)簽。他們的方法在KBP2016語料上進(jìn)行事件識別評估,獲得的觸發(fā)詞識別與分類的F1值分別為55.96%和50.63%。

3.2 數(shù)據(jù)集

本文使用的語料為官方提供的LDC2017E02語料集,包含TACKBP2014訓(xùn)練集與測試集,TACKBP2015訓(xùn)練集與測試集和TACKBP2016測試集。采用Mihaylov 和Frank[14]的訓(xùn)練集、驗證集和測試集的劃分方法,把2014英文訓(xùn)練集與測試集、2015英文訓(xùn)練集當(dāng)作本文的訓(xùn)練集,2015英文測試集為驗證集,2016英文測試集為測試集,實驗具體的文檔和事件分布情況如表2所示。

表2 訓(xùn)練集、驗證集與測試集所包含的文檔與18類事件

對于訓(xùn)練集中的事件句,我們采用BIO標(biāo)簽,B表示事件的開始,I表表示事件的內(nèi)部,O表示非事件,可以把事件觸發(fā)詞識別和事件的識別聯(lián)合抽取出來。比如輸入句子為W={The,attack,by,insurgents,occurred,on,Saturday},對應(yīng)的標(biāo)簽為Y={O,B-Conflict.Attack,O,O,O,O,O}

3.3 評價指標(biāo)

對于觸發(fā)詞和事件類型,本文采用P(準(zhǔn)確率)、R(召回率)和F1值的評價指標(biāo),并采用TAC-KBP2016組織者提供的官方評價腳本[注]http://cairo.lti.cs.cmu.edu/kbp/2016/event/Event-Mention-Detection-scoring-2016-v29 Official Event Nugget Detection and Coreference Scoring for TAC KBP 2016.進(jìn)行測評。值得注意的是,事件類型評價得分是基于觸發(fā)詞識別的錯誤傳播的,若觸發(fā)詞觸發(fā)了兩種事件類型,評價指標(biāo)中應(yīng)含有這兩種事件類型。

例如,句子“the murder[Conflict.Attack,Life.Die]of John on Tuesday and Bill on Wednesday”,觸發(fā)詞“murder”觸發(fā)了“Conflict.Attack”和“Life.Die”兩種事件。因此,如果一個文檔中含有100個觸發(fā)詞,其中6個觸發(fā)詞觸發(fā)了兩種事件,在評價指標(biāo)中應(yīng)有106個觸發(fā)詞和其觸發(fā)的相應(yīng)事件類型。

3.4 結(jié)果及分析

我們首先關(guān)注本文提出方法在事件抽取任務(wù)上的有效性。

表3給出了本文方法取得的事件識別的性能。從表3的結(jié)果可以看到:

(1) 在詞向量的基礎(chǔ)上依次加入詞性向量、實體向量和文檔向量,最終識別的F1值逐漸提高。

(2) 從C組實驗和D組實驗對比結(jié)果推理可知,實體向量與文檔向量蘊含的信息相當(dāng),在觸發(fā)詞識別和事件類型確定兩個子任務(wù)上得到的性能相當(dāng)。

(3) E組實驗結(jié)果表明,事件觸發(fā)詞識別的F1值為58.56%,事件類型的F1值為51.82%。對比C和D組實驗與E組實驗的結(jié)果可以看到,相比C和D組式樣,E組實驗在兩個子任務(wù)上都獲得了更好的準(zhǔn)確率、召回率和F1值,說明實體向量和文檔向量具有一定的互補(bǔ)性,實體向量包含事件局部的參與者信息,而文檔向量包含事件之間的關(guān)系,將兩者結(jié)合能更好地進(jìn)行事件的識別與分類。

總體而言,本文提出的Seq2Seq模型在KBP2016語料上觸發(fā)詞識別和事件類型分類F1值分別為58.56%和51.82%,特別地,引入的實體向量和文檔向量能有效提升系統(tǒng)性能。

表3 用KBP2016官方測評各組實驗結(jié)果(%)

觸發(fā)詞識別結(jié)果事件類型識別結(jié)果PRF1PRF1詞向量(A)61.9048.8354.5951.8843.9747.60詞向量+詞性向量(B)64.4949.2455.8453.0744.5048.40詞向量+詞性向量+實體向量(C)64.7750.7056.8753.9444.7548.91詞向量+詞性向量+文檔向量(D)60.9953.0256.7351.0147.3249.09詞向量+詞性向量+實體向量+文檔向量(E)63.6454.2358.5654.0849.7551.82

在本文提出的Seq2Seq模型中我們引入了注意力機(jī)制,接著我們關(guān)注各種注意力機(jī)制對事件識別任務(wù)性能的影響。

表4給出了不同注意力機(jī)制下本文方法在事件抽取上的性能。從表4可知:

(1) 對比加入了BahadanauAttention機(jī)制的Seq2Seq模型和沒有注意力的模型,事件觸發(fā)詞識別的F1值提高了4.45%,事件類型識別的F1值提高了6.71%,說明注意力機(jī)制的引入能較大提升系統(tǒng)的F1值;

(2) 不同注意力的表現(xiàn)略有差別。使用BahadanauAttention機(jī)制與使用LuongAttention[22]機(jī)制,我們的Seq2Seq模型在觸發(fā)詞識別上的F1值性能提高了約0.64%,事件類型識別的F1值提高了約0.56%。

表4 各種attention實驗對比結(jié)果(%)

觸發(fā)詞識別結(jié)果事件類型識別結(jié)果PRF1PRF1withoutattention52.4958.6254.1144.9445.2945.11BahadanauAttention63.6454.2358.5654.0849.7551.82LuongAttention64.0652.8657.9254.9148.0651.26

與基準(zhǔn)系統(tǒng)相比,本文給出的方法不論在觸發(fā)詞識別還是事件類型的識別上都取得了最佳的F1值。

表5給出了E組實驗結(jié)果與實驗基準(zhǔn)結(jié)果的詳細(xì)對比。從表5可以看到,本文觸發(fā)詞識別最終的結(jié)果比實驗基準(zhǔn)1和基準(zhǔn)2分別提高了3.765%和2.60%,在事件類型分類上分別比實驗基準(zhǔn)1和基準(zhǔn)2提高了約4.8%和1.2%,證明了該方法的有效性。UID1的k近鄰模型在提取候選觸發(fā)詞時,只提取了和訓(xùn)練集中觸發(fā)詞詞性還原一致的詞,這導(dǎo)致忽略了其他詞性還原不一致的詞;而本文的模型是利用Seq2Seq模型自動挖掘詞之間的聯(lián)系,能抽取和訓(xùn)練集中觸發(fā)詞詞義相近的詞,提高了觸發(fā)詞的識別F1值。Mihaylov和Frank模型只局限于句子信息,忽略了實體信息和文檔信息;實體含有部分事件類型的信息,文檔含有句子之外的其他信息,如相似類型的事件經(jīng)常出現(xiàn)在同一個文檔中,本文利用詞性、詞、實體和文檔的信息進(jìn)行事件識別,并且加入了注意力機(jī)制,從而提高了事件類型的識別F1值。句子中不同的成分對事件識別的重要性不同,Yang等的模型并沒有對詞的權(quán)重加以區(qū)分,而本文引入注意力機(jī)制,使得模型能區(qū)別不同詞在事件識別中的作用,賦以不同權(quán)值,從而提高了事件識別的性能。

表5 E組實驗與基準(zhǔn)對比結(jié)果(%)

觸發(fā)詞識別結(jié)果事件類型識別結(jié)果PRF1PRF1基準(zhǔn)1UTD155.3653.8554.5947.6646.3546.99Mihaylov和Frank58.4151.6054.8048.4542.8145.45基準(zhǔn)2Yang等58.4353.6955.9652.3149.0650.63Seq2Seq(本文實驗E)63.6454.2358.5654.0849.7551.82

最后我們進(jìn)一步分析了事件類型識別在各個不同類型上的識別性能。表6給出了E組實驗在18類不同事件上的識別性能,可以看到部分事件類型識別的F1值仍然偏低,主要原因為:

(1) 訓(xùn)練集規(guī)模不大,共有11 684個事件實例。

(2) 詞組形式觸發(fā)詞的訓(xùn)練數(shù)據(jù)不足,訓(xùn)練集中,詞組形式的觸發(fā)詞僅有251個,導(dǎo)致詞組的觸發(fā)詞識別正確的僅有兩個。

(3) 事件類型分布不平衡,有些事件類型實例比較少,比如Transaction_Transaction類型的訓(xùn)練實例僅有42個,所占比例為0.36%,從表6可知,Transaction_Transaction類型識別的F1值11%,遠(yuǎn)遠(yuǎn)低于事件類型識別的F1值51.82%。

表6 E組實驗18類事件識別結(jié)果的F1值

4 總結(jié)

為了提高事件識別的性能,本文給出了一種序列到序列的神經(jīng)網(wǎng)絡(luò)模型,并將詞、詞性、實體和文檔信息以向量的形式進(jìn)行表征,并通過注意力機(jī)制的引入更好地凸顯各個成分的重要性。在TACKBP2016語料上的實驗結(jié)果證明了方法的有效性。

猜你喜歡
基準(zhǔn)文檔向量
向量的分解
有人一聲不吭向你扔了個文檔
聚焦“向量與三角”創(chuàng)新題
基于RI碼計算的Word復(fù)制文檔鑒別
明基準(zhǔn)講方法保看齊
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
滑落還是攀爬
巧用基準(zhǔn)變換實現(xiàn)裝配檢測
河南科技(2014年15期)2014-02-27 14:12:35
望城县| 杭锦旗| 凤阳县| 临邑县| 安达市| 遵化市| 秭归县| 大港区| 内乡县| 宁河县| 富锦市| 来宾市| 曲麻莱县| 阳谷县| 砚山县| 宁海县| 河南省| 尉氏县| 滕州市| 庐江县| 河津市| 买车| 托克逊县| 东乡| 赤峰市| 拉萨市| 昌邑市| 饶阳县| 蓬安县| 兴隆县| 铜梁县| 孝义市| 婺源县| 舟曲县| 中方县| 类乌齐县| 丹东市| 开封市| 织金县| 凭祥市| 南漳县|