国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于聯(lián)合向量和神經(jīng)網(wǎng)絡(luò)的事件因果關(guān)系抽取

2022-06-07 08:18濤,王
關(guān)鍵詞:因果關(guān)系語料庫語義

廖 濤,王 旭

(安徽理工大學計算機科學與工程學院,安徽 淮南 232001)

事件抽取是自然語言處理(Nature Language Processing,NLP)中的一項重要子任務(wù),其目的是從非結(jié)構(gòu)化文本中抽取出用戶感興趣的信息,并以結(jié)構(gòu)化的形式呈現(xiàn)給用戶,因此近些年各種基于事件的研究模型以及應用技術(shù)也層出不窮[1]。事件作為文本信息類的一種表現(xiàn)形式,通常是由某個主題的多個子事件串聯(lián)起來,所以事件之間存在各種語義關(guān)系,其中包括分類和非分類(因果關(guān)系、伴隨關(guān)系、時序關(guān)系以及組成關(guān)系)關(guān)系[2]。

作為事件關(guān)系中的一項重要語義關(guān)系,因果關(guān)系反映了事件間先后相繼、由因及果的聯(lián)系。自然語言文本中包含相當多的因果知識,因此因果關(guān)系的抽取對于許多自然語言處理任務(wù)也變得越來越重要,如信息檢索、問題回答、醫(yī)學文本挖掘[3-4]。所謂事件因果關(guān)系抽取是指,若事件e1的出現(xiàn)導致了事件e2的出現(xiàn),并且這種出現(xiàn)的概率是大于給定的概率值,那么可以認為e1和e2間含有因果關(guān)系,e1為原因事件,e2為結(jié)果事件,則將它們形式化表示為(e1,e2,causal)。

現(xiàn)有的事件因果關(guān)系抽取方法多是將抽取問題轉(zhuǎn)化為分類問題,主要是對信息特征進行抽取再分類,取得了一定的成功。但目前看來,由于自然語言文本的模糊性和多樣性,因果關(guān)系抽取中的詞語特征不符合語境,語義特征表征不足的問題仍然是自然語言處理任務(wù)中難以解決的。針對這個問題,本文通過構(gòu)建包含詞向量以及考慮文本語境生成的動態(tài)詞特征的聯(lián)合向量,并將BiGRU (Bidirectional Gate Recurrent Unit)網(wǎng)絡(luò)和注意力機制(Attention)結(jié)合,提出了一種基于聯(lián)合詞向量和Attention-BiGRU網(wǎng)絡(luò)的事件因果關(guān)系抽取方法。

1 相關(guān)工作

傳統(tǒng)的事件因果關(guān)系抽取的方法主要包括基于模式匹配的方法以及基于模式匹配和機器學習技術(shù)相結(jié)合的方法。

基于模式匹配的方法是從大量的語句文本中總結(jié)規(guī)則,生成模板,通過使用語義特征、詞匯-句法特征和自構(gòu)建約束的模式匹配進行因果關(guān)系的抽取[5-6]?;谀J狡ヅ浜蜋C器學習結(jié)合的方法主要是以流水線方式處理這個任務(wù)[7-9],首先根據(jù)模板或線索詞提取可能存在因果關(guān)系候選短語對,然后根據(jù)一些統(tǒng)計特征對候選因果進行分類,過濾非因果對。以上研究表明,采用模式匹配的方法抽取事件因果關(guān)系雖然表達直觀,準確率高,但是通用性不強。采用基于模式匹配和機器學習結(jié)合的方法更加靈活,無需過多的人工干涉;但是這種方法也需在標注好的語料庫中學習特征,不但受到語料庫規(guī)模與質(zhì)量的限制,且對特征具有很大的依賴性。因此基于兩種方式結(jié)合的方法也存在特征構(gòu)建困難,關(guān)系對識別準確率較低等問題。

近年來,由于深度神經(jīng)網(wǎng)絡(luò)強大的表征學習能力,可以有效地捕捉隱含和模糊的因果關(guān)系,在實驗中取得了理想的效果。文獻[10]提出了一個面向知識的CNN(Convolutional Neural Network),它結(jié)合了來自詞匯知識庫的先驗知識,用于因果關(guān)系分類;文獻[11]等通過基于深度LSTM (Long Short-terms Memory)網(wǎng)絡(luò)的模型識別了因果性的語言表達式;文獻[12]208等構(gòu)建了基于BiLSTM的學習模型,進行事件因果關(guān)系識別。實驗發(fā)現(xiàn)相比于LSTM而言,BiLSTM能夠挖掘文本信息中更深層的語義信息且具有充分利用上下文信息的能力。

可以得出,深度神經(jīng)網(wǎng)絡(luò)在自然語言處理領(lǐng)域已取得良好的效果,該方法能在長距離保持信息情況下,挖掘文本更深層的信息。但還存在語義特征信息不足,詞匯特征不符合上下文語境的問題。對此,本文提出了一種基于聯(lián)合詞向量和Attention-BiGRU網(wǎng)絡(luò)的事件因果關(guān)系抽取方法。首先,在詞向量表征方面,通過引入ELMO語言模型,構(gòu)建包含動態(tài)詞特征的聯(lián)合詞向量,解決因果關(guān)系抽取任務(wù)中的詞匯特征不符合上下文語境的問題;然后,聯(lián)合詞向量經(jīng)過由雙向GRU網(wǎng)絡(luò)與注意力機制結(jié)合構(gòu)成的網(wǎng)絡(luò)模型,深層次提取語義特征,并產(chǎn)生權(quán)重向量,進而捕捉句子中對因果關(guān)系抽取較重要的語義特征信息,進一步地提高因果關(guān)系抽取的準確性;最后,將加權(quán)后的特征放入softmax分類器中,完成事件因果關(guān)系的抽取。實驗結(jié)果分析,該方法達到了比較理想的效果。

2 事件因果關(guān)系抽取方法

2.1 事件因果關(guān)系抽取框架

本文研究面向事件因果關(guān)系抽取,將因果關(guān)系抽取問題轉(zhuǎn)化為事件關(guān)系3分類問題,下圖1展示了因果關(guān)系抽取框架。該框架主要包括3個模塊:數(shù)據(jù)預處理、模型訓練以及事件因果關(guān)系的抽取。

圖1 事件因果關(guān)系抽取框架

1)數(shù)據(jù)預處理:由于使用的突發(fā)事件CEC語料庫,對于事件因果、時序、組成、包含關(guān)系以及無關(guān)系均已作了標注,只需對語料庫中的xml語料進行解析,得到事件對以及它們之間的對應關(guān)系。抽取的關(guān)系分為因果、非因果(時序、組成、伴隨)以及無關(guān)系3類。

2)模型訓練:將事件因果關(guān)系語料庫分為訓練集、測試集。該模型中,首先對文本輸入進行分詞,詞向量化操作,得到輸入語料的詞向量表示,并通過ELMO模型對其生成動態(tài)詞向量特征。然后聯(lián)合兩種向量放入BiGRU模型中深層次的提取長距離語義特征,經(jīng)注意力機制產(chǎn)生權(quán)重向量,對特征進行加權(quán)處理,突出重要詞匯特征的貢獻度。最后利用softmax分類器對上一層加權(quán)完成的特征進行分類,完成因果關(guān)系抽取模型的訓練。

3)事件因果關(guān)系抽取:完成抽取因果關(guān)系模型的訓練,在訓練完成的基于注意力機制的雙向GRU網(wǎng)絡(luò)模型上使用測試集進行抽取從而得到具有因果關(guān)系的事件對。

2.2 聯(lián)合詞向量表示

模型開始訓練之前,首先對輸入的事件對語料進行操作,利用word2vec和ELMO詞嵌入模型對文本序列分別進行詞向量表示;然后構(gòu)建融合了預訓練詞向量和ELMO動態(tài)詞特征的聯(lián)合向量。

1)詞向量表示 為了使計算機可以進行自動抽取并學習文本中蘊含的特征及信息,需要將文本句子轉(zhuǎn)化成計算機可以識別的語言,即文本向量化的過程。這種以向量的形式作為模型的輸入,能夠很好地表達文本中的語義信息和語法關(guān)系。Word2vec模型[13]對文本序列數(shù)據(jù)的詞向量表示過程具體如圖2所示。首先將語料庫經(jīng)過去標簽等預處理, 得到文本序列數(shù)據(jù);然后采用分詞工具將輸入的文本數(shù)據(jù)切分成詞語,得到詞語序列數(shù)據(jù)X=[x1,x2,x3,…,xn]; 最后采用word2vec完成詞語文本的向量化表示的工作, 得到預訓練詞向量W=[v1,v2,v3…,vn]。

圖2 預訓練詞向量表示

2)抽取詞動態(tài)特征 由于是面向中文的事件因果關(guān)系抽取,中文與英文等其他語種不同,中文文本中含有大量的多義詞,并且同一個詞語在不同語句中的含義也是大不相同,因此神經(jīng)網(wǎng)絡(luò)在學習相關(guān)詞語特征時,會有一定影響。上節(jié)中的word2vec在進行詞語向量化表示時,每個詞對應一個vector,對于多義詞也是無能為力,而引入的ELMO能有效解決這個問題。ELMO模型提取動態(tài)詞特征的流程如圖3所示。

ELMO模型本質(zhì)上是基于語料訓練后的雙向語言模型內(nèi)部隱藏狀態(tài)的特征組合,網(wǎng)絡(luò)模型進行詞特征向量表示時有以下計算公式。

前向和后向語言模型計算公式為

(1)

(2)

共同最大化向前和向后方向的對數(shù)可能性

(3)

式中:前向和后向的LSTM參數(shù)并不共享;tk為詞向量;(t1,t2,…,tN)為給定的句子;θx為輸入的初始化向量;θLSTM為LSTM網(wǎng)絡(luò)的參數(shù);θs為softmax層的參數(shù);h為最終獲取結(jié)果。

3)向量融合 首先,對ELMO模型里的各層向量進行線性組合,獲得文本數(shù)據(jù)的動態(tài)詞特征向量。線性組合公式為

(4)

式中:γ為縮放因子;s為輸入向量對應的特征權(quán)重;x為輸入向量;i為隱藏層個數(shù);si為第i個隱藏層的歸一化系數(shù);hi為第i個隱藏層對應的隱狀態(tài)。

N聯(lián)合=W⊕E

(5)

然后,融合了用word2vec預訓練的詞向量和ELMO生成的動態(tài)詞特征,構(gòu)建成聯(lián)合向量。式中,⊕表示連結(jié)運算,即將向量在一個維度上相連,形成一個新的向量。

圖3 動態(tài)詞特征抽取圖

2.3 Attention-BiGRU模型

本文使用基于Attention-BiGRU網(wǎng)絡(luò)抽取事件的因果關(guān)系,模型的整體網(wǎng)絡(luò)如圖4所示,由輸入層、BiGRU層、注意力層、softmax分類層,以及輸出層組成。

1)輸入層:輸入該模型的文本數(shù)據(jù),如上節(jié)所述,構(gòu)建出詞序列數(shù)據(jù)的聯(lián)合向量N聯(lián)合。

2)BiGRU層:利用雙向GRU提取句子文本的長距離特征,獲得深層語義信息。

3)注意力層:產(chǎn)生權(quán)重向量,對語義特征進行權(quán)重分配,獲得了用于分類的一個句子對h*。

4)分類輸出層:使用softmax分類器對上層中得到的句子對h*進行關(guān)系分類,輸出分類結(jié)果。

圖4 Attention-BiGRU模型圖

1)BiGRU層 對文本的詞語序列數(shù)據(jù)X=[x1,x2,x3,…,xn],將句子中每一個聯(lián)合詞向量N聯(lián)合傳入雙向GRU層進行特征抽取。門控循環(huán)單元神經(jīng)網(wǎng)絡(luò)即GRU神經(jīng)網(wǎng)絡(luò),它和長短期記憶網(wǎng)絡(luò)(LSTM)一樣,都是傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種變體[14];兩者都可以有效解決RNN存在的長期依賴與梯度消失等問題。與LSTM擁有的門控結(jié)構(gòu)(輸入門、遺忘門和輸出門)不同的是,GRU在其結(jié)構(gòu)基礎(chǔ)上,合并了細胞狀態(tài)與隱藏層狀態(tài),直接使用隱藏層來傳遞信息,并且將輸入門和遺忘門結(jié)合為更新門(update gate),將輸出門更名為重置門(reset gate)。其具體單元結(jié)構(gòu)圖如圖5所示。

圖5 GRU結(jié)構(gòu)圖

以一條句子文本的聯(lián)合詞向量N為輸入,這里敘述在t時刻Nt通過GRU網(wǎng)絡(luò)前向傳播得到當前隱層狀態(tài)ht的過程:

更新門

Zt=σ(Wz·[Nt,ht-1])

(6)

重置門

rt=σ(Wr·[Nt,ht-1])

(7)

(8)

更新得到當前時刻的隱層狀態(tài)ht

(9)

yt=σ(Wo·ht)

(10)

式中:zt、rt為更新門和重置門;σ和tanh表示激活函數(shù);Wz、Wh、Wr、Wo皆為對應權(quán)值參數(shù);Nt為t時刻的輸入;yt為t時刻GRU網(wǎng)絡(luò)前向傳播的輸出;

雖然GRU網(wǎng)絡(luò)在任務(wù)中已取得比較滿意的結(jié)果,但是由于GRU網(wǎng)絡(luò)只有前向傳播,不能將全文信息充分利用起來,因此對其增加了反向輸入的逆序GRU網(wǎng)絡(luò),對文本的逆向語義也進行學習,構(gòu)建雙向門控循環(huán)神經(jīng)網(wǎng)絡(luò)(BiGRU)。

(11)

(12)

(13)

2)注意力層 注意力層位于雙向GRU層之后,對經(jīng)過雙向GRU網(wǎng)絡(luò)層輸出得到的語義信息特征進行加權(quán)處理。設(shè)H是由BiGRU層產(chǎn)生的輸出向量[h1,h2…h(huán)n],其中n是句子長度。句子的表示r由這些輸出向量的加權(quán)和形成

α=softmax(wnM)

M=tanh(H)

r=Hαn

(14)

式中:H∈Rdw×T,dw是詞向量的維數(shù);w是訓練好的參數(shù)向量;wn是轉(zhuǎn)置。w、α、r的維數(shù)分別是dw、T、dw。獲得了用于分類的最后一個句子對表示

h*=tanh(r)

(15)

(16)

(17)

3 實驗與分析

3.1 實驗數(shù)據(jù)集和評估標準

實驗選取上海大學實驗室的中文突發(fā)事件語料庫CEC作為語料集,它是根據(jù)國務(wù)院頒布的分類體系研究出來的成果,一共包含:地震、火災、恐怖襲擊、食物中毒以及交通事故5個分類。CEC語料庫包含332篇新聞事件,都使用xml語料作為標注格式,語料庫中對突發(fā)事件、突發(fā)事件6要素以及突發(fā)事件對之間的關(guān)系的標注都十分全面。經(jīng)過對生語料進行預處理以及分析,共有3 063個關(guān)系數(shù),并按4∶1的比例劃分為訓練集和測試集。CEC語料庫的具體情況如表1所示。

表1 語料庫事件關(guān)系類別分布

在實驗結(jié)果分析中,采用準確率(P,precision)、召回率(R,recall)以及F1(F1_score)值作為模型效果評估的指標。

3.2 實驗參數(shù)設(shè)置

本文模型選擇交叉熵損失函數(shù)作為分類問題的目標函數(shù),使用adam優(yōu)化器進行模型優(yōu)化的梯度調(diào)整算法。模型使用的超參數(shù)經(jīng)過在CEC語料庫上不斷的測試調(diào)參后,設(shè)置情況如表2所示。

表2 模型參數(shù)選擇

3.3 實驗結(jié)果比較

1)ELMO詞嵌入模型分析 由于實驗在詞語向量預訓練的過程中,使用了word2vec和ELMO兩種詞嵌入模型,為了驗證ELMO預訓練模型的效果和優(yōu)勢,該部分比較了在特征抽取方面,是否使用ELMO模型生成動態(tài)詞向量對于抽取結(jié)果的影響。兩種詞向量模型的效果對比如表3所示。

表3 兩種詞向量模型的比較 %

很顯然,通過表3可以對比看出,和只使用word2vec詞向量預訓練模型相比,在此基礎(chǔ)上,再使用ELMO預訓練模型對分詞后的詞語根據(jù)語境進行動態(tài)詞向量表示,從而構(gòu)成的聯(lián)合向量對模型的最終抽取效果更為有利,聯(lián)合使用ELMO和word2vec詞嵌入方法的模型,準確率和F1值分別為92.25%、88.56%,對比于使用單一word2vec詞嵌入的模型,F(xiàn)1值提高了2.14%,說明了ELMO預訓練模型的表現(xiàn)較好。

2)與其他模型對比 為了進一步比較本文所使用模型的性能,本文在預處理后的數(shù)據(jù)集上采用以下幾種模型進行訓練和測試。幾種模型的因果關(guān)系抽取性能對比如表4所示。

表4 與其他模型抽取效果對比情況 %

從表4中可以看出,在相同的數(shù)據(jù)集上進行訓練并測試,本文所提出模型的準確率和F1值均優(yōu)于所對比的其他模型。分析表3可得出結(jié)論:1)對比③、④和⑤模型,Att-BiGRU模型不僅計算速度更快,而且能夠解決傳統(tǒng)RNN模型的梯度消失問題,使得實驗結(jié)果的F1值分別提高4.64%、4.22%,尤其是準確率提高了14.33%、9.64%,較為顯著,說明BiGRU網(wǎng)絡(luò)應用的有效性;2)比較模型②和⑤的情況為是否在模型中加入注意力機制,從表中能夠得出,注意力層的引入使得模型關(guān)注對因果關(guān)系抽取貢獻度較大的詞匯特征,使模型F值提升7.66%,有利于提高因果關(guān)系抽取的性能;3)模型①和⑤的對比,增加了一層GRU網(wǎng)絡(luò)提取文本的后向語義信息,豐富了獲取的特征信息,模型F1值提高了4%左右。

3)與其他工作結(jié)果對比 為了全面衡量本文所提出方法的有效性,在該部分與以往其他工作者的研究結(jié)果作了對比,詳細情況如表5所示。雖然本文使用的語料以及語料的標注方法與表5中其他學者的不同,直接比較模型抽取結(jié)果的可比性不強,但是本文的方法與其他因果關(guān)系抽取方法在結(jié)果上作一個對照,也可以為研究者提供一些有用的信息。

表5 與其他研究工作結(jié)果對比情況 %

根據(jù)表5對比分析,相比于傳統(tǒng)模式匹配[15]257以及神經(jīng)網(wǎng)絡(luò)方法[16]2 337,本文提出的基于聯(lián)合詞向量和Attention-BiGRU網(wǎng)絡(luò)模型取得了最高的準確率和F1值,說明了模型中使用的BiGRU神經(jīng)網(wǎng)絡(luò)和注意力機制的有效性,可以深層抽取文本語義特征,并使得模型突出重要詞匯特征在文本中的重要度;在詞特征抽取方面,聯(lián)合使用word2vec和ELMO詞嵌入模型,ELMO的加入豐富了詞匯特征信息,使得本文的因果語義特征信息更為豐富,進而提升模型的抽取性能。

4 結(jié)論

事件因果關(guān)系抽取對突發(fā)事件的預測以及知識圖譜構(gòu)建具有重要意義。針對現(xiàn)有因果關(guān)系抽取研究中存在詞匯特征不符合文本語境、語義特征不足的問題,本文提出了基于聯(lián)合詞向量和Attention-BiGRU網(wǎng)絡(luò)的事件因果關(guān)系抽取方法。與以往將因果關(guān)系轉(zhuǎn)化為序列標注方法不同的是,本文將因果關(guān)系的抽取轉(zhuǎn)化為關(guān)系三分類問題。首先,使用word2vec對文本進行詞向量表示,且引入ELMO模型將文本序列數(shù)據(jù)生成動態(tài)詞向量,構(gòu)成了聯(lián)合詞向量。然后,聯(lián)合詞向量作為Attention-BiGRU模型的輸入,提取語義特征信息,并產(chǎn)生權(quán)重向量,突出在因果關(guān)系抽取中有貢獻的詞匯特征。最后,利用softmax分類器對關(guān)系進行分類,完成對事件因果關(guān)系的抽取。實驗結(jié)果證明,相比于現(xiàn)有的因果關(guān)系抽取方法,本文提出的方法在準確率和F1值上都有較大的提高,有助于事件因果關(guān)系抽取。但是本文的召回率仍有提高的空間,未來會繼續(xù)這方面的研究,將該方法與強化學習相結(jié)合,以實現(xiàn)更好的性能。

猜你喜歡
因果關(guān)系語料庫語義
真實場景水下語義分割方法及數(shù)據(jù)集
基于語料庫的清末民初日源外來詞漢化研究
淺談刑法上的因果關(guān)系
做完形填空題,需考慮的邏輯關(guān)系
探究刑法的因果關(guān)系
運用語料庫輔助高中英語寫作
“吃+NP”的語義生成機制研究
漢語依憑介詞的語義范疇
論刑法中提前的因果關(guān)系與延后的因果關(guān)系
語料庫與譯者培養(yǎng)探索