余 蓓,劉 宇,顧進(jìn)廣
(1.武漢科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢,430065;2.武漢科技大學(xué)智能信息處理與實(shí)時(shí)工業(yè)系統(tǒng)湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 武漢,430065;3.武漢科技大學(xué)大數(shù)據(jù)科學(xué)與工程研究院,湖北 武漢,430065)
鑒于突發(fā)事件的不確定性和破壞性,國家急需建立與突發(fā)事件和應(yīng)急響應(yīng)相關(guān)的知識庫,從而能更全面地了解突發(fā)事件,普及應(yīng)急響應(yīng)知識,提高應(yīng)急響應(yīng)速度[1-2]。抽取突發(fā)事件演化關(guān)系是構(gòu)建突發(fā)事件知識庫的重要一環(huán),其主要任務(wù)是抽取突發(fā)事件描述文本中致災(zāi)因子、承災(zāi)載體和影響因子之間的關(guān)系[3]。下面是幾個(gè)突發(fā)事件的描述文本示例:
例1唐山大地震后,大雨滂沱,人員傷亡嚴(yán)重。
例2由于震前當(dāng)?shù)卣腿罕姴扇×朔e極防震抗震的措施,從而大大減輕了損失。
在例1中,存在{〈地震,傷亡,直接因果關(guān)系〉,〈大雨,傷亡,促進(jìn)關(guān)系〉,〈地震,大雨,無關(guān)系〉,…}等演化關(guān)系對;在例2中,存在{〈措施,損失,抑制關(guān)系〉,…}等演化關(guān)系對。
抽取突發(fā)事件演化關(guān)系對于防災(zāi)救災(zāi)有著重要的意義,但目前的研究主要關(guān)注于句子本身的信息,即僅利用深度學(xué)習(xí)方法對句子自身的特征進(jìn)行學(xué)習(xí),而忽視了突發(fā)事件的背景知識。然而,人類在識別語句中的實(shí)體關(guān)系時(shí),不僅僅根據(jù)句子本身的信息做出判斷,還會結(jié)合實(shí)體自身的背景知識(如實(shí)體的概念信息等)進(jìn)行輔助判斷。關(guān)注當(dāng)前語境下實(shí)體的概念信息有助于更準(zhǔn)確地判斷實(shí)體間的關(guān)系。
針對現(xiàn)有方法大多未考慮實(shí)體自身的背景知識導(dǎo)致部分關(guān)系分類錯(cuò)誤的問題,本文提出一種基于概念圖譜(Concept Graph)和BiGRU-Att(Attention-based Bidirectional Gated Recurrent Unit)模型的方法來抽取突發(fā)事件演化關(guān)系。該方法的主要特點(diǎn)在于:①引入概念圖譜與概念化算法來獲得實(shí)體最符合當(dāng)前語境的概念特征集合,通過加入概念特征來增加背景知識,提高關(guān)系抽取的準(zhǔn)確性;②用BiGRU-Att模型對加入了概念特征的文本進(jìn)行關(guān)系抽取。本文最后通過與其他關(guān)系抽取方法進(jìn)行對比實(shí)驗(yàn),來驗(yàn)證所提方法的有效性。
關(guān)系抽取是信息抽取任務(wù)中的關(guān)鍵子任務(wù)之一,對構(gòu)建知識庫有著重要作用。關(guān)系抽取可分為兩類:有監(jiān)督的實(shí)體關(guān)系抽取和無監(jiān)督的實(shí)體關(guān)系抽取。本文將突發(fā)事件演化關(guān)系的抽取轉(zhuǎn)化為有監(jiān)督的實(shí)體關(guān)系四分類問題。
有監(jiān)督的實(shí)體關(guān)系抽取方法主要分為三大體系:基于特征向量的方法、基于核函數(shù)的方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)的基于特征向量的方法[4-5]依賴于構(gòu)建者對句法、語法等信息的選擇,通用性不強(qiáng),且忽略了文本中的上下文信息?;诤撕瘮?shù)的方法則能更好地利用上下文信息。Zelenko等[6]利用淺層解析樹核以及支持向量機(jī)(SVM)進(jìn)行關(guān)系抽取。Bunescu等[7]提出了基于子序列核函數(shù)的方法,并且在多個(gè)語料上驗(yàn)證了其有效性。然而基于核函數(shù)的方法的召回率太低,且存在訓(xùn)練和預(yù)測速度太慢的問題。近年來,基于深度學(xué)習(xí)的方法被廣泛應(yīng)用于實(shí)體關(guān)系抽取領(lǐng)域,該類方法通過神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)句子深層次的特征序列并用于關(guān)系分類。Zeng等[8]通過基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的模型來提取詞匯和句子特征進(jìn)行關(guān)系分類,該模型較好地利用了句中的實(shí)體信息,但未能解決長距離依賴信息的問題。田生偉等[9]利用雙向長短時(shí)記憶(Bidirectional Long Short Term Memory, BiLSTM)網(wǎng)絡(luò)來抽取維吾爾語文本中的事件因果關(guān)系,總體效果較好,但該方法將句子中所有詞語視為一樣,沒有考慮各個(gè)詞語的不同重要程度。為了解決該問題,聞暢等[3]將注意力機(jī)制(Attention Mechanism)引入到BiLSTM模型中,利用其計(jì)算注意力概率以突出關(guān)鍵詞匯在文本中的重要程度。但LSTM網(wǎng)絡(luò)用遺忘門、輸入門和輸出門這三個(gè)門結(jié)構(gòu)來解決長距離依賴信息的問題,導(dǎo)致該模型參數(shù)過多且計(jì)算復(fù)雜。
概念圖譜是知識圖譜的一種,可以更好地幫助機(jī)器來理解自然語言。概念圖譜中包含了實(shí)體(如“大雨”)、概念(如“天氣”)以及他們之間的類屬關(guān)系(又稱isA關(guān)系,如“大雨isA天氣”)。由于概念圖譜包含了大量常識性的概念,近年來已在意圖識別、短文本分類等領(lǐng)域取得了較好的使用效果。Xu等[10]利用概念圖譜對用戶的輸入進(jìn)行更高層次的概念抽象,并應(yīng)用于意圖識別。Huang等[11]提出的概念化算法結(jié)合了概念圖譜,利用文本中詞語及與其對應(yīng)的概念集合之間的相關(guān)性,得到該詞符合語境的概念特征,提高了短文本的分類效果。
考慮到概念圖譜已有效應(yīng)用于多個(gè)自然語言處理領(lǐng)域,且人類在判斷文本中實(shí)體對之間的關(guān)系時(shí)也會考慮實(shí)體的概念知識,故本文將概念圖譜引入關(guān)系抽取任務(wù)中,參照文獻(xiàn)[11]中的概念化算法獲取符合當(dāng)前語境的概念特征,通過加入概念特征來增加背景知識,提高關(guān)系抽取的準(zhǔn)確性。同時(shí),本文還采用了與LSTM網(wǎng)絡(luò)相比結(jié)構(gòu)更簡單、參數(shù)更少的門控循環(huán)單元(Gated Recurrent Unit, GRU) 網(wǎng)絡(luò)[12]來進(jìn)行特征學(xué)習(xí),將Attention機(jī)制引入雙向GRU網(wǎng)絡(luò)(BiGRU),構(gòu)建BiGRU-Att模型進(jìn)行關(guān)系抽取。
本文提出的基于概念圖譜與BiGRU-Att模型的突發(fā)事件演化關(guān)系抽取方法的框架結(jié)構(gòu)如圖1所示,共分為3個(gè)部分:概念特征抽取、特征拓展和BiGRU-Att模型的訓(xùn)練。將突發(fā)事件數(shù)據(jù)集分為訓(xùn)練集和測試集,使用jieba分詞工具對數(shù)據(jù)集處理后作為模型輸入。
圖1 基于概念圖譜與BiGRU-Att模型的演化關(guān)系抽取方法的框架結(jié)構(gòu)
Fig.1 Framework of evolution relationship extraction based on concept graph and BiGRU-Att model
概念特征抽?。夯诟拍顖D譜構(gòu)建實(shí)例-概念語義網(wǎng)絡(luò),利用該網(wǎng)絡(luò)進(jìn)行特征選擇計(jì)算,得到符合當(dāng)前語境的概念排序。
特征拓展:根據(jù)突發(fā)事件的特點(diǎn),選取突發(fā)事件中致災(zāi)因子、承災(zāi)載體和影響因子的概念特征,與分詞后的文本拼接,作為BiGRU-Att模型的輸入。
BiGRU-Att模型訓(xùn)練:用訓(xùn)練集來完成模型的訓(xùn)練,用測試集來驗(yàn)證模型的關(guān)系抽取效果。首先將特征拓展后的文本經(jīng)過詞嵌入轉(zhuǎn)換為詞向量,然后用BiGRU學(xué)習(xí)文本深層次的語義特征,并通過Attention機(jī)制來突出重要特征,最后通過分類器進(jìn)行演化關(guān)系分類。
本文引入概念圖譜,結(jié)合概念化算法[11],利用實(shí)例、概念間的相互關(guān)系,迭代出最符合當(dāng)前語境的概念排序。概念特征抽取主要分為3個(gè)階段:①基于概念圖譜生成候選概念集合;②利用候選概念集合與實(shí)例集合構(gòu)建實(shí)例-概念語義網(wǎng)絡(luò);③基于構(gòu)建的語義網(wǎng)絡(luò)進(jìn)行特征選擇計(jì)算,得到實(shí)例在當(dāng)前語境下對應(yīng)的最可能的概念排序。
為了描述候選概念集的生成,首先明確以下概念特征抽取的相關(guān)定義。
定義1實(shí)例。給定一段已分好詞的文本X={xi|1≤i≤n},其中xi表示每個(gè)詞語,n為文本分詞后詞語的總數(shù),稱詞語xi為實(shí)例。
定義2概念。對于文本X中的實(shí)例xi,如果存在cj是xi的父類,則稱cj為xi的概念。簡單地說,概念就是讓相似的實(shí)例可以聯(lián)系在一起。例如,“大雨”、“大風(fēng)”這些實(shí)例可以用“天氣”這個(gè)概念來表示。
定義3候選概念集。通過概念圖譜獲取文本X中實(shí)例xi對應(yīng)的集合C={〈cj,fj〉│1≤j≤m},其中頻數(shù)fj為概念圖譜生成過程中統(tǒng)計(jì)出的概念cj的通用分?jǐn)?shù),m是根據(jù)需求預(yù)先設(shè)定的,則稱集合C為xi的候選概念集。例如,“大雨”的候選概念集為{〈天氣,1155〉,〈情況,309〉,〈氣候,234〉,〈濕度,159〉}。
通過概念圖譜對文本中的每個(gè)實(shí)例進(jìn)行映射,生成對應(yīng)的候選概念集,作為語義網(wǎng)絡(luò)構(gòu)建的基礎(chǔ)。這里得到的候選概念集代表的是在大多數(shù)情況下實(shí)例對應(yīng)的概念排序。
為了能夠量化實(shí)例與概念間的關(guān)系,分析它們在文本中的影響,這里利用候選概念集合與實(shí)例集合構(gòu)建了實(shí)例-概念語義網(wǎng)絡(luò),即一個(gè)表示實(shí)例和概念之間語義關(guān)系的網(wǎng)絡(luò)結(jié)構(gòu),圖2是部分語義網(wǎng)絡(luò)示例。
圖2中有兩類節(jié)點(diǎn):矩形表示實(shí)例節(jié)點(diǎn),例如實(shí)例“大雨”、“地震”等;橢圓表示概念節(jié)點(diǎn),例如實(shí)例“大雨”對應(yīng)的候選概念集中的“天氣”和“氣候”。節(jié)點(diǎn)間通過有向加權(quán)邊或無向加權(quán)邊相連,其中權(quán)值表示節(jié)點(diǎn)間的關(guān)聯(lián)強(qiáng)度。
圖2 實(shí)例-概念語義網(wǎng)絡(luò)
將實(shí)例-概念語義網(wǎng)絡(luò)表示為圖G=(V,E),其中V是圖中頂點(diǎn)的集合,E是圖中邊的集合。整個(gè)網(wǎng)絡(luò)G主要由三部分組成:
(1) 概念-概念子網(wǎng)絡(luò)(Gcc):表示概念與概念的相互影響力,由圖中的橢圓及相連的弧形實(shí)線邊構(gòu)成;
(2) 實(shí)例-實(shí)例子網(wǎng)絡(luò)(Gww):表示實(shí)例與實(shí)例的相互影響力,由圖中的矩形及相連的虛線邊構(gòu)成;
(3) 實(shí)例-概念子網(wǎng)絡(luò)(Gwc):是將Gcc和Gww兩個(gè)網(wǎng)絡(luò)關(guān)聯(lián)到一起的子網(wǎng)絡(luò),表示概念與實(shí)例間的可能性,由圖中的橢圓和矩形及相連的雙向?qū)嵕€邊構(gòu)成。
實(shí)例-概念語義網(wǎng)絡(luò)G的關(guān)聯(lián)矩陣如下:
(1)
式中:Mcc表示Gcc中概念間的相關(guān)性,通過文本中全部實(shí)例對應(yīng)的候選概念集中每兩個(gè)概念的共現(xiàn)次數(shù)及其相關(guān)函數(shù)(Correlation Function)[11]得到;Mww表示Gww中實(shí)例間的相關(guān)性,由文本中每兩個(gè)實(shí)例的共現(xiàn)次數(shù)及其相關(guān)函數(shù)計(jì)算得到;Mwc表示Gwc中實(shí)例與其對應(yīng)的候選概念集的關(guān)系,它由實(shí)例到某個(gè)概念的頻數(shù)fi和互相關(guān)函數(shù)(Inter Correlation Function)[11]決定;Mcw與Mwc不同,它代表的是概念與其相關(guān)的實(shí)例間的關(guān)系,而且僅由頻數(shù)fi決定。
將3個(gè)子網(wǎng)絡(luò)Gcc、Gww和Gwc結(jié)合起來,通過特征迭代選擇算法[11]更改實(shí)例對應(yīng)的候選概念集中概念的排序,使其更符合當(dāng)前語境。
特征迭代選擇算法以上一節(jié)構(gòu)建的語義網(wǎng)絡(luò)為基礎(chǔ)來進(jìn)行計(jì)算,迭代過程中會生成兩個(gè)矩陣:Scorec和Scorew,分別為概念和實(shí)例的分?jǐn)?shù)矩陣,代表著概念和實(shí)例的排序分?jǐn)?shù)(重要程度)。如圖3所示,迭代選擇算法每輪包含以下4個(gè)步驟:
(1) 實(shí)例-概念排序:利用實(shí)例的排序分?jǐn)?shù)來影響概念的排序分?jǐn)?shù),即通過實(shí)例的分?jǐn)?shù)Scorew和Mwc計(jì)算更新Scorec;
(2) 概念-概念排序:主要思想是如果一個(gè)概念與其他大多數(shù)概念越相關(guān),則該概念分配到的分?jǐn)?shù)越大,即通過概念的分?jǐn)?shù)Scorec和Mcc計(jì)算更新Scorec;
(3) 概念-實(shí)例排序:利用概念的排序分?jǐn)?shù)來影響實(shí)例的排序分?jǐn)?shù),即通過概念的分?jǐn)?shù)Scorec和Mcw計(jì)算更新Scorew;
(4) 實(shí)例-實(shí)例排序:與概念-概念排序類似,如果一個(gè)實(shí)例與其他大多數(shù)實(shí)例越相關(guān),則該實(shí)例分配到的分?jǐn)?shù)越大,即通過實(shí)例的分?jǐn)?shù)Scorew和Mww計(jì)算更新Scorew。
當(dāng)多次連續(xù)迭代計(jì)算出的平均分?jǐn)?shù)之間沒有明顯變化時(shí)停止迭代,可根據(jù)最終得到的Scorec將實(shí)例對應(yīng)的候選概念集重新排序。
圖3 特征迭代選擇流程
當(dāng)先驗(yàn)知識較準(zhǔn)確時(shí),帶有先驗(yàn)的分類方法能大大提高分類效果[13]。針對突發(fā)事件演化關(guān)系的特點(diǎn),本文方法通過增加演化因子概念特征來提高關(guān)系分類的準(zhǔn)確性。演化因子及其概念特征定義如下:
定義4演化因子。突發(fā)事件演化關(guān)系是致災(zāi)因子、承災(zāi)載體和影響因子三者之間的關(guān)系[3],本文統(tǒng)稱這三者為演化因子,如例1,“大雨”、“傷亡”等是該突發(fā)事件的演化因子。
定義 5演化因子概念特征。在文本X中,實(shí)例xi是突發(fā)事件的演化因子,將xi的候選概念集C中的概念根據(jù)當(dāng)前語境下與xi的相關(guān)度降序排列,取前k名作為xi的演化因子概念特征F,k即為演化因子概念特征的大小。如當(dāng)概念特征大小k=2時(shí),F(xiàn)={c1,c2}。
在如圖3的迭代選擇過程,選取迭代停止時(shí)的分?jǐn)?shù)矩陣Scorec為最終結(jié)果,Scorec中的分?jǐn)?shù)代表實(shí)例與概念的相關(guān)度。對于文本中的演化因子,將其對應(yīng)的候選概念集根據(jù)Scorec中的分?jǐn)?shù)重新按降序排列,并選擇前k個(gè)作為演化因子概念特征。將得到的突發(fā)事件演化因子的概念特征與分詞后的語句拼接,作為BiGRU-Att模型的輸入。
突發(fā)事件演化關(guān)系的抽取利用BiGRU-Att模型來完成,模型的輸入是上一節(jié)得到的特征拓展后的文本。BiGRU-Att模型結(jié)構(gòu)見圖4,共包括4個(gè)部分:
(1)詞嵌入層:將詞語映射到低維稠密向量;
(2) BiGRU層:利用BiGRU從詞嵌入層輸出的低維稠密向量獲得深層次的特征;
(3) Attention層:對獲得的深層次特征進(jìn)行加權(quán)變換,突出重要信息的貢獻(xiàn)度;
(4)分類層:利用softmax分類器進(jìn)行突發(fā)事件演化關(guān)系抽取。
圖4 BiGRU-Att模型結(jié)構(gòu)
詞嵌入層為BiGRU-Att模型的第一層,主要目的是將詞轉(zhuǎn)化為低維稠密向量,用來捕捉句子的語義信息。詞嵌入層的輸入為集合S={si|1≤i≤n},集合S是特征拓展模塊的輸出,由分詞后的文本和演化因子概念特征組成,其中n為特征拓展后文本中詞的個(gè)數(shù)。
集合S中的每一個(gè)詞si都會被表示為一個(gè)實(shí)值向量ei,ei的計(jì)算公式如下:
ei=Wwrdvi
(2)
式中:矩陣Wwrd∈Rd|v|,v是固定大小的詞匯表,d為詞向量的維度,Wwrd是需要學(xué)習(xí)的參數(shù),vi是輸入詞的one-hot表示,大小為|v|。由此得到的整個(gè)詞嵌入層的輸出,也就是特征拓展后的文本的詞嵌入矩陣E=[e1,e2,…,en]。
BiGRU為模型的第二層,用來學(xué)習(xí)句子深層次的語義信息。GRU是LSTM的一個(gè)變種,兩者均能夠?qū)W習(xí)文本的序列信息,適用于時(shí)序問題。LSTM通過遺忘門、輸入門和輸出門來習(xí)得序列信息,而GRU的結(jié)構(gòu)如圖5所示,它取消了LSTM中的細(xì)胞狀態(tài),只保留了隱藏狀態(tài),將LSTM中的輸入門和遺忘門用更新門zt來代替,輸出門用重置門rt來代替。GRU的更新門決定上個(gè)時(shí)刻記憶的保留程度,重置門則決定上個(gè)時(shí)刻記憶的丟棄程度與新的輸入。相比于LSTM,GRU的結(jié)構(gòu)更簡單、參數(shù)更少,減少了計(jì)算的復(fù)雜性。
圖5 GRU單元結(jié)構(gòu)
BiGRU層的輸入為嵌入層輸出的矩陣E,因此集合S中第t個(gè)詞的輸入為該詞的向量表示et。這里以輸入為et來表示GRU的計(jì)算過程,公式如下:
zt=σ(Wzet+Uzht-1+bz)
(3)
rt=σ(Wret+Urht-1+br)
(4)
(5)
(6)
(7)
Attention層為模型的第三層,用于對BiGRU習(xí)得的深層次特征進(jìn)行加權(quán)變換,突出文本序列中重點(diǎn)詞匯信息的作用,從而提高突發(fā)事件演化關(guān)系抽取的準(zhǔn)確性。注意力機(jī)制的計(jì)算公式如下:
M=tanh(H)
(8)
α=softmax(wTM)
(9)
r′=HαT
(10)
r=tanh(r′)
(11)
式中:H=[h1,h2,…,hn]為上一層BiGRU神經(jīng)網(wǎng)絡(luò)層輸出的向量;w為訓(xùn)練好的參數(shù)向量;α為權(quán)重矩陣;softmax為歸一化指數(shù)函數(shù);tanh為激活函數(shù)。Attention層最終的輸出為加權(quán)變化后的深層次特征r。
分類層是模型的最后一層。本文使用的softmax分類器是logistic回歸模型在多分類問題上的推廣。如圖4,將Attention層得到的深層次特征r輸入到softmax進(jìn)行歸一化,得到了演化因子對所對應(yīng)的4種演化關(guān)系類別的概率p(y│r),如下式:
p(y│r)=softmax(Wr+br)
(12)
(13)
本文將基于概念圖譜與BiGRU-Att模型的關(guān)系抽取方法應(yīng)用到突發(fā)事件領(lǐng)域的演化關(guān)系抽取中,并分別進(jìn)行兩組實(shí)驗(yàn):①對比演化因子概念特征的大小k對關(guān)系抽取效果的影響;②驗(yàn)證概念圖譜和BiGRU-Att模型對演化關(guān)系抽取的有效性。實(shí)驗(yàn)流程如圖6所示。
本文選用的數(shù)據(jù)集為突發(fā)事件中文數(shù)據(jù)集[3]。該數(shù)據(jù)集是以在中新網(wǎng)和網(wǎng)易新聞網(wǎng)等網(wǎng)站上爬取的932篇突發(fā)事件新聞為基礎(chǔ),參照自動(dòng)內(nèi)容抽取(ACE)的事件標(biāo)注標(biāo)準(zhǔn)進(jìn)行標(biāo)注的2800條突發(fā)事件語料,包含了自然災(zāi)害、事故災(zāi)害、公共衛(wèi)生和社會安全4類突發(fā)事件。數(shù)據(jù)集根據(jù)突發(fā)事件演化關(guān)系模型的關(guān)系類別分為4類:直接因果關(guān)系、促進(jìn)關(guān)系、抑制關(guān)系和無關(guān)系。將數(shù)據(jù)集按7∶3的比例隨機(jī)分為兩部分,分別作為訓(xùn)練集和測試集。鑒于實(shí)驗(yàn)對象為中文數(shù)據(jù)集,故概念圖譜選用了支持中文的Probase+[14]。
圖6 突發(fā)事件演化關(guān)系抽取實(shí)驗(yàn)流程
Fig.6 Experimental process of evolution relationship extraction for emergencies
對于不同模型的分類結(jié)果,本文以常用的準(zhǔn)確率(precision) 、召回率(recall)和F1值作為評測指標(biāo)。
首先對比演化因子概念特征的大小k對突發(fā)事件演化關(guān)系抽取效果的影響。概念特征是演化因子的背景知識,增加背景知識能夠提高關(guān)系抽取的效果,不同大小的概念特征包含的背景信息不同,所以實(shí)驗(yàn)選取k值分別為0、1、2、3,在圖1的框架下進(jìn)行突發(fā)事件演化關(guān)系抽取,實(shí)驗(yàn)結(jié)果如圖7所示。
圖7 演化因子概念特征大小對關(guān)系抽取效果的影響
Fig.7 Influence of the size of evolution factor concept feature on relationship extraction
由圖7可見,當(dāng)演化因子概念特征大小k為0,即未使用概念特征時(shí),準(zhǔn)確率、召回率和F1值均為最低,當(dāng)k為1、2和3時(shí),準(zhǔn)確率、召回率和F1值均得到不同程度的增大,表明演化因子概念特征的加入有效提升了模型的關(guān)系抽取效果。準(zhǔn)確率、召回率和F1值均在k=2時(shí)達(dá)到最高,分別為91.0%、89.7%和90.3%,這是因?yàn)椋簁=1時(shí),加入的概念特征過少,模型沒有學(xué)習(xí)到足夠的背景知識;k=3時(shí),在概念特征中排名第三的概念又與其對應(yīng)的演化因子關(guān)聯(lián)過小,引入了帶有噪聲的背景知識;k=2時(shí),模型即能學(xué)習(xí)到足夠的背景知識,又不會引入過多的噪聲,取得了最優(yōu)的演化關(guān)系抽取效果。因此后續(xù)實(shí)驗(yàn)中均采用大小為2的演化因子概念特征。
為了驗(yàn)證本文設(shè)計(jì)的抽取框架對突發(fā)事件演化關(guān)系抽取的有效性,一共采用6種模型來進(jìn)行對比實(shí)驗(yàn),分別是:①文獻(xiàn)[3]提出的BiLSTM-Att模型、②加入概念圖譜的BiLSTM-Att模型、③雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BiRNN)模型、④BiGRU模型、⑤加入了注意力機(jī)制的BiGRU模型(即BiGRU-Att)、⑥本文提出的基于概念圖譜和BiGRU-Att的關(guān)系抽取模型。表1所示為各模型的實(shí)驗(yàn)結(jié)果。
表1 不同模型的實(shí)驗(yàn)結(jié)果對比
Table 1 Comparison of experimental results of different models
編號模型準(zhǔn)確率/%召回率/%F1值/%1BiLSTM-Att89.887.988.82BiLSTM-Att+概念圖譜90.889.189.93BiRNN80.879.880.34BiGRU89.087.488.25BiGRU-Att90.288.789.46BiGRU-Att+概念圖譜91.089.790.3
表1中的數(shù)據(jù)表明本文方法相較于其他5種方法取得了更優(yōu)的突發(fā)事件演化關(guān)系抽取效果。如表1所示,BiGRU模型比BiRNN模型的實(shí)驗(yàn)結(jié)果有大幅提升,這是因?yàn)榧尤腴T控機(jī)制的GRU解決了RNN梯度消失和梯度爆炸問題,得到了更準(zhǔn)確的語義信息;而加入注意力機(jī)制的BiGRU-Att模型抽取效果又得到了進(jìn)一步改善,這是由于不同的詞匯在文本中的重要程度是不一樣的,而注意力機(jī)制能夠強(qiáng)化重要詞匯在文本中的作用;BiGRU-Att的突發(fā)事件演化關(guān)系抽取效果略優(yōu)于BiLSTM-Att,這兩個(gè)模型均加入了注意力機(jī)制,區(qū)別在于BiGRU比BiLSTM的結(jié)構(gòu)更簡單,減少了約三分之一的參數(shù),且更不容易過擬合,因此針對于本文數(shù)據(jù)集取得了更優(yōu)解。
另外,對比表1中加入概念圖譜前后的BiLSTM-Att(模型1和模型2)和BiGRU-Att(模型5和模型6)的實(shí)驗(yàn)結(jié)果,可以看出,概念圖譜的引入使得突發(fā)事件演化關(guān)系抽取的準(zhǔn)確率、召回率和F1值均有提升,其原因在于原始文本中的語義信息有限,缺少突發(fā)事件的背景知識,而引入概念圖譜對原始語句進(jìn)行演化因子概念特征拓展后,彌補(bǔ)了這一空白,使得BiLSTM-Att和BiGRU-Att模型能夠?qū)W到更多深層次的語義特征,有助于突發(fā)事件演化關(guān)系分類。
本文提出了一種基于概念圖譜與BiGRU-Att模型的方法用于抽取突發(fā)事件演化關(guān)系,以克服現(xiàn)有演化關(guān)系抽取模型忽略了背景知識從而導(dǎo)致信息抽取不夠準(zhǔn)確的問題。該方法將演化關(guān)系抽取轉(zhuǎn)化為四分類問題,引入概念圖譜對突發(fā)事件文本進(jìn)行背景知識的擴(kuò)充,將擴(kuò)充后的文本作為BiGRU-Att模型的輸入進(jìn)行特征學(xué)習(xí),最后利用分類器完成演化關(guān)系的抽取。與其他模型在同一數(shù)據(jù)集上的對比實(shí)驗(yàn)結(jié)果顯示,本文方法在準(zhǔn)確率、召回率和F1值這3個(gè)評價(jià)指標(biāo)上均取得最優(yōu)值,有助于構(gòu)建更完備的突發(fā)事件知識庫。
本文方法仍有改進(jìn)的空間,在下一步工作中可以考慮引入更多的先驗(yàn)知識來進(jìn)行演化關(guān)系抽取,例如句法和上下文特征,同時(shí)還可以考慮將注意力機(jī)制進(jìn)行改進(jìn)。