王 紅,吳燕婷
(中國(guó)民航大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,天津 300300)
知識(shí)圖譜(knowledge graph)是一種揭示實(shí)體之間關(guān)系的大規(guī)模語義網(wǎng)絡(luò),能夠?qū)ΜF(xiàn)實(shí)事物之間的關(guān)系進(jìn)行形式化的描述[1],被廣泛應(yīng)用于智能推薦、問答系統(tǒng)等領(lǐng)域。實(shí)體關(guān)系抽取是構(gòu)建知識(shí)圖譜的主要任務(wù)之一,早期人們采用流水線方法(piplined method)實(shí)現(xiàn)實(shí)體和關(guān)系的抽取,即先進(jìn)行命名實(shí)體識(shí)別(named entity recognition,NER)[2-3],然后將識(shí)別出的實(shí)體兩兩組合再進(jìn)行關(guān)系分類(relation classification,RC)[4-5],該方法使得每個(gè)模塊比較靈活并容易設(shè)計(jì),但存在錯(cuò)誤級(jí)聯(lián)、冗余信息等問題。而后發(fā)展到聯(lián)合抽取方法(joint extraction method),實(shí)體關(guān)系聯(lián)合抽取是指將命名實(shí)體識(shí)別和關(guān)系抽取融合成一個(gè)任務(wù),進(jìn)行聯(lián)合學(xué)習(xí)[6]。
目前實(shí)體關(guān)系聯(lián)合抽取方法主要分為兩大類:基于特征工程的方法[7-10]和基于深度學(xué)習(xí)的方法。其中基于特征工程的方法依賴人工定義特征模板,資源消耗巨大且效率低下。為了減少人為的參與,基于深度學(xué)習(xí)的實(shí)體關(guān)系聯(lián)合抽取方法成為研究熱點(diǎn)?;谏疃葘W(xué)習(xí)的聯(lián)合抽取方法是從聯(lián)合編碼分別解碼的共享參數(shù)方式[11-12],到共同編解碼的序列標(biāo)注方式[13]。陳佳灃等[14]則是在共同編解碼的聯(lián)合抽取模型中引入強(qiáng)化學(xué)習(xí)來對(duì)數(shù)據(jù)集進(jìn)行降噪。然而均無法解決重疊關(guān)系三元組抽取問題,而重疊關(guān)系三元組大量存在于文本數(shù)據(jù)之中,導(dǎo)致前述方法對(duì)三元組的抽取效果不佳。針對(duì)重疊關(guān)系三元組抽取問題,近年來有采用圖結(jié)構(gòu)的方式[15-16]或是采用基于復(fù)制機(jī)制的序列到序列方法[17]均取得了一定進(jìn)展,但都是將關(guān)系視為實(shí)體對(duì)上的離散標(biāo)簽,導(dǎo)致抽取效率不高且模型開銷大。近年WEI et al[18]提出的CasRel模型將關(guān)系建模為頭實(shí)體映射到尾實(shí)體的函數(shù),建立多關(guān)系的標(biāo)注器,為解決重疊關(guān)系三元組抽取問題提供了新的模式。但該模型對(duì)頭實(shí)體信息只是簡(jiǎn)單的計(jì)算平均值后與編碼特征結(jié)合,沒有深層的挖掘頭實(shí)體的位置和語義信息。綜上,現(xiàn)有的實(shí)體關(guān)系聯(lián)合抽取方法大多致力于抽取實(shí)體之間顯性的關(guān)系,這類方法雖然取得了顯著的效果,但忽略了實(shí)體之間潛在的隱性關(guān)系三元組的挖掘,在文獻(xiàn)[18]的啟發(fā)下,本文提出了頭實(shí)體增強(qiáng)的多跳簡(jiǎn)單推理并結(jié)合注意力的權(quán)重決定最終跳數(shù)的模型Multi-Air,挖掘出實(shí)體間潛在的關(guān)系三元組,提升三元組抽取效率。
在民航突發(fā)事件知識(shí)圖譜構(gòu)建中,王紅等[19]采用文本多分類方式實(shí)現(xiàn)民航突發(fā)事件領(lǐng)域本體關(guān)系的分類,主要研究了關(guān)系分類問題。之后,王紅等[20]采用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bidirectional long-short term memory,Bi-LSTM)結(jié)合條件隨機(jī)場(chǎng)(condition random fields,CRF)的方法實(shí)現(xiàn)自動(dòng)化民航突發(fā)事件實(shí)體識(shí)別,主要研究實(shí)體抽取問題,沒有考慮實(shí)體關(guān)系的聯(lián)合抽取。這種先實(shí)體識(shí)別后關(guān)系分類的流水線模型存在實(shí)體識(shí)別的錯(cuò)誤會(huì)傳遞到關(guān)系分類任務(wù)中,且在關(guān)系分類任務(wù)中一個(gè)實(shí)體對(duì)只能對(duì)應(yīng)一種關(guān)系,無法解決民航突發(fā)事件數(shù)據(jù)集中重疊關(guān)系三元組問題和實(shí)體間多跳隱性關(guān)系三元組挖掘問題。故將提出的Multi-Air模型應(yīng)用于民航突發(fā)事件數(shù)據(jù)集,解決該數(shù)據(jù)集中重疊三元組抽取難的問題,為構(gòu)建領(lǐng)域知識(shí)圖譜提供更豐富的三元組知識(shí)。
門控循環(huán)單元(gated recurrent unit,GRU)由CHO et al[21]提出,是一種循環(huán)神經(jīng)網(wǎng)絡(luò),具有處理不定長(zhǎng)度序列的優(yōu)勢(shì),雙向門控循環(huán)單元(bidirectional gated recurrent unit,Bi-GRU)能夠獲取序列上下文信息。為此,本文在實(shí)體關(guān)系聯(lián)合抽取模型的基礎(chǔ)上,提出了基于Bi-GRU的頭實(shí)體特征增強(qiáng)的多跳注意力隱性關(guān)系聯(lián)合挖掘模型Multi-Air,具體的貢獻(xiàn)包括:
1) 基于Bi-GRU的頭實(shí)體信息增強(qiáng)的實(shí)體關(guān)系聯(lián)合抽取模塊BG_CasRel,旨在多關(guān)系尾實(shí)體識(shí)別時(shí)充分利用頭實(shí)體信息。
2) 將抽取出的尾實(shí)體作為下一跳的頭實(shí)體進(jìn)行下一跳尾實(shí)體預(yù)測(cè),利用注意力機(jī)制動(dòng)態(tài)進(jìn)行多跳實(shí)體及關(guān)系預(yù)測(cè),從而實(shí)現(xiàn)隱性關(guān)系三元組挖掘。
3) 將提出的模型Multi-Air應(yīng)用于民航突發(fā)事件數(shù)據(jù)集中,解決數(shù)據(jù)集中重疊三元組和多跳隱性三元組抽取難的問題。
實(shí)體關(guān)系聯(lián)合抽取任務(wù)被定義為:給定輸入句子,預(yù)測(cè)出句子中存在的關(guān)系三元組(頭實(shí)體,關(guān)系,尾實(shí)體)。Multi-Air模型主要包括兩部分:
1) BG-CasRel模塊。首先使用BERT(bidirectional encoder representations from transformers)[22]模型對(duì)輸入句子進(jìn)行特征編碼并通過Sigmoid函數(shù)預(yù)測(cè)出頭實(shí)體的位置,然后通過Bi-GRU對(duì)頭實(shí)體進(jìn)行特征增強(qiáng)。在充分利用頭實(shí)體的深層信息后輸出多關(guān)系尾實(shí)體可能的位置。
2) 多跳注意力模塊。將上一跳的尾實(shí)體當(dāng)作下一跳的頭實(shí)體進(jìn)行2跳的實(shí)體及關(guān)系預(yù)測(cè),通過循環(huán)迭代這一2跳過程,Multi-Air可以容易的將2跳擴(kuò)展至多跳。具體地,通過多跳注意力模塊學(xué)習(xí)各跳的實(shí)體重要性權(quán)重,然后選擇權(quán)重最大的多跳尾實(shí)體及相應(yīng)路徑關(guān)系表征作為關(guān)系三元組的最終抽取結(jié)果。如圖1所示。
圖1 多跳注意力隱式關(guān)系挖掘模型圖Fig.1 Multi-hop attention implicit relations joint mining model
BG-CasRel模塊是由文獻(xiàn)[18]中傳統(tǒng)CasRel模型改進(jìn)而來,其目標(biāo)是識(shí)別出輸入句子所包含的三元組,如圖2中輸入的句子,得到3個(gè)頭實(shí)體[梅帕蒂航空公司,DHC6飛機(jī),撞山]。[DHC6飛機(jī)]頭實(shí)體存在對(duì)應(yīng)“所屬航司”這個(gè)關(guān)系的尾實(shí)體[梅帕蒂航空公司]和關(guān)系“事件結(jié)果”的尾實(shí)體[撞山],而[梅帕蒂航空公司]和[撞山]這兩個(gè)頭實(shí)體則沒有對(duì)應(yīng)任一關(guān)系的尾實(shí)體,最后得到的結(jié)果是兩個(gè)三元組{DHC6飛機(jī),所屬航司,梅帕蒂航空公司}和{DHC6飛機(jī),事件結(jié)果,撞山}。模型總體結(jié)構(gòu)如圖2所示,主要包括四個(gè)部分:
圖2 BG-CasRel實(shí)體關(guān)系聯(lián)合抽取模塊Fig.2 BG-CasRel joint entity and relation extraction model
1) 編碼層。采用BERT,一種利用大量外部資源獲取淺層特征的預(yù)訓(xùn)練語言模型對(duì)輸入句子進(jìn)行編碼,提取句子特征信息。
2) 頭實(shí)體標(biāo)注層。根據(jù)上層編碼信息,輸出句子中所有頭實(shí)體的開始和結(jié)束位置。
3) 頭實(shí)體特征增強(qiáng)層。將經(jīng)過BERT編碼后的頭實(shí)體通過Bi-GRU層進(jìn)行深層特征提取,并將其與BERT編碼特征融合。
4) 尾實(shí)體迭代標(biāo)注層。利用上層交互信息,采用Sigmoid函數(shù)輸出頭實(shí)體對(duì)應(yīng)的多關(guān)系的尾實(shí)體開始和結(jié)束位置。
1.1.1編碼層
采用BERT模型將輸入的句子X進(jìn)行編碼,獲取句子的特征信息H,并將此輸入頭實(shí)體標(biāo)注層模塊。該編碼模塊獲取到的句子隱藏特征信息與頭實(shí)體識(shí)別、多關(guān)系尾實(shí)體識(shí)別息息相關(guān)。如式(1)所示:
hi=Bert(xi) .
(1)
式中:xi代表句子中第i個(gè)字符的輸入向量,hi為xi經(jīng)過BERT編碼后的特征向量。{x1,x2,…,xn}∈X,{h1,h2,…,hn}∈H.
1.1.2頭實(shí)體標(biāo)注層
將編碼層的輸出特征信息H作為頭實(shí)體標(biāo)注層的輸入,利用兩個(gè)相同的二進(jìn)制分類器去為句子中的每個(gè)單詞分配一個(gè)二進(jìn)制(0/1)標(biāo)志,該標(biāo)記代表當(dāng)前標(biāo)記是否對(duì)應(yīng)于頭實(shí)體的開始或結(jié)束位置。當(dāng)句子中存在多個(gè)頭實(shí)體時(shí)會(huì)有多個(gè)二進(jìn)制標(biāo)注,同時(shí)輸出多個(gè)頭實(shí)體對(duì)應(yīng)的開始和結(jié)束位置,采用的是最近首尾標(biāo)志匹配原則來獲得頭實(shí)體跨度范圍。頭實(shí)體分類器如計(jì)算公式(2)和(3)所示:
(2)
(3)
1.1.3頭實(shí)體特征增強(qiáng)層
在頭實(shí)體涉及重疊關(guān)系三元組的情況下,由于上層頭實(shí)體標(biāo)注模塊識(shí)別出的頭實(shí)體信息與下層不同關(guān)系尾實(shí)體的識(shí)別之間存在較強(qiáng)的關(guān)聯(lián),因此,充分利用頭實(shí)體信息去進(jìn)行不同關(guān)系的尾實(shí)體識(shí)別,可以挖掘出更多更準(zhǔn)確的關(guān)于此頭實(shí)體的重疊關(guān)系三元組。
GRU相對(duì)于其他的循環(huán)神經(jīng)網(wǎng)絡(luò)來說具有計(jì)算量較小、收斂速度較快的優(yōu)勢(shì),對(duì)處理實(shí)體類別多樣、可能存在復(fù)合實(shí)體或混合實(shí)體所導(dǎo)致的實(shí)體長(zhǎng)度不一的情況非常友好,因此GRU循環(huán)神經(jīng)網(wǎng)絡(luò)能夠?qū)Σ煌L(zhǎng)度的頭實(shí)體進(jìn)行深層信息提取。GRU單元結(jié)構(gòu)如圖3所示。
圖3 GRU內(nèi)部單元結(jié)構(gòu)Fig.3 Internal structure of GRU
GRU由更新門zt和重置門rt構(gòu)成,zt決定上一狀態(tài)信息的多少能夠參與到當(dāng)前狀態(tài),rt決定丟棄上一狀態(tài)信息的多少。計(jì)算公式見式(4)-式(7):
(4)
(5)
(6)
(7)
由于GRU只能捕獲正向語義信息,忽視了反向信息的獲取,為了彌補(bǔ)GRU的不足,進(jìn)而采用Bi-GRU對(duì)頭實(shí)體進(jìn)行特征增強(qiáng),Bi-GRU網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 Bi-GRU模型框架Fig.4 Framework of Bi-GRU model
(8)
1.1.4尾實(shí)體迭代標(biāo)注層
尾實(shí)體迭代標(biāo)注層和頭實(shí)體標(biāo)注層采用相同結(jié)構(gòu)的二進(jìn)制分類器,但由于頭實(shí)體可能存在多個(gè)對(duì)應(yīng)關(guān)系的尾實(shí)體,所以對(duì)任一關(guān)系都有相應(yīng)的尾實(shí)體分類器去分別識(shí)別這一關(guān)系中頭實(shí)體對(duì)應(yīng)的尾實(shí)體的開始和結(jié)束位置。故將上層提取頭實(shí)體的上下文語義信息與BERT特征層信息進(jìn)行加和,使解碼時(shí)更加關(guān)注到頭實(shí)體特征信息,從而更好地指引不同關(guān)系尾實(shí)體的識(shí)別。若句中含有多個(gè)頭實(shí)體,則將每個(gè)頭實(shí)體迭代進(jìn)行多關(guān)系尾實(shí)體的解碼。計(jì)算公式見式(9)和式(10):
(9)
(10)
注意力機(jī)制(attention)最早應(yīng)用于圖像領(lǐng)域,注意力權(quán)重大小可以理解為所關(guān)注點(diǎn)對(duì)任務(wù)的重要程度,在自然語言處理領(lǐng)域中使用注意力對(duì)單詞或是字符計(jì)算權(quán)重大小也代表著其對(duì)任務(wù)的影響程度。通過BG_CasRel模塊得到上一跳的尾實(shí)體后,將其作為下一跳的頭實(shí)體迭代進(jìn)行多跳實(shí)體預(yù)測(cè),Multi-Air模型采用注意力機(jī)制對(duì)多跳尾實(shí)體的重要性進(jìn)行學(xué)習(xí)。具體地,首先計(jì)算每一跳尾實(shí)體與最終尾實(shí)體之間的相似度分?jǐn)?shù),然后通過Softmax函數(shù)計(jì)算各個(gè)多跳尾實(shí)體的相似度權(quán)重,具體計(jì)算如式(11)-式(12)所示:
(11)
(12)
模型選擇最大的注意力權(quán)重對(duì)應(yīng)的尾實(shí)體作為最終預(yù)測(cè)的多跳尾實(shí)體,選擇頭實(shí)體到該多跳尾實(shí)體之間的關(guān)系路徑表征作為最終預(yù)測(cè)的多跳關(guān)系。
將頭實(shí)體標(biāo)注層的損失與多跳尾實(shí)體的損失相加作為總體模型的損失,具體采用交叉熵?fù)p失函數(shù),如式(13)所示。
(13)
1.4.1實(shí)驗(yàn)數(shù)據(jù)與參數(shù)設(shè)置
為驗(yàn)證模型的有效性,采用遠(yuǎn)程監(jiān)督學(xué)習(xí)生成的公共數(shù)據(jù)集NYT(New York times)[23]進(jìn)行實(shí)驗(yàn)。NYT數(shù)據(jù)集一共包含24種不同預(yù)定義關(guān)系類型,采用56 195條句子進(jìn)行訓(xùn)練,5 000條句子進(jìn)行驗(yàn)證和5 000條句子用于測(cè)試。數(shù)據(jù)集中包含不同重疊程度三元組劃分的句子,具體統(tǒng)計(jì)情況見表1所示。
表1 NYT不同類型重疊三元組統(tǒng)計(jì)情況Table 1 Statistics of different types of overlapping triple in NYT
模型運(yùn)行在Ubuntu16.04版本的操作系統(tǒng)上,基于python3.7版編碼語言,訓(xùn)練過程中采用早停機(jī)制防止模型過擬合,并用Adam優(yōu)化器加快模型收斂速度。設(shè)置Batch size大小為6,學(xué)習(xí)率為1×10-5,輸入句子最大序列長(zhǎng)度為300,隱藏層向量維度為768,設(shè)置最大的Epoch為100,丟失率為0.5,迭代跳數(shù)hop取2,此時(shí)實(shí)驗(yàn)結(jié)果得到最優(yōu)。
1.4.2評(píng)價(jià)指標(biāo)與實(shí)驗(yàn)結(jié)果
采用準(zhǔn)確率(P)、召回率(R)、F1值作為實(shí)驗(yàn)結(jié)果的評(píng)價(jià)指標(biāo),如式(14)-式(16)所示:
(14)
(15)
(16)
式中:PT代表預(yù)測(cè)正確的三元組數(shù)量,PF為預(yù)測(cè)錯(cuò)的三元組數(shù)量,NF代表實(shí)際存在但沒能預(yù)測(cè)出的三元組數(shù)。P代表預(yù)測(cè)正確的三元組在預(yù)測(cè)總的三元組的占比,R代表預(yù)測(cè)正確的三元組在實(shí)際存在三元組的占比,F(xiàn)1是衡量?jī)烧叩木C合效果?;趯?shí)體粒度劃分不一的原因,故采用部分匹配的方式定義預(yù)測(cè)正確三元組,預(yù)測(cè)出三元組中正確的關(guān)系和頭尾實(shí)體的開始位置即視為預(yù)測(cè)正確三元組。
在對(duì)比模型的選取上,采用近幾年在重疊關(guān)系三元組抽取中4個(gè)較具有代表性的模型,分別是NovelTagging[13]、GraphRel[16]、CopyR-RL[17]、CasRel[18],實(shí)驗(yàn)結(jié)果對(duì)比如表2所示。
表2 NYT數(shù)據(jù)集各模型實(shí)驗(yàn)結(jié)果Table 2 Experimental results of different models in NYT dataset %
從實(shí)驗(yàn)結(jié)果可以看到Multi-Air模型相較于其他模型在3個(gè)指標(biāo)上都有不同程度的提升,說明引入頭實(shí)體的深層特征信息和采用多跳注意力挖掘隱性關(guān)系能夠提高對(duì)三元組的抽取效率。基于準(zhǔn)確率與召回率提升的幅度不一致的情況,為了進(jìn)一步驗(yàn)證頭實(shí)體特征增強(qiáng)模塊與多跳注意力模塊對(duì)模型總體性能的影響,進(jìn)行了模塊對(duì)比實(shí)驗(yàn),如表3所示。
表3 Multi-air在NYT數(shù)據(jù)集的消融實(shí)驗(yàn)Table 3 Multi-air ablation experiment in NYT
通過分析表3可以發(fā)現(xiàn)采用頭實(shí)體特征增強(qiáng)模塊能夠進(jìn)一步提升三元組抽取的準(zhǔn)確率,而采用多跳注意力模塊能夠?qū)δP偷恼倩芈视袔椭?,能夠挖掘出更多潛在的三元組。綜上,將兩者結(jié)合能夠使模型的抽取三元組效果達(dá)到最優(yōu)。
數(shù)據(jù)來源于中國(guó)民用航空安全信息系統(tǒng)[24]在國(guó)際事故調(diào)查跟蹤一欄中發(fā)布的事故調(diào)查報(bào)告文本,將1 000多個(gè)事件文本進(jìn)行清洗并整合到一起,根據(jù)數(shù)據(jù)特點(diǎn)構(gòu)建小型數(shù)據(jù)詞典后對(duì)數(shù)據(jù)進(jìn)行句子級(jí)別劃分并分詞。自行標(biāo)注2 036條數(shù)據(jù),涉及23種不同類型關(guān)系,其中1 628條用于訓(xùn)練,408條用于測(cè)試。通過對(duì)數(shù)據(jù)的標(biāo)注,發(fā)現(xiàn)數(shù)據(jù)中含有不同類型的重疊關(guān)系三元組,表4給出了民航突發(fā)事件重疊關(guān)系三元組示例(加粗字體為涉及多關(guān)系單實(shí)體或?qū)嶓w對(duì))和2跳關(guān)系三元組示例(若是n跳則n個(gè)三元組迭代進(jìn)行)。
表4 民航突發(fā)事件中三元組類型Table 4 Types of triples in civil aviation emergency
進(jìn)一步對(duì)所含不同重疊類型三元組的標(biāo)注句子進(jìn)行統(tǒng)計(jì),由于多跳類型三元組包含在重疊類別中,故不單獨(dú)統(tǒng)計(jì)(見表5),發(fā)現(xiàn)該數(shù)據(jù)集僅涉及少量的正常三元組和實(shí)體對(duì)重疊關(guān)系三元組,反而存在大量的單實(shí)體重疊關(guān)系三元組。該數(shù)據(jù)集重疊關(guān)系三元組的分布特點(diǎn)是由于事故報(bào)告的描述是針對(duì)航空器來展開的,相對(duì)于正常三元組占比較大的數(shù)據(jù)集更加適合用來驗(yàn)證提出的聯(lián)合抽取模型對(duì)重疊三元組的抽取效果,而具有多跳關(guān)系的三元組通常包含在重疊三元組中,故模型對(duì)重疊三元組抽取效果也適用于驗(yàn)證多跳關(guān)系三元組的挖掘效果。
表5 民航突發(fā)事件數(shù)據(jù)重疊三元組統(tǒng)計(jì)Table 5 Statistics on overlapping triples of civil aviation emergency data
選取目前實(shí)體關(guān)系聯(lián)合抽取主流模型CasRel與提出的Multi-Air模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表6所示。實(shí)驗(yàn)還對(duì)比了頭實(shí)體增強(qiáng)模塊與多跳注意力模塊對(duì)民航突發(fā)事件數(shù)據(jù)集抽取效果,進(jìn)而說明提出的Multi-Air模型的有效性。從表6可知Multi-Air模型較CasRel模型在民航突發(fā)事件數(shù)據(jù)集的不同評(píng)價(jià)指標(biāo)上均有顯著提升,其中召回率和F1值分別提升了7.6%和5.2%.該模型與基線模型分別在兩種數(shù)據(jù)集上效果提升差別較大,主要原因是兩種數(shù)據(jù)集中重疊關(guān)系三元組的數(shù)量占比不同,NYT數(shù)據(jù)集大部分是正常三元組而民航突發(fā)事件數(shù)據(jù)集中多半是單實(shí)體重疊關(guān)系三元組。故在民航突發(fā)事件數(shù)據(jù)集的表現(xiàn)也證明了采用Bi-GRU對(duì)先識(shí)別的頭實(shí)體進(jìn)一步的特征提取能更加有效地指導(dǎo)重疊關(guān)系三元組中不同關(guān)系尾實(shí)體的識(shí)別,采用多跳注意力迭代方式能夠挖掘出更多的潛在關(guān)系三元組。
表6 民航突發(fā)事件數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Table 6 Experimental results of civil aviation emergency data set %
為了進(jìn)一步說明兩種模型在民航突發(fā)事件數(shù)據(jù)集上表現(xiàn)的不同,選取部分抽取結(jié)果進(jìn)行分析,抽取示例如表7所示。表7中兩種模型在抽取唯一結(jié)果的三元組時(shí)表現(xiàn)都很好,例如“所屬航司”對(duì)應(yīng)的尾實(shí)體是明確的。但對(duì)于一些在不同場(chǎng)景下對(duì)應(yīng)不同關(guān)系的三元組表現(xiàn)略有差異,如“事件原因”、“事件結(jié)果”這類型關(guān)系對(duì)應(yīng)的尾實(shí)體往往因場(chǎng)景而定。正如示例1給出的[發(fā)動(dòng)機(jī)停車]是事件的結(jié)束,后續(xù)沒有進(jìn)一步事故的發(fā)生,故“事件結(jié)果”關(guān)系確實(shí)應(yīng)為[發(fā)動(dòng)機(jī)停車],該情況兩種模型表現(xiàn)都很好。但對(duì)于示例2中的[雙發(fā)失效]并不是事件的最終結(jié)果,飛機(jī)[墜毀]才是整個(gè)事件的結(jié)果。在此情況下CasRel模型表現(xiàn)欠佳,識(shí)別出錯(cuò)誤的三元組(表7中加粗三元組標(biāo)識(shí)),導(dǎo)致漏識(shí)別{圖154,事件原因,雙發(fā)失效}、{圖154,事件結(jié)果,墜毀}這兩個(gè)三元組,而Multi-Air模型由于加強(qiáng)了對(duì)頭實(shí)體特征的提取,并且使用多跳尾實(shí)體的識(shí)別方式,對(duì)潛在的事件“原因”導(dǎo)致事件“結(jié)果”進(jìn)行挖掘,抽取出所對(duì)應(yīng)的正確三元組,整體抽取效果更佳。
表7 不同模型在民航突發(fā)事件中的抽取結(jié)果Table 7 Extraction results of different models in civil aviation emergency
本文提出了一種多跳注意力隱性關(guān)系挖掘模型Multi-Air,通過在公共數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,對(duì)頭實(shí)體深層信息的充分利用和基于多跳注意力的簡(jiǎn)單關(guān)系推理方式能夠進(jìn)一步提升重疊三元組的抽取效率。將Multi-Air應(yīng)用于民航突發(fā)事件數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果證明該模型較好地解決了民航突發(fā)事件數(shù)據(jù)集中重疊關(guān)系三元組抽取難和忽略實(shí)體間隱式關(guān)系特別是多跳關(guān)系的挖掘問題,為構(gòu)建高質(zhì)量民航突發(fā)事件知識(shí)圖譜提供方法支撐,進(jìn)而對(duì)未來民航突發(fā)事件推斷和預(yù)警預(yù)測(cè)提供幫助。但該模型在復(fù)合實(shí)體識(shí)別方面還存在粒度劃分不夠細(xì)的問題,未來的工作將進(jìn)一步深入研究。