国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

有監(jiān)督實體關(guān)系聯(lián)合抽取方法研究綜述

2022-04-13 02:40張少偉陳子睿徐大為賈勇哲
計算機與生活 2022年4期
關(guān)鍵詞:實體模型信息

張少偉,王 鑫,2+,陳子睿,王 林,徐大為,賈勇哲,

1.天津大學(xué) 智能與計算學(xué)部,天津300350

2.天津市認知計算與應(yīng)用重點實驗室,天津300350

3.天津泰凡科技有限公司,天津300457

隨著大數(shù)據(jù)時代的到來,人們?nèi)粘I钪袝a(chǎn)生海量的數(shù)據(jù),比如新聞報道、博客、論壇、研究文獻以及社交媒體評論等,數(shù)據(jù)的領(lǐng)域交叉現(xiàn)象突出,有價值的信息往往隱藏在大量數(shù)據(jù)中。信息抽取(information extraction,IE)的目的在于快速高效地從大量數(shù)據(jù)中抽取有價值的信息。實體關(guān)系聯(lián)合抽取作為信息抽取的核心任務(wù),近年來受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,實體關(guān)系聯(lián)合抽取通過對文本信息建模,來自動識別實體、實體類型以及實體之間特定的關(guān)系類型,為知識圖譜構(gòu)建、智能問答和語義搜索等下游任務(wù)提供基礎(chǔ)支持。

傳統(tǒng)的流水線方法將實體關(guān)系聯(lián)合抽取分解成命名實體識別和關(guān)系抽取兩個獨立的子任務(wù),流水線方法先執(zhí)行命名實體識別任務(wù),再根據(jù)命名實體識別的結(jié)果完成關(guān)系抽取任務(wù),兩個子任務(wù)使用的模型相互獨立,可分別在不同的訓(xùn)練集上訓(xùn)練。傳統(tǒng)的流水線方法通常會引發(fā)以下三個問題:(1)誤差傳播。命名實體識別子任務(wù)產(chǎn)生的誤差,在關(guān)系抽取子任務(wù)中無法得到糾正,影響關(guān)系抽取的結(jié)果質(zhì)量。(2)子任務(wù)間缺少交互。流水線方法忽略了命名實體識別和關(guān)系抽取兩個子任務(wù)間的關(guān)系,兩個子任務(wù)之間缺少交互,使得子任務(wù)的信息沒有被充分利用。比如實體類型和關(guān)系類型之間應(yīng)存在某種隱含關(guān)系,在識別實體類型的過程中,關(guān)系類型會起到一定作用,對于識別關(guān)系類型的過程同樣如此。(3)產(chǎn)生冗余信息。命名實體識別子任務(wù)獲得的實體,實體之間并非都存在某種關(guān)系,不存在關(guān)系的實體作為冗余信息傳遞到關(guān)系抽取子任務(wù)中,提高了錯誤率。因此,實體關(guān)系聯(lián)合抽取逐漸受到重視。

本文主要研究有監(jiān)督實體關(guān)系聯(lián)合抽取,文中也稱為聯(lián)合抽取。聯(lián)合抽取通過建立統(tǒng)一的模型,使不同的子任務(wù)彼此交互,充分利用子任務(wù)中的信息,進一步提升模型的性能。然而,在實際應(yīng)用中,聯(lián)合抽取模型會面臨以下幾個挑戰(zhàn):

(1)實體嵌套:現(xiàn)實生活中,存在一個實體嵌套另一個實體的情況,同一個詞可能屬于不同的實體,比如“天津大學(xué)”是一所大學(xué),同時“天津”也是一個地點。聯(lián)合抽取模型需要融入更豐富的上下文語義信息才能識別當(dāng)前實體類型,大量實體嵌套的情況增加了聯(lián)合抽取的難度。

(2)關(guān)系重疊:同一句子中可以存在不同的關(guān)系類型,相同的實體之間可以存在多種關(guān)系類型,不同關(guān)系之間也可能包含一些隱藏信息。比如“北京是中國的首都”,“中國”和“北京”之間存在“包含”和“首都”兩種關(guān)系類型。聯(lián)合抽取模型需要設(shè)計不同的抽取策略或復(fù)雜的標注方案才能解決此類問題。

(3)數(shù)據(jù)噪音:日常生活產(chǎn)生的海量數(shù)據(jù)通常存在大量數(shù)據(jù)噪音,尤其是網(wǎng)頁、社交平臺和媒體評論等環(huán)境產(chǎn)生的數(shù)據(jù),存在許多特殊符號和不標準表達等類型的噪音。包含數(shù)據(jù)噪音的數(shù)據(jù)難以被充分利用,也增大了聯(lián)合抽取獲取有效數(shù)據(jù)的難度。

(4)模型的平衡性:聯(lián)合抽取的難點是增強子任務(wù)間的交互性。簡單的交互難以充分利用子任務(wù)的重要信息,降低抽取結(jié)果的準確性;復(fù)雜的交互會對子任務(wù)進行限制,使得子任務(wù)抽取的特征不具備豐富性。聯(lián)合抽取需要在子任務(wù)特征的豐富性和子任務(wù)的交互性間做權(quán)衡,以達到最佳抽取效果。

聯(lián)合抽取的相關(guān)工作如下:文獻[14]是基于深度學(xué)習(xí)的命名實體識別和關(guān)系抽取的介紹,但對基于深度學(xué)習(xí)的聯(lián)合抽取方法介紹較少;文獻[15]對命名實體識別和關(guān)系抽取做了系統(tǒng)全面的介紹,但未側(cè)重于聯(lián)合抽取的方法;文獻[16-17]著重于研究關(guān)系抽取的各種方法,對聯(lián)合抽取的方法描述較少;文獻[18]綜述了基于深度學(xué)習(xí)的關(guān)系抽取方法,并未介紹聯(lián)合抽取方法;文獻[19]側(cè)重于基于機器學(xué)習(xí)的各種關(guān)系抽取方法,對聯(lián)合抽取方法的介紹較為簡單;文獻[20]與本文的工作接近,但在描述基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合抽取方法時沒有進行細致的分類。本文則針對有監(jiān)督實體關(guān)系聯(lián)合抽取方法做出了較為詳細的分類和介紹。整體框架如圖1 所示。

圖1 聯(lián)合抽取方法分類Fig.1 Classification of joint extraction methods

本文目的在于對有監(jiān)督實體關(guān)系聯(lián)合抽取的最新研究進展提供全面深入的研究綜述。具體而言,本文的貢獻在于:

(1)根據(jù)特征的不同提取方式,對聯(lián)合抽取進行了細致的分類,并詳細闡述了不同類型下聯(lián)合抽取方法的特點。

(2)介紹了聯(lián)合抽取常用的數(shù)據(jù)集及評價指標,在不同數(shù)據(jù)集上比較了各個方法間的性能差異并進行分析。

(3)基于最新的研究進展,總結(jié)聯(lián)合抽取面臨的多種挑戰(zhàn)性問題,指出未來的主要研究方向。

1 預(yù)備知識

本章給出實體關(guān)系聯(lián)合抽取需要的預(yù)備知識。

當(dāng)前主流的聯(lián)合抽取方法主要基于各類神經(jīng)網(wǎng)絡(luò)模型,以下介紹聯(lián)合抽取常用的神經(jīng)網(wǎng)絡(luò)模型。

循環(huán)神經(jīng)網(wǎng)絡(luò):循環(huán)神經(jīng)網(wǎng)絡(luò)擅長處理帶有時序信息的序列,其在每個時刻都更新自己的“記憶”,難以解決長期依賴與梯度消失的問題。長短時記憶網(wǎng)絡(luò)(long short-term memory,LSTM)于1997 年被提出,是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種變體。LSTM 用特定的學(xué)習(xí)機制來聚焦并更新信息,能夠解決長期依賴和梯度消失問題。門控循環(huán)單元(gated recurrent unit,GRU)對LSTM進行改進,使用更少的門提升了計算效率。

圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN):研究者們將諸如卷積神經(jīng)網(wǎng)絡(luò)等傳統(tǒng)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)擴展到圖數(shù)據(jù)中,使用卷積層提取圖中節(jié)點的特征信息,將當(dāng)前節(jié)點的特征傳遞至相鄰節(jié)點,通過疊加GCN 層學(xué)習(xí)到圖中的節(jié)點表示。GCN 的輸入是一個圖,圖通常由×的節(jié)點嵌入矩陣和×的圖結(jié)構(gòu)表征矩陣(如鄰接矩陣)來表示,最終輸出×的矩陣,表示每個節(jié)點的特征信息。

預(yù)訓(xùn)練模型:預(yù)訓(xùn)練模型是已經(jīng)在大量數(shù)據(jù)集上訓(xùn)練并保存的網(wǎng)絡(luò)模型。對于具體的任務(wù),可以在預(yù)訓(xùn)練模型上微調(diào),實驗也證明預(yù)訓(xùn)練方法是有效的。在自然語言處理(natural language processing,NLP)領(lǐng)域,預(yù)訓(xùn)練模型BERT(bidirectional encoder representations from transformers)展現(xiàn)了優(yōu)秀的性能。BERT 是一種基于Transformer的多層雙向語言表征模型,由個相同的Transformer塊疊加而成,通過點積注意力的方法更深層次地學(xué)習(xí)到單詞的特征信息。

表1 給出了聯(lián)合抽取常用符號描述。

表1 常用符號描述Table 1 List of notations

2 基于特征工程的聯(lián)合抽取

特征工程是將原始數(shù)據(jù)轉(zhuǎn)化為表達問題本質(zhì)特征的方法,將特征工程獲得的特征運用到模型中可以提高模型性能。基于特征工程的聯(lián)合抽取,需要根據(jù)數(shù)據(jù)特點設(shè)計特征,當(dāng)滿足特征函數(shù)的條件時,該特征函數(shù)會被觸發(fā)?;谔卣鞴こ痰穆?lián)合抽取主要有以下四種方法:整數(shù)線性規(guī)劃、卡片金字塔解析、概率圖模型和結(jié)構(gòu)化預(yù)測。

2.1 整數(shù)線性規(guī)劃

線性規(guī)劃(linear programming,LP)是運籌學(xué)中應(yīng)用廣泛且較為成熟的一個重要分支,目的是在有限資源和若干約束下,求解得到某個目標函數(shù)最大值或最小值的最優(yōu)策略,其中約束條件和目標函數(shù)均為線性函數(shù)。線性規(guī)劃的形式化表達如下:

式(1)表示需要優(yōu)化的函數(shù),式(2)表示若干線性約束。Roth 等首次使用整數(shù)線性規(guī)劃的方法實現(xiàn)聯(lián)合抽取。其使用隨機離散變量表示局部實體識別和關(guān)系抽取的結(jié)果,目的是在先驗信息、關(guān)系和實體類型等多個約束條件下求得全局最優(yōu)分配策略。該模型的目標函數(shù)由兩部分構(gòu)成:(1)標注分配損失,表示局部分類器預(yù)測的標注與實際值偏離的情況。(2)約束損失,表示破壞給定約束條件需要付出的代價。文獻[30]通過添加變量的整數(shù)約束將線性規(guī)劃轉(zhuǎn)換成整數(shù)線性規(guī)劃,用線性松弛法、分支定界法和割平面法等求解最優(yōu)分配策略。

Yang 等將整數(shù)線性規(guī)劃的方法應(yīng)用到細粒度的觀點抽取,抽取觀點、觀點相關(guān)實體和觀點與實體間的關(guān)系。文獻[31]的實驗數(shù)據(jù)中只存在“IS-FROM”和“IS-ABOUT”兩種關(guān)系類型,觀點和觀點相關(guān)實體的識別被當(dāng)作序列標注任務(wù),用條件隨機場(conditional random field,CRF)學(xué)習(xí)序列標注的概率;觀點與實體間的關(guān)系抽取被當(dāng)作分類任務(wù),定義勢函數(shù)表示候選觀點相關(guān)實體與其參數(shù)的關(guān)系信息。另外,文獻[31]根據(jù)數(shù)據(jù)信息定義了大量的特征,包括詞性特征、短語類型特征和依賴路徑特征等。對于觀點標注的唯一性、不重疊性和實體關(guān)系一致性等都采用線性公式進行約束。

整數(shù)線性規(guī)劃是一個獲得全局最優(yōu)解的有效方法。整數(shù)線性規(guī)劃的方法應(yīng)用到聯(lián)合抽取中,大量的線性公式可以表示各種類型的約束條件,使得聯(lián)合抽取的設(shè)計更具備通用性和靈活性。

2.2 卡片金字塔解析

整數(shù)線性規(guī)劃方法根據(jù)多個獨立局部分類器的結(jié)果計算全局最優(yōu)解以實現(xiàn)聯(lián)合抽取,但局部分類器之間沒有交互。卡片金字塔解析方法則用圖結(jié)構(gòu)編碼句子中實體信息和關(guān)系類型信息,局部分類器彼此交互,提升了聯(lián)合抽取的性能。

Kate 等將聯(lián)合抽取轉(zhuǎn)換成圖節(jié)點標注的問題,圖的結(jié)構(gòu)類似金字塔,因此稱為卡片金字塔模型,如圖2 所示。這種類似樹的圖結(jié)構(gòu)在最高層有一個根節(jié)點,中間層是內(nèi)部節(jié)點,底層是葉子節(jié)點,句子中的實體對應(yīng)葉子節(jié)點,葉子節(jié)點標注為實體類型。圖的層數(shù)和葉子節(jié)點數(shù)相等,從圖的底層到頂層,每次減少一個節(jié)點。除去最底層節(jié)點,每一層的節(jié)點表示與節(jié)點相關(guān)的最左和最右兩個葉子節(jié)點之間可能存在的關(guān)系。文獻[33]的兩個局部分類器為實體識別分類器和關(guān)系抽取分類器,都采用支持向量機(support vector machines,SVM)進行訓(xùn)練,根據(jù)局部分類器的結(jié)果構(gòu)造卡片金字塔圖。文獻[33]采用動態(tài)規(guī)劃和集束搜索的方法設(shè)計解析算法,該方法主要由實體生成和關(guān)系生成兩部分組成,根據(jù)卡片金字塔的結(jié)構(gòu)特點,分別產(chǎn)生葉子節(jié)點的實體信息和非葉子節(jié)點的關(guān)系信息。最終圖的節(jié)點都被標注,實現(xiàn)了聯(lián)合抽取。

圖2 卡片金字塔模型Fig.2 Card pyramid model

2.3 概率圖模型

概率圖模型使用圖結(jié)構(gòu)表示概率分布。由無向圖=(,)表示聯(lián)合概率分布(),即在圖中,節(jié)點∈表示一個隨機變量Y,邊∈表示隨機變量之間的依賴關(guān)系。

Yu 等設(shè)計了任意圖結(jié)構(gòu)的聯(lián)合判別概率模型來同時優(yōu)化聯(lián)合抽取所有相關(guān)子任務(wù),在一個實體信息已知的條件下預(yù)測該實體與另一個實體間的關(guān)系。其將實體信息和關(guān)系類型信息聯(lián)合建模,整個模型由三部分構(gòu)成:半馬爾可夫鏈層、勢函數(shù)層和全連通圖層。該模型通過改進傳統(tǒng)的CRF 獲得無向圖的最大條件概率,并設(shè)計新的推理方法獲得實體關(guān)系的最大后驗概率,完成聯(lián)合抽取。

Singh 等則對命名實體識別、關(guān)系抽取和共指三個子任務(wù)統(tǒng)一建模,根據(jù)三個子任務(wù)的聯(lián)合概率表示三個子任務(wù)間的依賴關(guān)系。具體而言,將三個子任務(wù)的變量和因子組合構(gòu)成圖模型,因子通常被定義為特征函數(shù)和模型參數(shù)的對數(shù)線性組合,圖中隨機變量的概率分布可由因子表示,如圖3 所示。圖中表示給定的實體變量,下標表示不同的實體,、、分別表示標注變量、共指變量和關(guān)系變量,下標作為參數(shù)對應(yīng)不同實體信息,Ψ、Ψ、Ψ分別表示標注因子、共指因子和關(guān)系因子,括號中的數(shù)字代表不同的實體信息。由于模型中包含大量變量,該方法采用擴展的置信度傳播算法進行推理,最終獲得實體類型和實體間的關(guān)系。

圖3 文獻[37]的概率圖模型Fig.3 Probability graph model of Ref.[37]

用概率圖模型實現(xiàn)聯(lián)合抽取的優(yōu)點是可以將大量隨機變量表示為一系列概率分布,這些概率分布根據(jù)基礎(chǔ)圖進行因式分解,能夠捕獲變量間的依賴信息。

2.4 結(jié)構(gòu)化預(yù)測

傳統(tǒng)的機器學(xué)習(xí)方法,主要面向回歸問題和分類問題,輸出分別是一個標量和一個類別。對于結(jié)構(gòu)化預(yù)測,任務(wù)的輸出是一個序列、圖或樹等結(jié)構(gòu)類型,結(jié)構(gòu)中包含語義信息和邏輯信息。

Li等采用結(jié)構(gòu)化預(yù)測的方法,將句子中的實體類型信息和關(guān)系類型信息存儲在圖中,圖的節(jié)點表示實體信息,弧表示實體間的關(guān)系信息。文獻[38]通過集束搜索進行結(jié)構(gòu)化預(yù)測,即對于第個單詞,維持個最好的局部結(jié)構(gòu)。其目的是在給定特征和約束條件下預(yù)測句子的隱藏結(jié)構(gòu),形式化表達如下:

其中,表示輸入句子,′表示候選結(jié)構(gòu),(,′)表示整個句子的特征向量。文獻[38]采用特征向量和特征權(quán)重的內(nèi)積來表示候選結(jié)構(gòu)的分數(shù),并使用基于半馬爾可夫鏈的分段解碼器。由于輸出結(jié)構(gòu)中包含實體和關(guān)系的信息,該方法通過設(shè)計全局特征以約束圖結(jié)構(gòu),最終選擇分數(shù)最高的結(jié)構(gòu)^ 作為輸出。

Miwa 等則用簡單的表結(jié)構(gòu)來表示實體類型和關(guān)系類型。表的對角線表示實體類型,表格的下三角元素表示實體間的關(guān)系類型。文獻[39]采用BILOU(begin、inside、last、outside、unit)標注方法,每個實體標注代表實體的類型和每個單詞在實體中的位置,如單詞Steven 和Jobs 的標注分別為B-PER 和L-PER,分別表示“人”類型實體的起始單詞和末尾單詞。如圖4 所示,由于輸入句子構(gòu)成的表格具有對稱性,該方法只使用了表格的下三角部分,根據(jù)不同的順序(如順序和逆序讀取句子)將表格轉(zhuǎn)換成序列;用特征函數(shù)與特征權(quán)重的內(nèi)積表示候選結(jié)構(gòu)的分數(shù),選取分數(shù)最高的結(jié)構(gòu)作為模型的輸出來實現(xiàn)聯(lián)合抽取。

圖4 文獻[39]的表格標注方法Fig.4 Table annotation method of Ref.[39]

表2 是對基于特征工程的聯(lián)合抽取方法的小結(jié),整數(shù)線性規(guī)劃方法可以靈活地表達各種約束條件,但子任務(wù)間的交互性較低;卡片金字塔模型、概率圖模型和結(jié)構(gòu)化預(yù)測皆采用圖或表結(jié)構(gòu)來增強子任務(wù)間的交互性,但所采用的解析方法不同,計算復(fù)雜度增高??ㄆ鹱炙P驮O(shè)計了相應(yīng)的卡片金字塔解析算法,概率圖模型對一系列概率分布進行解析,結(jié)構(gòu)化預(yù)測則評估不同候選結(jié)構(gòu)的分數(shù)來選取最優(yōu)結(jié)構(gòu)。

表2 基于特征工程的聯(lián)合抽取方法總結(jié)Table 2 Summary of joint extraction methods based on feature engineering

3 基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合抽取

基于特征工程的聯(lián)合抽取在獲取特征的過程中嚴重依賴NLP 工具,需要大量人力和專業(yè)領(lǐng)域知識,且存在誤差傳播的問題,最終影響聯(lián)合抽取的結(jié)果。由于神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力,神經(jīng)網(wǎng)絡(luò)的方法被逐漸應(yīng)用到聯(lián)合抽取中。

如圖5 所示,基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合抽取模型通常由三部分構(gòu)成:(1)詞嵌入層。詞嵌入層將輸入句子中的單詞w嵌入到一個向量空間,向量中融入單詞信息、字符信息和其他特征信息。(2)序列編碼層。序列編碼層疊加在詞嵌入層上,將詞嵌入層獲得的向量進一步編碼,使得單詞w對應(yīng)的向量融入上下文信息。(3)解碼器層?;诼?lián)合解碼的聯(lián)合抽取模型在序列編碼層上疊加統(tǒng)一的解碼器,直接解碼序列編碼層得到聯(lián)合抽取的結(jié)果;基于共享參數(shù)的聯(lián)合抽取模型在序列編碼層上疊加不同的解碼器,根據(jù)不同的子任務(wù)解碼序列信息,解碼器間通過共享序列編碼層進行信息交互。

圖5 基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合抽取Fig.5 Joint extraction based on neural network

3.1 基于共享參數(shù)的聯(lián)合抽取模型

實體對映射到關(guān)系將聯(lián)合抽取分解成兩個子任務(wù):命名實體識別和關(guān)系抽取。目前,兩個子任務(wù)都有較為成熟的處理方法。

SPTree首次采用神經(jīng)網(wǎng)絡(luò)的方法實現(xiàn)聯(lián)合抽取。如圖6 所示,SPTree 由三個表示層組成:詞嵌入層、序列層和依賴層。最底層的詞嵌入層將單詞和單詞詞性轉(zhuǎn)換成嵌入向量。序列層則由雙向LSTM和兩層前饋神經(jīng)網(wǎng)絡(luò)構(gòu)成,序列層的輸出為單詞的BILOU 標注,通過標注信息實現(xiàn)命名實體識別子任務(wù)。SPTree 采用序列標注方案時融入了實體間的依賴信息,通過利用上一個單詞的標注信息預(yù)測下一個單詞的BILOU 標注。

圖6 基于依賴樹的聯(lián)合抽取模型Fig.6 Joint extraction model based on dependency tree

將命名實體識別子任務(wù)識別的實體進行關(guān)系抽取,由模型的依賴層實現(xiàn)。SPTree的依賴層采用雙向樹結(jié)構(gòu)的LSTM(由上到下和由下到上),使得每個節(jié)點融入該節(jié)點到根節(jié)點和葉子節(jié)點的信息。樹結(jié)構(gòu)LSTM的設(shè)計方法有利于關(guān)系抽取,在依賴樹中找到兩個目標實體的最小公共節(jié)點,即兩實體間的最短路徑,該方法在Xu等關(guān)系分類的實驗中被證明是有效的。

SPTree 的聯(lián)合抽取過程中,由于依賴層疊加在序列層上,命名實體識別和關(guān)系分類兩個子任務(wù)可以共享序列層和詞嵌入層的信息,兩個子任務(wù)同時進行訓(xùn)練并在整個模型解碼完成后,通過反向傳播算法更新共享參數(shù)來實現(xiàn)信息交互。

在后續(xù)的研究中,各類模型主要從兩方面提升聯(lián)合抽取的性能:(1)提升命名實體識別和關(guān)系抽取的準確性;(2)增加兩個子任務(wù)間的交互性。

另外,現(xiàn)實世界中的實體通?;诳缍冗M行標記,對跨度建模能夠直接抽取實體的特征信息,在設(shè)計上容易解決實體嵌套的問題。

Dixit 等在雙向LSTM 上使用注意力機制獲取所有可能的跨度;Luan 等在假設(shè)空間上進行集束搜索,評估跨度的類型信息和跨度間的關(guān)系信息;在后續(xù)的改進版本中,DyGIE通過構(gòu)造動態(tài)跨度圖來進一步豐富跨度信息;文獻[52-54]則通過預(yù)訓(xùn)練語言模型BERT和注意力機制,提升了抽取跨度的準確性。

為了增強兩個子任務(wù)間的交互性,Gupta 等將聯(lián)合抽取轉(zhuǎn)換為表格填充任務(wù);Zhang 等在文獻[55]上進一步改進,采用LSTM 進行特征抽??;RIN(recurrent interaction network)采用雙向LSTM 學(xué)習(xí)共享參數(shù)層的動態(tài)交互信息;Feng 等則采用強化學(xué)習(xí)的方式增強子任務(wù)間的交互;Sun 等設(shè)計最小化風(fēng)險的全局損失函數(shù)進行聯(lián)合訓(xùn)練;在后續(xù)的改進版本中,Sun 等將實體類型和關(guān)系類型構(gòu)造成二分圖,用GCN 進行聯(lián)合推理。

聯(lián)合抽取模型需要權(quán)衡子任務(wù)的準確性和交互性,在抽取句子的特征信息時通常采用雙向LSTM 或預(yù)訓(xùn)練語言模型,不同的子任務(wù)會設(shè)計相應(yīng)的子模型。上述相關(guān)文獻的模型架構(gòu)及描述總結(jié)如表3所示。

表3 實體對映射到關(guān)系模型總結(jié)Table 3 Summary of mapping entity pairs to relationship models

頭實體映射到關(guān)系、尾實體的聯(lián)合抽取策略可以用式(4)中的條件概率來表示:

這種策略將聯(lián)合抽取分解成兩步,先抽取頭實體,再根據(jù)頭實體抽取相應(yīng)的關(guān)系類型和尾實體。一個直觀的解釋是:模型如果不能準確地抽取頭實體,那么模型抽取的關(guān)系類型和尾實體的置信度同樣較低。

Katiyar 等在識別實體的過程中采用BILOU 序列標注的方法,識別出實體后,使用指針網(wǎng)絡(luò)的方法(注意力模型的一種改進),根據(jù)關(guān)系類型識別出另一個實體。文獻[62]的序列編碼層采用多層雙向LSTM,在序列編碼層上疊加一層從左到右的LSTM層和前饋神經(jīng)網(wǎng)絡(luò)進行解碼。識別當(dāng)前實體的過程主要由式(5)和式(6)實現(xiàn):

為了抽取句子中的多個關(guān)系類型,Bekoulis 等采用多頭選擇機制,在后續(xù)的改進版本中,Bekoulis等在詞嵌入向量中添加一個最壞情況擾動項產(chǎn)生對抗樣本,通過對抗學(xué)習(xí)提升了聯(lián)合抽取模型的魯棒性;ETL-Span采用序列標注的方法實現(xiàn)了該分解策略;CasRel將關(guān)系類型當(dāng)作一種頭實體映射到尾實體的函數(shù),根據(jù)函數(shù)f()→設(shè)計頭實體觸發(fā)器和特定關(guān)系的尾實體觸發(fā)器;TPLinker設(shè)計了一種新穎的握手標注方案,將長度為的句子轉(zhuǎn)換成長度為(+)/2 的序列后進行編碼,解決了曝光偏差的問題。

Li等和Zhao 等則采用機器閱讀理解的方法,將先驗信息融入到問題中,在問題和句子的交互中捕捉語義信息,提高了模型的準確性。文獻[68]根據(jù)頭實體用模板生成的方法獲得關(guān)系類型和尾實體的問題,并采用機器閱讀理解的方法抽取句子中對應(yīng)的尾實體。文獻[69]對同一個實體類型,設(shè)計了不同角度的多個相關(guān)問題,融入更多先驗信息。在問題生成過程中,過濾無關(guān)關(guān)系類型,選擇相關(guān)關(guān)系類型生成問題,并采用答案集成策略選取最優(yōu)答案。

一般而言,句子中存在的關(guān)系類型是由上下文信息而不是實體信息觸發(fā)。比如句子中若有類似“was born in”的信息,那么可以判斷出存在“Place_Of_Birth”的關(guān)系類型。關(guān)系映射到頭實體、尾實體的聯(lián)合抽取方法便是基于這種現(xiàn)象,先識別出關(guān)系,將關(guān)系作為先驗信息抽取實體,使模型更關(guān)注于該關(guān)系相關(guān)的語義信息,減少冗余的抽取操作。另外,句子中關(guān)系類型的數(shù)量通常少于實體數(shù)量,關(guān)系映射到頭實體、尾實體的聯(lián)合抽取方法也降低了計算復(fù)雜度,提高了聯(lián)合抽取的效率。

HRL(hierarchical reinforcement learning)將實體當(dāng)作特定關(guān)系類型的參數(shù),并設(shè)計分層的強化學(xué)習(xí)框架完成聯(lián)合抽取。強化學(xué)習(xí)會給出智能體每個狀態(tài)下應(yīng)該采取的行動,使得智能體從環(huán)境中獲得的獎勵最大。如圖7 所示,高層級的強化學(xué)習(xí)被用于關(guān)系抽取,在這一層級,智能體順序掃描句子,當(dāng)中有足夠的語義信息時,如一些動詞短語“die of”,名詞短語“his father”,或介詞“from”等,智能體將會預(yù)測出相應(yīng)的關(guān)系類型,并發(fā)布一個子任務(wù),即低層級的強化學(xué)習(xí),用于識別當(dāng)前關(guān)系類型對應(yīng)的實體對,當(dāng)子任務(wù)完成后,智能體繼續(xù)掃描剩余的部分。

圖7 分層級的強化學(xué)習(xí)框架Fig.7 Hierarchical reinforcement learning framework

具體而言,高層級和低層級的強化學(xué)習(xí)都采用雙向LSTM 編碼得到每個單詞的特征向量。高層級的強化學(xué)習(xí)將單詞的特征向量、關(guān)系類型的嵌入向量和上一時刻的狀態(tài)信息向量拼接后,通過前饋神經(jīng)網(wǎng)絡(luò)獲得當(dāng)前的狀態(tài)信息向量,采用隨機策略預(yù)測當(dāng)前句子包含的關(guān)系類型。高層級的強化學(xué)習(xí)同時設(shè)置獎勵函數(shù),當(dāng)句子不存在模型預(yù)測得到的關(guān)系類型時,函數(shù)值為-1;當(dāng)模型預(yù)測得到關(guān)系類型為空時,函數(shù)值為0;當(dāng)句子存在模型預(yù)測得到的關(guān)系類型時,函數(shù)值為1,此時會觸發(fā)低層級的實體識別。低層級的強化學(xué)習(xí)采用序列標注的方法,根據(jù)預(yù)測標注與序列標準標注之間的偏差設(shè)計獎勵函數(shù)。

高層級的關(guān)系抽取和低層級的實體識別通過狀態(tài)信息向量和獎勵函數(shù)實現(xiàn)交互。在執(zhí)行低層級的實體識別時,高層級的關(guān)系抽取傳遞相關(guān)的關(guān)系信息,低層級的實體識別會通過獎勵機制,將實體識別的情況反饋給高層級,使得句子中的多個關(guān)系三元組被有序地抽取。

Zhou 等通過在雙向LSTM 上疊加卷積神經(jīng)網(wǎng)絡(luò)提升了關(guān)系抽取的準確性,并采用單向LSTM 解碼當(dāng)前關(guān)系類型對應(yīng)的實體對;RSAN(relation-specific attention network)根據(jù)不同的關(guān)系類型,用關(guān)系敏感的注意力方法獲得句子的不同特征信息,通過門機制降低了無關(guān)關(guān)系類型對實體識別的影響;Wang等認為統(tǒng)一編碼器在編碼實體信息和關(guān)系類型信息時,得到的特征信息可能是沖突的、不明確的。Wang 設(shè)計了兩種不同的編碼器:序列編碼器和表編碼器。兩個編碼器分別用于編碼實體信息和關(guān)系類型信息,其內(nèi)部彼此交互。表編碼器將特征信息傳遞給序列編碼器,并預(yù)測出關(guān)系類型;序列編碼器根據(jù)特征信息和序列編碼信息,通過前饋神經(jīng)網(wǎng)絡(luò)預(yù)測出實體信息。

基于共享參數(shù)的聯(lián)合抽取模型總結(jié)如表4 所示。實體對映射到關(guān)系的聯(lián)合抽取模型,兩個子任務(wù)的實現(xiàn)方法較為成熟,通過共享參數(shù)的方法容易實現(xiàn)聯(lián)合抽取,但聯(lián)合抽取過程中會產(chǎn)生不存在關(guān)系的冗余實體對,難以有效解決關(guān)系重疊的問題;頭實體映射到關(guān)系、尾實體的方法能夠有效解決關(guān)系重疊的問題,增強了實體類型信息和關(guān)系類型信息的交互,但模型設(shè)計相對復(fù)雜;關(guān)系映射到頭實體、尾實體的方法減少了冗余信息的抽取,能夠解決關(guān)系重疊的問題,但識別候選關(guān)系類型的難度較大,模型設(shè)計相對復(fù)雜。

表4 共享參數(shù)模型總結(jié)Table 4 Summary of shared parameter model

3.2 基于聯(lián)合解碼的聯(lián)合抽取模型

基于共享參數(shù)的聯(lián)合抽取模型,每個子任務(wù)擁有獨立的解碼器,通過共享參數(shù)的方法實現(xiàn)信息交互,子任務(wù)間的交互性并不強。為了增強不同子任務(wù)之間的交互性,基于聯(lián)合解碼的聯(lián)合抽取模型被相繼提出。基于聯(lián)合解碼的聯(lián)合抽取模型通常在序列編碼層上疊加統(tǒng)一解碼器,直接解碼得到關(guān)系三元組信息。主要存在兩種方法:(1)序列標注方法,將聯(lián)合抽取轉(zhuǎn)換成序列標注進行解碼;(2)Sequenceto-Sequence,采用Sequence-to-Sequence 方法生成關(guān)系三元組。

對于命名實體識別任務(wù),通常采用序列標注的方法實現(xiàn),模型通過預(yù)測每個單詞的BLOU 標注來識別實體。用序列標注實現(xiàn)聯(lián)合抽取的優(yōu)點是方法成熟,實現(xiàn)簡單;難點是需要設(shè)計統(tǒng)一的標注方案,在標注中融入實體類型信息和關(guān)系類型信息。

圖8 序列標注方案Fig.8 Sequence annotation scheme

NovingTagging 設(shè)計的標注方案在將實體信息和關(guān)系類型信息相結(jié)合時,并沒有融入實體類型信息。由于每個單詞只能有一個標注,NovingTagging不能解決關(guān)系重疊和實體嵌套的問題。

Dai 等在標注方案上進一步改進,將長度為的句子根據(jù)每個單詞的位置進行次不同標注,使得每個單詞可被多次標注。在解碼過程中,文獻[75]采用基于位置的注意力方法和CRF 得到個不同的序列標注,解決了關(guān)系重疊的問題。

Sequence-to-Sequence方法最初被應(yīng)用于機器翻譯,基于Sequence-to-Sequence 的模型主要由兩個分別被稱為編碼器和解碼器的循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)成,編碼器將任意長度的輸入序列轉(zhuǎn)換成固定長度的語義向量,解碼器將語義向量轉(zhuǎn)換成另一個輸出序列。

Zeng 等采用Sequence-to-Sequence 的方法設(shè)計了模型CopyRE,同時引入了復(fù)制機制。聯(lián)合抽取過程類似機器翻譯,解碼器依次產(chǎn)生關(guān)系類型、頭實體和尾實體。文獻[78]首次將關(guān)系重疊類型進行分類,如表5 所示,將關(guān)系類型分為三種:(1)Normal關(guān)系類型,關(guān)系三元組的實體沒有重疊;(2)SEO(single entity overlap)關(guān)系類型,關(guān)系三元組的實體對中有一個實體與另一個關(guān)系三元組的實體重疊,但兩個關(guān)系三元組的實體對不重疊;(3)EPO(entity pair overlap)關(guān)系類型,一個實體對之間存在多種關(guān)系。

表5 關(guān)系類型分類示例Table 5 Example of relationship type classification

聯(lián)合抽取模型普遍容易解決Normal 類型,Copy-RE 能夠解決EPO 類型和SEO 類型。如圖9 所示,CopyRE 的編碼器采用雙向循環(huán)神經(jīng)網(wǎng)絡(luò),句子經(jīng)過詞嵌入層后傳入雙向循環(huán)神經(jīng)網(wǎng)絡(luò),雙向循環(huán)神經(jīng)網(wǎng)絡(luò)最終的隱藏狀態(tài)向量拼接得到語義向量,編碼過程中用注意力方法獲取注意力向量。解碼器采用單向循環(huán)神經(jīng)網(wǎng)絡(luò),和輸入解碼器后獲得當(dāng)前時刻的輸出向量,輸出向量通過前饋神經(jīng)網(wǎng)絡(luò)獲得關(guān)系類型,關(guān)系類型的嵌入向量和注意力向量作為下一時刻+1 的輸入,+1 時刻的輸出向量通過前饋神經(jīng)網(wǎng)絡(luò)后采用復(fù)制機制從原句子中復(fù)制頭實體,頭實體的嵌入向量和注意力向量在+2 時刻用相同的方法復(fù)制得到尾實體。最終依次產(chǎn)生句子中的所有關(guān)系三元組,實現(xiàn)聯(lián)合抽取。在解碼過程中,一個實體可以被多次復(fù)制,解決了關(guān)系重疊的問題。

在后續(xù)的研究中,CopyRL提出句子中的多個三元組之間應(yīng)該存在順序關(guān)系,并采用了強化學(xué)習(xí)方法;由于CopyRE 只能復(fù)制實體的最后一個單詞,難以處理一個實體包含多個單詞的情況。文獻[81]提出了一種多任務(wù)學(xué)習(xí)模型CopyMTL,CopyMTL 在CopyRE 基礎(chǔ)上添加了一個序列標注模塊用于實體識別。序列標注得到的實體和復(fù)制機制得到的實體進行校對,使得CopyMTL 能夠準確識別實體。上述三個模型間的對比如圖9 所示。HDP(hybrid dual pointer network)編碼器中采用了Transformer,解碼器為從左到右的單向LSTM,提升了特征抽取能力;Nayak 等設(shè)計了兩種新穎的方案來表示三元組,根據(jù)兩個方案分別設(shè)計了不同的解碼器,即基于單詞的解碼器Wdec 和基于指針網(wǎng)絡(luò)的解碼器PNDec,提高了關(guān)系三元組之間的交互;SPN(set prediction network)認為句子中的關(guān)系三元組應(yīng)該是無序的,自回歸解碼器將無序的關(guān)系三元組有序生成,增加了模型的負擔(dān),因此SPN 采用基于Transformer 的非自回歸解碼器,并設(shè)計基于集合的二分匹配損失函數(shù),一次性產(chǎn)生包含所有關(guān)系三元組的集合。

圖9 Sequence-to-Sequence 模型對比Fig.9 Sequence-to-Sequence model comparison

基于聯(lián)合解碼的聯(lián)合抽取模型主要有序列標注和Sequence-to-Sequence 兩種方法。序列標注的方法容易實現(xiàn)聯(lián)合抽取,但真實數(shù)據(jù)間的關(guān)系通常比較復(fù)雜,在解決實體嵌套、關(guān)系重疊等具體問題時,序列標注的方法需要設(shè)計復(fù)雜的標注方案,增加了聯(lián)合抽取的難度;Sequence-to-Sequence 的方法能有效解決關(guān)系重疊的問題,但當(dāng)句子長度較長時,提升了構(gòu)造具有豐富語義特征向量的難度。

表6 是基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合抽取方法總結(jié)。基于共享參數(shù)的聯(lián)合抽取模型將聯(lián)合抽取分解為不同的子任務(wù),通過構(gòu)造豐富的子任務(wù)特征信息來提升子任務(wù)模型的準確性,但子任務(wù)間的交互性相對較低;基于聯(lián)合解碼的聯(lián)合抽取模型使得實體信息和關(guān)系信息充分交互,但需要設(shè)計相對復(fù)雜的解碼方法。

表6 基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合抽取模型Table 6 Joint extraction model based on neural network

4 數(shù)據(jù)集

本章主要介紹聯(lián)合抽取的常用數(shù)據(jù)集,主要分為人工標注的數(shù)據(jù)集和采用NLP 獲取的數(shù)據(jù)集,這兩類數(shù)據(jù)集都被作為有監(jiān)督數(shù)據(jù)集進行處理。

4.1 人工標注數(shù)據(jù)集

人工標注的數(shù)據(jù)集需要標注員對文本數(shù)據(jù)進行標注,耗費成本大,整體效率低下,但數(shù)據(jù)質(zhì)量高,噪音少,有公認的評價方式,這類數(shù)據(jù)集的規(guī)模通常也較小。

ACE(automatic content extraction)的研究目標是從自然語言數(shù)據(jù)中自動抽取實體、實體相關(guān)事件和實體間的關(guān)系類型,其數(shù)據(jù)來源除英語外還包括阿拉伯語和漢語等。ACE 預(yù)先定義了實體間的關(guān)系類型,ACE 的任務(wù)是識別實體間是否存在語義關(guān)系,并進一步判斷該語義關(guān)系屬于哪一種預(yù)定義的關(guān)系類型。ACE 提供了相應(yīng)的標注數(shù)據(jù)集ACE2004 和ACE2005。ACE2004 數(shù)據(jù)集的實體和關(guān)系類型如表7所示,ACE2005保留了ACE2004中的PER-SOC(person-social)、ART(agent-artifact)和GPE-AFF(geopolitical entity affiliation)關(guān)系類型,將PHYS(physical)關(guān)系類型分為PHYS 和Part-Whole 類型,移除了DISC(discourse)類型,將EMP-ORG(employment-organization)和PER/ORG-AFF(person/organization-affiliation)合并成EMP-ORG。

表7 ACE2004 數(shù)據(jù)集Table 7 ACE2004 dataset

SemEval(semantic evaluation)會議在自然語言領(lǐng)域受到廣泛關(guān)注。SemEval-2010 Task 8 側(cè)重于識別名詞對之間的語義關(guān)系,目的是比較不同關(guān)系抽取方法的性能差異,并對未來的研究提供標準的評測方法。SemEval選擇9種關(guān)系類型:CE(causeeffect)、IA(instrument-agency)、PP(product-producer)、CC(content-container)、EO(entity-origin)、ED(entitydestination)、CW(component-whole)、MC(membercollection)和MT(message-topic),覆蓋范圍較為廣泛。SemEval 提供了8 000 個訓(xùn)練樣本和2 717 個測試樣本,每個樣本存在的關(guān)系類型都被標注,但沒有標注實體的類型信息。

CoNLL04 數(shù)據(jù)集提供了1 437 個至少存在一個關(guān)系的句子,句子中的實體和關(guān)系類型都進行了標注。CoNLL04 數(shù)據(jù)集包含5 336 個實體,19 048 個實體對(二元關(guān)系),存在4 種實體類型和6 種關(guān)系類型,具體細節(jié)如表8 所示。

表8 CoNLL04 數(shù)據(jù)集Table 8 CoNLL04 dataset

ADE(adverse drug events)數(shù)據(jù)集中存在兩種實體類型:Drug 和Disease。任務(wù)的目的是抽取句子中的Drug 類型實體和Disease 類型實體,并確定Drug 和Disease 的關(guān)聯(lián)性。ADE 數(shù)據(jù)集來自于1 644 個PubMed 的摘要信息,從摘要中選取至少存在一組實體類型為Drug-Disease 且關(guān)系類型為ADE 的句子,ADE 數(shù)據(jù)集共6 821條,包含10 652個實體以及6 682個關(guān)聯(lián)。

4.2 NLP 獲取數(shù)據(jù)集

通過NLP 獲取的數(shù)據(jù)集,規(guī)模較大,遷移性較好,但質(zhì)量相比人工標注數(shù)據(jù)集較低。主要有NYT(New York Times)數(shù)據(jù)集和WebNLG(Web natural language generation)數(shù)據(jù)集,分別采用遠程監(jiān)督和自然語言生成的方法獲取。遠程監(jiān)督將大量語料數(shù)據(jù)與現(xiàn)有數(shù)據(jù)庫中的關(guān)系進行對齊,通過成熟的NLP 工具進行實體標注;自然語言生成方法是從標準數(shù)據(jù)庫中獲取關(guān)系三元組信息,用自然語言生成技術(shù)構(gòu)造大量包含該關(guān)系三元組的句子。

NYT 數(shù)據(jù)集通過遠程監(jiān)督的方法獲得,采集了1987 年到2007 年的紐約時報新聞文章數(shù)據(jù)共24.9萬條,將獲得的數(shù)據(jù)與Freebase 對齊,構(gòu)造出了118萬條句子。過濾出部分噪音數(shù)據(jù)后,剩余66 195 個句子樣本,通常隨機選擇出5 000 條樣本作為測試集,5 000 條樣本作為驗證集,剩余的56 195 條樣本作為訓(xùn)練集,共包含3 種實體類型和24 種關(guān)系類型。

WebNLG 通過從DBpedia 中抽取一組三元組并采用自然語言生成方法獲得所構(gòu)造的句子。該數(shù)據(jù)集共有5 519 條訓(xùn)練集和703 條驗證集,包含246 種關(guān)系,每個樣本由一組三元組和一條標準句子構(gòu)成,標準句子包含樣本中的所有三元組,實驗時,研究人員通常會過濾不包含實體的標準句子。

以上數(shù)據(jù)集的相關(guān)信息總結(jié)如表9 所示。

表9 實體關(guān)系抽取數(shù)據(jù)集總結(jié)Table 9 Summary of entity and relation extraction datasets

5 評測標準及實驗

評測標準通常采用精確率()、召回率()和1 值3 個指標。根據(jù)機器預(yù)測結(jié)果和真實情況可劃分為真正類(true positive,TP)、假正類(false positive,F(xiàn)P)、真負類(true negative,TN)、假負類(false negative,F(xiàn)N)4 種情況,其構(gòu)成的混淆矩陣如表10 所示。

表10 混淆矩陣Table 10 Confusion matrix

精確率和召回率的定義公式分別為:

精確率和召回率是一對矛盾的度量,一般來說,精確度較高時,召回率往往偏低;召回率高時,精確率往往偏低。1 值則是基于精確率和召回率的調(diào)和平均值,計算公式如下:

由于數(shù)據(jù)集的不同,實體關(guān)系聯(lián)合抽取的評測方式也有所不同。在NYT 和WebNLG 數(shù)據(jù)集上,以模型最終抽取的三元組作為評測依據(jù),通常認為三元組中的實體及關(guān)系類型都正確時為TP。不同模型在NYT 和WebNLG 數(shù)據(jù)集上的實驗結(jié)果如圖10、圖11 所示。

從圖10、圖11中可以看出,NovelTagging在NYT 和WebNLG 數(shù)據(jù)集上的評測1 值相對較低,其采用序列標注的方法實現(xiàn)聯(lián)合抽取,將實體信息和關(guān)系類型信息都存儲到統(tǒng)一的標注中,使得標注方案設(shè)計復(fù)雜,解碼器需要直接解碼實體和關(guān)系類型信息,增大了解碼難度。

圖10 NYT 數(shù)據(jù)集上的評測結(jié)果Fig.10 Evaluation results on NYT dataset

圖11 WebNLG 數(shù)據(jù)集上的評測結(jié)果Fig.11 Evaluation results on WebNLG dataset

Sequence-to-Sequence 方法容易解決關(guān)系重疊的問題,例如文獻[78]提出的模型CopyRE-One和Copy-RE-Mul,其評測結(jié)果優(yōu)于序列標注模型,但兩個模型獲得相對較低的1 值。原因是雙向LSTM 難以準確識別邊界較長的實體信息,尤其是在包含大量邊界較長實體的WebNLG 數(shù)據(jù)集上,CopyRE-One、Copy-RE-Mul 的評測1 值低于其在NYT 數(shù)據(jù)集上的1值。而SPN模型在NYT 和WebNLG 數(shù)據(jù)集上都取得了最佳的1 值,分別為92.5%和93.4%,主要有3個原因:(1)Sequence-to-Sequence 方法適合解決關(guān)系重疊的問題;(2)采用BERT 編碼器、Transformer 架構(gòu)的解碼器,提升模型識別實體邊界的準確性,Transformer 解碼也使得運行效率有所提高;(3)解碼器采用非自回歸的方式直接解碼得到關(guān)系三元組集合,不注重關(guān)系三元組的順序,減輕了解碼器負擔(dān)。

采用實體對映射到關(guān)系的方法實現(xiàn)聯(lián)合抽取的模型,主要難點是解決關(guān)系重疊的問題。如文獻[47],為了有效解決關(guān)系重疊的問題,設(shè)計了復(fù)雜的注意力機制。另外,RIN模型在兩個數(shù)據(jù)集上的評測1 值也相對較高,RIN 以GRU 為主,但RIN 額外添加了雙向LSTM用于命名實體識別和關(guān)系抽取兩個子任務(wù)的交互,從實驗結(jié)果可以看到這種方法是有效的。

在NYT 和WebNLG 數(shù)據(jù)集中含有大量EPO、SPO 等關(guān)系重疊類型的數(shù)據(jù),使得大多數(shù)聯(lián)合抽取模型在這兩個數(shù)據(jù)集上的評測1 值略低。對于采用頭實體映射到關(guān)系、尾實體方法和采用關(guān)系映射到頭實體、尾實體方法實現(xiàn)聯(lián)合抽取的模型,如CasRel和RSAN,這類模型在NYT 和WebNLG 數(shù)據(jù)集上的評測1 值均較高。主要原因是這類模型采用分解策略有效解決了關(guān)系重疊問題,實驗結(jié)果也佐證了這一判斷。另外,在兩個數(shù)據(jù)集上評測1 值相對較高的SPN、ETL-Span和TPLinker等模型,這些模型的編碼器均采用了預(yù)訓(xùn)練語言模型BERT,進一步說明了預(yù)訓(xùn)練語言模型的有效性。

對于人工標注的數(shù)據(jù)集,實體類型和關(guān)系類型的標注質(zhì)量較高,評測通常有兩方面:命名實體識別的1 值,實體的邊界和類型都正確則視為TP;關(guān)系抽取的1 值,關(guān)系類型正確并且與之相關(guān)的兩個實體邊界及類型都正確則視為TP。有的模型在關(guān)系抽取評測時并沒有考慮到兩個實體的類型,如表11 中右上角帶“*”的評測結(jié)果。在不同數(shù)據(jù)集上不同模型的評測結(jié)果如表11 所示。

從表11 中可以看到,基于特征工程的聯(lián)合抽取方法Li和Miwa在不同數(shù)據(jù)集上識別實體和抽取關(guān)系的評測1 值相對較低,原因是特征工程需要設(shè)計大量特征函數(shù),通過特征工程獲得的特征準確度較低。SPTree、Bekoulis和Bekoulis都是基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合抽取模型,在不同數(shù)據(jù)集上的評測1值相近,評測1 值略高于基于特征工程的模型。這3 個模型都是以雙向LSTM 為主要架構(gòu),特征提取的能力低于基于Transformer的模型,使得這3 個模型的1 值處于相對較低的水平。Sun和Sun模型在ACE2005 數(shù)據(jù)集上的關(guān)系抽取評測1 值相比SPTree進一步提升,這兩個模型分別采用最小化風(fēng)險訓(xùn)練的方法和構(gòu)造實體關(guān)系二分圖的方法,加強命名實體識別和關(guān)系抽取兩個子任務(wù)間的交互,評測結(jié)果也說明加強不同子任務(wù)之間的交互性能夠提升整體的抽取效果。

表11 有監(jiān)督數(shù)據(jù)集上評測結(jié)果Table 11 Evaluation results on supervised datasets %

采用機器閱讀理解方法的模型,如Li和Zhao在ACE2005 數(shù)據(jù)集上的評測1 值處于相對中等的水平。機器閱讀理解的方法,在問題中融入重要的先驗信息,并以問答的形式更好地捕捉到問題和文章之間的交互信息,提升聯(lián)合抽取的性能,但這類方法需要根據(jù)識別的實體設(shè)計合適的問題。

基于跨度的模型,如文獻[49-54]在不同數(shù)據(jù)集上的評測1 值處于相對較高的水平,尤其是命名實體識別的評測1 值,進一步證明了直接在跨度上建模能有效解決實體嵌套的問題。其中SPAN模型在數(shù)據(jù)集上的評測1 值最高,原因在于其用多頭注意力抽取豐富的跨度表征信息和上下文表征信息。另外,這些模型在特征抽取上均采用預(yù)訓(xùn)練語言模型BERT,具備更強的特征抽取能力。Wang改進了Transformer,設(shè)計了兩種不同的編碼器分別編碼實體信息和關(guān)系信息,實驗的評測1 值處于較高的水平。

6 未來研究方向

本文介紹了有監(jiān)督實體關(guān)系聯(lián)合抽取的各種方法以及相關(guān)理論,并進行了實驗對比,在常用數(shù)據(jù)集上進行的實驗表明,實體關(guān)系聯(lián)合抽取方法取得了一定的進步,然而現(xiàn)存的聯(lián)合抽取理論和技術(shù)尚有許多局限性,仍面臨著許多技術(shù)難題和挑戰(zhàn)。接下來的研究重點包括以下內(nèi)容。

(1)篇章級別的實體關(guān)系聯(lián)合抽取

本文介紹的模型大多是基于句子級別的聯(lián)合抽取,面臨的挑戰(zhàn)主要是實體嵌套和關(guān)系重疊,可以通過設(shè)計特殊標注方案或調(diào)整抽取順序的策略解決。而篇章級別的數(shù)據(jù)處理較為復(fù)雜,目前的預(yù)訓(xùn)練語言模型如BERT,其輸入有最大長度限制。如何在較長篇幅的數(shù)據(jù)下進行模型訓(xùn)練,如何處理不同句子間的關(guān)系信息、不同關(guān)系間的關(guān)系信息,多個實體共指等復(fù)雜情況仍有待解決。另外,對于一些隱藏的關(guān)系類型,并不能通過簡單的抽取得到,需要進一步根據(jù)上下文的信息推理獲得。顯然將篇章級別的抽取看作一系列單句子抽取的組合是不合理的,如何設(shè)計一個行之有效的方案依然亟待解決。

(2)融入多樣信息的實體關(guān)系聯(lián)合抽取

本文介紹的模型抽取的三元組大多是靜態(tài)的,輸入句子經(jīng)過序列編碼器后得到的詞向量融入了上下文的語義信息,模型主要關(guān)注實體信息和預(yù)先定義的關(guān)系類型信息,而在抽取帶有時序信息的實體和實體間的關(guān)系時,實體和實體間的關(guān)系可能都在動態(tài)更新,如何在詞向量中有效嵌入時序信息仍有待研究。此外,當(dāng)句子中包含事件信息時,如事件之間存在因果關(guān)系,事件的發(fā)展會影響實體和實體間的關(guān)系,模型需要同時考慮不同的事件信息以提高聯(lián)合抽取的準確性。因此,在實體關(guān)系聯(lián)合抽取模型中如何有效融入時序、事件等多樣信息是非常有意義的研究課題。

(3)面向中文的實體關(guān)系聯(lián)合抽取

目前面向中文的實體關(guān)系聯(lián)合抽取的研究仍然落后于英文,主要有兩個原因:①數(shù)據(jù)集的缺乏。有監(jiān)督的中文數(shù)據(jù)集相對較少,目前存在的中文數(shù)據(jù)集大多基于特定領(lǐng)域,如金融、醫(yī)藥等,且數(shù)據(jù)集的規(guī)模通常較小。開放領(lǐng)域的有監(jiān)督中文數(shù)據(jù)集則更為稀少,缺少公認的評測基準和指標。②中文的復(fù)雜多義性。首先,中文沒有明確的單元邊界,不像英文能夠使用空格符對詞進行分割,中文也沒有明顯的詞性變換等特征,容易造成邊界歧義。其次,中文中一詞多義現(xiàn)象普遍,同一詞在不同語境下所表達的意思不一致,且一種語義存在多種不同的表達,句式靈活多變。另外,隨著互聯(lián)網(wǎng)的快速發(fā)展,詞語不斷具有新的含義,進一步增強了聯(lián)合抽取的難度。在設(shè)計面向中文的聯(lián)合抽取模型時需要著重考慮中文的特殊性,因此,面向中文的實體關(guān)系聯(lián)合抽取是一個非常重要的研究方向。

(4)提升實體關(guān)系聯(lián)合抽取的可解釋性

當(dāng)前主流的實體關(guān)系聯(lián)合抽取模型主要基于神經(jīng)網(wǎng)絡(luò),在特征抽取上更優(yōu)于傳統(tǒng)的特征工程方法,減少了人工抽取特征的工作量,但基于神經(jīng)網(wǎng)絡(luò)的方法面臨著一個棘手的問題——可解釋性差。聯(lián)合抽取模型的性能通常由實驗進行驗證,但是如果無法理解學(xué)習(xí)到的特征表示具有何種可解釋的含義時,則無法深刻理解模型本身的應(yīng)用限制。尤其目前模型趨向于復(fù)雜化,如何選擇網(wǎng)絡(luò)層數(shù)、模型參數(shù)大小、模型架構(gòu)、優(yōu)化算法以及激活函數(shù)等,通常是基于具體實驗的效果,并未理解其真實含義,對于聯(lián)合抽取結(jié)果的可解釋性不強。如何提升實體關(guān)系聯(lián)合抽取模型的可解釋性仍然需要進一步研究。

7 總結(jié)

實體關(guān)系聯(lián)合抽取能夠從文本中自動識別實體、實體類型以及關(guān)系類型,是信息抽取中的核心任務(wù),積極推動了知識圖譜構(gòu)建、智能問答和語義搜索等領(lǐng)域的發(fā)展,具有廣闊的應(yīng)用前景。本文對有監(jiān)督實體關(guān)系聯(lián)合抽取方法進行綜述,介紹了四種基于特征工程的聯(lián)合抽取方法;對于基于神經(jīng)網(wǎng)絡(luò)的聯(lián)合抽取模型,描述了三種基于共享參數(shù)的方法和兩種基于聯(lián)合解碼的方法;以圖表的形式對比了不同模型的優(yōu)缺點,并對聯(lián)合抽取常用的七個數(shù)據(jù)集進行了介紹;在不同數(shù)據(jù)集上比較了各種方法間的性能差異并進行分析;最后展望了實體關(guān)系聯(lián)合抽取的未來研究方向。

猜你喜歡
實體模型信息
適用于BDS-3 PPP的隨機模型
自制空間站模型
前海自貿(mào)區(qū):金融服務(wù)實體
實體書店步入復(fù)興期?
模型小覽(二)
訂閱信息
兩會進行時:緊扣實體經(jīng)濟“釘釘子”
振興實體經(jīng)濟地方如何“釘釘子”
離散型隨機變量分布列的兩法則和三模型
展會信息