国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

限定域關(guān)系抽取研究綜述①

2021-10-11 06:46袁清波杜曉明
計算機系統(tǒng)應(yīng)用 2021年9期
關(guān)鍵詞:語義模板神經(jīng)網(wǎng)絡(luò)

袁清波,杜曉明,楊 帆

(陸軍工程大學 指揮控制工程學院,南京 210007)

隨著計算機和互聯(lián)網(wǎng)的快速發(fā)展,人類產(chǎn)生、創(chuàng)造的數(shù)據(jù)量呈爆炸式增長.如何對這些海量異構(gòu)數(shù)據(jù)進行高效利用,是當前亟需解決的問題,也是信息抽取(Information Extraction,IE)研究的重要內(nèi)容之一.關(guān)系抽取(Relation Extraction,RE)作為信息抽取的重要子任務(wù),主要完成從非結(jié)構(gòu)化數(shù)據(jù)中抽取出實體間的語義關(guān)系,目前已廣泛應(yīng)用于搜索引擎、智能推薦、機器翻譯和問答服務(wù)等領(lǐng)域.

當前,知識圖譜技術(shù)研究較為熱門,關(guān)系抽取作為其中的一個重要方向,引起了研究者們廣泛關(guān)注.對關(guān)系抽取的開拓性探索是FASTUS 系統(tǒng)[1]的基于模板關(guān)系抽取方法,該方法能夠在小規(guī)模特定領(lǐng)域取得較好效果,但是存在開發(fā)周期長、準確率較低、可移植性差等問題.因此,研究者們繼而提出了有監(jiān)督、弱監(jiān)督和無監(jiān)督等機器學習關(guān)系抽取方法.有監(jiān)督的關(guān)系抽取方法最初主要基于傳統(tǒng)的機器學習,包括Miller 等人[2]的基于特征向量關(guān)系抽取方法和Zelenko 等人[3]的基于核函數(shù)關(guān)系抽取方法.基于傳統(tǒng)的機器學習關(guān)系抽取方法比較依賴于人工構(gòu)建的各種特征,近年來基于深度學習的關(guān)系抽取方法開始被研究者們提出,使關(guān)系抽取的性能取得了較大提高.深度學習關(guān)系抽取方法不需要人工構(gòu)建特征,其輸入一般包括句子中的詞向量和位置向量表示,分為流水線(pipeline)方法和聯(lián)合(joint)方法兩種,其比較有代表性的是Zeng 等人[4]提出的卷積深度神經(jīng)網(wǎng)絡(luò)模型,通過提取詞匯和句子級別的特征以進行關(guān)系抽取.有監(jiān)督學習關(guān)系抽取方法的缺點是需要大量有標注的訓練語料,而人工標注這些語料則耗時耗力.當訓練語料較少時,則可以利用弱監(jiān)督學習方法來進行關(guān)系抽取,該方法主要包括Mintz 等人[5]的基于遠程監(jiān)督(distant supervision)關(guān)系抽取方法和Brin 等人[6]基于Bootstrapping 關(guān)系抽取方法.無監(jiān)督的關(guān)系抽取方法,不需要人工標注數(shù)據(jù),通過聚類方法把相同關(guān)系類型聚合在起來.

近年來,一些研究者對關(guān)系抽取方法進行過梳理,如莊傳志等人[7]梳理了深度學習方法,白龍等人[8]梳理了遠程監(jiān)督方法,但缺少對關(guān)系抽取方法整體發(fā)展脈絡(luò)的系統(tǒng)歸納與總結(jié).

本文主要利用時間順序法對限定域條件下二元關(guān)系抽取方法進行歸納總結(jié).首先對關(guān)系抽取進行簡要介紹;其次對其相關(guān)方法進行詳細歸納總結(jié),重點是目前研究較熱的深度學習關(guān)系抽取方法;最后對其應(yīng)用領(lǐng)域和未來研究方向進行分析展望.

1 概念定義

Bach 等人[9]將關(guān)系以元組t=(e1,e2,…,en)的形式定義,其中實體ei之間在文檔D中具有某種預(yù)先定義關(guān)系r.二元關(guān)系可表示為<e1,r,e2>的三元組形式,其中e1、e2表示兩個實體,r為預(yù)定義目標關(guān)系類型.根據(jù)實體數(shù)量的多少關(guān)系抽取可分為二元關(guān)系抽取和多元關(guān)系抽取,目前大多數(shù)研究者都專注于二元關(guān)系抽取.

關(guān)系抽取的任務(wù)是從一段文本中提取出發(fā)生在兩個實體或多個實體之間的語義關(guān)系.完整的關(guān)系抽取包括兩個子過程,首先從非結(jié)構(gòu)化數(shù)據(jù)中進行命名實體識別,而后對所識別出的實體進行語義關(guān)系判別.其中關(guān)系判別的過程,也可稱為關(guān)系分類(relation classification),即判斷實體之間屬于哪種關(guān)系,屬于一種多分類問題.

如圖1所示,對于給定句子“姚明出生于上海的一個籃球世家”.命名實體識別子過程識別出句子中具有“姚明”和“上海”兩個實體;語義關(guān)系判別子過程判斷出“姚明”和“上?!眱蓚€實體間是“出生地”關(guān)系.在閱讀關(guān)系抽取相關(guān)論文時發(fā)現(xiàn),大多數(shù)的方法默認命名實體識別子過程已完成,所做研究主要在于關(guān)系判別子過程,即關(guān)系分類子過程.

圖1 關(guān)系抽取示例

2 數(shù)據(jù)集

關(guān)系抽取的公開主流評測數(shù)據(jù)集主要有ACE2005數(shù)據(jù)集、SemEval-2010 任務(wù)8 數(shù)據(jù)集、NYT2010 數(shù)據(jù)集等.

ACE 2005 數(shù)據(jù)集[10]是一種多語種訓練語料庫,包含完整的英語、阿拉伯語和漢語訓練數(shù)據(jù).ACE 2005數(shù)據(jù)集中英文語料來源包括廣播新聞、廣播談話、新聞專線、網(wǎng)站博客、新聞組和電話對話語音等共6 個領(lǐng)域,共包含599 篇與上述領(lǐng)域內(nèi)容相關(guān)的文檔.ACE 2005 數(shù)據(jù)集里共定義了7 大類實體和7 大類、19 小類關(guān)系.

SemEval-2010 任務(wù)8 數(shù)據(jù)集[11]包含10 717 個帶注釋的示例,其中訓練集包含8000 個示例,測試集包含2717 個示例.共定義有9 種關(guān)系類型,每種類型都有兩個方向;不屬于這些關(guān)系類型的示例被標記為“Other”.每個示例都包含標有兩個名詞e1和e2的句子,任務(wù)是在考慮方向性的情況下來預(yù)測e1和e2間關(guān)系.在考慮方向性的情況下,SemEval-2010 任務(wù)8 數(shù)據(jù)集共有19 種關(guān)系類型.

紐約時報(New York Times,NYT) 2010 數(shù)據(jù)集是用于遠程監(jiān)督關(guān)系抽取的標準語料庫,由Riedel 等人[12]發(fā)布于2010年.該數(shù)據(jù)集是通過將Freebase 知識庫與紐約時報語料庫對齊而形成,使用斯坦福NER 系統(tǒng)從文本中提取的命名實體,并自動鏈接到Freebase 知識庫中的實體.該數(shù)據(jù)集中共有53 種可能的關(guān)系類型,包括一種特殊的關(guān)系NA,它表示實體對之間沒有任何關(guān)系.

3 評價指標

關(guān)系抽取任務(wù)經(jīng)常采用的評價指標有正確率(Accuracy)、準確率(Precision)、召回率(Recall)、F值(F-Measure).

(1)正確率

正確率是最常見的評價指標,而且很容易理解,就是被正確抽取的樣本數(shù)除以所有的樣本數(shù),通常來說,正確率越高,分類器越好.其計算公式為:

(2)準確率

準確率又稱為查準率,是針對抽取結(jié)果而言的,它表示的是抽取結(jié)果為關(guān)系R的樣本中有多少是對的.把抽取結(jié)果集中正確抽取的記為TP(True Positive),錯誤抽取的記為FP(False Positive).其計算公式為:

(3)召回率

召回率又稱為查全率,是針對原來的樣本而言的,它表示的是存在關(guān)系R的樣本中有多少被正確抽取了.把存在關(guān)系R的樣本集中正確抽取的記為TP,錯誤抽取的記為FN(False Negative).其計算公式為:

(4)F值

對于關(guān)系抽取來說,準確率和召回率兩個指標有時候會出現(xiàn)相互矛盾的情況,二者實際上為互補關(guān)系.這樣就需要綜合考慮它們,最常見的方法就是F值,又稱為F-Score.其計算公式為:

其中,β是用來平衡準確率和召回率在F值計算中的權(quán)重.在關(guān)系抽取任務(wù)中,一般β取1,認為兩個指標一樣重要.此時F值計算公式為:

4 相關(guān)方法

關(guān)系抽取發(fā)展至今,總體可以分為基于模板的關(guān)系抽取方法和基于機器學習的關(guān)系抽取方法,具體如圖2所示.基于機器學習的抽取方法按照對語料的依賴程度分為3 類:有監(jiān)督的關(guān)系抽取、弱監(jiān)督的關(guān)系抽取和無監(jiān)督的關(guān)系抽取.在傳統(tǒng)機器學習方法之后,隨著深度學習抽取方法的廣泛應(yīng)用,關(guān)系抽取的性能得到了較大提高.

圖2 關(guān)系抽取相關(guān)方法

4.1 基于模板的方法

早期的實體關(guān)系抽取方法大都采用基于模板匹配的方法實現(xiàn).該方法又稱為基于規(guī)則或模式匹配的方法,基于語言學知識和專業(yè)領(lǐng)域知識,由專家手工編寫模板,構(gòu)造出基于詞語、詞性或語義的模板集合,來實現(xiàn)特定關(guān)系實體對的抽取.方法對比如表1所示.

表1 基于模板的關(guān)系抽取方法對比

在1995年MUC-6 會議上,Appelt 等人[1]提出了FASTUS 抽取系統(tǒng),并引入了“宏”這一概念,用戶只需在“宏”中修改相應(yīng)參數(shù),即可快速配置好特定領(lǐng)域?qū)嶓w間的關(guān)系抽取模板.在1998年MUC-7 會議上,Yangarber 等人[13]提出了Proteus 抽取系統(tǒng),采用基于樣本泛化的思想來構(gòu)建關(guān)系抽取模板,用戶通過分析含有關(guān)系的例句,進而對識別出的要素進行泛化后而形成關(guān)系抽取模板,這進一步改善了關(guān)系抽取的通用性.Aone 等人[14]提出了IE2抽取系統(tǒng),通過人工編寫關(guān)系抽取模板,從文本中抽取與模板匹配的關(guān)系實例.Fukumoto 等人[15]提出了Oki 抽取系統(tǒng),通過利用實體之間的謂語信息來判定兩個實體間的語義關(guān)系.Humphreys 等人[16]提出了LaSIE-Ⅱ抽取系統(tǒng),通過對句子進行相應(yīng)句法分析,從而人工構(gòu)造出復(fù)雜的句法規(guī)則來識別出實體間的語義關(guān)系.

總體來說,基于模板的關(guān)系抽取方法能夠在小規(guī)模特定領(lǐng)域取得較好效果,但是存在以下問題:第一,開發(fā)人員需在特定領(lǐng)域?qū)<业闹笇?dǎo)下手工編寫關(guān)系抽取模板集合,人工參與量大,系統(tǒng)開發(fā)周期長;第二,當抽取模板集合較小時,模板的覆蓋范圍不夠,系統(tǒng)召回率不高;當抽取模板集合比較復(fù)雜時,不同模板之間容易產(chǎn)生沖突,導(dǎo)致系統(tǒng)準確率降低;第三,當系統(tǒng)移植到其他領(lǐng)域時,需要重新編寫抽取模板,系統(tǒng)可移植性較差,難以得到廣泛使用.

雖然基于模板的關(guān)系抽取方法存在一定缺陷,但卻對后續(xù)基于機器學習的關(guān)系抽取研究起到了相應(yīng)促進作用.

4.2 基于傳統(tǒng)機器學習的方法

基于傳統(tǒng)機器學習的關(guān)系抽取方法屬于有監(jiān)督的關(guān)系抽取方法,將二元關(guān)系抽取看作是分類問題,其主要工作在于如何抽取出表征兩個實體間語義關(guān)系的有效特征.該方法通常分為基于特征向量(feature-based)的方法和基于核函數(shù)(kernel-based)的方法.

基于傳統(tǒng)機器學習的關(guān)系抽取方法如表2所示.

表2 基于傳統(tǒng)機器學習的關(guān)系抽取方法對比

(1)基于特征向量的方法

基于特征向量的方法通過使用空間向量模型(vector space model),將自然句子轉(zhuǎn)換為特征向量.該方法進行關(guān)系抽取通常分為以下3 個步驟:第1 步是特征提取,即從訓練集句子中提取出如詞匯、句法和語義等特征;第2 步是模型訓練,即利用第1 步提取出的有效特征來訓練我們的分類器模型;第3 步是關(guān)系抽取,即利用訓練好的模型對測試集中的句子進行分類,進而完成實體關(guān)系抽取.基于特征向量的方法根據(jù)分類器模型的不同可分為:基于句法解析增強的方法、基于最大熵(maximum entropy)的方法、基于支持向量機(Support Vector Machine,SVM)的方法及基于條件隨機場(Conditional Random Fields,CRF)的方法等.

Miller 等人[2]在2000年設(shè)計了一個聯(lián)合模型(joint model)進行關(guān)系抽取,主要解決傳統(tǒng)流水線模型(pipeline model)中前一步操作會傳播到后一步操作的錯誤問題.Kambhatla[17]在2004年基于最大熵模型并結(jié)合詞匯、句法和語義特征進行關(guān)系抽取,只使用非常簡單的詞匯特征也取得了較高準確率,大大降低了對句法分析樹的依賴.Zhou 等人[18]在2005年基于支持向量機模型并通過融合不同詞匯、句法和語義知識進行關(guān)系抽取,該模型在Kambhatla的基礎(chǔ)上,通過加入基本短語組塊信息特征和WordNet、Name List等語義信息,來提升關(guān)系抽取效果.Culotta 等人[19]在2006年基于條件隨機場模型來進行關(guān)系抽取,提出了一種集成的有監(jiān)督機器學習方法和構(gòu)建了一個線性鏈條件隨機場來提高關(guān)系抽取性能.

基于特征向量的關(guān)系抽取方法,雖然在一定程度上可以取得不錯的效果,但其對關(guān)系實體對的上下文信息利用不夠充分.此外,對于特征向量的選擇和設(shè)置方面更多的依賴于模型構(gòu)建者的經(jīng)驗知識,于是后續(xù)研究者們進而提出了基于核函數(shù)的關(guān)系抽取方法.

(2)基于核函數(shù)的方法

基于核函數(shù)的關(guān)系抽取方法,不需要人為選擇和設(shè)置特征向量,而是直接使用原始字符串作為輸入,來計算任意兩個實體間的核相似性(kernel similarity)函數(shù).該方法進行關(guān)系抽取通常分為以下3 個步驟[25]:第1 步是選擇合適解析結(jié)構(gòu),即為了承載語句中隱含的特征信息,如使用語法樹等剖析語句;第2 步是選擇合適基礎(chǔ)核函數(shù),即在解析結(jié)構(gòu)基礎(chǔ)上,來定量地計算解析結(jié)構(gòu)中子成分的相似性;第3 步是復(fù)合多個核函數(shù),即為了充分利用各種特征,來提高分類精度.

Zelenko 等人[3]在2003年首次將核函數(shù)應(yīng)用于關(guān)系抽取任務(wù)中,提出一種使用核函數(shù)從非結(jié)構(gòu)化自然語言文本中提取關(guān)系的方法.Culotta 等人[20]在2004年提出使用依存樹核函數(shù)方法進行關(guān)系抽取,該模型在文獻[3]樹核函數(shù)方法基礎(chǔ)上進行改進,在依存關(guān)系樹上定義樹內(nèi)核,并將該內(nèi)核合并到SVM 中,可以用來在ACE 新聞?wù)Z料庫中進行實體關(guān)系的檢測和抽取.Bunescu 等人[21]在2005年提出使用最短路徑依存核函數(shù)方法進行關(guān)系抽取,該方法優(yōu)于文獻[20]的依存樹核函數(shù)方法.但由于其在計算兩個實體間最短路徑時要求依存樹具有相同的節(jié)點數(shù)和高度,因此在一定程度上限制了其使用范圍.于是兩人[22]在2006年提出使用子序列核函數(shù)方法以提升關(guān)系抽取的效果,新的模型使用了3 種子序列核函數(shù)模式,用于抽取自然語言文本中實體之間的語義關(guān)系.Zhang 等人[23]在2006年提出了復(fù)合核函數(shù)方法進行關(guān)系抽取,該模型中復(fù)合核函數(shù)由實體核函數(shù)和卷積解析樹核函數(shù)構(gòu)成,可以充分利用核函數(shù)方法的優(yōu)良特性進行關(guān)系抽取.Zhou等人[24]在2007年提出了一種具有上下文相關(guān)結(jié)構(gòu)化解析樹信息的樹核函數(shù)方法進行關(guān)系抽取,該模型通過擴展廣泛使用的最短路徑封閉樹(SPT)來包含SPT之外的必要上下文信息,自動確定動態(tài)上下文相關(guān)樹的跨度以進行關(guān)系抽取.

基于核函數(shù)方法的關(guān)系抽取方法,可以充分利用文本的長距離特征和結(jié)構(gòu)化特征,實驗結(jié)果表明其優(yōu)于基于特征向量的關(guān)系抽取方法.但由于核函數(shù)是在高維的特征空間中隱式地計算對象間的距離,因此不可避免的會引入噪聲,對特征向量的有效性會造成一定影響.此外,核函數(shù)的計算過程復(fù)雜度高,模型的訓練過程相對比較慢,因此不適于在大規(guī)模語料庫中進行關(guān)系抽取.

4.3 基于深度學習的方法

基于傳統(tǒng)的機器學習關(guān)系抽取方法比較依賴于人工構(gòu)建的各種特征,近年來基于深度學習的關(guān)系抽取方法開始被研究者們提出.深度學習方法不需要人工構(gòu)建特征,其輸入一般包括句子中的詞向量和位置向量表示.基于深度關(guān)系的關(guān)系抽取方法通常包括流水線(pipeline)關(guān)系抽取方法和聯(lián)合(joint)抽取關(guān)系抽取方法兩種.

基于深度學習的關(guān)系抽取典型方法如表3所示.

表3 基于深度學習的關(guān)系抽取典型方法比較

(1)流水線方法

基于流水線的方法將命名實體識別和關(guān)系抽取作為兩個獨立的過程進行處理,關(guān)系抽取在命名實體識別完成的基礎(chǔ)上進行.其過程可以描述為:把已經(jīng)標注好命名實體對的句子作為模型輸入,而后把實體關(guān)系三元組作為預(yù)測結(jié)果進行輸出.基于流水線的方法通常包括基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的方法、基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的方法、基于依存關(guān)系的方法和基于BERT的方法.

① 基于卷積神經(jīng)網(wǎng)絡(luò)模型的方法

基于卷積神經(jīng)網(wǎng)絡(luò)模型的關(guān)系抽取方法發(fā)展脈絡(luò)如圖3所示.Liu 等人[26]在2013年提出一種結(jié)合詞匯特征的卷積神經(jīng)網(wǎng)絡(luò)用于關(guān)系抽取,主要針對以前研究忽略詞間語義信息的情況而引入同義詞編碼,通過同義詞詞典對輸入詞進行編碼,將語義知識集成到神經(jīng)網(wǎng)絡(luò)中以進行關(guān)系抽取.Zeng 等人[4]在2014年提出利用卷積深度神經(jīng)網(wǎng)絡(luò)模型(CNN+Softmax)提取詞匯和句子級別的特征進行關(guān)系抽取,該模型無需復(fù)雜的預(yù)處理就可以將所有單詞標記作為輸入,就可以預(yù)測兩個標記名詞之間的關(guān)系.在Zeng 等人[4]的模型基礎(chǔ)上,Nguyen 等人[27]在2015年提出了一種新的改進模型,其輸入完全沒有使用人工特征,而是使用多尺寸卷積核進行N-Gram 特征抽取.Dos Santos 等人[28]在2015年提出了一種利用卷積神經(jīng)網(wǎng)絡(luò)排序進行關(guān)系分類的模型(CR-CNN),該模型為每個關(guān)系類型學習分布式矢量表示,對于給定輸入文本段,使用卷積層生成文本的分布式矢量表示形式,并將其與關(guān)系類別表示形式進行比較,以便為每個關(guān)系類別生成分數(shù).Shen 等人[29]在2016年提出了一種基于注意力機制的CNN 模型(Attention-CNN)進行關(guān)系抽取,該模型使用CNN 來提取句子級別特征,將文本段編碼為其語義表示,并可以充分利用單詞嵌入,詞性標簽嵌入和位置嵌入信息.Wang 等人[30]在2016年提出了一種基于多級注意力機制的CNN 模型(Att-Pooling-CNN)進行關(guān)系抽取,主要依賴兩個層次的注意力機制,以便更好地識別異構(gòu)上下文中的模式.Zhu 等人[31]在2017年提出了一種基于目標集中注意力機制的CNN 模型(TCA-CNN)進行關(guān)系分類,認為一個句子中不同的詞具有不同的信息量,并且詞的重要性高度依賴于關(guān)系.

圖3 基于CNN 模型的方法發(fā)展時間軸

② 基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型的方法

基于循環(huán)神經(jīng)網(wǎng)絡(luò)模型的關(guān)系抽取方法發(fā)展脈絡(luò)如圖4所示.Zhang 等人[32]在2015年首次提出使用循環(huán)神經(jīng)網(wǎng)絡(luò)模型來進行關(guān)系分類,認為關(guān)系分類問題本質(zhì)上可以看作是時間序列學習的任務(wù)問題,因此應(yīng)通過時間模型進行建模.與CNN 等其他深度學習模型相比,RNN 模型可以處理遠距離模式,因此特別適合于在較長上下文中學習關(guān)系.Zhang 等人[33]在2015年提出了雙向長短期記憶網(wǎng)絡(luò)(BLSTM)模型來解決關(guān)系分類問題,對于給定句子中的每個單詞,BLSTM 都有關(guān)于其前后所有單詞的完整的順序信息,在一定程度上可以解決長距離關(guān)系.Xiao 等人[34]在2016年提出了基于注意力機制的分層循環(huán)神經(jīng)網(wǎng)絡(luò)模型(Hier-BLSTM)進行語義關(guān)系分類,采用兩個注意機制RNN從原始句子中學習有用的特征以進行關(guān)系分類.Zhou等人[35]在2016年提出了基于注意力機制的雙向長短期記憶網(wǎng)絡(luò)(Att-BLSTM)模型進行語義關(guān)系分類,不依賴于NLP 系統(tǒng)或詞匯資源派生的任何特征,而是使用帶有位置指示符的原始文本作為輸入.Qin 等人[36]在2017年提出了一種基于實體對的雙向注意力機制門控循環(huán)單元(Gated Recurrent Unit,GRU)模型(EAtt-BiGRU),該模型利用雙向GRU 捕獲有價值的字符級信息,針對具體實例,將對應(yīng)的實體對信息作為先驗知識.Lee 等人[37]在2019年提出了一種結(jié)合實體感知注意機制和潛在實體類型(Latent Entity Type,LET)的端到端循環(huán)神經(jīng)模型(LET-BLSTM)進行關(guān)系分類,該模型為了捕捉句子的上下文,通過自我注意力機制來獲得單詞的表示,并用雙向長短期記憶網(wǎng)絡(luò)來構(gòu)建循環(huán)神經(jīng)結(jié)構(gòu).

圖4 基于RNN 模型的方法發(fā)展時間軸

③ 基于依存關(guān)系模型的方法

基于依存關(guān)系模型的關(guān)系抽取方法發(fā)展脈絡(luò)如圖5所示.Socher 等人[38]在2012年提出了一種矩陣向量遞歸神經(jīng)網(wǎng)絡(luò)模型(MV-RNN),其為解析樹中的每個節(jié)點分配向量和矩陣,并通過根據(jù)解析樹的句法結(jié)構(gòu)遞歸地組合單詞,可以自底向上計算較長短語的表示形式.Yu 等人[39]在2014年提出了基于因子的組合嵌入模型(FCM)用于關(guān)系分類,將帶注釋的句子分解為子結(jié)構(gòu)因子后,結(jié)合子結(jié)構(gòu)特征與單詞嵌入形成子結(jié)構(gòu)嵌入,再用Softmax 層來預(yù)測這個句子級嵌入的輸出標簽.Liu 等人[40]在2015年提出了一種基于依存關(guān)系的神經(jīng)網(wǎng)絡(luò)模型(DepNN)進行關(guān)系分類,提出了增強依存路徑(Augmented Dependency Path,ADP)結(jié)構(gòu),利用遞歸神經(jīng)網(wǎng)絡(luò)對子樹進行建模和卷積神經(jīng)網(wǎng)絡(luò)捕獲最短路徑上的重要特征.Xu 等人[41]在2015年提出了一種簡單負采樣的卷積神經(jīng)網(wǎng)絡(luò)模型(depLCNN+NS)進行語義關(guān)系分類,利用CNN 從最短依存路徑中學習更魯棒的關(guān)系表示,避免來自其它不相關(guān)語塊或從句的負面影響,并引入一種負采樣策略來解決關(guān)系的方向性.Xu 等人[42]在2015年提出了一種基于最短依存路徑的長短期記憶網(wǎng)絡(luò)模型(SDP-LSTM)進行關(guān)系分類,利用具有長期短期記憶單元的多通道遞歸神經(jīng)網(wǎng)絡(luò)沿最短依存路徑來收集異構(gòu)信息.Cai 等人[43]在2016年提出了一種雙向循環(huán)卷積神經(jīng)網(wǎng)絡(luò)模型(BRCNN)進行關(guān)系分類,利用基于雙通道LSTM的循環(huán)神經(jīng)網(wǎng)絡(luò)對SDP 中的全局模式進行編碼,并利用卷積層捕獲由依存關(guān)系連接的每兩個相鄰單詞的局部特征.Xu 等人[44]在2016年提出了一種基于數(shù)據(jù)擴充的深度循環(huán)神經(jīng)網(wǎng)絡(luò)模型(DRNNs) 來進行關(guān)系分類,通過多個RNN 層來探索不同抽象級別和粒度下的表示空間,同時提出了一種利用關(guān)系方向性進行數(shù)據(jù)擴充的方法.Sun 等人[45]在2018年提出了一種結(jié)合最短依存路徑監(jiān)督下關(guān)鍵詞選擇的粗粒度和細粒度網(wǎng)絡(luò)模型(SDPCFN)進行關(guān)系分類,提出了粗粒度和細粒度兩種關(guān)系分類網(wǎng)絡(luò)、SDP 監(jiān)督下的選詞網(wǎng)絡(luò)和一種新的相反損失函數(shù).

圖5 基于依存關(guān)系模型的方法發(fā)展時間軸

④ 基于BERT 模型的方法

Wu 等人[46]在2019年提出了一種基于實體信息來豐富BERT 預(yù)訓練語言模型的方法(R-BERT)來進行關(guān)系分類,結(jié)合預(yù)訓練的BERT 模型和目標實體信息來解決關(guān)系分類問題,通過預(yù)先訓練的體系結(jié)構(gòu)定位目標實體并傳遞信息,并合并兩個實體的相應(yīng)編碼.Soares 等人[47]在2019年提出了一種通用關(guān)系提取器(BERTEM+MTB),主要基于Harris的分布假設(shè)對關(guān)系的擴展以及在學習文本表示形式(特別是BERT)方面的最新進展,以完全從實體鏈接的文本構(gòu)建與任務(wù)無關(guān)的關(guān)系表示形式.通過實驗證明,BERTEM+MTB 大大優(yōu)于SemEval 2010 Task 8 上的先前方法,取得了目前最高F1 值89.5.

以上基于深度學習的流水線關(guān)系抽取方法,其關(guān)系抽取的結(jié)果過度依賴于命名實體識別的結(jié)果,忽略了兩個過程之間存在的關(guān)系,一定程度上影響了關(guān)系抽取的效果;同時,命名實體識別過程的錯誤也會傳播到關(guān)系抽取過程中,即流水線方法通常存在的錯誤累積傳播問題.

(2)聯(lián)合方法

為了避免流水線方法所帶來的錯誤累積傳播問題,基于深度學習的聯(lián)合關(guān)系抽取方法開始被提出.聯(lián)合關(guān)系抽取方法使用單個模型將命名實體識別和關(guān)系抽取兩個過程結(jié)合在一起,以便在統(tǒng)一的模型中進行共同優(yōu)化.聯(lián)合關(guān)系抽取方法發(fā)展脈絡(luò)如圖6所示.

圖6 聯(lián)合方法發(fā)展時間軸

Miwa 等人[48]在2016年提出了一種基于序列和樹結(jié)構(gòu)的LSTMs 端到端模型進行實體和關(guān)系聯(lián)合抽取.該模型在循環(huán)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上通過在雙向序列LSTM-RNNs 上疊加雙向樹結(jié)構(gòu)LSTM-RNNs 來同時捕獲字序列和依存樹子結(jié)構(gòu)信息,這允許模型在單個模型中使用共享參數(shù)共同表示實體和關(guān)系.Katiyar 等人[49]在2016年提出了基于雙向LSTMs的實體與關(guān)系聯(lián)合抽取模型.這是第一次嘗試使用深度學習方法處理完整的意見實體和關(guān)系抽取任務(wù).但該模型只能用于聯(lián)合抽取意見實體和IS-FROM和ISABOUT 關(guān)系,而無法用于抽取其他實體關(guān)系類型,不具有通用性.Katiyar 等人[50]為了解決上述問題,又在2017年提出了一種基于注意力機制的循環(huán)神經(jīng)網(wǎng)絡(luò)模型,在不使用于任何依存樹信息的情況下進行實體標記和關(guān)系的聯(lián)合提取.Zheng 等人[51]在2017年提出了一種基于混合神經(jīng)網(wǎng)絡(luò)的實體與關(guān)系聯(lián)合抽取模型,可以在不需要任何人工特征的情況下提取實體及其語義關(guān)系.該模型包含一個用于命名實體識別的雙向編解碼模塊(BiLSTM-ED)和一個用于關(guān)系分類的CNN 模塊,可以用來捕獲實體標簽之間的長距離關(guān)系.Zheng 等人[52]在2017年又提出了一種基于標記方案的實體與關(guān)系聯(lián)合抽取模型(LSTM-LSTM-Bias).該模型設(shè)計了一種帶有端到端模型的標記方案,其中包含實體及其所具有的關(guān)系的信息,從而將實體和關(guān)系的聯(lián)合抽取轉(zhuǎn)換為了標記問題.Sun 等人[53]在2018年提出了一種基于最小風險訓練(MRT)方法的輕量級實體與關(guān)系聯(lián)合抽取模型.基于MRT的方法的優(yōu)點是可以顯式地優(yōu)化全局句子級損失(如F1 值),而不是局部標記級損失,從而模型可以在訓練時間內(nèi)捕捉更多的句子級信息,在測試時間內(nèi)更好地匹配評價指標.Wang 等人[54]在2018年提出了一種基于圖形方案的實體與關(guān)系聯(lián)合抽取模型.該模型用直觀的圖形方案來共同表示實體和關(guān)系,從而將端到端的關(guān)系抽取很容易地轉(zhuǎn)換成類似解析的任務(wù).

以上的實體與關(guān)系聯(lián)合抽取模型所采用的方法基本上可以分為兩大陣營,一種是以Miwa 等人[48]為代表基于參數(shù)共享的實體關(guān)系抽取方法,另外一種是以Zheng 等人[51]為代表基于序列標注的實體關(guān)系抽取方法.基于參數(shù)共享的方法很好地緩解了流水線方法所帶來的錯誤累積傳播問題以及兩個子過程間關(guān)系被忽視的問題.而基于序列標注的方法在上兩個問題之外,還解決了流水線方法中的實體冗余的問題.

4.4 基于弱監(jiān)督的方法

基于有監(jiān)督學習的關(guān)系抽取方法需要大量有標注的訓練語料,而人工標注這些語料則耗時耗力,尤其是面對海量非結(jié)構(gòu)化網(wǎng)絡(luò)數(shù)據(jù)時,問題則更加突出.當訓練語料較少時,則可以利用弱監(jiān)督學習方法來進行關(guān)系抽取.弱監(jiān)督關(guān)系抽取主要包括基于遠程監(jiān)督(distant supervision)的方法和基于Bootstrapping的方法.

(1)基于遠程監(jiān)督的方法

遠程監(jiān)督方法所基于的假設(shè)為:若兩個實體間存在某種關(guān)系,則所有包含這兩個實體的句子都可能以某種方式表達這種關(guān)系[5].該方法通過將非結(jié)構(gòu)化文本中的實體對與知識圖譜進行對齊來自動標注訓練樣本,以構(gòu)建大量的訓練數(shù)據(jù),從而減少對人工的依賴,增強了模型的跨領(lǐng)域適應(yīng)能力.

基于遠程監(jiān)督的關(guān)系抽取典型方法如表4所示.

表4 基于遠程監(jiān)督的關(guān)系抽取典型方法對比

① 基于傳統(tǒng)特征的遠程監(jiān)督方法

基于傳統(tǒng)特征的遠程監(jiān)督方法發(fā)展脈絡(luò)如圖7所示.Mintz 等人[5]在2009年首次將遠程監(jiān)督的方法運用到實體關(guān)系抽取任務(wù)中.該模型使用一個具有數(shù)千個關(guān)系的大型語義數(shù)據(jù)庫Freebase 來提供遠程監(jiān)督,對于出現(xiàn)在Freebase 關(guān)系庫的每一對實體,在一個大的未標記語料庫Wikipedia 中找出包含這些實體的所有句子,并提取文本特征以訓練一個關(guān)系分類器.Riedel 等人[12]在2010年提出了一種基于無向圖模型和遠程監(jiān)督框架的多實例學習模型來進行關(guān)系抽取.該模型認為Mintz 等人[5]先前的假設(shè)過于絕對,進而提出了“at least one sentence”假設(shè),即如果將所有包含兩個相關(guān)實體的句子看成是一個包,那么這個包中至少有一個句子表達了相應(yīng)的關(guān)系.Hoffmann 等人[55]在2011年提出了一種可以處理多重關(guān)系的多實例學習概率圖模型MultiR 來進行關(guān)系抽取.Mintz 及Riedel等人的模型假設(shè)實體間只存在一種關(guān)系,事實上部分實體間往往會存在多重關(guān)系.Surdeanu 等人[56]在2012年提出了一種多實例多標簽學習模型MIML 用于關(guān)系抽取,認為一個句子中一對實體所表達的關(guān)系是未知的,有可能有關(guān)系或根本沒有關(guān)系.該模型利用具有潛在變量的概率圖模型,將文本中含有實體對的所有實例及其所有關(guān)系標簽聯(lián)合起來進行建模.Takamatsu 等人[57]在2012年提出了一種減少使用遠程監(jiān)督假設(shè)創(chuàng)建的錯誤關(guān)系標簽數(shù)量的方法.該模型直接模擬了遠程監(jiān)督的啟發(fā)式標記過程,并使用預(yù)測模式來判斷指定的關(guān)系標簽是正確的還是錯誤的.如果模式能夠成功預(yù)測關(guān)系標簽,那么標注樣本應(yīng)當保留;如果不能,則標注樣本應(yīng)該拋棄.

圖7 基于傳統(tǒng)特征的遠程監(jiān)督方法發(fā)展時間軸

以上模型方法都是基于傳統(tǒng)特征的,然而傳統(tǒng)特征的設(shè)計周期相對較長,而且模型應(yīng)用范圍受限,擴展性較差.同時,在提取特征時會使用自然語言處理工具,導(dǎo)致誤差不斷向下傳播,進而影響關(guān)系抽取的效果.

② 基于深度學習的遠程監(jiān)督方法

近年來,隨著深度學習神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,目前基于深度學習的遠程監(jiān)督方法相關(guān)研究已經(jīng)占據(jù)主導(dǎo)地位.基于深度學習的遠程監(jiān)督方法發(fā)展脈絡(luò)如圖8所示.

圖8 基于深度學習的遠程監(jiān)督方法發(fā)展時間軸

Zeng 等人[58]在2015年提出了一種多實例學習的分段卷積神經(jīng)網(wǎng)絡(luò)(PCNNs+MIL)關(guān)系抽取模型.該模型將遠程監(jiān)督關(guān)系抽取問題看作是一個多實例問題,考慮了實例標簽的不確定性;其無需復(fù)雜的NLP 預(yù)處理,而是采用了帶分段最大池化操作的卷積神經(jīng)網(wǎng)絡(luò)來自動學習相關(guān)特征.Lin 等人[59]在2016年提出了一種基于句子級選擇性注意力機制的卷積神經(jīng)網(wǎng)絡(luò)(PCNN+ATT)關(guān)系抽取模型,是對Zeng 等人[58]模型的改進,主要還是解決遠程監(jiān)督錯誤標注的問題.Jiang 等人[60]在2016年提出了一種多實例多標簽卷積神經(jīng)網(wǎng)絡(luò)(MIMLCNN)關(guān)系抽取模型.該模型首先放寬了“至少一次表達”的假設(shè),并采用了跨句最大池化操作,以使信息可以在不同句子之間共享;然后,使用神經(jīng)網(wǎng)絡(luò)分類器通過多標簽學習處理多重關(guān)系.Ji 等人[61]在2017年提出使用句子級注意力機制結(jié)合實體描述信息的遠程監(jiān)督模型(APCNNs+D)進行關(guān)系抽取.其中,注意力機制可以通過為有效實例分配較高的權(quán)重,為無效實例分配較低的權(quán)重,來選擇包中的多個有效實例;而實體描述信息可以提供更多背景知識.除此之外,Ren 等人[62]在2016年提出了一種聯(lián)合抽取模型(COTPYE)用于關(guān)系抽取,以解決將實體抽取和關(guān)系抽取兩項工作分別進行所帶來的錯誤累積傳播問題.Liu 等人[63]在2018年提出了一種基于語句內(nèi)降噪和遷移學習模型(BGRU+STP+EWA+TL)進行關(guān)系抽取,通過建立子樹解析(STP)來去除與關(guān)系無關(guān)的噪聲詞,運用實體注意力機制來識別每一個實例中關(guān)系詞的重要語義特征,通過轉(zhuǎn)移學習從實體分類的相關(guān)任務(wù)中學習先驗知識使模型對噪聲具有更強的魯棒性.Vashishth等人[64]在2018年提出了一種基于邊信息的圖形卷積網(wǎng)絡(luò)(GCN)模型(RESIDE) 進行關(guān)系抽取,一方面利用知識庫中的附加邊信息來改進遠程監(jiān)督關(guān)系提取,另一方面利用GCN 從文本中對語法信息進行編碼.Xu 等人[65]在2019年提出了一種將語言和知識與異構(gòu)表示聯(lián)系起來以進行神經(jīng)關(guān)系抽取的模型(HRERE),使用知識庫嵌入(KBE)進行鏈路預(yù)測來改進關(guān)系抽取,通過一個統(tǒng)一學習關(guān)系抽取和知識庫嵌入模型的框架幫助縮小差距,從而顯著提高關(guān)系抽取的效果.

③ 基于強化學習的遠程監(jiān)督方法

自從AlphaGo在圍棋領(lǐng)域打敗了人類專業(yè)棋手后,強化學習就進入了眾多研究者的視野.將強化學習應(yīng)用到遠程監(jiān)督關(guān)系抽取領(lǐng)域的研究也開始不斷出現(xiàn).

Feng 等人[66]在2018年提出了一種使用強化學習框架來解決遠程監(jiān)督關(guān)系抽取中噪聲的模型(CNN+RL).CNN+RL 模型主要用于在句子層面上降噪,由一個實例選擇器和一個關(guān)系分類器組成.實例選擇器為關(guān)系分類器選擇高質(zhì)量的句子,關(guān)系分類器在句子級別預(yù)測關(guān)系,并向選擇器提供獎勵,以作為監(jiān)督實例選擇過程的微弱信號.這將實例選擇實際轉(zhuǎn)化為了一個強化學習問題.Zeng 等人[67]同樣在2018年提出了使用強化學習方法在遠程監(jiān)督數(shù)據(jù)集上進行關(guān)系抽取的模型(PE+REINF).PE+REINF 模型遵循“至少表達一次”的假設(shè)來預(yù)測包關(guān)系,但從預(yù)測的角度重新表述:當預(yù)測包的關(guān)系時,當且僅當包中的所有句子都表示NA 關(guān)系(無關(guān)系)時,包才是NA 關(guān)系,否則,包是用它的句子表示的真實關(guān)系.模型利用實體對的關(guān)系作為遠程監(jiān)督,借助強化學習方法指導(dǎo)關(guān)系抽取器的訓練.

基于遠程監(jiān)督的關(guān)系抽取方法作為弱監(jiān)督方法的一種,其優(yōu)點在于可以通過較低成本獲得大量訓練數(shù)據(jù),克服了有監(jiān)督方法需要大量標注數(shù)據(jù)的弊端,其在面對大量無標注數(shù)據(jù)時會顯現(xiàn)出特有的優(yōu)勢,在一些缺乏標注數(shù)據(jù)集的垂直領(lǐng)域中具有很好的應(yīng)用前景;其缺點在于當所采用的知識庫不完備及有錯誤標注時會產(chǎn)生噪聲問題,將導(dǎo)致抽取效果比有監(jiān)督方法差很多,這給關(guān)系抽取準確率的提升帶來了較大挑戰(zhàn).因此,在遠程監(jiān)督關(guān)系抽取方法研究中,如何克服噪聲問題已成為研究關(guān)注的重點.

(2)基于Bootstrapping的方法

自動化模板抽取通常采用自舉法(Bootstrapping)算法來實現(xiàn),如圖9所示.針對某個特定類型的關(guān)系實例抽取任務(wù),自舉法的基本思想是:① 實體標注,即為該關(guān)系類型標注少量的初始種子實體對;② 句子查找,即找到實體對在數(shù)據(jù)集中所出現(xiàn)的句子集合;③ 模板提取,即基于上述句子集合提取表達關(guān)系的模板;④ 實例抽取,即使用經(jīng)篩選和評估后的新模板去數(shù)據(jù)集中抽取新的實體對.上述“模板提取+實例抽取”的過程循環(huán)迭代,直至不再發(fā)現(xiàn)新的關(guān)系實例.這個過程也被稱為“滾雪球(snowball)”[68].

圖9 基于Bootstrapping的關(guān)系抽取流程

基于自舉法的關(guān)系抽取方法得到了廣泛應(yīng)用,出現(xiàn)了很多具有代表性的系統(tǒng),主要有Brin 等人[6]在1998年提出的DIPRE (Dual Iterative Parttern Relation Expansion)抽取系統(tǒng),Agichtein 等人[69]在2000年提出的Snowball 抽取系統(tǒng),Etzioni 等人[70]在2005年提出的KnowItAll 抽取系統(tǒng),以及卡內(nèi)基梅隆大學(CMU)的Tom Mitchell 教授領(lǐng)導(dǎo)的團隊在2010年開發(fā)的NELL (Never-Ending Language Learner) 抽取系統(tǒng)[71].

自舉法的優(yōu)點是關(guān)系抽取系統(tǒng)構(gòu)建成本低,不需要過多的人工標記數(shù)據(jù),適合大規(guī)模的關(guān)系抽取任務(wù).但是,自舉法也存在不足之處,包括對初始種子集較為敏感、存在語義漂移問題、抽取結(jié)果準確率較低等.

4.5 基于無監(jiān)督的方法

無監(jiān)督關(guān)系抽取方法主要基于分布式假設(shè)理論:如果兩個詞語出現(xiàn)在相同上下文中且用法相似,那么它們意思相近.相應(yīng)的,在關(guān)系抽取任務(wù)中,具有相同語義關(guān)系的實體對也傾向于具有相似的上下文語境,其上下文可作為表征該語義關(guān)系的特征.該方法進行關(guān)系抽取通常分為以下兩個步驟:第一步是實體對聚類,即采用某種聚類方法將語義相似度高的實體對聚為一類;第二步是關(guān)系標記,即在上下方中選擇具有代表性的詞語來標記這種關(guān)系.

Hasegawa 等人[72]在2004年首次提出了一種基于無監(jiān)督的大型語料庫關(guān)系發(fā)現(xiàn)方法,其核心思想是根據(jù)命名實體之間上下文詞語的相似度對命名實體進行聚類.Chen 等人[73]在2005年對Hasegawa 等人[72]的方法進行了改進,該方法將每個實體對的上下文,而不是所有相同實體對的上下文,作為實體之間的語義關(guān)系特征.Rozenfeld 等人[74]在2006年提出了一種無監(jiān)督的關(guān)系識別和提取系統(tǒng)URIES,該系統(tǒng)使用一種基于模式的上下文表示來代替實體對的上下文,使關(guān)系抽取結(jié)果取得了較大提高.Shinyama 等人[75]在2006年提出了一種多層級聚類的無監(jiān)督關(guān)系抽取方法,該方法試圖在一個文檔中發(fā)現(xiàn)多個實體之間的并行對應(yīng)關(guān)系,并使用基本模式作為特征進行聚類.Bollegala 等人[76]在2010年提出了一種用于針對Web 上實體對的無監(jiān)督關(guān)系抽取方法,該方法利用關(guān)系的對偶性,使用協(xié)同聚類來發(fā)現(xiàn)實體對及其關(guān)系模板的聚類簇,并從中選擇具有代表性的模板作為對應(yīng)的關(guān)系.Yao 等人[77]在2012年提出了一種基于語義消歧的無監(jiān)督關(guān)系發(fā)現(xiàn)方法,該方法使用主題模型將實體對及其對應(yīng)的關(guān)系模板分配到不同的語義類別上,然后再使用聚類方法將這些語義類別映射到語義關(guān)系上.Simon 等人[78]在2019年提出了一種具有關(guān)系分布損失的正則化判別方法來進行無監(jiān)督信息抽取,該模型通過引入偏度損失函數(shù)和分布距離損失函數(shù)來提高判別模型的性能.Tran 等人[79]在2020年提出了一個簡單的無監(jiān)督關(guān)系抽取方法,該方法僅使用命名實體來推導(dǎo)關(guān)系類型,與現(xiàn)有方法相比可以獲得更好的性能.

無監(jiān)督關(guān)系抽取方法的優(yōu)點是無需預(yù)先定義關(guān)系類型,并可以發(fā)現(xiàn)新的關(guān)系類型,適用領(lǐng)域范圍廣.但也存在缺點,由于發(fā)現(xiàn)的關(guān)系往往是相似模板的聚類,因此關(guān)系往往不具有語義信息,很難被用來構(gòu)建知識庫.如果要得到具有語義信息的關(guān)系,需要人工方式添加語義信息或?qū)⑵渑c現(xiàn)有知識庫的關(guān)系進行對齊.

4.6 有監(jiān)督深度學習方法與遠程監(jiān)督方法對比

有監(jiān)督的深度學習關(guān)系抽取方法所采用的數(shù)據(jù)集規(guī)模一般相對較小,以人工標為主,特點是噪聲小、準確率高,但花費成本較高;訓練出的關(guān)系抽取模型抽取效果較好,但領(lǐng)域可遷移性較差.

無監(jiān)督的遠程監(jiān)督關(guān)系抽取方法的數(shù)據(jù)集主要采用遠程知識庫方式,數(shù)據(jù)集規(guī)模較大,特點是噪聲大、準確率低,但花費成本較低;訓練出的關(guān)系抽取模型抽取效果比有監(jiān)督的方法相比差一些,但領(lǐng)域可遷移性相對較好.

有監(jiān)督深度學習方法與遠程監(jiān)督方法對比具體如表5所示[80].

表5 有監(jiān)督深度學習方法與遠程監(jiān)督方法對比

5 未來研究方向及應(yīng)用分析

5.1 未來研究方向

盡管關(guān)系抽取在近20年間已得到了學術(shù)界的廣泛關(guān)注和研究,各種關(guān)系抽取方法也在不斷地得到嘗試,但關(guān)系抽取在實際應(yīng)用過程中仍然面臨著很多挑戰(zhàn),從理論研究轉(zhuǎn)變?yōu)楣I(yè)實踐還有很長的路要走.下面對關(guān)系抽取的未來研究方法進行分析和展望.

(1)基于模板和深度學習相融合的關(guān)系抽取研究

在早期的時候,基于模板的關(guān)系抽取方法研究得相對比較多.基于模板的關(guān)系抽取方法優(yōu)點是抽取準確率比較高,但召回率較低.同時,該方法還存在“完全匹配”或“硬匹配”問題,即無法應(yīng)用于語義相同而表述不同的短語中.而基于深度學習的關(guān)系抽取則能夠匹配表述不同而語義相近的短語.因此,如果能將兩者融合在一起,則有可能提高關(guān)系抽取的性能[81].

(2)基于深度學習新進展的關(guān)系抽取研究

隨著前些年深度神經(jīng)網(wǎng)絡(luò)在其他領(lǐng)域的成熟應(yīng)用,學者們已將各種神經(jīng)網(wǎng)絡(luò)模型(如CNN、RNN)相互結(jié)合應(yīng)用于了關(guān)系抽取任務(wù)中,獲得了豐富的研究成果.近幾年,隨著強化學習[82,83]、生成對抗學習[84,85]、圖卷積神經(jīng)網(wǎng)絡(luò)[86,87]、預(yù)訓練模型[88-90]等深度學習新技術(shù)的提出,又有很多學者開始研究如何將這些方法應(yīng)用于關(guān)系抽取中.因此,未來可以嘗試將這些新的深度學習技術(shù)應(yīng)用于關(guān)系抽取任務(wù)中,從而來提升關(guān)系抽取的效果.

(3)段落級和篇章級的關(guān)系抽取研究

如今的關(guān)系抽取研究大多集中在詞匯級和語句級層面,很少有學者將其擴展到段落級和篇章級層面.而僅僅根據(jù)給定實體對和句子來抽取關(guān)系,往往會缺乏必要的背景知識,從而造成關(guān)系抽取的困難.如果能夠根據(jù)整個段落或篇章文字來獲取實體的背景知識,則有可能帶來實體關(guān)系抽取性能的大幅提升.因此,如何結(jié)合背景知識進行聯(lián)合實體關(guān)系抽取以及進行段落級、篇章級的聯(lián)合抽取研究具有重要的研究價值.

(4)多元實體關(guān)系抽取研究

目前文獻中關(guān)于關(guān)系抽取的研究,多數(shù)集中于從單一句子中抽取出二元關(guān)系.這些關(guān)系抽取模型基于的假設(shè)都是句子中給定的兩個標注實體間只存在一種關(guān)系.而在實際生活中,我們所面對的句子中的實體對間存在著不止一種關(guān)系,三元甚至是多元關(guān)系.簡單的二元關(guān)系抽取模型已經(jīng)無法滿足現(xiàn)實任務(wù)的要求.因此,針對多元實體關(guān)系的抽取研究將具有重要的現(xiàn)實意義.

5.2 應(yīng)用分析

關(guān)系抽取作為信息抽取的一項重要內(nèi)容和知識圖譜構(gòu)建中的一個關(guān)鍵環(huán)節(jié),具有十分廣闊的應(yīng)用前景.具體應(yīng)用表現(xiàn)在以下幾個方面:

(1)有助于深層自然語言理解

目前的機器語言理解系統(tǒng)只能理解淺層次語言,在深層次語言理解上正確率較低、效果難以令人滿意.關(guān)系抽取作為句子、段落和篇章中關(guān)系內(nèi)容抽取的一項關(guān)鍵技術(shù),對文本中核心內(nèi)容的理解具有重要意義.因此,文本語義關(guān)系抽取的研究對實現(xiàn)機器真正理解人類語言具有重要推動作用,對機器翻譯等自然語言處理領(lǐng)域的任務(wù)性能提升也將具有重要意義.

(2)自動構(gòu)建大規(guī)模知識圖譜

當前很多互聯(lián)網(wǎng)應(yīng)用都離不開底層通用知識圖譜和領(lǐng)域知識圖譜的支撐.如何有效利用互聯(lián)網(wǎng)上海量多源異構(gòu)數(shù)據(jù)以構(gòu)建大規(guī)模知識圖譜,則會對提升互聯(lián)網(wǎng)應(yīng)用性能起到重要作用.如果利用人工構(gòu)建知識圖譜特別是構(gòu)建領(lǐng)域知識圖譜的話,則將面臨構(gòu)建成本高、開發(fā)周期長、知識覆蓋率低和領(lǐng)域數(shù)據(jù)稀疏等一系列問題.利用關(guān)系抽取技術(shù)則可以很好地解決上述問題,根據(jù)需求自動抽取結(jié)果以形成知識圖譜.

(3)為其它應(yīng)用提供技術(shù)支持

關(guān)系抽取對問答系統(tǒng)和信息檢索等具體應(yīng)用均可提供技術(shù)支持.在問答系統(tǒng)中,關(guān)鍵問題就是要構(gòu)建一個與領(lǐng)域無關(guān)的問答類型體系,而后找出與問答類型體系中每個問答類型相對應(yīng)的答案模式,這就需要關(guān)系抽取技術(shù)的支持.在信息檢索中,有了關(guān)系抽取技術(shù)的支持,可以構(gòu)建出大規(guī)模的知識圖譜,而后通過對檢索信息進行關(guān)聯(lián)搜索和推理,可以為用戶提供更加智能化的檢索服務(wù).

猜你喜歡
語義模板神經(jīng)網(wǎng)絡(luò)
高層建筑中鋁模板系統(tǒng)組成與應(yīng)用
真實場景水下語義分割方法及數(shù)據(jù)集
鋁模板在高層建筑施工中的應(yīng)用
基于神經(jīng)網(wǎng)絡(luò)的船舶電力系統(tǒng)故障診斷方法
MIV-PSO-BP神經(jīng)網(wǎng)絡(luò)用戶熱負荷預(yù)測
基于改進Hopfield神經(jīng)網(wǎng)絡(luò)的對地攻擊型無人機自主能力評價
特高大模板支撐方案的優(yōu)選研究
Inventors and Inventions
三次樣條和二次刪除相輔助的WASD神經(jīng)網(wǎng)絡(luò)與日本人口預(yù)測
漢語依憑介詞的語義范疇
宕昌县| 武山县| 广饶县| 曲阜市| 额尔古纳市| 封丘县| 库伦旗| 曲周县| 胶南市| 西畴县| 平定县| 威信县| 左云县| 庆元县| 太白县| 瑞丽市| 墨玉县| 崇礼县| 阜宁县| 双辽市| 达拉特旗| 赣州市| 星子县| 灵宝市| 建阳市| 容城县| 德江县| 新乡市| 班玛县| 四会市| 两当县| 莒南县| 曲水县| 苏尼特左旗| 雷波县| 永平县| 股票| 山东省| 烟台市| 长子县| 油尖旺区|