王傳棟,徐 嬌,張 永
南京郵電大學(xué) 計(jì)算機(jī)學(xué)院,南京210023
隨著大數(shù)據(jù)的迅猛發(fā)展,海量信息常以半結(jié)構(gòu)化或者非結(jié)構(gòu)化的形式呈現(xiàn)給用戶,如何通過文本深層分析模型向用戶提供高質(zhì)量、精準(zhǔn)而有價(jià)值的信息成為學(xué)者們研究的熱點(diǎn)問題。在這種背景下,信息抽取的研究得到了快速發(fā)展,實(shí)體關(guān)系抽取作為其重要子任務(wù)之一,逐漸引起廣大學(xué)者的關(guān)注。
關(guān)系抽取旨在已完成實(shí)體識別的基礎(chǔ)上,檢索實(shí)體間所存在的關(guān)系,即在已標(biāo)注出實(shí)體及實(shí)體類型的句子上確定實(shí)體間的關(guān)系類別。目前主流的實(shí)體關(guān)系抽取方法可細(xì)分為基于有監(jiān)督的方式、基于半監(jiān)督的方式、基于無監(jiān)督的方式和面向開放域的關(guān)系抽取。隨著近些年深度學(xué)習(xí)的不斷發(fā)展和完善,學(xué)者們開始嘗試將一些基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)引入到關(guān)系抽取任務(wù)中[1],成為新的研究熱點(diǎn)。
作為信息抽取的重要任務(wù)之一,關(guān)系抽取能夠?qū)Ω×6葮颖緮?shù)據(jù)中的信息進(jìn)行語義關(guān)系分析,通過對海量信息進(jìn)行關(guān)系抽取,可以將無結(jié)構(gòu)文本轉(zhuǎn)化為格式統(tǒng)一的關(guān)系數(shù)據(jù),為知識圖譜、推薦系統(tǒng)、信息檢索等任務(wù)提供支持。同時(shí),關(guān)系抽取的研究對篇章理解、自動摘要生成等研究領(lǐng)域也有深刻意義,具有廣闊的應(yīng)用場景。
1998年美國國防高級研究計(jì)劃局召開第七屆消息理解會議(Message Understanding Conference,MUC),并首次提出模板抽取任務(wù)。MUC-7中關(guān)系抽取任務(wù)首次單獨(dú)作為評測任務(wù)被提出,評測語料內(nèi)容主要來自于紐約時(shí)報(bào)中涉及飛機(jī)失事、航天發(fā)射事件的相關(guān)新聞[2],其中包含三類實(shí)體關(guān)系:Location_of、Employee_of和Product_of,并且設(shè)計(jì)了相應(yīng)的評價(jià)體系。
1999年美國國家標(biāo)準(zhǔn)技術(shù)研究院召開自動內(nèi)容抽取會議(Automatic Content Extraction,ACE),旨在研究新聞?wù)Z料中的信息抽取任務(wù)。關(guān)系抽取任務(wù)屬于ACE會議中定義的關(guān)系檢測與識別(Relation Detection and Recognition,RDR)[3],繼MUC和ACE評測會議后,SemEval(Semantic Evaluation)也成為信息抽取領(lǐng)域的重要會議,其間補(bǔ)增評測任務(wù)中的實(shí)體關(guān)系類型,進(jìn)一步促進(jìn)了實(shí)體關(guān)系抽取問題的研究。
隨著大數(shù)據(jù)時(shí)代的來臨,異構(gòu)數(shù)據(jù)呈指數(shù)級的增加,而上述測評會議所發(fā)布的依靠人工標(biāo)注方式得到的語料集已經(jīng)無法滿足新的需求。人工標(biāo)注雖可以獲得高質(zhì)量數(shù)據(jù),但成本較高且語料的覆蓋面窄,對于醫(yī)療等某些特定領(lǐng)域,需要更高昂的標(biāo)注成本,導(dǎo)致模型可拓展性較差。一方面為了獲得大規(guī)模、多領(lǐng)域的語料支持,許多學(xué)者開始關(guān)注面向開放域的信息抽取任務(wù),另一方面隨著涵蓋更多領(lǐng)域信息的Freebases、維基百科和YAGO等知識庫的建立和壯大,ACL 2009會議上Mintz首次提出將Distant Supervision應(yīng)用到關(guān)系抽取任務(wù)中,并取得了一定效果[4]。傳統(tǒng)機(jī)器學(xué)習(xí)方法存在特征提取誤差傳播問題,極大影響關(guān)系抽取模型的性能。隨著深度學(xué)習(xí)的崛起,學(xué)者們逐漸將深度學(xué)習(xí)引入關(guān)系抽取任務(wù),大量基于CNN、RNN、LSTM、GRU、GCN等神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的關(guān)系抽取方法被提出。
實(shí)體關(guān)系抽取是構(gòu)建知識庫的重要步驟,也是許多NLP下游任務(wù)的基礎(chǔ),根據(jù)對人工標(biāo)注數(shù)據(jù)的依賴程度,主流的實(shí)體關(guān)系抽取方法主要分為三種:有監(jiān)督學(xué)習(xí)方法、半監(jiān)督學(xué)習(xí)方法和無監(jiān)督學(xué)習(xí)方法[5]。近年來,隨著深度學(xué)習(xí)在聯(lián)合學(xué)習(xí)、遠(yuǎn)程監(jiān)督等方面的應(yīng)用,使關(guān)系抽取任務(wù)相比此前基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法取得了更好的效果。
基于監(jiān)督學(xué)習(xí)方法的實(shí)體關(guān)系抽取任務(wù),通過在人工標(biāo)注的數(shù)據(jù)上訓(xùn)練模型,然后將其應(yīng)用在特定領(lǐng)域,具有較高準(zhǔn)確率,主要包括基于規(guī)則的方法、基于特征向量的方法和基于核函數(shù)的方法[6]。
基于規(guī)則的方法主要運(yùn)用語言學(xué)的相關(guān)知識,對語料進(jìn)行分析并歸納出關(guān)系表達(dá)式。Aone等[7]通過人工制定的抽取規(guī)則,來對文本數(shù)據(jù)進(jìn)行模式匹配,篩選出符合相應(yīng)規(guī)則的關(guān)系樣例。Miller等人[8]通過使用與實(shí)體相關(guān)的語義信息來擴(kuò)展語法樹并聯(lián)合表示句法和語義,生成規(guī)則進(jìn)行實(shí)體關(guān)系抽取。Fundel等人[9]使用斯坦福開發(fā)的句法分析器(Stanford Parser)構(gòu)造句子的依存關(guān)系樹(Dependency Tree),通過對依存關(guān)系樹上兩個實(shí)體間的路徑進(jìn)行分析來制定規(guī)則。然而制定關(guān)系規(guī)則時(shí)需要相關(guān)領(lǐng)域知識的支持,并且規(guī)則不具有通用性,無法有效進(jìn)行跨領(lǐng)域遷移。
基于特征向量的方法首先從句子上下文中提取詞性、實(shí)體位置等有用信息來構(gòu)造特征向量,結(jié)合機(jī)器學(xué)習(xí)方法在特征向量上訓(xùn)練關(guān)系抽取模型。Kambhatla等人[10]使用實(shí)體類型、實(shí)體詞、句法分析樹、依存關(guān)系等多種特征構(gòu)造特征向量作為模型輸入,并在特征向量上首次采用最大熵分類模型對實(shí)體關(guān)系抽取問題進(jìn)行建模,實(shí)驗(yàn)證明:結(jié)合各層次的語言特征對關(guān)系抽取任務(wù)具有豐富的價(jià)值。Zhou等人[11]在Kambhatla模型的基礎(chǔ)上加入了WordNet、基本詞組塊和Name List信息來增強(qiáng)語義信息,采用SVM分類器在實(shí)體關(guān)系抽取上的F-measure達(dá)到55.5%。Jiang等人[12]系統(tǒng)分析和比較了不同特征對關(guān)系抽取結(jié)果的影響,結(jié)果表明選取較基礎(chǔ)的特征就能達(dá)到很好的效果,相反的,若所選取特征不相互獨(dú)立時(shí),會一定程度導(dǎo)致性能的下降。Bui等人[13]、楊志豪[14]以及Miwa[15]使用詞袋特征、詞性特征以及依存關(guān)系特征等作為模型輸入,并在生物醫(yī)學(xué)領(lǐng)域的關(guān)系抽取上取得了一定成績。
盡管基于特征向量的方法在關(guān)系抽取領(lǐng)域取得了很好的效果,但存在一定局限性,首先該方法很大程度上依賴大量特征工程的工作;其次當(dāng)前使用的特征已基本覆蓋大多數(shù)語言現(xiàn)象,性能上難以實(shí)現(xiàn)較大的提升?;谔卣飨蛄糠椒ㄉ鲜龅木窒扌裕嗟难芯空邍L試將核函數(shù)應(yīng)用到實(shí)體關(guān)系抽取領(lǐng)域中,核方法不需要人為構(gòu)造顯性特征向量,而使用核函數(shù)的映射對多種信息進(jìn)行融合來實(shí)現(xiàn)關(guān)系抽取。
采用基于核方法的關(guān)系抽取,對高維特征空間的樣例只需計(jì)算其內(nèi)積而無需得到具體的函數(shù)值,即使用隱性特征映射代替顯性的特征映射,為基于特征向量的方法開拓了新的思路[16]。Zelenko等人[17]在2013年首次將核方法應(yīng)用到關(guān)系抽取任務(wù)上,設(shè)計(jì)并提出了核函數(shù)及其計(jì)算方法,結(jié)合兩個樣本的淺層句法解析樹來分析兩者間的相似性,結(jié)合SVM分類器在200篇新聞?wù)Z料的數(shù)據(jù)上得到了不錯的結(jié)果[18]。Culotta等人[19]改進(jìn)Zlenko的方法,提出基于語法規(guī)則的依存樹核進(jìn)行關(guān)系抽取,通過使用詞性、實(shí)體類型、WordNet上位詞等特征來擴(kuò)充樹上的節(jié)點(diǎn),提供了更豐富的句子表示形式,并在更大、包含更多關(guān)系類型的標(biāo)注語料庫上進(jìn)行訓(xùn)練。Bunescu等人[20]提出一種定義非常嚴(yán)格的最短路徑依賴核,實(shí)現(xiàn)了比單純依存樹核更高的精度,但也因此導(dǎo)致召回率下降。Giuliano等人[21]使用詞袋(Bag-of-Words)代替稀疏子序列作為全局性信息結(jié)合詞屬性等相關(guān)特征作為局部信息,使用核函數(shù)的線性組合來整合兩部分信息。實(shí)驗(yàn)表明:該方法在生物醫(yī)學(xué)數(shù)據(jù)中提取實(shí)體間關(guān)系時(shí),僅使用淺層語言特征就達(dá)到了較好的性能。
使用核函數(shù)方法可以學(xué)習(xí)文本的長距離特征而不需要構(gòu)造特征向量,在關(guān)系抽取任務(wù)上的性能也超過了基于特征向量的方法,通過使用核方法復(fù)合不同核函數(shù)來表達(dá)高維特征空間時(shí),會相應(yīng)產(chǎn)生訓(xùn)練速度較慢的負(fù)面影響,無法很好適用于處理大規(guī)模語料下的關(guān)系抽取[22]。
半監(jiān)督學(xué)習(xí)只需通過對少量的種子標(biāo)記樣本和大量無標(biāo)記的樣本進(jìn)行迭代訓(xùn)練就可以得到分類模型[23],常用算法主要有Bootstrapping方法[24]、協(xié)同訓(xùn)練方法[25]和標(biāo)注傳播方法[26]。
采用Bootstrapping技術(shù)的三個代表性半監(jiān)督關(guān)系抽取系統(tǒng)即:DIPRE[27](Dual Iterative Pattern Relation Expansion),Snowball[28]和Zhang’s method[29]。其中DIPRE系統(tǒng)[27]是最早被提出的基于Bootstrapping的半監(jiān)督實(shí)體關(guān)系抽取方法,該方法在迭代初期使用少量書籍的(author,title)實(shí)體對作為種子,通過不斷迭代能夠自動從萬維網(wǎng)獲取新的書籍關(guān)系實(shí)例。Agichtein[28]基于Bootstrapping采用和DIPRE相同的模式匹配方法從非結(jié)構(gòu)化文本中抽取(organization,location)關(guān)系。Zhang等[29]在結(jié)合SVM的Bootstrapping模型上,提出基于隨機(jī)特征投影的BootProject算法,實(shí)驗(yàn)表明該方法可以顯著降低對標(biāo)記訓(xùn)練數(shù)據(jù)的依賴。Chen等人[26]通過標(biāo)注傳播算法計(jì)算無標(biāo)記樣本中關(guān)系樣例的最近鄰來實(shí)現(xiàn)關(guān)系抽取,在ACE 2003語料上的實(shí)驗(yàn)結(jié)果表明,在僅有少量帶標(biāo)記的樣本可使用時(shí),基于標(biāo)注傳播(LP)算法的關(guān)系抽取模型性能明顯優(yōu)于SVM和Bootstrapping。張佳宏等人[30]在Zhou[31]的基礎(chǔ)上通過引入無標(biāo)注樣本置信度衡量機(jī)制,在訓(xùn)練迭代次數(shù)得到顯著減少的同時(shí)還取得了較高的F值。
半監(jiān)督實(shí)體關(guān)系抽取一定程度上既能降低對標(biāo)注語料的依賴,又可以得到較高的精度,所以能更好地適應(yīng)于大規(guī)模訓(xùn)練語料的任務(wù)。目前基于半監(jiān)督學(xué)習(xí)方法的實(shí)體關(guān)系抽取任務(wù)中應(yīng)用最廣泛的就是Bootstrapping算法,但該方法存在語義漂移等問題,還易受到初始關(guān)系種子質(zhì)量的影響[32]。
由于有監(jiān)督和半監(jiān)督實(shí)體關(guān)系抽取均依賴帶標(biāo)記的語料,雖然半監(jiān)督方法僅使用少量的標(biāo)記數(shù)據(jù)作為種子,但如何選擇或選擇多少數(shù)量種子的問題仍未得到有效解決。針對這些問題,一些研究者基于聚類的思想,通過學(xué)習(xí)對實(shí)體上下文進(jìn)行抽取來刻畫實(shí)體間的語義關(guān)系,實(shí)現(xiàn)無監(jiān)督關(guān)系抽取。
Hasegawa等人[33]在2004年ACL會議上首次提出無監(jiān)督學(xué)習(xí)的命名實(shí)體關(guān)系抽取方法,為無監(jiān)督實(shí)體關(guān)系抽取研究奠定了基礎(chǔ),但該方法一方面很難預(yù)先定義相似性的閾值,另一方面簡單地按頻率選擇關(guān)系特征詞時(shí)并沒有考慮噪聲特征。Zhang等人[34]在進(jìn)行聚類時(shí),應(yīng)用淺層句法樹來表達(dá)實(shí)體間所存在的關(guān)系,通過衡量句法樹的相似性來對實(shí)體間的相似性進(jìn)行分析,充分考慮了低頻實(shí)體間可能存在的語義關(guān)系。Chen等人[35]使用DCM(Discriminative Category Matching)選取具有判別性的特征關(guān)系詞,并通過提出的聚類質(zhì)量評估公式得到最優(yōu)聚類數(shù)目和最優(yōu)特征子集,與Hasegawa等人[33]的方法相比,在ACE語料庫上的性能得到大幅度提高。秦兵等人[36]提出一種基于無監(jiān)督學(xué)習(xí)方法的中文實(shí)體關(guān)系抽取模型,在得到候選關(guān)系三元組和關(guān)系指示詞后、結(jié)合句式規(guī)則對其進(jìn)行篩選,實(shí)驗(yàn)在大規(guī)模無標(biāo)記中文網(wǎng)絡(luò)文本數(shù)據(jù)上的微平均準(zhǔn)確率高于80%。
無監(jiān)督的實(shí)體關(guān)系抽取方法不需要預(yù)定義任何關(guān)系類型,也不依賴標(biāo)注數(shù)據(jù),可以適應(yīng)無規(guī)則內(nèi)容文本,具有很好的領(lǐng)域移植性。但聚類出來的關(guān)系類別邊界不夠清晰、模型的整體準(zhǔn)確率較低,并且低頻關(guān)系實(shí)例使得模型的召回率較低[18]。
開放域?qū)嶓w關(guān)系抽取是目前研究的熱點(diǎn),僅Freebase中就包含多達(dá)4 000萬實(shí)體,上萬種屬性關(guān)系,這樣數(shù)量級的關(guān)系抽取單純依靠人工標(biāo)注數(shù)據(jù)集是很難實(shí)現(xiàn)的,半監(jiān)督和遠(yuǎn)程監(jiān)督的學(xué)習(xí)方法一定程度上可以實(shí)現(xiàn)開放域的關(guān)系抽取。因其在數(shù)據(jù)規(guī)模、數(shù)據(jù)源類型、領(lǐng)域上的可拓展性,開放式信息抽取在處理大規(guī)模Web頁面中異構(gòu)信息時(shí),具有其他關(guān)系抽取模型不可比擬的優(yōu)勢。
開放域的關(guān)系抽取目前主要有兩種具有代表性的研究方向,一種是基于句法設(shè)計(jì)規(guī)則來對三元組進(jìn)行過濾;另一種是基于知識監(jiān)督的方法,這種思想后來慢慢發(fā)展出遠(yuǎn)程監(jiān)督方法。開放式信息抽取的概念最早由Banko等人[37]在2007年IJCAL會議上提出,同時(shí)提出第一個領(lǐng)域無關(guān)的OIE系統(tǒng)TextRunner,并可擴(kuò)展到大規(guī)模Web語料庫。Banko和Etzioni[38]將抽取問題轉(zhuǎn)換為在條件隨機(jī)場模型上的序列標(biāo)注任務(wù),結(jié)合無監(jiān)督同義詞消解算法來處理候選關(guān)系和對象中的同義詞。Zhu構(gòu)建的Statsnowball系統(tǒng)[39],可以看作是Snowball系統(tǒng)的開放域信息抽取版本,使用馬爾科夫邏輯網(wǎng)絡(luò)來抽取實(shí)體間的關(guān)系。2010年Wu等人[40]基于維基百科的信息構(gòu)建WOE(Wikipedia-based Open Extractor)系統(tǒng),實(shí)現(xiàn)了比TextRunner更高的召回率和準(zhǔn)確率。Fader[41]定義了兩個由動詞表達(dá)的二元關(guān)系的詞法和語法約束,實(shí)驗(yàn)表明可以通過增加這些約束來改善Open IE系統(tǒng)的信息不連貫和信息不足的問題。
基于傳統(tǒng)機(jī)器學(xué)習(xí)的關(guān)系抽取方法在特征提取過程中存在誤差傳播問題,很大程度上限制了模型性能的提升。隨著近些年深度學(xué)習(xí)的崛起,因其能夠自動學(xué)習(xí)更高階語義特征并具有較高的精確度,基于深度學(xué)習(xí)的方法成為了實(shí)體關(guān)系抽取領(lǐng)域新的研究熱點(diǎn)[42]。
根據(jù)語料集標(biāo)注方式的差異性,目前國內(nèi)外基于深度學(xué)習(xí)的實(shí)體關(guān)系抽取方法可被分為遠(yuǎn)程監(jiān)督和有監(jiān)督學(xué)習(xí)兩類。有監(jiān)督學(xué)習(xí)在訓(xùn)練過程中使用人工標(biāo)注的數(shù)據(jù)集,而遠(yuǎn)程監(jiān)督的學(xué)習(xí)方法通過對齊遠(yuǎn)程知識庫自動對語料進(jìn)行標(biāo)注來獲取帶標(biāo)記語料數(shù)據(jù)。
3.5.1 基于深度學(xué)習(xí)的有監(jiān)督關(guān)系抽取
基于深度學(xué)習(xí)的有監(jiān)督實(shí)體關(guān)系抽取根據(jù)實(shí)體識別和關(guān)系檢測兩個子任務(wù)完成順序的不同,可細(xì)分為流水線方法和聯(lián)合抽取方法。其中流水線學(xué)習(xí)方法是在實(shí)體已被標(biāo)注的數(shù)據(jù)基礎(chǔ)上進(jìn)行實(shí)體間關(guān)系的抽取,聯(lián)合學(xué)習(xí)方法是同時(shí)進(jìn)行實(shí)體識別和實(shí)體關(guān)系抽取任務(wù)[42]。表1中整理了深度學(xué)習(xí)框架下有監(jiān)督關(guān)系抽取經(jīng)典方法,其中的模型主要是基于現(xiàn)有CNN、RNN、LSTM改進(jìn)輸入特征或網(wǎng)絡(luò)結(jié)構(gòu),比如添加不同特征、結(jié)合多種Attention機(jī)制和引入依存樹挖掘更深層次語義信息來提升模型的性能。隨著圖卷積神經(jīng)網(wǎng)絡(luò)的興起,因其在處理異構(gòu)數(shù)據(jù)所具備的天然優(yōu)勢,許多學(xué)者嘗試引入GCN來學(xué)習(xí)依存樹中蘊(yùn)含的豐富信息?;谔卣鹘M合的關(guān)系抽取方法均賴于其他特征工具包,另外很多模型將關(guān)系抽取建模為單標(biāo)記問題,無法解決樣本中關(guān)系重疊問題。下面對相關(guān)模型進(jìn)行深入研究和分析。
(1)基于RNN模型的關(guān)系抽取方法
遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network,RNN)因?yàn)槠浼扔袃?nèi)部反饋連接又有前饋連接,比前饋網(wǎng)絡(luò)更適合處理序列化輸入,基于RNN的實(shí)體關(guān)系抽取方法最早由Socher等人[43]提出。模型中每個單詞均由向量和矩陣組成,分別用來學(xué)習(xí)表示單詞本身語義和對其他單詞的修飾作用,可以自動學(xué)習(xí)到較長短語的深層語義,但模型需要學(xué)習(xí)的參數(shù)過多。Hashimoto等人[44]提出一種基于解析樹的RNN模型,通過對重要短語進(jìn)行顯式加權(quán),結(jié)合短語類別、詞性標(biāo)注等特征實(shí)現(xiàn)性能提升。雖然RNN進(jìn)行關(guān)系抽取已經(jīng)表現(xiàn)出不錯的性能,但原始的RNN模型因其層數(shù)較多而更易出現(xiàn)梯度消失或梯度爆炸問題,無法有效解決文本數(shù)據(jù)中的長依賴問題。
表1 有監(jiān)督實(shí)體關(guān)系抽取的經(jīng)典模型
(2)基于CNN模型的關(guān)系抽取方法
2014年Zeng等人[45]首次提出使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)進(jìn)行關(guān)系抽取,不需要復(fù)雜的預(yù)處理僅將所有單詞向量作為初始輸入,結(jié)合卷積深度神經(jīng)網(wǎng)絡(luò)(CDNN)提取的詞匯和句子特征進(jìn)行關(guān)系分類。2015年Xu等人[46]在Zeng工作的基礎(chǔ)上,在依存關(guān)系樹的最短依賴路徑上通過卷積神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)更魯棒的關(guān)系特征,同時(shí)提出一種簡單負(fù)采樣策略來改善實(shí)體距離較遠(yuǎn)所產(chǎn)生的問題。但模型性能很大程度受依存樹解析結(jié)果的影響,并且僅在最短依賴路徑上進(jìn)行學(xué)習(xí)不能充分利用依存樹所蘊(yùn)含的豐富信息。Wang等人[47]基于卷積神經(jīng)網(wǎng)絡(luò),使用兩層注意力機(jī)制提取句子特征并設(shè)計(jì)一個pair-wise合頁損失函數(shù),實(shí)驗(yàn)證明其性能優(yōu)于標(biāo)準(zhǔn)損失函數(shù)。引入多級注意力機(jī)制捕獲更高層語義信息的同時(shí),也面臨著結(jié)構(gòu)復(fù)雜、參數(shù)較多、收斂困難等問題?;趩卧~的重要性與關(guān)系類型的高度相關(guān)性,Zhu等人[48]在2017年提出TAC-CNN模型,結(jié)合詞級別的注意力機(jī)制通過計(jì)算每個單詞與關(guān)系類別的相關(guān)度計(jì)算相應(yīng)權(quán)重。不引入二級注意力機(jī)制的情況下,在SemEval-2010 Task 8數(shù)據(jù)集上F1即達(dá)到87.3%。
(3)基于LSTM模型的關(guān)系抽取方法
Sundermeyer等人[56]通過構(gòu)建專門的記憶單元存儲重要?dú)v史信息,以此獲得遠(yuǎn)距離單詞之間的關(guān)系,提出長短時(shí)記憶網(wǎng)絡(luò)模型(Long Short-Term Memory network,LSTM)不但可以有效解決實(shí)體之間的長依賴問題,還可以結(jié)合聚類技術(shù)大幅度減少訓(xùn)練和測試用時(shí)。Xu等人[49]結(jié)合實(shí)體對間的最短依存路徑和長短時(shí)記憶網(wǎng)絡(luò)模型,提出了用于關(guān)系分類的新型神經(jīng)網(wǎng)絡(luò)模型SDP-LSTM,它可以結(jié)合最短依存路徑上的單詞、POS標(biāo)記、語法關(guān)系、WordNet上位詞等信息迭代的學(xué)習(xí)與關(guān)系分類相關(guān)的特征。但SDP-LSTM在引入多種特征的同時(shí),也使得模型更加依賴特征抽取工具,多特征的提取也加劇錯誤傳播問題。Zhang等人[50]基于每個時(shí)刻的輸入不僅依賴文本中某個單詞前面的單詞,還依賴于后面單詞的思想,提出結(jié)合前向和后向LSTM捕捉雙向的語義依賴獲取更多語序信息[57]。在SemEval-2010語料庫上的實(shí)驗(yàn)表明,模型僅使用單詞嵌入作為輸入特征就可以實(shí)現(xiàn)遠(yuǎn)優(yōu)于CNN和CR-CNN方法的F1值。
(4)基于GCN模型的關(guān)系抽取方法
句法依存樹包含句子中各詞語間的依存關(guān)系,將其引入關(guān)系抽取任務(wù)可以挖掘更深層的語義信息。圖卷積神經(jīng)網(wǎng)絡(luò)的提出[58]實(shí)現(xiàn)了非歐式數(shù)據(jù)上的卷積操作,也為處理圖結(jié)構(gòu)數(shù)據(jù)提供了新思路。
Zhang等人[51]提出一種基于修剪依存樹的圖卷積神經(jīng)網(wǎng)絡(luò)并用于實(shí)體關(guān)系抽取問題,僅保留兩個實(shí)體的最小公共祖先子樹上K距離內(nèi)的節(jié)點(diǎn),并將修剪后的句法依存樹引入圖卷積網(wǎng)絡(luò)進(jìn)行實(shí)體關(guān)系抽取任務(wù)。實(shí)驗(yàn)表明,這種修剪方式過濾依存樹中無關(guān)數(shù)據(jù)的同時(shí),保留了對關(guān)系抽取任務(wù)有用的信息。但基于規(guī)則的硬性修剪策略卻很容易產(chǎn)生過剪枝或欠剪枝,為了解決這個問題,Guo等人[52]提出了注意力引導(dǎo)的圖卷積網(wǎng)絡(luò)AGGCN,可以理解為一種對句法依存樹的軟修剪策略,模型將完整依存樹作為輸入并結(jié)合注意力機(jī)制,在迭代訓(xùn)練中自動學(xué)習(xí)保留對關(guān)系抽取任務(wù)有用的子結(jié)構(gòu)。AGGCN模型由M個相同模塊組成,每個塊包含注意力引導(dǎo)層、密集連接層和線性組合層,其中注意力引導(dǎo)層使用多頭注意力機(jī)制構(gòu)造N個注意力引導(dǎo)鄰接矩陣,將輸入依存樹轉(zhuǎn)換為N個不同的全連接邊加權(quán)圖,即每個注意力引導(dǎo)鄰接矩陣對應(yīng)一個全連接圖。
Sun等人[53]認(rèn)為AGGCN模型使用的全連接圖破壞了依存樹原始結(jié)構(gòu),基于這個問題提出了可學(xué)習(xí)的句法傳輸注意力圖卷積網(wǎng)絡(luò)(LST-AGCN),通過引入連接節(jié)點(diǎn)的依存關(guān)系類型將樹轉(zhuǎn)換為加權(quán)圖即句法傳輸圖。通過詞嵌入、依存關(guān)系嵌入和節(jié)點(diǎn)嵌入來建模可學(xué)習(xí)的傳輸矩陣A,并結(jié)合注意力機(jī)制學(xué)習(xí)合適權(quán)重來聚合所有圖層輸出的特征向量,得到最終句子表示再進(jìn)行關(guān)系抽取,其中涉及的注意力機(jī)制主要用于整合每層GCN的輸出。
表2將注意力機(jī)制按其結(jié)構(gòu)分為單層自注意力、多層注意力和多頭注意力機(jī)制。無論是基于CNN、RNN還是GCN衍生出的關(guān)系抽取模型,均可以通過引入不同Attention或其組合來提高性能。注意力機(jī)制良好的軟性選擇能力也可以有效緩解遠(yuǎn)程監(jiān)督中的噪聲問題,許多研究將其引入遠(yuǎn)程監(jiān)督來過濾錯誤標(biāo)記的樣本。
表2 注意力機(jī)制相關(guān)方法統(tǒng)計(jì)
流水線方法雖然已取得不錯的成績,但仍存在局限性:順序進(jìn)行實(shí)體識別和關(guān)系抽取時(shí),忽略了兩個子任務(wù)間的內(nèi)在聯(lián)系;實(shí)體識別中產(chǎn)生的錯誤會降低關(guān)系抽取模型的性能即存在錯誤傳播的問題。相比之下,聯(lián)合學(xué)習(xí)方法可以充分利用實(shí)體和關(guān)系間的交互信息,有效地緩解了上述問題。
Miwa等人[54]提出一種端對端模型來聯(lián)合表示實(shí)體和關(guān)系,其中實(shí)體識別和關(guān)系抽取兩個子任務(wù)共享LSTM編碼層序列參數(shù)的思想,雖然考慮了兩個子任務(wù)間的交互、緩解了錯誤傳播問題,但模型學(xué)習(xí)過程仍然類似流水線方法,不屬于真正意義上的聯(lián)合抽取。Katiyar等[55]在深度BILSTM序列標(biāo)注方法的基礎(chǔ)上引入注意力機(jī)制,使用多層雙向LSTM將實(shí)體識別子任務(wù)建模成序列標(biāo)注任務(wù),結(jié)合序列標(biāo)注結(jié)果和共享編碼層表示進(jìn)行實(shí)體關(guān)系抽取,模型可以拓展各種預(yù)定義的關(guān)系類型,是真正意義上第一個基于神經(jīng)網(wǎng)絡(luò)的關(guān)系聯(lián)合抽取模型。Zheng等人[62]提出基于新標(biāo)注策略的實(shí)體關(guān)系抽取方法,將聯(lián)合提取任務(wù)轉(zhuǎn)化成端到端的序列標(biāo)注問題而無需分別識別實(shí)體和關(guān)系,解決了流水線方法中實(shí)體冗余問題。但無論是上述的參數(shù)共享還是序列標(biāo)注的聯(lián)合抽取模型,均未有效解決重疊關(guān)系問題。
3.5.2 基于遠(yuǎn)程監(jiān)督的關(guān)系抽取
Mintz等人[4]在2009年ACL上提出將遠(yuǎn)程監(jiān)督應(yīng)用到實(shí)體關(guān)系抽取任務(wù)上,基于“如果兩個實(shí)體在已知知識庫中存在某種關(guān)系,那么包含這兩個實(shí)體的句子也表示該關(guān)系”的假設(shè),通過將數(shù)據(jù)自動對齊遠(yuǎn)程知識庫中的信息來對開放域中海量數(shù)據(jù)進(jìn)行自動標(biāo)注來獲得標(biāo)記樣本。遠(yuǎn)程監(jiān)督關(guān)系抽取較快得到大量標(biāo)記樣本的同時(shí),大幅降低人工標(biāo)注的工作量,但由于所基于的假設(shè)條件過于強(qiáng)烈,使得遠(yuǎn)程監(jiān)督數(shù)據(jù)集中包含大量的錯誤標(biāo)記樣本。
如表3所示,針對遠(yuǎn)程監(jiān)督中錯誤標(biāo)簽問題學(xué)者們提出了很可行的解決方法,比如引入多示例學(xué)習(xí)、結(jié)合Attention機(jī)制、對噪聲進(jìn)行擬合、建模為強(qiáng)化學(xué)習(xí)問題,下面對相關(guān)模型進(jìn)行深入分析。
Zeng等人[63]通過多示例學(xué)習(xí)的方法來緩解遠(yuǎn)程監(jiān)督中的噪音問題,在2014年Zeng等人[45]的CNN基礎(chǔ)上將句子根據(jù)實(shí)體位置切分為3段,分別進(jìn)行池化來得到更多與實(shí)體相關(guān)的上下文信息。多示例學(xué)習(xí)是將包含同一實(shí)體對的所有樣本看成一個包,模型只選擇包中使得關(guān)系概率最大的一個示例作為實(shí)體對的表示,該方法一定程度上降低噪音數(shù)據(jù)的影響,但也因此丟失了大量有用的信息[69],另外也無法處理關(guān)系重疊問題。Jiang等人[59]提出多示例多標(biāo)記的卷積神經(jīng)網(wǎng)絡(luò)模型來松弛at-least-once假設(shè),將關(guān)系抽取任務(wù)建模為多標(biāo)記問題,解決了關(guān)系重疊問題。基于多示例學(xué)習(xí)的模型雖然可以有效緩解遠(yuǎn)程監(jiān)督中的噪聲問題,但僅選取bag內(nèi)最高置信度的樣例可能會丟失大量有用信息。
Lin等人[60]通過引入Attention機(jī)制來自動學(xué)習(xí)如何篩選包內(nèi)所有樣本的信息,有效避免多示例模型中造成的信息損失。實(shí)驗(yàn)表明該模型能夠?qū)W到合理權(quán)重來緩解遠(yuǎn)程監(jiān)督中噪音問題的同時(shí),還充分挖掘有用信息。Ji等人[64]從Freebase和Wikipedia頁面中提取實(shí)體的描述作為額外信息來改善實(shí)體表示模塊的性能,其中句級注意力模塊與Lin等人[60]類似,自動為包內(nèi)的樣本學(xué)得合理的權(quán)重。Feng等人[65]提出了一種基于強(qiáng)化學(xué)習(xí)框架的關(guān)系抽取模型,該模型由樣本選擇器和關(guān)系分類器兩部分組成,其中將樣本選擇建模為強(qiáng)化學(xué)習(xí)問題。整個過程在沒有明確的句子級標(biāo)簽的情況下,僅使用來自關(guān)系分類器的弱監(jiān)督信息就可以有效過濾遠(yuǎn)程監(jiān)督數(shù)據(jù)中的嘈雜句子。2018年ACL會議上,Qin等人[66]提出一種基于深度強(qiáng)化學(xué)習(xí)的遠(yuǎn)程監(jiān)督關(guān)系抽取模型,旨在使用深度強(qiáng)化學(xué)習(xí)框架不斷訓(xùn)練得到一個正例、負(fù)例指示器,不但實(shí)現(xiàn)對負(fù)例的識別,還將其放至對應(yīng)關(guān)系類別的負(fù)例集中。該模型不依賴于特定的關(guān)系分類器,是一種即插即用的技術(shù),能被引入現(xiàn)有的任何一種遠(yuǎn)程監(jiān)督關(guān)系抽取模型。但這兩種結(jié)合強(qiáng)化學(xué)習(xí)的抽取模型均未解決重疊關(guān)系問題,而且屬于流水線型抽取方法,不能有效學(xué)習(xí)子任務(wù)間的交互。2019年AAAI會議上Takanobu等人[67]上提出基于分層強(qiáng)化學(xué)習(xí)的關(guān)系抽取方法,將任務(wù)分解為實(shí)體檢測和關(guān)系提取兩個子任務(wù),分層方法的性質(zhì)可以對兩個子任務(wù)間的交互進(jìn)行有效建模,且擅長提取實(shí)體間的重疊關(guān)系。
Ren等人[70]提出基于遠(yuǎn)程監(jiān)督的聯(lián)合抽取模型COTYPE進(jìn)行實(shí)體關(guān)系抽取,實(shí)驗(yàn)表明該方法不僅能擴(kuò)展到不同領(lǐng)域,還有效減弱了錯誤的累積傳播。Luo等人[68]認(rèn)為可以根據(jù)數(shù)據(jù)中潛在的信息學(xué)習(xí)噪音的模式,在訓(xùn)練過程中通過動態(tài)轉(zhuǎn)移矩陣對噪音進(jìn)行建模來達(dá)到擬合真實(shí)分布的目的。在沒有直接指導(dǎo)的情況下逐步學(xué)習(xí)對基礎(chǔ)噪聲模式進(jìn)行建模,并靈活利用數(shù)據(jù)質(zhì)量的先驗(yàn)知識來提高轉(zhuǎn)移矩陣的有效性。2019年ACL會議上,F(xiàn)u等人[71]提出基于圖卷積網(wǎng)絡(luò)的聯(lián)合關(guān)系抽取模型GraphRel,對實(shí)體重疊問題提出了解決方案。模型通過堆疊Bi-LSTM句子編碼器和GCN依存樹編碼器來自動提取每個單詞的隱含特征。第一階段預(yù)測后計(jì)算實(shí)體損失和關(guān)系損失。為了考慮三元組之間的相互作用,在第二階段添加了關(guān)系加權(quán)GCN來解決實(shí)體重疊問題?;诘诙A段提取的特征進(jìn)行分類后可得到較準(zhǔn)確的結(jié)果,訓(xùn)練時(shí)損失函數(shù)為兩個階段實(shí)體和關(guān)系預(yù)測損失的線性加和。GraphRel基于關(guān)系加權(quán)的圖卷積網(wǎng)絡(luò),考慮了命名實(shí)體與關(guān)系之間的相互作用。在NYT和WebNLG數(shù)據(jù)集上分別評估該模型,實(shí)驗(yàn)表明,此方法比以前的工作F1評測值分別提高了3.2%和5.8%。
表3 遠(yuǎn)程監(jiān)督中噪聲問題的常見解決方法
有監(jiān)督學(xué)習(xí)關(guān)系抽取中常用的數(shù)據(jù)集主要包括MUC關(guān)系抽取數(shù)據(jù)集、ACE04、ACE05、TACRED、SemEval-2010 Task 8和FewRel數(shù)據(jù)集,其中FewRel在有監(jiān)督學(xué)習(xí)和小樣本學(xué)習(xí)的關(guān)系抽取任務(wù)中均能應(yīng)用。NYT-FB是遠(yuǎn)程監(jiān)督關(guān)系抽取任務(wù)應(yīng)用最廣泛的數(shù)據(jù)集,語料來自于紐約時(shí)報(bào),通過自動鏈接到Freebase知識庫中的實(shí)體并經(jīng)關(guān)系對齊等操作來標(biāo)注實(shí)體間關(guān)系類別。
表4中模型SPTree和Miwa等人提出的關(guān)系抽取方法,在ACE05數(shù)據(jù)集上的性能均優(yōu)于ACE04,F(xiàn)1評測值分別提高了7.2%和7.9%。在SemEval-2010 Task 8數(shù)據(jù)集上,模型SDP-LSTM的F1評測值僅比C-AGGCN高2%,但兩者在數(shù)據(jù)集TACRED上的差值卻達(dá)到了10.3%,分析可能因?yàn)門ACRED數(shù)據(jù)集包含更多關(guān)系類別且“no_relation”類數(shù)據(jù)所占比重過大。而當(dāng)基于有監(jiān)督學(xué)習(xí)的關(guān)系抽取模型CDNN使用遠(yuǎn)程監(jiān)督數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí),由于遠(yuǎn)程監(jiān)督中大量的噪聲數(shù)據(jù)的影響,CDNN方法的性能急劇下降。表4中數(shù)據(jù)說明模型的性能不僅受結(jié)構(gòu)和初始化的影響,還取決于所使用的數(shù)據(jù)集,并且使用不同數(shù)據(jù)集進(jìn)行訓(xùn)練得到的關(guān)系分類器性能往往有較大差距。
關(guān)系抽取主要采用準(zhǔn)確率(Precision)、召回率(Recall)和F值(F-Measure)3項(xiàng)作為基本評價(jià)指標(biāo),其中準(zhǔn)確率和召回率是一對矛盾的度量,通常使用F值綜合考慮兩者來對系統(tǒng)性能進(jìn)行總體評價(jià)。計(jì)算公式分別如下所示:
表4 不同數(shù)據(jù)集及模型的性能
Fβ中β是調(diào)節(jié)準(zhǔn)確率和召回率比重的參數(shù)。當(dāng)β=1時(shí),認(rèn)為在評價(jià)模型性能時(shí)兩者同等重要。由上式得到F1表示為:
遠(yuǎn)程監(jiān)督興起后,模型所需要處理的數(shù)據(jù)規(guī)模量級增加,在考察系統(tǒng)性能時(shí),也將運(yùn)行時(shí)間和內(nèi)存占用作為評價(jià)指標(biāo)的一部分進(jìn)行考量。
實(shí)體關(guān)系抽取基于海量信息可以將無結(jié)構(gòu)文本轉(zhuǎn)化為格式統(tǒng)一的關(guān)系數(shù)據(jù),為知識圖譜、推薦系統(tǒng)、信息檢索等任務(wù)提供基礎(chǔ)的數(shù)據(jù)支持。同時(shí),關(guān)系抽取研究對語義分析、篇章理解、自動問答等領(lǐng)域也具有重要意義。
目前,基于深度學(xué)習(xí)的實(shí)體關(guān)系抽取雖然已經(jīng)取得了極大的成功,但在領(lǐng)域自適應(yīng)性和召回率方面仍有很大的提升空間。其次,實(shí)體關(guān)系抽取任務(wù)中仍存在以下亟待解決的問題:很多主流的關(guān)系抽取方法均未有效解決關(guān)系類型的OOV(Out Of Vocabulary)問題,僅簡單地將不屬于預(yù)定義實(shí)體關(guān)系類型的數(shù)據(jù)歸入Other類,而Other類中的實(shí)體對只能通過人工處理才能確定關(guān)系類型定義;為了緩解遠(yuǎn)程監(jiān)督的錯誤標(biāo)簽問題,學(xué)者們分別結(jié)合多示例學(xué)習(xí)[59,63]、Attention機(jī)制[60,64]、強(qiáng)化學(xué)習(xí)框架[65-67]、噪聲建模[68]等方法提出許多模型,但如何建立更有效的方法緩解遠(yuǎn)程監(jiān)督中錯誤標(biāo)簽的影響仍是關(guān)系抽取中研究的重點(diǎn)問題。
5.1.1 二元關(guān)系到多元關(guān)系抽取的擴(kuò)展
目前大多數(shù)實(shí)體關(guān)系抽取的研究僅停留在二元關(guān)系的層面上,但實(shí)際中英文語料的多元實(shí)體關(guān)系卻占據(jù)高達(dá)40%的比重[73]。多元關(guān)系抽取能夠獲取到更多實(shí)體之間的關(guān)系,相較于二元實(shí)體關(guān)系抽取來說,多元關(guān)系抽取的研究具有更大挑戰(zhàn)性。如何將二元抽取技術(shù)拓展至三元甚至多元層面是今后實(shí)體關(guān)系發(fā)展的一個熱門研究方向。
5.1.2 基于遠(yuǎn)程監(jiān)督的關(guān)系抽取
遠(yuǎn)程監(jiān)督關(guān)系抽取技術(shù)通過外部知識庫作為監(jiān)督源,自動對語料庫進(jìn)行標(biāo)注,能夠以較低成本獲取大量帶標(biāo)記的樣本。但由于遠(yuǎn)程監(jiān)督所基于的假設(shè)過于肯定,難免含有大量的噪音數(shù)據(jù),而如何使用有效的降噪方式來緩解遠(yuǎn)程監(jiān)督中的錯誤標(biāo)注問題一直是關(guān)系抽取研究的重要課題。
5.1.3 段落和篇章級關(guān)系抽取技術(shù)
現(xiàn)有關(guān)系抽取工作主要聚焦于句子級關(guān)系抽取而現(xiàn)實(shí)生活中實(shí)體對經(jīng)常分別位于不同句子,根據(jù)從維基百科采樣的人工標(biāo)注數(shù)據(jù)的統(tǒng)計(jì)表明,至少40%的實(shí)體關(guān)系信息只能從多個句子中才能聯(lián)合獲取。研究段落級甚至篇章級的關(guān)系抽取要求模型具有更強(qiáng)大的邏輯推理、指代推理和常識推理能力,現(xiàn)有的跨句子N元關(guān)系抽取研究常通過引入指代消解任務(wù)的方法來提升模型的性能。未來融合改進(jìn)指代消解和圖結(jié)構(gòu)的方法也許是解決段落級和篇章級實(shí)體關(guān)系抽取任務(wù)的有效方案。
5.2.1 融合圖卷積網(wǎng)絡(luò)的實(shí)體關(guān)系抽取
自第一個圖卷積神經(jīng)網(wǎng)絡(luò)被Bruna等人[58]提出以來,就受到了研究人員的大量關(guān)注,被廣泛應(yīng)用于推薦系統(tǒng)、交通流量預(yù)測、生物醫(yī)學(xué)、計(jì)算機(jī)視覺等領(lǐng)域。圖卷積神經(jīng)網(wǎng)絡(luò)在自然語言處理領(lǐng)域也有大量應(yīng)用,涉及的常見圖結(jié)構(gòu)主要包括知識圖譜、依存句法樹、詞共現(xiàn)圖、文章引用網(wǎng)等。Liu等人[74]和Nguyen等人[75]使用基于依存句法樹的圖卷積神經(jīng)網(wǎng)絡(luò)來進(jìn)行事件抽取任務(wù)。Marcheggiani等人[76]基于句法依存樹提出結(jié)合長短時(shí)記憶網(wǎng)絡(luò)的圖卷積模型,并成功應(yīng)用于語法角色標(biāo)注任務(wù)上。
圖卷積神經(jīng)網(wǎng)絡(luò)也被引入關(guān)系抽取任務(wù)中,并表現(xiàn)出了較高的性能。Zhang等人[51]提出一種基于修剪依存樹的圖卷積神經(jīng)網(wǎng)絡(luò)并用于實(shí)體關(guān)系抽取問題。2019年ACL會議上,Guo等人[52]基于硬修剪策略可能存在的欠剪枝和過剪枝問題,結(jié)合多頭注意力將全句法依存樹作為圖輸入,使用圖卷積神經(jīng)網(wǎng)絡(luò)自動學(xué)習(xí)依存樹中對關(guān)系提取任務(wù)有用的子結(jié)構(gòu)Sun等人[53]使用句法傳輸圖代替AGGC模型中的全連接圖,結(jié)合自注意力機(jī)制提出一種新的圖卷積關(guān)系抽取模型LST-AGCN。但以上模型一方面無法建模兩個子任務(wù)間的交互,另一方面也不能處理重疊關(guān)系。Fu等人[71]提出基于圖卷積網(wǎng)絡(luò)的聯(lián)合關(guān)系抽取模型GraphRel則有效解決上述問題。
大量的研究已表明,在引入圖卷積網(wǎng)絡(luò)模型后,各項(xiàng)任務(wù)上的性能都出現(xiàn)了一定的提升。相對于傳統(tǒng)自然語言處理中的序列化建模,使用圖卷積網(wǎng)絡(luò)能夠挖掘更多非線性的復(fù)雜語義特征。對于關(guān)系抽取問題,在原LSTM的網(wǎng)絡(luò)結(jié)構(gòu)上引入基于句法依賴樹的圖卷積網(wǎng)絡(luò),模型不但能學(xué)習(xí)文本的語序性信息,還通過圖卷積充分學(xué)習(xí)依賴樹的空間結(jié)構(gòu)信息,更好地挖掘潛在語義關(guān)系。
5.2.2 基于強(qiáng)化學(xué)習(xí)框架的實(shí)體關(guān)系抽取
強(qiáng)化學(xué)習(xí)是實(shí)體關(guān)系抽取問題中新的研究思路,2018年AAAI會議上Feng等人[65]將強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合提出了一種基于噪音數(shù)據(jù)的句子級實(shí)體關(guān)系抽取模型,僅使用來自關(guān)系分類器的弱監(jiān)督信息就可以有效過濾遠(yuǎn)程監(jiān)督數(shù)據(jù)中的嘈雜句子。Qin等人[66]提出一種基于深度強(qiáng)化學(xué)習(xí)的遠(yuǎn)程監(jiān)督關(guān)系抽取方法,不依賴于特定的關(guān)系分類器,是一種即插即用的技術(shù),能被引入現(xiàn)有的任何一種遠(yuǎn)程監(jiān)督關(guān)系抽取模型。Takanobu等人[67]提出基于分層強(qiáng)化學(xué)習(xí)的關(guān)系抽取模型,將任務(wù)分解為實(shí)體檢測和關(guān)系提取兩個子任務(wù),使用分層方法有效建模子任務(wù)間的交互,而且擅長提取實(shí)體間的重疊關(guān)系。無論是對于任務(wù)中遠(yuǎn)程監(jiān)督的噪音問題還是重疊關(guān)系問題,強(qiáng)化學(xué)習(xí)的技術(shù)都提供了一種切實(shí)可行的解決辦法。
5.2.3 基于小樣本學(xué)習(xí)的實(shí)體關(guān)系抽取
小樣本學(xué)習(xí)方法(few-shot learning)作為公認(rèn)未來最具潛力的研究方向之一,過去的研究主要集中在計(jì)算機(jī)視覺領(lǐng)域,在自然語言處理領(lǐng)域的探索還較少。2018年Han等人[77]首次將小樣本學(xué)習(xí)引入到關(guān)系抽取任務(wù)中,提出小樣本關(guān)系抽取數(shù)據(jù)集FewRel,希望推動自然語言處理特別是實(shí)體關(guān)系抽取任務(wù)中的小樣本學(xué)習(xí)研究。2019年Gao等人[61]提出一種基于小樣本學(xué)習(xí)的關(guān)系抽取模型,該模型結(jié)合特征和實(shí)例兩級注意力機(jī)制,實(shí)現(xiàn)降低噪聲數(shù)據(jù)影響的同時(shí)保留對關(guān)系分類結(jié)果有用的特征信息。Ye等人[72]在2019年ACL會議上提出用于一種解決小樣本關(guān)系抽取問題的新方法,該模型結(jié)合多級匹配和整合結(jié)構(gòu)對訓(xùn)練樣本間的隱含關(guān)聯(lián)進(jìn)行學(xué)習(xí),盡可能充分挖掘少量樣本中對關(guān)系分類有用的潛在信息。Soares等人[78]則采用預(yù)訓(xùn)練模型BERT來處理關(guān)系抽取任務(wù)中的小樣本學(xué)習(xí)問題。因?yàn)榛诤A繑?shù)據(jù)訓(xùn)練的BERT包含豐富的語義特征,引入模型后能夠有效緩解小樣本學(xué)習(xí)中特征匱乏問題,實(shí)驗(yàn)表明其在FewRel數(shù)據(jù)集上的性能已經(jīng)超過人工進(jìn)行關(guān)系分類的水平。Gao等人[79]進(jìn)一步研究發(fā)現(xiàn)要將小樣本學(xué)習(xí)模型用于生產(chǎn)環(huán)境中,則模型不僅要具備領(lǐng)域遷移性,還需要能判斷出數(shù)據(jù)是不是屬于“非以上關(guān)系”的關(guān)系類型。為了解決以上兩個問題,Gao等人采集了大量醫(yī)療領(lǐng)域的數(shù)據(jù)并進(jìn)行標(biāo)注,并在FewRel數(shù)據(jù)集原N-way K-shot的基礎(chǔ)上添加了“以上都不是”選項(xiàng),提出了Few-Rel2.0數(shù)據(jù)集。
總之,研究小樣本學(xué)習(xí)的關(guān)系抽取方法,能使模型具備“舉一反三”的高效學(xué)習(xí)能力,無論是對現(xiàn)有的小樣本學(xué)習(xí)方法進(jìn)行改進(jìn),還是提出新的小樣本學(xué)習(xí)模型進(jìn)行關(guān)系抽取,都將大大降低模型對標(biāo)注樣本數(shù)量上的依賴,對推動關(guān)系抽取技術(shù)的落地有著重大意義。
現(xiàn)階段,基于監(jiān)督的方式在關(guān)系抽取任務(wù)上具有較高的準(zhǔn)確率和召回率,但模型卻嚴(yán)重依賴準(zhǔn)確的標(biāo)注數(shù)據(jù)。當(dāng)模型遷移到新的領(lǐng)域時(shí),需要構(gòu)建新的標(biāo)注語料庫并重新對模型進(jìn)行訓(xùn)練。半監(jiān)督方式的關(guān)系抽取降低了對標(biāo)注數(shù)據(jù)的依賴,可以適應(yīng)標(biāo)注數(shù)據(jù)匱乏的情況,但卻對初始種子的質(zhì)量有很高的要求,并且經(jīng)常存在語義漂移問題。無監(jiān)督的關(guān)系抽取因其無需依賴標(biāo)注數(shù)據(jù),所以不但在領(lǐng)域可移植性上具有先天的優(yōu)勢,在處理開放域海量數(shù)據(jù)時(shí)也表現(xiàn)出良好的性能,但其聚類閾值的確定一直是較大的挑戰(zhàn)。
關(guān)系抽取技術(shù)發(fā)展至今,在研究內(nèi)容上逐漸由限定領(lǐng)域轉(zhuǎn)向開放領(lǐng)域,關(guān)系類型的定義方式表現(xiàn)為由人工預(yù)先定義演變?yōu)殛P(guān)系類型自發(fā)現(xiàn);在研究方法上,深度學(xué)習(xí)的方法在關(guān)系抽取任務(wù)的性能上大幅超越傳統(tǒng)機(jī)器學(xué)習(xí),基于深度學(xué)習(xí)框架的關(guān)系抽取技術(shù)越來越受到學(xué)者們的關(guān)注,在此基礎(chǔ)上結(jié)合新興的圖卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、注意力機(jī)制、強(qiáng)化學(xué)習(xí)和小樣本學(xué)習(xí)的思想等均為關(guān)系抽取問題提供了新的解決思路。