李冬梅 張 揚(yáng) 李東遠(yuǎn) 林丹瓊
(北京林業(yè)大學(xué)信息學(xué)院 北京 100083)(國家林業(yè)草原林業(yè)智能信息處理工程技術(shù)研究中心 北京 100083)
在大數(shù)據(jù)時(shí)代,如何從海量的無結(jié)構(gòu)或半結(jié)構(gòu)數(shù)據(jù)中抽取出有價(jià)值的信息,引起了眾多研究者的關(guān)注,促使這一領(lǐng)域的研究者投入更多的精力進(jìn)行研究,信息抽取技術(shù)應(yīng)運(yùn)而生.信息抽取主要包括3項(xiàng)子任務(wù):實(shí)體抽取(entity extraction)、關(guān)系抽取(relation extraction)和事件抽取(event extraction).而關(guān)系抽取作為信息抽取中的關(guān)鍵一步,近年來也受到學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注.關(guān)系抽取將文本中的無結(jié)構(gòu)化的信息轉(zhuǎn)化為結(jié)構(gòu)化的信息存儲(chǔ)在知識(shí)庫中,為之后的智能檢索和語義分析提供了一定的支持和幫助.研究人員利用關(guān)系抽取技術(shù),從無結(jié)構(gòu)化的自然語言文本中抽取出格式統(tǒng)一的實(shí)體關(guān)系,便于海量數(shù)據(jù)的處理;將分析出的多個(gè)實(shí)體之間的語義關(guān)系和實(shí)體進(jìn)行關(guān)聯(lián),促進(jìn)了知識(shí)庫的自動(dòng)構(gòu)建;對用戶查詢意圖進(jìn)行理解和分析,提高了搜索引擎的檢索效率等.綜上所述,關(guān)系抽取技術(shù)不僅具有理論意義,還具有十分廣闊的應(yīng)用前景.
歷經(jīng)MUC(Message Understanding Conference),ACE(Automatic Content Extraction),TAC(Text Analysis Conference),SemEval(Semantic Evaluation)會(huì)議和OpenIE(open information extraction)技術(shù)的20多年發(fā)展,關(guān)系抽取的理論和方法愈加完善.從最初的人工設(shè)計(jì)模式和詞典進(jìn)行關(guān)系抽取,發(fā)展到目前借助傳統(tǒng)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)技術(shù)進(jìn)行關(guān)系抽取,從單一領(lǐng)域關(guān)系抽取發(fā)展到開放領(lǐng)域關(guān)系抽取.隨著關(guān)系抽取的正確率和召回率在不斷提高,關(guān)系抽取模型對不同領(lǐng)域的適應(yīng)性也在不斷加強(qiáng).
目前,關(guān)系抽取主要基于一種語言文本.事實(shí)上,人類知識(shí)蘊(yùn)藏于不同模態(tài)和類型的信息源中,我們需要探索如何利用多語言文本、圖像和音頻信息進(jìn)行關(guān)系抽取.這一領(lǐng)域仍然存在一些比較實(shí)際的問題阻礙了關(guān)系抽取在實(shí)際中的應(yīng)用,這包括已標(biāo)注數(shù)據(jù)集的獲取、關(guān)系抽取模型的構(gòu)建、共指消解等問題.隨著這些問題的進(jìn)一步解決,關(guān)系抽取技術(shù)必然會(huì)在增強(qiáng)檢索系統(tǒng)功能、語義標(biāo)注、本體學(xué)習(xí)等領(lǐng)域得到廣泛應(yīng)用.
1998年在MUC-7[1]會(huì)議上第1次正式提出實(shí)體關(guān)系抽取任務(wù).當(dāng)時(shí),這一任務(wù)主要利用模板的方式抽取出實(shí)體之間的關(guān)系,抽取的關(guān)系模板主要有l(wèi)ocation_of,employee_of,manufacture_of這三大類.在關(guān)系抽取方面,該會(huì)議主要以商業(yè)活動(dòng)內(nèi)容為主題,通過人工構(gòu)建知識(shí)工程的方法,針對英語完成關(guān)系分類.研究人員利用Linguistic Data Consortium提供的New York Times News Service Corpus訓(xùn)練集和測試集構(gòu)建關(guān)系抽取模型,并完成模型的性能評估.
由于MUC會(huì)議停辦,ACE[2]評測會(huì)議替代MUC會(huì)議,繼續(xù)專門針對多源文本的自動(dòng)抽取技術(shù)進(jìn)行研究.ACE會(huì)議指出,實(shí)體關(guān)系定義的是實(shí)體之間顯式或者隱式的語義聯(lián)系,因此需要預(yù)先定義實(shí)體關(guān)系的類型,然后識(shí)別實(shí)體之間是否存在語義關(guān)系,進(jìn)而判定屬于哪一種預(yù)定義的關(guān)系類型.該會(huì)議預(yù)先定義了位置、機(jī)構(gòu)、成員、整體-部分、人-社會(huì)五大類關(guān)系,主要使用機(jī)器學(xué)習(xí)(有監(jiān)督、半監(jiān)督)的方法,針對英語、阿拉伯語、西班牙語等語言完成關(guān)系抽取任務(wù).此外,會(huì)議提供了一定規(guī)模的標(biāo)注語料(ACE04,ACE05)供大家研究,這為后續(xù)的研究提供了便利和支持.
此后,ACE會(huì)議于2009年并入TAC會(huì)議,同時(shí)將關(guān)系抽取任務(wù)并入KBP[3](Knowledge Base Population)會(huì)議.TAC是一系列評估研討會(huì),旨在促進(jìn)自然語言處理和相關(guān)應(yīng)用的研究.KBP是人口知識(shí)庫,旨在提高從文本自動(dòng)填充知識(shí)庫的能力.TAC和KBP會(huì)議提供的大規(guī)模開源知識(shí)庫(TAC-KBP),極大地推動(dòng)了面向知識(shí)庫構(gòu)建過程中的關(guān)系抽取技術(shù)的研究和發(fā)展.
繼MUC和ACE會(huì)議之后,SemEval會(huì)議[4]在自然語言處理領(lǐng)域受到了廣泛關(guān)注.SemEval會(huì)議的前身是在1997年由ACL-SIGLEX組織成立的Senseval.Senseval是國際權(quán)威的詞義消歧評測會(huì)議,其潛在的目標(biāo)是增進(jìn)人們對詞義與多義現(xiàn)象的理解.之后,除詞義消歧之外,由于其他有關(guān)語義分析的任務(wù)也越來越多,因此Senseval委員會(huì)決定把評測名稱改為SemEval,并于2007年組織了SemEval2007評測.該會(huì)議聚焦于句子級(jí)單元間的彼此聯(lián)系、語句間的聯(lián)系以及自然語言(情感分析、語義關(guān)系)等.SemEval會(huì)議定義了最初9種常見名詞及其關(guān)系(原因-影響、儀器-機(jī)構(gòu)、產(chǎn)品-生產(chǎn)者、含量-包含者、實(shí)體-來源地、實(shí)體-目的地、部分-整體、成員-集合、行為-主題),采用傳統(tǒng)機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)的方法完成英語、中文等語言的詞義、語義的消歧任務(wù),最終對數(shù)據(jù)庫中的關(guān)系種類進(jìn)行擴(kuò)充.此外,該會(huì)議提供了SemEval-2010 Task 8數(shù)據(jù)集,逐漸掀起了研究人員對實(shí)體關(guān)系抽取研究的高潮,發(fā)展成為規(guī)??涨?、極具影響力的評測會(huì)議.
權(quán)威評測會(huì)議MUC,ACE,TAC,SemEval為傳統(tǒng)的關(guān)系抽取提供了評測語料.這些領(lǐng)域由專家人工標(biāo)注和構(gòu)建的評測語料庫具有較高的質(zhì)量和公認(rèn)的評價(jià)方式,因此有力地引導(dǎo)和推進(jìn)了傳統(tǒng)的關(guān)系抽取研究的發(fā)展,大幅度地提升了關(guān)系抽取性能.由于傳統(tǒng)關(guān)系抽取基于特定領(lǐng)域、特定關(guān)系進(jìn)行抽取,導(dǎo)致關(guān)系抽取這一任務(wù)耗時(shí)耗力,成本極高,同時(shí)不利于擴(kuò)展語料類型.近年來,針對開放領(lǐng)域的實(shí)體關(guān)系抽取方法逐漸受到人們的廣泛關(guān)注.
研究者利用Wikipedia,HowNet,WordNet,FreeBase等涵蓋大規(guī)模事實(shí)性信息的知識(shí)庫解決了語料獲取困難的問題,為關(guān)系抽取任務(wù)提供了有效的數(shù)據(jù)支持.與傳統(tǒng)的人工標(biāo)注語料的方法相比較,基于Web開放語料的規(guī)模更宏大,涉及的領(lǐng)域更廣闊,涵蓋的關(guān)系類型也更豐富,并不需要事先對關(guān)系進(jìn)行定義.為了解決互聯(lián)網(wǎng)海量數(shù)據(jù)的文本挖掘和分析任務(wù),越來越多的研究者開始研究OpenIE技術(shù)[5].而開放領(lǐng)域的實(shí)體關(guān)系抽取作為其中的重要子任務(wù)和關(guān)鍵技術(shù),自然也受到了研究者的廣泛關(guān)注.研究人員無需事先指定關(guān)系的定義方式,可以采用深度學(xué)習(xí)和模式匹配結(jié)合的方法,針對開放領(lǐng)域完成實(shí)體關(guān)系抽取任務(wù).該類方法提高了關(guān)系模型的可移植性和擴(kuò)展性,能夠通過遷移學(xué)習(xí)(transfer learning)等方式應(yīng)用于其他領(lǐng)域.實(shí)體關(guān)系抽取的研究趨勢和關(guān)鍵會(huì)議如表1所示:
Table 1 History of Entity Relation Extraction表1 實(shí)體關(guān)系抽取的發(fā)展歷史
Fig. 1 The general framework of a relation extraction system圖1 關(guān)系抽取系統(tǒng)框架
在自然語言處理領(lǐng)域,關(guān)系通常主要指代文本中實(shí)體之間的聯(lián)系,如語法關(guān)系、語義關(guān)系等.通常將實(shí)體間的關(guān)系形式化地描述為關(guān)系三元組E1,R,E2,其中E1和E2指的是實(shí)體類型,R指的是關(guān)系描述類型.實(shí)體關(guān)系抽取的主要目的是從自然語言文本中識(shí)別并判定實(shí)體對之間存在的特定關(guān)系.文本經(jīng)過命名實(shí)體識(shí)別、關(guān)系觸發(fā)詞識(shí)別2個(gè)數(shù)據(jù)預(yù)處理過程,將判定的三元組E1,R,E2存儲(chǔ)在數(shù)據(jù)庫中,供進(jìn)一步的分析或查詢.
基于以上的定義,可以直觀地將關(guān)系抽取任務(wù)分成3個(gè)關(guān)鍵的模塊,即為命名實(shí)體識(shí)別和觸發(fā)詞識(shí)別2個(gè)預(yù)處理模塊以及關(guān)系抽取模塊.關(guān)系抽取系統(tǒng)框架如圖1所示[6]:
1) Name entity recognition,即命名實(shí)體識(shí)別,是指識(shí)別文本中具有特定意義的實(shí)體,主要包括人名、地名、機(jī)構(gòu)名、專有名詞等;
2) Relation trigger word identification,即關(guān)系觸發(fā)詞識(shí)別,是指對觸發(fā)實(shí)體關(guān)系的詞進(jìn)行分類,識(shí)別出是觸發(fā)詞還是非觸發(fā)詞,判定抽取出的關(guān)系是正類還是負(fù)類;
3) Relation extraction,即關(guān)系抽取,是指從識(shí)別出的實(shí)體中抽取實(shí)體間的語義關(guān)系,如地點(diǎn)、雇員、產(chǎn)品等.
以句子“姚明出生于上海”為例,首先對句子進(jìn)行預(yù)處理,識(shí)別出命名實(shí)體“姚明”和“上海”,然后“出生于”作為關(guān)系觸發(fā)詞表明這2種實(shí)體之間可能存在某種關(guān)系,最后通過關(guān)系抽取模型的判定,得出2個(gè)實(shí)體之間存在著“地點(diǎn)”這一關(guān)系.
關(guān)系抽取是一個(gè)文本分類問題,相比于情感分類、新聞分類等其他任務(wù),關(guān)系抽取主要有3個(gè)特點(diǎn).
1) 領(lǐng)域眾多,關(guān)系模型構(gòu)建復(fù)雜.針對一個(gè)或者多個(gè)限定領(lǐng)域的關(guān)系抽取的研究時(shí)間較長,研究者投入的精力相對開發(fā)領(lǐng)域多,因此方法眾多,技術(shù)成熟.由于限定了關(guān)系類別,可采用基于規(guī)則[7-13]、詞典[14-17]以及本體[18-20]的方法,也可采用傳統(tǒng)機(jī)器學(xué)習(xí)的有監(jiān)督[21-35]、半監(jiān)督[36-48]以及無監(jiān)督[49-57]方法,深度學(xué)習(xí)的有監(jiān)督[58-89]、遠(yuǎn)程監(jiān)督[90-99]方法.這類方法的模型構(gòu)建難度相對于開放領(lǐng)域難度較低,但是移植性和擴(kuò)展性較差.而針對開放領(lǐng)域的關(guān)系抽取[100-117],由于關(guān)系類型多樣且不確定,可以采用無監(jiān)督和遠(yuǎn)程監(jiān)督等方法.
2) 數(shù)據(jù)來源廣泛,主要有結(jié)構(gòu)化、半結(jié)構(gòu)化、無結(jié)構(gòu)3類.針對表格文檔、數(shù)據(jù)庫數(shù)據(jù)等結(jié)構(gòu)化數(shù)據(jù),方法眾多,現(xiàn)通常采用深度學(xué)習(xí)相關(guān)[65]的方法等;針對純文本的無結(jié)構(gòu)數(shù)據(jù),由于無法預(yù)料全部關(guān)系類型,一般采用以聚類為核心的無監(jiān)督方法[50-55]等;而針對維基百科、百度百科等半結(jié)構(gòu)化數(shù)據(jù),通常采用半監(jiān)督[52-53]和遠(yuǎn)程監(jiān)督方法[92-93]等.
3) 關(guān)系種類繁多復(fù)雜,噪音數(shù)據(jù)無法避免.實(shí)體之間的關(guān)系多樣,有一種或多種關(guān)系,早期方法主要針對一種關(guān)系(忽略重疊關(guān)系)進(jìn)行抽取,這類方法忽略了實(shí)體間的多種關(guān)系,對實(shí)體間的潛在關(guān)系難以處理.近年來,圖結(jié)構(gòu)[73-77,88-89]逐漸應(yīng)用于關(guān)系抽取領(lǐng)域,為關(guān)系重疊和實(shí)體重疊提供了新思路.而針對噪音數(shù)據(jù),Bekoulis等人[86]發(fā)現(xiàn)少量對抗樣本會(huì)避免模型過擬合,提出使用對抗訓(xùn)練提高模型的性能.
實(shí)體之間的關(guān)系一般用文本的句法特征和語義特征來表示,因此需要對文本進(jìn)行分析.下面主要介紹國內(nèi)外性能比較穩(wěn)定且廣受關(guān)注的文本分析工具.
1.4.1 英文關(guān)系抽取常用工具
1) NLTK(natural language toolkit)[118]
2009年賓夕法尼亞大學(xué)計(jì)算機(jī)和信息科學(xué)系實(shí)驗(yàn)室里開發(fā)了NLTK.NLTK是一個(gè)基于腳本語言Python開發(fā)的自然語言處理工具包,該工具包具有免費(fèi)、開源等特點(diǎn),并集成了中文分詞、詞形還原、文本分類以及語義推理等一系列文本處理技術(shù),并涉及50多種語料庫和詞匯資源的交互界面,促進(jìn)了研究人員對自然語言處理領(lǐng)域的開發(fā)和研究.
在關(guān)系抽取方面,研究人員通過該工具包提供的文本分析、文本分類等功能對文本進(jìn)行預(yù)處理,進(jìn)而對句子結(jié)構(gòu)和語法特征進(jìn)行分析,推斷句子中實(shí)體之間是否存在的語義聯(lián)系.
2) DeepDive[119]
2014年斯坦福大學(xué)發(fā)布了DeepDive.它是一種新型數(shù)據(jù)管理系統(tǒng),可以在單個(gè)系統(tǒng)中解決提取、集成和預(yù)測問題.相對于其他關(guān)系抽取工具,DeepDive使研究者關(guān)注重點(diǎn)在實(shí)體關(guān)系之間的特征而不是具體的算法,這有效地減輕了研究者的工作負(fù)擔(dān).此外,DeepDive是一個(gè)性能良好的系統(tǒng),使用機(jī)器學(xué)習(xí)消除各種形式的噪音和不精確數(shù)據(jù).在科學(xué)領(lǐng)域,DeepDive抽取復(fù)雜知識(shí)的表現(xiàn)優(yōu)于人類志愿者,特別是在實(shí)體關(guān)系抽取比賽中取得了較好的成績.
3) Stanford CoreNLP[120]
2014年斯坦福大學(xué)自然語言處理研究小組在第52屆國際計(jì)算語言學(xué)協(xié)會(huì)(The Association for Computational Linguistics, ACL)發(fā)布了一系列較為成熟的自然語言處理工具包Stanford CoreNLP.該工具包由眾多語法分析工具集成,提供多種編程語言的接口,能實(shí)現(xiàn)對任意自然語言文本進(jìn)行分析.該工具包為研究者提供了許多基礎(chǔ)性的工具,如詞性標(biāo)記器(POS)、命名實(shí)體識(shí)別器(NER)、解析器、共參考分辨率系統(tǒng)、情感分析、自舉模式學(xué)習(xí)和開放信息提取等.研究者利用這些工具包,可以根據(jù)短語和語法依賴來標(biāo)記句子的結(jié)構(gòu)、發(fā)現(xiàn)實(shí)體之間的關(guān)系、分析出句子所表達(dá)的情感等.
1.4.2 中文關(guān)系抽取常用工具
1) 中文分詞工具
和英語等語言相比較,中文具有較大的差異,如中文詞語之間沒有空格,因此對中文的關(guān)系抽取任務(wù)首先需要進(jìn)行中文分詞.結(jié)巴分詞(jieba)、清華分詞(THULAC)、中國科學(xué)院計(jì)算技術(shù)研究所分詞(NLPIR)、哈爾濱工業(yè)大學(xué)分詞(LTP)等是國內(nèi)常見中文分詞的工具.這些工具對文本數(shù)據(jù)進(jìn)行預(yù)處理,將字序列切分成具有語言含義的詞序列,便于對中文領(lǐng)域的文本進(jìn)行關(guān)系抽取.
2) LTP-Cloud[121]
2014年哈爾濱工業(yè)大學(xué)聯(lián)合科大訊飛公司共同推出了LTP-Cloud.LTP-Cloud以哈工大社會(huì)計(jì)算與信息檢索研究中心研發(fā)的“語言技術(shù)平臺(tái)(LTP)”為基礎(chǔ),為用戶提供高效精準(zhǔn)的中文自然語言處理云服務(wù).LTP-Cloud支持跨平臺(tái)、跨語言編程等,并提供了一整套自底向上的豐富、高效、高精度的中文自然語言處理模塊應(yīng)用程序接口和可視化工具等.在實(shí)體關(guān)系抽取方面,研究人員利用該系統(tǒng)對中文文本進(jìn)行分詞、詞性標(biāo)注、命名實(shí)體識(shí)別等進(jìn)行預(yù)處理,通過依存句法分析、語義角色標(biāo)注和語義依存分析,抽取實(shí)體間存在的關(guān)系.
面向中文文本的關(guān)系抽取起步較晚,而且中文與英文等語言相差較大.中文語料庫的建立需要經(jīng)過中文分詞、詞性標(biāo)注和句法分析等預(yù)處理,并且在處理的過程中會(huì)存在很多錯(cuò)誤,這就導(dǎo)致中文實(shí)體關(guān)系抽取的效果也略差于英文關(guān)系抽取.因此,中文領(lǐng)域的實(shí)體關(guān)系抽取研究具有較大的挑戰(zhàn)性,主要存在3個(gè)特殊性:
1) 中文的單元詞匯邊界模糊,缺少英文文本中空格這樣明確的分隔符,也沒有明顯的詞形變換特征,因此容易造成許多邊界歧義,從而加大了關(guān)系抽取的難度.
2) 中文觸發(fā)詞抽取難度較大,且數(shù)目過多.中文自然語言處理底層技術(shù)研究還不夠成熟,導(dǎo)致錯(cuò)誤的級(jí)聯(lián).如在長句子的句法分析上,ACE語料中大量出現(xiàn)詞語個(gè)數(shù)大于30的長句子,句法分析效果較差.此外,中文觸發(fā)詞數(shù)目過多,導(dǎo)致關(guān)系抽取召回率較低.通過對語料的分析發(fā)現(xiàn),由于中文詞匯表達(dá)的多義性,對同一類事件,中文觸發(fā)詞的個(gè)數(shù)要遠(yuǎn)大于英文.文獻(xiàn)[123]統(tǒng)計(jì)表明在ACE語料里中文觸發(fā)詞個(gè)數(shù)比英文多30%.
3) 中文存在多義性、句式復(fù)雜表達(dá)靈活、多省略等特點(diǎn).不同領(lǐng)域中的同一個(gè)詞語表示的意思并不一樣,或者同一種語義可能存在多種表達(dá)形式.此外,由于互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)文本中的文字描述更加個(gè)性化,許多詞語具有不同意義,中文命名實(shí)體在不同語境下被賦予了不同的意義(如高富帥、黑天鵝等),使得關(guān)系類型的識(shí)別更為困難.
針對特定領(lǐng)域的關(guān)系抽取的結(jié)果,一般通過計(jì)算對應(yīng)的準(zhǔn)確率(Precision)、召回率(Recall)和F1值來評價(jià).其中,準(zhǔn)確率是對于給定的測試數(shù)據(jù)集,分類器正確分類為正類的樣本數(shù)與全部正類樣本數(shù)之比;召回率則是對于給定的測試數(shù)據(jù)集,預(yù)測正確的正類與所有正類數(shù)據(jù)的比值;而F1值則是準(zhǔn)確率和召回率的調(diào)和平均值,可以對系統(tǒng)的性能進(jìn)行綜合性的評價(jià).對應(yīng)的計(jì)算為
(1)
(2)
(3)
其中,數(shù)據(jù)有2種類型:測試集數(shù)據(jù)和預(yù)測結(jié)果數(shù)據(jù).對一批測試數(shù)據(jù)進(jìn)行預(yù)測,一般可以將關(guān)系抽取的結(jié)果分成4種:
1)TP(true positive ).原本是正類, 預(yù)測結(jié)果為正類(正確預(yù)測為正類).
2)FP(false positive).原本是負(fù)類,預(yù)測結(jié)果為正類(錯(cuò)誤預(yù)測為正類).
3)TN(true negative).原本是負(fù)類,預(yù)測結(jié)果為負(fù)類(正確預(yù)測為負(fù)類).
4)FN(false negative).原本是正類,預(yù)測結(jié)果為負(fù)類(錯(cuò)誤預(yù)測為負(fù)類).
針對開放領(lǐng)域的關(guān)系抽取,目前還缺少公認(rèn)的評測體系,一般通過考查抽取關(guān)系的準(zhǔn)確性以及綜合考慮算法的時(shí)間復(fù)雜度、空間復(fù)雜度等因素來評價(jià)關(guān)系抽取模型的性能.
本文以關(guān)系抽取的發(fā)展歷程為主線,經(jīng)過總結(jié)和整理將關(guān)系抽取的方法主要分為四大類,接著根據(jù)處理特點(diǎn)細(xì)分為若干種不同的子方法,并簡要表示了各類方法之間的聯(lián)系和區(qū)別.具體分類方法如圖2所示:
Fig. 2 The classification of relation extraction圖2 關(guān)系抽取分類
2.1.1 基于規(guī)則的關(guān)系抽取方法
早期的關(guān)系抽取方法主要是通過人工構(gòu)造語法和語義規(guī)則.基于規(guī)則的方法需要運(yùn)用語言學(xué)知識(shí)提前定義能夠描述2個(gè)實(shí)體所在結(jié)構(gòu)的規(guī)則,這些定義的規(guī)則主要由若干基于詞語、詞性或者語義的模式集合構(gòu)成.在關(guān)系抽取的過程中,將已經(jīng)預(yù)處理的語句片段與模式進(jìn)行匹配判定,完成關(guān)系抽取的分類.
Aitken[7]借助自然語言數(shù)據(jù)并應(yīng)用歸納邏輯編程(ILP)技術(shù)獲得了信息提取規(guī)則,在包含371個(gè)句子的數(shù)據(jù)集中,F(xiàn)1值可達(dá)66%.McDonald等人[8]利用語義過濾和專家評估顯示解析器在生物領(lǐng)域分別使用NE,MC,PC這3個(gè)系統(tǒng)進(jìn)行生物相關(guān)的關(guān)系抽取,其中PC系統(tǒng)的平均F1值為69%,且相比使用最大斜率和枚舉的方法分別減少13%和31%的錯(cuò)誤率.Aone等人[9]對語料文本的特點(diǎn)進(jìn)行總結(jié),邀請知識(shí)領(lǐng)域?qū)<揖帉懳谋娟P(guān)系描述規(guī)則,從而在文本中抽取與規(guī)則匹配的關(guān)系實(shí)例.Humphreys等人[10]首先對句子進(jìn)行句法樹分析,將分析的結(jié)果作為輸入,并利用人工構(gòu)造復(fù)雜的句法規(guī)則實(shí)現(xiàn)實(shí)體之間語義關(guān)系的識(shí)別.Fukumoto等人[11]提出了OKI信息抽取系統(tǒng),可以進(jìn)行命名實(shí)體、模板化元素、模板化關(guān)系,其中關(guān)系抽取采用實(shí)體之間的謂詞信息來判定2個(gè)實(shí)體之間的語義關(guān)系.中文領(lǐng)域基于規(guī)則的關(guān)系抽取起步較晚.鄧擘等人[12]發(fā)現(xiàn),相比于英文直接用模板匹配句子的方式,中文關(guān)系抽取方法的準(zhǔn)確率和召回率低很多.因此它們在模式匹配的基礎(chǔ)上引入了詞匯、語義匹配技術(shù)對中文領(lǐng)域的實(shí)體關(guān)系進(jìn)行抽取.實(shí)驗(yàn)結(jié)果表明,利用詞匯、語義模式匹配的方法更適合于處理中文實(shí)體關(guān)系抽取任務(wù),詞匯語義模式匹配相比直接匹配模式F1值提高了近30%.溫春等人[13]提出一種擴(kuò)展的關(guān)聯(lián)規(guī)則方法用于抽取中文非分類關(guān)系,在利用普通關(guān)聯(lián)規(guī)則抽取出非分類關(guān)系概念對后,通過語言學(xué)規(guī)則抽取相應(yīng)的非分類關(guān)系名稱.該方法克服了普通關(guān)聯(lián)規(guī)則方法無法得出具體非分類關(guān)系名稱的缺點(diǎn),能夠確定非分類關(guān)系的定義域和值域.
基于規(guī)則的關(guān)系抽取方法要求規(guī)則構(gòu)建者(如語言學(xué)家等)對領(lǐng)域的背景和特點(diǎn)有深入的了解.在限定了領(lǐng)域以及語料的規(guī)模時(shí),早期的關(guān)系抽取方法取得了一定的成就.而基于規(guī)則的關(guān)系抽取方法的缺點(diǎn)則是對跨領(lǐng)域的可移植性較差、人工標(biāo)注成本較高以及召回率較低.這些基于規(guī)則的關(guān)系抽取方法所帶來的困擾驅(qū)使研究者嘗試跳出該方法的局限,轉(zhuǎn)而使用基于詞典等方法.
2.1.2 基于詞典驅(qū)動(dòng)的關(guān)系抽取方法
在基于詞典驅(qū)動(dòng)的關(guān)系抽取方法中,需要對詞典進(jìn)行擴(kuò)充,通常只需新增指示實(shí)體關(guān)系類型的動(dòng)詞即可.該方法通過字符串匹配算法識(shí)別給定文本中的實(shí)體,并利用領(lǐng)域詞典中的動(dòng)詞及其動(dòng)詞的關(guān)系結(jié)構(gòu)判別關(guān)系類型,最終完成關(guān)系抽取任務(wù).該方法以其簡潔高效的特點(diǎn)曾經(jīng)引起研究的熱潮.
Aone等人[14]基于大規(guī)模事件提出一種關(guān)系抽取方法,該方法具有開銷小、準(zhǔn)確率高的特點(diǎn),在39種關(guān)系類型構(gòu)成的測試數(shù)據(jù)集中,實(shí)驗(yàn)數(shù)據(jù)F1可達(dá)75.35%,相比于McDonald基于規(guī)則的方法提高6.35%,而在多類型的關(guān)系和事件共同抽取時(shí)F1值可達(dá)73.95%;Temkin等人[15]利用詞典表示2個(gè)蛋白質(zhì)之間關(guān)系的關(guān)系詞,但是該關(guān)系詞抽取方法的性能完全依賴于詞典的質(zhì)量和規(guī)模,而且需要耗費(fèi)大量的人工;Neelakantan等人[16]嘗試?yán)冒?8 546條標(biāo)注句子的數(shù)據(jù)集來訓(xùn)練二元分類器,從未標(biāo)注的大規(guī)模語料的候選實(shí)體中選擇真實(shí)的實(shí)體,自動(dòng)地構(gòu)建相關(guān)實(shí)體類型的詞典;文獻(xiàn)[17]通過對文本分析發(fā)現(xiàn),信息系統(tǒng)通常需要2個(gè)詞典:語義詞典和表示關(guān)系類型提取模式的詞典,該文獻(xiàn)提出了一種多級(jí)自舉(bootstrapping)的方法,可以同時(shí)生成語義詞典和提取模式.該方法將標(biāo)注的文本和關(guān)系類別的種子詞作為輸入,采用多級(jí)自舉的算法交替選擇最佳的提取模式,通過不斷迭代的方式擴(kuò)充語義詞典和關(guān)系抽取模板詞典.
由于構(gòu)建的詞典均是以動(dòng)詞為關(guān)系抽取的核心依據(jù),難以解決其他詞的關(guān)系類型的抽取識(shí)別,而且靈活性較差.因此,研究者開始探索新的關(guān)系抽取方法.
2.1.3 基于本體的關(guān)系抽取方法
知識(shí)管理過程中,基于本體的方法利用信息抽取技術(shù)抽取出的實(shí)體以及實(shí)體間的關(guān)系來構(gòu)建和豐富本體,借助己有的本體層次結(jié)構(gòu)和其所描述的概念之間的關(guān)系來協(xié)助進(jìn)行關(guān)系的抽取.
Iria[18]提出了可訓(xùn)練關(guān)系抽取的框架(trainable relation extraction framework, T-Rex),該框架是一個(gè)基于本體的關(guān)系抽取通用軟件框架,可以自動(dòng)靈活地對語義網(wǎng)進(jìn)行語義標(biāo)注,能夠?qū)⒄Z料模型化到字符級(jí)、語詞級(jí)、短語級(jí)、語句級(jí)和文檔級(jí)層次,實(shí)現(xiàn)對本體的定義和擴(kuò)充.在足球領(lǐng)域,Schutz 等人[19]結(jié)合DOLCE,SUMO,SEO等本體構(gòu)建了Relext系統(tǒng),該系統(tǒng)能自動(dòng)識(shí)別實(shí)體和實(shí)體之間的關(guān)系.Sabou等人[20]提出自動(dòng)選擇和查詢本體的SCARLET系統(tǒng)可以使用2種策略發(fā)現(xiàn)實(shí)體概念之間的關(guān)系:1)如果2個(gè)概念之間的關(guān)系已經(jīng)被定義于單個(gè)本體中,則認(rèn)為這2個(gè)概念之間有關(guān)系;2)以遞歸的方式跨實(shí)體發(fā)現(xiàn)2個(gè)概念之間的關(guān)系.
基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法以統(tǒng)計(jì)語言模型為基礎(chǔ),研究思路明確,并采用相對簡單的方法獲得較好的效果.基于機(jī)器學(xué)習(xí)的實(shí)體關(guān)系抽取方法以數(shù)據(jù)是否被標(biāo)注作為標(biāo)準(zhǔn)進(jìn)行分類,主要集中于3類方法:有監(jiān)督的關(guān)系抽取算法、半監(jiān)督的關(guān)系抽取算法、無監(jiān)督的關(guān)系抽取算法.機(jī)器學(xué)習(xí)的方法優(yōu)點(diǎn)明顯,能夠明顯提升結(jié)果的召回率,領(lǐng)域限制性弱于早期的3種關(guān)系抽取方法.
基于傳統(tǒng)機(jī)器學(xué)習(xí)的關(guān)系抽取算法主要分為學(xué)習(xí)過程和預(yù)測過程2個(gè)主要部分,一般流程如圖3所示.
Fig. 3 General flow of relation extraction algorithm based on traditional machine learning圖3 傳統(tǒng)機(jī)器學(xué)習(xí)的關(guān)系抽取算法的一般流程
1) 學(xué)習(xí)過程.采用訓(xùn)練樣本,學(xué)習(xí)出關(guān)系抽取模型.
① Preprocessing,即預(yù)處理,將語料文本清洗成可以直接抽取的純文本格式;
② Textual analysis,即文本分析,對文本的表示及其特征(POS,NER等)進(jìn)行選??;
③ Relation represention,即關(guān)系表示,即對實(shí)體之間的聯(lián)系進(jìn)行語義表示;
④ Relation extraction models,即關(guān)系抽取模型,基于關(guān)系表示構(gòu)建分類模型.
2) 預(yù)測過程.利用學(xué)習(xí)過程獲得的關(guān)系抽取模型對測試文本進(jìn)行關(guān)系的預(yù)測和抽取.
一般預(yù)測過程和訓(xùn)練過程中的Preprocessing,Textual analysis,Relation represention步驟相同,不同在于Relation decision,該步驟的具體工作為:
Relation decision,即關(guān)系判定,利用訓(xùn)練過程中得到的關(guān)系抽取模型對測試集數(shù)據(jù)中的實(shí)體之間的關(guān)系進(jìn)行判定.
2.2.1 有監(jiān)督的關(guān)系抽取方法
有監(jiān)督的關(guān)系抽取方法將關(guān)系抽取任務(wù)看作分類問題.通常需要預(yù)先了解語料庫中所有可能的目標(biāo)關(guān)系的種類,并通過人工對數(shù)據(jù)進(jìn)行標(biāo)注,建立訓(xùn)練語料庫.使用標(biāo)注數(shù)據(jù)訓(xùn)練的分類器對新的候選實(shí)體及其關(guān)系進(jìn)行預(yù)測、判斷.
有監(jiān)督的機(jī)器學(xué)習(xí)方法將一般的二元關(guān)系抽取視為分類問題:
(4)
其中,s=w1,w2,…,e1,…,wj,…,e2,…,wn,即為包含實(shí)體關(guān)系的文本,ei為實(shí)體類型,wj為關(guān)系觸發(fā)詞,F(xiàn)為關(guān)系分類器.基于特征向量抽取以及基于核函數(shù)的方法是實(shí)體關(guān)系抽取方面中最流行的有監(jiān)督的抽取方法.
1) 基于特征向量的抽取方法
基于特征向量抽取的方法主要從關(guān)系實(shí)例中提取一系列特征向量,主要有3種特征類型:詞匯特征、句法特征、語義特征.研究者根據(jù)不同的特征類型,利用機(jī)器學(xué)習(xí)算法顯式地將語料構(gòu)造成特征向量這一形式,以此建立不同的分類模型,例如最大熵(max intropy, MI)、支持向量機(jī)(support vector machine, SVM)、樸素貝葉斯(naive Bayes, NB)、條件隨機(jī)場(conditional random field, CRF)等.這一類機(jī)器學(xué)習(xí)算法相對簡單,方便實(shí)體關(guān)系抽取任務(wù)的順利完成.
基于特征向量的抽取方法的一般流程如下:
① 根據(jù)語料庫的文本信息,選擇合適的特征;
② 根據(jù)選取特征的重要程度,賦予特征不同的權(quán)重進(jìn)行計(jì)算;
③ 選擇合適的分類器訓(xùn)練特征向量,得到關(guān)系抽取模型.
Kambhatla[21]綜合實(shí)體上下文信息、句法分析樹、依存關(guān)系等多種特征,將詞匯、句法和語義特征與最大熵模型相結(jié)合進(jìn)行關(guān)系分類.該方法利用實(shí)體上下文豐富的語言特征有利于擴(kuò)展關(guān)系表達(dá)的規(guī)模和質(zhì)量,為后續(xù)關(guān)系抽取奠定了基礎(chǔ).Zhou等人[22]的研究更為深入,他們借鑒Kambhatla的經(jīng)驗(yàn)方法,融合了基本的文法分塊(chunking)信息、半自動(dòng)地收集特征(如名稱列表、詞匯列表等),利用支持向量機(jī)進(jìn)行關(guān)系分類,利用具有43種子類型的測試數(shù)據(jù)集ACE進(jìn)行評測,F(xiàn)1值可達(dá)55.5%.
Sun等人[23]融合上下文特征和2個(gè)實(shí)體間的長期相關(guān)性特征、實(shí)體順序特征、實(shí)體間順序特征以及標(biāo)點(diǎn)符號(hào)特征,并混合樸素貝葉斯模型和投票感知模型(voted perceptron, VP)兩種算法進(jìn)行關(guān)系分類.
Jiang等人[24]為了進(jìn)一步提高關(guān)系抽取的準(zhǔn)確性,系統(tǒng)地研究和分析了從各種信息中的抽取特征并進(jìn)行了描述.該方法綜合考慮了技術(shù)的復(fù)雜程度以及不同維度的特征,將特征劃分成不同的子空間,結(jié)合條件隨機(jī)場模型取得了較好的效果,利用包含97篇文檔的ACE測試數(shù)據(jù)集(1 386條句子約合5萬個(gè)單詞)進(jìn)行評測,F(xiàn)1值可達(dá)54.0%.
在中文領(lǐng)域,車萬翔等人[25]結(jié)合實(shí)體類別、實(shí)體位置關(guān)系、前后詞信息等,利用Winnow和SVM 2種機(jī)器學(xué)習(xí)算法進(jìn)行訓(xùn)練和識(shí)別中文關(guān)系,實(shí)驗(yàn)表明,相對于Winnow算法,SVM算法所需的運(yùn)行時(shí)間較長,但當(dāng)將窗口大小設(shè)置為2時(shí),其平均召回率和平均F1值分別提高約2%和1%.郭喜躍等人[26]以詞法特征、實(shí)體原始特征為基礎(chǔ),融合依存句法關(guān)系、核心謂詞和語義角色標(biāo)柱等特征進(jìn)行關(guān)系抽取,極大程度上提高了關(guān)系抽取方法的性能.高俊平等人[27]提出了一種基于關(guān)系推理模型的領(lǐng)域知識(shí)來演化關(guān)系抽取方法.實(shí)驗(yàn)結(jié)果表明,該方法相對于傳統(tǒng)方法,考慮了深層句法特征,因此具有更高的準(zhǔn)確性,更適合中文領(lǐng)域知識(shí)演化關(guān)系抽取.甘麗新等人[28]綜合詞法特征、實(shí)體特征、句法特征以及語義特征等,豐富了實(shí)體間的關(guān)系特征.將1998年1月份的《人民日報(bào)》所有版面內(nèi)容的40 000多條中文句子作為語料庫,得到了3.6億個(gè)二元實(shí)體對,擴(kuò)大了中文實(shí)體關(guān)系庫的規(guī)模.以“基本特征”和“基本特征+句法語義特征”2種方法進(jìn)行關(guān)系抽取,實(shí)驗(yàn)表明后者在準(zhǔn)確率、召回率、F1值這3個(gè)評估指標(biāo)中比前者分別提高2.21%,7.83%,4.98%,分別可達(dá)76.03%,79.85%,77.89%,提高效果十分明顯.
2) 基于核函數(shù)的抽取方法
基于特征向量抽取的方法是顯式地構(gòu)造特征向量形式,而基于核函數(shù)的方法則是隱式地計(jì)算特征向量的內(nèi)積.此類方法在輸入句法結(jié)構(gòu)樹之后,直接利用核函數(shù)比較關(guān)系實(shí)例之間的結(jié)構(gòu)相似性.基于核函數(shù)方法的關(guān)鍵在于設(shè)計(jì)出計(jì)算2個(gè)關(guān)系實(shí)例相似度的核函數(shù).早期的核函數(shù)主要是序列核函數(shù),這種方法綜合關(guān)系實(shí)例特征向量的順序和結(jié)構(gòu)信息,具有較好的復(fù)合性能.基于核函數(shù)在一定程度上能提高分類的準(zhǔn)確率,有利于指導(dǎo)和促進(jìn)了實(shí)體關(guān)系抽取的研究和發(fā)展.
使用核函數(shù)方法來抽取實(shí)體關(guān)系一般流程如下:
① 合理選擇解析結(jié)構(gòu)(如語法樹等)隱式地計(jì)算特征向量的內(nèi)積;
② 合理選擇基礎(chǔ)核函數(shù),之后考慮關(guān)系實(shí)例特征向量的順序和結(jié)構(gòu)信息,分析關(guān)系實(shí)例的相似性;
③ 充分利用各種特征,可以對多個(gè)核函數(shù)進(jìn)行復(fù)合,以提高關(guān)系抽取任務(wù)的分類精度.
近年來,研究者將多種不同的核函數(shù)運(yùn)用在英文領(lǐng)域的關(guān)系抽取任務(wù)中.Zelenco等人[29]利用動(dòng)態(tài)規(guī)劃算法,首次在淺層解析樹結(jié)構(gòu)中應(yīng)用核函數(shù).該方法使用支持向量機(jī)和投票感知模型等方法進(jìn)行關(guān)系抽取的分類任務(wù);在Zelenco的基礎(chǔ)之上,Culotta等人[30]運(yùn)用基于支持向量機(jī)的方法,融合依存樹函數(shù)和知識(shí)庫WordNet,提出了擴(kuò)展子樹節(jié)點(diǎn)間的匹配算法,并使用數(shù)量少于15%正類關(guān)系實(shí)例進(jìn)行訓(xùn)練,相比Zelenco的方法F1提高了2%~3%;Zhou等人[31]融合最短路徑和卷積樹核函數(shù)進(jìn)行實(shí)體關(guān)系抽取,該方法考慮不同層面的語義關(guān)系特征,定義了基于樹的卷積核,綜合考慮了謂詞上下文,最終完成了關(guān)系抽取任務(wù);Zhang等人[32]首次提出融合多個(gè)單一核函數(shù)的方法,利用復(fù)合核函數(shù)進(jìn)行關(guān)系抽取任務(wù).實(shí)驗(yàn)結(jié)果表明,復(fù)合核函數(shù)的表現(xiàn)比任何單一核函數(shù)實(shí)驗(yàn)效果更佳,其準(zhǔn)確率、召回率、F1分別達(dá)到了76.6%,67.0%,71.5%,但復(fù)合核函數(shù)容易產(chǎn)生過擬合現(xiàn)象,且計(jì)算復(fù)雜度較高.
在中文研究方面中,劉克彬[33]利用基于核函數(shù)的關(guān)系抽取方法自動(dòng)地抽取中文實(shí)體關(guān)系.該方法在語義序列核函數(shù)的基礎(chǔ)之上,結(jié)合K-近鄰算法(KNN),構(gòu)造了關(guān)系分類器進(jìn)行關(guān)系抽取;郭劍毅等人[34]改進(jìn)了徑向基核函數(shù),并融合了多項(xiàng)式函數(shù)及卷積樹核函數(shù),利用向量離散化的矩陣訓(xùn)練關(guān)系抽取模型,實(shí)驗(yàn)表明改良的多核融合方法性能更優(yōu);虞歡歡等人[35]在卷積樹核函數(shù)方法的基礎(chǔ)上,以實(shí)體的語義信息作為樹結(jié)構(gòu)的結(jié)點(diǎn)進(jìn)行擴(kuò)展,使用ACE RDC 2005 中文基準(zhǔn)數(shù)據(jù)集(預(yù)處理后挑選了532個(gè)文檔,總共有正類關(guān)系7 630個(gè),負(fù)類關(guān)系83 063個(gè))進(jìn)行實(shí)驗(yàn),在大類抽取中最佳F1達(dá)到了67.0%,能有效地對中文文本進(jìn)行關(guān)系抽取.
基于核函數(shù)的方法以語料本身的結(jié)構(gòu)信息為基礎(chǔ),比較結(jié)構(gòu)化關(guān)系實(shí)例之間的相似性,完成關(guān)系抽取任務(wù).該方法在一定程度上節(jié)省了構(gòu)建高維特征的復(fù)雜工作,但在隱式計(jì)算的過程中容易產(chǎn)生噪聲,而且運(yùn)算速度較慢.關(guān)于基于特征向量和基于核函數(shù)的比較如表2所示:
Table 2 Comparison of Relation Extraction Methods Based on Supervised Machine Learning
綜上所述,有監(jiān)督的機(jī)器學(xué)習(xí)關(guān)系方法在關(guān)系抽取任務(wù)中取得了較好的效果.然而有監(jiān)督的機(jī)器學(xué)習(xí)方法依賴標(biāo)注的語料資源庫,必須進(jìn)行大量的預(yù)處理工作,耗費(fèi)大量人力,而且無法自動(dòng)地進(jìn)行關(guān)系抽取和擴(kuò)展實(shí)體關(guān)系的類型.因此,越來越多的研究者開始利用較少的人工參與和標(biāo)注語料資源的半監(jiān)督方法進(jìn)行關(guān)系抽取.
2.2.2 半監(jiān)督的關(guān)系抽取方法
為了解決有監(jiān)督的關(guān)系抽取方法在標(biāo)注大量語料時(shí)所帶來的高成本問題,學(xué)者開始研究利用少量的標(biāo)注語料或數(shù)據(jù)庫進(jìn)行關(guān)系抽取任務(wù),半監(jiān)督的關(guān)系抽取方法應(yīng)運(yùn)而生.該方法利用少量標(biāo)注數(shù)據(jù)和相關(guān)的學(xué)習(xí)算法,訓(xùn)練大量未標(biāo)記的測試文本的語料庫進(jìn)行關(guān)系抽取.該方法不僅能有效地減少對標(biāo)注語料的依賴和人工參與,而且性能較好,能自動(dòng)擴(kuò)展到大規(guī)模語料的關(guān)系抽取任務(wù)中,廣泛被研究者使用.半監(jiān)督機(jī)器學(xué)習(xí)關(guān)系抽取的一般流程如圖4所示[123]:
Fig. 4 The general process of semi-supervised relation extraction method圖4 半監(jiān)督機(jī)器學(xué)習(xí)關(guān)系抽取方法一般流程
① Initialize seed,即初始種子,利用少量關(guān)系實(shí)例人工構(gòu)造的初始種子集合.
② Generate seed tuples,即生成初始種子的關(guān)系三元組,由初始種子集合之間的實(shí)體關(guān)系產(chǎn)生,便于之后的實(shí)體的標(biāo)識(shí).
③ Tag entity,即標(biāo)識(shí)實(shí)體,對文本進(jìn)行預(yù)處理,利用知識(shí)庫中的初始關(guān)系三元組識(shí)別訓(xùn)練文本中實(shí)體.
④ Generate relation patterns,即生成抽取模式,利用模式學(xué)習(xí)的方法,通過不斷迭代,產(chǎn)生新的關(guān)系實(shí)例.
⑤ Produce new seeds,即產(chǎn)生新的種子,根據(jù)新的關(guān)系實(shí)例增加新的種子,不斷擴(kuò)充種子集合的規(guī)模.
⑥ Extend knowledge base,即擴(kuò)展知識(shí)庫,將新的關(guān)系實(shí)例擴(kuò)展到知識(shí)庫中.
目前,半監(jiān)督的關(guān)系抽取方法主要有自舉方法、協(xié)同訓(xùn)練(co-training)和標(biāo)注傳播(label propaga-tion)等.
1) 自舉方法
Brin[36]首次利用自舉的方法構(gòu)建了DIPRE系統(tǒng)進(jìn)行關(guān)系抽取.他們首先確認(rèn)少量的關(guān)系種子類型,通過不斷迭代的方法自動(dòng)地從大量訓(xùn)練語料庫中獲取抽取模板和新的關(guān)系實(shí)例;在Brin的基礎(chǔ)上,Agichtein等人[37]設(shè)計(jì)的Snowball抽取系統(tǒng)完善了關(guān)系的描述方法,在最佳情況下可提高6.0%,達(dá)到了96.0%,提高了對新獲取的關(guān)系實(shí)例評價(jià)方式的可信度;此外,Zhu等人[38]設(shè)計(jì)了StatSnowball抽取系統(tǒng),用于識(shí)別人際關(guān)系,該系統(tǒng)基于Marka邏輯網(wǎng)絡(luò)(Markov logic networks,MLNs),不斷改進(jìn)了Snowball系統(tǒng)的模板評價(jià)方式,在sent500數(shù)據(jù)集取得了86.9%的F1值,此外其準(zhǔn)確率也相對Snowball系統(tǒng)提高了1.78%,達(dá)到了97.8%,進(jìn)一步提高了關(guān)系抽取的性能;為減少產(chǎn)生錯(cuò)誤模板,Carlson等人[39]約束了不同類別的抽取模板的范圍,以15個(gè)種子實(shí)例和5個(gè)種子模式為基礎(chǔ),在3 570萬唯一的文本關(guān)系模式中不斷訓(xùn)練模型,提高了模型的性能和錯(cuò)誤輸出;語義漂移是自舉方法的重要挑戰(zhàn)之一,即將錯(cuò)誤預(yù)測為正類的實(shí)體對加入到迭代過程中,最終影響關(guān)系抽取模型的性能,為此,Gupta等人[40]提出聯(lián)合使用實(shí)體和模板種子,在迭代的過程中以平行且相互制約的方式擴(kuò)展實(shí)體和模板,并引入高質(zhì)量的相似性算法來判別模板;Qin等人[41]利用搜索引擎中設(shè)置的大型新聞標(biāo)題句子,通過描述詞與句子集之間的共現(xiàn)關(guān)系來評估實(shí)例的可靠性,然后通過模式歷史匹配中的正負(fù)實(shí)例數(shù)來評估模式的可靠性.實(shí)驗(yàn)結(jié)果表明:迭代中使用的實(shí)例和模式的可靠性評估有效地提高了關(guān)系提取的準(zhǔn)確性,其中CSEAL方法對130個(gè)實(shí)例的測試準(zhǔn)確率率達(dá)到了97%,并提高了提取模式的質(zhì)量.
在中文方面,何婷婷等人[42]提出了基于種子自擴(kuò)展機(jī)制,利用自舉的方法抽取1998年上半年純文本《人民日報(bào)》語料的中文實(shí)體間的關(guān)系.實(shí)驗(yàn)表明:當(dāng)上下文窗口大小設(shè)置為6時(shí),對2 615條候選命名實(shí)體對進(jìn)行關(guān)系抽取,實(shí)驗(yàn)結(jié)果性能最佳,準(zhǔn)確率、召回率及F1分別達(dá)到了83.1%,79.6%,81.3%.在地理領(lǐng)域,余麗等人[43]利用自舉的方法,根據(jù)語料庫中詞語的特征來提取表示實(shí)體關(guān)系的關(guān)系指示詞,其中準(zhǔn)確率和召回率分別提高了5%和23%.
基于自舉半監(jiān)督式機(jī)器學(xué)習(xí)的方法借助高質(zhì)量的初始關(guān)系種子,不依賴大規(guī)模的標(biāo)注語料庫,可以自動(dòng)挖掘自然語言的部分詞法特征.該方法有利于在缺乏大量標(biāo)注語料中進(jìn)行關(guān)系抽取任務(wù).
2) 協(xié)同訓(xùn)練
協(xié)同訓(xùn)練是由Blum等人[44]提出的一種半監(jiān)督機(jī)器學(xué)習(xí)算法,該方法利用2個(gè)分類器對同一個(gè)實(shí)例從不同角度進(jìn)行關(guān)系分類.2個(gè)分類器相互學(xué)習(xí)、相互強(qiáng)化,不斷提高關(guān)系抽取的性能,它被廣泛應(yīng)用在自然語言處理和信息檢索領(lǐng)域中.Abney[45]提出了一種對Yarowsky算法改進(jìn)的協(xié)同訓(xùn)練的評估方式,實(shí)驗(yàn)表明在完全獨(dú)立的條件下,該算法能一定程度強(qiáng)化實(shí)體之間的較弱聯(lián)系的關(guān)系表示;Zhang[46]提出基于隨機(jī)特征的BootProject算法.該算法基于協(xié)同訓(xùn)練的思想,用于對半監(jiān)督的語義庫進(jìn)行關(guān)系分類,并在包含5 260條標(biāo)注關(guān)系的語料集ACE中發(fā)現(xiàn)關(guān)系,其結(jié)果F1均值可達(dá)到70.9%.
3) 標(biāo)注傳播
標(biāo)注傳播算法是由Zhu等人[47]提出的,這是一種基于圖的半監(jiān)督機(jī)器學(xué)習(xí)方法,基本思路是用已標(biāo)記節(jié)點(diǎn)的標(biāo)簽信息去預(yù)測未標(biāo)記節(jié)點(diǎn)的標(biāo)簽信息.該算法將分類問題看作是標(biāo)簽在圖上的傳播,所有實(shí)體看作圖中的節(jié)點(diǎn),實(shí)體對之間的關(guān)系看作邊.但是該方法的不確定性較高,不適合關(guān)系類別特別復(fù)雜的文本數(shù)據(jù).Hoffmann等人[48]采用多實(shí)例多標(biāo)簽(multi-instance multi-label)的方法,考慮關(guān)系抽取系統(tǒng)的重疊問題,其中MULTIR方法的準(zhǔn)確率為72.4%,召回率為51.9%,F(xiàn)1值為60.5%,進(jìn)一步提高了關(guān)系抽取的性能.
對初始種子的選取,是半監(jiān)督機(jī)器學(xué)習(xí)關(guān)系抽取算法的重點(diǎn).此外,如何降低迭代過程中的噪聲問題困擾著研究者.為了進(jìn)一步提高關(guān)系抽取方法的性能,針對半監(jiān)督的機(jī)器學(xué)習(xí)關(guān)系抽取算法依舊吸引著眾多研究者的深入探索.然而在面向大規(guī)模的語料庫的條件下,無法全部預(yù)知所有關(guān)系類型,這促使一些學(xué)者將研究的目光轉(zhuǎn)向無監(jiān)督的關(guān)系抽取方法.
2.2.3 無監(jiān)督的關(guān)系抽取方法
事先確定關(guān)系類型是有監(jiān)督和半監(jiān)督機(jī)器學(xué)習(xí)的關(guān)系抽取方法的局限性之一,而在大規(guī)模的語料中無法預(yù)知所有的實(shí)體關(guān)系類型,研究者提出利用無監(jiān)督機(jī)器學(xué)習(xí)的方法進(jìn)行關(guān)系抽取.無監(jiān)督的機(jī)器方法是自底向上從大規(guī)模的語料庫中抽取實(shí)體之間的關(guān)系.該方法首先通過基于聚類(cluster)的思想將上下文信息相似性的實(shí)體對聚成一類,然后選取合適的詞語標(biāo)記關(guān)系,之后自動(dòng)地抽取實(shí)體之間的語義關(guān)系.
2004年Hasegawa等人[49]基于相同語義實(shí)體對具有相似的上下文語境的假設(shè),首次提出使用無監(jiān)督的機(jī)器學(xué)習(xí)的方法進(jìn)行關(guān)系抽取.無監(jiān)督的機(jī)器學(xué)習(xí)關(guān)系抽取一般流程如下:
① 獲取命名實(shí)體識(shí)別及其上下文的信息;
② 聚類具有相似性的命名實(shí)體對;
③ 選擇核心詞匯標(biāo)注各類的語義關(guān)系.
然而,該假設(shè)存在一些問題,如已經(jīng)選取的聚類實(shí)體對之間可能包含多種關(guān)系.Rozenfeld等人[50]提出在同一語料庫中聚類實(shí)體對或者將具有多種關(guān)系的候選實(shí)體對剔除的方法完善了Hasegawa的假設(shè),不僅如此,Rozenfeld利用基于上下文特征的模式極大地提高了關(guān)系抽取的性能;Shinyama等人[51]提出多層級(jí)聚類的方法抽取關(guān)系,該方法通過基礎(chǔ)模板映射新的次生聚類(主要包含相同關(guān)系的實(shí)體對),在美國12家主流報(bào)紙中挑選了2005-09-21—2005-11-21兩個(gè)月的文章,獲得了643 767個(gè)基礎(chǔ)模式和7 990中唯一的類型,不斷擴(kuò)展了實(shí)體關(guān)系庫的規(guī)模;Davidov等人[52]限定了概念詞,利用Google搜索為知識(shí)背景,自動(dòng)抽取與其相關(guān)的實(shí)體和語義關(guān)系.該方法無需提前預(yù)定義任何關(guān)系類型,在最佳的情況下準(zhǔn)確率達(dá)到了81.0%,召回率達(dá)到了79%;Yan等人[53]融合依存特征和淺層語法模板,利用聚類方法在大規(guī)模的語料庫中抽取維基百科詞條中的實(shí)體所有的語義關(guān)系;此外,為了進(jìn)一步提高單層次聚類算法的性能,Bollegala等人[54]分析聚類后的模板,發(fā)現(xiàn)了實(shí)體對之間的隱含語義關(guān)系,從候選的關(guān)系模板中篩選合適的抽取模板,擴(kuò)展了實(shí)體關(guān)系的范圍,在一定程度上提高了準(zhǔn)確率和召回率;在醫(yī)學(xué)專業(yè)領(lǐng)域,Rink等人[55]以產(chǎn)生式模型為基礎(chǔ)構(gòu)建了無監(jiān)督實(shí)體關(guān)系抽取框架,可以挖掘?qū)嶓w間的潛在關(guān)系信息,并在數(shù)據(jù)集2010 i2b2VA Challenge驗(yàn)證了RDM方法的有效性,促進(jìn)了無監(jiān)督的機(jī)器學(xué)習(xí)方法在產(chǎn)業(yè)的應(yīng)用.
在中文實(shí)體關(guān)系抽取方面,黃晨等人[56]基于卷積樹核,結(jié)合句法樹結(jié)構(gòu)信息的特點(diǎn),提出了一種新的無監(jiān)督中文實(shí)體關(guān)系抽取方法.該方法采用最短路徑表示結(jié)構(gòu)化的關(guān)系實(shí)例,利用卷積樹核函數(shù)實(shí)現(xiàn)關(guān)系的分層聚類;劉安安等人[57]首先使用實(shí)體之間的距離限制和關(guān)系指示詞的位置限制獲取候選關(guān)系三元組,然后采用全局排序和類型排序的方法來挖掘關(guān)系指示詞,最后使用關(guān)系指示詞和句式規(guī)則對關(guān)系三元組進(jìn)行過濾.在獲取大量關(guān)系三元組的同時(shí),還保證了80%以上平均準(zhǔn)確率.
無監(jiān)督的關(guān)系抽取方法無需事先人工定義實(shí)體關(guān)系的類型,可以方便地移植到別的領(lǐng)域,適合針對大規(guī)模地網(wǎng)絡(luò)文本數(shù)據(jù)進(jìn)行實(shí)體間的關(guān)系抽取.雖然無監(jiān)督的實(shí)體關(guān)系抽取方法有效地減少了對標(biāo)注語料的依賴和人工參與,但是仍然依賴于初始種子和語料庫的質(zhì)量,而且需要人工篩選低頻的實(shí)體對.目前,無監(jiān)督的關(guān)系抽取方法的研究熱點(diǎn)之一是如何利用聚類的算法新增可信度較高的關(guān)系實(shí)例和抽取模板.
綜上所述,3種傳統(tǒng)機(jī)器學(xué)習(xí)關(guān)系抽取方法各有所長,也各有所短.研究者充分利用各種算法的優(yōu)勢,進(jìn)一步提升實(shí)體關(guān)系抽取的性能.3種方法的相關(guān)比較如表3所示:
Table 3 Comparative Analysis of Relation Extraction Methods Based on Supervised, Semi-Supervised and Unsupervised表3 基于有監(jiān)督、半監(jiān)督、無監(jiān)督關(guān)系抽取比較
由于傳統(tǒng)機(jī)器學(xué)習(xí)的關(guān)系抽取方法選擇的特征向量依賴于人工完成,也需要大量領(lǐng)域?qū)I(yè)知識(shí),而深度學(xué)習(xí)的關(guān)系抽取方法通過訓(xùn)練大量數(shù)據(jù)自動(dòng)獲得模型,不需要人工提取特征.2006年Hinton等人[124]首次正式提出深度學(xué)習(xí)的概念.深度學(xué)習(xí)經(jīng)過多年的發(fā)展,逐漸被研究者應(yīng)用在實(shí)體關(guān)系抽取方面.目前,研究者大多對基于有監(jiān)督和遠(yuǎn)程監(jiān)督2種深度學(xué)習(xí)的關(guān)系抽取方法進(jìn)行深入研究.此外,預(yù)訓(xùn)練模型Bert(bidirectional encoder representation from transformers)[125]自2018年提出以來就備受關(guān)注,廣泛應(yīng)用于命名實(shí)體識(shí)別、關(guān)系抽取等多個(gè)領(lǐng)域.
2.3.1 有監(jiān)督的關(guān)系抽取方法
有監(jiān)督的深度學(xué)習(xí)關(guān)系抽取方法能解決經(jīng)典方法中存在的人工特征選擇、特征提取誤差傳播2大主要問題,將低層特征進(jìn)行組合,形成更加抽象的高層特征,用來尋找數(shù)據(jù)的分布式特征表示.目前,有監(jiān)督的關(guān)系抽取方法主要有流水線學(xué)習(xí)(pipeline)和聯(lián)合學(xué)習(xí)(joint)兩種.
1) 流水線學(xué)習(xí)
流水線學(xué)習(xí)方法是指在實(shí)體識(shí)別已經(jīng)完成的基礎(chǔ)上直接進(jìn)行實(shí)體之間關(guān)系的抽取.早期的流水式學(xué)習(xí)方法主要采用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNNs)和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks, RNNs)兩大類結(jié)構(gòu).其中,CNNs多樣性卷積核的特性有利于識(shí)別目標(biāo)的結(jié)構(gòu)特征,而RNNs能充分考慮長距離詞之間的依賴性,其記憶功能有利于識(shí)別序列.隨著深度學(xué)習(xí)的不斷發(fā)展,研究者不斷改進(jìn)和完善CNN和RNN的方法,并產(chǎn)生了許多變體,如長短期記憶網(wǎng)絡(luò)(long short-term memory, LSTM)、雙向長短期記憶網(wǎng)絡(luò)(bidirectional long short-term memory, Bi-LSTM)等,此外,隨著圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional network, GCN)在自然語言處理領(lǐng)域的應(yīng)用,GCN也越來越多地用于挖掘和利用實(shí)體間的潛在信息,為解決關(guān)系重疊、實(shí)體重疊提供了新思路,從而進(jìn)一步促進(jìn)了關(guān)系抽取的發(fā)展.
① CNN
2014年Zeng等人[58]首次使用CNN提取詞級(jí)和句子級(jí)的特征,通過隱藏層和softmax層進(jìn)行關(guān)系分類,提高了關(guān)系抽取模型的準(zhǔn)確性;Liu等人[59]在實(shí)體關(guān)系抽取方面使用簡單的CNN模型,該模型主要由輸入層、卷積層、池化層和softmax層組成,輸入詞向量和距離向量等原始數(shù)據(jù)進(jìn)行實(shí)體關(guān)系抽?。粸榱讼宋谋敬笮〉娜我庑运鶐淼牟槐?,Collobert等人[60]利用設(shè)置大小固定的滑動(dòng)窗口和在輸入層和卷積層之上增添max層2種辦法,提出了一種基于CNN的自然語言處理模型,方便處理多種任務(wù);Nguyen等人[61]設(shè)計(jì)了多種窗口尺寸的卷積核的CNN模型,能自動(dòng)學(xué)習(xí)句子中的隱含特征,最大限度上減少了對外部工具包和資源的依賴;Santos等人[62]使用逐對排序這一新的損失函數(shù),有效地區(qū)分了關(guān)系類別;Xu等人[63]融合卷積神經(jīng)網(wǎng)絡(luò)和最短依存路徑的優(yōu)勢進(jìn)行實(shí)體關(guān)系抽取,在公有數(shù)據(jù)集SemEval-2010 Task 8的評估結(jié)果中,F(xiàn)1值為85.4%,相比于不使用最短依存路徑的方法提高了4.1%,驗(yàn)證了卷積神經(jīng)網(wǎng)絡(luò)和最短依存路徑結(jié)合的有效性;Ye等人[64]基于關(guān)系類別之間的語義聯(lián)系,利用3種級(jí)別的損失函數(shù)AVE,ATT,Extended ATT,在包含10 717條標(biāo)注樣例的SemEval-2010 Task 8中進(jìn)行模型評估,最佳情況下準(zhǔn)確率、召回率、F1值分別達(dá)到了83.7%,84.7%,84.1%,有效地提高了關(guān)系抽取方法的性能;Fan等人[65]提出了一種最小監(jiān)督關(guān)系提取的方法,該方法結(jié)合了學(xué)習(xí)表示和結(jié)構(gòu)化學(xué)習(xí)的優(yōu)點(diǎn),并準(zhǔn)確地預(yù)測了句子級(jí)別關(guān)系.通過在學(xué)習(xí)過程中明確推斷缺失的數(shù)據(jù),該方法可以實(shí)現(xiàn)一維CNN的大規(guī)模訓(xùn)練,同時(shí)緩解遠(yuǎn)程監(jiān)管中固有的標(biāo)簽噪音問題.
在中文研究方面,孫建東等人[66]基于COAE 2016數(shù)據(jù)集的988條訓(xùn)練數(shù)據(jù)和937條測試數(shù)據(jù),提出有效結(jié)合SVM和CNN算法可以用于中文實(shí)體關(guān)系的抽取方法.傳統(tǒng)文本實(shí)體關(guān)系抽取算法多數(shù)是基于特征向量對單一實(shí)體對語句進(jìn)行處理,缺少考慮文本語法結(jié)構(gòu)及針對多對實(shí)體關(guān)系的抽取算法;基于此,高丹等人[67]提出一種基于CNN和改進(jìn)核函數(shù)的多實(shí)體關(guān)系抽取技術(shù),并在25 463份法律文書的實(shí)體關(guān)系抽取上,取得了較好的抽取效果和較高的計(jì)算效率.
② RNN
除CNN關(guān)系分類的方法外,Socher等人[68]首先采用RNN的方法進(jìn)行實(shí)體關(guān)系抽取.該方法利用循環(huán)神經(jīng)網(wǎng)絡(luò)對標(biāo)注文本中的句子進(jìn)行句法解析,經(jīng)過不斷迭代得到了句子的向量表示,有效地考慮了句子的句法結(jié)構(gòu);面對純文本的實(shí)體關(guān)系抽取任務(wù),Lin等人[69]使用了一種多種語言的神經(jīng)網(wǎng)絡(luò)關(guān)系抽取框架,并在句子級(jí)別引入注意力機(jī)制(attention),極大地減少了噪音句子的影響,有效地提高了跨語言的一致性和互補(bǔ)性.由于神經(jīng)網(wǎng)絡(luò)經(jīng)常受到有限標(biāo)記實(shí)例的限制,而且這些關(guān)系抽取模型是使用先進(jìn)的架構(gòu)和特征來實(shí)現(xiàn)最前沿的性能;Chen等人[70]提出一種自我訓(xùn)練框架,并在該框架內(nèi)構(gòu)建具有多個(gè)語義異構(gòu)嵌入的遞歸神經(jīng)網(wǎng)絡(luò).該框架利用標(biāo)記的、未標(biāo)記的社交媒體數(shù)據(jù)集THYME實(shí)現(xiàn)關(guān)系抽取,并且具有較好的可擴(kuò)展性和可移植性.
為了解決RNN在自然語言處理任務(wù)中出現(xiàn)的梯度消失和梯度爆炸帶來的困擾,研究者使用性能更為強(qiáng)大的LSTM.LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),最早是Hochreiter,Schmidhuber提出.2015年Xu等人[71]提出基于LSTM的方法進(jìn)行關(guān)系抽取,該方法以句法依存分析樹的最短路徑為基礎(chǔ),融合詞向量、詞性、WordNet以及句法等特征,使用最大池化層、softmax層等用于關(guān)系分類;Zhang等人[72]使用了Bi-LSTM模型結(jié)合當(dāng)前詞語之前和詞語之后的信息進(jìn)行關(guān)系抽取,在最佳實(shí)驗(yàn)結(jié)果中相比于文獻(xiàn)[58]的方法提高了14.6%,證實(shí)了Bi-LSTM在關(guān)系抽取上具有有效性.
④ GCN
圖神經(jīng)網(wǎng)絡(luò)最早由Gori等人[127]提出,應(yīng)用于圖結(jié)構(gòu)數(shù)據(jù)的處理,經(jīng)過不斷發(fā)展,逐漸應(yīng)用于自然語言處理領(lǐng)域.而圖卷積神經(jīng)網(wǎng)絡(luò)能有效地表示實(shí)體間的關(guān)系,挖掘?qū)嶓w間的潛在特征,近年來受到了越來越多的關(guān)注.
Schlichtkrull等人[73]提出使用關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)(R-GCNs)在2個(gè)標(biāo)準(zhǔn)知識(shí)庫上分別完成了鏈接預(yù)測和實(shí)體分類,其中鏈接預(yù)測抽取出了缺失的關(guān)系,實(shí)體分類補(bǔ)全了實(shí)體缺失的屬性;為有效利用負(fù)類數(shù)據(jù),Zhang等人[74]提出一種擴(kuò)展的圖卷積神經(jīng)網(wǎng)絡(luò),可以有效地平行處理任意依賴結(jié)構(gòu),便于對實(shí)體關(guān)系進(jìn)行抽取.通過在數(shù)據(jù)集TAC和SemVal-2010 Task 8上的評估,其最佳的實(shí)驗(yàn)結(jié)果的準(zhǔn)確率、召回率、F1值為71.3%,65.4%,68.2%,該方法的性能優(yōu)于序列標(biāo)注和依賴神經(jīng)網(wǎng)絡(luò).此外,作者還提出一種新的剪枝策略,對輸入的樹結(jié)構(gòu)的信息,可以快速找到2個(gè)實(shí)體之間的最短路徑;圖神經(jīng)網(wǎng)絡(luò)是最有效的多跳(multi-hop)關(guān)系推理方法之一,Zhu等人[75]提出一種基于自然語言語句生成圖神經(jīng)網(wǎng)絡(luò)(GP-GNNs)參數(shù)的方法,使神經(jīng)網(wǎng)絡(luò)能夠?qū)o結(jié)構(gòu)化文本輸入進(jìn)行關(guān)系推理;針對多元關(guān)系的抽取,Song等人[76]提出了一種圖狀的LSTM模型,該模型使用并行狀態(tài)模擬每個(gè)單詞,通過消息的反復(fù)傳遞來豐富單詞的狀態(tài)值.該模型保留了原始圖形結(jié)構(gòu),而且可以通過并行化的方式加速計(jì)算.不僅提高了模型的計(jì)算效率,也實(shí)現(xiàn)了對多元關(guān)系的抽取;為有效利用依賴樹的有效信息,減少無用信息的干擾,Guo等人[77]提出一種直接以全依賴樹為輸入的、基于注意力機(jī)制的圖卷積網(wǎng)絡(luò)模型.該模型是一種軟剪枝(soft-pruning)的方法,能夠有選擇地自動(dòng)學(xué)習(xí)對關(guān)系提取任務(wù)有用的相關(guān)子結(jié)構(gòu),支持跨句多元關(guān)系提取和大規(guī)模句級(jí)關(guān)系提取.
⑤ 混合抽取
為了進(jìn)一步提高關(guān)系抽取模型的性能,一些研究者開始采取融合多種方法的方式進(jìn)行關(guān)系抽取.2016年Miwa等人[78]使用聯(lián)合的方法,他們?nèi)诤螧i-LSTM和TreeLSTM模型的優(yōu)點(diǎn)對實(shí)體和句子同時(shí)構(gòu)建模型,分別在3個(gè)公有數(shù)據(jù)集ACE04,ACE05,SemVal-2010 Task8對關(guān)系抽取模型進(jìn)行評估,有效地提高了實(shí)體關(guān)系抽取的性能;Zhou等人[79]提出一種基于注意力的Bi-LSTM,著重考慮詞對關(guān)系分類的影響程度,該方法在只有單詞向量的情況下,優(yōu)于大多數(shù)當(dāng)時(shí)的方法;Li等人[80]融合Bi-LSTM和CNN的特點(diǎn),利用softmax函數(shù)來模擬目標(biāo)實(shí)體之間的最短依賴路徑(SDP),并用于臨床關(guān)系提取的句子序列,在數(shù)據(jù)集2010 i2b2VA的實(shí)驗(yàn)結(jié)果F1為74.34%,相比于不使用語義特征的方法提高2.5%;陳宇等人[81]提出一種基于DBN(deep belief nets)的關(guān)系抽取方法,通過將DNB與SVM和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)2種方法在ACE04數(shù)據(jù)集(包含221篇消息文本、10 228個(gè)實(shí)體和5 240個(gè)關(guān)系實(shí)例)進(jìn)行了比較,F(xiàn)1值分別提高了1.26%和2.17%,達(dá)到了73.28%;召回率分別提高了3.59%和2.92%,達(dá)到了70.86%,驗(yàn)證了DBN方法的有效性.此外,DBN方法表明,字特征比詞特征更適用于中文關(guān)系抽取任務(wù),非常適用于基于高維空間特征的信息抽取任務(wù).
流水線方法的實(shí)驗(yàn)結(jié)果相對良好,但容易產(chǎn)生錯(cuò)誤傳播,影響關(guān)系分類的有效性;將命名實(shí)體識(shí)別和關(guān)系抽取分開處理,容易忽視這2個(gè)子任務(wù)之間的聯(lián)系,丟失的信息會(huì)影響抽取效果;另外,冗余信息也會(huì)對模型的性能產(chǎn)生較大的影響.為解決這些問題,研究人員嘗試將命名實(shí)體識(shí)別和關(guān)系抽取融合成一個(gè)任務(wù),進(jìn)行聯(lián)合學(xué)習(xí).
2) 聯(lián)合學(xué)習(xí)
聯(lián)合學(xué)習(xí)方法有3種,包括基于參數(shù)共享的實(shí)體關(guān)系抽取方法、基于序列標(biāo)注的實(shí)體關(guān)系抽取方法和基于圖的實(shí)體關(guān)系抽取方法.
① 基于共享參數(shù)的方法
命名實(shí)體識(shí)別和關(guān)系抽取通過共享編碼層在訓(xùn)練過程中產(chǎn)生的共享參數(shù)相互依賴,最終訓(xùn)練得到最佳的全局參數(shù).因此,基于共享參數(shù)方法有效地改善了流水線方法中存在的錯(cuò)誤累積傳播問題和忽視2個(gè)子任務(wù)間關(guān)系依賴的問題,提高模型的魯棒性.
2016年Miwa等人[82]首次利用循環(huán)神經(jīng)網(wǎng)絡(luò)、詞序列以及依存樹將命名實(shí)體識(shí)別和關(guān)系抽取作為一個(gè)任務(wù)進(jìn)行實(shí)驗(yàn),通過共享編碼層的LSTM的獲得最優(yōu)的全局參數(shù),在數(shù)據(jù)集ACE04,ACE05分別減少了5.7%和12.1%的錯(cuò)誤率,在數(shù)據(jù)集SemEval-2010 Task 8 的F1達(dá)到了84.4%.然而Miwa忽略了實(shí)體標(biāo)簽之間的長距離依賴關(guān)系,為此Zheng等人[83]將輸入句子通過公用的Embedding層和Bi-LSTM層,分別使用一個(gè)LSTM進(jìn)行命名實(shí)體識(shí)別和一個(gè)CNN進(jìn)行關(guān)系抽取,該方法的F1達(dá)到了85.3%,相對Miwa提高了近1%.
② 基于序列標(biāo)注的方法
由于基于共性參數(shù)的方法容易產(chǎn)生信息冗余,因此Zheng等人[84]將命名實(shí)體識(shí)別和實(shí)體關(guān)系抽取融合成一個(gè)序列標(biāo)注問題,可以同時(shí)識(shí)別出實(shí)體和關(guān)系.該方法利用一個(gè)端到端的神經(jīng)網(wǎng)絡(luò)模型抽取出實(shí)體之間的關(guān)系三元組,減少了無效實(shí)體對模型的影響,提高了關(guān)系抽取的召回率和準(zhǔn)確率,分別為72.4%和43.7%.為了充分利用實(shí)體間有多種關(guān)系,Bekoulis等人[85]將命名實(shí)體識(shí)別和關(guān)系抽取看作一個(gè)多頭選擇問題,可以表示實(shí)體間的多個(gè)關(guān)系;此外Bekoulis等人[86]還發(fā)現(xiàn)對模型加入輕微的擾動(dòng)(對抗樣本)可以使得WordEmbedding的質(zhì)量更好,不僅提高了置信度還避免了模型過擬合,模型的性能大大提升.因此首次將對抗學(xué)習(xí)(adversarial training, AT)加入聯(lián)合學(xué)習(xí)的過程中.實(shí)驗(yàn)結(jié)果表明,在4個(gè)公有數(shù)據(jù)集ACE04,CoNLL04,DREC,ADE的F1提高了0.4%~0.9%.
③ 基于圖結(jié)構(gòu)的方法
針對前2種方法無法解決的實(shí)體重疊、關(guān)系重疊問題,基于圖結(jié)構(gòu)的方法能有效得解決.Wang等人[87]發(fā)現(xiàn)生成標(biāo)記序列后的合并三元組標(biāo)簽過程采用的就近組合無法解決關(guān)系重疊問題,因此提出一種新的基于圖架構(gòu)的聯(lián)合學(xué)習(xí)模型.該方法不僅能有效解決關(guān)系重疊問題,而且使用偏執(zhí)權(quán)重的損失函數(shù)強(qiáng)化了相關(guān)實(shí)體間的關(guān)聯(lián),實(shí)驗(yàn)結(jié)果的準(zhǔn)確率、召回率及F1值分別為64.3%,42.1%,50.9%.此外,F(xiàn)u等人[88]提出將圖卷積神經(jīng)網(wǎng)絡(luò)用于聯(lián)合學(xué)習(xí),利用圖的節(jié)點(diǎn)表示實(shí)體,邊表示關(guān)系,有效地解決了關(guān)系重疊和實(shí)體重疊問題,不僅如此,還對邊(關(guān)系)加入了權(quán)重,有效挖掘了實(shí)體對間的潛在特征,通過使用NYT和WebNLG數(shù)據(jù)集的評估,該方法在最佳情況下準(zhǔn)確率、召回率及F1值可達(dá)63.9%,60.0%,61.9%,與文獻(xiàn)[87]相比,召回率和F1分別提高17.9%和11.0%.
本文選取了幾種經(jīng)典的有監(jiān)督關(guān)系抽取方法進(jìn)行了綜合比較,具體如表4所示.
深度學(xué)習(xí)的有監(jiān)督方法能夠自動(dòng)地學(xué)習(xí)大量特征,避免人工選擇特征,但對大量沒有進(jìn)行標(biāo)記的數(shù)據(jù),這種方法就顯出其弊端.為了減少對大數(shù)據(jù)的標(biāo)注的人工成本,研究者嘗試使用遠(yuǎn)程監(jiān)督的方法進(jìn)行關(guān)系抽取.
Table 4 Comparison of Relation Extraction Methods Based on Supervised Learing表4 有監(jiān)督學(xué)習(xí)關(guān)系抽取方法對比
2.3.2 遠(yuǎn)程監(jiān)督的關(guān)系抽取方法
針對海量無標(biāo)記數(shù)據(jù)的處理,遠(yuǎn)程監(jiān)督的實(shí)體關(guān)系抽取方法極大地減少了對人工的依賴,可以自動(dòng)地抽取大量的實(shí)體對,從而擴(kuò)大了知識(shí)庫的規(guī)模.此外,遠(yuǎn)程監(jiān)督的方法具有較強(qiáng)的可移植性,比較容易應(yīng)用到其他領(lǐng)域.遠(yuǎn)程監(jiān)督的基本假設(shè)是如果2個(gè)實(shí)體在己知知識(shí)庫中存在著某種關(guān)系,那么涉及這2個(gè)實(shí)體的所有句子都會(huì)以某種方式表達(dá)這種關(guān)系.Mintz等人[89]首次在ACL會(huì)議上將遠(yuǎn)程監(jiān)督方法應(yīng)用于實(shí)體關(guān)系抽取的任務(wù)中.他們將新聞文本與知識(shí)圖譜FreeBase進(jìn)行中的實(shí)體進(jìn)行對齊,并利用遠(yuǎn)程監(jiān)督標(biāo)注的數(shù)據(jù)提取文本特征,訓(xùn)練關(guān)系分類模型.
這類方法在數(shù)據(jù)標(biāo)注過程會(huì)帶來2個(gè)問題:噪音數(shù)據(jù)和抽取特征的誤差傳播.基于遠(yuǎn)程監(jiān)督的基本假設(shè),海量數(shù)據(jù)的實(shí)體對的關(guān)系會(huì)被錯(cuò)誤標(biāo)記,從而產(chǎn)生了噪音數(shù)據(jù);由于利用自然語言處理工具抽取的特征也存在一定的誤差,會(huì)引起特征的傳播誤差和錯(cuò)誤積累.本文主要針對減少錯(cuò)誤標(biāo)簽和錯(cuò)誤傳播問題對遠(yuǎn)程監(jiān)督的關(guān)系抽取方法進(jìn)行闡述.
1) 針對錯(cuò)誤標(biāo)簽
由于在不同語境下同一對實(shí)體關(guān)系可能存在不同含義,為了減少因此而產(chǎn)生的錯(cuò)誤關(guān)系標(biāo)簽,Alfonseca等人[90]利用FreeBase知識(shí)庫對關(guān)系進(jìn)行分層處理,以啟發(fā)式的方式自動(dòng)識(shí)別抽取表示關(guān)系的語義和詞匯;由于利用啟發(fā)式的規(guī)則標(biāo)記實(shí)體關(guān)系時(shí)會(huì)產(chǎn)生一些錯(cuò)誤標(biāo)記,Takamatsu等人[91]提出一種產(chǎn)生式模型,用于模擬遠(yuǎn)程監(jiān)督的啟發(fā)式標(biāo)記過程,使用903 000篇Wikipedia文章進(jìn)行模型的訓(xùn)練,并使用400 000篇文章進(jìn)行測試,實(shí)驗(yàn)結(jié)果的準(zhǔn)確率、召回率和F1值分別為89.0%,83.2%,82.4%;為了解決Alfonseca提出的方法缺乏實(shí)體的知識(shí)背景問題,Ji等人[92]提出了一種在句子級(jí)別引入注意力機(jī)制的方法來抽取有效的實(shí)例,并通過FreeBase和Wikipedia不斷地?cái)U(kuò)充實(shí)體的知識(shí)背景;之前大多方法對負(fù)類數(shù)據(jù)的利用率較低,Yu等人[93]提出結(jié)合從句子級(jí)遠(yuǎn)程監(jiān)督和半監(jiān)督集成學(xué)習(xí)的關(guān)系抽取方法,該方法減少了噪聲數(shù)據(jù),充分利用了負(fù)類數(shù)據(jù).該方法首先使用遠(yuǎn)程監(jiān)督對齊知識(shí)庫和語料庫,并生成關(guān)系實(shí)例集合,接著使用去噪算法消除關(guān)系實(shí)例集中的噪聲并構(gòu)建數(shù)據(jù)集.為了充分利用負(fù)類數(shù)據(jù),該方法將所有正類數(shù)據(jù)和部分負(fù)類數(shù)據(jù)組成標(biāo)注數(shù)據(jù)集,其余的負(fù)類數(shù)據(jù)組成未標(biāo)注數(shù)據(jù)集.通過改進(jìn)的半監(jiān)督集成學(xué)習(xí)算法訓(xùn)練關(guān)系分類器的各項(xiàng)性能,然后進(jìn)行關(guān)系實(shí)例的抽取.
此外,為了減少錯(cuò)誤標(biāo)簽產(chǎn)生的噪音數(shù)據(jù)對關(guān)系抽取模型的影響,Wang等人[94]提出了一種無標(biāo)簽的遠(yuǎn)程監(jiān)督方法;該方法只是使用了知識(shí)庫中的關(guān)系類型,而由2個(gè)實(shí)體來具體確定關(guān)系類型,避免了知識(shí)庫中的先驗(yàn)知識(shí)標(biāo)簽對當(dāng)前關(guān)系類型判別造成影響,也無需使用外部降噪工具包,大大提高了關(guān)系抽取的效率和性能;為了進(jìn)一步提高對數(shù)據(jù)的使用效率,Ru等人[95]使用Jaccard算法計(jì)算知識(shí)庫中的關(guān)系短語與句子中2個(gè)實(shí)體之間的語義相似性,借此過濾錯(cuò)誤的標(biāo)簽.該方法在減少錯(cuò)誤標(biāo)簽的過程中,利用具有單詞嵌入語義的Jaccard算法選擇核心的依賴短語來表示句子中的候選關(guān)系,可以提取關(guān)系分類的特征,避免以前神經(jīng)網(wǎng)絡(luò)模型關(guān)系提取的不相關(guān)術(shù)語序列引起的負(fù)面影響.在關(guān)系分類過程中,將CNN輸入的核心依賴短語用于關(guān)系分類.實(shí)驗(yàn)結(jié)果表明,與使用原始遠(yuǎn)程監(jiān)督數(shù)據(jù)的方法相比,使用過濾遠(yuǎn)程監(jiān)督數(shù)據(jù)的方法在關(guān)系提取方面結(jié)果更佳,可以避免來自不相關(guān)術(shù)語的負(fù)面影響;為了突破距離對關(guān)系抽取模型性能的限制,Huang等人[96]提出一種融合門控循環(huán)單元(gated recurrent unit, GRU)和注意力機(jī)制的遠(yuǎn)程監(jiān)督關(guān)系抽取方法,該方法解決了傳統(tǒng)深度模型的實(shí)體在長距離依賴性差和遠(yuǎn)程監(jiān)督中容易產(chǎn)生錯(cuò)誤標(biāo)簽的問題;實(shí)驗(yàn)結(jié)果表明,文獻(xiàn)[89]的方法召回率在大于0.2時(shí)就開始迅速下降,而該方法在整個(gè)過程中都相對穩(wěn)定,保證了模型的魯棒性;此外,通過與文獻(xiàn)[69]的方法進(jìn)行比較,該方法的召回率平均提高10%,能夠充分利用整個(gè)句子的序列信息,更適合自然語言任務(wù)的處理.
2) 針對誤差傳播
Fan等人[97]提出遠(yuǎn)程監(jiān)督關(guān)系提取的本質(zhì)是一個(gè)具有稀疏和噪聲特征的不完整多標(biāo)簽的分類問題.針對該問題,F(xiàn)an使用特征標(biāo)簽矩陣的稀疏性來恢復(fù)潛在的低秩矩陣進(jìn)行實(shí)體關(guān)系抽取;為了解決自然語言處理工具包提取問題帶來的錯(cuò)誤傳播和錯(cuò)誤積累問題,Zeng等人[98]融合CNN和遠(yuǎn)程監(jiān)督的方法,提出分段卷積神經(jīng)網(wǎng)絡(luò)(piecewise convolutional neural network, PCNN)用于實(shí)體關(guān)系抽取,并嘗試將基于CNN的關(guān)系抽取模型擴(kuò)展到遠(yuǎn)程監(jiān)督數(shù)據(jù)上.該方法可以有效地減少了錯(cuò)誤標(biāo)簽的傳播和積累,在最佳情況下,準(zhǔn)確率、召回率以及F1值達(dá)到了48.30%,29.52%,36.64%.
針對目前在中文領(lǐng)域?qū)嶓w-屬性提取中模型的低性能,He等人[99]提出了一種基于Bi-LSTM的遠(yuǎn)程監(jiān)督關(guān)系抽取方法.首先,該方法使用Infobox的關(guān)系三元組獲取百度百科的信息框,從互聯(lián)網(wǎng)獲取訓(xùn)練語料庫,然后基于Bi-LSTM網(wǎng)絡(luò)訓(xùn)練分類器.與經(jīng)典方法相比,該方法在數(shù)據(jù)標(biāo)注和特征提取方面是全自動(dòng)的.該方法適用于高維空間的信息提取,與SVM算法相比,準(zhǔn)確率提高了12.1%,召回率提高了1.21%,F(xiàn)1值提高了5.9%,準(zhǔn)確率和F1值得到顯著提高.
有監(jiān)督的關(guān)系抽取方法借助人工標(biāo)注的方法提高了關(guān)系抽取的準(zhǔn)確性,但是需要耗費(fèi)大量人力,其領(lǐng)域泛化能力和遷移性較差.遠(yuǎn)程監(jiān)督的方法相對于有監(jiān)督的方法極大地減少了人工成本,而且領(lǐng)域的遷移性較高.但是,遠(yuǎn)程監(jiān)督的方法通過自動(dòng)標(biāo)注獲得的數(shù)據(jù)集準(zhǔn)確率較低,會(huì)影響整個(gè)關(guān)系抽取模型的性能.因此,目前的遠(yuǎn)程關(guān)系抽取模型的性能仍然和有監(jiān)督的關(guān)系抽取模型有一定的差距,有較大的提升空間[127].基于深度學(xué)習(xí)的監(jiān)督和遠(yuǎn)程監(jiān)督方法抽取對比如表5所示:
Table 5 Comparison of Supervised and Distant Supervised Relation Extraction Based on Deep Learning
2.3.3 BERT
2018年Google AI Language 發(fā)布了BERT模型,該模型在11個(gè)NLP任務(wù)上的表現(xiàn)刷新了記錄,在自然語言處理學(xué)界以及工業(yè)界都引起了不小的熱議.BERT的出現(xiàn),徹底改變了預(yù)訓(xùn)練產(chǎn)生詞向量和下游具體NLP任務(wù)的關(guān)系.
在關(guān)系抽取領(lǐng)域,應(yīng)用BERT作預(yù)訓(xùn)練的關(guān)系抽取模型越來越多,如Shi等人[128]提出了一種基于BERT的簡單模型,可用于關(guān)系抽取和語義角色標(biāo)簽.在CoNLL05數(shù)據(jù)集中,準(zhǔn)確率、召回率和F1值分別為88.6%,89.0%,88.8%,相比于baseline方法分別提高了1.0%,0.6%,0.7%;Shen等人[129]借助BERT的強(qiáng)大性能對人際關(guān)系進(jìn)行關(guān)系抽取,減少了噪音數(shù)據(jù)對關(guān)系模型的影響.此外,又使用了遠(yuǎn)程監(jiān)督可以對大規(guī)模數(shù)據(jù)進(jìn)行處理,在CCKS 2019 eval Task3 IPRE數(shù)據(jù)集的結(jié)果表明,該方法優(yōu)于大多數(shù)人際關(guān)系抽取方法,F(xiàn)1值達(dá)到了57.4%.
BERT作為一個(gè)預(yù)訓(xùn)練語言表示模型,通過上下文全向的方式理解整個(gè)語句的語義,并將訓(xùn)練學(xué)到的知識(shí)(表示)用于關(guān)系抽取等領(lǐng)域.但BERT存在許多不足之處.
1) 不適合用于長文本.BERT以基于注意力機(jī)制的轉(zhuǎn)換器作為基礎(chǔ),不便于處理長文本,而關(guān)系抽取領(lǐng)域的文本中經(jīng)常出現(xiàn)超過30個(gè)單詞的長句,BERT會(huì)對關(guān)系抽取的性能產(chǎn)生影響.針對長句子的情況,可以另外設(shè)計(jì)一個(gè)深度的注意力機(jī)制,以便層級(jí)化的捕捉關(guān)系.
2) 易受到噪音數(shù)據(jù)的影響.BERT適用于短文本,而短文本中若出現(xiàn)不規(guī)則表示、錯(cuò)別字等噪音數(shù)據(jù),這不僅會(huì)對關(guān)系觸發(fā)詞的抽取造成一定的影響,而且在聯(lián)合學(xué)習(xí)時(shí)進(jìn)行命名實(shí)體識(shí)別階段也會(huì)產(chǎn)生錯(cuò)誤的積累和傳播,最終導(dǎo)致模型的性能下降.
3) 無法較好地處理一詞多義問題.雖然通過上下文能在一定程度上緩解一詞多義的影響,但一詞多義對BERT的原始輸入中的詞編碼影響極大.從而進(jìn)行關(guān)系抽取時(shí)容易產(chǎn)生錯(cuò)誤標(biāo)簽,無法有效地使用關(guān)系標(biāo)簽等進(jìn)行關(guān)系分類,降低模型的準(zhǔn)確率、召回率、F1值.這需要加以一定的機(jī)制來解決一詞多義的表示問題.
由于傳統(tǒng)關(guān)系抽取基于特定領(lǐng)域、特定關(guān)系進(jìn)行抽取,導(dǎo)致關(guān)系抽取這一任務(wù)耗時(shí)耗力,成本極高,同時(shí)不利于擴(kuò)展語料類型.近年來,針對開放領(lǐng)域的實(shí)體關(guān)系抽取方法逐漸受到人們的廣泛關(guān)注.由于互聯(lián)網(wǎng)不斷發(fā)展,開放語料的規(guī)模不斷擴(kuò)大,并且包含的關(guān)系類型愈加復(fù)雜,研究者直接面向大多未經(jīng)人工標(biāo)注的開放語料進(jìn)行關(guān)系抽取,有利于促進(jìn)實(shí)體關(guān)系抽取的發(fā)展,而且具有更大的實(shí)際意義.
開放領(lǐng)域關(guān)系抽取的方法是信息抽取領(lǐng)域的新的研究方向.該關(guān)系抽取方法主要分為半監(jiān)督和無監(jiān)督2種,并結(jié)合語形特征和語義特征自動(dòng)地在大規(guī)模非限定類型的語料庫中進(jìn)行關(guān)系抽取.開放領(lǐng)域關(guān)系抽取的方法無需事先人為制定關(guān)系類型,減輕了人工標(biāo)注的負(fù)擔(dān),而由此設(shè)計(jì)的系統(tǒng)可移植性較強(qiáng),極大地促進(jìn)關(guān)系抽取的發(fā)展.
開放領(lǐng)域的關(guān)系抽取方法主要有3個(gè)流程:
1) 深層解析小規(guī)模的語料集,自動(dòng)抽取實(shí)體間關(guān)系三元組,利用樸素貝葉斯分類器訓(xùn)練已標(biāo)注可信和不可信的關(guān)系三元組構(gòu)建關(guān)系表示模型;
2) 利用關(guān)系抽取模型并輸入詞性、序列等特征等數(shù)據(jù),在訓(xùn)練好的分類器上進(jìn)行大量網(wǎng)絡(luò)文獻(xiàn)的關(guān)系抽取,獲取候選關(guān)系三元組;
3) 合并候選三元組,通過統(tǒng)計(jì)的方法計(jì)算各個(gè)關(guān)系三元組的可信度,并建立索引.
2.4.1 英文開放領(lǐng)域文本關(guān)系抽取方法
針對非限定領(lǐng)域的關(guān)系抽取,Sekine曾嘗試按需抽取的思路,利用淺層匹配的方法,自動(dòng)構(gòu)造簡單模板進(jìn)行關(guān)系抽取,并為之后的面向開放領(lǐng)域的關(guān)系抽取提供了新思路.早期研究人員主要針對二元關(guān)系進(jìn)行抽取,包括先識(shí)別實(shí)體詞和先識(shí)別關(guān)系詞2種主要方法.隨著人們對文本信息蘊(yùn)含的深層次關(guān)系的研究,多元關(guān)系抽取也逐漸進(jìn)入研究者的視野.
1) 二元關(guān)系抽取方法
① 先識(shí)別實(shí)體詞的二元抽取方法
在早期的開放式信息抽取領(lǐng)域主要是針對實(shí)體詞進(jìn)行關(guān)系抽取.該階段利用無語義的特征,自動(dòng)地學(xué)習(xí)實(shí)體之間的關(guān)系,并構(gòu)建好表示文本關(guān)系的模型.主要的信息抽取系統(tǒng)包括TextRunner,WOE,PATTY等.
2007年Washington大學(xué)的人工智能研究組的Banko等人[5]正式提出了面向開放領(lǐng)域的信息抽取方法框架,并發(fā)布了開放領(lǐng)域的第1個(gè)信息抽取信息系統(tǒng)TextRunner.該系統(tǒng)依賴少量的人工標(biāo)記數(shù)據(jù),通過自監(jiān)督的學(xué)習(xí)方式訓(xùn)練了樸素貝葉斯模型,并進(jìn)行實(shí)體關(guān)系分類.該系統(tǒng)在大規(guī)模開放的網(wǎng)頁進(jìn)行實(shí)體關(guān)系分類測試,取得了當(dāng)時(shí)較為優(yōu)秀的效果.隨后,該系統(tǒng)融合線性條件隨機(jī)場和馬爾可夫邏輯模型,其性能不斷得到了提高,這對關(guān)系抽取領(lǐng)域的發(fā)展起到了促進(jìn)作用.
在TextRunner的基礎(chǔ)之上,Wu等人[100]設(shè)計(jì)開發(fā)了一種新穎的自監(jiān)督學(xué)習(xí)的信息抽取系統(tǒng)WOE.WOE系統(tǒng)利用啟發(fā)式規(guī)則訓(xùn)練維基百科網(wǎng)頁信息框(Infobox)中的數(shù)據(jù),自動(dòng)地構(gòu)建實(shí)體關(guān)系集.WOE有2種運(yùn)行模式:1)以詞性標(biāo)記為限制條件時(shí),該系統(tǒng)的運(yùn)行速度可比肩TextRunner;2)以解析依賴關(guān)系為限制條件時(shí),雖然抽取的速度將會(huì)減慢,但在極大地程度上提高了實(shí)體關(guān)系抽取的準(zhǔn)確率和召回率.同時(shí)WOE系統(tǒng)中充分考慮了依存關(guān)系特征,實(shí)驗(yàn)結(jié)果表明:相對于TextRunner該方法的F1平均值提高了18%~34%,進(jìn)一步大幅度提高了該系統(tǒng)的性能.
此外,Nakashole等人[101]基于頻繁項(xiàng)集挖掘算法提出了PATTY系統(tǒng).該系統(tǒng)以模式為依據(jù)進(jìn)行語義分類,構(gòu)建了一個(gè)包容性的分類體系,在以350 569個(gè)模式構(gòu)成的Wikipedia數(shù)據(jù)集中,對實(shí)體間的關(guān)系進(jìn)行抽取,便于在大規(guī)模的語料庫中表示實(shí)體間的二元關(guān)系.
2010年Yao等人[102]充分結(jié)合了遠(yuǎn)程監(jiān)督以及Open IE的優(yōu)勢提出了一種通用模型框架.該模型是一個(gè)涉及所有模式的并集,并且避免了對現(xiàn)有數(shù)據(jù)集的依賴.該模型利用矩陣分解的方法自學(xué)習(xí)到實(shí)體元組和關(guān)系的潛在特征,能有效地處理結(jié)構(gòu)化和無結(jié)構(gòu)化數(shù)據(jù).相對傳統(tǒng)的分類方法,該模型的計(jì)算速度更快,學(xué)習(xí)效率更優(yōu),準(zhǔn)確率更高,可擴(kuò)展性更強(qiáng).
② 先識(shí)別關(guān)系詞的二元抽取方法
由于早期的關(guān)系抽取系統(tǒng)存在抽取的關(guān)系詞不連貫以及關(guān)系詞無法提供有效信息的問題.因此,之后面向開放領(lǐng)域的關(guān)系抽取開始轉(zhuǎn)向先識(shí)別關(guān)系詞,并深入地解析句子的語言成分進(jìn)行關(guān)系抽取.該階段比較引人注意的有ReVerb,OLLIE,C1ausIE等.其中,ReVerb主要以動(dòng)詞為核心,OLLIE主要以名詞和副詞為核心,ClauseIE主要以從句為核心.
2011年Fader等人[103]深入分析了語法、詞匯、語義等特征,設(shè)計(jì)了ReVerb系統(tǒng).該系統(tǒng)有效減少了TextRunner系統(tǒng)和WOE系統(tǒng)所產(chǎn)生的錯(cuò)誤關(guān)系三元組和無信息關(guān)系三元組.該系統(tǒng)使用淺層句法抽取較短的語句,而對于較長的語句則采用先識(shí)別關(guān)系詞再識(shí)別實(shí)體的方法.實(shí)驗(yàn)結(jié)果表明,ReVerb系統(tǒng)只需進(jìn)行詞性標(biāo)注,并結(jié)合匹配的方法就能完成關(guān)系抽取的任務(wù),有效地提高了關(guān)系抽取的準(zhǔn)確率,在極大地程度上提高了關(guān)系抽取的性能,有力地促進(jìn)了關(guān)系抽取方面的發(fā)展.
此外,Xavier等人[104]提出了一種較為簡單的方法挖掘名詞與名詞之間的關(guān)系以及形容詞與形容詞之間的關(guān)系.該方法首先識(shí)別名詞或形容詞及其屬性,之后對識(shí)別的名詞或形容詞進(jìn)行解析,接著自動(dòng)地產(chǎn)生描述二元關(guān)系的三元組.該方法進(jìn)一步增加了信息量,也提高了關(guān)系抽取的準(zhǔn)確性.即對名詞的屬性進(jìn)行抽取,使得信息量增多,抽取的準(zhǔn)確性更高.Del等人[105]通過對句子的結(jié)構(gòu)進(jìn)行分析,提出了ClausIE系統(tǒng).該系統(tǒng)融合了句法模式學(xué)習(xí)、自學(xué)習(xí)算法、句子分解技術(shù)等的優(yōu)勢,將復(fù)雜語句分解成多個(gè)簡單的語句,通過計(jì)算關(guān)系短語的相似度來對關(guān)系短語進(jìn)行整合.
另外,F(xiàn)aruqui等人[106]提出一種跨語言注釋映射的方法,無需依賴語言包和解析目標(biāo)語言,借助機(jī)器翻譯就可以對多種語言進(jìn)行關(guān)系抽取.在人工標(biāo)注的3種語言(法語、印地語、俄語)進(jìn)行關(guān)系抽取的實(shí)驗(yàn)結(jié)果表明,該開放領(lǐng)域抽取方法能夠?qū)S基百科61種語言進(jìn)行關(guān)系抽取,具有較強(qiáng)的可移植性和擴(kuò)展性;為了簡化當(dāng)前眾多方法結(jié)構(gòu)的復(fù)雜性,Song等人[107]將實(shí)體間的語義信息轉(zhuǎn)化成二進(jìn)制結(jié)構(gòu),以便利用更少的時(shí)間提取更多的語義信息,高效地抽取關(guān)系三元組,并通過SENT500數(shù)據(jù)集測試,獲得了83.8%的F1值.
2) 多元關(guān)系抽取方法
上述的關(guān)系抽取系統(tǒng)主要是針對二元關(guān)系的,Akbik等人[108]提出針對多元關(guān)系進(jìn)行抽取,設(shè)計(jì)開發(fā)了KRAKEN系統(tǒng).該系統(tǒng)改進(jìn)了OIE系統(tǒng),可以對不同的關(guān)系類別進(jìn)行多元關(guān)系抽取,挖掘了潛在的隱含關(guān)系,與傳統(tǒng)方法針對特定領(lǐng)域進(jìn)行關(guān)系抽取相比較,面向開放領(lǐng)域的關(guān)系抽取方法所獲得準(zhǔn)確率和召回率仍然比較低;Gamallo等人[109]針對英語、西班牙語、葡萄牙語、加利西亞語等語種,利用一些制定的規(guī)則,采用依存分析的技術(shù)完成了關(guān)系抽取任務(wù),取得了較好的效果,相對于ReVerb需要27%的計(jì)算機(jī)RAM,該系統(tǒng)只需0.1%.Fossati等人[110]利用語言的語義理論框架,實(shí)現(xiàn)了同時(shí)利用T-Box和A-Box填充知識(shí)庫,完成了語義標(biāo)注,最終對實(shí)體間的多元關(guān)系進(jìn)行抽取.
2.4.2 中文開放領(lǐng)域文本關(guān)系抽取方法
1) 二元關(guān)系抽取方法
由于中文與英文存在較大的差距,因此針對英語的關(guān)系抽取系統(tǒng)無法直接對中文進(jìn)行抽取.為了解決中文中缺省某些語言成分和倒序的問題,研究者發(fā)布了CORE,ZORE,UnCORE 這3個(gè)面向開放領(lǐng)域的信息抽取系統(tǒng).
考慮到中英文之間的差異,在面向中文開放領(lǐng)域的文本時(shí),Petroni等人[111]提出了CORE模型.該模型利用上下文信息進(jìn)行矩陣分解可以獲得關(guān)系三元組.該方法首先完成對分句、詞性標(biāo)注和特殊詞的處理,之后對給定的語句利用CKIP解析器進(jìn)行語法解析,最后通過識(shí)別中心關(guān)系詞逐漸擴(kuò)展去識(shí)別中心實(shí)體詞.該方法有力地促進(jìn)了面向開放的中文領(lǐng)域的關(guān)系抽取的研究和發(fā)展.
此外,ZORE也是面向中文開放領(lǐng)域文本的關(guān)系抽取模型.ZORE是由Qiu等人[112]在2014年提出,通過利用依存解析樹識(shí)別候選實(shí)體關(guān)系三元組,采用雙向傳播算法迭代抽取實(shí)體關(guān)系三元組和語義模板.實(shí)驗(yàn)表明,該模型在對5 MB大小的Wikipedia中文構(gòu)成的數(shù)據(jù)集進(jìn)行關(guān)系抽取時(shí),準(zhǔn)確率取得了較好的成績,達(dá)到了76.8%.
通過對大規(guī)模開放的網(wǎng)絡(luò)文本進(jìn)行分析之后,哈爾濱工業(yè)大學(xué)的秦兵等人[113]發(fā)現(xiàn)實(shí)體之間的關(guān)系與實(shí)體之間的距離以及關(guān)系詞的位置有較大關(guān)系.2015年秦兵等人發(fā)布了以無監(jiān)督的方式進(jìn)行關(guān)系抽取的UnCORE系統(tǒng).該系統(tǒng)首先對在網(wǎng)頁上獲得的大規(guī)模文本進(jìn)行預(yù)處理,得到分詞和標(biāo)注好的詞性等,接著通過約束實(shí)體之前的距離和關(guān)系詞的位置得到候選三元組,然后使用基于規(guī)則的排序(全局排序和類型排序)的算法獲取關(guān)系指示詞,最后采用構(gòu)造好的規(guī)則和關(guān)系指示詞對候選關(guān)系三元組進(jìn)行過濾得到準(zhǔn)確率較高的關(guān)系三元組.實(shí)驗(yàn)結(jié)果顯示,該方法的平均準(zhǔn)確率達(dá)到80%,能有效地提取大量關(guān)系三元組,不斷地?cái)U(kuò)充實(shí)體關(guān)系庫.
除此之外,郭喜躍等人[114]采用半監(jiān)督的方式在百科類的開放領(lǐng)域文本進(jìn)行關(guān)系抽取,從不同方面對百度百科的信息框采用不同方法進(jìn)行標(biāo)注、篩選、整合,最終獲得了質(zhì)量較高的實(shí)體間的二元關(guān)系.該方法有效地減少了人工參與,提高了關(guān)系抽取的效率.文獻(xiàn)[115]研究了基于無監(jiān)督的中文開放領(lǐng)域的關(guān)系抽取,可以在沒有任何人工標(biāo)記數(shù)據(jù)集的情況下自動(dòng)發(fā)現(xiàn)任意關(guān)系,建立了大規(guī)模語料庫.通過將實(shí)體關(guān)系映射到依賴樹,考慮到獨(dú)特的中文語言特征,該文獻(xiàn)提出了一種基于依賴語義規(guī)范形式的新型無監(jiān)督中文開放領(lǐng)域的關(guān)系抽取模型.該模型對實(shí)體和關(guān)系之間的相對位置沒有任何限制,通過抽取由動(dòng)詞或名詞為媒介的關(guān)系,處理并行子句來提高關(guān)系抽取的性能.該方法在4個(gè)異構(gòu)數(shù)據(jù)集上獲得了穩(wěn)定的性能,并獲得了更好的準(zhǔn)確率和召回率,分別為83.76%,58.68%.
2) 多元關(guān)系抽取方法
以上所述的方法主要是針對二元關(guān)系進(jìn)行中文文本抽取,李穎等人[116]基于依存分析的方法,提出了面向中文開放領(lǐng)域文本的多元實(shí)體關(guān)系抽取模型N-COIE.該模型首先對中文文本進(jìn)行詞性標(biāo)注和依存關(guān)系標(biāo)注,然后在一定的約束條件下識(shí)別基本的名詞短語,抽取候選實(shí)體關(guān)系多元組,最后通過過濾的方法擴(kuò)充關(guān)系庫.實(shí)驗(yàn)結(jié)果表明,該方法在面向大規(guī)模的中文領(lǐng)域開放的文本能夠取得81%的準(zhǔn)確率.姚賢明等人[117]提出了中文領(lǐng)域多元實(shí)體關(guān)系抽取的方法.該方法以依存句法分析結(jié)果的根節(jié)點(diǎn)作為入口,迭代地獲取所有與謂語相關(guān)聯(lián)的主語、賓語及其定語成分,再利用依存句法分析結(jié)果來完善定語成分,最終獲取句子中的多個(gè)實(shí)體之間的語義關(guān)系.
目前,面向大規(guī)模開放領(lǐng)域的關(guān)系抽取方法仍與特定領(lǐng)域的方法存在一定的差距,留給研究者一定的研究空間.面向開放領(lǐng)域的關(guān)系抽取仍然存在著一些難點(diǎn),亟待解決:
1) 如何繼續(xù)提高實(shí)體二元關(guān)系的準(zhǔn)確率和召回率,進(jìn)一步實(shí)現(xiàn)對實(shí)體間多元關(guān)系的抽取;
2) 如何繼續(xù)深度挖掘?qū)嶓w間的隱含關(guān)系,進(jìn)一步提高實(shí)體間關(guān)系的信息的有效利用;
3) 如何提出公認(rèn)的評價(jià)體系,制定統(tǒng)一的評測標(biāo)準(zhǔn).
關(guān)系抽取研究已歷經(jīng)20多年的發(fā)展,關(guān)系抽出的方法不斷得到改進(jìn),關(guān)系抽取的模型性能不斷得以提升,逐漸應(yīng)用于知識(shí)圖譜、文本摘要、機(jī)器翻譯等領(lǐng)域.
早期的方法主要通過尋找文本的規(guī)律,制定一系列規(guī)則抽取關(guān)系,如基于規(guī)則、詞典、本體的方法.該類抽取方法的準(zhǔn)確率等評價(jià)指標(biāo)較高,然而需要人工構(gòu)造,其成本高昂,且處理的文本規(guī)模較小,為了突破早期方法的局限,研究人員將目光轉(zhuǎn)向以特征等為基礎(chǔ)的傳統(tǒng)機(jī)器學(xué)習(xí)方法,如有監(jiān)督學(xué)習(xí)的基于特征和核函數(shù)的方法,半監(jiān)督學(xué)習(xí)的自舉、協(xié)同訓(xùn)練、標(biāo)注傳播的方法以及無監(jiān)督方法以聚類為核心的方法.但是傳統(tǒng)機(jī)器學(xué)習(xí)的模型性能十分依賴人工標(biāo)注特征數(shù)據(jù)的規(guī)模和數(shù)量,因此需要一個(gè)能自動(dòng)地抽取特征的方法.深度學(xué)習(xí)具有自學(xué)習(xí)的特點(diǎn),能夠自動(dòng)抽取特征,減少對人工的依賴,而且能抽取大規(guī)模文本數(shù)據(jù).深度學(xué)習(xí)的方法主要有有監(jiān)督和遠(yuǎn)程監(jiān)督2種方法,其中有監(jiān)督主要有流水線學(xué)習(xí)(如CNN,RNN,LSTM,GCN及其變體)和聯(lián)合學(xué)習(xí)(如基于共享參數(shù)、序列標(biāo)注、圖)2種,基于深度學(xué)習(xí)的方法極大地促進(jìn)了關(guān)系抽取領(lǐng)域的發(fā)展.針對特定領(lǐng)域方法的模型性能良好,但其可擴(kuò)展性和移植較差,因此針對開放領(lǐng)域的方法越來越吸引研究者的目光,但該類方法的模型性能還有待提高,此外還缺少公認(rèn)的評價(jià)體系,需要進(jìn)一步完善.
目前,實(shí)體關(guān)系抽取技術(shù)日漸成熟,但依然需要研究人員投入大量精力進(jìn)行不斷探索,通過對現(xiàn)有實(shí)體關(guān)系抽取研究工作進(jìn)行總結(jié),在以后的研究中可以從5個(gè)方面展開相關(guān)的研究.
1) 從二元關(guān)系抽取到多元關(guān)系抽取的轉(zhuǎn)化.當(dāng)前的關(guān)系抽取系統(tǒng)主要集中在2個(gè)實(shí)體之間的二元關(guān)系抽取,但并非所有的關(guān)系都是二元的,如有些關(guān)系實(shí)例需要考慮時(shí)間和地點(diǎn)等信息,所以會(huì)考慮更多的論元.李穎等人[116]提出的關(guān)系抽取模型N-COIE針對多元關(guān)系抽取,但該方法與二元關(guān)系抽取模型的抽取相比,在準(zhǔn)確率和召回率上仍有較大的差距.如何根據(jù)上下文信息,識(shí)別跨越句子的多元實(shí)體關(guān)系,提高關(guān)系抽取的準(zhǔn)確率和智能化,這促使研究者不斷投入更多的精力.
2) 開放領(lǐng)域的實(shí)體關(guān)系抽取的深入研究.目前的研究工作大多面向特定的關(guān)系類型或者特定領(lǐng)域,而使用特定的語料庫,很難做到其他領(lǐng)域的自動(dòng)遷移.雖然,一些研究者針對開放領(lǐng)域的關(guān)系抽取進(jìn)行了研究,提出了一系列的方法用于實(shí)體關(guān)系抽取,然而這類方法和特定領(lǐng)域相比仍有一定的差距.如何不斷提高系統(tǒng)的準(zhǔn)確率、可移植性以及可擴(kuò)展性,這都激勵(lì)著研究人員投入更多的精力和時(shí)間,促進(jìn)開放領(lǐng)域的實(shí)體關(guān)系抽取的發(fā)展.
3) 遠(yuǎn)程監(jiān)督關(guān)系抽取方法得到不斷改進(jìn).目前,由于遠(yuǎn)程監(jiān)督的方法仍然存在錯(cuò)誤標(biāo)簽和誤差傳播2個(gè)主要問題,研究者多是基于這些問題對深度學(xué)習(xí)的關(guān)系抽取模型加以改進(jìn).為了避免產(chǎn)生過多的錯(cuò)誤標(biāo)簽,人們主要采用多示例、注意力機(jī)制的方法等方法減少噪音數(shù)據(jù).而Qin等人[130]融合增強(qiáng)學(xué)習(xí)和遠(yuǎn)程監(jiān)督方法的優(yōu)點(diǎn),不斷地減少錯(cuò)誤標(biāo)簽,進(jìn)而降低負(fù)類數(shù)據(jù)對關(guān)系抽取模型的影響.針對誤差傳播的問題,研究者多是對句子的語義信息進(jìn)行深入挖掘,而對句子語法信息卻少有涉及.如何有效地解決遠(yuǎn)程監(jiān)督產(chǎn)生的錯(cuò)誤標(biāo)簽和誤差傳播,如何有效地融合語法和語義信息,這些吸引著研究者不斷改進(jìn)相關(guān)算法,不斷提高深度學(xué)習(xí)方法的性能.
4) 深度學(xué)習(xí)有監(jiān)督方法的性能提升.近年來,越來越多的研究人員關(guān)注于聯(lián)合學(xué)習(xí)和基于圖結(jié)構(gòu)的抽取方法.聯(lián)合學(xué)習(xí)將命名實(shí)體識(shí)別和關(guān)系抽取作為一個(gè)任務(wù),減少了錯(cuò)誤信息的積累和傳播,也減少了冗余信息對模型的影響.而針對關(guān)系重疊和實(shí)體間潛在特征等問題,基于圖結(jié)構(gòu)的抽取方法提供了一些新的思路.然而這2種方法的性能還需進(jìn)一步改進(jìn),不斷促進(jìn)信息抽取領(lǐng)域的發(fā)展.
5)工業(yè)級(jí)實(shí)體關(guān)系抽取系統(tǒng)的繼續(xù)研發(fā).關(guān)系抽取現(xiàn)已被廣泛應(yīng)用于智能搜索、智能問答、個(gè)性化推薦、內(nèi)容分發(fā)、權(quán)限管理,人力資源管理等領(lǐng)域.通過對學(xué)術(shù)研究和市場需求進(jìn)行深入地融合,不斷提高實(shí)體關(guān)系抽取的可靠性、置信度、執(zhí)行效率等,促進(jìn)關(guān)系抽取模型的性能進(jìn)一步得到提升,為人們的生活提供更多便利.
綜上所述,關(guān)系抽取是自然語言處理領(lǐng)域的重要研究方向之一,其研究內(nèi)容已從限定領(lǐng)域、限定類型的關(guān)系分類轉(zhuǎn)變?yōu)槊嫦蚧ヂ?lián)網(wǎng)開放領(lǐng)域的實(shí)體關(guān)系自動(dòng)發(fā)現(xiàn).隨著關(guān)系抽取技術(shù)進(jìn)一步實(shí)現(xiàn)自動(dòng)化,將對海量信息處理、智能問答、知識(shí)庫自動(dòng)構(gòu)建等領(lǐng)域產(chǎn)生積極推動(dòng),具有廣闊的應(yīng)用前景.