陳鵬之,張 瑾,劉 悅,程學(xué)旗
(1.中國科學(xué)院計(jì)算技術(shù)研究所 中國科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室, 北京 100190;2.中國科學(xué)院大學(xué), 北京 100049)
實(shí)體關(guān)系聯(lián)合抽取是指從非結(jié)構(gòu)化文本中抽取出具有某種語義關(guān)系的實(shí)體對,即實(shí)體關(guān)系三元組,如圖1所示。它應(yīng)用廣泛,可以用于構(gòu)建知識圖譜和本體知識庫,支持上層應(yīng)用,如問答系統(tǒng)、搜索引擎等,為其他自然語言處理技術(shù)提供支持。
圖1 實(shí)體關(guān)系三元組抽取
傳統(tǒng)的實(shí)體關(guān)系抽取任務(wù)通常采用管道式(pipeline)模型,將實(shí)體關(guān)系抽取分成命名實(shí)體識別與實(shí)體關(guān)系分類2個(gè)獨(dú)立的子任務(wù),2個(gè)子任務(wù)獨(dú)立工作。
管道式方法的優(yōu)點(diǎn)是可以靈活調(diào)用每個(gè)模型,每個(gè)模型都可以應(yīng)用到不同的場景,同時(shí)缺點(diǎn)也很明顯,它忽視了實(shí)體識別與關(guān)系分類之間的語義關(guān)聯(lián);其次,實(shí)體識別引入的錯(cuò)誤會影響關(guān)系分類的效果;最后,任意實(shí)體對間不一定都存在某種關(guān)系,但需要對所有實(shí)體對進(jìn)行關(guān)系分類。
近幾年研究者們逐漸將實(shí)體關(guān)系抽取當(dāng)成一個(gè)整體任務(wù)來研究,同時(shí)抽取句子中的實(shí)體和關(guān)系。與管道式抽取方法相比,聯(lián)合式抽取方法[1]能夠有效利用實(shí)體和關(guān)系間緊密的交互信息,同時(shí)抽取實(shí)體并預(yù)測實(shí)體間的關(guān)系。Kate等[2]在2010年提出了“卡片-金字塔”的圖形結(jié)構(gòu),并將其用在實(shí)體關(guān)系聯(lián)合抽取上。Yang等[3]在2013年提出了一種聯(lián)合抽取模型,使用整數(shù)線性規(guī)劃提取符合條件的實(shí)體及關(guān)系。Katiyar等[4]在2016年首次將深度雙向LSTM序列標(biāo)注的方法用于聯(lián)合提取觀點(diǎn)實(shí)體IS-FROM、IS-ABOUT關(guān)系。Zheng等[5]在2017年提出一種復(fù)合型標(biāo)簽策略,利用序列標(biāo)注的方法同時(shí)識別出實(shí)體和關(guān)系。近兩年來,基于端到端的聯(lián)合抽取方法逐漸被研究者提出,Zeng等[6]在2018年提出一種基于端到端的實(shí)體關(guān)系聯(lián)合抽取模型CopyRE,根據(jù)機(jī)器翻譯的思想,將輸入語句看成是源語言,將實(shí)體關(guān)系三元組組成的序列看作是目標(biāo)語言,以此抽取實(shí)體及關(guān)系。
基于端到端的聯(lián)合抽取方法主要存在2個(gè)問題:首先,在實(shí)體抽取的過程中,該類方法默認(rèn)每個(gè)實(shí)體僅由一個(gè)單詞構(gòu)成,從而導(dǎo)致模型沒有辦法抽取出完整的實(shí)體;其次,該類方法抽取出的實(shí)體對準(zhǔn)確率低,在整個(gè)抽取過程中,關(guān)系預(yù)測和實(shí)體抽取會相互影響,使得關(guān)系預(yù)測不準(zhǔn)確,進(jìn)而導(dǎo)致抽取出的三元組準(zhǔn)確率低。
針對上述問題,本文提出一種基于標(biāo)簽校正的聯(lián)合抽取方法,稱為CopyLC。首先,在解碼階段使用4個(gè)權(quán)重矩陣,配合Attention、Copy、Mask機(jī)制,分別抽取主、客實(shí)體的首尾,以此抽取完整的實(shí)體。其次,在解碼完成時(shí),通過標(biāo)簽序列對抽取的實(shí)體進(jìn)行校正。最后,將以上2部分結(jié)合,構(gòu)建一個(gè)多任務(wù)學(xué)習(xí)模型。實(shí)驗(yàn)結(jié)果證明,本文的方法在NYT和WebNLG數(shù)據(jù)集上均能獲得更好的抽取效果。
主要貢獻(xiàn)包括:
1) 引入4個(gè)權(quán)重矩陣進(jìn)行解碼,配合Attention、Copy及Mask機(jī)制,在解碼過程中抽取出完整的實(shí)體;
2) 利用標(biāo)簽序列進(jìn)行抽取實(shí)體校正,同時(shí)提高實(shí)體對抽取和關(guān)系預(yù)測的準(zhǔn)確率,進(jìn)而提升三元組抽取效果。
實(shí)體關(guān)系抽取是信息抽取領(lǐng)域中的重要研究課題。主要分為2種抽取方法,一種是管道式抽取,另一種是聯(lián)合式抽取。
管道式抽取將實(shí)體關(guān)系抽取分為實(shí)體識別和實(shí)體關(guān)系分類2個(gè)獨(dú)立的子任務(wù)。實(shí)體識別主要分為基于統(tǒng)計(jì)和基于深度學(xué)習(xí)2種方法。基于統(tǒng)計(jì)的方法將命名實(shí)體識別看成序列標(biāo)注問題,代表方法如隱馬爾科夫模型(HMM)[7],最大熵馬爾科夫模型(MEMM)[8]以及條件隨機(jī)場模型(CRF)[9]等。近幾年,不少學(xué)者將深度學(xué)習(xí)技術(shù)應(yīng)用在命名實(shí)體識別上。Lample等[10]使用LSTM等神經(jīng)網(wǎng)絡(luò)模型抽取實(shí)體。除此之外,卷積神經(jīng)網(wǎng)絡(luò)(CNN)[11]等深度學(xué)習(xí)方法也被用來解決命名實(shí)體識別問題,并取得了較好的結(jié)果。
實(shí)體關(guān)系分類可以分為基于特征向量、基于核函數(shù)以及基于深度學(xué)習(xí)3種方法?;谔卣飨蛄康姆椒ǔ槿〕?個(gè)實(shí)體所在位置的上下信息,如語法、語義特征以及實(shí)體的特征等,利用這些特征訓(xùn)練分類模型,此類方法有Kambhatla等[12-13]。相比于基于特征向量的方法,核方法能夠有效地對實(shí)體對上下文信息進(jìn)行表示,對人工的依賴更小,并且擴(kuò)充了語義表達(dá)空間,可以涵蓋更多信息?;诤撕瘮?shù)的關(guān)系分類方法有Mooney等[14-15]。隨著深度學(xué)習(xí)技術(shù)的發(fā)展與興起,神經(jīng)網(wǎng)絡(luò)方法被引入到實(shí)體關(guān)系分類任務(wù)中。Socher等[16]于 2012 年首次提出基于RNN模型的關(guān)系分類方法。Zeng等[17]在2014年首次將CNN用于關(guān)系分類,通過CNN分別提取詞匯和句子的特征,利用池化后的特征及位置特征對實(shí)體對進(jìn)行分類。
聯(lián)合式抽取方法能夠有效利用實(shí)體和關(guān)系間緊密的交互信息,將實(shí)體關(guān)系抽取看作一個(gè)整體任務(wù),同時(shí)抽取實(shí)體并預(yù)測實(shí)體間的關(guān)系。Miwa等[18]在2016年首次將神經(jīng)網(wǎng)絡(luò)用于聯(lián)合表示實(shí)體和關(guān)系。該方法將實(shí)體識別任務(wù)當(dāng)作序列標(biāo)注任務(wù),使用雙向LSTM輸出具有依賴關(guān)系的實(shí)體標(biāo)簽;再根據(jù)依存樹中目標(biāo)實(shí)體間的最短路徑對文本進(jìn)行關(guān)系抽取。Katiyar等[19]于2017年首次將注意力機(jī)制與雙向LSTM結(jié)合在一起,用于聯(lián)合抽取實(shí)體及關(guān)系,該模型可以進(jìn)行擴(kuò)展以提取各種預(yù)定義好的關(guān)系類型,是真正意義上的第一個(gè)神經(jīng)網(wǎng)絡(luò)實(shí)體關(guān)系聯(lián)合抽取模型。Zheng等[5]在2017年提出了一種新穎的標(biāo)注策略的實(shí)體關(guān)系抽取方法,把原來涉及到命名實(shí)體識別和關(guān)系分類2個(gè)子任務(wù)的聯(lián)合學(xué)習(xí)模型抽象成一個(gè)序列標(biāo)注的問題,他們提出一種復(fù)合型標(biāo)簽策略,利用序列標(biāo)注的方法同時(shí)識別出實(shí)體和關(guān)系。Zeng等[6]在2018年提出一種基于端到端的實(shí)體關(guān)系聯(lián)合抽取模型,使用Encoder-Decoder框架,配合Attention、Copy機(jī)制等同時(shí)抽取實(shí)體及關(guān)系。
為解決現(xiàn)有端到端模型的抽取中未考慮實(shí)體multi-token問題以及抽取過程中關(guān)系預(yù)測與實(shí)體抽取相互影響的問題,本節(jié)將選取當(dāng)前代表性的端到端抽取模型CopyRE作為基礎(chǔ)模型,根據(jù)機(jī)器閱讀理解中尋找答案的思想,采用多個(gè)權(quán)重矩陣抽取實(shí)體,并引入標(biāo)簽校正機(jī)制,提出基于標(biāo)簽校正的聯(lián)合抽取方法CopyLC(copy mechanism for relational facts with label correction)。
CopyRE是基于Encoder-Decoder框架的一種聯(lián)合抽取模型,它主要包含Encoder和Decoder兩部分。Encoder模塊對輸入語句編碼并轉(zhuǎn)化為特征向量。Decoder模塊利用Encoder生成的特征向量,生成實(shí)體關(guān)系三元組。
(1)
Decoder模塊使用單向LSTM,配合Attention機(jī)制與Copy機(jī)制抽取三元組。抽取過程分為迭代的3步,第1步是預(yù)測關(guān)系,第2步是抽取主實(shí)體,第3步是抽取客實(shí)體,然后迭代該過程,直至達(dá)到預(yù)先設(shè)定的步長。整個(gè)解碼過程,模型會得到多個(gè)實(shí)體關(guān)系三元組。當(dāng)輸入語句中的三元組個(gè)數(shù)小于模型設(shè)置的最大三元組個(gè)數(shù)時(shí),Decoder生成NA三元組,表示空實(shí)體關(guān)系三元組。
解碼過程可形式化為式(2):
(2)
Decoder模塊t時(shí)刻的輸入ut由2部分組成,一部分是t時(shí)刻的輸入vt,另一部分是Encoder的輸出與Decoder的隱狀態(tài)生成的Attention向量at。
ut表示如下:
ut=[vt;at]·Wu
(3)
vt表示t-1時(shí)刻模型預(yù)測的關(guān)系或是抽取出的實(shí)體。Attention向量at表示為:
(4)
αt是權(quán)重,由Encoder的輸出與Decoder的隱狀態(tài)經(jīng)過非線變化得到,如式(5)所示:
(5)
(6)
式中:qr是一個(gè)N維的向量,每一維表示對應(yīng)的關(guān)系;Wr是權(quán)重矩陣;br是偏置項(xiàng)。因?yàn)槟P涂赡軙煽贞P(guān)系,簡稱為NA關(guān)系,用qNA表示空關(guān)系向量,如式(7)所示:
(7)
CopyRE將關(guān)系集合qr和空關(guān)系qNA拼接在一起,得到一個(gè)N+1維的向量,表示可能預(yù)測出的所有關(guān)系,再選出概率分布上值最高的那一維對應(yīng)的關(guān)系作為當(dāng)前三元組的關(guān)系,如式(8)所示:
prel=softmax([qr;qNA])
(8)
(9)
pe=softmax([qe;qNA])
(10)
客實(shí)體抽取與主實(shí)體類似,為了保證抽取的三元組有意義,2個(gè)實(shí)體不能重疊,M表示客實(shí)體不能是主實(shí)體對應(yīng)的單詞,客實(shí)體概率分布為:
pe=softmax([M?qe;qNA])
(11)
2.2.1無法抽取完整的實(shí)體
CopyRE只能抽取實(shí)體中的最后一個(gè)單詞。在現(xiàn)實(shí)情況中,實(shí)體不僅只由一個(gè)單詞構(gòu)成,也存在多個(gè)單詞構(gòu)成的實(shí)體,特別是在中文中,大多實(shí)體都是由多個(gè)字符組成,在這種情況下,CopyRE無法抽取出完整的實(shí)體。
2.2.2抽取出的實(shí)體對準(zhǔn)確率低
通過復(fù)現(xiàn)CopyRE模型,還發(fā)現(xiàn)該方法抽取出的三元組F1值較低,主要原因是抽取出的實(shí)體對準(zhǔn)確率較低,進(jìn)而使得整體抽取效果較低。
針對端到端抽取模型存在的不足,本文在CopyRE模型基礎(chǔ)上提出一種基于標(biāo)簽校正的端到端實(shí)體關(guān)系聯(lián)合抽取方法,稱為CopyLC,模型框架如圖2所示。
圖2 CopyLC模型框架
如果只生成有明確意義的實(shí)體關(guān)系三元組,在一定程度上就能減少抽取所帶來的冗余信息,同時(shí),端到端模型自動將實(shí)體與關(guān)系以及實(shí)體與實(shí)體間建立了某種語義關(guān)聯(lián)。另外,要抽取的實(shí)體一定是源于句子中,所以使用拷貝機(jī)制而非從固定詞表中生成單詞,可以更精確完整地抽取實(shí)體。因此,本文使用基于RNN的神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)待識別句子的上下文信息,并通過注意力機(jī)制與拷貝機(jī)制,直接生成實(shí)體關(guān)系三元組,并且在解碼完成時(shí)進(jìn)行標(biāo)簽校正,實(shí)現(xiàn)多任務(wù)學(xué)習(xí),從而提升實(shí)體關(guān)系抽取的效果,稱為Copy Mechanism for Relational Facts with Label Correction,簡稱CopyLC模型。
模型框架包含3個(gè)主要模塊,第1個(gè)模塊是Encoder,負(fù)責(zé)對輸入語句進(jìn)行編碼;第2個(gè)模塊是Decoder,負(fù)責(zé)關(guān)系預(yù)測和實(shí)體抽??;第3個(gè)模塊是標(biāo)簽校正,對抽取出的實(shí)體進(jìn)行校正。Encoder編碼及關(guān)系預(yù)測部分與CopyRE相同,在本文中不再贅述,下文主要針對實(shí)體抽取及標(biāo)簽校正進(jìn)行介紹。
2.3.1實(shí)體抽取
標(biāo)準(zhǔn)生成式模型是每一步從固定詞表中選擇一個(gè)當(dāng)前條件下概率最高的單詞作為輸出,但這個(gè)單詞不一定是原文中的單詞。就實(shí)體抽取而言,組成實(shí)體的每一個(gè)單詞,其實(shí)都是原文中的某一個(gè)詞,所以可以用拷貝機(jī)制替代固定詞表生成,從輸入文本中分別將2個(gè)實(shí)體拷貝出來。本文用2步來抽取一個(gè)實(shí)體,第1步,找到實(shí)體的開始位置,第2步,找到實(shí)體的結(jié)尾位置,這樣,每2步就可以抽取出任意長度實(shí)體,而不受限于實(shí)體長度,也不存在分詞等預(yù)處理引入的錯(cuò)誤傳遞。整個(gè)過程類似于機(jī)器翻譯,不斷地生成單詞,只不過現(xiàn)在是從原文中拷貝,每2步就可以抽取出一個(gè)實(shí)體,一個(gè)實(shí)體關(guān)系三元組由一個(gè)關(guān)系和2個(gè)實(shí)體(主實(shí)體、客實(shí)體)構(gòu)成,所以,每5步就可以抽取出一個(gè)完整的實(shí)體關(guān)系對(第1步抽取出關(guān)系,第2步至第5步抽取主、客實(shí)體)。相對于管道式抽取方法,它能更好地建模實(shí)體與關(guān)系,以及實(shí)體與實(shí)體間的語義關(guān)聯(lián)。
實(shí)體的抽取分為2大步,4小步,前2步抽取主實(shí)體,后2步抽取出客實(shí)體。第1步抽取主實(shí)體的開始位置,利用Encoder的輸出與Decoder的輸出得到輸入句子中每個(gè)單詞的表達(dá)向量:
(12)
psub_beg=softmax([qsub_beg;qNA])
(13)
下一步需要抽取出主實(shí)體的結(jié)尾位置,抽取方法與抽取主實(shí)體開始位置類似。主實(shí)體的結(jié)尾位置必須位于主實(shí)體開始位置之后(可以重疊,相當(dāng)于實(shí)體由一個(gè)單詞構(gòu)成),為了保證抽取的實(shí)體有意義,使用Mask機(jī)制:
(14)
式中:j表示主實(shí)體開始位置:i表示句子中某個(gè)單詞的位置,通過Mask機(jī)制可以計(jì)算主實(shí)體結(jié)尾位置的表達(dá)向量:
psub_end=softmax([Msub?qsub_end;qNA])
(15)
抽取出主實(shí)體后,接下來需要抽取客實(shí)體的開始位置。本文假設(shè)2個(gè)實(shí)體之間是不能重疊的,即客實(shí)體不能和主實(shí)體之間有交叉。同樣,使用Mask機(jī)制來輔助抽取出客實(shí)體的開始位置:
(16)
式中:subject表示主實(shí)體所在的位置;i表示句子中某個(gè)單詞的位置,通過Mask機(jī)制可以計(jì)算客實(shí)體開始位置的表示向量:
pobj_beg=softmax([Mobj_beg?qobj_beg;qNA])
(17)
最后一步,抽取客實(shí)體的結(jié)尾位置。這里存在2種情況,第1種是主實(shí)體位于客實(shí)體之前,第2種是主實(shí)體位于客實(shí)體之后。
當(dāng)主實(shí)體位于客實(shí)體之前時(shí),客實(shí)體開始位置位于主實(shí)體之后,所以客實(shí)體前的所有位置不可能成為客實(shí)體的結(jié)尾,具體表示如下:
(18)
當(dāng)主實(shí)體位于客實(shí)體之后時(shí),客實(shí)體的結(jié)尾位置必須位于主實(shí)體開始與客實(shí)體開始位置之間,具體表示如下:
(19)
實(shí)際中,根據(jù)具體情況計(jì)算客實(shí)體的結(jié)尾位置:
pobj_end=softmax([Mobj_end?qobj_end;qNA])
(20)
最終,將開始與結(jié)尾的之間的所有單詞組合,得到完整的實(shí)體,再將第1步預(yù)測的關(guān)系和第2步至第5步抽取出的2個(gè)實(shí)體組合在一起,就可以得到一個(gè)完整的實(shí)體關(guān)系三元組,迭代下去,就可以得到多個(gè)實(shí)體關(guān)系三元組。
2.3.2標(biāo)簽校正
當(dāng)模型抽取出多對實(shí)體關(guān)系三元組后,使用一個(gè)標(biāo)簽校正(label correction)模塊校正抽取出的實(shí)體。用正確的實(shí)體對模型抽取出的實(shí)體進(jìn)行校正。本文用4個(gè)序列分別記錄主實(shí)體開始、結(jié)尾、客實(shí)體開始、結(jié)尾位置的標(biāo)簽。將一個(gè)句子表示為s=[w1,w2,w3,…,wn],其中s代表整個(gè)輸入的句子,n表示句子的長度,wi表示第i個(gè)單詞,在中文里表示第i個(gè)字符。例如,當(dāng)句子中第1個(gè)單詞和第3個(gè)單詞表示主實(shí)體的開頭時(shí),本文用tagsub_beg=[1,0,1,…,0]表示主實(shí)體開始的標(biāo)簽序列,即在輸入句子中,將主實(shí)體開始對應(yīng)的位置標(biāo)記為1,其余位置標(biāo)記為0。同理,用tagsub_end,tagobj_beg,tagobj_end分別表示主實(shí)體結(jié)尾,客實(shí)體開始、結(jié)尾的標(biāo)簽序列,具體標(biāo)注方法如圖3所示。
圖3 標(biāo)簽校正序列
本文通過Decoder解碼與標(biāo)簽校正,構(gòu)建一個(gè)多任務(wù)學(xué)習(xí)系統(tǒng),使得模型同時(shí)考慮生成的實(shí)體關(guān)系三元組以及實(shí)體本身,損失函數(shù)如下:
(21)
損失L由生成的三元組和標(biāo)簽校正共同決定,γ是權(quán)重,表示標(biāo)簽校正在整個(gè)損失函數(shù)中的重要程度;標(biāo)簽校正部分的損失Ltag由主實(shí)體開始、結(jié)尾,客實(shí)體開始、結(jié)尾這4部分損失共同決定,β,γ是權(quán)重,表示正確識別出實(shí)體開始位置與識別出實(shí)體結(jié)尾位置的相對重要程度。
實(shí)驗(yàn)采用2個(gè)公開數(shù)據(jù)集New York Times(NYT)和WebNLG來評估算法的有效性。
NYT是谷歌發(fā)布的關(guān)于遠(yuǎn)程監(jiān)督關(guān)系抽取的數(shù)據(jù)集,該數(shù)據(jù)集包含1987年到2007年紐約時(shí)報(bào)文章中118萬條句子,一共有24種關(guān)系。本文將數(shù)據(jù)集看作是監(jiān)督數(shù)據(jù),選出所有句子長度大于100的句子用于訓(xùn)練、驗(yàn)證及測試。
WebNLG原本是為自然語言生成任務(wù)而提出的數(shù)據(jù)集,一共包含246種關(guān)系。數(shù)據(jù)集中的每一個(gè)樣本都包含幾條人工編寫的句子以及幾個(gè)實(shí)體關(guān)系三元組,本文只選取每個(gè)樣本中的第一條句子,并且過濾所有三元組都沒在第一條句子中出現(xiàn)的樣本,即保證一個(gè)樣本中至少有一個(gè)三元組。
經(jīng)過統(tǒng)計(jì),發(fā)現(xiàn)NYT數(shù)據(jù)集中大約34%的實(shí)體是multi-token實(shí)體,WebNLG數(shù)據(jù)集中大約56%的實(shí)體是multi-token實(shí)體。數(shù)據(jù)集詳情見表1。
表1 數(shù)據(jù)集分析
為了與CopyRE方法公平比較,本文在實(shí)驗(yàn)中的參數(shù)設(shè)置與CopyRE相同。本文使用雙向LSTM進(jìn)行編碼,單向LSTM進(jìn)行解碼,詞向量使用CopyRE預(yù)訓(xùn)練的詞向量,使用Adam優(yōu)化神經(jīng)網(wǎng)絡(luò)。實(shí)驗(yàn)中使用2種解碼方法,一種是用一個(gè)解碼器生成所有三元組,稱為OneDecoder,另一種是一個(gè)解碼器生成一個(gè)三元組,稱為MultiDecoder。具體參數(shù)見表2。
表2 參數(shù)設(shè)置
使用負(fù)對數(shù)似然損失函數(shù)(negative log likelihood loss,簡稱NLL)訓(xùn)練實(shí)體關(guān)系三元組的生成,損失函數(shù)如下式:
(22)
式中:T表示解碼長度;y表示目標(biāo)序列,y=[y1,y2,…,yn];yi表示目標(biāo)序列中的第i個(gè)字符,表示已經(jīng)生成的字符;x表示輸入句子;θ表示模型的參數(shù)。
本文使用交叉熵?fù)p失函數(shù)(cross entropy loss,簡稱 CE)校正生成的實(shí)體,損失函數(shù)如下所示:
(23)
與CopyRE方法相比,本文使用更嚴(yán)格的評價(jià)方法,只有當(dāng)抽取出的關(guān)系以及主實(shí)體、客實(shí)體首尾都完全正確時(shí),才認(rèn)為抽取出的三元組是正確的。相比于CopyRE只抽取出實(shí)體的一部分就認(rèn)為是正確的,本文的評價(jià)方法更加合理、嚴(yán)謹(jǐn)。
本文使用微平均精確率(precision),召回率(recall)以及F1值評估算法的效果。當(dāng)模型預(yù)測的結(jié)果中含有NA對(空關(guān)系實(shí)體對)時(shí),本文在計(jì)算精確率、召回率時(shí),將其剔除。
將本文CopyLC模型實(shí)驗(yàn)結(jié)果與CopyRE結(jié)果進(jìn)行對比,如表3和表4所示??梢钥闯觯疚哪P偷某槿⌒Ч诓煌瑪?shù)據(jù)集上都優(yōu)于CopyRE。本文中,使用OneDecoder方法進(jìn)行解碼的CopyLC稱為CopyLC-One,使用MultiDecoder方法進(jìn)行解碼的CopyLC稱為CopyLC-Mul。CopyRE-One(ours)與CopyRE-Mul(ours)表示對CopyRE復(fù)現(xiàn)后的模型。
表3 NYT數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
表4 WebNLG數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
為了分析標(biāo)簽校正模塊對抽取效果的影響程度,本文設(shè)計(jì)了消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5和表6所示,分別驗(yàn)證標(biāo)簽校正模塊在NYT和WebNLG數(shù)據(jù)集上的效果。CopyLC表示本文的模型,-LC表示本文模型去除標(biāo)簽校正模塊。
表5 NYT數(shù)據(jù)集消融實(shí)驗(yàn)
表6 WebNLG數(shù)據(jù)集消融實(shí)驗(yàn)
通過消融實(shí)驗(yàn),發(fā)現(xiàn)標(biāo)簽校正模塊對抽取效果有提升,三元組的準(zhǔn)確率、召回率及F1值均得到提升,在使用OneDecoder的情況下,在NYT數(shù)據(jù)集上F1值提高1.4%,在WebNLG數(shù)據(jù)集上F1值提高2%;在使用MultiDecoder的情況下,在NYT數(shù)據(jù)集上F1值提高2.3%,在WebNLG數(shù)據(jù)集上F1值提高2.4%。為了進(jìn)一步探究標(biāo)簽校正模塊的具體影響,本文在CopyLC-One模型上進(jìn)行實(shí)驗(yàn),統(tǒng)計(jì)模型在關(guān)系預(yù)測和實(shí)體對(由主、客實(shí)體共同構(gòu)成)抽取上的效果,如表7、表8所示。
表7 NYT數(shù)據(jù)集關(guān)系和實(shí)體對抽取效果
表8 WebNLG數(shù)據(jù)集關(guān)系和實(shí)體對抽取效果
根據(jù)表7、表8的實(shí)驗(yàn)結(jié)果,本文發(fā)現(xiàn)標(biāo)簽校正模塊對關(guān)系預(yù)測以及實(shí)體抽取的效果均有提升。本文認(rèn)為關(guān)系預(yù)測及實(shí)體抽取效果提升的原因是模型采用的是Encoder-Decoder架構(gòu),標(biāo)簽校正使得抽取的實(shí)體更準(zhǔn)確,抽取出的實(shí)體會影響下一個(gè)三元組中的關(guān)系預(yù)測,使得關(guān)系的預(yù)測更加準(zhǔn)確,反之,關(guān)系預(yù)測也會影響實(shí)體的抽取。
針對當(dāng)前基于端到端的聯(lián)合抽取方法存在抽取中未考慮實(shí)體multi-token問題以及抽取過程中關(guān)系預(yù)測與實(shí)體抽取相互影響等問題,本文結(jié)合Encoder-Decoder框架的特點(diǎn),引入標(biāo)簽校正機(jī)制,提出了一種基于標(biāo)簽校正的實(shí)體關(guān)系聯(lián)合抽取方法。從實(shí)驗(yàn)結(jié)果來看,本文提出的方法,在更嚴(yán)格的評價(jià)方法下,相比較當(dāng)前主流方法在NYT和WebNLG數(shù)據(jù)集上均能獲得更好的抽取效果。本文提出的方法在初始設(shè)置時(shí)需要指定最大解碼長度,當(dāng)一個(gè)句子中存在的實(shí)體關(guān)系事實(shí)大于預(yù)設(shè)定的最大值時(shí),某些實(shí)體關(guān)系事實(shí)可能會被遺漏,同時(shí)融合更豐富的全局信息以獲取更好的抽取效果,下一步研究將圍繞這些問題繼續(xù)推進(jìn)。