王雪瑩,程路易,徐 波
(東華大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,上海 201620)
實(shí)體鏈接任務(wù)的目標(biāo)是將文本中的實(shí)體指稱項(xiàng)鏈接到知識(shí)庫(kù)中對(duì)應(yīng)的實(shí)體,是許多信息抽取和自然語(yǔ)言理解等應(yīng)用的重要組成部分,因其解決了命名實(shí)體的詞匯歧義。傳統(tǒng)的實(shí)體鏈接解決方案通常假定在測(cè)試中要鏈接的實(shí)體在訓(xùn)練過(guò)程中已經(jīng)見(jiàn)過(guò),但是在實(shí)際應(yīng)用中,這種假設(shè)往往并不成立。要鏈接的實(shí)體往往在訓(xùn)練集中沒(méi)有出現(xiàn)過(guò),并且每個(gè)實(shí)體也沒(méi)有很多的結(jié)構(gòu)化先驗(yàn)信息,如別名表、先驗(yàn)概率、結(jié)構(gòu)化數(shù)據(jù)等,僅有一段關(guān)于實(shí)體的摘要信息。這種情況被稱為零樣本實(shí)體鏈接。
當(dāng)前零樣本實(shí)體鏈接方法主要采取兩階段的策略,如圖1 所示,第一階段是候選實(shí)體生成,其目標(biāo)是快速找到文本中實(shí)體指稱項(xiàng)在知識(shí)庫(kù)中的候選實(shí)體集合;第二階段是候選實(shí)體排序,其目標(biāo)是對(duì)候選實(shí)體進(jìn)行精準(zhǔn)的重排序,并返回得分最高的實(shí)體作為指稱項(xiàng)匹配的實(shí)體。然而,這些方法主要存在2 個(gè)問(wèn)題。第一個(gè)問(wèn)題是在候選實(shí)體生成階段,由于過(guò)分追求效率,對(duì)指稱項(xiàng)所在文本和實(shí)體摘要進(jìn)行單獨(dú)編碼,沒(méi)有充分考慮兩者之間的交互,導(dǎo)致召回率不高;第二個(gè)問(wèn)題是在實(shí)體排序階段,只是單獨(dú)地考慮了每個(gè)候選實(shí)體和指稱項(xiàng)的關(guān)系,未將所有候選實(shí)體作為一個(gè)整體進(jìn)行考慮,這在一定程度上影響了整體的精度。
圖1 兩階段零樣本實(shí)體鏈接方法Fig.1 Two-stage zero-shot entity linking method
綜前問(wèn)題所述,本文提出了一種基于ColBert-EL 和MRC 模型的零樣本實(shí)體鏈接方法。在候選實(shí)體生成階段,針對(duì)指稱項(xiàng)所在文本和實(shí)體摘要缺乏交互的問(wèn)題,提出了一個(gè)基于ColBert的變種方法-ColBert-EL,既可以讓指稱項(xiàng)所在文本和實(shí)體摘要進(jìn)行充分交互,又可以快速地檢索。在候選實(shí)體排序階段,針對(duì)所有候選實(shí)體沒(méi)有整體考慮的問(wèn)題,本文將其建模成一個(gè)多項(xiàng)選擇問(wèn)題,并提出了一個(gè)基于機(jī)器閱讀理解的模型來(lái)對(duì)結(jié)果進(jìn)行統(tǒng)一排序。
研究中,在公開(kāi)的零樣本實(shí)體鏈接數(shù)據(jù)集ZESHEL上進(jìn)行了實(shí)驗(yàn),與基線方法的結(jié)果相比,在候選實(shí)體生成階段,召回率提升了5.9%,在候選實(shí)體排序階段,準(zhǔn)確率提升了4.12%。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文提出方法的有效性。
零樣本實(shí)體鏈接可以分為候選實(shí)體生成和候選實(shí)體排序兩個(gè)階段。在候選實(shí)體生成階段,主要分為基于詞義的方法和基于語(yǔ)義的方法。例如,文獻(xiàn)[6]中使用BM25 基于詞義的方法來(lái)生成候選實(shí)體。但這種方法存在詞匯不匹配問(wèn)題,這會(huì)導(dǎo)致模型在一開(kāi)始就把正確答案排除在外,導(dǎo)致召回率過(guò)低,在后一階段即使使用復(fù)雜的模型也無(wú)法找到正確答案。文獻(xiàn)[7]中使用了BERT 等基于語(yǔ)義的方法來(lái)生成候選實(shí)體?;舅悸肥菍⒅阜Q項(xiàng)所在文本和實(shí)體摘要使用BERT 進(jìn)行單獨(dú)編碼,最后計(jì)算兩者的相似性。然而這種方法沒(méi)有充分考慮兩者之間的交互,依然會(huì)導(dǎo)致召回率不高。
在候選實(shí)體排序階段,目前的零樣本實(shí)體鏈接方法主要采用Cross-encoder 的方法進(jìn)行重排序。研究時(shí)將實(shí)體指稱項(xiàng)所在文本和每個(gè)候選實(shí)體的摘要進(jìn)行拼接后,利用Bert 編碼器得到拼接后句子的編碼,再通過(guò)一個(gè)全連接層輸出匹配的分?jǐn)?shù)。最后取所有候選實(shí)體中分?jǐn)?shù)最大者作為當(dāng)前實(shí)體指稱項(xiàng)應(yīng)該鏈接的實(shí)體。但是這種方法是單獨(dú)考慮每一個(gè)候選實(shí)體的,在整體的精度上的表現(xiàn)有待加強(qiáng)。
本文提出了一種基于ColBert的變種方法-ColBert-EL 用于生成候選實(shí)體。ColBert 最早用于信息檢索領(lǐng)域,主要用于估計(jì)查詢和文檔的相關(guān)性。其基本思路是先對(duì)文本中的每個(gè)詞向量和實(shí)體摘要中的每個(gè)詞向量進(jìn)行獨(dú)立編碼,然后采用一種后期交互(Late Interaction)的方式來(lái)計(jì)算指稱項(xiàng)和候選實(shí)體的相似度,考慮到了匹配的效率,又讓文本和摘要進(jìn)行了充分交互。本文對(duì)其原始模型的輸入進(jìn)行了重新設(shè)計(jì),使其能夠用于實(shí)體鏈接任務(wù)。ColBert-EL模型結(jié)構(gòu)如圖2 所示。
圖2 ColBert-EL 模型結(jié)構(gòu)圖Fig.2 Structure diagram of ColBert-EL model
對(duì)于每個(gè)實(shí)體指稱項(xiàng),其具體表示形式為:
實(shí)體及其摘要的具體輸入形式為:
得到實(shí)體指稱項(xiàng)和實(shí)體相關(guān)詞向量的編碼后,編碼器將輸出編碼通過(guò)一個(gè)沒(méi)有激活函數(shù)的線性層。該層減小每個(gè)詞向量編碼的輸出維度,使其小于Bert 編碼器的隱藏層維度,用于控制ColBert-EL的計(jì)算成本。最后,每一個(gè)輸出編碼將會(huì)用范式被歸一化。這樣做的優(yōu)點(diǎn)是任意2 個(gè)編碼的點(diǎn)積的結(jié)果將落在[-1,1]范圍內(nèi),等同于兩者的余弦相似度。
綜上,當(dāng)給出T=[,,…,m],T=[,,…,e]后,得到實(shí)體指稱項(xiàng)和實(shí)體編碼的方式如下:
當(dāng)?shù)玫綄?shí)體指稱項(xiàng)和實(shí)體相關(guān)信息的編碼后,利用公式(3)計(jì)算實(shí)體與當(dāng)前實(shí)體指稱項(xiàng)的相關(guān)性分?jǐn)?shù):
也就是,先計(jì)算實(shí)體指稱項(xiàng)的每一個(gè)詞編碼與實(shí)體所有詞向量編碼的余弦相似度,選出最大者作為實(shí)體指稱項(xiàng)當(dāng)前詞編碼的最大相似度分?jǐn)?shù)。將實(shí)體指稱項(xiàng)每一個(gè)詞編碼的最大余弦相似度分?jǐn)?shù)相加,便得到當(dāng)前實(shí)體與實(shí)體指稱項(xiàng)的相關(guān)性分?jǐn)?shù)。
候選實(shí)體排序的目標(biāo)是對(duì)實(shí)體指稱項(xiàng)的每個(gè)候選實(shí)體進(jìn)行重新排序,選出與實(shí)體指稱項(xiàng)相關(guān)性最大的候選實(shí)體,并將其當(dāng)作實(shí)體指稱項(xiàng)應(yīng)該鏈接的實(shí)體。該過(guò)程的輸出結(jié)果直接決定了整體框架的好壞。因此,本文使用了一個(gè)基于機(jī)器閱讀理解(MRC)的模型來(lái)充分考慮指稱項(xiàng)文本和候選實(shí)體摘要之間的交互,并且考慮了全部的候選實(shí)體。MRC 模型結(jié)構(gòu)如圖3 所示。
圖3 MRC 模型結(jié)構(gòu)圖Fig.3 Structure diagram of MRC model
具體來(lái)說(shuō),對(duì)于每一個(gè)候選實(shí)體,研究將實(shí)體的摘要信息和指稱項(xiàng)所在文本進(jìn)行拼接,拼接結(jié)果如下所示:
這種輸入形式使得實(shí)體指稱項(xiàng)和候選實(shí)體的信息通過(guò)編碼器得到更深層次的交互,更好地捕捉到實(shí)體指稱項(xiàng)和實(shí)體之間的語(yǔ)義信息和句法特征,從而能夠更好地完成鏈接的任務(wù)。
此后,研究將輸入送進(jìn)Bert 編碼器得到每個(gè)詞向量的編碼,再取其中第一位的輸出送入一個(gè)線性層,最終得到一個(gè)標(biāo)量、即候選實(shí)體與實(shí)體指稱項(xiàng)的相關(guān)性分?jǐn)?shù),具體計(jì)算見(jiàn)公式(4):
其中,T是實(shí)體指稱項(xiàng)與實(shí)體拼接后的輸入;(·)是將輸入進(jìn)行編碼的編碼器;(·)是只保留第一位編碼的函數(shù);(·)是將一維向量轉(zhuǎn)變?yōu)闃?biāo)量的線性層。
為了通盤考慮全部的候選實(shí)體,將全部候選實(shí)體的相關(guān)性分?jǐn)?shù)輸入到一個(gè)層,并取得分最高的候選實(shí)體作為實(shí)體指稱項(xiàng)應(yīng)該鏈接的實(shí)體。計(jì)算公式如下所示:
其中,e表示第個(gè)候選實(shí)體。
ColBert-EL 模型的訓(xùn)練過(guò)程如下:模型的輸入是三元組,e,,這里是實(shí)體指稱項(xiàng)及其上下文,e是實(shí)體指稱項(xiàng)的正例實(shí)體,是實(shí)體指稱項(xiàng)的負(fù)例實(shí)體。正例實(shí)體是由數(shù)據(jù)集給定的,而負(fù)例實(shí)體是通過(guò)TF-IDF 技術(shù)計(jì)算得到的,是和正確實(shí)體的摘要最相似的7 個(gè)實(shí)體摘要。ColBert-EL 模型是一個(gè)二分類任務(wù),模型參數(shù)是通過(guò)二元交叉熵?fù)p失函數(shù)來(lái)進(jìn)行優(yōu)化的。
MRC 模型的訓(xùn)練過(guò)程如下:構(gòu)建了2 種不同的訓(xùn)練集來(lái)訓(xùn)練MRC 模型。第一種是通過(guò)用ColBert-EL模型生成的候選實(shí)體來(lái)訓(xùn)練MRC,第二種是通過(guò)用TF-IDF 技術(shù)生成的候選實(shí)體來(lái)訓(xùn)練MRC。在對(duì)MRC 進(jìn)行訓(xùn)練時(shí),如果數(shù)據(jù)中實(shí)體指稱項(xiàng)的正確實(shí)體不包含于候選實(shí)體集合中,則將丟棄這條數(shù)據(jù)。由于利用TF-IDF 技術(shù)生成的候選實(shí)體集合中實(shí)體指稱項(xiàng)的候選實(shí)體個(gè)數(shù)并不總是相同的,就可將候選實(shí)體個(gè)數(shù)相同的實(shí)體指稱項(xiàng)數(shù)據(jù)放到一個(gè)批次中,用于對(duì)MRC 模型的訓(xùn)練。本文構(gòu)建模型的參數(shù)是通過(guò)交叉熵?fù)p失函數(shù)來(lái)優(yōu)化的,其中負(fù)例是候選實(shí)體集合中的所有非正例實(shí)體。
ColBert-EL 模型采用后期交互的方式,對(duì)每個(gè)可能的實(shí)體進(jìn)行詳盡的評(píng)估是極其消耗計(jì)算資源的。由于文中只關(guān)注其中分?jǐn)?shù)較高的部分實(shí)體,為了加快檢索效率,先通過(guò)一個(gè)粗粒度的匹配算法快速?gòu)恼麄€(gè)實(shí)體集合的離線索引中找到Top個(gè)相似實(shí)體,再使用ColBert-EL 算法對(duì)這些實(shí)體進(jìn)行相似度計(jì)算。
本文實(shí)驗(yàn)中使用的數(shù)據(jù)集是ZESHEL,這是由文獻(xiàn)[6]在提出零樣本實(shí)體鏈接任務(wù)時(shí)從維基百科文檔中創(chuàng)建的。數(shù)據(jù)集一共劃分了16 個(gè)領(lǐng)域,每個(gè)領(lǐng)域內(nèi)的實(shí)體數(shù)量范圍從10 k 到100 k 不等。訓(xùn)練集、驗(yàn)證集、測(cè)試集分別擁有8、4、4 個(gè)不同的領(lǐng)域,包含的實(shí)體指稱項(xiàng)個(gè)數(shù)分別是49 k、10 k、10 k。研究中選用Bert-base作為ColBert-EL 模型和MRC模型的基礎(chǔ)編碼器,選用AdamW作為優(yōu)化器。
本文的方法主要是評(píng)估零樣本實(shí)體鏈接系統(tǒng)的鏈接性能。研究時(shí)分別評(píng)估了兩階段模型的表現(xiàn)并與目前最優(yōu)的方案做比較。在候選實(shí)體生成階段,與文獻(xiàn)[6]提出的BM25 模型和文獻(xiàn)[7]提出的Biencoder 模型進(jìn)行比較;在候選實(shí)體排序階段,又與文獻(xiàn)[7]中的Cross-encoder 模型進(jìn)行了比較。
模型預(yù)測(cè)的結(jié)果最終會(huì)被歸為以下4 類:為將正類預(yù)測(cè)為正類數(shù);為將負(fù)類預(yù)測(cè)為負(fù)類數(shù);為將負(fù)類預(yù)測(cè)為正類數(shù);為將正類預(yù)測(cè)為負(fù)類數(shù)。
對(duì)候選實(shí)體生成模型評(píng)估的指標(biāo)為召回率(),該值可由如下計(jì)算公式求得:
對(duì)候選實(shí)體排序模型評(píng)估的指標(biāo)為和。的計(jì)算公式可寫為:
是對(duì)候選實(shí)體集合中包含正確實(shí)體的測(cè)試集中的樣例在實(shí)體鏈接系統(tǒng)上的表現(xiàn),即評(píng)估時(shí)不考慮那些候選實(shí)體集合中不包含正確實(shí)體的測(cè)試集實(shí)體指稱項(xiàng)數(shù)據(jù)。而是指實(shí)體鏈接系統(tǒng)在所有測(cè)試集上的表現(xiàn)。
ColBert-EL 模型在訓(xùn)練集上訓(xùn)練之后,挑選在驗(yàn)證集上表現(xiàn)最好的模型用來(lái)對(duì)測(cè)試集數(shù)據(jù)進(jìn)行測(cè)試。在候選實(shí)體的選取中,基線選擇將實(shí)體輸入的位編碼與實(shí)體指稱項(xiàng)輸入的位編碼做點(diǎn)積以獲取兩者之間的相似度。與之相比,研究中充分利用了實(shí)體指稱項(xiàng)和實(shí)體輸入的每一位詞向量的編碼表示,計(jì)算了每一個(gè)可能的實(shí)體與實(shí)體指稱項(xiàng)之間的相關(guān)性。同時(shí),復(fù)現(xiàn)了基線的模型,并得到了基線模型在測(cè)試集4 個(gè)領(lǐng)域的表現(xiàn)。實(shí)驗(yàn)證明,本文提出的模型精度優(yōu)于基線,測(cè)試集總體表現(xiàn)詳見(jiàn)表1,各個(gè)領(lǐng)域表現(xiàn)詳見(jiàn)表2。
表1 訓(xùn)練集/測(cè)試集前64 位召回率Tab.1 Recall@64 on train/test set %
表2 測(cè)試集各領(lǐng)域前64 位的召回率Tab.2 Recall@64 on each domain within test set %
在用ColBert-EL 模型為每個(gè)實(shí)體指稱項(xiàng)評(píng)估完前個(gè)實(shí)體、并得到64 個(gè)候選實(shí)體后,就在這些候選實(shí)體上訓(xùn)練了MRC 模型,且在測(cè)試集上對(duì)MRC 模型進(jìn)行了測(cè)試,結(jié)果見(jiàn)表3。由表3 可知,本文研究在端到端的精度上超越了基線的精度。
表3 MRC 模型非標(biāo)準(zhǔn)化精度Tab.3 The Unnormalized Accuracy of MRC model
為了進(jìn)一步驗(yàn)證MRC 模型的有效性,研究又在文獻(xiàn)[7]提供的候選實(shí)體集上對(duì)MRC 進(jìn)行了訓(xùn)練。由于在用TF-IDF 技術(shù)為實(shí)體指稱項(xiàng)生成實(shí)體的時(shí)候,每個(gè)實(shí)體指稱項(xiàng)的候選實(shí)體個(gè)數(shù)不總是一致的,因此本文將候選實(shí)體個(gè)數(shù)相同的數(shù)據(jù)放到同一批次中進(jìn)行訓(xùn)練。具體的分?jǐn)?shù)見(jiàn)表4。
表4 MRC 模型標(biāo)準(zhǔn)化精度Tab.4 The Normalized Accuracy of MRC model
本文提出了一種基于ColBert-EL 和MRC 模型的零樣本實(shí)體鏈接方法。在候選實(shí)體生成階段,為了加快檢索效率,研究中先通過(guò)一個(gè)粗粒度的匹配算法快速?gòu)恼麄€(gè)實(shí)體集合的離線索引中找到Top個(gè)相似實(shí)體,再使用ColBert-EL 算法對(duì)這些實(shí)體進(jìn)行相似度計(jì)算。在候選實(shí)體排序階段,則考慮了全部的候選實(shí)體,將其建模成一個(gè)多項(xiàng)選擇問(wèn)題,提出了一個(gè)基于機(jī)器閱讀理解的模型來(lái)對(duì)結(jié)果進(jìn)行統(tǒng)一排序。本次研究中在零樣本實(shí)體鏈接數(shù)據(jù)集ZESHEL 上分別對(duì)候選實(shí)體生成和候選實(shí)體排序兩階段的效果進(jìn)行評(píng)估,實(shí)驗(yàn)結(jié)果驗(yàn)證了本文提出方法的有效性。