李茂林
?
基于主題敏感的重啟隨機游走實體鏈接方法
李茂林
北京郵電大學智能科學與技術中心, 北京100876; E-mail: mlli@bupt.edu.cn
實體鏈接任務的目的是將文本中的實體指稱鏈接到知識庫中與之對應的無歧義實體。針對此任務, 提出一種基于主題敏感的重啟隨機游走的實體鏈接方法。該方法首先使用實體指稱的背景文本信息將實體指稱擴充為全稱, 并在維基百科知識庫中搜索候選實體, 得到候選實體集合; 根據(jù)上述中間結果構建圖, 利用在圖上的主題敏感重啟隨機游走得到的平穩(wěn)分布對候選實體集合進行排序, 選出top 1的候選實體作為目標實體。實驗結果表明, 該方法在KBP2014實體鏈接數(shù)據(jù)集上實驗的值為0.623, 高于其他系統(tǒng)實驗的值, 能夠有效提高實體鏈接系統(tǒng)的整體性能。
實體鏈接; 隨機游走; 維基百科
實體鏈接(entity linking)是將文本中的實體指稱鏈接到知識庫中一個無歧義實體的過程。隨著信息技術的發(fā)展, 網(wǎng)絡上產(chǎn)生了大量的非結構化文本數(shù)據(jù), 使用實體鏈接技術有利于從這些大量的非結構化文本中挖掘有價值的信息, 對于計算機理解文本的真實含義有重要影響。此外, 實體鏈接技術也有利于共指消解、文本分類、用戶興趣發(fā)現(xiàn)以及推薦系統(tǒng)等方面的研究[1]。
通過分析KBP2014實體鏈接數(shù)據(jù)集以及維基百科知識庫, 發(fā)現(xiàn)目前實體鏈接面臨的兩個主要問題。1)在網(wǎng)絡中產(chǎn)生的大量非結構化文本中廣泛存在實體多樣性和歧義性現(xiàn)象[2]。實體多樣性指一個實體可以用多個名稱表示, 實體歧義性指一個名稱可以代表多個實體。2)在實體鏈接的候選實體排序過程中, 前人沒有考慮實體指稱和所對應背景文本的主題傾向。例如, 當實體指稱為“Apple”時, 沒有考慮實體指稱本身是更傾向于水果“Apple”還是科技領域的“Apple”公司及相關產(chǎn)品。
本文通過分析目前實體鏈接面臨的主要問題以及前人工作的缺陷, 提出下列方法: 1)利用LDA (latent dirichlet allocation)主題模型, 生成一個實體名稱多樣性詞表, 利用此詞表更好地適應實體歧義性現(xiàn)象, 通過將其整合到候選實體生成模塊, 提高實體鏈接系統(tǒng)的整體性能; 2)在前人工作的基礎上, 對圖的構建方法進行改進, 使其適應實體的多樣性現(xiàn)象, 并提出一種基于主題敏感的重啟隨機游走實體鏈接方法, 使最終得到的候選實體集合的排序結果更加準確。
1 相關工作
1.1 實體鏈接
目前, 已提出多種解決實體鏈接的方法, 主要分為單一實體鏈接和協(xié)同實體鏈接兩種類型。
單一實體鏈接方法在進行實體鏈接時, 僅考慮當前正在處理的實體指稱與候選實體之間是否存在對應關系。Mihalcea等[3]提出一種基于詞袋(bag of words)模型的實體鏈接方法, 將實體指稱的背景文本以及候選實體對應的文本轉(zhuǎn)換為詞袋向量, 然后計算兩者的余弦相似度, 最終選擇相似度最高的實體作為目標實體。Cucerzan[4]使用維基百科中的分類目錄信息對詞袋模型進行增強。Dredze等[5]和Zheng等[6]通過學習排序算法進行實體鏈接, 考慮了候選實體之間的相對位置。Pink等[7]通過對與實體相關的局部文本信息進行建模, 并使用有監(jiān)督機器學習方法對命名實體進行鏈接。Dalton等[8]提出一種鄰近相關性推理數(shù)學模型進行實體鏈接。
單一實體鏈接方法在實體鏈接過程中每次只考慮當前正在處理的實體指稱本身, 并沒有考慮與背景文本中其他實體指稱之間的語義關系。協(xié)同實體鏈接方法通過建立全局語義的約束, 考慮了當前處理的文本中所有實體指稱之間的語義關系。Alhelbawy等[9]利用背景文本中所有實體指稱的候選實體構造圖, 并使用PageRank算法計算每個候選實體的權重, 最終選擇權重最高的實體作為最佳目標實體, 但在構造圖時只簡單地根據(jù)節(jié)點的出度將轉(zhuǎn)移概率平均分配。Han等[10]對節(jié)點之間的轉(zhuǎn)移概率計算方法進行優(yōu)化, 并構造了一種指示圖, 通過基于指示圖的集體推理數(shù)學模型推斷出最佳的目標實體。但是, 他們的方法在計算候選實體之間的語義相關度時會出現(xiàn)負值, 所以得出的語義相關度并不準確, 并且構造的指示圖會出現(xiàn)不為強連通圖的情況, 不能保證最終得到的平穩(wěn)分布是合理的, 會影響最終候選實體排序的準確性。
1.2 隨機游走
隨機游走(random walk)是一種數(shù)學統(tǒng)計模型, 最早由Pearson[11]提出。隨機游走由一連串的軌跡組成, 每一步的運動都是隨機的, 這種隨機過程可用馬爾科夫鏈表示, 從一個點移動到另一個點的轉(zhuǎn)移概率與時間無關。重啟隨機游走(random walk with restart)模型由Grady[12]提出, 最早用于圖像分割。重啟隨機游走是一種特殊類型的隨機游走, 當將要進行下一步移動時有兩種選擇: 一種是以一定概率根據(jù)狀態(tài)轉(zhuǎn)移矩陣隨機地選擇下一個狀態(tài), 另一種是以一定的概率選擇任意點開始隨機游走。
PageRank算法是由Page等[13]提出的一種基于隨機游走的鏈接分析方法, 用來衡量網(wǎng)頁的重要性。然而PageRank算法忽略了輸入查詢詞的主題傾向信息。為了解決此問題, Haveliwala[14]提出主題敏感的PageRank算法, 通過預定義幾個主題類別, 在用戶進行查詢時確定其主題傾向, 根據(jù)此主題傾向給出更合理的網(wǎng)頁重要性排序結果。
本文參考了主題敏感的PageRank算法思想, 并將其運用到實體鏈接中。
2 基于主題敏感的重啟隨機游走實體鏈接
基于主題敏感的重啟隨機游走實體鏈接方法主要包括預處理、實體指稱擴充、候選實體生成、候選實體排序和實體聚類5個部分, 該方法流程如圖1所示。
2.1 預處理
預處理包括命名實體識別、基于維基百科的資源獲取、LDA主題模型的建立、實體名稱多樣性詞表的生成以及維基百科知識庫文本聚類。
2.1.1 命名實體識別
本文重點關注文本中的人名(Person)、地名(Location)以及組織機構名(Organization) 3種類型的命名實體。通過使用Stanford NER工具①對實體指稱的背景文本以及維基百科中實體的背景文本進行命名實體識別, 并將其中的每個命名實體預處理為一個單詞, 目的在于, 一方面可以為此命名實體計算其在語料中的TF-IDF權重, 另一方面為實體名稱多樣性詞表的生成做準備。
2.1.2 基于維基百科的資源獲取
在維基百科知識庫中包含大量的實體及其對應的背景文本, 從中可以挖掘出同一實體的簡稱、別名等其他表現(xiàn)形式, 為候選實體生成步驟提供幫助。本文借鑒譚詠梅等[2]對維基百科的資源獲取方法,從頁面標題、重定向信息、錨文本以及消歧頁面中獲取資源,并對其進行補充和完善,通過解析維基百科知識庫中的“fullname”與“nickname”字段得到實體的全名和昵稱形式的實體指稱。
2.1.3 LDA主題模型的建立
LDA主題模型用于實體名稱多樣性詞表的生成以及維基百科知識庫文本聚類。在命名實體識別預處理的基礎上, 去除停用詞和低頻詞, 針對維基百科知識庫中的所有實體的背景文本, 通過gensim工具①計算文本中每一個單詞的TF-IDF權重, 并建立LDA主題模型。
2.1.4 實體名稱多樣性詞表的生成
實體名稱多樣性詞表中存放了每個實體可能對應的多種實體指稱。將實體名稱多樣性詞表與基于維基百科獲取的資源相結合, 有利于解決實體鏈接中的實體歧義性問題, 以提高實體鏈接系統(tǒng)的整體性能。
Bradford[15]提出一種基于LSA (latent semantic analysis)的實體名稱多樣性詞典構建方法, 通過使用LSA模型中的單詞向量之間的相似度計算和比較來提取每個實體不同的實體指稱表示形式。本文首先通過命名實體識別, 將命名實體預處理為一個單詞, 然后將LSA模型改用LDA主題模型生成單詞向量, 并對Bradford工作中的參數(shù)進行調(diào)整, 最終生成實體名稱多樣性詞表。
2.1.5 維基百科知識庫文本聚類
維基百科知識庫文本聚類用于為維基百科知識庫中的每一個實體對應的背景文本分配簇標簽, 表示此文本的主題傾向。由于主題敏感的重啟隨機游走模型需要預先對維基百科知識庫中的所有實體對應的背景文本進行文本分類, 若此分類任務由人工完成會耗費大量的時間, 因此本文通過使用LDA主題模型, 將實體對應的背景文本轉(zhuǎn)換為文檔向量, 然后使用Mini-Batch K-Means聚類算法[16], 對所有文檔向量進行聚類, 最終為每一篇文本分配簇標簽。
由于維基百科知識庫中實體數(shù)量龐大, 與K-Means算法相比, Mini-Batch K-Means算法的聚類效率更高, 因此選擇此聚類算法。
2.2 實體指稱擴充
背景文本中的實體指稱往往具有很大的歧義性, 例如在文本中出現(xiàn)“J.D.”和“J. D. Collins”兩個實體指稱, 兩者表示同一個實體, 若將“J.D.”擴充為“J. D. Collins”, 則會減少實體指稱的“J.D.”歧義性, 可以取得更好的實體鏈接效果。
對實體指稱進行擴充會減少實體指稱的歧義性, 主要針對首字母縮寫詞、簡寫形式的實體指稱進行擴充。1)首字母縮寫詞: 如果一個實體指稱中的所有字母均為大寫, 則將其作為首字母縮寫詞, 通過在文本中搜索是否含有首字母大寫匹配的字符串來進行擴充。2)簡寫形式: 若文本中存在“l(fā)ong (short)”或“short(long)”形式的字符串, 則通過判斷括號內(nèi)外字符串的長度大小來對實體指稱進行擴充。3)其他: 若上述過程都無法對當前實體指稱進行擴充, 則通過搜索文本的命名實體識別結果來進行擴充。例如, 若文本中出現(xiàn)實體指稱“Lichnowy”, 且命名實體識別結果中存在類型為Organization的命名實體“Gmina Lichnowy”, 則將“Lichnowy”擴充為“Gmina Lichnowy”。
2.3 候選實體生成
候選實體生成是為背景文本中的每一個實體指稱在知識庫中找到其可能代表的候選實體集合。此步驟會將實體指稱的擴充形式與基于維基百科獲取的資源進行字符串匹配。若實體指稱擴充形式與資源中的某一指稱形式完全匹配, 則將此指稱形式對應的實體作為候選實體。如果無法在維基百科知識庫的資源中找到候選實體, 則在實體名稱多樣性詞表中選擇與此實體指稱相似度最高的指稱作為其變體名稱, 再次在資源中查找候選實體。
由于維基百科知識庫中收錄的實體數(shù)量有限, 可能無法為所有的實體指稱找到候選實體, 此時將滿足此條件的實體指稱定義為無指代實體指稱, 以NIL表示, 并將其加入NIL集合中, 以便在后續(xù)的步驟中對其中所有的無指代實體指稱進行聚類, 將表示同一種實體的實體指稱聚為一簇。
2.4 候選實體排序
候選實體排序包括實體指稱與候選實體之間局部相關度的計算、候選實體之間語義相關度的計算以及主題敏感的重啟隨機游走實體排序3個關鍵步驟。本文參考Han等[10]的工作, 針對其方法中的不足進行改進, 提出一種基于主題敏感的重啟隨機游走實體鏈接方法, 以提升實體鏈接系統(tǒng)的性能。
主題敏感的重啟隨機游走實體鏈接主要利用實體指稱與候選實體之間的局部相關度以及候選實體之間的語義相關度構建圖并計算狀態(tài)轉(zhuǎn)移概率矩陣, 通過使用實體指稱以及候選實體的主題傾向(即所屬的簇標簽)設置隨機游走中的重啟節(jié)點, 計算最終的平穩(wěn)分布, 最終根據(jù)每一項的值對候選實體進行排序, 選取top 1作為最佳的目標實體。
本文所用符號的說明:表示一個實體指稱,表示維基百科知識庫中的一個無歧義實體,表示實體指稱或候選實體對應的簇中心,表示由所有簇中心組成的集合,()表示實體指稱的候選實體集合, 粗體小寫字母表示向量,=(,)表示以節(jié)點的集合以及邊的集合構成的圖,表示轉(zhuǎn)移概率矩陣,表示初始分布向量,表示隨機游走過程中的分布向量。
2.4.1 實體指稱與候選實體之間局部相關度
實體指稱與候選實體之間的局部相關度是每一個實體指稱對應的背景文本與候選實體對應的背景文本之間的相似度。以一定窗口大小取實體指稱的周圍單詞作為背景文本, 計算每一個單詞的TF-IDF權重, 并將其轉(zhuǎn)換為詞袋模型向量。同理, 將候選實體在維基百科知識庫中背景文本轉(zhuǎn)換為向量表示, 實體指稱與候選實體之間的局部相關度(CP)計算方法如式(1)所示:
2.4.2 候選實體之間語義相關度
局部相關性的計算只考慮每個實體指稱單獨與候選實體之間的相關度。為了彌補此缺陷, 需要進行候選實體之間的語義相關度計算。對于候選實體集合中候選實體與, 若與之間的相關度越大, 則其語義相關度的值越大。前人提出一些語義相關度計算方法, 其中Han等[10]和Milne等[17]使用如下語義相關度計算公式(SR):
2.4.3 隨機游走候選實體排序
隨機游走候選實體排序主要包括圖的構建以及主題敏感的重啟隨機游走候選實體排序兩部分。
在前面工作的基礎上, 本文構建權重有向強連通圖=(,), 其中包含文本中所有的實體指稱和候選實體作為節(jié)點,包含實體指稱與候選實體的局部相關度以及候選實體之間的語義相關度信息, 最終構建的圖如圖2所示。
圖2 圖結構
圖2中共有3種邊, 分別為實體指稱指向候選實體的邊、候選實體之間互相指向的邊以及候選實體指向?qū)嶓w指稱的邊。這3種邊的轉(zhuǎn)移概率計算公式分別為
由式(5)~(7)可以計算上的轉(zhuǎn)移概率矩陣。
上的隨機游走初始分布為||×1的向量, 其值由兩部分組成, 分別為實體指稱與候選實體的初始值, 其中實體指稱的初始值的計算如式(8)所示:
為了確定圖中每個實體指稱的主題傾向, 將實體指稱對應的背景文本根據(jù)LDA主題模型轉(zhuǎn)換為向量表示, 然后使用KNN (K-NearestNeighbor)算法分別計算其與每一個簇中心之間的距離, 選取距離最小的簇中心所對應的簇標簽作為實體指稱的簇標簽, 表示其主題傾向, 如式(9)所示:
其中.表示實體指稱主題傾向?qū)拇刂行?表示計算兩個簇中心與之間的歐氏距離。
為了使整個隨機游走過程對實體指稱主題傾向敏感, 當確定實體指稱的簇中心后, 僅對中與實體指稱具有相同簇中心即主題傾向的候選實體的值進行初始化, 其他候選實體的初始值設置為0, 如式(10)所示:
當向量的值初始化完成后, 通過標準化處理, 使得向量中所有項相加和為1, 以保證向量為正確的狀態(tài)初始分布向量。
式(11)和(12)為重啟隨機游走的過程:
對于一個實體指稱, 求得其最佳目標實體, 如式(14)所示:
2.5 實體聚類
通過實體聚類, 可以將NIL集合中表示同一種實體的實體指稱聚為一簇。本文使用規(guī)則和DBSCAN聚類[19]相結合的算法對實體指稱進行聚類, 即先通過嚴格的規(guī)則對NIL集合中的實體指稱進行粗粒度聚類, 再通過聚類算法進行精確聚類。
利用上述規(guī)則對NIL集合中的實體指稱進行粗粒度劃分之后, 使用DBSCAN聚類算法對每一個簇內(nèi)部進行進一步劃分。使用LDA主題模型將每個實體指稱對應的背景文本轉(zhuǎn)換為向量表示, 然后使用DBSCAN聚類算法進行聚類, 得到最終結果。
3 實驗
3.1 實驗數(shù)據(jù)
本文在實體鏈接中使用的維基百科知識庫為2009年10月份版本, 總計81萬余條實體條目, 由KBP官方提供。實驗部分使用KBP的2014年實體鏈接官方評測數(shù)據(jù)集, 總共包含5234條實體指稱, 其中在知識庫中可以找到其目標實體的有2817條, 在知識庫中沒有其對應的目標實體的有2417條。在所有實體指稱中, 1575條來源于新聞文本, 1743條來源于網(wǎng)絡文本, 1916條來源于論壇。
此外, 為了進行更全面的對比, 本文也使用了Alhelbawy等[9]以及Han等[10]的數(shù)據(jù)集, 分別為AIDA數(shù)據(jù)集①和IITB數(shù)據(jù)集②。
3.2 評價方法
使用標準的Wikification評價方法對實體鏈接的性能進行評價, 準確率、召回率和值計算方法如式(15)~(17)所示:
其中, DPexpected表示實體鏈接系統(tǒng)的輸出結果, DPactual表示官方提供的標準答案。
對于實體聚類部分使用CEAF方法計算其準確率、召回率和值[20]。
3.3 實驗結果及分析
為驗證本文方法的有效性, 重現(xiàn)了Alhelbawy等[9]和Han等[10]的實驗方法, 其中對于待鏈接文本的預處理以及實體指稱的擴充采用相同的處理方法, 將本文實驗結果與其對比, 如表1所示。
表1 不同實體鏈接系統(tǒng)在不同數(shù)據(jù)集上的實現(xiàn)結果
由表1得出, 本文提出的基于主題敏感的重啟隨機游走實體鏈接方法優(yōu)于其他兩種方法。由于AIDA數(shù)據(jù)集和IITB數(shù)據(jù)集中不存在實體的聚類信息, 因此沒有對聚類部分的性能進行比較。
Alhelbawy等[9]提出的基于PageRank的實體鏈接算法在計算狀態(tài)轉(zhuǎn)移概率矩陣時, 只是將轉(zhuǎn)移概率簡單地根據(jù)圖中節(jié)點的出度平均分配, 并且圖中僅包含候選實體節(jié)點, 不包含實體指稱節(jié)點。Han等[10]的方法雖然對上述問題有所改進, 但是在計算候選實體之間的相關度以及圖的構建過程中存在不足。表1的實驗結果對比說明, 本文通過改進候選實體之間的相關度計算方法, 完善了圖的構建過程, 并且通過確定隨機游走過程中的重啟節(jié)點以及計算在每個重啟節(jié)點進行重啟的概率, 提升了整個實體鏈接系統(tǒng)的性能, 證明此方法可行有效。
為了證明本文構建的實體名稱多樣性詞表的作用, 進行使用與不使用詞表的對比實驗, 如表2所示??梢钥闯? 基于LDA主題模型構建的實體名稱多樣性詞表在一定程度上發(fā)揮了積極作用。
表2 是否使用詞表的實驗結果對比
本文通過對比實驗, 驗證了主題敏感對整個實體鏈接系統(tǒng)的積極影響。通過在隨機游走過程中設置每個候選實體均為重啟節(jié)點, 將主題不敏感與主題敏感的方法進行對比, 如表3所示。結果表明, 基于主題敏感的重啟隨機游走包含實體指稱的主題傾向信息, 并且通過利用隨機游走重啟節(jié)點來增強此主題傾向信息, 有利于提升整個實體鏈接系統(tǒng)的性能。
表3 是否使用主題信息的實驗結果對比
4 結束語
為了解決實體鏈接問題, 本文提出一種基于主題敏感的重啟隨機游走實體鏈接方法。為了驗證方法的有效性, 在公開的數(shù)據(jù)集上進行實驗, 并與前人工作進行對比, 實驗結果證明了本文方法的有效性。本文方法仍有一些不足之處。例如, 對于同一篇文本中的表面字符串相同的兩個實體指稱和, 若其表示的并非同一個實體, 本文方法還不能處理這種情況。由于部分實體指稱的候選實體數(shù)量龐大, 整個實體鏈接系統(tǒng)的運行效率(在不影響性能的情況下)有待提高。
[1]Roth D, Ji H, Chang M W, et al. Wikification and beyond: the challenges of entity and concept groun-ding // ACL 2014. Gaithersburg, MD, 2014: 7-18
[2]譚詠梅, 楊雪. 結合實體鏈接與實體聚類的命名實體消歧. 北京郵電大學學報, 2014, 37(5): 36–40
[3]Mihalcea R, Csomai A. Wikify!: Linking documents to encyclopedic knowledge. UNT Scholarly Works, 2007, 23(5): 233–242
[4]Cucerzan S. Large-scale named entity disambiguation based on Wikipedia data // Proc Joint Conference on Emnlp & Cnll. Prague, 2007: 708–716
[5]Dredze M, Mcnamee P, Rao D, et al. Entity disambiguation for knowledge base population // International Conference on Computational Linguis-tics. Beijing, 2010: 277–285
[6]Zheng Z, Li F, Huang M, et al. Learning to link entities with knowledge base // Proceedings of the Annual Conference of the North American Chapter of the Acl. Los Angeles, 2010: 483–491
[7]Pink G, Radford W, Cannings W, et al. Sydney CMCRC at TAC 2013 // Text Analysis Conference. Gaithersburg, MD, 2013: 1–6
[8]Dalton J, Dietz L. A neighborhood relevance model for entity linking // Open Research Areas in Infor-mation Retrieval. Lisbon, 2013: 149–156
[9]Alhelbawy A, Gaizauskas R. Graph ranking for collective named entity disambiguation // The 52nd Annual Meeting of the Association for Computational Linguistics (ACL2014). Gaithersburg, MD, 2014: 75–80
[10]Han X, Sun L, Zhao J. Collective entity linking in web text: a graph-based method // Proceedings of International Conference on Research & Development in Information Retrieval. Beijing, 2011: 765–774
[11]Pearson K. The problem of the random walk. Nature, 1905, 268: 2113–2122
[12]Grady L. Random walks for image segmentation. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2006, 28(11): 1768–1783
[13]Page L, Brin S, Motwani R, et al. The PageRank citation ranking: bringing order to the Web. Stanford Infolab, 1999, 9(1): 1–14
[14]Haveliwala T H. Topic-sensitive pagerank: a context-sensitive ranking algorithm for web search. IEEE Transactions on Knowledge & Data Engineering, 2003, 15(4): 784–796
[15]Bradford R B. Use of latent semantic indexing to identify name variants in large data collections // Intelligence and Security Informatics (ISI), 2013 IEEE International Conference on. Seattle, WA: IEEE, 2013: 27–32
[16]Sculley D. Web-scale k-means clustering // Procee-dings of International Conference on World Wide Web. Raleigh, NC, 2010, 219: 1177–1178
[17]Milne D, Witten I H. Learning to link with wikipedia. Proceeding of ACM Conference on Information & Knowledge Management Norvig Peter Innovation in Search & Artificial Intelligence, 2008, 57(3): 509–518
[18]Cilibrasi R L, Vitanyi P M B. The Google Similarity Distance. Knowledge & Data Engineering IEEE Transactions on, 2007, 19(3): 370–383
[19]Ester M, Kriegel H P, Sander J, et al. A density-based algorithm for discovering clusters in large spatial databases with noise // Proceedings of International Conference on Knowledge Discovery & Data Mining. Portland, OR, 1996: 226–231
[20]Luo X. On Coreference resolution performance metrics // Proceedings of the conference on Human Language Technology and Empirical Methods in Natural Language Processing. Sydney: Association for Computational Linguistics, 2005: 25–32
An Entity Linking Approach Based on Topic-Sensitive Random Walk with Restart
LI Maolin
Center for Intelligence Science and Technology, Beijing University of Posts and Telecommunications, Beijing 100876;E-mail: mlli@bupt.edu.cn
Entity linking is the process of linking name mentions in text with their referent entities in a knowledge base. This paper tackles this task by proposing an approach based on topic-sensitive random walk with restart. Firstly, the context information of mentions is used to expand mentions and search the candidate entities in Wikipedia knowledge base for mentions. Secondly, graph can be constructed in accordance with the intermediate result in the pre step. Finally, the topic-sensitive random walk with restart model is used to rank the candidate entities and choose the top 1 as the linked entity. Experimental results show that proposed approach on KBP2014 data set getsscore 0.623 which is higher than every other systems’ mentioned in this paper. The proposed approach can improve the entity linking system’s performance.
entity linking; random walk; Wikipedia
10.13209/j.0479-8023.2016.003
TP391
2015-06-07;
2015-08-28; 網(wǎng)絡出版日期: 2015-09-29
① http://nlp.stanford.edu/software/CRF-NER.shtml
①http://radimrehurek.com/gensim/
① http://www.mpi-inf.mpg.de/yago-naga/aida/
② http://www.cse.iitb.ac.in/~soumen/doc/CSAW/