国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于特征加權(quán)重疊度的中文實體協(xié)同消歧方法

2017-06-01 11:29線巖團余正濤洪旭東郭劍毅
中文信息學報 2017年2期
關(guān)鍵詞:知識庫命名聚類

線巖團,余正濤,洪旭東,張 磊,郭劍毅

(昆明理工大學 信息工程與自動化學院,云南 昆明 650500)

基于特征加權(quán)重疊度的中文實體協(xié)同消歧方法

線巖團,余正濤,洪旭東,張 磊,郭劍毅

(昆明理工大學 信息工程與自動化學院,云南 昆明 650500)

該文針對中文實體消歧中的特征項部分匹配和協(xié)同消歧問題,提出基于特征加權(quán)重疊度的中文實體協(xié)同消歧方法。該方法利用實體指稱上下文中多種特征的加權(quán)重疊度計算實體指稱相似度,針對實體鏈接與消歧聚類約束,分類定義實體指稱相似度計算方法,構(gòu)建待消歧實體相似度矩陣,采用近鄰傳播聚類算法實現(xiàn)中文實體協(xié)同鏈接與消歧。基于CLP-2012評測數(shù)據(jù)的實驗表明,提出的方法取得了較好的消歧效果,準確率、召回率和F值分別達到了84.01%、87.75%和85.65%。

實體消歧;實體鏈接;加權(quán)重疊度;近鄰傳播聚類

1 引言

命名實體識別與消歧是自然語言處理的重要研究點,其主要任務(wù)是發(fā)現(xiàn)文本中的命名實體,并將實體指稱關(guān)聯(lián)到已有真實實體。命名實體識別與消歧已成為知識庫構(gòu)建、信息抽取、機器翻譯,以及話題發(fā)現(xiàn)與追蹤等研究領(lǐng)域的重要支撐技術(shù)[1]。

命名實體普遍存在重名和歧義現(xiàn)象,即同一實體指稱在不同上下文中可對應(yīng)不同的實體,例如,“高峰”一詞可表示普通的名詞,也可能表示不同的人名、機構(gòu)名,或是地名。針對命名實體消歧已有許多相關(guān)的研究,在英文評測方面主要有TAC KBP的Entity Linking 評測[2-3]和WePS(Web People Search)評測[4],以及針對中文的CLP-2012漢語命名實體識別與歧義消解[5]和NLP &CC中文微博實體鏈接評測。

實體消歧可利用的知識主要有兩類,一是實體指稱的上下文信息,如實體指稱周圍的詞語、實體等;二是外部知識庫,如Wikipedia、百度百科、DBpedia[6]和Freebase[7]等。實體消歧方法的核心是計算實體指稱和目標實體之間的相似度,并根據(jù)實體相似度實現(xiàn)消歧和鏈接。主要方法有: 基于文本向量空間的聚類方法、基于分類的方法和基于圖的實體消歧方法?;谖谋鞠蛄靠臻g的聚類方法通過實體指稱的上下文信息構(gòu)建文本向量,計算文本向量間的距離,最后利用該距離進行聚類,確定實體指稱對應(yīng)的實體概念[8-11]。該類方法在計算相似度時,通常不考慮特征項部分匹配的問題,對相似度計算造成了不利的影響?;诜诸惖姆椒ɡ蒙舷挛奶卣鳂?gòu)建分類器,將待消歧實體鏈接到知識庫[12-14]。該方法存在的主要問題是分類的確定和待消歧的數(shù)據(jù)緊密相關(guān),難以構(gòu)建通用的分類模型適應(yīng)不同的消歧問題。Peng等人提出了結(jié)合分類和聚類算法的實體鏈接消歧方法[15]。該方法利用分類算法將待消歧實體劃分為知識庫實體、未知實體和普通詞三類,然后,選取命名實體、職業(yè)和名詞等特征構(gòu)建特征向量,計算特征向量余弦相似度,采用分類方法完成實體鏈接,最后,利用合成聚類(Agglomerative Hierarchical Clustering,AHC)方法完成未知實體消歧,取得了較好的效果?;趫D的實體消歧方法將實體指稱看作圖中的節(jié)點,利用實體指稱間的關(guān)聯(lián)關(guān)系(鏈接、實體共現(xiàn)等)構(gòu)建實體關(guān)聯(lián)圖,通過圖聚類算法或是閾值過濾得到實體消歧結(jié)果[16-18]。該類方法對于具有較多關(guān)聯(lián)關(guān)系的實體消歧問題有較好的效果,但對于缺乏關(guān)聯(lián)關(guān)系的實體消歧問題,難以構(gòu)建有效的實體關(guān)聯(lián)圖。

目前,已有的實體消歧方法通常依據(jù)特征項的共現(xiàn)信息,在計算實體相似度時忽視了特征項部分匹配的問題。針對這一問題,Hoffart 等人提出了基于關(guān)鍵短語集合重疊度的實體指稱相似度計算方法[19]。Ikeda等人提出了利用實體、組合關(guān)鍵詞、鏈接等特征,通過重疊系數(shù)計算各類特征的相似度,最后線性加權(quán)方式獲取人名實體間的關(guān)聯(lián)度[20]。另一方面已有的方法大多將實體鏈接和未知實體消歧分作兩個步驟處理,忽略了多個實體指稱之間關(guān)聯(lián)關(guān)系對實體消歧的影響。本文針對以上兩方面的問題,提出基于特征加權(quán)重疊度的中文實體協(xié)同消歧方法。該方法利用實體指稱上下文中的多種特征的加權(quán)重疊度計算實體相似度,針對實體鏈接與消歧聚類約束,分類定義實體指稱相似度計算方法,采用近鄰傳播聚類算法實現(xiàn)中文實體協(xié)同鏈接與消歧。

2 基于特征加權(quán)重疊度的中文實體協(xié)同消歧方法

2.1 實體消歧問題定義

2.2 特征選擇與提取

命名實體能夠簡潔的表示與待消歧實體關(guān)聯(lián)的真實概念,Elmacioglu 等人的研究表明上下文中的命名實體是有效的消歧特征[21]。WePS系列評測中大部分排名靠前的系統(tǒng)都采用命名實作為主要特征,也從另一個側(cè)面驗證了這一點。但是只用命名實體作為消歧特征是遠遠不夠的,主要原因有兩個方面。一是待消歧實體上下文中不一定出現(xiàn)命名實體,二是命名實體識別準確度難以保證。本文在分詞、詞性標注和實體識別基礎(chǔ)上,結(jié)合職業(yè)和職稱詞典,獲取專有名詞、人名、機構(gòu)名、地名、作品名稱、職業(yè)和職稱作為主要的消歧特征。此外,上下文中的概念通常以名詞詞組形式出現(xiàn),描述了待消歧實體的屬性和特點,能很好的表征實體間的語義關(guān)系;所以,本文還選取與前述特征不重疊的名詞詞組作為特征,計算實體間的語義關(guān)聯(lián)度。獲取到的特征項集合由{w}表示,特征項w={w1,w2,…,wi,…,wL},其中wi是特征項中的詞語,L是特征項的長度。

2.2.1 特征項重疊相似度計算

命名實體和名詞詞組特征通常由多個詞語構(gòu)成,所以,這些特征項之間的部分匹配就顯得十分重要,例如“退役足球運動員 ”和“足球運動員”的相似度應(yīng)高于它和“藍球運動員”的相似度。為了解決這一問題,本文借鑒Hoffart等人提出的短語相似度的計算方法[19]分別計算命名實體和名詞詞組之間的重疊相似度。

設(shè)(e,f)表示待消歧的實體對,Pe={p1,p2,…},Pf={q1,q2,…}分別表示實體e和f的特征項集合。特征項由詞語構(gòu)成,即pi={w1,w2,…},wi具有相對于實體e的權(quán)重γe(wi)。為了簡化公式,文本用p和q表示不同實體的特征項,w表示特征項中的詞,則基于加權(quán)Jaccard相似性系數(shù)的特征項重疊相似度如式(1)所示。

(1)

特征項詞語權(quán)重γe(w)和γf(w)由實體上下文中的逆文檔頻率(IDF,Inverse Document Frequency)確定,即γ(w)=log2(Z/df(w)),Z表示待消歧實體和目標實體的總數(shù),df(w)表示包含w的特征項出現(xiàn)的次數(shù)。

在特征項重疊相似度po(p,q)基礎(chǔ)上,計算實體對(e,f)的關(guān)聯(lián)度如式(2)所示。

(2)

其中φe(p)表示特征項p相對于實體e的權(quán)重,由p的TF-IDF值確定。ψ(p)表示不同類型的特征的權(quán)重。式中分子選擇較小的特征項權(quán)重和特征類型權(quán)重,對po(p,q)再加權(quán)。分母通過實體特征項權(quán)重之和,對sim(e,f)進行正規(guī)化。在此,分母不采用特征項交集的最大權(quán)值求和,以避免對特征項的迪卡爾集進行計算,降低計算復雜度??紤]到不同類型的特征對實體消歧結(jié)果的貢獻存在差異,本文針對不同類別特征類型定義不同的權(quán)重。權(quán)重值基于少量數(shù)據(jù)采用最小錯誤率訓練算法[22]得到,得到的具體僅值參見表1,權(quán)重調(diào)優(yōu)公式參見式(3)。

(3)

表1 特征類型權(quán)重

2.3 基于近鄰傳播的協(xié)同實體鏈接消歧

本文基于近鄰傳播聚類算法[23](Affinity Propagation cluster algorithm,AP)實現(xiàn)協(xié)同實體鏈接與消歧。實體鏈接與消歧可看作是針對實體知識庫E和待消歧名字集合N的聚類問題,針對實體鏈接與消歧任務(wù)要求,聚類應(yīng)滿足以下的約束條件:

a. 由于待消歧名字集合對應(yīng)的真實概念是不確定的,故聚類數(shù)目k也是不確定;

b. 實體知識庫E中的實體表示獨立的含義,所以它們之間的關(guān)聯(lián)度為零;

c. 實體知識庫E中的實體通常包含更準確、更豐富的上下文信息,應(yīng)具有更大機會成為聚類代表結(jié)點(Exemplar);

d. 聚類過程應(yīng)協(xié)同考慮多個待消歧實體間的關(guān)聯(lián)度和相互作用,從而更好地對多個實體進行消歧。

(4)

3 實驗結(jié)果及分析

本文采用CLP-2012“漢語命名實體識別與歧義消解”評測任務(wù)提供的訓練數(shù)據(jù)開展實驗。該評測任務(wù)提供的數(shù)據(jù)包含16個實體指稱,每個實體指稱對應(yīng)50~200篇文本。

CLP-2012評測提供的實體知識庫包含實體指稱Name的多個不同定義,每個定義由一段文字描述。針對每個實體指稱Name,有一個包含Name的文本集合T。要求判斷T中的實體指稱Name是實體名,還是普通詞。如果Name是實體名,則進一步判斷它是否對應(yīng)于知識庫中的定義;如果Name未對應(yīng)到知識庫中的定義,則將按其含義將實體指進行歸類。如Name是普通詞,則將其歸入Other類中。

為了避免Other類的判別問題,實驗過程中借助于Peng等人提出的方法[15],將Name作為檢索詞,利用互聯(lián)網(wǎng)搜索引擎獲檢索結(jié)果中的前50個頁面,獲取與Name共現(xiàn)度最高的20個名詞詞組。利用獲取的詞組在實體知識庫中加入與Other類對應(yīng)的偽實體定義,則Other類的判別轉(zhuǎn)化為在實體知識庫尋找對應(yīng)定義的問題。詞語與Name共現(xiàn)度按式(5)計算。

(5)

式中,d(name,word)表示同時包含Name和Word的文檔數(shù),d(name)表示包含Name的文檔數(shù)量,d(word)表示包含Word的文檔數(shù)。

本文將實體鏈接與消歧看作是以實體指稱為結(jié)點的聚類問題,聚類結(jié)果中同一個聚類簇的實體指稱具有相同含義。實驗過程主要包含以下三個步驟。首先利用詞法分析工具[24]對知識庫中的實體定義和文本集合T進行分詞、詞性標注和命名實體識別,并抽取實體特征和名詞詞組特征。然后,利用特征值計算結(jié)點似度矩陣。其中,不同實體指稱間的相似度基于特征加權(quán)重疊度方法計算,即公式(1)和(2);其它情況按公式(4)進行計算。最后,采用近鄰傳播聚類工具[25]對實體指稱進行聚類,從而得到實體鏈接與消歧結(jié)果。

實驗結(jié)果的準確率和召回率按CLP-2012評測任務(wù)提供的公式計算,實驗結(jié)果見表2。

表2 CLP-2012訓練數(shù)據(jù)實驗結(jié)果

續(xù)表

實驗結(jié)果表明本文提出的方法在準確率、召回率和F值上取得了較好的效果。實驗結(jié)果與CLP-2012評測結(jié)果比較參見表3。實驗結(jié)果與Peng等人提出的兩階段實體消歧方法[15]結(jié)果相近。該方法首先利用分類算法將待消歧實體指稱劃分已有實體、未知實體和普通詞三類;然后,利用層次聚類算法對未知實體進行消歧。相比于前述的兩階段實體消歧方法,本文方法只采用近鄰傳播聚類算法實現(xiàn)消歧,在簡化方法的同時實現(xiàn)了實體指稱的協(xié)同消歧。

表3 實體消歧方法結(jié)果比較

注: KMUST-LIIP表示本文提出的方法,UM和UM-1表示來自文獻[12,26]針對部分訓練數(shù)據(jù)得到的結(jié)果,ZZU、HITSZ、BUPT和SIR-NERD結(jié)果分別來自文獻[10-15]。

通過對實驗過程分析發(fā)現(xiàn),命名實體識別工具針對CLP-2012評測數(shù)據(jù)中的實體識別準確率低是影響實驗結(jié)果的主要因素之一。究其原因是評測試數(shù)據(jù)中出現(xiàn)的許多命名實體和普通詞語重名,導致了較多的識別錯誤,最終影響了實驗結(jié)果的準確度。另外,職業(yè)、職稱和作品名等特有特征對人名實體消歧具有很好的效果,其平均準確率、召回率和F值高于其它的實體消歧結(jié)果7.2%,4.0%和5.7%。

4 結(jié)論

本文針對中文實體消歧中的特征項部分匹配的問題,提出基于特征加權(quán)重疊度的中文實體協(xié)同消歧方法。實驗結(jié)果表明該方法針對面向文本中文實體鏈接與消歧問題具有較好的效果。本文利用實體指稱上下文中的多種特征的加權(quán)重疊度計算實體相似度,能較好具體現(xiàn)實體間的語義關(guān)聯(lián),但由于待消歧實指稱上下文信息量有限,而外部知識庫(Wikipedia、百度百科和互動百科等)含有大量的實體信息,所以,我們將進一步研究融合外部知識庫語義相似度計算方法,提高中文實體消歧的性能。

[1] 趙軍. 命名實體識別, 排歧和跨語言關(guān)聯(lián)[J]. 中文信息學報, 2009, 23(2): 3-17.

[2] Ji H, Grishman R. Knowledge base population: Successful approaches and challenges[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1. Association for Computational Linguistics, 2011: 1148-1158.

[3] Ji H, Grishman R, Dang H T, et al. Overview of the TAC 2010 knowledge base population track[C]//Proceedings of Third Text Analysis Conference (TAC 2010). 2010.

[4] Artiles J, Gonzalo J, Sekine S. The semeval-2007 weps evaluation: Establishing a benchmark for the web people search task[C]//Proceedings of the 4th International Workshop on Semantic Evaluations. Association for Computational Linguistics, 2007: 64-69.

[5] Wang Z H H, Li S. The Task 2 of CIPS-SIGHAN 2012 Named Entity Recognition and Disambiguation in Chinese Bakeoff[C]//Proceedings of The 2nd CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP-2012). 2012: 108-114.

[6] Auer S, Bizer C, Kobilarov G, et al. Dbpedia: A nucleus for a web of open data[M]//The semantic web. Springer Berlin Heidelberg, 2007: 722-735.

[7] Bollacker K, Evans C, Paritosh P, et al. Freebase: a collaboratively created graph database for structuring human knowledge[C]//Proceedings of the 2008 ACM SIGMOD international conference on Management of data. ACM, 2008: 1247-1250.

[8] Cucerzan S. Large-Scale Named Entity Disambiguation Based on Wikipedia Data[C]//Proceedings of the EMNLP-CoNLL. 2007, 7: 708-716.

[9] Milne D, Witten I H. Learning to Link with Wikipedia[C]//Proceedings of the 17th ACM conference on Information and knowledge management. ACM, 2008: 509-518.

[10] Fan Q, ZAN H, CHAI Y, et al. Chinese personal name disambiguation based on vector space model[C]//Proceedings of The 2nd CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP-2012). 2012: 152-158.

[11] Cilibrasi R L, Vitanyi P M B. The google similarity distance[J]. Knowledge and Data Engineering, IEEE Transactions on, 2007, 19(3): 370-383.

[12] Wang L, Li S, Wong D F, et al. A joint chinese named entity recognition and disambiguation system[C]//Proceedings of The 2nd CIPSSIGHAN Joint Conference on Chinese Language Processing (CLP-2012). 2012: 146-151.

[13] Liu J, Xu R, Lu Q, et al. Explore chinese encyclopedic knowledge to disambiguate person names[C]//Proceedings of The 2nd CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP-2012). 2012: 138-145.

[14] Han W, Liu G, Mao Y, et al. Attribute based Chinese Named Entity Recognition and Disambiguation[C]//Proceedings of The 2nd CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP-2012) . 2012: 127-131.

[15] Peng Z, Sun L, Han X. SIR-NERD: A Chinese Named Entity Recognition and Disambiguation System using a Two-Stage Method[C]//Proceedings of The 2nd CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP-2012). 2012: 114-120.

[16] Minkov E, Cohen W W, Ng A Y. Contextual search and name disambiguation in email using graphs[C]//Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2006: 27-34.

[17] Bekkerman R, McCallum A. Disambiguating web appearances of people in a social network[C]//Proceedings of the 14th international conference on World Wide Web. ACM, 2005: 463-470.

[18] 郎君, 秦兵, 宋巍, 等. 基于社會網(wǎng)絡(luò)的人名檢索結(jié)果重名消解[J]. 計算機學報, 2009, 32(7): 1365-1374.

[19] Hoffart J, Seufert S, Nguyen D B, et al. Kore: Keyphrase overlap relatedness for entity disambiguation[C] //Proceedings of the 21st ACM international conference on Information and knowledge management. ACM, 2012: 545-554.

[20] Ikeda M, Ono S, Sato I, et al. Person name disambiguation on the web by two-stage clustering[C]//Proceedings of the 2nd Web People Search Evaluation Workshop (WePS 2009), 18th WWW Conference. 2009.

[21] E Elmacioglu, Y Tan, S Yan, et al. PSNUS: Web People Name Disambiguation by Simple Clustering with Rich Features[C] //Proceedings of The SemEval-2007, 2007: 268-271.

[22] Och F J. Minimum error rate training in statistical machine translation[C]//Proceedings of the 41st Annual Meeting on Association for Computational Linguistics-Volume 1. Association for Computational Linguistics, 2003: 160-167.

[23] Frey B J, Dueck D. Clustering by passing messages between data points[J]. Science, 2007, 315(5814): 972-976.

[24] 劉挺, 車萬翔, 李正華. 語言技術(shù)平臺[J]. 中文信息學報, 2012, 25(6): 53-62.

[25] http://genes.toronto.edu/index.php?q=affinity%20propagation[OL].

[26] Hao Zong, Derek F Wong, Lidia S Chao. A template based hybrid model for chinese personal name disambiguation[C]//Proceedings of The 2nd CIPS-SIGHAN Joint Conference on Chinese Language Processing (CLP-2012).2012: 121-126.

Collaborative Entity Disambiguation Method Based on WeightedFeature Overlap Relatedness for Chinese

XIAN Yantuan, YU Zhengtao, HONG Xudong, ZHANG Lei, GUO Jianyi

(Faculty of Information Engineering and Automation,Kunming University of Science andTechnology, Kunming, Yunnan 650500, China)

A collaborative entity disambiguation method based on weighted feature overlap relatedness is proposed in this paper. This method make use of weighted feature overlap relatedness for computing the similarity between entity names. We define some deferent similarity formulas for computing entity similarity matrix, then the affinity propagation clustering algorithm is used to get the disambiguation results. Evaluation on the CLP-2012 corpus shows that our method can achieve competitive performance, attains 84.01% precision, 87.75% recall and 85.65% F-score.

entity disambiguation; entity linking; weighted overlap relatedness; affinity propagation clustering

線巖團(1981—),博士研究生,講師,主要研究領(lǐng)域為自然語言處理、信息抽取。E?mail:xianyantuan@qq.com余正濤(1970—),通信作者,博士,教授,博士生導師,主要研究領(lǐng)域為自然語處理、信息檢索、機器翻譯、機器學習等。E?mail:ztyu@hotmail.com洪旭東(1989—),博士研究生,主要研究領(lǐng)域為自然語言處理、信息檢索。E?mail:459102534@qq.com

2015-03-10 定稿日期: 2015-09-10

國家自然科學基金(61363044, 61175068, 61365010, 61462054, 61462055)

1003-0077(2017)02-0036-06

TP391

A

猜你喜歡
知識庫命名聚類
漢語近義詞辨析知識庫構(gòu)建研究
命名——助力有機化學的學習
基于K-means聚類的車-地無線通信場強研究
基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機設(shè)計中的應(yīng)用
有一種男人以“暖”命名
為一條河命名——在白河源
基于高斯混合聚類的陣列干涉SAR三維成像
基于Spark平臺的K-means聚類算法改進及并行化實現(xiàn)
基于加權(quán)模糊聚類的不平衡數(shù)據(jù)分類方法
衛(wèi)星狀態(tài)智能診斷知識庫設(shè)計方法