国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合句義分析的跨文本人名消歧

2015-08-10 09:42:26羅森林鄒麗麗石秀民
關(guān)鍵詞:消歧實體語義

張 晗,羅森林,鄒麗麗,石秀民

(北京理工大學(xué) 信息與電子學(xué)院,北京100081)

面對鋪天蓋地的互聯(lián)網(wǎng)信息,搜索引擎的使用逐漸成為大部分網(wǎng)民主要的行為之一.據(jù)Guha等[1]的統(tǒng)計可知,5%~10%使用搜索引擎的用戶搜索請求中包含人名作為查詢詞.然而,現(xiàn)實生活中重名現(xiàn)象十分嚴(yán)重,對某一個特定人名的查詢結(jié)果往往是不同現(xiàn)實個體網(wǎng)頁的混合.人名消歧是判斷相同姓名字符串是否指稱現(xiàn)實中相同實體的過程,針對搜索結(jié)果中相同姓名字符串的多文本混合現(xiàn)象,進(jìn)行文本聚類,即將同名的每一個人的相關(guān)文本劃分在一類.人名消歧具有巨大的實際應(yīng)用價值,是搜索引擎、社交網(wǎng)絡(luò)和人名知識庫構(gòu)建等領(lǐng)域的基礎(chǔ)性研究.

隨著多文本處理的廣泛應(yīng)用,跨文本人名消歧研究受到越來越多的重視.SemEval-2007評測設(shè)立了英文網(wǎng)絡(luò)人物搜索任務(wù) Web People Search(WPS)[2].在由ACL SIGHAN 和中文信息學(xué)會聯(lián)合組織的CLP 2010(CIPS-SIGHAN Joint Conference on Chinese Language Processing)上首次設(shè)置了中文跨文本人名消歧任務(wù),并且在CLP 2012上再次設(shè)置了這一評測任務(wù),將WPS 以及Text Analysis Conference(TAC)的KBP 實體鏈接任務(wù)進(jìn)行融合.任務(wù)不僅要求判定人名實體是否已在知識庫中定義以及是知識庫中的哪一條定義,而且要求對于不屬于知識庫中定義的文本進(jìn)行聚類,與2010年相比增加了任務(wù)難度.本文針對中文跨文本消歧任務(wù),利用句義分析提取句義特征實現(xiàn)人名消歧.

1 相關(guān)工作

1998年,Bagga等[3]首次提出跨文本的同指消歧任務(wù).他們對每個文本形成待消歧名字的簡單摘要,并用向量空間模型表示,通過聚類方法將具有人名同指關(guān)系的文本聚在一起.他們的方法是較通用的文本消歧技術(shù),沒有考慮到人名消歧的特殊性.2003年,Mann等[4]通過特征模板大大豐富了特征空間中的個人屬性信息,在一定程度上改善了特征提取算法.2005年,Malin[5]提出一種利用社會網(wǎng)絡(luò)圖來實現(xiàn)人名消歧的方法,該方法首先構(gòu)造待消歧人名的社會網(wǎng)絡(luò)圖,然后采取隨機(jī)游走和網(wǎng)絡(luò)切割的方法來精確社會網(wǎng)絡(luò)進(jìn)行人名消歧.2010 年在CLP 2010上,Wang等[6]利用啟發(fā)式后處理規(guī)則優(yōu)化命名實體識別效果,然后根據(jù)領(lǐng)域信息將文本分類,針對不同領(lǐng)域的人物文本采用不同的處理方式,他們提交的2個系統(tǒng)都表現(xiàn)良好.Xu等[7]依據(jù)段落與待消歧名字的距離,將不同位置的特征賦予不同權(quán)重進(jìn)行層次聚類,并對比分析不同鏈接方法應(yīng)用到人名消歧的效果.2011年,陳峰等[8]運用社會網(wǎng)絡(luò)分析法解決中文不同文本同名歧義問題,利用同名的人各自對應(yīng)不同中心網(wǎng)絡(luò)的特點,使用譜聚類將社會網(wǎng)絡(luò)圖劃分子圖,通過“集團(tuán)”劃分來區(qū)分不同實體.Wei等[9]用空間向量模型表示文本,以TFIDF計算特征權(quán)重,采用支持向量機(jī)和凝聚層次聚類相結(jié)合的多階段處理策略實現(xiàn)了人名消歧.2012年在CLP 2012上,Peng等[10]在命名實體識別的基礎(chǔ)上,對不同名實體特征、部分詞性以及人物職業(yè)名稱賦予不同參數(shù)值,結(jié)合TF-IDF 構(gòu)成文本表示模型進(jìn)行聚類,他們提交的SIR-NERD 系統(tǒng)效果良好.

現(xiàn)有的主要算法大致可以分為以下2類.第一類是對于每一篇文本,用特征向量表示,然后計算向量之間的相似度,采用層次聚類算法將描寫現(xiàn)實中同一人物的文本劃分為一類.第二類是采用圖聚類算法.圖的構(gòu)造方法是利用文本中命名實體的關(guān)系建立一個初始社會關(guān)系網(wǎng)絡(luò),然后對該網(wǎng)絡(luò)釆用圖聚類算法將節(jié)點聚成若干個內(nèi)部節(jié)點緊密連接的“社團(tuán)”.

層次聚類算法是目前主流的算法,選取合適的特征表示文本是該方面研究的主要工作.目前,大多數(shù)特征是文本中的淺層次特征(詞法,句法),沒有考慮特征詞在語句中扮演的語義角色及它們之間的依存關(guān)系,造成信息丟失.圖聚類的算法只考慮部分命名實體之間的關(guān)系,一方面會造成特征稀疏,另一方面這些命名實體不能充分地描述實體特征,效果并不理想.挖掘文本中更深層次的語義信息,利用不同層次的強(qiáng)弱特征,進(jìn)而發(fā)揮各類特征對人名消歧的作用是有意義的.

2 句義結(jié)構(gòu)模型及句義分析

句義結(jié)構(gòu)模型[11]以現(xiàn)代漢語語義學(xué)為基礎(chǔ),從句義角度研究句子的句義成分以及成分之間關(guān)系的句義結(jié)構(gòu)化表示模型,將抽象的句義表示成計算機(jī)可處理的結(jié)構(gòu)化數(shù)據(jù).模型將句義結(jié)構(gòu)分為句型層、描述層、對象層和細(xì)節(jié)層4個層次,包含的句義成分有句義類型、話題、述題、謂詞和項等.句義成分中的項分為基本項與一般項,項的具體功能用語義格表示,對應(yīng)的語義格分為7個基本格和12個一般格.模型的基本形式[12]如圖1所示.

句義分析通過句義結(jié)構(gòu)模型分析句子結(jié)構(gòu)信息和語義信息,抽取能夠表述句子語義的特征,這些特征能夠表達(dá)人物實體的重要信息是文本強(qiáng)特征.句義分析的具體方法是根據(jù)句義結(jié)構(gòu)模型的基本框架,分別處理不同語義格的對象成分及語義格結(jié)構(gòu)信息,主要的語義格類型說明如表1所示.

表1 語義格類型說明Tab.1 Description of semantic case

在句義結(jié)構(gòu)模型自動構(gòu)建的基礎(chǔ)上依次查詢上述語義格對應(yīng)的項作為特征詞,根據(jù)語義格的依存關(guān)系構(gòu)造不同組合方式形成具有更精確語義表達(dá)能力的特征詞組.對于基本格,要排除查詢詞字串(待消歧人名),若與其他一般格在語義上存在依存關(guān)系,則將它們的對應(yīng)項合并形成新的特征詞組.對于一般格,只提取修飾基本格的作為句義特征,若與其他一般格在語義上存在依存關(guān)系,則將它們的對應(yīng)詞合并形成新的特征詞組.

圖2 “自治區(qū)主席高雄實地考察天門山景區(qū)”的句義結(jié)構(gòu)Fig.2 Sentential semantic structure of“chairman of autonomous region, Gaoxiong survey Tianmen mountain scenic spot”

以下列查詢詞為高雄的句子為例:“自治區(qū)主席高雄實地考察天門山景區(qū)”.句義結(jié)構(gòu)的生成利用了課題組的自動構(gòu)建系統(tǒng)ACSM①http:∥www.isclab.org/csa/bfs-csa.php,是基于融合反饋機(jī)制的CRF++模型的句義分析器,不依賴于句法分析僅利用詞法分析結(jié)果即可實現(xiàn),保證了分析的性能,對語義格類型的識別準(zhǔn)確率達(dá)到94%以上.所得的句義結(jié)構(gòu)實例如圖2所示,體現(xiàn)了句義分析的作用:“景區(qū)”是“考察”動作的承受對象,“主席”與“高雄”在該句同指一個實體對象,具有同位屬性,所以,該句中受事格、同位格所對應(yīng)的項“景區(qū)”、“主席”兩詞都能夠表達(dá)具有區(qū)分能力的信息.然而僅僅這兩個詞的表達(dá)是不精確的,帶來一定程度的噪音,根據(jù)上文方法提取具有依存關(guān)系的同位格-屬格、受事格-空間格兩種語義形式,將對應(yīng)項“自治區(qū)主席”、“天門山景區(qū)”作為特征詞組,這兩個詞組的表達(dá)更細(xì)致,有利于區(qū)分不同實體對象.此外,去除容易形成噪音的謂詞項以及與實體相關(guān)性不大的描述謂詞的語義信息,如該句中的“考察”“實地”,保證了句義特征表達(dá)的準(zhǔn)確性.

3 算法原理

針對文本分析只停留在表層的問題,本文利用句義結(jié)構(gòu)模型在語義層分析句子,根據(jù)語義信息和語義格結(jié)構(gòu)信息處理句子中不同的語義成分和不同語義項之間的依存關(guān)系,利用句義特征準(zhǔn)確表達(dá)語句信息.在抽取實體特征時加入了書名、歌名、電影名等特殊專有名詞以及人物職業(yè),豐富了實體特征類型,結(jié)合名詞統(tǒng)計特征進(jìn)行兩階段層次聚類,利用文本強(qiáng)弱特征實現(xiàn)跨文本人名消歧.

本文提出的融合句義分析的跨文本人名消歧是在文本預(yù)處理的基礎(chǔ)上,首先對查詢詞采用啟發(fā)式規(guī)則的后處理方法進(jìn)行人名實體識別,將文本集分為人名文本集Nr和非人名文本集Other.然后針對人名文本集Nr根據(jù)模板提取與查詢詞相關(guān)的局部名實體特征及職業(yè),采用基于規(guī)則的分類方法匹配知識庫定義的名字并標(biāo)記其編號Id.最后針對剩余文本集Out以及非人名文本集Other分別通過自動構(gòu)建句義結(jié)構(gòu)模型,提取句義特征,利用詞袋模型統(tǒng)計詞頻,依次表示文本進(jìn)行兩階段層次聚類.

系統(tǒng)主要包括:預(yù)處理、人名實體識別、文本表示、分類和兩階段聚類4個模塊.算法原理如圖3所示,各模塊的具體內(nèi)容在下文詳細(xì)介紹.

圖3 跨文本人名消歧算法原理圖Fig.3 Cross-document personal name disambiguation algorithm schematic diagram

3.1 預(yù)處理

對文本集的預(yù)處理模塊主要包括數(shù)據(jù)清洗、分句、分詞、詞性標(biāo)注以及命名實體識別.數(shù)據(jù)清洗階段去除知識庫XML標(biāo)記以及文本中一些無法正確識別的特殊字符.然后進(jìn)行分句并依據(jù)文本名、段落、段落中位置對每一句編號,目的是方便抽取查詢詞上下文語句以及構(gòu)建句義結(jié)構(gòu)模型.之后對文本進(jìn)行分詞、詞性標(biāo)注,采用中科院計算所的分詞工具ICTCLAS2013.

3.2 人名實體識別

由于人名消歧語料的特殊性,例如查詢詞為“高山”“白雪”等字串時,文本集中存在大量查詢詞以普通詞形式存在的情況,針對這些詞的實體識別效果是非常不理想的.導(dǎo)致錯誤的主要原因是沒有充分利用前后文信息,這種情況直接影響之后的句義結(jié)構(gòu)模型構(gòu)建的效果.針對上述情況,在利用ICTCLAS2013命名實體識別功能的基礎(chǔ)上,采用基于啟發(fā)式規(guī)則的后處理方法提升人名的實體識別效果.從文本集中抽取出查詢詞指代人名的文本子集Nr,則剩余文本組成文本集Other,這些文本中的查詢詞以普通詞或者其他命名實體形式出現(xiàn).整體的識別模塊框架如下所示.

3.2.1 并列詞規(guī)則 并列詞是以并列連詞或符號串聯(lián)在一起的字串集合,并列連詞和符號有:“和”、“或”、“與”、“、”等.由于并列實體詞在文本中的距離相對較遠(yuǎn),在統(tǒng)計系統(tǒng)中識別效果不好.并列詞規(guī)則是若查詢詞的并列詞被識別為人名,則查詢詞也是人名,例如“高山和黃磊都來自云南”中,黃磊作為查詢詞高山的并列詞被識別為人名,而高山被識別為普通名詞,則根據(jù)并列詞規(guī)則將高山識別為人名.

3.2.2 名稱同指規(guī)則 由于現(xiàn)實中經(jīng)常出現(xiàn)一個人擁有曾用名的情況,甚至擁有筆名、網(wǎng)名等多個名稱,這些名稱在同一個文本中均指代一個人.名稱同指規(guī)則即若查詢詞前綴、后綴或通過“,”連接的字串是“原名”“又名”“筆名”“曾用名”“別名”“網(wǎng)名”等,并且這些詞跟隨人名出現(xiàn)就將查詢詞識別為人名,例如“高山,原名高增昌”這兩句中,高山和高增昌指代現(xiàn)實中的同一個人,高增昌被識別為人名,則根據(jù)規(guī)則查詢詞高山也被識別為人名.

3.2.3 前、后綴稱謂詞規(guī)則 前、后綴稱謂詞規(guī)則是利用人名稱謂識別人名.前、后綴詞是實體詞前面或后面標(biāo)示實體類型的部分.若查詢詞本身符合人名的一般原則,而且前、后綴詞是人名稱謂,則查詢詞為人名.例如“(記者高超)”“杜鵑老師”這兩句中,記者及老師都是人名稱謂詞,則查詢詞高超和杜鵑被識別為普通詞,根據(jù)該規(guī)則將它們識別為人名.

3.3 文本表示

本文根據(jù)特征模板提取與查詢詞相關(guān)的局部名實體特征及職業(yè),通過自動構(gòu)建句義結(jié)構(gòu)模型,提取句義特征,利用詞袋模型統(tǒng)計詞頻,利用上述三層特征分別表示文本并進(jìn)行聚類.

由于名實體及職業(yè)信息在人名消歧任務(wù)中扮演著重要角色,首先在抽取文本名實體特征及職業(yè)時,先從句子劃分完畢的文本中抽取查詢詞的所在句,然后從這些句子中抽取相關(guān)的機(jī)構(gòu)名、人名、地名.特別地,通過觀察語料發(fā)現(xiàn),其中出現(xiàn)的人大部分是歌星、演員、作家和學(xué)者等知名人士,對于這些特殊人群,一些書名、歌名、電影名等出現(xiàn)在“《”“》”之間的專有名詞可以有效地區(qū)分他們,所以將全文本中出現(xiàn)的這些名詞劃分到名實體特征中構(gòu)成一維獨立特征.最后利用職業(yè)稱謂詞典匹配查詢詞前后綴職業(yè),上述特征由相關(guān)的特征詞集合組成,構(gòu)成的第一層特征空間表示文本,標(biāo)記如表2所示.

表2 第一層特征類型及標(biāo)記Tab.2 Types and markers of first layer characteristics

根據(jù)4章的特征選擇實驗,從8種語義格中選擇施事格、受事格、說明格、范圍格、描寫格、空間格所對應(yīng)的項.根據(jù)2章介紹的句義特征提取方法從查詢詞上下文信息(一般為查詢詞所在句的上下各一句話)中提取特征詞和詞組構(gòu)成句義特征,利用所選取的特征將文檔形式化表示在n 維空間的向量,構(gòu)成第二層特征空間表示文本,如下所示:

空間中的每一維wn都是選取的特征詞或詞組.

利用詞袋模型(BOW)統(tǒng)計所有的名詞詞頻,用空間向量模型表示文本構(gòu)成第三層特征空間,詞袋模型的特點在于該模型忽略掉文本的語法和語序,用一組無序的單詞來表達(dá)一段文字或一個文檔.系統(tǒng)采用詞頻矩陣TF 對詞袋特征進(jìn)行加權(quán),主要表示度量詞t與文檔d 之間的關(guān)聯(lián)度:通常,如果文檔不包含該詞,則定義為零;否則定義為非零.對于向量中的非零項,定義詞的權(quán)重方法有多種.系統(tǒng)采用的方法如下:若詞t出現(xiàn)在文檔d 中,則用規(guī)范化詞頻來計算,計算公式為

式中:freq(d,t)為詞t在文檔d 中出現(xiàn)的次數(shù).

3.4 分類和兩階段聚類

利用上述三層特征空間,采用一種融合分類和兩階段聚類的處理策略.首先針對人名文本集,利用知識庫定義及表2所示的第一層特征空間進(jìn)行基于規(guī)則的分類方法,將知識庫中提及的每一個人的相關(guān)文本劃分為一類.規(guī)則為對于每一篇文本和知識庫定義內(nèi)容,若nr或snz特征集交集非空,或者nt或ns特征集交集元素數(shù)不小于2,或者nt或ns特征集交集元素數(shù)等于1并且occupation特征集交集非空,則將該文本標(biāo)記為知識庫定義編號.

后兩個階段是針對未被劃分到知識庫定義的剩余文本集Out以及非人名文本集Other分別進(jìn)行聚類,其中第一階段利用句義特征構(gòu)成的第二層特征空間進(jìn)行基于凝聚的最小距離法層次聚類,兩文本的相似度用重疊系數(shù)(overlap coefficient)計算.假設(shè)文檔dx的特征向量為fx,文檔dy的特征向量為fy,則

η是為了避免式(3)的分母過小而設(shè)定的閾值,一般根據(jù)訓(xùn)練集確定.

第二階段聚類是在第一階段聚類結(jié)果映射的基礎(chǔ)上,使用第三層特征空間以及相同的層次聚類算法.兩文本的相似度用空間向量v1、v2之間的余弦夾角表示,如下:

對于結(jié)果映射過程,首先觀察第一階段的聚類結(jié)果,然后將所有聚類類別中包含文本數(shù)≥2的類別篩選出來,將這些類別中的文本在層次聚類初始化數(shù)據(jù)前聚為一簇,而那些只包含一個文本的離散類別不作任何處理.根據(jù)表3所示的部分文本聚類結(jié)果,第二階段層次聚類輸入數(shù)據(jù)的初始化狀態(tài)如圖4所示.P1、P2、P3、P4、P5依次表示表3中顯示的文本,樹狀圖中的虛線表示沒有進(jìn)行第二階段層次聚類之前的初始狀態(tài),嵌套簇圖更直觀地顯示了第一階段聚類的映射結(jié)果.

開展4章所述的參數(shù)選擇實驗得到重疊系數(shù)μ作為第一階段聚類停止時的相似度閾值,夾角余弦值θ作為第二階段聚類停止條件.

表3 第二階段聚類結(jié)果示例Tab.3 Typical example of second stage clustering result

圖4 以樹狀圖和嵌套簇圖顯示的聚類初始狀態(tài)Fig.4 Clustering initial state showed by tree diagram and nested cluster diagram

4 實驗及結(jié)果分析

4.1 實驗數(shù)據(jù)資源

實驗數(shù)據(jù)是CLP 2012中文人名消歧評測任務(wù)開放的語料,其中包含16個不同的待消歧人名,每個名字包含50~200篇不等的文本,共包含1 634篇文本,并且對每一個人名均包含一個提供少量實體信息的知識庫.其他數(shù)據(jù)資源還包括常用人名稱謂1 510個.

4.2 評價方法

采用CLP 2012 使 用 的B_Cubed 指 標(biāo) 評 價 實驗結(jié)果.

式中:P 為準(zhǔn)確率,Rec為召回率;S 為標(biāo)準(zhǔn)聚類結(jié)果集合,d 表示文檔,Si∈S 表示標(biāo)準(zhǔn)結(jié)果類別集合中的一類;R 為實際聚類結(jié)果集合,Rj∈R 表示實際聚類結(jié)果集合中的其中一類;|Si|和|Ri|分別為集合Si和Ri的 大 小.

對參與聚類的每個文檔分別求出P 和Rec,再求出平均值作為聚類結(jié)果的P 和Rec.F 采用通常的計算公式計算:

4.3 實驗結(jié)果及分析

對融合句義分析的跨文本人名消歧系統(tǒng)進(jìn)行3組實驗:句義特征選擇實驗、聚類參數(shù)選擇實驗和系統(tǒng)總體效果對比實驗.

第1組實驗是句義特征選擇實驗,目的是選擇系統(tǒng)所需的最優(yōu)化句義特征組合.首先分析消歧中不同語義格的表達(dá)能力,挑選出8種語義格進(jìn)行實驗,語義格的編號如表4所示.

表4 句義特征編號Tab.4 Number of semantic features

對語料進(jìn)行統(tǒng)計分析發(fā)現(xiàn),大部分文本所提取的句子均含有的基本句義特征是施事格.實驗以施事格作為基線,依次加入其他基本句義特征,觀察它們對層次聚類準(zhǔn)確率的影響,均取重疊系數(shù)0.49作為聚類停止條件,保留使準(zhǔn)確率上升的句義特征,丟棄使準(zhǔn)確率下降的句義特征.

由圖5可知,選擇施事格、受事格、范圍格、描寫格、說明格、空間格作為最優(yōu)句義特征組合,這種句義特征組合具有較強(qiáng)的表達(dá)能力,可以更精確地反映句義信息.

第2組實驗是兩階段聚類的參數(shù)選擇實驗,選擇最佳的μ 與θ 的組合方式作為兩階段聚類的停止條件.實驗中,μ 以0.02為間隔在0.15~0.35的區(qū)間變動,θ以0.02 為間隔在0.08~0.20的區(qū)間變動,其中θ1=0.08,實驗結(jié)果如圖6所示.由圖6可知,當(dāng)μ 取0.31,θ取0.12時,聚類效果最好.

圖5 特征選擇實驗結(jié)果Fig.5 Results of experiments of feature selection

圖6 兩階段聚類參數(shù)選擇實驗結(jié)果Fig.6 Results of feature selection with two-stage clustering

第3組實驗是系統(tǒng)總體效果對比實驗.對比系統(tǒng)是2 個 參 與CLP 2012 評 測 的 系 統(tǒng)TBHMERD[13]、SIR-NERD和本文系統(tǒng)去除句義分析模塊的結(jié)果,如表5所示.

表5 系統(tǒng)總體效果對比實驗結(jié)果Tab.5 Comparison with system overall experimental results

由表5可見,去除句義分析模塊后僅利用特定屬性和統(tǒng)計特征的處理方法的準(zhǔn)確率較低,而加入句義分析模塊的本文系統(tǒng)效果明顯提升,F(xiàn) 優(yōu)于其他兩個評測系統(tǒng),特別是在準(zhǔn)確率方面表現(xiàn)良好.原因是句義特征可以精確表達(dá)信息,作用于對凝聚層次聚類效果影響較大的底層,優(yōu)先將部分文本劃分為一類;然后結(jié)合統(tǒng)計特征,適應(yīng)了凝聚層次聚類自底向上的特點,有效地避免了只使用特征融合并賦不同權(quán)重的單層次的聚類方法所帶來的噪音.采用該處理方法不僅增加了句子分析的深度,而且合理地利用了文本強(qiáng)弱特征.召回率相對SIR-NERD 系統(tǒng)下降將近1%,可能的原因如下:1)命名實體識別效果不理想,造成特征數(shù)據(jù)稀疏;2)某些文本中的句子形式不規(guī)范,例如缺少謂詞或其他語義成分、出現(xiàn)某些代詞等,只根據(jù)該句無法正確地提取有效句義特征;3)分類算法所利用的實體屬性特征不夠豐富,且規(guī)則不夠完善,導(dǎo)致知識庫定義人名的相關(guān)文本被劃分到Out文本集中.

5 結(jié) 語

本文結(jié)合文本強(qiáng)弱特征,合理利用分類聚類算法實現(xiàn)了跨文本人名消歧.特別地,利用句義結(jié)構(gòu)模型分析句子的結(jié)構(gòu)信息和語義信息,通過分析特征詞在語句中的依存關(guān)系,深化了句子分析層次,提取的句義特征增強(qiáng)了特征向量的表達(dá)能力,有效地避免了信息丟失,更準(zhǔn)確地描述語句中實體相關(guān)信息.實驗證明,結(jié)合句義特征的層次聚類方法明顯提高了系統(tǒng)的準(zhǔn)確率以及綜合性能.綜上所述,句義分析可以應(yīng)用到跨文本人名消歧的研究中,并能夠取得良好的效果.

由于利用重疊系數(shù)的相似度計算方法沒有考慮到句義特征在句子中扮演角色的重要程度,下一步工作的重點是句義特征權(quán)重計算方法的研究.同時,利用上下文信息豐富句義特征以解決由于某些句子形式不規(guī)范原因造成的特征稀疏的問題,以期提高算法的召回率.這些研究將提高句義分析能力,進(jìn)一步提升跨文本人名消歧的效果.

):

[1]GUHA R,GARG A.Disambiguating people in search[C]∥The 13th International World Wide Web Conference.New York:Association for Computing Machinery,2004:102-107.

[2]ARTILES J,GONZALO J,SEKINE S.The SemEval-2007 WePS evaluation:establishing a benchmark for the web people search task[C]∥Proceedings of the 4th International Workshop on Semantic Evaluations.Prague:Association for Computational Linguistics,2007:64-69.

[3]BAGGA A,BALDWIN B.Entity-based cross-document conferencing using the vector space model[C]∥Proceedings of the 17th International Conference on Computational Linguistics:Volume 1.Montreal,Ganada:Association for Computational Linguistics,1998:79-85.

[4]MANN G S,YAROWSKY D.Unsupervised personal name disambiguation[C]∥Proceedings of the 17th Conference on Natural Language Learning at HLT-NAACL 2003:Volume 4.Sofia,Bulgaria:Association for Computational Linguistics,2003:33-40.

[5]MALIN B.Unsupervised name disambiguation via social network similarity[C]∥ Workshop on Link Analysis,Counterterrorism,and Security.Minneapolis:[s.n.],2005,1401:93-102.

[6]WANG H,DING H.A multi-stage clustering framework for Chinese personal name disambiguation[C]∥CIPS-SIGHAN Joint Conference on Chinese Language Processing. Tianjin:[s.n.],2010:88-94.

[7]XU R,XU J.Combine person name and person identity recognition and document clustering for Chinese person name disambiguation[C]∥CIPS-SIGHAN Joint Conference on Chinese Language Processing.Tianjin:[s.n.],2010:95-100.

[8]陳峰,王厚峰.基于社會網(wǎng)絡(luò)的跨文本同名消歧[J].中文信息學(xué)報,2011,25(05):76-82.CHEN Feng,WANG Hou-feng.Social network based cross-document personal name disambiguation [J].Journal of Chinese Information Processing.Tijanjin:[s.n.],2011,25(05):76-82.

[9]WEI H,XU B,ZHAO T.Study on Chinese person name disambiguation based on multi-stage strategy[C]∥2011 8th International Conference on Fuzzy Systems and Knowledge Discovery (FSKD).Chongqing:IEEE,2011:1177-1181.

[10]PENG Z,SUN L.SIR-NERD:a Chinese named entity recognition and disambiguation system using a twostage method[C]∥CIPS-SIGHAN Joint Conference on Chinese Language Processing.Wuhan:[s.n.],2012:115-120.

[11]羅森林,韓磊,潘麗敏,等.漢語句義結(jié)構(gòu)模型及其驗證[J].北京理工大學(xué)學(xué)報:自然科學(xué)版,2013,33(2):166-171.LUO Sen-lin,HAN Lei,PAN Li-min,et al.Chinese sentential semantic mode and verification[J].Beijing Institute of Technology:Natural Science,2013,33(2):166-171.

[12]馮揚.漢語句義模型構(gòu)建及若干關(guān)鍵技術(shù)研究[D].北京:北京理工大學(xué),2010.FENG Yang.Research on Chinese sentential semantic mode and some key problems[D].Beijing:Beijing Institute of Technology,2010.

[13]HAO Z,DEREK F.A template based hybrid model for Chinese personal name disambiguation[C]∥CIPSSIGHAN Joint Conference on Chinese Language Processing.Wuhan:[s.n.],2012:121-126.

猜你喜歡
消歧實體語義
基于關(guān)聯(lián)圖和文本相似度的實體消歧技術(shù)研究*
基于半監(jiān)督集成學(xué)習(xí)的詞義消歧
語言與語義
前海自貿(mào)區(qū):金融服務(wù)實體
中國外匯(2019年18期)2019-11-25 01:41:54
藏文歷史文獻(xiàn)識別過程中藏文自由虛詞的自動識別及消歧算法的研究
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
兩會進(jìn)行時:緊扣實體經(jīng)濟(jì)“釘釘子”
振興實體經(jīng)濟(jì)地方如何“釘釘子”
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語義模糊
壶关县| 忻城县| 三都| 稷山县| 陈巴尔虎旗| 抚顺市| 榕江县| 株洲县| 北京市| 光山县| 涞水县| 石台县| 恩施市| 忻城县| 北京市| 南康市| 峨眉山市| 吴忠市| 务川| 德钦县| 台东县| 论坛| 米林县| 民和| 阿拉善右旗| 广丰县| 建湖县| 嵊泗县| 朝阳市| 东莞市| 昌邑市| 寻甸| 民权县| 阳城县| 普定县| 北安市| 酉阳| 象山县| 响水县| 凤城市| 平乡县|