国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中文異構(gòu)百科知識庫實體對齊

2016-07-19 19:39黃峻福李天瑞賈真景運(yùn)革張濤
計算機(jī)應(yīng)用 2016年7期
關(guān)鍵詞:知識庫百科異構(gòu)

黃峻福 李天瑞 賈真 景運(yùn)革 張濤

摘要:針對傳統(tǒng)實體對齊方法在中文異構(gòu)網(wǎng)絡(luò)百科實體對齊任務(wù)中效果不夠顯著的問題,提出一種基于實體屬性與上下文主題特征相結(jié)合的實體對齊方法。首先,基于百度百科及互動百科數(shù)據(jù)構(gòu)造中文異構(gòu)百科知識庫,通過統(tǒng)計方法構(gòu)造資源描述框架模式(RDFS)詞表,對實體屬性進(jìn)行規(guī)范化;其次,抽取實體上下文信息,對其進(jìn)行中文分詞后,利用主題模型對上下文建模并通過吉布斯采樣法求解模型參數(shù),計算出主題單詞概率矩陣,提取特征詞集合及對應(yīng)特征矩陣;然后,利用最長公共子序列(LCS)算法判定實體屬性相似度,當(dāng)相似度位于下界與上界之間時,進(jìn)一步結(jié)合百科類實體上下文主題特征進(jìn)行判定;最后,依據(jù)標(biāo)準(zhǔn)方法構(gòu)造了一個異構(gòu)中文百科實體對齊數(shù)據(jù)集進(jìn)行仿真實驗。實驗結(jié)果表明,與經(jīng)典的屬性相似度算法、屬性加權(quán)算法、上下文詞頻特征模型及主題模型算法進(jìn)行比較,所提出的實體對齊算法在人物領(lǐng)域和影視領(lǐng)域的準(zhǔn)確率、召回率與綜合指標(biāo)F值分別達(dá)到97.8%、88.0%、92.6%和98.6%、73.0%、83.9%,比其他方法均有較大的提高。實驗結(jié)果驗證了在構(gòu)建中文異構(gòu)百科知識庫場景中,所提算法可以有效提升中文百科實體對齊效果,可應(yīng)用到具有上下文信息的實體對齊任務(wù)中。

關(guān)鍵詞:

知識庫;實體對齊;主題模型;資源描述框架模式;最長公共子序列算法

中圖分類號: TP391.1 文獻(xiàn)標(biāo)志碼:A

0引言

語義網(wǎng)[1]提供一種在不同應(yīng)用和個體間共享和重用數(shù)據(jù)的整體框架,是Web 3.0的重要特征。目前萬維網(wǎng)主要面向文檔,供人直接閱讀和理解;語義網(wǎng)則主要面向文檔所表示數(shù)據(jù),使計算機(jī)能夠理解并通過推理引擎進(jìn)行邏輯演算,是人工智能的重要目標(biāo)。語義網(wǎng)的建立需要高質(zhì)量的知識庫作為數(shù)據(jù)支撐。目前,國外具有代表性的知識庫有FreeBase[2]、DBpedia[3]、維基百科本體知識庫(Yet Another Great Ontology,YAGO[4])及Omega[5]等;國內(nèi)的知識庫有百度知心、搜狗知立方及清華大學(xué)雙語知識庫XLore[6]。知識庫在知識圖譜、智能語義問答及信息融合等自然語言處理領(lǐng)域均有重要意義[7]。國外的知識庫如FreeBase等提供了公開的資源描述框架(Resource Description Framework, RDF)數(shù)據(jù)源,但所含中文數(shù)據(jù)量較少,如何構(gòu)建高質(zhì)量的中文RDF知識庫是目前的研究熱點。

實體(Entity)是指客觀存在并可相互區(qū)別的事物,包括具體的人、事、物、抽象的概念或聯(lián)系,知識庫中包含多種類別的實體。實體對齊(Entity Alignment)也被稱作實體匹配(Entity Matching),是指對于異構(gòu)數(shù)據(jù)源知識庫中的各個實體,找出屬于現(xiàn)實世界中的同一實體。隨著中文網(wǎng)絡(luò)百科的不斷完善,可以從網(wǎng)絡(luò)百科頁面抽取出實體,并對不同來源的實體進(jìn)行對齊,構(gòu)建高質(zhì)量的中文異構(gòu)百科RDF知識庫[8]。百度百科與互動百科所包含的實體信息覆蓋面廣,更新及時,因此,如何從網(wǎng)絡(luò)百科數(shù)據(jù)中抽取出實體信息并進(jìn)行實體對齊,是構(gòu)建中文RDF知識庫的關(guān)鍵問題。實體對齊常用的方法是利用實體的屬性信息判定不同源實體是否可進(jìn)行對齊,由于網(wǎng)絡(luò)百科數(shù)據(jù)屬于用戶原創(chuàng)內(nèi)容(User Generated Content,UGC)類型[9],不同用戶編輯的數(shù)據(jù)質(zhì)量參差不齊,僅通過用戶編輯的實體屬性信息難以準(zhǔn)確判定是否為同一實體。本文根據(jù)網(wǎng)絡(luò)百科具有實體上下文的特性,提出一種基于主題模型的中文異構(gòu)百科知識庫實體對齊方法,通過挖掘?qū)嶓w上下文潛在語義信息,對實體上下文進(jìn)行主題建模,完成實體對齊任務(wù)。實驗驗證所提方法能夠有效提升實體對齊準(zhǔn)確性,對具備上下文信息的實體對齊任務(wù)有良好通用性。

本文主要工作如下:

1)利用中文異構(gòu)數(shù)據(jù)源百科類網(wǎng)站,構(gòu)建中文百科知識庫,提出異構(gòu)數(shù)據(jù)源百科知識庫進(jìn)行實體對齊的方法,該方法能夠有效地對來自于異構(gòu)數(shù)據(jù)源百科知識庫中的實體進(jìn)行對齊。

2)結(jié)合實體結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù),提出了適用于具備上下文信息的實體對齊方法。

3)構(gòu)造了中文百科類實體對齊標(biāo)準(zhǔn)數(shù)據(jù)集,對數(shù)據(jù)集中需要對齊的實體進(jìn)行了人工標(biāo)注并進(jìn)行了大量實驗。同標(biāo)準(zhǔn)的實體對齊方法進(jìn)行對比,實驗結(jié)果表明本文提出的算法可以有效地對具有上下文信息的實體進(jìn)行對齊。

1相關(guān)工作

目前實體對齊方法的研究主要分為以下3個方面。

1)基于OWL語義。

網(wǎng)絡(luò)本體語言(Web Ontology Language, OWL)用于對本體進(jìn)行語義描述。文獻(xiàn)[10]中利用反函數(shù)及啟發(fā)式算法結(jié)合上層語義信息(如owl:sameAs等)對實體進(jìn)行推理,判斷不同來源的實體是否可以進(jìn)行對齊。文獻(xiàn)[11]中利用Freebase中實體分類信息對問句中的實體,通過迭代模型和判別模型與知識庫中的實體進(jìn)行對齊?;贠WL語義的方法要求數(shù)據(jù)集本身具有完備的語義信息,而網(wǎng)絡(luò)百科類的實體由用戶定義,不同編輯者對同一事物的屬性定義并不嚴(yán)格,不具有完備的上層語義信息。

2)基于規(guī)則分析。

文獻(xiàn)[12]中通過在具體應(yīng)用場景中制定特殊規(guī)則,通過規(guī)則及評價函數(shù)的方法對實體的含義進(jìn)行消歧。此種方法在具體應(yīng)用領(lǐng)域準(zhǔn)確率較高,但由于換一個場景需要重新制定規(guī)則,存在一定局限性。百科類網(wǎng)站中覆蓋多領(lǐng)域?qū)嶓w,需要針對不同領(lǐng)域?qū)嶓w制定規(guī)則并對各領(lǐng)域規(guī)則進(jìn)行驗證,因此此類方法不具有通用性。

3)基于相似度理論判定。

文獻(xiàn)[13]中基于屬性值的分布給屬性賦予權(quán)重,然后用加權(quán)后屬性的相似度來進(jìn)行實體對齊,但是百科類網(wǎng)站實體的屬性類型眾多,單個實體屬性分布稀疏,屬性值較少的屬性權(quán)重很低,導(dǎo)致該方法對如中文名等通用屬性的依賴程度較高,難以滿足網(wǎng)絡(luò)百科類實體對齊任務(wù)。

綜上分析,中文網(wǎng)絡(luò)百科不具備完備本體信息,并且包含實體領(lǐng)域眾多,所以難以通過基于本體方法或制定領(lǐng)域規(guī)則的方法完成實體對齊。中文網(wǎng)絡(luò)百科中的屬性信息往往由用戶定義,不同編輯者編輯的數(shù)據(jù)質(zhì)量參差不齊,僅利用基于屬性的方法其效果難以滿足構(gòu)建中文異構(gòu)百科知識庫的實際要求。由于百科知識庫中包含大量實體摘要信息及描述性文本,如何利用實體上下文非結(jié)構(gòu)化數(shù)據(jù),構(gòu)造出有效的上下文特征,是目前急需解決的一個問題。由于傳統(tǒng)的文本建模方法如詞頻逆向文檔頻率(Term FrequencyInverse Document Frequency, TFIDF)方法僅考慮了詞頻的特征,而未考慮詞項之間的語義關(guān)聯(lián),因此,為了有效地提取實體上下文文本信息,本文提出一種基于實體屬性與上下文主題特征相結(jié)合的實體對齊方法。首先利用屬性相似度的方法對實體進(jìn)行第一步判別,當(dāng)其難以準(zhǔn)確判定時,進(jìn)一步利用待對齊的實體上下文信息進(jìn)行主題建模,再結(jié)合上下文特征與屬性相似度判定異構(gòu)知識庫中的實體是否可以對齊。

2中文異構(gòu)百科類實體對齊方法

2.1框架概述

本文所述中文百科RDF知識庫主要基于百度百科與互動百科兩個數(shù)據(jù)源構(gòu)建,本文設(shè)計的中文異構(gòu)百科實體對齊系統(tǒng)框架如圖1所示,其中知識庫的構(gòu)建及實體對齊判定模塊是實體對齊框架的核心部分。當(dāng)系統(tǒng)獲取到一個新實體信息,依次抽取其屬性信息和上下文信息。由于不同百科網(wǎng)站存在異構(gòu)數(shù)據(jù),通過構(gòu)建資源描述框架模式(Resource Description Framework Schema, RDFS)詞表對實體屬性進(jìn)行規(guī)范化,將新的實體信息存儲到對應(yīng)百科網(wǎng)站的RDF知識庫中;利用基于可擴(kuò)展標(biāo)記語言(eXtensible Markup Language, XML)及其路徑語言(XML Path Language, XPath)的抽取技術(shù)[14]將網(wǎng)頁中關(guān)于實體的描述性信息抽取出來,用西南交大分詞器(http://ics.swjtu.edu.cn/)分詞后,采用主題模型計算出實體潛在主題特征,將實體上下文主題特征進(jìn)行存儲。另外為融合異構(gòu)數(shù)據(jù)源的RDF知識庫,采用基于最長公共子序列(Longest Common Subsequence, LCS)屬性相似度結(jié)合主題特征的實體對齊方法。對于來自異構(gòu)數(shù)據(jù)源待對齊實體對,利用基于LCS的屬性相似度計算方法判定兩個實體是否為同一實體,若相似度滿足閾值上界,說明可通過屬性信息進(jìn)行實體對齊,將其輸出到對齊實體集合;當(dāng)相似度位于下界與上界之間,說明實體屬性信息匱乏無法判定是否可以對齊,進(jìn)一步采用結(jié)合上下文主題特征的實體對齊算法,綜合判定后決定是否將實體對輸出至對齊實體集合中。

2.2知識庫構(gòu)建

RDF[15]是一種用于描述網(wǎng)絡(luò)資源的標(biāo)記語言。RDF所描述的數(shù)據(jù)信息可通過共享及整合將不同源數(shù)據(jù)聯(lián)系起來構(gòu)建知識庫,為知識圖譜及人工智能問答等領(lǐng)域提供數(shù)據(jù)支撐[16]。

構(gòu)建的中文RDF知識庫主要存儲了實體相關(guān)信息,它將來自于不同源的網(wǎng)絡(luò)百科數(shù)據(jù)(如百度百科、互動百科及豆瓣網(wǎng)站等數(shù)據(jù))進(jìn)行對齊及整合。本文在知識庫構(gòu)建及實體對齊過程中,主要抽取實體屬性信息及實體上下文信息。

實體屬性信息給出了實體的特征屬性及其取值,經(jīng)過數(shù)據(jù)預(yù)處理及數(shù)據(jù)清洗后轉(zhuǎn)為結(jié)構(gòu)化數(shù)據(jù)。由于中文網(wǎng)絡(luò)百科沒有根據(jù)本體語言指定統(tǒng)一的屬性標(biāo)準(zhǔn),存在不同屬性名指代同一屬性的情況,如對于人物類別的屬性出生時間,百度百科常使用“出生日期”描述,互動百科常使用“出生年月”描述。屬性謂詞的不統(tǒng)一導(dǎo)致在異構(gòu)數(shù)據(jù)源知識庫中進(jìn)行實體對齊時準(zhǔn)確程度很低,因此本文參考本體(Ontology)層次描述,通過統(tǒng)計高頻屬性謂詞,構(gòu)建多個類別的RDFS[17]詞表,規(guī)范屬性名不一致的情況。部分人物類RDFS詞表示例如表1所示。

實體上下文信息由“摘要”及“實體描述”信息組成。摘要信息對實體進(jìn)行簡要概括,實體描述信息從多方面對實體進(jìn)行闡述。由于上下文信息是非結(jié)構(gòu)化文本,在實體對齊任務(wù)中不能直接使用,所以需要對實體上下文信息進(jìn)行主題建模。

2.3實體上下文建模

在百科類網(wǎng)站所覆蓋的實體中,通常具有關(guān)于實體多方面的描述信息,這些描述信息大多以文本的形式呈現(xiàn)。主題模型在文獻(xiàn)[18]中被顯式提出來,是對文本中隱含主題的一種建模方法。主題是語料集合上語義的高度抽象、壓縮表示,每個主題對應(yīng)著比較一致的語義。對于網(wǎng)絡(luò)百科實體,如果實體屬性信息匱乏,難以判斷實體是否可以對齊,則利用上下文信息進(jìn)行建模并提取主題特征,根據(jù)主題特征分布來判別是否可進(jìn)行對齊?;谥黝}模型對上下文建模的實現(xiàn)主要包括利用潛在狄利克雷分布(Latent Dirichlet Allocation, LDA)產(chǎn)生上下文過程及主題特征生成過程兩部分。

2.3.1LDA產(chǎn)生上下文過程

LDA模型可使生成的文本包含多個主題,對于知識庫中的實體e,其生成上下文文檔d的過程如圖2所示,過程描述如下:

1)從狄利克雷分布α中取樣,生成實體上下文d的主題分布向量θd,θd的每一列表示每個主題在上下文中出現(xiàn)的概率。

2)從主題的多項式分布θd中進(jìn)行取樣,生成上下文d第i個單詞的主題zd,i。

3)從狄利克雷分布β中取樣,生成實體上下文主題zd,i的詞語分布φzd,i。

4)從詞語的多項式分布φzd,i中采樣最終生成詞語wd,i。

2.3.2主題特征生成過程

在LDA模型中,文本的主題是隱式變量,可通過概率推導(dǎo)的方式對模型參數(shù)進(jìn)行求解。文獻(xiàn)[19]介紹了吉布斯抽樣(Gibbs sampling)的方式對主題模型進(jìn)行求解。

2.4基于LCS的屬性相似度計算

實體屬性相似度計算可對網(wǎng)絡(luò)百科中屬性定義較準(zhǔn)確的實體進(jìn)行判別,本文基于文獻(xiàn)[20]中所述LCS算法,提出適用于網(wǎng)絡(luò)百科的屬性相似度計算方法。

2.4.1網(wǎng)絡(luò)百科實體的屬性信息的相關(guān)定義

定義1設(shè)實體ea經(jīng)過RDFS屬性規(guī)范化后屬性名集合Propertya={pa1,pa2,…,pam},對應(yīng)屬性值集合Valuea={va1,va2,…,vam};實體eb對應(yīng)屬性名集合Propertyb={pb1,pb2,…,pbn},其對應(yīng)屬性值集合Valueb={vb1,vb2,…,vbn},其中m,n分別為實體的屬性個數(shù)。

定義2設(shè)實體ea的規(guī)范化屬性pai,其對應(yīng)屬性值vai=(sa1sa2…sap);實體eb“實體..”,此處書寫是否有誤?請作相應(yīng)調(diào)整。的規(guī)范化屬性pbj,其屬性值vbj=(sb1sb2…sbq)。其中:i表示實體ea的第i個屬性; j表示實體eb的第j個屬性;sap為屬性值vai的第p個字符;sbq表示屬性值vbj的第q個字符;p與q分別表示對應(yīng)屬性值的長度。

2.4.2屬性相似度計算

1)實體ea及eb共有屬性的計算式為:

InterProperty(ea,eb)=Propertya∩Propertyb(5)

對于共有屬性pi∈InterProperty(ea,eb),其中pax=pi且pby=pi,其中,實體ea的屬性pax對應(yīng)的屬性值為vax,實體eb的屬性pby對應(yīng)的屬性值為vby。

2)屬性pi的相似度計算式為:

sim(pi)=lcs(vax,vby)max(len(vax),len(vby))(6)

其中l(wèi)cs(vax,vby)為實體屬性值的最長公共子序列。

3)實體ea及eb的相似度計算式為:

property_sim(ea,eb)=[∑Ti=1sim(pi)]/T(7)

其中:

T=Propertya∩Propertyb(8)

2.5基于主題特征的相似度計算方法

1)實體..實體ea此處的書寫是否符合規(guī)范?表示什么含義?請明確。及eb的實體上下文相似度計算式為:

context_sim(ea,eb)=Vea·Veb|Vea||Veb|(9)

其中Vea及Veb是每個實體的主題特征向量。

在實體對齊時,如果僅考慮實體上下文特征,結(jié)果并不準(zhǔn)確。為了提高結(jié)果的準(zhǔn)確性,結(jié)合實體屬性相似度及實體主題相似度得到實體的相似度計算公式。

2)實體的相似度計算式為:

sim(ea,eb)=[property_sim(ea,eb)+context_sim(ea,eb)]/2.0(10)

其中property_sim(ea,eb)為實體的屬性相似度。

2.6基于主題特征的實體對齊算法

根據(jù)上面的定義和公式,提出了基于主題特征的中文異構(gòu)百科知識庫實體對齊算法描述如下。

算法1基于主題特征的實體對齊算法。

有序號的程序——————————Shift+Alt+Y

程序前

輸入:異構(gòu)數(shù)據(jù)源實體集合EA及EB,實體屬性相似度閾值上界ν及下界μ,實體相似度參數(shù)ω,主題參數(shù)K。

輸出:對齊后的實體集合AE。

1)

for each entity e∈(EA∪EB) do

2)

compute topicword matrix φ/*利用LDA算法對實體e上下文主題建模,計算主題單詞概率矩陣φ*/

3)

compute topicfeature vector Ve/*通過主題特征生成過程,計算主題特征向量Ve*/

4)

for i ← 1 to size(EA) do

5)

for j ← 1 to size(EB) do

6)

compute ps = property _sim(ei ,ej )

7)

if ps

8)

continue;

9)

else if ps> threshold ν do

10)

AE ← AE∪{ (ei,ej)}

11)

else do

12)

compute cs=context_sim(ei,ej)/*利用主題特征向量Vei及Vej計算主題相似度*/

13)

compute s=sim(ei,ej)/*結(jié)合屬性相似度ps和主題相似度cs,計算實體相似度s*/

14)

if s≥ω do

15)

AE ← AE∪{ (ei,ej)}

程序后

3實驗與結(jié)果分析

3.1實驗數(shù)據(jù)集描述

為了檢驗中文異構(gòu)知識庫實體對齊算法的有效性,本文從互動百科及百度百科分別隨機(jī)抽取了包含人物類及影視類的實體,抽取出的實體具有屬性信息及上下文信息。關(guān)于百科網(wǎng)站中人物類別的實體,熱門詞條編輯次數(shù)較多,實體屬性描述較為完整;普通詞條編輯次數(shù)較少,某些屬性存在缺失的情況。影視類實體的屬性描述較為統(tǒng)一,屬性對單個實體的描述較為完整。人物類實體的上下文描述從“人物生平”“主要成就”“人物影響及評價”等方面實體進(jìn)行描述,影視類實體的上下文主題分布對同一實體的描述在不同數(shù)據(jù)源下可能存在較大差異。本文通過人工審核的方法對抽取的實體數(shù)據(jù)集進(jìn)行了校驗。實體對齊數(shù)據(jù)集統(tǒng)計信息如表2所示。

3.2實驗結(jié)果分析

3.2.1評價指標(biāo)

本文的主要工作是將來自中文異構(gòu)數(shù)據(jù)源知識庫中的實體進(jìn)行對齊,評價指標(biāo)選取準(zhǔn)確率(Precision,P)、召回率(Recall,R)及綜合指標(biāo)F值(FScore,F(xiàn))作為評價標(biāo)準(zhǔn)[21]。

1)準(zhǔn)確率計算公式為:

P=Nr/No(11)

2)召回率計算公式為:

R=Nr/Na(12)

3)綜合指標(biāo)F值計算公式為:

F=2·P·R/(P+R)(13)

其中:Na為數(shù)據(jù)集中所有可準(zhǔn)確對齊的實體個數(shù);No為所有對齊實體數(shù);Nr為正確對齊實體數(shù)。

準(zhǔn)確率表示通過實體對齊算法后得到正確對齊后的實體的準(zhǔn)確程度;召回率表示通過算法得到的準(zhǔn)確對齊的實體數(shù)占數(shù)據(jù)集中所有可準(zhǔn)確對齊實體的比率;F值為衡量準(zhǔn)確率與召回率的綜合指標(biāo)。

3.2.2模型參數(shù)選取

本文的模型參數(shù)主要有屬性相似度下界μ,屬性相似度上界ν,實體對齊閾值ω及主題模型中的主題數(shù)K。參數(shù)選取方法如下。

1)參數(shù)μ、ν選取。

經(jīng)過大量實驗,實體在進(jìn)行對齊時,如果屬性相似度小于μ,則判定為不可對齊實體, μ取經(jīng)驗值0.5;如果屬性相似度高于上界ν,則判定為同一實體,ν取經(jīng)驗值0.95。

2)參數(shù)ω選取。

實體相似度是屬性相似度與實體上下文相似度的均值,對于基于主題模型的實體對齊算法效果有重要影響。實體相似度參數(shù)ω越高,則實體對齊的準(zhǔn)確率越高,但召回率下降;否則,參數(shù)ω降低,召回率提升,但準(zhǔn)確率下降。實體相似度參數(shù)ω的選取主要依賴最優(yōu)F值,若F值相近的情況下,選擇準(zhǔn)確率更高的參數(shù)ω。通過圖3(a)看出,人物類實體對齊閾值ω選取為0.5~0.6時,綜合指標(biāo)F值較高;通過圖3(b)看出,影視類實體對齊閾值選取為0.4時附近,綜合指標(biāo)F值較高。

3)參數(shù)K選取。

本文的LCSLDA算法對不同主題數(shù)目情況進(jìn)行了對比實驗。實驗中ω參數(shù)選取0.4,依次選取不同K值進(jìn)行實體對齊實驗。從圖4實驗結(jié)果可以看出,主題個數(shù)K設(shè)定為2~3時實體對齊算法的F值最優(yōu),準(zhǔn)確率及召回率的整體性能較好。

3.2.3與其他實體對齊算法比較

為了進(jìn)一步驗證所提中文異構(gòu)知識庫實體對齊算法(LCSLDA)的有效性,利用實體對齊數(shù)據(jù)統(tǒng)計信息進(jìn)行實驗,在實驗過程中,分別用LCSLDA算法、LCS算法、LCS屬性加權(quán)(WeightedLCS)算法、LCSTFIDF算法、LDA算法運(yùn)行表2中的實體對齊數(shù)據(jù),各算法通過大量實驗取最優(yōu)結(jié)果,實驗結(jié)果如表3所示。對各標(biāo)準(zhǔn)方法評價如下。

1)LCS算法。

文獻(xiàn)[22]中利用實體屬性,通過實體屬性值計算實體的相似度判定實體是否可以進(jìn)行對齊。由于百科類屬于UGC數(shù)據(jù),屬性值存在不規(guī)范情況,因此基于文獻(xiàn)[20]中所述算法,采用LCS算法比較實體屬性值。通過表3可以看出,僅僅利用實體屬性來對實體進(jìn)行對齊,準(zhǔn)確率、召回率及綜合評價指標(biāo)F值均較低。

2)WeightedLCS算法。

WeightedLCS算法為文獻(xiàn)[13]中對屬性進(jìn)行加權(quán)后進(jìn)行實體對齊的方法,按照統(tǒng)計信息對屬性進(jìn)行加權(quán),實驗結(jié)果如表3所示,其對齊的準(zhǔn)確程度較LCS算法下降,是由于該方法對通用屬性如人物類的“中文姓名”“出生日期”等,影視類如“影片名”“imdb編碼”等屬性依賴較重,導(dǎo)致百科數(shù)據(jù)集中分布較稀疏的屬性對實體對齊的重要性降低,而這些信息對于百科類實體對齊非常關(guān)鍵,因此對屬性進(jìn)行加權(quán)并不能有效提高中文異構(gòu)百科實體對齊的效果。

3)LCSTFIDF算法。

LCSTFIDF算法為結(jié)合了上下文信息的實體對齊方法,為每個實體上下文中出現(xiàn)的詞計算TFIDF值[23],將所有詞項的TFIDF值作為特征向量,在實體對齊問題中取得了較好表現(xiàn),但由于TFIDF方法僅考慮詞項的詞頻特征,沒有考慮詞項的語義信息,因此效果次于LCSLDA算法。

4)LDA算法。

該方法采用LDA模型對實體提取主題特征,上下文僅考慮信息,可以看出在人物類百科實體對齊中可以取得不錯表現(xiàn),然而由于人物類實體描述往往從“人物生平”“所獲成就”等方面描述,影視類實體在異構(gòu)百科數(shù)據(jù)源中存在描述差異較大的現(xiàn)象,因此對于某些類別的百科實體僅通過上下文信息進(jìn)行對齊時效果并不理想。

5)LCSLDA算法。

LCSLDA算法在人物類實體對齊數(shù)據(jù)集上實體相似度閾值ω取0.6,主題參數(shù)K取3時實體對齊的準(zhǔn)確率及F值效果最好,召回率略低于LCSTFIDF算法及LDA算法;在影視類數(shù)據(jù)集上,實體相似度閾值取0.4,主題參數(shù)K取2時準(zhǔn)確率、召回率及綜合評價指標(biāo)F值均為第一,可見采用該算法對解決中文異構(gòu)百科類實體對齊問題具有良好效果。

4結(jié)語

為解決中文異構(gòu)百科類實體對齊問題,本文提出一種基于實體屬性與上下文主題特征相結(jié)合的實體對齊LCSLDA方法。該方法基于百度百科及互動百科構(gòu)造中文RDF知識庫,通過RDFS對屬性進(jìn)行規(guī)范化,抽取實體上下文信息并利用主題模型構(gòu)造主題特征,結(jié)合了實體屬性特征與上下文語義信息解決實體對齊問題。為驗證所提算法的有效性,依照標(biāo)準(zhǔn)方法構(gòu)造了中文百科類實體對齊數(shù)據(jù)集。通過與經(jīng)典的屬性相似度算法、屬性加權(quán)算法、上下文詞頻特征模型及主題模型算法方法比較,實驗結(jié)果表明本文所提LCSLDA方法對于解決中文異構(gòu)百科類實體對齊問題具有良好效果,對具有上下文信息的實體對齊問題具有一定通用性。

后續(xù)的研究將進(jìn)一步優(yōu)化實體對齊模型,并考慮大規(guī)模數(shù)據(jù)處理情況和基于云計算平臺解決異構(gòu)百科實體數(shù)據(jù)融合問題,這對于百科知識庫的構(gòu)建及問答系統(tǒng)的性能提升具有重要意義。

參考文獻(xiàn):

[1]

BERNERSLEE T, HENDLER J, LASSILA O. The semantic Web [J]. Scientific American, 2001, 284(5): 28-37.

[2]

BOLLACKER K, EVANS C, PARITOSH P, et al. Freebase: a collaboratively created graph database for structuring human knowledge [C]// ACM SIGMOD 2008: Proceedings of the 2008 Association for Computing Machinerys Special Interest Group on Management of Data. New York: ACM, 2008: 1247-1250.

[3]

LEHMANN J, ISELE R, JAKOB M, et al. DBpedia—a largescale, multilingual knowledge base extracted from wikipedia [J]. Semantic Web, 2015(2): 167-195.

[4]

BIEGA J, KUZEY E, SUCHANEK F M. Inside YAGO2s: a transparent information extraction architecture [C]// Proceedings of the 22nd International Conference on World Wide Web Conference. New York: ACM, 2013: 325-328.

[5]

PHILPOT A, HOVY E, PANTEL P. The Omega ontology [C]// OntoLex05: Proceedings of the 2nd International Joint Conference on Natural Language Processing Workshop on Ontologies and Lexical Resources. Cambridge, UK: Cambridge University Press, 2005: 59-66.

[6]

LI M, SHI Y, WANG Z, et al. Building a largescale crosslingual knowledge base from heterogeneous online wikis [M]// Natural Language Processing and Chinese Computing. Berlin: Springer, 2015: 413-420.

[7]

MADHU G, GOVARDHAN A, RAJINIKANTH T V. Intelligent semantic Web search engines: a brief survey [J]. International Journal of Web & Semantic Technology, 2011, 2(1): 34-42.

[8]

HAN X, SUN L. A generative entitymention model for linking entities with knowledge base [C]// ACLHLT 2011: Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language TechnologiesVolume 1. Stroudsburg, PA: Association for Computational Linguistics, 2011: 945-954.

[9]

NOV O. What motivates wikipedians [J]. Communications of the ACM, 2007, 50(11): 60-64.

[10]

SLEEMAN J, FININ T. Computing FOAF coreference relations with rules and machine learning [C]// SDoW2010: Proceedings of the 3rd International Workshop on Social Data on the Web. Berlin: Springer, 2010: 1-11.

[11]

ZHENG Z, SI X, LI F, et al. Entity disambiguation with freebase [C]// Proceedings of the 2012 IEEE/WIC/ACM International Joint Conferences on Web Intelligence and Intelligent Agent Technology. Washington, DC: IEEE Computer Society, 2012: 82-89.

[12]

鄭杰,茅于杭.基于語境的語義排歧方法[J].中文信息學(xué)報,2000,14(5):1-7.(ZHENG J, MAO Y H. Word sense tagging method based on context [J]. Journal of Chinese Information Processing, 2000, 14(5): 1-7.)

[13]

張曉輝,蔣海華,邸瑞華.基于屬性權(quán)重的鏈接數(shù)據(jù)共指關(guān)系構(gòu)建[J].計算機(jī)科學(xué),2013,40(2):40-43.(ZHANG X H, JIANG H H, DI R H. Property weight based coreference resolution for linked data [J]. Computer Science, 2013, 40(2): 40-43.)

[14]

GOZUDELI Y, KARACAN H, YILDIZ O, et al. A new method based on tree simplification and schema matching for automatic Web result extraction and matching [C]// IMECS 2015: Proceedings of the International MultiConference of Engineers and Computer Scientists. Hong Kong: Newswood Limited, 2015, 1:369-373.

[15]

MILLER E. An introduction to the resource description framework [J]. Bulletin of the American Society for Information Science and Technology, 1998, 25(1): 15-19.

[16]

DONG L, WEI F, ZHOU M, et al. Question answering over freebase with multicolumn convolutional neural networks [C]// ACLIJCNLP 2015: Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2015, 1: 260-269.

[17]

MCBRIDE B. The Resource Description Framework (RDF) and its vocabulary description language RDFS [M]// Handbook on Ontologies. Berlin: Springer, 2004: 51-65.

[18]

BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation [J]. Journal of Machine Learning Research, 2003, 3: 993-1022.

[19]

GRIFFITHS T. Gibbs sampling in the generative model of latent Dirichlet allocation [R]. Stanford: Stanford University, 2002.

[20]

BERGROTH L, HAKONEN H, RAITA T. A survey of longest common subsequence algorithms [C]// SPIRE 2000: Proceedings of the Seventh International Symposium on String Processing and Information Retrieval. Piscataway, NJ: IEEE, 2000: 39-48.

[21]

朱敏,賈真,左玲.中文微博實體鏈接研究[J].北京大學(xué)學(xué)報(自然科學(xué)版),2014,50(1):73-78.(ZHU M, JIA Z, ZUO L. Research on entity linking of Chinese micro blog [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2014, 50(1): 73-78.)

[22]

RAIMOND Y, SUTTON C, SANDLER M B. Automatic interlinking of music datasets on the semantic Web [C]// LDOW 2008: Proceedings of the 1st Workshop about Linked Data on the Web. New York: ACM, 2008, 369: 1-8.

[23]

MORI J, TSUJISHITA T, MATSUO Y, et al. Extracting relations in social networks from the Web using similarity between collective contexts [C]// ISWC 2006: Proceedings of the 5th International Semantic Web Conference. Berlin: Springer, 2006, 4273: 487-500.

猜你喜歡
知識庫百科異構(gòu)
離散異構(gòu)線性多智能體系統(tǒng)的輸出一致性
試論同課異構(gòu)之“同”與“異”
樂樂“畫”百科
我國機(jī)構(gòu)知識庫內(nèi)容質(zhì)量服務(wù)探討
深度揭示小數(shù)本質(zhì)的課堂教學(xué)——四位名師《小數(shù)的意義》同課異構(gòu)的分析與啟示
凝聚與鋪張——孫紹振教授《以丑、呆為美》兩岸同課異構(gòu)教學(xué)觀摩后記
探索百科
超有趣的互動百科
基于Lucene搜索引擎的研究
位置與方向測試題
会宁县| 义乌市| 康定县| 昆明市| 百色市| 宿州市| 巴里| 依兰县| 新建县| 金川县| 滦南县| 咸丰县| 靖远县| 南京市| 安龙县| 托里县| 柏乡县| 松阳县| 吴旗县| 临夏县| 安国市| 崇文区| 会泽县| 阳东县| 修武县| 盱眙县| 门头沟区| 河北省| 三江| 通海县| 宁波市| 达孜县| 新干县| 改则县| 广丰县| 贡觉县| 宁化县| 罗山县| 澄迈县| 甘泉县| 莫力|