国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多特征表示的本體概念掛載

2012-10-15 01:51:30徐立恒來斯惟王渝麗
中文信息學(xué)報 2012年3期
關(guān)鍵詞:百科層級本體

徐立恒,劉 洋,來斯惟,劉 康,田 野,王渝麗,趙 軍

(1.中國科學(xué)院 自動化研究所 模式識別國家重點實驗室,北京100190;2.中國大百科全書出版社,北京100037)

1 引言

近年來,本體被廣泛應(yīng)用于信息集成、智能信息檢索、自然語言處理等領(lǐng)域,并被視為語義網(wǎng)應(yīng)用和解決異構(gòu)信息系統(tǒng)互操作問題的關(guān)鍵技術(shù)之一?,F(xiàn)有本體如 CYC[1]和 HowNet[2]等大多依靠專家知識人工編撰。隨著知識呈爆炸式地增長,本體創(chuàng)建已經(jīng)遇到了知識獲取瓶頸:手工編撰不僅費時費力,而且知識覆蓋率低,數(shù)據(jù)稀疏,更新緩慢。因此,有必要發(fā)展監(jiān)督或半監(jiān)督的自動本體構(gòu)建方法。人工協(xié)同創(chuàng)建本體是現(xiàn)階段較可行的方法之一,同時 Wikipedia、Freebase[3]等大規(guī)模知識庫的迅速發(fā)展,為基于網(wǎng)絡(luò)知識庫構(gòu)建本體新方法[4-5]提供了契機(jī)。

目前中文網(wǎng)絡(luò)知識庫(如維基百科中文版)沒有一個規(guī)范統(tǒng)一的分類體系,無法被用作實際應(yīng)用系統(tǒng)的支撐。中國大百科提供了一個由專家制定的權(quán)威的體系結(jié)構(gòu),但該知識體系概念數(shù)量較少。本文使用中國大百科知識體系作為目標(biāo)本體的分類體系,從網(wǎng)絡(luò)知識庫抽取概念,并將概念實例掛載到大百科知識體系的層級結(jié)構(gòu)中,從而構(gòu)建一個分類體系規(guī)范的海量中文本體。傳統(tǒng)方法往往認(rèn)為這個過程是一個文本分類問題,而忽略了網(wǎng)絡(luò)百科條目中所包含的半結(jié)構(gòu)化信息與語義信息。因此本文提出一種基于多特征表示的本體概念掛載方法。我們的主要貢獻(xiàn)在于以下兩點。

(1)提出了一種融合概念的文本內(nèi)容、語義標(biāo)簽和半結(jié)構(gòu)化特征判斷概念類別的方法。通過對網(wǎng)絡(luò)知識庫條目中多特征的綜合描述,能夠有效地捕捉條目之間語義關(guān)聯(lián);

(2)構(gòu)建了一個百萬規(guī)模概念的多領(lǐng)域中文本體,并為下一步抽取本體概念屬性、概念之間的非層級關(guān)系及問答服務(wù)等應(yīng)用建立了良好的基礎(chǔ)。

本文的其他部分按照以下安排:第二節(jié)簡要地回顧本體構(gòu)建與本體概念掛載相關(guān)工作;第三節(jié)詳細(xì)描述了我們的工作及方法;第四節(jié)展示我們構(gòu)建的大規(guī)模中文本體的相關(guān)性能與實驗結(jié)果;第五節(jié)中我們對已完成的工作進(jìn)行綜述并對將來工作進(jìn)行了展望。

2 相關(guān)工作

目前本體構(gòu)建方法主要有以下三種:基于結(jié)構(gòu)化數(shù)據(jù)的方法、基于非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)的方法[6]和基于網(wǎng)絡(luò)知識庫的方法。

基于結(jié)構(gòu)化數(shù)據(jù)的本體構(gòu)建主要從關(guān)系數(shù)據(jù)庫或面向?qū)ο髷?shù)據(jù)庫中獲取概念。這類方法主要通過對關(guān)系模式進(jìn)行語義分析,利用規(guī)則獲取本體概念和概念間關(guān)系,如 Man Li等[7]的工作。目前基于結(jié)構(gòu)化數(shù)據(jù)的本體構(gòu)建大多使用規(guī)則方法,因此擴(kuò)展性較差。

基于非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)的本體構(gòu)建主要從純文本或半結(jié)構(gòu)化網(wǎng)頁中獲取概念。主要方法有:模板方法、概念聚類方法和機(jī)器學(xué)習(xí)方法。模板方法的經(jīng)典模式是使用Hearst模板[8](形如“NP such as{NP,}* (and|or)NP”等)從純文本語料中獲取概念實例。這類方法的主要缺點是獲取候選概念的準(zhǔn)確度低,因為大量無用的概念往往也會匹配這些模式。概念聚類方法是利用同一類概念之間的語義近似關(guān)系對概念進(jìn)行聚類,如Bisson和Emde等人[9]等提出的基于FOL的聚類方法。聚類方法對概念間的層級關(guān)系抽取效果較好,但是候選概念卻需要人工輸入或使用其他工具獲得。機(jī)器學(xué)習(xí)方法通常利用監(jiān)督或半監(jiān)督方法學(xué)習(xí)分類模型并獲取概念。Cimianonce等人[10]融合了模板、句法結(jié)構(gòu)和WordNet層級分類結(jié)構(gòu)等多種信息,使用多種分類器比較了獲取概念并生成層級結(jié)構(gòu)的效果,但是其分類效果最好的SVM分類器取得的F值僅33%。

隨著網(wǎng)絡(luò)知識庫日漸成熟,基于網(wǎng)絡(luò)知識庫的本體構(gòu)建方法成為主流技術(shù)。DBpedia[5]通過分析Wikipedia網(wǎng)頁中的Category Page、Infobox等半結(jié)構(gòu)化信息將概念歸入人工定義的知識體系中,獲得約260萬概念。YAGO[4]以 WordNet的層級結(jié)構(gòu)作為知識體系,使用啟發(fā)式規(guī)則從Wikipedia中抽取概念并掛載到 WordNet類(synset)中,獲得了超過100萬個概念。這兩項工作為我們提供了一種良好的本體構(gòu)建框架:即用一種人工定義的、體系結(jié)構(gòu)良好的小規(guī)模本體作為核心,向其中大規(guī)模添加概念并獲得概念間關(guān)系。下文中我們采用這種框架進(jìn)行大規(guī)模中文本體概念掛載。

3 基于多特征表示的概念掛載

本體概念掛載包含知識體系構(gòu)建、候選概念抽取和概念間層級關(guān)系抽取三部分。本文的方法中,知識體系已由專家構(gòu)建完成,候選概念抽取自網(wǎng)絡(luò)百科條目,我們將工作的重點放在概念間層級關(guān)系的抽取上,即新增概念實例與大百科知識體系概念之間的層級關(guān)系抽取。我們綜合利用了網(wǎng)絡(luò)百科條目的多種分類特征信息抽取概念之間的層級關(guān)系。

3.1 動機(jī)

圖1是一個網(wǎng)絡(luò)百科條目示例。圖中可以表達(dá)該條目類別的信息有以下幾部分:1)標(biāo)題,如標(biāo)題“魯迅”說明該條目可能是一個人;2)正文,正文內(nèi)容詳細(xì)介紹了該知識條目;3)屬性框,屬性框(Infobox)是描述條目屬性信息的表格,圖1中右側(cè)屬性框中的“出生”、“配偶”等屬性名強(qiáng)烈提示該條目是一個人;4)開放分類,開放分類(Folksonomies)是用戶使用開放標(biāo)簽對條目的歸類信息,圖1中底部開放分類文本直接指明了“魯迅”屬于“中國現(xiàn)代作家”。5)相關(guān)詞條,條目中大量HTML鏈接指示了與“魯迅”相關(guān)的其他條目。

在分析了大量類似的百科知識條目后,針對概念間層級關(guān)系抽取問題,我們的思路大致如下:

圖1 網(wǎng)絡(luò)百科知識條目示例

(1)利用概念之間的語義相似度推斷概念所屬的類別。如描述“魯迅”的概念通常會與“郭沫若”、“郁達(dá)夫”等概念在正文、開放分類、相關(guān)詞條等內(nèi)容上相似。表1是使用3.3節(jié)中概念語義相似度計算方法得到的不同類別概念之間的相似度示例。

(2)利用上文中所述的多種特征信息綜合推斷概念所屬的類別。不同的特征表達(dá)概念類別的信息量不同,如屬性框信息中屬性“職業(yè)”的屬性值是提示概念分類的直接證據(jù),而開放分類標(biāo)簽數(shù)量多、歧義大,很難分析出主要分類標(biāo)簽。因此我們使用統(tǒng)計分類算法結(jié)合啟發(fā)式規(guī)則的方法適應(yīng)不同強(qiáng)度的特征。分類算法利用概念之間的語義相似度對概念歸類,并限制規(guī)則適用范圍;啟發(fā)式規(guī)則用于發(fā)現(xiàn)提示概念類別的直接證據(jù),并監(jiān)督指導(dǎo)分類算法。

表1 概念間相似度得分示例

根據(jù)以上思路,本文使用層級kNN算法結(jié)合啟發(fā)式規(guī)則方法實現(xiàn)本體概念間層級關(guān)系抽取。下文將對本體概念掛載方法進(jìn)行詳細(xì)介紹。

3.2 層級分類算法

我們將大百科知識庫層級體系定義為T,所有概念實例集合定義為S,需要被添加進(jìn)入大百科體系的網(wǎng)絡(luò)知識條目網(wǎng)頁集合定義為D。算法輸入待分類條目d∈D,輸出一個大百科類c∈T且知識條目d是類c的一個實例。算法核心思想是將條目d在樹結(jié)構(gòu)T中自上而下逐層分類,在每一層使用一次kNN分類與啟發(fā)式規(guī)則相結(jié)合的方法。下面是層級分類算法偽代碼。

3.3 概念語義相似度計算

概念之間的語義相似度計算是分類算法的關(guān)鍵。由于大百科知識體系中原有的概念沒有語義信息與半結(jié)構(gòu)化信息,首先需要使用函數(shù)f(s)將大百科概念s通過簡單名稱匹配映射為網(wǎng)絡(luò)知識條目。此后,我們?nèi)诤狭酥R條目的正文信息(BW)、開放分類信息(TG)和相關(guān)詞條信息(RL)計算語義相似度,計算方法如式(1)所示,其中α、β、γ為加權(quán)值。

下面介紹語義相似度值各部分的計算方法。

3.3.1 正文相似度計算

將網(wǎng)絡(luò)知識條目的正文所有內(nèi)容看作一個詞袋,則可用向量v(t1,t2,…,tn)表示正文,其中ti是詞i在條目正文中的tf-idf值。我們使用工具[9]分詞,在進(jìn)行相似度計算時,只保留名詞和動詞。則條目d與概念s映射后的條目f(s)的正文相似度為:

3.3.2 開放分類相似度計算

開放分類指用戶對知識條目的歸類標(biāo)簽。由于標(biāo)簽文本是開放的,因此同一個類的條目會擁有不同的標(biāo)簽文本。如描述地理類條目的標(biāo)簽可能有“地理”、“地點”、“地名”等多種形式,簡單的字符串匹配無法處理意思相同而形式不同的標(biāo)簽。L.Specia等在文獻(xiàn)[11]中提供了一種計算標(biāo)簽之間兩兩相似度的方法:設(shè)所有標(biāo)簽集合為T,構(gòu)建一個T×T的共現(xiàn)矩陣P,其中Pij為標(biāo)簽ti與tj在條目中的共現(xiàn)次數(shù)。則標(biāo)簽tm與tn的相似度得分為向量Pm與Pn的cos值,從而可以得到一個T×T的標(biāo)簽相似度矩陣M,其中Mnn為1.0。設(shè)條目d與概念s映射后的條目f(s)的開放分類標(biāo)簽集合分別為Td與Tf(s),兩者交集為U,Td與U 的差集為Id,Tf(s)與U 的差集為If(s),則

3.3.3 相關(guān)詞條相似度計算

相關(guān)詞條是知識條目網(wǎng)頁描述中用戶標(biāo)出的與之相關(guān)的同類知識條目,同時條目正文中的相互鏈接也可以視為相關(guān)詞條。設(shè)rf(s)(d1,d2,…,dn)表示概念s的相關(guān)詞條向量,其中d1,d2,…,dn是集合D中的所有條目。條目di與s相關(guān)定義為概念s映射為條目f(s)后的正文中存在指向di的HTML鏈接。則rf(s)中與s相關(guān)的條目di的值為1,與s不相關(guān)的條目dj的值為0,則

3.4 啟發(fā)式規(guī)則

統(tǒng)計分類方法容易湮沒知識條目中表征條目類別的直接證據(jù),因此我們在統(tǒng)計方法的基礎(chǔ)上還利用了一些啟發(fā)式規(guī)則來識別表示條目類別信息的直接證據(jù)。同時,啟發(fā)式規(guī)則的應(yīng)用范圍由統(tǒng)計分類算法限制,以提高規(guī)則的準(zhǔn)確率。下面按照優(yōu)先級從高到低順序詳細(xì)介紹啟發(fā)式規(guī)則。

3.4.1 屬性框規(guī)則

當(dāng)檢測到待分類條目d包含屬性框時,分類規(guī)則自動抽取屬性框中的屬性名與對應(yīng)屬性值。屬性框規(guī)則分為兩類:1)粗分類規(guī)則:由多個屬性名及一個大百科第一級類組成。若一個條目的屬性框中抽取的屬性名與粗分類規(guī)則的屬性名相符個數(shù)大于等于三個,則判定該條目屬于規(guī)則指定類;2)細(xì)分類規(guī)則:對應(yīng)一條粗分類規(guī)則并由多個屬性名構(gòu)成。在判斷一個條目滿足某條粗分類規(guī)則后,檢測條目的屬性框中是否包含對應(yīng)的細(xì)分類規(guī)則的屬性名。若包含,則直接使用屬性名對應(yīng)的屬性值與統(tǒng)計分類結(jié)果的前三個類名進(jìn)行匹配,判斷條目所屬的具體類別;若不包含或?qū)傩灾禑o法匹配類名,則仍使用層級分類結(jié)果。表2中是一些屬性框規(guī)則示例。

表2 屬性框規(guī)則示例

3.4.2 命名實體規(guī)則

初步統(tǒng)計網(wǎng)絡(luò)知識條目的類別,我們發(fā)現(xiàn)命名實體(人名、地名、機(jī)構(gòu)名)占條目總數(shù)約20%以上。如果可以較準(zhǔn)確識別命名實體,那么可以有效阻止機(jī)構(gòu)被識別為人物、人物被識別為著作等情況。我們使用工具[9]識別命名實體。若一個條目的標(biāo)題在正文中被識別為命名實體的比率超過75%,則認(rèn)為該條目是一個命名實體。在分類時,人工指定某些類為命名實體類,在判斷第一級類時仍使用分類算法,在下層分類中根據(jù)規(guī)則將被識別為命名實體的條目分入相應(yīng)的命名實體類中。表3中是一些命名實體規(guī)則示例。

表3 命名實體規(guī)則示例

3.4.3 定義句規(guī)則

正文中用于定義知識條目是什么的句子被稱作定義句。定義句中往往會直接給出知識條目的分類信息。我們使用句法分析工具[12]對正文首段中所有包含條目標(biāo)題的句子進(jìn)行句法分析,若句子滿足定義句規(guī)則并且規(guī)則抽取得到的分類結(jié)果存在于層級分類算法每一層的前三個結(jié)果中,則分類器采用定義句規(guī)則抽取的結(jié)果。表4中是一些定義句規(guī)則示例。

表4 定義句規(guī)則示例

4 實驗與結(jié)果

4.1 實驗數(shù)據(jù)與設(shè)置

我們從網(wǎng)絡(luò)百科知識庫爬取知識條目147萬條構(gòu)成上文中所述的待掛載條目集合D。大百科知識庫經(jīng)過人工整理得到一級類45個,類5 263個,概念實例78 292個,選取實例數(shù)目較多的大類共851個構(gòu)成層級體系T。大百科知識庫中有58 032個概念通過f(s)函數(shù)映射到網(wǎng)絡(luò)百科知識條目,這些概念構(gòu)成語義相似度計算概念實例集合S。我們設(shè)置了兩組對比實驗:1)對比正文(BW)、開放分類(TG)和相關(guān)詞條(RL)三個特征單獨使用與三個特征融合的掛載效果;2)對比只用統(tǒng)計分類算法的掛載效果與統(tǒng)計分類算法和啟發(fā)式規(guī)則結(jié)合的掛載效果。

實驗參數(shù)設(shè)置如下:閾值根據(jù)經(jīng)驗指定為θ=0.35,k、α、β、γ值由概念集S上的集內(nèi)kNN分類封閉測試得到,取k=17,令α+β+γ=1,則α=0.57,β=0.12,γ=0.31。

4.2 實驗結(jié)果與分析

對比實驗一在概念集S上進(jìn)行層級kNN分類封閉測試。表5顯示使用不同特征的每一層分類的準(zhǔn)確率。由表可知三種特征融合后比單獨使用正文文本信息的準(zhǔn)確率提升了11.8個百分點。

表5 語義相似度衡量方法效果對比

對比實驗二是大規(guī)模掛載網(wǎng)絡(luò)百科條目的開放測試,共掛載條目974 984個。我們采用隨機(jī)抽取結(jié)果并人工標(biāo)注的方式評價結(jié)果。對大百科每個大類按掛載比例隨機(jī)抽取共4 347個新增概念進(jìn)行標(biāo)注。結(jié)果如表6所示,其中BS為只使用語義相似度統(tǒng)計分類結(jié)果,HR為結(jié)合規(guī)則方法所得結(jié)果。由表可知分類算法結(jié)合啟發(fā)式規(guī)則方法比單純使用分類方法準(zhǔn)確率提高了7.6%。

表6 概念掛載準(zhǔn)確率

圖2與圖3對比了實驗參數(shù)設(shè)置對概念掛載準(zhǔn)確率的影響。圖2顯示不同k值下對S集封閉分類測試的準(zhǔn)確率,圖3是使用不同權(quán)重參數(shù)下的準(zhǔn)確率對比結(jié)果。由圖3與表5可知采用合適加權(quán)值后的分類準(zhǔn)確率可以提升4.5%。

圖2 不同k值下準(zhǔn)確率

圖3 不同權(quán)重下準(zhǔn)確率

我們分析了知識體系的層級結(jié)構(gòu)與概念類的劃分對概念掛載精度的影響。大百科知識體系中,深度大于三層的類約為42%。隨著層級的加深,同層類之間的相似性增大,掛載難度隨之增加。在掛載錯誤的實例中,約46%的實例在淺層掛載正確。分類體系數(shù)據(jù)稀疏以及實例數(shù)不平衡是導(dǎo)致掛載錯誤的另一個問題。如我們的分類體系中“交通->船舶”只有5個概念實例,而“軍事->軍艦”有56個實例,則使用分類算法時“船舶”容易被分類為“軍艦”,此類錯誤約占19%。另一方面,不同類之間的相似性易混淆概念實例的掛載。例如,“醫(yī)學(xué)->藥品”與“化學(xué)”相似、“生物->植物界”與“農(nóng)業(yè)->蔬菜”易混淆。同時,一個概念可能屬于多個類,例如,“阿司匹林”既可以是“藥品”,也可以屬于“化學(xué)”,這將是我們未來研究的重點。此外,還有一些實例難以確定其所屬類,例如,“腐敗”、“非主流”等,這類實例約占掛載總數(shù)的7%。

5 結(jié)論與展望

本文研究了一種多特征表示的本體概念掛載技術(shù),并成功將中國大百科分類體系擴(kuò)展為一個擁有百萬級概念的全領(lǐng)域中文本體。在本體概念掛載時,限定了一個概念只能擁有一個父節(jié)點,未考慮實體消歧,同時也未使用共指消解技術(shù),這兩項工作是我們后續(xù)改進(jìn)工作的重點。另外,本體構(gòu)建不僅需要概念掛載技術(shù),也需要抽取概念的屬性以及概念之間的非層級關(guān)系。下一步工作可以在本文基礎(chǔ)上進(jìn)行概念屬性與關(guān)系的抽取。

致謝

感謝清華信息科學(xué)與技術(shù)國家實驗室(籌)對本項目的資助。

[1]D.B.Lenat,et al.CYC:A Large-Scale Investment in Knowledge Infrastructure[J].Communications of the ACM.Nov.1995.38(11):33-38.

[2]Dong Z., Dong Q.2000. HowNet [EB/OL].Available at http://www.keenage.com/

[3]Kurt Bollacker,et al.Freebase:a collaboratively created graph database for structuring human knowledge[C]//Proceedings of the SIGMOD.New York:ACM..2008:1247-1250.

[4]Fabian M. Suchanek,Gjergji Kasneci, Gerhard Weikum.Yago:A Core of Semantic Knowledge[C]//Proceedings of the 16th international World Wide Web conference.New York,NY,USA:ACM Press.2007.

[5]S.Auer,et al.Dbpedia:A nucleus for a web of open data[C]//Proceedings of the 11th ISWC conference.Boston,MA,USA:Springer.2007:4825,722-735.

[6]杜小勇,李曼,王珊.本體學(xué)習(xí)研究綜述[J].軟件學(xué)報,2006,17(9):1837-1847.

[7]Li,M.,Du,X.,Wang,S.Learning Ontology from Relational Database [C]//Proceedings of the 4th International Conference on Machine Learning and Cybernetics.Guangzhou,China.2005:Vol.6:3410-3415.

[8]M.Hearst.Automatic acquisition of hyponyms from large text corpora [C]//Proceedings of the 14th International Conference on Computational Linguistics.Nantes,F(xiàn)rance.1992:539-545.

[9]Bisson,G.Learning in Fol with a Similarity Measure[C]//Proceedings of the 10th National Conference on Artificial Intelligence (AAAI'92). San Jose,California:AAAI Press.1992:82-87.

[10]Cimiano P.,et al.Learning taxonomic relations from heterogenous sources of evidence.P.Buitelaar,P.Cimiano & B.Magnini(Eds.),Ontology Learning from Text:Methods,Evaluation and Applications[M].Amsterdam,The Netherlands:IOS Press.2005:59-73.

[11]Youzheng Wu,Jun Zhao,Xu Bo.Chinese Named Entity Recognition Model Based on Multiple Features[C]//Proceedings of the Joint Conference of Human Language Technology and Empirical Methods in Natural Language Processing(HLT/EMNLP 2005).Vancouver.2005:427-434.

[12]L.Specia,E.Motta.Integrating Folksonomies with the Semantic Web [C]//Proceedings of the 4thEuropean Semantic Web Conference(ESWC 2007).Innsbruck,Austria:LNCS.2007:624-639.

[13]Xiangyu Duan,Jun Zhao. Probabilistic Parsing Action Models for Multi-Lingual Dependency Parsing[C]//Proceedings of the 2007Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning(EMNLP-CoNLL-2007).Prague,Czech Republic:LNCS.2007:940-946.

猜你喜歡
百科層級本體
Abstracts and Key Words
軍工企業(yè)不同層級知識管理研究實踐
對姜夔自度曲音樂本體的現(xiàn)代解讀
基于軍事力量層級劃分的軍力對比評估
樂樂“畫”百科
百科小知識
任務(wù)期內(nèi)多層級不完全修復(fù)件的可用度評估
《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
探索百科
超有趣的互動百科
屯留县| 古田县| 彭州市| 西峡县| 克山县| 施甸县| 漠河县| 拉孜县| 南陵县| 临夏县| 三河市| 丰城市| 康马县| 宜兰县| 京山县| 通道| 伊宁县| 崇文区| 甘肃省| 镇坪县| 青神县| 昌吉市| 金平| 德昌县| 监利县| 方山县| 蓬溪县| 朝阳市| 抚顺市| 谢通门县| 涡阳县| 玉树县| 长子县| 永兴县| 大厂| 故城县| 嵊州市| 衡阳县| 丹阳市| 宁城县| 夏河县|