裴厚偉 丁沖沖
摘要:本體在處理海量異構(gòu)信息,實現(xiàn)知識的共享和復(fù)用,更好的實現(xiàn)語義的推理有著天然的優(yōu)越性,然而目前本體構(gòu)建的過程仍然需要大量的人工參與,因此如何實現(xiàn)本體的自動構(gòu)建正成為學(xué)術(shù)界研究的熱點問題。該文提出了一種改進(jìn)的基于詞語共現(xiàn)的領(lǐng)域本體構(gòu)建方法,實驗表明,該構(gòu)建方法對于解決本體構(gòu)建問題有著較好的可信度。
關(guān)鍵詞:領(lǐng)域本體;自動構(gòu)建;詞語共現(xiàn)
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2014)32-7562-05
本體這一概念最早起源于哲學(xué)領(lǐng)域,其最初出現(xiàn)是為了回答萬物本質(zhì)問題,后被引入計算機領(lǐng)域。目前針對本體尚無一種統(tǒng)一的定義,Gruber認(rèn)為本體是形式化的,對于共享概念體系的明確而又詳細(xì)的說明[1]。Studer擴展了此概念,他認(rèn)為本體是共享概念模型的明確的形式化規(guī)范說明[2]。作為一種能在語義和知識層次上描述領(lǐng)域知識的有效工具,本體在知識表示、電子商務(wù)、人工智能、圖書情報上有著廣泛的應(yīng)用價值。但是目前真正投入使用的本體還很少。其主要原因是本體大多依靠領(lǐng)域?qū)<覅⑴c手動構(gòu)建,費時費力,因此如何利用現(xiàn)有技術(shù),實現(xiàn)本體的自動構(gòu)建越來越受到人們的關(guān)注。
目前針對本體自動構(gòu)建主要有兩種方法:第一種是利用現(xiàn)成的語料庫進(jìn)行概念及關(guān)系獲取,如Philipp Cimiano[3],Roberto Navigli[4]等利用領(lǐng)域詞典WordNet獲取概念以及概念之間關(guān)系,其本體構(gòu)建結(jié)果往往高度依賴于詞典本身,國內(nèi)劉柏嵩[5],肖奎[6]等也針對此方法進(jìn)行了相關(guān)研究。另一種方法直接從信息源進(jìn)行抽取,具體方法主要可分為:基于統(tǒng)計學(xué)方法、基于規(guī)則匹配方法、基于關(guān)聯(lián)規(guī)則方法。其中前兩種方法較為主流,其主要原因是基于關(guān)聯(lián)規(guī)則方法往往具有較高的時間復(fù)雜度,同時構(gòu)建結(jié)果亦不理想。Navigli R[7]、Dan Crow [8]使用預(yù)定義的規(guī)則,針對非結(jié)構(gòu)數(shù)據(jù)進(jìn)行規(guī)則匹配,以此實現(xiàn)本體自動構(gòu)建。耿騫[9]利用詞語共現(xiàn)獲取領(lǐng)域概念,是該方法仍然需要利用詞典進(jìn)行分詞,同時對字典的層次結(jié)構(gòu)有嚴(yán)格的要求。
本文提出了一種改進(jìn)的本體構(gòu)建方法,從圖情文獻(xiàn)數(shù)據(jù)庫抽取領(lǐng)域知識,利用詞語共現(xiàn)以及改進(jìn)的有向親和系數(shù)實現(xiàn)領(lǐng)域本體的自動構(gòu)建,并給出了可視化實驗結(jié)果。
1 基本思路
本體自動構(gòu)建主要包括術(shù)語的自動抽取及術(shù)語關(guān)系的獲取。
術(shù)語的抽取的研究方法有基于規(guī)則[10]、基于統(tǒng)計學(xué)[11]以及二者融合的方法[12]。對于情報領(lǐng)域領(lǐng)等專業(yè)學(xué)科領(lǐng)域,關(guān)鍵詞是較為有效地本體術(shù)語。然而一篇學(xué)術(shù)文獻(xiàn)的關(guān)鍵詞往往較少,這對于構(gòu)建術(shù)語關(guān)系遠(yuǎn)遠(yuǎn)不夠,因此必須設(shè)計出一種關(guān)鍵詞擴展方法用以獲得更多的關(guān)鍵詞信息。
術(shù)語關(guān)系抽取是指從一定規(guī)模的語料庫中抽取出反應(yīng)某一領(lǐng)域文本特征的兩兩詞語間的語義關(guān)系。目前,針對術(shù)語關(guān)系抽取方法,總體上可以分為3種:手工獲取方法、模版匹配方法、統(tǒng)計學(xué)方法。手工獲取方法需要大量專家參與,效率低。模版匹配方法需要提前定義好一組通用性較強并且要求模版無歧義,對模版依賴性強。統(tǒng)計學(xué)方法是目前主流的術(shù)語關(guān)系抽取方法,根據(jù)一些經(jīng)典的統(tǒng)計分布方法,給出術(shù)語之間的語義關(guān)系。詞語共現(xiàn)指詞與詞之間在同一種語境中同時出現(xiàn)的組合關(guān)系,如果兩個詞語在文獻(xiàn)中共現(xiàn)的次數(shù)越頻繁,則說明這兩個詞語之間越可能具有親密的關(guān)系,即兩個詞語共現(xiàn)頻率越大,這兩個詞語越相關(guān)。在一個本體模型中,層次關(guān)系是最為重要的組成部分,我們認(rèn)為語義層次高的關(guān)鍵詞往往頻率較高,語義層次低的關(guān)鍵詞往往頻率較低,可以借此構(gòu)造層次語義模型。同時對于兩個不同的關(guān)鍵詞術(shù)語,如果兩術(shù)語擁有相同的術(shù)語部件,并且前者擁有的術(shù)語部件少于后者,那么我們認(rèn)為后者是前者的下位詞[13],如圖書館、高校圖書館,顯而易見,圖書館是高校圖書館的上位詞。
2 具體算法
3.3 本體的可視化結(jié)果
本體的可視化是反映本體層次結(jié)構(gòu)、屬性關(guān)系最直觀、最簡潔的方式,可以為用戶提供最直觀的推理結(jié)果,筆者利用prefuse開源包,給出了本體的可視化結(jié)果,實驗證明,該方法具有較好的效果。為了確保共現(xiàn)關(guān)系的有效性,我們只取和關(guān)鍵詞共現(xiàn)強度最大的十個相關(guān)關(guān)鍵詞,通過調(diào)節(jié)節(jié)點相關(guān)度以及節(jié)點頻率,以尋求相關(guān)關(guān)鍵詞的共現(xiàn)關(guān)系。如圖1所示,可以通過調(diào)節(jié)節(jié)點相關(guān)度、文檔頻率發(fā)現(xiàn)共現(xiàn)詞之間的共現(xiàn)關(guān)系。實驗結(jié)果較為理想,概念以圖書館為中心,向外擴散。我們根據(jù)2.2.3節(jié)所介紹本體層次模型構(gòu)建方法,構(gòu)建結(jié)果如圖2,通過此方法,我們可以很直觀的看出本體間概念以及概念之間的關(guān)系。
4 總結(jié)
本文針對本體自動構(gòu)建開展了全面的剖析與研究,首先分析了目前本體自動構(gòu)建的相關(guān)方法,并提出了一種基于詞語共現(xiàn)的改進(jìn)的本體構(gòu)建方法,同時給出了本體可視化結(jié)果,實驗證明,該方法是有效的。
參考文獻(xiàn):
[1] Tom Gruber.A translation approach to portable ontology specifications[J].Knowledge Acquisition,1993(5):199-220.
[2] Studer R,Benjamins V R,F(xiàn)ensel D.Knowledge Engineering:Principles and Methods [J].Data and Knowledge Engineering,1998(1-2):161-197.
[3] Philipp Cimiano,J V?lker.Text2Onto - A Framework for Ontology Learning and Data-driven Change Discovery.Natural Language Processing and Information Systems[C].10th International Conference on Applications of Natural Language to Information Systems,Alicante,Spain,NLDB 2005: 227—238.
[4] Roberto Navigli,Paola Velardi.Learning domain ontologies from document warehouses and dedicated web sites[J]. Association for Computational Linguistics, 2004(2):151-179.
[5] Liu Baisong,Gao ji.General ontology learning framework[J].Journal of Southeast University (English Edition),2006,22(3):381 -384.
[6] 肖奎,譚小虎,吳天吉,等.一種面向領(lǐng)域的本體自動構(gòu)建方法[J].小型微型計算機系統(tǒng),2013,34(7):14-17.
[7] Navigli R,Velardi P,Gangemi.A Ontology learning and its application to automated terminology translation[J].Intelligent Systems,IEEE ,2003(1):22-31.
[8] Dan Crow,John DeSanto. A hybrid approach to concept extraction and recognition-based matching in the domain of human resources[C].6th IEEE International Conference,2004:535- 541.
[9] 耿騫,耿崇.利用詞語共現(xiàn)進(jìn)行Ontology的概念獲取[J].現(xiàn)代圖書情報技術(shù),2006, 1(2) :43-45.
[10] Gacitua R,Sawyer P,Rayson P.A flexible framework to experiment with ontology learning techniques[M].Research and Development in Intelligent Systems XXIV,2008:153-166.
[11] 孫繼鵬,賈民,劉增寶,等.一種面向文本的概念抽取方法的研究[J].計算機應(yīng)用與軟件,2009,26(9):28-30.
[12] 張雷瀚,呂學(xué)強,李卓,等.領(lǐng)域本體術(shù)語的抽取方法研究[J].情報學(xué)報,2014,33(2):167-174.
[13] 唐曉波.肖璐.基于詞語共現(xiàn)的多用戶興趣本體構(gòu)建研究[J].情報理論與實踐,2012(5):99-102.
[4] Roberto Navigli,Paola Velardi.Learning domain ontologies from document warehouses and dedicated web sites[J]. Association for Computational Linguistics, 2004(2):151-179.
[5] Liu Baisong,Gao ji.General ontology learning framework[J].Journal of Southeast University (English Edition),2006,22(3):381 -384.
[6] 肖奎,譚小虎,吳天吉,等.一種面向領(lǐng)域的本體自動構(gòu)建方法[J].小型微型計算機系統(tǒng),2013,34(7):14-17.
[7] Navigli R,Velardi P,Gangemi.A Ontology learning and its application to automated terminology translation[J].Intelligent Systems,IEEE ,2003(1):22-31.
[8] Dan Crow,John DeSanto. A hybrid approach to concept extraction and recognition-based matching in the domain of human resources[C].6th IEEE International Conference,2004:535- 541.
[9] 耿騫,耿崇.利用詞語共現(xiàn)進(jìn)行Ontology的概念獲取[J].現(xiàn)代圖書情報技術(shù),2006, 1(2) :43-45.
[10] Gacitua R,Sawyer P,Rayson P.A flexible framework to experiment with ontology learning techniques[M].Research and Development in Intelligent Systems XXIV,2008:153-166.
[11] 孫繼鵬,賈民,劉增寶,等.一種面向文本的概念抽取方法的研究[J].計算機應(yīng)用與軟件,2009,26(9):28-30.
[12] 張雷瀚,呂學(xué)強,李卓,等.領(lǐng)域本體術(shù)語的抽取方法研究[J].情報學(xué)報,2014,33(2):167-174.
[13] 唐曉波.肖璐.基于詞語共現(xiàn)的多用戶興趣本體構(gòu)建研究[J].情報理論與實踐,2012(5):99-102.
[4] Roberto Navigli,Paola Velardi.Learning domain ontologies from document warehouses and dedicated web sites[J]. Association for Computational Linguistics, 2004(2):151-179.
[5] Liu Baisong,Gao ji.General ontology learning framework[J].Journal of Southeast University (English Edition),2006,22(3):381 -384.
[6] 肖奎,譚小虎,吳天吉,等.一種面向領(lǐng)域的本體自動構(gòu)建方法[J].小型微型計算機系統(tǒng),2013,34(7):14-17.
[7] Navigli R,Velardi P,Gangemi.A Ontology learning and its application to automated terminology translation[J].Intelligent Systems,IEEE ,2003(1):22-31.
[8] Dan Crow,John DeSanto. A hybrid approach to concept extraction and recognition-based matching in the domain of human resources[C].6th IEEE International Conference,2004:535- 541.
[9] 耿騫,耿崇.利用詞語共現(xiàn)進(jìn)行Ontology的概念獲取[J].現(xiàn)代圖書情報技術(shù),2006, 1(2) :43-45.
[10] Gacitua R,Sawyer P,Rayson P.A flexible framework to experiment with ontology learning techniques[M].Research and Development in Intelligent Systems XXIV,2008:153-166.
[11] 孫繼鵬,賈民,劉增寶,等.一種面向文本的概念抽取方法的研究[J].計算機應(yīng)用與軟件,2009,26(9):28-30.
[12] 張雷瀚,呂學(xué)強,李卓,等.領(lǐng)域本體術(shù)語的抽取方法研究[J].情報學(xué)報,2014,33(2):167-174.
[13] 唐曉波.肖璐.基于詞語共現(xiàn)的多用戶興趣本體構(gòu)建研究[J].情報理論與實踐,2012(5):99-102.