朱杰
摘? 要:本體學(xué)習(xí)的數(shù)據(jù)源有多種多樣,其中基于文本的本體學(xué)習(xí)是目前本體學(xué)習(xí)中研究的重點(diǎn),該文從本體學(xué)習(xí)分類、本體學(xué)習(xí)內(nèi)容、本體學(xué)習(xí)過程以及目前本體學(xué)習(xí)研究中存在的主要問題等本體學(xué)習(xí)技術(shù)進(jìn)行了研究。本體越來越多的應(yīng)用在知識(shí)工程、人工智能等多個(gè)領(lǐng)域。目前本體采用的最廣泛的定義為“本體是共享概念模型的形式化規(guī)范說明”。本體是描述某個(gè)領(lǐng)域甚至更廣范圍內(nèi)的概念及概念之間的關(guān)系,使得這些概念和關(guān)系在共享的范圍內(nèi)具有大家認(rèn)可的、明確的、唯一的定義,這樣,人機(jī)之間以及機(jī)器之間就可以進(jìn)行交流。目前本體的構(gòu)建基本都是基于手工方式完成的,手工構(gòu)建方式需要依靠專家意見和計(jì)算機(jī)技術(shù),雖然可以保證質(zhì)量,但費(fèi)時(shí)費(fèi)力,嚴(yán)重影響了本體的應(yīng)用推廣。本體學(xué)習(xí)是解決本體構(gòu)建的重要手段,它綜合使用統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)等技術(shù)自動(dòng)或半自動(dòng)地構(gòu)建本體。
關(guān)鍵詞:本體學(xué)習(xí)分類? 本體學(xué)習(xí)內(nèi)容? 本體學(xué)習(xí)過程
中圖分類號(hào):TPl81 ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2019)10(a)-0255-02
1? 本體學(xué)習(xí)分類
因本體學(xué)習(xí)中需要處理的數(shù)據(jù)源結(jié)構(gòu)的不同,本體學(xué)習(xí)技術(shù)分為以下三大類。
1.1 基于結(jié)構(gòu)化數(shù)據(jù)的本體學(xué)習(xí)技術(shù)
面向結(jié)構(gòu)化數(shù)據(jù)的本體學(xué)習(xí)主要針對(duì)一些結(jié)構(gòu)規(guī)范、關(guān)聯(lián)明確的數(shù)據(jù)。主要包括關(guān)系數(shù)據(jù)庫等其他類型數(shù)據(jù)庫中的數(shù)據(jù)。
1.2 基于非結(jié)構(gòu)化數(shù)據(jù)的本體學(xué)習(xí)技術(shù)
非結(jié)構(gòu)化數(shù)據(jù)沒有固定結(jié)構(gòu),主要包括純文本、圖形、音視頻等。其中文本數(shù)據(jù)是大量存在并且非常重要的一類非結(jié)構(gòu)化數(shù)據(jù)。由于文本數(shù)據(jù)含有豐富的語義信息,需要通過統(tǒng)計(jì)以及機(jī)器學(xué)習(xí)等方向進(jìn)行本體學(xué)習(xí)。
1.3 基于半結(jié)構(gòu)化數(shù)據(jù)的本體學(xué)習(xí)技術(shù)
半結(jié)構(gòu)化數(shù)據(jù)是指缺乏嚴(yán)格結(jié)構(gòu)的數(shù)據(jù)。如Web中的HTML數(shù)據(jù)和XML數(shù)據(jù)。對(duì)這些數(shù)據(jù)可以綜合使用結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的處理方法進(jìn)行處理。
2? 本體學(xué)習(xí)內(nèi)容
Alexander Maedche等[1]將本體的結(jié)構(gòu)描述為一個(gè)五元組:O:={C,R,Hc,rel,Ao},其中C表示概念集合、R表示關(guān)系集合、Hc表示概念間的分類關(guān)系,rel表示非分類關(guān)系,Ao表示本體的公理集合。因此,概念的獲取、概念關(guān)系的獲取以及公理是本體學(xué)習(xí)研究的重點(diǎn)內(nèi)容。
2.1 概念的抽取
從純文本中抽取概念是利用本體學(xué)習(xí)技術(shù)進(jìn)行構(gòu)建本體的關(guān)鍵。
2.1.1 基于語言學(xué)方法
通過分析概念、術(shù)語的詞法規(guī)則,構(gòu)建相關(guān)匹配模板,然后利用匹配模板進(jìn)行概念抽取。這種方法的主要依據(jù)是:領(lǐng)域概念具有特殊的語法模板或語法結(jié)構(gòu),而且這是和特定語言相關(guān)聯(lián)的。
2.1.2 基于統(tǒng)計(jì)的方法
利用特定領(lǐng)域概念出現(xiàn)的頻率來抽取領(lǐng)域概念。這種方法的依據(jù)是:普通詞匯和領(lǐng)域詞匯之間在統(tǒng)計(jì)特征上是有很大差別的,這種方法可以識(shí)別領(lǐng)域概念。
2.1.3 混合方法
混合方法是將語言學(xué)和統(tǒng)計(jì)學(xué)的方法結(jié)合起來,利用兩種方法的優(yōu)點(diǎn)來進(jìn)行相關(guān)概念的抽取。
根據(jù)目前的研究狀況,國內(nèi)外研究中只要是基于統(tǒng)計(jì)的方法。
2.2 概念關(guān)系的抽取
杜小勇等人[2]在獲取本體中概念之間關(guān)系時(shí)主要考慮兩種類型的關(guān)系: 分類關(guān)系和非分類關(guān)系。其中分類關(guān)系是構(gòu)成本體的基本骨架,使得本體具有明確的層次結(jié)構(gòu),目前常用的分類關(guān)系包含以下幾種。
(1)基于模板的方法。
基于模板的方法是對(duì)相關(guān)領(lǐng)域文檔進(jìn)行分析,總結(jié)出那些頻繁出現(xiàn)的模式作為規(guī)則,對(duì)文本中的詞序列與某個(gè)模式進(jìn)行匹配判斷,若含有則識(shí)別出相應(yīng)的關(guān)系。采用基于規(guī)則的方法優(yōu)點(diǎn)是:可將符合規(guī)則的語言模式準(zhǔn)確地匹配出來;缺點(diǎn)是:由于語言的復(fù)雜性及多樣性,匹配的準(zhǔn)確度相對(duì)較低。
(2)概念聚類的方法。
聚類是一種無監(jiān)督學(xué)習(xí),能夠?qū)⑾嗨频膶?duì)象歸到同一類中。聚類時(shí)對(duì)概念間的語義距離進(jìn)行計(jì)算,依據(jù)數(shù)據(jù)對(duì)象的相似性進(jìn)行分類。目前主要的聚類方法有[3]:層次聚類算法、劃分式聚類算法、基于網(wǎng)格和密度的聚類算法等。
2.3 公理的學(xué)習(xí)
當(dāng)前對(duì)公理的學(xué)習(xí)還比較少,這也是本體學(xué)習(xí)后續(xù)需要重點(diǎn)研究的方向。
2.3.1 本體學(xué)習(xí)過程
圖1是本體學(xué)習(xí)系統(tǒng)框架,在該框架下本體學(xué)習(xí)的主要步驟。
(1)預(yù)處理模塊:將各種數(shù)據(jù)源進(jìn)行分詞、詞性標(biāo)注等預(yù)處理。
(2)學(xué)習(xí)模塊:利用統(tǒng)計(jì)、機(jī)器學(xué)習(xí)等算法進(jìn)行本體學(xué)習(xí)。
(3)將學(xué)習(xí)得到的本體呈現(xiàn)給用戶。
(4)用戶采用評(píng)價(jià)、編輯模塊對(duì)本體學(xué)習(xí)結(jié)果進(jìn)行判斷與評(píng)價(jià)。
(5)將學(xué)習(xí)完成的本體添加到本體庫中。
2.3.2 本體學(xué)習(xí)研究中存在的問題
目前本體學(xué)習(xí)主要面向的是領(lǐng)域本體,可擴(kuò)展性不強(qiáng),很難直接應(yīng)用于其他領(lǐng)域,但對(duì)于一般通用本體的自動(dòng)、半自動(dòng)構(gòu)建研究不多。目前概念關(guān)系的抽取主要是分類關(guān)系,對(duì)于非分類關(guān)系的抽取研究不夠深入,并且現(xiàn)有的方法主要依靠淺層語言處理,很難發(fā)現(xiàn)概念之間深層次的關(guān)系[4]。目前本體學(xué)習(xí)工具的功能都比較簡(jiǎn)單,由于中文的復(fù)雜性,比如中文分詞問題、一詞多性、一詞多義等,目前針對(duì)中文的本體學(xué)習(xí)工具很少,并且基本都處于原型階段。目前對(duì)本體學(xué)習(xí)效果的評(píng)價(jià)標(biāo)準(zhǔn)還比較缺乏,如何對(duì)本體學(xué)習(xí)結(jié)果進(jìn)行評(píng)價(jià),是后續(xù)需要重點(diǎn)研究的方向。
參考文獻(xiàn)
[1] Maedche A,Staab S.Ontology Learning for the Semantic Web[A].In:Proceedings of the IEEE Intelligent Systems[C].2001.
[2] 杜小勇,李曼,王珊,等.本體學(xué)習(xí)研究綜述[J].軟件學(xué)報(bào),2006,17(9):1837-1847.
[3] 孫吉貴,劉杰,趙連宇,等.聚類算法研究[J].軟件學(xué)報(bào),2008,19(1):48-61.
[4] 劉柏嵩,高濟(jì).面向知識(shí)網(wǎng)格的本體學(xué)習(xí)研究[J].計(jì)算機(jī)工程與應(yīng)用,2005(20):1-5.
[5] Studer R,Benjamins V R,F(xiàn)ensel D.Knowledge engineering,PrineiPlesAnd methods[J].Data and Knowledge Engineering,1998(25):161-197.