一種基于多種類型匹配器的本體映射方法

2015-05-15 01:53張凌宇馬志晟陳淑鑫

鄭州大學(xué)學(xué)報（工學(xué)版） 2015年3期

關(guān)鍵詞：權(quán)值實例名稱

張凌宇,馬志晟,陳淑鑫

(1.齊齊哈爾大學(xué)計算中心,黑龍江齊齊哈爾161006;2.齊齊哈爾大學(xué)教務(wù)處,黑龍江齊齊哈爾161006)

一種基于多種類型匹配器的本體映射方法

張凌宇1,馬志晟2,陳淑鑫1

(1.齊齊哈爾大學(xué)計算中心,黑龍江齊齊哈爾161006;2.齊齊哈爾大學(xué)教務(wù)處,黑龍江齊齊哈爾161006)

不同本體之間的異構(gòu)性嚴(yán)重地影響了本體之間的知識共享與重用，為此，提出一種基于多種類型匹配器的本體映射方法OM-Matchers(Ontology mapping based on multiple matchers).在建立本體之間映射關(guān)系的過程中，OM-Matchers先使用多個類型的匹配器從本體模型中抽取相應(yīng)類型的信息;然后這些匹配器為概念對計算相似度值，其中概念對所包含的兩個概念來自于不同的本體;最后為待映射的本體模型建立相似度矩陣，并采用迭代策略完成本體映射任務(wù).為了驗證本文所提方法在處理本體映射問題時的可行性與有效性，采用OAEI所提供的共享數(shù)據(jù)集的benchmarks子集來測試OM-Matchers.實驗結(jié)果表明:OM-Matchers可以有效地建立異構(gòu)本體之間的映射關(guān)系.

本體;本體映射;匹配器;迭代策略

0 引言

本體模型［1］作為一種明確的、共享的概念模型,可以為語義Web［2］領(lǐng)域提供形式化的規(guī)范說明.然而,不同的本體構(gòu)建者可能采取不同的方法和不同觀點,建立可以滿足具體應(yīng)用需求的本體模型,這樣必然會造成本體之間的語義沖突和結(jié)構(gòu)異構(gòu)等問題.因此,需要使用本體映射方法［3］來解決異構(gòu)本體之間知識共享、重用以及語義查詢等互操作問題.

目前,國內(nèi)外的很多研究者都在從事于本體映射方法的研究.采用不同的數(shù)據(jù)模型和技術(shù)方法來完善本體映射方法的性能已經(jīng)成為語義Web領(lǐng)域內(nèi)的一個熱點研究課題.為此,筆者提出一種基于多種類型匹配器的本體映射方法(OM-Matchers).為了提高本體映射的精確度, OM-Matchers采用名稱匹配器、內(nèi)容匹配器、屬性匹配器、實例匹配器和結(jié)構(gòu)匹配器,分別計算概念之間不同類型信息之間的相似度.然后,OMMatchers根據(jù)不同類型信息占總信息量的比重為這些匹配器分配權(quán)值,并為概念對計算一個最終的相似度值.最后,OM-Matchers采用迭代的映射算法為相似度大于給定閾值的概念對建立映射關(guān)系.需要說明的是,迭代映射算法將反復(fù)地執(zhí)行相似度計算和映射篩選的步驟,直到算法找不出新的映射關(guān)系為止.

1 相關(guān)工作

為了提高概念相似度計算的精確度,很多本體映射方法對概念的不同方面進(jìn)行了相似性的比較.例如,Cupid［4］在映射過程中對概念的四種信息(名稱信息、數(shù)據(jù)類型信息、約束信息以及元素所在的子結(jié)構(gòu)信息)進(jìn)行相似性比較.GLUE［5］在計算概念之間不同方面的相似度時,主要比較概念的名稱、標(biāo)識信息和實例之間的差異性.Ri-MOM［6］在計算概念相似度時,提出了多種決策:基于名稱的決策、基于實例的決策和基于描述信息的決策、基于上下文的決策和基于約束的決策. ASMOV［7］使用概念的語言信息、內(nèi)部結(jié)構(gòu)信息、外部結(jié)構(gòu)信息和個體信息,計算概念之間的相似度.MSBN［8］是一種基于多策略和貝葉斯網(wǎng)絡(luò)的本體映射方法,它使用概念名稱的編輯距離、概念的描述信息和實例特征,計算概念之間的相似度,最后使用本體的結(jié)構(gòu)信息來輔助映射的查找.

在一些經(jīng)典的本體映射框架中,概念相似度計算是一個重要的步驟.例如:QOM［9］是一種快速本體映射框架,它的核心由相似度計算與合并模塊、建立映射模塊和迭代控制模塊組成.為了大幅度地提高映射效率,它的相似度計算模塊和建立映射模塊提供了人工監(jiān)控機(jī)制,使得運行時間復(fù)雜度從原來的O(n2)降低為O(n·lg(n)). MAFRA［10］利用多種相似度計算方法來建立語義橋(Semantic bridge),再配合其他的功能模塊形成分布式本體映射框架.

2 多種類型匹配器

匹配器(matcher)是計算概念相似度的基本單元,它可以解析本體文本文件OWL,并為計算概念相似度抽取可以處理的信息.筆者總結(jié)出以下5種匹配器,并給出它們的處理對象、工作原理以及在本體映射過程中的作用.

(1)詞法匹配器.詞法匹配器也可細(xì)分成:名稱匹配器和內(nèi)容匹配器.名稱匹配器可以計算不同概念名稱之間的相似度;內(nèi)容匹配器可以計算不同概念標(biāo)簽以及描述信息之間的相似度.下面的兩個公式分別給出名稱匹配器和內(nèi)容匹配器的計算方法.其中:C1和C2表示兩個概念,S表示它們最近公共父節(jié)點,函數(shù)W()返回概念內(nèi)容所包含的詞集合,函數(shù)size()返回集合所包含元素的數(shù)量.

(2)屬性匹配器.屬性由定義域和值域構(gòu)成,它是定義概念內(nèi)在含義的基本元素.為了計算概念的屬性相似度,屬性匹配器首先會分析屬性名稱的語義.如果屬性名稱不是由簡單的標(biāo)記符號組成,屬性匹配器將利用語義詞典庫來計算屬性名稱之間的相似度,這個計算過程與名稱匹配器相似.如果屬性的名稱是由簡單的助記符號構(gòu)成,屬性匹配器可以具體地分析屬性定義域之間的相似度和屬性值域之間的相似度,最后計算出屬性之間的相似度.計算公式如公式(3)所示,其中函數(shù)D()和R()分別返回屬性的定義域和值域,如果屬性的定義域(值域)相同函數(shù)Sim()返回1,否則返回0.

(3)實例匹配器.實例匹配器可以采用概念的聯(lián)合概率分布(joint distribution)來計算概念之間的相似度,也就是說實例匹配器采用Jaccard系數(shù)計算概念之間的相似度,如下所示.

式中:x和y表示兩個概念節(jié)點;P(x,y)表示同時屬于x和y的實例占總實例的比例.分母表示x和y包含的所有實例占總實例的比例.

(4)結(jié)構(gòu)匹配器.結(jié)構(gòu)匹配器在計算概念之間相似度時,將找出概念的父類概念和子類概念,然后綜合考慮它們之間的相似性.概念的父類概念和子類概念可以被組成一個概念集合,這個集合可以約束概念的語義范圍,因此可被稱之為概念的上下文(context)集合.這樣,結(jié)構(gòu)匹配器可以采用Jaccard系數(shù)來計算概念在結(jié)構(gòu)方面的相似性.

(5)權(quán)值分析器.權(quán)值分析器為匹配器所分配的權(quán)值將由本體所包含的具體信息而定.例如,假設(shè)待映射的本體屬于上層的抽象本體,它們不包含任何的實例信息,那么在映射過程中,權(quán)值分析器將實例匹配器的權(quán)值設(shè)置成0.在一般情況下,權(quán)值統(tǒng)計出各類信息占總信息量的比例,分析出各類信息的重要程度并為相應(yīng)的匹配器賦予適當(dāng)?shù)臋?quán)值.例如,在本體模型benchmark中(詳見第四節(jié)),統(tǒng)計出描述概念的名稱、內(nèi)容、屬性、實例和結(jié)構(gòu)信息的數(shù)目分別為32,27,65,112,267.那么,上述5種匹配器的權(quán)值分別為:0.06,0.05,0.13, 0.22,0.53.

利用各個匹配器的計算結(jié)果和它們相應(yīng)的權(quán)值,可以計算出概念之間的相似度,如下所示:

3 基于多類型匹配器的本體映射方法

筆者在前面匹配器的基礎(chǔ)上提出一種迭代策略的本體映射方法:OM-Matchers(Ontology Mapping based on multi-Matchers).映射過程如圖1所示.

圖1 OM-Matchers的映射過程Fig.1 Themapping process of OM-Matchers

OM-Matchers以2個本體模型O1和O2作為輸人;然后將本體內(nèi)的信息分類,并將不同類型的信息發(fā)送給相應(yīng)的匹配器;然后,匹配器為概念計算多個相似度值;權(quán)值分析器再根據(jù)各種類型信息在本體映射過程中所起到的作用,為匹配器指定權(quán)值;利用匹配器的計算結(jié)果和權(quán)值,OM-Matchers為本體O1和O2生成相似度矩陣,其中O1和O2所包含的概念分別用于標(biāo)識矩陣的行和列;最后,采用迭代的映射策略反復(fù)地更新相似度矩陣,當(dāng)矩陣中的元素大于給定的閾值時,為行標(biāo)識和列標(biāo)識所對應(yīng)的概念建立映射關(guān)系,存儲于映射結(jié)果集合.經(jīng)過多次迭代映射過程后,相似度矩陣中的元素將收斂于一個固定值.這時,映射過程結(jié)束,方法OM-Matchers返回映射結(jié)果集合.

假設(shè),本體O1和O2的概念集合分別是{C1, C2,…,Cm}和{…,},概念之間的關(guān)系如圖2所示.方法OM-Matchers的迭代映射過程可分成以下幾步來實現(xiàn).

圖2 本體O1和O2的結(jié)構(gòu)Fig.2 The structure of ontology O1and O2

(1)生成待映射概念對的堆棧(Stack).利用本體映射系統(tǒng)預(yù)先設(shè)定的閾值(t:threshold),從相似度矩陣中篩選出相似度大于t的概念對.如果有多個概念對的相似度值大于閾值t,還需要使用堆棧來暫時存儲概念對.概念對進(jìn)棧的順序由概念對中概念的層次決定.

(2)建立映射關(guān)系并生成鄰近概念集合{Set-Near}.位于Stack最低層的概念對出棧,建立概念之間映射關(guān)系,并將映射的概念對存儲于映射關(guān)系集合{Set-Mapping}.例如:概念A(yù)與B之間的映射關(guān)系為A?B.接下來,分別為概念A(yù)和B查找與它們直接相關(guān)的概念.然后,建立鄰近概念集合{Set-Near}A和{Set-Near}B.由于概念A(yù)與B之間已經(jīng)建立映射關(guān)系,可以斷定概念A(yù)與B是等價的.基于相似度傳播原理可知:概念A(yù)周圍的概念與概念B周圍的概念也可能存在映射關(guān)系.因此,為已建立映射關(guān)系的概念查找出它們的鄰近概念集合將有助于接下來的映射過程.

(3)更新相似度矩陣.使用步驟2得到兩個鄰近概念集合生成概念對.然后,再根據(jù)這些概念對,從相似度矩陣中找出相應(yīng)的相似度值.使用下面的公式(6)來修改這些相似度值,從而得到更新后的相似度矩陣.在公式(6)中,Ci∈{Set-Near}A,Cj∈{Set-Near}B.

(4)返回步驟1或者映射過程結(jié)束.方法OM-Matchers將反復(fù)地執(zhí)行步驟1到步驟3.如果相似度矩陣中的所有數(shù)據(jù)都收斂,即每次更新相似度矩陣時,所有數(shù)據(jù)的變化小于給定的閾值(t＜0.000 1),迭代映射過程結(jié)束并返回映射集合{Set-Mapping}作為方法OM-Matchers的運行結(jié)果.

圖3 O1和O2的相似度矩陣圖Fig.3 The similarity matrix for O1and O2

4 實驗分析

在實驗過程中,采用信息檢索的標(biāo)準(zhǔn)度量方法:查全率(Precision)、查準(zhǔn)率(Recall)和F參數(shù)(F-Measure),來衡量方法SM-Context的性能.

為了驗證方法OM-Matchers的映射性能,使用OAEI(Ontology Alignment Evaluation Initiative)所提供的數(shù)據(jù)集benchmarks中的部分?jǐn)?shù)據(jù)作為測試數(shù)據(jù)集.數(shù)據(jù)集benchmarks共包含了51個本體,其中本體#101為參考本體(Reference ontology),包含32個概念、65個屬性和112個實例.本體#102中的信息與參考本體#101完全不相關(guān),其他本體都是在參考本體的基礎(chǔ)上增加、修改或者刪除部分語義信息而得到的.在實驗過程中,方法OM-Matchers將分別建立參考本體與這些本體之間的映射關(guān)系.映射結(jié)果的查全率(R:Recall)、查準(zhǔn)率(P:Precision)和F系數(shù)(F:F-Measure),如表1所示.

表1 OM-Matchers的查準(zhǔn)率、查全率和F系數(shù)Tab.1 The precise，recall and F-Measure of OM-Matchers

圖4給出了方法OM-Matchers和其他幾種經(jīng)典本體映射方法的測試結(jié)果.這些方法都是采用了OAEI中的benchmark數(shù)據(jù)集作為實驗對象.實驗結(jié)果表明:方法OM-Matchers可以有效地利用本體所包含多種類型的信息,精確地計算概念之間的相似度.而且,方法OM-Matchers所采用的迭代映射策略可以反復(fù)地利用多種類型的匹配器來計算概念之間的相似度,從而提高了映射的查全率、查準(zhǔn)率和F系數(shù).

圖4 對比實驗結(jié)果Fig.4 The result of contrast test

5 結(jié)論

提出了一種基于多種類型匹配器的本體映射方法(OM-Matchers).在建立兩個本體之間映射關(guān)系的過程中,該方法利用5種匹配器(名稱匹配器、內(nèi)容匹配器、屬性匹配器、實例匹配器、結(jié)構(gòu)匹配器),統(tǒng)計不同類型信息的重要程度(即:權(quán)值)并計算出概念之間的相似度.根據(jù)計算結(jié)果,OMMatchers采用迭代的映射策略,建立本體之間的映射關(guān)系.實驗結(jié)果表明:多種類型匹配器和迭代策略的使用,可以提高OM-Matchers映射的性能參數(shù)(查全率、查準(zhǔn)率、F系數(shù)).

在接下來的研究工作中,還需要針對不同類型的知識庫來設(shè)計出更多種類的匹配器.另外,還需要為OM-Matchers設(shè)計用戶界面,以提高該方法的交互能力.這些研究工作將提高OM-Matchers的綜合處理能力.

［1］ HAASE P,HORROCKS I,HOVLAND D,et al.Optique system:towards ontology and mapping management in OBDA solutions［C］//Proceedings of the Second International Workshop on Debugging Ontologies and Ontology Mappings-WoDOOM 13.Berline:Sp ringer,2013:21-32,.

［2］ LANGE C.Ontologies and languages for representing mathematical knowledge on the semantic web［J］.Semantic Web,2013,4(2):119-158.

［3］ SHVAIKO P,EUZENAT J.Ontology matching:state of the art and future challenges［J］.IEEE Transactions on,Know ledge and Data Engineering,2013,25 (1):158-176.

［4］ MADHAVAN J,BERNSTEIN P,RAHM E.Generic schema matching with cupid［C］//proceedings of the International Conference on Very Large Databases (VLDB).Berlin:Springer,2001:49-58.

［5］ DOAN A,MADHAVAN J,DOMINGOS P,et al. Learning to map between ontologies on the semantic web［C］//Proceedings of the Eleventh International World W ide Web Conference.New York:ACM,2002: 662-673.

［6］ LI J,TANG J,LI Y,et al.RiMOM:A dynamic multi-strategy ontology alignment framework［J］. Transaction on Know ledge and Data Engineering, 2009,21(8):1218-1232.

［7］ JEAN-MARY Y,KABUKA M.ASMOV Results for OAEI 2007［C］//Proceedings of International Semantic Web Conference 2007 Ontology Matching W orkshop.Busan:Citeseer,2007:150-159.

［8］張凌宇,馬宗民.一種基于貝葉斯網(wǎng)絡(luò)模型及多策略計算的本體映射方法［J］.小型微型計算機(jī)系統(tǒng),2011,33(11):2385-2391.

［9］ EHRIG M,STAAB S.QOM:Quick ontology mapping［C］//Proceedings of the International Semantic Web Conference(ISWC).Berlin:Springer,2004:683 -697.

［10］MAEDCHE A,MOTIK B,et al.MAFRA-A MApping FRAmework for distributed ontologies［C］//Proceedings of the International Conference on Know ledge Engineering and Know ledge Management(EKAW).Berlin:Springer,2002:235-250.

A Method of Ontology Mapping based on Multiple-Matchers

ZHANG Ling-yu1,MA Zhi-sheng2,CHEN Shu-xin1
(1.Center of Computer,Qiqihar University,Qiqihar 161006,China;2.Office of Dean's,Qiqihar University,Qiqihar 161006, China)

The heterogeneity between different ontologies has seriously affected the sharing and reusing of know ledge.For this purpose,this paper presents an ontology mapping method based on multi-Matchers, called OM-matchers.During the process for creatingmapping between ontologies,OM-Matchers firstly extracts the corresponding types of information,with the help of multip le matchers.Then,all the matchers calculate sim ilarities for the concept pairs,in which concepts are from different ontologies.Finally,the sim ilaritymatrix for ontologies to be mapped is generated,and the iterative strategy is used to accomp lish the work for ontology mapping.In order to verify the feasibility and effectiveness of OM-Matchers,this paper app lies benchmarks, which is the subset of the shared ontology sets in OAEI,to test OM-Matchers.Experimental result shows that the method OM-Matchers can be used to create mapping between heterogeneous ontologies effectively.

ontology;ontology mapping;matcher;iterative strategy

TG335.58

10.3969/j.issn.1671-6833.2015.03.023

1671-6833(2015)03-0106-04

2015-01-24;

2015-03-10

國家自然科學(xué)基金資助項目(61204127);中國博士后科學(xué)基金面上項目(2012M510898);黑龍江省自然科學(xué)基金資助項目(F030503,F201336).

張凌宇(1981-),男,河北省蠡縣,齊齊哈爾大學(xué)講師,博士,研究方向為語義Web、(模糊)本體映射、(模糊)本體集成,E-mail:zhanglingyu00217@126.com.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

一種基于多種類型匹配器的本體映射方法

0 引言

1 相關(guān)工作

2 多種類型匹配器

3 基于多類型匹配器的本體映射方法

4 實驗分析

5 結(jié)論