基于節(jié)點(diǎn)語義相似度的本體映射方法

2024-05-15 01:44:08何杰王佳蓉王恒恒

吉林大學(xué)學(xué)報(bào)(理學(xué)版) 2024年2期

關(guān)鍵詞：精度效率

何杰　王佳蓉　王恒恒

摘要：針對本體映射特別是大尺度的異構(gòu)本體映射由于語義異質(zhì)性導(dǎo)致的映射精度和效率較低的問題，提出一種基于節(jié)點(diǎn)語義相似度的本體映射方法. 首先，研究基于網(wǎng)絡(luò)的本體解析和表示、本體自動分塊、相似子本體快速識別、基于節(jié)點(diǎn)語義的子本體映射等關(guān)鍵技術(shù); 其次，以本體對齊評估倡議評估數(shù)據(jù)集中會議本體集進(jìn)行實(shí)驗(yàn)，結(jié)果表明，該方法在性能上優(yōu)于傳統(tǒng)映射方法，在精度上高于基于片段的映射方法.

關(guān)鍵詞：語義相似度；本體映射；本體分塊；本體對齊估計(jì)倡議；精度；效率

中圖分類號： TP208文獻(xiàn)標(biāo)志碼： A文章編號： 1671-5489（2024）02-0399-11

Ontology Mapping Method Based on Node Semantic Similarity

HE Jie， WANG Jiarong， WANG Hengheng

（School of Geography and Planning， Ningxia University， Yinchuan 750021， China）

Abstract： Aiming at the problem of low mapping accuracy and efficiency caused by semantic heterogeneityin ontology mapping， especially in large-scale heterogeneous ontology mapping， we? proposed an? ontology mapping method based on node semantic similarity （NSS）. Firstly， we studied? key technologies such as web-based ontology parsing and representation， automatic ontology partitioning， rapid recognition of similar sub ontologies， and node semantic based sub ontology mapping. Secondly， the experiments were conducted on the conference ontology set in the ontology alignment evaluation initiative （OAEI） evaluation datasets. The results show that the proposed method outperforms traditional mapping methods in performance and has higher accuracy than fragment based mapping methods.

Keywords： semantic similarity; ontology mapping; ontology partition; ontology alignment evaluation initiative; precision; efficiency

0 引言

本體（ontology）是指對共享概念模型的明確形式化規(guī)范說明［1］. 本體在解決實(shí)現(xiàn)知識共享與重用等方面的語義異構(gòu)問題時(shí)具有重要作用，已被廣泛應(yīng)用于語義網(wǎng)、數(shù)據(jù)檢索、異構(gòu)數(shù)據(jù)集成與融合及工農(nóng)業(yè)、旅游、生物、地理信息等領(lǐng)域中［2-7］. 通過建立關(guān)聯(lián)本體元素（概念、關(guān)系、實(shí)例）間的語義映射關(guān)系，即本體映射實(shí)現(xiàn)異構(gòu)本體間的信息共享和集成. 目前，關(guān)于本體映射（或稱本體匹配、本體配準(zhǔn)）的研究已取得了許多成果［8-11］. 由于本體應(yīng)用范圍和本體規(guī)模的增大，導(dǎo)致不同領(lǐng)域、甚至同一領(lǐng)域的不同專家構(gòu)建的本體在語法、結(jié)構(gòu)、語義上存在差異，這些差異導(dǎo)致了本體映射精度和效率的下降，阻礙了本體間信息共享. 文獻(xiàn)［12-14］對大規(guī)模本體映射系統(tǒng)、解決方法和存在問題進(jìn)行了詳細(xì)闡述，為基于分治思想的模塊化方法［15-20］在大規(guī)模本體映射中的應(yīng)用提供了依據(jù). 模塊化本體映射技術(shù)逐漸成為解決大尺度本體映射問題的主流技術(shù)，當(dāng)前圍繞這一技術(shù)的研究主要包括： 1）通過在本體映射中引入并行運(yùn)算技術(shù)提高映射性能和質(zhì)量. 如Zhang等［21］提出了一種基于MapReduce框架和虛擬文檔技術(shù)的大規(guī)模本體匹配方法，通過三階段MapReduce的運(yùn)用使得匹配性能、精度和召回率提升，不足之處是該方法未考慮到本體結(jié)構(gòu)，算法的健壯性有待提高. 2）為提高分塊的合理性，把不同聚類算法應(yīng)用到本體分塊. 如Algergawy等［22］提出了一種可擴(kuò)展的基于結(jié)構(gòu)聚類的本體映射方法，將大型匹配問題分解為小型匹配問題，利用一種有效的輕量級語言學(xué)方法確定每兩組聚類之間的相似聚類，以獲得一組小的匹配任務(wù)，使匹配性能和質(zhì)量得以提升. 該方法雖然考慮到本體結(jié)構(gòu)，但聚類算法復(fù)雜，聚類結(jié)果對映射結(jié)果影響較大. 蔣猛等［23］提出了一種基于模塊化和局部置信度的多策略自適應(yīng)大規(guī)模本體映射算法，對本體內(nèi)部進(jìn)行聚類和模塊化，基于信息檢索策略發(fā)現(xiàn)相似子本體，利用映射策略計(jì)算子本體相似度，通過啟發(fā)式貪心策略提取映射結(jié)果并基于映射規(guī)則矯正結(jié)果，不足之處是映射結(jié)果對映射規(guī)則的依賴性強(qiáng). 葉霞等［24］提出了一種基于主成分分析和K-Modes蟻群聚類的本體映射方法，實(shí)現(xiàn)對本體概念映射關(guān)系的批量計(jì)算，同時(shí)提高了映射的準(zhǔn)確性，不足之處是算法對樣本的適應(yīng)性有待提高. 3）把場勢函數(shù)和動態(tài)分塊技術(shù)引入到本體分塊. 如仲茜等［25］提出了一種基于數(shù)據(jù)場的大規(guī)模本體映射算法，根據(jù)數(shù)據(jù)場勢函數(shù)計(jì)算周圍本體元素對當(dāng)前元素的影響不斷修正相關(guān)度，確定相關(guān)子本體，對子本體進(jìn)行更有效的映射提高映射質(zhì)量和效率，不足之處是算法中的某些參數(shù)及閾值依靠用戶反饋的方式進(jìn)行選擇和設(shè)置，用戶對數(shù)據(jù)的熟悉程度會對映射效果產(chǎn)生一定的影響. 呂青等［26］提出了一種動態(tài)分塊的大規(guī)模本體匹配方法，該方法保留了每個分塊的語義完整性，通過緊湊進(jìn)化算法優(yōu)化子匹配任務(wù)的閾值和再分配的塊標(biāo)志位，用精英解參與的概率向量更新方式對算法進(jìn)行改進(jìn)，提高了匹配質(zhì)量，但優(yōu)化算法的性能有待提升，對匹配框架的適應(yīng)性和可移植性需進(jìn)一步驗(yàn)證.

此外，為提高本體映射精度，概念語義和實(shí)例也應(yīng)用于本體映射中. 如文獻(xiàn)［27］提出了一種改進(jìn)的語義相似度計(jì)算模型，通過計(jì)算概念間的語義距離提高映射精度，不足之處是未考慮背景知識，且信息資源標(biāo)注效率也較低. 文獻(xiàn)［28-29］通過利用本體數(shù)據(jù)實(shí)例提高查全率和查準(zhǔn)率，但實(shí)例相似度計(jì)算方法通用性有待驗(yàn)證，由于實(shí)例的復(fù)雜性導(dǎo)致計(jì)算性能降低. 此外，機(jī)器學(xué)習(xí)、層次分析法、多策略本體映射等方法也被用來提高本體映射質(zhì)量和效率［30-39］.

上述本體映射方法從不同方面提高了本體映射的效率和質(zhì)量，但也存在一定問題，主要包括： 1）大規(guī)模本體分塊方法通用性較低，不同規(guī)模和領(lǐng)域本體分塊粒度不易控制，合理性不易驗(yàn)證; 2）本體映射算法雖然提高了映射質(zhì)量，但算法復(fù)雜度普遍較高，適應(yīng)性較弱，且有的算法用戶參與度高，在一定程度影響了映射效率; 3）對本體模式元素包含的語義信息利用不夠. 已有的大多數(shù)映射算法未考慮本體元素語義信息，因此，本文提出一種基于節(jié)點(diǎn)語義相似度的本體映射方法（ontology mapping method based on node semantic similarity， NSS）. 首先對待映射的源和目標(biāo)本體表示圖通過一種簡單、通用的圖（樹）分割的方式進(jìn)行動態(tài)分塊，然后基于一種輕量級圖匹配算法快速發(fā)現(xiàn)最相似的子本體塊對，最后基于節(jié)點(diǎn)語義相似度算法計(jì)算子本體塊實(shí)體間的映射關(guān)系，并以本體對齊評估倡議（ontology alignment evaluation initiative）評估數(shù)據(jù)集本體間的映射實(shí)驗(yàn)驗(yàn)證該方法的有效性. 本文方法的主要創(chuàng)新點(diǎn)為： 1）研究利用一種基于樹分裂的本體分割算法，解決了大規(guī)模本體分塊方法通用性較低的問題，算法簡單易實(shí)現(xiàn); 2）基于提出的輕量級相似子本體識別算法提高本體映射效率; 3）相似子本體映射算法中綜合考慮本體元素節(jié)點(diǎn)的語義信息解決同名異義、同義異名問題，有效提高了本體映射精度.

1 系統(tǒng)體系結(jié)構(gòu)

本文提出的NSS映射方法目標(biāo)是盡可能提高本體分塊方法的通用性，同時(shí)改進(jìn)本體映射的效率，并在映射計(jì)算中充分利用現(xiàn)有的本體元素概念語義信息和各種輔助知識（如知識庫），圖1為本文本體映射體系結(jié)構(gòu). 由圖1可見，整個系統(tǒng)由本體解析、本體分塊、相似子本體識別、子本體映射、相似值組合等5個主要部件及相似子本體管理、映射器管理、映射選擇器等3個輔助部件和1個知識庫組成. 本體解析器實(shí)現(xiàn)把輸入的各種格式（XML，OWL，RDF等）本體模式文件進(jìn)行解析并生成本體模式的內(nèi)部表示（圖或樹）；本體分塊部件則通過一種自動分割算法把本體圖/樹分割成子圖/樹；相似子本體識別部件通過輕量級的圖匹配算法快速發(fā)現(xiàn)源和目的本體子圖/樹中最相似的本體子圖/樹對，這些相似子圖/樹對會暫時(shí)保存在相似子本體管理模塊，相似子本體管理模塊可根據(jù)子本體映射結(jié)果對子本體圖/樹對進(jìn)行更新，選擇不同的子本體圖/樹對到映射執(zhí)行部件進(jìn)行更精細(xì)的匹配；子本體映射部件利用提出的基于節(jié)點(diǎn)語義相似度的映射算法計(jì)算每對子本體圖/樹中不同節(jié)點(diǎn)（實(shí)體）間的語義相似度值，節(jié)點(diǎn)語義相似度算法組合了多種映射器，這些映射器由映射管理模塊管理；映射管理模塊可以為映射執(zhí)行部件根據(jù)不同的映射任務(wù)選擇不同的映射器或映射器組合，還可以根據(jù)映射器評估結(jié)果對映射器進(jìn)行更新；相似值組合部件則通過某種組合方法（如最大值、平均值）計(jì)算各不同節(jié)點(diǎn)對的最終相似值；映射選擇器則根據(jù)給定的閾值、給定的參考映射及知識庫中的專家知識選擇最佳映射并輸出.

2 系統(tǒng)實(shí)現(xiàn)

下面介紹NSS系統(tǒng)實(shí)現(xiàn)的幾個關(guān)鍵技術(shù)，包括基于網(wǎng)絡(luò)的本體動態(tài)解析、基于樹分裂法的本體分塊、基于節(jié)點(diǎn)概念和結(jié)構(gòu)相似值的相似子本體識別及基于字符相似度和標(biāo)簽概念相似度的子本體映射技術(shù).

2.1 本體解析

網(wǎng)絡(luò)本體描述語言（OWL）允許一個模式分布在幾個文檔和名稱空間，并通過提供不同定向把在一個文檔中定義的部分導(dǎo)入到一個新文檔. 為確保本體解析過程中關(guān)聯(lián)文檔信息收集的完整性，保證關(guān)聯(lián)文檔間關(guān)系的正確性，同時(shí)為解析后本體模式表示的方便性和正確性，提出一種基于網(wǎng)絡(luò)的本體動態(tài)解析方法，即在本體模式文件解析過程中，首先對分布的相關(guān)文檔進(jìn)行解析，并把導(dǎo)入或交叉引用部分導(dǎo)入到一個單獨(dú)的文檔中然后再進(jìn)行處理. 解析過程為：首先構(gòu)建本體解析器，建立與本體資源（url）的連接，解析本體資源生成對應(yīng)的本體對象，然后解析并加載本體所有類；如果概念分層不唯一，則加載本體對應(yīng)的對象屬性和數(shù)據(jù)屬性；加載本體數(shù)據(jù)類型對象和類公理對象；如果概念分層不唯一，則加載屬性公理；對本體進(jìn)行渲染，如果標(biāo)注內(nèi)容不為空，則首先渲染標(biāo)注內(nèi)容，然后渲染本體類、數(shù)據(jù)類型、對象屬性、數(shù)據(jù)屬性、標(biāo)注屬性，最后渲染類公理及屬性公理，解析過程結(jié)束. 解析結(jié)束后本體資源在內(nèi)部統(tǒng)一表示成本體模式圖或樹的形式.

算法1

本體模式解析.

輸入：本體模式文件（url）；

輸出：本體模式表示圖G；

ParseAndRenderOntology（url）

步驟1） parser=getOWLRDFParser（）;//構(gòu)建本體解析器

步驟2） connection=getOWLConnection（）;//獲取連接對象

步驟3） parser.setConnection（connection）;//建立連接

步驟4） owlOntology=parser.parseOntology（url）;//解析本體資源文件

步驟5） loadClass（owlOntology）;//加載所有本體類

步驟6） if（！[KG-*2]conceptHiearchyOnly）;//如果概念分層不唯一

步驟7） loadObjectProperty（owlOntology）;//加載本體所有對象屬性

步驟8） loadDataProperty（owlOntology）;//加載本體所有數(shù)據(jù)屬性對象

步驟9） loadDataType（owlOntology）;//加載本體所有數(shù)據(jù)類型對象

步驟10） loadClassAxiom（owlOntology）;//加載本體所有類公理對象

步驟11） if（！[KG-*2]conceptHiearchyOnly）;//如果概念分層不唯一

步驟12） loadPropertyAxiom（owlOntology）;//加載本體所有屬性公理對象

步驟13） if（！[KG-*2]owlOntology.getAnnotations（））;//如果本體標(biāo)注不為空

步驟14） renderAnnotationContent（）;//渲染標(biāo)注內(nèi)容

步驟15） renderClass（owlOntology）;//渲染本體類

步驟16） renderDataType（owlOntology）;//渲染本體數(shù)據(jù)類型

步驟17） renderObjectProperty（owlOntology）;//渲染本體對象屬性

步驟18） renderDataProperty（owlOntology）;//渲染本體數(shù)據(jù)屬性

步驟19） renderAnnotationProperty（owlOntology）;//渲染本體標(biāo)注屬性

步驟20） renderClassAxiom（owlOntology）;//渲染本體類公理

步驟21） renderPropertyAxiom（owlOntology）.//渲染本體屬性公理，算法結(jié)束

本文以本體對齊評估倡議2021年度評估數(shù)據(jù)集中會議本體集（https：//oaei.ontolgymatching.org/2021/conference/index.html）中的本體模式文件crs_dr.owl為例，圖2（A）為該模式文件的解析前owl描述內(nèi)容部分片段，該部分片段描述了person，author，chair，participant，reviewer等5個類，其中person類是author，chair，participant，reviewer類的父類. 圖2（B）為其解析后的圖表示形式.

2.2 本體分塊

為提高本體映射性能、降低本體映射規(guī)模和復(fù)雜度、減少本體映射過程中的無效映射，在映射前首先對原本體進(jìn)行分塊，然后基于分塊后的相似子本體塊再執(zhí)行精確映射. 本體分塊是基于本體解析后的模式表示圖（即一棵倒立的樹）進(jìn)行的，與文獻(xiàn)［15］和文獻(xiàn)［17］中提出的通過一種分層的聚類算法把本體分割成許多不同的族類不同，本文采用文獻(xiàn)［40］中設(shè)計(jì)的基于樹自然分裂的分割算法，與聚類算法相比，該算法簡單、高效. 算法過程為：分割前先確定源和目標(biāo)本體，對源本體進(jìn)行分割，然后基于源本體分割結(jié)果分割目標(biāo)本體. 源本體分割過程為：首先計(jì)算本體模式樹的深度及各節(jié)點(diǎn)的入度和出度值，然后判斷所有入度為0，即根節(jié)點(diǎn)所在樹的深度，如果深度值大于3且根節(jié)點(diǎn)出度值大于1（避免分割產(chǎn)生孤立節(jié)點(diǎn)），則進(jìn)行1次自然分裂，即刪除根節(jié)點(diǎn)到各子節(jié)點(diǎn)的鏈接，原來的樹自然裂變成幾棵獨(dú)立的子樹，重新計(jì)算分裂后的子樹深度及節(jié)點(diǎn)的度，再遞歸執(zhí)行分裂算法直到?jīng)]有可分裂的樹時(shí)算法結(jié)束. 由于節(jié)點(diǎn)的標(biāo)簽較長，為計(jì)算方便，在分割時(shí)用節(jié)點(diǎn)ID號代替標(biāo)簽表示.? ID號由3到4位數(shù)字組成，右起第1位表示本節(jié)點(diǎn)在該層中位置，第2位表示父親節(jié)點(diǎn)的位置，第3位表示該節(jié)點(diǎn)深度，如果深度大于10，則用兩位數(shù)表示. 如ID號為234的節(jié)點(diǎn)表示第3層第4號節(jié)點(diǎn)，其父親節(jié)點(diǎn)是第2層第3號節(jié)點(diǎn). 節(jié)點(diǎn)旁標(biāo)注的是節(jié)點(diǎn)度大小，左邊表示入度值，右邊為出度值. 以圖2模式片段為例，模式樹根節(jié)點(diǎn)person編碼為001，其子樹author，chair，participant和reviewer根節(jié)點(diǎn)編碼分別為111，112，113，114. 為防止分裂次數(shù)過多產(chǎn)生大量的子樹導(dǎo)致管理上的額外開銷，一般情況下分裂次數(shù)不超過3次. 每次分割后需對節(jié)點(diǎn)重新編碼. 圖3為經(jīng)過重新編碼分割后的結(jié)果.

2.3 相似子本體識別

相似子本體識別的任務(wù)主要是發(fā)現(xiàn)經(jīng)過分塊后源和目的模式片段中所有相似子片段對，該識別過程是本體映射的粗匹配，只有相似子本體對才會輸入到本體映射部件進(jìn)行精匹配. 為提高相似子本體識別的效率同時(shí)保證不會丟失相似子本體對，本文在計(jì)算兩個子本體塊的相似值時(shí)只考慮它們根節(jié)點(diǎn)的相似度和子本體的結(jié)構(gòu)相似度的綜合相似值，同時(shí)，只計(jì)算相似子本體對間1∶1的關(guān)聯(lián)關(guān)系. 定義兩個子本體對間相似值sim（o1，o2）為sim（o1，o2）= / α×simstr（o1.Name，o2.Name）+β× / simsyn（o1.Name，o2.Name）+γ×simcont（o1，o2），（1）其中： simstr（o1.Name，o2.Name）計(jì)算兩個子本體片段樹根節(jié)點(diǎn)標(biāo)簽的字符相似值，本文采用編輯距離算法計(jì)算字符相似值，即simstr（o1.Name，o2.Name）=1-editNums/maxLength（o1.Name，o2.Name），（2）式中editNums為把一個字符轉(zhuǎn)換為另一個字符需要的編輯次數(shù)， maxLength（）為返回字符串的最大長度； simsyn（o1.Name，o2.Name）計(jì)算兩個子本體片段樹根節(jié)點(diǎn)標(biāo)簽的概念相似值，計(jì)算方法如下.

2.4 子本體映射

子本體映射的執(zhí)行是基于識別后的相似子本體片段對. 如果兩個相似片段對各有n個節(jié)點(diǎn)，則進(jìn)行相似比較的次數(shù)達(dá)到n2次，即算法的時(shí)間復(fù)雜度為O（n2）. 根據(jù)子本體樹結(jié)構(gòu)相似值計(jì)算方法可知，一對相似子本體樹中所有節(jié)點(diǎn)不一定都相似，有部分完全相似的公共節(jié)點(diǎn)，這些公共節(jié)點(diǎn)在相似值計(jì)算時(shí)不再需要與其他節(jié)點(diǎn)進(jìn)行比較，因此本文提出一種基于節(jié)點(diǎn)語義相似度的本體映射方法. 首先把相似片段對的公共節(jié)點(diǎn)作為錨節(jié)點(diǎn)或稱相似度已知節(jié)點(diǎn)（相似度值為1.0），這些節(jié)點(diǎn)不參加相似度計(jì)算. 如果n個節(jié)點(diǎn)中有m個錨節(jié)點(diǎn)，則優(yōu)化后算法復(fù)雜度為O（（n-m）2），如果有1/2的公共節(jié)點(diǎn)，則優(yōu)化后算法的復(fù)雜度為原來的1/4; 然后計(jì)算非錨節(jié)點(diǎn)相似度，在式（1）的基礎(chǔ)上進(jìn)行簡化，即節(jié)點(diǎn)的相似度為兩個節(jié)點(diǎn)的標(biāo)簽字符相似度和標(biāo)簽概念相似度的綜合值，表示為sim（os，ot）=α×simstr（os.Name，ot.Name）+β×simsyn（os.Name，ot.Name）.（7）式（7）中字符相似度和標(biāo)簽概念相似度值分別使用式（2）和式（5）計(jì)算，權(quán)重系數(shù)α，β取值滿足α<β，且α+β=1. 本文中α=0.4， β=0.6. 當(dāng)源子本體樹中一個節(jié)點(diǎn)與對應(yīng)的目標(biāo)子本體樹中所有節(jié)點(diǎn)相似度值計(jì)算完成后，從這組相似值中選擇相似值最大、且大于預(yù)先設(shè)定門限值的兩個節(jié)點(diǎn)作為匹配的候選映射. 當(dāng)源子本體樹中所有節(jié)點(diǎn)與目標(biāo)本體樹中所有節(jié)點(diǎn)相似度計(jì)算完畢時(shí)，則該相似子本體對映射結(jié)束，從相似子本體管理器中選擇下一個相似子本體對進(jìn)行映射，直到所有相似子本體對映射結(jié)束. 算法的偽代碼描述如下.

算法2

相似子本體映射.

輸入：候選相似子本體樹對（os，ot）；

輸出：候選映射Mappings；

SubOntologyMapping（os，ot）

步驟1） OntologyPair〈osi，otj〉=getSubOntologyPair（）;//從子本體管理器選擇待匹配子本體對

步驟2） foreach （Node ns in osi）

步驟3） if （！[KG-*2]anchor（ns））;//如果節(jié)點(diǎn)不是錨節(jié)點(diǎn)

步驟4） foreach （Node nt in otj）

步驟5） if （！[KG-*2]anchor（nt））;//如果節(jié)點(diǎn)不是錨節(jié)點(diǎn)

步驟6） si=getSimilarity（ns，nt）;//計(jì)算兩個節(jié)點(diǎn)相似度

步驟7） if （MaxSimilarity

步驟8） MaxSimilarity=si;//更新MaxSimilarity值

步驟9） if （MaxSimilarity>threshold）;//如果源節(jié)點(diǎn)ns與所有目標(biāo)節(jié)點(diǎn)最大相似值大于門限值

步驟10） AddMapping （Mapping〈ns，nt〉）;//相似值最大的節(jié)點(diǎn)對保存為候選映射

步驟11） goto 1）;//返回步驟1）繼續(xù)計(jì)算下一組子本體對中的映射

步驟12） return Mappings.//所有子本體對映射計(jì)算完畢，返回所有候選映射，算法結(jié)束

3 實(shí)驗(yàn)及討論

下面通過實(shí)驗(yàn)驗(yàn)證本文方法在映射性能和精度上的表現(xiàn)，通過實(shí)驗(yàn)綜合評估提出方法的有效性及存在的不足. 實(shí)驗(yàn)使用的計(jì)算機(jī)配置為： Windows11 64位操作系統(tǒng)， Intel（R） Core（TM） i7-1260P處理器， 16 GB運(yùn)行內(nèi)存， Sun Java 1.8.0運(yùn)行庫. 實(shí)驗(yàn)數(shù)據(jù)以本體對齊評估倡議2021年度評估數(shù)據(jù)集中會議本體集中的本體模式文件為例，其中源本體模式文件為conference.owl，目標(biāo)本體模式文件包括： confOf.owl，edas.owl，ekaw.owl，iasted.owl，sigkdd.owl，生成的5組對應(yīng)映射結(jié)果分別命名為conf-confOf，conf-edas，conf-ekaw，conf-iasted，conf-sigkdd. 實(shí)驗(yàn)任務(wù)包括本體映射質(zhì)量實(shí)驗(yàn)和本體映射性能實(shí)驗(yàn).

3.1 本體映射質(zhì)量實(shí)驗(yàn)

為驗(yàn)證本文方法在映射精度上的改進(jìn)，用通用的模式和本體匹配系統(tǒng)COMA++［41］中定義的兩種映射方法： AllContext（完全上下文）和Fragment-based（基于片段）及本文方法（NSS）分別進(jìn)行映射實(shí)驗(yàn). 由于COMA++本體匹配系統(tǒng)通用、成熟，該系統(tǒng)中的AllContext方法綜合了各種匹配器，能產(chǎn)生較高的映射精度，而Fragment-based方法又采用了基于分治思想的模塊化方法，映射效率高，所以選擇這兩種方法與本文方法進(jìn)行實(shí)驗(yàn)驗(yàn)證提出方法的有效性. 對COMA++兩種映射方法使用系統(tǒng)默認(rèn)配置，對NSS選擇的配置策略為：相似值組合使用加權(quán)平均值法，匹配候選者選擇使用最大值法，相似子本體識別選定的門限值為0.6.

本體映射質(zhì)量采用通用的查全率（recall）和精度（precision）評估，實(shí)驗(yàn)結(jié)果分別如圖4和圖5所示. 由圖4可見，基于5組對應(yīng)映射數(shù)據(jù)集應(yīng)用3種映射方法的平均查全率超過了88%，其中映射conf-iasted查全率最高， conf-ekaw查全率最低，而對于同一組映射， NSS方法平均查全率最高， AllContext次之， Frag-based最低， NSS方法的平均查全率比AllContext高約2%，比Frag-based高約5%. 由圖5可見，用3種映射方法實(shí)驗(yàn)的5組映射結(jié)果的平均精度達(dá)到了85%，其中映射conf-iasted精度最高， conf-ekaw精度最低，而對于同一組映射， NSS方法平均精度最高，其比AllContext方法的平均精度高約3%以上，比Frag-based方法的平均精度高約6%. 這主要由于： 1） NSS方法使用了分塊的方法減少了無效節(jié)點(diǎn)的相似度比較，同時(shí)降低了映射本體本身結(jié)構(gòu)的復(fù)雜度； 2） NSS方法由于考慮了節(jié)點(diǎn)的語義信息，從而在一定程度提高了節(jié)點(diǎn)相似度計(jì)算精度； 3） AllContext方法和Frag-based方法相比，由于前者綜合利用了NAME，PATH，LEAVES和PARENTS等多種匹配器組合計(jì)算相似度，且由于Frag-based方法需要人工確定映射本體片段對，如果人工選擇有誤將影響映射結(jié)果，所以Frag-based方法在查全率和精度上均落后于AllContext方法；由于conf-ekaw包含的映射數(shù)量最多， conf-iasted映射最少，導(dǎo)致前者計(jì)算資源消耗和復(fù)雜性比后者高，在一定程度影響了映射質(zhì)量.

3.2 本體映射性能實(shí)驗(yàn)

為驗(yàn)證本文方法在性能上的優(yōu)勢，基于上述實(shí)驗(yàn)數(shù)據(jù)和3種映射方法，進(jìn)一步實(shí)驗(yàn)比較這3種方法的性能. 3種方法中， NSS和Frag-based方法均采用了分塊的策略，區(qū)別在于后者需要人工選擇需要進(jìn)行映射的分塊，而NSS則是自動對本體模式圖進(jìn)行分塊并自動確定候選映射塊對， AllContext方法未對模式進(jìn)行分割，而是通過綜合利用名稱、路徑、葉子、父親等匹配器從節(jié)點(diǎn)標(biāo)簽字符串及所在上下文結(jié)構(gòu)上對源和目的模式進(jìn)行整體映射. 在給定的5組映射中， conf-ekaw映射節(jié)點(diǎn)最多， conf-iasted映射節(jié)點(diǎn)最少， 5組映射節(jié)點(diǎn)數(shù)量關(guān)系為： conf-ekaw>conf-edas>conf-confOf=conf-sigkdd>conf-iasted. 3種映射方法應(yīng)用與上述相同的參數(shù)配置進(jìn)行實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如圖6所示. 由圖6可見，每組映射所耗費(fèi)的時(shí)間一方面與映射節(jié)點(diǎn)數(shù)量成正比，另一方面，不同組映射及同一組映射應(yīng)用不同方法耗時(shí)各不相同. 對于同組映射任務(wù)， NSS方法平均耗時(shí)最少，性能最高， Frag-based次之， AllContext最差. NSS方法平均性能比Frag-based方法高約5%，比AllContext方法高約8%. 這主要是由于NSS和Frag-based方法均應(yīng)用了分塊的思想，本體映射的規(guī)模和復(fù)雜度都進(jìn)一步降低，提升了性能，同時(shí)與Frag-based方法手工確定分塊不同， NSS方法在本體分塊及相似本體映射過程執(zhí)行的自動化程度更高，所以性能占優(yōu). 對于同種映射方法應(yīng)用于不同組映射任務(wù)，映射conf-iasted平均耗時(shí)最少， conf-ekaw平均耗時(shí)最多. 這與不同映射任務(wù)的工作量有關(guān)，映射conf-iasted需要計(jì)算的映射節(jié)點(diǎn)最少，而conf-ekaw最多，且結(jié)構(gòu)也比前者復(fù)雜，導(dǎo)致性能下降.

綜上所述，本體雖然在解決知識共享與重用等方面的語義異構(gòu)問題發(fā)揮了重要作用，但由于本體通常是面向領(lǐng)域的，不同領(lǐng)域?qū)＜疑踔镣活I(lǐng)域的不同專家在構(gòu)建本體時(shí)會存在語法和結(jié)構(gòu)上的差異，同時(shí)元素語義表達(dá)不相同，導(dǎo)致本體映射精度和性能下降. 為改善本體映射性能和精度，本文在分析當(dāng)前各類本體映射方法及本體模式結(jié)構(gòu)和元素特征的基礎(chǔ)上，提出了一種基于節(jié)點(diǎn)語義相似度的本體映射方法. 通過本體分塊把本體映射問題轉(zhuǎn)化為子本體片段間的映射問題，并在節(jié)點(diǎn)比較時(shí)通過引入錨的機(jī)制進(jìn)一步減少了本體映射規(guī)模，同時(shí)在局部映射過程中充分考慮本體元素的標(biāo)簽語義信息. 基于OAEI評估數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明，本文方法在匹配性能上比傳統(tǒng)本體映射方法，如COMA++的AllContext方法，有較大提高，同時(shí)在精度上優(yōu)于Frag-based方法.

參考文獻(xiàn)

［1］STUDER B， BENJAMINS V R， FENSEL D. Knowledge Engineering： Principlesand Methods ［J］. Data and Knowledge Engineering， 1998， 25（1/2）： 161-197.

［2］王向前，張寶隆，李慧宗. 本體研究綜述［J］. 情報(bào)雜志， 2016， 35（6）： 163-170. （WANG X Q， ZHANG B L， LI H Z. Review of Ontology Research ［J］. Journal of Information， 2016， 35（6）： 163-170.）

［3］ZHAO L H， ICHISE R. Ontology Integration for Linked Data ［J］. Journal on Data Semantics， 2014， 3（4）： 237-254.

［4］XU H， ZHANG R. Research on Data Integration of the Semantic Web Based on Ontology Learning Technology ［J］. Journal of Electrical Engineering and Computer Science， 2014， 12（1）： 167-178.

［5］LAPSHIN E. Levels of Rresenting Ontologies， Languages， Mathematical Models， and Ontology Web-Server Project in Web 2.0 ［J］. Automatic Documentation & Mathematical Linguistics， 2012， 46（2）： 59-67.

［6］KANG Y B， SHONALI K， WUDHICHART S， et al. Understanding and Improving Ontology Reasoning Efficiency through Learning and Ranking ［J］. Information Systems， 2020， 87： 101412-1-101412-17.

［7］VERHOOSEL J P， BEKKUM M V， EVERT F K. Ontology Matching for Big Data Applications in the Smart Dairy Farming Domain ［C］//10th International Workshop on Ontology Matching. ［S.l.］： CEUR-WS， 2015： 55-59.

［8］OTERO-CERDEIRA L， RODRGUEZ-MARTNEZ F J， GMEZ-RODRGUEZ A. Ontology Matching： A Literature Review ［J］. Expert Systems with Applications， 2015， 42（2）： 949-971.

［9］SHVAIKO P， EUZENAT J. Ontology Matching： State of the Art and Future Challenges ［J］. IEEE Transactions on Knowledge and Data Engineering， 2013， 25（1）： 158-176.

［10］王順，周康達(dá)，江東宇. 本體映射綜述［J］. 計(jì)算機(jī)科學(xué)， 2017， 44（9）： 1-10. （WANG S， ZHOU K D， JIANG D Y. Overview of Ontology Mapping ［J］. Computer Science， 2017， 44（9）： 1-10.）

［11］宋朋. 本體映射的研究綜述［J］. 圖書館學(xué)研究， 2016， 14（5）： 17-21. （SONG P. A Review of Ontology Mapping ［J］. Library Science Research， 2016， 14（5）： 17-21.）

［12］BABALOU S， KARGAR M J， DAVARPANAH S H. Large-Scale Ontology Matching： A Review of the Literature ［C］//Second International Conference on Web Research. Piscataway， NJ： IEEE， 2016： 158-165.

［13］OCHIENG P， KYANDA S. Large-Scale Ontology Matching： State-of-the-Art Analysis ［J］. ACM Computing Surveys 2018， 51（4）： 75-1-75-35.

［14］PETER O， SWAIB K. Large-Scale Ontology Matching ［J］. ACM Computing Surveys （CSUR）， 2018， 51（4）： 75-1-75-35.

［15］PATEL A， JAIN S. A Partition Based Framework for Large Scale Ontology Matching ［J］. Recent Patents on Engineering， 2020， 14（3）： 488-501.

［16］RAHM E. Towards Large-Scale Schema and Ontology Matching ［C］//Schema Matching and Mapping. Berlin： Springer， 2011： 3-27.

［17］XUE X， PAN J S. A Segment-Based Approach for Large-Scale Ontology Matching ［J］. Knowledge and Information Systems， 2017， 52（2）： 1-18.

［18］陳恒，李冠宇，陳鑫影. 模塊化思想在大規(guī)模本體匹配中的應(yīng)用［J］. 計(jì)算機(jī)工程與應(yīng)用， 2017， 53（8）： 149-153. （CHEN H， LI G Y， CHEN X Y. Application of Modularization in Large-Scale Ontology Matching ［J］. Computer Engineering and Application， 2017， 53（8）： 149-153.）

［19］徐德智，賴雅，王潤梅. 大規(guī)模本體分塊與映射研究［J］. 小型微型計(jì)算機(jī)系統(tǒng)， 2012， 33（3）： 542-547. （XU D Z， LAI Y， WANG R M. Research on Large-Scale Ontology Partitioning and Mapping ［J］. Small Microcomputer System， 2012， 33（3）： 542-547.）

［20］孫煜飛，馬良荔，郭曉明，等. 基于模塊化的大規(guī)模本體映射方法［J］. 模式識別與人工智能， 2016， 29（5）： 410-416. （SUN Y F， MA L L， GUO X M， et al. Large Scale Ontology Mapping Method Based on Modularization ［J］. Pattern Recognition and Artificial Intelligence， 2016， 29（5）： 410-416.）

［21］ZHANG H， HU W， QU Y Z. VDoc+： A Virtual Document Based Approach for Matching Large Ontologies Using MapReduce ［J］. Journal of Zhejiang University—Science C （Computer & Electronics）， 2012， 13（4）： 257-267.

［22］ALGERGAWY A， MASSMANN S， RAHM E. A Clustering-Based Approach for Large-Scale Ontology Matching ［C］//Proceedings of the 15th International Conference on Advances in Databases and Information Systems. Berlin： Springer-Verlag， 2011： 415-428.

［23］蔣猛，禹明剛，王智學(xué). 多策略自適應(yīng)大規(guī)模本體映射算法［J］. 計(jì)算機(jī)工程， 2019， 45（3）： 14-19. （JIANG M， YU M G， WANG Z X. Multi Strategy Adaptive Large-Scale Ontology Mapping Algorithm ［J］. Computer Engineering， 2019， 45（3）： 14-19.）

［24］葉霞，許飛翔，曹軍博，等. 基于主成分分析和K-Modes蟻群聚類的本體映射方法［J］. 計(jì)算機(jī)應(yīng)用與軟件， 2020， 37（12）： 231-237. （YE X， XU F X， CAO J B， et al. Ontology Mapping Method Based on Principal Component Analysis and K-Modes Ant Colony Clustering ［J］. Computer Applications and Software， 2020， 37（12）： 231-237.）

［25］仲茜，李涓子，唐杰，等. 基于數(shù)據(jù)場的大規(guī)模本體映射［J］. 計(jì)算機(jī)學(xué)報(bào)， 2010， 33（6）： 955-965. （ZHONG Q， LI J Z， TANG J， et al. Large Scale Ontology Mapping Based on Data Field ［J］. Journal of Computer Science， 2010， 33（6）： 955-965.）

［26］呂青，周欣，李鳳蓮. 動態(tài)分塊調(diào)節(jié)機(jī)制下的大規(guī)模解剖學(xué)本體匹配［J］. 計(jì)算機(jī)應(yīng)用研究， 2023， 40（1）： 1-6. （L Q， ZHOU X， LI F L. Large Scale Anatomical Ontology Matching under Dynamic Block Regulation Mechanism ［J］. Computer Application Research， 2023， 40（1）： 1-6.）

［27］劉春辰，劉大有，王生生，等. 改進(jìn)的語義相似度計(jì)算模型及應(yīng)用［J］. 吉林大學(xué)學(xué)報(bào)（工學(xué)版）， 2009， 39（1）： 119-123. （LIU C C， LIU D Y， WANG S S， et al. Improved Semantic Similarity Calculation Model and Its Application ［J］. Journal of Jilin University （Engineering and Technology Edition）， 2009， 39（1）： 119-123.）

［28］SCHOPMAN B， WANG S H， ISAAC A， et al. Instance-Based Ontology Matching by Instance Enrichment ［J］. Journal on Data Semantics， 2012， 1（4）： 219-236.

［29］NATH R， SEDDIQUI H， AONO M. An Efficient and Scalable Approach for Ontology Instance Matching ［J］. Journal of Computers， 2014， 9（8）： 1755-1768.

［30］王漢博，孫啟霖. 基于路徑特征的復(fù)雜本體匹配［J］. 計(jì)算機(jī)工程， 2017， 43（2）： 227-233. （WANG H B， SUN Q L. Complex Ontology Matching Based on Path Features ［J］. Computer Engineering， 2017， 43（2）： 227-233.）

［31］戴大蒙，慕德俊，吳佳斌. 基于概念分層的本體組合匹配策略研究［J］. 西北工業(yè)大學(xué)學(xué)報(bào)， 2013， 31（1）： 14-18. （DAI D M， MU D J， WU J B. Research on Ontology Combination Matching Strategy Based on Concept Stratification ［J］. Journal of Northwestern Polytechnical University， 2013， 31（1）： 14-18.）

［32］徐德智，易曉媛，湯哲. 基于AHP-熵權(quán)決策的本體映射優(yōu)化算法［J］. 微電子學(xué)與計(jì)算機(jī)， 2017， 34（11）： 48-52. （XU D Z， YI X Y， TANG Z. Ontology Mapping Optimization Algorithm Based on AHP Entropy Weight Decision ［J］. Microelectronics and Computer， 2017， 34（11）： 48-52.）

［33］孫煜飛，馬良荔，周潤芝. 一種自適應(yīng)的多策略本體映射方法［J］. 海軍工程大學(xué)學(xué)報(bào)， 2016， 28（2）： 75-80. （SUN Y F， MA L L， ZHOU R Z. An Adaptive Multistrategy Ontology Mapping Method ［J］. Journal of Naval Engineering University， 2016， 28（2）： 75-80.）

［34］FRST J， ARGERICH M F，? CHENG， B. VersaMatch： Ontology Matching with Weak Supervision [C]//Proceedings of the VLDB Endowment. New York： ACM， 2023： 1305-1318.

［35］IBRAHIM S， FATHALLA S， LEHMANN J， et al. Toward the Multilingual Semantic Web： Multilingual Ontology Matching and Assessment [J]. IEEE Access， 2023， 11： 8581-8599.

［36］ KHAN H， SAQIB M， KHATTAK H A， et al. Ontology Alignment for Accurate Ontology Matching： A Survey [C]//International Conference on Smart Homes and Health Telematics. Berlin： Springer，? 2023： 338-349.

［37］L Z. An Effective Approach for Large Ontology Matching Using Multi-objective Grasshopper Algorithm [C]//ACM International Conference Proceeding Series. New York： ACM， 2022： 110-116.

［38］AN Y， KALINOWSKI A，? GREENBERG J. Exploring Wasserstein Distance across Concept Embeddings for Ontology Matching [EB/OL]. （2022-06-22）[2023-01-10]. https：//arxiv.org/abs/2207.11324.

［39］ L Q， JIANG C C，? LI H. An Interactive Multi-objective Ontology Matching Technique [C]//International Conference on Advanced Machine Learning Technologies and Applications. Berlin： Springer，? 2021： 955-964.

［40］何杰，屈國興. 基于XML Schema分塊的快速本體構(gòu)建方法［J］. 吉林大學(xué)學(xué)報(bào)（理學(xué)版）， 2022， 60（5）： 1113-1122. （HE J， QU G X. Fast Ontology Construction Method Based on XML Schema Partition ［J］. Journal of Jilin University （Science Edition）， 2022， 60（5）： 1113-1122.）

［41］AUMUELLER D， DＯ H H， MASSMANN S， et al. Schema and Ontology Matching with COMA++ ［C］//Proceedings ACM Sigmod International Conference on Management of Data. New York： ACM Press， 2005： 906-908.

（責(zé)任編輯：韓嘯）

收稿日期： 2023-02-23.

第一作者簡介：何杰（1978—），男，漢族，博士，副教授，從事傳感網(wǎng)與網(wǎng)絡(luò)地理信息系統(tǒng)的研究， E-mail： 459195435@qq.com.

基金項(xiàng)目：國家自然科學(xué)基金（批準(zhǔn)號： 42061062）和寧夏自然科學(xué)基金（批準(zhǔn)號： 2022AAC03054）.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于節(jié)點(diǎn)語義相似度的本體映射方法