金海濤,張琳
(上海海事大學(xué)信息工程學(xué)院,上海 201306)
基于領(lǐng)域本體映射的綜合相似度計(jì)算方法
金海濤,張琳
(上海海事大學(xué)信息工程學(xué)院,上海 201306)
領(lǐng)域本體為知識(shí)的共享和重用提供重大作用。本體映射是在異構(gòu)本體間建立語義映射關(guān)系,解決本體異構(gòu)的重要途徑。針對目前本體映射中相似度計(jì)算存在的不足,提出一種綜合的相似度計(jì)算方法,即先依據(jù)知網(wǎng)知識(shí)詞典并考慮未登錄詞分詞后詞性的作用,計(jì)算出本體元素的概念相似度;再分析本體的層次關(guān)系計(jì)算其結(jié)構(gòu)相似度;通過加權(quán)綜合得到本體的綜合相似度;最后構(gòu)建兩個(gè)異構(gòu)航運(yùn)本體,設(shè)計(jì)實(shí)驗(yàn)來驗(yàn)證改進(jìn)后算法的正確性和有效性,實(shí)驗(yàn)表明所提出的方法具有較高準(zhǔn)確率。
領(lǐng)域本體;本體映射;本體異構(gòu);知網(wǎng);相似度計(jì)算
隨著語義Web的迅速發(fā)展,越來越多的人加入了對本體應(yīng)用的研究,大量的本體在語義Web中被創(chuàng)建,由于不同的人在創(chuàng)建本體時(shí),所采用的描述語言、描述方式等可能不同,使得即使對相同領(lǐng)域的建模,也會(huì)構(gòu)造出具有一定差異的本體,這嚴(yán)重影響了本體間知識(shí)的共享與重用。本體映射是解決本體之間異構(gòu)問題的有效途徑[1],充分實(shí)現(xiàn)本體間的互操作,而本體間的相似度計(jì)算是本體映射最關(guān)鍵的技術(shù)。
目前,在一些本體映射系統(tǒng)中,本體間的相似度計(jì)算存在計(jì)算量較大、計(jì)算準(zhǔn)確率較低和映射效率不高等問題,著重體現(xiàn)在:在計(jì)算兩個(gè)本體的相似度時(shí),需要考慮它們的概念、屬性、實(shí)例等,因此會(huì)產(chǎn)生大量的計(jì)算,然而,并不是所有的概念、屬性、實(shí)例都存在一定的相似,它們間可能完全不相似,所以根本不需要計(jì)算其相似度;本體映射中計(jì)算相似度的方法有很多,例如基于概念名稱的方法[2]、基于信息流的方法以及基于結(jié)構(gòu)的相似度計(jì)算方法[3]等,但這些算法普遍存在算法單一、映射效率不高的問題,導(dǎo)致查詢的準(zhǔn)確率不高。
針對上述提到的本體映射中相似度計(jì)算存在的問題,本文提出一種基于HowNet和本體結(jié)構(gòu)的綜合相似度計(jì)算方法,首先,引入了知網(wǎng)及其知識(shí)詞典,在知網(wǎng)中,概念具有一定的結(jié)構(gòu),它可由義原描述,通過義原樹和義原層次體系結(jié)構(gòu)計(jì)算義原相似度,然后根據(jù)文中方法計(jì)算本體元素的概念相似度;再考慮本體的結(jié)構(gòu)信息,分析本體結(jié)構(gòu)樹,計(jì)算本體間的結(jié)構(gòu)相似度;最后通過加權(quán)計(jì)算得到一個(gè)綜合的本體相似度值,從而提高本體相似度計(jì)算的準(zhǔn)確率。
1.1 本體定義
本體最先起源于哲學(xué),在哲學(xué)中,本體是對世界上任何真實(shí)存在的事物所做出的客觀描述。隨后,本體被引入到計(jì)算機(jī)領(lǐng)域的人工智能界,隨著人工智能的快速發(fā)展,R.Neches等是最早提出本體相關(guān)定義的人。后來越來越多的學(xué)者在信息系統(tǒng)等各個(gè)領(lǐng)域開始研究本體,并提出了很多不同的關(guān)于的本體定義。Gruber提出的本體定義:“本體是概念模型的明確的規(guī)范說明”[4]。Borst將本體定義為“共享概念模型的形式化規(guī)范說明”[5]。之后,Studer等人提出了更加具體的本體定義,即:“本體是共享概念模型的明確的形式化規(guī)范說明”[6]。
本文采用Perez等人提出的本體定義形式,即本體為五元組[7],可由公式(1)表示。
其中,C表示類(概念)的集合,用于描述事物對象的集合,c表示概念(c∈C),指任何事物,例如行為、描述和推理過程等,它們通常構(gòu)成一個(gè)分類層次;R為定義在概念集合上的關(guān)系集合,表示概念間的相互作用,形式化上將其定義成n維笛卡爾積的子集:R:C1×C2×…×Cn,r表示關(guān)系(r∈R);F表示為概念集合上的函數(shù)集合,是一種特殊的關(guān)系,形式化定義為:F:C1×C2×…×Cn-1→Cn;A表示為公理集合,代表永真斷言;I代表概念的實(shí)例集合,i代表實(shí)例(i∈I),表示某個(gè)概念類中的元素。
1.2 本體映射
所謂本體映射,就是指在異構(gòu)的本體之間建立聯(lián)系,使得異構(gòu)本體達(dá)成對相同事物的一致性理解,它能夠確定不同的本體之間如何被映射或相互關(guān)聯(lián)。實(shí)際上,本體映射就是通過在異構(gòu)本體間建立映射規(guī)則,把兩個(gè)異構(gòu)的本體作為輸入,之后將兩個(gè)本體元素之間的語義映射關(guān)系輸出,映射函數(shù)表示為:
給定兩個(gè)異構(gòu)的本體O1和O2,從O1到O2的本體映射是指在本體O1中的每個(gè)本體元素,在本體O2中可以找到與之相對應(yīng)的元素,并確定他們之間存在的對應(yīng)關(guān)系。其中,本體O1為源本體,本體O1為目標(biāo)本體。這里ei1∈O1,ei2∈O2且{ei1}→map{ei2}。{ei1}和{ei2}都表示元素集合(元素為本體中的概念、關(guān)系等)。f可以是一種映射類型(subclass、superclass、disjointwith等)或者為null。當(dāng)f為null時(shí),表示{ei1}和{ei2}之間沒有對應(yīng)關(guān)系。
語義間存在的映射關(guān)系一般由它們的相似度來決定。相似度定義為sim(ei1,ei2)∈[0,1],其中,ei1和ei2分別表示本體O1和O2的兩個(gè)元素。文獻(xiàn)[8]提出了一種形式化的本體映射函數(shù):
map(ei1)=ei2,如果sim(ei1,ei2)>μ,μ作為閾值,μ∈[0,1],當(dāng)ei1與ei2的相似度大于閾值μ時(shí),說明它們之間存在語義映射關(guān)系,將映射ei1到ei2。
2.1 概念相似度計(jì)算
本文引入知網(wǎng)(HowNet)進(jìn)行本體的概念相似度計(jì)算,根據(jù)文獻(xiàn)[9]中的方法進(jìn)行改進(jìn),通過義原樹以及義原層次結(jié)構(gòu)對義原之間的語義相似度進(jìn)行計(jì)算,并綜合考慮了義原在樹中所處的層次深度因素;利用改進(jìn)后的方法對義原描述式進(jìn)行分類并計(jì)算其相似度;對于知網(wǎng)沒有收錄的概念,采用逆向最大匹配法進(jìn)行相似度的計(jì)算。
(1)義原語義相似度計(jì)算
對處于同一棵義原分類樹上的節(jié)點(diǎn),為了降低算法的空間復(fù)雜度,可以使義原分類樹通過一定的規(guī)則轉(zhuǎn)換成二叉樹的形式,并采用二叉樹的鏈?zhǔn)酱鎯?chǔ)方式,最后利用二叉樹節(jié)點(diǎn)距離計(jì)算公式得到義原間的語義距離,進(jìn)而通過公式(4)計(jì)算得到義原之間的語義相似度。
對位于不同義原分類樹上的義原節(jié)點(diǎn),本文采用知網(wǎng)中義原層次體系中義原的上下位語義距離關(guān)系并引入深度因素來計(jì)算。在義原分類樹中,若兩對義原路徑距離相同,位于層次深度越高的義原,其語義距離相對越小。
其中,A和B是兩個(gè)義原,分子中的Psp(A,B)表示兩個(gè)義原重合路徑,即相同信息,分母中的Dis(A,B)表示兩個(gè)義原的路徑距離,即相異信息。β是一個(gè)與義原深度有關(guān)的參數(shù),它的值域?yàn)閇0,1]。
在知網(wǎng)中,義原的描述方式可以用一個(gè)特征結(jié)構(gòu)來表示,其包括以下四個(gè)特征[10]:第一基本義原描述、其他基本義原描述、關(guān)系義原和關(guān)系符號(hào)描述四個(gè)方面,若本體中的元素被知網(wǎng)收錄,則可由公式(6)計(jì)算其概念相似度。
其中,βi(1≤i≤4)是權(quán)重,且有:β1+β2+β3+β4=1,β1≥β2≥β3≥β4。后者表明了Sim1(A,B)到Sim4(A,B)在計(jì)算總體相似度時(shí)的比重依次降低。由于概念的最主要特征在于第一基本義原描述,所以一般將其所占的權(quán)重設(shè)為0.5以上。
因?yàn)榈谝换玖x原相似度對其他義原相似度具有一定的制約作用,所以將基于知網(wǎng)的概念相似度記為:
(2)未登錄詞的相似度計(jì)算
由于知網(wǎng)中不可能收錄所有的詞匯,所以有些詞匯在知網(wǎng)中沒有相應(yīng)的語義描述,因此無法對未登錄詞進(jìn)行相似度計(jì)算,這時(shí)就需要對未登錄詞進(jìn)行中文分詞,將未登錄詞轉(zhuǎn)化為知網(wǎng)可以理解的形式。
本文采用逆向最大匹配法作為分詞算法,所謂逆向最大匹配是從詞語的最右邊開始匹配,在知網(wǎng)知識(shí)字典中查找能夠匹配成功的最長的單詞。逆向最大匹配后,將未登錄詞分解為多個(gè)知網(wǎng)中存在的詞。由于分解后不同詞語的詞性對相似度計(jì)算具有一定的影響,所以本文將動(dòng)詞、名詞、代詞作為核心詞,其所占的權(quán)重較大。未登錄詞相似度算法如下:
(1)對未登錄詞A和B進(jìn)行切分,得到未登錄詞的切分集合M和N;
(2)對集合M、N進(jìn)行詞性標(biāo)注,并按照詞性分別劃分為集合M1、M2和N1、N2,其中m1和N1包含了集合M和N中所有的核心詞,M2和N2包含了剩余的其他詞語;
(3)分別計(jì)算M1和N1、M2和N2的語義相似度。假設(shè)len(M1) (4)加權(quán)求和得到Sim(A,B)的值,未登錄詞不一定都有集合M1和N1、M2和N2,因此未登錄詞相似度的公式可記為: 其中,μ和η為不同的詞集所占的權(quán)重,μ+η=1,μ>η。 2.2 結(jié)構(gòu)相似度計(jì)算 在計(jì)算本體元素的綜合相似度時(shí)將本體的結(jié)構(gòu)信息作為相似度計(jì)算的一部分,提出一種基于結(jié)構(gòu)的本體相似度計(jì)算方法:先將本體結(jié)構(gòu)圖轉(zhuǎn)化為一種樹狀關(guān)系,接著在兩個(gè)本體結(jié)構(gòu)樹之間構(gòu)造一個(gè)共有的父節(jié)點(diǎn)把兩個(gè)本體樹合并為一個(gè)樹,再將本體元素之間的語義關(guān)系轉(zhuǎn)換為本體樹中兩個(gè)元素的路徑距離p,取一個(gè)語義半徑r,在路徑距離p≤r情況下,查找該范圍內(nèi)所有鄰居元素,得到一個(gè)鄰居元素集合,這樣兩個(gè)異構(gòu)本體的元素即可得到兩個(gè)與之相關(guān)的集合,再根據(jù)公式(9)求得本體的結(jié)構(gòu)相似度SimStr(A,B)。 在計(jì)算本體的結(jié)構(gòu)相似度時(shí),參照以下規(guī)則: (1)在本體樹中,如果兩個(gè)元素節(jié)點(diǎn)同屬于一個(gè)父節(jié)點(diǎn),則這兩個(gè)元素節(jié)點(diǎn)可能是相似的; (2)如果兩個(gè)元素節(jié)點(diǎn)是相似的,則它們的子節(jié)點(diǎn)也可能相似; (3)如果兩個(gè)元素節(jié)點(diǎn)是相似的,則它們的鄰居節(jié)點(diǎn)也可能相似; 依據(jù)上述規(guī)則,將結(jié)構(gòu)相似度計(jì)算定義為公式: 其中,A和B分別為本體O1和O2中的元素,Simp(A,B)表示元素A和B最近的公共父節(jié)點(diǎn)之間的相似度;Sims(A,B)表示元素A和B子節(jié)點(diǎn)集的相似度;Simb(A,B)表示元素A和B兄弟節(jié)點(diǎn)集的相似度,Ns(A)和Ns(B)分別表示A和B的子節(jié)點(diǎn)集合,Nb(A)和Nb(B)分別表示A和B的兄弟節(jié)點(diǎn)集合。α、β、γ為權(quán)重因子,且α+β+γ=1,由于在本體結(jié)構(gòu)樹中,父、子、兄弟節(jié)點(diǎn)對其相似度的計(jì)算具有不同的影響,其中,父節(jié)點(diǎn)的影響較大,所以設(shè)定α≥β≥γ≥0。 2.3 綜合相似度計(jì)算 為基于HowNet、本體結(jié)構(gòu)等方面計(jì)算所得的相似度分別分配一個(gè)權(quán)值,得到綜合相似度為: 其中,ω1,ω2是兩種相似度計(jì)算方法所占的權(quán)重且ω1+ω2=1(ω1,ω2>0),具體值可以根據(jù)具體分析和實(shí)際需要來選取。 為了驗(yàn)證改進(jìn)后算法的有效性,本文通過爬取“中國港口網(wǎng)”中航運(yùn)、集裝箱等文本數(shù)據(jù),通過分詞方法對文本數(shù)據(jù)進(jìn)行分詞,得到航運(yùn)領(lǐng)域的相關(guān)術(shù)語,分析術(shù)語間的關(guān)系,通過本體構(gòu)建方法,使用基于OWL語言描述的本體構(gòu)建工具Protege4.3構(gòu)建兩個(gè)異構(gòu)航運(yùn)本體O1和O2。 圖1 異構(gòu)航運(yùn)本體O1和O2 由于目前還沒有專門評估相似度算法質(zhì)量的專用數(shù)據(jù)集,本文抽取本體中部分元素作為實(shí)驗(yàn)數(shù)據(jù)進(jìn)行相似度計(jì)算并與傳統(tǒng)方法計(jì)算結(jié)果進(jìn)行對比。 在計(jì)算概念相似度時(shí),首先判斷概念是否在知網(wǎng)知識(shí)詞典中收錄,如果概念存在,則直接進(jìn)行計(jì)算,否則,需要先進(jìn)行中文分詞,再計(jì)算分詞后兩兩詞語之間的相似度,最后利用本文方法得出兩個(gè)航運(yùn)本體的概念相似度。 例如:在表1中,計(jì)算“裝箱單”和“裝箱信息”的概念相似度時(shí),知網(wǎng)的知識(shí)詞典中沒有收錄這兩個(gè)詞語,但收錄了“裝箱”、“信息”和“單”這幾個(gè)詞語。所以,首先分別計(jì)算“裝箱”和“裝箱”,“裝箱”和“信息”的相似度,由于“單”不是核心詞,因此本文不需要計(jì)算“單”和“裝箱”,“單”和“信息”的相似度,最后,通過相似度值的加權(quán)求和得到概念相似度?!把b箱單”和“裝箱信息”的相似度計(jì)算如下:Sim(裝箱,裝箱)=1.0,Sim(裝箱,信息)=0.056,因此SimHow(裝箱單,裝箱信息)=0.528,對于分詞后得到的概念個(gè)數(shù)較多的情況,同樣采用本文方法對各部分概念相似度求和,再取平均值,從而得到航運(yùn)領(lǐng)域?qū)S行g(shù)語的概念相似度值。 僅通過概念相似度計(jì)算得出的結(jié)果并不能精準(zhǔn)地確定異構(gòu)航運(yùn)本體之間的語義關(guān)系,因此,本文通過分析異構(gòu)航運(yùn)本體的結(jié)構(gòu)信息,并根據(jù)2.2節(jié)介紹的方法計(jì)算兩個(gè)異構(gòu)航運(yùn)本體間的結(jié)構(gòu)相似度。 例如:計(jì)算“貨船名”和“船名”的結(jié)構(gòu)相似度為:由于“貨船名”和“船名”沒有子元素,所以使用的是父元素和兄弟元素的概念相似度作為兩個(gè)元素的結(jié)構(gòu)相似度,其中α≥β≥γ≥0,α+β+γ=1且β=0,根據(jù)多次實(shí)驗(yàn)結(jié)果,設(shè)定權(quán)重α=0.82,γ=0.18,得出SimStr(貨船名,船名)=0.885。 根據(jù)文獻(xiàn)[2]與文獻(xiàn)[4]中提出的本體相似度計(jì)算方法對構(gòu)建的異構(gòu)航運(yùn)領(lǐng)域本體進(jìn)行相似度的計(jì)算,并統(tǒng)計(jì)計(jì)算結(jié)果與本文算法的部分實(shí)驗(yàn)結(jié)果對比。其中,本文的實(shí)驗(yàn)結(jié)果為等權(quán)值分配得到的本體綜合相似度值。 表3 實(shí)驗(yàn)結(jié)果對比 圖2 實(shí)驗(yàn)結(jié)果對比 結(jié)果分析: 由表3和折線圖可以看出,通過傳統(tǒng)單一方法計(jì)算得到的相似度值比較粗糙、片面,不同的方法計(jì)算出的相似度值可能存在很大差別,進(jìn)而得到不同的映射關(guān)系。然而,基于本文方法計(jì)算得到的綜合相似度值相比于文獻(xiàn)[2]和文獻(xiàn)[4]計(jì)算得到的結(jié)果具有較高的準(zhǔn)確性,進(jìn)行本體映射時(shí)更具參考性,它首先利用HowNet計(jì)算本體元素的概念相似度,由此細(xì)化每個(gè)本體元素之間的關(guān)系,其次,由本體結(jié)構(gòu)的相似度計(jì)算可以得到兩個(gè)本體在總的結(jié)構(gòu)上的相似程度,最后結(jié)合細(xì)化的本體元素相似度和概括的本體結(jié)構(gòu)相似度得到綜合的相似度值,根據(jù)綜合的相似度值使得航運(yùn)本體元素之間的映射更加準(zhǔn)確。 隨著現(xiàn)代航運(yùn)業(yè)的迅速發(fā)展,信息共享已逐漸成為航運(yùn)業(yè)的必然趨勢,信息表示的標(biāo)準(zhǔn)化已成為解決信息共享的重要手段。本文提出了一種基于HowNet和本體結(jié)構(gòu)的綜合相似度計(jì)算方法,實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的算法相對于傳統(tǒng)單一算法具有較高的準(zhǔn)確率,能有效提高本體映射的效率,實(shí)現(xiàn)航運(yùn)本體資源的共享和重用。 然而,由于本文方法很多地方采用人工分配權(quán)值的方式,因此,主觀因素在一定程度上影響了實(shí)驗(yàn)結(jié)果,所以在以后的研究中,可以考慮根據(jù)本體元素在領(lǐng)域中的重要性自動(dòng)分配權(quán)值,同時(shí)考慮概念的屬性、實(shí)例等因素的影響,從而使得異構(gòu)領(lǐng)域本體之間的映射更加準(zhǔn)確和高效。 [1]Ding Ying,F(xiàn)oo S.Ontology Research and Development:Part2-A Review of Ontology Mapping and Evoling[J].Journal of Information Science,2002,28(5):375-388. [2]何娟,高志強(qiáng),陸青健等.基于詞匯相似度的元素級(jí)本體匹配[J].計(jì)算機(jī)工程,2006,32(16):185-187. [3]周栩,劉磊,范任宏.基于模式結(jié)構(gòu)分類的本體映射方法[J].電子學(xué)報(bào),2011,39(4):882-886. [4]Gruber T.Ontolingua:A translation Approach to Portable Ontology Specifications,Knowledge Acquisition,1993,5(2):199-220. [5]Borst P,Akkermans H,Top J.Engineering Ontologies,International Journal of Human-Computer Studies,1997,46(2-3):365-406. [6]Studer R,Benjamins V R,F(xiàn)ensel D.Know ledge Engineering:Principles and Methons,Data&Knowledge Engineering,1998,25(1-2):161-197. [7]A.G.Perez,V.R.Benjamins.Overview of Knowledge Sharing and Reuse Components:Ontologies and Problem-Solving Methons[C].In Proceedings of the IJCAI299 workshop on ontologies and Problem-Sovling Methons.deAgosto,Estocolmo,1999,1-15. [8]黃鑫.本體驅(qū)動(dòng)的語義智能系統(tǒng)的研究[D].重慶師范大學(xué),2009. [9]劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計(jì)算[A].第三屆漢語詞匯語義學(xué)研討會(huì)論文集[C].臺(tái)北,2002:59-76. [10]魏凱斌,冉延平,余牛.語義相似度的計(jì)算方法研究與分析[J].計(jì)算機(jī)技術(shù)與發(fā)展,2010,20(7):102-105. Integrated Sim ilarity Calculation Method Based on Domain Ontology Mapping JIN Hai-tao,ZHANG Lin (College of Information Engineering,ShanghaiMaritime University,Shanghai 201306) Domain ontology plays a vital role in the sharing and reuse of knowledge.Ontologymapping is an effectiveway to solve semanticmapping between heterogeneous ontologies.Aiming at the disadvantages of the similarity calculation in ontology mapping,proposes a comprehensive similarity calculation method,which is based on the knowledge dictionary and considering the role of the word after the word,and calculates the similarity of the ontology element.Finally,designs two heterogeneous shipping ontologies and design experiments to verify the correctness and validity of the improved algorithm.Experiments show that the proposed method has higher accuracy. 金海濤(1992-),男,安徽淮南人,碩士研究生,研究方向?yàn)槟J阶R(shí)別與智能信息處理 2017-02-16 2017-05-10 1007-1423(2017)14-0034-06 10.3969/j.issn.1007-1423.2017.14.007 張琳(1973-),女,博士,副教授,碩士生導(dǎo)師,研究方向?yàn)楦酆叫畔⒒夹g(shù)、智能信息處理、信息檢索、本體與知識(shí)工程等 Domain Ontology;Ontology Mapping;Ontology Heterogeneous;HowNet;Similarity Calculation3 實(shí)驗(yàn)及分析
4 結(jié)語