□李永忠 胡思琪
?
基于混合本體的政務(wù)異構(gòu)數(shù)據(jù)集成研究
□李永忠 胡思琪
[福州大學(xué) 福州 350116]
隨著政務(wù)信息化的不斷進(jìn)行,現(xiàn)有信息共享方式的局限使得各政府部門(mén)間的信息交換障礙重重。因此,通過(guò)研究,說(shuō)明了現(xiàn)有異構(gòu)數(shù)據(jù)集成方式的優(yōu)缺點(diǎn),并針對(duì)政府部門(mén)信息集成過(guò)程中存在的數(shù)據(jù)異構(gòu)問(wèn)題,提出了基于混合本體的集成模型,描述了集成模型各個(gè)部分作用和主要功能,該模型能有效屏蔽數(shù)據(jù)的異構(gòu)性實(shí)現(xiàn)各系統(tǒng)的獨(dú)立性。重點(diǎn)描述了領(lǐng)域本體構(gòu)建和本體映射的相關(guān)方法,并舉例說(shuō)明領(lǐng)域本體構(gòu)建過(guò)程。
混合本體;數(shù)據(jù)異構(gòu);本體構(gòu)建;數(shù)據(jù)集成
隨著信息時(shí)代的來(lái)臨,政府部門(mén)內(nèi)部的數(shù)據(jù)庫(kù)數(shù)據(jù)量越來(lái)越大。但各部門(mén)之間的數(shù)據(jù)庫(kù)均是獨(dú)立開(kāi)發(fā),這些數(shù)據(jù)種類(lèi)、存儲(chǔ)方式不同,使得部門(mén)之間的信息交流變得障礙重重。各部門(mén)就像是一個(gè)孤島,無(wú)法實(shí)現(xiàn)與外部的數(shù)據(jù)整合交換。對(duì)異構(gòu)數(shù)據(jù)的集成將是各部門(mén)之間實(shí)現(xiàn)數(shù)據(jù)共享的關(guān)鍵。目前數(shù)據(jù)集成的主要障礙有操作系統(tǒng)異構(gòu)、數(shù)據(jù)結(jié)構(gòu)異構(gòu)和語(yǔ)義異構(gòu)等。前兩種異構(gòu)通過(guò)對(duì)象請(qǐng)求代理體系結(jié)構(gòu)(Common Object Request Broker Architecture)和中間件技術(shù)能較好地解決。對(duì)于最后一類(lèi)問(wèn)題,目前解決方法有:XML(可擴(kuò)展標(biāo)記語(yǔ)言)和以XML、OWL、RDF等為基礎(chǔ)建立的本體。
XML是一種通用信息交換語(yǔ)言,它提供一系列規(guī)則用于創(chuàng)建滿(mǎn)足用戶(hù)需求的標(biāo)簽。通過(guò)解釋程序,標(biāo)簽之間的關(guān)系可以得到完整的解析[1]。XML雖然提供了定義數(shù)據(jù)的標(biāo)準(zhǔn),但進(jìn)行數(shù)據(jù)交換時(shí),須先在語(yǔ)義方面協(xié)調(diào)一致,否則含有不同模式的XML數(shù)據(jù)源之間很難互操作,容易出現(xiàn)語(yǔ)義歧義和沖突。
最初本體是哲學(xué)領(lǐng)域范疇,用來(lái)表示世界的本原和存在,現(xiàn)在本體被引入計(jì)算機(jī)領(lǐng)域,用來(lái)表達(dá)人們對(duì)于領(lǐng)域的共同理解。Gruber最早于1993年提出“本體是概念化的規(guī)范化說(shuō)明”[2]。本體基于相關(guān)領(lǐng)域內(nèi)的知識(shí),提供關(guān)于概念特性及概念之間關(guān)系的明確定義,能非常有效地提供領(lǐng)域內(nèi)的語(yǔ)義相關(guān)關(guān)系,是解決數(shù)據(jù)集成中語(yǔ)義異構(gòu)非常好的方法。
信息在社會(huì)中占有舉足輕重的地位,而政府是最大的信息生產(chǎn)者、收集者、發(fā)布者和使用者。政府信息資源約占全社會(huì)信息資源總量的80%。無(wú)論是政府機(jī)構(gòu)內(nèi)部的運(yùn)作和決策,還是企業(yè)的開(kāi)拓和發(fā)展,或是人民的日常生活和自我發(fā)展,都離不開(kāi)政府信息的支持和服務(wù)。
很多地方政府在信息建設(shè)過(guò)程中各部門(mén)各自為政、條塊分割,使用不同的數(shù)據(jù)存儲(chǔ)標(biāo)準(zhǔn)、不同系統(tǒng),這些都阻礙了信息和數(shù)據(jù)的有效共享,造成了信息孤島的形成。如果不能有效地解決,將會(huì)造成社會(huì)資源的浪費(fèi),各部門(mén)系統(tǒng)辦公的不協(xié)調(diào),社會(huì)治理成本的增加,民眾獲取信息難度的增大,影響政府公信力和形象。如何將這些異構(gòu)數(shù)據(jù)源集成,是我們的迫切需要。
而傳統(tǒng)的異構(gòu)數(shù)據(jù)集成有聯(lián)邦數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、中間件等方式,局限性較大。聯(lián)邦數(shù)據(jù)庫(kù)方式需要數(shù)據(jù)庫(kù)兩兩相連,構(gòu)建和維修成本過(guò)高;數(shù)據(jù)倉(cāng)庫(kù)方式將所有數(shù)據(jù)集中到一個(gè)數(shù)據(jù)倉(cāng)庫(kù)中,更新困難大量冗余;而中間件方式則是建立虛擬數(shù)據(jù)庫(kù),擴(kuò)展性較好但其無(wú)法處理語(yǔ)義異構(gòu)數(shù)據(jù)。本文主要從技術(shù)層面考慮這些問(wèn)題,提出使用混合本體的方式進(jìn)行數(shù)據(jù)集成,能夠在盡量減少對(duì)各部門(mén)現(xiàn)有系統(tǒng)的影響下,實(shí)現(xiàn)異構(gòu)數(shù)據(jù)在全局的流通。
根據(jù)本體進(jìn)行數(shù)據(jù)集成的方式有三種:?jiǎn)我槐倔w方法、多本體方法和混合本體方法[3]。單一本體法,所有數(shù)據(jù)源共享一個(gè)全局本體,各部分?jǐn)?shù)據(jù)通過(guò)中間件與全局本體映射。易于構(gòu)建,數(shù)據(jù)源獨(dú)立性不夠,數(shù)據(jù)不易增刪;多本體法,本體個(gè)數(shù)與數(shù)據(jù)源個(gè)數(shù)一一對(duì)應(yīng),易于數(shù)據(jù)的增刪;全局整體性不足,各系統(tǒng)之間很難建立聯(lián)系?;旌媳倔w方法克服上述兩種方法的缺點(diǎn),在各局部本體的基礎(chǔ)上,構(gòu)建全局本體,如圖1所示。
圖1 混合本體方法
這一方法在保障政府各職能部門(mén)系統(tǒng)獨(dú)立安全的同時(shí)兼顧了全局整體性。局部本體與各數(shù)據(jù)庫(kù)相通,用來(lái)描述數(shù)據(jù),全局本體則是在局部本體的基礎(chǔ)之上進(jìn)行概化,對(duì)概念進(jìn)行統(tǒng)一。全局本體和局部本體之間的有效互通,通過(guò)本體映射來(lái)完成。
基于混合本體構(gòu)建的模型能有效地解決政府各部門(mén)數(shù)據(jù)的語(yǔ)義異構(gòu)問(wèn)題,并同時(shí)兼顧集成系統(tǒng)的全局性以及各分系統(tǒng)的獨(dú)立性。圖2為基于混合本體的政府?dāng)?shù)據(jù)集成模型[4]。該集成模型自頂向下分別為用戶(hù)層,中間件層(包括全局本體、映射、局部本體)和數(shù)據(jù)層(包括數(shù)據(jù)源和屏蔽操作系統(tǒng)和數(shù)據(jù)結(jié)構(gòu)異構(gòu)的封裝器等)。
接受用戶(hù)的處理指令,將請(qǐng)求傳遞給中間件層,并接受其反饋結(jié)果傳遞給用戶(hù)。
是整個(gè)政府?dāng)?shù)據(jù)集成模型的重點(diǎn),包括全局本體、全局本體與局部本體之間的映射、局部本體和分析處理器。分析處理器根據(jù)用戶(hù)指令與本體庫(kù)交互,根據(jù)全局本體與局部本體之間映射將指令分配到相應(yīng)局部本體,形成相對(duì)應(yīng)子查詢(xún)。并且在結(jié)果反饋階段,將各數(shù)據(jù)源的子查詢(xún)結(jié)果進(jìn)行匯總,然后反饋給用戶(hù)。局部本體要根據(jù)各部分?jǐn)?shù)據(jù)源的特點(diǎn)來(lái)構(gòu)建,從中抽取出數(shù)據(jù)的表達(dá)方式。依據(jù)主題詞表構(gòu)建全局本體,可以保證本體庫(kù)的統(tǒng)一性。它提供了政府?dāng)?shù)據(jù)集成系統(tǒng)的全局知識(shí)領(lǐng)域,是對(duì)全局?jǐn)?shù)據(jù)語(yǔ)義的描述。映射層則是將全局本體與局部本體的概念相對(duì)應(yīng),消除各局部本體的不一致。它不僅僅建立了本體的對(duì)應(yīng)關(guān)系,更增加了整個(gè)系統(tǒng)的穩(wěn)定和靈活性,在數(shù)據(jù)源層有數(shù)據(jù)的增刪時(shí),不需修改全局本體,只需對(duì)映射做出相應(yīng)的變動(dòng)。
是由各政府部門(mén)的數(shù)據(jù)源和相應(yīng)的封裝器組成,數(shù)據(jù)源一般是指各部門(mén)的數(shù)據(jù)庫(kù),但也可以包括其他數(shù)據(jù)文件。各部門(mén)的數(shù)據(jù)源可以是語(yǔ)義異構(gòu)的,本體會(huì)提供對(duì)其的統(tǒng)一描述。但各部門(mén)的還可能存在結(jié)構(gòu)、系統(tǒng)的異構(gòu)等,封裝器能提供對(duì)其的屏蔽,并負(fù)責(zé)與中間層和數(shù)據(jù)源的交互。當(dāng)接收到來(lái)自中間件層的指令時(shí),即轉(zhuǎn)換成能對(duì)數(shù)據(jù)源直接進(jìn)行操作的語(yǔ)言,并將查詢(xún)結(jié)果反饋給中間件層,能有效減少操作的復(fù)雜性,并增加全局系統(tǒng)的靈活性。
本體的構(gòu)建是目前的研究熱點(diǎn)之一,并且本體構(gòu)建一般是面向某一特定領(lǐng)域,如果沒(méi)有客觀合理的方法指導(dǎo),各領(lǐng)域本體就難以保持一致。一般認(rèn)為GRUBER提出的五條規(guī)則(明確和客觀性、完整性、一致性、最大單向可擴(kuò)展性、最少約束)認(rèn)可度高[5]。
其他常用的本體構(gòu)建方法有:
TOVE法,又稱(chēng)Gruninger&Fox評(píng)價(jià)法[6],如圖3所示。
圖3 TOVE法本體模型
骨架法,又稱(chēng)Enterprise法,如圖4所示。是有關(guān)企業(yè)建模過(guò)程的本體。建立在企業(yè)本體基礎(chǔ)之上,是相關(guān)商業(yè)企業(yè)間術(shù)語(yǔ)和定義的集合,為其提供本體開(kāi)發(fā)的指導(dǎo)方針。
圖4 骨架法本體模型
其他本體構(gòu)建方法還包括SENSUS法、METHONTOLOGY法、IDEF5法和斯坦福大學(xué)所開(kāi)發(fā)的本體七步構(gòu)建法[7]。
七步法主要用于領(lǐng)域本體的構(gòu)建:
第一步,確定所構(gòu)建本體的領(lǐng)域和范疇。
第二步,確定重復(fù)使用現(xiàn)有本體的可能性。
第三步,列出本體中的重要術(shù)語(yǔ)。
第四步,定義類(lèi)和類(lèi)的等級(jí)體系。
第五步,定義類(lèi)的屬性。
第六步,定義屬性的分面。
第七步,創(chuàng)建實(shí)例。
一般來(lái)講所構(gòu)建的本體都是面向某一領(lǐng)域,用于描述該領(lǐng)域內(nèi)知識(shí)的概念模型,并且要求所使用的概念是領(lǐng)域內(nèi)公認(rèn)或者有一定影響力的。本體的建立對(duì)于需要交換信息,共享信息的人或異構(gòu)的系統(tǒng)來(lái)說(shuō),將有助于消除歧義,達(dá)成共識(shí)。
本文以政務(wù)信息這一領(lǐng)域內(nèi)的共享為例,舉例說(shuō)明局部本體的構(gòu)建過(guò)程。
1.構(gòu)建目標(biāo)。對(duì)需構(gòu)建局部本體的數(shù)據(jù)源進(jìn)行語(yǔ)義描述。
2.本體庫(kù)構(gòu)建過(guò)程,要確定該數(shù)據(jù)源的范疇。列舉出其中包含的重要術(shù)語(yǔ)和概念。建立起政務(wù)信息局部本體的框架。
3.確定本體范圍和術(shù)語(yǔ)。
4.復(fù)用現(xiàn)有本體。局部本體是對(duì)某一數(shù)據(jù)源中概念關(guān)系和概念定義的描述。構(gòu)建時(shí),應(yīng)該考慮現(xiàn)有本體的重復(fù)使用,這樣可以減少重復(fù)勞動(dòng)和工作量。比如可以使用電子政務(wù)主題詞表來(lái)構(gòu)建,利用知網(wǎng)詞典或是同義詞詞林來(lái)進(jìn)行本體映射過(guò)程中的相似度計(jì)算。
5.定義類(lèi)和類(lèi)的層次體系。在這一過(guò)程中可以先定義上層概念,即綜合性和概括性的類(lèi),然后自頂向下進(jìn)行細(xì)化。也可使用自底向上的方式。
最后對(duì)類(lèi)的屬性進(jìn)行定義,比如旅游這一類(lèi)的下屬類(lèi)游客,對(duì)其進(jìn)行定義就應(yīng)該是:
游客(姓名,性別,年齡,愛(ài)好,電話(huà))這個(gè)階段是構(gòu)建本體非常重要的一步,對(duì)類(lèi)的屬性進(jìn)行定義,表達(dá)了更完整的語(yǔ)義。
6.生成實(shí)例。選擇類(lèi)創(chuàng)建實(shí)例,并對(duì)實(shí)例的屬性值進(jìn)行填充。
局部本體和全局本體的構(gòu)建過(guò)程和方法基本類(lèi)似,但一般先進(jìn)行局部本體的構(gòu)建。構(gòu)建全局本體時(shí),對(duì)所有數(shù)據(jù)源分析,在局部本體的構(gòu)建基礎(chǔ)之上,選擇所需概念術(shù)語(yǔ)和實(shí)例創(chuàng)建全局本體。
本體間要想實(shí)現(xiàn)互操作就必須解決本體之間的異構(gòu)問(wèn)題,而本體映射則是手段之一。本體映射是找到不同本體之間的語(yǔ)義關(guān)聯(lián),例如全局本體與局部本體之間。
所謂本體映射則是在全局本體A、局部本體B中,對(duì)于B中的每一個(gè)概念都試圖在本體A中找到一個(gè)語(yǔ)義相同或是相近的對(duì)應(yīng)概念,對(duì)全局本體A亦是如此。本體的映射類(lèi)型有:概念-概念、屬性-概念、屬性-屬性等。在建立全局本體與局部之間的映射關(guān)系時(shí),通常采用Ehrig M的方法[8],如圖5所示:
圖5 本體的映射
特征元素提取,解析政務(wù)信息文檔,提取出本體詞匯,包括概念、屬性和關(guān)系等。
用戶(hù)選取,本體映射系統(tǒng)支持一個(gè)可選的用戶(hù)交互過(guò)程,通過(guò)用戶(hù)交互,用戶(hù)可以在自動(dòng)創(chuàng)建映射之前,手動(dòng)創(chuàng)建映射關(guān)系。
相似度計(jì)算,根據(jù)概念相似度和屬性相似度的不同,使用不同的計(jì)算方法。
映射發(fā)現(xiàn)?;诘蟮南嗨浦颠M(jìn)行,根據(jù)某種選擇策略并結(jié)合本體的約束和上下文關(guān)系等選擇本體間元素的最優(yōu)映射關(guān)系。
映射結(jié)果保存。算法輸出映射表,表中每一項(xiàng)對(duì)應(yīng)一個(gè)映射關(guān)系。每一項(xiàng)包含四個(gè)元素集合。源本體中的元素集合,目標(biāo)本體中的元素集合,元素對(duì)應(yīng)關(guān)系及關(guān)系的相似度數(shù)值。
在計(jì)算兩個(gè)本體元素的相似度時(shí),一般要計(jì)算概念、屬性和實(shí)例三個(gè)方面。分別計(jì)算三方面的相似度后,再匯總得出其相似度。
其中,分別表示概念1和2的描述集,表示屬于不屬于的元素集。depth(1)表示從1到根節(jié)點(diǎn)的距離。
并且一般來(lái)講建立全局本體與局部本體之間的映射時(shí),都是從局部本體映射到全局本體,這樣在數(shù)據(jù)源有增刪修改時(shí),只需要進(jìn)行新的映射,而不需改變?cè)杏成洹?/p>
基于混合本體的方法集成政務(wù)數(shù)據(jù)后,在查找所需信息時(shí),可以先通過(guò)分析處理器將查找指令經(jīng)本體推理分解到各數(shù)據(jù)源,然后將查找到的信息合并提交給用戶(hù)??梢杂行У叵湔Z(yǔ)義異構(gòu)問(wèn)題,并且此方法能兼顧政府?dāng)?shù)據(jù)對(duì)安全和保密性的要求??梢约铀僬畔⒒M(jìn)程,促進(jìn)信息資源的優(yōu)化配置,實(shí)現(xiàn)信息的順暢共享。
[1] 何克清, 何揚(yáng)帆, 梁鵬, 等. 本體元建模理論與方法及其應(yīng)用[M]. 北京: 科學(xué)出版社. 2008.
[2] Carbonell J G, Siekmann J. Intelligent Information Integration for the Semantic Web[J]. Springer Science, 2005, 10: 14-20.
[3] 楊興凱, 劉暢. 政府信息資源集成方法研究綜述[J].電子政務(wù), 2013(5): 5-6.
[4] 王曉芳. 基于本體的異構(gòu)數(shù)據(jù)源集成系統(tǒng)模型[M].北京: 清華大學(xué)出版社, 2007.
[5] Karp P D, Gruber T R. A generic knowledge-base access protocol[E/OL]. (2015-04-27).https://www.researchgate. net/publication/244956819_A_generic_knowledge-base_access_protocol.
[6] 楊秋芬, 陳躍新. Ontology方法學(xué)綜述[J]. 計(jì)算機(jī)應(yīng)用與研究. 2002(4): 5-7.
[7] NOY N F. Ontology Development 101: A Guide to Creating Your First Ontology: Knowldege Systems Laboratory [E/OL]. (2015-04-27). http://wenku.baidu.com/link?url= u1M0 zutI7XBKDX-bXmomU_meYPOfbQY87dFzh98fgGZI_qWp2CRasLtHvUVqQo4-ZOGz1xN3CR1DSd7g5C1zEUrOTHr7JkR_FWr-kxianCS .
[8] EHRIG M, STAAB S. QOM–quick ontology mapping [M]//The Semantic Web–ISWC 2004. Berlin Heidelberg: Springer, 2004: 683-697.
[9] EHRIG M, SURE Y. Ontology mapping–an integrated approach[M]//The Semantic Web: Research and Applications. Berlin Heidelberg: Springer, 2004: 76-91.
[10] 高煒, 梁. 基于貼近度的本體概念屬性相似度計(jì)算[J]. 長(zhǎng)春大學(xué)學(xué)報(bào), 2009, 19(8): 2-3.
[11] 沈亦軍, 呂剛. 基于實(shí)例相似度的本體映射方法研究[J]. 重慶科技大學(xué)學(xué)報(bào), 2012, 14(3): 2.
Research on E-Government Heterogeneous Data Integration with Hybrid Ontology Method
LI Yong-zhong HU Si-qi
(Fuzhou University FuZhou 350116 China)
With the development of E-Government informationization, the traditional information sharing mode limit the exchange between various government departments. This paper introduces the current heterogeneous data integration mode, proposes integration mode based on hybrid ontology, and describes the function of each part. This mode can effectively shield the heterogeneity of data and protect the independence of each system. This paper describes the methods of constructing domain ontology and ontology mapping, and illustrates the building process of the domain ontology.
hybrid ontology; heterogeneous data; ontology construction; data integration
TP393
A
10.14071/j.1008-8105(2016)05-0017-04
2015-04-27;
李永忠(1963-)男,福州大學(xué)經(jīng)濟(jì)與管理學(xué)院副教授;胡思琪(1993-)女,福州大學(xué)經(jīng)濟(jì)與管理學(xué)院碩士研究生.
編輯 劉 波
電子科技大學(xué)學(xué)報(bào)(社科版)2016年5期