李昕騫,饒若楠
1998年,萬維網(wǎng)之父Tim Berners-Lee開始勾勒語義Web,2000年12月18日在XML2000 的會議上正式提出了語義Web,其目標是使Web 上的信息具有計算機可以理解的語義。在Web 標準化組織W3C 以及學(xué)術(shù)界和工業(yè)界的共同努力下,語義Web 逐步完善,已經(jīng)形成了由資源描述框架RDF(Resource Description Framework)為核心的多層體系結(jié)構(gòu),該體系中從底層到高層分別為:UNICODE 和URI、XML 、RDF、RDF模式,Web本體語言,SPARQL查詢語言和規(guī)則交換格式、統(tǒng)一邏輯層 、證明層、信任層,以及加密,用戶接口和應(yīng)用。其中,本體是指在一定范圍內(nèi)共享的概念模型明確的形式化規(guī)范說明,通過對概念的嚴格定義和概念與概念之間的關(guān)系來確定概念精確含義,表示共同認可的、可共享的知識。在語義Web 中,本體具有非常重要的地位,是解決語義層次上的Web 信息共享和重用的基礎(chǔ)。
為了共享和重用異構(gòu)數(shù)據(jù),傳統(tǒng)的信息集成系統(tǒng)通常在數(shù)據(jù)層次上采用全局的數(shù)據(jù)庫模式(比如數(shù)據(jù)倉庫),在應(yīng)用層次上采用服務(wù)總線中間件(比如Oracle企業(yè)服務(wù)總線服務(wù)器),為應(yīng)用提供可單點訪問的共享數(shù)據(jù)服務(wù)。這些方法對數(shù)據(jù)的準確性和一致性是強制要求的,當動態(tài)集成來自外部數(shù)據(jù)源的數(shù)據(jù)時,有嚴重的局限性,關(guān)系型模型和UML類模型只能表達模式級別上的數(shù)據(jù)語義,像表、類、屬性。為了鏈接異構(gòu)數(shù)據(jù)并展現(xiàn)更豐富的數(shù)據(jù)語義,必須解決各種異構(gòu)沖突,包括語法層次的,結(jié)構(gòu)層次的和語義層次的。
研究者針對這類異構(gòu)數(shù)據(jù)的互操作性問題,提出了在數(shù)據(jù)集成中使用本體,作為信息語義的直接描述,并開發(fā)了很多基于本體的數(shù)據(jù)集成方法[1] [2] [3]。本文擴展了混合本體集成方法[1],提出了一個基于本體的數(shù)據(jù)服務(wù)平臺,遵照面向服務(wù)架構(gòu)原則,為異構(gòu)數(shù)據(jù)提供者和消費者提供全局的RDF數(shù)據(jù)視圖。該平臺采用了面向服務(wù)架構(gòu),使全生命周期的數(shù)據(jù)管理統(tǒng)一化,包括數(shù)據(jù)注冊、集成、演化、發(fā)布和訪問,改進了現(xiàn)有系統(tǒng)對這些方面的支持不足,簡化了跨應(yīng)用、企業(yè)和團體的數(shù)據(jù)共享與重用。
平臺架構(gòu)如圖1所示。通過封裝器/協(xié)調(diào)器(Wrapper/Mediator)框架,將分布式的異構(gòu)數(shù)據(jù)(如關(guān)系數(shù)據(jù)庫,LDAP,半結(jié)構(gòu)化Web數(shù)據(jù)及遺留數(shù)據(jù)應(yīng)用)注冊并自動創(chuàng)建本地的本體,并利用擴展的SPARQL協(xié)調(diào)器映射到全局本體,對外提供聯(lián)合SPARQL查詢服務(wù)。
該平臺采用面向服務(wù)架構(gòu),引入了3種角色:數(shù)據(jù)提供者、本體管理員、客戶端用戶和應(yīng)用。數(shù)據(jù)提供者能夠使用數(shù)據(jù)源注冊與監(jiān)控服務(wù)注冊各種數(shù)據(jù)源,數(shù)據(jù)源注冊與監(jiān)控服務(wù),將調(diào)用相應(yīng)的封裝器同步數(shù)據(jù)源,并自動產(chǎn)生相應(yīng)的本地本體數(shù)據(jù),然后數(shù)據(jù)提供者可以通過擴展SPARQL協(xié)調(diào)器,設(shè)置本地本體數(shù)據(jù)到全局本體的映射關(guān)系。平臺為協(xié)調(diào)器設(shè)計了一種擴展SPARQL機制,即混合SPARQL CONSTRUCT, RDF數(shù)據(jù)和規(guī)則的本體映射關(guān)系表達機制,易于應(yīng)對實際項目應(yīng)用中的各種復(fù)雜的本體映射和數(shù)據(jù)融合。同時,數(shù)據(jù)源注冊與監(jiān)控服務(wù)能夠直接或者通過數(shù)據(jù)源Agent對數(shù)據(jù)源數(shù)據(jù)變化和有效性進行監(jiān)控。
圖1 基于本體的數(shù)據(jù)服務(wù)平臺架構(gòu)
客戶端應(yīng)用和用戶能夠查詢相關(guān)領(lǐng)域的全局本體詞匯,并進一步查詢聯(lián)合SPARQL服務(wù),同時可以向應(yīng)用SPARQL注冊與監(jiān)控服務(wù)注冊所調(diào)用的SPARQL語句,以便平臺協(xié)調(diào)本體和應(yīng)用的演化。在本體數(shù)據(jù)發(fā)生改變時,應(yīng)用SPARQL注冊與監(jiān)控服務(wù)將檢查是否對注冊應(yīng)用所使用SPARQL的本體數(shù)據(jù),而本體與應(yīng)用之間的協(xié)同演化,使用RDF具名圖[4]記錄對應(yīng)的本體與應(yīng)用的更新版本。
本體管理者負責審批數(shù)據(jù)提供者所注冊的數(shù)據(jù)源映射,使用RDF具名圖,為本體數(shù)據(jù)發(fā)布審核和配置信息源、隱私保護、訪問控制和語義信任。在共享本體數(shù)據(jù)概念和映射演化時,應(yīng)用規(guī)則推理機獲知語義沖突,引入信念修正概念[5],為相關(guān)信念斷言指定認知牢固度次序,然后根據(jù)產(chǎn)生規(guī)則得到修正后的信念集合,使本體數(shù)據(jù)能夠自動演化。下面通過鳥和企鵝的例子來說明如何使用信念修正方法進行本體數(shù)據(jù)演化:
① 初始信念集合:BIRD?FEATHERS (所有的鳥有羽毛),BIRD?FLY (所有的鳥會飛)
② 增加信念集合:PENGUIN?BIRD (所有的企鵝是鳥),PENGUIN??FLY (所有的企鵝不會飛)
③ 信念沖突:PENGUIN?BIRD (所有的企鵝是鳥),PENGUIN??FLY (所有的企鵝不會飛),BIRD?FLY (所有的鳥會飛)
④ 認知牢固度排序:EE(PENGUIN?BIRD (所有的企鵝是鳥))=EE(PENGUIN??FLY (所有的企鵝不會飛)) >EE(BIRD?FLY (所有的鳥會飛))
⑤ 修正后的信念集合:PENGUIN?BIRD (所有的企鵝是鳥),PENGUIN??FLY (所有的企鵝不會飛),BIRD?FLY∪ ?FLY (有的鳥會飛,有的鳥不會飛)
以該數(shù)據(jù)服務(wù)平臺為核心,我們?yōu)榭蛻糸_發(fā)了一個位置相關(guān)的移動應(yīng)用項目。這是一個上下文敏感的旅游信息服務(wù)系統(tǒng),集成了地圖服務(wù)、Facebook社區(qū)、維基百科和第三方合作伙伴所提供的服務(wù),如圖2所示。基于當前GPS位置,移動設(shè)備顯示用戶周邊地理信息,由此,移動用戶可以在地圖上探索和導(dǎo)航各種生活信息,并能夠根據(jù)用戶的興趣和偏好,在地圖周邊為用戶搜索和推薦其最可能需要的生活娛樂信息。
本文描述了一個基于本體的數(shù)據(jù)服務(wù)平臺,給出了該方法的系統(tǒng)架構(gòu)和面向服務(wù)的本體數(shù)據(jù)集成、演化和發(fā)布過程,并基于惠普實驗室的Jena開發(fā)包實現(xiàn)了此原型系統(tǒng),及一個上下文敏感的旅游信息項目。通過該平臺,允許數(shù)據(jù)提供者注冊各種異構(gòu)數(shù)據(jù)并自動轉(zhuǎn)化為RDF數(shù)據(jù),然后本體管理者能夠?qū)Ρ倔w進行審核、變更和發(fā)布,為最終用戶和客戶端應(yīng)用提供統(tǒng)一的本體數(shù)據(jù)查詢服務(wù),從而促進了領(lǐng)域知識和異構(gòu)數(shù)據(jù)的快速共享和重用。下一步的工作,包括本體映射、本體的一致性檢測、本體隱私保護、語義證據(jù)與信任等方面還有待繼續(xù)研究。
圖2 上下文敏感的旅游信息服務(wù)
[1] Wache H, V?gele T, U. Visser, Stuckenschmidt H, Schuster G, Neumann H, Hübner S.Ontology-based Integration of Information - A Survey of Existing Approaches[C] //Proceedings of IJCAI-01 Workshop: Ontologies and Information Sharing, Seattle, WA, 2001:108-117.
[2] Bergamaschi S, Castano S, Vincini M , Beneventano D.Semantic integration of heterogeneous information sources[J] , Data and Knowledge Engineering,36(3):215-249.
[3] Hakimpour F, Geppert A. Resolving Semantic Heterogeneity in Schema Integration:an Ontology Based Approach[C] //Proceedings of Conference on Formal Ontology in Information Systems, FOIS’01, Ogunquit,Maine, USA, October 17-19, 2001.
[4] Carroll J J, Bizer C, H P, Stickler P. Named Graphs,Provenance and Trust[C] //Proceedings of the 14th International World Wide Web Conference, Chiba, Japan,May 10-14, 2005.
[5] Flouris G.On Belief Change and Ontology Evolution,Doctoral Dissertation, DEPARTMENT OF COMPUTER SCIENCE[D] . UNIVERSITY OF CRETE, February 2006.