杜明,郝國生
(江蘇師范大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 徐州221116)
計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展為圖書館和數(shù)據(jù)中心的信息服務(wù)提供了跨越式和學(xué)科交叉發(fā)展的良機(jī),同時(shí)也帶來了嚴(yán)峻的挑戰(zhàn).隨著圖書館和數(shù)據(jù)中心數(shù)字資源建設(shè)的深入進(jìn)展,將會(huì)面臨大量的數(shù)字資源和多源異構(gòu)數(shù)據(jù)(如多學(xué)科交叉數(shù)據(jù)等),在數(shù)字資源特色化、異構(gòu)數(shù)據(jù)資源的導(dǎo)航和發(fā)現(xiàn)整合方面也會(huì)遭遇難題[1].如何實(shí)現(xiàn)海量多源異構(gòu)數(shù)據(jù)資源的深入挖掘、發(fā)現(xiàn)及有效整合,并提供一站式的資源檢索和知識(shí)發(fā)現(xiàn)服務(wù),滿足用戶各種專業(yè)性需求,是業(yè)界研究與實(shí)踐的熱點(diǎn)和難點(diǎn).
云計(jì)算的出現(xiàn)為圖書館和數(shù)據(jù)中心提供了強(qiáng)大的多源異構(gòu)數(shù)據(jù)支撐環(huán)境、海量存儲(chǔ)能力,以及有效的知識(shí)發(fā)現(xiàn)服務(wù)和資源整合機(jī)制.云計(jì)算是傳統(tǒng)計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)發(fā)展融合的新產(chǎn)物,是一種新的資源提供模式,其核心思想是對(duì)分布式網(wǎng)絡(luò)資源進(jìn)行統(tǒng)一地管理和整合,將這些資源看成一個(gè)整體,并賦予用戶獲取和使用資源的自由.當(dāng)前,圖書館和數(shù)據(jù)中心的數(shù)據(jù)資源正在呈幾何級(jí)增長,信息的分布卻處于分而不聚和聚而不合的異構(gòu)狀態(tài)[2].而云計(jì)算可以有效地處理海量數(shù)據(jù)的存儲(chǔ)、多學(xué)科交叉數(shù)據(jù)的計(jì)算,以及多源異構(gòu)數(shù)據(jù)的深入發(fā)現(xiàn)和資源整合,進(jìn)而加快圖書館和數(shù)據(jù)中心的信息資源的數(shù)字化及資源整合利用率,并跟蹤用戶的信息需求行為,動(dòng)態(tài)適應(yīng)性地為用戶提供有效的資源發(fā)現(xiàn)和聚合服務(wù),為數(shù)據(jù)資源發(fā)現(xiàn)、整合和服務(wù)創(chuàng)新提供了新的發(fā)展空間[3].
對(duì)數(shù)據(jù)資源的發(fā)現(xiàn)和整合都是在資源發(fā)現(xiàn)機(jī)制的基礎(chǔ)上進(jìn)行的.發(fā)現(xiàn)機(jī)制是數(shù)據(jù)資源管理整合的核心,也是數(shù)據(jù)資源生命周期的開始,具有重要的地位.
數(shù)據(jù)資源的提供方式已經(jīng)從傳統(tǒng)的網(wǎng)頁集合形式轉(zhuǎn)變成Web集合的形式,Web服務(wù)是目前數(shù)據(jù)資源尤其是在海量的異構(gòu)數(shù)據(jù)方面提供的基本單元.數(shù)據(jù)資源的發(fā)現(xiàn)是指在資源集合中找到有用數(shù)據(jù)的過程.目前,數(shù)據(jù)資源的發(fā)現(xiàn)機(jī)制主要有兩種,一種是基于語法的關(guān)鍵詞精確匹配的發(fā)現(xiàn)機(jī)制,另一種是基于語義本體的發(fā)現(xiàn)機(jī)制.基于語法的關(guān)鍵詞精確匹配的發(fā)現(xiàn)機(jī)制是通過UDDI實(shí)現(xiàn)的,在早期互聯(lián)網(wǎng)數(shù)據(jù)量不多的情況下,該發(fā)現(xiàn)機(jī)制具有良好效果,但是面對(duì)數(shù)據(jù)資源的海量增長和結(jié)構(gòu)的多異性,關(guān)鍵詞匹配的精確度降低,且無法從語義上進(jìn)行準(zhǔn)確地發(fā)現(xiàn),因而逐漸被淘汰.基于語義本體的發(fā)現(xiàn)機(jī)制主要有兩種方法,一是Ki m Christensen等提出的單獨(dú)建立語義 Web服務(wù)的注冊(cè)中心[4],另一個(gè)是Paolucci等提出的對(duì)于UDDI進(jìn)行的語義擴(kuò)展[5].設(shè)計(jì)一個(gè)合理有效的基于語義本體的發(fā)現(xiàn)機(jī)制,是云環(huán)境下多源異構(gòu)數(shù)據(jù)資源管理以及整合的前提,其重點(diǎn)是需要設(shè)置數(shù)據(jù)資源的相關(guān)特征信息,如對(duì)數(shù)據(jù)資源的本體描述和對(duì)數(shù)據(jù)資源的本體映射方法等.數(shù)據(jù)資源自被創(chuàng)造開始,會(huì)經(jīng)歷一個(gè)生命周期[6],數(shù)據(jù)資源的生命周期管理是對(duì)該資源進(jìn)行有效管理的一個(gè)模型(如圖1所示).在生命周期中,每個(gè)階段都需要有相應(yīng)的技術(shù)手段進(jìn)行實(shí)現(xiàn),基于語義本體的發(fā)現(xiàn)機(jī)制是數(shù)據(jù)資源各個(gè)階段管理和分析的基礎(chǔ).
圖1 數(shù)據(jù)資源生命周期管理Fig.1 Lifecycle management of data resources
在互聯(lián)網(wǎng)發(fā)展早期,提供網(wǎng)絡(luò)資源發(fā)現(xiàn)的方法是導(dǎo)航服務(wù).許多學(xué)術(shù)科研機(jī)構(gòu)和圖書館在提供數(shù)據(jù)資源導(dǎo)航服務(wù)的同時(shí),與知識(shí)組織等方法相結(jié)合提供數(shù)據(jù)資源的發(fā)現(xiàn)和整合服務(wù).但是,隨著網(wǎng)絡(luò)數(shù)據(jù)資源的爆炸式增長,以及用戶的個(gè)性化和多樣化的需求,導(dǎo)航服務(wù)已不能滿足數(shù)據(jù)資源發(fā)現(xiàn)和整合的需求,搜索引擎技術(shù)則應(yīng)運(yùn)而生.搜索引擎利用爬蟲技術(shù)發(fā)現(xiàn)網(wǎng)絡(luò)中的海量資源并制作檢索,為用戶提供了廣泛的數(shù)據(jù)資源發(fā)現(xiàn)服務(wù).但搜索引擎同樣面臨著很多的問題,如數(shù)據(jù)資源覆蓋度較低、語義分析精度不高、數(shù)據(jù)資源發(fā)現(xiàn)后的整合效率較差以及元數(shù)據(jù)利用存在障礙等[7].聯(lián)邦檢索是在搜索引擎技術(shù)之后出現(xiàn)的,是一種結(jié)合語法和語義技術(shù)的以多個(gè)分布式異構(gòu)數(shù)據(jù)源為對(duì)象的檢索系統(tǒng),能夠發(fā)現(xiàn)網(wǎng)絡(luò)中深層的數(shù)據(jù)資源.目前,各個(gè)學(xué)校和科研機(jī)構(gòu)的圖書館均擁有多個(gè)數(shù)據(jù)庫,加之多個(gè)學(xué)校或者科研機(jī)構(gòu)之間合作和資源共享,使得信息中心數(shù)據(jù)庫的數(shù)量異常龐大,且為多源和異構(gòu)數(shù)據(jù).聯(lián)邦檢索是解決這種問題進(jìn)行數(shù)據(jù)庫整合以提供知識(shí)發(fā)現(xiàn)服務(wù)的有效工具,但存在檢索速度慢、返回結(jié)果有限、跨庫檢索效果不理想等問題.因此,在數(shù)據(jù)資源的發(fā)現(xiàn)、整合和服務(wù)的發(fā)展要求下,云計(jì)算服務(wù)是必然趨勢(shì).云計(jì)算服務(wù)的出現(xiàn)解決了聯(lián)邦檢索技術(shù)存在的問題,使海量多源異構(gòu)數(shù)據(jù)資源的發(fā)現(xiàn)服務(wù)從本地走向網(wǎng)絡(luò),發(fā)現(xiàn)深度增高,資源的集成性較為明顯,同時(shí)可節(jié)約圖書館和數(shù)據(jù)中心信息化建設(shè)的成本,并能夠滿足用戶的個(gè)性化知識(shí)發(fā)現(xiàn)服務(wù)和資源整合需求.
在云環(huán)境下,數(shù)據(jù)資源具有多源性、異構(gòu)性、不確定性和動(dòng)態(tài)性等特征,并且面對(duì)用戶資源需求的個(gè)性化和多樣化等問題,其數(shù)據(jù)資源的發(fā)現(xiàn)、選擇、整合和管理均需要有更大的創(chuàng)新和發(fā)展.研究云環(huán)境下跨平臺(tái)、領(lǐng)域、學(xué)科的多源數(shù)據(jù)資源的描述、發(fā)現(xiàn)、匹配和整合機(jī)制,是實(shí)現(xiàn)多源數(shù)據(jù)資源管理和提供優(yōu)質(zhì)服務(wù)的重要途徑.對(duì)于用戶來說,其目標(biāo)是最大化地獲得自己所需要的數(shù)據(jù)資源,因此,可以看出發(fā)現(xiàn)是對(duì)數(shù)據(jù)資源進(jìn)行利用和再創(chuàng)造的基礎(chǔ),具有重要的地位.本文將在有關(guān)研究的基礎(chǔ)上給出一種基于語義的多源數(shù)據(jù)資源的聯(lián)合發(fā)現(xiàn)機(jī)制.
擴(kuò)展UDDI語義[5]是目前云環(huán)境下構(gòu)建基于語義本體的多源數(shù)據(jù)資源發(fā)現(xiàn)機(jī)制的一個(gè)重要實(shí)現(xiàn)方法,數(shù)據(jù)資源的本體描述是資源發(fā)現(xiàn)的基礎(chǔ)和關(guān)鍵,由于建立基于領(lǐng)域的本體庫能夠有效地解決資源描述的問題,因而領(lǐng)域本體庫的建立是擴(kuò)展UDDI語義的前提.本體是對(duì)數(shù)據(jù)資源以及概念間關(guān)系的精確描述,這種描述對(duì)于多源性、異構(gòu)性、不確定性和動(dòng)態(tài)性的數(shù)據(jù)資源發(fā)現(xiàn)具有重要的作用.OWL-S語言[8]則規(guī)范了一組描述數(shù)據(jù)資源服務(wù)的知識(shí)本體,OWL-S主要由3部分組成,分別是描述數(shù)據(jù)資源服務(wù)做什么、如何工作和如何被訪問的.作為描述性語言,OWLS增強(qiáng)了資源服務(wù)的理解性和易用性.
在云環(huán)境下,多源數(shù)據(jù)資源的發(fā)現(xiàn)是對(duì)資源進(jìn)行選擇、整合和管理的基礎(chǔ),而數(shù)據(jù)的描述是發(fā)現(xiàn)機(jī)制的前提.因此,對(duì)數(shù)據(jù)資源的描述和發(fā)現(xiàn)是資源管理全程的核心.研究數(shù)據(jù)資源的描述和發(fā)現(xiàn)機(jī)制實(shí)際上就是研究需求和服務(wù)匹配之間關(guān)聯(lián)機(jī)制.圖2是一種基于UDDI和OWL-S的數(shù)據(jù)資源聯(lián)合發(fā)現(xiàn)機(jī)制的框架.
圖2 基于UDDI和OWL-S的數(shù)據(jù)資源聯(lián)合發(fā)現(xiàn)機(jī)制框架Fig.2 Joint discovery mechanism framework of data resources based on UDDI and OWL-S
由圖2可知,在數(shù)據(jù)資源的發(fā)現(xiàn)過程中,代理中心接受服務(wù)(數(shù)據(jù))提供者所提供的數(shù)據(jù)資源,將數(shù)據(jù)映射成UDDI的標(biāo)準(zhǔn)結(jié)構(gòu)后,通過調(diào)用UDDI的API完成服務(wù)(數(shù)據(jù))在UDDI注冊(cè)中心的發(fā)布.注冊(cè)發(fā)布后,數(shù)據(jù)資源本體獲得描述信息得到唯一的標(biāo)識(shí)符,返回給代理,存入領(lǐng)域本體庫,然后由代理中心將該資源的本體描述結(jié)合語義標(biāo)注信息存入OWL-S語義庫中.在數(shù)據(jù)資源的本體描述和領(lǐng)域本體庫的建立過程中,由于數(shù)據(jù)是多源、異構(gòu)和動(dòng)態(tài)不確定性的,需要通過本體映射機(jī)實(shí)現(xiàn)異構(gòu)數(shù)據(jù)的規(guī)范化,以解決語義異構(gòu)的問題.本體映射機(jī)通過范化、計(jì)算本體的語義相似度以及根據(jù)相似度實(shí)現(xiàn)領(lǐng)域本體的映射并進(jìn)行修成等來實(shí)現(xiàn)規(guī)范化.服務(wù)匹配是數(shù)據(jù)資源發(fā)現(xiàn)機(jī)制中的一個(gè)核心,是實(shí)現(xiàn)用戶資源需求和有效服務(wù)的基礎(chǔ).當(dāng)有服務(wù)(數(shù)據(jù))請(qǐng)求時(shí),代理中心接受用戶的服務(wù)需求,并將用戶的服務(wù)需求發(fā)送到服務(wù)匹配引擎,服務(wù)匹配引擎根據(jù)用戶需求的語義信息和語義匹配算法計(jì)算出匹配的級(jí)別,從建立的領(lǐng)域本體庫中尋找并匹配符合用戶需求的數(shù)據(jù)或信息.匹配成功后,直接調(diào)用UDDI中心的API,根據(jù)匹配的本體標(biāo)識(shí)和描述在UDDI中心進(jìn)行檢索,獲取資源信息并返回給用戶,滿足用戶的資源需求.
2.3.1 服務(wù)匹配策略 服務(wù)匹配是數(shù)據(jù)資源發(fā)現(xiàn)機(jī)制的核心.服務(wù)匹配的實(shí)質(zhì)就是將用戶的服務(wù)請(qǐng)求信息和本體庫中的本體描述信息進(jìn)行比較,當(dāng)兩者的匹配程度達(dá)到設(shè)置的閾值時(shí),即匹配成功,UDDI中心根據(jù)匹配結(jié)果檢索后即返回用戶需求的資源.在基于UDDI和OWL-S的數(shù)據(jù)資源聯(lián)合發(fā)現(xiàn)機(jī)制中,我們主要采用2層匹配策略.第一層次是服務(wù)(數(shù)據(jù))類別的匹配;第二層是資源本體描述的匹配.在數(shù)據(jù)資源發(fā)現(xiàn)和服務(wù)過程中,當(dāng)匹配引擎接收到代理中心傳遞過來的用戶服務(wù)需求信息之后,首先進(jìn)行第一層次的匹配,即服務(wù)(數(shù)據(jù))類別匹配.該層次主要進(jìn)行領(lǐng)域知識(shí)的匹配,若匹配不成功,則進(jìn)行其他領(lǐng)域的匹配;若匹配成功,則轉(zhuǎn)入第二層次的匹配.服務(wù)(數(shù)據(jù))類別匹配成功后,即進(jìn)入本體描述的匹配.本體描述的匹配標(biāo)準(zhǔn)是用戶服務(wù)請(qǐng)求信息和領(lǐng)域本體庫中本體描述之間的相似度,相似度的計(jì)算由語義相似算法完成.
2.3.2 語義相似算法 對(duì)于資源本體而言,一個(gè)本體可以有若干個(gè)概念,將本體的第i個(gè)概念用Ci表示.當(dāng)本體的2個(gè)概念Ci和Cj相同時(shí),Ci和Cj之間的相似度等于1;其他情況下,Ci和Cj之間的相似度均小于1;當(dāng)本體的2個(gè)概念不存在公共的上位概念元素時(shí),Ci和Cj之間的相似度則為0.Ci和Cj之間的相似度S(Ci,Cj,M)可定義如下[9]:
式中:M為資源本體;DS(Ci,M)為本體M的第i個(gè)概念Ci的上位概念.
在服務(wù)匹配策略本體描述匹配中,根據(jù)式(1)可計(jì)算出用戶服務(wù)請(qǐng)求信息與領(lǐng)域本體庫描述的相似度,并將其返回給用戶.
面對(duì)數(shù)據(jù)資源海量、多源、異構(gòu)、動(dòng)態(tài)和不確定的情況,基于UDDI和OWL-S的數(shù)據(jù)資源聯(lián)合發(fā)現(xiàn)機(jī)制比常規(guī)的資源發(fā)現(xiàn)機(jī)制具有良好的先進(jìn)性和精確性,對(duì)云環(huán)境下的圖書館和數(shù)據(jù)中心多源數(shù)據(jù)的共享和服務(wù)以及信息化建設(shè)方面具有顯著的推動(dòng)作用.
雖然云計(jì)算在圖書館和數(shù)據(jù)中心信息化建設(shè)中的應(yīng)用能極大地促進(jìn)其發(fā)展,但由于云計(jì)算尚處于早期探索的過程,在實(shí)踐中面臨著大量的技術(shù)難題,如分布式多源異構(gòu)數(shù)據(jù)的發(fā)現(xiàn)、海量數(shù)據(jù)的存儲(chǔ)等[10].本文介紹的基于UDDI和OWL-S的數(shù)據(jù)資源聯(lián)合發(fā)現(xiàn)機(jī)制具有良好的先進(jìn)性和精確性,而隨著云計(jì)算的發(fā)展和計(jì)算環(huán)境的變化,這種發(fā)現(xiàn)機(jī)制在時(shí)效性等方面也會(huì)存有不足.只有準(zhǔn)確把握云環(huán)境下云計(jì)算技術(shù)的實(shí)質(zhì),深入研究數(shù)據(jù)資源的挖掘和發(fā)現(xiàn)機(jī)制,持續(xù)進(jìn)行更新和再創(chuàng)造,才能有效提高海量多源異構(gòu)數(shù)據(jù)資源的整合,不斷滿足用戶個(gè)性化和多樣化的需求.
[1]張軍玲.云計(jì)算環(huán)境下高校數(shù)字圖書館信息資源整合機(jī)制研究[J].圖書館學(xué)研究,2012(7):25-28.
[2]楊善林,羅賀,丁帥.基于云計(jì)算的多源信息服務(wù)系統(tǒng)研究綜述[J].管理科學(xué)學(xué)報(bào),2012,15(5):83-95.
[3]余永紅,向曉軍,高陽,等.面向服務(wù)的云數(shù)據(jù)挖掘引擎的研究[J].計(jì)算機(jī)科學(xué)與探索,2012,6(1):46-57.
[4]Christensen K,Olesen T,Thomsen L L.Matching semantically described web services using ontologies[J].Information Technology and Control,2006,35(3 A):267-275.
[5]Srinivasan N,Paolucci M,Sycara K.AnEfficient AIgorithm for OWL-s based semantic Searchin UDDI[C].Berlin:Proceeding of Semantic Web Services and Web Process Composition:First international Workshop,SPring-Verlag,2005:96-110.
[6]Boniface M,Nasser B,Papay J,et al.Platform as a service architecture for real-ti me quality of service management inclouds[C].Washington,DC:Proceedings of the 2010 Fift h Inter national Conference on Inter net and Web Applications and Services:IEEE computer Society,2010:155-160.
[7]Zhang J,Alexandra D.The Impact of Metadata Implementation on Webpage Visibility in Search Engine R esults[J].Information Processing and Management,2005(41):691-715.
[8]Meditskos G,Bassiliades N.A combinatory framework ofweb 2.0 mashup tools,OWL-S and UDDI[J].Expert Systems with Applications,2011(38):6657-6668.
[9]汪衛(wèi)星,劉飛.云制造資源的一種發(fā)現(xiàn)機(jī)制[J].廣西大學(xué)學(xué)報(bào):自然科學(xué)版,2012,37(2):323-327.
[10]Wang C Q,Ai F.Study on Information Resources Integration and Service Mode Innovation of Digital Library under the Cloud Computing Environment[J].Library Work and Study,2011,179(1):48-51.