駱 舒,鄧 麗
(1.中國傳媒大學(xué)外國語學(xué)院,北京 100024;2.《現(xiàn)代教育報》新聞部,北京 100053)
重塑圖書館生存和發(fā)展的環(huán)境、推動圖書資料自身變革是云計算環(huán)境下圖書館未來發(fā)展的趨勢。云計算是分布式處理(Distributed Computing)、并行處理(Parallel Computing)和網(wǎng)格計算(Grid Computing)技術(shù)的發(fā)展,從本質(zhì)上講,云計算是指用戶終端通過遠(yuǎn)程連接,獲取存儲、計算、數(shù)據(jù)庫等資源。作為一種IT基礎(chǔ)設(shè)施與服務(wù)的交付和使用模式,將會深刻地影響未來互聯(lián)網(wǎng)的運作和服務(wù)模式,同時為傳統(tǒng)圖書館和數(shù)字圖書館未來的發(fā)展提供全方位的指導(dǎo)和啟發(fā),也為傳統(tǒng)圖書館提供了一種新的運營模式,圖書館的云時代即將到來。
云計算環(huán)境下實現(xiàn)語義檢索的首要條件是有豐富的領(lǐng)域本體,且為分布式的[1]。因此,構(gòu)建本體的方法是當(dāng)前本體研究中的熱點問題。由于本體的構(gòu)建多是面向特定領(lǐng)域,如果沒有好的方法路線指導(dǎo),就難以在不同領(lǐng)域本體的構(gòu)建中保持一致,也不利于本體的規(guī)模化和規(guī)范建設(shè)。因此,本體構(gòu)建方法的研究對于本體的應(yīng)用起著至關(guān)重要的作用。本文提出的面向云計算圖書資料管理的本體構(gòu)建技術(shù)旨在解決上述問題。
隨著云計算技術(shù)的深入開發(fā)和實踐,其在圖書館的應(yīng)用也會逐步深入發(fā)展,并逐漸進入實踐和理論相互促進、共同發(fā)展的階段。
1.1.1 圖書館生存和發(fā)展環(huán)境發(fā)生變革
云計算將改變圖書館的上游產(chǎn)業(yè)——出版發(fā)行服務(wù)商對于數(shù)據(jù)信息知識的組織、整合和提供方式,使其與圖書館的界線更為模糊,職能更為復(fù)雜,知識產(chǎn)權(quán)需要進一步明確甚至是重新確定“游戲規(guī)則”。云計算作用于文化的內(nèi)在機制,將逐步滲透到物質(zhì)文化、制度文化,最后到觀念文化,圖書館將處在一個全新的文化生態(tài)中,人們對圖書館的需求、觀念、應(yīng)用、評價方式等也將隨之改變。圖書館將要經(jīng)歷從量變到質(zhì)變的過程,通過這個嬗變過程,資源的配置將逐步實現(xiàn)優(yōu)化,圖書館的理念和政策也會相應(yīng)地進行調(diào)整。
1.1.2 圖書資料資源實現(xiàn)更廣泛地共享
云計算簡化了IT架構(gòu)的實施,給人們提供了一種理想的方式,即IT應(yīng)用可以像水電煤氣等公用設(shè)施一樣,實時定制,隨時取用,按需付費。云計算為圖書館提供了高效率、低成本、安全高、競爭力強的技術(shù)。“云存貯”是解決龐大數(shù)字資源的存儲和知識信息劇增與單個圖書館館藏能力不足這一矛盾的有效途徑;云計算為圖書館用戶提供信息服務(wù)泛在平臺;提高了圖書館信息資源的安全性;云計算提高圖書館信息服務(wù)資源的利用率;構(gòu)建本地化、標(biāo)準(zhǔn)化、低成本、自適應(yīng)的云解決方案,實現(xiàn)共享。
1.1.3 圖書資料管理業(yè)務(wù)流程將被再造
圖書資料管理應(yīng)用云計算是一項戰(zhàn)略選擇,尤其是在IT基礎(chǔ)設(shè)施領(lǐng)域,圖書館和資料室一旦選擇了云計算,就需要對原有信息系統(tǒng)的管理與服務(wù)進行重新部署,包括整個圖書館機構(gòu)與流程、IT部門人員數(shù)量與結(jié)構(gòu)、圖書館對于云計算服務(wù)的質(zhì)量檢測與控制手段等。由于現(xiàn)代圖書館的業(yè)務(wù)流程除了實體圖書館的服務(wù)端(指借閱、流通與參考咨詢工作)外,其余幾乎完全建立在計算機和網(wǎng)絡(luò)基礎(chǔ)之上,如果整個IT架構(gòu)向“云”中遷移,傳統(tǒng)的業(yè)務(wù)流程將被逐一拆解,然后組合、外包、虛擬化。
1.1.4 圖書資料服務(wù)范圍更為寬廣
首先是軟件服務(wù),即各類軟件應(yīng)用。采用本地安裝形式的圖書館自動化系統(tǒng)、辦公自動化系統(tǒng)等,都以一種網(wǎng)絡(luò)服務(wù)的形式提供;其次是云存儲服務(wù)。大量的數(shù)字資源,不論是自建的還是購買的,都可以存放于“云”上,而不再需要“鏡像”于本地;第三,中心圖書館作為“云”提供商,提供本地數(shù)據(jù)中心或者其他業(yè)務(wù)支持;第四,平臺服務(wù)。大型圖書館引入“云”設(shè)施,利用商用的云計算解決方案,架構(gòu)滿足本地或局部應(yīng)用的“私有云”平臺;第五,互聯(lián)網(wǎng)整合服務(wù)。圖書館作為一種服務(wù)中介,需要整合多家平臺和資源,利用各類公共云,實現(xiàn)不同“云”之間的互操作,拾遺補缺,向讀者提供更專指、貼心的服務(wù)。
云時代的數(shù)字圖書館是個分布在異構(gòu)環(huán)境中的知識體系,解決分布式網(wǎng)絡(luò)環(huán)境下系統(tǒng)或資源間的互操作問題是其核心技術(shù)?!爱悩?gòu)”是指系統(tǒng)或資源在結(jié)構(gòu)上的不同,互操作是指系統(tǒng)或資源之間的兼容性或關(guān)聯(lián)關(guān)系。萬維網(wǎng)是目前最大的開放分布式網(wǎng)絡(luò),可以看成由無數(shù)三層結(jié)構(gòu)應(yīng)用組成的大型資源庫群(repositories)。這些資源庫群是徹底異構(gòu)的,從數(shù)據(jù)結(jié)構(gòu)、操作系統(tǒng)到數(shù)據(jù)庫系統(tǒng)、應(yīng)用系統(tǒng),從命名方式到數(shù)據(jù)格式、結(jié)構(gòu)模型用戶界面,都有可能完全不同。從某種意義上來講,就是將信息科學(xué)、網(wǎng)絡(luò)技術(shù)與管理思想相融合的知識管理技術(shù),其核心是基于分布式本體的知識元數(shù)據(jù)的應(yīng)用。
圖書資料管理服務(wù)在云時代面臨的一個巨大挑戰(zhàn)是如何深入到更細(xì)小的知識單元(如數(shù)據(jù)),進行組織、整理、“策管”(Curator)和服務(wù),而不局限于電子書、期刊文章、技術(shù)報告等。這一直是高校圖書館近年來研究的熱點和核心內(nèi)容,被認(rèn)為是圖書館學(xué)和圖書館行業(yè)的核心競爭力。新的技術(shù)架構(gòu)(包括關(guān)聯(lián)數(shù)據(jù)、知識組織、云平臺和移動技術(shù)等)讓虛擬圖書館逐漸走向后臺,隱形于各類網(wǎng)絡(luò)服務(wù)中,不一定要直接面向讀者,而是作為一種基礎(chǔ)服務(wù)(包括數(shù)據(jù)服務(wù)),成為賽百空間的基礎(chǔ)設(shè)施之一。這種新的存在形式,真正能夠體現(xiàn)數(shù)字圖書館的價值,特別是能夠?qū)蒲?、教育和醫(yī)藥衛(wèi)生等方面提供持續(xù)的支持。
元數(shù)據(jù)提供了數(shù)字圖書館的語義基礎(chǔ),使資源有了基本的微觀結(jié)構(gòu),但是元數(shù)據(jù)并不能完全解決信息系統(tǒng)的語義異構(gòu)問題,包括資源采用不同元數(shù)據(jù)方案所造成的微觀結(jié)構(gòu)的異構(gòu)問題,以及資源對象之間存在的復(fù)雜的關(guān)聯(lián)關(guān)系,本體在某種程度上可以看成是“元”元數(shù)據(jù),信息系統(tǒng)中不同實體對象可能采用不同的元數(shù)據(jù)方案,不同的實體對象之間的關(guān)聯(lián)關(guān)系非常復(fù)雜,本體能夠?qū)@些情況進行很好地描述,從而為信息的組織、管理、檢索以及查詢提供模型和方法。
從本體的概念來看,它的本質(zhì)要求包括概念化、形式化、明確、共享、重用等特征,可以說工程性是本體建設(shè)的天然屬性。出于對各自學(xué)科領(lǐng)域和具體工程的不同考慮,構(gòu)建本體的過程各不相同。目前還沒有一套標(biāo)準(zhǔn)的本體構(gòu)建方法。一般認(rèn)為,Gruber在1995年提出的5條規(guī)則是比較有影響的:
(1)明確性和客觀性:本體應(yīng)該用自然語言對術(shù)語給出明確客觀的語義定義。
(2)完整性:所給出的定義是完整的,能表達(dá)特定術(shù)語的含義。
(3)一致性:知識推理產(chǎn)生的結(jié)論與術(shù)語本身的含義不會產(chǎn)生矛盾。
(4)最大單向可擴展性:向本體中添加通用或?qū)S玫男g(shù)語時,通常不需要修改己有的內(nèi)容。
(5)最少約束:對待建模對象應(yīng)該盡可能少列出限定約束條件。
目前大家公認(rèn)在構(gòu)建領(lǐng)域本體的過程中,需要領(lǐng)域?qū)<业膮⑴c和協(xié)作。領(lǐng)域內(nèi)的術(shù)語解釋一般是領(lǐng)域?qū)<疫\用自然語言給出的,不利于計算機運算和存儲,而明確、清晰地表示這些術(shù)語和概念是決定最終構(gòu)造出本體的基礎(chǔ)。本文以高校圖書和音像資料管理為背景,采用知識網(wǎng)絡(luò)圖來表示語義之間的聯(lián)系,利用基于知識網(wǎng)絡(luò)圖的分布式本體構(gòu)建方法,使得在語義表達(dá)上更加清楚,很好地解決了云環(huán)境下語義檢索的問題。
知識網(wǎng)絡(luò)圖是一種屬于語義網(wǎng)絡(luò)范疇的知識表示方法,它使用節(jié)點表示概念,使用有向弧表示概念之間的關(guān)系。這種本體構(gòu)建方法基本思想是每個詞的詞義可以由稱作“字圖”的知識圖來表示,進而通過合并“字圖”組成“短語圖”,再通過合并“短語圖”組成“語句圖”,最后通過合并“語句圖”組成“篇章圖”。這種思路和人們理解過程相似,因而構(gòu)造出的本體也更為直觀。在自然語言處理過程中,知識表示是其中的核心問題,知識網(wǎng)絡(luò)圖作為一種語義網(wǎng)絡(luò)范疇的概念圖,是一種更為一般的知識表示方法,用這種方法作為本體構(gòu)造的知識表示方法,消除語義表示的不確定性[2]。
設(shè)C為概念的集合,T為關(guān)系類型的集合,G= <N,A,ln,la> 是知識圖,其中:N 表示節(jié)點的集合;A表示弧的集合;ln表示節(jié)點集到概念集的映射,即ln:N→C;la表示弧集到關(guān)系類型集的映射,即 la:A→T。
傳統(tǒng)的本體創(chuàng)建方法主要依靠小部分專家的力量,在適應(yīng)網(wǎng)絡(luò)信息的動態(tài)性、復(fù)雜性上存在缺陷,云計算和Web2.0技術(shù)能夠為本體建立和演化提供豐富的語料庫和概念語義信息,建立知識網(wǎng)絡(luò)圖,從而為本體的建立提供強大的支持[3]。系統(tǒng)允許用戶在線收藏,并與他人共享網(wǎng)絡(luò)書簽,同時也允許用戶使用任意選取的關(guān)鍵詞對書簽進行標(biāo)注、分類,形成初步的知識網(wǎng)絡(luò)圖。與傳統(tǒng)的知識網(wǎng)絡(luò)圖本體構(gòu)建方法相比,面向云計算的分布式本體構(gòu)建具有回饋性,即具有很強的社群性和協(xié)作性。由于知識網(wǎng)絡(luò)圖的構(gòu)建是基于關(guān)鍵詞標(biāo)簽分類的公開共享,任何用戶都能通過觀察其他用戶如何標(biāo)注同一資源和某一個標(biāo)簽被用于哪些資源,自由修改自己所提交的標(biāo)簽,使用戶之間形成“異步反饋”,自動形成一種半結(jié)構(gòu)化的知識網(wǎng)絡(luò)圖,如圖1所示。
圖1 基于知識網(wǎng)絡(luò)圖的分布式領(lǐng)域本體構(gòu)建
正是基于上述特點,該方法幫助人們半自動搭建領(lǐng)域本體,再由專家利用TOVE評價法或Meth本體方法建立完整的知識網(wǎng)絡(luò)圖,完成領(lǐng)域本體的構(gòu)建[4]。
本文以中國傳媒大學(xué)圖書、音像和檔案管理為例,建立面向高校圖書資料管理的領(lǐng)域本體框架。高校圖書資料的資源不論是虛擬的還是實在的,不論涉及單個還是多個信息系統(tǒng),其涉及的實體類型往往不可能是單一的,這些類型之間往往具有復(fù)雜的關(guān)系,因此很難運用一套平面的元數(shù)據(jù)方案進行數(shù)據(jù)組織。例如涉及美國總統(tǒng)奧巴馬的相關(guān)圖書、音像資料有《奧巴馬演說詞選》、《像奧巴馬一樣說英語:奧巴馬演講集》等,分別有譯林出版社2011年、人民日報出版社2009年、世界知識出版社2009年、東方出版社2008年、社會科學(xué)文獻出版社2008年等數(shù)十家出版社,幾十個版本,并且還有翻譯手稿、有聲讀物、衍生電影、聲像資料、精彩畫冊等相關(guān)資料,以及奧巴馬及其相關(guān)親友、團隊的資料等,這些信息不論是否存在于分布的信息庫中,都應(yīng)該通過一定的方法進行有效的映射和描述,但通過現(xiàn)有的平面的元數(shù)據(jù)方法顯然是無法實現(xiàn)的,但是利用本體模型(例如ABC本體模型,見圖2所示 )能清晰、準(zhǔn)確地揭示這些資源對象的各類屬性及相互關(guān)系,這種描述方式對音像出版物等多媒體資源所涉及的復(fù)雜責(zé)任關(guān)系和版權(quán)關(guān)系特別有幫助。知識本體模型原本就是對領(lǐng)域知識的歸納和形式化,目的在于共享和重用,因此特別適合作為信息模型對知識系統(tǒng)進行描述、表達(dá)和呈現(xiàn)。
圖2 ABC本體模型描述有關(guān)奧巴馬的圖書音像作品
如果我們把圖書分類法看成一種基本的簡單的知識本體,一個書目數(shù)據(jù)庫就可以按照分類法的層次結(jié)構(gòu)組織成一棵龐大的“樹”,每一片“葉子”就是一本書。這樣可以形成一個簡單的、一維的知識導(dǎo)航地圖。當(dāng)我們同時采用分類主題詞表或其它分面分類方法對資源的內(nèi)容從不同的“本體”角度進行揭示,整個資源庫就有了多維的導(dǎo)航機制。同時,通過不同知識本體的映射可以動態(tài)建立從一個信息庫到另一個信息庫的語義連接,這種連接并非預(yù)先設(shè)立的,而是“后組”的。如果有本體注冊服務(wù)中間件或代理進行自動地翻譯、映射服務(wù),就能從很大程度上解決知識的跨庫提取、動態(tài)瀏覽展示以及異構(gòu)系統(tǒng)的動態(tài)勾連等問題,徹底解決高校圖書音像異構(gòu)信息檢索的目標(biāo)[5]。
高校數(shù)字圖書館系統(tǒng)的架構(gòu)基于云計算的圖書館公共模塊之上,由四層構(gòu)成,自下而上分別是格式適配層、業(yè)務(wù)管理層、業(yè)務(wù)應(yīng)用層和門戶展現(xiàn)層。格式適配層將圖書資源中各種格式的數(shù)字圖書轉(zhuǎn)換為終端可支持的格式,如:HTML、TXT、JPG、CAJ、PDF等,也包含 avi、mpg等多媒體格式,采用通用編解碼庫自適應(yīng)適配;業(yè)務(wù)管理層包括欄目策劃、內(nèi)容策劃、頁面定制、排行策略、熱門推薦、關(guān)聯(lián)推薦、產(chǎn)品上架、終端適配等,其中終端適配主要維護終端型號之間的對應(yīng)關(guān)系;業(yè)務(wù)應(yīng)用層是用戶登錄站點后可以進行的一些操作和應(yīng)用的集合,主要包括在線閱讀、用戶下載、個人空間、流媒體播放等功能;門戶展現(xiàn)層通過各種有線/無線訪問方式提供閱讀業(yè)務(wù),針對不同用戶群為用戶提供不同的訪問方式。
該系統(tǒng)采用規(guī)范的接口和協(xié)議,保證系統(tǒng)各組成部分的協(xié)同一致,具備可兼容、易移植的系統(tǒng)平臺。對外接口具有很強的開放性,支持與運營商之間的連接。數(shù)字圖書館的云計算服務(wù)提供商目前主要有IBM、思科和OCLC,其中OCLC已經(jīng)試水華盛頓大學(xué)、加州大學(xué)等校園圖書資料管理。本系統(tǒng)采用兼容IBM和OCLC云計算資源接口模式,并支持與運營商之間的連接,以實現(xiàn)鑒權(quán)或計費功能。
上述系統(tǒng)中的查詢請求是基于知識本體的應(yīng)用實現(xiàn)的,并基于查詢處理中介或代理的幫助,查詢提問式可以智能地處理成復(fù)合不同資源集合的規(guī)范詞或者表達(dá)式形式,自動分發(fā)到不同的資源站點進行查詢,同時還可以對返回結(jié)果進行基于本體的排序處理,將最終結(jié)果返回給用戶。
本文在校園網(wǎng)建立的上述試驗系統(tǒng)中測試了KACTUS法、TOVE法和分布式知識網(wǎng)絡(luò)圖法,對準(zhǔn)確率和搜索效率進行了比較,結(jié)果如表1所示。
表1 實驗結(jié)果對比
此處采用的方法經(jīng)過370位讀者對關(guān)鍵詞“奧巴馬”進行標(biāo)注,并由3名專家使用TOVE法建立知識本體,搜索時使用了云計算數(shù)字圖書管理實驗系統(tǒng)。實驗結(jié)果表明,本方法準(zhǔn)確率較傳統(tǒng)方法有所提升,在云計算服務(wù)環(huán)境下搜索效率也較高。
本文在探索云時代高校圖書資料管理新模式的基礎(chǔ)上,提出一種面向云計算圖書資料管理的本體構(gòu)建方法,并以高校圖書、音像和檔案管理為例,建立了面向高校圖書資料管理的領(lǐng)域本體框架。實驗結(jié)果表明,該方法在云計算服務(wù)條件下具有良好的準(zhǔn)確率和搜索效率。隨著云計算、移動通信、知識組織等技術(shù)在圖書管理中應(yīng)用的不斷深入,知識本體的創(chuàng)建、使用、互操作和評價越來越受到重視,也必將在圖書館建設(shè)中發(fā)揮更重要的作用。
[1]陳 琨,張 蕾.基于知識圖的領(lǐng)域本體構(gòu)建方法[J].計算機應(yīng)用,2011,(6):1164 -1170.
[2]Sean Bechhofer,Ian Horrocks,Carole Goble,Robert Stevens.OILEd:a Reason-able Ontology Editor for the Semantic Web[C]. Proceedings of KI2001, Joint German/Austrian conference on Artificial Intelligence,September 19 -21,Vienna.Springer- Verlag LNAI Vol.2174,pp 396 -408.2001.
[3]房 巍,李萬龍.基于本體的圖書智能檢索系統(tǒng)的建模與應(yīng)用研究[J].長春理工大學(xué)學(xué)報,2006,(2):72-75.
[4]樊小輝,石晨光.本體構(gòu)建研究綜述[J].艦船電子工程,2011,(6):15 -18.
[5]劉 楠,王俊彪,蔣建軍.基于總線式集成框架的本體構(gòu)建及映射研究[J].航空計算技術(shù),2011,(2):87-92.