高菲
摘要:數(shù)字圖書館傳統(tǒng)的數(shù)據(jù)存儲(chǔ)模式不能適應(yīng)當(dāng)前存儲(chǔ)要求,應(yīng)用分布式存儲(chǔ)能夠有效緩解這一矛盾?;跀?shù)字圖書館的分布式存儲(chǔ)要求,研究特定數(shù)字資源的存儲(chǔ)與管理及數(shù)字資源存儲(chǔ)與管理的組成結(jié)構(gòu),并對(duì)服務(wù)管理系統(tǒng)和數(shù)字資源集成進(jìn)行了設(shè)計(jì)。
關(guān)鍵詞:數(shù)字圖書館;分布式存儲(chǔ)結(jié)構(gòu);數(shù)據(jù)集成;數(shù)字資源管理
DOIDOI:10.11907/rjdk.151441
中圖分類號(hào):TP319
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào)文章編號(hào):16727800(2015)008012903
0 引言
隨著數(shù)字圖書館建設(shè)的發(fā)展,傳統(tǒng)的集中式數(shù)據(jù)服務(wù)模式顯然已經(jīng)無法滿足當(dāng)前需求,這就要求人們?cè)跀?shù)據(jù)分散的環(huán)境下,在眾多不同地域、不同技術(shù)平臺(tái)、不同組織檢索方式并存條件下,研究在數(shù)字資源存儲(chǔ)管理中需要解決的問題,建立針對(duì)海量數(shù)據(jù)的有效存儲(chǔ)機(jī)制,整合整個(gè)分布環(huán)境中的資源和服務(wù)[1]。這種有效的分布式存儲(chǔ)管理框架及其實(shí)現(xiàn)無疑成為了當(dāng)前的研究重點(diǎn)。在數(shù)字圖書館數(shù)字資源建設(shè)中,直接存儲(chǔ)和管理數(shù)字資源的數(shù)字資源服務(wù)管理系統(tǒng)是分布式存儲(chǔ)體系中最為關(guān)鍵的系統(tǒng),本文在對(duì)現(xiàn)有數(shù)字圖書館分布式存儲(chǔ)框架進(jìn)行研究與分析的基礎(chǔ)上,探討數(shù)字資源服務(wù)管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)。
1 數(shù)字圖書館分布式存儲(chǔ)結(jié)構(gòu)框架
數(shù)字圖書館中在資源建設(shè)階段生成的數(shù)字資源,由分布式存儲(chǔ)結(jié)構(gòu)進(jìn)行存儲(chǔ)和管理,然后才能向用戶提供服務(wù)。具體而言,分布式存儲(chǔ)體系應(yīng)提供如下關(guān)鍵功能:數(shù)字資源存儲(chǔ)與管理、數(shù)字資源調(diào)度、數(shù)字資源發(fā)布。分布式存儲(chǔ)系統(tǒng)存儲(chǔ)和管理的數(shù)據(jù)由數(shù)據(jù)獲取層提供,包括對(duì)原始資源的加工和對(duì)網(wǎng)絡(luò)數(shù)據(jù)的采集。整個(gè)存儲(chǔ)結(jié)構(gòu)層由數(shù)字資源發(fā)布、數(shù)字資源存儲(chǔ)與管理、數(shù)字資源調(diào)度等
幾個(gè)單元組成。在存儲(chǔ)結(jié)構(gòu)之上由數(shù)字資源服務(wù)層為用戶提供服務(wù)。目前的存儲(chǔ)結(jié)構(gòu)在整體上已經(jīng)體現(xiàn)出了分布式存儲(chǔ)管理體系的主要功能和相互關(guān)系,隨著數(shù)字圖書館資源建設(shè)的發(fā)展,也遇到了一些需要解決的問題:①由于不同的數(shù)字資源具有不同的存儲(chǔ)和訪問特點(diǎn),在進(jìn)行數(shù)字資源的分布式存儲(chǔ)與管理時(shí)也必須針對(duì)特定數(shù)字資源的不同特點(diǎn)進(jìn)行有針對(duì)性的設(shè)計(jì)[2];②隨著圖書館館藏資源數(shù)字化進(jìn)程的發(fā)展,在進(jìn)行館藏資源管理時(shí)必須考慮把館藏?cái)?shù)字化資源以資產(chǎn)的方式進(jìn)行管理,以真正體現(xiàn)數(shù)字化資源的價(jià)值。
因此,需要將資產(chǎn)化管理的方法引入數(shù)字圖書館的數(shù)字資源存儲(chǔ)與管理中,在分布式存儲(chǔ)與管理這一層次體現(xiàn)出這一點(diǎn)。針對(duì)上述兩個(gè)問題,本文將進(jìn)行相應(yīng)的分析和探討,并提出改進(jìn)后的數(shù)字資源存儲(chǔ)與管理結(jié)構(gòu)框架。
1.1 特定數(shù)字資源的存儲(chǔ)與管理需求
根據(jù)數(shù)字資源建設(shè)相關(guān)技術(shù)標(biāo)準(zhǔn),必須保持館藏資源原貌,盡可能向讀者提供資源的最充分信息。對(duì)于這幾種數(shù)字資源的對(duì)象數(shù)據(jù),采用圖像文件形式,用TIFF作為原始文獻(xiàn)的無損格式,同時(shí)以不同尺寸的JPG文件作為文獻(xiàn)資源的輔助參考格式[3]。在設(shè)計(jì)分布式存儲(chǔ)結(jié)構(gòu)時(shí),應(yīng)考慮圖形對(duì)象的特點(diǎn)進(jìn)行針對(duì)性的設(shè)計(jì)。
如圖1所示,針對(duì)每種數(shù)字資源,都對(duì)應(yīng)一個(gè)數(shù)字資源管理服務(wù)系統(tǒng),但所對(duì)應(yīng)的數(shù)字資源并不一定存儲(chǔ)在不同的對(duì)象服務(wù)器中。根據(jù)數(shù)據(jù)量的多少以及本身存取特點(diǎn)的異同,它們可以存儲(chǔ)在同一臺(tái)對(duì)象服務(wù)器中,甚至同一個(gè)數(shù)據(jù)庫中。
1.2 數(shù)字資源存儲(chǔ)與管理模塊組成結(jié)構(gòu)
數(shù)字圖書館中存儲(chǔ)的數(shù)字資源應(yīng)由兩部分組成:為用戶提供服務(wù)的數(shù)字資源、進(jìn)行倉儲(chǔ)的數(shù)字資源。數(shù)字資源存儲(chǔ)與管理模塊應(yīng)由以下兩部分組成:一是管理面向用戶的數(shù)字資源的數(shù)字資源服務(wù)管理系統(tǒng);二是以資產(chǎn)的方式進(jìn)行管理的數(shù)字資源倉儲(chǔ)系統(tǒng)[4]。為了實(shí)現(xiàn)數(shù)字資源存儲(chǔ)與管理模塊內(nèi)部的模塊化,并將數(shù)字資源的資產(chǎn)化管理引入到數(shù)字資源存儲(chǔ)與管理中,提出數(shù)字資源存儲(chǔ)與管理模塊如圖2所示。
圖1 數(shù)字資源管理服務(wù)系統(tǒng)并行結(jié)構(gòu)
分布式存儲(chǔ)體系中的數(shù)字資源存儲(chǔ)與管理模塊由直接面向用戶的數(shù)字資源的一些并行管理模塊,以及實(shí)現(xiàn)數(shù)字資源資產(chǎn)化管理的數(shù)字資源倉儲(chǔ)管理系統(tǒng)共同組成。
圖2 數(shù)字資源存儲(chǔ)與管理模塊
2 服務(wù)管理系統(tǒng)設(shè)計(jì)
數(shù)字對(duì)象管理服務(wù)器是數(shù)字圖書館建設(shè)的基本軟件系統(tǒng)之一,是數(shù)字文獻(xiàn)資源發(fā)布的第一個(gè)環(huán)節(jié),它負(fù)責(zé)數(shù)字對(duì)象的存取、顯示;同時(shí)負(fù)責(zé)向元數(shù)據(jù)檢索管理子系統(tǒng)發(fā)布有關(guān)數(shù)字對(duì)象的元數(shù)據(jù)。其主要功能模塊應(yīng)包括如下幾項(xiàng):用戶驗(yàn)證、數(shù)據(jù)管理、數(shù)字對(duì)象存儲(chǔ)管理、檢索系統(tǒng)、元數(shù)據(jù)分發(fā)。系統(tǒng)內(nèi)各主要功能模塊的結(jié)構(gòu)及關(guān)系如圖3所示。
由圖3可以看出,用戶驗(yàn)證模塊用來保證數(shù)字資源服務(wù)管理系統(tǒng)的安全性,只有經(jīng)過合法授權(quán)的數(shù)字資源管理者才能登陸使用數(shù)字資源服務(wù)管理系統(tǒng)。經(jīng)過資源加工標(biāo)引后的數(shù)字資源分為元數(shù)據(jù)和對(duì)象數(shù)據(jù)傳遞到數(shù)據(jù)管理模塊,其中元數(shù)據(jù)需要事先由MARC元數(shù)據(jù)轉(zhuǎn)換成DC元數(shù)據(jù)。數(shù)據(jù)管理模塊通過數(shù)字對(duì)象存儲(chǔ)管理模塊把不同的對(duì)象數(shù)據(jù)存儲(chǔ)到相應(yīng)的服務(wù)器中。為了給數(shù)字資源服務(wù)層的資源整合檢索提供服務(wù),元數(shù)據(jù)分發(fā)模塊還向檢索系統(tǒng)提供元數(shù)據(jù)檢索服務(wù)并向其發(fā)布檢索到的元數(shù)據(jù)。
圖3 數(shù)字資源服務(wù)管理系統(tǒng)框架
3 數(shù)字資源集成設(shè)計(jì)與實(shí)現(xiàn)
3.1 異構(gòu)數(shù)據(jù)集成方式
為解決數(shù)字圖書館中異構(gòu)數(shù)據(jù)的集成問題,可以在應(yīng)用程序與數(shù)據(jù)庫數(shù)據(jù)之間設(shè)置一個(gè)中間層,通過中間層用XML把數(shù)據(jù)封裝成統(tǒng)一格式,然后再進(jìn)行相應(yīng)操作。異構(gòu)數(shù)據(jù)集成方式如圖4所示。
圖4 異構(gòu)數(shù)據(jù)集成方式
圖4所示的異構(gòu)數(shù)據(jù)庫可以是IBMDB2、MSSQL Server、Oracle、Informix、Sybase、Access等主流的商業(yè)數(shù)據(jù)庫系統(tǒng)。這些數(shù)據(jù)源之間彼此獨(dú)立,由不同的建設(shè)單位管理。各異構(gòu)數(shù)據(jù)庫通過相應(yīng)的數(shù)據(jù)庫驅(qū)動(dòng)把數(shù)字對(duì)象提交給中間層,轉(zhuǎn)換成統(tǒng)一的XML標(biāo)記數(shù)據(jù)。
結(jié)構(gòu)的第二層屬于“中間件”層,負(fù)責(zé)將各異構(gòu)數(shù)據(jù)源的數(shù)據(jù)轉(zhuǎn)換成可以交互的格式,通常是XML格式。這一層的標(biāo)準(zhǔn)語言是XML。第二層通過提供統(tǒng)一的接口API為應(yīng)用業(yè)務(wù)的開發(fā)提供標(biāo)準(zhǔn)的XML接口,這使得開發(fā)者不必再去區(qū)分是對(duì)數(shù)據(jù)庫進(jìn)行操作還是對(duì)XML文檔進(jìn)行操作,只要統(tǒng)一針對(duì)XML方式進(jìn)行開發(fā)即可。這樣,有關(guān)數(shù)據(jù)交互的應(yīng)用程序開發(fā)就會(huì)變得非常簡(jiǎn)單。
各數(shù)據(jù)存儲(chǔ)單元間的通信是在第三層實(shí)現(xiàn)的。這一層的通信可以采用很多種交互手段,如FTP、MessageSystem、JavaMail等,這主要由應(yīng)用實(shí)現(xiàn)的具體性能要求以及成本要求決定。
由于在數(shù)字圖書館中應(yīng)用到了不同的數(shù)據(jù)庫管理系統(tǒng),必然要解決不同數(shù)據(jù)庫之間的互操作問題。根據(jù)存儲(chǔ)結(jié)構(gòu)中的實(shí)際應(yīng)用,這里主要采用JDBC的實(shí)現(xiàn)方式。
3.2 數(shù)字對(duì)象封裝與存儲(chǔ)
在數(shù)字圖書館建設(shè)中,一般采用DC元數(shù)據(jù)標(biāo)準(zhǔn),DC元數(shù)據(jù)共有15個(gè)標(biāo)記元素,針對(duì)具體的數(shù)字對(duì)象可以進(jìn)行相應(yīng)的裁減和修改。
對(duì)于所要存儲(chǔ)的數(shù)字對(duì)象而言,在存儲(chǔ)時(shí)要分別考慮元數(shù)據(jù)和對(duì)象數(shù)據(jù)的特點(diǎn),根據(jù)數(shù)據(jù)本身的特點(diǎn)和提供的服務(wù)類型來決定其存儲(chǔ)方式。
(1)根據(jù)元數(shù)據(jù)和對(duì)象數(shù)據(jù)的特點(diǎn)進(jìn)行選擇。對(duì)于元數(shù)據(jù),一般是規(guī)范的DC格式標(biāo)引的XML文件,這種文件的特點(diǎn)是文件比較小,而且要求在用戶進(jìn)行檢索時(shí)能夠快速顯示。為此,將元數(shù)據(jù)直接存放DB2這樣的關(guān)系型數(shù)據(jù)庫中,通過直接操作數(shù)據(jù)庫的方法來提高對(duì)元數(shù)據(jù)的訪問速度。
對(duì)于對(duì)象數(shù)據(jù),通常是圖像文件或流媒體文件,這樣的文件一般尺寸較大,而且在傳統(tǒng)關(guān)系型數(shù)據(jù)庫中進(jìn)行存儲(chǔ)需要進(jìn)行相應(yīng)轉(zhuǎn)換,存取速度較慢。為了便于管理,通過IBM內(nèi)容管理系統(tǒng)ContentManager進(jìn)行存儲(chǔ),以提高存儲(chǔ)效率。
(2)接口API的選擇。這里的API是指完成XML文檔與數(shù)據(jù)庫數(shù)據(jù)之間相互轉(zhuǎn)換功能的軟件包。采用SAX類API來處理XML文檔,而與數(shù)據(jù)庫的接口則使用JDBC。
參考文獻(xiàn):
[1] 鎮(zhèn)錫惠.數(shù)字圖書館的技術(shù)框架[M].北京:北京圖書館出版社,2002.
[2] 高文,劉峰,黃鐵軍,等.數(shù)字圖書館——原理與技術(shù)實(shí)現(xiàn)[M].北京.清華大學(xué)出版社,2000.
[3] 王軒,黃丹,陳靜.數(shù)字圖書館發(fā)展現(xiàn)狀研究[J].軟件導(dǎo)刊,2010(5):35.
[4] 曾紅伍.網(wǎng)格存儲(chǔ)技術(shù)在數(shù)字圖書館中的應(yīng)用[J].軟件導(dǎo)刊,2009(1):122124.
(責(zé)任編輯:孫 娟)