彭渝等
〔摘要〕通過調(diào)查重慶地區(qū)高校、公共圖書館、醫(yī)院電子文獻(xiàn)資源,發(fā)現(xiàn)各單位在資源種類、總量、平均擁有量,特別是外文資源,差距更大,整合與共享勢在必行,通過對各單位元數(shù)據(jù)的抽取,構(gòu)建本地區(qū)電子資源元數(shù)據(jù)倉儲,使讀者通過對元數(shù)據(jù)倉儲的“一站式”檢索,實(shí)現(xiàn)對資源的統(tǒng)一訪問,從而達(dá)到整合目的。
〔關(guān)鍵詞〕元數(shù)據(jù);電子文獻(xiàn)資源;整合;高校圖書館;公共圖書館;醫(yī)院
DOI:10.3969/j.issn.1008-0821.2013.05.011
〔中圖分類號〕G25076〔文獻(xiàn)標(biāo)識碼〕A〔文章編號〕1008-0821(2013)05-0047-04
21本地鏡像的商業(yè)數(shù)據(jù)庫資源
由于知識產(chǎn)權(quán)的原因,數(shù)據(jù)廠商一般情況下是不愿意提供資源的元數(shù)據(jù)的,不過可以通過與數(shù)據(jù)廠商協(xié)商,獲取一些數(shù)據(jù)庫的元數(shù)據(jù)資源。對于可以獲取元數(shù)據(jù)的商業(yè)數(shù)據(jù)庫,可以實(shí)施基于數(shù)據(jù)層的資源整合。對于不能獲取元數(shù)據(jù)的數(shù)據(jù)資源,數(shù)據(jù)廠商可以提供該資源所遵循的協(xié)議和訪問許可方式,實(shí)現(xiàn)應(yīng)用層的整合。
22本館自建特色資源
由于這類資源由本館自建,本館擁有該資源的元數(shù)據(jù)和對象數(shù)據(jù),通過元數(shù)據(jù)收割獲取各館自建資源的元數(shù)據(jù)。
23隨書光盤資源
各館自建的隨書光盤數(shù)據(jù)庫,各館擁有元數(shù)據(jù)及對象數(shù)據(jù),可以實(shí)施元數(shù)據(jù)整合。
總之,對于較容易獲取元數(shù)據(jù)的電子文獻(xiàn)資源都可以通過元數(shù)據(jù)實(shí)現(xiàn)數(shù)據(jù)整合。
3元數(shù)據(jù)整合模型分析
基于元數(shù)據(jù)的區(qū)域電子文獻(xiàn)資源整合的中心思想是:通過建立區(qū)域內(nèi)統(tǒng)一的元數(shù)據(jù)中心,系統(tǒng)通過OAI(Open Archive Initiative for Protocol Meta-data Harvesting)技術(shù),將各校各類型資源收割到臨時(shí)的元數(shù)據(jù)倉儲中,然后通過對臨時(shí)元數(shù)據(jù)倉儲中的數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)換,將這些數(shù)據(jù)追加到中心元數(shù)據(jù)倉儲中。用戶只需要對中心元數(shù)據(jù)倉儲進(jìn)行檢索,即可實(shí)現(xiàn)對區(qū)域內(nèi)電子文獻(xiàn)資源的統(tǒng)一檢索。
在所調(diào)查的高校圖書館、公共圖書館、醫(yī)院分別屬于3個(gè)不同的系統(tǒng),所以在模型圖中我們分別設(shè)立高校圖書館DC元數(shù)據(jù)中心、公共圖書館DC元數(shù)據(jù)中心、醫(yī)院DC元數(shù)據(jù)中心,通過OAI收割各個(gè)區(qū)域的元數(shù)據(jù)資源。所謂DC元數(shù)據(jù)中心,即采用DC元數(shù)據(jù)標(biāo)準(zhǔn)的元數(shù)據(jù)中心。3個(gè)分中心,分別對各系統(tǒng)內(nèi)各單位的各類電子文獻(xiàn)資源實(shí)施元數(shù)據(jù)收割,建立系統(tǒng)的元數(shù)據(jù)中心。
31分布集中系統(tǒng)思想
通過上面的分析,針對重慶地區(qū)種類多樣的電子文獻(xiàn)資源,本文提出了基于元數(shù)據(jù)的集中與分布相結(jié)合的區(qū)域電子文獻(xiàn)資源整合與共享模型,所謂集中與分布相結(jié)合,即元數(shù)據(jù)的集中存儲,對象數(shù)據(jù)的集中與分布存儲相結(jié)合。在資源整合過程中,數(shù)據(jù)有兩部分組成,即元數(shù)據(jù)和對象數(shù)據(jù)。元數(shù)據(jù)是描述對象數(shù)據(jù)的數(shù)據(jù),本模型中資源整合與共享的實(shí)現(xiàn)主要依靠元數(shù)據(jù),通過元數(shù)據(jù)揭示資源,為讀者提供檢索瀏覽的線索,最終定位對象數(shù)據(jù)。對象數(shù)據(jù)是知識的載體,如PDF格式的電子圖書、光盤鏡象文件、音視頻文件等,是我們整合的最終對象。在本模型中,對于元數(shù)據(jù)采取集中的存儲模式,不同類型數(shù)字資源的元數(shù)據(jù)經(jīng)過規(guī)范化處理,被分別存儲在相應(yīng)的元數(shù)據(jù)倉儲數(shù)據(jù)庫中。而針對對象數(shù)據(jù)的存儲,本模型采取分布與集中相結(jié)合的方式,即系統(tǒng)在整合資源時(shí),對象數(shù)據(jù)仍保留在各院校的系統(tǒng)中,不會被抽取到中心。當(dāng)某些院校沒有能力存儲某資源時(shí),可以將這些資源存儲到某資源中心,實(shí)現(xiàn)相對集中的存儲[1]。
32整合流程
在模型中,整合系統(tǒng)被分為了3層,第一層:重慶地區(qū)DC元數(shù)據(jù)中心。第二層:高校圖書館DC元數(shù)據(jù)中心、公共圖書館DC元數(shù)據(jù)中心、醫(yī)院DC元數(shù)據(jù)中心。第三層:每一個(gè)分中心下面的高校。所以系統(tǒng)運(yùn)行的流程是:
(1)高校DC元數(shù)據(jù)中心、公共圖書館DC元數(shù)據(jù)中心、醫(yī)院DC元數(shù)據(jù)中心分別將所屬的圖書館的元數(shù)據(jù)收割到分中心,形成分中心的元數(shù)據(jù)倉儲。
3個(gè)分中心分別構(gòu)建自己的DC元數(shù)據(jù)倉儲(電子圖書DC元數(shù)據(jù)倉儲、電子期刊DC元數(shù)據(jù)倉儲、自建資源DC元數(shù)據(jù)倉儲等),然后對所屬的高校的元數(shù)據(jù)進(jìn)行收割,將收割的元數(shù)據(jù)存儲到臨時(shí)元數(shù)據(jù)倉儲中。
(2)元數(shù)據(jù)ETL(Extract-Transform-Load)
ETL,即數(shù)據(jù)抽取(Extraction)、數(shù)據(jù)轉(zhuǎn)換(Transfonnation)、數(shù)據(jù)裝載(Loading)。ETL是數(shù)據(jù)倉庫體系結(jié)構(gòu)當(dāng)中的一個(gè)重要過程,也是數(shù)據(jù)倉庫建設(shè)過程中最復(fù)雜、費(fèi)時(shí)的環(huán)節(jié),ETL開發(fā)通常會占整個(gè)數(shù)據(jù)倉庫項(xiàng)目時(shí)間的60%~80%,ETL是實(shí)現(xiàn)異構(gòu)資源集成的關(guān)鍵環(huán)節(jié)。
數(shù)據(jù)抽?。簲?shù)據(jù)抽取是從異構(gòu)數(shù)據(jù)源中采集原始數(shù)據(jù),這些數(shù)據(jù)可以是元數(shù)據(jù)據(jù),也可以是對象數(shù)據(jù)。在本模型中只采集元數(shù)據(jù)資源,對象數(shù)據(jù)仍保留在各系統(tǒng)中。
數(shù)據(jù)轉(zhuǎn)換:數(shù)據(jù)轉(zhuǎn)換包括數(shù)據(jù)的清洗和轉(zhuǎn)換兩部分功能。各系統(tǒng)中元數(shù)據(jù)的數(shù)據(jù)表現(xiàn)形式存在差異,所以必須消除這些差異,第一,數(shù)據(jù)標(biāo)準(zhǔn)化,數(shù)據(jù)的標(biāo)準(zhǔn)化主要表現(xiàn)在數(shù)據(jù)格式的規(guī)范化和數(shù)據(jù)表達(dá)方式的同一化。舉例說明:對于“語種”字段,不同的系統(tǒng)著錄方式是不一樣的,如中文、CN、CHN、China等,面對這些差異,必需制定中心元數(shù)據(jù)標(biāo)準(zhǔn),規(guī)定著錄方式,系統(tǒng)依據(jù)該標(biāo)準(zhǔn),對各個(gè)異構(gòu)的元數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。第二,數(shù)據(jù)解析,由于各系統(tǒng)元數(shù)據(jù)字段所概括的內(nèi)容不一,某系統(tǒng)中其中一個(gè)元數(shù)據(jù)字段可能對應(yīng)別的系統(tǒng)中的兩個(gè)字段,數(shù)據(jù)存在不同的細(xì)節(jié)級別,稱之為粒度。粒度越高,所表示的綜合程度越高。在中心數(shù)據(jù)倉儲中的查詢涉及到不同的細(xì)節(jié),不同的數(shù)據(jù)圖1基于元數(shù)據(jù)的重慶地區(qū)電子文獻(xiàn)資源整合模型
源對信息的描述可能具有不同的粒度,這使得對來自不同數(shù)據(jù)源的數(shù)據(jù)很難做相應(yīng)的比較。所以本模塊的任務(wù)就是消除各系統(tǒng)元數(shù)據(jù)粒度不一致的問題,對該拆分的字段進(jìn)行拆分,該合并的字段進(jìn)行合并。第三,數(shù)據(jù)增強(qiáng),數(shù)據(jù)增強(qiáng)的任務(wù)是對原始數(shù)據(jù)進(jìn)行補(bǔ)充,實(shí)現(xiàn)系統(tǒng)數(shù)據(jù)的完整性。數(shù)據(jù)中心所制定的元數(shù)據(jù)標(biāo)準(zhǔn)中,并非所有的系統(tǒng)都擁有標(biāo)準(zhǔn)中所擁有的元素或者修飾詞,這時(shí)候就要增加字段,使被整合的系統(tǒng)的元數(shù)據(jù)信息更加完整。第四,重復(fù)記錄歸并,在中心元數(shù)據(jù)倉儲中,每一條記錄都對應(yīng)一篇文獻(xiàn),不允許重復(fù)記錄的存在,必須保證數(shù)據(jù)的惟一性。但從各系統(tǒng)抽取的元數(shù)據(jù),不可避免的存在重復(fù),所以記錄的去重與歸并成為必然。通過數(shù)據(jù)清洗,對各系統(tǒng)中采集的原始數(shù)據(jù)進(jìn)行有效性檢查,對不規(guī)范、重復(fù)的記錄進(jìn)行規(guī)范化處理,使采集的各系統(tǒng)的原始信息統(tǒng)一化,標(biāo)準(zhǔn)化,即完成元數(shù)據(jù)的標(biāo)準(zhǔn)化,將異構(gòu)的元數(shù)據(jù)轉(zhuǎn)換成為標(biāo)準(zhǔn)一致、著錄規(guī)范的元數(shù)據(jù),從而提高了數(shù)據(jù)的質(zhì)量[2]。
數(shù)據(jù)裝載:在數(shù)據(jù)清洗完畢之后,即可以將清洗后的標(biāo)準(zhǔn)元數(shù)據(jù)加載到中心元數(shù)據(jù)倉儲中,數(shù)據(jù)裝載的功能是將采集、清洗、轉(zhuǎn)換過后的標(biāo)準(zhǔn)元數(shù)據(jù)加載到目標(biāo)數(shù)據(jù)倉庫中,該功能是對經(jīng)過清洗和轉(zhuǎn)換的數(shù)據(jù)進(jìn)行匯總、保存,以達(dá)到數(shù)據(jù)級整合的目的[3]。
(3)收割高校圖書館、公共圖書館、醫(yī)院三系統(tǒng)中心元數(shù)據(jù),形成重慶地區(qū)總的DC元數(shù)據(jù)倉儲。之所以會設(shè)立3個(gè)分中心,是三系統(tǒng)分別屬于不同的系統(tǒng),本系統(tǒng)內(nèi)實(shí)施起來更加容易,系統(tǒng)較易管理,也具有較強(qiáng)的擴(kuò)展性。但系統(tǒng)最終的目的是實(shí)現(xiàn)重慶地區(qū)電子文獻(xiàn)資源共享,所以還要將3個(gè)分中心的元數(shù)據(jù)追加到重慶地區(qū)DC元數(shù)據(jù)倉儲中,建立重慶地區(qū)總的DC元數(shù)據(jù)倉儲[4]。
(4)反向收割重慶地區(qū)DC元數(shù)據(jù)倉儲,高校圖書館、公共圖書館、醫(yī)院三系統(tǒng)中心元數(shù)據(jù)反向收割重慶地區(qū)DC元數(shù)據(jù)倉儲,三系統(tǒng)與中心系統(tǒng)實(shí)現(xiàn)元數(shù)據(jù)的同步,這樣做的好處,第一,元數(shù)據(jù)的安全性。第二,系統(tǒng)性能提升,各系統(tǒng)只需要對本系統(tǒng)的元數(shù)據(jù)中心進(jìn)行訪問即可實(shí)現(xiàn)對資源的訪問。
(5)通過OpenURL實(shí)現(xiàn)原文獲取。
用戶通過對重慶DC元數(shù)據(jù)倉儲進(jìn)行檢索,系統(tǒng)通過OpenURL建立原文的鏈接。OpenURL規(guī)定鏈接源不直接指向鏈接對象,而是由第三方鏈接服務(wù)器作為用戶與所需求資源之間的中介。鏈接服務(wù)器接收鏈接源傳送到的OpenURL,通過惟一的標(biāo)識符(如DOI)解析其內(nèi)容,建立對上下文對象的描述,以動態(tài)選擇合適的鏈接目標(biāo),從而使鏈接源和鏈接對象處于一個(gè)開放式互聯(lián)框架內(nèi),不同資源系統(tǒng)中各類資源,只要符合OpenURL框架,均可很方便地實(shí)現(xiàn)多種資源的鏈接[5]。
4系統(tǒng)優(yōu)點(diǎn)
本文提出的基于元數(shù)據(jù)的區(qū)域電子文獻(xiàn)資源整合模型,與基于數(shù)據(jù)倉庫,檢索代理的整合技術(shù)相比,具有如下的優(yōu)點(diǎn):
(1)檢索速度快。基于檢索代理的資源整合,其整合的數(shù)據(jù)資源非常有限,當(dāng)數(shù)據(jù)庫較多時(shí),其檢索速度非常慢。與檢索代理技術(shù)相比,由于用戶是對實(shí)現(xiàn)了元數(shù)據(jù)的物理集中與規(guī)范的長株潭DC元數(shù)據(jù)倉儲進(jìn)行檢索,所以速度非??靃6]。
(2)系統(tǒng)中心存儲壓力小?;跀?shù)據(jù)倉庫技術(shù)的資源整合,在集成元數(shù)據(jù)的同時(shí),還要集中各系統(tǒng)的對象數(shù)據(jù),這樣系統(tǒng)中心將面臨非常大的存儲壓力。本模型中,系統(tǒng)中心僅僅存儲元數(shù)據(jù)資源,對象數(shù)據(jù)仍保存在各館中,所以系統(tǒng)中心沒有存儲壓力。
(3)系統(tǒng)管理容易,具有擴(kuò)展性。在本模型中,我們在重慶DC元數(shù)據(jù)中心下面,分設(shè)了高校圖書館DC元數(shù)據(jù)中心、公共圖書館DC元數(shù)據(jù)中心、醫(yī)院DC元數(shù)據(jù)中心,實(shí)現(xiàn)了分層管理,不至于系統(tǒng)較大造成管理混亂。同時(shí)當(dāng)新的區(qū)域加入整合與共享建設(shè)中時(shí),只需要對新增加的區(qū)域的元數(shù)據(jù)進(jìn)行收割與清洗,然后追加到重慶DC元數(shù)據(jù)倉儲中去就可以了,系統(tǒng)具有較強(qiáng)的擴(kuò)展性。
(4)實(shí)現(xiàn)了元數(shù)據(jù)的物理集中與對象數(shù)據(jù)的分布管理。通過對各系統(tǒng)元數(shù)據(jù)的清洗、轉(zhuǎn)換,實(shí)現(xiàn)了各系統(tǒng)中元數(shù)據(jù)的一致,構(gòu)建了區(qū)域內(nèi)統(tǒng)一的元數(shù)據(jù)倉儲,從而實(shí)現(xiàn)區(qū)域內(nèi)各系統(tǒng)資源的整合。而對象數(shù)據(jù)仍保存在各館原來的系統(tǒng)之中,這樣在實(shí)現(xiàn)資源整合的同時(shí),各館仍可獨(dú)立的開展各項(xiàng)服務(wù)。
(5)可以在統(tǒng)一的規(guī)范的元數(shù)據(jù)倉儲的基礎(chǔ)上開展各項(xiàng)服務(wù)??梢砸灾貞c元數(shù)據(jù)中心為核心,提供統(tǒng)一檢索、元數(shù)據(jù)的聯(lián)合編目、數(shù)據(jù)挖掘、數(shù)據(jù)分析等個(gè)性化服務(wù)。這是其它整合模型無法實(shí)現(xiàn)的。
同時(shí)系統(tǒng)也有如下缺點(diǎn):
(1)由于涉及知識產(chǎn)權(quán)問題,元數(shù)據(jù)的獲取較為困難,對于中文數(shù)據(jù)庫,可以通過與數(shù)據(jù)商協(xié)商解決。對于外文數(shù)據(jù)庫,基本上無法獲取元數(shù)據(jù)。
(2)由于各系統(tǒng)沒有遵循統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn),在構(gòu)建統(tǒng)一元數(shù)據(jù)倉儲時(shí),必須對元數(shù)據(jù)進(jìn)行清洗,這是構(gòu)建統(tǒng)一元數(shù)據(jù)倉儲的關(guān)鍵。而對元數(shù)據(jù)清洗是非常不容易的。
(3)系統(tǒng)中心必須對元數(shù)據(jù)倉儲進(jìn)行維護(hù),保證系統(tǒng)正常運(yùn)行。
5小結(jié)
電子文獻(xiàn)資源整合及共享的目標(biāo)是提高文獻(xiàn)信息資源的可獲知能力和可獲得能力。構(gòu)筑重慶地區(qū)的電子文獻(xiàn)資源的整合與共享體系的根本目的,就是通過圖書館協(xié)作的規(guī)模效益來提高三地區(qū)開發(fā)和利用電子文獻(xiàn)信息資源的綜合能力,提高電子文獻(xiàn)資源的可獲知能力和可獲得能力[7]。
參考文獻(xiàn)
[1]張建中,陳松喬,方正.基于數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)的信息檢索體系[J].高校圖書館工作,2007,(5):1-3.
[2]王愛麗.高校圖書館數(shù)字資源整合及其實(shí)現(xiàn)[J].江西圖書館學(xué)刊,2007,(4):26-28.
[3]王穎霞.論數(shù)字圖書館的資源整合[J].現(xiàn)代圖書情報(bào)技術(shù),2004,(S1):106-107.
[4]熊擁軍,歐鵬杰.圖書相關(guān)文獻(xiàn)資源發(fā)現(xiàn)與獲取系統(tǒng)構(gòu)建——基于預(yù)索引元數(shù)據(jù)倉儲[J].圖書情報(bào)知識,2011,(6):101-106.
[3]陳良.高校圖書館數(shù)字資源整合分析[J].河北科技圖苑,2008,(1):81-83.
[6]袁小一,張建中.檢索代理及其在資源整合中的應(yīng)用[J].圖書館論壇,2007,(5):31-33.
[7]劉其云.基于數(shù)字信息資源整合的研究[J].現(xiàn)代情報(bào),2008,(6):125-126.
(本文責(zé)任編輯:馬卓)