国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

以元數(shù)據(jù)為核心實現(xiàn)區(qū)域數(shù)字圖書館數(shù)據(jù)資源整合

2012-08-15 00:49劉子輝陳強(qiáng)楊平
關(guān)鍵詞:數(shù)據(jù)倉庫數(shù)據(jù)源資源整合

劉子輝,陳強(qiáng),楊平

以元數(shù)據(jù)為核心實現(xiàn)區(qū)域數(shù)字圖書館數(shù)據(jù)資源整合

劉子輝,陳強(qiáng),楊平

為避免重復(fù)建設(shè)造成浪費,促進(jìn)資源共享,提高圖書館的個性化服務(wù)水平,同一區(qū)域的數(shù)字圖書館有必要進(jìn)行數(shù)據(jù)資源整合。提出了基于數(shù)據(jù)倉庫的同一區(qū)域不同圖書館的數(shù)字資源整合方案。

圖書館;資源整合;數(shù)據(jù)倉庫;元數(shù)據(jù)

由于具有資源豐富、使用方便等特點,數(shù)字圖書館深受讀者喜歡。在數(shù)字圖書館的發(fā)展過程中,各單位都構(gòu)建了自己的信息平臺,形成多個異構(gòu)的系統(tǒng),彼此之間無法實現(xiàn)信息交流;而在同一地區(qū)不同的單位都在建設(shè)數(shù)字圖書館,重復(fù)建設(shè)造成的浪費也十分嚴(yán)重。因此,如何將這些異構(gòu)的數(shù)據(jù)資源進(jìn)行整合,屏蔽系統(tǒng)之間的差異,實現(xiàn)一定區(qū)域數(shù)據(jù)資源的共享,已成為資源建設(shè)中的難點與熱點[1]。

一、區(qū)域數(shù)字圖書館數(shù)據(jù)整合的意義

數(shù)據(jù)整合就是對異構(gòu)資源系統(tǒng)中的異質(zhì)、異類的數(shù)據(jù)資源實現(xiàn)邏輯上或物理上的集中,對資源實現(xiàn)去重、歸類、排序,提供統(tǒng)一的表示和操作,以實現(xiàn)多種異構(gòu)資源的互操作,實現(xiàn)資源共享。通過對同一區(qū)域不同數(shù)字圖書館的數(shù)據(jù)整合,可以消除日益嚴(yán)重的“信息孤島”現(xiàn)象。在信息化建設(shè)中,各單位在各個階段要滿足的需求是不同的。在建設(shè)過程中,大多數(shù)系統(tǒng)并沒有制定統(tǒng)一的標(biāo)準(zhǔn),當(dāng)然也很難實現(xiàn)標(biāo)準(zhǔn)的統(tǒng)一,從而出現(xiàn)彼此隔離的“信息孤島”,系統(tǒng)之間無法互訪。通過數(shù)據(jù)資源整合,可以在物理或者邏輯上消除異構(gòu)性,用戶通過一次檢索,可以實現(xiàn)對多個數(shù)據(jù)庫的時間操作。

實現(xiàn)數(shù)據(jù)資源整合也是提高服務(wù)質(zhì)量的迫切需要。網(wǎng)絡(luò)環(huán)境下,用戶需求出現(xiàn)了多元化、便捷化、個性化、知識化等特點,這些都要求信息服務(wù)機(jī)構(gòu)提供高質(zhì)量的服務(wù)。數(shù)據(jù)整合是提供高質(zhì)量服務(wù)的基礎(chǔ),沒有數(shù)據(jù)整合也就沒有高質(zhì)量的服務(wù)。在數(shù)據(jù)整合的基礎(chǔ)上,可以提供更為人性化、個性化的信息服務(wù),可以做海量信息的數(shù)據(jù)挖掘,為用戶做決策分析。所以,數(shù)據(jù)整合效果的好壞也直接影響信息服務(wù)的質(zhì)量。

二、中心元數(shù)據(jù)選擇

基于數(shù)據(jù)倉庫方式的資源整合,核心是對元數(shù)據(jù)的聚合。通過對所有電子資源實現(xiàn)統(tǒng)一元數(shù)據(jù)倉儲管理,將分散到各個異構(gòu)數(shù)據(jù)庫里的資源進(jìn)行物理的集中,在集中過程中,對元數(shù)據(jù)進(jìn)行清洗、去重等操作,通過對集中的元數(shù)據(jù)檢索,實現(xiàn)對原文的定位。原文可以物理集中,也可以分散存儲。這里以數(shù)據(jù)倉庫技術(shù)為例,討論以元數(shù)據(jù)為中心的區(qū)域數(shù)字圖書館的數(shù)據(jù)資源的整合。

各異構(gòu)系統(tǒng)在建設(shè)時往往沒有統(tǒng)籌規(guī)劃,因各自的情況而采用不同的元數(shù)據(jù)標(biāo)準(zhǔn)。針對這種情況,中心元數(shù)據(jù)庫想提供統(tǒng)一的服務(wù),統(tǒng)一檢索入口,就必須采用統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)。

我們選擇中心元數(shù)據(jù)采用DC元數(shù)據(jù)標(biāo)準(zhǔn)。DC元數(shù)據(jù)在電子文獻(xiàn)資源描述方面具有自己的優(yōu)點:第一是簡單易用。DC元數(shù)據(jù)只有15個數(shù)據(jù)元素,比Mark格式簡單很多,這對于描述電子文獻(xiàn)資源非常便利。DC元數(shù)據(jù)的15個元素通俗易懂,不論是圖情專家,還是一般的用戶都能掌握。第二是它具有通用性。DC元數(shù)據(jù)描述的領(lǐng)域廣泛,不是針對某一個學(xué)科或者領(lǐng)域,可根據(jù)實際情況制定本領(lǐng)域的DC元數(shù)據(jù)標(biāo)準(zhǔn)。DC元數(shù)據(jù)標(biāo)準(zhǔn)可描述的資源類型多樣,可以對紙本圖書描述,也可以對電子文獻(xiàn)資源描述。第三是它具有可重復(fù)性。DC元數(shù)據(jù)的15個元素可以選擇和重復(fù)。第四可根據(jù)需要引入修飾詞。根據(jù)描述資源的要求不同,可以選擇是否引進(jìn)修飾詞。如果要求高,可用修飾詞對資源作進(jìn)一步描述。第五是它具有很強(qiáng)的兼容性,目前已逐步被大家認(rèn)可,得到國際上的廣泛承認(rèn)。

三、區(qū)域數(shù)字圖書館資源整合流程

(一)中心元數(shù)據(jù)倉儲數(shù)據(jù)的獲取

統(tǒng)一的元數(shù)據(jù)倉儲的建立,對于數(shù)據(jù)倉庫的成功運行具有非常重要的作用,可以說元數(shù)據(jù)倉儲是整個系統(tǒng)的靈魂。我們將分散在各地的異構(gòu)系統(tǒng),通過位于中心的中心元數(shù)據(jù)倉儲有機(jī)的聯(lián)系起來。在這個模式中,由于中心元數(shù)據(jù)倉儲很像計算機(jī)拓普圖中的HUB,我們稱之為DC HUB。只有將其它系統(tǒng)的元數(shù)據(jù)匯聚到DC HUB之后,才能為用戶提供統(tǒng)一的、集成的服務(wù)。由于中心元數(shù)據(jù)庫采用DC標(biāo)準(zhǔn),而區(qū)域內(nèi)的其它系統(tǒng)可能采用其它的標(biāo)準(zhǔn),即使采用的標(biāo)準(zhǔn)一樣,也會可能存在如下問題:(1)資源標(biāo)識不一致,有的同名不同義,有的同義不同名;(2)資源描述詳略不一;(3)資源描述格式不一致,有的采用的是格式化語言,有的采用的是半格式化語言。因此,DC HUB中的元數(shù)據(jù)可以通過數(shù)據(jù)源監(jiān)視器從各數(shù)據(jù)源中提取,同時數(shù)據(jù)庫監(jiān)視器也生成元數(shù)據(jù);還可以將其它方式獲得的元數(shù)據(jù)通過元數(shù)據(jù)管理器錄入到元數(shù)據(jù)倉儲中。

OAI-PMH是OAI組織發(fā)布的一種基于元數(shù)據(jù)收獲的互操作框架。通過OAI協(xié)議,可從異構(gòu)分布的數(shù)據(jù)提供者中收獲的元數(shù)據(jù)存儲到本地數(shù)據(jù)庫中。該協(xié)議框架由兩部分組成:一是數(shù)據(jù)提供者,二是服務(wù)提供者。數(shù)據(jù)提供者是元數(shù)據(jù)的擁有者(發(fā)布方),按照OAI格式發(fā)布元數(shù)據(jù)。服務(wù)提供者按照OAI-PMH協(xié)議向數(shù)據(jù)提供者發(fā)出申請,得到許可后,可以收獲數(shù)據(jù)提供者的元數(shù)據(jù)存入本地元數(shù)據(jù)倉庫[2]。

(二)元數(shù)據(jù)的清洗及查重

從多個異構(gòu)系統(tǒng)中抽取的和用其它方式獲取的元數(shù)據(jù),還不能直接存儲到中心元數(shù)據(jù)倉儲中。先將它們放入臨時數(shù)據(jù)庫中,實現(xiàn)各異構(gòu)系統(tǒng)元數(shù)據(jù)的互操作,進(jìn)行元數(shù)據(jù)邏輯或物理的集成。實現(xiàn)元數(shù)據(jù)語義互操作的方法:一是元數(shù)據(jù)模式衍化,即根據(jù)特定領(lǐng)域的應(yīng)用需求,在原有的某種元數(shù)據(jù)系統(tǒng)基礎(chǔ)之上,通過對元數(shù)據(jù)元素的增加、減少、改寫、修正或擴(kuò)展等方法,形成新的元數(shù)據(jù)系統(tǒng)。二是元數(shù)據(jù)映射,即對存在于不同系統(tǒng)的元數(shù)據(jù)格式進(jìn)行轉(zhuǎn)換,使在某一系統(tǒng)中存在描述某功能或?qū)傩缘脑~,能和另一系統(tǒng)元數(shù)據(jù)中的描述詞對應(yīng)。這種對應(yīng)可能是一對一,也可能是一對多,這取決于整合的系統(tǒng)中存在多少種元數(shù)據(jù)標(biāo)準(zhǔn)。通過這種一對一或一對多的對應(yīng),實現(xiàn)元數(shù)據(jù)的互操作[3]。

元數(shù)據(jù)在放入元數(shù)據(jù)倉儲的時候,還要判斷與入庫的數(shù)據(jù)是否重復(fù)。元數(shù)據(jù)放入系統(tǒng)后,要經(jīng)常對元數(shù)據(jù)進(jìn)行維護(hù),保證其可用性。元數(shù)據(jù)的維護(hù)方式,可以以自動方式或手動方式進(jìn)行。應(yīng)及時對元數(shù)據(jù)進(jìn)行評審。

(三)全文獲取

數(shù)據(jù)整合的最終目的是讓用戶能通過一站式檢索獲取異構(gòu)數(shù)據(jù)庫中的全文數(shù)據(jù)。數(shù)據(jù)倉庫將利用專門的工具從源數(shù)據(jù)庫中抽取數(shù)據(jù)加裁到目標(biāo)數(shù)據(jù)庫,而這個過程是數(shù)據(jù)倉庫建設(shè)中最關(guān)鍵和最困難的部分。在數(shù)據(jù)的抽取和加載時,抽取和加載工具需要檢驗,排除數(shù)據(jù)中可能的錯誤,要對數(shù)據(jù)進(jìn)行綜合的整理、加工和重新組織。經(jīng)過上述過程,數(shù)據(jù)才載入到目標(biāo)數(shù)據(jù)庫中??傊?)要將不同的數(shù)據(jù)格式轉(zhuǎn)換為統(tǒng)一的數(shù)據(jù)格式;(2)要按照制定的更新規(guī)則,更新數(shù)據(jù)倉庫中的數(shù)據(jù);(3)要保證數(shù)據(jù)抽取的質(zhì)量。

數(shù)據(jù)抽取與加載的方法有多種,如基于存儲過程的數(shù)據(jù)抽取、基于腳本的數(shù)據(jù)抽取等。數(shù)據(jù)源監(jiān)視器發(fā)現(xiàn)數(shù)據(jù)變化的過程為數(shù)據(jù)捕捉,可以用多種方法來實現(xiàn),如增量文件、日志對比等。數(shù)據(jù)獲取工具主要是使用元數(shù)據(jù),元數(shù)據(jù)是它一切工作的基礎(chǔ)。它主要由包裝器和集成器組成。包裝器負(fù)責(zé)將異構(gòu)的數(shù)據(jù)源按照元數(shù)據(jù)的要求包裝成統(tǒng)一格式的數(shù)據(jù),并做好必要的轉(zhuǎn)換。集成器負(fù)責(zé)按元數(shù)據(jù)的要求將來自多個數(shù)據(jù)源的經(jīng)過包裝的數(shù)據(jù)集成到一個數(shù)據(jù)倉庫中[4]。

在整合過程中,中心的數(shù)據(jù)倉庫存儲著分別來自各異構(gòu)數(shù)據(jù)庫的海量數(shù)據(jù)。隨著信息的指數(shù)增長,中心數(shù)據(jù)倉庫不可能無限的增加存儲,其承受能力是有限的,所以必需對中心數(shù)據(jù)倉庫中的數(shù)據(jù)根據(jù)信息生命周期進(jìn)行管理,重點保障熱點資源,而對休眠數(shù)據(jù)作相應(yīng)處理。通過數(shù)據(jù)倉庫監(jiān)視器,可以識別出哪些是重要且使用頻繁的,哪些是不經(jīng)常被使用的數(shù)據(jù),哪些是休眠數(shù)據(jù)。然后根據(jù)具體情況制定相應(yīng)的存儲策略[5]。

四、結(jié)語

通過元數(shù)據(jù)實現(xiàn)區(qū)域內(nèi)異構(gòu)數(shù)據(jù)資源的整合后,(1)可以實現(xiàn)快速、便捷的“一站式服務(wù)”,通過一次檢索而實現(xiàn)對資源的統(tǒng)一訪問;(2)可以在整合后的平臺上為用戶提供更個性化的服務(wù);(3)可以在整合的平臺上對數(shù)據(jù)進(jìn)行深加工,為用戶提供優(yōu)質(zhì)服務(wù);(4)促進(jìn)信息共享,減少不必要的重復(fù)建設(shè)。

實現(xiàn)數(shù)據(jù)的整合是信息社會發(fā)展的必然,是實現(xiàn)信息共享的前提,是提供優(yōu)質(zhì)化服務(wù)的基礎(chǔ)。當(dāng)然,基于數(shù)據(jù)倉庫的數(shù)據(jù)整合也存在弱點,如數(shù)據(jù)更新可能不及時等,但總的來說,幾種數(shù)據(jù)整合方案里,以元數(shù)據(jù)為核心的數(shù)據(jù)倉庫的數(shù)據(jù)整合是最優(yōu)秀的整合方案。

[1]謝中會,徐捷.基于元數(shù)據(jù)的信息系統(tǒng)集成的設(shè)計[J].電腦知識與技術(shù):學(xué)術(shù)交流,2007(3).

[2]徐立臻,劉安,董逸生.數(shù)據(jù)倉庫系統(tǒng)中的元數(shù)據(jù)管理[J].計算機(jī)工程與應(yīng)用,2002(24).

[3]畢強(qiáng),朱亞玲.元數(shù)據(jù)標(biāo)準(zhǔn)及其互操作研究[J].情報理論與實踐,2007(5).

[4]王宗杰,等.基于元數(shù)據(jù)的分布異構(gòu)數(shù)據(jù)集成研究[J].微計算機(jī)信息,2007(27).

[5]郭和偉,等.數(shù)據(jù)倉庫中的數(shù)據(jù)抽取分析及應(yīng)用[J].微機(jī)發(fā)展,2003(1).

G250.73

A

1673-1999(2012)03-0153-02

劉子輝(1981-),男,碩士,重慶科技學(xué)院圖書館助理館員。

2011-11-06

猜你喜歡
數(shù)據(jù)倉庫數(shù)據(jù)源資源整合
少先隊活動與校外資源整合的實踐與探索
“五育并舉”下家校社資源整合的價值意義
海外并購中的人力資源整合之道
基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
智慧高速資源整合方式實踐
Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評價研究
分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設(shè)計
探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應(yīng)用
基于數(shù)據(jù)倉庫的數(shù)據(jù)分析探索與實踐