国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

ETL在數(shù)字圖書(shū)館資源建設(shè)及用戶資源管理中的應(yīng)用

2012-08-15 00:52:53劉欣欣
科技傳播 2012年9期
關(guān)鍵詞:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)源知識(shí)庫(kù)

劉欣欣

保定職業(yè)技術(shù)學(xué)院,河北保定 071000

當(dāng)前,數(shù)字圖書(shū)館建設(shè)面對(duì)龐大的、多類(lèi)型、多介質(zhì)、多格式、多傳遞渠道的信息資源集合和用戶對(duì)電子信息資源的多樣化、個(gè)性化需求,數(shù)字圖書(shū)館中的信息資源建設(shè)必須朝著整合化的方向發(fā)展。ETL可以應(yīng)用在數(shù)字圖書(shū)館中的數(shù)字資源和用戶資源建設(shè)中,對(duì)數(shù)字圖書(shū)館中不同類(lèi)型的資源進(jìn)行整合和集成。

1 ETL在數(shù)字資源建設(shè)與處理中的應(yīng)用

1.1 ETL在基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)字資源物理集成中的應(yīng)用

實(shí)現(xiàn)資源整合和集成的方法有多種,既可以是在數(shù)據(jù)層面上的集成,也可以是在界面上的集成。本文所指的資源整合和集成,主要指的是對(duì)異構(gòu)信息資源實(shí)現(xiàn)數(shù)據(jù)層面的物理整合。也就是根據(jù)資源元數(shù)據(jù)標(biāo)準(zhǔn)建立統(tǒng)一的數(shù)據(jù)倉(cāng)庫(kù),然后針對(duì)各種資源實(shí)現(xiàn)不同的元數(shù)據(jù)增量抽取程序,將元數(shù)據(jù)匯集到數(shù)據(jù)倉(cāng)庫(kù)中。采用建立本地?cái)?shù)據(jù)倉(cāng)庫(kù)的方法進(jìn)行整合,可以對(duì)整合的結(jié)果作更進(jìn)一步的處理和分析,使更多的工作相對(duì)于用戶來(lái)說(shuō)可以脫機(jī)進(jìn)行。異構(gòu)信息資源整合和集成主要包括數(shù)字圖書(shū)館內(nèi)部數(shù)據(jù)源的整合、基于協(xié)議的元數(shù)據(jù)整合、淺層Web信息和深層Web信息的整合等。數(shù)據(jù)倉(cāng)庫(kù)是面向主題的,以整合的方式將內(nèi)容組織成層次結(jié)構(gòu),進(jìn)一步為進(jìn)行信息挖掘和數(shù)據(jù)挖掘,提供了一個(gè)簡(jiǎn)潔精煉的操作平臺(tái)。數(shù)據(jù)挖掘可以發(fā)現(xiàn)、抽取、過(guò)濾和評(píng)價(jià)信息和數(shù)字對(duì)象以及跟蹤和分析用戶的訪問(wèn)情況,提供深層次的知識(shí)服務(wù)。

1.2 ETI在引文數(shù)據(jù)建設(shè)中的應(yīng)用

為了實(shí)現(xiàn)不同來(lái)源中文獻(xiàn)之間的引文鏈接,在ETL過(guò)程中需要解決一些關(guān)鍵問(wèn)題。文獻(xiàn)的引文是由題名、作者、來(lái)源期刊、發(fā)表年代等字段組成,自動(dòng)識(shí)別這些字段屬性對(duì)于資源的參考鏈接服務(wù)是非常有用的,因?yàn)樗鼈兛梢杂脕?lái)鏈接到實(shí)際的引文文獻(xiàn)中。不同的期刊來(lái)源中,引文通常以不同的形式表現(xiàn)的。引文鏈接一般是采用基于規(guī)則的方式,因此抽取和識(shí)別引文數(shù)據(jù)的規(guī)則學(xué)習(xí)尤為重要。

1.3 ETL在知識(shí)庫(kù)構(gòu)建中的應(yīng)用

對(duì)于數(shù)字圖書(shū)館中知識(shí)庫(kù)和知識(shí)空間的構(gòu)建,可以通過(guò)兩種方式來(lái)實(shí)現(xiàn):1)以人為中心的知識(shí)獲取,即通過(guò)有經(jīng)驗(yàn)的專(zhuān)家手工輸入知識(shí),這種方式很難形成大規(guī)模的知識(shí)庫(kù);2)以機(jī)器為中心的知識(shí)獲取。在用戶的輔助下,利用知識(shí)抽取技術(shù)等自動(dòng)生成和推理出知識(shí),實(shí)現(xiàn)對(duì)數(shù)據(jù)源的關(guān)聯(lián)和分析。這種方式是當(dāng)前知識(shí)庫(kù)的主要建設(shè)方式。

目前,國(guó)外已經(jīng)有一些研究機(jī)構(gòu)關(guān)注利用知識(shí)抽取技術(shù)來(lái)構(gòu)建知識(shí)庫(kù)和提供知識(shí)服務(wù)。在知識(shí)庫(kù)的建設(shè)中,主要是在ETL過(guò)程中融入語(yǔ)義和ontology,抽取出具有語(yǔ)義的信息。

1.4 ETL在數(shù)據(jù)庫(kù)內(nèi)容描述信息生成中的應(yīng)用

通過(guò)ETL可以自動(dòng)獲得數(shù)據(jù)庫(kù)的內(nèi)容描述信息,從數(shù)據(jù)庫(kù)的文獻(xiàn)中抽取特征詞匯,并建立數(shù)據(jù)庫(kù)的內(nèi)容描述模型,用以反映數(shù)據(jù)源中所包含的文獻(xiàn)及其內(nèi)容、形式等特征,內(nèi)容描述模型是資源選擇的元數(shù)據(jù)基礎(chǔ),作為檢索時(shí)的智能選庫(kù)依據(jù)。ETL中隨機(jī)挑選詞匯作為數(shù)據(jù)源的初始的檢索詞,構(gòu)造和發(fā)送提問(wèn)式以及從數(shù)據(jù)源獲取樣本文獻(xiàn),并從樣本文獻(xiàn)中抽取出文獻(xiàn)的特征表示,經(jīng)過(guò)多次的循環(huán),建立起數(shù)據(jù)庫(kù)資源描述模型,形成數(shù)據(jù)庫(kù)的內(nèi)容描述信息,利用形成的內(nèi)容描述信息實(shí)現(xiàn)數(shù)據(jù)庫(kù)的自動(dòng)選擇??梢栽贓TL過(guò)程中運(yùn)用基于規(guī)則的描述、調(diào)焦查詢探測(cè)、基于提問(wèn)取樣等算法,從分布式、隱藏的web資源中抽取能代表其主題或?qū)W科覆蓋范圍的關(guān)鍵詞,動(dòng)態(tài)生成數(shù)據(jù)庫(kù)內(nèi)容描述信息。

在數(shù)據(jù)庫(kù)內(nèi)容描述信息生成的應(yīng)用中,ETL需要解決的關(guān)鍵問(wèn)題是形成數(shù)據(jù)源的描述模型,資源描述模型一般由數(shù)據(jù)源中所含特征詞及其出現(xiàn)頻牢、詞匯的文獻(xiàn)頻率、不同詞匯的共現(xiàn)概率等信息組成。多次提交檢索提問(wèn)到各數(shù)據(jù)源,將返回的文獻(xiàn)作為樣本,通過(guò)分析樣本文獻(xiàn)建立數(shù)據(jù)源描述模型,以此來(lái)描述整個(gè)數(shù)據(jù)源。生成數(shù)據(jù)源描述模型具體包括:檢索提問(wèn)詞的選擇,抽取的文獻(xiàn)數(shù)量,以及取樣停止的條件設(shè)定等。

2 在用戶資源管理中的應(yīng)用

2.1 ETL在統(tǒng)一認(rèn)證系統(tǒng)中的應(yīng)用

隨著計(jì)算機(jī)技術(shù)的發(fā)展,數(shù)字圖書(shū)館中采用了越來(lái)越多的信息系統(tǒng)。由于種種原因,各個(gè)信息系統(tǒng)往往相互獨(dú)立,在數(shù)據(jù)和業(yè)務(wù)邏輯上都存在大量的冗余,為用戶和管理員帶來(lái)諸多的不便。用戶身份和權(quán)限認(rèn)證是數(shù)字圖書(shū)館中很重要的部分,然而不同的信息系統(tǒng)卻各自擁有獨(dú)立的身份和權(quán)限認(rèn)證模塊,造成了業(yè)務(wù)邏輯的重復(fù)和數(shù)據(jù)的冗余,同時(shí)也為用戶身份信息的統(tǒng)一維護(hù)帶來(lái)一些問(wèn)題,很難在數(shù)字圖書(shū)館的服務(wù)中真正地實(shí)現(xiàn)統(tǒng)一認(rèn)證服務(wù),因此,在數(shù)字圖書(shū)館中要實(shí)現(xiàn)真正意義的統(tǒng)一認(rèn)證,前提條件之一就是需要建立統(tǒng)一的用戶信息庫(kù),同時(shí)還要保證用戶信息與原來(lái)系統(tǒng)中的信息保持同步更新。這些要求可以利用ETL機(jī)制來(lái)實(shí)現(xiàn),通過(guò)ETL來(lái)達(dá)到用戶信息的統(tǒng)一,即生成統(tǒng)一的用戶信息庫(kù)。首先,從不同系統(tǒng)中抽取現(xiàn)有的用戶信息,并進(jìn)行必要的查重處理,一次性地導(dǎo)入認(rèn)證系統(tǒng)中。然后,進(jìn)行增量的抽取,同時(shí)保證各個(gè)系統(tǒng)的相對(duì)獨(dú)立性,解決數(shù)字圖書(shū)館中的統(tǒng)一認(rèn)證問(wèn)題。

2.2 面向用戶行為的ETL

面向用戶行為的ETL是基于用戶在研究活動(dòng)過(guò)程中的行為進(jìn)行相關(guān)信息抽取,需要跟蹤和記錄用戶的主要查詢和瀏覽行為,以便提供更適合的服務(wù)。

3 結(jié)論

ETL原本是為了構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)而提出的,有其特定的應(yīng)用環(huán)境。而數(shù)字圖書(shū)館的環(huán)境是分布式的,最終目的不只是為了建設(shè)數(shù)據(jù)倉(cāng)庫(kù),更多是需要進(jìn)行虛擬的集成和整合。兩者雖然最終目的和應(yīng)用場(chǎng)景不同,但ETL的思想和技術(shù)可以用來(lái)解決數(shù)字圖書(shū)館資源整合和服務(wù)集成的某些問(wèn)題,在某些應(yīng)用場(chǎng)景中僅僅依賴(lài)于ETL自身的技術(shù)是不行的,還必須結(jié)合其他的技術(shù)和方法來(lái)實(shí)現(xiàn)數(shù)字圖書(shū)館中的具體應(yīng)用。

[1]黃永文,李廣建.數(shù)字圖書(shū)館中的ETL應(yīng)用研究綜述[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2007(12).

[2]黃永文,李廣建.ETL技術(shù)及其在數(shù)字圖書(shū)館中的應(yīng)用研究[J].圖書(shū)館雜志,2006,25(2).

[3]何濤.使用ETL工具Kettle實(shí)現(xiàn)圖書(shū)館聯(lián)盟信息系統(tǒng)數(shù)據(jù)集成[J].科學(xué)咨詢,2009(23).

[4]袁小一,俞毅,趙賽.數(shù)字圖書(shū)館環(huán)境下ETL系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2007(7).

猜你喜歡
數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)源知識(shí)庫(kù)
基于TRIZ與知識(shí)庫(kù)的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計(jì)中的應(yīng)用
基于數(shù)據(jù)倉(cāng)庫(kù)的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評(píng)價(jià)研究
分布式存儲(chǔ)系統(tǒng)在液晶面板制造數(shù)據(jù)倉(cāng)庫(kù)中的設(shè)計(jì)
電子制作(2016年15期)2017-01-15 13:39:15
探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的應(yīng)用
高速公路信息系統(tǒng)維護(hù)知識(shí)庫(kù)的建立和應(yīng)用
基于Drupal發(fā)布學(xué)者知識(shí)庫(kù)關(guān)聯(lián)數(shù)據(jù)的研究
基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)分析探索與實(shí)踐
基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評(píng)價(jià)算法
秀山| 盐津县| 永康市| 长沙县| 兴化市| 青河县| 天门市| 库尔勒市| 陆川县| 灵石县| 六安市| 分宜县| 微山县| 德安县| 永泰县| 奉新县| 禹城市| 泗水县| 浙江省| 赤城县| 历史| 英超| 叶城县| 贵南县| 黔西县| 上思县| 南平市| 彰化县| 黎平县| 靖江市| 榆中县| 武夷山市| 隆德县| 公主岭市| 徐闻县| 墨脱县| 奈曼旗| 马鞍山市| 英德市| 石首市| 垦利县|