国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

整合用戶資源——數(shù)字圖書館用戶信息知識發(fā)現(xiàn)研究*

2013-03-31 05:58:18靳曉恩
圖書館研究 2013年5期
關(guān)鍵詞:知識庫檢索數(shù)據(jù)庫

靳曉恩

(南昌工程學(xué)院圖書館,江西 南昌 330099)

隨著信息化的發(fā)展,用戶信息需求以及獲取方式與習(xí)慣正在發(fā)生深刻變化。2005年OCLC的《大學(xué)生對圖書館與信息資源的理解》[1]報告顯示:89%的大學(xué)生在檢索信息時,首先選搜索引擎,只有2%的學(xué)生使用圖書館的信息資源。而2010年,中國互聯(lián)網(wǎng)信息中心發(fā)布的《第26次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》[2]顯示:搜索引擎在網(wǎng)民中的使用率達(dá)76.3%,以半年3912萬人的速度增長??梢姡阉饕娴睦寐蔬h(yuǎn)遠(yuǎn)高于數(shù)字圖書館的利用率。但這種現(xiàn)象的出現(xiàn),對于數(shù)字圖書館的發(fā)展而言,是挑戰(zhàn)、也是機遇?!疤魬?zhàn)”不言而喻,“機遇”就是數(shù)字圖書館的建設(shè)者們應(yīng)盡早盡快地吸取、利用先進(jìn)的信息化技術(shù)開發(fā)、建立用戶信息知識庫,了解用戶信息需求特征,發(fā)現(xiàn)用戶需求規(guī)律,以指導(dǎo)數(shù)字圖書館豐富的資源建設(shè),從而提高數(shù)字圖書館的資源利用率。

數(shù)字圖書館是現(xiàn)代高新科學(xué)技術(shù)和文獻(xiàn)知識信息以及傳統(tǒng)歷史文化完美結(jié)合的體現(xiàn)。其建設(shè)的目的就是為了最有效、最可靠、最可持續(xù)地滿足用戶的信息需求,其發(fā)展的源泉也正是廣大的信息需求用戶。同時,知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD)的興起,是人們長期對數(shù)據(jù)處理和分析進(jìn)行研究和開發(fā)的結(jié)果,它使數(shù)據(jù)庫技術(shù)進(jìn)入了一個更高級階段,它不僅能對過去的數(shù)據(jù)進(jìn)行查詢和遍歷,并且能夠找出數(shù)據(jù)之間的潛在聯(lián)系,發(fā)現(xiàn)具有指導(dǎo)性作用的預(yù)測、差異性知識[3]。利用知識發(fā)現(xiàn)的這種功能,加強數(shù)字圖書館的用戶信息管理,對用戶信息進(jìn)行整合、分析、挖掘處理,將會發(fā)現(xiàn)有用的規(guī)則和知識,指導(dǎo)數(shù)字圖書館資源建設(shè),這對數(shù)字圖書館的發(fā)展來說,可謂重中之重。

1 用戶信息知識發(fā)現(xiàn)過程分析

數(shù)字圖書館的用戶信息,也就是用戶在利用數(shù)字圖書館檢索信息時所產(chǎn)生的檢索痕跡,包括數(shù)字圖書館用戶登陸信息和用戶活動信息、用戶profile、用戶調(diào)查信息、網(wǎng)站的用戶注冊信息和日志文件等[4],這些信息數(shù)據(jù)受用戶的偏好、興趣、認(rèn)知類型、經(jīng)驗、智力、使用方向、檢索時間等用戶信息需求情境的影響,產(chǎn)生不同的用戶需求特點,形成差異的用戶需求行為。而這一用戶檢索行為所產(chǎn)生的記錄而形成的數(shù)據(jù)庫與知識發(fā)現(xiàn)技術(shù)相結(jié)合,我們將設(shè)計出如下的用戶信息知識發(fā)現(xiàn)的過程分析模型圖(如圖1):

圖1 用戶信息知識發(fā)現(xiàn)過程模型

此知識發(fā)現(xiàn)過程建立在豐富的用戶個人信息及檢索過程記錄的基礎(chǔ)上,通過對用戶個人信息特征庫及用戶檢索過程記錄特征庫的預(yù)處理,形成目標(biāo)數(shù)據(jù)庫,知識發(fā)現(xiàn)就是對目標(biāo)數(shù)據(jù)庫的分類和聚類分析、關(guān)聯(lián)分析、序列模式發(fā)現(xiàn)、模式識別等操作,結(jié)果產(chǎn)生具有指導(dǎo)性價值的模式、規(guī)則和知識,建立對改進(jìn)數(shù)字圖書館資源建設(shè)方向、增強用戶個性化服務(wù)能力的指導(dǎo)性知識庫。

2 用戶信息知識發(fā)現(xiàn)過程實現(xiàn)

用戶信息知識發(fā)現(xiàn)過程實現(xiàn)的步驟主要有:用戶個人信息特征庫及檢索過程記錄庫的建立和預(yù)處理;針對目標(biāo)數(shù)據(jù)庫的分類和聚類分析、關(guān)聯(lián)分析、序列模式發(fā)現(xiàn)、模式識別的知識發(fā)現(xiàn)處理;建立知識庫。

2.1 用戶個人信息特征庫及檢索過程記錄庫的建立和預(yù)處理

數(shù)字圖書館的用戶注冊信息、用戶登錄信息、用戶profile,受用戶信息需求情境的影響,形成用戶個人信息特征庫。而用戶交互信息、檢索日志文件(訪問時間、訪問頻率、訪問結(jié)果等),用戶檢索表達(dá)式的影響,形成用戶檢索記錄數(shù)據(jù)庫。

針對用戶個人信息特征庫,主要是利用推理機分析處理用戶信息需求情境,識別用戶偏好、興趣、認(rèn)知、經(jīng)驗、智力等特征,并利用搜索引擎自動采集用戶需求情境特點。針對用戶檢索過程記錄庫,主要是利用搜索引擎動態(tài)跟蹤服務(wù)功能,記錄大量的用戶交互信息、檢索日志文件(訪問時間、訪問頻率、訪問結(jié)果等)。而后,利用智能過濾、興趣識別、訪問登記等搜索引擎功能對兩大數(shù)據(jù)庫進(jìn)行數(shù)據(jù)凈化預(yù)處理。這樣,預(yù)處理后的目標(biāo)數(shù)據(jù)庫,就成為可供進(jìn)行知識挖掘操作的信息庫。

2.2 分類和聚類分析

分類和聚類分析是一對互逆過程,分類是利用分類模型把數(shù)據(jù)庫中的數(shù)據(jù)項映射到給定的類別中;聚類是把數(shù)據(jù)分成不同的群組,目的是使同一群組的數(shù)據(jù)盡量相似,不同群組的數(shù)據(jù)差別盡可能地大。分類和聚類分析可以把凈化過的用戶個人信息庫及檢索記錄信息庫的信息進(jìn)行群分,建立用戶需求模型,數(shù)字圖書館根據(jù)特征模型為不同用戶提供個性化的信息定制和推送服務(wù)。例如:美國加州大學(xué)伯克利分校信息管理與系統(tǒng)學(xué)院的庫伯教授曾對加州大學(xué)聯(lián)機目錄的使用記錄數(shù)據(jù)進(jìn)行收集,共獲得257000條訪問記錄,然后進(jìn)行處理和分析聚類,發(fā)現(xiàn)有6種不同的用戶類型:查找詳細(xì)信息的、一般使用的、查找中具有較好的互動技巧的、知道所查項目內(nèi)容的、需要依賴幫助查找的、查找不成功的用戶,從而使數(shù)字圖書館可以細(xì)分用戶,并針對不同的用戶提供相應(yīng)的個性化服務(wù)[5]。

2.3 關(guān)聯(lián)分析與序列模式識別

關(guān)聯(lián)分析是表示數(shù)據(jù)庫中同一事物不同對象之間的相關(guān)性;序列模式是事件內(nèi)部及時間上的相關(guān)性。例如:對學(xué)生的借閱記錄進(jìn)行關(guān)聯(lián)分析得出以下關(guān)聯(lián)規(guī)則:“系統(tǒng)類=>組織類和管理類(0.25,0.33)”,即“在一個借閱過程中,如果系統(tǒng)類資料被借出,組織和管理類資料同時也被借出,其支持度為0.25,信任度為0.33。”[6]。通過對用戶的檢索交互信息、日志文件的關(guān)聯(lián)和序列模式分析,可以發(fā)現(xiàn)用戶的檢索聯(lián)系及檢索取向,從而指導(dǎo)數(shù)字圖書館的資源鏈建設(shè),節(jié)約用戶的檢索時間及檢索步驟,并智能地推送符合用戶檢索需求的檢索條目,供檢索用戶參考和使用。這樣,數(shù)字圖書館的資源建設(shè)即可以有的放矢,用戶的檢索過程又可以更加簡捷和準(zhǔn)確。

2.4 知識庫的形成

知識庫是對信息庫的判斷、抽取、分析與概括,存貯的是規(guī)律性的規(guī)則和模式。通過對用戶信息的分類和聚類分析、關(guān)聯(lián)分析、序列模式等知識發(fā)現(xiàn)處理后而形成的知識庫,存貯了大量的用戶檢索和信息使用記錄的規(guī)律,利用這些規(guī)律來指導(dǎo)數(shù)字圖書館的門戶平臺建設(shè)、資源建設(shè)方向及重點,掌握用戶需求動態(tài),推出更具人性化、個性化的知識服務(wù),從而最大限度地提高用戶信息需求滿意度。

3 結(jié)束語

信息時代,用戶獲取信息逐漸向無縫的“自助服務(wù)”方向發(fā)展,用戶期望利用信息就像“用水用電”一樣方便。而數(shù)字圖書館以圖書館及互聯(lián)網(wǎng)上的各類數(shù)字資源或非數(shù)字資源為中心,目的是為了有效組織信息資源,為用戶提供便捷的、無縫的、統(tǒng)一的、一站式的門戶檢索平臺,從而最大程度的滿足用戶的信息需求,最大限度地發(fā)揮數(shù)字圖書館信息資源的使用率。

那么,為了實現(xiàn)這種“雙贏”發(fā)展,數(shù)字圖書館界就應(yīng)該做到“知已知彼”。首先就是要充分地了解用戶需求,對數(shù)字圖書館的用戶信息進(jìn)行有效的知識發(fā)現(xiàn)處理,產(chǎn)生可供利用的知識和規(guī)則,建立有效的用戶信息知識庫,以指導(dǎo)針對性地數(shù)字圖書館資源整合,在資源提供與推薦、推送方面作出調(diào)整與變動,有的放矢地為用戶提供新的信息定制與推薦服務(wù),從而更有效地提高數(shù)字圖書館利用率,使用戶獲得更為快速、準(zhǔn)確主動的個性化信息服務(wù),完美實現(xiàn)數(shù)字圖書館“知識寶庫”的社會價值。

[1] OCLC.College Students‵Perceptions of Libraries and Information Resources[R].Dublin,Ohio USA:OCLC Online Computer Library Center,Inc.,2005.

[2] CNNIC.第26次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[R/OL][2010-09-25].http://www.cnnic.net.cn/pdf/2010/7/15/100708.pdf

[3] 黃曉斌.網(wǎng)絡(luò)信息挖掘[M].北京:電子工業(yè)出版社,2005:7-8.

[4] Kyunghye Kin.A Model of Digital Library Information Seeking Process as a Frame for Classifying Usability Problems[J].A Dissertation for the Degree of Doctor of Philosophy[D].The State University of New Jersey.2002.

[5] Hui-Min Chen,Michael D.Cooper.Using clustering techniques to detect usage patterns in a Web based information system[J].JASIST.2001(11):888-904.

[6] Chien-Hsing Wu,Tzai-Zang Lee,Shu-Chen Kao.Knowledge discovery applied to material acquisitions for libraries[J].Information Processing and Management,2004:713-714.

猜你喜歡
知識庫檢索數(shù)據(jù)庫
2019年第4-6期便捷檢索目錄
基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機設(shè)計中的應(yīng)用
數(shù)據(jù)庫
財經(jīng)(2017年2期)2017-03-10 14:35:35
高速公路信息系統(tǒng)維護知識庫的建立和應(yīng)用
數(shù)據(jù)庫
財經(jīng)(2016年15期)2016-06-03 07:38:02
專利檢索中“語義”的表現(xiàn)
專利代理(2016年1期)2016-05-17 06:14:36
數(shù)據(jù)庫
財經(jīng)(2016年3期)2016-03-07 07:44:46
數(shù)據(jù)庫
財經(jīng)(2016年6期)2016-02-24 07:41:51
基于Drupal發(fā)布學(xué)者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
圖書館研究(2015年5期)2015-12-07 04:05:48
國際標(biāo)準(zhǔn)檢索
黄大仙区| 法库县| 双牌县| 樟树市| 额济纳旗| 六枝特区| 永顺县| 游戏| 临武县| 绥棱县| 武山县| 揭阳市| 吴旗县| 涞水县| 乾安县| 理塘县| 揭东县| 上蔡县| 赤水市| 洪江市| 延津县| 崇左市| 双流县| SHOW| 新邵县| 调兵山市| 肥西县| 岳普湖县| 蒲城县| 周宁县| 西吉县| 佛山市| 漳浦县| 镇宁| 蒙城县| 贵州省| 永年县| 祁门县| 北安市| 新建县| 涪陵区|