楊洋
摘 要: 數(shù)據(jù)挖掘技術(shù)在信息的利用和提取中發(fā)揮著日益重要的作用。本文介紹了數(shù)據(jù)挖掘技術(shù)的基本概念及功能,并對數(shù)據(jù)挖掘技術(shù)應(yīng)用于圖書館的研究現(xiàn)狀進(jìn)行了分析,在描述數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)上,探討了數(shù)據(jù)挖掘在數(shù)字化圖書館中的應(yīng)用,旨在為圖書館在數(shù)字資源的組織和管理、服務(wù)質(zhì)量的提升和服務(wù)方式的拓展等提供技術(shù)支持。
關(guān)鍵詞: 圖書館 數(shù)據(jù)挖掘 數(shù)據(jù)信息
一、高校圖書館數(shù)據(jù)挖掘的概念及發(fā)展現(xiàn)狀
數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中提取或挖掘隱含的信息或知識(shí),可以在任何類型的信息載體或存儲(chǔ)中進(jìn)行。數(shù)據(jù)挖掘過程可分為三個(gè)階段:數(shù)據(jù)準(zhǔn)備、采掘操作、結(jié)果表達(dá)和解釋。目前,它已經(jīng)在銀行業(yè)、工程技術(shù)、醫(yī)學(xué)和零售業(yè)等領(lǐng)域得到成功應(yīng)用和空前發(fā)展,在這些領(lǐng)域的成功應(yīng)用鼓舞著人們將數(shù)據(jù)挖掘技術(shù)應(yīng)用到更多、更廣泛的領(lǐng)域中。其中,高校圖書館就是一個(gè)很好的例子,數(shù)字圖書館是計(jì)算機(jī)可處理的、有序組織的知識(shí)集合。
隨著網(wǎng)絡(luò)上的數(shù)字圖書館越來越多,數(shù)字圖書館的數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)研究具有較大的應(yīng)用價(jià)值。數(shù)字圖書館可以突破文獻(xiàn)單元的局限,以知識(shí)單元為基準(zhǔn)進(jìn)行信息挖掘和知識(shí)發(fā)現(xiàn),從而發(fā)現(xiàn)有規(guī)律的認(rèn)識(shí)。它將提供和實(shí)現(xiàn)資源共享,分散于不同載體、不同地域的數(shù)字化信息資源以網(wǎng)絡(luò)化方式互相聯(lián)結(jié)。除此以外,數(shù)字圖書館是多方面高新技術(shù)支持的數(shù)字信息資源系統(tǒng)。其使用數(shù)字技術(shù)進(jìn)行信息資源的組織和管理,能夠存儲(chǔ)海量信息,用戶可以通過網(wǎng)絡(luò)獲得信息服務(wù),高效方便地查詢、檢索信息,并且其信息存儲(chǔ)和用戶訪問不受時(shí)間及地域的限制。
高校圖書館數(shù)據(jù)挖掘應(yīng)用不是簡單的互聯(lián)網(wǎng)上的圖書館主頁,而是一整套面向?qū)ο蟮摹⒎植际降?、與平臺(tái)無關(guān)的數(shù)字化資源的集合。其過程通常是自動(dòng)的,用戶不必提出確切的問題,從而更有利于發(fā)現(xiàn)隱藏的知識(shí)。我們還可以利用數(shù)據(jù)挖掘的研究成果提高信息檢索的精度和效率,改善檢索結(jié)果的表達(dá),使信息檢索系統(tǒng)提高到一個(gè)新的水平。
二、高校圖書館數(shù)據(jù)挖掘的運(yùn)用
數(shù)據(jù)挖掘在高校圖書館中的運(yùn)用比較廣泛,以下將從資源建設(shè)、個(gè)性化服務(wù)、圖書管理等方面進(jìn)行簡單論述。(1)數(shù)據(jù)挖掘在圖書館資源建設(shè)上的應(yīng)用。使用模式挖掘、學(xué)科動(dòng)態(tài)分析,結(jié)合現(xiàn)有館藏信息情況,采用合適挖掘算法及時(shí)發(fā)現(xiàn)信息資源的漏缺,做好文獻(xiàn)的收集訂購。對大量文檔集合內(nèi)容進(jìn)行摘要、分類、聚類、關(guān)聯(lián)分析,從大量的資源中抽取潛在的有用知識(shí)。采用各種數(shù)據(jù)挖掘技術(shù)與方法,評判數(shù)字圖書館文獻(xiàn)信息資源的利用率、有效率等,以便建設(shè)特色館藏。(2)數(shù)據(jù)挖掘在圖書館個(gè)性化信息服務(wù)中的應(yīng)用。個(gè)性化信息服務(wù)不僅需要針對不同的用戶需求提供不同的服務(wù),更重要的在于發(fā)現(xiàn)用戶的潛在需求進(jìn)行主動(dòng)的信息服務(wù)。數(shù)據(jù)挖掘技術(shù)為解決此問題開辟了一條道路。(3)數(shù)據(jù)挖掘在圖書館管理上的應(yīng)用。數(shù)據(jù)挖掘作為一種深層次的數(shù)據(jù)分析方法,可以從大量的用戶數(shù)據(jù)中挖掘反映用戶屬性特征和信息行為特征的信息及規(guī)則,從而為圖書館用戶資源管理提供極大的幫助。
此外,數(shù)據(jù)挖掘在數(shù)字圖書館結(jié)構(gòu)上的運(yùn)用,主要是從網(wǎng)頁的組織結(jié)構(gòu)和鏈接關(guān)系中獲取知識(shí),在此基礎(chǔ)上對頁面進(jìn)行分類和聚類,或?qū)ο嚓P(guān)網(wǎng)頁進(jìn)行分析,發(fā)現(xiàn)數(shù)字圖書館頁面的結(jié)構(gòu)和結(jié)構(gòu)模式,從而對網(wǎng)頁的質(zhì)量進(jìn)行評價(jià),對檢索方式進(jìn)行優(yōu)化。通過鏈接分析和掌握學(xué)科發(fā)展?fàn)顩r,指導(dǎo)網(wǎng)站的建設(shè)。
數(shù)據(jù)挖掘可以幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測未來可能發(fā)生的行為。隨著數(shù)據(jù)挖掘研究的深入,需解決的問題和面臨的挑戰(zhàn)很多。如:在不同的層次上進(jìn)行交互的數(shù)據(jù)挖掘;數(shù)據(jù)挖掘結(jié)果是否具有準(zhǔn)確性和有用性;用不同形式表示數(shù)據(jù)挖掘的結(jié)果;從不能結(jié)構(gòu)的數(shù)據(jù)源中挖掘信息;數(shù)據(jù)挖掘的方法和模式雖然多樣,卻沒有統(tǒng)一地對模型進(jìn)行描述和定義,各數(shù)據(jù)之間缺乏聯(lián)系,造成各數(shù)據(jù)挖掘系統(tǒng)之間的封閉。
三、高校圖書館數(shù)據(jù)挖掘存在的問題及對策
作為圖書館的未來發(fā)展趨勢,數(shù)字圖書館擁有海量的數(shù)字資源,如何發(fā)揮其巨大作用、避免信息過量已經(jīng)成為數(shù)字圖書館發(fā)展必然要面對的問題,而數(shù)據(jù)挖掘技術(shù)在數(shù)字圖書館應(yīng)用面臨許多的挑戰(zhàn)。
隨著圖書館數(shù)字化程度與數(shù)字圖書館建設(shè)的不斷強(qiáng)化,大多數(shù)圖書館紛紛引進(jìn)全文中外文大型數(shù)據(jù)庫,少則數(shù)個(gè),多則數(shù)十個(gè),提供的信息更多、更新、更廣泛、更復(fù)雜。然而,目前這些數(shù)字資源尚未有統(tǒng)一的制作和顯示規(guī)范,閱讀格式和檢索界面多種多樣,互不兼容,使得讀者需要安裝多個(gè)瀏覽器,并且對同一個(gè)主題反復(fù)檢索,效率低下。此外,圖書館的數(shù)據(jù)庫系統(tǒng)可以高效地發(fā)揮數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但無法從大量數(shù)據(jù)中獲取數(shù)據(jù)背后隱藏的、內(nèi)在的、有用的信息,發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,以致無法為讀者提供更方便、快捷、高效的服務(wù)。
解決高校圖書館數(shù)據(jù)挖掘存在的問題,我們應(yīng)該致力于找出解決問題的對策。為了避免陷入數(shù)據(jù)豐富,但信息貧乏的局面,圖書館有必要增強(qiáng)對信息的處理能力及對信息資源的組織能力,尤其是對海量信息的深層次的開發(fā),提取表面上龐雜無序的信息的內(nèi)在聯(lián)系供讀者使用。同時(shí),采用數(shù)據(jù)挖掘技術(shù)對這些數(shù)據(jù)進(jìn)行深入分析、研究對圖書館了解讀者的借閱興趣、圖書采購、信息咨詢等業(yè)務(wù)都有很強(qiáng)的指導(dǎo)作用,對提高讀者服務(wù)質(zhì)量、資源利用率有很大的幫助。
參考文獻(xiàn):
[1]譚觀音,李繼宏.高校圖書館期刊選訂的模糊決策[J].現(xiàn)代情報(bào),2011(8).
[2]李朝葵,凌云.數(shù)據(jù)挖掘及其在圖書館中的應(yīng)用[J].情報(bào)雜志,2011(6).
[3]趙宏波,孟雅玲.數(shù)據(jù)挖掘在電信客戶關(guān)系管理中的應(yīng)用[J].電信技術(shù),2011(2).