羅剛
摘 要:隨著時代的高速發(fā)展,我們?nèi)粘I钪蝎@得的信息急速增長,如何在這眾多的信息中快速有效地找到我們需要的信息是越來越值得我們關(guān)注的問題。在高校圖書館中,我們就可應用數(shù)據(jù)挖掘的技術(shù)手段對圖書館中的文獻系統(tǒng)產(chǎn)生的大量數(shù)據(jù)及WEB信息進行統(tǒng)計和分工,從而提高信息的利用效率額,為圖書館的使用者提供更高效、更高水平、更具信息時代特征及更為個性化的圖書館現(xiàn)代化信息服務。為此,本文就從數(shù)據(jù)挖掘技術(shù)的簡要介紹出發(fā),為學校圖書館應用WEB數(shù)據(jù)挖掘提出簡要構(gòu)象。
關(guān)鍵詞:學校圖書館;數(shù)據(jù)挖掘;WEB數(shù)據(jù)挖掘
1 關(guān)于數(shù)據(jù)挖掘的簡要介紹
數(shù)據(jù)挖掘(Data Mining)在當今時代已與計算機科學有著密不可分的關(guān)系,它是數(shù)據(jù)庫只是發(fā)現(xiàn)(Knowledge-Discovery in Databases,KD)中的一個重要步驟。具體來說就是指從大量的、不完善的、模糊的、隨機的實際數(shù)據(jù)中自動搜索隱含在其中的潛在的具有特殊關(guān)系性(屬于Association rule learning)的信息和知識的過程。其主要相關(guān)于計算機科學技術(shù)利用統(tǒng)計技術(shù)、關(guān)聯(lián)規(guī)則、基于歷史的分析MBR方法、聚集檢測、連接分析、決策樹和規(guī)則推理、神經(jīng)元網(wǎng)絡、遺傳算法等手段幫助人們對數(shù)據(jù)庫中的大量業(yè)務數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和轉(zhuǎn)換模型化處理,從而實現(xiàn)利用數(shù)據(jù)預測未來,幫助決策者進行針對性更強、更為準確的決策的目標。所謂數(shù)據(jù)挖掘就是從有一定容量的數(shù)據(jù)庫中發(fā)現(xiàn)各種數(shù)據(jù)模型、概要和導出值的過程,總而言之數(shù)據(jù)挖掘也是一個歸納的過程。一直以來,數(shù)據(jù)歸納應用主要集中在金融、零售及電子商務等方面。而隨著數(shù)據(jù)額挖掘技術(shù)的發(fā)展,近年來其應用范圍也擴展到圖書館信息系統(tǒng)的處理上。并利用WEB信息挖掘,與信息檢索、文獻加工及數(shù)據(jù)庫等實現(xiàn)了緊密結(jié)合。
2 學校圖書館的Web數(shù)據(jù)挖掘構(gòu)思
2.1 WEB數(shù)據(jù)挖掘技術(shù)
隨著計算機時代的全面發(fā)展,在過去的幾十年中Web以其不可比擬的優(yōu)勢發(fā)展成為了當今世界規(guī)模最大的公共數(shù)據(jù)源。其中,Web數(shù)據(jù)的挖掘即是指從Web超鏈接、網(wǎng)頁內(nèi)容和使用日志中探尋有用的信息。根據(jù)在挖掘過程中使用數(shù)據(jù)的不同,可將挖掘任務劃分為主要的三大類:Web結(jié)構(gòu)挖掘、Web內(nèi)容挖掘和Web使用挖掘。而數(shù)據(jù)挖掘經(jīng)常采用的技術(shù)就包括:統(tǒng)計技術(shù)、關(guān)聯(lián)規(guī)則方法、基于歷史的分析MBR方法、聚集檢測、連接分析、決策樹和規(guī)則推理、神經(jīng)元網(wǎng)絡、遺傳算法等,各技術(shù)之間側(cè)重點有所不同,筆者對其性能做出簡要評比如下表: 2.2 數(shù)據(jù)挖掘在圖書館的應用
作為一所高校信息匯聚的地方,以及學子們獲得知識的重要陣地,圖書館一直是高校重點管理的地方。其文獻資源、數(shù)字資源和網(wǎng)絡資源不斷增加,從數(shù)量巨大的數(shù)據(jù)中挖掘出對讀者最有價值的信息資源,就成了目前圖書館管理的重要任務。因此,我們利用對于圖書館資源系統(tǒng)WEB的數(shù)據(jù)挖掘,為讀者提取了其所需的顯性及隱形知識,顯著提高了圖書館資源的利用率及效率,有效提升學校圖書館知識管理服務的水平。
⑴對圖書館文獻管理集成系統(tǒng)的挖掘。圖書館要實現(xiàn)現(xiàn)代化管理,其中一項重要的任務就是對圖書館文獻管理集成系統(tǒng)的數(shù)據(jù)挖掘。文獻管理集成系統(tǒng)主要是對文獻信息資源進行科學的管理、有效的開發(fā)并且最終實現(xiàn)資源的流通共享。在此過程中,我們可以利用數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則、決策樹和聚類分析等方法對文獻管理集成系統(tǒng)中的流通管理數(shù)據(jù)進行提取,著重注意其中的讀者信息分類、書目信息以及相關(guān)借閱歷史。從分析結(jié)果中,我們可以獲得準確、科學的關(guān)于讀者的借閱習慣及需求,以此來對照我們圖書館文獻系統(tǒng)的現(xiàn)狀,為圖書館的館藏建設(shè)和圖書推薦服務等工作提供科學依據(jù)。
第一,館藏建設(shè)。傳統(tǒng)的圖書館館藏建設(shè)都是由專門的工作人員一手包辦的,雖然這個過程中也要參考許多專業(yè)建議,但不可否認這樣的館藏建設(shè)在很大程度上都具有主觀性,不能真實反映廣大讀者的需求。同時我們也在思考,如何才能利用有限的資金讓圖書館配備最優(yōu)質(zhì)的、利用率最高的文獻配置?如能通過對館內(nèi)文獻管理集成系統(tǒng)信息進行挖掘及分析研究,統(tǒng)計出各類,甚至各文獻的借閱率等基本情況,就可以根據(jù)讀者的需求有針對性地進行文獻信息資源的補充。此外,對于圖書館中老化、過時的即時性文獻也能進行清除。并且,對WEB數(shù)據(jù)的挖掘?qū)τ陴^藏的合理布局也具有十分重要的指導意義。
第二,圖書推薦服務。對圖書館文獻管理集成系統(tǒng)的數(shù)據(jù)進行挖掘,可以有效地了解該圖書館使用者的閱讀習慣和研究方向等,從而進行有針對性的深入的相關(guān)主題推薦。從數(shù)據(jù)分析可對于時下大家感興趣的主題進行介紹從而吸引更多的讀者來進一步了解本館的館藏,甚至成為圖書館的???。運用數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則對圖書館借閱數(shù)據(jù)進行處理,對相關(guān)的數(shù)據(jù)分析做出明確報告,還可得出各專業(yè)圖書間的直接和潛在聯(lián)系,真正為讀者的閱讀、深入研究提供便利。
⑵學校圖書館的Web數(shù)據(jù)挖掘。根據(jù)前文對于數(shù)據(jù)挖掘的簡要介紹,具體來說WEB數(shù)據(jù)挖掘就是以Internet的數(shù)據(jù)為分析對象,為提煉有價值的信息,將傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)與現(xiàn)代信息技術(shù)相結(jié)合的重要手段。因此,WEB數(shù)據(jù)挖掘兼具了兩種技術(shù)的特點,涉及面十分廣泛,包含了統(tǒng)計學、計算機網(wǎng)絡技術(shù)、信息學等多個領(lǐng)域。其主要內(nèi)容包括了三個主要的方面:WEB內(nèi)容挖掘(Web Content Mining)、WEB結(jié)構(gòu)挖掘(Web Structure Mining)以及WEB日志挖掘(Web Usage Mining)。因此根據(jù)以上特點,將其應用于學校圖書館信息的管理。
第一,Web內(nèi)容挖掘。顧名思義即針對網(wǎng)頁內(nèi)容進行Web挖掘,對于網(wǎng)頁中的非結(jié)構(gòu)化的數(shù)據(jù),如文本數(shù)據(jù)、音頻數(shù)據(jù)、視頻數(shù)據(jù)、圖形數(shù)據(jù)等進行綜合分析,從大量的無序、隨機的Web數(shù)據(jù)中提取對讀者有價值的信息資源,而為我們所用。在圖書館的信息管理中,我們的工作人員需要從讀者的角度出發(fā),利用WEB內(nèi)容挖掘幫助讀者過濾信息的問題,進而提高信息質(zhì)量,建立并集成WEB站點的數(shù)據(jù)模型,以滿足廣大讀者的不同程度的查詢需求,為其提供更有針對性、更專業(yè)的技術(shù)支持,從根本上改變原先只能提供簡單關(guān)鍵詞搜索的窘境。
第二,Web結(jié)構(gòu)挖掘。這里的結(jié)構(gòu)是指Web頁面之間的超鏈接結(jié)構(gòu),因此Web結(jié)構(gòu)挖掘就是從結(jié)構(gòu)分析入手,尋找并總結(jié)“話外之音”,從而發(fā)現(xiàn)蘊藏在Web頁面之外的潛在的有價值的模式和知識。對站點的組織結(jié)構(gòu)和頁面結(jié)構(gòu)中的相關(guān)信息進行推導,挖掘出數(shù)據(jù)鏈的結(jié)構(gòu)之間的共性、規(guī)律,對其進行分類總結(jié)。在圖書館信息管理中即可通過以上手段,為讀者提供潛在的知識點。
第三,Web日志挖掘。Web日志挖掘是指對讀者訪問Web時在服務器留下的訪問記錄進行挖掘,獲得讀者訪問的基本模式和內(nèi)容。馬克思指出,我們要透過現(xiàn)象看本質(zhì),因此,Web日志挖掘的核心就是對日志進行分析后得出的讀者的信息訪問的規(guī)律和喜好。根據(jù)以上結(jié)論,再對Web上的文檔進行分類、尋找文檔主題、并匯總搜索結(jié)果。進而對信息進行調(diào)整、更新為讀者提供更為全面、準確的信息支持。
3 結(jié)語
在21世紀的今天,互聯(lián)網(wǎng)大大豐富了我們的信息來源,在拓寬了我們的眼界的同時也帶來了許多無價值信息。學校圖書館要提供高水平現(xiàn)代化的信息服務工作,就需要從信息的海洋中挖掘出為數(shù)不多的寶藏。Web數(shù)據(jù)挖掘幫助我們的學校圖書館實現(xiàn)了這個目標,并且向著更為人性化的服務發(fā)展,從被動提供簡要信息到今天主動為讀者提供更多更豐富的信息,不得不說這是非常有意義的進步。
[參考文獻]
[1]杜文巒.數(shù)字圖書館網(wǎng)絡個性化定制服務現(xiàn)狀分析[J].情報資料工作, 2003,(1):57-59.
[2]曾春,邢春曉,周立柱.個性化服務技術(shù)綜述[J].軟件學報,2002,13 (10):1952-1961.
[3]夏年軍.圖書館網(wǎng)站建設(shè)中的個性化信息服務[J].圖書館論壇,2002, 22(2):79-81.
[4]劉明亮,等.數(shù)據(jù)挖掘技術(shù)標準綜述.計算機科學,2008(35).
[5]李朝葵,凌云.數(shù)據(jù)挖掘及其在圖書館中的應用.情報技術(shù),2002(6).