劉玫
摘 要:21世紀是數(shù)字化、科技化的時代,數(shù)據(jù)挖掘技術在為實現(xiàn)數(shù)字化提供了有力支持,該文不僅對數(shù)據(jù)挖掘技術、數(shù)字圖書館的基本概念做出了闡述,而且研討了數(shù)據(jù)挖掘在數(shù)字化圖書館運營管理當中的應用問題,表明數(shù)據(jù)挖掘技術在數(shù)字圖書館中應用的重要性。
關鍵詞:數(shù)據(jù)挖掘 ?數(shù)字圖書館 ?應用研究
中圖分類號:G25 文獻標識碼:A 文章編號:1674-098X(2014)11(a)-0193-01
在現(xiàn)代科技帶動下,圖書館也向信息化、自動化與數(shù)字化的方向邁進。數(shù)據(jù)挖掘就是在這個時代應運而生的,如今,它已經(jīng)在金融業(yè)、銷售業(yè)、建筑業(yè)等行業(yè)取得了許多成功,為這些領域的更快更好發(fā)展立下了汗馬功勞。目前,互聯(lián)網(wǎng)上的數(shù)字圖書館數(shù)量與日俱增,因此數(shù)字圖書館的數(shù)據(jù)挖掘技術就具有很重要的意義。數(shù)據(jù)挖掘技術在數(shù)字圖書館中的應用,將為數(shù)字圖書館在圖書資源組織管理、服務質(zhì)量的提升與服務方式的擴展等方面提供有力的技術支持。
1 數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘這個技術是近幾年來從計算機科學研究中發(fā)展出來的一個分支學科。具體是指從海量數(shù)據(jù)中提取或挖掘出隱藏的信息。所有信息載體或信息存儲上都可以使用數(shù)據(jù)挖掘技術。數(shù)據(jù)挖掘的整個過程是由準備數(shù)據(jù)、數(shù)據(jù)采集、顯示結(jié)果與解釋分三個部分組成的。整個采集過程是對數(shù)據(jù)的循環(huán)精練過程,離不開人為的操作。數(shù)據(jù)挖掘技術大大降低了從大型數(shù)據(jù)庫中挖掘出有用信息的難度,采集人員并不需要有很強的數(shù)據(jù)分析和數(shù)據(jù)統(tǒng)計的能力。數(shù)據(jù)挖掘與知識挖掘既存在一定聯(lián)系,同時又有一些差別。通常認為數(shù)據(jù)挖掘是知識挖掘過程的一個基本過程,它采用特定算法把數(shù)據(jù)從數(shù)據(jù)庫中采集出來的模式,最后再經(jīng)過系統(tǒng)解釋與翻譯功能把這種模式變換成用戶能夠理解的信息。另外,數(shù)據(jù)挖掘的過程是隨機發(fā)生的,用戶預先不能知道結(jié)果;信息檢索的初衷是幫助用戶從大量數(shù)據(jù)中挖掘出滿足其查詢條件的信息,而數(shù)據(jù)挖掘是把文檔內(nèi)隱藏的知識提取出來。這兩個系統(tǒng)是相輔相成的。因此可以利用數(shù)據(jù)挖掘的研究結(jié)果來提高信息檢索的效率與準確度,優(yōu)化檢索結(jié)果的顯示,使信息檢索系統(tǒng)更優(yōu)良、更全面。
2 數(shù)字圖書館的定義
如今對掘數(shù)字圖書館的定義有很多,總體概括起來,數(shù)字圖書館就是依靠計算機互聯(lián)網(wǎng)絡、信息檢索技術、圖書分類技術、管理等技術,把圖書整理、保存、保護、數(shù)字信息收集與使用等功能融于一體的綜合智能數(shù)字信息管理與服務中心,這里包含了計算機網(wǎng)絡、人工智能、數(shù)據(jù)庫、圖書情報學等最新技術。數(shù)字圖書館是基于本著盡最大可能滿足用戶的所有需要,方便用戶使用的宗旨,向用戶提供能夠滿足特定需求的優(yōu)質(zhì)服務,同時它又能夠培養(yǎng)用戶個性,引導用戶的需求,這種方式大大促進的現(xiàn)代圖書館的發(fā)展。促進人類文明的進步。如今國內(nèi)外數(shù)字圖書館的數(shù)量顯著增加,對信息服務系統(tǒng)的研究也越來越深入,信息服務的應用也更加廣泛。
3 數(shù)據(jù)挖的功能特性
(1)聚類。聚類就是把所有數(shù)據(jù)個體根據(jù)它們所具有的相同特點歸納在一起,形成一組具有特定屬性的數(shù)據(jù)群組,同種類聚類就是把同一種類的數(shù)據(jù)放在一起,不同類聚類則是把不同種類的數(shù)據(jù)放在一起。,這樣就能反映出同種事物的共同屬性與不同事物間的差異屬性。通過這種方式,數(shù)據(jù)庫中的數(shù)據(jù)就會被劃分成許多有特定屬性的子集。
(2)關聯(lián)分析。它反映了各數(shù)據(jù)單元間關聯(lián)的信息,如果一組數(shù)據(jù)多項屬性都存在關聯(lián),那么其中某一項的屬性就可根據(jù)其他一些屬性來判斷分析。
(3)概念描述。概念描述就是對某類對象的本質(zhì)進行探討分析,并總結(jié)這類對象的相關特點,概念描述有區(qū)別描述與特征描述兩種,前者描述不同類對象間的差別,后者則是描述某類對象的相同特征,最后形成一個類的特征性描述,并且只涉及這類對象中全部對象的共同特性。
(4)預測趨勢與行為。數(shù)據(jù)挖掘系統(tǒng)能夠以時間為依據(jù),從過去或當前的大型數(shù)據(jù)庫中自動挖掘未知信息來預測以后的信息。
(5)偏差檢測。數(shù)據(jù)庫中的數(shù)據(jù)也會發(fā)生錯誤,從數(shù)據(jù)庫中檢測這些錯誤是非常重要的,因為錯誤中也包括許多隱藏的信息。
4 數(shù)據(jù)挖掘在數(shù)字圖書館中的應用
數(shù)字圖書館旨在將不同區(qū)域不同屬性的數(shù)字信息資源進行整合從而達到用戶共享的效果。它主要是一種通過數(shù)字技術將信息進行整合處理從而使得用戶方便瀏覽。根據(jù)處理對象的屬性差異,可以把數(shù)字圖書館數(shù)據(jù)挖掘基本分為三類:結(jié)構挖掘、內(nèi)容挖掘與用戶使用記錄挖掘。結(jié)構挖掘是從web文檔中結(jié)構下手,除文檔中的超鏈接結(jié)構,更對文檔內(nèi)部結(jié)構以及目錄路徑結(jié)構進行挖掘。內(nèi)容挖掘即對web文檔中的內(nèi)容信息進行挖掘。而用戶使用記錄挖掘則是對于一些服務器上的用戶注冊信息購買記錄等數(shù)據(jù)進行挖掘。
4.1 進行結(jié)構挖掘
對數(shù)字圖書館等結(jié)構挖掘主要是通過網(wǎng)頁的鏈接和組織結(jié)構從而能夠發(fā)現(xiàn)圖書館頁面的結(jié)構模式并且對此進行分類和聚類并加以分析,這樣可以使得更好的對網(wǎng)絡建設提供指導以及方便通過超鏈接等方式從而分析各學術未來發(fā)展。
4.2 進行內(nèi)容挖掘
內(nèi)容挖掘主要包含如下幾點,首先是組織文獻數(shù)據(jù)。通過對數(shù)字圖書館內(nèi)文件的組織分類,將其分為若干個組,充分區(qū)分好各個組所涉及的內(nèi)容。這樣就可以大大縮短用戶搜索所需時間,用更短的時間找到更準確的內(nèi)容。第二是對特征的自動提取和描述??梢杂梢粋€內(nèi)容分析器來從中分析并且提取充相關的內(nèi)容特征,用戶采取提取特征后才能更加準確快速的實現(xiàn)信息定位。其三是自動采集整理專題信息。這主要是通過對圖書管內(nèi)的海量信息進行了解,并且能夠從中挖掘到一些有規(guī)律的信息反映給用戶,從而使得用戶無需瀏覽大量無用信息,能夠自動捕捉提取概要信息。
4.3 進行用戶使用記錄挖掘
由數(shù)字圖書館的海量訪問信息中歸納出圖書館用戶的訪問規(guī)律信息,運用關聯(lián)性法則與聚類法則,將不同類型用戶需求進行分類總結(jié),提供針對服務,從而提高瀏覽速度優(yōu)化用戶體驗。同時還應當鼓勵用戶建立自己的Web站點從而更好的了解到使用數(shù)字圖書用戶的了解意向,更能由此推析出未來發(fā)展趨勢,進而研究出其行為規(guī)律。
5 結(jié)語
通過將數(shù)據(jù)挖掘技術引入數(shù)字圖書館這一舉措,能夠大大提高數(shù)字圖書館的信息資源量,優(yōu)化圖書館的信息服務的質(zhì)量,用戶可以更方便、更多的獲取想要的知識,同時圖書館的業(yè)務范圍也將得到大幅度擴展,為圖書館帶來巨大的經(jīng)濟與社會效益,達到雙贏的效果。但數(shù)據(jù)挖掘終究是一種新興的智能科技產(chǎn)物,它的發(fā)展還是有很多挑戰(zhàn)與難題需要面對。如何將數(shù)據(jù)挖掘系統(tǒng)更好的應用到數(shù)字圖書館中還需要進一步的探討與研究。
參考文獻
[1] 周文云.數(shù)據(jù)挖掘在數(shù)字圖書館個性化服務中的研究與應用[J].軍民兩用技術與產(chǎn)品,2012(1):56.
[2] 田瑞雪.國內(nèi)圖書館數(shù)據(jù)挖掘技術應用研究述評[J].科技信息,2014(1):167.
[3] 付紅偉,盧春,周楊.數(shù)據(jù)挖掘技術及其在數(shù)字圖書館中的應用[J].軟件導刊,2013(1).endprint