王姣
摘 要 為了提高圖書館平臺(tái)的服務(wù)質(zhì)量及綜合信息搜索能力,引入了數(shù)據(jù)挖掘技術(shù)對(duì)大量的圖書信息數(shù)據(jù)流進(jìn)行分類,同時(shí)在結(jié)合用戶的特征信息和行為模式的基礎(chǔ)上,有效地完成用戶資源管理及信息數(shù)據(jù)匹配。從而提高用戶信息搜索效率,使用戶能夠更快地找到更有價(jià)值的圖書信息。
關(guān)鍵詞 數(shù)據(jù)挖掘 數(shù)據(jù)庫(kù) 資源整合 圖書館服務(wù)平臺(tái)
中圖分類號(hào):TP274 文獻(xiàn)標(biāo)識(shí)碼:A
Research and Application on Platform Construction in
the Library Based on Data Mining Technology
WANG Jiao
(Library of Jilin Sport University, Changchun, Jilin 130000)
Abstract In order to improve the quality of library services and integrated information search capabilities of library platform, data mining technology has been introduced. A large number of book information data streams are classified. Meanwhile, with the user on the basis of the characteristics and behavior of the information, effectively complete user resource management and information data match. Thereby increasing the efficiency of the user information searching, enabling users to find information more valuable books faster.
Key words data mining; database; resource integration; library services platform
0 引言
對(duì)于圖書館服務(wù)平臺(tái)有多種管理方法,基于大量的信息流存在,不同的數(shù)據(jù)處理手段影響著平臺(tái)的性能。目前流行的技術(shù)手段是Web數(shù)據(jù)流控制技術(shù),它能夠快速的處理大量的數(shù)據(jù)資源。對(duì)于高等學(xué)府的圖書館來(lái)說(shuō),充分利用網(wǎng)絡(luò)資源能夠給廣大師生帶來(lái)完善的數(shù)據(jù)信息,對(duì)于教育、科研這方面具有重要意義。
整體網(wǎng)絡(luò)資源的整合需要圖書館中的Web資源平臺(tái),包括資源分類、數(shù)據(jù)挖掘、網(wǎng)絡(luò)服務(wù)、決策處理等的研究。應(yīng)用高校圖書館服務(wù)平臺(tái)與Web資源相結(jié)合,能給高校帶來(lái)更加完善的信息平臺(tái)。對(duì)于Web資源數(shù)據(jù)挖掘方式的平臺(tái)更適應(yīng)用戶的運(yùn)用,它對(duì)科研型、教學(xué)型、學(xué)習(xí)型教師梯隊(duì)都起到了兼容性??梢詾閺V大師生快速的搜索到對(duì)應(yīng)的信息在圖書館中。因此,數(shù)據(jù)挖掘技術(shù)應(yīng)用于圖書館是非常實(shí)用的,也是國(guó)內(nèi)外大量圖書館服務(wù)平臺(tái)的走向。
1 圖書館服務(wù)平臺(tái)開(kāi)發(fā)的必要性
高等院校應(yīng)用于數(shù)據(jù)挖掘技術(shù)在圖書館,主要用于人員管理、網(wǎng)上信息服務(wù)以及文獻(xiàn)信息的管理等方面。傳統(tǒng)的圖書信息需要專人采集,在一定程度上存在主觀因素,因此導(dǎo)致有些學(xué)科的分配不合理,從而達(dá)不到最佳效果。而采用數(shù)據(jù)挖掘技術(shù)后,可以通過(guò)分類、相關(guān)計(jì)算將資料區(qū)分開(kāi),把圖書館的資源合理地分配。在信息服務(wù)方面,可以為不同的用戶提供不同的服務(wù),用戶輸入檢索要求后,一個(gè)更全面的數(shù)據(jù)資源展現(xiàn)在用戶眼前。利用數(shù)學(xué)中的統(tǒng)計(jì)分析,粗糙集分類等等數(shù)學(xué)算法,對(duì)借閱者的分析,將借閱者的需求與服務(wù)平臺(tái)相結(jié)合,從而更有針對(duì)性的提供資源,提高資源的利用。
目前高等院校的圖書館存在孤島現(xiàn)象,所以需要對(duì)服務(wù)平臺(tái)進(jìn)行改善。由于受到信息化的影響,使得系統(tǒng)、軟件、數(shù)據(jù)庫(kù)三者之間存在關(guān)聯(lián)性差,導(dǎo)致數(shù)據(jù)沒(méi)有穩(wěn)定的共享性,造成系統(tǒng)效率低下。各個(gè)高等院校都存在數(shù)字化資源,如果數(shù)據(jù)能夠進(jìn)行有效的交換,那么拓寬各個(gè)高等院校的數(shù)字資源是必然。而Web資源共享技術(shù)是不可少的,再結(jié)合數(shù)據(jù)挖掘技術(shù),從而達(dá)到高效化的圖書館服務(wù)平臺(tái)。這可在短時(shí)間內(nèi)處理大量信息。
2 圖書館研究提取與應(yīng)用數(shù)據(jù)挖掘技術(shù)概況
數(shù)據(jù)挖掘是人們從不完全、有噪聲、相對(duì)模糊、而又隨機(jī)的大量數(shù)據(jù)中,提取人們未知的、但又是潛在的信息的過(guò)程,它是人們對(duì)有價(jià)值的知識(shí)、或者模型進(jìn)行規(guī)則的過(guò)程,是進(jìn)一步深入分析數(shù)據(jù)的方法。它根據(jù)數(shù)據(jù)表現(xiàn)出的微觀特征,進(jìn)而發(fā)現(xiàn)帶有普遍性的知識(shí),由信息優(yōu)勢(shì)轉(zhuǎn)化成知識(shí)優(yōu)勢(shì)的基礎(chǔ)。數(shù)據(jù)挖掘包括多種相關(guān)技術(shù),它是一門交叉學(xué)科。
自1990年以后,圖書館開(kāi)始不斷關(guān)注數(shù)據(jù)挖掘技術(shù)并參與研究,并致力于將數(shù)據(jù)挖掘技術(shù)引入到圖書館,用于現(xiàn)代化建設(shè)的圖書館,有關(guān)專家提出了其應(yīng)用理論與方法。比如:有關(guān)團(tuán)隊(duì)提出了相關(guān)性理論模型對(duì)于多種學(xué)術(shù)型圖書館,并且成功開(kāi)發(fā)了來(lái)自圖書館網(wǎng)上數(shù)據(jù)挖掘相關(guān)系統(tǒng),有助于用戶查找相關(guān)信息。在1998年,有位先生提出了全文本形式的、動(dòng)態(tài)變化的數(shù)據(jù)庫(kù),這更適用于數(shù)據(jù)挖掘技術(shù)。2002年,兩位學(xué)者提出了書目挖掘這個(gè)專業(yè)術(shù)語(yǔ)對(duì)于圖書館中運(yùn)用數(shù)據(jù)挖掘技術(shù)過(guò)程,他們將數(shù)據(jù)挖掘技術(shù)和相關(guān)理論與方法結(jié)合在一起,從中獲取隱含的模式。2005年,聯(lián)機(jī)計(jì)算機(jī)圖書館中心公布了新的研究計(jì)劃,其中提及到數(shù)據(jù)挖掘研究計(jì)劃,主要為找到隱含的信息和有用的信息,最終幫助圖書館管理人員實(shí)現(xiàn)館藏建設(shè)和服務(wù)。相對(duì)于國(guó)外圖書館來(lái)說(shuō),我國(guó)圖書館在數(shù)據(jù)挖掘技術(shù)方面并沒(méi)有大規(guī)模使用,只有少數(shù)圖書館采用了數(shù)據(jù)挖掘技術(shù)。但國(guó)內(nèi)圖書館界早已認(rèn)識(shí)到,應(yīng)用于數(shù)據(jù)挖掘技術(shù)在圖書館的重要性。
3 服務(wù)平臺(tái)中的Web數(shù)據(jù)挖掘
3.1 數(shù)據(jù)庫(kù)的建立
對(duì)于數(shù)據(jù)挖掘技術(shù)來(lái)說(shuō),完整的數(shù)據(jù)庫(kù)是必不可少的,這是其應(yīng)用的基本條件,常用的數(shù)據(jù)庫(kù)建立可以將海量的數(shù)據(jù)信息從某種復(fù)雜的環(huán)境中提取出來(lái),從而形成一個(gè)獨(dú)立的數(shù)據(jù)資源體系。傳統(tǒng)的數(shù)據(jù)庫(kù)與服務(wù)平臺(tái)中的數(shù)據(jù)庫(kù)是不同的,后者更注重于系統(tǒng)的集中性、統(tǒng)一性。管理信息的基本單元是數(shù)據(jù)庫(kù),它也是決策系統(tǒng)的組成單元,數(shù)據(jù)庫(kù)為決策者提供信息保障,從而根據(jù)信息完成決策。所以,一個(gè)完善的圖書館服務(wù)平臺(tái)需要建立數(shù)據(jù)庫(kù)。各類信息與表一一對(duì)應(yīng)。建立完畢數(shù)據(jù)庫(kù)星形模式以后,便可數(shù)據(jù)聚集了,它可用于分析應(yīng)用的需求關(guān)系,并且數(shù)據(jù)聚集與事實(shí)表和維表有著密切聯(lián)系。
3.2 Web數(shù)據(jù)挖掘
Web數(shù)據(jù)挖掘包括:(1)數(shù)據(jù)的預(yù)存儲(chǔ)。要對(duì)采集到的數(shù)據(jù)進(jìn)行預(yù)處理。在Web數(shù)據(jù)挖掘基礎(chǔ)上,所采用的預(yù)處理是收集數(shù)據(jù)資源的信息,從而保證數(shù)據(jù)的完整性,這在收集過(guò)程中不需要消耗更多的時(shí)間,結(jié)合IP地址信息實(shí)現(xiàn)聯(lián)機(jī)采集的效果。(2)對(duì)于數(shù)據(jù)的算法。挖掘可謂是一個(gè)長(zhǎng)期、動(dòng)態(tài)過(guò)程,不同的數(shù)據(jù)需要不同的處理算法。例如有滑動(dòng)窗口模型、特征時(shí)間模型等等。利用多種相關(guān)算法對(duì)資源進(jìn)行整合,再將近似的、相關(guān)聯(lián)的數(shù)據(jù)提取出來(lái)。(3)模式的構(gòu)建。模式的自組織需要通過(guò)分類、聚類以及關(guān)聯(lián)的方法。分類模型可以實(shí)現(xiàn)分類,獲取類別信息就要利用分類函數(shù),并分析其公共屬性,通過(guò)類型特征還可以進(jìn)行聚類。用戶可通過(guò)關(guān)聯(lián)規(guī)則完成網(wǎng)站上的資源相互關(guān)系,從而挖掘出用戶的閱讀需求,來(lái)實(shí)現(xiàn)服務(wù)的高級(jí)功能。(4)整合資源信息。由于Web存在信息的多樣性、廣泛性,這就需要合理的導(dǎo)航和檢索能力,資源的有效定位需要通過(guò)資源的發(fā)現(xiàn)、分類等功能來(lái)完成。
4 結(jié)論
本文采用Web數(shù)據(jù)挖掘技術(shù),利用這種技術(shù)設(shè)計(jì)了一種更加有利于讀者獲取信息的工作模式。系統(tǒng)通過(guò)分類分析,將相應(yīng)數(shù)據(jù)進(jìn)行一系列處理,通過(guò)此種方式構(gòu)建了上述文中基于Web數(shù)據(jù)挖掘技術(shù)的圖書館服務(wù)平臺(tái)。數(shù)據(jù)挖掘的基礎(chǔ)是數(shù)據(jù)庫(kù),完成數(shù)據(jù)收集、處理以及存儲(chǔ)等工作基礎(chǔ)上,其還實(shí)現(xiàn)了知識(shí)特征提取,從而達(dá)到圖書館服務(wù)平臺(tái)大幅度的提升,更能夠在圖書館充分發(fā)揮數(shù)據(jù)信息的能力。
參考文獻(xiàn)
[1] 姚玉閣.淺析數(shù)據(jù)挖掘技術(shù)[J].信息與電腦,2010(11):115.
[2] 周倩.復(fù)合圖書館信息資源管理研究.圖書情報(bào)知識(shí),2003(5).
[3] 楊中華.數(shù)據(jù)挖掘在客戶關(guān)系管理中的應(yīng)用研究.湖北汽車工業(yè)學(xué)院學(xué)報(bào),2004(1).