福建中醫(yī)藥大學(xué)思想政治理論課教學(xué)科研部 吳 翔
數(shù)據(jù)挖掘技術(shù)在圖書(shū)館建設(shè)中的應(yīng)用
福建中醫(yī)藥大學(xué)思想政治理論課教學(xué)科研部 吳 翔
數(shù)據(jù)挖掘技術(shù)在各行業(yè)都有廣泛運(yùn)用,是一種新興信息技術(shù)。而圖書(shū)館作為一個(gè)海量信息的聚集點(diǎn),數(shù)據(jù)挖掘技術(shù)對(duì)其建設(shè)有著重要的意義,數(shù)據(jù)挖掘技術(shù)以其在圖書(shū)建設(shè)方面的良好的應(yīng)用前景,引起了圖書(shū)館管理工作者的注意,本文,筆者介紹數(shù)據(jù)挖掘的概念,以此為出發(fā)點(diǎn),對(duì)數(shù)據(jù)挖掘技術(shù)做出一個(gè)簡(jiǎn)單的詮釋。數(shù)據(jù)挖掘技術(shù)包含了人工智能、數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)等學(xué)科的內(nèi)容,是一門(mén)綜合性的技術(shù)。這種技術(shù)的主要特點(diǎn)是對(duì)數(shù)據(jù)庫(kù)中大量的數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換和分析,從中提取出能夠?qū)κ褂谜吖ぷ饔凶饔玫年P(guān)鍵性數(shù)據(jù)。而挖掘技術(shù)用于圖書(shū)建設(shè)中,可以讓用戶的學(xué)習(xí)和工作更加方便快捷,同時(shí)在圖書(shū)館自身的競(jìng)爭(zhēng)力上面也能得到一步大的跨越。
數(shù)據(jù)挖掘技術(shù)的運(yùn)用還可以對(duì)用戶訪問(wèn)圖書(shū)館的目的、趨勢(shì)和特征有一個(gè)充分的了解,以此為基礎(chǔ)來(lái)改進(jìn)圖書(shū)館的服務(wù)質(zhì)量和為圖書(shū)館購(gòu)書(shū)提供一個(gè)指標(biāo)、一個(gè)標(biāo)準(zhǔn),對(duì)圖書(shū)館的建設(shè)有著非凡的意義。
1. 為圖書(shū)館的工作提供決策管理和技術(shù)支持。如今用戶的需求對(duì)圖書(shū)館的信息管理提出了新的要求。首先現(xiàn)在圖書(shū)館要處理更加復(fù)雜的信息,然后為使用者提供一個(gè)更為針對(duì)性的服務(wù);其次要提供一個(gè)個(gè)性化的主動(dòng)信息服務(wù),讓信息來(lái)找人,按使用者的需求提供服務(wù)。在圖書(shū)館的建設(shè)中,實(shí)現(xiàn)個(gè)性化服務(wù)的方式就是對(duì)使用者的信息需要、愛(ài)好以及訪問(wèn)歷史的數(shù)據(jù)信息建立用戶模型,并加以分析,并將此用于網(wǎng)上信息的排序和過(guò)濾,從而指導(dǎo)圖書(shū)館的服務(wù),這些都是數(shù)據(jù)挖掘技術(shù)的優(yōu)勢(shì);另外圖書(shū)館使用有大量的統(tǒng)計(jì)數(shù)據(jù)和表單,數(shù)據(jù)挖掘技術(shù)能夠用這些數(shù)據(jù)和表單為圖書(shū)館的工作提供決策管理和技術(shù)支持。
2. 提高圖書(shū)館服務(wù)質(zhì)量,優(yōu)化館藏結(jié)構(gòu)。圖書(shū)館建設(shè)中,圖書(shū)館服務(wù)質(zhì)量占有一個(gè)重要的位置,做好圖書(shū)館的服務(wù)工作,能使圖書(shū)館建設(shè)更加符合用戶的要求。數(shù)據(jù)挖掘技術(shù)可以找到圖書(shū)借閱之間的聯(lián)系,讓圖書(shū)管理者對(duì)讀者的需求有一個(gè)更加系統(tǒng)的了解,同時(shí)能夠優(yōu)化館藏結(jié)構(gòu),對(duì)信息服務(wù)的提升起到一個(gè)促進(jìn)作用,從而促進(jìn)圖書(shū)館的建設(shè)。
1. 數(shù)據(jù)分類(lèi)。數(shù)據(jù)挖掘技術(shù)通過(guò)對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分析,把數(shù)據(jù)按照相似性歸納成若干類(lèi)別,然后做出分類(lèi),并能夠?yàn)槊恳粋€(gè)類(lèi)別都做出一個(gè)準(zhǔn)確的描述,挖掘出分類(lèi)的規(guī)則或建立一個(gè)分類(lèi)模型。
2. 數(shù)據(jù)關(guān)聯(lián)分析。數(shù)據(jù)庫(kù)中的數(shù)據(jù)關(guān)聯(lián)是一項(xiàng)非常重要并可以發(fā)現(xiàn)的知識(shí)。數(shù)據(jù)關(guān)聯(lián)就是兩組或兩組以上的數(shù)據(jù)之間有著某種規(guī)律性的聯(lián)系。數(shù)據(jù)關(guān)聯(lián)分析的作用就是找出數(shù)據(jù)庫(kù)中隱藏的聯(lián)系,從中得到一些對(duì)圖書(shū)館建設(shè)中的管理工作有用的信息。就像是在購(gòu)物中,就可以通過(guò)顧客的購(gòu)買(mǎi)物品的聯(lián)系,從中得到顧客的購(gòu)買(mǎi)習(xí)慣。
3. 預(yù)測(cè)。預(yù)測(cè)是根據(jù)已經(jīng)得到的數(shù)據(jù),從而對(duì)未來(lái)的情況做出一個(gè)可能性的分析。數(shù)據(jù)挖掘技術(shù)能自動(dòng)在大型的數(shù)據(jù)庫(kù)中做出一個(gè)較為準(zhǔn)確的分析。就像是在市場(chǎng)投資中,可以通過(guò)各種商品促銷(xiāo)的數(shù)據(jù)來(lái)做出一個(gè)未來(lái)商品的促銷(xiāo)走勢(shì),從而在投資中得到最大的回報(bào)。
數(shù)據(jù)挖掘技術(shù)融合了多個(gè)學(xué)科、多個(gè)領(lǐng)域的知識(shí)與技術(shù),因此數(shù)據(jù)挖掘的方法也呈現(xiàn)出很多種類(lèi)的形式。就目前的統(tǒng)計(jì)分析類(lèi)的數(shù)據(jù)挖掘技術(shù)的角度來(lái)講,光統(tǒng)計(jì)分析技術(shù)中所用到的數(shù)據(jù)挖掘模型就有回歸分析、邏輯回歸分析、有線性分析、非線性分析、單變量分析、多變量分析、最近鄰算法、最近序列分析、聚類(lèi)分析和時(shí)間序列分析等多種方法。數(shù)據(jù)挖掘技術(shù)利用這些方法對(duì)那些異常形式的數(shù)據(jù)進(jìn)行檢查,然后通過(guò)各種數(shù)據(jù)模型和統(tǒng)計(jì)模型對(duì)這些數(shù)據(jù)進(jìn)行解釋?zhuān)倪@些數(shù)據(jù)中找出隱藏在其中的商業(yè)機(jī)會(huì)和市場(chǎng)規(guī)律。另外還有知識(shí)發(fā)現(xiàn)類(lèi)數(shù)據(jù)挖掘技術(shù),這種和統(tǒng)計(jì)分析類(lèi)的數(shù)據(jù)挖掘技術(shù)完全不同,其中包括了支持向量機(jī)、人工神經(jīng)元網(wǎng)絡(luò)、遺傳算法、決策樹(shù)、粗糙集、關(guān)聯(lián)順序和規(guī)則發(fā)現(xiàn)等多種方法。
1. 圖書(shū)館建設(shè)中用戶資源的管理。圖書(shū)館的用戶是指使用圖書(shū)館信息資源的一切團(tuán)體和個(gè)人,在長(zhǎng)期使用圖書(shū)館的過(guò)程中逐步形成的,是對(duì)圖書(shū)館的社會(huì)關(guān)系體系和服務(wù)能力的一種肯定。數(shù)據(jù)挖掘技術(shù)可以很好地分析用戶的數(shù)據(jù),從中得到用戶的屬性和行為特征,明確得到用戶的服務(wù)需求和信息需求。以此為基礎(chǔ)把用戶劃分為不同的用戶群,針對(duì)他們的個(gè)性化需求,進(jìn)行相應(yīng)的信息服務(wù)系統(tǒng)和資源建設(shè),實(shí)現(xiàn)用戶相關(guān)活動(dòng)信息的集成。然后通過(guò)對(duì)用戶屬性和行為特征的分析推理,為圖書(shū)館的服務(wù)建設(shè)和決策提供一個(gè)客觀依據(jù)。
2. 圖書(shū)館建設(shè)中的讀者信息服務(wù)。圖書(shū)館在使用了數(shù)據(jù)挖掘技術(shù)后,能拓寬圖書(shū)館的信息服務(wù)的范圍,增加信息服務(wù)的項(xiàng)目,讓圖書(shū)館建設(shè)中的信息服務(wù)更加高效,且具有了主動(dòng)性,在服務(wù)質(zhì)量上大大地跨出了一步。隨著現(xiàn)在數(shù)據(jù)庫(kù)的信息量的不斷增大和使用者越來(lái)越多,利用傳統(tǒng)的檢索方式來(lái)進(jìn)行定題情報(bào)服務(wù)的難度不斷增加,排序不規(guī)范或無(wú)序的電子信息還需要在不同的操作平臺(tái)上做出切換。而在利用數(shù)據(jù)挖掘技術(shù)以后,就可以做到整合各種類(lèi)型的信息和數(shù)據(jù),將不同操作平臺(tái)上的電子信息和紙質(zhì)的圖書(shū)資料通過(guò)四種規(guī)則給用戶提供一個(gè)規(guī)范而統(tǒng)一的數(shù)據(jù)平臺(tái),這樣大大增加了用戶的檢索效率。
3. 指導(dǎo)圖書(shū)采購(gòu)。圖書(shū)的訂購(gòu)是圖書(shū)館建設(shè)的重要工作,主要?dú)w屬于圖書(shū)館采訪部門(mén),它是圖書(shū)館建設(shè)工作的起始端,同時(shí)也是現(xiàn)代圖書(shū)館資源建設(shè)的開(kāi)端。每年圖書(shū)館的圖書(shū)采購(gòu)經(jīng)費(fèi)有限,如何利用有限的資源進(jìn)行各門(mén)學(xué)科之間的搭配以及各種文獻(xiàn)載體的均衡就變成了一件讓圖書(shū)管理者為難的問(wèn)題。而且現(xiàn)在的出版物數(shù)量也不斷增加,各種資源載體也越來(lái)越豐富。這些問(wèn)題讓圖書(shū)館對(duì)結(jié)構(gòu)信息的把握、資金的均衡利用更加為難,采購(gòu)工作的難度不斷加大。而利用數(shù)據(jù)挖掘技術(shù)可以進(jìn)行采訪數(shù)據(jù)庫(kù)和流通數(shù)據(jù)庫(kù)的歷史數(shù)據(jù)進(jìn)行序列分析和關(guān)聯(lián)性分析,從而輕松地得到各種文獻(xiàn)的利用率,為圖書(shū)采購(gòu)提供一個(gè)科學(xué)合理的報(bào)告和預(yù)測(cè)信息,進(jìn)而指導(dǎo)圖書(shū)采購(gòu)人員對(duì)圖書(shū)的采購(gòu),保障圖書(shū)館信息資源體系建設(shè)的合理性和科學(xué)性,從而對(duì)圖書(shū)館信息資源建設(shè)做出優(yōu)化。
4. 分析借閱流量周期。數(shù)據(jù)挖掘技術(shù)可以運(yùn)用時(shí)間序列的挖掘方向從流量數(shù)據(jù)庫(kù)中找出流通量的周期性規(guī)律,從中分析出用戶使用圖書(shū)的低谷期和高峰期。在人力資源和圖書(shū)資源都有限的情況下,以此可以對(duì)圖書(shū)館建設(shè)中流通部門(mén)的長(zhǎng)期以及短期的工作做出科學(xué)的安排,為用戶提供更加優(yōu)質(zhì)的服務(wù)。比如,在全年的高峰期時(shí)段,可以把圖書(shū)館的服務(wù)集中在用戶的流通服務(wù)上;而在流通的低谷段,除了進(jìn)行日常借閱的流通服務(wù),還可以進(jìn)行圖書(shū)整理、業(yè)務(wù)學(xué)習(xí)、讀者培訓(xùn)之類(lèi)的工作。這樣的做法能夠更好地利用時(shí)間和圖書(shū)館資源。
數(shù)據(jù)挖掘技術(shù)在社會(huì)各行各業(yè)中都有一定程度的使用,基于其在數(shù)據(jù)組織、分析能力、知識(shí)發(fā)現(xiàn)和信息深層次挖掘的能力,在使用中取得了顯著的成效。但數(shù)據(jù)挖掘技術(shù)中還存在著一些問(wèn)題,如數(shù)據(jù)的挖掘算法、預(yù)處理、可視化問(wèn)題、模式識(shí)別和解釋等。對(duì)于這些問(wèn)題,圖書(shū)館管理人員要予以清醒認(rèn)識(shí),并合理使用數(shù)據(jù)挖掘信息,使數(shù)據(jù)挖掘技術(shù)能夠更加有效地發(fā)揮其作用。