遲春佳 毛志勇
〔摘 要〕針對(duì)如何科學(xué)制訂高校圖書(shū)館圖書(shū)采購(gòu)計(jì)劃以提高圖書(shū)采購(gòu)質(zhì)量和效率的問(wèn)題,分析了傳統(tǒng)圖書(shū)采購(gòu)計(jì)劃制訂方法的不足,闡述了數(shù)據(jù)挖掘技術(shù)的內(nèi)涵,提出了將數(shù)據(jù)挖掘技術(shù)用于高校圖書(shū)館圖書(shū)采購(gòu)計(jì)劃制訂輔助決策的方法,探討了該方法的可行性,并詳細(xì)給出了數(shù)據(jù)挖掘技術(shù)應(yīng)用于制訂高校圖書(shū)館圖書(shū)采購(gòu)計(jì)劃的過(guò)程。
〔關(guān)鍵詞〕數(shù)據(jù)挖掘;圖書(shū)采購(gòu);高校圖書(shū)館
〔中圖分類號(hào)〕G250 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2009)07-0108-03
Research on Assistant Decision-making in Formulating University Library
Book Purchasing Plan Based on Data MiningChi Chunjia1 Mao Zhiyong2
(1.Library,Liaoning Technical University,Huludao 125105,China;
2.College of Business Administration,Liaoning Technical University,Huludao 125105,China)
〔Abstract〕To improve the book quality and increase the labor efficiency,the data mining technology has been introduced into book purchasing system to formulate a reasonable purchasing plan.After the deficiency analysis of the traditional book purchasing system and thorough investigating of the data mining technology,a new method of drawing up book purchasing plan based on the data mining technology has been brought forward.A detailed procedure of formulating a purchasing plan using this method has been introduced and the method has been proved to be helpful.
〔Key words〕data mining;book purchase;university library
隨著辦學(xué)規(guī)模的不斷擴(kuò)大,國(guó)內(nèi)各高校在校人數(shù)迅速增長(zhǎng),廣大師生對(duì)圖書(shū)館文獻(xiàn)信息服務(wù)的要求越來(lái)越高,高校圖書(shū)館面臨著巨大壓力,必須通過(guò)不斷加強(qiáng)建設(shè)才能滿足讀者需求。圖書(shū)采購(gòu)是圖書(shū)館業(yè)務(wù)的一個(gè)關(guān)鍵環(huán)節(jié),也是圖書(shū)館服務(wù)工作的基礎(chǔ),如何有效使用有限的資金,制訂科學(xué)的采購(gòu)計(jì)劃,合理添置讀者真正需要的圖書(shū),提高圖書(shū)資料的利用效率,是圖書(shū)采購(gòu)工作面臨的主要問(wèn)題,這對(duì)于館藏資源體系的建設(shè)完善起著決定性的作用,在很大程度上決定著圖書(shū)館整體服務(wù)水平,會(huì)直接影響到讀者服務(wù)工作的效果和圖書(shū)館任務(wù)的完成。然而,在制訂采購(gòu)計(jì)劃時(shí),傳統(tǒng)的方法卻存在諸多缺陷,已不能很好滿足采購(gòu)工作的需要,因而迫切需要一種更加高效、科學(xué)的方法進(jìn)行該項(xiàng)工作。
1 傳統(tǒng)圖書(shū)采購(gòu)計(jì)劃制訂方法的分析
1.1 傳統(tǒng)的圖書(shū)采購(gòu)計(jì)劃制訂主要采用的方法
1.1.1 專家法
這是一種最為常見(jiàn)的方法。通常做法是圖書(shū)采購(gòu)部門(mén)邀請(qǐng)各個(gè)學(xué)科的專家,請(qǐng)專家在書(shū)目信息列表上選擇出他們認(rèn)為有價(jià)值、能反映學(xué)科前沿問(wèn)題、突出學(xué)科重點(diǎn)的圖書(shū),然后再結(jié)合經(jīng)費(fèi)情況、館藏圖書(shū)的學(xué)科專業(yè)分布、發(fā)展趨勢(shì)、現(xiàn)有藏書(shū)量以及學(xué)校的學(xué)科發(fā)展規(guī)劃情況、圖書(shū)流通信息等進(jìn)行調(diào)整,最終確定采購(gòu)計(jì)劃。專家法的優(yōu)點(diǎn)是發(fā)揮了專家熟悉本領(lǐng)域圖書(shū)資料的長(zhǎng)處,專家根據(jù)其對(duì)本專業(yè)發(fā)展需要、學(xué)科發(fā)展趨勢(shì)、同行圖書(shū)作者、圖書(shū)內(nèi)容的了解,保證了圖書(shū)采購(gòu)的專業(yè)水準(zhǔn),尤其是保證反映本學(xué)科最新發(fā)展成就和趨勢(shì)的圖書(shū)能夠入選。
1.1.2 經(jīng)驗(yàn)法
此種方法是指在制訂采購(gòu)計(jì)劃時(shí),主要依據(jù)圖書(shū)采購(gòu)人員的經(jīng)驗(yàn),根據(jù)其對(duì)館藏資源的了解和對(duì)圖書(shū)需求的判斷來(lái)決定圖書(shū)采購(gòu)目錄和數(shù)量,制訂采購(gòu)計(jì)劃。這種做法的優(yōu)點(diǎn)是管理人員長(zhǎng)期從事本職工作,對(duì)圖書(shū)館的現(xiàn)實(shí)有充分的了解,工作效率較高。
1.2 兩種方法的不足與缺陷
1.2.1 計(jì)劃制訂容易受到主觀因素影響
在圖書(shū)采購(gòu)過(guò)程中,盡管采購(gòu)人員或?qū)<覍I(yè)學(xué)識(shí)水平較高、業(yè)務(wù)能力較強(qiáng),但不可避免地會(huì)帶有一定的主觀性和個(gè)人喜好,從而很容易導(dǎo)致計(jì)劃失去客觀性。
1.2.2 計(jì)劃制訂容易缺乏全面性
在影響計(jì)劃制訂結(jié)果的諸多因素中,由于缺乏有效的技術(shù),讀者的真實(shí)需求情況對(duì)于采購(gòu)計(jì)劃的制訂者往往是難于準(zhǔn)確把握的,這就極易導(dǎo)致計(jì)劃制訂缺乏全面性,最終花費(fèi)了大量資金購(gòu)置的圖書(shū)卻并不能很好地滿足讀者的實(shí)際需求。
2 數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘(Data Mining)又稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge Discovery in Database,KDD),是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又潛在有用的信息和知識(shí)的過(guò)程。數(shù)據(jù)挖掘相對(duì)于傳統(tǒng)的數(shù)據(jù)分析(如信息查詢、報(bào)表分析)而言,其本質(zhì)區(qū)別是數(shù)據(jù)挖掘使用的是基于發(fā)現(xiàn)的方法,運(yùn)用模式匹配和其它算法決定數(shù)據(jù)之間的重要聯(lián)系,其任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)模式。數(shù)據(jù)挖掘主要致力于知識(shí)的自動(dòng)發(fā)現(xiàn),是知識(shí)發(fā)現(xiàn)研究在數(shù)據(jù)庫(kù)系統(tǒng)中的延伸。數(shù)據(jù)挖掘在沒(méi)有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí),不僅能對(duì)過(guò)去的數(shù)據(jù)進(jìn)行查詢和遍歷,并且能夠?qū)?lái)的趨勢(shì)和行為進(jìn)行預(yù)測(cè)并自動(dòng)探測(cè)以前未發(fā)現(xiàn)的模式,從而很好地支持人們的決策。被挖掘出來(lái)的信息具有先未知性、有效性和實(shí)用性3個(gè)特征,能夠用于信息管理、查詢處理、決策支持、過(guò)程控制以及許多其它應(yīng)用。目前,數(shù)據(jù)挖掘的主要功能有:
(1)分類:按照數(shù)據(jù)對(duì)象的屬性、特征,建立不同的組類來(lái)描述數(shù)據(jù)。
(2)聚類:識(shí)別出數(shù)據(jù)對(duì)象內(nèi)在的規(guī)則,按照這些規(guī)則把對(duì)象分成若干類。與分類不同的是,聚類沒(méi)有預(yù)先定義數(shù)據(jù)對(duì)象,而是由數(shù)據(jù)對(duì)象決定。
(3)關(guān)聯(lián)規(guī)則和序列發(fā)現(xiàn):關(guān)聯(lián)分析是揭示數(shù)據(jù)間沒(méi)有直接表示的相互關(guān)系,而關(guān)聯(lián)規(guī)則是解釋并識(shí)別這些數(shù)據(jù)關(guān)聯(lián)的模式。與關(guān)聯(lián)不同,序列是一種縱向的聯(lián)系,用于發(fā)現(xiàn)并確定數(shù)據(jù)對(duì)象之間與時(shí)間相關(guān)的序列模式。
(4)預(yù)測(cè):把握數(shù)據(jù)對(duì)象發(fā)展的規(guī)律,對(duì)未來(lái)的數(shù)據(jù)狀態(tài)趨勢(shì)做出預(yù)見(jiàn)。
(5)偏差的檢測(cè):數(shù)據(jù)庫(kù)中總有一些數(shù)據(jù)對(duì)象是少數(shù)的、極端的或特例的,對(duì)他們進(jìn)行描述并揭示內(nèi)在的原因。
數(shù)據(jù)挖掘的技術(shù)和算法主要有統(tǒng)計(jì)方法(包括點(diǎn)估計(jì)、基于匯總的模型、貝葉斯定理、假設(shè)檢驗(yàn)、回歸和相關(guān))、相似性度量、決策樹(shù)、模糊邏輯、神經(jīng)網(wǎng)絡(luò)和遺傳算法等。而在實(shí)際的數(shù)據(jù)挖掘應(yīng)用中,所使用的數(shù)據(jù)挖掘功能和技術(shù)、算法往往不止一種,經(jīng)常是綜合運(yùn)用的。
3 數(shù)據(jù)挖掘在制訂高校圖書(shū)館圖書(shū)采購(gòu)計(jì)劃中的應(yīng)用
3.1 數(shù)據(jù)挖掘在制訂圖書(shū)采購(gòu)計(jì)劃中應(yīng)用的可行性
目前,數(shù)據(jù)挖掘在經(jīng)過(guò)多年的發(fā)展之后已經(jīng)形成相對(duì)成熟的技術(shù)體系,特別是在數(shù)據(jù)挖掘設(shè)計(jì)、數(shù)據(jù)抽取以及聯(lián)機(jī)分析處理技術(shù)等方面都取得了令人滿意的進(jìn)展,為數(shù)據(jù)挖掘的應(yīng)用奠定了技術(shù)基礎(chǔ)。數(shù)據(jù)挖掘技術(shù)在電信、制造、零售、金融等領(lǐng)域已得到了廣泛的應(yīng)用,并取得了巨大的回報(bào)。由于我國(guó)各高校圖書(shū)館系統(tǒng)經(jīng)過(guò)多年的自動(dòng)化建設(shè),已具備相當(dāng)?shù)奈镔|(zhì)條件和人才儲(chǔ)備,并積累了大量業(yè)務(wù)數(shù)據(jù),可以為數(shù)據(jù)挖掘技術(shù)應(yīng)用于圖書(shū)采購(gòu)奠定一定的物質(zhì)基礎(chǔ)。利用數(shù)據(jù)挖掘技術(shù),圖書(shū)采購(gòu)人員可以非常方便地通過(guò)對(duì)圖書(shū)館自動(dòng)化系統(tǒng)所積累的數(shù)據(jù)進(jìn)行處理,分析出文獻(xiàn)的利用情況,從而準(zhǔn)確把握讀者實(shí)際需求,可以很好地克服了傳統(tǒng)方法中對(duì)讀者需求把握不準(zhǔn)確的不足。此外由于數(shù)據(jù)挖掘結(jié)果可以為采購(gòu)文獻(xiàn)提供科學(xué)合理的各種分析報(bào)告及預(yù)測(cè)信息,從而將人員的主觀因素的影響降到最低,可以最大程度提升決策的科學(xué)性、準(zhǔn)確性和全面性。因此,在圖書(shū)采購(gòu)中應(yīng)用數(shù)據(jù)挖掘技術(shù),為圖書(shū)采購(gòu)計(jì)劃輔助決策是完全可行的。
3.2 數(shù)據(jù)挖掘在制訂高校圖書(shū)館圖書(shū)采購(gòu)計(jì)劃中應(yīng)用的過(guò)程數(shù)據(jù)挖掘在制訂圖書(shū)采購(gòu)計(jì)劃中的應(yīng)用過(guò)程如圖1所示,包括收集原始數(shù)據(jù)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、結(jié)果分析和制訂采購(gòu)計(jì)劃5個(gè)步驟。
3.2.1 收集原始數(shù)據(jù)
收集原始數(shù)據(jù)的目的是為后期的數(shù)據(jù)挖掘提供數(shù)據(jù)源。在實(shí)際應(yīng)用中,收集的原始數(shù)據(jù)主要包括圖書(shū)館自動(dòng)化系統(tǒng)數(shù)據(jù)庫(kù)里的采訪、編目、典藏、流通等的業(yè)務(wù)數(shù)據(jù)。收集的業(yè)務(wù)數(shù)據(jù)信息主要包括以下內(nèi)容:
(1)讀者信息數(shù)據(jù):主要包括讀者證件號(hào)、姓名、性別、專業(yè)、班級(jí)、院系、讀者類型、聯(lián)系方式等。
(2)流通借閱數(shù)據(jù):主要包括借閱記錄號(hào)、書(shū)名、索書(shū)號(hào)、讀者證件號(hào)、借閱時(shí)間、歸還時(shí)間等。這部分信息是利用數(shù)據(jù)挖掘技術(shù)獲取圖書(shū)館文獻(xiàn)利用狀況的關(guān)鍵,通過(guò)對(duì)它們的統(tǒng)計(jì)、歸類、分析有助于了解書(shū)刊的使用情況并對(duì)讀者需求進(jìn)行挖掘和預(yù)測(cè)分析。
(3)文獻(xiàn)檢索記錄:其主要內(nèi)容包括讀者證件號(hào)、檢索字段、檢索時(shí)間等。這部分?jǐn)?shù)據(jù)能很好地反映檢索者的需求和借閱傾向,非常有助于對(duì)讀者需求的挖掘。
(4)館藏圖書(shū)數(shù)據(jù):主要包括書(shū)名、索書(shū)號(hào)、館藏位置、作者、出版社、出版日期、購(gòu)入日期等。
3.2.2 數(shù)據(jù)預(yù)處理
由于原始數(shù)據(jù)是從圖書(shū)館自動(dòng)化系統(tǒng)數(shù)據(jù)庫(kù)導(dǎo)出,一般都會(huì)存在大量的含有噪聲、不完整甚至是不一致的數(shù)據(jù)。因此,必須對(duì)數(shù)據(jù)挖掘所涉及的數(shù)據(jù)對(duì)象進(jìn)行預(yù)處理,以提高數(shù)據(jù)挖掘效率和所獲模式知識(shí)質(zhì)量。
按照數(shù)據(jù)挖掘理論,數(shù)據(jù)預(yù)處理主要包括:數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)消減。數(shù)據(jù)清洗主要是對(duì)原始數(shù)據(jù)填補(bǔ)遺漏數(shù)據(jù)、消除異常數(shù)據(jù)、平滑噪聲數(shù)據(jù),以糾正不一致的數(shù)據(jù)。數(shù)據(jù)集成是將來(lái)自多個(gè)數(shù)據(jù)源的數(shù)據(jù),結(jié)合在一起并形成一個(gè)統(tǒng)一數(shù)據(jù)集合。數(shù)據(jù)轉(zhuǎn)換是將數(shù)據(jù)轉(zhuǎn)換或歸并以構(gòu)成適合數(shù)據(jù)挖掘的形式。數(shù)據(jù)消減用于將數(shù)據(jù)集合進(jìn)行精簡(jiǎn),精簡(jiǎn)結(jié)果數(shù)據(jù)集保持原有的數(shù)據(jù)集的完整性,但挖掘效率更高,且挖掘出的結(jié)果與使用原數(shù)據(jù)集的結(jié)果基本相同。
具體地,在對(duì)3.2.1中收集到的原始數(shù)據(jù)集合進(jìn)行數(shù)據(jù)預(yù)處理的過(guò)程中,首先是對(duì)收集到的數(shù)據(jù)檢查完整性及數(shù)一致性、去除噪聲、刪除無(wú)效數(shù)據(jù)、填補(bǔ)丟失的域、去除空白數(shù)據(jù)域、考慮時(shí)間順序和數(shù)據(jù)變化,如果發(fā)現(xiàn)原始數(shù)據(jù)記錄中某些屬性值為空,如讀者類型或?qū)I(yè)等,可以對(duì)其進(jìn)行遺漏處理。發(fā)現(xiàn)某些數(shù)據(jù)值出現(xiàn)不一致或隨機(jī)錯(cuò)誤時(shí),可以通過(guò)手工或其他方式加以糾正。根據(jù)挖掘需求,可將部分屬性取值進(jìn)行泛化處理,如將年齡屬性可泛化映射成:青年、中年、老年,專業(yè)可泛化為:文、理、工、管、法等。由于分析單一讀者的需求意義并不大,讀者類型可分為本科生、研究生、教師、教輔等類別,分析不同類型讀者的需求特征會(huì)更有意義。為了數(shù)據(jù)挖掘的需要,還可以進(jìn)行屬性構(gòu)造,即根據(jù)已有屬性集來(lái)構(gòu)造新的屬性,如構(gòu)造“外借次數(shù)”屬性,其值可通過(guò)“借書(shū)日期”、“還書(shū)日期”導(dǎo)出。構(gòu)造“借出時(shí)間”屬性,其值可由“借書(shū)日期”、“還書(shū)日期”方便地導(dǎo)出。對(duì)某些數(shù)據(jù)可以進(jìn)行統(tǒng)計(jì)、匯總處理來(lái)構(gòu)造新屬性,如可以累計(jì)各類圖書(shū)的總冊(cè)數(shù)來(lái)反映不同類圖書(shū)在館藏中的比例關(guān)系。為找到數(shù)據(jù)的特征,可用維變換或轉(zhuǎn)換方法減少無(wú)效變量的數(shù)目,可刪除一些與挖掘任務(wù)無(wú)關(guān)的屬性,比如證件號(hào)、姓名、聯(lián)系方式等。通過(guò)一系列的數(shù)據(jù)預(yù)處理工作,可以為下一步的數(shù)據(jù)挖掘過(guò)程提供良好的數(shù)據(jù)基礎(chǔ),做好前期準(zhǔn)備。
3.2.3 數(shù)據(jù)挖掘
這一過(guò)程建立在經(jīng)過(guò)數(shù)據(jù)預(yù)處理之后的數(shù)據(jù)集合之上,數(shù)據(jù)集合中有大量的數(shù)據(jù),蘊(yùn)藏著一些潛在的規(guī)則和知識(shí),可以利用關(guān)聯(lián)分析、聚類分析等各種分析方法加以發(fā)現(xiàn)。通過(guò)對(duì)讀者信息與圖書(shū)借閱信息之間的聯(lián)系進(jìn)行關(guān)聯(lián)性分析,可以了解某類讀者和某類圖書(shū)之間的關(guān)聯(lián)度。挖掘文獻(xiàn)頻繁借閱和檢索以及續(xù)借圖書(shū)情況,可得出哪些類別圖書(shū)讀者比較感興趣。通過(guò)對(duì)借閱者借書(shū)信息的聚類分析,可分析出不同年齡段的人的借閱傾向。通過(guò)對(duì)還書(shū)時(shí)間的分析,了解讀者對(duì)所借書(shū)的態(tài)度等等,還可以得出在不同時(shí)期流通較活躍的圖書(shū)分類等等。
3.2.4 結(jié)果分析和制訂采購(gòu)計(jì)劃
利用數(shù)據(jù)挖掘技術(shù),可以獲得讀者借閱、檢索頻率較高的圖書(shū)信息,或缺書(shū)比例較大的圖書(shū)以及讀者借閱傾向、關(guān)注重點(diǎn)等信息,有助于科學(xué)分析各類文獻(xiàn)的利用率和需求情況,為采購(gòu)文獻(xiàn)提供科學(xué)合理的各種分析報(bào)告及預(yù)測(cè)信息,從而指導(dǎo)采購(gòu)人員對(duì)文獻(xiàn)種類進(jìn)行科學(xué)地篩選,制訂科學(xué)的采購(gòu)計(jì)劃,合理地確定各種文獻(xiàn)所需的復(fù)本量,及時(shí)補(bǔ)充短缺的文獻(xiàn),剔除過(guò)時(shí)的文獻(xiàn),從而保障圖書(shū)館信息資源體系的科學(xué)性和合理性。
4 結(jié) 語(yǔ)
綜上所述,把數(shù)據(jù)挖掘技術(shù)用于高校圖書(shū)館圖書(shū)采購(gòu)計(jì)劃的制訂,是挖掘高校圖書(shū)館信息技術(shù)應(yīng)用潛力、提高管理水平和讀者服務(wù)水平的有益探索,必將有效地改進(jìn)圖書(shū)采購(gòu)工作水平,使高校圖書(shū)館更好地服務(wù)于全校師生。
參考文獻(xiàn)
[1]資蕓,李一鵬.基于數(shù)據(jù)倉(cāng)庫(kù)的高校圖書(shū)館圖書(shū)采訪決策系統(tǒng)研究[J].新世紀(jì)圖書(shū)館,2006,(4):12-14.
[2]金建旺,施國(guó)生.基于數(shù)據(jù)倉(cāng)庫(kù)的圖書(shū)館采購(gòu)決策研究[J].浙江理工大學(xué)學(xué)報(bào),2008,(2):191-194.
[3]蘇新寧.數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘[M].北京:清華大學(xué)出版社,2006.
[4]彭木根.數(shù)據(jù)倉(cāng)庫(kù)技術(shù)與實(shí)現(xiàn)[M].北京:電子工業(yè)出版社,2002.
[5]張存祿,等.數(shù)據(jù)挖掘在圖書(shū)采購(gòu)中的應(yīng)用[J].情報(bào)科學(xué),2004,(5):284-286.
[6]龔宇花,刑耐生.數(shù)據(jù)挖掘技術(shù)在高校數(shù)字化圖書(shū)館中的應(yīng)用[J].電腦知識(shí)與技術(shù),2008,(7):1547-1548,1557.
[7]郭佳慧.數(shù)據(jù)挖掘技術(shù)在數(shù)字圖書(shū)館中的實(shí)現(xiàn)[J].農(nóng)業(yè)圖書(shū)情報(bào)學(xué)刊,2008,(9):36-38.
[8]朱明.數(shù)據(jù)挖掘[M].合肥:中國(guó)科學(xué)技術(shù)大學(xué)出版社,2002.
[9]Jiawei Han,Micheline Kamber.Data Mining:Concepts and techniques.Morgan Kaufmann Publishers,Inc.2001.