劉承真
(臨沂報(bào)業(yè)集團(tuán),山東 臨沂 276004)
隨著高等教育事業(yè)的發(fā)展,各大高校出現(xiàn)多校區(qū)辦學(xué)的局面,各種教育資源的共享成為高校基礎(chǔ)建設(shè)的重要工作,其中圖書資源優(yōu)化配置是研究應(yīng)用的一個(gè)關(guān)鍵問題。目前各高校都在使用圖書管理系統(tǒng),每天能產(chǎn)生大量的統(tǒng)計(jì)數(shù)據(jù)和表單,合理分析這些海量數(shù)據(jù)對(duì)圖書館的采購、館藏、咨詢等業(yè)務(wù)都有指導(dǎo)作用[1,2]。
由于當(dāng)前圖書管理系統(tǒng)無法發(fā)現(xiàn)隱藏在海量數(shù)據(jù)中的知識(shí),對(duì)讀者的需求信息不能預(yù)測,因此無法對(duì)多校區(qū)的圖書館藏結(jié)構(gòu)和館間分布進(jìn)行合理優(yōu)化。筆者主要是應(yīng)用數(shù)據(jù)挖掘技術(shù)分析圖書館管理系統(tǒng)中的數(shù)據(jù),尋找讀者的需求信息,然后提供給圖書館部署管理系統(tǒng)作為決策的依據(jù)。主要貢獻(xiàn)是合理地分析歷史數(shù)據(jù),應(yīng)用數(shù)據(jù)挖掘中的重要算法開發(fā)了可實(shí)際運(yùn)行的決策支持系統(tǒng),該系統(tǒng)對(duì)每批新書上架都能提供較合理的指導(dǎo)依據(jù)。這對(duì)優(yōu)化配置多校區(qū)的圖書資源產(chǎn)生了較大收益。
圖書部署決策系統(tǒng)主要模塊如圖1所示。讀者庫是指最原始的數(shù)據(jù)集合,包括讀者信息、借閱日志及書目信息。除此之外還要包括校區(qū)劃分及院系的信息。該數(shù)據(jù)庫主要從圖書自動(dòng)化管理系統(tǒng)中導(dǎo)入,本系統(tǒng)中應(yīng)用Oracle9.0。預(yù)處理模塊對(duì)原始數(shù)據(jù)集進(jìn)行處理。主要任務(wù)是刪除冗余數(shù)據(jù),簡化數(shù)據(jù)表中的屬性,合并數(shù)據(jù)表。數(shù)據(jù)挖掘模塊的主要任務(wù)就是利用相應(yīng)的挖掘算法尋找未知知識(shí),對(duì)隱藏在海量數(shù)據(jù)中的讀者需求信息進(jìn)行捕獲,為更好地部署圖書資源提供支撐。該模塊采用面向?qū)ο蟮脑O(shè)計(jì)思想,盡量降低系統(tǒng)的控制耦合度,便于對(duì)算法的更新維護(hù)。核心管理模塊的任務(wù)是對(duì)其他子模塊發(fā)出控制命令,如圖1虛線所示。比如啟動(dòng)預(yù)處理模塊讀取原始數(shù)據(jù);調(diào)用數(shù)據(jù)挖掘模塊發(fā)現(xiàn)未知讀者需求信息等。圖書部署策略創(chuàng)建模塊利用數(shù)據(jù)挖掘提供的規(guī)則和已有的先驗(yàn)知識(shí)對(duì)圖書的上架及館藏的調(diào)整提出相應(yīng)的決策支持。目前系統(tǒng)主要提供了兩種常用的決策支持應(yīng)用。首先是新書上架功能,當(dāng)購入新書后,只需根據(jù)圖書的種類便能提供在哪個(gè)校區(qū)上架及上架數(shù)量;其次是定期對(duì)借閱頻繁的圖書進(jìn)行一次調(diào)整,逐漸優(yōu)化館藏圖書結(jié)構(gòu)來解決大學(xué)生跨校區(qū)借閱的現(xiàn)象。
高校圖書館信息系統(tǒng)只是普通的信息管理系統(tǒng),并沒有智能決策功能,該系統(tǒng)每日都將產(chǎn)生大量的業(yè)務(wù)數(shù)據(jù)。其中包括讀者基本信息、書目信息和流通信息。筆者在此以山東臨沂師范學(xué)院圖書自動(dòng)化系統(tǒng)為例。讀者基本信息取自讀者表,讀者借書記錄來自流通日志表。利用讀者條碼信息對(duì)以上各表數(shù)據(jù)進(jìn)行合并。讀者借閱歷史數(shù)據(jù)庫為R={D1,D2,…,Dn}。其中Di記錄了讀者對(duì)圖書的借閱信息,Di={IDi,S1,S2,…,Sm},IDi為讀者條碼標(biāo)識(shí),Si(1<=i<=m)記錄了讀者的借閱信息。Si中包括讀者類別、所屬單位、圖書條碼、館藏地、圖書類別等。
對(duì)于原始的數(shù)據(jù)首先進(jìn)行冗余數(shù)據(jù)和無效數(shù)據(jù)的刪除。因?yàn)樯婕暗淖x者表和流通日志數(shù)據(jù)結(jié)構(gòu)比較龐大,有47個(gè)相關(guān)屬性。根據(jù)數(shù)據(jù)規(guī)約與概化原則刪除不相關(guān)或冗余屬性。比如刪除讀者姓名、聯(lián)系電話等屬性;對(duì)于辦證時(shí)間和證件有效期則概念化為讀者類型;對(duì)于書目信息刪除出版時(shí)間、出版社等無關(guān)屬性,只保留類別、價(jià)格、所屬校區(qū)等相關(guān)屬性。
數(shù)據(jù)預(yù)處理要解決的另一個(gè)問題是增加讀者所屬校區(qū)的信息。高校圖書管理系統(tǒng)中因?yàn)椴捎媒y(tǒng)一的數(shù)據(jù)庫系統(tǒng),所以并未在流通記錄中體現(xiàn)讀者來自哪個(gè)校區(qū)。現(xiàn)實(shí)中存在跨校區(qū)借閱的現(xiàn)象,為了將這種信息保存到數(shù)據(jù)庫中,根據(jù)讀者所屬的單位添加讀者所屬校區(qū)這個(gè)屬性。根據(jù)高校院系與校區(qū)的對(duì)應(yīng)關(guān)系對(duì)全部讀者借書記錄進(jìn)行自動(dòng)追加,有利于數(shù)據(jù)挖掘的準(zhǔn)確性,便于對(duì)圖書部署作出正確決策。
在該系統(tǒng)中主要應(yīng)用兩種基本的數(shù)據(jù)挖掘技術(shù)。對(duì)于新書分配相應(yīng)校區(qū)及上架數(shù)量比例的任務(wù)使用決策樹方法[3]。決策樹方法是分類發(fā)現(xiàn)算法中最常用的一種方法,適合探索式知識(shí)發(fā)現(xiàn)。首先對(duì)數(shù)據(jù)進(jìn)行處理,利用歸納算法生成可讀的規(guī)則和決策樹,然后利用這些規(guī)則對(duì)新數(shù)據(jù)進(jìn)行分類預(yù)測[4]。在此要對(duì)典型的決策樹分類算法做一些調(diào)整來解決新書上架比例的問題。
例如新近一批美術(shù)類圖書,位于東校區(qū)美術(shù)學(xué)院的大部分學(xué)生需要借閱這些專業(yè)性強(qiáng)的圖書。而位于主校區(qū)的信息學(xué)院動(dòng)漫專業(yè)的學(xué)生也有相應(yīng)的需求,如果將此類圖書全部放入東校區(qū),必然出現(xiàn)小批量動(dòng)漫專業(yè)的大學(xué)生跨校區(qū)借閱現(xiàn)象,導(dǎo)致圖書資源共享效果差。如果只是簡單將該批圖書平分投放在主校區(qū)和東校區(qū),必然出現(xiàn)東校區(qū)圖書借閱緊張而主校區(qū)空閑的狀態(tài)。為解決這個(gè)問題,對(duì)每本圖書必須分配適當(dāng)?shù)母北敬娣庞诓煌^(qū)的圖書館中。技術(shù)上使用數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則中的支持度S=(x?y)=T(X∪Y)/。 T(X∪Y)數(shù)據(jù)集中包括X∪Y的事務(wù)數(shù);T表示數(shù)據(jù)集中的事務(wù)總數(shù)。將決策樹進(jìn)行廣度優(yōu)先搜索,對(duì)每個(gè)葉子節(jié)點(diǎn),求出從根節(jié)點(diǎn)到該葉子節(jié)點(diǎn)的路徑。該路徑上所有節(jié)點(diǎn)的劃分條件并為一類,為每個(gè)節(jié)點(diǎn)創(chuàng)建IF…Then的分類規(guī)則。然后對(duì)每條分類規(guī)則增加支持度,例如為解決上面的實(shí)際問題,創(chuàng)建了一條分類規(guī)則。Rule1:IF美術(shù)類圖書Then東校區(qū),Suppor(t Rule1)=0.63。那么如果一本圖書購進(jìn)10個(gè)副本,則向東校區(qū)發(fā)放7本,其余發(fā)放于主校區(qū)。具體修改后的決策樹算法如下:
算法1
①創(chuàng)建一棵空樹及訓(xùn)練樣本屬性表;
②若訓(xùn)練數(shù)據(jù)集T中的所有元素都屬于同一類,則創(chuàng)建節(jié)點(diǎn)T,并終止該算法;
③選擇訓(xùn)練樣本屬性表中館藏地點(diǎn)屬性A作為結(jié)果屬性,再根據(jù)隨機(jī)策略從樣本表中選擇測試屬性B;
④如果B的取值為V1,V2,…,Vm,則根據(jù)B的取值不同,將T劃分為m個(gè)子集T1,T2,…,Tm;
⑤從訓(xùn)練樣本屬性表中刪除屬性B;
⑥調(diào)整②,對(duì)每個(gè)子集遞歸調(diào)用;
⑦生成決策樹DT;
⑧對(duì)DT進(jìn)行廣度優(yōu)先搜索;
⑨為每個(gè)葉子節(jié)點(diǎn)求出根節(jié)點(diǎn)到葉節(jié)點(diǎn)的路徑;
⑩歸并此路徑上的劃分條件,生成一條規(guī)則Ri;
?循環(huán)執(zhí)行⑨~⑩,直到處理完全部葉子節(jié)點(diǎn)。
另外一個(gè)需要用數(shù)據(jù)挖掘解決的問題是對(duì)專業(yè)性不強(qiáng)的圖書部署問題。比如說應(yīng)試類圖書,考研、公務(wù)員考試、公共英語、公共計(jì)算機(jī)考試等。對(duì)于該問題按照校區(qū)進(jìn)行聚類,類間差別盡可能大,類內(nèi)差別盡可能小。因?yàn)樾^(qū)的劃分每學(xué)年要進(jìn)行調(diào)整,因此與分類模式不同,聚類前并不知道劃分為幾類和什么樣的類,屬于無導(dǎo)師學(xué)習(xí)。
①根據(jù)校區(qū)取定C=5及終止條件δ;初始化聚類中心V0;逐步迭代;
②對(duì)于V1,修正U1;
④用一個(gè)矩陣比較Vl與Vl+1,對(duì)于取定的ε>0,若Vl+1-Vl≤ε,則停止迭代,否則l=l+1,轉(zhuǎn)②。
圖書部署模塊主要是根據(jù)數(shù)據(jù)挖掘模塊提供的分類規(guī)則對(duì)圖書進(jìn)行分類,將其調(diào)整到分校區(qū)的館藏中。其算法如下:
①讀取要分類的圖書信息及分類規(guī)則庫;
②根據(jù)分類圖書中的測試屬性遍歷規(guī)則庫;
③如果存在對(duì)應(yīng)規(guī)則,則提取該規(guī)則;
④如果存在多條規(guī)則,進(jìn)行規(guī)則合并;
⑤計(jì)算規(guī)則的支持度后,執(zhí)行該規(guī)則;
⑥輸出部署決策知識(shí)。
對(duì)于不具有明顯分類標(biāo)準(zhǔn)的圖書或者是綜合類圖書則根據(jù)算法2按校區(qū)進(jìn)行聚類分析,得出相應(yīng)的部署決策信息。
該系統(tǒng)運(yùn)行后,首先對(duì)借閱量前5000次的圖書進(jìn)行了館藏調(diào)整。為了驗(yàn)證該系統(tǒng)的有效性,設(shè)計(jì)了如下驗(yàn)證方案:選擇借閱量排名前500名的圖書,統(tǒng)計(jì)歷史數(shù)據(jù)庫中每本圖書的月借閱次數(shù),然后將其平均值定義為借閱率。即借閱率=借閱次數(shù)/月 500。首先統(tǒng)計(jì)2008年歷史數(shù)據(jù)庫中未使用該系統(tǒng)前的圖書借閱率信息,如圖2所標(biāo)定的歷史借閱率。然后統(tǒng)計(jì)2009年一年時(shí)間里這些圖書的借閱率,如圖2所示的當(dāng)前借閱率。
通過圖2可以發(fā)現(xiàn)當(dāng)前借閱率比歷史借閱率有了較大提高,因此可證明啟用圖書部署系統(tǒng)后優(yōu)化了圖書資源。圖2中3月、4月、5月、6月、9月、10月、11月均為學(xué)期的主要學(xué)習(xí)階段,借閱率提高比較明顯;而1月、2月、7月、8月、12月均為學(xué)期的考試階段和寒暑假前后,借閱率提高不明顯。這種現(xiàn)象與實(shí)際情況吻合,因?yàn)榭荚嚽按髮W(xué)生對(duì)于需要的圖書無論在哪個(gè)校區(qū)都設(shè)法去借閱,而寒暑假前后大學(xué)生有充足的時(shí)間去各校區(qū)借閱圖書。
現(xiàn)代圖書管理系統(tǒng)每天都會(huì)產(chǎn)生海量信息數(shù)據(jù),這些數(shù)據(jù)日積月累成為了數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)的寶貴資源。應(yīng)當(dāng)積極地利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)讀者的潛在需求,用于指導(dǎo)圖書館的采購、館藏和信息咨詢等業(yè)務(wù)工作。筆者重點(diǎn)研究了圖書的按校區(qū)分類、聚類問題,通過開發(fā)新的決策支持系統(tǒng)來調(diào)整高校各校區(qū)的圖書部署問題。經(jīng)過實(shí)踐驗(yàn)證取得了較好的效果,提高了大學(xué)生對(duì)圖書資源的利用率,優(yōu)化了學(xué)校教育資源。由于該系統(tǒng)采用面向?qū)ο笏枷朐O(shè)計(jì),各算法模塊間呈松耦合狀態(tài),因此具有較好的可擴(kuò)展性。下一步的應(yīng)用是通過讀者對(duì)某類圖書的借閱數(shù)據(jù)及文獻(xiàn)的查詢數(shù)據(jù)預(yù)測圖書采購,對(duì)圖書采購的投入產(chǎn)出進(jìn)行優(yōu)化。
[1] 魏育輝,潘潔.圖書流通數(shù)據(jù)的關(guān)聯(lián)挖掘量化分析方法[J].現(xiàn)代情報(bào),2005(11):108-110.
[2] 司徒浩臻.數(shù)據(jù)挖掘技術(shù)在圖書館信息服務(wù)中的應(yīng)用[J].現(xiàn)代圖書情報(bào)技術(shù),2005(10):15-18.
[3]Han Jiawei,KamberMicheline.數(shù)據(jù)挖掘——概念與技術(shù)[M].范明,孟小峰譯.北京:機(jī)械工業(yè)出版社,2007.
[4] 馬秀紅,宋建社,董晟飛.數(shù)據(jù)挖掘中決策樹的探討[J].計(jì)算機(jī)工程與應(yīng)用,2004(1):185,214.
[5] 范九倫,裴繼紅,謝維信.聚類有效性函數(shù):熵公式[J].模糊系統(tǒng)與數(shù)學(xué),1998(3).
[6] 姚清耘.基于向量空間模型的中文文本聚類方法的研究[D].上海:上海交通大學(xué),2008.
[7] 孫學(xué)剛,陳群秀,馬亮.基于主題的Web文檔聚類研究[J].中文信息學(xué)報(bào),2003(3):12-16.