王興宏
(阜陽幼兒師范高等??茖W(xué)校,安徽 阜陽 236015)
隨著互聯(lián)網(wǎng)技術(shù)和計(jì)算機(jī)技術(shù)的快速發(fā)展,現(xiàn)代圖書館成為一個(gè)復(fù)合型圖書館,既有傳統(tǒng)的紙質(zhì)圖書,也有電子圖書,讀者既可以在線訪問數(shù)字圖書館,也可以到圖書館借閱圖書。傳統(tǒng)圖書館計(jì)算機(jī)服務(wù)系統(tǒng)只能為讀者提供較為簡(jiǎn)單的查詢功能,所能提供的信息較為有限,無法滿足讀者的日益多樣化需求[1-2]。同時(shí),圖書館系統(tǒng)所存儲(chǔ)的大量借閱信息,無法得到最大限度利用,造成數(shù)據(jù)信息資源的浪費(fèi),因此如何準(zhǔn)確高效地利用讀者的習(xí)慣、偏好、使用行為和讀者特定需求[3],為讀者提供個(gè)性化服務(wù),開發(fā)一款具有數(shù)據(jù)挖掘功能的圖書信息管理系統(tǒng)具有重要的理論價(jià)值和實(shí)際意義。
所謂數(shù)據(jù)挖掘[4](Data Ming,DM)一般是指從大量的、有噪聲的、不完全的、隨機(jī)的、模糊的海量數(shù)據(jù)集中發(fā)掘潛在有用的、有效的、新穎的信息過程。通過數(shù)據(jù)挖掘可以發(fā)現(xiàn)有價(jià)值的信息或規(guī)律,為用戶提供新的知識(shí)和有價(jià)值的信息和規(guī)律。
選擇某高等學(xué)校圖書管理系統(tǒng)為研究對(duì)象,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于原有的圖書管理系統(tǒng),通過數(shù)據(jù)挖掘技術(shù),可以分析讀者或用戶的各種需求,主動(dòng)為讀者或者用戶提供個(gè)性化推薦服務(wù)。通過研究和分析,基于數(shù)據(jù)挖掘的圖書信息管理系統(tǒng)的主要需求如下:
由于圖書借閱過程中存在許多關(guān)聯(lián)性,因此對(duì)借閱過程進(jìn)行關(guān)聯(lián)性分析,可以有效掌握讀者或者用戶的借閱規(guī)律,圖書館可以改變自己的服務(wù)方式,由原來的被動(dòng)服務(wù)變?yōu)橹鲃?dòng)服務(wù),主動(dòng)為讀者或者用戶推薦相關(guān)聯(lián)的圖書,為讀者或用戶提供更好的服務(wù)。
通過對(duì)圖書歷史借閱數(shù)據(jù)進(jìn)行聚類分析,可以了解不同圖書的受歡迎程度和圖書的借閱使用情況,在此基礎(chǔ)上,對(duì)館藏圖書進(jìn)行合理優(yōu)化配置,為圖書的訂閱和采購提供決策依據(jù)。
根據(jù)圖書的關(guān)聯(lián)性分析[5]和聚類分析[6]結(jié)果,根據(jù)讀者的個(gè)人偏好、習(xí)慣等主動(dòng)為讀者或用戶提供圖書推薦等個(gè)性化服務(wù)。
在系統(tǒng)需求分析的基礎(chǔ)上,基于數(shù)據(jù)挖掘的圖書信息管理系統(tǒng)需要實(shí)現(xiàn)如下功能:1)數(shù)據(jù)挖掘功能:根據(jù)歷史借閱數(shù)據(jù),進(jìn)行關(guān)聯(lián)分析和聚類分析,發(fā)掘圖書借閱的潛在規(guī)律;2)提供服務(wù):根據(jù)數(shù)據(jù)挖掘結(jié)果,根據(jù)讀者的偏好、個(gè)人習(xí)慣等,提供個(gè)性化推薦服務(wù)。系統(tǒng)模塊圖如圖1所示。
圖1 系統(tǒng)模塊圖
由于原始的歷史圖書借閱數(shù)據(jù)中存在大量噪聲、不完整信息,因此數(shù)據(jù)挖掘處理之前需對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,剔除無用信息,提高數(shù)據(jù)的質(zhì)量,為后續(xù)數(shù)據(jù)挖掘奠定良好的基礎(chǔ)[7]。首先從數(shù)據(jù)庫中讀取需要預(yù)處理的歷史借閱數(shù)據(jù);之后,根據(jù)借閱信息(包括借書日期、還書日期、續(xù)借次數(shù)、借閱規(guī)則和書籍分類)進(jìn)行預(yù)處理,涉及刪除無用屬性、填充空值、規(guī)范字段等。
圖2 數(shù)據(jù)預(yù)處理模塊
數(shù)據(jù)挖掘模塊主要包括關(guān)聯(lián)規(guī)則分析和聚類分析,關(guān)聯(lián)分析主要目的是掌握讀者或者用戶的借閱規(guī)律。圖書館可以改變自己的服務(wù)方式,由原來的被動(dòng)服務(wù)變成主動(dòng)服務(wù),主動(dòng)為讀者或者用戶推薦相關(guān)聯(lián)的圖書,為讀者或用戶提供更好的服務(wù),關(guān)聯(lián)規(guī)則模塊如圖3所示。
圖3 關(guān)聯(lián)規(guī)則挖掘模塊
聚類分析的目的是了解不同圖書的受歡迎程度和圖書的借閱使用情況,在此基礎(chǔ)上,對(duì)館藏圖書進(jìn)行合理優(yōu)化配置,為圖書的訂閱和采購提供決策依據(jù),聚類分析模塊如圖4所示。
圖4 聚類分析模塊
圖5 圖書推薦模塊
根據(jù)圖書的關(guān)聯(lián)性分析和聚類分析結(jié)果,根據(jù)讀者的個(gè)人偏好、習(xí)慣等主動(dòng)為讀者或用戶提供圖書推薦等個(gè)性化服務(wù)。推薦信息包括圖書的條碼、題名、作者、出版社、出版日期、ISBN和索引號(hào)等信息,同時(shí)包括相關(guān)圖書推薦,服務(wù)推薦模塊如圖5所示。
選擇某高等學(xué)校2008年圖書館借閱歷史數(shù)據(jù)為研究對(duì)象[8-9],圖書館圖書分類統(tǒng)計(jì)結(jié)果如圖6所示。全年共412715條記錄,其中借閱信息包括借書日期、還書日期、續(xù)借次數(shù)、借閱規(guī)則和書籍分類等。
圖6 圖書分類統(tǒng)計(jì)圖
4.2結(jié)果分析
為了便于數(shù)據(jù)分析,用實(shí)際分類名稱代替中圖分類號(hào),為了獲取更多有用的信息,將藏書量信息也作為數(shù)據(jù)挖掘因素[10-12]??紤]該校師生比約為1:10,為了得到學(xué)生和老師之間的不同借閱規(guī)律,將學(xué)生和老師的借閱情況進(jìn)行分類顯示,分別如圖7和圖8所示。
圖7 學(xué)生借閱信息挖掘結(jié)果圖
圖8 教師借閱信息挖掘結(jié)果圖
通過圖書借閱信息可以發(fā)掘如下規(guī)律:1)教師借閱量與藏書量基本平衡,而學(xué)生借閱量較為不均衡,主要集中于文學(xué)、史地、哲學(xué)、教育、外文等文科類書籍。2)文學(xué)、歷史地理、軍事等書籍借閱量大,流通的速度快,借期時(shí)間最短,說明這類書籍對(duì)讀者的吸引力大,閱讀時(shí)間快,讀完之后還有繼續(xù)閱讀該類書籍的興趣,該類書籍是圖書借閱的主要對(duì)象。3)理工科類書籍的借閱量普遍不高,借閱時(shí)間很長(zhǎng),可能是該類書籍的專業(yè)性太強(qiáng),需耗費(fèi)較多時(shí)間研讀。
針對(duì)傳統(tǒng)圖書館計(jì)算機(jī)服務(wù)系統(tǒng)只能為讀者提供較為簡(jiǎn)單的查詢功能,所能提供的信息較為有限,無法滿足讀者的日益多樣化需求。根據(jù)歷史借閱數(shù)據(jù)、讀者的習(xí)慣、偏好、使用行為和讀者特定需求,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于傳統(tǒng)圖書管理系統(tǒng),提出一種基于數(shù)據(jù)挖掘的圖書信息管理系統(tǒng),通過關(guān)聯(lián)和聚類分析,實(shí)現(xiàn)圖書的合理化館藏和個(gè)性化推薦以及圖書資源的合理化配置。
安陽師范學(xué)院學(xué)報(bào)2019年2期