白晗
摘 要 用關(guān)聯(lián)規(guī)則算法對讀者借書數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,在挖掘結(jié)果中進(jìn)行讀者行為分析,并在此基礎(chǔ)上闡述數(shù)據(jù)挖掘結(jié)果對圖書館決策及服務(wù)的啟示。
關(guān)鍵詞 數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;讀者行為分析;Apriori算法
中圖分類號:G252 文獻(xiàn)標(biāo)識碼:B 文章編號:1671-489X(2013)03-0077-02
Application of Association Rules to Demand Analysis of Librarys Readers//Bai Han
Abstract In this paper, the author tells us how to realize the association rules algorithm to readers of data mining. Then the author analyse the results of mining and respectively expounds the data mining of library decision-making and service enlightenment.
Key words data mining; association rules; readers behavior analysis; Apriori algorithm
圖書館的服務(wù)對象是讀者,圖書館的各項(xiàng)工作也是圍繞讀者展開的,因此,工作人員需要盡可能地了解讀者的行為,并基于這些行為對圖書館工作進(jìn)行調(diào)整。圖書借閱是圖書館最傳統(tǒng)的職能之一,讀者與圖書館之間的交互最常用的功能就是圖書的借還。
關(guān)聯(lián)規(guī)則算法最典型的就是超市的購物籃分析,超市通過顧客購買商品的數(shù)據(jù),可以得出一些對于超市非常有用的信息,對超市的商品排架、宣傳等具有非常重要的意義。對于圖書館而言,這些信息一樣非常重要。本文借用購物籃分析原理,采用Apriori算法對讀者借閱行為進(jìn)行關(guān)聯(lián)挖掘分析。
1 Apriori算法
Apriori算法是迄今最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的關(guān)聯(lián)規(guī)則算法。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。
算法主要分成兩步:首先,找出數(shù)據(jù)中所有的頻繁項(xiàng)集,這些項(xiàng)集出現(xiàn)的頻繁性要大于或等于最小支持度;然后,由頻繁項(xiàng)集產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小支持度和最小置信度。算法的總體性能由第一步?jīng)Q定,第二步相對容易實(shí)現(xiàn)。
第一步主要是基于Apriori性質(zhì):頻繁項(xiàng)集的所有非空子集都必須也是頻繁的。因此,這一步主要由連接和剪枝兩個過程組成。
連接:頻繁項(xiàng)集Lk-1與自己連接產(chǎn)生候選k-項(xiàng)集的集合Ck。假定事務(wù)和項(xiàng)集都按字典次序排序。連接Lk-1Lk-1,Lk-1中的l1和l2項(xiàng)是可連接的,如果(l1[1]=l2[1])∧(l1[2]=l2[2])∧…∧(l1[k-2]=l2[k-2])∧(l1[k-1] 剪枝:若一個候選k-項(xiàng)集的(k-1)-子集不在Lk-1中,則該候選集不可能是頻繁的,可由Ck中刪除。Ck可存在hash-tree中。 第二步由頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則:對每個頻繁項(xiàng)集l,產(chǎn)生l的所有非空子集;對l的每個非空子集s,如果,則產(chǎn)生規(guī)則“s=>(l-s)”,min_conf是最小置信度。 2 數(shù)據(jù)準(zhǔn)備 數(shù)據(jù)挖掘應(yīng)該選擇多大的樣本比較合適,這是一個困擾很多數(shù)據(jù)挖掘從業(yè)者的問題。樣本數(shù)據(jù)量大,得出的關(guān)聯(lián)規(guī)則更具有普遍性,但是卻忽略了個性的特點(diǎn),而恰恰是這個個性化的內(nèi)容,才是本章數(shù)據(jù)挖掘結(jié)果的亮點(diǎn)所在。因此,本文選取北京師范大學(xué)珠海分校工程技術(shù)學(xué)院工業(yè)設(shè)計專業(yè)一個班級115名學(xué)生作為樣本。 ALEPH 500里對讀者流通有關(guān)的數(shù)據(jù)有z36(在借信息表)、z36h(借閱歷史表),通過SQL語句得出原始數(shù)據(jù),簡單處理后得到數(shù)據(jù)格式如下: B1018050002 J214 B1018050002 K837 B1018050005 TP39 B1018050006 I247 B1018050006 I247 B1018050007 TP39 B1018050007 B81 B1018050007 J214 B1018050007 TP39 ………… 因?yàn)殛P(guān)聯(lián)規(guī)則算法要求數(shù)據(jù)屬性間相互獨(dú)立,要構(gòu)建適合算法的數(shù)據(jù)模型,對數(shù)據(jù)進(jìn)行排序、篩選,得到的數(shù)據(jù)格式如表1所示(部分)。 3 結(jié)果分析 將最小支持度設(shè)為0.5,最小置信度設(shè)為0.9,最大置信度設(shè)為0.93,關(guān)聯(lián)規(guī)則數(shù)量設(shè)為5,通過計算得到結(jié)果如下: Best rules found: 1)B825=O13=74==>TS93=69 conf:(0.93) 2)B825=O172=72==>TP31=67 conf:(0.93) 3)J218=77==>TS93=71 conf:(0.92) 4)O172=75==>TP31=69 conf:(0.92) 5)TH12=72==>TP31=66 conf:(0.92) 從獲得的關(guān)聯(lián)規(guī)則,得出結(jié)論: 1)同時借閱B825(個人修養(yǎng))和O13(高等數(shù)學(xué))類圖書的學(xué)生,有93%的可能會關(guān)注TS93(工藝美術(shù)制品工業(yè))類的書; 2)同時借閱B825(個人修養(yǎng))和O172(微積分)類圖書的學(xué)生,有93%的可能會關(guān)注TP31(計算機(jī)軟件)類的書; 3)借閱J218(各種畫技法:按用途分)類圖書的學(xué)生,有92%的可能會關(guān)注TS93(工藝美術(shù)制品工業(yè))類圖書; 4)借閱O172(微積分)類圖書的學(xué)生,有92%的可能會關(guān)注TP31(計算機(jī)軟件)類圖書; 5)借閱TH12(機(jī)械設(shè)計、計算與制圖)類圖書的學(xué)生,有92%的可能會關(guān)注TP31(計算機(jī)軟件)類圖書。 4 小結(jié) 1)該專業(yè)學(xué)生較為關(guān)注個人修養(yǎng)及心理學(xué)(B8)、素描、速寫技法(J214)、數(shù)學(xué)(O1)、計算機(jī)軟件(TP31)、機(jī)械設(shè)計(TH12)類圖書,這些圖書類別與該專業(yè)的專業(yè)性質(zhì)有較強(qiáng)的關(guān)聯(lián)性,由此可見,讀者借書范圍仍局限在專業(yè)范圍內(nèi),對于課外閱讀涉獵較少。 2)通過數(shù)據(jù)挖掘的結(jié)果,得到一些有趣的發(fā)現(xiàn):讀者借書種類與所在專業(yè)直接相關(guān);學(xué)生更關(guān)注與課程表上課程相關(guān)的圖書;所得的關(guān)聯(lián)規(guī)則與學(xué)生的課程表直接相關(guān);設(shè)計類專業(yè)的學(xué)生會更關(guān)注個人修養(yǎng)類(B825)圖書;大一學(xué)生對英語類圖書的關(guān)注不及大二、大三的學(xué)生。 3)該專業(yè)學(xué)生借書數(shù)目最多的B825、J214、TP39、I247、TB47類圖書,而這幾類圖書因?yàn)閳D書館建筑結(jié)構(gòu)等原因,被分在3個不同的閱覽室,這樣該專業(yè)學(xué)生要想看到自己想要的書,就要跑3個不同的地方,這從根本上違背了阮岡納贊提出的圖書館五定律之一的“節(jié)省讀者的時間”。那么,如何改善這種狀況就成為北京師范大學(xué)珠海分校圖書館面臨的一個重要課題。 4)將數(shù)據(jù)挖掘的結(jié)果提供給本館負(fù)責(zé)該院的學(xué)科館員,能更有針對性和目的性地為讀者提供信息推送服務(wù),提高圖書館學(xué)科服務(wù)的質(zhì)量。 參考文獻(xiàn) [1]Han Jiawei, Kamber M.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2008:150-167. [2]Pyle D.業(yè)務(wù)建模與數(shù)據(jù)挖掘[M].北京:機(jī)械工業(yè)出版社,2005. [3]Soman K P, Diwakar S, Ajay V.數(shù)據(jù)挖掘基礎(chǔ)教程[M].北京:機(jī)械工業(yè)出版社,2009.