国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于圖書館借閱行為數(shù)據(jù)的關(guān)聯(lián)分析

2015-05-30 18:42張憲錄
2015年48期
關(guān)鍵詞:Apriori算法關(guān)聯(lián)規(guī)則

張憲錄

摘 要:本文主要介紹了關(guān)聯(lián)規(guī)則的基本概念和使用方法,并且對高校圖書館的借閱數(shù)據(jù)進行挖掘,獲得了圖書館之間的一些關(guān)聯(lián)規(guī)則以及學(xué)生借閱時的偏好,這些結(jié)果對于圖書館提高服務(wù)質(zhì)量提供了有力保障。

關(guān)鍵詞:關(guān)聯(lián)規(guī)則;借閱行為數(shù)據(jù);Apriori算法

目前,高校圖書館存儲了大量的讀者借閱圖書的信息,怎么分析借閱數(shù)據(jù)并將分析結(jié)果用于提升圖書館服務(wù)工作,這已經(jīng)成為圖書館工作人員不斷探索的問題。隨著數(shù)據(jù)挖掘技術(shù)應(yīng)用的不斷的拓展,圖書館可以利用數(shù)據(jù)挖掘技術(shù)挖掘出借閱數(shù)據(jù)背后的規(guī)律,本文主要介紹了關(guān)聯(lián)規(guī)則,主要使用Apriori算法分析高校圖書館借閱數(shù)據(jù)的關(guān)聯(lián)規(guī)則。

一、關(guān)聯(lián)規(guī)則

(一)關(guān)聯(lián)規(guī)則定義。在數(shù)據(jù)挖掘中,關(guān)聯(lián)分析主要使用的技術(shù)為關(guān)聯(lián)規(guī)則(Association Rule),其最早由Agrawal、Imielinski以及Swami提出,用來研究超市顧客所購買的商品之間的規(guī)律,目的是希望發(fā)現(xiàn)顧客經(jīng)常同時購買哪些商品,進而合理布局貨架,方便顧客選取。

關(guān)聯(lián)規(guī)則研究的主要對象就是事務(wù)數(shù)據(jù)庫,事務(wù)數(shù)據(jù)庫可以看做是I={i1,i2,L,im},是m個項集集合,其中ik{k=1,2,Lm}為數(shù)據(jù)項。事務(wù)T為I的一個子集。每個事務(wù)T都有一個唯一的TID作為其標識符,事務(wù)T的全體構(gòu)成了事務(wù)數(shù)據(jù)庫[31]。

設(shè)施XI數(shù)據(jù)項集,數(shù)據(jù)項集X的支持度(Support)定義為:

SX=|T(X)||T|

設(shè)X,YI為數(shù)據(jù)集,為了了解X的事務(wù)中包含Y事務(wù)的概率,從而引進了置信度(Confidence)概念,其表達式為:

CX→Y=|T(X∩Y)||T(X)|

雖然現(xiàn)有大量的關(guān)聯(lián)規(guī)則算法以及其改進算法,但是各種關(guān)聯(lián)規(guī)則的挖掘算法有相似的尋找規(guī)則的過程。關(guān)聯(lián)規(guī)則的生成基本可以分解為兩部分:第一部分是根據(jù)支持度找到頻繁集的過程;第二部分在第一步的基礎(chǔ)上,由置信度篩選出關(guān)聯(lián)規(guī)則的過程。

(二)Apriori算法。第一階段:是一種通過逐層迭代的方法尋找候選集C,然后根據(jù)支持度尋找出頻繁集L-項的集合。其初始候選集C1然后找出頻繁集L1,不斷的循環(huán)直到尋找出所有的頻繁集。

第二階段:是在所找到的頻繁集的基礎(chǔ)上,根據(jù)置信度的計算方法,遍歷尋找滿足大于等于最小置信度的關(guān)聯(lián)規(guī)則。

二、借閱行為的Apriori算法分析過程及結(jié)果

(一)數(shù)據(jù)預(yù)處理。實驗數(shù)據(jù)選取的是從2011年9月到2015年1月24號期間入學(xué)的讀者的借閱數(shù)據(jù)。數(shù)據(jù)字段包括學(xué)生學(xué)號、院系、借閱圖書編號、借閱日期、借閱時間,以及相應(yīng)字段對應(yīng)的數(shù)字編碼。

由于關(guān)聯(lián)所需數(shù)據(jù)選取的為所有借閱圖書讀者的信息,并且關(guān)聯(lián)所需字段為學(xué)生學(xué)號、圖書編號,因此將這三個字段從文本中提取出來,并進行舍棄缺失值處理,獲取完整的數(shù)據(jù)。然后對數(shù)據(jù)進行事務(wù)化處理,即每行代表一個讀者,每列代表借閱圖書的類別。

(二)Apriori算法分析結(jié)果。本文通過利用SPSS Modeler軟件實現(xiàn)Apriori算法,其中最小支持度設(shè)置為0.1,最小置信度設(shè)置為0.5,通過運行總共得出120條關(guān)聯(lián)規(guī)則。

表3-4 關(guān)聯(lián)規(guī)則結(jié)果表

ConsequentAntecedentSupport %Confidence %

常用外國語財政、金融19.57254.194

常用外國語財政、金融and經(jīng)濟計劃與管理10.97961.415

中國人物傳記各國人物傳記11.97750.712

……

心理學(xué)中國人物傳記and中國文學(xué)10.08951.126

挖掘出的關(guān)聯(lián)規(guī)則結(jié)果來分,可分為四大類:

(1)關(guān)聯(lián)規(guī)則結(jié)果為語言類。通過對關(guān)聯(lián)規(guī)則結(jié)果為語言類書籍的規(guī)則觀察,從關(guān)聯(lián)規(guī)則數(shù)量上可以看出涉及常用外國語的規(guī)則有39條,支持度在0.1到0.43之間,置信度在0.5到0.67之間。從數(shù)據(jù)背后反應(yīng)的問題看,發(fā)現(xiàn)讀者在借閱心理學(xué)、倫理學(xué)、社會學(xué)、經(jīng)濟學(xué)、貿(mào)易經(jīng)濟、財政、金融、經(jīng)濟計劃與管理、各國人物傳記、各國文學(xué)、世界文學(xué)、中國史、中國人物傳記、繪畫、管理學(xué)、計算技術(shù)、計算機技術(shù)等書籍或者這些書籍的某些組合時,都會以超過0.5的概率借閱常用外國語圖書。出現(xiàn)這種結(jié)果應(yīng)該在意料之中,由于英語作為大學(xué)生必修的基礎(chǔ)課程,在大學(xué)一、二年級學(xué)習(xí)中以及大四學(xué)生考研過程中都是很重要的一部分。因此不管什么專業(yè)的同學(xué)為了學(xué)好這門功課,都會在借閱本專業(yè)課程書籍或在借閱自己喜歡的書籍時,很大一部分學(xué)生會借閱英語類書籍。

(2)關(guān)聯(lián)規(guī)則結(jié)果為文學(xué)類。通過對關(guān)聯(lián)規(guī)則結(jié)果為文學(xué)類書籍的規(guī)則觀察,從數(shù)量上可以看出結(jié)果涉及文學(xué)類的規(guī)則的占62條,其中各國文學(xué)占18條,世界文學(xué)占7條,中國人物傳記占4條,中國文學(xué)占33條,支持度在0.1到0.43范圍,置信度在0.5到0.97范圍之間。從數(shù)據(jù)背后所反映的問題來看發(fā)現(xiàn)讀者在借閱世界文學(xué)、中國文學(xué)倫理學(xué)、心理學(xué)、常用外國語、計劃與管理、繪畫、各國人物傳記、中國史等書籍后都會以0.5以上的概率借閱各國文學(xué)。借閱各國文學(xué)、中國文學(xué)、中國傳記、各國文學(xué)、常用外國語的都會以0.5以上的概率借閱世界文學(xué)。借閱中國史、中國文學(xué)、各國人物傳記的都會以0.5以上的概率借閱中國人物傳記。借閱社會學(xué)、倫理學(xué)、心理學(xué)、管理學(xué)、財政、金融、貿(mào)易經(jīng)濟、經(jīng)濟學(xué)、世界文學(xué)、中國人物傳記、各國文學(xué)、中國史的都會以0.69以上的概率借閱中國文學(xué)書籍。由此也能看出中國文學(xué)書籍在大學(xué)生的受歡迎程度是最高的。這也反映了大學(xué)生在課余時間的一部分時間是花費在閱讀文學(xué)類書籍上。

(3)關(guān)聯(lián)規(guī)則結(jié)果為經(jīng)濟類。通過對關(guān)聯(lián)規(guī)則結(jié)果為經(jīng)濟類書籍的規(guī)則觀察,從數(shù)量上可以看出結(jié)果涉及文學(xué)類的規(guī)則的占12條,支持度在0.1到0.20范圍,置信度在0.5到0.63范圍之間。從數(shù)據(jù)背后所反映的問題來看發(fā)現(xiàn)讀者在借閱貿(mào)易經(jīng)濟、財政、金融、中國文學(xué)、心理學(xué)、常用外國語、倫理學(xué)、經(jīng)濟學(xué)等書籍或這些書籍的某幾個組合后會借閱經(jīng)濟計劃與管理。

(4)關(guān)聯(lián)規(guī)則結(jié)果為哲學(xué)、宗教類。通過對關(guān)聯(lián)規(guī)則結(jié)果為哲學(xué)類書籍的規(guī)則觀察,從數(shù)量上可以看出結(jié)果涉及文學(xué)類的規(guī)則的占8條,支持度在0.1到0.20范圍,置信度在0.5到0.6范圍之間。從數(shù)據(jù)背后所反映的問題來看發(fā)現(xiàn)讀者在借閱心理學(xué)、各國文學(xué)、中國文學(xué)后會以0.5的概率借閱倫理學(xué)。讀者在借閱倫理學(xué)、經(jīng)濟計劃與管理、常用外國語、中國文學(xué)、社會學(xué)、中國人物傳記、各國文學(xué)等書籍或這些書籍的某幾個組合后會以超過0.5的概率借閱心理學(xué)。

綜上所述,通過對關(guān)聯(lián)結(jié)果四大類的分析,可以看出文學(xué)類,語言類書籍產(chǎn)生關(guān)聯(lián)規(guī)則較多,說明讀者對于文學(xué)類、語言類圖書的喜歡,但是讀者對于專業(yè)課的借閱量太少。因此圖書館可以根據(jù)關(guān)聯(lián)規(guī)則(1)向讀者做一些圖書推薦;(2)將關(guān)聯(lián)強的圖書放在一個圖書室或鄰近圖書室方便讀者借閱,(3)向各個院系反應(yīng)讀者借閱圖書情況,建議各個學(xué)院鼓勵讀者借閱專業(yè)課程圖書,提高專業(yè)圖書的利用率。

三、結(jié)語

本文通過使用關(guān)聯(lián)規(guī)則挖掘出了讀者借閱數(shù)據(jù)的一些規(guī)律,對于提高圖書館的管理水平和服務(wù)水平提供了很大的幫助。針對Apriori算法在擴大候選集時,引起計算機I/O開銷增大問題,將是以后工作的重點。(作者單位:河北經(jīng)貿(mào)大學(xué))

參考文獻:

[1] Rakesh Agrawal;Tomasz Imieliński;Arun Swami.Mining association rules between sets of items in large databases[J].ACM SIGMOD Record.1993(No.2).

[2] Han J,Kamber M.Data Mining:Concepts and Techniques.2000

[3] 薛薇,陳歡歌.數(shù)據(jù)挖掘方法及應(yīng)用[M].北京:電子工業(yè)出版社2014.1。

猜你喜歡
Apriori算法關(guān)聯(lián)規(guī)則
基于Hadoop平臺的并行DHP數(shù)據(jù)分析方法